CN103299610B

CN103299610B - 用于视频插入的方法和设备

Info

Publication number: CN103299610B
Application number: CN201280004942.6A
Authority: CN
Inventors: 黄浴; 郝强; 虹·希瑟·郁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2011-01-12
Filing date: 2012-01-04
Publication date: 2017-03-29
Anticipated expiration: 2032-01-04
Also published as: CN103299610A; US20120180084A1; WO2012094959A1

Abstract

本发明揭示一种将虚拟图像插入到视频帧序列中的系统和方法的一项实施例。所述方法包括：捕捉所述视频帧序列的几何特性；使用捕捉到的几何特性来界定视频帧区域，用于插入虚拟图像；使摄像机与所述捕捉到的几何特性配准；确定所述视频帧序列中的特征，以确定所界定的视频帧区域，用于插入所述虚拟图像；以及将所述虚拟图像插入在所界定的区域中。估计出消失点，以确定所述几何特性，而且先将所述虚拟图像与所述视频帧区域混合，然后再将所述虚拟图像插入在所述所界定的区域中。

Description

用于视频插入的方法和设备

本发明要求2011年12月30日递交的发明名称为“用于视频插入的方法和设备（Method and Apparatus for Video Insertion）”的第13/340,883号美国非临时申请案的在先申请优先权，并且要求2011年1月12日递交的发明名称为“用于视频插入的方法和设备（Method and Apparatus for Video Insertion)”的第61/432,051号美国临时申请案的在先申请优先权，这两个在先申请的内容以引入的方式并入本文本中。

技术领域

本发明涉及图像处理，而且在特定实施例中，本发明涉及一种用于视频配准的方法和设备。

背景技术

增强现实（“AR”）是物理真实世界环境的实时直接或间接图景所涉及的术语，其中物理真实世界环境要素通过声音或图形等计算机生成的虚拟感知输入得以增强。它涉及一个更为一般的概念，称为介导现实，在介导现实中，现实图景由计算机修改（甚至可能是减弱而不是增强）。因此，这项技术用来增强人们对现实的当前感知。

在增强现实的情况下，传统上会实时地在语义语境下通过环境要素来执行增强，例如，通过比赛期间电视上的比赛得分来执行。借助于先进的AR技术（例如，添加计算机视觉和对象识别），有关用户周围真实世界的信息可以进行交互和数字化使用。有关环境及其中对象的人工信息可以作为真实世界图景顶部的信息层进行存储和检索。

增强现实研究探索计算机生成的影像在直播视频流中的应用，以作为扩展真实世界的方式。先进研究包括使用头盔式显示器和虚拟视网膜显示器以实现视觉化目的，以及构建含有任意数目的传感器和调节器的可控环境。

用来将图像插入在直播视频序列中的现有技术存在许多限制，观察者使用高性能监测器便可见这些限制。富有挑战性的问题在于，如何以不太侵入的方式在期望或适当的时间将与背景相关的控制广告或其他商业化数据插入屏幕上的期望位置，从而使视频具有吸引力并以期望的方式呈现出来。

发明内容

现有技术的上述缺点和其他问题大体上得到解决或规避，而且通过本发明的示例性实施例大体上实现了技术优点，这些示例性实施例提供了将虚拟图像插入到视频帧序列中的所界定的区域中的系统、方法和设备。例如，一项实施例提供一种设备，所述设备包括处理系统，所述处理系统用于：捕捉所述视频帧序列的几何特性；使用捕捉到的几何特性来界定视频帧区域，用于插入虚拟图像；使摄像机与所述捕捉到的几何特性配准；确定视频帧序列中的特征，以确定所界定的视频帧区域，用于插入所述虚拟图像；以及将所述虚拟图像插入在所界定的区域中。

根据另一示例性实施例，提供一种将虚拟图像插入到视频帧序列中所界定的区域中的方法。所述方法包括：捕捉所述视频帧序列的几何特性；使用捕捉到的几何特性来界定视频帧区域，用于插入虚拟图像；使摄像机与所述捕捉到的几何特性配准；确定所述视频帧序列中的特征，以确定所界定的视频帧区域，用于插入所述虚拟图像；以及将所述虚拟图像插入在所界定的区域中。

以下描述将阐明本发明的额外特征和优点，并且这些特征和优点的一部分将在描述中显而易见，或者通过实践本发明能够推导出。本发明的特征和优点可以通过所附权利要求书中特别指出的仪器和组合来实现和获得。结合以下描述和所附权利要求书，本发明的这些和其他特征将变得更加显而易见，或者可以通过如下文所述实践本发明来进行了解。

附图说明

为了描述可以获得本发明的上述和其他有利特征的方式，参考附图中示出的本发明的具体实施例，将呈现出对上文简要描述的本发明的更具体描述。应理解，这些附图仅图示了本发明的典型实施例，因此不应视为限制本发明的范围。为了更完整地理解本发明及其优点，现在参考以下结合附图进行的描述，其中：

图1提供了根据一项实施例的用于将广告自动插入在视频流中的系统的流程图；

图2提供了根据一项实施例的足球球门虚拟内容插入系统的流程图；

图3示出了根据一项实施例的球门提取过程；

图4示出了根据一项实施例的水平线与垂直线之间的交叉点；

图5示出了根据一项实施例的对应于图像的十条线以及对应的网球场模型；

图6提供了根据一项实施例的网球场插入系统的流程图；

图7示出了根据一项实施例的垂直线从左到右的分类，以形成有序集；

图8提供了根据一项实施例的将广告插入建筑物正面系统的流程图；

图9提供了根据一项实施例的用于检测与建筑物正面相关的消失点的流程图；

图10示出了根据一项实施例的约束线的估计；以及

图11提供了可以用来实施本发明的实施例的示例性系统的框图。

请注意，除非另有说明，否则不同图中的对应编号和符号通常指代对应部分，而且为简洁起见，无需再次描述。

具体实施方式

下文将详细论述当前优选实施例的制作和使用。然而，应了解，本发明提供的许多适用发明性概念可以在多种具体上下文中实施。所论述的具体实施例仅仅用于说明制作和使用本发明的具体方式，而并不限制本发明的范围。

增强现实正越来越接近真实世界消费者应用。用户期望增强内容能更好地理解和享受真实场景，例如，观光、体育比赛和工作场所。其中一个应用就是视频或广告插入，这也是虚拟内容插入的一类。基本概念需要确定真实场景中的具体位置、跟踪这些位置，并且用虚拟广告来增强所述场景。具体区域检测依赖于场景分析。对于体育比赛（足球、网球、棒球、排球等）等一些典型的视频而言，球场会约束运动员的行动区域，但球场也是个插入广告的好地方，这些广告更容易被发现。球场建模用来提取场地区域，而且针对场地大小的标准模型用来检测具体区域，例如，足球中圈和球门、网球场或排球场等。

对于建筑物而言，正面可能适于张贴广告。现代建筑物展现出结构化视觉元素，例如，平行的直线和重复的窗户图案。因此，可以估计出消失点来确定结构的取向。那么，根据两组平行线得到的矩形区域用于插入广告。当捕捉到场景时，相机标定对于确定相机参数而言比较重要。基于此，将虚拟广告图像转换到检测区域，以便通过透视投影进行插入。

配准用来通过视觉跟踪而将虚拟广告与真实场景精确对准。视觉跟踪法可以基于特征，也可以基于区域，如计算机视觉领域广泛地论述。有时，来自其他传感器的全球定位系统（“GPS”）数据或信息（相机的惯性数据）可以用来使跟踪更为稳定。跟踪失败可能造成抖动和漂移，从而给用户留下不好的观看印象。虚实混合可能要考虑到对比度、色彩和分辨率的差异，才能让观众觉得插入是无缝的。显然，更为容易的是让虚拟广告适应真实场景。

一方面，一项实施例涉及通过场景分析将广告插入在视频内容的连续帧中，用于增强现实。

插入广告时可能考虑到在何时何处插入，以及如何吸引观众才能使他们不被打扰。对于足球视频而言，讨论在中圈和球门进行广告插入，然而，由于在这些场景中相机运动比较明显，因此插入的稳定性通常并不得到足够的重视。在网球视频中，检测场地区域，以通过模型拟合和跟踪来插入广告。在跟踪过程中，提取白色像素以匹配模型。针对建筑物正面，开发出半自主式交互方法，以将广告或画面插入在照片上。插入广告的适当位置并不容易检测到。配准用于使虚拟广告在街景视频中看起来较为真实。

多项实施例提供借助于场景分析将广告自动插入在视频的连续帧中的系统，用于增强现实。所述系统从逐帧分析具体区域开始，所述具体区域例如足球球门、网球场，或建筑物正面。相机标定参数的获取方式为，提取对应于真实世界中的垂直方向和水平方向的平行线。随后，适于插入虚拟内容的区域弯曲至前方，而且将广告插入并使之与真实场景混合。最后，混合区域弯曲回到原始位置。之后，除了在相邻帧之间应用跟踪技术，后面的帧采用类似方式进行处理。

本文中论述了具体区域中的三个典型广告插入系统的实施例，即，足球视频中球门杆的上方、网球视频中的球场上，以及街道视频中的建筑物正面上。

增强现实将虚拟对象实时混合到真实场景中。广告插入是一种AR应用。富有挑战性的问题在于，如何以不太侵入的方式在正确的位置（何处）和正确的时间（何时）插入与上下文相关的广告（什么），从而使视频以具有吸引力期望的方式（如何）呈现出来。

现在转到图1，示出了根据一项实施例的用于将广告自动插入视频流中的系统的流程图。作为实例的多项实施例提供一些技术，以便找到用于将广告自动插入足球、网球和街道场景中的插入点，并且提供使虚拟广告适应真实场景的方式。

用于将广告自动插入视频流中的系统包括初始化过程110和配准过程120。在块115中，网球场等的视频序列的输入105进行检查。如果并未在视频序列中检测到网球场等相关场景，例如，正在显示运动员的特写，从而无法展示网球场，那么流程会继续初始化过程110。在块125、130和135中，尝试检测网球场等具体区域，用检测到的数据来标定摄像机，以及将一系列线等模型拟合到所检测的区域，例如，在网球场的平坦表面上检测网球场的线并对其建模。对线建模可能包括形成网球场已知特性的最佳拟合。相机的特性经过确定，例如，相对于球场的位置、光学特性以及足够的参数，从而可以构建单应矩阵，使得相机图像数据能够映射到球场的模型上。单应矩阵提供线性变换，所述线性变换在观察者的观察点改变时保存所感觉到的观察对象的位置。由相机标定块130产生的数据传输到配准块120，用于视频流最初和后面的帧。所述数据还可以用于后面的帧序列，例如，商业广告或运动员采访之后的帧序列。因此，图像可以多次插入帧序列中。

在块140、145和150中，跟踪帧序列中移动的线，并且更新用于映射帧序列中的相关场景的单应矩阵。根据从帧序列中的若干图像获取的数据，对球场中的线的模型进行细化。

在块155中，将线的模型与从当前帧序列中得到的数据进行比较，以确定正在显示的场景是否对应于，例如，网球场，或者确定是否正在显示与网球场完全不同的内容。如果确定正在显示的场景对应于，例如，相关球场，或者确定模型中的线对应于场景中的线，那么在块165中，将运动滤波算法应用到存储在缓冲器中的帧序列，以便消除抖动或其他误差特性，例如，噪声，从而使所得的图像稳定，即，使得输入的场景和插入的图像都不会出现抖动。如下文稍后所述，运动滤波算法可以为简单的低通滤波器，或者说明数据统计特性的滤波器，例如，最小均方滤波器。最后，将虚拟广告等图像插入帧序列中，如块170所示，从而产生含有所插入的图像的帧序列，作为输出180。

首先在上述在足球球门的上方进行广告插入的背景下描述一个足球球门实例。假设足球球门是由两条垂直白线和两条平行白线形成的。确定白色像素，以便找到这些线。由于白色像素也出现在运动员制服或广告标识等其他区域，因此白色像素仅被约束在球场。因此，首先通过预先了解的球场红-绿-蓝三原色（“RGB”）编码的模型来提取所述球场。随后，提取球场内的白色像素，并且通过霍夫变换得到直线。单应矩阵/变换是根据图像位置与模型位置之间球门的四点对应确定的，所述单应矩阵/变换由理查德·哈特利（RichardHartley）和安德鲁·西塞曼（Andrew Zisserman）在以下书中进行描述：剑桥大学出版社（Cambridge University Press）2003年出版的标题为《计算机视觉中的多视图几何》（Multiple View Geometry in Computer Vision）的书，所述书以引入的方式并入本文本中。广告插入到球门杆上方的位置，方式是通过所计算的单应矩阵来使图像变形。通过这种方式，广告在球门杆的上方插入到第一帧中。

至于后面的帧，采用光流法来跟踪含有球门的平面，所述光流法如S·布启敏（S.Beauchemin）、J·巴伦（J.Barron）在1995年9月《美国计算机学会计算概观》（ACMComputing Surveys）第27（3）期中标题为“光流的计算（The Computation of OpticalFlow）”的文章中所述，该文章以引入的方式并入本文本中，或者采用关键点Kanade-Lucas-Tomasi（“KLT”）跟踪法来跟踪含有球门的平面，所述KLT跟踪法如J·石（J.Shi）和C·托马西（C.Tomasi）在1994年IEEE CVPR第593到600页标题为“良好的跟踪特征（Good Featuresto Track）”的文章中所述，该文章以引入的方式并入本文本中。单应矩阵/变换将当前图像的坐标系映射到真实球门的坐标系，根据跟踪过程进行更新。借助于所估计的单应矩阵，检测球场和白色像素。通过用球门模型对线进行拟合来细化所述单应矩阵/变换。随后用所估计的相机运动参数来更新所插入的广告。

对于广播足球视频而言，总会有一些帧在显示运动员特写，有一些帧在显示观众，甚至广告。这些帧目前将被忽略，以避免将广告插入在错误的场景和区域上。如果无法检测球场或者如果无法用球门模型对所检测的线进行正确拟合，那么将不会处理帧。为了让插入的广告坚持若干个帧（例如，五个），设置缓冲器，以便存储连续的帧，并且使用最小均方滤波器来消除高频噪声和减少抖动。

现在转到图2，示出了根据一项实施例的足球球门虚拟内容插入系统的流程图。块210表示上文先前参考图1所述的初始化块110。块210下面的图左侧的垂直路径表示针对第一帧执行的过程，且图右侧的垂直路径表示针对第二帧和后面的帧执行的过程。

现在论述球场提取，针对第一帧的球场提取由块215表示，且针对第二帧和后面的帧的球场提取由块255表示。通过手动在训练视频中逐帧选择球场区域，提前了解了一阶和二阶高斯RGB模型。假设图像I(x,y)中像素(x,y)的RGB值为V_i={R_i,G_i,B_i}（i=1,2,...widxhei）。“Widxhei”为用像素表示的图像大小之积。球场中RGB像素的平均值和方差通过以下等式得到：

通过将帧中的每个像素与RGB模型相比较，可以得到球场/场地掩模（mask）（在块230中针对第一帧，或者在块265中针对第二帧和后面的帧），方法为用二进制值G（y）将帧中具有RGB值[r,g,b]的像素y分类

其中t为比例因数（1.0 < t < 3.0），μ_R、μ_G、μ_B分别为红色、绿色和蓝色球场平均值，以及σ_R、σ_G、σ_B分别为红色、绿色和蓝色球场标准偏差。

尽管在此系统中广告在球门杆的上方插入，但也有可能将广告插入在地面上的罚球区中，这是因为已经得到罚球区中白色像素的二进制图像，并且相应地得到构成罚球模型的线。

采用霍夫变换在这些二进制图像上检测线，如块225所表示。霍夫变换在参数空间中采用表决程序，以选择候选对象作为累加器空间中的局部最大值。通常，最初的结果中会有若干条附近的线，而且检测过程由非最大值抑制进行细化。假设线的参数是由法线，其中，以及距原点的距离d确定的。如果|tan^-1(n_y/n_x)|<25°，则候选线分类为水平线，否则分类为垂直线。

单应矩阵/变换将当前图像的坐标系映射到真实球门的坐标系，根据模型拟合过程进行更新，所述模型拟合过程可以采用KLT跟踪法，如块245所表示。

现在论述相机标定/相机参数预测和虚拟内容插入，如块250所表示。从真实世界的平面区域到图像的映射如单应变换H所述，该单应变换是八参数透视变换，从而将模型坐标系中的位置p′映射到图像坐标p。这些位置均在齐次坐标中呈现，而且所述变换p=Hp'被改写成：

齐次坐标的标度不变，从而将H的自由度减少到仅为八。因此，存在四个点对应，这足以确定八个参数。在假设两条水平线h_i、h_j和两条垂直线v_m、v_n（i=m=1，j=n=2）的情况下，得到四个交叉点，这些交叉点为水平线h_i和h_k以及垂直线v_m和v_n产生点p₁、p₂、p₃、p₄，如图4所示：

p₁=h_i×v_m，p₂=h_i×v_n，p₃=h_j×v_m，p₄=h_j×v_n。（3）

应用RANSAC（随机抽样一致性）方法，该方法由M·A·费施勒（M.A.Fischler）和R·C·博尔斯（R.C.Bolles）在以下文章中提及：1981年《美国计算机学会通信》（Comm.ofthe ACM）第24期381到395页标题为“随机抽样一致性：模型拟合应用于图像分析和自动制图的范例（Random Sample Consensus:A Paradigm for Model Fitting withApplications to Image Analysis and Automated Cartography）”的文章，该文章以引入的方式并入本文本中，从而通过图像与对应模型之间的四个交叉点得到单应矩阵H。

图像插入位置选在球门杆的上方，而球门杆的高度是预先确定的，例如，球门高度的八分之一。针对插入区域中的位置P(x,y)，通过p'=H^-1p计算出模型坐标系中的对应位置p′。

至于特征跟踪，通过先前帧与当前帧之间的跟踪特征点得到相邻帧之间的单应变换。光流法是实现此目标的一种选择。只选择与球门处于相同平面的点。

现在论述块235和270所表示的运动滤波。在线检测、单应计算以及反投影过程中，必然会存在噪声，从而导致广告插入中出现抖动。要消除高频噪声，以提高性能。针对单应矩阵，将低通滤波器应用于保存在缓冲器中的多个（例如，五个）连续帧。

维纳滤波器用于使缓冲器中的插入位置平稳。假设第i帧中插入路径的角落位置（j=1～4)为先前的N个帧和后面的N个帧的线性组合。

根据训练样本可以估计出2N+1个系数。例如，如果缓冲器的数目为M，那么训练样本为M-2N。如果用于每个样本的2N+1个邻近值压缩成一个1×(2N+1)行向量，那么得到大小为(M-2N)×(2N+1)的数据矩阵C，和大小为(M-2N)×1的样本向量。根据最小平方（“LS”）公式min得到的最佳系数具有闭型解，表示为：

随后，通过等式（1）得到估计的位置。通过相机标定可以得到估计的单应矩阵。类似的想法可以参阅以下文章：2007年8月《IEEE电路系统视频技术学报》（IEEE Trans.onCSVT）第17（8）期953到963页的X·李（X.Li）的标题为“通过隐式和混合运动模型进行视频处理（Video Processing Via Implicit and Mixture Motion Models）”的文章，该文章以引入的方式并入本文本中。

随后，在块240中针对第一帧并且在块275中针对第二帧和后面的帧插入虚拟内容。

现在将参考图3进一步论述线检测，图3示出了根据一项实施例的球门提取过程。响应于输入帧310，在块315中执行球场提取，块315对应于上文参考图2说明和描述的块215和255。通过将RGB阈值设为，例如，（200,200,200)，得到球场内的白色像素，如块220和260所表示。使用图3所示的球门提取过程，首先检测此球场中的垂直杆，如块325所表示，随后检测非球场区域中垂直杆之间的水平杆，如块330所表示。由于水平线应具有类似的方向，因此，找到球场中平行于水平杆但与两条垂直杆相交的白线。最终，得到球门和运动场的白色像素掩模，如块335和340所表示。结果得到线状二进制图像，345。

现在，在将广告插入网球场的背景下描述第二实例。

现在转到图5，示出了根据一项实施例的对应于图像的十条线510以及对应的网球场模型520。网球场被视作由五条水平白线和五条垂直白线描绘的平坦表面，其中水平白线的两个实例为对应于模型中h’₁和h’₂的图像中h₁和h₂，垂直白线的两个实例为对应于模型中v’₁和v’₂的图像中v₁和v₂。在网球场的情况下，水平方向是指网球场平面中平行于网的从上到下的线。垂直方向是指网球场平面中垂直于网的从左到右的线。尽管真实世界中并不存在一些线的交叉点，但网球场模型的这些虚拟交叉点用于在稳定的框架中构建单应变换。

现在转到图6，示出了根据一项实施例的网球场广告插入过程的流程图。块210下面的图左侧的垂直路径表示针对第一帧执行的过程，且图右侧的垂直路径表示针对第二帧和后面的帧执行的过程。网球场中的广告插入过程所含有的元素类似于参考图2针对足球球门说明和描述的那些元素，为简洁起见，将不会重新描述类似的元素。然而，由于网球场景中存在更多的线，因此，要检测这些线并且在水平线和垂直线的若干个组合中找到最佳单应变换更为复杂。

网球场广告插入系统中使用相机参数细化过程665，以取代上文参考图2说明和描述的模型拟合块265。线检测和模型拟合的详细过程也不同于足球情景所用的那些过程。通过线的最佳组合，应用相同的过程，以便通过对应的四个交叉点来计算单应矩阵。随后将虚拟内容插入所选区域中。使用KLT特征跟踪法来估计相机参数，随后对球场和线检测进行细化。下文将进一步描述每个模块的细节。

首先描述针对网球场的块615和655中的球场提取。不同的大满贯赛事有四种典型的网球场，所述大满贯赛事即为美国公开赛、法国公开赛、澳大利亚公开赛以及温布尔顿锦标赛。对于美国公开赛和澳大利亚公开赛而言，场地的内部部分和外部部分有两种不同的颜色。在这两种情况下，针对这两部分“了解”高斯RGB模型。

在进行块625中的线检测之前，通过将像素值与场地区域中的RGB阈值（140,140,140)相比较，在块620和660中得到白色像素的二进制图像。使这些白色像素变薄，以便通过霍夫变换来减少块625中的线检测误差。然而，最初的结果通常含有太多附近的线，而且这些会由非最大值抑制进行细化和丢弃。

将集合L定义为候选线，该候选线含有与之接近的白色像素。得到更稳健的线参数（nx,ny,-d)的方式为，解出下述最小均方（“LMS”）问题，以便得到线参数（nx,ny,-d)。

L={p=(x,y)^T|l(x,y)=1^|(n_xn_y-d)·p|<σ_r}

候选线分类成水平线集和垂直线集。此外，垂直线集从左到右排序，水平线集从上到下排序。线是根据它们距左边界或上边界上的点的距离来分类的。图7示出了根据一项实施例的将垂直线从左到右分类的实例，所述垂直线编号为1、2、3、4、5，从而形成有序集。

针对模型拟合，假设存在C_H条水平候选线和C_v条垂直候选线。线的可能输入组合的数目为C_HC_v(C_H-1)(C_v-1)/4。从每个线集中选择两条线，随后通过将四个交叉点映射到模型来得到猜测的单应矩阵H。在线的所有组合中，可以找到最佳拟合模型场地的一个组合。

根据所猜测的单应矩阵H，借助于等式p_i=Hp_i'，评估过程将模型的所有线段变换成图像坐标。模型线的每个交叉点p₁'p'₂均被变换成图像坐标p₁p₂。图像坐标p₁p₂之间的线段在沿着线的离散位置处进行抽样，而且如果像素是白色场地线候选像素，那么评估值会增加1.0，如果不是的话，那么评估值会减少0.5。并不考虑图像外部的像素。最终估计出每个参数集，方式是将得分计算成：

在已经评估所有的标定矩阵之后，将匹配得分最高的矩阵选作最佳标定参数设置。针对连续帧，估计出使用KLT特征跟踪结果的单应矩阵。评估过程将更简单，而且由于估计出的单应矩阵会约束可能的线位置，因此需要在少量的组合中寻找最佳匹配得分。

针对色彩协调，采用与针对足球球门相同的方式插入虚拟内容。由于广告将要插入在场地上，因此，最好让广告的色彩与运动场协调，这样就不会打扰观众。有关色彩协调的细节可以参阅以下文章：2010年《可视通信与图像显示杂志》（J.of VisualCommunication and Image Representation）第21（7)期595到612页的C·常（C.Chang）、K·谢（K.Hsieh）、M·蒋（M.Chiang）、J·吴（J.Wu）的标题为“用于网球视频的虚拟显著广告（Virtual Spotlighted Advertising for Tennis Videos）”的文章，该文章以引入的方式并入本文本中。

令I(x,y)、I_Ad(x,y)以及I'(x,y)分别为像素(x,y)处的原始图像值、广告值以及实际插入值。场地掩模为I_M(x,y)，如果(x,y)在场地区域φ中，则所述场地掩模为1，否则为0。随后根据以下等式得到场地掩模和实际插入值：

I'(x,y)=(1-αI_M(x,y))I(x,y)+αI_M(x,y)I_Ad(x,y)。（7）

基于对比度敏感函数，通过下式来估计参数α（正常的不透明度）：

其中A为幅度调谐器，f₀为空间频率衰减常数（用度表示），f为对比度敏感函数的空间频率（每度的周期），为通用偏心率（用度表示），θ_e(p,p_f)为偏心率，p为图像中的给定点，p_f为注视点（例如，网球比赛中的运动员），θ₀为半分辨率偏心常数，θ_f为全分辨率偏心率（用度表示），以及D_v用像素表示的观看距离。这些实例中使用以下值：A=0.8，f₀=0.106，f=8，θ_f=0.5°，以及θ₀=2.3°。观看距离Dv接近视频中图像宽度的2.6倍。

现在就建筑物正面上的广告插入来描述第三实例。

现在转到图8，示出了根据一项实施例的用于将广告插入在建筑物正面的流程图。在图8中，假设已经执行了预先了解的球场RGB模型，例如，参考图2和图6所述的RGB模型210。图左侧的垂直路径表示针对第一帧执行的过程，且图右侧的垂直路径表示针对第二帧和后面的帧执行的过程。下文将描述每个模块的细节。

现代建筑物的正面被视作平面，而且适用于插入虚拟内容。然而，由于建筑物的取向差别较大，因此，比运动情景更难插入广告。建筑物正面的广告插入首先提取消失点，随后标记与对应消失点相关的线。类似于网球和足球的情况，水平和垂直线集中的两条线进行组合，以计算出将真实世界坐标系映射到图像坐标系的单应矩阵。然而，建筑物正面中通常存在更多条线，实际上无法像在网球情况下那样列举每个组合。在块810中，提取主要的消失点。在块815中，尝试得到正面中的最大矩形，所述矩形要能够通过角落验证和主方向验证。随后，虚拟内容可以插入在最大矩形中。

在连续帧中，KLT特征跟踪法追踪用于估计出单应矩阵的角落特征点。为了避免抖动，在块235中，使用缓冲器来存储最近的若干个（例如，五个）帧，并且应用低通滤波器或卡尔曼滤波器，以使单应矩阵平滑。

在块810中，为了提取主要的消失点，首先检测消失点，以便事先了解建筑物正面的几何性质。使用如J·塔迪夫（J.Tardif）在以下文章所述的非迭代法：2009年IEEE ICCV第1250到1257页的标题为“用于快速准确的消失点检测的非迭代法（Non-IterativeApproach for Fast and Accurate Vanishing Point Detection）”的文章，所述文章以引入的方式并入本文本中，但稍作修改。此方法避免表示高斯球上的边缘。事实上，该方法直接标记所述边缘。

现在转到图9，示出了根据一项实施例的用于检测与建筑物正面相关的消失点的流程图。

针对第一帧910，算法从在块915中通过Canny检测得到边缘的分解集开始。输入的是灰度或彩色图像，且输出的是二进制图像，即，黑白图像。白色点表示边缘。随后进行非最大值抑制，以便对一个像素厚的边缘进行映射。随后，结点（junction）被消除（块920），而且连通分支使用种子填充（flood-fill）连接起来（块925）。随后通过浏览坐标表将每个分支（可以由曲线表示）分成平直边缘。当对线进行拟合的标准偏差大于一个像素时，所述分支将会分开。相同线上的单独短线段也合并起来，以减少误差，而且还降低对线进行分类过程中的计算复杂性。

下表1中列出了用来表示直线的标记。此外，表示成D（ν, ε_j)的函数通过以下等式以闭型的形式提供了消失点v与边缘ε_j之间的一致度：

其中

点p和线l（如图10所示，该图示出了根据一项实施例的对约束线的估计）的正交距离定义为：

表1所检测的边缘的定义

另一函数表示成V（S,w)，其中w为权向量，该函数使用边缘的集合S来计算消失点。

输入N个边缘的集合935，得到消失点的集合以及边缘分类，即，分配给消失点或标记为界外边缘。解决方案依赖于在块940中初始化的J-Linkage算法，以执行分类。

下文在消失点检测的背景下给出了J-Linkage算法的简要概述。在J-Linkage算法中，参数是一致性阈值φ和消失点假设的数目M（例如，φ=2像素，M=500）。

第一步是随机选择两个边缘的M个最小样本集S₁,S₂,...,S_M，以及针对这些样本集中的每个样本集计算消失点假设（为一的向量，即，权相等）。第二步是构建偏好矩阵P、N×M布尔矩阵。每行对应于边缘ε_n，而每列对应于假设ν_m。计算出每个假设的一致集，并将其复制到P的第m列。P的每行称为边缘ε_n的偏好集的特性函数：如果ν_m和ε_n是一致的，即，当D（ν,ε_n)≤φ时，P（n,m)=1，否则P（n,m)=0。

J-Linkage算法基于的假设是，对应于相同消失点的边缘倾向于具有类似的偏好集。实际上，对应于相同消失点的两个边缘的任何非退化选择都会产生解，而这些解具有类似的一致集，如果这些一致集不相同的话。所述算法通过偏好集来表示边缘，并且使这些边缘成群集，如下文进一步描述。

边缘群集的偏好集定义为该群集成员的偏好集的交集。它使用两个群集之间的杰卡德距离（Jaccard distance），表示为：

其中A和B为每个群集的偏好集。如果集合相同，则所述距离等于0，如果集合不相交，则所述距离等于1。所述算法继续将每个边缘置于它自己的群集中。每次迭代时，杰卡德距离最小的两个群集合并起来（块945）。上述操作重复执行，直到所有群集间的杰卡德距离等于1为止。通常得到3到7个群集。边缘群集形成之后，针对每个群集计算消失点。界外边缘出现在很小的群集中，通常是两个边缘的群集。如果未执行细化，则将小群集分类成界外群集。

针对每个群集重新计算消失点（块950），并且使用统计期望最大化（“EM”）算法进行细化。优化问题写成：

它由W·H·普莱斯（W.H.Press）、B·P·弗兰纳里（B.P.Flannery）、S·A·图科斯基（S.A.Teukolsky）、W·T·维特林（W.T.Vetterling）在以下书中描述的Lvenberg-Marquardt最小化算法解出：剑桥大学出版社1988年出版的标题为《C数值算法》（NumericalRecipes in C）的书，所述书以引入的方式并入本文本中。现在函数V(S,w)的定义为

这个定义较为明确。

针对矩形检测，得到对应于两个不同的主要消失点的两个线集。类似地，通过两条水平和垂直线来估计出单应矩阵。然而，存在很多短线，相同线上的线段会合并，而且附近或太短的线被抑制。此外，从左到右或从上到下对候选线进行分类。

针对两个线集的组合，形成矩形，但并非每个线集都在建筑物的正面上。使用两个观察事实来测试这些矩形假设。其中一个是四个交叉点为建筑物的实际角落，这除去了线在空中交叉的情况。另一个是此图像块的正视图含有水平方向和垂直方向。使用梯度直方图来找到正视图块的主方向。将广告插入在通过两个测试的最大矩形上。

后面这些步骤由块950、955和960表示，以形成三个主方向965。

建筑物正面中有很多角落，因此，使用KLT特征跟踪法比较合适。

因此，已针对三个实例描述了多项实施例。然而，应理解，这些概念可以应用于额外的区域。

如上所述，多项实施例确定在何处、何时插入广告，以及如何将广告放入真实场景中，而不会使足球、网球和街道图景等中出现抖动和未对准现象。各项实施例针对虚实场景配准提供跟踪和检测的闭环组合。揭示了针对广告插入而对特定区域进行的自动检测。

多项实施例具有许多特征和优点。包括：

（1）依据所提取的图像进行线检测，然而针对足球和网球视频只掩盖球场上的像素，

（2）针对相机估计（单应）进行闭环检测和跟踪，其中跟踪法基于光流或关键点，而且通过依据跟踪进行的预测来细化检测，

（3）在虚实配准之后进行运动滤波，以避免闪烁，以及

（4）将广告自动插入到街道视频的建筑物正面场景中。

多项实施例可以用于内容传送网络（“CDN”），例如，用于互联网中明显将内容传送到终端用户的计算机系统。其他实施例可以与有线电视、互联网协议电视（“IPTV”）以及移动电视等一起使用。例如，多项实施例可以用于视频广告服务器、可触击的视频，以及目标移动广告。

图11示出了可以用于实施本发明的多项实施例的处理系统。此图式仅仅示出了许多可能配置中的一个实例。在这种情况下，主要的处理在处理器中执行，所述处理器可以为微处理器、数字信号处理器、专用集成电路（“ASIC”）、专用电路，或任何其他合适的处理装置，或者它们的组合。程序代码（例如，实施上述算法的代码）和数据可以存储在存储器或任何其他非瞬时存储媒体中。所述存储器可以为动态随机存取存储器（“DRAM”）等本地存储器，或者大容量存储器，例如，硬盘驱动器、固态驱动器（“SSD”）、非易失性随机存取存储器（“NVRAM”）、光盘驱动器或其他存储器（可以是本地或远程存储器）。虽然使用单个块在功能上说明了存储器，但应理解，可以使用一个或多个硬件块来实施该功能。

所述处理器可以用来在执行如本文所述的方法的过程中实施多个步骤。例如，所述处理器可以在不同时间用作特定的功能单元，以便实施在执行本发明的技术时所涉及的子任务。或者，可以使用不同的硬件块（例如，与处理器相同或不同）来执行不同的功能。在其他实施例中，某些子任务由处理器来执行，而其他子任务则使用单独的电路来执行。

图11还示出了视频源和广告信息源。这些块表示即将添加的视频源和材料，如本文本所述。视频修改之后可以通过网络或本地发送到显示器。在一个系统中，各元素均可以位于远程位置，或者各元素相对于彼此而言可以是本地的。诸如本文所示的那些实施例提供一种用于将虚拟图像插入到视频帧序列中的系统和方法。例如，诸如本文所揭示的那些实施例提供一种用于将虚拟图像插入到视频帧序列中的设备，所述设备包括处理器，所述处理器用于：捕捉视频帧序列的几何特性；使用捕捉到的几何特性来界定视频帧区域，用于插入虚拟图像；使摄像机与捕捉到的几何特性配准；确定视频帧序列的特征，以便确定所界定的视频帧区域，用于插入虚拟图像；以及将虚拟图像插入到所界定的区域中。所述设备进一步包括存储器，所述存储器耦接到所述处理器，并且用于存储视频帧序列以及插入到所界定的区域中的虚拟图像。

在一项实施例中，估计出消失点，以便确定几何特性。可以使用两组平行线来确定所界定的区域。在一项实施例中，使用高于RGB阈值水平的白色像素，以捕捉几何特性。可以使用对应于真实世界中的垂直和水平方向的平行线来配准摄像机。在一项实施例中，先将虚拟图像与视频帧区域混合，然后再将虚拟图像插入所界定的区域中。在一项实施例中，使用单应矩阵来确定视频帧序列中的特征。在一项实施例中，将虚拟图像插入所界定的区域中的步骤包括用所估计的相机运动参数来更新虚拟图像。在一项实施例中，捕捉视频帧序列的几何特性的步骤包括将可以应用的霍夫变换应用到从视频帧序列中提取的白色像素，以便捕捉视频帧序列的几何特性。在一项实施例中，捕捉视频帧序列的几何特性的步骤包括提取所检测的线的消失点。

虽然已参考说明性实施例描述了本发明，但此描述并不意图限制本发明。所属领域的技术人员在参考该描述后会了解说明性实施例的各种修改和组合，以及本发明的其他实施例。因此，所附权利要求书意图涵盖任何此类修改或实施例。

Claims

1.一种用于将虚拟图像插入到视频帧序列中的方法，所述方法包括：

捕捉所述视频帧序列的几何特性；

使用捕捉到的所述几何特性来自动选择视频帧区域，用于插入虚拟图像；

确定所述视频帧序列中的特征，所述特征包括位置信息和光学特性中的至少一者；

根据所述特征，在所述已选择的视频帧区域中界定待插入所述虚拟图像的区域；以及

将所述虚拟图像插入在所界定的所述区域中。

2.根据权利要求1所述的方法，其进一步包括使摄像机与所述捕捉到的几何特性配准，所述配准包括：通过视觉跟踪使所述虚拟图像和所述区域的边界对准。

3.根据权利要求1所述的方法，其中估计出消失点，以便确定所述几何特性。

4.根据权利要求1所述的方法，其中使用两组平行线来确定所界定的所述区域。

5.根据权利要求1所述的方法，其中使用高于RGB阈值水平的白色像素来捕捉所述几何特性。

6.根据权利要求1所述的方法，其中使用对应于真实世界中的垂直和水平方向的平行线来配准所述摄像机。

7.根据权利要求1所述的方法，其中先将所述虚拟图像与所述视频帧区域混合，然后再将所述虚拟图像插入在所界定的所述区域中。

8.根据权利要求1所述的方法，其中使用单应矩阵来确定所述视频帧序列中的特征。

9.根据权利要求1所述的方法，其中将所述虚拟图像插入在所界定的所述区域中的步骤包括用所估计的相机运动参数对所述虚拟图像进行运动滤波，生成更新的所述虚拟图像。

10.根据权利要求1所述的方法，其中捕捉所述视频帧序列的几何特性的步骤包括将霍夫变换应用到从所述视频帧序列中提取的白色像素。

11.根据权利要求1所述的方法，其中捕捉所述视频帧序列的几何特性的步骤包括提取所检测的线的消失点。

12.一种用来将虚拟图像插入到视频帧序列中的设备，所述设备包括：

处理器，所述处理器用于：

捕捉所述视频帧序列的几何特性，

用捕捉到的所述几何特性来自动选择视频帧区域，用于插入虚拟图像，

根据所述特征，在所述已选择的视频帧区域中界定待插入所述虚拟图像的区域；

使摄像机与所述捕捉到的几何特性配准，所述配准包括：通过视觉跟踪使所述虚拟图像和所述区域的边界对准；

将所述虚拟图像插入到所界定的所述区域中；以及

耦接到所述处理器的存储器，所述存储器用于存储所述视频帧序列以及插入到所述所界定的区域中的所述虚拟图像。

13.根据权利要求12所述的设备，其中消失点被估计出，以便确定所述几何特性。

14.根据权利要求12所述的设备，其中两组平行线用来确定所界定的所述区域。

15.根据权利要求12所述的设备，其中高于RGB阈值水平的白色像素用来捕捉所述几何特性。

16.根据权利要求12所述的设备，其中对应于真实世界中的垂直和水平方向的平行线用来配准所述摄像机。

17.根据权利要求12所述的设备，其中所述虚拟图像先与所述视频帧区域混合，然后所述虚拟图像再插入在所界定的所述区域中。

18.根据权利要求12所述的设备，其中单应矩阵用来确定所述视频帧序列中的特征。

19.根据权利要求12所述的设备，其中所述虚拟图像插入在所界定的所述区域中包括用所估计的相机运动参数对所述虚拟图像进行运动滤波，生成更新的所述虚拟图像。

20.根据权利要求12所述的设备，其中捕捉所述视频帧序列的几何特性包括将霍夫变换应用到从所述视频帧序列中提取的白色像素。