CN102726051A

CN102726051A - 3d视频中的虚拟插件

Info

Publication number: CN102726051A
Application number: CN2010800489200A
Authority: CN
Inventors: 谢尔登·卡茨; 格雷戈里·豪斯; 霍华德·肯尼迪
Original assignee: Disney Enterprises Inc
Current assignee: Disney Enterprises Inc
Priority date: 2009-09-11
Filing date: 2010-09-10
Publication date: 2012-10-10
Anticipated expiration: 2030-09-10
Also published as: BR112012005477B1; MX2012002948A; BR112012005477A2; JP2013504938A; JP5801812B2; EP2476259A1; WO2011031968A1; CN102726051B; US20110216167A1; US10652519B2

Abstract

实施方式涉及3D视频中的插件。虚拟相机模型使插件能够相对于3D视频的左右信道相符，以使3D精度和插件的真实性最大化。相机被形成为复合体，并且可以从其他模型中得到。相机模型可以基于3D视频的视觉分析，以及可以基于包括前束和目镜间距的3D相机数据。相机数据可以通过使用连接到3D相机系统的仪器所收集的信息中获得、基于3D视频的视觉分析获得、或者使用测试设备所收集的信息和3D视频的视觉分析相结合而获得。可以在现场或远程站点制作插件，而且可以将相机数据嵌入3D视频和/或单独地传送到远程站点。可以基于插件类型、3D视频场景构成和/或用户反馈，在3D空间中调整插件，包括3D插件的交互式调整以及考虑到用户感觉眼部疲劳的调整。

Description

3D视频中的虚拟插件

技术背景

技术领域

各实施方式涉及3D视频中的虚拟插件。

背景技术

向观众提供视频内容的方法可以使用立体技术将节目内容投射到3D区域中。具有3D能力的系统，可以在单独的信道传送左右眼图像，提供场景的视差视图。虽然将虚拟插件添加到传统2D视频中的方法是已知的，但是这些已知的2D方法不适于向3D视频的观众提供最佳的观看体验。因此，需要在3D视频中提供看似逼真的虚拟插件，使观众感觉插件如同原作品的一部分。

附图简要说明

为提供进一步的理解所包含的附图并入并构成说明书的一部分，附图与文字描述一起示出了实施方式，并且用于解释本发明的原理。在附图中：

图1是用于在2D视频中生成插件和增强内容的实施方式的示意图。

图2是用于在3D视频中生成插件和增强内容的实施方式的示意图。

图3A示出了根据实施方式的示例性3D遮挡方法的第一视图。

图3B示出了图3A的示例性3D遮挡方法的第二视图。

图4A示出了根据实施方式的示例性3D遮挡方法的第一视图。

图4B示出了图4A的示例性3D遮挡方法的第二视图。

图5是用于在3D视频中生成插件和增强内容的实施方式的示意图。

图6示出了根据实施方式的示例性3D视频的制作与发布渠道。

图7是能够实现实施方式的示例性计算机系统的方框图。

现在将参照附图描述本发明的实施方式。在附图中，相同的参考标号可表示相同的或功能类似的元件。

详细说明

虽然在本文中参照用于特定应用的说明性实施方式描述了本发明，但是应当理解本发明并不限于此。本领域的技术人员根据本文中所提供的教导将认识到，在本发明以及本发明的其它领域的范围中的其他修改、应用及实施方式具有重要的实用性。

实施方式包括将例如广告徽标、得分表和橄榄球比赛中的首攻线的增强内容插入3D视频内容中。实施方式涉及3D媒体，包括但不限于：视频、电视(广播、有线、卫星、光纤)、电影院、因特网、移动装置(移动电话或其他无线装置)以及传送3D视频媒体的其他平台。

2D视频中的插件和增强内容可以与视频集成在一起，以使它们逼真地呈现为原视频的一部分。例如，插件可以实现为Rosser等人于1992年1月28日提交的、题为“Television Displays Having Selected Inserted Indicia(具有选择的插入标记的电视显示器)”的第5,264,933号美国专利中描述的那样，该专利的内容通过引用整体并入本文。2D视频的虚拟插入系统可以使用多种搜索技术，以识别场景并构造场景的虚拟相机模型，以用于添加虚拟插件。相机模型可以包括相机位置以及使相机能够参照场景定位的其它参数。一旦识别出场景，就可以通过用于追踪视频场景的多种方法来计算随后的帧模型。遮挡处理可以使视频中的前景对象能够遮挡添加到场景背景中的插件。例如在色度键控系统中，可以基于场景颜色进行遮挡计算。例如在插件与节目视频混合之前，可以使用市售的图形渲染器来渲染插件。本文中提及的实施方式可以在匹配的移动系统中使用，在匹配的移动系统中，动作信息从场景中提取出并且用于使插件的移动与场景的移动相匹配。

相机模型可以包括涉及安装于三脚架的相机的物理测量的多个参数，例如摇动、倾斜、转动、像距、x坐标、y坐标、z坐标。也可以使用其他参数，例如用于径向透镜失真的参数。相机数据参数可以通过使用连接至3D相机系统的仪器所收集的数据中获得、可基于3D视频的视觉分析获得、或者可以通过连接至3D相机系统的仪器所收集的数据与3D视频的视觉分析相结合而获得。相机模型自身可以包括描述一个或两个3D视频信道的视野所必需的全部信息的一部分。例如，它可以包括单个参数，例如与左信道或右信道有关的变焦或像距。可选的单个信道参数包括但不限于，聚焦、转动、镜片失真等。针对一个信道视图而确定的相机数据参数可以与另一信道视图独立地获得。此外，相机模型可以被限制到与3D视频的两个信道有关的一个或多个参数(相机位置、摇动、倾斜)。可以使用各个信道视图之间的相似性来确定相机数据参数。此外，相机模型可以被限制到描述左右信道的关系的参数(目镜间距、前束角等)。可以使用各个信道视图之间的差异来确定相机数据参数。应当理解，可以以宽范围的测量单元或装置来表示相机数据参数。3D视频的复合相机模型可以由用于3D视频的各个信道的相机模型组成。

在本发明的实施方式中，相机模型可以表示为一个或两个3x3矩阵。在另一个实施方式中，相机模型可以使用其他维数矩阵来生成。矩阵表示的元素或参数可以被认为是相机数据参数。矩阵参数可以包括相机外部参数(例如相机位置坐标)和内部参数(例如传感器垂直和水平比例因数)。也可以使用其他方法，例如基于单应性的方法，本发明并不意味着依赖特定方法计算相机模型。例如，相机模型可以简单地提供当前相机信道视图与某些物理参考之间的单应关系，例如包括篮球场的平面。在另一实施例中，相机模型可以包括输入视图和场景的参考图像之间的单应映射，其中参考图像用于限定图形插件的位置。单应映射的元素或参数可以被认为是相机数据参数。在本发明的另一些实施方式中，相机模型可以是3D视频信道中的对象、一组对象或一部分场景的位置的表示。就所有相机模型来说，视野中的对象位置可以随时间更新。

基于将虚拟插件添加到2D视频中的实施方式可以合并，以生成用于左右眼视频信道的独立插件，以便可能在3D视频系统中使用。这些实施方式可以解决可能在每个左右信道的相机模型中出现的插入错误。例如，由于搜索或追踪视频信道中的噪声像素数据，可能产生这些模型误差。使用模板块的追踪器可以具有随机部件，即，块可以随机地选择，并且可以不提供另一实施例中的信道之间的一致行为。当将虚拟插件添加到2D视频中时，搜索模型误差例如可能使放在篮球场上的虚拟广告在球场上错位0.5米。2D视频的观众可能不会发现这个错误，尤其是在徽标位置相对远离附近的突出特征(例如相交的球场线)的情况下。

但是，在3D视频中，由于相对于彼此错位的左右眼图像，所以左右眼图像的类似错位误差可能令人不适，尤其是在误差没有趋于互相追踪的情况下。因此，如本文所述，将左右眼相机模型参考共同参考物或保持左右信道模型之间的相对差异，可以改善观众观看3D视频中的虚拟插件的体验。

图1是用于在2D视频中生成插件和增强内容的实施方式的示意图，以使得它们可以向观众逼真地呈现为原视频的一部分。例如节目视频供应/视频输入的视频源被输入到子系统中，作为视频输入101。视频输入101可以被修改为包括插件和增强内容，并且输出为视频输出121。主控制器103表示可以控制和协调子系统块103-113的硬件和/或软件模块。搜索块105表示可分析视频输入101的硬件和/或软件模块，以计算相机模型和运算用于节目视频场景的场景几何结构。追踪块107表示可追踪节目视频中的对象的硬件和/或软件模块，以降低对搜索块105的处理要求并且能够更加顺利地追踪与视频输入101的背景有关的插件和增强内容。遮挡块109表示可确定前景对象应何时遮挡插件和增强内容并生成遮挡键(key)的硬件和/或软件模块，以使混合器113能够显示遮挡后的插件和增强内容。渲染块111表示可接收相机模型、插件位置、遮挡键及其他信息的硬件和/或软件模块，以渲染与视频输出121相混合的插件和增强内容。与3D视频结合或以其它方式混合的任何类型的真实或虚拟图形都可以认为是3D视频中的具有增强内容的插件。此示例性实施方式仅供说明之用，并且各实施方式可以用包括针对一个或多个块的硬件、软件或硬件和软件结合的各种其他结构来实现。例如，多个渲染块111和混合器113可以用作后端处理器，以向不同观众提供多种类型的插件和增强内容。例如，在某些实施方式中，搜索块105和追踪块107可以结合。在其他实施例中，搜索块105、追踪块107和遮挡块109可以结合。

生成相机模型的基本方法可以包括连接至相机系统的物理传感器、视频信道的计算机视觉或图像处理分析、或者物理传感器测量和视频分析处理的结合。视觉处理可以由图1中的搜索块105、追踪块107或遮挡块109进行。对于搜索块105，可以使用视觉分析来获得场景中的视觉特征的图像或屏幕位置。通过图像特征位置及其相应的3D场景位置，可以生成用于特定帧的相机模型。这些方法已在序号为12/659,628的美国专利申请中描述，其内容通过引用整体并入本文。对于追踪块107，可以使用视觉分析来追踪特征的位置或一系列图像的帧之间的兴趣点。在Astle的第6,741,725号美国专利中描述了一种示例性操作，该专利的内容通过引用整体并入本文。对于遮挡块109，可以使用视觉分析将图像的前景像素与背景像素区分开。在Jeffers等人的第7,015,978号美国专利中描述了一种基于颜色的方法，该专利的内容通过引用整体并入本文。

图2示出了生成3D视频中的插件和增强内容的示例性实施方式的示意性布局。控制器290可以使用将虚拟插件添加到2D视频中的方法。控制器290表示为可以与左右信道的视频处理单元联接的硬件和/或软件模块。作为左视频输入201的左眼视频信道的节目视频被输入到相应的子系统搜索块205、追踪块207、遮挡块209和混合器213。作为右视频输入251的右眼视频信道的节目视频被输入到相应的子系统搜索块255、追踪块257、遮挡块259和混合器263。可以将左/右视频输入201、251修改为包括插件和增强内容，并且分别输出为左视频输出221和右视频输出271。

控制器290可以控制和协调各种子系统块。搜索块205、255表示可以分析左/右视频输入201、251且计算用于节目视频场景的相机模型的硬件和/或软件模块。追踪块207、257表示可以追踪视频中的对象的硬件和/或软件模块，以降低对搜索块205、255的处理要求，并且更加顺利地追踪关于左/右视频输入201、251的背景的插件和增强内容。遮挡块209、259表示可确定前景对象应何时遮挡插件和增强内容的硬件和/或软件模块，以便生成遮挡键使混合器213、263能够显示遮挡后的插件和增强内容。渲染块211、261表示可接收相机及其他模型、插件位置、遮挡键及其他信息的硬件和/或软件模块，以渲染与左/右视频输出221、271相混合的插件和增强内容。

控制器290可以包括模型管理器292，模型管理器292监测搜索块205、255和追踪块207、257，以针对左右视频信道确定当前的相机模型信息。模型管理器292可以参考左右视频信道的每个相机模型，以使左右相机模型相符(reconcile)。例如，模型管理器292可以计算位于左右信道相机模型之间的、具有在3D全局坐标中的相机位置的平均/参考相机模型。在某些情况下，优选可以将左信道相机模型或者右信道相机模型用作共同参考。使用与左右视频信道有关的平均或共同参考相机模型可以降低相机模型在左右信道之间的不匹配。例如，左右信道相机模型可以通过固定量或距离偏置到共同参考相机模型。作为示例，左右信道相机模型可以具有在3D全局坐标中距共同参考相机模型的3D全局坐标的固定空间距离。对于已知3D相机系统而言，左右相机模型之间的距离例如可以对应于左右相机镜头之间的距离。相机镜头之间的距离、或目镜距离或间距可以在视频序列中变化，但是平均距离可以适用于某些应用。对于另一些应用，例如可能需要以已知公式或近似法建模目镜间距。在另一实施例中，与共同参考相机模型的偏置可以使用计算立体图像之间视差的方法来计算。这可以单独地通过左信道或右信道的视觉分析、或者通过将左右信道的视觉分析结合地来实现。视差或立体分析可以用于确定或获得3D视频的信道之间的关系。可以基于3D视频信道的视差或立体分析来获得相机数据参数。信道之间的相符性也可以用于参数的子集。例如，变焦或放大数据可以基于在左右相机模型相符之前的平均变焦值而相符。在此实施例中，变焦数据能够在应用于计算相机模型之前进行噪声滤波。可选地，可以使用最小均方误差拟合来发现与输入参数的最佳匹配。

将物理参数限制到有效的预期范围是可以在相符性处理中使用的另一方法。其可用于某个时间以及一段时间中的单独的多个点。例如，可以界限或平滑特定参数的变化率(例如变焦)。这可以部分地通过3D视频信道的图像处理或物理传感器测量的信号处理来实现。相符性处理可以使用已知的滤波技术、统计方法、阈值处理方法或其他方法。相符性处理可用于单独相机数据参数或一组相机数据参数。一组相机数据参数(例如复合相机模型)可以与一个或多个相机数据参数一致或者相相符。在某些实施方式中，使复合相机模型和一个或多个单独相机数据参数与一个或多个单独相机数据参数的初步估计一致或者相符。相符性处理可以包括使相机模型或相机数据参数与其他相机数据参数一致。在一个实施方式中，与第一相机数据参数相符的一个或多个相机数据参数或相机模型可以与第一相机数据参数同时生成。在另一个实施方式中，与第一相机数据参数相符的一个或多个相机数据参数或相机模型可以在第一相机数据参数之后顺序地生成。在可选的实施方式中，与第一和第二相机数据参数相符的一个或多个相机数据参数或相机模型可以与第一和第二相机数据参数同时生成，或者在第一和第二相机数据参数生成之后顺序地生成。相符性处理可以基于3D视频的信道、3D信道的视觉分析、从3D视频信道获得的相机参数、传感器测量或3D相机系统的相机参数或者它们的任意组合。相符性处理不限于特定方法或一类方法。

对于某些3D应用，可能期望使用与2D应用相比更频繁的搜索模型，以使随场景追踪而生成的漂移最小化。还可能期望使左右信道相对于彼此的相对漂移最小化。例如，3D插件应用的搜索精度期望考虑到与会聚到3D场景的错误位置的3D对象有关的可能误差。与2D图像中的位置误差不同，这些误差可能使不精确的插件非常不自然地以3D形式呈现。例如：在3D橄榄球比赛电视转播中的3D首攻线的会聚误差可能使首攻线出现在运动场之上或之下。首攻线的左右信道的插件需要在长度上匹配，并且具有正确位置，否则线端可能以3D形式不自然地呈现。其他类型的误差(例如，意外误差)可能使对象在3D空间中意外地移动。尺寸不匹配可能产生色差或者其他外观问题。在此情况下，模型管理器292通过考虑左右信道之间的相机模型差别，可以改善性能。

追踪块207、257可以使用用于场景追踪的2D方法，例如纹理模板方法。(例如，参见Astle的题为“Motion Tracking Using Image-TextureTemplates(使用图像纹理模板的动作追踪)”的第6,741,725号美国专利。)使用3D视频信道的视觉分析，可以在场景中针对场景追踪和生成模型来选择纹理模板或追踪块。追踪方法可以通过使用左右信道的2D纹理模板来使用场景中的2D信息。其他追踪方法可以使用2D场景纹理，但采用用于追踪块的3D位置信息。这些方法可以被称作3D追踪方法，虽然它们使用了2D纹理模板。在其它情况下，可以使用从左右信道的立体视图获得的3D信息。基于三维像素(voxel)或3D像素的3D追踪块可以被用于3D场景追踪。这些方法可以扩展到其它技术，例如光流技术(opticalflow)。但是，对于许多应用，2D处理就足够并且可以使复杂度和成本最小化。在某些实施方式中，对象或对象组或一部分场景可以在3D视频的单独信道中被追踪，或者同时在两个信道中被共同地追踪。

使用三维像素，可以避免一些2D追踪方法的误差。例如，当相对于背景块存在太多模板块位于场景中移动的前景对象上时，2D模板追踪可能失败。当这种前景对象相对于背景移动时，可能计算出错误的相机模型。例如，在篮球比赛电视转播中当相机向运动员拉近镜头并且使用运动员上的块进行追踪时，可能发生这种情况。使用具有已知3D坐标的三维像素可以基于追踪的3D位置来选择背景的三维像素。在上述实施例中，例如，可以在球场地板平面上或观众看台平面上选择三维像素。与搜索相似，模型管理器292通过考虑信道之间的模型差异，可以使追踪受益。也可以通过将2D块或三维像素搜索限制到由已知左右信道关系限定的约束条件中来提高性能。在较小区域上进行块或三维像素的搜索可以使用更多的追踪元件，得到更好的追踪精度和性能。以上分析可通过3D信道的视觉分析、3D相机系统的传感器测量或视觉分析和传感器测量的结合来实现。三维像素的使用可以是与3D视频信道有关的视觉分析或传感器测量的相符性的一部分。

遮挡块209、259可以进行遮挡处理。遮挡处理例如可以使用如色度键控的方法实现。对于3D视频，遮挡处理可以使用场景的3D信息。例如，使用诸如模板匹配的方法，可以在左右视频信道中标注场景中的像素。然后可以使用例如对极(epipolar)几何技术来计算与左右信道像素对应的3D位置信息。一旦确定了像素的3D位置信息，遮挡子系统就可以确定这些像素是否应该被前景对象所遮挡。作为示例，如果像素的前景块被确定为比场景中像素的背景块更接近于3D相机定位，就可以使像素的前景块遮挡像素的背景块。

图3A示出了根据实施方式的示例性3D遮挡方法的第一视图。运动员腕带上的绿色片被示为左眼信道302和右眼信道304中的片306。在左眼/右眼信道302、304的每个中使用色度键控方法，可能难以从绿色的背景运动场310中区分出片306，并且片306可能增加渗色(bleeding)的可能性。但是，即使涉及例如片306和背景310的颜色类似，实施方式也可以使用视差方法将片306从背景310中区分出。视差方法也可以与色度键控方法结合使用。

图3B示出了图3A的示例性3D遮挡方法的第二视图。使用视差方法，腕带绿色片306的3D位置可以被确定为比运动场310的类似绿色更接近于相机/观众312。因此可以通过基于视差确定的片306来遮挡虚拟插件，例如，位于运动场310上运动员后面的黄色首攻线。使用视差的插件和增强内容能够避免插入片306上的首攻线的不自然“渗色”。

图4A示出了根据实施方式的示例性3D遮挡方法的第一视图，其中针对多个运动员406、408使用空间信息。使用搜索，例如可以在左右信道402、404中发现运动员406、408。可使用视差方法来确定运动员406、408的位置，该位置包括与相机/观众412的距离。运动场410可以出现在背景中，并且可以被其他运动员和虚拟插件遮挡。如图4B所示，虚拟插件414可以被更接近相机/观众412的运动员406遮挡，而不是被更远离相机/观众412的运动员408遮挡。虚拟插件414可以出现在3D场景中的运动员406和408之间，但是不会渗色到运动员406、408后面的运动场背景410中。这种方法可以扩展到3D场景中的任意多个运动员或对象。

3D视频的左右视图之间的立体视觉分析可允许生成深度图或深度掩模，其中可以通过深度测量来表示视频场景的像素或区域。可以使用各种方法从立体视图中生成深度图。当深度图精确地遵循场景中的对象轮廓时，其可用于生成遮挡掩模以将插入后图形的部分断开。断开后的部分可以防止遮挡前景对象，并且使前景对象能够出现在插入后图形的前面。例如，这可以通过在距插入后图形的像素的相机的有效距离和距与像素相关的场景中的点的相机的距离之间进行逐像素比较而从深度图中得到。插入后图形例如可在对象或场景像素与图形的虚拟位置相比更接近于相机时断开。插入后图形例如可在对象或场景像素与图形的虚拟位置相比更远离相机时嵌入视频中。

2D体育广播节目中覆盖视频的标准图形可能对3D视频的制作提出其他挑战。图形可以包括固定的得分图形覆盖，有时称作得分虫(scorebug)或Fox箱(Fox box)，其可以连续地显示当前比赛时钟、得分和相关比赛信息。图形还可以包括临时弹出图形，有时称作下三分之一图形(lower-third graphic)，该弹出图像提供关于比赛中的运动员的背景信息。用于将图形插入到3D视频中的方法可以使图形出现在相对于相机的固定位置或距离处。但是，这可能不会令观众满意，并且在某些情况下，可能产生有时与3D观看有关的视觉疲劳。图形是否以令观众满意的方式出现可取决于，在给定时间处或一段时间中3D视频场景的对象和背景的深度。将对象和背景放置在更远的观看距离处，可能使观众更易于聚焦，因此降低了观众的视觉疲劳。此外，放在离相机相对较近位置处和/或远离场景元件处的图形，例如远离显示平面/屏幕的前面和/或靠近观众，可能会使观众的注意力从场景中转移和/或使观众看起来该图形与场景不相关。但是，将图形集成到场景中可以使该问题最小化。

实施方式可以使用相机模型来引导虚拟图形(包括烙印(burn-in)图形)在3D视频场景中的放置，以使它们以令观众满意的方式呈现。相机模型与物理模型可以确定场景中对象的深度范围。在一个实施方式中，烙印图形可以放在观看屏/显示平面的一定位置处，以便看起来位于离观众与观看屏/显示平面相同距离的位置处。在其他实施例中，烙印图形可以放在相对于被考虑对象的相应位置处，或者放在被考虑对象的稍微前面或后面。基于场景构成，图形的放置可能是不同的。例如，在橄榄球比赛的具有宽监视镜头的高处相机中的图形放置，可以不同于针对赛场中一组运动员的场地高度的、放大镜头的图形放置。在另一实施方式中，烙印图形可以放在场景中对象或比赛台面的深度之外，使其看起来在离相机相对较远的距离处。相机模型和搜索方法可以用于确定可能未被运动员或裁判员遮挡的屏幕位置，或者算法可以直接发现未被遮挡的区域。在另一些实施方式中，基于预期的操作覆盖范围(例如，监视视图与孤立的运动员覆盖范围相比)，对于给定的相机，图形深度可以是不变的。例如，这可以通过作品的制作者使用提示信号(tally signal)或倾听比赛的音频呼叫以系统的方式实现。在另一实施方式中，相机模型可以用于在考虑离相机的3D距离的情况下，评估图形覆盖的场景适应性。可以使用各种标准选择性地运用图形，以令观众舒适。

实施方式可以扩展到可被插入3D视频场景中的其他信息。字幕或隐藏式字幕文本可以插入和集成到3D场景中。可以放置插件，以最小化视觉疲劳或为了其他功能或美学原因。例如，会话文本可以放在场景中的发言者附近。例如，视频信息流中的元数据可以使隐藏式字幕文本自动地放置在场景中。虚拟插件的放置可以由观众控制，并且例如可以如Katz等人于2009年8月13日提交的题为“Interactive Video Insertions，andApplications Thereof(交互式视频和其应用)”的公开号为2010/0050082的美国专利申请那样实现，其内容通过引用整体并入本文中。例如，观看3D视频时易于或极易感觉到视觉疲劳的观众可以选择将插件置于更远观看距离处。

实施方式可以使用集成到场景中的虚拟图形，以呈现3D视频中的各种类型的数据，以使数据以令观众舒适的方式出现。例如，关于比赛状态的信息可以呈现为集成在比赛场地上的字母数字图形。在一个实施方式中，该数据可以呈现在固定场地位置中，例如，靠近棒球比赛中的投手土墩，或者在足球比赛中作为中圈的一部分或底线附近。在另一实施方式中，信息图形可以附着到另一些虚拟图形上，例如下方图形和/或远处图形，这些虚拟图形与首攻线或争球线图形的放置有关。信息图形可以被呈现在电视作品的另一些位置中。这可以包括棒球比赛的背墙或看台，或从橄榄球比赛的运动场结构的上层垂下的标语。

将虚拟插件放在更远的观看距离处，可以减少视觉疲劳并且可以减少眼睛在相对较近聚焦时间段后的聚焦需要。对于对3D视频敏感且可能发展为头疼的某些观众来说，在更远距离处聚焦可能会减少不舒服的症状。具有控制虚拟插件距离的能力，可以使视频作品减少与3D视频有关的视觉疲劳及其他症状。

用于3D视频相机系统的参数包括目镜间距和前束角。目镜间距是镜头之间的距离，前束角是镜头之间的相对观看角。这些参数可以通过操作者手动地控制。这可以通过指定的人来进行，以支持一个或多个3D相机操作者。马达可以移动相机以调整这些参数。参数可以基于对象距离及其他场景信息来确定。操作者可以根据相似场景的经验、使用已知原则、使用实况视图屏幕或者使用其它技术来确定参数。相机控制者可以基于查阅表或诸如观看距离、观看角、场景几何结构等计算这些参数，以确定相机设置。可以通过视觉匹配和记录两个立体信道之间的背景中的特征点，直接地计算目镜间距和前束角。已知的相机目镜间距和前束角可以并入3D插入模型的计算中。例如，这些参数可以嵌入视频中作为元数据，或者可以经由数据信道直接地发送到虚拟插入系统中。

在使用与3D相机的设置/参数有关的相机数据的实施方式中，控制器可以将3D相机数据嵌入相机所生成的视频记录的垂直消隐间隔(vertical blanking interval)中。3D相机数据可以包括目镜间距、前束角、变焦、聚焦、延长(extender)及其他3D相机参数或信号。来自3D相机支架的其他的数据，例如与来自2D视频所用系统的数据类似的摇动和倾斜数据，也可以被包括在3D相机数据中。被嵌入的3D相机数据可以将用于3D虚拟插件的视频引导到远处，例如演播室。可以选择视频中的插入区域或插入方法，以确保用于虚拟插入系统在最终目的地处的数据完整性。在另一实施例中，可以在视频的水平消隐区域或水平辅助数据(HANC)区域中的未用声频信道内对相机数据进行编码。

除了相机数据之外的其它类型元数据，可以被插入到视频中，以允许在视频制作和/或发布渠道的下游阶段处的虚拟3D插入。在一个实施例中，4个点可以限定用于左右信道中的每个的虚拟插件的目标区域。这8个点限定在稍后阶段插入可使用的3D矩形平面。为了表明插入后的增强内容，可以使用其它数量的点或替代的表示，例如，边缘或曲线或样条(spline)。在另一实施例中，3D目标位置标志符可以插入到视频中，然后在下游被替换。目标位置标志符可以表示在特定帧或关键帧中插入增强内容的图像坐标。中间帧的对象位置标志符可以由时间接近中间帧的关键帧中的目标位置标志符插补，或者确定。可选的，目标位置标志符可以表示场景中物理对象(例如足球场)的图像坐标，该图像坐标用于确定增强内容或插件的图像坐标。坐标可以被嵌入或以其它方式编码到3D视频中，以使其不影响动态观看所使用的视频部分。这可以包括视频的水平消隐区域或水平辅助数据(HANC)区域中的未用声频信道。可以对位置标志符进行处理，以使遮挡后的区域不包括在位置标志符中。在其他实施例中，插入位置可以被编码到被独立编码的元数据和遮挡键掩模中。本领域的技术人员可以设计各种类似的方法.

在某些情况下，优选在与下游(例如工作室)相对的上游(例如活动地点)来处理视频。作为示例，在活动中获得的视频可能没有被压缩，但是工作室中的视频可以被压缩以便于卫星传输。例如，使用未压缩的视频，遮挡处理可以提供更好的效果。在另一实施例中，可能希望通过至少将某些处理从工作室转移到上游阶段中，以保持工作室中的较小设备占地。

对于某些应用，可能希望使用相机数据和视觉处理的结合，来计算插件/相机模型，或者仅使用视觉处理来计算模型并得到相机系统/场景参数。在一个实施例中，摇动和倾斜数据可以用于向基于视觉的系统提供近似的搜索位置，该基于视觉的系统可以使用基于视觉的方法简化(refine)搜索。在另一实施例中，可以通过视觉处理和3D相机使用的目镜间距和前束角，来获得近似的搜索位置。不同的组合可能有利于不同的应用和信号的可用性。基于视觉的处理可以通过3D视频的视频信道的视觉分析来实现。可以独立地或以相结合的方式处理信道。

可以单独地或共同地使用各个信道或信道自身的相机模型，来计算3D相机系统的目镜间距或前束角参数。计算出的参数可以用于控制3D相机或增加手动相机的操作者的控制。这些设置可以在计算响应于新设置和新相机模型/参数的视频变化时简化。可以对诸如变焦的参数进行限制，以避免使观众不适的取景。自动地计算目镜间距和前束角可以更快地设置3D相机并且提供更一致的设置和结果。自动参数计算可以通过使劳动最小化来节省制作成本。3D制作可能偏爱较近的场景视图，以向观众提供更强的3D结构感。对象处于相对较长观看距离的较远视图可能使观众看来更像2D视频，并且可能认为该视图不需进行3D制作。例如在橄榄球电视转播期间，在较近距离处对动作镜头取景，可能对快速设置或准备3D相机提出了挑战。对于这种情况，实施方式可以用于自动地调整3D相机参数，以改变场景镜头。使用这些方法，例如，与更相符地缩小镜头相反，可以利用更紧跟地改变长传镜头来覆盖长传球路线。

在另一虚拟插件的实施方式中，例如，可能需要将插件(例如3D橄榄球比赛电视转播的虚拟3D首攻线)放在特定的平面上。需要在帧中准确定位左右信道的插件，以使最终插件能够会集到场景中的正确3D位置。例如，位置误差可能使首攻线出现在场地平面的上面或下面。为了避免该问题，可以监视和调整左右信道插件的位置，以确保最终3D插件会集到场景的特定平面上。例如，在某些情况下，可以接受或优选朝向平面一侧的误差，例如，在运动场的上面，而不是在运动场的下面。

图5是用于生成3D视频中的插件和增强内容的实施方式的示意图，其示出了可以使用集成的方法来处理3D视频。501中的3D视频输入可以包括分开的左右信道，例如独立的高清串行数字接口(HD-SDI)供给，或者可以包括具有交错的左右信道的复合供给。交错处理可以包括将左右信道变形地压入单个HD-SDI流中，或者使用将供给相结合的可选方案。可以修改501中的3D视频输入以包括插件和/或增强内容，并且输出为3D视频输出521。插件和/或增强内容可以使观众看起来逼真地作为原视频的一部分。主控制器(集成主控接口503)可以控制和协调子系统块503-513。将各个信道结合或编码到复合流中的其它方案也是允许的，并且该其它方案可以基于视频压缩方法。

集成搜索块505可以分析501中输入的3D视频、并且计算相机模型以及分析用于节目视频场景的场景几何结构。相机模型和分析可以从一个信道中获得并且类推到第二信道、从一个信道中获得并且通过处理第二信道简化、使用最佳地匹配两个视图的模型从两个信道中计算、或者以上的任意组合/置换。对于集成搜索块505，可以使用视觉分析获得左右信道中的视觉特征的图像位置。可以通过3D视频信道中场景特征的图像位置与场景特征的相应3D位置的关联，针对特定帧生成复合相机模型。可以通过使对于各个信道而获得的特征位置相符，来生成复合相机模型。例如，这可以通过计算用于特征的图像位置与3D场景位置之间的映射的最小均方误差拟合来实现。

集成追踪块507可以基于一个视图来更新模型，并且类推到第二视图。集成追踪块507可以基于第二视图简化的一个图像来更新模型、直接地更新模型以最佳地匹配两个视图、或者基于以上方式的任意组合/置换来更新模型。集成追踪块507可以使用视觉分析来追踪特征的位置或一系列图像的帧之间的兴趣点。这可以与物理传感器测量结合地进行。集成追踪块507可以以与控制器290的模型管理器292(图2)类似的方式来生成复合模型，或者可以追踪对象或对象的一部分，例如，曲棍球运动员的头盔。在一个实施方式中，可以相互独立地追踪对象和追踪场景，以使得对象相对于场景的位置可以从图形的效果获得，例如将轨迹放在例如运动员的对象的后面。此外，通过与相机和/或镜头进行通信或电连接，集成追踪块507可以使用通过检测相机头(摇动、倾斜、目镜间距、前束角等)而提取的数据，以及提取到的镜头信息(变焦、聚焦、倍增器、光圈档(fstop)、光轴前束等)。在一个实施方式中，使用预拍摄校准处理来获得左右相机视图之间的关系。在另一实施方式中，基于对物理相机的认识，例如基于对左右眼信道相机传感器、镜头参数等的认识得到左右眼信道模型。在运行时间中，可以计算一个信道的像机模型，可使用校准模型获得另一信道的相机模型。

集成遮挡块509可以确定，前景对象应何时通过生成与每个信道有关的掩模键，来遮挡3D视频中插件和增强内容。对于色度键控方法，可以使用一个或两个信道来确定插入区域的最佳颜色，并且这可用于为两个信道生成独立的键。两个信道中的背景像素之间的对应关系可用于消除拍摄噪声，或者消除特定相机信道的掩模键中的遮挡缺陷(artifact)。可选地，可以从立体深度图中直接计算两个信道的遮挡掩模。可以处理两个信道的掩模，以确保为了掩盖而选择用于每个信道的相同的相应像素。具有在一个信道中被掩盖而在另一信道中没被掩盖的一些像素，可能导致一些缺陷，例如插件色差、或因不适当的左右信道匹配引起的其它缺陷。集成遮挡块509可以使用视觉分析来生成每个信道的掩模键。

集成渲染块511可以基于从各个左右信道模型所确定的复合模型对插件进行立体渲染。可以使用图形渲染引擎，针对集成到3D视频中的虚拟插件同时生成左右信道。集成渲染块511可以实现遮挡掩模与图形键的键混合，还可能实现3D视频与3D填充信道的最终混合。此外，混合可以使用独立的集成混合器块513来实现，混合器块513可以包括两个广播视频混合器。在某些实施方式中，如果左右信道以标准视频格式(例如HD-SDI)交错，混合可以通过一个广播节目混合器来实现。

在一个实施方式中，集成渲染块511可以根据集成搜索块505和集成追踪块507所确定的相机模型，来渲染视觉元素。在实施例中，视觉元素可以是三维对象，集成渲染块511可以渲染三维对象以使其出现在视频中。在该实施例中，集成渲染块511可以使用三维建模技术来渲染三维动态/动画图形，三维建模技术例如包括纹理加载、虚拟相机建模和渲染为视见区。可选地，渲染后的3D对象可以是静态的，例如首攻线的3D表示。可以使用例如在比赛应用中的那些三维渲染技术。在另一些实施例中，插入501的3D视频输入中的视觉元素可以是图像、视频、图形、文本或广告(例如广告徽标)。可以使用字体来生成视觉元素，允许从数据源中得到插件，数据源例如是广播比赛数据或者体育比赛期间的运动员位置统计的信道。与3D视频结合或以其他方式混合的虚拟元素可以被认为是3D视频中的具有增强内容的插件。

插入501中的3D视频输入的视觉元素可以利用背景场景进行追踪，例如，锁定到橄榄球赛场表面背景的虚拟首攻线插件。视觉元素可以追踪兴趣点，例如，体育比赛中，位于运动员脚处的圆环。图形的一部分可以追踪视频中的兴趣点，例如，指向体育比赛中的运动员的箭头，其中只有箭头的尖追踪兴趣点位置。例如，当图形对广播视频中移动的运动员的轨迹进行标记时，3D图形插件可以与背景场景和前景兴趣点有关。在这种情况下，轨迹点(整个时间过程中脚的位置)基于兴趣点的追踪首先被初始化，然后被更新以补偿相机动作。

在一个实施方式中，例如示出运动员的移动的3D屏幕标记(telestration)图形以3D形式叠加在赛场表面上。在另一个实施方式中，屏幕标记图形可以表示为离相机的设定距离处的烙印。这对于某些应用可以很好地执行，但是会在可以从场景空间信息受益的其他应用中受到限制。作为示例，屏幕标记操作者可以基于离相机或显示平面的距离，在运动员周围放置圆环。对于某些运动员，这些圆环可能看起来围绕运动员，而对于另一些运动员，圆环可能看起来漂浮在他们上面。基于场景中的3D位置(例如运动员的脚部附近)放置圆环可以提供运动员和圆环之间改进的透视关系。类似的情况可以应用于其他图形，包括指向运动员的箭头。例如，放在显示平面之后的设定距离处的箭头可能不会显得与运动员紧密地或明显地相关。在特定实施方式中，可以基于使用人工接口(触摸屏、鼠标、比赛装置、平板等)获得的用户指令，放置和/或部分地生成3D视频中的屏幕标记图形。例如，可以通过3D场景追踪屏幕标记图形，例如，跟随运动员的箭头。屏幕标记的场景追踪例如可以使用本文中描述的方法进行，包括使用相机目镜间距和前束角的数据。在示例性实施例中，圆环可以插入运动员腰部周围。使用2D方法，将圆环放在运动员脚部附近的场景中，可能导致圆环不能与运动员相关联。将圆环精确地放在3D空间中可以将其固定。与3D视频结合或者以其他方式混合的屏幕标记图形，可以被认为是3D视频中具有增强内容的插件。

图6示出了根据实施方式的示例性3D视频制作与发布渠道。利用相继和其它数据信息的3D视频中的虚拟插件/增强内容可以在3D视频渠道的不同阶段处提供，如图6所示。体育场602的竞赛可以通过多个3D视频相机604报道，并且将3D视频供给发送到现场制作部606。例如，3D虚拟插入系统，可以修改现场制作部606的左/右信道切换器的上游3D插入系统608处的专用3D视频相机供给。该系统可以修改现场制作部606的下游3D插入系统610处的现场3D视频节目供给。

可以通过检测3D相机或3D相机系统来提取相机数据信息，可包括镜头、控制器和三角架头。相机数据信息可以通过数据连接或以视频格式对信息编码，提供给3D插入系统。可以通过分析视频或通过视频分析和相机传感器的结合，直接地提取相机模型信息。视频传输部612可以将3D视频供给传送到远程位置，例如演播室制作部614，其中可以使用3D插入系统616将虚拟插件集成到3D视频中。可以将相机模型或数据参数从现场制作阶段传送到远程位置，接收并使用数据以将增强内容集成到3D视频中。可以通过3D视频发布部620发布具有虚拟插件的3D视频，其中3D视频可以被提供到包括电视622、因特网624或移动设备626的平台上。

在实施方式中，在远离现场制作部的位置处，使用广播视频的一个或两个信道的视频分析将虚拟插件集成到3D视频中。该位置可以包括但不限于演播室、区域线缆前端、局部线缆前端、线缆节点、机顶盒、计算机系统和移动设备。在另一个实施方式中，可以在现场或远程位置进行视频分析，例如但不限于工作室或区域线缆前端。信息可以在发布链中的下游传播到集成插件的位置(区域线缆前端、局部线缆前端、线缆节点、机顶盒)。在又一实施方式中，可以从3D视频相机获得相机传感器信息，相机传感器信息可被发送到远离体育场的位置，以通过虚拟插入系统使用，从而将图形集成到3D视频中。

图7是用于实现在3D视频中进行插入的实施方式的示例性计算机系统700的示意图。可以通过软件、固件、硬件或它们的结合来实现各种实施方式的各个方面。图7示出了示例性计算机系统700，其中实施方式或实施方式的部分可以实现为计算机可读代码。各种实施方式通过该示例性计算机系统700来描述。在阅读本说明书之后，如何使用其他计算机系统和/或计算机架构来实现实施方式，对本领域技术人员将变得显而易见。

计算机系统700包括一个或多个处理器，例如处理器704。处理器704可以是专用或通用处理器。处理器704连接到通信设施706(例如总线或网络)。

计算机系统700还包括主存储器708，优选随机存取存储器(RAM)，并且还可以包括次存储器710。次存储器710例如可以包括硬盘驱动器712和/或可移动存储驱动器714。可移动存储驱动器714可以包括软盘驱动器、磁带驱动器、光盘驱动器、闪存等。可移动存储驱动器714以公知方式从可移动存储单元718读取和/或写入可移动存储单元718。可移动存储单元718可以包括软盘、磁带、光盘等，其被可移动存储驱动器714读取和写入。相关领域技术人员应当理解，可移动存储单元718包括其中存储有计算机软件和/或数据的有形计算机可读存储介质。

在可选的实现方式中，次存储器710可以包括用于允许计算机程序或其他指令被加载到计算机系统700的其他类似装置。该装置例如可以包括可移动存储单元722和接口720。这种装置的实施例可以包括程序盒和盒接口(例如那些在视频游戏设备中发现的)、可移动存储芯片(例如EPROM或PROM)和相关插座，以及允许软件和数据从可移动存储单元722传送到计算机系统700的其他可移动存储单元722和接口720。

计算机系统700还可以包括通信接口724。通信接口724允许软件和数据在计算机系统700与外部设备之间传送。通信接口724可以包括调制解调器、网络接口(例如，以太网卡)、通信端口、个人计算机存储卡国际协会(PCMCIA)插槽和卡等。经由通信接口724传送的软件和数据经由通信路径726提供给通信接口724。通信路径726可以使用电线或线缆、光纤、电话线、蜂窝链路、RF链路或其他通信信道实现。

在该文件中，术语“计算机程序介质”和“计算机可用介质”通常用于指介质，例如，可移动存储单元718、可移动存储单元722和安装在硬盘驱动器712中的硬盘。计算机程序介质和计算机可用介质还可以指存储器，例如，主存储器708和次存储器710，其可以是存储半导体(例如，DRAM等)。这些计算机程序产品是用于为计算机系统700提供软件的装置。

计算机程序(也称为计算机控制逻辑)存储在主存储器708和/或次存储器710中。计算机程序还可以经由通信接口724接收。这种计算机程序当执行时，使计算机系统700能够实现本文中所描述的实施方式，例如如上所述的系统。具体地，当该计算机程序执行时，使处理器704能够实现各实施方式的处理。因此，该计算机程序代表计算机系统700的控制器。在使用软件实现实施方式时，该软件可以存储在计算机程序产品中，并且通过使用可移动存储驱动器714、接口720、硬盘驱动器712或通信接口724加载到计算机系统700中。

上面描述的是用于在3D视频中进行插入的系统、装置和方法以及其应用。应当理解，详细说明部分而非摘要旨在用于解释权利要求。摘要可能阐述如发明人预期的本发明的一个或多个而不是全部示例性实施方式，因此摘要不以任何方式限制本发明和所附的权利要求。

各实施方式已如上通过在示出特定功能及其关系的实现的功能构建模块的帮助下描述。为了便于说明，这些功能构件模块的边界在这里被随机定义。只要特定功能及其关系被适当执行，可以定义可选的边界。

特定实施方式的上述说明将充分地揭示本发明的一般性质，以便其他人可以通过应用本领域内的知识，容易地修改和/或调整这些特定实施方式适于各种应用，而无需过度实验，也不会背离本发明的一般概念。因此，基于本文中的教导和引导，这种调整和修改落入所公开的实施方式的等同的含义和范围中。应当理解，本文中的用语或术语是用于说明的目的而非限制，以使得本说明书中的术语或用语根据教导和引导被本领域技术人员解释。

本发明的广度和范围不应被上述的示例性实施方式限制，而应当仅根据随后的权利要求及其等同来限定。

Claims

1.一种方法，包括：

至少基于3D视频的第一信道，确定第一相机数据参数；

至少基于所述3D视频的所述第一信道和所述3D视频的第二信道之间的关系，确定第二相机数据参数；

生成与所述第一相机数据参数和所述第二相机数据参数相符的复合相机模型；以及

基于所述复合相机模型，将增强内容插入所述3D视频中。

2.如权利要求1所述的方法，还包括：使所述第一相机数据参数和所述第二相机数据参数相符。

3.如权利要求1所述的方法，还包括：基于所述3D视频的所述第一和第二信道中的至少一个的视觉分析，得到所述相机数据参数。

4.如权利要求1所述的方法，其中，所述相机数据参数包括目镜间距或前束角。

5.如权利要求1所述的方法，还包括：基于所述相机数据参数，自动地校准与所述3D视频有关的3D相机系统。

6.如权利要求1所述的方法，其中，从与所述3D视频有关的3D相机系统中获得所述第一和第二相机数据参数中的至少一个。

7.如权利要求1所述的方法，还包括：基于至少所述第一信道的搜索分析，确定所述第一和第二相机数据参数。

8.如权利要求7所述的方法，其中，所述搜索分析基于三维像素。

10.如权利要求1所述的方法，还包括：至少基于所述第一信道的追踪分析，更新所述第一和第二相机数据参数。

11.如权利要求10所述的方法，其中，所述追踪分析基于三维像素。

12.如权利要求1所述的方法，还包括：基于所述复合相机模型，遮挡所述增强内容。

13.如权利要求12所述的方法，还包括：基于根据与所述3D视频的所述第一和第二信道有关的视差数据而确定的目标对象距离，遮挡所述增强内容。

14.如权利要求1所述的方法，还包括：根据接收到的输入，在3D位置处交互地放置所述增强内容。

15.如权利要求14所述的方法，其中，所述增强内容是屏幕标记图形。

16.如权利要求1所述的方法，其中，所述增强内容是渲染的三维视觉元素。

17.如权利要求1所述的方法，还包括：根据所述3D视频的场景构成和所述增强内容的类型，在3D位置处自动地放置所述增强内容。

18.如权利要求17所述的方法，其中，所述增强内容是集成的图形、得分表图形、屏幕标记图形、字幕、隐藏式字幕、弹出图形、叠加图形、和烙印图形中的至少一种。

19.如权利要求1所述的方法，还包括：至少基于包括目镜间距或前束角的相机数据，更新所述增强内容，以在3D空间中追踪与所述3D视频有关的兴趣点。

20.如权利要求1所述的方法，其中，所述相机数据参数包括目镜间距或前束角，并且远离现场制作渠道阶段进行所述插入。

21.如权利要求20所述的方法，还包括：在远离所述现场制作渠道阶段的渠道阶段处，接收所述相机数据参数。

22.如权利要求20所述的方法，还包括：在所述现场制作渠道阶段处，将所述相机数据参数嵌入到所述3D视频中。

23.如权利要求20所述的方法，还包括：将所述增强内容的目标位置标志符插入所述3D视频中，其中插入所述增强内容是基于所述目标位置标志符在所述3D视频渠道的下游阶段处进行的。

24.如权利要求23所述的方法，其中，在所述现场制作渠道阶段处生成所述目标位置标志符。

25.如权利要求23所述的方法，其中，在所述现场制作渠道阶段的下游的集中位置处，生成所述目标位置标志符。

26.一种方法，包括：

至少基于3D视频的第一信道，确定第一相机数据参数；

基于所述3D视频的所述第一信道和所述3D视频的第二信道之间的关系，得到第二相机数据参数；以及

基于所述第一和第二相机数据参数，将增强内容插入所述3D视频中。

27.一种方法，包括：

至少基于3D视频的第一信道和所述3D视频的第二信道，确定参考相机模型；

基于所述参考相机模型以及与所述3D视频的所述第一信道和第二信道有关的偏置，得到第一相机模型；以及

基于所述第一和第二相机模型，将增强内容插入所述3D视频中。

28.一种方法，包括：

至少基于3D视频的第一信道的视觉分析，确定第一相机模型；

至少基于所述3D视频的第二信道的视觉分析，确定第二相机模型；

通过使所述第一相机模型和所述第二相机模型相符，生成复合相机模型；以及

基于所述复合相机模型，将得分表插入所述3D视频中。

29.一种系统，包括：

第一检索模块，至少基于3D视频的第一信道，确定第一相机模型；

第二检索模块，至少基于所述3D视频的第二信道，确定第二相机模型；

控制器模块，通过使所述第一相机模型和所述第二相机模型相符，生成复合相机模型；以及

混合器模块，基于所述复合相机模型，将增强内容插入所述3D视频中。

30.一种方法，包括：

接收至少与3D视频的第一信道有关的第一相机数据参数；

接收与所述3D视频的所述第一信道相对于所述3D视频的第二信道的关系有关的第二相机数据参数；以及

至少基于所述第一和第二相机数据参数，将增强内容插入所述3D视频中，其中所述插入在远离现场制作渠道阶段进行。

32.如权利要求30所述的方法，其中所述第二相机数据参数是所述3D视频的目镜间距或前束角。

33.如权利要求30所述的方法，其中，从所述现场制作渠道阶段传送所述第一和第二相机数据参数。