CN103503468B

CN103503468B - 在3d模型中结合视频元数据

Info

Publication number: CN103503468B
Application number: CN201280021842.4A
Authority: CN
Inventors: L·M·布朗; R·S·费里斯; S·番康蒂; A·达塔
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2011-05-05
Filing date: 2012-05-02
Publication date: 2016-11-16
Anticipated expiration: 2032-05-02
Also published as: US20140056476A1; US8457355B2; DE112012001984T5; US20130241928A1; DE112012001984B4; GB201318426D0; US20140314277A1; GB2503621A; US9058669B2; WO2012149655A1; US8811674B2; GB2503621B; US20120281873A1; CN103503468A; US8630460B2

Abstract

本发明公开涉及在3D模型中结合视频元数据。通过定位目标的质心并且确定其与视场环境内的地平面的交叉点，用3D模型来表示校准后的摄像机的2D数据馈送的视场内被检测并跟踪的移动目标。用于该目标的适当的基于3D网格的体积模型是通过使用作为质心与所确定的地平面交叉点的函数的、对应2D图像的反向投影来初始化的。目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合。目标的纹理投影到3D模型上，并通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，目标的2D轨迹升级到3D运动，以便驱动3D模型。

Description

在3D模型中结合视频元数据

技术领域

本发明涉及创建增强虚拟环境（AVE），该AVE利用对视频数据环境中所包含的目标的三维（3D）理解来增强两维（2D）视频数据。

背景技术

从2D视频数据流理解和确定各种目标运动的导入会很难，例如，一个人接近一个区域或者采取将那个人或其他人暴露于加剧的冒险风险中的某种动作。可能需要操作人员同时审查并分析多个监视器或显示窗口中的目标运动，而且视频数据的2D本质会使通过人眼进行的目标识别与跟踪很难，尤其是在视觉丰富或嘈杂的环境中。

如果2D视频数据在创建视频数据中所给出的目标的3D场景模型的增强虚拟环境（AVE）中提供，因为识别与跟踪3D目标固有地对人类观察员来说更加直观，则可以改进目标跟踪与识别。但是，为了适当地呈现3D模型，这种系统需要其它数据输入，例如来自其它照相机或其它设备，诸如范围、图像和/或目标跟踪传感器，的数据。

发明内容

在本发明的一种实施例中，一种通过3D模型表示2D视频数据中被跟踪目标的方法包括定位（localize）在校准后的摄像机的2D数据馈送的视场环境中被检测并且运动被跟踪的目标的质心。该摄像机被校准成把该摄像机放到摄像机视场环境的3D模型的空间高度、朝向与位置背景中。因而，确定质心与视场环境中的地平面的交叉点，并且通过使用作为质心和所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影（back-projection）来初始化适用于该环境的3D模型的空间背景中被跟踪目标的、基于3D网格的体积模型（volumetric model）。将2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合。2D目标的纹理被投影到3D模型上，而且目标的2D轨迹被升级到3D运动，以便在基于动态网格的3D中驱动3D模型，在一方面中这是通过学习最小化模型运动的图像再投影误差（re-projection error）的不同局部线性模型的加权组合进行的。

在另一种实施例中，一种系统具有处理单元、计算机可读存储器和计算机可读存储介质设备，程序指令存储在计算机可读存储介质设备上，所述程序指令在被执行时，使处理单元定位在校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心，并且确定该质心与视场环境中的地平面的交叉点，其中摄像机被校准成把该摄像机放在摄像机视场环境的3D模型的空间高度、朝向与位置背景中。程序指令进一步使处理单元通过使用作为质心与所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影来初始化适用于该环境的3D模型的空间背景中的被跟踪目标的、基于3D网格的体积模型。此外，程序指令还使处理单元把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合，把2D目标的纹理投影到3D模型上，并且通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型。

在另一种实施例中，一种制造物品具有计算机可读存储介质设备，计算机可读程序代码包含在该计算机可读存储介质设备中，计算机可读程序代码包括指令，所述指令在被计算机处理器执行时，使计算机处理器定位校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心，其中摄像机被校准成把该摄像机放在摄像机视场环境的3D模型的空间高度、朝向与位置背景中。所述指令还使计算机处理器确定该质心与视场环境中的地平面的交叉点，以及通过使用作为质心和所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影来初始化适用于该环境的3D模型的空间背景中被跟踪目标的、基于3D网格的体积模型。此外，所述指令还使计算机处理器把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合；把2D目标的纹理投影到3D模型上；以及通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型。

在另一种实施例中，一种提供通过3D模型表示2D视频数据中被跟踪目标的服务的方法包括提供质心定位器（centroid localizer），该质心定位器定位在校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心，并且进一步确定该质心与视场环境中的地平面的交叉点，其中摄像机被校准成把该摄像机放在摄像机视场环境的3D模型的空间高度、朝向与位置背景中。该方法还提供3D建模器，该3D建模器通过使用作为质心和所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影来初始化适用于该环境的3D模型的空间背景中被跟踪目标的、基于3D网格的体积模型。所述3D建模器还把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合，该不同局部线性模型的总数是使用交叉验证系统来优化的；把2D目标的纹理投影到3D模型上；以及通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型。

附图说明

通过联系附图考虑以下对本发明各方面的具体描述，本发明的这些及其它特征将更加容易理解，附图中：

图1是根据本发明的用于通过3D建模表示在2D视频数据中被跟踪目标的方法或系统的实施例的流程图说明。

图2是根据本发明实施例的摄像机校准的图示说明。

图3是根据本发明实施例的反向投影建模技术的图示说明。

图4是本发明一个实施例的实现的图示说明。

图5是本发明一个实施例的计算机化实现的框图说明。

图6是根据本发明一个实施例的物品的框图说明。

附图不一定是按比例的。附图仅仅是示意性表示，而不是要描绘本发明的具体参数。附图仅仅是要绘出本发明的典型实施例，因此，不应当认为是限定本发明的范围。在附图中，相同的标号代表相同的元素。

具体实施例

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

所述计算机程序指令还可以加载到计算机、其它可编程数据处理装置或者其它设备上，使得一系列操作步骤在计算机、其它可编程装置或者其它设备上执行以产生一种计算机实现的过程，使得在所述计算机或者其它可编程装置上执行的指令提供用于实现在所述流程图和/或框图的一个或多个块中所指定的功能/动作的过程。

现在参考图1，说明了根据本发明的用于通过3D建模表示在2D视频数据中被跟踪目标的方法、过程或系统的实施例。更特别地，在102，检测目标并且持续地在校准后的摄像机2D数据馈送的视场环境中跟踪该目标。该摄像机被校准成恢复把摄像机放到其视场环境的3D模型的空间背景中的外在摄像机参数。校准摄像机利用标准的摄像机校准技术来确定摄像机在世界平面中的高度、朝向与位置。例如，参考图2，通过使用参考目标154及其已知或确定的位置坐标，摄像机离地平面的高度（h）及其关于地平面的朝向角（θ）可以关于其视场环境的3D表示中的x、y和z轴上的坐标来校准。摄像机校准也可以通过多种方法或系统执行，包括通过使用棋盘图案来执行，而且其它技术将对本领域技术人员显而易见。

在102进行的目标检测与跟踪可以通过多种目标检测器方法或系统来执行，例如通过光流技术。有些实施例使用能够检测并彼此区分不同目标类型的检测器，其中不同的目标类型例如人、机动车、卡车、公共汽车或者其它植物群与动物群，等等。利用基于外观的技术，常常是在变化的照明条件下有能力的技术，在摄像机的视场上跟踪所检测到的目标的运动。

在104，被跟踪目标的质心被有效地定位而且确定该质心与图像中的地平面的交叉点。在106，在102处所确定的环境的3D模型的空间背景中初始化适用于被跟踪目标的、基于3D网格的体积模型。在106进行的初始化包括通过使用被跟踪目标的对应2D图像的反向投影来在环境的3D模型的空间背景中利用基于3D网格的体积模型填充被跟踪目标，其中所述反向投影是在104确定的质心与地平面交叉点数据的函数。反向投影是利用摄像机图像与3D世界模型之间的校准实现的。例如，参考图3，给定校准后的摄像机的已知位置（P）202，可以把其视场环境的2D图像206中一个人目标207的脚205的像素（x）204图像位置反向投影到3D网格模型211的脚209的3D位置（X）208，该3D模型被选择用于根据等式[1]表示视场环境的3D世界模型210中的人207：

X=P^-1x, [1]

其中，（P^-1）是三乘四摄像机矩阵的逆。因而，从一个图像反向投影人207的脚205允许我们把这个人放到世界中的3D位置，并且我们可以随后在那个3D位置放置3D模型211。

在108，2D图像数据中目标的被跟踪运动路径的非线性动态性被表示为不同局部线性模型的集合。每个局部线性模型都编码一个小邻域内的非线性动态性。例如，2D目标路径可以根据等式[2]建模为若干个基本模型的局部线性组合：

x^t=[c¹,c²,…,cⁿ][m^t,m^t,…,m^t]^T, [2]

其中（t）是时间周期，（c）是用于每个不同局部模型（m）的混合系数。用于该目标路径的不同局部线性模型的个数是利用交叉验证方法与系统来优化或另外确定的，例如根据像赤池（Akaike）信息准则（AIC）或贝叶斯信息准则（BIC）之类的优化准则。一方面，优化可以提供所使用的局部线性模型的个数与它们各自的编码长度之间的折中。

在106进行的3D模型的初始化可以包括识别检测到的目标的类型或行为，并且从多个模型中选择匹配检测到的目标类型和/或行为的动态性的适当模型。例如，再次参考图3，识别出检测到的目标207是人可能导致从多个其它目标模型，诸如机动车、卡车、狗等，中选择3D人模型214。适当类型的人模型还可以从多个人模型中选择，基于检测到目标的速度和/或位置动态性来选择行走的人模型，或者基于更快的运动速度选择跑步的人模型。有些实施例可以区分检测到目标的大小或其它属性，以便在不同模型之间选择，例如用于检测到的沿一条公路移动并且尺寸维度大于自行车目标但小于卡车目标的机动车目标的汽车3D模型。还有其它实施例可能预期或者另外聚焦到仅一种类型的目标，由此利用相同的模型或相同类型的模型填充2D视频数据中检测到的任何移动目标。因而，如果2D视频环境中预期或感兴趣的唯一移动目标是人（例如，装配区楼梯井），则检测到的任何移动目标都可以填充成人模型，从而忽略区分目标与其它目标类型的步骤。

在110，2D目标的纹理被投影到3D模型上，并且通过学习最小化模型运动的图像再投影误差的局部线性模型的加权组合，该目标的2D轨迹被升级至3D运动，以便在基于动态网格的3D中驱动3D模型。在一种实施例中，为了使用最小二乘法，求解以上等式[2]的混合系数（mⁿ），其中给定该混合系数，可以把目标的2D运动或3D运动表示为基于2D或3D的模型的混合，而且世界中3D模型的位置（X）可以依照等式[3]作为时间（t）的函数来更新：

X ^t=(c¹*m¹)+(c²*m²)+…+(cⁿ*mⁿ) [3]

图4说明了本发明一个实施例的实现。一个或多个摄像机402向视频分析系统404提供输入，其中视频分析系统404分析视频输入中的图像信息来识别并跟踪视频图像中的目标运动。将认识到，仅仅需要一个摄像机402就可以实践本发明的实施例；3D建模环境可以通过仅一个摄像机的校准来实现，而不像现有技术系统与方法中一般所需的那样需要多个摄像机或者来自其它传感器，诸如范围、图像和/或目标跟踪传感器，的数据。来自于分析的、指示可能的感兴趣目标运动与跟踪的结果406提供给判决408，以供对于感兴趣的物品或运动是否实际上被检测和跟踪进行审查和最终确定，例如，以供在浏览器或窗口界面或显示器中呈现给审计人员。在410，3D网格模型被初始化并且用于利用适当的3D模型，例如用于在人行道上检测到的目标人的行走的人3D模型或者用于检测到沿公路移动并且尺寸维度大于自行车目标且小于卡车目标的机动车目标的汽车3D模型，填充被跟踪目标，如以上关于图1至3一般性地讨论过的那样。因而，在412，通过使用2D目标的运动驱动基于3D体积的目标模型的运动，来自于摄像机馈送的目标到3D环境中的实时3D投影生成既现实又身临其境的并且是在3D背景下的AVE，其中基于3D体积的目标模型是利用投影到其上的2D目标的纹理呈现的。

利用3D建模获得身临其境和现实的AVE会是一个在计算上具有挑战性的任务，而且本发明的实施例可以利用多种技术来为AVE模型提供实时反馈。有些实施例把图1的过程或系统的组成部分解耦合成离线过程与在线过程。例如，在108用于初始化后的3D模型的局部线性模型可以在离线阶段利用来自运动捕捉输入的训练数据而学习到，从而提供进一步的处理效率。因而，目标模型库可以在108在离线阶段构建，该库存储用于3D模型的不同的似是而非动态性的例子，而在运行时期间可以为匹配动态性模型执行简单的库查找（例如，一般性的机动车模型用于被跟踪的汽车，一般性的卡车模型用于被跟踪的确定为卡车的目标，等等）。以这种方式，由于在108发现3D模型动态性被简化成库查找，只留下在110的纹理投影和112的优化来确定要实时地在112在线计算的局部线性模型的适当加权组合，因此避免了与同时既计算适当的动态性又驱动3D模型关联的高计算成本。在112进行的优化是凸优化而且可以全局求解，而且可以通过基于图像再投影误差最小化过程或系统的目标函数快速完成，这对本领域技术人员将是显而易见的。

适用于与本发明实施例一起使用的基本3D网格模型是通过多种过程与系统从训练数据学习并构建的。模型可以是数据驱动的：例如，主成分分析（PCA）可以从在2D中收集到的跟踪数据来计算，以便确定数据驱动的模型。

基本模型还可以从运动捕捉数据学习：在一个例子中，基本模型是通过收集来自多个个人的行走的运动捕捉数据的许多例子为行走的人目标学习的。普鲁克（Procrustes）对齐用于除去不同行走数据例子之间的平移、旋转与比例（scale）差异。然后，PCA计算恢复行走因子，其中第一主成分代表数据的均值（平均），而第二和之后的成分代表用于行走数据的变化的区分模式。

如本领域技术人员将认识到的，基于网格或线框的3D几何模型可以通过目标的体素模型（voxel model）的线框变换来创建。分段后的训练数据目标可以用于通过重构过程与系统，例如通过空间-雕刻与体素着色方法，创建带纹理的体素3D模型。成像后的表面可以当成局部平面来对待，从而允许以假定的平面片反向投影图像。线框变换可以利用步进式（marching）立方体算法开始，然后是一阶邻域平滑与表面原始减少，以便获得低分辨率的线框模型。

因而，本发明的实施例提供了吸收环境的3D模型并且利用对该环境中所包含的目标（人或机动车等）的3D理解来增强它的增强虚拟环境（AVE）。因而，系统或过程的最终用户可以获得对通过2D视频数据被监视或另外表示的环境的完整3D理解，从而使用户能够把视频馈送放到这种环境的时空背景中。利用在空间与时间上都准确的环境中对人与机动车等的3D呈现，实施例充分利用计算机视觉技术来增强环境的3D模型，这使得可以减少监视人员的认知超负荷，同时提高所收集的信息的可视化质量。

现在参考图5，本发明一个实施例的示例性计算机化实现包括与一个或多个摄像机或其它成像设备506（例如，摄像机或视频服务器等）通信的计算机或其它可编程设备522。指令542驻留在计算机可读存储器516中、或者计算机可读存储系统532、另一种设备506或者由处理单元（CPU）538通过计算机网络基础设施526访问的其它计算机可读存储介质中的计算机可读代码中。因而，当被处理单元（CPU）538访问时，指令使处理单元（CPU）538通过3D建模表示在2D视频数据中被跟踪的目标，如以上参考图1至4所描述的。

计算机522包括各种组件，有些组件在计算机522中图示了。处理单元538与一个或多个外部I/O设备/资源524、存储系统532或者其它设备520通信。处理单元538可以包括单个处理单元，或者可以分布在一个或多个位置中的一个或多个处理单元上（例如，在客户端与服务器上）。类似地，存储器516和/或存储系统532可以包括驻留在一个或多个物理位置的各种类型数据储存器和/或发送介质的任意组合。另外，I/O接口524可以包括用于与外部服务器和/或客户端（未示出）中的一个或多个交换信息的任何系统。还有，应当理解，未示出的一个或多个附加组件（例如，系统软件、数学协处理单元等）也可以包括在计算机522中。

图6说明了根据本发明的物品601（例如，可编程设备、系统等），该物品通过3D建模表示在2D视频数据中被跟踪的目标，如以上参考图1至5所描述的。物品601的一个或多个组件是执行具体功能的有形设备，例如包括上述的处理单元538、计算机可读存储器516和计算机可读存储介质532。因而，如参考以上的图1-5及相关描述材料所理解的，目标检测器/跟踪器602检测并跟踪校准后的摄像机的2D数据馈送的视场环境中目标的运动，该摄像机被校准成把摄像机放到该摄像机视场环境的3D模型的空间高度、朝向与位置背景中。质心定位器604定位被跟踪目标的质心并且确定该质心与视场环境中的地平面的交叉点。3D建模器606从3D网格模型库608选择适当的模型，通过使用反向投影在3D模型的空间背景内初始化选定的模型，把2D目标的纹理投影到3D模型上，并且确定局部线性模型的适当加权组合，以便在基于动态网格的3D中驱动3D模型，并且进一步最小化模型运动的图像再投影误差。

本发明的实施例还可以基于订阅、广告和/或费用执行本发明的过程步骤。即，服务提供商可以提供使用相同图像传感器的阵列的离散矩阵，以便从公共的曝光以不同的F制光圈获得多个不同的图像，如以上关于图1-6所描述的。因而，服务提供商可以为一个或多个消费者创建、维护和支持等执行本发明过程步骤的计算机基础设施，诸如网络计算机系统522、网络环境526和/或物品601（或者其部分）。反过来，服务提供商可以基于订阅和/或费用协定从消费者收费和/或服务提供商可以通过广告内容向一个或多个第三方的销售收费。服务可以包括以下一个或多个：（1）从计算机可读介质设备516、520或506在计算设备，诸如计算机/设备522/601，上安装程序代码；（2）把一个或多个计算设备添加到计算机基础设施；及（3）结合和/或修改计算机基础设施的一个或多个现有系统，使得计算机基础设施能够执行本发明的过程步骤。

本文所使用的术语仅仅是为了描述特定的实施例而不是要作为本发明的限制。如在此所使用的，除非上下文清楚地另外指出，否则单数形式“一”、“一个”和“这个”等也要包括复数形式。将进一步理解，当在本说明书中使用时，术语“包括”指定所述的特征、整数、步骤、操作、元素和/或组件的存在，但是不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。本说明书中所描述的某些例子和元素，包括权利要求中的和附图中所图示的，可以通过唯一形容词与其它的例子和元素区分开或另外识别出（例如，多个元素中的“第一”元素与另一个“第二”或“第三”元素区分开，“主”与“次”或“另一个”项区分开）。这种识别形容词通常用于减少混淆或不确定性，而且不应当认为是把权利要求限定到任何具体说明的元素或实施例，或者暗示任何权利要求元素、限制或过程步骤的任何优先次序、排序或分级。

以下权利要求中的所有装置或步骤加功能元素的对应结构、材料、动作及等价物都是要包括用于结合具体所要求保护的其它所要求保护元素执行功能的任何结构、材料或行为。已经为了说明和描述给出了本发明的描述，但这不是详尽的或者要把本发明限定到所公开的形式。在不背离本发明范围与主旨的情况下，许多修改和变化对本领域普通技术人员都将是显而易见的。实施例的选择和描述是为了最好地解释本发明的原理和实践应用，并使本领域其他普通技术人员能够理解本发明具有适于预期特定使用的各种修改的各种实施例。

Claims

1.一种通过3D模型表示在2D视频数据中被跟踪目标的方法，所述方法包括：

检测并跟踪目标在校准后的摄像机的2D数据馈送的视场环境中的运动，其中所述摄像机被校准成把所述摄像机放到摄像机视场环境的3D模型的空间高度、朝向与位置背景中；

定位被跟踪目标的质心；

确定质心与视场环境中的地平面的交叉点；

通过使用作为质心与所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影，初始化适用于所述环境的3D模型的空间背景中的被跟踪目标的、基于3D网格的体积模型；

把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合；

把2D目标的纹理投影到3D模型上；及

通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型。

2.如权利要求1所述的方法，进一步包括：

利用交叉验证系统优化不同局部线性模型的总数。

3.如权利要求2所述的方法，进一步包括：

利用最小二乘法为每个不同的局部线性模型求解混合系数；及

作为时间与求解出的混合系数的函数更新3D模型的位置。

4.如权利要求3所述的方法，进一步包括：

利用来自运动捕捉输入的训练数据在离线阶段学习用于初始化后的3D模型的不同局部线性模型；

从学习到的用于初始化后的3D模型的局部线性模型构建多个3D目标模型的库，所述多个3D目标模型中的每一个都提供似是而非的3D模型动态性的不同例子；及

其中，初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型的步骤包括：

执行在构建好的库中查找用于2D被跟踪目标的匹配动态模型。

5.如权利要求4所述的方法，其中初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型的步骤进一步包括：

识别检测到的2D被跟踪目标的目标类型或行为；及

从库中的多个3D目标模型选择具有匹配所识别出的目标类型或行为的动态性的3D模型。

6.如权利要求4所述的方法，其中利用来自运动捕捉输入的训练数据在离线阶段学习用于初始化后的3D模型的不同局部线性模型包括：

收集相似目标运动的多个不同的学习到的例子；

除去相似目标运动的不同的学习到的例子之间的平移、旋转和比例差异；及

通过主成分分析恢复目标运动因子，其中第一主成分代表数据均值，而第二和后面的成分代表用于目标运动数据的变化的区分模式。

7.如权利要求6所述的方法，其中除去相似目标运动的不同的学习到的例子之间的平移、旋转和比例差异的步骤是普鲁克对齐。

8.一种通过3D模型表示在2D视频数据中被跟踪目标的系统，包括：

处理单元、计算机可读存储器与计算机可读存储介质；

第一程序指令，用于定位在校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心，并且确定质心与视场环境中的地平面的交叉点，其中所述摄像机被校准成把所述摄像机放到摄像机视场环境的3D模型的空间高度、朝向与位置背景中；

第二程序指令，用于通过使用作为质心与所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影，初始化适用于所述环境的3D模型的空间背景中的被跟踪目标的、基于3D网格的体积模型；

第三程序指令，用于把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合，把2D目标的纹理投影到3D模型上，及通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型；及

其中第一、第二和第三程序指令存储在计算机可读存储介质上，以供处理单元经计算机可读存储器执行。

9.如权利要求8所述的系统，其中第三程序指令进一步用于利用交叉验证系统优化不同局部线性模型的总数。

10.如权利要求9所述的系统，其中第三程序指令进一步用于：

作为时间与求解出的混合系数的函数更新摄像机视场3D环境的3D模型的位置。

11.如权利要求10所述的系统，进一步包括存储在计算机可读存储介质上的由处理单元经计算机可读存储器执行的第四程序指令，用于：

利用来自运动捕捉输入的训练数据在与用于执行第一、第二和第三指令的在线阶段离线的阶段中学习用于初始化后的3D模型的不同局部线性模型；

其中，第二程序指令进一步用于通过执行在构建好的库中查找用于2D被跟踪目标的匹配动态模型来初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型。

12.如权利要求11所述的系统，其中第二程序指令进一步用于通过识别检测到的2D被跟踪目标的目标类型或行为以及从库中的多个3D目标模型选择具有匹配所识别出的目标类型或行为的动态性的3D模型来初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型。

13.如权利要求11所述的系统，其中第四程序指令进一步用于通过收集相似目标运动的多个不同的学习到的例子，在普鲁克对准中除去相似目标运动的不同的学习到的例子之间的平移、旋转和比例差异以及通过主成分分析恢复目标运动因子，来利用来自运动捕捉输入的训练数据在离线阶段学习用于初始化后的3D模型的不同局部线性模型，其中第一主成分代表数据均值，而第二和后面的成分代表用于目标运动数据的变化的区分模式。

14.一种提供通过3D模型表示2D视频数据中被跟踪目标的服务的方法，所述方法包括提供：

质心定位器，定位在校准后的摄像机的2D数据馈送的视场环境中被检测和跟踪的运动目标的质心，并且进一步确定质心与视场环境中的地平面的交叉点，其中所述摄像机被校准成把所述摄像机放到摄像机视场环境的3D模型的空间高度、朝向与位置背景中；及

3D建模器，通过使用作为质心与所确定的地平面交叉点的函数的、被跟踪目标的对应2D图像的反向投影，初始化适用于所述环境的3D模型的空间背景中的被跟踪目标的、基于3D网格的体积模型，把2D图像数据中目标的被跟踪运动路径的非线性动态性表示为不同局部线性模型的集合，所述不同局部线性模型的总数是利用交叉验证系统来优化的，把2D目标的纹理投影到3D模型上，及通过学习最小化模型运动的图像再投影误差的不同局部线性模型的加权组合，把目标的2D轨迹升级到3D运动，以便在基于动态网格的3D中驱动3D模型。

15.如权利要求14所述的方法，其中3D建模器进一步：

16.如权利要求15所述的方法，其中3D建模器进一步：

从学习到的用于初始化后的3D模型的不同局部线性模型构建多个3D目标模型的3D网格模型库，所述多个3D目标模型中的每一个都提供似是而非的3D模型动态性的不同例子；及

通过执行在构建好的3D网格模型库中查找用于2D被跟踪目标的匹配动态模型，来初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型。

17.如权利要求16所述的方法，其中3D建模器进一步通过识别检测到的2D被跟踪目标的目标类型或行为以及从3D建模器库中的多个3D目标模型选择具有匹配所识别出的目标类型或行为的动态性的3D模型来初始化3D模型的空间背景中的被跟踪目标的基于3D网格的体积模型。

18.如权利要求16所述的方法，其中3D建模器通过收集相似目标运动的多个不同的学习到的例子，在普鲁克对准中除去相似目标运动的不同的学习到的例子之间的平移、旋转和比例差异，以及通过主成分分析恢复目标运动因子，来利用来自运动捕捉输入的训练数据在离线阶段学习用于初始化后的3D模型的不同局部线性模型，其中第一主成分代表数据均值，而第二和后面的成分代表用于目标运动数据的变化的区分模式。