CN101536525A

CN101536525A - 用来处理视频数据的装置和方法

Info

Publication number: CN101536525A
Application number: CN200780025671.1A
Authority: CN
Inventors: 查尔斯·保罗·佩斯
Original assignee: Euclid Discoveries LLC
Current assignee: Euclid Discoveries LLC
Priority date: 2006-06-08
Filing date: 2007-06-07
Publication date: 2009-09-16
Anticipated expiration: 2027-06-07
Also published as: JP2009540675A; TW200828176A; EP2044774A2; CN101536525B; CA2654513A1; WO2007146102A3; WO2007146102A2

Abstract

这项发明描述用来处理视频数据的装置和方法。本发明提供一种视频数据的表达，该数据表达能用来评定数据与用于数据的特定参数表达的拟合模型之间的一致性。这允许比较不同的参数化技术和选择适合该特定数据的连续视频处理的最佳技术。该表达能以中间形式作为较大程序的一部分或作为反馈机制被用于处理视频数据。当以它的中间形式被利用的时候，本发明能被用于视频数据的储存、增强、提炼、特征提取、压缩、编码和传输的程序。本发明可用来以强健有效的方式提取显著的信息，同时确定通常与视频数据来源相关联的问题的地址。

Description

用来处理视频数据的装置和方法

相关申请

这份申请是2006年6月8日申请的美国临时申请第60/811,890号的部分继续申请并且要求其利益。上述申请的全部教导在此通过引证被并入。

发明领域

本发明一般地涉及数字信号处理领域，更具体地说涉及用于信号或图像数据(具体地说，视频数据)的有效表达和处理的计算机装置和计算机实现方法。

背景技术

本发明驻留其中的现有技术通用系统描述能用图1表示。在这里方框图显示典型的现有技术视频处理系统。这样的系统通常包括下列几级：输入级102、处理级104、输出级106和一个或多个数据储存机制108。

输入级102可以包括若干元素，例如，照相机敏感元件，照相机敏感元件阵列、测距敏感元件或从储存机制取回数据的装置。输入级提供表达人造的和/或自然发生的现象的时间相关序列的视频数据。该数据的显著成份可能被噪音或其它不想要的信号掩盖或污染。

视频数据可以依照预先定义的转移协议以数据流、阵列或数据包的形式直接地或通过中间储存元素108从输入级102提交给处理级104。处理级104可以采用专用模拟或数字器件或可编程器件(例如，中央处理器(CPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))的形式来执行所需要的一组视频数据处理操作。处理级104通常包括一个或多个CODEC(编码/解码器)。

输出级106产生能够影响使用者或外部装置的信号、显示或其它响应。通常，输出器件用来产生指示信号、显示、硬拷贝、处理过的数据在存储器中的表达，或开始数据向远程站点的传输。它也可以用来提供在后面的处理操作中使用的中间信号或控制参数。

存储器在这个系统中是作为非必选元素出现的。在使用时，储存元素108可以是非易失的，例如，只读储存媒体，或易失的，例如，动态随机存取储存器(RAM)。单一的视频处理系统包括若干种储存元素并非是罕见的，这些元素对输入级、处理级和输出级有各种不同的关系。这样储存元素的例子包括输入缓冲器，输出缓冲器和处理高速缓冲存储器。

图1所示视频处理系统的主要目的是处理输入数据，产生对于特定的应用具有显著意义的输出。为了实现这个目标，可以利用多种处理操作，包括减少或消除噪音、特征提取、对象拆分和/或规范化、数据分类、事件检测、编辑、数据选择、数据重新编码和代码变换。

产生受不良约束的数据的许多数据来源(尤其是声音和可视图像)对人是重要的。在大多数情况下，这些来源信号的基本特征对有效数据处理的目标有不利的影响。来源数据固有的易变性是在不引进起因于在推导工程假定中使用的未试过的经验的和探索性的方法的误差的情况下以可靠且有效的方式处理数据的障碍。这种易变性对于某些应用当输入数据被自然地或故意地限制在定义狭窄的特征组(例如，一组有限的符号值或狭窄的带宽)之中的时候被减轻。这些限制时常导致商业价值低的处理技术。

信号处理系统的设计受该系统的预期用途和作为输入使用的来源信号的预期特征的影响。在大多数情况下，所需的完成效率也将是重要的设计因素。完成效率依次与可用的数据储存器相比较受待处理的数据量的影响以及与可得的计算能力相比较受该应用程序的计算复杂性的影响。

传统的视频处理方法遭受许多低效率性质的损害，这些低效率性质是以数据通信速度慢、存储需求大和干扰感性假象的形式出现的。这些可能是严重的问题，因为人们希望使用多种方法操纵视频数据和人们对某些形式的可视信息有先天的敏感性。

“最佳的”视频处理系统在完成一组预期的处理操作方面是高效率的、可靠的和强健的。这样的操作可能包括数据的储存、传输、显示、压缩、编辑、加密、增强、分类、特征检测和确认。二次操作可能包括这样处理过的数据与其它信息来源的整合。在视频处理系统的情况下同等重要的是输出应该通过避免知觉假象的引进与人类视觉相容。

如果视频处理系统的速度、效率和质量不强烈地取决于输入数据的任何特定特征的细节，该视频处理系统可以被描述为“强健的”。强健也与在某些输入出现错误的时候完成操作的能力有关。许多视频处理系统不够强健，不足以考虑到应用的一般类别，仅仅适用于该系统研发时使用的同样受狭窄限制的数据。

显著信息可能由于输入元素的抽样速率与测知现象的信号特性不匹配在连续取值的数据来源的离散化中丢失。另外，当信号强度超过传感器极限从而导致饱和的时候也存在遗失。同样，当输入数据的精度下降的时候数据也会遗失，这在输入数据的完整的数值范围用一组离散数值表达，借此降低数据表达的精度的时候发生在任何量化程序中。

总体易变性指的是一类数据或信息来源的任何无法预测性。因为视觉信息通常不受限制，所以代表视觉信息特征的数据有非常大的总体易变性程度。视觉数据可以表达任何由于光线入射在敏感元件阵列上所形成的空间阵列序列或时间空间的序列。

在仿制视觉现象时，视频处理器通常把一些限制设定和/或结构强加在表达或解释数据方式上。结果，这样的方法可能引进将会影响输出质量、可能用来考虑输出的置信水平和能对该数据可靠地完成的后续处理工作的类型的系统误差。

一些量化方法在试图保有那个数据的统计学变化的时候降低视频画面的数据精度。通常，视频数据是这样分析的，以致数据值的分布被收集到概率分布之中。也有一些方法把数据映射到相空间之中，以便将数据的特色表示为空间频率的混合，借此允许精度下降以较少引起反对的方式扩散。这些量化方法在被大量地利用时往往导致知觉上难以相信的颜色和能在该视频画面原本平滑的区域中引起突然的怪异状态。

差分编码通常也用来利用数据的局部空间相似性。在该画面的一个部分中的数据倾向于聚集在那个画面的相似数据周围和后续画面中的相似位置。然后，该数据能根据它空间上毗连的数据与量化组合，而最终结果是对于给定的准确性表达差分比使用数据的绝对值更精确。这个假定在原始视频数据的光谱分辨率有限的时候(例如，在黑白图像或颜色少的图像中)很好地工作。随着图像的光谱分辨率逐渐增加，相似性假定被严重破坏。这种破坏是由于无法有选择地保护视频数据精度造成的。

残差编码与差分编码类似，因为这种表达的误差被进一步差分编码，以便把原始数据的精度恢复到预期的准确性水平。

这些方法的变化尝试把视频数据变换成按空间相位和刻度暴露数据相关关系的替代表达。一旦视频数据已经以这些方式完成变换，量化和差分编码的方法就能适用于变换后的数据，从而导致增加显著图像特征的保存。这些变换视频压缩技术中最普遍的两种是离散余弦变换(DCT)和离散子波变换(DWT)。DCT变换的误差出现在视频数据数值的广泛变化方面，所以，DCT通常被用在视频数据的区段上，为的是使这些错误的相关关系定位。来自这种定位的假象往往沿着这些区段的边界出现。就DWT而言，更复杂的假象在基础函数和某些纹理之间有误配的时候发生，而且这引起模糊效应。为了抵消DCT和DWT的负面效应，提高表达的准确性以便以宝贵的带宽为代价减少失真。

发明内容

本发明是一种在计算和分析两个方面均优于现有顶级技术的方法的计算机实现的视频处理方法。原则上本发明的方法是线性分解法，空间拆分法和空间规范化法的整合。从空间上限制视频数据大大提高线性分解法的强健性和适用性。此外，与空间规范化相对应的数据空间拆分能进一步用来增加单独来源于空间规范化的利益。

具体地说，本发明提供一种能有效地把信号数据处理成一个或多个有益的表达的方法。本发明在处理许多普遍发生的数据组时是有效的而且在处理视频和图像数据时是特别有效的。本发明的方法分析数据并且提供那个数据的一种或多种简洁表达以使它的处理和编码变得容易。对于许多应用(包括但不限于：视频数据的编码、压缩、传输、分析、储存和显示)，每种新的比较简洁的数据表达都允许减少计算处理、传输带宽和储存需求。

本发明包括用来识别和提取视频数据的显著成份的方法，从而允许区分数据的处理和表达的优先次序。信号中的噪音和其它多余部分被看作是优先权比较低的，所以进一步处理能集中在分析和表达视频信号中优先权比较高的部分上。结果，视频信号的表达比先前可能的表达更简洁。而且把准确性的损失集中在视频信号中知觉上不重要的部分。

在一个实施方案中，PCA(主成分分析)或类似的线性分解被用于特定对象(例如，脸部)的检测和该对象的局部变形。PCA进一步充当该规范化视频数据的经验变换，表达对象外观。在显著对象拆分之后，该规范化方法跟踪某二维网孔并允许该网孔变形。来自不同画面的对象外观是沿着一个平面规范化的。

在一个实施方案中，Proxy Wavelet Compressor被用于对象视频数据的逐级基础编码。本发明的方法压缩感兴趣的视频数据的训练画面和规范化画面。

附图说明

上述内容通过下面用附图举例说明的本发明的示范实施方案的更具体的描述将变得显而易见，在这些附图中相似的参考符号表示遍及不同视图的同一部分。这些附图不必依比例绘制，而是改为把重点放在举例说明本发明的实施方案上。

图1是举例说明现有技术视频处理系统的方框图。

图2是提供本发明的概观的方框图，展示用来处理影像的主要模块。

图3是举例说明本发明的运动评估方法的方框图。

图4是举例说明本发明的整体配准方法的方框图。

图5是举例说明本发明的规范化方法的方框图。

图6是举例说明混合式空间规范化压缩方法的方框图。

图7是举例说明本发明在局部规范化中使用的网孔生成方法的方框图。

图8是举例说明本发明在局部规范化中使用的基于网孔的规范化方法的方框图。

图9是举例说明本发明的组合式整体和局部规范化方法的方框图。

图10是本发明的实施方案在其中工作的计算机环境的示意图。

图11是图10所示网络中的计算机的方框图。

图12是举例说明背景分辨方法的方框图。

图13是举例说明本发明的对象拆分方法的方框图。

图14是举例说明本发明的对象插值方法的方框图。

图15是本发明的自适应递增建模程序的方框图。

具体实施方式

本发明的范例实施方案描述如下。在视频信号数据中，视频画面被组装成通常描绘投影到二维成像表面上成像的三维情景的图像序列。每个画面(或图像)都由代表响应抽样信号的成像敏感元件的象素组成。时常，抽样信号对应于被二维敏感元件阵列抽样的一些反射的、折射的或发射的能量(例如，电磁能、声能等)。连续的顺序抽样导致时空数据流，每个画面的两个空间维度和一个时间维度对应于该画面在视频序列中的次序。

本发明如同图2举例说明的那样分析信号数据和识别显著成份。当信号由视频数据组成的时候，时空流分析揭示时常作为特定对象(例如，脸部)的显著成份。识别程序限定该显著成份的存在和重要性并且选择在那些被限定的显著成份之中最重要的一个或多个显著成份。这不限制在现在描述的处理之后或同时识别和处理其它显著性较低的成份。然后，上述的显著成份被进一步分析，以便识别易变的和不变的子成份。不变的子成份的识别是给该成份的某个方面建模的程序，借此揭示允许将该成份合成到预期的准确性水平的模型参数表达法。

在本发明的一个实施方案中，检测和跟踪前景对象。该对象的象素被识别并且被从每个视频画面中拆分出来。基于区段的运动评估被应用于在多个画面中拆分出来的对象。然后，这些运动评估结果被整合成高阶运动模型。该运动模型用来把该对象的例证隐藏到公用的空间配置中。对于特定的数据，在这个配置中，该对象更多的特征被对准。这种规范化允许在待紧凑地表达的多个画面上对象象素的数值的线性分解。属于对象外观的显著信息被包含在这个紧凑表达之中。

本发明的优选实施方案详细描述前景视频对象的线性分解。该对象是按空间规范化的，借此得出紧凑的线性外观模型。此外，进一步优选的实施方案在空间规范化之前先把前景对象从视频画面的背景中拆分出来。

本发明的优选实施方案将本发明应用于一个人对着摄像机边说话边进行少量运动的影像。

本发明的优选实施方案将本发明应用于影像中能通过空间转换很好地表达的任何对象。

本发明的优选实施方案明确地使用基于区段的运动评估来确定两个或多个视频画面之间的有限差分。为了提供更有效的线性分解，高阶运动模型是依据那些有限差分因式分解的。

检测&跟踪(C1)

技术上已知的是检测画面中的某个对象并在预定数目的后续画面中跟踪那个对象。Viola/Jones：P.Viola和M.Jones发表在关于可视图像的统计和计算理论—建模、学习、计算和抽样的第二届国际研讨会会议录(Proc.2nd Int′l Workshop on Statistical andComputational Theories of Vision-Modeling，Learning，Computingand Sampling)(加拿大，温哥华，2001年7月)中的“Robust Real-timeObject Detection”在能用来实现对象检测功能的算法和程序之中。同样，有许多算法和程序能用来在连续的画面中跟踪被检对象。例子包括：C.Edwards、C.Taylor和T.Cootes发表在Proc.Int′lConf.Auto.Face and Gesture Recognition(1998年)，260-265页中的“Learning to identifyand track faces in an image sequence”。

对象检测程序的结果是一个数据组，该数据组详细说明对象中心在画面中的一般位置和关于对象比例(大小)的指示。跟踪程序的结果是一个数据组，该数据组代表该对象的时间标签并保证在连续的画面中检测到的对象是同一对象的概率达到特定水平。

对象检测和跟踪算法可能适用于画面中的单一对象或画面中的两个或多个对象。

人们还知道在一组连续的画面中跟踪被检对象的一个或多个特征。举例来说，如果对象是人的脸部，该特征可能是眼睛或鼻子。在一种技术中，特征是用“线”的交叉点表示的，该交叉点能被宽松地描述为“拐角”。优选的是将强壮的并且在空间上彼此完全不同的“拐角”选作特征。这些特征可以通过空间亮度场梯度分析来识别。使用光学流的分层多分辨率评估允许确定那些特征在连续画面中的平移位移。M.J.Black和Y.Yacoob发表在1995年6月于马萨诸塞州波士顿市召开的关于计算机设想的国际会议的会议录的第374-381页中的“Tracking and recognizingrigid and non-rigid facial motions using local parametric models ofimage motions”是使用这项技术跟踪特征的算法的一个例子。

一旦已经确定信号的显著构成成份，就可以保留这些成份，而且可以减少或除去所有其它的信号成份。检测显著成份的程序展示在图2，其中视频画面202是用一个或多个检测对象206，208程序处理的，从而导致一个或多个被识别并且随后被跟踪的对象。保留成份(被识别的对象)代表该视频数据的一种中间形式。然后，这个中间数据能使用对于现有的视频处理方法通常不可得的技术编码。因为该中间数据以几种形式存在，所以标准的视频编码技术也能用来给这些中间形式中的几种形式编码。对于每个例证，本发明都先确定然后使用最有效的编码技术。

在一个优选实施方案中，显著特征分析程序完成显著信号模式的检测和分类。这个程序的一个实施方案使用为产生强度与视频画面中被检对象显著特征有关的响应信号专门设计的空间过滤器的组合。以不同的空间刻度在视频画面的不同位置应用该分类程序。来自该分类程序的响应的强度指出显著信号模式出现的或然率。在把中心置于十分显著的对象上的时候，该程序用对应的强烈响应给它分类。显著信号模式的检测通过激活对该视频序列中显著信息的后续处理和分析来辨别本发明。

给出显著信号模式在一个或多个视频画面中的检测位置，本发明分析显著信号模式的无变化特征。此外，对于无变化特征，本发明分析该信号的残值，“较少显著的”信号模式。无变化特征的识别提供用来减少冗余信息和拆分(即，分离)信号模式的基础。

特征点跟踪(C7)

在本发明一个实施方案中，一个或多个画面中的空间位置是通过空间强度场梯度分析确定的。这些特征对应于“一些线”的一些交点，这些交点能被宽松地描述为“拐角”。这样的实施方案进一步选择一组这样的拐角，这些拐角是强壮的而且在空间上是彼此完全不同的，在此称之为特征点。此外，使用光学流的分层次多分辨率评估允许确定特征点随着时间流逝的平移位移。

在图2中，展示把来自检测对象程序206，208的检测例证和在许多视频画面202，204上一个或多个被检测对象的特征的进一步识别对应关系222拉到一起的跟踪对象220程序。

特征跟踪的非限制性实施方案能被这样使用，以致这些特征被用来限定更规则的梯度分析法(例如，基于区段的运动评估)。

另一个实施方案期待以特征跟踪为基础的运动评估的预测。

基于对象的检测和跟踪(C1)

在本发明的一个非限制性实施方案中，强健的对象分类程序被用来跟踪视频画面中的脸部。这样的分类程序以对已在脸部上训练过的定向边缘的级联响应为基础。在这个分类程序中，边缘被定义为一组基本的Haar特征和那些特征的45度旋转。该级联分类程序是AdaBoost算法的变体。此外，响应计算能通过使用总面积表来优化。

局部配准

配准包括在两个或多个视频画面中被识别对象的诸元素之间的对应关系的分配。这些对应关系变成在该视频数据中按截然不同的时间点建立视频数据之间的空间关系模型的基础。

为了根据众所周知的算法和那些算法的富有创造性的派生算法举例说明特定的实施方案和它们与实践相关联的缩减量，现在描述用于本发明的各种不同的非限制性的配准方法。

在时空序列中建立明显的光学流模型的一种方法能通过从两个或多个画面的视频数据产生有限差分域来实现。如果该对应关系在空间和强度双重意义上符合特定的恒定性限制，则光学流场能被稀疏地评估。如图3所示，画面302或304是可能通过十取一程序306或一些其它的二次抽样程序(举例来说，低通过滤器)按空间二次抽样的。这些减少空间的图像310，312也能被进一步二次抽样，从而导致，举例来说，画面314，316。

每个抽样/二次抽样水平的画面302、304、310、312、314、316都处理以便确定各个画面中被检对象特征的对应关系。这是通过相应的运动评估350、354、362、372和预测352、360、370完成的，接下来将详细描述图3的步骤。

菱形搜寻

假定把视频画面分割成若干不重叠的区段，该运动评估程序搜寻先前的与每个区段匹配的视频画面。以全面搜寻区段为基础(FSBB)的运动评估找出在先前的视频画面中与当前画面中的区段相比较时误差最小的位置。完成FSBB可能是计算费用十分浩大的，而且往往不产生比以局域化运动假设为基础的其它评估方案更好的匹配。以菱形搜寻区段为基础(DSBB)的梯度下降运动评估是FSBB的常见的替代品，它使用各种不同尺寸的菱形搜寻图案朝着对于某个区段最好的匹配的方向反复地横越误差梯度。

在本发明的一个实施方案中，为了产生数值稍后被因式分解成高阶运动模型的有限差分，DSBB被用于一个或多个视频画面之间的图像梯度域分析。

熟悉这项技术的人知道基于区段的运动评估能被视为规则网孔顶点分析的等同物。

基于网孔的运动评估

基于网孔的预测使用顶点被边缘连接起来的几何网孔描绘视频画面的不连续区域，随后通过受网孔顶点位置控制的变形模型预测后续画面中那些区域的变形和运动。为了预测当前画面，随着顶点移动，用顶点定义的区域内的象素也是移动的。原始象素数值的相对运动和由此产生的近似是通过一些插值方法完成的，这些插值方法将象素位置与邻近那个象素的顶点的位置联系起来。当这样的运动存在于视频信号中的时候，缩放和旋转的附加建模与纯粹的平移相比较能产生更精确的画面象素预测。

通常，网孔模型能被定义为是规则的或自适应的。规则网孔模型是在不考虑基础信号特性的情况下设计的，而自适应方法尝试相对于基础视频信号特征按空间安排顶点和边缘。

规则网孔表示法提供一种倘若影像中的成像对象有空间间断点较多地与网孔边缘相对应能用来预测或仿制运动或运动中的固有变形的方法。

自适应网孔是在实质上比规则网孔更多地考虑基础视频信号的特征的情况下形成的。此外，这种网孔的自适应性质可以随着时间逝去考虑到网孔的各种不同的提炼。

为了实现网孔和等同地象素配准，本发明使用同种判据调整顶点搜寻。空间上与异种强度梯度相关联的顶点是先于那些有比较同种的梯度的顶点完成运动评估的。

在一个实施方案中，网孔的顶点运动评估是通过针对同等或近乎同等的同种顶点的运动评估的空间填注另外区分优先次序的。

在优选实施方案中，最初的网孔空间配置和最后的网孔配置是通过使用标准的图解式填充例行程序用小平面标识符填充映射图像在小平面水平上相互映射的。与每个三角形相关联的仿射变换能很快地从变换表中查出，而且在一个网孔中与小平面相关联的象素位置能快速地转换成在其它网孔中的位置。

在优选的实施方案中，为了评定与每个运动评估匹配相关联的残留误差针对顶点进行初步的运动评估。另外，这个初步的评估被用来区分顶点运动评估次序的优先次序。这样的残差分析的好处是与比较少的失真相关联的运动评估将导致维持更看似真实的网孔拓扑。

在优选的实施方案中，网孔顶点运动评估被依比例缩减到某个有限范围，而且多种运动评估是通过一些迭代完成的，为的是允许网孔接近更全面优化的和拓扑正确的解。

在优选的实施方案中，考虑到内插多角形邻域，利用中心在每个顶点上矩形瓦块邻域使用基于区段的运动评估确定顶点位移。除了对于误差梯度下降避免象素的空间插值和变形之外，这项技术也允许运动评估的平行计算。

基于相位的运动评估

在现有技术中，基于区段的运动评估通常是作为导致一个或多个空间匹配的空间搜寻实现的。基于相位的规范化的互相关(PNCC)如同图3举例说明的那样把来自当前画面304，312，316和先前画面302，310，314的区段变换到“相空间”中，并且寻找那两个区段的互相关。这种互相关被表达为位置与两个区段之间的边缘“相移”相对应的数值域。这些位置通过定阈值被隔离，然后被逆变换成空间坐标。这些空间坐标是截然不同的边缘位移，而且对应于运动矢量。PNCC的优势包括在视频流中预留增益/曝光调节的允差的对比度遮掩。另外，PNCC允许来自单一步骤的结果，该单一步骤或许依据以空间为基础的运动评估程序进行许多迭代。此外，运动评估350，354，362，372是子象素精确的。

本发明的一个实施方案在一个或多个视频画面之间的图像梯度域的分析中利用PNCC，为的是产生其数值随后被因式分解成高阶运动模型的有限差分(在352，360，370)。一旦对象特征对应关系被识别222，对应关系模型就如同接下来讨论的那样被作出224。

整体配准

在优选实施方案中，本发明使用在两个或多个视频画面中被检对象的对应元素之间的关系产生对应关系模型(224，图2)。通过因式分解来自有限差分评估域的一个或多个线性模型分析这些关系。术语“域”指的是每个有空间位置的有限差分。这些有限差分可能是在检测&跟踪段落所描述的完全不同的视频画面中对应对象特征的平移位移。发生这样的抽样的域在此被称为有限差分的一般总体。所描述的方法使用与文献“M.A.Fischler，R.C.Bolles.‘Random Sample Consensus：A Paradigm for Model Fittingwith Applications to Image Analysis and Automated Cartography’，Comm.of the ACM，VoI 24，pp381-395，1981”所描述的RANSAC算法类似的强健的评估。

如图4所示，在建立整体运动模型的情况下，有限差分是收集到用那些运动评估的随机抽样410迭代处理的一般总体库404中的平移运动评估402，而且线性模型被因式分解，提取那些样本的公因子420。然后，结果430被用来调节总体404以便通过排除通过随机处理发现的该模型的异己样本更好地阐明该线性模型。

本发明能利用一个或多个强健的预估程序；其中之一可能是强健的RANSAC评估程序。这些强健的预估程序在现有技术中已得到很好的证明。

在线性模型评估算法的一个实施方案中，运动模型评估程序以线性最小二乘解为基础。这种相关性使该评估程序摆脱异己样本数据。基于RANSAC，所揭示的方法是一种通过反复评估数据子集抵消异己样本的效应从而探查将描述重要的数据子集的运动模型的强健方法。每个探头产生的模型都对它所代表的数据的百分比进行测试。如果有足够的迭代次数，则将发现与最大的数据子集拟合的模型。在文献“R.Dutter和PJ.Huber，‘Numericalmethods for the nonlinear robust regression problem’，Journal ofStatistical and Computational Simulation，13：79-113，1981”中有关于怎样完成这样强健的线性最小二乘回归的描述。

如同图4设想和举例说明的那样，本发明揭示一些在算法变更形式上超过RANSAC算法的改革，包括有限差分的初始抽样(样本)和线性模型的最小二乘评估。综合误差是使用已解的线性模型对一般总体中的所有样本评估的。根据残差与预先设定的阈值一致的样本的数目给该线性模型分配一个等级。这个等级被看作是“候选的共识”。

最初的抽样、求解和归类是通过迭代完成的，直到终止判据得到满足为止。一旦该判据得到满足，等级最高的线性模型被看作是该总体的最后共识。

非必选的改进步骤包括按照与候选模型拟合最好的次序反复分析该样本子集并且逐渐增加子集规模，直到再多加一个样本将超过整个子集的残留误差阈值。

如图4所示，整体模型评估程序450一直重复到共识等级可接受性测试令人满意452为止。当该等级尚未实现的时候，把有限差分的总体相对于在设法揭示线性模型时发现的模型分类454。最好的(最高等级的)运动模型被添加到该程序的解集中460。然后，在程序470中再次评估该模型。完成后，该总体404根据新的/再次评估后的模型被再次分类480。

为了在将与某特定的线性模型相对应的另一个参数矢量空间中确定子空间簇，所描述的本发明的非限制性实施方案可以作为对矢量空间(前面被描述为有限差分矢量域)抽样的一般方法被进一步推广。

整体配准程序的进一步的结果是这个配准程序和局部配准程序之间的差异产生局部配准残差。这个残差是整体模型在近似局部模型时的误差。

依照上文，先前发明的实施方案优选使用强健的评估程序为多维投射运动模型的解产生对应关系模型zzy。

规范化(C1)

规范化指的是朝着标准的或通常的空间配置方向再次抽取空间强度场样本。当这些相对空间配置在这样的配置之间是可逆的空间变换的时候，象素的再次抽样和附带插值直到拓扑极限也都是可逆的。本发明的规范化方法是用图5举例说明的并且在象素水平上操作(即，对象素和子象素再次抽样)。

在图5中，给定运动评估模型510，规范化程序反转520该运动模型510的相对空间配置之间的空间变换。反转的运动模型522产生。使用该反转的运动模型522，来自运动模型510的对象象素530在532被再次抽样从而导致伴生象素的插值。在优选的实施方案中，再次抽样过滤与横穿多帧视频数据的空间区域的结构、变形、姿势和照明相关联的任何变化或相反提取与横穿多帧视频数据的空间区域的结构、变形、姿势和照明相关联的任何变化的公因子。剩余的变化被视为成像对象的“外观”。

当两个以上空间强度场被规范化的时候，提高的计算效率可以通过保存中间的规范化计算结果来实现。

为了配准或等效地为了规范化，用来再次抽取图像样本的空间变换模型包括总体模型和局部模型。总体模型有从平移变换到影射变换逐渐增加的阶次。局部模型是有限差分，该有限差分暗示基本上用区段或更复杂地用分段线性网孔确定的关于邻近象素的内插式。原始强度场向规范化强度场的插值增加基于强度场子集的PCA外观模型的直线性。

如图2所示，在依照后面讨论的模型对应关系224从图像数据/画面拆分230出对象象素之后，对象象素或子象素232，234能被再次抽样240。以象素和子象素水平再次抽样240产生对象象素和子象素的规范化版本242，244。

基于网孔的规范化

本发明的进一步的实施方案把特征点镶嵌到基于三角形的网孔中，跟踪该网孔的顶点，并且使用每个三角形的顶点的相对位置来评估与那三个顶点一致的平面的三维表面法线。当该表面法线与摄影机的投影轴相符的时候，成像象素能提供与该三角形相对应的对象的扭曲最小的透视图。创造倾向于支持正交表面法线的规范化图像能产生保存中间数据类型的象素，这将提高后来以外观为基础的PCA(主成分分析)模型的直线性。除PCA以外其它线性分解是适用的

另一个实施方案利用传统的以区段为基础的运动评估来含蓄地建立整体运动模型。在一个非限制性实施方案中，该方法将来自传统的以区段为基础的运动评估/预测所描述的运动矢量的整体仿射运动模型因式分解。

本发明的方法利用一项或多项整体运动评估技术，包括一组仿射投影方程的线性解。其它的投影模型和求解方法在现有技术中已有描述。图9举例说明整体和局部规范化的组合方法。

在图9中，视频序列的第一和第二画面902，904(画面A和画面B)是整体规范化程序906的输入。整体规范化程序906包括下列步骤：形成整体运动模型(如同前面在图4中那样，举例来说)和跟踪网孔的轮廓和顶点的变形或运动。后者表现在画面A和B中出现的成像对象的整体几何形状902，904。整体规范化程序906的结果包括在图9中以108表示的被整体规范化的画面B。接下来，画面A904和被整体规范化的画面B908被送进局部规范化程序910。在那里，被整体规范化的画面B被局部规范化。这导致画面B既被整体规范化又被局部规范化920。

用于整体和局部规范化步骤906和910的各种不同的规范化技术接下来将被分别描述。

渐进的几何规范化

空间间断点的分类被用来对准镶嵌的网孔，以便在它们与网孔边缘一致的时候含蓄地建立间断点模型。

同种区域的边界是用多角形轮廓近似的。为了确定每个多角形顶点的显著优先权，该轮廓是以逐次降低的精度逐次近似的。为了保护共享顶点的顶点优先权，顶点优先权在各个区域上传播。

在这项发明的一个实施方案中，多角形分解方法允许与视场的同种分类相关联的边界的优先排序。象素是依照一些同种标准(例如，光谱相似性)分类的，然后把分类标签按空间连接到各个区域之中。在进一步优选的非限制性实施方案中，4-或8-连通性判据被用来确定空间连通性。

在另一个实施方案中，这些空间区域的边界随后被离散成多角形。所有多角形对所有同种区域的空间覆盖呈棋盘格状并且结合在一起形成初步的网孔。使用一些判据将这种网孔的顶点分解，以揭示保有最初网孔的大多数知觉特征的较简单的网孔表达。

在优选实施方案中，图像配准方法与前面揭示的一样用强壮的图像梯度向这些高优先权顶点偏置。由此产生的变形模型倾向于保护与成像对象的几何形状相关联的空间间断点。

在一个实施方案中，活跃的轮廓用来改善区域边界。每个多角形区域的活跃轮廓都被允许增殖一次迭代。在不同的区域中每个活跃轮廓顶点的“变形”或运动被结合在计算平均值的操作中，以便考虑到隐式网孔受限制的增殖，对于该网孔它们有隶属关系。

在另一个实施方案中，顶点被分配在适合也作为不同区域的轮廓部分的毗邻顶点的网孔中它有的毗邻顶点数的计数。这些其它的顶点被定义为处在对立状态。如果顶点计数为1，则它有没有对立顶点，因此需要得到保护。如果两个毗邻的对立顶点每个顶点的计数都为1(意味着这两个顶点在不同的多角形中而且彼此相邻)，那么一个顶点对另一个是可分辩的。当计数为1的顶点与数值为2的邻近的多角形顶点对立的时候，计数为1的顶点被分辨为计数为2的顶点，而且由此产生的顶点计数等于1。因此，如果出现另一个邻近的对立顶点，那么这个顶点能被再一次分辩。对于这种情况，保留最初的顶点计数是重要的，所以在分辩顶点的时候，我们能基于最初的顶点计数偏置求解方向。这是为了顶点a变得对顶点b清晰可见，那么顶点b对顶点c将不清晰可见，而顶点c应该对顶点b变得清晰可见，因为b已经被用于一种分辨率。

在优选的实施方案中，T-接合点被明确地处理。这些是在一个多角形中的点，该多角形没有点在毗邻的多角形中。在这种情况下，每个多角形顶点都首先被画在图像点映射图上，这张映射图识别顶点的空间位置及其多角形标识符。然后横越和测试每个多角形的周长看看是否有任何来自另一个多角形的毗邻顶点。如果有来自另一个区域的邻近顶点，那么它们每个都被测试，看看它们是否已经有来自当前的多角形的邻近顶点。如果它们没有，那么当前的点作为当前的多角形的顶点被添加进去。这种额外的测试保证在另一个多角形中的孤立顶点被用来产生T-接合点。否则，这将在这个区域已经有匹配顶点的情况下仅仅添加新的顶点。所以，只有当邻近的顶点不与这个当前区域对立的时候才添加对立顶点。在进一步的实施方案中，通过使用掩模图像增加检测T-联接的效率。连续地访问多角形顶点，而且这样更新掩模，以致顶点的象素被确认为属于某个多角形顶点。然后多角形周长的象素被详细研究，如果它们与多角形顶点一致，那么它们被记录为在当前的多角形之内的顶点。

在一个实施方案中，当某光谱区域已被一个或多个交叠的同种图像梯度区域再次映射，而且另一个同种光谱区域也重叠的时候，先前被再次映射的区域全被赋予与当前被再次映射的那些区域相同的标签。因此基本上，如果光谱区域被两个同种区域遮住，那么所有被那两个同种区域遮住的光谱区域都将获得同样的标签，因此一个光谱区域真正被一个同种区域而不是两个同种区域覆盖是相似的。

在本发明的一个实施方案中，为了找到邻接归并判据，处理区域映射图而不是处理区域目录是有利的。在进一步的实施方案中，光谱拆分分类器能被修正以便训练该分类器使用非同种区域。这允许将处理集中在光谱区域的边缘。此外，增加以使用边缘(例如，稳定的边缘检测器)为基础的不同的拆分并且把那个馈送给活跃的轮廓识别最初的那组多角形将考虑到同种区域较大的差别。

局部规范化

本发明提供能以“局部”方式使时空流中的象素配准的方法。

一种这样的局域化方法使用几何网孔的空间应用722(图7)提供分析象素的方法，以致在成像现象中局域相干性在分辨与成像现象(或明确地说成像对象)的局部变形有关的表观图像亮度恒定性模棱两可的时候得到解释。

这样的网孔被用来提供在像平面中表面变形的分段线性模型作为局部规范化的方法。当映像流的时间分辨率与映像中的运动相比高的时候，成像现象可能往往与这样的模型相对应。模型假设之例外是通过多种技术处理的，包括：象素和图像梯度区域的拓扑限制、邻近顶点限制和同种分析。

在一个实施方案中，给定视频画面702(图7)，同种象素区域是作为图像对象位置和数值范围706检测的704。在同种象素区域内，步骤708定义多角形轮廓。步骤710检测和限定该图像对象的特征点。具体地说，使用三角形轮廓并且使用特征点来产生由其顶点与特征点相对应720的三角形元素组成的轮廓网孔722。在其它的画面中对应的特征点暗示三角形(轮廓网孔的镶嵌式铺装)724和对应地象素的内插“翘曲”。这导致局部变形模型(对象网孔)726的产生。图7举例说明这样的对象网孔726的产生。图8举例说明使用这样的对象网孔806使画面802，804局部规范化。

在图8的局部规范化程序中，对象网孔806(例如，用图7的程序产生的)被应用于视频或图像画面802，804(画面A和画面B)。对于网孔的每个顶点，有各自的瓦片810将中心置于其上。在画面A和B802，804之间顶点位置的对应关系是借助下面进一步讨论的并且与先前对整体运动讨论过的那些类似的运动评估决定的。

邻近点的运动评估被用来形成顶点运动矢量812。然后，使用该运动矢量812为每个瓦片814产生仿射模型。下面进一步讨论的是三角形瓦片和对应的运动矢量以及用于这些三角形的仿射模型。

继续参照图8，每块瓦片有对它进行评估的仿射变换(在814)。在步骤816，画面B804基于导致对应的象素被剥夺与画面802，804上的局部结构、变形、姿势和照明相关联的局部变化的逆仿射被再次抽样。换句话说，规范化的画面B在步骤820产生。

在一个优选的实施方案中，产生一幅识别三角形的三角形映射图，该映射图的每个象素都来自该三角形。此外，与每个三角形相对应的仿射变换814(图8)是作为优化步骤预先计算的。再者，在产生局部变形模型的时候，使用空间坐标在固定图像(先前的)上来回移动以确定源象素的抽样坐标。这个被抽样的象素将代替当前象素位置。

在另一个实施方案中，局部变形是在整体变形之后预先形成的。在先前揭示的说明书中，整体规范化是作为使用整体配准方法从空间上规范化两幅或多幅视频画面中的象素的程序描述的。由此产生的整体规范化的视频画面能被进一步局部规范化。这两种方法的组合把局部规范化限制在整体上得到的解决办法的细分方面。这能大大减少求解所需要的局部方法的不明确性。

在另一个非限制性实施方案中，特征点或“规则网孔”情况下的顶点是通过分析那些点邻近区域的图像梯度限定的。这个图像梯度能被直接地或通过某种间接计算(例如，Harris响应)计算出来。此外，这些点能被用与图像梯度下降相关联的空间限制和运动评估结果误差过滤。合格的点能作为网孔的基础被许多棋盘格化技术之一使用，从而导致其元素是三角形的网孔。对于每个三角形，基于那些点和它们残留的运动矢量产生一个仿射模型。

本发明的方法利用一种或多种图像强度梯度分析方法，包括Harris响应。其它的图像强度梯度分析方法在现有技术中已有描述。

在优选的实施方案中，维持三角形仿射参数的目录。这个目录通过迭代构成当前的/早先的点目录(使用顶点查寻映射图)。当前的/早先的点目录被传送给用来评估为那个三角形计算仿射参数的变换的例行程序。然后，这些仿射参数或模型814被保存在三角形仿射参数目录中。

在进一步的实施方案中，该方法横移三角形标识符图像映射图，在这种情况下该映射图中的每个象素包含在该象素对它有隶属关系的网孔中的三角形的标识符。而且对于属于某个三角形的每个象素，为那个象素计算对应的整体变形坐标和局部变形坐标。那些坐标依次用来完成对应象素的抽样并且把它的数值应用于对应的“规范化”位置(例如，图8中的步骤816)。

在进一步的实施方案中，以起因于图像梯度搜寻的密度和图像强度对应关系严格性为基础把空间限制应用于那些点。在完成运动评估之后基于某种图像强度残差基准将那些点分类。然后，以空间密度限制为基础对这些点进行过滤。

在进一步的实施方案中，使用空间光谱拆分，而且把小的同种光谱区域基于它们的强度和/或颜色与邻近区域的空间仿射性和相似性合并。然后，使用同种合并把光谱区域以它们与同种纹理(图像梯度)区域的重叠为基础组合在一起。进一步的实施方案然后使用中心周围点(那些点是被较大的区域包围的小区域)作为合格的感兴趣的点来支持网孔的顶点。在进一步的非限制性实施方案中，中心周围点的定义为其边界框在尺寸为3×3或5×5或7×7象素的一个象素之内而且对于那个边界框空间图像梯度是角落形状的区域。该区域的中心能被归类为角落，从而进一步限定那个位置为有利的顶点位置。

在进一步的实施方案中，水平和垂直的象素有限差分图像被用来给每个网孔边缘的强度分类。如果边缘有许多与它的空间位置一致的有限差分，那么该边缘和那个边缘的顶点被认为是对于成像现象的局部变形非常重要的。如果在边缘的有限差分之和的平均值之间有大的派生差异，那么该区域边缘通常很可能对应于纹理变化边缘，而不是量化步骤。

在进一步的实施方案中，空间密度模型终止条件被用来优化网孔顶点的处理810。当检查过数目足以覆盖大部分检测矩形始端的空间区域的点的时候，于是可以结束该处理。终止产生得分。进入处理的顶点和特征点用这个得分来分类。如果那个点与现有的点在空间上挨得太近，或者那个点不与图像梯度的边缘相对应，则将它丢弃。否则，在那个点的邻近地区中的图像梯度下降，而且如果梯度的残差超过某个界限，那么那个点也被丢弃。

在优选实施方案中，局部变形建模是通过迭代完成的，从而随着每次迭代顶点位移减少收敛到解上。

在另一个实施方案中，局部变形模型被完成，而且如果该整体变形已经提供相同的规范化利益，则该模型参数被丢弃。

规则网孔规范化

本发明利用规则网孔扩展上述的局部规范化方法。这种网孔是不考虑潜在象素构成的，然而它的位置和尺寸与被检对象相对应。

给定被检对象(例如，脸部)区域，空间画面位置和指出对象脸部大小的刻度在脸部区域的始端上产生规则网孔。在优选的实施方案中，使用一组不重叠的瓦片描绘矩形网孔，然后在810完成瓦片的对角线分割产生有三角形网孔元素的规则网孔。在进一步的优选实施方案中，瓦片与用于传统的视频压缩算法(例如，MPEG-4AVC)的那些成比例。

在优选的实施方案中，与上述网孔相关联810的顶点通过在用于训练的特定视频画面中分析这些顶点周围的象素区域区分优先次序。这样的区域的梯度分析提供关于与每个顶点相关的将依靠局部图像梯度的处理(例如，基于区段的运动评估结果)的置信度。

顶点位置在多个画面中的对应关系是通过简单的逐步降低图像梯度找到的。在优选实施方案中，这是通过基于区段的运动评估在810实现的。在目前的实施方案中，高置信度的顶点考虑到高置信度的对应关系。置信度较低的顶点对应关系是通过推理经过求解不明确的图像梯度从置信度较高的顶点对应关系获得的。

在一个优选实施方案中，规则网孔是越过跟踪矩形的开端制作的。产生16×16的瓦片，并且沿着对角线切割，形成三角形网孔。对这些三角形的顶点进行运动评估810。运动评估结果取决于每个点的纹理类型。纹理被分为三类：角落、边缘和同种，它们也定义顶点的处理次序。角落顶点使用邻近顶点评估结果，即，邻近点(如果可得)的运动评估被用于预言性运动矢量812，而运动评估结果适用于每一个。提供最低误差的运动矢量是作为这个顶点运动矢量812使用的。用于角落的搜寻策略是全部(宽的、小的和原点)。对于边缘，再一次使用最近的相邻运动矢量812作为预言性运动矢量，而且使用误差最小的那一个。边缘的搜寻策略是小的和原点。对于同种的，搜寻邻近的顶点并且使用误差最小的运动评估。

在一个优选实施方案中，每个三角形顶点的图像梯度被计算出来，而且基于类别和大小被分类。所以，角落先于边缘，边缘先于同种。对于角落，强的角落先于弱的角落，对于边缘，强的边缘先于弱的边缘。

在一个优选实施方案中，每个三角形的局部变形以与那个三角形相关联的运动评估为基础。每个三角形都有对它在814评估的仿射。如果三角形不作拓扑逆转，或变成退化的，那么作为三角形部分的象素被用来以在814获得的评估仿射为基础抽取当前图像的样本。

拆分

通过进一步描述的拆分程序识别的空间间断点是通过它们各自边界的几何参数表达法(被称为空间间断点模型)被有效地编码的。这些空间间断点模型可以以渐进的方式编码，从而考虑到与编码子集相对应的更简洁的边界描述。渐进式编码提供一种在保留空间间断点的许多显著方面的同时区分空间几何学优先次序的强健方法。

本发明的优选实施方案将多分辨率拆分分析与空间强度场的梯度分析结合起来，并且进一步使用时间稳定性限制来实现强健的拆分。

如图2所示，一旦已经随着时间的流逝跟踪对象特征的对应关系220并且建立了模型224，遵守这个运动/变形模型能用来拆分与那个对象相对应的象素230。这个程序可以对视频数据/画面202，204中的许多被检对象206，208重复。这个程序的结果是被拆分对象的象素232。

本发明使用的无变化特征分析的一种形式被集中在空间间断点的识别上。这些间断点是作为边缘、阴影、遮蔽、线、拐角或在一个或多个视频成像画面中任何其它的引起突然的和可识别的象素分离的任何其它可见特征出现的。此外，在颜色和/或纹理类似的对象之间细微的空间间断点可能只出现在视频画面中的对象的象素相对于对象本身正在经历粘附运动但相对于其它对象正在经历不同的运动之时。本发明利用频谱拆分、纹理拆分和运动拆分的组合强健地识别与显著信号模式相关联的空间间断点。

时间拆分

把平移运动矢量或在空间强度场中等价的有限差分测量结果按时间整合成高阶运动模型是现有技术描述的运动拆分形式。

在本发明的一个实施方案中，产生运动矢量的稠密域，表现映像中对象运动的有限差分。这些导数是通过瓦片的规则分割或借助某种初始化程序(例如，空间拆分)按空间集合的。每个集合的“导数”被整合成使用线性最小二乘评估程序的高阶运动模型。然后，由此产生的运动模型作为矢量被群集在使用聚类算法(k-means)群集技术的运动模型空间中。这些导数是基于与它们拟合最好的群分类的。然后，群标在空间上被群集为空间分割的演变。该程序一直继续到空间分割是稳定的。

在本发明的进一步的实施方案中，适合给定的孔径的运动矢量被内插到一组与该孔径相对应的象素位置。当用这种内插定义的区段横越与对象边界相对应的象素时候，由此产生的分类是该区段的某种不规则的对角线分割。

在现有技术中，用来整合导数的最小二乘评估程序对离群值是高度敏感的。这种敏感性能产生使运动模型群集方法严重地偏向迭代结果大幅度发散的点的运动模型。

在本发明中，运动拆分方法通过在两个以上视频画面上分析明显的象素运动识别空间间断点。明显的运动是针对这些视频画面上的一致性分析的并且被整合成参数运动模型。与这种一致的运动相关联的空间间断点被识别出来。运动拆分也可以被称为时间拆分，因为时间变化可能是由运动引起的。然而，时间变化也可能是由一些其它的现象(例如，局部变形、照明变化，等等)引起的。

通过所描述的方法，与规范化方法相对应的显著信号模式能被识别而且能通过几种背景减法之一与环境信号模式(背景或非对象)分开。时常，这些方法从统计上建立背景模型，因为象素在每个时间例证都呈现最小的变化量。变化能被视为象素数值差异。

基于拆分周界的整体变形模型是通过先创造围绕对象的周界，然后使该周界向被检对象中心倒塌直到周界顶点已经实现位置与异种图像梯度一致实现的。运动评估是针对这些新的顶点位置推断的，而强健的仿射评估被用来发现整体变形模型。

基于被拆分网孔顶点图像梯度下降的有限差分被整合成整体变形模型。

对象拆分

图13所示方框图展示对象拆分的一个优选实施方案。所示程序1300从规范化的视频画面/图像1302的系综开始，该规范化的视频画面/图像随后在该系综当中被逐对地计算差分1304。然后，这些差分被逐元素地积聚到积聚缓冲区中1306。为了识别比较重要的误差区域，该积聚缓冲区设定了阈值1310。然后，为了确定累积误差区域的空间支持1310，对有阈值的元素掩模进行形态学分析1312。然后，将形态学分析1312产生的提取物1314与被检对象位置进行比较1320，以便将后来的处理集中在与对象一致的累积误差区域。然后，用形成其凸壳1324的多角形近似孤立空间区域1320的边界1322。然后，调整壳的轮廓1330，以便更好地初始化用于活轮廓分析1332的顶点位置。一旦活跃轮廓分析1332已经会聚在累积误差空间中的低能量解上，该轮廓被用作最后轮廓1334，而且被限制在该轮廓之中的象素被视为最有可能是对象象素的那些。在最后轮廓1334之外的那些象素被视为非对象象素。

在一个实施方案中，运动拆分能在给定显著图像模型的检测位置和规模的情况下实现。距离变换能用来确定每个象素离开该被检位置的距离。如果与最大距离相关联的象素数值被保留，合理的背景模型能被求解。换句话说，环境信号是使用信号差衡量标准按时再次抽样的。

进一步的实施方案包括相对于当前的检测位置使用距离变换把距离分配给每个象素。如果到某个象素的距离大于在某个最大象素距离表中的距离，那么该象素数值被记录下来。在适当的训练周期之后，如果适合于那个象素的最大距离是大的，则假定该象素最有可能是背景象素。

给定环境信号模型，完全的显著信号模态能按每个时间例证计算差分。这些差分每个都能被再次抽样变成空间规范化的信号差(绝对差)。然后，这些差分被彼此对准并且被累积。由于这些差分已经相对于显著信号模式在空间上被规范化，所以差分的峰值将主要对应于与显著信号模式相关联的象素位置。

在本发明的一个实施方案中，训练周期被限定，其中对象检测位置被确定下来而且那些位置的质心被用来以远离这个位置的检测位置确定最佳的画面数，这将考虑到画面差分化以便产生将最有可能是非对象象素的背景象素。

在本发明的一个实施方案中，活跃轮廓模型曾用来通过在累积误差“图像”中确定轮廓顶点位置把前景对象从非对象背景中拆分出来。在优选的实施方案中，活跃轮廓边缘被细分得与被检对象的比例相称，以便得到较大的自由度。在优选的实施方案中，最后轮廓的位置能与最接近的规则网孔顶点对齐，以便产生有规律地隔开的轮廓。

在对象拆分的一个非限制性实施方案中，使用导向核来为时间上成对的图像产生误差图像过滤响应。对取向与总的运动方向正交的过滤器的响应倾向于在相对于背景的运动由于背景的遮蔽和显露而发生的时候增强误差表面。

规范化图像系综的规范化图像画面强度矢量是利用一个或多个参考画面计算差分的从而产生残差矢量。这些残差矢量是逐元素地累积的，以形成累积残差矢量。然后，这个累积残差矢量被按空间探查，以便定义适合对象象素和非对象象素的空间拆分的空间对象边界。

在一个优选实施方案中，为了得出能用来给累积残差矢量设定阈值的统计阈值，完成了最初的累积残差矢量统计分析。通过先腐蚀后膨胀的形态学操作，形成初步的对象区域掩模。然后，分析该区域的轮廓多角形点以揭示那些点的凸壳。然后，把该凸壳作为初始轮廓用于活跃轮廓分析法。该活跃轮廓在它会聚在该对象的累积残差空间边界上之前是一直增殖的。在进一步优选的实施方案中，初步的轮廓边缘通过添加中点顶点被进一步细分到实现适合于所有的边缘长度的最小边缘长度。这个进一步的实施方案意味着逐渐增加活跃轮廓模型的自由度以便更精确地适合该对象的轮廓。

在一个实施方案中，使用细化的轮廓产生象素掩模从而通过覆盖该轮廓暗示的多角形和覆盖规范化图像中的多角形指出该对象的象素。

非对象的分辨

图12所示的方框图揭示非对象拆分或同义地背景分辨的一个优选实施方案。通过背景缓冲区1206和初始最大距离值缓冲区1204的初始化，该程序这样工作，通过把“稳定性”与距被检对象位置1202的最大距离1212联系起来确定最稳定的非对象象素。给出新的被检对象位置1202，该程序检查每个象素位置1210。对于每个象素位置1210，使用距离变换计算离开被检对象位置1210的距离1212。如果那个象素的距离大于先前储存在最大距离缓冲区1204中的位置1216，那么先前的数值被当前的数值代替1218，而且该象素数值被记录在该象素缓冲区中1220。象素距离与最大存储距离的比较1216是针对每个象素重复的1214。

给出清晰的背景图像，这个图像和当前画面之间的误差可以按空间规范化并且按时间累积。这样的清晰背景图像是在“背景分辨”部分中描述的。通过这个方法背景的分辨率被视为基于时间的遮挡过滤程序。

然后，由此产生的累积误差通过阈值检验提供初始轮廓。然后，该轮廓在空间上扩展以使残留误差与轮廓变形保持平衡。

在替代实施方案中，计算在当前画面和被分辨背景画面之间的绝对差别。然后，将元素状态的绝对差别拆分成截然不同的空间区域。这样计算这些区域边界框的平均象素值，以致当更新被分辨背景的时候，当前的和已分辨的背景的平均象素值之间的差能用来实现反差变化，所以当前区域能更有效地掺混在被分辨的背景之中。在另一个实施方案中，在规范化画面掩模里面的顶点是针对每个画面进行运动评估和保存的。然后，使用SVD处理这些顶点以产生每个画面的局部变形预测。

梯度拆分

纹理拆分方法或同义的强度梯度拆分分析象素在一个或多个视频画面中的局部梯度。梯度响应是一种表征空间间断点的统计尺度，其中所述空间间断点对于该视频画面中的象素位置是局部的。然后，使用几种空间群集技术之一把这些梯度响应组合成一些空间区域。这些区域的边界在识别一个或多个视频画面中的空间间断点方面是有用的。

在本发明的一个实施方案中，来自计算机图形纹理生成的总面积表概念被用于加快强度场梯度计算的目的。累加值域的产生使通过与四次加法运算结合的四次查询计算任何长方形原始域的总和变得容易。

进一步的实施方案使用对一个图像产生的Harris响应，而每个象素的邻近区域被归类为同种的、边缘或拐角。响应数值是依据这个信息产生的并且指出画面中每种元素的边缘化或拐角化的程度。

多刻度梯度分析

本发明的实施方案通过以几种空间刻度产生图像梯度值进一步约束图像梯度支持。这个方法能帮助限定图像梯度，以致在不同的刻度下空间间断点能用来彼此相互支持，只要“边缘”在几种不同的空间刻度下能被区别对待即可，该边缘应该是“显著的”。更合乎条件的图像梯度将倾向于与更显著的特征相对应。

在一个实施方案中，纹理响应区域是首先产生的，然后，这个区域的数值以聚类算法(k-means)分区间/分割为基础被量化成若干区间。然后，使用每个区间作为单一迭代能把转捩点拆分应用于它的数值间隔渐进地处理最初的图像梯度数值。这种方法的好处是在相对意义上用强烈的空间偏置限定同种。

光谱拆分

光谱拆分方法分析视频信号中黑白象素、灰度象素或彩色象素的统计概率分布。频谱分类程序是通过完成关于那些象素的概率分布的群集操作构成的。然后，使用该分类程序把一个或多个象素分类，使之属于某个概率类别。然后，由此产生的概率类别和它的象素被赋予类别标签。然后，使这些类别标签在空间上与截然不同的边界结合成各个象素区域。这些边界标识在一个或多个视频画面中的空间间断点。

本发明可以利用基于光谱分类的空间拆分来拆分视频画面中的象素。此外，各个区域之间的对应关系可能是基于各个光谱区域与先前拆分的区域的重叠确定的。

业已观察到当视频画面大体上由空间上被连接成与视频画面中的对象相对应的较大区域的连续彩色区域组成的时候，彩色(或光谱)区域的识别和跟踪能促进映像序列中对象的后续拆分。

背景拆分

本发明包括以每个视频画面中的探测对象和每个个别象素之间的空间距离测量结果的瞬时最大值为基础建立视频画面背景模型的方法。见前面图12的描述。给定探测到的对象位置，应用距离变换，产生适合画面中每个象素的标量距离数值。在所有的视频画面上每个象素的最大距离的映射图被保留。当最初分配最大数值的时候，或后来用不同的新数值更新该最大数值的时候，适合于那个视频画面的对应的象素被保留在“清晰的背景”画面中。

建立外观模型

视频处理的共同目标往往是建立和保存视频画面序列的外观模型。本发明以允许通过预处理的运用以强健的和广泛适用的方式应用强制性外观建模技术为目标。先前描述的配准、拆分和规范化明显地适合这个目的。

本发明揭示建立外观变化模型的方法。建立外观变化模型的主要基础在线性模型的情况下是分析特征矢量，以揭示开发利用线性相关关系的坚实基础。表达空间强度场象素的特征矢量能被组装成外观变化模型。

在替代实施方案中，外观变化模型是依据被拆分的象素子集计算的。此外，该特征矢量能被分成若干空间上不重叠的特征矢量。这样的空间分解可以用空间铺瓦来实现。计算效率可以通过处理这些临时总体来实现，而不牺牲更普遍的PCA方法的维数减少。

在产生外观变化模型时，空间强度场规范化能用来减少空间变换的PCA建模。

建立变形模型

当顶点位移和插值函数能用来依照与那些象素相关联的顶点决定象素再次抽样的时候，能建立局部变形模型。这些顶点位移可以作为单一参数组提供很多横越许多顶点看到的运动变化。这些参数的相关关系能大大减少这个参数空间的维度。

PCA

产生外观变化模型的优选方法是通过把视频画面作为图案矢量组装成一个训练矩阵或总体然后把主要成份分析(PCA)应用在该训练矩阵上。当这样的展开式被截取的时候，由此产生的PCA变换矩阵被用来分析和合成后面的视频画面。基于截取水平，改变象素的初始外观质量水平能实现。

图案矢量的特定的构成和分解方法对于熟悉这项技术的人是广为人知的。

给出来自环境信号的显著信号模式的空间拆分和这个模式的空间规范化，象素本身或同义的由此产生的规范化信号的外观能被因式分解成线性相关的成份，其中低级参数表达考虑到适合表达象素外观的近似值误差和比特率之间的直接交换。用来实现低等级近似的一种方法是通过舍弃编码数据的一些字节和/或位。低等级近似值被视为原始数据的压缩，如同这项技术的特定应用所确定的那样。举例来说，在视频压缩中，如果数据的舍弃并非不适当地使感知质量降低，那么该应用的特定目标将连同压缩一起实现。

如图2所示，为了得到量纲上简明的数据版本252和254，规范化的对象象素242和244能投射到矢量空间中而且线性对应关系能使用分解程序250建立模型。

连续的PCA

PCA使用PCA变换把图案编码成PCA系数。用PCA变换表达的图案越好，给该图案编码所需要的系数就越少。承认图案矢量可能随着时间在获得训练图案和待编码图案之间流逝降级，更新变换能帮助抵消这种降级。作为产生新变换的替代品，现有图案的连续更新在特定的情况下是计算上更有效的。

许多最新技术的视频压缩算法依据一个或多个其它画面预测某视频画面。预测模型通常基于把每个预测画面分割成与在另一画面中对应的补丁相匹配的不重叠的瓦片和相关联的用偏移运动矢量参数化的平移位移。这个非必选地与画面索引耦合的空间位移提供瓦片的“运动预测”版本。如果预测的误差在特定的阈值以下，则瓦片的象素适合残差编码；而且在压缩效率方面有对应的增益。否则，瓦片的象素被直接编码。这种基于瓦片的换句话说基于区段的运动预测方法通过平移包含象素的瓦片建立影像模型。当影像中的成像现象坚持这种建模的时候，对应的编码效率增加。为了与在基于区段的预测中固有的平移假定一致，这个建模限制为了与在基于区段的预测中固有的平移假设一致假定特定的时间分辨率水平(或帧频)对于正在运动的成像对象是存在的。这种平移模型的另一个必要条件是对于特定的时间分辨率空间位移必须受到限制；换言之，用来推导预测结果的画面和被预测的画面之间的时间差必须是比较短的绝对时间。这些时间分辨率和运动限制使存在于视频流中的某些多余的视频信号成份的识别和建模变得容易。

在本发明的方法中，连续的PCA与嵌零树子波结合以进一步提高混合压缩法的实用性。连续的PCA技术提供能针对有时间相干性或时间局部平滑性的信号提高传统的PCA的方法。嵌零树子波提供能为了提高特定处理的强健性和该算法的计算效率把局部平滑的空间信号分解成空间刻度表达的方法。对于本发明，将这两种技术结合起来，增加变异模型的表达能力和提供那些紧凑且安排好的模型的表达，以致该基础的许多表达能力是由该基础的舍弃提供的。

在另一个实施方案中，连续的PCA是与固定的输入区段大小和固定的允差一起应用的，以增加对第一个和大多数有力的PCA成份的加权偏移。对于较长的数据序列，这第一个PCA成份往往是唯一的PCA成份。这影响重建的画面质量而且能以某种方式限制所述方法的实效。本发明将不同的基准用于PCA成份的选择，这种选择对惯常使用的最小二乘基准是优选的。这种模型选择形式避免用第一个PCA成份过度近似。

在另一个实施方案中，区段PCA程序连同每个数据区段的固定的输入区段大小和规定的PCA成份数目一起用来提供有益的统一重建代替使用相对较多的成份。在进一步的实施方案中，区段PCA被用于与连续的PCA组合，在这种情况下区段PCA在一组步骤数目之后用一个区段PCA步骤重新初始化连续的PCA。这通过减少PCA成份的数目提供有益的统一近似值。

在另一个实施方案中，本发明利用PCA成份在编码-解码之前和之后视觉上相似的情形。图像序列重建质量在编码-解码之前和在之后也可能在视觉上相似，这往往取决于所用的量化程度。本发明的方法先将PCA成份解码，然后再次规范化它们使之有个体基准。对于适度的量化，解码后的PCA成份是近似正交的。在较高的量化水平，解码后的PCA成份被SVD的应用程序部分地恢复以获得一正交基础和一组修改过的重建系数。

在另一个实施方案中，可变的自适应的区段大小被应用于混合的继续PCA方法，为的是产生对于合成质量有所改善的结果。本发明将区段大小建立在PCA成份的最大数目和对于那些区段给定的容许误差的基础上。然后，该方法扩充当前的区段大小，直到达到PCA成份的最大数目。在进一步的实施方案中，PCA成份的序列被视为数据流，这导致维数进一步减少。该方法完成后处理步骤，在那里可变的数据区段是为来自每个区段的第一个PCA成份收集的，而SVD被应用，为的是进一步减少维度。然后，相同的程序被应用于第二个、第三个等成份的收集。

对称的分解

在本发明的一个实施方案中，分解是基于对称总体完成的。这个总体将正方形图像表示成六个正交成份之和。每个成份对应于该正方形的一种不同的对称。由于对称，每个正交成份都是用“基本区域”确定的，该基本区域借助对称作用被映入完全的成份。假定输入图像本身没有特别的对称性，那么基本区域之和有与输入图像一样的集容量。

基于残差的分解

在MPEG视频压缩中，当前的画面是通过先使用运动矢量对先前的画面进行运动补偿，然后把残差更新应用于那些补偿区段，最后将任何没有充份匹配的区段作为新区段完成编码构成的。

对应于残留区段的象素通过运动矢量映射到先前画面的象素上。结果是象素通过能通过连续应用残值合成的影像的瞬时路径。这些象素被确认为能使用PCA最明确地表达的象素。

基于遮挡的分解

本发明的进一步提高确定适用于多个区段的运动矢量是否将导致来自先前画面的任何象素被移动象素遮挡(覆盖)。对于每个遮挡事件，都把遮挡象素劈成新层。没有历史的象素也将暴露出来。暴露出来的象素被放到任何将在当前画面中与它们拟合而且历史拟合也能在那层上完成的层上。

象素的时间连续性是通过象素对不同层的接合和移植得到支持的。一旦获得稳定的层模型，每层中的象素就能基于对条理分明的运动模型的隶属关系编组。

分波段时间量化

本发明的替代实施方案使用离散余弦变换(DCT)或离散子波变换(DWT)把每个画面分解成分波段图像。然后，将主要成份分析(PCA)应用于这些“分波段”影像之中的每个影像。概念是视频画面的分波段分解与原始视频画面相比较减少任何一个分波段中的空间变化。

就移动对象(人)的影像而言，空间变化倾向于支配用PCA建模的变化。分波段分解减少任何一个分解影像中的空间变化。

就DCT而言，任何一个分波段的分解系数都按空间安排在分波段影像之中。举例来说，DC系数是从每个区段获取的并且被安排在看起来像原始影像的邮票版本一样的分波段影像之中。这将对所有其它的分波段重复，而且使用PCA处理每个由此产生的分波段影像。

就DWT而言，分波段已经按针对DCT描述的方式排列好。

在非限制性实施方案中，PCA系数的截取是变化的。

子波

当使用离散子波变换(DWT)分解数据的时候，多个带通数据组以较低的空间分辨率为结果。变换程序能被递归地应用于导出数据直到仅仅产生单一的标量数值为止。在已分解的结构中标量元素通常以分等级的父母/孩子方式相关。由此产生的数据包含多分辨率的分等级结构以及有限差分。

当DWT被应用于空间强度场的时候，许多自然发生的图像现象由于空间频率低是用第一或第二低带通导出数据结构以微不足道的知觉损失表达的。截短该分等级结构在高频率空间数据不是不存在就是被视为噪音的时候提供简明的表达。

尽管PCA可以用来以为数不多的系数实现精确的重建，但是这种变换本身可能是相当大的。为了减少这个“初始”变换的规模，可以使用子波分解的嵌零树(EZT)结构来建立变换矩阵的越来越精确的版本。

子空间分类

如同实践这项技术的人充分理解的那样，离散抽样的现象数据和导出数据能被表达成一组与代数矢量空间相对应的数据矢量。这些数据矢量以非限制性方式包括拆分后对象的规范化外表中的象素、运动参数和特征或顶点的任何二或三维结构位置。这些矢量都存在于矢量空间之中，而且该空间的几何分析能用来产生样本或参数矢量的简洁表达。有益的几何条件是借助形成紧凑子空间的参数矢量代表的。当一个或多个子空间混合，形成表面上更复杂的单一子空间的时候，那些要素子空间可能难以辨别。有几种拆分方法考虑到通过检查通过原始矢量的一些交互作用(例如，内积)产生的高维矢量空间中的数据分离这样的子空间。

特征子空间分类

特征子空间是使用与对象相关联的区域的DCT分解构成的。每个由此产生的系数矩阵都被转换成一个特征矢量。然后，这些特征矢量按空间聚集在由此产生的矢量空间中。这种聚集提供能被整体地和局部地向一些参考对象例证规范化的图像对象例证群体。然后，这些规范化的对象例证能被用作用于PCA的总体。

在一个优选实施方案中，DCT矩阵系数是作为矩阵的上三角形和下三角形求和的。这些总数被认为是二维矢量的元素。

在一个优选实施方案中，最密集的群被识别，而且与该群最紧密关联的矢量被选定。与对应于这些象素的对象例证相关联的象素被认为彼此最相似。然后，选定的矢量能从该子空间中除去，而且再次群集能产生另一组与相关的对象例证相对应的相关矢量。

在进一步的实施方案中，与确认的群的矢量相关联的图像对象例证被整体地向群矩心规范化。如果由此产生的规范化满足扭曲需求，那么该对象例证被认为与该矩心类似。进一步的实施方案考虑到要回到该矢量空间的对象例证无法作为适合进一步群集的候选者。

在另一个实施方案中，群是通过测试它们对其它群集的对象例证的矩心的从属关系精练的。结果是群的隶属关系可能改变并因此产生考虑到产生最相似的对象例证图像的群的精练。

总体处理

本发明的方法可能利用总体选择和处理。该方法从候选者训练池中以来自该池的关键图像的图像变形距离为基础选择小的图像子集。

在一个优选实施方案中，DCT群间距离被用作决定哪个候选图像将用来表现群的变异的的方法。

进一步的实施方案将图像从不同的群投影到不同的PCA空间，为的是确定剩余图像的总体隶属关系。投影之前是图像关于关键总体图像或总体平均的整体和局部规范化。

对象编码

本发明的一个实施方案完成对被检对象例证的傅立叶子空间分类，为的是识别用来给该对象例证编码的一个或多个候选总体。最接近的匹配总体然后通过与关键总体图像或总体平均相关的图像整体和局部规范化被进一步限定。然后，在确认某图像的总体之时，该规范化的图像是使用总体基础矢量完成拆分和分解的。由此产生的系数按与包含对象的画面相对应的时间的例证被分解为与最初的对象相对应的系数。这些系数也被称为外观系数。

序列减少

本发明的方法有利用分解后系数的插值进一步减少图像的编码的方法。时间流被分析，以确定外观和/或变形参数的序列是否有线性的微分。如果是这种情况，那么只有第一个和最后一个参数与中间参数将被线性插值的指示一起被发送。

树形总体

本发明有一优选的实施方案，其中总体被组织成以式样矢量的相似性为基础分支的从属树。树的“根”是作为总体的主要式样建立的。附加的总体式样被加到树上并且变成树的“树叶”。附加的式样作为从属物被放到最类似于该式样的任何一个树节点上。这样，总体式样是这样组织的，以致从属结构是基于相似性产生的。利用这种结构作为“序列减少”的替代品，提供相同的方法，其中用差分代替给式样矢量的序列插值，树的穿程被用作时间排序的替代品。

混合空间规范化压缩

本发明通过把拆分视频流添加到“规范化”的视频流之中充分发挥以区段为基础的运动预测编码方案的效率。然后，这些视频流分开编码以允许传统的编码解码器的平移运动假设是有效的。在完成规范化视频流的解码之时，视频流解除规范化，进入它们适当的位置并且被组合在一起产生原始的视频序列。

在一个实施方案中，一个或多个对象是在视频流中探测到的，而与探测到的每个个别对象有关的象素随后被拆分，离开非对象象素。接下来，针对对象象素和非对象象素产生整体空间运动模型。这个整体模型用来完成对象象素和非对象象素的空间规范化。这样的规范化已经有效地把非平移的运动从视频流中除去并且已经提供一组映像，这组映像的相互遮挡经被减到最少。这些是本发明的方法的两个有益的特征。

象素已按空间规范化的对象和非对象的新映像是作为输入提供给传统的以区段为基础的压缩算法的。在给这些映像解码时，整体运动模型的参数被用来还原规范化的解码画面，对象象素一起合成到非对象象素之上，产生最初的视频流的近似。

如图6所示，先前对一个或多个对象630，650检测到的对象例证206，208(图2)每个都是用传统视频压缩方法632的独立例证处理的。此外，从对象的拆分230产生的非对象602也是使用传统的视频压缩632压缩的。这些独立的压缩编码632之中每一个的结果分别是每个视频流的象素数据的独立的传统编码流634。在某个点，可能在传输之后，象素数据的这些中间编码流234被解压缩636变成规范化非对象610和许多规范化对象638，658的合成物。这些合成后的象素能被解除规范化640，变成它们各自的已解除规范化的版本622，642，662，把这些象素按空间放置在彼此相对正确的位置，以致合成程序670能把对象象素和非对象象素结合成完整的合成画面672。

在优选实施方案中，编码模式之间的切换是基于诸如PSNR之类将允许传统的随子空间方法改变的统计的变形度量标准完成的，以便完成视频画面的编码。

在本发明的另一个实施方案中，外貌、整体变形和局部变形的编码参数是内插的，为的是产生将不必以别的方式编码的中间画面的预测。该插值方法可以是任何标准的插值方法，例如，线性插值、三次插值、样条内插，等等。

如图14所示，对象插值方法能通过一系列用外貌参数和变形参数表达的规范化对象1402，1404，1406的插值分析1408实现。该分析1408确定能应用插值函数1412的时间范围1410。然后，该范围的规格1410能与规范化对象的规格1414，1420结合，以便近似和最后合成过渡期间的规范化对象1416，1418。

其它的实施方案都是预想的。

混合编码解码的整合

[bbp：数据结构和传输]

在把传统的基于区段的压缩算法和本发明描述的规范化-拆分方案结合起来时，一些本发明的方法已经产生。首先，有专门的数据结构和必要的通信协议。

主要的数据结构包括整体空间变形参数和对象拆分规范掩模。主要的通信协议是包括传输整体空间变形参数和对象拆分规范掩模的各个层面。

渐进的计算环境{MLW：状态4？}

依照上文，本发明的以对象为基础的编码和视频数据处理的特定实施方案如下。由众多或一系列视频画面202，204组成的视频流作为输入被送到本发明的系统，如图2所示。对象检测器206，208在两个或多个视频画面202，204之中(之上)检测至少一个对象。跟踪模块220在多个画面202，204上识别和跟踪该被检对象。

该视频流也用结构模型发生器进行分析。结构模型发生器根据带宽消耗、结构和运动分析该视频流。产生几种结构的模型。能进一步缩减的结构模型被增强以便包括运动、变形和照明模型。

结构模型用来将视频画面202，204的空间区域分类，使之属于一个模型或另一个模型。模型分配有效地暗示视频流的空间拆分。这是在图2中举例说明的，因为拆分程序230将与被检对象相对应的象素数据从两个或多个视频画面202，204的其它象素数据中(按空间和/或按时间)拆分出来。对象象素数据232，234产生。

对应关系模型制作器224识别在一个视频画面202中被检对象的元素(特征)并且识别在第二视频画面204中该被检对象分别对应的元素222。接下来，该对应关系模型制作器224分析已识别的对应元素222并且确定各自的对应元素之间的关系。该分析优选使用视频画面202，204之间的以外观为基础的运动评估。已确定的关系定义工作对应关系模型224。优选的是，(用于前面用图4讨论过的整体运动和整体配准的)多维投射运动模型的强健评估被用来产生对应关系模型224。

此外，本发明的系统整合已确定的对应元素之间的关系以便形成被检对象的整体运动模型。优选这是作为规范化(再次抽样)程序240的一部分完成的。规范化程序240提取有与整体结构、局部变形、整体运动和姿势以及照明相关联的任何变化的视频画面202，204的空间区域的公因子。剩余的变化被视为被检对象的“外观”。请注意：多样的规范化平面用来建立外观模型。

当使用最佳的线性技术建立模型的时候，被检对象的规范化外观呈现高度线性的特征。这些外观模型是使用(前面讨论过的)适当的、连续的和“广义的”PCA产生的，该PCA产生非常紧凑的对象外观编码。优选，这种处理是在子波计算环境内完成的；这将允许以类似于传统的视频压缩的方式处理任何复杂的对象模型(即，被检对象的结构模型、外观模型、运动模型)。

使用已知的用来依据运动评估结构的技术与运动评估相结合确定用于结构部分(随着时间逝去视频画面202，204的被检对象)的候选结构。这导致定义被检对象的空间位置和取向并因此提供结构模型和运动模型。

然后，外观模型表现未用结构模型和运动模型集体建模的被检对象的特征和各个方面。在一个实施方案中，外观模型是随着时间逝去结构变化的线性分解而且是通过从结构模型中除去整体运动和局部变形定义的。申请人从每个视频画面获得对象外观，并且使用结构模型，向“规范化姿势”再次投影。“规范化姿势”也将被称为一个或多个“主要”姿势。再次投影表达对象的规范化版本而且产生任何外观变化。当给定的对象在视频画面202，204之间出现转动或空间平移的时候，外观将被放置在单一主要姿势(即，平均的规范化表达)中。外观模型也考虑到主要姿势的主要变形(例如，睁眼/闭眼，张嘴/闭嘴，等等)。因此，外观模型AM(σ)是用主要姿势Pc和主要姿势Pc的主要变形△c表达的，

AM(σ)＝∑(Pc+ΔcPc)

此外，关于外观和照明建模，图像处理的永久挑战之一是在变动的照明条件下跟踪对象。在图像处理中，反差规范化是给可归于灯光/照明变化而不是可归于其它因素(例如，整体或局部运动)的图素亮度值变化建模的程序。优选实施方案评估捕捉映像的照明条件下被检对象的任意变化(即，给入射到该对象上的照明建模)。这是通过将来自Lambertian Reflectance LinearSubspace(朗伯反射系数线性子空间)(LRLS)理论的原则与光学流结合实现的。依照LRLS理论，当对象被固定，优选只考虑照明改变的时候，那组反射图像能用头九个球形谐波的线性组合近似；因此该图像在周围的“图像”矢量空间中接近9D线性子空间。除此之外，图像象素(x，y)的反射亮度能被近似地表达如下：。

I (x, y) = \underset{i = 0,1,2 j = - i,}{Σ} \underset{- i + 1 . . . i - 1, i}{Σ} l_{ij} b_{ij} (n),

使用LRLS和光学流，计算期望值以确定灯光与对象如何互动。这些期望值用来限制能解释光学流场变化的可能的对象运动。当使用LRLS描述使用照明模型的对象外观的时候，允许外观模型处理可能落在照明模型预测结果之外的任何外观变化仍然是必要的。

结构模型、运动(变形)模型、照明模型和外观模型组合被统称为“对象模型”。当给视频画面序列解码所需的对象模型在传输的“接收器”一边不可得的时候，外观建模退回到完成视频流的子波编码。同时，发送器和接收器建立用视频流的子波编码暗示的对象模型的有限态模型。这考虑到随着视频流前进来自视频流的对象模型的预测结果和以对象为基础的压缩的机会主义应用。

关于运动(变形)模型，评估运动通常是计算无效的根源和导出计算的偏差。在特定的实施方案中，运动评估受运动(变形)模型、结构模型和照明模型限制。这导致逐渐增加的计算效率和准确性。LRLS跟踪器被用来确定用于每个视频画面202，204的对象姿势/位置变化作为对2D(网孔)运动评估的预测结果。为了通过姿势评估预测所有象素的运动，反成分算法被应用于LRLS。

此外，申请人将子波处理从图像序列分析扩充到其它空间领域/矢量的序列。子波表达使部分处理能增加计算效率。对于外观模型，子波处理在本发明的编码器中被延伸，以便处理外观模型基础矢量的编码。该程序使象素在外观模型中根据入射的距离和角度偏向来源照相机投影轴线。接下来，运动评估用来决定适合视频画面202某个部分的“结构”。该程序随着时间逝去跟踪那个结构，使所有象素的运动能依据姿势、运动和变形的评估含蓄地预测。因此，进一步的运动评估被设定初值。优选，这个结构是借助上述的LRLS跟踪器跟踪的。

在一个优选实施方案中，变形(运动)建模和照明建模是在子波处理里面完成的。压缩抽样与照明建模结合。照明建模用来定义稀疏的抽样空间和在到达优化阈值的时候结束抽样程序。当前的数据样本用来预测保真度较高的图像。

对象模型在视频场景上、独立的视频文件上和在接收器节点的网络上的持久性进一步呈现用来大大影响凭经验导出对象模型的能力的机会。这些对象模型的管理在类似模型的巩固，对象模型的再次瞄准，复杂拓扑关系的确认，模型的改版、检索和储存方面为更大幅度地提高压缩和计算效率提供丰富的环境。

举例来说，当PCA被应用于视频数据时候，数据的编码由于分析的经验性质可能是相当紧凑的。这个经验方面也使用来给数据解码的“模型”变得相当大，借此将数据存储量从编码数据“偏移”到经验模型。通过这些模型的连续分辨，预测算法能够产生经验模型而不需要明确地传输它们。

此外，当目标是明确地产生在视频画面中出现的对象的结构、变形、姿势、运动和照明的非常精确的模型的时候，从视频流以经验为主地产生对象模型是困难的。另一方面，只要最终目标被限制在原始视频流的合成，用这些相同的分析技术产生暗示模型就能产生非常有效的以对象为基础的压缩算法。

以对象为基础的压缩被期望当几个(时常是一个)对象呈现在视频数据中而且该对象和背景显模型可得的时候起最最理想的作用。通过在子波计算环境中使用对象的暗示模型的概率表达，本发明能“降低”到相对于传统压缩非常有竞争力的编码水平。

最后，许多视频处理系统尝试利用捕获照相机的校准几何学，以便“解释”捕获的视频数据。反之，以视频流本身为基础给虚拟照相机的几何学含蓄地建模在压缩算法的“解释”能力方面甚至产生更大的增益。本发明的压缩系统和方法能够过滤大量的捕获数据而且能够以“原始的”照相机捕获能力不提供的空间和时间分辨率“预测”数据的抽样。

以特征为基础的压缩

在其它的改进实施方案中，“密集的”对象模型将与概率公式组合。这种组合在保真度非常高的模型的使用(在这种情况下残留误差无论如何都被传输，而且剩余部分的范围不因保真度增加超过特定点而发生重大改变)和从前面讨论过的对应关系和对象建模(这往往是有噪声的而且不必要地需要大量的的处理位)获得的估计(举例来说。整体配准和运动)的使用之间产生妥协。

简要地说，从前面讨论过的建模算法获得的对象模型为了除去高频噪声被过滤。这种过滤是在三个维度(即，二维网孔空间平面和整体运动平面)中借助通过数据点的平面拟合完成的。这是减少对象模型的不必要的变化的聚集方式。纹理被映射到这些平面上而且误差被计算出来。随着新的视频画面进来，该误差可能开始增加，因为该平面模型不以足够的分辨率表现新的映像。在这个阶段，平面的数目被适当地改变。这能在闭环中进行，直到误差落到阈值以下。因此，对象模型仅仅必要时才被逐渐地改进。这在视频图像的重建中以含蓄的方式提供传输比特率和失真之间的折衷。

总的方法是产生低分辨率的对象模型(例如，对应关系和整体运动模型)，然后继续地精炼它。图15的方框图描述该程序。跟踪和形状评估1501接受主题视频数据((例如，视频画面202，204)。感兴趣的图像对象如同先前描述的那样被确认。在为数不多的画面中跟踪被检对象的特征点并且建立粗糙的对象模型(对应关系和整体运动)1510。在一个实施方案中，这个三维模型1510是使用上述的因式分解法为刚性对象的3D(空间和运动)模型建造的。

跟踪和形状评估模块1501将粗糙的对象模型1510输出到平面近似器1503。因为粗糙的模型1510通常不是非常精确，所以平面近似器1503使用许多平面近似某对象模型。平面的数目是从自适应单元1507获得的。对于平面近似，对象模型的群集(被表达为可变形的网孔模型)是首先完成的。然后，穿过每个群的中心画3D平面。这产生该主题对象模型的近似值。

在回应中，误差单元1505计算再次投影误差。第一误差单元1505把纹理映射到该平面近似上。然后，该纹理映射平面近似被投影到图像平面上，而且关于原始图像的误差1508被计算出来。根据再次投影误差1508，决定是否需要增加用来表现对象模型的平面数目。如果决定增加平面数目，增量规则是借助自适应单元1507初始化的(例如，增加N)。

最后的输出是按需要的保真度改进的对象模型。再次投影误差计算1505能用以特定应用的需求为基础的专用模块代替。举例来说，在通信应用中，它能以对于有效地表达数据必不可少的位数为基础。

因此，本发明的改进实施方案提供下列各项：

1.能根据应用或用户的需求以不同的分辨率获得工作对象模型的3D建模方法。

2.虽然大多数方法试着从来源视频数据得到可能的最好的对象模型，但是申请者逐渐增加地和自适应地精炼该对象模型。这与精确的对象建模程序相比计算要少得多。

3.本发明的方法不需要预先的图像对象知识而且能用于整个对象、宏模块或整个场景。

4.再次投影误差的计算能在不需要影响本发明程序(图15)的其它步骤的情况下以应用为基础被其它措施代替。

5.专用判据能被合并以便决定用于对象模型的平面数目，这也是停止判据。

6.该程序自动地通过群集程序插入噪音弹性。

图10举例说明能实现本发明的计算机网络或类似的数字处理环境。

客户计算机/装置50和服务器计算机60提供运行应用程序的处理装置、存储装置和输入/输出装置。客户计算机/装置50也能通过通信网络70与其它的计算机装置(包括其它的客户装置/程序50和服务器计算机60)链接。通信网络70可能是现在使用各自的协议(TCP/IP，Bluetooth，等等)彼此通信的远程存取网络、全球网络(例如，英特网)、全世界的计算机集合、局域网或广域网和网关的一部分。其它的电子装置/计算机网络体系结构是适当的。

图11是在图10的计算机系统中计算机(例如，客户处理器/装置50或服务器计算机60)的内部结构图。每台计算机50，60都包含系统总线79，该总线是一组在计算机组成部分或处理系统当中用来传输数据的硬件线。总线79本质上是把计算机系统的不同元素(例如，处理器、磁盘存储器，存储器、输入/输出口、网口，等等)连接起来准许传输数据的共享导线。附着到系统总线79上的是用来把各种不同的输入和输出装置(例如，键盘、鼠标、显示器、打印机、扬声器，等等)与计算机50，60连接起来的输入/输出装置接口82。网络接口86允许计算机与附着在网络(例如，图10的网络70)上的各种不同的其它装置连接。存储器90为用来实现本发明的实施方案(例如，在图2和其它附图中前面详细说明过的线性分解、空间拆分、空间的/可变形的网孔规范化和其它基于对象的编码处理)的计算机软件指令92和数据94准备易失性存储。磁盘存储器95为用来实现本发明的实施方案的计算机软件指令92和数据94准备非易失性存储。中央处理器84也附着在系统总线79上并且准备运行计算机指令。

在一个实施方案中，处理器例行程序92和数据94是电脑程序产品(通常参考数字为92)，包括为本发明的系统至少准备一部分软件指令的计算机易读的媒体(例如，可移开的存储媒体，例如，一个或多个DVD-ROM、CD-ROM、软盘、磁带，等等)。电脑程序产品92能借助技术上众所周知的任何适当的软件安装程序安装。在另一个实施方案中，至少一部分软件指令也可能是从电缆、通信和/或无线连接上下载的。在其它的实施方案中，本发明的程序是在传播媒体(例如，在英特网之类的全球网络或其它网络上传播的无线电波、红外波、激光波、音波或电波)上用传播信号具体表达的电脑程序传播信号产品107。这样的载体媒体或信号至少为本发明的例行程序/程序92准备一部分软件指令。

在替代实施方案中，传播信号是在传播媒体上运送的模拟载波或数字信号。举例来说，传播信号可能是在全球网络(例如，英特网)、远程通信网络或其它网络上传播的数字化信号。在一个实施方案中，传播信号是在传播媒体上遍及某个时间周期传输的信号，例如，在网络上按毫秒、秒、数分钟或更长的周期打包发送的软件应用程序的指令。在另一个实施方案中，电脑程序产品92的计算机易读媒体是计算机系统50可能接受和读出的传播媒体，例如，通过接受该传播媒体并且识别在该传播媒体上具体表达的传播信号，如同前面针对电脑程序传播信号产品所描述那样。

一般地说，术语“载体媒体”或短暂的载体包括上述的瞬态信号、传播信号、传播媒体、存储媒体，等等。

虽然这项发明已参照其优选实施方案被具体地展示和描述，但是熟悉这项技术的人将理解在形式和细节方面各种不同的改变可以在不脱离权利要求书所囊括的发明范围的情况下完成。

举例来说，不同的计算机体系结构是适当的。上述的计算机网络和系统组成部分是为了举例说明的目的而不是作为限制。

Claims

1.一种用来处理来自众多视频画面的视频信号数据的计算机实现方法，该方法包括：

检测在两个或多个给定的视频画面中的对象，每个视频画面都是由象素数据构成的；

通过那两个或多个视频画面跟踪被检对象；

将与被检对象相对应的象素数据与那两个或多个视频画面中的其它象素数据分割开来，以便产生该视频信号数据的第一中间形式，该分割利用象素数据的空间分割；

产生被检对象的元素对应关系模型，每个对应关系模型使被检对象在一个视频画面中的元素与该被检对象在另一个视频画面中的对应元素发生关系；以及

使用该对应关系模型，使分割后的象素数据规范化，所述的规范化包括建立被检对象的整体运动模型和导致对在两个或多个视频画面中与被检对象相对应的象素数据再次抽样，再次抽样的象素数据提供作为输出规范化的视频信号数据的以对象为基础的编码形式；

以对象为基础的编码形式能借助下列步骤解码：(i)利用对应关系模型恢复再次抽样象素数据的空间位置，借此产生与被检对象相对应的恢复象素；以及(ii)以视频信号数据的第一中间形式将恢复的象素数据与其它象素数据再次结合在一起再次形成最初的视频画面；而且

其中产生对应关系模型包括评估多维投影运动模型。

2.根据权利要求1的方法，其中产生对应关系模型的步骤包括：

识别被检对象在给定的两个或多个视频画面中的对应元素；

分析对应元素产生对应元素之间的关系；以及

使用所产生的对应元素之间的关系形成对应关系模型；

其中分析对应元素包括在两个或多个视频画面之间使用以外观为基础的运动评估。

3.根据权利要求2的方法，其中建立整体运动模型包括将所产生的对应元素之间的关系整合成整体运动模型。

4.根据权利要求1的方法，其中检测和跟踪包括使用脸部检测算法。

5.根据权利要求1的方法，进一步包括压缩再次抽样的象素数据，该压缩包括：

将再次抽样的象素数据分解成编码表达，截去该编码表达的零或多个字节；以及

利用截短的编码表达重组再次抽样的象素数据；

其中分解和重组每个都使用主成分分析。

6.根据权利要求1的方法，进一步包括将对应关系模型因素因式分解成多个整体模型，包括：

将对应元素之间的关系整合成整体运动模型；

将再次抽样的象素数据分解成编码表达；

截掉该编码表达的零或多个字节；以及

利用截短的编码表达重组再次抽样的象素数据；

其中分解和重组每一个都使用主成份分析；

其中产生对应关系模型包括使用以两个或多个视频画面之间基于区段的运动评估所产生的有限差分为基础的抽样总体来分析对应的元素。

7.根据权利要求6的方法，其中两个或多个视频画面每个都有对象象素和非对象象素，该方法进一步包括：

识别在两个或多个视频画面中非对象象素的对应元素；

分析非对象象素中的对应元素和产生非对象象素的对应元素之间的关系；以及

使用所产生的非对象象素的对应元素之间的关系形成第二对应关系模型；

其中分析非对象象素的对应元素的步骤使用基于时间的遮挡滤波器。

8.根据权利要求1的方法，进一步包括：

将对应关系模型因式分解成整体变形模型；

将对应元素之间的关系整合成整体运动模型；

将再次抽样的象素数据分解成编码表达，截掉该编码表达的零或多个字节；以及

依据截短的编码表达重组再次抽样的象素数据；

其中分解和重组每个都使用传统的视频压缩/解压缩程序；而且

9.根据权利要求1的方法，其中规范化步骤借助下列步骤将对应关系模型因式分解成局部变形模型：

定义覆盖与被检对象相对应的象素数据的二维网孔，该网孔以有顶点和边缘的规则栅格为基础；以及

依据对应元素之间的关系创造局部运动模型，该关系包括以依据两个或多个视频画面之间基于区段的运动评估所产生的有限差分为基础的顶点位移。

10.根据权利要求9的方法，其中顶点与离散的图像特征相对应，定义二维网孔的步骤以对象在视频画面中的图像亮度梯度为基础进一步识别与被检对象相对应的重要图像特征。

11.根据权利要求9的方法，其中所创造的局部运动模型以不能用整体运动模型近似的剩余运动为基础。

12.一种依据众多视频画面产生视频信号数据的编码形式的计算机实现方法，该方法包括：

在众多视频画面中的两个或多个视频画面中检测对象，每个视频画面都是由象素数据构成的；

通过两个或多个视频画面跟踪被检对象，该被检对象有一个或多个元素；

对于在一个视频画面中被检对象的元素，识别在其它视频画面中被检对象的对应元素；

分析该对应元素以产生对应元素之间的关系；

使用所产生的对应元素之间的关系形成用于该被检对象的对应关系模型；

利用所形成的对应关系模型和可变形的网孔使在两个或多个视频画面中与被检对象相对应的象素数据规范化，所述的规范化产生表现视频信号数据的以对象为基础的编码形式的再次抽样象素数据；以及

呈递该频信号数据的基于对象的编码形式供以后使用，该基于对象的编码形式准许利用对应关系模型恢复再次抽样象素数据的空间位置和产生恢复后的被检对象象素数据；

其中检测和跟踪都包括使用Viola/Jones脸部检测算法和主成分分析中的任何一项或组合。

13.根据权利要求12的方法，进一步包括：

在两个或多个视频画面中将与被检对象相对应的象素数据与其它的象素数据分割开，从而导致该视频信号数据的第一中间形式，该分割利用时间整合；而且

该基于对象的编码形式进一步准许将恢复的象素数据与该视频信号数据的第一中间形式的一部分重新组合在一起再次产生最初的视频画面。

14.根据权利要求12的方法，进一步包括通过将所产生的对应元素之间的关系整合成整体运动模型将对应关系模型因式分解成整体模型的步骤；

其中形成对应关系模型的步骤使用适合求解二维仿射运动模型的强健的抽样共识，而分析对应元素的步骤使用以依据两个或多个视频画面之间的基于区段的运动评估产生的有限差分为基础的抽样总体。

15.根据权利要求12的方法，进一步包括通过下列步骤压缩再次抽样的象素数据：

将再次抽样的象素数据分解成编码表达，

截掉该编码表达的零或多个字节，以及

利用截短的编码表达重组再次抽样的象素数据；

其中分解和重组都使用主成分分析。

16.根据权利要求12的方法，进一步包括通过下列步骤将对应关系模型因式分解成整体变形模型：

将所产生的对应元素之间的关系整合成整体运动模型，

将再次抽样的象素数据分解成编码表达，

截掉编码表达的零或多个字节，以及

利用截短的编码表达重组再次抽样的象素数据；

其中分解和重组都使用主成分分析；

形成对应关系模型的步骤使用适合求解二维仿射运动模型的强健的抽样共识，而分析对应元素的步骤使用以从两个或多个视频画面之间的基于区段的运动评估中产生的有限差分为基础的抽样总体。

17.根据权利要求16的方法，其中两个或多个视频画面之中的每个画面都包括对象象素数据和非对象象素数据，该方法进一步包括：

识别在两个或多个视频画面中非对象象素数据的对应元素；

分析非对象象素数据的对应元素产生非对象象素数据中对应元素之间的关系；

使用非对象象素数据中对应元素之间的关系产生第二对应关系模型；

其中分析非对象象素数据中的对应元素包括以时间为基础的遮挡滤波器。

18.根据权利要求12的方法，进一步包括：

将对应关系模型因式分解成整体变形模型；

将对应元素之间的关系整合成整体运动模型；

将再次抽样的象素数据分解成编码表达，截掉编码表达的零或多个字节；以及

利用截短的编码表达重组再次抽样的象素数据；

其中分解和重组都使用传统的视频压缩/解压缩处理；

其中形成对应关系模型使用适合求解二维仿射运动模型的强健的抽样共识，而且

其中分析对应元素使用以从两个或多个视频画面之间的基于区段的运动评估中所产生的有限差分为基础的抽样总体。

19.根据权利要求12的方法，进一步包括将对应关系模型因式分解成局部变形模型，包括：

定义覆盖与被检对象相对应的象素的二维网孔，该网孔以有顶点和边缘的规则栅格为基础；以及

利用对应元素之间的关系产生局部运动模型，该关系包括以依据两个或多个视频画面之间的以区段为基础的运动评估所产生的有限差分为基础的顶点位移。

20.根据权利要求19的方法，其中顶点与离散的图像特征相对应，该方法包括通过使用图像梯度Harris响应分析识别与被检对象相对应的重要的图像特征。

21.根据权利要求19的方法，其中所产生的局部运动模型以不能用整体运动模型近似的剩余运动为基础。