CN101939991A

CN101939991A - 用于处理图像数据的计算机方法和装置

Info

Publication number: CN101939991A
Application number: CN2008800062994A
Authority: CN
Inventors: C·P·佩斯
Original assignee: Euclid Discoveries LLC
Current assignee: Euclid Discoveries LLC
Priority date: 2007-01-23
Filing date: 2008-01-04
Publication date: 2011-01-05
Also published as: US20100008424A1; JP2010526455A; TW200838316A; US8908766B2; EP2130381A2; WO2008091483A3; CA2676219C; CA2676219A1; US20130083854A1; WO2008091483A2

Abstract

一种用于图像数据压缩的方法和装置包括检测图像信号的如下部分，该部分使用较图像信号的其它部分而言数量不相称的带宽。检测的图像信号部分获得确定的兴趣组成。相对于某一变化，该方法和装置将确定的兴趣组成规范化以生成兴趣组成的中间形式。该中间形式代表通过某一变化来减少复杂性的兴趣组成并且实现视频信号的压缩形式，在该压缩形式中确定的兴趣组成维持显著性。在一个实施例中，视频信号是视频帧序列。检测步骤包括以下步骤中的任何步骤：(i)分析一个或者多个帧内的图像梯度，其中图像梯度是第一导数模型，并且梯度流是第二导数；(ii)在时间上或者在空间上对像元的有限差进行积分以形成导数模型；(iii)分析一个或者多个帧内的照明场；以及(iv)预测分析，从而确定带宽消耗。确定的带宽消耗然后用来确定兴趣组成。

Description

用于处理图像数据的计算机方法和装置

相关申请的交叉引用

本申请要求对提交于2007年1月23日的美国临时申请No.60/881,966的优先权。本申请与提交于2006年6月9日的美国临时申请No.60/811,890有关。本申请也是提交于2006年3月31日的美国申请No.11/396,010的部分继续申请，该美国申请No.11/396,010是提交于2006年1月20日的美国申请No.11/336,366的部分继续申请，该美国申请No.11/336,366是提交于2005年11月16日的美国申请No.11/280,625的部分继续申请，该美国申请No.11/280,625是提交于2005年9月20日的美国申请No.11/230,686的部分继续申请，该美国申请No.11/230,686是提交于2005年7月28日的美国申请No.11/191,562、现为美国专利No.7,158,680的部分继续申请。美国申请No.11/396,010也要求对提交于2005年3月31日的美国临时申请No.60/667,532和提交于2005年4月13日的美国临时申请No.60/670,951的优先权。通过引用将前述申请的全部教导结合于此。

技术领域

本发明总体上涉及数字信号处理领域，并且具体地，涉及用于信号或者图像数据而且更具体地是视频数据的高效表示和处理的计算机装置和计算机实施的方法。

背景技术

本发明所处的现有技术的大致系统描述可以如图1中所示。此处，框图显示典型现有技术视频处理系统。这样的系统典型地包括以下级：输入级102、处理级104、输出级106和一个或者多个数据存储机制108。

输入级102可以包括例如相机传感器、相机传感器阵列、范围发现传感器或者从存储机制取回数据的装置这样的单元。输入级提供如下视频数据，这些视频数据表示人为和/或自然出现的现象的时间相关的序列。数据的显著(salient)组成可能为噪声或者其它有害信号所掩蔽或者污染。

形式为数据流、数组或者分组的视频数据可以根据预定传送协议直接地或者通过中间存储单元108呈现给处理级104。处理级可以采用专用模拟或者数字设备或者可编程设备(例如中央处理单元(CPU)、数字信号处理器(DSP)或者现场可编程门阵列(FPGA))的形式，用以执行所需的视频数据处理操作组。处理级104通常包括一个或者多个CODEC(编码器/解码器)。

输出级106产生能够影响用户或者外部装置的信号、显示或者其它响应。输出设备典型地用来生成指示符信号、显示、硬拷贝、对储存器中的处理数据的表示或者启动数据向远程地点的发送。它也可以用来提供用于在后续处理操作中使用的中间信号或者控制参数。

将储存器呈现为这一系统中的可选单元。存储单元108在被运用时可以是非易失性的(例如只读存储介质)或者易失性的(例如动态随机存取存储器(RAM))。对于单个视频处理系统而言包括数种类型的存储单元并不罕见，其中这些单元具有与输入级、处理级和输出级的各种关系。这样的存储单元的例子包括输入缓冲器、输出缓冲器和处理高速缓存器。

图1中的视频处理系统的主要目的在于处理输入数据以产生对于具体应用有意义的输出。为了实现这一目标，可以利用各种处理操作，这些处理操作包括噪声消减或者消除、特征提取、对象分割和/或规范化、数据分类、事件检测、编辑、数据选择、数据重新编码或者转码。

产生不易受约束的数据的许多数据源对于人们而言至关重要，尤其是声音和可视图像。在多数情况下，这些源信号的实质特征对高效数据处理目标产生了负面影响。源数据的内在可变性对于以可靠和高效方式处理数据而不引入错误而言是一种障碍，这些错误源于在导出设计假设时使用的初级经验和试探方法。这一可变性对于当输入数据自然地或者有意地约束成狭义定义的特征组(例如有限组的符号值或者窄带宽)时的应用而言有所减轻。这些约束都经常造成商业价值低的处理技术。

信号处理系统的设计受系统的预定使用和用作输入的源信号的预期特征的影响。在多数情况下，所需性能效率也将是一个重大的设计因素。性能效率又受较可用数据储存器而言的待处理的数据量以及较可用计算能力而言应用的计算复杂性所影响。

常规视频处理方法受表现为缓慢的数据通信速度、大量储存要求和干扰性的可察觉的赝像(artifact)的诸多低效性的不良影响。这些可能由于人们希望对视频数据进行使用和操控的方式的多样性以及由于人们对一些形式的可视信息具有的先天敏感性而成为严重问题。

“最优”视频处理系统在进行所需处理操作组时高效、可靠和鲁棒。这样的操作可以包括对数据的存储、传输、显示、压缩、编辑、加密、增强、分类、特征检测和识别。辅助操作可以包括将这样处理的数据与其它信息源集成。同样重要的是，在视频处理系统的情况下，输出应当通过避免引入可察觉的赝像来与人类视觉兼容。

如果视频处理系统的速度、效率和质量并不强依赖于输入数据的特定特征的细节则可以将其描述为“鲁棒”。鲁棒性还与用以在一些输入出错时进行操作的能力有关。许多视频处理系统无法足够鲁棒以允许一般类别的应用——仅提供应用，因而无法允许在系统的开发中使用的相同狭义约束的数据。

显著信息可能由于输入单元的采样率与感测的现象的信号特征不匹配而在连续值的数据源的离散化中丢失。同样，当信号的强度超过传感器的限制从而造成饱和时，也存在损失。类似地，当输入数据中的值的完全范围由一组离散值表示时，在如任何量化过程中发生的那样减少输入数据的精确度时丢失信息，由此减少数据表示的精确度。

总体可变性是指一类数据或者信息源的任何不可预测性。表示可视信息的数据具有很大程度的总体可变性，因为可视信息通常不受约束。可视数据可以表示可以由传感器阵列上入射的光所形成的任何空间阵列序列或者空间-时间序列。

在对可视现象进行建模时，视频处理器一般对数据的表示或者解释方式施加某些组约束和/或结构。结果是这样的方法可能引入将对输出的质量、输出可以被认可的置信度以及可以对数据可靠地进行的后续处理任务类型有影响的系统误差。

量化方法在尝试保持视频帧中数据的统计变化的同时减少该数据的精确度。典型地，对视频数据进行分析，从而将数据值的分布聚集成概率分布。还存在这样的方法，其将数据投影到相空间中以便将数据表征为空间频率混合，由此允许精确度降低以不令人反感的方式进行扩散。这些量化方法在被大量利用时常常造成知觉上难以置信的颜色并且可能导致视频帧的原本平滑区域中的突然的像元显示。

通常，还会使用差编码来充分利用数据的局部空间相似性。帧的一个部分中的数据往往类聚于该帧中以及后续帧中的相似位置处的相似数据周围。将数据按照它的空间上相邻的数据来表示接着可以与量化组合，并且最终结果为就给定精度而言表示差值比使用数据的绝对值来表示差值更准确。这一假设在原始视频数据的频谱解析度有限(例如在黑白视频或者浅色视频中)时很好地起作用。随着视频的频谱解析度增加，相似性假设明显不成立。之所以不成立是因为不能有选择地保留视频数据的精确度。

残差编码类似于差分编码，因为对表示的误差进一步进行差分编码以便将原始数据的精度恢复到所需精度水平。

这些方法的变化尝试将视频数据变换成交替表示，这些交替表示揭示在空间相位和标度上的数据相关。一旦已经用这些方式变换视频数据，继而可以将量化和差分编码方法应用于经过变换的数据，从而实现显著图像特征的保留的增加。这些变换视频压缩技术中的两种最流行普遍的技术是离散余弦变换(DCT)和离散小波变换(DWT)。DCT变换中的误差以视频数据值的广泛变化来显现，因此典型地对成块视频数据使用DCT以便将这些错误的相关局部化。来自这一局部化的赝像常常沿着块的边界出现。对于DWT，更复杂的赝像在基本函数与某一纹理之间有错配时发生，并且这造成模糊效果。为了中和DCT和DWT的负面影响，增加表示的精确度以便以宝贵的带宽为代价来降低失真。

发明内容

本发明通过进一步添加统计分析以确定对规范化像元数据的近似来构建于在现有相关申请中公开的主题内容上。这一近似是规范化像元数据的“编码”形式。通过对规范化像元数据的线性分解来实现统计分析，具体地实施为在这一情况下可以通称为主元分析(PCA)的奇异值分解(SVD)。这一操作的结果是一个或者多个基向量的集合。这些基向量可以用来渐进地描述对规范化像元数据更为准确的逼近。这样，进行对一个或者多个最小有效基向量的截除，以产生足以将规范化像元数据表示成所需质量水平的编码。

一般而言，PCA不能有效地应用于原始视频帧。但是一旦已经对帧进行分割并且进而对其进行规范化，那些帧中的像元的外观变化不再具有对背景像元的干扰或者来自全局运动的空间移位。在视频帧数据中没有这两种变化形式的情况下，PCA能够比原来的情况使用更少的基向量来更为准确地逼近规范化像元数据的外观。所得益处在于在带宽方面对视频中的对象的原始外观很密集的表示。

可以用多种方式进行对基向量的截除，并且每个截除在与PCA本身进行组合时被视为一种精确度分析形式。这一截除可以简单地是全部基向量从基向量集的所述排除。取而代之，可以有选择地排除(截除)向量元素和/或元素字节和/或这些字节的位。另外，基向量本身可以变换成将允许更多截除方法选择的替代形式。使用嵌入式零树截除的小波变换是一种这样的形式。

生成规范化像元数据并且进而将它减少至编码像元数据提供一种对原始视频帧中的像元数据的外观的数据表示。这一表示可以自行使用或者用作为用于其它处理的输入。编码数据可以足够密集以提供较无进一步处理的常规压缩而言的有利压缩比。

可以使用编码数据来取代常规视频压缩算法中的“变换系数”。在一种常规视频压缩算法中，使用离散余弦变换(DCT)对像元数据进行“变换编码”。然后使用量化和熵编码来进一步处理所得到的“变换系数”。量化是一种用以降低个别系数的精度的方式。熵编码是对量化系数的无损压缩并且可以视为具有与缩压文件相同的意义。一般而言，本发明有望产生比DCT更密集编码的向量，由此在使用于常规编码解码器算法中时允许更高的压缩比。

在一个优选实施例中，将兴趣组成(即视频信号中令人感兴趣的部分)确定为不相称带宽消耗和图像梯度关于时间的函数。相对于全局结构、全局运动和姿态、局部形变和/或照明将兴趣组成(视频信号的确定部分)进行规范化。这样的规范化以如下方式降低兴趣组成的复杂性，该方式实现几何数据分析技术的应用而同时具有增加的有效性。

具体而言，视频信号是帧序列，对不相称带宽的检测包括以下步骤中的任何步骤：

(i)分析穿过一个或者多个帧的图像梯度，

(ii)在时间上或者在空间上对像元的有限差进行积分以形成导数模型，其中图像梯度是第一导数并且梯度流是第二导数，

(iii)分析穿过一个或者多个帧的照明场，以及

(iv)预测性分析，

以确定带宽消耗。确定的带宽消耗用来确定兴趣组成(或者视频信号中令人感兴趣的部分)。确定的兴趣组成包含结构信息，该结构信息包括空间特征和空间特征对应性(运动)的任意组合。

根据本发明的一个方面，规范化步骤包括形成确定的兴趣组成的结构模型和外观模型。优选实施例将几何数据分析技术至少应用于外观模型和/或结构模型。兴趣组成的复杂性的降低实现以基本上增加效果的方式的几何数据分析的应用。几何数据分析技术包括任何线性分解和非线性分解。优选地，线性分解运用以下中的任何项：顺序PCA、幂因数分解、广义PCA和渐进PCA。渐进PCA可以包括与PCA组合的小波变换技术。

附图说明

根据下文对如附图中所示的本发明示例性实施例的更具体描述将清楚前文内容，在这些附图中相似标号在不同的图中通篇地指代相同部分。附图未必按比例绘制而是强调图示本发明的实施例。

图1是图示了现有技术视频处理系统的框图；

图2是根据本发明的原理用于处理视频数据的系统的框图；

图2A和2B是本发明的实施例操作于其中的计算机环境的示意图和框图；

图3是图示了本发明的运动估计方法的框图；

图4是图示了本发明的全局配准(registration)方法的框图；

图5是图示了本发明的规范化方法的框图；

图6是图示了混合空间规范化压缩方法的框图；

图7是图示了在局部规范化中运用的本发明网格生成方法的框图；

图8是在局部规范化中运用的本发明基于网格的规范化方法的框图；

图9是图示了本发明的组合式全局和局部规范化方法的框图；

图10是一个优选实施例的视频压缩(通称为图像处理)系统的框图；

图11是图示了本发明的虚拟图像传感器的流程图；

图12是图示了背景解析方法的框图；

图13是图示了本发明的对象分割方法的框图；

图14是图示了本发明的对象插值方法的框图。

具体实施方式

本发明的示例性实施例描述如下。

在视频信号数据中将视频帧汇集成通常对投影、成像到二维成像表面上的三维场景进行描绘的图像序列。各帧或者图像由如下像元(pel)组成，这些像元代表成像传感器对采样信号的响应。采样信号常常对应于由二维传感器阵列采样的一些反射、折射或者发射能量(例如电磁、声音等)。连续顺序采样获得每帧有两个空间维度而时间维度与帧在视频序列中的顺序相对应的时空数据流。

如图2中所示，本发明分析信号数据并且标识显著组成。当信号包括视频数据时，对时空流的分析揭示了常常是具体对象如脸部的显著组成。标识过程考核显著组成的存在和重要性(significance)并且选择那些合格的显著组成中最重要的一个或者多个显著组成。这并不限制在当前描述的处理之后或者与该处理并行对其它显著性较低的组成进行标识和处理。然后进一步分析前述显著组成、标识可变和不变子组成。对不变子组成的标识是如下过程，该过程对该组成的某一方面进行建模，由此揭示允许将该组成合成为所需精度水平的模型的参数化。

在本发明的一个实施例中，检测和跟踪前景对象。从视频的各帧标识和分割对象的像元。基于块的运动估计应用于多帧中的分割对象。这些运动估计然后集成到高阶运动模型中。运动模型用来将对象的实例扭曲成共同空间配置。对于这一配置中的某一数据，对准对象的更多特征。这一规范化允许密集地表示对象的像元的值在多帧内的分解。在这一密集表示中包含与对象的外观有关的显著信息。

本发明的一个优选实施例详述前景视频对象的线性分解。空间上将对象规范化，由此产生密集线性外观模型。又一优选实施例在空间规范化之前还从视频帧的背景分割前景对象。

本发明的一个优选实施例将本发明应用于人在向相机讲话时运动量很少的视频。

本发明的一个优选实施例将本发明应用于视频中可以通过空间变换来很好地表示的任何对象。

本发明的一个优选实施例具体地运用基于块的运动估计以确定两个或者更多视频帧之间的有限差。从有限差因数分解为较高阶运动模型，以便提供更有效的线性分解。

检测和跟踪(C1)

在本领域中已知检测帧中的对象并且在预定数目的之后帧内跟踪该对象。在可以用来实现对象检测功能的算法和程序之中有Viola/Jones：Viola，P.和M.Jones在加拿大温哥华2001年7月的Proc.2nd Int’l.Workshop on Statistical and Computational Theories ofVision--Modeling，Learning，Computing and Sampling中的“RobustReal-time Object Detection”。类似地，有可以用来在连续帧内跟踪检测到的对象的大量算法和程序。一个例子包括Edwards，C.等人在Proc.Int’l.Conf.Auto.Face and Gesture Recognition 1998年第260-265页中的“Learning to identify and track facts in an imagesequence”。

对象检测过程的结果是如下数据集，该数据集指明了对象的中心在帧中的大致位置，以及关于对象的标度(尺寸)的指示。跟踪过程的结果是如下数据集，该数据集表示用于对象的时间标签并且保证在连续帧中检测到的对象是相同对象达到某一概率水平。

对象检测和跟踪算法可以应用于一帧中的单个对象或者多帧中的两个或者更多对象。

跟踪一组顺序帧中的检测到的对象的一个或者多个特征也是已知的。如果对象例如是人脸，则特征可以是眼睛或者鼻子。在一种技术中，特征由可以宽松地描述为“角”的“线”的交点代表。优选地，选择以下“角”作为特征，该“角”较强并且空间上互不相同。可以通过空间强度场梯度分析来标识特征。运用对光学流的层级多解析度估计允许确定特征在连续帧中的平移移位。Black，M.J.和Y.Yacoob在波士顿1995年6月的Proceedings of the InternationalConference on Computer Vision第374-381页中的“Tracking andrecognizing rigid and non-rigid facial motions using local parametricmodels of image motions”是使用这一技术来跟踪特征的算法的例子。

一旦已经确定信号的作为构成的显著组成，可以保持这些组成并且可以削减或者去除所有其它信号组成。在图2中示出了检测显著组成的过程，其中一个或者多个检测对象206过程处理视频帧202从而实现标识一个或者多个对象并且随后对其进行跟踪。保持的组成表示视频数据的中间形式。然后可以使用通常无法为现有视频处理方法所用的技术对这一中间数据进行编码。由于中间数据以数种形式存在，所以标准视频编码技术也可以用来对这些中间形式中的数种形式进行编码。对于各实例，本发明确定并且继而运用最高效的编码技术。

在一个优选实施例中，显著性分析过程对显著信号模式进行检测和分类。这一过程的一个实施例运用如下空间滤波器的组合，这些空间滤波器被具体地设计成生成力度与检测到的视频帧中的对象的显著性相对的响应信号。按视频帧的不同空间标度和在视频帧的不同位置应用分类器。来自分类器的响应的力度表明存在显著信号模式的可能性。当集中在显著性强的对象之上时，该过程用力度上相对应的响应对它进行分类。对显著信号模式的检测通过实现对视频序列中的显著信息的后续处理和分析使本发明与众不同。

特征点跟踪(C7)

当显著信号模式在一个或者多个视频帧中的检测位置给定时，本发明分析显著信号模式的不变特征。此外，本发明还分析信号的残差(即“显著性较低”的信号模式)的不变特征。对不变特征的标识提供用于减少冗余信息并且分割(即分离)信号模式的基础。

在本发明的一个实施例中，通过空间强度场梯度分析来确定一个或者多个帧中的空间位置。这些特征对应于可以不严谨地描述为“角”的“线”的某一交点。这样的实施例还选择这里称为特征点的既是强角又在空间上互不相同的一组这样的角。另外，利用对光学流的层级多解析度估计允许确定特征点随时间的平移移位。

在图2中示出了跟踪对象220过程，其用以来自检测对象过程208的检测实例并且进而是多个视频帧202和204之上的一个或者多个检测到的对象的特征的对应性标识222聚在一起。

可以运用特征跟踪的一个非限制实施例，从而特征用来考核一种更规则的梯度分析方法，例如基于块的运动估计。

另一实施例期望基于特征跟踪的运动估计预测。

基于对象的检测和跟踪(C1)

在本发明的一个非限制性实施例中，鲁棒对象分类器用来跟踪视频帧中的脸部。这样的分类器是基于已经在脸部上训练的对定向边沿的级联响应。在这一分类器中将边沿定义为基本Harr特征集并且将这些特征旋转45度。级联分类器是AdaBoost算法的一种形变。此外，可以通过使用求和面积表来优化响应计算。

局部配准

配准涉及到两个或者更多视频帧中的标识的对象的元素之间对应性的指派。这些对应性变成用于对视频数据中的时间上不同的点处的视频数据之间的空间关系进行建模的基础。

针对本发明描述各种非限制性的配准手段以便说明按照公知算法和本发明对这些算法的派生来实现的具体实施例及其相关联简化。

可以通过由视频数据的两个或者更多帧生成有限差场来实现一种对时空序列中的明显光学流进行建模的手段。如果对应性在空间和强度意义上均符合某一恒定性约束，则可以稀疏地估计光学流场。

如图3中所示，有可能通过抽选(decimation)过程(306)或者某一其它子采样过程(例如低通滤波器)在空间上对帧(302或者304)进行子采样。也可以对这些空间上减少的图像(310和312)进一步进行子采样。

其它运动估计技术是适合的，例如与美国申请No.11/396,010相关的各种基于块的运动估计、基于网格和基于相位的运动估计。全局配准

在一个实施例中，本发明通过使用两个或者更多视频帧中的检测到的对象的对应元素之间的关系来生成对应性模型。通过从有限差估计场换算一个或者多个线性模型来分析这些关系。术语“场”是指具有空间位置的每个有限差。这些有限差可以是在检测和跟踪一节中描述的对应对象特征在不同视频帧中的平移移位。从中进行此类采样的场在这里称为有限差母体。所述方法运用与如M.A.Fischler、R.C.Bolles在Comm.Ofthe ACM 1981年第24卷第381-395页的“Random Sample Consensus：A Paradigm for Model Fitting withApplications to Image Analysis and Automated Cartography”中描述的RANSAC算法的鲁棒估计相似的鲁棒估计。

如图4中所示，有限差在全局运动建模的情况下是聚集到母体池(404)中的平移运动估计(402)，该母体池由对那些运动估计的随机采样(410)迭代处理，并且从那些样本换算出线性模型(420)。结果然后用来调整群体(404)以通过例如随机过程发现的排出线性模型的局外因素来更好地阐明模型。本发明能够利用一个或者多个鲁棒估计器；其中之一可以是RANSAC鲁棒估计过程。鲁棒估计器在现有技术中有适当文献记载。

在线性模型估计算法的一个实施例中，运动模型估计器基于线性最小平方解决方案。这一依赖性造成局外数据摆脱估计器。基于RANSAC，公开的方法是一种通过对数据子集的迭代估计从而探求将对数据的有效子集进行描述的运动模型来抵消局外因素影响的鲁棒方法。对由每个探求生成的模型进行它所代表的数据的百分比测试。如果有充分次数的迭代，则将发现一个与数据的最大子集拟合的模型。在如下文献中描述了如何进行这样的鲁棒线性最小平方回归：R.Dutter和P.J.Huber在Journal of Statistical and ComputationalSimulation 1981年13：79-113的“Numerical method for the nonlinearrobust regression problem”。

如设想以及图4中图示的那样，本发明公开以RANSAC算法的更改形式超出该算法的创新，这些算法涉及到对有限差(样本)的初始采样和对线性模型的最小平方估计。使用求解的线性模型来评估母体中的所有样本的合成误差。基于如下样本的数目向线性模型分配排行，这些样本的残差符合预设阈值。这一排行视为“候选合意(consensus)”

迭代进行初始采样、求解和排行，直至满足终止标准。一旦满足标准，具有最大排行的线性模型视为群体的最终合意。

一个作为选项的求精步骤涉及到迭代分析样本的子集以便最好地拟合候选模型并且增加子集大小直至添加更多一个样本将超过针对整个子集的残差误差阈值。

如图4中所示，迭代全局模型估计过程(450)直至满足合意排行可接受性测试(452)。当尚未实现排行时，相对于发现的模型对有限差群体(404)进行归类以求揭示线性模型。在过程460中将最好(排行最高)的运动模型添加到解集。然后在过程470中重新估计模型。在完成时对群体(404)重新归类。

本发明的所述非限制实施例可以推广为如下通用方法，该方法对上文描述为有限差向量场的向量空间进行采样以便确定另一参数向量空间中将与特定线性模型对应的子空间流形(manifold)。

全局配准过程的又一结果在于在这一过程与局部配准过程之间的差产生局部配准残差。这一残差是全局模型在逼近局部模型时的误差。

规范化(C1)

规范化是指将空间密度场朝着标准或者共同空间配置进行的重采样。当这些相对空间配置是在这些配置之间的可逆空间变换时，对像元的重采样以及附带的插值在拓扑结构限制内也将可逆。在图5中图示了本发明的规范化方法。

当规范化多于两个空间密度场时，可以通过保留中间规范化计算来实现增加的计算效率。

出于配准或者等效地出于规范化的目的用来对图像进行重采样的空间变换模型包括全局模型和局部模型。全局模型的阶次从平移到投影是增加的。局部模型为如下有限差，这些有限差意味着如基本地按照块或者更复杂地按照逐段线性网格来确定的像元邻域上的插值。

原始强度场到规范化强度场的插值增加以强度场的子集为基础的PCA外观模型的线性。

如图2中所示，可以对对象像元232和234进行重新样(240)以产生对象像元的规范化版本242和244。

基于网格的规范化

本发明的又一实施例将特征点细分成基于三角形的网格，跟踪网格的顶点，并且各三角形的顶点的相对位置用来估计与那些三个顶点一致的平面三维曲面法向。当曲面法向与相机的投影轴一致时，成像的像元可以提供与三角形对应的对象的失真最少的呈现。创建趋向于支持正交曲面法向的规范化图像可以产生一种保留像元的中间数据类型，该数据类型将增加后续基于外观的PCA模型的线性。

另一实施例利用常规基于块的运动估计来对全局运动模型隐含地进行建模。在一个非限制实施例中，该方法从通过常规基于块的运动估计/预测来描述的运动向量换算全局仿射运动模型。

本发明方法利用一种或者多个全局运动估计技术，这些技术包括仿射投影方程集的线性解。在现有技术中描述了其它投影模型和求解方法。图9图示了组合全局规范化和局部规范化的方法。

局部规范化

本发明提供一种可以用来以‘局部’方式配准时空流中的像元的手段。

一种这样的局部化方法运用对几何网格的空间应用来提供如下手段，该手段分析像元，从而在关于成像的现象(或者更具体地，成像对象)的局部形变来求解明显图像亮度恒定性模糊度时，考虑成像的现象中的局部化一致性。

这样的网格用来提供一种图像平面中的表面形变的逐段线性模型作为一种局部规范化手段。当视频流的时间解析度与视频中的运动相比为高时，成像的现象可以常常对应于这样的模型。通过各种技术来处理模型假设的例外，这些技术包括：拓扑约束、相邻顶点限制以及对像元和图像梯度区域的同质性的分析。

在一个实施例中，特征点用来生成由顶点与特征点对应的三角形元素构成的网格。其它帧中的对应特征点意味着用以生成局部形变模型的对三角形(并且对应地对像元)的插值“翘曲(warping)”。图7图示了生成这样的对象网格。图8图示了使用这样的对象网格对帧进行局部地规范化。

在一个实施例中，生成如下三角形映射，该映射标识该映射的各像元所来自的三角形。另外，作为优化步骤预先计算与各三角形对应的仿射变换。并且另外当创建局部形变模型时使用空间坐标来遍历锚(anchor)图像(先前)以确定源像元的坐标用于采样。这一采样的像元将取代当前像元位置。

在另一实施例中，在全局形变之后进行局部形变。在一份先前公开的上述说明书中，将全局规范化描述为如下过程，通过该过程使用全局配准方法对两个或者更多视频帧中的像元在空间上进行规范化。还可以将所得全局规范化视频帧进行局部地规范化。这两种方法的组合将本地规范化限于对全局得出的解的细化。这可以极大地减少需要局部方法解析的模糊度。

在另一非限制实施例中，通过对特征点或者在“正则化网格”的情况下为对顶点的邻域中的图像梯度进行分析来考核那些点。可以直接地或者通过某一例如哈里斯响应的间接计算来计算这一图像梯度。此外，可以通过与图像梯度的下降相关联的运动估计误差和空间约束来过滤这些点。可以通过许多细分技术之一使用合格的点作为用于网格的基础从而获得其元素为三角形的网格。对于各三角形，基于点及其残差运动向量来生成仿射模型。

本发明方法利用包括哈里斯响应的一种或者多种图像强度梯度分析方法。在现有技术中描述了其它图像强度梯度分析方法。

在一个实施例中维护三角形仿射参数列表。(使用顶点查找映射来)迭代该列表并且构造当前/先前点列表。当前/先前点列表被传递到用来估计变换的例程，该例程计算用于该三角形的仿射参数。仿射参数或者模型然后保存于三角形仿射参数列表中。

在又一实施例中，该方法遍历三角形标识符图像映射，其中该映射中的各像元包含用于网格中的如下三角形的标识符，该像元具有与该三角形的隶属关系。并且针对属于三角形的各像元，计算用于该像元的对应全局形变坐标和局部形变坐标。那些坐标又用来对对应像元进行采样并且在对应“规范化”位置应用它的值。

在又一实施例中，空间约束基于密度和从图像梯度的搜索中获得的图像强度对应性力度来应用于点。在基于图像强度残差的某一范数(norm)来完成运动估计之后对点进行归类。然后基于空间密度约束来过滤点。

在又一实施例中，运用频谱空间分割，并且小的同类频谱区域基于空间放射性、它们的强度和/或颜色与相邻区域的相似性来合并。然后，同类合并用来基于频谱区域与同类纹理(图像梯度)的区域的重叠将这些频谱区域组合在一起。又一实施例然后使用出于支持网格顶点的目的作为合格兴趣点的中心环绕点，这些点是由更大区域环绕的小区域。在又一非限制实施例中，将中心环绕点定义为如下区域，该区域的包围盒在尺度为3×3或者5×5或者7×7个像元的一个像元内，并且针对该包围盒的空间图像梯度是角形状。将区域的中心分类为角，进而使得该位置成为有利顶点位置。

在又一实施例中，水平和竖直像元有限差图像用来对各网格边沿的力度进行分类。如果边沿具有与它的空间位置重合的许多有限差，则该边沿并且因此该边沿的顶点被视为对于成像的现象的局部形变而言非常关键。如果在边沿的有限差之和的平均值之间有大的导数差，则该区域边沿最有可能对应于纹理改变边而不是量化阶跃。

在又一实施例中，空间密度模型终止条件用来优化对网格顶点的处理。当已经检验到对检测矩形开始的大部分空间区域进行覆盖的充分数目的点时，则可以终止处理。该终止生成分数。按照这一分数对进入处理的顶点和特征点进行归类。如果点在空间上过于接近于现有点，或者如果点在图像梯度中没有对应于边沿，则丢弃它。否则使点的邻域中的图像梯度下降，而如果梯度的残差超过限制，则也丢弃该点。

在一个优选实施例中，迭代进行局部形变建模从而随着每次迭代的顶点移位削减而收敛于解。

在另一实施例中，进行局部形变建模，而如果全局形变已经提供相同规范化益处，则丢弃模型参数。

单独或者组合的(例如在有关美国申请No.11/396,010号中所述)其它规范化技术是适合的。

分割

通过经由进一步描述的分割过程来标识的空间不连续性的相应边界(称为空间不连续性模型)的几何参数化来对空间不连续性进行高效地编码。可以用渐进方法对这些空间不连续性模型进行编码，从而允许与编码子集对应的更为简洁的边界描述。渐进编码提供一种在保留空间不连续性的大量显著方面之时区分空间几何结构的优先次序的鲁棒手段。

本发明的一个优选实施例将多解析度分割分析与空间强度场的梯度分析组合并且进而运用时间稳定性约束以便实现鲁棒分割。

如图2中所示，一旦已经随时间跟踪对象的特征对应性(220)并且对对象的特征对应性进行建模(224)，对这一运动/形变模型的遵循可以用来分割与对象对应的像元(230)。可以针对视频202和204中的多个检测到的对象206和208重复这一过程。这一处理的结果是分割的对象像元232。

本发明运用的一种不变特征分析形式着重于对空间不连续性的标识。这些不连续性显现为边沿、阴影、封闭、线、角或者任何其它如下可见特征，这些可见特征在一个或者多个成像视频帧中的像元之间造成骤然和可标识的分离。此外，在颜色和/或纹理相似的对象之间的细微空间不连续性仅在视频帧中的对象的像元经历相对于对象本身的连贯运动、但是相对于彼此的不同运动时才可以显现。本发明利用频谱、纹理和运动分割的组合来鲁棒地标识与显著信号模式相关联的空间不连续性。

时间分割

平移运动向量或者等效地为空间强度场中的有限差测量到更高阶运动模型的时间积分是在现有技术中描述的一种运动分割形式。

在本发明的一个实施例中，产生如下运动向量的稠密场，这些运动向量代表视频中的对象运动的有限差。这些导数通过对平铺片(tile)的规则分区或者通过例如空间分割的某一初始化过程来在空间上分组在一起。各组的“导数”使用线性最小平方估计器集成到较高阶的运动模型中。所得到的运动模型然后使用k均值类聚技术在运动模型空间中类聚为向量。基于哪个类聚与导数最好地拟合而对导数进行分类。类聚标签然后在空间上类聚为空间分区的演变。持续该过程直至空间分区稳定。

在本发明的又一实施例中，将针对给定孔(aperture)的运动向量插值到与该孔相对应的一组像元位置。当由此插值定义的块跨越与对象边界对应的像元时，所得到的分类是该块的某一异常对角线分区。

在现有技术中，用来对导数进行积分的最小平方估计器对局外因素高度地灵敏。该灵敏性可能生成如下运动模型，这些运动模型使运动模型类聚方法严重地偏置到迭代广泛发散的点。

在本发明中，运动分割方法通过分析两个或者更多视频帧内的外观像元运动来标识空间不连续性。针对视频帧内的一致性来分析明显运动，并且该明显运动集成到参数运动模型中。标识与这样的一致运动相关联的空间不连续性。运动分割也可以称为时间分割，因为时间改变可以由运动造成。然而，时间改变也可以由诸如局部形变、照明改变等某些其它现象造成。

通过所述方法，可以标识与规范化方法相对应的显著信号模式并且通过数种背景减法方法之一从环境信号模式(背景或者非对象)分离该显著信号模式。这些方法常常在统计上将背景建模为在各时间瞬间表现最少量改变的像元。可以将改变表征为像元值的差。

通过在对象周围创建周界、然后使周界朝着检测到的对象中心收缩直至周界顶点已经到达与同类图像梯度相重合的位置来实现基于分割周界的全局形变建模。针对这些新顶点位置收集运动估计，并且使用鲁棒仿射估计来发现全局形变模型。

将分割的网格顶点图像梯度(具体是基于下降的有限差)集成到全局形变模型中。

对象分割

图13中所示的框图示出了对象分割的一个实施例。该过程示出了从规范化图像的全集(ensemble)开始(1302)，然后在全集之中将这些规范化图像逐对取差(1304)。继而将这些差逐个元素地累加(1306)到累加缓冲器中。对累加缓冲器进行阈值化(1310)以便标识更显著错误区域。然后在形态上分析阈值化的元素遮罩(1312)以便确定累加错误区域1310的空间支持。形态分析1312的所得提取1314然后与检测到的对象位置(1320)做比较以便使后续处理着重于与对象重合的累加错误区域。然后用多边形来逼近孤立空间区域1320的边界(1322)，生成该多边形的凸包(1324)。然后调整该外围的轮廓(1332)以便更好地初始化用于主动轮廓分析1332的顶点位置。一旦主动轮廓分析1332已经在累加错误空间中收敛于低能量的解，使用该轮廓作为最终轮廓(1334)，并且该轮廓中约束的像元视为最可能是对象像元的像元，而在轮廓以外的那些像元视为非对象像元。

在一个实施例中，在检测到的显著图像模式位置和标度给定时可以实现运动分割。距离变换可以用来确定每个像元到检测到的位置的距离。如果保持与最大距离相关联的像元值，则可以解析出背景的合理模型。换而言之，使用信号差度量在时间上对环境信号重采样。

又一实施例包括利用相对于当前检测位置的距离变换向各像元分配距离。如果与像元的距离大于某一最大像元距离表中的距离，则记录该像元值。在适当的训练期间之后，如果针对像元的最大距离为大，则假设该像元是背景像元的概率最高。

在环境信号的模型给定时，可以将在各时间瞬间的完整显著信号取差。可以将这些差中的每个差重采样成空间上规范化的信号差(绝对差)。然后相对于彼此对准这些差并且累加这些差。由于已经相对于显著信号模式在空间上将这些差进行了规范化，所以差的峰值将主要地对应于与显著信号模式相关联的像元位置。

在本发明的一个实施例中，定义如下训练期间，其中确定对象检测位置并且使用这些位置的质心来确定检测位置远离这一位置的最优帧编号，这将允许成帧取差以产生如下背景像元，这些背景像元是非对象像元的概率最高。

在本发明的一个实施例中，主动轮廓建模用来通过确定在累加误差“图像”中的轮廓顶点位置而从非对象背景分割出前景对象。在一个优选实施例中，与检测到的对象的标度成比例地细分主动轮廓边沿以产生更大自由度。在一个优选实施例中，可以将最终轮廓位置扣合到最近的正则网格顶点以便产生规则地间隔开的轮廓。

在对象分割的一个非限制实施例中，采用定向内核来生成针对时间上逐对图像的误差对象滤波器响应。对正交定向于总运动方向的滤波器的响应往往在由于背景的闭塞和显露而出现相对于背景的运动时增强误差面。

将一个或者多个参考帧创建的残差向量与规范化图像全集的规范化图像帧强度向量取差。逐个元素地累加这些残差向量以形成累加残差向量。然后在空间上探求这一累加残差向量以便为对象与非对象像元的空间分割定义空间对象边界。

在一个实施例中，进行累加残差向量的初始统计分析以得出可以用来将累加残差向量阈值化的统计阈值。通过侵蚀和后续扩张形态操作来创建初步对象区域遮罩。然后分析区域的轮廓多边形点以揭示这些点的凸包。然后使用凸包作为用于主动轮廓分析方法的初始轮廓。然后传播凸包直至它收敛于对象的累加残差的空间边界上。在又一优选实施例中，通过添加中点顶点来进一步细分预备轮廓的边直至针对所有边长实现最小边长。这又一实施例旨在于增加主动轮廓模型的自由度以更准确地拟合对象的外形。

在至少一个实施例中，细化的轮廓用来生成如下像元遮罩，该像元遮罩通过覆盖轮廓所隐含的多边形并且在规范化图像中覆盖多边形来指明对象的像元。

非对象的解析

图12中所示框图公开一种非对象分割或者等效为背景解析的实施例。通过初始化背景缓冲器(1206)和初始最大距离值(1204)缓冲器，进行该过程以通过将“稳定性”和与检测到的对象位置(1202)的距离进行关联来确定最稳定的非对象像元。在新的检测到的对象位置位置(1202)给定时，该过程检验各像元位置(1210)。对于各像元位置(1210)，使用距离变换来计算与检测到的对象位置(1210)的距离。如果针对该像元的距离大于(1216)最大距离缓冲器(1204)中的先前存储的位置，则用当前值取代先前值(1218)，并且在像元缓冲器中记录(1220)像元值。

在解析的背景图像给定时，可以对这一图像与当前帧之间的误差进行空间上的规范化并且在时间上累加。在“背景解析”一节中描述了这样解析的背景图像。通过这一方法对背景的解析视为一种基于时间的闭塞过滤过程。

然后将所得到的累加误差阈值化以提供初始轮廓。然后空间上传播该轮廓以应对轮廓形变来平衡误差残差。

在一个可选实施例中，计算在当前帧与解析的背景帧之间的绝对差。然后将逐个元素的绝对差分割到不同空间区域中。计算这些区域包围盒平均像元值，从而当更新解析的背景时，当前与解析的背景平均像元值之差可以用来进行对比度偏移，从而当前区域可以与解析的背景更有效地混合。在另一实施例中，针对各帧进行规范化帧遮罩内的顶点的运动估计并且对其进行保存。然后使用SVD来处理这些顶点以生成对各帧的局部形变预测。

如有关美国申请No.11/396,010中所述，在优选实施例中运用其它分割方法和机制，例如文字、频谱和背景。

外观变化建模

视频处理的一个共同目的常常在于对视频帧序列的外观进行建模和保留。本发明的目的在于通过使用预处理而允许以鲁棒和广泛适用的方式来应用受约束的外观建模技术。前述配准、分割和规范化明确地出于该目的。

本发明公开一种外观变化建模手段。在线性模型的情况下，外观变化建模的主要基础是分析特征向量以揭示运用线性相关的密集基础。代表空间强度场像元的特征向量可以汇集到外观变化模型中。

在一个可选实施例中，根据像元的分割子集来计算外观变化模型。另外，特征向量可以分离成空间上未重叠的多个特征向量。可以利用空间片平铺来实现这样的空间分解。可以通过处理这些时间全集来实现计算效率而不会牺牲更全局的PCA方法的维度性减少。

当生成外观变化模型时，空间强度场规范化可以用来减少对空间变换的PCA建模。

形变建模

可以将局部形变建模为顶点移位，并且插值函数可以用来根据与像元相关联的顶点来确定对像元的重采样。这些顶点移位在被视为普适于许多顶点的单个参数集时可以提供大量运动变化。这些参数之间的相关可以极大地减少这一参数空间的维度性。

PCA

生成外观变化模型的优选手段是通过将视频帧作为模式向量汇集到训练矩阵中或者全集中，以及对训练矩阵应用主元分析(PCA)。当截除这样的扩展时，所得到的PCA变换矩阵用来分析和合成后续视频帧。基于截除水平，可以实现像元的原始外观的可变的质量水平。

模式向量的具体构造和分解手段是本领域技术人员所公知的。

在给定了显著信号模式从环境信号的空间分割和对这一模式的空间规范化时，可以利用低级参数化将像元本身(或者等效为所得规范化信号的外观)换算成线性相关组成，从而允许针对像元外观的表示而在近似误差与位速率之间的直接权衡。一种用于实现低级近似的方法是通过对编码数据的字节和/或位进行截除。低级近似可以视为如这一技术的具体应用所确定的对原始数据的压缩。例如在视频压缩中，如果数据截除没有使可以察觉的质量不适当地降级，则与压缩一起实现应用具体目标。

如图2中所示，规范化对象像元242和244可以投影到向量空间中，并且可以使用例如PCA的分解过程250对线性对应性进行建模以便产生数据252和254的维度简洁版本。

PCA和精确度分析

本发明运用统计分析来确定对规范化像元数据的逼近。这一逼近是规范化像元数据的“编码”形式。通过对规范化像元数据的线性分解来实现统计分析、具体地实施为在这一情况下可以通称为主元分析(PCA)的奇异值分解(SVD)。这一操作的结果是一组一个或者多个基向量。这些基向量可以用来渐进地描述对规范化像元数据更准确的逼近。这样，对一个或者多个最小有效基向量进行截除以产生足以将规范化像元数据表示成所需质量水平的编码。

一般而言，PCA无法有效地应用于原始视频帧。但是一旦已经分割并且进而规范化帧，那些帧中的像元的外观变化不再具有对背景像元的干扰或者来自全局运动的空间移位。在没有这两种变化形式的情况下，PCA能够比原来的情况使用更少基向量来更准确地逼近这一规范化画面数据的外观。所得到的益处在于对视频中的对象的原始外观在带宽方面很密集的表示。

可以用数种方式进行对基向量的截除，并且各截除在与PCA组合时被视为一种精确度分析形式。这一截除可以简易地是全部基向量从基向量集的所述排除。取而代之，可以有选择地排除(截除)向量元和/或元素字节和/或那些字节的位。另外，基向量本身可以变换成将允许更多截除方法选择的替代形式。使用嵌入式零树截除的小波变换是这样一种形式。

方法

将来自图2中的242和244的正规化像元数据重新组织成如下模式向量，这些模式向量汇集成使用PCA或者具体为SVD来分解成基向量集的向量全集。

然后从基向量集去除(截除)最小显著基向量以实现质量要求。

与每个帧相关联的个别规范化像元数据在投影到截除的基向量上时产生编码模式向量。这一编码模式向量是规范化像元数据的称为编码像元数据的编码形式。注意，规范化像元数据也需要在投影于基向量上时重新组织成“模式向量”。

可以通过将编码像元数据投影到基向量的逆向量上对它进行解码。这一逆投影产生对原始规范化像元数据242、245的逼近(合成)。

用途

生成规范化像元数据并且进而将它减少至编码像元数据提供一种对原始视频帧中的像元数据的外观的数据表示。这一表示可以自行使用于其它处理中或者用作为用于其它处理的输入。编码数据可以足够密集以提供较无进一步处理的常规压缩而言的有利的压缩比。

可以使用编码数据以取代常规视频压缩算法中的“变换系数”。在一种常规视频压缩算法中，使用离散余弦变换(DCT)对像元数据进行“变换编码”。然后使用量化或者熵编码来进一步处理所得到的“变换系数”。量化是一种用以降低个别系数的精确度的方式。熵编码是对量化系数的无损压缩并且可以视为具有与缩压文件相同的意义。本发明一般有望产生比DCT更密集的编码向量，由此在使用于常规编码解码器算法中时实现了更高压缩比。

在一个实施例中，本发明在如美国专利申请No.11/191,562中所述的视频帧编码与上述近似编码之间交替。该系统根据最少使用的带宽来交替。

顺序PCA

PCA使用PCA变换将模式编码成PCA系数。通过PCA变换来越好地表示模式，对模式进行编码就需要越少的系数。认识到模式向量可能随着时间在获取训练模式与待编码的模式之间流逝而降级，更新变换可以有助于消减降级。作为一种生成新变换的可选方式，对现有模式的顺序更新在某一情况下计算上更高效。

许多现有技术的视频压缩算法根据一个或者多个其它帧来预测视频帧。预测模型通常基于将各预测帧分区成非重叠平铺片，该非重叠平铺片与另一帧中的对应片和通过偏离运动向量来参数化的关联平移移位相匹配。可选地与帧索引耦合的这一空间移位提供该平铺的“运动补偿”版本。如果该预测的误差在某一阈值以下，则平铺片的像元适合于残差编码；并且有压缩效率的相对应的增益。否则，对平铺片的像元直接地进行编码。这一类基于平铺片(代之以称为基于块)的运动预测方法通过平移包含像元的平铺片而对视频进行建模。当视频中的成像的现象遵循这一类建模时，对应编码效率增加。这一建模约束假设：对于经历运动的成像的对象而言，存在某一时间解析度水平或者某一每秒帧数目，以便符合基于块的预测中固有的平移假定。针对这一平移模型的另一要求在于针对某一时间解析度的空间移位必须有限；也就是说，在用来导出预测的帧与被预测的帧之间的时间差必须是相对少量的绝对时间。这些时间解析度和运动限制有助于对视频流中存在的某一冗余视频信号组成的标识和建模。

在本发明方法中，顺序PCA与嵌入式零树小波组合以进一步增强混混合压缩方法的效用。顺序PCA技术提供一种可以用来针对如下信号增强常规PCA的手段，这些信号具有时间连贯性或者时间上为局部的平滑性。嵌入式零树小波提供一种手段，其可以用来将局部平滑空间信号分解成空间标度表示以便增加某一处理的鲁棒性并且也增加算法的计算效率。对于本发明，组合这两种技术以增加变化模型的表示能力并且也提供一种密集而有序的对这些模型的表示，从而通过对基向量的截除来提供基向量的大量的表示能力。

在另一实施例中，应用具有固定的输入块尺寸以及固定的容差的顺序PCA，以向第一和最有能量的PCA分量增加加权偏置。对于更长数据序列，这第一PCA分量常常是仅有的PCA分量。这影响重构的可视质量并且可以用一些方式限制所述方式的效用。本发明将一种较使用常用最小平方范数而言优选的不同范数用于选择PCA分量。这种形式的模型选择范数避免第一PCA分量的过度近似。

在另一实施例中，使用一种具有固定的输入块尺寸并且具有规定的每数据块的PCA分量数目的块PCA过程来提供以使用相对更多组成为代价来换取的有益的均匀重构。在又一实施例中，将块PCA与顺序PCA组合使用，其中块PCA在以块PCA为阶跃且数目设定的步骤之后重新初始化顺序PCA。这提供一种减少PCA分量数目的有益均匀近似。

在另一实施例中，本发明充分利用如下情形，在该情形中在编码-解码之前和之后的PCA分量在视觉上相似。图像序列重构在编码-解码之前和之后的质量还可以在视觉上相似，并且这常常依赖于所用的量化程度。本发明方法对PCA分量进行解码、然后将它们重新规范化成具有单位范数。对于适度量化，解码的PCA分量近似地正交。在较高量化水平，通过应用SVD来部分地恢复解码的PCA分量(在别处未突出说明)以获得重构系数的正交基和修改集。

在另一实施例中，可变和可自适应的应用块尺寸与混合顺序PCA方法一起应用以便产生就合成质量而言的改进结果。本发明使块尺寸基于PCA分量的最大数目和针对这些块的给定错误容差。然后，该方法扩展当前块的尺寸直至达到PCA分量的最大数目。在又一实施例中，PCA分量的序列被视为数据流，这促成维度性的进一步减少。该方法进行如下后处理步骤，在该步骤中针对第一PCA分量从各块收集可变数据块并且应用SVD以进一步减少维度性。然后将相同过程应用于对第二分量、第三分量等分量的汇集。

可以运用各种分解方法和机制，这些方法和机制包括但不限于功率换算、广义PCA、渐进PCA及其组合。在有关美国专利申请No.11/396,010中描述了例子。

子带时间量化

本发明的一个可选实施例使用离散余弦变换(DCT)或者离散小波变换(DWT)以将各帧分解成子带图像。主元分析(PCA)然后应用于这些“子带”视频(图像)中的每个“子带”视频(图像)。该概念在于对视频帧的子带分解较原始视频帧而言减少任一子带中的空间变化。

对于移动对象(人)的视频，空间变化往往支配由PCA建模的变化。子带分解减少任一分解视频中的空间变化。

对于DCT，用于任一子带的分解系数在空间上被布置到子带视频中。例如，从各块取得DC系数并且将这些系数布置到看似原始视频的邮戳版本一样的子带视频中。针对所有其它子带重复这一点，并且使用PCA来各自处理所得到的子带视频。

对于DWT，已经以针对DCT描述的方式布置子带。

在一个非限制性的实施例中，对PCA系数的截除发生变化。

小波

当使用离散小波变换(DWT)来分解数据时，获得空间解析度较低的多个带通数据集。该变换过程可以递归地应用于导出的数据直至仅获得单标量值结果。分解的结构中的标量元素通常以层级母/子方式有关。所得数据包含多解析度层级结构并且也包含有限差。

当DWT应用于空间强度场时，第一或者第二低带通导出的数据结构由于空间频率低而具有很少的可察觉的损失代表许多自然出现的图像的现象。截除层级结构在高频空间数据不存在或者视为噪声时提供一种密集表示。

尽管PCA可以用来实现系数数目少的准确重构，但是该变换本身可能很大。为了减少这一“初始”变换的大小，小波分解的嵌入式零树(EZT)构造可以用来构建变换矩阵的渐进更准确版本。

在一个优选实施例中，PCA应用于规范化视频数据，接着是DWT或者其它小波变换。这获得保持视频图像对象的显著性的压缩视频数据。

子空间分类

如本领域技术人员所公知，离散采样的现象数据和导数数据可以表示为与代数向量空间相对应的数据向量集。这些数据向量可以在非限制方式下包括分割的对象的规范化外观中的像元、运动参数以及特征或者顶点在两个或者三个维度中的任何结构性的位置。这些向量中的各向量存在于向量空间中，并且对空间的几何结构的分析可以用来产生对采样或者参数向量的简洁表示。有益的几何条件以形成密集子空间的参数向量为代表。当混合一个或者多个子空间时，产生一个看似更为复杂的单个子空间，可能难以辨认作为构成的子空间。有数种分割方法来允许通过在更高维度的向量空间中检查数据来分离这样的子空间，所述更高维度的向量空间是通过原始向量的某一互作用(例如内积)而创建的。

特征子空间分类

使用对与对象相关联的区域进行的DCT分解来构造特征子空间。将各所得系数矩阵转换成特征向量。然后在所得到的向量空间中在空间上类聚这些特征向量。该类聚提供可以朝着某一参考对象实例全局地或者局部地规范化的成组图像对象实例。然后可以使用这些规范化对象实例作为用于PCA的全集。

在一个优选实施例中，将DCT矩阵系数求和为矩阵的上三角形和下三角形。这些和被视为二维向量的向量元。

在一个优选实施例中，标识最稠密的类聚并且选择与该类聚最紧密相关联的向量。与对应于像元的对象实例相关联的这些像元被视为彼此最相似。然后从子空间中去除所选向量，并且重新类聚可以产生与有关对象实例相对应的另一组有关向量。

在又一实施例中，与标识的类聚的向量相关联的图像对象实例朝着类聚质心全局地规范化。如果所得规范化满足失真要求，则对象实例被视为与质心相似。又一实施例允许将失败的对象实例返回到向量空间以作为用于进一步类聚的候选。

在另一实施例中，通过按照其它类聚的对象实例的质心测试这些类聚的隶属关系来细化类聚。结果是类聚隶属关系可以改变并且因此产生如下细化，该细化允许类聚产生最相似的对象实例图像。

全集处理

本发明方法可以利用一种全集选择和处理。该方法基于图像与候选训练池中的关键图像的形变距离从池中选择小的图像子集。

在一个优选实施例中，使用DCT类聚内距离作为一种确定哪个候选图像将用来代表类聚中的变化的手段。

又一实施例将来自不同类聚的图像投影到不同PCA空间中以便确定剩余图像的全集隶属关系。图像相对于关键全集图像或者全集平均值的全局和局部规范化在投影之前。

对象编码

本发明的一个实施例对检测到的对象的实例进行傅立叶子空间分类，以标识用于对对象实例进行编码的一个或者多个候选全集。然后通过图像相对于关键全集图像或者全集平均值的全局和局部规范化来进一步考核最接近的匹配全集。在标识了用于图像的全集后，使用全集基向量来分割和分解规范化图像。所得到的系数在与包含对象的帧相对应的时刻是与原始对象相对应的分解系数。这些系数也称为外观系数。

序列减少

本发明方法具有一种用于利用对分解系数的插值来进一步减少图像编码的手段。分析时间流以确定外观序列和/或形变参数所具有的微分是否为线性。如果是这样的情况，则仅将第一和最后参数与将对中间参数线性地进行插值的这一指示一起发送。

树全集

本发明具有如下优选实施例，在该实施例中将全集组织成基于模式向量的相似性来分支的依赖性树。建立树“根”作为全集的关键模式。附加全集模式添加到树并且成为树的“叶”。安置附加模式作为如下依赖模式，该模式依赖于与该模式最相似的无论哪个树节点。以这一方式组织全集模式，从而基于相似性来创建依赖结构。利用这一结构作为“序列减少”的替代方式从而提供一种具有如下差异的相同方法：取代了对模式向量序列进行插值，使用对树的遍历作为时间排序的替代方式。

混合空间规范化压缩

本发明通过添加将视频流分割成两个或者更多“规范化”流来扩展基于块的运动预测编码方案的效率。然后对这些流单独地进行编码以允许常规编码解码器的平移运动假设为有效。在对规范化流进行解码时，将流去规范化到它们的恰当位置并且将它们复合在一起以产生原始视频序列。

在一个实施例中，在视频流中检测到一个或者多个对象，并且随后分割与各个单独对象相关联的像元从而留下非对象像元。接着，针对对象和非对象像元生成全局空间运动模型。全局模型用来在空间上将对象和非对象像元规范化。这样的规范化已经从视频流有效地去除非平移运动并且已经提供其闭塞互作用已经最小化的视频集。这些均为本发明方法的有益特征。

具有在空间上规范化的像元的对象和非对象的新视频作为输入被提供给常规的基于块的压缩算法。在对视频进行解码时，全局运动模型参数被用来将那些解码的帧去规范化，并且对象像元被一起复合到非对象像元上以产生对原始视频流的逼近。

如图6中所示，利用常规视频压缩方法632的单独实例来各自处理用于一个或者多个对象630和650的先前检测到的对象实例206和208。此外，还使用常规视频压缩632来压缩从对象的分割230获得的非对象602。这些单独压缩编码632中的各压缩编码的结果是各自与各视频流单独对应的单独常规编码流634。在可能位于传输之后的某一点，这些中间编码流234可以解压636成规范化非对象610和多个对象638、658的合成。这些合成像元可以被去规范化640成它们的去规范化版本622、642、662以将像元在空间上相对于彼此正确地定位，从而使复合过程670可以将对象和非对象像元组合成全帧672的合成。

两种最流行的压缩技术是离散预先变换(DCT)和离散小波变换(DWT)。DCT变换中的误差以视频数据值的广泛变化来显现，因此对视频数据块典型地使用DCT以便将这些错误的相关局部化。来自这一局部化的赝像常常沿着块的边界出现。在DWT中，更复杂的赝像在基本函数与某一纹理之间有错配时发生，并且这造成模糊效果。为了消除DCT和DWT的负面影响，增加表示的精确度以便以宝贵的带宽为代价来降低失真。

根据本发明，提供一种组合主元分析(PCA)和小波压缩的视频图像压缩方法(通称为图像处理方法)。在一个优选实施例中，在发送器和接收器均构建并行基础。利用本技术，并行基础变成在编码和解码过程632、636中使用的原始帧(锚帧)。具体而言，基础信息发送到接收方并且用来复制用于附加帧的基础。在编码器634，在发送基础之时应用PCA并且通过应用小波变换来减少数据集。具体而言，PCA到小波压缩这一过程是在向接收器发送基础之时出现的中间步骤。

在另一实施例中，基于例如PSNR(峰值信号与噪声之比)的统计失真度量来进行在编码模式之间的切换以对视频帧进行编码，其将允许常规方法比对子空间方法来对视频帧进行编码。

在本发明的另一实施例中，对外观、全局形变(结构、运动和姿态)以及局部形变的编码的参数进行插值以产生对原本必须编码的中间帧的预测。插值方法可以是诸如线性、三次、样条等标准插值方法中的任一方法。

如图4中所示，可以通过对如由外观和形变参数代表的一连串规范化对象1402、1404和1406的插值分析1408来实现对象插值方法。该分析确定插值函数可以适用的时间范围1410。范围规格1410然后可以与规范化对象规格1414和1420进行组合以便逼近并且最终合成临时规范化对象1416和1418。

混合编码解码器的集成

在组合常规基于块的压缩算法与如本发明中所述规范化-分割方案时已经获得数种本发明的方法。主要需要专门化数据结构和通信协议。

主要数据结构包括全局空间形变参数和对象分割规格遮罩。主要通信协议是如下层，这些层包括对全局空间形变(全局结构模型)参数和对象分割规范遮罩的传输。

全局结构、全局运动和局部形变规范化压缩

在一个优选实施例中，前述PCA/小波编码技术应用于预处理的视频信号以形成所需压缩视频信号。预处理以如下方式减少视频信号的复杂性，该方式实现在增加效果的情况下应用PCA/小波编码(压缩)。图10的图像处理系统是示例性的。

在图10中，源视频信号1501被输入到预处理器1502或者以别的方式由预处理器1502接收。预处理器1502使用带宽消耗来确定源视频信号1501中的兴趣组成(显著对象)。具体而言，预处理器1502确定视频信号中的如下部分，这些部分使用相对于视频信号1501的其它部分而言的不相称带宽。一种用于进行这一确定的方法或者分割器1503如下。

分割器1503使用如上文所述的像元导数(derivative)的时间和/或者空间差值来分析随着时间和/或空间的图像梯度。在连贯性监视中，跟踪和记录视频信号中的在视频信号的顺序帧内相互对应的部分。对与这些连贯信号组成相关联的导数场的有限差进行积分以产生视频信号中使用相对于其它部分而言不相称的带宽的确定部分(即确定兴趣组成)。在一个优选实施例中，如果发现一帧中的空间不连续性对应于后继帧中的空间不连续性，则分析图像梯度的陡峭性或者平滑性以产生唯一对应性(时间连贯性)。另外，也以相同方式将这样的对应性的更多聚集用来唯一地象征(attribute)视频帧的离散组成的时间连贯性。对于陡峭的图像梯度，确定存在边。如果存在两个这样限定空间不连续性的边，则定义角。这些标识的空间不连续性与梯度流组合，这产生穿过视频数据的帧的相应像元之间的运动向量。当运动向量与标识的空间不连续性重合时，那么本发明的分割器1503确定存在兴趣组成(显著对象)。

如前节中所述的其它分割技术适合于实施分割器1503。例如，可以使用脸部/对象检测

回到图10，一旦预处理器1502(分割器1503)已经确定兴趣组成(显著对象)或者以别的方式从源视频信号1501分割出兴趣组成(显著对象)，规范器1505减少确定的兴趣组成的复杂性。优选地，规范器1505从确定的兴趣组成中去除全局运动和姿态、全局结构、局部形变、外观和照明(外观变化)的变化。为此利用这里先前描述的规范化技术。这产生规范器1505建立兴趣组成的结构模型1507和外观模型1508。

结构性模型1507可以在数学上表示为：

SM (σ) = \underset{x, y}{Σ} [(v_{x, y} + Δ_{t}) + Z]

方程1

其中σ是显著对象(确定的兴趣组成)而SM()是该对象的结构模型；

v_x，y是(上文讨论的)随时间配准的对象σ之上的逐段线性正则化网格的2D网格顶点；

Δ_t是代表对象的缩放(或者局部形变)、旋转和在视频帧之间平移的、顶点相对于彼此随时间t的改变；并且

Z是全局运动(即整个网格成形的移动和网格的形变)。在一些实施例中，Z代表2D网格在空间中的位置和网格由三个旋转参数代表的姿态。

申请人根据方程1导出全局刚性结构模型、全局运动、姿态并且局部地导出模型的形变，如图4中所讨论的那样。刚性局部形变方面由各网格顶点在空间中的位置定义。按照顶点在视频帧内的相关来表达非刚性局部形变。也将顶点的独立运动相进行关从而获得维度低(高效)的运动模型。运用用于根据运动来估计结构的已知技术，并且这些技术与运动估计组合以随时间针对视频帧的兴趣组成的结构部分确定候选结构。这造成定义显著对象在空间中的位置和定向并且因此提供结构模型1507和运动模型1506。

在一个实施例中，运动估计受到结构模型1507和照明(外观变化)模型这些形变模型的约束。来自运动技术的结构用来确定对象姿态/位置从一个视频帧到另一视频帧的改变。LRLS(见下文)或者其它双线性跟踪器随时间跟踪候选对象结构。跟踪器确定针对各帧的对象姿态/位置改变(Δ’)作为对2D运动估计的预测

外观模型1508然后代表显著对象没有通过结构模型1507和运动模型1506来集体建模的特征和方面。在一个实施例中，外观模型1508是对随时间的结构改变的线性分解并且通过从结构模型1507去除全局运动和局部形变来定义。申请人在各视频帧取得对象外观并且使用结构模型1507来重新投影成“规范化姿态”。“规范化姿态”也将被称为一个或者多个“基本(cardinal)”姿态。重新投影代表对象的规范化版本并且产生任何外观变化。当给定的对象旋转或者在视频帧之间在空间上进行平移时，外观定位于单个基本姿态(即平均规范化表示)。外观模型1508也考虑基本姿态的基本形变(例如睁眼/闭眼、张嘴/闭嘴等)。因此，基本姿态P_c和基本姿态P_c的基本形变Δ_c代表外观模型1508AM(σ)，

AM (σ) = \underset{t}{Σ} (P_{c} + Δ_{c} P_{c})

方程2

外观模型1508中的像元优选地基于它们与相机投影轴的距离和向相机投影轴的入射角来偏置。偏置确定个别像元对模型的最终构建具有的贡献的相对权值。随时间对候选结构(来自结构模型1507)的跟踪可以按照来自姿态、运动和形变估计的含意来形成或者实现对所有像元的运动的预测。这部分地归因于结构模型1507中的第三维度(Z)。该第三维度允许针对更多视频帧跟踪2D网格从而组合来自不同帧的更多对象以由相同外观模型1508代表。另外，第三维度允许利用相机的传感器阵列相对于原始像元的定向来量化这些像元。此信息接着被用来确定任何特定像元对于外观模型1508所做贡献的程度。

最后，基于各维度根据不同帧将对象外观规范化。也就是说，本发明解析三个维度并且优选地使用多个规范化平面对外观进行建模。例如，规范化器1505如上所述去除全局运动(Z)和姿态、全局结构、局部运动和照明(外观变化)的变化。

另外，关于外观变化(外观和照明建模)，在变化的照明条件之下跟踪对象始终是图像处理中的持久挑战之一。在成像处理中，对比度规范化是一种将像元强度值的改变范围建模为可归结于照明/照明的改变、而不是其它因素的过程。优选实施例估计显著对象的视频捕获(即建模)照明条件(即在对象上入射的照明)的任意改变。这是通过将来自兰伯特反射线性子空间(LRLS)理论的原理与光学流组合来实现的。根据LRLS理论，当对象固定从而仅允许照明改变时，可以通过前九个球面谐波的线性组合来近似反射图像集；因此，图像落在环境“图像”向量空间中与9D线性子空间接近处。此外，用于图像像元(x，y)的反射强度可以近似如下：

I (x, y) = \underset{i = 0,1,2 j = - i,}{Σ} \underset{- i + 1 . . . i - 1, i}{Σ} l_{ij} b_{ij} (n),

根据本发明的方面，使用LRLS和光学流，以确定关于照明如何与对象互作用来计算期望值。这些期望值用以约束可以对光学流场的改变进行解释的可能对象运动。当使用LRLS以使用照明建模来描述对象的外观时，有必要允许外观模型处理可能落在照明模型的预测以外的任何外观改变。

利用本技术，可以预测帧序列中的后继视频帧，然后可以进行主元分析(PCA)。以这一方式，可以构建图像数据的很广义形式，然后可以对其余数据进行PCA。

只要从对应原始视频信号明显减少兴趣组成的复杂性，但是维持兴趣组成的显著性，外观模型1508和结构模型1507的其它数学标识就是适合的。

回到图10，分析器1510然后将(上述)PCA/小波编码应用于结构模型1507和外观模型1508。更一般而言，分析器1510运用几何数据分析来压缩(编码)与兴趣组成相对应的视频数据。所得压缩(编码)视频数据可用于图6的图像处理系统中。具体而言，模型1506、1507、1508优选地存储于图6的编码侧和解码侧632、636。根据结构模型1507和外观模型1508来生成有限状态机。常规编码632和解码636也可以实施为常规小波视频编码-解码方案。这一小波方案可以用来在维持对象/兴趣组成的显著性之时合成视频数据。在一个实施例中，在训练期间，对于给定的视频数据，有限状态机使用小波变换技术来线性地分解外观并且输出规范化(MPEG或者相似标准)视频压缩流。在图像处理期间，在632、636两侧上的有限状态机对画面数据进行插值(如上所述)并且产生视频数据的压缩形式。以这一方式，本发明状态机在维持对象/兴趣组成的显著性之时合成视频数据。

如上文讨论的那样，在632和636这两侧上，将PCA编码(或者其它线性分解)应用于规范化像元数据，这在每侧632、636上构建了相同的基向量集。在一个优选实施例中，在图像处理期间对基函数应用PCA/小波以产生所需压缩视频数据。小波技术(DWT)变换整个图像和子图像并且线性地分解外观模型1508和结构模型1507，然后适度地截除这一模型以满足所需阈值目标(ala EZT或者SPIHT)。这实现由于视频数据的“规范化”性质而与现有技术的系统/方法不同的可缩放视频数据处理。

另外，在给定一帧的视频数据的单个像元时，本发明的图像处理系统1500由于对结构模型1507和/或外观模型1508应用PCA/小波压缩而能够预测后继帧(其参数)。

因而，可以将本发明重申为一种预测模型。一旦如上所述建立外观模型1508和结构模型1507，将几何数据分析技术(例如顺序PCA、功率换算、广义PCA、组合PCA/小波变换的渐进PCA等)至少应用于外观模型1508，提供了兴趣组成的编码视频数据(帧序列)。

在更多实施例中，可以用球面条件而不是3D网格条件代表本发明的图像处理系统。各兴趣组成由包含来自线性分解的数据的相应椭圆代表。对于给定的兴趣组成，椭圆的短轴定义外观模型1508的基向量，而长轴定义结构模型1507的基向量。其它椭圆是适合的，例如超椭圆。在这一椭圆表示中隐含的是足以维持对象显著性的运动估计、形变模型和照明模型。结果是隐含表示提供对与兴趣组成相对应的视频数据密集得多的编码。

虚拟图像传感器

对象的“照明”是光入射在对象上的自然现象。照明根据入射角θ和光(反射)强度I而改变。相机(或者一般为图像传感器)对对象的照明有效地进行采样和记录。结果是对象的拍摄图像(例如静止快照或者视频帧序列)。样本图像中的像元归结于θ(入射角)的某一值和I(光反射强度)的某一值。对于θ和/或I的不同值，各像元取相应不同的数据值。对于图像中的各像元(或者至少对于图像中的显著对象)，本发明针对θ和I的不同值对可能像元数据值进行建模。使用这一模型，可以在一个像元的照明改变(即该像元的数据值在当前视频或者图像数据帧与后继视频或者图像数据帧之间的差)给定时确定主题对象在后继视频或者图像数据帧中的运动、位置和姿态。

因而，本发明提供一种虚拟图像传感器、优选为一种用于不同数据的不同虚拟传感器。根据相应数据的方面(质量、表示限制等)来构建虚拟图像传感器。虚拟图像传感器从相应图像数据离散地隔离信息(即分割和规范化或者以别的方式去除变化)，并且该信息足以保持数据的未压缩(解码)版本的显著性或者质量。

在图11中图示了虚拟图像传感器1010的一个优选实施例。在步骤1001接收源图像12的数据(图像数据帧)。作为响应，步骤1001应用预处理器1502的上述对象检测、分割和规范化技术以形成图像数据中的显著对象(兴趣组成)的模型1507、1508。模型1507、1508包括对分面(像元)如何照射以及用于θ和I的不同值的对应可能像元数据值的兰伯特建模。

对于源图像12中的给定像元，步骤1002分析由模型1507、1508定义的可能数据值的范围，并且比较如由源相机11产生的当前数据值与模型数据值，尤其是代表理论最佳解析度的模型数据值。针对图像数据中的其它像元重复这一步骤1002。基于比较，步骤1002确定在源相机11的解析度与如由模型1507、1508定义的理论超解析度之间的关系。步骤1002将这一关系表示为函数。

步骤1004将步骤1002所得到的函数应用于源图像12并且外插或者以别的方式合成解析度增加的图像1011。优选地，步骤1004产生源图像12的超解析图像1011。

以这一方式，本发明提供虚拟图像传感器1010。注意模型1507、1508中的压缩数据(数据的参数化版本)实现这样的处理(外插和合成)。

图2A图示了其中可以实施本发明的计算机网络或者相似数字处理环境。

一个或者多个客户机计算机/设备50和一个或者多个服务器计算机60提供执行应用程序的处理设备、存储设备和输入/输出设备。一个或者多个客户机计算机/设备50也可以通过通信网络70链接到包括其它客户机设备/过程50和一个或者多个服务器计算机60的其它计算设备。通信网络70可以是远程接入网络、全球网络(例如因特网)、全球计算机汇集、局域网或者广域网的部分以及目前使用相应协议(TCP/IP、蓝牙等)来相互通信的网关。其它电子设备/计算机网络架构是适合的。

图2B是图2A的计算机系统中的计算机(例如客户机处理器/设备50或者服务器计算机60)的内部结构图。各计算机50、60包含系统总线79，其中总线是用于计算机或者处理系统的部件之间数据传送的一组硬件线。总线79实质上是连接计算机系统不同单元(例如处理器、盘储存器、存储器、输入/输出端口、网络端口等)的共享管道，该管道实现信息在单元之间的传送。用于将各种输入和输出设备(例如键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60的I/O设备接口82附接到系统总线79。网络接口86允许计算机连接到各种附接到网络(例如图2A的网络70)的其它设备。存储器90为用来实施本发明实施例(例如图2和上述详述的其它附图的线性分解、空间分割、空间规范化和其它处理)的计算机软件指令92和数据94提供易失性存储。盘储存器95为用来实施本发明实施例的计算机软件指令92和数据94提供非易失性存储。中央处理器单元84也附接到系统总线79并且提供对计算机指令的执行。

在一个实施例中，处理器例程92和数据94是包括计算机可读介质(例如可拆卸存储介质，例如一个或者多个DVD-ROM、CD-ROM、磁盘、磁带等)的计算机程序产品，该计算机可读介质提供用于本发明系统的软件指令的至少一部分。如本领域所公知的，任何适当软件安装过程可以安装计算机程序产品92。在另一实施例中，也可以通过有线、通信和/或无线连接来下载软件指令的至少一部分。在其它实施例中，本发明程序是在传播介质上的传播信号(例如通过全球网络如因特网或者其它一个或者多个网络传播的无线电波、红外线波、激光波、声波或者电波)上实现的计算机程序传播信号产品107。这样的载体介质或者信号提供用于本发明例程/程序92的软件指令的至少一部分。

在可选实施例中，传播信号是在传播介质上承载的模拟载波或者数字信号。例如，传播信号可以是通过全球网络(例如因特网)、电信网络或者其它网络传播的数字化信号。在一个实施例中，传播信号是在一段时间内通过传播介质传输的信号，例如在以毫秒、秒、分钟计或者更长的时段内通过网络在分组中发送的用于软件应用的指令。在另一实施例中，计算机程序产品92的计算机可读介质是如下传播介质，计算机系统50可以例如通过接收该传播介质并且识别该传播介质中实现的如上文针对计算机程序传播信号产品描述的传播信号来接收和读取该传播介质。

一般而言，术语“载体介质”或者瞬态载体涵盖前述瞬态信号、传播信号、传播介质、存储介质等。

尽管已经参照本发明的示例性实施例具体地示出和描述了本发明，但是本领域技术人员将理解可以对之进行形式和细节上的各种改变而不脱离由所附权利要求涵盖的本发明范围。

Claims

1.一种用于视频数据压缩的方法，包括步骤：

检测视频信号的如下部分，所述部分相对于所述视频信号的其它部分而言使用数量不相称的带宽，所述视频信号的所述检测的部分得到确定的兴趣组成；以及

相对于特定变化，对所述确定的兴趣组成进行规范化，以生成所述兴趣组成的中间形式，所述中间形式表示复杂性降低了所述特定变化的所述兴趣组成，并且支持所述视频信号的压缩形式，其中在所述压缩形式中所述确定的兴趣组成保持显著性。

2.如权利要求1所述的方法，其中：

所述视频信号是帧序列；并且

所述检测步骤包括以下任何步骤：

(i)分析一个或者多个帧内的图像梯度，其中图像梯度是第一导数模型，并且梯度流是第二导数，

(ii)在时间上或者在空间上对像元的有限差进行积分，以形成导数模型，

(iii)分析一个或者多个帧内的照明场，以及

(iv)预测分析，

以确定带宽消耗，所述确定的带宽消耗用来确定所述兴趣组成。

3.如权利要求1所述的方法，其中所述确定的兴趣组成包含结构信息，所述结构信息包括空间特征和空间特征对应性(运动)的任意组合。

4.如权利要求3所述的方法，其中所述空间特征还包括以下任意特征：边沿、角、像元、空间模式和导出模式(SIFT)。

5.如权利要求1所述的方法，其中所述规范化步骤包括：形成所述确定的兴趣组成的结构模型和外观模型。

6.如权利要求5所述的方法，还包括步骤：将几何数据分析技术至少应用于所述外观模型，其中所述兴趣组成的复杂性的降低支持按照有效性充分提高的方式来应用几何数据分析。

7.如权利要求5所述的方法，还包括步骤：将几何数据分析技术至少应用于所述结构模型，其中所述兴趣组成的复杂性降低支持按照有效性充分提高的方式来应用几何数据分析。

8.如权利要求1所述的方法，其中所述特定变化是全局结构、全局运动和姿态、局部形变和照明的任何组合。

9.如权利要求8所述的方法，还包括步骤：将几何数据分析技术应用于所述生成的中间形式，其中所述兴趣组成的复杂性降低支持按照有效性充分提高的方式来应用几何数据分析。

10.如权利要求9所述的方法，其中所述几何数据分析技术包括线性分解和非线性分解中的任何技术。

11.如权利要求10所述的方法，其中线性分解运用以下线性分解中的任何线性分解：顺序PCA、幂因数分解、广义PCA和渐进PCA。

12.如权利要求11所述的方法，其中渐进PCA包括与PCA组合的小波变换技术。

13.一种用于视频数据压缩的装置，包括：

检测器，其使用带宽消耗来确定兴趣组成，包括检测视频信号的如下部分，所述部分相对于所述视频信号的其它部分而言使用数量不相称的带宽，从而获得确定的兴趣组成；以及

规范器，其参照特定变化对所述确定的兴趣组成进行规范化以生成所述兴趣组成的中间形式，所述中间形式表示复杂性降低了所述特定变化的所述兴趣组成，并且支持所述视频信号的压缩形式，其中在所述压缩形式中所述确定的兴趣组成维持显著性。

14.如权利要求13所述的装置，其中：

所述视频信号是帧序列；以及

所述检测器还进行以下任何步骤：

(ii)在时间上或者在空间上对像元的有限差进行积分以形成导数模型，

(iii)分析一个或者多个帧内的照明场，以及

(iv)预测分析，

15.如权利要求13所述的装置，其中所述规范器形成所述确定的兴趣组成的结构模型和外观模型。

16.如权利要求15所述的装置，还包括分析器，所述分析器将几何数据分析至少应用于所述外观模型和所述结构模型中的至少一个模型，其中所述兴趣组成的复杂性降低支持按照有效性充分提高的方式来应用几何数据分析。

17.如权利要求13所述的装置，其中所述特定变化是全局结构、全局运动和姿态、局部形变和照明的任何组合。

18.如权利要求13所述的装置，还包括分析器，所述分析器将几何数据分析技术应用于所述生成的中间形式，其中所述兴趣组成的复杂性降低支持按照有效性充分提高的方式来应用几何数据分析；

其中所述几何数据分析技术包括线性分解和非线性分解中的任何技术。

19.如权利要求18所述的装置，其中渐进PCA包括与PCA组合的小波变换技术。

20.一种生成来自多个视频帧的视频信号数据的编码形式的计算机实施的方法，所述方法包括：

(a)基于带宽消耗来检测两个或者更多给定视频帧中的至少一个对象；

(b)跟踪所述两个或者更多视频帧内的所述至少一个对象；

(c)将与所述至少一个对象对应的像元数据从所述两个或者更多视频帧中的其它像元数据分割出来，以便生成所述数据的第一中间形式，所述分割利用所述像元数据的空间分割，所述数据的所述第一中间形式包括所述至少一个对象的所述分割的像元数据和所述两个或者更多视频帧中的所述其它像元数据；

(d)通过以下步骤对所述数据的所述第一中间形式进行规范化：

标识所述给定的两个或者更多视频帧中的所述至少一个对象的对应元素；

分析所述对应元素，以生成所述对应元素之间的关系；

通过使用所述对应元素之间的所述生成的关系来生成对应性模型；

将所述对应元素之间的所述关系集成到全局运动模型中；并且

通过利用所述对应性模型和全局运动模型，对与所述两个或者更多视频帧中的所述至少一个对象相关联的像元数据进行重采样，以生成结构模型和外观模型，二者一起表示所述数据的第二中间形式；以及

(e)通过利用所述对应性模型来恢复所述重采样的像元数据的空间位置，由此生成与所述至少一个对象对应的恢复的像元；以及

将所述恢复的像元与所述数据的所述第一中间形式中的所述其它像元数据重新组合在一起，以创建原始视频帧；以及

其中所述数据的所述第二中间形式的复杂性充分降低，以便在维持所述至少一个对象的显著性的同时，按照有效性充分提高的方式通过线性分解来实现数据压缩；以及

其中所述检测和跟踪包括使用脸部检测算法；以及

其中生成对应性模型包括使用鲁棒估计器来求解多维投影运动模型；以及

其中分析所述对应元素包括在所述视频帧中的两个或者更多视频帧之间使用基于外观的运动估计。

21.如权利要求20所述的方法，包括对所述数据的所述第二中间形式进行编码，所述编码包括：

将所述重采样的像元数据分解成编码表示，所述编码表示代表所述数据的第三中间形式；以及

截除所述编码表示的零个或者多个字节；以及

根据所述编码表示来重新组成所述重采样的像元数据；

其中所述分解和所述重新组成中的每个步骤使用主元分析。

22.如权利要求20所述的方法，包括将所述对应性模型因数分解为局部形变模型的方法，所述方法包括：

定义覆盖与所述至少一个对象对应的像元的二维网格，所述网格是基于顶点和边的正则化网格；以及

根据所述对应元素之间的所述关系来生成局部运动模型，所述关系包括基于有限差的顶点移位，所述有限差是根据基于所述视频帧中的两个或者更多视频帧之间的基于块的运动估计生成的。

23.如权利要求22所述的方法，其中所述顶点对应于离散图像特征，所述方法包括：通过使用对所述图像强度梯度的分析，来标识与所述对象对应的显著图像特征。