CN101622876A

CN101622876A - 用于提供个人视频服务的系统和方法

Info

Publication number: CN101622876A
Application number: CN200880006422A
Authority: CN
Inventors: C·P·佩斯
Original assignee: Euclid Discoveries LLC
Current assignee: Euclid Discoveries LLC
Priority date: 2007-01-23
Filing date: 2008-01-04
Publication date: 2010-01-06
Anticipated expiration: 2028-01-04
Also published as: US8842154B2; US8243118B2; US20120281063A1; CA2676023A1; TW200841736A; EP2106664A2; US20150124045A1; CN102685441A; WO2008091485A2; US20100073458A1; CA2676023C; WO2008091485A3; CN101622876B; JP2010517427A

Abstract

提供用于处理视频的系统和方法。提供视频压缩方案，以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。头像表示可以基于视频流中描绘会议参与者的部分。使用脸部检测对脸部进行标识、跟踪和分类。基于检测到的脸部来创建包括密度、结构、形变、外观和照明模型的对象模型。根据从密度、结构、形变、外观和照明模型导出的参数，使用机器学习脸部检测技术的基于对象的视频压缩算法来创建照片真实感头像表示。

Description

用于提供个人视频服务的系统和方法

相关申请

本申请要求对2007年1月23日提交的美国临时申请No.60/881,979的优先权。本申请与2007年1月23日提交、标题为“Computer Method and Apparatus for Processing Image Data”的美国临时申请No.60/881,966和于2006年6月8日提交、标题为“ApparatusAnd Method For Processing Video Data”的美国临时申请No.60/811,890号有关。本申请与2006年3月31日提交的美国申请No.11/396,010有关，该美国申请No.11/396,010是于2006年1月20日提交的美国申请No.11/336,366的部分继续申请，该美国申请No.11/336,366是于2005年11月16日提交的美国申请No.11/280,625的部分继续申请，该美国申请No.11/280,625是于2005年9月20日提交的美国申请No.11/230,686的部分继续申请，该美国申请No.11/230,686是现为美国专利No.7,158,680、于2005年7月28日提交的美国申请No.11/191,562的部分继续申请。通过整体引用将各前述申请结合于此。

背景技术

随着数字视频近来迅速普及，对视频压缩的需求已经急剧增加。视频压缩减少了存储和传输数字媒体所需的比特数。视频数据包含空间冗余性和时间冗余性，并且可以通过登记(register)帧内(空间)和帧间(时间)的差值来对这些空间和时间相似性进行编码。执行压缩的硬件或软件称为编码解码器(编码器/解码器)。编码解码器是能够对数字信号进行编码和解码的设备或软件。由于数据密集的数字视频应用已经变得无处不在，所以需要更高效的信号编码方式。因此，视频压缩现在已经成为存储和通信技术中的一个中心组成。

编码解码器常常使用于许多不同技术如视频会议、视频博客和其它流媒体应用(例如视频播客(podcast))中。通常，视频会议或视频博客系统实时提供对音频和视频流的数字压缩。视频会议和视频博客的问题之一在于许多参与者受困于外观感受。然而，在纯音频通信中，呈现可接受的屏上(on-screen)外观这一负担并不是一个问题。

视频会议和视频博客带来的另一问题在于信息压缩可能造成视频质量下降。压缩率是视频会议中的最重要因素之一，因为压缩率越高，视频会议信息传输越快。遗憾的是，利用常规视频压缩方案，压缩率越高，视频质量越低。压缩视频流常常造成不良的图像和不良的声音质量。

一般而言，常规视频压缩方案受困于形式上表现为低数据通信速度、大量储存要求和干扰感知效果的诸多低效性。这些阻碍可能给需要容易、高效地操控视频数据而不牺牲质量(对于人们所具有的对某些形式的视觉信息的先天敏感性而言，这尤为重要)的各种用户带来严重问题。

在视频压缩中通常要考虑的诸多关键因素包括：视频质量和比特率、编码和解码算法的计算复杂度、对数据损失和错误的抗扰性以及延时。随着数量越来越多的视频数据充斥因特网，可以明显缓解拥塞或提高质量的技术不仅对于计算机而且对于电视机、蜂窝电话和其它手持设备而言都代表一种重大突破。

发明内容

提供用于处理视频的系统和方法，以取得相对于本领域现有技术方法而言的计算上和分析上的优点。提供视频压缩技术，以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。该头像表示可以基于视频流中描绘会议参与者的部分。基于对象的视频压缩算法可以使用脸部检测器(如Violla-Jones脸部检测器)对会议参与者的脸部进行检测、跟踪和分类。基于所检测的脸部，并结合普通脸部的预定对象模型的配准，创建用于结构、形变、外观和照明的对象模型。这些对象模型用来创建视频会议参与者的隐式表示，并由此生成视频会议参与者的照片真实感头像表示。

这一描绘可以是视频会议参与者脸部的逼真版本。其在用户的外貌和表情方面可以是准确的。原始捕获帧的其它部分可以通过较低的精度来描绘。可以对每个唯一的用户执行一次短校准会话。这将使系统能够初始化压缩算法并且创建对象模型。优选地，后续视频会议会话将无需附加校准。

如果用户要求象常规视频描绘那样的如实视频表示，则系统可能需要附加校准时段，以调节存储的模型从而更好地匹配于用户的外貌。否则，用户可以倾向于使用优选对象模型而不是当前对象模型。优选模型在一定程度上可以是有利的用户表示，例如具有最佳照明的校准会话和用户更整洁的外观。另一优选模型是经过“重新照亮”的以及对面部施加了“平滑化”的校准模型——这两个处理步骤均为了实现“较高质量”的主题表示。

可以使用客户端服务器框架来提供一种视频会议/视频博客系统。在客户端节点的用户可以发起视频会议会话，从而通过使用摄影机和耳机来进行通信。可以生成各用户的脸部的照片真实感头像表示。创建的照片真实感头像表示可以是视频会议参与者脸部的隐式表示。

附图说明

根据对如附图中所示本发明示例实施例的下文更具体描述将清楚前文内容，在这些附图中相似标号在不同的图中通篇地指代相同部分。附图未必按比例绘制，而是强调图示本发明的实施例。

图1是在本发明的实施例中运用的视频压缩(通称为图像处理)系统的框图；

图2是图示了在本发明的实施例中使用的混合空间规格化压缩方法的框图；

图3是图示了一个优选实施例中用于创建会议参与者的照片真实感头像表示的过程的流程图；

图4是图示了与生成照片真实感头像结合使用的系统部件示例的框图；

图5A是图示了使用即时消息服务器的本发明视频会议系统示例的示意图；

图5B是图示了本发明的视频会议/视频博客系统示例的示意图；

图6是本发明的实施例可以实施于其中的计算机网络或类似数字处理环境的示意图；

图7是图6的网络的计算机的内部结构的框图。

具体实施方式

本发明的示例实施例描述如下。

创建对象模型

在视频信号数据中，将视频帧组装成图像序列。视频的主题内容通常是投影到相机的二维成像面上的三维场景。在合成生成的视频的情况下，“虚拟”相机用于呈现；而在动画情况下，动画器(animator)发挥管理该相机参考帧的作用。每个帧或图像都包括如下像元(pel)，这些像元表示图像传感器对采样信号的响应。采样信号常常对应于通过相机在二维传感器阵列上的部件而采样的一些反射、折射或发射能量(例如电磁、声音等)。连续依次采样将得到时空数据流，其中每帧有两个空间维度，而时间维度对应于帧在视频序列中的顺序。这一过程通常称为“成像”过程。

本发明提供一种可以用来将视频信号数据高效地处理为一个或多个有益表示的手段。本发明对于处理视频信号中的多个经常出现的数据集是有效的。分析视频信号，并且提供该数据的一个或多个简洁表示，以促进其处理和编码。每个新的、较为简洁的数据表示允许减少对许多应用的计算处理、传输带宽和存储的要求，这些应用包括但不限于视频信号的编码、压缩、传输、分析、存储和显示。将噪声和信号的其它不需要部分表示为较低优先级，从而使得进一步的处理可以集中于分析和表示视频信号中较高优先级的部分。由此，与之前可能的情况相比，可以更为简洁地表示视频信号。而且，精度损失集中在视频信号中在感知上不重要的部分。

如通过引用将其全部教导结合于此、于2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus for Processing Image Data”的美国申请第()号(代理案号4060-1009-000)中所述，分析视频信号数据并且标识显著组成部分。对时空流的分析揭示了常常为特定对象(例如，脸部)的显著组成部分。标识过程指明显著组成部分的存在和重要性(significance)，并且选择这些限定的显著组成部分中最重要的一个或多个显著组成部分。这并不限制在当前描述的处理之后或与之并行地对其它较不显著的组成部分进行的标识和处理。然后，进一步分析前述显著组成部分，标识可变和不变子组成部分。对不变子组成部分的标识是这样的过程：对该组成部分的某方面进行建模，由此揭示允许将该组成部分合成至所需精度水平的模型的参数化。

在一个实施例中，将PCA/小波编码技术应用于经过预处理的视频数据，以形成所需的压缩视频信号。预处理通过应用主元分析(PCA)/小波编码(压缩)的方式来降低视频信号的复杂度，使效果得以改进。在2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus forProcessing Image Data”的美国申请第()号(代理案号4060-1009-000)这些共同未决申请中，详细地讨论了PCA/小波编码。

图1是实现本发明原理的示例性图像处理系统100的框图。源视频信号101输入到预处理器102或以别的方式由预处理器102接收。预处理器102使用带宽消耗或其它标准(如脸部/对象检测器)来确定源视频信号101中的感兴趣组成部分(显著对象)。具体而言，预处理器102确定视频信号中的如下部分，这些部分相对于视频信号101的其它部分而言使用了不成比例的带宽。一种用于进行这一确定的分割器103的方法如下。

分割器103使用像元的导数(derivative)的时间和/或空间差来分析随时间和/或空间的图像梯度。出于一致性(coherence)监测的目的，跟踪和记录视频信号中跨过视频信号的顺序帧而彼此对应的部分。对与这些一致信号组成部分相关联的导数场的有限差进行积分，以产生视频信号中相对于其它部分而言使用了不成比例带宽的确定部分(即确定的感兴趣组成部分)。在一个优选实施例中，如果发现一帧中的空间不连续性与后继帧中的空间不连续性相对应，则分析图像梯度的陡峭度或平滑度，以产生唯一的对应性(时间一致性)。另外，还以相同的方式使用此类对应关系的收集来唯一地表征视频帧的离散组成部分的时间一致性。对于陡峭的图像梯度，确定存在边缘。如果存在此类定义空间不连续性的两个边缘，则定义角(corner)。将这些标识的空间不连续性与梯度流相结合，这在跨过视频数据帧的对应像元之间产生运动向量。当运动向量与所标识的空间不连续性相符时，则本发明的分割器103确定：存在感兴趣组成部分(显著对象)。

其它分割技术也适于实施分割器103。

回到图1，一旦预处理器102(分割器103)已经确定了感兴趣组成部分(显著对象)或以别的方式从源视频信号101分割了感兴趣组成部分(显著对象)，规格化器105降低所确定的感兴趣组成部分的复杂度。优选地，规格化器105从确定的兴趣组成部分中去除全局运动和姿态(pose)、全局结构、局部形变、外观和照明的差异。为此，利用在此声明的有关专利申请中先前描述的规格化技术。这使得规格化器105建立了兴趣组成部分的对象模型，例如结构模型107和外观模型108。

结构对象模型107在数学上可以表示为：

SM (σ) = \underset{x, y}{Σ} [(v_{x, y} + Δ_{t}) + Z]

方程1

其中σ是显著对象(确定的感兴趣组成部分)而SM()是该对象的结构模型；

v_x，y是随时间登记的、对象σ之上的逐段线性正则化网格的2D网格顶点；

Δ_t是顶点随时间t的改变，其表示视频帧之间的对象缩放(或局部形变)、旋转和平移；并且

Z是全局运动。

根据方程1可以导出全局刚性结构模型、模型的全局运动、姿态和局部导出形变。使用根据运动来估计结构的已知技术，并将其与运动估计相结合，从而确定结构部分(视频帧随时间的感兴趣组成部分)的候选结构。这定义了显著对象在空间中的位置和定向，并由此提供结构模型107和运动模型111。

外观模型108继而表示显著对象未由结构模型107和运动模型111共同建模的特征和方面。在一个实施例中，外观模型108是随时间的结构改变的线性分解，并且是通过从结构模型107去除全局运动和局部形变来定义的。申请人在每个视频帧处、使用结构模型107来取得对象外观，并且重新投影为“规格化姿态”。“规格化姿态”还将被称为一个或多个“基本(cardinal)”姿态。重新投影表示对象的规格化版本，并且产生任何外观变化。当给定的对象在视频帧之间旋转或在空间上平移时，外观定位于单个基本姿态(即，平均规格化表示)。外观模型108还考虑基本姿态的基本形变(例如睁眼/闭眼、张嘴/闭嘴等)。因此，基本姿态P_c和基本姿态P_c的基本形变Δ_c表示外观模型108AM(σ)，

AM (σ) = \underset{t}{Σ} (P_{c} + Δ_{c} P_{c})

方程2

优选地，外观模型108中的像元基于其与相机投影轴的距离和对相机投影轴的入射角来进行偏置。偏置确定个体像元对模型的最终形成所具有的贡献的相对权重。因此，优选地，可以在所有模型的所有处理中包括这一“采样偏置”。随时间对候选结构(来自结构模型107)的跟踪可以通过来自姿态、运动和形变估计的含意来形成或支持对所有像元的运动的预测。

另外，关于外观和照明建模，在变化的光照条件下跟踪对象是图像处理中持续的挑战之一。在成像处理中，对比度规格化是对像素强度值的改变进行建模的过程，其将像素强度的改变归结于光照/照明的改变，而不归结于其它因素。优选实施例对显著对象在捕获视频的照明条件下的任何改变进行估计(即，建模，在对象上入射的照明)的任意改变。这是通过将来自兰伯特反射线性子空间(LRLS)理论的原理与光学流组合来实现的。根据LRLS理论，当对象固定时——优选地仅允许照明改变——可以通过前九个球面谐波的线性组合来近似反射图像集；因此，图像落在环境“图像”向量空间中与9D线性子空间接近处。此外，用于图像像素(x，y)的反射强度可以近似如下：

I (x, y) = \underset{i = 0,1,2 j = - i,}{Σ} \underset{- i + 1 . . . i - 1, i}{Σ} l_{ij} b_{ij} (n),

使用LRLS和光学流，计算期望值以确定照明如何与对象相互作用。这些期望值用以约束可以说明光学流场改变的可能对象运动。当使用LRLS来使用照明建模来描述对象的外观时，仍然有必要允许外观模型处理可能落在照明模型预测以外的任何外观改变。

外观模型108和结构模型107的其它数学标识也是适用的，只要其从相应的原始视频信号明显降低了感兴趣组成部分的复杂度，但维持了感兴趣组成部分的显著性。

回到图1，分析器110继而将PCA/小波编码应用于结构对象模型107和外观对象模型108。更一般地，分析器110运用几何数据分析来压缩(编码)与感兴趣组成部分对应的视频数据。所得压缩(编码)视频数据可用于图2的图像处理系统中。特别地，这些对象模型107、108可以存储于图2的编码侧和解码侧232、236。根据结构模型107和外观模型108，可以生成有穷状态机。常规编码232和解码236也可以实施为常规小波视频编码解码方案。

在232和236这两侧，将PCA编码应用于规格化像元数据，这在每侧232、236构建了相同的基向量集。在一个优选实施例中，在图像处理期间对基函数应用PCA/小波，以产生所需的压缩视频数据。小波技术(DWT)变换整个图像和子图像，并且线性地分解外观模型118和结构模型107，继而，经分解的模型被适度截断，以满足所需阈值目标(ala EZT或SPIHT)。由于视频数据的“规格化”特征，这支持可伸缩的视频数据处理，这与现有技术的系统/方法是不同的。

如图2中所示，利用常规视频压缩方法232的独立实例，来处理用于一个或多个对象230、250的未压缩视频流中的每个先前检测的对象实例。此外，从对象230、250的分割获得的非对象202也使用常规视频压缩232来进行压缩。这些独立压缩编码232中每一个的结果是独立的常规编码流234，其中的每一个与每个视频流单独对应。在某个点，可能在在传输之后，可以在解压缩器236处将这些中间编码流234解压缩(重建)为规格化非对象210和多个对象238、258的合成。这些合成像元可以被去规格化240为其去规格化版本222、242、262，以将像元在空间上相对于彼此正确地定位，从而使组合过程270可以将对象和非对象像元组合成全帧272的合成。

创建照片真实感头像表示

图3是图示了由视频会议照片真实感头像生成系统300进行的步骤的流程图。该系统300创建视频会议或视频博客参与者的照片真实感头像表示。如图3中所示，在302，从视频会议数据流的一个或多个视频帧检测视频会议参与者之一的脸部。使用Viola-Jones脸部检测器(或任何其它脸部检测器)来检测脸部。

在304，系统100确定该脸部之前是否已经校准。如果不存在校准，则在306校准脸部。校准信息可以包括关于脸部定向(指定脸部中心点的x、y位置)的信息、比例信息以及结构、形变、外观和照明信息。可以使用混合三维形变模型和LRLS算法以及结构、形变、外观和照明模型来导出这些参数。在通过引用将其全部教导结合于此、于2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus forProcessing Image Data”的美国申请第()号(代理案号4060-1009-000)中讨论了这些模型。其它已知建模技术也可以用来确定，诸如三维形变建模、主动外观模型等这些参数。这些近似可以用来估计脸部的姿态和结构以及用于视频中各帧的照明条件。一旦求解了个人脸部的结构、形变、外观和照明基础(例如校准信息)，则在308，可以使用这些显式模型来对个人的脸部进行检测、跟踪和建模。

在310，可以使用这些参数(例如结构、形变、外观和照明基础)来初始化隐式建模。隐式建模相对于从显式建模获得的信息来构建其模型，并且提供对个人脸部的紧凑编码。使用从显式建模获得的参数作为用于估计隐式模型的基础。例如，使用显式建模参数来构建光照与脸部结构如何相互作用的有关期望值，继而对脸部进行采样，这些约束提供限制隐式算法的搜索空间的手段。在312，使用隐式模型对个人脸部进行检测、跟踪和分类，并且生成照片真实感头像表示。与显式模型相比，使用隐式建模生成的帧使用较少的每帧编码，并且要求较少的参数。照片真实感头像表示是会议参与者脸部的人造表示(例如代理头像)。人造表示保真度的范围可以从原始视频捕获中参与者的如实表示，直到由先前校准会话所支持的表示。

系统300执行定期检查，以保证其建模建立在真实感近似的基础上。因此，在步骤314，系统300进行检查，以确认其隐式对象建模在恰当地起作用。如果重新投影误差在特定时段为低，则系统可以确定隐式对象建模在起作用。如果重新投影误差低并且存在大量运动，则隐式对象建模可能正在恰当地起作用。然而，如果重新投影误差高，则系统300可以确定隐式建模没有在恰当地起作用。类似地，如果系统300检测到不成比例的带宽量，则系统可以确定隐式建模没有在最优地起作用。

如果确定隐式建模没有起作用，则在步骤316，系统300进行检查以确定是否可以检测到脸部。如果可以检测到脸部，则在步骤304，系统300找到用于该脸部的现有校准信息，并且相应地继续进行。如果不能检测到脸部，则系统继续步骤302，以使用Viola-Jones脸部检测器来检测脸部。

在另一优选实施例中，本发明使用显式建模来重建隐式建模。显式建模对重新初始化隐式模型所需的模型参数进行重建。如果显式建模不能重建参与者的建模，则执行完全的重建，包括运行脸部检测器。

应当注意，脸部检测使得可以将隐式建模用于校准。在这一情况下，隐式模型用来“校准”显式模型。然后，显式模型开始其处理，该处理继而同样导致隐式模型的初始化。

这一定期检查使系统300能够重新确认：其实际上是在对真实对象(即人脸)进行建模，并且使系统300定期重置其设置。该布置提供脸部检测器402、校准器404、显式建模器406与隐式建模器408之间的紧密耦合。以此方式，来自显式建模器406的反馈定期用来重新初始化隐式建模器408。在图4中示出了图示这一系统300的一个实例实施的框图。

照片真实感头像偏好

照片真实感头像生成系统300可以向会议参与者提供偏好掌控，以使他们的视频会议体验更令人愉快。例如，会议参与者可以选择如下偏好，该偏好要求他们的照片真实感头像表示总是直视相机，从而使头像表示看似在直视其他会议参与者。由于所用建模允许任何模型相对于虚拟相机调整姿态，所以可以对非协同定位的相机和监视者所需的注视调节(gaze adjustment)进行补偿。会议参与者还可以选择具体背景模型。通过选择一致背景模型，系统300能够提供视频流的甚至更高效的压缩版本。模型例如可以是预定背景或低分辨率的实际背景。由于脸部检测和校准，会议参与者还可以在他们的照片真实感头像表示中定制与他们的个人属性关联的特征，例如去除皱纹、选择发型/效果、选择服饰等。

通过提供会议参与者的照片真实感头像表示，系统300提供在常规视频会议系统中通常不可用的附加一层的安全性。具体而言，由于照片真实感头像表示是人造表示，所以会议参与者无需担心其他会议参与者知道潜在的保密信息，例如会议参与者在视频会议期间在看的保密文档，或可能通过能够查看视频会议的具体记录环境来得到的其它保密信息。

视频会议系统

图5A是图示了使用异步或近似同步视频会议服务器(下文称为即时消息服务器502)的异步或近似同步视频会议系统500的示例性框图。在这一例子中示出了具有即时消息服务器502和两个客户端机器504、506的三节点网络。在每个机器504、506处就座的用户能够发起视频会议会话，从而通过使用摄影机和耳机来进行通信。每个用户的脸部的照片真实感头像表示将出现在每个用户之前。该描绘意在使用户的外貌和表情是准确的。优选地，按照较低的精度来描绘原始捕获帧的其它部分。进行短暂校准话路，每个唯一的用户执行一次。这将使系统能够初始化压缩算法并且创建对象模型。后续视频会议会话将很可能无需附加校准。每个用户可以按照互换的顺序来“播放”异步通信序列。以这一方式，每个用户可以基于用户输入、检测到的话音或某些其它提示来提示会话记录。此外，这一交互允许出现许多同时“对话”，而不会出现在全同步场景中可能出现的“中断”。

异步或半同步消息收发系统环境500提供一种让多个参与者能够相互交互的手段。这是一个重要的可用性要素。即时消息会话方面允许用户“编辑”他们自己的视频，以及在将其“发送”到其它侧之前查看它。存在控制方面，并且带宽降低也是关键的。编辑和控制方面还可以用来生“较高”质量的视频片段，其稍后可以用于其它目的(例如，通过使用组织在一起的“先前”片段，通过对视频中的音素或音频短语模式进行关联、可以在没有相机的情况下提供视频会话)。

图5B是图示了视频会议/视频博客系统540的示例的框图。在这一示例中，客户端系统551连接到应用服务器556，该服务器掌控图3和图4中提及的照片真实感头像生成系统300。应用服务器556可以在对象模型档案554中存储先前生成的对象(密度、结构、外观、照明等)模型552。创建这些对象模型552，以生成如上文在图3和图4中讨论的用于系统540的用户的照片真实感头像表示。照片真实感头像可以流式传输到客户端系统551以用于视频博客(vlog)558。

处理环境

图6图示了本发明可以实施于其中的计算机网络或类似数字处理环境600。一个或多个客户端计算机/设备50和一个或多个计算机60提供执行应用程序等的处理设备、存储设备和输入/输出设备。一个或多个客户端计算机/设备50还可以通过通信网络70链接到包括其它客户端设备/进程50和一个或多个服务器60的其它计算设备。通信网络70可以是远程接入网络、全球网络(例如因特网)、全球计算机汇集、局域网或广域网的部分以及目前使用相应协议(TCP/IP、蓝牙等)来相互通信的网关。其它电子设备/计算机网络架构是适合的。

图7是图6的计算机系统中的计算机(例如客户端处理器/设备50或服务器计算机60)的内部结构的图。各计算机50、60包含系统总线79，其中总线是用于计算机或处理系统的部件之间数据传送的一组硬件线路。总线79实质上是连接计算机系统不同单元(例如处理器、盘储存器、存储器、输入/输出端口、网络端口等)的共享管道，该管道实现信息在单元之间的传送。用于将各种输入和输出设备(例如键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60的输入/输出(I/O)设备接口82附接到系统总线79。网络接口86允许计算机连接到各种附接到网络(例如图6的网络70)的其它设备。存储器90为用来实施本发明实施例(例如个人视频服务)的计算机软件指令92和数据94提供易失性存储。盘储存器95为用来实施本发明实施例的计算机软件指令92和94提供非易失性存储。中央处理器单元84还附接到系统总线79并且提供对计算机指令的执行。

在一个实施例中，处理器例程92和94是包括计算机可读介质(例如可拆卸存储介质，例如一个或多个DVD-ROM、CD-ROM、磁盘、磁带等)的计算机程序产品，该计算机可读介质提供用于本发明系统的软件指令的至少一部分。如本领域公知的任何适当软件安装过程可以安装计算机程序产品。在另一实施例中，也可以通过有线、通信和/或无线连接来下载软件指令的至少一部分。在其它实施例中，本发明程序是在传播介质上的传播信号(例如通过全球网络如因特网或其它一个或多个网络传播的无线电波、红外线波、激光波、声波或电波)上实现的计算机程序传播信号产品。这样的载体介质或信号提供用于本发明例程/程序92的软件指令的至少一部分。

在可选实施例中，传播信号是在传播介质上承载的模拟载波或数字信号。例如，传播信号可以是通过全球网络(例如因特网)、电信网络或其它网络传播的数字化信号。在一个实施例中，传播信号是在一段时间内通过传播介质传输的信号，例如在以毫秒、秒、分钟计或更长的时段内通过网络在分组中发送的用于软件应用的指令。在另一实施例中，计算机程序产品的计算机可读介质是如下传播介质，计算机系统可以例如通过接收该传播介质并且识别该传播介质中实现的如上文针对计算机程序传播信号产品描述的传播信号来接收和读取该传播介质。

一般而言，术语“载体介质”或瞬态载体涵盖前述瞬态信号、传播信号、传播介质、存储介质等。

尽管已经参照本发明的优选实施例具体地示出和描述本发明，但是本领域技术人员将理解可以对之进行形式和细节上的各种改变而不脱离由所附权利要求涵盖的本发明范围。

例如，可以在各种计算机架构中实施本发明。图5A、图5B、图6和图7中所示计算机网络是为了说明而不是限制本发明。

本发明可以采用全硬件实施例、全软件实施例或包含硬件和软件单元的实施例的形式。在一个优选实施例，用包括但不限于固件、常驻软件、微码等的软件实施本发明。

另外，本发明可以采用可从如下计算机可用或计算机可读介质获取的计算机程序产品的形式，该介质提供用于由计算机或任何指令执行系统使用或与计算机或任何指令执行系统结合使用的程序代码。出于本说明书的目的，计算机可用或计算机可读介质可以是任何如下装置，该装置可以包含、存储、传达、传播或传送用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。

介质可以是电、磁、光、电磁、红外线或半导体系统(或装置或设备)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可拆卸计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的一些例子包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-R/W)和DVD。

适合于存储和/或执行程序代码的数据处理系统将包括直接地或通过系统总线间接地耦合到存储器单元的至少一个处理器。存储器单元可以包括在程序代码的实际执行期间运用的本地存储器、大容量储存器和高速缓存存储器，这些高速缓存存储器提供对至少一些程序代码的临时存储以便减少在执行期间从大容量储存器取回代码的次数。

输入/输出或I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接地或通过居间I/O控制器耦合到系统。

网络适配器还可以耦合到系统以使数据处理系统能够变为通过居间专用或公用网络耦合到其它数据处理系统或远程打印机或存储设备。调制解调器、有线调制解调器和以太网卡仅为目前可用网络适配器类型中的少数类型。

Claims

1.一种用于提供视频会议的方法，所述方法包括步骤：

检测视频流的部分中所描绘的视频会议参与者的人脸；

创建一个或多个对象模型，以对所述视频会议参与者的脸部进行建模；以及

使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示。

2.如权利要求1所述的用于提供视频会议的方法，其中使用Viola/Jones脸部检测算法来检测和跟踪所述视频会议参与者的脸部。

3.如权利要求1所述的用于提供视频会议的方法，其中创建照片真实感头像表示对象模型，作为所述视频会议参与者的脸部的隐式表示。

4.如权利要求3所述的用于提供视频会议的方法，其中所述视频会议参与者的所述隐式表示是所述视频会议参与者的脸部的仿真表示。

5.如权利要求3所述的用于提供视频会议的方法，其中检测和跟踪包括使用Viola/Jones脸部检测算法，所述方法还包括步骤：

标识与来自所述视频流的两个或更多视频帧中的脸部相关联的至少一个对象的相应元素；以及

对所述相应元素进行跟踪和分类，以基于先前校准和建模的脸部来标识所述相应元素之间的关系。

6.如权利要求1所述的用于提供视频会议的方法，其中所述对象模型包括用于结构、形变、姿态、运动、照明和外观的对象模型。

7.一种视频会议系统，包括：

脸部检测器，其检测视频流中视频会议参与者的脸部；

校准器，其生成对所述视频会议参与者的脸部进行校准的校准模型；

对象模型，其与所述校准器和脸部检测器相结合，所述对象模型基于所述校准模型对所述视频流中描绘所述视频会议参与者的脸部的部分进行建模；以及

所述视频会议参与者的照片真实感头像表示，所述照片真实感头像表示由所述脸部检测器、所述校准器和所述对象模型生成。

8.一种用于视频会议的系统，包括：

用于提供对象模型以对视频流中描绘视频会议的至少一个参与者的部分进行建模的装置；以及

用于使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示的装置。