CN101622876A - 用于提供个人视频服务的系统和方法 - Google Patents

用于提供个人视频服务的系统和方法 Download PDF

Info

Publication number
CN101622876A
CN101622876A CN200880006422A CN200880006422A CN101622876A CN 101622876 A CN101622876 A CN 101622876A CN 200880006422 A CN200880006422 A CN 200880006422A CN 200880006422 A CN200880006422 A CN 200880006422A CN 101622876 A CN101622876 A CN 101622876A
Authority
CN
China
Prior art keywords
face
video conference
video
conference participants
object model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200880006422A
Other languages
English (en)
Other versions
CN101622876B (zh
Inventor
C·P·佩斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Euclid Discoveries LLC
Original Assignee
Euclid Discoveries LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Euclid Discoveries LLC filed Critical Euclid Discoveries LLC
Publication of CN101622876A publication Critical patent/CN101622876A/zh
Application granted granted Critical
Publication of CN101622876B publication Critical patent/CN101622876B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/755Deformable models or variational models, e.g. snakes or active contours
    • G06V10/7557Deformable models or variational models, e.g. snakes or active contours based on appearance, e.g. active appearance models [AAM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/441Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
    • H04N21/4415Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Abstract

提供用于处理视频的系统和方法。提供视频压缩方案,以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。头像表示可以基于视频流中描绘会议参与者的部分。使用脸部检测对脸部进行标识、跟踪和分类。基于检测到的脸部来创建包括密度、结构、形变、外观和照明模型的对象模型。根据从密度、结构、形变、外观和照明模型导出的参数,使用机器学习脸部检测技术的基于对象的视频压缩算法来创建照片真实感头像表示。

Description

用于提供个人视频服务的系统和方法
相关申请
本申请要求对2007年1月23日提交的美国临时申请No.60/881,979的优先权。本申请与2007年1月23日提交、标题为“Computer Method and Apparatus for Processing Image Data”的美国临时申请No.60/881,966和于2006年6月8日提交、标题为“ApparatusAnd Method For Processing Video Data”的美国临时申请No.60/811,890号有关。本申请与2006年3月31日提交的美国申请No.11/396,010有关,该美国申请No.11/396,010是于2006年1月20日提交的美国申请No.11/336,366的部分继续申请,该美国申请No.11/336,366是于2005年11月16日提交的美国申请No.11/280,625的部分继续申请,该美国申请No.11/280,625是于2005年9月20日提交的美国申请No.11/230,686的部分继续申请,该美国申请No.11/230,686是现为美国专利No.7,158,680、于2005年7月28日提交的美国申请No.11/191,562的部分继续申请。通过整体引用将各前述申请结合于此。
背景技术
随着数字视频近来迅速普及,对视频压缩的需求已经急剧增加。视频压缩减少了存储和传输数字媒体所需的比特数。视频数据包含空间冗余性和时间冗余性,并且可以通过登记(register)帧内(空间)和帧间(时间)的差值来对这些空间和时间相似性进行编码。执行压缩的硬件或软件称为编码解码器(编码器/解码器)。编码解码器是能够对数字信号进行编码和解码的设备或软件。由于数据密集的数字视频应用已经变得无处不在,所以需要更高效的信号编码方式。因此,视频压缩现在已经成为存储和通信技术中的一个中心组成。
编码解码器常常使用于许多不同技术如视频会议、视频博客和其它流媒体应用(例如视频播客(podcast))中。通常,视频会议或视频博客系统实时提供对音频和视频流的数字压缩。视频会议和视频博客的问题之一在于许多参与者受困于外观感受。然而,在纯音频通信中,呈现可接受的屏上(on-screen)外观这一负担并不是一个问题。
视频会议和视频博客带来的另一问题在于信息压缩可能造成视频质量下降。压缩率是视频会议中的最重要因素之一,因为压缩率越高,视频会议信息传输越快。遗憾的是,利用常规视频压缩方案,压缩率越高,视频质量越低。压缩视频流常常造成不良的图像和不良的声音质量。
一般而言,常规视频压缩方案受困于形式上表现为低数据通信速度、大量储存要求和干扰感知效果的诸多低效性。这些阻碍可能给需要容易、高效地操控视频数据而不牺牲质量(对于人们所具有的对某些形式的视觉信息的先天敏感性而言,这尤为重要)的各种用户带来严重问题。
在视频压缩中通常要考虑的诸多关键因素包括:视频质量和比特率、编码和解码算法的计算复杂度、对数据损失和错误的抗扰性以及延时。随着数量越来越多的视频数据充斥因特网,可以明显缓解拥塞或提高质量的技术不仅对于计算机而且对于电视机、蜂窝电话和其它手持设备而言都代表一种重大突破。
发明内容
提供用于处理视频的系统和方法,以取得相对于本领域现有技术方法而言的计算上和分析上的优点。提供视频压缩技术,以减少在视频会议或视频博客应用中存储和传输数字媒体所需的比特数。创建视频会议参与者的照片真实感头像表示。该头像表示可以基于视频流中描绘会议参与者的部分。基于对象的视频压缩算法可以使用脸部检测器(如Violla-Jones脸部检测器)对会议参与者的脸部进行检测、跟踪和分类。基于所检测的脸部,并结合普通脸部的预定对象模型的配准,创建用于结构、形变、外观和照明的对象模型。这些对象模型用来创建视频会议参与者的隐式表示,并由此生成视频会议参与者的照片真实感头像表示。
这一描绘可以是视频会议参与者脸部的逼真版本。其在用户的外貌和表情方面可以是准确的。原始捕获帧的其它部分可以通过较低的精度来描绘。可以对每个唯一的用户执行一次短校准会话。这将使系统能够初始化压缩算法并且创建对象模型。优选地,后续视频会议会话将无需附加校准。
如果用户要求象常规视频描绘那样的如实视频表示,则系统可能需要附加校准时段,以调节存储的模型从而更好地匹配于用户的外貌。否则,用户可以倾向于使用优选对象模型而不是当前对象模型。优选模型在一定程度上可以是有利的用户表示,例如具有最佳照明的校准会话和用户更整洁的外观。另一优选模型是经过“重新照亮”的以及对面部施加了“平滑化”的校准模型——这两个处理步骤均为了实现“较高质量”的主题表示。
可以使用客户端服务器框架来提供一种视频会议/视频博客系统。在客户端节点的用户可以发起视频会议会话,从而通过使用摄影机和耳机来进行通信。可以生成各用户的脸部的照片真实感头像表示。创建的照片真实感头像表示可以是视频会议参与者脸部的隐式表示。
附图说明
根据对如附图中所示本发明示例实施例的下文更具体描述将清楚前文内容,在这些附图中相似标号在不同的图中通篇地指代相同部分。附图未必按比例绘制,而是强调图示本发明的实施例。
图1是在本发明的实施例中运用的视频压缩(通称为图像处理)系统的框图;
图2是图示了在本发明的实施例中使用的混合空间规格化压缩方法的框图;
图3是图示了一个优选实施例中用于创建会议参与者的照片真实感头像表示的过程的流程图;
图4是图示了与生成照片真实感头像结合使用的系统部件示例的框图;
图5A是图示了使用即时消息服务器的本发明视频会议系统示例的示意图;
图5B是图示了本发明的视频会议/视频博客系统示例的示意图;
图6是本发明的实施例可以实施于其中的计算机网络或类似数字处理环境的示意图;
图7是图6的网络的计算机的内部结构的框图。
具体实施方式
本发明的示例实施例描述如下。
创建对象模型
在视频信号数据中,将视频帧组装成图像序列。视频的主题内容通常是投影到相机的二维成像面上的三维场景。在合成生成的视频的情况下,“虚拟”相机用于呈现;而在动画情况下,动画器(animator)发挥管理该相机参考帧的作用。每个帧或图像都包括如下像元(pel),这些像元表示图像传感器对采样信号的响应。采样信号常常对应于通过相机在二维传感器阵列上的部件而采样的一些反射、折射或发射能量(例如电磁、声音等)。连续依次采样将得到时空数据流,其中每帧有两个空间维度,而时间维度对应于帧在视频序列中的顺序。这一过程通常称为“成像”过程。
本发明提供一种可以用来将视频信号数据高效地处理为一个或多个有益表示的手段。本发明对于处理视频信号中的多个经常出现的数据集是有效的。分析视频信号,并且提供该数据的一个或多个简洁表示,以促进其处理和编码。每个新的、较为简洁的数据表示允许减少对许多应用的计算处理、传输带宽和存储的要求,这些应用包括但不限于视频信号的编码、压缩、传输、分析、存储和显示。将噪声和信号的其它不需要部分表示为较低优先级,从而使得进一步的处理可以集中于分析和表示视频信号中较高优先级的部分。由此,与之前可能的情况相比,可以更为简洁地表示视频信号。而且,精度损失集中在视频信号中在感知上不重要的部分。
如通过引用将其全部教导结合于此、于2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus for Processing Image Data”的美国申请第()号(代理案号4060-1009-000)中所述,分析视频信号数据并且标识显著组成部分。对时空流的分析揭示了常常为特定对象(例如,脸部)的显著组成部分。标识过程指明显著组成部分的存在和重要性(significance),并且选择这些限定的显著组成部分中最重要的一个或多个显著组成部分。这并不限制在当前描述的处理之后或与之并行地对其它较不显著的组成部分进行的标识和处理。然后,进一步分析前述显著组成部分,标识可变和不变子组成部分。对不变子组成部分的标识是这样的过程:对该组成部分的某方面进行建模,由此揭示允许将该组成部分合成至所需精度水平的模型的参数化。
在一个实施例中,将PCA/小波编码技术应用于经过预处理的视频数据,以形成所需的压缩视频信号。预处理通过应用主元分析(PCA)/小波编码(压缩)的方式来降低视频信号的复杂度,使效果得以改进。在2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus forProcessing Image Data”的美国申请第()号(代理案号4060-1009-000)这些共同未决申请中,详细地讨论了PCA/小波编码。
图1是实现本发明原理的示例性图像处理系统100的框图。源视频信号101输入到预处理器102或以别的方式由预处理器102接收。预处理器102使用带宽消耗或其它标准(如脸部/对象检测器)来确定源视频信号101中的感兴趣组成部分(显著对象)。具体而言,预处理器102确定视频信号中的如下部分,这些部分相对于视频信号101的其它部分而言使用了不成比例的带宽。一种用于进行这一确定的分割器103的方法如下。
分割器103使用像元的导数(derivative)的时间和/或空间差来分析随时间和/或空间的图像梯度。出于一致性(coherence)监测的目的,跟踪和记录视频信号中跨过视频信号的顺序帧而彼此对应的部分。对与这些一致信号组成部分相关联的导数场的有限差进行积分,以产生视频信号中相对于其它部分而言使用了不成比例带宽的确定部分(即确定的感兴趣组成部分)。在一个优选实施例中,如果发现一帧中的空间不连续性与后继帧中的空间不连续性相对应,则分析图像梯度的陡峭度或平滑度,以产生唯一的对应性(时间一致性)。另外,还以相同的方式使用此类对应关系的收集来唯一地表征视频帧的离散组成部分的时间一致性。对于陡峭的图像梯度,确定存在边缘。如果存在此类定义空间不连续性的两个边缘,则定义角(corner)。将这些标识的空间不连续性与梯度流相结合,这在跨过视频数据帧的对应像元之间产生运动向量。当运动向量与所标识的空间不连续性相符时,则本发明的分割器103确定:存在感兴趣组成部分(显著对象)。
其它分割技术也适于实施分割器103。
回到图1,一旦预处理器102(分割器103)已经确定了感兴趣组成部分(显著对象)或以别的方式从源视频信号101分割了感兴趣组成部分(显著对象),规格化器105降低所确定的感兴趣组成部分的复杂度。优选地,规格化器105从确定的兴趣组成部分中去除全局运动和姿态(pose)、全局结构、局部形变、外观和照明的差异。为此,利用在此声明的有关专利申请中先前描述的规格化技术。这使得规格化器105建立了兴趣组成部分的对象模型,例如结构模型107和外观模型108。
结构对象模型107在数学上可以表示为:
SM ( σ ) = Σ x , y [ ( v x , y + Δ t ) + Z ] 方程1
其中σ是显著对象(确定的感兴趣组成部分)而SM()是该对象的结构模型;
vx,y是随时间登记的、对象σ之上的逐段线性正则化网格的2D网格顶点;
Δt是顶点随时间t的改变,其表示视频帧之间的对象缩放(或局部形变)、旋转和平移;并且
Z是全局运动。
根据方程1可以导出全局刚性结构模型、模型的全局运动、姿态和局部导出形变。使用根据运动来估计结构的已知技术,并将其与运动估计相结合,从而确定结构部分(视频帧随时间的感兴趣组成部分)的候选结构。这定义了显著对象在空间中的位置和定向,并由此提供结构模型107和运动模型111。
外观模型108继而表示显著对象未由结构模型107和运动模型111共同建模的特征和方面。在一个实施例中,外观模型108是随时间的结构改变的线性分解,并且是通过从结构模型107去除全局运动和局部形变来定义的。申请人在每个视频帧处、使用结构模型107来取得对象外观,并且重新投影为“规格化姿态”。“规格化姿态”还将被称为一个或多个“基本(cardinal)”姿态。重新投影表示对象的规格化版本,并且产生任何外观变化。当给定的对象在视频帧之间旋转或在空间上平移时,外观定位于单个基本姿态(即,平均规格化表示)。外观模型108还考虑基本姿态的基本形变(例如睁眼/闭眼、张嘴/闭嘴等)。因此,基本姿态Pc和基本姿态Pc的基本形变Δc表示外观模型108AM(σ),
AM ( σ ) = Σ t ( P c + Δ c P c ) 方程2
优选地,外观模型108中的像元基于其与相机投影轴的距离和对相机投影轴的入射角来进行偏置。偏置确定个体像元对模型的最终形成所具有的贡献的相对权重。因此,优选地,可以在所有模型的所有处理中包括这一“采样偏置”。随时间对候选结构(来自结构模型107)的跟踪可以通过来自姿态、运动和形变估计的含意来形成或支持对所有像元的运动的预测。
另外,关于外观和照明建模,在变化的光照条件下跟踪对象是图像处理中持续的挑战之一。在成像处理中,对比度规格化是对像素强度值的改变进行建模的过程,其将像素强度的改变归结于光照/照明的改变,而不归结于其它因素。优选实施例对显著对象在捕获视频的照明条件下的任何改变进行估计(即,建模,在对象上入射的照明)的任意改变。这是通过将来自兰伯特反射线性子空间(LRLS)理论的原理与光学流组合来实现的。根据LRLS理论,当对象固定时——优选地仅允许照明改变——可以通过前九个球面谐波的线性组合来近似反射图像集;因此,图像落在环境“图像”向量空间中与9D线性子空间接近处。此外,用于图像像素(x,y)的反射强度可以近似如下:
I ( x , y ) = Σ i = 0,1,2 j = - i , Σ - i + 1 . . . i - 1 , i l ij b ij ( n ) ,
使用LRLS和光学流,计算期望值以确定照明如何与对象相互作用。这些期望值用以约束可以说明光学流场改变的可能对象运动。当使用LRLS来使用照明建模来描述对象的外观时,仍然有必要允许外观模型处理可能落在照明模型预测以外的任何外观改变。
外观模型108和结构模型107的其它数学标识也是适用的,只要其从相应的原始视频信号明显降低了感兴趣组成部分的复杂度,但维持了感兴趣组成部分的显著性。
回到图1,分析器110继而将PCA/小波编码应用于结构对象模型107和外观对象模型108。更一般地,分析器110运用几何数据分析来压缩(编码)与感兴趣组成部分对应的视频数据。所得压缩(编码)视频数据可用于图2的图像处理系统中。特别地,这些对象模型107、108可以存储于图2的编码侧和解码侧232、236。根据结构模型107和外观模型108,可以生成有穷状态机。常规编码232和解码236也可以实施为常规小波视频编码解码方案。
在232和236这两侧,将PCA编码应用于规格化像元数据,这在每侧232、236构建了相同的基向量集。在一个优选实施例中,在图像处理期间对基函数应用PCA/小波,以产生所需的压缩视频数据。小波技术(DWT)变换整个图像和子图像,并且线性地分解外观模型118和结构模型107,继而,经分解的模型被适度截断,以满足所需阈值目标(ala EZT或SPIHT)。由于视频数据的“规格化”特征,这支持可伸缩的视频数据处理,这与现有技术的系统/方法是不同的。
如图2中所示,利用常规视频压缩方法232的独立实例,来处理用于一个或多个对象230、250的未压缩视频流中的每个先前检测的对象实例。此外,从对象230、250的分割获得的非对象202也使用常规视频压缩232来进行压缩。这些独立压缩编码232中每一个的结果是独立的常规编码流234,其中的每一个与每个视频流单独对应。在某个点,可能在在传输之后,可以在解压缩器236处将这些中间编码流234解压缩(重建)为规格化非对象210和多个对象238、258的合成。这些合成像元可以被去规格化240为其去规格化版本222、242、262,以将像元在空间上相对于彼此正确地定位,从而使组合过程270可以将对象和非对象像元组合成全帧272的合成。
创建照片真实感头像表示
图3是图示了由视频会议照片真实感头像生成系统300进行的步骤的流程图。该系统300创建视频会议或视频博客参与者的照片真实感头像表示。如图3中所示,在302,从视频会议数据流的一个或多个视频帧检测视频会议参与者之一的脸部。使用Viola-Jones脸部检测器(或任何其它脸部检测器)来检测脸部。
在304,系统100确定该脸部之前是否已经校准。如果不存在校准,则在306校准脸部。校准信息可以包括关于脸部定向(指定脸部中心点的x、y位置)的信息、比例信息以及结构、形变、外观和照明信息。可以使用混合三维形变模型和LRLS算法以及结构、形变、外观和照明模型来导出这些参数。在通过引用将其全部教导结合于此、于2006年1月20日提交的美国申请No.11/336,366和于2007年1月23日提交、标题为“Computer Method and Apparatus forProcessing Image Data”的美国申请第()号(代理案号4060-1009-000)中讨论了这些模型。其它已知建模技术也可以用来确定,诸如三维形变建模、主动外观模型等这些参数。这些近似可以用来估计脸部的姿态和结构以及用于视频中各帧的照明条件。一旦求解了个人脸部的结构、形变、外观和照明基础(例如校准信息),则在308,可以使用这些显式模型来对个人的脸部进行检测、跟踪和建模。
在310,可以使用这些参数(例如结构、形变、外观和照明基础)来初始化隐式建模。隐式建模相对于从显式建模获得的信息来构建其模型,并且提供对个人脸部的紧凑编码。使用从显式建模获得的参数作为用于估计隐式模型的基础。例如,使用显式建模参数来构建光照与脸部结构如何相互作用的有关期望值,继而对脸部进行采样,这些约束提供限制隐式算法的搜索空间的手段。在312,使用隐式模型对个人脸部进行检测、跟踪和分类,并且生成照片真实感头像表示。与显式模型相比,使用隐式建模生成的帧使用较少的每帧编码,并且要求较少的参数。照片真实感头像表示是会议参与者脸部的人造表示(例如代理头像)。人造表示保真度的范围可以从原始视频捕获中参与者的如实表示,直到由先前校准会话所支持的表示。
系统300执行定期检查,以保证其建模建立在真实感近似的基础上。因此,在步骤314,系统300进行检查,以确认其隐式对象建模在恰当地起作用。如果重新投影误差在特定时段为低,则系统可以确定隐式对象建模在起作用。如果重新投影误差低并且存在大量运动,则隐式对象建模可能正在恰当地起作用。然而,如果重新投影误差高,则系统300可以确定隐式建模没有在恰当地起作用。类似地,如果系统300检测到不成比例的带宽量,则系统可以确定隐式建模没有在最优地起作用。
如果确定隐式建模没有起作用,则在步骤316,系统300进行检查以确定是否可以检测到脸部。如果可以检测到脸部,则在步骤304,系统300找到用于该脸部的现有校准信息,并且相应地继续进行。如果不能检测到脸部,则系统继续步骤302,以使用Viola-Jones脸部检测器来检测脸部。
在另一优选实施例中,本发明使用显式建模来重建隐式建模。显式建模对重新初始化隐式模型所需的模型参数进行重建。如果显式建模不能重建参与者的建模,则执行完全的重建,包括运行脸部检测器。
应当注意,脸部检测使得可以将隐式建模用于校准。在这一情况下,隐式模型用来“校准”显式模型。然后,显式模型开始其处理,该处理继而同样导致隐式模型的初始化。
这一定期检查使系统300能够重新确认:其实际上是在对真实对象(即人脸)进行建模,并且使系统300定期重置其设置。该布置提供脸部检测器402、校准器404、显式建模器406与隐式建模器408之间的紧密耦合。以此方式,来自显式建模器406的反馈定期用来重新初始化隐式建模器408。在图4中示出了图示这一系统300的一个实例实施的框图。
照片真实感头像偏好
照片真实感头像生成系统300可以向会议参与者提供偏好掌控,以使他们的视频会议体验更令人愉快。例如,会议参与者可以选择如下偏好,该偏好要求他们的照片真实感头像表示总是直视相机,从而使头像表示看似在直视其他会议参与者。由于所用建模允许任何模型相对于虚拟相机调整姿态,所以可以对非协同定位的相机和监视者所需的注视调节(gaze adjustment)进行补偿。会议参与者还可以选择具体背景模型。通过选择一致背景模型,系统300能够提供视频流的甚至更高效的压缩版本。模型例如可以是预定背景或低分辨率的实际背景。由于脸部检测和校准,会议参与者还可以在他们的照片真实感头像表示中定制与他们的个人属性关联的特征,例如去除皱纹、选择发型/效果、选择服饰等。
通过提供会议参与者的照片真实感头像表示,系统300提供在常规视频会议系统中通常不可用的附加一层的安全性。具体而言,由于照片真实感头像表示是人造表示,所以会议参与者无需担心其他会议参与者知道潜在的保密信息,例如会议参与者在视频会议期间在看的保密文档,或可能通过能够查看视频会议的具体记录环境来得到的其它保密信息。
视频会议系统
图5A是图示了使用异步或近似同步视频会议服务器(下文称为即时消息服务器502)的异步或近似同步视频会议系统500的示例性框图。在这一例子中示出了具有即时消息服务器502和两个客户端机器504、506的三节点网络。在每个机器504、506处就座的用户能够发起视频会议会话,从而通过使用摄影机和耳机来进行通信。每个用户的脸部的照片真实感头像表示将出现在每个用户之前。该描绘意在使用户的外貌和表情是准确的。优选地,按照较低的精度来描绘原始捕获帧的其它部分。进行短暂校准话路,每个唯一的用户执行一次。这将使系统能够初始化压缩算法并且创建对象模型。后续视频会议会话将很可能无需附加校准。每个用户可以按照互换的顺序来“播放”异步通信序列。以这一方式,每个用户可以基于用户输入、检测到的话音或某些其它提示来提示会话记录。此外,这一交互允许出现许多同时“对话”,而不会出现在全同步场景中可能出现的“中断”。
异步或半同步消息收发系统环境500提供一种让多个参与者能够相互交互的手段。这是一个重要的可用性要素。即时消息会话方面允许用户“编辑”他们自己的视频,以及在将其“发送”到其它侧之前查看它。存在控制方面,并且带宽降低也是关键的。编辑和控制方面还可以用来生“较高”质量的视频片段,其稍后可以用于其它目的(例如,通过使用组织在一起的“先前”片段,通过对视频中的音素或音频短语模式进行关联、可以在没有相机的情况下提供视频会话)。
图5B是图示了视频会议/视频博客系统540的示例的框图。在这一示例中,客户端系统551连接到应用服务器556,该服务器掌控图3和图4中提及的照片真实感头像生成系统300。应用服务器556可以在对象模型档案554中存储先前生成的对象(密度、结构、外观、照明等)模型552。创建这些对象模型552,以生成如上文在图3和图4中讨论的用于系统540的用户的照片真实感头像表示。照片真实感头像可以流式传输到客户端系统551以用于视频博客(vlog)558。
处理环境
图6图示了本发明可以实施于其中的计算机网络或类似数字处理环境600。一个或多个客户端计算机/设备50和一个或多个计算机60提供执行应用程序等的处理设备、存储设备和输入/输出设备。一个或多个客户端计算机/设备50还可以通过通信网络70链接到包括其它客户端设备/进程50和一个或多个服务器60的其它计算设备。通信网络70可以是远程接入网络、全球网络(例如因特网)、全球计算机汇集、局域网或广域网的部分以及目前使用相应协议(TCP/IP、蓝牙等)来相互通信的网关。其它电子设备/计算机网络架构是适合的。
图7是图6的计算机系统中的计算机(例如客户端处理器/设备50或服务器计算机60)的内部结构的图。各计算机50、60包含系统总线79,其中总线是用于计算机或处理系统的部件之间数据传送的一组硬件线路。总线79实质上是连接计算机系统不同单元(例如处理器、盘储存器、存储器、输入/输出端口、网络端口等)的共享管道,该管道实现信息在单元之间的传送。用于将各种输入和输出设备(例如键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60的输入/输出(I/O)设备接口82附接到系统总线79。网络接口86允许计算机连接到各种附接到网络(例如图6的网络70)的其它设备。存储器90为用来实施本发明实施例(例如个人视频服务)的计算机软件指令92和数据94提供易失性存储。盘储存器95为用来实施本发明实施例的计算机软件指令92和94提供非易失性存储。中央处理器单元84还附接到系统总线79并且提供对计算机指令的执行。
在一个实施例中,处理器例程92和94是包括计算机可读介质(例如可拆卸存储介质,例如一个或多个DVD-ROM、CD-ROM、磁盘、磁带等)的计算机程序产品,该计算机可读介质提供用于本发明系统的软件指令的至少一部分。如本领域公知的任何适当软件安装过程可以安装计算机程序产品。在另一实施例中,也可以通过有线、通信和/或无线连接来下载软件指令的至少一部分。在其它实施例中,本发明程序是在传播介质上的传播信号(例如通过全球网络如因特网或其它一个或多个网络传播的无线电波、红外线波、激光波、声波或电波)上实现的计算机程序传播信号产品。这样的载体介质或信号提供用于本发明例程/程序92的软件指令的至少一部分。
在可选实施例中,传播信号是在传播介质上承载的模拟载波或数字信号。例如,传播信号可以是通过全球网络(例如因特网)、电信网络或其它网络传播的数字化信号。在一个实施例中,传播信号是在一段时间内通过传播介质传输的信号,例如在以毫秒、秒、分钟计或更长的时段内通过网络在分组中发送的用于软件应用的指令。在另一实施例中,计算机程序产品的计算机可读介质是如下传播介质,计算机系统可以例如通过接收该传播介质并且识别该传播介质中实现的如上文针对计算机程序传播信号产品描述的传播信号来接收和读取该传播介质。
一般而言,术语“载体介质”或瞬态载体涵盖前述瞬态信号、传播信号、传播介质、存储介质等。
尽管已经参照本发明的优选实施例具体地示出和描述本发明,但是本领域技术人员将理解可以对之进行形式和细节上的各种改变而不脱离由所附权利要求涵盖的本发明范围。
例如,可以在各种计算机架构中实施本发明。图5A、图5B、图6和图7中所示计算机网络是为了说明而不是限制本发明。
本发明可以采用全硬件实施例、全软件实施例或包含硬件和软件单元的实施例的形式。在一个优选实施例,用包括但不限于固件、常驻软件、微码等的软件实施本发明。
另外,本发明可以采用可从如下计算机可用或计算机可读介质获取的计算机程序产品的形式,该介质提供用于由计算机或任何指令执行系统使用或与计算机或任何指令执行系统结合使用的程序代码。出于本说明书的目的,计算机可用或计算机可读介质可以是任何如下装置,该装置可以包含、存储、传达、传播或传送用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。
介质可以是电、磁、光、电磁、红外线或半导体系统(或装置或设备)或传播介质。计算机可读介质的例子包括半导体或固态存储器、磁带、可拆卸计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的一些例子包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-R/W)和DVD。
适合于存储和/或执行程序代码的数据处理系统将包括直接地或通过系统总线间接地耦合到存储器单元的至少一个处理器。存储器单元可以包括在程序代码的实际执行期间运用的本地存储器、大容量储存器和高速缓存存储器,这些高速缓存存储器提供对至少一些程序代码的临时存储以便减少在执行期间从大容量储存器取回代码的次数。
输入/输出或I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接地或通过居间I/O控制器耦合到系统。
网络适配器还可以耦合到系统以使数据处理系统能够变为通过居间专用或公用网络耦合到其它数据处理系统或远程打印机或存储设备。调制解调器、有线调制解调器和以太网卡仅为目前可用网络适配器类型中的少数类型。

Claims (8)

1.一种用于提供视频会议的方法,所述方法包括步骤:
检测视频流的部分中所描绘的视频会议参与者的人脸;
创建一个或多个对象模型,以对所述视频会议参与者的脸部进行建模;以及
使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示。
2.如权利要求1所述的用于提供视频会议的方法,其中使用Viola/Jones脸部检测算法来检测和跟踪所述视频会议参与者的脸部。
3.如权利要求1所述的用于提供视频会议的方法,其中创建照片真实感头像表示对象模型,作为所述视频会议参与者的脸部的隐式表示。
4.如权利要求3所述的用于提供视频会议的方法,其中所述视频会议参与者的所述隐式表示是所述视频会议参与者的脸部的仿真表示。
5.如权利要求3所述的用于提供视频会议的方法,其中检测和跟踪包括使用Viola/Jones脸部检测算法,所述方法还包括步骤:
标识与来自所述视频流的两个或更多视频帧中的脸部相关联的至少一个对象的相应元素;以及
对所述相应元素进行跟踪和分类,以基于先前校准和建模的脸部来标识所述相应元素之间的关系。
6.如权利要求1所述的用于提供视频会议的方法,其中所述对象模型包括用于结构、形变、姿态、运动、照明和外观的对象模型。
7.一种视频会议系统,包括:
脸部检测器,其检测视频流中视频会议参与者的脸部;
校准器,其生成对所述视频会议参与者的脸部进行校准的校准模型;
对象模型,其与所述校准器和脸部检测器相结合,所述对象模型基于所述校准模型对所述视频流中描绘所述视频会议参与者的脸部的部分进行建模;以及
所述视频会议参与者的照片真实感头像表示,所述照片真实感头像表示由所述脸部检测器、所述校准器和所述对象模型生成。
8.一种用于视频会议的系统,包括:
用于提供对象模型以对视频流中描绘视频会议的至少一个参与者的部分进行建模的装置;以及
用于使用所述对象模型来创建所述视频会议参与者的照片真实感头像表示的装置。
CN2008800064222A 2007-01-23 2008-01-04 用于提供个人视频服务的系统和方法 Expired - Fee Related CN101622876B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US88197907P 2007-01-23 2007-01-23
US60/881,979 2007-01-23
PCT/US2008/000092 WO2008091485A2 (en) 2007-01-23 2008-01-04 Systems and methods for providing personal video services

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2012100805798A Division CN102685441A (zh) 2007-01-23 2008-01-04 用于提供个人视频服务的系统和方法

Publications (2)

Publication Number Publication Date
CN101622876A true CN101622876A (zh) 2010-01-06
CN101622876B CN101622876B (zh) 2012-05-30

Family

ID=39645040

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2008800064222A Expired - Fee Related CN101622876B (zh) 2007-01-23 2008-01-04 用于提供个人视频服务的系统和方法
CN2012100805798A Pending CN102685441A (zh) 2007-01-23 2008-01-04 用于提供个人视频服务的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2012100805798A Pending CN102685441A (zh) 2007-01-23 2008-01-04 用于提供个人视频服务的系统和方法

Country Status (7)

Country Link
US (3) US8243118B2 (zh)
EP (1) EP2106664A2 (zh)
JP (1) JP2010517427A (zh)
CN (2) CN101622876B (zh)
CA (1) CA2676023C (zh)
TW (1) TW200841736A (zh)
WO (1) WO2008091485A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104170374A (zh) * 2012-03-14 2014-11-26 谷歌公司 在视频会议期间修改参与者的外观
CN104871528A (zh) * 2012-08-01 2015-08-26 谷歌公司 在视频会议系统中使用化身
CN105263040A (zh) * 2015-10-08 2016-01-20 安徽理工大学 一种节省手机流量观看球赛直播的方法
CN106165406A (zh) * 2014-04-10 2016-11-23 思科技术公司 视频会议端点中最佳视图分幅的面部检测和运动检测的使用
CN103841358B (zh) * 2012-11-23 2017-12-26 中兴通讯股份有限公司 低码流的视频会议系统及方法、发送端设备、接收端设备

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
US9532069B2 (en) 2004-07-30 2016-12-27 Euclid Discoveries, Llc Video compression repository and model reuse
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US8942283B2 (en) 2005-03-31 2015-01-27 Euclid Discoveries, Llc Feature-based hybrid video codec comparing compression efficiency of encodings
WO2008091484A2 (en) 2007-01-23 2008-07-31 Euclid Discoveries, Llc Object archival systems and methods
JP2010517427A (ja) 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
CA2676219C (en) * 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
CN103475837B (zh) 2008-05-19 2017-06-23 日立麦克赛尔株式会社 记录再现装置及方法
EP2401865B1 (en) 2009-02-27 2020-07-15 Foundation Productions, Llc Headset-based telecommunications platform
US20100306685A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation User movement feedback via on-screen avatars
US8762846B2 (en) * 2009-11-16 2014-06-24 Broadcom Corporation Method and system for adaptive viewport for a mobile device based on viewing angle
US8284157B2 (en) 2010-01-15 2012-10-09 Microsoft Corporation Directed performance in motion capture system
USRE49044E1 (en) * 2010-06-01 2022-04-19 Apple Inc. Automatic avatar creation
EP2538388B1 (en) * 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US9349197B2 (en) * 2011-06-28 2016-05-24 Siemens Aktiengesellschaft Left ventricle epicardium estimation in medical diagnostic imaging
US9088426B2 (en) 2011-12-13 2015-07-21 Google Inc. Processing media streams during a multi-user video conference
WO2013097160A1 (en) * 2011-12-30 2013-07-04 Intel Corporation Interactive media systems
EP2615583B1 (en) * 2012-01-12 2016-04-20 Alcatel Lucent Method and arrangement for 3D model morphing
CN107257403A (zh) 2012-04-09 2017-10-17 英特尔公司 使用交互化身的通信
CN103368929B (zh) * 2012-04-11 2016-03-16 腾讯科技(深圳)有限公司 一种视频聊天方法及系统
US10155168B2 (en) 2012-05-08 2018-12-18 Snap Inc. System and method for adaptable avatars
JP6392497B2 (ja) * 2012-05-22 2018-09-19 コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガニゼーション ビデオを生成するためのシステムおよび方法
TWI478078B (zh) * 2012-05-31 2015-03-21 Senao Networks Inc A motion detection device and a motion detection method
KR101988279B1 (ko) 2013-01-07 2019-06-12 삼성전자 주식회사 얼굴 인식 기반 사용자 기능 운용 방법 및 이를 지원하는 단말기
TWI583198B (zh) * 2013-04-08 2017-05-11 英特爾公司 使用互動化身的通訊技術
JP6287335B2 (ja) * 2014-02-28 2018-03-07 株式会社リコー 端末装置、情報処理システム、情報送信方法及びプログラム
US9621917B2 (en) 2014-03-10 2017-04-11 Euclid Discoveries, Llc Continuous block tracking for temporal prediction in video encoding
US10091507B2 (en) 2014-03-10 2018-10-02 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US10097851B2 (en) 2014-03-10 2018-10-09 Euclid Discoveries, Llc Perceptual optimization for model-based video encoding
US9830728B2 (en) 2014-12-23 2017-11-28 Intel Corporation Augmented facial animation
WO2017101094A1 (en) 2015-12-18 2017-06-22 Intel Corporation Avatar animation system
US10339365B2 (en) 2016-03-31 2019-07-02 Snap Inc. Automated avatar generation
US10432559B2 (en) 2016-10-24 2019-10-01 Snap Inc. Generating and displaying customized avatars in electronic messages
US10423821B2 (en) * 2017-10-25 2019-09-24 Microsoft Technology Licensing, Llc Automated profile image generation based on scheduled video conferences
US10600230B2 (en) 2018-08-10 2020-03-24 Sheng-Yen Lin Mesh rendering system, mesh rendering method and non-transitory computer readable medium
US10904488B1 (en) 2020-02-20 2021-01-26 International Business Machines Corporation Generated realistic representation of video participants
US11095857B1 (en) * 2020-10-20 2021-08-17 Katmai Tech Holdings LLC Presenter mode in a three-dimensional virtual conference space, and applications thereof
US11937014B2 (en) * 2022-03-17 2024-03-19 Lenovo (Singapore) Pte. Ltd. Permitting devices to change settings related to outbound audio/video streamed from another device as part of video conference

Family Cites Families (164)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH082107B2 (ja) * 1990-03-02 1996-01-10 国際電信電話株式会社 動画像のハイブリッド符号化方法及びその装置
JP2606523B2 (ja) 1992-02-28 1997-05-07 日本ビクター株式会社 予測符号化装置及び復号化装置
US5592228A (en) 1993-03-04 1997-01-07 Kabushiki Kaisha Toshiba Video encoder using global motion estimation and polygonal patch motion estimation
JP2534617B2 (ja) * 1993-07-23 1996-09-18 株式会社エイ・ティ・アール通信システム研究所 人物像の実時間認識合成方法
US5710590A (en) * 1994-04-15 1998-01-20 Hitachi, Ltd. Image signal encoding and communicating apparatus using means for extracting particular portions of an object image
JPH07288789A (ja) * 1994-04-15 1995-10-31 Hitachi Ltd 知的符号化装置及び画像通信装置
KR100235343B1 (ko) * 1994-12-29 1999-12-15 전주범 영역분할 기법을 이용한 동영상신호 부호화기의 움직임 벡터 측정장치
JP2739444B2 (ja) * 1995-03-01 1998-04-15 株式会社エイ・ティ・アール通信システム研究所 3次元モデルによる動き生成装置
JP2727066B2 (ja) * 1995-03-20 1998-03-11 株式会社エイ・ティ・アール通信システム研究所 可塑性物体特徴検出装置
KR0171151B1 (ko) * 1995-03-20 1999-03-20 배순훈 곡률 계산 기법을 이용한 이미지 윤곽 근사화 장치
AU711488B2 (en) 1995-09-12 1999-10-14 Koninklijke Philips Electronics N.V. Hybrid waveform and model-based encoding and decoding of image signals
US5825929A (en) * 1995-10-05 1998-10-20 Microsoft Corporation Transformation block optimization method
US5774591A (en) * 1995-12-15 1998-06-30 Xerox Corporation Apparatus and method for recognizing facial expressions and facial gestures in a sequence of images
US5969755A (en) * 1996-02-05 1999-10-19 Texas Instruments Incorporated Motion based event detection system and method
US6037988A (en) 1996-03-22 2000-03-14 Microsoft Corp Method for generating sprites for object-based coding sytems using masks and rounding average
US6614847B1 (en) 1996-10-25 2003-09-02 Texas Instruments Incorporated Content-based video compression
US6088484A (en) 1996-11-08 2000-07-11 Hughes Electronics Corporation Downloading of personalization layers for symbolically compressed objects
US6044168A (en) 1996-11-25 2000-03-28 Texas Instruments Incorporated Model based faced coding and decoding using feature detection and eigenface coding
US6047088A (en) 1996-12-16 2000-04-04 Sharp Laboratories Of America, Inc. 2D mesh geometry and motion vector compression
US5826165A (en) 1997-01-21 1998-10-20 Hughes Electronics Corporation Advertisement reconciliation system
US5991447A (en) 1997-03-07 1999-11-23 General Instrument Corporation Prediction and coding of bi-directionally predicted video object planes for interlaced digital video
IL122194A0 (en) 1997-11-13 1998-06-15 Scidel Technologies Ltd Method and apparatus for personalized images inserted into a video stream
US6061400A (en) 1997-11-20 2000-05-09 Hitachi America Ltd. Methods and apparatus for detecting scene conditions likely to cause prediction errors in reduced resolution video decoders and for using the detected information
US6625316B1 (en) * 1998-06-01 2003-09-23 Canon Kabushiki Kaisha Image processing apparatus and method, and image processing system
JP3413720B2 (ja) 1998-06-26 2003-06-09 ソニー株式会社 画像符号化方法及び装置、並びに画像復号方法及び装置
US6711278B1 (en) 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US6256423B1 (en) 1998-09-18 2001-07-03 Sarnoff Corporation Intra-frame quantizer selection for video compression
US7124065B2 (en) * 1998-10-26 2006-10-17 Speech Technology And Applied Research Corporation Determining a tangent space and filtering data onto a manifold
US6546117B1 (en) * 1999-06-10 2003-04-08 University Of Washington Video object segmentation using active contour modelling with global relaxation
KR20010108159A (ko) * 1999-01-29 2001-12-07 다니구찌 이찌로오, 기타오카 다카시 화상 특징 부호화 방법 및 화상 검색 방법
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
GB9909362D0 (en) 1999-04-23 1999-06-16 Pace Micro Tech Plc Memory database system for encrypted progarmme material
US6307964B1 (en) * 1999-06-04 2001-10-23 Mitsubishi Electric Research Laboratories, Inc. Method for ordering image spaces to represent object shapes
US6870843B1 (en) * 1999-06-22 2005-03-22 World Multicast.Com, Inc. Self implementing multicast level escalation
US7352386B1 (en) * 1999-06-22 2008-04-01 Microsoft Corporation Method and apparatus for recovering a three-dimensional scene from two-dimensional images
KR100611999B1 (ko) 1999-08-27 2006-08-11 삼성전자주식회사 그리디 알고리듬을 이용한 객체 기반 콰드 트리 메쉬 움직임 보상방법
JP2001100731A (ja) 1999-09-28 2001-04-13 Toshiba Corp オブジェクト映像表示装置
US6792154B1 (en) * 1999-10-07 2004-09-14 World Multicast.com, Inc Video compression system and method using time
US6731813B1 (en) * 1999-10-07 2004-05-04 World Multicast.Com, Inc. Self adapting frame intervals
WO2001041451A1 (en) 1999-11-29 2001-06-07 Sony Corporation Video/audio signal processing method and video/audio signal processing apparatus
JP3694888B2 (ja) 1999-12-03 2005-09-14 ソニー株式会社 復号装置および方法、符号化装置および方法、情報処理装置および方法、並びに記録媒体
US6738424B1 (en) * 1999-12-27 2004-05-18 Objectvideo, Inc. Scene model generation from video for use in video processing
US6574353B1 (en) * 2000-02-08 2003-06-03 University Of Washington Video object tracking using a hierarchy of deformable templates
EP1124379A3 (en) 2000-02-09 2011-08-17 Canon Kabushiki Kaisha Method and apparatus for inhibiting reproduction of parts of a recording
US6661004B2 (en) * 2000-02-24 2003-12-09 Massachusetts Institute Of Technology Image deconvolution techniques for probe scanning apparatus
JP4443722B2 (ja) * 2000-04-25 2010-03-31 富士通株式会社 画像認識装置及び方法
US6731799B1 (en) * 2000-06-01 2004-05-04 University Of Washington Object segmentation with background extraction and moving boundary techniques
US6795875B2 (en) 2000-07-31 2004-09-21 Microsoft Corporation Arbitrating and servicing polychronous data requests in direct memory access
US8005145B2 (en) 2000-08-11 2011-08-23 Nokia Corporation Method and apparatus for transferring video frame in telecommunication system
FR2814312B1 (fr) * 2000-09-07 2003-01-24 France Telecom Procede de segmentation d'une surface image video par objets elementaires
GB2367966B (en) * 2000-10-09 2003-01-15 Motorola Inc Method and apparatus for determining regions of interest in images and for image transmission
JP4310916B2 (ja) * 2000-11-08 2009-08-12 コニカミノルタホールディングス株式会社 映像表示装置
JP2002182961A (ja) 2000-12-13 2002-06-28 Nec Corp データベースの同期化システムとその同期化の方法
EP1518211A2 (en) * 2000-12-22 2005-03-30 Anthropics Technology Limited Image processing system
US20020085633A1 (en) * 2001-01-03 2002-07-04 Kim Hyun Mun Method of performing video encoding rate control
US7061483B2 (en) * 2001-02-08 2006-06-13 California Institute Of Technology Methods for computing barycentric coordinates generalized to irregular n-gons and applications of the same
US6625310B2 (en) * 2001-03-23 2003-09-23 Diamondback Vision, Inc. Video segmentation using statistical pixel modeling
US7043058B2 (en) * 2001-04-20 2006-05-09 Avid Technology, Inc. Correcting motion vector maps for image processing
US20020164068A1 (en) * 2001-05-03 2002-11-07 Koninklijke Philips Electronics N.V. Model switching in a communication system
US6909745B1 (en) 2001-06-05 2005-06-21 At&T Corp. Content adaptive video encoder
US6496217B1 (en) * 2001-06-12 2002-12-17 Koninklijke Philips Electronics N.V. Video communication system using model-based coding and prioritzation techniques
US7003039B2 (en) 2001-07-18 2006-02-21 Avideh Zakhor Dictionary generation method for video and image compression
US7173925B1 (en) 2001-07-18 2007-02-06 Cisco Technology, Inc. Method and system of control signaling for a wireless access network
US7457359B2 (en) 2001-09-26 2008-11-25 Mabey Danny L Systems, devices and methods for securely distributing highly-compressed multimedia content
GB2382289B (en) * 2001-09-28 2005-07-06 Canon Kk Method and apparatus for generating models of individuals
EP1309181A1 (en) 2001-11-06 2003-05-07 Thomson Licensing S.A. Device, method and system for multimedia content adaption
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US20030122966A1 (en) * 2001-12-06 2003-07-03 Digeo, Inc. System and method for meta data distribution to customize media content playback
US7673136B2 (en) * 2002-02-26 2010-03-02 Stewart Ian A Method for secure multicast repeating on the public Internet
JP2003253190A (ja) 2002-03-06 2003-09-10 Kansai Paint Co Ltd 缶内面用水性塗料組成物
US6950123B2 (en) * 2002-03-22 2005-09-27 Intel Corporation Method for simultaneous visual tracking of multiple bodies in a closed structured environment
US7136505B2 (en) * 2002-04-10 2006-11-14 National Instruments Corporation Generating a curve matching mapping operator by analyzing objects of interest and background information
US7203356B2 (en) * 2002-04-11 2007-04-10 Canesta, Inc. Subject segmentation and tracking using 3D sensing technology for video compression in multimedia applications
KR100491530B1 (ko) 2002-05-03 2005-05-27 엘지전자 주식회사 모션 벡터 결정 방법
US7505604B2 (en) 2002-05-20 2009-03-17 Simmonds Precision Prodcuts, Inc. Method for detection and recognition of fog presence within an aircraft compartment using video images
US8752197B2 (en) 2002-06-18 2014-06-10 International Business Machines Corporation Application independent system, method, and architecture for privacy protection, enhancement, control, and accountability in imaging service systems
AU2003280516A1 (en) * 2002-07-01 2004-01-19 The Regents Of The University Of California Digital processing of video images
JP3984191B2 (ja) 2002-07-08 2007-10-03 株式会社東芝 仮想化粧装置及びその方法
US7031499B2 (en) * 2002-07-22 2006-04-18 Mitsubishi Electric Research Laboratories, Inc. Object recognition system
US6925122B2 (en) * 2002-07-25 2005-08-02 National Research Council Method for video-based nose location tracking and hands-free computer input devices based thereon
JP2004356747A (ja) 2003-05-27 2004-12-16 Kddi Corp 画像のマッチング方法および装置
EP1387588A2 (en) 2002-08-02 2004-02-04 KDDI Corporation Image matching device and method for motion estimation
US7120626B2 (en) * 2002-11-15 2006-10-10 Koninklijke Philips Electronics N.V. Content retrieval based on semantic association
KR100455294B1 (ko) 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
WO2004061702A1 (en) 2002-12-26 2004-07-22 The Trustees Of Columbia University In The City Of New York Ordered data compression system and methods
US7003117B2 (en) 2003-02-05 2006-02-21 Voltage Security, Inc. Identity-based encryption system for secure data distribution
US7606305B1 (en) 2003-02-24 2009-10-20 Vixs Systems, Inc. Method and system for transcoding video data
FR2852773A1 (fr) 2003-03-20 2004-09-24 France Telecom Procedes et dispositifs de codage et de decodage d'une sequence d'images par decomposition mouvement/texture et codage par ondelettes
US7574406B2 (en) * 2003-03-31 2009-08-11 Satyam Computer Services Limited Of Mayfair Centre System and method maximizing video license utilization using billboard services
US7184073B2 (en) * 2003-04-11 2007-02-27 Satyam Computer Services Limited Of Mayfair Centre System and method for warning drivers based on road curvature
US7424164B2 (en) * 2003-04-21 2008-09-09 Hewlett-Packard Development Company, L.P. Processing a detected eye of an image to provide visual enhancement
US7956889B2 (en) * 2003-06-04 2011-06-07 Model Software Corporation Video surveillance system
WO2005005602A2 (en) 2003-06-13 2005-01-20 Paradigm Genetics, Inc. Methods for the identification of inhibitors of fumarate reductase and vacuolar protein sorting-associated protein as antibiotics
US7415527B2 (en) * 2003-06-13 2008-08-19 Satyam Computer Services Limited Of Mayfair Centre System and method for piecewise streaming of video using a dedicated overlay network
US7603022B2 (en) 2003-07-02 2009-10-13 Macrovision Corporation Networked personal video recording system
US7454431B2 (en) 2003-07-17 2008-11-18 At&T Corp. Method and apparatus for window matching in delta compressors
US7383180B2 (en) 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
KR100682889B1 (ko) * 2003-08-29 2007-02-15 삼성전자주식회사 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치
KR20050040712A (ko) 2003-10-28 2005-05-03 삼성전자주식회사 명령어 기반 그래픽 출력 가속 기능이 포함된 2차원그래픽 디코더, 그 그래픽 출력 가속 방법 및 영상 재생장치
WO2005055602A1 (en) 2003-12-04 2005-06-16 Telefonaktiebolaget Lm Ericsson (Publ) Video application node
US7535515B2 (en) 2003-12-23 2009-05-19 Ravi Ananthapur Bacche Motion detection in video signals
WO2005081178A1 (en) 2004-02-17 2005-09-01 Yeda Research & Development Co., Ltd. Method and apparatus for matching portions of input images
US7447331B2 (en) 2004-02-24 2008-11-04 International Business Machines Corporation System and method for generating a viewable video index for low bandwidth applications
WO2006002299A2 (en) 2004-06-22 2006-01-05 Sarnoff Corporation Method and apparatus for recognizing 3-d objects
US7158680B2 (en) * 2004-07-30 2007-01-02 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457435B2 (en) * 2004-11-17 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US9743078B2 (en) 2004-07-30 2017-08-22 Euclid Discoveries, Llc Standards-compliant model-based video encoding and decoding
US7436981B2 (en) * 2005-01-28 2008-10-14 Euclid Discoveries, Llc Apparatus and method for processing video data
US7457472B2 (en) * 2005-03-31 2008-11-25 Euclid Discoveries, Llc Apparatus and method for processing video data
US9578345B2 (en) 2005-03-31 2017-02-21 Euclid Discoveries, Llc Model-based video encoding and decoding
US7508990B2 (en) * 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
US8902971B2 (en) 2004-07-30 2014-12-02 Euclid Discoveries, Llc Video compression repository and model reuse
US8724891B2 (en) 2004-08-31 2014-05-13 Ramot At Tel-Aviv University Ltd. Apparatus and methods for the detection of abnormal motion in a video stream
EP1800238A4 (en) 2004-09-21 2012-01-25 Euclid Discoveries Llc APPARATUS AND METHOD FOR PROCESSING VIDEO DATA
JP2008521347A (ja) 2004-11-17 2008-06-19 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
US7623676B2 (en) 2004-12-21 2009-11-24 Sarnoff Corporation Method and apparatus for tracking objects over a wide area using a network of stereo sensors
US7715597B2 (en) 2004-12-29 2010-05-11 Fotonation Ireland Limited Method and component for image recognition
WO2006083567A1 (en) 2005-01-28 2006-08-10 Euclid Discoveries, Llc Apparatus and method for processing video data
AU2006230545B2 (en) 2005-03-31 2010-10-28 Euclid Discoveries, Llc Apparatus and method for processing video data
US8942283B2 (en) * 2005-03-31 2015-01-27 Euclid Discoveries, Llc Feature-based hybrid video codec comparing compression efficiency of encodings
US20060274949A1 (en) 2005-06-02 2006-12-07 Eastman Kodak Company Using photographer identity to classify images
WO2007007257A1 (en) * 2005-07-13 2007-01-18 Koninklijke Philips Electronics N.V. Processing method and device with video temporal up-conversion
US7672306B2 (en) * 2005-07-18 2010-03-02 Stewart Ian A Method for secure reliable point to multi-point bi-directional communications
US8867618B2 (en) 2005-07-22 2014-10-21 Thomson Licensing Method and apparatus for weighted prediction for scalable video coding
JP2007038873A (ja) 2005-08-03 2007-02-15 Nissan Motor Co Ltd 車両用スライドドア装置
US7689021B2 (en) 2005-08-30 2010-03-30 University Of Maryland, Baltimore Segmentation of regions in measurements of a body based on a deformable model
JP2009507412A (ja) 2005-09-01 2009-02-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ビデオ誤り耐性の符号化/復号に関する方法及び装置
JP4654864B2 (ja) 2005-09-30 2011-03-23 パナソニック株式会社 プラズマディスプレイパネルの製造方法
US8019170B2 (en) 2005-10-05 2011-09-13 Qualcomm, Incorporated Video frame motion-based automatic region-of-interest detection
US20070153025A1 (en) 2005-12-29 2007-07-05 Mitchell Owen R Method, apparatus, and system for encoding and decoding a signal on a viewable portion of a video
US8150155B2 (en) 2006-02-07 2012-04-03 Qualcomm Incorporated Multi-mode region-of-interest video object segmentation
US7630522B2 (en) * 2006-03-08 2009-12-08 Microsoft Corporation Biometric measurement using interactive display systems
US20070248194A1 (en) 2006-04-19 2007-10-25 Wei Lu Method of detecting a predetermined sequence in an RF signal using a combination of correlation and FFT
JP2009540675A (ja) 2006-06-08 2009-11-19 ユークリッド・ディスカバリーズ・エルエルシー ビデオデータを処理する装置および方法
WO2008091484A2 (en) 2007-01-23 2008-07-31 Euclid Discoveries, Llc Object archival systems and methods
US20080027917A1 (en) 2006-07-31 2008-01-31 Siemens Corporate Research, Inc. Scalable Semantic Image Search
KR101267178B1 (ko) 2006-09-30 2013-05-24 톰슨 라이센싱 비디오에 대하여 색 인핸스먼트 계층을 인코딩 및 디코딩하기 위한 방법 및 디바이스
BRPI0716957A2 (pt) 2006-10-13 2013-10-29 Thomson Licensing Sintaxe de gerenciamento de lista de imagens de referência para codificação de vídeo de múltiplas vistas
US8044989B2 (en) * 2006-12-12 2011-10-25 General Instrument Corporation Mute function for video applications
EP2105029A2 (en) 2006-12-15 2009-09-30 Thomson Licensing Distortion estimation
JP2010517427A (ja) 2007-01-23 2010-05-20 ユークリッド・ディスカバリーズ・エルエルシー 個人向けのビデオサービスを提供するシステムおよび方法
CA2676219C (en) 2007-01-23 2017-10-24 Euclid Discoveries, Llc Computer method and apparatus for processing image data
JP2008235383A (ja) 2007-03-19 2008-10-02 Fuji Electric Device Technology Co Ltd Mos型半導体装置およびその製造方法
KR101366242B1 (ko) 2007-03-29 2014-02-20 삼성전자주식회사 움직임 모델 파라메터의 부호화, 복호화 방법 및 움직임모델 파라메터를 이용한 영상의 부호화, 복호화 방법 및장치
US8036464B2 (en) * 2007-09-07 2011-10-11 Satyam Computer Services Limited System and method for automatic segmentation of ASR transcripts
US8065293B2 (en) 2007-10-24 2011-11-22 Microsoft Corporation Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
US8091109B2 (en) 2007-12-18 2012-01-03 At&T Intellectual Property I, Lp Set-top box-based TV streaming and redirecting
JP4618328B2 (ja) 2008-05-14 2011-01-26 ソニー株式会社 固体撮像素子およびその駆動方法並びにカメラシステム
US8140550B2 (en) * 2008-08-20 2012-03-20 Satyam Computer Services Limited Of Mayfair Centre System and method for bounded analysis of multimedia using multiple correlations
US8065302B2 (en) * 2008-08-27 2011-11-22 Satyam Computer Services Limited System and method for annotation aggregation
US8086692B2 (en) * 2008-08-27 2011-12-27 Satyam Computer Services Limited System and method for efficient delivery in a multi-source, multi destination network
US8259794B2 (en) 2008-08-27 2012-09-04 Alexander Bronstein Method and system for encoding order and frame type selection optimization
US8090670B2 (en) * 2008-09-19 2012-01-03 Satyam Computer Services Limited System and method for remote usage modeling
US8392942B2 (en) 2008-10-02 2013-03-05 Sony Corporation Multi-coded content substitution
US8386318B2 (en) * 2008-12-30 2013-02-26 Satyam Computer Services Ltd. System and method for supporting peer interactions
US8774534B2 (en) 2009-04-08 2014-07-08 Watchitoo, Inc. System and method for image compression
US8068677B2 (en) * 2009-08-25 2011-11-29 Satyam Computer Services Limited System and method for hierarchical image processing
US8848802B2 (en) 2009-09-04 2014-09-30 Stmicroelectronics International N.V. System and method for object based parametric video coding
US20110087703A1 (en) * 2009-10-09 2011-04-14 Satyam Computer Services Limited Of Mayfair Center System and method for deep annotation and semantic indexing of videos
US8687891B2 (en) 2009-11-19 2014-04-01 Stanford University Method and apparatus for tracking and recognition with rotation invariant feature descriptors
US8290038B1 (en) 2009-11-30 2012-10-16 Google Inc. Video coding complexity estimation
US9313465B2 (en) 2010-06-07 2016-04-12 Thomson Licensing Learned transform and compressive sensing for video coding
US20130170564A1 (en) 2010-09-10 2013-07-04 Thomson Licensing Encoding of a picture in a video sequence by example-based data pruning using intra-frame patch similarity

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104170374A (zh) * 2012-03-14 2014-11-26 谷歌公司 在视频会议期间修改参与者的外观
CN104871528A (zh) * 2012-08-01 2015-08-26 谷歌公司 在视频会议系统中使用化身
CN104871528B (zh) * 2012-08-01 2018-03-13 谷歌有限责任公司 在视频会议系统中使用化身
CN103841358B (zh) * 2012-11-23 2017-12-26 中兴通讯股份有限公司 低码流的视频会议系统及方法、发送端设备、接收端设备
CN106165406A (zh) * 2014-04-10 2016-11-23 思科技术公司 视频会议端点中最佳视图分幅的面部检测和运动检测的使用
CN106165406B (zh) * 2014-04-10 2019-07-26 思科技术公司 视频会议端点中最佳视图分幅的面部检测和运动检测的使用
CN105263040A (zh) * 2015-10-08 2016-01-20 安徽理工大学 一种节省手机流量观看球赛直播的方法

Also Published As

Publication number Publication date
US8842154B2 (en) 2014-09-23
US8243118B2 (en) 2012-08-14
US20120281063A1 (en) 2012-11-08
CA2676023A1 (en) 2008-07-31
TW200841736A (en) 2008-10-16
EP2106664A2 (en) 2009-10-07
US20150124045A1 (en) 2015-05-07
CN102685441A (zh) 2012-09-19
WO2008091485A2 (en) 2008-07-31
US20100073458A1 (en) 2010-03-25
CA2676023C (en) 2015-11-17
WO2008091485A3 (en) 2008-11-13
CN101622876B (zh) 2012-05-30
JP2010517427A (ja) 2010-05-20

Similar Documents

Publication Publication Date Title
CN101622876B (zh) 用于提供个人视频服务的系统和方法
JP5859111B2 (ja) 対象オブジェクトベースの画像処理
US9030486B2 (en) System and method for low bandwidth image transmission
WO2021229415A1 (en) Method and system for virtual 3d communications
CA2675957C (en) Object archival systems and methods
JP4335449B2 (ja) 表情の3dジオメトリ、色、およびシェーディングを取り込んで表すための方法およびシステム
US20030235338A1 (en) Transmission of independently compressed video objects over internet protocol
US11568646B2 (en) Real-time video dimensional transformations of video for presentation in mixed reality-based virtual spaces
WO2024078243A1 (zh) 视频生成模型的训练方法、装置、存储介质及计算机设备
US20230146178A1 (en) Attention based audio adjustment in virtual environments
Tao et al. Compression of MPEG-4 facial animation parameters for transmission of talking heads
Turaga et al. Model-based error concealment for wireless video
KR20230107878A (ko) 적응적 얼굴 재현 및 얼굴 복원에 기반한 비디오 화상회의
Duan et al. Multimedia semantic communications: Representation, encoding and transmission
Li et al. SAD360: Spherical Viewport-Aware Dynamic Tiling for 360-Degree Video Streaming
EP4329301A1 (en) System and method for transmission and receiving of image frames
WO2024093627A1 (zh) 一种视频压缩方法、视频解码方法和相关装置
US20240137467A1 (en) Immersive Teleconferencing within Shared Scene Environments
Wang Low-Latency Adaptive Media Streaming: From 2D to 6-DoF
Wang et al. SVMFI: speaker video multi-frame interpolation with the guidance of audio
WO2022238908A2 (en) Method and system for virtual 3d communications
Yao et al. Initialization of Model Based Coding for Customizing Networked Conference Video
Chang et al. Video realistic avatar for virtual face-to-face conferencing
Yun et al. Advanced framework for an error-resilient parameter analysis-synthesis system of facial animation
CN117178294A (zh) 使用具有一般拓扑结构的图进行基于图集采样的网格压缩

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20200104