CN101305618A

CN101305618A - 接收包括音频帧和视频帧的多媒体信号的方法

Info

Publication number: CN101305618A
Application number: CNA2006800420001A
Authority: CN
Inventors: 菲利普·让特里克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-12
Filing date: 2006-09-08
Publication date: 2008-11-12
Also published as: JP2009508386A; EP1927252A2; US20080273116A1; WO2007031918A2; WO2007031918A3

Abstract

本发明涉及一种在通信设备中接收多媒体信号的方法，所述多媒体信号至少包括视频帧(VF)序列和与其相关的音频帧(AF)序列。所述方法包括下述步骤：处理(21)和显示(25)所述音频帧序列和视频帧序列，对音频帧进行缓冲(24)以便延迟它们，检测(22)在将要显示的视频帧中是否包括说话人的脸，选择(23)其中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式(m1)和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式(m2)，如果已经检测到人脸，则选择第一显示模式，否则选择第二显示模式。

Description

接收包括音频帧和视频帧的多媒体信号的方法

技术领域

本发明涉及在通信设备上接收多媒体信号的方法，所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列。

本发明还涉及一种执行这种方法的通信设备。

本发明的典型应用例如是可视电话(全双工)和Push-To-Show业务(半双工)。

背景技术

由于编码技术(例如根据MPEG-4编码标准)，视频编码和解码比音频编码和解码花费更多的时间来处理。这起因于用于视频的时间预测(编码器和解码器使用一个或者多个图象作为参考)和帧周期：一个典型的音频编解码器每20毫秒产生一个帧，而视频是以10帧/秒的速率，相当于每100毫秒一帧。

其结果是，为了保持紧密同步，即所谓的声象同步(Lip-sync)，需要在音频/视频接收器中对音频帧缓冲一个等于所述视频帧的附加处理时间的时长，以便音频和视频帧最终被同时再现。执行声象同步的方法例如见诸于实时传输协议RTP(请求注解RFC 3550)。

这种音频缓冲反过来会引发额外的延迟，所述延迟会恶化通信质量，因为众所周知这种延迟(即在接收器端再生信号需要花费的时间)必须尽可能小。

发明内容

本发明的目的是提供一种接收包括音频和视频帧的多媒体信号的方法，所述方法在音频/视频显示质量和通信质量之间会提供较好的折中。

为此，根据本发明的方法的特征在于它包括下述步骤：

-处理和显示所述音频帧序列和视频帧序列，

-对音频帧进行缓冲以便延迟它们，

-检测在将要显示的视频帧中是否包括视频事件，

-选择其中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式，如果已经检测到视频事件，则选择第一显示模式，否则选择第二显示模式。

因此，根据本发明的方法提出两种显示模式：同步lip-sync模式(即第一模式)和非同步模式(即第二模式)，当已经检测到一个相关视频事件(例如说话人的脸)时，即当确实需要紧密同步时，选择所述同步模式。

根据本发明的一个实施例，所述检测步骤包括人脸识别和跟踪步骤。有利地，所述人脸识别和跟踪步骤包括识别所述被测人脸是否正在说话的嘴唇运动检测子步骤。另外，所述人脸识别和跟踪步骤还包括使嘴唇运动与所述音频帧匹配的子步骤。所述人脸识别和跟踪步骤可以基于肤色分析。所述缓冲步骤可以包括一个动态自适应音频缓冲子步骤，其中当从第一显示模式进入第二显示模式时，加快音频帧的显示以便减少被缓冲的音频数据量。

本发明还扩展为一种用于接收多媒体信号的通信设备，所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列，所述通信设备包括：

-数据处理机，用于处理和显示所述音频帧序列和视频帧序列，

-用于延迟音频帧的缓冲器，

-信令装置，用于指示在将要显示的视频帧中是否包括视频事件，

所述数据处理机适用于选择以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式，如果已经用信号通知了视频事件，则选择第一显示模式，否则选择第二显示模式。

根据本发明的一个实施例，所述信令装置包括两个照相机，并且所述数据处理机适用于根据正在使用的照相机来选择所述显示模式。

根据本发明的另一个实施例，所述信令装置包括一个旋转式照相机，并且所述数据处理机适用于根据所述旋转式照相机的位置来选择所述显示模式。

根据本发明的再一个实施例，所述信令装置适用于从所述接收的多媒体信号中提取将被选择的显示模式。

本发明的这些和其它方面通过之后所述的实施例将是显而易见的，并将参照这样的实施例对其进行说明。

附图说明

现在将参照附图借助例子更详细地说明本发明，其中：

图1表示根据本发明一个实施例的通信设备；

图2为根据本发明的接收包括音频和视频帧的多媒体信号的方法的方框图。

具体实施方式

本发明涉及一种用于接收对应于多媒体数据内容的比特流的方法和装置。这种多媒体数据内容至少包括视频帧序列和与其相关的音频帧序列。所述视频帧和音频帧序列已经被数据内容服务器打包和发送。然后在所述接收装置上对最终的比特流进行处理(例如解码)和显示。

参考附图的图1，其描绘了根据本发明的一个示范实施例的通信设备10。该通信设备是无绳电话或移动电话。然而，对本领域技术人员来说显而易见的是，所述通信设备可以是另外的设备，例如个人数字助理(PDA)、照相机等等。所述无绳或移动电话包括壳体16，其包括按键输入部分11，所述按键输入部分11包括用于拨号盘输入和其它功能的若干按键开关12。在所述按键输入部分11上方布置有一个显示单元13。位于电话10的相对端上的麦克风14和扬声器15被提供分别用于从周围区域接收音频信号和发送来自电信网络的音频信号。

其外透镜可见的照相机单元17在显示单元13上方被加入到电话10中。该照相机单元能够拍摄显示有关被呼叫者的信息(例如他的脸)的画面。为了实现这种视频发送/接收，电话10包括音频和视频编解码器，即编码器和解码器(未表示)。举例来说，所述视频编解码器是基于MPEG 4或H.263视频编码/解码标准。类似地，所述音频编解码器是例如基于MPEG-AAC或G.729音频编码/解码标准。照相机单元17相对于电话10的壳体16被旋转安装。可选择的，所述电话可以在所述壳体的相对侧上包括两个照相机单元。

根据本发明的通信设备适用于执行至少两种不同的显示模式：

-第一显示模式，之后称为“声象同步模式”，根据该模式在音频路径上设置一个延迟以便在音频和视频帧之间产生理想的同步；

-第二显示模式，下文称作“快速模式”，根据该显示模式在音频处理路径上不设置额外的延迟。

该第二模式从延迟管理的角度看会产生较好的通信，但是不同步可能是一个问题，特别是当说话人的脸正在视频帧上时。

本发明提出一种用于在声象同步模式和快速模式之间自动切换的机制。本发明基于下面的事实：当视频帧显示了在会话中正在交谈的人的脸时主要需要紧密同步。这就是为什么紧密同步被称之为“声象同步”的原因。因为人脑使用音频和唇读来领会发言，所以对声音和嘴唇运动之间的音频视频分岐极端敏感。

参考附图的图2，根据本发明的方法包括用于提取音频和视频信号和用于对它们进行解码的处理步骤PROC(21)。

还包括检测步骤DET(22)，以便检测在将要显示的视频帧中是否有说话人的脸。

如果检测到这种脸，在选择步骤期间选择声象同步模式m1；如果没有检测到这种脸，则选择快速模式m2。

如果选择声象同步模式m1，则通过缓冲步骤BUF(24)以使得音频帧序列和视频帧序列同步这样的方式对所述音频帧进行延迟。

最后，在显示步骤DIS(25)期间显示音频帧序列和视频帧序列。

所述检测步骤是例如基于现有的人脸识别和跟踪技术。这些技术通常例如被用于自动照相机聚焦和稳定/跟踪，并且在这儿提出使用它们以便检测在视频帧中是否有人脸。

根据一个示例，所述人脸检测和跟踪步骤是基于肤色分析，其中所述视频帧的色度值被分析和其中皮肤被认为具有处于一个特定的色度范围中的色度值。更详细地，肤色分级和形态学分割被用于检测第一帧中的人脸。这种被测人脸通过使用人脸在第一帧中的位置作为标志和对所述局部区域中的皮肤进行检测在随后的帧上被跟踪。该方案的特殊优点是肤色分析方法是简单和强大的。这种人脸检测和跟踪步骤例如见诸于P.Kuchi，P.Gabbur，P.S.Bhat，S.David在IETEJournal of Research上发表的″Human Face Detection and Trackingusing Skin Color Modeling and Connected Component Operators″(卷38，No.3&4，第289-293页，2002年5-8月)。

根据另一个示例，所述人脸检测和跟踪步骤是基于动态规划。在此情况中，所述人脸检测步骤包括使用迭代动态规划以便检测人脸的特定部分(例如嘴唇、眼、鼻或耳朵)的快速模板匹配程序。所述人脸检测算法被设计用于正面人脸，但也可以将其用于利用联机适配人脸模型来跟踪非正面人脸。这种人脸检测和跟踪步骤例如见诸于ZhuLiu和Yao Wang在ICIPOO上发表的″Face detection and trackingin video using dynamic programming″(卷I，第53-56页，2000年10月)。

本领域技术人员显而易见的是，本发明并不限于上述的人脸检测和跟踪步骤并且可基于其它方案，诸如例如基于神经网络的方案。

有利地，所述人脸检测和跟踪步骤能够提供所述检测的人脸正在交谈的可能性。为此，所述人脸检测和跟踪步骤包括能够识别所述检测的人脸是否正在交谈的嘴唇运动检测子步骤。另外，可使嘴唇运动与音频信号相匹配，在这样的情况下能够产生所述视频中的人脸是正在说话的人的肯定识别。为此，所述嘴唇运动检测子步骤能够部分地或完全地读取所述嘴唇和通过使嘴唇运动与音频信号匹配来检测视频中的人是否为正在说话的人。

这种嘴唇运动检测子步骤是例如基于动态轮廓跟踪。更详细地，嘴唇跟踪器使用基于卡尔曼滤波器的动态轮廓来跟踪嘴唇的轮廓。可以使用两个可选的嘴唇跟踪器，一个用于从侧视图跟踪嘴唇，另一个从前部视图跟踪嘴唇，所述两个嘴唇跟踪器适合于从嘴唇轮廓提取可见的语音识别特征。这种嘴唇运动检测子步骤例如见诸于RobertKaucic、Barney Dalton和Andrew Blake在Proc.European Conf.Computer Vision中发表的″Real-Time Lip Tracking forAudio-Visual Speech Recognition Applications″(第376-387页，英国剑桥，1996年)。

已经针对人脸检测和跟踪说明了选择将要选择的显示模式(即声象同步模式或快速模式)的过程。然而，本领域技术人员显而易见的是，本发明决不限制于该具体的实施例。例如，检测将要选择的显示模式的方法可以基于被具有两个照相机的装置(例如电话)使用的照相机的检测，所述两个照相机中一个照相机面向用户，另一个照相机面向相反的方向。可选择的，检测将要选择的显示模式的方法是基于用于设备的照相机的旋转角，该设备只包括一个可旋转的照相机和用于检测所述旋转式照相机的旋转角的装置。

根据本发明的另一个实施例，所述检测可以在发送器一侧进行，并且所述发送器可以发信号通知正在发送一个应该在声象同步模式下再现的视频序列。在一对多通信中有利的是，计算人脸检测的负担只是针对所述发送器，由此节省了用于可能多的接收器的资源(电池寿命，等等)。为此，除了所述音频和视频帧之外，所述将要发送的多媒体比特流还包括指示应该使用哪种模式来在接收器上显示多媒体内容的标志。在发送侧进行检测的另一个优点是将它与照相机稳定和聚焦功能相结合，所述照相机稳定和聚焦功能对于手持装置(例如移动可视电话)是必需的。

应当注意，如果在接收器一侧进行检测，则它可以是一个附加特征，所述附加特征可通过手动装置和用户偏好生效。

为了尽可能短的保持端到端延迟，根据本发明一个实施例的方法包括动态自适应音频缓冲步骤。音频缓冲器根据网络不稳定可以引起缓冲器下溢的约束被保持的尽可能小，所述下溢会产生音频失真。这只有在快速模式中才是可能的，因为它需要具有一种方法来改变声音的间隔以比实际时间快或慢来播放。本发明的该特定实施例的一个优点是该动态缓冲器管理可用于管理显示模式之间的转换，具体地：

-当从快速模式变成声象同步模式时，声音的重放被减慢，使得音频数据在缓冲器中进行累积；

-当从声象同步模式变成快速模式时，声音的重放比实时快，使得在缓冲器中的音频数据量被减小。

上面已经针对两种显示模式的选择对本发明进行了说明，但是本领域技术人员显而易见的是还可以提供额外的模式。例如，能使用称为“缓慢模式”的第三模式。所述缓慢模式对应于基于所谓的“Natural Motion(固有运动)”的额外后处理，根据所述额外后处理，在时间t处的当前视频帧从在时间t-1处的过去视频帧和在时间t+1处的下一个视频帧处被插入。这种缓慢模式改进了视频质量，但增加了音频和视频之间的延迟。因此，该第三模式更适合于在将要显示的视频帧中不存在说话人的脸的情形。

上面已经针对说话人脸的检测说明了本发明，但本领域技术人员显而易见的是，倘若响应这种视频事件的检测在视频帧序列和音频帧序列之间需要紧密同步，本发明的原理还可被推广为检测其它视频事件。举例来说，所述视频事件可以对应于正在合唱中歌唱、根据给出的音乐跳舞、或者用它们的手鼓掌的几个人。为了被检测，所述视频事件需要是周期的或伪周期的。这种周期视频事件的检测例如见诸于Yan Ke、Rahul Sukthankar Martial Hebert发表的标题为″Efficient Visual Event Detection using Volumetric Features″的论文(iccv2005)。更详细地，该论文研究了使用容积特征作为用于在视频序列中进行事件检测的流行的局部描述符方法的可选择方案。为此，2D盒体特征的概念被推广为3D空间与时间的容积特征。因此通过基于以空间和时间有效地扫描视频序列的容积特征弄清楚滤波器的级联而对感兴趣的每个动作构成一个实时事件检测器。所述事件检测器适合于人类动作类别的相关任务，并且适合于检测例如手鼓掌的动作。

应该注意上述实施例仅仅是阐释而非限制本发明，在不脱离所附权利要求所定义的本发明的范围的情况下，本领域技术人员将能够设计许多替换实施例。在权利要求中，被放在括号中间的任何参考符号不应该理解为限制权利要求。单词“包括”和“包含”等并不排除存在任何权利要求或说明书作为一个整体中所列举的那些之外的其它元件或步骤。一个元件的单个参考并不排除这种元件的多数参考，并且反之亦然。

本发明可以借助于包括若干不同元件的硬件和/或借助于适当编程的处理器来执行。在列举了若干构件的装置权利要求中，这些构件的若干个能够通过一个并且相同项的硬件来实行。在互相不同的从属权利要求中列举的某些措施这样的纯粹事实并不表示这些措施的组合不能被有利的使用。

Claims

1.一种在通信设备(10)中接收多媒体信号的方法，所述多媒体信号至少包括视频帧(VF)序列和与其相关的音频帧(AF)序列，所述方法包括下述步骤：

-处理(21)和显示(25)所述音频帧序列和视频帧序列，

-对音频帧进行缓冲(24)以便延迟它们，

-检测(22)在将要显示的视频帧中是否包括视频事件，

-对第一显示模式(m1)和第二显示模式(m2)进行选择(23)，其中在所述第一显示模式(m1)中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟，在所述第二显示模式(m2)中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列，如果已经检测到视频事件，则选择第一显示模式，否则选择第二显示模式。

2.如权利要求1所述的方法，其中所述检测步骤(22)包括人脸识别和跟踪步骤。

3.如权利要求2所述的方法，其中所述人脸识别和跟踪步骤包括识别被测人脸是否正在说话的嘴唇运动检测子步骤。

4.如权利要求3所述的方法，其中所述人脸识别和跟踪步骤还包括将嘴唇运动与音频帧匹配的子步骤。

5.如权利要求2所述的方法，其中所述人脸识别和跟踪步骤是基于肤色分析进行的。

6.如权利要求1所述的方法，其中所述缓冲步骤包括动态自适应音频缓冲子步骤，其中当从第一显示模式进入第二显示模式时，加快音频帧的显示以便减少被缓冲的音频数据量。

7.一种用于接收多媒体信号的通信设备(10)，所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列，所述通信设备包括：

-缓冲器，用于延迟音频帧，

所述数据处理机适用于对第一显示模式和第二显示模式进行选择，其中在所述第一显示模式中通过所述缓冲器以使所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟，在所述第二显示模式中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列，如果已经用信号通知了视频事件，则选择第一显示模式，否则选择第二显示模式。

8.如权利要求7所述的通信设备，其中所述信令装置包括两个照相机，并且其中所述数据处理机适用于根据正被使用的照相机来选择所述显示模式。

9.如权利要求7所述的通信设备，其中所述信令装置包括一个旋转式照相机，并且其中所述数据处理机适用于根据所述旋转式照相机的位置来选择所述显示模式。

10.如权利要求7所述的通信设备，其中所述信令装置适用于从所述接收的多媒体信号中提取将要选择的显示模式。

11.如权利要求7所述的通信设备，其中所述信令装置包括人脸识别和跟踪装置。