CN101305618A - 接收包括音频帧和视频帧的多媒体信号的方法 - Google Patents

接收包括音频帧和视频帧的多媒体信号的方法 Download PDF

Info

Publication number
CN101305618A
CN101305618A CNA2006800420001A CN200680042000A CN101305618A CN 101305618 A CN101305618 A CN 101305618A CN A2006800420001 A CNA2006800420001 A CN A2006800420001A CN 200680042000 A CN200680042000 A CN 200680042000A CN 101305618 A CN101305618 A CN 101305618A
Authority
CN
China
Prior art keywords
video
sequence
display mode
audio frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800420001A
Other languages
English (en)
Inventor
菲利普·让特里克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101305618A publication Critical patent/CN101305618A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4392Processing of audio elementary streams involving audio buffer management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Receiver Circuits (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种在通信设备中接收多媒体信号的方法,所述多媒体信号至少包括视频帧(VF)序列和与其相关的音频帧(AF)序列。所述方法包括下述步骤:处理(21)和显示(25)所述音频帧序列和视频帧序列,对音频帧进行缓冲(24)以便延迟它们,检测(22)在将要显示的视频帧中是否包括说话人的脸,选择(23)其中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式(m1)和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式(m2),如果已经检测到人脸,则选择第一显示模式,否则选择第二显示模式。

Description

接收包括音频帧和视频帧的多媒体信号的方法
技术领域
本发明涉及在通信设备上接收多媒体信号的方法,所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列。
本发明还涉及一种执行这种方法的通信设备。
本发明的典型应用例如是可视电话(全双工)和Push-To-Show业务(半双工)。
背景技术
由于编码技术(例如根据MPEG-4编码标准),视频编码和解码比音频编码和解码花费更多的时间来处理。这起因于用于视频的时间预测(编码器和解码器使用一个或者多个图象作为参考)和帧周期:一个典型的音频编解码器每20毫秒产生一个帧,而视频是以10帧/秒的速率,相当于每100毫秒一帧。
其结果是,为了保持紧密同步,即所谓的声象同步(Lip-sync),需要在音频/视频接收器中对音频帧缓冲一个等于所述视频帧的附加处理时间的时长,以便音频和视频帧最终被同时再现。执行声象同步的方法例如见诸于实时传输协议RTP(请求注解RFC 3550)。
这种音频缓冲反过来会引发额外的延迟,所述延迟会恶化通信质量,因为众所周知这种延迟(即在接收器端再生信号需要花费的时间)必须尽可能小。
发明内容
本发明的目的是提供一种接收包括音频和视频帧的多媒体信号的方法,所述方法在音频/视频显示质量和通信质量之间会提供较好的折中。
为此,根据本发明的方法的特征在于它包括下述步骤:
-处理和显示所述音频帧序列和视频帧序列,
-对音频帧进行缓冲以便延迟它们,
-检测在将要显示的视频帧中是否包括视频事件,
-选择其中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式,如果已经检测到视频事件,则选择第一显示模式,否则选择第二显示模式。
因此,根据本发明的方法提出两种显示模式:同步lip-sync模式(即第一模式)和非同步模式(即第二模式),当已经检测到一个相关视频事件(例如说话人的脸)时,即当确实需要紧密同步时,选择所述同步模式。
根据本发明的一个实施例,所述检测步骤包括人脸识别和跟踪步骤。有利地,所述人脸识别和跟踪步骤包括识别所述被测人脸是否正在说话的嘴唇运动检测子步骤。另外,所述人脸识别和跟踪步骤还包括使嘴唇运动与所述音频帧匹配的子步骤。所述人脸识别和跟踪步骤可以基于肤色分析。所述缓冲步骤可以包括一个动态自适应音频缓冲子步骤,其中当从第一显示模式进入第二显示模式时,加快音频帧的显示以便减少被缓冲的音频数据量。
本发明还扩展为一种用于接收多媒体信号的通信设备,所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列,所述通信设备包括:
-数据处理机,用于处理和显示所述音频帧序列和视频帧序列,
-用于延迟音频帧的缓冲器,
-信令装置,用于指示在将要显示的视频帧中是否包括视频事件,
所述数据处理机适用于选择以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟的第一显示模式和其中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列的第二显示模式,如果已经用信号通知了视频事件,则选择第一显示模式,否则选择第二显示模式。
根据本发明的一个实施例,所述信令装置包括两个照相机,并且所述数据处理机适用于根据正在使用的照相机来选择所述显示模式。
根据本发明的另一个实施例,所述信令装置包括一个旋转式照相机,并且所述数据处理机适用于根据所述旋转式照相机的位置来选择所述显示模式。
根据本发明的再一个实施例,所述信令装置适用于从所述接收的多媒体信号中提取将被选择的显示模式。
本发明的这些和其它方面通过之后所述的实施例将是显而易见的,并将参照这样的实施例对其进行说明。
附图说明
现在将参照附图借助例子更详细地说明本发明,其中:
图1表示根据本发明一个实施例的通信设备;
图2为根据本发明的接收包括音频和视频帧的多媒体信号的方法的方框图。
具体实施方式
本发明涉及一种用于接收对应于多媒体数据内容的比特流的方法和装置。这种多媒体数据内容至少包括视频帧序列和与其相关的音频帧序列。所述视频帧和音频帧序列已经被数据内容服务器打包和发送。然后在所述接收装置上对最终的比特流进行处理(例如解码)和显示。
参考附图的图1,其描绘了根据本发明的一个示范实施例的通信设备10。该通信设备是无绳电话或移动电话。然而,对本领域技术人员来说显而易见的是,所述通信设备可以是另外的设备,例如个人数字助理(PDA)、照相机等等。所述无绳或移动电话包括壳体16,其包括按键输入部分11,所述按键输入部分11包括用于拨号盘输入和其它功能的若干按键开关12。在所述按键输入部分11上方布置有一个显示单元13。位于电话10的相对端上的麦克风14和扬声器15被提供分别用于从周围区域接收音频信号和发送来自电信网络的音频信号。
其外透镜可见的照相机单元17在显示单元13上方被加入到电话10中。该照相机单元能够拍摄显示有关被呼叫者的信息(例如他的脸)的画面。为了实现这种视频发送/接收,电话10包括音频和视频编解码器,即编码器和解码器(未表示)。举例来说,所述视频编解码器是基于MPEG 4或H.263视频编码/解码标准。类似地,所述音频编解码器是例如基于MPEG-AAC或G.729音频编码/解码标准。照相机单元17相对于电话10的壳体16被旋转安装。可选择的,所述电话可以在所述壳体的相对侧上包括两个照相机单元。
根据本发明的通信设备适用于执行至少两种不同的显示模式:
-第一显示模式,之后称为“声象同步模式”,根据该模式在音频路径上设置一个延迟以便在音频和视频帧之间产生理想的同步;
-第二显示模式,下文称作“快速模式”,根据该显示模式在音频处理路径上不设置额外的延迟。
该第二模式从延迟管理的角度看会产生较好的通信,但是不同步可能是一个问题,特别是当说话人的脸正在视频帧上时。
本发明提出一种用于在声象同步模式和快速模式之间自动切换的机制。本发明基于下面的事实:当视频帧显示了在会话中正在交谈的人的脸时主要需要紧密同步。这就是为什么紧密同步被称之为“声象同步”的原因。因为人脑使用音频和唇读来领会发言,所以对声音和嘴唇运动之间的音频视频分岐极端敏感。
参考附图的图2,根据本发明的方法包括用于提取音频和视频信号和用于对它们进行解码的处理步骤PROC(21)。
还包括检测步骤DET(22),以便检测在将要显示的视频帧中是否有说话人的脸。
如果检测到这种脸,在选择步骤期间选择声象同步模式m1;如果没有检测到这种脸,则选择快速模式m2。
如果选择声象同步模式m1,则通过缓冲步骤BUF(24)以使得音频帧序列和视频帧序列同步这样的方式对所述音频帧进行延迟。
最后,在显示步骤DIS(25)期间显示音频帧序列和视频帧序列。
所述检测步骤是例如基于现有的人脸识别和跟踪技术。这些技术通常例如被用于自动照相机聚焦和稳定/跟踪,并且在这儿提出使用它们以便检测在视频帧中是否有人脸。
根据一个示例,所述人脸检测和跟踪步骤是基于肤色分析,其中所述视频帧的色度值被分析和其中皮肤被认为具有处于一个特定的色度范围中的色度值。更详细地,肤色分级和形态学分割被用于检测第一帧中的人脸。这种被测人脸通过使用人脸在第一帧中的位置作为标志和对所述局部区域中的皮肤进行检测在随后的帧上被跟踪。该方案的特殊优点是肤色分析方法是简单和强大的。这种人脸检测和跟踪步骤例如见诸于P.Kuchi,P.Gabbur,P.S.Bhat,S.David在IETEJournal of Research上发表的″Human Face Detection and Trackingusing Skin Color Modeling and Connected Component Operators″(卷38,No.3&4,第289-293页,2002年5-8月)。
根据另一个示例,所述人脸检测和跟踪步骤是基于动态规划。在此情况中,所述人脸检测步骤包括使用迭代动态规划以便检测人脸的特定部分(例如嘴唇、眼、鼻或耳朵)的快速模板匹配程序。所述人脸检测算法被设计用于正面人脸,但也可以将其用于利用联机适配人脸模型来跟踪非正面人脸。这种人脸检测和跟踪步骤例如见诸于ZhuLiu和Yao Wang在ICIPOO上发表的″Face detection and trackingin video using dynamic programming″(卷I,第53-56页,2000年10月)。
本领域技术人员显而易见的是,本发明并不限于上述的人脸检测和跟踪步骤并且可基于其它方案,诸如例如基于神经网络的方案。
有利地,所述人脸检测和跟踪步骤能够提供所述检测的人脸正在交谈的可能性。为此,所述人脸检测和跟踪步骤包括能够识别所述检测的人脸是否正在交谈的嘴唇运动检测子步骤。另外,可使嘴唇运动与音频信号相匹配,在这样的情况下能够产生所述视频中的人脸是正在说话的人的肯定识别。为此,所述嘴唇运动检测子步骤能够部分地或完全地读取所述嘴唇和通过使嘴唇运动与音频信号匹配来检测视频中的人是否为正在说话的人。
这种嘴唇运动检测子步骤是例如基于动态轮廓跟踪。更详细地,嘴唇跟踪器使用基于卡尔曼滤波器的动态轮廓来跟踪嘴唇的轮廓。可以使用两个可选的嘴唇跟踪器,一个用于从侧视图跟踪嘴唇,另一个从前部视图跟踪嘴唇,所述两个嘴唇跟踪器适合于从嘴唇轮廓提取可见的语音识别特征。这种嘴唇运动检测子步骤例如见诸于RobertKaucic、Barney Dalton和Andrew Blake在Proc.European Conf.Computer Vision中发表的″Real-Time Lip Tracking forAudio-Visual Speech Recognition Applications″(第376-387页,英国剑桥,1996年)。
已经针对人脸检测和跟踪说明了选择将要选择的显示模式(即声象同步模式或快速模式)的过程。然而,本领域技术人员显而易见的是,本发明决不限制于该具体的实施例。例如,检测将要选择的显示模式的方法可以基于被具有两个照相机的装置(例如电话)使用的照相机的检测,所述两个照相机中一个照相机面向用户,另一个照相机面向相反的方向。可选择的,检测将要选择的显示模式的方法是基于用于设备的照相机的旋转角,该设备只包括一个可旋转的照相机和用于检测所述旋转式照相机的旋转角的装置。
根据本发明的另一个实施例,所述检测可以在发送器一侧进行,并且所述发送器可以发信号通知正在发送一个应该在声象同步模式下再现的视频序列。在一对多通信中有利的是,计算人脸检测的负担只是针对所述发送器,由此节省了用于可能多的接收器的资源(电池寿命,等等)。为此,除了所述音频和视频帧之外,所述将要发送的多媒体比特流还包括指示应该使用哪种模式来在接收器上显示多媒体内容的标志。在发送侧进行检测的另一个优点是将它与照相机稳定和聚焦功能相结合,所述照相机稳定和聚焦功能对于手持装置(例如移动可视电话)是必需的。
应当注意,如果在接收器一侧进行检测,则它可以是一个附加特征,所述附加特征可通过手动装置和用户偏好生效。
为了尽可能短的保持端到端延迟,根据本发明一个实施例的方法包括动态自适应音频缓冲步骤。音频缓冲器根据网络不稳定可以引起缓冲器下溢的约束被保持的尽可能小,所述下溢会产生音频失真。这只有在快速模式中才是可能的,因为它需要具有一种方法来改变声音的间隔以比实际时间快或慢来播放。本发明的该特定实施例的一个优点是该动态缓冲器管理可用于管理显示模式之间的转换,具体地:
-当从快速模式变成声象同步模式时,声音的重放被减慢,使得音频数据在缓冲器中进行累积;
-当从声象同步模式变成快速模式时,声音的重放比实时快,使得在缓冲器中的音频数据量被减小。
上面已经针对两种显示模式的选择对本发明进行了说明,但是本领域技术人员显而易见的是还可以提供额外的模式。例如,能使用称为“缓慢模式”的第三模式。所述缓慢模式对应于基于所谓的“Natural Motion(固有运动)”的额外后处理,根据所述额外后处理,在时间t处的当前视频帧从在时间t-1处的过去视频帧和在时间t+1处的下一个视频帧处被插入。这种缓慢模式改进了视频质量,但增加了音频和视频之间的延迟。因此,该第三模式更适合于在将要显示的视频帧中不存在说话人的脸的情形。
上面已经针对说话人脸的检测说明了本发明,但本领域技术人员显而易见的是,倘若响应这种视频事件的检测在视频帧序列和音频帧序列之间需要紧密同步,本发明的原理还可被推广为检测其它视频事件。举例来说,所述视频事件可以对应于正在合唱中歌唱、根据给出的音乐跳舞、或者用它们的手鼓掌的几个人。为了被检测,所述视频事件需要是周期的或伪周期的。这种周期视频事件的检测例如见诸于Yan Ke、Rahul Sukthankar Martial Hebert发表的标题为″Efficient Visual Event Detection using Volumetric Features″的论文(iccv2005)。更详细地,该论文研究了使用容积特征作为用于在视频序列中进行事件检测的流行的局部描述符方法的可选择方案。为此,2D盒体特征的概念被推广为3D空间与时间的容积特征。因此通过基于以空间和时间有效地扫描视频序列的容积特征弄清楚滤波器的级联而对感兴趣的每个动作构成一个实时事件检测器。所述事件检测器适合于人类动作类别的相关任务,并且适合于检测例如手鼓掌的动作。
应该注意上述实施例仅仅是阐释而非限制本发明,在不脱离所附权利要求所定义的本发明的范围的情况下,本领域技术人员将能够设计许多替换实施例。在权利要求中,被放在括号中间的任何参考符号不应该理解为限制权利要求。单词“包括”和“包含”等并不排除存在任何权利要求或说明书作为一个整体中所列举的那些之外的其它元件或步骤。一个元件的单个参考并不排除这种元件的多数参考,并且反之亦然。
本发明可以借助于包括若干不同元件的硬件和/或借助于适当编程的处理器来执行。在列举了若干构件的装置权利要求中,这些构件的若干个能够通过一个并且相同项的硬件来实行。在互相不同的从属权利要求中列举的某些措施这样的纯粹事实并不表示这些措施的组合不能被有利的使用。

Claims (11)

1.一种在通信设备(10)中接收多媒体信号的方法,所述多媒体信号至少包括视频帧(VF)序列和与其相关的音频帧(AF)序列,所述方法包括下述步骤:
-处理(21)和显示(25)所述音频帧序列和视频帧序列,
-对音频帧进行缓冲(24)以便延迟它们,
-检测(22)在将要显示的视频帧中是否包括视频事件,
-对第一显示模式(m1)和第二显示模式(m2)进行选择(23),其中在所述第一显示模式(m1)中通过所述缓冲步骤以使得所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟,在所述第二显示模式(m2)中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列,如果已经检测到视频事件,则选择第一显示模式,否则选择第二显示模式。
2.如权利要求1所述的方法,其中所述检测步骤(22)包括人脸识别和跟踪步骤。
3.如权利要求2所述的方法,其中所述人脸识别和跟踪步骤包括识别被测人脸是否正在说话的嘴唇运动检测子步骤。
4.如权利要求3所述的方法,其中所述人脸识别和跟踪步骤还包括将嘴唇运动与音频帧匹配的子步骤。
5.如权利要求2所述的方法,其中所述人脸识别和跟踪步骤是基于肤色分析进行的。
6.如权利要求1所述的方法,其中所述缓冲步骤包括动态自适应音频缓冲子步骤,其中当从第一显示模式进入第二显示模式时,加快音频帧的显示以便减少被缓冲的音频数据量。
7.一种用于接收多媒体信号的通信设备(10),所述多媒体信号至少包括视频帧序列和与其相关的音频帧序列,所述通信设备包括:
-数据处理机,用于处理和显示所述音频帧序列和视频帧序列,
-缓冲器,用于延迟音频帧,
-信令装置,用于指示在将要显示的视频帧中是否包括视频事件,
所述数据处理机适用于对第一显示模式和第二显示模式进行选择,其中在所述第一显示模式中通过所述缓冲器以使所述音频帧序列和视频帧序列同步这样一种方法对音频帧进行延迟,在所述第二显示模式中在没有使所述音频帧延迟的情况下显示所述音频帧序列和视频帧序列,如果已经用信号通知了视频事件,则选择第一显示模式,否则选择第二显示模式。
8.如权利要求7所述的通信设备,其中所述信令装置包括两个照相机,并且其中所述数据处理机适用于根据正被使用的照相机来选择所述显示模式。
9.如权利要求7所述的通信设备,其中所述信令装置包括一个旋转式照相机,并且其中所述数据处理机适用于根据所述旋转式照相机的位置来选择所述显示模式。
10.如权利要求7所述的通信设备,其中所述信令装置适用于从所述接收的多媒体信号中提取将要选择的显示模式。
11.如权利要求7所述的通信设备,其中所述信令装置包括人脸识别和跟踪装置。
CNA2006800420001A 2005-09-12 2006-09-08 接收包括音频帧和视频帧的多媒体信号的方法 Pending CN101305618A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05300741 2005-09-12
EP05300741.5 2005-09-12

Publications (1)

Publication Number Publication Date
CN101305618A true CN101305618A (zh) 2008-11-12

Family

ID=37865332

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800420001A Pending CN101305618A (zh) 2005-09-12 2006-09-08 接收包括音频帧和视频帧的多媒体信号的方法

Country Status (5)

Country Link
US (1) US20080273116A1 (zh)
EP (1) EP1927252A2 (zh)
JP (1) JP2009508386A (zh)
CN (1) CN101305618A (zh)
WO (1) WO2007031918A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108353240A (zh) * 2015-08-19 2018-07-31 雅马哈株式会社 音频系统、音频装置和音频装置设置方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2934918B1 (fr) * 2008-08-07 2010-12-17 Canon Kk Procede d'affichage d'une pluralite d'images sur un dispositif d'affichage video et dispositif associe.
JP5363588B2 (ja) * 2008-12-08 2013-12-11 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 受信オーディオデータをビデオデータと同期させるための装置及び方法
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
KR101617289B1 (ko) * 2009-09-30 2016-05-02 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
CN102013103B (zh) * 2010-12-03 2013-04-03 上海交通大学 实时动态嘴唇跟踪方法
US8913104B2 (en) * 2011-05-24 2014-12-16 Bose Corporation Audio synchronization for two dimensional and three dimensional video signals
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US8886011B2 (en) 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品
WO2015002586A1 (en) * 2013-07-04 2015-01-08 Telefonaktiebolaget L M Ericsson (Publ) Audio and video synchronization

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202761A (en) * 1984-11-26 1993-04-13 Cooper J Carl Audio synchronization apparatus
US5387943A (en) * 1992-12-21 1995-02-07 Tektronix, Inc. Semiautomatic lip sync recovery system
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
US5530483A (en) * 1994-10-11 1996-06-25 Pixel Instruments Corp. Delay detector apparatus and method for plural image sequences
US5572261A (en) * 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
US5953049A (en) * 1996-08-02 1999-09-14 Lucent Technologies Inc. Adaptive audio delay control for multimedia conferencing
AUPP702198A0 (en) * 1998-11-09 1998-12-03 Silverbrook Research Pty Ltd Image creation method and apparatus (ART79)
US6663491B2 (en) * 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
EP1288858A1 (de) * 2001-09-03 2003-03-05 Agfa-Gevaert AG Verfahren zum automatischen Erkennen von rote-Augen-Defekten in fotographischen Bilddaten
US7003035B2 (en) * 2002-01-25 2006-02-21 Microsoft Corporation Video coding methods and apparatuses
KR100926469B1 (ko) * 2002-01-31 2009-11-13 톰슨 라이센싱 가변 지연을 제공하는 오디오/비디오 시스템과, 제 1 지연된 디지털 신호에 대해 제 2 디지털 신호를 동기화하기 위한 방법
US6912010B2 (en) * 2002-04-15 2005-06-28 Tektronix, Inc. Automated lip sync error correction
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US7046300B2 (en) * 2002-11-29 2006-05-16 International Business Machines Corporation Assessing consistency between facial motion and speech signals in video
US7170545B2 (en) * 2004-04-27 2007-01-30 Polycom, Inc. Method and apparatus for inserting variable audio delay to minimize latency in video conferencing
US7307664B2 (en) * 2004-05-17 2007-12-11 Ati Technologies Inc. Method and apparatus for deinterlacing interleaved video
US20060123063A1 (en) * 2004-12-08 2006-06-08 Ryan William J Audio and video data processing in portable multimedia devices
US7643056B2 (en) * 2005-03-14 2010-01-05 Aptina Imaging Corporation Motion detecting camera system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108353240A (zh) * 2015-08-19 2018-07-31 雅马哈株式会社 音频系统、音频装置和音频装置设置方法
CN108353240B (zh) * 2015-08-19 2022-07-05 雅马哈株式会社 音频系统、音频装置和音频装置设置方法

Also Published As

Publication number Publication date
JP2009508386A (ja) 2009-02-26
EP1927252A2 (en) 2008-06-04
US20080273116A1 (en) 2008-11-06
WO2007031918A2 (en) 2007-03-22
WO2007031918A3 (en) 2007-10-11

Similar Documents

Publication Publication Date Title
CN101305618A (zh) 接收包括音频帧和视频帧的多媒体信号的方法
CN102197646B (zh) 用便携式电子装置产生多通道音频的系统和方法
US7355623B2 (en) System and process for adding high frame-rate current speaker data to a low frame-rate video using audio watermarking techniques
US10923139B2 (en) Systems and methods for processing meeting information obtained from multiple sources
US7362350B2 (en) System and process for adding high frame-rate current speaker data to a low frame-rate video
Donley et al. Easycom: An augmented reality dataset to support algorithms for easy communication in noisy environments
EP1938208A1 (en) Face annotation in streaming video
Cox et al. On the applications of multimedia processing to communications
US7355622B2 (en) System and process for adding high frame-rate current speaker data to a low frame-rate video using delta frames
JP2007533189A (ja) ビデオ・オーディオ同期
EP2175622B1 (en) Information processing device, information processing method and storage medium storing computer program
US20040143675A1 (en) Resynchronizing drifted data streams with a minimum of noticeable artifacts
EP4064692A1 (en) Smart audio muting in a videoconferencing system
US20210174791A1 (en) Systems and methods for processing meeting information obtained from multiple sources
CN115376187A (zh) 一种多人机交互场景下说话对象检测装置及方法
CN102740139A (zh) 信息处理装置、信息处理方法和程序
CN107040748A (zh) 一种监控与视频会议应用整合平台和方法
KR20060105890A (ko) 디지털 방송 수신 장치 및 그 장치에서의 동기화 처리 방법
CN113422997B (zh) 一种播放音频数据的方法、装置及可读存储介质
US7912454B2 (en) Method and system for archiving data in real-time communications
Cox et al. Scanning the Technology
US7339958B2 (en) System and method for performing signal synchronization of data streams
US20070248170A1 (en) Transmitting Apparatus, Receiving Apparatus, and Reproducing Apparatus
US20200382745A1 (en) Gesture and prominence in video conferencing
CN115052178B (zh) 音视频编码、解码、编解码系统,编码、解码方法及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20081112