JP2009508386A - オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法 - Google Patents

オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法 Download PDF

Info

Publication number
JP2009508386A
JP2009508386A JP2008529761A JP2008529761A JP2009508386A JP 2009508386 A JP2009508386 A JP 2009508386A JP 2008529761 A JP2008529761 A JP 2008529761A JP 2008529761 A JP2008529761 A JP 2008529761A JP 2009508386 A JP2009508386 A JP 2009508386A
Authority
JP
Japan
Prior art keywords
sequence
audio
video
frames
display mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008529761A
Other languages
English (en)
Inventor
ジェントリック フィリップ
Original Assignee
エヌエックスピー ビー ヴィ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP05300741 priority Critical
Application filed by エヌエックスピー ビー ヴィ filed Critical エヌエックスピー ビー ヴィ
Priority to PCT/IB2006/053171 priority patent/WO2007031918A2/en
Publication of JP2009508386A publication Critical patent/JP2009508386A/ja
Application status is Withdrawn legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/4302Content synchronization processes, e.g. decoder synchronization
    • H04N21/4307Synchronizing display of multiple content streams, e.g. synchronisation of audio and video output or enabling or disabling interactive icons for a given period of time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4392Processing of audio elementary streams involving audio buffer management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals

Abstract

本発明は、少なくともビデオ・フレーム(VF)のシーケンスおよびそれに関連したオーディオ・フレーム(AF)のシーケンスを具えるマルチメディア信号を通信装置で受信する方法に関するものである。前記方法は、オーディオ・フレームのシーケンスおよびビデオ・フレームのシーケンスを処理し(21)表示する(25)ステップと、オーディオ・フレームを遅延させるために、該オーディオ・フレームをバッファリングするステップ(24)と、ビデオ・イベントが表示されるべきビデオ・フレームに含まれるか否か検出するステップ(22)と、オーディオ・フレームのシーケンスとビデオ・フレームのシーケンスが同期するように、オーディオ・フレームをバッファリング・ステップによって遅延させる第1の表示モード(m1)と、オーディオ・フレームを遅延させずに、オーディオ・フレームのシーケンスおよびビデオ・フレームのシーケンスが表示させる第2の表示モード(m2)と、を選択するステップ(23)と、を具え、ビデオ・イベントが検出されたとき第1の表示モードが選択され、その他のとき第2の表示モードが選択される。

Description

本発明は、少なくともビデオ・フレームのシーケンスおよびそれに関連したオーディオ・フレームのシーケンスを具えるマルチメディア信号を通信装置で受信する方法に関するものである。

本発明は、このような方法を実現する通信装置にも関するものでもある。

本発明の代表的なアプリケーションは、例えば、ビデオテレフォニー(全二重)およびプッシュ・トゥ・ショー(Push-To-Show)(半二重)である。

例えば、MPEG−4符号化標準規格によるエンコーディング技術のために、ビデオ・エンコーディング/デコーディングは、オーディオ・エンコーディング/デコーディングより処理に多くの時間がかかる。これは、ビデオ・エンコーディングで使用する時間予測(エンコーダもデコーダも1つ以上の画像を参照画像として使用する)およびフレームの周期性に起因する。典型的なオーディオ・コーデックは20msごとに1フレームを生成するが、一方、ビデオは1秒につき10フレームのレートで、すなわち100msごとに1フレームを生成する。

その結果、厳密な同期、いわゆるリップシンクを保つためには、オーディオ・フレームとビデオ・フレームが最終的に同時に再生されるように、オーディオ/ビデオ受信装置において、オーディオ・フレームをビデオ・フレームの追加の処理時間に等しい時間の間バッファすることが必要である。リップシンクの実現方法は、例えば、リアルタイム・トランスポートプロトコルRTP(Request for Comments RFC 3550)に記載されている。

このオーディオ・バッファリングは、ひいては、通信の品質を悪化させる追加の遅延を引き起こす。なぜなら、よく知られているように、このような遅延(すなわち、受信側で信号を再生するのに必要な時間)はできるだけ小さくなければならないのである。

本発明の目的は、オーディオ/ビデオ表示品質と通信品質との間のより良好な妥協点をもたらす、オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法を提案することにある。

そのために、本発明による方法は、
前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを処理し表示するステップと、
オーディオ・フレームを遅延させるために、該オーディオ・フレームをバッファリングするステップと、
ビデオ・イベントが表示されるべきビデオ・フレームに含まれるか否か検出するステップと、
前記オーディオ・フレームのシーケンスと前記ビデオ・フレームのシーケンスが同期するように、オーディオ・フレームを前記バッファリング・ステップによって遅延させる第1の表示モードと、前記オーディオ・フレームを遅延させずに、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを表示させる第2の表示モードとを選択するステップとを具え、前記ビデオ・イベントが検出されたとき、前記第1の表示モードが選択され、その他のとき前記第2の表示モードが選択されることを特徴とする。

その結果として、本発明に従う方法は、同期リップシンク・モード(すなわち第1のモード)と、非同期モード(すなわち第2のモード)の2つの表示モードを提案する。同期モードは、関連したビデオ・イベント(例えば、話している人の顔)が検出されたとき、すなわち、厳密な同期が本当に必要なとき選択される。

本発明の一実施例では、検出ステップは、顔の認識および追跡のステップを含む。有益には、顔の認識および追跡のステップは、検出した顔が話しているか否かを区別するリップモーション検出サブステップを具える。さらに、顔の認識および追跡のステップは、唇の動きにオーディオ・フレームを一致させるサブステップを更に具える。顔の認識および追跡のステップは皮膚色分析に基づくこともできる。バッファリング・ステップは、第1の表示モードから第2の表示モードに変わる際、バッファされるオーディオ・データの量を減らすためにオーディオ・フレームの表示を加速するダイナミック・アダプティブ・オーディオ・バッファリング・サブステップを具えることができる。

本発明は、少なくともビデオ・フレームのシーケンスおよびそれに関連したオーディオ・フレームのシーケンスを具えるマルチメディア信号を受信する通信装置にも関するものであり、前記通信装置は、
前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを処理し表示するためのデータプロセッサと、
オーディオ・フレームを遅延させるためのバッファと、
ビデオ・イベントが表示されるべきビデオ・フレームに含まれるか否か示すための信号伝達手段とを具え、
前記データプロセッサは、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスが同期するように、オーディオ・フレームを前記バッファによって遅延させる第1の表示モードと、前記オーディオ・フレームを遅延させずに、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを表示させる第2の表示モードとを選択するように構成され、前記ビデオ・イベントが信号伝達されたとき前記第1の表示モードが選択され、その他のとき前記第2の表示モードが選択されることを特徴とする。

本発明の一実施例では、信号伝達手段は2台のカメラを具え、データプロセッサは使用中のカメラに従って、表示モードを選択するように構成される。

本発明の他の実施例では、信号伝達手段は回転式のカメラを具え、データプロセッサは、回転式のカメラの位置に従って、表示モードを選択するように構成される。

また、本発明の他の実施例では、信号伝達手段は、選択されるべき表示モードを、受信されたマルチメディア信号から抽出するように構成される。

本発明のこれらおよびその他の態様は、以下に記載されている実施例を参照して説明され、明らかになる。

本発明は、添付図面を単に一例として参照しながら、更に詳細に説明される。

本発明は、マルチメディア・データコンテンツに対応するビットストリームを受信する方法および装置に関する。このマルチメディア・データコンテンツは少なくともビデオ・フレームのシーケンスおよびそれに関連するオーディオ・フレームのシーケンスを含む。ビデオ・フレームおよびオーディオ・フレームの前記シーケンスはパケット化され、データコンテンツ・サーバによって伝送される。次に、結果として生じたビットストリームは、受信装置で処理され(例えば、デコードされ)、表示される。

図1につき参照すると、本発明の例示的実施例に従う通信装置10が示される。この通信装置はコードレスホンか携帯電話である。しかし、通信装置が携帯情報端末(PDA)やカメラ等の他の装置でもよいということは、当業者にとって明らかである。コードレスホンあるいは携帯電話は、ダイヤル入力およびその他の機能のための多数のボタンスイッチ12を具えるキー入力部11を含むハウジング16を具える。表示部13はキー入力部11の上に配置される。電話10の両端部にそれぞれ位置するマイクロホン14およびスピーカ15は、オーディオ信号を周囲から受信するため、および、電気通信網からのオーディオ信号を伝送するためにそれぞれ設けられる。

カメラ装置17(その外側のレンズが見えている)は、表示部13の上に、電話10に組み込まれる。このカメラ装置は、被発呼側に関する情報を示す画像(例えば人の顔)を取り込むことができる。このようなビデオ送信/受信を達成するために、電話10はオーディオ・コーデックおよびビデオ・コーデック、すなわちエンコーダおよびデコーダ(図示せず)を具える。一実施例として、ビデオ・コーデックは、MPEG4またはH.263ビデオ符号化/復号化標準規格に基づく。同様に、オーディオ・コーデックは、例えば、MPEG−AACまたはG.729オーディオ符号化/復号化標準規格に基づく。カメラ装置17は、電話10のハウジング16に対して回転式に取り付けられている。代案として、電話はハウジングの両側に2台のカメラ装置を具えることもできる。

本発明による通信装置は、少なくとも2つの異なる表示モード、すなわち、
・オーディオ・フレームとビデオ・フレームとの間の完全な同期を生成するために音声経路に遅延を与える、以後「リップシンク・モード」と称する第1の表示モード、
・音声処理経路に追加の遅延を与えない、以後「高速モード」と称する第2の表示モード、
を実現するように構成される。この第2のモードは、遅延管理の観点からより良好な通信を生ずるが、特に話している人の顔がビデオ・フレーム内にあるとき、同期の欠如が問題になりうる。

本発明は、リップシンク・モードと高速モードとを自動的に切り替えるメカニズムを提案する。本発明は、ビデオ・フレームが対話中の人の顔を表示するとき、大抵、厳密な同期が要求されるという事実に基づく。そういうわけで、厳密な同期は、「リップシンク」と称される。人間の脳は、話者を理解するために音声および読唇術を使用するので、音と唇の動きとの間の音声−映像分裂に対して非常に敏感である。

図2につき参照すると、本発明に係る方法は、オーディオおよびビデオ信号を抽出し、それらをデコーディングするための処理ステップPROC(21)を具える。

本発明に係る方法は、表示されるべきビデオ・フレーム内に話している人の顔があるか否か調べるために、検出ステップDET(22)を具える。

選択ステップSEL(23)において、このような顔が検出されるとリップシンク・モードm1が選択され、検出されないと高速モードm2が選択される。

リップシンク・モードm1が選択される場合、オーディオ・フレームのシーケンスおよびビデオ・フレームのシーケンスが同期するように、オーディオ・フレームはバッファリング・ステップBUF(24)によって遅延される。

最後に、表示ステップDIS(25)において、オーディオ・フレームのシーケンスおよびビデオ・フレームのシーケンスが表示される。

検出ステップは、例えば、既存の顔認識および追跡技術に基づく。従来、これらの技術は、例えば、オートカメラフォーカシングおよび安定化/追跡に用いられ、本発明でも、これらの技術をビデオ・フレーム内に顔があるか否かを検出するために使用することを提案する。

一実施例によれば、顔検出/追跡ステップは、ビデオ・フレームの色度値を分析し、皮膚は特定の色度範囲にある色度値を有すると仮定する、皮膚色分析に基づく。より詳細には、第1フレーム内の顔を検出するために皮膚の色分類および形態的分類が用いられる。この検出された顔は、第1フレーム内の顔の位置をマーカーとして用いて局所領域の皮膚を検出することにより、後続のフレームについて追跡される。この方法の特別な利点は、皮膚色分析法が単純かつ強力であるということである。このような顔検出/追跡ステップは、例えば、「Human Face Detection and Tracking using Skin Color Modeling and Connected Component Operators」P. Kuchi, P. Gabbur, P.S. Bhat, S. David著、IETE Journal of Research, Vol. 38, No. 3&4, pp. 289-293, May-Aug 2002に記載されている。

他の実施例によれば、顔検出/追跡ステップは、ダイナミックプログラミングに基づく。この場合、顔検出ステップは、人間の顔の特定の部分(例えば、唇、目、鼻または耳)を検出するために、反復動的プログラミングを用いた高速テンプレート照合手順を具える。顔検出アルゴリズムは、正面の顔用に設計されているが、オンライン適合顔モデルを使って非正面の顔を追跡するために適用することができる。このような顔検出/追跡ステップは、例えば、「Face detection and tracking in video using dynamic programming」、Zhu Liu and Yao Wang著、ICIP00, Vol I: pp. 53-56, October 2000に記載されている。

本発明は上記の顔検出/追跡ステップに制限されず、他の方法、例えばニューラルネットワーク・ベースの方法に基づくものとすることもできることは、当業者に明らかである。

顔検出/追跡ステップは、検出された顔が話しているという可能性を与えることができることが有益である。そのために、前記顔検出/追跡ステップは、検出された顔が話しているか否かを見分けることができるリップモーション(唇の動き)検出サブステップを具える。さらに、そのリップモーションをオーディオ信号と一致させることができ、その場合には、ビデオの顔が話している人であるという明確な認識ができる。そのために、リップモーション検出サブステップは、部分的にまたは完全に、唇を読んで、リップモーションをオーディオ信号と一致させることにより、ビデオの人が話している人か否かを調べることが可能である。

このようなリップモーション検出サブステップは、例えば、ダイナミック輪郭追跡(dynamic contour tracking)に基づく。更に詳細には、リップトラッカは、唇の輪郭を追跡するために、カルマンフィルタベースのダイナミック輪郭追跡を使用する。一方は横顔像から、他方は正面像から唇を追跡する2つの代替リップトラッカを用いることもでき、これらのリップトラッカは、唇の輪郭からビジュアル・スピーチ認識特徴を抽出するように構成される。このようなリップモーション検出サブステップは、例えば、「Real-Time Lip Tracking for Audio-Visual Speech Recognition Applications」、Robert Kaucic, Barney Dalton, and Andrew Blake著、Proc. European Conf. Computer Vision, pp. 376-387, Cambridge, UK, 1996に記載されている。

選択されるべき表示モード(すなわち、リップシンク・モードまたは高速モード)の選択を、顔の検出および追跡に関して説明してきた。しかし、本発明はこの特定の実施例に制限されていないことは、当業者に明らかである。例えば、選択されるべき表示モードを検出する方法は、1台はユーザの方に向き、もう1台は他の方向を向く、2台のカメラを有する装置(例えば電話)に対しては、使用中のカメラの検出に基づくこともできる。代案として、選択されるべき表示モードを検出する方法は、回転可能な1台のみのカメラと回転するカメラの回転角を検出する手段とを含む装置に対しては、カメラの回転角に基づくこともできる。

本発明の他の実施例では、検出は送信機側で行うことができ、送信機側は、リップシンク・モードで再生されるべきビデオ・シーケンスを送信していることを信号伝達することができる。これは、顔検出を計算する負荷が送信機側のみにある1対多の通信において有利であり、これによって、多くの受信機のリソース(電池寿命など)を節約できる可能性がある。このために、送信されるべきマルチメディア・ビットストリームは、オーディオ・フレームおよびビデオ・フレームに加えて、受信機で、マルチメディア・コンテンツの表示にどのモードを用いるべきかを示すフラグを含む。送信機側で検出を行うことの他の利点は、検出を移動テレビ電話のような携帯デバイスに必須のカメラ安定化およびフォーカシングと組み合わせることができる点にある。

検出が受信機側で行われる場合、その検出は、マニュアル・オーバーライドおよびユーザ選択で利用可能な追加の機能となりうる点に留意されたい。

エンド・ツー・エンドの遅延をできる限り小さく保つために、本発明の一実施例に従う方法は、ダイナミック・アダプティブ・オーディオ・バッファリング・ステップを含む。オーディオ・バッファは、ネットワーク・ジッターがバッファをアンダーフローさせ、可聴のアーチファクトを生じ得るという制約に従って、できるだけ小さく保たれる。この方法は、リアルタイムより高速にあるいは低速に再生するために音声のピッチを変更する方法を有することを必要とするので、高速モードにおいてのみ可能である。本発明のこの特定の実施例の利点は、この動的バッファ管理を用いて、表示モード間の切り替えを管理することができるということである。具体的には、
・高速モードからリップシンク・モードになるとき、音声データがバッファに蓄積されるように音声の再生が減速され、
・リップシンク・モードから高速モードになるとき、バッファ内の音声データの量が減少するように音声の再生がリアルタイムより高速になる。

本発明は、2つの表示モードの選択について説明してきたが、追加のモードを設けることができることは当業者にとって明らかである。例えば、「低速モード」と称する第3のモードを用いることができる。前記低速モードは、いわゆる「自然な動き」に基づく追加の後処理に対応し、これによれば、時間tの現在のビデオ・フレームが、時間t−1の過去のビデオ・フレームおよび時間t+1の次のビデオ・フレームから補間される。このような低速モードは、ビデオ品質を改善するが、オーディオとビデオとの間の遅延を増加する。それゆえ、この第3のモードは、話している人の顔が表示されるべきビデオ・フレーム内に存在しない場合に適している。

本発明は、話している人の顔の検出について説明してきたが、このようなビデオ・イベントの検出に応じて、ビデオ・フレームのシーケンスとオーディオ・フレームのシーケンスとの間の厳密な同期が必要とされるという条件で、本発明の原理は、他のビデオ・イベントの検出に一般化できることは当業者にとって明らかである。一実施例として、ビデオ・イベントは、コーラスで歌っている、ある音楽に合わせて踊っている、あるいは、拍手している数人の人に対応させることができる。検出のために、ビデオ・イベントは、周期的あるいは擬似周期的であることが必要である。このような周期的なビデオ・イベントの検出は、例えば、「Efficient Visual Event Detection using Volumetric Features」、Yan Ke, Rahul Sukthankar, Martial Hebert著、iccv2005の論文に記載されている。更に詳細には、本論文は、ビデオ・シーケンス中のイベント検出のための一般的なローカル・デスクリプタ方法の代用として、ボリュメトリック特徴の使用を研究している。このために、2Dボックス特徴の概念は、3D時空間的ボリュメトリック特徴に一般化される。従って、リアルタイムイベント検出器は、ビデオ・シーケンスを空間的に時間的に能率的に走査する一連のフィルタをボリュメトリック特徴に基づいて学習させることによって、関心のある各動きごとに構成される。イベント検出器は、人間の動きの分類の関連したタスクに適応し、拍手している手のような動きを検出するように構成される。

上述の実施例は例示であり、本発明を限定するものではなく、当業者は添付の特許請求の範囲で特定される発明の範囲を逸脱することなく多くの代替実施例を設計可能であるということに留意する必要がある。「具えている」および「具える」などの単語は、請求項あるいは本明細書に列記されていない要素またはステップの存在を除外するものではない。単数形で述べる要素は複数の要素を除外するものではないし、その逆も成り立つ。

本発明は、異なる要素を具えるハードウェアによって、および、最適にプログラムされたコンピュータによって実装することができる。いくつかの手段を列挙している装置請求項において、これらの手段のいくつかは、ハードウェアの同一の要素によって具現化できる。特定の手段が相互に異なる従属請求項に引用されているが、このことは、これらの手段の組合せが有利に使用できないことを示すものではない。

本発明の一実施例に従う通信装置である。 本発明に従う、オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法のブロック図である。

Claims (11)

  1. 少なくともビデオ・フレームのシーケンスおよびそれに関連したオーディオ・フレームのシーケンスを具えるマルチメディア信号を通信装置で受信する方法であって、前記方法が、
    前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを処理し表示するステップと、
    オーディオ・フレームを遅延させるために、該オーディオ・フレームをバッファリングするステップと、
    ビデオ・イベントが表示されるべきビデオ・フレームに含まれるか否か検出するステップと、
    前記オーディオ・フレームのシーケンスと前記ビデオ・フレームのシーケンスが同期するように、オーディオ・フレームを前記バッファリング・ステップによって遅延させる第1の表示モードと、前記オーディオ・フレームを遅延させずに、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスが表示させる第2の表示モードと、を選択するステップと、
    を具え、
    ビデオ・イベントが検出されたとき、前記第1の表示モードが選択され、その他のとき前記第2の表示モードが選択される方法。
  2. 前記検出ステップが、顔の認識および追跡のステップを含む請求項1に記載の方法。
  3. 前記顔の認識および追跡のステップは、検出した顔が話しているか否かを見分けるリップモーション検出サブステップを具える請求項2に記載の方法。
  4. 前記顔の認識および追跡のステップは、前記リップモーションに前記オーディオ・フレームを一致させるサブステップを更に具える請求項3に記載の方法。
  5. 前記顔の認識および追跡のステップは、皮膚色分析に基づく請求項2に記載の方法。
  6. 前記バッファリング・ステップは、前記第1の表示モードから前記第2の表示モードに変わる際、バッファされるオーディオ・データの量が減少するように、オーディオ・フレームの表示を加速するダイナミック・アダプティブ・オーディオ・バッファリング・サブステップを具える請求項1に記載の方法。
  7. 少なくともビデオ・フレームのシーケンスおよびそれに関連したオーディオ・フレームのシーケンスを具えるマルチメディア信号を受信する通信装置であって、前記通信装置は、
    前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスを処理し表示するためのデータプロセッサと、
    オーディオ・フレームを遅延させるためのバッファと、
    ビデオ・イベントが表示されるべきビデオ・フレームに含まれるか否か示すための信号伝達手段と、
    を具え、
    前記データプロセッサは、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスが同期するように、オーディオ・フレームを前記バッファによって遅延させる第1の表示モードと、前記オーディオ・フレームを遅延させずに、前記オーディオ・フレームのシーケンスおよび前記ビデオ・フレームのシーケンスが表示させる第2の表示モードと、を選択するように構成され、
    前記ビデオ・イベントが信号伝達されたとき前記第1の表示モードが選択され、その他のとき前記第2の表示モードが選択される通信装置。
  8. 前記信号伝達手段は2台のカメラを具え、前記データプロセッサは、使用中の前記カメラに従って、前記表示モードを選択するように構成される請求項7に記載の通信装置。
  9. 前記信号伝達手段は回転式のカメラを具え、前記データプロセッサは、前記回転式のカメラの位置に従って、前記表示モードを選択するように構成される請求項7に記載の通信装置。
  10. 前記信号伝達手段は、選択されるべき表示モードを、受信された前記マルチメディア信号から抽出するように構成される請求項7に記載の通信装置。
  11. 前記信号伝達手段は、顔の認識および追跡の手段を具える請求項7に記載の通信装置。
JP2008529761A 2005-09-12 2006-09-08 オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法 Withdrawn JP2009508386A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP05300741 2005-09-12
PCT/IB2006/053171 WO2007031918A2 (en) 2005-09-12 2006-09-08 Method of receiving a multimedia signal comprising audio and video frames

Publications (1)

Publication Number Publication Date
JP2009508386A true JP2009508386A (ja) 2009-02-26

Family

ID=37865332

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008529761A Withdrawn JP2009508386A (ja) 2005-09-12 2006-09-08 オーディオ・フレームおよびビデオ・フレームを具えるマルチメディア信号の受信方法

Country Status (5)

Country Link
US (1) US20080273116A1 (ja)
EP (1) EP1927252A2 (ja)
JP (1) JP2009508386A (ja)
CN (1) CN101305618A (ja)
WO (1) WO2007031918A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511279A (ja) * 2008-12-08 2012-05-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 受信オーディオデータをビデオデータと同期させるための装置及び方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2934918B1 (fr) * 2008-08-07 2010-12-17 Canon Kk Procede d'affichage d'une pluralite d'images sur un dispositif d'affichage video et dispositif associe.
NO331287B1 (no) * 2008-12-15 2011-11-14 Cisco Systems Int Sarl Fremgangsmate og anordning for gjenkjenning av ansikter i en videostrom
KR101617289B1 (ko) * 2009-09-30 2016-05-02 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
CN102013103B (zh) * 2010-12-03 2013-04-03 上海交通大学 实时动态嘴唇跟踪方法
US8913104B2 (en) * 2011-05-24 2014-12-16 Bose Corporation Audio synchronization for two dimensional and three dimensional video signals
US9058806B2 (en) 2012-09-10 2015-06-16 Cisco Technology, Inc. Speaker segmentation and recognition based on list of speakers
US8886011B2 (en) 2012-12-07 2014-11-11 Cisco Technology, Inc. System and method for question detection based video segmentation, search and collaboration in a video processing environment
WO2015002586A1 (en) * 2013-07-04 2015-01-08 Telefonaktiebolaget L M Ericsson (Publ) Audio and video synchronization

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202761A (en) * 1984-11-26 1993-04-13 Cooper J Carl Audio synchronization apparatus
US5387943A (en) * 1992-12-21 1995-02-07 Tektronix, Inc. Semiautomatic lip sync recovery system
US5512939A (en) * 1994-04-06 1996-04-30 At&T Corp. Low bit rate audio-visual communication system having integrated perceptual speech and video coding
US5530483A (en) * 1994-10-11 1996-06-25 Pixel Instruments Corp. Delay detector apparatus and method for plural image sequences
US5572261A (en) * 1995-06-07 1996-11-05 Cooper; J. Carl Automatic audio to video timing measurement device and method
US5953049A (en) * 1996-08-02 1999-09-14 Lucent Technologies Inc. Adaptive audio delay control for multimedia conferencing
AUPP702198A0 (en) * 1998-11-09 1998-12-03 Silverbrook Research Pty Ltd Image creation method and apparatus (ART79)
US6663491B2 (en) * 2000-02-18 2003-12-16 Namco Ltd. Game apparatus, storage medium and computer program that adjust tempo of sound
EP1288858A1 (de) * 2001-09-03 2003-03-05 Agfa-Gevaert AG Verfahren zum automatischen Erkennen von rote-Augen-Defekten in fotographischen Bilddaten
US7003035B2 (en) * 2002-01-25 2006-02-21 Microsoft Corporation Video coding methods and apparatuses
KR100926469B1 (ko) * 2002-01-31 2009-11-13 톰슨 라이센싱 가변 지연을 제공하는 오디오/비디오 시스템과, 제 1 지연된 디지털 신호에 대해 제 2 디지털 신호를 동기화하기 위한 방법
US6912010B2 (en) * 2002-04-15 2005-06-28 Tektronix, Inc. Automated lip sync error correction
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
US7046300B2 (en) * 2002-11-29 2006-05-16 International Business Machines Corporation Assessing consistency between facial motion and speech signals in video
US7170545B2 (en) * 2004-04-27 2007-01-30 Polycom, Inc. Method and apparatus for inserting variable audio delay to minimize latency in video conferencing
US7307664B2 (en) * 2004-05-17 2007-12-11 Ati Technologies Inc. Method and apparatus for deinterlacing interleaved video
US20060123063A1 (en) * 2004-12-08 2006-06-08 Ryan William J Audio and video data processing in portable multimedia devices
US7643056B2 (en) * 2005-03-14 2010-01-05 Aptina Imaging Corporation Motion detecting camera system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012511279A (ja) * 2008-12-08 2012-05-17 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 受信オーディオデータをビデオデータと同期させるための装置及び方法
US9392220B2 (en) 2008-12-08 2016-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Device and method for synchronizing received audio data with video data

Also Published As

Publication number Publication date
WO2007031918A3 (en) 2007-10-11
CN101305618A (zh) 2008-11-12
WO2007031918A2 (en) 2007-03-22
EP1927252A2 (en) 2008-06-04
US20080273116A1 (en) 2008-11-06

Similar Documents

Publication Publication Date Title
DE102015100911B4 (de) Verbesserte Kommunikation zwischen entfernten Teilnehmern/Teilnehmerinnen mittels erweiterter und virtueller Realität
JP4286912B2 (ja) 静止画像の送信と表示の方法と装置
US8125509B2 (en) Facial recognition for a videoconference
US8274544B2 (en) Automated videography systems
US6466248B1 (en) Videoconference recording
US7916165B2 (en) Systems and method for enhancing teleconferencing collaboration
US20100245532A1 (en) Automated videography based communications
JP2014161029A (ja) マルチストリームかつマルチサイトのテレプレゼンス会議システムのための自動的なビデオレイアウト
US20120176467A1 (en) Sharing Participant Information in a Videoconference
KR100836616B1 (ko) 영상 합성 기능을 가지는 휴대용 단말기 및 휴대용단말기의 영상 합성 방법
US7855726B2 (en) Apparatus and method for presenting audio in a video teleconference
US6466250B1 (en) System for electronically-mediated collaboration including eye-contact collaboratory
US20060152575A1 (en) Method for real-time broadcasting of multimedia files during a videoconference, without interrupting communication, and a man-machine interface therefor
US8004555B2 (en) Methods and devices for simultaneous dual camera video telephony
US7428000B2 (en) System and method for distributed meetings
US8890923B2 (en) Generating and rendering synthesized views with multiple video streams in telepresence video conference sessions
US8970704B2 (en) Network synchronized camera settings
EP2323425B1 (en) Method and device for generating audio signals
CN1292588C (zh) 图像声音同步装置
US9179098B2 (en) Video conferencing
US7952596B2 (en) Electronic devices that pan/zoom displayed sub-area within video frames in response to movement therein
US20070162922A1 (en) Apparatus and method for processing video data using gaze detection
US7583287B2 (en) System and method for very low frame rate video streaming for face-to-face video conferencing
JP4472360B2 (ja) オーディオおよびビデオストリームの同期のための装置および方法
US7676063B2 (en) System and method for eye-tracking and blink detection

Legal Events

Date Code Title Description
A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090907