JP2010219783A - 通信端末、通信方法およびコンピュータプログラム - Google Patents

通信端末、通信方法およびコンピュータプログラム Download PDF

Info

Publication number
JP2010219783A
JP2010219783A JP2009063214A JP2009063214A JP2010219783A JP 2010219783 A JP2010219783 A JP 2010219783A JP 2009063214 A JP2009063214 A JP 2009063214A JP 2009063214 A JP2009063214 A JP 2009063214A JP 2010219783 A JP2010219783 A JP 2010219783A
Authority
JP
Japan
Prior art keywords
video
audio
signal
time
nth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009063214A
Other languages
English (en)
Inventor
Munehiro Tokikura
倉 宗 大 時
Shinya Murai
井 信 哉 村
Takuya Kawamura
村 卓 也 川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009063214A priority Critical patent/JP2010219783A/ja
Publication of JP2010219783A publication Critical patent/JP2010219783A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】テレビ会議端末の映像表示と各外部端末における音声表示とのリップシンクを図る。
【解決手段】本発明の通信端末は、第1〜第nの外部端末と通信する通信端末であって、ネットワークを介して受信した多重化信号を映像信号と音声信号とへ分離する分離手段と、前記映像信号に基づき映像表示を行う映像表示処理手段と、それぞれ前記音声信号を前記第1〜第nの外部端末へ送信する第1〜第n送信処理手段と、を備え、前記第1〜第nの送信処理手段は、前記第1〜第nの外部端末へ前記音声信号を送信してから音声が出力されるまでの所要時間として事前に取得された第1〜第nの時間Tbのうち最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を待機させてから前記音声信号を送信し、前記映像表示処理手段は、前記最も長い時間Tmaxに応じた時間だけ前記映像信号を待機させてから前記映像信号に基づいて映像を表示する。
【選択図】図1

Description

本発明は、通信端末、通信方法およびコンピュータプログラムに関し、たとえば画像と音声の同期方法に関する。
従来の会議電話などの音声専用のテレビ会議端末では、一つの拠点での会議参加者が複数人になると、テレビ会議端末からの距離によっては、各参加者がそれぞれ適切な音量で音声を聞くことはできなかった。そのため、音声を用いたテレビ会議端末の場合、専用のヘッドセット等の個人向け音声出力装置(外部端末)を会議参加者各人へ用意(配布)し、各人が所望の音量で音声を聴くものがあった。
また、特許文献1に開示されているように、テレビ会議端末において、音声の入出力装置としてIP電話端末や無線LAN登載携帯電話端末を別途用い、それらの電話端末から音声を再生する技術がある。
特開2006−115377公報
一方、音声と映像を用いるテレビ会議端末では、音声と映像の再生時間にずれが発生すると違和感があることから、これを避けるためには音声と映像の再生時間について同期をとる必要がある。しかし、テレビ会議端末(通信端末)に搭載されたスピーカで音声を再生する時間と、当該テレビ会議端末のモニタで映像を再生する時間が同期する(リップシンクする)ように設計されている場合において、各参加者に上述したように別途用意(配布)した電話端末等の音声出力装置(外部端末)を用いて音声を再生すると、テレビ会議端末の表示映像と、各参加者の音声出力装置での出力音声の同期が外れる問題が発生する問題がある。
本発明は、通信端末での表示映像と、各外部端末で出力される音声とのリップシンクを可能とした通信端末、通信方法および通信プログラムを提供する。
本発明の一態様としての通信端末は、第1〜第n(nは1以上の整数)の外部端末と通信する通信端末であって、ネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する音声映像受信手段と、前記多重化信号を前記映像信号と前記音声信号とへ分離する分離手段と、前記分離手段により分離された前記映像信号を一時的に格納する映像出力制御バッファを有し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理手段と、 それぞれ前記分離手段により分離された前記音声信号を一時的に格納する第1〜第nの送信制御バッファを有し、前記第1〜第nの送信制御バッファから取り出した前記音声信号を前記第1〜第nの外部端末へ送信する第1〜第n送信処理手段と、を備え、前記第1〜第nの送信処理手段は、前記第1〜第nの外部端末へ前記音声信号を送信してから前記第1〜第nの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第1〜第nの時間Tbのうち最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させてから前記音声信号を送信し、前記映像表示処理手段は、前記第1〜第nの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行うことを特徴とする。
また、本発明の一態様としての通信方法及びプログラムは、上記通信端末で実行できる方法およびプログラムである。
本発明により、通信端末での表示映像と、各外部端末で出力される音声とのリップシンクが可能になる。
本発明の第1の実施形態に係わるテレビ会議端末の構成を示すブロック図。 本発明の第1の実施形態に係わるテレビ会議システムの構成を示すブロック図。 本発明の第1の実施形態の無線用音声送信部の内部構成を示すブロック図。 本発明の第1の実施形態の動作を示すフローチャート。 本発明の第1の実施形態において1台の外部端末を含むシステム構成例を示す図。 本発明の第1の実施形態において図5のシステム構成の場合の時刻制御部の動作を示すフローチャート。 本発明の第1の実施形態において時刻制御部に記憶される所要時間データの例を示す図。 本発明の第1の実施形態において複数台の外部端末を含むシステム構成例を示す図。 本発明の第1の実施形態の図8のシステム構成の場合の時刻制御部の動作を示すフローチャート。 本発明の第1の実施形態における時刻制御部に記憶される所要時間データの例を示す図。 本発明の第2の実施形態に係わるテレビ会議端末の構成を示すブロック図。 本発明の第2の実施形態において図5のシステム構成の場合の時刻制御部の動作を示すフローチャート。 本発明の第3の実施形態に係わるテレビ会議端末の構成を示すブロック図。
以下、図面を参照しながら、本発明の実施形態について説明する。
(第1の実施形態)
図2に、本発明の第1の実施形態としての遠隔テレビ会議システムの構成を示す。
遠隔の地点Aにおける遠隔テレビ会議端末(図示せず)から互いに同期されている音声信号と映像信号とがネットワーク101を介して送信され、地点Bのテレビ会議端末(通信端末)10がこれら同期された音声信号と映像信号を受信する。これら同期された音声信号と映像信号とは多重化されており多重化信号を形成する。
地点Bのテレビ会議端末10は、受信した多重化信号を映像信号と音声信号とに分離し、映像信号に基づき映像を表示し、また音声信号に基づき音声を出力する。またテレビ会議端末10は、音声信号のみを無線対応外部端末(以下単に外部端末と称する)201、203へ送信し、外部端末201、203は受信した音声信号に基づき音声を出力する。外部端末201、203の利用者はたとえばテレビ会議端末10に表示される映像を見ながら、外部端末201、203で出力される音声を聴く。外部端末201、203は例えばIEEE802.11規格対応PCやBluetooth規格対応携帯電話である。ただし外部端末の無線規格はIEEE802.11規格対応PCやBluetooth規格対応携帯電話に限るものではなく、例えば、IrDA規格等であってもよい。
外部端末201、203の利用者がテレビ会議端末10に表示される映像を見ながら、外部端末201、203で出力される音声を聴く場合、遠隔話者(地点Aの話者)の映像と音声のリップシンクが重要となる。そこでテレビ会議端末10は、自身に表示される映像(および音声)と、外部端末201、203で出力される音声とが同期するように、自身における映像表示(および音声出力)のタイミングと、外部端末201、203への音声信号の送信のタイミングとを調整する。これにより地点Aにおける遠隔話者の映像と音声のリップシンクを実現する。以下、本実施形態に係るテレビ会議端末について詳細に説明する。
図1は、テレビ会議端末(通信端末)10の詳細構成を示すブロック図である。
この第1の実施形態に関わるテレビ会議端末10は、音声映像送受信部101と、音声映像分離部102と、音声デコーダ103と、映像デコーダ104と、映像出力時刻制御部113−1と、音声出力時刻制御部113−2と、音声出力部115と、映像表示部116と、無線送信部112と、時刻制御部114と、音声入力部117と、映像入力部118と、音声エンコーダ119と、映像エンコーダ120と、音声映像多重化部121とを備えている。映像デコーダ104、映像出力時刻制御部113−1および映像表示部116は本発明の映像表示処理手段1001を形成する。音声デコーダ103、音声出力時刻制御部113−2および音声出力部115は本発明の音声出力処理手段1002を形成する。
音声映像送受信部101は他の地点(例えば地点A)より送信されてきた、映像号像と音声信号とが多重化された多重化信号11を受信する。すなわち音声映像送受信部101は互いに同期された映像信号と音声信号を受信する。音声映像送受信部101は、受信した多重化信号11を第1の転送手段(転送経路)401を介して音声映像分離部102に転送する。また、音声映像送受信部101は、他の地点に対し、音声映像多重化部121により生成された、映像信号と音声信号との多重化信号を送信する。
音声映像分離部102は、音声映像送受信部101から転送されてきた多重化信号を映像信号と音声信号とに分離する。音声映像分離部102は、分離された映像信号を第2−1の転送手段(転送経路)402を介して映像デコーダ104に送り、分離された音声信号を第2−2の転送手段(転送経路)403を介して音声デコーダ103に送る。また音声映像分離部102は分離された音声信号と映像信号とのうち音声信号のみを第3の転送手段(転送経路)404を介して無線送信部112における、無線A用音声送信部109、無線B用音声送信部110および無線C用音声送信部111に送る。
映像デコーダ104は、音声映像分離部102から転送された映像信号をデコード(復号)し、復号した映像信号を映像出力時刻制御部113−1に出力する。
音声デコーダ103は、音声映像分離部102から転送された音声信号をデコード(復号)し、復号した音声信号を音声出力時刻制御部113−2に出力する。
映像出力時刻制御部113−1は、映像デコーダ104から送られた映像信号を内部バッファ(映像出力制御バッファ)113aに格納して時刻制御部114からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ113aから取り出して映像表示部116に出力する。映像表示部116はこの映像信号に基づいて映像を表示する。映像出力時刻制御部113−1は、待機時間のカウントのため、内部時計を有する。このようにして映像出力時刻制御部113−1は時刻制御部114による映像表示タイミングの制御を受ける。
音声出力時刻制御部113−2は、音声デコーダ103から送られた音声信号を内部バッファ(音声出力制御バッファ)113bに格納して時刻制御部114からあらかじめ指定された待機時間だけ待機させ、待機時間が経過したら、当該音声信号を内部バッファ113bから取り出して音声デコーダ103に出力する。音声出力部115はこの音声信号に基づき音声を出力する。音声出力時刻制御部113−2は、待機時間のカウントのため内部時計を有する。このようにして音声出力時刻制御部113−1は時刻制御部114による音声出力タイミングの制御を受ける。
無線送信部112は、複数の種類の無線方式A〜Cに対応して、無線A用音声送信部109、無線B用音声送信部110、無線C用音声送信部111を備える。無線A用音声送信部109は音声映像分離部102から転送されてきた音声信号を無線A対応外部端末201、202に送信し、無線A対応外部端末201、202は受信した音声信号に基づき音声16、17を出力する。無線B用音声送信部110は音声映像分離部102から転送されてきた音声信号を無線B対応外部端末203、204に送信し、無線B対応外部端末203、204は受信した音声信号に基づき音声18、19を出力する。無線C用音声送信部111は音声映像分離部102から転送されてきた音声信号を無線C対応外部端末205、206に送信し、無線C対応外部端末205、206は受信した音声信号に基づき音声20、21を出力する。ここではA、B、Cの3種類の無線方式が存在する場合を示すが、無線方式の個数は、3種類より少なくても多くても構わず、無線方式の個数に応じて無線用音声送信部の個数も変動する。
無線用音声送信部109,110,111の詳細構成を図3に示す。各無線用音声送信部109,110,111では無線方式の種類A〜Cの違いに応じて一部の構成および処理が異なるが、これらの違いは本発明の本質とは無関係であるため、本発明の本質に関係ない各無線に固有の処理の詳細についての説明はここでは省略する。
音声映像分離部102から無線送信部112に転送されてきた音声信号は、無線用音声送信部109,110,111のそれぞれの無線用音声信号生成部300に入力される。無線用音声送信部109,110,111のそれぞれの無線用音声信号生成部300では、入力された音声信号に基づき、該当する無線方式で送信できる音声信号を生成する。
無線用音声送信部109、110、111は、接続する外部端末の数に対応した送信ポートを備える。ここでは無線用音声送信部109、110、111はそれぞれ、2つの外部端末211、212(図1の201〜206参照)に対応して、2つの送信ポート303、304を備えている。外部端末が3台以上存在するときはそれに応じて送信ポートも3個以上設けられる。無線用音声送信部109、110、111のそれぞれの送信ポート303、304は、それぞれ外部端末211(図1の201、203、205に対応)、212(図1の202、204、206に対応)に対して無線用音声信号生成部300により生成された音声信号を、該当無線方式により送信する。
無線用音声送信部109、110、111のそれぞれでは、送信ポート303、304に対応して送信時刻制御部301、302が設けられる。送信時刻制御部301、302は、無線用音声信号生成部300で生成された音声信号をそれぞれ内部バッファ(送信制御バッファ)301a、302bに時刻制御部114からあらかじめ指定された時間だけ待機させ、当該時間の待機後、内部バッファ301a、302bから音声信号を取り出して送信ポート送信ポート303、304に出力する。このようにして各外部端末201〜206(図1参照)への送信タイミングの調整を行う。
無線用音声送信部109、110、111のそれぞれにおいて、送信ポート303、304は、上述のように、送信時刻制御部301、302から入力された映像信号を、外部端末211、212に該当無線方式により送信する。
送信時刻制御部301および送信ポート303は本発明の送信処理手段3001を形成し、送信時刻制御部302および送信ポート304は本発明の送信処理手段3002を形成する。各送信処理手段3001、3002に無線用音声信号生成部300を含めてもよい。
時刻制御部(第1の制御手段、第2の制御手段)114は、無線用音声送信部109、110、111のそれぞれにおける送信時刻制御部301、302の内部バッファ301a、302bでの待機時間、映像出力時刻制御部113−1の内部バッファ113aでの待機時間、および音声出力時刻制御部113−2の内部バッファ113bでの待機時間を、外部端末201〜206での音声出力と、映像表示部116の映像表示と、音声出力部115の音声出力とがそれぞれ同期するように決定し、決定した値をそれぞれ無線用音声送信部109、110、111の送信時刻制御部301、302、映像出力時刻制御部113−1、音声出力時刻制御部113−2に通知する。時刻制御部114は、テレビ会議端末10の内部時計を持ち、テレビ会議端末10の各部101、102、113−2、113−1、301、302、300、117、118、104、103、121、119、120、115、116、303、304において、データまたは信号が受信および送信された時刻を知ることができる。時刻制御部114の内部時計、映像出力時刻制御部113−1の内部時計、音声出力時刻制御部113−2の内部時計、無線用音声送信部109,110、111のそれぞれにおける送信時刻制御部301、302の内部時計はそれぞれ同期されていることが好ましい。または、これらの内部時計が1つに統一化し、各部はこの1つの内部時計を共通に使用して参照するようにしてもよい。時刻制御部114の動作の詳細は後述する。
音声入力部117はマイクなどを介して外部音声(たとえば参加者の音声、後述するテスト音声)の入力12を行い、映像入力部118は画像撮像手段などを介して外部映像(たとえば参加者の映像)の入力13を行う。
音声エンコーダ119は音声入力部117で入力された音声の信号をエンコード(符号化)し、映像エンコーダ120は映像入力部118で入力された映像の信号をエンコード(符号化)する。
音声映像多重化部121は、音声エンコーダ119で生成された符号化された音声信号と、映像エンコーダ120で生成された符号化された映像信号とを多重化して、多重化信号を生成する。音声映像多重化部121は、生成した多重化信号を音声映像送受信部101を介して他の地点(例えば地点A)の遠隔テレビ会議端末へ送信する。
図4は、図1のテレビ会議端末10および各外部端末201〜206の動作の流れを概略的に示すフローチャートである。
まず、音声映像送受信部101は地点Aからネットワーク2を介して音声映像多重化信号11を受信する(S11)。
音声映像分離部102は、音声映像送受信部101で受信した多重化信号を音声信号と映像信号に分離する(S12)。
分離された音声信号と映像信号とは音声出力時刻制御部113−2および映像出力時刻制御部113−1に入力される。音声出力時刻制御部113−2および映像出力時刻制御部113−1は、それぞれ入力された音声信号および映像信号をそれぞれの内部バッファ113b、113aに格納し、時刻制御部114によりそれぞれあらかじめ指定された時間だけ待機させた後、当該音声信号および映像信号を、音声デコーダ103と映像デコーダ104へ出力する。(S13、S16)。
音声デコーダ103と映像デコーダ104は、音声出力時刻制御部113−2および映像出力時刻制御部113−1から入力された音声信号と映像信号を復号化(デコード)し(S14、S17)、音声出力部115および映像表示部116は、復号化された音声信号および映像信号に基づき音声14および映像出力15を出力する(S15、S18)。
また、音声映像分離部102にて分離された音声信号は無線送信部112における各無線用音声送信部109、110、111に送られ、各無線用音声送信部109、110、111は、それぞれ受信した音声信号を、外部端末と接続している無線方式(少なくとも1種類)にて伝送できる信号形態に変換する(S19)。この変換は、各無線用音声送信部109、110、111における無線用音声信号生成部300(図3参照)において行う。
各無線用音声送信部109、110、111のそれぞれにおける無線用音声信号生成部300で変換された音声信号はそれぞれ送信時刻制御部301、302の内部バッファ301a、302bに格納され、時刻制御部114によりそれぞれあらかじめ指定された時間だけ待機させられる(S20)。
各無線用音声送信部109、110、111のそれぞれにおける送信時刻制御部301、302は、それぞれ待機時間が経過した後、それぞれ対応する送信ポート303、304を介して音声信号を、各外部端末201〜206へ送信する(S21)。
音声信号を受信した外部端末201〜206は、受信した音声信号を復号して、音声を出力する(S22)。
上述したように時刻制御部114は音声信号と映像信号がそれぞれ音声出力部115および映像表示部116で出力されるタイミングと、各外部端末で音声が出力されるタイミングとが一致するように、すなわち、映像表示部116および音声出力部115での映像表示および音声出力と、各外部端末の音声出力とが同期するように各内部バッファ113a、113b、301a、302bでの待機時間を決定する。以下、時刻制御部114による動作の詳細を説明する。
まず理解の簡単のため、音声出力のための外部端末が1台である状況を考える。この状況を図5に示す。図5の状況において、時刻制御部114による動作の流れを図6のフローチャートに示す。
時刻制御部114はテレビ会議端末10の全体制御を行うこともかねており、時刻制御部114はテレビ会議端末10と、音声出力装置となる外部端末213と間で無線接続を行うための制御を行う(S31)。この際の接続とは、外部端末213に音声信号を送信すれば、外部端末213が音声を出力できる状態を指す。
次に、テレビ会議端末10における音声映像送受信部101で、他の地点(例えば地点A)から送信された多重化信号11が受信されたら、時刻制御部114は、多重化信号11が受信されてから、当該多重化信号11に含まれる音声信号が外部端末213で再生出力されるまでの所要時間(合計遅延時間)T_outの計算を行う(S32)。
所要時間(合計遅延時間)T_outは、たとえば多重化信号が受信されてから送信時刻制御部301の内部バッファ301aに格納されるまでの時刻Taと、外部端末に音声信号を送信してから音声が実際に出力されるまでの時間Tbとの合計(Ta+Tb)として考えることができる。すなわち所要時間T_outは、内部バッファ301aでの待ち時間が実質的にない場合を想定した時間であるといえる。以下(1)時間Taと、(2)時間Tbの計算例を示す。
(1)まず時間Taの計算例を説明する。音声映像送受信部101で多重化信号11が受信されたとき、多重化信号11に含まれるタイムスタンプまたはシーケンス番号などのその信号固有の値(固有値)と、その多重化信号11が音声映像送受信部101に到着した時刻(多重化信号受信時刻)とを対応付けて時刻制御部114は内部記憶部に登録する。送信時刻制御部301(本例では外部端末が1台のみであるため1つの送信時刻制御部のみが存在する)に、多重化信号11から分離された音声信号が到着したときに、音声信号に含まれる固有値を送信時刻制御部301から時刻制御部11に通知する。この際、時刻制御部114はあらかじめ送信時刻制御部301に音声信号が到着したら(内部バッファ301aに音声信号が格納されたら)、当該音声信号から固有値を取り出して通知するように指示しておく。時刻制御部114は、送信時刻制御部301から通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、内部時計の現在時刻(音声格納時刻)との差分を計算する。この計算された差分を上記時間Taとして取得する。
(2)次に外部端末へ向けて音声信号を送信してから当該外部端末にて音声が実際に出力されるまでの時間Tbの計算例を示す。時間Tbの計算は本ステップS32の処理の中で行ってもよいし、本フローの処理を行う前に別途あらかじめ時間Tbの計算を行っておいてもよい。時刻Tbの計算のため、時刻制御部114は、テレビ会議端末10内部で用意したテスト音声信号を送信ポート303から外部端末213へ送信し、送信と同時にそのときの送信時刻を時刻制御部114は内部記憶部に記録する。またこのテスト音声信号の送信に応じて外部端末213から出力されたテスト音声を図1の音声入力部117に入力し、入力時刻を時刻制御部114の内部記憶部に記録する。これら入力時刻と送信時刻の差分を時間Tbとして取得する。音声入力部117で入力された音声が、外部端末213に送信した音声信号に起因するものであるかどうかの判別方法としては、パターンマッチングにより行ってもよいし、あるいは音声信号の送信時刻から閾値時間内に一定レベル以上の音声が入力されたらその音声を上記音声信号に起因する音声であると判別するようにしてもよい。このような計算方法を用いることで外部端末の無線の種類および外部端末内部での処理時間などを考慮して適切に時間Tbを計算できる。なお、音声信号を外部端末へ送信してから外部端末にて音声が出力されまでの時間の取得方法は、ここで示した方法に限定されるものではない。
時間Taおよび時間Tbの計算はそれぞれ1回のみ行っても良いし、各計算をそれぞれ複数回行って、その平均を時間Taおよび時間Tbとして取得してもよい。または所要時間T_outの計算を複数回行い、その平均を所要時間T_outとして取得しても良い。
一方、時刻制御部114は、テレビ会議端末10における音声映像送受信部101で多重化信号11が受信されてから、当該多重化信号11に含まれる映像信号および音声信号が、映像表示部116および音声出力部115で出力されるまでの所要時間(出力遅延時間)T_in1,T_in2の計算を行う(S33)。
所要時間(出力遅延時間)T_in1,T_in2は、たとえば多重化信号が受信されてから映像出力時刻制御部113−1および音声出力時刻制御部113−2のそれぞれの内部バッファ113a、113bに格納されるまでの時間と同一視して考えることができる。すなわち所要時間T_in1,T_in2は、内部バッファ113a、113bでの待ち時間が実質的にない場合を想定した時間であるといえる。これらの所要時間の大半は映像デコーダ104および音声デコーダ103での処理が占めるため、それぞれの内部バッファ113a、113bから映像信号および音声信号を取り出してから映像表示部116および音声出力部115で出力される間での時間は誤差の範囲内として無視しても支障はない。もしこれらの時間も細かく考慮する必要がある場合は設計段階でこれらの時間を取得しておき、所要時間T_in1,T_in2の計算の際は、これらの時間を加算すればよい。
所要時間T_in1,T_in2の計算のため、時刻制御部114は音声映像送受信部101で多重化信号11が受信されたとき、多重化信号11に含まれるタイムスタンプまたはシーケンス番号などのその信号固有の値(固有値)と、その多重化信号11が音声映像送受信部101に到着した時刻(多重化信号受信時刻)とを対応付けて内部記憶部に登録する。映像出力時刻制御部113−1および音声出力時刻制御部113−2に、多重化信号11から分離された映像信号および音声信号が到着したときに、映像信号および音声信号に含まれる固有値を映像出力時刻制御部113−1および音声出力時刻制御部113−2から時刻制御部114に通知する。この際、時刻制御部114はあらかじめ映像出力時刻制御部113−1および音声出力時刻制御部113−2に映像信号および音声信号が到着したら(それぞれの内部バッファ113a、113bに映像信号および音声信号が格納されたら)、当該映像信号および音声信号からそれぞれ固有値を取り出して通知するように指示しておく。時刻制御部14は、映像出力時刻制御部113−1および音声出力時刻制御部113−2から通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、そのときの内部時計の現在時刻(映像格納時刻および音声格納時刻)との差分をそれぞれ計算する。これらの差分を所要時間T_in1,T_in2として取得する。
時刻制御部114は、このようにステップS32、S33で取得した所要時間T_in1,T_in2、T_outをたとえば図7のような形式で記憶する。
ステップS32とS33の処理では音声映像送受信部101での多重化信号の受信時に行う記録(多重化信号11の受信時刻の記録と、固有値の記録)は共通するためこれらの記録処理はステップS32とS33で共通に行えばよい。
次に、ステップS32で計算された所要時間T_out、ステップS33で計算された所要時間T_in1、T_in2のうちの最大時間Tmaxを取得する(S34)。すなわちTmax=max(T_out,T_in1,Tin_2)として定義される。例えば映像信号のデコードに多くの時間を要する場合、Tmax=T_in1となり、音声信号のデコードに多くの時間を要する場合、Tmax=T_in2となり、音声信号の送信から外部端末での音声出力までに多くの時間を要する場合、Tmax=T_outとなる。
最大時間Tmaxが取得されたら、時刻制御部114は、映像出力時刻制御部113−1に対し、差分時間Tmax-T_in1を待機時間として通知し、これにより差分時間(待機時間)Tmax-T_in1だけ映像信号を内部バッファ113aに待機させてから出力するように指示する(S35)。
また時刻制御部114は、音声出力時刻制御部113−2に対し、差分時間Tmax-T_in2を待機時間として通知し、これにより差分時間(待機時間)Tmax-T_in2だけ音声信号を内部バッファ113bに待機させてから出力するように指示する(S36)。
また時刻制御部114は、送信時刻制御部301に対し、差分時間Tmax-T_outを待機時間として通知し、これにより差分時間(待機時間)Tmax-T_outだけ音声信号を内部バッファ301aに待機させてから出力するように指示する(S37)。
なおステップS35〜S37で得られた差分時間(待機時間)のうちいずれかはゼロとなるため、映像出力時刻制御部113−1、音声出力時刻制御部113−2、送信時刻制御部301のいずれかの内部バッファでの待機時間はゼロとなる。
以上に述べたステップS31〜S37の処理により、テレビ会議端末10での映像表示および音声出力、ならびに外部端末での音声出力が同期され、これによりリップシンクが実現される。すなわち、T_in1 > T_outのとき、もし本フローによる時刻制御を行わないと、テレビ会議端末10の映像出力よりもおよそT_in1 - T_out = T_subだけ早いタイミングで、外部端末で音声が出力されてしまい、逆に、T_out > T_in1のとき、もし本フローによる制御を行わないと、テレビ会議端末10からの映像がT_out - T_in = T_subだけ、外部端末から音声が出力される時刻より早く出力されてしまう。またT_in2 > T_outのとき、もし本フローによる時刻制御を行わないと、テレビ会議端末10の音声出力よりもおよそT_in2 - T_out = T_subだけ早いタイミングで、外部端末で音声が出力されてしまい、逆に、T_out > T_in2のとき、もし本フローによる制御を行わないと、テレビ会議端末10からの音声がT_out - T_in = T_subだけ、外部端末から音声が出力される時刻より早く出力されてしまう。これに対し、本実施形態によれば以上のように時刻制御部114によるタイミング制御により、テレビ会議端末の映像表示および音声出力と、外部端末での音声出力が同時に行われ、これにより遠隔話者の映像と音声のリップシンクが実現される。
なお、上記フローにおいて処理の最初に受信された多重化信号における映像信号および音声信号については待機時間の通知前に内部バッファに格納されることとなり、また時刻制御部114の処理の完了前に受信された多重化信号における映像信号および音声信号も、待機時間の通知前に内部バッファに格納される場合がある。このような場合は、たとえば内部バッファに入った映像信号/音声信号を逐次出力する(たとえば待機時間ゼロで出力)ようにすれば処理上の問題はないものと思われる。この場合、映像と音声とのリップシンクは一時的に得られなくなるが、待機時間の通知後は、上記説明に従って、映像と音声のリップシンクが達成されるため、このように取り扱ってもさして問題はない。
また、本実施の形態のテレビ会議端末10では映像表示部116および音声出力部115により映像表示および音声出力の両方を行うが、映像表示部116による映像表示のみを行う場合は、ステップS33で所要時間T_in2の計算を省略し、ステップS34でのTmaxの計算の際、T_in2を計算対象から除外し、またステップS36は省略すればよい。この場合もテレビ会議端末10での映像表示と外部端末での音声出力との同期を図ることができる。また逆に、音声出力部115による音声出力のみを行う場合は、ステップS33で所要時間T_in1の計算を省略し、ステップS34でのTmaxの計算の際、T_in1を計算対象から除外し、またステップS36は省略すればよい。この場合もテレビ会議端末10での音声出力と外部端末での音声出力との同期を図ることができる。
なお、多重化信号が受信されてから映像出力時刻制御部113−1および音声出力時刻制御部113−2の内部バッファ113a、113bに格納されるまでの時間が同一であるように設計されている場合は、所要時間T_in1,T_in2は同一と見なせるため、この場合は、所要時間T_in1,T_in2のどちらか一方のみを計算するようにしてもよい。
ここまでは、音声出力のための外部端末が1台である状況を考えたが、次に、テレビ会議端末10に対し外部端末が複数台接続され、かつ、複数種の無線方式が存在する状況を考える。この状況の一例を図8に示す。図8において2台の無線A対応外部端末1、2と、2台の無線B対応外部端末3、4が示される。無線方式Aおよび無線方式Bとは、それぞれIEEE802.11規格およびBluetooth規格とする。ただし、無線規格はこれに限らず、IrDA規格でもよく、また、無線方式Aと無線方式Bが同じ無線通信規格であってもかまわない。
図8の状況において、時刻制御部114による動作の流れを図9のフローチャートに示す。図6のフローの説明と重複する記載は、記載の簡略化のため省略する。
時刻制御部114はテレビ会議端末10と外部端末1〜4間で無線接続を行うための制御を行う(S41)。
次に、テレビ会議端末10における音声映像送受信部101で、他の地点(例えば地点A)から送信された多重化信号11が受信されたら、時刻制御部114は、多重化信号11が受信されてから、当該多重化信号11に含まれる音声信号が各外部端末1〜4で再生出力されるまでの所要時間T_out1〜T_out4の計算を行う(S42)。所要時間T_out1〜T_out4は、図6の説明と同様に、多重化信号が受信されてから送信時刻制御部1〜4(ここでは外部端末1〜4に対応する送信時刻制御部を送信時刻制御部1〜4として表す)の内部バッファ1〜4に格納されるまでの時刻Ta1〜Ta4と、外部端末1〜4に音声信号を送信してから音声が出力されるまでの時間Tb1〜Tb4との合計(Ta1+Tb1)、(Ta2+Tb2)、(Ta3+Tb3)、(Ta4+Tb4)として考えることができる。時間Ta1〜Ta4の計算方法、時間Tb1〜Tb4の計算方法は図6の説明と同様の方法を用いればよい。ただし、テスト音声を用いて時間Tb1〜Tb4を計測する場合、外部端末1〜4から同時にテスト音声が出力されないように各外部端末1〜4に順番にテスト音声を送信するものとする。
一方、時刻制御部114は、テレビ会議端末10における音声映像送受信部101で多重化信号11が受信されてから、当該多重化信号11に含まれる映像信号および音声信号が、映像表示部116および音声出力部115で出力されるまでの所要時間T_in1,T_in2の計算を行う(S43)。所要時間T_in1,T_in2の計算も図6で示した方法を用いることができる。
時刻制御部114はステップS42、S43で取得した所要時間T_in1,T_in2、T_out1、T_out2、T_out3、T_out4、をたとえば図10のような形式で記憶する。
次に、ステップS42で計算された所要時間T_out1〜T_out4、ステップS43で計算された所要時間T_in1、T_in2のうちの最大時間Tmaxを取得する(S44)。すなわちTmax=max(T_out1, T_out2, T_out3, T_out4,T_in1,Tin_2)として定義される。
最大時間Tmaxが取得されたら、時刻制御部114は、映像出力時刻制御部113−1に対し、差分時間Tmax-T_in1を待機時間として通知し、これにより差分時間(待機時間)Tmax-T_in1だけ映像信号を内部バッファ113aに待機させてから出力するように指示する(S45)。
また時刻制御部114は、音声出力時刻制御部113−2に対し、差分時間Tmax-T_in2を待機時間として通知し、これにより差分時間(待機時間)Tmax-T_in2だけ音声信号を内部バッファ113bに待機させてから出力するように指示する(S46)。
また時刻制御部114は、外部端末1〜4に対応する送信時刻制御部1〜4に対し、差分時間Tmax-T_outX (X = 1,2,3,4)を待機時間として通知する(S47)。すなわち送信時刻制御部1に差分時間Tmax-T_out1を通知し、送信時刻制御部2に差分時間(待機時間)Tmax-T_out2を通知し、送信時刻制御部3に差分時間(待機時間)Tmax-T_out3を通知し、送信時刻制御部4に差分時間(待機時間)Tmax-T_out4を通知する。これにより送信時刻制御部1〜4に対し、それぞれ差分時間(待機時間)Tmax-T_outX (X = 1,2,3,4)だけ音声信号を内部バッファ1〜4に待機させてから出力するように指示する。
以上の手順により、テレビ会議端末10へ接続される外部端末数が増えた場合でも、テレビ会議端末10と全ての外部端末との間で映像と音声の同期を取ることができ、リップシンクを実現することが可能となる。
以上のように本実施形態によれば、各外部端末への音声送信タイミングと、テレビ会議端末における映像および音声の出力タイミングを調整することにより、テレビ会議端末での映像表示と各外部端末での音声表示とが同期するため遠隔者のリップシンクが可能となる。またテレビ会議端末での音声出力と、各外部端末での音声表示とが同期するため、各外部端末のユーザにテレビ会議端末の音声が漏れる状況においても、違和感のないテレビ会議を行うことが可能となる。
(第2の実施形態)
第1の実施形態では映像デコーダ104および音声デコーダ103が映像出力時刻制御部113−1および音声出力時刻制御部113−2の前段に配置されていたが、本実施の形態では後段に配置される例を示す。
図11は第2の実施形態に係るテレビ会議端末の構成を示すブロック図である。以下第1の実施形態との差分についてのみ説明し、第1の実施形態と重複する説明は省略する。
音声映像分離部102は、多重分離して得た映像信号を第2−1の転送経路402を介して映像出力時刻制御部113−1に送り、分離された音声信号を第2−2の転送経路403を介して音声出力時刻制御部113−2に送る。
映像出力時刻制御部113−1は、音声映像分離部102から転送された映像信号を内部バッファ(出力制御バッファ)113aに格納し時刻制御部114からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ113aから取り出して映像デコーダ104に出力する。
音声出力時刻制御部113−2は、音声映像分離部102から転送された音声信号を内部バッファ(音声出力制御バッファ)113bに格納して時刻制御部114からあらかじめ指定された待機時間だけ待機させ、当該待機時間が経過したら、当該音声信号を内部バッファ113bから取り出して音声デコーダ103に出力する。
映像デコーダ104は、映像出力時刻制御部113−1から入力された映像信号を復号し、映像出力部116は復号された映像信号に基づく映像表示を行う。
音声デコーダ103は、音声出力時刻制御部113−2から入力された音声信号を復号し、音声出力部115は、復号された音声信号に基づき音声を出力する。
本実施形態では音声映像分離部102により分離された映像信号および音声信号は同時に映像出力時刻制御部113−1および音声出力時刻制御部113−2に入力さになるように構成され、また映像デコーダ104および音声デコーダ103での処理時間はそれぞれ同一又は略同一の長さであるとする。したがって、映像デコーダ104および音声デコーダ103に同時に映像信号および音声信号を入力すれば映像表示部116と音声出力部115において映像と音声が同期して出力される。つまり本実施形態では当該多重化信号に含まれる映像信号および音声信号が、映像表示部116および音声出力部115で出力されるまでの所要時間T_in1,T_in2は互いに同じであるとみなせ、映像出力時刻制御部113−1および音声出力時刻制御部113−2に対しそれぞれ同一の待機時間を指定するものとする。
映像出力時刻制御部113−1、映像デコーダ104および映像表示部116は本発明の映像表示処理手段1010を形成する。音声出力時刻制御部113−2、音声デコーダ103および音声出力部115は本発明の音声出力処理手段1020を形成する。
図12は時刻制御部(第3の制御手段)114による動作の流れを示すフローチャートである。ここでは第1の実施形態で用いた図5のように1台の外部端末が接続している状況を想定するが、図8のように複数の外部端末が接続している場合も図9に示したフローに準じて容易に図12のフローを拡張できることは明白であり、よって複数の外部端末が接続している場合の処理の説明は省略する。
時刻制御部114はテレビ会議端末10と外部端末213間で無線接続を行うための制御を行う(S51)。
次に、テレビ会議端末10における音声映像送受信部101で多重化信号11が受信されたら、時刻制御部114は、多重化信号11が受信されてから、当該多重化信号11に含まれる音声信号が外部端末213で再生出力されるまでの所要時間T_outの計算を行う(S52)。所要時間T_outの計算方法は第1の実施形態と同様にして行えばよい。
一方、時刻制御部114は、多重化信号11が受信されてから、当該多重化信号11に含まれる映像信号および音声信号が、映像表示部116および音声出力部115で出力されるまでの所要時間T_in1,T_in2の計算を行う(S53)。本実施形態では上述の理由により所要時間T_in1,T_in2は同一であるため所要時間T_in1,T_in2のいずれか一方を計算すれば良く、以下ではこれらT_in1,T_in2を所要時間T_inに統一して表記する。
所要時間T_inは、多重化信号が受信されてから映像出力時刻制御部113−1または音声出力時刻制御部113−2のそれぞれの内部バッファ113aまたは113bに格納されるまでの時間Tcと、映像デコーダ104または音声デコーダ103の処理時間(復号時間)Tdとの合計として考えることができる。
時間Tcの計算方法は第1の実施形態と同様の方法を用いればよい。すなわち多重化信号11の受信時に、多重化信号11に含まれる固有値と、その多重化信号11の受信時刻(多重化信号受信時刻)とを対応付けて時刻制御部114の内部記憶部に登録する。そして映像出力時刻制御部113−1または音声出力時刻制御部113−2に、映像信号または音声信号が到着したときに、映像信号または音声信号に含まれる固有値を時刻制御部114に通知し、時刻制御部14は、通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、内部時計の時刻(映像格納時刻または音声格納時刻)との差分を時間Tcとして得る。
一方時間Tdについては設計段階であらかじめ取得可能であるため、この値をテレビ会議端末10に記憶させておき、時刻制御部114はこの値を時間Tdとして用いる。
時刻制御部114はこのように取得した時間Tcと時間Tdとを合計することにより所要時間T_inを得る。
次に、ステップS52で計算された所要時間T_out、ステップS53で計算された所要時間T_inのうちの最大時間Tmaxを取得する(S54)。
最大時間Tmaxが取得されたら、時刻制御部114は、映像出力時刻制御部113−1および音声出力時刻制御部113−2に対し、差分時間Tmax-T_inを待機時間として通知し、これにより差分時間(待機時間)Tmax-T_inだけ映像信号および音声信号を内部バッファ113a、113bに待機させてから出力するように指示する(S55、S56)。
また時刻制御部114は、送信時刻制御部301に対し、差分時間Tmax-T_outを待機時間として通知し、これにより差分時間(待機時間)Tmax-T_outだけ音声信号を内部バッファ301aに待機させてから出力するように指示する(S57)。
また上記フローでは所要時間T_outを時間Taおよび時間Tbの合計として計算し、所要時間T_inを時間Tcと時間Tdとの合計として計算したが、音声映像分離部102から送信時刻制御部301までの時間と、音声映像分離部102から映像出力時刻制御部113−1/音声出力時刻制御部113−2までの時間とが同一であると見なせることがあらかじめ分かっている場合は、所要時間T_out=時間Tb、所要時間T_in=Tdとして計算するようにしてもよい。
以上のように本実施の形態によれば、映像デコーダおよび音声デコーダが映像出力時刻制御部113−1および音声出力時刻制御部113−2の後段に配置されている場合であっても、テレビ会議端末での映像表示および音声出力と、外部端末での音声出力とを同期させることが可能である。
(第3の実施形態)
第1および第2の実施形態では映像デコーダおよび音声デコーダを備え、符号化された映像信号と符号化された音声信号とを含む多重化信号を受信するテレビ会議端末の例を示したが、本実施の形態では映像デコーダおよび音声デコーダを備えず、符号化されていない映像信号と符号化されていない音声信号とを含む多重化信号を受信するテレビ会議端末の例を示す。
図13は、本発明の第3の実施形態に係るテレビ会議端末の構成を示すブロック図である。以下第1の実施形態との差分についてのみ説明し、第1の実施形態と重複する説明は省略する。
音声映像分離部102は、多重分離して得た映像信号を第2−1の転送経路402を介して映像出力時刻制御部113−1に送り、分離された音声信号を第2−2の転送経路403を介して音声出力時刻制御部113−2に送る。
映像出力時刻制御部113−1は、音声映像分離部102から転送された映像信号を内部バッファ(出力制御バッファ)113aに格納し時刻制御部114からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ113aから取り出して映像表示部116に出力する。映像出力部116は入力された映像信号に基づく映像表示を行う。
音声出力時刻制御部113−2は、音声映像分離部102から転送された音声信号を内部バッファ(音声出力制御バッファ)113bに格納して時刻制御部114からあらかじめ指定された待機時間だけ待機させ、当該待機時間が経過したら、当該音声信号を内部バッファ113bから取り出して音声出力部115に出力する。音声出力部115は、入力された音声信号に基づき音声を出力する。
時刻制御部114の動作は基本的に第1の実施形態と同様であり、図6に示した処理を行う。映像出力時刻制御部113−1および音声出力時刻制御部113−2の前段に映像デコーダおよび音声デコーダが存在しない分、ステップS33で計算される所要時間T_in1、T_in2の値は小さくなるがそれ以外の点については第1の実施形態と同様である。したがって、時刻制御部114の詳細な動作説明は省略する。
映像出力時刻制御部113−1および映像表示部116は本発明の映像表示処理手段1100を形成する。音声出力時刻制御部113−2および音声出力部115は本発明の音声出力処理手段1200を形成する。
なお図13の構成では音声エンコーダ119および映像デコーダ120が備え付けられているがこれらの要素119、120が存在しない構成を採用することも可能である。
本実施形態でも第2の実施形態と同様の考えに準じて、音声映像分離部102から送信時刻制御部301までの時間と、音声映像分離部102から映像出力時刻制御部113−1/音声出力時刻制御部113−2までの時間とが互いに同一であると見なせる場合は、所要時間T_out=時間Tb、所要時間T_in=0として計算するようにしてもよい。
以上のように本実施の形態によれば映像デコーダおよび音声デコーダが存在しないテレビ会議端末においても、テレビ会議端末における映像表示および音声出力と、外部端末における音声出力との同期を図ることができる。
なお、以上に説明した第1〜第3の実施形態におけるテレビ会議端末は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、テレビ会議端末における各要素(ブロック)は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、テレビ会議端末は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
101:音声映像送受信部
102:音声映像分離部
103:音声デコーダ
104:映像デコーダ
109:無線A用音声送信部
110:無線B用音声送信部
111:無線C用音声送信部
113−1:映像出力時刻制御部
113−2:音声出力時刻制御部
113a:内部バッファ(映像出力制御バッファ)
113b:内部バッファ(音声出力制御バッファ)
114:時刻制御部(第1〜第3の制御手段)
112:無線送信部
115:音声出力部
116:映像表示部
117:音声入力部
118:映像入力部
119:音声エンコーダ
120:映像エンコーダ
300:無線用音声信号生成部
301、302:送信時刻制御部
301a、302a:内部バッファ(送信制御バッファ)
303、304:送信ポート
201〜206、211〜213:無線対応外部端末
401〜404:転送手段(転送経路)
1001:映像表示処理手段
1002:音声出力処理手段

Claims (9)

  1. 第1〜第n(nは1以上の整数)の外部端末と通信する通信端末であって、
    ネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する音声映像受信手段と、
    前記多重化信号を前記映像信号と前記音声信号とへ分離する分離手段と、
    前記分離手段により分離された前記映像信号を一時的に格納する映像出力制御バッファを有し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理手段と、
    それぞれ前記分離手段により分離された前記音声信号を一時的に格納する第1〜第nの送信制御バッファを有し、前記第1〜第nの送信制御バッファから前記音声信号を取り出して前記第1〜第nの外部端末へ送信する第1〜第n送信処理手段と、を備え、
    前記第1〜第nの送信処理手段は、前記第1〜第nの外部端末へ前記音声信号を送信してから前記第1〜第nの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第1〜第nの時間Tbのうち最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させてから前記音声信号を送信し、
    前記映像表示処理手段は、前記第1〜第nの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
    ことを特徴とする通信端末。
  2. 音声を入力する音声入力手段と、
    前記第1〜第nの送信処理手段を用いて、前記第1〜第nの外部端末に第1〜第nのテスト音声信号を送信し、
    前記第1〜第nの外部端末で前記第1〜第nのテスト音声信号に応じて出力される第1〜第nのテスト音声が前記音声入力手段に入力された第1〜第nの入力時刻を記録し、
    前記第1〜第nの入力時刻と、前記第1〜第nのテスト音声信号を送信した第1〜第nの送信時刻との差分を計算することにより前記第1〜第nの時間Tbを取得する
    第1の制御手段と
    をさらに備えたことを特徴とする請求項1に記載の通信端末。
  3. 前記分離手段により分離された前記音声信号を一時的に格納する音声出力制御バッファを有し、前記音声出力制御バッファから前記音声信号を取り出して前記音声信号に基づいて音声を出力する音声出力処理手段をさらに備え、
    前記音声出力処理手段は、前記第1〜第nの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記音声信号を前記音声出力制御バッファに待機させてから前記音声信号に基づいて音声を出力する
    ことを特徴とする請求項1または2に記載の通信端末。
  4. 第2の制御手段をさらに備え、
    前記映像表示処理手段は、前記分離手段により分離された前記映像信号を復号する復号手段を有し、前記映像出力制御バッファは、前記復号された映像信号を格納し、前記映像表示処理手段は、前記映像出力制御バッファから前記復号された映像信号を取り出して前記復号された映像信号に基づいて映像を表示し、
    前記第2の制御手段は、
    前記音声映像受信手段で前記多重化信号が受信された時刻である多重化信号受信時刻と、前記復号された映像信号が前記映像出力制御バッファに格納された映像格納時刻と、前記音声信号が前記第1〜第nの送信制御バッファに格納された第1〜第n音声格納時刻とを計測し、
    前記映像格納時刻と前記多重化信号受信時刻との差分である出力遅延時間T_in1を計算し、前記第1〜第n音声格納時刻と前記多重化信号受信時刻との第1〜第nの差分Taと、前記第1〜第nの時間Tbとの合計である第1〜第nの合計遅延時間T_outを計算し、
    前記映像表示処理手段は、前記第1〜第nの合計遅延時間T_outおよび前記出力遅延時間T_in1のうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記復号された映像信号を前記映像出力制御バッファに待機させ
    前記第1〜第nの送信処理手段は、前記最も長い時間Tmaxと、前記第1〜第nの合計遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させる
    ことを特徴とする請求項1または2に記載の通信端末。
  5. 前記分離手段により分離された前記音声信号を一時的に格納する音声出力制御バッファを有し、前記音声出力制御バッファから前記音声信号を取り出して前記音声信号に基づいて音声を出力する音声出力処理手段をさらに備え、
    前記音声出力処理手段は、前記分離手段により分離された前記音声信号を復号する復号手段を有し、前記音声出力制御バッファは、前記復号された音声信号を格納し、前記音声出力処理手段は、前記音声出力制御バッファから前記復号された音声信号を取り出して前記復号された音声信号に基づいて音声を出力し、
    前記第2の制御手段は、
    前記復号された音声信号が前記音声出力制御バッファに格納された音声格納時刻を計測し、
    前記音声格納時刻と前記多重化信号受信時刻との差分である出力遅延時間T_in2を計算し、
    前記映像表示処理手段は、前記第1〜第nの合計遅延時間T_outおよび前記出力遅延時間T_in1,T_int2のうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記復号された映像信号を前記映像出力制御バッファに待機させ、
    前記音声出力処理手段は、前記最も長い時間Tmaxと、前記出力遅延時間T_in2との差分に応じた時間だけ前記復号された音声信号を前記音声出力制御バッファに待機させ、
    前記第1〜第nの送信処理手段は、前記最も長い時間Tmaxと、前記第1〜第nの合計遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させる
    ことを特徴とする請求項4に記載の通信端末。
  6. 前記映像表示処理手段は、前記映像出力制御バッファから取り出した映像信号を復号する復号手段を有し、前記復号手段により復号した映像信号に基づき映像を表示し、
    前記映像表示処理手段は、前記映像信号の復号に要する時間として事前に与えられた復号時間Tdと前記第1〜第nの時間Tbとのうち最も長い時間Tmaxと、前記復号時間Tdとの差分に応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させ、
    前記第1〜第nの送信処理手段は、前記最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させる
    ことを特徴とする請求項1または2に記載の通信端末。
  7. 前記音声映像受信手段で前記多重化信号が受信された時刻である多重化信号受信時刻と、前記映像信号が前記映像出力制御バッファに格納された映像格納時刻と、前記音声信号が前記第1〜第の送信制御バッファに格納された第1〜第n音声格納時刻とを計測し、
    前記映像格納時刻と前記多重化信号受信時刻との差分Tcと、前記復号時間Tdとの合計である出力遅延時間T_in1を計算し、前記第1〜第n音声格納時刻と前記多重化信号受信時刻との第1〜第nの差分Taと、前記第1〜第nの時間Tbとの合計である第1〜第nの送信遅延時間T_outを計算する、
    第3の制御手段、をさらに備え、
    前記映像表示処理手段は、前記出力遅延時間T_in1および前記第1〜第nの送信遅延時間T_outのうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させ
    前記第1〜第nの送信処理手段は、前記最も長い時間Tmaxと、前記第1〜第nの送信遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させる
    ことを特徴とする請求項6に記載の通信端末。
  8. 第1〜第n(nは1以上の整数)の外部端末と通信する通信方法であって、
    音声映像受信手段がネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する多重化信号受信ステップと、
    分離手段が前記多重化信号を前記映像信号と前記音声信号とへ分離する分離ステップと、
    映像表示処理手段が前記分離手段により分離された前記映像信号を映像出力制御バッファに一時的に格納し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理ステップと、
    第1〜第nの送信処理手段が前記分離ステップにより分離された前記音声信号を第1〜第nの送信制御バッファのそれぞれに一時的に格納し、前記第1〜第nの送信制御バッファから前記音声信号を取り出して前記第1〜第nの外部端末へ送信する送信処理ステップと、を備え、
    前記送信処理ステップは、前記第1〜第nの外部端末へ前記音声信号を送信してから前記第1〜第nの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第1〜第nの時間Tbのうち最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させてから前記音声信号を送信し、
    前記映像表示処理ステップは、前記第1〜第nの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
    ことを特徴とする通信方法。
  9. 第1〜第n(nは1以上の整数)の外部端末と通信するコンピュータに、
    音声映像受信手段がネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する多重化信号受信ステップと、
    分離手段が前記多重化信号を前記映像信号と前記音声信号とへ分離する分離ステップと、
    映像表示処理手段が前記分離手段により分離された前記映像信号を映像出力制御バッファに一時的に格納し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理ステップと、
    第1〜第nの送信処理手段が前記分離手段により分離された前記音声信号を第1〜第nの送信制御バッファのそれぞれに一時的に格納し、前記第1〜第nの送信制御バッファから前記音声信号を取り出して前記第1〜第nの外部端末へ送信する送信処理ステップと、を実行させ、
    前記送信処理ステップは、前記第1〜第nの外部端末へ前記音声信号を送信してから前記第1〜第nの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第1〜第nの時間Tbのうち最も長い時間Tmaxと、前記第1〜第nの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第1〜第nの送信制御バッファに待機させてから前記音声信号を送信し、
    前記映像表示処理ステップは、前記第1〜第nの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
    ことを特徴とするコンピュータプログラム。
JP2009063214A 2009-03-16 2009-03-16 通信端末、通信方法およびコンピュータプログラム Pending JP2010219783A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009063214A JP2010219783A (ja) 2009-03-16 2009-03-16 通信端末、通信方法およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009063214A JP2010219783A (ja) 2009-03-16 2009-03-16 通信端末、通信方法およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2010219783A true JP2010219783A (ja) 2010-09-30

Family

ID=42978155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009063214A Pending JP2010219783A (ja) 2009-03-16 2009-03-16 通信端末、通信方法およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2010219783A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013132562A1 (ja) * 2012-03-08 2013-09-12 パナソニック株式会社 映像音声処理装置および映像音声処理方法
WO2014079301A1 (zh) * 2012-11-21 2014-05-30 中兴通讯股份有限公司 一种会议电视终端及其自恢复控制方法和相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004282667A (ja) * 2003-03-19 2004-10-07 Matsushita Electric Ind Co Ltd 再生同期ずれ補正機能を備えた送信機及び受信機、並びにそれらを有する伝送装置
JP2007013707A (ja) * 2005-06-30 2007-01-18 Sony Corp ワイヤレススピーカシステム、音声信号送信装置、再生音位相同期装置、再生音位相同期方法並びに再生音位相同期プログラム
JP2007159092A (ja) * 2005-11-11 2007-06-21 Sharp Corp 映像音声処理本体装置およびその制御方法、音声処理端末装置およびその制御方法、音声処理本体装置、映像音声処理システム、映像音声処理本体装置制御プログラム、音声処理端末装置制御プログラム、ならびに該プログラムを記録した記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004282667A (ja) * 2003-03-19 2004-10-07 Matsushita Electric Ind Co Ltd 再生同期ずれ補正機能を備えた送信機及び受信機、並びにそれらを有する伝送装置
JP2007013707A (ja) * 2005-06-30 2007-01-18 Sony Corp ワイヤレススピーカシステム、音声信号送信装置、再生音位相同期装置、再生音位相同期方法並びに再生音位相同期プログラム
JP2007159092A (ja) * 2005-11-11 2007-06-21 Sharp Corp 映像音声処理本体装置およびその制御方法、音声処理端末装置およびその制御方法、音声処理本体装置、映像音声処理システム、映像音声処理本体装置制御プログラム、音声処理端末装置制御プログラム、ならびに該プログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013132562A1 (ja) * 2012-03-08 2013-09-12 パナソニック株式会社 映像音声処理装置および映像音声処理方法
JP2013187765A (ja) * 2012-03-08 2013-09-19 Panasonic Corp 映像音声処理装置
US20140376873A1 (en) * 2012-03-08 2014-12-25 Panasonic Corporation Video-audio processing device and video-audio processing method
WO2014079301A1 (zh) * 2012-11-21 2014-05-30 中兴通讯股份有限公司 一种会议电视终端及其自恢复控制方法和相关设备

Similar Documents

Publication Publication Date Title
JP3544963B2 (ja) 同期再生のための方法および装置
JP6172610B2 (ja) テレビ会議用システム
JP2007097185A (ja) マルチメディアストリームにおける同期化ウォーターマーキング
CN109168059B (zh) 一种在不同设备上分别播放音频与视频的唇音同步方法
KR20170061100A (ko) 매체 동기화 방법, 장치, 프로그램 및 컴퓨터 판독가능한 기록매체
TW200806050A (en) Method and system for synchronizing audio and video data signals
WO2018204117A1 (en) Web real-time communication from an audiovisual file
US20220021980A1 (en) Terminal, audio cooperative reproduction system, and content display apparatus
JP2004304601A (ja) Tv電話装置、tv電話装置のデータ送受信方法
JP2010157906A (ja) 映像表示装置
JP2010219783A (ja) 通信端末、通信方法およびコンピュータプログラム
JP4534201B2 (ja) 情報コミュニケーション端末装置
JP2015012557A (ja) 映像音声処理装置、映像音声処理システム、映像音声同期方法、プログラム
JP2006033743A (ja) 送信装置、受信装置、及び送受信装置
JP6956354B2 (ja) 映像信号出力装置、制御方法、及び、プログラム
JP5340880B2 (ja) 遠隔会話システムの出力制御装置、その方法、およびコンピュータが実行可能なプログラム
CN113422997B (zh) 一种播放音频数据的方法、装置及可读存储介质
JPH0519729A (ja) 画像装置ならびにその音量制御方法
JP2008131591A (ja) リップシンク制御装置及びリップシンク制御方法
JP2015171065A (ja) システムおよび方法
KR20090010385A (ko) 화상 통신 단말의 화상 통화 녹화 방법 및 장치
JP5434390B2 (ja) 電子会議システム、多地点接続装置、データ通信方法、プログラム、記録媒体及び通信装置
JP4669366B2 (ja) インターホン装置
JP6481937B2 (ja) テレビ会議用通信装置
JP2015046708A (ja) 通信システム、通信方法、送信側同期信号配信装置、送信側同期制御装置、受信側同期信号配信装置、受信側同期制御装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121102

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130125