JP2010219783A

JP2010219783A - 通信端末、通信方法およびコンピュータプログラム

Info

Publication number: JP2010219783A
Application number: JP2009063214A
Authority: JP
Inventors: Munehiro Tokikura; 倉宗大時; Shinya Murai; 井信哉村; Takuya Kawamura; 村卓也川
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-16
Filing date: 2009-03-16
Publication date: 2010-09-30

Abstract

【課題】テレビ会議端末の映像表示と各外部端末における音声表示とのリップシンクを図る。
【解決手段】本発明の通信端末は、第１〜第ｎの外部端末と通信する通信端末であって、ネットワークを介して受信した多重化信号を映像信号と音声信号とへ分離する分離手段と、前記映像信号に基づき映像表示を行う映像表示処理手段と、それぞれ前記音声信号を前記第１〜第ｎの外部端末へ送信する第１〜第ｎ送信処理手段と、を備え、前記第１〜第ｎの送信処理手段は、前記第１〜第ｎの外部端末へ前記音声信号を送信してから音声が出力されるまでの所要時間として事前に取得された第１〜第ｎの時間Tbのうち最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を待機させてから前記音声信号を送信し、前記映像表示処理手段は、前記最も長い時間Tmaxに応じた時間だけ前記映像信号を待機させてから前記映像信号に基づいて映像を表示する。
【選択図】図１

Description

本発明は、通信端末、通信方法およびコンピュータプログラムに関し、たとえば画像と音声の同期方法に関する。

従来の会議電話などの音声専用のテレビ会議端末では、一つの拠点での会議参加者が複数人になると、テレビ会議端末からの距離によっては、各参加者がそれぞれ適切な音量で音声を聞くことはできなかった。そのため、音声を用いたテレビ会議端末の場合、専用のヘッドセット等の個人向け音声出力装置（外部端末）を会議参加者各人へ用意（配布）し、各人が所望の音量で音声を聴くものがあった。

また、特許文献１に開示されているように、テレビ会議端末において、音声の入出力装置としてIP電話端末や無線LAN登載携帯電話端末を別途用い、それらの電話端末から音声を再生する技術がある。

特開２００６−１１５３７７公報

一方、音声と映像を用いるテレビ会議端末では、音声と映像の再生時間にずれが発生すると違和感があることから、これを避けるためには音声と映像の再生時間について同期をとる必要がある。しかし、テレビ会議端末（通信端末）に搭載されたスピーカで音声を再生する時間と、当該テレビ会議端末のモニタで映像を再生する時間が同期する（リップシンクする）ように設計されている場合において、各参加者に上述したように別途用意（配布）した電話端末等の音声出力装置（外部端末）を用いて音声を再生すると、テレビ会議端末の表示映像と、各参加者の音声出力装置での出力音声の同期が外れる問題が発生する問題がある。

本発明は、通信端末での表示映像と、各外部端末で出力される音声とのリップシンクを可能とした通信端末、通信方法および通信プログラムを提供する。

本発明の一態様としての通信端末は、第１〜第ｎ（ｎは１以上の整数）の外部端末と通信する通信端末であって、ネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する音声映像受信手段と、前記多重化信号を前記映像信号と前記音声信号とへ分離する分離手段と、前記分離手段により分離された前記映像信号を一時的に格納する映像出力制御バッファを有し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理手段と、それぞれ前記分離手段により分離された前記音声信号を一時的に格納する第１〜第ｎの送信制御バッファを有し、前記第１〜第ｎの送信制御バッファから取り出した前記音声信号を前記第１〜第ｎの外部端末へ送信する第１〜第ｎ送信処理手段と、を備え、前記第１〜第ｎの送信処理手段は、前記第１〜第ｎの外部端末へ前記音声信号を送信してから前記第１〜第ｎの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第１〜第ｎの時間Tbのうち最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させてから前記音声信号を送信し、前記映像表示処理手段は、前記第１〜第ｎの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行うことを特徴とする。

また、本発明の一態様としての通信方法及びプログラムは、上記通信端末で実行できる方法およびプログラムである。

本発明により、通信端末での表示映像と、各外部端末で出力される音声とのリップシンクが可能になる。

本発明の第１の実施形態に係わるテレビ会議端末の構成を示すブロック図。本発明の第１の実施形態に係わるテレビ会議システムの構成を示すブロック図。本発明の第1の実施形態の無線用音声送信部の内部構成を示すブロック図。本発明の第１の実施形態の動作を示すフローチャート。本発明の第1の実施形態において１台の外部端末を含むシステム構成例を示す図。本発明の第1の実施形態において図５のシステム構成の場合の時刻制御部の動作を示すフローチャート。本発明の第１の実施形態において時刻制御部に記憶される所要時間データの例を示す図。本発明の第1の実施形態において複数台の外部端末を含むシステム構成例を示す図。本発明の第1の実施形態の図８のシステム構成の場合の時刻制御部の動作を示すフローチャート。本発明の第1の実施形態における時刻制御部に記憶される所要時間データの例を示す図。本発明の第２の実施形態に係わるテレビ会議端末の構成を示すブロック図。本発明の第２の実施形態において図５のシステム構成の場合の時刻制御部の動作を示すフローチャート。本発明の第３の実施形態に係わるテレビ会議端末の構成を示すブロック図。

以下、図面を参照しながら、本発明の実施形態について説明する。

（第１の実施形態）
図２に、本発明の第１の実施形態としての遠隔テレビ会議システムの構成を示す。

遠隔の地点Ａにおける遠隔テレビ会議端末（図示せず）から互いに同期されている音声信号と映像信号とがネットワーク１０１を介して送信され、地点Bのテレビ会議端末（通信端末）１０がこれら同期された音声信号と映像信号を受信する。これら同期された音声信号と映像信号とは多重化されており多重化信号を形成する。

地点Bのテレビ会議端末１０は、受信した多重化信号を映像信号と音声信号とに分離し、映像信号に基づき映像を表示し、また音声信号に基づき音声を出力する。またテレビ会議端末１０は、音声信号のみを無線対応外部端末（以下単に外部端末と称する）２０１、２０３へ送信し、外部端末２０１、２０３は受信した音声信号に基づき音声を出力する。外部端末２０１、２０３の利用者はたとえばテレビ会議端末１０に表示される映像を見ながら、外部端末２０１、２０３で出力される音声を聴く。外部端末２０１、２０３は例えばIEEE802.11規格対応PCやBluetooth規格対応携帯電話である。ただし外部端末の無線規格はIEEE802.11規格対応PCやBluetooth規格対応携帯電話に限るものではなく、例えば、IrDA規格等であってもよい。

外部端末２０１、２０３の利用者がテレビ会議端末１０に表示される映像を見ながら、外部端末２０１、２０３で出力される音声を聴く場合、遠隔話者（地点Ａの話者）の映像と音声のリップシンクが重要となる。そこでテレビ会議端末１０は、自身に表示される映像（および音声）と、外部端末２０１、２０３で出力される音声とが同期するように、自身における映像表示（および音声出力）のタイミングと、外部端末２０１、２０３への音声信号の送信のタイミングとを調整する。これにより地点Ａにおける遠隔話者の映像と音声のリップシンクを実現する。以下、本実施形態に係るテレビ会議端末について詳細に説明する。

図１は、テレビ会議端末（通信端末）１０の詳細構成を示すブロック図である。

この第１の実施形態に関わるテレビ会議端末１０は、音声映像送受信部１０１と、音声映像分離部１０２と、音声デコーダ１０３と、映像デコーダ１０４と、映像出力時刻制御部１１３−１と、音声出力時刻制御部１１３−２と、音声出力部１１５と、映像表示部１１６と、無線送信部１１２と、時刻制御部１１４と、音声入力部１１７と、映像入力部１１８と、音声エンコーダ１１９と、映像エンコーダ１２０と、音声映像多重化部１２１とを備えている。映像デコーダ１０４、映像出力時刻制御部１１３−１および映像表示部１１６は本発明の映像表示処理手段１００１を形成する。音声デコーダ１０３、音声出力時刻制御部１１３−２および音声出力部１１５は本発明の音声出力処理手段１００２を形成する。

音声映像送受信部１０１は他の地点（例えば地点Ａ）より送信されてきた、映像号像と音声信号とが多重化された多重化信号１１を受信する。すなわち音声映像送受信部１０１は互いに同期された映像信号と音声信号を受信する。音声映像送受信部１０１は、受信した多重化信号１１を第１の転送手段（転送経路）４０１を介して音声映像分離部１０２に転送する。また、音声映像送受信部１０１は、他の地点に対し、音声映像多重化部１２１により生成された、映像信号と音声信号との多重化信号を送信する。

音声映像分離部１０２は、音声映像送受信部１０１から転送されてきた多重化信号を映像信号と音声信号とに分離する。音声映像分離部１０２は、分離された映像信号を第２−１の転送手段（転送経路）４０２を介して映像デコーダ１０４に送り、分離された音声信号を第２−２の転送手段（転送経路）４０３を介して音声デコーダ１０３に送る。また音声映像分離部１０２は分離された音声信号と映像信号とのうち音声信号のみを第３の転送手段（転送経路）４０４を介して無線送信部１１２における、無線Ａ用音声送信部１０９、無線Ｂ用音声送信部１１０および無線Ｃ用音声送信部１１１に送る。

映像デコーダ１０４は、音声映像分離部１０２から転送された映像信号をデコード（復号）し、復号した映像信号を映像出力時刻制御部１１３−１に出力する。

音声デコーダ１０３は、音声映像分離部１０２から転送された音声信号をデコード（復号）し、復号した音声信号を音声出力時刻制御部１１３−２に出力する。

映像出力時刻制御部１１３−１は、映像デコーダ１０４から送られた映像信号を内部バッファ（映像出力制御バッファ）１１３ａに格納して時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ１１３ａから取り出して映像表示部１１６に出力する。映像表示部１１６はこの映像信号に基づいて映像を表示する。映像出力時刻制御部１１３−１は、待機時間のカウントのため、内部時計を有する。このようにして映像出力時刻制御部１１３−１は時刻制御部１１４による映像表示タイミングの制御を受ける。

音声出力時刻制御部１１３−２は、音声デコーダ１０３から送られた音声信号を内部バッファ（音声出力制御バッファ）１１３ｂに格納して時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、待機時間が経過したら、当該音声信号を内部バッファ１１３ｂから取り出して音声デコーダ１０３に出力する。音声出力部１１５はこの音声信号に基づき音声を出力する。音声出力時刻制御部１１３−２は、待機時間のカウントのため内部時計を有する。このようにして音声出力時刻制御部１１３−１は時刻制御部１１４による音声出力タイミングの制御を受ける。

無線送信部１１２は、複数の種類の無線方式A〜Cに対応して、無線A用音声送信部１０９、無線B用音声送信部１１０、無線C用音声送信部１１１を備える。無線A用音声送信部１０９は音声映像分離部１０２から転送されてきた音声信号を無線Ａ対応外部端末２０１、２０２に送信し、無線Ａ対応外部端末２０１、２０２は受信した音声信号に基づき音声１６、１７を出力する。無線B用音声送信部１１０は音声映像分離部１０２から転送されてきた音声信号を無線B対応外部端末２０３、２０４に送信し、無線B対応外部端末２０３、２０４は受信した音声信号に基づき音声１８、１９を出力する。無線C用音声送信部１１１は音声映像分離部１０２から転送されてきた音声信号を無線C対応外部端末２０５、２０６に送信し、無線C対応外部端末２０５、２０６は受信した音声信号に基づき音声２０、２１を出力する。ここではA、B、Cの３種類の無線方式が存在する場合を示すが、無線方式の個数は、３種類より少なくても多くても構わず、無線方式の個数に応じて無線用音声送信部の個数も変動する。

無線用音声送信部１０９，１１０，１１１の詳細構成を図３に示す。各無線用音声送信部１０９，１１０，１１１では無線方式の種類Ａ〜Ｃの違いに応じて一部の構成および処理が異なるが、これらの違いは本発明の本質とは無関係であるため、本発明の本質に関係ない各無線に固有の処理の詳細についての説明はここでは省略する。

音声映像分離部１０２から無線送信部１１２に転送されてきた音声信号は、無線用音声送信部１０９，１１０，１１１のそれぞれの無線用音声信号生成部３００に入力される。無線用音声送信部１０９，１１０，１１１のそれぞれの無線用音声信号生成部３００では、入力された音声信号に基づき、該当する無線方式で送信できる音声信号を生成する。

無線用音声送信部１０９、１１０、１１１は、接続する外部端末の数に対応した送信ポートを備える。ここでは無線用音声送信部１０９、１１０、１１１はそれぞれ、２つの外部端末２１１、２１２（図１の２０１〜２０６参照）に対応して、２つの送信ポート３０３、３０４を備えている。外部端末が３台以上存在するときはそれに応じて送信ポートも３個以上設けられる。無線用音声送信部１０９、１１０、１１１のそれぞれの送信ポート３０３、３０４は、それぞれ外部端末２１１（図１の２０１、２０３、２０５に対応）、２１２（図１の２０２、２０４、２０６に対応）に対して無線用音声信号生成部３００により生成された音声信号を、該当無線方式により送信する。

無線用音声送信部１０９、１１０、１１１のそれぞれでは、送信ポート３０３、３０４に対応して送信時刻制御部３０１、３０２が設けられる。送信時刻制御部３０１、３０２は、無線用音声信号生成部３００で生成された音声信号をそれぞれ内部バッファ（送信制御バッファ）３０１ａ、３０２ｂに時刻制御部１１４からあらかじめ指定された時間だけ待機させ、当該時間の待機後、内部バッファ３０１ａ、３０２ｂから音声信号を取り出して送信ポート送信ポート３０３、３０４に出力する。このようにして各外部端末２０１〜２０６（図１参照）への送信タイミングの調整を行う。

無線用音声送信部１０９、１１０、１１１のそれぞれにおいて、送信ポート３０３、３０４は、上述のように、送信時刻制御部３０１、３０２から入力された映像信号を、外部端末２１１、２１２に該当無線方式により送信する。

送信時刻制御部３０１および送信ポート３０３は本発明の送信処理手段３００１を形成し、送信時刻制御部３０２および送信ポート３０４は本発明の送信処理手段３００２を形成する。各送信処理手段３００１、３００２に無線用音声信号生成部３００を含めてもよい。

時刻制御部（第１の制御手段、第２の制御手段）１１４は、無線用音声送信部１０９、１１０、１１１のそれぞれにおける送信時刻制御部３０１、３０２の内部バッファ３０１ａ、３０２ｂでの待機時間、映像出力時刻制御部１１３−１の内部バッファ１１３ａでの待機時間、および音声出力時刻制御部１１３−２の内部バッファ１１３ｂでの待機時間を、外部端末２０１〜２０６での音声出力と、映像表示部１１６の映像表示と、音声出力部１１５の音声出力とがそれぞれ同期するように決定し、決定した値をそれぞれ無線用音声送信部１０９、１１０、１１１の送信時刻制御部３０１、３０２、映像出力時刻制御部１１３−１、音声出力時刻制御部１１３−２に通知する。時刻制御部１１４は、テレビ会議端末１０の内部時計を持ち、テレビ会議端末１０の各部１０１、１０２、１１３−２、１１３−１、３０１、３０２、３００、１１７、１１８、１０４、１０３、１２１、１１９、１２０、１１５、１１６、３０３、３０４において、データまたは信号が受信および送信された時刻を知ることができる。時刻制御部１１４の内部時計、映像出力時刻制御部１１３−１の内部時計、音声出力時刻制御部１１３−２の内部時計、無線用音声送信部１０９，１１０、１１１のそれぞれにおける送信時刻制御部３０１、３０２の内部時計はそれぞれ同期されていることが好ましい。または、これらの内部時計が１つに統一化し、各部はこの１つの内部時計を共通に使用して参照するようにしてもよい。時刻制御部１１４の動作の詳細は後述する。

音声入力部１１７はマイクなどを介して外部音声（たとえば参加者の音声、後述するテスト音声）の入力１２を行い、映像入力部１１８は画像撮像手段などを介して外部映像（たとえば参加者の映像）の入力１３を行う。

音声エンコーダ１１９は音声入力部１１７で入力された音声の信号をエンコード（符号化）し、映像エンコーダ１２０は映像入力部１１８で入力された映像の信号をエンコード（符号化）する。

音声映像多重化部１２１は、音声エンコーダ１１９で生成された符号化された音声信号と、映像エンコーダ１２０で生成された符号化された映像信号とを多重化して、多重化信号を生成する。音声映像多重化部１２１は、生成した多重化信号を音声映像送受信部１０１を介して他の地点（例えば地点Ａ）の遠隔テレビ会議端末へ送信する。

図４は、図１のテレビ会議端末１０および各外部端末２０１〜２０６の動作の流れを概略的に示すフローチャートである。

まず、音声映像送受信部１０１は地点Ａからネットワーク２を介して音声映像多重化信号１１を受信する（Ｓ１１）。

音声映像分離部１０２は、音声映像送受信部１０１で受信した多重化信号を音声信号と映像信号に分離する（Ｓ１２）。

分離された音声信号と映像信号とは音声出力時刻制御部１１３−２および映像出力時刻制御部１１３−１に入力される。音声出力時刻制御部１１３−２および映像出力時刻制御部１１３−１は、それぞれ入力された音声信号および映像信号をそれぞれの内部バッファ１１３ｂ、１１３ａに格納し、時刻制御部１１４によりそれぞれあらかじめ指定された時間だけ待機させた後、当該音声信号および映像信号を、音声デコーダ１０３と映像デコーダ１０４へ出力する。（Ｓ１３、Ｓ１６）。

音声デコーダ１０３と映像デコーダ１０４は、音声出力時刻制御部１１３−２および映像出力時刻制御部１１３−１から入力された音声信号と映像信号を復号化（デコード）し（Ｓ１４、Ｓ１７）、音声出力部１１５および映像表示部１１６は、復号化された音声信号および映像信号に基づき音声１４および映像出力１５を出力する（Ｓ１５、Ｓ１８）。

また、音声映像分離部１０２にて分離された音声信号は無線送信部１１２における各無線用音声送信部１０９、１１０、１１１に送られ、各無線用音声送信部１０９、１１０、１１１は、それぞれ受信した音声信号を、外部端末と接続している無線方式（少なくとも１種類）にて伝送できる信号形態に変換する（Ｓ１９）。この変換は、各無線用音声送信部１０９、１１０、１１１における無線用音声信号生成部３００（図３参照）において行う。

各無線用音声送信部１０９、１１０、１１１のそれぞれにおける無線用音声信号生成部３００で変換された音声信号はそれぞれ送信時刻制御部３０１、３０２の内部バッファ３０１ａ、３０２ｂに格納され、時刻制御部１１４によりそれぞれあらかじめ指定された時間だけ待機させられる（Ｓ２０）。

各無線用音声送信部１０９、１１０、１１１のそれぞれにおける送信時刻制御部３０１、３０２は、それぞれ待機時間が経過した後、それぞれ対応する送信ポート３０３、３０４を介して音声信号を、各外部端末２０１〜２０６へ送信する（Ｓ２１）。

音声信号を受信した外部端末２０１〜２０６は、受信した音声信号を復号して、音声を出力する（Ｓ２２）。

上述したように時刻制御部１１４は音声信号と映像信号がそれぞれ音声出力部１１５および映像表示部１１６で出力されるタイミングと、各外部端末で音声が出力されるタイミングとが一致するように、すなわち、映像表示部１１６および音声出力部１１５での映像表示および音声出力と、各外部端末の音声出力とが同期するように各内部バッファ１１３ａ、１１３ｂ、３０１ａ、３０２ｂでの待機時間を決定する。以下、時刻制御部１１４による動作の詳細を説明する。

まず理解の簡単のため、音声出力のための外部端末が１台である状況を考える。この状況を図５に示す。図５の状況において、時刻制御部１１４による動作の流れを図６のフローチャートに示す。

時刻制御部１１４はテレビ会議端末１０の全体制御を行うこともかねており、時刻制御部１１４はテレビ会議端末１０と、音声出力装置となる外部端末２１３と間で無線接続を行うための制御を行う（Ｓ３１）。この際の接続とは、外部端末２１３に音声信号を送信すれば、外部端末２１３が音声を出力できる状態を指す。

次に、テレビ会議端末１０における音声映像送受信部１０１で、他の地点（例えば地点Ａ）から送信された多重化信号１１が受信されたら、時刻制御部１１４は、多重化信号１１が受信されてから、当該多重化信号１１に含まれる音声信号が外部端末２１３で再生出力されるまでの所要時間（合計遅延時間）T_outの計算を行う（Ｓ３２）。

所要時間（合計遅延時間）T_outは、たとえば多重化信号が受信されてから送信時刻制御部３０１の内部バッファ３０１ａに格納されるまでの時刻Taと、外部端末に音声信号を送信してから音声が実際に出力されるまでの時間Tbとの合計（Ta＋Tb）として考えることができる。すなわち所要時間T_outは、内部バッファ３０１ａでの待ち時間が実質的にない場合を想定した時間であるといえる。以下（１）時間Taと、（２）時間Tbの計算例を示す。

（１）まず時間Taの計算例を説明する。音声映像送受信部１０１で多重化信号１１が受信されたとき、多重化信号１１に含まれるタイムスタンプまたはシーケンス番号などのその信号固有の値（固有値）と、その多重化信号１１が音声映像送受信部１０１に到着した時刻（多重化信号受信時刻）とを対応付けて時刻制御部１１４は内部記憶部に登録する。送信時刻制御部３０１（本例では外部端末が１台のみであるため１つの送信時刻制御部のみが存在する）に、多重化信号１１から分離された音声信号が到着したときに、音声信号に含まれる固有値を送信時刻制御部３０１から時刻制御部１１に通知する。この際、時刻制御部１１４はあらかじめ送信時刻制御部３０１に音声信号が到着したら（内部バッファ３０１ａに音声信号が格納されたら）、当該音声信号から固有値を取り出して通知するように指示しておく。時刻制御部１１４は、送信時刻制御部３０１から通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、内部時計の現在時刻（音声格納時刻）との差分を計算する。この計算された差分を上記時間Taとして取得する。

（２）次に外部端末へ向けて音声信号を送信してから当該外部端末にて音声が実際に出力されるまでの時間Tbの計算例を示す。時間Tbの計算は本ステップＳ３２の処理の中で行ってもよいし、本フローの処理を行う前に別途あらかじめ時間Tbの計算を行っておいてもよい。時刻Tbの計算のため、時刻制御部１１４は、テレビ会議端末１０内部で用意したテスト音声信号を送信ポート３０３から外部端末２１３へ送信し、送信と同時にそのときの送信時刻を時刻制御部１１４は内部記憶部に記録する。またこのテスト音声信号の送信に応じて外部端末２１３から出力されたテスト音声を図１の音声入力部１１７に入力し、入力時刻を時刻制御部１１４の内部記憶部に記録する。これら入力時刻と送信時刻の差分を時間Tbとして取得する。音声入力部１１７で入力された音声が、外部端末２１３に送信した音声信号に起因するものであるかどうかの判別方法としては、パターンマッチングにより行ってもよいし、あるいは音声信号の送信時刻から閾値時間内に一定レベル以上の音声が入力されたらその音声を上記音声信号に起因する音声であると判別するようにしてもよい。このような計算方法を用いることで外部端末の無線の種類および外部端末内部での処理時間などを考慮して適切に時間Tbを計算できる。なお、音声信号を外部端末へ送信してから外部端末にて音声が出力されまでの時間の取得方法は、ここで示した方法に限定されるものではない。

時間Taおよび時間Tbの計算はそれぞれ１回のみ行っても良いし、各計算をそれぞれ複数回行って、その平均を時間Taおよび時間Tbとして取得してもよい。または所要時間T_outの計算を複数回行い、その平均を所要時間T_outとして取得しても良い。

一方、時刻制御部１１４は、テレビ会議端末１０における音声映像送受信部１０１で多重化信号１１が受信されてから、当該多重化信号１１に含まれる映像信号および音声信号が、映像表示部１１６および音声出力部１１５で出力されるまでの所要時間（出力遅延時間）T_in1,T_in2の計算を行う（Ｓ３３）。

所要時間（出力遅延時間）T_in1,T_in2は、たとえば多重化信号が受信されてから映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２のそれぞれの内部バッファ１１３ａ、１１３ｂに格納されるまでの時間と同一視して考えることができる。すなわち所要時間T_in1,T_in2は、内部バッファ１１３ａ、１１３ｂでの待ち時間が実質的にない場合を想定した時間であるといえる。これらの所要時間の大半は映像デコーダ１０４および音声デコーダ１０３での処理が占めるため、それぞれの内部バッファ１１３ａ、１１３ｂから映像信号および音声信号を取り出してから映像表示部１１６および音声出力部１１５で出力される間での時間は誤差の範囲内として無視しても支障はない。もしこれらの時間も細かく考慮する必要がある場合は設計段階でこれらの時間を取得しておき、所要時間T_in1,T_in2の計算の際は、これらの時間を加算すればよい。

所要時間T_in1,T_in2の計算のため、時刻制御部１１４は音声映像送受信部１０１で多重化信号１１が受信されたとき、多重化信号１１に含まれるタイムスタンプまたはシーケンス番号などのその信号固有の値（固有値）と、その多重化信号１１が音声映像送受信部１０１に到着した時刻（多重化信号受信時刻）とを対応付けて内部記憶部に登録する。映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２に、多重化信号１１から分離された映像信号および音声信号が到着したときに、映像信号および音声信号に含まれる固有値を映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２から時刻制御部１１４に通知する。この際、時刻制御部１１４はあらかじめ映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２に映像信号および音声信号が到着したら（それぞれの内部バッファ１１３ａ、１１３ｂに映像信号および音声信号が格納されたら）、当該映像信号および音声信号からそれぞれ固有値を取り出して通知するように指示しておく。時刻制御部１４は、映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２から通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、そのときの内部時計の現在時刻（映像格納時刻および音声格納時刻）との差分をそれぞれ計算する。これらの差分を所要時間T_in1,T_in2として取得する。

時刻制御部１１４は、このようにステップＳ３２、Ｓ３３で取得した所要時間T_in1,T_in2、T_outをたとえば図７のような形式で記憶する。

ステップＳ３２とＳ３３の処理では音声映像送受信部１０１での多重化信号の受信時に行う記録（多重化信号１１の受信時刻の記録と、固有値の記録）は共通するためこれらの記録処理はステップＳ３２とＳ３３で共通に行えばよい。

次に、ステップＳ３２で計算された所要時間T_out、ステップＳ３３で計算された所要時間T_in1、T_in2のうちの最大時間Tmaxを取得する（Ｓ３４）。すなわちTmax=max(T_out,T_in1,Tin_2)として定義される。例えば映像信号のデコードに多くの時間を要する場合、Tmax=T_in1となり、音声信号のデコードに多くの時間を要する場合、Tmax=T_in2となり、音声信号の送信から外部端末での音声出力までに多くの時間を要する場合、Tmax=T_outとなる。

最大時間Tmaxが取得されたら、時刻制御部１１４は、映像出力時刻制御部１１３−１に対し、差分時間Tmax-T_in1を待機時間として通知し、これにより差分時間（待機時間）Tmax-T_in1だけ映像信号を内部バッファ１１３ａに待機させてから出力するように指示する（Ｓ３５）。

また時刻制御部１１４は、音声出力時刻制御部１１３−２に対し、差分時間Tmax-T_in2を待機時間として通知し、これにより差分時間（待機時間）Tmax-T_in2だけ音声信号を内部バッファ１１３ｂに待機させてから出力するように指示する（Ｓ３６）。

また時刻制御部１１４は、送信時刻制御部３０１に対し、差分時間Tmax-T_outを待機時間として通知し、これにより差分時間（待機時間）Tmax-T_outだけ音声信号を内部バッファ３０１ａに待機させてから出力するように指示する（Ｓ３７）。

なおステップＳ３５〜Ｓ３７で得られた差分時間（待機時間）のうちいずれかはゼロとなるため、映像出力時刻制御部１１３−１、音声出力時刻制御部１１３−２、送信時刻制御部３０１のいずれかの内部バッファでの待機時間はゼロとなる。

以上に述べたステップＳ３１〜Ｓ３７の処理により、テレビ会議端末１０での映像表示および音声出力、ならびに外部端末での音声出力が同期され、これによりリップシンクが実現される。すなわち、T_in1 > T_outのとき、もし本フローによる時刻制御を行わないと、テレビ会議端末１０の映像出力よりもおよそT_in1 - T_out = T_subだけ早いタイミングで、外部端末で音声が出力されてしまい、逆に、T_out > T_in1のとき、もし本フローによる制御を行わないと、テレビ会議端末１０からの映像がT_out - T_in = T_subだけ、外部端末から音声が出力される時刻より早く出力されてしまう。またT_in2 > T_outのとき、もし本フローによる時刻制御を行わないと、テレビ会議端末１０の音声出力よりもおよそT_in2 - T_out = T_subだけ早いタイミングで、外部端末で音声が出力されてしまい、逆に、T_out > T_in2のとき、もし本フローによる制御を行わないと、テレビ会議端末１０からの音声がT_out - T_in = T_subだけ、外部端末から音声が出力される時刻より早く出力されてしまう。これに対し、本実施形態によれば以上のように時刻制御部１１４によるタイミング制御により、テレビ会議端末の映像表示および音声出力と、外部端末での音声出力が同時に行われ、これにより遠隔話者の映像と音声のリップシンクが実現される。

なお、上記フローにおいて処理の最初に受信された多重化信号における映像信号および音声信号については待機時間の通知前に内部バッファに格納されることとなり、また時刻制御部１１４の処理の完了前に受信された多重化信号における映像信号および音声信号も、待機時間の通知前に内部バッファに格納される場合がある。このような場合は、たとえば内部バッファに入った映像信号／音声信号を逐次出力する（たとえば待機時間ゼロで出力）ようにすれば処理上の問題はないものと思われる。この場合、映像と音声とのリップシンクは一時的に得られなくなるが、待機時間の通知後は、上記説明に従って、映像と音声のリップシンクが達成されるため、このように取り扱ってもさして問題はない。

また、本実施の形態のテレビ会議端末１０では映像表示部１１６および音声出力部１１５により映像表示および音声出力の両方を行うが、映像表示部１１６による映像表示のみを行う場合は、ステップＳ３３で所要時間T_in2の計算を省略し、ステップＳ３４でのTmaxの計算の際、T_in2を計算対象から除外し、またステップＳ３６は省略すればよい。この場合もテレビ会議端末１０での映像表示と外部端末での音声出力との同期を図ることができる。また逆に、音声出力部１１５による音声出力のみを行う場合は、ステップＳ３３で所要時間T_in1の計算を省略し、ステップＳ３４でのTmaxの計算の際、T_in1を計算対象から除外し、またステップＳ３６は省略すればよい。この場合もテレビ会議端末１０での音声出力と外部端末での音声出力との同期を図ることができる。

なお、多重化信号が受信されてから映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２の内部バッファ１１３ａ、１１３ｂに格納されるまでの時間が同一であるように設計されている場合は、所要時間T_in1,T_in2は同一と見なせるため、この場合は、所要時間T_in1,T_in2のどちらか一方のみを計算するようにしてもよい。

ここまでは、音声出力のための外部端末が１台である状況を考えたが、次に、テレビ会議端末１０に対し外部端末が複数台接続され、かつ、複数種の無線方式が存在する状況を考える。この状況の一例を図８に示す。図８において２台の無線A対応外部端末１、２と、２台の無線B対応外部端末３、４が示される。無線方式Aおよび無線方式Bとは、それぞれIEEE802.11規格およびBluetooth規格とする。ただし、無線規格はこれに限らず、IrDA規格でもよく、また、無線方式Aと無線方式Bが同じ無線通信規格であってもかまわない。

図８の状況において、時刻制御部１１４による動作の流れを図９のフローチャートに示す。図６のフローの説明と重複する記載は、記載の簡略化のため省略する。

時刻制御部１１４はテレビ会議端末１０と外部端末１〜４間で無線接続を行うための制御を行う（Ｓ４１）。

次に、テレビ会議端末１０における音声映像送受信部１０１で、他の地点（例えば地点Ａ）から送信された多重化信号１１が受信されたら、時刻制御部１１４は、多重化信号１１が受信されてから、当該多重化信号１１に含まれる音声信号が各外部端末１〜４で再生出力されるまでの所要時間T_out1〜T_out4の計算を行う（Ｓ４２）。所要時間T_out1〜T_out4は、図６の説明と同様に、多重化信号が受信されてから送信時刻制御部１〜４（ここでは外部端末１〜４に対応する送信時刻制御部を送信時刻制御部１〜４として表す）の内部バッファ１〜４に格納されるまでの時刻Ta1〜Ta4と、外部端末１〜４に音声信号を送信してから音声が出力されるまでの時間Tb1〜Tb4との合計（Ta1＋Tb1）、（Ta2＋Tb2）、（Ta3＋Tb3）、（Ta4＋Tb4）として考えることができる。時間Ta1〜Ta4の計算方法、時間Tb1〜Tb4の計算方法は図６の説明と同様の方法を用いればよい。ただし、テスト音声を用いて時間Tb1〜Tb4を計測する場合、外部端末１〜４から同時にテスト音声が出力されないように各外部端末１〜４に順番にテスト音声を送信するものとする。

一方、時刻制御部１１４は、テレビ会議端末１０における音声映像送受信部１０１で多重化信号１１が受信されてから、当該多重化信号１１に含まれる映像信号および音声信号が、映像表示部１１６および音声出力部１１５で出力されるまでの所要時間T_in1,T_in2の計算を行う（Ｓ４３）。所要時間T_in1,T_in2の計算も図６で示した方法を用いることができる。

時刻制御部１１４はステップＳ４２、Ｓ４３で取得した所要時間T_in1,T_in2、T_out1、T_out2、T_out3、T_out4、をたとえば図１０のような形式で記憶する。

次に、ステップＳ４２で計算された所要時間T_out1〜T_out4、ステップＳ４３で計算された所要時間T_in1、T_in2のうちの最大時間Tmaxを取得する（Ｓ４４）。すなわちTmax=max(T_out1, T_out2, T_out3, T_out4,T_in1,Tin_2)として定義される。

最大時間Tmaxが取得されたら、時刻制御部１１４は、映像出力時刻制御部１１３−１に対し、差分時間Tmax-T_in1を待機時間として通知し、これにより差分時間（待機時間）Tmax-T_in1だけ映像信号を内部バッファ１１３ａに待機させてから出力するように指示する（Ｓ４５）。

また時刻制御部１１４は、音声出力時刻制御部１１３−２に対し、差分時間Tmax-T_in2を待機時間として通知し、これにより差分時間（待機時間）Tmax-T_in2だけ音声信号を内部バッファ１１３ｂに待機させてから出力するように指示する（Ｓ４６）。

また時刻制御部１１４は、外部端末１〜４に対応する送信時刻制御部１〜４に対し、差分時間Tmax-T_outX (X = 1,2,3,4)を待機時間として通知する（Ｓ４７）。すなわち送信時刻制御部１に差分時間Tmax-T_out1を通知し、送信時刻制御部２に差分時間（待機時間）Tmax-T_out2を通知し、送信時刻制御部３に差分時間（待機時間）Tmax-T_out3を通知し、送信時刻制御部４に差分時間（待機時間）Tmax-T_out4を通知する。これにより送信時刻制御部１〜４に対し、それぞれ差分時間（待機時間）Tmax-T_outX (X = 1,2,3,4)だけ音声信号を内部バッファ１〜４に待機させてから出力するように指示する。

以上の手順により、テレビ会議端末１０へ接続される外部端末数が増えた場合でも、テレビ会議端末１０と全ての外部端末との間で映像と音声の同期を取ることができ、リップシンクを実現することが可能となる。

以上のように本実施形態によれば、各外部端末への音声送信タイミングと、テレビ会議端末における映像および音声の出力タイミングを調整することにより、テレビ会議端末での映像表示と各外部端末での音声表示とが同期するため遠隔者のリップシンクが可能となる。またテレビ会議端末での音声出力と、各外部端末での音声表示とが同期するため、各外部端末のユーザにテレビ会議端末の音声が漏れる状況においても、違和感のないテレビ会議を行うことが可能となる。

（第２の実施形態）
第１の実施形態では映像デコーダ１０４および音声デコーダ１０３が映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２の前段に配置されていたが、本実施の形態では後段に配置される例を示す。

図１１は第２の実施形態に係るテレビ会議端末の構成を示すブロック図である。以下第１の実施形態との差分についてのみ説明し、第１の実施形態と重複する説明は省略する。

音声映像分離部１０２は、多重分離して得た映像信号を第２−１の転送経路４０２を介して映像出力時刻制御部１１３−１に送り、分離された音声信号を第２−２の転送経路４０３を介して音声出力時刻制御部１１３−２に送る。

映像出力時刻制御部１１３−１は、音声映像分離部１０２から転送された映像信号を内部バッファ（出力制御バッファ）１１３ａに格納し時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ１１３ａから取り出して映像デコーダ１０４に出力する。

音声出力時刻制御部１１３−２は、音声映像分離部１０２から転送された音声信号を内部バッファ（音声出力制御バッファ）１１３ｂに格納して時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、当該待機時間が経過したら、当該音声信号を内部バッファ１１３ｂから取り出して音声デコーダ１０３に出力する。

映像デコーダ１０４は、映像出力時刻制御部１１３−１から入力された映像信号を復号し、映像出力部１１６は復号された映像信号に基づく映像表示を行う。

音声デコーダ１０３は、音声出力時刻制御部１１３−２から入力された音声信号を復号し、音声出力部１１５は、復号された音声信号に基づき音声を出力する。

本実施形態では音声映像分離部１０２により分離された映像信号および音声信号は同時に映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２に入力さになるように構成され、また映像デコーダ１０４および音声デコーダ１０３での処理時間はそれぞれ同一又は略同一の長さであるとする。したがって、映像デコーダ１０４および音声デコーダ１０３に同時に映像信号および音声信号を入力すれば映像表示部１１６と音声出力部１１５において映像と音声が同期して出力される。つまり本実施形態では当該多重化信号に含まれる映像信号および音声信号が、映像表示部１１６および音声出力部１１５で出力されるまでの所要時間T_in1,T_in2は互いに同じであるとみなせ、映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２に対しそれぞれ同一の待機時間を指定するものとする。

映像出力時刻制御部１１３−１、映像デコーダ１０４および映像表示部１１６は本発明の映像表示処理手段１０１０を形成する。音声出力時刻制御部１１３−２、音声デコーダ１０３および音声出力部１１５は本発明の音声出力処理手段１０２０を形成する。

図１２は時刻制御部（第３の制御手段）１１４による動作の流れを示すフローチャートである。ここでは第１の実施形態で用いた図５のように１台の外部端末が接続している状況を想定するが、図８のように複数の外部端末が接続している場合も図９に示したフローに準じて容易に図１２のフローを拡張できることは明白であり、よって複数の外部端末が接続している場合の処理の説明は省略する。

時刻制御部１１４はテレビ会議端末１０と外部端末２１３間で無線接続を行うための制御を行う（Ｓ５１）。

次に、テレビ会議端末１０における音声映像送受信部１０１で多重化信号１１が受信されたら、時刻制御部１１４は、多重化信号１１が受信されてから、当該多重化信号１１に含まれる音声信号が外部端末２１３で再生出力されるまでの所要時間T_outの計算を行う（Ｓ５２）。所要時間T_outの計算方法は第１の実施形態と同様にして行えばよい。

一方、時刻制御部１１４は、多重化信号１１が受信されてから、当該多重化信号１１に含まれる映像信号および音声信号が、映像表示部１１６および音声出力部１１５で出力されるまでの所要時間T_in1,T_in2の計算を行う（Ｓ５３）。本実施形態では上述の理由により所要時間T_in1,T_in2は同一であるため所要時間T_in1,T_in2のいずれか一方を計算すれば良く、以下ではこれらT_in1,T_in2を所要時間T_inに統一して表記する。

所要時間T_inは、多重化信号が受信されてから映像出力時刻制御部１１３−１または音声出力時刻制御部１１３−２のそれぞれの内部バッファ１１３ａまたは１１３ｂに格納されるまでの時間Tcと、映像デコーダ１０４または音声デコーダ１０３の処理時間（復号時間）Tdとの合計として考えることができる。

時間Tcの計算方法は第１の実施形態と同様の方法を用いればよい。すなわち多重化信号１１の受信時に、多重化信号１１に含まれる固有値と、その多重化信号１１の受信時刻（多重化信号受信時刻）とを対応付けて時刻制御部１１４の内部記憶部に登録する。そして映像出力時刻制御部１１３−１または音声出力時刻制御部１１３−２に、映像信号または音声信号が到着したときに、映像信号または音声信号に含まれる固有値を時刻制御部１１４に通知し、時刻制御部１４は、通知された固有値に合致する固有値を内部記憶部において特定し、特定した固有値に対応づけられた時刻と、内部時計の時刻（映像格納時刻または音声格納時刻）との差分を時間Tcとして得る。

一方時間Tdについては設計段階であらかじめ取得可能であるため、この値をテレビ会議端末１０に記憶させておき、時刻制御部１１４はこの値を時間Tdとして用いる。

時刻制御部１１４はこのように取得した時間Tcと時間Tdとを合計することにより所要時間T_inを得る。

次に、ステップＳ５２で計算された所要時間T_out、ステップＳ５３で計算された所要時間T_inのうちの最大時間Tmaxを取得する（Ｓ５４）。

最大時間Tmaxが取得されたら、時刻制御部１１４は、映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２に対し、差分時間Tmax-T_inを待機時間として通知し、これにより差分時間（待機時間）Tmax-T_inだけ映像信号および音声信号を内部バッファ１１３ａ、１１３ｂに待機させてから出力するように指示する（Ｓ５５、Ｓ５６）。

また時刻制御部１１４は、送信時刻制御部３０１に対し、差分時間Tmax-T_outを待機時間として通知し、これにより差分時間（待機時間）Tmax-T_outだけ音声信号を内部バッファ３０１ａに待機させてから出力するように指示する（Ｓ５７）。

また上記フローでは所要時間T_outを時間Taおよび時間Tbの合計として計算し、所要時間T_inを時間Tcと時間Tdとの合計として計算したが、音声映像分離部１０２から送信時刻制御部３０１までの時間と、音声映像分離部１０２から映像出力時刻制御部１１３−１／音声出力時刻制御部１１３−２までの時間とが同一であると見なせることがあらかじめ分かっている場合は、所要時間T_out＝時間Tb、所要時間T_in＝Tdとして計算するようにしてもよい。

以上のように本実施の形態によれば、映像デコーダおよび音声デコーダが映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２の後段に配置されている場合であっても、テレビ会議端末での映像表示および音声出力と、外部端末での音声出力とを同期させることが可能である。

（第３の実施形態）
第１および第２の実施形態では映像デコーダおよび音声デコーダを備え、符号化された映像信号と符号化された音声信号とを含む多重化信号を受信するテレビ会議端末の例を示したが、本実施の形態では映像デコーダおよび音声デコーダを備えず、符号化されていない映像信号と符号化されていない音声信号とを含む多重化信号を受信するテレビ会議端末の例を示す。

図１３は、本発明の第３の実施形態に係るテレビ会議端末の構成を示すブロック図である。以下第１の実施形態との差分についてのみ説明し、第１の実施形態と重複する説明は省略する。

映像出力時刻制御部１１３−１は、音声映像分離部１０２から転送された映像信号を内部バッファ（出力制御バッファ）１１３ａに格納し時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、待機時間が経ったら、当該映像信号を内部バッファ１１３ａから取り出して映像表示部１１６に出力する。映像出力部１１６は入力された映像信号に基づく映像表示を行う。

音声出力時刻制御部１１３−２は、音声映像分離部１０２から転送された音声信号を内部バッファ（音声出力制御バッファ）１１３ｂに格納して時刻制御部１１４からあらかじめ指定された待機時間だけ待機させ、当該待機時間が経過したら、当該音声信号を内部バッファ１１３ｂから取り出して音声出力部１１５に出力する。音声出力部１１５は、入力された音声信号に基づき音声を出力する。

時刻制御部１１４の動作は基本的に第１の実施形態と同様であり、図６に示した処理を行う。映像出力時刻制御部１１３−１および音声出力時刻制御部１１３−２の前段に映像デコーダおよび音声デコーダが存在しない分、ステップＳ３３で計算される所要時間T_in1、T_in2の値は小さくなるがそれ以外の点については第１の実施形態と同様である。したがって、時刻制御部１１４の詳細な動作説明は省略する。

映像出力時刻制御部１１３−１および映像表示部１１６は本発明の映像表示処理手段１１００を形成する。音声出力時刻制御部１１３−２および音声出力部１１５は本発明の音声出力処理手段１２００を形成する。

なお図１３の構成では音声エンコーダ１１９および映像デコーダ１２０が備え付けられているがこれらの要素１１９、１２０が存在しない構成を採用することも可能である。

本実施形態でも第２の実施形態と同様の考えに準じて、音声映像分離部１０２から送信時刻制御部３０１までの時間と、音声映像分離部１０２から映像出力時刻制御部１１３−１／音声出力時刻制御部１１３−２までの時間とが互いに同一であると見なせる場合は、所要時間T_out＝時間Tb、所要時間T_in＝０として計算するようにしてもよい。

以上のように本実施の形態によれば映像デコーダおよび音声デコーダが存在しないテレビ会議端末においても、テレビ会議端末における映像表示および音声出力と、外部端末における音声出力との同期を図ることができる。

なお、以上に説明した第１〜第３の実施形態におけるテレビ会議端末は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、テレビ会議端末における各要素（ブロック）は、上記のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、テレビ会議端末は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１０１：音声映像送受信部
１０２：音声映像分離部
１０３：音声デコーダ
１０４：映像デコーダ
１０９：無線A用音声送信部
１１０：無線B用音声送信部
１１１：無線C用音声送信部
１１３−１：映像出力時刻制御部
１１３−２：音声出力時刻制御部
１１３ａ：内部バッファ（映像出力制御バッファ）
１１３ｂ：内部バッファ（音声出力制御バッファ）
１１４：時刻制御部（第１〜第３の制御手段）
１１２：無線送信部
１１５：音声出力部
１１６：映像表示部
１１７：音声入力部
１１８：映像入力部
１１９：音声エンコーダ
１２０：映像エンコーダ
３００：無線用音声信号生成部
３０１、３０２：送信時刻制御部
３０１ａ、３０２ａ：内部バッファ（送信制御バッファ）
３０３、３０４：送信ポート
２０１〜２０６、２１１〜２１３：無線対応外部端末
４０１〜４０４：転送手段（転送経路）
１００１：映像表示処理手段
１００２：音声出力処理手段

Claims

第１〜第ｎ（ｎは１以上の整数）の外部端末と通信する通信端末であって、
ネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する音声映像受信手段と、
前記多重化信号を前記映像信号と前記音声信号とへ分離する分離手段と、
前記分離手段により分離された前記映像信号を一時的に格納する映像出力制御バッファを有し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理手段と、
それぞれ前記分離手段により分離された前記音声信号を一時的に格納する第１〜第ｎの送信制御バッファを有し、前記第１〜第ｎの送信制御バッファから前記音声信号を取り出して前記第１〜第ｎの外部端末へ送信する第１〜第ｎ送信処理手段と、を備え、
前記第１〜第ｎの送信処理手段は、前記第１〜第ｎの外部端末へ前記音声信号を送信してから前記第１〜第ｎの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第１〜第ｎの時間Tbのうち最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させてから前記音声信号を送信し、
前記映像表示処理手段は、前記第１〜第ｎの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
ことを特徴とする通信端末。
音声を入力する音声入力手段と、
前記第１〜第ｎの送信処理手段を用いて、前記第１〜第ｎの外部端末に第１〜第ｎのテスト音声信号を送信し、
前記第１〜第ｎの外部端末で前記第１〜第ｎのテスト音声信号に応じて出力される第１〜第ｎのテスト音声が前記音声入力手段に入力された第１〜第ｎの入力時刻を記録し、
前記第１〜第ｎの入力時刻と、前記第１〜第ｎのテスト音声信号を送信した第１〜第ｎの送信時刻との差分を計算することにより前記第１〜第ｎの時間Tbを取得する
第１の制御手段と
をさらに備えたことを特徴とする請求項１に記載の通信端末。
前記分離手段により分離された前記音声信号を一時的に格納する音声出力制御バッファを有し、前記音声出力制御バッファから前記音声信号を取り出して前記音声信号に基づいて音声を出力する音声出力処理手段をさらに備え、
前記音声出力処理手段は、前記第１〜第ｎの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記音声信号を前記音声出力制御バッファに待機させてから前記音声信号に基づいて音声を出力する
ことを特徴とする請求項１または２に記載の通信端末。
第２の制御手段をさらに備え、
前記映像表示処理手段は、前記分離手段により分離された前記映像信号を復号する復号手段を有し、前記映像出力制御バッファは、前記復号された映像信号を格納し、前記映像表示処理手段は、前記映像出力制御バッファから前記復号された映像信号を取り出して前記復号された映像信号に基づいて映像を表示し、
前記第２の制御手段は、
前記音声映像受信手段で前記多重化信号が受信された時刻である多重化信号受信時刻と、前記復号された映像信号が前記映像出力制御バッファに格納された映像格納時刻と、前記音声信号が前記第１〜第ｎの送信制御バッファに格納された第１〜第ｎ音声格納時刻とを計測し、
前記映像格納時刻と前記多重化信号受信時刻との差分である出力遅延時間T_in1を計算し、前記第１〜第ｎ音声格納時刻と前記多重化信号受信時刻との第１〜第ｎの差分Taと、前記第１〜第ｎの時間Tbとの合計である第１〜第ｎの合計遅延時間T_outを計算し、
前記映像表示処理手段は、前記第１〜第ｎの合計遅延時間T_outおよび前記出力遅延時間T_in1のうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記復号された映像信号を前記映像出力制御バッファに待機させ
前記第１〜第ｎの送信処理手段は、前記最も長い時間Tmaxと、前記第１〜第ｎの合計遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させる
ことを特徴とする請求項１または２に記載の通信端末。
前記分離手段により分離された前記音声信号を一時的に格納する音声出力制御バッファを有し、前記音声出力制御バッファから前記音声信号を取り出して前記音声信号に基づいて音声を出力する音声出力処理手段をさらに備え、
前記音声出力処理手段は、前記分離手段により分離された前記音声信号を復号する復号手段を有し、前記音声出力制御バッファは、前記復号された音声信号を格納し、前記音声出力処理手段は、前記音声出力制御バッファから前記復号された音声信号を取り出して前記復号された音声信号に基づいて音声を出力し、
前記第２の制御手段は、
前記復号された音声信号が前記音声出力制御バッファに格納された音声格納時刻を計測し、
前記音声格納時刻と前記多重化信号受信時刻との差分である出力遅延時間T_in2を計算し、
前記映像表示処理手段は、前記第１〜第ｎの合計遅延時間T_outおよび前記出力遅延時間T_in1，T_int2のうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記復号された映像信号を前記映像出力制御バッファに待機させ、
前記音声出力処理手段は、前記最も長い時間Tmaxと、前記出力遅延時間T_in2との差分に応じた時間だけ前記復号された音声信号を前記音声出力制御バッファに待機させ、
前記第１〜第ｎの送信処理手段は、前記最も長い時間Tmaxと、前記第１〜第ｎの合計遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させる
ことを特徴とする請求項４に記載の通信端末。
前記映像表示処理手段は、前記映像出力制御バッファから取り出した映像信号を復号する復号手段を有し、前記復号手段により復号した映像信号に基づき映像を表示し、
前記映像表示処理手段は、前記映像信号の復号に要する時間として事前に与えられた復号時間Tdと前記第１〜第ｎの時間Tbとのうち最も長い時間Tmaxと、前記復号時間Tdとの差分に応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させ、
前記第１〜第ｎの送信処理手段は、前記最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させる
ことを特徴とする請求項１または２に記載の通信端末。
前記音声映像受信手段で前記多重化信号が受信された時刻である多重化信号受信時刻と、前記映像信号が前記映像出力制御バッファに格納された映像格納時刻と、前記音声信号が前記第１〜第の送信制御バッファに格納された第１〜第ｎ音声格納時刻とを計測し、
前記映像格納時刻と前記多重化信号受信時刻との差分Tcと、前記復号時間Tdとの合計である出力遅延時間T_in1を計算し、前記第１〜第ｎ音声格納時刻と前記多重化信号受信時刻との第１〜第ｎの差分Taと、前記第１〜第ｎの時間Tbとの合計である第１〜第ｎの送信遅延時間T_outを計算する、
第３の制御手段、をさらに備え、
前記映像表示処理手段は、前記出力遅延時間T_in1および前記第１〜第ｎの送信遅延時間T_outのうち最も長い時間Tmaxと、前記出力遅延時間T_in1との差分に応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させ
前記第１〜第ｎの送信処理手段は、前記最も長い時間Tmaxと、前記第１〜第ｎの送信遅延時間T_outのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させる
ことを特徴とする請求項６に記載の通信端末。
第１〜第ｎ（ｎは１以上の整数）の外部端末と通信する通信方法であって、
音声映像受信手段がネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する多重化信号受信ステップと、
分離手段が前記多重化信号を前記映像信号と前記音声信号とへ分離する分離ステップと、
映像表示処理手段が前記分離手段により分離された前記映像信号を映像出力制御バッファに一時的に格納し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理ステップと、
第１〜第ｎの送信処理手段が前記分離ステップにより分離された前記音声信号を第１〜第ｎの送信制御バッファのそれぞれに一時的に格納し、前記第１〜第ｎの送信制御バッファから前記音声信号を取り出して前記第１〜第ｎの外部端末へ送信する送信処理ステップと、を備え、
前記送信処理ステップは、前記第１〜第ｎの外部端末へ前記音声信号を送信してから前記第１〜第ｎの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第１〜第ｎの時間Tbのうち最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させてから前記音声信号を送信し、
前記映像表示処理ステップは、前記第１〜第ｎの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
ことを特徴とする通信方法。
第１〜第ｎ（ｎは１以上の整数）の外部端末と通信するコンピュータに、
音声映像受信手段がネットワークを介して映像信号と音声信号とが多重化された多重化信号を受信する多重化信号受信ステップと、
分離手段が前記多重化信号を前記映像信号と前記音声信号とへ分離する分離ステップと、
映像表示処理手段が前記分離手段により分離された前記映像信号を映像出力制御バッファに一時的に格納し、前記映像出力制御バッファから取り出した前記映像信号に基づいて映像を表示する映像表示処理ステップと、
第１〜第ｎの送信処理手段が前記分離手段により分離された前記音声信号を第１〜第ｎの送信制御バッファのそれぞれに一時的に格納し、前記第１〜第ｎの送信制御バッファから前記音声信号を取り出して前記第１〜第ｎの外部端末へ送信する送信処理ステップと、を実行させ、
前記送信処理ステップは、前記第１〜第ｎの外部端末へ前記音声信号を送信してから前記第１〜第ｎの外部端末において前記音声信号に基づく音声が出力されるまで要する時間として事前に取得された第１〜第ｎの時間Tbのうち最も長い時間Tmaxと、前記第１〜第ｎの時間Tbのそれぞれとの差分に応じた時間だけ前記音声信号を前記第１〜第ｎの送信制御バッファに待機させてから前記音声信号を送信し、
前記映像表示処理ステップは、前記第１〜第ｎの時間Tbのうち最も長い時間Tmaxに応じた時間だけ前記映像信号を前記映像出力制御バッファに待機させてから前記映像信号に基づく映像表示を行う
ことを特徴とするコンピュータプログラム。