JP2017046235A

JP2017046235A - 音声映像同期処理装置、端末、音声映像同期処理方法及びプログラム

Info

Publication number: JP2017046235A
Application number: JP2015168177A
Authority: JP
Inventors: 令治田中; Reiji Tanaka
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-08-27
Filing date: 2015-08-27
Publication date: 2017-03-02

Abstract

【課題】会議の状況に応じて、音声信号及び映像信号の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができるようにする。
【解決手段】本発明に係る音声映像同期処理装置は、受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定手段と、受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定手段と、第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段とを備える。
【選択図】図１

Description

本発明は、音声映像同期処理装置、端末、音声映像同期処理方法及びプログラムに関し、例えば、Ｈ．３２３ＴＶ会議システムにおいて、音声信号と映像信号との間の同期を行う音声映像同期処理装置に適用し得るものである。

ネットワークを通じて会議を開催するテレビ会議システムでは、映像と音声を同期させる機能としてリップシンク機能がある。

例えば、Ｈ．３２３準拠のテレビ会議システムでは、音声信号と映像信号のそれぞれの符号化に伴う遅延時間が異なるため、一般的に音声信号に比べて、映像信号が遅れる。そのため、話者の映像と音声のずれが生じてしまう。このような問題を解決するために、テレビ会議システムの会議端末（後述の特許文献１では、本体と音声端末に対応）は、リップシンク機能を有効にすることで、当該会議端末の会議の相手側となる相手側会議端末（後述の特許文献１では、遠隔端末に対応）で取得された映像信号と音声信号について、受信側である、本体と音声端末で再生する時点で、音声信号を遅らせて出力する。従って、映像と音声とのずれが低減する。

特開２００２−２９０９３８号公報

しかしながら、従来のテレビ会議システムにおけるリップシンク機能は、通話の開始に先立って、有効又は無効の設定をするものであり、通話途中での有効又は無効を切り替えることができなかった。

リップシンク機能を有効にした場合、上述したように音声信号も遅らせて再生するため、常に、会議に係る音声信号及び映像信号の遅延が生じることになる。

その一方、上記のような遅延が会議に与え得る影響を、以下の２つの場面を想定して考える。

１つは、プレゼンテーションを行うときのように、誰かが連続して発言し続け、他の参加者は、その発言を聞いている場面である。

もう１つは、議論を行うときのように、複数の参加者が互いに、あるいは同時に、発言を行う場面である。

これら２つの場面において、音声信号と映像信号との間の同期が重要な場面と、音声信号の遅延の小ささが重要な場面のように、状況に応じてリップシンクが効果的かどうかの違いがある。

現状では、会議の状況を判断し、リップシンク機能を動的に切り替えることができない。そのため、利用者は、会議の性質を考えて、予めリップシンク機能の使用の有無を決めなければならなかった。

そのため、会議の状況に応じて、音声信号と映像信号との間の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができる音声映像同期処理装置、端末、音声映像同期処理プログラム及び情報処理端末が求められている。

かかる課題を解決するために、第１の本発明に係る音声映像同期処理装置は、（１）受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理手段と、（２）送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定手段と、（３）受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定手段と、（４）第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段とを備えることを特徴とする。

第２の本発明に係る端末は、映像信号及び音声信号を含むメディア情報を授受して、映像及び音声を出力する端末であって、第１の本発明に係る音声映像同期処理装置を備えることを特徴とする。

第３の本発明に係る音声映像同期処理方法は、音声映像同期処理装置の音声映像同期処理方法であって、上記音声映像同期処理装置は、（１）受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理ステップと、（２）送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定ステップと、（３）受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定ステップと、（４）上記第１音声検出ステップ及び上記第２音声検出ステップによる音声検出結果に応じて、音声映像同期処理ステップによる同期を動的に制御する同期制御ステップを備えることを特徴とする。

第４の本発明に係る音声映像同期処理プログラムは、コンピュータを、（１）受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号と音声信号との間の同期を行う音声映像同期処理手段と、（２）送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定手段と、（３）受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定手段と、（４）第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、音声映像同期処理手段による同期を動的に制御する同期制御手段として機能させることを特徴とする。

本発明によれば、会議の状況に応じて、音声信号と映像信号との間の同期を行う機能を適宜切り替え、場面に応じて音声信号と映像信号を最適に制御することができる。

実施形態に係る会議端末の内部構成を示す内部構成図である。実施形態に係る音声判定処理を示すフローチャートである。実施形態に係る音声信号に対する音素を得ることを説明する説明図である。実施形態に係る同期制御部による同期制御処理の動作を示す状態遷移図である。実施形態に係る同期制御部による同期制御処理を示すタイミングチャートである（その１）。実施形態に係る同期制御部による同期制御処理を示すタイミングチャートである（その２）。実施形態に係る同期制御部による同期制御処理を示すタイミングチャートである（その３）。

（Ａ）主たる実施形態
以下では、本発明に係る音声映像同期処理装置、端末、音声映像同期処理方法及びプログラムの実施形態を、図面を参照しながら詳細に説明する。

例えば、通信プロトコルとしてＨ．３２３準拠のテレビ会議システムの会議端末に本発明を適用する場合を例示して説明する。

（Ａ−１）実施形態の構成
図１は、実施形態に係る会議端末の内部構成を示す内部構成図である。なお、会議端末１のハードウェアは、例えば、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＥＥＰＲＯＭ、入出力インタフェース部、通信部等の回路を有する。また、ＣＰＵがＲＯＭに格納される処理プログラム（音声映像同期処理プログラム）を実行することにより、会議端末１としての機能が実現される。なお、処理プログラム（音声映像同期処理プログラム）がインストールされることにより構築できるようにしても良く、その場合でも、実行される処理プログラムは図１のように表される。

図１において、会議端末１は、それぞれの接続インタフェース部を介して、会議端末１を使用する会議参加者が発した音声信号（以下、送信音声信号［会議端末１側］と記載）を集音して入力するマイク等の音声入力装置２、会議端末１の会議の相手側となる相手側会議端末で入力された相手側会議参加者の音声信号（以下、受信音声信号［相手側］と記載）を出力するスピーカ等の音声出力装置３、相手側会議端末で入力された相手側会議参加者の映像信号（以下、受信映像信号［相手側］と記載）を出力するディスプレイ等の映像出力装置４と接続可能なものである。なお、図１では、図示していないが、会議端末１は、会議参加者を撮像して映像データを会議端末１に与える撮像装置や、会議において使用する表データや動画像データ等を出力するパーソナルコンピュータ等の情報処理装置等と接続可能であっても良い。

また、図１において、実施形態に係る会議端末１は、大別して、音声映像同期制御部１０と、送信音声信号処理部１８、受信音声信号処理部１９、受信映像信号処理部２０を有する。

送信音声信号処理部１８は、音声映像同期制御部１０を介して、会議端末１に接続している音声入力装置２から入力された音声信号を送信音声信号［会議端末１側］として受け取り、送信音声信号［会議端末１側］を含むパケットをネットワークに送信する。

受信音声信号処理部１９は、ネットワークを介して受信したパケットに含まれる相手側会議端末で受け取った音声信号を受信音声信号［相手側］として抽出し、受信音声信号［相手側］を音声映像同期制御部１０に送る。

受信映像信号処理部２０は、ネットワークを介して受信したパケットに含まれる相手側会議端末で受け取った映像信号を受信映像信号［相手側］として抽出し、受信映像信号［相手側］を音声映像同期制御部１０に送る。

音声映像同期制御部１０は、音声入力装置２から入力された音声信号を送信音声信号［会議端末１側］として受け取り、受信音声信号処理部１９から受信音声信号［相手側］を受け取り、受信映像信号処理部２０から受信映像信号［相手側］受け取る。音声映像同期制御部１０は、送信音声信号［会議端末１側］及び受信音声信号［相手側］に基づいて、会議端末１から出力される受信音声信号［相手側］及び受信映像信号［相手側］について、受信音声信号［相手側］と受信映像信号［相手側］との間の同期を行い、受信音声信号［相手側］と受信映像信号［相手側］の出力タイミングを制御する（または同期を行わず、出力タイミングを制御しない）ものである。

音声映像同期制御部１０は、入力音声信号［会議端末１側］及び受信音声信号［相手側］に基づいて、受信音声信号［相手側］のみを検出した場合にはリップシンク機能としての音声映像同期処理を有効として受信音声信号［相手側］及び受信映像信号［相手側］の出力タイミングを制御し、ほぼ同時期に送信音声信号［会議端末１側］及び受信音声信号［相手側］を検出した場合には音声映像同期処理を無効として受信音声信号［相手側］及び受信映像信号［相手側］の出力タイミングを制御しない。つまり、音声映像同期制御部１０は、多地点間の会議における議論状況を会議参加者の発言状況に基づいて判断し、相手側会議端末の会議参会者のみが発言していると思われるときには受信音声信号［相手側］と受信映像信号［相手側］間の同期を行うことができ、逆に相手側会議端末の会議参加者と会議端末１の会議参加者がほぼ同時に議論を交わしているときには、受信音声信号［相手側］と受信映像信号［相手側］との間の同期を行なわない（若しくは、受信音声信号［相手側］と受信映像信号［相手側］との間の同期の精度を落とす）。音声映像同期制御部１０は、音声映像同期処理の有効／無効に基づいて処理された受信音声信号［相手側］を音声出力装置３に出力し、受信映像信号［相手側］を映像出力装置４に出力する。これにより、例えばプレゼンテーションや会議報告等のように、相手側会議端末の会議参加者のみが発言するときには、映像に映し出される話者の口の動きに合わせて音声を出力することができ、会議端末１の会議参加者及び相手側会議端末の会議参加者の間で議論を交わすときには、遅延を少ない音声の出力を優先することができる。

図１に示すように、音声映像同期制御部１０は、音声映像同期処理部１１、第１音声分配部１２、第１音声・非音声判定部１３、同期制御部１４、第２音声分配部１５、第２音声・非音声判定部１６、音素データベース１７を有する。

第１音声分配部１２は、音声入力装置２から入力された送信音声信号を送信音声信号［会議端末１側］として受け取り、送信音声信号［会議端末１側］を複製して分配する。第１音声分配部１２は、送信音声信号［会議端末１側］を相手側会議端末に送信するため、一方の送信音声信号［会議端末１側］を送信音声信号処理部１８に送り、又会議の議論状況を判断するため、他方の送信音声信号［会議端末１側］を第１音声・非音声判定部１３に送る。

第１音声・非音声判定部１３は、会議端末１側の会議参加者の発言状況を検出するために、第１音声分配部１２から送信音声信号［会議端末１側］を受け取り、音素データベース１７を参照して、送信音声信号［会議端末１側］に音声（音素）が含まれているか否かを検出する。第１音声・非音声判定部１３は、送信音声信号［会議端末１側］に基づく音声判定結果を同期制御部１４に送る。つまり、第１音声・非音声判定部１３は、音素データベース１７を参照して、送信音声信号［会議端末１側］に言葉としての音素が含まれているか否かを判定する。第１音声・非音声判定部１３による音声判定処理の方法は、会議端末１側の会議参加者が発言している状態か否かを検出することができれば、種々の方法を広く適用することができる。

音素データベース１７は、多数の音素データを保持するデータベースである。なお、音素データベース１７は、会議端末１に予め登録されているものであっても良いし、又はネットワーク上に音素データベース１７が設けられており、会議端末１がネットワークを通じて音素データを取得できるものであっても良い。

第２音声分配部１５は、受信音声信号処理部１９から受け取った受信音声信号［相手側］を複製して分配する。第２音声分配部１５は、受信音声信号［相手側］を出力するために、一方の受信音声信号［相手側］を音声映像同期処理部１１に送り、又会議の議論状況を判断するため、他方の受信音声信号［相手側］を第２音声・非音声判定部１６に送る。

第２音声・非音声判定部１６は、相手側会議端末の会議参加者の発言状況を検出するために、第２音声分配部１５から受信音声信号［相手側］を受け取り、音素データベース１７を参照して、受信音声信号［相手側］に音声（音素）が含まれているか否かを検出する。第２音声・非音声判定部１６は、受信音声信号［相手側］に基づく音声判定結果を同期制御部１４に与える。第２音声・非音声判定部１６による音声判定処理の方法は、第１音声・非音声判定部１３による処理方法と同様の方法を適用できる。

同期制御部１４は、第１音声・非音声判定部１３から送信音声信号［会議端末１側］に基づく音声判定結果と、第２音声・非音声判定部１６から受信音声信号［相手側］に基づく音声判定結果とに基づいて、送信音声系統と受信音声系統から通話における議論状況を判断し、音声映像同期処理部１１に対して、音声映像同期処理の有効又は無効を指示する。つまり、送信音声信号［会議端末１側］及び受信音声信号［相手側］に基づく会議端末１及び受信音声信号[相手側]の音声の有無の状況から、現時点での会議参加者の発言状況を確認し、受信音声信号［相手側］にのみ音声が含まれているときには、音声映像同期処理を有効にする。一方、送信音声信号［会議端末１側］及び受信音声信号［相手側］に音声が含まれているときには、音声映像同期処理を無効にする。

音声映像同期処理部１１は、同期制御部１４の指示に従って、受信音声信号［相手側］と受信映像信号［相手側］とを同期させるリップシンク機能を有効又は無効にして、受信音声信号［相手側］に基づく音声を音声出力装置３に出力したり、受信映像信号［相手側］に基づく映像を映像出力装置４に出力したりするものである。

音声映像同期処理部１１は、同期切替部１１１、同期処理部１１２を有する。

同期切替部１１１は、同期制御部１４の指示に従って、リップシンク機能としての音声映像同期処理の有効又は無効に動的に切り替えて、同期処理部１１２に指示する。

同期処理部１１２は、音声映像同期処理が有効の場合に、第２音声分配部１５からの受信音声信号［相手側］及び受信映像信号処理部２０からの受信映像信号［相手側］に含まれている時間情報（同期情報）に基づいて、受信音声信号［相手側］の出力タイミングと受信映像信号［相手側］の出力タイミングとを同期させて、受信音声信号［相手側］と受信映像信号［相手側］とを出力するものである。より具体的には、同期処理部１１２は、受信音声信号［相手側］の時間情報と、受信映像信号［相手側］の時間情報とに基づいて、両者の時間を合わせて、受信音声信号［相手側］と受信映像信号［相手側］を出力する。なお、音声映像同期処理が無効の場合、音声映像同期処理部１１は、受信音声信号［相手側］及び受信映像信号［相手側］を同期せずに出力する。

ここで、同期処理部１１２は、受信音声信号［相手側］の出力タイミングと受信映像信号［相手側］の出力タイミングとを同期させて、受信音声信号［相手側］と受信映像信号［相手側］とを出力する際、次の受信音声信号［相手側］の時間情報と受信映像信号［相手側］の時間情報を用いてもよい。例えば、受信音声信号［相手側］の時間情報は、第２音声分配部１５を介して受信音声信号処理部１９から受け取ったものであり、パケットから抽出された受信音声信号［相手側］に関わる時間情報である。例えば、受信映像信号［相手側］の時間情報は、受信映像信号処理部２０から受け取ったものであり、パケットから抽出された受信映像信号［相手側］に関わる時間情報である。

（Ａ−２）実施形態の動作
次に、実施形態に係る会議端末１における音声映像同期処理の動作を、図面を参照しながら詳細に説明する。

会議端末１が設置されている場所において、会議参加者が発言すると、音声信号は音声入力装置２により集音され入力される。入力された音声信号は、送信音声信号［会議端末１側］として会議端末１で受け取る。会議端末１で受け取った送信音声信号［会議端末１側］は、第１音声分配部１２により２系統分の音声信号に複製される。一方の送信音声信号［会議端末１側］は送信音声信号処理部１８に送られ、送信音声信号処理部１８において、会議システムに係るパケットが生成されてネットワークを介して相手側会議端末に送信される。他方の送信音声信号［会議端末１側］は、第１音声・非音声判定部１３に送られる。

また、相手側会議端末で受け取った会議参加者の音声信号及び映像信号は、受信音声信号［相手側］及び受信映像信号［相手側］として受信音声信号処理部１９及び受信映像信号処理部２０で抽出される。ここで、受信音声信号［相手側］及び受信映像信号［相手側］は、相手側会議端末から受信したパケットから抽出されたものである。

受信音声信号処理部１９により抽出された受信音声信号［相手側］は、第２音声分配部１５により２系統分の音声信号に複製される。一方の受信音声信号［相手側］は音声映像同期処理部１１に送られる。他方の受信音声信号［相手側］は、第２音声・非音声判定部１６に送られる。

ここで、第１音声・非音声判定部１３及び第２音声・非音声判定部１６における音声判定処理の一例を説明する。この実施形態では、音声認識技術の一部で用いされる隠れマルコフモデルによる音響モデルを採用して、受け取った音声信号に音声が含まれているか否かを判定する場合を例示する。

図２は、実施形態に係る音声判定処理を示すフローチャートである。

第１音声・非音声判定部１３、第２音声・非音声判定部１６は音声信号（第１音声・非音声判定部１３では送信音声信号［会議端末１側］、第２音声・非音声判定部１６では受信音声信号［相手側］）を受け取ると（Ｓ１０１）、音声信号は所定のＡＤ変換によりデジタル信号に変換される（Ｓ１０２）。なお、Ｓ１０１及びＳ１０２は、アナログ信号が入力された場合の処理であるため、デジタル信号が入力されるときには、Ｓ１０１及びＳ１０２の処理は省略するようにしても良い。

第１音声・非音声判定部１３、第２音声・非音声判定部１６は、入力されたデジタル信号を所定の処理単位にするため、所定間隔（例えば２０ｍｓｅｃ等）でフレームに分割する（Ｓ１０３）。そして、フレーム単位の信号に、例えばハミング窓やハニング窓等の時間窓関数を時間軸方向にスライドさせながら乗じて、フレーム分割による高周波数ノイズの低減された音声信号を生成する（Ｓ１０４）。

第１音声・非音声判定部１３、第２音声・非音声判定部１６は、時間窓関数を乗じたフレーム単位の音声信号をフーリエ変換（一例は離散フーリエ変換）して音声信号のスペクトルを算出し（Ｓ１０５）、フレーム毎の音声信号のスペクトルを用いて、音声の特徴量が抽出される（Ｓ１０６）。なお、音声の特徴量の抽出方法は、種々の方法を適用しても良いが、この実施形態では、メル周波数ケプラトラム（ＭＦＣＣ）値に基づいて、音声の特徴量を指標する。より具体的には、フレーム毎の音声信号のスペクトルに対して、例えばメルスケール帯域フィルタ等を掛けて、周波数帯域毎の周波数成分のパワーを算出する。各周波数成分のパワーの対数値を算出し、離散コサイン変換を行うことにより、メル周波数ケプラトラム係数（ＭＦＣＣ）を得る。

ここで、音声区間又は非音声区間を判断するためには、音源の周波数ではなく、口の形を示すものが、周波数成分のパワーの包絡線で示される。これは声道のパラメータと呼ばれる数値で表現される。声道のパラメータは、例えば、男性と女性、若年者と年配者、個人等により多種多様にある。しかし、これら多様性を消し去り、指標化する必要がある。この指標の代表的な方法として、ＭＦＣＣがあり、ＭＦＣＣの方式で数値化を行う。この実施形態においてＭＦＣＣを利用する理由は、発生された音声に対して、似たような数値になるという特性を利用するためである。また、音素データに対してＭＦＣＣ値がどのような値になるかについては、既に数多くのサンプルから計算されたデータがある。そのため、音素データベース１７に多数の音素データを保持し、第１音声・非音声判定部１３及び第２音声・非音声判定部１６が音素データベース１７を参照する。

第１音声・非音声判定部１３、第２音声・非音声判定部１６は、フレーム毎に得られた音声特徴量（例えば、ＭＦＣＣ値）と、音素データベース１７に格納される音素データとを照合する（Ｓ１０７）。そうすると、例えば、図３（出典：安藤章悟、小黒怜著、「ラズベリー・パイでトライ！音声認識＜第６回＞認識処理に使う重要データ！音声特徴量ＭＦＣＣを求める」、Ｉｎｔｅｆａｃｅ２０１４年４月号、ＣＱ出版株式会社、第４０巻第４号通巻４４２号、平成２６年４月１日発行、１５０頁、図１１）に例示するような、受け取った音声信号「おはよー」に対応する音素「ｏ」、「ｈ」、「ａ」、「ｙ」、「ｏ」を得ることができる。

音素データベース１７の音素データとのマッチングにより、音声があると検出されると（Ｓ１０８）、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、音声検出区間とする音声判定結果を同期制御部１４に出力する。また、音声がないと判定されると（Ｓ１０９）、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、音声非検出区間とする音声判定結果を同期制御部１４に送る（Ｓ１１０）。

音声認識を行う場合は、断片化したフレーム単位でＭＦＣＣ値をそのまま音素に割り当てると言葉以上の音になる。しかし、音声・非音声の検出ができれば、十分な場合、この断片化した音素が検出された状態と、検出できない状態でその判断を行うようにしても良い。

また、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、会議端末１側、相手側における会議参加者が言葉を発している状態か否かを判断することを意図する。つまり、会議端末１に接続する音声入力装置２及び相手側端末で受け取った音声信号からの受信音声信号処理部１９は、会議参加者の音声以外の音や雑音等も捕捉するが、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、会議における議論の状態が、例えば相互に発言し合っている等の状態か、又は、一方の会議参加者がプレゼンテーションや説明等のように、一方向に向かって発言し、他の会議参加者がその発言を聞いている等のような状態かを判断している。ここでは、その一例として、第１音声・非音声判定部１３、第２音声・非音声判定部１６が、音声判定処理を使用して、送信音声信号［会議端末１側］、受信音声信号［相手側］に音素が含まれているか否かを判定している。

そのため、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、受け取った音声信号に含まれている音声がどの音素であるか等の処理は必要ではなく、入力された音声信号に、雑音や非音声ではなく、言葉としての音素が含まれているか否かを判定することができればよい。従って、ここでは、図３の例のように入力された音声信号に対する音素を得る場合を例示するが、フレーム毎の音声信号において音素を検出した時点で、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、音声有りとする音声判定結果を出力するようにしても良い。又例えば、第１音声・非音声判定部１３、第２音声・非音声判定部１６は、受け取った音声信号の時系列における所定時間だけ音声判定処理を行ない、音声区間の有無を判定するようにしても良い。

次に、同期制御部１４は、第１音声・非音声判定部１３及び第２の音声・非音声判定部１６からの音声判定結果に基づいて、相手側及び会議端末１側の間の音声・非音声の状態を判定し、音声映像同期処理部１１に対して音声映像同期処理を行うタイミングと行なわないタイミングを指示する。

より具体的には、同期制御部１４は、送信音声信号［会議端末１側］に関わる送信系統の音声検出区間と、受信音声信号［相手側］に関わる受信系統の音声検出区間と、送受信の双方の音声非検出区間とに基づいて、音声映像同期処理の有効又は無効の指示を行う。

音声映像の同期を行わないという状況が望まれる時間は、送受信の音声検出区間を同時期に検出するとき（すなわち会議端末１側と相手側の双方で発言が衝突するとき）や、非常に短い時間で送受信される音声検出区間の検出が切り替わるときである。

図４は、実施形態に係る同期制御部１４による同期制御処理の動作を示す状態遷移図である。

図４に示すように、同期制御部１４が管理すべき状態は、同期制御有効状態１４１、同期制御無効状態１４２、同期制御復帰待ち状態１４３の３つである。

これら同期制御有効状態１４１、同期制御無効状態１４２、同期制御復帰待ち状態１４３の遷移状態を発生させるイベントは、送信系統の音声検出を示す「ＴＸ音声（ＯＮ）」、送信系統の音声非検出を示す「ＴＸ音声（ＯＦＦ）」、送信系統の音声非検出の継続時間のタイムアウトを示す「ＴＸ非音声Ｔｉｍｅｏｕｔ」、受信系統の音声検出を示す「ＲＸ音声（ＯＮ）」、受信系統の音声非検出を示す「ＲＸ音声（ＯＦＦ）」、受信系統の音声非検出の継続時間のタイムアウトを示す「ＲＸ非音声Ｔｉｍｅｏｕｔ」の６つである。

同期制御有効状態１４１について説明する。「ＴＸ音声（ＯＮ）」のとき、ＲＸ音声状態を判断し（Ｓ２０１）、「ＲＸ音声（ＯＦＦ）」であれば、同期制御有効状態１４１に遷移する。また、「ＲＸ音声（ＯＮ）」のとき、ＴＸ音声状態を判断し（Ｓ２０２）、「ＴＸ音声（ＯＦＦ）」であれば、同期制御有効状態１４１に遷移する。さらに、「ＴＸ音声（ＯＦＦ）」、「ＲＸ音声（ＯＦＦ）」のいずれかのとき、同期制御有効状態１４１に遷移する。

なお、後述するが、同期制御無効状態１４２又は同期制御復帰待ち状態１４３から、同期制御有効状態１４１への遷移のトリガは、「ＲＸ非音声ＴｉｍｅｒＴｉｍｅｏｕｔ」のときとする。

次に、同期制御無効状態１４２について説明する。同期制御有効状態１４１において、「ＴＸ音声（ＯＮ）」イベントが発生したとき、ＲＸ音声状態を判断し（Ｓ２０１）、「ＲＸ音声（ＯＮ）」であれば、同期制御無効状態１４２に遷移する。また、同期制御有効状態１４１において、「ＲＸ音声（ＯＮ）」イベントが発生したとき、ＴＸ音声状態を判断し（Ｓ２０２）、「ＴＸ音声（ＯＮ）」であれば、同期制御無効状態１４２に遷移する。これは、送受信系統の双方で音声検出区間が重複（音声が衝突）している状態を意図している。

つまり、同期制御有効状態１４１から同期制御無効状態１４２へのトリガは、送信系統及び受信系統の音声検出区間が一部で重複している場合に遷移する。

同期制御無効状態１４２への遷移後、「ＲＸ音声（ＯＦＦ）」イベントが発生すると、同期制御部１４は、受信系統の音声非検出区間のＴｉｍｅＯｕｔ時間を計時するため「ＲＸ非音声ＴｉｍｅｒＳｔａｒｔ」する（Ｓ２０３）。受信系統の音声非検出区間のＴｉｍｅＯｕｔ時間計時後、「ＲＸ音声（ＯＮ）」となるとＴｉｍｅＯｕｔ時間を停止するため「ＲＸ非音声ＴｉｍｅｒＳｔｏｐ」とする（Ｓ２０４）。「ＲＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となると（Ｓ２０５）、Ｓ２０９に移行する。Ｓ２０９では、「ＲＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となり（Ｓ２０５）、「ＴＸ非音声ＴｉｍｅｒＳｔｏｐ」すると、同期制御有効状態１４１に遷移する。

また、同期制御無効状態１４２への遷移後、「ＴＸ音声（ＯＦＦ）」イベントが発生すると、同期制御部１４は、送信系統の音声非検出区間のＴｉｍｅＯｕｔ時間を計時するため「ＴＸ非音声ＴｉｍｅｒＳｔａｒｔ」する（Ｓ２０６）。送信系統の音声非検出区間のＴｉｍｅＯｕｔ時間計時後、「ＴＸ音声（ＯＮ）」となるとＴｉｍｅＯｕｔ時間を停止するため「ＴＸ非音声ＴｉｍｅｒＳｔｏｐ」する（Ｓ２０７）。

又「ＴＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となると（Ｓ２０８）、同期制御復帰待ち状態１４３に遷移する。

Ｓ２０３〜Ｓ２０８は、送信系統及び受信系統のいずれか又は双方において一時的な短い期間で音声が非検出となった状態であるか、又は、送信系統若しくは受信系統のいずれかで、所定のタイムアウト時間以上で音声が非検出となった状態であるかを判断している。つまり、会議において、会議端末１側及び相手側の会議参加者の間で相互に発言された状態であるか、又は、会議端末１側若しくは相手側の一方の会議参加者のみが発言をし、他方が発言していない状態であるかを判断する。

また、Ｓ２０９は、所定のＴｉｍｅＯｕｔ時間を超えて相手側の会議参加者の発言がなくなった後、同期制御有効状態１４１に遷移する。

次に、同期制御復帰待ち状態１４３について説明する。「ＴＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となり（Ｓ２０８）、「ＲＸ音声（ＯＦＦ）」イベントが発生すると、受信系統の音声非検出区間のＴｉｍｅＯｕｔ時間を計時するため「ＲＸ非音声ＴｉｍｅｒＳｔａｒｔ」する（Ｓ２１０）。受信系統の音声非検出区間のＴｉｍｅＯｕｔ時間計時後、「ＲＸ音声（ＯＮ）」イベントが発生するとＴｉｍｅＯｕｔ時間を停止するため「ＲＸ非音声ＴｉｍｅｒＳｔｏｐ」とする（Ｓ２１１）。このとき、送信系統及び受信系統で音声が重複している状態であるため、同期制御有効状態１４１に遷移するのではなく、同期制御復帰待ち状態１４３を維持する。また、「ＲＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となると（Ｓ２１２）、送信系統及び受信系統ともに音声非検出区間となるため、同期制御有効状態１４１に遷移する。

また、「ＴＸ非音声ＴｉｍｅｒＴｉｍｅＯｕｔ」となり（Ｓ２０８）、「ＴＸ音声（ＯＮ）」イベントが発生すると、同期制御無効状態１４２に遷移する。

ここで、同期制御無効状態１４２、同期制御復帰待ち状態１４３における非音声ＴｉｍｅＯｕｔ検出に係るＴｉｍｅＯｕｔ時間の設定を説明する。

まず、同期制御復帰待ち状態１４３から同期制御有効状態１４１に遷移して、音声映像同期処理を再開するタイミングは、送信系統と受信系統の相互の音声検出区間が重複しないことが絶対条件である。

それに加えて、音声映像同期処理による遅延時間を遅らせても、送信系統と受信系統との相互の音声検出区間が重複しないことを考慮する。また、ネットワークを介して相互に会話を行うことから、信号の往復遅延時間も考慮する。さらに、映像を見ている会議参加者のアクション（発話）に反応するまでの人の応答時間（例えば、３００ｍｓｅｃ）を考慮する。

上記の点を考慮して、非音声ＴｉｍｅＯｕｔ時間を以下のように設定できる。
非音声ＴｉｍｅＯｕｔ時間（ｍｓｅｃ）＝システム遅延時間（ｍｓｅｃ）＋人の反応遅延時間（ｍｓｅｃ）…（１）

なお、システム遅延時間は、会議システムに係る遅延時間である。より具体的には、上述したように音声映像同期処理に係る遅延時間と、信号の往復遅延時間とを含む。従って、（１）式は（２）式のように変換できる。
非音声ＴｉｍｅＯｕｔ時間（ｍｓｅｃ）＝リップシンク遅延（ｍｓｅｃ）＋ネットワーク往復遅延（ｍｓｅｃ）＋人の反応遅延（ｍｓｅｃ）…（２）

上記ＴｉｍｅＯｕｔ時間を用いることで、同期制御無効状態１４２から同期制御有効状態１４１への遷移を管理することで、相互の会話が一段落したタイミングを待つことで、音声映像同期処理のＯＮ／ＯＦＦの頻繁な切り替えによる不自然さを軽減できる。

図５〜図７は、実施形態に係る同期制御部１４による同期制御処理を示すタイミングチャートである。

図５（Ａ）〜図７（Ａ）は、送信音声信号［会議端末１側］に関わる送信系統である第１音声・非音声判定部１３の出力タイミングを示し、図５（Ｂ）〜図７（Ｂ）は、受信音声信号［相手側］に関わる受信系統である第２音声・非音声判定部１６の出力タイミングを示し、図５（Ｃ）〜図７（Ｃ）は、同期制御部１４の出力タイミングを示す。なお、図５〜図７の横軸は時間を示しており、タイミングの説明のために便宜的に数字を付与している。

図５は、送信系統及び受信系統の音声検出区間が重複しない場合のタイミングチャートである。つまり、会議端末１側及び相手側の会議参加者の発言が衝突しない場合である。

図５（Ａ）及び図５（Ｂ）に示すように、第１音声・非音声判定部１３により検出された音声検出区間と、第２音声・非音声判定部１６により検出された音声検出区間とは、時間的に重複していない。このような場合、同期制御部１４は、音声映像同期処理を無効とする指示を行なわない。この例の場合、会議端末１側と相手側との間である程度の時間間隔を持って発言がなされていると考えられているので、同期制御部１４は音声映像同期処理を有効とする指示を、音声映像同期処理部１１に指示する。

図６は、送信系統及び受信系統の音声検出区間が一部で重複する場合のタイミングチャートである。図６は、図４のＳ２０５→Ｓ２０９に移行して、同期制御有効状態１４１に遷移する動作のタイミングチャートである。

図６（Ａ）及び図６（Ｂ）に示すように、第１音声・非音声判定部１３の音声検出区間と、第２音声・非音声判定部１６の音声検出区間とが、時間的に一部重複している。このような場合、同期制御部１４は、以下の特定条件１に従って、音声映像同期処理を無効とする指示を維持する。

ここで、特定条件とは、同期制御部１４が音声映像同期処理を無効とする指示を維持する条件である。

図６の場合、特定条件１は、送受信の音声検出区間の一部で重複が生じた時点を無効指示開始とし、送受信の双方が非音声区間に遷移した後、次の受信音声が検出された時点を無効指示終了とする。

図６の例の場合、「時間情報：３．５」の時点で、送受信の音声検出区間が重複しているため、この時点で、同期制御部１４は音声映像同期処理の無効指示を開始する。「時間情報：１０」の時点で、受信系統が音声非検出となり、「時間情報：１０．７」付近の時点で、送信系統が音声非検出となり、「時間情報：１１．０」付近の時点で、受信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超える。このとき、同期制御部１４は音声映像同期処理の無効を維持し、「時間情報：１１．９」付近の時点で、同期制御部１４は音声映像同期処理を有効に切り替える。

なお、例えば「時間情報：５．５」から「時間情報：５．９」まで等のように、受信系統の音声検出区間がなく、送信系統のみの音声検出区間となるが、この場合、受信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超えていないので、同期制御部１４は、特定条件１に従って、音声映像同期処理の無効指示を維持する。また、「時間情報：５．５」から「時間情報：５．８」付近まで等のように、送信系統の音声検出区間のみとなるが、この場合も、送信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超えていないので、同期制御部１４は、特定条件１に従って、音声映像同期処理の無効指示を維持する。

図７は、送信系統及び受信系統の音声検出区間が一部で重複する場合のタイミングチャートである。図７は、図４のＳ２０８→Ｓ２１０→Ｓ２１２に移行して、同期制御有効状態１４１に遷移する動作のタイミングチャートである。

図７（Ａ）及び図７（Ｂ）に示すように、第１音声・非音声判定部１３の音声検出区間と、第２音声・非音声判定部１６の音声検出区間とが、時間的に一部重複している。このような場合、同期制御部１４は、以下の特定条件２に従って、音声映像同期処理を無効とする指示を維持する。

図７の場合、特定条件２は、送受信の音声検出区間の一部で重複が生じた時点を無効指示開始とし、送信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超えた上、受信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超え、送信系統が音声検出のとき、次の受信音声が検出された時点を無効指示終了とする。

図７の例の場合、「時間情報：３．５」の時点で、送受信の音声検出区間が重複しているため、この時点で、同期制御部１４は音声映像同期処理の無効指示を開始する。「時間情報：８．５」付近の時点で、送信系統の音声が非検出となり、「時間情報：９．５」付近の時点で送信系統の音声が非音声ＴｉｍｅＯｕｔ時間を超えた状態であり、「時間情報：１０．７」付近の時点で、受信系統の音声が非検出となり、「時間情報：１０．９」付近の時点で受信系統の音声が非音声ＴｉｍｅＯｕｔ時間を超えた状態となる。その後、受信系統で音声検出されるまで、同期制御部１４は音声映像同期処理の無効を維持し、「時間情報：１１．１」付近で、音声映像同期処理を有効に切り替える。ここで、同期制御復帰待ち状態１４３における受信系統の音声に関する非音声ＴｉｍｅＯｕｔ時間は、会議端末１側の会議参加者が話さない状態の上で相手側の会議参加者が一度話さなくなったことを検出できればよいので、同期制御無効状態１４２における受信系統の音声に関する非音声ＴｉｍｅＯｕｔ時間より短い時間としている。

なお、この場合も、例えば「時間情報：４」から「時間情報：４．５」まで等のように、送信系統の音声検出区間がなく、受信系統のみの音声検出区間となるが、この場合、送信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超えていないので、同期制御部１４は、音声映像同期処理の無効指示を維持する。また、「時間情報：５．５」から「時間情報：５．８」付近まで等のように、送信系統の音声検出区間のみとなるが、この場合も、受信系統の音声非検出が非音声ＴｉｍｅＯｕｔ時間を超えていないので、同期制御部１４は、音声映像同期処理の無効指示を維持する。

（Ａ−３）実施形態の効果
以上のように、実施形態によれば、互いの会話が衝突することを検出し、よりリアルタイム性が必要である状態を認識する。これにより、会議中でも、音声信号と映像信号との間で同期させるリップクリップ機能を一時的に抑制し、相互の音声の遅延を最小限にして出力できる。従って、多くの会議参加者がほぼ同時に発言するような場合には、通常の会話状態のような感覚で行うことができる。

また、実施形態によれば、音声映像同期処理（リップシンク）を無効にした後に、同期制御復帰待ち状態の特定条件に従ったタイミングで同期を再開する。これにより、リップシンクの連続的な切り替えを防止や、不自然な切り替えを防止できる。

さらに、互いの音声状態を認識しただけでは、頻繁にリップシンクの有効／無効が切り替わり、リップシンクを有効にする際に発生する遅延が通話に違和感を与えかねない。しかし、実施形態によれば、タイミング制御を行うことで、違和感を抑えてリップシンク有効状態に遷移させることができる。

また、実施形態によれば、リップシンクに復帰させても違和感を与えないタイミングは、非音声である時間が、リップシンクに必要な遅延時間より長く続いているときである。その状態後に、リップシンク遅延時間を待たせて音声信号と映像信号との間で同期をとることで、次の音声信号のタイミングで映像信号に同期することになる。その結果、映像を見ている人は、スムーズに映像をみることができる。

（Ｂ）他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の実施形態にも適用できる。

（Ｂ−１）上述した実施形態では、会議システムに用いられる会議端末に適用する場合を例示した。しかし、会議に限定されず、例えば、１対１で通話するテレビ電話端末に適用するようにしても良い。また、２地点、３地点以上の会議システムに用いられるテレビ端末にも適用できる。３地点以上の多地点会議システムにおいても、３地点以上の場所で収音した音声信号及び撮像した映像信号を受信することになる。しかし、本発明によれば、会議端末における送信系統と受信系統の音声検出に基づいて、音声映像同期処理（リップシンク機能）を有効とするか又は無効とするかの制御を行なうものであるため、３地点以上の多地点会議システムにも適用できる。

（Ｂ−２）上述した実施形態では、相手側会議端末で取得された相手側会議参加者を撮影した映像信号［相手側］と、当該相手側会議参加者が発話した音声信号［相手側］との間の同期を制御する場合を例示した。しかし、例えば、プレゼンテーション等でミュージッククリップやムービークリップ等の動画を通信するような場合でも、会議端末においてネットワークを介して受信された映像信号と音声信号との間の同期を制御するようにしても良い。

１…会議端末、２…音声入力装置、３…音声出力装置、４…映像出力装置、１０…音声映像同期制御部、１１…音声映像同期処理部、１２…第１音声分配部、１３…第１音声・非音声判定部、１４…同期制御部、１５…第２音声分配部、１６…第２音声・非音声判定部、１７…音素データベース、１８…送信音声信号処理部、１９…受信音声信号処理部、２０…受信映像信号処理部。

Claims

受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、
送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定手段と、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定手段と、
上記第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御手段と
を備えることを特徴とする音声映像同期処理装置。
上記同期制御手段が、上記送信音声信号の音声検出区間と、上記受信音声信号の音声検出区間との非重複のときに、上記同期を有効にすることを特徴とする請求項１に記載の音声映像同期処理装置。
上記同期制御手段が、上記送信音声信号の音声検出区間と上記受信音声信号の音声検出区間との重複区間で、上記同期を無効にすることを特徴とする請求項１に記載の音声映像同期処理装置。
上記同期制御手段が、上記送信音声信号の音声検出区間と上記受信音声信号の音声検出区間との重複時点で上記同期を無効にし、所定の有効復帰条件に従って、上記同期を有効にすることを特徴とする請求項１に記載の音声映像同期処理装置。
上記同期制御手段は、
上記受信音声信号の音声非検出区間長が所定時間を経過しているときに、次の受信音声信号の音声検出時に上記同期を有効にすること
または、上記送信音声信号の音声非検出区間長が所定時間を経過しているときであり、上記受信音声信号の音声非検出区間長が所定時間を経過しているときに、次の受信音声信号の音声検出時に上記同期を有効にすること
を特徴とする請求項４に記載の音声映像同期処理装置。
映像信号及び音声信号を含むメディア情報を授受して、映像及び音声を出力する端末において、
請求項１〜５のいずれかに記載の音声映像同期処理装置を備えることを特徴とする端末。
音声映像同期処理装置の音声映像同期処理方法であって、
上記音声映像同期処理装置は、
受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理ステップと、
送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定ステップと、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定ステップと、
上記第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御ステップと
を備えることを特徴とする音声映像同期処理方法。
コンピュータを、
受信映像信号及び受信音声信号に含まれる時間情報に基づいて、映像信号及び音声信号の同期を行う音声映像同期処理手段と、
送信音声信号における音声検出区間又は音声非検出区間を判定する第１音声判定手段と、
上記受信音声信号における音声検出区間又は音声非検出区間を判定する第２音声判定手段と、
上記第１音声検出手段及び上記第２音声検出手段による音声検出結果に応じて、上記音声映像同期処理手段による同期を動的に制御する同期制御手段と
して機能させることを特徴とする音声映像同期処理プログラム。