JP2008227693A

JP2008227693A - 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム

Info

Publication number: JP2008227693A
Application number: JP2007059931A
Authority: JP
Inventors: Hajime Tamura; 元田村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2007-03-09
Filing date: 2007-03-09
Publication date: 2008-09-25

Abstract

【課題】ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減させる。
【解決手段】本発明の話者映像表示制御システムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、話者映像表示システム及びテレビ会議システムに関し、例えば、ＩＰ（インターネットプロトコル）ネットワークを利用した多拠点間のテレビ会議コミュニケーションシステムに適用し得る。

近年、ネットワーク通信技術の進展に伴い、離れた場所にいながら、複数の参加者が相互に会議コミュニケーションを図る遠隔地多拠点間でのテレビ会議システムの普及が進んでいる。

従来、テレビ会議システムにおいては、複数の参加者の通信端末からの音声情報及び画像情報をそれぞれミキシングして、各参加者の通信端末に対して配信する必要がある。そのため、ネットワークや通信端末の処理負荷が増大してしまう。

特許文献１には、テレビ会議サーバとしての多地点制御装置（ＭＣＵ；Multipoint Control Unit）を備え、多地点制御装置が、各画像通信端末からビットストリームを受信し、少なくとも輝度情報を含む状態まで復号し、話者以外の映像の輝度を小さく（暗く）なるように変更して表示させるという技術が記載されている。これにより、輝度情報が変更した符号化情報に基づく映像を表示することで、画像情報の復号・編集等処理の負担を軽減するというものである。

特開平１０−２６２２２９号公報

しかしながら、上述した特許文献１に記載のシステムにおいては、常に、会議メンバ会員の映像が映し出されているものであるため、多人数の会議コミュニケーションを行なう場合には、話者の変化が複雑になるため、多数の映像情報に基づいて輝度情報の変化を判断する必要があった。

また、映像を常時リアルタイムに配信する必要があるので、配信する情報量は変わらないため、ネットワークの通信帯域や通信端末の処理負荷を軽減するものでもない。

そのため、ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減することができる話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システムが求められている。

かかる課題を解決するために、第１の本発明の話者映像表示制御システムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、（１）入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、（２）有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、（３）話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段とを備えることを特徴とする。

第２の本発明の通信端末は、多地点テレビ会議システムを構成する通信端末において、第１の本発明の話者映像表示制御システムを備えることを特徴とする。

第３の本発明の複数の通信端末を有して構成される多地点テレビ会議システムにおいて、各通信端末が、第２の本発明の通信端末に相当するものであることを特徴とする。

第４の本発明の話者映像表示制御方法は、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御方法において、有音無音検出手段、話者判定手段及び映像制御手段を備え、（１）有音無音検出手段が、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出工程と、（２）話者判定手段が、有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定工程と、（３）映像制御手段が、話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御工程とを備えることを特徴とする。

第５の本発明の話者映像表示制御プログラムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御プログラムにおいて、コンピュータに、（１）入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段、（２）有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段、（３）話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段として機能させるものである。

本発明によれば、ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減することができる。

（Ａ）第１の実施形態
以下、本発明の話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システムの第１の実施形態を図面を参照しながら詳細に説明する。

第１の実施形態は、例えば、ＳＩＰ（Session Initiation Protocol）を採用し、会議サーバを必要としないＴＶ会議システムに本発明を適用した場合の実施形態を説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態のテレビ会議システムの全体構成を示す構成図である。図１において、第１の実施形態のテレビ会議システム５は、ＩＰネットワーク４を通じて、招集側の通信端末１と、複数の参加側の通信端末２（２−１〜２−ｎ；ｎは正の整数）、ＩＰ電話交換装置３、を少なくとも有して構成される。

ここで、ＩＰネットワーク４は、通信プロトコルをＩＰ（インターネットプロトコル）とする通信網である。第１の実施形態ではＩＰネットワークを想定するが、通信プロトコルはこれに限定されない。また、ＩＰネットワーク４の回線媒体としては、有線回線（電気回線、光ファイバ等を含む）、無線回線、又はこれらを結合したものであってもよい。

ＩＰ電話交換装置３は、会議を行なう通信端末１及び通信端末２−１〜２−ｎ間の呼を制御するものであり、例えばＳＩＰサーバ等が該当する。

通信端末１は、会議招集側ユーザが操作する通信端末である。また、通信端末２−１〜２−ｎは、会議参加側ユーザが操作する通信端末である。

なお、説明便宜上、通信端末１は会議招集側、通信端末２−１〜２−ｎは会議参加側と分けて説明するが、通信端末１及び通信端末２−１〜２−ｎは同じ機能を備えており、どの通信端末からも会議を招集できる。また、会議招集をする通信端末は、会議参加側の通信端末からの音声信号及び映像信号をミキシングするミキシング機能を発揮させる。

図２は、通信端末１及び通信端末２（２−１〜２−ｎ）の内部構成を示す機能ブロック図である。

まず、参加側の通信端末２の内部構成について説明する。図２において、参加側の通信端末２は、呼制御部２１、音声制御部２２、映像制御部２３、を有して構成される。

呼制御部２１は、ＩＰ電話交換装置３を通じてＳＩＰを用いた呼制御処理を行なうものであり、会議招集側の通信端末１と会議参加側の通信端末２−１〜２−ｎとの間で、ＲＴＰ（Real-time Transport Protocol）セッションを確立するものである。第１の実施形態では、ＳＩＰを用いて行なうものとするが、これに限定されず、他の方法を広く適用できる。

音声制御部２２は、会議話者としてユーザが発した音声を取り込み、その所定の符号化方式に従って音声データを符号化し、音声信号を招集側の通信端末１に送信するものである。また、音声制御部２２は、招集側の通信端末１から配信された音声信号を受け取り、これを復号して音声を出力するものである。

音声制御部２２は、図２に示すように、データ通信部２２１、復号部２２２、符号化部２２３、を有する。

データ通信部２２１は、ＩＰネットワーク４を通じて、音声信号の送受信をするものである。

符号化部２２３は、会議話者であるユーザが発した音声を取り込み、所定の符号化方式で符号化するものである。また、復号部２２２は、招集側の通信端末１からの音声信号を所定の符号化方式で復号するものである。

また、符号化部２２３は、音声区間検出部２２５を備える。この音声区間検出部２２５は、新たな構成要素とするものではなく、効率的な音声符号化処理を図るために、符号化部２２３が一般に有するものを適用できる。

音声区間検出部２２５は、所定の検出方法により、入力音声が有音であるか又は無音であるかを判定し、その判定結果を話者検出部２４に与えるものである。ここで、音声区間検出部２２５の検出方法は、特に限定されるものでなく、一般的な方法としては、例えば、入力音声を所定長のフレーム区間毎に分割し、各フレーム区間のパワー（例えば、平均パワー）が閾値を超えたときを有音と判断し、各フレーム区間のパワーが閾値以下のときを無音と判断する方法等がある。

話者検出部２４は、音声区間検出部２２５から各フレーム区間が有音又は無音であるとの判断結果を受け取り、その判断結果に基づいて、当該通信端末２のユーザが会議話者として発言しているか否かを判断し、その判断結果を映像制御部２３に与えるものである。なお、話者検出方法については、動作の項で詳細に説明する。

映像制御部２３は、会議参加者のユーザを撮像した映像を取り込み、その映像データを符号化して、招集側の通信端末１に映像信号を与えるものである。また、映像制御部２３は、招集側の通信端末１から配信された映像信号を受信し、映像データを復号して映像表示処理を行なうものである。

また、映像制御部２３は、話者検出部２４の話者検出結果に応じて、映像信号の送受信処理及び映像表示処理を制御するものである。

図２において、映像制御部２３は、データ通信部２３１、映像表示制御部２３５、符号化部２３３、復号部２３２、を有する。

データ通信部２３１は、ＩＰネットワーク４を通じて、映像信号を送受信するものである。また、データ通信部２３１は、話者検出部２４の話者検出結果が当該ユーザは話者であるとする場合、当該端末２のユーザを撮像した映像データの信号を招集側の通信端末１に送信するものであり、話者検出結果が当該ユーザは話者でないとする場合、当該端末２のユーザの映像データの信号を送信しないようにするものである。

映像表示制御部２３５は、話者となるユーザの映像にのみを、通信端末２の表示部（図示しない）にポップアップ表示するものである。映像表示制御部２３５は、他の会議メンバが話者となるときには、復号部２３２が復号した通信端末１からの映像データに基づいて、他の会議メンバの映像を表示させる。また、自ユーザが話者となるときには、話者検出部２４の話者検出結果に従って、撮像した自ユーザの映像を表示させる。

また、映像表示制御部２３５は、呼制御部２１と連携し、ＩＰ電話交換装置３から会議に参加している通信端末１及び通信端末２のプレゼンス情報を取得し、そのプレゼンス情報に基づいて、現在の参加者情報（会議会員リスト）を表示するものである。この参加者情報（会議会員リスト）は、会議から退席した場合にはリストから削除し、会議に新たに参加した場合にはリストに追加するようにする。

符号化部２３３は、会議参加者であるユーザを撮像した映像データを取り込み、所定の符号化方式で符号化するものである。また、復号部２３２は、招集側の通信端末１からの映像データを所定の符号化方式で復号するものである。

続いて、図２の招集側の通信端末１の内部構成について説明する。図２において、招集側の通信端末１は、呼制御部１１、音声制御部１２、映像制御部１３、を少なくとも有して構成される。

呼制御部１１は、参加側の通信端末２の呼制御部２１に対応するものであるので、ここでの説明を省略する。

音声制御部１２は、複数の参加側の通信端末２からの音声信号をそれぞれ受け取ると、各音声信号を所定の符号化方式で復号する復号部１２２と、各音声データをミキシングする音声ミキサ部１２４と、音声ミキサ部１２３によりミキシングされた音声データを所定の符号化方式で符号化する符号化部１２３と、を有する。なお、音声ミキサ部１２４は、音声データの送信元端末から受信した音声データをミキシングデータから引き算して、送信元端末に配信させるようにする。

映像制御部１３は、複数の参加側の通信端末２からの映像信号をそれぞれ受け取ると、各映像信号を所定の符号化方式で復号する復号部１３２と、各映像データとミキシングする映像ミキサ部１３４と、映像ミキサ部１３４によりミキシングされた映像データを所定の符号化方式で符号化する符号化部１３３と、を有する。なお、映像ミキサ部１２４も、音声ミキサ部１２４と同様に、ミキシングデータから送信元の映像データを引き算する。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態のテレビ会議システムの動作について図面を参照しながら説明する。

まず、招集側の通信端末１は、ＳＩＰを用いて参加側の通信端末２−１〜２−ｎに対して会議の招集を行なう。

例えば、招集側の通信端末１は、参加側の通信端末２−１〜２−ｎに対してＩＮＶＩＴＥ（セッション確立要求）を送信し、会議招集を呼び掛ける。そして、招集側の通信端末１が、ＳＵＢＳＣＲＩＢＥ（端末情報公開要求）を用いて端末情報の要求を行ない、これを受けた参加側の通信端末２−１〜２−ｎがＮＯＴＩＦＹ（端末情報通知）により端末情報を公開して、会議に必要な端末情報を招集側の通信端末１に通知する。

その後、招集側の通信端末１と参加側の通信端末２−１〜２−ｎとの間で、ＲＴＰを用いて、音声信号及び映像信号の送受信を行ない、会議が開催される。

会議が開催されると、通信端末１及び通信端末２−１〜２−ｎは、以下のように、話者を検出して話者映像を表示する。

図３は、第１の実施形態の話者映像表示処理の動作を説明する説明図である。図３では、参加側の通信端末２−１〜２−ｎのうち通信端末２−２における動作を代表して説明する。

なお、図３では、説明便宜上、話者映像表示処理に必要な、通信端末１及び通信端末２−２の主な機能構成と動作説明を示している。

まず、図３において、通信端末２−２のユーザが言語を発して会議話者となると、ユーザの音声が図示しないマイクにより捕捉され、入力音声データが音声制御部２３の符号化部２２３に入力される。そして、符号化部２２３において、入力音声データは、所定の符号化処理が行なわれ、符号化されたデータに基づいてＲＴＰパケットが生成され、ＲＴＰパケット（音声データ）が招集側の通信端末１に送信される（ステップＳ１）。

ここで、符号化部２２３では、入力音声データを所定長のフレームに分割し、例えば、各フレームのパワーに基づいて、有音フレームであるか又は無音フレームであるかを判断する音声区間検出部２２５を備える。そして、符号化部２２３の音声区間検出部２２５により検出された検出結果は、話者検出部２４に与えられる。

音声区間検出部２２５により検出された検出結果が話者検出部２４に与えられると、話者検出部２４は、音声区間検出部２２５からの検出結果に基づいて、当該ユーザが会議話者であるか否かを判断し、その判断結果を映像表示部２３５及びデータ通信部２３１に与える（ステップＳ２）。

ここで、話者検出部２４における話者検出処理の動作について図面を参照しながら説明する。

図４は、話者検出部２４における話者検出処理を示すフローチャートである。図５は、話者検出処理を説明する説明図である。なお、図４は、音声区間検出部２２５からの検出結果を取得するたびに繰り返し行なう処理である。

図４において、音声区間検出部２３５による検出結果がフレーム毎に話者検出部２４に与えられる（ステップ２１）。

話者検出部２４においては、音声区間検出部２３５の検出結果が有音フレーム（音声フレーム）である場合（ステップＳ２２）、話者検出部２４は、映像表示制御部２３３に対して自ユーザの映像を表示する旨を指示すると共に（ステップＳ２３）、映像制御部２３のデータ通信部２３１に対して自ユーザの映像データを送信する旨を指示する（ステップＳ２４）。

これにより、通信端末２−２のユーザが会議話者である場合に、自ユーザの映像を通信端末２−２に表示させることができると共に、他の端末に対しても自ユーザの映像を表示させることができる。

一方、音声区間検出部２３５の検出結果が音声フレームでない場合（すなわち無音フレームである場合）（ステップＳ２２）、話者検出部２４は、無音フレームであるとの判断が継続しており、その期間が所定の無音継続期間を超えているか否かを判断する（ステップＳ２５）。

この無音継続期間は、無音フレームのフレーム数を用いて設定してもよいし、又は時間情報を用いて設定してもよい。また、無音継続期間は、一度設定した後、設定変更ができるようにしてもよい。

そして、所定の無音継続期間を超えている場合、話者検出部２４は、映像表示制御部２３３に対して自ユーザの映像を非表示にする旨を指示すると共に（ステップＳ２６）、映像制御部２３のデータ通信部２３１に対して自ユーザの映像データを送信停止する旨を指示する（ステップＳ２７）。

また、所定の無音継続時間を超えていない場合、話者検出部２４は、次の音声区間検出部２３５の検出結果を受け取り、繰り返し処理を続ける。

図３に戻り、話者検出部２４が、図４に示す処理を行ない、その判断結果を映像表示制御部２３５及びデータ通信部２３１に与える。

そして、自ユーザが話者である場合、映像表示制御部２３５は自ユーザの映像を表示し（ステップＳ３、Ｓ５）、データ通信部２３１は自ユーザの映像データを送信する（ステップＳ４、Ｓ７）。

また、自ユーザが話者でない場合（非話者である場合）、映像表示制御部２３５は自ユーザの映像を表示せず（ステップＳ３、Ｓ６）、データ通信部２３１は自ユーザの映像データの送信停止を行なう（ステップＳ４、Ｓ８）。

以上のようにして、通信端末２−２上では、自ユーザの音声の有無検出結果を用いて、自ユーザの映像表示及び自ユーザの映像データの送信制御を行なうことができる。

そうすると、図５（Ａ）に示すように、通信端末２−２上で、無音フレームの継続期間が所定の無音継続期間を超えた場合には、自ユーザが非話者であると判断し（図５の５１、５４）、自ユーザの映像データを送信停止すると共に（図５の５２）、自ユーザの映像を非表示することができる（図５の５３）。それ以外の期間の場合には、自ユーザが話者であると判断し、自ユーザの映像データを送信すると共に、自ユーザの映像を表示する。

次に、ステップ１において符号化された符号化データは、符号化部２２３においてＲＴＰパケットに形成され、音声データを含むＲＴＰパケットが通信端末１に送信される。

このとき、符号化部２２３の音声区間検出部２２５により有音フレームであるか又は無音フレームであるか否かが判断され、その判断結果に応じて、例えば、無音である場合には、背景雑音情報だけを含むＲＴＰパケットを送信したり、又は全く送信しないようにしたりする。

参加側の通信端末２−２からのＲＴＰパケット（音声データ）が招集側の通信端末１に与えられると、ＲＴＰパケットに含まれる符号化データは復号部１２２により所定の復号処理がなされ、復号データは音声ミキサ部１２４に与えられる（ステップＳ９）。

このとき、通信端末１は、ＲＴＰパケットのヘッダ情報に基づいて当該ＲＴＰパケットの送信元を認識している。

音声ミキサ部１２４では、他の通信端末２から受信した音声データがミキシングされ（ステップＳ１０）、ミキシングされたデータは符号化部１２３により符号化処理されて、符号化データを含むＲＴＰパケットが参加側の通信端末２−１〜２−ｎに送信される（ステップＳ１１）。

このとき、送信元からの音声データはミキシングデータから引き算されているので、音声送信元ではユーザ自身の音声は送られない。

招集側の通信端末１からのＲＴＰパケットが参加側の通信端末２−２に与えられると、ＲＴＰパケットに含まれる符号化データは復号部２２２により所定の復号処理がなされ、復号データに基づいて音声が出力される（ステップＳ１２）。

以上のようにして、話者と検出されたユーザの映像だけが、通信端末１経由して、会議メンバ全員の通信端末２−１〜２−ｎに配信される。

また、音声については、音声区間検出部２３５の検出結果に応じた送信制御機能にもよるが、基本的には、すべての音声が、通信端末１を経由して、会議メンバ全員の通信端末２−１〜２−ｎに配信される。

上述したように、通信端末２−１〜２−ｎは、自ユーザが話者である場合にのみ、自ユーザの映像データを送信するものであるが、他の通信端末２からの映像データを待ち受ける受信側の通信端末２の動作について、図６を参照しながら説明する。

受信側の通信端末２の映像制御部２３は、映像データを含むＲＴＰパケットの受信を待機し（ステップＳ３０１）、ＲＴＰパケットの受信があると（ステップＳ３０２）、受信パケットのヘッダ情報に基づいて、映像データの送信元を抽出する（ステップＳ３０４）。なお、パケットの受信がない場合には映像を非表示とする（ステップＳ３０３）。

映像データの送信元を特定すると、映像制御部２３は、予め用意された送信元と会議メンバの氏名とを対応付けた会議メンバ管理テーブルを参照して、映像データの送信元に対応する会議メンバの氏名を話者として特定する（ステップＳ３０５）。

ここで、会議メンバ管理テーブルとしては、例えば、ＳＩＰを用いた呼制御部２１が有するプレゼンス機能を利用して取得したものを適用することができる。

そして、話者が特定されると、映像表示制御部２３５により、復号データに基づいて話者の映像が、通信端末２の表示部にポップアップ表示される（ステップＳ３０６）。

その後、通信端末２の表示部に表示されている会議メンバの映像データが継続して受信されているか否かを判断し（ステップＳ３０７）、継続して受信されている場合、通信端末２の表示部に表示される映像を継続表示する（ステップＳ３０８）。

一方、通信端末２の表示部に表示されている会議メンバの映像データが継続して受信されていない場合、その受信しない期間が所定期間を超えているか否かを判断する（ステップＳ３０９）。

そして、所定期間を超えていない場合、ステップＳ３０７に戻り、繰り返し映像データの受信を監視する。

一方、所定期間を超えた場合、通信端末２の話者検出部２４が受信した音声信号に基づいて当該会議メンバの音声が無音であり話者でないことを確認すると（ステップＳ３１０）、映像表示していた会議メンバが話者でなくなったものと判断し、通信端末２の表示部に表示されている映像をクローズする（ステップＳ３１１）。

例えば、図５（Ｂ）では、受信側の通信端末２上で、話者である通信端末からの音声が無声フレームとなり（図５の６１、６５）、当該通信端末からの映像データの受信がなくなると（図５の６２）、話者であったユーザの映像を非表示とする（図５の６３）。

図７は、通信端末２の表示部に表示される表示イメージを示すイメージ図である。図７に示す表示画面では、現在の話者であるユーザＣ（氏）の映像７３が、過去の話者であるユーザＡ（氏）及びユーザＢ（氏）の映像７２及び７４Ａよりも前面にポップアップ表示される。

そして、過去の話者の映像については、図６のステップＳ３０７〜Ｓ３１０の処理のように、所定の期間継続して映像データの受信がない場合、過去の話者の映像は表示消去される。例えば、ユーザＢ（氏）の映像７４Ａは、映像７４Ｂのようにクローズされる。

また、図７に示す表示画面では、会議メンバリスト７１が表示される。これは、ユーザが会議メンバ全員を常時把握できるようにするためである。

このように、最新の会議メンバリスト７１を表示することで、現在会議に参加しているメンバを知らせることができるので、会議に参加していない他メンバに意見を求める場合や参加メンバが途中で会議から抜けていることを一目で把握することができる。

なお、会議メンバリスト７１の作成方法としては、例えば、招集側の通信端末１による参加側の通信端末２−１〜２−ｎに対する会議招集の際に、ＳＩＰを用いた呼制御部２１によるＲＴＰの音声パス及び映像パスが確立すると、会議メンバリスト７１に追加する。また、相手との通話が終わり、ＲＴＰの音声パス及び映像パスを解放されると、会議メンバリスト７１から当該メンバを削除する。

（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、無音圧縮技術を用いた符号化部の音声区間検出部の検出結果に応じて、話者を検出する話者検出部を備え、自ユーザが話者である場合に、自ユーザの映像を送信することで、会議メンバ全員の通信端末に話者映像のみを自動的に表示できる。その結果、多人数の会議であっても話者だけを視覚的に容易に把握できるため、リアリティあるＴＶ会議が可能となる。

また、第１の実施形態によれば、多人数が参加する会議であっても、そのうちの同時話者の映像のみを配信するため、経由するネットワークの帯域や通信端末への処理能力にかかる負荷の軽減が期待できるのである。

（Ｂ）他の実施形態
第１の実施形態では、会議サーバを備えない、各通信端末が相互に対応なＰ２Ｐ（ピアトゥピア）による多地点テレビ会議システムを例に挙げて説明した、会議招集側の通信端末のミキサ機能を備えた会議サーバに配置し、各通信端末が会議サーバに接続する会議サーバ配置型の会議システムにも適用できる。

第１の実施形態のテレビ会議システムの全体構成を示す構成図である。第１の実施形態の通信端末の内部構成を示す機能ブロック図である。第１の実施形態の話者表示制御処理の動作を示す説明図である。第１の実施形態の話者検出処理の動作を示すフローチャートである。第１の実施形態の話者検出処理を説明する説明図である。第１の実施形態の映像表示処理の動作を示すフローチャートである。第１の実施形態の表示イメージを示すイメージ図である。

符号の説明

１…通信端末（会議招集側）、２−１〜２−ｎ…通信端末（会議参加側）、３…ＩＰ電話交換装置、４…ＩＰネットワーク、５…テレビ会議システム、２２…音声制御部、２３…映像制御部、２４…話者検出部、２２３…符号化部、２２５…音声区間検出部。

Claims

多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、
入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、
上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、
上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段と
を備えることを特徴とする話者映像表示制御システム。
上記話者判定手段は、上記有音無音検出結果が所定期間継続して無音であるとするときに当該通信端末のユーザが話者でないと判定することを特徴とする請求項１に記載の話者映像表示制御システム。
上記映像制御手段は、当該通信端末のユーザが話者であると判断する場合、当該通信端末のユーザの映像データを送信させると共に、上記ユーザの映像を表示させ、当該通信端末のユーザが話者でないと判断する場合、当該通信端末のユーザの映像データを送信停止させると共に、上記ユーザの映像を非表示させることを特徴とする請求項１又は２に記載の話者映像表示制御システム。
上記映像制御手段が、発言しているユーザ映像をポップアップ表示することを特徴とする請求項１〜３のいずれかに記載の話者映像表示制御システム。
多地点テレビ会議システムに参加する上記各通信端末のセッションを管理するセッション管理手段を備え、
上記映像制御手段が、上記セッション管理手段からの管理情報に基づいて、テレビ会議に参加している構成メンバリストも映像表示させることを特徴とする請求項４に記載の話者映像表示制御システム。
多地点テレビ会議システムを構成する通信端末において、請求項１〜５のいずれかに記載の話者映像表示制御システムを備えることを特徴とする通信端末。
複数の通信端末を有して構成される多地点テレビ会議システムにおいて、上記各通信端末が、請求項６に記載の通信端末に相当するものであることを特徴とする多地点テレビ会議システム。
多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御方法において、
有音無音検出手段、話者判定手段及び映像制御手段を備え、
上記有音無音検出手段が、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出工程と、
上記話者判定手段が、上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定工程と、
上記映像制御手段が、上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御工程と
を備えることを特徴とする話者映像表示制御方法。
多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御プログラムにおいて、
コンピュータに、
入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段、
上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段、
上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段
として機能させる話者映像表示制御プログラム。