JP2008227693A - 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム - Google Patents

話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム Download PDF

Info

Publication number
JP2008227693A
JP2008227693A JP2007059931A JP2007059931A JP2008227693A JP 2008227693 A JP2008227693 A JP 2008227693A JP 2007059931 A JP2007059931 A JP 2007059931A JP 2007059931 A JP2007059931 A JP 2007059931A JP 2008227693 A JP2008227693 A JP 2008227693A
Authority
JP
Japan
Prior art keywords
video
speaker
communication terminal
user
display control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007059931A
Other languages
English (en)
Inventor
Hajime Tamura
元 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2007059931A priority Critical patent/JP2008227693A/ja
Publication of JP2008227693A publication Critical patent/JP2008227693A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減させる。
【解決手段】本発明の話者映像表示制御システムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段とを備えることを特徴とする。
【選択図】 図1

Description

本発明は、話者映像表示システム及びテレビ会議システムに関し、例えば、IP(インターネットプロトコル)ネットワークを利用した多拠点間のテレビ会議コミュニケーションシステムに適用し得る。
近年、ネットワーク通信技術の進展に伴い、離れた場所にいながら、複数の参加者が相互に会議コミュニケーションを図る遠隔地多拠点間でのテレビ会議システムの普及が進んでいる。
従来、テレビ会議システムにおいては、複数の参加者の通信端末からの音声情報及び画像情報をそれぞれミキシングして、各参加者の通信端末に対して配信する必要がある。そのため、ネットワークや通信端末の処理負荷が増大してしまう。
特許文献1には、テレビ会議サーバとしての多地点制御装置(MCU;Multipoint Control Unit)を備え、多地点制御装置が、各画像通信端末からビットストリームを受信し、少なくとも輝度情報を含む状態まで復号し、話者以外の映像の輝度を小さく(暗く)なるように変更して表示させるという技術が記載されている。これにより、輝度情報が変更した符号化情報に基づく映像を表示することで、画像情報の復号・編集等処理の負担を軽減するというものである。
特開平10−262229号公報
しかしながら、上述した特許文献1に記載のシステムにおいては、常に、会議メンバ会員の映像が映し出されているものであるため、多人数の会議コミュニケーションを行なう場合には、話者の変化が複雑になるため、多数の映像情報に基づいて輝度情報の変化を判断する必要があった。
また、映像を常時リアルタイムに配信する必要があるので、配信する情報量は変わらないため、ネットワークの通信帯域や通信端末の処理負荷を軽減するものでもない。
そのため、ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減することができる話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システムが求められている。
かかる課題を解決するために、第1の本発明の話者映像表示制御システムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、(1)入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、(2)有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、(3)話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段とを備えることを特徴とする。
第2の本発明の通信端末は、多地点テレビ会議システムを構成する通信端末において、第1の本発明の話者映像表示制御システムを備えることを特徴とする。
第3の本発明の複数の通信端末を有して構成される多地点テレビ会議システムにおいて、各通信端末が、第2の本発明の通信端末に相当するものであることを特徴とする。
第4の本発明の話者映像表示制御方法は、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御方法において、有音無音検出手段、話者判定手段及び映像制御手段を備え、(1)有音無音検出手段が、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出工程と、(2)話者判定手段が、有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定工程と、(3)映像制御手段が、話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御工程とを備えることを特徴とする。
第5の本発明の話者映像表示制御プログラムは、多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御プログラムにおいて、コンピュータに、(1)入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段、(2)有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段、(3)話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段として機能させるものである。
本発明によれば、ネットワークを通じて配信する情報量を軽減して、ネットワークの通信帯域や通信端末の処理負荷を軽減することができる。
(A)第1の実施形態
以下、本発明の話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システムの第1の実施形態を図面を参照しながら詳細に説明する。
第1の実施形態は、例えば、SIP(Session Initiation Protocol)を採用し、会議サーバを必要としないTV会議システムに本発明を適用した場合の実施形態を説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態のテレビ会議システムの全体構成を示す構成図である。図1において、第1の実施形態のテレビ会議システム5は、IPネットワーク4を通じて、招集側の通信端末1と、複数の参加側の通信端末2(2−1〜2−n;nは正の整数)、IP電話交換装置3、を少なくとも有して構成される。
ここで、IPネットワーク4は、通信プロトコルをIP(インターネットプロトコル)とする通信網である。第1の実施形態ではIPネットワークを想定するが、通信プロトコルはこれに限定されない。また、IPネットワーク4の回線媒体としては、有線回線(電気回線、光ファイバ等を含む)、無線回線、又はこれらを結合したものであってもよい。
IP電話交換装置3は、会議を行なう通信端末1及び通信端末2−1〜2−n間の呼を制御するものであり、例えばSIPサーバ等が該当する。
通信端末1は、会議招集側ユーザが操作する通信端末である。また、通信端末2−1〜2−nは、会議参加側ユーザが操作する通信端末である。
なお、説明便宜上、通信端末1は会議招集側、通信端末2−1〜2−nは会議参加側と分けて説明するが、通信端末1及び通信端末2−1〜2−nは同じ機能を備えており、どの通信端末からも会議を招集できる。また、会議招集をする通信端末は、会議参加側の通信端末からの音声信号及び映像信号をミキシングするミキシング機能を発揮させる。
図2は、通信端末1及び通信端末2(2−1〜2−n)の内部構成を示す機能ブロック図である。
まず、参加側の通信端末2の内部構成について説明する。図2において、参加側の通信端末2は、呼制御部21、音声制御部22、映像制御部23、を有して構成される。
呼制御部21は、IP電話交換装置3を通じてSIPを用いた呼制御処理を行なうものであり、会議招集側の通信端末1と会議参加側の通信端末2−1〜2−nとの間で、RTP(Real-time Transport Protocol)セッションを確立するものである。第1の実施形態では、SIPを用いて行なうものとするが、これに限定されず、他の方法を広く適用できる。
音声制御部22は、会議話者としてユーザが発した音声を取り込み、その所定の符号化方式に従って音声データを符号化し、音声信号を招集側の通信端末1に送信するものである。また、音声制御部22は、招集側の通信端末1から配信された音声信号を受け取り、これを復号して音声を出力するものである。
音声制御部22は、図2に示すように、データ通信部221、復号部222、符号化部223、を有する。
データ通信部221は、IPネットワーク4を通じて、音声信号の送受信をするものである。
符号化部223は、会議話者であるユーザが発した音声を取り込み、所定の符号化方式で符号化するものである。また、復号部222は、招集側の通信端末1からの音声信号を所定の符号化方式で復号するものである。
また、符号化部223は、音声区間検出部225を備える。この音声区間検出部225は、新たな構成要素とするものではなく、効率的な音声符号化処理を図るために、符号化部223が一般に有するものを適用できる。
音声区間検出部225は、所定の検出方法により、入力音声が有音であるか又は無音であるかを判定し、その判定結果を話者検出部24に与えるものである。ここで、音声区間検出部225の検出方法は、特に限定されるものでなく、一般的な方法としては、例えば、入力音声を所定長のフレーム区間毎に分割し、各フレーム区間のパワー(例えば、平均パワー)が閾値を超えたときを有音と判断し、各フレーム区間のパワーが閾値以下のときを無音と判断する方法等がある。
話者検出部24は、音声区間検出部225から各フレーム区間が有音又は無音であるとの判断結果を受け取り、その判断結果に基づいて、当該通信端末2のユーザが会議話者として発言しているか否かを判断し、その判断結果を映像制御部23に与えるものである。なお、話者検出方法については、動作の項で詳細に説明する。
映像制御部23は、会議参加者のユーザを撮像した映像を取り込み、その映像データを符号化して、招集側の通信端末1に映像信号を与えるものである。また、映像制御部23は、招集側の通信端末1から配信された映像信号を受信し、映像データを復号して映像表示処理を行なうものである。
また、映像制御部23は、話者検出部24の話者検出結果に応じて、映像信号の送受信処理及び映像表示処理を制御するものである。
図2において、映像制御部23は、データ通信部231、映像表示制御部235、符号化部233、復号部232、を有する。
データ通信部231は、IPネットワーク4を通じて、映像信号を送受信するものである。また、データ通信部231は、話者検出部24の話者検出結果が当該ユーザは話者であるとする場合、当該端末2のユーザを撮像した映像データの信号を招集側の通信端末1に送信するものであり、話者検出結果が当該ユーザは話者でないとする場合、当該端末2のユーザの映像データの信号を送信しないようにするものである。
映像表示制御部235は、話者となるユーザの映像にのみを、通信端末2の表示部(図示しない)にポップアップ表示するものである。映像表示制御部235は、他の会議メンバが話者となるときには、復号部232が復号した通信端末1からの映像データに基づいて、他の会議メンバの映像を表示させる。また、自ユーザが話者となるときには、話者検出部24の話者検出結果に従って、撮像した自ユーザの映像を表示させる。
また、映像表示制御部235は、呼制御部21と連携し、IP電話交換装置3から会議に参加している通信端末1及び通信端末2のプレゼンス情報を取得し、そのプレゼンス情報に基づいて、現在の参加者情報(会議会員リスト)を表示するものである。この参加者情報(会議会員リスト)は、会議から退席した場合にはリストから削除し、会議に新たに参加した場合にはリストに追加するようにする。
符号化部233は、会議参加者であるユーザを撮像した映像データを取り込み、所定の符号化方式で符号化するものである。また、復号部232は、招集側の通信端末1からの映像データを所定の符号化方式で復号するものである。
続いて、図2の招集側の通信端末1の内部構成について説明する。図2において、招集側の通信端末1は、呼制御部11、音声制御部12、映像制御部13、を少なくとも有して構成される。
呼制御部11は、参加側の通信端末2の呼制御部21に対応するものであるので、ここでの説明を省略する。
音声制御部12は、複数の参加側の通信端末2からの音声信号をそれぞれ受け取ると、各音声信号を所定の符号化方式で復号する復号部122と、各音声データをミキシングする音声ミキサ部124と、音声ミキサ部123によりミキシングされた音声データを所定の符号化方式で符号化する符号化部123と、を有する。なお、音声ミキサ部124は、音声データの送信元端末から受信した音声データをミキシングデータから引き算して、送信元端末に配信させるようにする。
映像制御部13は、複数の参加側の通信端末2からの映像信号をそれぞれ受け取ると、各映像信号を所定の符号化方式で復号する復号部132と、各映像データとミキシングする映像ミキサ部134と、映像ミキサ部134によりミキシングされた映像データを所定の符号化方式で符号化する符号化部133と、を有する。なお、映像ミキサ部124も、音声ミキサ部124と同様に、ミキシングデータから送信元の映像データを引き算する。
(A−2)第1の実施形態の動作
次に、第1の実施形態のテレビ会議システムの動作について図面を参照しながら説明する。
まず、招集側の通信端末1は、SIPを用いて参加側の通信端末2−1〜2−nに対して会議の招集を行なう。
例えば、招集側の通信端末1は、参加側の通信端末2−1〜2−nに対してINVITE(セッション確立要求)を送信し、会議招集を呼び掛ける。そして、招集側の通信端末1が、SUBSCRIBE(端末情報公開要求)を用いて端末情報の要求を行ない、これを受けた参加側の通信端末2−1〜2−nがNOTIFY(端末情報通知)により端末情報を公開して、会議に必要な端末情報を招集側の通信端末1に通知する。
その後、招集側の通信端末1と参加側の通信端末2−1〜2−nとの間で、RTPを用いて、音声信号及び映像信号の送受信を行ない、会議が開催される。
会議が開催されると、通信端末1及び通信端末2−1〜2−nは、以下のように、話者を検出して話者映像を表示する。
図3は、第1の実施形態の話者映像表示処理の動作を説明する説明図である。図3では、参加側の通信端末2−1〜2−nのうち通信端末2−2における動作を代表して説明する。
なお、図3では、説明便宜上、話者映像表示処理に必要な、通信端末1及び通信端末2−2の主な機能構成と動作説明を示している。
まず、図3において、通信端末2−2のユーザが言語を発して会議話者となると、ユーザの音声が図示しないマイクにより捕捉され、入力音声データが音声制御部23の符号化部223に入力される。そして、符号化部223において、入力音声データは、所定の符号化処理が行なわれ、符号化されたデータに基づいてRTPパケットが生成され、RTPパケット(音声データ)が招集側の通信端末1に送信される(ステップS1)。
ここで、符号化部223では、入力音声データを所定長のフレームに分割し、例えば、各フレームのパワーに基づいて、有音フレームであるか又は無音フレームであるかを判断する音声区間検出部225を備える。そして、符号化部223の音声区間検出部225により検出された検出結果は、話者検出部24に与えられる。
音声区間検出部225により検出された検出結果が話者検出部24に与えられると、話者検出部24は、音声区間検出部225からの検出結果に基づいて、当該ユーザが会議話者であるか否かを判断し、その判断結果を映像表示部235及びデータ通信部231に与える(ステップS2)。
ここで、話者検出部24における話者検出処理の動作について図面を参照しながら説明する。
図4は、話者検出部24における話者検出処理を示すフローチャートである。図5は、話者検出処理を説明する説明図である。なお、図4は、音声区間検出部225からの検出結果を取得するたびに繰り返し行なう処理である。
図4において、音声区間検出部235による検出結果がフレーム毎に話者検出部24に与えられる(ステップ21)。
話者検出部24においては、音声区間検出部235の検出結果が有音フレーム(音声フレーム)である場合(ステップS22)、話者検出部24は、映像表示制御部233に対して自ユーザの映像を表示する旨を指示すると共に(ステップS23)、映像制御部23のデータ通信部231に対して自ユーザの映像データを送信する旨を指示する(ステップS24)。
これにより、通信端末2−2のユーザが会議話者である場合に、自ユーザの映像を通信端末2−2に表示させることができると共に、他の端末に対しても自ユーザの映像を表示させることができる。
一方、音声区間検出部235の検出結果が音声フレームでない場合(すなわち無音フレームである場合)(ステップS22)、話者検出部24は、無音フレームであるとの判断が継続しており、その期間が所定の無音継続期間を超えているか否かを判断する(ステップS25)。
この無音継続期間は、無音フレームのフレーム数を用いて設定してもよいし、又は時間情報を用いて設定してもよい。また、無音継続期間は、一度設定した後、設定変更ができるようにしてもよい。
そして、所定の無音継続期間を超えている場合、話者検出部24は、映像表示制御部233に対して自ユーザの映像を非表示にする旨を指示すると共に(ステップS26)、映像制御部23のデータ通信部231に対して自ユーザの映像データを送信停止する旨を指示する(ステップS27)。
また、所定の無音継続時間を超えていない場合、話者検出部24は、次の音声区間検出部235の検出結果を受け取り、繰り返し処理を続ける。
図3に戻り、話者検出部24が、図4に示す処理を行ない、その判断結果を映像表示制御部235及びデータ通信部231に与える。
そして、自ユーザが話者である場合、映像表示制御部235は自ユーザの映像を表示し(ステップS3、S5)、データ通信部231は自ユーザの映像データを送信する(ステップS4、S7)。
また、自ユーザが話者でない場合(非話者である場合)、映像表示制御部235は自ユーザの映像を表示せず(ステップS3、S6)、データ通信部231は自ユーザの映像データの送信停止を行なう(ステップS4、S8)。
以上のようにして、通信端末2−2上では、自ユーザの音声の有無検出結果を用いて、自ユーザの映像表示及び自ユーザの映像データの送信制御を行なうことができる。
そうすると、図5(A)に示すように、通信端末2−2上で、無音フレームの継続期間が所定の無音継続期間を超えた場合には、自ユーザが非話者であると判断し(図5の51、54)、自ユーザの映像データを送信停止すると共に(図5の52)、自ユーザの映像を非表示することができる(図5の53)。それ以外の期間の場合には、自ユーザが話者であると判断し、自ユーザの映像データを送信すると共に、自ユーザの映像を表示する。
次に、ステップ1において符号化された符号化データは、符号化部223においてRTPパケットに形成され、音声データを含むRTPパケットが通信端末1に送信される。
このとき、符号化部223の音声区間検出部225により有音フレームであるか又は無音フレームであるか否かが判断され、その判断結果に応じて、例えば、無音である場合には、背景雑音情報だけを含むRTPパケットを送信したり、又は全く送信しないようにしたりする。
参加側の通信端末2−2からのRTPパケット(音声データ)が招集側の通信端末1に与えられると、RTPパケットに含まれる符号化データは復号部122により所定の復号処理がなされ、復号データは音声ミキサ部124に与えられる(ステップS9)。
このとき、通信端末1は、RTPパケットのヘッダ情報に基づいて当該RTPパケットの送信元を認識している。
音声ミキサ部124では、他の通信端末2から受信した音声データがミキシングされ(ステップS10)、ミキシングされたデータは符号化部123により符号化処理されて、符号化データを含むRTPパケットが参加側の通信端末2−1〜2−nに送信される(ステップS11)。
このとき、送信元からの音声データはミキシングデータから引き算されているので、音声送信元ではユーザ自身の音声は送られない。
招集側の通信端末1からのRTPパケットが参加側の通信端末2−2に与えられると、RTPパケットに含まれる符号化データは復号部222により所定の復号処理がなされ、復号データに基づいて音声が出力される(ステップS12)。
以上のようにして、話者と検出されたユーザの映像だけが、通信端末1経由して、会議メンバ全員の通信端末2−1〜2−nに配信される。
また、音声については、音声区間検出部235の検出結果に応じた送信制御機能にもよるが、基本的には、すべての音声が、通信端末1を経由して、会議メンバ全員の通信端末2−1〜2−nに配信される。
上述したように、通信端末2−1〜2−nは、自ユーザが話者である場合にのみ、自ユーザの映像データを送信するものであるが、他の通信端末2からの映像データを待ち受ける受信側の通信端末2の動作について、図6を参照しながら説明する。
受信側の通信端末2の映像制御部23は、映像データを含むRTPパケットの受信を待機し(ステップS301)、RTPパケットの受信があると(ステップS302)、受信パケットのヘッダ情報に基づいて、映像データの送信元を抽出する(ステップS304)。なお、パケットの受信がない場合には映像を非表示とする(ステップS303)。
映像データの送信元を特定すると、映像制御部23は、予め用意された送信元と会議メンバの氏名とを対応付けた会議メンバ管理テーブルを参照して、映像データの送信元に対応する会議メンバの氏名を話者として特定する(ステップS305)。
ここで、会議メンバ管理テーブルとしては、例えば、SIPを用いた呼制御部21が有するプレゼンス機能を利用して取得したものを適用することができる。
そして、話者が特定されると、映像表示制御部235により、復号データに基づいて話者の映像が、通信端末2の表示部にポップアップ表示される(ステップS306)。
その後、通信端末2の表示部に表示されている会議メンバの映像データが継続して受信されているか否かを判断し(ステップS307)、継続して受信されている場合、通信端末2の表示部に表示される映像を継続表示する(ステップS308)。
一方、通信端末2の表示部に表示されている会議メンバの映像データが継続して受信されていない場合、その受信しない期間が所定期間を超えているか否かを判断する(ステップS309)。
そして、所定期間を超えていない場合、ステップS307に戻り、繰り返し映像データの受信を監視する。
一方、所定期間を超えた場合、通信端末2の話者検出部24が受信した音声信号に基づいて当該会議メンバの音声が無音であり話者でないことを確認すると(ステップS310)、映像表示していた会議メンバが話者でなくなったものと判断し、通信端末2の表示部に表示されている映像をクローズする(ステップS311)。
例えば、図5(B)では、受信側の通信端末2上で、話者である通信端末からの音声が無声フレームとなり(図5の61、65)、当該通信端末からの映像データの受信がなくなると(図5の62)、話者であったユーザの映像を非表示とする(図5の63)。
図7は、通信端末2の表示部に表示される表示イメージを示すイメージ図である。図7に示す表示画面では、現在の話者であるユーザC(氏)の映像73が、過去の話者であるユーザA(氏)及びユーザB(氏)の映像72及び74Aよりも前面にポップアップ表示される。
そして、過去の話者の映像については、図6のステップS307〜S310の処理のように、所定の期間継続して映像データの受信がない場合、過去の話者の映像は表示消去される。例えば、ユーザB(氏)の映像74Aは、映像74Bのようにクローズされる。
また、図7に示す表示画面では、会議メンバリスト71が表示される。これは、ユーザが会議メンバ全員を常時把握できるようにするためである。
このように、最新の会議メンバリスト71を表示することで、現在会議に参加しているメンバを知らせることができるので、会議に参加していない他メンバに意見を求める場合や参加メンバが途中で会議から抜けていることを一目で把握することができる。
なお、会議メンバリスト71の作成方法としては、例えば、招集側の通信端末1による参加側の通信端末2−1〜2−nに対する会議招集の際に、SIPを用いた呼制御部21によるRTPの音声パス及び映像パスが確立すると、会議メンバリスト71に追加する。また、相手との通話が終わり、RTPの音声パス及び映像パスを解放されると、会議メンバリスト71から当該メンバを削除する。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、無音圧縮技術を用いた符号化部の音声区間検出部の検出結果に応じて、話者を検出する話者検出部を備え、自ユーザが話者である場合に、自ユーザの映像を送信することで、会議メンバ全員の通信端末に話者映像のみを自動的に表示できる。その結果、多人数の会議であっても話者だけを視覚的に容易に把握できるため、リアリティあるTV会議が可能となる。
また、第1の実施形態によれば、多人数が参加する会議であっても、そのうちの同時話者の映像のみを配信するため、経由するネットワークの帯域や通信端末への処理能力にかかる負荷の軽減が期待できるのである。
(B)他の実施形態
第1の実施形態では、会議サーバを備えない、各通信端末が相互に対応なP2P(ピアトゥピア)による多地点テレビ会議システムを例に挙げて説明した、会議招集側の通信端末のミキサ機能を備えた会議サーバに配置し、各通信端末が会議サーバに接続する会議サーバ配置型の会議システムにも適用できる。
第1の実施形態のテレビ会議システムの全体構成を示す構成図である。 第1の実施形態の通信端末の内部構成を示す機能ブロック図である。 第1の実施形態の話者表示制御処理の動作を示す説明図である。 第1の実施形態の話者検出処理の動作を示すフローチャートである。 第1の実施形態の話者検出処理を説明する説明図である。 第1の実施形態の映像表示処理の動作を示すフローチャートである。 第1の実施形態の表示イメージを示すイメージ図である。
符号の説明
1…通信端末(会議招集側)、2−1〜2−n…通信端末(会議参加側)、3…IP電話交換装置、4…IPネットワーク、5…テレビ会議システム、22…音声制御部、23…映像制御部、24…話者検出部、223…符号化部、225…音声区間検出部。

Claims (9)

  1. 多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御システムにおいて、
    入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段と、
    上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段と、
    上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段と
    を備えることを特徴とする話者映像表示制御システム。
  2. 上記話者判定手段は、上記有音無音検出結果が所定期間継続して無音であるとするときに当該通信端末のユーザが話者でないと判定することを特徴とする請求項1に記載の話者映像表示制御システム。
  3. 上記映像制御手段は、当該通信端末のユーザが話者であると判断する場合、当該通信端末のユーザの映像データを送信させると共に、上記ユーザの映像を表示させ、当該通信端末のユーザが話者でないと判断する場合、当該通信端末のユーザの映像データを送信停止させると共に、上記ユーザの映像を非表示させることを特徴とする請求項1又は2に記載の話者映像表示制御システム。
  4. 上記映像制御手段が、発言しているユーザ映像をポップアップ表示することを特徴とする請求項1〜3のいずれかに記載の話者映像表示制御システム。
  5. 多地点テレビ会議システムに参加する上記各通信端末のセッションを管理するセッション管理手段を備え、
    上記映像制御手段が、上記セッション管理手段からの管理情報に基づいて、テレビ会議に参加している構成メンバリストも映像表示させることを特徴とする請求項4に記載の話者映像表示制御システム。
  6. 多地点テレビ会議システムを構成する通信端末において、請求項1〜5のいずれかに記載の話者映像表示制御システムを備えることを特徴とする通信端末。
  7. 複数の通信端末を有して構成される多地点テレビ会議システムにおいて、上記各通信端末が、請求項6に記載の通信端末に相当するものであることを特徴とする多地点テレビ会議システム。
  8. 多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御方法において、
    有音無音検出手段、話者判定手段及び映像制御手段を備え、
    上記有音無音検出手段が、入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出工程と、
    上記話者判定手段が、上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定工程と、
    上記映像制御手段が、上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御工程と
    を備えることを特徴とする話者映像表示制御方法。
  9. 多地点テレビ会議システムを構成する各通信端末で、発言した話者の映像を表示させる話者映像表示制御プログラムにおいて、
    コンピュータに、
    入力音声信号を所定長のフレーム毎に複数分割し、分割した各フレーム毎に有音又は無音を検出する有音無音検出手段、
    上記有音無音検出手段により検出された各フレーム毎の有音無音検出結果に基づいて、当該通信端末のユーザが話者であるか否かを判定する話者判定手段、
    上記話者判定手段による話者判定結果に応じて、当該通信端末の映像送信処理及び映像表示処理を制御する映像制御手段
    として機能させる話者映像表示制御プログラム。
JP2007059931A 2007-03-09 2007-03-09 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム Pending JP2008227693A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007059931A JP2008227693A (ja) 2007-03-09 2007-03-09 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007059931A JP2008227693A (ja) 2007-03-09 2007-03-09 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム

Publications (1)

Publication Number Publication Date
JP2008227693A true JP2008227693A (ja) 2008-09-25

Family

ID=39845808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007059931A Pending JP2008227693A (ja) 2007-03-09 2007-03-09 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム

Country Status (1)

Country Link
JP (1) JP2008227693A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014090387A (ja) * 2012-10-31 2014-05-15 Ricoh Co Ltd 情報処理装置、会議システムおよびプログラム
CN113873195A (zh) * 2021-08-18 2021-12-31 荣耀终端有限公司 视频会议控制方法、装置和存储介质
CN114063863A (zh) * 2021-11-29 2022-02-18 维沃移动通信有限公司 视频处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05111020A (ja) * 1991-10-17 1993-04-30 Matsushita Electric Ind Co Ltd テレビ会議用画面切替制御装置
JPH09270791A (ja) * 1996-03-29 1997-10-14 Oki Electric Ind Co Ltd 多地点テレビ会議システム
JP2004165946A (ja) * 2002-11-13 2004-06-10 Miura:Kk Web会議システム
JP2005295017A (ja) * 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP2006254166A (ja) * 2005-03-11 2006-09-21 Hitachi Ltd ビデオ会議システム、会議端末および映像サーバ
JP2008511263A (ja) * 2004-08-24 2008-04-10 クゥアルコム・インコーポレイテッド 無線システムにおけるオーディオおよびビデオデータ送信を最適化するシステムおよび方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05111020A (ja) * 1991-10-17 1993-04-30 Matsushita Electric Ind Co Ltd テレビ会議用画面切替制御装置
JPH09270791A (ja) * 1996-03-29 1997-10-14 Oki Electric Ind Co Ltd 多地点テレビ会議システム
JP2004165946A (ja) * 2002-11-13 2004-06-10 Miura:Kk Web会議システム
JP2005295017A (ja) * 2004-03-31 2005-10-20 Hitachi Kokusai Electric Inc 映像会議システム
JP2008511263A (ja) * 2004-08-24 2008-04-10 クゥアルコム・インコーポレイテッド 無線システムにおけるオーディオおよびビデオデータ送信を最適化するシステムおよび方法
JP2006254166A (ja) * 2005-03-11 2006-09-21 Hitachi Ltd ビデオ会議システム、会議端末および映像サーバ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014090387A (ja) * 2012-10-31 2014-05-15 Ricoh Co Ltd 情報処理装置、会議システムおよびプログラム
US9723261B2 (en) 2012-10-31 2017-08-01 Ricoh Company, Ltd. Information processing device, conference system and storage medium
CN113873195A (zh) * 2021-08-18 2021-12-31 荣耀终端有限公司 视频会议控制方法、装置和存储介质
CN114063863A (zh) * 2021-11-29 2022-02-18 维沃移动通信有限公司 视频处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
JP5103734B2 (ja) 遠隔会議のためのステータスを提供するシステム
EP2119107B1 (en) Multipoint conference video switching
US8379076B2 (en) System and method for displaying a multipoint videoconference
US8760485B2 (en) System and method for displaying participants in a videoconference between locations
US7707247B2 (en) System and method for displaying users in a visual conference between locations
CN107040751B (zh) 控制实时会议会话的方法、机器可读介质及通信系统
US7929011B2 (en) Method and system for handling video signals of conference
US9148625B2 (en) Transition control in a videoconference
US9237238B2 (en) Speech-selective audio mixing for conference
JP6179834B1 (ja) テレビ会議装置
WO2008141539A1 (fr) Procédé d'affichage de légendes, système et appareil de communication vidéo
KR20160025875A (ko) 다자간 영상 회의 서비스의 참여자 확장 방법
JP5526134B2 (ja) 周辺電話技術システムにおける会話検出
CN102025972A (zh) 应用于视频会议的静音指示的方法及装置
US20150120825A1 (en) Sequential segregated synchronized transcription and textual interaction spatial orientation with talk-over
JP2007201916A (ja) PoCデータ送信方法とPoC通話システムと装置
EP3796647A1 (en) Video conference server capable of providing video conference by using plurality of terminals for video conference, and method for removing audio echo therefor
EP3813361A1 (en) Video conference server capable of providing video conference by using plurality of video conference terminals, and camera tracking method therefor
JP2012019416A (ja) 情報処理端末、通話制御方法およびプログラム
JP2008227693A (ja) 話者映像表示制御システム、話者映像表示制御方法、話者映像表示制御プログラム、通信端末及び多地点テレビ会議システム
CN117176999A (zh) 一种多人连麦方法、装置、计算机设备及存储介质
JP2007135108A (ja) ネットワーク会議支援プログラムおよびネットワーク会議支援サーバ
JP2007274020A (ja) 通信端末装置および通信制御装置
JP2002158983A (ja) マルチキャストテレビ会議端末装置、及びテレビ会議システム
US20080266381A1 (en) Selectively privatizing data transmissions in a video conference

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120424

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121127