JP2009065696A

JP2009065696A - 映像合成装置、方法およびプログラム

Info

Publication number: JP2009065696A
Application number: JP2008276036A
Authority: JP
Inventors: Takuya Kawamura; 村卓也川; Naohisa Shibuya; 谷尚久渋; Nobuhiko Sugasawa; 沢延彦菅
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-10-27
Filing date: 2008-10-27
Publication date: 2009-03-26

Abstract

【課題】テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことを可能とする。
【解決手段】本発明の一態様としての映像合成方法は、第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信し、前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成し、前記第１〜第３の合成映像データを前記第１〜第３の端末に送信し、前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信し、前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成し、前記第１〜第３の合成音声データを前記第１〜第３の端末に送信し、前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信したら、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くする、ことを特徴とする。
【選択図】図１

Description

本発明は、ネットワーク接続された複数の端末装置に合成映像と合成音声を配信する映像合成装置（多地点接続装置）、および、映像合成装置が配信する合成映像と合成音声の制御方法に関するものである。

多地点接続装置(MCU: Multipoint Control Unit)を利用して秘話通信を実現する方法が提案されている(特開平10-224485号公報)。ある端末が、映像と音声をMCUに送信する際に、誰と秘話通信を行いたいかを示す秘話識別信号を送信する。MCU側は、受信したそれぞれの情報を映像合成部、音声合成部、データ合成部（秘話識別信号合成）へ入力し、合成映像、合成音声、合成秘話識別信号を各端末へ配信する。各端末は合成映像、合成音声、合成秘話識別信号を受信し、合成秘話識別信号を解析した結果、自分が秘話通信の対象になっていれば映像と音声を再生する。秘話通信の対象外であれば、映像と音声の再生を中断する。
特開平10-224485 号公報

実際の会議では、会議中に内輪での相談、確認などの局所的な会話（秘話）を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。一方、他の会議参加者は局所的な会話が行われていることを認識し、必要に応じて、その局所的な会話を終了させることや、また、局所的な会話に参加することが可能である。

本発明は、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことができるようにした映像合成装置、方法およびプログラムを提供する。

本発明の一態様としての映像合成装置は、
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信する映像受信部と、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成する映像合成部と、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信する映像送信部と、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信する音声受信部と、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成する音声合成部と、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信する音声送信部と、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声合成部に与える合成音声制御部と、
を備える。

本発明の一態様としての映像合成方法は、
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信し、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成し、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信し、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信し、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成し、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信し、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信したら、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くすることを特徴とする。

本発明の一態様としてのプログラムは、
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信するステップと、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成するステップと、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信するステップと、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信するステップと、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成するステップと、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信するステップと、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信するステップと、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くするように音声合成を制御するステップと、
をコンピュータに実行させる。

本発明の一態様としての映像合成装置は、
第１〜第３の端末から送信される第１〜第３の音声を表す第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成し、生成した前記第１〜第３の合成音声データを前記第１〜第３の端末に送信する音声合成装置と通信可能な映像合成装置であって、
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信する映像受信部と、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成する映像合成部と、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信する映像送信部と、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した前記音声合成制御信号を前記音声合成装置に送信する音声制御部と、
を備える。

本発明により、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。

まず本発明の実施形態の概要について説明すると簡単には以下の通りである。

例えば、あるユーザＡが自機器に配信される合成映像において、その合成映像内に表示されている相手のうち、局所的な会話を行いたいユーザＢの顔画像の表示が大きくなるように制御を行うことで、ユーザＢとの仮想的な距離感を縮める。この際、ユーザＢ側においてもユーザＡの顔が大きく表示されるように自動的に制御されるため、ユーザＢもユーザＡとの仮想的な距離感が縮まる。この状態では、ユーザＢに配信される合成音声のうちユーザＡの音声のみが強調されて合成されており、また、ユーザＡに配信される合成音声のうちユーザＢの音声のみが強調されて合成されている。すなわち、距離感を縮めた後は、ユーザＡ，ユーザＢは通常よりも小さい声で会話を行ったとしても当事者間の会話は強調された結果聞こえやすくなる。一方、他のユーザはユーザＡおよびユーザＢの会話はそのまま小さい声として聞こえる。このようにしてテレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。

（第１実施形態）
以下、図面を参照して本発明の第１実施形態を示す。

まず、本発明を用いたテレビ会議システムを説明し、その効果を説明する。

図１にテレビ会議システムの構成例を示す。図１の構成例では、４つの会議端末２１、２２、２３、２４と多地点接続装置１がそれぞれネットワーク接続されている。図１に示す本発明の多地点接続装置１は、主要構成要素として、映像合成部１１、音声合成部１２、レイアウト変更指示解析部１３を備えている。レイアウト変更指示解析部１３は例えば映像制御部および音声制御部に相当する。

各会議端末（２１〜２４）はそれぞれ、入力映像（V1〜V4）を取り込むためのカメラデバイス（Camera-21〜Camera-24）、入力音声（A1〜A4）を取り込むためのマイクデバイス（Microphone-21〜Microphone -24）、合成映像（MV1〜MV4）を表示するための表示デバイス（Monitor-21〜Monitor-24）、合成音声（MA1〜MA4）を再生するためのスピーカデバイス（Speaker-21〜Speaker-24）を備える。一方、多地点接続装置１は、入力映像を合成し、合成映像として出力する映像合成部１１と、入力音声を合成し、合成音声として出力する音声合成部１２と、レイアウト変更指示解析部１３を備える。レイアウト変更指示解析部１３は、映像合成制御信号を生成し映像合成部１１に入力することで、映像合成部１１が生成する合成映像の合成方法を制御できるものとする。また、本発明では、このレイアウト変更指示解析部１３が、音声合成制御信号を生成し音声合成部１２に入力することで、音声合成部１２が生成する合成音声の合成方法を制御できるものとする。会議端末２１と多地点接続装置１間には、会議端末２１から映像を送信するための通信路Vc21-1と多地点接続装置１から合成映像を送信するための通信路Vc21-2、会議端末２１から音声を送信するための通信路Ac21-1と多地点接続装置１から合成した音声を送信するための通信路Ac21-2、また、会議端末２１と多地点接続装置１との間で、映像を合成する際のパラメータを送受信するための通信路Cc-21が存在する。ここで、会議端末２１から送信する映像を合成する際のパラメータとは、多地点接続装置１が会議端末２１に送信する合成映像の画面分割レイアウトを変更するためのもの（以後、レイアウト変更パラメータと呼ぶ）である。すなわち、会議端末２１からレイアウト変更パラメータを送信することで自身に配信される合成映像の画面分割レイアウトを自由に変更できる。会議端末２２と多地点接続装置１間，会議端末２３と多地点接続装置１間，会議端末２４と多地点接続装置１間も同様に映像、音声、レイアウト変更パラメータを送受信するための通信路を備える。レイアウト変更パラメータは例えば映像選択情報に相当する。

図２は、図１のテレビ会議システムでユーザA〜Dがそれぞれ会議端末２１〜２４を操作している様子を示している。ここで、ユーザAと会議端末２１に注目した場合、テレビ会議システムを４人で開始した最初の状態では、入力映像V1はユーザAの顔の映像であり、入力音声A1はユーザAの声であり、合成映像MV1はユーザA、B、C、Dの４人の顔が並んだ映像であり、合成音声MA1はユーザA以外のB、C、Dの合わさった声であるとする。ユーザB,C,Dも同様であり、例えば、ユーザBと会議端末２２に注目した場合、テレビ会議システムを４人で開始した最初の状態では、入力映像V2はユーザBの顔の映像であり、入力音声A2はユーザBの声であり、合成映像MV2はユーザA、B、C、Dの４人の顔が並んだ映像であり、合成音声MA2はユーザB以外のA、C、Dの合わさった声であるとする。

図３は、テレビ会議システムを４人で開始した最初の状態で、入力映像（V1〜V4）、入力音声（A1〜A4）、合成映像（MV1〜MV4）、合成音声（MA1〜MA4）を図示したものである。図３の例では、各入力映像と各合成映像の画像サイズは共に320ピクセル×240ピクセルで同じあるとしており、合成映像内において各入力映像は160ピクセル×120ピクセルに縮小された後に一つの映像を四分割する形で合成されている様子を示している。また、図３の例では、各入力音声の平均の音声レベルは同じで、合成音声を生成する際に３つの音声がそのまま重ねあわされるものとする。図４は、本実施形態で画像の大きさや音声の大きさを表現するために用いた図示方法を示すものである。映像の場合は、図４(a1)が320×240ピクセルの映像、図４(a2)が240×180ピクセルの映像、図４(a3)が160×120ピクセルの映像、図４(a4)が80×60ピクセルの映像である。音声の場合は、図４(b2)を基準の音声レベルとしており、図４(b1)は音声レベルが２倍、図４(b3)は音声レベルが１／２倍となった音声である。すなわち、映像、音声ともに表記の大きさが、映像サイズ、音声レベルに対応しているとする。

図５、図６、図７は、本発明を実施した結果を示すものである。例えば、会議端末２１のユーザAが自身に配信されている図５(a)の合成映像の画面分割レイアウトを変更するために通信路Cc-21を介してレイアウト変更パラメータを送信したとする。変更後の画面分割レイアウトの合成映像が図５(b)となるように、すなわち、ユーザBの顔画像が大きく表示されるように(この場合は、320×240ピクセルの合成映像において、ユーザBの顔が240×180ピクセルになるように)変更処理を行ったとする。この場合、多地点接続装置１のレイアウト変更指示解析部１３が会議端末２１から受信したレイアウト変更パラメータを解析し、レイアウト変更指示解析部１３から映像合成部１１に制御信号を入力することで、会議端末２１に配信する合成映像のレイアウトを図５(b)に変更するだけでなく、会議端末２１がどの映像を大きくしたかを認識し、会議端末２１以外の会議端末に配信する合成映像のレイアウトを自動的に変更する。また、レイアウト変更指示解析部１３から音声合成部１２に制御信号を入力することで、各会議端末に送信する合成音声も自動的に制御される。

図６は会議端末２１から受信した合成映像のレイアウト変更パラメータを多地点接続装置１のレイアウト変更指示解析部１３が解析し、レイアウト変更指示解析部１３の解析結果に従い映像合成部１１と音声合成部１２が動作した結果の例を示している。ユーザAが自身の会議端末２１に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置１の映像合成部１１が会議端末２１にはユーザBが大きくなった（例えば、240×180ピクセルに変更した）合成映像を生成し、会議端末２２にはユーザＡが大きくなった（例えば、240×180ピクセルに変更した）合成映像を生成し、それぞれを配信する。また、多地点接続装置１の音声合成部１２が会議端末２１にはユーザBの音声が大きくなった（ユーザBの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２２にはユーザAの音声が大きくなった（ユーザAの声が２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを配信する。会議端末２１にユーザＢの音声が大きくなった合成音声を配信し会議端末２２にユーザＡの音声が大きくなった合成音声を配信する代わりに、ユーザＢの音声レベルを変えずにユーザＣ、Ｄの音声を小さくした合成音声を生成して会議端末２１に配信し、ユーザＡの音声レベルを変えずにユーザＣ、Ｄの音声を小さくした合成音声を生成して会議端末２２に配信するようにしてもよい。

図７は会議端末２１から受信した合成映像のレイアウト変更パラメータを多地点接続装置１のレイアウト変更指示解析部１３が解析し、レイアウト変更指示解析部１３の解析結果に従い映像合成部１１と音声合成部１２が動作した結果で図６とは別の例を示している。ユーザAが自身の会議端末２１に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置１のレイアウト変更指示解析部１３の解析結果に従い映像合成部１１と音声合成部１２が図６の場合の制御を行うのに加えて、映像合成部１１は会議端末２３と会議端末２４にはユーザAとユーザBが小さくなった（例えば、80×60ピクセルに変更した）合成映像を生成して、音声合成部１２が会議端末２３と会議端末２４にはユーザAとユーザBの音声が小さくなった（ユーザAとユーザBの声が１／２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを会議端末２３と会議端末２４に配信する。

以下、本発明の実施方法の詳細を説明する。

（会議端末について）
図８には本発明の一実施形態に係る会議端末２１の構成の一例が示されている。本発明に係る会議端末２１は、例えば、ノートブックタイプのポータブルパーソナルコンピュータ等により実現される。図８はポータブルパーソナルコンピュータにより実現した例を示している。なお、会議端末２２、２３、２４も会議端末２１と同様の構成とし、以下では説明を省略する。

図８はポータブルパーソナルコンピュータである会議端末２１のディスプレイユニットを開いた状態における外観図である。本会議端末２１は、コンピュータ本体２１−１と、ディスプレイユニット２１−２とから構成されている。ディスプレイユニット２１−２は、コンピュータ本体２１−１に対して開放位置と閉塞位置との間を回動自在に取り付けられている。ディスプレイユニット２１−２には表示パネルを構成するＬＣＤ（Liquid Crystal Display）などの表示デバイスMonitor-21が組み込まれており、その表示デバイスMonitor-21はディスプレイユニット２１−２のほぼ中央に位置されている。

コンピュータ本体２１−１は薄い箱形の筐体を有しており、その上面にはポインティングデバイス２１−３やキーボードが配置されている。さらに、コンピュータ本体２１−１にはネットワーク通信デバイス２１−４が内蔵されている。

このネットワーク通信デバイス２１−４はネットワーク通信を実行するデバイスであり、例えばイーサネット（登録商標）として規定された通信を実行するように設計されている。あるいは、IEEE 802.11bや802.11aとして規定された無線通信を実行するように設計されている。ネットワーク通信デバイス２１−４の通信動作は、会議端末２１内で実行されるプログラムであるネットワーク送受信プログラム（図１０参照）によって制御される。

このネットワーク送受信プログラムは、TCP/IP、UDPといったネットワークプロトコル処理に加えて、RTPによる映像データと音声データの送受信処理機能を有する。

また、コンピュータ本体２１−１にはマイク入力と、スピーカ出力の端子があり、そこにマイクデバイスMicrophone-21やスピーカデバイスSpeaker-21、あるいは、マイクデバイスMicrophone-21とイヤホンとしてのスピーカデバイスSpeaker-21が一体となったヘッドセットを接続することができる。

このマイク入力端子に接続されたマイクデバイスMicrophone-21は音声を会議端末２１に入力するためのデバイスである。マイクデバイスMicrophone-21の音声入力動作は、会議端末２１内で実行されるプログラムである音声取得プログラム（図１０参照）によって制御される。一方、このスピーカ出力端子に接続されたスピーカデバイスSpeaker-21は会議端末２１から音声を出力するためのデバイスである。スピーカデバイスSpeaker-21の音声出力動作は、会議端末２１内で実行されるプログラムである音声再生プログラム（図１０参照）によって制御される。

また、コンピュータ本体２１−１にはUSB接続端子があり、そこにカメラデバイスCamera-21を接続することができる。

このUSB接続端子に接続されたカメラデバイスCamera-21は映像を会議端末２１に入力するためのデバイスである。カメラデバイスCamera-21の映像入力動作は、会議端末２１内で実行されるプログラムである映像取得プログラム（図１０参照）によって制御される。

合成映像MV1の表示動作は、会議端末２１内で実行されるプログラムである映像再生プログラム（図１０参照）によって制御される。また、ポインタ２００の表示制御動作は、会議端末２１内で実行されるプログラムであるポインタ表示プログラム（図１０参照）によって制御される。表示デバイスMonitor-21の表示画面上には、多地点制御装置１から受信した合成映像MV1が表示される。ポインティングデバイス１４を操作することで、例えば、合成映像MV1を表示するためのウィンドウ２１０１内で合成映像MV1が表示されている表示領域１０００上で、ポインタ２００の位置を動かすことや、左クリックや右クリックをすることができる。

図９には、会議端末２１のシステム構成が示されている。会議端末２１には、図示のように、ＣＰＵ、ノースブリッジ（メモリーコントローラハブ）、主メモリ、サウスブリッジ（I/Oコントローラハブ）ハードディスクドライブ（ＨＤＤ）などが内蔵され、ノースブリッジには表示コントローラ、サウスブリッジにはUSBコントローラ、サウンドコントローラ、LANコントローラが備わっている。

ＣＰＵは会議端末２１の動作を制御するために設けられたプロセッサであり、ハードディスクドライブ（ＨＤＤ）から主メモリにロードされたオペレーティングシステム（ＯＳ）および各種アプリケーションプログラムを実行する。図１０にハードディスクドライブに格納されたアプリケーションプログラムを示す。この実施形態では、ネットワーク送受信プログラム、ポインタ表示プログラム、映像取得プログラム、映像再生プログラム、音声取得プログラム、音声再生プログラムに加えて、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、レイアウト変更指示プログラムがハードディスクドライブ（ＨＤＤ）から主メモリにロードされ、ＣＰＵによって実行される。映像圧縮プログラムは、映像取得プログラムに従う処理で、映像取得プログラムにより取得した映像データをMPEG4などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは映像圧縮プログラムに従い圧縮符号化された映像データの送信を行う。映像伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったMPEG4などの形式に圧縮符号化された受信映像データを非圧縮の映像データに伸長復号化する処理を実行し、映像再生プログラムは映像伸長プログラムに従い非圧縮に変換された映像データの表示を行う。音声圧縮プログラムは、音声取得プログラムに従う処理で、音声取得プログラムにより取得した音声データをG.711などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは音声圧縮プログラムに従い圧縮符号化された音声データの送信を行う。音声伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったG.711などの形式に圧縮符号化された受信音声データを非圧縮の音声データに伸長復号化する処理を実行し、音声再生プログラムは音声伸長プログラムに従い非圧縮の音声データの再生を行う。レイアウト変更指示プログラムは、ポインタ表示プログラムに従う処理で、映像再生プログラムが表示している映像上で、ポインタ２００の位置の移動や、左クリックや右クリックが実行された場合に、ポインティングデバイス２１−３の操作から合成映像のレイアウトを計算し、計算したレイアウトを表すレイアウト変更パラメータを生成し、ネットワーク送受信プログラムを利用して多地点接続装置１へレイアウト変更パラメータを送信する一連の処理を実行する。このレイアウト変更指示プログラムの具体的な処理機能については後述する。

ノースブリッジはＣＰＵのローカルバスとノースブリッジとサウスブリッジ間の高速バスとの間を双方向で接続するブリッジデバイスである。ノースブリッジには表示コントローラが内蔵されている。表示コントローラは会議端末２１のディスプレイモニタとして使用される表示デバイスMonitor-21を制御する。この実施形態においては、表示コントローラは映像表示プログラムに従い表示デバイスMonitor-21に合成映像を表示する。

サウスブリッジはノースブリッジ側の高速バスとキーボード等を接続する低速バスとの間を双方向で接続するブリッジデバイスである。サウスブリッジには、ＵＳＢ（Universal Serial Bus）コントローラが内蔵されている。このＵＳＢコントローラには、カメラデバイスCamera-21が接続される。カメラデバイスCamera-21は、映像取得プログラムの制御の下に、映像を撮影し、撮影した映像を会議端末２１内で処理できるように電気信号に変換する。また、サウスブリッジにはサウンドコントローラも内蔵されている。このサウンドコントローラには、マイクデバイスMicrophone-21とスピーカデバイスSpeaker-21が接続される。マイクデバイスMicrophone-21は音声取得プログラムの制御の下に、音を集め、集音した音声を会議端末２１内で処理できるように電気信号に変換する。スピーカデバイスSpeaker-21は音声再生プログラムの制御の下に、会議端末２１内で電子信号として処理された音を音波として再生する。また、サウスブリッジには、LANコントローラも内蔵されている。このLANコントローラにはイーサネットの物理層デバイスなどのネットワーク通信デバイス２１−４が接続されている。ネットワーク通信デバイス２１−４は、ネットワーク送受信プログラムの制御の下に、送信データの変調、および受信データの復調を行う。

（多地点接続装置について）
図１１には本発明の一実施形態に係る多地点接続装置１の構成の一例が示されている。本発明に係る多地点接続装置１は、例えば、サーバマシンとして利用可能な高性能なコンピュータ等により実現される。図１１はタワー型のパーソナルコンピュータにより実現した例を示している。タワー型のパーソナルコンピュータである多地点接続装置１にはネットワーク通信デバイス１−４が内蔵されている。

このネットワーク通信デバイス１−４はネットワーク通信を実行するデバイスであり、例えばイーサネットとして規定された通信を実行するように設計されている。あるいは、IEEE 802.11bや802.11aとして規定された無線通信を実行するように設計されている。ネットワーク通信デバイス１−４の通信動作は、多地点接続装置１内で実行されるプログラムであるネットワーク送受信プログラム（図１３参照）によって制御される。

図１２には、多地点接続装置１のシステム構成が示されている。多地点接続装置１には、図示のように、ＣＰＵ、ノースブリッジ（メモリーコントローラハブ）、主メモリ、サウスブリッジ（I/Oコントローラハブ）、ハードディスクドライブ（ＨＤＤ）などが内蔵されている。

ＣＰＵは多地点接続装置１の動作を制御するために設けられたプロセッサであり、ハードディスクドライブ（ＨＤＤ）から主メモリにロードされたオペレーティングシステム（ＯＳ）および各種アプリケーションプログラムを実行する。図１３にハードディスクドライブに格納されたアプリケーションプログラムを示す。この実施形態では、ネットワーク送受信プログラムに加えて、映像合成プログラム、音声合成プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、レイアウト変更指示解析プログラムがハードディスクドライブ（ＨＤＤ）から主メモリにロードされ、ＣＰＵによって実行される。

映像圧縮プログラムは、映像合成プログラムに従う処理で、映像合成プログラムにより生成された合成映像データをMPEG4などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは映像圧縮プログラムに従い圧縮符号化された映像データの送信を行う。

映像伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったMPEG4などの形式に圧縮符号化された受信映像データを非圧縮の映像データに伸長復号化する処理を実行し、映像合成プログラムは映像伸長プログラムに従い非圧縮の映像データを用いて合成映像の生成処理を行う。

音声圧縮プログラムは、音声合成プログラムに従う処理で、音声取得プログラムにより生成された合成音声データをG.711などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは音声圧縮プログラムに従い圧縮符号化された音声データの送信を行う。

音声伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったG.711などの形式に圧縮符号化された受信音声データを非圧縮の音声データに伸長復号化する処理を実行し、音声合成プログラムは音声伸長プログラムに従い非圧縮の音声データを用いて合成音声の生成処理を行う。

レイアウト変更指示解析プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったレイアウト変更パラメータの解析処理を実行する。映像合成プログラムはレイアウト変更指示解析プログラムの解析結果に従い合成映像の画面分割レイアウトを変更する。また、レイアウト変更指示解析プログラムは、レイアウト変更パラメータの解析処理の際、合成音声を生成する際の各音声の音量のレベルを計算する。音声合成プログラムはレイアウト変更指示解析プログラムの計算結果に従い、合成音声の際の各音声の音量を調整する。

このレイアウト変更指示プログラム、映像合成プログラム、音声合成プログラムの具体的な処理機能については後述する。

なお、本実施形態において、多地点接続装置１における映像圧縮プログラム、映像伸長プログラムは、同時に４つの映像について独立に処理する。また、多地点接続装置１における音声圧縮プログラム、音声伸長プログラムは、同時に４つの音声について独立に処理する。また、映像合成プログラムは、４つの映像を利用して、４つの独立な合成映像の生成処理を行う。また、音声合成プログラムは、４つの音声を利用して、４つの独立な合成音声の生成処理を行う。また、ネットワーク送受信プログラムは、４台の会議端末それぞれと映像、音声の送受信処理、および、レイアウト変更パラメータの受信処理をそれぞれ独立に行う。

ノースブリッジはＣＰＵのローカルバスとノースブリッジとサウスブリッジ間の高速バスとの間を双方向で接続するブリッジデバイスである。

サウスブリッジにはLANコントローラが内蔵されている。このLANコントローラにはイーサネットの物理層デバイスなどのネットワーク通信デバイス１−４が接続されている。ネットワーク通信デバイス１−４は、ネットワーク送受信プログラムの制御の下に、送信データの変調、および受信データの復調を行う。

（会議端末の内部構成）
図１４に、図８、図９に示した会議端末２１において本発明に関わる内部構成要素を示す。なお、図１４では、本発明による機能改善を実現する上で直接影響を及ぼすことがない構成要素（例えばＣＰＵ等）の表記は省略している。

会議端末２１は、その内部構成要素としてネットワーク送受信部２１１、映像圧縮部２１２、映像伸長部２１３、音声圧縮部２１４、音声伸長部２１５、映像取得部２１６、映像再生部２１７、音声取得部２１８、音声再生部２１９、レイアウト変更指示部３００とを備える。上記ネットワーク送受信部２１１、映像圧縮部２１２、映像伸長部２１３、音声圧縮部２１４、音声伸長部２１５、映像取得部２１６、映像再生部２１７、音声取得部２１８、音声再生部２１９、レイアウト変更指示部３００は、それぞれ図１０に示すネットワーク送受信プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、映像取得プログラム、映像再生プログラム、音声取得プログラム、音声再生プログラム、レイアウト変更指示プログラムの処理ルーチンにより実現される。

映像再生部２１７は、内部で作成した描画データを図８に示す表示画面２１００に表示させることが可能である。また、ネットワーク送受信部２１１は、図１で示した通信路Vc21-1を利用しての映像データの送信、通信路Vc21-2を利用しての映像データの受信、通信路Ac21-1を用いての音声データの送信、通信路Ac21-2を用いての音声データの受信、通信路Cc-21を用いての映像を合成する際のレイアウト変更パラメータの送受信が可能である。ネットワーク送受信部２１１は、通信プロトコルとして、例えば、ＵＤＰ／ＩＰ，ＲＴＰ等を利用して映像データ、音声データを送受信し、ＵＤＰ／ＩＰあるいはＴＣＰ／ＩＰを利用して映像を合成する際のレイアウト変更パラメータの送信をする。

ネットワーク送受信部２１１は、映像データ、音声データをストリーミング形式で送受信し、その送受信の開始、終了を管理し、また、送受信する映像データ、音声データの識別が可能であり、適切な通信路を用いて映像データ、音声データの送受信を行う。ネットワーク送受信部２１１は、映像データを受信した際には、映像伸長部２１３へ出力し、音声データを受信した際には音声伸長部２１５へ出力する。

映像取得部２１６はカメラデバイスCamera-21を制御し、撮影の開始、撮影の終了を命令する。撮影を開始すると、カメラデバイスCamera-21が撮影している映像（Ｖ１）は映像データとして映像取得部２１６へ入力される。映像取得部２１６は入力された映像データを多地点制御装置１に送信するため、映像圧縮部２１４へ映像データを出力する。映像圧縮部２１４は、映像データが入力されるとそれをMPEG4にエンコード（圧縮）しネットワーク送受信部２１１へ出力する。ネットワーク送受信部２１１は圧縮された映像データに対し、ネットワークを介して多地点制御装置１へ送信するための処理を行った後、通信路Vc21-1を用いて送信を行う。

音声取得部２１８はマイクデバイスMicrophone-21を制御し、集音の開始、撮影の終了を命令する。集音を開始すると、マイクが集音している音声（Ａ１）は音声データとして音声取得部２１８へ入力される。音声取得部２１８は入力された音声データを多地点制御装置１に送信するため、音声圧縮部２１４へ音声データを出力する。音声圧縮部２１４は、音声データが入力されるとそれをG.711にエンコード（圧縮）しネットワーク送受信部２１１へ出力する。ネットワーク送受信部２１１は圧縮された音声データに対し、ネットワークを介して多地点制御装置１へ送信するための処理を行った後、通信路Ac21-1を用いて送信を行う。

ネットワーク送受信部２１１は、Vc21-2からデータを受信すると、受信データに含まれている圧縮された映像データを映像伸長部２１３へ出力する。映像伸長部２１３は、圧縮された映像データが入力されると、それをデコード（伸長）して非圧縮の映像データを生成し、生成した非圧縮映像データを映像再生部２１７へ出力する。映像再生部２１７は、表示デバイスMonitor-21を制御して、アプリケーションとしてのウィンドウ２１０１を作成し表示する機能を備えており、表示可能な映像データが入力されると、ウィンドウ２１０１内の表示領域１０００に映像データを「合成映像ＭＶ１」として表示する。

ネットワーク送受信部２１１は、Ac21-2からデータを受信すると、受信データに含まれている圧縮された音声データを音声伸長部２１５へ出力する。音声伸長部２１５は、圧縮された音声データが入力されると、それをデコード（伸長）して非圧縮の音声データを生成し、生成した非圧縮音声データを音声再生部２１９へ出力する。音声再生部２１９は、スピーカデバイスSpeaker-21を制御して入力された音声データを「合成音声ＭＡ１」として再生する。

以下、レイアウト変更指示部３００の実施形態の一例を示す。

図１５にレイアウト変更指示部３００の構成要素を示す。レイアウト変更指示部３００は、ポインタ検出部３０１、領域検出部３０２、枠表示部３０３、テーブル管理部３０４、制御データ生成部３０５、制御データ送信処理部３０６とから構成されている。

まず、レイアウト変更指示部３００が初期化された場合の動作について説明する。

テーブル管理部３０４は、図１６に示す領域管理テーブルを内部に作成し保持している。図１６は初期化時の領域管理テーブルであり、多地点接続装置１が合成可能な４種類の映像（以後、映像ソースと呼ぶ）に対しそれらを識別するＩＤ（１，２，３，４）を割り当て、それぞれの配置位置を示すパラメータ情報x、y、w、h、Layerを含んでいる。x、y、w、hは、ＩＤで識別する映像ソースを合成画像内に配置する位置と、映像ソースを矩形とした場合のサイズを示すものであり、図１７を例として説明するとID=1の矩形の領域は、x = x1、y = y1、w = w1、h = h1となる。また、Layerは、多地点接続装置１が合成映像を作成する際に各映像ソースの上下関係を識別するための階層情報を示すものであり、例えば、第ｋ層に位置する場合は、Layer = kであり、ｋ層の映像ソースは、k-1層の映像ソースより１つ背面に位置し、もしk層とk-1層の映像ソースが重なった合成映像が作成された場合には、k層の映像ソースはk-1層の映像ソースによって隠れる部分が存在することになる。レイアウト変更指示部３００が初期化された場合には、テーブル管理部３０４の管理する領域管理テーブルは図１６の初期化時の状態になるものとする。

レイアウト変更指示部３００が初期化された場合は、領域検出部３０２はテーブル管理部３０４から初期化状態の領域管理テーブル情報を取得し、領域管理テーブル情報を制御データ生成部３０５へ出力する。

制御データ生成部３０５は、領域検出部３０２から領域管理テーブル情報が入力されると、領域管理テーブル情報を多地点接続装置１へ伝えるための合成映像制御パケットのペイロード部分を構築する。図１８に領域管理テーブル情報が初期化時の場合の合成映像制御パケットのペイロード部の例を示す。図１８では、それぞれのブロックは８ビットの情報を示しており、ビット列を１６進数で表現している。なお、図１８では一行あたり６バイトで折り返して表記している。制御データ生成部３０５は、合成映像制御パケットを作成すると、制御データ送信処理部３０６へ出力する。

制御データ送信処理部３０６は、制御データ生成部３０５から合成映像制御パケットが入力されると、この制御パケットを多地点接続装置１へ送信するために必要となるネットワークのあて先アドレス情報などの付加情報と共にネットワーク送受信部２１１へ出力する。ネットワーク送受信部２１１は、制御データ送信処理部３０６から付加情報が付された合成映像制御パケットが入力されると、通信路Cc21を介してこの合成映像制御パケットをレイアウト変更パラメータとして多地点接続装置１へ送信する。

次に、レイアウト変更指示部３００が初期化後にユーザによる操作が伴った場合の動作について説明する。

ポインタ検出部３０１は、ポインタ２００が表示画面２１００におけるウィンドウ２１０１内の合成映像MV1の表示領域１０００上にあることを検出し、さらに、その位置にて操作イベントが発生した場合にそのイベントを検出する。操作イベントは、ポインティングデバイス２１−３の操作によるクリックや、ダブルクリック、ドラッグアンドドロップ等により発生する。なお、図１９に示すように、表示画面２１００をX’Y’座標で管理することで、ポインタ検出部３０１は表示画面２１００上におけるポインタ２００の位置およびウィンドウ２１０１位置を管理することができる。ポインタ検出部３０１は、表示領域１０００上にて操作イベントが発生したことを検出すると、ポインタ２００の位置情報（X’Y’座標を利用して表現）と操作イベント情報（左クリック、左クリックや、右クリックの解除等）を領域検出部３０２へ出力する。

領域検出部３０２は、図１９に示すように、ウィンドウ２１０１内の表示領域１０００についてXY座標で管理している。領域検出部３０２は、有効な操作イベントの場合には、ポインタ検出部３０１から入力されたポインタ２００の位置情報（X’Y’座標を利用して表現）をXY座標に変換し、変換した値をポインタ２００の位置情報として認識する。一方、領域検出部３０２は、無効な操作イベントの場合には、ポインタ２００の位置情報（X’Y’座標を利用して表現）と操作イベント情報は無視する。例えば、操作イベントとして左クリックと左クリックの解除のみを有効とすると、左クリックと左クリックの解除の場合にのみ、ポインタ２００の位置情報解析を行う。図１９を用いて、領域検出部３０２が管理するXY座標と表示領域１０００の関係を説明する。XY座標の点を(x,ｙ)として表現すると、領域検出部３０２は、表示領域１０００の左上の頂点を(0,0)、右上の頂点を(100,0)、左下の頂点を(0,100)、右下の頂点を(100,100)というように管理している。つまり、領域検出部３０２は、表示領域１０００の横方向、縦方向を１００という値に正規化して表示領域１０００上における位置を管理する。例えば、図１９に示す、(x1,y1)の位置で左クリックが発生した場合に、領域検出部３０２は{x1,y1,イベントＡ}という情報を認識する。ここで、イベントＡは、左クリックが行われたこと示しており、内部処理として{x1,y1,イベントＡ}という情報を「位置確認信号」と定義する。領域検出部３０２は位置確認信号{x1,y1,イベントＡ}を認識すると、テーブル管理部３０４から領域管理テーブル情報を取得し、領域管理テーブルの登録情報を確認する。x1,y1という位置情報が、領域管理テーブルで管理するいずれの矩形領域にも属さない点である場合には、領域検出部３０２は位置確認信号{x1,y1,イベントＡ}に関する処理を終了する。一方、x1,y1という位置情報が、領域管理テーブルが管理する複数の矩形領域に属する点である場合には、領域検出部３０２はLayerを確認し、最上位に位置する矩形領域のID番号と、それに関連する情報（x 、y 、w 、h 、Layer）を矩形領域情報{ID,x,y,w,h,Layer}として認識する。領域検出部３０２は、矩形領域情報{ID
,x,y,w,h,Layer}を認識するとその情報を内部に記憶すると共に、枠表示部３０３へ出力する。

枠表示部３０３は、領域検出部３０２から矩形領域情報{ID,x,y,w,h,Layer}が入力されると、x,y,w,hの値を利用し、ＸＹ座標で管理される表示画面２１００におけるウィンドウ２１０１内の表示領域１０００上に矩形の枠２０００を表示させる。図１９では、矩形領域情報{ ID = ID1,x = x1,y = y1,w = w1,h = h1,Layer = l1 }が入力された場合に、それに対応した矩形の枠２０００が表示領域１０００上に表示されている様子を示している。なお、矩形の枠２０００は、図１９に示した破線や点線以外にも、実線であってもよく、また、枠の表示色をＩＤ番号に応じて変化させても良い。なお、先に領域検出部３０２は、矩形領域情報{ID,x,y,w,h,Layer}を記憶するとしたが、領域検出部３０２は、記憶している矩形領域情報を削除した際には、矩形領域情報{ID,x,y,w,h,Layer}の削除命令を枠表示部３０３へ出力する。枠表示部３０３は削除命令が入力されると、指定された矩形の枠の表示を行わないように処理を実行する。領域検出部３０２は、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}については、その値が、所定の時間変更されなかった場合に記憶している矩形領域情報を削除するものとする。領域検出部３０２は、内部に複数の矩形領域情報を記憶できるものとしてもよいが、内部には一つのみ記憶可能とし新たな矩形領域情報を記憶する際に古い矩形領域情報を削除するものとしてもよい。なお、領域検出部３０２は、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}については、後述の「矩形の枠の変更処理」によって、その値を変更することができる。

ここで、ユーザが、ポインタ２００の表示位置を移動させ、枠表示部３０３が表示した矩形の枠の大きさや位置を変化させる方法について述べる。ポインタ２００の位置については、先に示したとおり、ポインタ検出部３０１が検出し、ポインタ２００の位置情報（X’Y’座標を利用して表現）と操作イベント情報（左クリック、左クリックの解除や、右クリック等）を領域検出部３０２へ出力する。領域検出部３０２は、入力された操作イベント情報が有効であれば、ポインタ２００の位置情報（X’Y’座標を利用して表現）をXY座標に変換したものと、操作イベント情報を一時的に記憶する。このとき、領域検出部３０２は検出したXY座標の位置が、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}の領域に属する点か否かを検出し、領域に属さない場合は、先に示した「位置確認信号」に関する処理を行うが、領域に属すること検出した場合には、「矩形の枠の変更処理」を実行する。なお、先に示した「位置確認信号」に関する処理の説明は、領域検出部３０２内部に矩形領域情報が記憶されていない場合の説明である。

以下、「矩形の枠の変更処理」について図１９を用いて説明する。

まず、矩形の枠２０００の頂点にポインタ２００を移動させ、そこで左クリックし、左クリックした状態のままポインタ２００を移動させ、移動後に左クリックを離した場合を考える。この場合、最初の左クリックをポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２にて、矩形の枠２０００の頂点が指定された「矩形の枠の変更処理」の開始と認識する。次に、ポインタの移動を、ポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２は、矩形の枠２０００の大きさを変更する処理と認識することができる。また、左クリックが解除されたことをポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２は、矩形の枠２０００の大きさを変更する処理が確定したこと、すわなち、「矩形の枠の変更処理」の終了を認識することができる。領域検出部３０２は、矩形の枠２０００の大きさを変更する処理と認識した場合には、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}のx,y,w,hの値を必要に応じて変更し、変更した矩形領域情報を枠表示部３０３へ出力する。例えば、左クリックした頂点の位置を変更することで枠の大きさを変更する処理においては、クリックした頂点の対角の位置が固定されるようにx,y,w,hの値を適宜変更する。矩形の枠２０００の大きさを変更する処理の途中においては、領域検出部３０２は枠表示部３０３に対してのみ随時矩形領域情報を出力することで表示領域１０００上における矩形の枠の表示の変更処理が行われるようにし、「矩形の枠の変更処理」の終了を認識した時点で、領域検出部３０２は、テーブル管理部３０４が管理する領域管理テーブルにおいて対応するＩＤのx,y,w,h,Layerの情報を変更すると共に、変更した領域管理テーブル情報を制御データ生成部３０５へ出力する。なお、本実施の形態において矩形の枠は縦横のアスペクト比一定を保つものとし、「矩形の枠の変更処理」の終了を認識した際のポインタ２００の位置がアスペクト比一定を満たさない場合は、ポインタ検出部３０１においてポインタ２００の位置がアスペクト比一定を満たす点に自動的に補正されるものとする。また、サイズについては、表示領域１０００に対して最大表示の状態のサイズ（本実施形態では３２０ピクセル×２４０ピクセル）と、それに対して3/4サイズ、1/2サイズ、1/4サイズの４つの固定サイズのみに変更できるものとし、これらのサイズに一致しない場合は、こららのサイズのうち一番大きさが近いサイズに自動的に補正されるものとする。

次に、矩形の枠２０００内の領域ではあるが頂点以外の位置にポインタ２００を移動させ、そこで左クリックし、左クリックした状態のままポインタ２００を移動させ、移動後に左クリックを離した場合を考える。この場合、最初の左クリックをポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２にて、矩形の枠２０００の頂点以外を指定された「矩形の枠の変更処理」の開始と認識する。次に、ポインタ２００の移動を、ポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２は、矩形の枠２０００の位置を変更する処理と認識することができる。また、左クリックが解除されたことをポインタ検出部３０１が検出し、その情報を領域検出部３０２へ入力することで、領域検出部３０２は、矩形の枠２０００の位置を変更する処理が確定したこと、すわなち、「矩形の枠の変更処理」の終了を認識することができる。領域検出部３０２は、矩形の枠２０００の位置を変更する処理と認識した場合には、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}のx,y,の値を変更し、変更した矩形領域情報を枠表示部３０３へ出力する。例えば、位置を変更する処理においては、枠の大きさは変化しないとすると、「矩形の枠の変更処理」の開始時に認識したポインタ２００の位置と移動中のポインタ２００の位置との差分値を利用してx,y,の値を適宜変更する。矩形の枠２０００の位置を変更する処理の途中においては、領域検出部３０２は枠表示部３０３に対してのみ随時矩形領域情報を出力することで表示領域１０００上における矩形の枠の表示の変更処理が行われるようにし、「矩形の枠の変更処理」の終了を認識した時点で、領域検出部３０２は、テーブル管理部３０４が管理する領域管理テーブルにおいて対応するＩＤのx,y,w,h,Layerの情報を変更すると共に、変更した領域管理テーブル情報を制御データ生成部３０５へ出力する。

矩形の枠２０００の大きさ、あるいは、位置を変更する処理の際、領域検出部３０２はテーブル管理部３０４が管理する領域管理テーブルにおいて対応するＩＤのx,y,w,h,Layerの情報を変更するが、対応するＩＤのLayerを１に設定し、対応する映像ソースが最上位に配置されるような制御を行ってもよい。この場合、領域管理テーブルにおいて先に１であったものは、その階層の値を１大きくする。この結果、更に別の登録済みの情報と重なった場合には、その別の登録済みの階層の値を１大きくする。図２０に初期化状態から矩形の枠２０００の大きさが変更された場合の領域管理テーブルを示すが、この例では、ＩＤ＝３に対応する情報が変更され、更に、階層については、ＩＤ=３のＬａｙｅｒ値が１に、ＩＤ=１とＩＤ=２のＬａｙｅｒ値がそれぞれ２と３に変更された様子を示している。

領域管理テーブル情報が入力された場合の制御データ生成部３０５と制御データ送信処理部３０６の処理は、先にレイアウト変更指示部３００が初期化された場合の動作として説明したとおりである。

一方、会議端末２１は多地点接続装置１から逆に合成映像制御パケットを受信した場合には、それに含まれる領域管理テーブルを抽出し、自分の管理する領域管理テーブル情報を上書きするものとする。

（多地点接続装置の内部構成）
図２１に、図１１、図１２に示した多地点接続装置１において本発明に関わる内部構成要素を示す。なお、図２１では、本発明による機能改善を実現する上で直接影響を及ぼすことがない構成要素（例えばＣＰＵ等）の表記は省略している。

多地点接続装置１は、その内部構成要素としてネットワーク送受信部１０１、４つの映像圧縮部１０２−１〜１０２−４、４つの映像伸長部１０３−１〜１０３−４、４つの音声圧縮部１０４−１〜１０４−４、４つの音声伸長部１０５−１〜１０５−４、映像合成部１１、音声合成部１２、レイアウト変更指示解析部１３とを備える。上記ネットワーク送受信部１０１、映像圧縮部１０２−１〜１０２−４、映像伸長部１０３−１〜１０３−４、音声圧縮部１０４−１〜１０４−４、音声伸長部１０５−１〜１０５−４、映像合成部１１、音声合成部１２、レイアウト変更指示解析部１３は、それぞれ図１３に示すネットワーク送受信プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、映像合成プログラム、音声合成プログラム、レイアウト変更指示解析プログラムの処理ルーチンにより実現される。ネットワーク送受信部１０１は例えば映像受信部、映像送信部、音声送信部、音声受信部、映像選択情報受信部に相当する。

ネットワーク送受信部１０１は、図１で示した通信路Vc21-1〜Vc24-1を利用しての映像データの受信、通信路Vc21-2〜Vc24-2を利用しての映像データの送信、通信路Ac21-1〜Ac24-1を用いての音声データの受信、通信路Ac21-2〜Ac24-2を用いての音声データの送信、通信路Cc-21〜Cc24を用いての映像を合成する際のレイアウト変更パラメータの送受信が可能である。ネットワーク送受信部１０１は、通信プロトコルとして、例えば、ＵＤＰ／ＩＰ，ＲＴＰ等を利用して映像データ、音声データを送受信し、ＵＤＰ／ＩＰあるいはＴＣＰ／ＩＰを利用して映像を合成する際のパラメータの送信をする。

ネットワーク送受信部１０１は、映像データ、音声データをストリーミング形式で送受信し、その送受信の開始、終了を管理し、また、送受信する映像データ、音声データの識別が可能であり、適切な通信路を用いて映像データ、音声データの送受信を行う。

ネットワーク送受信部１０１は、Vc21-1で受信した映像データは映像伸長部１０３−１へ出力、Vc22-1で受信した映像データは映像伸長部１０３−２へ出力、Vc23-1で受信した映像データは映像伸長部１０３−３へ出力、Vc24-1で受信した映像データは映像伸長部１０３−４へ出力する。

ネットワーク送受信部１０１は、Ac21-1で受信した音声データは音声伸長部１０５−１へ出力、Ac22-1で受信した音声データは音声伸長部１０５−２へ出力、Ac23-1で受信した音声データは音声伸長部１０５−３へ出力、Ac24-1で受信した音声データは音声伸長部１０５−４へ出力する。

映像伸長部１０３−１、映像伸長部１０３−２、映像伸長部１０３−３、映像伸長部１０３−４で伸長された非圧縮の映像データは映像合成部１１へ入力される。映像合成部１１は内部で４種類の合成映像ＭＶ１〜ＭＶ４を作成し、合成映像ＭＶ１を映像圧縮部１０２−１へ出力、合成映像ＭＶ２を映像圧縮部１０２−２へ出力、合成映像ＭＶ３を映像圧縮部１０２−３へ出力、合成映像ＭＶ４を映像圧縮部１０２−４へ出力する。

音声伸長部１０５−１、音声伸長部１０５−２、音声伸長部１０５−３、音声伸長部１０５−４で伸長された非圧縮の音声データは音声合成部１２へ入力される。音声合成部１２は内部で４種類の合成音声ＭＡ１〜ＭＡ４を作成し、合成音声ＭＡ１を音声圧縮部１０４−１へ出力、合成音声ＭＡ２を音声圧縮部１０４−２へ出力、合成音声ＭＡ３を音声圧縮部１０４−３へ出力、合成音声ＭＡ４を音声圧縮部１０４−４へ出力する。

図２２は、例として映像合成部１１の内部構成の概要を示している。図２２の場合、映像合成部１１は、４つの入力映像をそれぞれ別々のサイズに縮小する縮小回路３１〜３４と、縮小回路３１〜３４で縮小された映像を合成する合成回路４１〜４４を備える。レイアウト変更指示解析部１３は縮小回路３１〜３４に対して、それぞれの縮小パラメータを与え、また、合成回路４１〜４４に対して合成映像生成の際に縮小映像を貼り付ける位置パラメータを与える。映像合成部１１への入力映像は、通信路Vc21-1〜Vc24-1を介して会議端末２１〜２４から受信した入力映像V1〜V4を非圧縮映像データに変換したものである。入力映像V1〜V4が圧縮符号化されて通信路Vc21-1〜Vc24-1を送信される場合、多地点接続装置１は受信した入力映像V1〜V4を伸長復号化したものを映像合成部１１への入力映像とする。一方、映像合成部１１から出力された合成映像は多地点接続装置１内で圧縮符号化された後に通信路Vc21-2〜Vc24-4を送信されるとする。縮小回路３１〜３４に対する縮小パラメータ(n11,n12,n13,n14, n21,n22,n23,n24, n31,n32,n33,n34, n41,n42,n43,n44)について、例えば、n11=1/4, n21=1/4, n31=1/4, n41=1/4とした場合には、合成映像ＭＶ１を生成する際に３２０×２４０ピクセルの入力映像Ｖ１，Ｖ２，Ｖ３，Ｖ４をそれぞれ面積比で1/4にした映像に変換して生成するように指示できる。また、位置パラメータは、変換した映像を配置する位置を示すものであり、合成回路４１〜４４は、合成映像を横方向、縦方向を１００という値に正規化したXY座標で管理しており、例えば合成回路４１に対して、V1をX=0,Y=0、V2をX=0,Y=50、V3をX=50,Y=0、V4をX=50,Y=50と指定した場合には、縮小回路４１から出力された合成映像ＭＶ１を生成するための入力映像Ｖ１，Ｖ２，Ｖ３，Ｖ４のそれぞれの左上の頂点が先に示した座標点に配置された合成映像を生成するように命令できる。

映像合成部１１に対し外部から入力する縮小回路３１〜３４に対する縮小パラメータ、および、合成回路４１〜４４に対する位置パラメータをまとめて映像合成制御信号と呼ぶ。

図２３は、例として音声合成部１２の内部構成の概要を示している。図２３の場合、音声合成部１１は、４つの入力音声をそれぞれの平均音量を調整する調整回路５１〜５４と、調整回路５１〜５４で平均音量が変更された音声を合成する合成回路６１〜６４を備える。調整回路５１〜５４に対するパラメータ(m12,m13,m14, m21,m23,m24, m31,m32,m34, m41,m42,m43)について、例えば、m21=1,m31=1,m41=1とした場合には、合成回路６１にて合成される出力音はＢ，Ｃ，Ｄという音がそのまま足しあわされた音となり、一方、m12=2,m32=1/2,m42=1/2とした場合には、合成回路６２にて合成される出力音はＡの音は２倍にされ、Ｃ，Ｄの音は音量が半分にされた後に足しあわされた音となる。

音声合成部１１に対し外部から入力する調整回路５１〜５４に対するパラメータをまとめて音声合成制御信号と呼ぶ。

図２１に構成を示す多地点接続装置１は、通信路Cc21〜Cc24を介して会議端末２１〜２４それぞれから合成映像制御パケットを受信することが可能であり、受信した合成映像制御パケットはレイアウト変更指示解析部１３が解析を行う。レイアウト変更指示解析部１３は、レイアウト変更パラメータとして受信した合成映像制御パケットに含まれる領域管理テーブル情報を抽出する。領域管理テーブル情報を解析することで映像合成制御信号と音声合成制御信号を生成し、生成した映像合成制御信号を映像合成部１１へ出力し、また、生成した音声合成制御信号を音声合成部１２に出力する。映像合成制御信号の生成方法、および、音声合成制御信号の生成方法等、以下、レイアウト変更指示解析部１３内の処理手順例を説明する。

図３１は、処理手順例１の流れを説明するフローチャートである。

[処理手順例１]
（ステップ１）
合成映像制御パケットがどの会議端末が送信したものかを判断する（Ｓ１１）。送信した端末を送信端末と定義する。

（ステップ２）
合成映像制御パケットから領域管理テーブルを抽出する（Ｓ１２）。これを送信領域管理テーブルと定義する。

（ステップ３）
領域管理テーブルを解析し、送信端末が、送信端末に配信される合成映像の画面分割レイアウトをどのように変更したいのかを認識する（Ｓ１３）。本実施形態の場合、図１６に示した領域管理テーブルから、合成映像を生成する各映像のサイズおよび配置位置を解析することができる。

（ステップ４）
ステップ３で認識した各映像のサイズを利用して、送信端末がサイズを大きくするように指示した映像を配信している会議端末を識別する（Ｓ１４）。この映像を配信している会議端末を対象端末と定義する。

（ステップ５）
対象端末へ配信される合成映像の画面分割レイアウトを指示するための第２の領域管理テーブルを生成する（Ｓ１５）。この第２の領域管理テーブルを対象領域管理テーブルと定義する。対象領域管理テーブルでは、送信端末が配信している映像のサイズが大きくなるように設定する。例えば、送信領域管理テーブルで指定した対象端末が配信する映像のサイズと同じサイズとなるように、送信端末が配信している映像のサイズを調整する。また、大きくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上位階層になるように指定する。

（ステップ６）
送信領域管理テーブルと対象領域管理テーブルの情報を利用して、映像合成制御信号を生成し映像合成部に出力する（Ｓ１６）。

（ステップ７）
送信端末と対象端末に配信される合成音声を制御する音声合成制御信号を生成し音声合成部に出力する（Ｓ１７）。この際、送信端末へ配信される合成音声において、対象端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象端末へ配信される合成音声において、送信端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。

（ステップ８）
対象領域管理テーブルを含む合成映像制御パケットを生成し、対象端末に送信する（Ｓ１８）。

図３２は、処理手順例２の流れを説明するフローチャートである。

[処理手順例２]
（ステップ１）
合成映像制御パケットがどの会議端末が送信したものかを判断する（Ｓ２１）。送信した端末を送信端末と定義する。

（ステップ２）
合成映像制御パケットから領域管理テーブルを抽出する（Ｓ２２）。これを送信領域管理テーブルと定義する。

（ステップ３）
領域管理テーブルを解析し、送信端末が、送信端末に配信される合成映像の画面分割レイアウトをどのように変更したいのかを認識する（Ｓ２３）。本実施形態の場合、図１６に示した領域管理テーブルから、合成映像を生成する各映像のサイズおよび配置位置を解析することができる。

（ステップ４）
ステップ３で認識した各映像のサイズを利用して、送信端末がサイズを大きくするように指示した映像を配信している会議端末を識別する（Ｓ２４）。この映像を配信している会議端末を対象端末と定義する。また、送信端末と対象端末以外の端末を対象外端末と定義する。

（ステップ５）
対象端末および対象外端末へ配信される合成映像の画面分割レイアウトを指示するための第２の領域管理テーブルと第３の領域管理テーブルを生成する（Ｓ２５）。この第２の領域管理テーブルを対象領域管理テーブルと定義し、第３の領域管理テーブルを対象外領域管理テーブルと定義する。対象領域管理テーブルでは、送信端末が配信している映像のサイズが大きくなるように設定する。例えば、送信領域管理テーブルで指定した対象端末が配信する映像のサイズと同じサイズとなるように、送信端末が配信している映像のサイズを調整する。また、大きくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上面になるように指定する。一方、対象外領域管理テーブルでは、送信端末が配信している映像のサイズと、対象端末が配信している映像のサイズが小さくなるように設定する。例えば、送信端末と対象端末が配信している映像のサイズが最小となるように調整する。また、小さくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上位階層、対象端末の映像が第２階層になるように指定する。

（ステップ６）
送信領域管理テーブルと対象領域管理テーブルと対象外領域管理テーブルの情報を利用して、映像合成制御信号を生成し映像合成部に出力する（Ｓ２６）。

（ステップ７）
送信端末と対象端末と対象外端末とに配信される合成音声を制御する音声合成制御信号を生成し音声合成部に出力する（Ｓ２７）。この際、送信端末へ配信される合成音声において、対象端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象端末へ配信される合成音声において、送信端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象外端末へ配信される合成音声において、送信端末から配信される音声の音量と対象端末から配信される音声の音量が小さくなるようにパラメータを調整しておく。

（ステップ８）
対象領域管理テーブルを含む合成映像制御パケットを生成し、対象端末に送信する（Ｓ２８）。また、対象外領域管理テーブルを含む合成映像制御パケットを生成し、対象外端末に送信する。

以上のレイアウト変更指示解析部１３内の処理手順例１の結果、例えば、図６に示したようにユーザAが自身の会議端末２１に配信される合成映像においてユーザBの表示サイズを大きくする（160×120ピクセルから240×180ピクセルに変更する）と、多地点接続装置１の映像合成部１１が会議端末２１にはユーザBが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２２にはユーザＡが大きくなった（240×180ピクセルに変更した）合成映像を生成し、それぞれを配信することが可能となる。また、それと同時に、多地点接続装置１の音声合成部１２が会議端末２１にはユーザBの音声が大きくなった（ユーザBの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２２にはユーザAの音声が大きくなった（ユーザAの声が２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを配信することが可能となる。

また、レイアウト変更指示解析部１３内の処理手順例２の結果、例えば、図７に示したようにユーザAが自身の会議端末２１に配信される合成映像においてユーザBの表示サイズを大きくする（160×120ピクセルから240×180ピクセルに変更する）と、多地点接続装置１の映像合成部１１が会議端末２１にはユーザBが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２２にはユーザＡが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２３と会議端末２４にはユーザAとユーザBが小さくなった（80×60ピクセルに変更した）合成映像を生成し、それぞれを配信することが可能となる。また、それと同時に、多地点接続装置１の音声合成部１２が会議端末２１にはユーザBの音声が大きくなった（ユーザBの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２２にはユーザAの音声が大きくなった（ユーザAの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２３と会議端末２４にはユーザAとユーザBの音声が小さくなった（ユーザAとユーザBの声が１／２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを配信することが可能となる。

なお、本実施形態では会議端末を４台として説明したが、台数はこれに限ったものではなく、４台より多くても少なくてもよい。会議端末の台数が多い場合は、多地点接続装置１内の対応する構成要素を増やすことで対応可能である。

本実施形態では会議端末２１〜２４が送信する映像のサイズは全て３２０×２４０ピクセルとして説明してきたが、各会議端末が送信する映像のサイズが異なるものであっても良い。その場合は多地点接続装置１の映像合成部１１へ映像を入力する前に、例えば図２４(a)に示すような映像サイズ判定部７１に映像を入力して映像のサイズを調べ、更に映像サイズ変更部７２に入力してサイズを３２０×２４０ピクセルに変更するといった工夫により、同一のサイズにすることができる。

本実施形態では会議端末２１〜２４が送信する音声の平均音量は等しいものと仮定しているが、各会議端末が送信する音声の平均音量が異なるものであっても良い。その場合は多地点接続装置１の音声合成部１２へ音声を入力する前に、例えば図２４(b)に示すような音量レベル判定部８１に音声を入力して音声の平均音量を調べ、更に音量レベル変更部８２に入力して平均音量を規定の値にするといった工夫により、同一の平均音量にすることができる。

また、図２５に、図９と異なる会議端末２１のシステム構成例を示す。図２５の例では、ノースブリッジとサウスブリッジ間がＰＣＩバスで接続されており、ＰＣＩバスにカメラコントローラ、サウンドコントローラ、ＬＡＮコントローラが接続されている。カメラコントローラは映像取得プログラムによって制御され、サウンドコントローラは音声取得プログラムや音声再生プログラムによって制御され、ＬＡＮコントローラはネットワーク送受信プログラムによって制御されることで、図９の場合と同様に動作する。

また、図２６に、図１２と異なる多地点接続装置１のシステム構成例を示す。図２６の例では、サウスブリッジがＰＣＩコントローラを備え、ＰＣＩコントローラにより制御されるＰＣＩバスに、４つの映像コーデックデバイス、４つの音声コーデックデバイス、１つの映像合成デバイス、１つの音声合成デバイスを接続している。映像コーデックデバイスは先に説明した映像圧縮プログラムと映像伸長プログラムの処理の一部をハードウェアで行うものであり、映像圧縮プログラムや映像伸長プログラムがすべての処理をソフトウェアとして行う場合に比べて、ＣＰＵの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。音声コーデックデバイスは先に説明した音声圧縮プログラムと音声伸長プログラムの処理の一部をハードウェアで行うものであり、音声圧縮プログラムや音声伸長プログラムがすべての処理をソフトウェアとして行う場合に比べて、ＣＰＵの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。また、映像合成デバイスは先に説明した映像合成プログラムの処理の一部をハードウェアで行うものであり、映像合成プログラムがすべての処理をソフトウェアとして行う場合に比べて、ＣＰＵの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。また、音声合成デバイスは先に説明した音声合成プログラムの処理の一部をハードウェアで行うものであり、音声合成プログラムがすべての処理をソフトウェアとして行う場合に比べて、ＣＰＵの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。

以上、本発明の第１実施形態として、多地点接続装置１、および、会議端末２１〜２４の詳細構成と動作、および、これらから構成されるテレビ会議システムについて示した。

実際の会議では、会議中に内輪での相談、確認などの局所的な会話（秘話）を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。

例えば、あるユーザＡが自機器に配信される合成映像において、その合成映像内に表示されている相手のうち、局所的な会話を行いたいユーザＢの顔画像の表示が大きくなるように制御を行うことで、ユーザＢとの仮想的な距離感を縮める。この際、ユーザＢ側においてもユーザＡの顔が大きく表示されるように自動的に制御されるため、ユーザＢもユーザＡとの仮想的な距離感が縮まる。この状態では、ユーザＢに配信される合成音声のうちユーザＡの音声のみが強調されて合成されており、また、ユーザＡに配信される合成音声のうちユーザＢの音声のみが強調されて合成されている。すなわち、距離感を縮めた後は、ユーザＡ，ユーザＢは通常よりも小さい声で会話を行ったとしても当事者間の会話は強調された結果聞こえやすくなる。一方、他のユーザはユーザＡおよびユーザＢの会話はそのまま小さい声として聞こえる。本発明により、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。

ここで、前述した図６の例では、会議端末２１においてユーザＢの顔を大きく表示するとともに、会議端末２１（ユーザＡ）に配信される合成音声のうちユーザＢの音声を強調するようにしたが、ユーザＢの顔のサイズを変更せずに、ユーザＢの音声のみを強調するように制御してもよい。会議端末２２（ユーザＢ）についても同様に、ユーザＡの顔のサイズを変更せずに、ユーザＡの音声のみを強調するように制御してもよい。

また、図７の例では、ユーザＡに配信される合成音声におけるユーザＢの音声ならびにユーザＢに配信される合成音声におけるユーザＡの音声を強調しつつ、ユーザＣに配信される合成音声におけるユーザＡ、Ｂの音声ならびにユーザＤに配信される合成音声におけるユーザＡ、Ｂの音声を小さくした。しかしながら、ユーザＡに配信される合成音声におけるユーザＢの音声レベルならびにユーザＢに配信される合成音声におけるユーザＡの音声レベルを変更することなく、ユーザＣに配信される合成音声におけるユーザＡ、Ｂの音声ならびにユーザＤに配信される合成音声におけるユーザＡ、Ｂの音声を小さくするように制御してもよい。

なお、本実施形態では、会議端末側に表示される合成映像において局所的な会話を行いたい相手の顔画像の表示を大きくする操作方法の具体例として、「矩形の枠の変更処理」について述べたが、その操作方法はこれに限るものではない。例えば、相手を選択するという操作として、局所的な会話を行いたい相手の顔画像の上で“クリック”を行うと、合成映像内のどこでクリックがなされたかを示す位置情報を会議端末から多地点接続装置に送り、多地点接続装置側でその情報から局所的な会話を行う当事者を検出して、当事者に対してそれぞれの顔画像のサイズを調整した合成映像を生成して配信することや、それぞれの音声の音量を調整した合成音声を生成して配信することも可能である。左クリックで当事者の顔画像のサイズや音量が2倍、あるいは、最大になるように制御し、左クリックで大きくした顔画像や音量を右クリックにより１／２倍、あるいは、元に戻すように制御しても良い。

更に、本実施形態では、局所的な会話を行う当事者には、それぞれの顔画像が大きくなった合成映像を生成して配信するとしたが、相手を選択するという操作に対しては当事者の顔画像を大きくする方法に限らなくてもよい。例えば、その当事者の顔画像に枠を表示した合成映像を生成して配信しても良いし、当事者以外の顔画像の色調を下げて暗くし、当事者のみが強調されるような合成映像を生成して配信しても良い。

（第２実施形態）
以下、図面を参照して本発明の第２実施形態を示す。

本実施形態の会議端末２１〜２４、および、多地点接続装置１の構成は第１実施形態で示したものと同じであり、第１実施形態に対し、レイアウト変更指示解析部１３の機能を追加したものである。

図７は会議端末２１〜２４、および、多地点接続装置１に第１実施形態で説明した本発明を実装した場合の動作結果の一例であり、会議端末２１から受信した合成映像のレイアウト変更パラメータを多地点接続装置１のレイアウト変更指示解析部１３が解析し、レイアウト変更指示解析部１３の解析結果に従い映像合成部１１と音声合成部１２が動作した結果を示している。ユーザAが自身の会議端末２１に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置１のレイアウト変更指示解析部１３の解析結果に従い映像合成部１１が会議端末２１にはユーザBが大きくなった（例えば、240×180ピクセルに変更した）合成映像を生成し、会議端末２２にはユーザＡが大きくなった（例えば、240×180ピクセルに変更した）合成映像を生成し、会議端末２３と会議端末２４にはユーザAとユーザBが小さくなった（80×60ピクセルに変更した）合成映像を生成し、それぞれを配信する。また、それに加えて、多地点接続装置１の音声合成部１２が会議端末２１にはユーザBの音声が大きくなった（ユーザBの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２２にはユーザAの音声が大きくなった（ユーザAの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２３と会議端末２４にはユーザAとユーザBの音声が小さくなった（ユーザAとユーザBの声が１／２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを配信する。

図２７は、図７の状態で会議端末２３のユーザＣが、自身に配信されている合成映像のレイアウトを見てユーザＡとユーザＢが小さく表示されていることから「ユーザＡとユーザＢが局所的な会話を行っている」ことを認識した状態で、ユーザＢの表示を大きくする操作を行い、多地点接続装置１からユーザＢの表示が大きくなった合成映像を受信した状態である。

図２８は図２７の直後の状態を示す第１の例である。レイアウト変更指示解析部１３は、会議端末２３からのレイアウト変更パラメータを受信した結果、ユーザＣがユーザＡとユーザＢの局所的な会話の中断を要求していると判断し、会議端末２１〜２４に対し、図３で示した状態と同じくテレビ会議システムを４人で開始した最初の状態になるように合成映像（MV1〜MV4）、合成音声（MA1〜MA4）をそれぞれ生成し、配信する。

一方、図２９は図２７の直後の状態を示す第２の例である。レイアウト変更指示解析部１３は、会議端末２３からのレイアウト変更パラメータを受信した結果、ユーザＣがユーザＡとユーザＢの局所的な会話への参加を要求していると判断する。多地点接続装置１のレイアウト変更指示解析部１３の指示に従い映像合成部１１が会議端末２１にはユーザBとユーザＣが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２２にはユーザＡとユーザＣが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２３にはユーザＡとユーザＢが大きくなった（240×180ピクセルに変更した）合成映像を生成し、会議端末２４にはユーザAとユーザBとユーザＣが小さくなった（80×60ピクセルに変更した）合成映像を生成し、それぞれを配信する。また、それに加えて、多地点接続装置１のレイアウト変更指示解析部１３の指示に従い音声合成部１２が会議端末２１にはユーザBとユーザＣの音声が大きくなった（ユーザBとユーザＣの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２２にはユーザAとユーザＣの音声が大きくなった（ユーザAとユーザＣの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２３にはユーザＡとユーザＢの音声が大きくなった（ユーザAとユーザＢの声が２倍の大きさで重ねあわせた）合成音声を生成し、会議端末２４にはユーザAとユーザBとユーザＣの音声が小さくなった（ユーザAとユーザBとユーザＣの声が１／２倍の大きさで重ねあわせた）合成音声を生成し、それぞれを配信する。

実際の会議では、会議中に内輪での相談、確認などの局所的な会話（秘話）を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。本発明により、他の会議参加者は局所的な会話が行われていることを認識し、必要に応じて、その局所的な会話を終了させることや、また、局所的な会話に参加することが可能である。

なお、図３０は図１に示した多地点接続装置１の代わりに、音声合成機能を含まない映像通信用多地点接続装置１−ｖと、映像合成機能を含まない音声通信用多地点接続装置１−ａを用いた場合の例である。映像通信用多地点接続装置１−ｖ、および、音声通信用多地点接続装置１−ａともに、本発明の構成要素を持つ。図３０では、映像通信用多地点接続装置１−ｖのレイアウト変更指示解析部１３で生成された音声合成制御信号がネットワークを介して音声通信用多地点接続装置１−ａ内の音声合成部１２へ入力される。このような構成でも本発明を適用可能であり、第１実施形態、第２実施形態で説明した同じ効果を得ることができる。

本発明は上記実施形態をそのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１実施形態に係るテレビ会議システムのシステム構成図。本発明の第１実施形態に係るテレビ会議システムの各端末をユーザが操作する様子示す図。本発明の第１実施形態に係るテレビ会議開始時の入力映像、入力音声、合成映像、合成音声の様子を示す図。本発明の第１実施形態に係る映像のサイズと、音声の平均音量の説明に用いる図。本発明の第１実施形態に係るユーザＡが合成映像のレイアウト変更の変更作業を行った様子を示す図。本発明の第１実施形態に係るユーザＡが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第１の例を示す図。本発明の第１実施形態に係るユーザＡが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第２の例を示す図。本発明の第１実施形態に係る会議端末２１の外観の一例を示す図。本発明の第１実施形態に係る会議端末２１のシステム構成の一例を示す図。本発明の第１実施形態に係る会議端末２１のシステム構成においてハードディスクドライブに格納されたアプリケーションプログラムを示す図。本発明の第１実施形態に係る多地点接続装置１の外観の一例を示す図。本発明の第１実施形態に係る多地点接続装置１のシステム構成の一例を示す図。本発明の第１実施形態に係る多地点接続装置１のシステム構成においてハードディスクドライブに格納されたアプリケーションプログラムを示す図。本発明の第１実施形態に係る会議端末２１の内部構成を示す図。本発明の第１実施形態に係るレイアウト変更指示部３００の内部構成を示す図。本発明の第１実施形態に係る領域管理テーブルの初期化状態を示す図。本発明の第１実施形態に係る合成映像内に配置する位置と、サイズを説明するための図。本発明の第１実施形態に係る合成映像制御パケットのペイロード部の一例を示す図。本発明の第１実施形態に係る会議端末２１の表示画面２１００を示す図。本発明の第１実施形態に係る領域管理テーブルが変更された状態の一例を示す図。本発明の第１実施形態に係る多地点接続装置１の内部構成を示す図。本発明の第１実施形態に係る合成映像部１１の内部構成の一例を示す図。本発明の第１実施形態に係る音声合成部１２の内部構成の一例を示す図。本発明の第１実施形態に係る入力映像のサイズや入力音声の音量を調整するための追加構成要素を説明するための図。本発明の第１実施形態に係る会議端末２１のシステム構成の別の例を示す図。本発明の第１実施形態に係る多地点接続装置１のシステム構成の別の例を示す図。本発明の第２実施形態に係るユーザＣが合成映像のレイアウト変更の変更作業を行った様子を示す図。本発明の第２実施形態に係るユーザＣが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第１の例を示す図。本発明の第２実施形態に係るユーザＣが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第２の例を示す図。本発明の第１実施形態、あるいは、第２実施形態に係るテレビ会議システムのシステム構成の別の例を示す図。本発明の第１実施形態にかかるレイアウト変更指示解析部１３内の処理手順例１を説明するフローチャート。本発明の第１実施形態にかかるレイアウト変更指示解析部１３内の処理手順例２を説明するフローチャート。

符号の説明

１、１−ｖ、１−ａ ‥‥ 多地点接続装置（映像合成装置）
２１、２２、２３，２４ ‥‥ 会議端末
Vc21-1、Vc21-2、Vc22-1、Vc22-2、Vc23-1、Vc23-2、Vc24-1、Vc24-2、Ac21-1、Ac21-2、Ac22-1、Ac22-2、Ac23-1、Ac23-2、Ac24-1、Ac24-2、Cc21-1、Cc22-1、Cc23-1、Cc24-1 ‥‥ 通信路
ユーザＡ、ユーザＢ、ユーザＣ、ユーザＤ ‥‥ ユーザ（会議端末の操作、利用者）
Ｖ１、Ｖ２、Ｖ３、Ｖ４ ‥‥ 入力映像
Ａ１、Ａ２、Ａ３、Ａ４ ‥‥ 入力音声
ＭＶ１、ＭＶ２、ＭＶ３、ＭＶ４ ‥‥ 合成映像
ＭＡ１、ＭＡ２、ＭＡ３、ＭＡ４ ‥‥ 合成音声
Camera-21、Camera-22、Camera-23、Camera-24 ‥‥ カメラデバイス
Microphone-21、Microphone -22、Microphone -23、Microphone -24 ‥‥ マイクデバイス
Speaker-21、Speaker -22、Speaker -23、Speaker -24 ‥‥ スピーカデバイス
Monitor-21、Monitor -22、Monitor -23、Monitor -24 ‥‥ 表示デバイス
２１―１ ‥‥ コンピュータ本体
２１―２ ‥‥ ディスプレイユニット
２１―３ ‥‥ ポインティングデバイス
２１−４、１−４ ‥‥ ネットワーク通信デバイス
２１００ ‥‥ 表示画面
２１０１ ‥‥ ウィンドウ
２００ ‥‥ ポインタ
１０００ ‥‥ 表示領域
２０００ ‥‥ 矩形の枠
１１ ‥‥ 映像合成部
１２ ‥‥ 音声合成部
１３ ‥‥ レイアウト変更指示解析部
３１、３２、３３、３４ ‥‥ 映像縮小回路
４１、４２、４３、４４ ‥‥ 映像合成回路
５１、５２、５３、５４ ‥‥ 音量調整回路
６１、６２、６３、６４ ‥‥ 音声合成回路
７１ ‥‥ 映像サイズ判定部
７２ ‥‥ 映像サイズ変更部
８１ ‥‥ 音量レベル判定部
８２ ‥‥ 音量レベル変更部
１０１、２１１ ‥‥ ネットワーク送受信部
１０２−１、１０２−２、１０２−３、１０２−４、２１２ ‥‥ 映像圧縮部
１０３−１、１０３−２、１０３−３、１０３−４、２１３ ‥‥ 映像伸長部
１０４−１、１０４−２、１０４−３、１０４−４、２１４ ‥‥ 音声圧縮部
１０５−１、１０５−２、１０５−３、１０５−４、２１５ ‥‥ 音声伸長部
２１６ ‥‥ 映像取得部
２１７ ‥‥ 映像再生部
２１８ ‥‥ 音声取得部
２１９ ‥‥ 音声再生部
３００ ‥‥ レイアウト変更指示部
３０１ ‥‥ ポインタ検出部
３０２ ‥‥ 領域検出部
３０３ ‥‥ 枠表示部
３０４ ‥‥ テーブル管理部
３０５ ‥‥ 制御データ生成部
３０６ ‥‥ 制御データ送信処理部

Claims

第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信する映像受信部と、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成する映像合成部と、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信する映像送信部と、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信する音声受信部と、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成する音声合成部と、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信する音声送信部と、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声合成部に与える合成音声制御部と、
を備えた映像合成装置。
前記音声制御部は、前記映像選択情報が受信されたとき、前記第１および第２の合成音声に含める第３の音声の音声レベルを小さくすることをさらに指示する前記音声合成制御信号を生成することを特徴とする請求項１に記載の映像合成装置。
前記映像選択情報が受信されたとき、前記第１の合成映像に含める前記第２の映像のサイズ、前記第２の合成映像に含める前記第１の映像のサイズを大きくすることを指示する映像合成制御信号を生成し、生成した前記映像合成制御信号を前記映像合成部に与える映像制御部をさらに備えたことを特徴とする請求項１に記載の映像合成装置。
前記映像選択情報が受信されたとき、前記第３の合成映像に含める第１および第２の映像を小さくすることを指示する映像合成制御信号を生成し、生成した映像合成制御信号を前記映像合成部に与える映像制御部をさらに備えたことを特徴とする請求項１に記載の映像合成装置。
前記映像選択情報受信部は、前記第３の端末から前記第１または第２の映像を選択したことを示す映像選択情報を受信し、
前記映像制御部は、前記映像選択情報が受信されたとき、前記第３の合成映像に含める前記第１および第２の映像のサイズを元のサイズに戻すことを指示する映像合成制御信号を生成し、生成した前記映像合成制御信号を前記映像合成部に与え、
前記音声制御部は、前記映像選択情報が受信されたとき、前記第３の合成音声に含める第１および第２の音声の音声レベルを元の音声レベルに戻すことを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声制御部に与える、
ことを特徴とする請求項４に記載の映像合成装置。
前記第２の映像を選択したことを表す前記前記映像選択情報は、前記第１の合成映像に含める前記第２の映像のサイズを大きくすることを指示するものであることを特徴とする請求項１ないし５のいずれか一項に記載の映像合成装置。
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信し、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成し、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信し、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信し、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成し、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信し、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信したら、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くする、
映像合成方法。
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信するステップと、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成するステップと、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信するステップと、
前記第１〜第３の端末から第１〜第３の音声を表す第１〜第３の音声データを受信するステップと、
前記第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成するステップと、
前記第１〜第３の合成音声データを前記第１〜第３の端末に送信するステップと、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信するステップと、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くするように音声合成を制御するステップと、
をコンピュータに実行させるためのプログラム。
第１〜第３の端末から送信される第１〜第３の音声を表す第１〜第３の音声データを合成して第１〜第３の合成音声を表す第１〜第３の合成音声データを生成し、生成した前記第１〜第３の合成音声データを前記第１〜第３の端末に送信する音声合成装置と通信可能な映像合成装置であって、
第１〜第３の端末から第１〜第３の映像を表す第１〜第３の映像データを受信する映像受信部と、
前記第１〜第３の映像データを合成して第１〜第３の合成映像を表す第１〜第３の合成映像データを生成する映像合成部と、
前記第１〜第３の合成映像データを前記第１〜第３の端末に送信する映像送信部と、
前記第１の端末から前記第２の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第３の合成音声に含める前記第１および第２の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した前記音声合成制御信号を前記音声合成装置に送信する音声制御部と、
を備えた映像合成装置。