JP2009065696A - 映像合成装置、方法およびプログラム - Google Patents

映像合成装置、方法およびプログラム Download PDF

Info

Publication number
JP2009065696A
JP2009065696A JP2008276036A JP2008276036A JP2009065696A JP 2009065696 A JP2009065696 A JP 2009065696A JP 2008276036 A JP2008276036 A JP 2008276036A JP 2008276036 A JP2008276036 A JP 2008276036A JP 2009065696 A JP2009065696 A JP 2009065696A
Authority
JP
Japan
Prior art keywords
video
voice
synthesized
unit
terminals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008276036A
Other languages
English (en)
Inventor
Takuya Kawamura
村 卓 也 川
Naohisa Shibuya
谷 尚 久 渋
Nobuhiko Sugasawa
沢 延 彦 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2008276036A priority Critical patent/JP2009065696A/ja
Publication of JP2009065696A publication Critical patent/JP2009065696A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことを可能とする。
【解決手段】本発明の一態様としての映像合成方法は、第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信し、前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成し、前記第1〜第3の合成映像データを前記第1〜第3の端末に送信し、前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信し、前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成し、前記第1〜第3の合成音声データを前記第1〜第3の端末に送信し、前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信したら、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くする、ことを特徴とする。
【選択図】図1

Description

本発明は、ネットワーク接続された複数の端末装置に合成映像と合成音声を配信する映像合成装置(多地点接続装置)、および、映像合成装置が配信する合成映像と合成音声の制御方法に関するものである。
多地点接続装置(MCU: Multipoint Control Unit)を利用して秘話通信を実現する方法が提案されている(特開平10-224485号公報)。ある端末が、映像と音声をMCUに送信する際に、誰と秘話通信を行いたいかを示す秘話識別信号を送信する。MCU側は、受信したそれぞれの情報を映像合成部、音声合成部、データ合成部(秘話識別信号合成)へ入力し、合成映像、合成音声、合成秘話識別信号を各端末へ配信する。各端末は合成映像、合成音声、合成秘話識別信号を受信し、合成秘話識別信号を解析した結果、自分が秘話通信の対象になっていれば映像と音声を再生する。秘話通信の対象外であれば、映像と音声の再生を中断する。
特開平10-224485 号公報
実際の会議では、会議中に内輪での相談、確認などの局所的な会話(秘話)を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。一方、他の会議参加者は局所的な会話が行われていることを認識し、必要に応じて、その局所的な会話を終了させることや、また、局所的な会話に参加することが可能である。
本発明は、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことができるようにした映像合成装置、方法およびプログラムを提供する。
本発明の一態様としての映像合成装置は、
第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信する映像受信部と、
前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成する映像合成部と、
前記第1〜第3の合成映像データを前記第1〜第3の端末に送信する映像送信部と、
前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信する音声受信部と、
前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成する音声合成部と、
前記第1〜第3の合成音声データを前記第1〜第3の端末に送信する音声送信部と、
前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声合成部に与える合成音声制御部と、
を備える。
本発明の一態様としての映像合成方法は、
第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信し、
前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成し、
前記第1〜第3の合成映像データを前記第1〜第3の端末に送信し、
前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信し、
前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成し、
前記第1〜第3の合成音声データを前記第1〜第3の端末に送信し、
前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信したら、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くすることを特徴とする。
本発明の一態様としてのプログラムは、
第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信するステップと、
前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成するステップと、
前記第1〜第3の合成映像データを前記第1〜第3の端末に送信するステップと、
前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信するステップと、
前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成するステップと、
前記第1〜第3の合成音声データを前記第1〜第3の端末に送信するステップと、
前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信するステップと、
前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くするように音声合成を制御するステップと、
をコンピュータに実行させる。
本発明の一態様としての映像合成装置は、
第1〜第3の端末から送信される第1〜第3の音声を表す第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成し、生成した前記第1〜第3の合成音声データを前記第1〜第3の端末に送信する音声合成装置と通信可能な映像合成装置であって、
第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信する映像受信部と、
前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成する映像合成部と、
前記第1〜第3の合成映像データを前記第1〜第3の端末に送信する映像送信部と、
前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した前記音声合成制御信号を前記音声合成装置に送信する音声制御部と、
を備える。
本発明により、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。
まず本発明の実施形態の概要について説明すると簡単には以下の通りである。
例えば、あるユーザAが自機器に配信される合成映像において、その合成映像内に表示されている相手のうち、局所的な会話を行いたいユーザBの顔画像の表示が大きくなるように制御を行うことで、ユーザBとの仮想的な距離感を縮める。この際、ユーザB側においてもユーザAの顔が大きく表示されるように自動的に制御されるため、ユーザBもユーザAとの仮想的な距離感が縮まる。この状態では、ユーザBに配信される合成音声のうちユーザAの音声のみが強調されて合成されており、また、ユーザAに配信される合成音声のうちユーザBの音声のみが強調されて合成されている。すなわち、距離感を縮めた後は、ユーザA,ユーザBは通常よりも小さい声で会話を行ったとしても当事者間の会話は強調された結果聞こえやすくなる。一方、他のユーザはユーザAおよびユーザBの会話はそのまま小さい声として聞こえる。このようにしてテレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。
(第1実施形態)
以下、図面を参照して本発明の第1実施形態を示す。
まず、本発明を用いたテレビ会議システムを説明し、その効果を説明する。
図1にテレビ会議システムの構成例を示す。図1の構成例では、4つの会議端末21、22、23、24と多地点接続装置1がそれぞれネットワーク接続されている。図1に示す本発明の多地点接続装置1は、主要構成要素として、映像合成部11、音声合成部12、レイアウト変更指示解析部13を備えている。レイアウト変更指示解析部13は例えば映像制御部および音声制御部に相当する。
各会議端末(21〜24)はそれぞれ、入力映像(V1〜V4)を取り込むためのカメラデバイス(Camera-21〜Camera-24)、入力音声(A1〜A4)を取り込むためのマイクデバイス(Microphone-21〜Microphone -24)、合成映像(MV1〜MV4)を表示するための表示デバイス(Monitor-21〜Monitor-24)、合成音声(MA1〜MA4)を再生するためのスピーカデバイス(Speaker-21〜Speaker-24)を備える。一方、多地点接続装置1は、入力映像を合成し、合成映像として出力する映像合成部11と、入力音声を合成し、合成音声として出力する音声合成部12と、レイアウト変更指示解析部13を備える。レイアウト変更指示解析部13は、映像合成制御信号を生成し映像合成部11に入力することで、映像合成部11が生成する合成映像の合成方法を制御できるものとする。また、本発明では、このレイアウト変更指示解析部13が、音声合成制御信号を生成し音声合成部12に入力することで、音声合成部12が生成する合成音声の合成方法を制御できるものとする。会議端末21と多地点接続装置1間には、会議端末21から映像を送信するための通信路Vc21-1と多地点接続装置1から合成映像を送信するための通信路Vc21-2、会議端末21から音声を送信するための通信路Ac21-1と多地点接続装置1から合成した音声を送信するための通信路Ac21-2、また、会議端末21と多地点接続装置1との間で、映像を合成する際のパラメータを送受信するための通信路Cc-21が存在する。ここで、会議端末21から送信する映像を合成する際のパラメータとは、多地点接続装置1が会議端末21に送信する合成映像の画面分割レイアウトを変更するためのもの(以後、レイアウト変更パラメータと呼ぶ)である。すなわち、会議端末21からレイアウト変更パラメータを送信することで自身に配信される合成映像の画面分割レイアウトを自由に変更できる。会議端末22と多地点接続装置1間,会議端末23と多地点接続装置1間,会議端末24と多地点接続装置1間も同様に映像、音声、レイアウト変更パラメータを送受信するための通信路を備える。レイアウト変更パラメータは例えば映像選択情報に相当する。
図2は、図1のテレビ会議システムでユーザA〜Dがそれぞれ会議端末21〜24を操作している様子を示している。ここで、ユーザAと会議端末21に注目した場合、テレビ会議システムを4人で開始した最初の状態では、入力映像V1はユーザAの顔の映像であり、入力音声A1はユーザAの声であり、合成映像MV1はユーザA、B、C、Dの4人の顔が並んだ映像であり、合成音声MA1はユーザA以外のB、C、Dの合わさった声であるとする。ユーザB,C,Dも同様であり、例えば、ユーザBと会議端末22に注目した場合、テレビ会議システムを4人で開始した最初の状態では、入力映像V2はユーザBの顔の映像であり、入力音声A2はユーザBの声であり、合成映像MV2はユーザA、B、C、Dの4人の顔が並んだ映像であり、合成音声MA2はユーザB以外のA、C、Dの合わさった声であるとする。
図3は、テレビ会議システムを4人で開始した最初の状態で、入力映像(V1〜V4)、入力音声(A1〜A4)、合成映像(MV1〜MV4)、合成音声(MA1〜MA4)を図示したものである。図3の例では、各入力映像と各合成映像の画像サイズは共に320ピクセル×240ピクセルで同じあるとしており、合成映像内において各入力映像は160ピクセル×120ピクセルに縮小された後に一つの映像を四分割する形で合成されている様子を示している。また、図3の例では、各入力音声の平均の音声レベルは同じで、合成音声を生成する際に3つの音声がそのまま重ねあわされるものとする。図4は、本実施形態で画像の大きさや音声の大きさを表現するために用いた図示方法を示すものである。映像の場合は、図4(a1)が320×240ピクセルの映像、図4(a2)が240×180ピクセルの映像、図4(a3)が160×120ピクセルの映像、図4(a4)が80×60ピクセルの映像である。音声の場合は、図4(b2)を基準の音声レベルとしており、図4(b1)は音声レベルが2倍、図4(b3)は音声レベルが1/2倍となった音声である。すなわち、映像、音声ともに表記の大きさが、映像サイズ、音声レベルに対応しているとする。
図5、図6、図7は、本発明を実施した結果を示すものである。例えば、会議端末21のユーザAが自身に配信されている図5(a)の合成映像の画面分割レイアウトを変更するために通信路Cc-21を介してレイアウト変更パラメータを送信したとする。変更後の画面分割レイアウトの合成映像が図5(b)となるように、すなわち、ユーザBの顔画像が大きく表示されるように(この場合は、320×240ピクセルの合成映像において、ユーザBの顔が240×180ピクセルになるように)変更処理を行ったとする。この場合、多地点接続装置1のレイアウト変更指示解析部13が会議端末21から受信したレイアウト変更パラメータを解析し、レイアウト変更指示解析部13から映像合成部11に制御信号を入力することで、会議端末21に配信する合成映像のレイアウトを図5(b)に変更するだけでなく、会議端末21がどの映像を大きくしたかを認識し、会議端末21以外の会議端末に配信する合成映像のレイアウトを自動的に変更する。また、レイアウト変更指示解析部13から音声合成部12に制御信号を入力することで、各会議端末に送信する合成音声も自動的に制御される。
図6は会議端末21から受信した合成映像のレイアウト変更パラメータを多地点接続装置1のレイアウト変更指示解析部13が解析し、レイアウト変更指示解析部13の解析結果に従い映像合成部11と音声合成部12が動作した結果の例を示している。ユーザAが自身の会議端末21に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置1の映像合成部11が会議端末21にはユーザBが大きくなった(例えば、240×180ピクセルに変更した)合成映像を生成し、会議端末22にはユーザAが大きくなった(例えば、240×180ピクセルに変更した)合成映像を生成し、それぞれを配信する。また、多地点接続装置1の音声合成部12が会議端末21にはユーザBの音声が大きくなった(ユーザBの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末22にはユーザAの音声が大きくなった(ユーザAの声が2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを配信する。会議端末21にユーザBの音声が大きくなった合成音声を配信し会議端末22にユーザAの音声が大きくなった合成音声を配信する代わりに、ユーザBの音声レベルを変えずにユーザC、Dの音声を小さくした合成音声を生成して会議端末21に配信し、ユーザAの音声レベルを変えずにユーザC、Dの音声を小さくした合成音声を生成して会議端末22に配信するようにしてもよい。
図7は会議端末21から受信した合成映像のレイアウト変更パラメータを多地点接続装置1のレイアウト変更指示解析部13が解析し、レイアウト変更指示解析部13の解析結果に従い映像合成部11と音声合成部12が動作した結果で図6とは別の例を示している。ユーザAが自身の会議端末21に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置1のレイアウト変更指示解析部13の解析結果に従い映像合成部11と音声合成部12が図6の場合の制御を行うのに加えて、映像合成部11は会議端末23と会議端末24にはユーザAとユーザBが小さくなった(例えば、80×60ピクセルに変更した)合成映像を生成して、音声合成部12が会議端末23と会議端末24にはユーザAとユーザBの音声が小さくなった(ユーザAとユーザBの声が1/2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを会議端末23と会議端末24に配信する。
以下、本発明の実施方法の詳細を説明する。
(会議端末について)
図8には本発明の一実施形態に係る会議端末21の構成の一例が示されている。本発明に係る会議端末21は、例えば、ノートブックタイプのポータブルパーソナルコンピュータ等により実現される。図8はポータブルパーソナルコンピュータにより実現した例を示している。なお、会議端末22、23、24も会議端末21と同様の構成とし、以下では説明を省略する。
図8はポータブルパーソナルコンピュータである会議端末21のディスプレイユニットを開いた状態における外観図である。本会議端末21は、コンピュータ本体21−1と、ディスプレイユニット21−2とから構成されている。ディスプレイユニット21−2は、コンピュータ本体21−1に対して開放位置と閉塞位置との間を回動自在に取り付けられている。ディスプレイユニット21−2には表示パネルを構成するLCD(Liquid Crystal Display)などの表示デバイスMonitor-21が組み込まれており、その表示デバイスMonitor-21はディスプレイユニット21−2のほぼ中央に位置されている。
コンピュータ本体21−1は薄い箱形の筐体を有しており、その上面にはポインティングデバイス21−3やキーボードが配置されている。さらに、コンピュータ本体21−1にはネットワーク通信デバイス21−4が内蔵されている。
このネットワーク通信デバイス21−4はネットワーク通信を実行するデバイスであり、例えばイーサネット(登録商標)として規定された通信を実行するように設計されている。あるいは、IEEE 802.11bや802.11aとして規定された無線通信を実行するように設計されている。ネットワーク通信デバイス21−4の通信動作は、会議端末21内で実行されるプログラムであるネットワーク送受信プログラム(図10参照)によって制御される。
このネットワーク送受信プログラムは、TCP/IP、UDPといったネットワークプロトコル処理に加えて、RTPによる映像データと音声データの送受信処理機能を有する。
また、コンピュータ本体21−1にはマイク入力と、スピーカ出力の端子があり、そこにマイクデバイスMicrophone-21やスピーカデバイスSpeaker-21、あるいは、マイクデバイスMicrophone-21とイヤホンとしてのスピーカデバイスSpeaker-21が一体となったヘッドセットを接続することができる。
このマイク入力端子に接続されたマイクデバイスMicrophone-21は音声を会議端末21に入力するためのデバイスである。マイクデバイスMicrophone-21の音声入力動作は、会議端末21内で実行されるプログラムである音声取得プログラム(図10参照)によって制御される。一方、このスピーカ出力端子に接続されたスピーカデバイスSpeaker-21は会議端末21から音声を出力するためのデバイスである。スピーカデバイスSpeaker-21の音声出力動作は、会議端末21内で実行されるプログラムである音声再生プログラム(図10参照)によって制御される。
また、コンピュータ本体21−1にはUSB接続端子があり、そこにカメラデバイスCamera-21を接続することができる。
このUSB接続端子に接続されたカメラデバイスCamera-21は映像を会議端末21に入力するためのデバイスである。カメラデバイスCamera-21の映像入力動作は、会議端末21内で実行されるプログラムである映像取得プログラム(図10参照)によって制御される。
合成映像MV1の表示動作は、会議端末21内で実行されるプログラムである映像再生プログラム(図10参照)によって制御される。また、ポインタ200の表示制御動作は、会議端末21内で実行されるプログラムであるポインタ表示プログラム(図10参照)によって制御される。表示デバイスMonitor-21の表示画面上には、多地点制御装置1から受信した合成映像MV1が表示される。ポインティングデバイス14を操作することで、例えば、合成映像MV1を表示するためのウィンドウ2101内で合成映像MV1が表示されている表示領域1000上で、ポインタ200の位置を動かすことや、左クリックや右クリックをすることができる。
図9には、会議端末21のシステム構成が示されている。会議端末21には、図示のように、CPU、ノースブリッジ(メモリーコントローラハブ)、主メモリ、サウスブリッジ(I/Oコントローラハブ)ハードディスクドライブ(HDD)などが内蔵され、ノースブリッジには表示コントローラ、サウスブリッジにはUSBコントローラ、サウンドコントローラ、LANコントローラが備わっている。
CPUは会議端末21の動作を制御するために設けられたプロセッサであり、ハードディスクドライブ(HDD)から主メモリにロードされたオペレーティングシステム(OS)および各種アプリケーションプログラムを実行する。図10にハードディスクドライブに格納されたアプリケーションプログラムを示す。この実施形態では、ネットワーク送受信プログラム、ポインタ表示プログラム、映像取得プログラム、映像再生プログラム、音声取得プログラム、音声再生プログラムに加えて、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、レイアウト変更指示プログラムがハードディスクドライブ(HDD)から主メモリにロードされ、CPUによって実行される。映像圧縮プログラムは、映像取得プログラムに従う処理で、映像取得プログラムにより取得した映像データをMPEG4などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは映像圧縮プログラムに従い圧縮符号化された映像データの送信を行う。映像伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったMPEG4などの形式に圧縮符号化された受信映像データを非圧縮の映像データに伸長復号化する処理を実行し、映像再生プログラムは映像伸長プログラムに従い非圧縮に変換された映像データの表示を行う。音声圧縮プログラムは、音声取得プログラムに従う処理で、音声取得プログラムにより取得した音声データをG.711などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは音声圧縮プログラムに従い圧縮符号化された音声データの送信を行う。音声伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったG.711などの形式に圧縮符号化された受信音声データを非圧縮の音声データに伸長復号化する処理を実行し、音声再生プログラムは音声伸長プログラムに従い非圧縮の音声データの再生を行う。レイアウト変更指示プログラムは、ポインタ表示プログラムに従う処理で、映像再生プログラムが表示している映像上で、ポインタ200の位置の移動や、左クリックや右クリックが実行された場合に、ポインティングデバイス21−3の操作から合成映像のレイアウトを計算し、計算したレイアウトを表すレイアウト変更パラメータを生成し、ネットワーク送受信プログラムを利用して多地点接続装置1へレイアウト変更パラメータを送信する一連の処理を実行する。このレイアウト変更指示プログラムの具体的な処理機能については後述する。
ノースブリッジはCPUのローカルバスとノースブリッジとサウスブリッジ間の高速バスとの間を双方向で接続するブリッジデバイスである。ノースブリッジには表示コントローラが内蔵されている。表示コントローラは会議端末21のディスプレイモニタとして使用される表示デバイスMonitor-21を制御する。この実施形態においては、表示コントローラは映像表示プログラムに従い表示デバイスMonitor-21に合成映像を表示する。
サウスブリッジはノースブリッジ側の高速バスとキーボード等を接続する低速バスとの間を双方向で接続するブリッジデバイスである。サウスブリッジには、USB(Universal Serial Bus)コントローラが内蔵されている。このUSBコントローラには、カメラデバイスCamera-21が接続される。カメラデバイスCamera-21は、映像取得プログラムの制御の下に、映像を撮影し、撮影した映像を会議端末21内で処理できるように電気信号に変換する。また、サウスブリッジにはサウンドコントローラも内蔵されている。このサウンドコントローラには、マイクデバイスMicrophone-21とスピーカデバイスSpeaker-21が接続される。マイクデバイスMicrophone-21は音声取得プログラムの制御の下に、音を集め、集音した音声を会議端末21内で処理できるように電気信号に変換する。スピーカデバイスSpeaker-21は音声再生プログラムの制御の下に、会議端末21内で電子信号として処理された音を音波として再生する。また、サウスブリッジには、LANコントローラも内蔵されている。このLANコントローラにはイーサネットの物理層デバイスなどのネットワーク通信デバイス21−4が接続されている。ネットワーク通信デバイス21−4は、ネットワーク送受信プログラムの制御の下に、送信データの変調、および受信データの復調を行う。
(多地点接続装置について)
図11には本発明の一実施形態に係る多地点接続装置1の構成の一例が示されている。本発明に係る多地点接続装置1は、例えば、サーバマシンとして利用可能な高性能なコンピュータ等により実現される。図11はタワー型のパーソナルコンピュータにより実現した例を示している。タワー型のパーソナルコンピュータである多地点接続装置1にはネットワーク通信デバイス1−4が内蔵されている。
このネットワーク通信デバイス1−4はネットワーク通信を実行するデバイスであり、例えばイーサネットとして規定された通信を実行するように設計されている。あるいは、IEEE 802.11bや802.11aとして規定された無線通信を実行するように設計されている。ネットワーク通信デバイス1−4の通信動作は、多地点接続装置1内で実行されるプログラムであるネットワーク送受信プログラム(図13参照)によって制御される。
このネットワーク送受信プログラムは、TCP/IP、UDPといったネットワークプロトコル処理に加えて、RTPによる映像データと音声データの送受信処理機能を有する。
図12には、多地点接続装置1のシステム構成が示されている。多地点接続装置1には、図示のように、CPU、ノースブリッジ(メモリーコントローラハブ)、主メモリ、サウスブリッジ(I/Oコントローラハブ)、ハードディスクドライブ(HDD)などが内蔵されている。
CPUは多地点接続装置1の動作を制御するために設けられたプロセッサであり、ハードディスクドライブ(HDD)から主メモリにロードされたオペレーティングシステム(OS)および各種アプリケーションプログラムを実行する。図13にハードディスクドライブに格納されたアプリケーションプログラムを示す。この実施形態では、ネットワーク送受信プログラムに加えて、映像合成プログラム、音声合成プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、レイアウト変更指示解析プログラムがハードディスクドライブ(HDD)から主メモリにロードされ、CPUによって実行される。
映像圧縮プログラムは、映像合成プログラムに従う処理で、映像合成プログラムにより生成された合成映像データをMPEG4などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは映像圧縮プログラムに従い圧縮符号化された映像データの送信を行う。
映像伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったMPEG4などの形式に圧縮符号化された受信映像データを非圧縮の映像データに伸長復号化する処理を実行し、映像合成プログラムは映像伸長プログラムに従い非圧縮の映像データを用いて合成映像の生成処理を行う。
音声圧縮プログラムは、音声合成プログラムに従う処理で、音声取得プログラムにより生成された合成音声データをG.711などの形式に圧縮符号化する処理を実行し、ネットワーク送受信プログラムは音声圧縮プログラムに従い圧縮符号化された音声データの送信を行う。
音声伸長プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったG.711などの形式に圧縮符号化された受信音声データを非圧縮の音声データに伸長復号化する処理を実行し、音声合成プログラムは音声伸長プログラムに従い非圧縮の音声データを用いて合成音声の生成処理を行う。
レイアウト変更指示解析プログラムは、ネットワーク送受信プログラムに従う処理で、ネットワーク送受信プログラムが受信処理を行ったレイアウト変更パラメータの解析処理を実行する。映像合成プログラムはレイアウト変更指示解析プログラムの解析結果に従い合成映像の画面分割レイアウトを変更する。また、レイアウト変更指示解析プログラムは、レイアウト変更パラメータの解析処理の際、合成音声を生成する際の各音声の音量のレベルを計算する。音声合成プログラムはレイアウト変更指示解析プログラムの計算結果に従い、合成音声の際の各音声の音量を調整する。
このレイアウト変更指示プログラム、映像合成プログラム、音声合成プログラムの具体的な処理機能については後述する。
なお、本実施形態において、多地点接続装置1における映像圧縮プログラム、映像伸長プログラムは、同時に4つの映像について独立に処理する。また、多地点接続装置1における音声圧縮プログラム、音声伸長プログラムは、同時に4つの音声について独立に処理する。また、映像合成プログラムは、4つの映像を利用して、4つの独立な合成映像の生成処理を行う。また、音声合成プログラムは、4つの音声を利用して、4つの独立な合成音声の生成処理を行う。また、ネットワーク送受信プログラムは、4台の会議端末それぞれと映像、音声の送受信処理、および、レイアウト変更パラメータの受信処理をそれぞれ独立に行う。
ノースブリッジはCPUのローカルバスとノースブリッジとサウスブリッジ間の高速バスとの間を双方向で接続するブリッジデバイスである。
サウスブリッジにはLANコントローラが内蔵されている。このLANコントローラにはイーサネットの物理層デバイスなどのネットワーク通信デバイス1−4が接続されている。ネットワーク通信デバイス1−4は、ネットワーク送受信プログラムの制御の下に、送信データの変調、および受信データの復調を行う。
(会議端末の内部構成)
図14に、図8、図9に示した会議端末21において本発明に関わる内部構成要素を示す。なお、図14では、本発明による機能改善を実現する上で直接影響を及ぼすことがない構成要素(例えばCPU等)の表記は省略している。
会議端末21は、その内部構成要素としてネットワーク送受信部211、映像圧縮部212、映像伸長部213、音声圧縮部214、音声伸長部215、映像取得部216、映像再生部217、音声取得部218、音声再生部219、レイアウト変更指示部300とを備える。上記ネットワーク送受信部211、映像圧縮部212、映像伸長部213、音声圧縮部214、音声伸長部215、映像取得部216、映像再生部217、音声取得部218、音声再生部219、レイアウト変更指示部300は、それぞれ図10に示すネットワーク送受信プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、映像取得プログラム、映像再生プログラム、音声取得プログラム、音声再生プログラム、レイアウト変更指示プログラムの処理ルーチンにより実現される。
映像再生部217は、内部で作成した描画データを図8に示す表示画面2100に表示させることが可能である。また、ネットワーク送受信部211は、図1で示した通信路Vc21-1を利用しての映像データの送信、通信路Vc21-2を利用しての映像データの受信、通信路Ac21-1を用いての音声データの送信、通信路Ac21-2を用いての音声データの受信、通信路Cc-21を用いての映像を合成する際のレイアウト変更パラメータの送受信が可能である。ネットワーク送受信部211は、通信プロトコルとして、例えば、UDP/IP,RTP等を利用して映像データ、音声データを送受信し、UDP/IPあるいはTCP/IPを利用して映像を合成する際のレイアウト変更パラメータの送信をする。
ネットワーク送受信部211は、映像データ、音声データをストリーミング形式で送受信し、その送受信の開始、終了を管理し、また、送受信する映像データ、音声データの識別が可能であり、適切な通信路を用いて映像データ、音声データの送受信を行う。ネットワーク送受信部211は、映像データを受信した際には、映像伸長部213へ出力し、音声データを受信した際には音声伸長部215へ出力する。
映像取得部216はカメラデバイスCamera-21を制御し、撮影の開始、撮影の終了を命令する。撮影を開始すると、カメラデバイスCamera-21が撮影している映像(V1)は映像データとして映像取得部216へ入力される。映像取得部216は入力された映像データを多地点制御装置1に送信するため、映像圧縮部214へ映像データを出力する。映像圧縮部214は、映像データが入力されるとそれをMPEG4にエンコード(圧縮)しネットワーク送受信部211へ出力する。ネットワーク送受信部211は圧縮された映像データに対し、ネットワークを介して多地点制御装置1へ送信するための処理を行った後、通信路Vc21-1を用いて送信を行う。
音声取得部218はマイクデバイスMicrophone-21を制御し、集音の開始、撮影の終了を命令する。集音を開始すると、マイクが集音している音声(A1)は音声データとして音声取得部218へ入力される。音声取得部218は入力された音声データを多地点制御装置1に送信するため、音声圧縮部214へ音声データを出力する。音声圧縮部214は、音声データが入力されるとそれをG.711にエンコード(圧縮)しネットワーク送受信部211へ出力する。ネットワーク送受信部211は圧縮された音声データに対し、ネットワークを介して多地点制御装置1へ送信するための処理を行った後、通信路Ac21-1を用いて送信を行う。
ネットワーク送受信部211は、Vc21-2からデータを受信すると、受信データに含まれている圧縮された映像データを映像伸長部213へ出力する。映像伸長部213は、圧縮された映像データが入力されると、それをデコード(伸長)して非圧縮の映像データを生成し、生成した非圧縮映像データを映像再生部217へ出力する。映像再生部217は、表示デバイスMonitor-21を制御して、アプリケーションとしてのウィンドウ2101を作成し表示する機能を備えており、表示可能な映像データが入力されると、ウィンドウ2101内の表示領域1000に映像データを「合成映像MV1」として表示する。
ネットワーク送受信部211は、Ac21-2からデータを受信すると、受信データに含まれている圧縮された音声データを音声伸長部215へ出力する。音声伸長部215は、圧縮された音声データが入力されると、それをデコード(伸長)して非圧縮の音声データを生成し、生成した非圧縮音声データを音声再生部219へ出力する。音声再生部219は、スピーカデバイスSpeaker-21を制御して入力された音声データを「合成音声MA1」として再生する。
以下、レイアウト変更指示部300の実施形態の一例を示す。
図15にレイアウト変更指示部300の構成要素を示す。レイアウト変更指示部300は、ポインタ検出部301、領域検出部302、枠表示部303、テーブル管理部304、制御データ生成部305、制御データ送信処理部306とから構成されている。
まず、レイアウト変更指示部300が初期化された場合の動作について説明する。
テーブル管理部304は、図16に示す領域管理テーブルを内部に作成し保持している。図16は初期化時の領域管理テーブルであり、多地点接続装置1が合成可能な4種類の映像(以後、映像ソースと呼ぶ)に対しそれらを識別するID(1,2,3,4)を割り当て、それぞれの配置位置を示すパラメータ情報x、y、w、h、Layerを含んでいる。x、y、w、hは、IDで識別する映像ソースを合成画像内に配置する位置と、映像ソースを矩形とした場合のサイズを示すものであり、図17を例として説明するとID=1の矩形の領域は、x = x1、y = y1、w = w1、h = h1となる。また、Layerは、多地点接続装置1が合成映像を作成する際に各映像ソースの上下関係を識別するための階層情報を示すものであり、例えば、第k層に位置する場合は、Layer = kであり、k層の映像ソースは、k-1層の映像ソースより1つ背面に位置し、もしk層とk-1層の映像ソースが重なった合成映像が作成された場合には、k層の映像ソースはk-1層の映像ソースによって隠れる部分が存在することになる。レイアウト変更指示部300が初期化された場合には、テーブル管理部304の管理する領域管理テーブルは図16の初期化時の状態になるものとする。
レイアウト変更指示部300が初期化された場合は、領域検出部302はテーブル管理部304から初期化状態の領域管理テーブル情報を取得し、領域管理テーブル情報を制御データ生成部305へ出力する。
制御データ生成部305は、領域検出部302から領域管理テーブル情報が入力されると、領域管理テーブル情報を多地点接続装置1へ伝えるための合成映像制御パケットのペイロード部分を構築する。図18に領域管理テーブル情報が初期化時の場合の合成映像制御パケットのペイロード部の例を示す。図18では、それぞれのブロックは8ビットの情報を示しており、ビット列を16進数で表現している。なお、図18では一行あたり6バイトで折り返して表記している。制御データ生成部305は、合成映像制御パケットを作成すると、制御データ送信処理部306へ出力する。
制御データ送信処理部306は、制御データ生成部305から合成映像制御パケットが入力されると、この制御パケットを多地点接続装置1へ送信するために必要となるネットワークのあて先アドレス情報などの付加情報と共にネットワーク送受信部211へ出力する。ネットワーク送受信部211は、制御データ送信処理部306から付加情報が付された合成映像制御パケットが入力されると、通信路Cc21を介してこの合成映像制御パケットをレイアウト変更パラメータとして多地点接続装置1へ送信する。
次に、レイアウト変更指示部300が初期化後にユーザによる操作が伴った場合の動作について説明する。
ポインタ検出部301は、ポインタ200が表示画面2100におけるウィンドウ2101内の合成映像MV1の表示領域1000上にあることを検出し、さらに、その位置にて操作イベントが発生した場合にそのイベントを検出する。操作イベントは、ポインティングデバイス21−3の操作によるクリックや、ダブルクリック、ドラッグアンドドロップ等により発生する。なお、図19に示すように、表示画面2100をX’Y’座標で管理することで、ポインタ検出部301は表示画面2100上におけるポインタ200の位置およびウィンドウ2101位置を管理することができる。ポインタ検出部301は、表示領域1000上にて操作イベントが発生したことを検出すると、ポインタ200の位置情報(X’Y’座標を利用して表現)と操作イベント情報(左クリック、左クリックや、右クリックの解除等)を領域検出部302へ出力する。
領域検出部302は、図19に示すように、ウィンドウ2101内の表示領域1000についてXY座標で管理している。領域検出部302は、有効な操作イベントの場合には、ポインタ検出部301から入力されたポインタ200の位置情報(X’Y’座標を利用して表現)をXY座標に変換し、変換した値をポインタ200の位置情報として認識する。一方、領域検出部302は、無効な操作イベントの場合には、ポインタ200の位置情報(X’Y’座標を利用して表現)と操作イベント情報は無視する。例えば、操作イベントとして左クリックと左クリックの解除のみを有効とすると、左クリックと左クリックの解除の場合にのみ、ポインタ200の位置情報解析を行う。図19を用いて、領域検出部302が管理するXY座標と表示領域1000の関係を説明する。XY座標の点を(x,y)として表現すると、領域検出部302は、表示領域1000の左上の頂点を(0,0)、右上の頂点を(100,0)、左下の頂点を(0,100)、右下の頂点を(100,100)というように管理している。つまり、領域検出部302は、表示領域1000の横方向、縦方向を100という値に正規化して表示領域1000上における位置を管理する。例えば、図19に示す、(x1,y1)の位置で左クリックが発生した場合に、領域検出部302は{x1,y1,イベントA}という情報を認識する。ここで、イベントAは、左クリックが行われたこと示しており、内部処理として{x1,y1,イベントA}という情報を「位置確認信号」と定義する。領域検出部302は位置確認信号{x1,y1,イベントA}を認識すると、テーブル管理部304から領域管理テーブル情報を取得し、領域管理テーブルの登録情報を確認する。x1,y1という位置情報が、領域管理テーブルで管理するいずれの矩形領域にも属さない点である場合には、領域検出部302は位置確認信号{x1,y1,イベントA}に関する処理を終了する。一方、x1,y1という位置情報が、領域管理テーブルが管理する複数の矩形領域に属する点である場合には、領域検出部302はLayerを確認し、最上位に位置する矩形領域のID番号と、それに関連する情報(x 、y 、w 、h 、Layer)を矩形領域情報{ID,x,y,w,h,Layer}として認識する。領域検出部302は、矩形領域情報{ID
,x,y,w,h,Layer}を認識するとその情報を内部に記憶すると共に、枠表示部303へ出力する。
枠表示部303は、領域検出部302から矩形領域情報{ID,x,y,w,h,Layer}が入力されると、x,y,w,hの値を利用し、XY座標で管理される表示画面2100におけるウィンドウ2101内の表示領域1000上に矩形の枠2000を表示させる。図19では、矩形領域情報{ ID = ID1,x = x1,y = y1,w = w1,h = h1,Layer = l1 }が入力された場合に、それに対応した矩形の枠2000が表示領域1000上に表示されている様子を示している。なお、矩形の枠2000は、図19に示した破線や点線以外にも、実線であってもよく、また、枠の表示色をID番号に応じて変化させても良い。なお、先に領域検出部302は、矩形領域情報{ID,x,y,w,h,Layer}を記憶するとしたが、領域検出部302は、記憶している矩形領域情報を削除した際には、矩形領域情報{ID,x,y,w,h,Layer}の削除命令を枠表示部303へ出力する。枠表示部303は削除命令が入力されると、指定された矩形の枠の表示を行わないように処理を実行する。領域検出部302は、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}については、その値が、所定の時間変更されなかった場合に記憶している矩形領域情報を削除するものとする。領域検出部302は、内部に複数の矩形領域情報を記憶できるものとしてもよいが、内部には一つのみ記憶可能とし新たな矩形領域情報を記憶する際に古い矩形領域情報を削除するものとしてもよい。なお、領域検出部302は、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}については、後述の「矩形の枠の変更処理」によって、その値を変更することができる。
ここで、ユーザが、ポインタ200の表示位置を移動させ、枠表示部303が表示した矩形の枠の大きさや位置を変化させる方法について述べる。ポインタ200の位置については、先に示したとおり、ポインタ検出部301が検出し、ポインタ200の位置情報(X’Y’座標を利用して表現)と操作イベント情報(左クリック、左クリックの解除や、右クリック等)を領域検出部302へ出力する。領域検出部302は、入力された操作イベント情報が有効であれば、ポインタ200の位置情報(X’Y’座標を利用して表現)をXY座標に変換したものと、操作イベント情報を一時的に記憶する。このとき、領域検出部302は検出したXY座標の位置が、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}の領域に属する点か否かを検出し、領域に属さない場合は、先に示した「位置確認信号」に関する処理を行うが、領域に属すること検出した場合には、「矩形の枠の変更処理」を実行する。なお、先に示した「位置確認信号」に関する処理の説明は、領域検出部302内部に矩形領域情報が記憶されていない場合の説明である。
以下、「矩形の枠の変更処理」について図19を用いて説明する。
まず、矩形の枠2000の頂点にポインタ200を移動させ、そこで左クリックし、左クリックした状態のままポインタ200を移動させ、移動後に左クリックを離した場合を考える。この場合、最初の左クリックをポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302にて、矩形の枠2000の頂点が指定された「矩形の枠の変更処理」の開始と認識する。次に、ポインタの移動を、ポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302は、矩形の枠2000の大きさを変更する処理と認識することができる。また、左クリックが解除されたことをポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302は、矩形の枠2000の大きさを変更する処理が確定したこと、すわなち、「矩形の枠の変更処理」の終了を認識することができる。領域検出部302は、矩形の枠2000の大きさを変更する処理と認識した場合には、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}のx,y,w,hの値を必要に応じて変更し、変更した矩形領域情報を枠表示部303へ出力する。例えば、左クリックした頂点の位置を変更することで枠の大きさを変更する処理においては、クリックした頂点の対角の位置が固定されるようにx,y,w,hの値を適宜変更する。矩形の枠2000の大きさを変更する処理の途中においては、領域検出部302は枠表示部303に対してのみ随時矩形領域情報を出力することで表示領域1000上における矩形の枠の表示の変更処理が行われるようにし、「矩形の枠の変更処理」の終了を認識した時点で、領域検出部302は、テーブル管理部304が管理する領域管理テーブルにおいて対応するIDのx,y,w,h,Layerの情報を変更すると共に、変更した領域管理テーブル情報を制御データ生成部305へ出力する。なお、本実施の形態において矩形の枠は縦横のアスペクト比一定を保つものとし、「矩形の枠の変更処理」の終了を認識した際のポインタ200の位置がアスペクト比一定を満たさない場合は、ポインタ検出部301においてポインタ200の位置がアスペクト比一定を満たす点に自動的に補正されるものとする。また、サイズについては、表示領域1000に対して最大表示の状態のサイズ(本実施形態では320ピクセル×240ピクセル)と、それに対して3/4サイズ、1/2サイズ、1/4サイズの4つの固定サイズのみに変更できるものとし、これらのサイズに一致しない場合は、こららのサイズのうち一番大きさが近いサイズに自動的に補正されるものとする。
次に、矩形の枠2000内の領域ではあるが頂点以外の位置にポインタ200を移動させ、そこで左クリックし、左クリックした状態のままポインタ200を移動させ、移動後に左クリックを離した場合を考える。この場合、最初の左クリックをポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302にて、矩形の枠2000の頂点以外を指定された「矩形の枠の変更処理」の開始と認識する。次に、ポインタ200の移動を、ポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302は、矩形の枠2000の位置を変更する処理と認識することができる。また、左クリックが解除されたことをポインタ検出部301が検出し、その情報を領域検出部302へ入力することで、領域検出部302は、矩形の枠2000の位置を変更する処理が確定したこと、すわなち、「矩形の枠の変更処理」の終了を認識することができる。領域検出部302は、矩形の枠2000の位置を変更する処理と認識した場合には、内部に記憶している矩形領域情報{ID,x,y,w,h,Layer}のx,y,の値を変更し、変更した矩形領域情報を枠表示部303へ出力する。例えば、位置を変更する処理においては、枠の大きさは変化しないとすると、「矩形の枠の変更処理」の開始時に認識したポインタ200の位置と移動中のポインタ200の位置との差分値を利用してx,y,の値を適宜変更する。矩形の枠2000の位置を変更する処理の途中においては、領域検出部302は枠表示部303に対してのみ随時矩形領域情報を出力することで表示領域1000上における矩形の枠の表示の変更処理が行われるようにし、「矩形の枠の変更処理」の終了を認識した時点で、領域検出部302は、テーブル管理部304が管理する領域管理テーブルにおいて対応するIDのx,y,w,h,Layerの情報を変更すると共に、変更した領域管理テーブル情報を制御データ生成部305へ出力する。
矩形の枠2000の大きさ、あるいは、位置を変更する処理の際、領域検出部302はテーブル管理部304が管理する領域管理テーブルにおいて対応するIDのx,y,w,h,Layerの情報を変更するが、対応するIDのLayerを1に設定し、対応する映像ソースが最上位に配置されるような制御を行ってもよい。この場合、領域管理テーブルにおいて先に1であったものは、その階層の値を1大きくする。この結果、更に別の登録済みの情報と重なった場合には、その別の登録済みの階層の値を1大きくする。図20に初期化状態から矩形の枠2000の大きさが変更された場合の領域管理テーブルを示すが、この例では、ID=3に対応する情報が変更され、更に、階層については、ID=3のLayer値が1に、ID=1とID=2のLayer値がそれぞれ2と3に変更された様子を示している。
領域管理テーブル情報が入力された場合の制御データ生成部305と制御データ送信処理部306の処理は、先にレイアウト変更指示部300が初期化された場合の動作として説明したとおりである。
一方、会議端末21は多地点接続装置1から逆に合成映像制御パケットを受信した場合には、それに含まれる領域管理テーブルを抽出し、自分の管理する領域管理テーブル情報を上書きするものとする。
(多地点接続装置の内部構成)
図21に、図11、図12に示した多地点接続装置1において本発明に関わる内部構成要素を示す。なお、図21では、本発明による機能改善を実現する上で直接影響を及ぼすことがない構成要素(例えばCPU等)の表記は省略している。
多地点接続装置1は、その内部構成要素としてネットワーク送受信部101、4つの映像圧縮部102−1〜102−4、4つの映像伸長部103−1〜103−4、4つの音声圧縮部104−1〜104−4、4つの音声伸長部105−1〜105−4、映像合成部11、音声合成部12、レイアウト変更指示解析部13とを備える。上記ネットワーク送受信部101、映像圧縮部102−1〜102−4、映像伸長部103−1〜103−4、音声圧縮部104−1〜104−4、音声伸長部105−1〜105−4、映像合成部11、音声合成部12、レイアウト変更指示解析部13は、それぞれ図13に示すネットワーク送受信プログラム、映像圧縮プログラム、映像伸長プログラム、音声圧縮プログラム、音声伸長プログラム、映像合成プログラム、音声合成プログラム、レイアウト変更指示解析プログラムの処理ルーチンにより実現される。ネットワーク送受信部101は例えば映像受信部、映像送信部、音声送信部、音声受信部、映像選択情報受信部に相当する。
ネットワーク送受信部101は、図1で示した通信路Vc21-1〜Vc24-1を利用しての映像データの受信、通信路Vc21-2〜Vc24-2を利用しての映像データの送信、通信路Ac21-1〜Ac24-1を用いての音声データの受信、通信路Ac21-2〜Ac24-2を用いての音声データの送信、通信路Cc-21〜Cc24を用いての映像を合成する際のレイアウト変更パラメータの送受信が可能である。ネットワーク送受信部101は、通信プロトコルとして、例えば、UDP/IP,RTP等を利用して映像データ、音声データを送受信し、UDP/IPあるいはTCP/IPを利用して映像を合成する際のパラメータの送信をする。
ネットワーク送受信部101は、映像データ、音声データをストリーミング形式で送受信し、その送受信の開始、終了を管理し、また、送受信する映像データ、音声データの識別が可能であり、適切な通信路を用いて映像データ、音声データの送受信を行う。
ネットワーク送受信部101は、Vc21-1で受信した映像データは映像伸長部103−1へ出力、Vc22-1で受信した映像データは映像伸長部103−2へ出力、Vc23-1で受信した映像データは映像伸長部103−3へ出力、Vc24-1で受信した映像データは映像伸長部103−4へ出力する。
ネットワーク送受信部101は、Ac21-1で受信した音声データは音声伸長部105−1へ出力、Ac22-1で受信した音声データは音声伸長部105−2へ出力、Ac23-1で受信した音声データは音声伸長部105−3へ出力、Ac24-1で受信した音声データは音声伸長部105−4へ出力する。
映像伸長部103−1、映像伸長部103−2、映像伸長部103−3、映像伸長部103−4で伸長された非圧縮の映像データは映像合成部11へ入力される。映像合成部11は内部で4種類の合成映像MV1〜MV4を作成し、合成映像MV1を映像圧縮部102−1へ出力、合成映像MV2を映像圧縮部102−2へ出力、合成映像MV3を映像圧縮部102−3へ出力、合成映像MV4を映像圧縮部102−4へ出力する。
音声伸長部105−1、音声伸長部105−2、音声伸長部105−3、音声伸長部105−4で伸長された非圧縮の音声データは音声合成部12へ入力される。音声合成部12は内部で4種類の合成音声MA1〜MA4を作成し、合成音声MA1を音声圧縮部104−1へ出力、合成音声MA2を音声圧縮部104−2へ出力、合成音声MA3を音声圧縮部104−3へ出力、合成音声MA4を音声圧縮部104−4へ出力する。
図22は、例として映像合成部11の内部構成の概要を示している。図22の場合、映像合成部11は、4つの入力映像をそれぞれ別々のサイズに縮小する縮小回路31〜34と、縮小回路31〜34で縮小された映像を合成する合成回路41〜44を備える。レイアウト変更指示解析部13は縮小回路31〜34に対して、それぞれの縮小パラメータを与え、また、合成回路41〜44に対して合成映像生成の際に縮小映像を貼り付ける位置パラメータを与える。映像合成部11への入力映像は、通信路Vc21-1〜Vc24-1を介して会議端末21〜24から受信した入力映像V1〜V4を非圧縮映像データに変換したものである。入力映像V1〜V4が圧縮符号化されて通信路Vc21-1〜Vc24-1を送信される場合、多地点接続装置1は受信した入力映像V1〜V4を伸長復号化したものを映像合成部11への入力映像とする。一方、映像合成部11から出力された合成映像は多地点接続装置1内で圧縮符号化された後に通信路Vc21-2〜Vc24-4を送信されるとする。縮小回路31〜34に対する縮小パラメータ(n11,n12,n13,n14, n21,n22,n23,n24, n31,n32,n33,n34, n41,n42,n43,n44)について、例えば、n11=1/4, n21=1/4, n31=1/4, n41=1/4とした場合には、合成映像MV1を生成する際に320×240ピクセルの入力映像V1,V2,V3,V4をそれぞれ面積比で1/4にした映像に変換して生成するように指示できる。また、位置パラメータは、変換した映像を配置する位置を示すものであり、合成回路41〜44は、合成映像を横方向、縦方向を100という値に正規化したXY座標で管理しており、例えば合成回路41に対して、V1をX=0,Y=0、V2をX=0,Y=50、V3をX=50,Y=0、V4をX=50,Y=50と指定した場合には、縮小回路41から出力された合成映像MV1を生成するための入力映像V1,V2,V3,V4のそれぞれの左上の頂点が先に示した座標点に配置された合成映像を生成するように命令できる。
映像合成部11に対し外部から入力する縮小回路31〜34に対する縮小パラメータ、および、合成回路41〜44に対する位置パラメータをまとめて映像合成制御信号と呼ぶ。
図23は、例として音声合成部12の内部構成の概要を示している。図23の場合、音声合成部11は、4つの入力音声をそれぞれの平均音量を調整する調整回路51〜54と、調整回路51〜54で平均音量が変更された音声を合成する合成回路61〜64を備える。調整回路51〜54に対するパラメータ(m12,m13,m14, m21,m23,m24, m31,m32,m34, m41,m42,m43)について、例えば、m21=1,m31=1,m41=1とした場合には、合成回路61にて合成される出力音はB,C,Dという音がそのまま足しあわされた音となり、一方、m12=2,m32=1/2,m42=1/2とした場合には、合成回路62にて合成される出力音はAの音は2倍にされ、C,Dの音は音量が半分にされた後に足しあわされた音となる。
音声合成部11に対し外部から入力する調整回路51〜54に対するパラメータをまとめて音声合成制御信号と呼ぶ。
図21に構成を示す多地点接続装置1は、通信路Cc21〜Cc24を介して会議端末21〜24それぞれから合成映像制御パケットを受信することが可能であり、受信した合成映像制御パケットはレイアウト変更指示解析部13が解析を行う。レイアウト変更指示解析部13は、レイアウト変更パラメータとして受信した合成映像制御パケットに含まれる領域管理テーブル情報を抽出する。領域管理テーブル情報を解析することで映像合成制御信号と音声合成制御信号を生成し、生成した映像合成制御信号を映像合成部11へ出力し、また、生成した音声合成制御信号を音声合成部12に出力する。映像合成制御信号の生成方法、および、音声合成制御信号の生成方法等、以下、レイアウト変更指示解析部13内の処理手順例を説明する。
図31は、処理手順例1の流れを説明するフローチャートである。
[処理手順例1]
(ステップ1)
合成映像制御パケットがどの会議端末が送信したものかを判断する(S11)。送信した端末を送信端末と定義する。
(ステップ2)
合成映像制御パケットから領域管理テーブルを抽出する(S12)。これを送信領域管理テーブルと定義する。
(ステップ3)
領域管理テーブルを解析し、送信端末が、送信端末に配信される合成映像の画面分割レイアウトをどのように変更したいのかを認識する(S13)。本実施形態の場合、図16に示した領域管理テーブルから、合成映像を生成する各映像のサイズおよび配置位置を解析することができる。
(ステップ4)
ステップ3で認識した各映像のサイズを利用して、送信端末がサイズを大きくするように指示した映像を配信している会議端末を識別する(S14)。この映像を配信している会議端末を対象端末と定義する。
(ステップ5)
対象端末へ配信される合成映像の画面分割レイアウトを指示するための第2の領域管理テーブルを生成する(S15)。この第2の領域管理テーブルを対象領域管理テーブルと定義する。対象領域管理テーブルでは、送信端末が配信している映像のサイズが大きくなるように設定する。例えば、送信領域管理テーブルで指定した対象端末が配信する映像のサイズと同じサイズとなるように、送信端末が配信している映像のサイズを調整する。また、大きくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上位階層になるように指定する。
(ステップ6)
送信領域管理テーブルと対象領域管理テーブルの情報を利用して、映像合成制御信号を生成し映像合成部に出力する(S16)。
(ステップ7)
送信端末と対象端末に配信される合成音声を制御する音声合成制御信号を生成し音声合成部に出力する(S17)。この際、送信端末へ配信される合成音声において、対象端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象端末へ配信される合成音声において、送信端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。
(ステップ8)
対象領域管理テーブルを含む合成映像制御パケットを生成し、対象端末に送信する(S18)。
図32は、処理手順例2の流れを説明するフローチャートである。
[処理手順例2]
(ステップ1)
合成映像制御パケットがどの会議端末が送信したものかを判断する(S21)。送信した端末を送信端末と定義する。
(ステップ2)
合成映像制御パケットから領域管理テーブルを抽出する(S22)。これを送信領域管理テーブルと定義する。
(ステップ3)
領域管理テーブルを解析し、送信端末が、送信端末に配信される合成映像の画面分割レイアウトをどのように変更したいのかを認識する(S23)。本実施形態の場合、図16に示した領域管理テーブルから、合成映像を生成する各映像のサイズおよび配置位置を解析することができる。
(ステップ4)
ステップ3で認識した各映像のサイズを利用して、送信端末がサイズを大きくするように指示した映像を配信している会議端末を識別する(S24)。この映像を配信している会議端末を対象端末と定義する。また、送信端末と対象端末以外の端末を対象外端末と定義する。
(ステップ5)
対象端末および対象外端末へ配信される合成映像の画面分割レイアウトを指示するための第2の領域管理テーブルと第3の領域管理テーブルを生成する(S25)。この第2の領域管理テーブルを対象領域管理テーブルと定義し、第3の領域管理テーブルを対象外領域管理テーブルと定義する。対象領域管理テーブルでは、送信端末が配信している映像のサイズが大きくなるように設定する。例えば、送信領域管理テーブルで指定した対象端末が配信する映像のサイズと同じサイズとなるように、送信端末が配信している映像のサイズを調整する。また、大きくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上面になるように指定する。一方、対象外領域管理テーブルでは、送信端末が配信している映像のサイズと、対象端末が配信している映像のサイズが小さくなるように設定する。例えば、送信端末と対象端末が配信している映像のサイズが最小となるように調整する。また、小さくしたサイズの映像が合成映像内に収まるように配置位置を指定する。また、階層情報として、送信端末の映像が最上位階層、対象端末の映像が第2階層になるように指定する。
(ステップ6)
送信領域管理テーブルと対象領域管理テーブルと対象外領域管理テーブルの情報を利用して、映像合成制御信号を生成し映像合成部に出力する(S26)。
(ステップ7)
送信端末と対象端末と対象外端末とに配信される合成音声を制御する音声合成制御信号を生成し音声合成部に出力する(S27)。この際、送信端末へ配信される合成音声において、対象端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象端末へ配信される合成音声において、送信端末から配信される音声の音量が大きくなるようにパラメータを調整しておく。また、対象外端末へ配信される合成音声において、送信端末から配信される音声の音量と対象端末から配信される音声の音量が小さくなるようにパラメータを調整しておく。
(ステップ8)
対象領域管理テーブルを含む合成映像制御パケットを生成し、対象端末に送信する(S28)。また、対象外領域管理テーブルを含む合成映像制御パケットを生成し、対象外端末に送信する。
以上のレイアウト変更指示解析部13内の処理手順例1の結果、例えば、図6に示したようにユーザAが自身の会議端末21に配信される合成映像においてユーザBの表示サイズを大きくする(160×120ピクセルから240×180ピクセルに変更する)と、多地点接続装置1の映像合成部11が会議端末21にはユーザBが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末22にはユーザAが大きくなった(240×180ピクセルに変更した)合成映像を生成し、それぞれを配信することが可能となる。また、それと同時に、多地点接続装置1の音声合成部12が会議端末21にはユーザBの音声が大きくなった(ユーザBの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末22にはユーザAの音声が大きくなった(ユーザAの声が2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを配信することが可能となる。
また、レイアウト変更指示解析部13内の処理手順例2の結果、例えば、図7に示したようにユーザAが自身の会議端末21に配信される合成映像においてユーザBの表示サイズを大きくする(160×120ピクセルから240×180ピクセルに変更する)と、多地点接続装置1の映像合成部11が会議端末21にはユーザBが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末22にはユーザAが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末23と会議端末24にはユーザAとユーザBが小さくなった(80×60ピクセルに変更した)合成映像を生成し、それぞれを配信することが可能となる。また、それと同時に、多地点接続装置1の音声合成部12が会議端末21にはユーザBの音声が大きくなった(ユーザBの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末22にはユーザAの音声が大きくなった(ユーザAの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末23と会議端末24にはユーザAとユーザBの音声が小さくなった(ユーザAとユーザBの声が1/2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを配信することが可能となる。
なお、本実施形態では会議端末を4台として説明したが、台数はこれに限ったものではなく、4台より多くても少なくてもよい。会議端末の台数が多い場合は、多地点接続装置1内の対応する構成要素を増やすことで対応可能である。
本実施形態では会議端末21〜24が送信する映像のサイズは全て320×240ピクセルとして説明してきたが、各会議端末が送信する映像のサイズが異なるものであっても良い。その場合は多地点接続装置1の映像合成部11へ映像を入力する前に、例えば図24(a)に示すような映像サイズ判定部71に映像を入力して映像のサイズを調べ、更に映像サイズ変更部72に入力してサイズを320×240ピクセルに変更するといった工夫により、同一のサイズにすることができる。
本実施形態では会議端末21〜24が送信する音声の平均音量は等しいものと仮定しているが、各会議端末が送信する音声の平均音量が異なるものであっても良い。その場合は多地点接続装置1の音声合成部12へ音声を入力する前に、例えば図24(b)に示すような音量レベル判定部81に音声を入力して音声の平均音量を調べ、更に音量レベル変更部82に入力して平均音量を規定の値にするといった工夫により、同一の平均音量にすることができる。
また、図25に、図9と異なる会議端末21のシステム構成例を示す。図25の例では、ノースブリッジとサウスブリッジ間がPCIバスで接続されており、PCIバスにカメラコントローラ、サウンドコントローラ、LANコントローラが接続されている。カメラコントローラは映像取得プログラムによって制御され、サウンドコントローラは音声取得プログラムや音声再生プログラムによって制御され、LANコントローラはネットワーク送受信プログラムによって制御されることで、図9の場合と同様に動作する。
また、図26に、図12と異なる多地点接続装置1のシステム構成例を示す。図26の例では、サウスブリッジがPCIコントローラを備え、PCIコントローラにより制御されるPCIバスに、4つの映像コーデックデバイス、4つの音声コーデックデバイス、1つの映像合成デバイス、1つの音声合成デバイスを接続している。映像コーデックデバイスは先に説明した映像圧縮プログラムと映像伸長プログラムの処理の一部をハードウェアで行うものであり、映像圧縮プログラムや映像伸長プログラムがすべての処理をソフトウェアとして行う場合に比べて、CPUの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。音声コーデックデバイスは先に説明した音声圧縮プログラムと音声伸長プログラムの処理の一部をハードウェアで行うものであり、音声圧縮プログラムや音声伸長プログラムがすべての処理をソフトウェアとして行う場合に比べて、CPUの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。また、映像合成デバイスは先に説明した映像合成プログラムの処理の一部をハードウェアで行うものであり、映像合成プログラムがすべての処理をソフトウェアとして行う場合に比べて、CPUの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。また、音声合成デバイスは先に説明した音声合成プログラムの処理の一部をハードウェアで行うものであり、音声合成プログラムがすべての処理をソフトウェアとして行う場合に比べて、CPUの処理負荷を下げるとともに、ハードウェア処理により高速に行うことも可能である。
以上、本発明の第1実施形態として、多地点接続装置1、および、会議端末21〜24の詳細構成と動作、および、これらから構成されるテレビ会議システムについて示した。
実際の会議では、会議中に内輪での相談、確認などの局所的な会話(秘話)を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。
例えば、あるユーザAが自機器に配信される合成映像において、その合成映像内に表示されている相手のうち、局所的な会話を行いたいユーザBの顔画像の表示が大きくなるように制御を行うことで、ユーザBとの仮想的な距離感を縮める。この際、ユーザB側においてもユーザAの顔が大きく表示されるように自動的に制御されるため、ユーザBもユーザAとの仮想的な距離感が縮まる。この状態では、ユーザBに配信される合成音声のうちユーザAの音声のみが強調されて合成されており、また、ユーザAに配信される合成音声のうちユーザBの音声のみが強調されて合成されている。すなわち、距離感を縮めた後は、ユーザA,ユーザBは通常よりも小さい声で会話を行ったとしても当事者間の会話は強調された結果聞こえやすくなる。一方、他のユーザはユーザAおよびユーザBの会話はそのまま小さい声として聞こえる。本発明により、テレビ会議を行っている際にも、実際の会議と同様の感覚で局所的な会話を行うことが可能となる。
ここで、前述した図6の例では、会議端末21においてユーザBの顔を大きく表示するとともに、会議端末21(ユーザA)に配信される合成音声のうちユーザBの音声を強調するようにしたが、ユーザBの顔のサイズを変更せずに、ユーザBの音声のみを強調するように制御してもよい。会議端末22(ユーザB)についても同様に、ユーザAの顔のサイズを変更せずに、ユーザAの音声のみを強調するように制御してもよい。
また、図7の例では、ユーザAに配信される合成音声におけるユーザBの音声ならびにユーザBに配信される合成音声におけるユーザAの音声を強調しつつ、ユーザCに配信される合成音声におけるユーザA、Bの音声ならびにユーザDに配信される合成音声におけるユーザA、Bの音声を小さくした。しかしながら、ユーザAに配信される合成音声におけるユーザBの音声レベルならびにユーザBに配信される合成音声におけるユーザAの音声レベルを変更することなく、ユーザCに配信される合成音声におけるユーザA、Bの音声ならびにユーザDに配信される合成音声におけるユーザA、Bの音声を小さくするように制御してもよい。
なお、本実施形態では、会議端末側に表示される合成映像において局所的な会話を行いたい相手の顔画像の表示を大きくする操作方法の具体例として、「矩形の枠の変更処理」について述べたが、その操作方法はこれに限るものではない。例えば、相手を選択するという操作として、局所的な会話を行いたい相手の顔画像の上で“クリック”を行うと、合成映像内のどこでクリックがなされたかを示す位置情報を会議端末から多地点接続装置に送り、多地点接続装置側でその情報から局所的な会話を行う当事者を検出して、当事者に対してそれぞれの顔画像のサイズを調整した合成映像を生成して配信することや、それぞれの音声の音量を調整した合成音声を生成して配信することも可能である。左クリックで当事者の顔画像のサイズや音量が2倍、あるいは、最大になるように制御し、左クリックで大きくした顔画像や音量を右クリックにより1/2倍、あるいは、元に戻すように制御しても良い。
更に、本実施形態では、局所的な会話を行う当事者には、それぞれの顔画像が大きくなった合成映像を生成して配信するとしたが、相手を選択するという操作に対しては当事者の顔画像を大きくする方法に限らなくてもよい。例えば、その当事者の顔画像に枠を表示した合成映像を生成して配信しても良いし、当事者以外の顔画像の色調を下げて暗くし、当事者のみが強調されるような合成映像を生成して配信しても良い。
(第2実施形態)
以下、図面を参照して本発明の第2実施形態を示す。
本実施形態の会議端末21〜24、および、多地点接続装置1の構成は第1実施形態で示したものと同じであり、第1実施形態に対し、レイアウト変更指示解析部13の機能を追加したものである。
図7は会議端末21〜24、および、多地点接続装置1に第1実施形態で説明した本発明を実装した場合の動作結果の一例であり、会議端末21から受信した合成映像のレイアウト変更パラメータを多地点接続装置1のレイアウト変更指示解析部13が解析し、レイアウト変更指示解析部13の解析結果に従い映像合成部11と音声合成部12が動作した結果を示している。ユーザAが自身の会議端末21に配信される合成映像においてユーザBの顔画像が大きく表示されるように変更処理を行うと、多地点接続装置1のレイアウト変更指示解析部13の解析結果に従い映像合成部11が会議端末21にはユーザBが大きくなった(例えば、240×180ピクセルに変更した)合成映像を生成し、会議端末22にはユーザAが大きくなった(例えば、240×180ピクセルに変更した)合成映像を生成し、会議端末23と会議端末24にはユーザAとユーザBが小さくなった(80×60ピクセルに変更した)合成映像を生成し、それぞれを配信する。また、それに加えて、多地点接続装置1の音声合成部12が会議端末21にはユーザBの音声が大きくなった(ユーザBの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末22にはユーザAの音声が大きくなった(ユーザAの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末23と会議端末24にはユーザAとユーザBの音声が小さくなった(ユーザAとユーザBの声が1/2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを配信する。
図27は、図7の状態で会議端末23のユーザCが、自身に配信されている合成映像のレイアウトを見てユーザAとユーザBが小さく表示されていることから「ユーザAとユーザBが局所的な会話を行っている」ことを認識した状態で、ユーザBの表示を大きくする操作を行い、多地点接続装置1からユーザBの表示が大きくなった合成映像を受信した状態である。
図28は図27の直後の状態を示す第1の例である。レイアウト変更指示解析部13は、会議端末23からのレイアウト変更パラメータを受信した結果、ユーザCがユーザAとユーザBの局所的な会話の中断を要求していると判断し、会議端末21〜24に対し、図3で示した状態と同じくテレビ会議システムを4人で開始した最初の状態になるように合成映像(MV1〜MV4)、合成音声(MA1〜MA4)をそれぞれ生成し、配信する。
一方、図29は図27の直後の状態を示す第2の例である。レイアウト変更指示解析部13は、会議端末23からのレイアウト変更パラメータを受信した結果、ユーザCがユーザAとユーザBの局所的な会話への参加を要求していると判断する。多地点接続装置1のレイアウト変更指示解析部13の指示に従い映像合成部11が会議端末21にはユーザBとユーザCが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末22にはユーザAとユーザCが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末23にはユーザAとユーザBが大きくなった(240×180ピクセルに変更した)合成映像を生成し、会議端末24にはユーザAとユーザBとユーザCが小さくなった(80×60ピクセルに変更した)合成映像を生成し、それぞれを配信する。また、それに加えて、多地点接続装置1のレイアウト変更指示解析部13の指示に従い音声合成部12が会議端末21にはユーザBとユーザCの音声が大きくなった(ユーザBとユーザCの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末22にはユーザAとユーザCの音声が大きくなった(ユーザAとユーザCの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末23にはユーザAとユーザBの音声が大きくなった(ユーザAとユーザBの声が2倍の大きさで重ねあわせた)合成音声を生成し、会議端末24にはユーザAとユーザBとユーザCの音声が小さくなった(ユーザAとユーザBとユーザCの声が1/2倍の大きさで重ねあわせた)合成音声を生成し、それぞれを配信する。
実際の会議では、会議中に内輪での相談、確認などの局所的な会話(秘話)を行うことがよくある。実際の会議では、局所的な会話を行っている際、その当事者は相手の近くで他の会議参加者に音声が聞こえないように小さな声で会話をすることが多い。すなわち、距離を縮めた上で同時に発声量を抑える。本発明により、他の会議参加者は局所的な会話が行われていることを認識し、必要に応じて、その局所的な会話を終了させることや、また、局所的な会話に参加することが可能である。
なお、図30は図1に示した多地点接続装置1の代わりに、音声合成機能を含まない映像通信用多地点接続装置1−vと、映像合成機能を含まない音声通信用多地点接続装置1−aを用いた場合の例である。映像通信用多地点接続装置1−v、および、音声通信用多地点接続装置1−aともに、本発明の構成要素を持つ。図30では、映像通信用多地点接続装置1−vのレイアウト変更指示解析部13で生成された音声合成制御信号がネットワークを介して音声通信用多地点接続装置1−a内の音声合成部12へ入力される。このような構成でも本発明を適用可能であり、第1実施形態、第2実施形態で説明した同じ効果を得ることができる。
本発明は上記実施形態をそのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の第1実施形態に係るテレビ会議システムのシステム構成図。 本発明の第1実施形態に係るテレビ会議システムの各端末をユーザが操作する様子示す図。 本発明の第1実施形態に係るテレビ会議開始時の入力映像、入力音声、合成映像、合成音声の様子を示す図。 本発明の第1実施形態に係る映像のサイズと、音声の平均音量の説明に用いる図。 本発明の第1実施形態に係るユーザAが合成映像のレイアウト変更の変更作業を行った様子を示す図。 本発明の第1実施形態に係るユーザAが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第1の例を示す図。 本発明の第1実施形態に係るユーザAが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第2の例を示す図。 本発明の第1実施形態に係る会議端末21の外観の一例を示す図。 本発明の第1実施形態に係る会議端末21のシステム構成の一例を示す図。 本発明の第1実施形態に係る会議端末21のシステム構成においてハードディスクドライブに格納されたアプリケーションプログラムを示す図。 本発明の第1実施形態に係る多地点接続装置1の外観の一例を示す図。 本発明の第1実施形態に係る多地点接続装置1のシステム構成の一例を示す図。 本発明の第1実施形態に係る多地点接続装置1のシステム構成においてハードディスクドライブに格納されたアプリケーションプログラムを示す図。 本発明の第1実施形態に係る会議端末21の内部構成を示す図。 本発明の第1実施形態に係るレイアウト変更指示部300の内部構成を示す図。 本発明の第1実施形態に係る領域管理テーブルの初期化状態を示す図。 本発明の第1実施形態に係る合成映像内に配置する位置と、サイズを説明するための図。 本発明の第1実施形態に係る合成映像制御パケットのペイロード部の一例を示す図。 本発明の第1実施形態に係る会議端末21の表示画面2100を示す図。 本発明の第1実施形態に係る領域管理テーブルが変更された状態の一例を示す図。 本発明の第1実施形態に係る多地点接続装置1の内部構成を示す図。 本発明の第1実施形態に係る合成映像部11の内部構成の一例を示す図。 本発明の第1実施形態に係る音声合成部12の内部構成の一例を示す図。 本発明の第1実施形態に係る入力映像のサイズや入力音声の音量を調整するための追加構成要素を説明するための図。 本発明の第1実施形態に係る会議端末21のシステム構成の別の例を示す図。 本発明の第1実施形態に係る多地点接続装置1のシステム構成の別の例を示す図。 本発明の第2実施形態に係るユーザCが合成映像のレイアウト変更の変更作業を行った様子を示す図。 本発明の第2実施形態に係るユーザCが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第1の例を示す図。 本発明の第2実施形態に係るユーザCが合成映像のレイアウト変更操作作業を行った場合の入力映像、入力音声、合成映像、合成音声の第2の例を示す図。 本発明の第1実施形態、あるいは、第2実施形態に係るテレビ会議システムのシステム構成の別の例を示す図。 本発明の第1実施形態にかかるレイアウト変更指示解析部13内の処理手順例1を説明するフローチャート。 本発明の第1実施形態にかかるレイアウト変更指示解析部13内の処理手順例2を説明するフローチャート。
符号の説明
1、1−v、1−a ‥‥ 多地点接続装置(映像合成装置)
21、22、23,24 ‥‥ 会議端末
Vc21-1、Vc21-2、Vc22-1、Vc22-2、Vc23-1、Vc23-2、Vc24-1、Vc24-2、Ac21-1、Ac21-2、Ac22-1、Ac22-2、Ac23-1、Ac23-2、Ac24-1、Ac24-2、Cc21-1、Cc22-1、Cc23-1、Cc24-1 ‥‥ 通信路
ユーザA、ユーザB、ユーザC、ユーザD ‥‥ ユーザ(会議端末の操作、利用者)
V1、V2、V3、V4 ‥‥ 入力映像
A1、A2、A3、A4 ‥‥ 入力音声
MV1、MV2、MV3、MV4 ‥‥ 合成映像
MA1、MA2、MA3、MA4 ‥‥ 合成音声
Camera-21、Camera-22、Camera-23、Camera-24 ‥‥ カメラデバイス
Microphone-21、Microphone -22、Microphone -23、Microphone -24 ‥‥ マイクデバイス
Speaker-21、Speaker -22、Speaker -23、Speaker -24 ‥‥ スピーカデバイス
Monitor-21、Monitor -22、Monitor -23、Monitor -24 ‥‥ 表示デバイス
21―1 ‥‥ コンピュータ本体
21―2 ‥‥ ディスプレイユニット
21―3 ‥‥ ポインティングデバイス
21−4、1−4 ‥‥ ネットワーク通信デバイス
2100 ‥‥ 表示画面
2101 ‥‥ ウィンドウ
200 ‥‥ ポインタ
1000 ‥‥ 表示領域
2000 ‥‥ 矩形の枠
11 ‥‥ 映像合成部
12 ‥‥ 音声合成部
13 ‥‥ レイアウト変更指示解析部
31、32、33、34 ‥‥ 映像縮小回路
41、42、43、44 ‥‥ 映像合成回路
51、52、53、54 ‥‥ 音量調整回路
61、62、63、64 ‥‥ 音声合成回路
71 ‥‥ 映像サイズ判定部
72 ‥‥ 映像サイズ変更部
81 ‥‥ 音量レベル判定部
82 ‥‥ 音量レベル変更部
101、211 ‥‥ ネットワーク送受信部
102−1、102−2、102−3、102−4、212 ‥‥ 映像圧縮部
103−1、103−2、103−3、103−4、213 ‥‥ 映像伸長部
104−1、104−2、104−3、104−4、214 ‥‥ 音声圧縮部
105−1、105−2、105−3、105−4、215 ‥‥ 音声伸長部
216 ‥‥ 映像取得部
217 ‥‥ 映像再生部
218 ‥‥ 音声取得部
219 ‥‥ 音声再生部
300 ‥‥ レイアウト変更指示部
301 ‥‥ ポインタ検出部
302 ‥‥ 領域検出部
303 ‥‥ 枠表示部
304 ‥‥ テーブル管理部
305 ‥‥ 制御データ生成部
306 ‥‥ 制御データ送信処理部

Claims (9)

  1. 第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信する映像受信部と、
    前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成する映像合成部と、
    前記第1〜第3の合成映像データを前記第1〜第3の端末に送信する映像送信部と、
    前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信する音声受信部と、
    前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成する音声合成部と、
    前記第1〜第3の合成音声データを前記第1〜第3の端末に送信する音声送信部と、
    前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
    前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声合成部に与える合成音声制御部と、
    を備えた映像合成装置。
  2. 前記音声制御部は、前記映像選択情報が受信されたとき、前記第1および第2の合成音声に含める第3の音声の音声レベルを小さくすることをさらに指示する前記音声合成制御信号を生成することを特徴とする請求項1に記載の映像合成装置。
  3. 前記映像選択情報が受信されたとき、前記第1の合成映像に含める前記第2の映像のサイズ、前記第2の合成映像に含める前記第1の映像のサイズを大きくすることを指示する映像合成制御信号を生成し、生成した前記映像合成制御信号を前記映像合成部に与える映像制御部をさらに備えたことを特徴とする請求項1に記載の映像合成装置。
  4. 前記映像選択情報が受信されたとき、前記第3の合成映像に含める第1および第2の映像を小さくすることを指示する映像合成制御信号を生成し、生成した映像合成制御信号を前記映像合成部に与える映像制御部をさらに備えたことを特徴とする請求項1に記載の映像合成装置。
  5. 前記映像選択情報受信部は、前記第3の端末から前記第1または第2の映像を選択したことを示す映像選択情報を受信し、
    前記映像制御部は、前記映像選択情報が受信されたとき、前記第3の合成映像に含める前記第1および第2の映像のサイズを元のサイズに戻すことを指示する映像合成制御信号を生成し、生成した前記映像合成制御信号を前記映像合成部に与え、
    前記音声制御部は、前記映像選択情報が受信されたとき、前記第3の合成音声に含める第1および第2の音声の音声レベルを元の音声レベルに戻すことを指示する音声合成制御信号を生成し、生成した音声合成制御信号を前記音声制御部に与える、
    ことを特徴とする請求項4に記載の映像合成装置。
  6. 前記第2の映像を選択したことを表す前記前記映像選択情報は、前記第1の合成映像に含める前記第2の映像のサイズを大きくすることを指示するものであることを特徴とする請求項1ないし5のいずれか一項に記載の映像合成装置。
  7. 第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信し、
    前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成し、
    前記第1〜第3の合成映像データを前記第1〜第3の端末に送信し、
    前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信し、
    前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成し、
    前記第1〜第3の合成音声データを前記第1〜第3の端末に送信し、
    前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信したら、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くする、
    映像合成方法。
  8. 第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信するステップと、
    前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成するステップと、
    前記第1〜第3の合成映像データを前記第1〜第3の端末に送信するステップと、
    前記第1〜第3の端末から第1〜第3の音声を表す第1〜第3の音声データを受信するステップと、
    前記第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成するステップと、
    前記第1〜第3の合成音声データを前記第1〜第3の端末に送信するステップと、
    前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信するステップと、
    前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くするように音声合成を制御するステップと、
    をコンピュータに実行させるためのプログラム。
  9. 第1〜第3の端末から送信される第1〜第3の音声を表す第1〜第3の音声データを合成して第1〜第3の合成音声を表す第1〜第3の合成音声データを生成し、生成した前記第1〜第3の合成音声データを前記第1〜第3の端末に送信する音声合成装置と通信可能な映像合成装置であって、
    第1〜第3の端末から第1〜第3の映像を表す第1〜第3の映像データを受信する映像受信部と、
    前記第1〜第3の映像データを合成して第1〜第3の合成映像を表す第1〜第3の合成映像データを生成する映像合成部と、
    前記第1〜第3の合成映像データを前記第1〜第3の端末に送信する映像送信部と、
    前記第1の端末から前記第2の映像を選択したことを表す映像選択情報を受信する映像選択情報受信部と、
    前記映像選択情報が受信されたとき、前記第3の合成音声に含める前記第1および第2の音声の音声レベルを低くすることを指示する音声合成制御信号を生成し、生成した前記音声合成制御信号を前記音声合成装置に送信する音声制御部と、
    を備えた映像合成装置。
JP2008276036A 2008-10-27 2008-10-27 映像合成装置、方法およびプログラム Pending JP2009065696A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008276036A JP2009065696A (ja) 2008-10-27 2008-10-27 映像合成装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008276036A JP2009065696A (ja) 2008-10-27 2008-10-27 映像合成装置、方法およびプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2006244553A Division JP2008067203A (ja) 2006-09-08 2006-09-08 映像合成装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2009065696A true JP2009065696A (ja) 2009-03-26

Family

ID=40559787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008276036A Pending JP2009065696A (ja) 2008-10-27 2008-10-27 映像合成装置、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2009065696A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014520423A (ja) * 2011-05-16 2014-08-21 アルカテル−ルーセント ホームネットワークのセグメント間における双方向通信を提供するための方法および装置
JP2016001446A (ja) * 2014-06-12 2016-01-07 モイ株式会社 変換画像提供装置、変換画像提供方法及びプログラム
JP2017069663A (ja) * 2015-09-29 2017-04-06 株式会社リコー 表示制御装置、通信端末、通信システム、表示制御方法、及びプログラム
JP6886750B1 (ja) * 2020-10-29 2021-06-16 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム
CN113163144A (zh) * 2020-01-07 2021-07-23 明基智能科技(上海)有限公司 无线简报系统
JP6929429B1 (ja) * 2020-11-04 2021-09-01 株式会社ブイキューブ 会議管理装置、会議管理方法及びプログラム
JP7043110B1 (ja) * 2020-10-29 2022-03-29 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014520423A (ja) * 2011-05-16 2014-08-21 アルカテル−ルーセント ホームネットワークのセグメント間における双方向通信を提供するための方法および装置
JP2016001446A (ja) * 2014-06-12 2016-01-07 モイ株式会社 変換画像提供装置、変換画像提供方法及びプログラム
JP2017069663A (ja) * 2015-09-29 2017-04-06 株式会社リコー 表示制御装置、通信端末、通信システム、表示制御方法、及びプログラム
CN113163144A (zh) * 2020-01-07 2021-07-23 明基智能科技(上海)有限公司 无线简报系统
CN113163144B (zh) * 2020-01-07 2024-04-09 明基智能科技(上海)有限公司 无线简报系统
JP6886750B1 (ja) * 2020-10-29 2021-06-16 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム
JP7043110B1 (ja) * 2020-10-29 2022-03-29 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム
WO2022091516A1 (ja) * 2020-10-29 2022-05-05 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム
WO2022091298A1 (ja) * 2020-10-29 2022-05-05 株式会社パルケ オンライン会議支援装置、オンライン会議支援プログラム、およびオンライン会議支援システム
JP6929429B1 (ja) * 2020-11-04 2021-09-01 株式会社ブイキューブ 会議管理装置、会議管理方法及びプログラム
WO2022097350A1 (ja) * 2020-11-04 2022-05-12 株式会社ブイキューブ 会議管理装置、会議管理方法及びプログラム
JP2022074344A (ja) * 2020-11-04 2022-05-18 株式会社ブイキューブ 会議管理装置、会議管理方法及びプログラム

Similar Documents

Publication Publication Date Title
JP2008067203A (ja) 映像合成装置、方法およびプログラム
US10419618B2 (en) Information processing apparatus having whiteboard and video conferencing functions
JP2009065696A (ja) 映像合成装置、方法およびプログラム
US7508413B2 (en) Video conference data transmission device and data transmission method adapted for small display of mobile terminals
JP2006041887A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP6179179B2 (ja) 情報処理装置、情報処理方法およびプログラム
US8817064B2 (en) Videoconference arrangement
WO2014094461A1 (zh) 视频会议中的视音频信息的处理方法、装置及系统
JP2004304601A (ja) Tv電話装置、tv電話装置のデータ送受信方法
JP2013062640A (ja) 信号処理装置、信号処理方法、およびプログラム
JP2013062640A5 (ja)
JP2005328484A (ja) テレビ会議システム、情報処理装置及び情報処理方法並びにプログラム
JP2013115527A (ja) テレビ会議システム及びテレビ会議方法
JP2010157906A (ja) 映像表示装置
JP2006039917A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
US8937635B2 (en) Device, method and system for real-time screen interaction in video communication
JP2006041884A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2001268078A (ja) 通信制御装置、その方法およびその提供媒体と通信装置
JP2006148425A (ja) 画像処理方法、画像処理装置、及びコンテンツ作成システム
JP2002051315A (ja) データ伝送方法およびその装置、並びにデータ伝送システム
JP2007150877A (ja) 通信端末およびその表示方法
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
WO2023120244A1 (ja) 伝送装置、伝送方法、およびプログラム
JP6606251B2 (ja) 送信側コンピュータ、受信側コンピュータ、及びそれらにより実行される方法、並びにコンピュータプログラム
JP2002271769A (ja) インターネットによる講演会のビデオ配信システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091117