近年、インターネット等の通信網を介して、互いに離れた会議の拠点の間で会議を行うビデオ会議システムが普及している。このような会議システムでは、各拠点において、端末システムを用いて、参加者等の画像及び音声が撮像及び収集され、画像及び音声がデジタルデータに変換されて、他の拠点の端末システムに送信される。他の拠点では、送信された画像及び音声それぞれが、ディスプレイ及びスピーカによって出力される。これにより、複数の拠点の参加者が、同じ拠点での会議に近い状態で会議を行うことができる。
しかしながら、従来のビデオ会議システムでは、撮像装置によって撮像された画像は、会議室全体等の撮像範囲全体に対して最適な露出制御が行われることが多い。必ずしも参加者が注目している箇所が最適な露出となるように制御されていない。特に、明暗差の大きい場所を撮像したとき、送信側の画像において、参加者が注目したいポイントが白飛び、黒つぶれ又はこれらに近い状態が発生する場合がある。このような場合、受信側の拠点において画質調整が行われても、良好な画像は得られない。
例えば、1つの壁に窓がある会議室では、会議室全体に露出を合わせると、窓側の人は逆光となる。このため、撮像された画像では、窓側の人の顔の像が、黒つぶれ又はそれに近い状態になる。一方、窓と反対側の人の顔には光がよく当たるため、より明るく撮像される。多くの参加者が明るく撮像される人の表情に注目するシーンでは、受信側の各拠点で画質調整が行われるとしても、撮像場所での明るさから大きな補正が必要であるため、良好な画質調整は困難である。
このことは、特許文献1の撮像装置にも当てはまる。この撮像装置は、撮像装置の画像を視る複数の拠点の参加者のうちの1人の参加者に対して、露出制御を行うことは可能であるが、他の参加者に対する露出制御を行うことができない。よって、多くの参加者に良好な画像を提供することが困難である。
そこで、本開示の技術は、より多くの参加者に対して最適な露出制御を行うことを可能にするビデオ会議端末、ビデオ会議システム、撮像装置及び撮像方法を提供する。
以下、本発明の実施の形態について添付の図面を参照しつつ説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することによって重複した説明を省く。
(実施の形態1)
通信システムは、互いに離れた位置にある複数の拠点に配置された通信端末を介して、複数の拠点間で画像及び音声等の情報を送受信するシステムである。本実施の形態では、通信システムは、複数の拠点間で会議を行うために用いられるビデオ会議システム1であるとして説明する。ビデオ会議システム1は、通信システムの一例である。
<ビデオ会議システム1の構成>
実施の形態1に係るビデオ会議システム1を説明する。図1は、実施の形態1に係るビデオ会議システム1の構成の一例を示す図である。図1に示すように、本実施の形態に係るビデオ会議システム1は、複数の端末装置10と、サーバ装置20と、予約サーバ装置30とを含む。複数の端末装置10、サーバ装置20及び予約サーバ装置30は、ネットワーク40を介して互いに接続されている。ビデオ会議システム1は、互いに離れた位置にある複数の会議の拠点に配置された端末装置10が、ネットワーク40を介して、複数の拠点間で画像及び音声等の情報を送受信することで、各拠点の参加者が同じ場所にいるように会議を行うことを可能にする。本実施の形態では、会議の拠点は会議室であるが、これに限定されず、いかなる場所でもよい。ここで、端末装置10は通信端末の一例であり、参加者はユーザの一例である。
本実施の形態では、4つの拠点に4つの端末装置10a~10dが配置されるとして説明する。しかしながら、2つ以上の端末装置が、2つ以上の拠点に配置されればよい。以下の説明において、4つの端末装置を個別に特定して表現する場合、参照符号「10a~10d」を用いることがあり、4つの端末装置全体又は個別に特定せずに表現する場合、参照符号「10」を用いることがある。
サーバ装置20は、複数の端末装置10間の通信を制御する。例えば、サーバ装置20は、端末装置10のそれぞれがサーバ装置20と接続しているか否かの接続状態を監視する。サーバ装置20は、端末装置10の会議への参加を許可及び拒絶する。例えば、サーバ装置20は、認証情報を送信する端末装置10の参加を許可する。サーバ装置20は、会議の開始時に、会議に参加する端末装置10それぞれを呼び出す。サーバ装置20は、会議中、各端末装置10に対する画像及び音声等の情報の送受信を制御する。サーバ装置20は、予約サーバ装置30から会議に参加する端末装置10の情報を取得し、参加する端末装置10間の情報の送受信を可能にし、参加する端末装置10と参加しない端末装置10との間の情報の送受信を遮断する。
予約サーバ装置30は、会議の予定を管理する。予約サーバ装置30は、ネットワーク40を介して、端末装置10と接続されるだけでなく、端末装置10以外のコンピュータ装置と接続され得る。予約サーバ装置30は、端末装置10又は他のコンピュータ装置から会議の情報を受け付け、登録する。会議の情報は、会議の開催日時、拠点等の開催場所、会議参加者、会議の議題、及び使用される端末装置等の情報を含む。予約サーバ装置30は、パスワード等の会議に参加するための認証情報を発行する。端末装置10は、予約サーバ装置30に問い合わせすることで、当該端末装置10が参加する予定の会議の情報と、参加への認証情報とを取得する。また、予約サーバ装置30は、会議の情報及び認証情報をサーバ装置20に送信し、会議を開催させる。
端末装置10は、ネットワーク40を介してサーバ装置20及び予約サーバ装置30と通信する。端末装置10は、予約サーバ装置30に問い合わせすることで、当該端末装置10が参加する予定の会議の情報と、参加への認証情報とを取得する。端末装置10は、サーバ装置20から許可を受けることで、会議に参加し、他の端末装置10と、ネットワーク40及びサーバ装置20を介して通信する。端末装置10は、自身が配置される拠点において、会議の参加者等の画像及び音声のデータを取得し、サーバ装置20に送信する。サーバ装置20は、取得されたデータを、会議に参加する他の端末装置10に送信する。また、端末装置10は、他の端末装置10によって取得されサーバ装置20に送信された画像及び音声のデータを、サーバ装置20から受信する。
例えば、端末装置10a~10dのうち、端末装置10a~10cが会議に参加し、端末装置10dが会議に参加しない場合、端末装置10a~10dは、サーバ装置20に接続可能である。そして、端末装置10aによって送信されるデータは、サーバ装置20を介して端末装置10b及び10cに送信されるが、端末装置10dには送信されない。同様に、端末装置10b及び10cから送信されるデータは、端末装置10a~10cのうちの自身を除く端末装置に送信されるが、端末装置10dには送信されない。また、端末装置10dから送信されるデータは、端末装置10a~10dに送信されない。
ネットワーク40は、本実施の形態ではインターネットであるが、これに限定されない。例えば、ネットワーク40は、LAN(Local Area Network)、WAN(Wide Area Network)、モバイル通信網、電話回線通信網、又は、その他の通信網であってもよい。ネットワーク40は、無線ネットワークであってもよく有線ネットワークであってもよい。
サーバ装置20及び予約サーバ装置30の機能的な構成を説明する。図2は、実施の形態1に係るサーバ装置20の機能的な構成の一例を示すブロック図である。図3は、実施の形態1に係る予約サーバ装置30の機能的な構成の一例を示すブロック図である。
図2に示すように、サーバ装置20は、機器制御部20aと、通信部20bと、記憶部20cと、操作部20dと、表示部20eとを備える。通信部20bは、ネットワーク40と接続され、ネットワーク40を介して端末装置10等と通信する。機器制御部20aは、サーバ装置20の全体の動作を制御する。機器制御部20aは、通信部20bを介して、ネットワーク40に対して情報を送受信する。記憶部20cは、機器制御部20aによる種々の情報の記憶及び取り出しを可能にする。例えば、記憶部20cは、会議中に各端末装置10から送信された画像及び音声のデータを記憶してもよい。操作部20dは、サーバ装置20の操作者による操作、情報及び指令の入力を受け付け、機器制御部20aに出力する。表示部20eは、機器制御部20aから出力される画像データを、画像として出力する。また、表示部20eは、機器制御部20aから出力される音声データを、音声として出力する機能を備えてもよい。
図3に示すように、予約サーバ装置30は、機器制御部30aと、通信部30bと、記憶部30cと、操作部30dと、表示部30eとを備える。通信部30bは、ネットワーク40と接続され、ネットワーク40を介して端末装置10等と通信する。機器制御部30aは、予約サーバ装置30の全体の動作を制御する。機器制御部30aは、通信部30bを介して、ネットワーク40に対して情報を送受信する。記憶部30cは、機器制御部30aによる種々の情報の記憶及び取り出しを可能にする。例えば、記憶部30cは、会議の情報及び認証情報を記憶してもよい。操作部30dは、予約サーバ装置30の操作者による操作、情報及び指令の入力を受け付け、機器制御部30aに出力する。表示部30eは、機器制御部30aから出力される画像データを、画像として出力する。また、表示部30eは、機器制御部30aから出力される音声データを、音声として出力する機能を備えてもよい。
なお、サーバ装置20及び予約サーバ装置30は、本実施の形態では分離した別々の装置を構成するが、一体化された装置を構成してもよい。また、各装置は、1つ以上の装置で構成されてもよい。装置が2つ以上の装置で構成される場合、当該2つ以上の装置は、1つの機器内に配置されてもよく、分離した2つ以上の機器内に分かれて配置されてもよい。本明細書及び特許請求の範囲では、「装置」とは、1つの装置を意味し得るだけでなく、複数の装置からなるシステムも意味し得る。
サーバ装置20及び予約サーバ装置30のハードウェア構成を説明する。図4は、実施の形態1に係るサーバ装置20のハードウェア構成の一例を示すブロック図である。図5は、実施の形態1に係る予約サーバ装置30のハードウェア構成の一例を示すブロック図である。
図4に示すように、サーバ装置20は、CPU(Central Processing Unit)121と、不揮発性記憶装置122と、揮発性記憶装置123と、メモリ124と、通信I/F(インタフェース)125と、操作I/F126と、表示装置127とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。
サーバ装置20の例は、コンピュータ装置である。
通信I/F125は、通信部20bの機能を実現する。通信I/F125は、接続端子及び通信回路等を含んでもよい。操作I/F126は、操作部20dの機能を実現する。操作I/F126は、ボタン、ダイヤル、キー、タッチパネル及び音声入力のためのマイク等の入力装置を含んでもよい。表示装置127は、表示部20eの機能を実現する。表示装置127は、液晶パネル、有機EL(Electroluminescence)、無機EL及び電子ペーパーディスプレイ等のディスプレイであってもよい。表示装置127は、操作I/F126を兼ねたタッチパネルであってもよい。表示装置127はスピーカを含んでもよい。
メモリ124は、記憶部20cの機能を実現する。メモリ124は、揮発性又は不揮発性の半導体メモリ、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置で構成される。なお、メモリ124が、不揮発性記憶装置122及び/又は揮発性記憶装置123を含んでもよい。
CPU121は、機器制御部20aの機能を実現する。CPU121はプロセッサ等で構成される。不揮発性記憶装置122の例は、ROM(Read Only Memory)であり、揮発性記憶装置123の例は、RAM(Random Access Memory)である。機器制御部20aを動作させるプログラムは、不揮発性記憶装置122又はメモリ124等に予め保持されている。プログラムは、CPU121によって、不揮発性記憶装置122又はメモリ124等から揮発性記憶装置123に読み出されて展開される。CPU121は、揮発性記憶装置123に展開されたプログラム中のコード化された各命令を実行する。なお、プログラムは、例えば記録ディスク等の記録媒体に格納されていてもよい。また、プログラムは、有線ネットワーク、無線ネットワーク又は放送等を介して伝送され、揮発性記憶装置123に取り込まれてもよい。
なお、機器制御部20aは、CPU121等のプログラム実行部によって実現されてもよく、回路によって実現されてもよく、プログラム実行部及び回路の組み合わせによって実現されてもよい。例えば、このような構成要素は、集積回路であるLSI(大規模集積回路:Large Scale Integration)として実現されてもよい。このような構成要素は個別に1チップ化されてもよく、一部又は全てを含むように1チップ化されてもよい。LSIとして、LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、LSI内部の回路セルの接続及び/又は設定を再構成可能なリコンフィギュラブル・プロセッサ、又は、特定用途向けに複数の機能の回路が1つにまとめられたASIC(Application Specific Integrated Circuit)等が利用されてもよい。
図5に示すように、予約サーバ装置30は、CPU131と、不揮発性記憶装置132と、揮発性記憶装置133と、メモリ134と、通信I/F135と、操作I/F136と、表示装置137とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。
予約サーバ装置30の例は、コンピュータ装置である。
通信I/F135は、通信部30bの機能を実現する。通信I/F135の構成は、通信I/F125について上述した構成と同様である。操作I/F136は、操作部30dの機能を実現する。操作I/F136の構成は、操作I/F126について上述した構成と同様である。表示装置137は、表示部30eの機能を実現する。表示装置137の構成は、表示装置127について上述した構成と同様である。メモリ134は、記憶部30cの機能を実現する。メモリ134の構成は、メモリ124について上述した構成と同様である。
CPU131は、機器制御部30aの機能を実現する。CPU131はプロセッサ等で構成される。不揮発性記憶装置132の例はROMであり、揮発性記憶装置133の例はRAMである。CPU131、不揮発性記憶装置132及び揮発性記憶装置133の構成は、CPU121、不揮発性記憶装置122及び揮発性記憶装置123について上述した構成と同様である。
次いで、端末装置10の機能的な構成を説明する。図6は、実施の形態1に係る端末システム100の機能的な構成の一例を示すブロック図である。端末装置10は、端末システム100を構成する。端末システム100は、拠点それぞれに配置される。端末システム100は、自身が存在する拠点(以下、「自拠点」とも呼ぶ)において、端末装置10と、撮像部51と、音声入力部52と、音声出力部53と、表示部54と、入力部55とを備える。
撮像部51は、被写体の静止画及び/又は動画を撮像する。撮像部51の例は、デジタル画像を撮像するカメラである。撮像部51は、自拠点が同じである端末装置10と、有線通信又は無線通信を介して接続される。撮像部51は、自拠点の会議室内の参加者等の拠点の画像を撮像し、撮像した画像の画像データを端末装置10に出力する。
音声入力部52は、周囲から音声を取得し、取得した音声を音声信号等の音声データに変換し出力する。音声入力部52は、音源の方向に応じた音声データを出力する。音声入力部52の例は、複数のマイクロホンが配列されたマイクロホンアレイである。音声入力部52は、自拠点が同じである端末装置10と、有線通信又は無線通信を介して接続される。音声入力部52は、自拠点の会議室内の参加者等の音声を取得し、その音声データを端末装置10に出力する。
音声出力部53は、周囲へ音声を出力する。音声出力部53の例は、スピーカである。音声出力部53は、自拠点が同じである端末装置10と、有線通信又は無線通信を介して接続される。音声出力部53は、端末装置10から取得する音声データを音声に変換し、自拠点の会議の参加者等へ向かって音声を出力する。例えば、音声出力部53は、他拠点の端末装置10から送信される音声データを出力する。
表示部54は、入力される画像データを、画像として出力する。表示部54の例は、液晶パネル、有機EL、無機EL及び電子ペーパーディスプレイである。表示部54は、入力部55の機能を兼ねたタッチパネルであってもよい。表示部54は、自拠点が同じである端末装置10と、有線通信又は無線通信を介して接続される。表示部54は、端末装置10から取得する画像データを画像に変換し、自拠点の会議の参加者へ向かって画像を出力する。例えば、表示部54は、他拠点の端末装置10から送信される画像データを出力する。1つの拠点に1つの表示部54が配置され、他の全ての拠点の端末装置10から送信される画像を出力してもよい。又は、他の拠点と同じ数量の表示部54が配置され、各表示部54は、他の拠点のうちの1つの拠点の端末装置10から送信される画像を出力してもよい。又は、表示部54は、拠点の参加者それぞれに配置されてもよい。
入力部55は、会議の参加者等の自拠点の操作者による入力を受け付け、入力された情報を示す信号等の入力データを端末装置10に出力する。入力部55は、有線通信又は無線通信を介して端末装置10と接続される。入力部55は、表示部54によって表示される画像に対する編集の入力を受け付ける。入力部55の例は、キー、マウス及びタッチパネルである。
端末装置10は、自拠点に存在する撮像部51、音声入力部52、音声出力部53、表示部54及び入力部55の各構成要素と、有線通信又は無線通信を介して接続されるが、これら構成要素の少なくとも1つと一体化されていてもよい。各構成要素は、他の構成要素の少なくとも1つと一体化されていてもよい。上記有線通信又は無線通信は、有線LAN又は無線LAN等のいかなる通信であってもよい。
端末装置10は、第一通信部11と、第二通信部12と、制御部13と、端末操作部14と、端末表示部15、記憶部16とを含む。制御部13は、視線推定部13aと、音方向推定部13bと、注目情報決定部13cと、合成部13dと、エリア決定部13eと、露出制御部13fとを含む。
第一通信部11は、自拠点の撮像部51、音声入力部52、音声出力部53、表示部54及び入力部55と接続され、これらと通信する。第二通信部12は、ネットワーク40と接続され、他拠点の端末装置10、サーバ装置20及び予約サーバ装置30と通信する。自拠点の撮像部51、音声入力部52及び入力部55から出力される画像データ、音声データ及び入力信号は、第一通信部11を介して制御部13に入力され、制御部13の処理を受けた後、第二通信部12を介して他拠点の端末装置10に送信される。また、他拠点の端末装置10から送信される画像データ及び音声データは、第二通信部12を介して制御部13に入力され、制御部13の処理を受けた後、第一通信部11を介して音声出力部53及び表示部54に出力される。
端末操作部14は、端末装置10の操作者による操作、情報及び指令の入力を受け付け、制御部13に出力する。端末表示部15は、制御部13から出力されるデータを、画像として出力する。また、端末表示部15は、制御部13から出力される音声データを、音声として出力する機能を備えてもよい。
記憶部16は、種々の情報の記憶及び取り出しを可能にする。例えば、記憶部16には、自拠点の撮像部51、音声入力部52、音声出力部53及び表示部54の相対的な位置及び/絶対的な位置の情報、並びに、会議の拠点の識別情報等が、予め記憶される。記憶部16は、制御部13と接続されている。
制御部13は、端末装置10の全体の動作を制御する。制御部13は、第一通信部11を介して、自拠点の撮像部51、音声入力部52、音声出力部53、表示部54及び入力部55とデータを送受信する。制御部13は、第二通信部12及びネットワーク40を介して、他拠点の端末装置10、サーバ装置20及び予約サーバ装置30とデータを送受信する。
視線推定部13aは、自拠点の参加者の視線を推定する。具体的には、視線推定部13aは、自拠点の撮像部51によって撮像された画像データを取得し、当該画像データの画像に写し出される参加者の視線の方向を推定する。画像における人の抽出、及び、抽出された人の視線方向の推定は、既知の技術により実現可能である。
さらに、視線推定部13aは、自拠点の撮像部51及び表示部54の相対的な位置の情報を記憶部16から取得する。視線推定部13aは、推定された視線の方向と相対的な位置の情報とを用いて、表示部54の画面上における各視線が指す領域である注目領域の位置及び範囲を推定する。撮像部51及び表示部54の相対的な位置の情報は、撮像部51の位置と表示部54の位置との相対的な関係と、撮像部51の撮像方向(「光軸方向」とも呼ばれる)と表示部54の画面の向きとの相対的な関係とを含む。
さらに、視線推定部13aは、注目領域の推定結果を用いて、表示部54によって表示される画像上における注目領域の位置及び範囲の画素座標を算出する。画素座標は、画像に設定される2次元座標であり、1画素つまり1ピクセルを1単位とする。そして、視線推定部13aは、注目領域の位置及び範囲の画素座標と自拠点のID等の識別情報とを対応付けて含む注目情報を、注目情報決定部13cに出力する。
なお、視線推定部13aは、自拠点の表示部54によって表示される画像のデータを取得し、当該画像に写し出される参加者を抽出してもよい。視線推定部13aは、当該画像上において、抽出された参加者の位置及び範囲と注目領域の位置及び範囲とを比較することにより、抽出された参加者が写し出される注目領域を特定してもよい。そして、視線推定部13aは、抽出された参加者にID等の識別情報を設定し、当該識別情報と、注目領域の位置及び範囲の画素座標等とを対応付けて、注目情報に含めてもよい。
音方向推定部13bは、自拠点の参加者のうちの話者の方向を推定する。具体的には、音方向推定部13bは、自拠点の音声入力部52によって取得された音声データを取得し、当該音声データの音声発生源の方向を推定する。音声発生源の方向の例は、音声入力部52からの方位である。マイクロホンアレイ等の音声入力部52を用いた音声発生源の方向の推定は、既知の技術により実現可能である。
さらに、音方向推定部13bは、自拠点の撮像部51及び音声入力部52の相対的な位置の情報を記憶部16から取得する。音方向推定部13bは、推定された音声発生源の方向と相対的な位置の情報とを用いて、撮像部51によって撮像される画像上における音声発生源の領域の位置及び範囲の画素座標を推定する。つまり、音方向推定部13bは、画像上における話者の位置及び範囲の画素座標を推定する。音声発生源の領域は、注目領域である。撮像部51及び音声入力部52の相対的な位置の情報は、撮像部51の位置と音声入力部52の位置との相対的な関係と、撮像部51の撮像方向と音声入力部52の集音方向との相対的な関係とを含む。
そして、音方向推定部13bは、注目領域の位置及び範囲の画素座標と自拠点のID等の識別情報とを対応付けて含む注目情報を、注目情報決定部13cに出力する。なお、音方向推定部13bは、自拠点の撮像部51によって撮像される画像のデータを取得し、当該画像に写し出される参加者を抽出してもよい。音方向推定部13bは、当該画像上において、抽出された参加者の位置及び範囲と注目領域の位置及び範囲とを比較することにより、抽出された参加者が写し出される注目領域を特定してもよい。そして、音方向推定部13bは、抽出された参加者にID等の識別情報を設定し、当該識別情報と、注目領域の位置及び範囲の画素座標等とを対応付けて、注目情報に含めてもよい。
注目情報決定部13cは、視線推定部13a及び音方向推定部13bから注目情報を取得する。さらに、注目情報決定部13cは、画像上における注目領域を示す指標を決定する。具体的には、注目情報決定部13cは、画像上において、注目領域に外接する矩形枠を指標として生成し、当該矩形枠の頂点の画素座標と当該矩形枠の寸法とを算出する。注目情報決定部13cは、矩形枠の頂点の座標及び寸法と自拠点の識別情報とを少なくとも対応付けて含む注目情報を、第二通信部12を介して、他拠点の端末装置10に送信する。また、注目情報決定部13cは、当該注目情報を合成部13dに出力する。
合成部13dは、自拠点の注目情報決定部13cから注目情報を取得し、他拠点の端末装置それぞれから当該他拠点の注目情報を取得する。さらに、合成部13dは、自拠点の注目情報に他拠点の注目情報を加算することによって、自拠点の撮像部51によって撮像される画像上における注目情報を合成する。自拠点の注目情報は、自拠点の音方向推定部13bによって算出される注目領域を示す指標の頂点の座標及び寸法であり、話者の方向の推定結果に基づく情報である。他拠点の注目情報は、他拠点の視線推定部13aによって算出される注目領域を示す指標の頂点の座標及び寸法であり、参加者の視線の推定結果に基づく情報である。
エリア決定部13eは、合成部13dによって合成された注目情報に対して、予め決められた重み付けを付加することによって、注目エリアを決定する。エリア決定部13eは、注目エリアの情報を露出制御部13fに出力する。重み付けに関する情報は、例えば、記憶部16に記憶されている。
露出制御部13fは、注目エリアの情報を用いて、自拠点の撮像部51によって撮像された画像の露光を調整する。露出制御部13fは、露光調整後の画像を、第二通信部12を介して他拠点の端末装置10に送信する。
次いで、端末装置10のハードウェア構成を説明する。図7は、実施の形態1に係る端末装置10のハードウェア構成の一例を示すブロック図である。図7に示すように、端末装置10は、CPU111と、不揮発性記憶装置112と、揮発性記憶装置113と、第一通信I/F114と、第二通信I/F115と、操作I/F116と、表示装置117と、メモリ118とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。
端末装置10の例は、コンピュータ装置である。なお、端末装置10を含む端末システム100は、複数の装置からなるシステムであってもよく、1つの装置であってもよい。1つの装置の場合、端末システム100の例は、コンピュータ装置及び多機能テレビ等である。
第一通信I/F114は、第一通信部11の機能を実現する。第二通信I/F115は、第二通信部12の機能を実現する。第一通信I/F114及び第二通信I/F115は、通信I/F125について上述した構成と同様である。
操作I/F116は、端末操作部14の機能を実現する。操作I/F116の構成は、操作I/F126について上述した構成と同様である。表示装置117は、端末表示部15の機能を実現する。表示装置117の構成は、表示装置127について上述した構成と同様である。メモリ118は、記憶部16の機能を実現する。メモリ118の構成は、メモリ124について上述した構成と同様である。
CPU111は、制御部13の各構成要素の機能を実現する。CPU111はプロセッサ等で構成される。不揮発性記憶装置112の例はROMであり、揮発性記憶装置113の例はRAMである。CPU111、不揮発性記憶装置112及び揮発性記憶装置113の構成は、CPU121、不揮発性記憶装置122及び揮発性記憶装置123について上述した構成と同様である。
<端末装置10の処理>
端末装置10の処理の詳細を説明する。以下において、4つの拠点CP1~CP4のうちの第一拠点CP1の端末装置10aの処理について説明するが、他の拠点CP2~CP4の端末装置10b~10dについても同様であるため、その説明を省略する。
<第一拠点CP1内の配置>
まず、第一拠点CP1内の配置を説明する。図8Aは、会議の拠点CP1~CP4のうちの第一拠点CP1における参加者及び撮像部51の配置の一例を示す平面図である。図8Bは、図8Aの第一拠点CP1の撮像部51によって撮像された画像の一例を示す図である。
図8Aに示すように、第一拠点CP1では、矩形状の会議机MDの周りに、1つの撮像部51と3名の参加者PA~PCとが位置している。撮像部51と参加者PBとは対向して位置し、参加者PAと参加者PCとは対向して位置している。参加者PA~PCは、撮像部51の視野内に位置している。撮像部51は、表示部54の上部に配置され、撮像部51の撮像方向と表示部54の画面の指向方向とは、略平行である。画面の指向方向は、画面に垂直な方向である。このような撮像部51は、参加者PA~PCを撮像することによって、図8Bに示すような画像I1を出力する。画像I1では、参加者PA~PC及び会議机MDそれぞれの像である参加者像PA1~PC1及び会議机像MD1が写し出されている。
<露出制御部13fの露出制御>
次いで、露出制御部13fの露出制御を説明する。図9Aは、露出制御における画像に設定される測光領域の一例を示す図である。図9Bは、図8Bの画像I1への測光領域の適用例を示す図である。図9Aに示すように、露出制御において、画像Iは複数の測光領域Imnに分割される。測光領域Imnは、測光値を算出ための最小単位の領域である。図9Aでは、複数の測光領域Imnは、画像Iを水平方向にm分割し且つ垂直方向にn分割することによって、形成されている。
各測光領域Imnについて、当該測光領域Imnに含まれる画素の画素値を示す輝度信号を積分することによって、測光値が算出される。また、各測光領域Imnには、重み付けが付与されている。そして、全ての測光領域Imnの測光値それぞれに重み付けを付与した重み付け後の測光値の平均値が、AE(アコースティックエミッション:)評価値として算出される。つまり、全ての測光領域Imnの測光値の加重平均値が、AE評価値として算出される。AE評価値とターゲット輝度値との差異がエラー量として算出される。そして、エラー量が所定の範囲内に収まるように、ゲイン及び露光時間等が制御されることで、露出制御される。
例えば、全ての測光領域Imnの重み付けが同じである場合、画像の視野内全体に対して均一に露出が合わせられる。例えば、図9Bに示す参加者像PB1に比重をおいて露出制御する場合、参加者像PB1付近の測光領域Imnの重み付けが、参加者像PB1以外の測光領域Imnの重み付けよりも大きくされる。よって、各測光領域Imnに対する重み付けを制御することによって、画像内の対象とする被写体に合わせた露出制御が可能である。これにより、対象とする被写体における白飛び、黒つぶれ又はこれらに近い状態の発生が抑えられる。
例えば、露出制御部13fは、エリア決定部13eから取得される重み付け後の注目エリアの情報を用いて、画像I1の各測光領域Imnに重み付けを設定する。図10は、露出制御における図9Bの画像I1への測光領域Imnの重み付けの一例を示す図である。図10の画像I1では、注目エリアが表されており、注目エリアは、参加者像PB1及びその付近の領域である。注目エリアのうち、濃いドットで示される測光領域Imncは、最も注目されているエリア、つまり最も高い注目度のエリアである。薄いドットで示される測光領域Imnbは、次に注目されているエリア、つまり次に高い注目度のエリアである。無地である測光領域Imnaは、注目されていないエリア、つまり非注目のエリアである。
例えば、露出制御部13fは、測光領域Imncに対する露出制御の重み付けを最も大きく設定する。露出制御部13fは、測光領域Imnbに対する重み付けを測光領域Imncよりも小さいが、画像I1に予め設定されている通常の重み付けよりも大きく設定する。露出制御部13fは、測光領域Imnaに対する重み付けを通常の重み付けよりも小さく設定する、又は、重み付けをなくす、つまり0にする。このように、露出制御部13fは、より注目されているエリアにより大きな重み付けを行うことによって、注目エリアに比重を置いた露出制御を行う。
<視線推定部13aの注目領域の推定処理>
視線推定部13aの注目領域の推定処理を説明する。図11Aは、図8Bの第一拠点CP1の画像に対する第二拠点CP2の参加者Vbの視線情報の一例を示す図である。図11Bは、図8Bの第一拠点CP1の画像に対する第三拠点CP3の参加者Vcの視線情報の一例を示す図である。図11Cは、第二拠点CP2及び第三拠点CP3の視線情報を用いて測光領域の注目情報が設定された図9Bの画像の一例を示す図である。
図11A及び図11Bに示すように、第一拠点CP1の撮像部51によって撮像された画像I1は、端末装置10aによって、他の拠点の端末装置10b~10dに送信される。例えば、第二拠点CP2の表示部54には、画像I1と同様の画像I2が表示され、第三拠点CP3の表示部54には、画像I1と同様の画像I3が表示される。
図11Aに示すように、第二拠点CP2の端末装置10bの視線推定部13aは、自拠点の撮像部51によって撮像された参加者Vbの画像を用いて、参加者Vbの視線の方向を推定する。さらに、当該視線推定部13aは、参加者Vbの視線の方向と、第二拠点CP2の撮像部51及び表示部54の相対的な位置の情報とを用いて、自拠点の表示部54によって表示される画像I2上での注目領域F2の位置及び範囲の画素座標を算出する。
端末装置10bの注目情報決定部13cは、注目領域F2の位置及び範囲の画素座標を用いて、注目領域F2に外接する枠F2fの1つの頂点の画素座標(x2,y2)と枠F2fの寸法(w2,z2)とを算出する。枠F2fの頂点の画素座標及び枠の寸法は、画像I2の画素座標を用いて算出される。画素座標の成分「x2」は画像I2の水平方向の成分であり、成分「y2」は画像I2の垂直方向の成分である。寸法の成分「w2」は画像I2の水平方向の寸法であり、成分「z2」は画像I2の垂直方向の寸法である。画像I2の水平方向及び垂直方向はそれぞれ、格子状に配列された画素の横及び縦の並び方向である。
注目情報決定部13cは、自拠点のID「CP2」と、注目領域の対象である第一拠点CP1の参加者のID「C」と、枠頂点の画素座標(x2,y2)と、枠寸法(w2,z2)とを対応付けて含む注目情報を、第一拠点CP1の端末装置10aに送信する。
図11Bに示すように、第三拠点CP3の端末装置10cの視線推定部13aは、自拠点の撮像部51によって撮像された参加者Vcの画像を用いて、参加者Vcの視線の方向を推定する。さらに、当該視線推定部13aは、参加者Vcの視線の方向と、第三拠点CP3の撮像部51及び表示部54の相対的な位置の情報とを用いて、自拠点の表示部54の画像I3上での注目領域F3の位置及び範囲の画素座標を算出する。
端末装置10cの注目情報決定部13cは、注目領域F3の位置及び範囲の画素座標を用いて、注目領域F3の外接枠F3fの頂点の画素座標(x3,y3)及び枠寸法(w3,z3)を、画像I3の画素座標に基づいて算出する。
注目情報決定部13cは、自拠点のID「CP3」と、注目領域の対象である第一拠点CP1の参加者のID「B」と、枠頂点の画素座標(x3,y3)と、枠寸法(w3,z3)とを対応付けて含む注目情報を、第一拠点CP1の端末装置10aに送信する。
また、第一拠点CP1の端末装置10aの合成部13dは、画像I1に対して測光領域を区分する処理を行うことによって、画像I1Aを生成する。合成部13dは、各拠点の端末装置10から受信した注目情報を、画像I1Aに適用する。
図11Cに示すように、例えば、合成部13dは、第二拠点CP2の端末装置10bの注目情報を適用することによって、画像I1A上に枠F2fを形成する。また、合成部13dは、第三拠点CP3の端末装置10cの注目情報を適用することによって、画像I1A上に枠F3fを形成する。
合成部13dは、枠F2fに全体が含まれる測光領域及び枠F3fに全体が含まれる測光領域をそれぞれ、最も高い注目度の測光領域である第一注目領域に決定する。合成部13dは、枠F2fに部分的に含まれる測光領域及び枠F3fに部分的に含まれる測光領域をそれぞれ、次に高い注目度の測光領域である第二注目領域に決定する。合成部13dは、枠F2fに含まれない測光領域及び枠F3fに含まれない測光領域をそれぞれ、注目されていない測光領域である非注目領域に決定する。
なお、画像I1A内の参加者像PA1~PC1を抽出することによって、第一注目領域内の測光領域をさらに差異付けてもよい。例えば、合成部13dは、第一注目領域内において、参加者像PA1~PC1を少なくとも部分的に含む測光領域の注目度は、参加者像PA1~PC1を含まない測光領域よりも高いと決定してもよい。
合成部13dは、第一注目領域及び第二注目領域を含む領域を注目測光領域に決定する。図11Cにおいて、第一注目領域は濃いドットで示され、第二注目領域は薄いドットで示され、非注目領域は無地である。このように、第一拠点CP1の端末装置10aは、他拠点の視線情報に基づく注目領域を用いて、第一拠点CP1を写す画像I1における注目測光領域を決定する。ここで、視線情報に基づく注目領域の情報は、視点情報の一例である。
<音方向推定部13bの注目領域の推定処理>
音方向推定部13bの注目領域の処理を説明する。図12Aは、第一拠点CP1における話者の方向の一例を示す図である。図12Bは、第一拠点CP1における話者の方向を用いて測光領域の注目情報が設定された図9Bの画像の一例を示す図である。
図12Aに示すように、第一拠点CP1において、音声入力部52は、撮像部51及び表示部54の下方に配置されて、参加者PA~PCの音声を取得する。例えば、参加者PCが発話すると、音声入力部52は、参加者PCの音声を取得し、その音声データを端末装置10aの音方向推定部13bに出力する。音方向推定部13bは、取得された音声データを用いて、音声入力部52から当該音声データの音源である参加者PCへの方向を推定する。音方向推定部13bは、参加者PCの方向と、自拠点の撮像部51及び音声入力部52の相対的な位置の情報とを用いて、撮像部51によって撮像される画像I1上における注目領域である音源の領域の位置及び範囲の画素座標を算出する。
端末装置10aの注目情報決定部13cは、音源の領域の位置及び範囲の画素座標を用いて、音源の領域に外接する枠FAfの1つの頂点の画素座標と枠FAfの寸法とを算出する。
注目情報決定部13cは、自拠点のID「CP1」と、注目領域の対象である参加者のID「C」と、枠FAfの頂点の画素座標と、枠FAfの寸法とを対応付けて含む注目情報を、端末装置10aの合成部13dに出力する。
また、合成部13dは、画像I1に対して測光領域を区分する処理を行うことによって、画像I1Aを生成する。合成部13dは、注目情報決定部13cから取得された注目情報を、画像I1Aに適用する。
図12Bに示すように、例えば、合成部13dは、注目情報を適用することによって、画像I1A上に枠FAfを形成する。合成部13dは、枠FAfに全体が含まれる測光領域を第一注目領域に決定し、枠FAfに部分的に含まれる測光領域を第二注目領域に決定し、枠FAfに含まれない測光領域を非注目領域に決定する。
なお、画像I1A内の参加者像PA1~PC1を抽出することによって、第一注目領域内の測光領域をさらに差異付けてもよい。例えば、合成部13dは、第一注目領域内において、参加者像PA1~PC1を少なくとも部分的に含む測光領域の注目度を、参加者像PA1~PC1を含まない測光領域よりも高く設定してもよい。
合成部13dは、第一注目領域及び第二注目領域を含む領域を注目測光領域に決定する。このように、第一拠点CP1の端末装置10aは、自拠点の音方向の情報に基づく注目領域を用いて、第一拠点CP1を写す画像I1における注目測光領域を決定する。
<合成部13dの注目エリア決定処理>
合成部13dの注目エリア決定処理を説明する。図13は、各拠点の注目情報から設定される各測光領域の注目情報の一例を示す図である。図13は、第一拠点CP1の撮像部51の画像I1Aに対する注目エリアの決定方法を示す。図13では、話者は、参加者PAである。
第一拠点CP1の端末装置10aの合成部13dは、画像I1Aについて、自拠点の注目情報決定部13cから、音方向の情報に基づく注目測光領域の情報を取得し、他拠点CP2~CP4の端末装置10b~10dの注目情報決定部13cから、視線情報に基づく注目測光領域の情報を取得する。注目測光領域の情報は、注目測光領域及び非注目領域の位置及び注目度を含む、つまり、各測光領域の注目度を含む。なお、各注目情報決定部13cによって、注目度は数値化され、値が大きいほど注目度が高い。
図13では、例えば、第一注目領域の注目度は「3」であり、第二注目領域の注目度は「2」であり、非注目領域の注目度は「0」である。例えば、第一拠点CP1の注目測光領域において、参加者像PA1の顔を含む測光領域は、第一注目領域であり、参加者像PA1周辺の測光領域は、第二注目領域である。他拠点CP2~CP4の注目測光領域の測光領域は、第二注目領域である。
合成部13dは、第一拠点CP1の注目測光領域の各測光領域の注目度に、他拠点CP2~CP4の注目測光領域の対応する測光領域の注目度を加算する。第一拠点CP1の測光領域の注目度に対して、画像I1A上で当該測光領域と同じ位置にある他拠点CP2~CP4の測光領域の注目度が加算される。これにより、合成部13dは、各測光領域の注目度が加算後の注目度である加算注目情報を生成し、エリア決定部13eに出力する。
エリア決定部13eは、取得された加算注目情報において、最も注目度が大きい測光領域を抽出する。例えば、図13では、注目度「9」が最も大きく、注目度「9」の測光領域が最も注目されていると見なすことができる。
例えば図14のように、エリア決定部13eは、注目度「9」の測光領域を中心とした周囲の測光領域に対して、予め設定された重み付け方法に従って、注目度を再設定することによって、注目エリアを決定する。図14は、図13の各測光領域の注目情報への重み付け後の各測光領域の注目情報の一例を示す図である。
図14では、重み付け方法は、注目度「9」の測光領域の中心から周辺に向かって、例えば所定の割合で、注目度を次第に小さくする重点形式である。しかしながら、重み付け方法は、図13の方法に限定されない。例えば、重み付け方法は、最も注目度が大きい測光領域のみ、又は、所定の注目度以上の測光領域等に、注目度を設定するスポット形式でもよい。エリア決定部13eは、設定後の各測光領域の注目度を含む注目エリア情報を露出制御部13fに出力する。
露出制御部13fは、画像I1Aの各測光領域に対して、注目エリア情報に含まれる各測光領域の注目度に対応する重み付けで露出制御を行う。つまり、露出制御部13fは、注目エリア情報を、露出制御における測光領域の重み付けに活用する。これにより、最も多くの人が注目している領域に対する最適な露出制御が可能になる。
また、加算注目情報において、最も注目度が大きい2つ以上の測光領域が分散して存在する場合がある。例えば、図15は、注目度が高い領域が分散している例を示す図である。図15は、注目エリアを示し、最大注目度「9」である測光領域をそれぞれが含む2つの分離した注目エリアが存在する。つまり、参加者の注目ポイントが2つに割れていることが示される。このような場合、露出制御部13fは、注目度「9」の2つの測光領域の測光値の差異の大きさから、露出制御方式を決定してもよい。
例えば、測光値の差異の絶対値が所定の範囲内である場合、いずれの測光領域に合わせた露出制御であっても、2つの注目エリアに対して最適な露出制御が可能である。このため、露出制御部13fは、いずれか一方の測光領域に合わせた露出制御を行う。
また、測光値の差異の絶対値が所定の範囲を超える場合、例えば、一方の測光領域が逆光で撮像された画像に対応し、他方の測光領域が順光で撮像された画像に対応すると考えられる。この場合、露出制御部13fは、露出制御方式をダイナミックレンジが広がるモードに切り替える。このようなモードの例は、ヒストグラム測光方式、WDR(ワイドダイナミックレンジ:Wide dynamic range)合成、HDR(ハイダイナミックレンジ:High dynamic range)合成等である。上記切り替えにより、明暗差の大きい2つの注目エリアであっても、ユーザにとって両方が見やすい画像を生成することができる。
<端末装置10の動作>
端末装置10の動作を説明する。図16は、実施の形態1に係る端末システム100の動作の一例を示すフローチャートである。以下の説明において、第一拠点CP1の端末装置10aの動作を説明する。他の拠点CP2~CP4の端末装置10b~10dの動作も端末装置10aと同様であるため、その説明を省略する。
図16に示すように、会議が開始すると、端末装置10aは、自拠点の音方向の情報に基づく自拠点の注目情報を、算出することによって取得する(ステップS1)。さらに、端末装置10aは、他拠点の視線情報に基づく他拠点の注目情報を、他拠点の端末装置10b~10dから取得する(ステップS2)。
さらに、端末装置10aは、自拠点の注目情報に他拠点の注目情報を加算することによって、加算注目情報を取得する(ステップS3)。端末装置10aは、加算注目情報において、最も大きい注目度の測光領域の数量が1つである場合(ステップS4でNO)、ステップS5の処理に進み、最も大きい注目度の測光領域の数量が2つ以上である場合(ステップS4でYES)、ステップS6の処理に進む。
ステップS5において、端末装置10aは、最も大きい注目度の1つの測光領域を中心とする注目エリアを決定し、当該注目エリアの情報を生成する。次いで、端末装置10aは、注目エリアの情報を測光領域の重みとして重み付けした露出制御を行う(ステップS10)。次いで、端末装置10aは、ステップS11の処理に進む。
また、ステップS6において、端末装置10aは、最も大きい注目度の測光領域間で測光値の差異を算出する。端末装置10aは、差異の絶対値の全てが所定の数値範囲内である場合(ステップS7でYES)、ステップS8の処理に進み、差異の絶対値のいずれかが所定の数値範囲の外である場合(ステップS7でNO)、ステップS9の処理に進む。なお、最も大きい注目度の測光領域の数量が3つ以上である場合、2つ以上の差異が算出される。
ステップS8において、端末装置10aは、最も大きい注目度の測光領域のいずれかを中心とする注目エリアを決定し、当該注目エリアの情報を生成する。次いで、端末装置10aは、ステップS10に進む。
ステップS9において、端末装置10aは、ダイナミックレンジが広い撮影シーンであると判定し、ダイナミックレンジを広げる露出制御方式へ露出制御を切り替える。次いで、端末装置10aは、ステップS11の処理に進む。
ステップS11において、端末装置10aは、会議終了の指令を受け付けると(ステップS11でYES)、一連の処理を終了し、会議終了の指令を受け付けていない場合(ステップS11でNO)、ステップS1に戻る。
<効果等>
上述のような実施の形態1に係る端末装置10aは、第一拠点CP1に配置され且つ他の拠点CP2~CP4に配置された複数の端末装置10b~10dと通信する。端末装置10aは、第一拠点CP1を撮像した画像である第一拠点画像を複数の端末装置10b~10dに出力する出力部としての第二通信部12と、複数の端末装置10b~10dそれぞれから、端末装置10b~10dの拠点CP2~CP4で表示される第一拠点画像に対するユーザの視点情報を取得する取得部としての第一通信部11と、第一拠点画像に対して、複数の視点情報から得られる第一拠点画像内のユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部13fとを備える。
上記構成によると、端末装置10aは、他の拠点における第一拠点画像に対する視点情報を用いて、第一拠点画像の露出制御を行う。端末装置10aは、第一拠点画像において、複数の視点情報から得られる注目度の高い領域を測光領域とする露出制御をすることで、多くのユーザにとって鮮明な当該領域を提示することができる。つまり、端末装置10aは、より多くのユーザに対して最適な露出制御を行うことができる。
また、実施の形態1に係る端末装置10aは、音方向推定部13bを備えてもよい。音方向推定部13bは、第一拠点CP1に対して集音された音声データから音源の方向を推定する方向推定部として機能し、音源の方向を用いて、第一拠点画像における音源の位置情報を推定する位置推定部として機能してもよい。露出制御部13fは、第一拠点画像に対して、複数の視点情報及び音源の位置情報から得られる第一拠点画像内の注目度の高い領域を測光領域とする露出制御を行ってもよい。
上記構成によると、露出制御部13fが露出制御に用いる視点情報及び音源の位置情報は、他の拠点における視点情報と、第一拠点CP1における音源の位置情報とを含む。例えば、第一拠点画像において、音源の位置は、他の拠点のユーザの注目度が高い位置であると見なすことができる。端末装置10aは、第一拠点画像において、視点情報及び音源の位置情報に関して注目度の高い領域を測光領域とする露出制御をすることで、より多くのユーザに対して最適な露出制御を行うことができる。
また、実施の形態1に係る端末装置10aは、視線推定部13aを備えてもよい。視線推定部13aは、第一拠点画像から、第一拠点CP1のユーザの視線を推定してもよい。さらに、視線推定部13aは、視点生成部として機能し、視線の情報を用いて、端末装置10b~10dから取得され且つ第一拠点で表示される第二拠点画像であって、端末装置10b~10dの拠点を撮像した画像である第二拠点画像に対する第一拠点CP1のユーザの視点を示す視点情報を生成してもよい。さらに、第二通信部12は、視線推定部13aにより生成された視点情報を端末装置10b~10dに出力してもよい。
上記構成によると、端末装置10aは、他の端末装置10b~10dそれぞれに対して、端末装置10b~10dの拠点を撮像した画像に対する第一拠点CP1の視点情報を出力することができる。よって、端末装置10a~10dのそれぞれが、他拠点の視点情報を用いて、露出制御を行うことができる。
また、実施の形態1に係る端末装置10aにおいて、露出制御部13fは、注目度が最も高い領域である最大領域が複数ある場合、第一拠点画像における最大領域間の輝度値の差異が所定の範囲を超えるとき、ダイナミックレンジを広げるように露出制御を行ってもよい。なお、上記輝度値は、測光領域の測光値であってもよい。
上記構成によると、最大領域間の輝度値の差異が所定の範囲外にある場合、例えば、一方の最大領域が逆光で撮像された画像に対応し、他方の最大領域が順光で撮像された画像に対応すると考えられ得る。このような最大領域に対して、ダイナミックレンジを広げる露出制御を行うことによって、明暗差の大きい2つの領域であっても、ユーザにとって両方が見やすい画像を生成することができる。
また、実施の形態1に係る通信システムとしてのビデオ会議システム1は、複数の拠点に配置され且つ互いに通信する複数の端末装置10を備える。端末装置10はそれぞれ、端末装置10が配置される第一拠点を撮像した画像である第一拠点画像を他の端末装置10それぞれに出力する第一出力部としての第二通信部12と、他の端末装置10それぞれから取得され且つ第一拠点で表示される拠点画像であって、他の端末装置10それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を他の端末装置10に出力する第二出力部としての注目情報決定部13cと、他の端末装置10それぞれから、他の端末装置10それぞれが配置される拠点で表示される第一拠点画像に対する第二ユーザの視点情報を取得する取得部としての第一通信部11と、第一拠点画像に対して、他の端末装置10から取得された複数の視点情報から得られる第一拠点画像内の第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部13fとを備える。このビデオ会議システム1によれば、上記端末装置10と同様の効果が得られる。
また、本発明は撮像装置であってもよい。例えば、本発明の撮像装置は、第一拠点CP1に配置される。撮像装置は、第一拠点を撮像した画像である第一拠点画像を取得する撮像部51と、他の拠点に配置された複数の端末装置10b~10dと通信する端末装置10aとを備える。端末装置10aは、第一拠点画像を複数の端末装置10b~10dに出力する第二通信部12と、複数の端末装置10b~10dそれぞれから取得され且つ第一拠点で表示される拠点画像であって、複数の端末装置10b~10dそれぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を端末装置10b~10dに出力する注目情報決定部13cと、複数の端末装置10b~10dそれぞれから、端末装置10b~10dの拠点で表示される第一拠点画像に対する第二ユーザの視点情報を取得する第一通信部11と、第一拠点画像に対して、複数の端末装置10b~10dから取得された複数の視点情報から得られる第一拠点画像内の第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部13fとを備える。この撮像装置によれば、上記端末装置10と同様の効果が得られる。なお、撮像装置の一例は、端末システム100であってもよい。
また、本発明は撮像方法であってもよい。例えば、本発明に係る撮像方法は、第一拠点における撮像方法であって、前記第一拠点を撮像した画像である第一拠点画像を取得するステップと、他の拠点に配置された複数の端末と通信することによって、前記第一拠点画像を前記複数の端末に出力するステップと、前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力するステップと、前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得するステップと、前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行うステップと、前記露出制御後の前記第一拠点画像を、前記複数の端末に出力するステップとを含む。この撮像方法によれば、上記撮像装置と同様の効果が得られる。このような撮像方法は、CPU、LSIなどの回路、ICカード又は単体のモジュール等によって、実現されてもよい。
(実施の形態2)
実施の形態2に係る端末装置は、他拠点の端末装置から取得する注目情報に重み付けして注目情報を加算する。以下、実施の形態2について、実施の形態1と異なる点を中心に説明し、実施の形態1と同様の点の説明を適宜省略する。
図17は、実施の形態2に係る端末システムにおける注目情報の重要度の決定処理を説明する図である。図17に示すように、第一拠点CP1には、参加者PA~PCと、撮像部51aと、表示部54aが存在する。第二拠点CP2には、参加者PD~PFと、撮像部51bと、表示部54bが存在する。第三拠点CP3には、参加者PG~PIと、撮像部51cと、表示部54cが存在する。第四拠点CP4には、参加者PJ~PLと、撮像部51dと、表示部54dが存在する。
第一拠点CP1の端末装置10aが、撮像部51aによって撮像された画像を露出制御し、他拠点CP2~CP4の端末装置10b~10dに送信するケースを説明する。図17では、第二拠点CP2の参加者PDが最後の話者、つまり直近に発話した話者であり、第三拠点CP3の参加者PHが参加者PDの直前に発話した話者である。
端末装置10a~10dはそれぞれ、自拠点での音方向の情報に基づく注目情報を算出する。これにより、端末装置10a~10dはそれぞれ、自拠点において、発話した参加者と発話のタイミングとを検出することができる。そして、端末装置10a~10dはそれぞれ、他拠点の端末装置10a~10dに対して、自拠点における発話した参加者の識別情報と発話の時刻とを対応付けて含む話者情報を送信する。さらに、端末装置10a~10dはそれぞれ、拠点CP1~CP4の全ての参加者の発話の履歴を蓄積することで、発話した参加者の拠点の履歴の情報である話者履歴情報を記憶部16に保持する。
また、自拠点での音方向の情報に基づく注目情報は、音声入力部52によって取得される音声データが音声の検出時刻を含むことで、時刻の情報を含むことができる。また、他拠点での視線情報に基づく注目情報は、撮像部51によって撮像された画像データが撮像時刻を含むことで、時刻の情報を含むことができる。
端末装置10a~10dはそれぞれ、記憶部16の話者履歴情報と、自拠点での音方向の情報に基づく注目情報と、他拠点での視線情報に基づく注目情報とを、例えば時刻に基づき紐づける。そして、端末装置10a~10dはそれぞれ、話者履歴情報を用いて注目情報を重み付けする。
例えば、端末装置10aは、最後の話者である参加者PDがいる第二拠点CP2の端末装置10bから取得する注目情報の重みを最も大きい「重要度A」とし、参加者PDの直前の話者である参加者PHがいる第三拠点CP3の端末装置10bから取得する注目情報の重みを2番目に大きい「重要度B」とする。さらに、端末装置10aは、第二拠点CP2及び第三拠点CP3以外の拠点の端末装置10で生成され取得される注目情報の重みを最も小さい「重要度C」とする。
端末装置10aは、自拠点で生成される注目情報及び他拠点から取得される注目情報に、拠点に対応した重要度別の重み付けを行い、加算注目情報の算出の際に活用する。例えば、重み付けは、注目度への重みの乗算であってもよい。これにより、現在話者が存在する拠点において注目されている領域が見やすい映像が得られる。
また、端末装置10a~10dはそれぞれ、最後の話者がいる拠点以外の拠点の端末装置で生成された注目情報を、無効な注目情報として取り扱ってもよい。これにより、現在話者が存在する拠点において注目されている領域のみに最適に露出制御した映像が得られる。
また、実施の形態2に係る端末装置のその他の構成及び動作は、実施の形態1と同様であるため、その説明を省略する。そして、上述のような実施の形態2に係る端末装置によると、実施の形態1と同様の効果が得られる。
さらに、実施の形態2に係る端末装置10aは、複数の端末装置10b~10dそれぞれから、端末装置10b~10dの拠点CP2~CP4に対して集音された音声データの履歴情報を取得し、露出制御部13fは、複数の端末装置10b~10dから取得された視点情報に対して複数の端末装置10b~10dそれぞれの音声データの履歴情報に応じた重み付けをした重み付け後の視点情報を露出制御に用いてもよい。
上記構成によると、重み付け後の視点情報から得られる注目度には、音声データの履歴情報が反映される。例えば、音声データの取得時期が現在から近い拠点の視点情報に対する重みを大きくすることによって、当該視点情報から得られる注目度は高くなる。例えば、音声データの取得時期が現在から近い拠点ほど、他の拠点のユーザの注目度が高いと見なすことができる。よって、端末装置10aは、より多くのユーザに対して最適な露出制御を行うことができる。
(その他の実施の形態)
以上、本発明の実施の形態の例について説明したが、本発明は、上記実施の形態及び変形例に限定されない。すなわち、本発明の範囲内で種々の変形及び改良が可能である。例えば、各種変形を実施の形態又は変形例に施したもの、及び、異なる実施の形態及び変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、実施の形態に係る端末システム100において、撮像部51は、視線情報を取得するために拠点の参加者を撮像する機能と、露出制御部13fにより露出制御を受ける画像を撮像する機能とを兼ねていたが、これに限定されない。例えば、各機能を実現する2つの撮像部が設けられてもよい。
また、上記で用いた序数、数量等の数字は、全て本発明の技術を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明の技術を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。
また、機能ブロック図におけるブロックの分割は一例であり、複数のブロックを一つのブロックとして実現する、一つのブロックを複数に分割する、及び/又は、一部の機能を他のブロックに移してもよい。また、類似する機能を有する複数のブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。