JP7167610B2

JP7167610B2 - 通信端末、通信システム、撮像装置及び撮像方法

Info

Publication number: JP7167610B2
Application number: JP2018186050A
Authority: JP
Inventors: 宣正銀川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2022-11-09
Anticipated expiration: 2038-09-28
Also published as: JP2020057875A

Description

本発明は、通信端末、通信システム、撮像装置及び撮像方法に関する。

従来、インターネット等の通信網を介して、互いに離れた拠点の間で会議を行うビデオ会議システム等の通信システムがある。このようなビデオ会議システムでは、各拠点の撮像装置によって撮像された映像が、拠点間で送受信される。

例えば、逆光時の黒つぶれ及び過順光時の白飛び等を抑える撮像装置がある（例えば、特許文献１参照）。特許文献１の撮像装置は、撮影者の視点が各領域に存在する時間比率の大小により、主要被写体領域と非主要被写体領域とを判別し、主要被写体領域及び非主要被写体領域それぞれに対して露出制御を行う。

複数の拠点に参加者がいるビデオ会議システムでは、１つの拠点の撮像装置によって撮像された当該拠点の参加者の映像が、他の複数の拠点の参加者によって視られる。このようなビデオ会議システムに特許文献１の撮像装置を用いた場合、他の拠点の１人の参加者に対して、その視点が存在する領域の被写体に対する露出制御は可能である。しかしながら、上記複数の拠点に含まれ且つ上記他の拠点ではない拠点の参加者に対して、その参加者の視点が存在する領域とは異なる領域に対して露出制御が行われる場合がある。

そこで、本開示の通信端末、通信システム、撮像装置及び撮像方法は、より多くの参加者に対して最適な露出制御を行うことを目的とする。

本発明の一実施形態による通信端末は、第一拠点に配置され且つ他の拠点に配置された複数の端末と通信する通信端末であって、前記第一拠点を撮像した画像である第一拠点画像を前記複数の端末に出力する出力部と、前記複数の端末それぞれから、前記他の拠点で表示される前記第一拠点画像に対するユーザの視点情報を取得する取得部と、前記第一拠点画像に対して、複数の前記視点情報から得られる前記第一拠点画像内の前記ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える。

本発明の一実施形態による通信システムは、複数の拠点に配置され且つ互いに通信する複数の通信端末を備える通信システムであって、前記通信端末はそれぞれ、前記通信端末が配置される第一拠点を撮像した画像である第一拠点画像を他の前記通信端末それぞれに出力する第一出力部と、他の前記通信端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記他の通信端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記他の通信端末に出力する第二出力部と、他の前記通信端末それぞれから、前記他の通信端末それぞれが配置される拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得する取得部と、前記第一拠点画像に対して、他の前記通信端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える。

本発明の一実施形態による撮像装置は、第一拠点に配置される撮像装置であって、前記第一拠点を撮像した画像である第一拠点画像を取得する撮像部と、他の拠点に配置された複数の端末と通信する通信端末とを備え、前記通信端末は、前記第一拠点画像を前記複数の端末に出力する第一出力部と、前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力する第二出力部と、前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得する取得部と、前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える。

本発明の一実施形態による撮像方法は、第一拠点における撮像方法であって、前記第一拠点を撮像した画像である第一拠点画像を取得するステップと、他の拠点に配置された複数の端末と通信することによって、前記第一拠点画像を前記複数の端末に出力するステップと、前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力するステップと、前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得するステップと、前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行うステップと、前記露出制御後の前記第一拠点画像を、前記複数の端末に出力するステップとを含む。

本開示の技術によれば、より多くの参加者に対して最適な露出制御を行うことが可能になる。

実施の形態１に係るビデオ会議システムの構成の一例を示す図実施の形態１に係るサーバ装置の機能的な構成の一例を示すブロック図実施の形態１に係る予約サーバ装置の機能的な構成の一例を示すブロック図実施の形態１に係るサーバ装置のハードウェア構成の一例を示すブロック図実施の形態１に係る予約サーバ装置のハードウェア構成の一例を示すブロック図実施の形態１に係る端末システムの機能的な構成の一例を示すブロック図実施の形態１に係る端末装置のハードウェア構成の一例を示すブロック図会議の拠点のうちの第一拠点における参加者及び撮像部の配置の一例を示す平面図図８Ａの第一拠点の撮像部によって撮像された画像の一例を示す図露出制御における画像に設定される測光領域の一例を示す図図８Ｂの画像への測光領域の適用例を示す図露出制御における図９Ｂの画像への測光領域の重み付けの一例を示す図図８Ｂの第一拠点の画像に対する第二拠点の参加者の視線情報の一例を示す図図８Ｂの第一拠点の画像に対する第三拠点の参加者の視線情報の一例を示す図第二拠点及び第三拠点の視線情報を用いて測光領域の注目情報が設定された図９Ｂの画像の一例を示す図第一拠点における話者の方向の一例を示す図第一拠点における話者の方向を用いて測光領域の注目情報が設定された図９Ｂの画像の一例を示す図各拠点の注目情報から設定される各測光領域の注目情報の一例を示す図図１３の各測光領域の注目情報への重み付け後の各測光領域の注目情報の一例を示す図注目度が高い領域が分散している例を示す図実施の形態１に係る端末システムの動作の一例を示すフローチャート実施の形態２に係る端末システムにおける注目情報の重要度の決定処理を説明する図

近年、インターネット等の通信網を介して、互いに離れた会議の拠点の間で会議を行うビデオ会議システムが普及している。このような会議システムでは、各拠点において、端末システムを用いて、参加者等の画像及び音声が撮像及び収集され、画像及び音声がデジタルデータに変換されて、他の拠点の端末システムに送信される。他の拠点では、送信された画像及び音声それぞれが、ディスプレイ及びスピーカによって出力される。これにより、複数の拠点の参加者が、同じ拠点での会議に近い状態で会議を行うことができる。

しかしながら、従来のビデオ会議システムでは、撮像装置によって撮像された画像は、会議室全体等の撮像範囲全体に対して最適な露出制御が行われることが多い。必ずしも参加者が注目している箇所が最適な露出となるように制御されていない。特に、明暗差の大きい場所を撮像したとき、送信側の画像において、参加者が注目したいポイントが白飛び、黒つぶれ又はこれらに近い状態が発生する場合がある。このような場合、受信側の拠点において画質調整が行われても、良好な画像は得られない。

例えば、１つの壁に窓がある会議室では、会議室全体に露出を合わせると、窓側の人は逆光となる。このため、撮像された画像では、窓側の人の顔の像が、黒つぶれ又はそれに近い状態になる。一方、窓と反対側の人の顔には光がよく当たるため、より明るく撮像される。多くの参加者が明るく撮像される人の表情に注目するシーンでは、受信側の各拠点で画質調整が行われるとしても、撮像場所での明るさから大きな補正が必要であるため、良好な画質調整は困難である。

このことは、特許文献１の撮像装置にも当てはまる。この撮像装置は、撮像装置の画像を視る複数の拠点の参加者のうちの１人の参加者に対して、露出制御を行うことは可能であるが、他の参加者に対する露出制御を行うことができない。よって、多くの参加者に良好な画像を提供することが困難である。

そこで、本開示の技術は、より多くの参加者に対して最適な露出制御を行うことを可能にするビデオ会議端末、ビデオ会議システム、撮像装置及び撮像方法を提供する。

以下、本発明の実施の形態について添付の図面を参照しつつ説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することによって重複した説明を省く。

（実施の形態１）
通信システムは、互いに離れた位置にある複数の拠点に配置された通信端末を介して、複数の拠点間で画像及び音声等の情報を送受信するシステムである。本実施の形態では、通信システムは、複数の拠点間で会議を行うために用いられるビデオ会議システム１であるとして説明する。ビデオ会議システム１は、通信システムの一例である。

＜ビデオ会議システム１の構成＞
実施の形態１に係るビデオ会議システム１を説明する。図１は、実施の形態１に係るビデオ会議システム１の構成の一例を示す図である。図１に示すように、本実施の形態に係るビデオ会議システム１は、複数の端末装置１０と、サーバ装置２０と、予約サーバ装置３０とを含む。複数の端末装置１０、サーバ装置２０及び予約サーバ装置３０は、ネットワーク４０を介して互いに接続されている。ビデオ会議システム１は、互いに離れた位置にある複数の会議の拠点に配置された端末装置１０が、ネットワーク４０を介して、複数の拠点間で画像及び音声等の情報を送受信することで、各拠点の参加者が同じ場所にいるように会議を行うことを可能にする。本実施の形態では、会議の拠点は会議室であるが、これに限定されず、いかなる場所でもよい。ここで、端末装置１０は通信端末の一例であり、参加者はユーザの一例である。

本実施の形態では、４つの拠点に４つの端末装置１０ａ～１０ｄが配置されるとして説明する。しかしながら、２つ以上の端末装置が、２つ以上の拠点に配置されればよい。以下の説明において、４つの端末装置を個別に特定して表現する場合、参照符号「１０ａ～１０ｄ」を用いることがあり、４つの端末装置全体又は個別に特定せずに表現する場合、参照符号「１０」を用いることがある。

サーバ装置２０は、複数の端末装置１０間の通信を制御する。例えば、サーバ装置２０は、端末装置１０のそれぞれがサーバ装置２０と接続しているか否かの接続状態を監視する。サーバ装置２０は、端末装置１０の会議への参加を許可及び拒絶する。例えば、サーバ装置２０は、認証情報を送信する端末装置１０の参加を許可する。サーバ装置２０は、会議の開始時に、会議に参加する端末装置１０それぞれを呼び出す。サーバ装置２０は、会議中、各端末装置１０に対する画像及び音声等の情報の送受信を制御する。サーバ装置２０は、予約サーバ装置３０から会議に参加する端末装置１０の情報を取得し、参加する端末装置１０間の情報の送受信を可能にし、参加する端末装置１０と参加しない端末装置１０との間の情報の送受信を遮断する。

予約サーバ装置３０は、会議の予定を管理する。予約サーバ装置３０は、ネットワーク４０を介して、端末装置１０と接続されるだけでなく、端末装置１０以外のコンピュータ装置と接続され得る。予約サーバ装置３０は、端末装置１０又は他のコンピュータ装置から会議の情報を受け付け、登録する。会議の情報は、会議の開催日時、拠点等の開催場所、会議参加者、会議の議題、及び使用される端末装置等の情報を含む。予約サーバ装置３０は、パスワード等の会議に参加するための認証情報を発行する。端末装置１０は、予約サーバ装置３０に問い合わせすることで、当該端末装置１０が参加する予定の会議の情報と、参加への認証情報とを取得する。また、予約サーバ装置３０は、会議の情報及び認証情報をサーバ装置２０に送信し、会議を開催させる。

端末装置１０は、ネットワーク４０を介してサーバ装置２０及び予約サーバ装置３０と通信する。端末装置１０は、予約サーバ装置３０に問い合わせすることで、当該端末装置１０が参加する予定の会議の情報と、参加への認証情報とを取得する。端末装置１０は、サーバ装置２０から許可を受けることで、会議に参加し、他の端末装置１０と、ネットワーク４０及びサーバ装置２０を介して通信する。端末装置１０は、自身が配置される拠点において、会議の参加者等の画像及び音声のデータを取得し、サーバ装置２０に送信する。サーバ装置２０は、取得されたデータを、会議に参加する他の端末装置１０に送信する。また、端末装置１０は、他の端末装置１０によって取得されサーバ装置２０に送信された画像及び音声のデータを、サーバ装置２０から受信する。

例えば、端末装置１０ａ～１０ｄのうち、端末装置１０ａ～１０ｃが会議に参加し、端末装置１０ｄが会議に参加しない場合、端末装置１０ａ～１０ｄは、サーバ装置２０に接続可能である。そして、端末装置１０ａによって送信されるデータは、サーバ装置２０を介して端末装置１０ｂ及び１０ｃに送信されるが、端末装置１０ｄには送信されない。同様に、端末装置１０ｂ及び１０ｃから送信されるデータは、端末装置１０ａ～１０ｃのうちの自身を除く端末装置に送信されるが、端末装置１０ｄには送信されない。また、端末装置１０ｄから送信されるデータは、端末装置１０ａ～１０ｄに送信されない。

ネットワーク４０は、本実施の形態ではインターネットであるが、これに限定されない。例えば、ネットワーク４０は、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、モバイル通信網、電話回線通信網、又は、その他の通信網であってもよい。ネットワーク４０は、無線ネットワークであってもよく有線ネットワークであってもよい。

サーバ装置２０及び予約サーバ装置３０の機能的な構成を説明する。図２は、実施の形態１に係るサーバ装置２０の機能的な構成の一例を示すブロック図である。図３は、実施の形態１に係る予約サーバ装置３０の機能的な構成の一例を示すブロック図である。

図２に示すように、サーバ装置２０は、機器制御部２０ａと、通信部２０ｂと、記憶部２０ｃと、操作部２０ｄと、表示部２０ｅとを備える。通信部２０ｂは、ネットワーク４０と接続され、ネットワーク４０を介して端末装置１０等と通信する。機器制御部２０ａは、サーバ装置２０の全体の動作を制御する。機器制御部２０ａは、通信部２０ｂを介して、ネットワーク４０に対して情報を送受信する。記憶部２０ｃは、機器制御部２０ａによる種々の情報の記憶及び取り出しを可能にする。例えば、記憶部２０ｃは、会議中に各端末装置１０から送信された画像及び音声のデータを記憶してもよい。操作部２０ｄは、サーバ装置２０の操作者による操作、情報及び指令の入力を受け付け、機器制御部２０ａに出力する。表示部２０ｅは、機器制御部２０ａから出力される画像データを、画像として出力する。また、表示部２０ｅは、機器制御部２０ａから出力される音声データを、音声として出力する機能を備えてもよい。

図３に示すように、予約サーバ装置３０は、機器制御部３０ａと、通信部３０ｂと、記憶部３０ｃと、操作部３０ｄと、表示部３０ｅとを備える。通信部３０ｂは、ネットワーク４０と接続され、ネットワーク４０を介して端末装置１０等と通信する。機器制御部３０ａは、予約サーバ装置３０の全体の動作を制御する。機器制御部３０ａは、通信部３０ｂを介して、ネットワーク４０に対して情報を送受信する。記憶部３０ｃは、機器制御部３０ａによる種々の情報の記憶及び取り出しを可能にする。例えば、記憶部３０ｃは、会議の情報及び認証情報を記憶してもよい。操作部３０ｄは、予約サーバ装置３０の操作者による操作、情報及び指令の入力を受け付け、機器制御部３０ａに出力する。表示部３０ｅは、機器制御部３０ａから出力される画像データを、画像として出力する。また、表示部３０ｅは、機器制御部３０ａから出力される音声データを、音声として出力する機能を備えてもよい。

なお、サーバ装置２０及び予約サーバ装置３０は、本実施の形態では分離した別々の装置を構成するが、一体化された装置を構成してもよい。また、各装置は、１つ以上の装置で構成されてもよい。装置が２つ以上の装置で構成される場合、当該２つ以上の装置は、１つの機器内に配置されてもよく、分離した２つ以上の機器内に分かれて配置されてもよい。本明細書及び特許請求の範囲では、「装置」とは、１つの装置を意味し得るだけでなく、複数の装置からなるシステムも意味し得る。

サーバ装置２０及び予約サーバ装置３０のハードウェア構成を説明する。図４は、実施の形態１に係るサーバ装置２０のハードウェア構成の一例を示すブロック図である。図５は、実施の形態１に係る予約サーバ装置３０のハードウェア構成の一例を示すブロック図である。

図４に示すように、サーバ装置２０は、ＣＰＵ（Central Processing Unit）１２１と、不揮発性記憶装置１２２と、揮発性記憶装置１２３と、メモリ１２４と、通信Ｉ／Ｆ（インタフェース）１２５と、操作Ｉ／Ｆ１２６と、表示装置１２７とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。

サーバ装置２０の例は、コンピュータ装置である。

通信Ｉ／Ｆ１２５は、通信部２０ｂの機能を実現する。通信Ｉ／Ｆ１２５は、接続端子及び通信回路等を含んでもよい。操作Ｉ／Ｆ１２６は、操作部２０ｄの機能を実現する。操作Ｉ／Ｆ１２６は、ボタン、ダイヤル、キー、タッチパネル及び音声入力のためのマイク等の入力装置を含んでもよい。表示装置１２７は、表示部２０ｅの機能を実現する。表示装置１２７は、液晶パネル、有機ＥＬ（Electroluminescence）、無機ＥＬ及び電子ペーパーディスプレイ等のディスプレイであってもよい。表示装置１２７は、操作Ｉ／Ｆ１２６を兼ねたタッチパネルであってもよい。表示装置１２７はスピーカを含んでもよい。

メモリ１２４は、記憶部２０ｃの機能を実現する。メモリ１２４は、揮発性又は不揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等の記憶装置で構成される。なお、メモリ１２４が、不揮発性記憶装置１２２及び／又は揮発性記憶装置１２３を含んでもよい。

ＣＰＵ１２１は、機器制御部２０ａの機能を実現する。ＣＰＵ１２１はプロセッサ等で構成される。不揮発性記憶装置１２２の例は、ＲＯＭ（Read Only Memory）であり、揮発性記憶装置１２３の例は、ＲＡＭ（Random Access Memory）である。機器制御部２０ａを動作させるプログラムは、不揮発性記憶装置１２２又はメモリ１２４等に予め保持されている。プログラムは、ＣＰＵ１２１によって、不揮発性記憶装置１２２又はメモリ１２４等から揮発性記憶装置１２３に読み出されて展開される。ＣＰＵ１２１は、揮発性記憶装置１２３に展開されたプログラム中のコード化された各命令を実行する。なお、プログラムは、例えば記録ディスク等の記録媒体に格納されていてもよい。また、プログラムは、有線ネットワーク、無線ネットワーク又は放送等を介して伝送され、揮発性記憶装置１２３に取り込まれてもよい。

なお、機器制御部２０ａは、ＣＰＵ１２１等のプログラム実行部によって実現されてもよく、回路によって実現されてもよく、プログラム実行部及び回路の組み合わせによって実現されてもよい。例えば、このような構成要素は、集積回路であるＬＳＩ（大規模集積回路：Large Scale Integration）として実現されてもよい。このような構成要素は個別に１チップ化されてもよく、一部又は全てを含むように１チップ化されてもよい。ＬＳＩとして、ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）、ＬＳＩ内部の回路セルの接続及び／又は設定を再構成可能なリコンフィギュラブル・プロセッサ、又は、特定用途向けに複数の機能の回路が１つにまとめられたＡＳＩＣ（Application Specific Integrated Circuit）等が利用されてもよい。

図５に示すように、予約サーバ装置３０は、ＣＰＵ１３１と、不揮発性記憶装置１３２と、揮発性記憶装置１３３と、メモリ１３４と、通信Ｉ／Ｆ１３５と、操作Ｉ／Ｆ１３６と、表示装置１３７とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。

予約サーバ装置３０の例は、コンピュータ装置である。

通信Ｉ／Ｆ１３５は、通信部３０ｂの機能を実現する。通信Ｉ／Ｆ１３５の構成は、通信Ｉ／Ｆ１２５について上述した構成と同様である。操作Ｉ／Ｆ１３６は、操作部３０ｄの機能を実現する。操作Ｉ／Ｆ１３６の構成は、操作Ｉ／Ｆ１２６について上述した構成と同様である。表示装置１３７は、表示部３０ｅの機能を実現する。表示装置１３７の構成は、表示装置１２７について上述した構成と同様である。メモリ１３４は、記憶部３０ｃの機能を実現する。メモリ１３４の構成は、メモリ１２４について上述した構成と同様である。

ＣＰＵ１３１は、機器制御部３０ａの機能を実現する。ＣＰＵ１３１はプロセッサ等で構成される。不揮発性記憶装置１３２の例はＲＯＭであり、揮発性記憶装置１３３の例はＲＡＭである。ＣＰＵ１３１、不揮発性記憶装置１３２及び揮発性記憶装置１３３の構成は、ＣＰＵ１２１、不揮発性記憶装置１２２及び揮発性記憶装置１２３について上述した構成と同様である。

次いで、端末装置１０の機能的な構成を説明する。図６は、実施の形態１に係る端末システム１００の機能的な構成の一例を示すブロック図である。端末装置１０は、端末システム１００を構成する。端末システム１００は、拠点それぞれに配置される。端末システム１００は、自身が存在する拠点（以下、「自拠点」とも呼ぶ）において、端末装置１０と、撮像部５１と、音声入力部５２と、音声出力部５３と、表示部５４と、入力部５５とを備える。

撮像部５１は、被写体の静止画及び／又は動画を撮像する。撮像部５１の例は、デジタル画像を撮像するカメラである。撮像部５１は、自拠点が同じである端末装置１０と、有線通信又は無線通信を介して接続される。撮像部５１は、自拠点の会議室内の参加者等の拠点の画像を撮像し、撮像した画像の画像データを端末装置１０に出力する。

音声入力部５２は、周囲から音声を取得し、取得した音声を音声信号等の音声データに変換し出力する。音声入力部５２は、音源の方向に応じた音声データを出力する。音声入力部５２の例は、複数のマイクロホンが配列されたマイクロホンアレイである。音声入力部５２は、自拠点が同じである端末装置１０と、有線通信又は無線通信を介して接続される。音声入力部５２は、自拠点の会議室内の参加者等の音声を取得し、その音声データを端末装置１０に出力する。

音声出力部５３は、周囲へ音声を出力する。音声出力部５３の例は、スピーカである。音声出力部５３は、自拠点が同じである端末装置１０と、有線通信又は無線通信を介して接続される。音声出力部５３は、端末装置１０から取得する音声データを音声に変換し、自拠点の会議の参加者等へ向かって音声を出力する。例えば、音声出力部５３は、他拠点の端末装置１０から送信される音声データを出力する。

表示部５４は、入力される画像データを、画像として出力する。表示部５４の例は、液晶パネル、有機ＥＬ、無機ＥＬ及び電子ペーパーディスプレイである。表示部５４は、入力部５５の機能を兼ねたタッチパネルであってもよい。表示部５４は、自拠点が同じである端末装置１０と、有線通信又は無線通信を介して接続される。表示部５４は、端末装置１０から取得する画像データを画像に変換し、自拠点の会議の参加者へ向かって画像を出力する。例えば、表示部５４は、他拠点の端末装置１０から送信される画像データを出力する。１つの拠点に１つの表示部５４が配置され、他の全ての拠点の端末装置１０から送信される画像を出力してもよい。又は、他の拠点と同じ数量の表示部５４が配置され、各表示部５４は、他の拠点のうちの１つの拠点の端末装置１０から送信される画像を出力してもよい。又は、表示部５４は、拠点の参加者それぞれに配置されてもよい。

入力部５５は、会議の参加者等の自拠点の操作者による入力を受け付け、入力された情報を示す信号等の入力データを端末装置１０に出力する。入力部５５は、有線通信又は無線通信を介して端末装置１０と接続される。入力部５５は、表示部５４によって表示される画像に対する編集の入力を受け付ける。入力部５５の例は、キー、マウス及びタッチパネルである。

端末装置１０は、自拠点に存在する撮像部５１、音声入力部５２、音声出力部５３、表示部５４及び入力部５５の各構成要素と、有線通信又は無線通信を介して接続されるが、これら構成要素の少なくとも１つと一体化されていてもよい。各構成要素は、他の構成要素の少なくとも１つと一体化されていてもよい。上記有線通信又は無線通信は、有線ＬＡＮ又は無線ＬＡＮ等のいかなる通信であってもよい。

端末装置１０は、第一通信部１１と、第二通信部１２と、制御部１３と、端末操作部１４と、端末表示部１５、記憶部１６とを含む。制御部１３は、視線推定部１３ａと、音方向推定部１３ｂと、注目情報決定部１３ｃと、合成部１３ｄと、エリア決定部１３ｅと、露出制御部１３ｆとを含む。

第一通信部１１は、自拠点の撮像部５１、音声入力部５２、音声出力部５３、表示部５４及び入力部５５と接続され、これらと通信する。第二通信部１２は、ネットワーク４０と接続され、他拠点の端末装置１０、サーバ装置２０及び予約サーバ装置３０と通信する。自拠点の撮像部５１、音声入力部５２及び入力部５５から出力される画像データ、音声データ及び入力信号は、第一通信部１１を介して制御部１３に入力され、制御部１３の処理を受けた後、第二通信部１２を介して他拠点の端末装置１０に送信される。また、他拠点の端末装置１０から送信される画像データ及び音声データは、第二通信部１２を介して制御部１３に入力され、制御部１３の処理を受けた後、第一通信部１１を介して音声出力部５３及び表示部５４に出力される。

端末操作部１４は、端末装置１０の操作者による操作、情報及び指令の入力を受け付け、制御部１３に出力する。端末表示部１５は、制御部１３から出力されるデータを、画像として出力する。また、端末表示部１５は、制御部１３から出力される音声データを、音声として出力する機能を備えてもよい。

記憶部１６は、種々の情報の記憶及び取り出しを可能にする。例えば、記憶部１６には、自拠点の撮像部５１、音声入力部５２、音声出力部５３及び表示部５４の相対的な位置及び／絶対的な位置の情報、並びに、会議の拠点の識別情報等が、予め記憶される。記憶部１６は、制御部１３と接続されている。

制御部１３は、端末装置１０の全体の動作を制御する。制御部１３は、第一通信部１１を介して、自拠点の撮像部５１、音声入力部５２、音声出力部５３、表示部５４及び入力部５５とデータを送受信する。制御部１３は、第二通信部１２及びネットワーク４０を介して、他拠点の端末装置１０、サーバ装置２０及び予約サーバ装置３０とデータを送受信する。

視線推定部１３ａは、自拠点の参加者の視線を推定する。具体的には、視線推定部１３ａは、自拠点の撮像部５１によって撮像された画像データを取得し、当該画像データの画像に写し出される参加者の視線の方向を推定する。画像における人の抽出、及び、抽出された人の視線方向の推定は、既知の技術により実現可能である。

さらに、視線推定部１３ａは、自拠点の撮像部５１及び表示部５４の相対的な位置の情報を記憶部１６から取得する。視線推定部１３ａは、推定された視線の方向と相対的な位置の情報とを用いて、表示部５４の画面上における各視線が指す領域である注目領域の位置及び範囲を推定する。撮像部５１及び表示部５４の相対的な位置の情報は、撮像部５１の位置と表示部５４の位置との相対的な関係と、撮像部５１の撮像方向（「光軸方向」とも呼ばれる）と表示部５４の画面の向きとの相対的な関係とを含む。

さらに、視線推定部１３ａは、注目領域の推定結果を用いて、表示部５４によって表示される画像上における注目領域の位置及び範囲の画素座標を算出する。画素座標は、画像に設定される２次元座標であり、１画素つまり１ピクセルを１単位とする。そして、視線推定部１３ａは、注目領域の位置及び範囲の画素座標と自拠点のＩＤ等の識別情報とを対応付けて含む注目情報を、注目情報決定部１３ｃに出力する。

なお、視線推定部１３ａは、自拠点の表示部５４によって表示される画像のデータを取得し、当該画像に写し出される参加者を抽出してもよい。視線推定部１３ａは、当該画像上において、抽出された参加者の位置及び範囲と注目領域の位置及び範囲とを比較することにより、抽出された参加者が写し出される注目領域を特定してもよい。そして、視線推定部１３ａは、抽出された参加者にＩＤ等の識別情報を設定し、当該識別情報と、注目領域の位置及び範囲の画素座標等とを対応付けて、注目情報に含めてもよい。

音方向推定部１３ｂは、自拠点の参加者のうちの話者の方向を推定する。具体的には、音方向推定部１３ｂは、自拠点の音声入力部５２によって取得された音声データを取得し、当該音声データの音声発生源の方向を推定する。音声発生源の方向の例は、音声入力部５２からの方位である。マイクロホンアレイ等の音声入力部５２を用いた音声発生源の方向の推定は、既知の技術により実現可能である。

さらに、音方向推定部１３ｂは、自拠点の撮像部５１及び音声入力部５２の相対的な位置の情報を記憶部１６から取得する。音方向推定部１３ｂは、推定された音声発生源の方向と相対的な位置の情報とを用いて、撮像部５１によって撮像される画像上における音声発生源の領域の位置及び範囲の画素座標を推定する。つまり、音方向推定部１３ｂは、画像上における話者の位置及び範囲の画素座標を推定する。音声発生源の領域は、注目領域である。撮像部５１及び音声入力部５２の相対的な位置の情報は、撮像部５１の位置と音声入力部５２の位置との相対的な関係と、撮像部５１の撮像方向と音声入力部５２の集音方向との相対的な関係とを含む。

そして、音方向推定部１３ｂは、注目領域の位置及び範囲の画素座標と自拠点のＩＤ等の識別情報とを対応付けて含む注目情報を、注目情報決定部１３ｃに出力する。なお、音方向推定部１３ｂは、自拠点の撮像部５１によって撮像される画像のデータを取得し、当該画像に写し出される参加者を抽出してもよい。音方向推定部１３ｂは、当該画像上において、抽出された参加者の位置及び範囲と注目領域の位置及び範囲とを比較することにより、抽出された参加者が写し出される注目領域を特定してもよい。そして、音方向推定部１３ｂは、抽出された参加者にＩＤ等の識別情報を設定し、当該識別情報と、注目領域の位置及び範囲の画素座標等とを対応付けて、注目情報に含めてもよい。

注目情報決定部１３ｃは、視線推定部１３ａ及び音方向推定部１３ｂから注目情報を取得する。さらに、注目情報決定部１３ｃは、画像上における注目領域を示す指標を決定する。具体的には、注目情報決定部１３ｃは、画像上において、注目領域に外接する矩形枠を指標として生成し、当該矩形枠の頂点の画素座標と当該矩形枠の寸法とを算出する。注目情報決定部１３ｃは、矩形枠の頂点の座標及び寸法と自拠点の識別情報とを少なくとも対応付けて含む注目情報を、第二通信部１２を介して、他拠点の端末装置１０に送信する。また、注目情報決定部１３ｃは、当該注目情報を合成部１３ｄに出力する。

合成部１３ｄは、自拠点の注目情報決定部１３ｃから注目情報を取得し、他拠点の端末装置それぞれから当該他拠点の注目情報を取得する。さらに、合成部１３ｄは、自拠点の注目情報に他拠点の注目情報を加算することによって、自拠点の撮像部５１によって撮像される画像上における注目情報を合成する。自拠点の注目情報は、自拠点の音方向推定部１３ｂによって算出される注目領域を示す指標の頂点の座標及び寸法であり、話者の方向の推定結果に基づく情報である。他拠点の注目情報は、他拠点の視線推定部１３ａによって算出される注目領域を示す指標の頂点の座標及び寸法であり、参加者の視線の推定結果に基づく情報である。

エリア決定部１３ｅは、合成部１３ｄによって合成された注目情報に対して、予め決められた重み付けを付加することによって、注目エリアを決定する。エリア決定部１３ｅは、注目エリアの情報を露出制御部１３ｆに出力する。重み付けに関する情報は、例えば、記憶部１６に記憶されている。

露出制御部１３ｆは、注目エリアの情報を用いて、自拠点の撮像部５１によって撮像された画像の露光を調整する。露出制御部１３ｆは、露光調整後の画像を、第二通信部１２を介して他拠点の端末装置１０に送信する。

次いで、端末装置１０のハードウェア構成を説明する。図７は、実施の形態１に係る端末装置１０のハードウェア構成の一例を示すブロック図である。図７に示すように、端末装置１０は、ＣＰＵ１１１と、不揮発性記憶装置１１２と、揮発性記憶装置１１３と、第一通信Ｉ／Ｆ１１４と、第二通信Ｉ／Ｆ１１５と、操作Ｉ／Ｆ１１６と、表示装置１１７と、メモリ１１８とを構成要素として備える。上記構成要素はそれぞれ、例えばバスを介して互いに接続されている。なお、上記構成要素は、有線通信及び無線通信のいずれを介して接続されてもよい。

端末装置１０の例は、コンピュータ装置である。なお、端末装置１０を含む端末システム１００は、複数の装置からなるシステムであってもよく、１つの装置であってもよい。１つの装置の場合、端末システム１００の例は、コンピュータ装置及び多機能テレビ等である。

第一通信Ｉ／Ｆ１１４は、第一通信部１１の機能を実現する。第二通信Ｉ／Ｆ１１５は、第二通信部１２の機能を実現する。第一通信Ｉ／Ｆ１１４及び第二通信Ｉ／Ｆ１１５は、通信Ｉ／Ｆ１２５について上述した構成と同様である。

操作Ｉ／Ｆ１１６は、端末操作部１４の機能を実現する。操作Ｉ／Ｆ１１６の構成は、操作Ｉ／Ｆ１２６について上述した構成と同様である。表示装置１１７は、端末表示部１５の機能を実現する。表示装置１１７の構成は、表示装置１２７について上述した構成と同様である。メモリ１１８は、記憶部１６の機能を実現する。メモリ１１８の構成は、メモリ１２４について上述した構成と同様である。

ＣＰＵ１１１は、制御部１３の各構成要素の機能を実現する。ＣＰＵ１１１はプロセッサ等で構成される。不揮発性記憶装置１１２の例はＲＯＭであり、揮発性記憶装置１１３の例はＲＡＭである。ＣＰＵ１１１、不揮発性記憶装置１１２及び揮発性記憶装置１１３の構成は、ＣＰＵ１２１、不揮発性記憶装置１２２及び揮発性記憶装置１２３について上述した構成と同様である。

＜端末装置１０の処理＞
端末装置１０の処理の詳細を説明する。以下において、４つの拠点ＣＰ１～ＣＰ４のうちの第一拠点ＣＰ１の端末装置１０ａの処理について説明するが、他の拠点ＣＰ２～ＣＰ４の端末装置１０ｂ～１０ｄについても同様であるため、その説明を省略する。

＜第一拠点ＣＰ１内の配置＞
まず、第一拠点ＣＰ１内の配置を説明する。図８Ａは、会議の拠点ＣＰ１～ＣＰ４のうちの第一拠点ＣＰ１における参加者及び撮像部５１の配置の一例を示す平面図である。図８Ｂは、図８Ａの第一拠点ＣＰ１の撮像部５１によって撮像された画像の一例を示す図である。

図８Ａに示すように、第一拠点ＣＰ１では、矩形状の会議机ＭＤの周りに、１つの撮像部５１と３名の参加者ＰＡ～ＰＣとが位置している。撮像部５１と参加者ＰＢとは対向して位置し、参加者ＰＡと参加者ＰＣとは対向して位置している。参加者ＰＡ～ＰＣは、撮像部５１の視野内に位置している。撮像部５１は、表示部５４の上部に配置され、撮像部５１の撮像方向と表示部５４の画面の指向方向とは、略平行である。画面の指向方向は、画面に垂直な方向である。このような撮像部５１は、参加者ＰＡ～ＰＣを撮像することによって、図８Ｂに示すような画像Ｉ１を出力する。画像Ｉ１では、参加者ＰＡ～ＰＣ及び会議机ＭＤそれぞれの像である参加者像ＰＡ１～ＰＣ１及び会議机像ＭＤ１が写し出されている。

＜露出制御部１３ｆの露出制御＞
次いで、露出制御部１３ｆの露出制御を説明する。図９Ａは、露出制御における画像に設定される測光領域の一例を示す図である。図９Ｂは、図８Ｂの画像Ｉ１への測光領域の適用例を示す図である。図９Ａに示すように、露出制御において、画像Ｉは複数の測光領域Ｉｍｎに分割される。測光領域Ｉｍｎは、測光値を算出ための最小単位の領域である。図９Ａでは、複数の測光領域Ｉｍｎは、画像Ｉを水平方向にｍ分割し且つ垂直方向にｎ分割することによって、形成されている。

各測光領域Ｉｍｎについて、当該測光領域Ｉｍｎに含まれる画素の画素値を示す輝度信号を積分することによって、測光値が算出される。また、各測光領域Ｉｍｎには、重み付けが付与されている。そして、全ての測光領域Ｉｍｎの測光値それぞれに重み付けを付与した重み付け後の測光値の平均値が、ＡＥ（アコースティックエミッション：）評価値として算出される。つまり、全ての測光領域Ｉｍｎの測光値の加重平均値が、ＡＥ評価値として算出される。ＡＥ評価値とターゲット輝度値との差異がエラー量として算出される。そして、エラー量が所定の範囲内に収まるように、ゲイン及び露光時間等が制御されることで、露出制御される。

例えば、全ての測光領域Ｉｍｎの重み付けが同じである場合、画像の視野内全体に対して均一に露出が合わせられる。例えば、図９Ｂに示す参加者像ＰＢ１に比重をおいて露出制御する場合、参加者像ＰＢ１付近の測光領域Ｉｍｎの重み付けが、参加者像ＰＢ１以外の測光領域Ｉｍｎの重み付けよりも大きくされる。よって、各測光領域Ｉｍｎに対する重み付けを制御することによって、画像内の対象とする被写体に合わせた露出制御が可能である。これにより、対象とする被写体における白飛び、黒つぶれ又はこれらに近い状態の発生が抑えられる。

例えば、露出制御部１３ｆは、エリア決定部１３ｅから取得される重み付け後の注目エリアの情報を用いて、画像Ｉ１の各測光領域Ｉｍｎに重み付けを設定する。図１０は、露出制御における図９Ｂの画像Ｉ１への測光領域Ｉｍｎの重み付けの一例を示す図である。図１０の画像Ｉ１では、注目エリアが表されており、注目エリアは、参加者像ＰＢ１及びその付近の領域である。注目エリアのうち、濃いドットで示される測光領域Ｉｍｎｃは、最も注目されているエリア、つまり最も高い注目度のエリアである。薄いドットで示される測光領域Ｉｍｎｂは、次に注目されているエリア、つまり次に高い注目度のエリアである。無地である測光領域Ｉｍｎａは、注目されていないエリア、つまり非注目のエリアである。

例えば、露出制御部１３ｆは、測光領域Ｉｍｎｃに対する露出制御の重み付けを最も大きく設定する。露出制御部１３ｆは、測光領域Ｉｍｎｂに対する重み付けを測光領域Ｉｍｎｃよりも小さいが、画像Ｉ１に予め設定されている通常の重み付けよりも大きく設定する。露出制御部１３ｆは、測光領域Ｉｍｎａに対する重み付けを通常の重み付けよりも小さく設定する、又は、重み付けをなくす、つまり０にする。このように、露出制御部１３ｆは、より注目されているエリアにより大きな重み付けを行うことによって、注目エリアに比重を置いた露出制御を行う。

＜視線推定部１３ａの注目領域の推定処理＞
視線推定部１３ａの注目領域の推定処理を説明する。図１１Ａは、図８Ｂの第一拠点ＣＰ１の画像に対する第二拠点ＣＰ２の参加者Ｖｂの視線情報の一例を示す図である。図１１Ｂは、図８Ｂの第一拠点ＣＰ１の画像に対する第三拠点ＣＰ３の参加者Ｖｃの視線情報の一例を示す図である。図１１Ｃは、第二拠点ＣＰ２及び第三拠点ＣＰ３の視線情報を用いて測光領域の注目情報が設定された図９Ｂの画像の一例を示す図である。

図１１Ａ及び図１１Ｂに示すように、第一拠点ＣＰ１の撮像部５１によって撮像された画像Ｉ１は、端末装置１０ａによって、他の拠点の端末装置１０ｂ～１０ｄに送信される。例えば、第二拠点ＣＰ２の表示部５４には、画像Ｉ１と同様の画像Ｉ２が表示され、第三拠点ＣＰ３の表示部５４には、画像Ｉ１と同様の画像Ｉ３が表示される。

図１１Ａに示すように、第二拠点ＣＰ２の端末装置１０ｂの視線推定部１３ａは、自拠点の撮像部５１によって撮像された参加者Ｖｂの画像を用いて、参加者Ｖｂの視線の方向を推定する。さらに、当該視線推定部１３ａは、参加者Ｖｂの視線の方向と、第二拠点ＣＰ２の撮像部５１及び表示部５４の相対的な位置の情報とを用いて、自拠点の表示部５４によって表示される画像Ｉ２上での注目領域Ｆ２の位置及び範囲の画素座標を算出する。

端末装置１０ｂの注目情報決定部１３ｃは、注目領域Ｆ２の位置及び範囲の画素座標を用いて、注目領域Ｆ２に外接する枠Ｆ２ｆの１つの頂点の画素座標（ｘ２，ｙ２）と枠Ｆ２ｆの寸法（ｗ２，ｚ２）とを算出する。枠Ｆ２ｆの頂点の画素座標及び枠の寸法は、画像Ｉ２の画素座標を用いて算出される。画素座標の成分「ｘ２」は画像Ｉ２の水平方向の成分であり、成分「ｙ２」は画像Ｉ２の垂直方向の成分である。寸法の成分「ｗ２」は画像Ｉ２の水平方向の寸法であり、成分「ｚ２」は画像Ｉ２の垂直方向の寸法である。画像Ｉ２の水平方向及び垂直方向はそれぞれ、格子状に配列された画素の横及び縦の並び方向である。

注目情報決定部１３ｃは、自拠点のＩＤ「ＣＰ２」と、注目領域の対象である第一拠点ＣＰ１の参加者のＩＤ「Ｃ」と、枠頂点の画素座標（ｘ２，ｙ２）と、枠寸法（ｗ２，ｚ２）とを対応付けて含む注目情報を、第一拠点ＣＰ１の端末装置１０ａに送信する。

図１１Ｂに示すように、第三拠点ＣＰ３の端末装置１０ｃの視線推定部１３ａは、自拠点の撮像部５１によって撮像された参加者Ｖｃの画像を用いて、参加者Ｖｃの視線の方向を推定する。さらに、当該視線推定部１３ａは、参加者Ｖｃの視線の方向と、第三拠点ＣＰ３の撮像部５１及び表示部５４の相対的な位置の情報とを用いて、自拠点の表示部５４の画像Ｉ３上での注目領域Ｆ３の位置及び範囲の画素座標を算出する。

端末装置１０ｃの注目情報決定部１３ｃは、注目領域Ｆ３の位置及び範囲の画素座標を用いて、注目領域Ｆ３の外接枠Ｆ３ｆの頂点の画素座標（ｘ３，ｙ３）及び枠寸法（ｗ３，ｚ３）を、画像Ｉ３の画素座標に基づいて算出する。

注目情報決定部１３ｃは、自拠点のＩＤ「ＣＰ３」と、注目領域の対象である第一拠点ＣＰ１の参加者のＩＤ「Ｂ」と、枠頂点の画素座標（ｘ３，ｙ３）と、枠寸法（ｗ３，ｚ３）とを対応付けて含む注目情報を、第一拠点ＣＰ１の端末装置１０ａに送信する。

また、第一拠点ＣＰ１の端末装置１０ａの合成部１３ｄは、画像Ｉ１に対して測光領域を区分する処理を行うことによって、画像Ｉ１Ａを生成する。合成部１３ｄは、各拠点の端末装置１０から受信した注目情報を、画像Ｉ１Ａに適用する。

図１１Ｃに示すように、例えば、合成部１３ｄは、第二拠点ＣＰ２の端末装置１０ｂの注目情報を適用することによって、画像Ｉ１Ａ上に枠Ｆ２ｆを形成する。また、合成部１３ｄは、第三拠点ＣＰ３の端末装置１０ｃの注目情報を適用することによって、画像Ｉ１Ａ上に枠Ｆ３ｆを形成する。

合成部１３ｄは、枠Ｆ２ｆに全体が含まれる測光領域及び枠Ｆ３ｆに全体が含まれる測光領域をそれぞれ、最も高い注目度の測光領域である第一注目領域に決定する。合成部１３ｄは、枠Ｆ２ｆに部分的に含まれる測光領域及び枠Ｆ３ｆに部分的に含まれる測光領域をそれぞれ、次に高い注目度の測光領域である第二注目領域に決定する。合成部１３ｄは、枠Ｆ２ｆに含まれない測光領域及び枠Ｆ３ｆに含まれない測光領域をそれぞれ、注目されていない測光領域である非注目領域に決定する。

なお、画像Ｉ１Ａ内の参加者像ＰＡ１～ＰＣ１を抽出することによって、第一注目領域内の測光領域をさらに差異付けてもよい。例えば、合成部１３ｄは、第一注目領域内において、参加者像ＰＡ１～ＰＣ１を少なくとも部分的に含む測光領域の注目度は、参加者像ＰＡ１～ＰＣ１を含まない測光領域よりも高いと決定してもよい。

合成部１３ｄは、第一注目領域及び第二注目領域を含む領域を注目測光領域に決定する。図１１Ｃにおいて、第一注目領域は濃いドットで示され、第二注目領域は薄いドットで示され、非注目領域は無地である。このように、第一拠点ＣＰ１の端末装置１０ａは、他拠点の視線情報に基づく注目領域を用いて、第一拠点ＣＰ１を写す画像Ｉ１における注目測光領域を決定する。ここで、視線情報に基づく注目領域の情報は、視点情報の一例である。

＜音方向推定部１３ｂの注目領域の推定処理＞
音方向推定部１３ｂの注目領域の処理を説明する。図１２Ａは、第一拠点ＣＰ１における話者の方向の一例を示す図である。図１２Ｂは、第一拠点ＣＰ１における話者の方向を用いて測光領域の注目情報が設定された図９Ｂの画像の一例を示す図である。

図１２Ａに示すように、第一拠点ＣＰ１において、音声入力部５２は、撮像部５１及び表示部５４の下方に配置されて、参加者ＰＡ～ＰＣの音声を取得する。例えば、参加者ＰＣが発話すると、音声入力部５２は、参加者ＰＣの音声を取得し、その音声データを端末装置１０ａの音方向推定部１３ｂに出力する。音方向推定部１３ｂは、取得された音声データを用いて、音声入力部５２から当該音声データの音源である参加者ＰＣへの方向を推定する。音方向推定部１３ｂは、参加者ＰＣの方向と、自拠点の撮像部５１及び音声入力部５２の相対的な位置の情報とを用いて、撮像部５１によって撮像される画像Ｉ１上における注目領域である音源の領域の位置及び範囲の画素座標を算出する。

端末装置１０ａの注目情報決定部１３ｃは、音源の領域の位置及び範囲の画素座標を用いて、音源の領域に外接する枠ＦＡｆの１つの頂点の画素座標と枠ＦＡｆの寸法とを算出する。

注目情報決定部１３ｃは、自拠点のＩＤ「ＣＰ１」と、注目領域の対象である参加者のＩＤ「Ｃ」と、枠ＦＡｆの頂点の画素座標と、枠ＦＡｆの寸法とを対応付けて含む注目情報を、端末装置１０ａの合成部１３ｄに出力する。

また、合成部１３ｄは、画像Ｉ１に対して測光領域を区分する処理を行うことによって、画像Ｉ１Ａを生成する。合成部１３ｄは、注目情報決定部１３ｃから取得された注目情報を、画像Ｉ１Ａに適用する。

図１２Ｂに示すように、例えば、合成部１３ｄは、注目情報を適用することによって、画像Ｉ１Ａ上に枠ＦＡｆを形成する。合成部１３ｄは、枠ＦＡｆに全体が含まれる測光領域を第一注目領域に決定し、枠ＦＡｆに部分的に含まれる測光領域を第二注目領域に決定し、枠ＦＡｆに含まれない測光領域を非注目領域に決定する。

なお、画像Ｉ１Ａ内の参加者像ＰＡ１～ＰＣ１を抽出することによって、第一注目領域内の測光領域をさらに差異付けてもよい。例えば、合成部１３ｄは、第一注目領域内において、参加者像ＰＡ１～ＰＣ１を少なくとも部分的に含む測光領域の注目度を、参加者像ＰＡ１～ＰＣ１を含まない測光領域よりも高く設定してもよい。

合成部１３ｄは、第一注目領域及び第二注目領域を含む領域を注目測光領域に決定する。このように、第一拠点ＣＰ１の端末装置１０ａは、自拠点の音方向の情報に基づく注目領域を用いて、第一拠点ＣＰ１を写す画像Ｉ１における注目測光領域を決定する。

＜合成部１３ｄの注目エリア決定処理＞
合成部１３ｄの注目エリア決定処理を説明する。図１３は、各拠点の注目情報から設定される各測光領域の注目情報の一例を示す図である。図１３は、第一拠点ＣＰ１の撮像部５１の画像Ｉ１Ａに対する注目エリアの決定方法を示す。図１３では、話者は、参加者ＰＡである。

第一拠点ＣＰ１の端末装置１０ａの合成部１３ｄは、画像Ｉ１Ａについて、自拠点の注目情報決定部１３ｃから、音方向の情報に基づく注目測光領域の情報を取得し、他拠点ＣＰ２～ＣＰ４の端末装置１０ｂ～１０ｄの注目情報決定部１３ｃから、視線情報に基づく注目測光領域の情報を取得する。注目測光領域の情報は、注目測光領域及び非注目領域の位置及び注目度を含む、つまり、各測光領域の注目度を含む。なお、各注目情報決定部１３ｃによって、注目度は数値化され、値が大きいほど注目度が高い。

図１３では、例えば、第一注目領域の注目度は「３」であり、第二注目領域の注目度は「２」であり、非注目領域の注目度は「０」である。例えば、第一拠点ＣＰ１の注目測光領域において、参加者像ＰＡ１の顔を含む測光領域は、第一注目領域であり、参加者像ＰＡ１周辺の測光領域は、第二注目領域である。他拠点ＣＰ２～ＣＰ４の注目測光領域の測光領域は、第二注目領域である。

合成部１３ｄは、第一拠点ＣＰ１の注目測光領域の各測光領域の注目度に、他拠点ＣＰ２～ＣＰ４の注目測光領域の対応する測光領域の注目度を加算する。第一拠点ＣＰ１の測光領域の注目度に対して、画像Ｉ１Ａ上で当該測光領域と同じ位置にある他拠点ＣＰ２～ＣＰ４の測光領域の注目度が加算される。これにより、合成部１３ｄは、各測光領域の注目度が加算後の注目度である加算注目情報を生成し、エリア決定部１３ｅに出力する。

エリア決定部１３ｅは、取得された加算注目情報において、最も注目度が大きい測光領域を抽出する。例えば、図１３では、注目度「９」が最も大きく、注目度「９」の測光領域が最も注目されていると見なすことができる。

例えば図１４のように、エリア決定部１３ｅは、注目度「９」の測光領域を中心とした周囲の測光領域に対して、予め設定された重み付け方法に従って、注目度を再設定することによって、注目エリアを決定する。図１４は、図１３の各測光領域の注目情報への重み付け後の各測光領域の注目情報の一例を示す図である。

図１４では、重み付け方法は、注目度「９」の測光領域の中心から周辺に向かって、例えば所定の割合で、注目度を次第に小さくする重点形式である。しかしながら、重み付け方法は、図１３の方法に限定されない。例えば、重み付け方法は、最も注目度が大きい測光領域のみ、又は、所定の注目度以上の測光領域等に、注目度を設定するスポット形式でもよい。エリア決定部１３ｅは、設定後の各測光領域の注目度を含む注目エリア情報を露出制御部１３ｆに出力する。

露出制御部１３ｆは、画像Ｉ１Ａの各測光領域に対して、注目エリア情報に含まれる各測光領域の注目度に対応する重み付けで露出制御を行う。つまり、露出制御部１３ｆは、注目エリア情報を、露出制御における測光領域の重み付けに活用する。これにより、最も多くの人が注目している領域に対する最適な露出制御が可能になる。

また、加算注目情報において、最も注目度が大きい２つ以上の測光領域が分散して存在する場合がある。例えば、図１５は、注目度が高い領域が分散している例を示す図である。図１５は、注目エリアを示し、最大注目度「９」である測光領域をそれぞれが含む２つの分離した注目エリアが存在する。つまり、参加者の注目ポイントが２つに割れていることが示される。このような場合、露出制御部１３ｆは、注目度「９」の２つの測光領域の測光値の差異の大きさから、露出制御方式を決定してもよい。

例えば、測光値の差異の絶対値が所定の範囲内である場合、いずれの測光領域に合わせた露出制御であっても、２つの注目エリアに対して最適な露出制御が可能である。このため、露出制御部１３ｆは、いずれか一方の測光領域に合わせた露出制御を行う。

また、測光値の差異の絶対値が所定の範囲を超える場合、例えば、一方の測光領域が逆光で撮像された画像に対応し、他方の測光領域が順光で撮像された画像に対応すると考えられる。この場合、露出制御部１３ｆは、露出制御方式をダイナミックレンジが広がるモードに切り替える。このようなモードの例は、ヒストグラム測光方式、ＷＤＲ（ワイドダイナミックレンジ：Wide dynamic range）合成、ＨＤＲ（ハイダイナミックレンジ：High dynamic range）合成等である。上記切り替えにより、明暗差の大きい２つの注目エリアであっても、ユーザにとって両方が見やすい画像を生成することができる。

＜端末装置１０の動作＞
端末装置１０の動作を説明する。図１６は、実施の形態１に係る端末システム１００の動作の一例を示すフローチャートである。以下の説明において、第一拠点ＣＰ１の端末装置１０ａの動作を説明する。他の拠点ＣＰ２～ＣＰ４の端末装置１０ｂ～１０ｄの動作も端末装置１０ａと同様であるため、その説明を省略する。

図１６に示すように、会議が開始すると、端末装置１０ａは、自拠点の音方向の情報に基づく自拠点の注目情報を、算出することによって取得する（ステップＳ１）。さらに、端末装置１０ａは、他拠点の視線情報に基づく他拠点の注目情報を、他拠点の端末装置１０ｂ～１０ｄから取得する（ステップＳ２）。

さらに、端末装置１０ａは、自拠点の注目情報に他拠点の注目情報を加算することによって、加算注目情報を取得する（ステップＳ３）。端末装置１０ａは、加算注目情報において、最も大きい注目度の測光領域の数量が１つである場合（ステップＳ４でＮＯ）、ステップＳ５の処理に進み、最も大きい注目度の測光領域の数量が２つ以上である場合（ステップＳ４でＹＥＳ）、ステップＳ６の処理に進む。

ステップＳ５において、端末装置１０ａは、最も大きい注目度の１つの測光領域を中心とする注目エリアを決定し、当該注目エリアの情報を生成する。次いで、端末装置１０ａは、注目エリアの情報を測光領域の重みとして重み付けした露出制御を行う（ステップＳ１０）。次いで、端末装置１０ａは、ステップＳ１１の処理に進む。

また、ステップＳ６において、端末装置１０ａは、最も大きい注目度の測光領域間で測光値の差異を算出する。端末装置１０ａは、差異の絶対値の全てが所定の数値範囲内である場合（ステップＳ７でＹＥＳ）、ステップＳ８の処理に進み、差異の絶対値のいずれかが所定の数値範囲の外である場合（ステップＳ７でＮＯ）、ステップＳ９の処理に進む。なお、最も大きい注目度の測光領域の数量が３つ以上である場合、２つ以上の差異が算出される。

ステップＳ８において、端末装置１０ａは、最も大きい注目度の測光領域のいずれかを中心とする注目エリアを決定し、当該注目エリアの情報を生成する。次いで、端末装置１０ａは、ステップＳ１０に進む。

ステップＳ９において、端末装置１０ａは、ダイナミックレンジが広い撮影シーンであると判定し、ダイナミックレンジを広げる露出制御方式へ露出制御を切り替える。次いで、端末装置１０ａは、ステップＳ１１の処理に進む。

ステップＳ１１において、端末装置１０ａは、会議終了の指令を受け付けると（ステップＳ１１でＹＥＳ）、一連の処理を終了し、会議終了の指令を受け付けていない場合（ステップＳ１１でＮＯ）、ステップＳ１に戻る。

＜効果等＞
上述のような実施の形態１に係る端末装置１０ａは、第一拠点ＣＰ１に配置され且つ他の拠点ＣＰ２～ＣＰ４に配置された複数の端末装置１０ｂ～１０ｄと通信する。端末装置１０ａは、第一拠点ＣＰ１を撮像した画像である第一拠点画像を複数の端末装置１０ｂ～１０ｄに出力する出力部としての第二通信部１２と、複数の端末装置１０ｂ～１０ｄそれぞれから、端末装置１０ｂ～１０ｄの拠点ＣＰ２～ＣＰ４で表示される第一拠点画像に対するユーザの視点情報を取得する取得部としての第一通信部１１と、第一拠点画像に対して、複数の視点情報から得られる第一拠点画像内のユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部１３ｆとを備える。

上記構成によると、端末装置１０ａは、他の拠点における第一拠点画像に対する視点情報を用いて、第一拠点画像の露出制御を行う。端末装置１０ａは、第一拠点画像において、複数の視点情報から得られる注目度の高い領域を測光領域とする露出制御をすることで、多くのユーザにとって鮮明な当該領域を提示することができる。つまり、端末装置１０ａは、より多くのユーザに対して最適な露出制御を行うことができる。

また、実施の形態１に係る端末装置１０ａは、音方向推定部１３ｂを備えてもよい。音方向推定部１３ｂは、第一拠点ＣＰ１に対して集音された音声データから音源の方向を推定する方向推定部として機能し、音源の方向を用いて、第一拠点画像における音源の位置情報を推定する位置推定部として機能してもよい。露出制御部１３ｆは、第一拠点画像に対して、複数の視点情報及び音源の位置情報から得られる第一拠点画像内の注目度の高い領域を測光領域とする露出制御を行ってもよい。

上記構成によると、露出制御部１３ｆが露出制御に用いる視点情報及び音源の位置情報は、他の拠点における視点情報と、第一拠点ＣＰ１における音源の位置情報とを含む。例えば、第一拠点画像において、音源の位置は、他の拠点のユーザの注目度が高い位置であると見なすことができる。端末装置１０ａは、第一拠点画像において、視点情報及び音源の位置情報に関して注目度の高い領域を測光領域とする露出制御をすることで、より多くのユーザに対して最適な露出制御を行うことができる。

また、実施の形態１に係る端末装置１０ａは、視線推定部１３ａを備えてもよい。視線推定部１３ａは、第一拠点画像から、第一拠点ＣＰ１のユーザの視線を推定してもよい。さらに、視線推定部１３ａは、視点生成部として機能し、視線の情報を用いて、端末装置１０ｂ～１０ｄから取得され且つ第一拠点で表示される第二拠点画像であって、端末装置１０ｂ～１０ｄの拠点を撮像した画像である第二拠点画像に対する第一拠点ＣＰ１のユーザの視点を示す視点情報を生成してもよい。さらに、第二通信部１２は、視線推定部１３ａにより生成された視点情報を端末装置１０ｂ～１０ｄに出力してもよい。

上記構成によると、端末装置１０ａは、他の端末装置１０ｂ～１０ｄそれぞれに対して、端末装置１０ｂ～１０ｄの拠点を撮像した画像に対する第一拠点ＣＰ１の視点情報を出力することができる。よって、端末装置１０ａ～１０ｄのそれぞれが、他拠点の視点情報を用いて、露出制御を行うことができる。

また、実施の形態１に係る端末装置１０ａにおいて、露出制御部１３ｆは、注目度が最も高い領域である最大領域が複数ある場合、第一拠点画像における最大領域間の輝度値の差異が所定の範囲を超えるとき、ダイナミックレンジを広げるように露出制御を行ってもよい。なお、上記輝度値は、測光領域の測光値であってもよい。

上記構成によると、最大領域間の輝度値の差異が所定の範囲外にある場合、例えば、一方の最大領域が逆光で撮像された画像に対応し、他方の最大領域が順光で撮像された画像に対応すると考えられ得る。このような最大領域に対して、ダイナミックレンジを広げる露出制御を行うことによって、明暗差の大きい２つの領域であっても、ユーザにとって両方が見やすい画像を生成することができる。

また、実施の形態１に係る通信システムとしてのビデオ会議システム１は、複数の拠点に配置され且つ互いに通信する複数の端末装置１０を備える。端末装置１０はそれぞれ、端末装置１０が配置される第一拠点を撮像した画像である第一拠点画像を他の端末装置１０それぞれに出力する第一出力部としての第二通信部１２と、他の端末装置１０それぞれから取得され且つ第一拠点で表示される拠点画像であって、他の端末装置１０それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を他の端末装置１０に出力する第二出力部としての注目情報決定部１３ｃと、他の端末装置１０それぞれから、他の端末装置１０それぞれが配置される拠点で表示される第一拠点画像に対する第二ユーザの視点情報を取得する取得部としての第一通信部１１と、第一拠点画像に対して、他の端末装置１０から取得された複数の視点情報から得られる第一拠点画像内の第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部１３ｆとを備える。このビデオ会議システム１によれば、上記端末装置１０と同様の効果が得られる。

また、本発明は撮像装置であってもよい。例えば、本発明の撮像装置は、第一拠点ＣＰ１に配置される。撮像装置は、第一拠点を撮像した画像である第一拠点画像を取得する撮像部５１と、他の拠点に配置された複数の端末装置１０ｂ～１０ｄと通信する端末装置１０ａとを備える。端末装置１０ａは、第一拠点画像を複数の端末装置１０ｂ～１０ｄに出力する第二通信部１２と、複数の端末装置１０ｂ～１０ｄそれぞれから取得され且つ第一拠点で表示される拠点画像であって、複数の端末装置１０ｂ～１０ｄそれぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を端末装置１０ｂ～１０ｄに出力する注目情報決定部１３ｃと、複数の端末装置１０ｂ～１０ｄそれぞれから、端末装置１０ｂ～１０ｄの拠点で表示される第一拠点画像に対する第二ユーザの視点情報を取得する第一通信部１１と、第一拠点画像に対して、複数の端末装置１０ｂ～１０ｄから取得された複数の視点情報から得られる第一拠点画像内の第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部１３ｆとを備える。この撮像装置によれば、上記端末装置１０と同様の効果が得られる。なお、撮像装置の一例は、端末システム１００であってもよい。

また、本発明は撮像方法であってもよい。例えば、本発明に係る撮像方法は、第一拠点における撮像方法であって、前記第一拠点を撮像した画像である第一拠点画像を取得するステップと、他の拠点に配置された複数の端末と通信することによって、前記第一拠点画像を前記複数の端末に出力するステップと、前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力するステップと、前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得するステップと、前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行うステップと、前記露出制御後の前記第一拠点画像を、前記複数の端末に出力するステップとを含む。この撮像方法によれば、上記撮像装置と同様の効果が得られる。このような撮像方法は、ＣＰＵ、ＬＳＩなどの回路、ＩＣカード又は単体のモジュール等によって、実現されてもよい。

（実施の形態２）
実施の形態２に係る端末装置は、他拠点の端末装置から取得する注目情報に重み付けして注目情報を加算する。以下、実施の形態２について、実施の形態１と異なる点を中心に説明し、実施の形態１と同様の点の説明を適宜省略する。

図１７は、実施の形態２に係る端末システムにおける注目情報の重要度の決定処理を説明する図である。図１７に示すように、第一拠点ＣＰ１には、参加者ＰＡ～ＰＣと、撮像部５１ａと、表示部５４ａが存在する。第二拠点ＣＰ２には、参加者ＰＤ～ＰＦと、撮像部５１ｂと、表示部５４ｂが存在する。第三拠点ＣＰ３には、参加者ＰＧ～ＰＩと、撮像部５１ｃと、表示部５４ｃが存在する。第四拠点ＣＰ４には、参加者ＰＪ～ＰＬと、撮像部５１ｄと、表示部５４ｄが存在する。

第一拠点ＣＰ１の端末装置１０ａが、撮像部５１ａによって撮像された画像を露出制御し、他拠点ＣＰ２～ＣＰ４の端末装置１０ｂ～１０ｄに送信するケースを説明する。図１７では、第二拠点ＣＰ２の参加者ＰＤが最後の話者、つまり直近に発話した話者であり、第三拠点ＣＰ３の参加者ＰＨが参加者ＰＤの直前に発話した話者である。

端末装置１０ａ～１０ｄはそれぞれ、自拠点での音方向の情報に基づく注目情報を算出する。これにより、端末装置１０ａ～１０ｄはそれぞれ、自拠点において、発話した参加者と発話のタイミングとを検出することができる。そして、端末装置１０ａ～１０ｄはそれぞれ、他拠点の端末装置１０ａ～１０ｄに対して、自拠点における発話した参加者の識別情報と発話の時刻とを対応付けて含む話者情報を送信する。さらに、端末装置１０ａ～１０ｄはそれぞれ、拠点ＣＰ１～ＣＰ４の全ての参加者の発話の履歴を蓄積することで、発話した参加者の拠点の履歴の情報である話者履歴情報を記憶部１６に保持する。

また、自拠点での音方向の情報に基づく注目情報は、音声入力部５２によって取得される音声データが音声の検出時刻を含むことで、時刻の情報を含むことができる。また、他拠点での視線情報に基づく注目情報は、撮像部５１によって撮像された画像データが撮像時刻を含むことで、時刻の情報を含むことができる。

端末装置１０ａ～１０ｄはそれぞれ、記憶部１６の話者履歴情報と、自拠点での音方向の情報に基づく注目情報と、他拠点での視線情報に基づく注目情報とを、例えば時刻に基づき紐づける。そして、端末装置１０ａ～１０ｄはそれぞれ、話者履歴情報を用いて注目情報を重み付けする。

例えば、端末装置１０ａは、最後の話者である参加者ＰＤがいる第二拠点ＣＰ２の端末装置１０ｂから取得する注目情報の重みを最も大きい「重要度Ａ」とし、参加者ＰＤの直前の話者である参加者ＰＨがいる第三拠点ＣＰ３の端末装置１０ｂから取得する注目情報の重みを２番目に大きい「重要度Ｂ」とする。さらに、端末装置１０ａは、第二拠点ＣＰ２及び第三拠点ＣＰ３以外の拠点の端末装置１０で生成され取得される注目情報の重みを最も小さい「重要度Ｃ」とする。

端末装置１０ａは、自拠点で生成される注目情報及び他拠点から取得される注目情報に、拠点に対応した重要度別の重み付けを行い、加算注目情報の算出の際に活用する。例えば、重み付けは、注目度への重みの乗算であってもよい。これにより、現在話者が存在する拠点において注目されている領域が見やすい映像が得られる。

また、端末装置１０ａ～１０ｄはそれぞれ、最後の話者がいる拠点以外の拠点の端末装置で生成された注目情報を、無効な注目情報として取り扱ってもよい。これにより、現在話者が存在する拠点において注目されている領域のみに最適に露出制御した映像が得られる。

また、実施の形態２に係る端末装置のその他の構成及び動作は、実施の形態１と同様であるため、その説明を省略する。そして、上述のような実施の形態２に係る端末装置によると、実施の形態１と同様の効果が得られる。

さらに、実施の形態２に係る端末装置１０ａは、複数の端末装置１０ｂ～１０ｄそれぞれから、端末装置１０ｂ～１０ｄの拠点ＣＰ２～ＣＰ４に対して集音された音声データの履歴情報を取得し、露出制御部１３ｆは、複数の端末装置１０ｂ～１０ｄから取得された視点情報に対して複数の端末装置１０ｂ～１０ｄそれぞれの音声データの履歴情報に応じた重み付けをした重み付け後の視点情報を露出制御に用いてもよい。

上記構成によると、重み付け後の視点情報から得られる注目度には、音声データの履歴情報が反映される。例えば、音声データの取得時期が現在から近い拠点の視点情報に対する重みを大きくすることによって、当該視点情報から得られる注目度は高くなる。例えば、音声データの取得時期が現在から近い拠点ほど、他の拠点のユーザの注目度が高いと見なすことができる。よって、端末装置１０ａは、より多くのユーザに対して最適な露出制御を行うことができる。

（その他の実施の形態）
以上、本発明の実施の形態の例について説明したが、本発明は、上記実施の形態及び変形例に限定されない。すなわち、本発明の範囲内で種々の変形及び改良が可能である。例えば、各種変形を実施の形態又は変形例に施したもの、及び、異なる実施の形態及び変形例における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

例えば、実施の形態に係る端末システム１００において、撮像部５１は、視線情報を取得するために拠点の参加者を撮像する機能と、露出制御部１３ｆにより露出制御を受ける画像を撮像する機能とを兼ねていたが、これに限定されない。例えば、各機能を実現する２つの撮像部が設けられてもよい。

また、上記で用いた序数、数量等の数字は、全て本発明の技術を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明の技術を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。

また、機能ブロック図におけるブロックの分割は一例であり、複数のブロックを一つのブロックとして実現する、一つのブロックを複数に分割する、及び／又は、一部の機能を他のブロックに移してもよい。また、類似する機能を有する複数のブロックの機能を単一のハードウェア又はソフトウェアが並列又は時分割に処理してもよい。

１ビデオ会議システム（通信システム）
１０，１０ａ，１０ｂ，１０ｃ，１０ｄ端末装置（通信端末）
１１第一通信部（取得部）
１２第二通信部（出力部、第一出力部）
１３制御部
１３ａ視線推定部（視点生成部）
１３ｂ音方向推定部（方向推定部、位置推定部）
１３ｃ注目情報決定部（第二出力部）
１３ｄ合成部
１３ｅエリア決定部
１３ｆ露出制御部
５１，５１ａ，５１ｂ，５１ｃ，５１ｄ撮像部
５２音声入力部
５４，５４ａ，５４ｂ，５４ｃ，５４ｄ表示部
１００端末システム（撮像装置）

特開平０５－２２７４６９号公報

Claims

第一拠点に配置され且つ他の拠点に配置された複数の端末と通信する通信端末であって、
前記第一拠点を撮像した画像である第一拠点画像を前記複数の端末に出力する出力部と、
前記複数の端末それぞれから、前記他の拠点で表示される前記第一拠点画像に対するユーザの視点情報を取得する取得部と、
前記第一拠点画像に対して、複数の前記視点情報から得られる前記第一拠点画像内の前記ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える、
通信端末。
前記第一拠点に対して集音された音声データから音源の方向を推定する方向推定部と、
前記音源の方向を用いて、前記第一拠点画像における前記音源の位置情報を推定する位置推定部とをさらに備え、
前記露出制御部は、前記第一拠点画像に対して、前記複数の視点情報及び前記音源の位置情報から得られる前記第一拠点画像内の注目度の高い領域を前記測光領域とする露出制御を行う、
請求項１に記載の通信端末。
前記第一拠点画像から、前記第一拠点のユーザの視線を推定する視線推定部と、
前記視線の情報を用いて、前記端末から取得され且つ前記第一拠点で表示される第二拠点画像であって、前記端末の拠点を撮像した画像である第二拠点画像に対する前記第一拠点のユーザの視点を示す前記視点情報を生成する視点生成部とをさらに備え、
前記出力部は、前記視点生成部により生成された前記視点情報を前記端末に出力する、
請求項１または２に記載の通信端末。
前記露出制御部は、前記注目度が最も高い領域である最大領域が複数ある場合、前記第一拠点画像における前記最大領域間の輝度値の差異が所定の範囲を超えるとき、ダイナミックレンジを広げるように露出制御を行う、
請求項１～３のいずれか一項に記載の通信端末。
前記取得部は、前記複数の端末それぞれから、前記端末の拠点に対して集音された音声データの履歴情報を取得し、
前記露出制御部は、前記複数の端末から取得された前記視点情報に対して前記複数の端末それぞれの前記音声データの履歴情報に応じた重み付けをした重み付け後の視点情報を露出制御に用いる、
請求項１～４のいずれか一項に記載の通信端末。
複数の拠点に配置され且つ互いに通信する複数の通信端末を備える通信システムであって、
前記通信端末はそれぞれ、
前記通信端末が配置される第一拠点を撮像した画像である第一拠点画像を他の前記通信端末それぞれに出力する第一出力部と、
他の前記通信端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記他の通信端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記他の通信端末に出力する第二出力部と、
他の前記通信端末それぞれから、前記他の通信端末それぞれが配置される拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得する取得部と、
前記第一拠点画像に対して、他の前記通信端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える、
通信システム。
第一拠点に配置される撮像装置であって、
前記第一拠点を撮像した画像である第一拠点画像を取得する撮像部と、
他の拠点に配置された複数の端末と通信する通信端末とを備え、
前記通信端末は、
前記第一拠点画像を前記複数の端末に出力する第一出力部と、
前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力する第二出力部と、
前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得する取得部と、
前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行う露出制御部とを備える、
撮像装置。
前記撮像部は、
前記視点情報を取得するための画像を撮像する第一撮像部と、
前記露出制御部による露出制御が行われる画像を撮像する第二撮像部とを含む、
請求項７に記載の撮像装置。
第一拠点における撮像方法であって、
前記第一拠点を撮像した画像である第一拠点画像を取得するステップと、
他の拠点に配置された複数の端末と通信することによって、前記第一拠点画像を前記複数の端末に出力するステップと、
前記複数の端末それぞれから取得され且つ前記第一拠点で表示される拠点画像であって、前記複数の端末それぞれが配置される拠点を撮像した画像である拠点画像に対する第一ユーザの視点情報を前記端末に出力するステップと、
前記複数の端末それぞれから、前記端末の拠点で表示される前記第一拠点画像に対する第二ユーザの視点情報を取得するステップと、
前記第一拠点画像に対して、前記複数の端末から取得された複数の前記視点情報から得られる前記第一拠点画像内の前記第二ユーザからの注目度の高い領域を測光領域とする露出制御を行うステップと、
前記露出制御後の前記第一拠点画像を、前記複数の端末に出力するステップとを含む、
撮像方法。