JP2016039600A

JP2016039600A - 制御装置、制御方法、プログラム、表示装置、撮像装置および映像会議システム

Info

Publication number: JP2016039600A
Application number: JP2014163684A
Authority: JP
Inventors: ▲徳▼郎山口; Tokuro Yamaguchi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-08-11
Filing date: 2014-08-11
Publication date: 2016-03-22
Anticipated expiration: 2034-08-11
Also published as: JP6435701B2

Abstract

【課題】話者関係性の把握を支援する映像会議システムを提供する。【解決手段】複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、を備える、制御装置が提供される。【選択図】図１

Description

本発明は、制御装置、制御方法、プログラム、表示装置、撮像装置および映像会議システムに関するものである。

複数の拠点を結び、映像や音声を用いた多人数対応のＴＶ会議システムが広く用いられている。このとき、ある拠点に配信されているもう一方の拠点側の映像は、例えば、別拠点の話者の切り替えに応じて適切に切り替えられることで、当該拠点にいる人の話者関係の把握を助けることはよく知られている。しかしながら、こういった映像の手動による切り替えは面倒で煩雑な操作を伴うことも多く、有効に用いられていない。結果として別拠点全体の映像視点のみを選択してしまい、各会議参加者の映像は小さくなり、表情の向きやジェスチャの方向といった非言語コミュニケーションが阻害される要因となっている。このため、複数の拠点において、誰と誰がしゃべっているのかといった話者関係の把握やその時点の話者以外の会議参加者（以下、「第３者」とも言う。）の動向などの把握が難しくなっている。

これらを解決するために、特許文献１では、会議参加者に対してマイクを１つずつ設置して話者の音声を収集し、またズームアップ用カメラを用いて話者を撮影するテレビ会議システムが開示されている。特許文献２には、対象者らに対して複数のマイクとカメラ、磁気センサなどの各種センサをそれぞれ設置し、視線の方向やうなずきのタイミングなどの非言語情報を収集し、その場にいない第３者に対して映像を切り替えて表示する映像切り替え装置を開示している。特許文献３では、会議拠点に会議参加者に向けたディスプレイを設置し、複数のカメラ、マイクから話者の映像・音声を収集し、一方の拠点において別拠点の会話者を表示するテレビ会議装置を開示している。また、会議参加者の人数分ディスプレイを分割し、各会議参加者の正面映像を個別表示する映像会議システムも存在する。

特開平２−２０２２７５号公報特開２００４−２４８１２５号公報特許第５２２７８９９号

しかしながら、特許文献１では、一方の拠点（拠点Ａ）の話者に対してズーム表示することに限定しており、そのとき拠点Ａまたは他方の拠点（拠点Ｂ）の誰に対しての会話なのかを拠点Ｂ側の会議参加者が把握するのは難しい。特許文献２では、一方の拠点（拠点Ａ）での話者関係の把握のために、他方の拠点（拠点Ｂ）での表示映像を切り替えることに限定しており、複数の拠点にまたがる話者関係性を把握することや、拠点Ａ側から拠点Ｂ側の第３者の動向を把握することなどは難しくなっている。同様に、特許文献３では、拠点Ａと拠点Ｂの話者関係をそれぞれの話者へ映像として提示することに限定しており、各々の話者にとって複数の拠点間の話者関係性の把握はなされているが、拠点Ａおよび拠点Ｂ双方の第３者からはそれは困難である。また、各々の話者にとっても、双方の拠点の第３者の動向を把握することは難しい。また、会議参加者の人数分ディスプレイを分割し、各会議参加者を個別表示する映像会議システムにおいても、各会議参加者の正面映像しか表示されないため、同様に各々の話者にとっては複数拠点間の話者関係性は把握されているが、それ以外の第３者からは把握が困難である。

そこで、本発明は、上記問題に鑑みてなされたものであり、複数の拠点の第３者を含めた話者関係性の把握を支援する映像会議システムである。各会議参加者が保持するディスプレイ装置と拠点内を撮像する環境カメラを設置し、会議参加者の座席位置や立ち位置関係に応じた表示映像の切り替え方法と配信方法を提供する。これにより、参加者に対して、複数の拠点間の話者だけでなく、第３者も含めた話者周囲の関係性の把握を支援することができる。

上記問題を解決するために、本発明のある観点によれば、複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、を備える、制御装置が提供される。

前記判定部は、話者の表示装置同士が別拠点に属するか否かを判定し、前記構成決定部は、話者の表示装置同士が別拠点に属するか否かに基づいて、前記複数の表示装置それぞれによって表示される前記表示映像の構成を決定してもよい。

前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における話者の表示装置によって表示される表示映像の構成を、他の拠点における話者を正面から映した映像が前記表示映像に含まれるように決定してもよい。

前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における非話者の表示装置によって表示される表示映像の構成を、前記１の拠点における話者を側面から映した映像および他の拠点における話者を側面から映した映像が、話者同士が向き合うようにして前記表示映像に含まれるように決定してもよい。

前記制御装置は、撮像装置から取得された取得映像のうち話者に関連付けられた設定領域を解析することにより話者の顔向きを判定する映像解析部を備え、前記構成決定部は、前記１の拠点における話者の顔向きと前記１の拠点における話者および非話者の位置関係とにさらに基づいて、前記１の拠点における話者の映像における向きを決定してもよい。

前記映像解析部は、前記取得映像における前記設定領域を示すレイアウト情報を取得してもよい。

前記構成決定部は、他の拠点における話者を側面から映した映像のサイズを調整してもよい。

前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における非話者の表示装置によって表示される表示映像の構成を、前記１の拠点における非話者と前記１の拠点における話者との距離が閾値を下回る場合、前記１の拠点における話者を側面から映した映像が前記表示映像に含まれないように決定してもよい。

前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者の表示装置によって表示される表示映像の構成を、他の拠点を映した映像が前記表示映像に含まれるように決定してもよい。

前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者のセンサと異なる拠点における非話者の表示装置によって表示される表示映像の構成を、同一拠点に属する話者それぞれを側面から映した映像が、前記話者同士が向き合うようにして前記表示映像に含まれるように決定してもよい。

前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者のセンサと同一の拠点における非話者の表示装置によって表示される表示映像の構成を、他の拠点を映した映像が前記表示映像に含まれるように決定してもよい。

前記制御装置は、前記表示映像の構成に従って、前記表示映像を生成する表示制御部を備えてもよい。

前記判定部は、前記複数の表示装置それぞれが有する音声センサによって検出された音声データに基づいて、前記複数の表示装置それぞれの会議参加者が話者であるか否かを判定してもよい。

前記構成決定部は、前記表示装置の向きの変化に応じて前記表示装置によって表示される表示映像の構成を更新してもよい。

また、本発明の他の観点によれば、複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定するステップと、前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定するステップと、を含む、制御方法が提供される。

また、本発明の他の観点によれば、コンピュータを、複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、を備える、制御装置として機能させるためのプログラムが提供される。

また、本発明の他の観点によれば、表示装置において、前記表示装置を利用する会議参加者が話者であるか否かに基づいて前記表示装置によって表示される表示映像の構成を決定する制御装置から、前記表示映像の構成を示す構成情報を取得する通信制御部と、前記構成情報に従って、前記表示映像を生成する表示制御部と、を備える、表示装置が提供される。

また、本発明の他の観点によれば、表示装置によって表示される表示映像の生成に利用される映像を取得する映像取得部と、前記表示装置を利用する会議参加者が話者であるか否かに基づいて前記表示映像の構成を決定する制御装置に対して、取得した前記映像を提供する通信制御部と、を備える、撮像装置が提供される。

また、本発明の他の観点によれば、複数の表示装置を有し、前記複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、を備える、制御装置、を有する、映像会議システムが提供される。

以上説明したように本発明によれば、話者関係性の把握を支援する映像会議システムが提供される。

本発明の実施形態に係る映像会議システムの構成を示した説明図である。ある地点にて３名の会議参加者がそれぞれ表示装置を利用して映像会議システム１０を利用している様子を示した図である。撮像装置の機能構成例を示したブロック図である。撮像装置が取得する取得映像の例を示す図である。制御装置の機能構成例を示したブロック図である。表示装置の機能構成例を示したブロック図である。撮像装置による人物認識の処理の流れを示す図である。制御装置による処理の流れを示す流れ図である。人物位置を判定する手法の例を説明するための図である。各会議参加者の位置関係の模式図である。参加者情報の構成例を示す図である。表示装置におけるセンサデータ送信の処理の流れを示す流れ図である。表示装置における会議映像生成の処理の流れを示す流れ図である。表示装置における会議映像生成の処理の流れを示す流れ図である。会議映像の決定例を示した図である。会議映像の決定例を示した図である。会議映像の決定例を示した図である。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットまたは数字を付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。

（１．映像会議システムの構成）
図１および図２を参照しながら、本発明の実施形態に係る映像会議システム１０の基本構について説明する。図１は、本発明の実施形態に係る映像会議システム１０の構成を示した説明図である。図１に示したように、本発明の実施形態に係る映像会議システム１０は、複数の表示装置１００と、制御装置２００と、複数の撮像装置５００と、無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）アクセスポイント３００と、通信網４００とを備える。このような映像会議システム１０は、オフィス会議室、公共施設内多目的室、病院および金融機関の相談・面談室などの多様な場所に設置され得る。

表示装置１００は、例えば、会議参加者が保持する携帯電話、スマートフォン、ゲーム機、タブレットコンピュータ、パーソナルコンピュータなどであってよい。

無線ＬＡＮアクセスポイント３００は、無線通信機能により無線ＬＡＮを形成し、無線ＬＡＮに属する通信装置による通信を制御および中継する。図１に示した例では、無線ＬＡＮアクセスポイント３００Ａが形成する無線ＬＡＮ３１０Ａに、表示装置１００Ａ−１、１００Ａ−２、１００Ａ−３および撮像装置５００Ａ−１、５００Ａ−２および５００Ａ−３が属し、無線ＬＡＮアクセスポイント３００Ａは、表示装置１００Ａ−１、１００Ａ−２、１００Ａ−３および撮像装置５００Ａ−１、５００Ａ−２および５００Ａ−３による通信を制御および中継する。

同様に、無線ＬＡＮアクセスポイント３００Ｂが形成する無線ＬＡＮ３１０Ａに、表示装置１００Ｂ−１、１００Ｂ−２、１００Ｂ−３および撮像装置５００Ｂ−１、５００Ｂ−２および５００Ｂ−３が属し、無線ＬＡＮアクセスポイント３００Ｂは、表示装置１００Ｂ−１、１００Ｂ−２、１００Ｂ−３および撮像装置５００Ｂ−１、５００Ｂ−２および５００Ｂ−３による通信を制御および中継する。

本発明の実施形態においては、撮像装置５００は、無線ＬＡＮアクセスポイント３００に無線で接続されているが、有線で接続されていてもよい。

通信網４００は、通信網４００に接続されている装置から送信される情報の有線または無線の伝送路である。例えば、通信網４００は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網４００は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。本実施形態においては、通信網４００および無線ＬＡＮアクセスポイント３００を介して、制御装置２００と拠点Ａおよび拠点Ｂそれぞれの装置（各表示装置１００および各撮像装置５００）とが接続される。

図２は、ある地点（拠点Ａ）にて３名の会議参加者（６００Ａ−１、６００Ａ−２、６００−３）がそれぞれ表示装置１００Ａ−１、１００Ａ−２、１００Ａ−３を利用して映像会議システム１０を利用している様子を示している。例えば、表示装置１００Ａ−１、１００Ａ−２、１００Ａ−３は、会議参加者に向かって設置され、会議参加者によって自由に位置および向きを変更させることが可能である。

撮像装置５００Ｂ−１、５００Ｂ−２および５００Ｂ−３は、例えば、会議室の壁や天井など、会議参加者を１人ないし複数捉えるように設置されている。本実施形態においては、拠点Ａのこれら表示装置１００と撮像装置５００の組み合わせと、別拠点（拠点Ｂ）に配置された表示装置１００と撮像装置５００の組み合わせを用いて映像会議システム１０を構成する。

図２には示していないが、表示装置１００に表示される表示映像（以下、「会議映像」とも言う。）は、会議参加者ごとに、拠点Ａの撮像装置５００によって取得された取得映像や拠点Ｂの撮像装置５００によって取得された取得映像を組み合わせて実現される。取得映像の組み合わせにより実現される会議映像の具体例としては、例えば、会議参加者６００Ａ−１が別拠点の人物と会話をしている場合、表示装置１００Ａ−１には別拠点の人物の正面のショットを中心とした会議映像が表示される一方で、会議参加者６００Ａ−３が保持する表示装置１００Ａ−３には別拠点の人物の左向きからのショットを中心とした会議映像が表示される。会議参加者６００Ａ−３の左側に会議参加者６００Ａ−１が在席しており、表示装置１００Ａ−３に左向きショットの別拠点の人物が表示されることによって、会議参加者６００−３は両者が会話していることを把握することができる。

このように、本発明の実施形態においては、会議参加者の位置関係に応じて表示装置に表示する会議映像を切り替えることによって、会議参加者が第３者も含めた話者周囲の関係性を把握することを支援する。

本発明の実施形態に係る映像会議システム１０は、拠点Ａに属する表示装置１００Ａ−１〜１００Ａ−３と撮像装置５００Ａ−１〜５００Ａ−３と、拠点Ｂに属する表示装置１００Ｂ−１〜１００Ｂ−３と撮像装置５００Ｂ−１〜５００Ｂ−３とによって、各拠点の会議参加者への会議映像を提供する。このとき、制御装置２００は、各拠点の表示装置１００および撮像装置５００の情報をそれぞれ取得し、各会議参加者の表示装置１００へ配信する会議映像を制御する。以下、表示装置１００、撮像装置５００および制御装置２００それぞれの各機能構成を説明する。

（１−１．撮像装置の機能構成）
図３は、撮像装置５００の機能構成例を示したブロック図である。図３に示したように、撮像装置５００は、制御部５１０、記憶部５２０、通信部５３０および検出部５４０を備える。

制御部５１０は、撮像装置５００の動作全体を制御する機能を有し、専用のハードウェアによって構成されてもよいし、撮像装置５００に内蔵されたＣＰＵがＲＯＭに記憶されたプログラムをＲＡＭに展開して実行することにより実現されてもよい。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。制御部５１０は、映像取得部５１１、通信制御部５１２および画角制御部５１３を備える。

記憶部５２０は、制御部５１０を動作させるためのプログラムやデータを記憶することができる。また、記憶部５２０は、制御部５１０の動作の過程で必要となる各種データを一時的に記憶することもできる。本発明の実施形態では、記憶部５２０は、レイアウト情報５２２を記憶している。

通信部５３０は、通信網４００を介して制御装置２００との間において各種情報を送受信するための通信インタフェースである。

検出部５４０は、当該装置に内蔵される映像センサなどからなり、当該装置が撮像する取得映像を取得する。取得された取得映像は、映像取得部５１１によって取得され、通信制御部５１２によって通信部５３０を介して制御装置２００に送信される。図４に、撮像装置５００が取得する取得映像Ｚ４０を図示する。図４においては、会議参加者６００Ａ−１、６００Ａ−２および６００Ａ−３が座席に座っている様子が捉えられている。画角制御部５１３は、当該装置の画角を制御する機構を想定している。本実施形態では、会議参加者のリクエストにより、当該装置の画角を制御することが可能である。

レイアウト情報５２２は、当該装置が撮像している会議卓上の座席レイアウトを表現している。例えば、図４に示された設定領域Ｚ４１、Ｚ４２およびＺ４３のようにレイアウト情報は表現される。レイアウト情報は、座席する各会議参加者が映る可能性のある矩形領域が左上座標および右下座標によって２次元で表現されてよい。このとき、当該領域内にて人物認識がなされた場合にはその座席に会議参加者が座っていると判定してよい。

各座席には、例えば、一意の座席番号が割り当てられており、複数の撮像装置５００によって異なる画角から同じ座席を撮像している場合でも、同じ座席には同じ座席番号が割り当てられているものとする。また、座席番号と会議参加者とが一意に対応している場合には、座席番号の代わりに会議参加者の人物名が用いられてもよい。なお、各座席に会議参加者が座っていることを検出する手法は、かかる手法に限定されない。例えば、各座席または各座席近辺に受信器が取り付けてあり、会議参加者に付された送信器の送信データが受信器によって受信されたことにより、その座席に会議参加者が着席したことが検出されてもよい。

このように、本実施形態に係る映像会議システム１０の構成によれば、制御装置２００において、複数の表示装置１００と複数の撮像装置５００とから得られる情報に基づいて、複数拠点会議の状態判定を行い、その判定結果に基づいて各表示装置１００に表示される会議映像の構成情報を決定する。また、決定した構成情報に基づいて表示装置１００において、表示すべき会議映像を生成および表示することで、複数の拠点間の話者だけではなく、第３者も含めた話者周囲の関係性の把握を支援する映像会議システム１０を提供できる。

（１−２．制御装置の機能構成）
図５は、制御装置２００の機能構成例を示したブロック図である。図５に示したように、制御装置２００は、制御部２１０、記憶部２２０および通信部２３０を備える。

制御部２１０は、制御装置２００の動作全体を制御する機能を有し、専用のハードウェアによって構成されてもよいし、制御装置２００に内蔵されたＣＰＵがＲＯＭに記憶されたプログラムをＲＡＭに展開して実行することにより実現されてもよい。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。制御部２１０は、映像取得部２１１、映像解析部２１２、判定部２１３および構成決定部２１４を備える。

記憶部５２０は、記憶部５２０は、制御部５１０を動作させるためのプログラムやデータを記憶することができる。また、記憶部５２０は、制御部５１０の動作の過程で必要となる各種データを一時的に記憶することもできる。本発明の実施形態では、記憶部５２０は、レイアウト情報５２２を記憶している。

通信部２３０は、通信網４００を介して表示装置１００および撮像装置５００との間で各種情報を送受信するための通信インタフェースである。通信部２３０による通信としては、図１に示したように、各拠点に配置される表示装置１００および撮像装置５００との各種情報の送受信を想定している。

映像取得部２１１は、表示装置１００および撮像装置５００から受信される取得映像を取得する。このとき、各装置にはそれぞれ固有ナンバなどが割り当てられ、取得映像にも提供側の装置の固有ナンバが付されており、取得された取得映像と取得映像の提供側の装置とは一意に対応付けられるように取得される。また、撮像装置５００から通知されるレイアウト情報も映像取得部２１１によって取得される。

映像解析部２１２は、映像取得部２１１によって取得された取得映像を解析して、解析結果情報を出力する。本実施形態では、映像解析結果は、撮像装置５００が保持するレイアウト情報に基づいて、取得映像における各設定領域に対して人物認識処理を施した結果を含んでよい。認識された人物は会議参加者として扱われ得る。人物認識処理としては公知技術が用いられてよい。また、映像解析結果は、取得映像内の会議参加者の顔向き（例えば、正面、左右向きの何れであるかの情報）を含んでよい。顔向き検出技術としても、公知の顔認識技術が用いられてよい。

判定部２１３は、会議状況を複数の状態に大別して判定する。このとき、会議状況は、映像解析部２１２によって出力された映像解析結果と表示装置１００から受信されたセンサデータとに基づいて判定される。例えば、判定される会議状況には「拠点間会話」「拠点内会話」「待機」の３種類が挙げられる。

「拠点間会話」状況は、複数の拠点に跨って複数の会議参加者が発話状態である状況とする。ここで、会議参加者の発話状態であるか否かは、表示装置１００に内蔵される検出部１３０によって検出されたセンサデータに基づいて判定され得る。例えば、検出部１３０が音声センサを含む場合、音声センサによって閾値を超える音声が所定の時間を超えて検出されたときに、会議参加者が発話状態であると判定され得る。

「拠点内会話」状況は、「拠点間会話」状況には該当しないが、同一の拠点で複数の会議参加者が発話状態である状況とする。会議参加者が発話状態であることを判定する手法は「拠点間会話」状況と同様である。さらに、拠点内で会話がなされる場合には、話者は話し相手を見ながら会話をすると考えられるため、例えば、音声センサによって検出されたセンサデータの代わりに、または追加的に会議参加者の顔向きに基づいて、会議状況が拠点内会話であるか否かが判定されてもよい。

「待機」状況は、何れの拠点においても発話状態の会議参加者が検出されていない状態である。詳しい会議状況の判定の処理フローについては、後述する。

構成決定部２１４は、会議状況と取得映像とに基づいて、各会議参加者の表示装置１００に表示される会議映像の構成を決定する。例えば、構成決定部２１４は、会議参加者が、「拠点間会話」の状況においては、話者なのか、第３者なのかといった情報から会議映像の構成を決定する。また、例えば、構成決定部２１４は、「拠点内会話」の状況においては、追加的に話者同士が同一拠点なのか、別拠点なのかといった情報から会議映像の構成を決定する。また、例えば、構成決定部２１４は、会議参加者が第３者である場合に、会議参加者自身の座席位置と話者との位置関係に基づいて、会議映像を決定してもよい。

このとき、会議映像を表現する構成情報としては、例えば、会議映像に含める取得映像の番号と取得映像における表示対象となる設定領域を示す情報が想定される。構成決定部２１４は、各会議参加者の構成情報を、通信部２３０を介して表示装置１００に通知する。詳しい構成情報決定の処理フローについては、後述する。

（１−３．表示装置の機能構成）
図６は、表示装置１００の機能構成例を示したブロック図である。図６に示したように、表示装置１００は、制御部１１０、入力部１２０、検出部１３０、通信部１４０および表示部１５０を備える。

制御部１１０は、表示装置１００の動作全体を制御する機能を有し、専用のハードウェアによって構成されてもよいし、表示装置１００に内蔵されたＣＰＵがＲＯＭに記憶されたプログラムをＲＡＭに展開して実行することにより実現されてもよい。かかるプログラムが提供され得る他、かかるプログラムを記憶させた記憶媒体も提供され得る。制御部１１０は、センサデータ取得部１１１、通信制御部１１２、映像生成部１１３および表示制御部１１４を備える。

通信部１４０は、通信網４００を介して制御装置２００との間で各種情報を送受信するための通信インタフェースである。

検出部１３０は、当該装置に内蔵されるセンサなどからなる。検出部１３０としては、映像センサ（カメラ）、音声センサ（マイク）、加速度センサ、地軸センサなどが想定される。

表示部１５０は、表示装置１００に内蔵される液晶ディスプレイおよびスピーカなどを含む。例えば、表示部１５０は、制御装置２００によって決定された構成情報に従って会議映像および音声を生成して再生する。

入力部１２０は、表示部１５０の液晶ディスプレイに具備されるタッチパネルなどが想定される。本実施形態においては、入力部１２０への会議参加者の自由なタッチ操作により表示部１５０によって表示される会議映像の画角等の変更操作が可能である。

センサデータ取得部１１１は、表示装置１００が内蔵する検出部１３０によって検出されたセンサデータを取得する。取得されたセンサデータは、通信制御部１１２によって、通信部１４０を介して制御装置２００に通知される。特に、映像センサによって取得される取得映像は、制御装置２００に送信される。

通信制御部１１２は、制御装置２００から通信部１４０を介して構成情報を取得する。そして、映像生成部１１３は、制御装置２００によって決定された構成情報に従って、制御装置２００から配信される取得映像群から必要な部分を切り抜き、または複数の切り抜き映像を合成することによって、当該表示装置１００に必要な会議映像を生成する。表示制御部１１４は、生成された会議映像を、表示部１５０に出力させる。

（２．映像会議システムの動作）
（２−１．撮像装置から制御装置への情報集約）
次に、撮像装置５００から制御装置２００へ情報を集約する処理を説明する。図７は、撮像装置５００による処理の流れを示す流れ図である。撮像装置５００の通信部５３０は、レイアウト情報を制御装置２００に送信する（Ｓ１０１）。ここで、レイアウト情報は、上記したように、各撮像装置５００の設置位置や画角に対応した人物認識の対象となる設定領域を表現している。

続いて、映像取得部２１１は、映像の取得を試みる（Ｓ１０２）。Ｙｅｓの場合は、Ｓ１０３へと進む。Ｎｏの場合は、再度映像取得の処理を行う。次に、撮像装置５００の通信部５３０は、取得した取得映像を制御装置２００に送信する（Ｓ１０３）。このとき、取得映像には、各撮像装置５００を一意に決定できる、例えば、番号が付与されているものとし、取得映像がその番号と一緒に送信されるものとする。

図８は、制御装置２００による人物認識の処理の流れを示す図である。制御装置２００の通信部２３０は、各撮像装置５００Ａ−１〜５００Ａ−３などからレイアウト情報および取得映像を受信する（Ｓ２０１、Ｓ２０２）。このとき、制御装置２００には、図示はしないが、各撮像装置５００を一意に示す番号と取得映像、先に送信済みであるレイアウト情報の一式が蓄積される。後述する処理では、各撮像装置５００の番号をもとに取得映像およびレイアウト情報にアクセスできるものとする。

次に、映像解析部２１２は、レイアウト情報に基づき、取得映像の設定領域に対して人物認識処理を行う（Ｓ２０３）。この人物認識処理としては、公知の人物認識技術を用いることが可能である。各設定領域のサイズにより検出する人物のサイズをある程度限定できることで、検出精度を上げることが可能である。映像解析部２１２は、人物が認識された場合には（Ｓ２０４でＹｅｓ）、人物位置を判定して（Ｓ２０５）、人物位置によって参加者情報を更新する（Ｓ２０６）。参加者情報については後に説明する。一方、映像解析部２１２は、何れの設定領域においても人物が認識されなかった場合には（Ｓ２０４でＮｏ）、処理フローを終了する。

人物位置を判定する手法の例について説明する。図９は、人物位置を判定する手法の例を説明するための図である。図９に示すように、会議参加者６００Ａ−１が座席に着席している。また、撮像装置５００Ａ−１および撮像装置５００Ａ−２それぞれが設置されており、撮像装置５００Ａ−１の位置Ｐ１および撮像装置５００Ａ−２の位置Ｐ２があらかじめ登録されている。

例えば、映像解析部２１２は、撮像装置５００Ａ−１の位置Ｐ１を基準とした撮像装置５００Ａ−１による会議参加者６００Ａ−１の撮像方向Ｄ１と、撮像装置５００Ａ−２の位置Ｐ２を基準とした撮像装置５００Ａ−２による会議参加者６００Ａ−１の撮像方向Ｄ２との交点座標により会議参加者６００Ａ−１の位置Ｐ０を算出することが可能である。しかし、人物位置を判定する手法は、かかる例に限定されないため、３６０度撮像できる魚眼カメラ装置などを利用して会議参加者６００Ａ−１の位置Ｐ０が算出されてもよい。また、他の会議参加者の位置も同様な手法により算出され得る。

図１０に、各会議参加者の位置関係の模式図を示す。図１０を参照すると、拠点Ａには、３名の会議参加者が着席し、拠点Ｂには、５名の会議参加者が着席している。図９に示したように、映像解析部２１２によって各参加者の人物位置が判定されることによって、各会議参加者の位置関係が把握される。図１１は、参加者情報の構成例を示す図である。図１０に示したように、参加者情報は、撮像装置５００を一意に決定するための装置番号と、撮像装置５００によって取得された取得映像における設定領域と、人物位置と、人物の顔向きとが対応付けられて構成され得る。

（２−２．表示装置から制御装置への情報集約）
次に、表示装置１００から制御装置２００へ情報を集約する処理を説明する。図１２は、表示装置１００におけるセンサデータ送信の処理の流れを示す流れ図である。表示装置１００のセンサデータ取得部１１１は、センサデータの取得を試みる（Ｓ３０１）。センサデータ取得部１１１は、Ｙｅｓの場合には、Ｓ３０２に進み、Ｎｏの場合には、再度センサデータの取得を試みる。

想定されるセンサとしては、映像センサ、音声センサ、地軸センサ、加速度センサなどが挙げられる。例えば、映像センサが用いられた場合には、センサデータは映像データとなり、音声センサが用いられた場合には、センサデータは音声データとなり、地軸センサ、加速度センサが用いられた場合には、センサデータは実測データ列となる。

続いて、通信制御部１１２は、センサデータ取得部１１１によって取得されたセンサデータを、通信部１４０を介して制御装置２００に送信する（Ｓ３０２）。このとき、センサデータには、各表示装置１００を一意に決定するための、例えば、番号が付与されているものとし、センサデータは、その番号と一緒に送信されるものとする。

図１３は、制御装置２００における構成情報生成の処理の流れを示す流れ図である。制御装置２００の通信部２３０は、各表示装置１００Ａ−１〜１００Ａ−３などからセンサデータを受信し（Ｓ４０１）、映像取得部２１１は、各センサデータを取得する。続いて、判定部２１３は、各センサデータに基づいて話者判定を行う（Ｓ４０２）。このとき、話者判定がなされた表示装置１００を保持する会議参加者を話者状態として判別する（センサを発話状態として判別する）。話者状態の判定には、公知の話者認識技術が用いられてよい。例えば、判定部２１３は、閾値を超えた音量を観測したときや、閾値を超えた音量が所定時間連続して観測されたときに、会議参加者が話者状態であると判定してよい。

判定部２１３は、ある表示装置１００からの音声データから会議参加者が話者状態であると判定した場合には（Ｓ４０３）、その話者の顔向きを判定する（Ｓ４０４）。顔向きの判定に関しても、公知の顔認識技術を用いることができる。例えば、目と鼻の位置関係から映像センサに対して左右のどちら側を向いているかが判定され得る。また、顔全体の大きさの推移から、会議参加者が表示装置１００からどのくらい離れているかなども同時に判定され得る。一方、判定部２１３は、会議参加者が話者であると判定されなかった場合には、会議参加者を第３者状態として判定する。

続いて、判定部２１３は、話者の顔向きを参加者情報に登録する（Ｓ４０５）。なお、各会議参加者の状態（「話者」であるか、「第３者」であるか）も参加者情報に登録されてよいが、顔向きが登録されているか否かにより判定され得る。話者状態と判定される会議参加者は同時に複数いる場合もあり得る。そして、判定部２１３は、各会議参加者の話者および第３者の状態判定結果から、「拠点間会話」「拠点内会話」「待機」の３種類の何れかの状況推定の結果を導く。例えば、判定部２１３は、複数の拠点にて、話者状態の会議参加者が複数判定された場合は、会議の状況が拠点間会話状況と判定する。このとき、判定部２１３は、前述した顔向き検知などから、例えば、表示装置１００の方を向かってしゃべっているのか、または同一拠点の別の誰かに向かってしゃべっているのか等を加味し、統合的に判定してもよい。

一方、判定部２１３は、拠点間会話状況には該当しないが、同一拠点内にて、話者状態の会議参加者が一人ないしは複数判定された場合には、会議の状況が拠点内会話状況と判定する。このとき、例えば、資料などを説明する一人の会議参加者が話者状態である場合も、拠点内会話状態として判定される。一方、判定部２１３は、どの拠点のどの会議参加者も話者状態と判定しない場合は、会議の状況が待機状況と判定する。

続いて、制御装置２００において、各表示装置１００に対してＳ４０６およびＳ４０７の処理を行う。まず、構成決定部２１４は、前述の状況推定の結果に基づいて、表示装置１００それぞれに表示すべき取得映像を選択する。このとき選択される取得映像は複数ある場合もある。続けて、選択された取得映像のうち、どの箇所を表示するかを決定する（Ｓ４０６）。例えば、同一人物を表示する場合においても、クローズドショット（顔を中心にしたショット）、ミドルショット（バストアップのショット）、フルショット（体全体を映したショット）など様々ある。この中から、最適なショットを選択し、構成情報として決定する。

最後に、構成決定部２１４は、通信部２３０を介して各表示装置１００に対して、取得映像を表示装置１００に対して送信するとともに、取得映像における表示すべき箇所を構成情報として表示装置１００に対して送信する（Ｓ４０７）。

次に、表示装置１００における会議映像生成の処理を説明する。図１４は、表示装置１００における会議映像生成の処理の流れを示す流れ図である。表示装置１００の通信部１４０は、取得映像および構成情報を受信する（Ｓ５０１）。続いて、映像生成部１１３は、構成情報に基づいて、取得映像を加工、編集し、表示すべき会議映像を生成し（Ｓ５０２）、表示制御部１１４は、会議映像を表示部１５０に表示させる（Ｓ５０３）。

一方、表示制御部１１４は、入力部１２０によって会議参加者からのタッチ操作を現在表示されている会議映像の画角調整、拡大縮小などの操作であると認識し、タッチ操作が検出された場合には、タッチ入力値を保持する。そして、保持されたタッチ入力値に基づいて、会議映像を再生成し（Ｓ５０５）、再生成した会議映像を表示させる（Ｓ５０６）。例えば、表示制御部１１４は、ダブルタップの操作を拡大操作と位置付け、表示すべき設定領域を狭く再生成してもよい。

続いて、図９に示される各会議参加者が利用する映像会議システム１０の動作を中心に、制御装置２００によって推定された会議の状況および各表示装置１００に対応する会議参加者が話者か否かにより場合分けして、ステップＳ４０６に示した構成情報の決定手順の例について詳細に説明する。

（拠点間会話状況における話者の表示装置に表示される会議映像）
拠点間会話状況として、会議参加者６００Ａ−３と会議参加者６００Ｂ−３とが話者である場合を考える。このとき、会議参加者６００Ａ−３の表示装置１００Ａ−３の会議映像としては、別拠点の会議参加者６００Ｂ−３の正面映像が構成決定部２１４によって選択されていることが望ましく、その逆もまた然りである。話者にとって別拠点の話者を確認しながら会話することが重要であるためである。そのため、各々の話者に対応する表示装置１００に内蔵される映像センサより取得される取得映像や、話者を正面から捉えている撮像装置５００からの取得映像が選択される。

さらに、選択された取得映像のうち表示される箇所については、話者を正面に捉えるように構成決定部２１４によって決定されるとよい。このとき、例えば、話者と表示装置１００との距離関係に応じて、クローズドショットやミドルショットのどちらかを表現するように決定してもよい。図１５に、この場合の会議映像の決定例を図示する。話者６００Ａ−３の表示装置１００Ａ−３には別拠点の話者６００Ｂ−３が表示されており、一方、話者６００Ｂ−３の表示装置１００Ｂ−２には、別拠点の話者６００Ａ−３を中心に据えながら、横に座る第３者６００−２を映す取得映像が選択された様子が示されている。

（拠点間会話状況における第３者の表示装置に表示される会議映像）
拠点間会話状況として、会議参加者６００Ａ−２と会議参加者６００Ｂ−１とが第３者である場合を考える。このとき、会議参加者６００Ａ−２の表示装置１００Ａ−２には、同一拠点の話者である会議参加者６００Ａ−３と会議参加者６００Ａ−２との位置関係から、別拠点の会議参加者６００Ｂ−３の左向きショットが選択されることが望ましい。それは、会議参加者６００Ａ−２の左側に同一拠点の話者である６００Ａ−３が座っていることが前段の処理で判明しており、会議参加者６００Ａ−２から見たとき、拠点間の話者関係が把握しやすくなるからである。そのため、話者６００Ｂ−３の左側から撮影している撮像装置５００の取得映像が選択される。

表示される取得映像の箇所については、会議参加者６００Ａ−２から見たとき、同一拠点の会議参加者６００Ａ−３の見た目の大きさと同程度になるように調整されてから表示装置１００Ａ−２に表示させるのがよい。そのため、構成決定部２１４は、表示される取得映像の箇所を会議参加者６００Ａ−３の見た目の大きさに合わせた倍率を表現する構成情報を決定するのがよい。このとき、会議参加者６００Ａ−３の見た目の大きさに合わせた倍率の決定には、例えば、事前のレイアウト情報に設定されている設定領域のサイズを距離換算して求める手法を採用することも可能である。

一方、会議参加者６００Ｂ−１の表示装置１００Ｂ−１には、同一拠点の話者である６００Ｂ−３との位置関係が閾値よりも離れているため、両拠点の話者をそれぞれ等分して表示することが望ましい。それは、双方の話者の様子を把握しながら会話を理解することが重要であるためである。そのため、会議参加者６００Ａ−３の右向きショットと会議参加者６００Ｂ−３の左向きショットとが構成決定部２１４によって選択される。さらに、表示される取得映像の箇所については、選択された左向きショットと右向きショットとが対面するように表現する構成情報が構成決定部２１４によって決定される。

（拠点内会話状況における話者の表示装置１００に表示される会議映像）
拠点Ａの会議参加者６００Ａ−２と会議参加者６００Ａ−３とが話者である場合を考える。このとき、各話者はそれぞれお互いの方向を見て会話をしていることが多く、各表示装置１００には、別拠点の映像がランダムに選択されることが望ましい。それは、話者が同一拠点の第３者に目を配ることは容易であるが、別拠点の映像を選択することが難しいからである。そのため、構成決定部２１４によって別拠点（この場合は拠点Ｂ）の取得映像が所定間隔ごとに変更して選択されるとよい。さらに表示される取得映像の箇所については、特に制限はないが、例えば、会議参加者の権限の高低をあらかじめレイアウト情報に加味しておくことで、権限の高い会議参加者に幾分偏った映像選択をすることも可能である。

（拠点内会話状況における同一拠点の第３者の表示装置１００に表示される会議映像）
同様に、拠点Ａの会議参加者６００Ａ−２と会議参加者６００Ａ−３とが話者である場合を考える。このとき、同一拠点の第３者（この場合では会議参加者６００Ａ−１）は、同一拠点の話者同士の様子を観察できるため、表示装置１００Ａ−１には、先ほどと同様に、別拠点の映像がランダムに選択されることが望ましい。

（拠点内会話状況における別拠点の第３者の表示装置１００に表示される会議映像）
同様に、拠点Ａの会議参加者６００Ａ−２と会議参加者６００Ａ−３とが話者である場合を考える。このとき、別拠点の第３者（この場合では会議参加者６００Ｂ−１）の表示装置１００Ｂ−１には、拠点Ａの会話者が選択的に表示されることが望ましい。図１６に示すように、会議参加者６００Ａ−２の左向きショットと会議参加者６００Ａ−３の右向きショットとが構成決定部２１４によって選択される。さらに、表示される取得映像の箇所については、選択された左向きショットと右向きショットとが対面するように表現する構成情報が構成決定部２１４によって決定される。

また、拠点Ａの会議参加者６００Ａ−２がスライド（あるいは、ホワイトボードやスクリーン）を使って説明している場合を考える。このとき、図１７に示すように、別拠点の第３者（この場合では会議参加者６００Ｂ−３）の表示装置１００Ｂ−３に表示される取得映像としては、拠点Ａの会議参加者６００Ａ−２とスクリーンＺ１０００が同時に映るような取得映像が選択される。さらに、表示される取得映像の箇所については、画角が閾値より狭い場合には、会議参加者６００Ａ−２のミドルショットとスライドが選択され、画角が閾値より広い場合には、会議参加者６００Ａ−２のフルショットとスライドが選択されるといったように、取得映像の画角に応じて決定されてもよい。

このとき、表示される取得映像の箇所に備品（スライド、ホワイトボード、スクリーンなど）を組み込むための手法は特に限定されない。例えば、会議室にあらかじめ備え付けてある備品もレイアウト情報の設定領域に組み入れることで、表示される取得映像の箇所に備品を組み込んでもよいし、会議参加者の顔向きを考慮した形で（例えば、会議参加者６００Ａ−２が右を向いているため、会議参加者６００Ａ−２よりも右側も映した形で）会議映像を生成するなどしてもよい。

（待機状態における会話映像の場合）
待機状態は、会議の序盤などにおいて会議参加者が話し始める前や、会議が煮詰まったときなどに発生する。このとき、各表示装置１００には、別拠点や同一拠点の取得映像がランダムに選択されるようにしてもよい。また、会議全体を通して、各会議参加者の発言率や発言回数などから、まだ発言の少ない会議参加者に偏った映像選択がなされてもよい。このようにすることで、会議への会議参加者全体の帰属感などが醸成できる可能性もある。

以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

本実施形態の変形例として、制御装置２００は、表示装置１００と同一の装置として構成されてもよいし、複数の異なるコンピュータに分割されて構成されてもよい。前者の場合は、複数の表示装置１００のうち、少なくとも一つがその役割を担えばよい。また、映像配信や映像合成など多大な処理性能が要求される場合には、後者の場合である複数の表示装置１００で制御装置２００の処理を分散することなども想定される。

さらに別の変形例として、会議映像を合成する処理を、制御装置２００にて一括にやることなどが想定される。この場合には、各表示装置１００で合成される取得映像すべてを配信しなくてもよいことになるため、通信量の削減などが図られる一方で、会議参加者のタッチ入力のような会議映像の変更が多く発生する場合には、逆に通信量が増える可能性もあり、双方はトレードオフの関係にある。

また別の変形例として、会議参加者からのタッチ入力によって、取得映像の画角を調整することを可能にするために、画角制御部５１３を有する。現在配信されている取得映像ではとらえられない箇所を映すために画角制御を許すが、このとき配信されている取得映像が変更されてしまう。このため、画角制御値に合わせて、各表示装置１００に送信される構成情報を変更することで対応する。このように、画角制御のような会議参加者の細かな要求に対応できる映像会議システム１０を提供することも可能である。

さらに別の変形例として、表示装置１００に内蔵される検出部１３０の一つである地軸センサや加速度センサを利用して、会議卓上においてどちらの方向に表示装置１００を向けているかを検知し、その表示装置１００の位置姿勢方向において別の会議参加者との位置関係を考慮した会議映像を生成してもよい。例えば、同一拠点に複数の話者がいる場合、ある話者に表示装置１００を向けたことを検知し、その話者に対して正対するように別の拠点からの選択されるべき取得映像を変化させてもよい。

表示装置１００に内蔵される検出部１３０および撮像装置５００の一つである映像センサは、会議参加者の人数分あることが望ましいが、広画角で撮影できる映像センサや３６０度撮像できる魚眼カメラ装置などを利用して、映像センサなどの装置数を削減することも可能である。また、図４に示したような取得映像と事前に送信されるレイアウト情報から、図９に示したような位置関係情報を生成するが、人物の位置姿勢などから必ずしも毎フレーム正しく人物検知できるわけではない。そのため、所定時間検知がなされなかったときに、人物不在とするような工夫を組み入れてもよい。

また、同様に、制御装置２００における話者特定の処理においても、人物が移動しながらしゃべるといった場合もあり得る。このとき、人物検知の処理と話者を特定する音声センサを保持する表示装置１００とを変更することで対応することも想定される。このとき、ホワイトボードやスクリーンなどといった会議室にあらかじめ備え付けられている備品もレイアウト情報の設定領域に組み入れることで、人物検知領域や人物の想定移動経路に沿った検知領域の動的対応などの工夫を組み入れてもよい。

１０映像会議システム
１００表示装置
１１０制御部
１１１センサデータ取得部
１１２通信制御部
１１３映像生成部
１１４表示制御部
１２０入力部
１３０検出部
１４０通信部
１５０表示部
２００制御装置
２１０制御部
２１１映像取得部
２１２映像解析部
２１３判定部
２１４構成決定部
２２０記憶部
２３０通信部
３００無線ＬＡＮアクセスポイント
４００通信網
５００撮像装置
５１０制御部
５１１映像取得部
５１２通信制御部
５１３画角制御部
５２０記憶部
５２２レイアウト情報
５３０通信部
５４０検出部
６００会議参加者

Claims

複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、
前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、
を備える、制御装置。
前記判定部は、話者の表示装置同士が別拠点に属するか否かを判定し、
前記構成決定部は、話者の表示装置同士が別拠点に属するか否かに基づいて、前記複数の表示装置それぞれによって表示される前記表示映像の構成を決定する、
請求項１に記載の制御装置。
前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における話者の表示装置によって表示される表示映像の構成を、他の拠点における話者を正面から映した映像が前記表示映像に含まれるように決定する、
請求項２に記載の制御装置。
前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における非話者の表示装置によって表示される表示映像の構成を、前記１の拠点における話者を側面から映した映像および他の拠点における話者を側面から映した映像が、話者同士が向き合うようにして前記表示映像に含まれるように決定する、
請求項２に記載の制御装置。
前記制御装置は、
撮像装置から取得された取得映像のうち話者に関連付けられた設定領域を解析することにより話者の顔向きを判定する映像解析部を備え、
前記構成決定部は、前記１の拠点における話者の顔向きと前記１の拠点における話者および非話者の位置関係とにさらに基づいて、前記１の拠点における話者の映像における向きを決定する、
請求項４に記載の制御装置。
前記映像解析部は、前記取得映像における前記設定領域を示すレイアウト情報を取得する、
請求項５に記載の制御装置。
前記構成決定部は、他の拠点における話者を側面から映した映像のサイズを調整する、
請求項４に記載の制御装置。
前記構成決定部は、話者の表示装置同士が別拠点に属すると判定された場合、１の拠点における非話者の表示装置によって表示される表示映像の構成を、前記１の拠点における非話者と前記１の拠点における話者との距離が閾値を下回る場合、前記１の拠点における話者を側面から映した映像が前記表示映像に含まれないように決定する、
請求項４に記載の制御装置。
前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者の表示装置によって表示される表示映像の構成を、他の拠点を映した映像が前記表示映像に含まれるように決定する、
請求項２に記載の制御装置。
前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者のセンサと異なる拠点における非話者の表示装置によって表示される表示映像の構成を、同一拠点に属する話者それぞれを側面から映した映像が、前記話者同士が向き合うようにして前記表示映像に含まれるように決定する、
請求項２に記載の制御装置。
前記構成決定部は、話者の表示装置同士が同一拠点に属すると判定された場合、１の拠点における話者のセンサと同一の拠点における非話者の表示装置によって表示される表示映像の構成を、他の拠点を映した映像が前記表示映像に含まれるように決定する、
請求項２に記載の制御装置。
前記制御装置は、
前記表示映像の構成に従って、前記表示映像を生成する表示制御部を備える、
請求項１に記載の制御装置。
前記判定部は、前記複数の表示装置それぞれが有する音声センサによって検出された音声データに基づいて、前記複数の表示装置それぞれの会議参加者が話者であるか否かを判定する、
請求項１に記載の制御装置。
前記構成決定部は、前記表示装置の向きの変化に応じて前記表示装置によって表示される表示映像の構成を更新する、
請求項１に記載の制御装置。
複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定するステップと、
前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定するステップと、
を含む、制御方法。
コンピュータを、
複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、
前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、
を備える、制御装置として機能させるためのプログラム。
表示装置において、
前記表示装置を利用する会議参加者が話者であるか否かに基づいて前記表示装置によって表示される表示映像の構成を決定する制御装置から、前記表示映像の構成を示す構成情報を取得する通信制御部と、
前記構成情報に従って、前記表示映像を生成する表示制御部と、
を備える、表示装置。
表示装置によって表示される表示映像の生成に利用される映像を取得する映像取得部と、
前記表示装置を利用する会議参加者が話者であるか否かに基づいて前記表示映像の構成を決定する制御装置に対して、取得した前記映像を提供する通信制御部と、
を備える、撮像装置。
複数の表示装置を有し、
前記複数の表示装置それぞれが有するセンサによって検出されたセンサデータに基づいて、前記複数の表示装置それぞれを利用する会議参加者が話者であるか否かを判定する判定部と、
前記複数の表示装置それぞれが有する会議参加者が話者であるか否かに基づいて、前記複数の表示装置それぞれによって表示される表示映像の構成を決定する構成決定部と、
を備える、制御装置、
を有する、映像会議システム。