JP2017103641A

JP2017103641A - 情報処理装置、会議システム、情報処理方法およびプログラム

Info

Publication number: JP2017103641A
Application number: JP2015235962A
Authority: JP
Inventors: 未来袴谷; Miku Hakamatani; 耕司桑田; Koji Kuwata; 高橋　仁人; Masahito Takahashi; 仁人高橋; 清人五十嵐; Kiyoto Igarashi; 和紀北澤; Kazuki Kitazawa; 智幸後藤; Tomoyuki Goto; 宣正銀川; Nobumasa Gingawa
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2017-06-08

Abstract

【課題】同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる情報処理装置、会議システム、情報処理方法およびプログラムを提供する。
【解決手段】他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、入力部から入力された音声の方向を特定する特定部と、音声が入力されている場合、撮像部により撮像された映像から、発話者を含む映像領域を切り出す切出部と、発話者を含む映像領域および音声を他の情報処理装置に送信する送信部と、他の情報処理装置から他拠点の発話者を含む映像領域および音声を受信する受信部と、表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に他拠点の発話者を含む映像領域を表示させる表示制御部と、他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、発話者の音声を出力させる音声制御部と、を備える。
【選択図】図４

Description

本発明は、情報処理装置、会議システム、情報処理方法およびプログラムに関する。

遠隔地との間で、インターネット等の通信ネットワークを介して遠隔会議を行うビデオ会議システムが普及している。このビデオ会議システムにおいては、遠隔会議（ビデオ会議）を行う参加者等の当事者の一方がいる会議室において、ビデオ会議システムの端末装置を用いて会議室の参加者等の画像（映像）を撮像し、かつ、発話による音声を入力し、映像データおよび音声データを相手方の端末装置に送信する。そして、相手方の会議室のディスプレイに表示し、かつ、スピーカにより音声出力して、実際の会議に近い状態で遠隔地間の会議を実現している。

また、ビデオ会議システムでは、会議の参加者の音声を取得するためにマイクを使用し、映像を取得するためにカメラを使用している。ただし、カメラには画角があるため、カメラの画角外にいる参加者の映像は撮影することができない。この問題を解決するために、３６０度全方向を撮影することができるパノラマカメラを用いる方法が知られている。一方、マイクは、通常、無指向性のため、どの参加者から発話された音声なのか、すなわち、音声の方向を判別することができない。この問題を解決するため、マイクアレイを使用することにより、どの参加者から発話された音声なのか、すなわち、音声の方向を判別する方法が知られている。

このような、ビデオ会議システムとして、ステレオ音声システムを備えた通信制御装置とモノラル音声システムを備えた通信制御装置とがネットワークを介して双方向通信するシステムがあり、一方の通信制御装置におけるモノラル音声送信手段が、複数のマイクの位置関係に応じた割合で複数チャンネルに音声を割り当てて伝送を行い、他方の通信制御装置におけるステレオ音声出力手段が、モノラル音声送信手段から送信された音声を前記割合に応じてステレオスピーカから出力する技術が開示されている（特許文献１）。

特許文献１に記載された技術では、モニタに表示される各拠点の参加者を表示している画面に対応して、すなわち各拠点に対応して、２つのスピーカのいずれから音声出力させるかを決定している。しかしながら、同一拠点内において異なる参加者が発話しても、同一のスピーカから音声出力されることになり、同一拠点内において異なる参加者を、２つのスピーカからの音声出力で区別することができず、その観点において臨場感に欠けるという問題点がある。

本発明は、上記に鑑みてなされたものであって、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる情報処理装置、会議システム、情報処理方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、入力部から入力された音声の方向を特定する特定部と、前記入力部により音声が入力されている場合、撮像部により撮像された映像から、前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出部と、前記切出部により切り出された前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信部と、前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信部と、表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に前記受信部により受信された前記他拠点の発話者を含む映像領域を表示させる表示制御部と、複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる音声制御部と、を備えたことを特徴とする。

本発明によれば、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる。

図１は、実施の形態に係る会議システムの全体構成の一例を示す図である。図２は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。図３は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。図４は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。図５は、会議に参加する参加者の配置例を示す図である。図６は、実施の形態に係る情報処理装置のモード決定処理の流れの一例を示すフローチャートである。図７は、各モードでの映像表示および音声出力の概要を説明する図である。図８は、実施の形態に係る情報処理装置の２画面切替モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図９は、実施の形態に係る情報処理装置の２画面切替モードにおける画面遷移および音声出力の切り替えの例を示す図である。図１０は、ビデオ会議の参加者の全体の映像を切り出す切出範囲の例を説明する図である。図１１は、実施の形態に係る情報処理装置の２画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図１２は、実施の形態に係る情報処理装置の１画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図１３は、３拠点以上の間でビデオ会議を行う場合の映像表示の例を示す図である。

以下に、図１〜１３を参照しながら、本発明に係る情報処理装置、会議システム、情報処理方法およびプログラムの実施の形態を詳細に説明する。また、以下の実施の形態によって本発明が限定されるものではなく、以下の実施の形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施の形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。

（会議システムの構成）
図１は、実施の形態に係る会議システムの全体構成の一例を示す図である。図１を参照しながら、本実施の形態に係る会議システム１の構成について説明する。

図１に示すように、本実施の形態に係る会議システム１は、２以上の情報処理装置（情報処理装置１０ａ、１０ｂ、・・・）と、会議サーバ２０と、を含む。各情報処理装置（情報処理装置１０ａ、１０ｂ、・・・）は、それぞれインターネット等のネットワーク２を介して、互いに通信可能であり、かつ、会議サーバ２０と通信可能となっている。なお、図１に示す１以上の情報処理装置（１０ａ、１０ｂ、・・・）について、任意の情報処理装置を示す場合、または総称する場合、単に「情報処理装置１０」と称するものとする。

情報処理装置１０は、他の情報処理装置１０との間で、会議サーバ２０の制御に基づいてセッションを確立し、確立したセッションを介して、音声データおよび映像データを送受信する会議端末装置である。これにより、会議システム１において、複数の情報処理装置（１０ａ、１０ｂ、・・・）間のビデオ会議（以下、単に「会議」という場合がある）が実現される。

会議サーバ２０は、各情報処理装置１０が会議サーバ２０と接続しているか否かのモニタリング、会議開始時の各情報処理装置１０の呼び出し制御、および会議時の情報処理の制御を行うサーバ装置である。

（情報処理装置のハードウェア構成）
図２は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。図３は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。図２および３を参照しながら、本実施の形態に係る情報処理装置１０のハードウェア構成の詳細について説明する。

図２に示すように、本実施の形態に係る情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３と、補助記憶装置２０４と、メディアドライブ２０５と、操作ボタン２０６と、電源スイッチ２０７と、ネットワークＩ／Ｆ２０８と、撮像素子Ｉ／Ｆ２０９と、パノラマカメラ２１０と、音声Ｉ／Ｆ２１１と、マイクアレイ２１２と、Ｌスピーカ２１３ａと、Ｒスピーカ２１３ｂと、出力Ｉ／Ｆ２１４と、外部機器Ｉ／Ｆ２１６と、を備えている。

ＣＰＵ２０１は、情報処理装置１０全体の動作を制御する集積回路である。ＲＯＭ２０２は、情報処理装置１０用のファームウェア等のプログラムを記憶している不揮発性の記憶装置である。ＲＡＭ２０３は、ＣＰＵ２０１のワークエリアとして使用される揮発性の記憶装置である。

補助記憶装置２０４は、情報処理装置１０の動作を実現する各種プログラム、ならびに映像データおよび音声データ等の各種データを記憶する不揮発性の記憶装置である。補助記憶装置２０４は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等である。

メディアドライブ２０５は、フラッシュメモリ等である記録メディア２０５ａに対するデータの読み出しおよび書き込みを制御する装置である。

操作ボタン２０６は、情報処理装置１０に対する設定操作等を行うためのボタンである。電源スイッチ２０７は、情報処理装置１０の電源のＯＮ／ＯＦＦを切り替えるスイッチである。

ネットワークＩ／Ｆ２０８は、ネットワーク２を利用してデータを通信するためのインターフェースである。ネットワークＩ／Ｆ２０８は、例えば、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）等である。撮像素子Ｉ／Ｆ２０９は、ＣＰＵ２０１の制御に従って被写体を撮像して映像データを得るパノラマカメラ２１０との間で映像データを伝送するためのインターフェースである。

パノラマカメラ２１０は、レンズ、および光を電荷に変換して被写体の画像（映像）をデジタルデータ化する固体撮像素子を含む撮像装置である。パノラマカメラ２１０は、周囲３６０度の映像データを取得する。このように、３６０度の映像データを取得することにより、情報処理装置１０の周囲にいる会議に参加する参加者を全て撮像することが可能となる。パノラマカメラ２１０は、撮像素子Ｉ／Ｆ２０９に接続される。固体撮像素子としては、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）またはＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）等が用いられる。また、パノラマカメラ２１０は、例えば、図３に示すように、情報処理装置１０の上面の中央部等に設置される。

音声Ｉ／Ｆ２１１は、ＣＰＵ２０１の制御に従って、音声を入力するマイクアレイ２１２、ならびに、音声を出力するＬスピーカ２１３ａおよびＲスピーカ２１３ｂとの間で音声信号の入出力を処理するインターフェースである。マイクアレイ２１２は、会議に参加している参加者の音声を入力する集音装置である。マイクアレイ２１２は、複数のマイクを有し、ＣＰＵ２０１の制御に従って、例えば、会議の参加者が発話した音声の方向を判別することができる。Ｌスピーカ２１３ａは、例えば、会議の参加者から見てＲスピーカ２１３ｂの左側に載置されるＬ（左）チャネル用の音声出力装置である。Ｒスピーカ２１３ｂは、例えば、会議の参加者から見てＬスピーカ２１３ａの右側に載置されるＲ（右）チャネル用の音声出力装置である。Ｌスピーカ２１３ａおよびＲスピーカ２１３ｂは、ＣＰＵ２０１の制御に従って、音声を出力する装置である。マイクアレイ２１２、Ｌスピーカ２１３ａおよびＲスピーカ２１３ｂは、それぞれ音声Ｉ／Ｆ２１１に接続される。また、マイクアレイ２１２は、例えば、図３に示すように、６つのマイク（２１２ａ〜２１２ｆ）を有する。マイク２１２ａ〜２１２ｆは、例えば、図３に示すように、情報処理装置１０の筐体の上面に分散して配置される。マイクアレイ２１２は、例えば、マイク２１２ａ〜２１２ｆそれぞれに音声が入力するタイミングのずれ等に基づいて、音声の方向を判別することができる。なお、マイクアレイ２１２は、図３に示すように６つのマイクで構成されることに限定されるものではなく、複数のマイクを有するものであればよい。また、マイクアレイ２１２の各マイクは、図３に示すように、情報処理装置１０の筐体に分散して配置されるものとしたが、これに限定されるものではなく、マイク２１２ａ〜２１２ｆを有するマイクアレイ２１２のユニットが、情報処理装置１０の筐体とは別体として構成されているものとしてもよい。

出力Ｉ／Ｆ２１４は、ＣＰＵ２０１の制御に従って、外付けの表示装置２１５に映像データを伝送するためのインターフェースである。外部機器Ｉ／Ｆ２１６は、ＵＳＢ(ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ)ケーブル等によって、外付けカメラ、外付けマイクおよび外付けスピーカ等の外部機器がそれぞれ電気的に接続可能なインターフェースである。

表示装置２１５は、会議に参加している他拠点の参加者の映像を表示する表示装置である。表示装置２１５は、例えば、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）ディスプレイ、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：液晶ディスプレイ）、または有機ＥＬ（ＯｒｇａｎｉｃＥｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等である。表示装置２１５は、ケーブル２１４ａによって出力Ｉ／Ｆ２１４に接続される。ケーブル２１４ａは、アナログＲＧＢ（ＶＧＡ）信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、ＨＤＭＩ（登録商標）(Ｈｉｇｈ−ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ)またはＤＶＩ(ＤｉｇｉｔａｌＶｉｄｅｏＩｎｔｅｒａｃｔｉｖｅ)信号用のケーブルであってもよい。

上述のＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０３、補助記憶装置２０４、メディアドライブ２０５、操作ボタン２０６、電源スイッチ２０７、ネットワークＩ／Ｆ２０８、撮像素子Ｉ／Ｆ２０９、音声Ｉ／Ｆ２１１、出力Ｉ／Ｆ２１４、および外部機器Ｉ／Ｆ２１６は、アドレスバスおよびデータバス等のバス２１７によって互いに通信可能に接続されている。

なお、情報処理装置１０のハードウェア構成は、図２に示す構成に限定されるものではない。例えば、メディアドライブ２０５は備えていなくてもよい。

（情報処理装置の機能ブロック構成）
図４は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。図５は、会議に参加する参加者の配置例を示す図である。図４および５を参照しながら、本実施の形態に係る情報処理装置１０の機能ブロック構成の詳細について説明する。

図４に示すように、本実施の形態に係る情報処理装置１０は、認識部１０１と、第１特定部１０２と、切出部１０３と、第２特定部１０４（特定部）と、音声切替部１０５（音声制御部）と、管理部１０６（切替部）と、送信部１０７と、受信部１０８と、撮像制御部１０９と、表示制御部１１０と、音声出力制御部１１１と、入力部１１２と、記憶部１１３と、操作部１１４と、通信部１１５と、撮像部１１６と、表示部１１７と、第１音声出力部１１８ａと、第２音声出力部１１８ｂと、を有する。

認識部１０１は、撮像部１１６により撮像された画像に含まれる１以上の参加者の顔の部分を顔画像として認識（以下、「顔認識」という場合がある）する機能部である。認識部１０１による参加者の顔認識は、公知の顔認識の画像解析方法を用いるものとすればよい。撮像部１１６により撮像された画像から認識部１０１によって顔認識された回数をカウントすることによって、会議の参加者の人数を知ることが可能となる。認識部１０１は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

なお、認識部１０１は参加者の顔の部分を顔画像として認識することによって参加者を認識するものとしたが、これに限定されるものではなく、人体検出による認識等のその他の認識方法によって参加者を認識するものとしてもよい。

第１特定部１０２は、撮像部１１６によって撮像された画像において、認識部１０１により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における配置パターンを特定する機能部である。例えば、図５（ａ）に示す会議室では、机４０の上に情報処理装置１０、ならびに表示装置２１５、Ｌスピーカ２１３ａおよびＲスピーカ２１３ｂが載置され、机４０に対して図５（ａ）の紙面視上方にホワイトボード５０が設置されているものとする。このような会議室の状態で、情報処理装置１０の撮像部１１６により３６０度全方向の画像（以下、「パノラマ画像」という場合がある）が撮像された場合、第１特定部１０２は、認識部１０１によって顔認識された参加者６０ａ〜６０ｅについて、参加者６０ａが領域Ｐ１に、参加者６０ｂが領域Ｐ２に、参加者６０ｃが領域Ｐ３に、参加者６０ｄが領域Ｐ５に、そして、参加者６０ｅが領域Ｐ６に位置することを示す配置パターンを特定する。また、図５（ｂ）では、撮像部１１６により撮像されたパノラマ画像において、第１特定部１０２は、認識部１０１によって顔認識された参加者６１ａ〜６１ｄについて、参加者６１ａが領域Ｐ２に、参加者６１ｂが領域Ｐ３に、参加者６１ｃが領域Ｐ４に、そして、参加者６１ｄが領域Ｐ５に位置することを示す配置パターンを特定する。すなわち、配置パターンを特定するということは、情報処理装置１０に対してどの方向に参加者が配置されているかを特定することになる。第１特定部１０２は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

なお、撮像部１１６により撮像された画像を「パノラマ画像」という場合があるものとしたが、撮像部１１６により撮像する客体として映像を示す場合、「パノラマ映像」という場合があるものとする。ただし、映像は、画像を含む概念であるものとする。

切出部１０３は、パノラマ映像から、認識部１０１により顔認識された特定の参加者の映像領域、または、会議に参加している参加者全員を含む映像領域を切り出す機能部である。切出部１０３は、パノラマ映像から特定の参加者の映像領域を切り出す場合、例えば、顔認識された参加者の顔画像が中心となるように映像領域を切り出すものとすればよい。切出部１０３は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

第２特定部１０４は、マイクアレイである入力部１１２により入力された音声の方向を特定する機能部である。具体的には、第２特定部１０４は、例えば、マイクアレイである入力部１１２を構成する複数のマイクに音声が入力するタイミングのずれ等に基づいて、音声の方向を特定する。第２特定部１０４は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

音声切替部１０５は、表示装置２１５に表示される映像に応じて、その映像の音声の出力先を第１音声出力部１１８ａまたは第２音声出力部１１８ｂに切り替える機能部である。音声切替部１０５は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

管理部１０６は、情報処理装置１０の動作モードを管理する機能部である。具体的には、管理部１０６は、認識部１０１によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握し、情報処理装置１０の動作モードを決定する。この情報処理装置１０の動作モードを決定する動作については、図６で後述する。管理部１０６は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

送信部１０７は、切出部１０３により切り出された映像領域に対応する映像データ、および、入力部１１２により入力された音声データを、通信部１１５およびネットワーク２を介して、他拠点の情報処理装置１０に送信する機能部である。具体的には、送信部１０７は、例えば、映像データおよび音声データをエンコードして、他拠点の情報処理装置１０に送信する。ここで、エンコードの方法としては、公知の方法を用いればよい。例えば、Ｈ．２６４／ＡＶＣ、またはＨ．２６４／ＳＶＣ等の圧縮符号化技術を用いればよい。送信部１０７は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

受信部１０８は、ネットワーク２および通信部１１５を介して、他拠点の情報処理装置１０から受信した映像データおよび音声データを受信する機能部である。具体的には、受信部１０８は、例えば、受信した映像データおよび音声データをデコードし、デコードした映像データを表示制御部１１０に送り、デコードした音声データを音声出力制御部１１１に送る。ここで、デコードの方法としては、公知の方法を用いればよい。受信部１０８は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

撮像制御部１０９は、撮像部１１６の動作を制御する機能部である。具体的には、撮像制御部１０９は、例えば、撮像部１１６による撮像の開始および停止の動作等を制御し、撮像部１１６により撮像されたパノラマ映像を取得する。撮像制御部１０９は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

表示制御部１１０は、表示部１１７に各種画像を表示させる制御を行う機能部である。表示制御部１１０は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

音声出力制御部１１１は、第１音声出力部１１８ａおよび第２音声出力部１１８ｂに対して各種音声の出力制御を行う機能部である。音声出力制御部１１１は、例えば、図２に示すＣＰＵ２０１がプログラムを実行することによって実現される。

入力部１１２は、音声を入力する機能部である。入力部１１２は、例えば、図２に示すマイクアレイ２１２によって実現される。

記憶部１１３は、情報処理装置１０の動作を実現する各種プログラム、映像データ、音声データ、および第１特定部１０２によって特定された配置パターン等の情報を記憶する機能部である。記憶部１１３は、例えば、図２に示すＲＡＭ２０３および補助記憶装置２０４によって実現される。

操作部１１４は、情報処理装置１０の利用者（例えば、会議の参加者）の各種操作入力を受け付ける機能部である。操作部１１４は、例えば、図２に示す操作ボタン２０６および電源スイッチ２０７等によって実現される。なお、操作部１１４は、図２に示す操作ボタン２０６および電源スイッチ２０７に限定されるものではなく、マウス、キーボード、またはタッチパネル等によって実現されるものとしてもよい。

通信部１１５は、ネットワーク２を介して、他の情報処理装置１０、および会議サーバ２０とデータ通信をする機能部である。通信部１１５は、例えば、図２に示すネットワークＩ／Ｆ２０８によって実現される。

撮像部１１６は、３６０度全方向のパノラマ画像またはパノラマ映像を撮像する機能部である。撮像部１１６は、例えば、図２に示すパノラマカメラ２１０によって実現される。

表示部１１７は、表示制御部１１０の制御に従って、各種画像を表示する機能部である。表示部１１７は、例えば、図２に示す表示装置２１５によって実現される。

第１音声出力部１１８ａおよび第２音声出力部１１８ｂは、音声切替部１０５および音声出力制御部１１１の制御に従って、各種音声を出力する機能部である。第１音声出力部１１８ａは、例えば、図２に示すＬスピーカ２１３ａによって実現され、第２音声出力部１１８ｂは、例えば、図２に示すＲスピーカ２１３ｂによって実現される。

なお、図４に示す情報処理装置１０の認識部１０１、第１特定部１０２、切出部１０３、第２特定部１０４、音声切替部１０５、管理部１０６、送信部１０７、受信部１０８、撮像制御部１０９、表示制御部１１０、音声出力制御部１１１、入力部１１２、記憶部１１３、操作部１１４、通信部１１５、撮像部１１６、表示部１１７、第１音声出力部１１８ａおよび第２音声出力部１１８ｂは、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図４に示す情報処理装置１０で独立した機能部として図示した複数の機能部を、１つの機能部として構成してもよい。一方、図４に示す情報処理装置１０で１つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。

また、情報処理装置１０の認識部１０１、第１特定部１０２、切出部１０３、第２特定部１０４、音声切替部１０５、管理部１０６、送信部１０７、受信部１０８、撮像制御部１０９、表示制御部１１０および音声出力制御部１１１の一部または全部は、ソフトウェアであるプログラムではなく、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等のハードウェア回路によって実現されてもよい。

（モード決定処理）
図６は、実施の形態に係る情報処理装置のモード決定処理の流れの一例を示すフローチャートである。図７は、各モードでの映像表示および音声出力の概要を説明する図である。図６および７を参照しながら、本実施の形態に係る情報処理装置１０のモード決定処理の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置１０と、相手拠点の情報処理装置１０との２拠点間でのビデオ会議を想定して説明する。

＜ステップＳ１１＞
まず、会議に参加しようとする参加者は、情報処理装置１０の操作部１１４を操作して、情報処理装置１０の電源をＯＮ状態にし、撮像部１１６によって周囲の画像（パノラマ画像）を撮像するための操作入力を行う。撮像制御部１０９は、操作部１１４からパノラマ画像を撮像するための操作情報を受け取ると、撮像部１１６にパノラマ画像を撮像させる。そして、ステップＳ１２へ移行する。

＜ステップＳ１２＞
認識部１０１は、撮像部１１６により撮像された画像に含まれる１以上の参加者の顔の部分を顔画像として認識（顔認識）する。そして、ステップＳ１３へ移行する。

＜ステップＳ１３＞
第１特定部１０２は、撮像部１１６によって撮像されたパノラマ画像において、認識部１０１により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における配置パターンを特定する。第１特定部１０２は、特定した配置パターンの情報を、記憶部１１３に記憶させる。そして、ステップＳ１４へ移行する。

＜ステップＳ１４＞
管理部１０６は、認識部１０１によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握する。会議の参加者の人数が１人である場合（ステップＳ１４：１人）、ステップＳ１５へ移行し、参加者の人数が２人である場合（ステップＳ１４：２人）、ステップＳ１６へ移行し、参加者の人数が３人以上である場合（ステップＳ１４：３人以上）、ステップＳ１７へ移行する。

＜ステップＳ１５＞
管理部１０６は、会議の参加者の人数が１人であると判定した場合、情報処理装置１０の動作モードを１画面固定モード（第１動作モード）に切り替える。そして、情報処理装置１０は、モード決定処理を終了する。

自拠点の情報処理装置１０は、１画面固定モードで動作する場合、自拠点での会議の参加者は１人なので、相手拠点の情報処理装置１０に対して、自拠点の１人の参加者の映像データおよび音声データを送信する。具体的には、まず、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、１画面固定モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。相手拠点の情報処理装置１０は、自拠点の情報処理装置１０が１画面固定モードで動作していることを認識するので、相手拠点の情報処理装置１０の表示制御部１１０は、図７（ａ）に示すように、表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００を図７（ｂ）および（ｃ）のように分割しない。また、相手拠点の情報処理装置１０の音声出力制御部１１１は、受信した音声データを第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）および第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）に分配して音声として出力させる。なお、１画面固定モードの動作の詳細は、図１２で後述する。

＜ステップＳ１６＞
管理部１０６は、会議の参加者の人数が２人であると判定した場合、情報処理装置１０の動作モードを２画面固定モード（第２動作モード）に切り替える。そして、情報処理装置１０は、モード決定処理を終了する。

具体的には、まず、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、２画面固定モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。相手拠点の情報処理装置１０は、自拠点の情報処理装置１０が２画面固定モードで動作していることを認識するので、相手拠点の情報処理装置１０の表示制御部１１０は、図７（ｂ）に示すように、表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００を２分割して、分割領域３００ａおよび分割領域３００ｂを生成する。また、相手拠点の情報処理装置１０の音声出力制御部１１１は、音声切替部１０５の音声の切り替え制御に従って、受信した音声データを第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）または第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）に音声として出力させる。なお、２画面固定モードの動作の詳細は、図１１で後述する。

＜ステップＳ１７＞
管理部１０６は、会議の参加者の人数が３人以上であると判定した場合、情報処理装置１０の動作モードを２画面切替モードに切り替える。そして、情報処理装置１０は、モード決定処理を終了する。

１画面固定モードおよび２画面固定モードと同様に、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、２画面切替モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。２画面切替モードでの映像切り出し動作の詳細については、図８〜１０で後述する。なお、図７（ｃ）の例では、相手拠点の情報処理装置１０の表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００が、分割領域３００ａ、３００ｂに２分割され、分割領域３００ａに参加者Ｘが表示され、分割領域３００ｂに自拠点の参加者全体（参加者Ｖ〜Ｚ）が表示されている状態を示している。なお、２画面切替モードの動作の詳細は、図８で後述する。

以上のステップＳ１１〜Ｓ１７の動作によって、情報処理装置１０によりモード決定処理が実行される。

なお、図６に示すモード決定処理は、会議中において、所定時間ごとに、または、所定の条件を充足した場合に再実行するものとしてもよい。所定の条件を充足した場合とは、例えば、撮像部１１６により撮像されているパノラマ映像において、認識部１０１が顔認識した参加者の位置が移動した場合、前回に認識部１０１により顔認識した利用者がいなくなった場合、または、前回に認識部１０１により顔認識した参加者以外の参加者が顔認識された場合等が挙げられる。

（２画面切替モードでの映像切り出しおよび音声出力の動作）
図８は、実施の形態に係る情報処理装置の２画面切替モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図９は、実施の形態に係る情報処理装置の２画面切替モードにおける画面遷移および音声出力の切り替えの例を示す図である。図１０は、ビデオ会議の参加者の全体の映像を切り出す切出範囲の例を説明する図である。図８〜１０を参照しながら、本実施の形態に係る情報処理装置１０の２画面切替モードでの映像切り出しおよび音声出力の動作の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置１０と、相手拠点の情報処理装置１０との２拠点間でのビデオ会議を想定して説明する。

＜ステップＳ３１＞
上述のように、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、２画面切替モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。相手拠点の情報処理装置１０は、自拠点の情報処理装置１０が２画面切替モードで動作していることを認識しているので、相手拠点の情報処理装置１０の表示制御部１１０は、図７（ｃ）に示すように、表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００を２分割して、分割領域３００ａおよび分割領域３００ｂを生成する。そして、自拠点の情報処理装置１０の入力部１１２は、音声の入力の受け付けを開始する。そして、ステップＳ３２へ移行する。

＜ステップＳ３２＞
入力部１１２により音声が入力された場合（ステップＳ３２：Ｙｅｓ）、ステップＳ３３へ移行し、入力部１１２により音声が入力されない場合（ステップＳ３２：Ｎｏ）、ステップＳ３９へ移行する。自拠点の情報処理装置１０の入力部１１２に音声が入力されない場合とは、例えば、他拠点の参加者が発話している場合等が想定される。

＜ステップＳ３３＞
自拠点の情報処理装置１０の第２特定部１０４は、３人以上の参加者のうちいずれかが発話することにより入力部１１２に入力された音声の方向を特定する。そして、ステップＳ３４へ移行する。

＜ステップＳ３４＞
自拠点の情報処理装置１０の切出部１０３は、第１特定部１０２により特定された配置パターンが示す参加者の方向のうち、第２特定部１０４により特定された音声の方向に最も近い方向の参加者を、発話している参加者（現在の発話者）と判断し、撮像部１１６により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。また、切出部１０３は、ステップＳ３３で発話している参加者の前に発話していた参加者（前回の発話者）（第１利用者）を含む映像領域の切り出しを継続する。そして、ステップＳ３５へ移行する。

＜ステップＳ３５＞
自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データ、および、入力部１１２により入力された現在の発話者の音声データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ３６へ移行する。

＜ステップＳ３６＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送り、デコードした音声データを音声出力制御部１１１に送る。そして、ステップＳ３７へ移行する。

＜ステップＳ３７＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した前回の発話者（第２利用者）の映像領域の映像データを、分割領域３００ａ、３００ｂのうち元々表示していた分割領域（第１分割領域）に継続して表示させる。また、表示制御部１１０は、もう一方の分割領域に、受信した現在の発話者の映像領域の映像データを切り替えて表示させる。

＜ステップＳ３８＞
相手拠点の情報処理装置１０の音声切替部１０５は、分割領域３００ａ、３００ｂのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａまたは第２音声出力部１１８ｂのうち映像データが表示されている分割領域に対応する方から音声として出力させるための制御信号を、音声出力制御部１１１に送る。音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、分割領域３００ａ、３００ｂのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａまたは第２音声出力部１１８ｂのうち映像データが表示されている分割領域に対応する方から音声として出力させる。例えば、音声切替部１０５は、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域３００の左側の領域である分割領域３００ａに表示されている場合、その映像データに対応する音声データ（現在の発話者が発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、分割領域３００ａに表示されている現在の発話者の映像領域の映像データに対応する音声データを、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させる。同様に、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域３００の右側の領域である分割領域３００ｂに表示されている場合、その映像データに対応する音声データは、第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から音声として出力される。そして、ステップＳ４３へ移行する。

＜ステップＳ３９＞
自拠点の情報処理装置１０の切出部１０３は、撮像部１１６により撮像されるパノラマ映像から、第１特定部１０２により特定された配置パターンを用いて自拠点の参加者全体を含む映像領域を切り出す。例えば、図１０（ａ）に示すように、情報処理装置１０が載置された机４０を囲んで、机４０の紙面視上側に２人の参加者が位置し、紙面視下側に１人の参加者が位置している場合を考える。この場合、切出部１０３は、３人の参加者全員を含む範囲であり、かつ、机４０の紙面視上側に位置している２人のうち左側の参加者、および紙面視下側に位置している参加者を端とする最小の範囲である切出範囲４００ａの映像領域を、パノラマ映像から切り出す。

また、図１０（ｂ）に示すように、情報処理装置１０が載置された机４０を囲んで、机４０の紙面視上側に２人の参加者が位置し、紙面視右側に１人の参加者が位置している場合を考える。この場合、切出部１０３は、３人の参加者全員を含む範囲であり、かつ、机４０の紙面視上側に位置している２人のうち左側の参加者、および紙面視右側に位置している参加者を端とする最小の範囲である切出範囲４００ｂの映像領域を、パノラマ映像から切り出す。

また、切出部１０３は、前に発話していた参加者（前回の発話者）（第３利用者）を含む映像領域の切り出しを継続する。そして、ステップＳ４０へ移行する。

＜ステップＳ４０＞
自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された参加者全員および前回の発話者それぞれの映像領域の映像データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ４１へ移行する。

＜ステップＳ４１＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送る。そして、ステップＳ４２へ移行する。

＜ステップＳ４２＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した前回の発話者（第４利用者）の映像領域の映像データを、分割領域３００ａ、３００ｂのうち元々表示していた分割領域（第２分割領域）に継続して表示させる。また、表示制御部１１０は、もう一方の分割領域に、受信した参加者全体の映像領域の映像データを切り替えて表示させる。そして、ステップＳ４３へ移行する。

＜ステップＳ４３＞
自拠点の情報処理装置１０は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置１０は、利用者が操作部１１４から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合（ステップＳ４３：Ｙｅｓ）、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合（ステップＳ４３：Ｎｏ）、ステップＳ３２へ戻る。

以上のステップＳ３１〜Ｓ４３の動作によって、情報処理装置１０により２画面切替モードでの映像切り出しおよび音声出力の動作が実行される。

次に、図９を参照しながら、２画面切替モードにおいて、相手拠点の表示部１１７（表示装置２１５）の表示領域３００（以下、図９の説明では単に「表示領域３００」という）における画面遷移の具体例を説明する。

図９の（１）は、表示領域３００の初期状態の表示例を示している。表示制御部１１０は、例えば、表示領域３００の分割領域３００ａに自拠点の任意の参加者の映像を表示させ、表示領域３００の分割領域３００ｂに自拠点の参加者全体の映像を表示させている。

図９の（２）は、（１）の状態から自拠点の参加者Ｘが発話した場合の表示領域３００の表示例を示している。表示制御部１１０は、分割領域３００ｂの自拠点の参加者全体の映像の表示はそのままとし、分割領域３００ａで自拠点で発話している参加者Ｘの映像に切り替えて表示させる。さらに、音声切替部１０５は、自拠点で発話している参加者Ｘの映像に対応する音声データ（参加者Ｘが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、自拠点で発話している参加者Ｘの映像に対応する音声データ（参加者Ｘが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させる。

図９の（３）は、（２）の状態から自拠点の参加者Ｘとは異なる参加者Ｙが発話した場合の表示領域３００の表示例を示している。表示制御部１１０は、分割領域３００ａに前回の発話者である参加者Ｘの映像を継続して表示させ、分割領域３００ｂで自拠点で現在発話している参加者Ｙの映像に切り替えて表示させる。さらに、音声切替部１０５は、自拠点で発話している参加者Ｙの映像に対応する音声データ（参加者Ｙが発話している音声データ）を、分割領域３００ｂに対応する第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、自拠点で発話している参加者Ｙの映像に対応する音声データ（参加者Ｙが発話している音声データ）を、分割領域３００ｂに対応する第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から音声として出力させる。

図９の（４）は、（３）の状態から自拠点の参加者Ｘが再び発話した場合の表示領域３００の表示例を示している。表示制御部１１０は、分割領域３００ｂに前回の発話者である参加者Ｙの映像を継続して表示させ、分割領域３００ａで自拠点で現在発話している参加者Ｘの映像に切り替えて表示させる。ただし、図９の（３）では、分割領域３００ａに元々参加者Ｘの映像が表示されていたので、分割領域３００ａで表示される映像は実質的に変化がないことになる。さらに、音声切替部１０５は、自拠点で発話している参加者Ｘの映像に対応する音声データ（参加者Ｘが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、自拠点で発話している参加者Ｘの映像に対応する音声データ（参加者Ｘが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させる。

図９の（５）は、（３）の状態から自拠点の参加者Ｘ、Ｙとは異なる参加者Ｚが発話した場合の表示領域３００の表示例を示している。表示制御部１１０は、分割領域３００ｂに前回の発話者である参加者Ｙの映像を継続して表示させ、分割領域３００ａで自拠点で現在発話している参加者Ｚの映像に切り替えて表示させる。さらに、音声切替部１０５は、自拠点で発話している参加者Ｚの映像に対応する音声データ（参加者Ｚが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、自拠点で発話している参加者Ｚの映像に対応する音声データ（参加者Ｚが発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させる。

図９の（６）は、（３）の状態から相手拠点の参加者が発話した場合等で自拠点の参加者が発話しなくなった場合の表示領域３００の表示例を示している。表示制御部１１０は、分割領域３００ｂに前回の発話者である参加者Ｙの映像を継続して表示させ、分割領域３００ａで自拠点の参加者全体の映像に切り替えて表示させる。

（２画面固定モードでの映像切り出しおよび音声出力の動作）
図１１は、実施の形態に係る情報処理装置の２画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図１１を参照しながら、本実施の形態に係る情報処理装置１０の２画面固定モードでの映像切り出しおよび音声出力の動作の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置１０と、相手拠点の情報処理装置１０との２拠点間でのビデオ会議を想定して説明する。

＜ステップＳ５１＞
上述のように、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、２画面固定モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。相手拠点の情報処理装置１０は、自拠点の情報処理装置１０が２画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置１０の表示制御部１１０は、図７（ｂ）に示すように、表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００を２分割して、分割領域３００ａおよび分割領域３００ｂを生成する。そして、自拠点の情報処理装置１０の入力部１１２は、音声の入力の受け付けを開始する。そして、ステップＳ５２へ移行する。

＜ステップＳ５２＞
入力部１１２により音声が入力された場合（ステップＳ５２：Ｙｅｓ）、ステップＳ５３へ移行し、入力部１１２により音声が入力されない場合（ステップＳ５２：Ｎｏ）、ステップＳ５９へ移行する。

＜ステップＳ５３＞
自拠点の情報処理装置１０の第２特定部１０４は、２人の参加者のうちいずれかが発話することにより入力部１１２に入力された音声の方向を特定する。そして、ステップＳ５４へ移行する。

＜ステップＳ５４＞
自拠点の情報処理装置１０の切出部１０３は、第１特定部１０２により特定された配置パターンが示す参加者の方向のうち、第２特定部１０４により特定された音声の方向に最も近い方向の参加者を、発話している参加者（現在の発話者）と判断し、撮像部１１６により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。また、切出部１０３は、ステップＳ５３で発話している参加者の前に発話していた参加者（前回の発話者）を含む映像領域の切り出しを継続する。

なお、２画面固定モードでは、２人の参加者それぞれの映像領域を固定して切り出すので、切出部１０３は、第１特定部１０２により特定された配置パターンが示す参加者の方向と、第２特定部１０４により特定された音声の方向とを比較せずに、発話している参加者（現在の発話者）を含む映像領域をパノラマ映像から継続して切り出すものとしてもよい。そして、ステップＳ５５へ移行する。

＜ステップＳ５５＞
自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データ、および、入力部１１２により入力された現在の発話者の音声データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ５６へ移行する。

＜ステップＳ５６＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送り、デコードした音声データを音声出力制御部１１１に送る。そして、ステップＳ５７へ移行する。

＜ステップＳ５７＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した前回の発話者の映像領域の映像データを、分割領域３００ａ、３００ｂのうち元々表示していた分割領域に継続して表示させる。また、表示制御部１１０は、もう一方の分割領域に、受信した現在の発話者の映像領域の映像データを継続して表示させる。すなわち、例えば、分割領域３００ａに前回の発話者の映像領域の映像データが表示され、分割領域３００ｂに現在の発話者の映像領域の映像データが表示されている場合において、再び前回の発話者が発話した状態になっても、分割領域３００ａには継続して前回の発話者（実際には、現在の新たな発話者）の映像領域の映像データが継続して表示される。そして、ステップＳ５８へ移行する。

＜ステップＳ５８＞
相手拠点の情報処理装置１０の音声切替部１０５は、分割領域３００ａ、３００ｂのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａまたは第２音声出力部１１８ｂのうち映像データが表示されている分割領域に対応する方から音声として出力させるための制御信号を、音声出力制御部１１１に送る。音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、分割領域３００ａ、３００ｂのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａまたは第２音声出力部１１８ｂのうち映像データが表示されている分割領域に対応する方から音声として出力させる。例えば、音声切替部１０５は、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域３００の左側の領域である分割領域３００ａに表示されている場合、その映像データに対応する音声データ（現在の発話者が発話している音声データ）を、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させるための制御信号を、音声出力制御部１１１に送る。そして、音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、分割領域３００ａに表示されている現在の発話者の映像領域の映像データに対応する音声データを、分割領域３００ａに対応する第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から音声として出力させる。同様に、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域３００の右側の領域である分割領域３００ｂに表示されている場合、その映像データに対応する音声データは、第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から音声として出力される。そして、ステップＳ６２へ移行する。

＜ステップＳ５９＞
自拠点の情報処理装置１０の切出部１０３は、撮像部１１６により撮像されるパノラマ映像から、２人の参加者のうち一方を含む映像領域の切り出しを継続する。また、切出部１０３は、２人の参加者のうち他方を含む映像領域の切り出しを継続する。そして、自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された２人の参加者それぞれの映像領域の映像データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ６０へ移行する。

＜ステップＳ６０＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送る。そして、ステップＳ６１へ移行する。

＜ステップＳ６１＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した２人の参加者のうち一方の映像領域の映像データを、分割領域３００ａ、３００ｂのうち元々表示していた分割領域に継続して表示させる。また、表示制御部１１０は、もう一方の分割領域に、受信した２人の参加者のうち他方の映像領域の映像データを継続して表示させる。すなわち、例えば、分割領域３００ａに２人の参加者のうち一方の映像領域の映像データが表示され、分割領域３００ｂに２人の参加者のうち他方の映像領域の映像データが表示されている場合において、２人の参加者のうち一方が発話した状態になっても、分割領域３００ａには継続してその２人の参加者のうち一方の映像領域の映像データが継続して表示され、分割領域３００ｂには継続して２人の参加者のうち他方の映像領域の映像データが継続して表示される。そして、ステップＳ６２へ移行する。

＜ステップＳ６２＞
自拠点の情報処理装置１０は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置１０は、利用者が操作部１１４から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合（ステップＳ６２：Ｙｅｓ）、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合（ステップＳ６２：Ｎｏ）、ステップＳ５２へ戻る。

以上のステップＳ５１〜Ｓ６２の動作によって、情報処理装置１０により２画面固定モードでの映像切り出しおよび音声出力の動作が実行される。

（１画面固定モードでの映像切り出しおよび音声出力の動作）
図１２は、実施の形態に係る情報処理装置の１画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図１２を参照しながら、本実施の形態に係る情報処理装置１０の１画面固定モードでの映像切り出しおよび音声出力動作の流れについて説明する。

＜ステップＳ７１＞
上述のように、自拠点の情報処理装置１０および相手拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。ここでは、自拠点の情報処理装置１０は、１画面固定モードで動作することを示す情報を、ネットワーク２を介して相手拠点の情報処理装置１０に送信する。相手拠点の情報処理装置１０は、自拠点の情報処理装置１０が１画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置１０の表示制御部１１０は、図７（ａ）に示すように、表示部１１７（表示装置２１５）の表示画面２１５ａにおける表示領域３００を図７（ｂ）および（ｃ）のように分割しない。そして、自拠点の情報処理装置１０の入力部１１２は、音声の入力の受け付けを開始する。そして、ステップＳ７２へ移行する。

＜ステップＳ７２＞
入力部１１２により音声が入力された場合（ステップＳ７２：Ｙｅｓ）、ステップＳ７３へ移行し、入力部１１２により音声が入力されない場合（ステップＳ７２：Ｎｏ）、ステップＳ７９へ移行する。

＜ステップＳ７３＞
自拠点の情報処理装置１０の第２特定部１０４は、１人の参加者が発話することにより入力部１１２に入力された音声の方向を特定する。そして、ステップＳ７４へ移行する。

＜ステップＳ７４＞
自拠点の情報処理装置１０の切出部１０３は、第１特定部１０２により特定された配置パターンが示す参加者の方向（この場合、参加者は１人なので一方向）のうち、第２特定部１０４により特定された音声の方向に最も近い方向の参加者を、発話している参加者（現在の発話者）と判断し、撮像部１１６により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。

なお、１画面固定モードでは、１人の参加者の映像領域を固定して切り出すので、切出部１０３は、第１特定部１０２により特定された配置パターンが示す参加者の方向と、第２特定部１０４により特定された音声の方向とを比較せずに、発話している参加者（現在の発話者）を含む映像領域をパノラマ映像から継続して切り出すものとしてもよい。そして、ステップＳ７５へ移行する。

＜ステップＳ７５＞
自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された発話者の映像領域の映像データ、および、入力部１１２により入力された発話者の音声データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ７６へ移行する。

＜ステップＳ７６＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送り、デコードした音声データを音声出力制御部１１１に送る。そして、ステップＳ７７へ移行する。

＜ステップＳ７７＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した発話者の映像領域の映像データを、表示領域３００に継続して表示させる。そして、ステップＳ７８へ移行する。

＜ステップＳ７８＞
相手拠点の情報処理装置１０の音声切替部１０５は、表示領域３００に表示されている発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａおよび第２音声出力部１１８ｂそれぞれに分配して音声として出力させるための制御信号を、音声出力制御部１１１に送る。音声出力制御部１１１は、音声切替部１０５からの制御信号に従って、表示領域３００に表示されている発話者の映像領域の映像データに対応する音声データを、第１音声出力部１１８ａおよび第２音声出力部１１８ｂそれぞれに分配して音声として出力させる。そして、ステップＳ８２へ移行する。

＜ステップＳ７９＞
自拠点の情報処理装置１０の切出部１０３は、撮像部１１６により撮像されるパノラマ映像から、１人の参加者を含む映像領域の切り出しを継続する。そして、自拠点の情報処理装置１０の送信部１０７は、切出部１０３により切り出された１人の参加者の映像領域の映像データをエンコードして、通信部１１５およびネットワーク２を介して、相手拠点の情報処理装置１０に送信する。そして、ステップＳ８０へ移行する。

＜ステップＳ８０＞
相手拠点の情報処理装置１０の受信部１０８は、ネットワーク２および通信部１１５を介して、自拠点の情報処理装置１０から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置１０の受信部１０８は、デコードした映像データを表示制御部１１０に送る。そして、ステップＳ８１へ移行する。

＜ステップＳ８１＞
相手拠点の情報処理装置１０の表示制御部１１０は、受信した１人の参加者の映像領域の映像データを、表示領域３００に継続して表示させる。そして、ステップＳ８２へ移行する。

＜ステップＳ８２＞
自拠点の情報処理装置１０は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置１０は、利用者が操作部１１４から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合（ステップＳ８２：Ｙｅｓ）、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合（ステップＳ８２：Ｎｏ）、ステップＳ７２へ戻る。

以上のステップＳ７１〜Ｓ８２の動作によって、情報処理装置１０により１画面固定モードでの映像切り出しおよび音声出力の動作が実行される。

以上のように、自拠点に複数の参加者が存在する場合、相手拠点の表示装置２１５の表示領域３００を２分割して分割領域３００ａ、３００ｂとし、いずれかの分割領域に表示されている自拠点の参加者の映像に対応する参加者の音声を、その分割領域に対応した音声出力部（第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）または第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ））により出力させるものとしている。これによって、同一拠点内における各参加者の映像を表示する分割領域に応じて、出力させる音声出力部を切り替えることによって、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる。

また、他拠点の参加者が発話している等によって、自拠点の情報処理装置１０の入力部１１２に音声が入力されない場合（発話者がいない場合）、自拠点の情報処理装置１０の切出部１０３は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出し、かつ、前に発話していた参加者（前回の発話者）を含む映像領域の切り出しを継続し、相手拠点の２分割された表示装置２１５の表示領域３００にそれぞれ表示させるものとしている。これによって、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の全体の雰囲気を知ることができる。また、相手拠点の参加者が発話している場合等では、２分割された表示領域３００の一方の分割領域に自拠点の前回の発話者を表示させているので、相手拠点の発話者は、自拠点で最後に発話した参加者が自分の発話についてどのような表情で聞いているのかを読み取ることができる。

また、自拠点の情報処理装置１０の入力部１１２に音声が入力されている場合（自拠点の参加者が発話している場合）、相手拠点の２分割された表示装置２１５の表示領域３００に自拠点の現在の発話者および前回の発話者それぞれを表示させるものとしている。これによって、画面遷移の範囲を最小限に抑えることができる。また、相手拠点の参加者は、自拠点の発話者の分割領域の画像を注視しているため、自拠点の別の参加者が新たに発話しても、注視していない方の分割領域の画像が切り替わるので、画面遷移によって感じるストレスを軽減することができる。

また、自拠点の参加者が１人の場合は、相手拠点の表示装置２１５の表示領域３００は分割させずにその参加者を固定で表示させ、自拠点の参加者が２人の場合は、相手拠点の表示装置２１５の表示領域３００を２分割して、その２人の参加者をそれぞれ固定で表示させるものとしている。この場合、画面遷移は生じないので、画面遷移によるストレスを軽減することができる。

なお、撮像部１１６は、パノラマカメラ２１０によって実現されるものとし、パノラマ画像またはパノラマ映像を撮像するものとしたが、必ずしもこれに限定されるものではない。すなわち、撮像する範囲が３６０度全方向である必要がない等の場合、パノラマカメラを利用する必要はなく、例えば、必要な撮像範囲を網羅する画角を有する撮像装置（カメラ）であってもよい。この場合、撮像装置が撮像可能な画角の範囲で、映像の切り出しを行うものとすればよい。

また、本実施の形態の情報処理装置１０は、第１音声出力部１１８ａおよび第２音声出力部１１８ｂの２つの音声出力部（スピーカ）を備えるものとしたが、これに限定されるものではなく、３つ以上のスピーカを備えるものとしてもよい。例えば、相手拠点の情報処理装置１０が３つのスピーカを備えるものとした場合で、自拠点の参加者が３人以上いる場合、相手拠点の情報処理装置１０の表示装置２１５の表示領域３００を３つの分割領域に分割するものとすればよい。この場合、自拠点の参加者が１人の場合、表示領域３００を分割しない上述の１画面固定モードと同様の動作を実施し、２人の場合、表示領域３００を２分割した上述の２画面固定モードと同様の動作を実施するものとすればよい。また、自拠点の参加者が３人の場合、表示領域３００を３分割し、各分割領域に３人それぞれの映像を固定で表示する３画面の固定モードを実施するものとすればよい。さらに、自拠点の参加者が４人以上の場合に、表示領域３００を３分割し、自拠点で音声入力がある場合は、現在の発話者、前回の発話者、および前々回の発話者をそれぞれの分割領域に表示させ、現在の発話者が表示されている分割領域に対応したスピーカから現在の発話者の音声を出力させるものとすればよい。一方、音声入力がない場合は、前々回の発話者の映像を参加者全体の映像に切り替え、他の２つの分割領域にはそのままの映像を継続して表示させるものとすればよい。

また、情報処理装置１０が２つ以上のスピーカを備える場合、表示装置２１５の表示領域３００を分割する分割領域の数を、そのスピーカの数と同数にする必要はない。この場合、どの分割領域に対応する音声についてはどのスピーカにより出力されるという対応付けがあれば、臨場感のある音声出力を実現することは可能である。

また、自拠点の情報処理装置１０の入力部１１２に音声が入力されない場合（発話者がいない場合）、自拠点の情報処理装置１０の切出部１０３は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出すものとしたが、これに限定されるものではない。すなわち、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の雰囲気を知るということを満たす範囲で、自拠点の参加者全体ではなく、少なくとも１以上の参加者を含む映像領域を切り出すものとしてもよい。

（変形例）
本変形例に係る会議システム１の動作について、上述の実施の形態に係る会議システム１の動作と相違する点を中心に説明する。上述の実施の形態では、２拠点間でのビデオ会議を想定した映像切り出し動作を説明したが、本変形例では３拠点以上の間でビデオ会議が行われる場合の動作について説明する。

図１３は、３拠点以上の間でビデオ会議を行う場合の映像表示の例を示す図である。図１３を参照しながら、３拠点以上の間でビデオ会議を行う場合の映像切り出しおよび音声出力の動作について説明する。

まず、各拠点の情報処理装置１０は、互いに動作モードの情報を、ネットワーク２を介して交換する。これによって、各拠点の情報処理装置１０は、互いの動作モードを認識できると共に、参加する拠点数も認識できる。図１３に示す例では、４つの拠点間でビデオ会議が行われている場合の自拠点（拠点Ａ）の表示画面２１５ａの表示状態を示している。４つの拠点間でビデオ会議を行う場合、自拠点の表示画面２１５ａは、図１３に示すように、他拠点である拠点Ｂ〜Ｄそれぞれに対応する表示領域を表示させる。図１３に示すように、表示画面２１５ａに表示させる表示領域として、拠点Ｂに対応するものを表示領域３０１、拠点Ｃに対応するものを表示領域３０２、そして、拠点Ｄに対応するものを表示領域３０３としている。

図１３の例では、自拠点（拠点Ａ）の情報処理装置１０が、拠点Ｂの情報処理装置１０から２画面固定モードで動作することを示す情報を受信し、拠点Ｃの情報処理装置１０から２画面切替モードで動作することを示す情報を受信し、拠点Ｄの情報処理装置１０から２画面切替モードで動作することを示す情報を受信したものとする。そして、自拠点の情報処理装置１０の表示制御部１１０は、表示部１１７（表示装置２１５）の表示画面２１５ａにおいて、表示領域３０１を２分割して分割領域３０１ａ、３０１ｂを生成し、表示領域３０２を２分割して分割領域３０２ａ、３０２ｂを生成し、表示領域３０３を２分割して分割領域３０３ａ、３０３ｂを生成する。３拠点以上の間でビデオ会議が行われる場合でも、各２拠点間における映像切り出しおよび音声出力動作は、上述の図８〜１２で説明した動作と同様である。

図１３の例では、自拠点（拠点Ａ）の参加者が発話している場合の状態を示している。すなわち、拠点Ｂの情報処理装置１０は、２画面固定モードで動作しているので、拠点Ｂの参加者は２人であり、分割領域３０１ａ、３０１ｂには、２人の参加者の映像をそれぞれ固定で表示させている。また、拠点Ｃの情報処理装置１０は、２画面切替モードで動作しているので、拠点Ｃの参加者は３人以上であり、分割領域３０２ａには拠点Ｃの前回の発話者の映像を表示させ、分割領域３０２ｂには拠点Ｃの参加者全体の映像を表示させている。そして、拠点Ｄの情報処理装置１０は、２画面切替モードで動作しているので、拠点Ｄの参加者は３人以上であり、分割領域３０３ａには拠点Ｄの参加者全体の映像を表示させ、表示領域３０３ｂには拠点Ｄの前回の発話者の映像を表示させている。

ここで、例えば、拠点Ｂの参加者のうち、分割領域３０１ａに表示されている参加者が発話した場合の音声は第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から出力され、分割領域３０１ｂに表示されている参加者が発話した場合の音声は第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から出力される。また、拠点Ｃの参加者のうち、分割領域３０２ａに表示されている参加者が発話した場合の音声は第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から出力され、分割領域３０２ａに表示されている参加者とは異なる参加者が発話した場合、分割領域３０２ｂの表示がその参加者の映像に切り替わり、その参加者が発話した音声が第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から出力される。また、拠点Ｄの参加者のうち、分割領域３０３ｂに表示されている参加者が発話した場合の音声は第２音声出力部１１８ｂ（Ｒスピーカ２１３ｂ）から出力され、分割領域３０３ｂに表示されている参加者とは異なる参加者が発話した場合、分割領域３０３ａの表示がその参加者の映像に切り替わり、その参加者が発話した音声が第１音声出力部１１８ａ（Ｌスピーカ２１３ａ）から出力される。

以上のように、３拠点以上の間でビデオ会議が行われる場合、各２拠点間における映像切り出し動作は、上述の図８〜１２で説明した動作を適用して実現させることができる。これによって、各拠点との間で上述の実施の形態と同様の効果を得ることができる。

なお、上述の実施の形態および変形例において、情報処理装置１０の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ＲＯＭ等に予め組み込まれて提供される。また、上述の実施の形態および変形例に係る情報処理装置１０で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋ−Ｒｅｃｏｒｄａｂｌｅ）、またはＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等のコンピュータで読み取り可能な記憶媒体に記憶して提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置１０で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置１０で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ２０１が上述の記憶装置（例えば、ＲＯＭ２０２および補助記憶装置２０４等）からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置（例えば、ＲＡＭ２０３）上にロードされて生成されるようになっている。

１会議システム
２ネットワーク
１０、１０ａ、１０ｂ情報処理装置
２０会議サーバ
４０机
５０ホワイトボード
６０ａ〜６０ｅ参加者
６１ａ〜６１ｄ参加者
１０１認識部
１０２第１特定部
１０３切出部
１０４第２特定部
１０５音声切替部
１０６管理部
１０７送信部
１０８受信部
１０９撮像制御部
１１０表示制御部
１１１音声出力制御部
１１２入力部
１１３記憶部
１１４操作部
１１５通信部
１１６撮像部
１１７表示部
１１８ａ第１音声出力部
１１８ｂ第２音声出力部
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４補助記憶装置
２０５メディアドライブ
２０５ａ記録メディア
２０６操作ボタン
２０７電源スイッチ
２０８ネットワークＩ／Ｆ
２０９撮像素子Ｉ／Ｆ
２１０パノラマカメラ
２１１音声Ｉ／Ｆ
２１２マイクアレイ
２１２ａ〜２１２ｆマイク
２１３ａＬスピーカ
２１３ｂＲスピーカ
２１４出力Ｉ／Ｆ
２１４ａケーブル
２１５表示装置
２１５ａ表示画面
２１６外部機器Ｉ／Ｆ
２１７バス
３００〜３０３表示領域
３００ａ、３００ｂ分割領域
３０１ａ、３０１ｂ分割領域
３０２ａ、３０２ｂ分割領域
３０３ａ、３０３ｂ分割領域
４００ａ、４００ｂ切出範囲
Ｐ１〜Ｐ７領域

特開２００７−２８１６６８号公報

Claims

他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、
入力部から入力された音声の方向を特定する特定部と、
前記入力部により音声が入力されている場合、撮像部により撮像された映像から、前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出部と、
前記切出部により切り出された前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信部と、
前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信部と、
表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に前記受信部により受信された前記他拠点の発話者を含む映像領域を表示させる表示制御部と、
複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる音声制御部と、
を備えた情報処理装置。
前記切出部は、前記入力部により音声が入力されている場合、
前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を前記映像から切り出し、
前記発話者の前に音声を発していた第１利用者を含む映像領域を前記映像から切り出し、
前記送信部は、前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声、ならびに、前記第１利用者を含む映像領域を、前記他の情報処理装置に送信する請求項１に記載の情報処理装置。
前記受信部により、前記他の情報処理装置から、前記他拠点の発話者を含む映像領域、および該発話者の音声、ならびに該発話者の前に音声を発していた第２利用者を含む映像領域を受信した場合、
前記表示制御部は、前記複数に分割した分割領域のうち、いずれかの分割領域である第１分割領域に前記第２利用者を含む映像領域を継続して表示させ、前記第１分割領域以外の分割領域に前記他拠点の発話者を含む映像領域を切り替えて表示させ、
前記音声制御部は、前記複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる請求項１または２に記載の情報処理装置。
前記切出部は、前記入力部により音声が入力されていない場合、
前記映像に含まれる利用者のうち少なくとも１以上の利用者を含む映像領域を該映像から切り出し、
前記入力部により音声が入力されなくなる直前に入力されていた音声の方向に対応する第３利用者を含む映像領域を前記映像から切り出し、
前記送信部は、前記１以上の利用者を含む映像領域、および前記第３利用者を含む映像領域を前記他の情報処理装置に送信する請求項１〜３のいずれか一項に記載の情報処理装置。
前記受信部により、前記他の情報処理装置から、前記他拠点の１以上の利用者を含む映像領域、および、前記他拠点における前記他の情報処理装置の入力部により音声が入力されなくなる直前に入力されていた音声を発していた第４利用者を含む映像領域を受信した場合、
前記表示制御部は、前記複数に分割した分割領域のうち、いずれかの分割領域である第２分割領域に前記第４利用者を含む映像領域を継続して表示させ、前記第２分割領域以外の分割領域に前記他拠点の１以上の利用者を含む映像領域を切り替えて表示させる請求項４に記載の情報処理装置。
前記受信部により、前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信した場合、
前記表示制御部は、前記表示領域を２分割した分割領域のうち、いずれか一方の分割領域に前記他拠点の発話者を含む映像領域を表示させ、
前記音声制御部は、２つの音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、該発話者の音声を出力させる請求項１〜５のいずれか一項に記載の情報処理装置。
前記映像に含まれる利用者の数を求め、利用者の数が１人である場合、前記情報処理装置を第１動作モードに切り替え、利用者の数が２人である場合、前記情報処理装置を第２動作モードに切り替える切替部を、さらに備え、
前記第１動作モードでは、
前記切出部は、前記映像から１人の利用者を含む映像領域を切り出し、
前記送信部は、前記表示領域に、前記１人の利用者を含む映像領域を前記他の情報処理装置に送信し、前記入力部により音声が入力されている場合、前記入力部から入力された前記１人の利用者である発話者の音声を前記他の情報処理装置に送信し、
前記第２動作モードでは、
前記切出部は、前記映像から２人の利用者をそれぞれ含む映像領域を切り出し、
前記送信部は、前記表示領域を２分割した分割領域それぞれに、前記切出部により切り出された前記２人の利用者をそれぞれ含む映像領域を前記他の情報処理装置に送信し、前記入力部により音声が入力されている場合、前記入力部から入力された前記２人の利用者のうちの発話者の音声を前記他の情報処理装置に送信する請求項６に記載の情報処理装置。
前記他の情報処理装置が前記第１動作モードで動作している場合、
前記受信部により、前記他の情報処理装置から、前記他拠点の発話者を含む映像領域、および該発話者の音声を受信した場合、
前記表示制御部は、前記表示領域に前記他拠点の発話者を含む映像領域を表示させ、
前記音声制御部は、前記２つの音声出力部に、前記受信部により受信された該発話者の音声を分配して出力させ、
前記他の情報処理装置が前記第２動作モードで動作している場合、
前記受信部により、前記他の情報処理装置から、前記他拠点の２人の利用者をそれぞれ含む映像領域を受信した場合、
前記表示制御部は、前記表示領域を２分割した分割領域それぞれに、前記他拠点の２人の利用者をそれぞれ含む映像領域を表示させ、
前記受信部により、前記他の情報処理装置から、さらに、前記他拠点の２人の利用者のうちの発話者の音声を受信した場合、
前記音声制御部は、前記２つの音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、該発話者の音声を出力させる請求項７に記載の情報処理装置。
所定時間ごとに、
前記切替部は、前記撮像部より撮像された映像から利用者の数を求め、利用者の数に基づいて前記第１動作モード、前記第２動作モード、または前記第１動作モードおよび前記第２動作モード以外の動作モードに切り替える請求項７または８に記載の情報処理装置。
前記切出部は、前記撮像部により撮像された全方位の映像から利用者を含む映像領域を切り出す請求項１〜９のいずれか一項に記載の情報処理装置。
前記撮像部と、
前記入力部と、
前記複数の音声出力部と、
前記表示部と、
をさらに備えた請求項１〜１０のいずれか一項に記載の情報処理装置。
請求項１〜１１のいずれか一項に記載の情報処理装置と、
前記情報処理装置と、前記他の情報処理装置との間の通信制御を行うサーバ装置と、
を有する会議システム。
他拠点の他の情報処理装置と映像および音声を通信する情報処理装置の情報処理方法であって、
入力部から入力された音声の方向を特定する特定ステップと、
前記入力部により音声が入力されている場合、撮像部により撮像された映像から、特定した前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出ステップと、
切り出した前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信ステップと、
前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信ステップと、
表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に、受信した前記他拠点の発話者を含む映像領域を表示させる表示制御ステップと、
複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、受信した該発話者の音声を出力させる音声制御ステップと、
を有する情報処理方法。
他の情報処理装置と映像および音声を通信するコンピュータに、
入力部から入力された音声の方向を特定する特定ステップと、
前記入力部により音声が入力されている場合、撮像部により撮像された映像から、特定した前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出ステップと、
切り出した前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信ステップと、
前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信ステップと、
表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に、受信した前記他拠点の発話者を含む映像領域を表示させる表示制御ステップと、
複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、受信した該発話者の音声を出力させる音声制御ステップと、
を実行させるためのプログラム。