JP2017103641A - 情報処理装置、会議システム、情報処理方法およびプログラム - Google Patents

情報処理装置、会議システム、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2017103641A
JP2017103641A JP2015235962A JP2015235962A JP2017103641A JP 2017103641 A JP2017103641 A JP 2017103641A JP 2015235962 A JP2015235962 A JP 2015235962A JP 2015235962 A JP2015235962 A JP 2015235962A JP 2017103641 A JP2017103641 A JP 2017103641A
Authority
JP
Japan
Prior art keywords
information processing
unit
video
speaker
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015235962A
Other languages
English (en)
Inventor
未来 袴谷
Miku Hakamatani
未来 袴谷
耕司 桑田
Koji Kuwata
耕司 桑田
高橋 仁人
Masahito Takahashi
仁人 高橋
清人 五十嵐
Kiyoto Igarashi
清人 五十嵐
和紀 北澤
Kazuki Kitazawa
和紀 北澤
智幸 後藤
Tomoyuki Goto
智幸 後藤
宣正 銀川
Nobumasa Gingawa
宣正 銀川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015235962A priority Critical patent/JP2017103641A/ja
Publication of JP2017103641A publication Critical patent/JP2017103641A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる情報処理装置、会議システム、情報処理方法およびプログラムを提供する。
【解決手段】他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、入力部から入力された音声の方向を特定する特定部と、音声が入力されている場合、撮像部により撮像された映像から、発話者を含む映像領域を切り出す切出部と、発話者を含む映像領域および音声を他の情報処理装置に送信する送信部と、他の情報処理装置から他拠点の発話者を含む映像領域および音声を受信する受信部と、表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に他拠点の発話者を含む映像領域を表示させる表示制御部と、他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、発話者の音声を出力させる音声制御部と、を備える。
【選択図】図4

Description

本発明は、情報処理装置、会議システム、情報処理方法およびプログラムに関する。
遠隔地との間で、インターネット等の通信ネットワークを介して遠隔会議を行うビデオ会議システムが普及している。このビデオ会議システムにおいては、遠隔会議(ビデオ会議)を行う参加者等の当事者の一方がいる会議室において、ビデオ会議システムの端末装置を用いて会議室の参加者等の画像(映像)を撮像し、かつ、発話による音声を入力し、映像データおよび音声データを相手方の端末装置に送信する。そして、相手方の会議室のディスプレイに表示し、かつ、スピーカにより音声出力して、実際の会議に近い状態で遠隔地間の会議を実現している。
また、ビデオ会議システムでは、会議の参加者の音声を取得するためにマイクを使用し、映像を取得するためにカメラを使用している。ただし、カメラには画角があるため、カメラの画角外にいる参加者の映像は撮影することができない。この問題を解決するために、360度全方向を撮影することができるパノラマカメラを用いる方法が知られている。一方、マイクは、通常、無指向性のため、どの参加者から発話された音声なのか、すなわち、音声の方向を判別することができない。この問題を解決するため、マイクアレイを使用することにより、どの参加者から発話された音声なのか、すなわち、音声の方向を判別する方法が知られている。
このような、ビデオ会議システムとして、ステレオ音声システムを備えた通信制御装置とモノラル音声システムを備えた通信制御装置とがネットワークを介して双方向通信するシステムがあり、一方の通信制御装置におけるモノラル音声送信手段が、複数のマイクの位置関係に応じた割合で複数チャンネルに音声を割り当てて伝送を行い、他方の通信制御装置におけるステレオ音声出力手段が、モノラル音声送信手段から送信された音声を前記割合に応じてステレオスピーカから出力する技術が開示されている(特許文献1)。
特許文献1に記載された技術では、モニタに表示される各拠点の参加者を表示している画面に対応して、すなわち各拠点に対応して、2つのスピーカのいずれから音声出力させるかを決定している。しかしながら、同一拠点内において異なる参加者が発話しても、同一のスピーカから音声出力されることになり、同一拠点内において異なる参加者を、2つのスピーカからの音声出力で区別することができず、その観点において臨場感に欠けるという問題点がある。
本発明は、上記に鑑みてなされたものであって、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる情報処理装置、会議システム、情報処理方法およびプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、入力部から入力された音声の方向を特定する特定部と、前記入力部により音声が入力されている場合、撮像部により撮像された映像から、前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出部と、前記切出部により切り出された前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信部と、前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信部と、表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に前記受信部により受信された前記他拠点の発話者を含む映像領域を表示させる表示制御部と、複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる音声制御部と、を備えたことを特徴とする。
本発明によれば、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる。
図1は、実施の形態に係る会議システムの全体構成の一例を示す図である。 図2は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。 図3は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。 図4は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。 図5は、会議に参加する参加者の配置例を示す図である。 図6は、実施の形態に係る情報処理装置のモード決定処理の流れの一例を示すフローチャートである。 図7は、各モードでの映像表示および音声出力の概要を説明する図である。 図8は、実施の形態に係る情報処理装置の2画面切替モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。 図9は、実施の形態に係る情報処理装置の2画面切替モードにおける画面遷移および音声出力の切り替えの例を示す図である。 図10は、ビデオ会議の参加者の全体の映像を切り出す切出範囲の例を説明する図である。 図11は、実施の形態に係る情報処理装置の2画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。 図12は、実施の形態に係る情報処理装置の1画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。 図13は、3拠点以上の間でビデオ会議を行う場合の映像表示の例を示す図である。
以下に、図1〜13を参照しながら、本発明に係る情報処理装置、会議システム、情報処理方法およびプログラムの実施の形態を詳細に説明する。また、以下の実施の形態によって本発明が限定されるものではなく、以下の実施の形態における構成要素には、当業者が容易に想到できるもの、実質的に同一のもの、およびいわゆる均等の範囲のものが含まれる。さらに、以下の実施の形態の要旨を逸脱しない範囲で構成要素の種々の省略、置換、変更および組み合わせを行うことができる。
(会議システムの構成)
図1は、実施の形態に係る会議システムの全体構成の一例を示す図である。図1を参照しながら、本実施の形態に係る会議システム1の構成について説明する。
図1に示すように、本実施の形態に係る会議システム1は、2以上の情報処理装置(情報処理装置10a、10b、・・・)と、会議サーバ20と、を含む。各情報処理装置(情報処理装置10a、10b、・・・)は、それぞれインターネット等のネットワーク2を介して、互いに通信可能であり、かつ、会議サーバ20と通信可能となっている。なお、図1に示す1以上の情報処理装置(10a、10b、・・・)について、任意の情報処理装置を示す場合、または総称する場合、単に「情報処理装置10」と称するものとする。
情報処理装置10は、他の情報処理装置10との間で、会議サーバ20の制御に基づいてセッションを確立し、確立したセッションを介して、音声データおよび映像データを送受信する会議端末装置である。これにより、会議システム1において、複数の情報処理装置(10a、10b、・・・)間のビデオ会議(以下、単に「会議」という場合がある)が実現される。
会議サーバ20は、各情報処理装置10が会議サーバ20と接続しているか否かのモニタリング、会議開始時の各情報処理装置10の呼び出し制御、および会議時の情報処理の制御を行うサーバ装置である。
(情報処理装置のハードウェア構成)
図2は、実施の形態に係る情報処理装置のハードウェア構成の一例を示す図である。図3は、実施の形態に係る情報処理装置の複数のマイクの配置およびパノラマカメラの配置の一例を示す図である。図2および3を参照しながら、本実施の形態に係る情報処理装置10のハードウェア構成の詳細について説明する。
図2に示すように、本実施の形態に係る情報処理装置10は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、補助記憶装置204と、メディアドライブ205と、操作ボタン206と、電源スイッチ207と、ネットワークI/F208と、撮像素子I/F209と、パノラマカメラ210と、音声I/F211と、マイクアレイ212と、Lスピーカ213aと、Rスピーカ213bと、出力I/F214と、外部機器I/F216と、を備えている。
CPU201は、情報処理装置10全体の動作を制御する集積回路である。ROM202は、情報処理装置10用のファームウェア等のプログラムを記憶している不揮発性の記憶装置である。RAM203は、CPU201のワークエリアとして使用される揮発性の記憶装置である。
補助記憶装置204は、情報処理装置10の動作を実現する各種プログラム、ならびに映像データおよび音声データ等の各種データを記憶する不揮発性の記憶装置である。補助記憶装置204は、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等である。
メディアドライブ205は、フラッシュメモリ等である記録メディア205aに対するデータの読み出しおよび書き込みを制御する装置である。
操作ボタン206は、情報処理装置10に対する設定操作等を行うためのボタンである。電源スイッチ207は、情報処理装置10の電源のON/OFFを切り替えるスイッチである。
ネットワークI/F208は、ネットワーク2を利用してデータを通信するためのインターフェースである。ネットワークI/F208は、例えば、NIC(Network Interface Card)等である。撮像素子I/F209は、CPU201の制御に従って被写体を撮像して映像データを得るパノラマカメラ210との間で映像データを伝送するためのインターフェースである。
パノラマカメラ210は、レンズ、および光を電荷に変換して被写体の画像(映像)をデジタルデータ化する固体撮像素子を含む撮像装置である。パノラマカメラ210は、周囲360度の映像データを取得する。このように、360度の映像データを取得することにより、情報処理装置10の周囲にいる会議に参加する参加者を全て撮像することが可能となる。パノラマカメラ210は、撮像素子I/F209に接続される。固体撮像素子としては、CMOS(Complementary Metal Oxide Semiconductor)またはCCD(Charge Coupled Device)等が用いられる。また、パノラマカメラ210は、例えば、図3に示すように、情報処理装置10の上面の中央部等に設置される。
音声I/F211は、CPU201の制御に従って、音声を入力するマイクアレイ212、ならびに、音声を出力するLスピーカ213aおよびRスピーカ213bとの間で音声信号の入出力を処理するインターフェースである。マイクアレイ212は、会議に参加している参加者の音声を入力する集音装置である。マイクアレイ212は、複数のマイクを有し、CPU201の制御に従って、例えば、会議の参加者が発話した音声の方向を判別することができる。Lスピーカ213aは、例えば、会議の参加者から見てRスピーカ213bの左側に載置されるL(左)チャネル用の音声出力装置である。Rスピーカ213bは、例えば、会議の参加者から見てLスピーカ213aの右側に載置されるR(右)チャネル用の音声出力装置である。Lスピーカ213aおよびRスピーカ213bは、CPU201の制御に従って、音声を出力する装置である。マイクアレイ212、Lスピーカ213aおよびRスピーカ213bは、それぞれ音声I/F211に接続される。また、マイクアレイ212は、例えば、図3に示すように、6つのマイク(212a〜212f)を有する。マイク212a〜212fは、例えば、図3に示すように、情報処理装置10の筐体の上面に分散して配置される。マイクアレイ212は、例えば、マイク212a〜212fそれぞれに音声が入力するタイミングのずれ等に基づいて、音声の方向を判別することができる。なお、マイクアレイ212は、図3に示すように6つのマイクで構成されることに限定されるものではなく、複数のマイクを有するものであればよい。また、マイクアレイ212の各マイクは、図3に示すように、情報処理装置10の筐体に分散して配置されるものとしたが、これに限定されるものではなく、マイク212a〜212fを有するマイクアレイ212のユニットが、情報処理装置10の筐体とは別体として構成されているものとしてもよい。
出力I/F214は、CPU201の制御に従って、外付けの表示装置215に映像データを伝送するためのインターフェースである。外部機器I/F216は、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイクおよび外付けスピーカ等の外部機器がそれぞれ電気的に接続可能なインターフェースである。
表示装置215は、会議に参加している他拠点の参加者の映像を表示する表示装置である。表示装置215は、例えば、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display:液晶ディスプレイ)、または有機EL(Organic Electro−Luminescence)ディスプレイ等である。表示装置215は、ケーブル214aによって出力I/F214に接続される。ケーブル214aは、アナログRGB(VGA)信号用のケーブルであってもよく、コンポーネントビデオ用のケーブルであってもよく、HDMI(登録商標)(High−Definition Multimedia Interface)またはDVI(Digital Video Interactive)信号用のケーブルであってもよい。
上述のCPU201、ROM202、RAM203、補助記憶装置204、メディアドライブ205、操作ボタン206、電源スイッチ207、ネットワークI/F208、撮像素子I/F209、音声I/F211、出力I/F214、および外部機器I/F216は、アドレスバスおよびデータバス等のバス217によって互いに通信可能に接続されている。
なお、情報処理装置10のハードウェア構成は、図2に示す構成に限定されるものではない。例えば、メディアドライブ205は備えていなくてもよい。
(情報処理装置の機能ブロック構成)
図4は、実施の形態に係る情報処理装置の機能ブロック構成の一例を示す図である。図5は、会議に参加する参加者の配置例を示す図である。図4および5を参照しながら、本実施の形態に係る情報処理装置10の機能ブロック構成の詳細について説明する。
図4に示すように、本実施の形態に係る情報処理装置10は、認識部101と、第1特定部102と、切出部103と、第2特定部104(特定部)と、音声切替部105(音声制御部)と、管理部106(切替部)と、送信部107と、受信部108と、撮像制御部109と、表示制御部110と、音声出力制御部111と、入力部112と、記憶部113と、操作部114と、通信部115と、撮像部116と、表示部117と、第1音声出力部118aと、第2音声出力部118bと、を有する。
認識部101は、撮像部116により撮像された画像に含まれる1以上の参加者の顔の部分を顔画像として認識(以下、「顔認識」という場合がある)する機能部である。認識部101による参加者の顔認識は、公知の顔認識の画像解析方法を用いるものとすればよい。撮像部116により撮像された画像から認識部101によって顔認識された回数をカウントすることによって、会議の参加者の人数を知ることが可能となる。認識部101は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
なお、認識部101は参加者の顔の部分を顔画像として認識することによって参加者を認識するものとしたが、これに限定されるものではなく、人体検出による認識等のその他の認識方法によって参加者を認識するものとしてもよい。
第1特定部102は、撮像部116によって撮像された画像において、認識部101により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における配置パターンを特定する機能部である。例えば、図5(a)に示す会議室では、机40の上に情報処理装置10、ならびに表示装置215、Lスピーカ213aおよびRスピーカ213bが載置され、机40に対して図5(a)の紙面視上方にホワイトボード50が設置されているものとする。このような会議室の状態で、情報処理装置10の撮像部116により360度全方向の画像(以下、「パノラマ画像」という場合がある)が撮像された場合、第1特定部102は、認識部101によって顔認識された参加者60a〜60eについて、参加者60aが領域P1に、参加者60bが領域P2に、参加者60cが領域P3に、参加者60dが領域P5に、そして、参加者60eが領域P6に位置することを示す配置パターンを特定する。また、図5(b)では、撮像部116により撮像されたパノラマ画像において、第1特定部102は、認識部101によって顔認識された参加者61a〜61dについて、参加者61aが領域P2に、参加者61bが領域P3に、参加者61cが領域P4に、そして、参加者61dが領域P5に位置することを示す配置パターンを特定する。すなわち、配置パターンを特定するということは、情報処理装置10に対してどの方向に参加者が配置されているかを特定することになる。第1特定部102は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
なお、撮像部116により撮像された画像を「パノラマ画像」という場合があるものとしたが、撮像部116により撮像する客体として映像を示す場合、「パノラマ映像」という場合があるものとする。ただし、映像は、画像を含む概念であるものとする。
切出部103は、パノラマ映像から、認識部101により顔認識された特定の参加者の映像領域、または、会議に参加している参加者全員を含む映像領域を切り出す機能部である。切出部103は、パノラマ映像から特定の参加者の映像領域を切り出す場合、例えば、顔認識された参加者の顔画像が中心となるように映像領域を切り出すものとすればよい。切出部103は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
第2特定部104は、マイクアレイである入力部112により入力された音声の方向を特定する機能部である。具体的には、第2特定部104は、例えば、マイクアレイである入力部112を構成する複数のマイクに音声が入力するタイミングのずれ等に基づいて、音声の方向を特定する。第2特定部104は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
音声切替部105は、表示装置215に表示される映像に応じて、その映像の音声の出力先を第1音声出力部118aまたは第2音声出力部118bに切り替える機能部である。音声切替部105は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
管理部106は、情報処理装置10の動作モードを管理する機能部である。具体的には、管理部106は、認識部101によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握し、情報処理装置10の動作モードを決定する。この情報処理装置10の動作モードを決定する動作については、図6で後述する。管理部106は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
送信部107は、切出部103により切り出された映像領域に対応する映像データ、および、入力部112により入力された音声データを、通信部115およびネットワーク2を介して、他拠点の情報処理装置10に送信する機能部である。具体的には、送信部107は、例えば、映像データおよび音声データをエンコードして、他拠点の情報処理装置10に送信する。ここで、エンコードの方法としては、公知の方法を用いればよい。例えば、H.264/AVC、またはH.264/SVC等の圧縮符号化技術を用いればよい。送信部107は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
受信部108は、ネットワーク2および通信部115を介して、他拠点の情報処理装置10から受信した映像データおよび音声データを受信する機能部である。具体的には、受信部108は、例えば、受信した映像データおよび音声データをデコードし、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。ここで、デコードの方法としては、公知の方法を用いればよい。受信部108は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
撮像制御部109は、撮像部116の動作を制御する機能部である。具体的には、撮像制御部109は、例えば、撮像部116による撮像の開始および停止の動作等を制御し、撮像部116により撮像されたパノラマ映像を取得する。撮像制御部109は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
表示制御部110は、表示部117に各種画像を表示させる制御を行う機能部である。表示制御部110は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
音声出力制御部111は、第1音声出力部118aおよび第2音声出力部118bに対して各種音声の出力制御を行う機能部である。音声出力制御部111は、例えば、図2に示すCPU201がプログラムを実行することによって実現される。
入力部112は、音声を入力する機能部である。入力部112は、例えば、図2に示すマイクアレイ212によって実現される。
記憶部113は、情報処理装置10の動作を実現する各種プログラム、映像データ、音声データ、および第1特定部102によって特定された配置パターン等の情報を記憶する機能部である。記憶部113は、例えば、図2に示すRAM203および補助記憶装置204によって実現される。
操作部114は、情報処理装置10の利用者(例えば、会議の参加者)の各種操作入力を受け付ける機能部である。操作部114は、例えば、図2に示す操作ボタン206および電源スイッチ207等によって実現される。なお、操作部114は、図2に示す操作ボタン206および電源スイッチ207に限定されるものではなく、マウス、キーボード、またはタッチパネル等によって実現されるものとしてもよい。
通信部115は、ネットワーク2を介して、他の情報処理装置10、および会議サーバ20とデータ通信をする機能部である。通信部115は、例えば、図2に示すネットワークI/F208によって実現される。
撮像部116は、360度全方向のパノラマ画像またはパノラマ映像を撮像する機能部である。撮像部116は、例えば、図2に示すパノラマカメラ210によって実現される。
表示部117は、表示制御部110の制御に従って、各種画像を表示する機能部である。表示部117は、例えば、図2に示す表示装置215によって実現される。
第1音声出力部118aおよび第2音声出力部118bは、音声切替部105および音声出力制御部111の制御に従って、各種音声を出力する機能部である。第1音声出力部118aは、例えば、図2に示すLスピーカ213aによって実現され、第2音声出力部118bは、例えば、図2に示すRスピーカ213bによって実現される。
なお、図4に示す情報処理装置10の認識部101、第1特定部102、切出部103、第2特定部104、音声切替部105、管理部106、送信部107、受信部108、撮像制御部109、表示制御部110、音声出力制御部111、入力部112、記憶部113、操作部114、通信部115、撮像部116、表示部117、第1音声出力部118aおよび第2音声出力部118bは、機能を概念的に示したものであって、このような構成に限定されるものではない。例えば、図4に示す情報処理装置10で独立した機能部として図示した複数の機能部を、1つの機能部として構成してもよい。一方、図4に示す情報処理装置10で1つの機能部が有する機能を複数に分割し、複数の機能部として構成するものとしてもよい。
また、情報処理装置10の認識部101、第1特定部102、切出部103、第2特定部104、音声切替部105、管理部106、送信部107、受信部108、撮像制御部109、表示制御部110および音声出力制御部111の一部または全部は、ソフトウェアであるプログラムではなく、FPGA(Field−Programmable Gate Array)またはASIC(Application Specific Integrated Circuit)等のハードウェア回路によって実現されてもよい。
(モード決定処理)
図6は、実施の形態に係る情報処理装置のモード決定処理の流れの一例を示すフローチャートである。図7は、各モードでの映像表示および音声出力の概要を説明する図である。図6および7を参照しながら、本実施の形態に係る情報処理装置10のモード決定処理の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置10と、相手拠点の情報処理装置10との2拠点間でのビデオ会議を想定して説明する。
<ステップS11>
まず、会議に参加しようとする参加者は、情報処理装置10の操作部114を操作して、情報処理装置10の電源をON状態にし、撮像部116によって周囲の画像(パノラマ画像)を撮像するための操作入力を行う。撮像制御部109は、操作部114からパノラマ画像を撮像するための操作情報を受け取ると、撮像部116にパノラマ画像を撮像させる。そして、ステップS12へ移行する。
<ステップS12>
認識部101は、撮像部116により撮像された画像に含まれる1以上の参加者の顔の部分を顔画像として認識(顔認識)する。そして、ステップS13へ移行する。
<ステップS13>
第1特定部102は、撮像部116によって撮像されたパノラマ画像において、認識部101により顔認識された参加者の位置を特定し、会議に参加する参加者の会議室における配置パターンを特定する。第1特定部102は、特定した配置パターンの情報を、記憶部113に記憶させる。そして、ステップS14へ移行する。
<ステップS14>
管理部106は、認識部101によりパノラマ画像から顔認識された回数をカウントすることによって、会議の参加者の人数を把握する。会議の参加者の人数が1人である場合(ステップS14:1人)、ステップS15へ移行し、参加者の人数が2人である場合(ステップS14:2人)、ステップS16へ移行し、参加者の人数が3人以上である場合(ステップS14:3人以上)、ステップS17へ移行する。
<ステップS15>
管理部106は、会議の参加者の人数が1人であると判定した場合、情報処理装置10の動作モードを1画面固定モード(第1動作モード)に切り替える。そして、情報処理装置10は、モード決定処理を終了する。
自拠点の情報処理装置10は、1画面固定モードで動作する場合、自拠点での会議の参加者は1人なので、相手拠点の情報処理装置10に対して、自拠点の1人の参加者の映像データおよび音声データを送信する。具体的には、まず、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、1画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が1画面固定モードで動作していることを認識するので、相手拠点の情報処理装置10の表示制御部110は、図7(a)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を図7(b)および(c)のように分割しない。また、相手拠点の情報処理装置10の音声出力制御部111は、受信した音声データを第1音声出力部118a(Lスピーカ213a)および第2音声出力部118b(Rスピーカ213b)に分配して音声として出力させる。なお、1画面固定モードの動作の詳細は、図12で後述する。
<ステップS16>
管理部106は、会議の参加者の人数が2人であると判定した場合、情報処理装置10の動作モードを2画面固定モード(第2動作モード)に切り替える。そして、情報処理装置10は、モード決定処理を終了する。
具体的には、まず、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が2画面固定モードで動作していることを認識するので、相手拠点の情報処理装置10の表示制御部110は、図7(b)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成する。また、相手拠点の情報処理装置10の音声出力制御部111は、音声切替部105の音声の切り替え制御に従って、受信した音声データを第1音声出力部118a(Lスピーカ213a)または第2音声出力部118b(Rスピーカ213b)に音声として出力させる。なお、2画面固定モードの動作の詳細は、図11で後述する。
<ステップS17>
管理部106は、会議の参加者の人数が3人以上であると判定した場合、情報処理装置10の動作モードを2画面切替モードに切り替える。そして、情報処理装置10は、モード決定処理を終了する。
1画面固定モードおよび2画面固定モードと同様に、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面切替モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。2画面切替モードでの映像切り出し動作の詳細については、図8〜10で後述する。なお、図7(c)の例では、相手拠点の情報処理装置10の表示部117(表示装置215)の表示画面215aにおける表示領域300が、分割領域300a、300bに2分割され、分割領域300aに参加者Xが表示され、分割領域300bに自拠点の参加者全体(参加者V〜Z)が表示されている状態を示している。なお、2画面切替モードの動作の詳細は、図8で後述する。
以上のステップS11〜S17の動作によって、情報処理装置10によりモード決定処理が実行される。
なお、図6に示すモード決定処理は、会議中において、所定時間ごとに、または、所定の条件を充足した場合に再実行するものとしてもよい。所定の条件を充足した場合とは、例えば、撮像部116により撮像されているパノラマ映像において、認識部101が顔認識した参加者の位置が移動した場合、前回に認識部101により顔認識した利用者がいなくなった場合、または、前回に認識部101により顔認識した参加者以外の参加者が顔認識された場合等が挙げられる。
(2画面切替モードでの映像切り出しおよび音声出力の動作)
図8は、実施の形態に係る情報処理装置の2画面切替モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図9は、実施の形態に係る情報処理装置の2画面切替モードにおける画面遷移および音声出力の切り替えの例を示す図である。図10は、ビデオ会議の参加者の全体の映像を切り出す切出範囲の例を説明する図である。図8〜10を参照しながら、本実施の形態に係る情報処理装置10の2画面切替モードでの映像切り出しおよび音声出力の動作の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置10と、相手拠点の情報処理装置10との2拠点間でのビデオ会議を想定して説明する。
<ステップS31>
上述のように、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面切替モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が2画面切替モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(c)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成する。そして、自拠点の情報処理装置10の入力部112は、音声の入力の受け付けを開始する。そして、ステップS32へ移行する。
<ステップS32>
入力部112により音声が入力された場合(ステップS32:Yes)、ステップS33へ移行し、入力部112により音声が入力されない場合(ステップS32:No)、ステップS39へ移行する。自拠点の情報処理装置10の入力部112に音声が入力されない場合とは、例えば、他拠点の参加者が発話している場合等が想定される。
<ステップS33>
自拠点の情報処理装置10の第2特定部104は、3人以上の参加者のうちいずれかが発話することにより入力部112に入力された音声の方向を特定する。そして、ステップS34へ移行する。
<ステップS34>
自拠点の情報処理装置10の切出部103は、第1特定部102により特定された配置パターンが示す参加者の方向のうち、第2特定部104により特定された音声の方向に最も近い方向の参加者を、発話している参加者(現在の発話者)と判断し、撮像部116により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。また、切出部103は、ステップS33で発話している参加者の前に発話していた参加者(前回の発話者)(第1利用者)を含む映像領域の切り出しを継続する。そして、ステップS35へ移行する。
<ステップS35>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データ、および、入力部112により入力された現在の発話者の音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS36へ移行する。
<ステップS36>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。そして、ステップS37へ移行する。
<ステップS37>
相手拠点の情報処理装置10の表示制御部110は、受信した前回の発話者(第2利用者)の映像領域の映像データを、分割領域300a、300bのうち元々表示していた分割領域(第1分割領域)に継続して表示させる。また、表示制御部110は、もう一方の分割領域に、受信した現在の発話者の映像領域の映像データを切り替えて表示させる。
<ステップS38>
相手拠点の情報処理装置10の音声切替部105は、分割領域300a、300bのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aまたは第2音声出力部118bのうち映像データが表示されている分割領域に対応する方から音声として出力させるための制御信号を、音声出力制御部111に送る。音声出力制御部111は、音声切替部105からの制御信号に従って、分割領域300a、300bのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aまたは第2音声出力部118bのうち映像データが表示されている分割領域に対応する方から音声として出力させる。例えば、音声切替部105は、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域300の左側の領域である分割領域300aに表示されている場合、その映像データに対応する音声データ(現在の発話者が発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、分割領域300aに表示されている現在の発話者の映像領域の映像データに対応する音声データを、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させる。同様に、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域300の右側の領域である分割領域300bに表示されている場合、その映像データに対応する音声データは、第2音声出力部118b(Rスピーカ213b)から音声として出力される。そして、ステップS43へ移行する。
<ステップS39>
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されるパノラマ映像から、第1特定部102により特定された配置パターンを用いて自拠点の参加者全体を含む映像領域を切り出す。例えば、図10(a)に示すように、情報処理装置10が載置された机40を囲んで、机40の紙面視上側に2人の参加者が位置し、紙面視下側に1人の参加者が位置している場合を考える。この場合、切出部103は、3人の参加者全員を含む範囲であり、かつ、机40の紙面視上側に位置している2人のうち左側の参加者、および紙面視下側に位置している参加者を端とする最小の範囲である切出範囲400aの映像領域を、パノラマ映像から切り出す。
また、図10(b)に示すように、情報処理装置10が載置された机40を囲んで、机40の紙面視上側に2人の参加者が位置し、紙面視右側に1人の参加者が位置している場合を考える。この場合、切出部103は、3人の参加者全員を含む範囲であり、かつ、机40の紙面視上側に位置している2人のうち左側の参加者、および紙面視右側に位置している参加者を端とする最小の範囲である切出範囲400bの映像領域を、パノラマ映像から切り出す。
また、切出部103は、前に発話していた参加者(前回の発話者)(第3利用者)を含む映像領域の切り出しを継続する。そして、ステップS40へ移行する。
<ステップS40>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された参加者全員および前回の発話者それぞれの映像領域の映像データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS41へ移行する。
<ステップS41>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送る。そして、ステップS42へ移行する。
<ステップS42>
相手拠点の情報処理装置10の表示制御部110は、受信した前回の発話者(第4利用者)の映像領域の映像データを、分割領域300a、300bのうち元々表示していた分割領域(第2分割領域)に継続して表示させる。また、表示制御部110は、もう一方の分割領域に、受信した参加者全体の映像領域の映像データを切り替えて表示させる。そして、ステップS43へ移行する。
<ステップS43>
自拠点の情報処理装置10は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置10は、利用者が操作部114から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合(ステップS43:Yes)、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合(ステップS43:No)、ステップS32へ戻る。
以上のステップS31〜S43の動作によって、情報処理装置10により2画面切替モードでの映像切り出しおよび音声出力の動作が実行される。
次に、図9を参照しながら、2画面切替モードにおいて、相手拠点の表示部117(表示装置215)の表示領域300(以下、図9の説明では単に「表示領域300」という)における画面遷移の具体例を説明する。
図9の(1)は、表示領域300の初期状態の表示例を示している。表示制御部110は、例えば、表示領域300の分割領域300aに自拠点の任意の参加者の映像を表示させ、表示領域300の分割領域300bに自拠点の参加者全体の映像を表示させている。
図9の(2)は、(1)の状態から自拠点の参加者Xが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bの自拠点の参加者全体の映像の表示はそのままとし、分割領域300aで自拠点で発話している参加者Xの映像に切り替えて表示させる。さらに、音声切替部105は、自拠点で発話している参加者Xの映像に対応する音声データ(参加者Xが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、自拠点で発話している参加者Xの映像に対応する音声データ(参加者Xが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させる。
図9の(3)は、(2)の状態から自拠点の参加者Xとは異なる参加者Yが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300aに前回の発話者である参加者Xの映像を継続して表示させ、分割領域300bで自拠点で現在発話している参加者Yの映像に切り替えて表示させる。さらに、音声切替部105は、自拠点で発話している参加者Yの映像に対応する音声データ(参加者Yが発話している音声データ)を、分割領域300bに対応する第2音声出力部118b(Rスピーカ213b)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、自拠点で発話している参加者Yの映像に対応する音声データ(参加者Yが発話している音声データ)を、分割領域300bに対応する第2音声出力部118b(Rスピーカ213b)から音声として出力させる。
図9の(4)は、(3)の状態から自拠点の参加者Xが再び発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点で現在発話している参加者Xの映像に切り替えて表示させる。ただし、図9の(3)では、分割領域300aに元々参加者Xの映像が表示されていたので、分割領域300aで表示される映像は実質的に変化がないことになる。さらに、音声切替部105は、自拠点で発話している参加者Xの映像に対応する音声データ(参加者Xが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、自拠点で発話している参加者Xの映像に対応する音声データ(参加者Xが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させる。
図9の(5)は、(3)の状態から自拠点の参加者X、Yとは異なる参加者Zが発話した場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点で現在発話している参加者Zの映像に切り替えて表示させる。さらに、音声切替部105は、自拠点で発話している参加者Zの映像に対応する音声データ(参加者Zが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、自拠点で発話している参加者Zの映像に対応する音声データ(参加者Zが発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させる。
図9の(6)は、(3)の状態から相手拠点の参加者が発話した場合等で自拠点の参加者が発話しなくなった場合の表示領域300の表示例を示している。表示制御部110は、分割領域300bに前回の発話者である参加者Yの映像を継続して表示させ、分割領域300aで自拠点の参加者全体の映像に切り替えて表示させる。
(2画面固定モードでの映像切り出しおよび音声出力の動作)
図11は、実施の形態に係る情報処理装置の2画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図11を参照しながら、本実施の形態に係る情報処理装置10の2画面固定モードでの映像切り出しおよび音声出力の動作の流れについて説明する。なお、以下の説明では、自拠点の情報処理装置10と、相手拠点の情報処理装置10との2拠点間でのビデオ会議を想定して説明する。
<ステップS51>
上述のように、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、2画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が2画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(b)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を2分割して、分割領域300aおよび分割領域300bを生成する。そして、自拠点の情報処理装置10の入力部112は、音声の入力の受け付けを開始する。そして、ステップS52へ移行する。
<ステップS52>
入力部112により音声が入力された場合(ステップS52:Yes)、ステップS53へ移行し、入力部112により音声が入力されない場合(ステップS52:No)、ステップS59へ移行する。
<ステップS53>
自拠点の情報処理装置10の第2特定部104は、2人の参加者のうちいずれかが発話することにより入力部112に入力された音声の方向を特定する。そして、ステップS54へ移行する。
<ステップS54>
自拠点の情報処理装置10の切出部103は、第1特定部102により特定された配置パターンが示す参加者の方向のうち、第2特定部104により特定された音声の方向に最も近い方向の参加者を、発話している参加者(現在の発話者)と判断し、撮像部116により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。また、切出部103は、ステップS53で発話している参加者の前に発話していた参加者(前回の発話者)を含む映像領域の切り出しを継続する。
なお、2画面固定モードでは、2人の参加者それぞれの映像領域を固定して切り出すので、切出部103は、第1特定部102により特定された配置パターンが示す参加者の方向と、第2特定部104により特定された音声の方向とを比較せずに、発話している参加者(現在の発話者)を含む映像領域をパノラマ映像から継続して切り出すものとしてもよい。そして、ステップS55へ移行する。
<ステップS55>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された現在の発話者および前回の発話者それぞれの映像領域の映像データ、および、入力部112により入力された現在の発話者の音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS56へ移行する。
<ステップS56>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。そして、ステップS57へ移行する。
<ステップS57>
相手拠点の情報処理装置10の表示制御部110は、受信した前回の発話者の映像領域の映像データを、分割領域300a、300bのうち元々表示していた分割領域に継続して表示させる。また、表示制御部110は、もう一方の分割領域に、受信した現在の発話者の映像領域の映像データを継続して表示させる。すなわち、例えば、分割領域300aに前回の発話者の映像領域の映像データが表示され、分割領域300bに現在の発話者の映像領域の映像データが表示されている場合において、再び前回の発話者が発話した状態になっても、分割領域300aには継続して前回の発話者(実際には、現在の新たな発話者)の映像領域の映像データが継続して表示される。そして、ステップS58へ移行する。
<ステップS58>
相手拠点の情報処理装置10の音声切替部105は、分割領域300a、300bのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aまたは第2音声出力部118bのうち映像データが表示されている分割領域に対応する方から音声として出力させるための制御信号を、音声出力制御部111に送る。音声出力制御部111は、音声切替部105からの制御信号に従って、分割領域300a、300bのうちどちらかの分割領域に表示されている現在の発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aまたは第2音声出力部118bのうち映像データが表示されている分割領域に対応する方から音声として出力させる。例えば、音声切替部105は、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域300の左側の領域である分割領域300aに表示されている場合、その映像データに対応する音声データ(現在の発話者が発話している音声データ)を、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させるための制御信号を、音声出力制御部111に送る。そして、音声出力制御部111は、音声切替部105からの制御信号に従って、分割領域300aに表示されている現在の発話者の映像領域の映像データに対応する音声データを、分割領域300aに対応する第1音声出力部118a(Lスピーカ213a)から音声として出力させる。同様に、現在の発話者の映像領域の映像データが、相手拠点の参加者から見て表示領域300の右側の領域である分割領域300bに表示されている場合、その映像データに対応する音声データは、第2音声出力部118b(Rスピーカ213b)から音声として出力される。そして、ステップS62へ移行する。
<ステップS59>
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されるパノラマ映像から、2人の参加者のうち一方を含む映像領域の切り出しを継続する。また、切出部103は、2人の参加者のうち他方を含む映像領域の切り出しを継続する。そして、自拠点の情報処理装置10の送信部107は、切出部103により切り出された2人の参加者それぞれの映像領域の映像データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS60へ移行する。
<ステップS60>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送る。そして、ステップS61へ移行する。
<ステップS61>
相手拠点の情報処理装置10の表示制御部110は、受信した2人の参加者のうち一方の映像領域の映像データを、分割領域300a、300bのうち元々表示していた分割領域に継続して表示させる。また、表示制御部110は、もう一方の分割領域に、受信した2人の参加者のうち他方の映像領域の映像データを継続して表示させる。すなわち、例えば、分割領域300aに2人の参加者のうち一方の映像領域の映像データが表示され、分割領域300bに2人の参加者のうち他方の映像領域の映像データが表示されている場合において、2人の参加者のうち一方が発話した状態になっても、分割領域300aには継続してその2人の参加者のうち一方の映像領域の映像データが継続して表示され、分割領域300bには継続して2人の参加者のうち他方の映像領域の映像データが継続して表示される。そして、ステップS62へ移行する。
<ステップS62>
自拠点の情報処理装置10は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置10は、利用者が操作部114から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合(ステップS62:Yes)、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合(ステップS62:No)、ステップS52へ戻る。
以上のステップS51〜S62の動作によって、情報処理装置10により2画面固定モードでの映像切り出しおよび音声出力の動作が実行される。
(1画面固定モードでの映像切り出しおよび音声出力の動作)
図12は、実施の形態に係る情報処理装置の1画面固定モードにおける映像切り出しおよび音声出力の動作の流れの一例を示すフローチャートである。図12を参照しながら、本実施の形態に係る情報処理装置10の1画面固定モードでの映像切り出しおよび音声出力動作の流れについて説明する。
<ステップS71>
上述のように、自拠点の情報処理装置10および相手拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。ここでは、自拠点の情報処理装置10は、1画面固定モードで動作することを示す情報を、ネットワーク2を介して相手拠点の情報処理装置10に送信する。相手拠点の情報処理装置10は、自拠点の情報処理装置10が1画面固定モードで動作していることを認識しているので、相手拠点の情報処理装置10の表示制御部110は、図7(a)に示すように、表示部117(表示装置215)の表示画面215aにおける表示領域300を図7(b)および(c)のように分割しない。そして、自拠点の情報処理装置10の入力部112は、音声の入力の受け付けを開始する。そして、ステップS72へ移行する。
<ステップS72>
入力部112により音声が入力された場合(ステップS72:Yes)、ステップS73へ移行し、入力部112により音声が入力されない場合(ステップS72:No)、ステップS79へ移行する。
<ステップS73>
自拠点の情報処理装置10の第2特定部104は、1人の参加者が発話することにより入力部112に入力された音声の方向を特定する。そして、ステップS74へ移行する。
<ステップS74>
自拠点の情報処理装置10の切出部103は、第1特定部102により特定された配置パターンが示す参加者の方向(この場合、参加者は1人なので一方向)のうち、第2特定部104により特定された音声の方向に最も近い方向の参加者を、発話している参加者(現在の発話者)と判断し、撮像部116により撮像されるパノラマ映像からその参加者を含む映像領域を切り出す。
なお、1画面固定モードでは、1人の参加者の映像領域を固定して切り出すので、切出部103は、第1特定部102により特定された配置パターンが示す参加者の方向と、第2特定部104により特定された音声の方向とを比較せずに、発話している参加者(現在の発話者)を含む映像領域をパノラマ映像から継続して切り出すものとしてもよい。そして、ステップS75へ移行する。
<ステップS75>
自拠点の情報処理装置10の送信部107は、切出部103により切り出された発話者の映像領域の映像データ、および、入力部112により入力された発話者の音声データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS76へ移行する。
<ステップS76>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データおよび音声データを受信すると、その映像データおよび音声データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送り、デコードした音声データを音声出力制御部111に送る。そして、ステップS77へ移行する。
<ステップS77>
相手拠点の情報処理装置10の表示制御部110は、受信した発話者の映像領域の映像データを、表示領域300に継続して表示させる。そして、ステップS78へ移行する。
<ステップS78>
相手拠点の情報処理装置10の音声切替部105は、表示領域300に表示されている発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aおよび第2音声出力部118bそれぞれに分配して音声として出力させるための制御信号を、音声出力制御部111に送る。音声出力制御部111は、音声切替部105からの制御信号に従って、表示領域300に表示されている発話者の映像領域の映像データに対応する音声データを、第1音声出力部118aおよび第2音声出力部118bそれぞれに分配して音声として出力させる。そして、ステップS82へ移行する。
<ステップS79>
自拠点の情報処理装置10の切出部103は、撮像部116により撮像されるパノラマ映像から、1人の参加者を含む映像領域の切り出しを継続する。そして、自拠点の情報処理装置10の送信部107は、切出部103により切り出された1人の参加者の映像領域の映像データをエンコードして、通信部115およびネットワーク2を介して、相手拠点の情報処理装置10に送信する。そして、ステップS80へ移行する。
<ステップS80>
相手拠点の情報処理装置10の受信部108は、ネットワーク2および通信部115を介して、自拠点の情報処理装置10から映像データを受信すると、その映像データをデコードする。相手拠点の情報処理装置10の受信部108は、デコードした映像データを表示制御部110に送る。そして、ステップS81へ移行する。
<ステップS81>
相手拠点の情報処理装置10の表示制御部110は、受信した1人の参加者の映像領域の映像データを、表示領域300に継続して表示させる。そして、ステップS82へ移行する。
<ステップS82>
自拠点の情報処理装置10は、ビデオ会議が終了したか否かを判定する。例えば、情報処理装置10は、利用者が操作部114から会議終了のための操作を行ったか否かを判定する。ビデオ会議が終了した場合(ステップS82:Yes)、映像切り出しおよび音声出力の動作を終了し、ビデオ会議が終了していない場合(ステップS82:No)、ステップS72へ戻る。
以上のステップS71〜S82の動作によって、情報処理装置10により1画面固定モードでの映像切り出しおよび音声出力の動作が実行される。
以上のように、自拠点に複数の参加者が存在する場合、相手拠点の表示装置215の表示領域300を2分割して分割領域300a、300bとし、いずれかの分割領域に表示されている自拠点の参加者の映像に対応する参加者の音声を、その分割領域に対応した音声出力部(第1音声出力部118a(Lスピーカ213a)または第2音声出力部118b(Rスピーカ213b))により出力させるものとしている。これによって、同一拠点内における各参加者の映像を表示する分割領域に応じて、出力させる音声出力部を切り替えることによって、同一拠点内における参加者の発話について臨場感のある音声出力を実現することができる。
また、他拠点の参加者が発話している等によって、自拠点の情報処理装置10の入力部112に音声が入力されない場合(発話者がいない場合)、自拠点の情報処理装置10の切出部103は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出し、かつ、前に発話していた参加者(前回の発話者)を含む映像領域の切り出しを継続し、相手拠点の2分割された表示装置215の表示領域300にそれぞれ表示させるものとしている。これによって、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の全体の雰囲気を知ることができる。また、相手拠点の参加者が発話している場合等では、2分割された表示領域300の一方の分割領域に自拠点の前回の発話者を表示させているので、相手拠点の発話者は、自拠点で最後に発話した参加者が自分の発話についてどのような表情で聞いているのかを読み取ることができる。
また、自拠点の情報処理装置10の入力部112に音声が入力されている場合(自拠点の参加者が発話している場合)、相手拠点の2分割された表示装置215の表示領域300に自拠点の現在の発話者および前回の発話者それぞれを表示させるものとしている。これによって、画面遷移の範囲を最小限に抑えることができる。また、相手拠点の参加者は、自拠点の発話者の分割領域の画像を注視しているため、自拠点の別の参加者が新たに発話しても、注視していない方の分割領域の画像が切り替わるので、画面遷移によって感じるストレスを軽減することができる。
また、自拠点の参加者が1人の場合は、相手拠点の表示装置215の表示領域300は分割させずにその参加者を固定で表示させ、自拠点の参加者が2人の場合は、相手拠点の表示装置215の表示領域300を2分割して、その2人の参加者をそれぞれ固定で表示させるものとしている。この場合、画面遷移は生じないので、画面遷移によるストレスを軽減することができる。
なお、撮像部116は、パノラマカメラ210によって実現されるものとし、パノラマ画像またはパノラマ映像を撮像するものとしたが、必ずしもこれに限定されるものではない。すなわち、撮像する範囲が360度全方向である必要がない等の場合、パノラマカメラを利用する必要はなく、例えば、必要な撮像範囲を網羅する画角を有する撮像装置(カメラ)であってもよい。この場合、撮像装置が撮像可能な画角の範囲で、映像の切り出しを行うものとすればよい。
また、本実施の形態の情報処理装置10は、第1音声出力部118aおよび第2音声出力部118bの2つの音声出力部(スピーカ)を備えるものとしたが、これに限定されるものではなく、3つ以上のスピーカを備えるものとしてもよい。例えば、相手拠点の情報処理装置10が3つのスピーカを備えるものとした場合で、自拠点の参加者が3人以上いる場合、相手拠点の情報処理装置10の表示装置215の表示領域300を3つの分割領域に分割するものとすればよい。この場合、自拠点の参加者が1人の場合、表示領域300を分割しない上述の1画面固定モードと同様の動作を実施し、2人の場合、表示領域300を2分割した上述の2画面固定モードと同様の動作を実施するものとすればよい。また、自拠点の参加者が3人の場合、表示領域300を3分割し、各分割領域に3人それぞれの映像を固定で表示する3画面の固定モードを実施するものとすればよい。さらに、自拠点の参加者が4人以上の場合に、表示領域300を3分割し、自拠点で音声入力がある場合は、現在の発話者、前回の発話者、および前々回の発話者をそれぞれの分割領域に表示させ、現在の発話者が表示されている分割領域に対応したスピーカから現在の発話者の音声を出力させるものとすればよい。一方、音声入力がない場合は、前々回の発話者の映像を参加者全体の映像に切り替え、他の2つの分割領域にはそのままの映像を継続して表示させるものとすればよい。
また、情報処理装置10が2つ以上のスピーカを備える場合、表示装置215の表示領域300を分割する分割領域の数を、そのスピーカの数と同数にする必要はない。この場合、どの分割領域に対応する音声についてはどのスピーカにより出力されるという対応付けがあれば、臨場感のある音声出力を実現することは可能である。
また、自拠点の情報処理装置10の入力部112に音声が入力されない場合(発話者がいない場合)、自拠点の情報処理装置10の切出部103は、パノラマ映像から、自拠点の参加者全体を含む映像領域を切り出すものとしたが、これに限定されるものではない。すなわち、相手拠点の参加者が発話している場合等に、相手拠点の参加者は、自拠点の雰囲気を知るということを満たす範囲で、自拠点の参加者全体ではなく、少なくとも1以上の参加者を含む映像領域を切り出すものとしてもよい。
(変形例)
本変形例に係る会議システム1の動作について、上述の実施の形態に係る会議システム1の動作と相違する点を中心に説明する。上述の実施の形態では、2拠点間でのビデオ会議を想定した映像切り出し動作を説明したが、本変形例では3拠点以上の間でビデオ会議が行われる場合の動作について説明する。
図13は、3拠点以上の間でビデオ会議を行う場合の映像表示の例を示す図である。図13を参照しながら、3拠点以上の間でビデオ会議を行う場合の映像切り出しおよび音声出力の動作について説明する。
まず、各拠点の情報処理装置10は、互いに動作モードの情報を、ネットワーク2を介して交換する。これによって、各拠点の情報処理装置10は、互いの動作モードを認識できると共に、参加する拠点数も認識できる。図13に示す例では、4つの拠点間でビデオ会議が行われている場合の自拠点(拠点A)の表示画面215aの表示状態を示している。4つの拠点間でビデオ会議を行う場合、自拠点の表示画面215aは、図13に示すように、他拠点である拠点B〜Dそれぞれに対応する表示領域を表示させる。図13に示すように、表示画面215aに表示させる表示領域として、拠点Bに対応するものを表示領域301、拠点Cに対応するものを表示領域302、そして、拠点Dに対応するものを表示領域303としている。
図13の例では、自拠点(拠点A)の情報処理装置10が、拠点Bの情報処理装置10から2画面固定モードで動作することを示す情報を受信し、拠点Cの情報処理装置10から2画面切替モードで動作することを示す情報を受信し、拠点Dの情報処理装置10から2画面切替モードで動作することを示す情報を受信したものとする。そして、自拠点の情報処理装置10の表示制御部110は、表示部117(表示装置215)の表示画面215aにおいて、表示領域301を2分割して分割領域301a、301bを生成し、表示領域302を2分割して分割領域302a、302bを生成し、表示領域303を2分割して分割領域303a、303bを生成する。3拠点以上の間でビデオ会議が行われる場合でも、各2拠点間における映像切り出しおよび音声出力動作は、上述の図8〜12で説明した動作と同様である。
図13の例では、自拠点(拠点A)の参加者が発話している場合の状態を示している。すなわち、拠点Bの情報処理装置10は、2画面固定モードで動作しているので、拠点Bの参加者は2人であり、分割領域301a、301bには、2人の参加者の映像をそれぞれ固定で表示させている。また、拠点Cの情報処理装置10は、2画面切替モードで動作しているので、拠点Cの参加者は3人以上であり、分割領域302aには拠点Cの前回の発話者の映像を表示させ、分割領域302bには拠点Cの参加者全体の映像を表示させている。そして、拠点Dの情報処理装置10は、2画面切替モードで動作しているので、拠点Dの参加者は3人以上であり、分割領域303aには拠点Dの参加者全体の映像を表示させ、表示領域303bには拠点Dの前回の発話者の映像を表示させている。
ここで、例えば、拠点Bの参加者のうち、分割領域301aに表示されている参加者が発話した場合の音声は第1音声出力部118a(Lスピーカ213a)から出力され、分割領域301bに表示されている参加者が発話した場合の音声は第2音声出力部118b(Rスピーカ213b)から出力される。また、拠点Cの参加者のうち、分割領域302aに表示されている参加者が発話した場合の音声は第1音声出力部118a(Lスピーカ213a)から出力され、分割領域302aに表示されている参加者とは異なる参加者が発話した場合、分割領域302bの表示がその参加者の映像に切り替わり、その参加者が発話した音声が第2音声出力部118b(Rスピーカ213b)から出力される。また、拠点Dの参加者のうち、分割領域303bに表示されている参加者が発話した場合の音声は第2音声出力部118b(Rスピーカ213b)から出力され、分割領域303bに表示されている参加者とは異なる参加者が発話した場合、分割領域303aの表示がその参加者の映像に切り替わり、その参加者が発話した音声が第1音声出力部118a(Lスピーカ213a)から出力される。
以上のように、3拠点以上の間でビデオ会議が行われる場合、各2拠点間における映像切り出し動作は、上述の図8〜12で説明した動作を適用して実現させることができる。これによって、各拠点との間で上述の実施の形態と同様の効果を得ることができる。
なお、上述の実施の形態および変形例において、情報処理装置10の各機能部の少なくともいずれかがプログラムの実行によって実現される場合、そのプログラムは、ROM等に予め組み込まれて提供される。また、上述の実施の形態および変形例に係る情報処理装置10で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disc Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk−Recordable)、またはDVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記憶媒体に記憶して提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムを、インターネット等のネットワーク経由で提供または配布するように構成してもよい。また、上述の実施の形態および変形例の情報処理装置10で実行されるプログラムは、上述した各機能部のうち少なくともいずれかを含むモジュール構成となっており、実際のハードウェアとしてはCPU201が上述の記憶装置(例えば、ROM202および補助記憶装置204等)からプログラムを読み出して実行することにより、上述の各機能部が主記憶装置(例えば、RAM203)上にロードされて生成されるようになっている。
1 会議システム
2 ネットワーク
10、10a、10b 情報処理装置
20 会議サーバ
40 机
50 ホワイトボード
60a〜60e 参加者
61a〜61d 参加者
101 認識部
102 第1特定部
103 切出部
104 第2特定部
105 音声切替部
106 管理部
107 送信部
108 受信部
109 撮像制御部
110 表示制御部
111 音声出力制御部
112 入力部
113 記憶部
114 操作部
115 通信部
116 撮像部
117 表示部
118a 第1音声出力部
118b 第2音声出力部
201 CPU
202 ROM
203 RAM
204 補助記憶装置
205 メディアドライブ
205a 記録メディア
206 操作ボタン
207 電源スイッチ
208 ネットワークI/F
209 撮像素子I/F
210 パノラマカメラ
211 音声I/F
212 マイクアレイ
212a〜212f マイク
213a Lスピーカ
213b Rスピーカ
214 出力I/F
214a ケーブル
215 表示装置
215a 表示画面
216 外部機器I/F
217 バス
300〜303 表示領域
300a、300b 分割領域
301a、301b 分割領域
302a、302b 分割領域
303a、303b 分割領域
400a、400b 切出範囲
P1〜P7 領域
特開2007−281668号公報

Claims (14)

  1. 他拠点の他の情報処理装置と映像および音声を通信する情報処理装置であって、
    入力部から入力された音声の方向を特定する特定部と、
    前記入力部により音声が入力されている場合、撮像部により撮像された映像から、前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出部と、
    前記切出部により切り出された前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信部と、
    前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信部と、
    表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に前記受信部により受信された前記他拠点の発話者を含む映像領域を表示させる表示制御部と、
    複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる音声制御部と、
    を備えた情報処理装置。
  2. 前記切出部は、前記入力部により音声が入力されている場合、
    前記特定部により特定された前記入力部に入力されている音声の方向の発話者を含む映像領域を前記映像から切り出し、
    前記発話者の前に音声を発していた第1利用者を含む映像領域を前記映像から切り出し、
    前記送信部は、前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声、ならびに、前記第1利用者を含む映像領域を、前記他の情報処理装置に送信する請求項1に記載の情報処理装置。
  3. 前記受信部により、前記他の情報処理装置から、前記他拠点の発話者を含む映像領域、および該発話者の音声、ならびに該発話者の前に音声を発していた第2利用者を含む映像領域を受信した場合、
    前記表示制御部は、前記複数に分割した分割領域のうち、いずれかの分割領域である第1分割領域に前記第2利用者を含む映像領域を継続して表示させ、前記第1分割領域以外の分割領域に前記他拠点の発話者を含む映像領域を切り替えて表示させ、
    前記音声制御部は、前記複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、前記受信部により受信された該発話者の音声を出力させる請求項1または2に記載の情報処理装置。
  4. 前記切出部は、前記入力部により音声が入力されていない場合、
    前記映像に含まれる利用者のうち少なくとも1以上の利用者を含む映像領域を該映像から切り出し、
    前記入力部により音声が入力されなくなる直前に入力されていた音声の方向に対応する第3利用者を含む映像領域を前記映像から切り出し、
    前記送信部は、前記1以上の利用者を含む映像領域、および前記第3利用者を含む映像領域を前記他の情報処理装置に送信する請求項1〜3のいずれか一項に記載の情報処理装置。
  5. 前記受信部により、前記他の情報処理装置から、前記他拠点の1以上の利用者を含む映像領域、および、前記他拠点における前記他の情報処理装置の入力部により音声が入力されなくなる直前に入力されていた音声を発していた第4利用者を含む映像領域を受信した場合、
    前記表示制御部は、前記複数に分割した分割領域のうち、いずれかの分割領域である第2分割領域に前記第4利用者を含む映像領域を継続して表示させ、前記第2分割領域以外の分割領域に前記他拠点の1以上の利用者を含む映像領域を切り替えて表示させる請求項4に記載の情報処理装置。
  6. 前記受信部により、前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信した場合、
    前記表示制御部は、前記表示領域を2分割した分割領域のうち、いずれか一方の分割領域に前記他拠点の発話者を含む映像領域を表示させ、
    前記音声制御部は、2つの音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、該発話者の音声を出力させる請求項1〜5のいずれか一項に記載の情報処理装置。
  7. 前記映像に含まれる利用者の数を求め、利用者の数が1人である場合、前記情報処理装置を第1動作モードに切り替え、利用者の数が2人である場合、前記情報処理装置を第2動作モードに切り替える切替部を、さらに備え、
    前記第1動作モードでは、
    前記切出部は、前記映像から1人の利用者を含む映像領域を切り出し、
    前記送信部は、前記表示領域に、前記1人の利用者を含む映像領域を前記他の情報処理装置に送信し、前記入力部により音声が入力されている場合、前記入力部から入力された前記1人の利用者である発話者の音声を前記他の情報処理装置に送信し、
    前記第2動作モードでは、
    前記切出部は、前記映像から2人の利用者をそれぞれ含む映像領域を切り出し、
    前記送信部は、前記表示領域を2分割した分割領域それぞれに、前記切出部により切り出された前記2人の利用者をそれぞれ含む映像領域を前記他の情報処理装置に送信し、前記入力部により音声が入力されている場合、前記入力部から入力された前記2人の利用者のうちの発話者の音声を前記他の情報処理装置に送信する請求項6に記載の情報処理装置。
  8. 前記他の情報処理装置が前記第1動作モードで動作している場合、
    前記受信部により、前記他の情報処理装置から、前記他拠点の発話者を含む映像領域、および該発話者の音声を受信した場合、
    前記表示制御部は、前記表示領域に前記他拠点の発話者を含む映像領域を表示させ、
    前記音声制御部は、前記2つの音声出力部に、前記受信部により受信された該発話者の音声を分配して出力させ、
    前記他の情報処理装置が前記第2動作モードで動作している場合、
    前記受信部により、前記他の情報処理装置から、前記他拠点の2人の利用者をそれぞれ含む映像領域を受信した場合、
    前記表示制御部は、前記表示領域を2分割した分割領域それぞれに、前記他拠点の2人の利用者をそれぞれ含む映像領域を表示させ、
    前記受信部により、前記他の情報処理装置から、さらに、前記他拠点の2人の利用者のうちの発話者の音声を受信した場合、
    前記音声制御部は、前記2つの音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、該発話者の音声を出力させる請求項7に記載の情報処理装置。
  9. 所定時間ごとに、
    前記切替部は、前記撮像部より撮像された映像から利用者の数を求め、利用者の数に基づいて前記第1動作モード、前記第2動作モード、または前記第1動作モードおよび前記第2動作モード以外の動作モードに切り替える請求項7または8に記載の情報処理装置。
  10. 前記切出部は、前記撮像部により撮像された全方位の映像から利用者を含む映像領域を切り出す請求項1〜9のいずれか一項に記載の情報処理装置。
  11. 前記撮像部と、
    前記入力部と、
    前記複数の音声出力部と、
    前記表示部と、
    をさらに備えた請求項1〜10のいずれか一項に記載の情報処理装置。
  12. 請求項1〜11のいずれか一項に記載の情報処理装置と、
    前記情報処理装置と、前記他の情報処理装置との間の通信制御を行うサーバ装置と、
    を有する会議システム。
  13. 他拠点の他の情報処理装置と映像および音声を通信する情報処理装置の情報処理方法であって、
    入力部から入力された音声の方向を特定する特定ステップと、
    前記入力部により音声が入力されている場合、撮像部により撮像された映像から、特定した前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出ステップと、
    切り出した前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信ステップと、
    前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信ステップと、
    表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に、受信した前記他拠点の発話者を含む映像領域を表示させる表示制御ステップと、
    複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、受信した該発話者の音声を出力させる音声制御ステップと、
    を有する情報処理方法。
  14. 他の情報処理装置と映像および音声を通信するコンピュータに、
    入力部から入力された音声の方向を特定する特定ステップと、
    前記入力部により音声が入力されている場合、撮像部により撮像された映像から、特定した前記入力部に入力されている音声の方向の発話者を含む映像領域を切り出す切出ステップと、
    切り出した前記発話者を含む映像領域、および前記入力部から入力された該発話者の音声を前記他の情報処理装置に送信する送信ステップと、
    前記他の情報処理装置から前記他拠点の発話者を含む映像領域、および該発話者の音声を受信する受信ステップと、
    表示部の表示領域を複数に分割した分割領域のうち、いずれかの分割領域に、受信した前記他拠点の発話者を含む映像領域を表示させる表示制御ステップと、
    複数の音声出力部のうち、前記他拠点の発話者を含む映像領域が表示された分割領域に対応する音声出力部に、受信した該発話者の音声を出力させる音声制御ステップと、
    を実行させるためのプログラム。
JP2015235962A 2015-12-02 2015-12-02 情報処理装置、会議システム、情報処理方法およびプログラム Pending JP2017103641A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015235962A JP2017103641A (ja) 2015-12-02 2015-12-02 情報処理装置、会議システム、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015235962A JP2017103641A (ja) 2015-12-02 2015-12-02 情報処理装置、会議システム、情報処理方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2017103641A true JP2017103641A (ja) 2017-06-08

Family

ID=59017049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015235962A Pending JP2017103641A (ja) 2015-12-02 2015-12-02 情報処理装置、会議システム、情報処理方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2017103641A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133265A (ja) * 2018-01-29 2019-08-08 株式会社東芝 使用予約システム、使用予約装置、使用予約方法およびプログラム
CN113556499A (zh) * 2020-04-07 2021-10-26 上海汽车集团股份有限公司 一种车载视频通话方法及车载系统
JP7399549B2 (ja) 2021-03-12 2023-12-18 テンセント・アメリカ・エルエルシー リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133265A (ja) * 2018-01-29 2019-08-08 株式会社東芝 使用予約システム、使用予約装置、使用予約方法およびプログラム
JP7002953B2 (ja) 2018-01-29 2022-01-20 株式会社東芝 使用予約システム、使用予約装置、使用予約方法およびプログラム
CN113556499A (zh) * 2020-04-07 2021-10-26 上海汽车集团股份有限公司 一种车载视频通话方法及车载系统
CN113556499B (zh) * 2020-04-07 2023-05-09 上海汽车集团股份有限公司 一种车载视频通话方法及车载系统
JP7399549B2 (ja) 2021-03-12 2023-12-18 テンセント・アメリカ・エルエルシー リモート端末向けの遠隔会議およびテレプレゼンスにおいてオーディオミキシングゲインをシグナリングする手法

Similar Documents

Publication Publication Date Title
US20240121353A1 (en) Transmission management apparatus
US9860486B2 (en) Communication apparatus, communication method, and communication system
US8379075B2 (en) Method, device, and computer-readable medium for processing images during video conferencing
US20100118112A1 (en) Group table top videoconferencing device
CN108293104B (zh) 信息处理系统、无线终端和信息处理方法
US10044782B2 (en) Terminal device, data transmission method, and computer-readable recording medium
WO2012072008A1 (zh) 视频信号的辅助信息叠加方法及装置
JP7371726B2 (ja) 伝送管理装置
JP2021016083A (ja) 通信システム、情報処理装置、通信方法およびプログラム
JP2017103641A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
CN114531564B (zh) 处理方法及电子设备
JP6149433B2 (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
JP6544209B2 (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP2017092950A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
CN217546174U (zh) 智能会议系统
JP6500366B2 (ja) 管理装置、端末装置、伝送システム、伝送方法およびプログラム
JP2009065490A (ja) テレビ会議装置
JP6492460B2 (ja) 伝送端末、伝送方法、及びプログラム
EP3729799B1 (en) Mobile terminal and hub apparatus for use in a video communication system
JPH11177952A (ja) ビデオ会議装置
CN113507586A (zh) 智能会议系统、用于智能会议的信息处理方法
JP2023123119A (ja) 通信端末、及び通信システム
JP2023118335A (ja) 通信端末、通信システム、及び通信サーバ
JP2021022836A (ja) 通信システム、通信端末、通信方法およびプログラム