JP2017034312A

JP2017034312A - 通信装置、通信システム、およびプログラム

Info

Publication number: JP2017034312A
Application number: JP2015149044A
Authority: JP
Inventors: 智幸後藤; Tomoyuki Goto; 耕司桑田; Koji Kuwata; 内山　裕章; Hiroaki Uchiyama; 裕章内山; 清人五十嵐; Kiyoto Igarashi; 和紀北澤; Kazuki Kitazawa; 宣正銀川; Nobumasa Gingawa; 高橋　仁人; Masahito Takahashi; 仁人高橋
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2015-07-28
Filing date: 2015-07-28
Publication date: 2017-02-09
Also published as: US20170034480A1

Abstract

【課題】複数の発話者が発声している拠点での話者の距離感や雰囲気をよりわかり易く他拠点へ伝える。
【解決手段】通信装置１０が配置された拠点内の音声を入力する音声入力部１５と、拠点内を撮影する撮像部１３と、拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記録する記録・読出処理部１９と、所定時間内に、拠点内の複数の発話地点が記録されていた場合、記録された複数の発話地点を含む撮影範囲を決定する範囲決定部２０と、決定された撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送受信部１１と、を備える。
【選択図】図４

Description

本発明は、通信装置、通信システム、およびプログラムに関する。

インターネットなどの通信ネットワークを利用してユーザ間のコミュニケーションを実現する通信システムの一つとして、テレビ会議システムが普及している。テレビ会議システムは、通信ネットワークに接続された各拠点の通信装置間でデータ通信を行い、ある拠点のカメラやマイクにより収集された映像や音声を他拠点の表示装置やスピーカから出力することにより、地理的に離れた拠点間での遠隔会議を実現している。

通信装置の機能として、例えば、話者の発話方向・位置をマイクアレイや画像認識によって特定し、集音性能を高めたり、ノイズを除去する目的で、マイクのビームフォームを話者の方向に向ける技術が知られている。また、例えば、誰が発話者なのかを認識しやすい映像を相手拠点へ伝える目的で、カメラ等の撮影手段を話者の方向に向け、話者を中心とした映像を切り出す技術が知られている。

しかし、話者を追従する機能を用いて撮影手段を話者の方向に向け、話者の映像を切り出す場合には、話者を画面の中心として撮影し、話者を一人ずつ画面に切り出すことになる。そうすると、ひとつの会議拠点の映像が話者のみを中心とした映像となり、同じ拠点内で会話が行われた場合には、話者が変わるごとにその時点での話者の映像に切り替わる。つまり、映像としては話者一人が大きく映し出された画面が頻繁に切り替わることになり、その拠点内の会議参加者がどのような位置関係で、どのような雰囲気で会議が行われているかを、当該映像のみを通して伝える相手拠点にはわかりにくい。

例えば、ある会議のケースとして、複数拠点が接続されるビデオ会議では、出席人数の多いひとつの拠点である（メイン拠点）で主な議論が行われ、そこにどちらかというと発言数が少ない拠点（サブ拠点）としてビデオ会議に接続するという構成の会議がある。このような場合、サブ拠点で見る会議画面は、メイン拠点の発話者が切り替わる映像が続き、発話者のみが画面に表示されるため、メイン拠点での会議の雰囲気や参加者の位置関係がつかみづらかった。

そこで、ある話者を特定し、その話者を切り出した映像と話者が注目した箇所（この場合は説明資料）とを切り出した映像を抜き出し、合成した映像として他拠点へ送信する技術が開示されている（例えば、特許文献１参照）。特許文献１の技術では、撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物により、テレビ会議全体の雰囲気を伝えている。

しかしながら、上述の特許文献１のような技術では、同一の拠点において複数の発話者が発声（会話）している場合には、その拠点における会議等の雰囲気や参加者の位置関係を他拠点へ伝えることができない。

本発明は、上記に鑑みてなされたものであって、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができる通信装置、通信システム、およびプログラムを得ることを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、通信装置であって、前記通信装置が配置された拠点内の音声を入力する音声入力部と、前記拠点内を撮影する撮像部と、前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える。

本発明によれば、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができるという効果を奏する。

図１は、実施形態のテレビ会議システムの概略構成図である。図２は、実施形態のテレビ会議システムが配置された拠点の説明図である。図３は、実施形態の通信装置のハードウェア構成の一例を示す図である。図４は、通信装置の機能的な構成例を示すブロック図である。図５は、拠点Ａにおいて会話がされた場合に他拠点に送信する映像の説明図である。図６は、実施形態のテレビ会議システムによる会議の映像送信処理の流れを示すフローチャートである。図７は、撮影範囲の映像を示す図である。図８は、拠点Ａにおいて参加者の一人が発話した場合に他拠点に送信する映像の説明図である。図９は、拠点Ａにおいて会話がされた場合に他拠点に送信する映像の説明図である。

以下に添付図面を参照して、通信装置、通信システム、およびプログラムの実施形態を詳細に説明する。以下では、本発明を適用した通信システムの一例として、地理的に離れた拠点間での遠隔会議を可能にするテレビ会議システムを例示する。このテレビ会議システムでは、各拠点に配置されたテレビ会議用通信装置（以下、「通信装置」と表記する）がネットワークを利用した通信を行うことにより遠隔会議を実現する。ただし、本発明が適用可能な通信システムはこの例に限らない。本発明は、複数の通信装置の間で映像を送受信する各種の通信システム、および、この通信システムで用いられる各種の通信装置に対して、広く適用可能である。

図１は、実施形態のテレビ会議システムの概略構成図である。本実施形態のテレビ会議システムは、図１に示すように、各拠点に配置された通信装置１０と、中継装置３０とが、ネットワーク４０を介して接続された構成である。ネットワーク４０は、例えば、インターネットやＬＡＮ（Local Area Network）などのネットワーク技術を単独または組み合わせて構築される。このネットワーク４０には、有線だけでなく、ＷｉＦｉ（Wireless Fidelity）やＢｌｕｅｔｏｏｔｈ（登録商標）などの無線による通信が行われる箇所が含まれていてもよい。

テレビ会議システムに含まれる通信装置１０の数は、会議に参加する拠点数に対応する。本実施形態では、一例として、拠点Ａ〜Ｃの３拠点間での遠隔会議を行うことを想定し、３つの通信装置１０がネットワーク４０に接続されているものとする。なお、各通信装置１０の登録や管理、会議に参加する各拠点の通信装置１０がテレビ会議システムにログインする処理、各拠点の通信装置１０間で通信を行うためのセッションを確立する処理などは、例えば特開２０１４−２０９２９９号公報などに開示された公知の技術を用いることができるので、ここでは詳細な説明は省略する。

通信装置１０は、他拠点の通信装置１０との間でのデータの送受信や、受信したデータの出力制御などを行う。ここで扱われるデータは、カメラにより撮影された各拠点の映像や、マイクにより収録された各拠点の音声などである。通信装置１０間の映像や音声のデータ伝送は、中継装置３０を介して行われる。なお、通信装置１０は、テレビ会議システムに専用の専用端末であってもよいし、ＰＣ（Personal Computer）やスマートフォン、タブレット端末などの汎用端末であってもよい。これらの汎用端末は、後述の装置用プログラムをインストールすることによって、アプリケーションの一つとして通信装置１０の機能を実現する。

図２は、実施形態のテレビ会議システムが配置された拠点の説明図である。図２に示すように、本実施形態で説明する会議では、メイン拠点である拠点Ａに多人数の参加者がいて、サブ拠点である拠点Ｂおよび拠点Ｃには数名の参加者がいるものとする。拠点Ａでは、例えば、会議の進行を行う議長がいて議論が行われる。そして、拠点Ｂ、Ｃからの発話も行われるが、全体の割合としては短時間であるとする。図２では、拠点Ａの参加者Ｐ１、Ｐ２の二人と、拠点Ｃの参加者Ｐ３が発話している様子を示している。

図１に戻り、中継装置３０は、各拠点の通信装置１０間における映像や音声のデータ伝送を中継するサーバコンピュータである。本実施形態においては、各拠点の通信装置１０が送信する映像のデータは、例えばＨ．２６４／ＳＶＣフォーマットなどのスケーラブルな符号化フォーマットで符号化されているものとする。中継装置３０は、受信側の通信装置１０から送信される後述の受信要求に従って、送信元の通信装置１０によりスケーラブルに符号化されて送信された映像のデータを、受信側の通信装置１０で要求している品質のデータに変換して受信側の通信装置１０に転送する機能を持つ。

次に、本実施形態のテレビ会議システムにおける通信装置１０のハードウェア構成について説明する。図３は、実施形態の通信装置のハードウェア構成の一例を示す図である。

通信装置１０は、図３に示すように、通信装置１０全体の動作を制御するＣＰＵ（Central Processing Unit）１０１、ＩＰＬ（Initial Program Loader）などのＣＰＵ１０１の駆動に用いられるプログラムを記憶したＲＯＭ（Read Only Memory）１０２、ＣＰＵ１０１のワークエリアとして使用されるＲＡＭ（Random Access Memory）１０３を備えている。

また、通信装置１０は、端末用プログラム、画像データや音声データなどの各種データを記憶するフラッシュメモリ１０４、ＣＰＵ１０１の制御に従ってフラッシュメモリ１０４に対する各種データの読み出しや書き込みを制御するＳＳＤ（Solid State Drive）１０５、記録メディア１０６に対するデータの読み出しや書き込み（記憶）を制御するメディアドライブ１０７を備えている。

また、通信装置１０は、通信相手となる他の通信装置１０を選択する場合などに操作される操作ボタン１０８、通信装置１０の電源のオン／オフを切り換えるための電源スイッチ１０９、ネットワーク４０を利用してデータ伝送をするためのネットワークＩ／Ｆ（Interface）１１１を備えている。

また、通信装置１０は、ＣＰＵ１０１の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ１１２、このカメラ１１２の駆動を制御する撮像素子Ｉ／Ｆ１１３を備えている。また、通信装置１０は、音声を入力する内蔵型のマイク１１４、音声を出力する内蔵型のスピーカ１１５、ＣＰＵ１０１の制御に従ってマイク１１４およびスピーカ１１５との間で音声信号の入出力を処理する音声入出力Ｉ／Ｆ１１６を備えている。

また、通信装置１０は、ＣＰＵ１０１の制御に従って表示装置５０に表示する映像のデータを伝送するディスプレイＩ／Ｆ１１７、各種の外部機器を接続するための外部機器接続Ｉ／Ｆ１１８、通信装置１０の各種機能の異常を知らせるアラームランプ１１９を備えている。そして、通信装置１０は、上記各構成要素を電気的に接続するためのアドレスバスやデータバスなどのバスライン１１０を備えている。

また、表示装置５０は、通信装置１０に外付けされる液晶パネルやプロジェクタなどの投影装置を想定するが、通信装置１０に内蔵された構成であってもよい。なお、図３に示す通信装置１０のハードウェア構成はあくまで一例であり、上記以外の他のハードウェアが追加されていてもよい。

次に、通信装置１０の機能構成について説明する。図４は、通信装置の機能的な構成例を示すブロック図である。通信装置１０は、図４に示すように、送受信部１１、操作入力受付部１２、撮像部１３、表示制御部１４、音声入力部１５、音声出力部１６、発話判断部１７、発話地点特定部１８、記録・読出処理部１９、範囲決定部２０、および映像生成部２１を備える。

これら各部は、例えば、図３に示したフラッシュメモリ１０４からＲＡＭ１０３上に展開された装置用プログラムをＣＰＵ１０１が実行することにより実現される機能である。また、通信装置１０は、例えば、図２に示したＲＡＭ１０３およびフラッシュメモリ１０４によって構成される記憶部１０００を有している。

記憶部１０００は、例えば、通信装置１０に割り当てられた識別情報やＩＰアドレスなどの固有の情報や、他の通信装置１０との間で通信を行うために必要となる情報などが格納される。また、記憶部１０００は、他拠点の通信装置１０から中継装置３０を介して送信された映像や音声のデータを一時的に保持する受信バッファとしても用いられる。また、記憶部１０００は、拠点内で発話された場合の話者の位置を示す発話地点とともに、発話された時刻が記録される。

送受信部１１は、ネットワーク４０を介して、中継装置３０を経由して他拠点の通信装置１０との間で各種データの送受信を行う。送受信部１１は、例えば、図２に示したネットワークＩ／Ｆ１１１およびＣＰＵ１０１によって実現される。本実施形態では、送受信部１１は、範囲決定部２０により決定された撮影範囲の映像および音声入力部１５に入力された音声を、中継装置３０を介して他拠点に配置された他の通信装置１０に送信する。また、送受信部１１が送信部として機能する。

ここで、撮影範囲の映像は、例えば、拠点内を撮影した映像から、映像生成部２１により撮影範囲が切り取られた映像や、撮像部１３により撮影された拠点内の撮影範囲の映像である。

操作入力受付部１２は、通信装置１０を使用するユーザによる各種の操作入力を受け付ける。操作入力受付部１２は、例えば、図２に示した操作ボタン１０８、電源スイッチ１０９、およびＣＰＵ１０１によって実現される。

撮像部１３は、通信装置１０が配置された拠点内の映像を撮影する。また、撮像部１３は、範囲決定部２０により決定された拠点内の撮影範囲を撮影する。撮像部１３により撮影された映像は、例えばＨ．２６４／ＳＶＣフォーマットなどのスケーラブルな符号化フォーマットで符号化され、送受信部１１から中継装置３０へと送信される。

なお、映像データのフォーマットはＨ．２６４／ＳＶＣに限らず、例えば、Ｈ．２６４／ＡＶＣ、Ｈ．２６５、ＷｅｂＲＴＣ（Web Real-Time Communication）などの他のフォーマットであってもよい。撮像部１３は、例えば、図２に示したカメラ１１２、撮像素子Ｉ／Ｆ１１３、およびＣＰＵ１０１によって実現される。

表示制御部１４は、送受信部１１により受信されて復号化された他拠点の映像を用いて描画処理などを行い、処理したデータを表示装置５０に受け渡すことにより、表示装置５０に他拠点の映像を含む画面を表示させる。表示制御部１４は、例えば、図３に示したディスプレイＩ／Ｆ１１７およびＣＰＵ１０１によって実現される。

音声入力部１５は、通信装置１０が配置されている拠点内の音声を入力する。音声入力部１５により入力された音声は、例えばＰＣＭ（Pulse Code Modulation）などの任意の符号化フォーマットで符号化され、送受信部１１から中継装置３０へと送信される。音声入力部１５は、例えば、図３に示したマイク１１４、音声入出力Ｉ／Ｆ１１６、およびＣＰＵ１０１によって実現される。

音声出力部１６は、送受信部１１により受信されて復号化された他拠点の音声を再生出力する。音声出力部１６は、例えば、図３に示したスピーカ１１５、音声入出力Ｉ／Ｆ１１６、およびＣＰＵ１０１によって実現される。

発話判断部１７は、音声入力部１５に入力された音声または撮像部１３により撮影された映像から、通信装置１０が配置された拠点内で発話されたか否かを判断する。具体的には、発話判断部１７は、例えば、マイクアレイ等により音声検知にて話者を特定する。なお、定常的なノイズや突発音などの非定常ノイズは音声として判断されない。また、発話判断部１７は、例えば、撮像部１３により撮影された映像に対して画像認識を行って話者を特定する。なお、以下の実施形態では、音声に基づいた発話されたか否かを判断する例を示すが、映像に基づいて発話されたか否かを判断した場合も同様となる。

発話地点特定部１８は、発話判断部１７により、通信装置１０が配置された拠点内で発話されたと判断された場合、その発話の話者の位置を示す発話地点を特定する。具体的には、発話地点特定部１８は、音声入力部１５に入力された音声に対して、発話方向を検知する。例えば、マイクアレイを用いた技術の場合は、複数のマイクを用いてマイクに入力される時間的差を持って音声発生方向および音声発生地点までの距離を検知する。

記録・読出処理部１９は、記憶部１０００に対して各種データを記憶（記録）したり、読み出したりする処理を行う。また、本実施形態の記録・読出処理部１９は、発話地点（話者の位置）を時刻とともに記憶部１０００に記録する。記録・読出処理部１９は、例えば、図３に示したＳＳＤ１０５およびＣＰＵ１０１によって実現される。記録・読出処理部１９が記録部として機能する。

範囲決定部２０は、予め定めた所定時間内に、記憶部１０００に通信装置１０が配置された拠点における複数の発話地点が記録されていた場合、記録されている複数の発話地点を含む範囲、すなわち、発話中の複数の会議参加者を含む範囲を撮影範囲として決定する。

本実施形態では、例えば、範囲決定部２０は、通信装置１０が配置された拠点内で発話され、前回の発話が同拠点内の発話であった場合、今回の発話の記録時刻と前回の発話の記録時刻の発話間隔が、予め定めた所定時間内であるか否かを判定する。そして、範囲決定部２０は、発話間隔が所定時間内であった場合、前回の発話と今回の発話とは会話であると判定し、前回の発話地点と今回の発話地点とを含む範囲を撮影範囲として決定する。

映像生成部２１は、範囲決定部２０により撮影範囲が決定された場合、撮像部１３によって撮影された拠点内の映像から、決定された撮影範囲の映像を切り取って、他拠点に送信する映像を生成する。そして、切り取られて生成された撮影範囲の映像は、送受信部１１により他拠点に送信されることになる。

図５は、拠点Ａにおいて会話がされた場合に他拠点に送信する映像の説明図である。図５に示す拠点Ａでは、会議の参加者Ｐ１、Ｐ２が発話している状態を示している。この参加者Ｐ１、Ｐ２の発話が所定時間内であった場合に会話と判断され、カメラ１１２により撮影された拠点Ａの映像から、参加者Ｐ１、Ｐ２の両者を含む撮影範囲の映像Ｆ１が切り取られる。そして、切り取られた映像Ｆ１が、他拠点に送信されることになる。これにより、会議中に会話している参加者の位置関係や雰囲気を他拠点に伝えることができる。

ここで、従来のテレビ会議システムについて説明する。図８は、拠点Ａにおいて参加者の一人が発話した場合に他拠点に送信する映像の説明図である。図９は、拠点Ａにおいて会話がされた場合に他拠点に送信する映像Ｆ４の説明図である。

図８では、例えば、拠点Ａにおける会議の参加者Ｐ２１が発話している。この場合、従来のテレビ会議システムでは、音声発生地点である参加者Ｐ２１の口元が画面中央にくるように、カメラ１１２を向けて撮影していた。

そして、図９では、例えば、拠点Ａにおける会議の参加者Ｐ３１、３２によって会話が行われている。この場合、従来のテレビ会議システムでは、他拠点において、発話ごとに発話者を中心に撮影した映像Ｆ５、Ｆ６と切り替わる。すなわち、参加者Ｐ３１により発話されると、参加者Ｐ３１を中心にした映像Ｆ５が生成され、次に、参加者Ｐ３２により発話されると、参加者Ｐ３２を中心にした映像Ｆ６が生成される。そして、生成された映像Ｆ５、Ｆ６が他拠点に送信され、切り替わって表示されることになる。

このため、他拠点において拠点Ａの映像を見ている会議参加者としては、拠点Ａとしての会話が行われているというより、各個人単位で発話が行われている印象を受けてしまう。つまり、他拠点では、映像を通しても、拠点Ａの会議の参加者がどのような位置関係で、どのような雰囲気で会議が行われているかがわかりにくかった。

次に、本実施形態のテレビ会議システムによる会議の映像の送信処理について説明する。図６は、実施形態のテレビ会議システムによる会議の映像送信処理の流れを示すフローチャートである。図６では、図２に示すように、拠点Ａ〜Ｃにより会議が行われ、メイン拠点である拠点Ａから映像を送信する場合の処理である。

なお、図６では、一例として、マイクアレイ等による音声検知によって、発話されたか否かを特定し、発話地点を特定するものとするが、撮像画像の画像認識による話者の特定方法でもよい。また、撮影範囲の映像は、パン／チルト／ズームによりカメラなどの撮影手段自体を動かして、決定された撮影範囲の映像を取得するものとするが、拠点全体を広範囲に撮影した映像から、決定された撮影範囲を切り取る方法でもよい。

まず、発話判断部１７は、マイク１１４から音声入力部１５に音声が入力されたか否かにより、拠点Ａにおいて発話されたか否かを判断する（ステップＳ１００）。拠点Ａで発話されていない場合（ステップＳ１００：Ｎｏ）、戻って処理を繰り返す。

一方、拠点Ａで発話された場合（ステップＳ１００：Ｙｅｓ）、発話地点特定部１８は、発話地点を特定する（ステップＳ１０２）。そして、記録・読出処理部１９は、特定された発話地点を時刻とともに記憶部１０００に記録する（ステップＳ１０４）。

ここで、発話地点の記録は、時間的区分によって複数記録されるものとする。図６では、今回の発話と前回の発話の２つの発話がなされた場合について説明する。なお、さらに過去の発話地点を記録し、より複数の発話地点に対応させて映像を送信する構成としてもよい。記録するデータとしては、発話位置である発話地点と、発話時刻を記録する。

次に、範囲決定部２０は、前回の発話地点の記録が記憶部１０００に記録されているか否かを判断する（ステップＳ１０６）。前回の発話地点の記録がない場合（ステップＳ１０６：Ｎｏ）、拠点Ａでは会話が行われていないと判断し、今回の発話地点が中央になる撮影範囲を決定する（ステップＳ１１２）。

一方、前回の発話地点の記録があった場合（ステップＳ１０６：Ｙｅｓ）、範囲決定部２０は、前回の発話の記録時刻以降に、他拠点の発話があったか否かを判断する（ステップＳ１０８）。つまり、ここでは、前回の発話記録があり、かつその発話の記録時刻以降に他拠点との会話がされていたかどうかを判断している。

他拠点の発話があった場合（ステップＳ１０８：Ｙｅｓ）、拠点Ａ内の会話ではないと判断し、今回の発話地点が中央になる撮影範囲を決定する（ステップＳ１１２）。一方、他拠点の発話がなかった場合（ステップＳ１０８：Ｎｏ）、範囲決定部２０は、今回の発話記録時刻と前回の発話記録時刻の発話間隔が所定時間内か否かを判断する（ステップＳ１１０）。

発話間隔が所定時間内ではなかった場合（ステップＳ１１０：Ｎｏ）、拠点Ａ内では会話が行われていないと判断し、今回の発話地点が中央になる撮影範囲を決定する（ステップＳ１１２）。

一方、発話間隔が所定時間内であった場合（ステップＳ１１０：Ｙｅｓ）。拠点Ａ内での会話が行われていると判断し、前回の発話地点と今回の発話地点とを含む撮影範囲を決定する（ステップＳ１１４）。つまり、ここでは、前回の発話の記録時刻以降に他拠点との会話が行われておらず、かつ前回の発話の記録時刻から今回の発話の記録時刻までの時間が短い場合、拠点Ａ内の会話であると判断している。

そして、映像生成部２１は、決定された撮影範囲の映像を生成し（ステップＳ１１６）、送受信部１１は、生成された映像を他拠点の他の通信装置に送信する（ステップＳ１１８）。

以上のように、図６では、同一拠点である拠点Ａ内で所定時間内に複数の発話者が会話を行った場合には、音声の発生地点を映像の中心にすることなく、複数の発生拠点を群と捉え、音声群全体が映るような撮影範囲に決定する。そして、決定した撮影範囲に映像を切り出したり、決定した撮影範囲を撮影することで、話者の距離感や拠点の雰囲気をよりわかり易く他拠点に伝えることができる。従って、従来のように、最新の音声の発生地点を特定した場合、そこに撮影手段を向けたり映像を切り出したりするのではなく、話者追従方式として、音声の発生地点をある時間分記録しておいて、同一拠点内で複数の音声の発生地点を特定する。そして、音声の発生地点が特定されれば会話が行われていると判断でき、撮影手段・映像切り出し手段により、複数の音声の発生地点を含む撮影範囲を送信する映像として生成し、生成された画像を他拠点に送信する。

ここで、図６において決定された撮影範囲の映像について説明する。図７は、撮影範囲の映像を示す図である。図７に示すように、拠点Ａには、複数の会議の参加者がおり、カメラ１１２により拠点Ａが撮影されている。そして、拠点Ａでは、参加者Ｐ１１、１２が発話している。

図６のステップＳ１１４では、拠点Ａにおいて会話が行われていると判断されている。このため、図７に示すように、撮影範囲は、複数の発話者Ｐ１１、１２が撮影されるような映像Ｆ２となる。

これに対し、図６のステップＳ１１２では、拠点Ａにおいては会話が行われてないと判断されている。このため、図７に示すように、撮影範囲は、参加者Ｐ１２一人が撮影されるような映像Ｆ３となる。

このように、本実施形態のテレビ会議システムは、複数の拠点にそれぞれ配置された通信装置により会議等を行う際に、予め定めた所定時間内に同拠点において複数の参加者による発話があった場合は会話が行われていると判断し、当該複数の参加者（発話者）を含む撮影範囲の映像を他拠点に送信する。これにより、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができる。

上述した装置用プログラムは、例えばフラッシュメモリ１０４に格納され、ＣＰＵ１０１の制御によりＲＡＭ１０３上に読み出されて実行される。なお、装置用プログラムを格納するメモリは不揮発性メモリであればよく、フラッシュメモリ１０４に限らず、ＥＥＰＲＯＭ（Electrically Erasable and Programmable ROM）などを用いてもよい。また、装置用プログラムは、インストール可能な形式または実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体である記録メディア１０６に記録されて提供されるようにしてもよい。また、装置用プログラムは、ＲＯＭ１０２などに予め格納された組み込みプログラムとして提供されるようにしてもよい。

また、本実施形態の通信装置で実行される装置用プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の通信装置で実行される装置用プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態の通信装置で実行される装置用プログラムは、上述した各部（送受信部１１、操作入力受付部１２、撮像部１３、表示制御部１４、音声入力部１５、音声出力部１６、発話判断部１７、発話地点特定部１８、記録・読出処理部１９、範囲決定部２０、および映像生成部２１）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記記憶媒体から装置用プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。また、例えば、上述した各部の機能のうちの一部または全部が専用のハードウェア回路で実現されてもよい。

１０通信装置
１１送受信部
１２操作入力受付部
１３撮像部
１４表示制御部
１５音声入力部
１６音声出力部
１７発話判断部
１８発話地点特定部
１９記録・読出処理部
２０範囲決定部
２１映像生成部
３０中継装置
４０ネットワーク
５０表示装置

特開２０１２−１１９９２７号公報

Claims

通信装置であって、
前記通信装置が配置された拠点内の音声を入力する音声入力部と、
前記拠点内を撮影する撮像部と、
前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、
所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、
決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える通信装置。
前記範囲決定部は、今回の発話の記録時刻と前回の発話の記録時刻の発話間隔が前記所定時間内であるか否かを判定し、前記発話間隔が前記所定時間内であった場合、前回の発話地点と今回の発話地点とを含む前記撮影範囲を決定する、請求項１に記載の通信装置。
前記撮像部によって撮影された映像から、決定された前記撮影範囲の映像を切り取る映像生成部をさらに備え、
前記送信部は、切り取られた前記撮影範囲の映像を前記他の通信装置に送信する、請求項１または２に記載の通信装置。
前記撮像部は、決定された前記撮影範囲を撮影し、
前記送信部は、撮影された前記撮影範囲の映像を前記他の通信装置に送信する、請求項１または２に記載の通信装置。
複数の拠点に配置された複数の通信装置がネットワークを介して接続された通信システムにおいて、
前記通信装置は、
前記通信装置が配置された拠点内の音声を入力する音声入力部と、
前記拠点内を撮影する撮像部と、
前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、
所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、
決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える通信システム。
コンピュータを、
前記コンピュータが配置された拠点内の音声を入力する音声入力手段と、
前記拠点内を撮影する撮像手段と、
前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録手段と、
所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定手段と、
決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信手段と、して機能させるためのプログラム。