JP2017034312A - 通信装置、通信システム、およびプログラム - Google Patents

通信装置、通信システム、およびプログラム Download PDF

Info

Publication number
JP2017034312A
JP2017034312A JP2015149044A JP2015149044A JP2017034312A JP 2017034312 A JP2017034312 A JP 2017034312A JP 2015149044 A JP2015149044 A JP 2015149044A JP 2015149044 A JP2015149044 A JP 2015149044A JP 2017034312 A JP2017034312 A JP 2017034312A
Authority
JP
Japan
Prior art keywords
base
utterance
communication device
unit
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015149044A
Other languages
English (en)
Inventor
智幸 後藤
Tomoyuki Goto
智幸 後藤
耕司 桑田
Koji Kuwata
耕司 桑田
内山 裕章
Hiroaki Uchiyama
裕章 内山
清人 五十嵐
Kiyoto Igarashi
清人 五十嵐
和紀 北澤
Kazuki Kitazawa
和紀 北澤
宣正 銀川
Nobumasa Gingawa
宣正 銀川
高橋 仁人
Masahito Takahashi
仁人 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2015149044A priority Critical patent/JP2017034312A/ja
Priority to US15/214,977 priority patent/US20170034480A1/en
Publication of JP2017034312A publication Critical patent/JP2017034312A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)

Abstract

【課題】複数の発話者が発声している拠点での話者の距離感や雰囲気をよりわかり易く他拠点へ伝える。
【解決手段】通信装置10が配置された拠点内の音声を入力する音声入力部15と、拠点内を撮影する撮像部13と、拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記録する記録・読出処理部19と、所定時間内に、拠点内の複数の発話地点が記録されていた場合、記録された複数の発話地点を含む撮影範囲を決定する範囲決定部20と、決定された撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送受信部11と、を備える。
【選択図】図4

Description

本発明は、通信装置、通信システム、およびプログラムに関する。
インターネットなどの通信ネットワークを利用してユーザ間のコミュニケーションを実現する通信システムの一つとして、テレビ会議システムが普及している。テレビ会議システムは、通信ネットワークに接続された各拠点の通信装置間でデータ通信を行い、ある拠点のカメラやマイクにより収集された映像や音声を他拠点の表示装置やスピーカから出力することにより、地理的に離れた拠点間での遠隔会議を実現している。
通信装置の機能として、例えば、話者の発話方向・位置をマイクアレイや画像認識によって特定し、集音性能を高めたり、ノイズを除去する目的で、マイクのビームフォームを話者の方向に向ける技術が知られている。また、例えば、誰が発話者なのかを認識しやすい映像を相手拠点へ伝える目的で、カメラ等の撮影手段を話者の方向に向け、話者を中心とした映像を切り出す技術が知られている。
しかし、話者を追従する機能を用いて撮影手段を話者の方向に向け、話者の映像を切り出す場合には、話者を画面の中心として撮影し、話者を一人ずつ画面に切り出すことになる。そうすると、ひとつの会議拠点の映像が話者のみを中心とした映像となり、同じ拠点内で会話が行われた場合には、話者が変わるごとにその時点での話者の映像に切り替わる。つまり、映像としては話者一人が大きく映し出された画面が頻繁に切り替わることになり、その拠点内の会議参加者がどのような位置関係で、どのような雰囲気で会議が行われているかを、当該映像のみを通して伝える相手拠点にはわかりにくい。
例えば、ある会議のケースとして、複数拠点が接続されるビデオ会議では、出席人数の多いひとつの拠点である(メイン拠点)で主な議論が行われ、そこにどちらかというと発言数が少ない拠点(サブ拠点)としてビデオ会議に接続するという構成の会議がある。このような場合、サブ拠点で見る会議画面は、メイン拠点の発話者が切り替わる映像が続き、発話者のみが画面に表示されるため、メイン拠点での会議の雰囲気や参加者の位置関係がつかみづらかった。
そこで、ある話者を特定し、その話者を切り出した映像と話者が注目した箇所(この場合は説明資料)とを切り出した映像を抜き出し、合成した映像として他拠点へ送信する技術が開示されている(例えば、特許文献1参照)。特許文献1の技術では、撮影手段の撮影範囲を切り替えることなく、話者及び話者が注目する対象物により、テレビ会議全体の雰囲気を伝えている。
しかしながら、上述の特許文献1のような技術では、同一の拠点において複数の発話者が発声(会話)している場合には、その拠点における会議等の雰囲気や参加者の位置関係を他拠点へ伝えることができない。
本発明は、上記に鑑みてなされたものであって、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができる通信装置、通信システム、およびプログラムを得ることを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、通信装置であって、前記通信装置が配置された拠点内の音声を入力する音声入力部と、前記拠点内を撮影する撮像部と、前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える。
本発明によれば、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができるという効果を奏する。
図1は、実施形態のテレビ会議システムの概略構成図である。 図2は、実施形態のテレビ会議システムが配置された拠点の説明図である。 図3は、実施形態の通信装置のハードウェア構成の一例を示す図である。 図4は、通信装置の機能的な構成例を示すブロック図である。 図5は、拠点Aにおいて会話がされた場合に他拠点に送信する映像の説明図である。 図6は、実施形態のテレビ会議システムによる会議の映像送信処理の流れを示すフローチャートである。 図7は、撮影範囲の映像を示す図である。 図8は、拠点Aにおいて参加者の一人が発話した場合に他拠点に送信する映像の説明図である。 図9は、拠点Aにおいて会話がされた場合に他拠点に送信する映像の説明図である。
以下に添付図面を参照して、通信装置、通信システム、およびプログラムの実施形態を詳細に説明する。以下では、本発明を適用した通信システムの一例として、地理的に離れた拠点間での遠隔会議を可能にするテレビ会議システムを例示する。このテレビ会議システムでは、各拠点に配置されたテレビ会議用通信装置(以下、「通信装置」と表記する)がネットワークを利用した通信を行うことにより遠隔会議を実現する。ただし、本発明が適用可能な通信システムはこの例に限らない。本発明は、複数の通信装置の間で映像を送受信する各種の通信システム、および、この通信システムで用いられる各種の通信装置に対して、広く適用可能である。
図1は、実施形態のテレビ会議システムの概略構成図である。本実施形態のテレビ会議システムは、図1に示すように、各拠点に配置された通信装置10と、中継装置30とが、ネットワーク40を介して接続された構成である。ネットワーク40は、例えば、インターネットやLAN(Local Area Network)などのネットワーク技術を単独または組み合わせて構築される。このネットワーク40には、有線だけでなく、WiFi(Wireless Fidelity)やBluetooth(登録商標)などの無線による通信が行われる箇所が含まれていてもよい。
テレビ会議システムに含まれる通信装置10の数は、会議に参加する拠点数に対応する。本実施形態では、一例として、拠点A〜Cの3拠点間での遠隔会議を行うことを想定し、3つの通信装置10がネットワーク40に接続されているものとする。なお、各通信装置10の登録や管理、会議に参加する各拠点の通信装置10がテレビ会議システムにログインする処理、各拠点の通信装置10間で通信を行うためのセッションを確立する処理などは、例えば特開2014−209299号公報などに開示された公知の技術を用いることができるので、ここでは詳細な説明は省略する。
通信装置10は、他拠点の通信装置10との間でのデータの送受信や、受信したデータの出力制御などを行う。ここで扱われるデータは、カメラにより撮影された各拠点の映像や、マイクにより収録された各拠点の音声などである。通信装置10間の映像や音声のデータ伝送は、中継装置30を介して行われる。なお、通信装置10は、テレビ会議システムに専用の専用端末であってもよいし、PC(Personal Computer)やスマートフォン、タブレット端末などの汎用端末であってもよい。これらの汎用端末は、後述の装置用プログラムをインストールすることによって、アプリケーションの一つとして通信装置10の機能を実現する。
図2は、実施形態のテレビ会議システムが配置された拠点の説明図である。図2に示すように、本実施形態で説明する会議では、メイン拠点である拠点Aに多人数の参加者がいて、サブ拠点である拠点Bおよび拠点Cには数名の参加者がいるものとする。拠点Aでは、例えば、会議の進行を行う議長がいて議論が行われる。そして、拠点B、Cからの発話も行われるが、全体の割合としては短時間であるとする。図2では、拠点Aの参加者P1、P2の二人と、拠点Cの参加者P3が発話している様子を示している。
図1に戻り、中継装置30は、各拠点の通信装置10間における映像や音声のデータ伝送を中継するサーバコンピュータである。本実施形態においては、各拠点の通信装置10が送信する映像のデータは、例えばH.264/SVCフォーマットなどのスケーラブルな符号化フォーマットで符号化されているものとする。中継装置30は、受信側の通信装置10から送信される後述の受信要求に従って、送信元の通信装置10によりスケーラブルに符号化されて送信された映像のデータを、受信側の通信装置10で要求している品質のデータに変換して受信側の通信装置10に転送する機能を持つ。
次に、本実施形態のテレビ会議システムにおける通信装置10のハードウェア構成について説明する。図3は、実施形態の通信装置のハードウェア構成の一例を示す図である。
通信装置10は、図3に示すように、通信装置10全体の動作を制御するCPU(Central Processing Unit)101、IPL(Initial Program Loader)などのCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103を備えている。
また、通信装置10は、端末用プログラム、画像データや音声データなどの各種データを記憶するフラッシュメモリ104、CPU101の制御に従ってフラッシュメモリ104に対する各種データの読み出しや書き込みを制御するSSD(Solid State Drive)105、記録メディア106に対するデータの読み出しや書き込み(記憶)を制御するメディアドライブ107を備えている。
また、通信装置10は、通信相手となる他の通信装置10を選択する場合などに操作される操作ボタン108、通信装置10の電源のオン/オフを切り換えるための電源スイッチ109、ネットワーク40を利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
また、通信装置10は、CPU101の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ112、このカメラ112の駆動を制御する撮像素子I/F113を備えている。また、通信装置10は、音声を入力する内蔵型のマイク114、音声を出力する内蔵型のスピーカ115、CPU101の制御に従ってマイク114およびスピーカ115との間で音声信号の入出力を処理する音声入出力I/F116を備えている。
また、通信装置10は、CPU101の制御に従って表示装置50に表示する映像のデータを伝送するディスプレイI/F117、各種の外部機器を接続するための外部機器接続I/F118、通信装置10の各種機能の異常を知らせるアラームランプ119を備えている。そして、通信装置10は、上記各構成要素を電気的に接続するためのアドレスバスやデータバスなどのバスライン110を備えている。
また、表示装置50は、通信装置10に外付けされる液晶パネルやプロジェクタなどの投影装置を想定するが、通信装置10に内蔵された構成であってもよい。なお、図3に示す通信装置10のハードウェア構成はあくまで一例であり、上記以外の他のハードウェアが追加されていてもよい。
次に、通信装置10の機能構成について説明する。図4は、通信装置の機能的な構成例を示すブロック図である。通信装置10は、図4に示すように、送受信部11、操作入力受付部12、撮像部13、表示制御部14、音声入力部15、音声出力部16、発話判断部17、発話地点特定部18、記録・読出処理部19、範囲決定部20、および映像生成部21を備える。
これら各部は、例えば、図3に示したフラッシュメモリ104からRAM103上に展開された装置用プログラムをCPU101が実行することにより実現される機能である。また、通信装置10は、例えば、図2に示したRAM103およびフラッシュメモリ104によって構成される記憶部1000を有している。
記憶部1000は、例えば、通信装置10に割り当てられた識別情報やIPアドレスなどの固有の情報や、他の通信装置10との間で通信を行うために必要となる情報などが格納される。また、記憶部1000は、他拠点の通信装置10から中継装置30を介して送信された映像や音声のデータを一時的に保持する受信バッファとしても用いられる。また、記憶部1000は、拠点内で発話された場合の話者の位置を示す発話地点とともに、発話された時刻が記録される。
送受信部11は、ネットワーク40を介して、中継装置30を経由して他拠点の通信装置10との間で各種データの送受信を行う。送受信部11は、例えば、図2に示したネットワークI/F111およびCPU101によって実現される。本実施形態では、送受信部11は、範囲決定部20により決定された撮影範囲の映像および音声入力部15に入力された音声を、中継装置30を介して他拠点に配置された他の通信装置10に送信する。また、送受信部11が送信部として機能する。
ここで、撮影範囲の映像は、例えば、拠点内を撮影した映像から、映像生成部21により撮影範囲が切り取られた映像や、撮像部13により撮影された拠点内の撮影範囲の映像である。
操作入力受付部12は、通信装置10を使用するユーザによる各種の操作入力を受け付ける。操作入力受付部12は、例えば、図2に示した操作ボタン108、電源スイッチ109、およびCPU101によって実現される。
撮像部13は、通信装置10が配置された拠点内の映像を撮影する。また、撮像部13は、範囲決定部20により決定された拠点内の撮影範囲を撮影する。撮像部13により撮影された映像は、例えばH.264/SVCフォーマットなどのスケーラブルな符号化フォーマットで符号化され、送受信部11から中継装置30へと送信される。
なお、映像データのフォーマットはH.264/SVCに限らず、例えば、H.264/AVC、H.265、WebRTC(Web Real-Time Communication)などの他のフォーマットであってもよい。撮像部13は、例えば、図2に示したカメラ112、撮像素子I/F113、およびCPU101によって実現される。
表示制御部14は、送受信部11により受信されて復号化された他拠点の映像を用いて描画処理などを行い、処理したデータを表示装置50に受け渡すことにより、表示装置50に他拠点の映像を含む画面を表示させる。表示制御部14は、例えば、図3に示したディスプレイI/F117およびCPU101によって実現される。
音声入力部15は、通信装置10が配置されている拠点内の音声を入力する。音声入力部15により入力された音声は、例えばPCM(Pulse Code Modulation)などの任意の符号化フォーマットで符号化され、送受信部11から中継装置30へと送信される。音声入力部15は、例えば、図3に示したマイク114、音声入出力I/F116、およびCPU101によって実現される。
音声出力部16は、送受信部11により受信されて復号化された他拠点の音声を再生出力する。音声出力部16は、例えば、図3に示したスピーカ115、音声入出力I/F116、およびCPU101によって実現される。
発話判断部17は、音声入力部15に入力された音声または撮像部13により撮影された映像から、通信装置10が配置された拠点内で発話されたか否かを判断する。具体的には、発話判断部17は、例えば、マイクアレイ等により音声検知にて話者を特定する。なお、定常的なノイズや突発音などの非定常ノイズは音声として判断されない。また、発話判断部17は、例えば、撮像部13により撮影された映像に対して画像認識を行って話者を特定する。なお、以下の実施形態では、音声に基づいた発話されたか否かを判断する例を示すが、映像に基づいて発話されたか否かを判断した場合も同様となる。
発話地点特定部18は、発話判断部17により、通信装置10が配置された拠点内で発話されたと判断された場合、その発話の話者の位置を示す発話地点を特定する。具体的には、発話地点特定部18は、音声入力部15に入力された音声に対して、発話方向を検知する。例えば、マイクアレイを用いた技術の場合は、複数のマイクを用いてマイクに入力される時間的差を持って音声発生方向および音声発生地点までの距離を検知する。
記録・読出処理部19は、記憶部1000に対して各種データを記憶(記録)したり、読み出したりする処理を行う。また、本実施形態の記録・読出処理部19は、発話地点(話者の位置)を時刻とともに記憶部1000に記録する。記録・読出処理部19は、例えば、図3に示したSSD105およびCPU101によって実現される。記録・読出処理部19が記録部として機能する。
範囲決定部20は、予め定めた所定時間内に、記憶部1000に通信装置10が配置された拠点における複数の発話地点が記録されていた場合、記録されている複数の発話地点を含む範囲、すなわち、発話中の複数の会議参加者を含む範囲を撮影範囲として決定する。
本実施形態では、例えば、範囲決定部20は、通信装置10が配置された拠点内で発話され、前回の発話が同拠点内の発話であった場合、今回の発話の記録時刻と前回の発話の記録時刻の発話間隔が、予め定めた所定時間内であるか否かを判定する。そして、範囲決定部20は、発話間隔が所定時間内であった場合、前回の発話と今回の発話とは会話であると判定し、前回の発話地点と今回の発話地点とを含む範囲を撮影範囲として決定する。
映像生成部21は、範囲決定部20により撮影範囲が決定された場合、撮像部13によって撮影された拠点内の映像から、決定された撮影範囲の映像を切り取って、他拠点に送信する映像を生成する。そして、切り取られて生成された撮影範囲の映像は、送受信部11により他拠点に送信されることになる。
図5は、拠点Aにおいて会話がされた場合に他拠点に送信する映像の説明図である。図5に示す拠点Aでは、会議の参加者P1、P2が発話している状態を示している。この参加者P1、P2の発話が所定時間内であった場合に会話と判断され、カメラ112により撮影された拠点Aの映像から、参加者P1、P2の両者を含む撮影範囲の映像F1が切り取られる。そして、切り取られた映像F1が、他拠点に送信されることになる。これにより、会議中に会話している参加者の位置関係や雰囲気を他拠点に伝えることができる。
ここで、従来のテレビ会議システムについて説明する。図8は、拠点Aにおいて参加者の一人が発話した場合に他拠点に送信する映像の説明図である。図9は、拠点Aにおいて会話がされた場合に他拠点に送信する映像F4の説明図である。
図8では、例えば、拠点Aにおける会議の参加者P21が発話している。この場合、従来のテレビ会議システムでは、音声発生地点である参加者P21の口元が画面中央にくるように、カメラ112を向けて撮影していた。
そして、図9では、例えば、拠点Aにおける会議の参加者P31、32によって会話が行われている。この場合、従来のテレビ会議システムでは、他拠点において、発話ごとに発話者を中心に撮影した映像F5、F6と切り替わる。すなわち、参加者P31により発話されると、参加者P31を中心にした映像F5が生成され、次に、参加者P32により発話されると、参加者P32を中心にした映像F6が生成される。そして、生成された映像F5、F6が他拠点に送信され、切り替わって表示されることになる。
このため、他拠点において拠点Aの映像を見ている会議参加者としては、拠点Aとしての会話が行われているというより、各個人単位で発話が行われている印象を受けてしまう。つまり、他拠点では、映像を通しても、拠点Aの会議の参加者がどのような位置関係で、どのような雰囲気で会議が行われているかがわかりにくかった。
次に、本実施形態のテレビ会議システムによる会議の映像の送信処理について説明する。図6は、実施形態のテレビ会議システムによる会議の映像送信処理の流れを示すフローチャートである。図6では、図2に示すように、拠点A〜Cにより会議が行われ、メイン拠点である拠点Aから映像を送信する場合の処理である。
なお、図6では、一例として、マイクアレイ等による音声検知によって、発話されたか否かを特定し、発話地点を特定するものとするが、撮像画像の画像認識による話者の特定方法でもよい。また、撮影範囲の映像は、パン/チルト/ズームによりカメラなどの撮影手段自体を動かして、決定された撮影範囲の映像を取得するものとするが、拠点全体を広範囲に撮影した映像から、決定された撮影範囲を切り取る方法でもよい。
まず、発話判断部17は、マイク114から音声入力部15に音声が入力されたか否かにより、拠点Aにおいて発話されたか否かを判断する(ステップS100)。拠点Aで発話されていない場合(ステップS100:No)、戻って処理を繰り返す。
一方、拠点Aで発話された場合(ステップS100:Yes)、発話地点特定部18は、発話地点を特定する(ステップS102)。そして、記録・読出処理部19は、特定された発話地点を時刻とともに記憶部1000に記録する(ステップS104)。
ここで、発話地点の記録は、時間的区分によって複数記録されるものとする。図6では、今回の発話と前回の発話の2つの発話がなされた場合について説明する。なお、さらに過去の発話地点を記録し、より複数の発話地点に対応させて映像を送信する構成としてもよい。記録するデータとしては、発話位置である発話地点と、発話時刻を記録する。
次に、範囲決定部20は、前回の発話地点の記録が記憶部1000に記録されているか否かを判断する(ステップS106)。前回の発話地点の記録がない場合(ステップS106:No)、拠点Aでは会話が行われていないと判断し、今回の発話地点が中央になる撮影範囲を決定する(ステップS112)。
一方、前回の発話地点の記録があった場合(ステップS106:Yes)、範囲決定部20は、前回の発話の記録時刻以降に、他拠点の発話があったか否かを判断する(ステップS108)。つまり、ここでは、前回の発話記録があり、かつその発話の記録時刻以降に他拠点との会話がされていたかどうかを判断している。
他拠点の発話があった場合(ステップS108:Yes)、拠点A内の会話ではないと判断し、今回の発話地点が中央になる撮影範囲を決定する(ステップS112)。一方、他拠点の発話がなかった場合(ステップS108:No)、範囲決定部20は、今回の発話記録時刻と前回の発話記録時刻の発話間隔が所定時間内か否かを判断する(ステップS110)。
発話間隔が所定時間内ではなかった場合(ステップS110:No)、拠点A内では会話が行われていないと判断し、今回の発話地点が中央になる撮影範囲を決定する(ステップS112)。
一方、発話間隔が所定時間内であった場合(ステップS110:Yes)。拠点A内での会話が行われていると判断し、前回の発話地点と今回の発話地点とを含む撮影範囲を決定する(ステップS114)。つまり、ここでは、前回の発話の記録時刻以降に他拠点との会話が行われておらず、かつ前回の発話の記録時刻から今回の発話の記録時刻までの時間が短い場合、拠点A内の会話であると判断している。
そして、映像生成部21は、決定された撮影範囲の映像を生成し(ステップS116)、送受信部11は、生成された映像を他拠点の他の通信装置に送信する(ステップS118)。
以上のように、図6では、同一拠点である拠点A内で所定時間内に複数の発話者が会話を行った場合には、音声の発生地点を映像の中心にすることなく、複数の発生拠点を群と捉え、音声群全体が映るような撮影範囲に決定する。そして、決定した撮影範囲に映像を切り出したり、決定した撮影範囲を撮影することで、話者の距離感や拠点の雰囲気をよりわかり易く他拠点に伝えることができる。従って、従来のように、最新の音声の発生地点を特定した場合、そこに撮影手段を向けたり映像を切り出したりするのではなく、話者追従方式として、音声の発生地点をある時間分記録しておいて、同一拠点内で複数の音声の発生地点を特定する。そして、音声の発生地点が特定されれば会話が行われていると判断でき、撮影手段・映像切り出し手段により、複数の音声の発生地点を含む撮影範囲を送信する映像として生成し、生成された画像を他拠点に送信する。
ここで、図6において決定された撮影範囲の映像について説明する。図7は、撮影範囲の映像を示す図である。図7に示すように、拠点Aには、複数の会議の参加者がおり、カメラ112により拠点Aが撮影されている。そして、拠点Aでは、参加者P11、12が発話している。
図6のステップS114では、拠点Aにおいて会話が行われていると判断されている。このため、図7に示すように、撮影範囲は、複数の発話者P11、12が撮影されるような映像F2となる。
これに対し、図6のステップS112では、拠点Aにおいては会話が行われてないと判断されている。このため、図7に示すように、撮影範囲は、参加者P12一人が撮影されるような映像F3となる。
このように、本実施形態のテレビ会議システムは、複数の拠点にそれぞれ配置された通信装置により会議等を行う際に、予め定めた所定時間内に同拠点において複数の参加者による発話があった場合は会話が行われていると判断し、当該複数の参加者(発話者)を含む撮影範囲の映像を他拠点に送信する。これにより、同一の拠点で複数の発話者が発声している場合に、当該拠点の話者の距離感や拠点の雰囲気をよりわかり易く他拠点へ伝えることができる。
上述した装置用プログラムは、例えばフラッシュメモリ104に格納され、CPU101の制御によりRAM103上に読み出されて実行される。なお、装置用プログラムを格納するメモリは不揮発性メモリであればよく、フラッシュメモリ104に限らず、EEPROM(Electrically Erasable and Programmable ROM)などを用いてもよい。また、装置用プログラムは、インストール可能な形式または実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体である記録メディア106に記録されて提供されるようにしてもよい。また、装置用プログラムは、ROM102などに予め格納された組み込みプログラムとして提供されるようにしてもよい。
また、本実施形態の通信装置で実行される装置用プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の通信装置で実行される装置用プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の通信装置で実行される装置用プログラムは、上述した各部(送受信部11、操作入力受付部12、撮像部13、表示制御部14、音声入力部15、音声出力部16、発話判断部17、発話地点特定部18、記録・読出処理部19、範囲決定部20、および映像生成部21)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記記憶媒体から装置用プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上記各部が主記憶装置上に生成されるようになっている。また、例えば、上述した各部の機能のうちの一部または全部が専用のハードウェア回路で実現されてもよい。
10 通信装置
11 送受信部
12 操作入力受付部
13 撮像部
14 表示制御部
15 音声入力部
16 音声出力部
17 発話判断部
18 発話地点特定部
19 記録・読出処理部
20 範囲決定部
21 映像生成部
30 中継装置
40 ネットワーク
50 表示装置
特開2012−119927号公報

Claims (6)

  1. 通信装置であって、
    前記通信装置が配置された拠点内の音声を入力する音声入力部と、
    前記拠点内を撮影する撮像部と、
    前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、
    所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、
    決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える通信装置。
  2. 前記範囲決定部は、今回の発話の記録時刻と前回の発話の記録時刻の発話間隔が前記所定時間内であるか否かを判定し、前記発話間隔が前記所定時間内であった場合、前回の発話地点と今回の発話地点とを含む前記撮影範囲を決定する、請求項1に記載の通信装置。
  3. 前記撮像部によって撮影された映像から、決定された前記撮影範囲の映像を切り取る映像生成部をさらに備え、
    前記送信部は、切り取られた前記撮影範囲の映像を前記他の通信装置に送信する、請求項1または2に記載の通信装置。
  4. 前記撮像部は、決定された前記撮影範囲を撮影し、
    前記送信部は、撮影された前記撮影範囲の映像を前記他の通信装置に送信する、請求項1または2に記載の通信装置。
  5. 複数の拠点に配置された複数の通信装置がネットワークを介して接続された通信システムにおいて、
    前記通信装置は、
    前記通信装置が配置された拠点内の音声を入力する音声入力部と、
    前記拠点内を撮影する撮像部と、
    前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録部と、
    所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定部と、
    決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信部と、を備える通信システム。
  6. コンピュータを、
    前記コンピュータが配置された拠点内の音声を入力する音声入力手段と、
    前記拠点内を撮影する撮像手段と、
    前記拠点内で発話された場合、話者の位置を示す発話地点を時刻とともに記憶部に記録する記録手段と、
    所定時間内に、前記拠点内の複数の前記発話地点が記録されていた場合、記録された複数の前記発話地点を含む撮影範囲を決定する範囲決定手段と、
    決定された前記撮影範囲の映像を、他拠点に配置された他の通信装置に送信する送信手段と、して機能させるためのプログラム。
JP2015149044A 2015-07-28 2015-07-28 通信装置、通信システム、およびプログラム Pending JP2017034312A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015149044A JP2017034312A (ja) 2015-07-28 2015-07-28 通信装置、通信システム、およびプログラム
US15/214,977 US20170034480A1 (en) 2015-07-28 2016-07-20 Communication device, communication system, and computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015149044A JP2017034312A (ja) 2015-07-28 2015-07-28 通信装置、通信システム、およびプログラム

Publications (1)

Publication Number Publication Date
JP2017034312A true JP2017034312A (ja) 2017-02-09

Family

ID=57883475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015149044A Pending JP2017034312A (ja) 2015-07-28 2015-07-28 通信装置、通信システム、およびプログラム

Country Status (2)

Country Link
US (1) US20170034480A1 (ja)
JP (1) JP2017034312A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019186931A (ja) * 2018-04-04 2019-10-24 深▲せん▼市冠旭電子股▲ふん▼有限公司 カメラ撮影制御方法、装置、インテリジェント装置およびコンピュータ記憶媒体

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018010439A (ja) 2016-07-13 2018-01-18 株式会社リコー 座標検出装置
JP2022109048A (ja) * 2021-01-14 2022-07-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11907023B2 (en) 2021-04-23 2024-02-20 Ricoh Company, Ltd. Information processing system, information processing apparatus, terminal device, and display method
US11762617B2 (en) 2021-09-13 2023-09-19 Ricoh Company, Ltd. Display apparatus, display method, and display system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8289363B2 (en) * 2006-12-28 2012-10-16 Mark Buckler Video conferencing
US8395653B2 (en) * 2010-05-18 2013-03-12 Polycom, Inc. Videoconferencing endpoint having multiple voice-tracking cameras

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019186931A (ja) * 2018-04-04 2019-10-24 深▲せん▼市冠旭電子股▲ふん▼有限公司 カメラ撮影制御方法、装置、インテリジェント装置およびコンピュータ記憶媒体

Also Published As

Publication number Publication date
US20170034480A1 (en) 2017-02-02

Similar Documents

Publication Publication Date Title
US9509953B2 (en) Media detection and packet distribution in a multipoint conference
US9094524B2 (en) Enhancing conferencing user experience via components
US11019306B2 (en) Combining installed audio-visual sensors with ad-hoc mobile audio-visual sensors for smart meeting rooms
JP2017034312A (ja) 通信装置、通信システム、およびプログラム
US9699414B2 (en) Information processing apparatus, information processing method, and computer program product
EP3005690B1 (en) Method and system for associating an external device to a video conference session
JP2014175944A (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
JP2009177592A (ja) 通信端末装置、画像表示制御方法
JP6590152B2 (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2017103641A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP2011114720A (ja) 外部異常検知機能を有するインターホンシステム
JP2019176386A (ja) 通信端末及び会議システム
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP6524732B2 (ja) 通信装置、通信システム、通信装置の制御方法およびプログラム
JP2017168903A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2017163466A (ja) 情報処理装置および会議システム
US20120300126A1 (en) Electronic apparatus and tv phone method
WO2015017680A2 (en) Systems and methods for split echo cancellation
JP2014229990A (ja) インターホンシステム
US10237402B1 (en) Management of communications between devices
JP6645129B2 (ja) 通信装置、制御方法及び制御プログラム
JP4685576B2 (ja) インターホンシステム
JP2017108287A (ja) 通信装置、制御方法及び制御プログラム
JP2008005028A (ja) 映像音声会議システムおよび端末装置
JP2015177476A (ja) 情報処理装置、情報処理システムおよびプログラム