JP2017158134A - 情報処理装置、会議システムおよび情報処理装置の制御方法 - Google Patents

情報処理装置、会議システムおよび情報処理装置の制御方法 Download PDF

Info

Publication number
JP2017158134A
JP2017158134A JP2016041912A JP2016041912A JP2017158134A JP 2017158134 A JP2017158134 A JP 2017158134A JP 2016041912 A JP2016041912 A JP 2016041912A JP 2016041912 A JP2016041912 A JP 2016041912A JP 2017158134 A JP2017158134 A JP 2017158134A
Authority
JP
Japan
Prior art keywords
speaker
voice
output
unit
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016041912A
Other languages
English (en)
Inventor
清人 五十嵐
Kiyoto Igarashi
清人 五十嵐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016041912A priority Critical patent/JP2017158134A/ja
Publication of JP2017158134A publication Critical patent/JP2017158134A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】発話者を特定するとともに、発話者にスピーカの放音方向を向けることにより、スピーカより放音された音声が周囲に拡散することを抑制する。
【解決手段】接続先に送信するための音声が入力される音声入力部と、接続先から受信した音声が出力される複数の音声出力部(複数のスピーカ10a〜10eからなるスピーカアレイ115)と、を有した会議端末において、音声入力部へ入力される音声を発している発話者を検出する発話者検出部と、発話者検出部の検出結果に応じて、複数の音声出力部から少なくとも1の音声出力部を選択して、該選択された音声出力部から音声を出力する音声出力制御部と、を備える。
【選択図】図4

Description

本発明は、情報処理装置、会議システムおよび情報処理装置の制御方法に関する。
近年、インターネット等のネットワークを介して遠隔地(拠点)に設置された端末装置(会議端末ともいう)を接続し、遠隔会議(テレビ会議、ビデオ会議ともいう)を行う会議システム(遠隔会議システム、テレビ会議システム、ビデオ会議システムともいう)が普及している。
この会議システムでの会議端末は、各拠点の会議室等に設置され、相手先の会議端末との間で会議出席者の画像や音声をやり取りすることで遠隔会議を行う。具体的には、会議端末の各々は、遠隔会議に出席する会議出席者をカメラで撮影するとともに会議出席者の音声をマイクで集音し、相手先の会議端末に画像データや音声データを送信する一方で、相手先の会議端末から送信された画像データおよび音声データを受信し、受信した画像データを用いた会議画面を表示部に表示出力するとともに音声データをスピーカから音出力する。
また、会議端末として、拠点間での円滑な会話を実現するために、会議出席者のうち実際に発話している参加者(以下、発話者という)を検知し、発話者をカメラで撮影する機能(話者追尾機能という)を備えるものが知られている。例えば、特許文献1には、複数のマイクを配列して構成されたマイクアレイの収音音声を用いて発言者方向を検出して、カメラの撮影方向を制御する音声会議装置が開示されている。
しかしながら、従来、会議端末のスピーカから放音される音声については、無指向性のスピーカを用いて水平方向全方位に音声を放音しており、特定の方向に音声を放音することができなかった。そのため、スピーカより放音された音声が周囲に拡散し、会議端末の近傍にいる会議の非出席者にとって迷惑となる場合があった。
これに対し、スピーカの音量を下げて放音範囲を狭くすることにより周囲の迷惑とならない様にする方法が一般的に取られるが、スピーカの音量を下げると、発話者が相手先からの音声を聞き取りにくくなってしまう。
また、特許文献2には、周囲への音漏れを少なくして、特定の聴取者を対象として音声を放音することを目的として、ライン状に配列されたスピーカユニットを備えたスピーカアレイであって、このスピーカユニット列の放音側を部屋の天井に向けて設置されるものと、この天井で反射したスピーカユニット列からの音声ビームが部屋内の複数乃至は単数の特定の聴取者に向かうように、この音声ビームの焦点を合わせる指向性制御部と、を備えたスピーカ装置が開示されている。
しかしながら、特許文献2に記載の技術では、天井が高い場合や、天井に音が反射し難い材料が使われている場合、天井に凹凸がある場合等は、所望の反射音量が得られないため、音声ビームが意図通り発話者に向かわないといった問題があり、会議端末に用いるスピーカの指向性制御には、検討の余地が残されていた。
そこで本発明は、発話者を特定するとともに、発話者にスピーカの放音方向を向けることにより、スピーカより放音された音声が周囲に拡散することを抑制することができる情報処理装置を提供することを目的とする。
かかる目的を達成するため、本発明に係る情報処理装置は、接続先に送信するための音声が入力される音声入力部と、接続先から受信した音声が出力される複数の音声出力部と、を有した情報処理装置において、前記音声入力部へ入力される音声を発している発話者を検出する発話者検出部と、前記発話者検出部の検出結果に応じて、前記複数の音声出力部から少なくとも1の音声出力部を選択して、該選択された音声出力部から音声を出力する音声出力制御部と、を備えるものである。
本発明によれば、発話者を特定するとともに、発話者にスピーカの放音方向を向けることにより、スピーカより放音された音声が周囲に拡散することを抑制することができる。
テレビ会議システムの構成例を示すブロック図である。 会議端末の主要内部構成例を示すブロック図である。 スピーカアレイの説明図であって、(A)スピーカアレイを備えた会議端末の外観図、(B)スピーカアレイの上面図、(C)スピーカアレイの正面図である (A)は従来の無指向性スピーカを用いた場合の放音特性の説明図、(B)スピーカアレイを用いた場合の放音特性の説明図である。 スピーカアレイの放音制御の一例を示すフローチャートである。 ステレオや立体音響機能を有するスピーカのスイートスポットの説明図である。 スイートスポットと発話者の位置との関係を示す説明図である。 スピーカアレイの放音制御の他の例を示すフローチャートである。 第3の実施形態の会議端末の第1のハードウェア構成を示す図である。 第3の実施形態の会議端末の第2のハードウェア構成を示す図である。 ステレオカメラを有する会議端末の外観の一例を示す図である。 赤外線センサを有する会議端末の外観の一例を示す図である。 スピーカアレイの放音制御の他の例を示すフローチャートである。
以下、本発明に係る構成を図1から図13に示す実施の形態に基づいて詳細に説明する。
[第1の実施形態]
本実施形態に係る情報処理装置は、接続先に送信するための音声が入力される音声入力部(マイクアレイ114)と、接続先から受信した音声が出力される複数の音声出力部(複数のスピーカ10からなるスピーカアレイ115)と、を有した情報処理装置(会議端末5)において、音声入力部へ入力される音声を発している発話者を検出する発話者検出部と、発話者検出部の検出結果に応じて、複数の音声出力部から少なくとも1の音声出力部を選択して、該選択された音声出力部から音声を出力する音声出力制御部と、を備えるものである。なお、括弧内は実施形態での符号、適用例を示す。
(会議システム構成)
本発明に係る会議システムの一実施形態であるテレビ会議システムの構成について説明する。
図1は、テレビ会議システム1の構成例を示すブロック図である。図1に示すように、テレビ会議システム1は、サーバ3と複数の会議端末5(5−1,5−2,5−3,5−4・・・)とを備え、これらがインターネット等のネットワークNを介して接続されて構成される。サーバ3としては、サーバコンピュータやワークステーション等を利用することができ、会議端末5としては、専用の会議端末装置(情報処理装置)のほか、パーソナルコンピュータ等の汎用の情報処理装置を利用することができる。
サーバ3は、個々の会議端末5との間で通信接続が確立しているか否かを監視する処理や、会議開始時においてテレビ会議に参加する拠点(参加拠点)に設置された会議端末5を呼び出す処理、呼び出しに応答して通信接続が確立した参加拠点の会議端末5からテレビ会議の間に送信される画像データや音声データを相手先(他の参加拠点)の会議端末5に転送する処理等を行う。
会議端末5の各々は、遠隔地にある拠点の会議室等に設置され、テレビ会議の出席者によって操作される。テレビ会議中の各参加拠点の会議端末5は、後述するカメラ112によって撮影した会議出席者の画像データやマイクアレイ114によって集音した会議出席者の音声データをサーバ3に送信する一方、他の参加拠点の会議端末5から送信されてサーバ3によって転送された画像データや音声データを受信し、ディスプレイ120に会議画面として表示出力するとともにスピーカアレイ115から出力(放音)する。
例えば、このテレビ会議システム1において図1に示す3台の会議端末5−1〜5−3が参加するテレビ会議では、会議端末5−1から送信された画像データや音声データはサーバ3の制御によって相手先である会議端末5−2,5−3に転送される一方、会議端末5−4には転送されない。同様に、会議端末5−2,5−3から送信された画像データや音声データはサーバ3の制御によって各々の相手先である会議端末5−1,5−3や会議端末5−1,5−2に転送され、会議端末5−4には転送されない。このようにして、テレビ会議システム1では、サーバ3との通信接続が確立された2台以上の会議端末5が設置された参加拠点間でテレビ会議が行われる。
(会議端末構成)
図2は、会議端末5の主要内部構成例を示すブロック図である。図2に示されているように、会議端末5は、会議端末5の全体の動作を制御するCPU(Central Processing Unit)101、IPL(Initial Program Loader)等のCPU101の駆動に用いられるプログラムを記憶したROM(Read Only Memory)102、CPU101のワークエリアとして使用されるRAM(Random Access Memory)103、端末用プログラム、画像データ、及び音声データ等の各種データを記憶するフラッシュメモリ104、CPU101の制御にしたがってフラッシュメモリ104に対する各種データの読み出し又は書き込みを制御するSSD(Solid State Drive)105、フラッシュメモリ等の記録メディア106に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ107、会議端末5の宛先を選択する場合などに操作される操作部108、会議端末5の電源のON/OFFを切り換えるための電源スイッチ109、ネットワークNを利用してデータ伝送をするためのネットワークI/F(Interface)111を備えている。
操作部108は、キーボードやマウス、タッチパネル、各種スイッチ等の入力装置によって実現されるものであり、操作入力に応じた入力データをCPU101に出力する。
ネットワークI/F111は、外部(例えばサーバ3)とのデータ通信を行うためのものであり、LANを経由してネットワークNと接続し、相手先の会議端末5との画像データや音声データ等の送受を、サーバ3を介して行う。このネットワークI/F111は、10Base−T,100Base−TX,1000Base−T等に対応した制御を行いイーサネット(登録商標)に接続するもの(有線LAN)や、IEEE802.11a/b/g/nに対応した制御を行うもの(無線LAN)等、接続態様に応じたものを適宜採用して用いることができる。
また、会議端末5は、CPU101の制御に従って被写体を撮像して画像データを得る内蔵型のカメラ112、このカメラ112の駆動を制御する撮像素子I/F113、音声を入力する内蔵型のマイクアレイ114、音声を出力する内蔵型のスピーカアレイ115、CPU101の制御に従ってマイクアレイ114及びスピーカアレイ115との間で音声信号の入出力を処理する音声入出力I/F116、CPU101の制御に従って外付けのディスプレイ120に画像データを伝送するディスプレイI/F117、各種の外部機器を接続するための外部機器接続I/F118、および上記各構成要素を電気的に接続するためのアドレスバスやデータバス等のバスライン110を備えている。
また、詳細は後述するが、CPU101は、音声入出力I/F116とともに、会議端末5へ向けて発話している発話者を検出する発話者検出部、およびスピーカアレイ115のいずれのスピーカから音声を出力するかの制御、および出力音声等を制御する音声出力制御部として機能する。
カメラ112は、レンズや、光を電荷に変換して被写体の画像(映像)を電子化する固体撮像素子を含み、固体撮像素子として、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサや、CCD(Charge Coupled Device)イメージセンサ等が用いられる。
カメラ112は、会議出席者の画像を入力するためのものであり、会議室内の様子を撮影し、生成した画像データを随時、CPU101に出力する。カメラ112は、マイクアレイ114にて検出した発話者の方向に追従して、撮影方向、撮影範囲を切り替える制御がなされる。カメラ112は、例えば、撮影方向が旋回可能に設けられており、検出された発話者の方向に基づいて、CPU101により旋回が制御される。また、カメラ112を、広角レンズを用いて構成し、その視野範囲(画角)内に会議出席者の全員が含まれるようにして、検出された発話者の方向に基づいて、デジタル処理により撮影範囲を切り替える制御をするものであってもよい。
マイクアレイ114は、会議出席者の音声を入力するためのマイクが複数配列されてなり、集音した会議出席者の音声データを随時、CPU101に出力する。CPU101は、マイクアレイ114を構成する各マイクから取得された音声データに基づいて発話者の方向を検出する。マイクアレイ114を用いた発話者の方向の検知については、公知(例えば、参考文献1:特開2001−45590号公報)または新規の技術を用いることができる。
スピーカアレイ115は、CPU101から入力される音声データを出力するためのスピーカが複数配列されて構成される。スピーカアレイ115の詳細については後述する。
外部機器接続I/F118には、USB(Universal Serial Bus)ケーブル等によって、外付けカメラ、外付けマイク、及び外付けスピーカ等の外部機器がそれぞれ接続可能である。例えば、外付けカメラが接続された場合には、CPU101の制御に従って、内蔵型のカメラ112に優先して、外付けカメラが動作するようにしてもよい。同じく、外付けマイクが接続された場合や、外付けスピーカが接続された場合には、CPU101の制御に従って、それぞれが内蔵型のマイクアレイ114や内蔵型のスピーカアレイ115に優先して、外付けマイクや外付けスピーカを駆動させるようにしてもよい。
なお、記録メディア106は、会議端末5に対して着脱自在な構成となっている。また、CPU101の制御にしたがってデータの読み出し又は書き込みを行う不揮発性メモリであれば、フラッシュメモリ104に限らず、EEPROM(Electrically Erasable and Programmable ROM)等を用いてもよい。
更に、上記端末用プログラムは、インストール可能な形式又は実行可能な形式のファイルで、上記記録メディア106等の、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。また、上記端末用プログラムは、フラッシュメモリ104ではなくROM102に記憶させるようにしてもよい。
ディスプレイ120は、被写体の画像や操作用アイコン等を表示するLCDやELディスプレイ、CRTディスプレイ等によって構成された表示部であり、CPU101から入力される画像データを表示した会議画面等の各種画面を表示出力する。また、ディスプレイ120は、ケーブル120cによってディスプレイI/F117に接続される。このケーブル120cは、アナログRGB(VGA)信号用のケーブルであってもよいし、コンポーネントビデオ用のケーブルであってもよいし、HDMI(High-Definition Multimedia Interface)(登録商標)やDVI(Digital Video Interactive)信号用のケーブルであってもよい。
CPU101は、カメラ112から入力される画像データやマイクアレイ114から入力される音声データ、ネットワークI/F111から入力される相手先の会議端末5からの画像データや音声データ、操作部108から入力される入力データ、フラッシュメモリ104等に記録されるプログラムやデータ等をもとに、会議端末5を構成する各部への指示やデータの転送等を行って会議端末5の動作を統括的に制御する。例えば、CPU101は、サーバ3からの呼び出しを受けてサーバ3との通信接続が確立した後、カメラ112から入力される画像データやマイクアレイ114から入力される音声データをサーバ3に送信する処理と、サーバ3から転送される相手先の会議端末5からの画像データや音声データを受信する処理とを並行して繰り返し行う。
具体的には、CPU101は、テレビ会議中にカメラ112から随時入力される画像データ、およびマイクアレイ114から随時入力される音声データをエンコードしてネットワークI/F111に出力することで、これらをサーバ3に送信する処理を行う。CPU101は、例えば、H.264/AVC、H.264/SVC等の規格によるコーデックを行う。
また、CPU101は、これと並行し、相手先の会議端末5から送信されてサーバ3によって転送された画像データおよび音声データをネットワークI/F111を介して受信する。そして、CPU101は、受信した画像データおよび音声データをデコードしてディスプレイ120、スピーカアレイ115に送信するコーデック機能を有している。これにより、相手先の会議端末5で入力された画像および音声の再生を行う。
(スピーカアレイ)
会議端末5が備えるスピーカアレイ115の構成例について説明する。図3はスピーカアレイ115の説明図であって、(A)スピーカアレイ115を備えた会議端末5の外観図、(B)スピーカアレイ115の上面図、(C)スピーカアレイ115の正面図である。
図3示すように、会議端末5の正面側(カメラ112の撮影方向とする)には、複数のスピーカが水平方向に配列されたスピーカアレイ115が設けられている。図3の例では、会議端末5の正面側にスピーカアレイ115を備え、スピーカアレイ115はスピーカ10a〜10eの5つのスピーカが配列されて構成される例を示しているが、少なくとも2以上のスピーカを備えるものであればよく、スピーカアレイ115および各スピーカの配置位置、並びにスピーカ数は、これに限られるものではない。例えば、会議端末5の後面側にもスピーカを配列し、全方位対応型とすることも好ましい。
次に、スピーカアレイ115の放音特性について図4を参照して説明する。図4において、人物Aは会議における発話者、人物Bは会議への非参加者を示している。
図4(A)は従来の無指向性スピーカを用いた場合の放音特性の説明図である。従来の会議端末では、会議端末の上方に天井側へ向けて無指向性のモノラルのスピーカ20を備えることが一般的であり、無指向性のスピーカ20は、特定方向への放音特性を有さず、例えば、点線で示す放音エリア21に放音する。このため、発話者が存在しない方向にも放音されてしまい、例えば、会議の非参加者である人物Bにも音が聞こえてしまい、周囲の迷惑となっていた。
一方、図4(B)は本実施形態に係る会議端末5が備えるスピーカアレイ115を用いた場合の放音特性の説明図である。スピーカアレイ115のスピーカ10としては、所定方向への指向性を有するスピーカを用いることが好ましい。例えば、直進性の強い放音特性を備えた平面スピーカを用いることが好ましい。
そして、スピーカアレイ115の放音制御(後述)を行って、発話者(人物A)が存在する方向を放音エリア11として有するスピーカ10(ここではスピーカ10d)からのみ放音することにより、会議の非参加者である人物Bへの音漏れを防ぎ、周囲の迷惑となることを抑制することができる。
(スピーカアレイの放音制御)
会議端末5によるスピーカアレイ115の放音制御について説明する。図5は、スピーカアレイ115の放音制御の一例を示すフローチャートである。
テレビ会議の配信が開始されると(S101)、先ず発話者が存在するか否かを判定する(S102)。発話者の存在の有無の判定は、例えば、マイクアレイ114から入力される音声データの音量が所定値以上であった場合に発話者が存在すると判定する。
発話者が存在しない場合(S102:No)は、所定時間経過後、再度発話者が存在するか否かの判定(S102)を実行する。一方、発話者が存在する場合(S102:Yes)、マイクアレイ114から入力される音声に基づいて、発話者の方向を検出する(S103)。
発話者の方向が検出されると、カメラ112の撮影方向を発話者の方向に向ける処理がなされるとともに(S104)、スピーカアレイ115のうち発話者の方向に対応するスピーカ10を選択し(S105)、選択されたスピーカ10から放音する処理(S106)がなされる。なお、S104,S105〜S106の処理の前後は問わず、同時に処理されるものであってもよい。
所定時間の経過後、再度発話者が存在するか否かの判定(S102)に移行する(S107)。
以上説明した本実施形態に係る会議端末によれば、話者追尾機能により発話者(発話者の方向)を特定するとともに、発話者にスピーカの放音方向を向けることにより、スピーカより放音された音声が周囲に拡散してしまうことを抑制し、会議の非参加者の迷惑とならないようにすることができる。特に、会議拠点における会議の参加者が少ない場合や、会議拠点が会議室などの閉じられた空間ではなく、周囲に会議の非参加者が存在する位置に会議端末を設置しなければならない場合等に好適である。
また、発話者にスピーカの放音方向を向けることで、会議の参加者のうち、その時点で発話している発話者に相手方からの音声を最も聞こえるようになるため、拠点間での会話を円滑に行うことが可能となる。このとき、会議の参加者のうちの非発話者については、指向性制御がされたスピーカからの音声が、聞き取り可能なような音量に制御しておくことで、発話者に相手方からの音声が最も聞こえ、非発話者には相手方からの音声が聞き取り可能であって、非参加者までは拡散しないようにすることができる。
なお、本実施形態では、マイクアレイ114から入力される音声に基づいて、発話者の方向を検出する例を説明したが、発話者の検出方法は、これに限られるものではなく、例えば、カメラ112で撮像した画像データに基づいて、発話者を検出するようにしてもよい。
[第2の実施形態]
以下、本発明に係る情報処理装置の例である会議端末5の他の実施形態について説明する。なお、上記実施形態と同様の点についての説明は適宜省略する。
第1の実施形態では、スピーカアレイ115の複数のスピーカから1つのスピーカを選択する例について説明したが、第2の実施形態では、ステレオや3Dオーディオ(立体音響)処理機能に対応した会議端末5の例について説明する。
図6は、ステレオや立体音響(3Dオーディオ)機能を有するスピーカにおける音響処理の効果が得られる範囲(スイートスポット)の説明図である。また、図7は、スイートスポットと発話者の位置との関係を示す説明図である。
図6に示す例では、ステレオ方式のスイートスポット12は、一般的にLスピーカ10Lと、Rスピーカ10Rの中心線上に存在する。立体音響方式の場合も同様である。また、立体音響方式の場合は、各スピーカから出力される音声の音声データに、所定の立体音響処理が施される。
図6に示す例では、人物Bはスイートスポット12内に位置しているため、十分な音響処理の効果を得ることができるが、人物Aや人物Cが発話者の場合、スイートスポットと発話者の位置が一致せず、十分にステレオや立体音響の音響処理の効果が得られなかった。
そこで、第2の実施形態では、ステレオや立体音響(3Dオーディオ)機能を有する会議端末5において、発話者の位置に応じて、最適な位置にスイートスポットを形成するものである。
図3に示したスピーカ10a〜10eからなるスピーカアレイ115を用いた場合は、図7に示すように、スピーカ10aおよびスピーカ10cを使用すると人物Aを含む位置にスイートスポット12aを形成することができる。また、スピーカ10bおよびスピーカ10dを使用すると人物Bを含む位置にスイートスポット12bを形成することができる。同様に、スピーカ10cおよびスピーカ10eを使用すると人物Cを含む位置にスイートスポット12cを形成することができる。
すなわち、スピーカ10a〜10eのうち、検出された発話者の方向と、各方向について使用するスピーカの組み合わせ(スイートスポット12の形成位置)と、の関係をテーブル(音声出力パターンテーブル)として予め記憶部(ROM102またはフラッシュメモリ104)に記憶しておくことで、検出された発話者の方向に、スイートスポット12が形成されるように、使用するスピーカの最適な組み合わせを選択することができる。
図7の例では、以下の3パターンが存在することとなる。
(パターン1)検出された発話者の方向が人物Aの方向である場合、Lスピーカとしてスピーカ10a、Rスピーカとしてスピーカ10cを選択する。
(パターン2)検出された発話者の方向が人物Bの方向である場合、Lスピーカとしてスピーカ10b、Rスピーカとしてスピーカ10dを選択する。
(パターン3)検出された発話者の方向が人物Cの方向である場合、Lスピーカとしてスピーカ10c、Rスピーカとしてスピーカ10eを選択する。
なお、第2の実施形態では、5つのスピーカ10a〜10eを用いて、3パターンのスイートスポット12を形成する例を説明したが、スピーカアレイ115のスピーカ数、および組み合わせパターン数を増やすことで、スイートスポット12の形成位置のパターンを増やすことが可能となり、さらに、検出された発話者の位置とスイートスポットを精度よく合致させることが可能となる。
また、第2の実施形態では、2つのスピーカを使用する例を説明したが、放音するスピーカ数は2つに限られるものではない。なお、ステレオや立体音響において、各スピーカ10からの出力される音声(チャンネル)の制御は、公知または新規の技術によればよく、特に限られるものではない。
図8は、スピーカアレイ115の放音制御の他の例を示すフローチャートである。テレビ会議の配信が開始されると(S201)、先ず発話者が存在するか否かを判定する(S202)。
発話者が存在しない場合(S202:No)は、所定時間経過後、再度発話者が存在するか否かの判定(S202)を実行する。一方、発話者が存在する場合(S202:Yes)、マイクアレイ114から入力される音声に基づいて、発話者の方向を検出する(S203)。
発話者の方向が検出されると、カメラ112の撮影方向を発話者の方向に向ける処理がなされるとともに(S204)、検出された発話者の方向にスイートスポット12を形成できるスピーカの組み合わせを選択する(S205)。例えば、図7の例では、パターン1〜パターン3のいずれかの組み合わせが選択される。次いで、選択された複数のスピーカから放音する処理がなされる(S206)。
所定時間の経過後、再度発話者が存在するか否かの判定(S202)に移行する(S207)。
以上説明した第2の実施形態に係る会議端末によれば、検出された発話者の位置に応じて、ステレオや立体音響能を有するスピーカにおける音響処理の効果が得られる範囲(スイートスポット)を切り替えることにより、発話者がスイートスポット内に位置するように、スピーカからの放音を制御することができ、ステレオや立体音響機能に対応したテレビ会議装置において、発話者の位置に左右されず十分な音響処理効果を得ることができる。
特に、立体音響方式ではスイートスポットの範囲が限定されるため、発話者の位置が変動するテレビ会議システムにおいて、スイートスポットを所望の位置に切り替えることで、立体音響の音響機能を十分に発揮することができるテレビ会議装置とすることができる。
[第3の実施形態]
上記実施形態では、スピーカアレイ115の指向性制御について説明したが、スピーカアレイ115からの音声が周囲の迷惑となることを更に抑制するために、発話者の方向の検知に加えて、会議端末5から発話者までの距離を検出する距離検出部を備え、検出された距離に応じてスピーカの音量を変更制御することも好ましい。このとき、検出された距離とスピーカの出力音量との対応関係を規定したテーブル(音量設定テーブル)を予め記憶部に記憶させておくことが好ましい。
会議端末5から発話者までの距離は、距離センサを用いて発話者との距離を計測することができる。距離センサには、例えば、ステレオカメラ、超音波センサ、赤外線センサ等が含まれる。なお、ステレオカメラは、発話者との距離の測定に並行して、発話者の画像データの取得を行ってもよい。
図9は、第3の実施形態の会議端末5の第1のハードウェア構成を示す図である。第1のハードウェア構成では、ステレオカメラ50を用いて発話者との距離が測定される。会議端末5は、撮像素子I/F113にステレオカメラ50が接続されている点で第1の実施形態の会議端末5と異なり、他のハードウェア構成は同様である。なお、撮像素子I/F113に、撮影用のカメラ112と距離計測用のステレオカメラ50とがそれぞれ接続される構成であってもよい。
図10は、第3の実施形態の会議端末5の第2のハードウェア構成を示す図である。第2のハードウェア構成は、赤外線センサ51を用いて発話者との距離が測定される。会議端末5は、バス110に接続されたセンサI/F122を介して赤外線センサ51又は超音波センサ52が接続されている点で第1の実施形態の会議端末5と異なり、他のハードウェア構成は同様である。
図11は、ステレオカメラ50を有する会議端末5の外観の一例を示す図である。ステレオカメラ50は、並列して設置された複数のカメラを用いて発話者との距離を計測する機器である。各カメラの撮影方向は、独立して制御される。図11の例では、2つのカメラが近接して設置されているが、カメラ間の距離を大きくしてもよい。また、図11の例では、2つのカメラを使用しているが3つ以上のカメラを使用してもよい。
ステレオカメラ50を用いて発話者との距離を算出する方法について説明する。カメラ間の距離A[m]と、カメラの焦点距離B[m]と、各カメラによって撮像された発話者の位置の差C[m]に基づいて、次の数式に基づいて発話者との距離D[m]を算出する。
(数1)
D=A×B/C
カメラ間の距離A[m]は、大きい方が距離の測定精度が高いが、カメラ間の距離Aを大きくする場合、距離の測定時間が大きくなる。カメラ間の距離が大きいと、発話者の探索を開始してから各カメラで発話者を捕捉するまでの時間が大きくなるためである。カメラ間の距離A[m]を大きくする場合、ステレオカメラ50で計測するターゲットとなる距離範囲を狭く設定することで、探索にかかる時間を小さくすることができる。
例えば、ステレオカメラ50で計測するターゲットとなる距離範囲は、例えば、撮影する室内の広さに応じて設定される。ステレオカメラ50で計測するターゲットとなる距離範囲をあらかじめ設定しておくことで、発話者との距離を計測する時間を短くすることができる。
また、発話者の位置の差Cは、一方のカメラにより撮像された発話者の位置と、他方のカメラにより撮像された発話者の位置とが左右に例えば、5cmずれていた場合、発話者の位置の差C[m]は0.05となる。
また、ステレオカメラ50は、カメラ112として用いてもよい。例えば、ステレオカメラ50は、カメラ112として使用される場合、複数のカメラにより撮像された画像を合成して画像データを生成してもよい。また、ステレオカメラ50は、一方のカメラで撮像された画像を画像データとしてサーバ3に送信してもよい。また、ステレオカメラ50は、専ら発話者との距離計測に用い、発話者の画像データを取得するためのカメラ112を別に備えてもよい。
図12は、赤外線センサ51を有する会議端末5の外観の一例を示す図である。例えば、図12に示すように赤外線センサ51は、カメラ112の撮影方向と同じ方向に向くように、カメラ112と並列して配置される。赤外線センサ51は、検出された発話者の方向にカメラ112の撮影方向が制御された後に、発話者との距離の測定を開始する。なお、超音波センサ52を距離センサとして用いる場合も、赤外線センサ51と同様にカメラ112と並列して配置される。
また、赤外線センサ51が距離センサである場合、赤外線センサ51は、例えば、発話者に赤外線を照射し、反射光を検出した受光素子の位置に基づいて三角測量の原理で発話者との距離を計測する。
具体的には、赤外線センサ51は、発話者に赤外線を照射し、位置検出素子PSD(Position Sensing Device)で発話者からの反射光を受光する。発話者との距離に応じて反射光を検出する位置検出素子の位置は変化するので、反射光を検出した位置検出素子の位置を距離に換算することにより、発話者との距離を算出することができる。なお、赤外線センサ51として使用される素子は、PSDに限定されず、OES(Opto Elektronischer Schaltkreis)等の他の種類の素子を使用してもよい。
また、超音波センサ52を用いる場合は、検出された発話者の方向に制御された後に、検出された発話者に超音波を発信して反射波を計測、又は発話者に赤外線を照射して反射光を計測することで、発話者との距離を測定する。例えば、超音波センサを用いて発話者に超音波を発信してから反射波を受信するまでの時間を計測することで発話者との距離を測定する。例えば、発話者に超音波を発信してから反射波を受信するまでの時間をt[s]、音速をc[m/s]とした場合、以下の式に基づいて発話者との距離Lを算出する。
(数2)
L=c×t/2
図13は、スピーカアレイ115の放音制御の他の例を示すフローチャートである。テレビ会議の配信が開始されると(S301)、先ず発話者が存在するか否かを判定する(S302)。
発話者が存在しない場合(S302:No)は、所定時間経過後、再度発話者が存在するか否かの判定(S302)を実行する。一方、発話者が存在する場合(S302:Yes)、マイクアレイ114から入力される音声に基づいて、発話者の方向を検出する(S303)。
発話者の方向が検出されると、カメラ112の撮影方向を発話者の方向に向ける処理がなされるとともに(S304)、ステレオカメラ50、赤外線センサ51又は超音波センサ52に基づいて、発話者との距離を計測する(S305)。
次いで、検出された発話者の方向にスイートスポット12を形成できるスピーカの組み合わせを選択する(S306)。次いで、選択された複数のスピーカから、計測された距離に応じた音量で放音する処理がなされる(S307)。
所定時間の経過後、再度発話者が存在するか否かの判定(S302)に移行する(S308)。
以上説明した第3の実施形態に係る会議端末5によれば、第1および第2の実施形態で説明した効果に加えて、さらに、会議端末5から発話者までの距離を検出し、検出された距離に応じてスピーカの音量を最適化して、スピーカアレイ115からの音声が周囲の迷惑となることを抑制することがきる。
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
1 テレビ会議システム
3 サーバ
5 会議端末
10,10a〜10e,20 スピーカ
11,21 放音エリア
50 ステレオカメラ
51 赤外線センサ
52 超音波センサ
101 CPU
102 ROM
103 RAM
104 フラッシュメモリ
105 SSD
106 記録メディア
107 メディアドライブ
108 操作部
109 電源スイッチ
110 バスライン
111 ネットワークI/F
112 カメラ
113 撮像素子I/F
114 マイクアレイ
115 スピーカアレイ
116 音声入出力I/F
117 ディスプレイI/F
118 外部機器接続I/F
120 ディスプレイ
120c ケーブル
N ネットワーク
特許第5028944号公報 特開2007−6073号公報

Claims (9)

  1. 接続先に送信するための音声が入力される音声入力部と、
    接続先から受信した音声が出力される複数の音声出力部と、を有した情報処理装置において、
    前記音声入力部へ入力される音声を発している発話者を検出する発話者検出部と、
    前記発話者検出部の検出結果に応じて、前記複数の音声出力部から少なくとも1の音声出力部を選択して、該選択された音声出力部から音声を出力する音声出力制御部と、を備えることを特徴とする情報処理装置。
  2. 前記音声出力制御部は、前記発話者検出部の検出結果に応じて、前記複数の音声出力部のうち2以上の音声出力部を選択して、少なくとも1の音声出力部をLチャンネル出力用、少なくとも他の1の音声出力部をRチャンネル出力用として音声を出力することを特徴とする請求項1に記載の情報処理装置。
  3. 前記音声出力制御部は、前記音声出力部から出力される音声に所定の立体音響処理を施すことを特徴とする請求項2に記載の情報処理装置。
  4. 前記発話者検出部は、前記発話者の方向を検出するものであって、
    前記発話者検出部で検出した前記発話者の方向と、各方向に対応した前記音声出力部の選択パターンを規定した音声出力パターンテーブルを備え、
    前記音声出力制御部は、前記音声出力パターンテーブルを参照して、検出された前記発話者の方向に基づいて、音声を出力する前記音声出力部を選択することを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記音声入力部は、複数の音声入力部を備えてなり、
    前記発話者検出部は、前記複数の音声入力部へ入力される音声に基づいて、前記発話者の方向を検出することを特徴とする請求項1から4までのいずれかに記載の情報処理装置。
  6. 当該情報処理装置から前記発話者までの距離を検出する距離検出部を備え、
    前記音声出力制御部は、前記距離検出部の検出結果に応じて、前記音声出力部の出力音量を制御することを特徴とする請求項1から5までのいずれかに記載の情報処理装置。
  7. 前記距離検出部で検出される前記発話者までの距離と、各距離に対応した前記音声出力部の出力音量を規定した音量設定テーブルを備え、
    前記音声出力制御部は、前記音量設定テーブルを参照して、検出された前記発話者までの距離に基づいて、出力音声を制御することを特徴とする請求項6に記載の情報処理装置。
  8. 請求項1から7までのいずれかに記載の情報処理装置を会議端末として複数備え、前記会議端末の間で音声の送受信を行うことを特徴とする会議システム。
  9. 接続先に送信するための音声が入力される音声入力部と、
    接続先から受信した音声が出力される複数の音声出力部と、を有した情報処理装置の制御方法において、
    前記音声入力部へ入力される音声を発している発話者を検出する発話者検出処理と、
    前記発話者検出処理の検出結果に応じて、前記複数の音声出力部から少なくとも1の音声出力部を選択して、該選択された音声出力部から音声を出力する音声出力処理と、を行うことを特徴とする情報処理装置の制御方法。
JP2016041912A 2016-03-04 2016-03-04 情報処理装置、会議システムおよび情報処理装置の制御方法 Pending JP2017158134A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016041912A JP2017158134A (ja) 2016-03-04 2016-03-04 情報処理装置、会議システムおよび情報処理装置の制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016041912A JP2017158134A (ja) 2016-03-04 2016-03-04 情報処理装置、会議システムおよび情報処理装置の制御方法

Publications (1)

Publication Number Publication Date
JP2017158134A true JP2017158134A (ja) 2017-09-07

Family

ID=59810312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016041912A Pending JP2017158134A (ja) 2016-03-04 2016-03-04 情報処理装置、会議システムおよび情報処理装置の制御方法

Country Status (1)

Country Link
JP (1) JP2017158134A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019132068A (ja) * 2018-01-31 2019-08-08 株式会社小松製作所 作業機械

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019132068A (ja) * 2018-01-31 2019-08-08 株式会社小松製作所 作業機械
JP2022090113A (ja) * 2018-01-31 2022-06-16 株式会社小松製作所 作業機械
US11560692B2 (en) 2018-01-31 2023-01-24 Komatsu Ltd. Work machine
JP7368536B2 (ja) 2018-01-31 2023-10-24 株式会社小松製作所 作業機械

Similar Documents

Publication Publication Date Title
US11991315B2 (en) Audio conferencing using a distributed array of smartphones
JP7379907B2 (ja) 情報処理装置、情報処理プログラム、情報処理システム、情報処理方法
US9860486B2 (en) Communication apparatus, communication method, and communication system
US10440322B2 (en) Automated configuration of behavior of a telepresence system based on spatial detection of telepresence components
US9648278B1 (en) Communication system, communication apparatus and communication method
US9179098B2 (en) Video conferencing
US20100254543A1 (en) Conference microphone system
US10079996B2 (en) Communication system, communication device, and communication method
US8390665B2 (en) Apparatus, system and method for video call
JP6149433B2 (ja) テレビ会議装置、テレビ会議装置の制御方法、及びプログラム
JP2009049734A (ja) カメラ付きマイクロフォン、カメラ付きマイクロフォンの制御プログラムおよびテレビ会議システム
JP2017034312A (ja) 通信装置、通信システム、およびプログラム
JP6590152B2 (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
JP2006211156A (ja) 音響装置
JP2017158134A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2009171486A (ja) テレビ会議システム
JP2017168903A (ja) 情報処理装置、会議システムおよび情報処理装置の制御方法
JP2006339869A (ja) 映像信号と音響信号の統合装置
WO2018173139A1 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
US20230199380A1 (en) Virtual space connection device
JP2008147910A (ja) テレビ会議装置
JP5529617B2 (ja) 遠隔会議装置、遠隔会議方法、および遠隔会議プログラム
JP6524657B2 (ja) 会議装置
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法