JP2021197658A

JP2021197658A - 収音装置、収音システム及び収音方法

Info

Publication number: JP2021197658A
Application number: JP2020103885A
Authority: JP
Inventors: 諒石田; Ryo Ishida; 祐介足立; Yusuke Adachi; 良文廣瀬; Yoshifumi Hirose
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2021-12-27

Abstract

【課題】受聴者にとって所望の音声の収音を行い易くする。【解決手段】収音装置（３２）は、マイクアレイ（２０）において音源から収音した音声を聴く受聴者（３）を撮像するカメラ（３１）を用いて、マイクアレイによる収音方向を制御する。収音装置は、マイクアレイから出力される音声データ、及びカメラによって生成される画像データを入力する入力部と、入力部から入力されたデータに基づいて、マイクアレイによる収音方向を制御する制御部（４０）とを備える。制御部は、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイに到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者の視線を示す視線方向とを対応付ける対応情報を生成する（Ｓ１）。制御部は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向を制御する（Ｓ３）。【選択図】図４

Description

本開示は、収音装置、収音システム及び収音方法に関する。

特許文献１は、テレビ受像機あるいはテレビ会議装置などに適用される信号処理装置を開示している。この信号処理装置は、視聴者のモニタ装置上に向けた視線方向を検出する視線検出手段と、視線検出手段が検出した視線方向に位置する発音源を特定する音源特定手段とを備える。同文献は、このような装置によって、視聴者がどの音源に着目しているかを視聴者の視線方向から求める前提において、視聴者が着目している特定の音源からの信号を正しく聞き分けることができるようにしている。

特開平９−２７５５３３号公報

本開示は、受聴者にとって所望の音声の収音を行い易くすることができる収音装置、収音システム及び収音方法を提供する。

本開示における収音装置は、マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像するカメラを用いて、マイクアレイによる収音方向を制御する。収音装置は、マイクアレイから出力される音声データ、及びカメラによって生成される画像データを入力する入力部と、入力部から入力されたデータに基づいて、マイクアレイによる収音方向を制御する制御部とを備える。制御部は、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイに到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者の視線を示す視線方向とを対応付ける対応情報を生成する。制御部は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向を制御する。

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

本開示における収音装置、収音システム及び収音方法によると、受聴者にとって所望の音声の収音を行い易くすることができる。

本開示の実施形態１に係る遠隔会議システムの構成を説明するための図遠隔会議システムにおける情報端末の構成を例示するブロック図遠隔会議システムの動作の概要を説明するための図実施形態１に係る遠隔会議システムの動作を例示するフローチャート遠隔会議システムにおける場の情報取得処理を例示するフローチャート場の情報のデータ構造を例示する図場の情報を説明するための図場の整理情報のデータ構造を例示する図遠隔会議システムにおける視線に応じた収音処理を例示するフローチャート遠隔会議システムにおける視線に応じた収音処理を説明するための図実施形態２に係る遠隔会議システムの構成を説明するための図実施形態２に係る遠隔会議システムの動作を例示するフローチャート実施形態１に係る遠隔会議システムの動作の変形例を示すフローチャート

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。

（実施形態１）
以下、本開示の実施形態１について、図面を参照しながら説明する。本実施形態では、目的音の一例として人の声を収音する例について説明する。

１．構成
１−１．システム構成
本実施形態に係る収音システムの一例を、図１を用いて説明する。図１は、本開示の実施形態１に係る遠隔会議システム１０の構成を説明するための図である。

本実施形態に係る遠隔会議システム１０は、遠隔通信により複数のユーザ２，３が互いに異なる環境１２，１３にいながら発話と受聴を行う各種の会議すなわち遠隔会議に適用される収音システムの一例である。以下では、本システム１０のユーザ２，３が、１人以上の発話者２（２Ａ，２Ｂ）と、発話者２がいる環境１２とは異なる環境１３にいる受聴者３とを含む例を説明する。各環境１２，１３は、例えば会議室及び自宅など種々の環境であってもよく、人声などの騒音が想定される喫茶店或いは展示会場等であってもよい。

本システム１０は、例えば図１に示すように、発話側の環境１２におけるマイクアレイ２０、カメラ２１及び情報端末２２と、受聴側の環境１３におけるカメラ３１及び情報端末３２とを備える。例えば、発話側の環境１２において、遠隔会議に参加する各発話者２からの音波が受信可能な位置及び向きに配置される。受聴側の環境１３においては、受聴者３を撮像可能な位置及び向きにカメラ３１が配置される。

遠隔会議システム１０においては、例えば遠隔会議を準備する際に、各情報端末２２，３２と共にマイクアレイ２０及びカメラ２１，３１といった各種機器が、双方の環境１２，１３において適宜、配置される。この際、各種機器の位置及び向きといった機器間の位置関係が、本システム１０の情報端末２２，３２等にとって未知となる状況が想定される。こうした状況下においては、機器間の位置関係が既知であることを前提とした従来技術では、受聴者３が聴きたい音声を望むとおりに聴き易くするようなことは困難であった。

そこで、本実施形態では、機器間の位置関係が未知であったとしても、受聴者３が所望する音声を聴き易くすることができる遠隔会議システム１０を提供する。以下、本システム１０の構成を説明する。

本実施形態の遠隔会議システム１０において、マイクアレイ２０は、複数のマイクロホンを備える。マイクアレイ２０は、各マイクロホンにおいて音波を受信して、各マイクロホンからの音響信号を含む音声データを生成して出力する。マイクアレイ２０は、複数のマイクロホンの音響信号間の遅延量等を調整することにより収音の方向及び範囲といった指向性を制御する公知のビームフォーミング技術を適用可能である。マイクアレイ２０は、例えば発話側の情報端末２２に外付けとして接続される。マイクアレイ２０は、可変の収音指向性を有する各種の音波受信装置で構成されてもよい。

各カメラ２１，３１は、ＣＣＤイメージセンサ、ＣＭＯＳイメージセンサ、又はＮＭＯＳイメージセンサなどのイメージセンサを備える。各カメラ２１，３１は、イメージセンサにおいて撮像される撮像画像を示す映像信号である画像データを生成して、出力する。各カメラ２１，３１は例えば外付けであり、発話側のカメラ２１は情報端末２２に接続され、受聴側のカメラ３１は情報端末３２に接続される。

各情報端末２２，３２は、例えばＰＣ（パーソナルコンピュータ）、タブレット端末又はスマートフォンなど各種のコンピュータ端末である。発話側の情報端末２２と受聴側の情報端末３２とは、例えばインターネット等の通信ネットワーク１１を介して各種のデータ通信を行う。以下では、受聴側の情報端末３２が、本実施形態の収音装置を構成する一例を説明する。

本システム１０における情報端末３２の構成について、図２を参照して説明する。図２は、情報端末３２の構成を例示するブロック図である。なお、発話側の情報端末２２は、例えば受聴側の情報端末３２の構成と同様に構成されてもよい。

情報端末３２は、例えば図２に示すように、制御部４０と、記憶部４１と、機器インタフェース４２と、ネットワークインタフェース４３と、操作部４４と、表示部４５と、音声入力部４６と、音声出力部４７とを備える。以下、インタフェースを「Ｉ／Ｆ」と略記する。

制御部４０は、例えばソフトウェアと協働して所定の機能を実現するＣＰＵ又はＭＰＵを含み、情報端末３２の全体動作を制御する。制御部４０は、記憶部４１に格納されたデータ及びプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。上記のプログラムは、情報端末３２の各種機能を実現するための命令群を含む。上記のプログラムは、通信ネットワーク１１等から提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。

例えば、本実施形態の制御部４０は、マイクアレイ２０のビームフォーミング即ち収音方向の制御といった音声強調処理を行う機能を有する。この機能は、マイクアレイ２０を直接的に制御することによって実現されてもよいし、マイクアレイ２０から出力される音声データに対する後処理として実現されてもよい。

なお、制御部４０は、所定の機能を実現するように設計された専用の電子回路又は再構成可能な電子回路などのハードウェア回路であってもよい。制御部４０は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＧＰＧＰＵ、ＴＰＵ、マイコン、ＤＳＰ、ＦＰＧＡ及びＡＳＩＣ等の種々の半導体集積回路で構成されてもよい。

記憶部４１は、情報端末３２の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部４１は、図２に示すように、格納部４１ａ及び一時記憶部４１ｂを含む。

格納部４１ａは、所定の機能を実現するためのパラメータ、データ及び制御プログラム等を格納する。格納部４１ａは、例えばＨＤＤ又はＳＳＤで構成される。一時記憶部４１ｂは、例えばＤＲＡＭ又はＳＲＡＭ等のＲＡＭで構成され、データを一時的に記憶（即ち保持）する。また、一時記憶部４１ｂは、制御部４０の作業エリアとして機能してもよく、制御部４０の内部メモリにおける記憶領域で構成されてもよい。

機器Ｉ／Ｆ４２は、カメラ３１等の外部機器を情報端末３２に接続するための回路である。機器Ｉ／Ｆ４２は、ＵＳＢ、ＨＤＭＩ（登録商標）、ＩＥＥＥ１３９５、ＷｉＦｉ、Ｂｌｕｅｔｏｏｔｈ等の所定の通信規格にしたがい通信を行う。機器Ｉ／Ｆ４２は、情報端末３２において外部機器に対し、諸情報を受信する入力部あるいは送信する出力部を構成してもよい。

ネットワークＩ／Ｆ４３は、無線または有線の回線を介して情報端末３２を通信ネットワーク１１に接続するための回路である。例えばネットワークＩ／Ｆ４３により、受聴側の情報端末３２が、通信ネットワーク１１を介して発話側の情報端末２２に接続され、マイクアレイ２０及びカメラ２１からのデータを受信できる。ネットワークＩ／Ｆ４３は、ＩＥＥＥ８０２．３，ＩＥＥＥ８０２．１１ａ／１１ｂ／１１ｇ／１１ａｃ等の所定の通信規格に準拠した通信を行う。ネットワークＩ／Ｆ４３は、情報端末３２において通信ネットワーク１１を介して、諸情報を受信する入力部あるいは送信する出力部を構成してもよい。

操作部４４は、ユーザが操作を行うユーザインタフェースである。操作部４４は、例えばマウス、タッチパッド、キーボード、ボタン及びスイッチ等であってもよい。操作部４４は、表示部４５と共にタッチパネルを構成してもよい。操作部４４は、ユーザ操作の情報を入力する入力部の一例である。

表示部４５は、例えば、液晶ディスプレイ又は有機ＥＬディスプレイで構成される。表示部４５は、例えば発話側のカメラ２１からの画像データが示す撮像画像を表示する。表示部４５は、受聴側のカメラ３１からの画像データが示す撮像画像を表示してもよい。表示部４５は、ヘッドマウントディスプレイ或いは各種のプロジェクタ装置などであってもよい。

音声入力部４６は、音波を受信する入力部の一例である。音声入力部４６は、音声データを生成するマイク等で構成される。

音声出力部４７は、音声データを音波に変換するスピーカ装置である。音声出力部４７は、音声出力を行って各種の情報を提示する出力部の一例である。

以上のような情報端末３２の構成は一例であり、情報端末３２の構成はこれに限らない。例えば、情報端末３２は、表示部４５、操作部４４、音声入力部４６及び音声出力部４７のうちの一つ又は複数を備えなくてもよい。例えば、表示部４５等は、情報端末３２とは外付けの機器であってもよいし、適宜省略されてもよい。また、情報端末３２における入力部は、制御部４０等における各種ソフトウェアとの協働によって実現されてもよい。情報端末３２における入力部は、各種記憶媒体（例えば格納部４１ａ）に格納された諸情報を制御部４０の作業エリア（例えば一時記憶部４１ｂ）に読み出すことによって、諸情報の取得を行うものであってもよい。

２．動作
以上のように構成される遠隔会議システム１０の動作について、以下説明する。

２−１．動作の概要
本実施形態に係る遠隔会議システム１０の動作の概要を、図３を用いて説明する。

図３では、本システム１０を用いた遠隔会議の実施中における発話側の環境１２及び受聴側の環境１３の様子を例示している。本例の発話側の環境１２には、遠隔会議に参加する複数の発話者２Ａ，２Ｂと、参加していない人物等の騒音源２Ｘとが存在している。各発話者２Ａ，２Ｂは、それぞれ目的音としての発話を行う音源の一例である（「発話者２」は、発話者２Ａ，２Ｂの総称とする）。

図３に例示する受聴側の環境１３において、受聴者３は、表示部４５の画面上で、発話を聴きたい発話者２Ａを視るように視線３０を向けている。こうした場合、本システム１０は、発話側の環境１２において対応する発話者２Ａにマイクアレイ２０の収音方向２０ａを向けるビームフォーミングの音声強調により、受聴者３の所望の音声を明瞭化する収音処理を行う。

この際、受聴者３の視線３０が向けられた方向すなわち視線方向は、カメラ３１による撮像画像から容易に検知できる。一方、視線３０の先にある表示部４５上の位置を検知することで受聴者３が視ている発話者２を特定するようなことは、例えば受聴側のカメラ３１と表示部４５との位置関係が未知の状況では困難である。又、受聴者３の視線方向（例えば角度Ｗ３）と、マイクアレイ２０から発話者２のような音源に向かう方向すなわち音源方向（例えば角度Ｗ２）とは一致せず、各種機器の位置関係に依存して方向ずれを生じる。

そこで、本システム１０は、各環境１２，１３における画像及び音声といったマルチモーダルの情報に基づいて、受聴者３の視線方向と、発話側の環境１２における音源方向との対応付けを行う。本システム１０は、こうした対応付けによって得られた情報を参照することにより、リアルタイムに検知される受聴者３の視線方向に追従したマイクアレイ２０の収音制御を実現する。以下、本システム１０の動作の詳細を説明する。

２−２．全体動作
本実施形態に係る遠隔会議システム１０の全体的な動作について、図４を用いて説明する。

図４は、本システム１０の動作を例示するフローチャートである。図４のフローチャートに示す処理は、例えば遠隔会議の初期に、本システム１０を立ち上げた際に開始される。本フローチャートに示す各処理は、例えば、収音装置として機能する受聴側の情報端末３２の制御部４０によって実行される。

以下では、本システム１０において受聴者３の視線３０に応じた収音制御に加えて別途、受聴者３が、明示的に発話者２などの収音対象を指定することも可能とする動作の一例を説明する。又、例えば発話側の環境１２においてカメラ２１による撮像画像上の画像位置と、マイクアレイ２０の収音方向ｄ２０（又は音源方向）との対応関係を示す情報が、予め記憶部４１に格納されていることとする。

まず、制御部４０は、各環境１２，１３におけるマルチモーダルの情報に基づいて、場の情報取得処理を行う（Ｓ１）。場の情報取得処理（Ｓ１）は、遠隔会議が実施される場の情報として、発話側の音源方向と、受聴者３の視線方向とを対応付けた情報を取得する処理である。ステップＳ１の処理の詳細については後述する。

以下では、音源方向と視線方向とが１次元の角度方向で規定される例を説明する。例えば、音源方向は、発話側の環境１２における水平面上でマイクアレイ２０の前方を基準とした角度Ｗ２で規定される。又、視線方向は、受聴側のカメラ３１の光軸を基準とした角度Ｗ３で規定される。なお、制御部４０は、ステップＳ１の処理中に、発話側の環境１２における画像位置と音源方向との対応関係を示す情報を生成してもよい。

また、本システム１０は、例えば受聴者３が表示部４５に表示された画像上の発話者２を収音対象として指定する操作を受け付ける。制御部４０は、例えば操作部４４において、こうした収音対象の指定操作が入力された否かを判断する（Ｓ２）。収音対象の指定操作は、例えばマウスカーソル或いは各種のポインタにより、表示部４５上の画像位置を指定するように行われる。

特に受聴者３により収音対象の指定操作が入力されていない場合（Ｓ２でＮＯ）、制御部４０は、受聴者３の視線３０に応じた収音処理を実行する（Ｓ３）。ステップＳ３の処理は、受聴者３の視線３０をリアルタイムに検知して、検知した視線３０に応じてマイクアレイ２０の収音方向ｄ２０を制御する。

例えば、図３の例におけるステップＳ３では、受聴者３の視線方向が、特定の発話者２Ａを視る特定の角度Ｗ３であることが検知される。この際、ステップＳ１の処理結果を参照して、マイクアレイ２０の収音方向ｄ２０が、発話者２Ａの音源方向の角度Ｗ２に制御される。ステップＳ３の処理の詳細については後述する。

一方、受聴者３により収音対象の指定操作が入力された場合（Ｓ２でＹＥＳ）、制御部４０は、ステップＳ３の処理に代えて、入力された指定操作に応じた収音処理を行う（Ｓ４）。ステップＳ４の処理では、例えば発話側の環境１２におけるカメラ２１の画像位置とマイクアレイ２０の収音方向ｄ２０との対応関係が用いられる。

例えば、表示部４５に表示された画像上で発話者２Ａが指定されると（Ｓ２でＹＥＳ）、制御部４０は、指定された発話者２Ａの画像位置と上記の対応関係に基づいて、マイクアレイ２０の収音方向ｄ２０を制御する（Ｓ４）。こうした収音処理（Ｓ４）も、受聴側の環境１３におけるカメラ３１と表示部４５との位置関係は、特に用いずに実行可能である。

制御部４０は、例えば操作部４４において、本システム１０を用いた遠隔会議を終了する操作が入力されたか否かを判断する（Ｓ５）。終了操作は、例えば受聴側の情報端末３２と発話側の情報端末２２間のデータ通信の終了を指示する操作である。

制御部４０は、特に終了操作が入力されていないとき（Ｓ５でＮＯ）、例えば予め設定された制御周期でステップＳ２以降の処理を繰り返す。これにより、例えば遠隔会議の実施中に、ステップＳ３又はステップＳ４の収音処理が随時、実行される。

制御部４０は、終了操作が入力されると（Ｓ５でＹＥＳ）、本フローチャートに示す処理を終了する。

以上の処理によると、本システム１０は、例えば遠隔会議の初期の場の情報取得処理（Ｓ１）の結果に基づき、遠隔会議の実施中に随時、受聴者３の視線３０に応じて収音処理（Ｓ３）を行える。また、遠隔会議中の受聴者３は、収音対象の指定操作を入力して（Ｓ２でＹＥＳ）、明示的に収音方向を指定可能である（Ｓ４）。

２−２−１．場の情報取得処理
図４のステップＳ１の処理の詳細を、図５〜図８を用いて説明する。図５は、本システム１０における場の情報取得処理（Ｓ１）を例示するフローチャートである。

まず、制御部４０は、例えば各種Ｉ／Ｆ４２，４３を介して、発話側のカメラ２１からの画像データと、マイクアレイ２０からの音声データと、受聴側のカメラ３１からの画像データとを入力する（Ｓ１１）。ステップＳ１１の処理は、例えば発話側と受聴側間のデータ通信を用いて行われる。

例えば、発話側のカメラ２１は、発話者２Ａ，２Ｂを含む環境１２の撮像画像を示す画像データを順次、生成して発話側の情報端末２２に出力する。マイクアレイ２０は、発話側の環境１２における音波の受信結果を示す音声データを生成して、発話側の情報端末２２に出力する。発話側の情報端末２２は、例えば、カメラ２１からの画像データとマイクアレイ２０からの音声データとを同期して、通信ネットワーク１１を介して受聴側の情報端末３２に送信する。

また、受聴側のカメラ３１は、受聴者３を含む環境１３の撮像画像を示す画像データを順次、生成して受聴側の情報端末３２に出力する。制御部４０は、ステップＳ１１において発話側の情報端末２２からネットワークＩ／Ｆ４３を介して受信される画像データ及び音声データと、受聴側のカメラ３１から機器Ｉ／Ｆ４２を介して入力される画像データとを同期して時間的な区間を管理する。

次に、制御部４０は、例えば発話側の画像データに基づいて、取得した各種データによる時間区間が、発話者２Ａ，２Ｂのうちの１人が発話している区間であるか否かを判断する（Ｓ１２）。例えば、制御部４０は、画像上で人物の口の開閉に関する特徴量を抽出する画像認識を行って、発話中と認識される人物の人数（或いは口の個数）を計数する。制御部４０は、発話中と認識された人数が複数人又は０人である場合、ステップＳ１２でＮＯに進む。

制御部４０は、１人の発話者２が発話中の区間でないと判断すると（Ｓ１２でＮＯ）、ステップＳ１１に戻る。その後、新たにステップＳ１１で入力される各種データに関して、ステップＳ１２の判断が行われる。

制御部４０は、１人の発話者２が発話中の区間であると判断すると（Ｓ１２でＹＥＳ）、当該区間における音声データに基づいて、発話中の発話者２についての音源方向を検知する（Ｓ１３）。具体的に、制御部４０は、マイクアレイ２０に含まれる複数のマイクロホンの音響信号の間における音声の時間差に基づいて、上記の区間中で音波がマイクアレイ２０に到来した方向を音源方向として推定する演算処理を行う。こうした推定処理が成功すると、例えば検知結果として音源方向の角度Ｗ２が算出される。

さらに、制御部４０は、音源方向の検知（Ｓ１３）と同じ区間における受聴側の画像データに基づいて、受聴者３の視線方向を検知する（Ｓ１４）。例えば、制御部４０は、受聴者３の撮像画像上で、瞳の位置と、目縁などの基準位置とを抽出して、抽出された位置同士の関係に基づいて視線方向の角度Ｗ３を算出するといった推定処理を行う。この際、例えば受聴者３の瞳がカメラ３１から撮像されないような方向に視線３０が向いている場合、検知結果として視線方向の角度Ｗ３が得られず、上記の推定処理は失敗することとなる。なお、ステップＳ１３，Ｓ１４の処理の順番は特に限定されず、並列に実行されてもよい。

制御部４０は、ステップＳ１３，Ｓ１４の検知結果として、視線方向と音源方向との双方が得られたか否かを判断する（Ｓ１５）。制御部４０は、ステップＳ１３，Ｓ１４の推定処理の少なくとも一方が失敗し、検知結果として視線方向と音源方向とのうちの少なくとも一方が得られなかった場合（Ｓ１５でＮＯ）、ステップＳ１１に戻る。

検知結果としての視線方向及び音源方向が得られた場合（Ｓ１５でＹＥＳ）、制御部４０は、視線方向と音源方向の対応関係を示す場の情報Ｄ１に、検知結果を記録する（Ｓ１６）。ステップＳ１６における場の情報Ｄ１の一例を図６に例示する。

図６の例において、場の情報Ｄ１は、検知レコードＤ１０毎に「視線方向」と「音源方向」とを対応付けて記録する。各検知レコードＤ１０は、例えば視線方向の角度Ｗ３と音源方向の角度Ｗ２との双方が検知された１回の検知結果を示す。制御部４０は、ステップＳ１６を行う毎に検知レコードＤ１０を追加するように場の情報Ｄ１を記録する。

また、制御部４０は、例えば場の情報Ｄ１に記録された検知レコードＤ１０が所定数に到ったか否かを判断する（Ｓ１７）。所定数は、例えば後述するステップＳ１８の処理において統計的なデータ分析を行うために充分に大きい数に設定される。例えば、１人の発話者２あたりに１００レコード程度を想定して、所定数は、５００以上等に設定される。

制御部４０は、場の情報Ｄ１の検知レコードＤ１０が所定数に到っていない場合（Ｓ１７でＮＯ）、ステップＳ１１以降の処理を繰り返し実行する。これにより、場の情報Ｄ１において、視線方向と音源方向とを同時に検知した検知結果が蓄積される。

場の情報Ｄ１の検知レコードＤ１０が所定数に到った場合（Ｓ１７でＹＥＳ）、制御部４０は、場の情報Ｄ１を整理するように統計処理を行う（Ｓ１８）。ステップＳ１８の処理について、図７を用いて説明する。

図７は、場の情報Ｄ１の整理方法（Ｓ１８）を説明するための図である。図７のグラフでは、場の情報Ｄ１（図６）における検知レコードＤ１０の分布を例示している。このグラフにおいて、横軸は視線方向の角度Ｗ３であり、縦軸は音源方向の角度Ｗ２である。

ステップＳ１８において、制御部４０は、例えばＫ−ｍｅａｎｓ法などのクラスタ分析を適用して、場の情報Ｄ１における検知レコードＤ１０を複数のクラスタに整理する。各クラスタには、互いに近接する検知レコードＤ１０が含まれる。クラスタの個数は、例えば想定される発話者数以上などに予め設定されてもよいし、適宜可変であってもよい。ステップＳ１８の処理は、検知レコードＤ１０の外れ値等を除外するフィルタリング等を適宜、含んでもよい。

図７の例では、ステップＳ１８の処理により、場の情報Ｄ１が３つのクラスタＣ１，Ｃ２，Ｃ３に整理されている。クラスタＣ１は、発話者２Ａの発話中に、受聴者３が表示部４５上の発話者２Ａを視たときの検知レコードＤ１０を含む。クラスタＣ２は、別の発話者２Ｂの発話中に、受聴者３が発話者２Ｂを視たときの検知レコードＤ１０を含む。クラスタＣ３は、発話者２Ｂの発話中に、受聴者３が発話者２Ｂを視ずに余所見したときの検知レコードＤ１０ｘを含む。

図７の例において、別々の発話者２Ａ，２Ｂを視たときのクラスタＣ１，Ｃ２の間では、音源方向及び視線方向がそれぞれ異なっている。一方、余所見時のクラスタＣ３は、発話者２Ｂを視たときのクラスタＣ２と同様の音源方向と、クラスタＣ２とは異なった視線方向とを有する。また、クラスタＣ３における検知レコードＤ１０ｘの個数は、受聴者３の余所見に起因して、クラスタＣ２における検知レコードＤ１０の個数よりも少なくなっている。

ステップＳ１８の処理によると、例えば発話者２Ｂの発話中に受聴者３が余所見をしたときがあったとしても、余所見時の検知レコードＤ１０ｘを除いて発話者２Ｂを視たときのクラスタＣ２が得られ、発話者２Ｂを視る視線方向と音源方向との対応付けが行える。また、上記のようなクラスタＣ２，Ｃ３の何れが発話者２Ｂを視たときに対応するのかについて、制御部４０は、例えば各クラスタＣ２，Ｃ３に含まれる検知レコードＤ１０，Ｄ１０ｘの個数に基づき判断できる。

次に、制御部４０は、例えばステップＳ１８で場の情報Ｄ１を整理した結果を示す場の整理情報Ｄ２を生成して、記憶部４１に格納する（Ｓ１９）。場の情報Ｄ１と場の整理情報Ｄ２とは、それぞれ本実施形態における対応情報の一例である。場の整理情報Ｄ２の一例を図８に示す。

図８に例示する場の整理情報Ｄ２は、図７の例における場の情報Ｄ１の分析結果を例示する。場の整理情報Ｄ２は、例えば、「クラスタ」毎に「視線方向」と「音源方向」とを対応付けて管理する。

図８の例において、制御部４０は、例えば発話者２Ａを視たときのクラスタＣ１に関して、視線方向の範囲（Ｗ３１，Ｗ３２）と、音源方向の平均値Ｗ２１とを場の整理情報Ｄ２に記録する（Ｓ１９）。別の発話者２Ｂを視たときのクラスタＣ２に関しても同様の情報が記録される。図７の例のように音源方向が同じクラスタＣ２，Ｃ３がある場合、制御部４０は、例えば各クラスタＣ２，Ｃ３に含まれる検知レコードＤ１０，Ｄ１０ｘの個数を比較し、個数が多いクラスタＣ２を、場の整理情報Ｄ２に記録する対象として選択する。或いは、表示部４５がある視線方向の角度Ｗ３以外に受聴者３の視線３０が向いている場合は、選択対象から外すとしてもよい。

制御部４０は、例えば場の情報Ｄ１及び場の整理情報Ｄ２をそれぞれ記憶部４１に格納して（Ｓ１９）、場の情報取得処理（Ｓ１）を終了する。その後、制御部４０は、例えば図４のステップＳ２に進む。

以上のような場の情報取得処理（Ｓ１）によると、例えば遠隔会議における発話側の環境１２の音源方向と、受聴側の環境１３の視線方向とを対応付けた情報を、カメラ３１等の配置を示す情報を用いずに取得できる。

以上の説明では、ステップＳ１２の判断に、発話側の画像データを用いる例を説明した。これに加えて、又は代えて、ステップＳ１２の判断は、発話側の音声データを用いてもよい。例えば、制御部４０は、マイクアレイ２０からの音声データに周波数解析などの各種の音声解析を行って、１人の発話者２が発話中の区間を検知してもよい。ステップＳ１２の判断に発話側の画像データを用いない場合、ステップＳ１１において当該画像データの入力が省略されてもよい。また、ステップＳ１２の判断も適宜、省略されてもよい。

また、ステップＳ１２においては、１人の発話者２が受聴者３と双方向の会話を行っているか否かが検知されてもよい。例えば、制御部４０は、受聴側の情報端末３２の音声入力部４６からの音声データを更に用いて、双方向の会話中であるか否かを検知できる。これにより、受聴者３が発話者２を視ているときのステップＳ１３，Ｓ１４の検知結果を得易くすることができる。

ステップＳ１６においては、音源方向と視線方向の検知結果（Ｓ１３，Ｓ１４）に関連付けて、このときの発話側の画像データに関する情報が記憶されてもよい。例えば、制御部４０は、こうした画像データの画像認識により、各クラスタＣ１，Ｃ２に対応する発話者２Ａ，２Ｂを識別し、場の整理情報Ｄ２と共に識別結果を記憶部４１に格納してもよい。こうした識別結果の情報を用いて、図４のステップＳ２における収音対象の指定操作が行われてもよい。

２−２−２．視線に応じた収音処理
図４のステップＳ３の処理の詳細を、図９〜図１０を用いて説明する。図９は、本システム１０における視線３０に応じた収音処理（Ｓ３）を例示するフローチャートである。

図９は、本システム１０における視線に応じた収音処理（Ｓ３）を例示するフローチャートである。図９のフローチャートに示す処理は、場の整理情報Ｄ２が記憶部４１に格納された状態で、例えば遠隔会議の実施中に行われる。

まず、制御部４０は、受聴側のカメラ３１からの画像データと、発話側のカメラ２１からの画像データとを入力する（Ｓ３１）。ステップＳ３１の処理は、例えば図５のステップＳ１１と同様に各種Ｉ／Ｆ４２，４３を介して行われる。

制御部４０は、取得した受聴側の画像データに基づいて、受聴者３の視線方向を検知する（Ｓ３２）。ステップＳ３２の処理は、例えばステップＳ１４と同様の推定処理により行われる。この際、受聴者３が表示部４５上の発話者２を視ている場合は、視線方向が検知されると考えられる。一方、受聴者３が余所見をしている場合は、上記の推定処理が失敗して視線方向が検知されなかったり、視線方向が検知されても場の情報Ｄ１等の音源方向と対応していなかったりすることが考えられる。

制御部４０は、例えばステップＳ３２の検知結果に基づいて、現在の視線方向が検知されたか否かを判断する（Ｓ３３）。ステップＳ３３の判断は、例えばステップＳ１５と同様に、視線方向の検知結果として角度Ｗ３が算出されたか否かに応じて行われる。

現在の視線方向が検知された場合（Ｓ３３でＹＥＳ）、制御部４０は、例えば場の整理情報Ｄ２を参照して、検知された視線方向に対応する音源方向があるか否かを判断する（Ｓ３４）。例えば、制御部４０は、図８の場の整理情報Ｄ２における視線方向と現在の視線方向とを比較し、現在の視線方向がクラスタＣ１，Ｃ２毎の範囲のいずれかに含まれる場合にステップＳ３４でＹＥＳに進む。

現在の視線方向に対応する音源方向がある場合（Ｓ３４でＹＥＳ）、制御部４０は、例えば場の整理情報Ｄ２から、対応する音源方向を取得する（Ｓ３５）。ステップＳ３２〜Ｓ３５の処理の一例について図１０を用いて説明する。

図１０では、図８の場の整理情報Ｄ２を用いた処理の一例を示す。本例において、制御部４０は、ステップＳ３２において現在の視線方向として、図１０に示すように角度Ｗ３５を検知し、ステップＳ３３でＹＥＳに進む。又、現在の視線方向の角度Ｗ３５が、クラスタＣ２の視線方向の範囲（Ｗ３３，Ｗ３４）内にあることから、制御部４０はステップＳ３４でＹＥＳに進み、クラスタＣ２の音源方向の平均値Ｗ２１を取得する（Ｓ３５）。

図９に戻り、制御部４０は、例えば発話側の画像データと、取得した音源方向とに基づき、発話側の環境１２の撮像画像上で、取得した音源方向に位置する発話者２を認識する（Ｓ３６）。図１０の例では、ステップＳ３６において発話者２Ｂが認識される。なお、ステップＳ３６の処理では、個人の識別は行わなくてもよい。

制御部４０は、例えば画像認識（Ｓ３６）に基づき、音源方向の発話者２（図１０の例では、発話者２Ｂ）が、発話中であるか否かを判断する（Ｓ３７）。例えば、制御部４０は、撮像画像上で音源方向に対応する位置近傍の画像領域において、図５のステップＳ１２と同様に、人物の口の開閉の有無等を認識する。例えば、制御部４０は、口の開閉がない状態が数秒などの所定期間、継続した場合にステップＳ３７で「ＮＯ」に進む。

音源方向の発話者２が発話中であると判断すると（Ｓ３７でＹＥＳ）、制御部４０は、取得した音源方向に、マイクアレイ２０の収音方向ｄ２０を制御するビームフォーミングの音声強調処理を行う（Ｓ３８）。制御部４０は、音声強調処理を行った音声データを音声出力部４７に出力する。ステップＳ３７，Ｓ３８によると、例えば図１０の例において発話者２Ｂが発話中であれば（Ｓ３７でＹＥＳ）、発話者２Ｂの音源方向に向けて収音方向ｄ２０が制御される。

制御部４０は、制御後の収音方向ｄ２０の音声データを音声出力部４７に出力して（Ｓ３９）、図９の視線３０に応じた収音処理（Ｓ３）を終了する。その後、制御部４０は、例えば図４のステップＳ５，Ｓ２でＮＯに進むと、周期的にステップＳ３１以降の処理を繰り返す。

この際、例えば新たに取得される受聴側の画像データにおいて、現在の視線方向が検知されなかった場合（Ｓ３３でＮＯ）、受聴者３は、例えば直前まで視ていた発話者２Ｂの発話についてメモを取る等のために余所見をしていることが考えられる。そこで、この場合において、制御部４０は、前回の制御周期において取得した音源方向を、今回の音源方向として取得して（Ｓ４０）、ステップＳ３６以降の処理を行う。これにより、受聴者３が発話者２Ｂの発話を聴きたい一方で余所見した場合であっても、収音方向ｄ２０を当該発話者２Ｂに向けて維持することができる。

また、例えば検知された視線方向が、場の整理情報Ｄ２において対応する音源方向がないと判断される場合（Ｓ３４でＮＯ）も、上記と同様に受聴者３が余所見をしたことが考えられる。そこで、この場合においても、制御部４０は前回の音源方向を取得して（Ｓ４０）、ステップＳ３６の処理に進む。ステップＳ３３，Ｓ３４は、それぞれ受聴者３が余所見したかどうかを判断する処理の一例である。

また、制御部４０は、取得した音源方向における発話者２Ｂが、発話中ではないと判断すると（Ｓ３７でＮＯ）、例えば、場の整理情報Ｄ２において、過去に収音方向ｄ２０が向けられた全ての発話者２Ａ〜２Ｂからの音声を強調するための収音制御を行う（Ｓ４１）。

例えば、制御部４０は、場の整理情報Ｄ２において、図４のステップＳ２〜Ｓ５を繰り返す中で収音方向ｄ２０が向けられた各音源方向からの音声を強調するように、マイクアレイ２０からの音声データをミキシングして、音声出力部４７に出力する（Ｓ３９）。これにより、受聴者３が注目する発話者２Ｂの発話が終わったときには（Ｓ３７でＮＯ）、例えば図３の騒音源２Ｘからの騒音は抑制しながら全発話者２Ａ〜２Ｂからの音声を強調して（Ｓ４１）、受聴者３に聴かせることができる。

制御部４０は、ステップＳ４１の収音制御後も、ステップＳ３８の収音制御後と同様に制御後の収音方向ｄ２０の音声データを音声出力部４７に出力して（Ｓ３９）、図４のステップＳ３の処理を終了する。

以上のような視線３０に応じた収音処理（Ｓ３）によると、例えば場の整理情報Ｄ２のように視線方向と音源方向とを対応付けた情報を用いて、受聴者３が発話を聴きたい発話者２に視線３０を向けたときに、対応する音源方向に収音制御を行える（Ｓ３８）。

この際、場の整理情報Ｄ２（図１０）によると、受聴者３が発話者２Ｂを視る視線方向の検知結果にばらつきがあったとしても、視線方向の範囲（Ｗ３３，Ｗ３４）内でばらつきを吸収して、所望の発話者２Ｂの音源方向（角度Ｗ２１）に収音方向ｄ２０を制御できる。

上記のステップＳ３７において、制御部４０は、画像認識に加えて又は代えて、マイクアレイ２０からの音声データにおける音声認識によって、発話の有無を判断してもよい。また、ステップＳ３６，Ｓ３７，Ｓ４１の処理は、省略されてもよく、例えば音源方向が取得された場合にはステップＳ３８に進むようにしてもよい。音源方向の発話者２の画像認識（Ｓ３７）を行わない場合、発話側のカメラ２１における撮像画像上の画像位置と、収音方向ｄ２０との対応関係は用いずに、視線３０に応じた収音処理を実行可能である。

３．まとめ
以上のように、本実施形態の遠隔会議システム１０において、受聴側の情報端末３２は、収音装置の一例である。収音装置としての情報端末３２は、マイクアレイ２０において一以上の音源の一例である発話者２から収音した音声を聴く受聴者３を撮像するカメラ３１（第１カメラ）を用いて、マイクアレイ２０による収音方向ｄ２０を制御する。情報端末３２は、入力部の一例である各種Ｉ／Ｆ４２，４３と、制御部４０とを備える。入力部は、マイクアレイ２０から出力される音声データ、及びカメラ３１によって生成される画像データ（第１画像データ）を入力する。制御部４０は、音声データ及び画像データに基づいて、場の情報Ｄ１あるいは場の整理情報Ｄ２といった対応情報を生成する（Ｓ１）。対応情報は、音声データが示す音声が音源からマイクアレイ２０に到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者３の視線３０を示す視線方向とを対応付ける。制御部４０は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向ｄ２０を制御する（Ｓ３）。

以上の収音装置によると、カメラ３１及びマイクアレイ２０といった機器の配置が未知の状況下であっても、視線方向と音源方向との対応情報に基づき、受聴者３の視線方向に応じてマイクアレイ２０の収音方向ｄ２０を制御できる。これにより、受聴者３にとって所望の音声の収音を行い易くすることができる。

本実施形態の収音装置において、制御部４０は、マイクアレイ２０から出力される音声データにおける一の音源からの音声を示す音声データに基づいて、音源方向を検知し（Ｓ１３）、音源方向が検知されたときの画像データに基づいて、視線方向を検知する（Ｓ１４）。制御部４０は、音源方向と視線方向との検知結果を整理して、対応情報を生成する（Ｓ１８）。

以上の収音装置によると、視線方向などの検知結果のばらつき或いは受聴者３の余所見などの影響を低減するように整理された対応情報が得られ、視線方向に応じた収音制御を精度良くすることができる。このように整理された対応情報は、例えば、音源方向と視線方向の検知を複数回、実行し（Ｓ１１〜Ｓ１７）、検知結果に対してクラスタ分析を行うことによって生成できる（図７参照）。

本実施形態の収音装置において、制御部４０は、対応情報における音源方向に対応付けられた視線方向が画像データで検知されたとき（Ｓ３４でＹＥＳ）、検知された視線方向に対応付けられた音源方向に向けるように収音方向ｄ２０を制御する（Ｓ３５，Ｓ３８）。制御部４０は、収音方向ｄ２０を音源方向に向けた状態で、対応情報における音源方向に対応付けられた視線方向が検知されなかったとき（Ｓ３３，Ｓ３４でＮＯ）、収音方向ｄ２０を音源方向に向けた状態を維持する（Ｓ４０，Ｓ３８）。収音方向ｄ２０の維持は、例えば前回の音源方向を再度取得することによって為される。

以上の収音装置によると、例えば受聴者３が音源を視ているとき、視線方向に対応する音源方向に向けて収音方向ｄ２０が制御される。さらに、受聴者４が余所見をしたときは、収音方向ｄ２０が直前の音源方向に向けたまま維持される。これにより、例えば受聴者３が、聴きたい発話中の発話者２からメモ等のために余所見をしたときであっても、収音方向ｄ２０が発話者２に向けたまま維持され、受聴者３にとって所望の音声を収音し易くすることができる。

本実施形態において、音源は、発話者２を含む。入力部は、発話者２を撮像するカメラ２１（第２カメラ）によって生成される画像データ（第２画像データ）をさらに入力する（Ｓ３１）。制御部４０は、発話側のカメラ２１による画像データに基づいて、当該画像データが示す撮像画像における発話者２の位置と発話の有無との少なくとも一方を認識する（Ｓ１２，Ｓ３６）。これにより、発話側の環境１２におけるカメラ２１とマイクアレイ２０によるマルチモーダルの情報を活用して、受聴者３が聴きたい発話者２の発話の収音を行い易くすることができる。

本実施形態において、制御部４０は、検知した視線方向に対応する音源方向において第２画像データで発話者２の発話が無いことを認識したとき（Ｓ３７でＮＯ）、音声データにおいて収音方向ｄ２０を過去に向けた各音源方向からの音声を強調する処理を行う（Ｓ４８）。これにより、受聴者３が視ている発話者２が発話していないときには、過去に視た各発話者２の発話を収音して、受聴者３に聴かせることができ、受聴者３の利便性を向上できる。

本実施形態の収音装置において、入力部は、受聴者３による操作を示す情報をさらに入力する（Ｓ２）。制御部４０は、入力された操作を示す情報に基づいて、収音方向ｄ２０を制御する（Ｓ４）。これにより、受聴者３は、視線３０に応じた収音処理Ｓ３だけでなく明示的に収音対象を指定でき、受聴者３にとって所望の音声を収音し易くできる。

本実施形態において、収音システムの一例の遠隔会議システム１０は、マイクアレイ２０と、カメラ３１と、マイクアレイ２０において一以上の音源から収音した音声を聴く受聴者３を撮像するカメラ３１を用いて、マイクアレイ２０による収音方向ｄ２０を制御する収音装置としての情報端末３２とを備える。本システム１０によると、収音装置により、受聴者３にとって所望の音声の収音を行い易くすることができる。

本実施形態において、マイクアレイ２０において一以上の音源から収音した音声を聴く受聴者３を撮像するカメラ３１を用いて、マイクアレイ２０による収音方向ｄ２０を制御する収音方法が提供される。本方法は、マイクアレイ２０から出力される音声データ、及びカメラ３１により生成される画像データを入力するステップ（Ｓ１のＳ１１）と、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイ２０に到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者３の視線を示す視線方向とを対応付ける対応情報を生成するステップ（Ｓ１のＳ１８）とを含む。本方法は、カメラ３１から画像データを入力して、入力した画像データにおいて視線方向を検知するステップ（Ｓ３のＳ３２）と、視線方向の検知結果と対応情報とに基づき収音方向ｄ２０を制御するステップ（Ｓ３のＳ３８）とを含む。本方法によると、受聴者３にとって所望の音声の収音を行い易くすることができる。

本実施形態において、上記のような収音方法をコンピュータに実行させるためのプログラムが提供される。こうしたプログラムは、例えば記憶部４１を含む各種の記憶媒体に格納して提供したり、通信ネットワーク１１を介して提供したりすることができる。

（実施形態２）
以下、図１１〜図１２を用いて実施形態２を説明する。実施形態２では、マイクアレイ２０等が移動し得る遠隔会議システムの一例を説明する。

以下、実施形態１に係る遠隔会議システム１０と同様の構成、動作の説明は適宜、省略して、本実施形態に係る遠隔会議システムを説明する。

図１１は、実施形態２に係る遠隔会議システム１０Ａの構成を説明するための図である。本実施形態の遠隔会議システム１０Ａでは、実施形態１と同様の構成において、発話側の環境１２におけるマイクアレイ２０及びカメラ２１が、移動体２３に搭載されている。例えば、移動体２３は、展示会場などで、各種会場の様子を受聴者３に視聴させるべく、発話者２と共に移動するように用いられる。

移動体２３は、例えば外部からのユーザ操作に応じて移動するロボット或いは各種車両である。移動体２３は、移動体２３を回転または並進駆動する各種アクチュエータ等の駆動部を備える。また、移動体２３は、例えば情報端末２２とデータ通信する通信部、ユーザ操作を受け付ける操作部、及び移動体２３の全体動作を制御する制御部を備える。移動体２３は、自律走行可能に構成されてもよい。移動体２３は、さらに発話側の情報端末２２を搭載してもよい。

図１２は、実施形態２に係る遠隔会議システム１０Ａの動作を例示するフローチャートである。本実施形態では、発話側の環境１２において、マイクアレイ２０及びカメラ２１が、移動体２３と共に移動する。そこで、本実施形態の遠隔会議システム１０Ａは、実施形態１と同様の動作に加えて、移動体２３の移動量に応じて、音源方向と視線方向との対応情報を補正する。

例えば、本実施形態における情報端末３２の制御部４０は、実施形態１と同様のステップＳ１〜Ｓ５に加えて（図４参照）、図１２に示すように、場の情報取得処理（Ｓ１）後に随時、移動体２３の移動があるか否かを検知する（Ｓ６）。制御部４０は、移動体２３の移動が検知されると（Ｓ６でＹＥＳ）、移動体２３の移動量に応じて場の整理情報Ｄ２を補正する（Ｓ７）。

ステップＳ６において、例えば情報端末２２は、移動体２３から回転及び並進といった移動量を示す情報を受信する。受聴側の情報端末３２は、例えば発話側の情報端末２２から、移動量の情報を受信する。情報端末３２の制御部４０は、受信された移動量の情報に基づき、移動体２３の移動を検知する（Ｓ６）。

ステップＳ７において、移動体２３の回転及び並進といった移動量を相殺する補正量が幾何演算により算出できる。制御部４０は、受信した移動量に対する補正量を反映するように、場の整理情報Ｄ２を補正する（Ｓ７）。ステップＳ７において、制御部４０は、場の情報Ｄ１を上記と同様に補正してもよい。制御部４０は、ステップＳ７で補正した場の整理情報Ｄ２等を用いてステップＳ２以降の処理を行う。

以上のように、本システム１０Ａでは、場の情報取得処理（Ｓ１）で得られた対応情報を、移動体２３の移動に応じて補正する（Ｓ６，Ｓ７）。これにより、マイクアレイ２０等が移動しても、受聴者３の視線３０に応じた収音処理（Ｓ３）等において収音方向ｄ２０を適切に音源に向けるといったことが可能となる。

以上のように、本実施形態の遠隔会議システム１０Ａにおいて、マイクアレイ２０は、移動体２３に搭載されている。制御部４０は、移動体２３による移動量に応じて、対応情報を補正する（Ｓ７）。これにより、マイクアレイ２０等が移動しても、受聴者３にとって所望の音声の収音を行い易くすることができる。

（他の実施形態）
以上のように、本出願において開示する技術の例示として、実施形態１〜２を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。

上記の実施形態１，２では、遠隔会議の初期などに対応情報を生成する例を説明した。対応情報は適宜、更新されてもよい。この変形例について、図１３を用いて説明する。

図１３は、遠隔会議システム１０の動作の変形例を示すフローチャートである。本変形例において、制御部４０は、例えば実施形態１と同様のステップＳ１〜Ｓ５に加えて、例えば発話側のカメラ２１の撮像画像に基づいて、発話側の環境１２における発話者２の配置に変化があるか否かを検知する（Ｓ８）。発話者２の配置の変化が検知されたとき（Ｓ８でＹＥＳ）、制御部４０は、例えば場の整理情報Ｄ２を更新し（Ｓ９）、更新した場の整理情報Ｄ２を用いてステップＳ２以降の処理を行う。発話者２の配置の変化が検知されなかったとき（Ｓ８でＮＯ）、制御部４０は、ステップＳ１で取得した場の整理情報Ｄ２を用いてステップＳ２以降の処理を行う。なお、図１３と同様の変形例は、実施形態２にも適用できる。

ステップＳ８において、制御部４０は、発話側のカメラ２１からの画像データにおいて、例えば人物の顔の位置を認識する画像認識を行って、認識された顔の個数および位置が変化したか否かを判断する。これにより、制御部４０は、発話側の環境１２において、発話者２の人数が増減したり、発話者２が移動したりする場合を検知して（Ｓ８でＹＥＳ）、ステップＳ９の更新を実行できる。

ステップＳ９において、制御部４０は、例えば場の情報取得処理（Ｓ１）と同様の処理を行い、処理結果として、記憶部４１に格納された場の整理情報Ｄ２を書き換える。ステップＳ９の処理は、ステップＳ１で得られた場の情報Ｄ１を利用して行われてもよい。例えばステップＳ８において発話者２の移動が検知された場合、制御部４０は、記憶部４１に格納された以前の場の情報Ｄ１から、移動が検知された発話者２の音源方向の検知レコードＤ１０を削除し、新たな検知レコードＤ１０を追加してもよい。

以上のように、本実施形態における収音装置は、対応情報を格納する記憶部４１をさらに備えてもよい。制御部４０は、発話側のカメラの画像データに基づく発話者２の認識結果の変化に応じて、記憶部４１に格納された対応情報を更新してもよい。これにより、例えば遠隔会議中に新たな発話者２が参加したり、発話者２が移動したりする場合であっても、対応情報を更新して用いることにより、受聴者３の視線３０に応じた収音処理（Ｓ３）を適切に行うことができる。

上記の各実施形態では、収音装置の一例として受聴側の情報端末３２を例示したが、本実施形態の収音装置はこれに限定されない。本実施形態の収音装置は、発話側の情報端末２２であってもよいし、受聴側と発話側の情報端末２２，３２との協働によって実現されてもよい。例えば、発話側の情報端末２２の制御部が、上記各実施形態の収音装置の制御部４０が実行した処理の一部または全てを、発話側の環境１２下で適宜、実行してもよい。また、本実施形態の収音装置には、各情報端末２２，３２に限らず、例えば通信ネットワーク１１を介して情報端末２２，３２等とデータ通信するサーバ装置が用いられてもよい。本実施形態の収音装置は、各種のコンピュータで構成できる。

また、上記の各実施形態では、収音システムの一例としてマイクアレイ２０及びカメラ３１を備える遠隔会議システム１０を説明した。本実施形態の収音システムは、マイクアレイ２０及びカメラ３１のうちの一方のみを備えてもよく、他方が外部構成であってもよい。例えば、本実施形態の収音システムは、発話側の環境１２で用いる情報端末２２及びマイクアレイ２０等で構成されてもよいし、受聴側の環境１３で用いる情報端末３２及びカメラ３１で構成されてもよい。また、例えばマイクアレイ２０及びカメラ２１，３１が通信ネットワーク１１に通信接続可能な機能を有する場合、本システム１０において収音装置以外の情報端末２２，３２が省略されてもよい。

また、上記の各実施形態では、収音システムにおいて受聴者３による収音対象の指定操作を受け付ける動作例を説明した（図４のＳ２参照）。本実施形態において、上記と同様の収音対象の指定操作が、発話者２により入力可能に収音システムが構成されてもよい。例えば、ステップＳ２の処理に加えて又はこれに代えて、発話側の情報端末２２の操作部において、発話者２が収音対象の位置などを指定する操作が受け付けられてもよい。これにより、発話者２が受聴者３に聴かせたい音声を収音し易くできる。

また、上記の各実施形態では、マイクアレイ２０及びカメラ２１，３１が、情報端末２２，３２とは外付けに構成される例を説明したが、外付けでなくてもよい。例えば、マイクアレイ２０及びカメラ２１の一方又は双方が、発話側の情報端末２２に内蔵されてもよい。また、受聴側のカメラ３１が、情報端末３２に内蔵されてもよい。この場合であっても、本実施形態の収音方法によると、例えばカメラ３１と表示部４５との位置関係を用いずに、本方法を実装するプログラム等を構成でき、受聴者３にとって所望の音声の収音を行い易くすることができる。

また、上記の各実施形態においては、人が発話する音声を目的音として収音したが、目的音は人が発話する音声に限らず、人が発する種々の音であってもよい。目的音は、車の音、動物の鳴き声、又は設備の動作音であってもよい。こうした目的音を聴きたい受聴者３に対して、本実施形態の収音システムによると、所望の目的音の収音を行い易くすることができる。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。

本開示は、マイクアレイにおいて音源から収音した音声を聴く受聴者を撮像するカメラを用いる各種の収音システムに適用可能であり、例えば遠隔会議システムに適用可能である。

１０，１０Ａ遠隔会議システム
２，２Ａ，２Ｂ発話者
２０マイクアレイ
２１，３１カメラ
２２，３２情報端末
３受聴者
４０制御部
４１記憶部
４２機器Ｉ／Ｆ
４３ネットワークＩ／Ｆ
４４操作部
４５表示部
４６音声入力部
４７音声出力部

Claims

マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像する第１カメラを用いて、前記マイクアレイによる収音方向を制御する収音装置であって、
前記マイクアレイから出力される音声データ、及び前記第１カメラによって生成される第１画像データを入力する入力部と、
前記入力部から入力されたデータに基づいて、前記マイクアレイによる収音方向を制御する制御部とを備え、
前記制御部は、
前記音声データ及び前記第１画像データに基づいて、前記音声データが示す音声が前記音源から前記マイクアレイに到来した方向を示す音源方向と、前記第１画像データが示す撮像画像における前記受聴者の視線を示す視線方向とを対応付ける対応情報を生成し、
前記入力部から入力される第１画像データにおいて前記視線方向を検知し、
前記視線方向の検知結果と前記対応情報とに基づき、前記収音方向を制御する
収音装置。
前記制御部は、
前記マイクアレイから出力される音声データにおける一の音源からの音声を示す音声データに基づいて、前記音源方向を検知し、
前記音源方向が検知されたときの第１画像データに基づいて、前記視線方向を検知し、
前記音源方向と前記視線方向との検知結果を整理して、前記対応情報を生成する
請求項１に記載の収音装置。
前記制御部は、
前記対応情報における音源方向に対応付けられた視線方向が前記第１画像データで検知されたとき、検知された視線方向に対応付けられた音源方向に向けるように前記収音方向を制御し、
前記収音方向を前記音源方向に向けた状態で、前記対応情報における音源方向に対応付けられた視線方向が検知されなかったとき、前記収音方向を前記音源方向に向けた状態を維持する
請求項２に記載の収音装置。
前記音源は、発話者を含み、
前記入力部は、前記発話者を撮像する第２カメラによって生成される第２画像データをさらに入力し、
前記制御部は、前記第２画像データに基づいて、当該第２画像データが示す撮像画像における前記発話者の位置と発話の有無との少なくとも一方を認識する
請求項１〜３のいずれか１項に記載の収音装置。
前記制御部は、検知した視線方向に対応する音源方向において前記第２画像データで発話者の発話が無いことを認識したとき、前記音声データにおいて前記収音方向を過去に向けた各音源方向からの音声を強調する処理を行う
請求項４に記載の収音装置。
前記対応情報を格納する記憶部をさらに備え、
前記制御部は、前記第２画像データに基づく前記発話者の認識結果の変化に応じて、前記記憶部に格納された対応情報を更新する
請求項４又は５に記載の収音装置。
前記マイクアレイは、移動体に搭載されており、
前記制御部は、前記移動体による移動量に応じて、前記対応情報を補正する
請求項１〜６のいずれか１項に記載の収音装置。
前記入力部は、前記受聴者による操作を示す情報をさらに入力し、
前記制御部は、前記操作を示す情報に基づいて、前記収音方向を制御する
請求項１〜７のいずれか１項に記載の収音装置。
前記マイクアレイ、及び前記第１カメラと、
前記マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像する前記第１カメラを用いて、前記マイクアレイによる収音方向を制御する、請求項１〜８のいずれか１項に記載の収音装置と
を備える収音システム。
マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像するカメラを用いて、前記マイクアレイによる収音方向を制御する収音方法であって、
前記マイクアレイから出力される音声データ、及び前記カメラによって生成される画像データを入力するステップと、
前記音声データ及び前記画像データに基づいて、前記音声データが示す音声が前記音源から前記マイクアレイに到来した方向を示す音源方向と、前記画像データが示す撮像画像における前記受聴者の視線を示す視線方向とを対応付ける対応情報を生成するステップと、
前記カメラから画像データを入力して、入力した画像データにおいて前記視線方向を検知するステップと、
前記視線方向の検知結果と前記対応情報とに基づき前記収音方向を制御するステップと
を含む収音方法。
請求項１０に記載の収音方法をコンピュータに実行させるためのプログラム。