JP2021197658A - 収音装置、収音システム及び収音方法 - Google Patents
収音装置、収音システム及び収音方法 Download PDFInfo
- Publication number
- JP2021197658A JP2021197658A JP2020103885A JP2020103885A JP2021197658A JP 2021197658 A JP2021197658 A JP 2021197658A JP 2020103885 A JP2020103885 A JP 2020103885A JP 2020103885 A JP2020103885 A JP 2020103885A JP 2021197658 A JP2021197658 A JP 2021197658A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- line
- control unit
- microphone array
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】受聴者にとって所望の音声の収音を行い易くする。【解決手段】収音装置(32)は、マイクアレイ(20)において音源から収音した音声を聴く受聴者(3)を撮像するカメラ(31)を用いて、マイクアレイによる収音方向を制御する。収音装置は、マイクアレイから出力される音声データ、及びカメラによって生成される画像データを入力する入力部と、入力部から入力されたデータに基づいて、マイクアレイによる収音方向を制御する制御部(40)とを備える。制御部は、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイに到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者の視線を示す視線方向とを対応付ける対応情報を生成する(S1)。制御部は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向を制御する(S3)。【選択図】図4
Description
本開示は、収音装置、収音システム及び収音方法に関する。
特許文献1は、テレビ受像機あるいはテレビ会議装置などに適用される信号処理装置を開示している。この信号処理装置は、視聴者のモニタ装置上に向けた視線方向を検出する視線検出手段と、視線検出手段が検出した視線方向に位置する発音源を特定する音源特定手段とを備える。同文献は、このような装置によって、視聴者がどの音源に着目しているかを視聴者の視線方向から求める前提において、視聴者が着目している特定の音源からの信号を正しく聞き分けることができるようにしている。
本開示は、受聴者にとって所望の音声の収音を行い易くすることができる収音装置、収音システム及び収音方法を提供する。
本開示における収音装置は、マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像するカメラを用いて、マイクアレイによる収音方向を制御する。収音装置は、マイクアレイから出力される音声データ、及びカメラによって生成される画像データを入力する入力部と、入力部から入力されたデータに基づいて、マイクアレイによる収音方向を制御する制御部とを備える。制御部は、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイに到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者の視線を示す視線方向とを対応付ける対応情報を生成する。制御部は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向を制御する。
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
本開示における収音装置、収音システム及び収音方法によると、受聴者にとって所望の音声の収音を行い易くすることができる。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、出願人は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。
(実施形態1)
以下、本開示の実施形態1について、図面を参照しながら説明する。本実施形態では、目的音の一例として人の声を収音する例について説明する。
以下、本開示の実施形態1について、図面を参照しながら説明する。本実施形態では、目的音の一例として人の声を収音する例について説明する。
1.構成
1−1.システム構成
本実施形態に係る収音システムの一例を、図1を用いて説明する。図1は、本開示の実施形態1に係る遠隔会議システム10の構成を説明するための図である。
1−1.システム構成
本実施形態に係る収音システムの一例を、図1を用いて説明する。図1は、本開示の実施形態1に係る遠隔会議システム10の構成を説明するための図である。
本実施形態に係る遠隔会議システム10は、遠隔通信により複数のユーザ2,3が互いに異なる環境12,13にいながら発話と受聴を行う各種の会議すなわち遠隔会議に適用される収音システムの一例である。以下では、本システム10のユーザ2,3が、1人以上の発話者2(2A,2B)と、発話者2がいる環境12とは異なる環境13にいる受聴者3とを含む例を説明する。各環境12,13は、例えば会議室及び自宅など種々の環境であってもよく、人声などの騒音が想定される喫茶店或いは展示会場等であってもよい。
本システム10は、例えば図1に示すように、発話側の環境12におけるマイクアレイ20、カメラ21及び情報端末22と、受聴側の環境13におけるカメラ31及び情報端末32とを備える。例えば、発話側の環境12において、遠隔会議に参加する各発話者2からの音波が受信可能な位置及び向きに配置される。受聴側の環境13においては、受聴者3を撮像可能な位置及び向きにカメラ31が配置される。
遠隔会議システム10においては、例えば遠隔会議を準備する際に、各情報端末22,32と共にマイクアレイ20及びカメラ21,31といった各種機器が、双方の環境12,13において適宜、配置される。この際、各種機器の位置及び向きといった機器間の位置関係が、本システム10の情報端末22,32等にとって未知となる状況が想定される。こうした状況下においては、機器間の位置関係が既知であることを前提とした従来技術では、受聴者3が聴きたい音声を望むとおりに聴き易くするようなことは困難であった。
そこで、本実施形態では、機器間の位置関係が未知であったとしても、受聴者3が所望する音声を聴き易くすることができる遠隔会議システム10を提供する。以下、本システム10の構成を説明する。
本実施形態の遠隔会議システム10において、マイクアレイ20は、複数のマイクロホンを備える。マイクアレイ20は、各マイクロホンにおいて音波を受信して、各マイクロホンからの音響信号を含む音声データを生成して出力する。マイクアレイ20は、複数のマイクロホンの音響信号間の遅延量等を調整することにより収音の方向及び範囲といった指向性を制御する公知のビームフォーミング技術を適用可能である。マイクアレイ20は、例えば発話側の情報端末22に外付けとして接続される。マイクアレイ20は、可変の収音指向性を有する各種の音波受信装置で構成されてもよい。
各カメラ21,31は、CCDイメージセンサ、CMOSイメージセンサ、又はNMOSイメージセンサなどのイメージセンサを備える。各カメラ21,31は、イメージセンサにおいて撮像される撮像画像を示す映像信号である画像データを生成して、出力する。各カメラ21,31は例えば外付けであり、発話側のカメラ21は情報端末22に接続され、受聴側のカメラ31は情報端末32に接続される。
各情報端末22,32は、例えばPC(パーソナルコンピュータ)、タブレット端末又はスマートフォンなど各種のコンピュータ端末である。発話側の情報端末22と受聴側の情報端末32とは、例えばインターネット等の通信ネットワーク11を介して各種のデータ通信を行う。以下では、受聴側の情報端末32が、本実施形態の収音装置を構成する一例を説明する。
本システム10における情報端末32の構成について、図2を参照して説明する。図2は、情報端末32の構成を例示するブロック図である。なお、発話側の情報端末22は、例えば受聴側の情報端末32の構成と同様に構成されてもよい。
情報端末32は、例えば図2に示すように、制御部40と、記憶部41と、機器インタフェース42と、ネットワークインタフェース43と、操作部44と、表示部45と、音声入力部46と、音声出力部47とを備える。以下、インタフェースを「I/F」と略記する。
制御部40は、例えばソフトウェアと協働して所定の機能を実現するCPU又はMPUを含み、情報端末32の全体動作を制御する。制御部40は、記憶部41に格納されたデータ及びプログラムを読み出して種々の演算処理を行い、各種の機能を実現する。上記のプログラムは、情報端末32の各種機能を実現するための命令群を含む。上記のプログラムは、通信ネットワーク11等から提供されてもよいし、可搬性を有する記録媒体に格納されていてもよい。
例えば、本実施形態の制御部40は、マイクアレイ20のビームフォーミング即ち収音方向の制御といった音声強調処理を行う機能を有する。この機能は、マイクアレイ20を直接的に制御することによって実現されてもよいし、マイクアレイ20から出力される音声データに対する後処理として実現されてもよい。
なお、制御部40は、所定の機能を実現するように設計された専用の電子回路又は再構成可能な電子回路などのハードウェア回路であってもよい。制御部40は、CPU、MPU、GPU、GPGPU、TPU、マイコン、DSP、FPGA及びASIC等の種々の半導体集積回路で構成されてもよい。
記憶部41は、情報端末32の機能を実現するために必要なプログラム及びデータを記憶する記憶媒体である。記憶部41は、図2に示すように、格納部41a及び一時記憶部41bを含む。
格納部41aは、所定の機能を実現するためのパラメータ、データ及び制御プログラム等を格納する。格納部41aは、例えばHDD又はSSDで構成される。一時記憶部41bは、例えばDRAM又はSRAM等のRAMで構成され、データを一時的に記憶(即ち保持)する。また、一時記憶部41bは、制御部40の作業エリアとして機能してもよく、制御部40の内部メモリにおける記憶領域で構成されてもよい。
機器I/F42は、カメラ31等の外部機器を情報端末32に接続するための回路である。機器I/F42は、USB、HDMI(登録商標)、IEEE1395、WiFi、Bluetooth等の所定の通信規格にしたがい通信を行う。機器I/F42は、情報端末32において外部機器に対し、諸情報を受信する入力部あるいは送信する出力部を構成してもよい。
ネットワークI/F43は、無線または有線の回線を介して情報端末32を通信ネットワーク11に接続するための回路である。例えばネットワークI/F43により、受聴側の情報端末32が、通信ネットワーク11を介して発話側の情報端末22に接続され、マイクアレイ20及びカメラ21からのデータを受信できる。ネットワークI/F43は、IEEE802.3,IEEE802.11a/11b/11g/11ac等の所定の通信規格に準拠した通信を行う。ネットワークI/F43は、情報端末32において通信ネットワーク11を介して、諸情報を受信する入力部あるいは送信する出力部を構成してもよい。
操作部44は、ユーザが操作を行うユーザインタフェースである。操作部44は、例えばマウス、タッチパッド、キーボード、ボタン及びスイッチ等であってもよい。操作部44は、表示部45と共にタッチパネルを構成してもよい。操作部44は、ユーザ操作の情報を入力する入力部の一例である。
表示部45は、例えば、液晶ディスプレイ又は有機ELディスプレイで構成される。表示部45は、例えば発話側のカメラ21からの画像データが示す撮像画像を表示する。表示部45は、受聴側のカメラ31からの画像データが示す撮像画像を表示してもよい。表示部45は、ヘッドマウントディスプレイ或いは各種のプロジェクタ装置などであってもよい。
音声入力部46は、音波を受信する入力部の一例である。音声入力部46は、音声データを生成するマイク等で構成される。
音声出力部47は、音声データを音波に変換するスピーカ装置である。音声出力部47は、音声出力を行って各種の情報を提示する出力部の一例である。
以上のような情報端末32の構成は一例であり、情報端末32の構成はこれに限らない。例えば、情報端末32は、表示部45、操作部44、音声入力部46及び音声出力部47のうちの一つ又は複数を備えなくてもよい。例えば、表示部45等は、情報端末32とは外付けの機器であってもよいし、適宜省略されてもよい。また、情報端末32における入力部は、制御部40等における各種ソフトウェアとの協働によって実現されてもよい。情報端末32における入力部は、各種記憶媒体(例えば格納部41a)に格納された諸情報を制御部40の作業エリア(例えば一時記憶部41b)に読み出すことによって、諸情報の取得を行うものであってもよい。
2.動作
以上のように構成される遠隔会議システム10の動作について、以下説明する。
以上のように構成される遠隔会議システム10の動作について、以下説明する。
2−1.動作の概要
本実施形態に係る遠隔会議システム10の動作の概要を、図3を用いて説明する。
本実施形態に係る遠隔会議システム10の動作の概要を、図3を用いて説明する。
図3では、本システム10を用いた遠隔会議の実施中における発話側の環境12及び受聴側の環境13の様子を例示している。本例の発話側の環境12には、遠隔会議に参加する複数の発話者2A,2Bと、参加していない人物等の騒音源2Xとが存在している。各発話者2A,2Bは、それぞれ目的音としての発話を行う音源の一例である(「発話者2」は、発話者2A,2Bの総称とする)。
図3に例示する受聴側の環境13において、受聴者3は、表示部45の画面上で、発話を聴きたい発話者2Aを視るように視線30を向けている。こうした場合、本システム10は、発話側の環境12において対応する発話者2Aにマイクアレイ20の収音方向20aを向けるビームフォーミングの音声強調により、受聴者3の所望の音声を明瞭化する収音処理を行う。
この際、受聴者3の視線30が向けられた方向すなわち視線方向は、カメラ31による撮像画像から容易に検知できる。一方、視線30の先にある表示部45上の位置を検知することで受聴者3が視ている発話者2を特定するようなことは、例えば受聴側のカメラ31と表示部45との位置関係が未知の状況では困難である。又、受聴者3の視線方向(例えば角度W3)と、マイクアレイ20から発話者2のような音源に向かう方向すなわち音源方向(例えば角度W2)とは一致せず、各種機器の位置関係に依存して方向ずれを生じる。
そこで、本システム10は、各環境12,13における画像及び音声といったマルチモーダルの情報に基づいて、受聴者3の視線方向と、発話側の環境12における音源方向との対応付けを行う。本システム10は、こうした対応付けによって得られた情報を参照することにより、リアルタイムに検知される受聴者3の視線方向に追従したマイクアレイ20の収音制御を実現する。以下、本システム10の動作の詳細を説明する。
2−2.全体動作
本実施形態に係る遠隔会議システム10の全体的な動作について、図4を用いて説明する。
本実施形態に係る遠隔会議システム10の全体的な動作について、図4を用いて説明する。
図4は、本システム10の動作を例示するフローチャートである。図4のフローチャートに示す処理は、例えば遠隔会議の初期に、本システム10を立ち上げた際に開始される。本フローチャートに示す各処理は、例えば、収音装置として機能する受聴側の情報端末32の制御部40によって実行される。
以下では、本システム10において受聴者3の視線30に応じた収音制御に加えて別途、受聴者3が、明示的に発話者2などの収音対象を指定することも可能とする動作の一例を説明する。又、例えば発話側の環境12においてカメラ21による撮像画像上の画像位置と、マイクアレイ20の収音方向d20(又は音源方向)との対応関係を示す情報が、予め記憶部41に格納されていることとする。
まず、制御部40は、各環境12,13におけるマルチモーダルの情報に基づいて、場の情報取得処理を行う(S1)。場の情報取得処理(S1)は、遠隔会議が実施される場の情報として、発話側の音源方向と、受聴者3の視線方向とを対応付けた情報を取得する処理である。ステップS1の処理の詳細については後述する。
以下では、音源方向と視線方向とが1次元の角度方向で規定される例を説明する。例えば、音源方向は、発話側の環境12における水平面上でマイクアレイ20の前方を基準とした角度W2で規定される。又、視線方向は、受聴側のカメラ31の光軸を基準とした角度W3で規定される。なお、制御部40は、ステップS1の処理中に、発話側の環境12における画像位置と音源方向との対応関係を示す情報を生成してもよい。
また、本システム10は、例えば受聴者3が表示部45に表示された画像上の発話者2を収音対象として指定する操作を受け付ける。制御部40は、例えば操作部44において、こうした収音対象の指定操作が入力された否かを判断する(S2)。収音対象の指定操作は、例えばマウスカーソル或いは各種のポインタにより、表示部45上の画像位置を指定するように行われる。
特に受聴者3により収音対象の指定操作が入力されていない場合(S2でNO)、制御部40は、受聴者3の視線30に応じた収音処理を実行する(S3)。ステップS3の処理は、受聴者3の視線30をリアルタイムに検知して、検知した視線30に応じてマイクアレイ20の収音方向d20を制御する。
例えば、図3の例におけるステップS3では、受聴者3の視線方向が、特定の発話者2Aを視る特定の角度W3であることが検知される。この際、ステップS1の処理結果を参照して、マイクアレイ20の収音方向d20が、発話者2Aの音源方向の角度W2に制御される。ステップS3の処理の詳細については後述する。
一方、受聴者3により収音対象の指定操作が入力された場合(S2でYES)、制御部40は、ステップS3の処理に代えて、入力された指定操作に応じた収音処理を行う(S4)。ステップS4の処理では、例えば発話側の環境12におけるカメラ21の画像位置とマイクアレイ20の収音方向d20との対応関係が用いられる。
例えば、表示部45に表示された画像上で発話者2Aが指定されると(S2でYES)、制御部40は、指定された発話者2Aの画像位置と上記の対応関係に基づいて、マイクアレイ20の収音方向d20を制御する(S4)。こうした収音処理(S4)も、受聴側の環境13におけるカメラ31と表示部45との位置関係は、特に用いずに実行可能である。
制御部40は、例えば操作部44において、本システム10を用いた遠隔会議を終了する操作が入力されたか否かを判断する(S5)。終了操作は、例えば受聴側の情報端末32と発話側の情報端末22間のデータ通信の終了を指示する操作である。
制御部40は、特に終了操作が入力されていないとき(S5でNO)、例えば予め設定された制御周期でステップS2以降の処理を繰り返す。これにより、例えば遠隔会議の実施中に、ステップS3又はステップS4の収音処理が随時、実行される。
制御部40は、終了操作が入力されると(S5でYES)、本フローチャートに示す処理を終了する。
以上の処理によると、本システム10は、例えば遠隔会議の初期の場の情報取得処理(S1)の結果に基づき、遠隔会議の実施中に随時、受聴者3の視線30に応じて収音処理(S3)を行える。また、遠隔会議中の受聴者3は、収音対象の指定操作を入力して(S2でYES)、明示的に収音方向を指定可能である(S4)。
2−2−1.場の情報取得処理
図4のステップS1の処理の詳細を、図5〜図8を用いて説明する。図5は、本システム10における場の情報取得処理(S1)を例示するフローチャートである。
図4のステップS1の処理の詳細を、図5〜図8を用いて説明する。図5は、本システム10における場の情報取得処理(S1)を例示するフローチャートである。
まず、制御部40は、例えば各種I/F42,43を介して、発話側のカメラ21からの画像データと、マイクアレイ20からの音声データと、受聴側のカメラ31からの画像データとを入力する(S11)。ステップS11の処理は、例えば発話側と受聴側間のデータ通信を用いて行われる。
例えば、発話側のカメラ21は、発話者2A,2Bを含む環境12の撮像画像を示す画像データを順次、生成して発話側の情報端末22に出力する。マイクアレイ20は、発話側の環境12における音波の受信結果を示す音声データを生成して、発話側の情報端末22に出力する。発話側の情報端末22は、例えば、カメラ21からの画像データとマイクアレイ20からの音声データとを同期して、通信ネットワーク11を介して受聴側の情報端末32に送信する。
また、受聴側のカメラ31は、受聴者3を含む環境13の撮像画像を示す画像データを順次、生成して受聴側の情報端末32に出力する。制御部40は、ステップS11において発話側の情報端末22からネットワークI/F43を介して受信される画像データ及び音声データと、受聴側のカメラ31から機器I/F42を介して入力される画像データとを同期して時間的な区間を管理する。
次に、制御部40は、例えば発話側の画像データに基づいて、取得した各種データによる時間区間が、発話者2A,2Bのうちの1人が発話している区間であるか否かを判断する(S12)。例えば、制御部40は、画像上で人物の口の開閉に関する特徴量を抽出する画像認識を行って、発話中と認識される人物の人数(或いは口の個数)を計数する。制御部40は、発話中と認識された人数が複数人又は0人である場合、ステップS12でNOに進む。
制御部40は、1人の発話者2が発話中の区間でないと判断すると(S12でNO)、ステップS11に戻る。その後、新たにステップS11で入力される各種データに関して、ステップS12の判断が行われる。
制御部40は、1人の発話者2が発話中の区間であると判断すると(S12でYES)、当該区間における音声データに基づいて、発話中の発話者2についての音源方向を検知する(S13)。具体的に、制御部40は、マイクアレイ20に含まれる複数のマイクロホンの音響信号の間における音声の時間差に基づいて、上記の区間中で音波がマイクアレイ20に到来した方向を音源方向として推定する演算処理を行う。こうした推定処理が成功すると、例えば検知結果として音源方向の角度W2が算出される。
さらに、制御部40は、音源方向の検知(S13)と同じ区間における受聴側の画像データに基づいて、受聴者3の視線方向を検知する(S14)。例えば、制御部40は、受聴者3の撮像画像上で、瞳の位置と、目縁などの基準位置とを抽出して、抽出された位置同士の関係に基づいて視線方向の角度W3を算出するといった推定処理を行う。この際、例えば受聴者3の瞳がカメラ31から撮像されないような方向に視線30が向いている場合、検知結果として視線方向の角度W3が得られず、上記の推定処理は失敗することとなる。なお、ステップS13,S14の処理の順番は特に限定されず、並列に実行されてもよい。
制御部40は、ステップS13,S14の検知結果として、視線方向と音源方向との双方が得られたか否かを判断する(S15)。制御部40は、ステップS13,S14の推定処理の少なくとも一方が失敗し、検知結果として視線方向と音源方向とのうちの少なくとも一方が得られなかった場合(S15でNO)、ステップS11に戻る。
検知結果としての視線方向及び音源方向が得られた場合(S15でYES)、制御部40は、視線方向と音源方向の対応関係を示す場の情報D1に、検知結果を記録する(S16)。ステップS16における場の情報D1の一例を図6に例示する。
図6の例において、場の情報D1は、検知レコードD10毎に「視線方向」と「音源方向」とを対応付けて記録する。各検知レコードD10は、例えば視線方向の角度W3と音源方向の角度W2との双方が検知された1回の検知結果を示す。制御部40は、ステップS16を行う毎に検知レコードD10を追加するように場の情報D1を記録する。
また、制御部40は、例えば場の情報D1に記録された検知レコードD10が所定数に到ったか否かを判断する(S17)。所定数は、例えば後述するステップS18の処理において統計的なデータ分析を行うために充分に大きい数に設定される。例えば、1人の発話者2あたりに100レコード程度を想定して、所定数は、500以上等に設定される。
制御部40は、場の情報D1の検知レコードD10が所定数に到っていない場合(S17でNO)、ステップS11以降の処理を繰り返し実行する。これにより、場の情報D1において、視線方向と音源方向とを同時に検知した検知結果が蓄積される。
場の情報D1の検知レコードD10が所定数に到った場合(S17でYES)、制御部40は、場の情報D1を整理するように統計処理を行う(S18)。ステップS18の処理について、図7を用いて説明する。
図7は、場の情報D1の整理方法(S18)を説明するための図である。図7のグラフでは、場の情報D1(図6)における検知レコードD10の分布を例示している。このグラフにおいて、横軸は視線方向の角度W3であり、縦軸は音源方向の角度W2である。
ステップS18において、制御部40は、例えばK−means法などのクラスタ分析を適用して、場の情報D1における検知レコードD10を複数のクラスタに整理する。各クラスタには、互いに近接する検知レコードD10が含まれる。クラスタの個数は、例えば想定される発話者数以上などに予め設定されてもよいし、適宜可変であってもよい。ステップS18の処理は、検知レコードD10の外れ値等を除外するフィルタリング等を適宜、含んでもよい。
図7の例では、ステップS18の処理により、場の情報D1が3つのクラスタC1,C2,C3に整理されている。クラスタC1は、発話者2Aの発話中に、受聴者3が表示部45上の発話者2Aを視たときの検知レコードD10を含む。クラスタC2は、別の発話者2Bの発話中に、受聴者3が発話者2Bを視たときの検知レコードD10を含む。クラスタC3は、発話者2Bの発話中に、受聴者3が発話者2Bを視ずに余所見したときの検知レコードD10xを含む。
図7の例において、別々の発話者2A,2Bを視たときのクラスタC1,C2の間では、音源方向及び視線方向がそれぞれ異なっている。一方、余所見時のクラスタC3は、発話者2Bを視たときのクラスタC2と同様の音源方向と、クラスタC2とは異なった視線方向とを有する。また、クラスタC3における検知レコードD10xの個数は、受聴者3の余所見に起因して、クラスタC2における検知レコードD10の個数よりも少なくなっている。
ステップS18の処理によると、例えば発話者2Bの発話中に受聴者3が余所見をしたときがあったとしても、余所見時の検知レコードD10xを除いて発話者2Bを視たときのクラスタC2が得られ、発話者2Bを視る視線方向と音源方向との対応付けが行える。また、上記のようなクラスタC2,C3の何れが発話者2Bを視たときに対応するのかについて、制御部40は、例えば各クラスタC2,C3に含まれる検知レコードD10,D10xの個数に基づき判断できる。
次に、制御部40は、例えばステップS18で場の情報D1を整理した結果を示す場の整理情報D2を生成して、記憶部41に格納する(S19)。場の情報D1と場の整理情報D2とは、それぞれ本実施形態における対応情報の一例である。場の整理情報D2の一例を図8に示す。
図8に例示する場の整理情報D2は、図7の例における場の情報D1の分析結果を例示する。場の整理情報D2は、例えば、「クラスタ」毎に「視線方向」と「音源方向」とを対応付けて管理する。
図8の例において、制御部40は、例えば発話者2Aを視たときのクラスタC1に関して、視線方向の範囲(W31,W32)と、音源方向の平均値W21とを場の整理情報D2に記録する(S19)。別の発話者2Bを視たときのクラスタC2に関しても同様の情報が記録される。図7の例のように音源方向が同じクラスタC2,C3がある場合、制御部40は、例えば各クラスタC2,C3に含まれる検知レコードD10,D10xの個数を比較し、個数が多いクラスタC2を、場の整理情報D2に記録する対象として選択する。或いは、表示部45がある視線方向の角度W3以外に受聴者3の視線30が向いている場合は、選択対象から外すとしてもよい。
制御部40は、例えば場の情報D1及び場の整理情報D2をそれぞれ記憶部41に格納して(S19)、場の情報取得処理(S1)を終了する。その後、制御部40は、例えば図4のステップS2に進む。
以上のような場の情報取得処理(S1)によると、例えば遠隔会議における発話側の環境12の音源方向と、受聴側の環境13の視線方向とを対応付けた情報を、カメラ31等の配置を示す情報を用いずに取得できる。
以上の説明では、ステップS12の判断に、発話側の画像データを用いる例を説明した。これに加えて、又は代えて、ステップS12の判断は、発話側の音声データを用いてもよい。例えば、制御部40は、マイクアレイ20からの音声データに周波数解析などの各種の音声解析を行って、1人の発話者2が発話中の区間を検知してもよい。ステップS12の判断に発話側の画像データを用いない場合、ステップS11において当該画像データの入力が省略されてもよい。また、ステップS12の判断も適宜、省略されてもよい。
また、ステップS12においては、1人の発話者2が受聴者3と双方向の会話を行っているか否かが検知されてもよい。例えば、制御部40は、受聴側の情報端末32の音声入力部46からの音声データを更に用いて、双方向の会話中であるか否かを検知できる。これにより、受聴者3が発話者2を視ているときのステップS13,S14の検知結果を得易くすることができる。
ステップS16においては、音源方向と視線方向の検知結果(S13,S14)に関連付けて、このときの発話側の画像データに関する情報が記憶されてもよい。例えば、制御部40は、こうした画像データの画像認識により、各クラスタC1,C2に対応する発話者2A,2Bを識別し、場の整理情報D2と共に識別結果を記憶部41に格納してもよい。こうした識別結果の情報を用いて、図4のステップS2における収音対象の指定操作が行われてもよい。
2−2−2.視線に応じた収音処理
図4のステップS3の処理の詳細を、図9〜図10を用いて説明する。図9は、本システム10における視線30に応じた収音処理(S3)を例示するフローチャートである。
図4のステップS3の処理の詳細を、図9〜図10を用いて説明する。図9は、本システム10における視線30に応じた収音処理(S3)を例示するフローチャートである。
図9は、本システム10における視線に応じた収音処理(S3)を例示するフローチャートである。図9のフローチャートに示す処理は、場の整理情報D2が記憶部41に格納された状態で、例えば遠隔会議の実施中に行われる。
まず、制御部40は、受聴側のカメラ31からの画像データと、発話側のカメラ21からの画像データとを入力する(S31)。ステップS31の処理は、例えば図5のステップS11と同様に各種I/F42,43を介して行われる。
制御部40は、取得した受聴側の画像データに基づいて、受聴者3の視線方向を検知する(S32)。ステップS32の処理は、例えばステップS14と同様の推定処理により行われる。この際、受聴者3が表示部45上の発話者2を視ている場合は、視線方向が検知されると考えられる。一方、受聴者3が余所見をしている場合は、上記の推定処理が失敗して視線方向が検知されなかったり、視線方向が検知されても場の情報D1等の音源方向と対応していなかったりすることが考えられる。
制御部40は、例えばステップS32の検知結果に基づいて、現在の視線方向が検知されたか否かを判断する(S33)。ステップS33の判断は、例えばステップS15と同様に、視線方向の検知結果として角度W3が算出されたか否かに応じて行われる。
現在の視線方向が検知された場合(S33でYES)、制御部40は、例えば場の整理情報D2を参照して、検知された視線方向に対応する音源方向があるか否かを判断する(S34)。例えば、制御部40は、図8の場の整理情報D2における視線方向と現在の視線方向とを比較し、現在の視線方向がクラスタC1,C2毎の範囲のいずれかに含まれる場合にステップS34でYESに進む。
現在の視線方向に対応する音源方向がある場合(S34でYES)、制御部40は、例えば場の整理情報D2から、対応する音源方向を取得する(S35)。ステップS32〜S35の処理の一例について図10を用いて説明する。
図10では、図8の場の整理情報D2を用いた処理の一例を示す。本例において、制御部40は、ステップS32において現在の視線方向として、図10に示すように角度W35を検知し、ステップS33でYESに進む。又、現在の視線方向の角度W35が、クラスタC2の視線方向の範囲(W33,W34)内にあることから、制御部40はステップS34でYESに進み、クラスタC2の音源方向の平均値W21を取得する(S35)。
図9に戻り、制御部40は、例えば発話側の画像データと、取得した音源方向とに基づき、発話側の環境12の撮像画像上で、取得した音源方向に位置する発話者2を認識する(S36)。図10の例では、ステップS36において発話者2Bが認識される。なお、ステップS36の処理では、個人の識別は行わなくてもよい。
制御部40は、例えば画像認識(S36)に基づき、音源方向の発話者2(図10の例では、発話者2B)が、発話中であるか否かを判断する(S37)。例えば、制御部40は、撮像画像上で音源方向に対応する位置近傍の画像領域において、図5のステップS12と同様に、人物の口の開閉の有無等を認識する。例えば、制御部40は、口の開閉がない状態が数秒などの所定期間、継続した場合にステップS37で「NO」に進む。
音源方向の発話者2が発話中であると判断すると(S37でYES)、制御部40は、取得した音源方向に、マイクアレイ20の収音方向d20を制御するビームフォーミングの音声強調処理を行う(S38)。制御部40は、音声強調処理を行った音声データを音声出力部47に出力する。ステップS37,S38によると、例えば図10の例において発話者2Bが発話中であれば(S37でYES)、発話者2Bの音源方向に向けて収音方向d20が制御される。
制御部40は、制御後の収音方向d20の音声データを音声出力部47に出力して(S39)、図9の視線30に応じた収音処理(S3)を終了する。その後、制御部40は、例えば図4のステップS5,S2でNOに進むと、周期的にステップS31以降の処理を繰り返す。
この際、例えば新たに取得される受聴側の画像データにおいて、現在の視線方向が検知されなかった場合(S33でNO)、受聴者3は、例えば直前まで視ていた発話者2Bの発話についてメモを取る等のために余所見をしていることが考えられる。そこで、この場合において、制御部40は、前回の制御周期において取得した音源方向を、今回の音源方向として取得して(S40)、ステップS36以降の処理を行う。これにより、受聴者3が発話者2Bの発話を聴きたい一方で余所見した場合であっても、収音方向d20を当該発話者2Bに向けて維持することができる。
また、例えば検知された視線方向が、場の整理情報D2において対応する音源方向がないと判断される場合(S34でNO)も、上記と同様に受聴者3が余所見をしたことが考えられる。そこで、この場合においても、制御部40は前回の音源方向を取得して(S40)、ステップS36の処理に進む。ステップS33,S34は、それぞれ受聴者3が余所見したかどうかを判断する処理の一例である。
また、制御部40は、取得した音源方向における発話者2Bが、発話中ではないと判断すると(S37でNO)、例えば、場の整理情報D2において、過去に収音方向d20が向けられた全ての発話者2A〜2Bからの音声を強調するための収音制御を行う(S41)。
例えば、制御部40は、場の整理情報D2において、図4のステップS2〜S5を繰り返す中で収音方向d20が向けられた各音源方向からの音声を強調するように、マイクアレイ20からの音声データをミキシングして、音声出力部47に出力する(S39)。これにより、受聴者3が注目する発話者2Bの発話が終わったときには(S37でNO)、例えば図3の騒音源2Xからの騒音は抑制しながら全発話者2A〜2Bからの音声を強調して(S41)、受聴者3に聴かせることができる。
制御部40は、ステップS41の収音制御後も、ステップS38の収音制御後と同様に制御後の収音方向d20の音声データを音声出力部47に出力して(S39)、図4のステップS3の処理を終了する。
以上のような視線30に応じた収音処理(S3)によると、例えば場の整理情報D2のように視線方向と音源方向とを対応付けた情報を用いて、受聴者3が発話を聴きたい発話者2に視線30を向けたときに、対応する音源方向に収音制御を行える(S38)。
この際、場の整理情報D2(図10)によると、受聴者3が発話者2Bを視る視線方向の検知結果にばらつきがあったとしても、視線方向の範囲(W33,W34)内でばらつきを吸収して、所望の発話者2Bの音源方向(角度W21)に収音方向d20を制御できる。
上記のステップS37において、制御部40は、画像認識に加えて又は代えて、マイクアレイ20からの音声データにおける音声認識によって、発話の有無を判断してもよい。また、ステップS36,S37,S41の処理は、省略されてもよく、例えば音源方向が取得された場合にはステップS38に進むようにしてもよい。音源方向の発話者2の画像認識(S37)を行わない場合、発話側のカメラ21における撮像画像上の画像位置と、収音方向d20との対応関係は用いずに、視線30に応じた収音処理を実行可能である。
3.まとめ
以上のように、本実施形態の遠隔会議システム10において、受聴側の情報端末32は、収音装置の一例である。収音装置としての情報端末32は、マイクアレイ20において一以上の音源の一例である発話者2から収音した音声を聴く受聴者3を撮像するカメラ31(第1カメラ)を用いて、マイクアレイ20による収音方向d20を制御する。情報端末32は、入力部の一例である各種I/F42,43と、制御部40とを備える。入力部は、マイクアレイ20から出力される音声データ、及びカメラ31によって生成される画像データ(第1画像データ)を入力する。制御部40は、音声データ及び画像データに基づいて、場の情報D1あるいは場の整理情報D2といった対応情報を生成する(S1)。対応情報は、音声データが示す音声が音源からマイクアレイ20に到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者3の視線30を示す視線方向とを対応付ける。制御部40は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向d20を制御する(S3)。
以上のように、本実施形態の遠隔会議システム10において、受聴側の情報端末32は、収音装置の一例である。収音装置としての情報端末32は、マイクアレイ20において一以上の音源の一例である発話者2から収音した音声を聴く受聴者3を撮像するカメラ31(第1カメラ)を用いて、マイクアレイ20による収音方向d20を制御する。情報端末32は、入力部の一例である各種I/F42,43と、制御部40とを備える。入力部は、マイクアレイ20から出力される音声データ、及びカメラ31によって生成される画像データ(第1画像データ)を入力する。制御部40は、音声データ及び画像データに基づいて、場の情報D1あるいは場の整理情報D2といった対応情報を生成する(S1)。対応情報は、音声データが示す音声が音源からマイクアレイ20に到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者3の視線30を示す視線方向とを対応付ける。制御部40は、入力部から入力される画像データにおいて視線方向を検知し、視線方向の検知結果と対応情報とに基づき、収音方向d20を制御する(S3)。
以上の収音装置によると、カメラ31及びマイクアレイ20といった機器の配置が未知の状況下であっても、視線方向と音源方向との対応情報に基づき、受聴者3の視線方向に応じてマイクアレイ20の収音方向d20を制御できる。これにより、受聴者3にとって所望の音声の収音を行い易くすることができる。
本実施形態の収音装置において、制御部40は、マイクアレイ20から出力される音声データにおける一の音源からの音声を示す音声データに基づいて、音源方向を検知し(S13)、音源方向が検知されたときの画像データに基づいて、視線方向を検知する(S14)。制御部40は、音源方向と視線方向との検知結果を整理して、対応情報を生成する(S18)。
以上の収音装置によると、視線方向などの検知結果のばらつき或いは受聴者3の余所見などの影響を低減するように整理された対応情報が得られ、視線方向に応じた収音制御を精度良くすることができる。このように整理された対応情報は、例えば、音源方向と視線方向の検知を複数回、実行し(S11〜S17)、検知結果に対してクラスタ分析を行うことによって生成できる(図7参照)。
本実施形態の収音装置において、制御部40は、対応情報における音源方向に対応付けられた視線方向が画像データで検知されたとき(S34でYES)、検知された視線方向に対応付けられた音源方向に向けるように収音方向d20を制御する(S35,S38)。制御部40は、収音方向d20を音源方向に向けた状態で、対応情報における音源方向に対応付けられた視線方向が検知されなかったとき(S33,S34でNO)、収音方向d20を音源方向に向けた状態を維持する(S40,S38)。収音方向d20の維持は、例えば前回の音源方向を再度取得することによって為される。
以上の収音装置によると、例えば受聴者3が音源を視ているとき、視線方向に対応する音源方向に向けて収音方向d20が制御される。さらに、受聴者4が余所見をしたときは、収音方向d20が直前の音源方向に向けたまま維持される。これにより、例えば受聴者3が、聴きたい発話中の発話者2からメモ等のために余所見をしたときであっても、収音方向d20が発話者2に向けたまま維持され、受聴者3にとって所望の音声を収音し易くすることができる。
本実施形態において、音源は、発話者2を含む。入力部は、発話者2を撮像するカメラ21(第2カメラ)によって生成される画像データ(第2画像データ)をさらに入力する(S31)。制御部40は、発話側のカメラ21による画像データに基づいて、当該画像データが示す撮像画像における発話者2の位置と発話の有無との少なくとも一方を認識する(S12,S36)。これにより、発話側の環境12におけるカメラ21とマイクアレイ20によるマルチモーダルの情報を活用して、受聴者3が聴きたい発話者2の発話の収音を行い易くすることができる。
本実施形態において、制御部40は、検知した視線方向に対応する音源方向において第2画像データで発話者2の発話が無いことを認識したとき(S37でNO)、音声データにおいて収音方向d20を過去に向けた各音源方向からの音声を強調する処理を行う(S48)。これにより、受聴者3が視ている発話者2が発話していないときには、過去に視た各発話者2の発話を収音して、受聴者3に聴かせることができ、受聴者3の利便性を向上できる。
本実施形態の収音装置において、入力部は、受聴者3による操作を示す情報をさらに入力する(S2)。制御部40は、入力された操作を示す情報に基づいて、収音方向d20を制御する(S4)。これにより、受聴者3は、視線30に応じた収音処理S3だけでなく明示的に収音対象を指定でき、受聴者3にとって所望の音声を収音し易くできる。
本実施形態において、収音システムの一例の遠隔会議システム10は、マイクアレイ20と、カメラ31と、マイクアレイ20において一以上の音源から収音した音声を聴く受聴者3を撮像するカメラ31を用いて、マイクアレイ20による収音方向d20を制御する収音装置としての情報端末32とを備える。本システム10によると、収音装置により、受聴者3にとって所望の音声の収音を行い易くすることができる。
本実施形態において、マイクアレイ20において一以上の音源から収音した音声を聴く受聴者3を撮像するカメラ31を用いて、マイクアレイ20による収音方向d20を制御する収音方法が提供される。本方法は、マイクアレイ20から出力される音声データ、及びカメラ31により生成される画像データを入力するステップ(S1のS11)と、音声データ及び画像データに基づいて、音声データが示す音声が音源からマイクアレイ20に到来した方向を示す音源方向と、画像データが示す撮像画像における受聴者3の視線を示す視線方向とを対応付ける対応情報を生成するステップ(S1のS18)とを含む。本方法は、カメラ31から画像データを入力して、入力した画像データにおいて視線方向を検知するステップ(S3のS32)と、視線方向の検知結果と対応情報とに基づき収音方向d20を制御するステップ(S3のS38)とを含む。本方法によると、受聴者3にとって所望の音声の収音を行い易くすることができる。
本実施形態において、上記のような収音方法をコンピュータに実行させるためのプログラムが提供される。こうしたプログラムは、例えば記憶部41を含む各種の記憶媒体に格納して提供したり、通信ネットワーク11を介して提供したりすることができる。
(実施形態2)
以下、図11〜図12を用いて実施形態2を説明する。実施形態2では、マイクアレイ20等が移動し得る遠隔会議システムの一例を説明する。
以下、図11〜図12を用いて実施形態2を説明する。実施形態2では、マイクアレイ20等が移動し得る遠隔会議システムの一例を説明する。
以下、実施形態1に係る遠隔会議システム10と同様の構成、動作の説明は適宜、省略して、本実施形態に係る遠隔会議システムを説明する。
図11は、実施形態2に係る遠隔会議システム10Aの構成を説明するための図である。本実施形態の遠隔会議システム10Aでは、実施形態1と同様の構成において、発話側の環境12におけるマイクアレイ20及びカメラ21が、移動体23に搭載されている。例えば、移動体23は、展示会場などで、各種会場の様子を受聴者3に視聴させるべく、発話者2と共に移動するように用いられる。
移動体23は、例えば外部からのユーザ操作に応じて移動するロボット或いは各種車両である。移動体23は、移動体23を回転または並進駆動する各種アクチュエータ等の駆動部を備える。また、移動体23は、例えば情報端末22とデータ通信する通信部、ユーザ操作を受け付ける操作部、及び移動体23の全体動作を制御する制御部を備える。移動体23は、自律走行可能に構成されてもよい。移動体23は、さらに発話側の情報端末22を搭載してもよい。
図12は、実施形態2に係る遠隔会議システム10Aの動作を例示するフローチャートである。本実施形態では、発話側の環境12において、マイクアレイ20及びカメラ21が、移動体23と共に移動する。そこで、本実施形態の遠隔会議システム10Aは、実施形態1と同様の動作に加えて、移動体23の移動量に応じて、音源方向と視線方向との対応情報を補正する。
例えば、本実施形態における情報端末32の制御部40は、実施形態1と同様のステップS1〜S5に加えて(図4参照)、図12に示すように、場の情報取得処理(S1)後に随時、移動体23の移動があるか否かを検知する(S6)。制御部40は、移動体23の移動が検知されると(S6でYES)、移動体23の移動量に応じて場の整理情報D2を補正する(S7)。
ステップS6において、例えば情報端末22は、移動体23から回転及び並進といった移動量を示す情報を受信する。受聴側の情報端末32は、例えば発話側の情報端末22から、移動量の情報を受信する。情報端末32の制御部40は、受信された移動量の情報に基づき、移動体23の移動を検知する(S6)。
ステップS7において、移動体23の回転及び並進といった移動量を相殺する補正量が幾何演算により算出できる。制御部40は、受信した移動量に対する補正量を反映するように、場の整理情報D2を補正する(S7)。ステップS7において、制御部40は、場の情報D1を上記と同様に補正してもよい。制御部40は、ステップS7で補正した場の整理情報D2等を用いてステップS2以降の処理を行う。
以上のように、本システム10Aでは、場の情報取得処理(S1)で得られた対応情報を、移動体23の移動に応じて補正する(S6,S7)。これにより、マイクアレイ20等が移動しても、受聴者3の視線30に応じた収音処理(S3)等において収音方向d20を適切に音源に向けるといったことが可能となる。
以上のように、本実施形態の遠隔会議システム10Aにおいて、マイクアレイ20は、移動体23に搭載されている。制御部40は、移動体23による移動量に応じて、対応情報を補正する(S7)。これにより、マイクアレイ20等が移動しても、受聴者3にとって所望の音声の収音を行い易くすることができる。
(他の実施形態)
以上のように、本出願において開示する技術の例示として、実施形態1〜2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。
以上のように、本出願において開示する技術の例示として、実施形態1〜2を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置換、付加、省略などを行った実施の形態にも適用可能である。また、上記各実施形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。そこで、以下、他の実施形態を例示する。
上記の実施形態1,2では、遠隔会議の初期などに対応情報を生成する例を説明した。対応情報は適宜、更新されてもよい。この変形例について、図13を用いて説明する。
図13は、遠隔会議システム10の動作の変形例を示すフローチャートである。本変形例において、制御部40は、例えば実施形態1と同様のステップS1〜S5に加えて、例えば発話側のカメラ21の撮像画像に基づいて、発話側の環境12における発話者2の配置に変化があるか否かを検知する(S8)。発話者2の配置の変化が検知されたとき(S8でYES)、制御部40は、例えば場の整理情報D2を更新し(S9)、更新した場の整理情報D2を用いてステップS2以降の処理を行う。発話者2の配置の変化が検知されなかったとき(S8でNO)、制御部40は、ステップS1で取得した場の整理情報D2を用いてステップS2以降の処理を行う。なお、図13と同様の変形例は、実施形態2にも適用できる。
ステップS8において、制御部40は、発話側のカメラ21からの画像データにおいて、例えば人物の顔の位置を認識する画像認識を行って、認識された顔の個数および位置が変化したか否かを判断する。これにより、制御部40は、発話側の環境12において、発話者2の人数が増減したり、発話者2が移動したりする場合を検知して(S8でYES)、ステップS9の更新を実行できる。
ステップS9において、制御部40は、例えば場の情報取得処理(S1)と同様の処理を行い、処理結果として、記憶部41に格納された場の整理情報D2を書き換える。ステップS9の処理は、ステップS1で得られた場の情報D1を利用して行われてもよい。例えばステップS8において発話者2の移動が検知された場合、制御部40は、記憶部41に格納された以前の場の情報D1から、移動が検知された発話者2の音源方向の検知レコードD10を削除し、新たな検知レコードD10を追加してもよい。
以上のように、本実施形態における収音装置は、対応情報を格納する記憶部41をさらに備えてもよい。制御部40は、発話側のカメラの画像データに基づく発話者2の認識結果の変化に応じて、記憶部41に格納された対応情報を更新してもよい。これにより、例えば遠隔会議中に新たな発話者2が参加したり、発話者2が移動したりする場合であっても、対応情報を更新して用いることにより、受聴者3の視線30に応じた収音処理(S3)を適切に行うことができる。
上記の各実施形態では、収音装置の一例として受聴側の情報端末32を例示したが、本実施形態の収音装置はこれに限定されない。本実施形態の収音装置は、発話側の情報端末22であってもよいし、受聴側と発話側の情報端末22,32との協働によって実現されてもよい。例えば、発話側の情報端末22の制御部が、上記各実施形態の収音装置の制御部40が実行した処理の一部または全てを、発話側の環境12下で適宜、実行してもよい。また、本実施形態の収音装置には、各情報端末22,32に限らず、例えば通信ネットワーク11を介して情報端末22,32等とデータ通信するサーバ装置が用いられてもよい。本実施形態の収音装置は、各種のコンピュータで構成できる。
また、上記の各実施形態では、収音システムの一例としてマイクアレイ20及びカメラ31を備える遠隔会議システム10を説明した。本実施形態の収音システムは、マイクアレイ20及びカメラ31のうちの一方のみを備えてもよく、他方が外部構成であってもよい。例えば、本実施形態の収音システムは、発話側の環境12で用いる情報端末22及びマイクアレイ20等で構成されてもよいし、受聴側の環境13で用いる情報端末32及びカメラ31で構成されてもよい。また、例えばマイクアレイ20及びカメラ21,31が通信ネットワーク11に通信接続可能な機能を有する場合、本システム10において収音装置以外の情報端末22,32が省略されてもよい。
また、上記の各実施形態では、収音システムにおいて受聴者3による収音対象の指定操作を受け付ける動作例を説明した(図4のS2参照)。本実施形態において、上記と同様の収音対象の指定操作が、発話者2により入力可能に収音システムが構成されてもよい。例えば、ステップS2の処理に加えて又はこれに代えて、発話側の情報端末22の操作部において、発話者2が収音対象の位置などを指定する操作が受け付けられてもよい。これにより、発話者2が受聴者3に聴かせたい音声を収音し易くできる。
また、上記の各実施形態では、マイクアレイ20及びカメラ21,31が、情報端末22,32とは外付けに構成される例を説明したが、外付けでなくてもよい。例えば、マイクアレイ20及びカメラ21の一方又は双方が、発話側の情報端末22に内蔵されてもよい。また、受聴側のカメラ31が、情報端末32に内蔵されてもよい。この場合であっても、本実施形態の収音方法によると、例えばカメラ31と表示部45との位置関係を用いずに、本方法を実装するプログラム等を構成でき、受聴者3にとって所望の音声の収音を行い易くすることができる。
また、上記の各実施形態においては、人が発話する音声を目的音として収音したが、目的音は人が発話する音声に限らず、人が発する種々の音であってもよい。目的音は、車の音、動物の鳴き声、又は設備の動作音であってもよい。こうした目的音を聴きたい受聴者3に対して、本実施形態の収音システムによると、所望の目的音の収音を行い易くすることができる。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において、種々の変更、置換、付加、省略などを行うことができる。
本開示は、マイクアレイにおいて音源から収音した音声を聴く受聴者を撮像するカメラを用いる各種の収音システムに適用可能であり、例えば遠隔会議システムに適用可能である。
10,10A 遠隔会議システム
2,2A,2B 発話者
20 マイクアレイ
21,31 カメラ
22,32 情報端末
3 受聴者
40 制御部
41 記憶部
42 機器I/F
43 ネットワークI/F
44 操作部
45 表示部
46 音声入力部
47 音声出力部
2,2A,2B 発話者
20 マイクアレイ
21,31 カメラ
22,32 情報端末
3 受聴者
40 制御部
41 記憶部
42 機器I/F
43 ネットワークI/F
44 操作部
45 表示部
46 音声入力部
47 音声出力部
Claims (11)
- マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像する第1カメラを用いて、前記マイクアレイによる収音方向を制御する収音装置であって、
前記マイクアレイから出力される音声データ、及び前記第1カメラによって生成される第1画像データを入力する入力部と、
前記入力部から入力されたデータに基づいて、前記マイクアレイによる収音方向を制御する制御部とを備え、
前記制御部は、
前記音声データ及び前記第1画像データに基づいて、前記音声データが示す音声が前記音源から前記マイクアレイに到来した方向を示す音源方向と、前記第1画像データが示す撮像画像における前記受聴者の視線を示す視線方向とを対応付ける対応情報を生成し、
前記入力部から入力される第1画像データにおいて前記視線方向を検知し、
前記視線方向の検知結果と前記対応情報とに基づき、前記収音方向を制御する
収音装置。 - 前記制御部は、
前記マイクアレイから出力される音声データにおける一の音源からの音声を示す音声データに基づいて、前記音源方向を検知し、
前記音源方向が検知されたときの第1画像データに基づいて、前記視線方向を検知し、
前記音源方向と前記視線方向との検知結果を整理して、前記対応情報を生成する
請求項1に記載の収音装置。 - 前記制御部は、
前記対応情報における音源方向に対応付けられた視線方向が前記第1画像データで検知されたとき、検知された視線方向に対応付けられた音源方向に向けるように前記収音方向を制御し、
前記収音方向を前記音源方向に向けた状態で、前記対応情報における音源方向に対応付けられた視線方向が検知されなかったとき、前記収音方向を前記音源方向に向けた状態を維持する
請求項2に記載の収音装置。 - 前記音源は、発話者を含み、
前記入力部は、前記発話者を撮像する第2カメラによって生成される第2画像データをさらに入力し、
前記制御部は、前記第2画像データに基づいて、当該第2画像データが示す撮像画像における前記発話者の位置と発話の有無との少なくとも一方を認識する
請求項1〜3のいずれか1項に記載の収音装置。 - 前記制御部は、検知した視線方向に対応する音源方向において前記第2画像データで発話者の発話が無いことを認識したとき、前記音声データにおいて前記収音方向を過去に向けた各音源方向からの音声を強調する処理を行う
請求項4に記載の収音装置。 - 前記対応情報を格納する記憶部をさらに備え、
前記制御部は、前記第2画像データに基づく前記発話者の認識結果の変化に応じて、前記記憶部に格納された対応情報を更新する
請求項4又は5に記載の収音装置。 - 前記マイクアレイは、移動体に搭載されており、
前記制御部は、前記移動体による移動量に応じて、前記対応情報を補正する
請求項1〜6のいずれか1項に記載の収音装置。 - 前記入力部は、前記受聴者による操作を示す情報をさらに入力し、
前記制御部は、前記操作を示す情報に基づいて、前記収音方向を制御する
請求項1〜7のいずれか1項に記載の収音装置。 - 前記マイクアレイ、及び前記第1カメラと、
前記マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像する前記第1カメラを用いて、前記マイクアレイによる収音方向を制御する、請求項1〜8のいずれか1項に記載の収音装置と
を備える収音システム。 - マイクアレイにおいて一以上の音源から収音した音声を聴く受聴者を撮像するカメラを用いて、前記マイクアレイによる収音方向を制御する収音方法であって、
前記マイクアレイから出力される音声データ、及び前記カメラによって生成される画像データを入力するステップと、
前記音声データ及び前記画像データに基づいて、前記音声データが示す音声が前記音源から前記マイクアレイに到来した方向を示す音源方向と、前記画像データが示す撮像画像における前記受聴者の視線を示す視線方向とを対応付ける対応情報を生成するステップと、
前記カメラから画像データを入力して、入力した画像データにおいて前記視線方向を検知するステップと、
前記視線方向の検知結果と前記対応情報とに基づき前記収音方向を制御するステップと
を含む収音方法。 - 請求項10に記載の収音方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020103885A JP2021197658A (ja) | 2020-06-16 | 2020-06-16 | 収音装置、収音システム及び収音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020103885A JP2021197658A (ja) | 2020-06-16 | 2020-06-16 | 収音装置、収音システム及び収音方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021197658A true JP2021197658A (ja) | 2021-12-27 |
Family
ID=79196042
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020103885A Pending JP2021197658A (ja) | 2020-06-16 | 2020-06-16 | 収音装置、収音システム及び収音方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021197658A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4329330A1 (en) | 2022-08-26 | 2024-02-28 | Yamaha Corporation | Sound collection control method and sound collection apparatus |
-
2020
- 2020-06-16 JP JP2020103885A patent/JP2021197658A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4329330A1 (en) | 2022-08-26 | 2024-02-28 | Yamaha Corporation | Sound collection control method and sound collection apparatus |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230315380A1 (en) | Devices with enhanced audio | |
US11043231B2 (en) | Speech enhancement method and apparatus for same | |
JP6464449B2 (ja) | 音源分離装置、及び音源分離方法 | |
DK1912474T3 (da) | Fremgangsmåde til drift af en hørehjælpeindretning samt en hørehjælpeindretning | |
US20190028817A1 (en) | System and method for a directional speaker selection | |
CN110324723B (zh) | 字幕生成方法及终端 | |
CN104092936A (zh) | 自动对焦方法及装置 | |
WO2019206186A1 (zh) | 唇语识别方法及其装置、增强现实设备以及存储介质 | |
JP2012220959A (ja) | 入力された発話の関連性を判定するための装置および方法 | |
CN108063910A (zh) | 用于视频会议系统中的摄像机底座及其方法 | |
JP2019220848A (ja) | データ処理装置、データ処理方法及びプログラム | |
JP2017054065A (ja) | 対話装置および対話プログラム | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
US20120242860A1 (en) | Arrangement and method relating to audio recognition | |
US10827260B2 (en) | Hearing aid system | |
US10225670B2 (en) | Method for operating a hearing system as well as a hearing system | |
JP2021197658A (ja) | 収音装置、収音システム及び収音方法 | |
KR20110085160A (ko) | 얼굴인식 회의 속기 시스템 및 방법 | |
CN113329138A (zh) | 视频拍摄方法、视频播放方法和电子设备 | |
US11227423B2 (en) | Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system | |
JP2002034092A (ja) | 収音装置 | |
KR20130054131A (ko) | 디스플레이장치 및 그 제어방법 | |
KR20190016683A (ko) | 마이크로폰 어레이를 이용한 회의록 자동작성장치 | |
US20220224970A1 (en) | Signal processing device and signal processing system | |
US11184184B2 (en) | Computer system, method for assisting in web conference speech, and program |