JP2021076866A

JP2021076866A - 収音制御システム及び収音制御システムの制御方法

Info

Publication number: JP2021076866A
Application number: JP2021016613A
Authority: JP
Inventors: 太介三井; Tasuke Mitsui; 井上　貴之; Takayuki Inoue; 貴之井上
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-05-20
Anticipated expiration: 2037-03-22
Also published as: JP7111202B2

Abstract

【課題】収音機能に高い指向性を求めずに、音源位置を特定する構成を実現する。【解決手段】収音制御システムであって、音声の入力を受け付け、複数の音声信号を生成する収音部と、前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第１の音源の位置を特定し、前記参加者の画像に対して前記第１の音源の位置を含む範囲に顔認識を実行することで第２の音源の位置を特定し、該第２の音源の位置を表す位置情報を生成する位置情報生成部と、前記位置情報を用いて、話者に関する画像を生成する画像生成部と、少なくとも一つの前記話者に関する画像を表示装置に表示させる表示処理部と、少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける選択受付部と、を含む。【選択図】図２

Description

本発明は、収音制御システム及び収音制御システムの制御方法に関する。

下記特許文献１には、対象空間の映像を撮影するカメラと、複数のマイクロホンを用いて音声を収音するマイクアレイと、収音された音声データに基づき、音源位置を算出する音源解析部と、撮像された対象空間の映像と音源位置を示す音源位置表示とを含む画像データをディスプレイに表示させる画像表示処理部と、ディスプレイに表示された対象空間画像において、マイクロホンが収音する音声を強調したい位置の指定を受け付けるユーザー入力装置と、を含む収音システムが開示されている。

特開２０１６−１４６５４７号公報

従来の収音システムでは、音源解析部が収音された音声データのみに基づき音源位置を算出するため、非常に高い指向性が必要であった。

本発明は、上記問題点に鑑みてなされたものであり、その目的は、収音機能に高い指向性を求めずに、音源位置を特定する構成を実現することである。

本開示に係る収音制御システムは、音声の入力を受け付け、複数の音声信号を生成する収音部と、前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第１の音源の位置を特定し、前記参加者の画像に対して前記第１の音源の位置を含む範囲に顔認識を実行することで第２の音源の位置を特定し、該第２の音源の位置を表す位置情報を生成する位置情報生成部と、前記位置情報を用いて、話者に関する画像を生成する画像生成部と、少なくとも一つの前記話者に関する画像を表示装置に表示させる表示処理部と、少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける選択受付部と、を含む。

本開示に係る収音制御システムの制御方法は、音声の入力を受け付け、複数の音声信号を生成し、前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第１の音源の位置を特定し、前記参加者の画像に対して前記第１の音源の位置を含む範囲に顔認識を実行することで第２の音源の位置を特定し、該第２の音源の位置を表す位置情報を生成し、前記位置情報を用いて、話者に関する画像を生成し、少なくとも一つの前記話者に関する画像を表示装置に表示させ、少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける。

図１は第１の実施形態に係る収音制御システムのブロック図である。図２は第１の実施形態に係る撮影収音装置のブロック図である。図３は第１の実施形態に係る撮影収音装置と参加者との配置関係の一例を示す模式図である。図４は第１の実施形態に係る参加者画像を用いた顔認識の一例を示す模式図である。図５は第１の実施形態に係る参加者画像から生成された切り出し画像の一例を示す模式図である。図６は第１の実施形態に係る参加者画像から生成された切り出し画像の一例を示す模式図である。図７は第１の実施形態に係る操作用装置のブロック図である。図８は第１の実施形態に係る操作用装置の他の実施例を示すブロック図である。図９は第１の実施形態に係る表示装置の表示画面の一例を示す模式図である。図１０は第１の実施形態に係る撮影収音装置の制御方法を示すフローチャートである。図１１は第１の実施形態に係る操作用装置の制御方法を示すフローチャートである。図１２は第１の実施形態に係る収音制御システムの制御方法を示すフローチャートである。

［第１の実施形態］
第１の実施形態について、図面を用いて以下に説明する。

［収音制御システム１００］
図１は、本実施形態に係る収音制御システム１００のブロック図である。収音制御システム１００は、図１に示すように、撮影収音装置１０と、ネットワーク２０を介して撮影収音装置１０と接続される操作用装置３０と、操作用装置３０の指示に従って再生を行う再生装置４０とを含む。なお、再生装置４０は、操作用装置３０に外部接続されてもよく、操作用装置３０に内蔵されていてもよい。

撮影収音装置１０は、発話者の音声の入力を受付け、音声信号５１を生成する。撮影収音装置１０は、会議や講義などに参加している複数の参加者が表示された参加者画像を撮影する。撮影収音装置１０は、複数の音声信号５１の位相差から音源位置が含まれる範囲を特定し、参加者画像に対する顔認識を行うことにより、推定話者の顔の位置、即ち音源位置を特定する。撮影収音装置１０は、特定された顔の位置に基づき、推定話者画像５２を生成する。撮影収音装置１０は、推定話者画像５２と、音声信号５１とを、ネットワーク２０を介して操作用装置３０に送信する。

操作用装置３０は、例えば会議や講義の話し手である操作者が使用する装置であり、ネットワーク２０を介して音声信号５１と推定話者画像５２とを受信する。操作用装置３０は、内部に表示装置を有するか、あるいは表示装置に外部接続されており、撮影収音装置１０より受信した少なくとも一つの推定話者画像５２を表示装置に表示させる。操作者が、表示装置に表示された少なくとも一つの推定話者画像５２の中から一つを選択すると、操作用装置３０が、選択された推定話者画像５２に関する指向性制御信号５３を生成し、ネットワーク２０を介して撮影収音装置１０に送信する。指向性制御信号５３とは、推定話者画像５２に関連付けられた音源位置情報に基づき、撮影収音装置１０による音声信号５１の出力を制御する信号である。

指向性制御信号５３を受信した撮影収音装置１０は、指向性制御信号５３に基づき、推定話者画像５２に関連付けられた音源位置の音声信号５１の出力を、他の音声信号５１よりも強調し、操作用装置３０に送信する。

操作用装置３０は、話者周辺の音声が強調された音声信号５１を受信し、当該音声信号５１の再生を、スピーカー等からなる再生装置４０に指示する。

このような構成により、表示装置に、推定話者の顔が拡大された推定話者画像５２が表示されるため、操作者が容易に発話者を認識することができる。

また、会場が広く、大勢の参加者がいるような場合、音声信号５１の位相差のみを用いて話者の顔の位置を特定するためには、撮影収音装置１０に含まれる収音機能に非常に高い指向性が求められる。しかし、撮影収音装置１０が、顔認識技術を併用して音源位置情報を生成することにより、収音機能の指向性がそれほど高くない場合であっても、話者の顔の位置を特定することが可能となる。

以下、撮影収音装置１０、及び操作用装置３０のより具体的な構成について説明する。

［撮影収音装置１０］
図２は、本実施形態に係る撮影収音装置１０のブロック図である。撮影収音装置１０は、図２に示すように、音声の入力を受け付け、複数の音声信号５１を生成する収音部１１と、複数の参加者が表示された参加者画像を撮影する撮影部１２と、複数の音声信号５１の位相差と、参加者画像に対する顔認識を用いて音源位置を特定する音源位置情報を生成する音源位置情報生成部１３と、音源位置情報を用いて、推定話者に関する推定話者画像５２を生成し、操作用装置３０に送信する推定話者画像生成部１４と、を含む。

更に、撮影収音装置１０は、操作用装置３０から送信された指向性制御信号５３を受信する操作用装置入力部１５と、操作用装置入力部１５から指向性制御信号５３を取得し、この指向性制御信号５３に基づき音声信号５１を制御して出力する指向性演算部１６とを含む。

音源位置情報生成部１３、推定話者画像生成部１４、操作用装置入力部１５、指向性演算部１６は、一つの制御部１７で構成することも可能である。制御部１７は、ＣＰＵとメモリを含み、撮影収音装置１０に含まれる記憶部１８に記憶されたプログラムに基づき、撮影収音装置１０全体を制御し、後述する音声信号生成ステップＳ１０１、参加者画像撮影ステップＳ１０２、音源位置情報生成ステップＳ１０３、推定話者画像生成ステップＳ１０４、推定話者画像送信ステップＳ１０５、指向性制御信号受信ステップＳ１０６、指向性演算ステップＳ１０７などを実行する。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

なお、本実施形態においては、撮影収音装置１００が記憶部１８を含む構成を示したが、記憶部１８は必須構成要素ではなく、制御部１７は、撮影収音装置１００に接続されたプログラム記録媒体等を用いて、各種制御ステップを実行する構成としてもよい。

図３は、本実施形態に係る撮影収音装置１０と参加者との配置関係の一例を示す模式図である。図３に示すように、撮影収音装置１０は、会場の前方の天井に配置されており、撮影収音装置１０に含まれる撮影部１２により会場前方の全体が撮影されている。なお、撮影収音装置１０の設置場所は、会場の天井に限定されず、撮影収音装置１０が、会場の前方に配置されていればよい。

［収音部１１］
本実施形態において、収音部１１は、複数のマイクロホンを含むアレイマイクにより構成する。収音部１１は、撮影収音装置１０が配置された会場の音を収音する。収音部１１は、図３に示した撮影部１２を含む同一筐体内に配置されていてもよく、会場前方の天井に設置された他の筐体内に配置されていてもよい。

収音部１１であるアレイマイクに含まれる複数のマイクロホンは、それぞれが担当収音位置を有し、この担当収音位置周辺の音声を収音し、マイクロホンの数に応じた複数の音声信号５１を生成する。収音部１１は、例えば、増幅器、Ａ／Ｄ変換機、符号化部を含む。増幅器が、マイクロホンにより収音された音声データを増幅する。Ａ／Ｄ変換機は、増幅器から出力された音声データをデジタル音声データに変換する。符号化部は、デジタル音声データを符号化し、音声信号を生成する。

収音部１１は、図２に示すように、この複数の音声信号５１を、音源位置情報生成部１３と指向性演算部１６に送信する。

［撮影部１２］
撮影部１２は、少なくとも一つのカメラを有し、複数の参加者が表示された参加者画像６０を撮影する。本実施形態においては、撮影部１２は一つのカメラを有し、このカメラにより、会場内にいる参加者全体を前方から撮影した画像を撮影する。

撮影部１２は、撮影した参加者画像６０を、音源位置情報生成部１３、推定話者画像生成部１４に送信する。

［音源位置情報生成部１３］
上述したとおり、収音部１１は、複数のマイクロホンにより収音された音声信号５１を、マイクロホンの数に応じて生成し、音源位置情報生成部１３に送信している。この複数の音声信号５１を受信した音源位置情報生成部１３は、この複数の音声信号５１の比較情報である位相差から、図３に示す、音源位置が含まれる第１の範囲７１、第２の範囲７２を特定する。

なお、本実施形態においては、音源位置情報生成部１３が、複数の音声信号５１の比較情報としての位相差から、音源位置を特定する構成を説明したが、複数の音声信号５１の位相差ではなく、複数の音声信号５１のパワー比から、音源位置を特定する構成としてもよい。

なお、本実施形態においては、音源位置情報生成部１３は、音声信号５１に対して周波数分析を行うことにより、単なる雑音と人の声とを判別し、複数の音源位置の中から、人の音声が発せられた位置情報を音源位置情報として取得する。具体例としては、音源位置情報生成部１３は、音声信号５１を、信号振幅を縦軸、横軸を時間とする時間領域から、信号振幅を縦軸、横軸を周波数とする周波数領域にフーリエ変換し、人の音声の周波数として適切な所定の範囲内（例えば０．２ｋＨｚ〜４ｋＨｚ）に含まれる音声信号５１を人の音声と判断し、所定の範囲に含まれない音声信号５１は雑音であると判断する。音源位置情報生成部１３は、この人の音声に関する周波数として所定範囲内に含まれる音声信号５１のみに対して音源位置が含まれる範囲を特定する。

更に、音源位置情報生成部１３は、撮影部１２から参加者画像を受信している。音源位置情報生成部１３は、先ほどの音声信号５１の位相差から特定した音源位置が含まれる範囲内において、撮影部１２から取得した参加者画像に顔認識を行うことにより、参加者画像における話者の顔の位置、即ち音源位置を特定する。この音源位置を特定する情報が音源位置情報である。

図４は、本実施形態における参加者画像を用いた顔認識の一例を示す模式図である。図４に示すように、参加者画像６０には、会場にいる参加者全体の画像が含まれている。ここで、参加者画像６０の中で後方左側にいる第１の参加者６１と、前方右側にいる第２の参加者６２が何らかの音声を発したとする。この音声を収音した収音部１１からの音声信号５１に基づき、音源位置情報生成部１３は、第１の音源位置が含まれる第１の範囲７１、第２の音源位置が含まれる第２の範囲７２を特定する。第１の範囲７１には、第１の参加者６１が含まれており、第２の範囲７２には、第２の参加者６２が含まれている。

音源位置情報生成部１３は、この第１の範囲７１において顔認識を行うことにより、第１の参加者６１の顔の位置８１を第１の音源位置として特定する。また、音源位置情報生成部１３は、第２の範囲７２において顔認識を行うことにより、第２の参加者６２の顔の位置８２を第２の音源位置として特定する。

本実施形態において、音源位置情報生成部１３は、この第１の参加者６１の顔の位置８１、及び第２の参加者６２の顔の位置８２を、音源位置情報として、推定話者画像生成部１４に送信する。その際、音源位置情報生成部１３は、第１の範囲７１と第１の参加者６１の顔の位置８１とを関連付け、第２の範囲７２と第２の参加者６２の顔の位置８２とを関連付けて、推定話者画像生成部１４に送信する。

［推定話者画像生成部１４］
推定話者画像生成部１４は、音源位置情報生成部１３から送信された音源位置情報と、撮影部１２から送信された参加者画像６０を受信し、推定話者に関する推定話者画像５２を生成する。

本実施形態においては、音源位置情報生成部１３より、音源位置情報として図４に示すような第１の参加者６１の顔の位置８１、及び第２の参加者６２の顔の位置８２の情報を受信している。推定話者画像生成部１４は、この顔の位置情報に基づき、撮影部１２から送信された参加者画像６０から切り出し画像を生成する。

図５、６は、本実施形態における参加者画像６０から生成された切り出し画像の一例を示す模式図である。本実施形態においては、推定話者画像生成部１４は、音源位置情報生成部１３より受信した第１の参加者６１の顔の位置８１に基づき、図５に示すような、第１の参加者６１の顔が拡大された第１の切り出し画像９１を生成する。また、推定話者画像生成部１４は、音源位置情報生成部１３より受信した第２の参加者６２の顔の位置８２に基づき、図６に示すような、第２の参加者６２の顔が拡大された第２の切り出し画像９２を生成する。

推定話者画像生成部１４は、推定話者画像５２として、この第１の切り出し画像９１、第２の切り出し画像９２を操作用装置３０に送信する。この第１の切り出し画像９１、第２の切り出し画像９２は、それぞれ音源位置情報生成部１３からの音源位置情報、即ち第１の参加者６１の顔の位置８１、及び第２の参加者６２の顔の位置８２の情報を基に生成されている。そのため、推定話者画像生成部１４は、この音源位置情報と推定話者画像５２とを関連付けた状態で、操作用装置３０に送信する。

更に、本実施形態においては、推定話者画像生成部１４は、参加者画像６０における推定話者画像５２に対応する位置情報を、推定話者画像５２と関連付けて操作用装置３０に送信する。このような構成とすることにより、後述する操作用装置３０において、参加者画像６０と、推定話者画像５２とを関連付けて表示させることが可能となる。

なお、本実施形態においては、推定話者画像生成部１４が、推定話者画像５２として、第１の切り出し画像９１、第２の切り出し画像９２を生成し、操作用装置３０に送信する構成を説明したが、推定話者画像５２として他の画像を送付する構成としてもよい。例えば、上述した撮影部１２が複数のカメラを有し、第１のカメラが参加者画像６０を撮影し、音源位置情報生成部１３が生成した音源位置情報に基づき、第２のカメラが音源位置の方向の画像を撮影し、この音源位置の方向の画像を推定話者画像５２として、推定話者画像生成部１４が取得する構成としてもよい。なお、この構成の場合、複数の話者を撮影し、複数の推定話者画像５２を生成するためには、第２のカメラを話者の数に応じて複数台設ける必要がある。

なお、本実施形態においては、推定話者画像生成部１４が、複数の推定話者に関する複数の推定話者画像を生成し、操作用装置３０に送信する構成を例に挙げたが、推定話者画像生成部１４が、一つの推定話者に関する推定話者画像を生成し、操作用装置３０に送信する構成としてもよい。ただし、推定話者画像生成部１４が、複数の推定話者画像を生成し、操作用装置３０に送信する構成とすることにより、後述する表示装置３３において、複数の推定話者画像５２を並べて表示する構成とすることができる。その結果として、操作者が複数の推定話者画像５２を見比べながら、操作用装置３０の操作を行うことができるというメリットがある。

［操作用装置入力部１５］
操作用装置入力部１５は、操作用装置３０から送信された指向性制御信号を受信し、指向性演算部１６に送信する。指向性制御信号とは、推定話者画像５２に関連付けられた音源位置情報に基づき、収音部１１からの音声信号５１の出力を制御する情報である。

本実施形態においては、指向性制御信号には、第１の切り出し画像９１、又は第２の切り出し画像９２に関連付けられた音源位置情報、即ち第１の参加者６１の顔の位置８１、又は第２の参加者６２の顔の位置８２に関する情報が含まれている。

操作用装置入力部１５は、この音源位置情報が含まれた指向性制御信号を、指向性演算部１６に送信する。

［指向性演算部１６］
指向性演算部１６は、指向性制御信号５３を操作用装置入力部１５より取得し、収音部１１より音声信号５１を取得する。指向性演算部１６は、この指向性制御信号５３に基づき、収音部１１からの音声信号５１を制御して出力する。

詳細は後述するが、操作用装置３０を操作する操作者が、第１の参加者６１の顔が表示された第１の切り出し画像９１を選択した場合、この第１の切り出し画像９１に関連付けられた第１の音源位置情報、即ち第１の参加者６１の顔の位置８１に関する情報が、指向性制御信号５３が含まれている。この指向性制御信号５３に基づき、指向性演算部１６は、収音部１１から受信した複数の音声信号５１の中から、第１の参加者６１の顔の位置８１からの音声信号５１を、他の音声信号５１よりも強調して、操作用装置３０に送信する。

［操作用装置３０］
図７は、本実施形態に係る操作用装置３０のブロック図である。操作用装置３０は、図７に示すように、撮影収音装置１０により生成された少なくとも一つの推定話者画像５２を受信する通信部３１と、少なくとも一つの推定話者画像５２を表示装置３３に表示させる表示処理部３２と、少なくとも一つの推定話者画像５２の中から一つの推定話者画像５２の選択を受け付ける選択受付部３４と、選択された推定話者画像５２に関する指向性制御信号５３を生成する指向性制御信号生成部３５と、撮影収音装置１０より音声信号を受信し、音声信号５１の再生を再生装置４０に指示する再生処理部３６とを、を含む。

表示処理部３２、指向性制御信号生成部３５、再生処理部３６は、一つの制御部３８で構成することも可能である。制御部３８は、ＣＰＵとメモリを含み、操作用装置３０に含まれる記憶部３９に記憶されたプログラムに基づき、操作用装置３０全体を制御し、後述する推定話者画像受信ステップＳ２０１、表示処理ステップＳ２０２、選択受付ステップＳ２０３、指向性制御信号生成ステップＳ２０４、音声信号受信ステップＳ２０５、再生処理ステップＳ２０６などを実行する。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

操作用装置３０は、会場前方において、例えば講義等を行う操作者により使用される。

なお、本実施形態においては、操作用装置３０が、タッチパネル３７を含み、タッチパネル３７が表示装置３３と選択受付部３４とを含む構成としている。

なお、他の実施例を示す操作用装置３０のブロック図である図８に示すように、操作用装置３０が表示装置３３を含まず、表示処理部３２が、操作用装置３０に外部接続された表示装置３３に推定話者画像５２の表示を指示する構成としてもよい。

［通信部３１］
通信部３１は、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応しており、ネットワーク２０を介して、撮影収音装置１０との信号伝達を行う。

本実施形態においては、通信部３１は、撮影収音装置１０により生成された第１の切り出し画像９１と第２の切り出し画像９２を、推定話者画像５２として受信している。通信部３１は、この第１の切り出し画像９１と第２の切り出し画像９２を、表示処理部３２に送信する。なお、この第１の切り出し画像９１には、第１の音源位置情報として第１の参加者６１の顔の位置８１に関する情報が関連付けられており、第２の切り出し画像９２には、第２の音源位置情報として第２の参加者６２の顔の位置８２に関する情報が関連付けられている。

また、通信部３１は、指向性制御信号生成部３５が生成する指向性制御信号５３を撮影収音装置１０に送信する。

［表示処理部３２］
表示処理部３２は、少なくとも一つの推定話者画像５２を表示装置３３に表示させる。即ち、複数の推定話者画像５２を取得している場合には、複数の推定話者画像５２を表示装置３３に表示させ、唯一の推定話者画像５２を取得している場合には、その唯一の推定話者画像５２を表示装置３３に表示させる。

本実施形態においては、図５に示した第１の切り出し画像９１と、図６に示した第２の切り出し画像９２を表示装置３３に表示させる。図９は、本実施形態における表示装置３３の表示画面の一例を示す模式図である。図９に示すように、表示処理部３２は、第１の切り出し画像９１と第２の切り出し画像９２とを、表示装置３３に並べて表示させる。なお、表示装置３３に表示させる切り出し画像の枚数は、通信部３１から受信した切り出し画像の枚数に合わせる構成にしてもよい。

このように、表示装置３３に、複数の推定話者画像５２を表示する構成とすることにより、操作者が複数の推定話者画像５２を見比べながら、操作用装置３０の操作を行うことができ、特に強調して聞きたい話者を選択することができる。

なお、この複数の推定話者画像５２を表示することにより、操作者が複数の推定話者画像５２を見比べながら操作用装置３０を操作することができるメリットは、音源位置情報生成部１３が、顔認識を用いずに音源位置情報を生成する場合においても得ることができる。なお、音源位置情報生成部１３が、顔認識を用いずに音源位置情報を生成する場合には、推定話者画像５２は、図３に示した、音源位置が含まれる第１の範囲７１、第２の範囲７２に基づき、例えば第１の範囲７１、第２の範囲７２の切り出し画像が生成される。

更に、本実施形態においては、表示処理部３２が、表示装置３３に、参加者画像６０を合わせて表示させる構成としている。表示処理部３２が、表示装置３３に、参加者画像６０を合わせて表示させることで、操作者が会場全体の様子を合わせて確認することができる。

更に、本実施形態においては、操作用装置３０は、撮影収音装置１０より、参加者画像６０における推定話者画像５２に対応する位置情報が、推定話者画像５２に関連付けられた状態で受信している。そのため、表示処理部３２は、参加者画像６０と推定話者画像５２とを関連付けて、表示装置３３に表示させることが可能となる。

具体的には、図９に示すように、表示処理部３２は、表示装置３３に、参加者画像６０における第１の参加者６１の顔の位置に表示枠８１Ａを表示するとともに、第２の参加者６２の顔の位置に表示枠８２Ａを表示させる構成としている。更に、表示処理部３２は、表示装置３３に対して、表示枠８１Ａ、８２Ａと、この表示枠８１Ａ、８２Ａに対応する推定話者画像５２の少なくとも一部と、同一色の着色をして表示させる。具体例としては、第１の参加者６１の顔の位置８１の表示枠８１Ａを赤色で表示するとともに、第１の切り出し画像９１の枠を赤色で表示し、第２の参加者６２の顔の位置８２の表示枠８２Ａを緑色で表示するとともに、第２の切り出し画像９２の枠を緑色で表示する構成としてもよい。このような構成とすることにより、切り出し画像として表示されている第１の参加者６１、第２の参加者６２が、参加者画像６０の中でどこに位置しているかを、操作者が容易に理解することができる。

なお、第１の切り出し画像９１、第２の切り出し画像９２への着色箇所は、枠に限定されず、第１の切り出し画像９１、第２の切り出し画像９２の少なくとも一部に対して行われ、操作者が、第１の切り出し画像９１、第２の切り出し画像９２と、参加者画像６０に含まれる表示枠８１Ａ、８１Ｂとを対応付けて把握することができる構成であればよい。

このような構成により、表示装置３３に、推定話者である第１の参加者６１の顔が拡大された第１の切り出し画像９１、及び推定話者である第２の参加者６２の顔が拡大された第２の切り出し画像９２が表示されるため、操作者が容易に発話者を認識することができる。

また、会場が広く、大勢の参加者がいるような場合、収音部１１の音声信号５１の位相差のみを用いて話者の顔の位置を特定するためには、非常に高い指向性が求められる。しかし、本実施形態に示すように、音源位置情報生成部１３が顔認識技術を併用することにより、収音部１１の指向性がそれほど高くない場合であっても、音声信号の位相差により特定された音源位置が含まれる範囲の中から、顔認識により音源位置を特定することが可能となる。また、音声信号５１の位相差を用いて、音源位置が含まれる範囲を絞ることができるため、顔認識を行う範囲を絞ることができ、効率よく音源位置を特定することができる。

なお、本実施形態においては、操作用装置３０の通信部３１が、推定話者画像５２として、第１の切り出し画像９１、第２の切り出し画像９２を受信し、第１の切り出し画像９１、第２の切り出し画像９２を表示装置３３に表示させる構成を説明した。しかし、操作用装置３０の通信部３１が、推定話者画像５２として、複数のカメラにより撮影された各音源位置の方向の画像を受信していた場合、この各音源位置の方向の画像を、推定話者画像５２として表示装置３３に表示させる構成としてもよい。

［表示装置３３］
表示装置３３は、操作用装置３０に内蔵された、あるいは外部接続された表示装置であり、表示処理部３２の指示に基づき、推定話者画像５２等を表示する。

表示装置３３が、操作用装置３０に外部接続された例としては、表示装置３３として一般的な液晶ディスプレイ、ＥＬディスプレイ、プラズマディスプレイ、プロジェクターなどを用いてもよい。又は、操作者が講義にノートパソコンを用いている場合には、このノートパソコンを操作用装置３０に接続し、操作用装置３０に含まれる表示処理部３２からの指示に応じて、ノートパソコンに含まれる表示装置に推定話者画像５２を表示させてもよい。

［選択受付部３４］
選択受付部３４は、少なくとも一つの推定話者画像５２の中から一つの推定話者画像５２の選択を受け付ける。即ち、選択受付部３４が複数の推定話者画像５２を取得している場合、操作者の操作により、その複数の推定話者画像５２の中から一つの推定話者画像５２の選択を受けつける。選択受付部３４が唯一の推定話者画像５２を取得している場合は、操作者は、この唯一の推定話者画像５２に含まれる話者の音声を強調して聞くか否かを選択し、選択受付部３４は、その操作者による選択を受け付ける。

本実施形態においては、図７に示すように、操作用装置３０がタッチパネル３７を含み、このタッチパネル３７に含まれるタッチセンサが選択受付部３４として機能する。

あるいは、図８に示すように、操作用装置３０がタッチパネル３７、表示装置３３を含まず、別途、入力装置としての選択受付部３４を有する構成としてもよい。この入力装置としては、キーボードやマウスなどの一般的な入力装置であってもよい。あるいは、選択受付部３４が、カメラと画像認識装置とを含み、操作者のジェスチャーを認識することにより操作者の選択を受け付けるジェスチャー認識装置であってもよい。

選択受付部３４が操作者の選択を受け付けると、選択受付部３４は、その選択結果を指向性制御信号生成部３５に送信する。本実施形態においては、操作者が第１の参加者６１の声を強調させて聞きたいと判断し、第１の切り出し画像９１を選択したとする。選択受付部３４は、操作者の選択結果として、この第１の切り出し画像９１に関連付けられた音源位置情報、即ち、図４に示した第１の参加者６１の顔の位置８１が選択された結果を指向性制御信号生成部３５に送信する。

［指向性制御信号生成部３５］
指向性制御信号生成部３５は、選択された推定話者画像５２に関する指向性制御信号５３を生成する。

本実施形態においては、指向性制御信号生成部３５は、選択受付部３４より、第１の切り出し画像９１に関連付けられた音源位置情報として第１の参加者６１の顔の位置８１に関する情報を受信しているため、この第１の参加者６１の顔の位置８１から発生されている音声信号５１の出力を強調することを指示する指向性制御信号５３を生成する。

指向性制御信号生成部３５は、この指向性制御信号５３を、通信部３１を介して撮影収音装置１０に送信する。

［再生処理部３６］
再生処理部３６は、撮影収音装置１０より通信部３１を介して音声信号５１を受信し、この音声信号５１の再生を再生装置４０に指示する。

本実施形態においては、指向性制御信号生成部３５から、第１の参加者６１の顔の位置８１から発生されている音声信号５１の出力を強調することを指示する指向性制御信号５３が撮影収音装置１０に送信されており、撮影収音装置１０に含まれる指向性演算部１６が、上述した操作用装置入力部１５を介して、この指向性制御信号５３を受信している。

指向性演算部１６は、この指向性制御信号５３に基づき、収音部１１から受信した複数の音声信号５１の中から、第１の参加者６１の顔の位置８１からの音声信号５１を、他の音声信号５１よりも強調して、操作用装置３０に送信している。

したがって、再生処理部３６は、第１の参加者６１の顔の位置８１からの音声が強調された音声信号５１を再生するよう、再生装置４０に指示する。

その結果、操作者は、自ら選択した第１の参加者６１からの音声を強調して聞くことができる。

このように、操作者が、本実施形態に係る撮影収音装置１０及び操作用装置３０を含む収音制御システム１００を使用することにより、参加者の顔が拡大された推定話者画像５２を用いて、強調して聞きたい話者を容易に選択することができる。

また、会場が広く、大勢の参加者がいるような場合、収音部１１の音声信号５１のみを用いて話者の顔の位置を特定するためには、非常に高い指向性が求められる。しかし、本実施形態に示すように、音源位置情報生成部１３が顔認識技術を併用することにより、収音部１１の指向性がそれほど高くない場合であっても、音声信号５１の位相差により特定した音源位置が含まれる範囲の中から、顔認識により音源位置、即ち話者の顔の位置を特定することが可能となる。その結果、操作者が、話者の顔が拡大表示されている推定話者画像５２を用いて、強調して聞きたい話者を容易に選択することが可能となる。

［撮影収音装置１０の制御方法］
図１０は、本実施形態に係る撮影収音装置１０の制御方法を示すフローチャートである。以下、図１０を用いて、本実施形態に係る撮影収音装置１０の制御方法について説明する。

［音声信号生成ステップＳ１０１］
撮影収音装置１０の収音部１１は、複数の音声信号を生成する音声信号生成ステップＳ１０１を実施する。

本実施形態においては、収音部１１が、複数のマイクロホンを含むアレイマイクであり、複数のマイクロホンは、それぞれが担当する収音位置周辺の収音を行う。これにより、収音部１１は、マイクロホンの数に応じた複数の音声信号を生成する。

収音部１１は、複数の音声信号５１を、音源位置情報生成部１３と指向性演算部１６に送信する。

［参加者画像撮影ステップＳ１０２］
撮影収音装置１０の撮影部１２は、複数の参加者が表示された参加者画像６０を撮影する参加者画像撮影ステップＳ１０２を実施する。

本実施形態においては、撮影部１２は一つのカメラを有し、このカメラにより、会場内にいる参加者全体を前方から撮影した参加者画像６０を撮影する。

なお、このＳ１０２は、音声信号生成ステップＳ１０１と同時並行に行ってもよく、音声信号生成ステップＳ１０１の後、後述する音源位置情報生成ステップＳ１０３の前に行ってもよい。

［音源位置情報生成ステップＳ１０３］
撮影収音装置１０の音源位置情報生成部１３は、複数の音声信号５１の位相差から音源位置を推定する音源位置情報を生成する音源位置情報生成ステップＳ１０３を実施する。

音源位置情報生成部１３は、収音部１１から取得した複数の前記音声信号５１の位相差に加えて、撮影部１２から取得した参加者画像６０に対する顔認識技術を用いて、推定話者の顔の位置を音源位置として特定する。

本実施形態においては、音源位置情報生成部１３は、音声信号５１の位相差から、音源位置が含まれる第１の範囲７１、第２の範囲７２を特定し、この第１の範囲７１、第２の範囲７２の中から、参加者画像６０に対する顔認識技術を用いて、第１の参加者６１の顔の位置８１、及び第２の参加者６２の顔の位置８２を特定する。この第１の参加者６１の顔の位置８１、第２の参加者６２の顔の位置８２を、それぞれ第１の音源位置情報、第２の音源位置情報として、推定話者画像生成部１４に送信する。また、その際、音源位置情報生成部１３は、第１の範囲７１と第１の参加者６１の顔の位置８１とを関連付け、第２の範囲７２と第２の参加者６２の顔の位置８２とを関連付けて、推定話者画像生成部１４に送信してもよい。

なお、ここで推定話者が一人以上の場合は、後述する推定話者画像生成ステップＳ１０４にステップが移るが、推定話者が一人もいない場合は、上述した音声信号生成ステップＳ１０１にステップは戻る。

［推定話者画像生成ステップＳ１０４］
撮影収音装置１０の推定話者画像生成部１４は、推定話者に関する推定話者画像を生成する推定話者画像生成ステップＳ１０４を実施する。

本実施形態においては、撮影収音装置１０は、音源位置情報生成部１３から取得した第１の音源位置情報、第２の音源位置情報を用いて、撮影部１２から取得した参加者画像６０から推定話者の切り出し画像を生成する。本実施形態においては、第１の参加者６１に関する第１の切り出し画像９１と、第２の参加者６２に関する第２の切り出し画像９２とを生成する。

この第１の切り出し画像９１、第２の切り出し画像９２には、それぞれ音源位置情報生成部１３からの音源位置情報、即ち第１の参加者６１の顔の位置８１、第２の参加者６２の顔の位置８２に関する情報が関連付けられている。更に、本実施形態においては、推定話者画像生成部１４は、参加者画像６０における推定話者画像５２に対応する位置情報を、推定話者画像５２に関連付ける。

なお、本実施形態においては、推定話者画像生成ステップＳ１０４において、推定話者画像生成部１４が、推定話者画像５２として第１の切り出し画像９１、第２の切り出し画像９２を生成する例を説明したが、音源位置情報生成部１３からの音源位置情報に基づき撮影部１２が音源位置の方向の画像を撮影し、推定話者画像生成部１４が、推定話者画像５２として、この音源位置の方向の画像を取得する方法としてもよい。

［推定話者画像送信ステップＳ１０５］
撮影収音装置１０の推定話者画像生成部１４は、生成した推定話者画像５２を操作用装置３０に送信する推定話者画像送信ステップＳ１０５を実施する。

本実施形態においては、推定話者画像生成部１４は、音源位置情報に関連づけられた切り出し画像を推定話者画像５２として操作用装置３０に送信する。更に本実施形態においては、推定話者画像生成部１４は、参加者画像６０における推定話者画像５２に対応する位置情報を、推定話者画像５２に関連付けた状態で、推定話者画像５２を操作用装置３０に、送信する。

［指向性制御信号受信ステップＳ１０６］
指向性制御信号受信ステップＳ１０６は、後述する操作用装置３０の制御方法において、推定話者画像受信ステップＳ２０１、表示処理ステップＳ２０２、選択受付ステップＳ２０３、指向性制御信号生成ステップＳ２０４が実施された後に、撮影収音装置１０において実施されるステップである。

指向性制御信号受信ステップＳ１０６において、撮影収音装置１０の操作用装置入力部１５は、操作用装置３０から送信された指向性制御信号５３を受信する。

本実施形態においては、操作用装置入力部１５は、第１の切り出し画像９１に関連付けられた音源位置情報、即ち第１の参加者６１の顔の位置８１から発生されている音声信号５１の出力を強調することを指示する指向性制御信号５３を、操作用装置３０から受信する。

［指向性演算ステップＳ１０７］
撮影収音装置１０の指向性演算部１６は、指向性制御信号５３に基づき音声信号５１を制御して出力する指向性演算ステップＳ１０７を実施する。

本実施形態においては、指向性演算部１６は、第１の参加者６１の顔の位置８１から発生されている音声信号５１の出力を強調することを指示する指向性制御信号５３を受信している。指向性演算部１６は、この指向性制御信号５３に基づき、収音部１１から受信した複数の音声信号５１の中から、第１の参加者６１の顔の位置８１からの音声信号５１を、他の音声信号５１よりも強調して、操作用装置３０に送信する。

その後、後述する操作用装置３０の制御方法において、音声信号受信ステップＳ２０５、再生処理ステップＳ２０６が実施され、操作用装置３０において、操作者が指定した参加者からの音声が強調され、再生装置４０から出力される。

［操作用装置３０の制御方法］
図１１は、本実施形態に係る操作用装置３０の制御方法を示すフローチャートである。以下、図１１を用いて、本実施形態に係る操作用装置３０の制御方法について説明する。

［推定話者画像受信ステップＳ２０１］
推定話者画像受信ステップＳ２０１は、上述した撮影収音装置１０の制御方法において、音声信号生成ステップＳ１０１、参加者画像撮影ステップＳ１０２、音源位置情報生成ステップＳ１０３、推定話者画像生成ステップＳ１０４、推定話者画像送信ステップＳ１０５が実施された後に、操作用装置３０において実施されるステップである。

操作用装置３０の通信部３１は、撮影収音装置１０により生成された少なくとも一つの推定話者画像５２を受信する推定話者画像受信ステップＳ２０１を実施する。

本実施形態においては、通信部３１は、撮影収音装置１０から、撮影収音装置１０により生成された第１の切り出し画像９１と第２の切り出し画像９２を、推定話者画像５２として受信する。通信部３１は、この第１の切り出し画像９１と第２の切り出し画像９２を、表示処理部３２に送信する。

［表示処理ステップＳ２０２］
操作用装置３０の表示処理部３２は、少なくとも一つの推定話者画像５２を表示装置３３に表示させる表示処理ステップＳ２０２を実施する。即ち、表示処理部３２は、複数の推定話者画像５２を取得している場合は、複数の推定話者画像５２を表示装置３３に表示させ、唯一の推定話者画像５２を取得している場合は、この唯一の推定話者画像５２を表示装置３３に表示させる。

本実施形態においては、表示処理部３２は、第１の切り出し画像９１と、第２の切り出し画像９２を表示装置３３に表示させるとともに、参加者画像６０を合わせて表示させる。

更に、本実施形態においては、参加者画像６０における第１の参加者６１の顔の位置に表示枠８１Ａを表示するとともに、第２の参加者６２の顔の位置に表示枠８２Ａを表示させる。

なお、本実施形態においては、操作用装置３０が、推定話者画像５２として第１の切り出し画像９１、第２の切り出し画像９２を取得しているため、表示処理ステップＳ２０２において、この切り出し画像を表示装置３３に表示させている。しかし、操作用装置３０が、推定話者画像５２として、複数のカメラにより撮影された、各音源位置の方向の画像を推定話者画像５２として取得している場合は、この表示処理ステップＳ２０２において、各音源位置の方向の画像を表示装置３３に表示させる方法としてもよい。

［選択受付ステップＳ２０３］
操作用装置３０の選択受付部３４は、少なくとも一つの推定話者画像５２の中から一つの推定話者画像５２の選択を受け付ける選択受付ステップＳ２０３を実施する。即ち、選択受付部３４が、複数の推定話者画像５２を取得している場合は、この複数の推定話者画像５２の中から、操作者の操作により、一つの推定話者画像５２の選択を受け付ける。選択受付部３４が、唯一の推定話者画像５２を取得している場合は、操作者はその唯一の推定話者画像５２に含まれる話者の声を強調して聞くか否かを判断し、選択受付部３４は、その操作者の判断に基づく選択操作を受け付ける。

本実施形態においては、操作者が第１の参加者６１の声を強調させて聞きたいと判断し、第１の切り出し画像９１を選択したとする。選択受付部３４は、操作者の選択結果として、この第１の切り出し画像９１に関連付けられた音源位置情報、即ち、第１の参加者６１の顔の位置８１からの音声出力を強調する旨を指示する指向性制御信号生成部３５に送信する。

［指向性制御信号生成ステップＳ２０４］
操作用装置３０の指向性制御信号生成部３５は、選択された推定話者画像５２に関する指向性制御信号５３を生成する指向性制御信号生成ステップＳ２０４を実施する。

本実施形態においては、指向性制御信号生成部３５は、選択受付部３４より、第１の切り出し画像９１に関連付けられた音源位置情報として第１の参加者６１の顔の位置８１を受信しているため、この第１の参加者６１の顔の位置８１から発生されている音声信号５１の出力を強調することを指示する指向性制御信号５３を生成する。

［音声信号受信ステップＳ２０５］
音声信号受信ステップＳ２０５は、上述した撮影収音装置１０の制御方法において、指向性制御信号受信ステップＳ１０６、指向性演算ステップＳ１０７が実施された後に、操作用装置３０において実施されるステップである。

音声信号受信ステップＳ２０５において、操作用装置３０の通信部３１は、音声信号５１を受信する。

本実施形態においては、通信部３１は、指向性演算部１６により、第１の参加者６１の顔の位置８１からの音声が強調された音声信号５１を受信する。

［再生処理ステップＳ２０６］
操作用装置３０の再生処理部３６は、通信部３１から音声信号５１を取得し、音声信号５１の再生を再生装置４０に指示する再生処理ステップＳ２０６を実施する。

本実施形態においては、再生処理部３６は、第１の参加者６１の顔の位置８１からの音声が強調された音声信号５１を取得し、この音声信号５１の再生を再生装置４０に指示する。

このような制御方法により、参加者の顔が拡大された推定話者画像５２を用いて、操作者が強調して聞きたい話者を容易に選択することができる。

また、本実施形態の制御方法によれば、音源位置情報生成ステップＳ１０３において、音源位置情報生成部１３が顔認識技術を併用することにより、収音部１１の指向性がそれほど高くない場合であっても、第１の範囲７１、第２の範囲７２に含まれる話者の顔の位置を特定することが可能となる。また、音源位置情報生成部１３は、予め音声信号５１の位相差により特定された第１の範囲７１内、第２の範囲７２内において顔認識を行うことができるため、効率よく話者の顔の位置を特定することができる。

［収音制御システム１００の制御方法］
図１２は、本実施形態に係る収音制御システム１００の制御方法を示すフローチャートである。なお、各ステップについては、撮影収音装置１０の制御方法、操作用装置３０の制御方法において上述した通りであるため、その説明を省略する。

図１２に示すように、収音制御システム１００の制御方法においては、撮影収音装置１０によって行われるステップと、操作用装置３０によって行われるステップとが混在している。撮影収音装置１０によって、音声信号生成ステップＳ１０１、参加者画像撮影ステップＳ１０２、音源位置情報生成ステップＳ１０３、推定話者画像生成ステップＳ１０４、推定話者画像送信ステップＳ１０５が実施された後、操作用装置３０によって、推定話者画像受信ステップＳ２０１、表示処理ステップＳ２０２、選択受付ステップＳ２０３、指向性制御信号生成ステップＳ２０４が実施される。その後、再度フローは撮影収音装置１０に戻り、撮影収音装置１０によって、指向性制御信号受信ステップＳ１０６、指向性演算ステップＳ１０７が実施され、その後、操作用装置３０により、音声信号受信ステップＳ２０５、再生処理ステップＳ２０６、が実施される。

１０撮影収音装置、１１収音部、１２撮影部、１３音源位置情報生成部、１４推定話者画像生成部、１５操作用装置入力部、１６指向性演算部、１７制御部、１８記憶部、２０ネットワーク、３０操作用装置、３１通信部、３２表示処理部、３３表示装置、３４選択受付部、３５指向性制御信号生成部、３６再生処理部、３７タッチパネル、３８制御部、３９記憶部、４０再生装置、５１音声信号、５２推定話者画像、５３指向性制御信号、６０参加者画像、６１第１の参加者、６２第２の参加者、７１第１の範囲、７２第２の範囲、８１顔の位置、８２顔の位置、８１Ａ表示枠、８２Ａ表示枠、９１第１の切り出し画像、９２第２の切り出し画像、１００収音制御システム、Ｓ１０１音声信号生成ステップ、Ｓ１０２参加者画像撮影ステップ、Ｓ１０３音源位置情報生成ステップ、Ｓ１０４推定話者画像生成ステップ、Ｓ１０５推定話者画像送信ステップ、Ｓ１０６指向性制御信号受信ステップ、Ｓ１０７指向性演算ステップ、Ｓ２０１推定話者画像受信ステップ、Ｓ２０２表示処理ステップ、Ｓ２０３選択受付ステップ、Ｓ２０４指向性制御信号生成ステップ、Ｓ２０５音声信号受信ステップ、Ｓ２０６再生処理ステップ。

Claims

音声の入力を受け付け、複数の音声信号を生成する収音部と、
前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第１の音源の位置を特定し、前記参加者の画像に対して前記第１の音源の位置を含む範囲に顔認識を実行することで第２の音源の位置を特定し、該第２の音源の位置を表す位置情報を生成する位置情報生成部と、
前記位置情報を用いて、話者に関する画像を生成する画像生成部と、
少なくとも一つの前記話者に関する画像を表示装置に表示させる表示処理部と、
少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける選択受付部と、
を含む、収音制御システム。
前記比較情報は、複数の前記音声信号の位相差である、
請求項１に記載の収音制御システム。
前記比較情報は、複数の前記音声信号のパワー比である、
請求項１に記載の収音制御システム。
前記画像生成部は、前記話者に関する画像として、前記参加者の画像を加工して前記話者に関する切り出し画像を生成する、
請求項１に記載の収音制御システム。
前記位置情報生成部により生成された前記位置情報に基づき、前記第２の音源の位置の方向の画像を撮影する撮影部を更に含み、
前記画像生成部が、前記第２の音源の位置の方向の画像を前記話者に関する画像として取得する、
請求項１乃至４のいずれか一つに記載の収音制御システム。
前記位置情報生成部は、前記音声信号を時間領域から周波数領域にフーリエ変換し、前記音声信号の内、人の音声に関する周波数領域に含まれる前記音声信号を抽出することで前記第１の音源の位置を特定する、
請求項１乃至５のいずれか一つに記載の収音制御システム。
前記位置情報生成部は、０．２ｋＨｚから４ｋＨｚまでの前記周波数領域に含まれる前記音声信号を抽出することで前記第１の音源の位置を特定する、
請求項６に記載の収音制御システム。
前記画像生成部は、前記位置情報と前記話者に関する画像とを関連付けて、操作用装置に送信する、
請求項１乃至７のいずれか一つに記載の収音制御システム。
前記収音部は、複数のマイクロホンを有するアレイマイクを含む、
請求項１乃至８のいずれか一つに記載の収音制御システム。
前記参加者の画像を撮影する撮影部を更に備えた、
請求項１に記載の収音制御システム。
前記画像生成部は、前記参加者の画像における前記話者に関する画像に対応する位置情報と、前記話者に関する画像と、を関連付けて、操作用装置に送信する、
請求項１に記載の収音制御システム。
前記画像生成部は、前記位置情報を用いて、複数の話者に関する複数の画像を生成する、
請求項１に記載の収音制御システム。
音声の入力を受け付け、複数の音声信号を生成し、
前記複数の音声信号と、複数の参加者が表示された参加者の画像と、を取得し、複数の前記音声信号の間の比較情報を用いて第１の音源の位置を特定し、前記参加者の画像に対して前記第１の音源の位置を含む範囲に顔認識を実行することで第２の音源の位置を特定し、該第２の音源の位置を表す位置情報を生成し、
前記位置情報を用いて、話者に関する画像を生成し、
少なくとも一つの前記話者に関する画像を表示装置に表示させ、
少なくとも一つの前記話者に関する画像の中から一つの画像の選択を受け付ける、
収音制御システムの制御方法。