JP7259878B2

JP7259878B2 - 収音装置、収音プログラム、及び収音方法

Info

Publication number: JP7259878B2
Application number: JP2021034712A
Authority: JP
Inventors: 宗大原; 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2023-04-18
Anticipated expiration: 2041-03-04
Also published as: JP2022135110A

Description

本発明は、収音装置、プログラム及び方法に関し、例えば、目的エリアの位置を推定し、そのエリアを中心に収音する処理に適用し得る。

従来、音声通信システムを利用する場合、複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下「ＢＦ」と表す）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。

ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図１０は、従来の減算型ＢＦに係る構成を示すブロック図である。

図１０に示す従来の減算型ＢＦでは、マイクロホン数が２個となっている。

従来の減算型ＢＦは、まず遅延器により目的とする方向に存在する音（以下、「目的音」とも呼ぶ）が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。従来の減算型ＢＦの遅延器では、時間差は下記（１）式により算出される。

下記の（１）式において、ｄはマイクロホン間の距離、ｃは音速、τｉは遅延量である。また、下記の（１）式において、θＬは、各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
τ_Ｌ＝（ｄｓｉｎθ_Ｌ）／ｃ…（１）

ここで、死角が第１のマイクロホンと第２のマイクロホンの中心に対し、第１のマイクロホンの方向に存在する場合、従来の減算型ＢＦにおける遅延器は、第１のマイクロホンの入力信号ｘ１（ｔ）に対し遅延処理を行う。その後、遅延処理された入力信号ｘ１（ｔ）は、（２）式に従い減算処理される。
Ａ（ｔ）＝ｘ_２（ｔ）－ｘ_１（ｔ－τ_Ｌ）…（２）

減算処理は周波数領域でも同様に行うことができ、その場合（２）式は以下の（３）式のように変更される。

ここでθＬ＝±π／２の場合、形成される指向性は図１１（Ａ）に示すように、カージオイド型の単一指向性となり、θＬ＝０，πの場合は、図１１（Ｂ）のような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。

またスペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性の形成は、（４）式に従う。（４）式では、第１のマイクロホンＭ１の入力信号Ｘ_１を用いているが、第２のマイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。（４）式において、βはＳＳの強度を調節するための係数である。減算時に値がマイナスとなった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」とも呼ぶ）を抽出し、抽出した非目的音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的音を強調することができる。
｜Ｙ_１（ω）｜＝｜Ｘ_１（ω）｜－β｜Ａ_１（ω）｜…（４）

ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源（以下、「非目的エリア音」とも呼ぶ）も収音してしまう可能性がある。そこで特許文献１では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法を提案している。

図１２は、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源からの目的エリア音を収音する場合における各マイクロホンアレイの構成例について示した説明図である。

図１３は、図１２に示すマイクロホンアレイＭＡ１、ＭＡ２のそれぞれのＢＦ出力について周波数領域で示した説明図（グラフ）である。図１３（ａ）、図１３（ｂ）は、それぞれマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力について周波数領域で示したグラフ（イメージ図）である。

特許文献１に記載された手法では、まず各マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。例として２つのマイクロホンアレイＭＡ１、ＭＡ２を使用する場合、目的エリア音パワーの補正係数は、（５）式または（６）式により算出される。

ここで｜Ｙ１ｋ｜，｜Ｙ２ｋ｜はマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の周波数ｋのパワー、Ｎは周波数ビンの総数、αはＢＦ出力に対するパワー補正係数である。また、ｍｏｄｅは最頻値、ｍｅｄｉａｎは中央値を表している。その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより自的エリア音を抽出することができる。

図１４は、図１２に示すマイクロホンアレイＭＡ１、ＭＡ２を用いて取得したＢＦ出力に基づいてエリア収音処理した場合における各周波数成分のパワースペクトルの変化について示した説明図（イメージを図）である。

まず、マイクロホンアレイＭＡ１の入力信号Ｘ１から、非目的エリア音Ｎ２を抑圧したＢＦ出力Ｙ１を得る（図１４（ａ）参照）。

マイクロホンアレイＭＡ１からみた目的エリア方向に存在する非目的エリア音Ｎ１（ｎ）を抽出するには、（７）式に示すように、マイクロホンアレイＭＡ１のＢＦ出力Ｙ２（ｎ）からマイクロホンアレイＭＡ２のＢＦ出力Ｙ２（ｎ）にパワー補正係数αを掛けたものをＳＳする（図１４（ｂ）参照）。その後、（８）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する（図１４（ｃ）参照）。γ（ｎ）はＳＳ時の強度を変更するための係数である。
Ｎ_１＝Ｙ_１－αＹ_２…（７）
Ｚ_１＝Ｙ_１－γＮ_１…（８）

特開２０１４－７２７０８号公報

しかしながら、特許文献１の記載技術は、各マイクロホンアレイを用いたＢＦで指向性を形成することでその交差部分を目的エリアとして強調できるが、あらかじめその目的エリアを設定するために事前に用意された角度θＬを使用している。従って、利用者の発話位置が目的エリア外にある場合、つまり利用者の方向が角度θＬでない場合は収音できないという問題がある。

つまり、特許文献１の記載技術を用いて話者の発話音を収音する場合、あらかじめ設定された固定の場所でしか収音しないので、話者はその場所で発話する必要がある。そのため、話者がその固定の場所から離れてしまうと収音することができない。

以上のような従来技術の問題に鑑みて、話者の発話位置によらず安定的に収音できる収音装置、及びプログラム及び方法が望まれている。

第１の本発明の収音装置は、（１）収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持する目的位置情報保持手段と、（２）複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、（３）前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出する算出手段と、（４）それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段とを有することを特徴とする。

第２の本発明の収音プログラムは、コンピュータを、（１）収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持する目的位置情報保持手段と、（２）複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、（３）前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出するそれぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、（４）それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段として機能させることを特徴とする。

第３の本発明は、収音装置が行う収音方法において、（１）目的位置情報保持手段、マイクロホンアレイ設置状態情報保持手段、算出手段、及び目的エリア音抽出手段を有し、（２）前記目的位置情報保持手段は、収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持し、（３）前記マイクロホンアレイ設置状態情報保持手段は、複数のマイクロホンアレイの設置状態に関する設置状態情報を保持し、（４）前記算出手段は、前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出するそれぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出し、（５）前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出することを特徴とする。

本発明によれば、話者の発話位置によらず収音する収音装置を提供することができる。

実施形態に係る収音装置の機能的構成について示したブロック図である。実施形態に係る収音装置を構成するセンサ部の内部構成について示したブロック図である。実施形態に係る収音装置を構成する収音部の内部構成について示したブロック図である。実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。実施形態に係る目的位置認識処理部の処理の例について示した説明図である。実施形態に係る極座標取得部がイメージセンサ画像上で目的位置を認識する処理の例について示した図である。実施形態に係る座標算出部が、目標位置の極座標（φ、θ、Ｒ）を直交座標系（Ｘ，Ｙ，Ｚ）に変換する処理について示した説明図である。実施形態に係るマイクロホンアレイ設置情報保持部が保持するマイクロホンアレイ設置情報の例について示した図である。実施形態に係るビームフォーマ角度距離算出部の処理の例について示した図である。従来のマイクロホン数が２個の場合の減算型ＢＦに係る構成を示すブロック図である。従来の２個のマイクロホンを用いた減算型ＢＦにより形成される指向特性を示す図である。従来の２つのマイクロホンアレイを用いて、目的エリアの音源からの目的エリア音を収音する場合における各マイクロホンアレイの構成例について示した説明図である。従来の２つマイクロホンアレイのそれぞれのＢＦ出力について周波数領域で示した説明図である。従来の２つのマイクロホンアレイを用いて取得したＢＦ出力に基づいてエリア収音処理した場合における各成分のパワースペクトルの変化について示した説明図である。

（Ａ）主たる実施形態
以下、本発明による収音装置、及びプログラム及び方法の一実施形態を、図面を参照しながら詳述する。

（Ａ－１）実施形態の構成
図１は、この実施形態に係る収音装置１の機能的構成を示すブロック図である。

収音装置１は、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源（目的音源）からの目的エリア音を収音する目的エリア音収音処理を行う。以下では、マイクロホンアレイＭＡ１、ＭＡ２を総称してマイクロホンアレイＭＡとも呼ぶものとする。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイＭＡは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ１、Ｍ２が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイＭＡは、２ｃｈマイクロホンアレイを構成しているものとする。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

また、収音装置１は、センサ装置ＳＥを用いて、目的エリアの位置（以下、「目的位置」と呼ぶ）を認識する処理（以下、「目的エリア認識処理」と呼ぶ）を行う。

センサ装置ＳＥも、目的エリア（目的音源）及びマイクロホンアレイＭＡと同じ空間の任意の場所に配置されているのとする。

センサ装置ＳＥは、１又は複数のセンサを用いて目的位置を認識するためのセンシングを行うことが可能なデバイスである。目的位置のセンシングが可能であればセンサ装置ＳＥが備えるセンサ種類や数については限定されないものである。この実施形態の例では、センサ装置ＳＥには、距離画像センサＳ１とイメージセンサＳ２の２つのセンサが搭載される例について説明する。以下では、距離画像センサＳ１により得られる画像を「距離画像」と呼び、イメージセンサＳ２により得られる画像を「イメージセンサ画像」と呼ぶものとする。

距離画像センサＳ１は、３次元空間内の方向ごとの対象物までの距離（センサ光を反射する対象物までの距離）を測定することで、距離画像（距離を画素値とする画像）を得ることができるセンサである。距離画像センサＳ１としては、種々の距離画像センサを適用することができる。

イメージセンサＳ２は、いわゆるディジタルカメラのセンサである。イメージセンサＳ２としては種々のディジタルカメラを構成するセンサを適用することができる。

以下では、目的位置、マイクロホンアレイＭＡ、及びセンサ装置ＳＥ（各センサを含む）の３Ｄ空間内の各位置を説明する際には、Ｘ軸、Ｙ軸及びＺ軸が存在する三次元直交座標系（以下、単に「直交座標系」とも呼ぶ）を主座標系として用いるものとする。また、上記の直交座標系（３Ｄ空間）では、Ｚ軸を垂直方向（高さ方向）とし、Ｘ軸及びＹ軸を水平方向（横方向）とするものとして説明する。さらに、以下では、上記の直交座標系は、センサ装置ＳＥの位置（例えば、距離画像センサＳ１による測定距離が０となる位置）を原点Ｏ（Ｘ＝０、Ｙ＝０、Ｚ＝０）とした座標系として説明する。さらにまた、以下では、目的位置をＰＴとも表すものとする。

ここでは、距離画像センサＳ１は、Ｘ－Ｙ平面（Ｘ軸とＹ軸により形成される平面；水平面）上の方向を示す角度（以下、「方位角」と呼ぶ）φと、水平面（Ｘ－Ｙ平面）を基準とした上下方向（Ｚ軸方向）の角度（以下、「仰俯角」と呼ぶ）θの組み合わせごとに距離Ｒを測定することが可能であるものとする。すなわち、距離画像は、方位角φと仰俯角θの組合せごとの距離Ｒにより形成されるものとする。言い換えると、距離画像は、方位角φ、仰俯角θ及び距離Ｒを組み合わせた三次元極座標（以下、単に「極座標」とも呼ぶものとする）の集合体であると言える。

図５は、距離画像センサＳ１が測定する極座標の例について示した図である。

図５では、任意の位置Ｐにおける方位角φ、仰俯角θ及び距離Ｒを示している。

また、この実施形態では、イメージセンサＳ２が撮像するイメージセンサ画像（２Ｄ画像）の座標を「２Ｄ座標」と呼ぶものとする。２Ｄ座標は垂直方向の座標（Ｙ座標）と水平方向の座標（Ｘ座標）で表される二次元の座標系（二次元の直交座標系）であるものとする。

次に、収音装置１の内部構成について図１を用いて説明する。

図１に示す通り、収音装置１は、収音部１０、マイクロホンアレイ設置情報保持部２０、目的位置認識処理部３０、及びビームフォーマ角度距離算出部４０を有している。

マイクロホンアレイ設置情報保持部２０は、各マイクロホンアレイＭＡの設置状態に関する情報（以下、「マイクロホンアレイ設置情報」と呼ぶ）を保持する機能を担っている。マイクロホンアレイ設置情報の詳細については後述する。

目的位置認識処理部３０は、センサ装置ＳＥが取得した検知結果に基づき、目的位置を認識する機能を担っている。この実施形態では、目的位置認識処理部３０は、センサ装置ＳＥ（距離画像センサＳ１及びイメージセンサＳ２）が撮像した距離画像及びイメージセンサ画像により、センサ装置ＳＥの検知範囲内（視野内）の話者（人間）の口元の位置を目的位置として取得するものとして説明する。目的位置認識処理部３０の処理の詳細については後述する。

ビームフォーマ角度距離算出部４０は、各マイクロホンアレイＭＡから、目的位置認識処理部３０が認識した目的位置への角度（方向）及び距離を計算して取得する機能を担っている。

収音部１０は、各マイクロホンアレイＭＡのビームフォーマ出力に基づいて目的位置を含む目的エリアからの目的エリア音を収音する機能を担っている。収音部１０は、ビームフォーマ角度距離算出部４０の計算結果に従って、各マイクロホンアレイＭＡから目的位置の方向に指向性を形成したビームフォーマ出力を取得し、取得したビームフォーマ出力に基づいて目的エリア音を抽出して取得する。

次に、目的位置認識処理部３０の内部構成の例について、図２を用いて説明する。

図２に示すように、目的位置認識処理部３０は、極座標取得部３１及び座標算出部３２を有している。

極座標取得部３１は、距離画像とイメージセンサ画像に基づいて、原点Ｏから目的位置への極座標（φ、θ、Ｒ）を取得する処理を行う。極座標取得部３１が目的位置への極座標を得る処理の詳細については後述する。

座標算出部３２は、極座標取得部３１が取得した極座標（φ、θ、Ｒ）から直交座標（Ｘ、Ｙ、Ｚ）を算出して取得する処理を行う。

次に、収音部１０の内部構成の例について、図３を用いて説明する。

図３に示すように、収音部１０は、データ入力部１１、指向性形成部１２、遅延補正部１３、補正係数算出部１４、及び目的エリア音抽出部１５を有している。収音部１０の各要素の処理の詳細については後述する。

収音装置１は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

次に、図４を用いて、収音装置１のハードウェア構成について説明する。

図４は、収音装置１のハードウェア構成の例について示したブロック図である。

図４では、収音装置１を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図４に示す収音装置１は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ２００を有している。また、コンピュータ２００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図４に示すコンピュータ２００は、プロセッサ２０１、一次記憶部２０２、及び二次記憶部２０３を有している。一次記憶部２０２は、プロセッサ２０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨ（登録商標）メモリやＨＤＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ２００では、プロセッサ２０１が起動する際、二次記憶部２０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部２０２上に展開して実行する。

なお、コンピュータ２００の具体的な構成は図４の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部２０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部２０３については除外した構成としてもよい。

（Ａ－２）実施形態の動作
次に、以上のような構成を有するこの実施形態の収音装置１の動作（実施形態の収音方法）を説明する。

まず、目的位置認識処理部３０の動作について説明する。

上述の通り、極座標取得部３１は、距離画像とイメージセンサ画像に基づいて、原点Ｏから目的位置への極座標（φ、θ、Ｒ）を取得する処理を行う。

この実施形態の例では、極座標取得部３１は、イメージセンサ画像（２Ｄ画像）に映っている話者（人間）の口元の位置（２Ｄ座標）を目的位置（２Ｄ画像上の目的位置）として取得し、取得した目的位置の２Ｄ座標を、極座標（φ、θ、Ｒ）に変換するものとする。

例えば、極座標取得部３１は、イメージセンサ画像で、人間の顔が写っている領域、及び当該人間の口元が写っている領域を認識し、その口元が写っている領域の中心位置をイメージセンサ画像（２Ｄ画像）上の目的位置として認識するようにしてもよい。極座標取得部３１では、種々の顔認識処理により、イメージセンサ画像から人間の口元（人間の特定部位）の写っている領域を認識することができる。

図６は、極座標取得部３１がイメージセンサ画像上で目的位置を認識する処理の例について示した図である。

図６（ａ）は、イメージセンサ画像の例について示した図である。

図６（ａ）に示すイメージセンサ画像Ｇ１０１では、１人の話者（人間）が写っており、顔認識処理（具体的な方式については限定されないものである）により当該話者の顔を含む矩形の領域をバウンディングボックス（外接矩形）として切り出すことができる。図６（ａ）では、話者の顔を含むバウンディングボックスＢＢ１について点線の枠を図示している。

図６（ｂ）は、図６（ａ）に示すバウンディングボックスＢＢ１を拡大して示した図である。

そして、ここでは、極座標取得部３１は、顔認識処理（具体的な方式については限定されないものである）により、バウンディングボックスＢＢ１から、口元（口）が写っている領域を含むバウンディングボックスＢＢ２を抽出したものとする。そして、ここでは、極座標取得部３１は、バウンディングボックスＢＢ２の中心位置の２Ｄ座標をイメージセンサ画像（２Ｄ画像）上の目的位置ＰＴとして取得したものとする。

そして、極座標取得部３１は目的位置ＰＴの２Ｄ座標を極座標（φ、θ、Ｒ）に変換して取得する。例えば、イメージセンサＳ２の位置と原点Ｏとの相対的な位置関係が把握されていれば（例えば、距離画像センサＳ１とイメージセンサＳ２とが同じ位置に設定されている場合）、極座標取得部３１が、イメージセンサ画像（２Ｄ画像）上の座標（２Ｄ座標）を極座標上の方向（φ、θ）に変換し、距離画像から当該方向の距離Ｒを取得することは、種々の座標変換処理（２Ｄ座標を極座標や３Ｄ座標に変換する処理）により実現することができる。

以上のように、極座標取得部３１では、距離画像とイメージセンサ画像に基づいて、原点Ｏから目的位置への極座標（φ、θ、Ｒ）を取得し、座標算出部３２に供給することができる。

そして、座標算出部３２は、供給された極座標（φ、θ、Ｒ）を直交座標（Ｘ、Ｙ、Ｚ）に変換し、収音部１０に供給する。極座標（φ、θ、Ｒ）を直交座標（Ｘ、Ｙ、Ｚ）に変換することは、種々の座標変換処理により実現可能である。

図７は、座標算出部３２が、目標位置ＰＴの極座標（φ、θ、Ｒ）を直交座標（Ｘ，Ｙ，Ｚ）に変換する処理について示した説明図である。

例えば、座標算出部３２は、図７に示すように、Ｘ＝Ｒｓｉｎθｃｏｓφ、Ｙ＝Ｒｓｉｎθｓｉｎφ、Ｚ＝Ｒｓｉｎθと算出することで、極座標（φ、θ、Ｒ）に基づき直交座標系（Ｘ，Ｙ，Ｚ）を取得することができる。

次に、マイクロホンアレイ設置情報保持部２０が保持するマイクロホンアレイ設置情報の例について図８、図９を用いて説明する。

ここでは、マイクロホンアレイ設置情報保持部２０には、マイクロホンアレイＭＡ１、ＭＡ２の位置と、マイクロホンアレイＭＡ１、ＭＡ２の設置されている角度（姿勢；以下、「マイクロホンアレイ角度」と呼ぶ）の情報が保持されているものとする。

図８、図９では、マイクロホンアレイＭＡ１、ＭＡ２の位置をそれぞれＰ１、Ｐ２としている。図８、図９では、各マイクロホンアレイＭＡの位置（Ｐ１、Ｐ２）を、マイクロホンＭ１とマイクロホンＭ２の位置を結んだ線の中点としている。以下では、マイクロホンアレイＭＡ１の位置Ｐ１の直交座標を（Ｘ，Ｙ，Ｚ）＝（ＭＡ１ｘ，ＭＡ１ｙ，ＭＡ１ｚ）と表し、マイクロホンアレイＭＡ２の位置Ｐ２の直交座標を（Ｘ，Ｙ，Ｚ）＝（ＭＡ２ｘ，ＭＡ２ｙ，ＭＡ２ｚ）とする。

なお、図８、図９では、説明を簡易とするため、各マイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）の各マイクロホンＭ（Ｍ１、Ｍ２）のＺ軸方向の位置は全て同じ（Ｚ軸の座標は全て同じ）である場合について図示している。

また、図８、図９では、Ｘ軸からマイクロホンアレイＭＡ１の各マイクロホン（Ｍ１、Ｍ２）を通る線をＬ１１とし、線Ｌ１１とＸ軸が成す角をφＭＡ１としている。さらに、図８では、Ｘ軸からマイクロホンアレイＭＡ２の各マイクロホン（Ｍ１、Ｍ２）を通る線をＬ２１とし、線Ｌ２１とＸ軸が成す角をφＭＡ２としている。

ここでは、マイクロホンアレイ設置情報保持部２０には、マイクロホンアレイＭＡ１、ＭＡ２の位置情報としてＰ１、Ｐ２の座標が保持され、マイクロホンアレイＭＡ１、ＭＡ２のマイクロホンアレイ角度としてφＭＡ１、φＭＡ２が保持されているものとする。

次に、ビームフォーマ角度距離算出部４０の処理の例について図９を用いて説明する。

ビームフォーマ角度距離算出部４０は、マイクロホンアレイ設置情報（位置及びマイクロホンアレイ角度）と目的位置の座標に基づき、各マイクロホンアレイＭＡのビームフォーマの向き（指向性の向き）を算出する。言い換えると、ビームフォーマ角度距離算出部４０は、各マイクロホンアレイＭＡから目的位置ＰＴへの方向（角度）を算出する。

ビームフォーマ角度距離算出部４０は、各マイクロホンアレイＭＡについて、仮原点を置き、当該仮原点からマイクロホンアレイ角度分傾けた直交座標系において、その直交座標系のＹ軸と仮原点から目的位置までの方向との成す角度をビームフォーマ角度として取得する。また、ビームフォーマ角度距離算出部４０は、そのときの仮原点から目的位置までの距離をビームフォーマ距離として取得する。

図９では、マイクロホンアレイＭＡ１について位置Ｐ１を仮原点Ｏ’と置いた場合において、直交座標系のＸ軸とＹ軸をマイクロホンアレイ角度φＭＡ１分傾けた場合のＹ’軸として線Ｌ１２を図示している。また、図９では、Ｙ’軸（線Ｌ１２）と原点Ｏ’から目的位置ＰＴへの方向との成す角度をφＢＦ１としている。さらに、図９では、原点Ｏ’と目的位置ＰＴとの間の距離（ビームフォーマ距離）をｄ＿ＢＦ１としている。

図９では、マイクロホンアレイＭＡ２について位置Ｐ２を仮原点Ｏ’’と置いた場合において、直交座標系のＸ軸とＹ軸をマイクロホンアレイ角度φＭＡ２分傾けた場合のＹ’’軸として線Ｌ２２を図示している。また、図９では、Ｙ’’軸（線Ｌ２２）と原点Ｏ’’から目的位置ＰＴへの方向との成す角度をφＢＦ２としている。さらに、図９では、原点Ｏ’’と目的位置ＰＴとの間の距離（ビームフォーマ距離）をｄ＿ＢＦ２としている。

このとき、ｄ＿ＢＦ１、ｄ＿ＢＦ２は、それぞれ（９）式、（１０）式で示すことができる。

なお、ビームフォーマ角度距離算出部４０は、マイクロホンアレイＭＡが仰俯角方向（Δθ）に傾いているときは、（９）式、（１０）式においてθを「θ＋Δθ」としてビームフォーマ距離を計算するものとする。

次に、収音部１０の動作について説明する。

データ入力部１１は、各マイクロホンアレイＭＡ１、ＭＡ２で収音した音響信号をアナログ信号からディジタル信号に変換する。そして、データ入力部１１１は、当該ディジタル信号について、変換処理（例えば、高速フーリエ変換等を用いて時間領域から周波数領域へ変換する処理）を行う。

指向性形成部１２では、マイクロホンアレイＭＡ１、ＭＡ２毎に、ビームフォーマ角度方向φＢＦ１、φＢＦ２を目的方向として、目的方向以外に存在する非目的エリア音を抽出（例えば、双指向性フィルタにより抽出）し、抽出した非目的エリア音のパワースペクトルを入力信号のパワースペクトルから減算することで、目的エリア方向に指向性を形成した音（ＢＦ出力）を取得する。

具体的には、指向性形成部１２は、例えばマイクロホンアレイＭＡ１では、（１１）式のように第１のマイクロホンＭ１と第２のマイクロホンＭ２の遅延時間を求め、それを基に（１２）式のように減算処理を行う。ここで、死角が第１のマイクロホンＭ１と第２のマイクロホンＭ２の中心に対し、第１のマイクロホンＭ１の方向に存在する場合、減算型ＢＦにおける遅延器は、第１のマイクロホンＭ１の入力信号ｘ１（ｔ）に対し遅延処理を行う。

その後、遅延処理された入力信号ｘ１（ｔ）は、（１２）式に従い減算処理される。減算処理は周波数領域でも同様に行うことができ、その場合（１２）式は（１３）式のように変更される。最終的に（４）式に従いＢＦにより目的エリア方向に指向性を形成した音をＢＦ出力として取得する。マイクロホンアレイＭＡ２でも同様にして、目的エリア方向に指向性を形成した音をＢＦ出力として取得する。

遅延補正部１３は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出して補正する。遅延補正部１３は、マイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）のビームフォーマ方向距離の差分から、各マイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）への目的エリア音の到達時間の差を算出する。そして、最も目的エリアから遠い位置に配置されたマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を基準として、全てのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）に目的エリア音が同時に到達するように遅延を加える。

補正係数算出部１４は、各ＢＦ出力に含まれる目的エリア音成分のパワーを同じにするための補正係数を（５）式または（６）式に従い算出する。

目的エリア音抽出部１５は、補正係数算出部１４で算出した補正係数により補正した各ＢＦ出力データを（７）式に従いＳＳし、目的エリア方向に存在する雑音を抽出する。さらに、目的エリア音抽出部１５は、抽出した雑音を各ＢＦの出力から（８）式に従いＳＳすることにより目的エリア音を抽出する。

そして、目的エリア音抽出部１５は、抽出した目的エリア音を出力する。目的エリア音抽出部１５は、が出力する信号の形式は限定されないものであり、種々の形式を適用することができる。例えば、目的エリア音抽出部１５は、目的エリア音を所定の形式のディジタル音響信号（例えば、ＰＣＭ形式の信号）や所定のコーデックにより符号化して出力（出力する方式については限定されない）するようにしてもよい。また、目的エリア音抽出部１５は、抽出した目的エリア音を、アナログ音響信号として出力（例えば、図示しないスピーカに出力）するようにしてもよい。

（Ａ－３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の、収音装置１では、センサ装置ＳＥを用いて目的位置を特定し、各マイクロホンアレイのビームフォーマの指向性を当該目的位置に向けて目的エリア音を抽出するため、話者の発話位置（話者の口元の位置）によらず話者の発話音声を安定的に収音することができる。

（Ｂ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ－１）この実施形態では、三次元空間内における話者の口元の位置を認識するためのセンサとして距離画像センサＳ１及びイメージセンサＳ２を備えるセンサ装置ＳＥを用いたが、話者の口元の位置を認識可能であればその他のセンサであってもよい。例えば、距離画像センサＳ１を、その他の距離測定（深度測定）可能なセンサ（例えば、複数のカメラにより深度マッピング可能なステレオカメラ等）に置き換えるようにしてもよい。

また、上記の実施形態の収音装置１では、センサ装置ＳＥを用いて目的位置を認識しているが、目的位置の極座標（又は直交座標）自体が外部から供給される構成としてもよい。

（Ｂ－２）上記の実施形態では、目的位置認識処理部３０は、極座標取得部３１と座標算出部３２を備えているが、極座標を経由せずに直接直交座標（Ｘ，Ｙ，Ｚ）を取得（例えば、２Ｄ画像から直接座標変換により３Ｄ座標を取得）する構成としてもよい。

１…収音装置、１０…収音部、１１…データ入力部、１２…指向性形成部、１３…遅延補正部、１４…補正係数算出部、１５…目的エリア音抽出部、２０…マイクロホンアレイ設置情報保持部、３０…目的位置認識処理部、３１…極座標取得部、３２…座標算出部、４０…ビームフォーマ角度距離算出部、ＭＡ、ＭＡ１、ＭＡ２…マイクロホンアレイ、Ｍ、Ｍ１、Ｍ２…マイクロホン、ＳＥ…センサ装置、Ｓ１…距離画像センサ、Ｓ２…イメージセンサ。

Claims

収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持する目的位置情報保持手段と、
複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、
前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出する算出手段と、
それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と
を有することを特徴とする収音装置。
前記設置状態情報には、それぞれの前記マイクロホンアレイの位置と角度の情報が含まれることを特徴とする請求項１に記載の収音装置。
前記目的位置情報保持手段は、話者の口元の位置を前記目的位置として取得することを特徴とする請求項１又は２に記載の収音装置。
前記目的位置情報保持手段は、距離画像センサにより撮像された距離画像と、イメージセンサにより撮像されたイメージセンサ画像とを用いて、前記話者の前記口元の位置を前記目的位置として取得することを特徴とする請求項３に記載の収音装置。
コンピュータを、
収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持する目的位置情報保持手段と、
複数のマイクロホンアレイの設置状態に関する設置状態情報を保持するマイクロホンアレイ設置状態情報保持手段と、
前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出するそれぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出する算出手段と、
それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と
して機能させることを特徴とする収音プログラム。
収音装置が行う収音方法において、
目的位置情報保持手段、マイクロホンアレイ設置状態情報保持手段、算出手段、及び目的エリア音抽出手段を有し、
前記目的位置情報保持手段は、収音する目的位置を検知するセンサ装置で検知した前記目的位置の位置情報を保持し、
前記マイクロホンアレイ設置状態情報保持手段は、複数のマイクロホンアレイの設置状態に関する設置状態情報を保持し、
前記算出手段は、前記目的位置の位置情報と、前記マイクロホンアレイの前記設置状態情報とに基づいて、それぞれの前記マイクロホンアレイについて、設置された姿勢と前記センサ装置の位置を原点とした第１の直交座標系の座標軸とが成すマイクロホンアレイ角度を取得し、それぞれの前記マイクロホンアレイについて、前記マイクロホンアレイの位置を仮原点とし前記第１の直交座標系の座標軸を前記マイクロホンアレイ角度分傾けた第２の直交座標系を設定し、それぞれの前記マイクロホンアレイについて、前記第２の直交座標系の座標軸と前記仮原点から前記目的位置までの方向との成すビームフォーマ角度を算出し、それぞれの前記マイクロホンアレイについて、前記仮原点から前記目的位置までの距離をビームフォーマ距離として算出するそれぞれの前記マイクロホンアレイから前記目的位置への角度と距離を算出し、
前記目的エリア音抽出手段は、それぞれの前記マイクロホンアレイからの入力信号について、前記算出手段が算出した前記マイクロホンアレイごとの前記ビームフォーマ角度と前記ビームフォーマ距離に基づき、前記目的位置へ指向性を形成したビームフォーマ出力を取得し、それぞれの前記ビームフォーマ出力を用いて、前記目的位置を含む目的エリアを音源とする目的エリア音を抽出する
ことを特徴とする収音方法。