JP6923025B1

JP6923025B1 - 収音装置、プログラム及び方法

Info

Publication number: JP6923025B1
Application number: JP2020030289A
Authority: JP
Inventors: 大藤枝; 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2021-08-18
Anticipated expiration: 2040-02-26
Also published as: JP2021136528A

Abstract

【課題】本発明によれば、より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法を提供することができる。【解決手段】本発明は収音装置に関する。そして本発明の収音装置は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれのマイクロホンアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する手段と、目的エリア音を用いて、入力信号から目的エリア音の成分を除去して非目的エリア音を抽出する手段と、それぞれのマイクロホンアレイを構成するそれぞれのマイクロホンの非目的エリア音を比較し、比較結果に基づく選択処理を行う手段と、抽出された目的エリア音成分に、選択結果に基づく混合信号を混合する手段と、混合した混合後信号を出力する出力手段とを有することを特徴とする。【選択図】図１

Description

この発明は、収音装置、プログラム及び方法に関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。

複数の音源が存在する環境下において、ある特定方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下「ＢＦ」とも呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。

従来、ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型即に比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図４は、マイクロホンＭの数が２個の場合の減算型ＢＦ２００に係る構成を示すブロック図である。

図５は、２個のマイクロホンＭ１、Ｍ２を用いた減算型ＢＦ２００により形成される指向性フィルタの例について示した説明図である。

減算型ＢＦ２００は、まず遅延器２１０により目的とする方向に存在する音（以下、「目的音」と呼ぶ）が各マイクロホンＭ１、Ｍ２に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。上述の時間差は以下の（１）式により算出することができる。

ここで、ｄはマイクロホンＭ１、Ｍ２間の距離、ｃは音速、τ_Ｌは遅延量である。またθ_Ｌは、各マイクロホンＭ（Ｍ１、Ｍ２）を結んだ直線に対する垂直方向から目的方向への角度である。

また、ここで、死角がマイクロホンＭ１とＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、遅延器２１０は、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算型ＢＦ２００では、以下の（２）式に従い処理（減算処理）を行う。

減算型ＢＦ２００の処理は周波数領域でも同様に行うことができ、その場合（２）式は以下の（３）のように変更される。

ここでθ_Ｌ＝±π／２の場合、減算型ＢＦ２００により形成される指向性は図５(ａ)に示すように、カージオイド型の単一指向性となる。また、「θ_Ｌ＝０，π」の場合、減算型ＢＦ２００により形成される指向性は、図５(ｂ)のような８の字型の双指向性となる。

以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを双指向性フィルタと呼ぶものとする。

また、減算器２２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下、単に、「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、以下の（４）式に従い全周波数、もしくは指定した周波数帯域で形成される。

以下の（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβは、ＳＳの強度を調節するための係数である。また、減算器２２０では、減算時に値がマイナスなった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。以上のような減算型ＢＦ２００の処理方式では、双指向性の特性によって目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。

ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源の音（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。そこで、特許文献１では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアヘ指向性を向けレ指向性を目的エリアで交差させることで目的エリア音を収音する手法（以下、「エリア収音」と呼ぶ）を提案している。エリア収音では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。

例えば、２つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、以下の（５）式及び（６）式の組み合わせ、又は以下の（７）式及び（８）式の組み合わせにより算出することができる。ここで、Ｙ_１ｋ（ｎ）は第１のマイクロホンアレイのＢＦ出力の振幅スペクトルであり、Ｙ_２ｋ（ｎ）は第２のマイクロホンアレイのＢＦ出力の振幅スペクトルであり、Ｎは周波数ビンの総数であり、ｋは周波数である。また、ここで、α_１（ｎ）、α_２（ｎ）は各ＢＦ出力に対する振幅スペクトル補正係数である。さらに、ここで、ｍｏｄｅは最頻値を表し、ｍｅｄｅｉａｎは中央値を表している。

以上の処理により、減算器２２０は、補正係数α_１（ｎ）、α_２（ｎ）を求め、求めた補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。さらに、減算器２２０は、抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

減算型ＢＦ２００は、第１のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出する際、例えば、（９）式に示すように、第１のマイクロホンアレイのＢＦ出力Ｙ_１（ｎ）から第２のマイクロホンアレイのＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数α_２を掛けたものをＳＳする。減算型ＢＦ２００は、同様に、以下の（１０）式に従い、第２のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。

その後、減算型ＢＦ２００は、以下の（１１）式、又は（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する。なお、以下の（１１）式は、第１のマイクロホンアレイを基準として、目的エリア音を抽出する場合の処理を示している。また、以下の（１２）式は、第２のマイクロホンアレイを基準として目的エリア音を抽出する場合の処理を示している。ここでγ_１（ｎ）、γ_２（ｎ）は、ＳＳ時の強度を変更するための係数である。

以上のように、特許文献１に記載の技術は、複数のマイクロホンアレイで構成され、各マイクロホンアレイはビームフォーマによって目的エリア方向への指向性を形成し、すべてのビームフォーマ出力に含まれる目的エリア音のパワーが等しくなるようにパワーを補正し、それぞれのビームフォーマ出力をスペクトル減算することで非目的エリア音を抽出し、各ビームフォーマ出力から非目的エリア音をスペクトル減算することで、目的エリア音を抽出する。

ところで、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うＳＳにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生したりする可能性がある。

そこで、特許文献２の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。

特開２０１４−７２７０８号公報特開２０１７−１８３９０２号公報

浅野太著、"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"、日本音響学会編、コロナ社、２０１１年２月２５日発行

しかしながら、特許文献２の手法では、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号のレベルを下げるため、非目的エリア音の混入は抑えることができるが、目的エリア音の歪みを改善する効果は低くなってしまう。

そのため、より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法が望まれている。

第１の本発明は、（１）複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、（２）前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出する非目的エリア音抽出手段と、（３）それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行う選択手段と、（４）前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合する信号混合手段と、（５）前記信号混合手段が混合した混合後信号を出力する出力手段とを有することを特徴とする。

第２の本発明の収音プログラムは、コンピュータを、（１）複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、（２）前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出する非目的エリア音抽出手段と、（３）それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行う選択手段と、（４）前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合する信号混合手段と、（５）前記信号混合手段が混合した混合後信号を出力する出力手段として機能させることを特徴とする。

第３の本発明は、収音装置が行う収音方法において、（１）前記収音装置は、選択手段、目的エリア音抽出手段、非目的エリア音抽出手段、信号混合手段、及び出力手段を有し、（２）前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、（３）前記非目的エリア音抽出手段は、前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出し、（４）前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行い、（５）前記信号混合手段は、前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合し、（６）前記信号混合手段は、前記選択手段が混合した混合後信号を出力することを特徴とする。

本発明によれば、より少ない歪みの目的エリア音を収音する収音装置、プログラム及び方法を提供することができる。

第１の実施形態に係る収音装置の機能的構成について示したブロック図である。第１の実施形態に係る収音装置のハードウェア構成について示したブロック図である。第２の実施形態に係る収音装置の機能的構成について示したブロック図である。従来のマイクロホン数が２個の場合の減算型ＢＦに係る構成を示すブロック図である。従来の２個のマイクロホンを用いた減算型ＢＦにより形成される指向特性を示す図である。

（Ａ）第１の実施形態
以下、本発明による収音装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、この実施形態の収音装置１００の機能的構成について示したブロック図である。

収音装置１００は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイＭＡは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ（Ｍ１、Ｍ２）が配置されるものとして説明する。すなわち、各マイクロホンアレイＭＡは、２ｃｈマイクロホンアレイを構成している。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

次に、収音装置１００の内部構成について説明する。

収音装置１００は、信号入力部１０１、雑音抑圧部１０２、指向性形成部１０３、遅延補正部１０４、空間座標データ１０５、補正係数算出部１０６、目的エリア音抽出部１０７、非目的エリア音抽出部１０８、混合成分選択部１０９、信号混合部１１０、及び信号出力部１１１を備える。なお、収音装置１００を構成する各機能ブロックの詳細処理については後述する。

次に、収音装置１００のハードウェア構成の例について説明する。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

図２は、収音装置１００のハードウェア構成の例について示したブロック図である。

図２では、収音装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す収音装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ３００を有している。また、コンピュータ３００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ３００は、プロセッサ３０１、一次記憶部３０２、及び二次記憶部３０３を有している。一次記憶部３０２は、プロセッサ３０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部３０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤやＳＳＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ３００では、プロセッサ３０１が起動する際、二次記憶部３０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部３０２上に展開して実行する。

なお、コンピュータ３００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部３０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部３０３については除外した構成としてもよい。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の収音装置１００の動作（実施形態に係る収音方法）を説明する。

信号入力部１０１は、各マイクロホンアレイで収音した音響信号をアナログ信号からデジタル信号に変換し入力する。その後、例えば高速フーリエ変換を用いて時間領域から周波数領域へ変換する。

雑音抑圧部１０２は、信号入力部１０１で取得した信号に含まれる背景雑音の成分を推定し、抑圧する。雑音抑圧部１０２による雑音抑圧には、例えば、ＳＳやウィーナーフィルタリング法（ＷｉｅｎｅｒＦｉｌｌｔｅｒｉｎｇ）などを用いることができる。

指向性形成部１０３は、マイクロホンアレイ毎に雑音抑圧部により背景雑音を抑圧した信号に対し、（４）式に従いＢＦにより目的エリア方向に指向性を形成する。

遅延補正部１０４は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。遅延補正部１０４は、まず空間座標データ１０５から目的エリアの位置と各マイクロホンアレイの位置を取得し、各マイクロホンアレイヘの目的エリア音の到達時間の差を算出する。次に最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。

空間座標データ１０５は、全ての目的エリアと各マイクロホンアレイを構成するマイクロホンの位置情報を保持している。空間座標データ１０５が各マイクロホンアレイの各マイクロホンの位置情報を保持する方法や、空間座標データ１０５が保持する位置情報の具体的な形式は限定されないものであり、種々のデータ形式を適用することができる。

補正係数算出部１０６は、各ＢＦ出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を（５）、（６）式または（７）、（８）式に従い算出する。

目的エリア音抽出部１０７は、補正係数算出部１０６で算出した補正係数により補正した各ＢＦ出力データを（９）、もしくは（１０）式に従いＳＳし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、目的エリア音抽出部１０７は、抽出した雑音を各ＢＦの出力から（１１）、もしくは（１２）式に従いＳＳすることにより目的エリア音を抽出する。

非目的エリア音抽出部１０８は、（９）式、（１０）式に従いＳＳし、各マイクロホンアレイ（ＭＡ１、ＭＡ２）の各マイクロホン（Ｍ１、Ｍ２）の入力信号に含まれる目的エリア音を除去して非目的エリア音を抽出する。

以下では、マイクロホンアレイＭＡ１を構成するマイクロホンＭ１、Ｍ２の入力信号の振幅スペクトルを、それぞれＸ_１１（ｎ）、Ｘ_１２（ｎ）と表し、マイクロホンアレイＭＡ２を構成するマイクロホンＭ１、Ｍ２の入力信号の振幅スペクトルをそれぞれ、Ｘ_２１（ｎ）、Ｘ_２２（ｎ）と表すものとする。また、以下では、Ｘ_１１（ｎ）、Ｘ_１２（ｎ）、Ｘ_２１（ｎ）、Ｘ_２２（ｎ）に含まれる非目的エリア音の振幅スペクトルを、それぞれΞ_１１（ｎ）、Ξ_１２（ｎ）、Ξ_２１（ｎ）、Ξ_２２（ｎ）と表すものとする。

そうすると、Ξ_１１（ｎ）、Ξ_１２（ｎ）、Ξ_２１（ｎ）、Ξ_２２（ｎ）は、それぞれ（１３）式〜（１６）式で求めることができる。

混合成分選択部１０９は、（１７）式のように、抽出された非目的エリア音Ξ_１１（ｎ）、Ξ_１２（ｎ）、Ξ_２１（ｎ）、Ξ_２２（ｎ）を周波数成分毎に比較し、最も振幅スペクトルが小さいマイクロホンを選択する。そして、（１８）式のように、選択されたマイクロホンの入力信号の振幅スペクトルの周波数成分を、混合信号成分とする。

ここで、ｋは、周波数（周波数成分の識別子）である。また、収音装置１００（混合成分選択部１０９、信号混合部１１０）において、信号処理に用いる周波数の帯域（ｋの範囲）は、上限と下限を設けて制限しても良い。ここでは、Ｉ及びｉはマイクロホンアレイの識別番号を示し、Ｊ及びｊはマイクロホンの識別番号を示している。また、ここでは、マイクロホンアレイＭＡ１、ＭＡ２の識別番号を、それぞれ１、２とする。さらにまた、ここでは、各マイクロホンアレイにおいてマイクロホンＭ１、Ｍ２の識別番号を、それぞれ１、２とする。

なお、例えば、混合成分選択部１０９は、周波数ｋについて、（１７）式でマイクロホンアレイＭＡ１のいずれかのマイクロホンが選択された場合、（１９）式に従い、マイクロホンアレイＭＡ１を構成するマイクロホンの入力信号成分（Ｘ_１１ｋ（ｎ）とＸ_１２ｋ（ｎ））の加算平均を混合信号成分としても良い。また、例えば、混合成分選択部１０９は、周波数ｋについて、マイクロホンアレイＭＡ２のいずれかのマイクロホンが選択された場合、同様にマイクロホンアレイＭＡ２を構成するマイクロホンの入力信号成分（Ｘ_２１ｋ（ｎ）とＸ_２２ｋ（ｎ））の加算平均を混合信号成分としても良い。

信号混合部１１０は、目的エリア音抽出部１０７で抽出した目的エリア音の成分に、混合成分選択部１０９で周波数毎に選択した入力信号成分（周波数ごとに選択された入力信号成分を集合させた信号；この実施形態において、「混合信号」と呼ぶ）を混合する。例えば、信号混合部１１０が、式（１１）に従いマイクロホンアレイＭＡ１を基準としてエリア収音を行う場合、最終的な出力Ｗ_１ｋ（ｎ）は以下の（２０）式に従い混合される。ここでμ_ｉは、混合する信号（混合信号）の成分の大きさを調整するパラメータである。μ_ｋは全周波数で一定でも良いし、周波数毎に変えても良い。

以上のように、信号混合部１１０は、混合を行った出力信号に位相を復元する際、位相情報は、目的エリア音抽出部において基準としたマイクロホンアレイを構成するマイクロホンの入力信号の加算平均、もしくはどれか１つのマイクロホンの入力信号を使用する。

また、信号混合部１１０は、混合信号として選択した入力信号の位相情報を出力信号に反映しても良い。例えば、(１１)式を用いて目的エリア音が抽出された場合、信号混合部１１０は、マイクロホンアレイＭＡ１を基準としているので、入力信号成分Ｘ_１１ｋ（ｎ）とＸ_１２ｋ（ｎ）の加算平均、又は、Ｘ_１１ｋ（ｎ）若しくはＸ_１２ｋ（ｎ）のどちらかの位相情報を用いて、出力信号に位相を復元するようにしてもよい。

さらに、信号混合部１１０において、信号の混合処理は、目的エリア音と混合信号の振幅スペクトルに、それぞれ位相情報を復元した後に行っても良い。この場合、信号混合部１１０では、位相復元に使用する情報は、目的エリア音と混合信号で別々にすることができる。例えば、信号混合部１１０において、目的エリア音には、目的エリア音抽出部１０７において基準としたマイクロホンアレイを構成するマイクロホンの入力信号成分の加算平均、もしくはマイクロホンアレイを構成するマイクロホンの内どれか１つ入力信号成分を使用するようにしてもよい。また、信号混合部１１０において、混合信号には、混合信号成分として選択した入力信号成分の位相を使用するようにしてもよい。

そして、信号出力部１１１は、信号混合部１１０において処理した出力信号を、周波数領域から時間領域へ変換し、出力する。

以上のように、第１の実施形態では、混合信号として、各マイクロホンの入力信号から抽出された非目的エリア音の振幅スペクトルを周波数毎に比較し、最も振幅スペクトルが小さいマイクロホンの入力信号の振幅スペクトルの周波数成分を、混合信号成分として選択する。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の収音装置１００では、各マイクロホンアレイについて抽出された非目的エリア音の周波数成分毎に、振幅スペクトルの小さいマイクロホンアレイを選択することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。

（Ｂ）第２の実施形態
以下、本発明による収音装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成
図３は、第２の実施形態に係る収音装置１００Ａの機能的構成について示した図である。図３では、上述の図１と同一部分又は対応部分には、同一符号又は対応符号を付している。

第２の実施形態の収音装置１００Ａでは、混合成分選択部１０９と信号混合部１１０が混合成分選択部１０９Ａと信号混合部１１０Ａに置き換わっている点で第１の実施形態と異なっている。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の収音装置１００Ａの動作を説明する。

以下では、第２の実施形態の収音装置１００Ａの動作について、第１の実施形態との差異を中心に説明する。

第２の実施形態では、混合成分選択部１０９Ａと信号混合部１１０Ａのみが異なっているので、以下では、混合成分選択部１０９Ａと信号混合部１１０Ａに関係する動作のみを説明する。

混合成分選択部１０９Ａは、（２１）式のように、抽出された非目的エリア音Ξ_１１（ｎ）、Ξ_１２（ｎ）、Ξ_２１（ｎ）、Ξ_２２（ｎ）の平均振幅スペクトルを比較し、最も平均振幅スペクトルが小さいマイクロホンを選択する。そして、混合成分選択部１０９Ａは、（２２）式のように、選択されたマイクロホンの入力信号を、混合信号とする。ここで、Ｉ及びｉはマイクロホンアレイの識別番号を示し及び、Ｊ及びｊはマイクロホンの識別番号を示している。また、ここでは、マイクロホンアレイＭＡ１、ＭＡ２の識別番号を、それぞれ１、２とする。さらに、ここでは、各マイクロホンアレイにおいてマイクロホンＭ１、Ｍ２の識別番号を、それぞれ１、２とする。

すなわち、混合成分選択部１０９Ａは、非目的エリア音Ξ_１１（ｎ）、Ξ_１２（ｎ）、Ξ_２１（ｎ）、Ξ_２２（ｎ）のそれぞれについて平均振幅スペクトルを算出し、最も平均振幅スペクトルが小さい非目的エリア音に対応するマイクロホンを選択し、選択したマイクロホンの入力信号を混合信号とする。具体的には、例えば、混合成分選択部１０９Ａは、Ξ_１１（ｎ）の平均振幅スペクトルが最も小さい場合、マイクロホンアレイＭＡ１のマイクロホンＭ１を選択し、入力信号Ｘ_１１（ｎ）を混合信号とすることになる。

なお、式（２１）において、「Ξ」（大文字のグザイ）の上に「￣」（バー）が付記された記号が存在するが、明細書上では使用可能な文字の都合上「￣Ξ」と表記するものとする。

ここで、￣Ξ_ｉｊ（ｎ）はΞ_ｉｊ（ｎ）の平均振幅スペクトル（振幅スペクトルの全周波数成分の平均値）である。なお、平均振幅スペクトルは、全帯域でなく、平均する周波数の上限と下限を設けて帯域制限しても良い。

そして、混合成分選択部１０９Ａは、（２２）式のように、選択されたマイクロホンの入力信号を、混合信号とする。

なお、例えば、混合成分選択部１０９は、（２１）式で、マイクロホンアレイＭＡ１のいずれかのマイクロホンが選択された場合、（２３）式に従い、マイクロホンアレイＭＡ１を構成するマイクロホンＭ１、Ｍ２の入力信号（Ｘ_１１（ｎ）とＸ_１２（ｎ））の加算平均を混合信号とするようにしても良い。さらに、例えば、混合成分選択部１０９は、（２１）式で、マイクロホンアレイＭＡ２のいずれかのマイクロホンが選択された場合、同様にマイクロホンアレイＭＡ２を構成するマイクロホンＭ１、Ｍ２の入力信号（Ｘ_２１（ｎ）とＸ_２２（ｎ））の加算平均を混合信号とするようにしても良い。

信号混合部１１０Ａは、目的エリア音抽出部１０７で抽出した目的エリア音に、混合成分選択部１０９で選択された入力信号を混合する。例えば、信号混合部１１０Ａが、式（１１）に従いマイクロホンアレイＭＡ１を基準としてエリア収音を行う場合、最終的な出力Ｗ_１（ｎ）は、（２４）式に従い混合される。ここで、μは混合する信号の大きさを調整するパラメータである。

信号混合部１１０Ａでは、混合を行った出力信号に位相を復元する際、位相情報としては、第１の実施形態と同様に、目的エリア音抽出部１０７において基準としたマイクロホンアレイを構成するマイクロホンの入力信号の加算平均や、どれか１つのマイクロホンの入力信号等を使用するようにしてもよい。さらに、信号混合部１１０Ａでは、位相情報として、混合信号として選択した入力信号の位相等を使用しても良い。

以上のように、第２の実施形態では、混合信号として、各マイクロホンの入力信号から抽出された非目的エリア音の平均振幅スペクトルを比較し、最も平均振幅スペクトルが小さいマイクロホンの入力信号を選択して混合信号とする。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

第２の実施形態の収音装置１００Ａでは、各マイクロホンアレイについて抽出された非目的エリア音の平均振幅スペクトルの小さいマイクロホンアレイを選択することで、目的エリアの近くに非目的エリア音が存在する場合においても、混合後の非目的エリア音の混入を抑え、目的エリア音の歪みを改善することができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記の各実施形態の収音装置では、収音に用いる各マイクロホンアレイＭＡのマイクロホンの数は２つであったが、３つ以上のマイクを用いて収音した音響信号に基づいて目的エリア方向の音を収音するようにしてもよい。上記の各実施形態において、適用するマイクロホンアレイＭＡ毎のマイクロホンの数や目的音方向の音を収音する方式については、既存の種々の方式を適用することができる。

１００…収音装置、Ｍ１、Ｍ２…マイクロホン、ＭＡ１、ＭＡ２…マイクロホンアレイ、１０１…信号入力部、１０２…雑音抑圧部、１０３…指向性形成部、１０４…遅延補正部、１０５…空間座標データ、１０６…補正係数算出部、１０８…非目的エリア音抽出部、１０９…混合成分選択部、１１０…信号混合部、１１１…信号出力部。

Claims

複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、
前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出する非目的エリア音抽出手段と、
それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行う選択手段と、
前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合する信号混合手段と、
前記信号混合手段が混合した混合後信号を出力する出力手段と
を有することを特徴とする収音装置。
前記選択手段は、周波数毎に、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの前記非目的エリア音の成分を比較して、いずれかの前記マイクロホンの入力信号の成分を、前記混合信号の成分として選択し、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音成分に、前記選択手段で周波数ごとに選択された成分により前記混合信号を構成して混合する、
ことを特徴とする請求項１に記載の収音装置。
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの前記非目的エリア音の成分が最も振幅スペクトルが小さい前記マイクロホンの入力信号の成分を混合信号の成分として選択することを特徴とする請求項２に記載の収音装置。
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの前記非目的エリア音の平均振幅スペクトルを比較して、いずれかの前記マイクロホンの前記入力信号を、前記混合信号として選択し、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された前記目的エリア音に、前記選択手段で選択された前記入力信号を前記混合信号として混合する
ことを特徴とする請求項１に記載の収音装置。
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれの前記マイクロホンの前記非目的エリア音の前記平均振幅スペクトルが最も小さい前記マイクロホンの入力信号を混合信号として選択することを特徴とする請求項４に記載の収音装置。
コンピュータを、
複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出する目的エリア音抽出手段と、
前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出する非目的エリア音抽出手段と、
それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行う選択手段と、
前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合する信号混合手段と、
前記信号混合手段が混合した混合後信号を出力する出力手段と
して機能させることを特徴とする収音プログラム。
収音装置が行う収音方法において、
前記収音装置は、選択手段、目的エリア音抽出手段、非目的エリア音抽出手段、信号混合手段、及び出力手段を有し、
前記目的エリア音抽出手段は、複数のマイクロホンアレイから入力された入力信号に基づいて、それぞれの前記マイクロホンアレイのビームフォーマ出力を取得し、取得した前記ビームフォーマ出力を用いて目的エリアを音源とする目的エリア音を抽出し、
前記非目的エリア音抽出手段は、前記目的エリア音を用いて、前記入力信号から前記目的エリア音の成分を除去して非目的エリア音を抽出し、
前記選択手段は、それぞれの前記マイクロホンアレイを構成するそれぞれのマイクロホンの前記非目的エリア音を比較し、比較結果に基づく選択処理を行い、
前記信号混合手段は、前記目的エリア音抽出手段で抽出された目的エリア音成分に、前記選択手段の選択結果に基づく混合信号を混合し、
前記信号混合手段は、前記選択手段が混合した混合後信号を出力する
することを特徴とする収音方法。