JP2017022468A

JP2017022468A - 収音装置、プログラム及び方法

Info

Publication number: JP2017022468A
Application number: JP2015136455A
Authority: JP
Inventors: 一浩片桐; Kazuhiro Katagiri
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-07-07
Filing date: 2015-07-07
Publication date: 2017-01-26
Anticipated expiration: 2035-07-07
Also published as: JP6131989B2; US9866957B2; US20170013357A1

Abstract

【課題】反響の強い環境下においても、目的エリア音成分の歪みを抑え、かつ目的エリア音以外の成分を抑圧することができるようにする。
【解決手段】本発明に係る収音装置は、複数のマイクロホンアレイの各入力信号に対して、目的エリアの方向に指向性を形成し、遅延補正後の各信号を用いて非目的エリア音を抑圧し、目的エリア音を抽出する。その出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更にマイクロホンアレイ毎の各信号から算出したパワー比を利用して目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更し、マイクロホンアレイにより収音された音響信号に、エリア収音フィルタをかけて目的エリア音以外の成分を抑圧して目的エリア音を強調する。
【選択図】図１

Description

本発明は、収音装置、プログラム及び方法に関し、複数の音源が存在する環境下において、特定の方向の音を音源のみを強調し収音する収音装置に適用し得るものである。

複数の音源が存在する環境下において、ある特定の方向の音のみ強調し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下、「ＢＦ」と呼ぶ。）がある。ＢＦとは、複数のマイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。

ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に、減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図３は、従来の減算型ＢＦを採用した収音装置ＰＳの構成を示すブロック図である。図３において、収音装置ＰＳは、２個のマイクロホンを備える場合を例示する。

目的の方向に存在する音（以下、「目的音」と呼ぶ。）が各マイクロホンＭ１及びＭ２に到来すると、遅延器ＤＥＬは、マイクロホンＭ１及びＭ２により到来した信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は、下記式（１）により算出される。
τｉ＝（ｄｓｉｎθ_Ｌ）／ｃ …（１）

（１）式において、ｄはマイクロホンＭ１及びＭ２の間の距離、Ｃは音速、τｉは遅延量（時間差）である。また、θ_Ｌは、各マイクロホンＭ１及びＭ２を結んだ直線に対する垂直方向から目的方向への角度である。

ここで、死角は、マイクロホンＭ１及びＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算器ＳＵＢは、（２）式に従って減算処理を行う。
ａ（ｔ）＝ｘ_２（ｔ）−ｘ_１（ｔ−τＬ） …（２）

減算処理は、周波数領域でも同様に行うことができる。その場合、（２）式は以下のように変更される。
Ａ（ω）＝Ｘ_２（ω）−ｅ^{−ｊωτＬ}Ｘ１（ω） …（３）

ここで、θ_Ｌ＝±π／２の場合、マイクロホンＭ１及びＭ２により形成される指向性は、図４（Ａ）に示すように、カージオイド型の単一指向性となる。一方、θ_Ｌ＝０，πの場合、マイクロホンＭ１及びＭ２により形成される指向性は、図４（Ｂ）のような８の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを単一指向性フィルタと呼称し、双指向性を形成するフィルタを双指向性フィルタと呼称する。

減算器ＳＵＢは、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下「ＳＳ」と呼ぶ。）を用いることで、双指向性の死角に強い指向性を形成することもできる。

減算器ＳＵＢは、ＳＳによる指向性の形成を（４）式に従って行う。（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いている。なお、マイクロホンＭ２の入力信号Ｘ_２を用いる場合も、同様の効果を得ることができる。ここで、βは、ＳＳの強度を調節するための係数である。減算時に値がマイナスになった場合は、０または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」と呼ぶ。）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
｜Ｙ（ω）｜＝｜Ｘ_１（ω）｜−β｜Ａ（ω）｜ …（４）

上記の減算型ＢＦを用いれば、目的音方向に鋭い指向性を形成することができる。

しかしながら、ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ。）だけを収音したい場合、減算型ＢＦの指向性は直線的である。そのため、目的エリアと同じ方向に存在する音源（以下、「非目的エリア音」と呼ぶ。）も収音してしまう問題がある。

特許文献１では、複数のマイクロホンアレイＭＡ１及びＭＡ２を用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法を提案している。

特開２０１４−７２７０８号公報

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"，日本音響学会編，コロナ社，２０１１年２月２５日発行

しかしながら、特許文献１の記載技術は、マイクロホンアレイによるＢＦ出力と、目的エリア音成分の抽出の２回に亘ってスペクトル減算を行っているため、出力された目的音が歪んでしまう可能性がある。

また、反響の強い環境下で、目的エリア音を収音する際、非目的エリア音の成分が十分に抑圧されずに残ってしまうという問題も生じ得る。例えば、反響がある場合、マイクロホンアレイの一方のＢＦ出力に含まれる非目的エリア音が、壁等により反射して、もう一方のマイクロホンアレイのＢＦ出力に含まれる可能性がある。この場合、エリア収音処理を行っても、非目的エリア音を完全に抑圧することができずに残ってしまうことがある。

そのため、エリア収音処理において、反響の強い環境下においても、目的エリア音成分の歪みを抑え、かつ目的エリア音以外の成分を抑圧することができる収音装置、方法及びプログラムが求められている。

本発明は、上記課題に鑑みたものであり、以下のような構成を備えるものである。

第１の本発明に係る収音装置は、（１）複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、（３）目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、（４）マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段とを有することを特徴とする。

第２の本発明に係る収音プログラムは、コンピュータを、（１）複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、（３）目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間の各信号のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、（４）マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段として機能させることを特徴とする。

第３の本発明に係る収音方法は、（１）指向性形成手段が、複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成し、（２）目的エリア音抽出手段が、指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出し、（３）エリア収音形成手段が、目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間の各信号のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更し、（４）エリア音強調手段が、マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調することを特徴とする。

以上のように、本発明によれば、エリア収音処理において、複数のマイクロホンアレイのそれぞれのビームフォーマ出力の比を利用してフィルタを形成することで、反響が強い環境下においても、目的エリア音成分の歪を抑え、かつ目的エリア音以外の成分を抑圧することができる。

第１の実施形態に係る収音装置の構成を示すブロック図である。第２の実施形態に係る収音装置の構成を示すブロック図である。２個のマイクロホンにより収音された場合の減算型ＢＦに係る構成を示すブロック図である。２個のマイクロホンを用いて減算型ＢＦにより形成される指向特性を示す図である。反響がない環境下におけるエリア収音処理における各成分の振幅スペクトルの変化を示した図である。反響により非目的エリア音が、各ＢＦ出力に同時に含まれる状況を示した図である。マイクロホンアレイ１のＢＦ出力に非目的エリア音（直接音）、マイクロホンアレイ２のＢＦ出力に非目的エリア音（反射音）が含まれる場合のエリア収音処理における各成分の振幅スペクトルの変化を示した図である。マイクロホンアレイ１のＢＦ出力に非目的エリア音（反射音）、マイクロホンアレイ２のＢＦ出力に非目的エリア音（直接音）が含まれる場合のエリア収音処理における各成分の振幅スペクトルの変化を示した図である。

（Ａ）本発明の基本的な概念
特許文献１に記載の手法は、後述する（７）式、（８）式に従い演算することで、目的とするエリアの周囲に非目的エリア音が存在していても、目的エリア音を収音することができる。

しかし、（４）式に従ったマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力と、（８）式に従った目的エリア音成分の抽出とにおいて、２回のスペクトル減算（ＳＳ）を行っている。そのため、出力された目的エリア音が歪んでしまう可能性がある。

さらに、反響が強い環境下では、非目的エリア音が十分に抑圧されずに残ってしまう問題がある。

図５は、反響がない環境下におけるエリア収音処理における各成分の振幅スペクトルの変化を示した図である。

図５（Ａ）に示すように、マイクロホンアレイＭＡ１のＢＦ出力Ｙ_１には、目的エリア音と目的エリア方向に存在する非目的エリア音Ｎ_１とが含まれている。また、マイクロホンアレイ２のＢＦ出力Ｙ_２には、目的エリア音と非目的エリア音Ｎ_２とが含まれている。

目的エリア音抽出部６は、Ｎ_１を抽出するために、（７）式に従い、ＢＦ出力Ｙ_１から、ＢＦ出力Ｙ_２に補正係数α_１を掛けたものをＳＳする。これにより、ＢＦ出力Ｙ_１とＢＦ出力Ｙ_２とに共通に含まれる目的エリア音が抑圧され、ＢＦ出力Ｙ_１に含まれる非目的エリア音Ｎ_１が残ることになる（図５（Ａ）参照）。この際、ＢＦ出力Ｙ_２に含まれている非目的エリア音Ｎ_２は、ＢＦ出力Ｙ_１に含まれない。そのため、ＳＳを行うと、その成分（非目的エリア音Ｎ_２）は値がマイナスになるが、フロアリング処理を行うため影響はない。

その後、目的エリア音抽出部６は、（８）式に従い、ＢＦ出力Ｙ_１から非目的エリア音Ｎ_１をＳＳすると、非目的エリア音Ｎ_１が全て抑圧され、目的エリア音のみを抽出できる（図５（Ｂ）参照）。なお、（８）式において、γ_１はＳＳ時の強度を変更するための係数である。

しかし、図６に示すように、反響があると、一方のＢＦ出力に含まれる非目的エリア音が、壁に反射にしてもう一方のＢＦ出力に含まれる可能性がある。

図７は、マイクロホンアレイＭＡ１のＢＦ出力Ｙ_１に非目的エリア音（直接音）が含まれ、マイクロホンアレイＭＡ２のＢＦ出力Ｙ_２に非目的エリア音（反射音）が含まれる場合のエリア収音処理における各成分の振幅スペクトルの変化を示した図である。

図７の場合、図５の場合と異なり、ＢＦ出力Ｙ_２に、非目的エリア音Ｎ_１の反射音Ｎ_１´が含まれている。そのため、ＢＦ出力Ｙ_１からＢＦ出力Ｙ_２をＳＳすると、目的エリア音だけでなく非目的エリア音Ｎ_１も抑圧されてしまい、抽出した非目的エリア音Ｎ_１”は、本来の非目的エリア音Ｎ_１よりもパワーが小さくなる（図７（Ａ）参照）。

そのため、ＢＦ出力Ｙ_１から非目的エリア音Ｎ_１”をＳＳしても、ＢＦ出力Ｙ_１に含まれる非目的エリア音Ｎ_１を全て抑圧することができず、目的エリア音出力Ｚ_１に、非目的エリア音Ｎ_１が残ってしまうことになる（図７（Ｂ）参照）。

これらの問題に対して、本願発明者は、ＳＳの出力を、目的音としてそのまま出力するのではなく、ＳＳの出力をもとにフィルタを形成し、入力信号にそのフィルタをかけることで目的音の歪を低減させる手法を提案している（参考文献；特願２０１５−３８６２８号）。

上記参考文献に記載の手法では、まずＳＳにより抽出された成分の内、パワーが閾値以下の成分は非目的音であると判定し値を０とし、それ以外の成分を１とするフィルタを形成する。さらに、ＳＳ出力のパワーを入力信号のパワーで割り、別の閾値と比較し、それ以下の成分のフィルタの値を０に変更する。最後に、このフィルタを入力信号に掛けることで、目的音成分に影響を与えずに非目的音成分のみ抑圧する。

上記参考文献に記載の手法をエリア収音処理に適用すれば、ＳＳによる目的エリア音成分の劣化を防ぐことができる。また、反響が原因で非目的エリア音が残ってしまう問題に対しても、フィルタの形成時にＳＳ出力のパワーと入力信号のパワーの比を利用しているため、残った非目的エリア成分を抑圧することができる。

図７に示す状況において、目的エリア音出力Ｚ_１とＹ_１のパワー比を求めると、目的エリア音成分は１に近くなる。また、非目的エリア音は残っているとはいえ抑圧されているので１よりも小さい値となる。この差異を利用し、フィルタを形成することで、反響が強い環境下にも対応することができる。

しかしながら、エリア収音処理においては、図７に示す状況だけではなく、図８に示すようなマイクロホンアレイＭＡ１のＢＦ出力Ｙ_１に、直接音ではなく反射音が含まれる状況も考えられる。

図８は、マイクロホンアレイ１のＢＦ出力に非目的エリア音（反射音）、マイクロホンアレイ２のＢＦ出力に非目的エリア音（直接音）が含まれる場合のエリア収音処理における各成分の振幅スペクトルの変化を示した図である。

このような状況では、ＢＦ出力Ｙ_１には非目的エリア音Ｎ_１だけでなく、非目的エリアＮ_２の反射音である非目的エリア音Ｎ_２´も含まれている。

非目的エリア音を抽出するために、ＢＦ出力Ｙ_１からＢＦ出力Ｙ_２をＳＳしても、非目的エリア音Ｎ_１を抽出することはできるが、ＢＦ出力Ｙ_２に含まれる非目的エリア音Ｎ_２の方が、非目的エリア音Ｎ_２´よりもパワーが大きいため、全て抑圧されてしまい抽出できない（図８（Ａ）参照）。

その後、ＢＦ出力Ｙ_１から非目的エリア音Ｎ_１をＳＳしても、非目的エリアＮ_１は抑圧できるが、非目的エリア音Ｎ_２´はそのまま残ってしまうことになる（図８（Ｂ）参照）。

そのため、このような状況で、目的エリア音出力Ｚ_１とＢＦ出力Ｙ_１のパワー比を求めても、目的エリア音出力Ｚ_１とＢＦ出力Ｙ_１に含まれる非目的エリア音Ｎ_２´のパワーは同じであるため、パワー比は「１」に近くなり、目的エリア音成分と区別がつかず、非目的エリア音Ｎ_２´を抑圧するフィルタを形成することができない。

そこで、本発明の第１の実施形態では、フィルタを形成する際、入力と出力の信号のパワー比ではなく、各マイクロホンアレイのＢＦ出力のパワー比を用いる。

通常、各ＢＦ出力に含まれる非目的エリア音成分が、直接音か反射音かを判断することは難しい。しかし、反射音は直接音よりもパワーが小さいため、各ＢＦ出力の比を求めると「１」よりも小さい、もしくは大きい値になると予想される。

また、目的エリア音成分は、各ＢＦ出力に同じ大きさで含まれているため、比は１に近くなる。この違いを利用することで、反響が強い環境下においても目的エリア音のみ強調できるフィルタを形成することが可能となる。

（Ｂ）第１の実施形態
以下では、本発明の収音装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳細に説明する。

（Ｂ−１）第１の実施形態の構成
図１は、第１の実施形態に係る収音装置の内部構成を示すブロック図である。

第１の実施形態に係る収音装置１００は、２個のマイクロホンアレイＭＡ１及びＭＡ２を用いて、目的エリアの音源からの目的エリア音を収音するものである。

マイクロホンアレイＭＡ１及びＭＡ２は、少なくとも２個以上のマイクロホンを有する。図１では、マイクロホンアレイＭＡ１が、３個のマイクロホンＭ１〜Ｍ３を有する場合を例示する。マイクロホンアレイＭＡ１は、マイクロホンＭ１、Ｍ２を目的エリアの方向に対して水平となるように配置する。さらに、マイクロホンＭ１、Ｍ２を結んだ直線と直交し、かついずれかのマイクロホンＭ１、Ｍ２を取る直線上にマイクロホンＭ３が配置されている。すなわち、３個のマイクロホンＭ１、Ｍ２、Ｍ３は、直角二等辺三角形の頂点に配置されている場合を例示する。なお、この実施形態では、マイクロホンアレイＭＡ２もマイクロホンアレイＭＡ１と同様の構成を有するものとする。

マイクロホンアレイＭＡ１及びＭＡ２は、目的エリアが存在する空間の任意の場所に設けられたものである。目的エリアに対するマイクロホンアレイＭＡ１及びＭＡ２の位置は、各マイクロホンアレイＭＡ１及びＭＡ２の指向性が目的エリアでのみ重なるのであれば、特に限定されるものではない。例えば、目的エリアに対して、マイクロホンアレイＭＡ１とマイクロホンアレイＭＡ２の指向性が交差するように、マイクロホンアレイＭＡ１及びＭＡ２を配置するようにしても良い。また例えば、目的エリアを挟んで、マイクロホンアレイＭＡ１及びＭＡ２が対向するように、マイクロホンアレイＭＡ１及びＭＡ２を配置するようにしても良い。

なお、マイクロホンアレイの数は、２個に限定されるものではなく、複数の目的エリアが存在する場合、全てのエリアをカバーできる数のマイクロホンアレイを配置するようにしても良い。

図１において、第１の実施形態に係る収音装置１００は、信号入力部１−１、信号入力部１−２、指向性形成部２−１、指向性形成部２−２、遅延補正部３、空間座標データ記憶部４、目的エリア音パワー補正係数算出部５、目的エリア音抽出部６、エリア収音フィルタ形成部７、エリア音強調部８を有する。収音装置１００を構成する各構成要素の詳細な説明は、後述する。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成されるものであっても良いし、一部又は全部についてソフトウェア（プログラム等）として構成されるものでも良い。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータに、第１の実施形態の収音プログラムをインストールすることにより構築されるものでも良い。

（Ｂ−２）第１の実施形態の動作
次に、第１の実施形態に係る収音装置１００における収音処理の動作を、図面を参照しながら詳細に説明する。

マイクロホンアレイＭＡ１、ＭＡ２はそれぞれ、３個のマイクロホンＭ１、Ｍ２、Ｍ３により音響信号を収音する。マイクロホンアレイＭＡ１により収音された音響信号は信号入力部１−１に与えられる。また、マイクロホンアレイＭＡ２により収音された音響信号は信号入力部１−２に与えられる。

信号入力部１−１と１−２はそれぞれ、マイクロホンアレイＭＡ１とＭＡ２からの音響信号をアナログ信号からデジタル信号に変換して入力する。その後、信号入力部１−１と１−２は、例えば高速フーリエ変換等を用いて、マイクロホンアレイＭＡ１とＭＡ２からの入力信号を時間領域から周波数領域に変換し、指向性形成部２−１と２−２に与える。

指向性形成部２−１と２−２はそれぞれ、ビームフォーマ（ＢＦ）により、マイクロホンアレイＭＡ１及びＭＡ２からの信号の指向性を形成する。この実施形態では、指向性形成部２−１と２−２は、（４）式に従ったＢＦにより、マイクロホンアレイＭＡ１及びＭＡ２毎に、目的エリア方向に対し、マイクロホンアレイＭＡ１とＭＡ２の前方に指向性を形成する。

例えば、指向性形成部２−１と２−２は、目的エリアに対して直交する線上に並んで配置されたマイクロホンＭ１、Ｍ２で双指向性フィルタを形成し、目的方向に並行する線上に並んで配置されたマイクロホンＭ２、Ｍ３で目的方向に死角を向ける単一指向性フィルタを形成する。具体的には、指向性形成部２−１と２−２は、マイクロホンＭ１，Ｍ２の出力信号について、θ_Ｌ＝０とし、（１）式及び（３）式に従った演算を行ない、（４）式に従って双指向性フィルタを形成する。また、指向性形成部２−１と２−２は、マイクロホンＭ２、Ｍ３の出力信号について、θ_Ｌ＝−π／２とし、（１）式及び（３）式に従った演算を行ない、（４）式に従って単一指向性フィルタを形成する。

指向性形成部２−１と２−２では、ＢＦにより、各マイクロホンアレイＭＡ１、ＭＡ２の指向性が前方にのみ形成されるため、後方（マイクロホンアレイから見て目的エリアと逆方向）から回り込む残響の影響を抑えることができる。また、指向性形成部２−１と２−２では、それぞれのＢＦにより、各マイクロホンアレイＭＡ１、ＭＡ２の後方に位置する非目的エリア音を予め抑圧し、目的エリアの収音処理のＳＮ比を改善することができる。

空間座標データ記憶部４は、全ての目的エリアの位置情報（すなわち、目的エリアの範囲を示す位置情報）と、各マイクロホンアレイＭＡ１、ＭＡ２の位置情報と、各マイクロホンアレイＭＡ１、ＭＡ２を構成するマイクロホンＭ１〜Ｍ３の位置情報を保持する。空間座標データ記憶部４で記憶される位置情報の具体的な形式や表示単位は、目的エリア、各マイクロホンアレイＭＡ１、ＭＡ２との間の相対的な位置関係が認識可能な形式であれば限定されない。

遅延補正部３は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正するものである。

遅延補正部３は、まず空間座標データ記憶部４から目的エリアの位置情報とマイクロホンアレイＭＡ１、ＭＡ２の位置情報を取得し、各マイクロホンアレイＭＡ１、ＭＡ２への目的エリア音の到達時間の差を算出する。次に、遅延補正部３は、最も目的エリアから遠い位置に配置されたマイクロホンアレイＭＡ１、ＭＡ２を基準として、全てのマイクロホンアレイＭＡ１、ＭＡ２に目的エリア音が同時に到達するように遅延（遅延時間差）を加えて位相を一致させる。

目的エリア音パワー補正係数算出部５は、各ＢＦ出力に含まれる目的エリア音成分のパワーを同じにするための補正係数（「パワー補正係数）とも呼ぶ。）を（５）式または（６）式に従い算出するものである。

目的エリア音パワー補正係数算出部５は、まず各マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力Ｙ_１、Ｙ_２に含まれる目的エリア音のパワーの比率を推定し、それを補正係数とする。

ここで、（５）式、（６）式において、Ｙ_１ｋとＹ_２ｋはマイクロホンアレイＭＡ１とＭＡ２のＢＦ出力の振幅スペクトル、Ｎは周波数ビンの総数、ｋは周波数、α_１は各ＢＦ出力に対するパワー補正係数である。また、ｍｏｄｅは最頻値、ｍｅｄｉａｎは中央値を表している。

目的エリア音抽出部６は、目的エリア音パワー補正係数算出部５で算出した補正係数を用いて各ＢＦ出力を補正する。次に、目的エリア音抽出部６は、補正係数で補正した各ＢＦ出力を用いて、（７）式に従いスペクトル減算法（ＳＳ）し、目的エリア方向に存在する雑音（すなわち、非目的エリア音）を抽出する。さらに、目的エリア音抽出部６は、抽出した雑音を各ＢＦ出力から、（８）式に従いＳＳすることにより目的エリア音を抽出する。
Ｎ_１＝Ｙ_１−α_１Ｙ_２ …（７）
Ｚ_１＝Ｙ_１−γ_１Ｎ_１ …（８）

エリア収音フィルタ形成部７は、目的エリア音抽出部６の出力信号を推定目的エリア成分とし、各成分のパワーと閾値とを比較し、その比較結果に基づいてエリア収音フィルタを形成するものである。

具体的に、エリア収音フィルタ形成部７は、目的エリア音抽出部６の出力Ｚ_１を推定目的エリア成分とし、各成分のパワーと閾値Ｔ_１とを比較する。そして、エリア収音フィルタ形成部７は、閾値Ｔ_１よりも小さい成分を「０」、それ以外の成分を「１」とするエリア収音フィルタＨ_１を形成するものである。ここで、ｋは周波数である。

さらに、エリア収音フィルタ形成部７は、（１０）式に従い、各ＢＦ出力の比Ｐを算出する。各ＢＦ出力Ｙ_１ｋとＹ_２ｋとの比Ｐ_ｋを（１０）式により算出することで、非目的エリア音成分が直接音、反射音に関係なく判定することが可能となる。

次に、エリア収音フィルタ形成部７は、（１０）式で算出した各ＢＦ出力の比Ｐと別の閾値Ｔ_２とを比較する。そして、閾値Ｔ_２よりも大きい成分のフィルタ値を０に変更する。なお、エリア収音フィルタ形成部７は、目的エリア音以外の成分のフィルタ値は「０」でなく、「０から１までの間の任意の値」に設定しても良い。

Ｐ_ｋの値は、目的エリア音成分であれば、「０」に近くなり、値が大きくなるほど非目的エリア音である可能性が高くなる。そこで、例えば閾値Ｔ_２を「０．５」と設定して、Ｈ_１の値が「１」である成分の内、Ｐ_ｋがＴ_２よりも大きな値の成分を「０」に変更し、エリア収音フィルタＨ_１の値を更新する（（１１）式）。

エリア音強調部８は、（１２）式に従い、信号入力部１−１の入力信号Ｘ_１に対して、エリア収音フィルタ形成部７で形成したエリア収音フィルタＨ_１をかけ、目的エリア音以外の成分を抑圧し、目的エリア音を強調する。

ここで、フィルタＨ_１の値は、「０」と「１」の２値でなくても良く、「０から１までの間の任意の値」を設定し、ＳＮ比を操作することもできる。例えば、目的エリア音以外の成分を２０ｄＢ抑圧する設定にすれば、非目的エリア音を完全に抑圧せずに環境音の一部として残すことになる。

（Ｂ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、エリア収音処理において、複数のマイクロホンアレイのそれぞれのＢＦ出力の比を利用してフィルタを形成することで、反響が強い環境下においても、目的エリア音成分の歪を抑え、かつ目的エリア音以外の成分を抑圧することができる。

（Ｃ）第２の実施形態
次に、本発明に係る収音装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳細に説明する。

（Ｃ−１）第２の実施形態の構成
図２は、第２の実施形態に係る収音装置１００Ａの内部構成を示すブロック図である。

第２の実施形態の収音装置１００Ａも、第１の実施形態と同様に、２個のマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源からの目的エリア音を収音するものである。

図２において、収音装置１００Ａは、第１の実施形態で説明した、信号入力部１−１、信号入力部１−２、指向性形成部２−１、指向性形成部２−２、遅延補正部３、空間座標データ記憶部４、目的エリア音パワー補正係数算出部５、目的エリア音抽出部６、エリア収音フィルタ形成部７、エリア音強調部８に加えて、ＳＳフィルタ形成部９−１、ＳＳフィルタ形成部９−２、目的音強調部１０−１、目的音強調部１０−２を有する。

第２の実施形態は、第１の実施形態で説明した処理において、各マイクロホンアレイＭＡ１、ＭＡ２からの入力信号をＢＦにより指向性を形成する際に、ＳＳの出力をもとに目的音成分以外を抑圧するフィルタを形成し、入力信号にそのフィルタを掛け、目的音を強調する機能を追加したものである。

また、エリア音強調部８は、信号入力部１−１の出力ではなく、遅延補正部３の出力を受け取るように変更されている。

（Ｃ−２）第２の実施形態の動作
次に、第２の実施形態に係る収音装置１００における収音処理の動作を、図面を参照しながら詳細に説明する。

マイクロホンアレイＭＡ１により収音された音響信号は信号入力部１−１に与えられる。また、マイクロホンアレイＭＡ２により収音された音響信号は信号入力部１−２に与えられる。

信号入力部１−１と１−２はそれぞれ、マイクロホンアレイＭＡ１とＭＡ２からの音響信号をアナログ信号からデジタル信号に変換して入力する。その後、信号入力部１−１と１−２は、例えば高速フーリエ変換等を用いて、マイクロホンアレイＭＡ１とＭＡ２からの入力信号を時間領域から周波数領域に変換し、指向性形成部２−１と２−２、目的音強調部１０−１と１０−２に与える。

指向性形成部２−１と２−２はそれぞれ、第１の実施形態と同様にして、（４）式に従ったＢＦにより、マイクロホンアレイＭＡ１及びＭＡ２毎に、目的エリア方向に対し、マイクロホンアレイＭＡ１とＭＡ２の前方に指向性を形成する。

ＳＳフィルタ形成部９−１と９−２は、それぞれ指向性形成部２−１、２−２の出力をもとにフィルタＨ２１とＨ２２を形成する。ここで、フィルタＨ２１、Ｈ２２は、パワーが閾値Ｔ_３以上の成分を目的音であると判定し、目的音成分を「１」、それ以外の成分を「０」に設定する。なお、目的音以外の成分のフィルタの値は「０」でなく「０から１の間で任意の値」を設定しても良い。

その後、ＳＳフィルタ形成部９−１と９−２は、指向性形成部２−１と２−２からの出力と入力信号とのパワー比Ｒ_１ｋとＲ_２ｋを利用して、フィルタの値を補正する。パワー比Ｒ_１ｋとＲ_２ｋは、周波数毎に（１３）、（１４）式に従い算出する。ここで、Ｙ_１ｋとＹ_２ｋはそれぞれ指向性形成部２−１、２−２の出力のｋ番目の周波数のパワー、Ｘ_１ｋとＸ_２ｋはそれぞれ信号入力部１−１、１−２の出力のｋ番目の周波数のパワーである。例えば、Ｒ_１ｋ、Ｒ_２ｋが闘値Ｔ_４以下で、かつパワーが閾値Ｔ_３を超えている成分は、非目的音成分と判定し、フィルタの値を「１」から「０」に変更する。

目的音強調部１０−１、１０−２はそれぞれ、信号入力部１−１、１−２の出力に、ＳＳフィルタ形成部９−１、９−２で形成したフィルタをかけ、非目的音成分を抑圧し、目的音を強調する（（１５）、（１６）式）。ここでＸ_１とＸ_２は、信号入力部１−１、１−２の出力のパワーである。

遅延補正部３は、まず空間座標データ記憶部４から目的エリアの位置情報とマイクロホンアレイＭＡ１、ＭＡ２の位置情報を取得し、各マイクロホンアレイＭＡ１、ＭＡ２への目的エリア音の到達時間の差を算出する。

次に、遅延補正部３は、最も目的エリアから遠い位置に配置されたマイクロホンアレイＭＡ１、ＭＡ２を基準として、目的音強調部１０−１、１０−２により目的音が強調された各出力を用いて、全てのマイクロホンアレイＭＡ１、ＭＡ２に目的エリア音が同時に到達するように遅延（遅延時間差）を加えて位相を一致させる。

目的エリア音パワー補正係数算出部５は、第１の実施形態と同様にして、目的音強調部１０−１、１０−２からの各出力に含まれる目的エリア音成分のパワーを同じにするための補正係数を（５）式または（６）式に従い算出するものである。

目的エリア音抽出部６は、目的エリア音パワー補正係数算出部５で算出した補正係数を用いて、目的音強調部１０−１、１０−２の各出力を補正する。次に、目的エリア音抽出部６は、補正係数で補正した各出力を用いて、（７）式に従いスペクトル減算法（ＳＳ）し、目的エリア方向に存在する雑音（すなわち、非目的エリア音）を抽出する。さらに、目的エリア音抽出部６は、抽出した雑音を各ＢＦ出力から、（８）式に従いＳＳすることにより目的エリア音を抽出する。

エリア音強調部８は、遅延補正部３からの出力信号に対して、エリア収音フィルタ形成部７で形成したエリア収音フィルタＨ_１をかけ、目的エリア音以外の成分を抑圧し、目的エリア音を強調する。

（Ｃ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、各マイクロホンアレイからの入力信号をＢＦにより指向性を形成する際に、ＳＳの出力をもとに目的音成分以外を抑圧するフィルタを形成し、入力信号にそのフィルタを掛けて、目的音を強調するものである。この場合でも、第２の実施形態によれば、第１の実施形態と同様の効果を奏する。

（Ｄ）他の実施形態
本発明は、上述した各実施形態に限定されるものではなく、以下に例示するような変形実施形態にも適用できる。

（Ｄ−１）上述した各実施形態では、マイクロホンが捕捉して得た音響信号をリアルタイムに処理するものを示したが、マイクロホンが捕捉して得た音響信号を記録媒体に記憶し、その後、記憶媒体から読み出して処理して目的音、目的エリア音の強調信号を得るようにしても良い。このように記録媒体を利用する場合には、マイクロホンが設定されている場所と、目的音や目的エリア音の抽出処理する場所とが離れていても良い。同様に、リアルタイム処理をする場合でも、マイクロホンが設定されている場所と、目的音や目的エリア音の抽出処理する場所とが離れていても良く、通信により信号を遠隔地に供給するようにしても良い。

（Ｄ−２）上述した各実施形態では、エリア収音フィルタ形成部が、（１０）式に従いフィルタの値を変更する場合を例示した。（１０）式では、Ｐ_ｋ＝（１−Ｙ_２Ｋ／Ｙ_１Ｋ）を算出する場合を例示したが、（１０）式に限定されるものではなく、各信号Ｙ_２Ｋ／Ｙ_１ｋに応じて、フィルタの値を変更するようにしても良い。

１００、１００Ａ…収音装置、ＭＡ１、ＭＡ２…マイクロホンアレイ、１（１−１、１−２）…信号入力部、２（２−１、２−２）…指向性形成部、３…遅延補正部、４…空間座標エータ記憶部、５…目的エリア音パワー補正係数、６…目的エリア音抽出部、７…エリア収音フィルタ形成部、８…エリア音強調部、９（９−１、１０−２）…ＳＳフィルタ形成部、１０（１０−１、１０−２）…目的音強調部。

第１の本発明に係る収音装置は、（１）複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延とに基づいて、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、（３）目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、（４）マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段とを有することを特徴とする。

第２の本発明に係る収音プログラムは、コンピュータを、（１）複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延とに基づいて、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、（３）目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間の各信号のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、（４）マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段として機能させることを特徴とする。

第３の本発明に係る収音方法は、（１）指向性形成手段が、複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成し、（２）目的エリア音抽出手段が、指向性形成手段からの出力に対して、目的エリアと各マイクロホンアレイの遅延とに基づいて、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出し、（３）エリア収音フィルタ形成手段が、目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に各マイクロホンアレイの指向性形成手段からの出力間の各信号のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定してエリア収音フィルタの値を変更し、（４）エリア音強調手段が、マイクロホンアレイにより収音された音響信号に、エリア収音フィルタ形成手段により形成されたエリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調することを特徴とする。

Claims

複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、
上記指向性形成手段からの出力に対して、目的エリアと上記各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、
上記目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に上記各マイクロホンアレイの上記指向性形成手段からの出力間のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定して上記エリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、
上記マイクロホンアレイにより収音された音響信号に、上記エリア収音フィルタ形成手段により形成された上記エリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段と
を有することを特徴とする収音装置。
上記エリア収音形成手段が、上記エリア収音フィルタの形成後、上記算出した上記各マイクロホンアレイの上記指向性形成手段からの出力間のパワー比と閾値とを比較し、閾値より大きい成分を目的音成分以外の成分と判定して上記エリア収音フィルタの値を変更することを特徴とする請求項１に記載の収音装置。
上記指向性形成手段が、
上記複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成部と、
上記指向性形成部からの各出力に基づいて、目的音以外の成分を抑圧する目的音フィルタを出力毎に形成し、更に上記指向性形成部からの各出力と上記各マイクロホンアレイの上記各入力信号とのパワー比を周波数成分毎に算出し、そのパワー比に基づいて目的音成分以外の成分を判定して上記目的音フィルタの値を変更するスペクトル減算フィルタ形成部と、
上記各マイクロホンアレイにより収音された各入力信号に、上記スペクトル減算フィルタ形成部により形成された上記目的音フィルタをかけて、目的音以外の成分を抑圧し、目的音を強調する目的音強調部と
を有することを特徴とする請求項１又は２に記載の収音装置。
上記目的エリア音抽出手段が、
全ての目的エリアと、上記各マイクロホンアレイと、上記マイクロホンアレイを構成するマイクロホンとの位置情報を保持する位置情報保持部と、
上記位置情報保持部に保持される位置情報を用いて、目的エリアと上記各マイクロホンアレイとの間の距離に基づいて、上記指向性形成手段からの出力に対して、目的エリアと上記各マイクロホンアレイの遅延を補正する遅延補正部と、
上記指向性形成手段からの上記マイクロホンアレイ毎の出力間で、周波数毎に、算出した振幅スペクトルの比率に基づいて、振幅スペクトルの比率の最頻値若しくは中央値を算出し、これを補正係数とする目的エリア音パワー補正係数算出部と、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記指向性形成手段からの上記マイクロホンアレイ毎の各出力を補正し、それぞれをスペクトル減算することで非目的エリア音を抽出し、更に抽出した非目的エリア音を各マイクロホンアレイの指向性形成手段の出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部と
を有することを特徴とする請求項１〜３のいずれかに記載の収音装置。
コンピュータを、
複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成する指向性形成手段と、
上記指向性形成手段からの出力に対して、目的エリアと上記各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出する目的エリア音抽出手段と、
上記目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に上記各マイクロホンアレイの上記指向性形成手段からの出力間のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定して上記エリア収音フィルタの値を変更するエリア収音フィルタ形成手段と、
上記マイクロホンアレイにより収音された音響信号に、上記エリア収音フィルタ形成手段により形成された上記エリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調するエリア音強調手段と
して機能させることを特徴とする収音プログラム。
指向性形成手段が、複数のマイクロホンアレイからの各入力信号に対して、目的エリアの方向に指向性を形成し、
目的エリア音抽出手段が、上記指向性形成手段からの出力に対して、目的エリアと上記各マイクロホンアレイの遅延と、目的エリア音成分のパワーを補正し、補正後の各出力を用いて非目的エリア音を抑圧し、目的エリア音を抽出し、
エリア収音形成手段が、上記目的エリア音抽出手段の出力から目的エリア音成分を判定し、目的エリア音成分以外の成分を抑圧するエリア収音フィルタを形成し、更に上記各マイクロホンアレイの上記指向性形成手段からの出力間のパワー比を算出し、そのパワー比に基づいて目的エリア音成分以外の成分を判定して上記エリア収音フィルタの値を変更し、
エリア音強調手段が、上記マイクロホンアレイにより収音された音響信号に、上記エリア収音フィルタ形成手段により形成された上記エリア収音フィルタをかけて目的エリア音以外の成分を抑圧し、目的エリア音を強調する
ことを特徴とする収音方法。