JP6065030B2

JP6065030B2 - 収音装置、プログラム及び方法

Info

Publication number: JP6065030B2
Application number: JP2015000531A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2015-01-05
Filing date: 2015-01-05
Publication date: 2017-01-25
Anticipated expiration: 2035-01-05
Also published as: JP2016127459A

Description

本発明は、収音装置及びプログラムに関し、例えば、特定のエリアの音を強調し、それ以外のエリアの音を抑制する収音装置及びプログラムに適用し得るものである。

従来、複数の音源が存在する環境下において、ある特定の方向（以下、「目的方向」とも呼ぶ）の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下ＢＦ）がある（非特許文献１参照）。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。

従来のＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。従来の減算型ＢＦを適用した装置としては特許文献１に記載されたものがある。

以下では、従来の減算型ＢＦの構成例について説明する。

図１２は、従来の減算型ＢＦを適用した収音装置ＰＳの構成例について示した説明図である。

図１２に示す収音装置ＰＳは、２個のマイクロホンＭ１、Ｍ２を用いて構成されたマイクロホンアレイＭＡの出力から目的音（目的方向の音）を抽出するものである。

図１２では、マイクロホンＭ１、Ｍ２で捕捉した音の信号を、それぞれｘ₁（ｔ）、ｘ₂（ｔ）と示している。また、図１２に示す収音装置ＰＳは、遅延器ＤＥＬ及び減算器ＳＵＢを有している。

遅延器ＤＥＬは、各マイクロホンＭ１、Ｍ２に到来する信号ｘ₁（ｔ）とｘ₂（ｔ）の時間差τ_Lを算出し、遅延を加えることで目的音の位相差を合せる。以下では、ｘ₁（ｔ）に時間差τ_L分の遅延を加えた信号をｘ₁（ｔ−τ_L）と表す。

遅延器ＤＥＬは、以下の（１）式により時間差τ_Lを算出する。以下の（１）式において、ｄはマイクロホンＭ１、Ｍ２の間の距離、ｃは音速、τ_iは遅延量を示している。また、以下の（１）式において、θ_Lは、各マイクロホンＭ１、Ｍ２を結んだ直線に対する垂直方向から目的方向への角度を示している。
τ_L＝（ｄｓｉｎθ_L）／ｃ …（１）

ここで、死角が、マイクロホンＭ１、Ｍ２の中心（中点）に対し、マイクロホンＭ１の方向に存在する場合、マイクロホンＭ１の入力信号ｘ₁（ｔ）に対し遅延処理を行う。減算器ＳＵＢは、例えば、以下の（２）式により、ｘ₂（ｔ）からｘ₁（ｔ−τ_L）を減算する処理を行う。
α（ｔ）＝ｘ₂（ｔ）−ｘ₁（ｔ−τ_L） …（２）

減算器ＳＵＢは、周波数領域で減算処理を行うこともできる。その場合、上記の（２）式は、以下の(３)式のように示すことができる。
Ａ（ω）＝Ｘ₂（ω）−ｅ^-jωτ^LＸ₁（ω） …（３）

ここで、θ_L＝±π／２の場合、マイクロホンアレイＭＡにより形成される指向性は図１３（Ａ）に示すように、カージオイド型の単一指向性となる。一方、θ_L＝０，πの場合、マイクロホンアレイＭＡにより形成される指向性は、図１３（Ｂ）のような８の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを単一指向性フィルタ、双指向性を形成するフィルタを双指向性フィルタと呼称する。また、減算器ＳＵＢでは、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ）の処理（以下、単に「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。

減算器ＳＵＢは、ＳＳによる指向性の形成を行う場合、以下の（４）式を用いて減算処理を行うことができる。以下の（４）式では、マイクロホンＭ１の入力信号Ｘ₁を用いているが、マイクロホンＭ２の入力信号Ｘ₂でも同様の効果を得ることができる。以下の（４）式において、βはＳＳの強度を調節するための係数である。減算器ＳＵＢは、以下の（４）式を用いて減算処理を行った結果値がマイナスなった場合、０または元の値を小さくした値に置き換える処理（フロアリング処理）を行うようにしてもよい。減算器ＳＵＢでは、ＳＳ法により減算処理を行うことにより、目的エリアの方向以外に存在する音を抽出し、抽出した音（目的エリアの方向以外に存在する音）の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的エリア音を強調することができる。
｜Ｙ（ω）｜＝｜Ｘ₁（ω）｜−β｜Ａ（ω）｜ …（４）

従来の収音装置において、ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、その目的エリアの周囲に存在する音源の音（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。

そこで特許文献１では、例えば、図１４に示すように、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する処理（以下、「目的エリア音収音処理」と呼ぶ）が提案されている。この手法では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音のパワーの比率を推定し、それを補正係数としている。

図１４では、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリア音を収音する従来技術の例について示している。２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて目的エリア音を音源とする目的エリア音を収音する場合、目的エリア音パワーの補正係数は、例えば、以下の（５）、（６）式、又は、以下の（７）、（８）式により算出される。

上記の（５）〜（８）式において、Ｙ_1k（ｎ）、Ｙ_2k（ｎ）はマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトル、Ｎは周波数ビンの総数、ｋは周波数、α₁（ｎ）、α₂（ｎ）は各ＢＦ出力に対するパワー補正係数を表している。また、（５）〜（８）式において、ｍｏｄｅは最頻値、ｍｅｄｉａｎは中央値を表している。その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。マイクロホンアレイＭＡ１からみた目的方向に存在する非目的エリア音Ｎ₁（ｎ）を抽出するには、以下の（９）式に示すように、マイクロホンアレイＭＡ１のＢＦ出力Ｙ₁（ｎ）からマイクロホンアレイＭＡ２のＢＦ出力Ｙ₂（ｎ）にパワー補正係数α₂を掛けたものをＳＳする。同様に以下の（１０）式に従い、マイクロホンアレイＭＡ２からみた目的方向に存在する非目的エリア音Ｎ₂（ｎ）を抽出する。
Ｎ₁（ｎ）＝Ｙ₁（ｎ）−α₂（ｎ）Ｙ₂（ｎ） …（９）
Ｎ₂（ｎ）＝Ｙ₂（ｎ）−α₁（ｎ）Ｙ₁（ｎ） …（１０）

その後、（１１）、（１２）式に従い、各ＢＦ出力Ｙ₁（ｎ）、Ｙ₂（ｎ）から非目的エリア音をＳＳして目的エリア音収音信号Ｚ₁（ｎ）、Ｚ₂（ｎ）を抽出する。なお、以下の（１１）、（１２）式において、γ₁（ｎ）、γ₂（ｎ）はＳＳ時の強度を変更するための係数である。
Ｚ₁（ｎ）＝Ｙ₁（ｎ）−γ₁（ｎ）Ｎ₁（ｎ） …（１１）
Ｚ₂（ｎ）＝Ｙ₂（ｎ）−γ₂（ｎ）Ｎ₂（ｎ） …（１２）

以上のように、特許文献１の記載技術を用いれば、目的とするエリアの周囲に非目的エリア音が存在していても、目的エリア音の収音処理を行うことができる。

特開２０１４−７２７０８号公報

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"，日本音響学会編，コロナ社，２０１１年２月２５日発行

しかしながら、特許文献１の記載技術を用いても、背景雑音が強い場合（例えば、目的エリアがイベント会場など人が多い場所や、周囲で音楽などが流れている場所である場合等）、目的エリア音収音処理では消しきれない雑音が原因で、ミュージカルノイズなど耳障りな異音が発生する。従来の収音装置において、これらの異音は、目的エリア音によりある程度マスキングされるが、目的エリア音が存在しない場合は、異音だけが聞こえるため、聴取者を不快にする恐れがある。

そのため、目的音の音源の周囲で強い背景雑音が存在する場合でも背景雑音成分の収音を抑制する収音装置、プログラム及び方法が望まれている。

第１の本発明の収音装置は、（１）マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出する目的エリア音抽出手段と、（３）上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出する振幅スペクトル比算出手段と、（４）上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出するコヒーレンス算出手段と、（５）上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定するエリア音判定手段と、（６）上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力しない出力手段とを有することを特徴とする。

第２の本発明の収音装置は、コンピュータを、（１）マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成する指向性形成手段と、（２）上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出する目的エリア音抽出手段と、（３）上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出する振幅スペクトル比算出手段と、（４）上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出するコヒーレンス算出手段と、（５）上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定するエリア音判定手段と、（６）上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力しない出力手段として機能させることを特徴とする。

第３の本発明は、収音装置が行う収音方法において、（１）指向性形成手段、目的エリア音抽出手段、振幅スペクトル比算出手段、コヒーレンス算出手段、エリア音判定手段、及び出力手段を有し、（２）上記指向性形成手段は、マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成し、（３）上記目的エリア音抽出手段は、上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出し、（４）上記振幅スペクトル比算出手段は、上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出し、（５）上記コヒーレンス算出手段は、上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出し、（６）上記エリア音判定手段は、上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定し、（７）上記出力手段は、上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力することを特徴とする。

本発明によれば、目的音の音源の周囲で強い背景雑音が存在する場合でも背景雑音成分の収音を抑制することができる。

第１の実施形態に係る収音装置の機能的構成について示したブロック図である。第１の実施形態に係るマイクロホンアレイを構成するマイクロホンの位置関係の例について示した説明図である。第１の実施形態に係る収音装置がマイクロホンアレイを用いて形成する指向特性について示した説明図である。第１の実施形態に係るマイクロホンアレイと目的エリアとの位置関係の例を示す説明図である。第１の実施形態に係る収音装置における各成分の振幅スペクトルの変化を示した説明図である。第１の実施形態に係る収音装置で算出される振幅スペクトル比加算値の時間変化（その１：残響無しの場合）を示した説明図である。第１の実施形態に係る収音装置で算出される振幅スペクトル比加算値の時間変化（その２：残響有りの場合）を示した説明図である。第１の実施形態に係る収音装置で算出されるコヒーレンス加算値の時間変化（その１：残響無しの場合）を示した説明図である。第１の実施形態に係る収音装置で算出されるコヒーレンス加算値の時間変化（その２：残響有りの場合）を示した説明図である。第１の実施形態に係る収音装置で目的エリア音区間判定を行う際の規則（閾値の更新規則等）について示した説明図である。第２の実施形態に係る収音装置の機能的構成について示したブロック図である。従来の収音装置において、２個のマイクロホンを用いて減算型ビームフォーマにより形成される指向特性を示す図である。従来の指向性フィルタにより形成される指向特性の一例を説明する説明図である。従来の収音装置において、２つのマイクロホンアレイのビームフォーマ（ＢＦ）による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態の収音装置１００の機能的構成について示したブロック図である。

収音装置１００は、２つのマイクロホンアレイＭＡ１、ＭＡ２を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡの位置は、例えば、上述の図４に示すように、各マイクロホンアレイＭＡの指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。マイクロホンアレイＭＡは２つ以上のマイクロホン２１から構成され、各マイクロホン２１により音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、３つのマイクロホンＭ１、Ｍ２、Ｍ３が配置されるものとして説明する。すなわち、各マイクロホンアレイＭＡは、３ｃｈマイクロホンアレイを構成している。

図２は、各マイクロホンアレイＭＡにおけるマイクロホンＭ１、Ｍ２、Ｍ３の位置関係について示した説明図である。

図２に示すように、各マイクロホンアレイＭＡでは、２つのマイクロホンＭ１、Ｍ２を目的エリアの方向に対して水平となるように配置し、さらにそのマイクロホンＭ１、Ｍ２を結んだ直線と直行し、かつどちらかのマイクロホンＭ１、Ｍ２を通る直線上にマイクロホンＭ３が配置されている。この際、マイクロホンＭ３、Ｍ２間の距離は、マイクロホンＭ１、Ｍ２間の距離と同じとする。すなわち、３個のマイクロホンＭ１、Ｍ２、Ｍ３は、直角二等辺三角形の頂点となるように配置されているものとする。

収音装置１００は、データ入力部１（１−１、１−２）、指向性形成部２（２−１、２−２）、遅延補正部３、空間座標データ記憶部４、パワー補正係数算出部５、目的エリア音抽出部６、振幅スペクトル算出部７、コヒーレンス算出部８、及びエリア音判定部９を有している。収音装置１００を構成する各機能ブロックの詳細処理については後述する。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータに実施形態の収音プログラムをインストールすることにより構成するようにしてもよい。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の収音装置１００の動作（実施形態の収音方法）を説明する。

データ入力部１−１、１−２は、それぞれ、マイクロホンアレイＭＡ１、ＭＡ２で捕捉した音響信号のアナログ信号の供給を受け、当該アナログ信号をデジタル信号に変換して、指向性形成部２−１、２−２に供給する処理を行う。

指向性形成部２−１、２−２は、それぞれ、各マイクロホンアレイＭＡ１、ＭＡ２の指向性を形成（マイクロホンアレイＭＡ１、ＭＡ２から供給された信号の指向性を形成）する処理を行うものである。

指向性形成部２は、それぞれ、高速フーリエ変換を用いて時間領域から周波数領域へ変換するものとする。この実施形態において、それぞれの指向性形成部２は、目的エリアの方向に対して直行する線上に並んで配置されたマイクロホンＭ１、Ｍ２で双指向性フィルタを形成し、目的方向に並行する線上に並んで配置されたマイクロホンＭ１、Ｍ３で目的方向に死角を向ける単一指向性フィルタを形成する。

具体的には、指向性形成部２は、θ_L＝０とし、マイクロホンＭ１、Ｍ２の出力について、上記の（１）式及び（３）式に従った演算を行うことで、双指向性フィルタの形成を行う。また、指向性形成部２は、θ_L＝−π／２ととし、マイクロホンＭ１、Ｍ３の出力について、上記の（１）式及び（３）式に従った演算を行うことで、単一指向性フィルタの形成を行う。

図３は、マイクロホンアレイＭＡの出力に、上述の双指向性フィルタと単一指向性フィルタにより形成される指向特性について示している。図３において、斜線が付された領域は、上述の双指向性フィルタと単一指向性フィルタの重複部分（重複してフィルタリングされる領域）について示している。図３に示すように、双指向性フィルタと単一指向性フィルタの一部は重なることになるが、ＳＳを行うことで、この重複部分を消去することができる。具体的には、指向性形成部２は、以下の（１３）式に従いＳＳを行うことで、重複部分を消去することができる。以下の（１３）式において、Ａ_BDは双指向性の振幅スペクトル、Ａ_UDは単一指向性の振幅スペクトル、Ａ_UD'はＡ_UDとＡ_BDの重複成分を消去した振幅スペクトルをそれぞれ示している。なお、指向性形成部２は、以下の（１３）式を用いたＳＳの結果、Ａ_UD'がマイナスになった場合はフロアリング処理を行うようにしてもよい。

そして、指向性形成部２は、以下の（１４）式に従い、入力信号からこれら２つの指向性Ａ_BDとＡ_UD'をＳＳすることにより、目的方向に対しマイクロホンアレイＭＡの前方（目的音の方向）にのみ鋭い指向性を形成した信号Ｙ（以下、この信号を「ＢＦ出力」とも呼ぶ）を得ることができる。以下の（１４）式において、Ｘ_DSは各入力信号（各マイクロホンＭ１、Ｍ２、Ｍ３の出力）を加算し平均をとった振幅スペクトルを示している。また、以下の（１４）式において、β₁とβ₂はＳＳの強度を調節するための係数である。以下では、マイクロホンアレイＭＡ１の出力に基づくＢＦ出力をＹ₁、マイクロホンアレイＭＡ２の出力に基づくＢＦ出力をＹ₂と表すものとする。
Ｙ＝Ｘ_DS−β₁Ａ_BD−β₂Ａ_UD1' …（１４）

指向性形成部２−１、２−２では、それぞれ、上述のようなＢＦの処理を行うことでマイクロホンアレイＭＡ１、ＭＡ２について、目的エリアの方向に指向性を形成する。各指向性形成部２では、上述のようにＢＦの処理を行うことにより、各マイクロホンアレイＭＡの指向性が前方にのみ形成されるため、後方（マイクロホンアレイＭＡから見て目的エリアと逆の方向）から回りこむ残響の影響を抑えることができる。また、各指向性形成部２では、それぞれ上述のようにＢＦの処理を行うことにより、各マイクロホンアレイの後方に位置する非目的エリア音を予め抑圧し、目的エリア収音処理のＳＮ比を改善することができる。

空間座標データ記憶部４は、全ての目的エリアの位置情報（目的エリアの範囲の位置情報）と、各マイクロホンアレイＭＡの位置情報（各マイクロホンアレイＭＡを構成する各マイクロホン２１の位置情報）を保持している。空間座標データ記憶部４で記憶する位置情報の具体的な形式や表示単位については、目的エリア及び各マイクロホンアレイＭＡに係る相対的な位置関係が認識可能な形式であれば限定されないものである。

遅延補正部３は、目的エリアと各マイクロホンアレイＭＡとの距離の違いにより発生する遅延を算出し、補正するものである。

遅延補正部３は、まず、空間座標データ記憶部４で保持している位置情報から、目的エリアの位置と各マイクロホンアレイＭＡの位置を取得し、各マイクロホンアレイＭＡへの目的エリア音の到達時間の差を算出する。次に、遅延補正部３は、最も目的エリアから遠い位置に配置されたマイクロホンアレイＭＡを基準として、全てのマイクロホンアレイＭＡに目的エリア音が同時に到達するように遅延を加える。具体的には、遅延補正部３は、Ｙ₁、Ｙ₂のいずれかに遅延を加えて位相を一致させる処理を行う。

パワー補正係数算出部５は、各ＢＦ出力（Ｙ₁、Ｙ₂）に含まれる目的エリア音成分のパワーを同じレベルにするための補正係数を算出する。具体的には、パワー補正係数算出部５は、上記の（５）、（６）式、又は、上記の（７）、（８）式に従って補正係数を算出する。

目的エリア音抽出部６は、パワー補正係数算出部５で算出した補正係数により、各ＢＦ出力Ｙ₁、Ｙ₂を補正する。具体的には、目的エリア音抽出部６は、上記の（９）、（１０）式に従い、各ＢＦ出力Ｙ₁、Ｙ₂を補正し、補正後のＮ₁、Ｎ₂を得る。

また、目的エリア音抽出部６は、補正係数により補正後のＮ₁、Ｎ₂を用いて、非目的エリア音（雑音）をＳＳして、目的エリア音収音信号Ｚ₁、Ｚ₂（目的エリア音を収音した信号）を得る。具体的には、目的エリア音抽出部６は、上記の（１１）、（１２）式に従い、ＳＳしてＺ₁、Ｚ₂を得る。

次に、振幅スペクトル算出部７、コヒーレンス算出部８及びエリア音判定部９の処理概要について説明する。

エリア音判定部９は、目的エリア音が存在している区間（以後、「目的エリア音区間」と呼ぶ）と、目的エリア音が存在していない区間（以後、「非目的エリア音区間」と呼ぶ）を判定し、非目的エリア音区間ではエリア収音処理した音を出力しないことにより、異音の発生を抑える。なお、この実施形態では常に雑音（非目的エリア音）が発生しているものとして説明する。エリア音判定部９は、目的エリア音が存在しているかどうかを判定するために、入力信号とエリア収音処理後の出力（以後、「エリア音出力」と呼ぶ）間の振幅スペクトル比（エリア音出力／入力信号）と各ＢＦ出力間のコヒーレンスの２種類の特徴量を用いるものとする。

図５は、エリア収音処理における目的エリア音と非目的エリア音の振幅スペクトルの変化を示した説明図である。

目的エリア内に音源が存在する場合、入力信号Ｘ₁とエリア音出力Ｚ₁には目的エリア音が共通に含まれるため、目的エリア音成分の振幅スペクトル比は１に近い値となる。また非目的エリア音成分は、エリア音出力では抑圧されているため、振幅スペクトル比は小さい値となる。その他の背景雑音成分に関してもエリア収音処理では複数回のＳＳを行うため、専用の雑音抑圧処理を事前にしなくてもある程度抑圧され、振幅スペクトル比は小さい値となる。逆に目的エリア音が存在しない場合、エリア音出力には、入力信号と比べて消し残りの弱い雑音しか含まれていないため、振幅スペクトル比は全体域で小さい値となる。この特徴により、各周波数で求めた振幅スペクトル比を全て加算すると、目的エリア音が存在するときと存在しないときとで大きな差が生まれることになる。

実際に目的エリア音と２つの非目的エリア音が存在する場合の振幅スペクトル比を加算した値の時間変化を図６に示す。図６の波形Ｗ１１は、全ての音源が混ざっている入力音の波形である。また、図６の波形Ｗ１２は、入力音中の目的エリア音の波形である。さらに、図６の波形Ｗ１３は、振幅スペクトル比加算値を示している。図６に示すように、目的エリア音が存在する区間では、振幅スペクトル比加算値が大きくなっていることが分かる。

そして、図６は残響が殆どない環境下での振幅スペクトル比加算値であるが、残響がある環境での振幅スペクトル比加算値の時間変化は、図７のようになる。

図７の波形Ｗ２１は、全ての音源が混ざっている入力音の波形である。また、図７の波形Ｗ２２は、入力音中の目的エリア音の波形である。さらに、図７の波形Ｗ２３は、振幅スペクトル比加算値を示している。図７に示すように残響下では、反射した非目的エリア音が同時に各マイクロホンアレイの指向性に含まれる可能性がある。この状態では、非目的エリア音が目的エリア音と見なされ、エリア音出力中に非目的エリア音が残ってしまう。それが原因で振幅スペクトル比加算値は、図７のように非目的エリア音区間でも値が大きくなるため、閾値の値を残響が無い環境よりも高めに設定する必要がある。

また、振幅スペクトル比加算値に基づいて目的エリア音の有無を判定する際に、適した閾値を設定するためには、エリア毎に残響の強さ事前に計測することが望ましい。そこで、この実施形態では、各ＢＦ出力間のコヒーレンスも、目的エリア音の存在有無の判定に用いるものとする。コヒーレンスとは、２つの信号の関係性を示す特徴量であり、０から１の間の値を取る。この値は、１に近いほど２つの信号の関係が強いことを示している。目的エリア内に音源が存在する場合、各ＢＦ出力に目的エリア音が共通に含まれるため、目的エリア音成分のコヒーレンスは大きくなる。逆に目的エリア音が存在しない場合、各ＢＦ出力に含まれる非目的エリア音はそれぞれ違うためコヒーレンスは小さくなる。また２つのマイクロホンアレイＭＡ１、ＭＡ２は離れているため、各ＢＦ出力中の背景雑音成分も異なりコヒーレンスは小さくなる。この特徴により、各周波数で求めたコヒーレンスを全て加算すると、目的エリア音が存在するときと存在しないときとで大きな差が生まれることになる。

実際に目的エリア音と２つの非目的エリア音が存在する場合のコヒーレンスを加算した値の時間変化を図８、図９に示す。図８は残響が殆ど無い環境下でのコヒーレンス加算値の時間的変化を示している。図９は、残響下でのコヒーレンス加算値の時間的変化を示している。

図８、図９の波形Ｗ３１、Ｗ４１は、それぞれ全ての音源が混ざっている入力音の波形である。また、図８、図９の波形Ｗ３２、Ｗ４２は、それぞれ入力音中の目的エリア音の波形である。さらに、図８、図９の波形Ｗ３３、４３は、それぞれコヒーレンス加算値を示している。

図８、図９により、目的エリア音区間では、コヒーレンス加算値が大きくなっていることが分かる。図６〜図９を比較すると、コヒーレンス加算値は、振幅スペクトル比加算値に比べ、弱い目的エリア音区間の検出は劣るが、残響の影響を受け難いことが分かる。

目的エリア音抽出部６では、上述のようなコヒーレンス加算値の特徴を活かし、残響下において振幅スペクトル比加算値の閾値（目的エリア音区間の判定に用いる閾値）を更新する。目的エリア音抽出部６が閾値を更新するタイミングは、例えば振幅スペクトル比加算値とコヒーレンス加算値をそれぞれ予め設定した閾値により判定した後、２つの判定結果を比較して決定する。そして、目的エリア音抽出部６は、２つの判定結果が同じであれば、その結果通りに、目的エリア音区間であればエリア音出力をそのまま出力し、非目的エリア音区間であればエリア音出力データを出力せずに無音、もしくは入力音のゲインを小さくした音を出力する。しかし２つの判定が異なった場合は、残響により誤判定を起こしている可能性がある。

そこで、目的エリア音抽出部６は、振幅スペクトル比加算値に基づいて目的エリア音区間と判定し、コヒーレンス加算値に基づいて非目的エリア音区間と判定した場合、過去の判定結果の履歴（最終判定結果の履歴）を利用した判定を行う。この実施形態の例では、目的エリア音抽出部６は、同じ結果が一定回数未満であれば振幅スペクトル比加算値の判定を優先するが、一定回数以上連続したときは、残響の影響により非目的エリア音区間において振幅スペクトル比加算値の閾値を超えてしまっている可能性が高いと考えられるため、振幅スペクトル比加算値の閾値を引き上げる。そして、目的エリア音抽出部６は、その後改めて振幅スペクトル比加算値による判定を行う。

また、目的エリア音抽出部６は、振幅スペクトル比加算値に基づいて非目的エリア音区間と判定し、コヒーレンス加算値に基づいて目的エリア音区間と判定した場合も同様に、過去の判定結果の履歴を利用した判定を行う。この実施形態の例では、目的エリア音抽出部６は、同じ結果が一定回数未満であれば振幅スペクトル比加算値の判定を優先するが、一定回数以上連続したときは、振幅スペクトル比加算値の閾値が高すぎる可能性が高いと考えられるため、振幅スペクトル比加算値の閾値を引き下げ、その後改めて振幅スペクトル比加算値による判定を行うものとする。

また、目的エリア音抽出部６は、振幅スペクトル比加算値とコヒーレンス加算値の相関係数を求め、振幅スペクトル比加算値の閾値を更新するようにしてもよい。例えば、この実施形態の例では、目的エリア音抽出部６は、振幅スペクトル比加算値とコヒーレンス加算値の移動平均を求めた後、２つの特徴量の相関係数を求めるようにしてもよい。これにより、残響の有り無しに関わらず目的エリア音区間では高い値となる。また残響の無い非目的エリア音区間においても相関は高くなる。しかし、残響のある非目的エリア音区間では、振幅スペクトル比加算値が残響の影響を受けるため、相関は低くなる。したがって、目的エリア音抽出部６は、相関係数が一定値を下回ったときは、振幅スペクトル比加算値の閾値を引き上げ、残響に適した閾値を設定することが望ましい。

次に、振幅スペクトル比算出部７の詳細処理について説明する。

振幅スペクトル比算出部７は、データ入力部１−１、１−２から供給される入力信号と、目的エリア音拍出部６から供給されるエリア音出力Ｚ₁、Ｚ₁とに基づいて、振幅スペクトル比を算出した後、全周波数分の振幅スペクトル比を加算して振幅スペクトル比加算値を求める。

具体的は、まず、振幅スペクトル比算出部７は、データ入力部１−１、１−２から供給される入力信号と、目的エリア音抽出部６からから供給されるエリア音出力Ｚ₁、Ｚ₂とを取得して、振幅スペクトル比の算出を行う。例えば振幅スペクトル比算出部７は、下記（１５）、（１６）式を用いて、エリア音出力Ｚ₁、Ｚ₂と入力信号の振幅スペクトル比を周波数ごとに算出する。そして下記（１７）、（１８）式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値を求める。ここで（１５）、（１６）式において、Ｗ_x1はマイクロホンアレイＭＡ１の入力信号の振幅スペクトルであり、Ｗ_x2は、マイクロホンアレイＭＡ２の入力信号の振幅スペクトルである。また、Ｚ₁は、マイクロホンアレイＭＡ１をメインとしてエリア収音処理を行った場合のエリア音出力の振幅スペクトルであり、Ｚ₂は、マイクロホンアレイＭＡ２をメインとしてエリア収音処理を行ったときのエリア音出力の振幅スペクトルである。さらに（１７）式で得られるＵ₁は、各周波数の振幅スペクトル比Ｒ_1iを周波数の下限ｍから上限ｎでの帯域で足し合わせたものであり、式（１８）の処理を用いて得られるＵ₂は、各周波数の振幅スペクトル比Ｒ_2iを、周波数の下限ｍから上限ｎでの帯域で足し合わせたものである。ここで、振幅スペクトル比算出部７において演算対象とする周波数の帯域を制限しても良い。例えば、演算対象を音声情報が十分に含まれる１００Ｈｚから６ｋＨｚに制限して、上記演算を行うようにしても良い。

上記振幅スペクトル比算出では、エリア収音処理においてメインとして使用するマイクロホンアレイＭＡに応じて、（１５）式あるいは（１６）式を用いて算出する。また、振幅スペクトル比の加算では、エリア収音処理においてメインとして使用するマイクロホンアレイＭＡに応じて、（１７）式、または（１８）式を用いて算出する。具体的には、エリア収音処理においてメインとしてマイクロホンアレイＭＡ１を用いた場合は、（１５）式及び（１７）式を、マイクロホンアレイＭＡ２を用いた場合は、（１６）式及び（１８）式を用いる。

次に、コヒーレンス算出部８の詳細処理について説明する。

コヒーレンス算出部８は、指向性形成部２−１、２−２よりマイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力を取得し、周波数毎にコヒーレンスを算出した後、全周波数分を加算してコヒーレンス加算値を求める。コヒーレンス算出部８は、以下の（１９）式、また加算は（２０）式に従い、コヒーレンス加算値を算出する。コヒーレンス算出部８は、コヒーレンスを算出する際に必要となるＢＦ出力Ｙ₁とＹ₂の位相情報として、それぞれのマイクロホンアレイの入力信号の位相を利用する。この際、コヒーレンス算出部８は、周波数の帯域を制限しても良い。コヒーレンス算出部８は、例えば音声情報が十分に含まれる１００Ｈｚから６ｋＨｚに絞ってコヒーレンス加算値を求めるようにしてもよい。ここでＣはコヒーレンス、Ｐ_Y1Y2は各マイクロホンアレイのＢＦ出力Ｙ₁とＹ₂のクロススペクトル、Ｐ_Y1Y1とＰ_Y2Y2はそれぞれＹ₁とＹ₂のパワースペクトル、ｍとｎはそれぞれ周波数の下限と上限、Ｈは各周波数のコヒーレンスを加算した値である。クロススペクトルとパワースペクトルを算出するために使用するＹ₁とＹ₂は、過去の情報を使用することもでき、この場合Ｙ₁とＹ₂をそれぞれ（２１）式と（２２）式によって更新する。ここでαは、過去の情報をどの程度使用するかを決定する係数であり、値は０から１の聞を取る。

Ｙ₁（ｔ）＝αＹ₁（ｔ）＋（１−α）Ｙ₁（ｔ−１） …（２１）
Ｙ₂（ｔ）＝αＹ₂（ｔ）＋（１−α）Ｙ₂（ｔ−１） …（２２）

次に、エリア音判定部９の詳細処理について説明する。

エリア音判定部９は、コヒーレンス算出部８により算出したコヒーレンス加算値を予め設定した閾値と比較し、エリア音が存在するかしないかを判定する。エリア音判定部９は、目的エリア音が存在すると判定した場合、目的エリア音収音信号（Ｚ₁、Ｚ₂）をそのまま出力し、目的エリア音が存在しないと判定した場合、目的エリア音収音信号（Ｚ₁、Ｚ₂）を出力せずに無音データ（例えば、予め設定されたダミーデータ）を出力する。なお、エリア音判定部９は、無音データの代わりに、入力信号のゲインを弱めたものを出力しても良い。さらに、エリア音判定部９は、コヒーレンス加算値が閾値よりも一定以上大きい場合、その後の数秒間は、コヒーレンス加算値に関わらず目的エリア音が存在すると判定する処理（ハングオーバー機能に対応する処理）を追加するようにしてもよい。

なお、エリア音判定部８が出力する信号の形式は限定されないものであり、例えば、全てのマイクロホンアレイＭＡの出力に基づく目的エリア音収音信号Ｚ₁、Ｚ₂を出力するようにしてもよいし、一部の目的エリア音収音信号（例えば、Ｚ₁、Ｚ₂の一方）だけを出力するようにしてもよい。

図１０は、エリア音判定部９が行う閾値の更新ルールの一例を示した説明図である。

まず、エリア音判定部９は、振幅スペクトル比加算値とコヒーレンス加算値をそれぞれ予め設定した閾値により判定する。また、エリア音判定部９は、２つの判定結果を比較し、２つの判定結果が同じであれば、その結果通りに判定し出力処理を行う。さらに、エリア音判定部９は、２つの判定が異なり、振幅スペクトル比加算値が目的エリア音区間と判定し、コヒーレンス加算値が非目的エリア音区間と判定した場合、同じ結果が一定回数未満であれば振幅スペクトル比加算値の判定に従う。しかし同様の判定が一定回数以上続いたときは、残響の影響により非目的エリア音区間において振幅スペクトル比加算値の閾値を超えている可能性が高いため、エリア音判定部９は、振幅スペクトル比加算値の閾値を引き上げ、その後改めて振幅スペクトル比加算値による判定を行う。逆に振幅スペクトル比加算値が非目的エリア音区間と判定し、コヒーレンス加算値が目的エリア音区間と判定した場合、同じ結果一定回数未満であれば振幅スペクトル比加算値の判定に従う。しかし、一定回数以上連続したときは、振幅スペクトル比加算値の閾値が高すぎる可能性があるため、エリア音判定部９は、振幅スペクトル比加算値の閾値を引き下げ、その後改めて振幅スペクトル比加算値による判定を行う。また振幅スペクトル比加算値の閾値の更新は、振幅スペクトル比加算値とコヒーレンス加算値の相関係数に基いて行っても良い。この場合、エリア音判定部９は、まず振幅スペクトル比加算値とコヒーレンス加算値の移動平均を求める。その後、エリア音判定部９は、２つの移動平均値から相関係数を求める。相関係数は、目的エリア音区間であれば、残響の有り無しに関わらず高い値となる。また残響の無い非目的エリア音区間においても相関は高くなる。しかし、残響のある非目的エリア音区間では、振幅スペクトル比加算値が残響の影響を受けて相関が低くなる。この特性を利用し、エリア音判定部９は、相関係数が一定値を下回ったときは、非目的エリア音区間と判定し、かつ振幅スペクトル比加算値の閾値を引き上げある。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の収音装置１００では、目的エリア音が存在している区間と存在していない区間を判定し、存在していない区間ではエリア収音処理した音を出力しないことにより、異音の発生を抑える。また、第１の実施形態の収音装置１００では、コヒーレンス加算値を予め設定した閾値で判定し、目的エリア音が存在しないと判定された場合は、目的エリア音を抽出した出力（以下、「エリア音出力」と呼ぶ）データを出力せずに無音、もしくは入力音のゲインを小さくした音を出力する。このように、第１の実施形態の収音装置１００では、目的エリア音の存在の有無を判定し、存在しないときはエリア音出力データを出力しないことで、背景雑音が強い環境下において、目的エリア音が存在しないときの異音の発生を抑えることができる。

また、上述のように、収音装置１００では、振幅スペクトル比加算値とコヒーレンス加算値の両方を用いて目的エリア音の存在有無を判定するため、残響の有無にかかわらず精度良く目的エリア音の有無を判定することができる。

（Ｂ）第２の実施形態
以下、本発明による音声処理装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成及び動作
図１１は、第２の実施形態の収音装置１００Ａの機能的構成について示したブロック図である。

第２の実施形態の収音装置１００Ａでは、２つの雑音抑圧部１０（１０−１、１０−２）が追加されている点で第１の実施形態と異なっている。雑音抑圧部１０−１、１０−２は、それぞれ、データ入力部１−１、１−２と、指向性形成部２−１、２−２との間に挿入されている。また、雑音抑圧部１０−１、１０−２の出力は、振幅スペクトル算出部７にも供給される。

雑音抑圧部１０−１、１０−２は、それぞれ、エリア音判定部９の判定結果（目的エリア音が存在する区間の検出結果）を利用して、データ入力部１−１、１−２から供給される信号（各マイクロホンアレイＭＡの各マイクロホンＭから供給される音声信号）について雑音（目的エリア音以外の音）の抑圧処理を行い、指向性形成部２−１、２−２及び振幅スペクトル算出部７に供給する。

雑音抑圧部１０は、エリア音判定部９の結果を、音声区間検出（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ；以下、ＶＡＤ）のように使用し、雑音抑圧処理を調節する。通常、収音装置において雑音抑圧を行う場合、ＶＡＤを用い入力信号を音声区間と雑音区間に判別し、雑音区間で学習してフィルタを形成する。入力信号の非目的エリア音が音声である場合、通常のＶＡＤの処理では音声区間と判定されるが、この実施形態のエリア音判定部９の判定では、目的エリア音以外の音は音声であっても雑音として取り扱われる。そこで、雑音抑圧部１０は、エリア音判定部９の判定結果を用いて、目的エリア音区間（目的エリア音が存在している区間）と、非目的エリア音区間（目的エリア音が存在せず、非目的エリアの音だけが存在する区間）とを区別する。例えば、雑音抑圧部１０は、目的エリア音区間以外の区間での有音区間を、非目的エリア音区間として認識することができる。そして、雑音抑圧部１０は、非目的エリア音区間を雑音区間として認識して、フィルタ学習やフィルタゲインの調節を既存のＶＡＤと同様の処理により行う。

雑音抑圧部１０は、例えば、目的エリア音が存在しないと判定された場合、更なるフィルタの学習を行うことができる。また、雑音抑圧部１０は、目的エリア音が存在しない場合は、存在するときと比べてフィルタゲインを強めても良い。

雑音抑圧部１０が、エリア音判定部９から受け取る判定は、時系列的に一つ前の処理結果（ｎ−１の時系列の処理結果）となるが、現在の処理結果（ｎの時系列の処理結果）を受け取ってさらに雑音抑圧の処理を行い、再びエリア収音処理を行う構成としても良い。雑音抑圧方式は、ＳＳやウィーナーフィルタ、ＭＭＳＥ−ＳＴＳＡ（ＭｉｎｉｍｕｍＭｅａｎＳｑｕａｒｅＥｒｒｏｒ−ＳｈｏｒｔＴｉｍｅＳｐｅｃｔｒａｌＡｍｐｌｉｔｕｄｅ）法などの各種方式を使用できる。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果に加えて以下のような効果を奏することができる。

第２の実施形態では、雑音抑圧部１０を設けることにより、第１の実施形態よりも精度の高い目的エリア音の収音を行うことができる。

また、雑音抑圧部１０では、エリア音判定部９の判定結果（非目的エリア音区間）を利用した雑音抑制処理を行うことができるので、従来の雑音抑制処理よりも目的エリア音の収音に適した雑音抑制を行うことができる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記各実施形態では、マイクロホンが捕捉して得た音響信号をリアルタイムに処理するものを示したが、マイクロホンが捕捉して得た音響信号を記憶媒体に記憶し、その後、記憶媒体から読み出して処理して目的音、目的エリア音の強調信号を得るようにしても良い。このように記憶媒体を利用する場合には、マイクロホンが設定されている場所と、目的音や目的エリア音の抽出処理する場所とが離れていても良い。同様に、リアルタイム処理をする場合でも、マイクロホンが設定されている場所と、目的音や目的エリア音の抽出処理する場所とが離れていても良く、通信により信号を遠隔地に供給するようにしても良い。

（Ｃ−２）上記の収音装置で用いられるマイクロホンアレイＭＡは３ｃｈマイクロホンアレイであるものとして説明したが、２ｃｈマイクロホンアレイ（２つのマイクロホンを備えるマイクロホンアレイ）を適用するようにしてもよい。その場合の指向性形成部による指向性形成処理は、既存の種々のフィルタ処理に置き換えることができる。

（Ｃ−３）上記の集音装置では、２つのマイクロホンアレイの出力から目的エリア音を収音する構成について説明したが、３つ以上のマイクロホンアレイの出力のそれぞれから目的エリア音を収音する構成としてもよい。その場合、コヒーレンス算出部８では、全てのマイクロホンアレイのＢＦ出力について、位相を合わせてコヒーレンス加算値を算出するようにしてもよい。

１００…収音装置、１、１−１、１−２…データ入力部１、２、２−１、２−２…指向性形成部、３…遅延補正部、４…空間座標データ記憶部、５…パワー補正係数算出部、６…目的エリア音抽出部、７…振幅スペクトル比算出部、８…コヒーレンス算出部、９…エリア音判定部、ＭＡ、ＭＡ１、ＭＡ２…マイクロホンアレイ、Ｍ、Ｍ１、Ｍ２、Ｍ３…マイクロホン。

Claims

マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成する指向性形成手段と、
上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出する目的エリア音抽出手段と、
上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出する振幅スペクトル比算出手段と、
上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出するコヒーレンス算出手段と、
上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定するエリア音判定手段と、
上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力しない出力手段と
を有することを特徴とする収音装置。
上記エリア音判定手段は、コヒーレンス加算値に基づいた目的エリア音の存在有無の判定を行う第１の判定処理と、振幅スペクトル比加算値に基づいた目的エリア音の存在有無の判定を行う第２の判定処理とを行い、第１の判定処理結果と第２の判定処理結果が一致する場合には、その判定処理結果を最終的な判定処理結果として出力し、第１の判定処理結果と第２の判定処理結果が異なる場合には、過去の判定処理結果の履歴に応じて最終的な判定処理結果を決定することを特徴とする請求項１に記載の収音装置。
上記目的エリア音抽出手段は、マイクロホンアレイの出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記マイクロホンアレイの出力から抽出した非目的エリア音を上記指向性形成手段の出力からスペクトル減算して目的エリア音を抽出することを特徴とする請求項１又は２に記載の収音装置。
上記指向性形成手段は、複数のマイクロホンアレイのそれぞれの出力に対して、目的エリアの方向に指向性を形成し、
上記目的エリア音抽出手段は、
目的エリアと、各マイクロホンアレイに係る位置情報を保持する位置情報保持部と、
上記指向性形成手段の出力において、目的エリア音が全てのマイクロホンアレイに同時に到着するように、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する遅延補正部と、
マイクロホンアレイ毎の上記遅延補正部の出力間で周波数毎に振幅スペクトルの比率を算出し、比率の最頻値もしくは中央値を算出し、補正係数とする目的エリア音パワー補正係数算出部と、
上記目的エリア音パワー補正係数算出部で算出した補正係数を用い、上記マイクロホンアレイ毎の上記遅延補正部の出力を補正し、それぞれをスペクトル減算することで目的エリアの方向に存在する非目的エリア音を抽出し、その後抽出した非目的エリア音を各マイクロホンアレイの上記遅延補正部の出力からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出部とを有する
ことを特徴とする請求項１〜３のいずれかに記載の収音装置。
上記エリア音判定手段の判定結果に応じたタイミングを利用して、上記指向性形成手段の出力から雑音抑圧の処理を行う雑音抑圧手段をさらに備え
上記目的エリア音抽出手段は、上記雑音抑圧手段の出力から、目的エリア音を抽出する
ことを特徴とする請求項１〜４のいずれかの記載の収音装置。
コンピュータを、
マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成する指向性形成手段と、
上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出する目的エリア音抽出手段と、
上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出する振幅スペクトル比算出手段と、
上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出するコヒーレンス算出手段と、
上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定するエリア音判定手段と、
上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力しない出力手段と
して機能させることを特徴とする収音プログラム。
収音装置が行う収音方法において、
指向性形成手段、目的エリア音抽出手段、振幅スペクトル比算出手段、コヒーレンス算出手段、エリア音判定手段、及び出力手段を有し、
上記指向性形成手段は、マイクロホンアレイの出力に対して、目的エリアの方向に指向性を形成し、
上記目的エリア音抽出手段は、上記指向性形成手段の出力から、目的エリアの方向に存在する非目的エリア音を抽出し、上記指向性形成手段の出力から抽出した非目的エリア音の成分を抑圧して目的エリア音を抽出し、
上記振幅スペクトル比算出手段は、上記目的エリア音抽出手段の出力から振幅スペクトルを算出し、当該振幅スペクトルと上記マイクロホンアレイの入力信号の振幅スペクトルとを用いて周波数ごとの振幅スペクトル比を算出し、各周波数の振幅スペクトル比を加算して振幅スペクトル比加算値を算出し、
上記コヒーレンス算出手段は、上記指向性形成手段の出力から周波数ごとのコヒーレンスを算出し、各周波数のコヒーレンスを加算してコヒーレンス加算値を算出し、
上記エリア音判定手段は、上記コヒーレンス算出手段で算出したコヒーレンス加算値と、上記振幅スペクトル比算出手段で算出した振幅スペクトル比加算値とを用いて、目的エリア音の存在の有無を判定し、
上記出力手段は、上記エリア音判定手段により目的エリア音が存在すると判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力し、上記エリア音判定手段により目的エリア音が存在しないと判定された場合には、上記目的エリア音抽出手段が抽出した目的エリア音を出力する
ことを特徴とする収音方法。