JP6729744B1

JP6729744B1 - 収音装置、収音プログラム及び収音方法

Info

Publication number: JP6729744B1
Application number: JP2019066528A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2020-07-22
Anticipated expiration: 2039-03-29
Also published as: JP2020167530A

Abstract

【課題】エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法を提供する。【解決手段】本発明は、収音装置に関する。そして、本発明の収音装置は、複数のマイクアレイのビームフォーマ出力に基づく目的方向信号を取得する手段と、取得した目的方向信号から非目的エリア音を抽出し目的方向信号から非目的エリア音をスペクトル減算することにより目的エリア音を抽出する手段と、入力信号に目的エリア音が含まれるか否か判定する手段と、目的エリア音判定処理の結果を含む要素に基づいて混合用信号のレベルを調整するレベル調整係数を決定する手段と、決定されたレベル調整係数の変化を所定時間かけて所定の変化パターンで制御する手段と、制御されたレベル調整係数で調整したレベル調整済混合用信号を目的エリア音と混合して混合後信号をエリア収音結果として出力する手段とを有することを特徴とする。【選択図】図１

Description

本発明は、収音装置、収音プログラム及び収音方法に関し、例えば特定のエリアの音を強調し、それ以外のエリアの音を抑圧するエリア収音処理に適用し得る。

従来、複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下、「ＢＦ」と呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図１５は、マイクロホン数が２個の場合の減算型ＢＦ３００に係る構成を示すブロック図である。

図１６に示す減算型ＢＦ３００は、遅延器３１０と減算器３２０とを有している。

減算型ＢＦ３００は、まず遅延器３１０により目的とする方向に存在する音（以下、「目的音」と呼ぶ）が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は下記（１）式により算出される。ここで「ｄ」はマイクロホン間の距離であり、「ｃ」は音速であり、「τ_L」は遅延量である。また、ここで「θ_Ｌ」は、各マイクロホン（Ｍ１、Ｍ２）の間を結んだ直線に対する垂直方向から目的方向への角度である。

ここで、死角がマイクロホンＭ１とマイクロホンＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、遅延器３１０は、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算型ＢＦ３００では、減算器３２０が（２）式に従い減算処理を行う。

減算器３２０では、周波数領域でも同様に減算処理を行うことができ、その場合（２）式は以下（３）式のように変更される。

図１６は、２個のマイクロホンＭ１、Ｍ２を用いた減算型ＢＦ３００により形成される指向特性を示す図である。

ここでθ_Ｌ＝±π／２の場合、減算器３２０で形成される指向性は図１６（ａ）に示すように、カージオイド型の単一指向性となり、θ_Ｌ＝０，πの場合は、図１６（ｂ）のような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。

また、減算器３２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下単に「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、（４）式に従い全周波数、又は指定した周波数帯域で形成される。（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβはＳＳの強度を調節するための係数である。

減算器３２０では、減算処理時に値がマイナスになった場合は、０または元の値を小さくした値に置き換える処理（フロアリング処理）を行う。この方式により、減算器３２０では、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。

ところで、ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。そこで特許文献１の記載技術では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法（以下、「エリア収音」と呼ぶ）を提案している。

従来のエリア収音では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。例えば、２つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、「（５）式、（６）式」または「（７）式、（８）式」により算出される。

ここで、「Ｙ_１ｋ（ｎ）」、「Ｙ_２ｋ（ｎ）」は、それぞれ第１、第２のマイクロホンアレイのＢＦ出力の振幅スペクトルである。また、「Ｎ」は周波数ビンの総数であり、「ｋ」は周波数である。さらに、「α_１（ｎ）」、「α_２（ｎ）」は、それぞれ第１、第２のマイクロホンアレイのＢＦ出力に対する振幅スペクトル補正係数である。さらにまた、「ｍｏｄｅ」は最頻値、「ｍｅｄｉａｎ」は中央値をそれぞれ表している。

従来のエリア収音処理では、その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

この場合、従来のエリア収音処理では、第１のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出するには、（９）式に示すように、第１のマイクロホンアレイのＢＦ出力Ｙ_１（ｎ）から第２のマイクロホンアレイのＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数α_２を掛けたものをＳＳする。同様に（１０）式に従い、第２のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。

その後、従来のエリア収音処理では、（１１）式、（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する。（１１）式は第１のマイクロホンアレイを基準として目的エリア音を抽出する処理を示しており、（１２）式は第２のマイクロホンアレイを基準として目的エリア音を抽出する処理を示している。

ここでγ_１（ｎ）、γ_２（ｎ）はＳＳ時の強度を変更するための係数である。

従来のエリア収音処理では、目的エリア音を抽出するために、（４）式と（１１）及び（１２）式で非線形処理であるＳＳを行っているため、高雑音環境下ではミュージカルノイズと呼ばれる不快な異音が発生する恐れがある。

そこで、特許文献２の記載技術では、入力信号に目的エリア音が存在している区間と存在していない区間を判定し、目的エリア音が存在していない区間ではエリア収音処理した音を出力しないことにより、ミュージカルノイズなどの異音を抑えている。

特許文献２の記載技術では、目的エリア音が存在しているかどうかを判定するために、まず（１３）式に従い入力信号と目的エリア音を抽出した出力（以後、「エリア音出力」と呼ぶ）間の振幅スペクトル比Ｒ（＝エリア音出力／入力信号）を算出する。

また、目的エリア内に音源が存在する場合、入力信号Ｘ_１とエリア音出力Ｚ_１には目的エリア音が共通に含まれるため、目的エリア音成分の振幅スペクトル比は１に近い値となる。

逆に、非目的エリア音成分は、エリア音出力では抑圧されているため、振幅スペクトル比は小さい値となる。

その他の背景雑音成分に関してもエリア収音処理では複数回のＳＳを行うため、専用の雑音抑圧処理を事前にしなくてもある程度抑圧され、振幅スペクトル比は小さい値となる。

逆に、目的エリア音が存在しない場合、エリア音出力には、入力信号と比べて消し残りの弱い雑音しか含まれていないため、振幅スペクトル比は全体域で小さい値となる。

特許文献２の記載技術では、この特徴により、（１４）式に従い各周波数で求めた振幅スペクトル比の平均値Ｕを取ると、目的エリア音が存在するときと存在しないときとで大きな差が生まれることになる。

ここでｍとｎは、それぞれ処理帯域（周波数帯域）の上限と下限であり、例えば音声情報が十分に含まれる１００Ｈｚから６ｋＨｚとする。

そして、特許文献２の記載技術では、平均パワースペクトル比を予め設定した閾値で判定し、目的エリア音が存在しないと判定された場合は、エリア音出力データを出力せずに無音、もしくは入力信号のゲインを小さくした音を出力する。

特許文献３では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれに調節し、抽出した目的エリア音に混合することにより、ミュージカルノイズをマスキングして影響を抑えている。目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、特許文献３の記載技術では、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくしている。また、特許文献３の記載技術において、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。さらに、特許文献３の記載技術において、非目的エリア音の音量レベルは、それぞれ（３）式で抽出する非目的音と（９）式、（１０）式で抽出する非目的エリア音を合わせたものから算出する。さらにまた、特許文献３の記載技術では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると、目的エリア音が存在しないときには、非目的エリア音だけが聞こえ、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献３の記載技術では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。特許文献３の手法は、ミュージカルノイズをマスキングするだけでなく、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善する効果もある。

特開２０１４−０７２７０８号公報特開２０１６−１２７４５７号公報特開２０１７−１８３９０２号公報

浅野太著、"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"、日本音響学会編、コロナ社、２０１１年２月２５日発行

しかしながら、特許文献２に記載された手法では、高雑音環境下において、ミュージカルノイズの発生を抑えることはできるが、目的エリア音の歪を改善することができない。また、特許文献２に記載された手法では、目的エリア音が存在しないと判定された際に無音とする場合は、誤判定してしまうと音が欠落する。さらに、特許文献２に記載された手法では、目的エリア音が存在しないと判定された際に入力信号を小さくした音を出力する場合は、目的エリア音と切り替わったときに、歪んだ目的エリア音と入力信号とで音が不連続になり違和感が生じる可能性がある。

一方、特許文献３に記載された手法では、高雑音環境下において、ミュージカルノイズの影響を抑え、かつ目的エリア音の歪を改善することができる。しかしながら、特許文献３に記載された手法では、背景雑音と非目的エリア音のレベルがどちらも大きい場合は、混合信号のレベルも大きくなるため、目的エリア音が存在しない区間での雑音抑圧の効果が弱まってしまう問題がある。

以上のような問題に鑑みて、エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法が望まれている。

第１の本発明の収音装置は、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力する目的エリア音判定手段と、（４）前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力する混合レベル調整手段と、（５）前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行うレベル調整係数制御手段と、（６）前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段とを有することを特徴とする。

第２の本発明の収音プログラムは、コンピュータを、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力する目的エリア音判定手段と、（４）前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力する混合レベル調整手段と、（５）前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行うレベル調整係数制御手段と、（６）前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段として機能させることを特徴とする。

第３の本発明は、収音方法において、（１）指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、レベル調整係数制御手段、及び混合手段を有し、（２）前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、（３）前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、（４）前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力し、（５）前記混合レベル調整手段は、前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力し、（６）前記レベル調整係数制御手段は、前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行い、（７）前記混合手段は、前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力することを特徴とする。

本発明によれば、エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法を提供することができる。

実施形態に係る収音装置の機能的構成を示すブロック図である。実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その１）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その２）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その３）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その４）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その５）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その６）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その７）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その８）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その９）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その１０）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その１１）について示した図である。実施形態に係る混合レベル制御部がレベル調整係数を制御する際の変更パターンの例（その１２）について示した図である。従来の減算型ＢＦの構成を示すブロック図である。従来の減算型ＢＦにより形成される指向性フィルタの例について示した説明図である。

（Ａ）主たる実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の一実施形態を図面を参照して説明する。

（Ａ−１）実施形態の構成
図１は、この実施形態に係る収音装置１００の機能的構成を示すブロック図である。

収音装置１００は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイＭＡは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ１、Ｍ２が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイＭＡは、２ｃｈマイクロホンアレイを構成しているものとする。２個のマイクロホンＭ１、Ｍ２の間の距離は限定されないものであるが、この実施形態の例では、２個のマイクロホンＭ１、Ｍ２の間の距離は３ｃｍとする。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

次に、図１を用いて収音装置１００の内部構成について説明する。

図１に示す通り、収音装置１００は、信号入力部１、指向性形成部２、遅延補正部３、空間座標データ４、補正係数算出部５、目的エリア音抽出部６、目的エリア音判定部７、雑音レベル算出部８、混合レベル調整部９、混合レベル制御部１０及び信号混合部１１を有している。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

次に、図２を用いて、収音装置１００のハードウェア構成について説明する。

図２は、収音装置１００のハードウェア構成の例について示したブロック図である。

図２では、収音装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す収音装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ２００を有している。また、コンピュータ２００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ２００は、プロセッサ２０１、一次記憶部２０２、及び二次記憶部２０３を有している。一次記憶部２０２は、プロセッサ２０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ２００では、プロセッサ２０１が起動する際、二次記憶部２０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部２０２上に展開して実行する。

なお、コンピュータ２００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部２０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部２０３については除外した構成としてもよい。

（Ａ−２）実施形態の動作
次に、以上のような構成を有するこの実施形態の収音装置１００の動作（実施形態の収音方法）を説明する。

信号入力部１は、各マイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）が収音した音響信号の入力をうけるとその音響信号をアナログ信号からデジタル信号に変換する。そして、信号入力部１は、当該音響信号（デジタル信号）を、所定の方法（例えば、高速フーリエ変換）を用いて、時間領域から周波数領域へ変換する。以下では、各マイクロホンアレイＭＡにおいて、マイクロホンＭ１、Ｍ２の周波数領域の入力信号を、それぞれＸ_１、Ｘ_２として説明する。

指向性形成部２は、マイクロホンアレイ毎に入力信号に対し、（４）式に従いＢＦにより目的エリア方向に指向性を形成する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトルを、それぞれＹ_１ｋ（ｎ）、Ｙ_２ｋ（ｎ）として説明する。

遅延補正部３は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。遅延補正部３は、まず空間座標データ４から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。次に、遅延補正部３は、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。

空間座標データ４は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持する。

補正係数算出部５は、各ＢＦ出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を算出する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に対する補正係数を、α_１（ｎ）、α_２（ｎ）として説明する。補正係数算出部５は、「（５）式、（６）式」または「（７）式、（８）式」に従い補正係数を算出する。

目的エリア音抽出部６は、補正係数算出部５で算出した補正係数により補正した各ＢＦ出力から、目的エリア方向に存在する非目的エリア音を抽出する。そして、目的エリア音抽出部６は、補正係数算出部５で算出した補正係数により補正した各ＢＦ出力データを、例えば、（９）式もしくは（１０）式に従いＳＳし、目的エリア方向に存在する非目的エリア音（Ｎ_１（ｎ）又はＮ_２（ｎ））を抽出する。さらに、目的エリア音抽出部６は、抽出した非目的エリア音（Ｎ_１（ｎ）又はＮ_２（ｎ））を、各ＢＦの出力から（１１）式、もしくは（１２）式に従いＳＳすることにより、目的エリア音（Ｚ_１（ｎ）又はＺ_２（ｎ））を抽出する。

目的エリア音判定部７は、入力信号に目的エリア音が存在するか否かを判定する処理（以下、「目的エリア音判定処理」と呼ぶ）を行う。目的エリア音判定部７は、目的エリア音判定処理で、入力信号に目的エリア音が存在すると判定した場合には、「目的エリア音有り」を示すデータ（信号）を出力し、入力信号に目的エリア音が存在しない判定した場合には、「目的エリア音無し」を示すデータ（信号）を出力する。以下では、目的エリア音判定部７が「目的エリア音有り」を出力している状態を「目的エリア音含有判定状態」と呼び、目的エリア音判定部７が「目的エリア音無し」を出力している状態を「目的エリア音非含有判定状態」とも呼ぶものとする。

目的エリア音判定部７における目的エリア音判定処理の方式は限定されないものであり種々の方式を適用することができる。この実施形態では、目的エリア音判定部７は、特許文献２の方式により目的エリア音判定処理を行うものとする。例えば、目的エリア音判定部７は、各周波数について目的エリア音と入力信号の振幅スペクトル比を（１３）式に従って求め、各周波数で求めた振幅スペクトル比Ｒの平均値Ｕを（１４）式に従って求める。そして、目的エリア音判定部７は、求めたＵを予め設定した閾値と比較することで、目的エリア音が存在するかしないかを判定する。

なお、目的エリア音判定部７では、判定結果が「目的エリア音無し」から「目的エリア音有り」に切り替わると、その後所定期間（例えば、数秒程度の期間；以下、この期間を「ＴＨ」と表す））内は、判定処理に用いる算出結果に関わらず、「目的エリア音有り」の判定結果を出力する機能（以下、「ハングオーバ機能」と呼ぶ）に対応するようにしてもよい。例えば、目的エリア音判定部７は、出力する判定結果が「目的エリア音無し」から「目的エリア音有り」に切り替わった後、期間ＴＨの間に、算出結果に基づく判定結果が「目的エリア音無し」に切り替わった場合でも、期間ＴＨが経過するまでの間、「目的エリア音有り」の判定結果の出力を継続（出力を固定）する。なお、以下では、目的エリア音判定部７において、期間ＴＨを計時中（経過中）に算出結果に基づく判定結果が「目的エリア音無し」に切り替わった第１のタイミングから、期間ＴＨの計時が完了するまでの第２のタイミングまでの状態を「ハングオーバ状態」と呼び、ハングオーバ状態の期間を「ハングオーバ期間」と呼ぶものとする。

雑音レベル算出部８は、目的エリア音判定部７で「目的エリア音無し」と判定したときの入力信号のレベルを、推定した雑音のレベル（以下、「推定雑音レベルＰ_Ｎ」と呼ぶ）として算出する。例えば、雑音レベル算出部８は、目的エリア音判定部７が、「目的エリア音無し」と１回判定したときの入力信号のレベルを推定雑音レベルＰ_Ｎとして取得するようにしてもよい。また、例えば、雑音レベル算出部８は、目的エリア音判定部７が「目的エリア音無し」と判定したときの入力信号を複数回分取得して、その平均値（平均レベル）を推定雑音レベルＰ_Ｎとして取得するようにしてもよい。さらに、雑音レベル算出部８は、複数回分の入力レベルの平均値を推定雑音レベルＰ_Ｎとして取得する場合、忘却係数を設定し、過去の信号と現在の信号とで重み付け（時系列が古い信号ほど低い重み付け）をしても良い。

混合レベル調整部９は、目的エリア音判定部７における判定結果を含む要素を考慮して、混合信号のレベルを調整するための係数（以下、「レベル調整係数」とよぶ）を決定する。すなわち、混合レベル調整部９は、目的エリア音判定部７における判定結果が「目的エリア音有り」の状態（目的エリア音含有判定状態）であるか、「目的エリア音無し」の状態（目的エリア音非含有判定状態）であるかで、レベル調整係数を変更するようにしてもよい。例えば、混合レベル調整部９は、予め、「目的エリア音有り」の状態と「目的エリア音無し」の状態とで、それぞれに対応するレベル調整係数（レベル調整係数の初期値）を設定しておくようにしてもよい。また、混合レベル調整部９では、ユーザの操作（例えば、ユーザによるコンピュータ２００に対する操作）に応じて、適用するレベル調整係数の変更（レベル調整係数を初期値から変更）することを可能としてもよい。また、例えば、混合レベル調整部９は、全周波数でレベル調整係数を同じ値としても良いし、周波数毎に異なる値を設定しても良い。

また、混合レベル調整部９は、推定雑音レベルＰ_Ｎを考慮して出力するレベル調整係数を変更するようにしてもよい。例えば、混合レベル調整部９は、推定雑音レベルＰ_Ｎが所定の閾値以上となる場合に、「目的エリア音無し」の状態（目的エリア音非含有状態）において決定したレベル調整係数を下げる処理（一定値減算する処理）を行うようにしてもよい。

以下では、混合レベル調整部９が「目的エリア音有り」の状態（目的エリア音含有状態）において決定したレベル調整係数を「μ_Ｔ」と表し、「目的エリア音無し」の状態（目的エリア音非含有状態）において決定したレベル調整係数を「μ_Ｎ」と表すものとする。

以上のように、混合レベル調整部９には、目的エリア音判定部７における判定結果を含む要素を考慮してレベル調整係数を決定する処理を行う。

混合レベル制御部１０は、目的エリア音判定部７で判定結果が切り替わる際（混合レベル調整部９で決定するレベル調整係数が切り替わる際）に、最終的に信号混合部１１に供給するレベル調整係数（以下、「μ_Ｃ」と表す）を所定の変更パターンに従って制御する処理を行う。混合レベル制御部１０がレベル調整係数μ_Ｃを決定する処理の詳細については後述する。

信号混合部１１は、混合レベル制御部１０で設定されたレベル調整係数μ_ｃを混合用信号（入力信号）に掛け、目的エリア音抽出部６で抽出された目的エリア音と混合した出力信号を出力する。以下では、信号混合部１１が出力する出力信号を「Ｗ」と表すものとする。なお、以下では、マイクロホンアレイＭＡ１を基準とした目的エリア音Ｚ_１を用いて生成された出力信号を「Ｗ_１」と表し、マイクロホンアレイＭＡ２を基準とした目的エリア音Ｚ_２を用いて生成された出力信号を「Ｗ_２」と表すものとする。

例えば、目的エリア音抽出部６が（１１）式に従いマイクロホンアレイＭＡ１を基準としてエリア収音処理を行った場合、信号混合部１１が出力する最終的な出力信号Ｗ_１は以下の（１５）式に従い生成（混合）される。

ここで、「Ｘ_ＭＩＸ」は入力信号であり、「ρ」は目的エリア音の大きさを調整するパラメータである。例えば、信号混合部１１は、目的エリア音判定部７における判定が「目的エリア音無し」の場合、ρを０と設定することで、結果として混合信号Ｘ_ＭＩＸの成分だけを出力する状態となってもよい。これにより、出力信号Ｗにおいてミュージカルノイズの発生を完全に抑えることができる。すなわち、収音装置１００は、結果として混合信号のみが出力する構成としてもよい。さらに、例えば、目的エリア音判定部７における判定が「目的エリア音有り」の場合、信号混合部１１は、目的エリア音の平均振幅スペクトルが一定になるようにρを動的に変更することで、出力レベルを安定させることができる。

なお、目的エリア音抽出部６が（１２）式に従いマイクロホンアレイＭＡ２を基準としてエリア収音処理を行った場合、信号混合部１１が出力する最終的な出力信号Ｗ_２は以下の（１６）式に従い生成（混合）される。

次に、混合レベル制御部１０がレベル調整係数μ_Ｃを制御する処理の詳細について説明する。

混合レベル制御部１０は、例えば、図３に示すように、「目的エリア音有り」から「目的エリア音無し」へと判定が切り替わったタイミングでμ_Ｃをμ_Ｔからμ_Ｎに切り替え、「目的エリア音無し」から「目的エリア音有り」へと判定が切り替わったタイミングでμ_Ｃをμ_Ｎからμ_Ｔに切り替えるようにしてもよい。しかしながら、図３のように、「目的エリア音有り」から「目的エリア音無し」に判定が切り替わったタイミングで、目的エリア音に混合する混合用信号のレベル（μ_ＣＸ_ＭＩＸのレベル）が急に切り替わる状態となると、出力信号Ｗに含まれる雑音（非目的エリア音、背景雑音）の大きさが何度も急激に変化し、受聴者に不快感を生じさせる恐れがある。そこで、この実施形態の混合レベル制御部１０は、少なくとも、「目的エリア音有り」の状態から「目的エリア音無し」の状態に切り替わったタイミングにおいては、レベル調整係数μ_Ｃを、μ_Ｔから所定の時間内に所定の変更パターンでμ_Ｎへ変更させる処理を行う。

以下では、図４〜図１４を用いて、混合レベル制御部１０によるレベル調整係数μ_Ｃの制御パターンの例について説明する。

例えば、「目的エリア音有り」のレベル調整係数μ_Ｔが「目的エリア音有り」のレベル調整係数μ_Ｎよりも大きい場合を想定する。この場合、混合レベル制御部１０は、例えば、μ_ＣをμＴからμ_Ｎへ変更する際、図４に示すように、μ_Ｃを予め設定した時間内に一定の割合で線形に減少させるようにしてもよい。また、この場合、混合レベル制御部１０は、例えば、μ_ＣをμＴからμ_Ｎへ変更する際、図５に示すように、一定時間ごとに一定の値ずつ段々に減少させるようにしてもよい。さらに、この場合、混合レベル制御部１０は、μ_ＣをμＴからμ_Ｎへ変更する際、例えば、図６や図７に示すように、二次関数（指数関数）に基づき減少させるようにしてもよいし、図８に示すようにロジスティック関数に基づき非線形に減少させても良い。以下では、μ_Ｃがμ_Ｔからμ_Ｎへ変更する際にかかる時間を「混合レベル制御区間ＴＡ」と呼ぶものとする。

混合レベル制御部１０において、各時間におけるレベル調整係数μ_Ｃを設定するには、変更パターンを関数として用意し、μ_Ｔと、μ_Ｎのレベル差（以下、「ＬＤ」と表す）と、μ_Ｔからμ_Ｎへの変更にかかる時間（混合レベル制御区間ＴＡ）とからフィルタを設計して算出するようにしても良い。混合レベル制御部１０において、μ_Ｔ、μ_Ｎ、及び混合レベル制御区間ＴＡは予め設定しておいても良いし、処理中に任意の値に変更可能（例えば、ユーザの操作に応じて変更）とするようにしてもよい。混合レベル制御部１０において、μ_Ｔ、μ_Ｎ、及び混合レベル制御区間ＴＡが予め設定されており、かつ変更することがない場合は、事前に混合レベル制御区間ＴＡ内のμ_Ｃ（時間ごとのμ_Ｃの変更パターン）を算出して保持おいても良い。また、混合レベル制御部１０において、μ_Ｃの変更パターンごとのフィルタをデータベースとして用意し、その都度選択しても良い。

目的エリア音判定部７において、判定結果が「目的エリア音無し」から「目的エリア音有り」に切り替わった場合、混合レベル制御部１０は、図３や図９に示すように、μ_Ｃを瞬時にμ_Ｎからμ_Ｔへ変更するようにしてもよいが、混合レベル制御区間ＴＡの場合（μ_Ｃをμ_Ｔからμ_Ｎに変更する場合；上述の図４〜図８）と同様に、所定時間をかけて徐々に変更するようにしても良い。

具体的には、例えば、混合レベル制御部１０は、μ_Ｃをμ_Ｎからμ_Ｔへ変更する際、図１０に示すように、μ_Ｃを予め設定した時間内に一定の割合で線形に増加させるようにしてもよい。以下では、μ_Ｃがμ_Ｎからμ_Ｔへ変更する際にかかる時間を「混合レベル制御区間ＴＢ」と呼ぶものとする。

この場合、混合レベル制御部１０では、μ_Ｃをμ_Ｎからμ_Ｔへの変更にかかる時間（混合レベル制御区間ＴＢ）をμ_Ｔからμ_Ｎへの変更にかかる時間（混合レベル制御区間Ａ）よりも短く設定することが望ましい。

また、出力信号Ｗの供給先において、目的エリア音の出力に遅延が許される場合（例えば、供給先がリアルタイム性の低い音声認識処理装置の場合等）、混合レベル制御部１０は、図１１に示すように、判定結果が「目的エリア音無し」から「目的エリア音有り」に判定が変わった時点から過去に遡り、「目的エリア音無し」の区間でμ_Ｎからμ_Ｔへの変更を開始するように制御しても良い。図１１では、判定結果が「目的エリア音無し」から「目的エリア音有り」に判定が変わった時点より所定時間前の時点（混合レベル制御区間ＴＢ分前の時点）から、μｃの値の増加（μ_Ｎからμ_Ｔへ増加）が開始している。例えば、信号混合部１１に所定時間分の出力信号Ｗがバッファリングされている場合を想定する。このとき、混合レベル制御部１０が、判定結果が「目的エリア音無し」から「目的エリア音有り」に判定が変わるタイミングを検知すると、所定時間前の時点からμｃを増加（μＮからμＴへ増加）させたデータを信号混合部１１に供給し、信号混合部１１で所定時間前の時点からの出力信号Ｗを生成しなおして出力（バッファリングしている出力データＷを破棄し、新たに出力信号Ｗのデータを生成しなおして出力）するようにしてもよい。

さらに、混合レベル制御区間ＴＡの途中で、「目的エリア音無し」から「目的エリア音有り」へ判定が変わった場合、混合レベル制御部１０は、μ_Ｃの減少（μ_Ｔからμ_Ｎへの変更）を打ち切り、その時点からμ_Ｃをμ_Ｔへ変更するようにしてもよい。例えば、混合レベル制御部１０は、図１２に示すように、混合レベル制御区間ＴＡの途中で、「目的エリア音無し」から「目的エリア音有り」へ判定が変わった時点で瞬時にμ_Ｃをμ_Ｔに変更するようにしてもよい。また、例えば、混合レベル制御部１０は、図１３に示すように、混合レベル制御区間ＴＡの途中で、「目的エリア音無し」から「目的エリア音有り」へ判定が変わった時点から、μ_Ｃを徐々に増加させ、混合レベル制御区間ＴＢの時間をかけてμ_Ｔに変更するようにしてもよい。さらに目的エリア音の出力に遅延が許される場合は、図１１のように判定結果が「目的エリア音無し」から「目的エリア音有り」に判定が変わった時点から過去に遡り、「目的エリア音無し」の区間でμ_Ｃからμ_Ｔへの変更を開始するように制御しても良い。なお、混合レベル制御部１０は、混合レベル制御区間ＴＢの途中で、「目的エリア音有り」から「目的エリア音無し」へ判定が変わった場合も同様の制御を行って、μ_Ｃをμ_Ｎに変更するようにしてもよい。

さらにまた、目的エリア音判定部７において、ハングオーバ機能が有効である場合、混合レベル制御部１０は、ハングオーバ期間（以下、「混合レベル制御区間ＴＣ」と呼ぶ）が開始した時点で、μ_Ｃをμ_Ｔからμ_Ｎへの変更する制御を開始しても良い。このとき、目的エリア音判定部７において、混合レベル制御区間ＴＣの変更パターンは、通常の混合レベル制御区間ＴＡと同じでも良いし、図１４に示すように別の変更パターンとするようにしてもよい。図１４の例では、ハングオーバ期間（混合レベル制御区間ＴＣ）におけるμｃの変化量（混合レベルμｃの変化の傾き；時間あたりの変化量）より、ハングオーバ期間（混合レベル制御区間ＴＣ）の後に続く混合レベル制御区間ＴＡの変化量の方が大きくなっている。なお変更パターンは、図３から図８に示したパターンを任意に組み合わせることができる。

（Ａ−３）実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。

この実施形態の収音装置１００では、目的エリア音が存在する区間と存在しない区間とで混合用信号のレベルを調節し、目的エリア音に入力信号を混合信号として混合することで、ミュージカルノイズの影響を抑え、目的エリア音の音質を改善し、目的エリア音が存在しないときの雑音の混入を抑えることができる。

また、この実施形態の収音装置１００では、目的エリア音が存在する区間から存在しない区間へ変わった際、混合用信号のレベル（レベル調整係数μ_Ｃ）を瞬時に変更するのではなく、一定の時間をかけて所定の変更パターンで変更していくことで、混合用信号に含まれる雑音レベルの変化を穏やかにすることができる。これにより、この実施形態の収音装置では、目的エリア音が存在する区間（目的エリア音の強調）と、目的エリア音が存在しない区間（雑音の抑圧）の切り替わりが自然になり、聴者（出力信号Ｗの聴者）の不快感を軽減する効果が期待できる。

さらに、この実施形態の収音装置１００（混合レベル制御部１０）では、μ_Ｃをμ_Ｎからμ_Ｔへ変更する際にかかる時間（混合レベル制御区間Ｂ）を、μ_Ｃをμ_Ｔからμ_Ｎへ変更する際にかかる時間（混合レベル制御区間Ａ）よりも短く設定している。これにより、この実施形態の収音装置１００では、目的エリア音が存在する区間から目的エリア音が存在しない区間への切り替わりに時間をかけて自然としつつ、目的エリア音が存在しない区間から目的エリア音が存在する区間への切り替わりを素早くすることでより確実に目的エリア音を聴者（出力信号Ｗの聴者）に聴かせることができる。

（Ｂ）他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｂ−１）上記の各実施形態において、遅延補正部３および空間座標データ４は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイＭＡと目的エリア音の配置により、当初から遅延が発生しないか無視できる程度であれば、遅延補正部３の処理および空間座標データ４を除外するようにしてもよい。

（Ｂ−２）上記の各実施形態において、補正係数算出部５は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイＭＡと目的エリア音の配置により、各マイクロホンＭ（各マイクロホンアレイＭＡを構成する各マイクロホンＭ）で捕捉される目的エリア音の振幅スペクトルの差が小さいことが明白な場合は、補正係数算出部５の処理を除外してもよい。

（Ｂ−３）上記の各実施形態において、推定雑音レベルＰ_Ｎを考慮せずにレベル調整係数を決定する場合には、雑音レベル算出部８は除外するようにしてもよい。

１００…収音装置、１…信号入力部、２…指向性形成部、３…遅延補正部、４…空間座標データ、５…補正係数算出部、６…目的エリア音抽出部、７…目的エリア音判定部、８…雑音レベル算出部、９…混合レベル調整部、１０…混合レベル制御部、１１…信号混合部、ＭＡ１、ＭＡ２…マイクアレイ、Ｍ１、Ｍ２…マイクロホン。

Claims

複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力する目的エリア音判定手段と、
前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力する混合レベル調整手段と、
前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行うレベル調整係数制御手段と、
前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と
を有することを特徴とする収音装置。
前記レベル調整係数制御手段は、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態から目的エリア音含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が前記第２の値から前記第１の値に変化した場合、出力する前記レベル調整係数を第２の時間かけて所定の変化パターンで前記第２の値から前記第１の値に変化させる制御処理を行うことを特徴とする請求項１に記載の収音装置。
前記レベル調整係数制御手段において、前記第２の時間は、前記第１の時間よりも短い時間に設定されていることを特徴とする請求項２に記載の収音装置。
前記レベル調整係数制御手段は、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴って、出力する前記レベル調整係数を前記第１の値から前記第２の値に向けて変化させている途中で、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態に変化した場合、出力する前記レベル調整係数を前記第２の値に向けて変化させる制御処理を中止し、出力する前記レベル調整係数を前記第１の値に向けて変化させる制御処理を開始することを特徴とする請求項２又は３に記載の収音装置。
前記レベル調整係数制御手段は、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態から目的エリア音含有判定状態に変化したことに伴って、出力する前記レベル調整係数を前記第２の値から前記第１の値に向けて変化させている途中で、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態に変化した場合、出力する前記レベル調整係数を前記第１の値に向けて変化させる制御処理を中止し、出力する前記レベル調整係数を前記第２の値に向けて変化させる制御処理を開始することを特徴とする請求項２〜４のいずれかに記載の収音装置。
前記レベル調整係数制御手段は、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態から目的エリア音含有判定状態に変化した場合、前記第２の時間分過去に遡って出力する前記レベル調整係数を前記第２の値から前記第１の値に変化させる制御処理を開始させることを特徴とする請求項２に記載の収音装置。
前記目的エリア音判定手段は、出力する判定結果が目的エリア音非含有判定状態から目的エリア音含有判定状態に切り替わった後、所定期間の間出力する判定結果を目的エリア音非含有判定状態に変更させないハングオーバ機能に対応しており、
前記レベル調整係数制御手段は、前記目的エリア音判定手段が出力する判定結果が目的エリア音非含有判定状態から目的エリア音含有判定状態に切り替わった後、前記所定期間が経過する前に、前記入力信号と目的エリア音の振幅スペクトルに基づく判定結果が目的エリア音非含有判定状態となるハングオーバ状態となると、出力する前記レベル調整係数を前記第１の値から前記第２の値に向けて変化させる制御処理を開始する
ことを特徴とする請求項２に記載の収音装置。
コンピュータを、
複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力する目的エリア音判定手段と、
前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力する混合レベル調整手段と、
前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行うレベル調整係数制御手段と、
前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と
して機能させることを特徴とする収音プログラム。
収音方法において、
指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、レベル調整係数制御手段、及び混合手段を有し、
前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、
前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、
前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかの判定結果を出力し、
前記混合レベル調整手段は、前記目的エリア音判定手段が出力した判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定して出力し、
前記レベル調整係数制御手段は、前記混合レベル調整手段が出力した前記レベル調整係数を取得し、取得した前記レベル調整係数の変化を制御する制御処理を行って出力するものであって、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態から目的エリア音非含有判定状態に変化したことに伴い、前記混合レベル調整手段が出力する前記レベル調整係数が第１の値から第２の値に変化した場合、出力する前記レベル調整係数を第１の時間かけて所定の変化パターンで前記第１の値から前記第２の値に変化させる制御処理を行い、
前記混合手段は、前記混合用信号のレベルを、前記レベル調整係数制御手段から出力された前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する
ことを特徴とする収音方法。