JP6732944B2

JP6732944B2 - 目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラム

Info

Publication number: JP6732944B2
Application number: JP2018556185A
Authority: JP
Inventors: 悠馬小泉; 翔一郎齊藤; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-12-16
Filing date: 2017-09-12
Publication date: 2020-07-29
Anticipated expiration: 2037-09-12
Also published as: US11322169B2; US20200388298A1; EP3557576A4; EP3557576B1; JPWO2018110008A1; CN110036441A; ES2937232T3; WO2018110008A1; CN110036441B; EP3557576A1

Description

本発明は、大規模な空間において、離れた位置に配置した複数のマイクを連携させて目的音の強調を行う技術に関し、目的音強調装置、雑音推定用パラメータ学習装置、目的音強調方法、雑音推定用パラメータ学習方法、プログラムに関する。

ある方向から到来する雑音を抑圧する技術として、マイクロホンアレーを用いたビームフォーミングが代表的である。放送用途のスポーツ音の収音では、ビームフォーミングを用いる代わりに、ショットガンマイクやパラボラマイクなどの指向性マイクロホンを用いることが多い。どちらの技術も特定の方向から到来する音を強調し、それ以外の方向から到来する音を抑圧する。

野球場やサッカー場、製造工場など、大規模な空間で目的音のみを収音したい状況を考える。具体例を挙げれば、野球場であればバッティング音や審判の声、製造工場であれば、ある製造機の稼働音を収音したい場合などである。このような環境下では、目的音と同じ方向から雑音が到来する場合があり、上述の技術では目的音だけを強調することはできない。

目的音と同方向から到来する雑音を抑圧する技術に、時間周波数マスキングがある。以下、数式を用いてこれらの手法を説明する。なお、以下の数式に登場する観測信号を表すXや伝達特性を表すHなどの右肩の数字は、対応するマイクロホンの番号（インデックス）を意味するものとする。例えば右肩の数字が(1)である場合、対応するマイクロホンは「1番目のマイクロホン」であるものとする。また、以下の説明で登場する「1番目のマイクロホン」は、常に目的音を観測するための所定のマイクロホンであるものとする。すなわち、「1番目のマイクロホン」で観測された観測信号X⁽¹⁾は、常に目的音を十分に含んだ
所定の観測信号であるものとし、音源強調に用いる信号として相応しい観測信号であるものとする。

一方、以下の説明では「m番目のマイクロホン」も登場するが、「m番目のマイクロホン」という場合、「1番目のマイクロホン」と対比される「任意のマイクロホン」であることを含意しているものとする。

従って、「1番目のマイクロホン」や「m番目のマイクロホン」という場合、その番号は概念的なものであり、その番号によりそのマイクロホンの位置や性質が特定されることはない。例えば、野球場の例で説明すると、「1番目のマイクロホン」といった場合、例えばそのマイクロホンが「バックネット裏」などの特定の位置に存在することを意味しない。「1番目のマイクロホン」は目的音を観測するのに適した所定のマイクロホンであることを意味するから、「1番目のマイクロホン」の位置は、目的音の位置が移動すればそれに従って移動する（より正確には、マイクロホンに割り当てられている番号（インデックス）が、目的音の移動に伴って適宜変更される）。

まずビームフォーミングや指向性マイクで収音した観測信号をX⁽¹⁾ _ω,τ∈C^Ω×Tとする。ここでω∈{1,...,Ω}とτ∈{1,...,T}はそれぞれ、周波数と時間のインデックスである。目的音をS⁽¹⁾ _ω,τ∈C^Ω×T、抑圧しきれなかった雑音群をN_ω,τ∈C^Ω×Tとしたとき、観測信号は以下のように記述できる。

ここでH_ω ⁽¹⁾は、目的音位置からマイクロホン位置までの伝達特性である。式(1)から、所定の（1番目の）マイクロホンの観測信号は目的音と雑音を含んでいることが分かる。時間周波数マスキングでは、時間周波数マスクG_ω,τを用いて目的音を強調した信号Y_ω,τを得る。ここで理想的な時間周波数マスクG_ω,τ^{ideal}は以下の式で求まる。

ところが|H_ω ⁽¹⁾S⁽¹⁾ _ω,τ|や|N_ω,τ|は未知のため、観測信号やその他の情報を用いて推定する必要がある。

スペクトル減算法に基づく時間周波数マスキングは、何らかの形で|N^_ω,τ|が推定できた時に用いる手法である。時間周波数マスクは推定した|N^_ω,τ|を用いて以下のように決定する。

代表的な|N^_ω,τ|の推定法には、|X⁽¹⁾ _ω,τ|の定常成分を用いる方法がある（非特許文献１）。ところがN_ω,τ∈C^Ω×Tには、スポーツフィールドでは太鼓をたたく音、工場では打鋲音など、非定常な雑音も含まれるため、|N_ω,τ|は別の方法で推定しなくてはならない。

ここで、H_ω ^(m)は、m番目のマイクからメインとなるマイクへの伝達特性である。

S.Boll, "Suppression of acoustic noise in speech using spectral subtraction,"IEEE Trans. ASLP, 1979.

ところが、スポーツフィールドのような大規模な空間で、十分に離れた位置に配置した複数のマイクロホンを用いて雑音を除去するためには、以下の２つの課題がある。

＜残響の問題＞
標本化周波数が48.0[kHz]で短時間フーリエ変換（STFT）の分析幅が512点の時、瞬時混合として記述できる残響（インパルス応答）の時間長は10[ms]である。一般にスポーツ場や製造工場の残響時間はこれ以上である。ゆえに単純な瞬時混合モデルは仮定できない。

＜時間フレーム差の問題＞
例えば野球場では、外野スタンドからホームベースまでは約100[m]離れている。音速がC=340[m/s]の時、外野スタンドの応援は約300[ms]遅れて到達する。標本化周波数が48.0[kHz]でSTFTのシフト幅が256点の時、

の時間フレーム差が生じる。この時間フレーム差のため、単純なスペクトル減算法は実行できない。

そこで本発明では、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる雑音推定用パラメータ学習装置を提供することを目的とする。

本発明の雑音推定用パラメータ学習装置は、複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する装置であって、モデル化部と、尤度関数設定部と、パラメータ更新部を含む。

モデル化部は、複数のマイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化する。

尤度関数設定部は、モデル化された確率分布に基づいて、時間フレーム差に関する尤度関数と、伝達関数ゲインに関する尤度関数を設定する。

パラメータ更新部は、時間フレーム差に関する尤度関数の変数と伝達関数ゲインに関する尤度関数の変数とを交互に繰り返し更新し、収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータとして出力する。

本発明の雑音推定用パラメータ学習装置によれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。

実施例１の雑音推定用パラメータ学習装置の構成を示すブロック図。実施例１の雑音推定用パラメータ学習装置の動作を示すフローチャート。実施例１のモデル化部の動作を示すフローチャート。実施例１の尤度関数設定部の動作を示すフローチャート。実施例１のパラメータ更新部の動作を示すフローチャート。実施例２の目的音強調装置の構成を示すブロック図。実施例２の目的音強調装置の動作を示すフローチャート。変形例２の目的音強調装置の構成を示すブロック図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

実施例１では、上記二つの問題を解決する。実施例１では、大規模な空間で遠く離れた位置に配置したマイクを連携させて音源強調を行うために、時間フレーム差や残響を推定する技術を提供する。具体的には、時間フレーム差と残響（伝達関数ゲイン（注*1））を統計モデルで記述し、観測信号の尤度最大化基準に則り推定する。また、十分に離れた距離によって生じる、瞬時混合で記述できないほどの残響をモデル化するために、音源の振幅スペクトルと伝達関数ゲインの時間周波数領域での畳み込みでモデル化する。
（注*1）残響は周波数領域で伝達関数として記述でき、そのゲインを伝達関数ゲインと呼ぶ。

以下、図１を参照して実施例１の雑音推定用パラメータ学習装置について説明する。図１に示すように、本実施例の雑音推定用パラメータ学習装置１は、モデル化部１１と、尤度関数設定部１２と、パラメータ更新部１３を含む。より詳細には、モデル化部１１は、観測信号モデル化部１１１と、時間フレーム差モデル化部１１２と、伝達関数ゲインモデル化部１１３を含む。尤度関数設定部１２は、目的関数設定部１２１と、対数化部１２２と、項分解部１２３を含む。パラメータ更新部１３は、伝達関数ゲイン更新部１３１と、時間フレーム差更新部１３２と、収束判定部１３３を含む。

以下、図２を参照して本実施例の雑音推定用パラメータ学習装置１の動作の概要について説明する。

まず、モデル化部１１は、複数のマイクロホンのうち、所定のマイクロホン（1番目のマイクロホン）の観測信号の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホン（m番目のマイクロホン）と雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化する（Ｓ１１）。

次に、尤度関数設定部１２は、モデル化された確率分布に基づいて、時間フレーム差に関する尤度関数と、伝達関数ゲインに関する尤度関数を設定する（Ｓ１２）。

次に、パラメータ更新部１３は、時間フレーム差に関する尤度関数の変数と伝達関数ゲインに関する尤度関数の変数とを交互に繰り返し更新し、収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータとして出力する（Ｓ１３）。

上記の雑音推定用パラメータ学習装置１の動作についてさらに詳細に説明するために、以下の＜準備＞の章において必要な説明を行う。

＜準備＞
今、目的音S⁽¹⁾ _ω,τを、M本のマイクロホン（Mは2以上の整数）での観測から推定する問題を考える。なお、マイクロホンのうちの1本以上は、メインとなるマイクロホンと十分離れた位置（注*2）に配置されているものとする。
（注*2）短時間フーリエ変換(STFT)のシフト幅以上の到達時間差が発生する距離。すなわち時間周波数分析において時間フレーム差が発生してしまうほどの距離。例えば音速がC=340[m/s]、標本化周波数が48.0[kHz]でSTFTのシフト幅が512点の時、マイク間隔が2[m]以上あると時間フレーム差が生じる。すなわち、観測信号はマイクロホンが集音した音響信号を周波数変換した信号であり、雑音源から所定のマイクロホンまでの雑音の到達時間と、雑音源から任意のマイクロホンまでの雑音の到達時間と、の２つの到達時間の差が周波数変換のシフト幅以上であることを意味する。

S⁽¹⁾ _ω,τに最も近い位置に配置した所定のマイクロホンの番号を1とし、その観測信号X⁽¹⁾ _ω,τは式(1)で得られるものとする。また空間内にはM-1個の点雑音源（e.g.場内アナウンス）もしくは群雑音源（e.g.応援団の声援）

が存在するものとし、m番目（m=2,...,M）の雑音源の近傍にはm番目のマイクロホンが配置されているものとする。m番目のマイクロホンの近傍では、

が成り立つものとし、その観測信号X^(m) _ω,τは近似的に、

と記述できるものとする。式(7)から、任意の（m番目の）マイクロホンの観測信号は雑音を含んでいることが分かる。1番目のマイクロホンに到達する雑音N_ω,τは、

のみから構成されているものとし、その振幅スペクトルは近似的に以下のように記述できるものとする。

ここで、P_m∈N₊は、1番目のマイクロホンとm番目のマイクロホンと、雑音源S^(m) _ω,τの相対位置差に応じて生じる、時間周波数領域の時間フレーム差である。またa^(m) _ω,k∈R₊は、1番目のマイクロホンとm番目のマイクロホンと、雑音源S^(m) _ω,τの相対位置差に応じて生じる、伝達関数ゲインである。

以下、音源の振幅スペクトル

と伝達関数ゲインa^(m) _ω,kの時間周波数領域での畳み込みによる残響の記述について詳細に説明する。伝達特性は、インパルス応答のタップ数が短時間フーリエ変換（STFT）の分析幅より長い場合、時間周波数領域の瞬時混合で記述できない（参考非特許文献１）。例えば、標本化周波数が48.0[kHz]でSTFTの分析幅が512点の時、瞬時混合として記述できる残響（インパルス応答）の時間長は10[ms]である。一般にスポーツ場や製造工場の残響時間はこれ以上である。ゆえに単純な瞬時混合モデルは仮定できない。長い残響を近似的に記述するために、m番目の音源は、時間周波数領域でX^(m) _ω,τの振幅スペクトルに伝達関数ゲインa^(m) _ω,kが畳み込まれて到達すると仮定している。なお、参考非特許文献１ではこれを複素スペクトルの畳み込みとして記述しているが、本発明ではより簡潔に記述するために振幅スペクトルで記述している。
（参考非特許文献１：T. Higuchi and H. Kameoka, “Joint audio source separation and dereverberation based on multichannel factorial hidden Markov model,” in Proc MLSP 2014, 2014.）

以上の議論より、式(8)より、各雑音源の時間フレーム差P_2,...,Mと伝達関数ゲイン

が推定できれば、雑音の振幅スペクトルが推定できるため、スペクトル減算法が実行できる。つまり、本実施例および実施例２では

を推定し、スペクトル減算法を実行することにより、大規模な空間で目的音を収音することを可能にする。

まず、式(1)が振幅スペクトル領域でも成り立つと仮定し、|X⁽¹⁾ _ω,τ|を近似的に以下のように記述する。

ここで記述の簡単のためにH_ω ⁽¹⁾を省略した。そしてすべての周波数ビンω∈{1,...,Ω}とτ∈{1,...,T}を同時に表現するために、式(9)を以下のような行列演算で表現する。

ただし○はアダマール積である。ここで、

である。diag(x)はベクトルxを対角要素に持つ対角行列を表す。ここでS⁽¹⁾ _ω,τは多くの場合、時間フレーム方向にスパースである（目的音がなっていない時間がほとんどである）。具体例を挙げれば、サッカーボールのキック音や審判の声は、時間的にごく短く、また稀にしか発生しないことを意味する。したがって、多くの時間で

が成り立つ。
＜モデル化部１１の動作の詳細＞
以下、図３を参照してモデル化部１１の動作の詳細を説明する。観測信号モデル化部１１１には、学習に必要なデータが入力される。具体的には観測信号

が入力される。

観測信号モデル化部１１１は、所定のマイクロホンの観測信号X⁽¹⁾ _τの確率分布をN_τを平均、共分散行列diag(σ)とするガウス分布

でモデル化する（Ｓ１１１）。

ここでΛ=(diag(σ))^-1であり、σ=(σ₁,...,σ_Ω)^TはX⁽¹⁾ _τの各周波数ごとのパワーであり、

で求める。これは、各周波数ごとに振幅の平均が異なることを補正することを目的としている。

なお観測信号は、STFTなどの手法を用いて、時間波形から複素スペクトルに変換すればいい。観測信号は、バッチ学習であれば学習データを短時間フーリエ変換したMチャネル分のX^(m) _ω,τを入力する。オンライン学習であれば、Tフレーム分データをバッファリングしたものを入力する。ここでバッファサイズは時間フレーム差や残響の長さによってチューニングすべきだが、T=500程度に設定すればいい。

時間フレーム差モデル化部１１２には、マイク距離パラメータと、信号処理パラメータが入力される。マイク距離パラメータとして、各マイク距離φ_2,...,M，と、各マイク距離φ_2,...,Mから推測される音源距離の最小値と最大値

を含む。また信号処理パラメータとして、フレーム数K、標本化周波数f_s、STFTの分析幅とシフト長f_shiftなどを含む。ここでK=15程度を推奨する。信号処理パラメータは録音環境に応じて設定すればいいが、標本化周波数が16.0[kHz]ならば、分析幅は512点、シフト長は256点程度に設定すればいい。

時間フレーム差モデル化部１１２は、時間フレーム差の確率分布をポワソン分布でモデル化する（Ｓ１１２）。m番目のマイクロホンはm番目の雑音源の近傍に配置されているならば、P_mはおおよそ1番目のマイクロホンとm番目のマイクロホンの距離で推測できる。つまり、1番目のマイクロホンとm番目のマイクロホンの距離をφ_m、音速をC、標本化周波数をf_s、STFTのシフト幅をf_shiftとしたとき、おおよその時間フレーム差D_mは

で求まる。ここでround{・}は整数への四捨五入を表す。ただし実際にはm番目のマイクロホンとm番目の雑音源の距離はゼロではないため、P_mはD_mの近傍で確率的に揺らぐであろう。このことをモデル化するために、時間フレーム差モデル化部１１２は、時間フレーム差の確率分布を、平均値D_mを持つポアソン分布でモデル化する（Ｓ１１２）。

伝達関数ゲインモデル化部１１３には、伝達関数ゲインパラメータが入力される。伝達関数ゲインパラメータとして、伝達関数ゲインの初期値

、伝達関数ゲインの平均値α_ｋ、伝達関数ゲインの時間減衰重みβ、ステップサイズλなどが含まれる。伝達関数ゲインの初期値は知見があるのであればそれに応じた設定をすればよいが、ない場合は

に設定すればよい。α_ｋも知見があるのであればそれに応じた設定をすればよいが、ない場合は、α_kをフレームの経過に従って減少させるために、以下のように設定してもよい。

ここでαはα₀の値、βはフレームの経過に従う減衰重み、εはゼロ除算を避けるための小さな係数である。各種パラメータはα=1.0程度、β=0.05、λ=10^-3程度を推奨する。

伝達関数ゲインモデル化部１１３は、伝達関数ゲインの確率分布を指数分布でモデル化する（Ｓ１１３）。a^(m) _ω,kは正の実数であり、また一般に伝達関数ゲインは時間kが大きくなれば値は小さくなる。このことをモデル化するために、伝達関数ゲインモデル化部１１３は、伝達関数ゲインの確率分布を平均値α_kを持つ指数分布でモデル化する（Ｓ１１３）。

以上により、観測信号と各パラメータについて確率分布が定義できた。本実施例では尤度最大化によってパラメータを推定する。

＜尤度関数設定部１２の動作の詳細＞
以下、図４を参照して尤度関数設定部１２の動作の詳細を説明する。具体的には、目的関数設定部１２１は、上記のモデル化された確率分布に基づいて、その目的関数を以下のように設定する（Ｓ１２１）。

ここで、

は非負の値である必要があるため、この最適化は、以下のようなLの制約付き多変数最大化問題となる。

ここでLは確率値の積の形になっているため、計算の途中でアンダーフローを起こす可能性がある。そこで、対数関数が単調増加関数であることを利用し、両辺に対数をとる。具体的には、対数化部１２２は、目的関数の両辺を対数化し、式(34)(33)をそれぞれ以下のように変形する（Ｓ１２２）。

ここで

であり、各要素は以下のように記述できる。

以上の変形により、

を構成する各尤度関数の最大化は容易になった。式(35)は、coordinate descent (CD)法を用いて最大化する。具体的には、項分解部１２３は、尤度関数（対数化された目的関数）を、aに関する項（伝達関数ゲインに関する項）とPに関する項（時間フレーム差に関する項）に分解する（Ｓ１２３）。

各変数を交互に最適化（繰り返し更新）することで、

を近似的に最大化する。

式(42)は制約付き最適化のため、近接勾配法を用いて最適化する。

＜パラメータ更新部１３の動作の詳細＞
以下、図５を参照してパラメータ更新部１３の動作の詳細を説明する。伝達関数ゲイン更新部１３１は、伝達関数ゲインを非負の値に限定する制約を付し、近接勾配法により伝達関数ゲインに関する尤度関数の変数を繰り返し更新する（Ｓ１３１）。

より詳細には、伝達関数ゲイン更新部１３１は、

に関する勾配ベクトルを以下の式で求め、

式(47)の勾配法と、式(48)のフロアリングを交互に行う繰り返し最適化で実行する。

ここでλは更新のステップサイズである。勾配法、つまり式(47)(48)の繰り返し回数は、バッチ学習なら30回、オンライン学習なら1回程度に設定すればいい。また式(44)の勾配は、慣性項（参考非特許文献２）などを利用して調整してもいい。
（参考非特許文献２：麻生英樹、外7名、「深層学習 Deep Learning」、株式会社近代科学社、2015年11月）

式(43)は離散変数の組み合わせ最適化であるため、グリッド・サーチで更新する。具体的には、時間フレーム差更新部１３２は、すべてのmについてP_mのとりえる最大値と最小値を定義し、すべてのP_mの最小から最大の組み合わせについて、時間フレーム差に関する尤度関数である

を評価し、これが最大となる組み合わせでP_mを更新する（Ｓ１３２）。実用的には、各マイク距離φ_2,...,Mから推測される音源距離の最小値

と最大値

を入力し、そこからP_mのとりえる最大値と最小値を計算すればいい。音源距離の最大値と最小値は、環境に合わせて設定すべきだが、φ_m ^min=φ_m-20,φ_m ^max=φ_m+20程度に設定すればよい。

以上の更新は、学習データを用いて事前にΘを推定するバッチ処理でも実行できるし、オンライン処理にしたければ、一定時間、観測信号をバッファリングをし、そのバッファを用いてΘの推定を実行すればいい。

以上の更新によりΘが推定できたなら、式(8)で雑音を推定し、式(4)(5)で目的音を強調すればよい。

収束判定部１３３は、アルゴリズムが収束したか否かを判定する（Ｓ１３３）。収束条件については、バッチ学習なら判定方法は例えば、a^(m) _ω,kの更新量の絶対値の総和や一定回数以上（たとえば1000回）学習を繰り返したか、などがある。オンライン学習の場合は、学習の頻度によるが、一定回数以上（たとえば1〜5回）学習を繰り返したら終了すればいい。

収束判定部１３３は、アルゴリズムが収束した場合（Ｓ１３３Ｙ）収束後の時間フレーム差および伝達関数ゲインを雑音推定用パラメータΘとして出力する。

このように、本実施例の雑音推定用パラメータ学習装置１によれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。

実施例２では、実施例１で求めた雑音推定用パラメータΘに基づいて目的音を強調する装置である目的音強調装置について説明する。図６を参照して本実施例の目的音強調装置２の構成について説明する。図６に示すように、本実施例の目的音強調装置２は、雑音推定部２１と、時間周波数マスク生成部２２と、フィルタリング部２３を含む。以下、図７を参照して本実施例の目的音強調装置２の動作について説明する。

雑音推定部２１には、強調に必要なデータが入力される。具体的には観測信号

と雑音推定用パラメータΘが入力される。観測信号は、STFTなどの手法を用いて、時間波形から複素スペクトルに変換すればいい。ただし、m=2,...,Mに関しては、時間フレーム差P_mおよび伝達関数ゲインのフレーム数Kに応じてバッファリングしたスペクトル

が入力される。

雑音推定部２１は、観測信号と雑音推定用パラメータΘに基づいて、式(8)によりＭ個の（複数の）マイクロホンによる観測信号に含まれる雑音を推定する（Ｓ２１）。

上述の雑音推定用パラメータΘおよび式(8)は、複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、所定のマイクロホンと、複数のマイクロホンのうち所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けたパラメータおよび数式であると解すればよい。

また目的音強調装置２は、雑音推定用パラメータ学習装置１に依存しない構成としてもよい。すなわち、雑音推定部２１は、雑音推定用パラメータΘによらず、式(8)により、複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、所定のマイクロホンと、複数のマイクロホンのうち所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の所定のマイクロホンによる観測信号に含まれる雑音を推定してもよい。

時間周波数マスク生成部２２は、所定のマイクロホンの観測信号|X⁽¹⁾ _ω,τ|と推定された雑音|N_ω,τ|に基づいて、式(4)によりスペクトル減算法に基づく時間周波数マスクG_ω,τを生成する（Ｓ２２）。時間周波数マスク生成部２２を、フィルタ生成部と呼んでもよい。フィルタ生成部は、少なくとも推定された雑音に基づき、式(4)などによりフィルタを生成する。

フィルタリング部２３は、生成された時間周波数マスクG_ω,τに基づいて、所定のマイクロホンの観測信号|X⁽¹⁾ _ω,τ|をフィルタリングし（式(5)）、所定のマイクロホンの近傍に存在する音（目的音）が強調された音響信号（複素スペクトルY_ω,τ）を取得し、これを出力する（Ｓ２３）。複素スペクトルY_ω,τを波形に戻すためには、逆短時間フーリエ変換(ISTFT)などを利用すればよく、ISTFTの機能をフィルタリング部２３に持たせてもよい。

［変形例１］
実施例２では、雑音推定部２１が別の装置（雑音推定用パラメータ学習装置１）から雑音推定用パラメータΘを都度受信する（受け取る）構成とした。もちろん目的音強調装置としては別の形態も考えられる。例えば、図８に示す変形例１の目的音強調装置２ａのように、別の装置（雑音推定用パラメータ学習装置１）から雑音推定用パラメータΘを前もって受信しておき、これをパラメータ記憶部２０に予め記憶しておいてもよい。

この場合、パラメータ記憶部２０には、上述の三つの確率分布に基づいて設定された上述の二つの尤度関数の変数を交互に繰り返し更新して収束させた時間フレーム差および伝達関数ゲインが、雑音推定用パラメータΘとして予め記憶・保存されていることになる。

このように、本実施例および本変形例の目的音強調装置２、２ａによれば、残響や時間フレーム差が問題となる大規模空間においても、離れた位置に配置した複数のマイクを連携させてスペクトル減算法を実行し、目的音を強調することができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数のマイクロホンから観測信号を得る観測信号取得部と、
複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、前記所定のマイクロホンと、前記複数のマイクロホンのうち前記所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、前記所定のマイクロホンと任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の前記所定のマイクロホンによる観測信号に含まれる雑音を推定する雑音推定部と、
少なくとも前記推定された雑音に基づきフィルタを生成するフィルタ生成部と、
前記所定のマイクロホンから得た観測信号を前記フィルタでフィルタリングするフィルタリング部と、
を含む目的音強調装置。
請求項１に記載の目的音強調装置であって、
前記所定のマイクロホンの観測信号は目的音と雑音を含み、前記任意のマイクロホンの観測信号は雑音を含んでいる
目的音強調装置。
請求項２に記載の目的音強調装置であって、
前記観測信号はマイクロホンが集音した音響信号を周波数変換した信号であり、前記雑音源から前記所定のマイクロホンまでの前記雑音の到達時間と、前記雑音源から前記任意のマイクロホンまでの前記雑音の到達時間と、の２つの到達時間の差が前記周波数変換のシフト幅以上である
目的音強調装置。
請求項２または３に記載の目的音強調装置であって、
前記雑音推定部は、
前記所定のマイクロホンの観測信号の確率分布と、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差をモデル化した確率分布と、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインをモデル化した確率分布と、を関連付けて複数の前記マイクロホンによる観測信号に含まれる雑音を推定する
目的音強調装置。
請求項４に記載の目的音強調装置であって、
前記雑音推定部は、
前記所定のマイクロホンの観測信号の確率分布と、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差をモデル化した確率分布と、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインをモデル化した確率分布と、からなる三つの前記確率分布に基づいて設定された二つの尤度関数を関連付けて、複数の前記マイクロホンによる観測信号に含まれる雑音を推定し、第1の尤度関数は少なくとも前記時間フレーム差をモデル化した確率分布に基づき、第２の尤度関数は少なくとも前記伝達関数ゲインをモデル化した確率分布に基づく
目的音強調装置。
請求項５に記載の目的音強調装置であって、
前記雑音推定部は、前記第１の尤度関数の変数と、前記第２の尤度関数の変数を交互に繰り返し更新する
目的音強調装置。
請求項６に記載の目的音強調装置であって、
前記第１の尤度関数の変数と、前記第２の尤度関数の変数の更新は、前記伝達関数ゲインを非負の値に限定する制約を付して行われる
目的音強調装置。
請求項７に記載の目的音強調装置であって、
前記時間フレーム差の前記確率分布を、ポワソン分布でモデル化し、前記伝達関数ゲインの前記確率分布を、指数分布でモデル化する
目的音強調装置。
複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する雑音推定用パラメータ学習装置であって、
複数の前記マイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化するモデル化部と、
前記モデル化された前記確率分布に基づいて、前記時間フレーム差に関する尤度関数と、前記伝達関数ゲインに関する尤度関数を設定する尤度関数設定部と、
前記時間フレーム差に関する前記尤度関数の変数と前記伝達関数ゲインに関する前記尤度関数の変数とを交互に繰り返し更新し、更新後の前記時間フレーム差および前記伝達関数ゲインを前記雑音推定用パラメータとして出力するパラメータ更新部
を含む雑音推定用パラメータ学習装置。
請求項９に記載の雑音推定用パラメータ学習装置であって、
前記パラメータ更新部は、
前記伝達関数ゲインを非負の値に限定する制約を付し、近接勾配法により前記伝達関数ゲインに関する前記尤度関数の変数を繰り返し更新する伝達関数ゲイン更新部
を含む雑音推定用パラメータ学習装置。
請求項９または１０に記載の雑音推定用パラメータ学習装置であって、
前記モデル化部は、
前記観測信号の前記確率分布を、ガウス分布でモデル化する観測信号モデル化部と、
前記時間フレーム差の前記確率分布を、ポワソン分布でモデル化する時間フレーム差モデル化部と、
前記伝達関数ゲインの前記確率分布を、指数分布でモデル化する伝達関数ゲインモデル化部
を含む雑音推定用パラメータ学習装置。
目的音強調装置が実行する目的音強調方法であって、
複数のマイクロホンから観測信号を得るステップと、
複数のマイクロホンのうち所定のマイクロホンから得た観測信号と、前記所定のマイクロホンと、前記複数のマイクロホンのうち前記所定のマイクロホンとは異なる任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差と、前記所定のマイクロホンと任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインと、を関連付けて複数の前記所定のマイクロホンによる観測信号に含まれる雑音を推定するステップと、
少なくとも前記推定された雑音に基づきフィルタを生成するステップと、
前記所定のマイクロホンから得た観測信号を前記フィルタでフィルタリングするステップ
を含む目的音強調方法。
複数のマイクロホンによる観測信号に含まれる雑音の推定に用いる雑音推定用パラメータを学習する雑音推定用パラメータ学習装置が実行する雑音推定用パラメータ学習方法であって、
複数の前記マイクロホンのうち、所定のマイクロホンの観測信号の確率分布をモデル化し、前記所定のマイクロホンと任意のマイクロホンと雑音源の相対位置差に応じて生じる時間フレーム差の確率分布をモデル化し、前記所定のマイクロホンと前記任意のマイクロホンと前記雑音源の相対位置差に応じて生じる伝達関数ゲインの確率分布をモデル化するステップと、
前記モデル化された前記確率分布に基づいて、前記時間フレーム差に関する尤度関数と、前記伝達関数ゲインに関する尤度関数を設定するステップと、
前記時間フレーム差に関する前記尤度関数の変数と前記伝達関数ゲインに関する前記尤度関数の変数とを交互に繰り返し更新し、更新後の前記時間フレーム差および前記伝達関数ゲインを前記雑音推定用パラメータとして出力するステップ
を含む雑音推定用パラメータ学習方法。
コンピュータを、請求項１から８の何れかに記載の目的音強調装置として機能させるプログラム。
コンピュータを、請求項９から１１の何れかに記載の雑音推定用パラメータ学習装置として機能させるプログラム。