JP6618493B2

JP6618493B2 - 信号解析装置、方法、及びプログラム

Info

Publication number: JP6618493B2
Application number: JP2017028843A
Authority: JP
Inventors: 弘和亀岡; 莉李
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-20
Filing date: 2017-02-20
Publication date: 2019-12-11
Anticipated expiration: 2037-02-20
Also published as: JP2018136368A

Description

本発明は、信号解析装置、方法、及びプログラムに係り、特に、パラメータを推定する信号解析装置、方法、及びプログラムに関する。

近年、非負値行列因子分解（Non-negative matrix factorization: NMF）はモノラル音響信号処理問題に対する有力な手法として注目されている（非特許文献１）。各時刻で観測された振幅またはパワースペクトルを基底スペクトルの非負結合で近似することは、観測スペクトログラムを行列と見なし、二つの行列（基底行列とアクティベーション行列）の積で近似することに相当する。各々の行列の要素は非負値のため、非負制約のもと観測スペクトログラムに対し行列分解が行われることからNMF と呼ぶ。教師ありまたは半教師あり音源分離の問題設定においては、まず、各音源の学習サンプルのスペクトログラムにNMF を行い、基底行列を事前学習する。一方テスト時には、学習した基底行列を固定し、アクティベーション行列のみを推定する。このようにして求めた各音源のパワースペクトログラムを用い、Wiener フィルタにより混合信号から目的音源信号を得ることができる。

以上のアプローチ（非特許文献１）では基底学習において学習サンプルのスペクトログラムと行列積との誤差が最適化規準として用いられるが、分離信号そのものが最適となるような規準とはなっていなかった。この点に着目し、Wiener フィルタの出力信号と目的音源の学習サンプルとの誤差を直接的に最適化規準として基底学習を行う、識別的NMF（Discriminative non-negative matrix factorization:DNMF）（非特許文献２）と呼ぶ枠組が提案されている。この方式では、学習時とテスト時に用いられる最適化規準が同一となるため、より高い分離能力をもった基底スペクトルが学習により得られるようになることが期待される。

P. Smaragdis、 R. Bhiksha、 and S. Madhusudana、 "Supervised and semi-supervised separation of sounds from single-channel mixtures."、 In Proc. ICA、 pp. 414-421、 2007. F.Weninger、 J. L. Roux、 J. R. Hershey、 and S.Watanabe、 "Discriminative NMF and its application to single-channel source separation."、In Proc. INTERSPEECH、 pp. 865-869、 2014.

しかし、識別的NMFの学習規準（後述）は従来のNMF の最適化規準に比べて解析的に複雑な形になる。このため、非特許文献２では乗法更新アルゴリズムと呼ぶ汎用的な手法を用いた最適化アルゴリズムが提案されているが、停留点への収束性が保証されておらずDNMFのポテンシャルを十分発揮できているとはいえなかった。

本発明では、上記事情を鑑みて成されたものであり、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる信号解析装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る信号解析装置は、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、を含み、前記パラメータ学習部は、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、を含んで構成されている。

本発明に係る信号解析方法は、時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する信号解析方法であって、前記パラメータ学習部が推定することでは、パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む。
上記の構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される。

また、本発明のプログラムは、コンピュータを、上記の信号解析装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の信号解析装置、方法、及びプログラムによれば、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新することを繰り返すことにより、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。

本発明の実施の形態に係る信号解析装置の機能的構成を示すブロック図である。本発明の実施の形態に係る信号解析装置における学習処理ルーチンを示すフローチャート図である。実験結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜既存手法＞
＜教師ありNMF による音源分離＞
L個の音源からなる混合信号のパワースペクトログラムを

とする。

ただし、ωとtは周波数および時刻のインデックスである。教師ありNMFでは、事前学習した各音源の基底スペクトル

を用いて、観測スペクトログラム

を基底行列

とアクティベーション行列

の積で近似することで、Wiener フィルタにより各音源信号を混合信号から抽出するためのパワースペクトログラム推定値を得ることが目的である。

非特許文献１では

の事前学習において、音源l の学習サンプルのスペクトログラム

との誤差

を最適化規準として用いている。ただし、

は音源l の学習サンプルのスペクトログラム

と行列積

の誤差を測る関数である。テスト時においては、事前学習した基底行列

を固定し、

を最小にするアクティベーション行列

を推定することで、

に含まれる各音源のパワースペクトログラムの成分

を推定することができる。誤差関数

としてI ダイバージェンスを用いる場合、(2)式は具体的に

となる。ただし、[・]i.jは行列の{i,j}番目要素を表す。各音源のパワースペクトログラム

が求まれば、Wiener フィルタ

により、足して矛盾なく

になるよう保証された各音源信号のスペクトログラムを得ることができる。ただし、

と

は要素ごとの乗法と除法を表すものとする。しかし、上述のアプローチ（非特許文献１）では、基底の学習規準において(1)式が用いられていることから、(4)式による分離信号が最適となるような規準になっていなかった。

＜識別的NMF と乗法更新アルゴリズム＞
識別的NMF（非特許文献２）は、(1)式の代わりにWiener フィルタ出力と学習サンプルのスペクトログラムの誤差

を規準として基底学習を行う教師ありNMF による音源分離の枠組である。ただし、有るがα_ｌ≧０はl 番目の分離信号の重要度を表すパラメータである。

以下では説明の簡略化のため、音声と雑音の二種類の音源(L = 2) からなる音源分離問題を考える。音声強調が目的の場合は音声信号の分離精度がより重要となるので、重要度αは、音声に対して1、雑音に対して0とする。従って、クリーン音声の学習サンプルのスペクトログラムを

、雑音の学習サンプルのスペクトログラムを

とし、その混合信号のスペクトログラムを

とすると、識別的NMF の基底学習問題は

のような最適化問題として定式化される。ただし、基底行列

はK^s個の音声基底スペクトルとKⁿ個の雑音基底スペクトルで構成される。

Weninger らは上述の最適化問題に対し乗法更新法を用いた最適化アルゴリズムを提案している（非特許文献２）。Weninger らのアルゴリズムでは、まず通常のNMF（すなわち(2)式）でアクティベーション行列

を求め、

を固定した下で基底行列Wを

により更新する方法がとられている。上述の更新式は

の

に関する偏微分の負の項と正の項の商と

の要素ごとの積で与えられるが、各更新により目的関数が減少することが保証されない。このため、これらの更新式による反復アルゴリズムの収束性は保証されない。

＜提案手法＞
＜補助関数法による基底学習アルゴリズム＞
本発明の実施の形態は、補助関数法の原理に基づいて導かれる、(6)式の最適化問題の停留点への収束性が保証された最適化アルゴリズムである。

＜補助関数法＞
F(θ)をθに関して最小化したい目的関数とすると、

を満たす関数

を補助関数、αを補助変数と呼ぶ。このような補助関数を設計できれば、

と

を交互に繰り返すことで、目的関数F(θ)の停留点を得ることができる。この最適化手法を補助関数法と呼ぶ。

＜補助関数の設計＞
以下で、目的関数

の補助関数を設計する。まず、目的関数

の中の

の補助関数を次の不等式を用いて設計する。

（補題1）
任意の

に対して、不等式

が成り立ち、

のとき等号成立する。

（証明）
任意の

に対して、

M_ω、tは非負値のため、補題1 より、

が成り立つ。ただし、＝^cはパラメータに依存する項のみに関する等号を表す。また、

とし、

とする。(12)式の等号は

のとき成立する。次に、(12)式の各項の補助関数を設計する。

は正値であること、および負の対数関数は凸関数であることより、Jensen の不等式

が成り立つ。ただし、

は

を満たす変数であり、(14)式の等号は

のとき成立する。

は正値のため、(12)式の第二項の対数関数は凹関数である。凹関数は任意の点における接線により上から抑えることができるため、

が成り立つ。ここで、

は正の変数であり、

のとき、(16)式の等号は成立する。続いて、

の補助関数を設計する。二次関数は凸関数なので、Jensenの不等式

が成り立つ。ただし、

は

を満たす正数であり、(18)式の等号は

のときに成立する。最後に、

の補助関数を設計する。関数1/x²はx>0においては凸であるため、Jensenの不等式により

が成り立つ。ただし、

は

を満たす変数である。(20)式の等号は

のとき成立する。

(12)式、(14)式、(16)式、(18)式と(20)式により、目的関数

の補助関数

を得ることができる。ここで、

は補助変数

の集合であり、dは定数項である。この補助関数を導いたことのポイントは、

と

に関する大域最適解は解析的に得ることができる点にある。

＜パラメータの更新式＞
以上の補助関数を最小にする補助変数の条件は各不等式の等号成立条件に他ならないので、(13)式、(15)式、 (17)式、 (19)式、 (21)式で与えられる。また、補助関数を最小にする

は

と

すなわち、

のような四次方程式と三次方程式の正数解を解くことにより得られる。上記四次方程式の定数項と二次式の係数はいずれも負値であるため、必ず一つの正数解のみを持つことが示される。

＜本発明の実施の形態に係る信号解析装置の構成＞
次に、本発明の実施の形態に係る信号解析装置の構成について説明する。図１に示すように、本発明の実施の形態に係る信号解析装置１００は、ＣＰＵと、ＲＡＭと、後述する学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この信号解析装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部９０と、を含んで構成されている。

入力部１０は、各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付ける。

演算部２０は、時間周波数展開部２４と、パラメータ学習部３６と、を含んで構成されている。

時間周波数展開部２４は、混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。なお、本実施の形態においては、短時間フーリエ変換やウェーブレット変換などの時間周波数展開を行う。

パラメータ学習部３６は、時間周波数展開部２４によって計算された、混合信号のパワースペクトログラム及び各構成音信号のパワースペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す、上記（５）式の規準を小さくするように、各構成音の基底スペクトル

と、各構成音のアクティベーション

とを推定する。

具体的には、パラメータ学習部３６は、初期値設定部４０、補助変数更新部４２、パラメータ更新部４４、及び収束判定部４６を備えている。

初期値設定部４０は、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに初期値を設定する。例えば、ランダムに初期値を設定する。

補助変数更新部４２は、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに基づいて、上記（１３）式、（１５）式、（１７）式、（１９）式、（２１）式に従って、各基底ｋ、各周波数ω、及び各時刻ｔに対するγ_k,ω,t、β_k,ω,t、θ_k,ω,t、各周波数ω及び各時刻ｔに対するλ_ω,t、η_ω,tを更新する。

パラメータ更新部４４は、時間周波数展開部２４により出力された
混合信号のパワースペクトログラム

と、音声信号のパワースペクトログラム

と、補助変数更新部４２によって更新された各基底ｋ、各周波数ω、及び各時刻ｔに対するγ_k,ω,t、β_k,ω,t、θ_k,ω,t、各周波数ω及び各時刻ｔに対するλ_ω,t、η_ω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

と、に基づいて、上記（２３）式〜（２６）式に示す四次方程式と三次方程式を解くことにより、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とを推定する。

収束判定部４６は、収束条件を満たすか否かを判定し、収束条件を満たすまで、補助変数更新部４２における更新処理と、パラメータ更新部４４における更新処理とを繰り返させる。

収束条件としては、例えば、繰り返し回数が、上限回数に到達したことを用いることができる。あるいは、収束条件として、上記（６）式の規準の値と前回の規準の値との差分が、予め定められた閾値以下であることを用いることができる。

出力部９０は、パラメータ学習部３６において最終的に取得した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

を出力する。

＜本発明の実施の形態に係る信号解析装置の作用＞
次に、本発明の実施の形態に係る信号解析装置１００の作用について説明する。まず、入力部１０において各構成音が混合された混合信号の時系列データと、当該混合信号を分離した各構成音について音響信号の時系列データとを受け付けると、信号解析装置１００は、図２に示す学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において混合信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。また、各構成音信号の時系列データに基づいて、各時刻における各周波数の信号の成分を表すパワースペクトログラム

を計算する。

次に、ステップＳ１０２では、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに初期値を設定する。

ステップＳ１０４では、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とに基づいて、上記（１３）式、（１５）式、（１７）式、（１９）式、（２１）式に従って、各基底ｋ、各周波数ω、及び各時刻ｔに対するγ_k,ω,t、β_k,ω,t、θ_k,ω,t、各周波数ω及び各時刻ｔに対するλ_ω,t、η_ω,tを更新する。

次に、ステップＳ１０６では、時間周波数展開部２４により出力された混合信号のパワースペクトログラム

と、音声信号のパワースペクトログラム

と、補助変数更新部４２によって更新された各基底ｋ、各周波数ω、及び各時刻ｔに対するγ_k,ω,t、β_k,ω,t、θ_k,ω,t、各周波数ω及び各時刻ｔに対するλ_ω,t、η_ω,tと、初期値である、又は前回更新した、初期値である、又は前回更新した、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

と、に基づいて、上記（２３）式〜（２６）式に示す四次方程式と三次方程式を解くことにより、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

とを推定する。

次に、ステップＳ１０８では、収束条件を満たすか否かを判定する。収束条件を満たした場合には、ステップＳ１１０へ移行し、収束条件を満たしていない場合には、ステップＳ１０４へ移行し、ステップＳ１０４〜ステップＳ１０６の処理を繰り返す。

ステップＳ１１０では、上記ステップＳ１０６で最終的に更新された、音声と雑音の基底スペクトル

と、音声と雑音のアクティベーション

を、出力部９０から出力して、学習処理ルーチンを終了する。

＜実験例＞
本実施の形態の手法による音声強調効果を検証するため、ATR 音声データベース503 文の音声データ（非特許文献３参照）とATR 環境音データベース（department noise、 subway station noise の2種類）を用いて評価実験を行った。比較対象は従来の教師ありNMF 法（SNMF）と識別的NMF の乗法更新式アルゴリズム（DNMF MU）とし、処理前と処理後の信号対歪み比(SDR) および信号対干渉比(SIR) （非特許文献４参照）の改善値を評価した。

［非特許文献３］A. Kurematsu、 K. Takeda、 Y. Sagisaka、 S. Katagiri、 H. Kuwabara、 and K. Shikano、 "ATR Japanese speech database as a tool of speech recognition and synthesis、" Speech Communication、 vol. 9、 pp. 357-363、 1990.
［非特許文献４］ E. Vincent、 R. Gribonval、 and C. Fevotte、 "Performance measurement in blind audio source separa-tion."、 IEEE transactions on audio、 speech、 and language processing、 vol. 14、 no. 4、 pp. 1462-1469、 2016.

テストデータはクリーン音声に各雑音を-6、-3、0、3dB の信号対雑音比(SNR) で重畳させて作成した。実験に用いた音響信号はサンプリング周波数16kHzのモノラル信号で、フレーム長32ms、フレームシフト16ms で短時間Fourier 変換を行い、観測スペクトログラム

を算出した。基底学習においては男性2 名と女性2 名の話者の計200 文の音声を用いて音声基底の学習を行った。基底数は音声と雑音両方40とした。ランダムに決めた初期値で反復アルゴリズムを5 回試行し、各試行における反復回数が0、10、25、50、100、200の時のSDR改善値の平均と分散をプロットしたものが図３である。図３の結果により、以下の実験では反復回数を25とした。テストデータセットは、ATR503 文データベースからランダムに選定した40 文の音声データに雑音を重畳させて作成した。以上の条件下で、提案法(DNMF AU)と従来法(SNMF、DNMF MU)を5回試行して得られたSDR およびSIR の改善値の平均を表1、2に示す。いずれの評価尺度においても全ての場合において提案手法の方が高い改善値を得られていることが確認できた。

上記表1は、各手法を5 回試行して得られたSDR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。

上記表2は、各手法を5 回試行して得られたSIR 改善量平均値[dB]を示している。上段はDepartment ノイズにおける音声強調結果であり、下段はSubway station ノイズにおける音声強調結果である。

以上説明したように、本発明の実施の形態に係る信号解析装置によれば、各構成音の構成音信号の各々についての、基底スペクトル、およびアクティベーションパラメータを用いて、混合信号のスペクトログラムから抽出される、構成音の構成音信号の抽出スペクトログラムと、構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新することを繰り返すことにより、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。
また、非負値行列因子分解を用いた教師あり音源分離手法において、分離信号の復元誤差を規準として、収束性が保証されたアルゴリズムにより基底スペクトルを学習することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
２４時間周波数展開部
３６パラメータ学習部
４０初期値設定部
４２補助変数更新部
４４パラメータ更新部
４６収束判定部
９０出力部
１００信号解析装置

Claims

各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力する時間周波数展開部と、
前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定するパラメータ学習部と、
を含み、
前記パラメータ学習部は、
前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新するパラメータ更新部と、
予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させる収束判定部と、
を含む信号解析装置。
前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項１記載の信号解析装置。
各構成音は、音声と雑音であり、
前記規準は、以下の式で表わされるＩダイバージェンス規準である請求項２記載の信号解析装置。

ただし、W^ｓは、音声の基底スペクトルを表し、H^ｓは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、S^sは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Ｗ_ω,kは、周波数ω及び基底ｋのパワースペクトルを表す。
時間周波数展開部が、各構成音が混合された混合信号の時系列データと、前記混合信号を分離した各構成音について構成音信号の時系列データとを入力として、前記混合信号、および各構成音の構成音信号の各々について、各時刻及び各周波数の信号の成分を表すスペクトログラムを出力し、
パラメータ学習部が、前記時間周波数展開部により出力された、前記混合信号、および各構成音の構成音信号の各々についてのスペクトログラムに基づいて、各構成音の構成音信号の各々についての、基底スペクトル、および各基底及び各時刻における音量を表すアクティベーションパラメータを用いて、前記混合信号のスペクトログラムから抽出される、前記構成音の構成音信号の抽出スペクトログラムと、前記構成音の構成音信号のスペクトログラムとの誤差の大きさを表す規準を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを推定する
信号解析方法であって、
前記パラメータ学習部が推定することでは、
パラメータ更新部が、前記規準の上界関数である補助関数を小さくするように、各構成音の基底スペクトルと、各構成音のアクティベーションパラメータとを更新し、
収束判定部が、予め定められた収束条件を満たすまで、前記パラメータ更新部による更新を繰り返させることを含む
信号解析方法。
前記構成音の構成音信号の抽出スペクトログラムは、Wienerフィルタにより、前記混合信号のスペクトログラムから抽出される請求項４記載の信号解析方法。
各構成音は、音声と雑音であり、
前記規準は、以下の式で表わされるＩダイバージェンス規準である請求項４記載の信号解析方法。

ただし、W^ｓは、音声の基底スペクトルを表し、H^ｓは、音声のアクティベーションパラメータを表し、Wは、音声の基底スペクトルと雑音の基底スペクトルからなる基底行列を表し、Hは、音声のアクティベーションパラメータと雑音のアクティベーションパラメータからなるアクティベーション行列を表し、S^sは、音声の構成音信号のスペクトログラムを表し、Mは、混合信号のスペクトログラムを表し、Ｗ_ω,kは、周波数ω及び基底ｋのパワースペクトルを表す。
請求項１〜請求項３の何れか１項に記載の信号解析装置の各部としてコンピュータを機能させるためのプログラム。