JP5884473B2

JP5884473B2 - 音響処理装置および音響処理方法

Info

Publication number: JP5884473B2
Application number: JP2011283700A
Authority: JP
Inventors: 祐高橋; 近藤　多伸; 多伸近藤; 誠一橋本
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2016-03-15
Anticipated expiration: 2031-12-26
Also published as: JP2013134331A

Description

本発明は、音響信号を処理する技術に関する。

相異なる音源が発生した複数の音響の混合音を音源毎に分離する音源分離技術が従来から提案されている。例えば非特許文献１や非特許文献２には、教師なし非負値行列因子分解（NMF：Non-negative Matrix Factorization）を利用した音源分離が開示されている。また、特定の既知音源から発生した音響のスペクトルを示す基底行列を教師情報として利用する教師あり非負値行列因子分解も例えば非特許文献３に開示されている。

A. CICHOCKI, et. al., "NEW ALGORITHMS FOR NON-NEGATIVE MATRIX FACTORIZATION IN APPLICATIONS TO BLIND SOURCE SEPARATION," ICASSP 2006 Tuomas Virtanen, "Monaural Sound Source Separation by Nonnegative Matrix Factorization With Temporal Continuity and Sparseness Criteria", IEEE Trans. Aurio, Speech and Language Processing, volume 15, p.1066-1074, 2007 中鹿ほか２名,"基底の反復生成と教師ありＮＭＦを用いた信号解析",電子情報通信学会技術研究報告,vol.110,no.357, p.195-200,2010

教師あり非負値行列因子分解では、既知音源の音響を示す音響信号（以下「教師信号」という）から、教師情報として利用される基底行列が生成される。基底行列は、既知音源の音響に固有の振幅スペクトルを示す複数の基底ベクトルで構成される。

ところで、楽器等の音源から発生した音響には、音響空間の壁面での反射および散乱後に受音点に到来する音響（初期反射音，後部残響音）や、鍵盤楽器や弦楽器等の自然楽器の響板による共鳴音（胴鳴り，箱鳴り）等の残響成分が付随する。従来の教師あり非負値行列因子分解では、教師情報の生成に利用される教師信号と実際に分離処理の対象となる対象となる音響信号（以下「観測信号」という）とで残響成分の程度が相違する場合に分離精度が低下するという問題がある。例えば教師信号が残響成分を豊富に含む場合には、基底行列の１個の基底ベクトルに残響成分とそれ以外の成分とが混在するから、残響成分が少ない観測信号を高精度に分離することは困難である。以上の事情を考慮して、本発明は、残響成分の多寡に関わらず高精度な分離が可能な教師情報を生成することを目的とする。

以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。

本発明の音響処理装置は、第１音源の音響を示す教師信号（例えば教師信号ｓ(t)）から残響成分を抑圧した初期音成分を生成する第１残響処理手段（例えば残響処理部２４）と、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第１基底行列（例えば基底行列Ｆ）を、第１音源の音響を含む観測信号（例えば観測信号ｘ(t)）のスペクトルの時系列を示す観測行列（例えば観測行列Ｙ）に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段（例えば教師情報生成部２６）とを具備する。以上の構成では、教師信号のうち残響成分を抑圧した初期音成分のスペクトルに対応する第１基底行列が、観測信号の教師あり非負値行列因子分解の教師情報として生成される。したがって、観測信号における残響成分の多寡（観測信号と教師信号との間の残響成分の相違）に関わらず観測信号を高精度に分離することが可能である。

本発明の好適な態様において、第１残響処理手段は、教師信号から初期音成分と残響成分とを生成し、教師情報生成手段は、教師信号の初期音成分のスペクトルに対応した基底ベクトル（例えば初期音基底行列Ｆdの基底ベクトルｆ(n)）と教師信号の残響成分のスペクトルに対応した基底ベクトル（例えば残響基底行列Ｆrの基底ベクトルｆ(n)）とを含む第１基底行列を教師情報として生成する。以上の態様では、教師情報として利用される第１基底行列が、教師信号の初期音成分のスペクトルに対応した基底ベクトルと教師信号の残響成分のスペクトルに対応した基底ベクトルとを含むから、初期音成分および残響成分の双方を含む第１音源の音響とそれ以外の音源（第２音源）の音響とを高精度に分離することが可能である。なお、以上の態様の具体例は例えば第１実施形態として後述される。

本発明の好適な態様に係る音響処理装置は、観測信号から初期音成分と残響成分とを生成する第２残響処理手段（例えば残響処理部７２）と、教師情報生成手段が生成した教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段（例えば行列分解部３４B）とを具備し、第１残響処理手段は、教師信号から初期音成分と残響成分とを生成し、教師情報生成手段は、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む初期音基底行列（例えば初期音基底行列Ｆd）と、教師信号の残響成分のスペクトルに対応した基底ベクトルを含む残響基底行列（例えば残響基底行列Ｆr）とを教師情報として生成し、行列分解手段は、観測信号の初期音成分のスペクトルの時系列を示す第１観測行列（例えば観測行列Ｙd）に対して初期音基底行列を適用した教師あり非負値行列因子分解を実行する第１分解手段（例えば第１分解部３４１）と、観測信号の残響成分のスペクトルの時系列を示す第２観測行列（例えば観測行列Ｙr）に対して残響基底行列を適用した教師あり非負値行列因子分解を実行する第２分解手段（例えば第２分解部３４２）とを含む。以上の態様では、観測信号が初期音成分と残響成分とに分離されたうえで各々について個別に教師あり非負値行列因子分解が実行されるから、観測信号を初期音成分と残響成分とに分離しない構成と比較して、観測信号を第１音源とそれ以外の音源（第２音源）とで高精度に分離することが可能である。なお、以上の態様の具体例は例えば第２実施形態として後述される。

本発明の好適な態様に係る音響処理装置は、教師情報生成手段が生成した教師情報を適用した教師あり非負値行列因子分解を観測行列に対して実行する行列分解手段を具備し、教師情報生成手段は、第１基底行列の各基底ベクトルに対する加重値の時間変化を示す残響係数行列（例えば残響係数行列Ｖ）を生成し、行列分解手段は、教師情報生成手段が生成した第１基底行列と、第１基底行列の基底ベクトルに対する加重値の時間変化を示す第１係数行列（例えば係数行列Ｇ）とを乗算した初期音行列（例えば初期音行列ＦＧ）と、観測信号のうち第１音源以外の音源の音響成分のスペクトルに対応した基底ベクトルを含む第２基底行列（例えば基底行列Ｈ）と、第２基底行列の基底ベクトルに対する加重値の時間変化を示す第２係数行列（例えば係数行列Ｕ）とを乗算した分離成分行列（例えば分離成分行列ＨＵ）と、教師情報生成手段が生成した第１基底行列と残響係数行列とを乗算した残響行列（例えば残響行列ＦＶ）との和が観測信号の観測行列に近似するように、第１係数行列と第２基底行列と第２係数行列とを算定する。以上の態様では、第１基底行列に加えて残響係数行列を教師情報として観測信号に対する教師あり非負行列因子分解が実行されるから、残響係数行列を利用しない構成と比較して、観測信号を第１音源とそれ以外の音源（第２音源）とで高精度に分離することが可能である。なお、以上の態様の具体例は例えば第３実施形態として後述される。

本発明の好適な態様において、第１残響処理手段は、教師信号の時間変化に追従する第１指標値（例えば第１指標値Ｑ1(k,m)と、第１指標値と比較して低い追従性で教師信号の時間変化に追従する第２指標値（例えば第２指標値Ｑ2(k,m)とを算定する指標値算定手段（例えば指標値算定部５０A，５０B）と、教師信号の残響成分を抑圧するための第１調整値と教師信号の残響成分を強調するための第２調整値とを第１指標値と第２指標値との相違に応じて算定する調整値算定手段（例えば調整値算定部６０）と、第１調整値を教師信号に作用させることで初期音成分を生成し、第２調整値を教師信号に作用させることで残響成分を生成する調整処理手段（例えば調整処理部２４４）とを含む。以上の態様では、教師信号の時間変化に追従する第１指標値と第２指標値との相違に応じて残響成分の抑圧用（初期音成分の強調用）の第１調整値と残響成分の強調用（初期音成分の抑圧用）の第２調整値とが算定されるから、例えば教師信号の残響成分を推定する予測フィルタを利用することで残響成分の予測フィルタ係数を推定する構成（例えば特開２００９−２１２５９９号公報に開示された構成）と比較して簡易な処理で教師信号の残響成分を推定できるという利点がある。もっとも、本発明における残響成分の推定には、公知の技術（前掲の特許文献に開示された構成を含む）が任意に採用され得る。

具体的な態様において、指標値算定手段は、教師信号の信号強度（教師信号の振幅またはその冪乗）の時系列を平滑化することで第１指標値を算定する第１平滑手段（例えば第１平滑部５１）と、第１平滑手段による平滑化の時定数（例えば時定数τ1）を上回る時定数（例えば時定数τ2）で教師信号の信号強度の時系列を平滑化することで第２指標値を算定する第２平滑手段（例えば第２平滑部５２）とを含む。他の態様において、指標値算定手段は、第２指標値の時間変化が第１指標値の時間変化を遅延させた関係となるように、教師信号の信号強度の時系列を平滑化した第１指標値および第２指標値を生成する。

本発明の好適な態様において、調整値算定手段は、第２指標値に対する第１指標値の比を算定する比算定手段と、比が閾値を上回る場合に当該閾値に設定され、比が閾値を下回る場合に比に設定される第１調整値を算定する第１処理手段と、第１調整値を所定値から減算することで第２調整値を算定する第２処理手段とを含む。以上の態様では、第２指標値に対する第１指標値の比の演算と所定値から第１調整値を減算する演算とを含む簡易な演算で第１調整値と第２調整値とを算定できるという利点がある。

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、第１音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成する第１残響処理と、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第１基底行列を、第１音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。

本発明の第１実施形態に係る音響処理装置のブロック図である。学習処理部および分離処理部のブロック図である。残響処理部のブロック図である。教師情報生成部の動作の説明図である。解析処理部のブロック図である。第１指標値と第２指標値と調整値との関係の説明図である。行列分割部の動作の説明図である。第２実施形態における学習処理部および分離処理部のブロック図である。第４実施形態における解析処理部のブロック図である。第４実施形態における第１指標値と第２指標値と調整値との関係の説明図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００のブロック図である。音響処理装置１００は、教師信号ｓ(t)から教師情報（事前情報）Ｐを生成する学習処理と、教師情報Ｐを利用した教師あり非負値行列因子分解（SVNMF：Supervised Non-negative Matrix Factorization）で観測信号ｘ(t)を分離する分離処理とを実行する信号処理装置である。

音響処理装置１００には信号供給装置２００が接続される。信号供給装置２００は、教師信号ｓ(t)および観測信号ｘ(t)を音響処理装置１００に供給する。教師信号ｓ(t)は学習処理の実行時に音響処理装置１００に供給され、観測信号ｘ(t)は分離処理の実行時に音響処理装置１００に供給される。周囲の音響を収音して教師信号ｓ(t)または観測信号ｘ(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から教師信号ｓ(t)または観測信号ｘ(t)を取得して音響処理装置１００に供給する再生装置や、教師信号ｓ(t)または観測信号ｘ(t)を通信網から受信して音響処理装置１００に供給する通信装置が信号供給装置２００として採用され得る。

観測信号ｘ(t)は、相異なる複数種の音源が発生した音響（楽音や音声）の混合音の波形を示す時間領域の音響信号である。観測信号ｘ(t)を構成する音響を発生する複数種の音源のうち特定の既知の音源を以下では「第１音源」と表記し、第１音源以外の音源を以下では第２音源と表記する。観測信号ｘ(t)が２種類の音源の音響で構成される場合、第２音源は第１音源以外の１種類の音源を意味し、観測信号ｘ(t)が３種類以上の音源の音響で構成される場合、第２音源は第１音源以外の２種類以上の音源（音源群）を意味する。他方、教師信号ｓ(t)は、第１音源が単独で発生した音響（学習音）の波形を示す時間領域の音響信号である。

観測信号ｘ(t)および教師信号ｓ(t)の各々が示す音響は、初期音成分（ドライ成分）と残響成分（ウェット成分）とを包含する。残響成分は、音源の発音動作の停止後も経時的に減衰しながら継続する響き成分である。具体的には、音響空間の壁面での反射および散乱後に受音点に到来する音響（初期反射音，後部残響音）や、鍵盤楽器や弦楽器等の自然楽器の響板による共鳴音（胴鳴り，箱鳴り）等が残響成分に該当する。初期音成分は、残響成分以外の音響成分である。具体的には、音源の発音動作に直接的に起因する音響（反射や共鳴を殆ど経ていない音響）が初期音成分に該当する。例えば音響（単音）の時間波形を時間軸上でアタック（立上がり）とディケイ（減衰）とサステイン（保持）とリリース（余韻）とに区分した場合、アタックとディケイとが初期音成分に相当し、サステインとリリースとが残響成分に相当する。以下の説明では、初期音成分に関連する要素に添字ｄ（dry）を付加し、残響成分に関連する要素に添字ｒ（reverberation）を付加する場合がある。

第１実施形態の音響処理装置１００は、観測信号ｘ(t)に対する分離処理で音響信号ｚ1(t)および音響信号ｚ2(t)を生成する。音響信号ｚ1(t)は、観測信号ｘ(t)のうち第１音源の音響を強調（理想的には抽出）した時間領域信号であり、音響信号ｚ2(t)は、第２音源の音響を強調（抽出）した時間領域信号である。すなわち、第１実施形態の音響処理装置１００は、観測信号ｘ(t)を第１音源と第２音源とで分離する音源分離装置として機能する。音響信号ｚ1(t)および音響信号ｚ2(t)の一方が選択的にスピーカ等の放音装置（図示略）に供給されて音波として再生される。

図１に示すように、音響処理装置１００は、演算処理装置１２と記憶装置１４とを具備するコンピュータシステムで実現される。記憶装置１４は、演算処理装置１２が実行するプログラムＰGMや演算処理装置１２が使用する各種の情報（教師情報Ｐ）を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置１４として任意に採用され得る。教師信号ｓ(t)や観測信号ｘ(t)を記憶装置１４に記憶する（したがって信号供給装置２００は省略される）ことも可能である。

演算処理装置１２は、記憶装置１４に記憶されたプログラムＰGMを実行することで学習処理部２０および分離処理部３０Aとして機能する。学習処理部２０は、教師信号ｓ(t)に対する学習処理で教師情報Ｐを生成し、分離処理部３０Aは、学習処理部２０が生成した教師情報Ｐを利用した分離処理を観測信号ｘ(t)に対して実行することで音響信号ｚ1(t)および音響信号ｚ2(t)を生成する。

図２は、学習処理部２０および分離処理部３０Aのブロック図である。図２に示すように、学習処理部２０は、周波数分析部２２と残響処理部２４と教師情報生成部２６とを含んで構成される。周波数分析部２２は、教師信号ｓ(t)の振幅スペクトルＳ(k,m)を時間軸上の単位期間毎に順次に生成する。記号ｋは、周波数軸上の任意の１個の周波数（帯域）を意味し、記号ｍは、時間軸上の任意の１個の単位期間（時間軸上の特定の時点）を意味する。振幅スペクトルＳ(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタを配列したフィルタバンクを周波数分析部２２として利用することも可能である。

残響処理部２４は、各単位期間の振幅スペクトルＳ(k,m)を初期音成分の振幅スペクトルＳd(k,m)と残響成分の振幅スペクトルＳr(k,m)とに分離する。図３に示すように、第１実施形態の残響処理部２４は、解析処理部２４２と調整処理部２４４とを含んで構成される。

解析処理部２４２は、教師信号ｓ(t)の振幅スペクトルＳ(k,m)に応じた調整値Ｇd(k,m)および調整値Ｇr(k,m)を各周波数について単位期間毎に算定する。調整値Ｇd(k,m)は、教師信号ｓ(t)内の初期音成分の比率に応じた変数である。概略的には、振幅スペクトルＳ(k,m)にて初期音成分の強度が高い周波数（初期音成分が優勢である周波数）の調整値Ｇd(k,m)ほど大きい数値に設定されるという傾向がある。他方、調整値Ｇr(k,m)は、教師信号ｓ(t)内の残響成分の比率に応じた変数である。概略的には、振幅スペクトルＳ(k,m)にて残響成分の強度が高い周波数の調整値Ｇr(k,m)ほど大きい数値に設定されるという傾向がある。なお、調整値Ｇr(k,m)および調整値Ｇr(k,m)の算定方法については後述する。

図３の調整処理部２４４は、解析処理部２４２が算定する調整値Ｇd(k,m)および調整値Ｇr(k,m)を教師信号ｓ(t)の振幅スペクトルＳ(k,m)に作用させる。具体的には、調整処理部２４４は、振幅スペクトルＳ(k,m)に調整値Ｇd(k,m)を乗算することで振幅スペクトルＳd(k,m)を算定し（Ｓd(k,m)＝Ｇd(k,m)Ｓ(k,m)）、振幅スペクトルＳ(k,m)に調整値Ｇr(k,m)を乗算することで振幅スペクトルＳr(k,m)を算定する（Ｓr(k,m)＝Ｇr(k,m)Ｓ(k,m)）。すなわち、調整値Ｇd(k,m)および調整値Ｇr(k,m)は、振幅スペクトルＳ(k,m)に対するゲイン（スペクトルゲイン）に相当する。

初期音成分が優勢な周波数の調整値Ｇd(k,m)ほど大きい数値に設定され、残響成分が優勢な周波数の調整値Ｇr(k,m)ほど大きい数値に設定されるから、振幅スペクトルＳd(k,m)は教師信号ｓ(t)の初期音成分の振幅スペクトルに相当し、振幅スペクトルＳr(k,m)は教師信号ｓ(t)の残響成分の振幅スペクトルに相当する。すなわち、調整値Ｇd(k,m)は教師信号ｓ(t)のうち初期音成分の強調用（残響成分の抑圧用）の変数であり、調整値Ｇr(k,m)は教師信号ｓ(t)のうち残響成分の強調用（初期音成分の抑圧用）の変数である。

図２の教師情報生成部２６は、残響処理部２４が生成した初期音成分の振幅スペクトルＳd(k,m)と残響成分の振幅スペクトルＳr(k,m)とに応じた基底行列Ｆを教師情報Ｐとして生成する。図４に示すように、基底行列Ｆは、Ｎ個の基底ベクトルｆ(1)〜ｆ(N)を横方向に配列したＫ行Ｎ列の非負値行列である。基底行列Ｆは、初期音基底行列Ｆdと残響基底行列Ｆrとを含んで構成される。初期音基底行列ＦdはＮ1個の基底ベクトルｆ(n)（ｎ＝１〜Ｎ）の集合であり、残響基底行列ＦrはＮ2個の基底ベクトルｆ(n)の集合である（Ｎ＝Ｎ1＋Ｎ2）。初期音基底行列ＦdのＮ1個の基底ベクトルｆ(n)は、教師信号ｓ(t)の初期音成分を構成するＮ1個の音響成分（基底）の振幅スペクトルに相当し、残響基底行列ＦrのＮ2個の基底ベクトルｆ(n)は、教師信号ｓ(t)の残響成分を構成するＮ2個の音響成分の振幅スペクトルに相当する。なお、個数Ｎ1と個数Ｎ2との異同は不問である。

図４に示すように、第１実施形態の教師情報生成部２６は、教師信号ｓ(t)の初期音成分の振幅スペクトログラムを表現する学習用行列Ｓdから初期音基底行列Ｆdを生成し、教師信号ｓ(t)の残響成分の振幅スペクトログラムを表現する学習用行列Ｓrから残響基底行列Ｆrを生成する。学習用行列Ｓdは、Ｍ個の単位期間にわたる初期音成分の振幅スペクトルＳd(k,m)を配列したＫ行Ｍ列の非負値行列であり、学習用行列Ｓrは、Ｍ個の単位期間にわたる残響成分の振幅スペクトルＳr(k,m)を配列したＫ行Ｍ列の非負値行列である。初期音基底行列Ｆdおよび残響基底行列Ｆrの生成には、以下に例示する教師なし非負値行列因子分解が好適である。

初期音成分の学習用行列Ｓdは、以下の数式(1A)で表現されるように、初期音基底行列Ｆdと係数行列（アクティベーション行列）Ｑdとに近似的に分解される。初期音基底行列Ｆdは、図４に示すように、初期音成分の各音響成分の振幅スペクトルに相当するＮ1個の基底ベクトルｆ(1)〜ｆ(N1)を配列したＫ行Ｎ1列の非負値行列である。係数行列Ｑdは、初期音基底行列Ｆdの各基底ベクトルｆ(1)〜ｆ(N1)に対応するＮ1個の係数ベクトルｑ(1)〜ｑ(N1)を配列したＮ1行Ｍ列の非負値行列である。係数行列Ｑdの第ｎ行目の係数ベクトルｑ(n)は、初期音基底行列Ｆdの第ｎ列目の基底ベクトルｆ(n)に対する加重値（活性度）の時系列に相当する。教師情報生成部２６は、初期音基底行列Ｆdと係数行列Ｑdとの積ＦdＱdが学習用行列Ｓdに近似する（すなわち行列ＦdＱdと学習用行列Ｓdとの誤差が最小化する）ように初期音基底行列Ｆdおよび係数行列Ｑdを逐次的に更新することで初期音基底行列Ｆdを算定する。

他方、残響成分の学習用行列Ｓrは、以下の数式(1B)で表現されるように、残響基底行列Ｆrと係数行列Ｑrとに近似的に分解される。残響基底行列Ｆrは、残響成分の振幅スペクトルに相当するＮ2個の基底ベクトルｆ(1)〜ｆ(N2)を配列したＫ行Ｎ2列の非負値行列である。係数行列Ｑrは、残響基底行列Ｆrの各基底ベクトルｆ(n)に対する加重値の時系列を意味するＮ2個の係数ベクトルｑ(1)〜ｑ(N2)で構成される。教師情報生成部２６は、残響基底行列Ｆrと係数行列Ｑrとの積ＦrＱrが学習用行列Ｓrに近似するように残響基底行列Ｆrおよび係数行列Ｑrを逐次的に更新することで残響基底行列Ｆrを算定する。教師情報生成部２６は、初期音基底行列Ｆdと残響基底行列Ｆrとを含む基底行列Ｆを教師情報Ｐとして生成して記憶装置１４に格納する。以上が学習処理部２０の具体的な構成および動作である。

図５を参照して図３の解析処理部２４２の具体的な構成を説明する。図５に示すように、第１実施形態の解析処理部２４２は、指標値算定部５０Aと調整値算定部６０とを具備する。指標値算定部５０Aは、教師信号ｓ(t)に応じた第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)とを順次に算定する。具体的には、指標値算定部５０Aは、第１平滑部５１と第２平滑部５２とを含んで構成される。第１平滑部５１は、教師信号ｓ(t)のパワーＳ(k,m)²の時系列を平滑化することで各周波数の第１指標値Ｑ1(k,m)を単位期間毎に順次に算定する。同様に、第２平滑部５２は、教師信号ｓ(t)のパワーＳ(k,m)²の時系列を平滑化することで各周波数の第２指標値Ｑ2(k,m)を単位期間毎に順次に算定する。

第１指標値Ｑ1(k,m)は、以下の数式(2A)で定義されるように、相前後するＭ1個（Ｍ1は２以上の自然数）の単位期間で構成される第１期間内のパワーＳ(k,m)²の移動平均（単純移動平均）である。第１期間は、例えば第ｍ番目の単位期間を最後尾とするＭ1個の単位期間の集合である。他方、第２指標値Ｑ2(k,m)は、以下の数式(2B)で定義されるように、相前後するＭ2個（Ｍ2は２以上の自然数）の単位期間で構成される第２期間内のパワーＳ(k,m)²の移動平均である。第２期間は、例えば第ｍ番目の単位期間を最後尾とするＭ2個の単位期間の集合である。以上の説明から理解されるように、第１平滑部５１および第２平滑部５２はＦＩＲ（finite impulse response）型のローパスフィルタに相当する。

第２指標値Ｑ2(k,m)の算定に加味される単位期間の個数Ｍ2は、第１指標値Ｑ1(k,m)の算定に加味される単位期間の個数Ｍ1を上回る（Ｍ2＞Ｍ1）。すなわち、第２期間は第１期間よりも長い。例えば、第１期間は１００ミリ秒から３００ミリ秒程度の時間に設定され、第２期間は３００ミリ秒から６００ミリ秒程度の時間に設定される。したがって、第２平滑部５２による平滑化の時定数τ2は第１平滑部５１による平滑化の時定数τ1を上回る（τ2＞τ1）。第１平滑部５１および第２平滑部５２をローパスフィルタで実現する場合を想定すると、第２平滑部５２の遮断周波数が第１平滑部５１の遮断周波数を下回ると換言することも可能である。

図６の部分(B)は、教師信号ｓ(t)の任意の周波数について算定される第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)の時間変化のグラフである。図６の部分(A)のようにパワーＳ(k,m)²（パワー密度）が指数減衰する室内インパルス応答（ＲＩＲ）を教師信号ｓ(t)として音響処理装置１００に供給した場合の第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)が図６の部分(B)には図示されている。

図６の部分(B)から理解されるように、第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)は、教師信号ｓ(t)のパワーＳ(k,m)²に追従して経時的に変化する。ただし、第２平滑部５２による平滑化の時定数τ2は第１平滑部５１による平滑化の時定数τ1を上回るから、第２指標値Ｑ2(k,m)は、第１指標値Ｑ1(k,m)と比較して低い追従性（変化率）で教師信号ｓ(t)のパワーＳ(k,m)²の時間変化に追従する。具体的には、図６の部分(B)に示すように、室内インパルス応答の開始の時点ｔ0の直後の区間では、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回る変化率で増加する。そして、第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)は、時間軸上の相異なる時点でピークに到達し、第１指標値Ｑ1(k,m)は第２指標値Ｑ2(k,m)を上回る変化率で減少する。

以上のように第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)とは相異なる変化率で変化するから、第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)との大小は時間軸上の特定の時点ｔxで反転する。すなわち、時点ｔ0から時点ｔxまでの区間ＳAでは第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回り、時点ｔx以降の区間ＳBでは第２指標値Ｑ2(k,m)が第１指標値Ｑ1(k,m)を上回る。区間ＳAは、室内インパルス応答の初期音成分（直接音）が存在する区間に相当し、区間ＳBは、室内インパルス応答の残響成分（後部残響音）が存在する区間に相当する。

図５の調整値算定部６０は、指標値算定部５０Aが算定した第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)とに応じた調整値Ｇd(k,m)および調整値Ｇr(k,m)を各周波数について単位期間毎に順次に算定する。第１実施形態の調整値算定部６０は、比算定部６２と第１処理部６４と第２処理部６６とを含んで構成される。

比算定部６２は、第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)との比Ｒ(k,m)を算定する。具体的には、比算定部６２は、以下の数式(3)で表現される通り、第２指標値Ｑ2(k,m)に対する第１指標値Ｑ1(k,m)の比Ｒ(k,m)を単位期間毎に算定する。

図５の第１処理部６４は、比算定部６２が算定した比Ｒ(k,m)に応じて初期音成分の強調用の調整値Ｇd(k,m)を各周波数について単位期間毎に順次に算定する。第１実施形態の第１処理部６４は、比算定部６２が算定した比Ｒ(k,m)と所定値Ｇmaxおよび所定値Ｇminとを比較した結果に応じた調整値Ｇd(k,m)を単位期間毎に算定する。所定値Ｇmaxおよび所定値Ｇminは、例えば利用者からの指示に応じて事前に設定されて比Ｒ(k,m)と比較される閾値である。第１実施形態では、所定値Ｇmaxを１に設定した場合を例示する。所定値Ｇminは、所定値Ｇmaxを下回る数値（０以上かつ１未満の範囲内の数値）に設定される。

具体的には、第１処理部６４は、以下の数式(4)の演算を実行する。第１に、比Ｒ(k,m)が所定値Ｇmax（Ｇmax＝１）を上回る場合（Ｒ(k,m)≧Ｇmax）、第１処理部６４は、所定値Ｇmaxを調整値Ｇd(k,m)として設定する。第２に、比Ｒ(k,m)が所定値Ｇminを下回る場合（Ｒ(k,m)≦Ｇmin）、第１処理部６４は、所定値Ｇminを調整値Ｇd(k,m)として設定する。第３に、比Ｒ(k,m)が所定値Ｇmaxと所定値Ｇminとの間の数値である場合（Ｇmin＜Ｒ(k,m)＜Ｇmax）、第１処理部６４は、比Ｒ(k,m)を調整値Ｇd(k,m)として設定する。

第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)が図６の部分(B)のように変化する場合の調整値Ｇd(k,m)の変化が図６の部分(C)に図示されている。図６の部分(C)から理解されるように、概略的には、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回る場合（区間ＳA）の調整値Ｇd(k,m)は、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を下回る場合（区間ＳB）の調整値Ｇd(k,m)よりも大きい数値となる。具体的には、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回る区間ＳA内では比Ｒ(k,m)が所定値Ｇmax（Ｇmax＝１）を上回るから、調整値Ｇd(k,m)は所定値Ｇmaxに維持される。また、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を下回る区間ＳBのうち比Ｒ(k,m)が所定値Ｇminを上回る区間ＳB1では、調整値Ｇd(k,m)は比Ｒ(k,m)に設定されて経時的に減少する。そして、区間ＳBのうち比Ｒ(k,m)が所定値Ｇminを下回る区間ＳB2では、調整値Ｇd(k,m)は所定値Ｇminに維持される。

すなわち、第１処理部６４が算定する調整値Ｇd(k,m)は、初期音成分が存在する区間ＳAでは所定値（最大値）Ｇmaxに設定され、残響成分が存在する区間ＳBでは所定値（最小値）Ｇminまで経時的に減少する。したがって、図３の調整処理部２４４が教師信号ｓ(t)の振幅スペクトルＳ(k,m)に調整値Ｇd(k,m)を乗算することで、教師信号ｓ(t)の初期音成分を強調した振幅スペクトルＳd(k,m)が生成される。

図５の第２処理部６６は、第１処理部６４が算定した調整値Ｇd(k,m)に応じた残響成分の強調用の調整値Ｇr(k,m)を各周波数について単位期間毎に順次に算定する。調整値Ｇd(k,m)が増加するほど調整値Ｇr(k,m)が減少するように調整値Ｇr(k,m)は算定される。具体的には、第２処理部６６は、前掲の数式(4)で算定された調整値Ｇd(k,m)を所定値（以下の例示では１）から減算することで調整値Ｇr(k,m)を算定する（Ｇr(k,m)＝１−Ｇd(k,m)）。したがって、調整値Ｇr(k,m)は、初期音成分が存在する区間ＳAではゼロに維持され、残響成分が存在する区間ＳBでは所定値（１−Ｇmin）まで経時的に増加する。すなわち、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回る場合（区間ＳA）の調整値Ｇr(k,m)は、第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を下回る場合（区間ＳB）の調整値Ｇr(k,m)よりも小さい数値となる。したがって、調整処理部２４４が教師信号ｓ(t)の振幅スペクトルＳ(k,m)に調整値Ｇr(k,m)を乗算することで、教師信号ｓ(t)の残響成分を強調した振幅スペクトルＳr(k,m)が生成される。以上が残響処理部２４の具体的な構成および動作である。

図２の分離処理部３０Aの構成および動作を以下に説明する。図２に示すように、分離処理部３０Aは、周波数分析部３２と行列分解部３４Aと音響生成部３６とを含んで構成される。周波数分析部３２は、学習処理部２０の周波数分析部２２と同様に、信号供給装置２００から供給される観測信号ｘ(t)の振幅スペクトルＸ(k,m)を時間軸上の単位期間毎に順次に生成する。図７に示すように、Ｍ個の単位期間にわたる観測信号ｘ(t)の振幅スペクトルＸ(k,m)（Ｘ(k,1)〜Ｘ(k,M)）の時系列が単位期間のＭ個毎に観測行列Ｙとして順次に生成される。すなわち、観測行列Ｙは、観測信号ｘ(t)の振幅スペクトログラムを表現するＫ行Ｍ列の非負値行列である。

図２の行列分解部３４Aは、学習処理部２０（教師情報生成部２６）が教師情報Ｐとして生成した基底行列Ｆを適用した教師あり非負値行列因子分解を観測行列Ｙに対して実行する。第１実施形態の行列分解部３４Aは、以下の数式(5)で表現されるように、周波数分析部３２が生成した観測行列Ｙを基底行列Ｆと係数行列Ｇと基底行列Ｈと係数行列Ｕとに分解する。

前述のように、基底行列Ｆには第１音源の音響（教師信号s(t)）の特性が反映されるから、基底行列Ｆおよび係数行列Ｇは観測信号ｘ(t)のうち第１音源の音響成分に対応する。他方、基底行列Ｈおよび係数行列Ｕは、観測信号ｘ(t)のうち第１音源以外の音源（すなわち第２音源）の音響成分に対応する。

記憶装置１４に記憶された既知の基底行列Ｆは、図７に示すように、第１音源の音響の各成分の振幅スペクトルに相当するＮ個の基底ベクトルｆ(1)〜ｆ(N)を配列したＫ行Ｎ列の非負値行列である。また、数式(5)の係数行列Ｇは、基底行列Ｆの各基底ベクトルｆ(1)〜ｆ(N)に対応するＫ個の係数ベクトルｇ(1)〜ｇ(N)を配列したＫ行Ｎ列の非負値行列である。係数行列Ｇの第ｎ行の係数ベクトルｇ(n)は、基底行列Ｆのうち第ｎ列の基底ベクトルｆ(n)に対する加重値の時系列を意味する。以上の説明から理解されるように、数式(5)の右辺の第１項の行列ＦＧは、観測信号ｘ(t)のうち第１音源の音響の振幅スペクトログラムを表現するＫ行Ｍ列の非負値行列である。

数式(5)の基底行列Ｈは、図７に示すように、観測信号ｘ(t)のうち第１音源以外の第２音源の音響の各成分の振幅スペクトルに相当するＤ個の基底ベクトルｈ(1)〜ｈ(D)を配列したＫ行Ｄ列の非負値行列である。また、係数行列Ｕは、基底行列Ｈの各基底ベクトルｈ(d)に対する加重値の時系列に相当するＤ個の係数ベクトルｕ(1)〜ｕ(D)を配列したＤ行Ｍ列の非負値行列である。以上の説明から理解されるように、数式(5)の右辺の第２項の行列ＨＵは、観測信号ｘ(t)のうち第２音源の音響の振幅スペクトログラムを表現するＫ行Ｍ列の非負値行列である。なお、基底行列Ｆの列数Ｎと基底行列Ｈの列数Ｄとの異同は不問である。

図２の行列分解部３４Aは、第１音源の行列ＦＧと第２音源の行列ＨＵとを加算した行列(ＦＧ＋ＨＵ)が観測行列Ｙに近似する（すなわち両者間の誤差が最小化する）ように第１音源の係数行列Ｇと第２音源の基底行列Ｈおよび係数行列Ｕとを生成する。第１実施形態では、数式(5)の条件を評価するために以下の数式(6)の評価関数Ｊを導入する。なお、以下の説明では、任意の行列Ａのうち第ｉ行第ｊ列の要素を記号Ａ_ijと表記する。例えば、記号Ｇ_nmは、係数行列Ｇの第ｎ行第ｍ列の要素を意味する。

数式(6)の記号‖ ‖_Frはフロベニウスノルム（ユークリッド距離）を意味する。条件(7)は、係数行列Ｇと基底行列Ｈと係数行列Ｕとが非負値行列であるという条件である。数式(6)から理解されるように、第１音源の行列ＦＧと第２音源の行列ＨＵとの和が観測行列Ｙに近似する（近似誤差が減少する）ほど評価関数Ｊは減少する。以上の傾向を考慮して、評価関数Ｊが最小となるように係数行列Ｇと基底行列Ｈと係数行列Ｕとを生成することを検討する。

数式(6)のフロベニウスノルムを行列のトレースに置換して変形すると、以下の数式(8)が導出される。なお、数式(8)の記号Ｔは行列の転置を意味し、記号tr{ }は行列のトレースを意味する。

評価関数Ｊを検討するために以下の数式(9)のラグランジアンＬを導入する。

また、前述の条件(7)を考慮すると、ＫＫＴ（Karuch Kuhn Tucker）の相補条件は以下の数式(10A)から数式(10C)で表現される（ｋ＝１〜Ｋ，ｄ＝１〜Ｄ，ｍ＝１〜Ｍ）。

係数行列Ｇを目的変数としたラグランジアンＬの偏微分を０とおくと以下の数式(11)が導出される。

数式(11)において行列の第ｎ行第ｍ列の成分のみに着目し、係数行列Ｇの第ｎ行第ｍ列の要素Ｇ_nmを数式(11)の両辺に乗算すると、以下の数式(12)が導出される。

前述の数式(10C)を数式(12)に適用することで以下の数式(13)が導出される。

数式(13)を変形することで、係数行列Ｇの要素Ｇ_nmを逐次的に更新する以下の更新式(14)が導出される。

同様に、基底行列Ｈを目的変数とした数式(9)のラグランジアンＬの偏微分を０として数式(10A)を適用することで、基底行列Ｈの要素Ｈ_kdを逐次的に更新する以下の更新式(15)が導出される。

また、係数行列Ｕを目的変数としたラグランジアンＬの偏微分を０として数式(10B)を適用することで、係数行列Ｕの要素Ｕ_dmを逐次的に更新する以下の更新式(16)が導出される。

図２の行列分解部３４Aは、数式(14)から数式(16)の演算を反復し、反復回数が所定の回数に到達した時点での演算結果（Ｇ_nm,Ｈ_kd,Ｕ_dm）を係数行列Ｇ，基底行列Ｈおよび係数行列Ｕとして確定する。数式(14)から数式(16)の演算の反復回数は、評価関数Ｊが所定の閾値を下回る数値に収束するように実験的または統計的に選定される。また、係数行列Ｇ（要素Ｇ_nm），基底行列Ｈ（要素Ｈ_kd）および係数行列Ｕ（要素Ｕ_dm）の初期値は例えば乱数に設定される。

以上の通り、行列分解部３４Aは、観測信号ｘ(t)の観測行列Ｙと学習処理部２０が教師情報Ｐとして生成した基底行列Ｆとに対して数式(5)の関係を満たすように係数行列Ｇと基底行列Ｈと係数行列Ｕとを生成する。そして、行列分解部３４Aは、記憶装置１４に保持された基底行列Ｆと行列分解部３４Aが生成した係数行列Ｇとを乗算することで観測信号ｘ(t)のうち第１音源の音響の振幅スペクトログラム（Ｍ個の単位期間にわたる振幅スペクトルＺ1(k,m)の時系列）を算定する。同様に、行列分解部３４Aは、行列分解部３４Aが生成した基底行列Ｈと係数行列Ｕとを乗算することで観測信号ｘ(t)のうち第２音源の音響の振幅スペクトログラム（Ｍ個の単位期間にわたる振幅スペクトルＺ2(k,m)の時系列）を算定する。

図２の音響生成部３６は、行列分解部３４Aが単位期間毎に生成した振幅スペクトルＺ1(k,m)および振幅スペクトルＺ2(k,m)から時間領域の音響信号ｚ1(t)および音響信号ｚ2(t)を生成する。具体的には、音響生成部３６は、各単位期間の振幅スペクトルＺ1(k,m)と観測信号ｘ(t)のその単位期間での位相スペクトルとを適用した短時間逆フーリエ変換で時間領域の信号を生成し、相前後する単位期間で相互に連結することで音響信号ｚ1(t)を生成する。音響生成部３６は、以上と同様の方法で、行列分解部３４Aが生成した振幅スペクトルＺ2(k,m)から音響信号ｚ2(t)を生成する。すなわち、観測信号ｘ(t)を第１音源とそれ以外の第２音源とで分離した音響信号ｚ1(t)および音響信号ｚ2(t)が生成される。なお、音響信号ｚ1(t)および音響信号ｚ2(t)の一方のみを生成することも可能である。

以上に説明した第１実施形態では、教師信号ｓ(t)が初期音成分（振幅スペクトルＳd(k,m)）と残響成分（振幅スペクトルＳr(k,m)）とに区分され、初期音成分の基底ベクトルｆ(n)と残響成分の基底ベクトルｆ(n)とを個別に含む基底行列Ｆが教師情報Ｐとして生成される。したがって、初期音成分と残響成分とを区別せずに教師情報を生成する構成と比較すると、教師信号ｓ(t)と観測信号ｘ(t)とで残響成分の程度が相違する場合（例えば観測信号ｘ(t)が教師信号ｓ(t)と比較して残響成分を豊富に含む場合）でも第１音源と第２音源とを高精度に分離することが可能である。

また、第１実施形態では、既知の第１音源の基底行列Ｆを教師情報Ｐとして利用した教師あり非負値行列因子分解が実行されるから、観測信号ｘ(t)のうち第１音源の音響は行列ＦＧに反映され、観測信号ｘ(t)のうち第２音源の音響は行列ＨＵに反映される。すなわち、第１音源に対応する行列ＦＧと第２音源に対応する行列ＨＵとが個別に特定される。したがって、非特許文献１や非特許文献２の教師なし非負値行列因子分解と比較して、観測信号ｘ(t)を第１音源と第２音源とで高精度に分離できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

図８は、第２実施形態における演算処理装置１２の機能のブロック図である。図８に示すように、第２実施形態の学習処理部２０は第１実施形態と同様の構成である。ただし、学習処理部２０の教師情報生成部２６が生成した初期音基底行列Ｆdと残響基底行列Ｆrとが教師情報Ｐとして個別に記憶装置１４に記憶される。

図８に示すように、第２実施形態では第１実施形態の分離処理部３０Aが分離処理部３０Bに置換される。分離処理部３０Bは、周波数分析部３２と残響処理部７２と行列分解部３４Bと合成部７４と音響生成部３６とを含んで構成される。周波数分析部３２および音響生成部３６の構成および動作は第１実施形態と同様である。

図８の残響処理部７２は、周波数分析部３２が単位期間毎に生成した観測信号ｘ(t)の振幅スペクトルＸ(k,m)を初期音成分の振幅スペクトルＸd(k,m)と残響成分の振幅スペクトルＸr(k,m)とに分離する。残響処理部７２の構成および動作は、図３および図５を参照して説明した第１実施形態の残響処理部２４と同様である。すなわち、残響処理部７２は、観測信号ｘ(t)に追従する第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)とを算定し（指標値算定部５０A）、第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)との比Ｒ(k,m)に応じた調整値Ｇd(k,m)と調整値Ｇr(k,m)とを算定し（調整値算定部６０）、振幅スペクトルＸ(k,m)に調整値Ｇd(k,m)を作用させることで初期音成分の振幅スペクトルＸd(k,m)を生成するとともに振幅スペクトルＸ(k,m)に調整値Ｇr(k,m)を作用させることで残響成分の振幅スペクトルＸr(k,m)を生成する（調整処理部２４４）。

図８の行列分解部３４Bは、初期音成分の振幅スペクトルＸd(k,m)を処理する第１分解部３４１と残響成分の振幅スペクトルＸr(k,m)を処理する第２分解部３４２とを含んで構成される。第１分解部３４１は、Ｍ個の単位期間にわたる振幅スペクトルＸd(k,m)を時系列に配列した観測行列Ｙd（観測信号ｘ(t)の初期音成分の振幅スペクトログラム）に対し、記憶装置１４に記憶された初期音基底行列Ｆdを教師情報Ｐとして適用した教師あり非負値行列因子分解を実行する。同様に、第２分解部３４２は、Ｍ個の単位期間にわたる振幅スペクトルＸr(k,m)を時系列に配列した観測行列Ｙr（観測信号ｘ(t)の残響成分の振幅スペクトログラム）に対し、記憶装置１４に記憶された残響基底行列Ｆrを教師情報Ｐとして適用した教師あり非負値行列因子分解を実行する。

第１分解部３４１および第２分解部３４２の各々の処理内容は第１実施形態の行列分解部３４Aと同様である。したがって、第１分解部３４１は、観測信号ｘ(t)の初期音成分のうち第１音源の音響を強調した振幅スペクトルＺ1d(k,m)と、観測信号ｘ(t)の初期音成分のうち第２音源の音響を強調した振幅スペクトルＺ2d(k,m)とを単位期間毎に順次に生成する。同様に、第２分解部３４２は、観測信号ｘ(t)の残響成分のうち第１音源の音響を強調した振幅スペクトルＺ1r(k,m)と、観測信号ｘ(t)の残響成分のうち第２音源の音響を強調した振幅スペクトルＺ2r(k,m)とを生成する。

合成部７４は、第１分解部３４１が生成した振幅スペクトルＺ1d(k,m)および振幅スペクトルＺ2d(k,m)と第２分解部３４２が生成した振幅スペクトルＺ1r(k,m)および振幅スペクトルＺ2r(k,m)とを適宜に合成する。具体的には、第２実施形態の合成部７４は、振幅スペクトルＺ1d(k,m)と振幅スペクトルＺ1r(k,m)とを合成（例えば加算）することで振幅スペクトルＺ1(k,m)を生成し、振幅スペクトルＺ2d(k,m)と振幅スペクトルＺ2r(k,m)とを合成（例えば加算）することで振幅スペクトルＺ2(k,m)を生成する。音響生成部３６は、第１実施形態と同様に、振幅スペクトルＺ1(k,m)に応じた音響信号ｚ1(t)と振幅スペクトルＺ2(k,m)に応じた音響信号ｚ2(t)とを生成する。したがって、音響信号ｚ1(t)では観測信号ｘ(t)のうち第１音源の音響が強調され、音響信号ｚ2(t)では観測信号ｘ(t)のうち第２音源の音響が強調される。

第２実施形態においても第１実施形態と同様の効果が実現される。また、第２実施形態では、観測信号ｘ(t)が初期音成分の振幅スペクトルＸd(k,m)と残響成分の振幅スペクトルＸr(k,m)とに分離されたうえで、初期音成分および残響成分の各々について個別に教師あり非負値行列因子分解が実行されるから、第１実施形態と比較して第１音源と第２音源とを高精度に分離することが可能である。

＜第３実施形態＞
前掲の数式(5)では、第１音源の音響に対応する行列ＦＧと第２音源の音響に対応する行列ＨＵとに観測行列Ｙを分解したが、以下の数式(17)で表現されるように、第１音源に対応する要素を第１音源の音響の初期音成分（ＦＧ）と残響成分（ＦＶ）とに分解することも可能である。

数式(17)の行列Ｇは、観測信号ｘ(t)の第１音源の音響（基底行列Ｆ）のうち初期音成分に対応する係数行列であり、行列Ｖは、観測信号ｘ(t)の第１音源の音響のうち残響成分に対応する係数行列（以下「残響係数行列」という）である。すなわち、数式(17)の右辺の第１項の行列（以下「初期音行列」という）ＦＧは、観測信号ｘ(t)の第１音源の音響のうち初期音成分の振幅スペクトログラムに相当し、第３項の行列ＦＶ（以下「残響行列」という）は、観測信号ｘ(t)の第１音源の音響のうち残響成分の振幅スペクトログラムに相当する。初期音行列ＦＧと残響行列ＦＶとの和（Ｆ(Ｇ＋Ｖ)）が第１音源の音響の振幅スペクトログラム（第１実施形態における行列ＦＧ）を意味する。なお、数式(17)の第２項の行列（以下「分離成分行列」という）ＨＵは、第１実施形態と同様に、観測信号ｘ(t)のうち第２音源の音響の振幅スペクトログラムに相当する。

第３実施形態の教師情報生成部２６は、第１実施形態と同様の方法で教師信号ｓ(t)に応じた基底行列Ｆを教師情報Ｐとして生成するほか、数式(17)の残響係数行列Ｖを生成する。具体的には、教師情報生成部２６は、以下の数式(18)で表現されるように、観測信号ｘ(t)の残響成分の振幅スペクトログラムを意味する観測行列Ｙr（振幅スペクトルＸr(k,m)の時系列）を既知の基底行列Ｆの転置行列Ｆ^Tに乗算することで残響係数行列Ｖを算定する。観測行列Ｙrの生成には第２実施形態と同様の構成が採用され得る。

なお、以下の数式(19)で表現されるように、基底行列Ｆを教師情報として利用した教師あり非負値行列因子分解で残響係数行列Ｖを算定することも可能である。すなわち、教師情報生成部２６は、既知の基底行列Ｆと残響係数行列Ｖとの積ＦＶと、任意の基底行列Ａおよび係数行列Ｂの積ＡＢとの和が観測信号ｘ(t)の残響成分の観測行列Ｙrに近似するように残響係数行列Ｖを算定する。

以上の方法で算定された残響係数行列Ｖは基底行列Ｆとともに記憶装置１４に格納され、分離処理部３０Aによる観測信号ｘ(t)の教師あり非負値行列因子分解に適用される。第３実施形態の行列分解部３４Aは、既知の基底行列Ｆおよび残響係数行列Ｖとの関係で前掲の数式(17)が成立するように、観測信号ｘ(t)の第１音源の初期音成分に対応する係数行列Ｇと、観測信号ｘ(t)の第２音源に対応する基底行列Ｈおよび係数行列Ｕとを算定する。すなわち、行列分解部３４Aは、観測信号ｘ(t)の第１音源の音響のうち初期音成分に対応する初期音行列ＦＧと、観測信号ｘ(t)の第２音源の音響に対応する分離成分行列ＨＵと、観測信号ｘ(t)の第１音源の音響のうち残響成分に対応する残響行列ＦＶとの和が、観測信号ｘ(t)の振幅スペクトログラムに相当する観測行列Ｙに近似するように、係数行列Ｇと基底行列Ｈと係数行列Ｕとを算定する。

具体的には、行列分解部３４Aは、前掲の数式(14)から数式(16)と同様の手順で導出された以下の数式(20)から数式(22)の演算を反復することで、係数行列Ｇ（要素Ｇ_nm）と基底行列Ｈ（要素Ｈ_kd）と係数行列Ｕ（要素Ｕ_dm）とを算定する。

行列分解部３４Aは、教師あり非負値行列因子分解の結果に応じて振幅スペクトルＺ1(k,m)および振幅スペクトルＺ2(k,m)を生成する。例えば、初期音行列ＦＧの各列を振幅スペクトルＺ1(k,m)として算定する構成や、初期音行列ＦＧと残響行列ＦＶとの和の各列を振幅スペクトルＺ1(k,m)として算定する構成や、残響行列ＦＶの各列を振幅スペクトルＺ1(k,m)（すなわち、観測信号ｘ(t)のうち第１音源の音響の残響成分）として算定する構成が採用され得る。

第３実施形態においても第１実施形態と同様の効果が実現される。また、第３実施形態では、基底行列Ｆに加えて残響係数行列Ｖを利用した教師あり非負値行列因子分解が実行されるから、第１実施形態と比較して第１音源と第２音源とを高精度に分離することが可能である。

＜第４実施形態＞
図９は、第４実施形態における解析処理部２４２のブロック図である。第４実施形態の解析処理部２４２は、図５に例示した第１実施形態の指標値算定部５０Aを指標値算定部５０Bに置換した構成である。指標値算定部５０Bは、第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)を単位期間毎に順次に算定する要素であり、第１平滑部５１と第２平滑部５２と遅延部５４とを含んで構成される。なお、調整値算定部６０の構成および動作は第１実施形態と同様である。

第１平滑部５１は、第１実施形態と同様に、教師信号ｓ(t)のパワーＳ(k,m)²の時系列を平滑化することで第１指標値Ｑ1(k,m)を単位期間毎に順次に算定する。遅延部５４は、教師信号ｓ(t)の振幅スペクトルＳ(k,m)を単位期間のｄ個分（ｄは自然数）に相当する時間だけ遅延させる記憶回路である。第２平滑部５２は、遅延部５４による遅延後の振幅スペクトルＳ(k,m)のパワーＳ(k,m)²の時系列を平滑化することで第２指標値Ｑ2(k,m)を単位期間毎に順次に算定する。したがって、第２指標値Ｑ2(k,m)の時間変化は、第１指標値Ｑ1(k,m)の時間変化を単位期間のｄ個分だけ遅延させた関係にある（Ｑ2(k,m)＝Ｑ1(k,m-d)）。第４実施形態では、第２平滑部５２による平滑化の時定数τ2は第１平滑部５１による平滑化の時定数τ1と同等とするが（τ2＝τ1）、時定数τ1と時定数τ2とを相違させることも可能である。また、第１平滑部５１が算定した第１指標値Ｑ1(k,m)を遅延させることで第２指標値Ｑ2(k,m)を算定する構成（第２平滑部５２を省略した構成）も採用され得る。

図１０の部分(B)は、図６の部分(A)と同様の室内インパルス応答（図１０の部分(A)）を教師信号ｓ(t)として第４実施形態の音響処理装置１００に供給した場合の第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)の時間変化のグラフである。

図１０の部分(B)から理解されるように、第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)とで時間変化の態様（波形）は共通するが、第２指標値Ｑ2(k,m)の時間変化は第１指標値Ｑ1(k,m)の時間変化に対して単位期間のｄ個分だけ遅延する。すなわち、第２指標値Ｑ2(k,m)は、第１指標値Ｑ1(k,m)と比較して低い追従性で教師信号ｓ(t)のパワーＳ(k,m)²に追従する。したがって、第１実施形態と同様に、第１指標値Ｑ1(k,m)と第２指標値Ｑ2(k,m)との大小は時間軸上の特定の時点ｔxで反転する。すなわち、時点ｔxまでの区間ＳAでは第１指標値Ｑ1(k,m)が第２指標値Ｑ2(k,m)を上回り、時点ｔx以降の区間ＳBでは第２指標値Ｑ2(k,m)が第１指標値Ｑ1(k,m)を上回る。

比算定部６２による比Ｒ(k,m)の算定（数式(3)）や第１処理部６４による調整値Ｇd(k,m)の算定や第２処理部６６による調整値Ｇr(k,m)の算定は第１実施形態と同様である。したがって、図１０の部分(C)に示すように、調整値Ｇd(k,m)は、初期音成分が存在する区間ＳAにて所定値Ｇmaxに設定され、残響成分が存在する区間ＳBでは所定値Ｇminまで経時的に減少する。したがって、第４実施形態においても第１実施形態と同様の効果が実現される。なお、第２実施形態や第３実施形態に第４実施形態を適用することも可能である。また、第２実施形態における分離処理部３０Bの残響処理部７２に図９の構成を採用することも可能である。

＜変形例＞
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の各形態では、教師信号ｓ(t)に対する教師あり非負値行列因子分解で初期音基底行列Ｆdと残響基底行列Ｆrとを生成したが、初期音基底行列Ｆdや残響基底行列Ｆrの生成方法は適宜に変更される。例えば、初期音成分の振幅スペクトルＳd(k,m)の平均を初期音基底行列Ｆdの基底ベクトルｆ(n)として利用する方法や、残響成分の振幅スペクトルＳr(k,m)の平均を残響基底行列Ｆrの基底ベクトルｆ(n)として利用する方法も採用され得る。

（２）前述の各形態では、フロベニウスノルムを適用した非負値行列因子分解を例示したが、非負値行列因子分解に適用される距離規準はフロベニウスノルムに限定されない。具体的には、Kullback-Leibler擬距離やダイバージェンス等の公知の距離規準が任意に採用される。また、スパースネスの拘束条件を適用した非負値行列因子分解も採用される。

（３）前述の各形態では、初期音基底行列Ｆdと残響基底行列Ｆrとの双方を含む基底行列Ｆを生成したが、初期音基底行列Ｆdのみを基底行列Ｆとして利用する（残響基底行列Ｆrを基底行列Ｆに含めない）ことも可能である。初期音基底行列Ｆdのみを基底行列Ｆとして利用した場合、第１音源の初期音成分と残響成分とを含む観測信号ｘ(t)から、第１音源の初期音成分を強調した音響信号ｚ1(t)と残響成分を強調した音響信号ｚ2(t)とが生成される。すなわち、観測信号ｘ(t)が初期音成分と残響成分とに分離される。したがって、例えば、観測信号ｘ(t)の初期音成分と残響成分との各々について別個の音響処理（例えば効果付与）を実行したうえで相互に混合することで新規な音響効果を実現することが可能である。以上の説明から理解されるように、本発明の適用範囲は、観測信号ｘ(t)を音源毎に分離する場合には限定されず、観測信号ｘ(t)を初期音成分と残響成分とに分離する場合も包含する。

（４）前述の各形態では、教師信号ｓ(t)のパワーＳ(k,m)²の単純移動平均を第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)として算定したが、第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)の算定方法は以上の例示に限定されない。例えば、以下の数式(23A)および数式(23B)で表現されるように、教師信号ｓ(t)のパワーＳ(k,m)²の指数平均（指数移動平均）を第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)として算定することも可能である。

すなわち、第１平滑部５１および第２平滑部５２は、ＩＩＲ（infinite impulse response）型のローパスフィルタに相当する。数式(23A)の記号α1および数式(23B)の記号α2は平滑化係数（忘却係数）である。具体的には、平滑化係数α1は、過去の第１指標値Ｑ1(k,m-1)に対する現在のパワーＳ(k,m)²の重みを意味し、平滑化係数α2は、過去の第２指標値Ｑ2(k,m-1)に対する現在のパワーＳ(k,m)²の重みを意味する。平滑化係数α2は、平滑化係数α1を下回る数値に設定される（α2＜α1）。したがって、第１実施形態と同様に、第２平滑部５２による平滑化の時定数τ2は第１平滑部５１による平滑化の時定数τ1を上回る（τ2＞τ1）。すなわち、第２指標値Ｑ2(k,m)は、第１指標値Ｑ1(k,m)と比較して低い追従性で教師信号ｓ(t)のパワーＳ(k,m)²に追従する。

また、以下の数式(24A)および数式(24B)で表現されるように、教師信号ｓ(t)のパワーＳ(k,m)²の加重移動平均を第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)として算定することも可能である。数式(24A)の記号ｗ1(i)および数式(24B)の記号ｗ2(i)は、第ｍ番目の単位期間からみて前方の第ｉ番目に位置する単位期間に対する加重値を意味する。第２期間が第１期間よりも長いという条件（Ｎ2＞Ｎ1）は前掲の例示と同様である。

また、前述の各形態では、教師信号ｓ(t)のパワーＳ(k,m)²の時系列を平滑化することで第１指標値Ｑ1(k,m)および第２指標値Ｑ2(k,m)を算定したが、第１平滑部５１や第２平滑部５２による平滑化の対象はパワーＳ(k,m)²に限定されない。例えば、教師信号ｓ(t)の振幅Ｓ(k,m)や振幅の４乗Ｓ(k,m)⁴を平滑化することで第１指標値Ｑ1(k,m)や第２指標値Ｑ2(k,m)を算定する構成も採用され得る。すなわち、前述の各形態における第１平滑部５１や第２平滑部５２は、教師信号ｓ(t)の信号強度の時系列を平滑化する要素として包括され、信号強度は、教師信号ｓ(t)のパワーＳ(k,m)²のほかに振幅Ｓ(k,m)や振幅の４乗Ｓ(k,m)⁴を包含する。

なお、以上の説明では残響処理部２４による教師信号ｓ(t)の処理を例示したが、観測信号ｘ(t)を初期音成分と残響成分とに分離する第２実施形態の残響処理部７２にも同様の変形が適用される。ただし、残響処理部２４が教師信号ｓ(t)を初期音成分と残響成分とに分離する処理や残響処理部７２が観測信号ｘ(t)を初期音成分と残響成分とに分離する処理は、前述の各形態で例示した方法に限定されず、公知の技術（残響抽出技術／残響抑圧技術）を任意に採用することが可能である。

１００……音響処理装置、２００……信号供給装置、１２……演算処理装置、１４……記憶装置、２０……学習処理部、２２……周波数分析部、２４……残響処理部、２４２……解析処理部、２４４……調整処理部、２６……教師情報生成部、３０A，３０B……分離処理部、３２……周波数分析部、３４A，３４B……行列分解部、３４１……第１分解部、３４２……第２分解部、３６……音響生成部、５０A，５０B……指標値算定部、５１……第１平滑部、５２……第２平滑部、５４……遅延部、６０……調整値算定部、６２……比算定部、６４……第１処理部、６６……第２処理部、７２……残響処理部、７４……合成部。

Claims

第１音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成する第１残響処理手段と、
前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第１基底行列を、前記第１音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と
を具備する音響処理装置。
前記教師情報生成手段が生成した前記教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段を具備し、
前記教師情報生成手段は、前記第１基底行列の各基底ベクトルに対する加重値の時間変化を示す残響係数行列を生成し、
前記行列分解手段は、
前記教師情報生成手段が生成した前記第１基底行列と、前記第１基底行列の基底ベクトルに対する加重値の時間変化を示す第１係数行列とを乗算した初期音行列と、
前記観測信号のうち前記第１音源以外の音源の音響成分のスペクトルに対応した基底ベクトルを含む第２基底行列と、前記第２基底行列の基底ベクトルに対する加重値の時間変化を示す第２係数行列とを乗算した分離成分行列と、
前記教師情報生成手段が生成した前記第１基底行列と前記残響係数行列とを乗算した残響行列と
の和が前記観測信号の前記観測行列に近似するように、前記第１係数行列と前記第２基底行列と前記第２係数行列とを算定する
請求項１の音響処理装置。
第１音源の音響を示す教師信号から残響成分を抑圧した初期音成分と前記残響成分とを生成する第１残響処理手段と、
前記教師信号の初期音成分のスペクトルに対応した基底ベクトルと前記教師信号の残響成分のスペクトルに対応した基底ベクトルとを含む第１基底行列を、前記第１音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と
を具備する音響処理装置。
第１音源の音響を示す教師信号から残響成分を抑圧した初期音成分と前記残響成分とを生成する第１残響処理手段と、
前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む初期音基底行列と、前記教師信号の残響成分のスペクトルに対応した基底ベクトルを含む残響基底行列とを、前記第１音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と、
前記観測信号から初期音成分と残響成分とを生成する第２残響処理手段と、
前記教師情報生成手段が生成した前記教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段とを具備し、
前記行列分解手段は、
前記観測信号の初期音成分のスペクトルの時系列を示す第１観測行列に対して前記初期音基底行列を適用した教師あり非負値行列因子分解を実行する第１分解手段と、
前記観測信号の残響成分のスペクトルの時系列を示す第２観測行列に対して前記残響基底行列を適用した教師あり非負値行列因子分解を実行する第２分解手段とを含む
音響処理装置。
前記第１残響処理手段は、
前記教師信号の時間変化に追従する第１指標値と、前記第１指標値と比較して低い追従性で前記教師信号の時間変化に追従する第２指標値とを算定する指標値算定手段と、
前記教師信号の残響成分を抑圧するための第１調整値と前記教師信号の残響成分を強調するための第２調整値とを前記第１指標値と前記第２指標値との相違に応じて算定する調整値算定手段と、
前記第１調整値を前記教師信号に作用させることで初期音成分を生成し、前記第２調整値を前記教師信号に作用させることで残響成分を生成する調整処理手段とを含む
請求項３または請求項４の音響処理装置。
コンピュータシステムが、
第１音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成し、
前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第１基底行列を、前記第１音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する
音響処理方法。