<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。音響処理装置100は、教師信号s(t)から教師情報(事前情報)Pを生成する学習処理と、教師情報Pを利用した教師あり非負値行列因子分解(SVNMF:Supervised Non-negative Matrix Factorization)で観測信号x(t)を分離する分離処理とを実行する信号処理装置である。
音響処理装置100には信号供給装置200が接続される。信号供給装置200は、教師信号s(t)および観測信号x(t)を音響処理装置100に供給する。教師信号s(t)は学習処理の実行時に音響処理装置100に供給され、観測信号x(t)は分離処理の実行時に音響処理装置100に供給される。周囲の音響を収音して教師信号s(t)または観測信号x(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から教師信号s(t)または観測信号x(t)を取得して音響処理装置100に供給する再生装置や、教師信号s(t)または観測信号x(t)を通信網から受信して音響処理装置100に供給する通信装置が信号供給装置200として採用され得る。
観測信号x(t)は、相異なる複数種の音源が発生した音響(楽音や音声)の混合音の波形を示す時間領域の音響信号である。観測信号x(t)を構成する音響を発生する複数種の音源のうち特定の既知の音源を以下では「第1音源」と表記し、第1音源以外の音源を以下では第2音源と表記する。観測信号x(t)が2種類の音源の音響で構成される場合、第2音源は第1音源以外の1種類の音源を意味し、観測信号x(t)が3種類以上の音源の音響で構成される場合、第2音源は第1音源以外の2種類以上の音源(音源群)を意味する。他方、教師信号s(t)は、第1音源が単独で発生した音響(学習音)の波形を示す時間領域の音響信号である。
観測信号x(t)および教師信号s(t)の各々が示す音響は、初期音成分(ドライ成分)と残響成分(ウェット成分)とを包含する。残響成分は、音源の発音動作の停止後も経時的に減衰しながら継続する響き成分である。具体的には、音響空間の壁面での反射および散乱後に受音点に到来する音響(初期反射音,後部残響音)や、鍵盤楽器や弦楽器等の自然楽器の響板による共鳴音(胴鳴り,箱鳴り)等が残響成分に該当する。初期音成分は、残響成分以外の音響成分である。具体的には、音源の発音動作に直接的に起因する音響(反射や共鳴を殆ど経ていない音響)が初期音成分に該当する。例えば音響(単音)の時間波形を時間軸上でアタック(立上がり)とディケイ(減衰)とサステイン(保持)とリリース(余韻)とに区分した場合、アタックとディケイとが初期音成分に相当し、サステインとリリースとが残響成分に相当する。以下の説明では、初期音成分に関連する要素に添字d(dry)を付加し、残響成分に関連する要素に添字r(reverberation)を付加する場合がある。
第1実施形態の音響処理装置100は、観測信号x(t)に対する分離処理で音響信号z1(t)および音響信号z2(t)を生成する。音響信号z1(t)は、観測信号x(t)のうち第1音源の音響を強調(理想的には抽出)した時間領域信号であり、音響信号z2(t)は、第2音源の音響を強調(抽出)した時間領域信号である。すなわち、第1実施形態の音響処理装置100は、観測信号x(t)を第1音源と第2音源とで分離する音源分離装置として機能する。音響信号z1(t)および音響信号z2(t)の一方が選択的にスピーカ等の放音装置(図示略)に供給されて音波として再生される。
図1に示すように、音響処理装置100は、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種の情報(教師情報P)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。教師信号s(t)や観測信号x(t)を記憶装置14に記憶する(したがって信号供給装置200は省略される)ことも可能である。
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで学習処理部20および分離処理部30Aとして機能する。学習処理部20は、教師信号s(t)に対する学習処理で教師情報Pを生成し、分離処理部30Aは、学習処理部20が生成した教師情報Pを利用した分離処理を観測信号x(t)に対して実行することで音響信号z1(t)および音響信号z2(t)を生成する。
図2は、学習処理部20および分離処理部30Aのブロック図である。図2に示すように、学習処理部20は、周波数分析部22と残響処理部24と教師情報生成部26とを含んで構成される。周波数分析部22は、教師信号s(t)の振幅スペクトルS(k,m)を時間軸上の単位期間毎に順次に生成する。記号kは、周波数軸上の任意の1個の周波数(帯域)を意味し、記号mは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を意味する。振幅スペクトルS(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタを配列したフィルタバンクを周波数分析部22として利用することも可能である。
残響処理部24は、各単位期間の振幅スペクトルS(k,m)を初期音成分の振幅スペクトルSd(k,m)と残響成分の振幅スペクトルSr(k,m)とに分離する。図3に示すように、第1実施形態の残響処理部24は、解析処理部242と調整処理部244とを含んで構成される。
解析処理部242は、教師信号s(t)の振幅スペクトルS(k,m)に応じた調整値Gd(k,m)および調整値Gr(k,m)を各周波数について単位期間毎に算定する。調整値Gd(k,m)は、教師信号s(t)内の初期音成分の比率に応じた変数である。概略的には、振幅スペクトルS(k,m)にて初期音成分の強度が高い周波数(初期音成分が優勢である周波数)の調整値Gd(k,m)ほど大きい数値に設定されるという傾向がある。他方、調整値Gr(k,m)は、教師信号s(t)内の残響成分の比率に応じた変数である。概略的には、振幅スペクトルS(k,m)にて残響成分の強度が高い周波数の調整値Gr(k,m)ほど大きい数値に設定されるという傾向がある。なお、調整値Gr(k,m)および調整値Gr(k,m)の算定方法については後述する。
図3の調整処理部244は、解析処理部242が算定する調整値Gd(k,m)および調整値Gr(k,m)を教師信号s(t)の振幅スペクトルS(k,m)に作用させる。具体的には、調整処理部244は、振幅スペクトルS(k,m)に調整値Gd(k,m)を乗算することで振幅スペクトルSd(k,m)を算定し(Sd(k,m)=Gd(k,m)S(k,m))、振幅スペクトルS(k,m)に調整値Gr(k,m)を乗算することで振幅スペクトルSr(k,m)を算定する(Sr(k,m)=Gr(k,m)S(k,m))。すなわち、調整値Gd(k,m)および調整値Gr(k,m)は、振幅スペクトルS(k,m)に対するゲイン(スペクトルゲイン)に相当する。
初期音成分が優勢な周波数の調整値Gd(k,m)ほど大きい数値に設定され、残響成分が優勢な周波数の調整値Gr(k,m)ほど大きい数値に設定されるから、振幅スペクトルSd(k,m)は教師信号s(t)の初期音成分の振幅スペクトルに相当し、振幅スペクトルSr(k,m)は教師信号s(t)の残響成分の振幅スペクトルに相当する。すなわち、調整値Gd(k,m)は教師信号s(t)のうち初期音成分の強調用(残響成分の抑圧用)の変数であり、調整値Gr(k,m)は教師信号s(t)のうち残響成分の強調用(初期音成分の抑圧用)の変数である。
図2の教師情報生成部26は、残響処理部24が生成した初期音成分の振幅スペクトルSd(k,m)と残響成分の振幅スペクトルSr(k,m)とに応じた基底行列Fを教師情報Pとして生成する。図4に示すように、基底行列Fは、N個の基底ベクトルf(1)〜f(N)を横方向に配列したK行N列の非負値行列である。基底行列Fは、初期音基底行列Fdと残響基底行列Frとを含んで構成される。初期音基底行列FdはN1個の基底ベクトルf(n)(n=1〜N)の集合であり、残響基底行列FrはN2個の基底ベクトルf(n)の集合である(N=N1+N2)。初期音基底行列FdのN1個の基底ベクトルf(n)は、教師信号s(t)の初期音成分を構成するN1個の音響成分(基底)の振幅スペクトルに相当し、残響基底行列FrのN2個の基底ベクトルf(n)は、教師信号s(t)の残響成分を構成するN2個の音響成分の振幅スペクトルに相当する。なお、個数N1と個数N2との異同は不問である。
図4に示すように、第1実施形態の教師情報生成部26は、教師信号s(t)の初期音成分の振幅スペクトログラムを表現する学習用行列Sdから初期音基底行列Fdを生成し、教師信号s(t)の残響成分の振幅スペクトログラムを表現する学習用行列Srから残響基底行列Frを生成する。学習用行列Sdは、M個の単位期間にわたる初期音成分の振幅スペクトルSd(k,m)を配列したK行M列の非負値行列であり、学習用行列Srは、M個の単位期間にわたる残響成分の振幅スペクトルSr(k,m)を配列したK行M列の非負値行列である。初期音基底行列Fdおよび残響基底行列Frの生成には、以下に例示する教師なし非負値行列因子分解が好適である。
初期音成分の学習用行列Sdは、以下の数式(1A)で表現されるように、初期音基底行列Fdと係数行列(アクティベーション行列)Qdとに近似的に分解される。初期音基底行列Fdは、図4に示すように、初期音成分の各音響成分の振幅スペクトルに相当するN1個の基底ベクトルf(1)〜f(N1)を配列したK行N1列の非負値行列である。係数行列Qdは、初期音基底行列Fdの各基底ベクトルf(1)〜f(N1)に対応するN1個の係数ベクトルq(1)〜q(N1)を配列したN1行M列の非負値行列である。係数行列Qdの第n行目の係数ベクトルq(n)は、初期音基底行列Fdの第n列目の基底ベクトルf(n)に対する加重値(活性度)の時系列に相当する。教師情報生成部26は、初期音基底行列Fdと係数行列Qdとの積FdQdが学習用行列Sdに近似する(すなわち行列FdQdと学習用行列Sdとの誤差が最小化する)ように初期音基底行列Fdおよび係数行列Qdを逐次的に更新することで初期音基底行列Fdを算定する。
他方、残響成分の学習用行列Srは、以下の数式(1B)で表現されるように、残響基底行列Frと係数行列Qrとに近似的に分解される。残響基底行列Frは、残響成分の振幅スペクトルに相当するN2個の基底ベクトルf(1)〜f(N2)を配列したK行N2列の非負値行列である。係数行列Qrは、残響基底行列Frの各基底ベクトルf(n)に対する加重値の時系列を意味するN2個の係数ベクトルq(1)〜q(N2)で構成される。教師情報生成部26は、残響基底行列Frと係数行列Qrとの積FrQrが学習用行列Srに近似するように残響基底行列Frおよび係数行列Qrを逐次的に更新することで残響基底行列Frを算定する。教師情報生成部26は、初期音基底行列Fdと残響基底行列Frとを含む基底行列Fを教師情報Pとして生成して記憶装置14に格納する。以上が学習処理部20の具体的な構成および動作である。
図5を参照して図3の解析処理部242の具体的な構成を説明する。図5に示すように、第1実施形態の解析処理部242は、指標値算定部50Aと調整値算定部60とを具備する。指標値算定部50Aは、教師信号s(t)に応じた第1指標値Q1(k,m)と第2指標値Q2(k,m)とを順次に算定する。具体的には、指標値算定部50Aは、第1平滑部51と第2平滑部52とを含んで構成される。第1平滑部51は、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで各周波数の第1指標値Q1(k,m)を単位期間毎に順次に算定する。同様に、第2平滑部52は、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで各周波数の第2指標値Q2(k,m)を単位期間毎に順次に算定する。
第1指標値Q1(k,m)は、以下の数式(2A)で定義されるように、相前後するM1個(M1は2以上の自然数)の単位期間で構成される第1期間内のパワーS(k,m)
2の移動平均(単純移動平均)である。第1期間は、例えば第m番目の単位期間を最後尾とするM1個の単位期間の集合である。他方、第2指標値Q2(k,m)は、以下の数式(2B)で定義されるように、相前後するM2個(M2は2以上の自然数)の単位期間で構成される第2期間内のパワーS(k,m)
2の移動平均である。第2期間は、例えば第m番目の単位期間を最後尾とするM2個の単位期間の集合である。以上の説明から理解されるように、第1平滑部51および第2平滑部52はFIR(finite impulse response)型のローパスフィルタに相当する。
第2指標値Q2(k,m)の算定に加味される単位期間の個数M2は、第1指標値Q1(k,m)の算定に加味される単位期間の個数M1を上回る(M2>M1)。すなわち、第2期間は第1期間よりも長い。例えば、第1期間は100ミリ秒から300ミリ秒程度の時間に設定され、第2期間は300ミリ秒から600ミリ秒程度の時間に設定される。したがって、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回る(τ2>τ1)。第1平滑部51および第2平滑部52をローパスフィルタで実現する場合を想定すると、第2平滑部52の遮断周波数が第1平滑部51の遮断周波数を下回ると換言することも可能である。
図6の部分(B)は、教師信号s(t)の任意の周波数について算定される第1指標値Q1(k,m)および第2指標値Q2(k,m)の時間変化のグラフである。図6の部分(A)のようにパワーS(k,m)2(パワー密度)が指数減衰する室内インパルス応答(RIR)を教師信号s(t)として音響処理装置100に供給した場合の第1指標値Q1(k,m)および第2指標値Q2(k,m)が図6の部分(B)には図示されている。
図6の部分(B)から理解されるように、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、教師信号s(t)のパワーS(k,m)2に追従して経時的に変化する。ただし、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回るから、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性(変化率)で教師信号s(t)のパワーS(k,m)2の時間変化に追従する。具体的には、図6の部分(B)に示すように、室内インパルス応答の開始の時点t0の直後の区間では、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る変化率で増加する。そして、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、時間軸上の相異なる時点でピークに到達し、第1指標値Q1(k,m)は第2指標値Q2(k,m)を上回る変化率で減少する。
以上のように第1指標値Q1(k,m)と第2指標値Q2(k,m)とは相異なる変化率で変化するから、第1指標値Q1(k,m)と第2指標値Q2(k,m)との大小は時間軸上の特定の時点txで反転する。すなわち、時点t0から時点txまでの区間SAでは第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回り、時点tx以降の区間SBでは第2指標値Q2(k,m)が第1指標値Q1(k,m)を上回る。区間SAは、室内インパルス応答の初期音成分(直接音)が存在する区間に相当し、区間SBは、室内インパルス応答の残響成分(後部残響音)が存在する区間に相当する。
図5の調整値算定部60は、指標値算定部50Aが算定した第1指標値Q1(k,m)と第2指標値Q2(k,m)とに応じた調整値Gd(k,m)および調整値Gr(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の調整値算定部60は、比算定部62と第1処理部64と第2処理部66とを含んで構成される。
比算定部62は、第1指標値Q1(k,m)と第2指標値Q2(k,m)との比R(k,m)を算定する。具体的には、比算定部62は、以下の数式(3)で表現される通り、第2指標値Q2(k,m)に対する第1指標値Q1(k,m)の比R(k,m)を単位期間毎に算定する。
図5の第1処理部64は、比算定部62が算定した比R(k,m)に応じて初期音成分の強調用の調整値Gd(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の第1処理部64は、比算定部62が算定した比R(k,m)と所定値Gmaxおよび所定値Gminとを比較した結果に応じた調整値Gd(k,m)を単位期間毎に算定する。所定値Gmaxおよび所定値Gminは、例えば利用者からの指示に応じて事前に設定されて比R(k,m)と比較される閾値である。第1実施形態では、所定値Gmaxを1に設定した場合を例示する。所定値Gminは、所定値Gmaxを下回る数値(0以上かつ1未満の範囲内の数値)に設定される。
具体的には、第1処理部64は、以下の数式(4)の演算を実行する。第1に、比R(k,m)が所定値Gmax(Gmax=1)を上回る場合(R(k,m)≧Gmax)、第1処理部64は、所定値Gmaxを調整値Gd(k,m)として設定する。第2に、比R(k,m)が所定値Gminを下回る場合(R(k,m)≦Gmin)、第1処理部64は、所定値Gminを調整値Gd(k,m)として設定する。第3に、比R(k,m)が所定値Gmaxと所定値Gminとの間の数値である場合(Gmin<R(k,m)<Gmax)、第1処理部64は、比R(k,m)を調整値Gd(k,m)として設定する。
第1指標値Q1(k,m)および第2指標値Q2(k,m)が図6の部分(B)のように変化する場合の調整値Gd(k,m)の変化が図6の部分(C)に図示されている。図6の部分(C)から理解されるように、概略的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る場合(区間SA)の調整値Gd(k,m)は、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る場合(区間SB)の調整値Gd(k,m)よりも大きい数値となる。具体的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る区間SA内では比R(k,m)が所定値Gmax(Gmax=1)を上回るから、調整値Gd(k,m)は所定値Gmaxに維持される。また、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る区間SBのうち比R(k,m)が所定値Gminを上回る区間SB1では、調整値Gd(k,m)は比R(k,m)に設定されて経時的に減少する。そして、区間SBのうち比R(k,m)が所定値Gminを下回る区間SB2では、調整値Gd(k,m)は所定値Gminに維持される。
すなわち、第1処理部64が算定する調整値Gd(k,m)は、初期音成分が存在する区間SAでは所定値(最大値)Gmaxに設定され、残響成分が存在する区間SBでは所定値(最小値)Gminまで経時的に減少する。したがって、図3の調整処理部244が教師信号s(t)の振幅スペクトルS(k,m)に調整値Gd(k,m)を乗算することで、教師信号s(t)の初期音成分を強調した振幅スペクトルSd(k,m)が生成される。
図5の第2処理部66は、第1処理部64が算定した調整値Gd(k,m)に応じた残響成分の強調用の調整値Gr(k,m)を各周波数について単位期間毎に順次に算定する。調整値Gd(k,m)が増加するほど調整値Gr(k,m)が減少するように調整値Gr(k,m)は算定される。具体的には、第2処理部66は、前掲の数式(4)で算定された調整値Gd(k,m)を所定値(以下の例示では1)から減算することで調整値Gr(k,m)を算定する(Gr(k,m)=1−Gd(k,m))。したがって、調整値Gr(k,m)は、初期音成分が存在する区間SAではゼロに維持され、残響成分が存在する区間SBでは所定値(1−Gmin)まで経時的に増加する。すなわち、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る場合(区間SA)の調整値Gr(k,m)は、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る場合(区間SB)の調整値Gr(k,m)よりも小さい数値となる。したがって、調整処理部244が教師信号s(t)の振幅スペクトルS(k,m)に調整値Gr(k,m)を乗算することで、教師信号s(t)の残響成分を強調した振幅スペクトルSr(k,m)が生成される。以上が残響処理部24の具体的な構成および動作である。
図2の分離処理部30Aの構成および動作を以下に説明する。図2に示すように、分離処理部30Aは、周波数分析部32と行列分解部34Aと音響生成部36とを含んで構成される。周波数分析部32は、学習処理部20の周波数分析部22と同様に、信号供給装置200から供給される観測信号x(t)の振幅スペクトルX(k,m)を時間軸上の単位期間毎に順次に生成する。図7に示すように、M個の単位期間にわたる観測信号x(t)の振幅スペクトルX(k,m)(X(k,1)〜X(k,M))の時系列が単位期間のM個毎に観測行列Yとして順次に生成される。すなわち、観測行列Yは、観測信号x(t)の振幅スペクトログラムを表現するK行M列の非負値行列である。
図2の行列分解部34Aは、学習処理部20(教師情報生成部26)が教師情報Pとして生成した基底行列Fを適用した教師あり非負値行列因子分解を観測行列Yに対して実行する。第1実施形態の行列分解部34Aは、以下の数式(5)で表現されるように、周波数分析部32が生成した観測行列Yを基底行列Fと係数行列Gと基底行列Hと係数行列Uとに分解する。
前述のように、基底行列Fには第1音源の音響(教師信号s(t))の特性が反映されるから、基底行列Fおよび係数行列Gは観測信号x(t)のうち第1音源の音響成分に対応する。他方、基底行列Hおよび係数行列Uは、観測信号x(t)のうち第1音源以外の音源(すなわち第2音源)の音響成分に対応する。
記憶装置14に記憶された既知の基底行列Fは、図7に示すように、第1音源の音響の各成分の振幅スペクトルに相当するN個の基底ベクトルf(1)〜f(N)を配列したK行N列の非負値行列である。また、数式(5)の係数行列Gは、基底行列Fの各基底ベクトルf(1)〜f(N)に対応するK個の係数ベクトルg(1)〜g(N)を配列したK行N列の非負値行列である。係数行列Gの第n行の係数ベクトルg(n)は、基底行列Fのうち第n列の基底ベクトルf(n)に対する加重値の時系列を意味する。以上の説明から理解されるように、数式(5)の右辺の第1項の行列FGは、観測信号x(t)のうち第1音源の音響の振幅スペクトログラムを表現するK行M列の非負値行列である。
数式(5)の基底行列Hは、図7に示すように、観測信号x(t)のうち第1音源以外の第2音源の音響の各成分の振幅スペクトルに相当するD個の基底ベクトルh(1)〜h(D)を配列したK行D列の非負値行列である。また、係数行列Uは、基底行列Hの各基底ベクトルh(d)に対する加重値の時系列に相当するD個の係数ベクトルu(1)〜u(D)を配列したD行M列の非負値行列である。以上の説明から理解されるように、数式(5)の右辺の第2項の行列HUは、観測信号x(t)のうち第2音源の音響の振幅スペクトログラムを表現するK行M列の非負値行列である。なお、基底行列Fの列数Nと基底行列Hの列数Dとの異同は不問である。
図2の行列分解部34Aは、第1音源の行列FGと第2音源の行列HUとを加算した行列(FG+HU)が観測行列Yに近似する(すなわち両者間の誤差が最小化する)ように第1音源の係数行列Gと第2音源の基底行列Hおよび係数行列Uとを生成する。第1実施形態では、数式(5)の条件を評価するために以下の数式(6)の評価関数Jを導入する。なお、以下の説明では、任意の行列Aのうち第i行第j列の要素を記号A
ijと表記する。例えば、記号G
nmは、係数行列Gの第n行第m列の要素を意味する。
数式(6)の記号‖ ‖Frはフロベニウスノルム(ユークリッド距離)を意味する。条件(7)は、係数行列Gと基底行列Hと係数行列Uとが非負値行列であるという条件である。数式(6)から理解されるように、第1音源の行列FGと第2音源の行列HUとの和が観測行列Yに近似する(近似誤差が減少する)ほど評価関数Jは減少する。以上の傾向を考慮して、評価関数Jが最小となるように係数行列Gと基底行列Hと係数行列Uとを生成することを検討する。
数式(6)のフロベニウスノルムを行列のトレースに置換して変形すると、以下の数式(8)が導出される。なお、数式(8)の記号Tは行列の転置を意味し、記号tr{ }は行列のトレースを意味する。
評価関数Jを検討するために以下の数式(9)のラグランジアンLを導入する。
また、前述の条件(7)を考慮すると、KKT(Karuch Kuhn Tucker)の相補条件は以下の数式(10A)から数式(10C)で表現される(k=1〜K,d=1〜D,m=1〜M)。
係数行列Gを目的変数としたラグランジアンLの偏微分を0とおくと以下の数式(11)が導出される。
数式(11)において行列の第n行第m列の成分のみに着目し、係数行列Gの第n行第m列の要素G
nmを数式(11)の両辺に乗算すると、以下の数式(12)が導出される。
前述の数式(10C)を数式(12)に適用することで以下の数式(13)が導出される。
数式(13)を変形することで、係数行列Gの要素G
nmを逐次的に更新する以下の更新式(14)が導出される。
同様に、基底行列Hを目的変数とした数式(9)のラグランジアンLの偏微分を0として数式(10A)を適用することで、基底行列Hの要素H
kdを逐次的に更新する以下の更新式(15)が導出される。
また、係数行列Uを目的変数としたラグランジアンLの偏微分を0として数式(10B)を適用することで、係数行列Uの要素U
dmを逐次的に更新する以下の更新式(16)が導出される。
図2の行列分解部34Aは、数式(14)から数式(16)の演算を反復し、反復回数が所定の回数に到達した時点での演算結果(Gnm,Hkd,Udm)を係数行列G,基底行列Hおよび係数行列Uとして確定する。数式(14)から数式(16)の演算の反復回数は、評価関数Jが所定の閾値を下回る数値に収束するように実験的または統計的に選定される。また、係数行列G(要素Gnm),基底行列H(要素Hkd)および係数行列U(要素Udm)の初期値は例えば乱数に設定される。
以上の通り、行列分解部34Aは、観測信号x(t)の観測行列Yと学習処理部20が教師情報Pとして生成した基底行列Fとに対して数式(5)の関係を満たすように係数行列Gと基底行列Hと係数行列Uとを生成する。そして、行列分解部34Aは、記憶装置14に保持された基底行列Fと行列分解部34Aが生成した係数行列Gとを乗算することで観測信号x(t)のうち第1音源の音響の振幅スペクトログラム(M個の単位期間にわたる振幅スペクトルZ1(k,m)の時系列)を算定する。同様に、行列分解部34Aは、行列分解部34Aが生成した基底行列Hと係数行列Uとを乗算することで観測信号x(t)のうち第2音源の音響の振幅スペクトログラム(M個の単位期間にわたる振幅スペクトルZ2(k,m)の時系列)を算定する。
図2の音響生成部36は、行列分解部34Aが単位期間毎に生成した振幅スペクトルZ1(k,m)および振幅スペクトルZ2(k,m)から時間領域の音響信号z1(t)および音響信号z2(t)を生成する。具体的には、音響生成部36は、各単位期間の振幅スペクトルZ1(k,m)と観測信号x(t)のその単位期間での位相スペクトルとを適用した短時間逆フーリエ変換で時間領域の信号を生成し、相前後する単位期間で相互に連結することで音響信号z1(t)を生成する。音響生成部36は、以上と同様の方法で、行列分解部34Aが生成した振幅スペクトルZ2(k,m)から音響信号z2(t)を生成する。すなわち、観測信号x(t)を第1音源とそれ以外の第2音源とで分離した音響信号z1(t)および音響信号z2(t)が生成される。なお、音響信号z1(t)および音響信号z2(t)の一方のみを生成することも可能である。
以上に説明した第1実施形態では、教師信号s(t)が初期音成分(振幅スペクトルSd(k,m))と残響成分(振幅スペクトルSr(k,m))とに区分され、初期音成分の基底ベクトルf(n)と残響成分の基底ベクトルf(n)とを個別に含む基底行列Fが教師情報Pとして生成される。したがって、初期音成分と残響成分とを区別せずに教師情報を生成する構成と比較すると、教師信号s(t)と観測信号x(t)とで残響成分の程度が相違する場合(例えば観測信号x(t)が教師信号s(t)と比較して残響成分を豊富に含む場合)でも第1音源と第2音源とを高精度に分離することが可能である。
また、第1実施形態では、既知の第1音源の基底行列Fを教師情報Pとして利用した教師あり非負値行列因子分解が実行されるから、観測信号x(t)のうち第1音源の音響は行列FGに反映され、観測信号x(t)のうち第2音源の音響は行列HUに反映される。すなわち、第1音源に対応する行列FGと第2音源に対応する行列HUとが個別に特定される。したがって、非特許文献1や非特許文献2の教師なし非負値行列因子分解と比較して、観測信号x(t)を第1音源と第2音源とで高精度に分離できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態における演算処理装置12の機能のブロック図である。図8に示すように、第2実施形態の学習処理部20は第1実施形態と同様の構成である。ただし、学習処理部20の教師情報生成部26が生成した初期音基底行列Fdと残響基底行列Frとが教師情報Pとして個別に記憶装置14に記憶される。
図8に示すように、第2実施形態では第1実施形態の分離処理部30Aが分離処理部30Bに置換される。分離処理部30Bは、周波数分析部32と残響処理部72と行列分解部34Bと合成部74と音響生成部36とを含んで構成される。周波数分析部32および音響生成部36の構成および動作は第1実施形態と同様である。
図8の残響処理部72は、周波数分析部32が単位期間毎に生成した観測信号x(t)の振幅スペクトルX(k,m)を初期音成分の振幅スペクトルXd(k,m)と残響成分の振幅スペクトルXr(k,m)とに分離する。残響処理部72の構成および動作は、図3および図5を参照して説明した第1実施形態の残響処理部24と同様である。すなわち、残響処理部72は、観測信号x(t)に追従する第1指標値Q1(k,m)と第2指標値Q2(k,m)とを算定し(指標値算定部50A)、第1指標値Q1(k,m)と第2指標値Q2(k,m)との比R(k,m)に応じた調整値Gd(k,m)と調整値Gr(k,m)とを算定し(調整値算定部60)、振幅スペクトルX(k,m)に調整値Gd(k,m)を作用させることで初期音成分の振幅スペクトルXd(k,m)を生成するとともに振幅スペクトルX(k,m)に調整値Gr(k,m)を作用させることで残響成分の振幅スペクトルXr(k,m)を生成する(調整処理部244)。
図8の行列分解部34Bは、初期音成分の振幅スペクトルXd(k,m)を処理する第1分解部341と残響成分の振幅スペクトルXr(k,m)を処理する第2分解部342とを含んで構成される。第1分解部341は、M個の単位期間にわたる振幅スペクトルXd(k,m)を時系列に配列した観測行列Yd(観測信号x(t)の初期音成分の振幅スペクトログラム)に対し、記憶装置14に記憶された初期音基底行列Fdを教師情報Pとして適用した教師あり非負値行列因子分解を実行する。同様に、第2分解部342は、M個の単位期間にわたる振幅スペクトルXr(k,m)を時系列に配列した観測行列Yr(観測信号x(t)の残響成分の振幅スペクトログラム)に対し、記憶装置14に記憶された残響基底行列Frを教師情報Pとして適用した教師あり非負値行列因子分解を実行する。
第1分解部341および第2分解部342の各々の処理内容は第1実施形態の行列分解部34Aと同様である。したがって、第1分解部341は、観測信号x(t)の初期音成分のうち第1音源の音響を強調した振幅スペクトルZ1d(k,m)と、観測信号x(t)の初期音成分のうち第2音源の音響を強調した振幅スペクトルZ2d(k,m)とを単位期間毎に順次に生成する。同様に、第2分解部342は、観測信号x(t)の残響成分のうち第1音源の音響を強調した振幅スペクトルZ1r(k,m)と、観測信号x(t)の残響成分のうち第2音源の音響を強調した振幅スペクトルZ2r(k,m)とを生成する。
合成部74は、第1分解部341が生成した振幅スペクトルZ1d(k,m)および振幅スペクトルZ2d(k,m)と第2分解部342が生成した振幅スペクトルZ1r(k,m)および振幅スペクトルZ2r(k,m)とを適宜に合成する。具体的には、第2実施形態の合成部74は、振幅スペクトルZ1d(k,m)と振幅スペクトルZ1r(k,m)とを合成(例えば加算)することで振幅スペクトルZ1(k,m)を生成し、振幅スペクトルZ2d(k,m)と振幅スペクトルZ2r(k,m)とを合成(例えば加算)することで振幅スペクトルZ2(k,m)を生成する。音響生成部36は、第1実施形態と同様に、振幅スペクトルZ1(k,m)に応じた音響信号z1(t)と振幅スペクトルZ2(k,m)に応じた音響信号z2(t)とを生成する。したがって、音響信号z1(t)では観測信号x(t)のうち第1音源の音響が強調され、音響信号z2(t)では観測信号x(t)のうち第2音源の音響が強調される。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、観測信号x(t)が初期音成分の振幅スペクトルXd(k,m)と残響成分の振幅スペクトルXr(k,m)とに分離されたうえで、初期音成分および残響成分の各々について個別に教師あり非負値行列因子分解が実行されるから、第1実施形態と比較して第1音源と第2音源とを高精度に分離することが可能である。
<第3実施形態>
前掲の数式(5)では、第1音源の音響に対応する行列FGと第2音源の音響に対応する行列HUとに観測行列Yを分解したが、以下の数式(17)で表現されるように、第1音源に対応する要素を第1音源の音響の初期音成分(FG)と残響成分(FV)とに分解することも可能である。
数式(17)の行列Gは、観測信号x(t)の第1音源の音響(基底行列F)のうち初期音成分に対応する係数行列であり、行列Vは、観測信号x(t)の第1音源の音響のうち残響成分に対応する係数行列(以下「残響係数行列」という)である。すなわち、数式(17)の右辺の第1項の行列(以下「初期音行列」という)FGは、観測信号x(t)の第1音源の音響のうち初期音成分の振幅スペクトログラムに相当し、第3項の行列FV(以下「残響行列」という)は、観測信号x(t)の第1音源の音響のうち残響成分の振幅スペクトログラムに相当する。初期音行列FGと残響行列FVとの和(F(G+V))が第1音源の音響の振幅スペクトログラム(第1実施形態における行列FG)を意味する。なお、数式(17)の第2項の行列(以下「分離成分行列」という)HUは、第1実施形態と同様に、観測信号x(t)のうち第2音源の音響の振幅スペクトログラムに相当する。
第3実施形態の教師情報生成部26は、第1実施形態と同様の方法で教師信号s(t)に応じた基底行列Fを教師情報Pとして生成するほか、数式(17)の残響係数行列Vを生成する。具体的には、教師情報生成部26は、以下の数式(18)で表現されるように、観測信号x(t)の残響成分の振幅スペクトログラムを意味する観測行列Yr(振幅スペクトルXr(k,m)の時系列)を既知の基底行列Fの転置行列F
Tに乗算することで残響係数行列Vを算定する。観測行列Yrの生成には第2実施形態と同様の構成が採用され得る。
なお、以下の数式(19)で表現されるように、基底行列Fを教師情報として利用した教師あり非負値行列因子分解で残響係数行列Vを算定することも可能である。すなわち、教師情報生成部26は、既知の基底行列Fと残響係数行列Vとの積FVと、任意の基底行列Aおよび係数行列Bの積ABとの和が観測信号x(t)の残響成分の観測行列Yrに近似するように残響係数行列Vを算定する。
以上の方法で算定された残響係数行列Vは基底行列Fとともに記憶装置14に格納され、分離処理部30Aによる観測信号x(t)の教師あり非負値行列因子分解に適用される。第3実施形態の行列分解部34Aは、既知の基底行列Fおよび残響係数行列Vとの関係で前掲の数式(17)が成立するように、観測信号x(t)の第1音源の初期音成分に対応する係数行列Gと、観測信号x(t)の第2音源に対応する基底行列Hおよび係数行列Uとを算定する。すなわち、行列分解部34Aは、観測信号x(t)の第1音源の音響のうち初期音成分に対応する初期音行列FGと、観測信号x(t)の第2音源の音響に対応する分離成分行列HUと、観測信号x(t)の第1音源の音響のうち残響成分に対応する残響行列FVとの和が、観測信号x(t)の振幅スペクトログラムに相当する観測行列Yに近似するように、係数行列Gと基底行列Hと係数行列Uとを算定する。
具体的には、行列分解部34Aは、前掲の数式(14)から数式(16)と同様の手順で導出された以下の数式(20)から数式(22)の演算を反復することで、係数行列G(要素G
nm)と基底行列H(要素H
kd)と係数行列U(要素U
dm)とを算定する。
行列分解部34Aは、教師あり非負値行列因子分解の結果に応じて振幅スペクトルZ1(k,m)および振幅スペクトルZ2(k,m)を生成する。例えば、初期音行列FGの各列を振幅スペクトルZ1(k,m)として算定する構成や、初期音行列FGと残響行列FVとの和の各列を振幅スペクトルZ1(k,m)として算定する構成や、残響行列FVの各列を振幅スペクトルZ1(k,m)(すなわち、観測信号x(t)のうち第1音源の音響の残響成分)として算定する構成が採用され得る。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、基底行列Fに加えて残響係数行列Vを利用した教師あり非負値行列因子分解が実行されるから、第1実施形態と比較して第1音源と第2音源とを高精度に分離することが可能である。
<第4実施形態>
図9は、第4実施形態における解析処理部242のブロック図である。第4実施形態の解析処理部242は、図5に例示した第1実施形態の指標値算定部50Aを指標値算定部50Bに置換した構成である。指標値算定部50Bは、第1指標値Q1(k,m)および第2指標値Q2(k,m)を単位期間毎に順次に算定する要素であり、第1平滑部51と第2平滑部52と遅延部54とを含んで構成される。なお、調整値算定部60の構成および動作は第1実施形態と同様である。
第1平滑部51は、第1実施形態と同様に、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで第1指標値Q1(k,m)を単位期間毎に順次に算定する。遅延部54は、教師信号s(t)の振幅スペクトルS(k,m)を単位期間のd個分(dは自然数)に相当する時間だけ遅延させる記憶回路である。第2平滑部52は、遅延部54による遅延後の振幅スペクトルS(k,m)のパワーS(k,m)2の時系列を平滑化することで第2指標値Q2(k,m)を単位期間毎に順次に算定する。したがって、第2指標値Q2(k,m)の時間変化は、第1指標値Q1(k,m)の時間変化を単位期間のd個分だけ遅延させた関係にある(Q2(k,m)=Q1(k,m-d))。第4実施形態では、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1と同等とするが(τ2=τ1)、時定数τ1と時定数τ2とを相違させることも可能である。また、第1平滑部51が算定した第1指標値Q1(k,m)を遅延させることで第2指標値Q2(k,m)を算定する構成(第2平滑部52を省略した構成)も採用され得る。
図10の部分(B)は、図6の部分(A)と同様の室内インパルス応答(図10の部分(A))を教師信号s(t)として第4実施形態の音響処理装置100に供給した場合の第1指標値Q1(k,m)および第2指標値Q2(k,m)の時間変化のグラフである。
図10の部分(B)から理解されるように、第1指標値Q1(k,m)と第2指標値Q2(k,m)とで時間変化の態様(波形)は共通するが、第2指標値Q2(k,m)の時間変化は第1指標値Q1(k,m)の時間変化に対して単位期間のd個分だけ遅延する。すなわち、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性で教師信号s(t)のパワーS(k,m)2に追従する。したがって、第1実施形態と同様に、第1指標値Q1(k,m)と第2指標値Q2(k,m)との大小は時間軸上の特定の時点txで反転する。すなわち、時点txまでの区間SAでは第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回り、時点tx以降の区間SBでは第2指標値Q2(k,m)が第1指標値Q1(k,m)を上回る。
比算定部62による比R(k,m)の算定(数式(3))や第1処理部64による調整値Gd(k,m)の算定や第2処理部66による調整値Gr(k,m)の算定は第1実施形態と同様である。したがって、図10の部分(C)に示すように、調整値Gd(k,m)は、初期音成分が存在する区間SAにて所定値Gmaxに設定され、残響成分が存在する区間SBでは所定値Gminまで経時的に減少する。したがって、第4実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態や第3実施形態に第4実施形態を適用することも可能である。また、第2実施形態における分離処理部30Bの残響処理部72に図9の構成を採用することも可能である。
<変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、教師信号s(t)に対する教師あり非負値行列因子分解で初期音基底行列Fdと残響基底行列Frとを生成したが、初期音基底行列Fdや残響基底行列Frの生成方法は適宜に変更される。例えば、初期音成分の振幅スペクトルSd(k,m)の平均を初期音基底行列Fdの基底ベクトルf(n)として利用する方法や、残響成分の振幅スペクトルSr(k,m)の平均を残響基底行列Frの基底ベクトルf(n)として利用する方法も採用され得る。
(2)前述の各形態では、フロベニウスノルムを適用した非負値行列因子分解を例示したが、非負値行列因子分解に適用される距離規準はフロベニウスノルムに限定されない。具体的には、Kullback-Leibler擬距離やダイバージェンス等の公知の距離規準が任意に採用される。また、スパースネスの拘束条件を適用した非負値行列因子分解も採用される。
(3)前述の各形態では、初期音基底行列Fdと残響基底行列Frとの双方を含む基底行列Fを生成したが、初期音基底行列Fdのみを基底行列Fとして利用する(残響基底行列Frを基底行列Fに含めない)ことも可能である。初期音基底行列Fdのみを基底行列Fとして利用した場合、第1音源の初期音成分と残響成分とを含む観測信号x(t)から、第1音源の初期音成分を強調した音響信号z1(t)と残響成分を強調した音響信号z2(t)とが生成される。すなわち、観測信号x(t)が初期音成分と残響成分とに分離される。したがって、例えば、観測信号x(t)の初期音成分と残響成分との各々について別個の音響処理(例えば効果付与)を実行したうえで相互に混合することで新規な音響効果を実現することが可能である。以上の説明から理解されるように、本発明の適用範囲は、観測信号x(t)を音源毎に分離する場合には限定されず、観測信号x(t)を初期音成分と残響成分とに分離する場合も包含する。
(4)前述の各形態では、教師信号s(t)のパワーS(k,m)
2の単純移動平均を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定したが、第1指標値Q1(k,m)および第2指標値Q2(k,m)の算定方法は以上の例示に限定されない。例えば、以下の数式(23A)および数式(23B)で表現されるように、教師信号s(t)のパワーS(k,m)
2の指数平均(指数移動平均)を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定することも可能である。
すなわち、第1平滑部51および第2平滑部52は、IIR(infinite impulse response)型のローパスフィルタに相当する。数式(23A)の記号α1および数式(23B)の記号α2は平滑化係数(忘却係数)である。具体的には、平滑化係数α1は、過去の第1指標値Q1(k,m-1)に対する現在のパワーS(k,m)2の重みを意味し、平滑化係数α2は、過去の第2指標値Q2(k,m-1)に対する現在のパワーS(k,m)2の重みを意味する。平滑化係数α2は、平滑化係数α1を下回る数値に設定される(α2<α1)。したがって、第1実施形態と同様に、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回る(τ2>τ1)。すなわち、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性で教師信号s(t)のパワーS(k,m)2に追従する。
また、以下の数式(24A)および数式(24B)で表現されるように、教師信号s(t)のパワーS(k,m)
2の加重移動平均を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定することも可能である。数式(24A)の記号w1(i)および数式(24B)の記号w2(i)は、第m番目の単位期間からみて前方の第i番目に位置する単位期間に対する加重値を意味する。第2期間が第1期間よりも長いという条件(N2>N1)は前掲の例示と同様である。
また、前述の各形態では、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで第1指標値Q1(k,m)および第2指標値Q2(k,m)を算定したが、第1平滑部51や第2平滑部52による平滑化の対象はパワーS(k,m)2に限定されない。例えば、教師信号s(t)の振幅S(k,m)や振幅の4乗S(k,m)4を平滑化することで第1指標値Q1(k,m)や第2指標値Q2(k,m)を算定する構成も採用され得る。すなわち、前述の各形態における第1平滑部51や第2平滑部52は、教師信号s(t)の信号強度の時系列を平滑化する要素として包括され、信号強度は、教師信号s(t)のパワーS(k,m)2のほかに振幅S(k,m)や振幅の4乗S(k,m)4を包含する。
なお、以上の説明では残響処理部24による教師信号s(t)の処理を例示したが、観測信号x(t)を初期音成分と残響成分とに分離する第2実施形態の残響処理部72にも同様の変形が適用される。ただし、残響処理部24が教師信号s(t)を初期音成分と残響成分とに分離する処理や残響処理部72が観測信号x(t)を初期音成分と残響成分とに分離する処理は、前述の各形態で例示した方法に限定されず、公知の技術(残響抽出技術/残響抑圧技術)を任意に採用することが可能である。