JP5884473B2 - 音響処理装置および音響処理方法 - Google Patents

音響処理装置および音響処理方法 Download PDF

Info

Publication number
JP5884473B2
JP5884473B2 JP2011283700A JP2011283700A JP5884473B2 JP 5884473 B2 JP5884473 B2 JP 5884473B2 JP 2011283700 A JP2011283700 A JP 2011283700A JP 2011283700 A JP2011283700 A JP 2011283700A JP 5884473 B2 JP5884473 B2 JP 5884473B2
Authority
JP
Japan
Prior art keywords
matrix
sound
reverberation
component
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011283700A
Other languages
English (en)
Other versions
JP2013134331A (ja
Inventor
祐 高橋
祐 高橋
近藤 多伸
多伸 近藤
誠一 橋本
誠一 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2011283700A priority Critical patent/JP5884473B2/ja
Publication of JP2013134331A publication Critical patent/JP2013134331A/ja
Application granted granted Critical
Publication of JP5884473B2 publication Critical patent/JP5884473B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、音響信号を処理する技術に関する。
相異なる音源が発生した複数の音響の混合音を音源毎に分離する音源分離技術が従来から提案されている。例えば非特許文献1や非特許文献2には、教師なし非負値行列因子分解(NMF:Non-negative Matrix Factorization)を利用した音源分離が開示されている。また、特定の既知音源から発生した音響のスペクトルを示す基底行列を教師情報として利用する教師あり非負値行列因子分解も例えば非特許文献3に開示されている。
A. CICHOCKI, et. al., "NEW ALGORITHMS FOR NON-NEGATIVE MATRIX FACTORIZATION IN APPLICATIONS TO BLIND SOURCE SEPARATION," ICASSP 2006 Tuomas Virtanen, "Monaural Sound Source Separation by Nonnegative Matrix Factorization With Temporal Continuity and Sparseness Criteria", IEEE Trans. Aurio, Speech and Language Processing, volume 15, p.1066-1074, 2007 中鹿ほか2名,"基底の反復生成と教師ありNMFを用いた信号解析",電子情報通信学会技術研究報告,vol.110,no.357, p.195-200,2010
教師あり非負値行列因子分解では、既知音源の音響を示す音響信号(以下「教師信号」という)から、教師情報として利用される基底行列が生成される。基底行列は、既知音源の音響に固有の振幅スペクトルを示す複数の基底ベクトルで構成される。
ところで、楽器等の音源から発生した音響には、音響空間の壁面での反射および散乱後に受音点に到来する音響(初期反射音,後部残響音)や、鍵盤楽器や弦楽器等の自然楽器の響板による共鳴音(胴鳴り,箱鳴り)等の残響成分が付随する。従来の教師あり非負値行列因子分解では、教師情報の生成に利用される教師信号と実際に分離処理の対象となる対象となる音響信号(以下「観測信号」という)とで残響成分の程度が相違する場合に分離精度が低下するという問題がある。例えば教師信号が残響成分を豊富に含む場合には、基底行列の1個の基底ベクトルに残響成分とそれ以外の成分とが混在するから、残響成分が少ない観測信号を高精度に分離することは困難である。以上の事情を考慮して、本発明は、残響成分の多寡に関わらず高精度な分離が可能な教師情報を生成することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の各要素と後述の各実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音響処理装置は、第1音源の音響を示す教師信号(例えば教師信号s(t))から残響成分を抑圧した初期音成分を生成する第1残響処理手段(例えば残響処理部24)と、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第1基底行列(例えば基底行列F)を、第1音源の音響を含む観測信号(例えば観測信号x(t))のスペクトルの時系列を示す観測行列(例えば観測行列Y)に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段(例えば教師情報生成部26)とを具備する。以上の構成では、教師信号のうち残響成分を抑圧した初期音成分のスペクトルに対応する第1基底行列が、観測信号の教師あり非負値行列因子分解の教師情報として生成される。したがって、観測信号における残響成分の多寡(観測信号と教師信号との間の残響成分の相違)に関わらず観測信号を高精度に分離することが可能である。
本発明の好適な態様において、第1残響処理手段は、教師信号から初期音成分と残響成分とを生成し、教師情報生成手段は、教師信号の初期音成分のスペクトルに対応した基底ベクトル(例えば初期音基底行列Fdの基底ベクトルf(n))と教師信号の残響成分のスペクトルに対応した基底ベクトル(例えば残響基底行列Frの基底ベクトルf(n))とを含む第1基底行列を教師情報として生成する。以上の態様では、教師情報として利用される第1基底行列が、教師信号の初期音成分のスペクトルに対応した基底ベクトルと教師信号の残響成分のスペクトルに対応した基底ベクトルとを含むから、初期音成分および残響成分の双方を含む第1音源の音響とそれ以外の音源(第2音源)の音響とを高精度に分離することが可能である。なお、以上の態様の具体例は例えば第1実施形態として後述される。
本発明の好適な態様に係る音響処理装置は、観測信号から初期音成分と残響成分とを生成する第2残響処理手段(例えば残響処理部72)と、教師情報生成手段が生成した教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段(例えば行列分解部34B)とを具備し、第1残響処理手段は、教師信号から初期音成分と残響成分とを生成し、教師情報生成手段は、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む初期音基底行列(例えば初期音基底行列Fd)と、教師信号の残響成分のスペクトルに対応した基底ベクトルを含む残響基底行列(例えば残響基底行列Fr)とを教師情報として生成し、行列分解手段は、観測信号の初期音成分のスペクトルの時系列を示す第1観測行列(例えば観測行列Yd)に対して初期音基底行列を適用した教師あり非負値行列因子分解を実行する第1分解手段(例えば第1分解部341)と、観測信号の残響成分のスペクトルの時系列を示す第2観測行列(例えば観測行列Yr)に対して残響基底行列を適用した教師あり非負値行列因子分解を実行する第2分解手段(例えば第2分解部342)とを含む。以上の態様では、観測信号が初期音成分と残響成分とに分離されたうえで各々について個別に教師あり非負値行列因子分解が実行されるから、観測信号を初期音成分と残響成分とに分離しない構成と比較して、観測信号を第1音源とそれ以外の音源(第2音源)とで高精度に分離することが可能である。なお、以上の態様の具体例は例えば第2実施形態として後述される。
本発明の好適な態様に係る音響処理装置は、教師情報生成手段が生成した教師情報を適用した教師あり非負値行列因子分解を観測行列に対して実行する行列分解手段を具備し、教師情報生成手段は、第1基底行列の各基底ベクトルに対する加重値の時間変化を示す残響係数行列(例えば残響係数行列V)を生成し、行列分解手段は、教師情報生成手段が生成した第1基底行列と、第1基底行列の基底ベクトルに対する加重値の時間変化を示す第1係数行列(例えば係数行列G)とを乗算した初期音行列(例えば初期音行列FG)と、観測信号のうち第1音源以外の音源の音響成分のスペクトルに対応した基底ベクトルを含む第2基底行列(例えば基底行列H)と、第2基底行列の基底ベクトルに対する加重値の時間変化を示す第2係数行列(例えば係数行列U)とを乗算した分離成分行列(例えば分離成分行列HU)と、教師情報生成手段が生成した第1基底行列と残響係数行列とを乗算した残響行列(例えば残響行列FV)との和が観測信号の観測行列に近似するように、第1係数行列と第2基底行列と第2係数行列とを算定する。以上の態様では、第1基底行列に加えて残響係数行列を教師情報として観測信号に対する教師あり非負行列因子分解が実行されるから、残響係数行列を利用しない構成と比較して、観測信号を第1音源とそれ以外の音源(第2音源)とで高精度に分離することが可能である。なお、以上の態様の具体例は例えば第3実施形態として後述される。
本発明の好適な態様において、第1残響処理手段は、教師信号の時間変化に追従する第1指標値(例えば第1指標値Q1(k,m)と、第1指標値と比較して低い追従性で教師信号の時間変化に追従する第2指標値(例えば第2指標値Q2(k,m)とを算定する指標値算定手段(例えば指標値算定部50A,50B)と、教師信号の残響成分を抑圧するための第1調整値と教師信号の残響成分を強調するための第2調整値とを第1指標値と第2指標値との相違に応じて算定する調整値算定手段(例えば調整値算定部60)と、第1調整値を教師信号に作用させることで初期音成分を生成し、第2調整値を教師信号に作用させることで残響成分を生成する調整処理手段(例えば調整処理部244)とを含む。以上の態様では、教師信号の時間変化に追従する第1指標値と第2指標値との相違に応じて残響成分の抑圧用(初期音成分の強調用)の第1調整値と残響成分の強調用(初期音成分の抑圧用)の第2調整値とが算定されるから、例えば教師信号の残響成分を推定する予測フィルタを利用することで残響成分の予測フィルタ係数を推定する構成(例えば特開2009−212599号公報に開示された構成)と比較して簡易な処理で教師信号の残響成分を推定できるという利点がある。もっとも、本発明における残響成分の推定には、公知の技術(前掲の特許文献に開示された構成を含む)が任意に採用され得る。
具体的な態様において、指標値算定手段は、教師信号の信号強度(教師信号の振幅またはその冪乗)の時系列を平滑化することで第1指標値を算定する第1平滑手段(例えば第1平滑部51)と、第1平滑手段による平滑化の時定数(例えば時定数τ1)を上回る時定数(例えば時定数τ2)で教師信号の信号強度の時系列を平滑化することで第2指標値を算定する第2平滑手段(例えば第2平滑部52)とを含む。他の態様において、指標値算定手段は、第2指標値の時間変化が第1指標値の時間変化を遅延させた関係となるように、教師信号の信号強度の時系列を平滑化した第1指標値および第2指標値を生成する。
本発明の好適な態様において、調整値算定手段は、第2指標値に対する第1指標値の比を算定する比算定手段と、比が閾値を上回る場合に当該閾値に設定され、比が閾値を下回る場合に比に設定される第1調整値を算定する第1処理手段と、第1調整値を所定値から減算することで第2調整値を算定する第2処理手段とを含む。以上の態様では、第2指標値に対する第1指標値の比の演算と所定値から第1調整値を減算する演算とを含む簡易な演算で第1調整値と第2調整値とを算定できるという利点がある。
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、第1音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成する第1残響処理と、教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第1基底行列を、第1音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成処理とをコンピュータに実行させる。以上のプログラムによれば、本発明に係る音響処理装置と同様の作用および効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明の第1実施形態に係る音響処理装置のブロック図である。 学習処理部および分離処理部のブロック図である。 残響処理部のブロック図である。 教師情報生成部の動作の説明図である。 解析処理部のブロック図である。 第1指標値と第2指標値と調整値との関係の説明図である。 行列分割部の動作の説明図である。 第2実施形態における学習処理部および分離処理部のブロック図である。 第4実施形態における解析処理部のブロック図である。 第4実施形態における第1指標値と第2指標値と調整値との関係の説明図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。音響処理装置100は、教師信号s(t)から教師情報(事前情報)Pを生成する学習処理と、教師情報Pを利用した教師あり非負値行列因子分解(SVNMF:Supervised Non-negative Matrix Factorization)で観測信号x(t)を分離する分離処理とを実行する信号処理装置である。
音響処理装置100には信号供給装置200が接続される。信号供給装置200は、教師信号s(t)および観測信号x(t)を音響処理装置100に供給する。教師信号s(t)は学習処理の実行時に音響処理装置100に供給され、観測信号x(t)は分離処理の実行時に音響処理装置100に供給される。周囲の音響を収音して教師信号s(t)または観測信号x(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から教師信号s(t)または観測信号x(t)を取得して音響処理装置100に供給する再生装置や、教師信号s(t)または観測信号x(t)を通信網から受信して音響処理装置100に供給する通信装置が信号供給装置200として採用され得る。
観測信号x(t)は、相異なる複数種の音源が発生した音響(楽音や音声)の混合音の波形を示す時間領域の音響信号である。観測信号x(t)を構成する音響を発生する複数種の音源のうち特定の既知の音源を以下では「第1音源」と表記し、第1音源以外の音源を以下では第2音源と表記する。観測信号x(t)が2種類の音源の音響で構成される場合、第2音源は第1音源以外の1種類の音源を意味し、観測信号x(t)が3種類以上の音源の音響で構成される場合、第2音源は第1音源以外の2種類以上の音源(音源群)を意味する。他方、教師信号s(t)は、第1音源が単独で発生した音響(学習音)の波形を示す時間領域の音響信号である。
観測信号x(t)および教師信号s(t)の各々が示す音響は、初期音成分(ドライ成分)と残響成分(ウェット成分)とを包含する。残響成分は、音源の発音動作の停止後も経時的に減衰しながら継続する響き成分である。具体的には、音響空間の壁面での反射および散乱後に受音点に到来する音響(初期反射音,後部残響音)や、鍵盤楽器や弦楽器等の自然楽器の響板による共鳴音(胴鳴り,箱鳴り)等が残響成分に該当する。初期音成分は、残響成分以外の音響成分である。具体的には、音源の発音動作に直接的に起因する音響(反射や共鳴を殆ど経ていない音響)が初期音成分に該当する。例えば音響(単音)の時間波形を時間軸上でアタック(立上がり)とディケイ(減衰)とサステイン(保持)とリリース(余韻)とに区分した場合、アタックとディケイとが初期音成分に相当し、サステインとリリースとが残響成分に相当する。以下の説明では、初期音成分に関連する要素に添字d(dry)を付加し、残響成分に関連する要素に添字r(reverberation)を付加する場合がある。
第1実施形態の音響処理装置100は、観測信号x(t)に対する分離処理で音響信号z1(t)および音響信号z2(t)を生成する。音響信号z1(t)は、観測信号x(t)のうち第1音源の音響を強調(理想的には抽出)した時間領域信号であり、音響信号z2(t)は、第2音源の音響を強調(抽出)した時間領域信号である。すなわち、第1実施形態の音響処理装置100は、観測信号x(t)を第1音源と第2音源とで分離する音源分離装置として機能する。音響信号z1(t)および音響信号z2(t)の一方が選択的にスピーカ等の放音装置(図示略)に供給されて音波として再生される。
図1に示すように、音響処理装置100は、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種の情報(教師情報P)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用され得る。教師信号s(t)や観測信号x(t)を記憶装置14に記憶する(したがって信号供給装置200は省略される)ことも可能である。
演算処理装置12は、記憶装置14に記憶されたプログラムPGMを実行することで学習処理部20および分離処理部30Aとして機能する。学習処理部20は、教師信号s(t)に対する学習処理で教師情報Pを生成し、分離処理部30Aは、学習処理部20が生成した教師情報Pを利用した分離処理を観測信号x(t)に対して実行することで音響信号z1(t)および音響信号z2(t)を生成する。
図2は、学習処理部20および分離処理部30Aのブロック図である。図2に示すように、学習処理部20は、周波数分析部22と残響処理部24と教師情報生成部26とを含んで構成される。周波数分析部22は、教師信号s(t)の振幅スペクトルS(k,m)を時間軸上の単位期間毎に順次に生成する。記号kは、周波数軸上の任意の1個の周波数(帯域)を意味し、記号mは、時間軸上の任意の1個の単位期間(時間軸上の特定の時点)を意味する。振幅スペクトルS(k,m)の生成には、短時間フーリエ変換等の公知の周波数分析が任意に採用され得る。なお、通過帯域が相違する複数の帯域通過フィルタを配列したフィルタバンクを周波数分析部22として利用することも可能である。
残響処理部24は、各単位期間の振幅スペクトルS(k,m)を初期音成分の振幅スペクトルSd(k,m)と残響成分の振幅スペクトルSr(k,m)とに分離する。図3に示すように、第1実施形態の残響処理部24は、解析処理部242と調整処理部244とを含んで構成される。
解析処理部242は、教師信号s(t)の振幅スペクトルS(k,m)に応じた調整値Gd(k,m)および調整値Gr(k,m)を各周波数について単位期間毎に算定する。調整値Gd(k,m)は、教師信号s(t)内の初期音成分の比率に応じた変数である。概略的には、振幅スペクトルS(k,m)にて初期音成分の強度が高い周波数(初期音成分が優勢である周波数)の調整値Gd(k,m)ほど大きい数値に設定されるという傾向がある。他方、調整値Gr(k,m)は、教師信号s(t)内の残響成分の比率に応じた変数である。概略的には、振幅スペクトルS(k,m)にて残響成分の強度が高い周波数の調整値Gr(k,m)ほど大きい数値に設定されるという傾向がある。なお、調整値Gr(k,m)および調整値Gr(k,m)の算定方法については後述する。
図3の調整処理部244は、解析処理部242が算定する調整値Gd(k,m)および調整値Gr(k,m)を教師信号s(t)の振幅スペクトルS(k,m)に作用させる。具体的には、調整処理部244は、振幅スペクトルS(k,m)に調整値Gd(k,m)を乗算することで振幅スペクトルSd(k,m)を算定し(Sd(k,m)=Gd(k,m)S(k,m))、振幅スペクトルS(k,m)に調整値Gr(k,m)を乗算することで振幅スペクトルSr(k,m)を算定する(Sr(k,m)=Gr(k,m)S(k,m))。すなわち、調整値Gd(k,m)および調整値Gr(k,m)は、振幅スペクトルS(k,m)に対するゲイン(スペクトルゲイン)に相当する。
初期音成分が優勢な周波数の調整値Gd(k,m)ほど大きい数値に設定され、残響成分が優勢な周波数の調整値Gr(k,m)ほど大きい数値に設定されるから、振幅スペクトルSd(k,m)は教師信号s(t)の初期音成分の振幅スペクトルに相当し、振幅スペクトルSr(k,m)は教師信号s(t)の残響成分の振幅スペクトルに相当する。すなわち、調整値Gd(k,m)は教師信号s(t)のうち初期音成分の強調用(残響成分の抑圧用)の変数であり、調整値Gr(k,m)は教師信号s(t)のうち残響成分の強調用(初期音成分の抑圧用)の変数である。
図2の教師情報生成部26は、残響処理部24が生成した初期音成分の振幅スペクトルSd(k,m)と残響成分の振幅スペクトルSr(k,m)とに応じた基底行列Fを教師情報Pとして生成する。図4に示すように、基底行列Fは、N個の基底ベクトルf(1)〜f(N)を横方向に配列したK行N列の非負値行列である。基底行列Fは、初期音基底行列Fdと残響基底行列Frとを含んで構成される。初期音基底行列FdはN1個の基底ベクトルf(n)(n=1〜N)の集合であり、残響基底行列FrはN2個の基底ベクトルf(n)の集合である(N=N1+N2)。初期音基底行列FdのN1個の基底ベクトルf(n)は、教師信号s(t)の初期音成分を構成するN1個の音響成分(基底)の振幅スペクトルに相当し、残響基底行列FrのN2個の基底ベクトルf(n)は、教師信号s(t)の残響成分を構成するN2個の音響成分の振幅スペクトルに相当する。なお、個数N1と個数N2との異同は不問である。
図4に示すように、第1実施形態の教師情報生成部26は、教師信号s(t)の初期音成分の振幅スペクトログラムを表現する学習用行列Sdから初期音基底行列Fdを生成し、教師信号s(t)の残響成分の振幅スペクトログラムを表現する学習用行列Srから残響基底行列Frを生成する。学習用行列Sdは、M個の単位期間にわたる初期音成分の振幅スペクトルSd(k,m)を配列したK行M列の非負値行列であり、学習用行列Srは、M個の単位期間にわたる残響成分の振幅スペクトルSr(k,m)を配列したK行M列の非負値行列である。初期音基底行列Fdおよび残響基底行列Frの生成には、以下に例示する教師なし非負値行列因子分解が好適である。
初期音成分の学習用行列Sdは、以下の数式(1A)で表現されるように、初期音基底行列Fdと係数行列(アクティベーション行列)Qdとに近似的に分解される。初期音基底行列Fdは、図4に示すように、初期音成分の各音響成分の振幅スペクトルに相当するN1個の基底ベクトルf(1)〜f(N1)を配列したK行N1列の非負値行列である。係数行列Qdは、初期音基底行列Fdの各基底ベクトルf(1)〜f(N1)に対応するN1個の係数ベクトルq(1)〜q(N1)を配列したN1行M列の非負値行列である。係数行列Qdの第n行目の係数ベクトルq(n)は、初期音基底行列Fdの第n列目の基底ベクトルf(n)に対する加重値(活性度)の時系列に相当する。教師情報生成部26は、初期音基底行列Fdと係数行列Qdとの積FdQdが学習用行列Sdに近似する(すなわち行列FdQdと学習用行列Sdとの誤差が最小化する)ように初期音基底行列Fdおよび係数行列Qdを逐次的に更新することで初期音基底行列Fdを算定する。
Figure 0005884473
他方、残響成分の学習用行列Srは、以下の数式(1B)で表現されるように、残響基底行列Frと係数行列Qrとに近似的に分解される。残響基底行列Frは、残響成分の振幅スペクトルに相当するN2個の基底ベクトルf(1)〜f(N2)を配列したK行N2列の非負値行列である。係数行列Qrは、残響基底行列Frの各基底ベクトルf(n)に対する加重値の時系列を意味するN2個の係数ベクトルq(1)〜q(N2)で構成される。教師情報生成部26は、残響基底行列Frと係数行列Qrとの積FrQrが学習用行列Srに近似するように残響基底行列Frおよび係数行列Qrを逐次的に更新することで残響基底行列Frを算定する。教師情報生成部26は、初期音基底行列Fdと残響基底行列Frとを含む基底行列Fを教師情報Pとして生成して記憶装置14に格納する。以上が学習処理部20の具体的な構成および動作である。
Figure 0005884473
図5を参照して図3の解析処理部242の具体的な構成を説明する。図5に示すように、第1実施形態の解析処理部242は、指標値算定部50Aと調整値算定部60とを具備する。指標値算定部50Aは、教師信号s(t)に応じた第1指標値Q1(k,m)と第2指標値Q2(k,m)とを順次に算定する。具体的には、指標値算定部50Aは、第1平滑部51と第2平滑部52とを含んで構成される。第1平滑部51は、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで各周波数の第1指標値Q1(k,m)を単位期間毎に順次に算定する。同様に、第2平滑部52は、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで各周波数の第2指標値Q2(k,m)を単位期間毎に順次に算定する。
第1指標値Q1(k,m)は、以下の数式(2A)で定義されるように、相前後するM1個(M1は2以上の自然数)の単位期間で構成される第1期間内のパワーS(k,m)2の移動平均(単純移動平均)である。第1期間は、例えば第m番目の単位期間を最後尾とするM1個の単位期間の集合である。他方、第2指標値Q2(k,m)は、以下の数式(2B)で定義されるように、相前後するM2個(M2は2以上の自然数)の単位期間で構成される第2期間内のパワーS(k,m)2の移動平均である。第2期間は、例えば第m番目の単位期間を最後尾とするM2個の単位期間の集合である。以上の説明から理解されるように、第1平滑部51および第2平滑部52はFIR(finite impulse response)型のローパスフィルタに相当する。
Figure 0005884473
第2指標値Q2(k,m)の算定に加味される単位期間の個数M2は、第1指標値Q1(k,m)の算定に加味される単位期間の個数M1を上回る(M2>M1)。すなわち、第2期間は第1期間よりも長い。例えば、第1期間は100ミリ秒から300ミリ秒程度の時間に設定され、第2期間は300ミリ秒から600ミリ秒程度の時間に設定される。したがって、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回る(τ2>τ1)。第1平滑部51および第2平滑部52をローパスフィルタで実現する場合を想定すると、第2平滑部52の遮断周波数が第1平滑部51の遮断周波数を下回ると換言することも可能である。
図6の部分(B)は、教師信号s(t)の任意の周波数について算定される第1指標値Q1(k,m)および第2指標値Q2(k,m)の時間変化のグラフである。図6の部分(A)のようにパワーS(k,m)2(パワー密度)が指数減衰する室内インパルス応答(RIR)を教師信号s(t)として音響処理装置100に供給した場合の第1指標値Q1(k,m)および第2指標値Q2(k,m)が図6の部分(B)には図示されている。
図6の部分(B)から理解されるように、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、教師信号s(t)のパワーS(k,m)2に追従して経時的に変化する。ただし、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回るから、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性(変化率)で教師信号s(t)のパワーS(k,m)2の時間変化に追従する。具体的には、図6の部分(B)に示すように、室内インパルス応答の開始の時点t0の直後の区間では、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る変化率で増加する。そして、第1指標値Q1(k,m)および第2指標値Q2(k,m)は、時間軸上の相異なる時点でピークに到達し、第1指標値Q1(k,m)は第2指標値Q2(k,m)を上回る変化率で減少する。
以上のように第1指標値Q1(k,m)と第2指標値Q2(k,m)とは相異なる変化率で変化するから、第1指標値Q1(k,m)と第2指標値Q2(k,m)との大小は時間軸上の特定の時点txで反転する。すなわち、時点t0から時点txまでの区間SAでは第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回り、時点tx以降の区間SBでは第2指標値Q2(k,m)が第1指標値Q1(k,m)を上回る。区間SAは、室内インパルス応答の初期音成分(直接音)が存在する区間に相当し、区間SBは、室内インパルス応答の残響成分(後部残響音)が存在する区間に相当する。
図5の調整値算定部60は、指標値算定部50Aが算定した第1指標値Q1(k,m)と第2指標値Q2(k,m)とに応じた調整値Gd(k,m)および調整値Gr(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の調整値算定部60は、比算定部62と第1処理部64と第2処理部66とを含んで構成される。
比算定部62は、第1指標値Q1(k,m)と第2指標値Q2(k,m)との比R(k,m)を算定する。具体的には、比算定部62は、以下の数式(3)で表現される通り、第2指標値Q2(k,m)に対する第1指標値Q1(k,m)の比R(k,m)を単位期間毎に算定する。
Figure 0005884473
図5の第1処理部64は、比算定部62が算定した比R(k,m)に応じて初期音成分の強調用の調整値Gd(k,m)を各周波数について単位期間毎に順次に算定する。第1実施形態の第1処理部64は、比算定部62が算定した比R(k,m)と所定値Gmaxおよび所定値Gminとを比較した結果に応じた調整値Gd(k,m)を単位期間毎に算定する。所定値Gmaxおよび所定値Gminは、例えば利用者からの指示に応じて事前に設定されて比R(k,m)と比較される閾値である。第1実施形態では、所定値Gmaxを1に設定した場合を例示する。所定値Gminは、所定値Gmaxを下回る数値(0以上かつ1未満の範囲内の数値)に設定される。
具体的には、第1処理部64は、以下の数式(4)の演算を実行する。第1に、比R(k,m)が所定値Gmax(Gmax=1)を上回る場合(R(k,m)≧Gmax)、第1処理部64は、所定値Gmaxを調整値Gd(k,m)として設定する。第2に、比R(k,m)が所定値Gminを下回る場合(R(k,m)≦Gmin)、第1処理部64は、所定値Gminを調整値Gd(k,m)として設定する。第3に、比R(k,m)が所定値Gmaxと所定値Gminとの間の数値である場合(Gmin<R(k,m)<Gmax)、第1処理部64は、比R(k,m)を調整値Gd(k,m)として設定する。
Figure 0005884473
第1指標値Q1(k,m)および第2指標値Q2(k,m)が図6の部分(B)のように変化する場合の調整値Gd(k,m)の変化が図6の部分(C)に図示されている。図6の部分(C)から理解されるように、概略的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る場合(区間SA)の調整値Gd(k,m)は、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る場合(区間SB)の調整値Gd(k,m)よりも大きい数値となる。具体的には、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る区間SA内では比R(k,m)が所定値Gmax(Gmax=1)を上回るから、調整値Gd(k,m)は所定値Gmaxに維持される。また、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る区間SBのうち比R(k,m)が所定値Gminを上回る区間SB1では、調整値Gd(k,m)は比R(k,m)に設定されて経時的に減少する。そして、区間SBのうち比R(k,m)が所定値Gminを下回る区間SB2では、調整値Gd(k,m)は所定値Gminに維持される。
すなわち、第1処理部64が算定する調整値Gd(k,m)は、初期音成分が存在する区間SAでは所定値(最大値)Gmaxに設定され、残響成分が存在する区間SBでは所定値(最小値)Gminまで経時的に減少する。したがって、図3の調整処理部244が教師信号s(t)の振幅スペクトルS(k,m)に調整値Gd(k,m)を乗算することで、教師信号s(t)の初期音成分を強調した振幅スペクトルSd(k,m)が生成される。
図5の第2処理部66は、第1処理部64が算定した調整値Gd(k,m)に応じた残響成分の強調用の調整値Gr(k,m)を各周波数について単位期間毎に順次に算定する。調整値Gd(k,m)が増加するほど調整値Gr(k,m)が減少するように調整値Gr(k,m)は算定される。具体的には、第2処理部66は、前掲の数式(4)で算定された調整値Gd(k,m)を所定値(以下の例示では1)から減算することで調整値Gr(k,m)を算定する(Gr(k,m)=1−Gd(k,m))。したがって、調整値Gr(k,m)は、初期音成分が存在する区間SAではゼロに維持され、残響成分が存在する区間SBでは所定値(1−Gmin)まで経時的に増加する。すなわち、第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回る場合(区間SA)の調整値Gr(k,m)は、第1指標値Q1(k,m)が第2指標値Q2(k,m)を下回る場合(区間SB)の調整値Gr(k,m)よりも小さい数値となる。したがって、調整処理部244が教師信号s(t)の振幅スペクトルS(k,m)に調整値Gr(k,m)を乗算することで、教師信号s(t)の残響成分を強調した振幅スペクトルSr(k,m)が生成される。以上が残響処理部24の具体的な構成および動作である。
図2の分離処理部30Aの構成および動作を以下に説明する。図2に示すように、分離処理部30Aは、周波数分析部32と行列分解部34Aと音響生成部36とを含んで構成される。周波数分析部32は、学習処理部20の周波数分析部22と同様に、信号供給装置200から供給される観測信号x(t)の振幅スペクトルX(k,m)を時間軸上の単位期間毎に順次に生成する。図7に示すように、M個の単位期間にわたる観測信号x(t)の振幅スペクトルX(k,m)(X(k,1)〜X(k,M))の時系列が単位期間のM個毎に観測行列Yとして順次に生成される。すなわち、観測行列Yは、観測信号x(t)の振幅スペクトログラムを表現するK行M列の非負値行列である。
図2の行列分解部34Aは、学習処理部20(教師情報生成部26)が教師情報Pとして生成した基底行列Fを適用した教師あり非負値行列因子分解を観測行列Yに対して実行する。第1実施形態の行列分解部34Aは、以下の数式(5)で表現されるように、周波数分析部32が生成した観測行列Yを基底行列Fと係数行列Gと基底行列Hと係数行列Uとに分解する。
Figure 0005884473
前述のように、基底行列Fには第1音源の音響(教師信号s(t))の特性が反映されるから、基底行列Fおよび係数行列Gは観測信号x(t)のうち第1音源の音響成分に対応する。他方、基底行列Hおよび係数行列Uは、観測信号x(t)のうち第1音源以外の音源(すなわち第2音源)の音響成分に対応する。
記憶装置14に記憶された既知の基底行列Fは、図7に示すように、第1音源の音響の各成分の振幅スペクトルに相当するN個の基底ベクトルf(1)〜f(N)を配列したK行N列の非負値行列である。また、数式(5)の係数行列Gは、基底行列Fの各基底ベクトルf(1)〜f(N)に対応するK個の係数ベクトルg(1)〜g(N)を配列したK行N列の非負値行列である。係数行列Gの第n行の係数ベクトルg(n)は、基底行列Fのうち第n列の基底ベクトルf(n)に対する加重値の時系列を意味する。以上の説明から理解されるように、数式(5)の右辺の第1項の行列FGは、観測信号x(t)のうち第1音源の音響の振幅スペクトログラムを表現するK行M列の非負値行列である。
数式(5)の基底行列Hは、図7に示すように、観測信号x(t)のうち第1音源以外の第2音源の音響の各成分の振幅スペクトルに相当するD個の基底ベクトルh(1)〜h(D)を配列したK行D列の非負値行列である。また、係数行列Uは、基底行列Hの各基底ベクトルh(d)に対する加重値の時系列に相当するD個の係数ベクトルu(1)〜u(D)を配列したD行M列の非負値行列である。以上の説明から理解されるように、数式(5)の右辺の第2項の行列HUは、観測信号x(t)のうち第2音源の音響の振幅スペクトログラムを表現するK行M列の非負値行列である。なお、基底行列Fの列数Nと基底行列Hの列数Dとの異同は不問である。
図2の行列分解部34Aは、第1音源の行列FGと第2音源の行列HUとを加算した行列(FG+HU)が観測行列Yに近似する(すなわち両者間の誤差が最小化する)ように第1音源の係数行列Gと第2音源の基底行列Hおよび係数行列Uとを生成する。第1実施形態では、数式(5)の条件を評価するために以下の数式(6)の評価関数Jを導入する。なお、以下の説明では、任意の行列Aのうち第i行第j列の要素を記号Aijと表記する。例えば、記号Gnmは、係数行列Gの第n行第m列の要素を意味する。
Figure 0005884473
数式(6)の記号‖ ‖Frはフロベニウスノルム(ユークリッド距離)を意味する。条件(7)は、係数行列Gと基底行列Hと係数行列Uとが非負値行列であるという条件である。数式(6)から理解されるように、第1音源の行列FGと第2音源の行列HUとの和が観測行列Yに近似する(近似誤差が減少する)ほど評価関数Jは減少する。以上の傾向を考慮して、評価関数Jが最小となるように係数行列Gと基底行列Hと係数行列Uとを生成することを検討する。
数式(6)のフロベニウスノルムを行列のトレースに置換して変形すると、以下の数式(8)が導出される。なお、数式(8)の記号Tは行列の転置を意味し、記号tr{ }は行列のトレースを意味する。
Figure 0005884473
評価関数Jを検討するために以下の数式(9)のラグランジアンLを導入する。
Figure 0005884473
また、前述の条件(7)を考慮すると、KKT(Karuch Kuhn Tucker)の相補条件は以下の数式(10A)から数式(10C)で表現される(k=1〜K,d=1〜D,m=1〜M)。
Figure 0005884473
係数行列Gを目的変数としたラグランジアンLの偏微分を0とおくと以下の数式(11)が導出される。
Figure 0005884473
数式(11)において行列の第n行第m列の成分のみに着目し、係数行列Gの第n行第m列の要素Gnmを数式(11)の両辺に乗算すると、以下の数式(12)が導出される。
Figure 0005884473
前述の数式(10C)を数式(12)に適用することで以下の数式(13)が導出される。
Figure 0005884473
数式(13)を変形することで、係数行列Gの要素Gnmを逐次的に更新する以下の更新式(14)が導出される。
Figure 0005884473
同様に、基底行列Hを目的変数とした数式(9)のラグランジアンLの偏微分を0として数式(10A)を適用することで、基底行列Hの要素Hkdを逐次的に更新する以下の更新式(15)が導出される。
Figure 0005884473
また、係数行列Uを目的変数としたラグランジアンLの偏微分を0として数式(10B)を適用することで、係数行列Uの要素Udmを逐次的に更新する以下の更新式(16)が導出される。
Figure 0005884473
図2の行列分解部34Aは、数式(14)から数式(16)の演算を反復し、反復回数が所定の回数に到達した時点での演算結果(Gnm,Hkd,Udm)を係数行列G,基底行列Hおよび係数行列Uとして確定する。数式(14)から数式(16)の演算の反復回数は、評価関数Jが所定の閾値を下回る数値に収束するように実験的または統計的に選定される。また、係数行列G(要素Gnm),基底行列H(要素Hkd)および係数行列U(要素Udm)の初期値は例えば乱数に設定される。
以上の通り、行列分解部34Aは、観測信号x(t)の観測行列Yと学習処理部20が教師情報Pとして生成した基底行列Fとに対して数式(5)の関係を満たすように係数行列Gと基底行列Hと係数行列Uとを生成する。そして、行列分解部34Aは、記憶装置14に保持された基底行列Fと行列分解部34Aが生成した係数行列Gとを乗算することで観測信号x(t)のうち第1音源の音響の振幅スペクトログラム(M個の単位期間にわたる振幅スペクトルZ1(k,m)の時系列)を算定する。同様に、行列分解部34Aは、行列分解部34Aが生成した基底行列Hと係数行列Uとを乗算することで観測信号x(t)のうち第2音源の音響の振幅スペクトログラム(M個の単位期間にわたる振幅スペクトルZ2(k,m)の時系列)を算定する。
図2の音響生成部36は、行列分解部34Aが単位期間毎に生成した振幅スペクトルZ1(k,m)および振幅スペクトルZ2(k,m)から時間領域の音響信号z1(t)および音響信号z2(t)を生成する。具体的には、音響生成部36は、各単位期間の振幅スペクトルZ1(k,m)と観測信号x(t)のその単位期間での位相スペクトルとを適用した短時間逆フーリエ変換で時間領域の信号を生成し、相前後する単位期間で相互に連結することで音響信号z1(t)を生成する。音響生成部36は、以上と同様の方法で、行列分解部34Aが生成した振幅スペクトルZ2(k,m)から音響信号z2(t)を生成する。すなわち、観測信号x(t)を第1音源とそれ以外の第2音源とで分離した音響信号z1(t)および音響信号z2(t)が生成される。なお、音響信号z1(t)および音響信号z2(t)の一方のみを生成することも可能である。
以上に説明した第1実施形態では、教師信号s(t)が初期音成分(振幅スペクトルSd(k,m))と残響成分(振幅スペクトルSr(k,m))とに区分され、初期音成分の基底ベクトルf(n)と残響成分の基底ベクトルf(n)とを個別に含む基底行列Fが教師情報Pとして生成される。したがって、初期音成分と残響成分とを区別せずに教師情報を生成する構成と比較すると、教師信号s(t)と観測信号x(t)とで残響成分の程度が相違する場合(例えば観測信号x(t)が教師信号s(t)と比較して残響成分を豊富に含む場合)でも第1音源と第2音源とを高精度に分離することが可能である。
また、第1実施形態では、既知の第1音源の基底行列Fを教師情報Pとして利用した教師あり非負値行列因子分解が実行されるから、観測信号x(t)のうち第1音源の音響は行列FGに反映され、観測信号x(t)のうち第2音源の音響は行列HUに反映される。すなわち、第1音源に対応する行列FGと第2音源に対応する行列HUとが個別に特定される。したがって、非特許文献1や非特許文献2の教師なし非負値行列因子分解と比較して、観測信号x(t)を第1音源と第2音源とで高精度に分離できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図8は、第2実施形態における演算処理装置12の機能のブロック図である。図8に示すように、第2実施形態の学習処理部20は第1実施形態と同様の構成である。ただし、学習処理部20の教師情報生成部26が生成した初期音基底行列Fdと残響基底行列Frとが教師情報Pとして個別に記憶装置14に記憶される。
図8に示すように、第2実施形態では第1実施形態の分離処理部30Aが分離処理部30Bに置換される。分離処理部30Bは、周波数分析部32と残響処理部72と行列分解部34Bと合成部74と音響生成部36とを含んで構成される。周波数分析部32および音響生成部36の構成および動作は第1実施形態と同様である。
図8の残響処理部72は、周波数分析部32が単位期間毎に生成した観測信号x(t)の振幅スペクトルX(k,m)を初期音成分の振幅スペクトルXd(k,m)と残響成分の振幅スペクトルXr(k,m)とに分離する。残響処理部72の構成および動作は、図3および図5を参照して説明した第1実施形態の残響処理部24と同様である。すなわち、残響処理部72は、観測信号x(t)に追従する第1指標値Q1(k,m)と第2指標値Q2(k,m)とを算定し(指標値算定部50A)、第1指標値Q1(k,m)と第2指標値Q2(k,m)との比R(k,m)に応じた調整値Gd(k,m)と調整値Gr(k,m)とを算定し(調整値算定部60)、振幅スペクトルX(k,m)に調整値Gd(k,m)を作用させることで初期音成分の振幅スペクトルXd(k,m)を生成するとともに振幅スペクトルX(k,m)に調整値Gr(k,m)を作用させることで残響成分の振幅スペクトルXr(k,m)を生成する(調整処理部244)。
図8の行列分解部34Bは、初期音成分の振幅スペクトルXd(k,m)を処理する第1分解部341と残響成分の振幅スペクトルXr(k,m)を処理する第2分解部342とを含んで構成される。第1分解部341は、M個の単位期間にわたる振幅スペクトルXd(k,m)を時系列に配列した観測行列Yd(観測信号x(t)の初期音成分の振幅スペクトログラム)に対し、記憶装置14に記憶された初期音基底行列Fdを教師情報Pとして適用した教師あり非負値行列因子分解を実行する。同様に、第2分解部342は、M個の単位期間にわたる振幅スペクトルXr(k,m)を時系列に配列した観測行列Yr(観測信号x(t)の残響成分の振幅スペクトログラム)に対し、記憶装置14に記憶された残響基底行列Frを教師情報Pとして適用した教師あり非負値行列因子分解を実行する。
第1分解部341および第2分解部342の各々の処理内容は第1実施形態の行列分解部34Aと同様である。したがって、第1分解部341は、観測信号x(t)の初期音成分のうち第1音源の音響を強調した振幅スペクトルZ1d(k,m)と、観測信号x(t)の初期音成分のうち第2音源の音響を強調した振幅スペクトルZ2d(k,m)とを単位期間毎に順次に生成する。同様に、第2分解部342は、観測信号x(t)の残響成分のうち第1音源の音響を強調した振幅スペクトルZ1r(k,m)と、観測信号x(t)の残響成分のうち第2音源の音響を強調した振幅スペクトルZ2r(k,m)とを生成する。
合成部74は、第1分解部341が生成した振幅スペクトルZ1d(k,m)および振幅スペクトルZ2d(k,m)と第2分解部342が生成した振幅スペクトルZ1r(k,m)および振幅スペクトルZ2r(k,m)とを適宜に合成する。具体的には、第2実施形態の合成部74は、振幅スペクトルZ1d(k,m)と振幅スペクトルZ1r(k,m)とを合成(例えば加算)することで振幅スペクトルZ1(k,m)を生成し、振幅スペクトルZ2d(k,m)と振幅スペクトルZ2r(k,m)とを合成(例えば加算)することで振幅スペクトルZ2(k,m)を生成する。音響生成部36は、第1実施形態と同様に、振幅スペクトルZ1(k,m)に応じた音響信号z1(t)と振幅スペクトルZ2(k,m)に応じた音響信号z2(t)とを生成する。したがって、音響信号z1(t)では観測信号x(t)のうち第1音源の音響が強調され、音響信号z2(t)では観測信号x(t)のうち第2音源の音響が強調される。
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、観測信号x(t)が初期音成分の振幅スペクトルXd(k,m)と残響成分の振幅スペクトルXr(k,m)とに分離されたうえで、初期音成分および残響成分の各々について個別に教師あり非負値行列因子分解が実行されるから、第1実施形態と比較して第1音源と第2音源とを高精度に分離することが可能である。
<第3実施形態>
前掲の数式(5)では、第1音源の音響に対応する行列FGと第2音源の音響に対応する行列HUとに観測行列Yを分解したが、以下の数式(17)で表現されるように、第1音源に対応する要素を第1音源の音響の初期音成分(FG)と残響成分(FV)とに分解することも可能である。
Figure 0005884473
数式(17)の行列Gは、観測信号x(t)の第1音源の音響(基底行列F)のうち初期音成分に対応する係数行列であり、行列Vは、観測信号x(t)の第1音源の音響のうち残響成分に対応する係数行列(以下「残響係数行列」という)である。すなわち、数式(17)の右辺の第1項の行列(以下「初期音行列」という)FGは、観測信号x(t)の第1音源の音響のうち初期音成分の振幅スペクトログラムに相当し、第3項の行列FV(以下「残響行列」という)は、観測信号x(t)の第1音源の音響のうち残響成分の振幅スペクトログラムに相当する。初期音行列FGと残響行列FVとの和(F(G+V))が第1音源の音響の振幅スペクトログラム(第1実施形態における行列FG)を意味する。なお、数式(17)の第2項の行列(以下「分離成分行列」という)HUは、第1実施形態と同様に、観測信号x(t)のうち第2音源の音響の振幅スペクトログラムに相当する。
第3実施形態の教師情報生成部26は、第1実施形態と同様の方法で教師信号s(t)に応じた基底行列Fを教師情報Pとして生成するほか、数式(17)の残響係数行列Vを生成する。具体的には、教師情報生成部26は、以下の数式(18)で表現されるように、観測信号x(t)の残響成分の振幅スペクトログラムを意味する観測行列Yr(振幅スペクトルXr(k,m)の時系列)を既知の基底行列Fの転置行列FTに乗算することで残響係数行列Vを算定する。観測行列Yrの生成には第2実施形態と同様の構成が採用され得る。
Figure 0005884473
なお、以下の数式(19)で表現されるように、基底行列Fを教師情報として利用した教師あり非負値行列因子分解で残響係数行列Vを算定することも可能である。すなわち、教師情報生成部26は、既知の基底行列Fと残響係数行列Vとの積FVと、任意の基底行列Aおよび係数行列Bの積ABとの和が観測信号x(t)の残響成分の観測行列Yrに近似するように残響係数行列Vを算定する。
Figure 0005884473
以上の方法で算定された残響係数行列Vは基底行列Fとともに記憶装置14に格納され、分離処理部30Aによる観測信号x(t)の教師あり非負値行列因子分解に適用される。第3実施形態の行列分解部34Aは、既知の基底行列Fおよび残響係数行列Vとの関係で前掲の数式(17)が成立するように、観測信号x(t)の第1音源の初期音成分に対応する係数行列Gと、観測信号x(t)の第2音源に対応する基底行列Hおよび係数行列Uとを算定する。すなわち、行列分解部34Aは、観測信号x(t)の第1音源の音響のうち初期音成分に対応する初期音行列FGと、観測信号x(t)の第2音源の音響に対応する分離成分行列HUと、観測信号x(t)の第1音源の音響のうち残響成分に対応する残響行列FVとの和が、観測信号x(t)の振幅スペクトログラムに相当する観測行列Yに近似するように、係数行列Gと基底行列Hと係数行列Uとを算定する。
具体的には、行列分解部34Aは、前掲の数式(14)から数式(16)と同様の手順で導出された以下の数式(20)から数式(22)の演算を反復することで、係数行列G(要素Gnm)と基底行列H(要素Hkd)と係数行列U(要素Udm)とを算定する。
Figure 0005884473
行列分解部34Aは、教師あり非負値行列因子分解の結果に応じて振幅スペクトルZ1(k,m)および振幅スペクトルZ2(k,m)を生成する。例えば、初期音行列FGの各列を振幅スペクトルZ1(k,m)として算定する構成や、初期音行列FGと残響行列FVとの和の各列を振幅スペクトルZ1(k,m)として算定する構成や、残響行列FVの各列を振幅スペクトルZ1(k,m)(すなわち、観測信号x(t)のうち第1音源の音響の残響成分)として算定する構成が採用され得る。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、基底行列Fに加えて残響係数行列Vを利用した教師あり非負値行列因子分解が実行されるから、第1実施形態と比較して第1音源と第2音源とを高精度に分離することが可能である。
<第4実施形態>
図9は、第4実施形態における解析処理部242のブロック図である。第4実施形態の解析処理部242は、図5に例示した第1実施形態の指標値算定部50Aを指標値算定部50Bに置換した構成である。指標値算定部50Bは、第1指標値Q1(k,m)および第2指標値Q2(k,m)を単位期間毎に順次に算定する要素であり、第1平滑部51と第2平滑部52と遅延部54とを含んで構成される。なお、調整値算定部60の構成および動作は第1実施形態と同様である。
第1平滑部51は、第1実施形態と同様に、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで第1指標値Q1(k,m)を単位期間毎に順次に算定する。遅延部54は、教師信号s(t)の振幅スペクトルS(k,m)を単位期間のd個分(dは自然数)に相当する時間だけ遅延させる記憶回路である。第2平滑部52は、遅延部54による遅延後の振幅スペクトルS(k,m)のパワーS(k,m)2の時系列を平滑化することで第2指標値Q2(k,m)を単位期間毎に順次に算定する。したがって、第2指標値Q2(k,m)の時間変化は、第1指標値Q1(k,m)の時間変化を単位期間のd個分だけ遅延させた関係にある(Q2(k,m)=Q1(k,m-d))。第4実施形態では、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1と同等とするが(τ2=τ1)、時定数τ1と時定数τ2とを相違させることも可能である。また、第1平滑部51が算定した第1指標値Q1(k,m)を遅延させることで第2指標値Q2(k,m)を算定する構成(第2平滑部52を省略した構成)も採用され得る。
図10の部分(B)は、図6の部分(A)と同様の室内インパルス応答(図10の部分(A))を教師信号s(t)として第4実施形態の音響処理装置100に供給した場合の第1指標値Q1(k,m)および第2指標値Q2(k,m)の時間変化のグラフである。
図10の部分(B)から理解されるように、第1指標値Q1(k,m)と第2指標値Q2(k,m)とで時間変化の態様(波形)は共通するが、第2指標値Q2(k,m)の時間変化は第1指標値Q1(k,m)の時間変化に対して単位期間のd個分だけ遅延する。すなわち、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性で教師信号s(t)のパワーS(k,m)2に追従する。したがって、第1実施形態と同様に、第1指標値Q1(k,m)と第2指標値Q2(k,m)との大小は時間軸上の特定の時点txで反転する。すなわち、時点txまでの区間SAでは第1指標値Q1(k,m)が第2指標値Q2(k,m)を上回り、時点tx以降の区間SBでは第2指標値Q2(k,m)が第1指標値Q1(k,m)を上回る。
比算定部62による比R(k,m)の算定(数式(3))や第1処理部64による調整値Gd(k,m)の算定や第2処理部66による調整値Gr(k,m)の算定は第1実施形態と同様である。したがって、図10の部分(C)に示すように、調整値Gd(k,m)は、初期音成分が存在する区間SAにて所定値Gmaxに設定され、残響成分が存在する区間SBでは所定値Gminまで経時的に減少する。したがって、第4実施形態においても第1実施形態と同様の効果が実現される。なお、第2実施形態や第3実施形態に第4実施形態を適用することも可能である。また、第2実施形態における分離処理部30Bの残響処理部72に図9の構成を採用することも可能である。
<変形例>
以上に例示した各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の各形態では、教師信号s(t)に対する教師あり非負値行列因子分解で初期音基底行列Fdと残響基底行列Frとを生成したが、初期音基底行列Fdや残響基底行列Frの生成方法は適宜に変更される。例えば、初期音成分の振幅スペクトルSd(k,m)の平均を初期音基底行列Fdの基底ベクトルf(n)として利用する方法や、残響成分の振幅スペクトルSr(k,m)の平均を残響基底行列Frの基底ベクトルf(n)として利用する方法も採用され得る。
(2)前述の各形態では、フロベニウスノルムを適用した非負値行列因子分解を例示したが、非負値行列因子分解に適用される距離規準はフロベニウスノルムに限定されない。具体的には、Kullback-Leibler擬距離やダイバージェンス等の公知の距離規準が任意に採用される。また、スパースネスの拘束条件を適用した非負値行列因子分解も採用される。
(3)前述の各形態では、初期音基底行列Fdと残響基底行列Frとの双方を含む基底行列Fを生成したが、初期音基底行列Fdのみを基底行列Fとして利用する(残響基底行列Frを基底行列Fに含めない)ことも可能である。初期音基底行列Fdのみを基底行列Fとして利用した場合、第1音源の初期音成分と残響成分とを含む観測信号x(t)から、第1音源の初期音成分を強調した音響信号z1(t)と残響成分を強調した音響信号z2(t)とが生成される。すなわち、観測信号x(t)が初期音成分と残響成分とに分離される。したがって、例えば、観測信号x(t)の初期音成分と残響成分との各々について別個の音響処理(例えば効果付与)を実行したうえで相互に混合することで新規な音響効果を実現することが可能である。以上の説明から理解されるように、本発明の適用範囲は、観測信号x(t)を音源毎に分離する場合には限定されず、観測信号x(t)を初期音成分と残響成分とに分離する場合も包含する。
(4)前述の各形態では、教師信号s(t)のパワーS(k,m)2の単純移動平均を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定したが、第1指標値Q1(k,m)および第2指標値Q2(k,m)の算定方法は以上の例示に限定されない。例えば、以下の数式(23A)および数式(23B)で表現されるように、教師信号s(t)のパワーS(k,m)2の指数平均(指数移動平均)を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定することも可能である。
Figure 0005884473
すなわち、第1平滑部51および第2平滑部52は、IIR(infinite impulse response)型のローパスフィルタに相当する。数式(23A)の記号α1および数式(23B)の記号α2は平滑化係数(忘却係数)である。具体的には、平滑化係数α1は、過去の第1指標値Q1(k,m-1)に対する現在のパワーS(k,m)2の重みを意味し、平滑化係数α2は、過去の第2指標値Q2(k,m-1)に対する現在のパワーS(k,m)2の重みを意味する。平滑化係数α2は、平滑化係数α1を下回る数値に設定される(α2<α1)。したがって、第1実施形態と同様に、第2平滑部52による平滑化の時定数τ2は第1平滑部51による平滑化の時定数τ1を上回る(τ2>τ1)。すなわち、第2指標値Q2(k,m)は、第1指標値Q1(k,m)と比較して低い追従性で教師信号s(t)のパワーS(k,m)2に追従する。
また、以下の数式(24A)および数式(24B)で表現されるように、教師信号s(t)のパワーS(k,m)2の加重移動平均を第1指標値Q1(k,m)および第2指標値Q2(k,m)として算定することも可能である。数式(24A)の記号w1(i)および数式(24B)の記号w2(i)は、第m番目の単位期間からみて前方の第i番目に位置する単位期間に対する加重値を意味する。第2期間が第1期間よりも長いという条件(N2>N1)は前掲の例示と同様である。
Figure 0005884473
また、前述の各形態では、教師信号s(t)のパワーS(k,m)2の時系列を平滑化することで第1指標値Q1(k,m)および第2指標値Q2(k,m)を算定したが、第1平滑部51や第2平滑部52による平滑化の対象はパワーS(k,m)2に限定されない。例えば、教師信号s(t)の振幅S(k,m)や振幅の4乗S(k,m)4を平滑化することで第1指標値Q1(k,m)や第2指標値Q2(k,m)を算定する構成も採用され得る。すなわち、前述の各形態における第1平滑部51や第2平滑部52は、教師信号s(t)の信号強度の時系列を平滑化する要素として包括され、信号強度は、教師信号s(t)のパワーS(k,m)2のほかに振幅S(k,m)や振幅の4乗S(k,m)4を包含する。
なお、以上の説明では残響処理部24による教師信号s(t)の処理を例示したが、観測信号x(t)を初期音成分と残響成分とに分離する第2実施形態の残響処理部72にも同様の変形が適用される。ただし、残響処理部24が教師信号s(t)を初期音成分と残響成分とに分離する処理や残響処理部72が観測信号x(t)を初期音成分と残響成分とに分離する処理は、前述の各形態で例示した方法に限定されず、公知の技術(残響抽出技術/残響抑圧技術)を任意に採用することが可能である。
100……音響処理装置、200……信号供給装置、12……演算処理装置、14……記憶装置、20……学習処理部、22……周波数分析部、24……残響処理部、242……解析処理部、244……調整処理部、26……教師情報生成部、30A,30B……分離処理部、32……周波数分析部、34A,34B……行列分解部、341……第1分解部、342……第2分解部、36……音響生成部、50A,50B……指標値算定部、51……第1平滑部、52……第2平滑部、54……遅延部、60……調整値算定部、62……比算定部、64……第1処理部、66……第2処理部、72……残響処理部、74……合成部。

Claims (6)

  1. 第1音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成する第1残響処理手段と、
    前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第1基底行列を、前記第1音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と
    を具備する音響処理装置。
  2. 前記教師情報生成手段が生成した前記教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段を具備し、
    前記教師情報生成手段は、前記第1基底行列の各基底ベクトルに対する加重値の時間変化を示す残響係数行列を生成し、
    前記行列分解手段は、
    前記教師情報生成手段が生成した前記第1基底行列と、前記第1基底行列の基底ベクトルに対する加重値の時間変化を示す第1係数行列とを乗算した初期音行列と、
    前記観測信号のうち前記第1音源以外の音源の音響成分のスペクトルに対応した基底ベクトルを含む第2基底行列と、前記第2基底行列の基底ベクトルに対する加重値の時間変化を示す第2係数行列とを乗算した分離成分行列と、
    前記教師情報生成手段が生成した前記第1基底行列と前記残響係数行列とを乗算した残響行列と
    の和が前記観測信号の前記観測行列に近似するように、前記第1係数行列と前記第2基底行列と前記第2係数行列とを算定する
    請求項1の音響処理装置。
  3. 第1音源の音響を示す教師信号から残響成分を抑圧した初期音成分と前記残響成分とを生成する第1残響処理手段と、
    前記教師信号の初期音成分のスペクトルに対応した基底ベクトルと前記教師信号の残響成分のスペクトルに対応した基底ベクトルとを含む第1基底行列を、前記第1音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と
    を具備する音響処理装置。
  4. 第1音源の音響を示す教師信号から残響成分を抑圧した初期音成分と前記残響成分とを生成する第1残響処理手段と、
    前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む初期音基底行列と、前記教師信号の残響成分のスペクトルに対応した基底ベクトルを含む残響基底行列とを、前記第1音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する教師情報生成手段と、
    前記観測信号から初期音成分と残響成分とを生成する第2残響処理手段と、
    前記教師情報生成手段が生成した前記教師情報を適用した教師あり非負値行列因子分解を実行する行列分解手段とを具備し
    前記行列分解手段は、
    前記観測信号の初期音成分のスペクトルの時系列を示す第1観測行列に対して前記初期音基底行列を適用した教師あり非負値行列因子分解を実行する第1分解手段と、
    前記観測信号の残響成分のスペクトルの時系列を示す第2観測行列に対して前記残響基底行列を適用した教師あり非負値行列因子分解を実行する第2分解手段とを含む
    音響処理装置。
  5. 前記第1残響処理手段は、
    前記教師信号の時間変化に追従する第1指標値と、前記第1指標値と比較して低い追従性で前記教師信号の時間変化に追従する第2指標値とを算定する指標値算定手段と、
    前記教師信号の残響成分を抑圧するための第1調整値と前記教師信号の残響成分を強調するための第2調整値とを前記第1指標値と前記第2指標値との相違に応じて算定する調整値算定手段と、
    前記第1調整値を前記教師信号に作用させることで初期音成分を生成し、前記第2調整値を前記教師信号に作用させることで残響成分を生成する調整処理手段とを含む
    請求項3または請求項4の音響処理装置。
  6. コンピュータシステムが、
    第1音源の音響を示す教師信号から残響成分を抑圧した初期音成分を生成し、
    前記教師信号の初期音成分のスペクトルに対応した基底ベクトルを含む第1基底行列を、前記第1音源の音響を含む観測信号のスペクトルの時系列を示す観測行列に対して実行される教師あり非負値行列因子分解の教師情報として生成する
    音響処理方法。
JP2011283700A 2011-12-26 2011-12-26 音響処理装置および音響処理方法 Expired - Fee Related JP5884473B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011283700A JP5884473B2 (ja) 2011-12-26 2011-12-26 音響処理装置および音響処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011283700A JP5884473B2 (ja) 2011-12-26 2011-12-26 音響処理装置および音響処理方法

Publications (2)

Publication Number Publication Date
JP2013134331A JP2013134331A (ja) 2013-07-08
JP5884473B2 true JP5884473B2 (ja) 2016-03-15

Family

ID=48911066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011283700A Expired - Fee Related JP5884473B2 (ja) 2011-12-26 2011-12-26 音響処理装置および音響処理方法

Country Status (1)

Country Link
JP (1) JP5884473B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980789A1 (en) 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
JP7149197B2 (ja) * 2019-02-06 2022-10-06 株式会社日立製作所 異常音検知装置および異常音検知方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
JP6019969B2 (ja) * 2011-11-22 2016-11-02 ヤマハ株式会社 音響処理装置

Also Published As

Publication number Publication date
JP2013134331A (ja) 2013-07-08

Similar Documents

Publication Publication Date Title
JP5942420B2 (ja) 音響処理装置および音響処理方法
EP2742435B1 (en) Processing a sound signal including transforming the sound signal into a frequency-chirp domain
JP6019969B2 (ja) 音響処理装置
KR102132500B1 (ko) 조화성 기반 단일 채널 음성 품질 추정 기법
JP5018193B2 (ja) 雑音抑圧装置およびプログラム
Saito et al. Specmurt analysis of polyphonic music signals
Moore et al. Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures
Nakano et al. Bayesian nonparametric spectrogram modeling based on infinite factorial infinite hidden Markov model
JPWO2009110574A1 (ja) 信号強調装置、その方法、プログラム及び記録媒体
Prätzlich et al. Kernel additive modeling for interference reduction in multi-channel music recordings
JP2012022120A (ja) 音響処理装置
JP5187666B2 (ja) 雑音抑圧装置およびプログラム
Duong et al. Multichannel harmonic and percussive component separation by joint modeling of spatial and spectral continuity
JP5884473B2 (ja) 音響処理装置および音響処理方法
JP5915281B2 (ja) 音響処理装置
CN109644304B (zh) 混响环境的源分离
JP5454330B2 (ja) 音響処理装置
EP3242295B1 (en) A signal processor
JP5263020B2 (ja) 信号処理装置
JP6299279B2 (ja) 音響処理装置および音響処理方法
JP2015049406A (ja) 音響信号解析装置、方法、及びプログラム
JP5895529B2 (ja) 残響解析装置および残響解析方法
JP2015169901A (ja) 音響処理装置
JP2014215544A (ja) 音響処理装置
JP2013182161A (ja) 音響処理装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141023

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160125

R151 Written notification of patent or utility model registration

Ref document number: 5884473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees