JP2014222281A

JP2014222281A - 音響処理装置

Info

Publication number: JP2014222281A
Application number: JP2013101535A
Authority: JP
Inventors: ジェイナージョルディ; Janner Geordi; マークサーリカルド; Marxer Ricardo; ジョルディ　ボナダ; Bonada Jordi; ボナダジョルディ; 近藤　多伸; Kazunobu Kondo; 多伸近藤; 祐高橋; Yu Takahashi
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2014-11-27

Abstract

【課題】非負値行列因子分解で分離対象音を分離するための基底行列を高精度に生成する。【解決手段】音像の定位方向の指定音像範囲ＲLを利用者からの指示に応じて設定する範囲設定部３４と、相異なる方向に音像が定位する複数の音響成分（第１分離成分、第２分離成分）を含有する音響信号ＳAの各周波数成分Ｘ[m,n]の時系列を示す観測行列Ｙを適用した学習処理を実行することで非負値行列因子分解に利用される基底行列Ｆを生成する学習処理部３６を具備する。学習処理部３６は、観測行列Ｙの複数の要素（振幅|Ｘ[m,n]|）のうち範囲設定部３４が設定した指定音像範囲ＲL内に音像が定位する周波数成分Ｘ[m,n]に対応する各要素を学習処理にて抑制する。【選択図】図１

Description

本発明は、音響信号を音源毎に分離する技術に関し、音響信号の分離対象音を分離する非負値行列因子分解に適用される基底行列の学習処理に特に好適に利用される。

相異なる音源が発生した複数の音響の混合音を音源毎の音響に分離する音源分離技術が従来から提案されている。例えば特許文献１には、非負値行列因子分解（NMF：Non-negative Matrix Factorization）を利用した教師有音源分離が開示されている。分離対象となる音響（分離対象音）を単独で収録した学習音を示す観測行列を利用した学習処理により、非負値行列因子分解で分離対象音を分離するための基底行列（教師情報）が生成される。

特開２０１３−３３１９６号公報

特許文献１の技術では、分離対象音以外の音響が分離対象音とともに学習音に包含される場合に、学習処理で生成される基底行列が分離対象音以外の音響に影響されるため、分離対象音の基底行列を高精度に生成できないという問題がある。以上の事情を考慮して、本発明は、分離対象音以外の音響が分離対象音とともに学習音に包含される場合でも、非負値行列因子分解で分離対象音を分離するための基底行列を高精度に生成することを目的とする。

以上の課題を解決するために、本発明の音響処理装置は、音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、観測行列の複数の要素のうち範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を学習処理にて抑制する学習処理手段とを具備する。以上の構成によれば、観測行列のうち指定音像範囲内に音像が定位する周波数成分に対応する各要素が学習処理にて抑制されるから、音響信号のうち指定音像範囲に定位する周波数成分が基底行列の生成に与える影響は低減（理想的には除去）される。例えば、分離対象音（例えば後述の第１分離成分または第２分離成分）以外の音響成分の定位方向を包含するように利用者が指定音像範囲を指定すれば、観測行列のうち分離対象音以外の音響成分に対応する要素が抑制される。したがって、観測行列が分離対象音以外の音響成分を包含する場合でも、非負値行列因子分解で分離対象音を高精度に分離可能な基底行列を生成することができる。

本発明の好適な態様において、範囲設定手段は、周波数軸上の指定周波数範囲を利用者からの指示に応じて設定し、学習処理手段は、観測行列の複数の要素のうち、指定音像範囲内に音像が定位し、かつ、指定周波数範囲内の周波数成分に対応する各要素を学習処理にて抑制するする。以上の構成によれば、指定音像範囲内に音像が定位し、かつ、指定周波数範囲内の周波数成分に対応する要素が学習処理にて抑制される。したがって、例えば、指定音像範囲内に音像が定位する全周波数の周波数成分を抑制する構成と比較して、分離対象音を高精度に分離可能な基底行列を生成できるという利点がある。

本発明の好適な態様において、範囲設定手段は、時間軸上の指定時間範囲を利用者からの指示に応じて設定し、学習処理手段は、音響信号のうち指定時間範囲内の各周波数成分の時系列を示す観測行列を学習処理に適用する。以上の構成によれば、音響信号のうち指定時間範囲内の各周波数成分の時系列を示す観測行列が学習処理に適用されるから、例えば、音響信号の全区間にわたる観測行列を学習処理に適用する構成と比較して、分離対象音を高精度に分離可能な基底行列を生成できるという利点がある。

本発明の好適な態様において、学習処理手段は、観測行列の要素を抑制する抑制値と当該要素を維持する維持値との何れかに設定された抑制係数を要素とする抑制行列を観測行列に演算することで観測行列の各要素を抑制する。以上の構成によれば、観測行列のうち指定音像範囲内に音像が定位する周波数成分の各要素を学習処理にて簡便かつ確実に抑制できるという利点がある。抑制行列を観測行列に演算することで分離対象音以外の音響成分に対応する観測行列の各要素が抑制され、分離対象音を高精度に分離可能な基底行列を生成することができる。

本発明の好適な態様において、学習処理手段が生成した基底行列を利用して音響信号の非負値行列因子分解を実行する分離手段を具備する。以上の構成によれば、学習処理手段が生成した基底行列を利用した非負値行列因子分解で音響信号を分離することができる。

以上の各態様に係る音響処理装置は、音響信号の処理に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。具体的には、本発明のプログラムは、音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、観測行列の複数の要素のうち範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を学習処理にて抑制する学習処理手段としてコンピュータを機能させる。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

本発明の第１実施形態に係る音響処理装置のブロック図である。第１実施形態における音像分布画像の模式図である。基底行列を生成する学習処理の説明図である。学習処理部のブロック図である。抑制行列の説明図である。音響処理装置の動作のフローチャートである。第２実施形態における音像分布画像および時間波形画像の模式図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係る音響処理装置１００のブロック図である。図１に示すように、音響処理装置１００は、演算処理装置１２と記憶装置１４と入力装置２２と表示装置２４と放音装置２６とを具備するコンピュータシステムで実現される。表示装置２４（例えば液晶表示機器）は、演算処理装置１２による制御のもとで各種の画像を表示する。入力装置２２は、利用者からの指示を受付ける機器であり、例えば複数の操作子を含んで構成される。なお、表示装置２４と一体に構成されたタッチパネルを入力装置２２として採用することも可能である。

記憶装置１４は、演算処理装置１２が実行するプログラムや演算処理装置１２が使用する各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置１４として任意に採用される。本実施形態の記憶装置１４は音響信号ＳAを記憶する。音響信号ＳAは、相異なる方向に音像が定位する複数の音響成分を含有する左右２チャンネルのステレオ信号である。具体的には、楽曲の旋律を歌唱した歌唱音の音響成分と楽曲の伴奏を構成する複数の楽器の演奏音の音響成分との混合音が音響信号ＳAとして表現される。

第１実施形態の音響処理装置１００は、音響信号ＳAに対する分離処理と学習処理とを実行する信号処理装置である。分離処理は、記憶装置１４に記憶された音響信号ＳAに対する非負値行列因子分解で音響信号ＳBを生成する処理である。本実施形態の音響信号ＳAは、第１分離成分と第２分離成分とに分離される。第１分離成分は、音響信号ＳAのうち１以上の音源の音響成分であり、第２分離成分は、第１分離成分以外の音響成分（１以上の音源の音響成分）である。例えば前述の通り、歌唱音の音響成分と複数の楽器の伴奏音の音響成分とが混合された音響信号ＳAを想定すると、第１分離成分は伴奏音の音響成分であり、第２分離成分は歌唱音の音響成分である。第１分離成分および第２分離成分の一方を示す音響信号ＳBが音響信号ＳAに対する分離処理で生成される。図１の放音装置２６（例えばスピーカやヘッドホン）は、分離処理で生成された音響信号ＳBに応じた音波を放射する。他方、学習処理は、第１分離成分の音響特性を示す（第２分離成分の特性を除外した）基底行列Ｆを音響信号ＳAから生成する処理である。学習処理で生成された基底行列Ｆを教師情報（事前情報）として分離処理が実行される。

演算処理装置１２は、記憶装置１４に格納されたプログラムを実行することで、分離処理と学習処理とを実行するための各種の機能（周波数分析部３２，範囲設定部３４，学習処理部３６，分離処理部３８，波形合成部４０，表示制御部４２）を実現する。なお、演算処理装置１２の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばＤＳＰ）が各機能を実現する構成も採用され得る。

周波数分析部３２は、音響信号ＳAの振幅スペクトルＷ[n]を時間軸上の単位区間（フレーム）毎に順次に生成する。記号ｎは、音響信号ＳAを時間軸上で区分したＮ個（Ｎは２以上の自然数）の単位区間のうち任意の１個の単位区間を意味する（ｎ＝１〜Ｎ）。振幅スペクトルＷ[n]は、周波数軸上の相異なる周波数（周波数帯域）に対応する複数の周波数成分Ｘ[m,n]の振幅|Ｘ[m,n]|の系列である。記号ｍは、周波数軸上のＭ個の周波数（周波数ビン）のうち任意の１個の周波数を意味する（ｍ＝１〜Ｍ）。振幅スペクトルＷ[n]の生成には、例えば短時間フーリエ変換等の公知の周波数分析技術が任意に採用される。

図１の表示制御部４２は、図２に示す音像分布画像ＰAを表示装置２４に表示させる。音像分布画像ＰAは、定位-周波数平面における各周波数成分Ｘ[m,n]の音像の分布を表象する画像である。定位-周波数平面は、音響信号ＳAの各周波数成分Ｘ[m,n]の音像が定位する方向（音像の定位方向）θを示す定位軸ＡLと、各周波数成分Ｘ[m,n]の周波数を示す周波数軸ＡFとが設定された座標平面である。例えば定位軸ＡLの原点（θ＝０）が受聴者の正面方向に相当する。表示制御部４２は、音響信号ＳAの各周波数成分Ｘ[m,n]の定位方向θを単位区間毎に算定する。定位方向θの算定には、例えば以下の数式(1)が好適に利用される。数式(1)の記号|ＸL[m,n]|は音響信号ＳAの左チャンネルの周波数成分の振幅を意味し、記号|ＸR[m,n]|は音響信号ＳAの右チャンネルの周波数成分の振幅を意味する。なお、数式(1)の意義や導出については、例えば、M. Vinyes, J. Bonada, A. Loscos, "Demixing Commercial Music Productions via Human-Assisted Time-Frequency Masking"，Audio Engineering Society 120th Convention, France, 2006にも開示されている。

図１の範囲設定部３４は、入力装置２２に対する利用者からの操作に応じて、定位-周波数平面内に特定の範囲（以下「指定範囲」という）Ｒを設定する。具体的には、図２に示す通り、指定範囲Ｒは、定位軸ＡL上の特定の範囲（以下「指定音像範囲」という）ＲLと周波数軸ＡF上の特定の範囲（以下「指定周波数範囲」という）ＲFとで規定される。利用者は、入力装置２２を適宜に操作することで、指定音像範囲ＲLおよび指定周波数範囲ＲFの各々を指示および調整することが可能である。具体的には、利用者は、第２分離成分（歌唱音）が指定範囲Ｒに包含されるように入力装置２２を操作する。例えば、受聴者の正面方向に歌唱音が定位する場合を想定すると、範囲設定部３４は、正面方向（θ＝０）を包含するように指定音像範囲ＲLを利用者からの指示に応じて設定する。表示制御部４２は、範囲設定部３４が設定した指定範囲Ｒを音像分布画像ＰAに表示する。

図３に示すように、周波数分析部３２が生成するＮ個の振幅スペクトルＷ[1]〜Ｗ[N]の時系列（振幅スペクトログラム）を示す観測行列Ｙが構成される。したがって、観測行列Ｙは、音響信号ＳAの各周波数成分Ｘ[m,n]の振幅|Ｘ[m,n]|を要素とするＭ行Ｎ列の非負値行列である。すなわち、観測行列Ｙの第ｎ列は、音響信号ＳAのうち第ｎ番目の単位区間の振幅スペクトルＷ[n]に相当する。具体的には、観測行列Ｙのうち第ｍ行第ｎ列の要素は、音響信号ＳAの第ｎ番目の単位区間の振幅スペクトルＷ[n]のうち第ｍ番目の周波数の周波数成分Ｘ[m,n]の振幅|Ｘ[m,n]|を意味する。

図１の学習処理部３６は、非負値行列因子分解を利用した学習処理を音響信号ＳAの観測行列Ｙに対して実行することで基底行列Ｆを生成する。第１実施形態の学習処理部３６の詳細な説明に先立ち、非負値行列因子分解を利用して観測行列Ｙから基底行列Ｆを生成する一般的な学習処理について説明する。

図３は、観測行列Ｙから基底行列Ｆを生成する学習処理の説明図である。観測行列Ｙは、以下の数式(2)で表現されるように、非負値行列因子分解により基底行列Ｆと係数行列Ｑ（アクティベーション行列）とに分解される。

基底行列Ｆは、図３に示すように、音響信号ＳAの音響の各成分に対応するＫ個の基底ベクトルｆ[1]〜ｆ[K]を横方向に配列したＭ行Ｋ列の非負値行列である。基底行列Ｆのうち第ｋ列（ｋ＝１〜Ｋ）の基底ベクトルｆ[k]は、音響信号ＳAを構成するＫ個の成分（基底）のうち第ｋ番目の成分の振幅スペクトルに相当する。

数式(2)の係数行列Ｑは、図３に示すように、基底行列Ｆの各基底ベクトルｆ[k]に対応するＫ個の係数ベクトルｑ[1]〜ｑ[K]を縦方向に配列したＫ行Ｎ列の非負値行列である。係数行列Ｑの第ｋ行の係数ベクトルｑ[k]は、基底行列Ｆの基底ベクトルｆ[k]に対する加重値（活性度）の時系列に相当する。

観測行列Ｙの非負値行列因子分解では、観測行列Ｙと行列ＦＱとの類似度が最大となる（距離が最小となる、または、相関が最大となる）ように基底行列Ｆおよび係数行列Ｑが算定される。具体的には、観測行列Ｙと行列ＦＱとの距離（例えばフロベニウスノルム）が最小化するという条件から、以下の数式(3)および数式(4)が導出される。数式(3)および数式(4)における演算子「.−」は行列の要素毎の除算を意味し、演算子「.×」は行列の要素毎の乗算（アダマール積）を意味する。数式(3)および数式(4)の演算を反復して基底行列Ｆおよび係数行列Ｑを逐次的に更新する学習処理により基底行列Ｆおよび係数行列Ｑが算定される。

音響信号ＳAが例えば第１分離成分（伴奏音）のみで構成される場合、数式(3)および数式(4)の演算を反復することで、第１分離成分と第２分離成分とを分離する非負値行列因子分解の分離処理にて教師情報として利用される基底行列Ｆ（すなわち、第１分離成分の音響特性のみを反映した基底行列）を生成することが可能である。しかし、第１実施形態の音響信号ＳAは、第１分離成分および第２分離成分の双方を包含する。したがって、数式(3)および数式(4)の学習処理で生成される基底行列Ｆには、第１分離成分および第２分離成分の双方の音響特性が反映され、第１分離成分と第２分離成分とを分離する分離処理の教師情報としては利用できない。以上の事情を考慮して、第１実施形態の学習処理部３６は、音響信号ＳAの観測行列Ｙのうち第２分離成分に対応する要素を抑制しながら学習処理を実行することで、第１分離成分の音響特性を反映した基底行列（すなわち第２分離成分の影響が低減ないし除去された基底行列）Ｆを観測行列Ｙから生成する。具体的には、学習処理部３６は、図４に示すように、行列分解部４４と抑制行列生成部４６とを含んで構成される。

行列分解部４４は、音響信号ＳAの観測行列Ｙに対する非負値行列因子分解で基底行列Ｆと係数行列Ｑとを生成する。具体的には、行列分解部４４は、以下に例示する数式(5)および数式(6)の演算を反復して基底行列Ｆおよび係数行列Ｑを逐次的に更新することで基底行列Ｆおよび係数行列Ｑを生成する。基底行列Ｆおよび係数行列Ｑの初期値は例えば乱数に設定される。また、所定の条件が成立した時点（例えば所定の収束条件が成立した場合や反復回数が所定値に到達した場合）で数式(5)および数式(6)の演算の反復は終了し、その時点で最新の基底行列Ｆが記憶装置１４に格納される。

数式(5)および数式(6)の抑制行列Ｃは、音響信号ＳAの観測行列Ｙのうち第２分離成分に対応する要素を学習処理にて抑制するための行列（マスク）である。図４の抑制行列生成部４６は、行列分解部４４による演算に適用される抑制行列Ｃを生成する。

具体的には、抑制行列Ｃは、図５に示すように、観測行列Ｙの各要素（振幅|Ｘ[m,n]|）に対応する抑制係数α[m,n]（α[1,1]〜α[M,N]）を配列したＭ行Ｎ列の行列である。数式(5)および数式(6)から理解される通り、抑制行列Ｃは、観測行列Ｙに乗算されるほか、各回の更新後の行列ＦＱにも乗算される。すなわち、抑制行列Ｃのうち第ｍ行第ｎ列の抑制係数α[m,n]は、観測行列Ｙの第ｍ行第ｎ列の要素（振幅|Ｘ[m,n]|）に乗算されるとともに、最新の更新後の行列ＦＱにおける第ｍ行第ｎ列の要素に乗算される。抑制行列Ｃの各抑制係数α[m,n]は、抑制値α₀と維持値α₁との何れかに設定される。抑制値α₀は、観測行列Ｙの要素を抑制する数値（例えば０）であり、維持値α₁は、観測行列Ｙの要素を維持する数値（例えば１）である。

抑制行列生成部４６は、範囲設定部３４が設定した指定範囲Ｒに応じて抑制行列Ｃを生成する。具体的には、抑制行列生成部４６は、抑制行列Ｃのうち定位-周波数平面にて指定範囲Ｒの内側に位置する各周波数成分Ｘ[m,n]に対応する抑制係数α[m,n]を抑制値α₀に設定し、指定範囲Ｒの外側に位置する周波数成分Ｘ[m,n]に対応する抑制係数α[m,n]を維持値α₁に設定する。すなわち、抑制行列Ｃの複数の抑制係数α[1,1]〜α[M,N]のうち、指定音像範囲ＲL内に音像が定位し、かつ、指定周波数範囲ＲFに包含される各周波数成分Ｘ[m,n]に対応する抑制係数α[m,n]は抑制値α₀に設定され、残余の各抑制係数（すなわち、指定音像範囲ＲLの外側に音像が定位する周波数成分Ｘ[m,n]または指定周波数範囲ＲFの外側の周波数成分Ｘ[m,n]に対応する要素）α[m,n]は維持値α₁に設定される。上述した通り、本実施形態においては、第２分離成分を包含するように指定範囲Ｒが設定される。したがって、音響信号ＳAの第２分離成分に対応する抑制行列Ｃの各抑制係数α[m,n]は抑制値α₀に設定され、第１分離成分に対応する各抑制係数α[m,n]は維持値α₁に設定される。

以上に説明した抑制行列Ｃを適用した数式(5)および数式(6)の演算が反復されることで、観測行列Ｙのうち第２分離成分を構成する各周波数成分Ｘ[m,n]に対応する各要素は抑制され、第１分離成分を構成する各周波数成分Ｘ[m,n]に対応する各要素は維持される。したがって、本実施形態の学習処理によれば、第１分離成分および第２分離成分の双方が音響信号ＳAに包含されるにも関わらず、第１分離成分の音響特性を反映した基底行列（すなわち第２分離成分の影響が低減ないし除去された基底行列）Ｆを観測行列Ｙから生成することができる。すなわち、基底行列Ｆは、音響信号ＳAのうち第１分離成分を構成する各成分（基底）の振幅スペクトルを示すＫ個の基底ベクトルｆ[1]〜ｆ[K]を横方向に配列したＭ行Ｋ列の非負値行列である。

図１の分離処理部３８は、学習処理部３６が以上の手順で生成した基底行列Ｆを教師情報として利用した非負値行列因子分解（NMF）を観測行列Ｙに対して実行する。第１実施形態では、以下の数式(7)で表現されるように、周波数分析部３２が生成した観測行列Ｙを、基底行列Ｆと係数行列Ｇと基底行列Ｈと係数行列Ｕとに分解する。

前述のように基底行列Ｆには音響信号ＳAに包含される第１分離成分の音響特性が反映されるから、基底行列Ｆおよび係数行列Ｇは音響信号ＳAのうち第１分離成分に対応する。具体的には、係数行列Ｇは、基底行列Ｆの各基底ベクトルｆ[k]（第１分離成分の各成分の振幅スペクトル）の加重値の時系列を指定するＫ個の係数ベクトルを配列した非負値行列である。他方、基底行列Ｈおよび係数行列Ｕは、音響信号ＳAのうち第１分離成分以外の成分、すなわち第２分離成分に対応する。具体的には、基底行列Ｈは、音響信号ＳAの第２分離成分を構成する各成分の振幅スペクトルを示す複数の基底ベクトルを配列した非負値行列であり、係数行列Ｕは、基底行列Ｈの各基底ベクトルに対する加重値（すなわち第２分離成分の各成分の活性度）の時系列に相当する複数の係数ベクトルを配列した非負値行列である。

図１の波形合成部４０は、分離処理部３８が生成した行列（Ｇ,Ｈ,Ｕ）を利用して音響信号ＳBを生成する。具体的には、第１分離成分が指定された場合、波形合成部４０は、記憶装置１４に格納された基底行列Ｆと分離処理部３８が生成した係数行列Ｇとを乗算することで音響信号ＳAのうち第１分離成分の振幅スペクトログラムを算定し、各単位区間の振幅スペクトルと音響信号ＳAのその単位区間での位相スペクトルとを適用した逆フーリエ変換で時間領域の音響信号ＳBを生成する。他方、第２分離成分が指定された場合、波形合成部４０は、分離処理部３８が生成した基底行列Ｈと係数行列Ｕとを乗算することで音響信号ＳAのうち第２分離成分の振幅スペクトログラムを算定し、各単位区間の振幅スペクトルと音響信号ＳAのその単位区間での位相スペクトルとから時間領域の音響信号ＳBを生成する。すなわち、音響信号ＳAを第１分離成分と第２分離成分とに分離した音響信号ＳBが生成される。波形合成部４０が生成した音響信号ＳBが放音装置２６に供給されて音波として再生される。

図６は、演算処理装置１２が実行する処理のフローチャートである。入力装置２２に対する操作で音響信号ＳAの処理の開始が利用者から指示された場合に図６の処理が開始される。図６の処理を開始すると、周波数分析部３２は、記憶装置１４に記憶された音響信号ＳAの周波数分析で各周波数成分Ｘ[m,n]および観測行列Ｙを生成する（Ｓ11）。表示制御部４２は、図２の音像分布画像ＰAを表示装置２４に表示させ（Ｓ12）、範囲設定部３４は、音像分布画像ＰAに対する利用者からの指示に応じた指定範囲Ｒを設定する（Ｓ13）。

学習処理部３６は、観測行列Ｙに対する学習処理で基底行列Ｆを生成する（Ｓ14，Ｓ15）。具体的には、抑制行列生成部４６が、ステップＳ13で設定された指定範囲Ｒに応じた抑制行列Ｃを生成し（Ｓ14）、行列分解部４４は、ステップＳ14で生成された抑制行列Ｃを適用した数式(5)および数式(6)の演算の反復で基底行列Ｆを生成して記憶装置１４に格納する（Ｓ15）。

以上の学習処理で基底行列Ｆが生成されると、分離処理部３８は、ステップＳ11で生成された観測行列Ｙに対し、ステップＳ15で生成および記憶された基底行列Ｆを教師情報として利用した非負値行列因子分解で係数行列Ｇと基底行列Ｈと係数行列Ｕとを算定する（Ｓ16）。そして、波形合成部４０は、ステップＳ16で算定された各行列（Ｇ,Ｈ,Ｕ）を利用して音響信号ＳBを生成する（Ｓ17）。

以上に説明した形態では、観測行列Ｙのうち指定範囲Ｒ内に音像が定位する周波数成分Ｘ[m,n]（すなわち第２分離成分）が学習処理にて抑制されるから、音響信号ＳAが第１分離成分および第２分離成分の双方を包含するにも関わらず、第１分離成分と第２分離成分とを分離処理にて高精度に分離可能な基底行列Ｆを生成できるという利点がある。

第１実施形態では特に、観測行列Ｙのうち指定音像範囲ＲL内に音像が定位する各周波数成分Ｘ[m,n]が学習処理にて抑制されるから、特定の方向に音像が定位する成分（第２音響成分）を音響信号ＳAから分離可能な基底行列Ｆを生成することが可能である。また、第１実施形態では、観測行列Ｙのうち、指定音像範囲ＲL内に音像が定位し、かつ、指定周波数範囲ＲFに包含される周波数成分Ｘ[m,n]が学習処理にて抑制されるから、例えば音域が相違する複数の成分の音像が共通の方向に定位する場合でも、各成分を高精度に分離可能な基底行列Ｆを生成できるという利点がある。

また、第１実施形態では、抑制値α₀または維持値α₁に設定された抑制係数α[m,n]を配列した抑制行列Ｃが学習処理にて観測行列Ｙに乗算されるから、観測行列Ｙのうち第２分離成分に対応する周波数成分Ｘ[m,n]の各要素を簡易かつ確実に抑制できるという利点がある。

＜第２実施形態＞
本発明の第２実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第１実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。

第２実施形態の表示制御部４２は、図７に示すように、音像分布画像ＰAと時間波形画像ＰBとを表示装置２４に表示させる。時間波形画像ＰBは、時間軸ＡT上における音響信号ＳAの波形を示す画像である。

本実施形態の範囲設定部３４は、入力装置２２に対する利用者からの操作に応じて、時間軸ＡT上の特定の範囲（以下「指定時間範囲」という）ＲTを設定する。利用者は、音響信号ＳAのうち第１分離成分（伴奏音）を包含するとともに第２分離成分を包含しない区間（すなわち楽曲の伴奏区間）が指定時間範囲ＲTに包含されるように入力装置２２を適宜に操作する。また、第１実施形態と同様に、範囲設定部３４は、指定音像範囲ＲLおよび指定周波数範囲ＲFを利用者からの指示に応じて設定する。

本実施形態の観測行列Ｙは、音響信号ＳAのうち指定時間範囲ＲT内の各単位区間について周波数分析部３２が算定するＮ個の振幅スペクトルＷ[1]〜Ｗ[N]の時系列（振幅スペクトログラム）を示す。すなわち、観測行列Ｙの列数Ｎは、指定時間範囲ＲT内の単位区間の個数に相当する。観測行列Ｙを利用して基底行列Ｆを生成する学習処理の内容は第１実施形態と同様である。すなわち、学習処理部３６は、音響信号ＳAのうち指定時間範囲ＲT内の各周波数成分Ｘ[m,n]の時系列を示す観測行列Ｙを学習処理に適用する。分離処理部３８は、学習処理部３６が生成した基底行列Ｆを適用した第１実施形態と同様の分離処理を実行する。

第２実施形態においても、第１実施形態と同様な効果が得られる。また、第２実施形態では、音響信号ＳAのうち利用者からの指示に応じた指定時間範囲ＲT内の各周波数成分Ｘ[m,n]の時系列を示す観測行列Ｙを適用した学習処理で基底行列Ｆが生成される。したがって、音響信号ＳAのうち第２分離成分が少ない区間（または第２分離成分が存在しない区間）を利用者からの指示に応じて指定時間範囲ＲTとして設定することで、音響信号ＳAの全区間にわたる観測行列Ｙを利用して基底行列Ｆを生成する構成（第１実施形態）と比較して、第２分離成分の影響が充分に除去された基底行列Ｆ（すなわち第１分離成分と第２分離成分とを高精度に分離可能な基底行列Ｆ）を生成できるという利点がある。

＜変形例＞
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）分離処理の内容は適宜に変更される。例えば所定の拘束条件を導入することも可能である。具体的には、基底行列Ｆで表現される音響成分とは音響特性が相違する音響成分を基底行列Ｈとして抽出するための拘束条件が想定される。すなわち、基底行列Ｆと基底行列Ｈとの類似度が低下するという拘束条件を加味して導出された更新式を適用した分離処理で音響信号ＳBが生成される。以上の構成によれば、基底行列Ｆと基底行列Ｈとが共通した状態で数式(7)が成立する状況が回避されるから、第１分離成分と第２分離成分とを高精度に分離することが可能である。拘束条件を導入した非負値行列因子分解については、例えば、前掲の特許文献１に開示された技術が利用される。

（２）前述の各形態では、第１分離成分および第２分離成分の一方の音響信号ＳBを生成したが、第１分離成分の音響信号ＳBと第２分離成分の音響信号ＳBの双方を波形合成部４０が並列に生成することも可能である。例えば第１分離成分の音響信号ＳBと第２分離成分の音響信号ＳBとを並列に生成して各々に別個の音響処理を実行することが可能である。

（３）前述の各形態では、基底行列Ｆと係数行列Ｇとの乗算で第１分離成分の音響信号ＳBを生成し、基底行列Ｈと係数行列Ｕとの乗算で第２分離成分の音響信号ＳBを生成したが、分離処理で生成された各行列を利用して音響信号ＳAの処理用のフィルタを生成することも可能である。例えば、基底行列Ｆと係数行列Ｇとを乗算した行列から第１分離成分を抑圧または強調するためのフィルタ（例えばウィナーフィルタ）を生成して音響信号ＳAに作用させる構成や、基底行列Ｈと係数行列Ｕとを乗算した行列から第２分離成分を抑圧または強調するためのフィルタを生成して音響信号ＳAに作用させる構成が採用される。

（４）第１実施形態では、観測行列Ｙのうち指定音像範囲ＲLと指定周波数範囲ＲFとで規定される指定範囲Ｒ内の各周波数成分Ｘ[m,n]を学習処理にて抑制したが、指定周波数範囲ＲFの設定は省略され得る。具体的には、指定音像範囲ＲL内に音像が定位する全周波数にわたる周波数成分Ｘ[m,n]を学習処理にて抑制することも可能である。なお、指定周波数範囲ＲF内の周波数成分Ｘ[m,n]を学習処理にて抑制する構成（指定音像範囲ＲLの指定を省略した構成）や、指定時間範囲ＲT内の各周波数成分Ｘ[m,n]の観測行列Ｙについて数式(3)および数式(4)の学習処理を実行することで基底行列Ｆを生成する構成（指定音像範囲ＲLや指定周波数範囲ＲFの指定を省略した構成）も採用され得る。

（５）抑制行列Ｃの各抑制係数α[m,n]の数値（抑制値α₀，維持値α₁）は適宜に変更される。例えば、抑制値α₀を０以外の数値（例えば０．１）に設定し、維持値α₁を１以外の数値（例えば０．９）に設定することも可能である。ただし、第１実施形態で例示したように抑制値α₀を０に設定するとともに維持値α₁を１に設定した構成では、抑制値α₀および維持値α₁をそれ以外の数値とした場合と比較して、音響成分を高精度に分離できる基底行列Ｆを学習処理で生成できるという利点がある。

（６）前述の各形態では、フロベニウスノルムを適用した非負値行列因子分解を例示したが、非負値行列因子分解に適用される距離規準はフロベニウスノルムに限定されない。具体的には、Kullback-Leibler擬距離やダイバージェンス等の公知の距離規準が任意に採用される。また、スパースネスの拘束条件を適用した非負値行列因子分解も採用される。

１００……音響処理装置、１２……演算処理装置、１４……記憶装置、２２……入力装置、２４……表示装置、２６……放音装置、３２……周波数分析部、３４……範囲設定部、３６……学習処理部、３８……分離処理部、４０……波形合成部、４２……表示制御部、４４……行列生成部、４６……抑制行列生成部。

Claims

音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、
相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、前記観測行列の複数の要素のうち前記範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を前記学習処理にて抑制する学習処理手段と
を具備する音響処理装置。
前記範囲設定手段は、周波数軸上の指定周波数範囲を利用者からの指示に応じて設定し、
前記学習処理手段は、前記観測行列の複数の要素のうち、前記指定音像範囲内に音像が定位し、かつ、前記指定周波数範囲内の周波数成分に対応する各要素を前記学習処理にて抑制する
請求項１の音響処理装置。
前記範囲設定手段は、時間軸上の指定時間範囲を利用者からの指示に応じて設定し、
前記学習処理手段は、前記音響信号のうち前記指定時間範囲内の各周波数成分の時系列を示す観測行列を前記学習処理に適用する
請求項１または請求項２の音響処理装置。
前記学習処理手段は、前記観測行列の要素を抑制する抑制値と当該要素を維持する維持値との何れかに設定された抑制係数を要素とする抑制行列を前記観測行列に演算することで前記観測行列の各要素を抑制する
請求項１から請求項３の何れかの音響処理装置。
前記学習処理手段が生成した基底行列を利用して前記音響信号の非負値行列因子分解を実行する分離手段を具備する
請求項１から請求項４の何れかの音響処理装置。