JP2014222281A - 音響処理装置 - Google Patents

音響処理装置 Download PDF

Info

Publication number
JP2014222281A
JP2014222281A JP2013101535A JP2013101535A JP2014222281A JP 2014222281 A JP2014222281 A JP 2014222281A JP 2013101535 A JP2013101535 A JP 2013101535A JP 2013101535 A JP2013101535 A JP 2013101535A JP 2014222281 A JP2014222281 A JP 2014222281A
Authority
JP
Japan
Prior art keywords
matrix
range
sound
acoustic signal
sound image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013101535A
Other languages
English (en)
Inventor
ジェイナー ジョルディ
Janner Geordi
ジェイナー ジョルディ
マークサー リカルド
Marxer Ricardo
マークサー リカルド
ジョルディ ボナダ
Bonada Jordi
ボナダ ジョルディ
近藤 多伸
Kazunobu Kondo
多伸 近藤
祐 高橋
Yu Takahashi
祐 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2013101535A priority Critical patent/JP2014222281A/ja
Publication of JP2014222281A publication Critical patent/JP2014222281A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】非負値行列因子分解で分離対象音を分離するための基底行列を高精度に生成する。【解決手段】音像の定位方向の指定音像範囲RLを利用者からの指示に応じて設定する範囲設定部34と、相異なる方向に音像が定位する複数の音響成分(第1分離成分、第2分離成分)を含有する音響信号SAの各周波数成分X[m,n]の時系列を示す観測行列Yを適用した学習処理を実行することで非負値行列因子分解に利用される基底行列Fを生成する学習処理部36を具備する。学習処理部36は、観測行列Yの複数の要素(振幅|X[m,n]|)のうち範囲設定部34が設定した指定音像範囲RL内に音像が定位する周波数成分X[m,n]に対応する各要素を学習処理にて抑制する。【選択図】図1

Description

本発明は、音響信号を音源毎に分離する技術に関し、音響信号の分離対象音を分離する非負値行列因子分解に適用される基底行列の学習処理に特に好適に利用される。
相異なる音源が発生した複数の音響の混合音を音源毎の音響に分離する音源分離技術が従来から提案されている。例えば特許文献1には、非負値行列因子分解(NMF:Non-negative Matrix Factorization)を利用した教師有音源分離が開示されている。分離対象となる音響(分離対象音)を単独で収録した学習音を示す観測行列を利用した学習処理により、非負値行列因子分解で分離対象音を分離するための基底行列(教師情報)が生成される。
特開2013−33196号公報
特許文献1の技術では、分離対象音以外の音響が分離対象音とともに学習音に包含される場合に、学習処理で生成される基底行列が分離対象音以外の音響に影響されるため、分離対象音の基底行列を高精度に生成できないという問題がある。以上の事情を考慮して、本発明は、分離対象音以外の音響が分離対象音とともに学習音に包含される場合でも、非負値行列因子分解で分離対象音を分離するための基底行列を高精度に生成することを目的とする。
以上の課題を解決するために、本発明の音響処理装置は、音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、観測行列の複数の要素のうち範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を学習処理にて抑制する学習処理手段とを具備する。以上の構成によれば、観測行列のうち指定音像範囲内に音像が定位する周波数成分に対応する各要素が学習処理にて抑制されるから、音響信号のうち指定音像範囲に定位する周波数成分が基底行列の生成に与える影響は低減(理想的には除去)される。例えば、分離対象音(例えば後述の第1分離成分または第2分離成分)以外の音響成分の定位方向を包含するように利用者が指定音像範囲を指定すれば、観測行列のうち分離対象音以外の音響成分に対応する要素が抑制される。したがって、観測行列が分離対象音以外の音響成分を包含する場合でも、非負値行列因子分解で分離対象音を高精度に分離可能な基底行列を生成することができる。
本発明の好適な態様において、範囲設定手段は、周波数軸上の指定周波数範囲を利用者からの指示に応じて設定し、学習処理手段は、観測行列の複数の要素のうち、指定音像範囲内に音像が定位し、かつ、指定周波数範囲内の周波数成分に対応する各要素を学習処理にて抑制するする。以上の構成によれば、指定音像範囲内に音像が定位し、かつ、指定周波数範囲内の周波数成分に対応する要素が学習処理にて抑制される。したがって、例えば、指定音像範囲内に音像が定位する全周波数の周波数成分を抑制する構成と比較して、分離対象音を高精度に分離可能な基底行列を生成できるという利点がある。
本発明の好適な態様において、範囲設定手段は、時間軸上の指定時間範囲を利用者からの指示に応じて設定し、学習処理手段は、音響信号のうち指定時間範囲内の各周波数成分の時系列を示す観測行列を学習処理に適用する。以上の構成によれば、音響信号のうち指定時間範囲内の各周波数成分の時系列を示す観測行列が学習処理に適用されるから、例えば、音響信号の全区間にわたる観測行列を学習処理に適用する構成と比較して、分離対象音を高精度に分離可能な基底行列を生成できるという利点がある。
本発明の好適な態様において、学習処理手段は、観測行列の要素を抑制する抑制値と当該要素を維持する維持値との何れかに設定された抑制係数を要素とする抑制行列を観測行列に演算することで観測行列の各要素を抑制する。以上の構成によれば、観測行列のうち指定音像範囲内に音像が定位する周波数成分の各要素を学習処理にて簡便かつ確実に抑制できるという利点がある。抑制行列を観測行列に演算することで分離対象音以外の音響成分に対応する観測行列の各要素が抑制され、分離対象音を高精度に分離可能な基底行列を生成することができる。
本発明の好適な態様において、学習処理手段が生成した基底行列を利用して音響信号の非負値行列因子分解を実行する分離手段を具備する。以上の構成によれば、学習処理手段が生成した基底行列を利用した非負値行列因子分解で音響信号を分離することができる。
以上の各態様に係る音響処理装置は、音響信号の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。具体的には、本発明のプログラムは、音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、観測行列の複数の要素のうち範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を学習処理にて抑制する学習処理手段としてコンピュータを機能させる。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
本発明の第1実施形態に係る音響処理装置のブロック図である。 第1実施形態における音像分布画像の模式図である。 基底行列を生成する学習処理の説明図である。 学習処理部のブロック図である。 抑制行列の説明図である。 音響処理装置の動作のフローチャートである。 第2実施形態における音像分布画像および時間波形画像の模式図である。
<第1実施形態>
図1は、本発明の第1実施形態に係る音響処理装置100のブロック図である。図1に示すように、音響処理装置100は、演算処理装置12と記憶装置14と入力装置22と表示装置24と放音装置26とを具備するコンピュータシステムで実現される。表示装置24(例えば液晶表示機器)は、演算処理装置12による制御のもとで各種の画像を表示する。入力装置22は、利用者からの指示を受付ける機器であり、例えば複数の操作子を含んで構成される。なお、表示装置24と一体に構成されたタッチパネルを入力装置22として採用することも可能である。
記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。例えば半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として任意に採用される。本実施形態の記憶装置14は音響信号SAを記憶する。音響信号SAは、相異なる方向に音像が定位する複数の音響成分を含有する左右2チャンネルのステレオ信号である。具体的には、楽曲の旋律を歌唱した歌唱音の音響成分と楽曲の伴奏を構成する複数の楽器の演奏音の音響成分との混合音が音響信号SAとして表現される。
第1実施形態の音響処理装置100は、音響信号SAに対する分離処理と学習処理とを実行する信号処理装置である。分離処理は、記憶装置14に記憶された音響信号SAに対する非負値行列因子分解で音響信号SBを生成する処理である。本実施形態の音響信号SAは、第1分離成分と第2分離成分とに分離される。第1分離成分は、音響信号SAのうち1以上の音源の音響成分であり、第2分離成分は、第1分離成分以外の音響成分(1以上の音源の音響成分)である。例えば前述の通り、歌唱音の音響成分と複数の楽器の伴奏音の音響成分とが混合された音響信号SAを想定すると、第1分離成分は伴奏音の音響成分であり、第2分離成分は歌唱音の音響成分である。第1分離成分および第2分離成分の一方を示す音響信号SBが音響信号SAに対する分離処理で生成される。図1の放音装置26(例えばスピーカやヘッドホン)は、分離処理で生成された音響信号SBに応じた音波を放射する。他方、学習処理は、第1分離成分の音響特性を示す(第2分離成分の特性を除外した)基底行列Fを音響信号SAから生成する処理である。学習処理で生成された基底行列Fを教師情報(事前情報)として分離処理が実行される。
演算処理装置12は、記憶装置14に格納されたプログラムを実行することで、分離処理と学習処理とを実行するための各種の機能(周波数分析部32,範囲設定部34,学習処理部36,分離処理部38,波形合成部40,表示制御部42)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が各機能を実現する構成も採用され得る。
周波数分析部32は、音響信号SAの振幅スペクトルW[n]を時間軸上の単位区間(フレーム)毎に順次に生成する。記号nは、音響信号SAを時間軸上で区分したN個(Nは2以上の自然数)の単位区間のうち任意の1個の単位区間を意味する(n=1〜N)。振幅スペクトルW[n]は、周波数軸上の相異なる周波数(周波数帯域)に対応する複数の周波数成分X[m,n]の振幅|X[m,n]|の系列である。記号mは、周波数軸上のM個の周波数(周波数ビン)のうち任意の1個の周波数を意味する(m=1〜M)。振幅スペクトルW[n]の生成には、例えば短時間フーリエ変換等の公知の周波数分析技術が任意に採用される。
図1の表示制御部42は、図2に示す音像分布画像PAを表示装置24に表示させる。音像分布画像PAは、定位-周波数平面における各周波数成分X[m,n]の音像の分布を表象する画像である。定位-周波数平面は、音響信号SAの各周波数成分X[m,n]の音像が定位する方向(音像の定位方向)θを示す定位軸ALと、各周波数成分X[m,n]の周波数を示す周波数軸AFとが設定された座標平面である。例えば定位軸ALの原点(θ=0)が受聴者の正面方向に相当する。表示制御部42は、音響信号SAの各周波数成分X[m,n]の定位方向θを単位区間毎に算定する。定位方向θの算定には、例えば以下の数式(1)が好適に利用される。数式(1)の記号|XL[m,n]|は音響信号SAの左チャンネルの周波数成分の振幅を意味し、記号|XR[m,n]|は音響信号SAの右チャンネルの周波数成分の振幅を意味する。なお、数式(1)の意義や導出については、例えば、M. Vinyes, J. Bonada, A. Loscos, "Demixing Commercial Music Productions via Human-Assisted Time-Frequency Masking",Audio Engineering Society 120th Convention, France, 2006にも開示されている。
Figure 2014222281
図1の範囲設定部34は、入力装置22に対する利用者からの操作に応じて、定位-周波数平面内に特定の範囲(以下「指定範囲」という)Rを設定する。具体的には、図2に示す通り、指定範囲Rは、定位軸AL上の特定の範囲(以下「指定音像範囲」という)RLと周波数軸AF上の特定の範囲(以下「指定周波数範囲」という)RFとで規定される。利用者は、入力装置22を適宜に操作することで、指定音像範囲RLおよび指定周波数範囲RFの各々を指示および調整することが可能である。具体的には、利用者は、第2分離成分(歌唱音)が指定範囲Rに包含されるように入力装置22を操作する。例えば、受聴者の正面方向に歌唱音が定位する場合を想定すると、範囲設定部34は、正面方向(θ=0)を包含するように指定音像範囲RLを利用者からの指示に応じて設定する。表示制御部42は、範囲設定部34が設定した指定範囲Rを音像分布画像PAに表示する。
図3に示すように、周波数分析部32が生成するN個の振幅スペクトルW[1]〜W[N]の時系列(振幅スペクトログラム)を示す観測行列Yが構成される。したがって、観測行列Yは、音響信号SAの各周波数成分X[m,n]の振幅|X[m,n]|を要素とするM行N列の非負値行列である。すなわち、観測行列Yの第n列は、音響信号SAのうち第n番目の単位区間の振幅スペクトルW[n]に相当する。具体的には、観測行列Yのうち第m行第n列の要素は、音響信号SAの第n番目の単位区間の振幅スペクトルW[n]のうち第m番目の周波数の周波数成分X[m,n]の振幅|X[m,n]|を意味する。
図1の学習処理部36は、非負値行列因子分解を利用した学習処理を音響信号SAの観測行列Yに対して実行することで基底行列Fを生成する。第1実施形態の学習処理部36の詳細な説明に先立ち、非負値行列因子分解を利用して観測行列Yから基底行列Fを生成する一般的な学習処理について説明する。
図3は、観測行列Yから基底行列Fを生成する学習処理の説明図である。観測行列Yは、以下の数式(2)で表現されるように、非負値行列因子分解により基底行列Fと係数行列Q(アクティベーション行列)とに分解される。
Figure 2014222281
基底行列Fは、図3に示すように、音響信号SAの音響の各成分に対応するK個の基底ベクトルf[1]〜f[K]を横方向に配列したM行K列の非負値行列である。基底行列Fのうち第k列(k=1〜K)の基底ベクトルf[k]は、音響信号SAを構成するK個の成分(基底)のうち第k番目の成分の振幅スペクトルに相当する。
数式(2)の係数行列Qは、図3に示すように、基底行列Fの各基底ベクトルf[k]に対応するK個の係数ベクトルq[1]〜q[K]を縦方向に配列したK行N列の非負値行列である。係数行列Qの第k行の係数ベクトルq[k]は、基底行列Fの基底ベクトルf[k]に対する加重値(活性度)の時系列に相当する。
観測行列Yの非負値行列因子分解では、観測行列Yと行列FQとの類似度が最大となる(距離が最小となる、または、相関が最大となる)ように基底行列Fおよび係数行列Qが算定される。具体的には、観測行列Yと行列FQとの距離(例えばフロベニウスノルム)が最小化するという条件から、以下の数式(3)および数式(4)が導出される。数式(3)および数式(4)における演算子「.−」は行列の要素毎の除算を意味し、演算子「.×」は行列の要素毎の乗算(アダマール積)を意味する。数式(3)および数式(4)の演算を反復して基底行列Fおよび係数行列Qを逐次的に更新する学習処理により基底行列Fおよび係数行列Qが算定される。
Figure 2014222281
音響信号SAが例えば第1分離成分(伴奏音)のみで構成される場合、数式(3)および数式(4)の演算を反復することで、第1分離成分と第2分離成分とを分離する非負値行列因子分解の分離処理にて教師情報として利用される基底行列F(すなわち、第1分離成分の音響特性のみを反映した基底行列)を生成することが可能である。しかし、第1実施形態の音響信号SAは、第1分離成分および第2分離成分の双方を包含する。したがって、数式(3)および数式(4)の学習処理で生成される基底行列Fには、第1分離成分および第2分離成分の双方の音響特性が反映され、第1分離成分と第2分離成分とを分離する分離処理の教師情報としては利用できない。以上の事情を考慮して、第1実施形態の学習処理部36は、音響信号SAの観測行列Yのうち第2分離成分に対応する要素を抑制しながら学習処理を実行することで、第1分離成分の音響特性を反映した基底行列(すなわち第2分離成分の影響が低減ないし除去された基底行列)Fを観測行列Yから生成する。具体的には、学習処理部36は、図4に示すように、行列分解部44と抑制行列生成部46とを含んで構成される。
行列分解部44は、音響信号SAの観測行列Yに対する非負値行列因子分解で基底行列Fと係数行列Qとを生成する。具体的には、行列分解部44は、以下に例示する数式(5)および数式(6)の演算を反復して基底行列Fおよび係数行列Qを逐次的に更新することで基底行列Fおよび係数行列Qを生成する。基底行列Fおよび係数行列Qの初期値は例えば乱数に設定される。また、所定の条件が成立した時点(例えば所定の収束条件が成立した場合や反復回数が所定値に到達した場合)で数式(5)および数式(6)の演算の反復は終了し、その時点で最新の基底行列Fが記憶装置14に格納される。
Figure 2014222281
数式(5)および数式(6)の抑制行列Cは、音響信号SAの観測行列Yのうち第2分離成分に対応する要素を学習処理にて抑制するための行列(マスク)である。図4の抑制行列生成部46は、行列分解部44による演算に適用される抑制行列Cを生成する。
具体的には、抑制行列Cは、図5に示すように、観測行列Yの各要素(振幅|X[m,n]|)に対応する抑制係数α[m,n](α[1,1]〜α[M,N])を配列したM行N列の行列である。数式(5)および数式(6)から理解される通り、抑制行列Cは、観測行列Yに乗算されるほか、各回の更新後の行列FQにも乗算される。すなわち、抑制行列Cのうち第m行第n列の抑制係数α[m,n]は、観測行列Yの第m行第n列の要素(振幅|X[m,n]|)に乗算されるとともに、最新の更新後の行列FQにおける第m行第n列の要素に乗算される。抑制行列Cの各抑制係数α[m,n]は、抑制値α0と維持値α1との何れかに設定される。抑制値α0は、観測行列Yの要素を抑制する数値(例えば0)であり、維持値α1は、観測行列Yの要素を維持する数値(例えば1)である。
抑制行列生成部46は、範囲設定部34が設定した指定範囲Rに応じて抑制行列Cを生成する。具体的には、抑制行列生成部46は、抑制行列Cのうち定位-周波数平面にて指定範囲Rの内側に位置する各周波数成分X[m,n]に対応する抑制係数α[m,n]を抑制値α0に設定し、指定範囲Rの外側に位置する周波数成分X[m,n]に対応する抑制係数α[m,n]を維持値α1に設定する。すなわち、抑制行列Cの複数の抑制係数α[1,1]〜α[M,N]のうち、指定音像範囲RL内に音像が定位し、かつ、指定周波数範囲RFに包含される各周波数成分X[m,n]に対応する抑制係数α[m,n]は抑制値α0に設定され、残余の各抑制係数(すなわち、指定音像範囲RLの外側に音像が定位する周波数成分X[m,n]または指定周波数範囲RFの外側の周波数成分X[m,n]に対応する要素)α[m,n]は維持値α1に設定される。上述した通り、本実施形態においては、第2分離成分を包含するように指定範囲Rが設定される。したがって、音響信号SAの第2分離成分に対応する抑制行列Cの各抑制係数α[m,n]は抑制値α0に設定され、第1分離成分に対応する各抑制係数α[m,n]は維持値α1に設定される。
以上に説明した抑制行列Cを適用した数式(5)および数式(6)の演算が反復されることで、観測行列Yのうち第2分離成分を構成する各周波数成分X[m,n]に対応する各要素は抑制され、第1分離成分を構成する各周波数成分X[m,n]に対応する各要素は維持される。したがって、本実施形態の学習処理によれば、第1分離成分および第2分離成分の双方が音響信号SAに包含されるにも関わらず、第1分離成分の音響特性を反映した基底行列(すなわち第2分離成分の影響が低減ないし除去された基底行列)Fを観測行列Yから生成することができる。すなわち、基底行列Fは、音響信号SAのうち第1分離成分を構成する各成分(基底)の振幅スペクトルを示すK個の基底ベクトルf[1]〜f[K]を横方向に配列したM行K列の非負値行列である。
図1の分離処理部38は、学習処理部36が以上の手順で生成した基底行列Fを教師情報として利用した非負値行列因子分解(NMF)を観測行列Yに対して実行する。第1実施形態では、以下の数式(7)で表現されるように、周波数分析部32が生成した観測行列Yを、基底行列Fと係数行列Gと基底行列Hと係数行列Uとに分解する。
Figure 2014222281

前述のように基底行列Fには音響信号SAに包含される第1分離成分の音響特性が反映されるから、基底行列Fおよび係数行列Gは音響信号SAのうち第1分離成分に対応する。具体的には、係数行列Gは、基底行列Fの各基底ベクトルf[k](第1分離成分の各成分の振幅スペクトル)の加重値の時系列を指定するK個の係数ベクトルを配列した非負値行列である。他方、基底行列Hおよび係数行列Uは、音響信号SAのうち第1分離成分以外の成分、すなわち第2分離成分に対応する。具体的には、基底行列Hは、音響信号SAの第2分離成分を構成する各成分の振幅スペクトルを示す複数の基底ベクトルを配列した非負値行列であり、係数行列Uは、基底行列Hの各基底ベクトルに対する加重値(すなわち第2分離成分の各成分の活性度)の時系列に相当する複数の係数ベクトルを配列した非負値行列である。
図1の波形合成部40は、分離処理部38が生成した行列(G,H,U)を利用して音響信号SBを生成する。具体的には、第1分離成分が指定された場合、波形合成部40は、記憶装置14に格納された基底行列Fと分離処理部38が生成した係数行列Gとを乗算することで音響信号SAのうち第1分離成分の振幅スペクトログラムを算定し、各単位区間の振幅スペクトルと音響信号SAのその単位区間での位相スペクトルとを適用した逆フーリエ変換で時間領域の音響信号SBを生成する。他方、第2分離成分が指定された場合、波形合成部40は、分離処理部38が生成した基底行列Hと係数行列Uとを乗算することで音響信号SAのうち第2分離成分の振幅スペクトログラムを算定し、各単位区間の振幅スペクトルと音響信号SAのその単位区間での位相スペクトルとから時間領域の音響信号SBを生成する。すなわち、音響信号SAを第1分離成分と第2分離成分とに分離した音響信号SBが生成される。波形合成部40が生成した音響信号SBが放音装置26に供給されて音波として再生される。
図6は、演算処理装置12が実行する処理のフローチャートである。入力装置22に対する操作で音響信号SAの処理の開始が利用者から指示された場合に図6の処理が開始される。図6の処理を開始すると、周波数分析部32は、記憶装置14に記憶された音響信号SAの周波数分析で各周波数成分X[m,n]および観測行列Yを生成する(S11)。表示制御部42は、図2の音像分布画像PAを表示装置24に表示させ(S12)、範囲設定部34は、音像分布画像PAに対する利用者からの指示に応じた指定範囲Rを設定する(S13)。
学習処理部36は、観測行列Yに対する学習処理で基底行列Fを生成する(S14,S15)。具体的には、抑制行列生成部46が、ステップS13で設定された指定範囲Rに応じた抑制行列Cを生成し(S14)、行列分解部44は、ステップS14で生成された抑制行列Cを適用した数式(5)および数式(6)の演算の反復で基底行列Fを生成して記憶装置14に格納する(S15)。
以上の学習処理で基底行列Fが生成されると、分離処理部38は、ステップS11で生成された観測行列Yに対し、ステップS15で生成および記憶された基底行列Fを教師情報として利用した非負値行列因子分解で係数行列Gと基底行列Hと係数行列Uとを算定する(S16)。そして、波形合成部40は、ステップS16で算定された各行列(G,H,U)を利用して音響信号SBを生成する(S17)。
以上に説明した形態では、観測行列Yのうち指定範囲R内に音像が定位する周波数成分X[m,n](すなわち第2分離成分)が学習処理にて抑制されるから、音響信号SAが第1分離成分および第2分離成分の双方を包含するにも関わらず、第1分離成分と第2分離成分とを分離処理にて高精度に分離可能な基底行列Fを生成できるという利点がある。
第1実施形態では特に、観測行列Yのうち指定音像範囲RL内に音像が定位する各周波数成分X[m,n]が学習処理にて抑制されるから、特定の方向に音像が定位する成分(第2音響成分)を音響信号SAから分離可能な基底行列Fを生成することが可能である。また、第1実施形態では、観測行列Yのうち、指定音像範囲RL内に音像が定位し、かつ、指定周波数範囲RFに包含される周波数成分X[m,n]が学習処理にて抑制されるから、例えば音域が相違する複数の成分の音像が共通の方向に定位する場合でも、各成分を高精度に分離可能な基底行列Fを生成できるという利点がある。
また、第1実施形態では、抑制値α0または維持値α1に設定された抑制係数α[m,n]を配列した抑制行列Cが学習処理にて観測行列Yに乗算されるから、観測行列Yのうち第2分離成分に対応する周波数成分X[m,n]の各要素を簡易かつ確実に抑制できるという利点がある。
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
第2実施形態の表示制御部42は、図7に示すように、音像分布画像PAと時間波形画像PBとを表示装置24に表示させる。時間波形画像PBは、時間軸AT上における音響信号SAの波形を示す画像である。
本実施形態の範囲設定部34は、入力装置22に対する利用者からの操作に応じて、時間軸AT上の特定の範囲(以下「指定時間範囲」という)RTを設定する。利用者は、音響信号SAのうち第1分離成分(伴奏音)を包含するとともに第2分離成分を包含しない区間(すなわち楽曲の伴奏区間)が指定時間範囲RTに包含されるように入力装置22を適宜に操作する。また、第1実施形態と同様に、範囲設定部34は、指定音像範囲RLおよび指定周波数範囲RFを利用者からの指示に応じて設定する。
本実施形態の観測行列Yは、音響信号SAのうち指定時間範囲RT内の各単位区間について周波数分析部32が算定するN個の振幅スペクトルW[1]〜W[N]の時系列(振幅スペクトログラム)を示す。すなわち、観測行列Yの列数Nは、指定時間範囲RT内の単位区間の個数に相当する。観測行列Yを利用して基底行列Fを生成する学習処理の内容は第1実施形態と同様である。すなわち、学習処理部36は、音響信号SAのうち指定時間範囲RT内の各周波数成分X[m,n]の時系列を示す観測行列Yを学習処理に適用する。分離処理部38は、学習処理部36が生成した基底行列Fを適用した第1実施形態と同様の分離処理を実行する。
第2実施形態においても、第1実施形態と同様な効果が得られる。また、第2実施形態では、音響信号SAのうち利用者からの指示に応じた指定時間範囲RT内の各周波数成分X[m,n]の時系列を示す観測行列Yを適用した学習処理で基底行列Fが生成される。したがって、音響信号SAのうち第2分離成分が少ない区間(または第2分離成分が存在しない区間)を利用者からの指示に応じて指定時間範囲RTとして設定することで、音響信号SAの全区間にわたる観測行列Yを利用して基底行列Fを生成する構成(第1実施形態)と比較して、第2分離成分の影響が充分に除去された基底行列F(すなわち第1分離成分と第2分離成分とを高精度に分離可能な基底行列F)を生成できるという利点がある。
<変形例>
前述の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)分離処理の内容は適宜に変更される。例えば所定の拘束条件を導入することも可能である。具体的には、基底行列Fで表現される音響成分とは音響特性が相違する音響成分を基底行列Hとして抽出するための拘束条件が想定される。すなわち、基底行列Fと基底行列Hとの類似度が低下するという拘束条件を加味して導出された更新式を適用した分離処理で音響信号SBが生成される。以上の構成によれば、基底行列Fと基底行列Hとが共通した状態で数式(7)が成立する状況が回避されるから、第1分離成分と第2分離成分とを高精度に分離することが可能である。拘束条件を導入した非負値行列因子分解については、例えば、前掲の特許文献1に開示された技術が利用される。
(2)前述の各形態では、第1分離成分および第2分離成分の一方の音響信号SBを生成したが、第1分離成分の音響信号SBと第2分離成分の音響信号SBの双方を波形合成部40が並列に生成することも可能である。例えば第1分離成分の音響信号SBと第2分離成分の音響信号SBとを並列に生成して各々に別個の音響処理を実行することが可能である。
(3)前述の各形態では、基底行列Fと係数行列Gとの乗算で第1分離成分の音響信号SBを生成し、基底行列Hと係数行列Uとの乗算で第2分離成分の音響信号SBを生成したが、分離処理で生成された各行列を利用して音響信号SAの処理用のフィルタを生成することも可能である。例えば、基底行列Fと係数行列Gとを乗算した行列から第1分離成分を抑圧または強調するためのフィルタ(例えばウィナーフィルタ)を生成して音響信号SAに作用させる構成や、基底行列Hと係数行列Uとを乗算した行列から第2分離成分を抑圧または強調するためのフィルタを生成して音響信号SAに作用させる構成が採用される。
(4)第1実施形態では、観測行列Yのうち指定音像範囲RLと指定周波数範囲RFとで規定される指定範囲R内の各周波数成分X[m,n]を学習処理にて抑制したが、指定周波数範囲RFの設定は省略され得る。具体的には、指定音像範囲RL内に音像が定位する全周波数にわたる周波数成分X[m,n]を学習処理にて抑制することも可能である。なお、指定周波数範囲RF内の周波数成分X[m,n]を学習処理にて抑制する構成(指定音像範囲RLの指定を省略した構成)や、指定時間範囲RT内の各周波数成分X[m,n]の観測行列Yについて数式(3)および数式(4)の学習処理を実行することで基底行列Fを生成する構成(指定音像範囲RLや指定周波数範囲RFの指定を省略した構成)も採用され得る。
(5)抑制行列Cの各抑制係数α[m,n]の数値(抑制値α0,維持値α1)は適宜に変更される。例えば、抑制値α0を0以外の数値(例えば0.1)に設定し、維持値α1を1以外の数値(例えば0.9)に設定することも可能である。ただし、第1実施形態で例示したように抑制値α0を0に設定するとともに維持値α1を1に設定した構成では、抑制値α0および維持値α1をそれ以外の数値とした場合と比較して、音響成分を高精度に分離できる基底行列Fを学習処理で生成できるという利点がある。
(6)前述の各形態では、フロベニウスノルムを適用した非負値行列因子分解を例示したが、非負値行列因子分解に適用される距離規準はフロベニウスノルムに限定されない。具体的には、Kullback-Leibler擬距離やダイバージェンス等の公知の距離規準が任意に採用される。また、スパースネスの拘束条件を適用した非負値行列因子分解も採用される。
100……音響処理装置、12……演算処理装置、14……記憶装置、22……入力装置、24……表示装置、26……放音装置、32……周波数分析部、34……範囲設定部、36……学習処理部、38……分離処理部、40……波形合成部、42……表示制御部、44……行列生成部、46……抑制行列生成部。

Claims (5)

  1. 音像の定位方向の指定音像範囲を利用者からの指示に応じて設定する範囲設定手段と、
    相異なる方向に音像が定位する複数の音響成分を含有する音響信号の各周波数成分の時系列を示す観測行列を適用した学習処理を実行することで非負値行列因子分解に利用される基底行列を生成する手段であって、前記観測行列の複数の要素のうち前記範囲設定手段が設定した指定音像範囲内に音像が定位する周波数成分に対応する各要素を前記学習処理にて抑制する学習処理手段と
    を具備する音響処理装置。
  2. 前記範囲設定手段は、周波数軸上の指定周波数範囲を利用者からの指示に応じて設定し、
    前記学習処理手段は、前記観測行列の複数の要素のうち、前記指定音像範囲内に音像が定位し、かつ、前記指定周波数範囲内の周波数成分に対応する各要素を前記学習処理にて抑制する
    請求項1の音響処理装置。
  3. 前記範囲設定手段は、時間軸上の指定時間範囲を利用者からの指示に応じて設定し、
    前記学習処理手段は、前記音響信号のうち前記指定時間範囲内の各周波数成分の時系列を示す観測行列を前記学習処理に適用する
    請求項1または請求項2の音響処理装置。
  4. 前記学習処理手段は、前記観測行列の要素を抑制する抑制値と当該要素を維持する維持値との何れかに設定された抑制係数を要素とする抑制行列を前記観測行列に演算することで前記観測行列の各要素を抑制する
    請求項1から請求項3の何れかの音響処理装置。
  5. 前記学習処理手段が生成した基底行列を利用して前記音響信号の非負値行列因子分解を実行する分離手段を具備する
    請求項1から請求項4の何れかの音響処理装置。
JP2013101535A 2013-05-13 2013-05-13 音響処理装置 Pending JP2014222281A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013101535A JP2014222281A (ja) 2013-05-13 2013-05-13 音響処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013101535A JP2014222281A (ja) 2013-05-13 2013-05-13 音響処理装置

Publications (1)

Publication Number Publication Date
JP2014222281A true JP2014222281A (ja) 2014-11-27

Family

ID=52121835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013101535A Pending JP2014222281A (ja) 2013-05-13 2013-05-13 音響処理装置

Country Status (1)

Country Link
JP (1) JP2014222281A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018091647A (ja) * 2016-11-30 2018-06-14 日本電気株式会社 信号処理装置、方位算出方法及び方位算出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018091647A (ja) * 2016-11-30 2018-06-14 日本電気株式会社 信号処理装置、方位算出方法及び方位算出プログラム

Similar Documents

Publication Publication Date Title
JP5942420B2 (ja) 音響処理装置および音響処理方法
EP3675527B1 (en) Audio processing device and method, and program therefor
JP6485711B2 (ja) 音場再現装置および方法、並びにプログラム
JP2005258440A (ja) 別個の信号の成分を分離する方法およびシステム
EP2912660B1 (en) Method for determining a dictionary of base components from an audio signal
Fitzgerald Upmixing from mono-a source separation approach
JP2012163918A (ja) 音声信号処理装置、および音声信号処理方法、並びにプログラム
CN103875197B (zh) 一种用于对具有多个声道的输入信号进行直接-发散分解的方法和装置
WO2021085506A1 (ja) 振動制御装置,振動制御プログラム及び振動制御方法
JP2018106006A (ja) 楽音生成装置および方法、電子楽器
RU2595541C2 (ru) Устройство, способ и компьютерная программа для генерирования выходного стереосигнала для обеспечения дополнительных выходных каналов
FitzGerald User assisted separation using tensor factorisations
JP5454330B2 (ja) 音響処理装置
US10473628B2 (en) Signal source separation partially based on non-sensor information
JP2014222281A (ja) 音響処理装置
Jaiswal et al. Towards shifted nmf for improved monaural separation
JP2021065872A (ja) 振動制御装置,振動制御プログラム及び振動制御方法
JP2017151228A (ja) 信号処理方法および音信号処理装置
JP2014215544A (ja) 音響処理装置
JP5884473B2 (ja) 音響処理装置および音響処理方法
CN114667563A (zh) 声学空间的模态混响效果
JP5169584B2 (ja) インパルス応答加工装置、残響付与装置およびプログラム
JP6670259B2 (ja) 音響再生装置
JP6409417B2 (ja) 音響処理装置
JP6337698B2 (ja) 音響処理装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410