JP2014134688A

JP2014134688A - 音響解析装置

Info

Publication number: JP2014134688A
Application number: JP2013002986A
Authority: JP
Inventors: Janner Geordi; ジェイナージョルディ; Marxer Ricardo; マークサーリカルド; Bonada Jordi; ボナダジョルディ; Yu Takahashi; 祐高橋
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2013-01-10
Filing date: 2013-01-10
Publication date: 2014-07-24

Abstract

【課題】音響信号の目的音成分を高精度に分離する。
【解決手段】成分判定部３２は、音響信号ＳA(t)の目的音成分に含まれる無声成分にスペクトルが類似するトランジェント成分が優勢であるか否かを音響信号ＳA(t)の単位期間毎に判定する。行列解析部３６は、目的音成分の無声成分および有声成分の各々のスペクトルを示す複数の基底ベクトルを含む既知の基底行列と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、音響信号ＳA(t)の各単位期間のスペクトルを配列した観測行列Ｙに近似するように、係数行列を算定する。無声成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、トランジェント成分が優勢であると成分判定部３２が判定した単位期間の加重値はゼロに設定される。
【選択図】図１

Description

本発明は、音響信号から特定の音響成分を分離（抽出または抑圧）する技術に関する。

相異なる音源が発音した複数の音響成分の混合音の音響信号から特定の音響成分を分離する音源分離技術が従来から提案されている。例えば非特許文献１には、音響信号を時間軸上で区分した各単位期間（フレーム）のスペクトルを配列した観測行列から、音響信号の目的音成分の音色（スペクトル包絡）の時間変化を表現する行列Ｓ_Φと、目的音成分の基本周波数（ピッチ）に対応する調波成分（倍音構造）の時間変化を表現する行列Ｓ_F0とを抽出する技術が開示されている。調波成分の行列Ｓ_F0は、音響信号の目的音成分のうち調波成分のスペクトルと摩擦音等の無声成分（unvoice）のスペクトルとの各々を示す複数の基底ベクトルを配列した既知の基底行列Ｗ_F0と、基底行列Ｗ_F0の各基底ベクトルに対する加重値の時間変化を示す係数ベクトルを配列した係数行列Ｈ_F0とに分解される。無声成分のスペクトルとしては、例えば広帯域にわたり強度が略一定に維持された雑音成分（白色雑音）のスペクトルが想定される。

Jean-Louis Durrieu, et. al., "MAIN INSTRUMENT SEPARATION FROM STEREOPHONIC AUDIO SIGNALS USING A SOURCE/FILTER MODEL", in Proc. EUSIPCO, p.15-p.18, August 2009

しかし、非特許文献１の技術では、音響信号の目的音成分の無声成分と音響特性（典型的にはスペクトル）が類似する非目的音成分（例えば打楽器の演奏音等のトランジェント成分）が音響成分に含まれる場合に、音響信号の目的音成分の無声成分とともに非目的音成分が誤抽出されるという問題がある。他方、目的音成分の調波成分のスペクトルを示す基底ベクトルのみで基底行列Ｗ_F0を構成した場合（基底行列Ｗ_F0が無声成分の基底ベクトルを含まない場合）、非目的音成分の誤抽出は防止されるが目的音成分の無声成分を抽出できない。無声成分が欠落した分離後の音響は受聴者に不自然な音響と知覚され得る。以上の事情を考慮して、本発明は、音響信号の目的音成分を高精度に（例えば過不足なく）分離することを目的とする。

以上の課題を解決するために、本発明の音響解析装置は、音響信号の目的音成分に含まれる第１成分にスペクトルが類似する非目的音成分が優勢であるか否かを音響信号の単位期間毎に判定する成分判定手段と、第１成分のスペクトルと目的音成分のうち第１成分以外の第２成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列（例えば目的基底行列ＨA）と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列（例えば目的係数行列ＵA）とを含む音響モデルが、音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、係数行列を算定する行列解析手段とを具備し、行列解析手段は、基底行列内の第１成分の基底ベクトルに対応する係数ベクトル（例えば係数ベクトルｒ[e]）の複数の加重値のうち、非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値（例えば抑圧値γ）に設定する。以上の構成では、基底行列内の第１成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、非目的音成分が優勢であると判定された単位期間の加重値が、当該基底ベクトルを抑圧する抑圧値に設定される。したがって、目的音成分の第１成分にスペクトルが類似する非目的音成分が混在したり、目的音成分の第１成分が欠落したりすることなく（すなわち目的音成分の過不足を発生させることなく）、目的音成分の第１成分および第２成分を高精度に分離（抽出または抑圧）することが可能である。

第１成分の典型例は無声成分であり、第２成分の典型例は有声成分である。第１成分に音響特性が類似する非目的音成分としてはトランジェント（transient）成分が想定される。トランジェント成分は、短時間で急峻に振幅が増加する音響成分（例えば打楽器の演奏音や筆記具等の物品が他部材に衝突する打撃音）を意味する。目的音成分の第１成分と非目的音成分とでスペクトルが「類似する」とは、行列解析手段による解析処理において第１成分と非目的音成分とが混同される（非目的音成分を第１成分と区別できずに非目的音成分が第１成分として抽出される）程度に第１成分と非目的音成分とで音響特性（スペクトル）が近似することを意味する。また、抑圧値の典型例はゼロであるが、他の数値（例えば充分に小さい正数）にも設定され得る。

本発明の好適な態様において、行列解析手段は、音響の包絡特性を表現する包絡行列（例えば包絡行列ＳF）と基底行列および係数行列の乗算で調波特性を表現する調波行列（例えば調波行列ＳH）とを含む音響モデルに観測行列が近似するように当該音響モデルの各変数を更新する更新演算を反復する。具体的には、行列解析手段は、第２成分に対応する既知の基底行列（例えば基底行列Ｈ）と第２成分の基本周波数の遷移を示す係数行列（例えば音高行列ＵF0）とを乗算した調波行列を適用した更新演算の反復で包絡行列を算定する第１演算処理手段（例えば演算処理部４４）と、第１成分および第２成分の各基底ベクトルに対応する複数の係数ベクトルを含み、第１成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を抑圧値に設定した係数行列（例えば目的係数行列ＵA）を生成する調整処理手段と、第１演算処理手段が算定した包絡行列と、第１成分および第２成分に対応する既知の基底行列と調整処理手段が算定した係数行列とを乗算した調波行列とを適用した更新演算の反復で当該係数行列を更新する第２演算処理手段（例えば演算処理部５２）と、第１成分および第２成分を含む目的音成分を音響信号の観測行列から分離した分離行列（例えば分離行列Ｚ）を第２演算処理手段による演算結果から生成する音源分離手段とを具備する。以上の構成によれば、包絡特性と調波特性とを区別して目的音成分を高精度に分離できるという利点がある。

以上の各態様に係る音響解析装置は、音響信号の解析に専用されるＤＳＰ（Digital Signal Processor）などのハードウェア（電子回路）によって実現されるほか、ＣＰＵ（Central Processing Unit）等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、音響信号の目的音成分に含まれる第１成分にスペクトルが類似する非目的音成分が優勢であるか否かを音響信号の単位期間毎に判定する成分判定処理と、第１成分のスペクトルと目的音成分のうち第１成分以外の第２成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、係数行列を算定する行列解析処理とをコンピュータに実行させるプログラムであって、行列解析処理では、基底行列内の第１成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値に設定する。以上に例示したプログラムによれば、本発明の音響解析装置と同様の効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。

本発明の実施形態に係る音響解析装置のブロック図である。目的音成分の無声成分の基底行列の説明図である。音響信号のトランジェント成分の検出方法の説明図である。行列解析部の動作の説明図である。音響モデルの説明図である。行列解析部のブロック図である。調整処理部の動作の説明図である。調整処理部の動作の説明図である。

図１は、本発明のひとつの実施形態に係る音響解析装置１００のブロック図である。図１に示すように、音響解析装置１００には信号供給装置１２と放音装置１４とが接続される。信号供給装置１２は、音響信号ＳA(t)を音響解析装置１００に供給する。音響信号ＳA(t)は、音響特性が相違する複数の音響成分（例えば楽音や音声）の混合音の波形を示す時間領域信号である（ｔ：時間）。例えば、相異なる音源が発音した複数の音響成分（例えば複数種の楽器の演奏音や歌唱音等の音声）の混合音を示す音響信号ＳA(t)が音響解析装置１００に供給される。周囲の音響を収音して音響信号ＳA(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号ＳA(t)を取得して音響解析装置１００に供給する再生装置や、通信網から音響信号ＳA(t)を受信して音響解析装置１００に供給する通信装置が信号供給装置１２として採用され得る。

本実施形態の音響解析装置１００は、信号供給装置１２から供給される音響信号ＳA(t)に対する音響処理で音響信号ＳB(t)を生成する音響処理装置（音源分離装置）である。音響信号ＳB(t)は、音響信号ＳA(t)に包含される複数の音響成分のうち特定の音響成分（以下「目的音成分」という）を抽出した音響（すなわち目的音成分以外の非目的音成分を抑圧した音響）の波形を示す時間領域信号である。放音装置１４（例えばスピーカやヘッドホン）は、音響解析装置１００から供給される音響信号ＳB(t)に応じた音波を放射する。なお、音響信号ＳB(t)をデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略した。

目的音成分は、有声成分と無声成分とを含んで構成される。有声成分は、基音成分と複数の倍音成分とを基本周波数の整数倍の周波数に配列した調波構造（倍音構造）が観測される音響成分であり、無声成分は調波構造が観測されない（または明確な調波構造が観測され難い）音響成分である。例えば、歌唱音等の音声のうち母音および有声子音は有声成分に相当し、摩擦音等の無声子音は無声成分に相当する。また、例えば管楽器の演奏音を想定すると、楽器内で共鳴した楽音は有声成分に相当し、演奏時のブレス音は無声成分に相当する。

他方、非目的音成分は、音響信号ＳA(t)の複数の音響成分のうち目的音成分以外の音響成分である。本実施形態では、音響信号ＳA(t)の非目的音成分がトランジェント（transient）成分を包含する場合を想定する。トランジェント成分は、短時間で急峻に振幅が増加する成分である。例えばドラム等の打楽器の演奏音（アタック部分）や筆記具等の物品が事務机等の他部材に衝突する打撃音がトランジェント成分の典型例である。目的音成分のうち摩擦音等の無声成分は、瞬間的なスペクトルはトランジェント成分に近似するが、急峻な振幅の増加が観測されないという傾向がトランジェント成分とは相違する。なお、トランジェント成分はオンセット成分という語句に意味が類似するが完全に同義ではない。例えば、音響のうち振幅が緩慢に増加する部分はオンセットには該当するが、振幅が急峻に該当するという要件を充足しないからトランジェント成分には該当しない。

図１に示すように、音響解析装置１００は、演算処理装置２２と記憶装置２４とを具備するコンピュータシステムで実現される。記憶装置２４は、演算処理装置２２が実行するプログラムＰGMや演算処理装置２２が使用する各種のデータを記憶する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置２４として任意に採用される。音響信号ＳA(t)を記憶装置２４に記憶した構成（したがって信号供給装置１２は省略され得る）も好適である。

本実施形態の記憶装置２４は、目的音成分のうち無声成分の音響特性を表現する基底行列Ｐを記憶する。基底行列Ｐは、目的音成分の既知の音源が発音した無声成分（例えば摩擦音等の発声音）から事前に生成されて記憶装置２４に格納される。図２は、目的音成分の無声成分から基底行列Ｐを生成する処理の説明図である。図２の観測行列Ｘは、事前に収録された目的音成分の無声成分を時間軸上で区分したＮ個の単位期間の各々の振幅スペクトルの時系列（振幅スペクトログラム）を表現するＭ行Ｎ列の非負値行列である。すなわち、観測行列Ｘの第ｎ列（ｎ＝１〜Ｎ）は、目的音成分の無声成分のうち第ｎ番目の単位期間の振幅スペクトルｘ[n]に相当する。

図２の観測行列Ｘは、以下の数式(1)で表現される通り、非負値行列因子分解（ＮＭＦ：Non-negative Matrix Factorization）を利用した学習処理（逐次的な更新）で基底行列Ｐと係数行列（アクティベーション行列）Ｒ0とに分解される。

数式(1)の基底行列Ｐは、図２に示すように、目的音成分の無声成分のうち音響特性（典型的には音色）が相違する各成分に対応したＥ個の基底ベクトルｐ[1]〜ｐ[E]を横方向に配列したＭ行Ｅ列の非負値行列である。基底行列Ｐのうち第ｅ列（ｅ＝１〜Ｅ）の基底ベクトルｐ[e]は、無声成分を構成するＥ個の成分（基底）のうち第ｅ番目の成分の振幅スペクトルに相当する。すなわち、基底ベクトルｐ[e]の第ｍ行（基底行列Ｐの第ｍ行第ｅ列）の要素は、目的音成分の無声成分の第ｅ番目の成分の振幅スペクトルのうち周波数軸上の第ｍ番目の周波数での振幅値を意味する。他方、数式(1)の係数行列Ｒ0は、図２に示すように、基底行列Ｐの各基底ベクトルｐ[e]に対応するＥ個の係数ベクトルｒ0[1]〜ｒ0[E]を縦方向に配列したＥ行Ｎ列の非負値行列である。係数行列Ｒ0の第ｅ行の係数ベクトルｒ0[e]は、基底行列Ｐの基底ベクトルｐ[e]に対する加重値（活性度）の時系列に相当する。

基底行列Ｐと係数行列Ｒ0とを乗算した行列ＰＲ0が観測行列Ｘに近似する（すなわち、行列ＰＲ0と観測行列Ｘとの類似度が増加する）ように基底行列Ｐおよび係数行列Ｒ0が算定されたうえで基底行列Ｐが記憶装置２４に格納される。基底行列Ｐの基底ベクトルｐ[e]の総数（基底数）Ｅは、音響信号ＳA(t)の目的音成分の無声成分に想定され得る音色の総数以上の数値に設定される。以上が基底行列Ｐの生成の手順である。

図１の演算処理装置２２は、記憶装置２４に記憶されたプログラムＰGMを実行することで、音響信号ＳA(t)から音響信号ＳB(t)を生成するための複数の機能（成分判定部３２，周波数分析部３４，行列解析部３６，波形生成部３８）を実現する。なお、演算処理装置２２の各機能を複数の集積回路に分散した構成や、専用の電子回路（例えばＤＳＰ）が一部の機能を実現する構成も採用され得る。

成分判定部３２は、音響信号ＳA(t)にトランジェント成分が存在するか否かを音響信号ＳA(t)の単位期間毎に判定する。成分判定部３２による判定には公知の技術（例えば音響信号ＳA(t)の音量の時間的な変化を解析する方法）が任意に採用され得るが、例えば単位期間内の音響信号ＳA(t)の時間波形の重心点（ＣＯＧ：Center Of Gravity）の時間軸上での変動を利用してトランジェント成分を検出する以下の方法が好適である。

具体的には、成分判定部３２は、図３に示すように、音響信号ＳA(t)の１個の単位期間内の時間波形について時間軸上のエネルギーの重心点ＴGと当該単位期間の時間軸上の中心点（単位期間の始点と終点との中点）ＴCとの距離τを算定する。距離τは、中心点ＴCに対する重心点ＴGの偏心の度合の指標である。音響信号ＳA(t)の振幅が安定した定常状態では重心点ＴGが中心点ＴCに略一致する。他方、音響信号ＳA(t)の振幅が急峻に増加すると、重心点ＴGが中心点ＴCの後方に移動する。したがって、音響信号ＳA(t)にトランジェント成分が存在する単位期間では距離τが増加する、という傾向が観測される。以上の傾向を考慮して、本実施形態では、距離τが所定の閾値を上回る単位期間についてはトランジェント成分が存在する（トランジェント成分が強度的に優勢である）と判定し、距離τが閾値を下回る単位期間についてはトランジェント成分が存在しない（トランジェント成分が強度的に劣勢である）と判定する。なお、重心点ＴGを利用したトランジェント成分の検出については、A. Robel, "Onset Detection in Polyphonic Signals by means of Transient Peak Classification", ISMIR 2005にも詳述されている。

図４は、周波数分析部３４および行列解析部３６が実行する処理の説明図である。周波数分析部３４は、音響信号ＳA(t)を時間軸上で区分した単位期間（フレーム）のＮ個分を単位として図４の観測行列Ｙを順次に生成する。観測行列Ｙは、図４に示すように、音響信号ＳA(t)を時間軸上で区分したＮ個の単位期間の各々の振幅スペクトルｙ[1]〜ｙ[N]の時系列（振幅スペクトログラム）を表現するＭ行Ｎ列の非負値行列である。すなわち、観測行列Ｙの第ｎ列は、音響信号ＳA(t)のＮ個の単位期間のうち第ｎ番目の単位期間の振幅スペクトルｙ[n]（Ｍ個の周波数の各々での振幅値の系列）に相当する。観測行列Ｙの生成には例えば短時間フーリエ変換等の公知の周波数分析が利用される。なお、音響信号ＳA(t)の各単位期間のパワースペクトルの時系列を観測行列Ｙとして利用することも可能である。

図１の行列解析部３６は、周波数分析部３４が生成した観測行列Ｙを解析することで分離行列Ｚを生成する。分離行列Ｚは、Ｎ個の単位期間にわたる音響信号ＳB(t)のスペクトルの時系列である。すなわち、行列解析部３６は、音響信号ＳA(t)を表現する観測行列Ｙから目的音成分を抽出することで音響信号ＳB(t)の分離行列Ｚを生成する。行列解析部３６による観測行列Ｙの解析には、以下に例示する音響モデルが利用される。

本実施形態では、以下の数式(2)の音響モデルで観測行列Ｙを表現する。数式(2)の音響モデルは、非特許文献１に開示された瞬時混合モデル（ＩＭＭ：Instantaneous Mixture Model）である。

数式(2)の記号.×は、要素毎の乗算（アダマール積）を意味する。数式(2)の右辺の第１項の行列（以下「目的音行列」）という）(ＳF.×ＳH)が音響信号ＳA(t)の目的音成分に相当し、第２項の行列（以下「非目的音行列」という）Ｃが音響信号ＳA(t)の非目的音成分（トランジェント成分を含む）に相当する。非目的音行列Ｃは、Ｎ個の単位期間の各々における非目的音成分の振幅スペクトルの時系列を表現するＭ行Ｎ列の非負値行列である。

数式(2)の目的音行列(ＳF.×ＳH)は、目的音成分を表現するソースフィルタ（source/filter）モデルである。ソースフィルタモデルでは、図５に示す通り、周波数領域での調波特性と包絡特性との乗算で音響のスペクトルが表現される。調波特性は、声帯等の発音源（source）の挙動に起因する音響特性であり、基本周波数（音高）Ｆ0に対応する基音成分と基本周波数Ｆ0の整数倍に対応する複数の倍音成分とを周波数軸上に配列した系列（調波構造）で表現される。他方、包絡特性は、声道等の共鳴管内での変調に起因する音響特性（filter）であり、音響のスペクトルの包絡線に相当する。すなわち、包絡特性は、調波特性を周波数毎に調整するフィルタとして機能する。数式(2)の行列ＳFは、目的音成分のＮ個の単位期間にわたる包絡特性（フィルタ特性）の時系列を表現するＭ行Ｎ列の非負値行列（以下「包絡行列」という）である。他方、数式(2)の行列ＳHは、目的音成分のＮ個の単位期間にわたる調波特性の時系列を表現するＭ行Ｎ列の非負値行列（以下「調波行列」という）である。

数式(2)から理解される通り、目的音成分の包絡特性（音色）を表現する包絡行列ＳFは、基底行列Ｆと係数行列Ｑとに分解される。基底行列Ｆは、図４に示す通り、相異なる音色に対応するスペクトルの包絡線（フィルタ）を表現するＫ個の基底ベクトルｆ[1]〜ｆ[K]を横方向に配列したＭ行Ｋ列の非負値行列である。他方、係数行列Ｑは、基底行列Ｆの各基底ベクトルｆ[k]（ｋ＝１〜Ｋ）に対応するＫ個の係数ベクトルｑ[1]〜ｑ[K]を縦方向に配列したＫ行Ｎ列の非負値行列である。係数行列Ｑの第ｋ行の係数ベクトルｑ[k]は、基底行列Ｆの基底ベクトルｆ[k]に対する単位期間毎の加重値（活性度）の時系列を意味する。したがって、包絡行列ＳFの第ｎ列は、基底行列Ｆの各基底ベクトルｆ[k]が表現するＫ種類の包絡線を係数行列Ｑの各係数ベクトルｑ[k]のうち第ｎ番目の単位期間の加重値で加重加算した周波数軸上の包絡線（フィルタ）に相当する。

数式(2)および図４に示す通り、基底行列Ｆは、基底行列Ｂと係数行列Ｗとに分解される。基底行列Ｆの基底ベクトルｆ[k]が表現する包絡線は、相異なる複数の要素成分（基底）の加重和で表現される。基底行列Ｂは、各基底ベクトルｆ[k]の包絡線の素材となる各要素成分を表現するＧ個の基底ベクトルｂ[1]〜ｂ[G]を横方向に配列したＭ行Ｇ列の非負値行列である。具体的には、Ｇ個の基底ベクトルｂ[1]〜ｂ[G]の各々は、周波数軸上の相異なる周波数に配置された窓関数（例えばハニング窓）を表現する。基底行列Ｂは、事前に用意されて記憶装置２４に格納される。

他方、係数行列Ｗは、基底行列Ｂの各基底ベクトルｂ[g]（ｇ＝１〜Ｇ）に対応するＧ個の係数ベクトルｗ[1]〜ｗ[G]を縦方向に配列したＧ行Ｋ列の非負値行列である。係数行列Ｗの第ｇ行の係数ベクトルｗ[g]は、基底行列Ｂの基底ベクトルｂ[g]に対する加重値の系列を意味する。したがって、基底行列Ｆの基底ベクトルｆ[k]は、基底行列Ｂの各基底ベクトルｂ[g]が表現するＧ種類の要素成分を係数行列Ｗの各係数ベクトルｗ[g]のうち第ｋ列の加重値で加重加算した包絡線を意味する。

他方、目的音成分の調波特性（基本周波数Ｆ0）を表現する調波行列ＳHは、数式(2)および図４から理解される通り、基底行列Ｈと係数行列Ｕとに分解される。基底行列Ｈは、相異なる基本周波数Ｆ0に対応した調波特性（基底）を表現するＤ個の基底ベクトルｈ[1]〜ｈ[D]を横方向に配列したＭ行Ｄ列の非負値行列である。音響信号ＳA(t)の目的音成分に予想される各基本周波数Ｆ0に対応するＤ個の基底ベクトルｈ[1]〜ｈ[D]が事前に用意されたうえで基底行列Ｈとして記憶装置２４に格納される。

他方、係数行列Ｕは、基底行列Ｈの各基底ベクトルｈ[d]（ｄ＝１〜Ｄ）に対応するＤ個の係数ベクトルｕ[1]〜ｕ[D]を縦方向に配列したＤ行Ｎ列の非負値行列である。係数行列Ｕの第ｄ行の係数ベクトルｕ[d]は、基底行列Ｈの基底ベクトルｈ[d]に対する単位期間毎の加重値の時系列を意味する。したがって、調波行列ＳHの第ｎ列は、基底行列Ｈの各基底ベクトルｈ[d]が表現するＤ種類の調波特性を係数行列Ｕの各係数ベクトルｕ[d]のうち第ｎ番目の単位期間の加重値で加重加算した周波数軸上のスペクトルを意味する。

図１の行列解析部３６は、記憶装置２４に事前に記憶された既知の基底行列Ｂおよび基底行列Ｈを事前情報（教師情報）として利用した教師有（Supervised）音源分離で音響信号ＳA(t)の観測行列Ｙから音響信号ＳB(t)の分離行列Ｚを生成する。具体的には、行列解析部３６は、音響モデルの未知の各変数Θ（Θ＝｛Ｗ,Ｑ,Ｕ,Ｃ｝）を更新する所定の演算（以下「更新演算」という）を反復することで演算結果（各変数Θの推定値）θを算定する。所定の回数にわたり更新演算が反復された時点の変数Θの数値が演算結果θとして確定される。更新演算の具体的な内容は、例えば非特許文献１に開示されている。図６は、行列解析部３６のブロック図である。図６に示すように、行列解析部３６は、音高推定部４２と演算処理部４４と調整処理部４６と演算処理部５２と音源分離部５４とを具備する。

音高推定部４２は、音響信号ＳA(t)の目的音成分の基本周波数Ｆ0の時間的な遷移（ピッチパターン）を推定する要素であり、演算処理部６２と探索処理部６４とを含んで構成される。演算処理部６２は、周波数分析部３４が生成した観測行列Ｙと記憶装置２４に記憶された既知の基底行列Ｂおよび基底行列Ｈとを適用した更新演算を反復的に実行することで各変数Θ（Θ＝{Ｗ,Ｑ,Ｕ,Ｃ}）の演算結果θ1を算定する。演算処理部６２による更新演算に適用される各変数Θの初期値は、例えば乱数θ0に設定される。

演算処理部６２が演算結果θ1として算定する係数行列Ｕの係数ベクトルｕ[d]のうち第ｎ番目の要素は、基底行列Ｈ内の基底ベクトルｈ[d]が示す調波特性が第ｎ番目の単位期間にて励起される度合（加重値）に相当する。すなわち、係数行列Ｕは、時間軸上のＮ個の単位期間にわたる音響信号ＳA(t)内の各音響成分の基本周波数Ｆ0の時間的な遷移（ピッチパターン）を表現する。図６の探索処理部６４は、演算処理部６２が算定した演算結果θ1内の係数行列Ｕから特定される複数の基本周波数Ｆ0の遷移のうち目的音成分に該当する確度（尤度）が高い基本周波数の遷移を探索する。目的音成分の基本周波数の遷移の探索（経路探索）には、動的計画法（例えばビタビ（Viterbi）アルゴリズム）等の公知の経路探索技術が任意に採用される。探索処理部６４は、演算処理部６２が算定した係数行列Ｕ内のＤ行Ｎ列の要素のうち目的音成分の基本周波数Ｆ0に対応する要素を維持するとともに目的音成分の基本周波数Ｆ0以外の要素をゼロに変換した行列（以下「音高行列」という）ＵF0を生成する。以上の説明から理解される通り、音高行列ＵF0は、音響信号ＳA(t)の目的音成分の基本周波数Ｆ0の遷移（ピッチパターン）を表現する。

図６の演算処理部４４は、周波数分析部３４が生成した観測行列Ｙと既知の基底行列Ｂおよび基底行列Ｈとを適用した更新演算を反復的に実行することで各変数Θ（Θ＝{Ｗ,Ｑ,Ｕ,Ｃ}）の演算結果θ2を算定する。演算処理部４４による更新演算の各変数Θのうち係数行列Ｕの初期値は音高推定部４２が生成した音高行列ＵF0に設定され、係数行列Ｕ以外の各変数Θ（Ｗ,Ｑ,Ｃ）の初期値は乱数θ0に設定される。音高推定部４２が生成した音高行列ＵF0では、目的音成分以外の基本周波数Ｆ0に対応する要素がゼロに設定される。したがって、演算処理部４４による更新演算において、音響信号ＳA(t)のうち目的音成分以外の非目的音成分は、音響モデルの目的音行列(ＳF.×ＳH)の更新に寄与しない。すなわち、音響信号ＳA(t)の非目的音成分は音響モデルの非目的音行列Ｃに反映され、目的音行列(ＳF.×ＳH)には目的音成分（調波特性が観測される有声成分）が選択的に反映される。以上に説明した通り、演算処理部４４による更新演算の反復で、音響信号ＳA(t)の観測行列Ｙが目的音成分（目的音行列(ＳF.×ＳH)）と非目的音成分（非目的音行列Ｃ）とに分離される。

図６の演算処理部５２は、周波数分析部３４が生成した観測行列Ｙと既知の基底行列Ｂおよび基底行列Ｈを適用した更新演算を反復的に実行することで各変数Θの演算結果θ3を算定する。演算処理部５２による更新演算では、係数行列Ｗと係数行列Ｑと非目的音行列Ｃとの各々の初期値は演算処理部４４による演算結果θ2に設定される。基底行列Ｂおよび基底行列Ｆは既知であるから、演算処理部４４は、更新演算の反復で包絡行列ＳFを算定する要素（第１演算処理手段）として機能する。

また、演算処理部５２は、基底行列Ｆ（基底行列Ｂおよび係数行列Ｗ）を更新演算による更新対象から除外する。演算処理部４４による更新演算で基底行列Ｆには目的音成分（目的音成分の音色に対応するスペクトルの包絡線）が抽出されているから、基底行列Ｆを更新対象から除外した状態では、基底行列Ｆは、演算処理部５２による更新演算の反復の前後にわたり、目的音成分の音色を表現する内容（目的音成分の音色に対応するスペクトルの包絡線に各基底ベクトルｆ[k]が設定された状態）に維持される。

演算処理部５２による更新演算では、既知の目的基底行列ＨAが音響モデルの基底行列Ｈとして適用されるとともに目的係数行列ＵAが音響モデルの係数行列Ｕとして適用される。図６の調整処理部４６は、演算処理部５２の更新演算に適用される目的基底行列ＨAおよび目的係数行列ＵAを生成する要素である。

図７は、目的基底行列ＨAおよび目的係数行列ＵAの説明図である。図７に示すように、目的基底行列ＨAは、記憶装置２４に記憶された基底行列Ｈ（Ｍ行Ｄ列）および基底行列Ｐ（Ｍ行Ｅ列）を横方向に配列したＭ行(Ｄ＋Ｅ)列の既知の非負値行列である。前述の通り、基底行列Ｈは調波特性（目的音成分の有声成分の音響特性）を表現し、基底行列Ｐは無声成分の音響特性を表現する。他方、目的係数行列ＵAは、演算処理部４４が算定した演算結果θ2の係数行列Ｕと基底行列Ｐに対応する係数行列Ｒとを縦方向に配列した(Ｄ＋Ｅ)行Ｎ列の非負値行列である。

無声成分の基底行列Ｐは、図２を参照して説明した通り、目的音成分の無声成分に対応するＥ個の基底ベクトルｐ[1]〜ｐ[E]を含んで構成される。目的係数行列ＵAにおいて演算結果θ2の係数行列Ｕに付加される係数行列Ｒは、各基底ベクトルｐ[e]に対応するＥ個の係数ベクトルｒ[1]〜ｒ[E]を縦方向に配列したＥ行Ｎ列の非負値行列である。図８は、係数行列Ｒ内の任意の１個の係数ベクトルｒ[e]の模式図である。図８に示す通り、係数ベクトルｒ[e]は、相異なる単位期間に対応するＮ個の要素（以下「加重値」という）λ[e,1]〜λ[e,N]の系列である。係数ベクトルｒ[e]の加重値λ[e,n]は、目的音成分の無声成分のうち基底ベクトルｐ[e]で表現される音響特性の成分が、Ｎ個の単位期間のうち第ｎ番目の１個の単位期間において励起される度合を意味する。

目的音成分を抽出した基底行列Ｆが更新対象から除外され、かつ、目的音成分の有声成分の基底行列Ｈと無声成分の基底行列Ｐとを含む目的基底行列ＨAを適用した更新演算が反復されるから、演算処理部５２による更新演算の反復で、目的音成分の有声成分および無声成分の双方が目的音行列(ＳF.×ＳH)に抽出される。ただし、無声成分（各基底ベクトルｐ[e]）の励起の度合を規定する係数行列Ｒを何ら制約しない構成では、各基底ベクトルｐ[e]が示す音響特性に類似するトランジェント成分（非目的音成分）が目的音行列(ＳF.×ＳH)に混在し得る。すなわち、目的音成分の有声成分および無声成分とともに非目的音成分のトランジェント成分が抽出される可能性がある。

以上の事情を考慮して、図６の調整処理部４６は、演算処理部５２による更新演算の開始前に、図８に示す通り、無声成分に対応する係数行列Ｒ内のＥ個の係数ベクトルｒ[1]〜ｒ[E]の各々におけるＮ個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在すると成分判定部３２が判定した各単位期間の加重値λ[e,n]を抑圧値γに設定する。抑圧値γは、基底ベクトルｐ[e]に対応する無声成分を抑圧する数値である。抑圧値γの典型例はゼロであるが、充分に小さい正数を抑圧値γとして適用することも可能である。他方、各係数ベクトルｒ[e]におけるＮ個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在しないと成分判定部３２が判定した各単位期間の加重値λ[e,n]は例えば乱数θ0に設定される。前述の抑圧値γは、乱数θ0の最小値を下回る数値とも換言され得る。演算処理部５２は、調整処理部４６が以上の手順で生成した目的基底行列ＨAと目的係数行列ＵAとを適用した更新演算を反復することで各変数Θ（Ｑ,Ｕ,Ｃ）の演算結果θ3を算定する。以上の説明から理解される通り、演算処理部５２は、演算処理部４４が算定した包絡行列ＳFと、調整処理部４６が生成した目的基底行列ＨAおよび目的係数行列ＵAを乗算した調波行列ＳHとを適用した更新演算の反復で係数行列Ｑと係数行列Ｕと非目的音行列Ｃとを更新する要素（第２演算処理手段）として機能する。

図６の音源分離部５４は、演算処理部５２が算定した演算結果θ3から目的音成分の分離行列Ｚを生成する。例えば、音源分離部５４は、演算結果θ3の基底行列Ｆと係数行列Ｑと基底行列Ｈと係数行列Ｕとを適用した以下の数式(3)の演算でＭ行Ｎ列の分離行列Ｚを算定する。

以上の説明から理解される通り、演算処理部５２が算定する分離行列Ｚは、音響信号ＳA(t)から目的音成分を抽出した音響の振幅スペクトログラムに相当する。なお、分離行列Ｚを算定する方法は数式(3)に限定されない。例えば、演算処理部５２が算定した非目的音行列Ｃを観測行列Ｙから抑圧することで分離行列Ｚを生成することも可能である。非目的音行列Ｃの抑圧には、非目的音行列Ｃを雑音成分として観測行列Ｙから抑圧する各種の雑音抑圧技術（例えばスペクトル減算，ウィーナフィルタ，ＭＭＳＥ-ＳＴＳＡ等）が任意に採用される。以上が行列解析部３６の具体的な構成および動作である。

図１の波形生成部３８は、行列解析部３６が生成した分離行列Ｚから時間領域の音響信号ＳB(t)を生成する。具体的には、波形生成部３８は、分離行列Ｚの各列に対応する単位期間毎の振幅スペクトルと音響信号ＳA(t)の当該単位期間の位相スペクトルとを適用した逆フーリエ変換で時間領域信号を算定し、相前後する各単位期間について時間領域信号を相互に連結することで音響信号ＳB(t)を生成する。波形生成部３８が生成した音響信号ＳB(t)が放音装置１４に供給されて音波として再生される。

以上に例示した実施形態では、係数行列Ｒ内の各係数ベクトルｒ[e]のＮ個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分の存在が肯定された単位期間の加重値λ[e,n]が抑圧値γに設定される。したがって、目的音成分の無声成分と非目的音成分のトランジェント成分とで音響特性（スペクトル）が類似する場合でも、非目的成分のトランジェント成分を混在させることなく目的音成分の有声成分および無声成分を高精度に分離することが可能である。すなわち、音響信号ＳB(t)に非目的音成分のトランジェント成分が混在したり音響信号ＳB(t)に目的音成分の無声成分が欠落したりすることなく（すなわち、目的音成分の過不足を発生させることなく）、目的音成分を高精度に分離できる。また、本実施形態では、目的音成分の無声成分に対する事前の学習処理（ＮＭＦ）で生成された基底行列Ｐが行列解析部３６による解析処理（演算処理部５２による更新演算）に適用される。したがって、目的音成分の音響特性とは無関係に選定された特定の雑音成分（例えば広帯域にわたり強度が略一定に維持された白色雑音）から生成された基底行列Ｐを利用する構成と比較して、目的音成分の有声成分および無声成分を高精度に分離できるという効果は格別に顕著である。

＜変形例＞
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様は適宜に併合され得る。

（１）前述の形態では、事前に収録された無声成分の観測行列Ｘに対する非負値行列因子分解で無声成分の基底行列Ｐを生成したが（図２）、基底行列Ｐを生成する方法は任意である。基底行列Ｐは、無声成分の音響特性を表現するＥ個の基底ベクトルｐ[1]〜ｐ[E]で構成されるから、例えば、音響特性が相違するＥ種類の無声成分の各々について平均的な振幅スペクトルを算定し、平均後の各振幅スペクトルを基底ベクトルｐ[e]としてＥ個分を配列することで基底行列Ｐを生成することも可能である。すなわち、無声成分の振幅スペクトルを特定する任意の技術が基底行列Ｐの生成に適用される。

（２）前述の形態では、音響信号ＳA(t)の目的音成分の基本周波数Ｆ0の推定に演算処理部４４や演算処理部５２と同様の更新演算を利用したが、音高推定部４２による目的音成分の基本周波数Ｆ0の推定には公知の音高推定（ピッチ推定）技術が任意に採用される。

（３）前述の形態では、音響信号ＳA(t)の目的音成分を抽出（非目的音成分を抑圧）した音響信号ＳB(t)を生成したが、音響信号ＳA(t)の目的音成分を抑圧（非目的音成分を抽出）した音響信号ＳB(t)を生成することも可能である。例えば、演算処理部５２が更新演算で算定した非目的音行列Ｃを分離行列Ｚとして音響信号ＳB(t)を生成すれば、音響信号ＳA(t)の非目的音成分を抽出した音響信号ＳB(t)が生成される。以上の説明から理解される通り、行列解析部３６は、音響信号ＳA(t)の観測行列Ｙから目的音成分および非目的音成分の一方を分離（抽出または抑圧）する要素として包括される。

（４）音響信号ＳA(t)の目的音成分の有声成分と無声成分とを個別に抽出することも可能である。例えば、演算処理部４４による演算結果θ2を適用した目的音行列(ＳF.×ＳH)は、音響信号ＳA(t)の目的音成分の有声成分に相当する。また、例えば演算処理部５２による演算結果θ3のうち目的基底行列ＨA内の基底行列Ｐと目的係数行列ＵA内の係数行列Ｒとの乗算結果を包絡行列ＳFに乗算することで音響信号ＳA(t)の目的音成分の無声成分を分離することが可能である。

（５）前述の形態では、数式(2)の音響モデル（ＩＭＭ）を適用した音源分離を例示したが、音源分離に適用される具体的な方法は適宜に変更され得る。具体的には、音響信号ＳA(t)の観測行列Ｙに対する非負値行列因子分解で目的音成分を分離する場合にも本発明を適用することが可能である。例えば、基底行列Ｈyと係数行列Ｕyとを乗算した目的音成分の行列ＨyＵyと非目的音成分に対応する非目的音行列Ｃとの加算（ＨyＵy＋Ｃ）が観測行列Ｙに近似するように非負値行列因子分解を実行する場合を想定する。基底行列Ｈyは、図７の例示と同様に、目的音成分の有声成分を表現する基底行列Ｈと無声成分に対応する基底行列Ｐとを横方向に配列した既知の非負値行列である。係数行列Ｕyは、図７の例示と同様に、基底行列Ｈに対応する係数行列Ｕと基底行列Ｐに対応する係数行列Ｒとを縦方向に配列した未知の非負値行列である。行列解析部３６は、係数行列Ｒ内の各係数ベクトルｒ[e]のＮ個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在すると判定された単位期間に対応する加重値λ[e,n]を抑圧値γに設定したうえで各行列を反復的に更新することで係数行列Ｕyと非目的音行列Ｃとを算定する。

以上の説明から理解される通り、行列解析部３６は、目的音成分の有声成分の基底ベクトル（例えば図７の基底ベクトルｈ[d]）と無声成分の基底ベクトル（例えば図７の基底ベクトルｐ[e]）とを配列した既知の基底行列と、基底行列の各基底ベクトルに対応する複数の係数ベクトル（例えば図７の係数ベクトルｕ[d]や係数ベクトルｒ[e]）を配列した係数行列とを含む音響モデルが音響信号ＳA(t)の観測行列Ｙに近似するように係数行列を算定する要素として包括される。

なお、前述の各形態では、目的音成分の有声成分と無声成分とに着目したが、有声成分および無声成分は音響信号ＳA(t)内で音響特性が相異なる複数の音響成分（第１成分および第２成分）として包括的に表現され得る。すなわち、前述の形態で例示した無声成分を第１成分という表現に拡張するとともに有声成分を第２成分という表現に拡張すると、行列解析部３６は、音響信号ＳA(t)の目的音成分の第１成分の基底ベクトル（例えば図７の基底ベクトルｐ[e]）と第２成分の基底ベクトル（例えば図７の基底ベクトルｈ[d]）とを配列した既知の基底行列と、基底行列の各基底ベクトルに対応する複数の係数ベクトル（例えば図７の係数ベクトルｕ[d]や係数ベクトルｒ[e]）を配列した係数行列とを含む音響モデルが観測行列Ｙに近似するように係数行列を算定する要素として包括される。

また、前述の形態では、音響信号ＳA(t)の非目的音成分のトランジェント成分に着目したが、前述の形態で例示したトランジェント成分は、目的音成分の第１成分（例えば無声成分）に音響特性が類似する（音響特性が無声成分に類似する結果として目的音成分の無声成分とともに分離される可能性がある）、目的音成分以外の音響成分という表現に拡張され得る。すなわち、前述の形態における成分判定部３２は、音響信号ＳA(t)のうち目的音成分の第１成分に音響特性が類似する非目的音成分が優勢であるか否か（典型的には存在するか否か）を音響信号ＳA(t)の単位期間毎に判定する要素として包括される。

（６）前述の各形態では音響信号ＳA(t)の全帯域を処理対象としたが、音響信号ＳA(t)のうち特定の帯域を選択的に処理対象とすることも可能である。音響信号ＳA(t)のうち目的音成分に想定される帯域成分（例えば特定の楽器の演奏音や歌唱音の音域）のみを処理対象とすれば、目的音成分の分離精度を向上することが可能である。

（７）携帯電話機等の端末装置と通信するサーバ装置で音響解析装置１００を実現することも可能である。例えば、音響解析装置１００は、端末装置から受信した音響信号ＳA(t)から音響信号ＳB(t)を生成して端末装置に送信する。なお、音響信号ＳA(t)の観測行列Ｙを端末装置から受信する構成（例えば端末装置が周波数分析部３４を具備する構成）では音響解析装置１００から周波数分析部３４が省略され、分離行列Ｚを端末装置に送信する構成（例えば端末装置が波形生成部３８を具備する構成）では音響解析装置１００から波形生成部３８が省略される。

１００……音響解析装置、１２……信号供給装置、１４……放音装置、２２……演算処理装置、２４……記憶装置、３２……成分判定部、３４……周波数分析部、３６……行列解析部、３８……波形生成部、４２……音高推定部、４４……演算処理部、４６……調整処理部、５２……演算処理部、５４……音源分離部、６２……演算処理部、６４……探索処理部、Ｙ……観測行列、Ｆ，Ｂ，Ｈ……基底行列、Ｑ，Ｗ，Ｕ……係数行列。
。

Claims

音響信号の目的音成分に含まれる第１成分にスペクトルが類似する非目的音成分が優勢であるか否かを前記音響信号の単位期間毎に判定する成分判定手段と、
前記第１成分のスペクトルと前記目的音成分のうち前記第１成分以外の第２成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列と、前記基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、前記音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、前記係数行列を算定する行列解析手段とを具備し、
前記行列解析手段は、前記基底行列内の前記第１成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、前記非目的音成分が優勢であると前記成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値に設定する
音響解析装置。
前記行列解析手段は、音響の包絡特性を表現する包絡行列と基底行列および係数行列の乗算で調波特性を表現する調波行列とを含む前記音響モデルに前記観測行列が近似するように当該音響モデルの各変数を更新する更新演算を反復する
請求項１の音響解析装置。
前記行列解析手段は、
前記第２成分に対応する既知の基底行列と前記第２成分の基本周波数の遷移を示す係数行列とを乗算した前記調波行列を適用した前記更新演算の反復で前記包絡行列を算定する第１演算処理手段と、
前記第１成分および前記第２成分の各基底ベクトルに対応する複数の係数ベクトルを含み、前記第１成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち前記非目的音成分が優勢であると前記成分判定手段が判定した単位期間の加重値を前記抑圧値に設定した係数行列を生成する調整処理手段と、
前記第１演算処理手段が算定した包絡行列と、前記第１成分および前記第２成分に対応する既知の基底行列と前記調整処理手段が算定した前記係数行列とを乗算した前記調波行列とを適用した前記更新演算の反復で当該係数行列を更新する第２演算処理手段と、
前記第１成分および前記第２成分を含む目的音成分を前記音響信号の観測行列から分離した分離行列を前記第２演算処理手段による演算結果から生成する音源分離手段と
を具備する請求項２の音響解析装置。
前記非目的音成分はトランジェント成分を含み、
前記目的音成分の前記第１成分は無声成分であり、前記第２成分は有声成分である
請求項１から請求項３の何れかの音響解析装置。
前記抑圧値はゼロである
請求項１から請求項４の何れかの音響解析装置。