JP2014134688A - 音響解析装置 - Google Patents
音響解析装置 Download PDFInfo
- Publication number
- JP2014134688A JP2014134688A JP2013002986A JP2013002986A JP2014134688A JP 2014134688 A JP2014134688 A JP 2014134688A JP 2013002986 A JP2013002986 A JP 2013002986A JP 2013002986 A JP2013002986 A JP 2013002986A JP 2014134688 A JP2014134688 A JP 2014134688A
- Authority
- JP
- Japan
- Prior art keywords
- component
- matrix
- target sound
- coefficient
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
Abstract
【課題】音響信号の目的音成分を高精度に分離する。
【解決手段】成分判定部32は、音響信号SA(t)の目的音成分に含まれる無声成分にスペクトルが類似するトランジェント成分が優勢であるか否かを音響信号SA(t)の単位期間毎に判定する。行列解析部36は、目的音成分の無声成分および有声成分の各々のスペクトルを示す複数の基底ベクトルを含む既知の基底行列と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、音響信号SA(t)の各単位期間のスペクトルを配列した観測行列Yに近似するように、係数行列を算定する。無声成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、トランジェント成分が優勢であると成分判定部32が判定した単位期間の加重値はゼロに設定される。
【選択図】図1
【解決手段】成分判定部32は、音響信号SA(t)の目的音成分に含まれる無声成分にスペクトルが類似するトランジェント成分が優勢であるか否かを音響信号SA(t)の単位期間毎に判定する。行列解析部36は、目的音成分の無声成分および有声成分の各々のスペクトルを示す複数の基底ベクトルを含む既知の基底行列と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、音響信号SA(t)の各単位期間のスペクトルを配列した観測行列Yに近似するように、係数行列を算定する。無声成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、トランジェント成分が優勢であると成分判定部32が判定した単位期間の加重値はゼロに設定される。
【選択図】図1
Description
本発明は、音響信号から特定の音響成分を分離(抽出または抑圧)する技術に関する。
相異なる音源が発音した複数の音響成分の混合音の音響信号から特定の音響成分を分離する音源分離技術が従来から提案されている。例えば非特許文献1には、音響信号を時間軸上で区分した各単位期間(フレーム)のスペクトルを配列した観測行列から、音響信号の目的音成分の音色(スペクトル包絡)の時間変化を表現する行列SΦと、目的音成分の基本周波数(ピッチ)に対応する調波成分(倍音構造)の時間変化を表現する行列SF0とを抽出する技術が開示されている。調波成分の行列SF0は、音響信号の目的音成分のうち調波成分のスペクトルと摩擦音等の無声成分(unvoice)のスペクトルとの各々を示す複数の基底ベクトルを配列した既知の基底行列WF0と、基底行列WF0の各基底ベクトルに対する加重値の時間変化を示す係数ベクトルを配列した係数行列HF0とに分解される。無声成分のスペクトルとしては、例えば広帯域にわたり強度が略一定に維持された雑音成分(白色雑音)のスペクトルが想定される。
Jean-Louis Durrieu, et. al., "MAIN INSTRUMENT SEPARATION FROM STEREOPHONIC AUDIO SIGNALS USING A SOURCE/FILTER MODEL", in Proc. EUSIPCO, p.15-p.18, August 2009
しかし、非特許文献1の技術では、音響信号の目的音成分の無声成分と音響特性(典型的にはスペクトル)が類似する非目的音成分(例えば打楽器の演奏音等のトランジェント成分)が音響成分に含まれる場合に、音響信号の目的音成分の無声成分とともに非目的音成分が誤抽出されるという問題がある。他方、目的音成分の調波成分のスペクトルを示す基底ベクトルのみで基底行列WF0を構成した場合(基底行列WF0が無声成分の基底ベクトルを含まない場合)、非目的音成分の誤抽出は防止されるが目的音成分の無声成分を抽出できない。無声成分が欠落した分離後の音響は受聴者に不自然な音響と知覚され得る。以上の事情を考慮して、本発明は、音響信号の目的音成分を高精度に(例えば過不足なく)分離することを目的とする。
以上の課題を解決するために、本発明の音響解析装置は、音響信号の目的音成分に含まれる第1成分にスペクトルが類似する非目的音成分が優勢であるか否かを音響信号の単位期間毎に判定する成分判定手段と、第1成分のスペクトルと目的音成分のうち第1成分以外の第2成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列(例えば目的基底行列HA)と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列(例えば目的係数行列UA)とを含む音響モデルが、音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、係数行列を算定する行列解析手段とを具備し、行列解析手段は、基底行列内の第1成分の基底ベクトルに対応する係数ベクトル(例えば係数ベクトルr[e])の複数の加重値のうち、非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値(例えば抑圧値γ)に設定する。以上の構成では、基底行列内の第1成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、非目的音成分が優勢であると判定された単位期間の加重値が、当該基底ベクトルを抑圧する抑圧値に設定される。したがって、目的音成分の第1成分にスペクトルが類似する非目的音成分が混在したり、目的音成分の第1成分が欠落したりすることなく(すなわち目的音成分の過不足を発生させることなく)、目的音成分の第1成分および第2成分を高精度に分離(抽出または抑圧)することが可能である。
第1成分の典型例は無声成分であり、第2成分の典型例は有声成分である。第1成分に音響特性が類似する非目的音成分としてはトランジェント(transient)成分が想定される。トランジェント成分は、短時間で急峻に振幅が増加する音響成分(例えば打楽器の演奏音や筆記具等の物品が他部材に衝突する打撃音)を意味する。目的音成分の第1成分と非目的音成分とでスペクトルが「類似する」とは、行列解析手段による解析処理において第1成分と非目的音成分とが混同される(非目的音成分を第1成分と区別できずに非目的音成分が第1成分として抽出される)程度に第1成分と非目的音成分とで音響特性(スペクトル)が近似することを意味する。また、抑圧値の典型例はゼロであるが、他の数値(例えば充分に小さい正数)にも設定され得る。
本発明の好適な態様において、行列解析手段は、音響の包絡特性を表現する包絡行列(例えば包絡行列SF)と基底行列および係数行列の乗算で調波特性を表現する調波行列(例えば調波行列SH)とを含む音響モデルに観測行列が近似するように当該音響モデルの各変数を更新する更新演算を反復する。具体的には、行列解析手段は、第2成分に対応する既知の基底行列(例えば基底行列H)と第2成分の基本周波数の遷移を示す係数行列(例えば音高行列UF0)とを乗算した調波行列を適用した更新演算の反復で包絡行列を算定する第1演算処理手段(例えば演算処理部44)と、第1成分および第2成分の各基底ベクトルに対応する複数の係数ベクトルを含み、第1成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を抑圧値に設定した係数行列(例えば目的係数行列UA)を生成する調整処理手段と、第1演算処理手段が算定した包絡行列と、第1成分および第2成分に対応する既知の基底行列と調整処理手段が算定した係数行列とを乗算した調波行列とを適用した更新演算の反復で当該係数行列を更新する第2演算処理手段(例えば演算処理部52)と、第1成分および第2成分を含む目的音成分を音響信号の観測行列から分離した分離行列(例えば分離行列Z)を第2演算処理手段による演算結果から生成する音源分離手段とを具備する。以上の構成によれば、包絡特性と調波特性とを区別して目的音成分を高精度に分離できるという利点がある。
以上の各態様に係る音響解析装置は、音響信号の解析に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、音響信号の目的音成分に含まれる第1成分にスペクトルが類似する非目的音成分が優勢であるか否かを音響信号の単位期間毎に判定する成分判定処理と、第1成分のスペクトルと目的音成分のうち第1成分以外の第2成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列と、基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、係数行列を算定する行列解析処理とをコンピュータに実行させるプログラムであって、行列解析処理では、基底行列内の第1成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、非目的音成分が優勢であると成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値に設定する。以上に例示したプログラムによれば、本発明の音響解析装置と同様の効果が実現される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、例えば、本発明のプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。
図1は、本発明のひとつの実施形態に係る音響解析装置100のブロック図である。図1に示すように、音響解析装置100には信号供給装置12と放音装置14とが接続される。信号供給装置12は、音響信号SA(t)を音響解析装置100に供給する。音響信号SA(t)は、音響特性が相違する複数の音響成分(例えば楽音や音声)の混合音の波形を示す時間領域信号である(t:時間)。例えば、相異なる音源が発音した複数の音響成分(例えば複数種の楽器の演奏音や歌唱音等の音声)の混合音を示す音響信号SA(t)が音響解析装置100に供給される。周囲の音響を収音して音響信号SA(t)を生成する収音機器や、可搬型または内蔵型の記録媒体から音響信号SA(t)を取得して音響解析装置100に供給する再生装置や、通信網から音響信号SA(t)を受信して音響解析装置100に供給する通信装置が信号供給装置12として採用され得る。
本実施形態の音響解析装置100は、信号供給装置12から供給される音響信号SA(t)に対する音響処理で音響信号SB(t)を生成する音響処理装置(音源分離装置)である。音響信号SB(t)は、音響信号SA(t)に包含される複数の音響成分のうち特定の音響成分(以下「目的音成分」という)を抽出した音響(すなわち目的音成分以外の非目的音成分を抑圧した音響)の波形を示す時間領域信号である。放音装置14(例えばスピーカやヘッドホン)は、音響解析装置100から供給される音響信号SB(t)に応じた音波を放射する。なお、音響信号SB(t)をデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
目的音成分は、有声成分と無声成分とを含んで構成される。有声成分は、基音成分と複数の倍音成分とを基本周波数の整数倍の周波数に配列した調波構造(倍音構造)が観測される音響成分であり、無声成分は調波構造が観測されない(または明確な調波構造が観測され難い)音響成分である。例えば、歌唱音等の音声のうち母音および有声子音は有声成分に相当し、摩擦音等の無声子音は無声成分に相当する。また、例えば管楽器の演奏音を想定すると、楽器内で共鳴した楽音は有声成分に相当し、演奏時のブレス音は無声成分に相当する。
他方、非目的音成分は、音響信号SA(t)の複数の音響成分のうち目的音成分以外の音響成分である。本実施形態では、音響信号SA(t)の非目的音成分がトランジェント(transient)成分を包含する場合を想定する。トランジェント成分は、短時間で急峻に振幅が増加する成分である。例えばドラム等の打楽器の演奏音(アタック部分)や筆記具等の物品が事務机等の他部材に衝突する打撃音がトランジェント成分の典型例である。目的音成分のうち摩擦音等の無声成分は、瞬間的なスペクトルはトランジェント成分に近似するが、急峻な振幅の増加が観測されないという傾向がトランジェント成分とは相違する。なお、トランジェント成分はオンセット成分という語句に意味が類似するが完全に同義ではない。例えば、音響のうち振幅が緩慢に増加する部分はオンセットには該当するが、振幅が急峻に該当するという要件を充足しないからトランジェント成分には該当しない。
図1に示すように、音響解析装置100は、演算処理装置22と記憶装置24とを具備するコンピュータシステムで実現される。記憶装置24は、演算処理装置22が実行するプログラムPGMや演算処理装置22が使用する各種のデータを記憶する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置24として任意に採用される。音響信号SA(t)を記憶装置24に記憶した構成(したがって信号供給装置12は省略され得る)も好適である。
本実施形態の記憶装置24は、目的音成分のうち無声成分の音響特性を表現する基底行列Pを記憶する。基底行列Pは、目的音成分の既知の音源が発音した無声成分(例えば摩擦音等の発声音)から事前に生成されて記憶装置24に格納される。図2は、目的音成分の無声成分から基底行列Pを生成する処理の説明図である。図2の観測行列Xは、事前に収録された目的音成分の無声成分を時間軸上で区分したN個の単位期間の各々の振幅スペクトルの時系列(振幅スペクトログラム)を表現するM行N列の非負値行列である。すなわち、観測行列Xの第n列(n=1〜N)は、目的音成分の無声成分のうち第n番目の単位期間の振幅スペクトルx[n]に相当する。
図2の観測行列Xは、以下の数式(1)で表現される通り、非負値行列因子分解(NMF:Non-negative Matrix Factorization)を利用した学習処理(逐次的な更新)で基底行列Pと係数行列(アクティベーション行列)R0とに分解される。
数式(1)の基底行列Pは、図2に示すように、目的音成分の無声成分のうち音響特性(典型的には音色)が相違する各成分に対応したE個の基底ベクトルp[1]〜p[E]を横方向に配列したM行E列の非負値行列である。基底行列Pのうち第e列(e=1〜E)の基底ベクトルp[e]は、無声成分を構成するE個の成分(基底)のうち第e番目の成分の振幅スペクトルに相当する。すなわち、基底ベクトルp[e]の第m行(基底行列Pの第m行第e列)の要素は、目的音成分の無声成分の第e番目の成分の振幅スペクトルのうち周波数軸上の第m番目の周波数での振幅値を意味する。他方、数式(1)の係数行列R0は、図2に示すように、基底行列Pの各基底ベクトルp[e]に対応するE個の係数ベクトルr0[1]〜r0[E]を縦方向に配列したE行N列の非負値行列である。係数行列R0の第e行の係数ベクトルr0[e]は、基底行列Pの基底ベクトルp[e]に対する加重値(活性度)の時系列に相当する。
基底行列Pと係数行列R0とを乗算した行列PR0が観測行列Xに近似する(すなわち、行列PR0と観測行列Xとの類似度が増加する)ように基底行列Pおよび係数行列R0が算定されたうえで基底行列Pが記憶装置24に格納される。基底行列Pの基底ベクトルp[e]の総数(基底数)Eは、音響信号SA(t)の目的音成分の無声成分に想定され得る音色の総数以上の数値に設定される。以上が基底行列Pの生成の手順である。
図1の演算処理装置22は、記憶装置24に記憶されたプログラムPGMを実行することで、音響信号SA(t)から音響信号SB(t)を生成するための複数の機能(成分判定部32,周波数分析部34,行列解析部36,波形生成部38)を実現する。なお、演算処理装置22の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。
成分判定部32は、音響信号SA(t)にトランジェント成分が存在するか否かを音響信号SA(t)の単位期間毎に判定する。成分判定部32による判定には公知の技術(例えば音響信号SA(t)の音量の時間的な変化を解析する方法)が任意に採用され得るが、例えば単位期間内の音響信号SA(t)の時間波形の重心点(COG:Center Of Gravity)の時間軸上での変動を利用してトランジェント成分を検出する以下の方法が好適である。
具体的には、成分判定部32は、図3に示すように、音響信号SA(t)の1個の単位期間内の時間波形について時間軸上のエネルギーの重心点TGと当該単位期間の時間軸上の中心点(単位期間の始点と終点との中点)TCとの距離τを算定する。距離τは、中心点TCに対する重心点TGの偏心の度合の指標である。音響信号SA(t)の振幅が安定した定常状態では重心点TGが中心点TCに略一致する。他方、音響信号SA(t)の振幅が急峻に増加すると、重心点TGが中心点TCの後方に移動する。したがって、音響信号SA(t)にトランジェント成分が存在する単位期間では距離τが増加する、という傾向が観測される。以上の傾向を考慮して、本実施形態では、距離τが所定の閾値を上回る単位期間についてはトランジェント成分が存在する(トランジェント成分が強度的に優勢である)と判定し、距離τが閾値を下回る単位期間についてはトランジェント成分が存在しない(トランジェント成分が強度的に劣勢である)と判定する。なお、重心点TGを利用したトランジェント成分の検出については、A. Robel, "Onset Detection in Polyphonic Signals by means of Transient Peak Classification", ISMIR 2005にも詳述されている。
図4は、周波数分析部34および行列解析部36が実行する処理の説明図である。周波数分析部34は、音響信号SA(t)を時間軸上で区分した単位期間(フレーム)のN個分を単位として図4の観測行列Yを順次に生成する。観測行列Yは、図4に示すように、音響信号SA(t)を時間軸上で区分したN個の単位期間の各々の振幅スペクトルy[1]〜y[N]の時系列(振幅スペクトログラム)を表現するM行N列の非負値行列である。すなわち、観測行列Yの第n列は、音響信号SA(t)のN個の単位期間のうち第n番目の単位期間の振幅スペクトルy[n](M個の周波数の各々での振幅値の系列)に相当する。観測行列Yの生成には例えば短時間フーリエ変換等の公知の周波数分析が利用される。なお、音響信号SA(t)の各単位期間のパワースペクトルの時系列を観測行列Yとして利用することも可能である。
図1の行列解析部36は、周波数分析部34が生成した観測行列Yを解析することで分離行列Zを生成する。分離行列Zは、N個の単位期間にわたる音響信号SB(t)のスペクトルの時系列である。すなわち、行列解析部36は、音響信号SA(t)を表現する観測行列Yから目的音成分を抽出することで音響信号SB(t)の分離行列Zを生成する。行列解析部36による観測行列Yの解析には、以下に例示する音響モデルが利用される。
本実施形態では、以下の数式(2)の音響モデルで観測行列Yを表現する。数式(2)の音響モデルは、非特許文献1に開示された瞬時混合モデル(IMM:Instantaneous Mixture Model)である。
数式(2)の記号.×は、要素毎の乗算(アダマール積)を意味する。数式(2)の右辺の第1項の行列(以下「目的音行列」)という)(SF.×SH)が音響信号SA(t)の目的音成分に相当し、第2項の行列(以下「非目的音行列」という)Cが音響信号SA(t)の非目的音成分(トランジェント成分を含む)に相当する。非目的音行列Cは、N個の単位期間の各々における非目的音成分の振幅スペクトルの時系列を表現するM行N列の非負値行列である。
数式(2)の記号.×は、要素毎の乗算(アダマール積)を意味する。数式(2)の右辺の第1項の行列(以下「目的音行列」)という)(SF.×SH)が音響信号SA(t)の目的音成分に相当し、第2項の行列(以下「非目的音行列」という)Cが音響信号SA(t)の非目的音成分(トランジェント成分を含む)に相当する。非目的音行列Cは、N個の単位期間の各々における非目的音成分の振幅スペクトルの時系列を表現するM行N列の非負値行列である。
数式(2)の目的音行列(SF.×SH)は、目的音成分を表現するソースフィルタ(source/filter)モデルである。ソースフィルタモデルでは、図5に示す通り、周波数領域での調波特性と包絡特性との乗算で音響のスペクトルが表現される。調波特性は、声帯等の発音源(source)の挙動に起因する音響特性であり、基本周波数(音高)F0に対応する基音成分と基本周波数F0の整数倍に対応する複数の倍音成分とを周波数軸上に配列した系列(調波構造)で表現される。他方、包絡特性は、声道等の共鳴管内での変調に起因する音響特性(filter)であり、音響のスペクトルの包絡線に相当する。すなわち、包絡特性は、調波特性を周波数毎に調整するフィルタとして機能する。数式(2)の行列SFは、目的音成分のN個の単位期間にわたる包絡特性(フィルタ特性)の時系列を表現するM行N列の非負値行列(以下「包絡行列」という)である。他方、数式(2)の行列SHは、目的音成分のN個の単位期間にわたる調波特性の時系列を表現するM行N列の非負値行列(以下「調波行列」という)である。
数式(2)から理解される通り、目的音成分の包絡特性(音色)を表現する包絡行列SFは、基底行列Fと係数行列Qとに分解される。基底行列Fは、図4に示す通り、相異なる音色に対応するスペクトルの包絡線(フィルタ)を表現するK個の基底ベクトルf[1]〜f[K]を横方向に配列したM行K列の非負値行列である。他方、係数行列Qは、基底行列Fの各基底ベクトルf[k](k=1〜K)に対応するK個の係数ベクトルq[1]〜q[K]を縦方向に配列したK行N列の非負値行列である。係数行列Qの第k行の係数ベクトルq[k]は、基底行列Fの基底ベクトルf[k]に対する単位期間毎の加重値(活性度)の時系列を意味する。したがって、包絡行列SFの第n列は、基底行列Fの各基底ベクトルf[k]が表現するK種類の包絡線を係数行列Qの各係数ベクトルq[k]のうち第n番目の単位期間の加重値で加重加算した周波数軸上の包絡線(フィルタ)に相当する。
数式(2)および図4に示す通り、基底行列Fは、基底行列Bと係数行列Wとに分解される。基底行列Fの基底ベクトルf[k]が表現する包絡線は、相異なる複数の要素成分(基底)の加重和で表現される。基底行列Bは、各基底ベクトルf[k]の包絡線の素材となる各要素成分を表現するG個の基底ベクトルb[1]〜b[G]を横方向に配列したM行G列の非負値行列である。具体的には、G個の基底ベクトルb[1]〜b[G]の各々は、周波数軸上の相異なる周波数に配置された窓関数(例えばハニング窓)を表現する。基底行列Bは、事前に用意されて記憶装置24に格納される。
他方、係数行列Wは、基底行列Bの各基底ベクトルb[g](g=1〜G)に対応するG個の係数ベクトルw[1]〜w[G]を縦方向に配列したG行K列の非負値行列である。係数行列Wの第g行の係数ベクトルw[g]は、基底行列Bの基底ベクトルb[g]に対する加重値の系列を意味する。したがって、基底行列Fの基底ベクトルf[k]は、基底行列Bの各基底ベクトルb[g]が表現するG種類の要素成分を係数行列Wの各係数ベクトルw[g]のうち第k列の加重値で加重加算した包絡線を意味する。
他方、目的音成分の調波特性(基本周波数F0)を表現する調波行列SHは、数式(2)および図4から理解される通り、基底行列Hと係数行列Uとに分解される。基底行列Hは、相異なる基本周波数F0に対応した調波特性(基底)を表現するD個の基底ベクトルh[1]〜h[D]を横方向に配列したM行D列の非負値行列である。音響信号SA(t)の目的音成分に予想される各基本周波数F0に対応するD個の基底ベクトルh[1]〜h[D]が事前に用意されたうえで基底行列Hとして記憶装置24に格納される。
他方、係数行列Uは、基底行列Hの各基底ベクトルh[d](d=1〜D)に対応するD個の係数ベクトルu[1]〜u[D]を縦方向に配列したD行N列の非負値行列である。係数行列Uの第d行の係数ベクトルu[d]は、基底行列Hの基底ベクトルh[d]に対する単位期間毎の加重値の時系列を意味する。したがって、調波行列SHの第n列は、基底行列Hの各基底ベクトルh[d]が表現するD種類の調波特性を係数行列Uの各係数ベクトルu[d]のうち第n番目の単位期間の加重値で加重加算した周波数軸上のスペクトルを意味する。
図1の行列解析部36は、記憶装置24に事前に記憶された既知の基底行列Bおよび基底行列Hを事前情報(教師情報)として利用した教師有(Supervised)音源分離で音響信号SA(t)の観測行列Yから音響信号SB(t)の分離行列Zを生成する。具体的には、行列解析部36は、音響モデルの未知の各変数Θ(Θ={W,Q,U,C})を更新する所定の演算(以下「更新演算」という)を反復することで演算結果(各変数Θの推定値)θを算定する。所定の回数にわたり更新演算が反復された時点の変数Θの数値が演算結果θとして確定される。更新演算の具体的な内容は、例えば非特許文献1に開示されている。図6は、行列解析部36のブロック図である。図6に示すように、行列解析部36は、音高推定部42と演算処理部44と調整処理部46と演算処理部52と音源分離部54とを具備する。
音高推定部42は、音響信号SA(t)の目的音成分の基本周波数F0の時間的な遷移(ピッチパターン)を推定する要素であり、演算処理部62と探索処理部64とを含んで構成される。演算処理部62は、周波数分析部34が生成した観測行列Yと記憶装置24に記憶された既知の基底行列Bおよび基底行列Hとを適用した更新演算を反復的に実行することで各変数Θ(Θ={W,Q,U,C})の演算結果θ1を算定する。演算処理部62による更新演算に適用される各変数Θの初期値は、例えば乱数θ0に設定される。
演算処理部62が演算結果θ1として算定する係数行列Uの係数ベクトルu[d]のうち第n番目の要素は、基底行列H内の基底ベクトルh[d]が示す調波特性が第n番目の単位期間にて励起される度合(加重値)に相当する。すなわち、係数行列Uは、時間軸上のN個の単位期間にわたる音響信号SA(t)内の各音響成分の基本周波数F0の時間的な遷移(ピッチパターン)を表現する。図6の探索処理部64は、演算処理部62が算定した演算結果θ1内の係数行列Uから特定される複数の基本周波数F0の遷移のうち目的音成分に該当する確度(尤度)が高い基本周波数の遷移を探索する。目的音成分の基本周波数の遷移の探索(経路探索)には、動的計画法(例えばビタビ(Viterbi)アルゴリズム)等の公知の経路探索技術が任意に採用される。探索処理部64は、演算処理部62が算定した係数行列U内のD行N列の要素のうち目的音成分の基本周波数F0に対応する要素を維持するとともに目的音成分の基本周波数F0以外の要素をゼロに変換した行列(以下「音高行列」という)UF0を生成する。以上の説明から理解される通り、音高行列UF0は、音響信号SA(t)の目的音成分の基本周波数F0の遷移(ピッチパターン)を表現する。
図6の演算処理部44は、周波数分析部34が生成した観測行列Yと既知の基底行列Bおよび基底行列Hとを適用した更新演算を反復的に実行することで各変数Θ(Θ={W,Q,U,C})の演算結果θ2を算定する。演算処理部44による更新演算の各変数Θのうち係数行列Uの初期値は音高推定部42が生成した音高行列UF0に設定され、係数行列U以外の各変数Θ(W,Q,C)の初期値は乱数θ0に設定される。音高推定部42が生成した音高行列UF0では、目的音成分以外の基本周波数F0に対応する要素がゼロに設定される。したがって、演算処理部44による更新演算において、音響信号SA(t)のうち目的音成分以外の非目的音成分は、音響モデルの目的音行列(SF.×SH)の更新に寄与しない。すなわち、音響信号SA(t)の非目的音成分は音響モデルの非目的音行列Cに反映され、目的音行列(SF.×SH)には目的音成分(調波特性が観測される有声成分)が選択的に反映される。以上に説明した通り、演算処理部44による更新演算の反復で、音響信号SA(t)の観測行列Yが目的音成分(目的音行列(SF.×SH))と非目的音成分(非目的音行列C)とに分離される。
図6の演算処理部52は、周波数分析部34が生成した観測行列Yと既知の基底行列Bおよび基底行列Hを適用した更新演算を反復的に実行することで各変数Θの演算結果θ3を算定する。演算処理部52による更新演算では、係数行列Wと係数行列Qと非目的音行列Cとの各々の初期値は演算処理部44による演算結果θ2に設定される。基底行列Bおよび基底行列Fは既知であるから、演算処理部44は、更新演算の反復で包絡行列SFを算定する要素(第1演算処理手段)として機能する。
また、演算処理部52は、基底行列F(基底行列Bおよび係数行列W)を更新演算による更新対象から除外する。演算処理部44による更新演算で基底行列Fには目的音成分(目的音成分の音色に対応するスペクトルの包絡線)が抽出されているから、基底行列Fを更新対象から除外した状態では、基底行列Fは、演算処理部52による更新演算の反復の前後にわたり、目的音成分の音色を表現する内容(目的音成分の音色に対応するスペクトルの包絡線に各基底ベクトルf[k]が設定された状態)に維持される。
演算処理部52による更新演算では、既知の目的基底行列HAが音響モデルの基底行列Hとして適用されるとともに目的係数行列UAが音響モデルの係数行列Uとして適用される。図6の調整処理部46は、演算処理部52の更新演算に適用される目的基底行列HAおよび目的係数行列UAを生成する要素である。
図7は、目的基底行列HAおよび目的係数行列UAの説明図である。図7に示すように、目的基底行列HAは、記憶装置24に記憶された基底行列H(M行D列)および基底行列P(M行E列)を横方向に配列したM行(D+E)列の既知の非負値行列である。前述の通り、基底行列Hは調波特性(目的音成分の有声成分の音響特性)を表現し、基底行列Pは無声成分の音響特性を表現する。他方、目的係数行列UAは、演算処理部44が算定した演算結果θ2の係数行列Uと基底行列Pに対応する係数行列Rとを縦方向に配列した(D+E)行N列の非負値行列である。
無声成分の基底行列Pは、図2を参照して説明した通り、目的音成分の無声成分に対応するE個の基底ベクトルp[1]〜p[E]を含んで構成される。目的係数行列UAにおいて演算結果θ2の係数行列Uに付加される係数行列Rは、各基底ベクトルp[e]に対応するE個の係数ベクトルr[1]〜r[E]を縦方向に配列したE行N列の非負値行列である。図8は、係数行列R内の任意の1個の係数ベクトルr[e]の模式図である。図8に示す通り、係数ベクトルr[e]は、相異なる単位期間に対応するN個の要素(以下「加重値」という)λ[e,1]〜λ[e,N]の系列である。係数ベクトルr[e]の加重値λ[e,n]は、目的音成分の無声成分のうち基底ベクトルp[e]で表現される音響特性の成分が、N個の単位期間のうち第n番目の1個の単位期間において励起される度合を意味する。
目的音成分を抽出した基底行列Fが更新対象から除外され、かつ、目的音成分の有声成分の基底行列Hと無声成分の基底行列Pとを含む目的基底行列HAを適用した更新演算が反復されるから、演算処理部52による更新演算の反復で、目的音成分の有声成分および無声成分の双方が目的音行列(SF.×SH)に抽出される。ただし、無声成分(各基底ベクトルp[e])の励起の度合を規定する係数行列Rを何ら制約しない構成では、各基底ベクトルp[e]が示す音響特性に類似するトランジェント成分(非目的音成分)が目的音行列(SF.×SH)に混在し得る。すなわち、目的音成分の有声成分および無声成分とともに非目的音成分のトランジェント成分が抽出される可能性がある。
以上の事情を考慮して、図6の調整処理部46は、演算処理部52による更新演算の開始前に、図8に示す通り、無声成分に対応する係数行列R内のE個の係数ベクトルr[1]〜r[E]の各々におけるN個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在すると成分判定部32が判定した各単位期間の加重値λ[e,n]を抑圧値γに設定する。抑圧値γは、基底ベクトルp[e]に対応する無声成分を抑圧する数値である。抑圧値γの典型例はゼロであるが、充分に小さい正数を抑圧値γとして適用することも可能である。他方、各係数ベクトルr[e]におけるN個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在しないと成分判定部32が判定した各単位期間の加重値λ[e,n]は例えば乱数θ0に設定される。前述の抑圧値γは、乱数θ0の最小値を下回る数値とも換言され得る。演算処理部52は、調整処理部46が以上の手順で生成した目的基底行列HAと目的係数行列UAとを適用した更新演算を反復することで各変数Θ(Q,U,C)の演算結果θ3を算定する。以上の説明から理解される通り、演算処理部52は、演算処理部44が算定した包絡行列SFと、調整処理部46が生成した目的基底行列HAおよび目的係数行列UAを乗算した調波行列SHとを適用した更新演算の反復で係数行列Qと係数行列Uと非目的音行列Cとを更新する要素(第2演算処理手段)として機能する。
図6の音源分離部54は、演算処理部52が算定した演算結果θ3から目的音成分の分離行列Zを生成する。例えば、音源分離部54は、演算結果θ3の基底行列Fと係数行列Qと基底行列Hと係数行列Uとを適用した以下の数式(3)の演算でM行N列の分離行列Zを算定する。
以上の説明から理解される通り、演算処理部52が算定する分離行列Zは、音響信号SA(t)から目的音成分を抽出した音響の振幅スペクトログラムに相当する。なお、分離行列Zを算定する方法は数式(3)に限定されない。例えば、演算処理部52が算定した非目的音行列Cを観測行列Yから抑圧することで分離行列Zを生成することも可能である。非目的音行列Cの抑圧には、非目的音行列Cを雑音成分として観測行列Yから抑圧する各種の雑音抑圧技術(例えばスペクトル減算,ウィーナフィルタ,MMSE-STSA等)が任意に採用される。以上が行列解析部36の具体的な構成および動作である。
以上の説明から理解される通り、演算処理部52が算定する分離行列Zは、音響信号SA(t)から目的音成分を抽出した音響の振幅スペクトログラムに相当する。なお、分離行列Zを算定する方法は数式(3)に限定されない。例えば、演算処理部52が算定した非目的音行列Cを観測行列Yから抑圧することで分離行列Zを生成することも可能である。非目的音行列Cの抑圧には、非目的音行列Cを雑音成分として観測行列Yから抑圧する各種の雑音抑圧技術(例えばスペクトル減算,ウィーナフィルタ,MMSE-STSA等)が任意に採用される。以上が行列解析部36の具体的な構成および動作である。
図1の波形生成部38は、行列解析部36が生成した分離行列Zから時間領域の音響信号SB(t)を生成する。具体的には、波形生成部38は、分離行列Zの各列に対応する単位期間毎の振幅スペクトルと音響信号SA(t)の当該単位期間の位相スペクトルとを適用した逆フーリエ変換で時間領域信号を算定し、相前後する各単位期間について時間領域信号を相互に連結することで音響信号SB(t)を生成する。波形生成部38が生成した音響信号SB(t)が放音装置14に供給されて音波として再生される。
以上に例示した実施形態では、係数行列R内の各係数ベクトルr[e]のN個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分の存在が肯定された単位期間の加重値λ[e,n]が抑圧値γに設定される。したがって、目的音成分の無声成分と非目的音成分のトランジェント成分とで音響特性(スペクトル)が類似する場合でも、非目的成分のトランジェント成分を混在させることなく目的音成分の有声成分および無声成分を高精度に分離することが可能である。すなわち、音響信号SB(t)に非目的音成分のトランジェント成分が混在したり音響信号SB(t)に目的音成分の無声成分が欠落したりすることなく(すなわち、目的音成分の過不足を発生させることなく)、目的音成分を高精度に分離できる。また、本実施形態では、目的音成分の無声成分に対する事前の学習処理(NMF)で生成された基底行列Pが行列解析部36による解析処理(演算処理部52による更新演算)に適用される。したがって、目的音成分の音響特性とは無関係に選定された特定の雑音成分(例えば広帯域にわたり強度が略一定に維持された白色雑音)から生成された基底行列Pを利用する構成と比較して、目的音成分の有声成分および無声成分を高精度に分離できるという効果は格別に顕著である。
<変形例>
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)前述の形態では、事前に収録された無声成分の観測行列Xに対する非負値行列因子分解で無声成分の基底行列Pを生成したが(図2)、基底行列Pを生成する方法は任意である。基底行列Pは、無声成分の音響特性を表現するE個の基底ベクトルp[1]〜p[E]で構成されるから、例えば、音響特性が相違するE種類の無声成分の各々について平均的な振幅スペクトルを算定し、平均後の各振幅スペクトルを基底ベクトルp[e]としてE個分を配列することで基底行列Pを生成することも可能である。すなわち、無声成分の振幅スペクトルを特定する任意の技術が基底行列Pの生成に適用される。
(2)前述の形態では、音響信号SA(t)の目的音成分の基本周波数F0の推定に演算処理部44や演算処理部52と同様の更新演算を利用したが、音高推定部42による目的音成分の基本周波数F0の推定には公知の音高推定(ピッチ推定)技術が任意に採用される。
(3)前述の形態では、音響信号SA(t)の目的音成分を抽出(非目的音成分を抑圧)した音響信号SB(t)を生成したが、音響信号SA(t)の目的音成分を抑圧(非目的音成分を抽出)した音響信号SB(t)を生成することも可能である。例えば、演算処理部52が更新演算で算定した非目的音行列Cを分離行列Zとして音響信号SB(t)を生成すれば、音響信号SA(t)の非目的音成分を抽出した音響信号SB(t)が生成される。以上の説明から理解される通り、行列解析部36は、音響信号SA(t)の観測行列Yから目的音成分および非目的音成分の一方を分離(抽出または抑圧)する要素として包括される。
(4)音響信号SA(t)の目的音成分の有声成分と無声成分とを個別に抽出することも可能である。例えば、演算処理部44による演算結果θ2を適用した目的音行列(SF.×SH)は、音響信号SA(t)の目的音成分の有声成分に相当する。また、例えば演算処理部52による演算結果θ3のうち目的基底行列HA内の基底行列Pと目的係数行列UA内の係数行列Rとの乗算結果を包絡行列SFに乗算することで音響信号SA(t)の目的音成分の無声成分を分離することが可能である。
(5)前述の形態では、数式(2)の音響モデル(IMM)を適用した音源分離を例示したが、音源分離に適用される具体的な方法は適宜に変更され得る。具体的には、音響信号SA(t)の観測行列Yに対する非負値行列因子分解で目的音成分を分離する場合にも本発明を適用することが可能である。例えば、基底行列Hyと係数行列Uyとを乗算した目的音成分の行列HyUyと非目的音成分に対応する非目的音行列Cとの加算(HyUy+C)が観測行列Yに近似するように非負値行列因子分解を実行する場合を想定する。基底行列Hyは、図7の例示と同様に、目的音成分の有声成分を表現する基底行列Hと無声成分に対応する基底行列Pとを横方向に配列した既知の非負値行列である。係数行列Uyは、図7の例示と同様に、基底行列Hに対応する係数行列Uと基底行列Pに対応する係数行列Rとを縦方向に配列した未知の非負値行列である。行列解析部36は、係数行列R内の各係数ベクトルr[e]のN個の加重値λ[e,1]〜λ[e,N]のうちトランジェント成分が存在すると判定された単位期間に対応する加重値λ[e,n]を抑圧値γに設定したうえで各行列を反復的に更新することで係数行列Uyと非目的音行列Cとを算定する。
以上の説明から理解される通り、行列解析部36は、目的音成分の有声成分の基底ベクトル(例えば図7の基底ベクトルh[d])と無声成分の基底ベクトル(例えば図7の基底ベクトルp[e])とを配列した既知の基底行列と、基底行列の各基底ベクトルに対応する複数の係数ベクトル(例えば図7の係数ベクトルu[d]や係数ベクトルr[e])を配列した係数行列とを含む音響モデルが音響信号SA(t)の観測行列Yに近似するように係数行列を算定する要素として包括される。
なお、前述の各形態では、目的音成分の有声成分と無声成分とに着目したが、有声成分および無声成分は音響信号SA(t)内で音響特性が相異なる複数の音響成分(第1成分および第2成分)として包括的に表現され得る。すなわち、前述の形態で例示した無声成分を第1成分という表現に拡張するとともに有声成分を第2成分という表現に拡張すると、行列解析部36は、音響信号SA(t)の目的音成分の第1成分の基底ベクトル(例えば図7の基底ベクトルp[e])と第2成分の基底ベクトル(例えば図7の基底ベクトルh[d])とを配列した既知の基底行列と、基底行列の各基底ベクトルに対応する複数の係数ベクトル(例えば図7の係数ベクトルu[d]や係数ベクトルr[e])を配列した係数行列とを含む音響モデルが観測行列Yに近似するように係数行列を算定する要素として包括される。
また、前述の形態では、音響信号SA(t)の非目的音成分のトランジェント成分に着目したが、前述の形態で例示したトランジェント成分は、目的音成分の第1成分(例えば無声成分)に音響特性が類似する(音響特性が無声成分に類似する結果として目的音成分の無声成分とともに分離される可能性がある)、目的音成分以外の音響成分という表現に拡張され得る。すなわち、前述の形態における成分判定部32は、音響信号SA(t)のうち目的音成分の第1成分に音響特性が類似する非目的音成分が優勢であるか否か(典型的には存在するか否か)を音響信号SA(t)の単位期間毎に判定する要素として包括される。
(6)前述の各形態では音響信号SA(t)の全帯域を処理対象としたが、音響信号SA(t)のうち特定の帯域を選択的に処理対象とすることも可能である。音響信号SA(t)のうち目的音成分に想定される帯域成分(例えば特定の楽器の演奏音や歌唱音の音域)のみを処理対象とすれば、目的音成分の分離精度を向上することが可能である。
(7)携帯電話機等の端末装置と通信するサーバ装置で音響解析装置100を実現することも可能である。例えば、音響解析装置100は、端末装置から受信した音響信号SA(t)から音響信号SB(t)を生成して端末装置に送信する。なお、音響信号SA(t)の観測行列Yを端末装置から受信する構成(例えば端末装置が周波数分析部34を具備する構成)では音響解析装置100から周波数分析部34が省略され、分離行列Zを端末装置に送信する構成(例えば端末装置が波形生成部38を具備する構成)では音響解析装置100から波形生成部38が省略される。
100……音響解析装置、12……信号供給装置、14……放音装置、22……演算処理装置、24……記憶装置、32……成分判定部、34……周波数分析部、36……行列解析部、38……波形生成部、42……音高推定部、44……演算処理部、46……調整処理部、52……演算処理部、54……音源分離部、62……演算処理部、64……探索処理部、Y……観測行列、F,B,H……基底行列、Q,W,U……係数行列。
。
。
Claims (5)
- 音響信号の目的音成分に含まれる第1成分にスペクトルが類似する非目的音成分が優勢であるか否かを前記音響信号の単位期間毎に判定する成分判定手段と、
前記第1成分のスペクトルと前記目的音成分のうち前記第1成分以外の第2成分のスペクトルとの各々を示す複数の基底ベクトルを含む既知の基底行列と、前記基底行列の各基底ベクトルに対する加重値の時間変化を示す複数の係数ベクトルを配列した係数行列とを含む音響モデルが、前記音響信号の各単位期間のスペクトルを配列した観測行列に近似するように、前記係数行列を算定する行列解析手段とを具備し、
前記行列解析手段は、前記基底行列内の前記第1成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち、前記非目的音成分が優勢であると前記成分判定手段が判定した単位期間の加重値を、当該基底ベクトルを抑圧する抑圧値に設定する
音響解析装置。 - 前記行列解析手段は、音響の包絡特性を表現する包絡行列と基底行列および係数行列の乗算で調波特性を表現する調波行列とを含む前記音響モデルに前記観測行列が近似するように当該音響モデルの各変数を更新する更新演算を反復する
請求項1の音響解析装置。 - 前記行列解析手段は、
前記第2成分に対応する既知の基底行列と前記第2成分の基本周波数の遷移を示す係数行列とを乗算した前記調波行列を適用した前記更新演算の反復で前記包絡行列を算定する第1演算処理手段と、
前記第1成分および前記第2成分の各基底ベクトルに対応する複数の係数ベクトルを含み、前記第1成分の基底ベクトルに対応する係数ベクトルの複数の加重値のうち前記非目的音成分が優勢であると前記成分判定手段が判定した単位期間の加重値を前記抑圧値に設定した係数行列を生成する調整処理手段と、
前記第1演算処理手段が算定した包絡行列と、前記第1成分および前記第2成分に対応する既知の基底行列と前記調整処理手段が算定した前記係数行列とを乗算した前記調波行列とを適用した前記更新演算の反復で当該係数行列を更新する第2演算処理手段と、
前記第1成分および前記第2成分を含む目的音成分を前記音響信号の観測行列から分離した分離行列を前記第2演算処理手段による演算結果から生成する音源分離手段と
を具備する請求項2の音響解析装置。 - 前記非目的音成分はトランジェント成分を含み、
前記目的音成分の前記第1成分は無声成分であり、前記第2成分は有声成分である
請求項1から請求項3の何れかの音響解析装置。 - 前記抑圧値はゼロである
請求項1から請求項4の何れかの音響解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013002986A JP2014134688A (ja) | 2013-01-10 | 2013-01-10 | 音響解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013002986A JP2014134688A (ja) | 2013-01-10 | 2013-01-10 | 音響解析装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014134688A true JP2014134688A (ja) | 2014-07-24 |
Family
ID=51412995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013002986A Pending JP2014134688A (ja) | 2013-01-10 | 2013-01-10 | 音響解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014134688A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016133794A (ja) * | 2015-01-22 | 2016-07-25 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
WO2017046976A1 (ja) * | 2015-09-16 | 2017-03-23 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
JP2020140041A (ja) * | 2019-02-27 | 2020-09-03 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
-
2013
- 2013-01-10 JP JP2013002986A patent/JP2014134688A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016133794A (ja) * | 2015-01-22 | 2016-07-25 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
WO2017046976A1 (ja) * | 2015-09-16 | 2017-03-23 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
JPWO2017046976A1 (ja) * | 2015-09-16 | 2018-07-05 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
US10650842B2 (en) | 2015-09-16 | 2020-05-12 | Nec Corporation | Signal detection device, signal detection method, and signal detection program |
JP2020140041A (ja) * | 2019-02-27 | 2020-09-03 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
JP7245669B2 (ja) | 2019-02-27 | 2023-03-24 | 本田技研工業株式会社 | 音源分離装置、音源分離方法、およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5961950B2 (ja) | 音声処理装置 | |
Lehner et al. | On the reduction of false positives in singing voice detection | |
US9111526B2 (en) | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal | |
US8805697B2 (en) | Decomposition of music signals using basis functions with time-evolution information | |
Tachibana et al. | Singing voice enhancement in monaural music signals based on two-stage harmonic/percussive sound separation on multiple resolution spectrograms | |
EP3065130B1 (en) | Voice synthesis | |
JP2015515647A (ja) | 曲、ラップ、または対象拍子もしくはリズムを有する他の可聴表現への発語自動変換 | |
EP2083417A2 (en) | Sound processing device and program | |
CN111418005A (zh) | 声音合成方法、声音合成装置及程序 | |
US11875777B2 (en) | Information processing method, estimation model construction method, information processing device, and estimation model constructing device | |
JP2013164584A (ja) | 音響処理装置 | |
WO2019181767A1 (ja) | 音処理方法、音処理装置およびプログラム | |
JP2014134688A (ja) | 音響解析装置 | |
JP2017067902A (ja) | 音響処理装置 | |
JP6565548B2 (ja) | 音響解析装置 | |
KR20150118974A (ko) | 음성 처리 장치 | |
JP6299140B2 (ja) | 音響処理装置および音響処理方法 | |
JP2015200685A (ja) | アタック位置検出プログラムおよびアタック位置検出装置 | |
Sharma et al. | Singing characterization using temporal and spectral features in indian musical notes | |
JP5573529B2 (ja) | 音声処理装置およびプログラム | |
Igarashi et al. | Evaluation of sinusoidal modeling for polyphonic music signal | |
JP5879813B2 (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
US11756558B2 (en) | Sound signal generation method, generative model training method, sound signal generation system, and recording medium | |
JP5272141B2 (ja) | 音声処理装置およびプログラム | |
US20210366455A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150410 |