JP2013250357A - 音響解析装置およびプログラム - Google Patents

音響解析装置およびプログラム Download PDF

Info

Publication number
JP2013250357A
JP2013250357A JP2012123780A JP2012123780A JP2013250357A JP 2013250357 A JP2013250357 A JP 2013250357A JP 2012123780 A JP2012123780 A JP 2012123780A JP 2012123780 A JP2012123780 A JP 2012123780A JP 2013250357 A JP2013250357 A JP 2013250357A
Authority
JP
Japan
Prior art keywords
harmonic
variable
acoustic
volume
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012123780A
Other languages
English (en)
Other versions
JP6044119B2 (ja
Inventor
Naoki Yasuraoka
直希 安良岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2012123780A priority Critical patent/JP6044119B2/ja
Publication of JP2013250357A publication Critical patent/JP2013250357A/ja
Application granted granted Critical
Publication of JP6044119B2 publication Critical patent/JP6044119B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】音響信号の相異なる音色に対応する調波成分を高精度に解析する。
【解決手段】全極型伝達関数1/|Af j|で表現されて相異なる音色の調波成分に対応するJ個のスペクトル包絡VAf jの各々と、ガウス関数列で表現されて相異なる基本周波数μn kに対応するK個の調波構造Gn,f kの各々との組合せに対応する(J×K)個の調波要素EAn j,kを要素毎の音量Un mで混合する音響モデルのスペクトログラムXn,fが、音響信号SyのスペクトログラムYn,fに近似するように、全極型伝達関数1/|Af j|の係数αp jと、各調波要素EAn j,kの音量Un mと、各調波構造Gn,f kの基本周波数μn kとを、反復的な更新で推定する。
【選択図】図2

Description

本発明は、音響信号を解析する技術に関する。
音響信号を要素成分毎(例えば楽器毎)に分離する技術が従来から提案されている。例えば非特許文献1には、非負値行列因子分解(NMF:Non-negative Matrix Factorization)を利用した音源分離が開示されている。非負値行列因子分解を利用した音源分離では、音響信号の各成分の振幅スペクトルに対応する基底ベクトルを配列した基底行列と、各基底ベクトルの加重値の時間変化を示す係数行列とに音響信号が分解される。非特許文献2には、複数のガウス分布を周波数軸上に等間隔に配列した音響モデルを定義し、音響信号の振幅スペクトルを時刻毎に複数の音響モデルに分配する技術(ハーモニッククラスタリング)が開示されている。
P. Smaragdis, et. al., "Non-negative Matrix Factorization for Polyphonic Music Transcription", Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2003, p. 170-180 H. Kameoka, et. al., "Extraction of Multiple Fundamental Frequencies from Polyphonic Music Using Harmonic Clustering", In Proceedings of 18th International Congress on Acoustics, 2004, p. I-59-62
非特許文献1の技術では、音色が共通で音高が相違する複数の音響(例えば1種類の楽器が発音した各音高の音響)が相異なる基底ベクトルに分離されるため、基底行列内の複数の基底ベクトルを音色毎(楽器毎)に正確に分類することが困難であるという問題がある。また、非特許文献2の技術では、音響信号の振幅スペクトルが時刻毎に独立に複数の音響モデルに分配されるから、時間的な変動が小さい音響特性(典型的には楽器毎の音色)を推定できず、非特許文献1と同様に、音響信号を音色毎に正確に分離することは困難である。以上の事情を考慮して、本発明は、音響信号の相異なる音色に対応する調波成分を高精度に解析することを目的とする。
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
本発明の音響解析装置は、第1全極型伝達関数(例えば全極型伝達関数1/|Af j|)で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡(例えばJ個のスペクトル包絡VAf j)の各々と、ガウス関数列で表現されて相異なる基本周波数(例えば基本周波数μn k)に対応する複数の調波構造(例えばK個の調波構造Gn,f k)の各々との組合せに対応する複数の調波要素(例えば調波要素EAn j,k)を、要素毎の音量(例えば音量Un m)で混合した音響モデルのスペクトログラム(例えばスペクトログラムXn,f)が、対象音響信号(例えば音響信号Sy)のスペクトログラム(例えばスペクトログラムYn,f)に近似するように、第1全極型伝達関数の係数(例えば係数αp j)と各調波要素の音量と各調波構造の基本周波数とを反復的な更新で推定する変数解析手段を具備する。以上の構成によれば、調波成分に関連する各変数を高精度に解析することが可能である。なお、本発明の好適な態様において、調波成分に対応する各スペクトル包絡(調波成分の音色)は時不変とされる。以上の構成によれば、例えばガウス関数列を適用した時変のモデルで調波成分の各スペクトル包絡を表現した場合と比較して、調波成分のスペクトル包絡を高精度に推定できるという利点がある。
本発明の好適な態様において、音響モデルは、第2全極型伝達関数(例えば全極型伝達関数1/|Bf l|)でスペクトル包絡(例えばスペクトル包絡VBf l)が表現されて相異なる音色に対応する複数の非調波要素(例えばL個の非調波要素EBl)と複数の調波要素とを要素毎の音量で混合し、変数解析手段は、音響モデルのスペクトログラムと対象音響信号のスペクトログラムとが相互に近似するように、第1全極型伝達関数および第2全極型伝達関数の各係数と、各調波要素および各非調波要素の音量と、各調波構造の基本周波数とを、反復的な更新で推定する。以上の態様では、調波成分および非調波成分の双方について各変数を高精度に解析できるという利点がある。なお、本発明の好適な態様において、非調波要素に対応する各スペクトル包絡(非調波成分の音色)は時不変とされる。以上の構成によれば、例えばガウス関数列を適用した時変のモデルで非調波成分の各スペクトル包絡を表現した場合と比較して、非調波成分のスペクトル包絡を高精度に推定できるという利点がある。
本発明の好適な態様において、変数解析手段は、音響モデルのスペクトログラムと対象音響信号のスペクトログラムとの間のIダイバージェンスが最小となるように音響モデルの各変数を推定する。
本発明の好適な態様において、変数解析手段は、複数の基本周波数の各々の初期化後に音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外する。以上の態様では、閾値を下回る音量となった調波構造に対応する各変数の更新が以後の更新処理での更新対象から除外されるから、全部の調波構造について更新処理を最後まで継続する構成と比較して演算量が削減されるという利点がある。
本発明の好適な態様に係る音響解析装置は、第1全極型伝達関数で表現される調波成分のスペクトル包絡と、当該調波成分の基本周波数の時間変化と、第2全極型伝達関数で表現される非調波要素のスペクトル包絡と、当該非調波要素の音量の時間変化とを含む解析結果画像を表示装置に表示させる表示制御手段を具備する。以上の態様では、各調波成分の基本周波数(音高)の時間変化と各非調波成分の音量の時間変化とを利用者が視覚的に容易に把握できるという利点がある。
本発明の好適な態様に係る音響解析装置は、変数解析手段が解析した複数の音量のうち特定の要素成分に対応する音量を変更することで当該要素成分を抑圧するフィルタ(例えばフィルタ(例えばフィルタFn,f)を設定するとともにフィルタを対象音響信号に作用させる信号処理手段を具備する。本発明の音響解析装置によれば、対象音響信号の各調波成分が高精度に解析されるから、変数解析手段による解析結果に応じたフィルタを対象音響信号に作用させることで、対象音響信号の要素成分を高精度に抑圧することが可能である。
以上の各態様に係る音響解析装置は、音響信号の解析に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、第1全極型伝達関数の係数と各調波要素の音量と各調波構造の基本周波数とを反復的な更新で推定する解析処理をコンピュータに実行させる。以上のプログラムによれば、本発明の音響解析装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
本発明のひとつの実施形態に係る音響解析装置のブロック図である。 音響モデルの説明図である。 変数解析部が実行する解析処理のフローチャートである。 解析結果画像の模式図である。 実施形態の効果の説明図である。
図1は、本発明の好適な実施形態に係る音響解析装置100のブロック図である。本実施形態の音響解析装置100は、音色が相違する複数の音響成分(調波成分および非調波成分)が混合された音響信号Syを解析する信号処理装置であり、図1に示すように、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。
演算処理装置10は、記憶装置12に格納されたプログラムPGMを実行することで、音響信号Syを解析するための複数の機能(周波数分析部22,変数解析部24,表示制御部26,信号処理部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。本実施形態の記憶装置12は音響信号Syを記憶する。なお、可搬型または内蔵型の記録媒体を再生する外部再生装置(図示略)から音響解析装置100が音響信号Syを取得することも可能である。
表示装置14(例えば液晶表示パネル)は、演算処理装置10による解析結果を表示する。入力装置16は、利用者からの指示を受付ける機器であり、例えば複数の操作子を含んで構成される。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10から指示された音波を再生する。
周波数分析部22は、音響信号SyのスペクトログラムYn,fを算定する。スペクトログラムYn,fは、時間軸上のフレーム毎に算定された振幅スペクトルの時系列である。記号nは、時間軸上に離散的に設定された任意の時点(フレームの番号)を意味し、記号fは、周波数軸上に離散的に設定された任意の周波数(周波数ビン)を意味する。スペクトログラムYn,fの算定には、短時間フーリエ変換等の公知の周波数解析が任意に採用される。
本実施形態では、図2の音響モデルで生成されるスペクトログラムXn,fを音響信号SyのスペクトログラムYn,fのモデルとして想定する。図2に示すように、(J×K)個の調波要素EAn j,kの各々を要素毎の音量Hn j,kに応じて調整するとともにL個の非調波要素EBlの各々を要素毎の音量In lに応じて調整し、調整後の各調波要素EAn j,kと調整後の各非調波要素EBlと((JK+L)個)を加算する音響モデルでスペクトログラムXn,fは表現される。
(J×K)個の調波要素EAn j,kは、相異なる音色(例えば楽器毎)の調波成分に対応するJ個のスペクトル包絡VAf jの各々と、相異なる基本周波数(音高)μn kに対応するK個の調波構造Gn,f kの各々との(J×K)通りの組合せに対応する。1個のスペクトル包絡VAf jは、例えば弦楽器や管楽器等の調波性の1種類の楽器が発音する調波音のスペクトルの包絡線に相当する。なお、本実施形態では、各調波成分のスペクトル包絡VAf jが時間的に変動しない(すなわち各調波成分の音色が時不変である)と仮定する。他方、調波構造Gn,f kは、基本周波数μn kに対応する基音成分と基本周波数μn kの整数倍の周波数に対応する複数の倍音成分とを配列した系列であり、基本周波数μn kに応じて時刻n毎に刻々と変動する。音量Hn j,kは、J個のうち第j番目のスペクトル包絡VAf jとK個のうち第k番目の調波構造Gn,f kとの組合せに対応する調波要素EAn j,kの音量(加重値)に相当し、時刻n毎に刻々と変動する。
他方、L個の非調波要素EBlは、相異なる音色の非調波成分に対応するL個のスペクトル包絡VBf lに対応する。1個のスペクトル包絡VBf lは、例えば打楽器等の非調波性の1種類の楽器が発音する非調波音のスペクトルの包絡線に相当する。調波成分のスペクトル包絡VAf jと同様に、本実施形態では、各非調波成分のスペクトル包絡VBf lが時間的に変動しない(すなわち各非調波成分の音色が時不変である)と仮定する。音量In lは、L個のうち第l番目のスペクトル包絡VBf lに対応する非調波要素EBlの音量(加重値)に相当し、時刻n毎に刻々と変動する。
以上の説明から理解されるように、図2の音響モデルで生成されるスペクトログラムXn,fは以下の数式(1)で定義される。なお、数式(1)の記号「:=」は定義を意味する。数式(1)の右辺の第1項が調波成分に対応し、第2項が非調波成分に対応する。
Figure 2013250357
数式(1)の関数1/|Af j|は、第j番目の調波成分のスペクトル包絡VAf jをP個の係数αp j(p=1〜P)に応じて表現する数式(2)の全極型伝達関数である。なお、記号iは虚数単位を意味する。また、記号f'は、周波数(周波数ビン)fに対応する正規化角周波数を意味する。
Figure 2013250357
同様に、数式(1)の関数1/|Bf l|は、第l番目の非調波成分のスペクトル包絡VBf lをQ個の係数βq l(q=1〜Q)に応じて表現する数式(3)の全極型伝達関数である。係数αp jの個数Pや係数βq lの個数Qは例えば10個程度に設定される。
Figure 2013250357
数式(1)の調波構造Gn,f kは、基本周波数μn kの基音成分と基本周波数μn kの整数倍の周波数(h×μn k)の各倍音成分とに対応するガウス分布(ガウス関数)を基本周波数μn kに応じた間隔で周波数軸上に配列したガウス関数列を意味する以下の数式(4)で表現される。
Figure 2013250357

数式(4)の記号hは倍音成分の次数(整数)を意味し、記号σ2はガウス分布の分散を意味する。分散σ2は、例えば単一の所定値に設定される。数式(4)の調波構造Gn,f kによれば、基本周波数μn kに応じてガウス関数列が時刻n毎に周波数軸上で伸縮されるから、ビブラート等の微細な音高の変動も適切に表現できる。
ところで、H. Kameoka, et. al., "Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency", IEEE Trans. on Audio, Speech and Language Processing, Vol. 18, No.6, p. 1507-1516, 2010(以下「非特許文献3」という)には、調波成分および非調波成分の双方をガウス関数列でモデル化する構成が開示されている。ガウス関数列(各ガウス分布の間隔)は音高に応じて刻々と変動する。すなわち、非特許文献3の構成では、調波成分および非調波成分の双方のスペクトル包絡が時間的に変動する(音色が時変である)ことが前提となる。他方、本実施形態では、全極型伝達関数1/|Af j|を適用した時不変のモデルで各調波成分のスペクトル包絡VAf jが表現され、全極型伝達関数1/|Bf l|を適用した時不変のモデルで各非調波成分のスペクトル包絡VBf lが表現される。全極型伝達関数は共鳴過程のモデルとして好適であり、かつ、音色(スペクトル包絡)が時不変であるという過程は現実の音響の傾向に充分に整合するから、本実施形態によれば、非特許文献3の構成と比較して、各調波成分のスペクトル包絡VAf jや各非調波成分のスペクトル包絡VBf lを高精度に推定できるという格別の効果が実現される。
説明の便宜のため、(J×K)個の調波要素EAn j,kとL個の非調波要素EBlとに対して図2の上方から下方に向けて通し番号(0,1,2,……,JK+L−1)を付与し、任意の1個の要素を変数m(m=0〜JK+L−1)で表現したうえで、以下の数式(5)のように変数Wn,f mおよび変数Un mを定義する。なお、数式(5)の記号modは剰余を意味し、記号〈 〉は床関数を意味する。
Figure 2013250357
数式(5)の関係を利用すると、前掲の数式(1)は以下の数式(6)のように変形される。
Figure 2013250357

数式(6)から理解されるように、音響モデルのスペクトログラムXn,fは、各要素成分(各調波要素EAn j,k,各非調波要素EBl)に対応するM個((JK+L)個)のスペクトルパターンWn,f mと各要素成分に対応するM個の時変な音量Un mとで表現される。
図1の変数解析部24は、数式(6)で表現される音響モデルのスペクトログラムXn,fと周波数分析部22が算定した音響信号SyのスペクトログラムYn,fとが相互に近似するように音響モデルの各変数を推定する。具体的には、変数解析部24は、各調波構造Gn,f kの基本周波数μn kと、各調波成分のスペクトル包絡VAf jを表現する全極型伝達関数1/|Af j|の各係数αp jと、各非調波成分のスペクトル包絡VBf lを表現する全極型伝達関数1/|Bf l|の各係数βq lと、各調波要素EAn j,kおよび各非調波要素EBlの音量Un m(Hn j,k,In l)とを推定する。各変数(μn k,αp j,βq l,Un m)は反復的な更新で推定される。
変数解析部24による各変数の推定は、以下の数式(7)で表現されるように、スペクトログラムXn,fとスペクトログラムYn,fとの乖離の度合を表現する評価関数(距離規準)Qを各変数{μn k,αp j,βq l,Un m}に関して(w.r.t.:with respect to)最小化する最適化問題として定式化される。
Figure 2013250357
本実施形態では、以下の数式(8)で表現されるように、スペクトログラムXn,fとスペクトログラムYn,fとのIダイバージェンスを評価関数Qとして採用する。
Figure 2013250357
<Iダイバージェンスを規準とした全極型伝達関数の係数の推定>
図2の音響モデルを評価する評価関数Qに数式(8)のIダイバージェンスを適用する場合、全極型伝達関数(1/|Af j|,1/|Bf l|)の各係数(αp j,βq l)を推定するための更新式の導出が問題となる。そこで、変数解析部24による具体的な処理の説明に先立ち、数式(9)で表現されるように、時間軸上の1個の時刻(したがって時刻nは省略される)での振幅スペクトルYfを全極型伝達関数γ/|Af|で近似する場合を仮定して、全極型伝達関数γ/|Af|の係数αpを推定するという小課題を便宜的に検討する。
Figure 2013250357

数式(9)の記号「〜」は近似を意味する。また、数式(9)の記号γは、小課題の検討のために便宜的に導入した音量を意味する。振幅スペクトルYfと全極型伝達関数γ/|Af|との乖離の度合をIダイバージェンスで規定する評価関数Qは、以下の数式(10)で表現される。ただし、数式(10)では、係数αpの推定に関係しない要素を省略した。
Figure 2013250357
数式(10)の評価関数Qを最小化する係数αpの更新式を検討する。仮に評価関数Qが係数αpの2次形式であれば、評価関数Qの係数αpによる偏微分がゼロになるときの係数αpの数値が更新値となり、この条件から係数αpの更新式を解析的に導出することが可能である。しかし、数式(10)で表現される評価関数Qは係数αpの2次形式ではないから、更新式の解析的な導出は困難である。以上の事情を考慮して、係数αpの2次形式で表現される適切な補助関数を設定する補助関数法を利用して係数αpの更新式を導出する。
補助関数法は、補助変数ξに対する補助関数Q+(θ,ξ)の最小値が本来の最小化の目的となる関数Q(θ)に合致するように補助関数Q+(θ,ξ)を設計し(Q(θ)=min Q+(θ,ξ))、補助関数Q+(θ,ξ)について補助変数ξに関する最小化と本来の変数θに関する最小化とを反復することで間接的に本来の関数Q(θ)を単調減少させる手法である。補助関数Q+(θ,ξ)を最小にする変数θおよび変数ξの双方が解析的に解けるように補助関数Q+(θ,ξ)を設計すれば、変数の推定は簡単化される。
数式(10)の括弧内の第1項の対数関数log|Af|の非線形性を解消するために以下の数式(11)を想定する。
Figure 2013250357

数式(11)の右辺は、変数|Af|2が変数ρfとなる地点での接線に相当するから、変数ρfを補助変数とする補助関数として利用できる。数式(11)の等号が成立するのは、補助変数ρfが変数|Af|2に合致する場合(ρf←|Af|2)である。
次に、数式(10)の括弧内の第2項の逆数を解消するために、以下の数式(12)で表現されるように点τfを中心とする2次のテイラー近似を検討する。
Figure 2013250357

数式(12)の右辺は目的関数1/|Af|を下回る可能性があるため、補助関数の要件を厳密には充足しないが、変数τfを変数|Af|に合致させれば凸関数に対するニュートン法と同形になるから、変数τfを補助変数と見做した効率的かつ安定的な最適化が可能である。
数式(11)および数式(12)を利用することで、数式(10)の評価関数Qに対する数式(13)の補助関数Q+が導出される。なお、数式(13)の変数Cは、係数αpを含まない要素を意味する。
Figure 2013250357
数式(13)は、変数|Af|に対して線形であるが、係数αpに関する2次形式には依然として到達していない。そこで、複素数の補助関数ωfを変数|Af|に適用した以下の数式(14)を想定する。
Figure 2013250357

数式(14)の記号Re[ ]は実部を意味し、記号*は複素共役を意味する。
数式(14)と前掲の数式(9)とを数式(13)に適用することで、係数αpの2次形式で表現される数式(15)の補助関数Q++が導出される。
Figure 2013250357
数式(15)を利用した係数αpの更新を検討する。前述の3種類の補助変数(ρf,τf,ωf)を数式(16)のように更新し、数式(15)を係数αpで偏微分してゼロとすることで以下の数式(17)が導出される。
Figure 2013250357

Figure 2013250357
変数pのP個分を連立することで、振幅スペクトルYfと全極型伝達関数γ/|Af|とのIダイバージェンス(数式(10)の評価関数Q)が最小化されるように全極型伝達関数γ/|Af|の係数αpを更新する更新式(18)が導出される。
Figure 2013250357

数式(18)は対称テプリッツ(Toeplitz)型の方程式であり、レビンソン-ダービン(Levinson-Durbin)アルゴリズムを利用することで高速に演算することが可能である。
以上の検討を踏まえて、図1の変数解析部24が音響モデルの各変数(μn k,αp j,βq l,Un m)を推定するための更新式を検討する。
<音量Un m
評価関数Qを定義する数式(8)のうち括弧内の第1項の対数関数log(1/Xn,f)(=−logXn,f)に着目する。音響モデルのスペクトログラムXn,fを表現する数式(6)を考慮すると、対数関数−logXn,fは、対数関数が総和(Σ)を内包する形式であると理解できる。以上の形式を解消する(対数関数内から総和を除去する)ためにイェンゼン(Jensen)の不等式を適用すると、以下の数式(19)が導出される。
Figure 2013250357

数式(19)の変数λn,f mは、任意の変数n,f,mについて正数であり(∀n,f,m:λn,f m>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σλn,f m=1)である。数式(19)で等号が成立する条件は、ラグランジュ(Lagrange)の未定乗数法を利用して導出される以下の数式(20)で表現される。
Figure 2013250357
数式(19)を利用することで、数式(8)の評価関数Qに対する数式(21)の補助関数Q+(対数関数が総和を内包しない形式)が導出される。記号Cは、音響モデルの変数(μn k,αp j,βq l,Un m)を含まない要素を意味する。
Figure 2013250357
数式(21)を音量Un mで偏微分することで以下の数式(22)が導出される。
Figure 2013250357

数式(22)をゼロとすることで、数式(8)の評価関数Q(スペクトログラムXn,fとスペクトログラムYn,fとのIダイバージェンス)が最小化されるように音量Un mを更新する以下の更新式(23)が導出される。
Figure 2013250357
<全極型伝達関数の係数αp jおよび係数βq l
前掲の数式(21)を変形すると、各調波成分のスペクトル包絡VAf jを表現する全極型伝達関数1/|Af j|の係数αp jに関連する要素は以下の数式(24)で表現される。
Figure 2013250357
数式(24)が、前述の小課題の検討で想定した数式(10)の右辺と類似する形式であることを考慮すると、数式(10)に対応する更新式(18)を流用することで係数αp jの更新式が導出されると理解できる。すなわち、数式(10)の変数Yfを数式(24)の変数Σk,nn,fλn,f jK+kに対応させ、数式(10)の変数γを数式(24)の変数Σk,nn,f km j,kに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数αp jを更新する以下の更新式(25)が導出される。
Figure 2013250357
同様に、数式(10)の変数Yfを変数Σnn,fλn,f jK+lに対応させ、数式(10)の変数γを変数Σnn lに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数βq lを更新する以下の更新式(26)が導出される。
Figure 2013250357
<基本周波数μn k
各調波構造Gn,f kの基本周波数μn kの更新式を導出するために、前掲の数式(21)の第1項のみに着目する。すなわち、数式(21)の第2項Σm,n,fn,f mn mは、基本周波数μn kに対する依存が無視できるほど微小であると仮定して省略する。数式(21)の第1項のうち基本周波数μn kに関連する要素は以下の数式(27)で表現される。
Figure 2013250357
数式(27)にイェンゼンの不等式を適用することで、以下の数式(28)が導出される。
Figure 2013250357
数式(28)の変数φn,f h,kは、任意の変数h,k,n,fについて正数であり(∀h,k,n,f:φn,f h,k>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σφn,f h,k=1)である。数式(28)を利用することで、数式(8)の評価関数Qに対する数式(29)の補助関数Q+が導出される。
Figure 2013250357
数式(29)を基本周波数μn kで偏微分してゼロとすることで、数式(8)の評価関数Qが最小化されるように基本周波数μn kを更新する以下の更新式(30)が導出される。
Figure 2013250357
本実施形態の変数解析部24は、音量Un mを更新する更新式(23)の演算と、係数αp jを更新する更新式(25)の演算と、係数βq lを更新する更新式(26)の演算と、基本周波数μn kを更新する更新式(30)の演算とを反復的に実行することで音響モデルの各変数(μn k,αp j,βq l,Un m)を推定する。具体的には、変数解析部24は図3の解析処理を実行する。解析処理は、例えば入力装置16に対する利用者からの指示を契機として実行される。図3の解析処理を開始すると、変数解析部24は、音響モデルの各変数(μn k,αp j,βq l,Un m)を初期化する(SA)。各変数を初期化する具体的な方法は任意であるが、例えば以下に例示する方法が好適である。
変数解析部24は、対数軸上で等間隔に配列するK個の周波数の各々を各調波構造Gn,f kの基本周波数μn kの初期値に設定する(SA1)。なお、基本周波数μn kの初期値が適切でない場合(音響信号Syの実際の基本周波数との誤差が大きい場合)、音響信号Syの実際の基本周波数の整数倍または整数分の一の周波数が基本周波数μn kと誤推定される可能性が高いという傾向がある。以上の傾向を考慮して、本実施形態では、調波構造Gn,f kの総数Kを、音響信号Syの調波成分に想定される最大同時発音数と比較して充分に大きい数値に予備的に設定し、基本周波数μn kの初期値の妥当性が低いと各変数の更新の反復の過程で評価できる調波構造Gn,f kを更新対象から順次に除外する方法(後述のステップSB6)を採用する。
変数解析部24は、音響信号SyのスペクトログラムYn,fのうちJ個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数αp jの初期値に設定する(SA2)。同様に、変数解析部24は、音響信号SyのスペクトログラムYn,fのうちL個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数βq lの初期値に設定する(SA3)。また、変数解析部24は、音量Un mを非負の乱数値に初期化する(SA4)。なお、ステップSA1からステップSA4の順序は任意に変更される。
以上の手順で音響モデルの各変数を初期化すると、変数解析部24は、音響信号SyのスペクトログラムYn,fと各変数の現段階での数値とを適用した演算で各変数(μn k,αp j,βq l,Un m)を更新する更新処理SBを実行する。更新処理SBを開始すると、変数解析部24は、数式(20)の演算で変数λn,f mを算定する(SB1)。そして、変数解析部24は、更新式(23)の演算で音量Un mを更新し(SB2)、更新式(30)の演算で基本周波数μn kを更新し(SB3)、更新式(25)の演算で係数αp jを更新し(SB4)、更新式(26)の演算で係数βq lを更新する(SB5)。なお、ステップSB2からステップSB5の順序は任意に変更される。
ステップSA1で基本周波数μn kの初期値に選定されたK個の周波数のうち音響信号Syに実際に包含される基本周波数から乖離した周波数に対応する音量Un mは、ステップSB2での更新毎に順次に減少するという傾向がある。以上の傾向を考慮して、変数解析部24は、ステップSB2での更新後の音量Un mが所定の閾値を下回る調波構造Gn,f k(すなわち、基本周波数μn kの初期値の妥当性が低いと評価できる調波構造Gn,f k)に関連する変数(基本周波数μn kおよび音量Un m)を、以後の更新処理SBでの更新対象から除外する(SB6)。すなわち、更新処理の反復過程で音量Un mが閾値を下回った調波構造Gn,f kは音響モデルから除去される。したがって、K個の調波構造Gn,f kの全部について更新処理SBを最後まで継続する構成と比較して変数解析部24の演算量が削減されるという利点がある。
変数解析部24は、更新処理SBの反復を終了する条件(以下「反復停止条件」という)が成立したか否かを判定する(SC1)。例えば変数解析部24は、現段階までの更新処理SBの反復回数が所定回数に到達した場合に反復停止条件が成立したと判定し、反復回数が所定回数を下回る場合には反復停止条件が成立していないと判定する。なお、反復停止条件の判定方法は任意である。例えば、音響モデルの各変数の収束の有無を評価(収束判定)することも可能である。すなわち、変数解析部24は、各変数が収束した場合に反復停止条件が成立したと判定し、各変数が収束していない場合には反復停止条件が成立していないと判定する。各変数の収束判定には公知の技術が任意に採用される。
反復停止条件が成立していない場合(SC1:NO)、変数解析部24は、直前の更新処理SBでの更新後の各変数を適用した更新処理SBを実行する。すなわち、反復停止条件が成立するまで更新処理SBが順次に実行されて各変数が累積的に更新される。他方、反復停止条件が成立した場合(SC1:YES)、変数解析部24は、直前の更新処理SBでの更新後の各変数を最終的な解析結果として確定して記憶装置12に格納する(SC2)。変数解析部24が実行する解析処理の具体的な内容は以上の通りである。
図1の表示制御部26は、変数解析部24の解析結果に応じた画像(以下「解析結果画像」という)を生成して表示装置14に表示させる。図4に例示されるように、本実施形態の解析結果画像50は、複数の領域(DY,DX,DA1,DA2,DB1,DB2)を含んで構成される。領域DYと領域DXと領域DA2と領域DB2とは時間軸が共通する。
領域DYには、周波数分析部22が算定した音響信号SyのスペクトログラムYn,fが表示され、領域DXには、変数解析部24が推定した各変数(μn k,αp j,βq l,Un m)で定義される音響モデルのスペクトログラムXn,fが表示される。以上のようにスペクトログラムYn,fとスペクトログラムXn,fとが対比的に表示されるから、利用者は、変数解析部24による解析の精度を視覚的に確認することが可能である。
領域DA1および領域DA2は、音響信号Syの調波成分に関する解析結果を利用者に提示する画像領域である。領域DA1には、変数解析部24が推定した係数αp jに応じた全極型伝達関数1/|Af j|で表現される各調波成分のスペクトル包絡VAf jが表示される。領域DA2には、変数解析部24が調波構造Gn,f k毎に推定した各基本周波数μn kの時間的な変動(音高の時間軌跡)が表示される。すなわち、領域DA2は、縦軸が音高(基本周波数μn k)を示すピアノロール形式の画像である。利用者は、領域DA2を視認することで、各調波成分の音高の時間軌跡(例えば楽器毎の旋律)を直観的に把握することが可能である。なお、領域DA2内の各調波成分の音高の時間軌跡の表示態様(濃度や色彩等)を、各調波成分について推定された音量Un mに応じて制御する(すなわち、各調波成分の音量Un mを濃度や色彩で表現する)ことも可能である。
他方、領域DB1および領域DB2は、音響信号Syの非調波成分に関する解析結果を利用者に提示する画像領域である。領域DB1には、変数解析部24が推定した係数βq lに応じた全極型伝達関数1/|Bf l|で表現される各非調波成分のスペクトル包絡VBf lが表示される。領域DB2には、変数解析部24が各非調波成分について推定した音量Un m(すなわち図2の音量In l)の時間的な変動が非調波成分毎(非調波要素EBl毎)に表示される。利用者は、領域DB2を視認することで、各非調波成分の発音の時点(例えば各打楽器の発音点)や、領域DA2内の各調波成分の基本周波数μn kとの時間的な関係を直観的に把握することが可能である。
図1の信号処理部28は、変数解析部24の解析結果(μn k,αp j,βq l,Un m)を適用した信号処理(フィルタ処理)を音響信号Syに対して実行することで音響信号Szを生成する。本実施形態の信号処理部28は、音響信号Syのうち入力装置16に対する利用者からの指示に応じた要素成分を抑圧した音響信号Szを生成する。
具体的には、信号処理部28は、周波数分析部22が算定した音響信号SyのスペクトログラムYn,fについて以下の数式(31)の演算を実行することで音響信号SzのスペクトログラムZn,fを算定する。数式(31)の演算は、変数解析部24の解析結果に応じたフィルタFn,fを音響信号SyのスペクトログラムYn,fに作用させる処理を意味する。
Figure 2013250357

信号処理部28は、数式(31)で算定されたスペクトログラムZn,fを時間領域の音響信号Szに変換する。例えば、信号処理部28は、スペクトログラムZn,fと音響信号Syの位相スペクトログラムとを適用した短時間逆フーリエ変換で音響信号Szを生成する。なお、公知の位相復元法で音響信号Szを生成することも可能である。信号処理部28が生成した音響信号Szが放音装置18に供給されて音波として再生される。
数式(31)のフィルタFn,fは、以下の数式(32)で表現される。
Figure 2013250357

数式(32)のフィルタFn,fの分母は、音響モデルのスペクトログラムXn,f(数式(6))に相当する。他方、数式(32)の分子の変数un mは、音響モデルにおけるM個((JK+L)個)の要素成分(調波要素EAn j,kおよび非調波要素EBl)の音量(以下「調整音量」という)に対応する。M個の調整音量un mのうち利用者からの指示に応じた要素成分に対応する各調整音量un mは所定値εに設定され、残余の各調整音量un mは変数解析部24が推定した音量Un mに設定される。所定値εは例えばゼロ(またはゼロに近い正数)に設定される。以上の説明から理解されるように、数式(32)のフィルタFn,fの分子は、音響モデルのスペクトログラムXn,fのうち利用者からの指示に応じた特定の要素成分の音量Un mを所定値εに変更したスペクトログラムに相当する。したがって、フィルタFn,fを音響信号Syに作用させる数式(31)の演算により、音響信号Syから特定の要素成分を抑圧(除去)した音響信号Szが生成される。
利用者は、音響信号Syのうち所望の要素成分を入力装置16の操作で指定することが可能である。例えばJ個の調波成分のうち特定の調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した調波成分のスペクトル包絡VAf jとK個の調波構造Gn,f kの各々との組合せに対応するK個の調整音量un mを所定値εに設定し、残余((M−K)個)の各調整音量un mを音量Un mに設定する。したがって、音響信号Syのうち利用者が選択した調波成分(例えば特定の楽器の演奏音)を抑圧した音響信号Szが生成される。
K個の調波構造Gn,f kのうち特定の調波構造Gn,f kを利用者が選択した場合、信号処理部28は、利用者が選択した調波構造Gn,f kとJ個のスペクトル包絡VAf jの各々との組合せに対応するJ個の調整音量un mを所定値εに設定し、残余((M−J)個)の各調整音量un mを音量Un mに設定する。したがって、音響信号Syのうち利用者が選択した調波構造Gn,f kに対応する基本周波数μn kの調波成分(すなわち特定の音高)を抑圧した音響信号Szが生成される。
また、L個の非調波成分のうち特定の非調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した非調波成分(非調波要素EBl)に対応する調整音量un mを所定値εに設定し、残余の各調整音量un mを音量Un mに設定する。したがって、音響信号Syのうち利用者が選択した非調波成分(例えば特定の打楽器の演奏音)を抑圧した音響信号Szが生成される。
図5は、以上に説明した音響解析装置100による処理結果である。図5では、相異なる2種類の調波性の楽器の演奏音を含む音響信号Sy(J=2,L=0)を楽器毎に分離(一方を抑圧)した場合のSN(Signal/Noise)比が、本実施形態の音響解析装置100を利用した場合と、非負値行列因子分解(NMF)での分離結果をk-means法で楽器毎に分類した場合(以下「対比例」という)とについて対比的に図示されている。SN比が高いほど分離精度が高いことを意味する。評価用の音楽は、RWC(Real World Computing) Music Databeseから選択されたクラシックおよびジャズの音楽である。本実施形態によれば、対比例と比較して音響信号Syの各要素成分を高精度に分離できることが図5から理解される。
<変形例>
以上に例示した形態には様々な変形が加えられる。例えば、前述の形態では、J個の調波成分とL個の非調波成分とを含む音響モデルを例示したが、L個の非調波成分を省略することも可能である。
また、前述の形態では、変数解析部24の解析結果を表示装置14による表示と信号処理部28による信号処理とに適用したが、変数解析部24の解析結果の利用方法は任意である。例えば、音響信号Syのうち特定の楽器に対応する調波成分の基本周波数μn kの解析結果からその楽器の楽譜を作成する構成(自動採譜)や、音響信号Syの特定の要素成分を解析結果に応じて抽出して選択的に音響効果(例えば残響効果)を付与する構成も採用され得る。
100……音響解析装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……周波数分析部、24……変数解析部、26……表示制御部、28……信号処理部、50……解析結果画像。

Claims (7)

  1. 第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する変数解析手段
    を具備する音響解析装置。
  2. 前記音響モデルは、第2全極型伝達関数でスペクトル包絡が表現されて相異なる音色に対応する複数の非調波要素と前記複数の調波要素とを要素毎の音量で混合し、
    前記変数解析手段は、前記音響モデルのスペクトログラムと前記対象音響信号のスペクトログラムとが相互に近似するように、前記第1全極型伝達関数および前記第2全極型伝達関数の各係数と、前記各調波要素および前記各非調波要素の音量と、前記各調波構造の基本周波数とを、反復的な更新で推定する
    請求項1の音響解析装置。
  3. 前記調波成分に対応する各スペクトル包絡と前記非調波要素に対応する各スペクトル包絡とは時不変である
    請求項2の音響解析装置。
  4. 前記変数解析手段は、前記音響モデルのスペクトログラムと前記対象音響信号のスペクトログラムとの間のIダイバージェンスが最小となるように前記音響モデルの各変数を推定する
    請求項1から請求項3の何れかの音響解析装置。
  5. 前記変数解析手段は、複数の基本周波数の各々の初期化後に前記音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外する
    請求項1から請求項4の何れかの音響解析装置。
  6. 前記第1全極型伝達関数で表現される調波成分のスペクトル包絡と、当該調波成分の基本周波数の時間変化と、前記第2全極型伝達関数で表現される非調波要素のスペクトル包絡と、当該非調波要素の音量の時間変化とを含む解析結果画像を表示装置に表示させる表示制御手段
    を具備する請求項1から請求項5の何れかの音響解析装置。
  7. 第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する解析処理
    をコンピュータに実行させるプログラム。
JP2012123780A 2012-05-30 2012-05-30 音響解析装置およびプログラム Expired - Fee Related JP6044119B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012123780A JP6044119B2 (ja) 2012-05-30 2012-05-30 音響解析装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012123780A JP6044119B2 (ja) 2012-05-30 2012-05-30 音響解析装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2013250357A true JP2013250357A (ja) 2013-12-12
JP6044119B2 JP6044119B2 (ja) 2016-12-14

Family

ID=49849119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012123780A Expired - Fee Related JP6044119B2 (ja) 2012-05-30 2012-05-30 音響解析装置およびプログラム

Country Status (1)

Country Link
JP (1) JP6044119B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179188A (ja) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 音声処理装置、音声処理装置の解析方法およびプログラム
WO2016208000A1 (ja) * 2015-06-24 2016-12-29 Pioneer DJ株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP2019159018A (ja) * 2018-03-09 2019-09-19 学校法人早稲田大学 モード分解装置、モード分解方法、プログラム
CN112037812A (zh) * 2020-09-01 2020-12-04 深圳爱卓软科技有限公司 音频处理方法
WO2022168638A1 (ja) * 2021-02-05 2022-08-11 ヤマハ株式会社 音響解析システム、電子楽器および音響解析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005066927A1 (ja) * 2004-01-09 2005-07-21 Toudai Tlo, Ltd. 多重音信号解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7016000892; Virtanen, T., Klapuri, A.: 'Analysis of polyphonic audio using source-filter model and non-negative matrix factorization' Advances in Models for Acoustic Processing, Neural Information Processing Systems Workshop , 2006 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015179188A (ja) * 2014-03-19 2015-10-08 Pioneer DJ株式会社 音声処理装置、音声処理装置の解析方法およびプログラム
WO2016208000A1 (ja) * 2015-06-24 2016-12-29 Pioneer DJ株式会社 表示制御装置、表示制御方法および表示制御プログラム
JP2019159018A (ja) * 2018-03-09 2019-09-19 学校法人早稲田大学 モード分解装置、モード分解方法、プログラム
JP7072165B2 (ja) 2018-03-09 2022-05-20 学校法人早稲田大学 モード分解装置、モード分解方法、プログラム
CN112037812A (zh) * 2020-09-01 2020-12-04 深圳爱卓软科技有限公司 音频处理方法
WO2022168638A1 (ja) * 2021-02-05 2022-08-11 ヤマハ株式会社 音響解析システム、電子楽器および音響解析方法

Also Published As

Publication number Publication date
JP6044119B2 (ja) 2016-12-14

Similar Documents

Publication Publication Date Title
JP4660739B2 (ja) 音分析装置およびプログラム
JP5088030B2 (ja) 演奏音の類似度を評価する方法、装置およびプログラム
JP6044119B2 (ja) 音響解析装置およびプログラム
Nakano et al. Bayesian nonparametric spectrogram modeling based on infinite factorial infinite hidden Markov model
Fuentes et al. Adaptive harmonic time-frequency decomposition of audio using shift-invariant PLCA
Rodriguez-Serrano et al. Online score-informed source separation with adaptive instrument models
JP6197569B2 (ja) 音響解析装置
Şimşekli et al. Score guided audio restoration via generalised coupled tensor factorisation
Hayes et al. A review of differentiable digital signal processing for music & speech synthesis
JP2013164584A (ja) 音響処理装置
Macret et al. Automatic calibration of modified fm synthesis to harmonic sounds using genetic algorithms
Ye et al. NAS-FM: neural architecture search for tunable and interpretable sound synthesis based on frequency modulation
Gabrielli et al. A multi-stage algorithm for acoustic physical model parameters estimation
JP5771575B2 (ja) 音響信号分析方法、装置、及びプログラム
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP6733487B2 (ja) 音響解析方法および音響解析装置
Boccardi et al. Sound morphing with Gaussian mixture models
Hjerrild et al. Physical models for fast estimation of guitar string, fret and plucking position
Igarashi et al. Evaluation of sinusoidal modeling for polyphonic music signal
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
Hahn Expressive sampling synthesis. Learning extended source-filter models from instrument sound databases for expressive sample manipulations
US11756558B2 (en) Sound signal generation method, generative model training method, sound signal generation system, and recording medium
Kim et al. Digital waveguide synthesis of the geomungo with a time-varying loss filter
EP3929914A1 (en) Sound signal synthesis method, generative model training method, sound signal synthesis system, and program
Chien et al. An acoustic-phonetic model of F0 likelihood for vocal melody extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150324

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160412

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161031

R151 Written notification of patent or utility model registration

Ref document number: 6044119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees