JP2014026055A - 音響信号分析方法、装置、及びプログラム - Google Patents

音響信号分析方法、装置、及びプログラム Download PDF

Info

Publication number
JP2014026055A
JP2014026055A JP2012165161A JP2012165161A JP2014026055A JP 2014026055 A JP2014026055 A JP 2014026055A JP 2012165161 A JP2012165161 A JP 2012165161A JP 2012165161 A JP2012165161 A JP 2012165161A JP 2014026055 A JP2014026055 A JP 2014026055A
Authority
JP
Japan
Prior art keywords
parameter
note
model
expression
command input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012165161A
Other languages
English (en)
Other versions
JP5771575B2 (ja
Inventor
Yasutomo Oishi
康智 大石
Hirokazu Kameoka
弘和 亀岡
Kunio Kashino
邦夫 柏野
Daichi Mochihashi
大地 持橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012165161A priority Critical patent/JP5771575B2/ja
Publication of JP2014026055A publication Critical patent/JP2014026055A/ja
Application granted granted Critical
Publication of JP5771575B2 publication Critical patent/JP5771575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】ノート指令入力信号パラメータと、ノート制御パラメータと、表現指令入力信号パラメータと、表現制御パラメータと、微細変動成分パラメータとを推定することができる。
【解決手段】基本周波数抽出部18は、音響信号の基本周波数軌跡を抽出する。初期状態系列推定部22は、ノート指令入力信号及び表現指令入力信号の初期状態系列を推定する。信号分離部24は、ノート成分、表現成分、及び微細変動成分の組からなる完全データの条件付き期待値及び完全データの自己相関の条件付き期待値を計算する。モデルパラメータ更新部26は、目的関数をモデルパラメータに関して最大化するようにモデルパラメータを更新する。パラメータ収束判定部36は、予め定められた終了条件を満たすまで、信号分離部24及びモデルパラメータ更新部26による処理を繰り返し、終了条件を満たすと判定された場合に、出力部16が、モデルパラメータを出力する。
【選択図】図3

Description

本発明は、音響信号分析方法、装置、及びプログラムに係り、歌声を示す音響信号の基本周波数軌跡を表わすパラメータを推定する音響信号分析方法、装置、及びプログラムに関する。
楽曲のメロディを歌った歌声のF0軌跡には、図6に示すように、そのメロディを構成する楽譜の音符の並びだけでなく、楽譜に記載されない、“楽譜から逸脱した”動的変動成分が含まれる。これらは、発声器官の物理的制約に起因する成分(特に、オーバーシュートやプレパレーション、微細変動成分)と意図的表現による成分(特に、ビブラートやポルタメント)からなると考えられ、知覚的には、前者は人間らしさ・自然性に関係し、後者は巧拙感に関係することがわかってきている。さらに、後者は意図して意図通りにずれた場合と、意図通りに制御できなかったずれとに分かれ、習熟度に関連すると考えられる。このような物理的制約もしくは意図的表現による楽譜から逸脱した動的変動成分をF0軌跡から楽譜と分離して抽出できれば、歌唱者の歌い方や個性、癖を学習することにつながり、現在盛んに研究される歌声合成や歌声変換などへの応用が期待できる。例えば、ある歌声を別の歌唱者の歌い方に変換して合成することが可能となるだろう。従来と違って、事前に歌唱者の歌い方が学習されるため、どんなメロディにもその歌い方を転写できることを特徴とする。
従来、線形2次系システムを利用して歌声の基本周波数に含まれる動的変動成分を制御するモデルが提案されている(非特許文献1、非特許文献2、非特許文献3)。これらの研究では、日本語の話声の基本周波数パターンを表現する藤崎モデルが参考にされている。藤崎モデルは、臨界制動2次系のインパルス応答とステップ応答を利用して、日本語の句頭から句末に向けて緩やかに下降するフレーズ成分と、語句に対応して急激に上昇下降するアクセント成分を表現し、これらを重畳することで、基本周波数軌跡を記述する。ただし、歌声の旋律に伴った急激な基本周波数の上昇・下降の制御及び、ビブラートのような周期的な振動は、臨界制動系では表現できない。そのため、歌声のF0制御モデルでは2次系の伝達関数
における減衰率ζを調整することによって、指数減衰(ζ>1)、減衰振動(0<ζ<1、オーバーシュートに対応する)、臨界制動(ζ=1)、定常振動(ζ=0、ビブラートに対応する)からなる様々な振動現象を表現する。また、楽譜の音符列を表す階段状信号に上記(1)式のインパルス応答を部分的に畳み込んで得られる基本周波数軌跡を利用して、表情豊かな歌声合成音を実現している(非特許文献3)。しかしながら、これらの従来技術では、制御パラメータ(減衰率ζと固有周波数Ω)が手作業あるいは規則に基づいて決定されるものであった。
これに対し、観測されるF0軌跡からモデルパラメータを推定する逆問題の解法が提案されている(非特許文献4)。ここでは、F0軌跡の生成過程を図7の下部のように定義し、ノートの変化時点を始点終点と考え、それによって分割されるセグメントごとに、信号生成系の各パラメータを反復的に推定する信号解析方法を提供している。また、同じ枠組みで藤崎モデルのパラメータ推定法も提供されている(非特許文献5)。
N. Minematsu, B. Matsuoka, and K. Hirose, " Prosodic Modeling of Nagauta Singing and Its Evaluation, " in Proc. SpeechProsody 2004, pp. 487−490, Mar. 2004. T. Saitou, M. Unoki, and M. Akagi," Development of an F0 control Model Based on F0 Dynamic Characteristics for Singing-Voice Synthesis, " Speech Communication, vol.46, pp. 405−417, 2005. T. Saitou, M. Goto, M. Unoki, and M. Akagi, " Speech-To-Singing Synthesis: Converting Speaking Voices to Singing Voices by Controlling Acoustic Features Unique to Singing Voices, "in Proc. WASPAA 2007, pp. 215−218, Oct. 2007. Y. Ohishi, H. Kameoka, D. Mochihashi, H. Nagano, K. Kashino, " Statistical Modeling of F0 Dynamics in Singing Voices Based on Gaussian Processes with Multiple Oscillation Bases, "in Proc. INTERSPEECH 2010, pp. 2598−2601, Sept. 2010. H. Kameoka, J. Le Roux, Y. Ohishi,"A statistical model of speech F0 contours, "ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition (SAPA 2010), pp. 43-48, Sept. 2010.
しかしながら、上記の非特許文献4に記載の技術では、モデルパラメータを推定するために、F0軌跡をあらかじめ、音符区間に対応するセグメントに分割する必要があった(手動による分割、もしくは楽譜とのビタビアライメントによる分割)。また、ビブラートや微細変動成分のすべてがガウス性白色雑音としてモデル化されていたため、歌唱者の表現意図による動的変動成分(ビブラートなどの表現成分)を微細変動成分と分離して、明確に特徴付けられなかった。
本発明では、上記の事情を考慮してなされたものであり、歌声を示す音響信号の基本周波数軌跡を、ノート成分と、表現成分と、微細変動成分との和で表したときの、ノート指令入力信号パラメータと、ノート制御パラメータと、表現指令入力信号パラメータと、表現制御パラメータと、微細変動成分パラメータとを推定することができる音響信号分析方法、装置及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明の音響信号分析方法は、歌声を示す音響信号の基本周波数軌跡を、ノート指令入力信号とノート制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られるノート成分と、表現指令入力信号と表現制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られる表現成分と、微細変動成分との和で表したときの、前記ノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、前記ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、前記表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、前記表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、前記微細変動成分を表すモデルを構成するための微細変動成分パラメータとを推定する音響信号分析方法であって、入力された歌唱旋律の各音符の音高を示す音高目標値時系列、及び前記ノート指令入力信号パラメータと前記ノート制御パラメータと前記表現指令入力信号パラメータと前記表現制御パラメータと前記微細変動成分パラメータとからなるモデルパラメータの初期値を記憶したパラメータ初期値データベースと、基本周波数抽出手段と、初期状態系列推定手段と、信号分離手段と、モデルパラメータ更新手段と、収束判定手段と、パラメータ出力手段とを含む音響信号分析装置における音響信号分析方法であって、前記基本周波数抽出手段によって、歌唱者の歌声を示す音響信号を入力として、前記音響信号の基本周波数軌跡を抽出し、前記初期状態系列推定手段によって、前記音高目標値時系列と前記基本周波数軌跡とに基づいて、前記ノート指令入力信号及び前記表現指令入力信号の各時刻の状態を示す初期状態系列を推定し、前記信号分離手段によって、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記基本周波数軌跡と、前記モデルパラメータとが与えられたときの、前記ノート成分、前記表現成分、及び前記微細変動成分の組からなる完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値を計算し、前記モデルパラメータ更新手段によって、前記信号分離手段によって計算された前記完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値、並びに前記モデルパラメータの事前確率を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記目的関数を前記モデルパラメータに関して最大化するように前記モデルパラメータを更新し、前記収束判定手段によって、予め定められた終了条件を満たすまで、前記信号分離手段による計算及び前記更新手段による更新を繰り返し、前記パラメータ出力手段によって、前記パラメータ収束判定手段により前記終了条件を満たすと判定された場合に、前記モデルパラメータを出力する。
第2の発明の音響信号分析装置は、歌声を示す音響信号の基本周波数軌跡を、ノート指令入力信号とノート制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られるノート成分と、表現指令入力信号と表現制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られる表現成分と、微細変動成分との和で表したときの、前記ノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、前記ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、前記表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、前記表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、前記微細変動成分を表すモデルを構成するための微細変動成分パラメータとを推定する音響信号分析装置であって、歌唱者の歌声を示す音響信号を入力として、前記音響信号の基本周波数軌跡を抽出する基本周波数抽出手段と、入力された歌唱旋律の各音符の音高を示す音高目標値時系列、及び前記ノート指令入力信号パラメータと前記ノート制御パラメータと前記表現指令入力信号パラメータと前記表現制御パラメータと前記微細変動成分パラメータとからなるモデルパラメータの初期値を記憶したパラメータ初期値データベースと、前記音高目標値時系列と前記基本周波数軌跡とに基づいて、前記ノート指令入力信号及び前記表現指令入力信号の各時刻の状態を示す初期状態系列を推定する初期状態系列推定手段と、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記基本周波数軌跡と、前記モデルパラメータとが与えられたときの、前記ノート成分、前記表現成分、及び前記微細変動成分の組からなる完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値を計算する信号分離手段と、前記信号分離手段によって計算された前記完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値、並びに前記モデルパラメータの事前確率を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記目的関数を前記モデルパラメータに関して最大化するように前記モデルパラメータを更新するモデルパラメータ更新手段と、予め定められた終了条件を満たすまで、前記信号分離手段による計算及び前記更新手段による更新を繰り返し行う収束判定手段と、前記パラメータ収束判定部により前記終了条件を満たすと判定された場合に、前記モデルパラメータを出力するパラメータ出力手段と、を含んで構成されている。
第1の発明及び第2の発明によれば、前記基本周波数抽出手段によって、歌唱者の歌声を示す音響信号を入力として、前記音響信号の基本周波数軌跡を抽出し、前記初期状態系列推定手段によって、前記音高目標値時系列と前記基本周波数軌跡とに基づいて、前記ノート指令入力信号及び前記表現指令入力信号の各時刻の状態を示す初期状態系列を推定し、前記信号分離手段によって、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記基本周波数軌跡と、前記モデルパラメータとが与えられたときの、前記ノート成分、前記表現成分、及び前記微細変動成分の組からなる完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値を計算し、前記モデルパラメータ更新手段によって、前記信号分離手段によって計算された前記完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値、並びに前記モデルパラメータの事前確率を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記目的関数を前記モデルパラメータに関して最大化するように前記モデルパラメータを更新し、前記収束判定手段によって、予め定められた終了条件を満たすまで、前記信号分離手段による計算及び前記更新手段による更新を繰り返し、前記パラメータ出力手段によって、前記パラメータ収束判定手段により前記終了条件を満たすと判定された場合に、前記モデルパラメータを出力する。
このように、歌声を示す音響信号の基本周波数軌跡を、ノート成分と、表現成分と、微細変動成分との和で表したときの、ノート指令入力信号パラメータと、ノート制御パラメータと、表現指令入力信号パラメータと、表現制御パラメータと、微細変動成分パラメータとを推定することができる。
また、ノート指令入力信号は階段状の信号であり、各時刻の状態を示す状態系列パラメータと、各音符の音高からの推移を示す音高シフトパラメータとからなるノート指令入力信号パラメータを用いてモデル化される。
また、表現指令入力信号は矩形状のパルス信号であり、各時刻の状態を示す状態系列パラメータと、各音符の各状態における表現指令の大きさを表わす表現振幅パラメータとからなる表現指令入力信号パラメータを用いて、隠れマルコフモデルによって確率モデル化される。
また、微細変動成分は、微細変動成分パラメータからなるガウス性白色雑音として確率モデル化される。
また、信号生成系のノート制御フィルタ特性は、線形2次系システムによって導出されるフィルタで表され、前記ノート制御パラメータは、線形2次系システムの固有周波数に反比例するパラメータと、線形2次系システムの減衰率パラメータである。
また、信号生成系の表現制御フィルタ特性は、臨界制動2次系システムによって導出されるフィルタで表され、前記表現制御パラメータは、臨界制動2次系システムの固有周波数に反比例するパラメータである。
本発明のプログラムは、コンピュータに音響信号分析方法の各ステップを実行させるためのプログラムである。
以上説明したように、本発明の音響信号分析方法、装置、及びプログラムによれば、歌声を示す音響信号の基本周波数軌跡を、ノート成分と、表現成分と、微細変動成分との和で表したときの、ノート指令入力信号パラメータと、ノート制御パラメータと、表現指令入力信号パラメータと、表現制御パラメータと、微細変動成分パラメータとを推定することができる。
提案モデルの概略図である。 隠れマルコフモデルによる指令入力信号の統計モデル化を示す図である。 本実施の形態の音響信号分析装置の機能的構成を示すブロック図である。 本実施の形態の音響信号分析装置におけるパラメータ推定処理ルーチンの内容を示すフローチャートである。 テストデータを示す図である。 歌声の基本周波数軌跡(F0)を示す図である。 従来技術におけるF0生成過程を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、後述するパラメータ推定アルゴリズムを用いて信号解析を行う構成である。
<発明の概要>
本発明では、歌唱する楽譜の音符列を表すノート指令入力信号と表現指令入力信号によって駆動される歌声F0軌跡の生成過程モデルを提案し、歌声の基本周波数(F0)軌跡から、オーバーシュートやポルタメントを表現するノート制御機構(フィルタ)のパラメータ(ノート制御パラメータと呼ぶ)およびノート指令入力信号を構成するパラメータ(ノート指令入力信号パラメータと呼ぶ)、ビブラートなどの表現意図を表す表現制御機構(フィルタ)のパラメータ(表現制御パラメータと呼ぶ)および表現指令入力信号を構成するパラメータ(表現指令入力信号パラメータと呼ぶ)、そして微細変動成分を表現するパラメータ(微細変動成分パラメータと呼ぶ)を抽出する。ここで、ノート指令入力信号は、図1に示す通り、楽譜に記載される音符の並び(階段状に音階が変化する)を表現する。一方で、表現指令入力信号は歌唱者の音楽的な表現意図(ノート指令入力信号に比べて細かいステップ状の指令)を表現する。このモデルは、対数スケールのF0軌跡y(t)(ここで、tは時間を表す)が3つの成分の重ね合わせで表現されることを想定する。図1に示されるノート成分と表現成分は先に述べた指令信号によって駆動されるノート制御機構、表現制御機構の出力である。ノート制御機構と表現制御機構はある種のフィルタに相当し、線形2次系によって表現される。ノート制御機構は、オーバーシュート、ポルタメントのようなノート(音符)の立ち上がり方を線形2次系によって制御する。表現制御機構は、ビブラートなどの音楽的な意図表現を線形2次系によって制御する。ただし、表現制御機構は、線形2次系に含まれる1つの系、「臨界制動2次系(上記(1)式のζ=1の場合)」で構成する(非特許文献3)。最後に、図1に示される微細変動成分は、10Hz以上の不規則な振動成分を想定する(非特許文献3)。本発明では、このようなF0軌跡の生成過程を離散時間領域で表現し、統計的手法に基づいてF0軌跡生成系のモデルパラメータを推定するためにフレームワークを提供する。
<原理>
次に、F0軌跡生成系のモデルパラメータを推定する原理について説明する。
<提案モデルの離散時間表現>
まず、本実施形態の提案モデルの離散時間表現について説明する。
連続時間領域で表現されるノート制御機構、表現制御機構の2次系の伝達関数の離散時間表現を得るために、後退差分変換を利用する。後退差分変換は、時間微分演算子sをz領域における後退差分演算子s≒(1−z-1)/t0に置き換える変換であり、(t0は離散時間表現におけるサンプリング周期とする)、この変換によりノート制御機構の逆システムの伝達関数Hn -1(s)はz領域で、

と書くことができる。ただし、

および、φ、ψは、φ=1/(Ωt0)、ψ=ζと表現される。ここで、kを離散時刻インデックスとし、ノート指令入力信号およびノート成分の離散時間表現をそれぞれun[k]、y[k]とすると、y[k]は、ノート制御パラメータφ、ψによって特性が決まる拘束つき全極モデルからの出力

とみなすことができる。同様に、表現指令入力信号ue[k]と表現成分ye[k]の関係も

と書くことができる。ただし、b2=ξ2,b1=−2ξ(1+ξ),b0=1+2ξ+ξ2であり、表現制御パラメータξはξ=1/(Ωt0)と表現される。微細変動成分yf(t)の離散時間表現をyf[k]とすると、提案モデルによる歌声F0軌跡の離散時間表現は、これら3つの成分の和

で与えられる。
<歌声のF0生成モデルの統計モデル化>
次に、歌声のF0生成モデルの統計モデル化について説明する。
ノート指令入力信号と表現指令入力信号は図1に示す通り、それぞれ、楽譜に記載されるメロディの音符の並び、および歌唱者の音楽的な表現意図を表すものと想定する。この想定を指令入力信号に組み込むために、隠れマルコフモデル(HMM)を利用して、un[k]とue[k]を確率モデル化する。まず、o[k]:=(un[k]、ue[k])を、

のように正規分布する確率変数と見なし、平均ν[k]が、図2のようなノート指令入力信号と表現指令入力信号の組み合わせの状態に関する状態遷移に伴って変化するモデルを考える。これはHMMに他ならず、このようにo[k]をHMMでモデル化したことにより、状態遷移の経路制限(状態遷移確率の設定)を通して、ν[k]に制約を与えることが可能となる。
具体的には、図2に示す通り、このHMMはI×J個の状態からなる。これらの各状態では、μn[k]はAn (i)+diの値をとる。ここで、An (i)は楽譜から与えられる値であり,楽譜に記載されるメロディのi番目の音符の音高を表し、diはその音高からの推移(音高シフトパラメータと呼ぶ)、Iは歌唱するメロディに含まれる音符の総数に相当する。したがって、μn[k]はI個の音符からなる階段状信号を表現する。一方、i番目の音符は、Si,1を通らずして、状態Si,jから別の状態Si,j'(j≠j’,2≦j≦J,2≦j’≦J) へ直接に遷移できない。この制約によって、歌唱者の表現意図を表す表現指令入力信号μe[k]は図2の下段に示すような矩形状のパルス信号を表現する。このとき、表現指令の大きさを{Be (i,j)i=1,j=1 I,Jと表し、Jは表現指令の大きさ0を含む各音符における指令の種類数に相当する(図2では、J=3とする)。以上より、指令入力信号を生成するHMMの構成は以下のとおりである。
簡単のため状態遷移確率φn',nは定数とすると、指令入力モデルにおいて推定すべきパラメータは、HMMのどういった経路を辿るか表現する状態系列{skk=1 K、音高シフトパラメータ{dii=1 I、表現指令の大きさパラメータ{Be (i,j)i=1,j=1 I,J、入力指令信号の分散パラメータσn 2、σe 2であり、これらをまとめて

と記述する。なお、音高シフトパラメータ{dii=1 I、分散パラメータσn 2が、ノート指令入力信号パラメータであり、表現指令の大きさパラメータ{Be (i,j)i=1,j=1 I,J、分散パラメータσe 2が、表現指令入力信号パラメータである。また、平均値系列{μn[k]}k=1 Kおよび{μe[k]}k=1 Kは、状態系列{skk=1 Kが与えられたもとで、

で与えられる。
指令入力信号モデルに基づいて、y = (y[1],...,y[K])Tの確率密度関数を導く。上記(7)式より、u:= (u[1],...,u[K])T, ue:= (ue[1],...,ue[K])T, μ:= (μ[1] ,..., μ[K])T, μe:= (μe[1] ,..., μe[K])Tとすると

が言える。ここで、N(μnn)は、平均μn、分散Σnのガウス分布を表わす。IはK×Kの単位行列を表す。ノート成分y:= (y[1],...,y[K])Tとノート指令入力信号uの関係、および表現成分ye:= (ye[1],...,ye[K])Tと表現指令入力信号ueの関係は、

と置くと、それぞれ、

と表現できる。ここでは、ノート制御パラメータφ、ψがノートごとに異なるものと想定し、{φ(i)、ψ(i)i=1 Iをパラメータとして拡張する(非特許文献3)。したがって、ノート成分と表現成分の確率密度関数は、

が導出される。微細変動成分yf[K]はガウス性白色雑音を想定し、

と表現する。なお、分散パラメータσf 2が、微細変動成分パラメータである。
仮定より、yn, ye, yfは独立なので、モデルパラメータΘ:={θu, {φ(i)、ψ(i)i=1 I,ξ,σf 2}が与えられたもとでのF0軌跡y= yn+ye+yfの確率密度関数は上記(13)式、(14)式と(15)式より、

で与えられる。以上より、

が歌声F0軌跡yが与えられたときのモデルパラメータΘの尤度関数である。
Θの事前確率については、各パラメータは互いに独立で、パラメータσn 2e 2f 2は一様に分布すると仮定し、

とする。
<パラメータ推定アルゴリズム>
次に、パラメータ推定アルゴリズムについて説明する。
yが与えられた下で、Θの事後確率P(Θ|y)を最大化する問題は解析的に解くことはできないが、x:=(yn T,ye T,yf T)Tを完全データと見なすことで、EMアルゴリズムによる不完全データ問題に帰着できる。不完全データと完全データの関係はy=Hxとなり、ここでH:=[I I I]とする。この場合、完全データの対数尤度は、

で与えられる。このとき、完全データの対数尤度の期待値を表わすQ関数Q(Θ,Θ´)は、

となる。ここで、tr(・)は行列のトレースを表し、E[x|y;Θ´]とE[xxT|y;Θ´]は、完全データの条件付き期待値、完全データの自己相関の条件付き期待値であり、条件付きガウス分布の性質より、

と書ける。Eステップでは、直前のステップで更新されたパラメータをΘ´に代入し、上記に基づいてE[x|y; Θ´]とE[xxT|y; Θ´]が算出される。yn,ye,yfに対応するように、E[x|y; Θ´]及びE[xxT|y; Θ´]を

のように区分表現すると、Q関数は

と書き直せて、これを用いて各パラメータについてMステップの更新式を求めることができる。
<状態系列>
Q関数の中でs:={skk=1 Kに関する項は

となる。ここで、o[k]:=([Ak,[Be]k)Tであり、[・]kはベクトルのk番目の要素を表す。これを最大化する状態系列{skk=1 Kは動的計画法により効率的に解くことができる。まず、状態S1,1について

とおくと、k=2,3,...,Kについて逐次的にδk(Si,j)を

により計算できる。各ステップで選択される状態番号

を記憶しておくことで、k=Kまで到着後にsk-1=ψk(sk)(k=K,K−1,...,2)により選択された状態番号を辿っていくと最適経路s1,..., skを得る。
<ノート制御パラメータ>
φ(i)とψ(i)に関する事前分布をφ(i)〜N(μφ2 φ)、ψ(i)〜N(μψ2 ψ)とする。Q関数の中でφ(i)とψ(i)に関係する項は、

となる。ここで|T|は集合Tの要素数を表す。また、[μ]は、集合Tの要素をインデックスとして、μからそのインデックスに相当する要素を取り出した部分ベクトルを表す。今、

として、上記(4)式から、A(i)は、

と表現される。ここで、[U]は集合Tの要素をインデックスとして、行列Uからそのインデックスに相当する行ベクトルを取り出して構成される部分行列を意味する。ニュートン・ラフソン法を利用して、I2(i)、ψ(i))を最大化するφ(i)とψ(i)が数値的に導出される。
<表現制御パラメータ>
ξに関する事前分布をξ〜N(μξξ 2)とする。Q関数の中でξに関係する項は、

となる。ニュートン・ラフソン法を利用して、I3(ξ)を最大化するξが数値的に導出される。
<その他のパラメータ>
iとBe (i,j)に関して、それぞれ事前分布をdi〜N(0,σ 2)と

とする。残されたパラメータの更新式は、

と導出される。EMアルゴリズムに基づくパラメータ推定アルゴリズムをまとめると、
初期化:パラメータΘの初期化
E-step:E[x|y;Θ´], E[xxT|y;Θ´]の更新
M-step:状態系列、ノート制御パラメータ、表現制御パラメータ、上記(34)〜(38)式の更新
収束判定:事後確率P(Θ|y)、もしくはパラメータ値が収束していなければ、E−stepへ
<システム構成>
次に、図3を参照して、本発明の実施形態による音響信号分析装置の構成を説明する。本発明の実施の形態に係る音響信号分析装置10は、歌声を示す音響信号の基本周波数軌跡を、ノート指令入力信号と線形2次系システムによって導出されるノート制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られるノート成分と、表現指令入力信号と臨界制動2次系システムによって導出される表現制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られる表現成分と、微細変動成分との和で表したときの、ノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、前記微細変動成分を表すモデルを構成するための微細変動成分パラメータとを推定する。ここで、ノート指令入力信号は階段状の信号であり、各時刻の状態を示す状態系列パラメータと、各音符の音高からの推移を示す音高シフトパラメータとからなるノート指令入力信号パラメータを用いてモデル化され、表現指令入力信号は矩形状のパルス信号であり、各時刻の状態を示す状態系列パラメータと、各音符の各状態における表現指令の大きさを表す表現振幅パラメータとからなる表現指令入力信号パラメータを用いて、隠れマルコフモデルによって確率モデル化され、微細変動成分は、微細変動成分パラメータからなるガウス性白色雑音として確率モデル化される。図3に示すように、音響信号分析装置10は、入力部12と、後述するパラメータ推定処理ルーチンを実行するコンピュータ14と、コンピュータ14の処理により算出されたモデルパラメータを出力する出力部16と、を備えている。
入力部12により、歌声音響信号及び歌唱曲の楽譜がコンピュータ14に入力される。
コンピュータ14は、音響信号分析装置10全体の制御を司るCPU、後述するパラメータ推定処理ルーチンのプログラム等を記憶した記憶媒体としてのROM、ワークエリアとしてデータを一時格納するRAM、及びこれらを接続するバスを含んで構成されている。このような構成の場合には、各構成要素の機能を実現するためのプログラムをROMやHDD等の記憶媒体に記憶しておき、これをCPUが実行することによって、各機能が実現されるようにする。
このコンピュータ14をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図3に示すように、基本周波数抽出部18と、パラメータ初期値データベース20と、初期状態系列推定部22と、信号分離部24と、モデルパラメータ更新部26と、パラメータ収束判定部36と、を含んだ構成で表すことができる。
基本周波数抽出部18は、入力部12により入力される歌声音響信号から基本周波数軌跡を推定し出力する。この処理は、周知技術により実現でき、例えば、文献:A de Cheveign´e and H. Kawahara,“ YIN, a fundamental frequency estimator for speech and music,” Journal of the AcousticalSociety of America, vol.111, no.4, pp. 1917-1930, 2002 で提案される基本周波数推定法YINを利用する。この手法は自己相関関数を使用して基本周波数を推定するが、倍ピッチエラーや半ピッチエラー、その他ノイズによる推定エラーを低減するために差分関数、正規化、放物線補間などの処理を後処理として導入した手法である。ピッチの高い音楽や歌声の基本周波数推定に効果的な手法であることが従来研究によって明らかにされている。本実施形態では、YINを利用して、歌声音響信号から5msごとに基本周波数を推定し、基本周波数軌跡を出力する。
パラメータ初期値データベース20は、入力部12により入力された歌唱旋律の各音符を示す音高を示す音高目標値時系列、及びノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、微細変動成分を表すモデルを構成するための微細変動成分パラメータとからなるモデルパラメータの各々の初期値を保有するデータベースである。また、パラメータ初期値データベース20は、その他の各種パラメータが記憶されている。まず、入力部12により入力される歌唱曲の楽譜に応じて、そのメロディの音符数Iと各音符の音高{An (i)}i=1 Iがパラメータ初期値データベース20に蓄積される。本実施形態の表現指令入力信号を生成するための状態数JはJ=5と固定し、パラメータ初期値データベース20に記憶される。状態遷移確率は、

に固定されパラメータ初期値データベース20に蓄積される。事前分布におけるパラメータはμφ=6,σφ 2=0.1,μψ=0.6, σψ 2=0.02,μξ=3, σξ 2=0.1,σd 2=2500,σB 2=100,

(1≦i≦I)に固定され、パラメータ初期値データベース20に蓄積される。音高シフトパラメータ{di}i=1 I、表現指令の大きさパラメータ{Be (i,j)}i=1,j=1 I,Jの初期値はすべて0としてパラメータ初期値データベース20に蓄積される。分散パラメータσn 2e 2の初期値は100としてパラメータ初期値データベース20に蓄積される。これらのパラメータの初期値は実験的に決定した値である。ノート制御パラメータ{φ(i)(i)}i=1 Iの初期値は、上記の非特許文献3で得られた知見に基づいて、φ= 6.5rad/ms,ψ= 0.5としてパラメータ初期値データベース20に蓄積される。表現制御パラメータξの初期値も上記の非特許文献3で得られた知見に基づいて、ξ= 0.3としてパラメータ初期値データベース20に蓄積される。
初期状態系列推定部22は、基本周波数軌跡と、パラメータ初期値データベースから得られるモデルパラメータの初期値及び各音符の音高を入力として、図2のHMMのビタビアライメントを行うことによって初期状態系列{skk=1 Kを推定し、基本周波数軌跡と初期状態系列、モデルパラメータ初期値を出力する。具体的には、o[k]に、基本周波数軌跡のk番目の要素を代入して、上記(27)式〜(29)式に従って、初期状態系列{skk=1 Kを推定する。
信号分離部24では、EMアルゴリズムに基づいて導出されるノート成分、表現成分、及び微細変動成分から構成される完全データの期待値と、完全データの自己相関とを用いて、基本周波数軌跡をノート成分と表現成分と微細変動成分に分離する。ここでは、基本周波数軌跡と現在のモデルパラメータΘ´={θu,{φ(i)(i)i=1 I,ξ,σf 2}と各音符の音高とを入力として、上記(22)式、(23)式に従って完全データの条件付き期待値E[x|y;Θ´],完全データの自己相関の条件付き期待値E[xxT|y;Θ´]を計算し、上記(24)式に基づいて、 ̄xn, ̄xe,  ̄xf,Rn, Re, Rfを出力する。
モデルパラメータ更新部26は、ノート制御パラメータ更新部28と、表現制御パラメータ更新部30と、指令入力信号パラメータ更新部32と、微細変動成分パラメータ更新部34とから構成されており、信号分離部24で出力された完全データの条件付き期待値及び完全データの自己相関の条件付き期待値、並びにモデルパラメータの事前確率を用いて表される、上記(21)式のQ関数を最大化するように、それぞれのモデルパラメータを更新する。
ノート制御パラメータ更新部28は、線形2次系システムの固有周波数に反比例するパラメータと、線形2次系システムの減衰率パラメータとからなるノート制御パラメータ{φ(i)(i)i=1 Iの値を更新する。基本周波数軌跡、各音符の音高、信号分離部24で出力された ̄xn, Rn、そしてノート制御パラメータ以外のモデルパラメータを入力として、上記(30)式を最大化するφ(i)(i)をニュートン・ラフソン法を利用して数値的に導出し出力する。これをi = 1,...,Iに関して繰り返す。具体的には、上記(30)式を、ノート制御パラメータの、固有周波数に反比例するパラメータと減衰率パラメータとでそれぞれ微分して得られた連立方程式を解くことにより、ノート制御パラメータの値を更新する。
表現制御パラメータ更新部30は、臨界制動2次系システムの固有周波数に反比例する表現制御パラメータξの値を更新する。基本周波数軌跡、各音符の音高、信号分離部24で出力された ̄xe,Re、そして表現制御パラメータ以外のモデルパラメータを入力として、上記(33)式を最大化するξをニュートン・ラフソン法を利用して数値的に導出し出力する。具体的には、上記(33)式を、表現制御パラメータの固有周波数に反比例するパラメータについて微分して得られる方程式を解くことにより、表現制御パラメータの値を更新する。
指令入力信号パラメータ更新部32は、基本周波数軌跡、各音符の音高、信号分離部24で出力された ̄xn, ̄xe,Rn,Re、そして指令入力信号パラメータ以外のモデルパラメータを入力として、動的計画法(上記(27)式、(28)式、(29)式)によって状態系列を更新し、上記(34)式、(35)式、(36)式、(37)式によって各指令入力信号パラメータを更新し出力する。具体的には、ノート指令入力信号パラメータと表現指令入力信号パラメータをViterbi学習によって更新する。
微細変動成分パラメータ更新部34は、基本周波数軌跡、信号分離部24で出力されたRf、そして微細変動成分パラメータ以外のモデルパラメータを入力として、上記(38)式 に基づいて、微細変動成分パラメータを更新し出力する。具体的には、上記(38)式を、微細変動成分パラメータで微分して得られる方程式を解くことにより、微細変動成分パラメータを更新する。
パラメータ収束判定部36は、信号分離部24で計算された ̄xn, ̄xe,Rn, Re, Rfおよび、モデルパラメータ更新部26によってそれぞれ更新されたモデルパラメータΘ={θu,{φ(i)(i)i=1 I,ξ,σf 2}を利用して、上記(17)式、(18)式の事後確率P(Θ|y)∝P(y|Θ)P(Θ)の値を計算する。更新前のモデルパラメータを用いて計算した事後確率の値と更新後のモデルパラメータを用いて計算した事後確率の値との誤差が、所定の閾値以下であれば、収束したと判定する。本実施形態ではこの誤差を実験的にε=1.0×10-5とする 。
出力部16は、パラメータ収束判定部36において、収束したと判定された場合にはモデルパラメータΘをすべて出力する。
<音響信号分析装置の作用>
次に、本実施の形態に係る音響信号分析装置10の作用について説明する。まず、歌唱曲の楽譜から得られる各音符の音高及び音符数が、入力部12により音響信号分析装置10に入力されると、パラメータ初期値データベース20に格納される。そして、分析対象の音響信号として、観測された当該歌唱者の歌声音響信号の時系列データが、音響信号分析装置10に入力されると、図4に示すパラメータ推定処理ルーチンが実行される。
ステップS102で、基本周波数抽出部18によって、基本周波数推定法YINを利用して、入力された歌声音響信号から5msごとに基本周波数を推定し、基本周波数軌跡を推定する。
ステップS104で、上記ステップS102で推定された基本周波数軌跡と、パラメータ初期値データベース20から得られるモデルパラメータの初期値及び各音符の音高を入力として、上記(27)式〜(29)式に従って、初期状態系列{skk=1 Kを推定し、基本周波数軌跡と初期状態系列、モデルパラメータ初期値を出力する。
ステップS106で、上記ステップS102で推定された基本周波数軌跡と、パラメータ初期値データベース20から得られるモデルパラメータの初期値又は後述するステップS108〜114で前回推定されたモデルパラメータの値と、各音符の音高とを入力として、上記(22)式、(24)式に従って、ノート成分、表現成分、及び微細変動成分から構成される完全データの条件付き期待値と、完全データの自己相関の条件付き期待値とを算出して、基本周波数軌跡をノート成分と表現成分と微細変動成分に分離する。
ステップS108で、上記ステップS106の算出結果と、パラメータ初期値データベース20から得られるモデルパラメータの初期値又はステップS108〜114で前回推定されたモデルパラメータの値と、各音符の音高とを入力として、上記(30)式をノート制御パラメータφ、ψでそれぞれ微分して得られた連立方程式を解くことにより、ノート制御パラメータの値を更新する。
ステップS110で、上記ステップS106の算出結果と、パラメータ初期値データベース20から得られるモデルパラメータの初期値又はステップS108〜114で前回推定されたモデルパラメータの値と、各音符の音高とを入力として、上記(33)式を表現制御パラメータζについて微分して得られる方程式を解くことにより、表現制御パラメータの値を更新する。
ステップS112で、上記ステップS102で推定された基本周波数軌跡と、パラメータ初期値データベース20から得られるモデルパラメータの初期値又はステップS108〜114で前回推定されたモデルパラメータの値と、各音符の音高とを入力として、上記(27)式〜(29)式に従って、状態系列{skk=1 Kを推定して更新する。また、上記ステップS106の算出結果と、パラメータ初期値データベース20から得られるモデルパラメータの初期値又はステップS108〜114で前回推定されたモデルパラメータの値と、各音符の音高とを入力として、上記(34)式〜(37)式に従って、ノート指令入力信号パラメータと表現指令入力信号パラメータを更新する。
ステップS114で、上記ステップS106の算出結果を入力として、上記(38)式を微細変動成分パラメータで微分して得られる方程式を解くことにより、微細変動成分パラメータを更新する。
ステップS116で、モデルパラメータが収束しているか判定する。モデルパラメータが収束している場合には、ステップS118で、最終的に得られたモデルパラメータの全てを、出力部16により出力して処理を終了し、一方、モデルパラメータが収束していない場合には、上記ステップS106へ戻る。
<実験結果>
次に、本発明の効果および作用を示すため、本発明の実施形態による音響信号分析装置を用いた実験結果を以下に説明する。ここでは、上記の実施形態を実装して、基本周波数軌跡のノート成分、表現成分、微細変動成分への分解性能を評価する。
評価実験では、本発明が局所最適化問題を解決できているかを人工的に作成した基本周波数軌跡を用いて確認する。基本周波数軌跡(テストデータ、図5)は、上記の非特許文献3に基づいて作成した。まず、16種類の楽曲の楽譜から抜粋した音符列を用いて、IOI(Interonset interval) に基づいて、16個の階段状軌跡を作成する。ここで、サンプリング周期は5msとし、オーバーシュートを畳み込むためのパラメータはζ=0.570、Ω=0.0363rad/ms、プレパレーションを畳み込むためのパラメータはζ=0.675、Ω=0.0308rad/ms、ビブラートを付加するためのVibrato extent とVibrato rate はそれぞれ、83centと6.25Hzとした。各音符の音高シフトは25centとした。最後に、変調周波数20Hz、振幅20centの微細変動成分を足し合わせたものを,歌声の基本周波数軌跡とし、これをテストデータとする。
図5にパラメータの推定結果例を示す。左側がテストデータであり、右側が推定結果である。左右を比較すると正解に近いパラメータが推定されることを定性的に判断できる。それぞれの二乗平均平方根誤差(Root Mean Square Error,RMSE)を計算したところ、ノート成分はRMSE=7.47cent、表現成分はRMSE=9.51cent であった。対数周波数上の100centは半音に相当し、RMSEがその10%以下に収まっているため、パラメータ学習アルゴリズムの動作確認および局所最適化問題を解決できていることを確認できた。
以上説明したように、本発明の実施の形態の音響信号分析装置10によれば、ノート制御パラメータ、表現制御パラメータ、各指令入力信号パラメータ、微細変動成分パラメータの各パラメータが収束するまで更新を繰り返すことによって、歌声を示す音響信号の基本周波数軌跡を、ノート成分と、表現成分と、微細変動成分との和で表したときの、ノート指令入力信号パラメータと、ノート制御パラメータと、表現指令入力信号パラメータと、表現制御パラメータと、微細変動成分パラメータとを推定することができ、歌唱者の表現意図による動的変動成分(ビブラートなどの表現成分)を微細変動成分と分離して、明確に特徴づけることができる。
なお、上記の実施の形態では、モデルパラメータが収束したか否かを判定する方法として、更新前のモデルパラメータを用いて計算した事後確率の値と更新後のモデルパラメータを用いて計算した事後確率の値との誤差が、所定の閾値以下であれば、収束したと判定する場合を例に説明したが、これに限定されるものではない。例えば、収束したか否かを判定する方法としては、事後確率を用いる方法以外に、モデルパラメータ各々の値を更新前と更新後とで比較しても良いし、予め定めた繰り返し回数に到達したか否かで判定を行っても良い。本実施形態ではモデルパラメータ各々の値を更新前と更新後とで比較する場合、この誤差がε=1.0×10-5であれば良好な結果であることを実験的に確認した。また、予め定めた繰り返し回数に到達したか否かで判定をする場合、1000回の繰り返し回数が必要であることも実験的に確認している。
また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の音響信号分析装置10は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の音響信号分析装置10の各部をハードウエアにより構成してもよい。また、パラメータ初期値が記憶されるデータベースとしては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、音響信号分析装置10内部にデータベースを設けても良いし、外部装置に設けてもよい。
10 音響信号分析装置
12 入力部
14 コンピュータ
16 出力部
18 基本周波数抽出部
20 パラメータ初期値データベース
22 初期状態系列推定部
24 信号分離部
26 モデルパラメータ更新部
28 ノート制御パラメータ更新部
30 表現制御パラメータ更新部
32 指令入力信号パラメータ更新部
34 微細変動成分パラメータ更新部
36 パラメータ収束判定部

Claims (8)

  1. 歌声を示す音響信号の基本周波数軌跡を、ノート指令入力信号とノート制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られるノート成分と、表現指令入力信号と表現制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られる表現成分と、微細変動成分との和で表したときの、前記ノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、前記ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、前記表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、前記表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、前記微細変動成分を表すモデルを構成するための微細変動成分パラメータとを推定する音響信号分析方法であって、入力された歌唱旋律の各音符の音高を示す音高目標値時系列、及び前記ノート指令入力信号パラメータと前記ノート制御パラメータと前記表現指令入力信号パラメータと前記表現制御パラメータと前記微細変動成分パラメータとからなるモデルパラメータの初期値を記憶したパラメータ初期値データベースと、基本周波数抽出手段と、初期状態系列推定手段と、信号分離手段と、モデルパラメータ更新手段と、収束判定手段と、パラメータ出力手段とを含む音響信号分析装置における音響信号分析方法であって、
    前記基本周波数抽出手段によって、歌唱者の歌声を示す音響信号を入力として、前記音響信号の基本周波数軌跡を抽出し、
    前記初期状態系列推定手段によって、前記音高目標値時系列と前記基本周波数軌跡とに基づいて、前記ノート指令入力信号及び前記表現指令入力信号の各時刻の状態を示す初期状態系列を推定し、
    前記信号分離手段によって、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記基本周波数軌跡と、前記モデルパラメータとが与えられたときの、前記ノート成分、前記表現成分、及び前記微細変動成分の組からなる完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値を計算し、
    前記モデルパラメータ更新手段によって、前記信号分離手段によって計算された前記完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値、並びに前記モデルパラメータの事前確率を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記目的関数を前記モデルパラメータに関して最大化するように前記モデルパラメータを更新し、
    前記収束判定手段によって、予め定められた終了条件を満たすまで、前記信号分離手段による計算及び前記更新手段による更新を繰り返し、
    前記パラメータ出力手段によって、前記パラメータ収束判定手段により前記終了条件を満たすと判定された場合に、前記モデルパラメータを出力する
    音響信号分析方法。
  2. 前記ノート指令入力信号は階段状の信号であり、各時刻の状態を示す状態系列パラメータと、各音符の音高からの推移を示す音高シフトパラメータとからなる前記ノート指令入力信号パラメータを用いてモデル化される請求項1記載の音響信号分析方法。
  3. 前記表現指令入力信号は矩形状のパルス信号であり、各時刻の状態を示す状態系列パラメータと、各音符の各状態における表現指令の大きさを表わす表現振幅パラメータとからなる前記表現指令入力信号パラメータを用いて、隠れマルコフモデルによって確率モデル化される請求項1又は2記載の音響信号分析方法。
  4. 前記微細変動成分は、前記微細変動成分パラメータからなるガウス性白色雑音として確率モデル化される請求項1〜請求項3の何れか1項記載の音響信号分析方法。
  5. 前記信号生成系のノート制御フィルタ特性は、線形2次系システムによって導出されるフィルタで表され、前記ノート制御パラメータは、線形2次系システムの固有周波数に反比例するパラメータと、線形2次系システムの減衰率パラメータである請求項1〜請求項4の何れか1項記載の音響信号分析方法。
  6. 前記信号生成系の表現制御フィルタ特性は、臨界制動2次系システムによって導出されるフィルタで表され、前記表現制御パラメータは、臨界制動2次系システムの固有周波数に反比例するパラメータである請求項1〜請求項5の何れか1項記載の音響信号分析方法。
  7. 歌声を示す音響信号の基本周波数軌跡を、ノート指令入力信号とノート制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られるノート成分と、表現指令入力信号と表現制御フィルタ特性を表すインパルス応答信号との畳みこみによって得られる表現成分と、微細変動成分との和で表したときの、前記ノート指令入力信号を表すモデルを構成するためのノート指令入力信号パラメータと、前記ノート制御フィルタ特性を表すモデルを構成するためのノート制御パラメータと、前記表現指令入力信号を表すモデルを構成するための表現指令入力信号パラメータと、前記表現制御フィルタ特性を表すモデルを構成するための表現制御パラメータと、前記微細変動成分を表すモデルを構成するための微細変動成分パラメータとを推定する音響信号分析装置であって、
    歌唱者の歌声を示す音響信号を入力として、前記音響信号の基本周波数軌跡を抽出する基本周波数抽出手段と、
    入力された歌唱旋律の各音符の音高を示す音高目標値時系列、及び前記ノート指令入力信号パラメータと前記ノート制御パラメータと前記表現指令入力信号パラメータと前記表現制御パラメータと前記微細変動成分パラメータとからなるモデルパラメータの初期値を記憶したパラメータ初期値データベースと、
    前記音高目標値時系列と前記基本周波数軌跡とに基づいて、前記ノート指令入力信号及び前記表現指令入力信号の各時刻の状態を示す初期状態系列を推定する初期状態系列推定手段と、
    前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記基本周波数軌跡と、前記モデルパラメータとが与えられたときの、前記ノート成分、前記表現成分、及び前記微細変動成分の組からなる完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値を計算する信号分離手段と、
    前記信号分離手段によって計算された前記完全データの条件付き期待値及び前記完全データの自己相関の条件付き期待値、並びに前記モデルパラメータの事前確率を用いて表わされる、前記完全データの対数尤度関数の期待値を表わす関数を、目的関数とし、前記音高目標値時系列、前記基本周波数軌跡、及び前記モデルパラメータの初期値または前回更新された前記モデルパラメータに基づいて、前記目的関数を前記モデルパラメータに関して最大化するように前記モデルパラメータを更新するモデルパラメータ更新手段と、
    予め定められた終了条件を満たすまで、前記信号分離手段による計算及び前記更新手段による更新を繰り返し行う収束判定手段と、
    前記パラメータ収束判定部により前記終了条件を満たすと判定された場合に、前記モデルパラメータを出力するパラメータ出力手段と、
    を含む音響信号分析装置。
  8. コンピュータに、請求項1〜請求項6の何れか1項記載の音響信号分析方法の各ステップを実行させるためのプログラム。
JP2012165161A 2012-07-25 2012-07-25 音響信号分析方法、装置、及びプログラム Active JP5771575B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012165161A JP5771575B2 (ja) 2012-07-25 2012-07-25 音響信号分析方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012165161A JP5771575B2 (ja) 2012-07-25 2012-07-25 音響信号分析方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014026055A true JP2014026055A (ja) 2014-02-06
JP5771575B2 JP5771575B2 (ja) 2015-09-02

Family

ID=50199759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012165161A Active JP5771575B2 (ja) 2012-07-25 2012-07-25 音響信号分析方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5771575B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015181001A (ja) * 2014-03-18 2015-10-15 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデル決定用の方法と装置
JP2015191668A (ja) * 2014-03-28 2015-11-02 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデルを決定する方法と装置
JP2015201176A (ja) * 2014-03-18 2015-11-12 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデルを決定する方法および装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090199A (ja) * 2009-10-23 2011-05-06 Nagoya Univ 音声処理装置およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090199A (ja) * 2009-10-23 2011-05-06 Nagoya Univ 音声処理装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015181001A (ja) * 2014-03-18 2015-10-15 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデル決定用の方法と装置
JP2015201176A (ja) * 2014-03-18 2015-11-12 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデルを決定する方法および装置
JP2015191668A (ja) * 2014-03-28 2015-11-02 エヌイーシー(チャイナ)カンパニー, リミテッドNEC(China)Co.,Ltd. リレーショナルモデルを決定する方法と装置

Also Published As

Publication number Publication date
JP5771575B2 (ja) 2015-09-02

Similar Documents

Publication Publication Date Title
CN107924678B (zh) 语音合成装置、语音合成方法及存储介质
Yi et al. Singing voice synthesis using deep autoregressive neural networks for acoustic modeling
Ohishi et al. A Stochastic Model of Singing Voice F0 Contours for Characterizing Expressive Dynamic Components.
JP5771575B2 (ja) 音響信号分析方法、装置、及びプログラム
JP5807921B2 (ja) 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP6505346B1 (ja) Dnn音声合成の教師無し話者適応を実現するコンピュータシステム、そのコンピュータシステムにおいて実行される方法およびプログラム
JP6044119B2 (ja) 音響解析装置およびプログラム
JP4392621B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Gabrielli et al. A multi-stage algorithm for acoustic physical model parameters estimation
JP3541224B2 (ja) 音源の分離方法および分離装置
JP2018013722A (ja) 音響モデル最適化装置及びそのためのコンピュータプログラム
JP2012058343A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2012027196A (ja) 信号分析装置、方法、及びプログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP4392622B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5188300B2 (ja) 基本周波数軌跡モデルパラメータ抽出装置、基本周波数軌跡モデルパラメータ抽出方法、プログラム及び記録媒体
US11798579B2 (en) Device, method, and program for analyzing speech signal
JP5318042B2 (ja) 信号解析装置、信号解析方法及び信号解析プログラム
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
JP6101599B2 (ja) 音響信号分析装置、音量軌跡予測装置、方法、及びプログラム
JP6564744B2 (ja) 信号解析装置、方法、及びプログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Sung et al. Factored MLLR adaptation for singing voice generation
JP2015049433A (ja) 音声信号解析装置、方法、及びプログラム
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150629

R150 Certificate of patent or registration of utility model

Ref document number: 5771575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150