以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明で提案する技術は、音声の特徴量系列から基本周波数パターンを予測し、原音声の基本周波数パターンを予測した基本周波数パターンに置き換えることで音声の自然性を向上させることを目的とした音声処理技術である。
<関連技術1:スペクトル特徴量系列からのF0 パターン予測方法>
まず、スペクトル特徴量系列からのF0 パターン予測方法について説明する。
上記非特許文献1〜非特許文献3では、スペクトル特徴量系列からF0 パターンを予測する方法が提案されている。当該従来手法はスペクトル特徴量系列とF0 パターンの同時確率分布モデルのパラメータを学習する処理と学習した当該モデルを用いて所与のスペクトル特徴量系列からF0 パターンに変換する処理からなる。
<学習処理>
ソース音声(例えば電気音声)とターゲット音声(例えば自然音声)のパラレルデータが与えられているものとする。ソース音声のスペクトル特徴量ベクトルをc[k] とし,ターゲット音声の対数F0 とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k];Δy[k])T とする。ここでk は離散時刻のインデックスである。音声特徴量c[k] としては例えば時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものを用いる。本手法ではc[k] とq[k] の同時確率分布を混合正規分布モデル(Gaussian Mixture Model; GMM)
でモデル化し、学習処理では所与のパラレルデータ{c[k]; q[k]}K k=1 から当該GMM のパラメータ(各正規分布の重み,平均、分散共分散行列)を学習する。ただし、N(x;μ,Σ) は、xの確率密度関数が平均がμ、分散共分散行列がΣの正規分布で与えられることを意味する。
GMM のパラメータはExpectation-Maximization (EM) アルゴリズムにより推定することができる。学習したGMM パラメータをγとすると、条件付分布P(q[k]|c[k],γ) はスペクトル特徴量c[k] からF0 特徴量q[k] を予測するための分布と見ることができ、
のようにP(c[k],q[k]|γ) と同様にGMM で与えられる。ただし、
でありe(q|c) mおよびD(q|c) m は
で与えられる。
<変換処理>
変換処理では。所与のスペクトル特徴量系列
の下で,最尤のF0パターン
を以下の式(8)により求めることが目的である。
ただし、
であり、Wはyとqの関係を記述した変換行列(定数)である。ここで、P(q|c,γ) は学習処理により学習したパラメータγで与えられるGMM であり、
で与えられる。ただし、m= (m1,...,mK) であり、mk は時刻k におけるGMMの成分インデックスを表す。ここで、P(q[k]|c[k],γ) が
により近似できるとする。式(12)より、^mkは、データc[k]を生成したらしい確率が最も高い正規分布のインデックスを意味する。よって、式(9)よりP(q|c,m,^γ)はすべてのkについて
の積をとったもので与えられる。式(11)の近似によりP(q|c,γ)は
を連結したベクトルe(q|c)を平均、
を対角成分としたブロック対角行列D(q|c) を分散共分散行列とした正規分布
となる。これにq=Wyを代入し、yの分布となるように正規化すると、
となるため、
のようにyの条件付き分布を得る。よって、式(8)の解は、
となる。
<関連技術2:F0パターン生成過程モデル>
次に、F0パターン生成過程の確率モデルについて説明する。
音声のF0パターンの生成過程を記述したモデルに、藤崎の基本周波数(F0)パターン生成過程モデル(藤崎モデル)が知られている(非特許文献6)。
[非特許文献6]:H. Fujisaki, "In Vocal Physiology: Voice Production, Mechanisms and Functions," Raven Press, 1988.
藤崎モデルとは、甲状軟骨の運動によるF0 パターンの生成過程を説明した物理モデルである。藤崎モデルでは、甲状軟骨の二つの独立な運動(平行移動運動と回転運動)にそれぞれ伴う声帯の伸びの合計がF0の時間的変化をもたらすと解釈され、声帯の伸びとF0パターンの対数値y(t) が比例関係にあるという仮定に基づいてF0パターンがモデル化される。甲状軟骨の平行移動運動によって生じるF0パターンxp(t)をフレーズ成分、回転運動によって生じるF0 パターンxa(t) をアクセント成分と呼ぶ。藤崎モデルでは、音声のF0 パターンy(t) は、これらの成分に声帯の物理的制約によって決まるベースライン成分b を足し合わせたものとして、
と表現される。これら二つの成分は二次の臨界制動系の出力と仮定され、
と表される(* は時刻t に関する畳み込み演算)。ここでup(t) はフレーズ指令関数と呼ばれ、デルタ関数(フレーズ指令)の列からなり、ua(t) はアクセント指令関数と呼ばれ、矩形波(アクセント指令)の列からなる。これらの指令列には、発話の最初にはフレーズ指令が生起する、フレーズ指令は二連続で生起しない、異なる二つの指令は同時刻に生起しない、という制約条件がある。またαとβはそれぞれフレーズ制御機構、アクセント制御機構の固有角周波数であり、話者や発話内容によらず、おおよそα=3 rad/s、β=20 rad/s 程度であることが経験的に知られている。
<関連技術3:F0パターン生成過程モデルパラメータ推定法>
上述の藤崎モデルは以下のような確率モデルで記述することができる(非特許文献4、5、7参照)。
[非特許文献7]:石原達馬, 吉里幸太, 亀岡弘和, 齋藤大輔, 嵯峨山茂樹, \音声基本周波数の藤崎モデル指令列の統計的語彙モデル," 日本音響学会2013 年春季研究発表会講演論文集, 1-7-9, pp. 283-286, Mar. 2013.
まずフレーズ、アクセント指令関数のペアo[k] = (up[k], ua[k])T を出力するHMM を考える。ただし、k は離散時刻のインデックスを表す。状態出力分布は正規分布とし、各時刻の状態が与えられた下で
により指令関数ペアo[k] が生成されるものとする。ここで{sk}K k=1 はHMMの状態系列であり、平均ベクトルρ[k] はHMM の状態遷移の結果として定まる値である。具体的なHMM の構成の例を図1〜図3に示す。
図1に示すHMM の状態遷移ネットワークの例では、状態t = r0 においてμ(p) t [k] とμ(a) tはいずれも0 である。状態t = r0 からは状態p0 にのみ遷移することができ、状態t = p0においてμ(p) t [k] は非負値A(p)[k] をとり、μ(a) t は0 となる。状態t = p0 の次は状態r1 にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a) tは非負値A(a) n をとり、μ(p) t [k] は0 となる。状態t = anの次は状態r0 またはr1にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。
図2に示すHMMの状態遷移ネットワークの例では、状態t = r0 においてμ(p) t [k] とμ(a) tはいずれも0 である。状態t = r0 からは状態p0,...,pM-1のいずれかにのみ遷移することができ、状態t = pm においてμ(p) tは非負値A(p) m をとり、μ(a) t は0 となる。状態t = pm の次は状態r1にのみ遷移することが許される。状態t = r0 同様、状態t = r1 においてμ(p) t [k] とμ(a) t はいずれも0 である。状態t = r1 からは状態a0,...,aN-1のいずれかにのみ遷移することができ、状態t = an においてμ(a) tは非負値A(a) n をとり、μ(p) t は0 となる。状態t = anの次は状態r0 またはr1 にのみ遷移することが許される。これよりμa[k] が矩形パルス列となることが保証される。
図3に示すHMMの状態遷移ネットワークの例では、それぞれの終点と始点が連結された複数のLeft-to-Right 型HMM からなる。図1、2と同様、状態t = rlにおいてμ(p) t [k] とμ(a) t はいずれも0 である。また、状態t = pm においてμ(p) tは非負値A(p) m をとり、μ(a) t は0 となる。状態t = anにおいてμ(a) tは非負値A(a) nをとり、μ(p)
tは0となる。
ρ[k]は、図1 の例では、以下の式(24)で表わされる。
また、図2, 3 の例では、ρ[k]は、以下の式(25)で表わされる。
いずれの例においても、図4のようにそれぞれの状態を同じ出力分布をもついくつかの小状態に分割し、Left-to-Right 型の状態遷移経路を制約することで同一状態に停留する時間長の確率をパラメータ化することができる。図4 は状態an を分割した例である。例えばこの図のように全てのm≠0 に対してan,n′からan,n′+1 への状態遷移確率を1に設定することで,an,0からan,n′への遷移確率が状態an がn′ステップだけ持続する確率に対応し、アクセント指令の持続長の確率を設定したり学習したりできるようになる。同様にpm とrl も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。以後、状態集合を
と表記する。上記のHMM の構成は次のように書ける。
状態系列s = {sk}K k=1 が与えられたとき、このHMM はフレーズ指令関数up[k] とアクセント指令関数ua[k] のペアを出力する。式(18) と式(20) で示した通り、up[k] とua[k] にそれぞれgp[k] とga[k] が畳み込まれてフレーズ成分xp[k] とアクセント成分xa[k] が出力される。これを式で表すと、
と書ける(* は離散時刻k に関する畳み込み演算)。このとき,F0 パターンx[k] は
と三種類の成分の重ね合わせで書ける。ただしb は時刻によらないベースライン成分である。
また、実音声においては、いつも信頼のできるF0 の値が観測できるとは限らない。藤崎モデルのパラメータ推定を行うにあたっては、信頼のおける観測区間のF0 値のみを考慮に入れて、そうでない区間は無視することが望ましい。例えば音声の無声区間においては通常声帯の振動に伴う周期的な粗密波は観測されないので、仮に自動ピッチ抽出によって音声の無声区間から何らかの値がF0 の推定値として得られたとしても、その値を声帯から発せられる信号のF0 の値と見なすのは適当ではない。そこで、提案モデルに観測F0値の時刻k における不確かさの程度v2 n[k] を導入する。具体的には、観測F0 値y[k] を、真のF0 値x[k] とノイズ成分
との重ね合わせで
と表現することで、信頼のおける区間かどうかに関わらず全ての観測区間を統一的に扱える。
xn[k] を周辺化することで、出力値系列o = {o[k]}K k=1 が与えられたときのy = {y[k]}K k=1 の確率密度関数
が得られる。状態系列s = {sk}K k=1 と指令の振幅を表すパラメータ
および遷移確率行列φ = (φi,j)I×I が与えられたとき、出力値系列o は
に従って生成される。また、P(s|φ) は状態遷移確率の積として
と書ける。ただし、
は初期状態がs1である確率をあらわす。式(30)、(32) および式(33) よりP(y,o,s|θ,φ) は
と書ける。これをo に関して周辺化すると
が得られる。ただし、
である。一方、s に関して周辺化すると
が得られる。ただし、Σs はあらゆる状態系列に関して和をとる操作を意味する。
<パラメータ推定アルゴリズム1>
yとoを完全データと見なすことで、式(35) を局所最大化するsとθ をExpectation-Maximization アルゴリズムにより探索することができる。導出は省略するが、
が大きくなるようにsとθを更新するステップと、更新したsとθを用いて
とRを
により更新するステップを繰り返すことで式(35) を単調増加させることができる(詳細は、上記非特許文献4参照)。
具体的には、以下の初期設定、Eステップ、及びMステップが実行される。
(初期設定)
sとθを初期設定する。
(E ステップ)
フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値
と条件付き分散共分散行列Rを
により更新する。ただし、
である。また、Rにおける
に対応するブロック対角成分を
とする。
すなわち、
である(* は以後用いないブロック成分である)。
(Mステップ)
Q(s,θ) が最大となる状態系列s= (s1,...,sK) を探索する。γp とγaは対角行
列なので、
はいずれも
のようにkごとの項の和の形で書ける。従って、Q(s,θ) はsに依らない項を除けば
と書ける。従って、Q(s,θ) を最大にする状態系列s= (s1,...,sK)はViterbiアルゴリズムにより求めることができる(詳細は上記非特許文献4参照)。ただし、[・]k,k は行列のk 行k 列の要素、[・]kはベクトルの第k 要素を表す。
続いて、Q(s,θ)を最大にするようにθを更新する。Q(s,θ)を最大にするθは、Q(s,θ)の各変数に関する偏微分を0 と置くことにより得られる(詳細は上記非特許文献4参照)。
また、推定された状態系列sから、状態遷移確率φが求められる。
[第1の実施の形態]
<本発明の実施の形態の概要>
本発明の実施の形態の技術は、上述した関連技術1と同様、学習処理と変換処理からなるが、式(8) の代わりに関連技術1の確率分布と関連技術2の確率分布を"Expert"としたProduct-of-Experts (非特許文献9参照)を用いることにより,関連技術2のF0 パターン生成過程モデルにできるだけ即したF0 パターンをスペクトル特徴量から統計的に予測することを可能にする技術である。
[非特許文献9]:G. E. Hinton, “Training Products of Experts by Minimizing Contrastive Divergence," Neural Computation, no. 14, no. 8, pp. 1771-1800, 2002.
学習処理と変換処理では、後述するc、yの結合分布P(c,y,m,s|γ,θ,φ)を共通の規準とする。
学習処理ではパラレルデータの学習サンプル{c[k],q[k]}K k=1が与えられた下でc,yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるようにγ、θ、φを学習する。本実施の形態では、γと、θ、φとを別々に学習する。例えば、学習サンプルのF0 パターン{y[k]}K k=1が与えられた下で、上述した関連技術3のパラメータ推定アルゴリズム1を用いてP(y,s|θ,φ)ができるだけ大きくなるようにθとφを学習する。そして、θ、φを固定し、P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるようにγを学習する。
なお、学習サンプルのフレーズ・アクセント指令データoが与えられる下では、上述した関連技術3を用いてP(o|θ、φ) ができるだけ大きくなるようにθとφを学習するようにしてもよい。
<システム構成>
次に、ソース音声のスペクトル特徴量系列から、ターゲット音声の基本周波数パターンを予測する基本周波数パターン予測装置に、本発明を適用した場合を例にして、本発明の実施の形態を説明する。
図5に示すように、本発明の第1の実施の形態に係る基本周波数パターン予測装置は、CPUと、RAMと、後述する学習処理ルーチン、及び基本周波数パターン予測処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
図5に示すように、基本周波数パターン予測装置100は、入力部10と、演算部20と、出力部90とを備えている。
入力部10は、学習サンプルのソース音声(例えば電気音声)の時系列データとターゲット音声(例えば自然音声)の時系列データとからなるパラレルデータを受け付ける。また、入力部10は、予測対象のソース音声の時系列データを受け付ける。
演算部20は、学習部30と、パラメータ記憶部40と、変換処理部50とを備えている。
図6に示すように、学習部30は、特徴量抽出部32と、基本周波数系列抽出部34と、第1モデルパラメータ学習部36と、第2モデルパラメータ学習部38とを備えている。
特徴量抽出部32は、入力部10によって受け付けた学習サンプルのソース音声の時系列データから、ソース音声のスペクトグラム特徴量ベクトルc[k]を抽出する。ここでk は離散時刻のインデックスである。例えば、非特許文献1〜3と同様に、時刻k を中心とした前後数フレーム分のメルケプストラム(ベクトル)の系列を連結したベクトルに対し主成分分析により次元圧縮を行ったものをc[k] として用いる。
基本周波数系列抽出部34は、入力部10によって受け付けた学習サンプルのターゲット音声の時系列データから、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、y = (y[1],..., y[K])Tとする。
この基本周波数の抽出処理は、周知技術により実現でき、例えば、非特許文献8(H. Kameoka, "Statistical speech spectrum model incorporating all-pole vocal tract model and F0 contour generating process model," in Tech. Rep. IEICE, 2010, in Japanese.)に記載の手法を利用して、8msごとに基本周波数を抽出する。
また、y とその動的成分(時間微分または時間差分)の結合ベクトル(F0 特徴量と呼ぶ。)をq[k] = (y[k],Δy[k])T とする。
以上より、{c[k],q[k]}K k=1 というデータが得られる。
第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、隠れマルコフモデルの各時刻の状態からなる状態系列sとの組み合わせの確率分布である第2確率分布のパラメータを学習する。
具体的には、第2モデルパラメータ学習部38は、上述した関連技術3のF0 パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズム1に従って、F0パターン生成過程モデルのパラメータθ、φを学習する。
もし学習サンプルのフレーズ指令系列とアクセント指令系列のペアのデータo = {ok}K k=1 が入手できるのであれば,o からθ、φを学習しても良い(HMM の通常の学習に相当)。学習したF0パターン生成過程モデルのパラメータを^θ、^φとする。
第1モデルパラメータ学習部36は、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、第2モデルパラメータ学習部38によって学習されたパラメータθ、φとに基づいて、c、yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、ソース音声の各時刻のスペクトル特徴量ベクトルc[k]とターゲット音声の各時刻kの基本周波数の結合ベクトルq[k]との同時確率分布を表す混合正規分布である第1確率分布のパラメータγを学習する。
<学習・変換規準>
ここで、学習処理と変換処理で共通となる規準について説明する。
c、yの結合分布P(c,y,m,s|γ,θ,φ)は以下の形で与えられる。
ただし、
以上よりc、yの結合分布P(c,y,m,s|γ,θ,φ)は、GMMベースのF0パターン予測モデルとF0 パターン生成過程モデルの確率分布の積を正規化した分布と見なせ、ΛおよびΓは両モデルの寄与の大きさを表した行列である。いずれも任意の対角行列(定数)とする。他の変数については、上述した関連技術1と関連技術3 の記述と同様である。また、上記では分かりやすさのためGMM の成分インデックス系列とHMMの状態系列に依存する変数には上付き文字(m), (s) を付与している。
<学習・変換処理のための統一的アルゴリズム>
次に、学習・変換処理のための統一的アルゴリズムについて説明する。
学習処理も変換処理も同一規準を用いた最適化問題
となり(固定する変数と推定する変数が異なるだけである)、qとuを潜在変数(隠れ変数)と扱うことでExpectation-Maximization アルゴリズムを適用することができる。y、c、q、uを完全データとすると,完全データに対する尤度関数は、以下のように書ける。
ただし、
式(92) を平方完成すると、P(c,y,m,s|γ,θ,φ)は、以下のように表される。
E ステップで、以下の式(100)、(101)に従って期待値を算出する。
Mステップで、
が最大となるように各変数を更新することでlogP(c,y,m,s|γ,θ,φ)を大きくすることができるので、E ステップとM ステップを繰り返すことで当該最適化問題の局所最適解を得ることができる。
以上説明した原理に従って、第1モデルパラメータ学習部36は、第2モデルパラメータ学習部36で学習されたパラメータθ、φを固定して、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、に基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγを学習する。学習したGMM パラメータを^γとする。
変換処理部50は、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
本実施の形態では、図7に示すように、変換処理部50は、特徴量抽出部52と、期待値算出部54と、変数更新部56と、収束判定部58とを備えている。
特徴量抽出部52は、入力部10によって受け付けた予測対象のソース音声の時系列データから、特徴量抽出部32と同様に、ソース音声の各時刻kのスペクトグラム特徴量ベクトルc[k]を抽出する。
期待値算出部54は、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φと、特徴量抽出部52によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、変数更新部56によって前回更新された各時刻の基本周波数y、各時刻kの正規分布のインデックスm、及び各時刻の状態からなる状態系列sとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
変数更新部56は、期待値算出部54によって算出された期待値に基づいて、上記式(102)が最大となるように、各時刻の基本周波数yと、各時刻kの正規分布のインデックスmと、各時刻の状態からなる状態系列sとを更新する。
収束判定部58は、予め定められた収束判定条件を満たすまで、期待値算出部54及び変数更新部56による各処理を繰り返させる。収束判定条件としては、例えば、予め定められた繰り返し回数に到達することである。
収束判定条件を満たしたときに、最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力する。
<基本周波数パターン予測装置の作用>
次に、本実施の形態に係る基本周波数パターン予測装置100の作用について説明する。まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図8に示す学習処理ルーチンが実行される。
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、
各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
ステップS104では、状態系列sと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。
そして、ステップS105において、上記式(49)、式(50)に従って、フレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとを更新する。
次のステップS106では、上記ステップS104で初期設定された、又は後述するステップS107で前回更新されたパラメータθと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、上記式(63)式を用いて、Q(s,θ) を最大にする状態系列s= (s1,...,sK)をViterbiアルゴリズムにより求めて、状態系列sを更新する。
ステップS107では、上記ステップS106で更新された状態系列sと、上記ステップS105で更新されたフレーズ成分、アクセント成分、ベースライン成分の条件付き期待値 ̄xと、条件付き分散共分散行列Rとに基づいて、Q(s,θ)の各変数に関する偏微分を0 と置くことにより、Q(s,θ) を最大にするパラメータθを求めて、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθを更新する。
ステップS108において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS105へ戻る。一方、収束判定条件を満たした場合には、ステップS109へ進む。
ステップS109では、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]と、上記ステップS107で最終的に得られたパラメータθと、上記ステップS106で最終的に得られた状態系列sから求められる状態遷移確率φと、後述するステップS110で前回更新されたパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
ステップS110では、上記ステップS109で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータγを更新する。
ステップS112において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS109へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS107で最終的に得られたパラメータθと、上記ステップS106で最終的に得られた状態系列sから求められる状態遷移確率φと、上記ステップS110で最終的に得られたパラメータγとを、パラメータ記憶部40に格納する。
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、図9に示す基本周波数パターン予測処理ルーチンが実行される。
まず、ステップS121において、入力された予測対象のソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。
ステップS122において、パラメータ記憶部40に記憶されたパラメータγと、上記ステップS121で抽出された各時刻のスペクトル特徴量ベクトルc[k]とに基づいて、上記式(16)に従って、各時刻kの基本周波数y[k]を推定することにより、各時刻kの基本周波数y[k]を初期設定すると共に、各時刻kの基本周波数の結合ベクトルq[k]に初期値を設定する。また、各時刻kのスペクトル特徴量ベクトルc[k]を生成したらしい確率が最も高い正規分布のインデックス^mkと、状態系列sとに、初期値を設定する。
ステップS123では、上記ステップS121で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、各時刻kの基本周波数y[k]、各時刻kの基本周波数y[k]から得られる各時刻kの基本周波数の結合ベクトルq[k]と、パラメータ記憶部40に記憶されたパラメータθ、状態遷移確率φ、及びパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
ステップS124では、上記ステップS123で算出された期待値に基づいて、上記式(102)が最大となるように、各時刻kの基本周波数y[k]、各時刻kの正規分布のインデックス^mk、及び状態系列sを更新する。
そして、ステップS125において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS123へ戻る。一方、収束判定条件を満たした場合には、ステップS126において、上記ステップS124で最終的に得られた各時刻kの基本周波数y[k]を、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果として、出力部90により出力し、基本周波数パターン予測処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る基本周波数パターン予測装置によれば、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを学習し、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
[第2の実施の形態]
次に、本発明の第2の実施の形態に係る基本周波数パターン予測装置について説明する。なお、第1の実施の形態と同様の構成となる部分については同一符号を付して説明を省略する。
第2の実施の形態では、第2の確率分布が、P(y,o|θ,φ)であり、パラメータθ、φを推定する方法が第1の実施の形態と異なっている。
第2の実施の形態に係る基本周波数パターン予測装置の学習部30の第2モデルパラメータ学習部38によるパラメータを学習する原理について説明する。
まず、関連技術3のF0パターン生成過程モデルパラメータ推定法のパラメータ推定アルゴリズムについて説明する。
<パラメータ推定アルゴリズム2>
観測F0系列yが与えられたもとで、モデルパラメータθとoの事後確率P(o,θ|y)の局所最適解を求める反復アルゴリズムを以下に示す。状態系列sを隠れ変数とし、事後確率P(o,θ|y) が、
をsについて周辺化することで得られる点に注意すると、Q関数Q(o,θ,o´,θ´)は
と置ける。ただし、
は定数項を除いて等しいことを表す。また、gb[k] = δ[k] (クロネッカーのデルタ) である。よって、P(sk = t|y,o´,θ´)をForward-Backward アルゴリズムにより計算するステップ、oとθについてQ(o,θ,o´,θ´)を増加させるステップを繰り返すことで、P(o,θ|y) が局所最大となる解を得ることができる。oはフレーズ・アクセント指令系列のペアであるため、Q(o,θ,o´,θ´)を増加させるステップにおいては、oの非負制約を考慮する必要がある。oの非負制約を満たしながらQ(o,θ,o´,θ´)を増加させるような更新則は以下により導くことができる。まず、Q(o,θ,o´,θ´)の下界はJensen の不等式より
のように設計することができる。また、i,k,l は、
を満たす任意の変数である。従ってQ関数の下界は、
と表される。この下界関数をλi,k,l≧0 に関して最大化するステップとo に関して最大化するステップを交互に繰り返せばQ(o,θ,o´,θ´)を増加させることができる。いずれのステップの更新則も解析的に求めることができ、それぞれ
で表される。以上の反復が収束したあと、続けてθを更新する。更新式は、図1の場合、
図2、3の場合、
である。これらの更新値をo´とθ´に代入したのちに、P(sk = t|y,o´,θ´)の更新を再度行い、以後同様の処理を繰り返すことで事後確率P(o,θ|y)を単調増加させることができる。
以上の反復アルゴリズムが収束した後、上述したパラメータ推定アルゴリズム1のViterbi アルゴリズムにより求まる最適なsを状態系列の推定結果とする。
また、推定された状態系列sから、状態遷移確率φが求められる。
以上説明した原理に従って、第2モデルパラメータ学習部38は、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数y[k]に基づいて、各時刻kの基本周波数y[k]と、各時刻kにおける甲状軟骨の平行移動運動によって生じる基本周波数パターンを表すフレーズ指令up[k]及び甲状軟骨の回転運動によって生じる基本周波数パターンを表すアクセント指令ua[k]のペアからなる指令関数o[k]との組み合わせの確率分布である第2確率分布のパラメータθ、φを学習する。
第1モデルパラメータ学習部36は、上記第1の実施の形態と同様に、第2モデルパラメータ学習部36で学習されたパラメータθ、φを固定して、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]と、に基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγを学習する。学習したGMM パラメータを^γとする。
変換処理部50は、第1の実施の形態と同様に、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、第1モデルパラメータ学習部36によって学習された第1確率分布のパラメータγと、第2モデルパラメータ学習部38によって学習された第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
<基本周波数パターン予測装置の作用>
次に、第2の実施の形態に係る基本周波数パターン予測装置の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置に入力されると、基本周波数パターン予測装置において、図10に示す学習処理ルーチンが実行される。
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、
各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
ステップS200では、指令系列oと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθとを初期設定する。また、ターゲット音声の時系列データに基づいて、有声区間、無声区間を特定し、各時刻kの基本周波数の不確かさの程度vn 2 [k]を推定する。
そして、ステップS201において、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k,t)の全ての組み合わせについて、事後確率P(sk=t|y,o′,θ′)を更新する。
ステップS202では、上記ステップS200で設定された指令系列oの初期値、または後述するステップS203で前回更新された指令系列oに基づいて、(k、l)の全ての組み合わせについて、上記の式(71)に従って、補助変数λp,k,l、λa,k,l、λb,k,lを算出して更新する。
次のステップS203では、上記ステップS102で抽出されたされた基本周波数系列yと、上記ステップS200で算出された各時刻kの不確かさの程度vn 2 [k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)と、上記ステップS202で更新された補助変数λp,k,l、λa,k,l、λb,k,lとに基づいて、上記式(72)に従って、非負値である各時刻lのフレーズ指令up[l]及びアクセント指令ua[l]からなる指令系列oとベース成分ubとを更新する。
次のステップS204では、収束条件として、繰り返し回数sが、Sに到達したか否かを判定し、繰り返し回数sがSに到達していない場合には、収束条件を満足していないと判断して、上記ステップS202へ戻る。一方、繰り返し回数sがSに到達した場合には、収束条件を満足したと判断し、ステップS205で、上記ステップS203で更新された各時刻kのフレーズ指令up[k]及びアクセント指令ua[k]と、上記ステップS201で更新された事後確率P(sk=t|y,o′,θ′)とに基づいて、上記式(73)、式(74)、又は式(75)、式(76)に従って、各時刻kのフレーズ指令の振幅A(p)[k]、及び各位置nのアクセント指令の振幅Aa (a)を更新することにより、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθを更新する。
ステップS206において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS201へ戻る。一方、収束判定条件を満たした場合には、ステップS207において、上記ステップS203で最終的に更新された指令系列oに基づいて、Viterbi アルゴリズムにより、状態系列sを推定する。また、推定された状態系列sから、状態遷移確率φを求める。
そして、ステップS109では、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数の結合ベクトルq[k]と、上記ステップS205で最終的に得られたパラメータθと、上記ステップS207で得られた状態遷移確率φと、後述するステップS110で前回更新されたパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
ステップS110では、上記ステップS109で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータγを更新する。
ステップS112において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS109へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS205で最終的に得られたパラメータθと、上記ステップS207で得られた状態遷移確率φと、上記ステップS110で最終的に得られたパラメータγとを、パラメータ記憶部40に格納する。
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、上記図9に示す基本周波数パターン予測処理ルーチンが実行され、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果が、出力部90により出力される。
以上説明したように、第2の実施の形態に係る基本周波数パターン予測装置によれば、基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを学習し、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
[第3の実施の形態]
次に、本発明の第3の実施の形態に係る基本周波数パターン予測装置について説明する。なお、第1の実施の形態と同様の構成となる部分については同一符号を付して説明を省略する。
第3の実施の形態では、パラメータγ、θ、φを推定する方法が第1の実施の形態と異なっている。
第3の実施の形態では、学習サンプルのF0 パターン{y[k]}K k=1が与えられた下で、P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、パラメータγ、θ、φを同時に学習する。
図11に示すように、第3の実施の形態に係る基本周波数パターン予測装置の学習部30は、特徴量抽出部32と、基本周波数系列抽出部34と、モデルパラメータ学習部336とを備えている。
モデルパラメータ学習部336は、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、c、yの結合分布P(c,y,m,s|γ,θ,φ)ができるだけ大きくなるように、ソース音声の各時刻のスペクトル特徴量ベクトルc[k]とターゲット音声の各時刻kの基本周波数の結合ベクトルq[k]との同時確率分布を表す混合正規分布である第1確率分布のパラメータγ、及び各時刻kの基本周波数y[k]と、隠れマルコフモデルの各時刻の状態からなる状態系列sとの組み合わせの確率分布である第2確率分布のパラメータθ、φを学習する。
具体的には、特徴量抽出部32によって抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、基本周波数系列抽出部34によって抽出された各時刻kの基本周波数の結合ベクトルq[k]とに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、logP(c,y,m,s|γ,θ,φ)を大きくするように、第1確率分布のGMMのパラメータγ、及び第2確率分布のパラメータθ、φを学習する。
変換処理部50は、第1の実施の形態と同様に、予測対象のソース音声の時系列データを入力として、ソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルと、モデルパラメータ学習部336によって学習された第1確率分布のパラメータγ、及び第2確率分布のパラメータθ、φとに基づいて、EM(Expectation-Maximization)アルゴリズムにより、E ステップとM ステップを繰り返すことで、学習処理と共通の規準であるP(c,y,m,s|γ,θ,φ)を大きくするように、各時刻の基本周波数yと、各時刻kのスペクトル特徴量ベクトルを生成したらしい確率が最も高い正規分布のインデックスm、各時刻の状態からなる状態系列sを推定することにより、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数yを予測する。
<基本周波数パターン予測装置の作用>
次に、第3の実施の形態に係る基本周波数パターン予測装置の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、学習サンプルのソース音声の時系列データ及びターゲット音声の時系列データからなるパラレルデータが、基本周波数パターン予測装置に入力されると、基本周波数パターン予測装置において、図12に示す学習処理ルーチンが実行される。
まず、ステップS101において、入力されたソース音声の時系列データを読み込み、各時刻kのスペクトル特徴量ベクトルc[k]を抽出する。ステップS102において、入力されたターゲット音声の時系列データを読み込み、ターゲット音声の各時刻kにおける基本周波数y[k]を抽出し、また、基本周波数y[k]とその動的成分の結合ベクトルq[k]を抽出する。
ステップS300では、状態系列sと、状態系列sから求められるパラメータφと、各時刻における状態に応じたフレーズ指令の振幅及び各アクセント指令の振幅を表すパラメータθと、パラメータγとを初期設定する。
そして、ステップS301において、上記ステップS101で抽出された各時刻kのスペクトル特徴量ベクトルc[k]と、上記ステップS102で抽出された各時刻kの基本周波数y[k]、各時刻kの基本周波数y[k]から得られる各時刻kの基本周波数の結合ベクトルq[k]と、初期設定された、又は後述するステップS302で前回更新されたパラメータθ、状態遷移確率φ、及びパラメータγとに基づいて、上記式(100)、式(101)に従って、期待値を算出する。
ステップS302では、上記ステップS301で算出された期待値に基づいて、上記式(102)が最大となるように、パラメータθ、状態系列s、状態系列sから求められる状態遷移確率φ、パラメータγを更新する。
そして、ステップS303において、予め定められた収束判定条件を満たしたか否かを判定し、収束判定条件を満たしていない場合には、上記ステップS301へ戻る。一方、収束判定条件を満たした場合には、ステップS113において、上記ステップS302で最終的に得られたパラメータθと、状態系列sから求められる状態遷移確率φと、パラメータγとを、パラメータ記憶部40に格納する。
次に、予測対象のソース音声の時系列データが、基本周波数パターン予測装置100に入力されると、基本周波数パターン予測装置100において、上記図9に示す基本周波数パターン予測処理ルーチンが実行され、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数の予測結果が、出力部90により出力される。
以上説明したように、第3の実施の形態に係る基本周波数パターン予測装置によれば、ソース音声の各時刻のスペクトル特徴量ベクトルとターゲット音声の各時刻の基本周波数との間の関係をモデル化した第1確率分布のパラメータγ、及び基本周波数パターン生成過程をモデル化した第2確率分布のパラメータθ、φを、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように学習し、予測対象のソース音声の時系列データから抽出される各時刻のスペクトル特徴量ベクトルから、第1確率分布と第2確率分布とを用いて表される規準P(c,y,m,s|γ,θ,φ)を大きくするように、予測対象のソース音声に対応するターゲット音声の各時刻の基本周波数を予測することにより、F0 パターンの物理的な生成過程の制約を考慮しながらスペクトル特徴量系列に対応する最適なF0パターンを推定することができる
<実験>
音声信号からスペクトル特徴量系列とF0 パターンおよびフレーズ・アクセント指令を抽出し、スペクトル特徴量系列とフレーズ・アクセント指令系列のペアデータを用いて学習処理により上記のモデルパラメータ(GMM のパラメータ)を学習したのちに、変換処理によりスペクトル特徴量系列をフレーズ・アセント指令系列に変換する実験を行い、変換されたフレーズ・アセント指令系列が元のF0 パターンをどの程度復元できているかを確認した。図13にその結果の例を示す。点線が、音声信号から推定されたF0パターンであり、破線が、スペクトル特徴量系列から変換されたフレーズ・アセント指令系列から得られたF0 パターンである。スペクトル特徴量にはF0の情報が多く含まれていないにもかかわらず概ね元のF0 パターンを復元できていることが確認できた。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述の基本周波数パターン予測装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。