JP6662801B2

JP6662801B2 - 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム

Info

Publication number: JP6662801B2
Application number: JP2017033606A
Authority: JP
Inventors: 伸克北条; 勇祐井島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2020-03-11
Anticipated expiration: 2037-02-24
Also published as: JP2018138972A

Description

本発明は、音声の基本周波数パターンから基本周波数パターン生成過程モデルのパラメータを推定する信号処理技術に関する。

音声には言語情報以外にも様々な情報(以下、非言語情報ともいう)が含まれており、日常的なコミュニケーションに利用される。非言語情報を工学的に扱う枠組みを構築し、非言語情報を解析、合成するための情報処理と信号処理が研究されている。音声の基本周波数(以下、F₀ともいう)軌跡には、話者性、感情、意図などの非言語情報が豊富に含まれることが知られている。このため、F₀軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F₀軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F₀軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデルともいう)が提案されている。藤崎モデルは、フレーズ指令、アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF₀軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF₀軌跡から藤崎モデルのパラメータを高精度に推定することができれば有用である。これまで、藤崎モデルをベースとしたF₀パターンの確率的生成過程がモデル化されており、藤崎モデルの最尤パラメータをExpectation-Maximization(EM)アルゴリズム（非特許文献１−３参照)、補助関数法（非特許文献４参照)によりそれぞれ推定する手法が提案されている。従来技術の指令列推定装置９０は、推定したパラメータを用いて観測F₀軌跡から、対応する藤崎モデル指令列を推定し、推定藤崎モデル指令列として出力する（図１参照）。

H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical imodel of speech F0 contours", in Proc. SAPA,2010, pp. 43-48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation", in Proc. Speech Prosody 2012, 2012, pp. 175-178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech", in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012. 佐藤遼太郎，亀岡弘和，柏野邦夫，「基本周波数パターンと音韻特徴量系列の同時生成モデルによる韻律指令列推定」，研究報告音声言語情報処理（SLP），2016，pp.1-6．

藤崎モデル指令列は、言語特徴量（音素、アクセント型など）と対応づけられる情報であることが確認されている。例えば、フレーズ句の先頭時刻付近では、フレーズ指令が立ちやすいという傾向がある。また、アクセント核付近では、アクセント指令が立ちやすいという傾向がある。そこで、観測F₀軌跡から藤崎モデル指令列を推定するとき、観測F₀軌跡に対応する言語特徴量が得られる場合、藤崎モデル指令列推定の精度を向上させるために、言語特徴量が有効な手がかりとなり得る。

しかしながら、従来手法（非特許文献１−４参照)は、観測F₀軌跡のみから藤崎モデル指令列を推定しようというものであり、言語特徴量は考慮されない。

本発明は、言語特徴量を考慮し、観測F₀軌跡と言語特徴量とから藤崎モデル指令列を推定することで、藤崎モデル指令列推定の推定精度を向上させる指令列推定装置、その指令列推定装置において用いられる状態系列推定モデルを学習する状態系列推定モデル学習装置、その方法、及びプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、指令列推定装置は、観測F₀軌跡と、その観測F₀軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。

上記の課題を解決するために、本発明の他の態様によれば、指令列推定装置が実行する指令列推定方法は、観測F₀軌跡と、その観測F₀軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。

本発明によれば、藤崎モデル指令列推定の推定精度を向上させることができるという効果を奏する。

従来技術に係る指令列推定装置の機能ブロック図。第一実施形態に係る指令列推定装置の機能ブロック図。第一実施形態に係る指令列推定装置の処理フローの例を示す図。藤崎モデルの対数F₀軌跡とフレーズ成分、アクセント成分との関係を示す図。フレーズ指令、アクセント指令に対する制約を表現する状態遷移ネットワークを示す図。 HMMの状態を分割した例を示す図。第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。第一実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。第二実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
本実施形態では、言語情報(言語特徴量)を活用し、F₀軌跡の生成モデルを定式化する。これにより、観測F₀軌跡と言語特徴量を活用し、藤崎モデル指令列の推定を行うことができる。観測F₀軌跡のみでなく、言語特徴量を考慮することで、より精度の高い藤崎モデル指令列推定を可能とする。

従来研究におけるF₀パターン生成過程の確率モデルに、新たにHMM状態から言語特徴量系列の生成過程のモデルを追加し、一体モデル化する。HMM状態から言語特徴量系列の生成過程のモデルとして、各時刻で言語特徴量系列を入力、HMM状態番号の事後確率を出力とするDNNを使用する。以上の定式化から、観測F₀軌跡のみでなく、言語特徴量も考慮した藤崎モデル指令列推定が可能となると同時に、従来研究（非特許文献４参照)と同様に、Viterbiアルゴリズムと補助関数法を利用したパラメータ推定アルゴリズムを導出することができる。結果、藤崎モデル指令列の推定精度が向上する。

＜第一実施形態に係る指令列推定装置１１０＞
図２は本実施形態に係る指令列推定装置１１０の機能ブロック図を、図３はその処理フローの例を示す。

指令列推定装置１１０は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。

指令列推定装置１１０は、指令列推定部１１１を含む。

指令列推定部１１１を説明する前にまず用語の説明を行う。

（用いる用語の説明）
観測F₀軌跡：F₀とは、声の高さ（ピッチ）に対応する、各フレームに対し実数で表現される情報である。入力された音声のフレーム数をKとしたとき、y=(y[0],y[1],…,y[K-1])で表記する。例えば、入力音声波形に対し、信号処理を施すことにより獲得する。
推定フレーズ指令列：指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。u_p[0],u_p[1],…,u_p[K-1]で表現する。
推定アクセント指令列：指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。u_a[0]_,u_a[1],…,u_a[K-1]で表現する。
推定藤崎モデル指令列：指令列推定により出力される、藤崎モデル指令列の推定結果である。推定フレーズ指令列、推定アクセント指令列からなる。u_i=(u_i[0],u_i[1],…,_,u_i[K-1])(i=p,a)で表現する。
言語特徴量系列：観測F₀軌跡に対応する、発音等の情報。音素情報とアクセント情報を含む。各音素の開始時間、終了時間の情報が保存されている。これ以外にも、品詞情報や統語構造の情報を含んでいてもよい。w=(w[0],w[1],…,w[K-1])で表現する。
言語特徴量データ：複数の発話について、それぞれの言語特徴量系列を保持したもの。データ中の発話数をNとしたとき、{w₀,w₁,…,w_N-1}で表現する。
HMM状態系列：言語特徴量系列に対応する発話について、各時刻の藤崎モデル状態の状態番号の系列である。フレーム数をKとしたとき、s=(s[0],s[1],…,s[K-1])で表現する。ここで、HMMの全状態数をIとし、s[k]=i(i=0,1,…,I-1)とする。
HMM状態データ：言語特徴量データに対応する複数の発話について、それぞれの各時刻の藤崎モデル状態の状態番号を保持したもの。データ中の発話数をNとしたとき、{s₀,s₁,…,s_N-1}で表現する。
状態系列推定モデル：状態推定DNNと、状態事前分布モデルからなる。
状態推定DNN：言語特徴量から、各時刻で対応するHMM状態番号の事後確率を推定するDNNである。事後確率p(s[k]|w[k])のモデル化に使用する。
状態事前分布モデル：各HMM状態s=0,1,…,I-1について、その事前分布p(s)の値を保持したモデルである。p(s[k])のモデル化に使用する。

以下、指令列推定部１１１の処理内容について説明する。

＜指令列推定部１１１＞
指令列推定部１１１は、藤崎モデル指令列の推定に先立ち、状態系列推定モデルを受け取る。指令列推定部１１１は、観測F₀軌跡yと言語特徴量系列wとを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し（Ｓ１１１）、推定結果を推定藤崎モデル指令列u_iとして出力する。

(F₀軌跡の確率モデル化(非特許文献１−４参照))
まずは、本実施形態で使用するF₀軌跡の確率モデルを定式化する。藤崎モデルは、対数F₀軌跡y(t)を以下の3つの成分の和

で表すモデルである。ここで、tは時刻、x_p(t)はフレーズ成分、x_a(t)はアクセント成分であり、x_bはベースライン成分と呼ぶ時間に依らない定数である。図４は藤崎モデルの対数F₀軌跡y(t)とフレーズ成分x_p(t)、アクセント成分x_a(t)との関係を示す。さらに、フレーズ成分x_p(t)、アクセント成分x_a(t)はそれぞれ、フレーズ指令u_p(t)、アクセント指令u_a(t)と呼ばれる信号の2次のフィルタG_p(t),G_a(t)の出力

であると仮定される。ここで、フレーズ指令u_p(t)はパルス列であり、アクセント指令u_a(t)は矩形パルス列である(図４参照)。例えば、フレーズ指令u_p(t)はパルス列の開始時刻と振幅を示す情報とにより表現し、アクセント指令u_a(t)は矩形パルス列の開示時刻と終了時刻(または持続時間)と振幅を示す情報とにより表現してもよい。これらフレーズ指令u_p(t),アクセント指令u_a(t)のうち、非ゼロの値を取るのは各時刻で高々一つである。α，βはそれぞれ二次フィルタの応答の速さを表す角周波数であり、個人や発話に依らずおよそα=3rad/s，β=20rad/s程度の値をとることが知られている。

上述の藤崎モデルにおいて、フレーズ指令u_p(t)、アクセント指令u_a(t)はそれぞれのデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献１−４の手法の中心的なアイディアは、フレーズ指令u_p(t)、アクセント指令u_a(t)の生成プロセスを隠れマルコフモデル（hidden Markov model;HMM）により表現した点にある。フレーム時刻のインデックスをkとし、フレーズ指令u_p[k]、アクセント指令u_a[k]のペアを出力値o[k]=(u_p[k],u_a[k])^Tとする。ただし、^Tは転置を表す。各状態の出力分布を正規分布とした場合、出力系列{o[k]}^K _k=1は、

に従う。ここで、s[k]は時刻kにおける状態を表す。すなわち、式(6)は平均ρ[k]=(μ_p[k],μ_a[k])^T=c_s[k][k]と分散Σ[k]=Υ_s[k]=diag(σ_p,k ²,σ_a,k ²)が状態遷移の結果として時間と共に変化することを意味する。μ_p[k],σ_p,k ²はそれぞれフレーズ指令u_p[k]の出力分布(正規分布)の平均、分散であり、μ_a[k],σ_a,k ²はそれぞれアクセント指令u_a[k]の出力分布(正規分布)の平均、分散である。HMMの利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令u_p[k]、アクセント指令u_a[k]に対する先述の制約は、例えば図５のような状態遷移ネットワークによって表現できる(非特許文献４参照)。状態p₀はフレーズ指令u_p[k]のみ活性化した状態、a_n(n=0,1,…,N-1)はアクセント指令u_a[k]のみ活性化した状態、r_i(i=0,1)はどちらの指令も活性化していない状態をそれぞれ表す。図の矢印で表現される経路の制限により、フレーズ指令u_p[k]がインパルス状に活性化し、アクセント指令u_a[k]が矩形パルス列状に活性化するように誘導されている。加えて、それぞれの状態を同じ出力分布を持ったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。図６に状態a_nを分割した例が示されている(非特許文献４参照)。例えばこの図のように全てのm≠0に対してa_n,mからa_n,m+1への状態遷移確率を1に設定することで、a_n,0からa_n,mへの遷移確率が状態a_nがmステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp₀も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。

ここまでのHMMの定式化は従来研究（非特許文献４参照)と同様である。本実施形態では、さらに、HMM状態系列sから、言語特徴量系列wの生成確率p(w|s)をモデル化し、統合する。

(言語特徴量のモデルとの統合)
本実施形態では、状態系列sから言語特徴量系列wが生成される過程は、各時刻kで独立であると仮定し、定式化する。

ここで、p(w[k])は定数とおく。p(s[k]|w[k])は、DNNによりモデル化することができる。具体的には、各時刻kでw[k]を入力、HMM状態番号s[k]の事後確率p(s[k]|w[k])を出力とするDNNを構成することで、モデル化することができる。p(s[k])は、HMM状態番号の事前分布であり、例えばHMM状態データ内の各状態番号の相対頻度を使用する。

以上から、本実施形態におけるHMMの構成は以下となる。

上記のHMMから出力されたo[k]=(u_p[k],u_a[k])^Tに含まれる指令関数u_p[k],u_a[k]にそれぞれ異なるフィルタG_p[k]とG_a[k]が畳み込まれたものがフレーズ成分とアクセント成分

となる。ただし、*はフレーム時刻kに関する畳み込みを表す。また、G_p[k]とG_a[k]はそれぞれG_p(t)とG_a(t)の離散時間表現である。以上より、F₀軌跡の離散時間表現x[k]は

となる。x_bはベースライン成分を表す。無声区間においては、F₀は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F₀抽出において推定誤りが生じる場合もある。そこで観測F₀パターンy[k]を、上述のF₀パターンモデルx[k]とノイズx_n[k]〜N(0,v² _n[k])の和として表すことで、観測F₀パターンy[k]の不確実性を分散v² _n[k]の設定を通して組み込むことができる。すなわち、観測F₀パターンy[k]を

と表現することで、信頼のおける区間かどうかに関わらず、すべての観測区間を統一的に扱うことができる。

ここで、ノイズx_n[k]を周辺化すると、出力系列o={o[k]}^K-1 _k=0が与えられたもとでの観測F₀軌跡y={y[k]}^K-1 _k=0の条件付き確率密度関数p(y|o)は、

となる。式(6)より、状態系列s={s[k]}^K-1 _k=0が与えられたもとでの出力系列o={o[k]}^K-1 _k=0の条件付き確率密度関数p(o|s)は、

で与えられる。状態系列sの確率分布p(s)はHMMにおけるマルコフ性の仮定より、遷移確率φ_s[k-1],s[k]の積

で与えられる。なお、π_s[0]は初期状態確率である。

以上より、提案モデルは、

の形で表現することができる。p(y|o),p(o|s),p(s)については従来のF₀軌跡の確率モデル化（非特許文献４参照)と同様の定式化により、また、p(w|s)については、後述する状態系列推定モデル学習装置１２０により言語特徴量データ、HMM状態データからモデルを学習し、使用する。

(藤崎モデルパラメータ推定アルゴリズム)
本実施形態では、観測F₀系列y={y[k]}^K-1 _k=0と言語特徴量系列w={w[k]}^K-1 _k=0が与えられたときの状態出力系列o={o[k]}^K-1 _k=0と状態系列s={s[k]}^K-1 _k=0の同時事後確率

を最大化する状態出力系列oと状態系列sを、求めることで、藤崎モデルパラメータの推定を行うことができる。アルゴリズムは、状態出力系列oを固定した上でlogp(y_,o_,w_,s)が最大となるように状態系列sを更新するステップと、状態系列sを固定した上でlogp(y_,o_,w_,s)が増大するように状態出力系列oを非負値制約下で更新するステップを反復することで探索する。

アルゴリズムは下記の通りである。
1.観測F₀系列yから、状態出力系列oの初期値を得る。初期値を得る方法としては様々な方法が考えられるが、例えば、非特許文献１や非特許文献４の手法により状態出力系列oの初期値を得ることができる。なお、初期値の取得方法については、既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよいため、ここでは説明を省略する。
2.各時刻k、各状態s[k]について、wの出力確率分布p(w[k]|s[k])を式(9)により算出する。

3.後述する式(17)〜(24)により、状態系列sを更新する。
4.後述する式(25)〜(28)により、状態出力系列(指令列系列)oを更新する。
5.上述の3.及び4.を一定回数反復し、得られた指令列系列o=({u_p[0]_,u_p[1]_,…_,u_p[K-1]}_,{u_a[0]_,u_a[1]_,…_,u_a[K-1]})を推定藤崎モデル指令列として出力する。

以下、状態系列s及び状態出力系列oを更新する方法を説明する。

(状態系列sの更新ステップ)
状態出力系列oを固定した上で、logp(y_,o_,w_,s)が最大となるように、状態系列sを更新するステップである。logp(y_,o_,w_,s)=logp(y|o)+logp(o|s)+logp(w|s)+logp(s)で状態系列sに依存する項はlogp(o|s)+logp(w|s)+logp(s)であるため、logp(y_,o_,w_,s)を最大化する状態系列sを求める問題は、o_,wを出力系列としたHMMの状態系列探索問題と同型である。したがってViterbiアルゴリズムを用いて解決することができる。下記にアルゴリズムを示す。

(Viterbiアルゴリズム)
1.初期化

2.導出過程

3.結果

4.状態系列のバックトラック

得られた{s[k]^*}を状態系列s^*として更新する。

(状態出力系列oの更新ステップ)
状態系列sを固定した上で、logp(y_,o_,s)が最大となるように状態出力系列oを更新するステップである。本ステップは、非特許文献４と同一であるため、導出過程は省略し、更新式のみを記載する。

ただし、l=0,1,…,K-1であり、C^(p)[k]_,C^(a) _nはそれぞれフレーズ指令、アクセント指令の状態出力分布（正規分布）の平均パラメータである。また、T_nは、s[k]=a_nであるようなkの集合T_n={k|s[k]=a_n}を表し、|T_n|はその集合の要素数を表す。

次に、式(19),(20)等で用いるp(w[k]|s[k])を求める際に用いる事後確率p(s[k]|w[k])(式(7),(8)参照)を出力とするDNNを学習する状態系列推定モデル学習装置１２０について説明する。

＜第一実施形態に係る状態系列推定モデル学習装置１２０＞
図７は状態系列推定モデル学習装置１２０の機能ブロック図を、図８はその処理フローの例を示す図である。

状態系列推定モデル学習装置１２０は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。

状態系列推定モデル学習装置１２０は、モデル学習部１２１を含む。

＜モデル学習部１２１＞
モデル学習部１２１は、言語特徴量データ{w₀,w₁,…,w_N-1}(複数の学習用言語特徴量系列wとも言う)及びHMM状態データ{s₀,s₁,…,s_N-1}(複数の学習用HMM状態系列sとも言う)を入力とし、これらのデータを用いて、状態系列推定モデルを学習し（Ｓ１２１）、出力する。状態系列推定モデルのうち、状態推定DNNについては、言語特徴量データ{w₀,w₁,…,w_N-1}、HMM状態データ{s₀,s₁,…,s_N-1}の組を使用し、言語特徴量wから、各時刻kでHMM状態番号sの事後確率p(s|w)を推定するDNNを学習する。例えば、学習のアルゴリズムは、音声認識等で一般に使用される識別DNNの学習アルゴリズムと同様のものを使用することができる。HMM状態データ{s₀,s₁,…,s_N-1}として、人手による藤崎モデル指令列推定の正解ラベルを与え、使用する。または、非特許文献１−４のアルゴリズムにより、観測F₀軌跡データ{y₀,y₁,…,y_N-1}から自動推定される結果を使用してもよい。

状態系列推定モデルのうち、状態事前分布モデルを得るため、例えば、HMM状態データ{s₀,s₁,…,s_N-1}を用いて、下記のように全HMM状態データの中の、各HMM状態の相対頻度をp(s=i)として定めることができる。

ここで、n番目の発話中のk番目の時刻フレームのHMM状態番号を、s_n,kで表し、

とした。

＜効果＞
このような構成により、状態系列推定モデル学習装置１２０は、読み、アクセント等の言語特徴量を入力とし、非特許文献４におけるHMM状態の事後確率を出力とするDNNを構成する。指令列推定装置１１０は、このDNNが出力する事後確率系列を、従来研究のHMM状態デコード時に使用することで、観測F₀軌跡と言語特徴量系列の双方を考慮した藤崎モデル指令列系列を推定することができ、藤崎モデル指令列推定の推定精度を向上させることができる。

＜第二実施形態のポイント＞
第一実施形態において、例えば、HMM状態データを用意する方法として、人手による正解ラベルを使用する方法がある。しかし、人手に依る正解ラベルの付与は、専門家による作業が必要であり、高コストである。そこで、従来研究（非特許文献１−３参照)により、観測F₀軌跡から推定された藤崎モデル指令列に対応するHMM状態系列を教師データとし、DNNの学習を行うことが考えられる。一方で、従来研究（非特許文献１−３参照)による藤崎モデル指令列の推定結果には、推定誤りが含まれる場合がある。推定結果に誤りを含むデータ(推定された藤崎モデル指令列に対応するHMM状態系列)をDNN学習の教師データとして使用する場合、その教師データから学習されたDNNから出力される事後確率系列の精度は一般に低下する。そのため、第一実施形態による藤崎モデル指令列推定精度もまた、低下する可能性がある。

以上から、第一実施形態を低コストに実施し、かつ藤崎モデルの指令列推定精度を高めるための要因の一つに、精度の高いDNNの学習があり、そのためには、精度の高いDNNの教師データが必要である。

第二実施形態では、より精度の高いDNN学習の教師データを得るため、観測F₀軌跡のみから推定を行う従来研究（非特許文献１−３参照)ではなく、観測F₀軌跡と言語特徴量の双方を使用した推定を行う、第一実施形態の手法を用いる。これにより、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。

＜第二実施形態＞
第一実施形態と異なる部分を中心に説明する。

状態系列推定モデル学習装置の構成が第一実施形態とは異なる。

状態系列推定モデル学習装置２２０を説明する前に改めて用語の説明を行う。

なお、指令列推定装置１１０の構成は第一実施形態と同じだが、状態系列推定モデルに代えて、後述する再学習状態系列推定モデルを用いる点が第一実施形態とは異なる。

（用いる用語の説明）
観測F₀軌跡データ：言語特徴量データに対応する複数の発話について、それぞれの観測F₀の値を保持したもの。データ中の発話数をNとしたとき、{y_0,y_1,…_,y_N-1}で表現する。
推定HMM状態データ：観測F₀軌跡データ中の各発話について、それぞれ第一実施形態の指令列推定を行い、推定された推定藤崎モデル指令列に対応するHMM状態系列を保持したもの。つまり、状態系列sと状態出力系列oの更新を一定回数反復し、得られた状態系列sである。データ中の発話数をNとしたとき、{s^e _0,s^e _1,…_,s^e _N-1}で表現する。
再学習状態系列推定モデル：推定HMM状態データ{s^e _0,s^e _1,…_,s^e _N-1}と言語特徴量データ{w₀,w₁,…,w_N-1}を使用し、再度学習された状態系列推定モデル。

＜第二実施形態に係る状態系列推定モデル学習装置２２０＞
図９は状態系列推定モデル学習装置２２０の機能ブロック図を、図１０はその処理フローの例を示す図である。

状態系列推定モデル学習装置２２０は、指令列推定部２１１とモデル学習部１２１とを含む。

指令列推定部２１１は、第一実施形態の指令列推定部１１１と同様の構成である。但し、言語特徴量系列w、観測F₀軌跡yに代えてそれぞれ言語特徴量データ{w₀,w₁,…,w_N-1}、観測F₀軌跡データ{y_0,y_1,…_,y_N-1}(複数の学習用観測F₀軌跡ともいう)を入力とし、推定藤崎モデル指令列u_iに代えて、推定HMM状態データ{s^e _0,s^e _1,…_,s^e _N-1}を出力する。よって、指令列推定部２１１は、言語特徴量データ{w₀,w₁,…,w_N-1}及び観測F₀軌跡データ{y_0,y_1,…_,y_N-1}を入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し（Ｓ２１１）、推定藤崎モデル指令列に対応する(換言すると、推定藤崎モデル指令列推定時の)推定HMM状態データ{s^e _0,s^e _1,…_,s^e _N-1}を出力する。

モデル学習部１２１は、第一実施形態のモデル学習部１２１と同様の構成であり、同様の処理（Ｓ１２１）を行う。ただし、HMM状態データ｛s_0,s_1,…_,s_N-1｝ではなく、推定HMM状態データ{s^e _0,s^e _1,…_,s^e _N-1}を使用する点が異なる。

このような構成により、観測F₀軌跡データの各発話の観測F₀軌跡{y_0,y_1,…_,y_N-1}に対し、第一実施形態の指令列推定を実施し、推定結果から、各時刻のHMM状態番号s^e _n,k(n=0,1,…,N-1、k=0,1,…,K-1)を得る。これらを推定HMM状態データ{s^e _0,s^e _1,…_,s^e _N-1}として保持し、モデル学習部１２１において状態系列推定モデル学習に使用する。

＜効果＞
このような構成により、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

観測F₀軌跡と、その観測F₀軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置。
請求項１で用いられる状態推定DNNを学習する状態系列推定モデル学習装置であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習部を含む、
状態系列推定モデル学習装置。
請求項２の状態系列推定モデル学習装置であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F₀軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定部を含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習装置。
観測F₀軌跡と、その観測F₀軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置が実行する指令列推定方法。
請求項４で用いられる状態推定DNNを学習する状態系列推定モデル学習方法であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習ステップを含む、
状態系列推定モデル学習装置が実行する状態系列推定モデル学習方法。
請求項５の状態系列推定モデル学習方法であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F₀軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定ステップを含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習方法。
請求項１の指令列推定装置、または、請求項２若しくは請求項３の状態系列推定モデル学習装置として、コンピュータを機能させるためのプログラム。