JP6662801B2 - 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム - Google Patents

指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム Download PDF

Info

Publication number
JP6662801B2
JP6662801B2 JP2017033606A JP2017033606A JP6662801B2 JP 6662801 B2 JP6662801 B2 JP 6662801B2 JP 2017033606 A JP2017033606 A JP 2017033606A JP 2017033606 A JP2017033606 A JP 2017033606A JP 6662801 B2 JP6662801 B2 JP 6662801B2
Authority
JP
Japan
Prior art keywords
state
model
sequence
estimation
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017033606A
Other languages
English (en)
Other versions
JP2018138972A (ja
Inventor
伸克 北条
伸克 北条
勇祐 井島
勇祐 井島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017033606A priority Critical patent/JP6662801B2/ja
Publication of JP2018138972A publication Critical patent/JP2018138972A/ja
Application granted granted Critical
Publication of JP6662801B2 publication Critical patent/JP6662801B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声の基本周波数パターンから基本周波数パターン生成過程モデルのパラメータを推定する信号処理技術に関する。
音声には言語情報以外にも様々な情報(以下、非言語情報ともいう)が含まれており、日常的なコミュニケーションに利用される。非言語情報を工学的に扱う枠組みを構築し、非言語情報を解析、合成するための情報処理と信号処理が研究されている。音声の基本周波数(以下、F0ともいう)軌跡には、話者性、感情、意図などの非言語情報が豊富に含まれることが知られている。このため、F0軌跡のモデル化は、音声合成、話者認識、感情認識、対話システムなど、韻律情報が重要な役割を担う応用において極めて有効である。F0軌跡は、韻律句全体にわたってゆるやかに変化する成分(フレーズ成分)と、アクセントに従って急峻に変化する成分(アクセント成分)により構成される。これらの成分は、ヒトの甲状軟骨の並進運動と回転運動にそれぞれ対応していると解釈できるが、この解釈に基づき対数F0軌跡をこれらの成分の和で表した数学的なモデル(以後、藤崎モデルともいう)が提案されている。藤崎モデルは、フレーズ指令、アクセント指令の生起時刻、持続時間、各指令の大きさなどをパラメータとして有し、これらが適切に設定されたとき実測のF0軌跡を非常によく近似することが知られている。また、パラメータの言語学的対応の妥当性も広く確認されている。先述の藤崎モデルのパラメータは、韻律的特徴を効率よく表現できるため、実測のF0軌跡から藤崎モデルのパラメータを高精度に推定することができれば有用である。これまで、藤崎モデルをベースとしたF0パターンの確率的生成過程がモデル化されており、藤崎モデルの最尤パラメータをExpectation-Maximization(EM)アルゴリズム(非特許文献1−3参照)、補助関数法(非特許文献4参照)によりそれぞれ推定する手法が提案されている。従来技術の指令列推定装置90は、推定したパラメータを用いて観測F0軌跡から、対応する藤崎モデル指令列を推定し、推定藤崎モデル指令列として出力する(図1参照)。
H. Kameoka, J. L. Roux, and Y. Ohishi, "A statistical imodel of speech F0 contours", in Proc. SAPA,2010, pp. 43-48. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Statistical approach to fujisaki-model parameter estimation from speech signals and its quantitative evaluation", in Proc. Speech Prosody 2012, 2012, pp. 175-178. K. Yoshizato, H. Kameoka, D. Saito, and S. Sagayama, "Hidden Markov convolutive mixture model for pitch contour analysis of speech", in Proc. The 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Sep. 2012. 佐藤遼太郎,亀岡弘和,柏野邦夫,「基本周波数パターンと音韻特徴量系列の同時生成モデルによる韻律指令列推定」,研究報告音声言語情報処理(SLP),2016,pp.1-6.
藤崎モデル指令列は、言語特徴量(音素、アクセント型など)と対応づけられる情報であることが確認されている。例えば、フレーズ句の先頭時刻付近では、フレーズ指令が立ちやすいという傾向がある。また、アクセント核付近では、アクセント指令が立ちやすいという傾向がある。そこで、観測F0軌跡から藤崎モデル指令列を推定するとき、観測F0軌跡に対応する言語特徴量が得られる場合、藤崎モデル指令列推定の精度を向上させるために、言語特徴量が有効な手がかりとなり得る。
しかしながら、従来手法(非特許文献1−4参照)は、観測F0軌跡のみから藤崎モデル指令列を推定しようというものであり、言語特徴量は考慮されない。
本発明は、言語特徴量を考慮し、観測F0軌跡と言語特徴量とから藤崎モデル指令列を推定することで、藤崎モデル指令列推定の推定精度を向上させる指令列推定装置、その指令列推定装置において用いられる状態系列推定モデルを学習する状態系列推定モデル学習装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、指令列推定装置は、観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、 状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。
上記の課題を解決するために、本発明の他の態様によれば、指令列推定装置が実行する指令列推定方法は、観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである。
本発明によれば、藤崎モデル指令列推定の推定精度を向上させることができるという効果を奏する。
従来技術に係る指令列推定装置の機能ブロック図。 第一実施形態に係る指令列推定装置の機能ブロック図。 第一実施形態に係る指令列推定装置の処理フローの例を示す図。 藤崎モデルの対数F0軌跡とフレーズ成分、アクセント成分との関係を示す図。 フレーズ指令、アクセント指令に対する制約を表現する状態遷移ネットワークを示す図。 HMMの状態を分割した例を示す図。 第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。 第一実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。 第一実施形態に係る状態系列推定モデル学習装置の機能ブロック図。 第二実施形態に係る状態系列推定モデル学習装置の処理フローの例を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本実施形態では、言語情報(言語特徴量)を活用し、F0軌跡の生成モデルを定式化する。これにより、観測F0軌跡と言語特徴量を活用し、藤崎モデル指令列の推定を行うことができる。観測F0軌跡のみでなく、言語特徴量を考慮することで、より精度の高い藤崎モデル指令列推定を可能とする。
従来研究におけるF0パターン生成過程の確率モデルに、新たにHMM状態から言語特徴量系列の生成過程のモデルを追加し、一体モデル化する。HMM状態から言語特徴量系列の生成過程のモデルとして、各時刻で言語特徴量系列を入力、HMM状態番号の事後確率を出力とするDNNを使用する。以上の定式化から、観測F0軌跡のみでなく、言語特徴量も考慮した藤崎モデル指令列推定が可能となると同時に、従来研究(非特許文献4参照)と同様に、Viterbiアルゴリズムと補助関数法を利用したパラメータ推定アルゴリズムを導出することができる。結果、藤崎モデル指令列の推定精度が向上する。
<第一実施形態に係る指令列推定装置110>
図2は本実施形態に係る指令列推定装置110の機能ブロック図を、図3はその処理フローの例を示す。
指令列推定装置110は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
指令列推定装置110は、指令列推定部111を含む。
指令列推定部111を説明する前にまず用語の説明を行う。
(用いる用語の説明)
観測F0軌跡:F0とは、声の高さ(ピッチ)に対応する、各フレームに対し実数で表現される情報である。入力された音声のフレーム数をKとしたとき、y=(y[0],y[1],…,y[K-1])で表記する。例えば、入力音声波形に対し、信号処理を施すことにより獲得する。
推定フレーズ指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。up[0],up[1],…,up[K-1]で表現する。
推定アクセント指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。ua[0],ua[1],…,ua[K-1]で表現する。
推定藤崎モデル指令列:指令列推定により出力される、藤崎モデル指令列の推定結果である。推定フレーズ指令列、推定アクセント指令列からなる。ui=(ui[0],ui[1],…,,ui[K-1])(i=p,a)で表現する。
言語特徴量系列:観測F0軌跡に対応する、発音等の情報。音素情報とアクセント情報を含む。各音素の開始時間、終了時間の情報が保存されている。これ以外にも、品詞情報や統語構造の情報を含んでいてもよい。w=(w[0],w[1],…,w[K-1])で表現する。
言語特徴量データ:複数の発話について、それぞれの言語特徴量系列を保持したもの。データ中の発話数をNとしたとき、{w0,w1,…,wN-1}で表現する。
HMM状態系列:言語特徴量系列に対応する発話について、各時刻の藤崎モデル状態の状態番号の系列である。フレーム数をKとしたとき、s=(s[0],s[1],…,s[K-1])で表現する。ここで、HMMの全状態数をIとし、s[k]=i(i=0,1,…,I-1)とする。
HMM状態データ:言語特徴量データに対応する複数の発話について、それぞれの各時刻の藤崎モデル状態の状態番号を保持したもの。データ中の発話数をNとしたとき、{s0,s1,…,sN-1}で表現する。
状態系列推定モデル:状態推定DNNと、状態事前分布モデルからなる。
状態推定DNN:言語特徴量から、各時刻で対応するHMM状態番号の事後確率を推定するDNNである。事後確率p(s[k]|w[k])のモデル化に使用する。
状態事前分布モデル:各HMM状態s=0,1,…,I-1について、その事前分布p(s)の値を保持したモデルである。p(s[k])のモデル化に使用する。
以下、指令列推定部111の処理内容について説明する。
<指令列推定部111>
指令列推定部111は、藤崎モデル指令列の推定に先立ち、状態系列推定モデルを受け取る。指令列推定部111は、観測F0軌跡yと言語特徴量系列wとを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し(S111)、推定結果を推定藤崎モデル指令列uiとして出力する。
(F0軌跡の確率モデル化(非特許文献1−4参照))
まずは、本実施形態で使用するF0軌跡の確率モデルを定式化する。藤崎モデルは、対数F0軌跡y(t)を以下の3つの成分の和
Figure 0006662801
で表すモデルである。ここで、tは時刻、xp(t)はフレーズ成分、xa(t)はアクセント成分であり、xbはベースライン成分と呼ぶ時間に依らない定数である。図4は藤崎モデルの対数F0軌跡y(t)とフレーズ成分xp(t)、アクセント成分xa(t)との関係を示す。さらに、フレーズ成分xp(t)、アクセント成分xa(t)はそれぞれ、フレーズ指令up(t)、アクセント指令ua(t)と呼ばれる信号の2次のフィルタGp(t),Ga(t)の出力
Figure 0006662801
であると仮定される。ここで、フレーズ指令up(t)はパルス列であり、アクセント指令ua(t)は矩形パルス列である(図4参照)。例えば、フレーズ指令up(t)はパルス列の開始時刻と振幅を示す情報とにより表現し、アクセント指令ua(t)は矩形パルス列の開示時刻と終了時刻(または持続時間)と振幅を示す情報とにより表現してもよい。これらフレーズ指令up(t),アクセント指令ua(t)のうち、非ゼロの値を取るのは各時刻で高々一つである。α,βはそれぞれ二次フィルタの応答の速さを表す角周波数であり、個人や発話に依らずおよそα=3rad/s,β=20rad/s程度の値をとることが知られている。
上述の藤崎モデルにおいて、フレーズ指令up(t)、アクセント指令ua(t)はそれぞれのデルタ列、矩形パルス列であり、さらにこれらは互いに重ならないという仮定が置かれる。非特許文献1−4の手法の中心的なアイディアは、フレーズ指令up(t)、アクセント指令ua(t)の生成プロセスを隠れマルコフモデル(hidden Markov model;HMM)により表現した点にある。フレーム時刻のインデックスをkとし、フレーズ指令up[k]、アクセント指令ua[k]のペアを出力値o[k]=(up[k],ua[k])Tとする。ただし、Tは転置を表す。各状態の出力分布を正規分布とした場合、出力系列{o[k]}K k=1は、
Figure 0006662801
に従う。ここで、s[k]は時刻kにおける状態を表す。すなわち、式(6)は平均ρ[k]=(μp[k],μa[k])T=cs[k][k]と分散Σ[k]=Υs[k]=diag(σp,k 2a,k 2)が状態遷移の結果として時間と共に変化することを意味する。μp[k],σp,k 2はそれぞれフレーズ指令up[k]の出力分布(正規分布)の平均、分散であり、μa[k],σa,k 2はそれぞれアクセント指令ua[k]の出力分布(正規分布)の平均、分散である。HMMの利点は、状態遷移ネットワークの設計を通してモデル化したい系列に対して課すべき制約を柔軟に設けられる点にある。フレーズ指令up[k]、アクセント指令ua[k]に対する先述の制約は、例えば図5のような状態遷移ネットワークによって表現できる(非特許文献4参照)。状態p0はフレーズ指令up[k]のみ活性化した状態、an(n=0,1,…,N-1)はアクセント指令ua[k]のみ活性化した状態、ri(i=0,1)はどちらの指令も活性化していない状態をそれぞれ表す。図の矢印で表現される経路の制限により、フレーズ指令up[k]がインパルス状に活性化し、アクセント指令ua[k]が矩形パルス列状に活性化するように誘導されている。加えて、それぞれの状態を同じ出力分布を持ったいくつかの小状態に分割することで自己遷移の持続長をパラメータ化することもできる。図6に状態anを分割した例が示されている(非特許文献4参照)。例えばこの図のように全てのm≠0に対してan,mからan,m+1への状態遷移確率を1に設定することで、an,0からan,mへの遷移確率が状態anがmステップだけ持続する確率に対応し、アクセント指令の持続長を柔軟に制御できるようになる。同様にp0も小状態に分割することで、フレーズ指令の持続長と指令間の間隔の長さの分布をパラメータ化することが可能になる。
ここまでのHMMの定式化は従来研究(非特許文献4参照)と同様である。本実施形態では、さらに、HMM状態系列sから、言語特徴量系列wの生成確率p(w|s)をモデル化し、統合する。
(言語特徴量のモデルとの統合)
本実施形態では、状態系列sから言語特徴量系列wが生成される過程は、各時刻kで独立であると仮定し、定式化する。
Figure 0006662801
ここで、p(w[k])は定数とおく。p(s[k]|w[k])は、DNNによりモデル化することができる。具体的には、各時刻kでw[k]を入力、HMM状態番号s[k]の事後確率p(s[k]|w[k])を出力とするDNNを構成することで、モデル化することができる。p(s[k])は、HMM状態番号の事前分布であり、例えばHMM状態データ内の各状態番号の相対頻度を使用する。
以上から、本実施形態におけるHMMの構成は以下となる。
Figure 0006662801
上記のHMMから出力されたo[k]=(up[k],ua[k])Tに含まれる指令関数up[k],ua[k]にそれぞれ異なるフィルタGp[k]とGa[k]が畳み込まれたものがフレーズ成分とアクセント成分
Figure 0006662801
となる。ただし、*はフレーム時刻kに関する畳み込みを表す。また、Gp[k]とGa[k]はそれぞれGp(t)とGa(t)の離散時間表現である。以上より、F0軌跡の離散時間表現x[k]は
Figure 0006662801
となる。xbはベースライン成分を表す。無声区間においては、F0は観測されないことがあったり、観測されていたとしても信頼できない場合がある。また、F0抽出において推定誤りが生じる場合もある。そこで観測F0パターンy[k]を、上述のF0パターンモデルx[k]とノイズxn[k]〜N(0,v2 n[k])の和として表すことで、観測F0パターンy[k]の不確実性を分散v2 n[k]の設定を通して組み込むことができる。すなわち、観測F0パターンy[k]を
Figure 0006662801
と表現することで、信頼のおける区間かどうかに関わらず、すべての観測区間を統一的に扱うことができる。
ここで、ノイズxn[k]を周辺化すると、出力系列o={o[k]}K-1 k=0が与えられたもとでの観測F0軌跡y={y[k]}K-1 k=0の条件付き確率密度関数p(y|o)は、
Figure 0006662801
となる。式(6)より、状態系列s={s[k]}K-1 k=0が与えられたもとでの出力系列o={o[k]}K-1 k=0の条件付き確率密度関数p(o|s)は、
Figure 0006662801
で与えられる。状態系列sの確率分布p(s)はHMMにおけるマルコフ性の仮定より、遷移確率φs[k-1],s[k]の積
Figure 0006662801
で与えられる。なお、πs[0]は初期状態確率である。
以上より、提案モデルは、
Figure 0006662801
の形で表現することができる。p(y|o),p(o|s),p(s)については従来のF0軌跡の確率モデル化(非特許文献4参照)と同様の定式化により、また、p(w|s)については、後述する状態系列推定モデル学習装置120により言語特徴量データ、HMM状態データからモデルを学習し、使用する。
(藤崎モデルパラメータ推定アルゴリズム)
本実施形態では、観測F0系列y={y[k]}K-1 k=0と言語特徴量系列w={w[k]}K-1 k=0が与えられたときの状態出力系列o={o[k]}K-1 k=0と状態系列s={s[k]}K-1 k=0の同時事後確率
Figure 0006662801
を最大化する状態出力系列oと状態系列sを、求めることで、藤崎モデルパラメータの推定を行うことができる。アルゴリズムは、状態出力系列oを固定した上でlogp(y,o,w,s)が最大となるように状態系列sを更新するステップと、状態系列sを固定した上でlogp(y,o,w,s)が増大するように状態出力系列oを非負値制約下で更新するステップを反復することで探索する。
アルゴリズムは下記の通りである。
1.観測F0系列yから、状態出力系列oの初期値を得る。初期値を得る方法としては様々な方法が考えられるが、例えば、非特許文献1や非特許文献4の手法により状態出力系列oの初期値を得ることができる。なお、初期値の取得方法については、既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよいため、ここでは説明を省略する。
2.各時刻k、各状態s[k]について、wの出力確率分布p(w[k]|s[k])を式(9)により算出する。
Figure 0006662801
3.後述する式(17)〜(24)により、状態系列sを更新する。
4.後述する式(25)〜(28)により、状態出力系列(指令列系列)oを更新する。
5.上述の3.及び4.を一定回数反復し、得られた指令列系列o=({up[0],up[1],,up[K-1]},{ua[0],ua[1],,ua[K-1]})を推定藤崎モデル指令列として出力する。
以下、状態系列s及び状態出力系列oを更新する方法を説明する。
(状態系列sの更新ステップ)
状態出力系列oを固定した上で、logp(y,o,w,s)が最大となるように、状態系列sを更新するステップである。logp(y,o,w,s)=logp(y|o)+logp(o|s)+logp(w|s)+logp(s)で状態系列sに依存する項はlogp(o|s)+logp(w|s)+logp(s)であるため、logp(y,o,w,s)を最大化する状態系列sを求める問題は、o,wを出力系列としたHMMの状態系列探索問題と同型である。したがってViterbiアルゴリズムを用いて解決することができる。下記にアルゴリズムを示す。
(Viterbiアルゴリズム)
1.初期化
Figure 0006662801
2.導出過程
Figure 0006662801
3.結果
Figure 0006662801
4.状態系列のバックトラック
Figure 0006662801
得られた{s[k]*}を状態系列s*として更新する。
(状態出力系列oの更新ステップ)
状態系列sを固定した上で、logp(y,o,s)が最大となるように状態出力系列oを更新するステップである。本ステップは、非特許文献4と同一であるため、導出過程は省略し、更新式のみを記載する。
Figure 0006662801
ただし、l=0,1,…,K-1であり、C(p)[k],C(a) nはそれぞれフレーズ指令、アクセント指令の状態出力分布(正規分布)の平均パラメータである。また、Tnは、s[k]=anであるようなkの集合Tn={k|s[k]=an}を表し、|Tn|はその集合の要素数を表す。
次に、式(19),(20)等で用いるp(w[k]|s[k])を求める際に用いる事後確率p(s[k]|w[k])(式(7),(8)参照)を出力とするDNNを学習する状態系列推定モデル学習装置120について説明する。
<第一実施形態に係る状態系列推定モデル学習装置120>
図7は状態系列推定モデル学習装置120の機能ブロック図を、図8はその処理フローの例を示す図である。
状態系列推定モデル学習装置120は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
状態系列推定モデル学習装置120は、モデル学習部121を含む。
<モデル学習部121>
モデル学習部121は、言語特徴量データ{w0,w1,…,wN-1}(複数の学習用言語特徴量系列wとも言う)及びHMM状態データ{s0,s1,…,sN-1}(複数の学習用HMM状態系列sとも言う)を入力とし、これらのデータを用いて、状態系列推定モデルを学習し(S121)、出力する。状態系列推定モデルのうち、状態推定DNNについては、言語特徴量データ{w0,w1,…,wN-1}、HMM状態データ{s0,s1,…,sN-1}の組を使用し、言語特徴量wから、各時刻kでHMM状態番号sの事後確率p(s|w)を推定するDNNを学習する。例えば、学習のアルゴリズムは、音声認識等で一般に使用される識別DNNの学習アルゴリズムと同様のものを使用することができる。HMM状態データ{s0,s1,…,sN-1}として、人手による藤崎モデル指令列推定の正解ラベルを与え、使用する。または、非特許文献1−4のアルゴリズムにより、観測F0軌跡データ{y0,y1,…,yN-1}から自動推定される結果を使用してもよい。
状態系列推定モデルのうち、状態事前分布モデルを得るため、例えば、HMM状態データ{s0,s1,…,sN-1}を用いて、下記のように全HMM状態データの中の、各HMM状態の相対頻度をp(s=i)として定めることができる。
Figure 0006662801
ここで、n番目の発話中のk番目の時刻フレームのHMM状態番号を、sn,kで表し、
Figure 0006662801
とした。
<効果>
このような構成により、状態系列推定モデル学習装置120は、読み、アクセント等の言語特徴量を入力とし、非特許文献4におけるHMM状態の事後確率を出力とするDNNを構成する。指令列推定装置110は、このDNNが出力する事後確率系列を、従来研究のHMM状態デコード時に使用することで、観測F0軌跡と言語特徴量系列の双方を考慮した藤崎モデル指令列系列を推定することができ、藤崎モデル指令列推定の推定精度を向上させることができる。
<第二実施形態のポイント>
第一実施形態において、例えば、HMM状態データを用意する方法として、人手による正解ラベルを使用する方法がある。しかし、人手に依る正解ラベルの付与は、専門家による作業が必要であり、高コストである。そこで、従来研究(非特許文献1−3参照)により、観測F0軌跡から推定された藤崎モデル指令列に対応するHMM状態系列を教師データとし、DNNの学習を行うことが考えられる。一方で、従来研究(非特許文献1−3参照)による藤崎モデル指令列の推定結果には、推定誤りが含まれる場合がある。推定結果に誤りを含むデータ(推定された藤崎モデル指令列に対応するHMM状態系列)をDNN学習の教師データとして使用する場合、その教師データから学習されたDNNから出力される事後確率系列の精度は一般に低下する。そのため、第一実施形態による藤崎モデル指令列推定精度もまた、低下する可能性がある。
以上から、第一実施形態を低コストに実施し、かつ藤崎モデルの指令列推定精度を高めるための要因の一つに、精度の高いDNNの学習があり、そのためには、精度の高いDNNの教師データが必要である。
第二実施形態では、より精度の高いDNN学習の教師データを得るため、観測F0軌跡のみから推定を行う従来研究(非特許文献1−3参照)ではなく、観測F0軌跡と言語特徴量の双方を使用した推定を行う、第一実施形態の手法を用いる。これにより、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
状態系列推定モデル学習装置の構成が第一実施形態とは異なる。
状態系列推定モデル学習装置220を説明する前に改めて用語の説明を行う。
なお、指令列推定装置110の構成は第一実施形態と同じだが、状態系列推定モデルに代えて、後述する再学習状態系列推定モデルを用いる点が第一実施形態とは異なる。
(用いる用語の説明)
観測F0軌跡データ:言語特徴量データに対応する複数の発話について、それぞれの観測F0の値を保持したもの。データ中の発話数をNとしたとき、{y0,y1,,yN-1}で表現する。
推定HMM状態データ:観測F0軌跡データ中の各発話について、それぞれ第一実施形態の指令列推定を行い、推定された推定藤崎モデル指令列に対応するHMM状態系列を保持したもの。つまり、状態系列sと状態出力系列oの更新を一定回数反復し、得られた状態系列sである。データ中の発話数をNとしたとき、{se 0,se 1,,se N-1}で表現する。
再学習状態系列推定モデル:推定HMM状態データ{se 0,se 1,,se N-1}と言語特徴量データ{w0,w1,…,wN-1}を使用し、再度学習された状態系列推定モデル。
<第二実施形態に係る状態系列推定モデル学習装置220>
図9は状態系列推定モデル学習装置220の機能ブロック図を、図10はその処理フローの例を示す図である。
状態系列推定モデル学習装置220は、指令列推定部211とモデル学習部121とを含む。
指令列推定部211は、第一実施形態の指令列推定部111と同様の構成である。但し、言語特徴量系列w、観測F0軌跡yに代えてそれぞれ言語特徴量データ{w0,w1,…,wN-1}、観測F0軌跡データ{y0,y1,,yN-1}(複数の学習用観測F0軌跡ともいう)を入力とし、推定藤崎モデル指令列uiに代えて、推定HMM状態データ{se 0,se 1,,se N-1}を出力する。よって、指令列推定部211は、言語特徴量データ{w0,w1,…,wN-1}及び観測F0軌跡データ{y0,y1,,yN-1}を入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し(S211)、推定藤崎モデル指令列に対応する(換言すると、推定藤崎モデル指令列推定時の)推定HMM状態データ{se 0,se 1,,se N-1}を出力する。
モデル学習部121は、第一実施形態のモデル学習部121と同様の構成であり、同様の処理(S121)を行う。ただし、HMM状態データ{s0,s1,,sN-1}ではなく、推定HMM状態データ{se 0,se 1,,se N-1}を使用する点が異なる。
このような構成により、観測F0軌跡データの各発話の観測F0軌跡{y0,y1,,yN-1}に対し、第一実施形態の指令列推定を実施し、推定結果から、各時刻のHMM状態番号se n,k(n=0,1,…,N-1、k=0,1,…,K-1)を得る。これらを推定HMM状態データ{se 0,se 1,,se N-1}として保持し、モデル学習部121において状態系列推定モデル学習に使用する。
<効果>
このような構成により、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、
    前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
    指令列推定装置。
  2. 請求項1で用いられる状態推定DNNを学習する状態系列推定モデル学習装置であって、
    複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習部を含む、
    状態系列推定モデル学習装置。
  3. 請求項2の状態系列推定モデル学習装置であって、
    複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定部を含み、
    複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
    第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
    状態系列推定モデル学習装置。
  4. 観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、
    前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
    指令列推定装置が実行する指令列推定方法。
  5. 請求項4で用いられる状態推定DNNを学習する状態系列推定モデル学習方法であって、
    複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習ステップを含む、
    状態系列推定モデル学習装置が実行する状態系列推定モデル学習方法。
  6. 請求項5の状態系列推定モデル学習方法であって、
    複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定ステップを含み、
    複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
    第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
    状態系列推定モデル学習方法。
  7. 請求項1の指令列推定装置、または、請求項2若しくは請求項3の状態系列推定モデル学習装置として、コンピュータを機能させるためのプログラム。
JP2017033606A 2017-02-24 2017-02-24 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム Active JP6662801B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017033606A JP6662801B2 (ja) 2017-02-24 2017-02-24 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017033606A JP6662801B2 (ja) 2017-02-24 2017-02-24 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018138972A JP2018138972A (ja) 2018-09-06
JP6662801B2 true JP6662801B2 (ja) 2020-03-11

Family

ID=63451219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017033606A Active JP6662801B2 (ja) 2017-02-24 2017-02-24 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6662801B2 (ja)

Also Published As

Publication number Publication date
JP2018138972A (ja) 2018-09-06

Similar Documents

Publication Publication Date Title
JP6777768B2 (ja) 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム
JP5530729B2 (ja) 音声理解装置
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JP2019144402A (ja) 音声変換学習装置、音声変換装置、方法、及びプログラム
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
US20110276332A1 (en) Speech processing method and apparatus
Deng Dynamic speech models: theory, algorithms, and applications
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP5885210B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6553584B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6137477B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6662801B2 (ja) 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム
JP6468519B2 (ja) 基本周波数パターン予測装置、方法、及びプログラム
Yoshizato et al. Hidden Markov Convolutive Mixture Model for Pitch Contour Analysis of Speech.
JP6665079B2 (ja) 基本周波数モデルパラメータ推定装置、方法、及びプログラム
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
US11798579B2 (en) Device, method, and program for analyzing speech signal
Li et al. Graphical model approach to pitch tracking.
Zhang et al. Application of pronunciation knowledge on phoneme recognition by lstm neural network
Dorca Saez Neural Audio Generation for Speech Synthesis
Sawada et al. The blizzard machine learning challenge 2017
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
JP2011164124A (ja) 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム
Huque et al. Analysis of a small vocabulary Bangla speech database for recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200213

R150 Certificate of patent or registration of utility model

Ref document number: 6662801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150