JP6662801B2 - 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム - Google Patents
指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6662801B2 JP6662801B2 JP2017033606A JP2017033606A JP6662801B2 JP 6662801 B2 JP6662801 B2 JP 6662801B2 JP 2017033606 A JP2017033606 A JP 2017033606A JP 2017033606 A JP2017033606 A JP 2017033606A JP 6662801 B2 JP6662801 B2 JP 6662801B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- model
- sequence
- estimation
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本実施形態では、言語情報(言語特徴量)を活用し、F0軌跡の生成モデルを定式化する。これにより、観測F0軌跡と言語特徴量を活用し、藤崎モデル指令列の推定を行うことができる。観測F0軌跡のみでなく、言語特徴量を考慮することで、より精度の高い藤崎モデル指令列推定を可能とする。
図2は本実施形態に係る指令列推定装置110の機能ブロック図を、図3はその処理フローの例を示す。
観測F0軌跡:F0とは、声の高さ(ピッチ)に対応する、各フレームに対し実数で表現される情報である。入力された音声のフレーム数をKとしたとき、y=(y[0],y[1],…,y[K-1])で表記する。例えば、入力音声波形に対し、信号処理を施すことにより獲得する。
推定フレーズ指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。up[0],up[1],…,up[K-1]で表現する。
推定アクセント指令列:指令列推定により出力される、藤崎モデルのフレーズ指令列の推定結果である。ua[0],ua[1],…,ua[K-1]で表現する。
推定藤崎モデル指令列:指令列推定により出力される、藤崎モデル指令列の推定結果である。推定フレーズ指令列、推定アクセント指令列からなる。ui=(ui[0],ui[1],…,,ui[K-1])(i=p,a)で表現する。
言語特徴量系列:観測F0軌跡に対応する、発音等の情報。音素情報とアクセント情報を含む。各音素の開始時間、終了時間の情報が保存されている。これ以外にも、品詞情報や統語構造の情報を含んでいてもよい。w=(w[0],w[1],…,w[K-1])で表現する。
言語特徴量データ:複数の発話について、それぞれの言語特徴量系列を保持したもの。データ中の発話数をNとしたとき、{w0,w1,…,wN-1}で表現する。
HMM状態系列:言語特徴量系列に対応する発話について、各時刻の藤崎モデル状態の状態番号の系列である。フレーム数をKとしたとき、s=(s[0],s[1],…,s[K-1])で表現する。ここで、HMMの全状態数をIとし、s[k]=i(i=0,1,…,I-1)とする。
HMM状態データ:言語特徴量データに対応する複数の発話について、それぞれの各時刻の藤崎モデル状態の状態番号を保持したもの。データ中の発話数をNとしたとき、{s0,s1,…,sN-1}で表現する。
状態系列推定モデル:状態推定DNNと、状態事前分布モデルからなる。
状態推定DNN:言語特徴量から、各時刻で対応するHMM状態番号の事後確率を推定するDNNである。事後確率p(s[k]|w[k])のモデル化に使用する。
状態事前分布モデル:各HMM状態s=0,1,…,I-1について、その事前分布p(s)の値を保持したモデルである。p(s[k])のモデル化に使用する。
指令列推定部111は、藤崎モデル指令列の推定に先立ち、状態系列推定モデルを受け取る。指令列推定部111は、観測F0軌跡yと言語特徴量系列wとを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定し(S111)、推定結果を推定藤崎モデル指令列uiとして出力する。
まずは、本実施形態で使用するF0軌跡の確率モデルを定式化する。藤崎モデルは、対数F0軌跡y(t)を以下の3つの成分の和
本実施形態では、状態系列sから言語特徴量系列wが生成される過程は、各時刻kで独立であると仮定し、定式化する。
本実施形態では、観測F0系列y={y[k]}K-1 k=0と言語特徴量系列w={w[k]}K-1 k=0が与えられたときの状態出力系列o={o[k]}K-1 k=0と状態系列s={s[k]}K-1 k=0の同時事後確率
1.観測F0系列yから、状態出力系列oの初期値を得る。初期値を得る方法としては様々な方法が考えられるが、例えば、非特許文献1や非特許文献4の手法により状態出力系列oの初期値を得ることができる。なお、初期値の取得方法については、既存のいかなる技術を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよいため、ここでは説明を省略する。
2.各時刻k、各状態s[k]について、wの出力確率分布p(w[k]|s[k])を式(9)により算出する。
4.後述する式(25)〜(28)により、状態出力系列(指令列系列)oを更新する。
5.上述の3.及び4.を一定回数反復し、得られた指令列系列o=({up[0],up[1],…,up[K-1]},{ua[0],ua[1],…,ua[K-1]})を推定藤崎モデル指令列として出力する。
状態出力系列oを固定した上で、logp(y,o,w,s)が最大となるように、状態系列sを更新するステップである。logp(y,o,w,s)=logp(y|o)+logp(o|s)+logp(w|s)+logp(s)で状態系列sに依存する項はlogp(o|s)+logp(w|s)+logp(s)であるため、logp(y,o,w,s)を最大化する状態系列sを求める問題は、o,wを出力系列としたHMMの状態系列探索問題と同型である。したがってViterbiアルゴリズムを用いて解決することができる。下記にアルゴリズムを示す。
1.初期化
状態系列sを固定した上で、logp(y,o,s)が最大となるように状態出力系列oを更新するステップである。本ステップは、非特許文献4と同一であるため、導出過程は省略し、更新式のみを記載する。
図7は状態系列推定モデル学習装置120の機能ブロック図を、図8はその処理フローの例を示す図である。
モデル学習部121は、言語特徴量データ{w0,w1,…,wN-1}(複数の学習用言語特徴量系列wとも言う)及びHMM状態データ{s0,s1,…,sN-1}(複数の学習用HMM状態系列sとも言う)を入力とし、これらのデータを用いて、状態系列推定モデルを学習し(S121)、出力する。状態系列推定モデルのうち、状態推定DNNについては、言語特徴量データ{w0,w1,…,wN-1}、HMM状態データ{s0,s1,…,sN-1}の組を使用し、言語特徴量wから、各時刻kでHMM状態番号sの事後確率p(s|w)を推定するDNNを学習する。例えば、学習のアルゴリズムは、音声認識等で一般に使用される識別DNNの学習アルゴリズムと同様のものを使用することができる。HMM状態データ{s0,s1,…,sN-1}として、人手による藤崎モデル指令列推定の正解ラベルを与え、使用する。または、非特許文献1−4のアルゴリズムにより、観測F0軌跡データ{y0,y1,…,yN-1}から自動推定される結果を使用してもよい。
このような構成により、状態系列推定モデル学習装置120は、読み、アクセント等の言語特徴量を入力とし、非特許文献4におけるHMM状態の事後確率を出力とするDNNを構成する。指令列推定装置110は、このDNNが出力する事後確率系列を、従来研究のHMM状態デコード時に使用することで、観測F0軌跡と言語特徴量系列の双方を考慮した藤崎モデル指令列系列を推定することができ、藤崎モデル指令列推定の推定精度を向上させることができる。
第一実施形態において、例えば、HMM状態データを用意する方法として、人手による正解ラベルを使用する方法がある。しかし、人手に依る正解ラベルの付与は、専門家による作業が必要であり、高コストである。そこで、従来研究(非特許文献1−3参照)により、観測F0軌跡から推定された藤崎モデル指令列に対応するHMM状態系列を教師データとし、DNNの学習を行うことが考えられる。一方で、従来研究(非特許文献1−3参照)による藤崎モデル指令列の推定結果には、推定誤りが含まれる場合がある。推定結果に誤りを含むデータ(推定された藤崎モデル指令列に対応するHMM状態系列)をDNN学習の教師データとして使用する場合、その教師データから学習されたDNNから出力される事後確率系列の精度は一般に低下する。そのため、第一実施形態による藤崎モデル指令列推定精度もまた、低下する可能性がある。
第一実施形態と異なる部分を中心に説明する。
観測F0軌跡データ:言語特徴量データに対応する複数の発話について、それぞれの観測F0の値を保持したもの。データ中の発話数をNとしたとき、{y0,y1,…,yN-1}で表現する。
推定HMM状態データ:観測F0軌跡データ中の各発話について、それぞれ第一実施形態の指令列推定を行い、推定された推定藤崎モデル指令列に対応するHMM状態系列を保持したもの。つまり、状態系列sと状態出力系列oの更新を一定回数反復し、得られた状態系列sである。データ中の発話数をNとしたとき、{se 0,se 1,…,se N-1}で表現する。
再学習状態系列推定モデル:推定HMM状態データ{se 0,se 1,…,se N-1}と言語特徴量データ{w0,w1,…,wN-1}を使用し、再度学習された状態系列推定モデル。
図9は状態系列推定モデル学習装置220の機能ブロック図を、図10はその処理フローの例を示す図である。
このような構成により、より精度の高い学習データから、より精度の高いDNNを学習することができ、最終的な藤崎モデル指令列推定精度を高めることができる。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (7)
- 観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定部を含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置。 - 請求項1で用いられる状態推定DNNを学習する状態系列推定モデル学習装置であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習部を含む、
状態系列推定モデル学習装置。 - 請求項2の状態系列推定モデル学習装置であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定部を含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習装置。 - 観測F0軌跡と、その観測F0軌跡に対応する言語特徴量系列とを入力とし、状態系列推定モデルを用いて、対応する藤崎モデル指令列を推定する指令列推定ステップを含み、
前記状態系列推定モデルは状態推定DNNと状態事前分布モデルと含み、前記状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
指令列推定装置が実行する指令列推定方法。 - 請求項4で用いられる状態推定DNNを学習する状態系列推定モデル学習方法であって、
複数の学習用言語特徴量系列及び複数の学習用HMM状態系列を用いて、前記状態系列推定モデルを学習するモデル学習ステップを含む、
状態系列推定モデル学習装置が実行する状態系列推定モデル学習方法。 - 請求項5の状態系列推定モデル学習方法であって、
複数の前記学習用言語特徴量系列及び複数の学習用観測F0軌跡を入力とし、第二状態系列推定モデルを用いて、対応する複数の藤崎モデル指令列を推定し、推定した複数の藤崎モデル指令列に対応する複数のHMM状態系列である複数の推定HMM状態系列を得る第二指令列推定ステップを含み、
複数の前記学習用HMM状態系列は複数の前記推定HMM状態系列であり、
第二状態系列推定モデルは第二状態推定DNNと第二状態事前分布モデルと含み、前記第二状態推定DNNは言語特徴量から各時刻で対応するHMM状態番号の事後確率を推定するDNNであり、前記第二状態事前分布モデルは各HMM状態についてその事前分布の値を保持したモデルである、
状態系列推定モデル学習方法。 - 請求項1の指令列推定装置、または、請求項2若しくは請求項3の状態系列推定モデル学習装置として、コンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017033606A JP6662801B2 (ja) | 2017-02-24 | 2017-02-24 | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017033606A JP6662801B2 (ja) | 2017-02-24 | 2017-02-24 | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018138972A JP2018138972A (ja) | 2018-09-06 |
JP6662801B2 true JP6662801B2 (ja) | 2020-03-11 |
Family
ID=63451219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017033606A Active JP6662801B2 (ja) | 2017-02-24 | 2017-02-24 | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6662801B2 (ja) |
-
2017
- 2017-02-24 JP JP2017033606A patent/JP6662801B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018138972A (ja) | 2018-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
JP5530729B2 (ja) | 音声理解装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
JP2019144402A (ja) | 音声変換学習装置、音声変換装置、方法、及びプログラム | |
JP5982297B2 (ja) | 音声認識装置、音響モデル学習装置、その方法及びプログラム | |
US20110276332A1 (en) | Speech processing method and apparatus | |
Deng | Dynamic speech models: theory, algorithms, and applications | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6553584B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6137477B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP4950600B2 (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
JP6662801B2 (ja) | 指令列推定装置、状態系列推定モデル学習装置、その方法、及びプログラム | |
JP6468519B2 (ja) | 基本周波数パターン予測装置、方法、及びプログラム | |
Yoshizato et al. | Hidden Markov Convolutive Mixture Model for Pitch Contour Analysis of Speech. | |
JP6665079B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP6167063B2 (ja) | 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム | |
US11798579B2 (en) | Device, method, and program for analyzing speech signal | |
Li et al. | Graphical model approach to pitch tracking. | |
Zhang et al. | Application of pronunciation knowledge on phoneme recognition by lstm neural network | |
Dorca Saez | Neural Audio Generation for Speech Synthesis | |
Sawada et al. | The blizzard machine learning challenge 2017 | |
Hashimoto et al. | Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011 | |
JP2011164124A (ja) | 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム | |
Huque et al. | Analysis of a small vocabulary Bangla speech database for recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6662801 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |