JP2006084967A - 予測モデルの作成方法およびコンピュータプログラム - Google Patents
予測モデルの作成方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2006084967A JP2006084967A JP2004271529A JP2004271529A JP2006084967A JP 2006084967 A JP2006084967 A JP 2006084967A JP 2004271529 A JP2004271529 A JP 2004271529A JP 2004271529 A JP2004271529 A JP 2004271529A JP 2006084967 A JP2006084967 A JP 2006084967A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- prediction model
- speech
- predetermined
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声合成の合成目標の音響特徴量の予測モデルをより効率的に作成できる方法を提供する。
【解決手段】 予測モデルの作成方法は、音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデル52の作成方法であって、予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データ30を準備するステップと、学習データを用いたGradient Boostingアルゴリズムにより、所定の予測モデル52の学習を行なうステップ32とを含む。
【選択図】 図1
【解決手段】 予測モデルの作成方法は、音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデル52の作成方法であって、予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データ30を準備するステップと、学習データを用いたGradient Boostingアルゴリズムにより、所定の予測モデル52の学習を行なうステップ32とを含む。
【選択図】 図1
Description
この発明は音声合成における合成目標の予測技術に関し、特に、音声合成中の合成目標の音響特徴量の予測モデルの作成方法に関する。
音声合成において音韻継続長は合成音声のリズムやテンポを担う重要な特徴量の一つである。この音韻継続長の予測/制御には音韻・韻律情報や言語情報を説明変数とした音韻継続長関数の関数近似問題と考える手法が広く用いられている。
音韻継続長(以下継続長と呼ぶことにする。)の予測問題に対してこれまで、重回帰/数量化I類を用いた手法(非特許文献1)、CART(Classification and Regression Tree)(非特許文献2)などの回帰木を用いた手法(非特許文献3)、ニューラルネットを用いた手法(非特許文献4および5)、およびsum−of−productsを用いた手法(非特許文献6)が広く用いられている。
また、並列型アンサンブル学習の一つであるBagging(Bootstrap and Aggregating)(非特許文献3)をCARTによる予測手法に応用し、予測性能を向上させる試みも行なわれている(非特許文献4)。
並列型アンサンブル学習の一つであるBaggingアルゴリズム(非特許文献7)について簡単に説明する。ある入力ベクトルx=(x1,x2,…,xn)の正解値をyとする。学習データはN個、{yi,xi}(i=1〜N)であるとする。このとき、M個の異なる予測モデルh(x,am)を加算し、単純に平均をとることで新たな予測モデルF(x)を作る。この手法がBaggingである。
Baggingでは学習データに対してブートストラップ法を繰返し行ない、擬似的な学習データをM個作り出し、これらをもとに複数の予測モデルh(x,am)を独立に構築する。
N.カイキ他、「言語情報を用いた母音継続長制御」、IEICEトランザクション、第J75−A巻、第3号、pp.467−473、1992年(N. Kaiki, T. Takeda and Y. Sagisaka, "Vowel duration control using linguistic information," Trans. IEICE, vol.J75-A, no.3, pp.467-473, March 1992.) L.ブライマン他、「分類および回帰木」、ワズワース統計/確率シリーズ、ベルモント、1984年(L. Breiman, J.H. Friedman, R.A. Olshen and C.J.Stone, "Classification and regression trees," Wadsworth statistics/probability series, Belmont, 1984) M.D.ライリー、「セグメント継続長のツリーを用いたモデリング」、話す機械:理論・モデル・設計、pp.265−273、1992年(M.D. Riley, "Tree-based modelling of segmental duration," Talking Machines : Theories, Models, Designs, pp.265-273, 1992.) W.キャンベル、「シラブルタイミングのためのアナログI/Oネット」、音声コミュニケーション、第9巻、pp.57−61、1990年(W. Campbell, "Analog I/O nets for syllable timing, "Speech Communication, vol.9, pp.57-61, 1990.) M.リエディ、「ニューラルネットワークを用いた、音声合成のためのセグメント継続長モデル」、EUROSPEECH−95予稿集、pp.599−602、1995年(M. Riedi, "A neural-network-based model of segmental duration for speech synthesis," Proc. EUROSPEECH-95, pp.599-602, Sept. 1995.) J.P.H.ヴァン サンテン、「テキスト・ツー・スピーチ合成におけるセグメント継続長の割当」、コンピュータ音声および言語、第8巻、pp.95−128、1994年(J.P.H. van Santen, "Assignment of segmental duration in text-to-speech synthesis," Computer Speech and Language, vol.8, pp.95-128, 1994.) L.ブライマン、「Bagging予測装置」、機械学習、第24号、pp.123−140、1996年(L. Breiman, "Bagging predictors," Machine Learning, no.24, pp.123-140, 1996.) S.リー他、「CARTによる韓国語セグメントの継続長モデリング」、東洋COCOSDA’99予稿集、pp.109−112、1999年(S. Lee and Y. Oh, "CART-based modelling of Korean segmental duration," Proc. Oriental COCOSDA ’99, pp.109-112, 1999.) J.H.フリードマン、「貪欲関数近似:グラディエント・ブースティング機械」、統計学会誌、第29巻、第5号、pp.1189−1232、2001年(J.H. Friedman, "Greedy function approximation: A gradient boosting machine," Annals of Statistics, vol.29, no.5, pp.1189-1232, 2001.) J.H.フリードマン、「確率論的グラディエント・ブースティング」、計算統計学およびデータ分析、第38巻、第4号、pp.367−378、2002年(J.H. Friedman, "Stochastic gradient boosting," Computational Statistics & Data Analysis, vol.38, no.4, pp.367-378, 2002.) Y.フロイント他、「オンライン学習の決定理論的一般化およびブースティングへの応用」、コンピュータおよびシステムジャーナル、第55巻、第1号、pp.119−139、1997年(Y. Freund and R.E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," J. Computer & System Sciences, vol.55, no.1, pp.119-139, 1997.) J.R.クインラン、「連続クラスによる学習」、AI’92予稿集、pp.343−348、1992年(J.R. Quinlan, "Learning with continuous classes," Proc. AI'92, pp.343-348, 1992.) Y.ワング他、「連続クラスのためのモデルツリーの誘導」、機械学習に関するヨーロッパ会議予稿集、pp.128−137、1997年(Y. Wang and I.H. Witten, "Inducing model trees for continuous classes," Proc. European Conference on Machine Learning, pp.128-137, 1997.)
N.カイキ他、「言語情報を用いた母音継続長制御」、IEICEトランザクション、第J75−A巻、第3号、pp.467−473、1992年(N. Kaiki, T. Takeda and Y. Sagisaka, "Vowel duration control using linguistic information," Trans. IEICE, vol.J75-A, no.3, pp.467-473, March 1992.) L.ブライマン他、「分類および回帰木」、ワズワース統計/確率シリーズ、ベルモント、1984年(L. Breiman, J.H. Friedman, R.A. Olshen and C.J.Stone, "Classification and regression trees," Wadsworth statistics/probability series, Belmont, 1984) M.D.ライリー、「セグメント継続長のツリーを用いたモデリング」、話す機械:理論・モデル・設計、pp.265−273、1992年(M.D. Riley, "Tree-based modelling of segmental duration," Talking Machines : Theories, Models, Designs, pp.265-273, 1992.) W.キャンベル、「シラブルタイミングのためのアナログI/Oネット」、音声コミュニケーション、第9巻、pp.57−61、1990年(W. Campbell, "Analog I/O nets for syllable timing, "Speech Communication, vol.9, pp.57-61, 1990.) M.リエディ、「ニューラルネットワークを用いた、音声合成のためのセグメント継続長モデル」、EUROSPEECH−95予稿集、pp.599−602、1995年(M. Riedi, "A neural-network-based model of segmental duration for speech synthesis," Proc. EUROSPEECH-95, pp.599-602, Sept. 1995.) J.P.H.ヴァン サンテン、「テキスト・ツー・スピーチ合成におけるセグメント継続長の割当」、コンピュータ音声および言語、第8巻、pp.95−128、1994年(J.P.H. van Santen, "Assignment of segmental duration in text-to-speech synthesis," Computer Speech and Language, vol.8, pp.95-128, 1994.) L.ブライマン、「Bagging予測装置」、機械学習、第24号、pp.123−140、1996年(L. Breiman, "Bagging predictors," Machine Learning, no.24, pp.123-140, 1996.) S.リー他、「CARTによる韓国語セグメントの継続長モデリング」、東洋COCOSDA’99予稿集、pp.109−112、1999年(S. Lee and Y. Oh, "CART-based modelling of Korean segmental duration," Proc. Oriental COCOSDA ’99, pp.109-112, 1999.) J.H.フリードマン、「貪欲関数近似:グラディエント・ブースティング機械」、統計学会誌、第29巻、第5号、pp.1189−1232、2001年(J.H. Friedman, "Greedy function approximation: A gradient boosting machine," Annals of Statistics, vol.29, no.5, pp.1189-1232, 2001.) J.H.フリードマン、「確率論的グラディエント・ブースティング」、計算統計学およびデータ分析、第38巻、第4号、pp.367−378、2002年(J.H. Friedman, "Stochastic gradient boosting," Computational Statistics & Data Analysis, vol.38, no.4, pp.367-378, 2002.) Y.フロイント他、「オンライン学習の決定理論的一般化およびブースティングへの応用」、コンピュータおよびシステムジャーナル、第55巻、第1号、pp.119−139、1997年(Y. Freund and R.E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," J. Computer & System Sciences, vol.55, no.1, pp.119-139, 1997.) J.R.クインラン、「連続クラスによる学習」、AI’92予稿集、pp.343−348、1992年(J.R. Quinlan, "Learning with continuous classes," Proc. AI'92, pp.343-348, 1992.) Y.ワング他、「連続クラスのためのモデルツリーの誘導」、機械学習に関するヨーロッパ会議予稿集、pp.128−137、1997年(Y. Wang and I.H. Witten, "Inducing model trees for continuous classes," Proc. European Conference on Machine Learning, pp.128-137, 1997.)
従来技術のBaggingを用いた手法は、学習データに特異なデータが含まれている場合に汎化性を高める能力を持っている。しかし質の良い学習データに対しては予測性能を下げる可能性もある。またパラメータ数も非常に多くなり、効率的な手法とは言い難い。このような問題は、音韻の継続長予測に限らず、同種の予測のためのモデル構築に共通する課題である。
それゆえに本発明の一つの目的は、より効率的に音声合成の合成目標の音響特徴量の予測モデルが構築できる予測モデル作成方法を提供することである。
本発明の他の目的は、Baggingを用いた手法よりも少ないパラメータ数で、より効率的に音声合成の合成目標の音響特徴量の予測モデルが構築できる予測モデル作成方法を提供することである。
本発明の第1の局面によれば、予測モデルの作成方法は、音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデルの作成方法であって、予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データを準備するステップと、学習データを用いたGradient Boostingアルゴリズムにより、所定の予測モデルの学習を行なうステップとを含む。
このようにGradient Boostingアルゴリズムによって学習した予測モデルを用いると、従来のBaggingアルゴリズムを用いた場合よりも少ないパラメータで、効率よく誤差の少ない予測を行なうことができる。
好ましくは、予測モデルは回帰木を含み、学習を行なうステップは、学習データを用いたGradient Tree Boostingアルゴリズムにより、回帰木の学習を行なうステップを含む。
学習にGradient Tree Boostingアルゴリズムを用いることで、少ないパラメータで、効率よく誤差の少ない予測を行なうことができる回帰木を構築できる。
さらに好ましくは、回帰木は2分木の回帰木である。
所定の音声単位に関する音響特徴量は、音声合成時のターゲットコスト計算に関連する音響特徴量でもよく、例えば音声合成時の音声単位の継続長でもよい。
好ましくは、音声単位は音素である。
さらに好ましくは、学習を行なうステップは、学習データを用いたGradient Boostingアルゴリズムにより、音素の母音部および子音部それぞれ別々に予測モデルを構築するステップを含む。
本発明の第2の局面によれば、コンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの予測モデルの作成方法を実行するようにコンピュータを制御するものである。
[概要]
以下、本発明の一実施の形態として、逐次型アンサンブル学習を用いた音韻継続長の予測方法について説明する。本実施の形態では、逐次型アンサンブル学習としてGradient Boostingアルゴリズム(非特許文献9)を導入している。以下、このアルゴリズムについて説明し、その後にこのアルゴリズムを用いた音韻継続長の予測装置および方法について説明する。
以下、本発明の一実施の形態として、逐次型アンサンブル学習を用いた音韻継続長の予測方法について説明する。本実施の形態では、逐次型アンサンブル学習としてGradient Boostingアルゴリズム(非特許文献9)を導入している。以下、このアルゴリズムについて説明し、その後にこのアルゴリズムを用いた音韻継続長の予測装置および方法について説明する。
なお、図面において同じ部品には同じ参照番号を付してある。それらの名称および機能も同一である。したがって、それらの詳細な説明は繰返さない。なお以下の記載で、記号「~」(チルデ)は、数式中ではその直後の文字の直上に記載すべきものである。
[Gradient Boostingアルゴリズム]
Baggingアルゴリズムと同様、与えられた学習データ{yi,xi}(i=1〜N)からM個の異なる予測モデルh(x,am)を加法的に結合し、新たな予測モデルF(x)を作ることを考える。
Baggingアルゴリズムと同様、与えられた学習データ{yi,xi}(i=1〜N)からM個の異なる予測モデルh(x,am)を加法的に結合し、新たな予測モデルF(x)を作ることを考える。
非特許文献7に記載のAdaBoostに代表されるBoostingアルゴリズムでは、amおよびβmを損失関数Ψ(y,F(x))のもとで逐次最適化することにより式(2)の加法モデルを求めている。つまり、m−1番目までの予測モデルを加法したモデルをFm-1(x)と表すと、m番目の予測モデルのパラメータamおよび重み係数βmは以下のように求める。
次にGradient Boostingにおいて、ベースの学習モデルとしてL個のリーフノードにより構成される回帰木(Regression tree)を用いた場合について説明する。この手法はGradient Tree BoostingまたはMultiple Additive Regression Trees(MART)と呼ばれている。L個のリーフノードを持つ回帰木は入力ベクトル空間xを互いに素なL個の空間(Rlm)(l=1〜L)に分割し、各空間である定数を返す予測モデルである。したがって、m番目の繰返しにおける回帰木は以下のように表すことが出来る。
回帰木は、各リーフノードにおいてある定数を返すモデルであるので、式(7)は以下のように簡単化できる。
[構成]
図1に、本発明の一実施の形態に係る音声合成システム20の構成をブロック図形式で示す。図1を参照して音声合成システム20は、学習データ30を用いて音声の継続長モデル52の学習を行なうためのモデル学習処理装置32と、この継続長モデル52と予め準備された音声コーパス38とを用い、入力テキスト34に対する音声合成を行ない、入力テキスト34に対応する音声波形40を出力するための音声合成装置36とを含む。
図1に、本発明の一実施の形態に係る音声合成システム20の構成をブロック図形式で示す。図1を参照して音声合成システム20は、学習データ30を用いて音声の継続長モデル52の学習を行なうためのモデル学習処理装置32と、この継続長モデル52と予め準備された音声コーパス38とを用い、入力テキスト34に対する音声合成を行ない、入力テキスト34に対応する音声波形40を出力するための音声合成装置36とを含む。
学習データ30は、予め準備したテキストを所定の話者が読上げた音声データを含む。この音声データは音素の境界に付されたマーカを含み、各音素には音素継続長を示すラベルが手作業により予め付されている。さらに各音素には、複数種類(本実施の形態では47種類)の説明変数が付されている。説明変数としては、次のような音韻・韻律情報(アクセント型、呼気段落などに関する情報)および言語情報(品詞、活用形などに関する情報)を用いている。
1. 先先行音素
2. 先行音素
3. 当該音素
4. 後続音素
5. 後後続音素
6. アクセント核とモーラ位置との差(単位:モーラ)
7. 前からカウントした当該韻律語内での当該モーラ位置(単位:モーラ)
8. 後ろからカウントした当該韻律語内での当該モーラ位置(単位:モーラ)
9. 先行形態素の品詞
10. 先行形態素の品詞の活用形
11. 先行形態素の品詞の活用型
12. 先行形態素の境界の種別
13. 当該形態素の品詞
14. 当該形態素の品詞の活用形
15. 当該形態素の品詞の活用型
16. 当該形態素の境界の種別
17. 後続形態素の品詞
18. 後続形態素の品詞の活用形
19. 後続形態素の品詞の活用型
20. 後続形態素の境界の種別
21. 先行韻律語の長さ(単位:モーラ)
22. 先行韻律語のアクセント型
23. 先行韻律語と当該韻律語間のポーズの有無
24. 当該韻律語の長さ(単位:モーラ)
25. 当該韻律語のアクセント型
26. 前からカウントした当該呼気段落での韻律語の位置(単位:韻律語)
27. 後ろからカウントした当該呼気段落での韻律語の位置(単位:韻律語)
28. 前からカウントした当該呼気段落での韻律語の位置(単位:モーラ)
29. 後ろからカウントした当該呼気段落での韻律語の位置(単位:モーラ)
30. 後続韻律語の長さ(単位:モーラ)
31. 後続韻律語のアクセント型
32. 後続韻律語と当該韻律語間のポーズの有無
33. 先行呼気段落の長さ(単位:韻律語)
34. 先行呼気段落の長さ(単位:モーラ)
35. 当該呼気段落の長さ(単位:韻律語)
36. 当該呼気段落の長さ(単位:モーラ)
37. 前からカウントした文中での当該呼気段落の位置(単位:呼気段落)
38. 後ろからカウントした文中での当該呼気段落の位置(単位:呼気段落)
39. 前からカウントした文中での当該呼気段落の位置(単位:韻律語)
40. 後ろからカウントした文中での当該呼気段落の位置(単位:韻律語)
41. 前からカウントした文中での当該呼気段落の位置(単位:モーラ)
42. 後ろからカウントした文中での当該呼気段落の位置(単位:モーラ)
43. 後続呼気段落の長さ(単位:韻律語)
44. 後続呼気段落の長さ(単位:モーラ)
45. 文の長さ(単位:呼気段落)
46. 文の長さ(単位:韻律語)
47. 文の長さ(単位:モーラ)
継続長モデル52としては2分木の回帰木を用いる。ただし、母音部、子音部それぞれに対し別々に回帰木を構築し、枝刈りおよびスムージングを行なうようにしている。
1. 先先行音素
2. 先行音素
3. 当該音素
4. 後続音素
5. 後後続音素
6. アクセント核とモーラ位置との差(単位:モーラ)
7. 前からカウントした当該韻律語内での当該モーラ位置(単位:モーラ)
8. 後ろからカウントした当該韻律語内での当該モーラ位置(単位:モーラ)
9. 先行形態素の品詞
10. 先行形態素の品詞の活用形
11. 先行形態素の品詞の活用型
12. 先行形態素の境界の種別
13. 当該形態素の品詞
14. 当該形態素の品詞の活用形
15. 当該形態素の品詞の活用型
16. 当該形態素の境界の種別
17. 後続形態素の品詞
18. 後続形態素の品詞の活用形
19. 後続形態素の品詞の活用型
20. 後続形態素の境界の種別
21. 先行韻律語の長さ(単位:モーラ)
22. 先行韻律語のアクセント型
23. 先行韻律語と当該韻律語間のポーズの有無
24. 当該韻律語の長さ(単位:モーラ)
25. 当該韻律語のアクセント型
26. 前からカウントした当該呼気段落での韻律語の位置(単位:韻律語)
27. 後ろからカウントした当該呼気段落での韻律語の位置(単位:韻律語)
28. 前からカウントした当該呼気段落での韻律語の位置(単位:モーラ)
29. 後ろからカウントした当該呼気段落での韻律語の位置(単位:モーラ)
30. 後続韻律語の長さ(単位:モーラ)
31. 後続韻律語のアクセント型
32. 後続韻律語と当該韻律語間のポーズの有無
33. 先行呼気段落の長さ(単位:韻律語)
34. 先行呼気段落の長さ(単位:モーラ)
35. 当該呼気段落の長さ(単位:韻律語)
36. 当該呼気段落の長さ(単位:モーラ)
37. 前からカウントした文中での当該呼気段落の位置(単位:呼気段落)
38. 後ろからカウントした文中での当該呼気段落の位置(単位:呼気段落)
39. 前からカウントした文中での当該呼気段落の位置(単位:韻律語)
40. 後ろからカウントした文中での当該呼気段落の位置(単位:韻律語)
41. 前からカウントした文中での当該呼気段落の位置(単位:モーラ)
42. 後ろからカウントした文中での当該呼気段落の位置(単位:モーラ)
43. 後続呼気段落の長さ(単位:韻律語)
44. 後続呼気段落の長さ(単位:モーラ)
45. 文の長さ(単位:呼気段落)
46. 文の長さ(単位:韻律語)
47. 文の長さ(単位:モーラ)
継続長モデル52としては2分木の回帰木を用いる。ただし、母音部、子音部それぞれに対し別々に回帰木を構築し、枝刈りおよびスムージングを行なうようにしている。
音声コーパス38は、本実施の形態では学習データ30の音声録音を行なった話者と同一の話者による所定のテキストの読上げ音声データを含む。この音声データは音声合成の単位となる波形セグメントに分離されている。各波形セグメントには、音声合成の際のコスト計算に用いられる特徴量が予め計算され付与されている。
なおコストとは、波形セグメントを接続したときに、得られる音声が合成目標に近く、かつ自然となるように、波形セグメントの音響特徴量に対して計算されるペナルティのことをいう。コストが最小となるように波形を選択し、接続することにより、滑らかで自然な音声合成ができる。コストは、波形の候補と合成目標との間で計算される、目標に対する適合度を示すターゲットコストと、互いに隣接する二つの波形候補の間で計算される、接続の自然さを示す接続コストとに分かれる。
モデル学習処理装置32の実質は、上記したGradient Boostingアルゴリズムを実行することにより継続長モデル52の学習を行なうプログラムである。その制御構造については図2を参照して後述する。
音声合成装置36は、入力テキスト34に対しテキスト処理を行ない、音声の合成目標となる各音素について、上記したものと同様の音韻・韻律情報および言語情報を出力するためのテキスト処理部60と、継続長モデル52に対してテキスト処理部60の出力する音韻・韻律情報および言語情報を適用することにより、合成目標の各音素に対する継続長を予測し出力するための継続長予測部62と、継続長予測部62の出力する継続長と、テキスト処理部60の出力するその他の音韻・韻律情報および言語情報とを併せて受け、これら情報に基づいて音声コーパス38に含まれる各波形セグメントの特徴量との間で所定のコスト計算を逐次行ない、コストが最小となる波形シーケンスを選択する波形選択部64と、波形選択部64が選択した波形シーケンスを構成する波形セグメントの波形データを音声コーパス38から読出して互いに接続し、音声波形40として出力するための波形接続部66とを含む。
テキスト処理部60、波形選択部64、波形接続部66の機能については、本発明とは直接関連しないので、個々には詳細は説明しない。これらは公知となっているコンピュータプログラムで実現可能である。なお、テキスト処理部60の処理を行なうためには、形態素解析を行なうための辞書など、所定の言語資源が必要であるが、それらについてはよく知られているのでここではその詳細については説明しない。
継続長予測部62は、テキスト処理部60から与えられた情報を継続長モデル52の2分木に対し適用することにより、対応する継続長の値を継続長モデル52から受ける機能を持つ。
図2に、モデル学習処理装置32の機能を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。このコンピュータプログラムは、既に説明したGradient Boostingアルゴリズムを実現するものである。
図2を参照して、まずステップ80において予測モデルの初期値F0の値を以下の式により設定する。
ステップ88では前に記載した式(5)にしたがった計算により、~yimを求める。続いてステップ90では、式(5)により求めた~yimを用いて回帰木構築の処理を行なう。具体的には、~yimを学習データiの現時点における仮残差とし、この仮残差~yimに対する二乗誤差を最小にするモデルパラメータamを式(6)(前掲)により求める。
ステップ92では、このようにして求めた予測モデルh(x,am)をもとに、損失関数上での誤差が最小になるように重み係数βmを決定する。ただしここでは式(10)によってγlmを計算することで簡略に重み係数βmを決定する。
さらにステップ94で、式(12)にしたがいm回目の繰返しの予測モデルFm(x)を決定する。この後ステップ84に戻り、次のmに対する処理を開始する。
[動作]
上記した音声合成システム20は以下のように動作する。音声合成システム20の動作は二つのフェーズに分かれる。第1のフェーズは継続長モデル52の学習を行なう学習フェーズであり、第2のフェーズはこのように学習が行なわれた継続長モデル52を用い、入力テキスト34に対する音声合成を行なう音声合成フェーズである。以下、各フェーズについて順に説明する。
上記した音声合成システム20は以下のように動作する。音声合成システム20の動作は二つのフェーズに分かれる。第1のフェーズは継続長モデル52の学習を行なう学習フェーズであり、第2のフェーズはこのように学習が行なわれた継続長モデル52を用い、入力テキスト34に対する音声合成を行なう音声合成フェーズである。以下、各フェーズについて順に説明する。
−学習−
予め学習データ30を準備しておく。その内容については前述したとおりである。これに対し、図2に記載のアルゴリズムを適用することにより、継続長モデル52の回帰木を訓練し、特徴量が与えられると、特定のリーフノードに対応する値が継続長として継続長モデル52によって与えられるようにする。
予め学習データ30を準備しておく。その内容については前述したとおりである。これに対し、図2に記載のアルゴリズムを適用することにより、継続長モデル52の回帰木を訓練し、特徴量が与えられると、特定のリーフノードに対応する値が継続長として継続長モデル52によって与えられるようにする。
−音声合成−
入力テキスト34が与えられると、テキスト処理部60がこのテキストを処理し、テキストを構成する音素ごとに音韻・韻律情報と言語情報とからなる合成目標を出力する。
入力テキスト34が与えられると、テキスト処理部60がこのテキストを処理し、テキストを構成する音素ごとに音韻・韻律情報と言語情報とからなる合成目標を出力する。
継続長予測部62は、テキスト処理部60からの音素ごとに、音韻・韻律情報と言語情報とに継続長モデル52を適用する。継続長モデル52はこの入力に対し、学習結果に基づいて、その入力を回帰木中の適切なリーフノードに割当て、そのリーフノードに対応する値を処理対象の音素に対する継続長の予測値として継続長予測部62に与える。
継続長予測部62はこの値を波形選択部64に与える。波形選択部64は、テキスト処理部60からの出力と継続長予測部62の出力である継続長の予測値とを受け、所定のコスト計算を行なって音声コーパス38の中からターゲットコストおよび接続コストが最小となる波形シーケンスを選択する。実際には波形選択部64は、音素ごとにコスト計算を行なって複数の波形候補を算出することで波形シーケンス候補を複数個生成し、例えば入力テキストのうち所定部分に対する処理が終了した時点で最もコストの小さな波形シーケンスを選択する。波形選択部64は、選択した波形シーケンスを示す情報を波形接続部66に与える。
波形接続部66は、波形選択部64から与えられた情報に基づき、音声コーパス38の中で波形選択部64により選択された波形シーケンスを構成する波形セグメントの波形データを読出し、互いに接続する。接続された波形データのシーケンスは音声波形40として出力される。
[実験]
−実験条件−
本実施の形態に係る装置の有効性を確認するため、音素継続長の予測誤差による客観評価を行なった。実験に用いたデータは出願人において準備したATR音韻バランス文セットBの503文を男性話者(M007)および女性話者(F009)が読上げた音声データである。本実験では503文中の400文を学習データとして用い、残りの103文をテストデータとして用いた。実験に用いた音素継続時間長のラベルは手作業により与え、さらに説明変数として47種類の音韻・韻律情報および言語情報を付与している。
−実験条件−
本実施の形態に係る装置の有効性を確認するため、音素継続長の予測誤差による客観評価を行なった。実験に用いたデータは出願人において準備したATR音韻バランス文セットBの503文を男性話者(M007)および女性話者(F009)が読上げた音声データである。本実験では503文中の400文を学習データとして用い、残りの103文をテストデータとして用いた。実験に用いた音素継続時間長のラベルは手作業により与え、さらに説明変数として47種類の音韻・韻律情報および言語情報を付与している。
Bagging およびGradient Boostingのベースとなる予測モデルには2分木の回帰木を用いた。ただし、母音部、子音部それぞれ別々に回帰木を構築し、枝刈りおよびスムージングを行なっている。またBaggingおよびGradient Boostingの繰返し回数はいずれも10回とし、Gradient Boostingの収束パラメータνは予備実験より0.5とした。また比較のため、重回帰/数量化I類を用いた予測手法(非特許文献8)も同様に評価した。
−客観評価結果−
表1に各手法のテストデータに対する客観評価結果を示す。表1において「重回帰」、「回帰木」、「Bagging」、「Boosting」はそれぞれ重回帰/数量化I類(非特許文献8)、単体の回帰木(非特許文献2)、Bagging を用いた回帰木(非特許文献4)、および本実施の形態に係るGradient Boostingを用いた回帰木による結果を示す。「相関係数」および「RMSE」はそれぞれ正解値に対するピアソンの積率相関係数、平均二乗誤差を示す。
表1に各手法のテストデータに対する客観評価結果を示す。表1において「重回帰」、「回帰木」、「Bagging」、「Boosting」はそれぞれ重回帰/数量化I類(非特許文献8)、単体の回帰木(非特許文献2)、Bagging を用いた回帰木(非特許文献4)、および本実施の形態に係るGradient Boostingを用いた回帰木による結果を示す。「相関係数」および「RMSE」はそれぞれ正解値に対するピアソンの積率相関係数、平均二乗誤差を示す。
次に、図3に話者F009の母音データに対するBaggingおよびGradient Boostingアルゴリズムの各繰返しにおけるパラメータ(リーフノード)数を示す。この図において「Bagging」、「Boosting」として示した折れ線 は、それぞれBaggingアルゴリズムおよびGradient Boostingアルゴリズムによる回帰木のリーフノード数を示す。
図3から、Gradient BoostingはBaggingよりもパラメータ数が少なくなっていることを確認できる。
これらの結果より、Gradient Boostingアルゴリズムは、Baggingアルゴリズムよりも少ないパラメータ数で効率的に予測性能を向上させることが可能であることがわかる。
[実施の形態の効果]
以上のように本実施の形態では、音韻継続長の予測性能を効率的に向上させるため、回帰木を用いた予測手法に対してGradient Boostingアルゴリズムを導入した。オープンデータに対する客観評価の結果、本実施の形態によればBaggingアルゴリズムよりも少ないパラメータ数でより誤差の少ない予測モデルを構築できる。また、この手法は音韻継続長の予測に限らず、同種の予測にも適用可能である。
以上のように本実施の形態では、音韻継続長の予測性能を効率的に向上させるため、回帰木を用いた予測手法に対してGradient Boostingアルゴリズムを導入した。オープンデータに対する客観評価の結果、本実施の形態によればBaggingアルゴリズムよりも少ないパラメータ数でより誤差の少ない予測モデルを構築できる。また、この手法は音韻継続長の予測に限らず、同種の予測にも適用可能である。
[コンピュータによる実現]
なお、上記した第1の実施の形態に係るモデル学習処理装置32および音声合成装置36は、コンピュータシステムと、当該コンピュータシステムにより実行されるコンピュータプログラムと、当該コンピュータシステム内の記憶装置または外部記憶装置に格納されるデータとにより実現できる。図4はこのコンピュータシステム330の外観を示し、図5はコンピュータシステム330の内部構成を示す。
なお、上記した第1の実施の形態に係るモデル学習処理装置32および音声合成装置36は、コンピュータシステムと、当該コンピュータシステムにより実行されるコンピュータプログラムと、当該コンピュータシステム内の記憶装置または外部記憶装置に格納されるデータとにより実現できる。図4はこのコンピュータシステム330の外観を示し、図5はコンピュータシステム330の内部構成を示す。
図4を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、いずれもコンピュータ340に接続されるキーボード346、マウス348、およびモニタ342とを含む。
図5を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に上記したモデル学習処理装置32または音声合成装置36としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340に上記したモデル学習処理装置32または音声合成装置36としての動作を行なわせる複数の命令を含む。このために必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したモデル学習処理装置32または音声合成装置36としての動作を実現するための命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
[変形例]
上記した実施の形態では、合成する音素の継続長の予測のためのモデル学習にGradient Boostingアルゴリズムを適用した。しかし本発明は継続長予測のためのモデル学習のみに適用可能なわけではない。音声合成のうち、ターゲットコストのように、合成目標のみから予測可能な音響的特徴であれば、どのようなものに対しても適用可能である。例えば音素のスペクトル(声質)のターゲット値、または基本周波数(声の高さ)のターゲット値などに適用可能である。
上記した実施の形態では、合成する音素の継続長の予測のためのモデル学習にGradient Boostingアルゴリズムを適用した。しかし本発明は継続長予測のためのモデル学習のみに適用可能なわけではない。音声合成のうち、ターゲットコストのように、合成目標のみから予測可能な音響的特徴であれば、どのようなものに対しても適用可能である。例えば音素のスペクトル(声質)のターゲット値、または基本周波数(声の高さ)のターゲット値などに適用可能である。
また、上記した実施の形態では、音素ごとに継続長の予測を行なっている。しかし本発明は音素の継続長の予測に限らず、音声の所定単位ごとに合成目標の継続長などの予測のための予測モデルを構築できる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
20 音声合成システム、30 学習データ、32 モデル学習処理装置、34 入力テキスト、36 音声合成装置、38 音声コーパス、40 音声波形、52 継続長モデル、60 テキスト処理部、62 継続長予測部、64 波形選択部、66 波形接続部
Claims (8)
- 音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデルの作成方法であって、
予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ前記所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データを準備するステップと、
前記学習データを用いたGradient Boostingアルゴリズムにより、所定の予測モデルの学習を行なうステップとを含む、予測モデルの作成方法。 - 前記予測モデルは回帰木を含み、
前記学習を行なうステップは、前記学習データを用いたGradient Tree Boostingアルゴリズムにより、前記回帰木の学習を行なうステップを含む、請求項1に記載の予測モデルの作成方法。 - 前記回帰木は2分木の回帰木である、請求項2に記載の予測モデルの作成方法。
- 前記所定の音声単位に関する音響特徴量は、音声合成時のターゲットコスト計算に関連する音響特徴量である、請求項1〜請求項3のいずれかに記載の予測モデルの作成方法。
- 前記所定の音声単位に関する音響特徴量は、音声合成時の音声単位の継続長である、請求項4に記載の予測モデルの作成方法。
- 前記音声単位は音素である、請求項1〜請求項5のいずれかに記載の予測モデルの作成方法。
- 前記学習を行なうステップは、前記学習データを用いたGradient Boostingアルゴリズムにより、音素の母音部および子音部それぞれ別々に前記予測モデルを構築するステップを含む、請求項1〜請求項6のいずれかに記載の予測モデルの作成方法。
- コンピュータにより実行されると、請求項1〜請求項7のいずれかに記載の予測モデルの作成方法を実行するように前記コンピュータを制御する、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271529A JP2006084967A (ja) | 2004-09-17 | 2004-09-17 | 予測モデルの作成方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004271529A JP2006084967A (ja) | 2004-09-17 | 2004-09-17 | 予測モデルの作成方法およびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006084967A true JP2006084967A (ja) | 2006-03-30 |
Family
ID=36163513
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004271529A Pending JP2006084967A (ja) | 2004-09-17 | 2004-09-17 | 予測モデルの作成方法およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006084967A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019107379A1 (ja) * | 2017-11-29 | 2019-06-06 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
KR102057926B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR102057927B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265375A (ja) * | 2000-03-17 | 2001-09-28 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
JP2001350491A (ja) * | 2000-06-07 | 2001-12-21 | Canon Inc | 音声処理方法および装置 |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
JP2003177790A (ja) * | 2001-09-13 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
-
2004
- 2004-09-17 JP JP2004271529A patent/JP2006084967A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001265375A (ja) * | 2000-03-17 | 2001-09-28 | Oki Electric Ind Co Ltd | 規則音声合成装置 |
JP2001350491A (ja) * | 2000-06-07 | 2001-12-21 | Canon Inc | 音声処理方法および装置 |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
JP2003177790A (ja) * | 2001-09-13 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019107379A1 (ja) * | 2017-11-29 | 2019-06-06 | ヤマハ株式会社 | 音声合成方法、音声合成装置およびプログラム |
CN111418005A (zh) * | 2017-11-29 | 2020-07-14 | 雅马哈株式会社 | 声音合成方法、声音合成装置及程序 |
US11295723B2 (en) | 2017-11-29 | 2022-04-05 | Yamaha Corporation | Voice synthesis method, voice synthesis apparatus, and recording medium |
CN111418005B (zh) * | 2017-11-29 | 2023-08-11 | 雅马哈株式会社 | 声音合成方法、声音合成装置及存储介质 |
KR102057926B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
KR102057927B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
WO2020190050A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
WO2020190054A1 (ko) * | 2019-03-19 | 2020-09-24 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11295721B2 (en) | Generating expressive speech audio from text data | |
JP7504188B2 (ja) | エンドツーエンド音声合成システムにおける表現度の制御 | |
KR102327614B1 (ko) | 클록워크 계층적 변이 인코더 | |
US6038533A (en) | System and method for selecting training text | |
Wang et al. | A Vector Quantized Variational Autoencoder (VQ-VAE) Autoregressive Neural $ F_0 $ Model for Statistical Parametric Speech Synthesis | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
KR102398993B1 (ko) | 텍스트 생성 장치 및 방법 | |
WO2018159402A1 (ja) | 音声合成システム、音声合成プログラムおよび音声合成方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
EP4158619B1 (en) | Phrase-based end-to-end text-to-speech (tts) synthesis | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP2003302992A (ja) | 音声合成方法及び装置 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
KR20200111608A (ko) | 음성 합성 장치 및 그 방법 | |
Dutta et al. | Evaluating a neural multi-turn chatbot using BLEU score | |
JP4292191B2 (ja) | 素片接続型音声合成装置及びコンピュータプログラム | |
JP2006084967A (ja) | 予測モデルの作成方法およびコンピュータプログラム | |
US20240038213A1 (en) | Generating method, generating device, and generating program | |
JP6902759B2 (ja) | 音響モデル学習装置、音声合成装置、方法およびプログラム | |
JP7235136B2 (ja) | ポーズ推定モデル学習装置、ポーズ推定装置、それらの方法、およびプログラム | |
JP2004246140A (ja) | テキスト選択方法、装置及びプログラム | |
Braun et al. | Automatic language identification with perceptually guided training and recurrent neural networks | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
JP7367609B2 (ja) | 応答文生成装置、強化学習装置、応答文生成方法、モデル生成方法、プログラム | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100301 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100706 |