JP2006084967A

JP2006084967A - 予測モデルの作成方法およびコンピュータプログラム

Info

Publication number: JP2006084967A
Application number: JP2004271529A
Authority: JP
Inventors: Junichi Yamagishi; 順一山岸; Hisashi Kawai; 恒河井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-09-17
Filing date: 2004-09-17
Publication date: 2006-03-30

Abstract

【課題】音声合成の合成目標の音響特徴量の予測モデルをより効率的に作成できる方法を提供する。
【解決手段】予測モデルの作成方法は、音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデル５２の作成方法であって、予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データ３０を準備するステップと、学習データを用いたＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムにより、所定の予測モデル５２の学習を行なうステップ３２とを含む。
【選択図】図１

Description

この発明は音声合成における合成目標の予測技術に関し、特に、音声合成中の合成目標の音響特徴量の予測モデルの作成方法に関する。

音声合成において音韻継続長は合成音声のリズムやテンポを担う重要な特徴量の一つである。この音韻継続長の予測／制御には音韻・韻律情報や言語情報を説明変数とした音韻継続長関数の関数近似問題と考える手法が広く用いられている。

音韻継続長（以下継続長と呼ぶことにする。）の予測問題に対してこれまで、重回帰/数量化Ｉ類を用いた手法（非特許文献１）、ＣＡＲＴ（Classification and Regression Tree）（非特許文献２）などの回帰木を用いた手法（非特許文献３）、ニューラルネットを用いた手法（非特許文献４および５）、およびｓｕｍ−ｏｆ−ｐｒｏｄｕｃｔｓを用いた手法（非特許文献６）が広く用いられている。

また、並列型アンサンブル学習の一つであるＢａｇｇｉｎｇ（Bootstrap and Aggregating）（非特許文献３）をＣＡＲＴによる予測手法に応用し、予測性能を向上させる試みも行なわれている（非特許文献４）。

並列型アンサンブル学習の一つであるＢａｇｇｉｎｇアルゴリズム（非特許文献７）について簡単に説明する。ある入力ベクトルｘ＝（ｘ₁，ｘ₂，…，ｘ_n）の正解値をｙとする。学習データはＮ個、｛ｙ_i，ｘ_i｝（ｉ＝１〜Ｎ）であるとする。このとき、Ｍ個の異なる予測モデルｈ（ｘ，ａ_m）を加算し、単純に平均をとることで新たな予測モデルＦ（ｘ）を作る。この手法がＢａｇｇｉｎｇである。

ここでａ_mはｍ番目の予測モデルのパラメータを表している。

Ｂａｇｇｉｎｇでは学習データに対してブートストラップ法を繰返し行ない、擬似的な学習データをＭ個作り出し、これらをもとに複数の予測モデルｈ（ｘ，ａ_m）を独立に構築する。
Ｎ．カイキ他、「言語情報を用いた母音継続長制御」、ＩＥＩＣＥトランザクション、第Ｊ７５−Ａ巻、第３号、ｐｐ．４６７−４７３、１９９２年（N. Kaiki, T. Takeda and Y. Sagisaka, "Vowel duration control using linguistic information," Trans. IEICE, vol.J75-A, no.3, pp.467-473, March 1992.）Ｌ．ブライマン他、「分類および回帰木」、ワズワース統計／確率シリーズ、ベルモント、１９８４年（L. Breiman, J.H. Friedman, R.A. Olshen and C.J.Stone, "Classification and regression trees," Wadsworth statistics/probability series, Belmont, 1984）Ｍ．Ｄ．ライリー、「セグメント継続長のツリーを用いたモデリング」、話す機械：理論・モデル・設計、ｐｐ．２６５−２７３、１９９２年（M.D. Riley, "Tree-based modelling of segmental duration," Talking Machines : Theories, Models, Designs, pp.265-273, 1992.）Ｗ．キャンベル、「シラブルタイミングのためのアナログＩ／Ｏネット」、音声コミュニケーション、第９巻、ｐｐ．５７−６１、１９９０年（W. Campbell, "Analog I/O nets for syllable timing, "Speech Communication, vol.9, pp.57-61, 1990.）Ｍ．リエディ、「ニューラルネットワークを用いた、音声合成のためのセグメント継続長モデル」、ＥＵＲＯＳＰＥＥＣＨ−９５予稿集、ｐｐ．５９９−６０２、１９９５年（M. Riedi, "A neural-network-based model of segmental duration for speech synthesis," Proc. EUROSPEECH-95, pp.599-602, Sept. 1995.）Ｊ．Ｐ．Ｈ．ヴァンサンテン、「テキスト・ツー・スピーチ合成におけるセグメント継続長の割当」、コンピュータ音声および言語、第８巻、ｐｐ．９５−１２８、１９９４年（J.P.H. van Santen, "Assignment of segmental duration in text-to-speech synthesis," Computer Speech and Language, vol.8, pp.95-128, 1994.）Ｌ．ブライマン、「Ｂａｇｇｉｎｇ予測装置」、機械学習、第２４号、ｐｐ．１２３−１４０、１９９６年（L. Breiman, "Bagging predictors," Machine Learning, no.24, pp.123-140, 1996.）Ｓ．リー他、「ＣＡＲＴによる韓国語セグメントの継続長モデリング」、東洋ＣＯＣＯＳＤＡ’９９予稿集、ｐｐ．１０９−１１２、１９９９年（S. Lee and Y. Oh, "CART-based modelling of Korean segmental duration," Proc. Oriental COCOSDA ’99, pp.109-112, 1999.）Ｊ．Ｈ．フリードマン、「貪欲関数近似：グラディエント・ブースティング機械」、統計学会誌、第２９巻、第５号、ｐｐ．１１８９−１２３２、２００１年（J.H. Friedman, "Greedy function approximation: A gradient boosting machine," Annals of Statistics, vol.29, no.5, pp.1189-1232, 2001.）Ｊ．Ｈ．フリードマン、「確率論的グラディエント・ブースティング」、計算統計学およびデータ分析、第３８巻、第４号、ｐｐ．３６７−３７８、２００２年（J.H. Friedman, "Stochastic gradient boosting," Computational Statistics & Data Analysis, vol.38, no.4, pp.367-378, 2002.）Ｙ．フロイント他、「オンライン学習の決定理論的一般化およびブースティングへの応用」、コンピュータおよびシステムジャーナル、第５５巻、第１号、ｐｐ．１１９−１３９、１９９７年（Y. Freund and R.E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting," J. Computer & System Sciences, vol.55, no.1, pp.119-139, 1997.）Ｊ．Ｒ．クインラン、「連続クラスによる学習」、ＡＩ’９２予稿集、ｐｐ．３４３−３４８、１９９２年（J.R. Quinlan, "Learning with continuous classes," Proc. AI'92, pp.343-348, 1992.）Ｙ．ワング他、「連続クラスのためのモデルツリーの誘導」、機械学習に関するヨーロッパ会議予稿集、ｐｐ．１２８−１３７、１９９７年（Y. Wang and I.H. Witten, "Inducing model trees for continuous classes," Proc. European Conference on Machine Learning, pp.128-137, 1997.）

従来技術のＢａｇｇｉｎｇを用いた手法は、学習データに特異なデータが含まれている場合に汎化性を高める能力を持っている。しかし質の良い学習データに対しては予測性能を下げる可能性もある。またパラメータ数も非常に多くなり、効率的な手法とは言い難い。このような問題は、音韻の継続長予測に限らず、同種の予測のためのモデル構築に共通する課題である。

それゆえに本発明の一つの目的は、より効率的に音声合成の合成目標の音響特徴量の予測モデルが構築できる予測モデル作成方法を提供することである。

本発明の他の目的は、Ｂａｇｇｉｎｇを用いた手法よりも少ないパラメータ数で、より効率的に音声合成の合成目標の音響特徴量の予測モデルが構築できる予測モデル作成方法を提供することである。

本発明の第１の局面によれば、予測モデルの作成方法は、音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデルの作成方法であって、予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データを準備するステップと、学習データを用いたＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムにより、所定の予測モデルの学習を行なうステップとを含む。

このようにＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムによって学習した予測モデルを用いると、従来のＢａｇｇｉｎｇアルゴリズムを用いた場合よりも少ないパラメータで、効率よく誤差の少ない予測を行なうことができる。

好ましくは、予測モデルは回帰木を含み、学習を行なうステップは、学習データを用いたＧｒａｄｉｅｎｔＴｒｅｅＢｏｏｓｔｉｎｇアルゴリズムにより、回帰木の学習を行なうステップを含む。

学習にＧｒａｄｉｅｎｔＴｒｅｅＢｏｏｓｔｉｎｇアルゴリズムを用いることで、少ないパラメータで、効率よく誤差の少ない予測を行なうことができる回帰木を構築できる。

さらに好ましくは、回帰木は２分木の回帰木である。

所定の音声単位に関する音響特徴量は、音声合成時のターゲットコスト計算に関連する音響特徴量でもよく、例えば音声合成時の音声単位の継続長でもよい。

好ましくは、音声単位は音素である。

さらに好ましくは、学習を行なうステップは、学習データを用いたＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムにより、音素の母音部および子音部それぞれ別々に予測モデルを構築するステップを含む。

本発明の第２の局面によれば、コンピュータプログラムは、コンピュータにより実行されると、上記したいずれかの予測モデルの作成方法を実行するようにコンピュータを制御するものである。

［概要］
以下、本発明の一実施の形態として、逐次型アンサンブル学習を用いた音韻継続長の予測方法について説明する。本実施の形態では、逐次型アンサンブル学習としてＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズム（非特許文献９）を導入している。以下、このアルゴリズムについて説明し、その後にこのアルゴリズムを用いた音韻継続長の予測装置および方法について説明する。

なお、図面において同じ部品には同じ参照番号を付してある。それらの名称および機能も同一である。したがって、それらの詳細な説明は繰返さない。なお以下の記載で、記号「^~」（チルデ）は、数式中ではその直後の文字の直上に記載すべきものである。

［ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズム］
Ｂａｇｇｉｎｇアルゴリズムと同様、与えられた学習データ｛ｙ_i，ｘ_i｝（ｉ＝１〜Ｎ）からＭ個の異なる予測モデルｈ（ｘ，ａ_m）を加法的に結合し、新たな予測モデルＦ（ｘ）を作ることを考える。

ここでβ_mはｍ番目の予測モデルの重み係数である。

非特許文献７に記載のＡｄａＢｏｏｓｔに代表されるＢｏｏｓｔｉｎｇアルゴリズムでは、ａ_mおよびβ_mを損失関数Ψ（ｙ，Ｆ（ｘ））のもとで逐次最適化することにより式（２）の加法モデルを求めている。つまり、ｍ−１番目までの予測モデルを加法したモデルをＦ_m-1（ｘ）と表すと、ｍ番目の予測モデルのパラメータａ_mおよび重み係数β_mは以下のように求める。

そしてｍ番目の予測モデルを加法したモデルＦ_m（ｘ）は上式のβ_mおよびａ_mを用いて次の式にしたがって与えればよい。なおこの式で損失関数をΨ（ｙ，Ｆ）＝ｅ^-yFとすればＡｄａＢｏｏｓｔアルゴリズム（非特許文献１１参照）となる。

しかし、任意の損失関数に対して式（３）を解くことは困難な問題である。そこで、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇ（非特許文献５）では上記の問題をａ_mを求めるステップおよびβ_mを求めるステップに分け、近似的に式（３）を求めている。予測モデルのパラメータａ_mを求めるステップでは、現在の加法モデルＦ_m-1（ｘ）と正解値ｙ_iとの損失関数上において

により与えられる^~ｙ_imを学習データｉの現時点における仮残差とし、この仮残差^~ｙ_imに対する二乗誤差を最小にするモデルパラメータａ_mを求める。

そして、上記の予測モデルｈ（ｘ，ａ_m）をもとに、損失関数上での誤差が最小になるように重み係数β_mを決定する。

［回帰木のアンサンブル学習：ＧｒａｄｉｅｎｔＴｒｅｅＢｏｏｓｔｉｎｇ］
次にＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇにおいて、ベースの学習モデルとしてＬ個のリーフノードにより構成される回帰木（Ｒｅｇｒｅｓｓｉｏｎｔｒｅｅ）を用いた場合について説明する。この手法はＧｒａｄｉｅｎｔＴｒｅｅＢｏｏｓｔｉｎｇまたはＭｕｌｔｉｐｌｅＡｄｄｉｔｉｖｅＲｅｇｒｅｓｓｉｏｎＴｒｅｅｓ（ＭＡＲＴ）と呼ばれている。Ｌ個のリーフノードを持つ回帰木は入力ベクトル空間ｘを互いに素なＬ個の空間（Ｒ_lm）（ｌ＝１〜Ｌ）に分割し、各空間である定数を返す予測モデルである。したがって、ｍ番目の繰返しにおける回帰木は以下のように表すことが出来る。

ここで

であり、１（・）は引数が真のとき１を返し、真でないときは０を返す関数である。またｍｅａｎ（・）は引数の平均を計算する関数である。

回帰木は、各リーフノードにおいてある定数を返すモデルであるので、式（７）は以下のように簡単化できる。

である。また、同様に式（４）は以下のように書くことができる。

ここで新たに収束パラメータνを式（１１）に導入する。収束パラメータνは、ν≦１のとき汎化誤差を少なくすることが経験的に知られている。この収束パラメータνを用いると式（１１）は以下のようになる。

以上をまとめると、ベースの学習モデルに回帰木を用いた場合のＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムは以下のようになる

損失関数には二乗誤差

または絶対誤差

またはＨｕｂｅｒのＭ推定量

等が用いられることが多い。本実施の形態では、以下の二乗誤差を用いている。

なお、この損失関数においては仮残差は以下のようになる。

つまり、この損失関数を用いると、単純に現在の予測モデルにおける残差に基づき次の予測モデルを作るアルゴリズムとなり、一般化加法モデルに近いアルゴリズムとなる。

［構成］
図１に、本発明の一実施の形態に係る音声合成システム２０の構成をブロック図形式で示す。図１を参照して音声合成システム２０は、学習データ３０を用いて音声の継続長モデル５２の学習を行なうためのモデル学習処理装置３２と、この継続長モデル５２と予め準備された音声コーパス３８とを用い、入力テキスト３４に対する音声合成を行ない、入力テキスト３４に対応する音声波形４０を出力するための音声合成装置３６とを含む。

学習データ３０は、予め準備したテキストを所定の話者が読上げた音声データを含む。この音声データは音素の境界に付されたマーカを含み、各音素には音素継続長を示すラベルが手作業により予め付されている。さらに各音素には、複数種類（本実施の形態では４７種類）の説明変数が付されている。説明変数としては、次のような音韻・韻律情報（アクセント型、呼気段落などに関する情報）および言語情報（品詞、活用形などに関する情報）を用いている。
１．先先行音素
２．先行音素
３．当該音素
４．後続音素
５．後後続音素
６．アクセント核とモーラ位置との差（単位：モーラ）
７．前からカウントした当該韻律語内での当該モーラ位置（単位：モーラ）
８．後ろからカウントした当該韻律語内での当該モーラ位置（単位：モーラ）
９．先行形態素の品詞
１０．先行形態素の品詞の活用形
１１．先行形態素の品詞の活用型
１２．先行形態素の境界の種別
１３．当該形態素の品詞
１４．当該形態素の品詞の活用形
１５．当該形態素の品詞の活用型
１６．当該形態素の境界の種別
１７．後続形態素の品詞
１８．後続形態素の品詞の活用形
１９．後続形態素の品詞の活用型
２０．後続形態素の境界の種別
２１．先行韻律語の長さ（単位：モーラ）
２２．先行韻律語のアクセント型
２３．先行韻律語と当該韻律語間のポーズの有無
２４．当該韻律語の長さ（単位：モーラ）
２５．当該韻律語のアクセント型
２６．前からカウントした当該呼気段落での韻律語の位置（単位：韻律語）
２７．後ろからカウントした当該呼気段落での韻律語の位置（単位：韻律語）
２８．前からカウントした当該呼気段落での韻律語の位置（単位：モーラ）
２９．後ろからカウントした当該呼気段落での韻律語の位置（単位：モーラ）
３０．後続韻律語の長さ（単位：モーラ）
３１．後続韻律語のアクセント型
３２．後続韻律語と当該韻律語間のポーズの有無
３３．先行呼気段落の長さ（単位：韻律語）
３４．先行呼気段落の長さ（単位：モーラ）
３５．当該呼気段落の長さ（単位：韻律語）
３６．当該呼気段落の長さ（単位：モーラ）
３７．前からカウントした文中での当該呼気段落の位置（単位：呼気段落）
３８．後ろからカウントした文中での当該呼気段落の位置（単位：呼気段落）
３９．前からカウントした文中での当該呼気段落の位置（単位：韻律語）
４０．後ろからカウントした文中での当該呼気段落の位置（単位：韻律語）
４１．前からカウントした文中での当該呼気段落の位置（単位：モーラ）
４２．後ろからカウントした文中での当該呼気段落の位置（単位：モーラ）
４３．後続呼気段落の長さ（単位：韻律語）
４４．後続呼気段落の長さ（単位：モーラ）
４５．文の長さ（単位：呼気段落）
４６．文の長さ（単位：韻律語）
４７．文の長さ（単位：モーラ）
継続長モデル５２としては２分木の回帰木を用いる。ただし、母音部、子音部それぞれに対し別々に回帰木を構築し、枝刈りおよびスムージングを行なうようにしている。

音声コーパス３８は、本実施の形態では学習データ３０の音声録音を行なった話者と同一の話者による所定のテキストの読上げ音声データを含む。この音声データは音声合成の単位となる波形セグメントに分離されている。各波形セグメントには、音声合成の際のコスト計算に用いられる特徴量が予め計算され付与されている。

なおコストとは、波形セグメントを接続したときに、得られる音声が合成目標に近く、かつ自然となるように、波形セグメントの音響特徴量に対して計算されるペナルティのことをいう。コストが最小となるように波形を選択し、接続することにより、滑らかで自然な音声合成ができる。コストは、波形の候補と合成目標との間で計算される、目標に対する適合度を示すターゲットコストと、互いに隣接する二つの波形候補の間で計算される、接続の自然さを示す接続コストとに分かれる。

モデル学習処理装置３２の実質は、上記したＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムを実行することにより継続長モデル５２の学習を行なうプログラムである。その制御構造については図２を参照して後述する。

音声合成装置３６は、入力テキスト３４に対しテキスト処理を行ない、音声の合成目標となる各音素について、上記したものと同様の音韻・韻律情報および言語情報を出力するためのテキスト処理部６０と、継続長モデル５２に対してテキスト処理部６０の出力する音韻・韻律情報および言語情報を適用することにより、合成目標の各音素に対する継続長を予測し出力するための継続長予測部６２と、継続長予測部６２の出力する継続長と、テキスト処理部６０の出力するその他の音韻・韻律情報および言語情報とを併せて受け、これら情報に基づいて音声コーパス３８に含まれる各波形セグメントの特徴量との間で所定のコスト計算を逐次行ない、コストが最小となる波形シーケンスを選択する波形選択部６４と、波形選択部６４が選択した波形シーケンスを構成する波形セグメントの波形データを音声コーパス３８から読出して互いに接続し、音声波形４０として出力するための波形接続部６６とを含む。

テキスト処理部６０、波形選択部６４、波形接続部６６の機能については、本発明とは直接関連しないので、個々には詳細は説明しない。これらは公知となっているコンピュータプログラムで実現可能である。なお、テキスト処理部６０の処理を行なうためには、形態素解析を行なうための辞書など、所定の言語資源が必要であるが、それらについてはよく知られているのでここではその詳細については説明しない。

継続長予測部６２は、テキスト処理部６０から与えられた情報を継続長モデル５２の２分木に対し適用することにより、対応する継続長の値を継続長モデル５２から受ける機能を持つ。

図２に、モデル学習処理装置３２の機能を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。このコンピュータプログラムは、既に説明したＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムを実現するものである。

図２を参照して、まずステップ８０において予測モデルの初期値Ｆ₀の値を以下の式により設定する。

次にステップ８２において、以下の繰返しを制御する繰返し変数ｍに０を代入する。続くステップ８４において変数ｍに１を加算する。ステップ８６で変数ｍの値が繰返しの上限数Ｍを超えたか否かを判定する。超えていれば処理を終了する。超えていなければステップ８８に進む。

ステップ８８では前に記載した式（５）にしたがった計算により、^~ｙ_imを求める。続いてステップ９０では、式（５）により求めた^~ｙ_imを用いて回帰木構築の処理を行なう。具体的には、^~ｙ_imを学習データｉの現時点における仮残差とし、この仮残差^~ｙ_imに対する二乗誤差を最小にするモデルパラメータａ_mを式（６）（前掲）により求める。

ステップ９２では、このようにして求めた予測モデルｈ（ｘ，ａ_m）をもとに、損失関数上での誤差が最小になるように重み係数β_mを決定する。ただしここでは式（１０）によってγ_lmを計算することで簡略に重み係数β_mを決定する。

さらにステップ９４で、式（１２）にしたがいｍ回目の繰返しの予測モデルＦ_m（ｘ）を決定する。この後ステップ８４に戻り、次のｍに対する処理を開始する。

［動作］
上記した音声合成システム２０は以下のように動作する。音声合成システム２０の動作は二つのフェーズに分かれる。第１のフェーズは継続長モデル５２の学習を行なう学習フェーズであり、第２のフェーズはこのように学習が行なわれた継続長モデル５２を用い、入力テキスト３４に対する音声合成を行なう音声合成フェーズである。以下、各フェーズについて順に説明する。

−学習−
予め学習データ３０を準備しておく。その内容については前述したとおりである。これに対し、図２に記載のアルゴリズムを適用することにより、継続長モデル５２の回帰木を訓練し、特徴量が与えられると、特定のリーフノードに対応する値が継続長として継続長モデル５２によって与えられるようにする。

−音声合成−
入力テキスト３４が与えられると、テキスト処理部６０がこのテキストを処理し、テキストを構成する音素ごとに音韻・韻律情報と言語情報とからなる合成目標を出力する。

継続長予測部６２は、テキスト処理部６０からの音素ごとに、音韻・韻律情報と言語情報とに継続長モデル５２を適用する。継続長モデル５２はこの入力に対し、学習結果に基づいて、その入力を回帰木中の適切なリーフノードに割当て、そのリーフノードに対応する値を処理対象の音素に対する継続長の予測値として継続長予測部６２に与える。

継続長予測部６２はこの値を波形選択部６４に与える。波形選択部６４は、テキスト処理部６０からの出力と継続長予測部６２の出力である継続長の予測値とを受け、所定のコスト計算を行なって音声コーパス３８の中からターゲットコストおよび接続コストが最小となる波形シーケンスを選択する。実際には波形選択部６４は、音素ごとにコスト計算を行なって複数の波形候補を算出することで波形シーケンス候補を複数個生成し、例えば入力テキストのうち所定部分に対する処理が終了した時点で最もコストの小さな波形シーケンスを選択する。波形選択部６４は、選択した波形シーケンスを示す情報を波形接続部６６に与える。

波形接続部６６は、波形選択部６４から与えられた情報に基づき、音声コーパス３８の中で波形選択部６４により選択された波形シーケンスを構成する波形セグメントの波形データを読出し、互いに接続する。接続された波形データのシーケンスは音声波形４０として出力される。

［実験］
−実験条件−
本実施の形態に係る装置の有効性を確認するため、音素継続長の予測誤差による客観評価を行なった。実験に用いたデータは出願人において準備したＡＴＲ音韻バランス文セットＢの５０３文を男性話者（Ｍ００７）および女性話者（Ｆ００９）が読上げた音声データである。本実験では５０３文中の４００文を学習データとして用い、残りの１０３文をテストデータとして用いた。実験に用いた音素継続時間長のラベルは手作業により与え、さらに説明変数として４７種類の音韻・韻律情報および言語情報を付与している。

ＢａｇｇｉｎｇおよびＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇのベースとなる予測モデルには２分木の回帰木を用いた。ただし、母音部、子音部それぞれ別々に回帰木を構築し、枝刈りおよびスムージングを行なっている。またＢａｇｇｉｎｇおよびＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇの繰返し回数はいずれも１０回とし、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇの収束パラメータνは予備実験より０．５とした。また比較のため、重回帰／数量化Ｉ類を用いた予測手法（非特許文献８）も同様に評価した。

−客観評価結果−
表１に各手法のテストデータに対する客観評価結果を示す。表１において「重回帰」、「回帰木」、「Ｂａｇｇｉｎｇ」、「Ｂｏｏｓｔｉｎｇ」はそれぞれ重回帰／数量化Ｉ類（非特許文献８）、単体の回帰木（非特許文献２）、Ｂａｇｇｉｎｇを用いた回帰木（非特許文献４）、および本実施の形態に係るＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇを用いた回帰木による結果を示す。「相関係数」および「ＲＭＳＥ」はそれぞれ正解値に対するピアソンの積率相関係数、平均二乗誤差を示す。

これらの客観評価結果からまずＢａｇｇｉｎｇアルゴリズムまたはＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムによるアンサンブル学習を行なうことで、どちらの話者においても単体の回帰木の場合よりも平均二乗誤差を少なくすることができることが確認できる。さらにＢａｇｇｉｎｇアルゴリズムと比べ、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムはより誤差の少ない予測モデルを構築できていることも確認できる。

次に、図３に話者Ｆ００９の母音データに対するＢａｇｇｉｎｇおよびＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムの各繰返しにおけるパラメータ（リーフノード）数を示す。この図において「Ｂａｇｇｉｎｇ」、「Ｂｏｏｓｔｉｎｇ」として示した折れ線は、それぞれＢａｇｇｉｎｇアルゴリズムおよびＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムによる回帰木のリーフノード数を示す。

図３から、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇはＢａｇｇｉｎｇよりもパラメータ数が少なくなっていることを確認できる。

これらの結果より、ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムは、Ｂａｇｇｉｎｇアルゴリズムよりも少ないパラメータ数で効率的に予測性能を向上させることが可能であることがわかる。

［実施の形態の効果］
以上のように本実施の形態では、音韻継続長の予測性能を効率的に向上させるため、回帰木を用いた予測手法に対してＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムを導入した。オープンデータに対する客観評価の結果、本実施の形態によればＢａｇｇｉｎｇアルゴリズムよりも少ないパラメータ数でより誤差の少ない予測モデルを構築できる。また、この手法は音韻継続長の予測に限らず、同種の予測にも適用可能である。

［コンピュータによる実現］
なお、上記した第１の実施の形態に係るモデル学習処理装置３２および音声合成装置３６は、コンピュータシステムと、当該コンピュータシステムにより実行されるコンピュータプログラムと、当該コンピュータシステム内の記憶装置または外部記憶装置に格納されるデータとにより実現できる。図４はこのコンピュータシステム３３０の外観を示し、図５はコンピュータシステム３３０の内部構成を示す。

図４を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、いずれもコンピュータ３４０に接続されるキーボード３４６、マウス３４８、およびモニタ３４２とを含む。

図５を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に上記したモデル学習処理装置３２または音声合成装置３６としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０に上記したモデル学習処理装置３２または音声合成装置３６としての動作を行なわせる複数の命令を含む。このために必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記したモデル学習処理装置３２または音声合成装置３６としての動作を実現するための命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

［変形例］
上記した実施の形態では、合成する音素の継続長の予測のためのモデル学習にＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムを適用した。しかし本発明は継続長予測のためのモデル学習のみに適用可能なわけではない。音声合成のうち、ターゲットコストのように、合成目標のみから予測可能な音響的特徴であれば、どのようなものに対しても適用可能である。例えば音素のスペクトル（声質）のターゲット値、または基本周波数（声の高さ）のターゲット値などに適用可能である。

また、上記した実施の形態では、音素ごとに継続長の予測を行なっている。しかし本発明は音素の継続長の予測に限らず、音声の所定単位ごとに合成目標の継続長などの予測のための予測モデルを構築できる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の一実施の形態に係る音声合成システム２０の機能的構成を示すブロック図である。モデル学習処理装置３２におけるモデル学習をコンピュータにより実現するためのプログラムの制御構造を示すフローチャートである。話者Ｆ００９の母音データに対するＢａｇｇｉｎｇおよびＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムの各繰返しにおけるパラメータ（リーフノード）数を示すグラフである。モデル学習処理装置３２および音声合成装置３６を実現するコンピュータの外観図である。図４に示すコンピュータのハードウェアブロック図である。

符号の説明

２０音声合成システム、３０学習データ、３２モデル学習処理装置、３４入力テキスト、３６音声合成装置、３８音声コーパス、４０音声波形、５２継続長モデル、６０テキスト処理部、６２継続長予測部、６４波形選択部、６６波形接続部

Claims

音声合成における所定の音声単位に関する音響特徴量の合成目標値の予測のための予測モデルの作成方法であって、
予め定められた音韻・韻律情報と言語情報とが所定の音声単位ごとに付され、かつ前記所定の音響特徴量に関するラベルが付された、コンピュータ読取可能な学習データを準備するステップと、
前記学習データを用いたＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムにより、所定の予測モデルの学習を行なうステップとを含む、予測モデルの作成方法。
前記予測モデルは回帰木を含み、
前記学習を行なうステップは、前記学習データを用いたＧｒａｄｉｅｎｔＴｒｅｅＢｏｏｓｔｉｎｇアルゴリズムにより、前記回帰木の学習を行なうステップを含む、請求項１に記載の予測モデルの作成方法。
前記回帰木は２分木の回帰木である、請求項２に記載の予測モデルの作成方法。
前記所定の音声単位に関する音響特徴量は、音声合成時のターゲットコスト計算に関連する音響特徴量である、請求項１〜請求項３のいずれかに記載の予測モデルの作成方法。
前記所定の音声単位に関する音響特徴量は、音声合成時の音声単位の継続長である、請求項４に記載の予測モデルの作成方法。
前記音声単位は音素である、請求項１〜請求項５のいずれかに記載の予測モデルの作成方法。
前記学習を行なうステップは、前記学習データを用いたＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇアルゴリズムにより、音素の母音部および子音部それぞれ別々に前記予測モデルを構築するステップを含む、請求項１〜請求項６のいずれかに記載の予測モデルの作成方法。
コンピュータにより実行されると、請求項１〜請求項７のいずれかに記載の予測モデルの作成方法を実行するように前記コンピュータを制御する、コンピュータプログラム。