JP4223416B2

JP4223416B2 - Ｆ０輪郭を合成する方法及びコンピュータプログラム

Info

Publication number: JP4223416B2
Application number: JP2004045855A
Authority: JP
Inventors: ジンフ・ニ; 恒河井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-02-23
Filing date: 2004-02-23
Publication date: 2009-02-12
Anticipated expiration: 2024-02-23
Also published as: JP2005234418A

Description

この発明は音声合成方法に関し、特に、声調言語の音声合成方法及びシステムに関する。

高品質の合成音声を達成するために、テキストを分析して得られた言語学的情報を信頼性をもって伝えるよう、韻律生成の性能を改善するための努力がなされてきた。韻律生成の最も困難な点は、いかにして音声を適切な声調とイントネーションで合成するか、ということである。この韻律要素は、声調言語では特に重要である。

中国語は典型的な声調言語の一つである。中国語の韻律的構成体系（complex）において、特に基本周波数（Ｆ_０）輪郭に焦点をあてると、最も小さな特徴的な構成要素は声調である。声調が基本となるのは、韻律的構成体系それ自体を含むより大きな構造が、一つまたは二つ以上の声調を特定の形で変形したものだからである。この観点から、中国語のＦ_０輪郭の合成では声調と、文脈によるその変動とに焦点を当てることができる。

チャオ、Ｙ．Ｒ．１９６８、「中国語話し言葉の文法」、バークレー、ＣＡ、カリフォルニア大学出版局（Chao, Y. R., 1968. A Grammar of Spoken Chinese. Berkeley, CA. University of California Press.）シェン、Ｘ．Ｓ．１９９０、「標準中国語の韻律」、カリフォルニア大学出版局。（Shen, X. S., 1990. The Prosody of Mandarin Chinese. University of California Publications.）シェン、「漢語語調と語調類型」、中国語文、１９９４、３、２２１−２２８

シュイ、Ｙ．１９９９、「Ｆ０輪郭の形成及びアライメントに対する声調と焦点の効果」、音声学ジャーナル、２７、５５−１０５。（Xu, Y., 1999. Effects of Tone and Focus on the Formation and Alignment of F0 Contours. Journal of Phonetics, 27, 55-105.）ニ、Ｊ及びヒロセ、Ｋ.２０００、「標準中国語文の基本周波数輪郭の機能的モデリングに対する実験的評価」、ＩＳＣＳＬＰ２０００、北京、３１９−３２２。（Ni, J. and Hirose, K., 2000. Experimental Evaluation of a Functional Modeling of Fundamental Frequency Contours of Standard Chinese Sentences. ISCSLP2000. Beijing, 319-322.）ニ、Ｊ及びカワイ、Ｈ.、「パラメータ的モデリングによる声調特徴の抽出と合成ベース分析によるパターンマッチング」、ＩＣＡＳＳＰ２００３、ｐｐ.７２−７５、２００３。（Ni, J. and Kawai, H., "Tone Feature Extraction through Parametric Modeling and Analysis-by-Synthesis-based Pattern Matching," ICASSP2003, pp. 72-75, 2003.）カワハラ、Ｈ.、イクヨ、Ｍ．Ｋ．、チェイニー、Ａ．１９９９、「ピッチ適応時間周波数平滑化及び瞬時周波数ベースのＦ０抽出を用いた音声表現の再構築：音声における反復構造の果たし得る役割」、音声コミュニケーション、２７、１８７−２０７。（Kawahara, H., Ikuyo, M. K., Cheneigne, A., 1999. Restructuring Speech Representations Using a Pitch-Adaptive Time-Frequency Smoothing and an Instantaneous-Frequency-Based F0 Extraction: Possible Role of a Repetitive Structure in Sounds. Speech Communication, 27, 187-207.）コロベール、Ｒ．、ベンジオ、Ｓ．及びマリソン、Ｊ.、「トーチ：モジュラー機械学習ソフトウェアライブラリ」、技術報告ＩＤＩＡＰ、ｐｐ.１−９、２００２。（Collobert, R., Bengio, S., and Mariethon, J., "Torch: a Modular Machine Learning Software Library," Technical Report IDIAP, pp. 1-9, 2002.）

ピッチターゲットは、中国語の声調及びイントネーションの表出において重要な役割を果たしていると考えられる。ピッチターゲットは基本的には、高低を含むが、これは英語や日本語のようなアクセント言語のイントネーションを表すのに通常用いられるものである。中国語には、第一声から第四声と呼ばれる四声があり、さらに、第０声と呼ばれる中間的な声調がある。もし話者の音声を、１．低、２．半低、３．中間、４．半高、５．高という点数で表した４個の等しい間隔に分割するとすれば、第一声から第四声はそれぞれ、５５、３５、２１４、及び５１と表される。実際の間隔と絶対ピッチとは共に個々の音声と話すときの気分（ｍｏｏｄ）とに対し相対的なものであるから、この明細書で用いる「ピッチターゲット」という用語は、時間変化に対するＦ_０（基本周波数）の山と谷を意味する。

他方で、声調とイントネーションとのパターンと、Ｆ_０輪郭との間には密接な関連が存在する。声調パターンの時間範囲は音節のサイズに限定されるのに対し、イントネーションパターンの時間範囲は音節以上のものをカバーし、発話全体に及ぶ場合もある。

声調及びイントネーションについては、多くの研究があり、例えば非特許文献１から非特許文献４等の文献がそうである。過去の知覚試験及び器具を用いた分析から、発話のＦ_０輪郭は声調とイントネーションを複合的に表し得る、という一致した見解が得られている。

しかし、いくつかの基本的な問題について、少なくとも実務的には、明確な解答は得られていない。例えば、中国語の声調とイントネーションとを表すのにピッチターゲットで十分であるのか、またはテキスト―音声変換において自然な音を達成するために、声調とイントネーションとの合成に必要な必須の特徴は何か、といったことは明確でない。このため、自然な中国語音声を合成する信頼のおける方法はなかった。

従って、この発明の目的の一つは、高い信頼性をもって自然な音声を合成する方法とコンピュータプログラムとを提供することである。

この発明の一つの局面に従えば、所定の声調言語の言語学的情報から基本周波数（Ｆ_０）輪郭を合成する方法は、声調基本周波数の山及び谷パラメータの、声調言語の言語学的特徴に対する内部依存性をモデリングするための機械学習モデルを準備するステップと、機械学習モデルを用いて、入力された言語学的情報に対応するＦ_０の山及び谷パラメータを予測するステップと、予測されたＦ_０の山及び谷パラメータに基づいてＦ_０輪郭を生成するステップとを含む。

好ましくは、準備するステップは、言語学的情報とそれに関連する発話データとを含むトレーニングデータセットを準備するステップと、トレーニングデータセット内の発話データからＦ_０輪郭モデルパラメータを抽出するステップと、抽出するステップで抽出されたＦ_０輪郭モデルパラメータからＦ_０の山及び谷パラメータを推定するステップと、推定するステップで推定されたＦ_０の山及び谷パラメータと、トレーニングデータセット内の言語学的情報とを用いて、機械学習モデルがＦ_０の山及び谷パラメータの言語学的情報に対する内部依存性を学習するように、機械学習モデルをトレーニングするステップとを含む。

より好ましくは、Ｆ_０の山及び谷パラメータを推定するステップが、トレーニングデータセット内の各発話のＦ_０輪郭を、時間軸に沿って直列に並んだ連続した山型パターンで表されるＲＯＮＤＯ−Ｆ_０輪郭に変換するステップと、変換するステップで得られたＲＯＮＤＯ−Ｆ_０輪郭内におけるＦ_０の山を特定するステップと、変換するステップで得られたＲＯＮＤＯ−Ｆ_０輪郭内で、隣接する全てのＦ_０の山の間に、隣接するＦ_０の山とＦ_０の谷とが予め定められた条件を満たすように、Ｆ_０の谷を見出すステップとを含む。

見出すステップは、ＲＯＮＤＯ−Ｆ_０輪郭内のｉ番目のＦ_０の山と次の山との間にＦ_０の谷（ｔ_ｖfi， λ_ｖfi）の初期候補を見出すステップと、初期候補から始めて、Ｆ_０の谷（ｔ_ｖfi， λ_ｖfi）が予め定められた条件を満たすまでｔ_ｖfiを所定の時間間隔で減じることにより、ＲＯＮＤＯ−Ｆ_０輪郭上でＦ_０の谷を探索するステップとを含んでも良い。

好ましくは、初期候補を見出すステップが、（/ｔ_ｖi，/λ_ｖi）で表される最も低い窪みに、初期候補のＦ_０の谷（ｔ_ｖfi，λ_ｖfi）を設定するステップを含む。

より好ましくは、探索するステップが、初期候補（/ｔ_ｖi，/λ_ｖi）から始めてλ_ｖfi−λ_ｐi≦（/λ_ｖi−λ_ｐi）×Ｃ、Ｃは所定の定数、またはｔ_ｖfi＝ｔ_ｐi 、となるまで、所定の時間間隔でｔ_ｖfiを減じることにより、ＲＯＮＤＯ−Ｆ_０輪郭上でＦ_０の谷を探索するステップを含む。

定数Ｃがほぼ０．９５となるように選択されても良い。

さらに好ましくは、Ｆ_０輪郭Ｆ_０（ｔ）が、以下の、時間ｔの関数

として定義される。

好ましくは、この方法は入力された言語学的情報と、生成するステップで生成されたＦ_０輪郭とに基づいて、音声を合成するステップをさらに含む。

所定の声調言語は中国語であっても良い。

この発明の別の局面は、コンピュータ上で実行されると、コンピュータに上述の方法のいずれかのすべてのステップを行なわせる、コンピュータプログラムに関する。

１．はじめに
この発明は中国語の声調及びイントネーションの表示における、ピッチターゲットの役割に焦点をあてたものである。中国語の声調及びイントネーションを表すのにピッチターゲットで十分であるか否かを調べるために、ピッチターゲットを特に時間変化に関するＦ_０の山及び谷として測定した。

各々がほぼ同一の声調マッピングで女性の母語話者により平叙文と疑問文として２回発話された７２の文に対し、分析及び知覚実験が行なわれた。Ｆ_０輪郭から観察された声調及びイントネーションのパターンが、関数モデルを用いて定量的に分析され、その後測定されたピッチターゲットから予測されたモデルパラメータを用いて再合成された。二つの認知実験が行なわれた。一方では、予測された声調及びイントネーションのパターンとピッチターゲット及び原文との類似性を評価した。他方では、２つの平叙文での最終的な声調（第２声及び第４声）のピッチターゲットを体系的に変化させた場合の人間による声調及びイントネーションの知覚を試験した。

実験結果は一貫して、ピッチターゲットが中国語の声調及びイントネーションパターンの規定に重要な役割を果たすことを示した。ピッチターゲットが与えられれば、Ｆ_０輪郭の正確な形状が予測可能である。この結果に基づき、中国語音声合成方法を構築できる。まず始めに実験について説明し、明細書の後半でこの発明の実施例を説明する。

２．音声試料及び分析方法
２．１．音声試料
ここで用いられた音声データは、７２の中国語文を含み、そのほとんどすべてが非特許文献２から採用されたものである。これらの文を６個のグループに分けた。各々は１２の基本文を含み、これをさらに３つのタイプに細分した。各タイプは４つの文を含み、それらは音節数が等しくさらに全文に対し同一の声調のマッピングで特徴付けられる同じ文法構造となっており、これは表１に示すとおりである。表においてＴ１、Ｔ２、Ｔ３、Ｔ４はそれぞれ、第１声、第２声、第３声及び第４声を示す。
＜表１＞

タイプ１は主語―動詞（ＳＶ）構造で４つの音節を含む。タイプ２は主語―動詞―目的語（ＳＶＯ）構造で５個の音節を含む。タイプ３はタイプ１及び２の組合せである。すなわち、タイプ２がタイプ１にその文の目的語として付加され、９音節のＳＶＯ構造となっている。これらの文を以下の範疇にグループ分けした。

これら７２の文を、女性話者によって感情表現なしで防音室で２回録音した。

２．２．Ｆ_０輪郭の関数モデル
この応用では、関数モデルを用いて（非特許文献５を参照）、Ｆ_０輪郭をパラメータの形で表す。このモデルによれば、話者の声区（発話の周波数区）はまず、いわゆるＲＯＮＤＯスケール（対数スケールと同様）に変換される。その後ＲＯＮＤＯ−Ｆ_０輪郭を時間軸に直列に並んだ連続した山形状のパターンとして表す。Ｆ_０輪郭Ｆ_０（ｔ）は以下で与えられる。

Ｍｉｎ（ｚ１,ｚ２）はｚ１及びｚ２のうち、小さい方を意味する。式（１）及び（２）は合わせて声区の変換を示す。式（３）はＲＯＮＤＯ−Ｆ_０輪郭Λ（ｔ）を表し、ここでΛ_ｒi（ｔ）及びΛ_ｆi（ｔ）はそれぞれｉ番目の山形状パターンの上昇及び下降成分を示す。すなわち

パラメータζ、λ_t及びλ_bはそれぞれともに０．２３７、１及び２に固定され得る。（非特許文献５を参照。）これにより、周波数ドメインに、話者に依存するが発話には依存しない次の２個のパラメータ、
[ｆ_0b，ｆ_0t]：声区の最高及び最低周波数、
が得られ、さらにＲＯＮＤＯ−時間空間内に、発話に依存するが話者に依存しない５個のパラメータ、
ｎ：山形状パターンの数
Δｔ_ｘi：ｉ番目の上昇／下降成分の応答時間
Δλ_ｘi：ｉ番目の上昇／下降成分の振幅、ｘ∈｛ｒ，ｆ｝
（ｔ_ｐi，λ_ｐi）：ｉ番目の山形状パターンの山（ピーク）、ｉ＝１,…ｎ
ができる。

２．３．方法
観察された１４４個のＦ_０輪郭は最初に、非特許文献６の方法を用いて自動的に分析された。その後、Ｆ_０の山と谷とを、もとの声調を考慮しながらＦ_０輪郭を目で見て調べながらマニュアルで判断した。ある声調に対するＦ_０の山の数は声調モデリング（非特許文献６）に従って定められた。その後、隣接する山の間の輪郭を用いて、Ｆ_０の谷を決定した。モデルにより生成されたＦ_０輪郭により、これらの発話を再合成し、ＳＴＲＡＩＧＨＴ（非特許文献７）と呼ばれるツールを用いて知覚実験を行なった。３つの分析及び知覚実験を行なった。実験１では、Ｆ_０の山及び谷に基づきＦ_０輪郭の再合成の有効性を分析した。実験２では、Ｆ_０の山及び谷の変化と声調及びイントネーションとの相互作用の相関を調査した。実験３はピッチターゲットの変化により声調及びイントネーションが変化し得ることを示す。これらの実験結果に基づき、ピッチターゲットが声調及びイントネーションを規定することについて論じる。

３．結果
３．１．声調及びイントネーションパターンの再合成
実験１は、Ｆ_０の山及び谷に基づきＦ_０輪郭の再合成の有効性を調べるために行なわれた。（ｔ_ｖi，λ_ｖi）がｉ番目とｉ＋１番目の山の間にある谷を示すこととする。山が与えられると、Ｆ_０輪郭の生成のために必要な他のモデルパラメータが上述のように計算される。
＜表２＞

表２は音声試料から測定された声調に関するサンプルの統計的結果を示すものであり、ここでμ_ｃ及びσ_ｃはそれぞれマニュアルでチェックされたこれらのモデルパラメータの平均及び分散を示し（チェック済パラメータ）、μ_ｐ及びσ_ｐはＦ_０の山及び谷により予測されたもの（予測パラメータ）を示す。μ_ｅ及びσ_ｅの欄はチェック済パラメータと予測パラメータとの間の誤差の平均及び分散を示す。

再合成された声調及びイントネーションパターンと原文との類似性を試験するため、チェック済パラメータを伴う１４４個の再合成発話と、予測パラメータを伴う１４４個の発話とを含む２８８個の刺激対で知覚実験を行なった。刺激は、無音室でヘッドフォンを用いて二人の母語話者に提示された。刺激対を聴いた後、聴者はそれらの声調及びイントネーションの類似度を３点スケール、すなわち０（非常に異なる）、１（似ている）、２（相違なし）で評価した。聴者は判断に先だって刺激を何回も聴くことが許された。チェック済パラメータと予測パラメータとの平均スコアはそれぞれ１．９３と１．８９であり、「非常に異なる」サンプルは生じなかった。この実験結果から、ピッチターゲット、すなわち時間変化に対するＦ_０の山及び谷は、声調及びイントネーションパターンの特徴を捕捉するのに十分であることが示された。

３．２．声調とイントネーションとの相互作用
実験２では、１２個のカテゴリの各々について、Ｆ_０の山及び谷の分析により声調とイントネーションとの相互作用を検証した。主な結果を以下に説明する。まず、疑問文における発話のＦ_０輪郭は、平叙文におけるそれに比べて、多少とも全体に上向きに動いた。この結果は非特許文献２及び非特許文献３の知見と一致する。同一の第１声及び第４声マッピングの発話では、そのＦ_０の山及び谷は同一の第２声及び第３声のマッピングのものより高い声区に上昇した。図１は平叙文とマーク無しの疑問文で発話された２つの文

のＦ_０輪郭の例を示しており、その意味は、それぞれ、（ａ）「赤い鼻は権力を持っていない」及び（ｂ）「通りがかりの人が写真を撮る」と、（ｃ）「赤い鼻は権力を持っているか」及び（ｄ）「通りがかりの人が写真を撮るか」である。

第２に、マーク無しの疑問文とマーク付きの疑問文の両方でイントネーションを表す、文の最後の声調に依存するやり方がある。最後の声調を２つの組にグループ分けしてみる。第２声と第３声、及び第１声と第４声である。前者では上昇部分のＦ_０の山が高い声区に上げられ、そのため声調の範囲がかなり広がる。しかしながら後者では、Ｆ_０の山と谷（もしあれば）が共に高い声区まで上げられるため、声調範囲は狭くなり、Ｆ_０の谷のスケールが上に移動する。この現象は図１（ｃ）と（ｄ）に示される例で明らかに観察される。

第３に、Ｘ−ｎｏｔ−Ｘ構造のイエス／ノー疑問文、すなわちカテゴリＮ０、Ｎ１、Ｎ２と、ｗｈの疑問文、すなわちカテゴリＷ０、Ｗ１、Ｗ２とでは、上昇―下降パターンが存在する。上昇―下降パターンは基本的には、shi4-bu2-shi4等のように機能語の声調構造にＦ_０の山と谷とを配することによって表される。図２は４つの例を示す。（ａ）“bao1shen1gong1 shi4-bu2-shi4 ca1 che1?”（年季奉公の労働者は車を掃除するか？）；（ｂ）“lao3shou3zhang3 shi4-bu2-shi4 mai3 jiu3?”（年取った高官は酒を買うか？）；（ｃ）“bao1shen1gong1 ca1-mei2-ca1 che1?”（年季奉公の労働者は車を掃除したか？）；（ｄ）“lao3shou3zhang3 mai3-mei2-mai3 jiu3?”（年取った高官は酒を買ったか？）である。この図から、機能語に含まれる声調が上昇―下降パターンに適合するように調整されることが明らかである。もし声調がこれと衝突する場合は、声調はその基本的形状を失い、例えば図２（ｃ）の音節ｃａ１及びｍｅｉ２等のように、上昇―下降パターンの軌跡に従う。

第４に、択一的疑問文（カテゴリＱ０、Ｑ１、Ｑ２）では、機能語 shi4 及び haishi4 に対し「遷移パターン」が用いられる。遷移パターンという用語は、機能語中の声調がかなり狭いＦ_０範囲をとり、中間の声区に位置付けられることを意味する。これに対し、機能語周辺の句では通常、焦点現象（focus phenomena）（非特許文献４）が観察される。これらの観察から、声調とイントネーションとの相互作用がピッチターゲットにより良好に捕捉されることが明らかに示される。

３．３．人工の声調及びイントネーションパターンの知覚
実験３ではピッチターゲットを体系的に変化させながら、声調及びイントネーションの知覚を調査した。図１（ａ）と１（ｂ）とで示された平叙文の２つの発話をキャリア発話として用い、最終的な声調のＦ_０の山及び谷を２つ／３つの態様で変化させた。

第１の様態は、原文に対しＦ_０の山（すなわち、モデルパラメータλ_ｐｉ）をステップサイズ０．１で変化させ、一方Ｆ_０の谷は変化無しで固定するというものであった。図３は観察されたＦ_０輪郭（“＋”シーケンス）とこれらのモデル生成輪郭（実線、人工声調及びイントネーションパターンと称する）とを表す。

第２の様態は、Ｆ_０の山及び谷の双方を単純にその声調を同じステップサイズ０．１で上昇させるか下降させることによって変化させるというものであった。モデル生成Ｆ_０輪郭は図４で記号Ｂ１からＢ７とＤ１からＤ６で示される。

第３の様態は、特に第４声について、Ｆ_０の山は固定しながらＦ_０の谷をステップサイズ０．１で上に移動させ、谷を上昇させるというものであった。モデル生成Ｆ_０輪郭は図４で記号Ｅ１からＥ３で示される。２つのキャリア発話はすべてのモデル生成Ｆ_０輪郭で再合成された。

３人の母語話者で、これら発話の知覚試験を行なった。刺激は聴者に２回、ランダムな順序で、無音室でヘッドフォンを通して提示された。刺激を聴いた後、聴者は３つの質問に答えた。
（１）発話は平叙文か疑問文か？
（２）最後の音節は強調されていたか、普通か、ニュートラルか？
（３）最後の音節で聴いたのはどの声調か？
実験結果を表３にまとめた。ここで、“Ｑｕｅ”及び“Ｓｔａ”はそれぞれ「疑問文」と「平叙文」を示し、“Ｅｍｐ”、“Ｎｏｒ”及び“Ｗｅａ”はそれぞれ「強調」「普通」「弱いストレス」を示す。
＜表３＞

この実験から３つの知見を得ることができる。第１に輪郭は、声調、ストレス及びイントネーションを表すことができる[非特許文献１及び２を参照]。Ｆ_０の山を上昇させると、音節は一貫して強調されたと知覚された。Ｆ_０の山を下げると、音節は弱いストレスで知覚された。第２に、これは疑問イントネーションが最終声調に依存して表わされることを証明した。第２声の場合、Ｆ_０の山が高いほど、その発話は容易に疑問文と判断された。第４声の場合、声調が高い声区にある場合のみ、発話は疑問文であると認識された。しかしながら、声調の谷が低い声区にあるときには、聴者は全て、発話を平叙文であると知覚した。実験結果はまた、最終的な声調の特徴は疑問文と平叙文を区別するのに十分でないことを示した。テンポ等の他の特徴もまた、知覚の鍵となる。最後に、声調はそのＦ_０の山、谷及びそれらの音節との整列によって決定される[非特許文献１を参照]。第１声と第３声とはこの実験である条件下で知覚された。加えて、Ｂ１、Ｂ２及びＥ１と印をつけたＦ_０輪郭が第１声と知覚されたという結果から、第１声は図２（ｃ）に示されるように高い声区で上昇する輪郭を示して、イントネーションを表す必要性を満たすが、その知覚は失われない、という現象を説明する。

４．実施例
中国語の声調及びイントネーションパターンを研究するため、良好に設計された音声試料に対しいくつかの分析と知覚実験とを行なった。実験結果は、声調及びイントネーションパターンの規定においてピッチターゲットが重要な役割を果たすことを示した。例えば関数モデルを用いて、Ｆ_０の山と谷とから正確なＦ_０輪郭を予測することができる。この結果に基づき、観察されたＦ_０輪郭を、それが伝える主たる言語学的及びパラ言語学的情報を失うことなく、Ｆ_０の山と谷のシーケンスとして骨格化できると仮定した。以下で説明する実施例はこの思想に基づくものである。

４．１．構造
図５はこの発明の一実施例に従った音声合成システムのブロック図である。図５を参照して、システム２０は、トレーニングデータ３０からＦ_０の山及び谷のデータを抽出するＦ_０パラメータ抽出モジュール３４を含み、このデータは韻律的特徴と基になる言語学的情報との間を関連付けるために用いられる。システム２０はさらに、関連付けされたパラメータの基になる言語学的情報に対する内部依存性を学習するのに用いられる機械学習モジュール３６と、言語学的情報３２からＦ_０輪郭を推定し、適切な声調で中国語音声４０を合成するための合成モジュール３８とを含む。

トレーニングデータ３０は、言語学的情報と、付随するＦ_０輪郭データとを備えたテキストを含む。

Ｆ_０パラメータ抽出モジュール３４は、トレーニングデータ３０の観察されたＦ_０輪郭からモデルパラメータの最適な推定を達成するための分析合成（ａｎａｌｙｓｉｓ−ｂｙ−ｓｙｎｔｈｅｓｉｓ：ＡＢＳ）ベースの分析モジュール５０と、Ｆ_０の谷（ｔ_ｖxi，λ_ｖxi）を推定するためのターゲット探索モジュール５２とを含み、ここでＦ_０の山はＡＢＳ−ベースの分析モジュール５０の出力で得られる。

ＡＢＳ−ベースの分析モジュール５０は観察されたＦ_０輪郭からモデルパラメータの最適な推定を達成しようとするものである。非特許文献６は、関数モデルに基づき、Ｆ_０輪郭から声調の山と下り勾配の特徴とを抽出するためのアルゴリズムを提案している。Ｆ_０輪郭を、その基礎になるＦ_０の山と谷とに信頼性を持って骨格化するために、声調の下り勾配の特徴に関するモデルパラメータ、すなわち、Δ_ｔｘ、Δλ_ｘｉ、を再推定するステップでこのアルゴリズムにいくつかの制約を新たに組み入れた。（＾λ_ｖi，＾ｔ_ｖi）（式中では＾は各文字の上に付す）が、ｉ番目の山（λ_ｐi，ｔ_ｐi）と、もしあれば次の山との間に観察されたＦ_０の谷を示すものとする。谷の決定におけるＦ_０抽出誤差の影響を抑制するため、音声フレームの尤度を考慮する。Δｔ_ｘi及びΔλ_ｘiを再推定するための制約を以下に列挙する。

ターゲット探索モジュール５２はＦ_０の谷を推定する。２種類のピッチターゲット、Ｆ_０の山と谷とが、韻律的特徴と基になる言語学的情報との間の関連付けを行なうための関連付けパラメータとして用いられる。上述の通り、音響分析と知覚試験とから得られた実験結果は一貫して、中国語の声調及びイントネーションパターンを表すのにピッチターゲットで十分であることを示している。ピッチターゲットが与えられれば、関数モデルからＦ_０輪郭の正確な形状を予測可能である。

Ｆ_０の山は推定されたモデルパラメータの組から入手可能なので、ターゲットの探索は特に、ｉ番目の上昇または下降成分のいずれかについてＦ_０の谷（ｔ_ｖxi，λ_ｖxi）に焦点をあて、ｉ番目の山付近のＲＯＮＤＯ輪郭に対して行なわれる。谷の初期候補、例えば（ｔ_ｖfi，λ_ｖfi）は、i番目の山と次のものとの間のＲＯＮＤＯ輪郭で（/ｔ_ｖi，/λ_ｖi）で示される最も低い窪みの最初の組である。その後、

またはｔ_ｖfi＝ｔ_ｐiとなるまで、ごく短いステップ間隔（たとえば０．００５秒）ｔ_ｖfiを減少させることで、ＲＯＮＤＯ輪郭に沿ってｉ番目の山に向かって谷の候補を探索する。式（１３）において、定数０．９５は１から０．０５への単位減衰に必要とされる応答時間としてのΔ_ｔｘの定義を考慮して決定された。すなわち

これは式（６）で用いられるα＝４．８／Δｔｘという表現に対応する。もしｔ_ｖfiとｔ_ｖｒi+1（ここで「ｔ_ｖｒi+1」の「ｉ＋１」は「ｒ」の添え字である。）との差がしきい値より小さい場合、２つの谷は常に２つの谷候補の平均に固定される。

機械学習モジュール３６は関連付けパラメータの基になる言語学的情報に対する内部依存性を学習するのに用いられる。非特許文献８に記載の通り、いくつかの有効な機械学習方法が利用可能である。

合成モジュール３８は、機械学習モジュール３６で用いられる機械学習方法に関連する回帰アルゴリズムを用いることにより、入力された言語学的情報からピッチターゲットを予測するための機械予測モジュール７０と、機械予測モジュール７０から与えられるＦ_０の山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算するためのパラメータ変換モジュール７２と、モデルパラメータと特定の声区[ｆ_0b,ｆ_0t]に関数モデルを適用することにより、Ｆ_０輪郭を合成するためのモーダルベースの合成モジュール７４と、入力された言語学的情報３２とモーダルベースの合成モジュール７４から与えられるＦ_０輪郭に基づく適切な声調とに従って音声を合成するための音声合成モジュール７６とを含む。これらのモジュールの各々を以下で説明する。

パラメータ変換モジュール７２は所与のＦ_０の山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算する。具体的には、以下の通りである。

４．２. 動作
システム２０は以下のように動作する。動作には３局面がある。トレーニングデータ３０からＦ_０パラメータ抽出モジュール３４によりＦ_０パラメータを抽出する。Ｆ_０パラメータ抽出モジュール３４により抽出されたパラメータで機械学習を行なう。その後トレーニングデータ３０についてＦ_０輪郭を推定し、推定されたＦ_０輪郭に従った声調で、言語学的情報３２に基づき中国語音声を合成する。

第１の局面では、ＡＢＳ−ベースの分析モジュール５０がＦ_０輪郭と言語学的情報とを含む入力されたトレーニングデータ３０を分析し、入力データの声調の山と下り勾配の特徴パラメータとを出力する。

ターゲット探索モジュール５２は式（１３）及び（１４）を用いてＦ_０の谷を推定する。推定されたＦ_０の谷は、第２の局面での機械学習のために、Ｆ_０の山とともに集められる。

第２の局面では、集められたＦ_０の山と谷とがトレーニングデータ３０内の対応する言語学的情報とともに機械学習モジュール３６に与えられ、機械学習モジュール３６は関連付けされたパラメータの基になる言語学的情報への内部依存性を学習する。この局面が終わると、機械学習モジュール３６を用い、入力された言語学的情報に起こる可能性の高いＦ_０の山と谷とを推定することが可能になる。

第３の局面で、合成モジュール３８は機械学習モジュール３６を用いて言語学的情報から中国語音声４０を合成する。

具体的には、機械予測モジュール７０は、言語学的情報３２が与えられると、機械学習モジュール３６を用いて、入力された言語学的情報に起こる可能性の高いピッチターゲットを予測する。

パラメータ変換モジュール７２は式（１５）から式（１８）により推定されたＦ_０の山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算する。

モーダルベースの合成モジュール７４は、モデルパラメータ及び声区[ｆ_０ｂ,ｆ_０ｔ]が与えられると、関数モデルを用いてＦ_０輪郭を合成する。

音声合成モジュール７６は言語学的情報３２及びモーダルベースの合成モジュール７４から与えられるＦ_０輪郭を分析し、適切な声調で言語学的情報を伝える中国語音声を生成する。

― 結果例 ―
図６及び図７は提案されたシステム及び方法を一部示す例であって、Ｆ_０輪郭を基となるＦ_０の山及び谷に骨格化する局面と、Ｆ_０の山及び谷から輪郭を復元する局面とを含んでいる。

図６（ａ）に示されるような測定されたＦ_０輪郭（“＋”シーケンス）が与えられるとすると、これらはまず関数モデルに基づき図６（ｂ）に示されるようなパラメータの形で表される。山のパラメータはモデルパラメータの組から利用可能であるが、谷は、ＲＯＮＤＯ時間空間におけるこれらの山の周囲の上昇／下降成分から探索される。図７の上部と図６（ｃ）は山（黒○）と谷（白○）とをプロットしており、これによりＦ_０輪郭の骨格が与えられる。図６（ｄ）は、それによって輪郭が合成されるモデルパラメータにＦ_０の山と谷とを変換することによって復元されたＦ_０輪郭を示し、図７下部は観察されたＦ_０輪郭と回復された輪郭とを実線で示す。

言語学的情報から中国語のＦ_０輪郭と音声とを合成するこの実施例のシステム及び方法は関数モデルを使用する。先行技術と比較して、この実施例ではＦ_０の山及び谷を、韻律的及び言語学的特徴の間を関連付ける主たるパラメータとして導入し、それらの間の内部依存性を学習するのに機械学習技術を導入する。上述の通り、予備的実験によりこの実施例の有効性が確認された。

この発明は中国語に関する実施例について説明されてきたが、この発明は、特徴を表す最も小さい構成要素が声調であるような言語であればどのようなものにも適用可能なことは容易に理解できるであろう。

上述のシステムはコンピュータハードウェア及びオペレーティングシステム（ＯＳ）上で実行されるソフトウェア（コンピュータプログラム）で実現され得る。音声を合成する場合、スピーカ等の音声生成装置を用いることになる。それ以外に特別なハードウェアの必要はない。

このプログラムはＦＤ（フレキシブルディスク）、ＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）、ＭＯ（光磁気ディスク）、またはＤＶＤ（ディジタル多用途ディスク）等の記憶媒体に記憶されても良く、またはインターネット等の何らかのデータ通信ネットワーク上を送信しても良い。コンピュータ上で実行されると上述のシステムを実現するようなプログラムであれば、どのようなものでもこの発明の範囲内に含まれる。

上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

平叙文で発話された２つの中国語文“hong2bi2tou2 mei2 quan2” 及び “guo4lu4ke4 zhao4 xiang4”のＦ_０輪郭の例を示す図である。４つの例のイエス／ノー疑問文での上昇―下降パターンを示す図である。観察されたＦ_０輪郭（“＋”シーケンス）と、ある実験において最後のＦ_０の山を上向きに移動させた場合にモデルから生成された輪郭とを示す図である。ある実験において声調を上向きまたは下向きに移動させて生成したＦ_０輪郭を示す図である。この発明の一実施例の音声合成システムのブロック図である。Ｆ_０輪郭骨格化及び復元の例を示す図である。この発明の一実施例のシステム及び方法の一部を例示する図である。

符号の説明

２０中国語音声合成システム、３０トレーニングデータ、３２言語学的情報、３４Ｆ_０パラメータ抽出モジュール、３６機械学習モジュール、３８合成モジュール、５０ＡＢＳ−ベース分析モジュール、５２ターゲット探索モジュール、７０機械予測モジュール、７２パラメータ変換モジュール、７４モーダルベース合成モジュール、７６音声合成モジュール

Claims

所定の声調言語の言語学的情報から基本周波数（Ｆ_０）輪郭を合成する、コンピュータにより実現される方法であって、
コンピュータが、声調基本周波数（Ｆ_０）の山及び谷の時刻と周波数とを示す山及び谷パラメータの、前記声調言語における言語学的特徴に対する隠された依存性を、言語学的情報とそれに関連する発話データのＦ _０輪郭とを含むトレーニングデータセットから得られる統計的な情報を用いて予測するための機械学習モデルを用いて、入力された言語学的情報に対応するＦ_０の山及び谷パラメータを予測するステップと、
コンピュータが、前記予測されたＦ_０の山及び谷パラメータに、予め定められる関数モデルを適用することにより、前記関数モデルによって前記Ｆ_０の山及び谷パラメータに対応付けられたＦ_０輪郭を推定するステップとを含む、Ｆ_０輪郭を合成する方法。
前記予測するステップが、
コンピュータが、前記トレーニングデータセットの入力を受けるステップと、
コンピュータが、前記トレーニングデータセット内の前記発話データの前記Ｆ_０輪郭からＦ_０の山パラメータを抽出するステップと、
コンピュータが、前記Ｆ_０輪郭と前記抽出するステップで抽出された前記Ｆ_０の山パラメータとからＦ_０の谷パラメータを推定するステップと、
コンピュータが、前記抽出するステップ及び前記Ｆ _０の谷パラメータを推定するステップでそれぞれ抽出及び推定された前記Ｆ_０の山及び谷パラメータと、前記トレーニングデータセット内の前記言語学的情報とを用いて、前記機械学習モデルがＦ_０の山及び谷パラメータの言語学的情報に対する前記隠された依存性を予測できるように、前記機械学習モデルのパラメータを前記トレーニングデータセットを用いて統計的に算出するステップとを含む、請求項１に記載のＦ_０輪郭を合成する方法。
前記Ｆ_０の山パラメータを抽出するステップが、
コンピュータが、前記トレーニングデータセット内の各発話のＦ_０輪郭を、時間軸に沿って直列に並んだ連続した山型パターンで表されるＲＯＮＤＯ−Ｆ_０輪郭に変換するステップと、
コンピュータが、前記変換するステップで得られた前記ＲＯＮＤＯ−Ｆ_０輪郭内におけるＦ_０の山の位置を特定するステップとを含み、
前記Ｆ_０の谷パラメータを推定するステップが、
コンピュータが、前記変換するステップで得られた前記ＲＯＮＤＯ−Ｆ_０輪郭内で、隣接する全てのＦ_０の山の間に、先行して隣接するＦ_０の山からの減衰割合が予め定められた定数となる時点を、Ｆ_０の谷に定めるステップを含む、請求項２に記載のＦ_０輪郭を合成する方法。
前記Ｆ _０の谷に定めるステップが、
コンピュータが、前記ＲＯＮＤＯ−Ｆ_０輪郭内のｉ番目のＦ_０の山と次の山との間にＦ_０の谷（ｔ_ｖfi，λ_ｖfi）の初期候補を見出すステップと、
コンピュータが、前記初期候補から始めて、前記Ｆ_０の谷（ｔ_ｖfi，λ_ｖfi）が、先行して隣接するＦ_０の山からの減衰割合が予め定められた定数となるまでｔ_ｖfiを所定の時間間隔で減じることにより、前記ＲＯＮＤＯ−Ｆ_０輪郭上でＦ_０の谷を探索するステップとを含む、請求項３に記載のＦ_０輪郭を合成する方法。
前記初期候補を見出すステップは、コンピュータが、（/ｔ_ｖi，/λ_ｖi）（以下本文中の「/」は上付きバーを示す）で表される最も低い窪みに、初期候補のＦ_０の谷（ｔ_ｖfi，λ_ｖfi）を設定するステップを含む、請求項４に記載のＦ_０輪郭を合成する方法。
前記探索するステップは、コンピュータが、前記初期候補（/ｔ_ｖｉ，/λ_ｖｉ）から始めて
λ_ｖfi−λ_ｐi≦（/λ_ｖi−λ_ｐi）×Ｃ、Ｃは所定の定数、または
ｔ_ｖfi＝ｔ_ｐiとなるまで、所定の時間間隔でｔ_ｖfiを減じることにより、前記ＲＯＮＤＯ−Ｆ_０輪郭上でＦ_０の谷を探索するステップを含む、請求項５に記載のＦ_０輪郭を合成する方法。
前記定数Ｃが０．９５に選ばれる、請求項６に記載のＦ_０輪郭を合成する方法。
前記Ｆ_０輪郭Ｆ_０（ｔ）及び前記対応するＲＯＮＤＯ−Ｆ_０輪郭Λ（ｔ）が、以下の、時間ｔの関数

ただしλはＲＯＮＤＯスケールでのＦ_０周波数、として定義される、請求項１〜請求項７のいずれかに記載のＦ_０輪郭を合成する方法。
コンピュータが、前記入力された言語学的情報と、前記生成するステップで推定された前記Ｆ_０輪郭とに基づいて、音声を合成するステップをさらに含む、請求項１〜請求項８のいずれかに記載のＦ_０輪郭を合成する方法。
所定の声調言語が中国語である、請求項１〜請求項９のいずれかに記載のＦ_０輪郭を合成する方法。
コンピュータ上で実行されると、コンピュータに請求項１〜請求項１０のいずれかに記載のすべてのステップを行なわせる、コンピュータプログラム。