JP4223416B2 - F0輪郭を合成する方法及びコンピュータプログラム - Google Patents

F0輪郭を合成する方法及びコンピュータプログラム Download PDF

Info

Publication number
JP4223416B2
JP4223416B2 JP2004045855A JP2004045855A JP4223416B2 JP 4223416 B2 JP4223416 B2 JP 4223416B2 JP 2004045855 A JP2004045855 A JP 2004045855A JP 2004045855 A JP2004045855 A JP 2004045855A JP 4223416 B2 JP4223416 B2 JP 4223416B2
Authority
JP
Japan
Prior art keywords
contour
computer
valley
parameters
synthesizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004045855A
Other languages
English (en)
Other versions
JP2005234418A5 (ja
JP2005234418A (ja
Inventor
ジンフ・ニ
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004045855A priority Critical patent/JP4223416B2/ja
Publication of JP2005234418A publication Critical patent/JP2005234418A/ja
Publication of JP2005234418A5 publication Critical patent/JP2005234418A5/ja
Application granted granted Critical
Publication of JP4223416B2 publication Critical patent/JP4223416B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

この発明は音声合成方法に関し、特に、声調言語の音声合成方法及びシステムに関する。
高品質の合成音声を達成するために、テキストを分析して得られた言語学的情報を信頼性をもって伝えるよう、韻律生成の性能を改善するための努力がなされてきた。韻律生成の最も困難な点は、いかにして音声を適切な声調とイントネーションで合成するか、ということである。この韻律要素は、声調言語では特に重要である。
中国語は典型的な声調言語の一つである。中国語の韻律的構成体系(complex)において、特に基本周波数(F)輪郭に焦点をあてると、最も小さな特徴的な構成要素は声調である。声調が基本となるのは、韻律的構成体系それ自体を含むより大きな構造が、一つまたは二つ以上の声調を特定の形で変形したものだからである。この観点から、中国語のF輪郭の合成では声調と、文脈によるその変動とに焦点を当てることができる。
チャオ、Y.R.1968、「中国語話し言葉の文法」、バークレー、CA、カリフォルニア大学出版局(Chao, Y. R., 1968. A Grammar of Spoken Chinese. Berkeley, CA. University of California Press.) シェン、X.S.1990、「標準中国語の韻律」、カリフォルニア大学出版局。(Shen, X. S., 1990. The Prosody of Mandarin Chinese. University of California Publications.) シェン、「漢語語調と語調類型」、中国 語文、1994、3、221−228
Figure 0004223416
シュイ、Y.1999、「F0輪郭の形成及びアライメントに対する声調と焦点の効果」、音声学ジャーナル、27、55−105。(Xu, Y., 1999. Effects of Tone and Focus on the Formation and Alignment of F0 Contours. Journal of Phonetics, 27, 55-105.) ニ、J及びヒロセ、K.2000、「標準中国語文の基本周波数輪郭の機能的モデリングに対する実験的評価」、ISCSLP2000、北京、319−322。(Ni, J. and Hirose, K., 2000. Experimental Evaluation of a Functional Modeling of Fundamental Frequency Contours of Standard Chinese Sentences. ISCSLP2000. Beijing, 319-322.) ニ、J及びカワイ、H.、「パラメータ的モデリングによる声調特徴の抽出と合成ベース分析によるパターンマッチング」、ICASSP2003、pp.72−75、2003。(Ni, J. and Kawai, H., "Tone Feature Extraction through Parametric Modeling and Analysis-by-Synthesis-based Pattern Matching," ICASSP2003, pp. 72-75, 2003.) カワハラ、H.、イクヨ、M.K.、チェイニー、A.1999、「ピッチ適応時間周波数平滑化及び瞬時周波数ベースのF0抽出を用いた音声表現の再構築:音声における反復構造の果たし得る役割」、音声コミュニケーション、27、187−207。(Kawahara, H., Ikuyo, M. K., Cheneigne, A., 1999. Restructuring Speech Representations Using a Pitch-Adaptive Time-Frequency Smoothing and an Instantaneous-Frequency-Based F0 Extraction: Possible Role of a Repetitive Structure in Sounds. Speech Communication, 27, 187-207.) コロベール、R.、ベンジオ、S.及びマリソン、J.、「トーチ:モジュラー機械学習ソフトウェアライブラリ」、技術報告IDIAP、pp.1−9、2002。(Collobert, R., Bengio, S., and Mariethon, J., "Torch: a Modular Machine Learning Software Library," Technical Report IDIAP, pp. 1-9, 2002.)
ピッチターゲットは、中国語の声調及びイントネーションの表出において重要な役割を果たしていると考えられる。ピッチターゲットは基本的には、高低を含むが、これは英語や日本語のようなアクセント言語のイントネーションを表すのに通常用いられるものである。中国語には、第一声から第四声と呼ばれる四声があり、さらに、第0声と呼ばれる中間的な声調がある。もし話者の音声を、1.低、2.半低、3.中間、4.半高、5.高という点数で表した4個の等しい間隔に分割するとすれば、第一声から第四声はそれぞれ、55、35、214、及び51と表される。実際の間隔と絶対ピッチとは共に個々の音声と話すときの気分(mood)とに対し相対的なものであるから、この明細書で用いる「ピッチターゲット」という用語は、時間変化に対するF(基本周波数)の山と谷を意味する。
他方で、声調とイントネーションとのパターンと、輪郭との間には密接な関連が存在する。声調パターンの時間範囲は音節のサイズに限定されるのに対し、イントネーションパターンの時間範囲は音節以上のものをカバーし、発話全体に及ぶ場合もある。
声調及びイントネーションについては、多くの研究があり、例えば非特許文献1から非特許文献4等の文献がそうである。過去の知覚試験及び器具を用いた分析から、発話のF輪郭は声調とイントネーションを複合的に表し得る、という一致した見解が得られている。
しかし、いくつかの基本的な問題について、少なくとも実務的には、明確な解答は得られていない。例えば、中国語の声調とイントネーションとを表すのにピッチターゲットで十分であるのか、またはテキスト―音声変換において自然な音を達成するために、声調とイントネーションとの合成に必要な必須の特徴は何か、といったことは明確でない。このため、自然な中国語音声を合成する信頼のおける方法はなかった。
従って、この発明の目的の一つは、高い信頼性をもって自然な音声を合成する方法とコンピュータプログラムとを提供することである。
この発明の一つの局面に従えば、所定の声調言語の言語学的情報から基本周波数(F)輪郭を合成する方法は、声調基本周波数の山及び谷パラメータの、声調言語の言語学的特徴に対する内部依存性をモデリングするための機械学習モデルを準備するステップと、機械学習モデルを用いて、入力された言語学的情報に対応するFの山及び谷パラメータを予測するステップと、予測されたFの山及び谷パラメータに基づいてF輪郭を生成するステップとを含む。
好ましくは、準備するステップは、言語学的情報とそれに関連する発話データとを含むトレーニングデータセットを準備するステップと、トレーニングデータセット内の発話データからF輪郭モデルパラメータを抽出するステップと、抽出するステップで抽出されたF輪郭モデルパラメータからFの山及び谷パラメータを推定するステップと、推定するステップで推定されたFの山及び谷パラメータと、トレーニングデータセット内の言語学的情報とを用いて、機械学習モデルがFの山及び谷パラメータの言語学的情報に対する内部依存性を学習するように、機械学習モデルをトレーニングするステップとを含む。
より好ましくは、Fの山及び谷パラメータを推定するステップが、トレーニングデータセット内の各発話のF輪郭を、時間軸に沿って直列に並んだ連続した山型パターンで表されるRONDO−F輪郭に変換するステップと、変換するステップで得られたRONDO−F輪郭内におけるFの山を特定するステップと、変換するステップで得られたRONDO−F輪郭内で、隣接する全てのFの山の間に、隣接するFの山とFの谷とが予め定められた条件を満たすように、Fの谷を見出すステップとを含む。
見出すステップは、RONDO−F輪郭内のi番目のFの山と次の山との間にFの谷(tvfi, λvfi)の初期候補を見出すステップと、初期候補から始めて、Fの谷(tvfi, λvfi)が予め定められた条件を満たすまでtvfiを所定の時間間隔で減じることにより、RONDO−F輪郭上でFの谷を探索するステップとを含んでも良い。
好ましくは、初期候補を見出すステップが、(/tvi,/λvi)で表される最も低い窪みに、初期候補のFの谷(tvfi,λvfi)を設定するステップを含む。
より好ましくは、探索するステップが、初期候補(/tvi,/λvi)から始めてλvfi−λpi≦(/λvi−λpi)×C、Cは所定の定数、またはtvfi=tpi となるまで、所定の時間間隔でtvfiを減じることにより、RONDO−F輪郭上でFの谷を探索するステップを含む。
定数Cがほぼ0.95となるように選択されても良い。
さらに好ましくは、F輪郭F(t)が、以下の、時間tの関数
Figure 0004223416
として定義される。
好ましくは、この方法は入力された言語学的情報と、生成するステップで生成されたF輪郭とに基づいて、音声を合成するステップをさらに含む。
所定の声調言語は中国語であっても良い。
この発明の別の局面は、コンピュータ上で実行されると、コンピュータに上述の方法のいずれかのすべてのステップを行なわせる、コンピュータプログラムに関する。
1.はじめに
この発明は中国語の声調及びイントネーションの表示における、ピッチターゲットの役割に焦点をあてたものである。中国語の声調及びイントネーションを表すのにピッチターゲットで十分であるか否かを調べるために、ピッチターゲットを特に時間変化に関するFの山及び谷として測定した。
各々がほぼ同一の声調マッピングで女性の母語話者により平叙文と疑問文として2回発話された72の文に対し、分析及び知覚実験が行なわれた。F輪郭から観察された声調及びイントネーションのパターンが、関数モデルを用いて定量的に分析され、その後測定されたピッチターゲットから予測されたモデルパラメータを用いて再合成された。二つの認知実験が行なわれた。一方では、予測された声調及びイントネーションのパターンとピッチターゲット及び原文との類似性を評価した。他方では、2つの平叙文での最終的な声調(第2声及び第4声)のピッチターゲットを体系的に変化させた場合の人間による声調及びイントネーションの知覚を試験した。
実験結果は一貫して、ピッチターゲットが中国語の声調及びイントネーションパターンの規定に重要な役割を果たすことを示した。ピッチターゲットが与えられれば、F輪郭の正確な形状が予測可能である。この結果に基づき、中国語音声合成方法を構築できる。まず始めに実験について説明し、明細書の後半でこの発明の実施例を説明する。
2.音声試料及び分析方法
2.1.音声試料
ここで用いられた音声データは、72の中国語文を含み、そのほとんどすべてが非特許文献2から採用されたものである。これらの文を6個のグループに分けた。各々は12の基本文を含み、これをさらに3つのタイプに細分した。各タイプは4つの文を含み、それらは音節数が等しくさらに全文に対し同一の声調のマッピングで特徴付けられる同じ文法構造となっており、これは表1に示すとおりである。表においてT1、T2、T3、T4はそれぞれ、第1声、第2声、第3声及び第4声を示す。
<表1>
Figure 0004223416
タイプ1は主語―動詞(SV)構造で4つの音節を含む。タイプ2は主語―動詞―目的語(SVO)構造で5個の音節を含む。タイプ3はタイプ1及び2の組合せである。すなわち、タイプ2がタイプ1にその文の目的語として付加され、9音節のSVO構造となっている。これらの文を以下の範疇にグループ分けした。
Figure 0004223416
これら72の文を、女性話者によって感情表現なしで防音室で2回録音した。
2.2.F輪郭の関数モデル
この応用では、関数モデルを用いて(非特許文献5を参照)、F輪郭をパラメータの形で表す。このモデルによれば、話者の声区(発話の周波数区)はまず、いわゆるRONDOスケール(対数スケールと同様)に変換される。その後RONDO−F輪郭を時間軸に直列に並んだ連続した山形状のパターンとして表す。F輪郭F(t)は以下で与えられる。
Figure 0004223416
Min(z1,z2)はz1及びz2のうち、小さい方を意味する。式(1)及び(2)は合わせて声区の変換を示す。式(3)はRONDO−F輪郭Λ(t)を表し、ここでΛri(t)及びΛfi(t)はそれぞれi番目の山形状パターンの上昇及び下降成分を示す。すなわち
Figure 0004223416

パラメータζ、λt及びλbはそれぞれともに0.237、1及び2に固定され得る。(非特許文献5を参照。)これにより、周波数ドメインに、話者に依存するが発話には依存しない次の2個のパラメータ、
[f0b,f0t]:声区の最高及び最低周波数、
が得られ、さらにRONDO−時間空間内に、発話に依存するが話者に依存しない5個のパラメータ、
n:山形状パターンの数
Δtxi:i番目の上昇/下降成分の応答時間
Δλxi:i番目の上昇/下降成分の振幅、x∈{r,f}
(tpi,λpi):i番目の山形状パターンの山(ピーク)、i=1,…n
ができる。
2.3.方法
観察された144個のF輪郭は最初に、非特許文献6の方法を用いて自動的に分析された。その後、Fの山と谷とを、もとの声調を考慮しながらF輪郭を目で見て調べながらマニュアルで判断した。ある声調に対するFの山の数は声調モデリング(非特許文献6)に従って定められた。その後、隣接する山の間の輪郭を用いて、Fの谷を決定した。モデルにより生成されたF輪郭により、これらの発話を再合成し、STRAIGHT(非特許文献7)と呼ばれるツールを用いて知覚実験を行なった。3つの分析及び知覚実験を行なった。実験1では、Fの山及び谷に基づきF輪郭の再合成の有効性を分析した。実験2では、Fの山及び谷の変化と声調及びイントネーションとの相互作用の相関を調査した。実験3はピッチターゲットの変化により声調及びイントネーションが変化し得ることを示す。これらの実験結果に基づき、ピッチターゲットが声調及びイントネーションを規定することについて論じる。
3.結果
3.1.声調及びイントネーションパターンの再合成
実験1は、Fの山及び谷に基づきF輪郭の再合成の有効性を調べるために行なわれた。(tvi,λvi)がi番目とi+1番目の山の間にある谷を示すこととする。山が与えられると、F輪郭の生成のために必要な他のモデルパラメータが上述のように計算される。
<表2>
Figure 0004223416
表2は音声試料から測定された声調に関するサンプルの統計的結果を示すものであり、ここでμ及びσはそれぞれマニュアルでチェックされたこれらのモデルパラメータの平均及び分散を示し(チェック済パラメータ)、μ及びσはFの山及び谷により予測されたもの(予測パラメータ)を示す。μ及びσの欄はチェック済パラメータと予測パラメータとの間の誤差の平均及び分散を示す。
再合成された声調及びイントネーションパターンと原文との類似性を試験するため、チェック済パラメータを伴う144個の再合成発話と、予測パラメータを伴う144個の発話とを含む288個の刺激対で知覚実験を行なった。刺激は、無音室でヘッドフォンを用いて二人の母語話者に提示された。刺激対を聴いた後、聴者はそれらの声調及びイントネーションの類似度を3点スケール、すなわち0(非常に異なる)、1(似ている)、2(相違なし)で評価した。聴者は判断に先だって刺激を何回も聴くことが許された。チェック済パラメータと予測パラメータとの平均スコアはそれぞれ1.93と1.89であり、「非常に異なる」サンプルは生じなかった。この実験結果から、ピッチターゲット、すなわち時間変化に対するFの山及び谷は、声調及びイントネーションパターンの特徴を捕捉するのに十分であることが示された。
3.2.声調とイントネーションとの相互作用
実験2では、12個のカテゴリの各々について、Fの山及び谷の分析により声調とイントネーションとの相互作用を検証した。主な結果を以下に説明する。まず、疑問文における発話のF輪郭は、平叙文におけるそれに比べて、多少とも全体に上向きに動いた。この結果は非特許文献2及び非特許文献3の知見と一致する。同一の第1声及び第4声マッピングの発話では、そのFの山及び谷は同一の第2声及び第3声のマッピングのものより高い声区に上昇した。図1は平叙文とマーク無しの疑問文で発話された2つの文
Figure 0004223416
のF輪郭の例を示しており、その意味は、それぞれ、(a)「赤い鼻は権力を持っていない」及び(b)「通りがりの人が写真を撮る」と、(c)「赤い鼻は権力を持っているか」及び(d)「通りがりの人が写真を撮るか」である。
第2に、マーク無しの疑問文とマーク付きの疑問文の両方でイントネーションを表す、文の最後の声調に依存するやり方がある。最後の声調を2つの組にグループ分けしてみる。第2声と第3声、及び第1声と第4声である。前者では上昇部分のFの山が高い声区に上げられ、そのため声調の範囲がかなり広がる。しかしながら後者では、Fの山と谷(もしあれば)が共に高い声区まで上げられるため、声調範囲は狭くなり、Fの谷のスケールが上に移動する。この現象は図1(c)と(d)に示される例で明らかに観察される。
第3に、X−not−X構造のイエス/ノー疑問文、すなわちカテゴリN0、N1、N2と、whの疑問文、すなわちカテゴリW0、W1、W2とでは、上昇―下降パターンが存在する。上昇―下降パターンは基本的には、shi4-bu2-shi4等のように機能語の声調構造にFの山と谷とを配することによって表される。図2は4つの例を示す。(a)“bao1shen1gong1 shi4-bu2-shi4 ca1 che1?”(年季奉公の労働者は車を掃除するか?);(b)“lao3shou3zhang3 shi4-bu2-shi4 mai3 jiu3?”(年取った高官は酒を買うか?);(c)“bao1shen1gong1 ca1-mei2-ca1 che1?”(年季奉公の労働者は車を掃除したか?);(d)“lao3shou3zhang3 mai3-mei2-mai3 jiu3?”(年取った高官は酒を買ったか?)である。この図から、機能語に含まれる声調が上昇―下降パターンに適合するように調整されることが明らかである。もし声調がこれと衝突する場合は、声調はその基本的形状を失い、例えば図2(c)の音節ca1及びmei2等のように、上昇―下降パターンの軌跡に従う。
第4に、択一的疑問文(カテゴリQ0、Q1、Q2)では、機能語 shi4 及び haishi4 に対し「遷移パターン」が用いられる。遷移パターンという用語は、機能語中の声調がかなり狭いF範囲をとり、中間の声区に位置付けられることを意味する。これに対し、機能語周辺の句では通常、焦点現象(focus phenomena)(非特許文献)が観察される。これらの観察から、声調とイントネーションとの相互作用がピッチターゲットにより良好に捕捉されることが明らかに示される。
3.3.人工の声調及びイントネーションパターンの知覚
実験3ではピッチターゲットを体系的に変化させながら、声調及びイントネーションの知覚を調査した。図1(a)と1(b)とで示された平叙文の2つの発話をキャリア発話として用い、最終的な声調のFの山及び谷を2つ/3つの態様で変化させた。
第1の様態は、原文に対しF山(すなわち、モデルパラメータλpi)をステップサイズ0.1で変化させ、一方Fの谷は変化無しで固定するというものであった。図3は観察されたF輪郭(“+”シーケンス)とこれらのモデル生成輪郭(実線、人工声調及びイントネーションパターンと称する)とを表す。
第2の様態は、Fの山及び谷の双方を単純にその声調を同じステップサイズ0.1で上昇させるか下降させることによって変化させるというものであった。モデル生成F輪郭は図4で記号B1からBとD1からD6で示される。
第3の様態は、特に第4声について、Fの山は固定しながらFの谷をステップサイズ0.1で上に移動させ、谷を上昇させるというものであった。モデル生成F輪郭は図4で記号E1からE3で示される。2つのキャリア発話はすべてのモデル生成F輪郭で再合成された。
3人の母語話者で、これら発話の知覚試験を行なった。刺激は聴者に2回、ランダムな順序で、無音室でヘッドフォンを通して提示された。刺激を聴いた後、聴者は3つの質問に答えた。
(1)発話は平叙文か疑問文か?
(2)最後の音節は強調されていたか、普通か、ニュートラルか?
(3)最後の音節で聴いたのはどの声調か?
実験結果を表3にまとめた。ここで、“Que”及び“Sta”はそれぞれ「疑問文」と「平叙文」を示し、“Emp”、“Nor”及び“Wea”はそれぞれ「強調」「普通」「弱いストレス」を示す。
<表3>
Figure 0004223416
この実験から3つの知見を得ることができる。第1に輪郭は、声調、ストレス及びイントネーションを表すことができる[非特許文献1及び2を参照]。Fの山を上昇させると、音節は一貫して強調されたと知覚された。Fの山を下げると、音節は弱いストレスで知覚された。第2に、これは疑問イントネーションが最終声調に依存して表わされることを証明した。第2声の場合、Fの山が高いほど、その発話は容易に疑問文と判断された。第4声の場合、声調が高い声区にある場合のみ、発話は疑問文であると認識された。しかしながら、声調の谷が低い声区にあるときには、聴者は全て、発話を平叙文であると知覚した。実験結果はまた、最終的な声調の特徴は疑問文と平叙文を区別するのに十分でないことを示した。テンポ等の他の特徴もまた、知覚の鍵となる。最後に、声調はそのFの山、谷及びそれらの音節との整列によって決定される[非特許文献1を参照]。第1声と第3声とはこの実験である条件下で知覚された。加えて、B1、B2及びE1と印をつけたF輪郭が第1声と知覚されたという結果から、第1声は図2(c)に示されるように高い声区で上昇する輪郭を示して、イントネーションを表す必要性を満たすが、その知覚は失われない、という現象を説明する。
4.実施例
中国語の声調及びイントネーションパターンを研究するため、良好に設計された音声試料に対しいくつかの分析と知覚実験とを行なった。実験結果は、声調及びイントネーションパターンの規定においてピッチターゲットが重要な役割を果たすことを示した。例えば関数モデルを用いて、Fの山と谷とから正確なF輪郭を予測することができる。この結果に基づき、観察されたF輪郭を、それが伝える主たる言語学的及びパラ言語学的情報を失うことなく、Fの山と谷のシーケンスとして骨格化できると仮定した。以下で説明する実施例はこの思想に基づくものである。
4.1.構造
図5はこの発明の一実施例に従った音声合成システムのブロック図である。図5を参照して、システム20は、トレーニングデータ30からFの山及び谷のデータを抽出するFパラメータ抽出モジュール34を含み、このデータは韻律的特徴と基になる言語学的情報との間を関連付けるために用いられる。システム20はさらに、関連付けされたパラメータの基になる言語学的情報に対する内部依存性を学習するのに用いられる機械学習モジュール36と、言語学的情報32からF輪郭を推定し、適切な声調で中国語音声40を合成するための合成モジュール38とを含む。
トレーニングデータ30は、言語学的情報と、付随するF輪郭データとを備えたテキストを含む。
パラメータ抽出モジュール34は、トレーニングデータ30の観察されたF輪郭からモデルパラメータの最適な推定を達成するための分析合成(analysis−by−synthesis:ABS)ベースの分析モジュール50と、Fの谷(tvxi,λvxi)を推定するためのターゲット探索モジュール52とを含み、ここでFの山はABS−ベースの分析モジュール50の出力で得られる。
ABS−ベースの分析モジュール50は観察されたF輪郭からモデルパラメータの最適な推定を達成しようとするものである。非特許文献6は、関数モデルに基づき、F輪郭から声調の山と下り勾配の特徴とを抽出するためのアルゴリズムを提案している。F輪郭を、その基礎になるFの山と谷とに信頼性を持って骨格化するために、声調の下り勾配の特徴に関するモデルパラメータ、すなわち、Δtx、Δλxi、を再推定するステップでこのアルゴリズムにいくつかの制約を新たに組み入れた。(^λvi,^tvi)(式中では^は各文字の上に付す)が、i番目の山(λpi,tpi)と、もしあれば次の山との間に観察されたFの谷を示すものとする。谷の決定におけるF抽出誤差の影響を抑制するため、音声フレームの尤度を考慮する。Δtxi及びΔλxiを再推定するための制約を以下に列挙する。
Figure 0004223416
ターゲット探索モジュール52はFの谷を推定する。2種類のピッチターゲット、Fの山と谷とが、韻律的特徴と基になる言語学的情報との間の関連付けを行なうための関連付けパラメータとして用いられる。上述の通り、音響分析と知覚試験とから得られた実験結果は一貫して、中国語の声調及びイントネーションパターンを表すのにピッチターゲットで十分であることを示している。ピッチターゲットが与えられれば、関数モデルからF輪郭の正確な形状を予測可能である。
の山は推定されたモデルパラメータの組から入手可能なので、ターゲットの探索は特に、i番目の上昇または下降成分のいずれかについてFの谷(tvxi,λvxi)に焦点をあて、i番目の山付近のRONDO輪郭に対して行なわれる。谷の初期候補、例えば(tvfi,λvfi)は、i番目の山と次のものとの間のRONDO輪郭で(/tvi,/λvi)で示される最も低い窪みの最初の組である。その後、
Figure 0004223416
またはtvfi=tpiとなるまで、ごく短いステップ間隔(たとえば0.005秒)tvfiを減少させることで、RONDO輪郭に沿ってi番目の山に向かって谷の候補を探索する。式(13)において、定数0.95は1から0.05への単位減衰に必要とされる応答時間としてのΔtxの定義を考慮して決定された。すなわち
Figure 0004223416
これは式(6)で用いられるα=4.8/Δtxという表現に対応する。もしtvfiとtvri+1(ここで「tvri+1」の「i+1」は「r」の添え字である。)との差がしきい値より小さい場合、2つの谷は常に2つの谷候補の平均に固定される。
機械学習モジュール36は関連付けパラメータの基になる言語学的情報に対する内部依存性を学習するのに用いられる。非特許文献8に記載の通り、いくつかの有効な機械学習方法が利用可能である。
合成モジュール38は、機械学習モジュール36で用いられる機械学習方法に関連する回帰アルゴリズムを用いることにより、入力された言語学的情報からピッチターゲットを予測するための機械予測モジュール70と、機械予測モジュール70から与えられるFの山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算するためのパラメータ変換モジュール72と、モデルパラメータと特定の声区[f0b,f0t]に関数モデルを適用することにより、F輪郭を合成するためのモーダルベースの合成モジュール74と、入力された言語学的情報32とモーダルベースの合成モジュール74から与えられるF輪郭に基づく適切な声調とに従って音声を合成するための音声合成モジュール76とを含む。これらのモジュールの各々を以下で説明する。
パラメータ変換モジュール72は所与のFの山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算する。具体的には、以下の通りである。
Figure 0004223416
4.2. 動作
システム20は以下のように動作する。動作には3局面がある。トレーニングデータ30からFパラメータ抽出モジュール34によりFパラメータを抽出する。Fパラメータ抽出モジュール34により抽出されたパラメータで機械学習を行なう。その後トレーニングデータ30についてF輪郭を推定し、推定されたF輪郭に従った声調で、言語学的情報32に基づき中国語音声を合成する。
第1の局面では、ABS−ベースの分析モジュール50がF輪郭と言語学的情報とを含む入力されたトレーニングデータ30を分析し、入力データの声調の山と下り勾配の特徴パラメータとを出力する。
ターゲット探索モジュール52は式(13)及び(14)を用いてFの谷を推定する。推定されたFの谷は、第2の局面での機械学習のために、Fの山とともに集められる。
第2の局面では、集められたFの山と谷とがトレーニングデータ30内の対応する言語学的情報とともに機械学習モジュール36に与えられ、機械学習モジュール36は関連付けされたパラメータの基になる言語学的情報への内部依存性を学習する。この局面が終わると、機械学習モジュール36を用い、入力された言語学的情報に起こる可能性の高いFの山と谷とを推定することが可能になる。
第3の局面で、合成モジュール38は機械学習モジュール36を用いて言語学的情報から中国語音声40を合成する。
具体的には、機械予測モジュール70は、言語学的情報32が与えられると、機械学習モジュール36を用いて、入力された言語学的情報に起こる可能性の高いピッチターゲットを予測する。
パラメータ変換モジュール72は式(15)から式(18)により推定されたFの山及び谷から声調の下り勾配の特徴に関連するモデルパラメータを計算する。
モーダルベースの合成モジュール74は、モデルパラメータ及び声区[f0b,f0t]が与えられると、関数モデルを用いてF輪郭を合成する。
音声合成モジュール76は言語学的情報32及びモーダルベースの合成モジュール74から与えられるF輪郭を分析し、適切な声調で言語学的情報を伝える中国語音声を生成する。
― 結果例 ―
図6及び図7は提案されたシステム及び方法を一部示す例であって、F輪郭を基となるFの山及び谷に骨格化する局面と、Fの山及び谷から輪郭を復元する局面とを含んでいる。
図6(a)に示されるような測定されたF輪郭(“+”シーケンス)が与えられるとすると、これらはまず関数モデルに基づき図6(b)に示されるようなパラメータの形で表される。山のパラメータはモデルパラメータの組から利用可能であるが、谷は、RONDO時間空間におけるこれらの山の周囲の上昇/下降成分から探索される。図7の上部と図6(c)は山(黒○)と谷(白○)とをプロットしており、これによりF輪郭の骨格が与えられる。図6(d)は、それによって輪郭が合成されるモデルパラメータにFの山と谷とを変換することによって復元されたF輪郭を示し、図7下部は観察されたF輪郭と回復された輪郭とを実線で示す。
言語学的情報から中国語のF輪郭と音声とを合成するこの実施例のシステム及び方法は関数モデルを使用する。先行技術と比較して、この実施例ではFの山及び谷を、韻律的及び言語学的特徴の間を関連付ける主たるパラメータとして導入し、それらの間の内部依存性を学習するのに機械学習技術を導入する。上述の通り、予備的実験によりこの実施例の有効性が確認された。
この発明は中国語に関する実施例について説明されてきたが、この発明は、特徴を表す最も小さい構成要素が声調であるような言語であればどのようなものにも適用可能なことは容易に理解できるであろう。
上述のシステムはコンピュータハードウェア及びオペレーティングシステム(OS)上で実行されるソフトウェア(コンピュータプログラム)で実現され得る。音声を合成する場合、スピーカ等の音声生成装置を用いることになる。それ以外に特別なハードウェアの必要はない。
このプログラムはFD(フレキシブルディスク)、CD−ROM(コンパクトディスク読出専用メモリ)、MO(光磁気ディスク)、またはDVD(ディジタル多用途ディスク)等の記憶媒体に記憶されても良く、またはインターネット等の何らかのデータ通信ネットワーク上を送信しても良い。コンピュータ上で実行されると上述のシステムを実現するようなプログラムであれば、どのようなものでもこの発明の範囲内に含まれる。
上述の実施の形態は単なる例示であって制限的なものと解してはならない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
平叙文で発話された2つの中国語文“hong2bi2tou2 mei2 quan2” 及び “guo4lu4ke4 zhao4 xiang4”のF輪郭の例を示す図である。 4つの例のイエス/ノー疑問文での上昇―下降パターンを示す図である。 観察されたF輪郭(“+”シーケンス)と、ある実験において最後のFの山を上向きに移動させた場合にモデルから生成された輪郭とを示す図である。 ある実験において声調を上向きまたは下向きに移動させて生成したF輪郭を示す図である。 この発明の一実施例の音声合成システムのブロック図である。 輪郭骨格化及び復元の例を示す図である。 この発明の一実施例のシステム及び方法の一部を例示する図である。
符号の説明
20 中国語音声合成システム、30 トレーニングデータ、32 言語学的情報、34 Fパラメータ抽出モジュール、36 機械学習モジュール、38 合成モジュール、50 ABS−ベース分析モジュール、52 ターゲット探索モジュール、70 機械予測モジュール、72 パラメータ変換モジュール、74 モーダルベース合成モジュール、76 音声合成モジュール

Claims (11)

  1. 所定の声調言語の言語学的情報から基本周波数(F)輪郭を合成する、コンピュータにより実現される方法であって、
    コンピュータが、声調基本周波数(F)の山及び谷の時刻と周波数とを示す山及び谷パラメータの、前記声調言語における言語学的特徴に対する隠された依存性を、言語学的情報とそれに関連する発話データのF 輪郭とを含むトレーニングデータセットから得られる統計的な情報を用いて予測するための機械学習モデルを用いて、入力された言語学的情報に対応するFの山及び谷パラメータを予測するステップと、
    コンピュータが、前記予測されたFの山及び谷パラメータに、予め定められる関数モデルを適用することにより、前記関数モデルによって前記Fの山及び谷パラメータに対応付けられたF輪郭を推定するステップとを含む、F輪郭を合成する方法。
  2. 前記予測するステップが、
    コンピュータが、前記トレーニングデータセットの入力を受けるステップと、
    コンピュータが、前記トレーニングデータセット内の前記発話データの前記F輪郭からFの山パラメータを抽出するステップと、
    コンピュータが、前記F輪郭と前記抽出するステップで抽出された前記Fの山パラメータとからFの谷パラメータを推定するステップと、
    コンピュータが、前記抽出するステップ及び前記 の谷パラメータを推定するステップでそれぞれ抽出及び推定された前記Fの山及び谷パラメータと、前記トレーニングデータセット内の前記言語学的情報とを用いて、前記機械学習モデルがFの山及び谷パラメータの言語学的情報に対する前記隠された依存性を予測できるように、前記機械学習モデルのパラメータ前記トレーニングデータセットを用いて統計的に算出するステップとを含む、請求項1に記載のF輪郭を合成する方法。
  3. 前記Fの山パラメータを抽出するステップが、
    コンピュータが、前記トレーニングデータセット内の各発話のF輪郭を、時間軸に沿って直列に並んだ連続した山型パターンで表されるRONDO−F輪郭に変換するステップと、
    コンピュータが、前記変換するステップで得られた前記RONDO−F輪郭内におけるFの山の位置を特定するステップとを含み、
    前記Fの谷パラメータを推定するステップが、
    コンピュータが、前記変換するステップで得られた前記RONDO−F輪郭内で、隣接する全てのFの山の間に、先行して隣接するFの山からの減衰割合が予め定められた定数となる時点を、Fの谷に定めるステップを含む、請求項2に記載のF輪郭を合成する方法。
  4. 前記 の谷に定めるステップが、
    コンピュータが、前記RONDO−F輪郭内のi番目のFの山と次の山との間にFの谷(tvfi,λvfi)の初期候補を見出すステップと、
    コンピュータが、前記初期候補から始めて、前記Fの谷(tvfi,λvfi)が、先行して隣接するFの山からの減衰割合が予め定められた定数となるまでtvfiを所定の時間間隔で減じることにより、前記RONDO−F輪郭上でFの谷を探索するステップとを含む、請求項3に記載のF輪郭を合成する方法。
  5. 前記初期候補を見出すステップは、コンピュータが、(/tvi,/λvi)(以下本文中の「/」は上付きバーを示す)で表される最も低い窪みに、初期候補のFの谷(tvfi,λvfi)を設定するステップを含む、請求項4に記載のF輪郭を合成する方法。
  6. 前記探索するステップは、コンピュータが、前記初期候補(/tvi,/λvi)から始めて
    λvfi−λpi≦(/λvi−λpi)×C、Cは所定の定数、または
    vfi=tpiとなるまで、所定の時間間隔でtvfiを減じることにより、前記RONDO−F輪郭上でFの谷を探索するステップを含む、請求項5に記載のF輪郭を合成する方法。
  7. 前記定数Cが0.95に選ばれる、請求項6に記載のF輪郭を合成する方法。
  8. 前記F輪郭F(t)及び前記対応するRONDO−F輪郭Λ(t)が、以下の、時間tの関数
    Figure 0004223416
    ただしλはRONDOスケールでのF周波数、として定義される、請求項1〜請求項7のいずれかに記載のF輪郭を合成する方法。
  9. コンピュータが、前記入力された言語学的情報と、前記生成するステップで推定された前記F輪郭とに基づいて、音声を合成するステップをさらに含む、請求項1〜請求項8のいずれかに記載のF輪郭を合成する方法。
  10. 所定の声調言語が中国語である、請求項1〜請求項9のいずれかに記載のF輪郭を合成する方法。
  11. コンピュータ上で実行されると、コンピュータに請求項1〜請求項10のいずれかに記載のすべてのステップを行なわせる、コンピュータプログラム。
JP2004045855A 2004-02-23 2004-02-23 F0輪郭を合成する方法及びコンピュータプログラム Expired - Lifetime JP4223416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004045855A JP4223416B2 (ja) 2004-02-23 2004-02-23 F0輪郭を合成する方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004045855A JP4223416B2 (ja) 2004-02-23 2004-02-23 F0輪郭を合成する方法及びコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2005234418A JP2005234418A (ja) 2005-09-02
JP2005234418A5 JP2005234418A5 (ja) 2005-10-27
JP4223416B2 true JP4223416B2 (ja) 2009-02-12

Family

ID=35017409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004045855A Expired - Lifetime JP4223416B2 (ja) 2004-02-23 2004-02-23 F0輪郭を合成する方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4223416B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053355A (zh) * 2021-03-17 2021-06-29 平安科技(深圳)有限公司 佛乐的人声合成方法、装置、设备及存储介质
US11948550B2 (en) 2021-05-06 2024-04-02 Sanas.ai Inc. Real-time accent conversion model
CN113314097B (zh) * 2021-07-30 2021-11-02 腾讯科技(深圳)有限公司 语音合成方法、语音合成模型处理方法、装置和电子设备

Also Published As

Publication number Publication date
JP2005234418A (ja) 2005-09-02

Similar Documents

Publication Publication Date Title
Rao Voice conversion by mapping the speaker-specific features using pitch synchronous approach
CN105593936B (zh) 用于文本转语音性能评价的系统和方法
Aryal et al. Can voice conversion be used to reduce non-native accents?
Latorre et al. New approach to the polyglot speech generation by means of an HMM-based speaker adaptable synthesizer
Assmann et al. Synthesis fidelity and time-varying spectral change in vowels
Bellegarda et al. Statistical prosodic modeling: from corpus design to parameter estimation
CN111326170B (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
Narendra et al. Robust voicing detection and F 0 estimation for HMM-based speech synthesis
Ibrahim et al. Robust feature extraction based on spectral and prosodic features for classical Arabic accents recognition
CA2483607C (en) Syllabic nuclei extracting apparatus and program product thereof
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Yadav et al. Prosodic mapping using neural networks for emotion conversion in Hindi language
Mary et al. Analysis and detection of mimicked speech based on prosodic features
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
Haque et al. Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech
Toda et al. Optimizing sub-cost functions for segment selection based on perceptual evaluations in concatenative speech synthesis
Sagisaka et al. Generation and perception of F0 markedness for communicative speech synthesis
JP4223416B2 (ja) F0輪郭を合成する方法及びコンピュータプログラム
Abdelmalek et al. High quality Arabic text-to-speech synthesis using unit selection
Nirmal et al. Cepstrum liftering based voice conversion using RBF and GMM
Oliveira Machine Learning Approaches for Whisper to Normal Speech Conversion: A Survey
Sun et al. A method for generation of Mandarin F0 contours based on tone nucleus model and superpositional model
Rao Unconstrained pitch contour modification using instants of significant excitation
Amin et al. Nine voices, one artist: Linguistic and acoustic analysis
Ahmed et al. Voice morphing: An illusion or reality

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050729

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081111

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081119

R150 Certificate of patent or registration of utility model

Ref document number: 4223416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250