JP4793776B2 - イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム - Google Patents

イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム Download PDF

Info

Publication number
JP4793776B2
JP4793776B2 JP2005098067A JP2005098067A JP4793776B2 JP 4793776 B2 JP4793776 B2 JP 4793776B2 JP 2005098067 A JP2005098067 A JP 2005098067A JP 2005098067 A JP2005098067 A JP 2005098067A JP 4793776 B2 JP4793776 B2 JP 4793776B2
Authority
JP
Japan
Prior art keywords
tone
intonation
target
word
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005098067A
Other languages
English (en)
Other versions
JP2006276660A5 (ja
JP2006276660A (ja
Inventor
ジンフ・ニ
恒 河井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005098067A priority Critical patent/JP4793776B2/ja
Publication of JP2006276660A publication Critical patent/JP2006276660A/ja
Publication of JP2006276660A5 publication Critical patent/JP2006276660A5/ja
Application granted granted Critical
Publication of JP4793776B2 publication Critical patent/JP4793776B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

この発明は話し言葉の処理に関し、特に、話し言葉でのイントネーションの変化を測定して所望のイントネーションの音声を合成することに関する。
中国語の基本周波数(F0)の輪郭(一般的な意味でのイントネーション)は、語の複数の声調、及び平叙文と疑問文との対比を表すような実際のイントネーション(語の声調を除く)を明らかにするものである。伝統的に第一声、第二声、第三声、第四声と呼ばれ(声調1から4)、その各々が他と区別される独自の特徴を持った4つの語の声調と、このような顕著な特徴のない中立声調(声調0)とがある。
声調の種類は中国語の音節を直接に構成する要素である。例えば、「ma」は声調の種類によって以下の5つの異なる意味を持つ。
Figure 0004793776
このために重要な問題が生じる。テキスト−トゥ−スピーチ(text−to−speech:TTS)合成においてイントネーションを合成する際に、語の声調と実際のイントネーションとの相互作用をどのように明らかにするか、ということである。これはTTSを会話システムに適用する際に非常に重要である。会話システムでは例えば、疑問、メッセージの確認、及び感情が、人間によって、通常は音節のイントネーション(すなわち語の声調)と区別され、さらに通常の平叙文とも区別されるイントネーションのパターンで実現される[非特許文献1参照]。
これに対してとり得る解決策はおそらく、F0輪郭をアクセントと句の成分とに分解するフジサキのモデルであろう[非特許文献2参照]。イントネーションの変化をアクセントと句の成分との両者に分配してもよいが、モデルのパラメータ数は限られている。実際のイントネーションが語の声調に及ぼす影響に対処するため、言語学者は一般に音節[非特許文献3]または句[非特許文献4]のレベルでのピッチ範囲の変化に注目する。
G.コチャンスキー及びC.シー、「ソフトテンプレートを用いた韻律学モデリング」音声コミュニケーション、第39巻、pp.311−352、2003年(G. Kochanski and C. Shih, "Prosody modeling with soft templates," Speech Communication, Vol. 39, pp. 3l1-352, 2003.) H.フジサキ及びK.ヒロセ、「日本語宣言文における音声基本周波数輪郭の分析」日本音響学会誌、第5巻、第4号、pp.233−242、1984年(H. Fujisaki and K. Hirose, "Analysis of voice fundamental frequency contours for declarative sentences of Japanese," J. Acoust. Soc. Japan, Vol.5, No.4, pp. 233-242, 1984.) J.シェン、「北京方言における声調とイントネーションのピッチ範囲」、実験的音声学における調査報告書、T.リン及びL.J.ワン編、北京大学出版局、pp.73−130、1985年(中国語)(J. Shen, "Pitch range of tone and intonation in Beijing dialect," in Working papers in experimental phonetics, ed. by T. Lin and L. J. Wang, Beijing Univ. Press, pp. 73-130, 1985. (in Chinese)) Z.ウー、「標準中国語のためのイントネーション分析の新方法:文中の句輪郭の周波数転位処理」話し言葉の分析、知覚及び処理、G.ファンら編、pp.255−268、1996年(Z. Wu, "A new method of intonation analysis for standard Chinese: frequency transposition processing of phrasal contours in a sentence," Analysis, perception and processing of spoken language, ed. by G. Fant, et al, pp. 255-268, 1996.) Y.R.チャオ、中国語話し言葉の文法。バークレー、カリフォルニア大学出版局、1968年(Y. R. Chao, A grammar of spoken Chinese. Berkeley, University of California Press, 1968.) P.クラトチヴィル、北京語のイントネーション、イントネーションシステム、20ヶ国語の調査内、D.ハースト及びA.D.クリスト編、ケンブリッジ大学出版局、417−431、1998年(P. Kratochvil, Intonation in Beijing Chinese, in Intonation systems, a survey of twenty languages, ed. by D. Hirst and A. D. Cristo, Cambridge Uni. Press, 417-431, 1998.) J.ニ及びK.ヒロセ、「標準中国語文の基本周波数輪郭の機能的モデリングの実験的評価」ISCSLP2000、北京、pp.319−322、2000年(J. Ni and K. Hirose, "Experimental evaluation of a functional modeling of fundamental frequency contours of standard Chinese sentences," ISCSLP2000, Beijing, pp. 319-322, 2000.) J.ニ及びH.カワイ、「ピッチ範囲が中国語の声調とイントネーションパターンを固定する」音声韻律学2004、奈良、pp.95−98、2004年(J. Ni and H. Kawai, "Pitch targets anchor Chinese tone and intonation patterns," Speech Prosody 2004, Nara, pp. 95-98, 2004.) J.ニ及びH.カワイ、「パラメトリックモデリング及び合成による分析ベースのパターンマッチングを通した声調特徴量の抽出」ICASSP2003、pp.72−75、2003年(J. Ni and H. Kawai, "Tone feature extraction through parametric modeling and analysis-by-synthesis-based pattern matching," ICASSP2003, pp. 72-75, 2003) J.ニ及びH.カワイ、「関数モデル及びその評価による中国語基本周波数輪郭の骨格化」TAL2004、pp.151−154、北京、2004年(J. Ni and H. Kawai, "Skeletonising Chinese fundamental frequency contours with a functional model and its evaluation," TAL2004, pp. 151-154, Beijing, 2004.) J.トゥハート、R.コリナー及びC.コーエン、イントネーションの知覚的研究:音声のメロディに対する実験的、音声学的アプローチ、ケンブリッジ大学出版局、1990年(J. 'tHart, R. Collier and A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to speech melody, Cambridge University Press, 1990.)
このようなアプローチの限界は、測定されたピッチ範囲が多少とも語の声調の影響を含んでいることである。さらに、もしある発話中の語の声調がたまたま全て声調1であった場合、ピッチ範囲の計算ができなくなる。というのも、声調1は高音域レベルの特性を有し、ピッチ範囲を推定するのに基準として利用可能な低音域の特徴がないからである。
この発明は、このイントネーションの変化を測定するという問題に別の方向から取組み、分離された個々の音節からの参考値の内部での声調変化を含む、声調の種類への依存性と、F0輪郭の起伏とを分解する際に生じる困難さを避けるようにする。
従って、この発明の目的の1つは、自然な条件下で、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。
この発明の別の目的は、語の声調に影響されることなく、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。
この発明の第1の局面に従えば、イントネーションの種類を声調の変形により特徴づける方法は、話者の個々の音節から得た語の声調の各々について、基本周波数(F0)ターゲットに関する参考値の所定の組を準備するステップを含み、F0ターゲットの参考値の組は対応する語の声調を特徴づけるものであり、話者のサンプル音声データ中の各音節についてF0ターゲット値を抽出するステップと、サンプル音声データ中の各音節のF0ターゲット値の各々について、その音節の語の声調に関する参考値から当該F0ターゲット値への変化の度合いを表す所定の第1のパラメータを計算するステップとをさらに含み、前記準備するステップは、語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、それぞれの語の声調に従って、録音された個々の音節のF0ターゲット値を抽出するステップと、語の声調の各々について、語の声調を特徴づけるF0ターゲットの各々のF0ターゲット値を平均して前記参考値を求めるステップとを含む
より好ましくは、この方法は、所定の第2のパラメータの分布が所定の第2のパラメータの所定の基準値の両側でつりあうように、前記所定の第1のパラメータを所定の第2のパラメータに正規化するステップをさらに含む。
この発明の第2の局面は、コンピュータ上で実行されると、上記したいずれかの全てのステップをコンピュータに行わせる、コンピュータプログラムに関する。
A.方法の概観
A.1 変形
非特許文献7で扱われている、機能モデルで構築された変形は、さまざまな声域でのF0輪郭をλ時空間と呼ばれる正規化された空間にマッピングすることを可能にする。ここで、f0はヘルツ表示のF0を表すものとし、λはλ(正規化された周波数)でのF0を表すものとする。f0とλとの間の変形は以下の式で表される。
Figure 0004793776
ここでA(λ,ζ)は単純な共振システム内での振幅−周波数応答を表す。
Figure 0004793776
ζは共振システムの減衰比を表す。物理的には、減衰比は共振システム中の粘性抵抗の等価物を表す。他のモデルパラメータは以下を示す。
[f0,f0]:声域の最高周波数と最低周波数
,λ]:λで表した声域の最高周波数と最低周波数
声域[f0,f0]は話者に依存する。実際には、対象となる話者の発話の周波数範囲として測定することができる。ほとんどの場合、λとλとはそれぞれ1及び2に固定できる。
λとζとが与えられると、f0は上述の変換で直接計算できる。便宜上、Tf0()はζにおけるλからf0への変形を示すものとする。
f0=Tf0(λ,ζ) (3)
他方で、λ(又はζ)は、f0とζ(又はλ)が与えられれば、反復処理によって決定することもできる。Tλ()がζでのf0からλへの変形を表すものとする。f0が大きくなるほど、λで表した値は小さくなる。
λ=Tλ(f0,ζ) (4)
さらに、Tζ()がλからf0への変形のためのζを表すものとする。
ζ=Tζ(λ,f0) (5)
A.2 声調の変形
この変換により、以下のζで示すように、[f0,f0]内でのf0からf0への変化を測定する方法が提供される。
ζ=Tζ(Tλ(f0,ζ),f0) (6)
ここでζは、f0及びf0をともにλ値にマッピングするときのζの基準値である。好ましくは、ζは0.156に固定される。
f0及びf0間の一対一のマッピングを保証するために、ζは(0,0.7]の集合に属していなければならない。これにより、以下のf0=Tf0(λ,ζ)という条件下で図1に見られるように、個々のζについて、f0及びf0間での制約が導かれる。
λ=Tλ(Tf0(λ,ζ),ζ) (7)
ζが基準のζ(=0.156)から遠ざかるにつれて、λは非線形にかつ単調にλへと変化し、その範囲は領域[1,2]の両端において急激に狭くなる。
ζをζの両側でつりあわせるため、正規化された減衰比ζをζ∈[−1,1]として次のように定義する。
Figure 0004793776
この方法を拡張して、語の声調及びピッチアクセント等の、2個のF0ターゲットのシーケンス間の変化を測定することが可能である。ある声調の中でのすべてのF0ターゲットは、同じζにおけるλによる相対量として表される。この方法を2個の声調間の変化を測定するために用いる利点は、声調内の内部変化が見え、このため、実際の声調の変化を測定可能となることである。
図2から図4はこの声調変形をマンダリン語の声調に適用した例を示す。図2(a)は4個の語の声調(ボックス30に示すように、声調1から声調4を同じ時間軸上で重ねたもの)を6回繰返した様子を示し、図2(b)はζ=0を示し、これはターゲット声調変化がない、基準となる語の声調を表す。図3(b)に示すように、ζが2秒間に0から−1まで線形に変化すると、図2(a)の声調のシーケンスは図3(a)に示すものへと変化する。ζは図4(b)の太線に対応し、図2(a)の声調シーケンスは図4(a)に示す太線へと変化する。確かに、声域の非常に高い/低い領域ではピッチ範囲が狭くなる現象が実際の発声でよく見られる。
A.3 イントネーションの変化測定
音節のイントネーションは声調と呼ばれる。音節と一致する時間−F0輪郭は声調パターンとして知られている。チャオ(Chao)の声調理論[非特許文献5を参照されたい。」に従って、4つの語の声調を4個の声調パターンとして表し、さらにこれを、図5に示すようないくつかの選択されたF0ターゲットにより表す。各声調は主要ターゲットによって特徴づけられる[非特許文献6を参照されたい。]。図5では主要ターゲットを黒丸で示す。
F0輪郭で明示される声調の変化は、基となる語の声調を特定の態様で変更したものである[非特許文献6を参照]。F0輪郭は、F0ターゲットのシーケンスで信頼性をもって表すことができ、F0ターゲットの数と種類とは、声調パターンに従い、基となる語の声調から決定できる[非特許文献8を参照]。従って、声調変形を用いてF0輪郭から声調の変化を測定するアルゴリズムは、基本的に以下のステップを含む。
・初期化:話者による個々の音節から測定された平均のF0ターゲットに従って、4つの声調パターンについてF0ターゲットの基準値(参考値)を決定する。
・ステップ1:図5の声調パターンに従って、F0輪郭からF0ターゲット(観測値)を抽出する。F0輪郭からF0ターゲットを推定するためのアルゴリズムを、非特許文献9及び10に記載のとおり利用することができ、これによってまず声調特徴を抽出し、その後これをF0ターゲットに変換する。
・ステップ2:声調パターンについて対(f0,^f0)を作成する。ここで、f0iはi番目のF0ターゲットの観測値を表し、^f0(「f」の前の「^」記号は本来fの上部に表記すべきものである。)はその参考値を表す。声調0については、このF0ターゲットの参考値は、単に先行する声調での最後のF0ターゲットの参考値をとるものとする。
・ステップ3:ζ=Tζ(Tλ(^f0,ζ),f0)、及びζを計算する。ただし,i=1,…N(F0ターゲットの数)とする。これがイントネーションの変化の特徴を表している。
図6は、(a)ζ(丸)により特徴が表されたイントネーションパターンの推定に用いられたF0ターゲット対と、(b)対応する発話データで得られたF0輪郭のためのF0ターゲット対との、参考値(三角)と観測値(丸)とをプロットしている。線P0P4はζ=−1.045t+0.686を示し、線P5P7はζ=−0.809t+1.198を示す。
B.実施例の説明
B.1 構造
B.1.1 機能ブロック
図7はこの発明の一実施例に従った音声合成システム40を示すブロック図である。図7を参照して、音声合成システム40は、所定の話者の基準発話のための記憶装置50と、話者のサンプル発話を記憶するための記憶装置52と、基準発話の声調の各々に対する基準F0ターゲットを抽出し、さらに記憶装置52に記憶されたサンプル発話の各々について、イントネーション変化を示す正規化された減衰比ζのシーケンスを抽出するためのイントネーション抽出モジュール54とを含む。
音声合成システム40はさらに、基準発話の基準F0ターゲットを記憶するための記憶装置56と、ζのシーケンスを記憶するための記憶装置58とを含む。減衰比ζのシーケンスは、サンプル発話のイントネーション変化の特徴を表すものである。従って、ユーザは、記憶装置58に記憶されたζのシーケンスを利用して、所望のイントネーションを指定することができる。
音声合成システム40はさらに、合成すべき入力テキスト62と関連付けられたイントネーション情報60を受け、入力テキスト62中の音節の各々についてF0を合成するためのF0シンセサイザ64と、入力されたテキスト62とF0シンセサイザ64から出力されたF0とに従って音声信号を合成するための音声シンセサイザ66とを含む。
イントネーション抽出モジュール54は、記憶装置50内の基準発話の音節の各々からF0ターゲットを抽出し、抽出されたf0ターゲットを記憶装置56に記憶するための第1のターゲット抽出モジュール80と、記憶装置52内のサンプル発話の音節の各々からF0ターゲットを抽出するための第2のターゲット抽出モジュール82と、第2のターゲット抽出モジュール82から出力されたF0ターゲットの各々について、減衰比ζを計算し、ζのシーケンスを記憶装置58に出力するためのζ計算モジュール84とを含む。
F0シンセサイザ64は、イントネーション情報内のζのシーケンスからζを計算するζ計算モジュール90と、以下の式に従って、入力テキスト62の各々の音節のf0を計算し、計算されたf0を音声シンセサイザ66に出力するためのF0計算モジュール90とを含む。
f0=Tf0(Tλ(f0,ζ),ζ) (9)
B.1.2 コンピュータによる実現
図7に示されたモジュールは、この実施例ではコンピュータソフトウェアで実現される。図8は第1のターゲット抽出モジュール80を実現するコンピュータプログラムの制御構造を示す。図8を参照して、プログラムはステップ100で始まり、基準発話に見出される声調1〜声調4の各々について、ステップ102〜120が繰返される。
ステップ102で、変数SUMがゼロに初期化される。
ステップ110で、基準発話内の、関心のある声調データの全てについて、ステップ112〜116が繰返される。ステップ114で、音節の音声データからF0ターゲットが抽出される。抽出されたF0はステップ116でSUMに加えられる。
ステップ112から116が関心のある声調の音節全てに対し繰返された後、ステップ118でSUMの平均を求める。ステップ120で、この平均が、対象の声調と関連付けた上でメモリに記憶される。

この処理の終わりには、声調1〜声調4の平均F0がメモリに記憶されていることになる。
図9は図7に示す第2のターゲット抽出モジュール82及びζ計算モジュール84を実現するコンピュータプログラムの制御構造を示す。図9を参照して、ステップ140で、記憶装置52に記憶されたサンプル発話の全てについてF0輪郭が計算される。ステップ142で、入力テキスト62(図7を参照)の全ての音節について、ステップ144から152が繰返される。
この繰返しでは、まず、処理中の音節の声調のF0ターゲットが抽出される。抽出されたi番目のF0ターゲットをf0,1≦i≦N(発話中のターゲットの数)とする。
ステップ146で、ステップ144で抽出されたf0が音節の声調パターンの^f0と対にされる。ここで^f0はf0の参考値を表す。声調0については、そのF0ターゲットの参考値は単に、先行する声調の最後のF0ターゲットの参考値をとるだけである。
ステップ148で、ζが以下の式に従って計算される。
ζ=Tζ(Tλ(^f0,ζ),f0) (10)
ステップ150で、正規化されたζni(1≦i≦N)が以下の式に従って計算される。
Figure 0004793776
ステップ152で、結果ζniが記憶装置58に記憶される(図7を参照)。
記憶装置52に記憶されているサンプル発話の音節全てについて上述の処理を繰返した後、ユーザは正規化されたζを用いればどのようなイントネーションも記述できる。従って、イントネーション情報60はζのシーケンスの形で準備することができる。
この実施例では、図7に示すF0シンセサイザ64もまたコンピュータソフトウェアで実現される。このコンピュータプログラムの制御構造を図10に示す。
図10を参照して、F0シンセサイザ64が起動されると、まずイントネーション情報60内のイントネーションデータζniを読出す。次に、ステップ172で、入力テキスト62の音節全てについてステップ174から178を繰返す。ここでζni(1≦i≦N)はイントネーション情報60の正規化された減衰率のシーケンスとする。
ステップ174で、式(11)の逆関数に従って、ζniからζを計算する。
ステップ176で、i番目の音節(声調)のF0ターゲットf0が以下の式に従って計算される。
f0=Tf0(Tλ(^f0,ζ),ζ) (12)
ここで^f0は基準発話から抽出された参考値(F0ターゲット)を表し、ζは定数(好ましくは、ζは0.156)を表す。
ステップ178で、このようにして計算されたf0がメモリに記憶される。
入力テキスト62の全ての音節について、ステップ174から178が繰返された後、イントネーション情報60によりイントネーションパターンが指定された入力テキスト62中の声調のシーケンスのF0ターゲットとして、f0のシーケンスがステップ180で出力される。
B.1.3 コンピュータハードウェア
図11は上述のコンピュータプログラムを実行するこの実施例のコンピュータシステム330の外観を示し、図12はこのシステム330をブロック図で示す。
図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342と、一対のスピーカ372と、マイクロフォン370と、を含む。
図12を参照して、コンピュータ340はさらに、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ハードディスク354と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、CPU356に接続され、アプリケーションプログラム命令、システムプログラム、及びデータ等を記憶するランダムアクセスメモリ(RAM)360とを含む。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に上述の音声合成システムを実現させるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
図8から図10を参照して説明したこのプログラムは、コンピュータ340にこの実施例の音声合成システム40の機能ブロックを実現させるための複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはコンピュータ340にインストールされるサードパーティのプログラムにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な関数または「ツール」を呼出すことにより、上述の処理を行う命令のみを含んでいてもよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
B.2 動作
この実施例の、上述の音声合成システム40(図7を参照)は以下のように動作する。音声合成システム40の動作は3段階である。すなわち、基準発話からのF0ターゲットの抽出と、基準発話からのζの計算と、F0ターゲット及び音声合成とである。これらの段階における音声合成システム40の動作を以下で説明する。
B.2.1 基準発話からのF0ターゲットの抽出
図7を参照して、所定の話者の音声データを、声調1〜声調4の全てについて録音し、基準発話として記憶装置50に記憶する。声調1〜声調4の各々について、第1のターゲット抽出モジュール80により、基準発話からF0ターゲットが抽出される。声調1〜声調4の各々について平均のF0ターゲットが記憶装置56に記憶される。
B.2.2 基準発話からのζの計算
基準発話と同じ話者のサンプル発話を録音し、記憶装置52に記憶する。サンプル発話の各々の各音節について、第2のターゲット抽出モジュール82がF0ターゲットを抽出する。その後、モジュール82から出力されたF0ターゲットの各々について、ζ計算モジュール84がζを計算し、サンプル発話の各々についてζのシーケンスを生成する。
B.2.3 F0ターゲット及び音声合成
ユーザは、入力テキスト62と、入力テキストをそのイントネーションで合成したいと考えているイントネーションを特定する関連のイントネーション情報60とを準備する。ユーザは、記憶装置58に記憶されているζのシーケンスを調べることにより、イントネーション情報を準備することができる。
イントネーション情報60と入力テキスト62とが準備されると、入力テキスト62の各音節について、ζ計算モジュール90がζを計算し、これをF0計算モジュール92に出力する。例えば、i番目の音節に対し、ζ計算モジュール90は式(11)の逆関数に従ってζniからこの音節のζを計算する。
F0計算モジュール92は、音節の各々に対し、このようにして計算されたζと、記憶装置56に記憶された^f0と、定数ζ=0.156とに以下の関数を適用してF0ターゲットf0を計算する。
f0=Tf0(Tλ(^f0,ζ),ζ) (13)
この結果、入力テキスト62内の音節について、F0計算モジュール92により、f0のシーケンスが出力される。このシーケンスが音声シンセサイザ66に与えられる。
F0計算モジュール92からf0のシーケンスが与えられると、音声シンセサイザ66は、イントネーション情報60で指定されたイントネーションを備えた入力テキスト62の音声信号68を合成することができる。
C.実験結果
ここで提案した方法が、測定されたF0輪郭内の、語の声調よりも高いレベルのイントネーションの変化を明らかにすることが可能であると示すために、2つの実験結果を報告する。音声サンプルは中国語音声コーパスから選択され、専門のナレータに朗読してもらった。ナレータの声域[f0,f0]は[100Hz,500Hz]と一致し、ナレータによる語の声調の参考値は表1に示されるとおりである。太字は主要ターゲットを示す。これらの参考値に対応する声調パターンを図2(a)に見ることができる。
Figure 0004793776
Figure 0004793776
図13〜図16に示される結果は、4つの慣用の挨拶を含むイントネーション変化の分析から得られた。4つの挨拶の実際のイントネーションは音韻論的には同じであるが、語の声調のためにF0輪郭は大きく起伏する。計算の例として、表2は、図13(a)に示されたサンプルからの観測値f0,i=1,…5、対応の参考値^f0、及び結果として得られるパラメータζ及びζniを列挙している。これらの結果は図13(b)に示される。
この例では、文のアクセントは、声調2の主要ターゲット(最初の声調3の表面声調)である0.024から第2の声調3の−0.423までζが下降したことで示される。他の文の文アクセントもまた、基となる声調の種類に関わりなく一貫して下降するように思われる。この4つの挨拶で示される基本的な特徴は、(1)文のアクセントは発話の最後に位置し、もう1つの音節にかかること、(2)最後の声調(声調1〜4)はその参考声調パターンを維持する(すなわちζが変化しない)ことである。声調0は最後の非−声調0である声調の連続したものであるとみなされる。この結果は上述の仮定と一致する。イントネーション変化の現象は、例えば非特許文献11で例示されているように、非声調言語でイントネーションを説明するのに通常用いられるいわゆる「ハットパターン」に非常に類似している。
図17は声調及びイントネーションを合成する例を示す。図17(a)は基となる語の声調の参考値を示す。図17(b)はζ(t)によりイントネーションパターンをプロットする。図17(c)はこれらのF0ターゲット(丸)とこれらのターゲットによりモデルによって与えられる輪郭(連続線)とを示す。「+」のシーケンスはサンプル発話の測定されたF0輪郭を示す。
図17から明らかなように、モデルによって与えられるF0輪郭は元のF0輪郭に非常に近い。
図18は同じ話者にいくつかの数字列を読んでもらうことで得られたさらなる結果を示す。朗読した数字列は、言語学的意味がないため、中立である。明瞭な結果を求めるため、主要な声調ターゲットのζ値のみを図にプロットする。加えて、これらの発話では休止(ポーズ)がない。イントネーション変化には2つの形状が現れる。1つは最初から最後まで下がる線である(左側)。他方は、下降部とそれに続く平坦部とからなる線である。この下降は最初の2個の音節間で起こる。明らかになったイントネーション変化は、語の声調を越えた高いレベルで体系的である。
3人の話者による約200個の中国語サンプルを分析した。これらのサンプルでは実際のイントネーションは多少変化するものの、分析した結果は、この方法により、上で示したとおりイントネーションの変化をはっきりと明らかにできることを示した。
D.結論
この発明の実施の形態は、測定されたF0輪郭から語の声調を除外したイントネーション変化を測定する方法に関する。イントネーション変化は語の声調パターンを構成する選択されたF0ターゲットを用いてサンプリングされ、時間軸上の1点のパラメータで特徴づけられる。実験結果から、この提案した方法が、F0輪郭に埋もれ、語の声調と混じりあった、実際のマンダリン語のイントネーションを分析するのに非常に有望であることがわかった。明らかにされた実際のイントネーションは、非声調言語で報告されたイントネーションとの類似性を示した。提案された方法は基となる語の声調をともなったF0輪郭の自動的な分析を試みるものであり、これは音声合成、認識、さらには理解において決定的に重要である。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
λ、λ及びζ間の条件を示す図である。 声調変形をマンダリン語の声調に適用した例を示す図である。 声調変形をマンダリン語の声調に適用した別の例を示す図である。 声調変形をマンダリン語の声調に適用した別の例を示す図である。 F0ターゲットをベースとしてマンダリン語の声調を表す図である。 ζ(丸)でのイントネーション変化の推定に用いられるF0ターゲット対と、元のF0輪郭のための、参考値(三角)と観測値(丸)とをプロットした図である。 この発明の一実施の形態に従った音声合成システム40のブロック図である。 第1のF0ターゲット抽出モジュール80を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。 第2のターゲット抽出モジュール82とζ計算モジュール84とを実現するコンピュータプログラムの制御構造をフローチャートで示す図である。 F0シンセサイザ64を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。 一実施の形態に係るコンピュータプログラムを実行するコンピュータシステム330の斜視図である。 システム330のブロック図である。 慣用の挨拶「ni3hao3」(こんにちは)のF0輪郭を示す図である。 慣用の挨拶「zen3me0yang4a0?」(いかがお過ごしですか)のF0輪郭を示す図である。 慣用の挨拶「ni3mang2ma0?」(お忙しいですか)のF0輪郭を示す図である。 慣用の挨拶「ni3shen1ti3hao3ma0?」(ごきげんいかがですか)のF0輪郭を示す図である。 語による韻律の特徴と、語によらない韻律の特徴とを合成する例を示す図である。 朗読された数字列での中立イントネーションの変化を示す図である。
符号の説明
40 音声合成システム
50、52、56、58 記憶装置
54 イントネーション抽出モジュール
60 イントネーション情報
62 入力テキスト
64 F0シンセサイザ
66 音声シンセサイザ
68 イントネーションのある音声信号
80 第1のF0ターゲット抽出モジュール
82 第2のF0ターゲット抽出モジュール
84 ζ計算モジュール
90 ζ計算モジュール
92 F0計算モジュール

Claims (3)

  1. イントネーションの変化の特徴を声調の変形により表す方法であって、
    話者の、個々の音節から得た語の声調の各々について、基本周波数(F0)ターゲットに関する参考値の所定の組を準備するステップを含み、前記F0ターゲットの参考値の組は、対応する語の声調を特徴づけるものであり、
    前記話者のサンプル音声データ中の各音節についてF0ターゲット値を抽出するステップと、
    前記サンプル音声データ中の各音節の前記F0ターゲット値の各々について、その音節の語の声調に関する参考値から前記F0ターゲット値への変化の度合いを表す所定の第1のパラメータを計算するステップとをさらに含み、
    前記準備するステップは、
    語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、
    それぞれの語の声調に従って、録音された個々の音節のF0ターゲット値を抽出するステップと、
    語の声調の各々について、語の声調を特徴づけるF0ターゲットの各々のF0ターゲット値を平均して前記参考値を求めるステップとを含む、イントネーションの変化の特徴を声調の変形により表す方法。
  2. 所定の第2のパラメータの分布が、当該所定の第2のパラメータの所定の基準値の両側でつりあうように、前記所定の第1のパラメータを前記所定の第2のパラメータに正規化するステップをさらに含む、請求項1に記載の方法。
  3. コンピュータ上で実行されると、請求項1又は請求項に記載の全てのステップを当該コンピュータに行わせる、コンピュータプログラム。
JP2005098067A 2005-03-30 2005-03-30 イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム Active JP4793776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005098067A JP4793776B2 (ja) 2005-03-30 2005-03-30 イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005098067A JP4793776B2 (ja) 2005-03-30 2005-03-30 イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム

Publications (3)

Publication Number Publication Date
JP2006276660A JP2006276660A (ja) 2006-10-12
JP2006276660A5 JP2006276660A5 (ja) 2008-04-17
JP4793776B2 true JP4793776B2 (ja) 2011-10-12

Family

ID=37211466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005098067A Active JP4793776B2 (ja) 2005-03-30 2005-03-30 イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP4793776B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4917285B2 (ja) * 2005-08-04 2012-04-18 株式会社ブリヂストン 芯金レスクローラのスプロケット構造及び芯金レスクローラのスプロケット
EP2357646B1 (en) * 2009-05-28 2013-08-07 International Business Machines Corporation Apparatus, method and program for generating a synthesised voice based on a speaker-adaptive technique.

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229590A (ja) * 2001-02-01 2002-08-16 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム
JP2003330482A (ja) * 2002-05-14 2003-11-19 Toshiba Corp 基本周波数パターン生成方法、基本周波数パターン生成装置、音声合成方法、音声合成装置、基本周波数パターン生成プログラムおよび音声合成プログラム
JP4428093B2 (ja) * 2004-03-05 2010-03-10 ヤマハ株式会社 ピッチパターン生成装置、ピッチパターン生成方法及びピッチパターン生成プログラム
JP4617092B2 (ja) * 2004-03-16 2011-01-19 株式会社国際電気通信基礎技術研究所 中国語の声調分類装置及び中国語のf0生成装置

Also Published As

Publication number Publication date
JP2006276660A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
Ye et al. Quality-enhanced voice morphing using maximum likelihood transformations
US9275631B2 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
Raitio et al. Synthesis and perception of breathy, normal, and lombard speech in the presence of noise
Muralishankar et al. Modification of pitch using DCT in the source domain
Přibil et al. GMM-based speaker gender and age classification after voice conversion
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Panda et al. A waveform concatenation technique for text-to-speech synthesis
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
US8478595B2 (en) Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP4793776B2 (ja) イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム
JP2011059146A (ja) 音声変換装置および音声変換方法
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
JP6436806B2 (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
Cahyaningtyas et al. HMM-based indonesian speech synthesis system with declarative and question sentences intonation
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
Eide et al. Towards pooled-speaker concatenative text-to-speech
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP3854593B2 (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
EP1589524A1 (en) Method and device for speech synthesis
KR102455709B1 (ko) 인공지능 기반 합성음성의 평가 자동화 방법 및 장치
JP3576792B2 (ja) 音声情報処理方法
Dzibela et al. Hidden-Markov-Model Based Speech Enhancement

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110719

R150 Certificate of patent or registration of utility model

Ref document number: 4793776

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140805

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250