JP4793776B2

JP4793776B2 - イントネーションの変化の特徴を声調の変形により表す方法及びそのコンピュータプログラム

Info

Publication number: JP4793776B2
Application number: JP2005098067A
Authority: JP
Inventors: ジンフ・ニ; 恒河井
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-30
Filing date: 2005-03-30
Publication date: 2011-10-12
Anticipated expiration: 2025-03-30
Also published as: JP2006276660A

Description

この発明は話し言葉の処理に関し、特に、話し言葉でのイントネーションの変化を測定して所望のイントネーションの音声を合成することに関する。

中国語の基本周波数（Ｆ０）の輪郭（一般的な意味でのイントネーション）は、語の複数の声調、及び平叙文と疑問文との対比を表すような実際のイントネーション（語の声調を除く）を明らかにするものである。伝統的に第一声、第二声、第三声、第四声と呼ばれ（声調１から４）、その各々が他と区別される独自の特徴を持った４つの語の声調と、このような顕著な特徴のない中立声調（声調０）とがある。

声調の種類は中国語の音節を直接に構成する要素である。例えば、「ｍａ」は声調の種類によって以下の５つの異なる意味を持つ。

このために重要な問題が生じる。テキスト−トゥ−スピーチ（ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈ：ＴＴＳ）合成においてイントネーションを合成する際に、語の声調と実際のイントネーションとの相互作用をどのように明らかにするか、ということである。これはＴＴＳを会話システムに適用する際に非常に重要である。会話システムでは例えば、疑問、メッセージの確認、及び感情が、人間によって、通常は音節のイントネーション（すなわち語の声調）と区別され、さらに通常の平叙文とも区別されるイントネーションのパターンで実現される［非特許文献１参照］。

これに対してとり得る解決策はおそらく、Ｆ０輪郭をアクセントと句の成分とに分解するフジサキのモデルであろう［非特許文献２参照］。イントネーションの変化をアクセントと句の成分との両者に分配してもよいが、モデルのパラメータ数は限られている。実際のイントネーションが語の声調に及ぼす影響に対処するため、言語学者は一般に音節［非特許文献３］または句［非特許文献４］のレベルでのピッチ範囲の変化に注目する。
Ｇ．コチャンスキー及びＣ．シー、「ソフトテンプレートを用いた韻律学モデリング」音声コミュニケーション、第３９巻、ｐｐ．３１１−３５２、２００３年（G． Kochanski and C. Shih, "Prosody modeling with soft templates," Speech Communication, Vol. 39, pp. 3l1-352, 2003.）Ｈ.フジサキ及びＫ.ヒロセ、「日本語宣言文における音声基本周波数輪郭の分析」日本音響学会誌、第５巻、第４号、ｐｐ．２３３−２４２、１９８４年（H. Fujisaki and K. Hirose, "Analysis of voice fundamental frequency contours for declarative sentences of Japanese," J. Acoust. Soc. Japan, Vol.5, No.4, pp. 233-242, 1984.）Ｊ．シェン、「北京方言における声調とイントネーションのピッチ範囲」、実験的音声学における調査報告書、Ｔ．リン及びＬ．Ｊ．ワン編、北京大学出版局、ｐｐ．７３−１３０、１９８５年（中国語）（J. Shen, "Pitch range of tone and intonation in Beijing dialect," in Working papers in experimental phonetics, ed. by T. Lin and L. J. Wang, Beijing Univ. Press, pp. 73-130, 1985. (in Chinese)）Ｚ．ウー、「標準中国語のためのイントネーション分析の新方法：文中の句輪郭の周波数転位処理」話し言葉の分析、知覚及び処理、Ｇ．ファンら編、ｐｐ．２５５−２６８、１９９６年（Z. Wu, "A new method of intonation analysis for standard Chinese: frequency transposition processing of phrasal contours in a sentence," Analysis, perception and processing of spoken language, ed. by G. Fant, et al, pp. 255-268, 1996.）Ｙ．Ｒ．チャオ、中国語話し言葉の文法。バークレー、カリフォルニア大学出版局、１９６８年（Y. R. Chao, A grammar of spoken Chinese. Berkeley, University of California Press, 1968.）Ｐ．クラトチヴィル、北京語のイントネーション、イントネーションシステム、２０ヶ国語の調査内、Ｄ．ハースト及びＡ．Ｄ．クリスト編、ケンブリッジ大学出版局、４１７−４３１、１９９８年（P. Kratochvil, Intonation in Beijing Chinese, in Intonation systems, a survey of twenty languages, ed. by D. Hirst and A. D. Cristo, Cambridge Uni. Press, 417-431, 1998.）Ｊ．ニ及びＫ．ヒロセ、「標準中国語文の基本周波数輪郭の機能的モデリングの実験的評価」ＩＳＣＳＬＰ２０００、北京、ｐｐ．３１９−３２２、２０００年（J. Ni and K. Hirose, "Experimental evaluation of a functional modeling of fundamental frequency contours of standard Chinese sentences," ISCSLP2000, Beijing, pp. 319-322, 2000.）Ｊ．ニ及びＨ．カワイ、「ピッチ範囲が中国語の声調とイントネーションパターンを固定する」音声韻律学２００４、奈良、ｐｐ．９５−９８、２００４年（J. Ni and H. Kawai, "Pitch targets anchor Chinese tone and intonation patterns," Speech Prosody 2004, Nara, pp. 95-98, 2004.）Ｊ．ニ及びＨ．カワイ、「パラメトリックモデリング及び合成による分析ベースのパターンマッチングを通した声調特徴量の抽出」ＩＣＡＳＳＰ２００３、ｐｐ．７２−７５、２００３年（J. Ni and H. Kawai, "Tone feature extraction through parametric modeling and analysis-by-synthesis-based pattern matching," ICASSP2003, pp. 72-75, 2003）Ｊ．ニ及びＨ．カワイ、「関数モデル及びその評価による中国語基本周波数輪郭の骨格化」ＴＡＬ２００４、ｐｐ．１５１−１５４、北京、２００４年（J. Ni and H. Kawai, "Skeletonising Chinese fundamental frequency contours with a functional model and its evaluation," TAL2004, pp. 151-154, Beijing, 2004.）Ｊ．トゥハート、Ｒ．コリナー及びＣ．コーエン、イントネーションの知覚的研究：音声のメロディに対する実験的、音声学的アプローチ、ケンブリッジ大学出版局、１９９０年（J. 'tHart, R. Collier and A. Cohen, A perceptual study of intonation: an experimental-phonetic approach to speech melody, Cambridge University Press, 1990.）

このようなアプローチの限界は、測定されたピッチ範囲が多少とも語の声調の影響を含んでいることである。さらに、もしある発話中の語の声調がたまたま全て声調１であった場合、ピッチ範囲の計算ができなくなる。というのも、声調１は高音域レベルの特性を有し、ピッチ範囲を推定するのに基準として利用可能な低音域の特徴がないからである。

この発明は、このイントネーションの変化を測定するという問題に別の方向から取組み、分離された個々の音節からの参考値の内部での声調変化を含む、声調の種類への依存性と、Ｆ０輪郭の起伏とを分解する際に生じる困難さを避けるようにする。

従って、この発明の目的の１つは、自然な条件下で、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。

この発明の別の目的は、語の声調に影響されることなく、音声の基にあるイントネーションの変化を測定可能な方法を提供することである。

この発明の第１の局面に従えば、イントネーションの種類を声調の変形により特徴づける方法は、話者の個々の音節から得た語の声調の各々について、基本周波数（Ｆ０）ターゲットに関する参考値の所定の組を準備するステップを含み、Ｆ０ターゲットの参考値の組は対応する語の声調を特徴づけるものであり、話者のサンプル音声データ中の各音節についてＦ０ターゲット値を抽出するステップと、サンプル音声データ中の各音節のＦ０ターゲット値の各々について、その音節の語の声調に関する参考値から当該Ｆ０ターゲット値への変化の度合いを表す所定の第１のパラメータを計算するステップとをさらに含み、前記準備するステップは、語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、それぞれの語の声調に従って、録音された個々の音節のＦ０ターゲット値を抽出するステップと、語の声調の各々について、語の声調を特徴づけるＦ０ターゲットの各々のＦ０ターゲット値を平均して前記参考値を求めるステップとを含む。

より好ましくは、この方法は、所定の第２のパラメータの分布が所定の第２のパラメータの所定の基準値の両側でつりあうように、前記所定の第１のパラメータを所定の第２のパラメータに正規化するステップをさらに含む。

この発明の第２の局面は、コンピュータ上で実行されると、上記したいずれかの全てのステップをコンピュータに行わせる、コンピュータプログラムに関する。

Ａ．方法の概観
Ａ．１変形
非特許文献７で扱われている、機能モデルで構築された変形は、さまざまな声域でのＦ０輪郭をλ時空間と呼ばれる正規化された空間にマッピングすることを可能にする。ここで、ｆ０はヘルツ表示のＦ０を表すものとし、λはλ（正規化された周波数）でのＦ０を表すものとする。ｆ０とλとの間の変形は以下の式で表される。

ここでＡ（λ，ζ）は単純な共振システム内での振幅−周波数応答を表す。

ζは共振システムの減衰比を表す。物理的には、減衰比は共振システム中の粘性抵抗の等価物を表す。他のモデルパラメータは以下を示す。

[ｆ0_ｂ，ｆ0_ｔ]：声域の最高周波数と最低周波数
[λ_ｂ，λ_ｔ]：λで表した声域の最高周波数と最低周波数
声域[ｆ0_ｂ，ｆ0_ｔ]は話者に依存する。実際には、対象となる話者の発話の周波数範囲として測定することができる。ほとんどの場合、λ_ｔとλ_ｂとはそれぞれ１及び２に固定できる。

λとζとが与えられると、ｆ０は上述の変換で直接計算できる。便宜上、Ｔ_ｆ０（）はζにおけるλからｆ０への変形を示すものとする。

ｆ0＝Ｔ_ｆ０（λ，ζ）（３）
他方で、λ（又はζ）は、ｆ０とζ（又はλ）が与えられれば、反復処理によって決定することもできる。Ｔ_λ（）がζでのｆ０からλへの変形を表すものとする。ｆ０が大きくなるほど、λで表した値は小さくなる。

λ＝Ｔ_λ（ｆ０，ζ）（４）
さらに、Ｔ_ζ（）がλからｆ０への変形のためのζを表すものとする。

ζ＝Ｔ_ζ（λ，ｆ０）（５）
Ａ．２声調の変形
この変換により、以下のζで示すように、[ｆ0_ｂ，ｆ0_ｔ]内でのｆ０_１からｆ０_２への変化を測定する方法が提供される。

ζ＝Ｔ_ζ（Ｔ_λ（ｆ０_１，ζ_０），ｆ０_２）（６）
ここでζ_０は、ｆ０_１及びｆ０_２をともにλ値にマッピングするときのζの基準値である。好ましくは、ζ_０は０．１５６に固定される。

ｆ０_１及びｆ０_２間の一対一のマッピングを保証するために、ζは（０，０．７]の集合に属していなければならない。これにより、以下のｆ０_１＝Ｔ_ｆ０（λ_ｉ，ζ_０）という条件下で図１に見られるように、個々のζについて、ｆ０_１及びｆ０_２間での制約が導かれる。

λ_２＝Ｔ_λ（Ｔ_ｆ０（λ_１，ζ_０），ζ）（７）
ζが基準のζ_０（＝０．１５６）から遠ざかるにつれて、λ_１は非線形にかつ単調にλ_２へと変化し、その範囲は領域［１，２］の両端において急激に狭くなる。

ζをζ_０の両側でつりあわせるため、正規化された減衰比ζ_ｎをζ_ｎ∈［−１，１］として次のように定義する。

この方法を拡張して、語の声調及びピッチアクセント等の、２個のＦ０ターゲットのシーケンス間の変化を測定することが可能である。ある声調の中でのすべてのＦ０ターゲットは、同じζ_０におけるλによる相対量として表される。この方法を２個の声調間の変化を測定するために用いる利点は、声調内の内部変化が見え、このため、実際の声調の変化を測定可能となることである。

図２から図４はこの声調変形をマンダリン語の声調に適用した例を示す。図２（ａ）は４個の語の声調（ボックス３０に示すように、声調１から声調４を同じ時間軸上で重ねたもの）を６回繰返した様子を示し、図２（ｂ）はζ_ｎ＝０を示し、これはターゲット声調変化がない、基準となる語の声調を表す。図３（ｂ）に示すように、ζ_ｎが２秒間に０から−1まで線形に変化すると、図２（ａ）の声調のシーケンスは図３（ａ）に示すものへと変化する。ζ_ｎは図４（ｂ）の太線に対応し、図２（ａ）の声調シーケンスは図４（ａ）に示す太線へと変化する。確かに、声域の非常に高い／低い領域ではピッチ範囲が狭くなる現象が実際の発声でよく見られる。

Ａ．３イントネーションの変化測定
音節のイントネーションは声調と呼ばれる。音節と一致する時間−Ｆ０輪郭は声調パターンとして知られている。チャオ（Ｃｈａｏ）の声調理論［非特許文献５を参照されたい。」に従って、４つの語の声調を４個の声調パターンとして表し、さらにこれを、図５に示すようないくつかの選択されたＦ０ターゲットにより表す。各声調は主要ターゲットによって特徴づけられる［非特許文献６を参照されたい。］。図５では主要ターゲットを黒丸で示す。

Ｆ０輪郭で明示される声調の変化は、基となる語の声調を特定の態様で変更したものである［非特許文献６を参照］。Ｆ０輪郭は、Ｆ０ターゲットのシーケンスで信頼性をもって表すことができ、Ｆ０ターゲットの数と種類とは、声調パターンに従い、基となる語の声調から決定できる［非特許文献８を参照］。従って、声調変形を用いてＦ０輪郭から声調の変化を測定するアルゴリズムは、基本的に以下のステップを含む。

・初期化：話者による個々の音節から測定された平均のＦ０ターゲットに従って、４つの声調パターンについてＦ０ターゲットの基準値（参考値）を決定する。

・ステップ１：図５の声調パターンに従って、Ｆ０輪郭からＦ０ターゲット（観測値）を抽出する。Ｆ０輪郭からＦ０ターゲットを推定するためのアルゴリズムを、非特許文献９及び１０に記載のとおり利用することができ、これによってまず声調特徴を抽出し、その後これをＦ０ターゲットに変換する。

・ステップ２：声調パターンについて対（ｆ０_ｉ，＾ｆ０_ｉ）を作成する。ここで、ｆ０ｉはｉ番目のＦ０ターゲットの観測値を表し、＾ｆ０_ｉ（「ｆ」の前の「＾」記号は本来ｆの上部に表記すべきものである。）はその参考値を表す。声調０については、このＦ０ターゲットの参考値は、単に先行する声調での最後のＦ０ターゲットの参考値をとるものとする。

・ステップ３：ζ_ｉ＝Ｔ_ζ（Ｔ_λ（＾ｆ０_ｉ，ζ_０），ｆ０_ｉ）、及びζ_ｎを計算する。ただし，ｉ＝１，…Ｎ（Ｆ０ターゲットの数）とする。これがイントネーションの変化の特徴を表している。

図６は、（ａ）ζ_ｎ（丸）により特徴が表されたイントネーションパターンの推定に用いられたＦ０ターゲット対と、（ｂ）対応する発話データで得られたＦ０輪郭のためのＦ０ターゲット対との、参考値（三角）と観測値（丸）とをプロットしている。線Ｐ０Ｐ４はζ_ｎ＝−１．０４５ｔ＋０．６８６を示し、線Ｐ５Ｐ７はζ_ｎ＝−０．８０９ｔ＋１．１９８を示す。

Ｂ．実施例の説明
Ｂ．１構造
Ｂ．１．１機能ブロック
図７はこの発明の一実施例に従った音声合成システム４０を示すブロック図である。図７を参照して、音声合成システム４０は、所定の話者の基準発話のための記憶装置５０と、話者のサンプル発話を記憶するための記憶装置５２と、基準発話の声調の各々に対する基準Ｆ０ターゲットを抽出し、さらに記憶装置５２に記憶されたサンプル発話の各々について、イントネーション変化を示す正規化された減衰比ζ_ｎのシーケンスを抽出するためのイントネーション抽出モジュール５４とを含む。

音声合成システム４０はさらに、基準発話の基準Ｆ０ターゲットを記憶するための記憶装置５６と、ζ_ｎのシーケンスを記憶するための記憶装置５８とを含む。減衰比ζ_ｎのシーケンスは、サンプル発話のイントネーション変化の特徴を表すものである。従って、ユーザは、記憶装置５８に記憶されたζ_ｎのシーケンスを利用して、所望のイントネーションを指定することができる。

音声合成システム４０はさらに、合成すべき入力テキスト６２と関連付けられたイントネーション情報６０を受け、入力テキスト６２中の音節の各々についてＦ０を合成するためのＦ０シンセサイザ６４と、入力されたテキスト６２とＦ０シンセサイザ６４から出力されたＦ０とに従って音声信号を合成するための音声シンセサイザ６６とを含む。

イントネーション抽出モジュール５４は、記憶装置５０内の基準発話の音節の各々からＦ０ターゲットを抽出し、抽出されたｆ０ターゲットを記憶装置５６に記憶するための第１のターゲット抽出モジュール８０と、記憶装置５２内のサンプル発話の音節の各々からＦ０ターゲットを抽出するための第２のターゲット抽出モジュール８２と、第２のターゲット抽出モジュール８２から出力されたＦ０ターゲットの各々について、減衰比ζ_ｎを計算し、ζ_ｎのシーケンスを記憶装置５８に出力するためのζ_ｎ計算モジュール８４とを含む。

Ｆ０シンセサイザ６４は、イントネーション情報内のζ_ｎのシーケンスからζを計算するζ計算モジュール９０と、以下の式に従って、入力テキスト６２の各々の音節のｆ０_ｉを計算し、計算されたｆ０_ｉを音声シンセサイザ６６に出力するためのＦ０計算モジュール９０とを含む。

ｆ０_ｉ＝Ｔ_ｆ０（Ｔ_λ（ｆ０_ｉ，ζ_０），ζ）（９）
Ｂ．１．２コンピュータによる実現
図７に示されたモジュールは、この実施例ではコンピュータソフトウェアで実現される。図８は第１のターゲット抽出モジュール８０を実現するコンピュータプログラムの制御構造を示す。図８を参照して、プログラムはステップ１００で始まり、基準発話に見出される声調１〜声調４の各々について、ステップ１０２〜１２０が繰返される。

ステップ１０２で、変数ＳＵＭがゼロに初期化される。

ステップ１１０で、基準発話内の、関心のある声調データの全てについて、ステップ１１２〜１１６が繰返される。ステップ１１４で、音節の音声データからＦ０ターゲットが抽出される。抽出されたＦ０はステップ１１６でＳＵＭに加えられる。

ステップ１１２から１１６が関心のある声調の音節全てに対し繰返された後、ステップ１１８でＳＵＭの平均を求める。ステップ１２０で、この平均が、対象の声調と関連付けた上でメモリに記憶される。

この処理の終わりには、声調１〜声調４の平均Ｆ０がメモリに記憶されていることになる。

図９は図７に示す第２のターゲット抽出モジュール８２及びζ_ｎ計算モジュール８４を実現するコンピュータプログラムの制御構造を示す。図９を参照して、ステップ１４０で、記憶装置５２に記憶されたサンプル発話の全てについてＦ０輪郭が計算される。ステップ１４２で、入力テキスト６２（図７を参照）の全ての音節について、ステップ１４４から１５２が繰返される。

この繰返しでは、まず、処理中の音節の声調のＦ０ターゲットが抽出される。抽出されたｉ番目のＦ０ターゲットをｆ０_ｉ，１≦ｉ≦Ｎ（発話中のターゲットの数）とする。

ステップ１４６で、ステップ１４４で抽出されたｆ０_ｉが音節の声調パターンの＾ｆ０_ｉと対にされる。ここで＾ｆ０_ｉはｆ０_ｉの参考値を表す。声調０については、そのＦ０ターゲットの参考値は単に、先行する声調の最後のＦ０ターゲットの参考値をとるだけである。

ステップ１４８で、ζ_ｉが以下の式に従って計算される。

ζ_ｉ＝Ｔ_ζ（Ｔ_λ（＾ｆ０_ｉ，ζ_０），ｆ０_ｉ）（１０）
ステップ１５０で、正規化されたζ_ｎｉ（１≦ｉ≦Ｎ）が以下の式に従って計算される。

ステップ１５２で、結果ζ_ｎｉが記憶装置５８に記憶される（図７を参照）。

記憶装置５２に記憶されているサンプル発話の音節全てについて上述の処理を繰返した後、ユーザは正規化されたζ_ｎを用いればどのようなイントネーションも記述できる。従って、イントネーション情報６０はζ_ｎのシーケンスの形で準備することができる。

この実施例では、図７に示すＦ０シンセサイザ６４もまたコンピュータソフトウェアで実現される。このコンピュータプログラムの制御構造を図１０に示す。

図１０を参照して、Ｆ０シンセサイザ６４が起動されると、まずイントネーション情報６０内のイントネーションデータζ_ｎｉを読出す。次に、ステップ１７２で、入力テキスト６２の音節全てについてステップ１７４から１７８を繰返す。ここでζ_ｎｉ（１≦ｉ≦Ｎ）はイントネーション情報６０の正規化された減衰率のシーケンスとする。

ステップ１７４で、式（１１）の逆関数に従って、ζ_ｎｉからζ_ｉを計算する。

ステップ１７６で、ｉ番目の音節（声調）のＦ０ターゲットｆ０_ｉが以下の式に従って計算される。

ｆ０_ｉ＝Ｔ_ｆ０（Ｔ_λ（＾ｆ０_ｉ，ζ_０），ζ_ｉ）（１２）
ここで＾ｆ０_ｉは基準発話から抽出された参考値（Ｆ０ターゲット）を表し、ζ_０は定数（好ましくは、ζ_０は０．１５６）を表す。

ステップ１７８で、このようにして計算されたｆ０_ｉがメモリに記憶される。

入力テキスト６２の全ての音節について、ステップ１７４から１７８が繰返された後、イントネーション情報６０によりイントネーションパターンが指定された入力テキスト６２中の声調のシーケンスのＦ０ターゲットとして、ｆ０_ｉのシーケンスがステップ１８０で出力される。

Ｂ．１．３コンピュータハードウェア
図１１は上述のコンピュータプログラムを実行するこの実施例のコンピュータシステム３３０の外観を示し、図１２はこのシステム３３０をブロック図で示す。

図１１を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２と、一対のスピーカ３７２と、マイクロフォン３７０と、を含む。

図１２を参照して、コンピュータ３４０はさらに、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ハードディスク３５４と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、ＣＰＵ３５６に接続され、アプリケーションプログラム命令、システムプログラム、及びデータ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に上述の音声合成システムを実現させるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

図８から図１０を参照して説明したこのプログラムは、コンピュータ３４０にこの実施例の音声合成システム４０の機能ブロックを実現させるための複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはコンピュータ３４０にインストールされるサードパーティのプログラムにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な関数または「ツール」を呼出すことにより、上述の処理を行う命令のみを含んでいてもよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

Ｂ．２動作
この実施例の、上述の音声合成システム４０（図７を参照）は以下のように動作する。音声合成システム４０の動作は３段階である。すなわち、基準発話からのＦ０ターゲットの抽出と、基準発話からのζ_ｎの計算と、Ｆ０ターゲット及び音声合成とである。これらの段階における音声合成システム４０の動作を以下で説明する。

Ｂ．２．１基準発話からのＦ０ターゲットの抽出
図７を参照して、所定の話者の音声データを、声調１〜声調４の全てについて録音し、基準発話として記憶装置５０に記憶する。声調１〜声調４の各々について、第１のターゲット抽出モジュール８０により、基準発話からＦ０ターゲットが抽出される。声調１〜声調４の各々について平均のＦ０ターゲットが記憶装置５６に記憶される。

Ｂ．２．２基準発話からのζ_ｎの計算
基準発話と同じ話者のサンプル発話を録音し、記憶装置５２に記憶する。サンプル発話の各々の各音節について、第２のターゲット抽出モジュール８２がＦ０ターゲットを抽出する。その後、モジュール８２から出力されたＦ０ターゲットの各々について、ζ_ｎ計算モジュール８４がζ_ｎを計算し、サンプル発話の各々についてζ_ｎのシーケンスを生成する。

Ｂ．２．３Ｆ０ターゲット及び音声合成
ユーザは、入力テキスト６２と、入力テキストをそのイントネーションで合成したいと考えているイントネーションを特定する関連のイントネーション情報６０とを準備する。ユーザは、記憶装置５８に記憶されているζ_ｎのシーケンスを調べることにより、イントネーション情報を準備することができる。

イントネーション情報６０と入力テキスト６２とが準備されると、入力テキスト６２の各音節について、ζ計算モジュール９０がζを計算し、これをＦ０計算モジュール９２に出力する。例えば、ｉ番目の音節に対し、ζ計算モジュール９０は式（１１）の逆関数に従ってζ_ｎｉからこの音節のζ_ｉを計算する。

Ｆ０計算モジュール９２は、音節の各々に対し、このようにして計算されたζ_ｉと、記憶装置５６に記憶された＾ｆ０_ｉと、定数ζ_０＝０．１５６とに以下の関数を適用してＦ０ターゲットｆ０_ｉを計算する。

ｆ０_ｉ＝Ｔ_ｆ０（Ｔ_λ（＾ｆ０_ｉ，ζ_０），ζ_ｉ）（１３）
この結果、入力テキスト６２内の音節について、Ｆ０計算モジュール９２により、ｆ０_ｉのシーケンスが出力される。このシーケンスが音声シンセサイザ６６に与えられる。

Ｆ０計算モジュール９２からｆ０_ｉのシーケンスが与えられると、音声シンセサイザ６６は、イントネーション情報６０で指定されたイントネーションを備えた入力テキスト６２の音声信号６８を合成することができる。

Ｃ．実験結果
ここで提案した方法が、測定されたＦ０輪郭内の、語の声調よりも高いレベルのイントネーションの変化を明らかにすることが可能であると示すために、２つの実験結果を報告する。音声サンプルは中国語音声コーパスから選択され、専門のナレータに朗読してもらった。ナレータの声域[ｆ０_ｂ，ｆ０_ｔ］は[１００Ｈｚ，５００Ｈｚ］と一致し、ナレータによる語の声調の参考値は表１に示されるとおりである。太字は主要ターゲットを示す。これらの参考値に対応する声調パターンを図２（ａ）に見ることができる。

図１３〜図１６に示される結果は、４つの慣用の挨拶を含むイントネーション変化の分析から得られた。４つの挨拶の実際のイントネーションは音韻論的には同じであるが、語の声調のためにＦ０輪郭は大きく起伏する。計算の例として、表２は、図１３（ａ）に示されたサンプルからの観測値ｆ０_ｉ，ｉ＝１，…５、対応の参考値＾ｆ０_ｉ、及び結果として得られるパラメータζ_ｉ及びζ_ｎｉを列挙している。これらの結果は図１３（ｂ）に示される。

この例では、文のアクセントは、声調２の主要ターゲット（最初の声調３の表面声調）である０．０２４から第２の声調３の−０．４２３までζ_ｎが下降したことで示される。他の文の文アクセントもまた、基となる声調の種類に関わりなく一貫して下降するように思われる。この４つの挨拶で示される基本的な特徴は、（１）文のアクセントは発話の最後に位置し、もう１つの音節にかかること、（２）最後の声調（声調１〜４）はその参考声調パターンを維持する（すなわちζ_ｎが変化しない）ことである。声調０は最後の非−声調０である声調の連続したものであるとみなされる。この結果は上述の仮定と一致する。イントネーション変化の現象は、例えば非特許文献１１で例示されているように、非声調言語でイントネーションを説明するのに通常用いられるいわゆる「ハットパターン」に非常に類似している。

図１７は声調及びイントネーションを合成する例を示す。図１７（ａ）は基となる語の声調の参考値を示す。図１７（ｂ）はζ_ｎ（ｔ）によりイントネーションパターンをプロットする。図１７（ｃ）はこれらのＦ０ターゲット（丸）とこれらのターゲットによりモデルによって与えられる輪郭（連続線）とを示す。「＋」のシーケンスはサンプル発話の測定されたＦ０輪郭を示す。

図１７から明らかなように、モデルによって与えられるＦ０輪郭は元のＦ０輪郭に非常に近い。

図１８は同じ話者にいくつかの数字列を読んでもらうことで得られたさらなる結果を示す。朗読した数字列は、言語学的意味がないため、中立である。明瞭な結果を求めるため、主要な声調ターゲットのζ_ｎ値のみを図にプロットする。加えて、これらの発話では休止（ポーズ）がない。イントネーション変化には２つの形状が現れる。１つは最初から最後まで下がる線である（左側）。他方は、下降部とそれに続く平坦部とからなる線である。この下降は最初の２個の音節間で起こる。明らかになったイントネーション変化は、語の声調を越えた高いレベルで体系的である。

３人の話者による約２００個の中国語サンプルを分析した。これらのサンプルでは実際のイントネーションは多少変化するものの、分析した結果は、この方法により、上で示したとおりイントネーションの変化をはっきりと明らかにできることを示した。

Ｄ．結論
この発明の実施の形態は、測定されたＦ０輪郭から語の声調を除外したイントネーション変化を測定する方法に関する。イントネーション変化は語の声調パターンを構成する選択されたＦ０ターゲットを用いてサンプリングされ、時間軸上の１点のパラメータで特徴づけられる。実験結果から、この提案した方法が、Ｆ０輪郭に埋もれ、語の声調と混じりあった、実際のマンダリン語のイントネーションを分析するのに非常に有望であることがわかった。明らかにされた実際のイントネーションは、非声調言語で報告されたイントネーションとの類似性を示した。提案された方法は基となる語の声調をともなったＦ０輪郭の自動的な分析を試みるものであり、これは音声合成、認識、さらには理解において決定的に重要である。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

λ_１、λ_２及びζ間の条件を示す図である。声調変形をマンダリン語の声調に適用した例を示す図である。声調変形をマンダリン語の声調に適用した別の例を示す図である。声調変形をマンダリン語の声調に適用した別の例を示す図である。Ｆ０ターゲットをベースとしてマンダリン語の声調を表す図である。 ζ_ｎ（丸）でのイントネーション変化の推定に用いられるＦ０ターゲット対と、元のＦ０輪郭のための、参考値（三角）と観測値（丸）とをプロットした図である。この発明の一実施の形態に従った音声合成システム４０のブロック図である。第１のＦ０ターゲット抽出モジュール８０を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。第２のターゲット抽出モジュール８２とζ_ｎ計算モジュール８４とを実現するコンピュータプログラムの制御構造をフローチャートで示す図である。Ｆ０シンセサイザ６４を実現するコンピュータプログラムの制御構造をフローチャートで示す図である。一実施の形態に係るコンピュータプログラムを実行するコンピュータシステム３３０の斜視図である。システム３３０のブロック図である。慣用の挨拶「ｎｉ３ｈａｏ３」（こんにちは）のＦ０輪郭を示す図である。慣用の挨拶「ｚｅｎ３ｍｅ０ｙａｎｇ４ａ０？」（いかがお過ごしですか）のＦ０輪郭を示す図である。慣用の挨拶「ｎｉ３ｍａｎｇ２ｍａ０？」（お忙しいですか）のＦ０輪郭を示す図である。慣用の挨拶「ｎｉ３ｓｈｅｎ１ｔｉ３ｈａｏ３ｍａ０？」（ごきげんいかがですか）のＦ０輪郭を示す図である。語による韻律の特徴と、語によらない韻律の特徴とを合成する例を示す図である。朗読された数字列での中立イントネーションの変化を示す図である。

符号の説明

４０音声合成システム
５０、５２、５６、５８記憶装置
５４イントネーション抽出モジュール
６０イントネーション情報
６２入力テキスト
６４Ｆ０シンセサイザ
６６音声シンセサイザ
６８イントネーションのある音声信号
８０第１のＦ０ターゲット抽出モジュール
８２第２のＦ０ターゲット抽出モジュール
８４ ζ_ｎ計算モジュール
９０ ζ計算モジュール
９２Ｆ０計算モジュール

Claims

イントネーションの変化の特徴を声調の変形により表す方法であって、
話者の、個々の音節から得た語の声調の各々について、基本周波数（Ｆ０）ターゲットに関する参考値の所定の組を準備するステップを含み、前記Ｆ０ターゲットの参考値の組は、対応する語の声調を特徴づけるものであり、
前記話者のサンプル音声データ中の各音節についてＦ０ターゲット値を抽出するステップと、
前記サンプル音声データ中の各音節の前記Ｆ０ターゲット値の各々について、その音節の語の声調に関する参考値から前記Ｆ０ターゲット値への変化の度合いを表す所定の第１のパラメータを計算するステップとをさらに含み、
前記準備するステップは、
語の声調の各々について前記話者による複数個の個々の音節を録音するステップと、
それぞれの語の声調に従って、録音された個々の音節のＦ０ターゲット値を抽出するステップと、
語の声調の各々について、語の声調を特徴づけるＦ０ターゲットの各々のＦ０ターゲット値を平均して前記参考値を求めるステップとを含む、イントネーションの変化の特徴を声調の変形により表す方法。
所定の第２のパラメータの分布が、当該所定の第２のパラメータの所定の基準値の両側でつりあうように、前記所定の第１のパラメータを前記所定の第２のパラメータに正規化するステップをさらに含む、請求項１に記載の方法。
コンピュータ上で実行されると、請求項１又は請求項２に記載の全てのステップを当該コンピュータに行わせる、コンピュータプログラム。