JP2008191525A

JP2008191525A - Ｆ０値時系列生成装置、その方法、そのプログラム、及びその記録媒体

Info

Publication number: JP2008191525A
Application number: JP2007027547A
Authority: JP
Inventors: Noboru Miyazaki; 昇宮崎
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-02-07
Filing date: 2007-02-07
Publication date: 2008-08-21
Anticipated expiration: 2027-02-07
Also published as: JP4787769B2

Abstract

【課題】低コストで様々な口調に応じたＦ０値時系列を生成する。
【解決手段】アクセント句毎に境界位置と複数のアクセント型、モーラ毎に開始時刻及び終了時刻が決められたテキストが入力され（３、Ｓ２）、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付け（１２、Ｓ８）、口調別韻律イベントテーブルを用いて、アクセント句の発生条件に対応する口調別韻律イベントを追加し（１３、Ｓ１０）、韻律イベントパラメータデータベースより、韻律イベント毎に韻律イベントパラメータを生成し（２２、Ｓ１２）、生成関数テーブルから韻律イベント毎にデルタ関数を生成し（１６、Ｓ１６）、初期Ｆ０値パラメータデータベースから、アクセント句毎に初期Ｆ０値を求め（１８、Ｓ１８）、デルタ関数と初期Ｆ０値とからアクセント句毎にＦ０値時系列を生成する（２０、Ｓ２０）。
【選択図】図１

Description

この発明は、テキストから合成音声を生成するテキスト音声合成分野に属するもので、特に音声に適切な抑揚を与えるために音声の韻律パターンを生成するＦ０値時系列生成装置、その方法、そのプログラム、及びその記録媒体に関する。

以下の説明では、Ｆ０値とは、ある時点における音声の基本周波数を示しており、Ｆ０値時系列とは、合成音声の継続する時間に渡ったＦ０値の系列を示している。
従来技術１として、従来の合成音声を生成する際の音声のＦ０値時系列を生成する手法で、多空間の確率分布に基づくＨＭＭ（ｍｕｌｔｉ−ｓｐａｃｅｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎＨＭＭ：ＭＳＤ−ＨＭＭ）を適用し、ピッチパラメータとスペクトルパラメータを結合した特徴パラメータを用いて、ピッチとスペクトルを統一的にモデル化する手法がある。これは、音韻ごとのＦ０値の時間変化や継続長を、ＨＭＭのような統計モデルで学習したモデルを用いて、このモデルから尤もらしいＦ０値時系列を生成する手法である。詳細は、非特許文献1に記載されている。

従来技術２として、複数のアクセント句からなるポーズ句ごとに暫次的に下降するフレーズ成分と、アクセント句毎に指定されるアクセント成分とを組み合わせて、Ｆ０値時系列を表現する生成過程モデルを用いて、このモデルにフレーズ成分の下降パラメータやアクセント成分の振幅パラメータ、位置パラメータ等に入力して得られるＦ０値時系列を得る手法がある。詳細は非特許文献２に記載されている。
ここで、非特許文献１、２に記載されているモーラとは、音韻論上、一定の時間的長さをもった音の文節単位である。例えば、「チョコレート」であれば、「チョ」「コ」「レ」「ー」「ト」がそれぞれモーラとなる。

また、アクセント句とは、０個もしくは１個のアクセント核を含む言語的な単位であり、通常、1つ以上の文節から形成される。アクセント核とはアクセントが付くモーラのことである。日本語のアクセント句はアクセント核の位置によって（１）〜（３）の３種類に大別される。
（１）０型のアクセント句：先頭のモーラのＦ０値が相対的に低く、２モーラ目以降のモーラのＦ０値が相対的に高い、つまり、アクセント核を含まないアクセント句。
（２）１型のアクセント句：先頭のモーラのＦ０値が相対的に高く、２モーラ目以降のモーラのＦ０値が相対的に低い、つまり１番目のモーラがアクセント核に該当するアクセント句。
（３）ｎ型のアクセント句（ｎは２以上の整数）：先頭のモーラのＦ０値が相対的に低く、２モーラ目から第ｎモーラ目までのＦ０値が相対的に高く、第ｎ＋１モーラ目以降が相対的に低い、つまり先頭からｎ番目のモーラがアクセント核に該当するアクセント句。

このアクセント句に境界を付与する手法、アクセント句毎にアクセント型を付与する手法は、非特許文献３に記載されている。
また、従来技術３として、実音声から抽出したＦ０値時系列を大量に収集し、生成したい合成音声を構文的に類似したＦ０値時系列を探索し用いる。事例に基づくテンプレートを用いる手法もある。詳細は特許文献1に記載されている。
これらの手法はいずれも、ある程度自然な音声を合成することに成功している。
電子情報通信学会論文誌D-IIl.J38-D-II.7July,2000,pp1600-1609"多空間確率分布ＨＭＭによるピッチパターン生成" Journal of the Acoustical Society (E)Vol.5,No.4(1984)"Analysis of voice fundamental frequency contours for declarative sentences of Japanese" 浅野、松岡、高木、小原"多段解析法による形態素解析を用いた音声合成用読韻律情報設定法とその単語辞書構成"、自然言語処理Vol6,No.2,Jan,1999 特許第３４２０９６４号

従来の手法はいずれもアナウンサーが淡々と文章を読み上げるような、いわゆる読み上げ音声口調を前提とした技術であった。しかし、テキスト音声合成の技術は読み上げ口調に対して、用いられるのみではない。例えば、電話受付オペレータが応答する口調に似せて、合成音声を生成することにより、電話受付オペレータの業務の一部を機械で置き換えたり、スポーツのニュースを生き生きと紹介したり、実況したりするような口調に似せて、合成音声を生成することにより、草野球チームの試合結果など普段プロのアナウンサーが紹介しないような情報についても、音声に変換し、地域に密着したローカル放送などで放送することが可能になる。

このように様々な口調に似せて、音声を合成することを考えると、従来の手法はいずれも課題を抱えており、そのままで用いることは困難である。

第１の問題点
従来技術１はＨＭＭからＦ０値時系列を合成する手法においては、Ｆ０値時系列を音韻ごとに学習し、合成する。このような場合、新たな口調に似せた音声を生成するためには、音韻ごとの平均Ｆ０値やその微分成分、場合によって、二階微分成分をモデルパラメータとして学習する必要があるため、モデルパラメータの数が増加する。このため、統計的に学習する際に必要となる学習データを膨大に収集する必要があり、コストが大きくなる問題がある。

次に従来技術３の問題点を説明する。事例に基づくテンプレートを用いる手法では、合成音声を生成する際のターゲットとなる口調が変わった場合、ターゲットに合った口調の音声を大量に収集し、再度テンプレートを構築しなおす必要があり、ＨＭＭからＦ０値時系列を合成する手法と同様に、コストが大きくなる問題がある。第１の問題点としてコストの問題が挙げられる。

第２の問題点
次に第２の問題点を説明する。従来技術２のように、生成過程モデルを用いる場合、漸次的に下降する成分の存在を前提としている。しかし、例えば、相手に何かを問いかける口調では、音声のＦ０値は語尾にかけて上昇したり、また強い調子で話す場合は、特に下降せずそのままであったりして、必ずしも漸次的に下降するとは限らない。即ち、生成過程モデルは読み上げ音声句口調とは異なる口調に似せて、合成音声を生成する際にはモデルの構造が音声の特徴とミスマッチを起こし、正しい表現ができないことがあるという問題がある。よって第２の問題点として、読み上げ音声句口調とは異なる口調で合成音声を生成する際には、正しい表現ができないという問題が挙げられる。

この発明は、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のＦ０値時系列を生成するＦ０値時系列生成装置に関する。この発明のＦ０値時系列生成装置は、韻律イベント部とＦ０値時系列部で構成されている。

韻律イベント部は、アクセント型、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する。Ｆ０値時系列部は、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にＦ０値時系列を生成する。

また、韻律イベント部は、韻律イベント生成部と口調別韻律イベント追加部と韻律イベントパラメータ生成部とで構成すればよい。韻律イベント生成部は、韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する。口調別韻律イベント追加部は、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する。韻律イベントパラメータ生成部は、韻律イベントパラメータデータベースとアクセント句の情報を用いて、韻律イベント毎に韻律イベントパラメータを生成する。

更に、Ｆ０値時系列部は、デルタ関数生成部と初期Ｆ０値生成部とＦ０値時系列生成部とで構成すればよい。デルタ関数生成部は、韻律イベント毎に生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句のデルタ関数として生成する。初期Ｆ０値生成部は、初期Ｆ０値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期Ｆ０値を求める。Ｆ０値時系列生成部は、デルタ関数と初期Ｆ０値とからアクセント句毎にＦ０値時系列を生成する。

更に、上記複数の韻律イベントは上昇、下降、なだらかな下降、盛り上がり、としてもよい。

更に、韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ（正規化韻律イベントパラメータという）が格納されており、生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力してもよい。

上記の構成により、第１の問題点、第２の問題点が解決されたことを説明する。
まず、第１の問題点が解決されたことについて説明する。アクセント句毎に予め決められた複数の韻律イベント毎の位置パラメータ、大きさパラメータ、継続時間パラメータと、アクセント句毎の初期Ｆ０値だけでアクセント句のＦ０値時系列を表現する。例えば「神奈川県では」というアクセント句では上記の構成の場合、６個の韻律イベントが生成される。このため、３×６＋１＝１９個のパラメータで1つのアクセント句のＦ０値時系列を表現することが出来る。

従来技術１のＦ０値時系列生成手法では１音韻ごとに、Ｆ０値とＦ０値微分成分、さらにＦ０値の二階成分微分のそれぞれについての平均と分散を保持する、つまり、６個のパラメータを保持する必要がある。例えば、「神奈川県では」というアクセント句のＦ０値時系列を生成しようとすれば「ＫＡＮＡＧＡＷＡＫＥＮＤＥＷＡ」という１５個の音韻ごとに、６個のパラメータを保持する必要があるため、９０個のパラメータを用いる必要がある。

本願発明の構成のように、用いるパラメータの数が少なければ、適切なパラメータを生成するために必要となる学習データの数もこれに応じて減少し、結果として、Ｆ０値時系列を生成するコストを下げる効果がある。従って、従来技術１の問題点を解決することが出来る。

また従来技術３のように本願発明の構成では、テンプレートを用いるという概念はなく、当然テンプレートの再構成をする必要が無く、従来技術３の問題点を解決することが出来る。

次に、第２の問題点が解決されたことについて説明する。上述のように、従来技術２では、例えば、発話末にＦ０値が上昇して疑問口調になる、といった口調に対しては適切なＦ０値時系列を生成することが出来なかった。しかし、本願発明の構成であれば、Ｆ０値時系列の局所的な動きを発生させる韻律イベントを用いるが、発話全体の動きを規定するような成分は用いない。そのため、発話末のＦ０値を下げたければ、「下降」の種類の韻律イベントを用いればよく、発話末のＦ０値を上げたければ、「上昇」の種類の韻律イベントを用いればよい。よって、様々な口調に似せた合成音声のためのＦ０値時系列を生成することが出来る。従って、本願の発明の構成により第２の問題点を解決することが出来る。

以下に、発明を実施するための最良の形態を示す。

この実施例では、入力としてテキストを想定する。図１はこの実施例１の機能構成例を示した図であり、図２はこの実施例１の主な処理の流れを示したフローチャートである。以下の説明では、入力されるテキストが「それではよろしいですか」という疑問口調の文章であるとして説明する。

まず、Ｆ０値時系列を生成する対象となるテキスト「それではよろしいですか」がテキスト入力部３−１から入力される（ステップＳ２）。また、生成されるＦ０値時系列の所望速度（以下、話速という）が話速入力部３−２から入力される。以下の説明では、話速を０．２秒／１モーラとして説明する。

まず、アクセント句分割・付与部２では入力されたテキストのアクセント句毎に境界位置が付与され、更にアクセント句毎にアクセント型が付与される（ステップＳ４）。この処理の内容については上記非特許文献３に記載されている。テキスト「それではよろしいですか」についてはアクセント句「それでは」とアクセント句「よろしいですか」との間に境界線が付与される。更に、アクセント句「それでは」、アクセント句「よろしいですか」それぞれにアクセント型が付与され、読みも付与される。アクセント句「それでは」については、３番目のモーラ「で」がアクセント核になり、アクセント型は３型になる。「よろしいですか」については、３番目のモーラ「し」がアクセント核になり、アクセント型は３型になる。例えば、図３に示すように、アクセント句毎にアクセント型が付与される。アクセント句分割・付与部２からは例えば図３に示す形式で出力され、モーラ分割・付与部４に入力される。このアクセント句分割・付与部２の処理内容は上記非特許文献３に記載されている。

モーラ分割・付与部４では、テキストがモーラ毎に分割され、各々のモーラに開始時刻と終了時刻とを付与される（ステップＳ６）。なお、説明の簡略化のため、モーラ分割・付与部４では１モーラ間の長さを全て等しく分割するとして、話速と同じ１モーラ当り０．２秒とする。モーラ分割の手法としては、これに限られるものではない。

「それではよろしいですか」については、図４に示すように、「そ」「れ」「で」「は」「よ」「ろ」「し」「−」「で」「す」「か」というモーラに分割される。更に、１番目のモーラ「そ」について開始時刻が０．１１秒とすると、１モーラ当りの時間が０．２秒であるので、モーラ「そ」の終了時刻が０．３１秒となる。次のモーラ「れ」の開始時刻は０．３１秒、終了時刻は０．５１秒となる。このようにして、残り全てのモーラについて開始時刻、終了時刻が図４のように付与される。モーラ分割・付与部４からは例えば、図４の形式で出力される。

なお、違う入力テキスト「今日はよく晴れて、気持ちの良い一日です。」であれば、分割されるモーラ、各モーラに付与される開始時刻および終了時刻、アクセント句、このアクセント句に付与されるアクセント型は、図５に示すように付与される。

アクセント句毎の境界位置とアクセント句毎のアクセント型が付与され、モーラ毎の開始時刻、終了時刻が決められた入力テキストは韻律イベント生成部１２に入力される。韻律イベント生成部１２では、韻律イベントテーブルを用いて、アクセント句の指定された箇所に、アクセント型に応じた複数の韻律イベントが対応付けられて生成される（ステップＳ８）。

ここで、韻律イベントとは、例えば、Ｆ０値時系列に急な上昇や急な下降、なだらかな下降、盛り上がりの４種類の局所的な動きを発生させる指令である。韻律イベントテーブルは韻律イベントテーブル記憶部２８に記憶されている。韻律イベントテーブルの例を図６に示す。例えば、アクセント句が０型であれば、韻律イベントＩＤ０〜２に対応する韻律イベント、つまり、下降イベント、上昇イベント、なだらかな下降イベント、がこのアクセント句に付与される。このアクセント句の１モーラ目の開始時刻に下降イベントが付与され、１モーラ目の終了時刻に上昇イベントが付与され、アクセント句の終了時刻つまり、最後のモーラの終了時刻になだらかな下降イベントが付与される。アクセント句が１型、ｎ型の場合であれば、同様に図６に示す生成箇所に韻律イベントが付与される。

具体的に説明すると、アクセント句「それでは」のアクセント型は３型であるため、韻律イベントＩＤが６〜１１に対応する韻律イベントが付与される。具体的には、１モーラ目「そ」の開始時刻０．１１秒に下降イベントが付与され、１モーラ目「そ」の終了時刻０．３１秒に上昇イベントが付与される。このようにして、韻律イベント生成部１２では、１つのアクセント句に対して、指定された箇所に、複数の韻律イベントが生成される。アクセント句「それでは」に付与された韻律イベントを示したものが図７Ａである。

また、アクセント句「よろしいですか」についても同様に、図７Ｂに示すように複数の韻律イベントが付与される。韻律イベント生成部１２からは例えば図７Ａ、Ｂの形式で出力され、口調別韻律イベント追加部１３に入力される。

口調別韻律イベント追加部１３では、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所にこの発生条件に対応する口調別韻律イベントが追加される（ステップＳ１０）。口調別韻律イベントテーブルは口調別韻律イベントテーブル記憶部３０に記憶されている。

図８は口調別韻律イベントテーブルの例である。例えば、アクセント句が発生条件「助詞「か」が発話末に存在する」に該当する、つまりアクセント句の最後のモーラが助詞「か」であれば、「か」の開始時刻に韻律イベントＩＤが１００である上昇イベントが追加される。

口調別韻律イベントテーブルが図８である場合、アクセント句「それでは」は発生条件に該当しないが、アクセント句「よろしいですか」は発生条件「助詞「か」が発話末に存在する」に該当する。よって、「か」の開始時刻である２．１１秒に上昇イベント（口調別韻律イベント）が追加される。追加された結果例を図９に示す。なお、図６、図８に示す韻律イベントＩＤはこの実施例の説明の便宜上用いる符号であって、発明を実施する際には必ずしも必要ない。

このように、韻律イベント生成部１２、口調別韻律イベント追加部１３では、従来技術２の生成過程モデルのような、発話全体にわたって影響を与えることを前提とするような大局的なイベントは用いない。また、口調別韻律イベント追加部１３で、発話末に助詞「か」が存在しているということは、このアクセント句は疑問口調であるとみなされ、「か」が上昇するということになる。よって、このような疑問口調であっても、的確なＦ０値時系列が生成される。その他、音声句口調とは異なる様々な口調、例えば「なれなれしい口調」等で合成音声を生成する場合であっても、口調別韻律イベントテーブルの設定次第で、正しい表現が出来、上記第２の問題点を解決することが出来る。口調別韻律イベント追加部１３からは例えば図９に示す形式で出力され、韻律イベントパラメータ生成部１４に入力される。

韻律イベントパラメータ生成部１４では、韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータが生成される（ステップＳ１４）。韻律イベントパラメータデータベースは韻律イベントパラメータデータベース記憶部２４に記憶されている。まず、韻律イベントパラメータについて説明する。

韻律イベント生成部１２、口調別韻律イベント追加部１３で生成された韻律イベントの各々には、その種類に応じた生成関数が対応付けられる。後述する図１０に示す生成関数テーブルに示すように、上昇イベントであれば、例えば以下の式（１）の生成関数が対応付けられる。

下降イベントであれば、以下の式（２）が対応付けられる。

なだらかな下降イベントであれば、以下の式（３）が対応付けられる。
−Ａ（ｍ−ｔ）σ^２ｅｘｐ（−σ（ｍ−ｔ））（３）

盛り上がりイベントであれば、以下の式（４）が対応付けられる。

式（１）〜（４）のｔは時間を表し、Ａ、ｍ、σが韻律イベントパラメータを表し、Ａ、ｍ、σを生成する必要がある。具体的には、Ａは関数の振幅を表す振幅パラメータであり、韻律イベントにより引き起こされる抑揚の大きさに対応する。ｍは生成関数の位置を表す位置パラメータであり、韻律イベントに対応付けられた生成箇所から、どの程度ずれた位置で実際に韻律イベントによりＦ０値の変化が引き起こされるかを表す。σは韻律イベントによるＦ０値の変化がどの程度の時間をかけて発生するかを表す継続時間パラメータである。

韻律イベントパラメータは同じ種類の韻律イベントに対しても、異なる値が生成されることがある。例示すると、図５で示すように入力テキストが「今日は、よく晴れて気持ちの良い一日です」である場合、アクセント句「今日は」のアクセント型と、アクセント句「晴れて」のアクセント型は同じ１型である。よって韻律イベント生成部１３で両者とも図６記載の韻律イベントＩＤ３、４、５のイベントが付与される。しかし、文の先頭のアクセント句「今日は」と、文の途中のアクセント句「晴れて」では一般的に、全く同じ抑揚で発生するわけではない。例えば、文の途中のアクセント句「晴れて」の抑揚は小さく、即ち振幅パラメータＡの値を小さくすることが適切な場合がある。

また、アクセント核の次に撥音「ん」がある場合とない場合とを比較すると、Ｆ０値が下降し始めるタイミングが異なることが観測されている。このような場合には、韻律イベントの位置パラメータｍを状況に応じて、適切に生成する必要がある。このように、同じ種類の韻律イベントであっても、文の先頭であるか、文の途中であるか、アクセント核の次に撥音がある等という状況が異なるため、生成される韻律イベントパラメータが異なる可能性がある。

このような様々な状況に応じて、韻律イベント毎に、適切に韻律イベントパラメータを生成する必要がある一方で、テキスト音声合成の利用分野においては、どのようなテキストに対しても、合成音声を生成する必要があることを考えれば、韻律イベントパラメータ生成部１４はあらゆる状況に対して適切な韻律イベントパラメータを生成することが出来なければならない。

そこで、このような様々な状況に対応して、適切な韻律イベントパラメータを生成するための手法として、韻律イベントパラメータデータベースを、例えば、韻律イベント毎に、決定木を用いたコンテキストクラスタリングの手法で構成することが考えられる。

一方、韻律イベントが対応付けられた箇所における音声・言語的な状況とは、例えばアクセント句の状況などが考えられる。そこで、韻律イベントパラメータを生成する方法として、韻律イベントパラメータデータベースと当該アクセント句の状況を用いて行うことを以下に説明する。

図１１は、上昇イベントの韻律イベントパラメータデータベースの構成である決定木の一例である。図１１から明らかなように、決定木は例えば二分木であり、ノードにはＹＥＳ／ＮＯで答えられる質問が付与されている。生成された韻律イベントの状況に対する質問の答えがＹＥＳであれは、右の子ノードへ、ＮＯであれば、左の子ノードへと木をたどれば、韻律イベントがどのような状況で生成されようとも、最終的にいずれかの葉に到達する。葉（最終的なノード）には韻律イベントパラメータＡ、ｐ、ｑが指定されている。位置パラメータｐ、継続時間パラメータｑはそれぞれ位置パラメータｍと継続時間パラメータσを正規化した値である（以下、正規化位置パラメータｐ、正規化継続時間パラメータｑという）。この正規化については、後述する。
韻律イベントパラメータデータベースの構成をこのような決定木にすれば、どのような状況の韻律イベントに対しても、的確な韻律イベントパラメータを生成することが出来る。

次に、具体的な韻律イベントパラメータの生成処理の流れを説明する。図９Ｂ記載の参照番号８２０１である上昇イベント（以下、韻律イベント８２０１という）の韻律イベントパラメータの生成処理について図１１を用いて説明する。この上昇イベントが付加されているアクセント句は「よろしいですか」である。

まず、アクセント句「よろしいですか」について、ルートノードであるノード６０１の質問「文頭のフレーズであるか」否かを検討する。アクセント句「よろしいですか」は文頭のフレーズではなく、２番目のフレーズであるので、回答はＮＯである。ＮＯの符号が付与されたバスを通り、ノード６０２に移動する。

次に、ノード６０２の質問「現在のアクセント型が１型であるか」否かを検討する。現在のアクセント句「よろしいですか」のアクセント型は３型であるので回答はＮＯである。ＮＯの符号が付与されたバスを通り、ノード６０３に移動する。

ノード６０３の質問「直前の句のアクセント型が０型であるか」否かを検討する。直前のアクセント句は「それでは」であり、アクセント句は３型であるので、回答はＮＯである。ＮＯの符号が付与されたバスを通り、ノード６０４へ移動する。ノード６０４は葉ノードであり、質問は付与されておらず、振幅パラメータＡ、正規化位置パラメータｐ、正規化継続時間パラメータｑの値が記述されている。そこで、韻律イベント８２０１の韻律イベントパラメータはＡ＝２．２、ｐ＝−０．２、ｑ＝０．１と生成される。

図１１は上昇イベントに対応した決定木であるが、同様な決定木を下降イベント、なだらかな下降イベント、盛り上がりイベントについても準備する。そして、全ての種類の韻律イベントについて、韻律イベントの種類に対応する決定木を用いて、上記の処理で、韻律イベント毎に、韻律イベントパラメータを生成する。

そして、図１２に示すように、アクセント句「よろしいですか」は、韻律イベントごとに、韻律イベントが対応付けられる生成箇所、振幅パラメータＡ、正規化位置パラメータｐ、正規化継続時間パラメータｑの４つの値の組で表される。韻律イベントパラメータ生成部１４からは例えば図１２に示す表の形式で出力され、韻律イベントパラメータ変換部２２に入力される。

また、図１１では振幅パラメータＡ、正規化位置パラメータｐ、正規化継続時間パラメータｑをまとめて決定する決定木を示しているが、パラメータの種類毎に異なる決定木を構築することも考えられる。また、図６や図７に示す韻律イベントＩＤごとに異なる決定木を用いることも考えられる。また、図１１の例では、質問として、アクセント句のアクセント型やかかり受け関係に関連する質問が例示されているが、このほかにも、入力テキスト中のアクセント句の位置やあるいは韻律イベントが生成された箇所の前後の単語の形態素情報や音韻の情報、あるいはパラメータを生成する対象の韻律イベントより前に生成された韻律イベントの振幅の総和など、様々な観点から質問を考えることが出来る。

韻律イベントパラメータ変換部２２では、韻律イベントパラメータ生成部１４が生成した正規化韻律イベントパラメータ（正規化位置パラメータｐと正規化継続時間パラメータｑ）をモーラの情報もしくはアクセント句の情報に応じて、韻律イベントパラメータに変換される（ステップＳ１４）。具体的には、正規化位置パラメータｐと正規化継続時間パラメータｑがそれぞれ、位置パラメータｍ、継続時間パラメータσに変換される。以下の説明では、モーラの情報に応じて変換される場合を説明する。

位置パラメータｍと継続時間パラメータσの正規化について説明する。上述した位置パラメータｐと継続時間パラメータｑの単位は、該当韻律イベントを含むアクセント句の平均モーラ長で正規化された値である。例えばアクセント句「よろしいですか」であれば、アクセント句に７個のモーラを含む。また、図４等を参照すると、アクセント句「よろしいですか」は１番目のモーラ「よ」の開始時刻が０．９１秒であり、最後のモーラ「か」の終了時刻は２．３１秒である。よって、アクセント句の継続時間は１．４秒であり、アクセント句全体での平均モーラ長は０．２秒／モーラとなる。また、図１２記載の上昇イベント９０２の生成箇所は１．１１秒であり、正規化位置パラメータｐは−０．２である。これは１番目のモーラ「よ」の終了時刻である１．１１秒から、−０．２モーラ即ち、−０．２（上昇イベント９０２の正規化位置パラメータ）×０．２（平均モーラ長）＝−０．０４となる。つまり０．０４秒前である１．０７が位置パラメータｍの値である。

また、同様に正規化継続時間パラメータｑは０．１である。これは、平均モーラ長０．１をかけて得られる０．０１が継続時間パラメータσの値である。その他の韻律イベントについても正規化位置パラメータｐと正規化継続時間パラメータｑを変換して、例えば図１３に示すような表が生成され、韻律イベントパラメータ変換部２２から出力され、デルタ関数生成部１６に入力される。

正規化位置パラメータｐや正規化継続時間パラメータｑの単位は平均モーラ長に限られるものではなく、秒やミリ秒といった単位を直接用いることも可能である。しかし、秒やミリ秒といった絶対的な単位を用いると、韻律イベントパラメータの値が話速に強く影響を受けてしまう。このため、通常よりも、速い話速や遅い話速に対応した合成音声を生成する際に、所望の話速に応じた位置パラメータや継続時間パラメータに対応した決定木を用いる必要があり、韻律イベントパラメータデータベースには、所望の話速に応じた多数の決定木を準備する必要がある。従って、韻律イベントパラメータデータベースの構築にかかるコストが増大すると共に韻律イベントパラメータデータベース記憶部２４には膨大なデータを格納しなければならなくなる。従って、話速によらず、安定した位置や継続時間を表現するために、図１２の例では、平均モーラ長を単位としている。

デルタ関数生成部１６では、韻律イベント毎に、所定の生成関数に韻律イベントパラメータＡ、ｍ、σを適用し、全ての韻律イベントに対応する生成関数の和を計算することで、アクセント句におけるＦ０値時系列のデルタ関数ＦＤ（ｔ）が生成される（ステップＳ１６）。所定の関数とは例えば、上記式（１）〜（４）が考えられるが、これらに限られるものではない。以下の説明では、所定の生成関数を上記式（１）〜（４）として説明をする。生成関数テーブルは生成関数テーブル記憶部３２に記憶されており、上述した図１０が生成関数テーブルの一例である。

図１０に示すように、生成関数と生成関数の概型は韻律イベントの種類に対応付けられている。例えば、下降イベントであれば生成関数は上記式（２）である。また、デルタ関数生成部１６は生成関数生成部１６２、加算部１６４とで構成されている。

まず生成関数生成部１６２で、入力に含まれる韻律イベント全てについて、韻律イベントに対応する生成関数が生成される。生成された生成関数を図１４に示す。図１４記載の生成関数の参照番号１００１〜１００７はそれぞれ図１３の韻律イベントの参照番号９０１〜９０７と対応する。生成された生成関数１００１〜１００７は全て加算部１６４に入力される。

加算部１６４では、生成関数１００１〜１００７について、入力のアクセント句の開始時刻から終了時刻の各時刻の和を加算することでデルタ関数ＦＤ（ｔ）が求められる。デルタ関数ＦＤ（ｔ）の例を図１５に示す。デルタ関数ＦＤ（ｔ）とはＦ０値時系列を微分したもの、つまり、Ｆ０値時系列の増減を示す関数である。このようにして、アクセント句毎に、デルタ関数ＦＤ（ｔ）は生成される。

なお、図１０に示す生成関数テーブルの生成関数の下降イベントの生成関数（上記式（２））、盛り上がりイベントの生成関数（上記式（４））については、以下の説明のように、上昇イベントの生成関数（上記式（１））で表すことができる。以下説明すると、下降イベントの生成関数は上昇イベントの生成関数に「−」を付したものである。

盛り上がりイベントの生成関数については、まず上昇イベント、下降イベントの生成関数の継続時間を１／２にし、つまりσをσ／２に置き換える。そして継続時間が１／２の上昇イベントの生成関数をσ／２だけ負の方向に移動させ、つまりｍをｍ−σ／２に置き換える。また継続時間が１／２の下降イベントの生成関数をσ／２だけ正の方向に移動させ、つまり、ｍをｍ＋σ／２に置き換える。これら置き換えられた上昇イベントの生成関数と下降イベントの生成関数を加算することで、盛り上がりイベントの生成関数を求めることが出来る。以上のことから生成関数は上昇イベントの生成関数（上記式（１））となだらかな下降イベントの生成関数（上記式（３））とで表すことができる。

初期Ｆ０値生成部１８では、初期Ｆ０値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期Ｆ０値が求められる（ステップＳ１８）。

初期Ｆ０値パラメータデータベースは初期Ｆ０値パラメータデータベース記憶部２６に記憶されている。初期Ｆ０値パラメータデータベースは上述した韻律イベントパラメータデータベースと同様に、例えば、二分木構成が考えられる。初期Ｆ０値パラメータデータベースの構成例を図１６に示す。

アクセント句「よろしいですか」を例にして具体的に説明すると、まずルートノードであるノード１２０１の質問「現在のアクセント句のアクセント型が１型であるか」否かを検討する。アクセント句「よろしいですか」のアクセント型は３型であり、回答はＮＯである。よって、ＮＯの符号が付与されたバスを通り、ノード１２０２に移動する。次にノード１２０２の質問「現在の句のアクセント型が０型であるか」否かを検討する。回答はＮＯであるので、ＮＯの符号が付与されたバスを通り、ノード１２０４に移動する。次にノード１２０４の質問「文頭であるか」否かを検討する。アクセント句「よろしいですか」は文頭の句でないないので、回答はＮＯであり、ＮＯの符号が付与されたバスを通り、ノード１２０７に移動する。ノード１２０７は葉ノードであり、質問は付与されておらず、初期Ｆ０値が記述されている。そこで、「よろしいですか」の初期Ｆ０値は５．２に決定される。なお、初期Ｆ０値パラメータデータベースの構成例はニ分木に限られず、様々な構成が考えられる。このようにして、初期Ｆ０値生成部１８でアクセント句毎に初期Ｆ０値が求められ、Ｆ０値時系列生成部２０へ入力される。また、初期Ｆ０値生成部１８は図１７のように、図１３に示す表と、図１５に示すデルタ関数と初期Ｆ０値を組み合わせたものを出力してもよい

Ｆ０値時系列生成部２０では、デルタ関数生成部１６からのアクセント句毎のデルタ関数と、初期Ｆ０値生成部１８からのアクセント句毎の初期Ｆ０値とから、アクセント句毎にＦ０値時系列が生成される（ステップＳ２０）。

具体的には、例えば、デルタ関数ＦＤ（ｔ）の積分値に初期Ｆ０値を加算して、アクセント句毎のＦ０値時系列Ｆ（ｔ）が生成される。ｔは開始時刻と終了時刻の間の任意の時間とする。つまり以下の式（５）でＦ０値時系列Ｆ（ｔ）が生成される。

ここでｔ１はアクセント句の開始時刻を示す。右辺の積分演算の意味は、上述の通り、デルタ関数ＦＤ（ｔ）はＦ０値時系列を微分したものであるので、デルタ関数ＦＤ（ｔ）を積分することで、Ｆ０値時系列を求めることが出来る。図１８は、Ｆ０値時系列生成部２０での処理結果である上記式（５）の演算結果、つまり生成されたアクセント句「よろしいですか」のＦ０値時系列を示すものである。

上述のように、例えば、アクセント句「よろしいですか」の場合、初期Ｆ０値と７つの韻律イベントそれぞれに３つずつの韻律イベントパラメータが生成される。よって、合計２２の韻律パラメータだけで、Ｆ０値時系列を表現することが出来る。一方、従来技術１では「ＹＯＲＯＳＩＩＤＥＳＵＫＡ」という１３個の音韻毎に６個のパラメータが必要であり、つまり７８個のパラメータが必要である。従って、この実施例では少ないパラメータでＦ０値時系列を生成することが可能になり、結果としてコストを下げることが出来、上記第１の問題点は解決される。

また、アクセント句「よろしいですか」のアクセント型は３型であり、対応したＦ０値の動きに加えて、最後の「か」に対応したＦ０値の上昇が実現されている。よって、疑問口調に限らず、様々な口調に対応したＦ０値時系列を生成することができるので上記第２の問題点も解決される。

この実施例２では、処理を簡素にするため、実施例１で説明した韻律イベント生成部１２、口調別韻律イベント追加部１３、韻律イベントパラメータ生成部１４、韻律イベントパラメータ変換部２２との構成を統合して、韻律イベント部５４としてＦ０値時系列生成装置５２を作動させるものである。

図１９は実施例２の機能構成例を示した図である。韻律イベント部５４では、アクセント型、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、更に口調別韻律イベントを追加し、韻律イベント、口調別韻律イベント毎に韻律イベントパラメータが生成される。

韻律イベントパラメータテーブルは韻律イベントパラメータテーブル記憶部２９に記憶されている。図２０に韻律イベントパラメータテーブルを示す。韻律イベントパラメータテーブルは、例えば、図６記載の韻律イベントテーブルと図８記載の口調別韻律イベントテーブルを統合させ、韻律イベント、口調別韻律イベント毎に対応する韻律イベントパラメータを付加させたものである。韻律イベント部では、図６記載の韻律イベントテーブル、図８記載の口調別韻律イベントテーブル、図１１記載の韻律イベントパラメータデータベースを用いない。

まず、アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが韻律イベント部５４に入力される。韻律イベント部５４で、韻律イベントパラメータテーブルを用いて、アクセント句のアクセント型に応じて韻律イベントが生成され、同時に、その韻律イベントに対応する振幅パラメータＡ、位置パラメータｍ、継続時間パラメータσが求められる。以後のデルタ関数生成部１６などの処理は実施例１と同様なので、省略する。

この実施例２は実施例１よりも少ないコストで実施することが出来る。

この実施例３は、実施例１で説明したデルタ関数生成部１６、初期Ｆ０値生成部１８、Ｆ０値時系列生成部２０を統合させてＦ０値時系列部５８として、韻律イベントパラメータ生成装置５６を処理させるものである。図２１は実施例３の機能構成例である。

Ｆ０値時系列部５８では、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にＦ０値時系列が生成される。所定の生成関数とは、例えば、上昇イベントの生成関数（上記式（１））、なだらかな下降の生成関数（上記式（３））などが挙げられる。上述したように、下降イベントの生成関数、盛り上がりイベントの生成関数は上昇イベントの生成関数から求めることが出来る。

まず、Ｆ０値時系列部５８で韻律イベントに対応する生成関数が求められる。また例えば、上記の方法で初期Ｆ０値が求められ、韻律イベントパラメータ変換部２２で求められた韻律イベントパラメータが生成関数に適用される。また、例えば実施例１で説明した手法で初期Ｆ０値が求められ、これらより、Ｆ０値時系列が求められる。

実施例１では、生成関数の加算後、積分計算してＦ０値時系列を求めていたが、この実施例３では、積分計算がされた生成関数を加算して、Ｆ０値時系列を求めること等ができる。この実施例３は実施例１で説明した処理の順序でなくとも、目的が達成される点で有効である。

この実施例４では、実施例２で説明した韻律イベント部５４と実施例３で説明したＦ０値時系列部５８とでＦ０値時系列生成装置６０は構成される。図２２は実施例４の機能構成例である。処理内容は、実施例２、実施例３で説明した通りなので、説明を省略する。

以上説明したＦ０値時系列生成処理の過程では、Ｆ０値の対数の値の時系列を生成してから、指数関数を用いてＦ０値時系列を合成するものとする。従って、生成関数の韻律イベントパラメータや初期Ｆ０値については、Ｆ０値の対数をとった数値が例として示されている。これは、対数領域でのＦ０値の変化が聴感上の変化によく対応するという知見を反映した処理である。もちろん、対数Ｆ０値を用いず、線形のＦ０値を用いる場合でも、韻律イベントパラメータデータベースや初期Ｆ０値パラメータデータベースに含まれる数値を線形Ｆ０値とすれば、同様の処理で直接Ｆ０値時系列を生成することが可能である。

以上の各実施形態の他、本発明であるＦ０値時系列生成装置は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、Ｆ０値時系列生成装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、この発明のＦ０値時系列生成装置における処理をコンピュータによって実現する場合、Ｆ０値時系列生成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、Ｆ０値時系列生成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）等を、光磁気記録媒体として、ＭＯ（Ｍａｇｎｅｔｏ−Ｏｐｔｉｃａｌｄｉｓｃ）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（ＥｌｅｃｔｒｏｎｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。

また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（ＡｐｐｌｉｃａｔｉｏｎＳｅｒｖｉｃｅＰｒｏｖｉｄｅｒ）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、Ｆ０値時系列生成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の実施例１の機能構成例を示すブロック図。この発明の実施例１の主な処理の流れを示すフローチャート。アクセント句分割・付与部２の出力例を示す図。モーラ分割・付与部４の出力例を示す図。モーラ分割・付与部４のその他の出力例を示す図。韻律イベントテーブルの例を示す図。韻律イベント生成部１２の出力例を示す図。口調別韻律イベントテーブルの例を示す図。口調別韻律イベント追加部１３の出力例を示す図。生成関数テーブルの例を示す図。韻律イベントパラメータデータベースの構成例を示す図。韻律イベントパラメータ生成部１４の出力例を示す図。韻律イベントパラメータ変換部２２の出力例を示す図。生成関数生成部１６２の出力例を示す図。加算部１６４の出力例を示す図。初期Ｆ０値パラメータデータベースの構成例を示す図。初期Ｆ０値生成部１８の出力例を示す図。Ｆ０値時系列生成部２０の出力例を示す図。この発明の実施例２の機能構成例を示す図。韻律イベントパラメータテーブルの例を示す図。この発明の実施例３の機能構成例を示す図。この発明の実施例４の機能構成例を示す図。

Claims

アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のＦ０値時系列を生成するＦ０値時系列生成装置であって、
アクセント型と、モーラ毎の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント部と、
韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にＦ０値時系列を生成するＦ０値時系列部と、
を有することを特徴とするＦ０値時系列生成装置。
請求項１記載のＦ０値時系列生成装置であって、
上記韻律イベント部は、
上記韻律イベントパラメータテーブルに代えて、
韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成部と、
口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加部と、
韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に韻律イベントパラメータを生成する韻律イベントパラメータ生成部と、
を有するものであることを特徴とするＦ０値時系列生成装置。
請求項２記載のＦ０値時系列生成装置であって、
上記複数の韻律イベント及び口調別韻律イベントは上昇、下降、なだらかな下降、盛り上がり、であることを特徴とするＦ０値時系列生成装置。
請求項１〜３何れかに記載のＦ０値時系列生成装置であって、
上記Ｆ０値時系列部は、
韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるＦ０値時系列のデルタ関数として生成するデルタ関数生成部と、
初期Ｆ０値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期Ｆ０値を求める初期Ｆ０値生成部と、
デルタ関数と初期Ｆ０値とからアクセント句毎にＦ０値時系列を生成するＦ０値時系列生成部と、を有することを特徴とするＦ０値時系列生成装置。
請求項１〜４何れかに記載のＦ０値時系列生成装置であって、
上記生成関数は、

又は
−Ａ（ｍ−ｔ）σ^２ｅｘｐ（−σ（ｍ−ｔ））であり、
上記韻律イベントパラメータはＡ、σ、ｍであることを特徴とするＦ０値時系列生成装置。
請求項２〜５に何れかに記載のＦ０値時系列生成装置であって、
上記韻律イベントパラメータデータベースは正規化された韻律イベントパラメータ（以下、正規化韻律イベントパラメータという）が格納されており、
上記韻律イベントパラメータ生成部が生成した正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換部を有することを特徴とするＦ０値時系列生成装置。
アクセント句毎に境界位置とアクセント句毎のアクセント型が付与され、モーラごとの開始時刻及び終了時刻が決められたテキストが入力され、音声のＦ０値時系列を生成するＦ０値時系列生成方法であって、
韻律イベント手段が、アクセント型と、モーラ型の開始時刻及び終了時刻とから韻律イベントパラメータテーブルを用いて、韻律イベントを生成し、前記韻律イベント毎に韻律イベントパラメータを生成する韻律イベント過程と、
Ｆ０値時系列手段が、韻律イベントパラメータと所定の生成関数を用いて、アクセント句毎にＦ０値時系列を生成するＦ０値時系列過程と、
を有することを特徴とするＦ０値時系列生成方法。
請求項７記載のＦ０値時系列生成方法であって、
上記韻律イベント過程は、
韻律イベント生成手段が、
上記韻律イベントパラメータテーブルに代えて、
韻律イベントテーブルを用いて、アクセント型に応じてアクセント句の指定された箇所に対応付けられる複数の韻律イベントを生成する韻律イベント生成過程と、
口調別韻律イベント追加手段が、口調別韻律イベントテーブルを用いて、アクセント句が発生条件に該当すれば、このアクセント句の指定された箇所に、この発生条件に対応する口調別韻律イベントを追加する口調別韻律イベント追加過程と、
韻律イベントパラメータ生成手段が、正規化された韻律イベントパラメータ（以下、正規化韻律イベントパラメータという）が格納された韻律イベントパラメータデータベースと韻律イベントが対応付けられた箇所における音声・言語的な状況を用いて、韻律イベント毎に正規化韻律イベントパラメータを生成する韻律イベントパラメータ生成過程と、
韻律イベントパラメータ変換手段が、上記韻律イベントパラメータ生成過程で生成された正規化韻律イベントパラメータをモーラの情報もしくはアクセント句の情報に応じて変換し、韻律イベントパラメータを出力する韻律イベントパラメータ変換過程と、を有し、
上記Ｆ０値時系列過程は、
デルタ関数生成手段が、韻律イベント毎に、生成関数テーブルから求めた生成関数に韻律イベントパラメータを適用し、全ての韻律イベントに対応する生成関数の和をアクセント句におけるＦ０値時系列のデルタ関数として生成するデルタ関数生成過程と、
初期Ｆ０値生成手段が、初期Ｆ０値パラメータデータベースとアクセント句の情報を用いて、アクセント句毎に初期Ｆ０値を求める初期Ｆ０値生成過程と、
Ｆ０値時系列生成手段が、デルタ関数と初期Ｆ０値とからアクセント句毎にＦ０値時系列を生成するＦ０値時系列生成過程と、を有することを特徴とするＦ０値時系列生成方法。
請求項１〜６何れかに記載のＦ０値時系列生成装置の各処理をコンピュータに実行させるためのＦ０値時系列生成プログラム。
請求項９記載のＦ０値時系列生成プログラムを記録したコンピュータ読み取り可能な記録媒体。