JP5012444B2

JP5012444B2 - 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Info

Publication number: JP5012444B2
Application number: JP2007295898A
Authority: JP
Inventors: 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-11-14
Filing date: 2007-11-14
Publication date: 2012-08-29
Anticipated expiration: 2027-11-14
Also published as: JP2009122382A

Description

本発明は、人間の発声から抽出された発声韻律パターンを記録する発声韻律記録部を備えることにより、発声韻律記録部に記録された発声韻律パターンを用いて、入力テキストの合成音声用の韻律パターンを生成する韻律生成装置、韻律生成方法、および、韻律生成プログラムに関する。

近年、テキストを音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、ＩＶＲ（自動音声応答：Interactive Voice Response）システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システム等である。このような音声合成技術においては、現状、人間の発声並みに自然で、表現力豊かな合成音声を生成することは困難である。

すなわち、合成音声の韻律は、一般に、テキストにおける単語の読みや品詞を解析する形態素解析、文節や係り受けの解析といった言語解析に基づき、アクセントの設定、イントネーションの設定、ポーズや話速の設定等を経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の発声と比較して、声の高さ、イントネーション、リズム等の喋り方を決める韻律が不自然な箇所が含まれることがある。

そこで、合成音声の韻律の品質を高める方法として、人間の発声から発声韻律パターンを抽出し、抽出した発声韻律パターンを用いて合成音声を生成する方法が知られている（例えば、特許文献１または２参照）。この方法では、人間の発声と発声韻律パターンの抽出作業とが予め必要になるが、人間の発声から抽出された発声韻律パターンを用いて合成音声を生成するので、人間の発声並みに自然で、表現力豊かな合成音声を生成することができる。

具体的には、特許文献１には、頻繁に使われるフレーズや、お詫び、挨拶等のフレーズを予め定型文として登録しておくことにより、入力されたテキストが定型文に該当する場合、この定型文を読み上げた人間の発声から抽出された発声韻律パターンを用いて、合成音声を出力する音声合成装置が開示されている。これにより、特許文献１の音声合成装置は、頻繁に使われるフレーズや、お詫び、挨拶等のフレーズを、人間の発声並みに自然で、表現力豊かな合成音声として出力することができる。しかしながら、特許文献１の音声合成装置では、入力されたテキストと、予め登録された定型文とが完全に一致していなければ、定型文を読み上げた人間の発声から抽出された発声韻律パターンを用いることができなかった。

そこで、特許文献２には、文字表記データと、この文字表記を読み上げた人間の発声から抽出された発声韻律パターンとが記録された発声韻律記録部を備える音声合成装置が開示されている。具体的には、特許文献２の音声合成装置は、入力されたテキストと類似度が最も高い文字表記データを発声韻律記録部から検索し、検索の結果、類似度が最も高い文字表記データに対応する発声韻律パターンを発声韻律記録部から抽出し、抽出した発声韻律パターンを用いて、合成音声を出力する。例えば、入力されたテキストが「渋谷まで渋滞しています」であって、入力されたテキスト「渋谷まで渋滞しています」が文字表記データとして発声韻律記録部に記録されていない場合、入力されたテキスト「渋谷まで渋滞しています」と類似度が最も高い文字表記データ「新宿まで運転しています」に対応する発声韻律パターンを発声韻律記録部から抽出する。これにより、音声合成装置は、抽出した「新宿まで運転しています」を示す発声韻律パターンを用いて、入力されたテキスト「渋谷まで渋滞しています」に対応する合成音声を出力することができる。この結果、特許文献２の音声合成装置は、入力されたテキストと、発声韻律記録部に記録された文字表記データとが完全に一致していなくても、人間の発声並みに自然で、表現力豊かな合成音声を出力することができる。
特開２００４−１９８９１７号公報特許第３５８７０４８号公報

しかしながら、上記特許文献２の音声合成装置では、入力されたテキストと、発声韻律記録部に記録された文字表記データとの類似度を、読みではなく、表記に基づいて算出しているため、例えば、以下のような場合に問題を生じる。

一例として、「して来ました」を示す文字表記データが発声韻律記録部に記録され、「してきました」を示すテキストが入力された場合を考える。なお、発声韻律記録部には、「してきました」を示す文字表記データは記録されていない。この場合、「してきました」を示すテキストと、「して来ました」を示す文字表記データとは、読みは同一であるが、表記が異なっている。このため、「してきました」を示すテキストと、「して来ました」を示す文字表記データとの類似度よりも高い類似度の文字表記データがあった場合、上記特許文献２の音声合成装置は、文字表記データ「して来ました」に対応する発声韻律パターンを発声韻律記録部から抽出できなかった。それゆえ、上記特許文献２の音声合成装置では、読みは同一であるが表記が異なっている場合等、全てのバリエーションを考慮した上で、文字表記データと発声韻律パターンとを発声韻律記録部に記録する必要があった。

また、「してきました」を読み上げた人間の発声から抽出された発声韻律パターンと、「していました」を読み上げた人間の発声から抽出された発声韻律パターンとは、「してきました」と「していました」とでは読みは異なっているが、実際には、発声韻律パターンはほぼ同一となる。ここで、他の例として、「してきました」を示す文字表記データが発声韻律記録部に記録され、「していました」を示すテキストが入力された場合を考える。なお、発声韻律記録部には、「していました」を示す文字表記データは記録されていない。この場合、上記特許文献２の音声合成装置において、仮に、文字表記データ「してきました」に対応する発声韻律パターンを発声韻律記録部から抽出できた場合であっても、次のような問題を生じる。すなわち、一致部分の「して」と「ました」に対しては人間の発声から抽出された発声韻律パターンを用い、不一致部分の「い」に対しては計算により得られた発声韻律パターンを用い、これらの発声韻律パターンを互いに変形して接続することにより、最終的な発声韻律パターンを生成している。このため、全区間で人間の発声から抽出された発声韻律パターンを用いる場合と比較して自然性が劣る。

そのため、上記特許文献２の音声合成装置において、全区間に渡って人間の発声から抽出された発声韻律パターンを利用するためには、「していました」を示す文字表記データと、「していました」を読み上げた人間の発声から抽出された発声韻律パターンと、「してきました」を示す文字表記データと、「してきました」を読み上げた人間の発声から抽出された発声韻律パターンとを発声韻律記録部に記録する必要があった。

この結果、発声韻律記録部に記録される情報量が膨大になるという問題を生じる。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる韻律生成装置、韻律生成方法、および、韻律生成プログラムを提供することにある。

上記目的を達成するために本発明における韻律生成装置は、入力テキストを受け付けるテキスト入力部と、前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備える。なお、前記合成韻律生成部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。

本発明の韻律生成装置によれば、言語処理部は、入力テキストの読みを示す入力表音文字列を生成する。用例検索部は、入力表音文字列と、用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較する。入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部は、少なくとも当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する。なお、単位発声韻律パターンは、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンの少なくとも１つを含む。すなわち、用例文字列には、複数の代替語のそれぞれに置き換え可能であることが示されているので、発声韻律記録部には、複数の代替語のそれぞれに置き換えられたそれぞれの文字列と、それぞれの文字列に対応するそれぞれの単位発声韻律パターンとが記録されている必要がない。つまり、発声韻律記録部には、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、用例文字列に対応する単位発声韻律パターンとが記録されていればよい。これにより、発声韻律記録部に記録される情報量を抑えることができる。規則韻律生成部は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。なお、入力規則韻律パターンは、入力規則ピッチパターン、入力規則音素長パターン、および、入力規則パワーパターンの少なくとも１つを含む。合成韻律生成部は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。この結果、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

上記本発明における韻律生成装置においては、前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、前記合成韻律生成部は、前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む態様とするのが好ましい。なお、前記適用判定部は、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。

上記構成によれば、差分算出部は、直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。適用判定部は、算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。つまり、算出された差分が閾値以上である場合、仮に、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを統合しようとすれば、単位発声韻律パターンを大きく変形する必要がある。単位発声韻律パターンを大きく変形すると、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができない。それゆえ、本発明に係る上記の態様によれば、算出された差分が閾値以上である場合、適用判定部は、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。一方、算出された差分が閾値未満である場合、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとのコスト（非調和の尺度）が小さいので、適用判定部は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。

上記本発明における韻律生成装置においては、前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、前記合成韻律生成部は、前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む態様とするのが好ましい。

上記構成によれば、調整範囲決定部は、直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する。なお、アクセント情報は、アクセントの「高」または「低」のうちいずれかを示す情報である。つまり、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとは、アクセント情報が同一であるため、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとのパターン形状はそれぞれ近似する。接続調整部は、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形する。接続調整部は、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

上記本発明における韻律生成装置においては、前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、前記合成韻律生成部は、前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む態様とするのが好ましい。なお、前記接続調整部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンを変形し、変形したパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。

上記構成によれば、差分算出部は、発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。接続調整部は、算出された差分に応じて、入力規則韻律パターンを変形する。接続調整部は、変形した入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

上記目的を達成するために本発明における音声合成システムは、上記の韻律生成装置と、前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える。

本発明の音声合成システムによれば、上記の韻律生成装置により生成された合成音声用の韻律パターンに基づいて合成音声データを生成し出力するので、出力された合成音声データは、人間の発声が有する自然性・表現力を備えた合成音声データとなる。

上記目的を達成するために本発明における韻律生成方法は、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含む。

上記目的を達成するために本発明における韻律生成プログラムは、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、前記韻律生成プログラムは、入力テキストを受け付けるテキスト入力処理と、前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させる。

なお、本発明における韻律生成方法および韻律生成プログラムは、上記の韻律生成装置と同様の効果を得る。

以上のように、本発明の韻律生成装置、韻律生成方法、および、韻律生成プログラムは、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができるという効果を奏する。

以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。

[実施の形態１]
図１は、本実施形態に係る音声合成システム１の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１は、韻律生成装置２、および、波形生成装置３を備えている。韻律生成装置２と波形生成装置３とは有線または無線により互いに接続されている。韻律生成装置２は、入力テキストを受け付け、受け付けた入力テキストと、人間の発声から抽出された発声韻律パターンとに基づいて、合成音声用の韻律パターンを生成し出力する装置である。波形生成装置３は、韻律生成装置２により生成された合成音声用の韻律パターンを受け付け、受け付けた合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する装置である。韻律生成装置２および波形生成装置３は、例えば、パーソナルコンピュータ、サーバマシン等の汎用コンピュータによって構成される。なお、韻律生成装置２および波形生成装置３は、例えば、車載情報端末、携帯電話、家電製品等の電子機器に組み込まれたコンピュータによって構成されていてもよい。また、韻律生成装置２および波形生成装置３は、同一のハードウェア内にそれぞれ存在していてもよいし、図１に示すように、異なるハードウェア内にそれぞれ存在していてもよい。

（韻律生成装置の構成）
韻律生成装置２は、テキスト入力部２１、単語辞書２２、言語処理部２３、発声韻律記録部２４、用例検索部２５、規則韻律生成部２６、および、合成韻律生成部２７を備えている。

テキスト入力部２１は、任意の入力テキストを受け付ける。本実施形態においては、テキスト入力部２１は、「電話していました。」を示す入力テキストを受け付けたものとする。テキスト入力部２１は、例えば、キーボード、マウス等の入力デバイスを介してユーザから入力テキストの入力を受け付けてもよいし、コンピュータが備えるメモリ等に記録されたデータを読み取ることによって入力テキストを受け付けてもよいし、有線または無線によって送信されたテキストデータを入力テキストとして受け付けてもよい。テキスト入力部２１は、受け付けた入力テキストを言語処理部２３に出力する。

単語辞書２２は、複数の単語の表記、読み、品詞、アクセント情報等を記録する。アクセント情報は、アクセント型やアクセント結合に関する情報を示すデータである。例えば、韻律生成装置２が単語データを記録した記録媒体を読み取ることによって、単語辞書２２には、上記の単語の表記、読み、品詞、アクセント情報が記録される。

言語処理部２３は、単語辞書２２を用いて、テキスト入力部２１から出力された入力テキストに対して形態素解析を行う。入力テキストは、言語処理部２３において単語辞書２２を用いて形態素解析を行うことにより、複数の単語に分割される。また、言語処理部２３は、分割された各単語について、単語辞書２２を用いることにより、品詞や読み、アクセント等を判別する。品詞は、普通名詞、動詞連用形、形容詞、形容動詞、格助詞、接続助詞等である。読みは、単語の読みを示す。なお、アクセントは、アクセント核を用いて表す。ここで、アクセント核は、アクセントが「高」から「低」へ移行する位置である。本実施形態においては、アクセント核を「’」の記号で表し、例えば、「シテイマ’シタ」のように表記する。なお、形態素解析の方法として、例えば、ビタビ（Viterbi）アルゴリズムや最長一致法等を用いるものが挙げられるが、本実施形態で用いられる形態素解析の方法は、特定のものに限定されない。

言語処理部２３は、上記の形態素解析、係り受け（修飾）関係の解析等を経て、入力テキストの読みとアクセントを示す入力表音文字列を生成する。本実施形態においては、言語処理部２３は、入力テキスト「電話していました。」の読みを示す入力表音文字列「デンワ＿シテイマ’シタ．」を生成する。ここで、「＿」は、アクセント句の境界を表す記号である。アクセント句は、日本語のアクセントを表す際の構成単位であって、１つのアクセント句にはアクセント核がたかだか１つ含まれる。「’」は、アクセント核を表す記号である。なお、上記の入力表音文字列のフォーマットは、単なる一例であり、入力表音文字列の表し方は、これに限定されない。言語処理部２３は、生成した入力表音文字列を用列検索部２５および規則韻律生成部２６に出力する。

図２は、本実施形態に係る発声韻律記録部２４に記録されたデータの一例を示す図である。図２に示すように、発声韻律記録部２４には、識別番号、用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンが記録されている。ここで、識別番号は、発声韻律記録部２４のレコードを一意に識別する符号である。用例文字列は、後述する用例検索部２５によって検索される対象となる文字列である。本実施形態においては、発声韻律記録部２４には、用例文字列として、「シテクダサイ」、「シテ※マシタ」、「スル※※ニ」、「シテイ※」、および、「コト※ナイ」が記録されている。ここで、「※」は、複数の代替語のそれぞれに置き換え可能であることを示す記号である。なお、「※」は１拍に対応し、「※※」は２拍に対応する。

すなわち、「シテクダサイ」は、所定単位の単位テキスト「して下さい」の読みを示す用例文字列である。また、「シテ※マシタ」は、所定単位の単位テキスト「していました」の読みを示す単位表音文字列「シテイマシタ」の「イ」を「※」に置き換えた用例文字列である。また、「スル※※二」は、所定単位の単位テキスト「するものに」の読みを示す単位表音文字列「スルモノニ」の「モノ」を「※※」に置き換えた用例文字列である。また、「シテイ※」は、所定単位の単位テキスト「していた」の読みを示す単位表音文字列「シテイタ」の「タ」を「※」に置き換えた用例文字列である。さらに、「コト※ナイ」は、所定単位の単位テキスト「こともない」の読みを示す単位表音文字列「コトモナイ」の「モ」を「※」に置き換えた用例文字列である。このように、用例文字列は、上記の「して下さい」、「していました」、「していた」等のように、日本語で頻出するフレーズである所定単位の単位テキストの読みを示している。

代替語は、用例文字列に含まれている「※」に置き換え可能な複数の文字あるいは文字列である。ここで、図２に示す例では、発声韻律記録部２４には、用例文字列「シテクダサイ」に対応して代替語「−」が記録されている。代替語「−」は、代替語が存在しないことを示している。また、用例文字列「シテ※マシタ」に対応して代替語「任意」が記録されている。つまり、用例文字列「シテ※マシタ」の「※」は、どの文字でも置き換え可能な、いわゆるワイルドカードであることを示している。また、発声韻律記録部２４には、用例文字列「スル※※ニ」に対応して代替語「モノ」、「コト」が記録されている。つまり、用例文字列「スル※※ニ」の「※※」は、「モノ」あるいは「コト」に置き換え可能であることを示している。また、発声韻律記録部２４には、用例文字列「シテイ※」に対応して代替語「タ」、「ル」が記録されている。つまり、用例文字列「シテイ※」の「※」は、「タ」あるいは「ル」に置き換え可能であることを示している。さらに、発声韻律記録部２４には、用例文字列「コト※ナイ」に対応して代替語「モ」、「ハ」、「ガ」が記録されている。つまり、用例文字列「コト※ナイ」の「※」は、「モ」、「ハ」あるいは「ガ」に置き換え可能であることを示している。

なお、上記では、用例文字列に、複数の代替語のそれぞれに置き換え可能であることを示す記号「※」が含まれている例について説明したが、これに限定されない。例えば、用例文字列に、記号「※」の代わりに、複数の代替語のそれぞれが直接含まれるようにしてもよい。具体的には、用例文字列「スル※※二」の代わりに、用例文字列「スル｜モノ・コト｜ニ」であってもよい。すなわち、用例文字列に、複数の代替語のそれぞれに置き換え可能であることが示されていれば、特に限定されない。

単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、少なくとも単位テキストを読み上げた人間の発声から抽出された少なくとも単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンである。例えば、用例文字列「シテ※マシタ」に対応する単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、例えば、単位テキスト「していました」を読み上げた人間の発声から抽出された単位発声韻律パターンである。なお、用例文字列「シテ※マシタ」に対応する単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、例えば、単位テキスト「していました」を含むテキスト「確認していました」を読み上げた人間の発声から抽出され、単位テキスト「していました」の直前の「ん」から始まる、「んしていました」に対応する単位発声韻律パターンであってもよい。

ここで、単位発声ピッチパターンは、人間の声の高さを表すパターンである。単位発声ピッチパターンは、例えば、相関処理法を用いることにより、単位テキストを読み上げた人間の発声から抽出される。相関処理法としては、例えば、自己相関関数（ＡＣＦ：autocorrelation function）、変形相関、ＳＩＦＴアルゴリズム、平均振幅差関数（ＡＭＤＦ）等を用いる方法が挙げられる。また、単位発声音素長パターンは、人間が発声する各音素の時間長を表すパターンである。単位発声音素長パターンは、例えば、公知の音素ラベリング技術を用いることにより、少なくとも単位テキストを読み上げた人間の発声から抽出される。さらに、単位発声パワーパターンは、人間の声の大きさを表すパターンである。単位発声パワーパターンは、例えば、人間の発声に一定の窓長を設定し、この窓内の発声の二乗和をとることにより、少なくとも単位テキストを読み上げた人間の発声から抽出される。なお、単位発声韻律パターンの抽出方法は、上記の方法に限定されない。

なお、発声韻律記録部２４に記録されている代替語は、用例文字列に含まれている「※」に複数の代替語のそれぞれが置き換えられた場合であっても、それぞれの単位発声韻律パターンと、単位テキストを読み上げた人間の発声から抽出された単位発声韻律パターンとがほぼ同一となる代替語である。発声韻律記録部２４に記録されている用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、韻律生成装置２の管理者によって記録され、または、外部の開発者が生成して記録した記録媒体から読み込まれることによって記録される。

なお、図２では、単位発声ピッチパターンおよび単位発声パワーパターンを波形のイメージで図示しているが、実際は、発声韻律記録部２４には、単位発声ピッチパターンおよび単位発声パワーパターンが、連続した値を有するバイナリデータとして記録されている。また、図２では、単位発声音素長パターンを各音素の音素長（ｍｓｅｃ）として表している。例えば、発声韻律記録部２４には、用例文字列「シテクダサイ」（音素列：ｓｉｔｅｋｕｄａｓａｉ）に対応して単位発声音素長パターン「６２，３２，３５，７０，４２，６９，２４，７２，４０，５４，８９」が記録されている。つまり、単位発声音素長パターン「６２，３２，３５，７０，４２，６９，２４，７２，４０，５４，８９」は、音素「ｓ」の音素長が「６２」ｍｓｅｃ、音素「ｉ」の音素長が「３２」ｍｓｅｃ、音素「ｔ」の音素長が「３５」ｍｓｅｃ、音素「ｅ」の音素長が「７０」ｍｓｅｃｍ、音素「ｋ」の音素長が「４２」ｍｓｅｃ、音素「ｕ」の音素長が「６９」ｍｓｅｃ、音素「ｄ」の音素長が「２４」ｍｓｅｃ、音素「ａ」の音素長が「７２」ｍｓｅｃ、音素「ｓ」の音素長が「４０」ｍｓｅｃ、音素「ａ」の音素長が「５４」ｍｓｅｃ、音素「ｉ」の音素長が「８９」ｍｓｅｃであることを表している。

用例検索部２５は、言語処理部２３から出力された入力表音文字列と、発声韻律記録部２４に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列の一部の文字列に一致する用例文字列を検索する。本実施形態においては、用例検索部２５は、入力表音文字列「デンワ＿シテイマ’シタ．」と、発声韻律記録部２４に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列「デンワ＿シテイマ’シタ．」の一部の文字列に一致する用例文字列を検索する。

具体的には、用例検索部２５は、まず、入力表音文字列「デンワ＿シテイマ’シタ．」を「デンワ」および「シテイマ’シタ．」の２つのアクセント句に分割する。用例検索部２５は、分割したそれぞれのアクセント句「デンワ」および「シテイマ’シタ．」が用例文字列として存在しているか否かを判定する。図２に示す例では、発声韻律記録部２４には、用例文字列「シテ※マシタ」に対応して代替語「任意」が記録されているので、用例検索部２５は、分割したそれぞれのアクセント句「デンワ」および「シテイマ’シタ．」のうち、「シテイマ’シタ．」が用例文字列「シテイマシタ」として存在していると判定する。

なお、上記では、用例検索部２５は、入力表音文字列をアクセント句毎に分割し、分割したそれぞれのアクセント句が用例文字列として存在しているか否かを判定する例について説明したが、これに限定されない。例えば、用例検索部２５は、入力表音文字列をアクセント句毎に分割し、分割したそれぞれのアクセント句の句末あるいは先頭の文字から始まる文字列が用例文字列として存在しているか否かを判定するようにしてもよい。つまり、用例検索部２５は、アクセント句を構成する文字列の一部に用例文字列が含まれているか否かを判定する。また、用例検索部２５は、複数のアクセント句に跨って用例文字列として存在しているか否かを判定するようにしてもよい。つまり、用例検索部２５は、複数のアクセント句に跨った文字列の一部に用例文字列が含まれているか否かを判定する。これにより、アクセント句が用例文字列として存在しない場合であっても、用例検索部２５は、アクセント句を構成する文字列の一部、または、複数のアクセント句に跨った文字列の一部に用例文字列が含まれていれば、用例文字列を検出することができる。

用例検索部２５は、入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部２４から抽出する。本実施形態においては、用例検索部２５は、「シテイマシタ」に対応する用例文字列「シテ※マシタ」に対応付けられた単位発声韻律パターンを発声韻律記録部２４から抽出する。用例検索部２５は、抽出した単位発声韻律パターンを合成韻律生成部２７に出力する。

規則韻律生成部２６は、言語処理部２３から出力された入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。なお、入力規則韻律パターンは、入力規則ピッチパターン、入力規則音素長パターン、および、入力規則パワーパターンの少なくとも１つを含む。

具体的には、規則韻律生成部２６は、入力表音文字列のフレーズ成分に、入力表音文字列のアクセント句成分を重畳することにより、入力規則ピッチパターンを生成する。ここで、フレーズ成分は、人間の肺の圧力の低下に従いピッチが時刻と共に低下する特性を表す声立て成分である。アクセント句成分は、個々の単語のアクセントに対応する成分であって、アクセント核が位置する前の部分が高くなり、アクセント核が位置する後の部分が低くなる成分である。なお、規則韻律生成部２６は、人間の発声韻律パターンをアクセント句毎にモデル化したデータを格納した韻律データベースを用いることにより、入力規則ピッチパターンを生成するようにしてもよい。なお、フレーズ成分およびアクセント句成分を表すモデルや、韻律データベースに格納されているモデル化したデータが、規則的あるいは統計的な韻律に関するデータであって、規則韻律生成部２６の図示しないメモリに予め記録されている。

また、規則韻律生成部２６は、人間の発声における規則的あるいは統計的な音素長を示すデータを記録した音素長テーブルや音素長生成ルール（共に図示せず）を有している。規則韻律生成部２６は、入力表音文字列に基づいて、音素長テーブルからデータを抽出し、抽出したデータを結合することにより、入力規則音素長パターンを生成する。なお、音素長テーブルには、例えば、音素「ａ」の音素長を示すデータ、音素「ｉ」の音素長を示すデータ、音素「ｕ」の音素長を示すデータ、・・・が順に記録されている。また、音素長テーブルには、特定の音素並びにおける、音素「ａ」の音素長を示すデータ、音素「ｉ」の音素長を示すデータ、音素「ｕ」の音素長を示すデータ、・・・が順に記録されている。

さらに、規則韻律生成部２６は、各音素に固有の、または、特定の音素並びやピッチ高低に固有のパワー値を記録したパワー値テーブル（図示せず）を有している。なお、パワー値は、規則的あるいは統計的なパワーに関するデータであって、声の大きさを表す値である。規則韻律生成部２６は、入力表音文字列に基づいて、パワー値テーブルからパワー値を抽出する。ここで、一般に、同じ音素であっても、入力規則ピッチパターンのピッチが高いほどパワー値は大きく、入力規則ピッチパターンのピッチが低いほどパワー値は小さくなる。このため、規則韻律生成部２６は、パワー値テーブルから抽出したパワー値を、入力規則ピッチパターンのピッチの高低に応じて補正することにより、入力規則パワーパターンを生成する。

このように、規則韻律生成部２６は、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。つまり、上記の方法によって生成された入力規則韻律パターンは、規則的あるいは統計的に妥当な韻律パターンとなるが、平均的な韻律パターンであるため、表現力にやや乏しい韻律パターンとなる。なお、入力規則韻律パターンの生成方法は、上記の方法に限定されない。また、規則韻律生成部２６は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列（本実施形態においては「デンワ」）に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成するようにしてもよい。また、規則韻律生成部２６は、１つの入力表音文字列に対して、複数の入力規則韻律パターンを生成するようにしてもよい。これにより、後述する合成韻律生成部２７において、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が最も小さい入力規則韻律パターンを選択することができる。規則韻律生成部２６は、生成した入力規則韻律パターンを合成韻律生成部２７に出力する。

合成韻律生成部２７は、規則韻律生成部２６により生成された入力規則韻律パターンと、用例検索部２５により抽出された単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。

以下では、合成韻律生成部２７による入力規則ピッチパターンと単位発声ピッチパターンとの統合処理について、図３〜図５を参照しながら具体的に説明する。

図３は、用例検索部２５により抽出された単位発声ピッチパターンＶ、および、規則韻律生成部２６により生成された入力規則ピッチパターンＲの一例を示す図である。図３に示すように、単位発声ピッチパターンＶは、用例文字列「シテ※マシタ」に対応するピッチパターンであって、少なくとも単位テキスト「していました」を読み上げた人間の発声から抽出されたピッチパターンである。入力規則ピッチパターンＲは、入力表音文字列「デンワ＿シテイマ’シタ．」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。なお、図３では、入力規則ピッチパターンＲのうち、単位発声ピッチパターンＶに対応するピッチパターンをＲ₁、単位発声ピッチパターンＶに対応するピッチパターンＲ₁以外のピッチパターンをＲ₂で表している。なお、図３に示す入力表音文字列「デンワシテイマシタ」は、アクセント句の境界を表す記号「＿」、および、アクセント核を表す記号「’」を省略している。

合成韻律生成部２７は、入力規則ピッチパターンＲのうち単位発声ピッチパターンＶに対応するピッチパターンＲ₁以外のピッチパターンＲ₂と、単位発声ピッチパターンＶとを接続するため、図３に示す○印の部分で接続処理を行う。具体的には、合成韻律生成部２７は、入力規則ピッチパターンＲのうち単位発声ピッチパターンＶに対応するピッチパターンＲ₁、および、図３に示す○印内にあるピッチパターンを除去する。これにより、ピッチパターンＲ₂と単位発声ピッチパターンＶとは、図４に示すようになる。合成韻律生成部２７は、ピッチパターンＲ₂の接続端Ｒ_Tと、単位発声ピッチパターンＶの接続端Ｖ_Tとを接続する。これにより、図５に示すように、合成音声用のピッチパターンＳが生成される。なお、合成韻律生成部２７による入力規則ピッチパターンと単位発声ピッチパターンとの統合方法（接続方法）は、上記の方法に限定されない。例えば、単位発声ピッチパターンＶと入力規則ピッチパターンＲ₁とに、各時刻において合計が１になるような重みを付けて足し合わせ、かつ、用例文字列開始点から終了点に近づくに従って単位発声ピッチパターンＶに対する重みが大きくなるように重み付けをして両者のピッチパターンを統合してもよい。

合成韻律生成部２７は、上記と同様に、入力規則音素長パターンと単位発声音素長パターンとを統合することにより、合成音声用の音素長パターンを生成する。また、合成韻律生成部２７は、入力規則パワーパターンと単位発声パワーパターンとを統合することにより、合成音声用のパワーパターンを生成する。合成韻律生成部２７は、生成した合成音声用の韻律パターンを波形生成装置３に出力する。なお、合成音声用の韻律パターンは、合成音声用のピッチパターン、合成音声用の音素長パターン、および、合成音声用のパワーパターンを含む。

ところで、上記の韻律生成装置２は、パーソナルコンピュータ等の任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のテキスト入力部２１、言語処理部２３、用例検索部２５、規則韻律生成部２６、および、合成韻律生成部２７は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、テキスト入力部２１、言語処理部２３、用例検索部２５、規則韻律生成部２６、および、合成韻律生成部２７の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、単語辞書２２、および、発声韻律記録部２４は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

以上、韻律生成装置２の構成について説明したが、韻律生成装置２の構成は、図１に示す構成に限定されない。例えば、発声韻律記録部２４に、図２に示すデータの代わりに、図６に示すデータが記録されていてもよい。図６は、本実施形態に係る発声韻律記録部２４に記録されたデータの他の例を示す図である。なお、図６では、図２の識別番号「００３」〜「００５」に対応するレコードの図示を省略している。すなわち、発声韻律記録部２４には、上記の識別番号、用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンに加えて、用例に関する属性条件１〜３が記録されている。また、発声韻律記録部２４には、条件１〜３に応じて、単位発声ピッチパターンがそれぞれ記録されている。

条件１は、用例文字列が入力表音文字列のどの部分に位置しているのか（接続環境）を示す。つまり、条件１は、入力表音文字列の一部の文字列に一致する用例文字列が、入力表音文字列の「文末」に位置しているのか、あるいは、入力表音文字列の「文中」に位置しているのかを示す。本実施形態においては、入力表音文字列が「デンワ＿シテイマ’シタ．」であるので、用例文字列「シテ※マシタ」に代替語を適用した文字列「シテイマシタ」は、入力表音文字列の文末に位置している。条件２は、用例文字列のアクセント型を示す。条件３は、入力表音文字列のうち用例文字列に一致する文字列の直前の文字のアクセントの高低を示す。本実施形態においては、入力表音文字列が「デンワ＿シテイマ’シタ．」であって、「デ」（アクセント情報は「低い」）、「ン」（アクセント情報は「高い」）、「ワ」（アクセント情報は「高い」）となる。すなわち、入力表音文字列「デンワ＿シテイマ’シタ．」のうち、用例文字列「シテ※マシタ」に代替語を適用した文字列「シテイマシタ」に一致する文字列「シテイマ’シタ．」の直前の文字「ワ」のアクセント情報は高い。また、用例文字列の直前の文字のアクセント情報を持つことに伴って、単位発声ピッチパターンにも用例文字列の直前の文字から用例終端までに対応するピッチパターンが登録されている。これにより、本実施形態に係る用例検索部２５は、用例文字列「シテイマシタ」に対応する用例文字列「シテ※マシタ」に対応付けられており、かつ、条件１（文末）、条件２（５型）、条件３（直前が高い）に対応付けられた単位発声ピッチパターンを抽出することができる。この結果、用例検索部２５は、単位テキストの接続環境や、直前のアクセント情報等を考慮しながら、発声韻律記録部２４からより好ましい単位発声ピッチパターンを抽出し、より滑らかに入力規則韻律パターンと単位発声韻律パターンを統合することができる。

なお、上記では、発声韻律記録部２４に、上記の属性条件１〜３が記録されている例について説明したが、これに限定されない。例えば、発声韻律記録部２４には、用例文字列が入力表音文字列に対して補助的な役割を有する文字列であるのか、あるいは、主要語的な役割を有する文字列であるのかを示す条件が記録されていてもよい。つまり、用例文字列が「クダサイ」、入力表音文字列が「ゴランクダサイ」（ご覧ください）であった場合、この用例文字列「クダサイ」は、入力表音文字列「ゴランクダサイ」に対して補助的な役割を有する文字列である。また、用例文字列が「クダサイ」、入力表音文字列が「ミカンオクダサイ」（みかんをください）であった場合、この用例文字列「クダサイ」は、入力表音文字列「ミカンオクダサイ」に対して主要語的な役割を有する文字列である。なお、用例文字列が入力表音文字列に対して補助的な役割を有する文字列であるのか、あるいは、主要語的な役割を有する文字列であるのかは、言語処理部２３が行う形態素解析によって判別される。

また、発声韻律記録部２４には、用例文字列が朗読調か、あるいは、会話調であるのかを示す条件が記録されていてもよい。なお、用例文字列が朗読調か、あるいは、会話調であるのかは、テキスト入力部２１が入力テキストを受け付ける際に、ユーザにより入力テキストにその旨を示すタグ情報を付加することによって判別される。

（波形生成装置の構成）
波形生成装置３は、波形辞書３１、波形生成部３２、および、合成音声出力部３３を備えている。なお、上記の波形生成部３２および合成音声出力部３３は、コンピュータのＣＰＵがこの機能を実現するプログラムに従って動作することによっても具現化される。

波形辞書３１は、複数の波形データを記録する。例えば、波形生成装置３が波形データを記録した記録媒体を読み取ることによって、波形辞書３１には、上記の波形データが記録される。

波形生成部３２は、韻律生成装置２から出力された合成音声用の韻律パターンに基づいて、波形辞書３１を用いて合成音声の波形を生成する。波形生成部３２は、生成した合成音声の波形を合成音声出力部３３に出力する。

合成音声出力部３３は、波形生成部３２から出力された合成音声の波形に基づいて、合成音声データを生成する。合成音声出力部３３は、例えば、生成された合成音声データをそのままｒａｗ形式で出力する。なお、合成音声出力部３３は、生成された合成音声データをｗａｖ形式のヘッダファイルを付与した上で出力し、あるいは、生成された合成音声データをＡＤＰＣＭ等の圧縮された合成音声に変換して出力するようにしてもよい。合成音声出力部３３により出力された合成音声データは、韻律生成装置２により生成された合成音声用の韻律パターンを用いているので、人間の発声が有する自然性・表現力を備えた合成音声データとなる。

（音声合成システムの動作）
次に、上記の構成に係る音声合成システム１の動作について、図７を参照しながら説明する。

図７は、音声合成システム１の動作の一例を示すフローチャートである。すなわち、図７に示すように、テキスト入力部２１は、任意の入力テキストを受け付ける（Ｏｐ１）。言語処理部２３は、Ｏｐ１にて受け付けた入力テキストに対して言語解析を行う（Ｏｐ２）。なお、言語解析は、上記の形態素解析、係り受け解析等である。言語処理部２３は、Ｏｐ２の言語解析の結果に基づいて、入力テキストの読みを示す入力表音文字列を生成する（Ｏｐ３）。

用例検索部２５は、Ｏｐ３にて生成された入力表音文字列と、発声韻律記録部２４に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列の一部の文字列に一致する用例文字列を検索する（Ｏｐ４）。検索の結果、入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部２５は、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部２４から抽出する（Ｏｐ５）。

規則韻律生成部２６は、Ｏｐ３にて生成された入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する（Ｏｐ６）。合成韻律生成部２７は、Ｏｐ６にて生成された入力規則韻律パターンと、Ｏｐ５にて抽出された単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する（Ｏｐ７）。合成韻律生成部２７は、Ｏｐ７にて生成された合成音声用の韻律パターンを波形生成装置３に出力する（Ｏｐ８）。

次に、波形生成装置３の波形生成部３２は、Ｏｐ８にて出力された合成音声用の韻律パターンに基づいて、波形辞書３１を用いて合成音声の波形を生成する（Ｏｐ９）。合成音声出力部３３は、Ｏｐ９にて生成された合成音声の波形に基づいて、合成音声データを生成する（Ｏｐ１０）。合成音声出力部３３は、Ｏｐ１０にて生成された合成音声データを波形生成装置３の外部に出力する（Ｏｐ１１）。

以上のように、本実施形態に係る韻律生成装置２によれば、言語処理部２３は、入力テキストの読みを示す入力表音文字列を生成する。用例検索部２５は、入力表音文字列と、用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較する。入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部２５は、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部２４から抽出する。すなわち、用例文字列には、複数の代替語のそれぞれに置き換え可能であることが示されているので、発声韻律記録部２４には、複数の代替語のそれぞれに置き換えられたそれぞれの文字列と、それぞれの文字列に対応するそれぞれの単位発声韻律パターンとが記録されている必要がない。つまり、発声韻律記録部２４には、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、用例文字列に対応する単位発声韻律パターンとが記録されていればよい。これにより、発声韻律記録部２４に記録される情報量を抑えることができる。規則韻律生成部２６は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。合成韻律生成部２７は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。この結果、発声韻律記録部２４に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

[実施の形態２]
図８は、本実施形態に係る音声合成システム１０の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１０は、図１に示す韻律生成装置２の代わりに、韻律生成装置４を備えている。なお、図８において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

韻律生成装置４は、図１に示す発声韻律記録部２４および合成韻律生成部２７の代わりに、発声韻律記録部４１および合成韻律生成部４２を備えている。なお、合成韻律生成部４２は、差分算出部４２ａおよび適用判定部４２ｂを有している。

発声韻律記録部４１は、図１に示す発声韻律記録部２４とほぼ同様であるが、単位テキストを一部に含む拡張テキストを読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキストの直前の文字あるいは文字列を示す直前テキストに対応する直前発声韻律パターンを含む単位発声韻律パターンを記録する。ここで、少なくとも拡張テキストは、単位テキストを含み日本語として意味のあるまとまりを持っていることが望ましい。例えば、発声韻律記録部４１には、単位テキスト「していました」を一部に含む拡張テキスト「確認していました」を読み上げた人間の発声から抽出された拡張発声韻律パターンが、用例文字列「シテ※マシタ」に対応した単位発声韻律パターンとして記録されている。すなわち、発声韻律記録部４１には、拡張テキスト「確認していました」を読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキスト「していました」の直前の文字列を示す直前テキスト「確認」に対応する直前発声韻律パターンも、単位発声韻律パターンの一部として記録されている。なお、直前テキストの文字数に特に制限はないが、直前テキスト部分のアクセントの高低が等しく続く区間と設定することが好ましい。このように、同じ高さのアクセントが続く区間に設定すれば、後述の差分算出部４２ａで得られる結果の精度が向上する。

差分算出部４２ａは、用例検索部２５から出力された単位発声韻律パターンに含まれる直前発声韻律パターンと、この直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。

以下では、差分算出部４２ａによる直前発声ピッチパターンと、この直前発声ピッチパターンに対応する入力規則ピッチパターンとの差分算出処理について、図９を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。

図９は、用例検索部２５により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターンＶ、用例検索部２５により抽出された単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターンＢＶ、および、規則韻律生成部２６により生成された入力規則ピッチパターンＲの一例を示す図である。図９に示すように、単位テキストに対応するパターンＶは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち単位表音文字列「シテイマシタ」（用例文字列「シテ※マシタ」）に対応するピッチパターンである。直前発声ピッチパターンＢＶは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち直前表音文字列「カクニン」に対応するピッチパターンである。入力規則ピッチパターンＲは、入力表音文字列「デンワ＿シテイマ’シタ．」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。

ここで、差分算出部４２ａは、直前発声ピッチパターンＢＶのうち差分Ｌを算出するためのポイントＢＶ_Pを任意に決定する。差分算出部４２ａは、任意に決定した直前発声ピッチパターンＢＶのポイントＢＶ_Pと、このポイントＢＶ_Pに対応する入力規則ピッチパターンＲのポイントＲ_Pとの差分Ｌを算出する。差分算出部４２ａは、算出した差分Ｌを適用判定部４２ｂに出力する。

なお、上記では、差分算出部４２ａは、直前発声ピッチパターンＢＶのうち差分Ｌを算出するためのポイントＢＶ_Pを任意に決定する例について説明したが、これに限定されない。例えば、差分算出部４２ａは、ポイントＢＶ_Pを直前発声ピッチパターンＢＶの一番高い部分に決定するようにしてもよい。また、差分算出部４２ａは、ポイントＢＶ_Pを直前発声ピッチパターンＢＶの終了部分に決定するようにしてもよい。さらに、差分算出部４２ａは、ポイントＢＶ_Pを、直前発声ピッチパターンＢＶの終了部分（終端）から遡って、入力規則ピッチパターンＲと直前発声ピッチパターンＢＶとのアクセントの高低が初めて異なる直前の地点に決定してもよい。つまり、差分算出部４２ａは、直前発声ピッチパターンＢＶと、この直前発声ピッチパターンＢＶに対応する入力規則ピッチパターンＲとの差分が算出できれば、ポイントＢＶ_Pを決定する方法は任意である。また、差分算出部４２ａは、ポイントＢＶ_Pのように１地点における差分ではなく、図９に示すポイントＢＶ_Pを中心としてある幅を持った区間でのピッチの平均値を計算し差分を算出するようにしてもよい。なお、この区間の設定方法や平均値の算出方法等は任意である。

適用判定部４２ｂは、差分算出部４２ａにより算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。本実施形態においては、適用判定部４２ｂは、入力規則韻律パターンをそのまま合成音声用の韻律パターンとする。一方、適用判定部４２ｂは、差分算出部４２ａにより算出された差分が閾値未満である場合、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。具体的には、適用判定部４２ｂは、差分算出部４２ａにより算出された差分が閾値未満である場合、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する。なお、閾値は、適用判定部４２ｂの図示しないメモリに予め記録されている。

次に、上記の構成に係る音声合成システム１０の動作について、図１０を参照しながら説明する。なお、図１０において、図７と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。

図１０は、音声合成システム１０の動作の一例を示すフローチャートである。すなわち、図１０に示すフローチャートは、図７に示すＯｐ７の処理の代わりに、Ｏｐ２１〜Ｏｐ２４の処理を有している。つまり、Ｏｐ６の後、差分算出部４２ａは、直前発声韻律パターンと、この直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する（Ｏｐ２１）。適用判定部４２ｂは、Ｏｐ２１にて算出された差分が閾値以上であるか否かを判定する（Ｏｐ２２）。適用判定部４２ｂは、Ｏｐ２１にて算出された差分が閾値以上であると判定すれば（Ｏｐ２２にてＹＥＳ）、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する（Ｏｐ２３）。一方、適用判定部４２ｂは、Ｏｐ２１にて算出された差分が閾値未満であると判定すれば（Ｏｐ２２にてＮＯ）、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する（Ｏｐ２４）。

以上のように、本実施形態に係る韻律生成装置４によれば、差分算出部４２ａは、直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。適用判定部４２ｂは、算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。つまり、算出された差分が閾値以上である場合、仮に、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続しようとすれば、単位発声韻律パターンを大きく変形する必要がある。単位発声韻律パターンを大きく変形すると、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができない。それゆえ、本実施形態に係る上記の態様によれば、算出された差分が閾値以上である場合、適用判定部４２ｂは、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。一方、算出された差分が閾値未満である場合、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が小さいので、適用判定部４２ｂは、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。

[実施の形態３]
図１１は、本実施形態に係る音声合成システム１１の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１１は、図１に示す韻律生成装置２の代わりに、韻律生成装置５を備えている。なお、図１１において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

韻律生成装置５は、図１に示す発声韻律記録部２４および合成韻律生成部２７の代わりに、発声韻律記録部５１および合成韻律生成部５２を備えている。なお、合成韻律生成部５２は、調整範囲決定部５２ａおよび接続調整部５２ｂを有している。

発声韻律記録部５１は、図８に示す発声韻律記録部４１と同様、単位テキストを一部に含む拡張テキストを読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキストの直前の文字あるいは文字列を示す直前テキストに対応する直前発声韻律パターンを含む単位発声韻律パターンを記録する。

調整範囲決定部５２ａは、直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する。なお、アクセント情報は、アクセントの「高」または「低」のうちいずれかを示す情報である。

以下では、調整範囲決定部５２ａによる調整範囲の決定処理について、図１２および図１３を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。

図１２は、拡張テキストの読みを示す拡張表音文字列の各拍のそれぞれに付与されたアクセント情報、および、入力テキストの読みを示す入力表音文字列の各拍のそれぞれに付与されたアクセント情報の一例を示す図である。図１２に示すように、拡張表音文字列「トビラオカクニンシテイマシタ」は、単位テキスト「していました」を一部に含む拡張テキスト「扉を確認していました」の読みを示す。なお、拡張表音文字列「トビラオカクニンシテイマシタ」のうち「トビラオカクニン」は、直前テキスト「扉を確認」の読みを示す直前表音文字列である。拡張表音文字列「トビラオカクニンシテイマシタ」のうち「シテイマシタ」は、単位テキスト「していました」の読みを示す単位表音文字列である。つまり、この単位表音文字列は、代替語を適用した用例文字列「シテ※マシタ」である。拡張表音文字列「トビラオカクニンシテイマシタ」の各拍のそれぞれにはアクセント情報が付与されている。つまり、図１２に示すように、「ト」にはアクセントが「低い」を示すアクセント情報、「ビラオカクニンシテイマ」のそれぞれにはアクセントが「高い」を示すアクセント情報、「シタ」のそれぞれにはアクセントが「低い」を示すアクセント情報が付与されている。

入力表音文字列「デンワシテイマシタ」は、入力テキスト「電話していました。」の読みを示す。入力表音文字列「デンワシテイマシタ」の各拍のそれぞれにはアクセント情報が付与されている。つまり、図１２に示すように、「デ」にはアクセントが「低い」を示すアクセント情報、「ンワシテイマ」のそれぞれにはアクセントが「高い」を示すアクセント情報、「シタ」のそれぞれにはアクセントが「低い」を示すアクセント情報が付与されている。

ここで、図１２に示すように、用例文字列（単位表音文字列）から２拍遡った範囲では、直前表音文字列「トビラオカクニン」の「ニン」に付与されたアクセント情報と、入力表音文字列「デンワシテイマシタ」の「ンワ」に付与されたアクセント情報とが共にアクセント情報「高い」で一致している。このため、調整範囲決定部５２ａは、用例文字列から２拍遡った範囲を調整範囲として決定する。すなわち、図１３に示すように、拡張表音文字列「トビラオカクニンシテイマシタ」のうち直前表音文字列「トビラオカクニン」の「ニン」に対応する直前発声ピッチパターンＢＶが調整範囲Ａの直前発声ピッチパターンとなる。また、入力表音文字列「デンワシテイマシタ」の「ンワ」に対応する入力規則ピッチパターンＲが調整範囲Ａの入力規則ピッチパターンとなる。

接続調整部５２ｂは、調整範囲Ａの直前発声ピッチパターンＢＶが、調整範囲Ａの入力規則ピッチパターンＲに近づくように、調整範囲Ａの直前発声ピッチパターンＢＶ、または、単位発声ピッチパターンのうち単位テキストに対応するパターンＶを変形する。なお、近づくとは、例えば、調整範囲Ａの直前発声ピッチパターンＢＶと調整範囲Ａの入力規則ピッチパターンＲとが一致する、あるいは、調整範囲Ａの直前発声ピッチパターンＢＶと調整範囲Ａの入力規則ピッチパターンＲとの各時刻におけるピッチの差分の累積が最小になること等をいう。また、変形するとは、調整範囲Ａの直前発声ピッチパターンＢＶ、または、単位発声ピッチパターンのうち単位テキストに対応するパターンＶを一律に伸縮・拡大し、あるいは、用例文字列の終了部分（終端）に向かって伸縮・拡大率が小さくなるように重みをつけて伸縮・拡大をすること等をいう。図１４は、接続調整部５２ｂにより調整範囲Ａの直前発声ピッチパターンＢＶが変形された状態を示す図である。図１４に示すように、調整範囲Ａの直前発声ピッチパターンＢＶは、調整範囲Ａの入力規則ピッチパターンに近づくように、変形されている。また、単位発声ピッチパターンのうち単位テキストに対応するパターンＶは、調整範囲Ａの直前発声ピッチパターンＢＶの変形に従って変形されている。なお、図１４では、変形前の調整範囲Ａの直前発声ピッチパターン、および、変形前の単位発声ピッチパターンのうち単位テキストに対応するパターンを点線にて表している。

接続調整部５２ｂは、入力規則ピッチパターンＲと、変形した調整範囲Ａの直前発声ピッチパターンＢＶとを接続するため、図１４に示す○印の部分で接続処理を行う。具体的には、接続調整部５２ｂは、調整範囲Ａの入力規則ピッチパターンＲ、および、単位発声ピッチパターンのうち単位テキストに対応するパターンＶに対応する入力規則ピッチパターンＲを除去する。また、接続調整部５２ｂは、図１４に示す○印内にあるピッチパターンを除去する。これにより、入力規則ピッチパターンＲ、調整範囲Ａの直前発声ピッチパターンＢＶ、および、単位発声ピッチパターンのうち単位テキストに対応するパターンＶは、図１５に示すようになる。接続調整部５２ｂは、入力規則ピッチパターンＲの接続端Ｒ_Tと、直前発声ピッチパターンＢＶの接続端ＢＶ_Tとを接続する。これにより、図１６に示すように、合成音声用のピッチパターンＳが生成される。

接続調整部５２ｂは、上記と同様に、合成音声用の音素長パターン、および、合成音声用のパワーパターンを生成する。

次に、上記の構成に係る音声合成システム１１の動作について、図１７を参照しながら説明する。なお、図１７において、図７と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。

図１７は、音声合成システム１１の動作の一例を示すフローチャートである。すなわち、図１７に示すフローチャートは、図７に示すＯｐ７の処理の代わりに、Ｏｐ３１およびＯｐ３２の処理を有している。つまり、Ｏｐ６の後、調整範囲決定部５２ａは、上述のようにして、調整範囲を決定する（Ｏｐ３１）。接続調整部５２ｂは、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声ピッチパターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する（Ｏｐ３２）。

以上のように、本実施形態に係る韻律生成装置５によれば、調整範囲決定部５２ａは、上述のようにして調整範囲を決定する。つまり、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとは、アクセント情報が同一であるため、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとのパターン形状はそれぞれ近似する。接続調整部５２ｂは、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形する。接続調整部５２ｂは、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

[実施の形態４]
図１８は、本実施形態に係る音声合成システム１２の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１２は、図１に示す韻律生成装置２の代わりに、韻律生成装置６を備えている。なお、図１８において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

韻律生成装置６は、図１に示す発声韻律記録部２４、規則韻律生成部２６および合成韻律生成部２７の代わりに、発声韻律記録部６１、規則韻律生成部６２および合成韻律生成部６３を備えている。なお、合成韻律生成部６３は、差分算出部６３ａおよび接続調整部６３ｂを有している。

発声韻律記録部６１は、図１に示す発声韻律記録部２４に加えて、単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録する。

規則韻律生成部６２は、図１に示す規則韻律生成部２６に加えて、拡張テキストの読みを示す拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンを生成する機能を備えている。なお、拡張規則韻律パターンは、拡張規則ピッチパターン、拡張規則音素長パターン、および、拡張規則パワーパターンの少なくとも１つを含む。このため、本実施形態に係る用例検索部２５は、用例文字列に対応する単位発声韻律パターンを発声韻律記録部６１から抽出した場合、用例文字列に対応する拡張テキストの読みを示す拡張表音文字列を、規則韻律生成部６２に出力する。規則韻律生成部６２は、生成した拡張規則韻律パターンを合成韻律生成部６３に出力する。

差分算出部６３ａは、用例検索部２５から出力された単位発声韻律パターンと、この単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。

以下では、差分算出部６３ａによる単位発声ピッチパターンと、この単位発声ピッチパターンに対応する拡張規則ピッチパターンとの差分算出処理について、図１９を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。

図１９は、用例検索部２５により抽出された単位発声ピッチパターンＶ、および、規則韻律生成部６２により生成された拡張規則ピッチパターンＡＲの一例を示す図である。図１９に示すように、単位発声ピッチパターンＶは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち単位表音文字列「シテイマシタ」（用例文字列「シテ※マシタ」）に対応するピッチパターンである。拡張規則ピッチパターンＡＲは、拡張表音文字列「カクニンシテイマシタ」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。

ここで、差分算出部６３ａは、単位発声ピッチパターンＶのうち差分Ｌを算出するためのポイントＶ_Pを決定する。本実施形態においては、差分算出部６３ａは、ポイントＶ_Pを単位発声ピッチパターンＶの最も高い部分に決定する。差分算出部６３ａは、決定した単位発声ピッチパターンＶのポイントＶ_Pと、このポイントＶ_Pに対応する拡張規則ピッチパターンＡＲのポイントＡＲ_Pとの差分Ｌを算出する。差分算出部６３ａは、算出した差分Ｌを接続調整部６３ｂに出力する。

なお、上記では、差分算出部６３ａは、差分Ｌを算出するためのポイントＶ_Pを単位発声ピッチパターンＶの一番高い部分に決定する例について説明したが、これに限定されない。例えば、差分算出部６３ａは、ポイントＶ_Pを単位発声ピッチパターンＶの開始部分に決定するようにしてもよい。また、差分算出部６３ａは、ポイントＶ_Pを単位発声ピッチパターンＶの終了部分に決定するようにしてもよい。つまり、差分算出部６３ａは、単位発声ピッチパターンＶと、この単位発声ピッチパターンＶに対応する入力規則ピッチパターンＲとの差分が算出できれば、ポイントＶ_Pを決定する方法は任意である。

接続調整部６３ｂは、差分算出部６３ａにより算出された差分に応じて、入力規則ピッチパターンを変形する。本実施形態においては、算出された差分が単位発声ピッチパターンＶの方向へＬの量を示しているため、接続調整部６３ｂは、入力規則ピッチパターンＲを、単位発声ピッチパターンＶの方向へＬの量分移動させるように変形する。図２０は、接続調整部６３ｂにより入力規則ピッチパターンＲが変形された状態を示す図である。図２０に示すように、入力規則ピッチパターンＲは、図３に示す入力規則ピッチパターンと比較して、単位発声ピッチパターンＶの方向へＬの量分移動するように変形されている。なお、図２０では、変形前の入力規則ピッチパターンＲ（図３に示す入力規則ピッチパターン）を点線にて表している。

接続調整部６３ｂは、入力規則ピッチパターンＲのうち単位発声ピッチパターンＶに対応するピッチパターンＲ₁以外のピッチパターンＲ₂と、単位発声ピッチパターンＶとを接続するため、図２０に示す○印の部分で接続処理を行う。具体的には、接続調整部６３ｂは、入力規則ピッチパターンＲのうち単位発声ピッチパターンＶに対応するピッチパターンＲ₁、および、図２０に示す○印内にあるピッチパターンを除去する。これにより、ピッチパターンＲ₂と単位発声ピッチパターンＶとは、図２１に示すようになる。接続調整部６３ｂは、ピッチパターンＲ₂の接続端Ｒ_Tと、単位発声ピッチパターンＶの接続端Ｖ_Tとを接続する。これにより、図２２に示すように、合成音声用のピッチパターンＳが生成される。

次に、上記の構成に係る音声合成システム１２の動作について、図２３を参照しながら説明する。なお、図２３において、図７と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。

図２３は、音声合成システム１２の動作の一例を示すフローチャートである。すなわち、図２３に示すフローチャートは、図７に示すＯｐ７の処理の代わりに、Ｏｐ４１〜Ｏｐ４３の処理を有している。つまり、Ｏｐ６の後、規則韻律生成部６２は、拡張テキストの読みを示す拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンを生成する（Ｏｐ４１）。差分算出部６３ａは、Ｏｐ５にて抽出された単位発声韻律パターンと、この単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する（Ｏｐ４２）。接続調整部６３ｂは、Ｏｐ４２にて算出された差分に応じて、入力規則韻律パターンを変形し、変形した入力規則韻律パターンと、単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する（Ｏｐ４３）。

以上のように、本実施形態に係る韻律生成装置６によれば、差分算出部６３ａは、発声韻律記録部６１に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。接続調整部６３ｂは、算出された差分に応じて、入力規則韻律パターンを変形する。接続調整部６３ｂは、変形した入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト（非調和の尺度）が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。

なお、第１〜第４の実施形態において、韻律生成装置が、合成音声用の韻律パターンを出力し、波形生成装置が、合成音声用の韻律パターンに基づいて合成音声を生成し出力する例について説明したが、これに限定されない。例えば、韻律生成装置から出力された合成音声用の韻律パターンを用いて、合成音声用の韻律辞書、合成音声用の波形辞書、音声認識用の音響モデル等を生成するようにしてもよい。

すなわち、本発明は上述した第１〜第４の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

以上の実施の形態に関し、更に以下の付記を開示する。

（付記１）
入力テキストを受け付けるテキスト入力部と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備える、韻律生成装置。

（付記２）
前記合成韻律生成部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記１に記載の韻律生成装置。

（付記３）
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む、付記１に記載の韻律生成装置。

（付記４）
前記適用判定部は、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記３に記載の韻律生成装置。

（付記５）
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、
前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む、付記１に記載の韻律生成装置。

（付記６）
前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
前記合成韻律生成部は、
前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む、付記１に記載の韻律生成装置。

（付記７）
前記接続調整部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンを変形し、変形したパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記６に記載の韻律生成装置。

（付記８）
付記１〜７のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える、音声合成システム。

（付記９）
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、
前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、
前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、
前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含む、韻律生成方法。

（付記１０）
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
前記韻律生成プログラムは、
入力テキストを受け付けるテキスト入力処理と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させる、韻律生成プログラム。

以上のように、本発明は、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる韻律生成装置、韻律生成方法、または、韻律生成プログラムとして有用である。

本発明の第１の実施形態に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムにおける韻律生成装置の発声韻律記録部に記録されたデータの一例を示す図である。上記韻律生成装置の用例検索部により抽出された単位発声ピッチパターン、および、上記韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。入力規則ピッチパターンのうち単位発声ピッチパターンに対応するピッチパターン、および、図３に示す○印内にあるピッチパターンを除去した状態を示す図である。上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。上記発声韻律記録部に記録されたデータの他の例を示す図である。上記音声合成システムの動作の一例を示すフローチャートである。本発明の第２の実施形態に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターン、この単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。上記音声合成システムの動作の一例を示すフローチャートである。本発明の第３の実施形態に係る音声合成システムの概略構成を示すブロック図である。拡張テキストの読みを示す拡張表音文字列の各拍のそれぞれに付与されたアクセント情報、および、入力テキストの読みを示す入力表音文字列の各拍のそれぞれに付与されたアクセント情報の一例を示す図である。上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターン、この単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。上記韻律生成装置の接続調整部により調整範囲の直前発声ピッチパターンが変形された状態を示す図である。調整範囲の入力規則ピッチパターン、単位発声ピッチパターンのうち単位テキストに対応するパターンに対応する入力規則ピッチパターン、および、図１４に示す○印内にあるピッチパターンを除去した状態を示す図である。上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。上記音声合成システムの動作の一例を示すフローチャートである。本発明の第４の実施形態に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された拡張規則ピッチパターンの一例を示す図である。上記韻律生成装置の接続調整部により入力規則ピッチパターンが変形された状態を示す図である。入力規則ピッチパターンのうち単位発声ピッチパターンに対応するピッチパターン、および、図２０に示す○印内にあるピッチパターンを除去した状態を示す図である。上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。上記音声合成システムの動作の一例を示すフローチャートである。

符号の説明

１音声合成システム
２、４、５、６韻律生成装置
３波形生成装置
２１テキスト入力部
２３言語処理部
２４、４１、５１、６１発声韻律記録部
２５用例検索部
２６、６２規則韻律生成部
２７、４２、５２、６３合成韻律生成部
４２ａ差分算出部
４２ｂ適用判定部
５２ａ調整範囲決定部
５２ｂ接続調整部
６３ａ差分算出部
６３ｂ接続調整部

Claims

入力テキストを受け付けるテキスト入力部と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備え、
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む、韻律生成装置。
入力テキストを受け付けるテキスト入力部と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備え、
前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
前記合成韻律生成部は、
前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む、韻律生成装置。
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、
前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む、請求項１または２に記載の韻律生成装置。
請求項１〜３のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える、音声合成システム。
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、
前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、
前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、
前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含み、
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成工程は、
前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出工程と、
前記差分算出工程により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出工程により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定工程とを含む、韻律生成方法。
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
前記韻律生成プログラムは、
入力テキストを受け付けるテキスト入力処理と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させ、
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成処理は、
前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出処理と、
前記差分算出処理により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出処理により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定処理とを含む、韻律生成プログラム。
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
前記韻律生成プログラムは、
入力テキストを受け付けるテキスト入力処理と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させ、
前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
前記規則韻律生成処理は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
前記合成韻律生成処理は、
前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出処理と、
前記差分算出処理により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整処理とを含む、韻律生成プログラム。