JP5012444B2 - 韻律生成装置、韻律生成方法、および、韻律生成プログラム - Google Patents

韻律生成装置、韻律生成方法、および、韻律生成プログラム Download PDF

Info

Publication number
JP5012444B2
JP5012444B2 JP2007295898A JP2007295898A JP5012444B2 JP 5012444 B2 JP5012444 B2 JP 5012444B2 JP 2007295898 A JP2007295898 A JP 2007295898A JP 2007295898 A JP2007295898 A JP 2007295898A JP 5012444 B2 JP5012444 B2 JP 5012444B2
Authority
JP
Japan
Prior art keywords
prosody
unit
pattern
utterance
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007295898A
Other languages
English (en)
Other versions
JP2009122382A (ja
Inventor
健太郎 村瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007295898A priority Critical patent/JP5012444B2/ja
Publication of JP2009122382A publication Critical patent/JP2009122382A/ja
Application granted granted Critical
Publication of JP5012444B2 publication Critical patent/JP5012444B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、人間の発声から抽出された発声韻律パターンを記録する発声韻律記録部を備えることにより、発声韻律記録部に記録された発声韻律パターンを用いて、入力テキストの合成音声用の韻律パターンを生成する韻律生成装置、韻律生成方法、および、韻律生成プログラムに関する。
近年、テキストを音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、IVR(自動音声応答:Interactive Voice Response)システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システム等である。このような音声合成技術においては、現状、人間の発声並みに自然で、表現力豊かな合成音声を生成することは困難である。
すなわち、合成音声の韻律は、一般に、テキストにおける単語の読みや品詞を解析する形態素解析、文節や係り受けの解析といった言語解析に基づき、アクセントの設定、イントネーションの設定、ポーズや話速の設定等を経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の発声と比較して、声の高さ、イントネーション、リズム等の喋り方を決める韻律が不自然な箇所が含まれることがある。
そこで、合成音声の韻律の品質を高める方法として、人間の発声から発声韻律パターンを抽出し、抽出した発声韻律パターンを用いて合成音声を生成する方法が知られている(例えば、特許文献1または2参照)。この方法では、人間の発声と発声韻律パターンの抽出作業とが予め必要になるが、人間の発声から抽出された発声韻律パターンを用いて合成音声を生成するので、人間の発声並みに自然で、表現力豊かな合成音声を生成することができる。
具体的には、特許文献1には、頻繁に使われるフレーズや、お詫び、挨拶等のフレーズを予め定型文として登録しておくことにより、入力されたテキストが定型文に該当する場合、この定型文を読み上げた人間の発声から抽出された発声韻律パターンを用いて、合成音声を出力する音声合成装置が開示されている。これにより、特許文献1の音声合成装置は、頻繁に使われるフレーズや、お詫び、挨拶等のフレーズを、人間の発声並みに自然で、表現力豊かな合成音声として出力することができる。しかしながら、特許文献1の音声合成装置では、入力されたテキストと、予め登録された定型文とが完全に一致していなければ、定型文を読み上げた人間の発声から抽出された発声韻律パターンを用いることができなかった。
そこで、特許文献2には、文字表記データと、この文字表記を読み上げた人間の発声から抽出された発声韻律パターンとが記録された発声韻律記録部を備える音声合成装置が開示されている。具体的には、特許文献2の音声合成装置は、入力されたテキストと類似度が最も高い文字表記データを発声韻律記録部から検索し、検索の結果、類似度が最も高い文字表記データに対応する発声韻律パターンを発声韻律記録部から抽出し、抽出した発声韻律パターンを用いて、合成音声を出力する。例えば、入力されたテキストが「渋谷まで渋滞しています」であって、入力されたテキスト「渋谷まで渋滞しています」が文字表記データとして発声韻律記録部に記録されていない場合、入力されたテキスト「渋谷まで渋滞しています」と類似度が最も高い文字表記データ「新宿まで運転しています」に対応する発声韻律パターンを発声韻律記録部から抽出する。これにより、音声合成装置は、抽出した「新宿まで運転しています」を示す発声韻律パターンを用いて、入力されたテキスト「渋谷まで渋滞しています」に対応する合成音声を出力することができる。この結果、特許文献2の音声合成装置は、入力されたテキストと、発声韻律記録部に記録された文字表記データとが完全に一致していなくても、人間の発声並みに自然で、表現力豊かな合成音声を出力することができる。
特開2004−198917号公報 特許第3587048号公報
しかしながら、上記特許文献2の音声合成装置では、入力されたテキストと、発声韻律記録部に記録された文字表記データとの類似度を、読みではなく、表記に基づいて算出しているため、例えば、以下のような場合に問題を生じる。
一例として、「して来ました」を示す文字表記データが発声韻律記録部に記録され、「してきました」を示すテキストが入力された場合を考える。なお、発声韻律記録部には、「してきました」を示す文字表記データは記録されていない。この場合、「してきました」を示すテキストと、「して来ました」を示す文字表記データとは、読みは同一であるが、表記が異なっている。このため、「してきました」を示すテキストと、「して来ました」を示す文字表記データとの類似度よりも高い類似度の文字表記データがあった場合、上記特許文献2の音声合成装置は、文字表記データ「して来ました」に対応する発声韻律パターンを発声韻律記録部から抽出できなかった。それゆえ、上記特許文献2の音声合成装置では、読みは同一であるが表記が異なっている場合等、全てのバリエーションを考慮した上で、文字表記データと発声韻律パターンとを発声韻律記録部に記録する必要があった。
また、「してきました」を読み上げた人間の発声から抽出された発声韻律パターンと、「していました」を読み上げた人間の発声から抽出された発声韻律パターンとは、「してきました」と「していました」とでは読みは異なっているが、実際には、発声韻律パターンはほぼ同一となる。ここで、他の例として、「してきました」を示す文字表記データが発声韻律記録部に記録され、「していました」を示すテキストが入力された場合を考える。なお、発声韻律記録部には、「していました」を示す文字表記データは記録されていない。この場合、上記特許文献2の音声合成装置において、仮に、文字表記データ「してきました」に対応する発声韻律パターンを発声韻律記録部から抽出できた場合であっても、次のような問題を生じる。すなわち、一致部分の「して」と「ました」に対しては人間の発声から抽出された発声韻律パターンを用い、不一致部分の「い」に対しては計算により得られた発声韻律パターンを用い、これらの発声韻律パターンを互いに変形して接続することにより、最終的な発声韻律パターンを生成している。このため、全区間で人間の発声から抽出された発声韻律パターンを用いる場合と比較して自然性が劣る。
そのため、上記特許文献2の音声合成装置において、全区間に渡って人間の発声から抽出された発声韻律パターンを利用するためには、「していました」を示す文字表記データと、「していました」を読み上げた人間の発声から抽出された発声韻律パターンと、「してきました」を示す文字表記データと、「してきました」を読み上げた人間の発声から抽出された発声韻律パターンとを発声韻律記録部に記録する必要があった。
この結果、発声韻律記録部に記録される情報量が膨大になるという問題を生じる。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる韻律生成装置、韻律生成方法、および、韻律生成プログラムを提供することにある。
上記目的を達成するために本発明における韻律生成装置は、入力テキストを受け付けるテキスト入力部と、前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備える。なお、前記合成韻律生成部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。
本発明の韻律生成装置によれば、言語処理部は、入力テキストの読みを示す入力表音文字列を生成する。用例検索部は、入力表音文字列と、用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較する。入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部は、少なくとも当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する。なお、単位発声韻律パターンは、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンの少なくとも1つを含む。すなわち、用例文字列には、複数の代替語のそれぞれに置き換え可能であることが示されているので、発声韻律記録部には、複数の代替語のそれぞれに置き換えられたそれぞれの文字列と、それぞれの文字列に対応するそれぞれの単位発声韻律パターンとが記録されている必要がない。つまり、発声韻律記録部には、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、用例文字列に対応する単位発声韻律パターンとが記録されていればよい。これにより、発声韻律記録部に記録される情報量を抑えることができる。規則韻律生成部は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。なお、入力規則韻律パターンは、入力規則ピッチパターン、入力規則音素長パターン、および、入力規則パワーパターンの少なくとも1つを含む。合成韻律生成部は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。この結果、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
上記本発明における韻律生成装置においては、前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、前記合成韻律生成部は、前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む態様とするのが好ましい。なお、前記適用判定部は、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。
上記構成によれば、差分算出部は、直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。適用判定部は、算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。つまり、算出された差分が閾値以上である場合、仮に、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを統合しようとすれば、単位発声韻律パターンを大きく変形する必要がある。単位発声韻律パターンを大きく変形すると、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができない。それゆえ、本発明に係る上記の態様によれば、算出された差分が閾値以上である場合、適用判定部は、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。一方、算出された差分が閾値未満である場合、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとのコスト(非調和の尺度)が小さいので、適用判定部は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。
上記本発明における韻律生成装置においては、前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、前記合成韻律生成部は、前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む態様とするのが好ましい。
上記構成によれば、調整範囲決定部は、直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する。なお、アクセント情報は、アクセントの「高」または「低」のうちいずれかを示す情報である。つまり、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとは、アクセント情報が同一であるため、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとのパターン形状はそれぞれ近似する。接続調整部は、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形する。接続調整部は、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
上記本発明における韻律生成装置においては、前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、前記合成韻律生成部は、前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む態様とするのが好ましい。なお、前記接続調整部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンを変形し、変形したパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する態様とするのが好ましい。
上記構成によれば、差分算出部は、発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。接続調整部は、算出された差分に応じて、入力規則韻律パターンを変形する。接続調整部は、変形した入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
上記目的を達成するために本発明における音声合成システムは、上記の韻律生成装置と、前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える。
本発明の音声合成システムによれば、上記の韻律生成装置により生成された合成音声用の韻律パターンに基づいて合成音声データを生成し出力するので、出力された合成音声データは、人間の発声が有する自然性・表現力を備えた合成音声データとなる。
上記目的を達成するために本発明における韻律生成方法は、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含む。
上記目的を達成するために本発明における韻律生成プログラムは、所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、前記韻律生成プログラムは、入力テキストを受け付けるテキスト入力処理と、前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させる。
なお、本発明における韻律生成方法および韻律生成プログラムは、上記の韻律生成装置と同様の効果を得る。
以上のように、本発明の韻律生成装置、韻律生成方法、および、韻律生成プログラムは、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができるという効果を奏する。
以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。
[実施の形態1]
図1は、本実施形態に係る音声合成システム1の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム1は、韻律生成装置2、および、波形生成装置3を備えている。韻律生成装置2と波形生成装置3とは有線または無線により互いに接続されている。韻律生成装置2は、入力テキストを受け付け、受け付けた入力テキストと、人間の発声から抽出された発声韻律パターンとに基づいて、合成音声用の韻律パターンを生成し出力する装置である。波形生成装置3は、韻律生成装置2により生成された合成音声用の韻律パターンを受け付け、受け付けた合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する装置である。韻律生成装置2および波形生成装置3は、例えば、パーソナルコンピュータ、サーバマシン等の汎用コンピュータによって構成される。なお、韻律生成装置2および波形生成装置3は、例えば、車載情報端末、携帯電話、家電製品等の電子機器に組み込まれたコンピュータによって構成されていてもよい。また、韻律生成装置2および波形生成装置3は、同一のハードウェア内にそれぞれ存在していてもよいし、図1に示すように、異なるハードウェア内にそれぞれ存在していてもよい。
(韻律生成装置の構成)
韻律生成装置2は、テキスト入力部21、単語辞書22、言語処理部23、発声韻律記録部24、用例検索部25、規則韻律生成部26、および、合成韻律生成部27を備えている。
テキスト入力部21は、任意の入力テキストを受け付ける。本実施形態においては、テキスト入力部21は、「電話していました。」を示す入力テキストを受け付けたものとする。テキスト入力部21は、例えば、キーボード、マウス等の入力デバイスを介してユーザから入力テキストの入力を受け付けてもよいし、コンピュータが備えるメモリ等に記録されたデータを読み取ることによって入力テキストを受け付けてもよいし、有線または無線によって送信されたテキストデータを入力テキストとして受け付けてもよい。テキスト入力部21は、受け付けた入力テキストを言語処理部23に出力する。
単語辞書22は、複数の単語の表記、読み、品詞、アクセント情報等を記録する。アクセント情報は、アクセント型やアクセント結合に関する情報を示すデータである。例えば、韻律生成装置2が単語データを記録した記録媒体を読み取ることによって、単語辞書22には、上記の単語の表記、読み、品詞、アクセント情報が記録される。
言語処理部23は、単語辞書22を用いて、テキスト入力部21から出力された入力テキストに対して形態素解析を行う。入力テキストは、言語処理部23において単語辞書22を用いて形態素解析を行うことにより、複数の単語に分割される。また、言語処理部23は、分割された各単語について、単語辞書22を用いることにより、品詞や読み、アクセント等を判別する。品詞は、普通名詞、動詞連用形、形容詞、形容動詞、格助詞、接続助詞等である。読みは、単語の読みを示す。なお、アクセントは、アクセント核を用いて表す。ここで、アクセント核は、アクセントが「高」から「低」へ移行する位置である。本実施形態においては、アクセント核を「’」の記号で表し、例えば、「シテイマ’シタ」のように表記する。なお、形態素解析の方法として、例えば、ビタビ(Viterbi)アルゴリズムや最長一致法等を用いるものが挙げられるが、本実施形態で用いられる形態素解析の方法は、特定のものに限定されない。
言語処理部23は、上記の形態素解析、係り受け(修飾)関係の解析等を経て、入力テキストの読みとアクセントを示す入力表音文字列を生成する。本実施形態においては、言語処理部23は、入力テキスト「電話していました。」の読みを示す入力表音文字列「デンワ_シテイマ’シタ.」を生成する。ここで、「_」は、アクセント句の境界を表す記号である。アクセント句は、日本語のアクセントを表す際の構成単位であって、1つのアクセント句にはアクセント核がたかだか1つ含まれる。「’」は、アクセント核を表す記号である。なお、上記の入力表音文字列のフォーマットは、単なる一例であり、入力表音文字列の表し方は、これに限定されない。言語処理部23は、生成した入力表音文字列を用列検索部25および規則韻律生成部26に出力する。
図2は、本実施形態に係る発声韻律記録部24に記録されたデータの一例を示す図である。図2に示すように、発声韻律記録部24には、識別番号、用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンが記録されている。ここで、識別番号は、発声韻律記録部24のレコードを一意に識別する符号である。用例文字列は、後述する用例検索部25によって検索される対象となる文字列である。本実施形態においては、発声韻律記録部24には、用例文字列として、「シテクダサイ」、「シテ※マシタ」、「スル※※ニ」、「シテイ※」、および、「コト※ナイ」が記録されている。ここで、「※」は、複数の代替語のそれぞれに置き換え可能であることを示す記号である。なお、「※」は1拍に対応し、「※※」は2拍に対応する。
すなわち、「シテクダサイ」は、所定単位の単位テキスト「して下さい」の読みを示す用例文字列である。また、「シテ※マシタ」は、所定単位の単位テキスト「していました」の読みを示す単位表音文字列「シテイマシタ」の「イ」を「※」に置き換えた用例文字列である。また、「スル※※二」は、所定単位の単位テキスト「するものに」の読みを示す単位表音文字列「スルモノニ」の「モノ」を「※※」に置き換えた用例文字列である。また、「シテイ※」は、所定単位の単位テキスト「していた」の読みを示す単位表音文字列「シテイタ」の「タ」を「※」に置き換えた用例文字列である。さらに、「コト※ナイ」は、所定単位の単位テキスト「こともない」の読みを示す単位表音文字列「コトモナイ」の「モ」を「※」に置き換えた用例文字列である。このように、用例文字列は、上記の「して下さい」、「していました」、「していた」等のように、日本語で頻出するフレーズである所定単位の単位テキストの読みを示している。
代替語は、用例文字列に含まれている「※」に置き換え可能な複数の文字あるいは文字列である。ここで、図2に示す例では、発声韻律記録部24には、用例文字列「シテクダサイ」に対応して代替語「−」が記録されている。代替語「−」は、代替語が存在しないことを示している。また、用例文字列「シテ※マシタ」に対応して代替語「任意」が記録されている。つまり、用例文字列「シテ※マシタ」の「※」は、どの文字でも置き換え可能な、いわゆるワイルドカードであることを示している。また、発声韻律記録部24には、用例文字列「スル※※ニ」に対応して代替語「モノ」、「コト」が記録されている。つまり、用例文字列「スル※※ニ」の「※※」は、「モノ」あるいは「コト」に置き換え可能であることを示している。また、発声韻律記録部24には、用例文字列「シテイ※」に対応して代替語「タ」、「ル」が記録されている。つまり、用例文字列「シテイ※」の「※」は、「タ」あるいは「ル」に置き換え可能であることを示している。さらに、発声韻律記録部24には、用例文字列「コト※ナイ」に対応して代替語「モ」、「ハ」、「ガ」が記録されている。つまり、用例文字列「コト※ナイ」の「※」は、「モ」、「ハ」あるいは「ガ」に置き換え可能であることを示している。
なお、上記では、用例文字列に、複数の代替語のそれぞれに置き換え可能であることを示す記号「※」が含まれている例について説明したが、これに限定されない。例えば、用例文字列に、記号「※」の代わりに、複数の代替語のそれぞれが直接含まれるようにしてもよい。具体的には、用例文字列「スル※※二」の代わりに、用例文字列「スル|モノ・コト|ニ」であってもよい。すなわち、用例文字列に、複数の代替語のそれぞれに置き換え可能であることが示されていれば、特に限定されない。
単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、少なくとも単位テキストを読み上げた人間の発声から抽出された少なくとも単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンである。例えば、用例文字列「シテ※マシタ」に対応する単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、例えば、単位テキスト「していました」を読み上げた人間の発声から抽出された単位発声韻律パターンである。なお、用例文字列「シテ※マシタ」に対応する単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、例えば、単位テキスト「していました」を含むテキスト「確認していました」を読み上げた人間の発声から抽出され、単位テキスト「していました」の直前の「ん」から始まる、「んしていました」に対応する単位発声韻律パターンであってもよい。
ここで、単位発声ピッチパターンは、人間の声の高さを表すパターンである。単位発声ピッチパターンは、例えば、相関処理法を用いることにより、単位テキストを読み上げた人間の発声から抽出される。相関処理法としては、例えば、自己相関関数(ACF:autocorrelation function)、変形相関、SIFTアルゴリズム、平均振幅差関数(AMDF)等を用いる方法が挙げられる。また、単位発声音素長パターンは、人間が発声する各音素の時間長を表すパターンである。単位発声音素長パターンは、例えば、公知の音素ラベリング技術を用いることにより、少なくとも単位テキストを読み上げた人間の発声から抽出される。さらに、単位発声パワーパターンは、人間の声の大きさを表すパターンである。単位発声パワーパターンは、例えば、人間の発声に一定の窓長を設定し、この窓内の発声の二乗和をとることにより、少なくとも単位テキストを読み上げた人間の発声から抽出される。なお、単位発声韻律パターンの抽出方法は、上記の方法に限定されない。
なお、発声韻律記録部24に記録されている代替語は、用例文字列に含まれている「※」に複数の代替語のそれぞれが置き換えられた場合であっても、それぞれの単位発声韻律パターンと、単位テキストを読み上げた人間の発声から抽出された単位発声韻律パターンとがほぼ同一となる代替語である。発声韻律記録部24に記録されている用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンは、韻律生成装置2の管理者によって記録され、または、外部の開発者が生成して記録した記録媒体から読み込まれることによって記録される。
なお、図2では、単位発声ピッチパターンおよび単位発声パワーパターンを波形のイメージで図示しているが、実際は、発声韻律記録部24には、単位発声ピッチパターンおよび単位発声パワーパターンが、連続した値を有するバイナリデータとして記録されている。また、図2では、単位発声音素長パターンを各音素の音素長(msec)として表している。例えば、発声韻律記録部24には、用例文字列「シテクダサイ」(音素列:sitekudasai)に対応して単位発声音素長パターン「62,32,35,70,42,69,24,72,40,54,89」が記録されている。つまり、単位発声音素長パターン「62,32,35,70,42,69,24,72,40,54,89」は、音素「s」の音素長が「62」msec、音素「i」の音素長が「32」msec、音素「t」の音素長が「35」msec、音素「e」の音素長が「70」msecm、音素「k」の音素長が「42」msec、音素「u」の音素長が「69」msec、音素「d」の音素長が「24」msec、音素「a」の音素長が「72」msec、音素「s」の音素長が「40」msec、音素「a」の音素長が「54」msec、音素「i」の音素長が「89」msecであることを表している。
用例検索部25は、言語処理部23から出力された入力表音文字列と、発声韻律記録部24に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列の一部の文字列に一致する用例文字列を検索する。本実施形態においては、用例検索部25は、入力表音文字列「デンワ_シテイマ’シタ.」と、発声韻律記録部24に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列「デンワ_シテイマ’シタ.」の一部の文字列に一致する用例文字列を検索する。
具体的には、用例検索部25は、まず、入力表音文字列「デンワ_シテイマ’シタ.」を「デンワ」および「シテイマ’シタ.」の2つのアクセント句に分割する。用例検索部25は、分割したそれぞれのアクセント句「デンワ」および「シテイマ’シタ.」が用例文字列として存在しているか否かを判定する。図2に示す例では、発声韻律記録部24には、用例文字列「シテ※マシタ」に対応して代替語「任意」が記録されているので、用例検索部25は、分割したそれぞれのアクセント句「デンワ」および「シテイマ’シタ.」のうち、「シテイマ’シタ.」が用例文字列「シテイマシタ」として存在していると判定する。
なお、上記では、用例検索部25は、入力表音文字列をアクセント句毎に分割し、分割したそれぞれのアクセント句が用例文字列として存在しているか否かを判定する例について説明したが、これに限定されない。例えば、用例検索部25は、入力表音文字列をアクセント句毎に分割し、分割したそれぞれのアクセント句の句末あるいは先頭の文字から始まる文字列が用例文字列として存在しているか否かを判定するようにしてもよい。つまり、用例検索部25は、アクセント句を構成する文字列の一部に用例文字列が含まれているか否かを判定する。また、用例検索部25は、複数のアクセント句に跨って用例文字列として存在しているか否かを判定するようにしてもよい。つまり、用例検索部25は、複数のアクセント句に跨った文字列の一部に用例文字列が含まれているか否かを判定する。これにより、アクセント句が用例文字列として存在しない場合であっても、用例検索部25は、アクセント句を構成する文字列の一部、または、複数のアクセント句に跨った文字列の一部に用例文字列が含まれていれば、用例文字列を検出することができる。
用例検索部25は、入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部24から抽出する。本実施形態においては、用例検索部25は、「シテイマシタ」に対応する用例文字列「シテ※マシタ」に対応付けられた単位発声韻律パターンを発声韻律記録部24から抽出する。用例検索部25は、抽出した単位発声韻律パターンを合成韻律生成部27に出力する。
規則韻律生成部26は、言語処理部23から出力された入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。なお、入力規則韻律パターンは、入力規則ピッチパターン、入力規則音素長パターン、および、入力規則パワーパターンの少なくとも1つを含む。
具体的には、規則韻律生成部26は、入力表音文字列のフレーズ成分に、入力表音文字列のアクセント句成分を重畳することにより、入力規則ピッチパターンを生成する。ここで、フレーズ成分は、人間の肺の圧力の低下に従いピッチが時刻と共に低下する特性を表す声立て成分である。アクセント句成分は、個々の単語のアクセントに対応する成分であって、アクセント核が位置する前の部分が高くなり、アクセント核が位置する後の部分が低くなる成分である。なお、規則韻律生成部26は、人間の発声韻律パターンをアクセント句毎にモデル化したデータを格納した韻律データベースを用いることにより、入力規則ピッチパターンを生成するようにしてもよい。なお、フレーズ成分およびアクセント句成分を表すモデルや、韻律データベースに格納されているモデル化したデータが、規則的あるいは統計的な韻律に関するデータであって、規則韻律生成部26の図示しないメモリに予め記録されている。
また、規則韻律生成部26は、人間の発声における規則的あるいは統計的な音素長を示すデータを記録した音素長テーブルや音素長生成ルール(共に図示せず)を有している。規則韻律生成部26は、入力表音文字列に基づいて、音素長テーブルからデータを抽出し、抽出したデータを結合することにより、入力規則音素長パターンを生成する。なお、音素長テーブルには、例えば、音素「a」の音素長を示すデータ、音素「i」の音素長を示すデータ、音素「u」の音素長を示すデータ、・・・が順に記録されている。また、音素長テーブルには、特定の音素並びにおける、音素「a」の音素長を示すデータ、音素「i」の音素長を示すデータ、音素「u」の音素長を示すデータ、・・・が順に記録されている。
さらに、規則韻律生成部26は、各音素に固有の、または、特定の音素並びやピッチ高低に固有のパワー値を記録したパワー値テーブル(図示せず)を有している。なお、パワー値は、規則的あるいは統計的なパワーに関するデータであって、声の大きさを表す値である。規則韻律生成部26は、入力表音文字列に基づいて、パワー値テーブルからパワー値を抽出する。ここで、一般に、同じ音素であっても、入力規則ピッチパターンのピッチが高いほどパワー値は大きく、入力規則ピッチパターンのピッチが低いほどパワー値は小さくなる。このため、規則韻律生成部26は、パワー値テーブルから抽出したパワー値を、入力規則ピッチパターンのピッチの高低に応じて補正することにより、入力規則パワーパターンを生成する。
このように、規則韻律生成部26は、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。つまり、上記の方法によって生成された入力規則韻律パターンは、規則的あるいは統計的に妥当な韻律パターンとなるが、平均的な韻律パターンであるため、表現力にやや乏しい韻律パターンとなる。なお、入力規則韻律パターンの生成方法は、上記の方法に限定されない。また、規則韻律生成部26は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列(本実施形態においては「デンワ」)に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成するようにしてもよい。また、規則韻律生成部26は、1つの入力表音文字列に対して、複数の入力規則韻律パターンを生成するようにしてもよい。これにより、後述する合成韻律生成部27において、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が最も小さい入力規則韻律パターンを選択することができる。規則韻律生成部26は、生成した入力規則韻律パターンを合成韻律生成部27に出力する。
合成韻律生成部27は、規則韻律生成部26により生成された入力規則韻律パターンと、用例検索部25により抽出された単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。
以下では、合成韻律生成部27による入力規則ピッチパターンと単位発声ピッチパターンとの統合処理について、図3〜図5を参照しながら具体的に説明する。
図3は、用例検索部25により抽出された単位発声ピッチパターンV、および、規則韻律生成部26により生成された入力規則ピッチパターンRの一例を示す図である。図3に示すように、単位発声ピッチパターンVは、用例文字列「シテ※マシタ」に対応するピッチパターンであって、少なくとも単位テキスト「していました」を読み上げた人間の発声から抽出されたピッチパターンである。入力規則ピッチパターンRは、入力表音文字列「デンワ_シテイマ’シタ.」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。なお、図3では、入力規則ピッチパターンRのうち、単位発声ピッチパターンVに対応するピッチパターンをR1、単位発声ピッチパターンVに対応するピッチパターンR1以外のピッチパターンをR2で表している。なお、図3に示す入力表音文字列「デンワシテイマシタ」は、アクセント句の境界を表す記号「_」、および、アクセント核を表す記号「’」を省略している。
合成韻律生成部27は、入力規則ピッチパターンRのうち単位発声ピッチパターンVに対応するピッチパターンR1以外のピッチパターンR2と、単位発声ピッチパターンVとを接続するため、図3に示す○印の部分で接続処理を行う。具体的には、合成韻律生成部27は、入力規則ピッチパターンRのうち単位発声ピッチパターンVに対応するピッチパターンR1、および、図3に示す○印内にあるピッチパターンを除去する。これにより、ピッチパターンR2と単位発声ピッチパターンVとは、図4に示すようになる。合成韻律生成部27は、ピッチパターンR2の接続端RTと、単位発声ピッチパターンVの接続端VTとを接続する。これにより、図5に示すように、合成音声用のピッチパターンSが生成される。なお、合成韻律生成部27による入力規則ピッチパターンと単位発声ピッチパターンとの統合方法(接続方法)は、上記の方法に限定されない。例えば、単位発声ピッチパターンVと入力規則ピッチパターンR1とに、各時刻において合計が1になるような重みを付けて足し合わせ、かつ、用例文字列開始点から終了点に近づくに従って単位発声ピッチパターンVに対する重みが大きくなるように重み付けをして両者のピッチパターンを統合してもよい。
合成韻律生成部27は、上記と同様に、入力規則音素長パターンと単位発声音素長パターンとを統合することにより、合成音声用の音素長パターンを生成する。また、合成韻律生成部27は、入力規則パワーパターンと単位発声パワーパターンとを統合することにより、合成音声用のパワーパターンを生成する。合成韻律生成部27は、生成した合成音声用の韻律パターンを波形生成装置3に出力する。なお、合成音声用の韻律パターンは、合成音声用のピッチパターン、合成音声用の音素長パターン、および、合成音声用のパワーパターンを含む。
ところで、上記の韻律生成装置2は、パーソナルコンピュータ等の任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のテキスト入力部21、言語処理部23、用例検索部25、規則韻律生成部26、および、合成韻律生成部27は、コンピュータのCPUがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、テキスト入力部21、言語処理部23、用例検索部25、規則韻律生成部26、および、合成韻律生成部27の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、単語辞書22、および、発声韻律記録部24は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。
以上、韻律生成装置2の構成について説明したが、韻律生成装置2の構成は、図1に示す構成に限定されない。例えば、発声韻律記録部24に、図2に示すデータの代わりに、図6に示すデータが記録されていてもよい。図6は、本実施形態に係る発声韻律記録部24に記録されたデータの他の例を示す図である。なお、図6では、図2の識別番号「003」〜「005」に対応するレコードの図示を省略している。すなわち、発声韻律記録部24には、上記の識別番号、用例文字列、代替語、単位発声ピッチパターン、単位発声音素長パターン、および、単位発声パワーパターンに加えて、用例に関する属性条件1〜3が記録されている。また、発声韻律記録部24には、条件1〜3に応じて、単位発声ピッチパターンがそれぞれ記録されている。
条件1は、用例文字列が入力表音文字列のどの部分に位置しているのか(接続環境)を示す。つまり、条件1は、入力表音文字列の一部の文字列に一致する用例文字列が、入力表音文字列の「文末」に位置しているのか、あるいは、入力表音文字列の「文中」に位置しているのかを示す。本実施形態においては、入力表音文字列が「デンワ_シテイマ’シタ.」であるので、用例文字列「シテ※マシタ」に代替語を適用した文字列「シテイマシタ」は、入力表音文字列の文末に位置している。条件2は、用例文字列のアクセント型を示す。条件3は、入力表音文字列のうち用例文字列に一致する文字列の直前の文字のアクセントの高低を示す。本実施形態においては、入力表音文字列が「デンワ_シテイマ’シタ.」であって、「デ」(アクセント情報は「低い」)、「ン」(アクセント情報は「高い」)、「ワ」(アクセント情報は「高い」)となる。すなわち、入力表音文字列「デンワ_シテイマ’シタ.」のうち、用例文字列「シテ※マシタ」に代替語を適用した文字列「シテイマシタ」に一致する文字列「シテイマ’シタ.」の直前の文字「ワ」のアクセント情報は高い。また、用例文字列の直前の文字のアクセント情報を持つことに伴って、単位発声ピッチパターンにも用例文字列の直前の文字から用例終端までに対応するピッチパターンが登録されている。これにより、本実施形態に係る用例検索部25は、用例文字列「シテイマシタ」に対応する用例文字列「シテ※マシタ」に対応付けられており、かつ、条件1(文末)、条件2(5型)、条件3(直前が高い)に対応付けられた単位発声ピッチパターンを抽出することができる。この結果、用例検索部25は、単位テキストの接続環境や、直前のアクセント情報等を考慮しながら、発声韻律記録部24からより好ましい単位発声ピッチパターンを抽出し、より滑らかに入力規則韻律パターンと単位発声韻律パターンを統合することができる。
なお、上記では、発声韻律記録部24に、上記の属性条件1〜3が記録されている例について説明したが、これに限定されない。例えば、発声韻律記録部24には、用例文字列が入力表音文字列に対して補助的な役割を有する文字列であるのか、あるいは、主要語的な役割を有する文字列であるのかを示す条件が記録されていてもよい。つまり、用例文字列が「クダサイ」、入力表音文字列が「ゴランクダサイ」(ご覧ください)であった場合、この用例文字列「クダサイ」は、入力表音文字列「ゴランクダサイ」に対して補助的な役割を有する文字列である。また、用例文字列が「クダサイ」、入力表音文字列が「ミカンオクダサイ」(みかんをください)であった場合、この用例文字列「クダサイ」は、入力表音文字列「ミカンオクダサイ」に対して主要語的な役割を有する文字列である。なお、用例文字列が入力表音文字列に対して補助的な役割を有する文字列であるのか、あるいは、主要語的な役割を有する文字列であるのかは、言語処理部23が行う形態素解析によって判別される。
また、発声韻律記録部24には、用例文字列が朗読調か、あるいは、会話調であるのかを示す条件が記録されていてもよい。なお、用例文字列が朗読調か、あるいは、会話調であるのかは、テキスト入力部21が入力テキストを受け付ける際に、ユーザにより入力テキストにその旨を示すタグ情報を付加することによって判別される。
(波形生成装置の構成)
波形生成装置3は、波形辞書31、波形生成部32、および、合成音声出力部33を備えている。なお、上記の波形生成部32および合成音声出力部33は、コンピュータのCPUがこの機能を実現するプログラムに従って動作することによっても具現化される。
波形辞書31は、複数の波形データを記録する。例えば、波形生成装置3が波形データを記録した記録媒体を読み取ることによって、波形辞書31には、上記の波形データが記録される。
波形生成部32は、韻律生成装置2から出力された合成音声用の韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する。波形生成部32は、生成した合成音声の波形を合成音声出力部33に出力する。
合成音声出力部33は、波形生成部32から出力された合成音声の波形に基づいて、合成音声データを生成する。合成音声出力部33は、例えば、生成された合成音声データをそのままraw形式で出力する。なお、合成音声出力部33は、生成された合成音声データをwav形式のヘッダファイルを付与した上で出力し、あるいは、生成された合成音声データをADPCM等の圧縮された合成音声に変換して出力するようにしてもよい。合成音声出力部33により出力された合成音声データは、韻律生成装置2により生成された合成音声用の韻律パターンを用いているので、人間の発声が有する自然性・表現力を備えた合成音声データとなる。
(音声合成システムの動作)
次に、上記の構成に係る音声合成システム1の動作について、図7を参照しながら説明する。
図7は、音声合成システム1の動作の一例を示すフローチャートである。すなわち、図7に示すように、テキスト入力部21は、任意の入力テキストを受け付ける(Op1)。言語処理部23は、Op1にて受け付けた入力テキストに対して言語解析を行う(Op2)。なお、言語解析は、上記の形態素解析、係り受け解析等である。言語処理部23は、Op2の言語解析の結果に基づいて、入力テキストの読みを示す入力表音文字列を生成する(Op3)。
用例検索部25は、Op3にて生成された入力表音文字列と、発声韻律記録部24に記録されている用例文字列とを、この用例文字列に対応する複数の代替語も含めて比較することにより、入力表音文字列の一部の文字列に一致する用例文字列を検索する(Op4)。検索の結果、入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部25は、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部24から抽出する(Op5)。
規則韻律生成部26は、Op3にて生成された入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する(Op6)。合成韻律生成部27は、Op6にて生成された入力規則韻律パターンと、Op5にて抽出された単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する(Op7)。合成韻律生成部27は、Op7にて生成された合成音声用の韻律パターンを波形生成装置3に出力する(Op8)。
次に、波形生成装置3の波形生成部32は、Op8にて出力された合成音声用の韻律パターンに基づいて、波形辞書31を用いて合成音声の波形を生成する(Op9)。合成音声出力部33は、Op9にて生成された合成音声の波形に基づいて、合成音声データを生成する(Op10)。合成音声出力部33は、Op10にて生成された合成音声データを波形生成装置3の外部に出力する(Op11)。
以上のように、本実施形態に係る韻律生成装置2によれば、言語処理部23は、入力テキストの読みを示す入力表音文字列を生成する。用例検索部25は、入力表音文字列と、用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較する。入力表音文字列の一部の文字列に一致する用例文字列があった場合、用例検索部25は、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部24から抽出する。すなわち、用例文字列には、複数の代替語のそれぞれに置き換え可能であることが示されているので、発声韻律記録部24には、複数の代替語のそれぞれに置き換えられたそれぞれの文字列と、それぞれの文字列に対応するそれぞれの単位発声韻律パターンとが記録されている必要がない。つまり、発声韻律記録部24には、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、用例文字列に対応する単位発声韻律パターンとが記録されていればよい。これにより、発声韻律記録部24に記録される情報量を抑えることができる。規則韻律生成部26は、入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する。合成韻律生成部27は、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。この結果、発声韻律記録部24に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
[実施の形態2]
図8は、本実施形態に係る音声合成システム10の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム10は、図1に示す韻律生成装置2の代わりに、韻律生成装置4を備えている。なお、図8において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律生成装置4は、図1に示す発声韻律記録部24および合成韻律生成部27の代わりに、発声韻律記録部41および合成韻律生成部42を備えている。なお、合成韻律生成部42は、差分算出部42aおよび適用判定部42bを有している。
発声韻律記録部41は、図1に示す発声韻律記録部24とほぼ同様であるが、単位テキストを一部に含む拡張テキストを読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキストの直前の文字あるいは文字列を示す直前テキストに対応する直前発声韻律パターンを含む単位発声韻律パターンを記録する。ここで、少なくとも拡張テキストは、単位テキストを含み日本語として意味のあるまとまりを持っていることが望ましい。例えば、発声韻律記録部41には、単位テキスト「していました」を一部に含む拡張テキスト「確認していました」を読み上げた人間の発声から抽出された拡張発声韻律パターンが、用例文字列「シテ※マシタ」に対応した単位発声韻律パターンとして記録されている。すなわち、発声韻律記録部41には、拡張テキスト「確認していました」を読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキスト「していました」の直前の文字列を示す直前テキスト「確認」に対応する直前発声韻律パターンも、単位発声韻律パターンの一部として記録されている。なお、直前テキストの文字数に特に制限はないが、直前テキスト部分のアクセントの高低が等しく続く区間と設定することが好ましい。このように、同じ高さのアクセントが続く区間に設定すれば、後述の差分算出部42aで得られる結果の精度が向上する。
差分算出部42aは、用例検索部25から出力された単位発声韻律パターンに含まれる直前発声韻律パターンと、この直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。
以下では、差分算出部42aによる直前発声ピッチパターンと、この直前発声ピッチパターンに対応する入力規則ピッチパターンとの差分算出処理について、図9を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。
図9は、用例検索部25により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターンV、用例検索部25により抽出された単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターンBV、および、規則韻律生成部26により生成された入力規則ピッチパターンRの一例を示す図である。図9に示すように、単位テキストに対応するパターンVは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち単位表音文字列「シテイマシタ」(用例文字列「シテ※マシタ」)に対応するピッチパターンである。直前発声ピッチパターンBVは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち直前表音文字列「カクニン」に対応するピッチパターンである。入力規則ピッチパターンRは、入力表音文字列「デンワ_シテイマ’シタ.」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。
ここで、差分算出部42aは、直前発声ピッチパターンBVのうち差分Lを算出するためのポイントBVPを任意に決定する。差分算出部42aは、任意に決定した直前発声ピッチパターンBVのポイントBVPと、このポイントBVPに対応する入力規則ピッチパターンRのポイントRPとの差分Lを算出する。差分算出部42aは、算出した差分Lを適用判定部42bに出力する。
なお、上記では、差分算出部42aは、直前発声ピッチパターンBVのうち差分Lを算出するためのポイントBVPを任意に決定する例について説明したが、これに限定されない。例えば、差分算出部42aは、ポイントBVPを直前発声ピッチパターンBVの一番高い部分に決定するようにしてもよい。また、差分算出部42aは、ポイントBVPを直前発声ピッチパターンBVの終了部分に決定するようにしてもよい。さらに、差分算出部42aは、ポイントBVPを、直前発声ピッチパターンBVの終了部分(終端)から遡って、入力規則ピッチパターンRと直前発声ピッチパターンBVとのアクセントの高低が初めて異なる直前の地点に決定してもよい。つまり、差分算出部42aは、直前発声ピッチパターンBVと、この直前発声ピッチパターンBVに対応する入力規則ピッチパターンRとの差分が算出できれば、ポイントBVPを決定する方法は任意である。また、差分算出部42aは、ポイントBVPのように1地点における差分ではなく、図9に示すポイントBVPを中心としてある幅を持った区間でのピッチの平均値を計算し差分を算出するようにしてもよい。なお、この区間の設定方法や平均値の算出方法等は任意である。
適用判定部42bは、差分算出部42aにより算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。本実施形態においては、適用判定部42bは、入力規則韻律パターンをそのまま合成音声用の韻律パターンとする。一方、適用判定部42bは、差分算出部42aにより算出された差分が閾値未満である場合、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。具体的には、適用判定部42bは、差分算出部42aにより算出された差分が閾値未満である場合、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する。なお、閾値は、適用判定部42bの図示しないメモリに予め記録されている。
次に、上記の構成に係る音声合成システム10の動作について、図10を参照しながら説明する。なお、図10において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図10は、音声合成システム10の動作の一例を示すフローチャートである。すなわち、図10に示すフローチャートは、図7に示すOp7の処理の代わりに、Op21〜Op24の処理を有している。つまり、Op6の後、差分算出部42aは、直前発声韻律パターンと、この直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する(Op21)。適用判定部42bは、Op21にて算出された差分が閾値以上であるか否かを判定する(Op22)。適用判定部42bは、Op21にて算出された差分が閾値以上であると判定すれば(Op22にてYES)、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する(Op23)。一方、適用判定部42bは、Op21にて算出された差分が閾値未満であると判定すれば(Op22にてNO)、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する(Op24)。
以上のように、本実施形態に係る韻律生成装置4によれば、差分算出部42aは、直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する。適用判定部42bは、算出された差分が閾値以上である場合、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。つまり、算出された差分が閾値以上である場合、仮に、入力規則韻律パターンのうち単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続しようとすれば、単位発声韻律パターンを大きく変形する必要がある。単位発声韻律パターンを大きく変形すると、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができない。それゆえ、本実施形態に係る上記の態様によれば、算出された差分が閾値以上である場合、適用判定部42bは、単位発声韻律パターンを用いることなく、入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。一方、算出された差分が閾値未満である場合、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が小さいので、適用判定部42bは、入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。
[実施の形態3]
図11は、本実施形態に係る音声合成システム11の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム11は、図1に示す韻律生成装置2の代わりに、韻律生成装置5を備えている。なお、図11において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律生成装置5は、図1に示す発声韻律記録部24および合成韻律生成部27の代わりに、発声韻律記録部51および合成韻律生成部52を備えている。なお、合成韻律生成部52は、調整範囲決定部52aおよび接続調整部52bを有している。
発声韻律記録部51は、図8に示す発声韻律記録部41と同様、単位テキストを一部に含む拡張テキストを読み上げた人間の発声から抽出された拡張発声韻律パターンのうち、単位テキストの直前の文字あるいは文字列を示す直前テキストに対応する直前発声韻律パターンを含む単位発声韻律パターンを記録する。
調整範囲決定部52aは、直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する。なお、アクセント情報は、アクセントの「高」または「低」のうちいずれかを示す情報である。
以下では、調整範囲決定部52aによる調整範囲の決定処理について、図12および図13を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。
図12は、拡張テキストの読みを示す拡張表音文字列の各拍のそれぞれに付与されたアクセント情報、および、入力テキストの読みを示す入力表音文字列の各拍のそれぞれに付与されたアクセント情報の一例を示す図である。図12に示すように、拡張表音文字列「トビラオカクニンシテイマシタ」は、単位テキスト「していました」を一部に含む拡張テキスト「扉を確認していました」の読みを示す。なお、拡張表音文字列「トビラオカクニンシテイマシタ」のうち「トビラオカクニン」は、直前テキスト「扉を確認」の読みを示す直前表音文字列である。拡張表音文字列「トビラオカクニンシテイマシタ」のうち「シテイマシタ」は、単位テキスト「していました」の読みを示す単位表音文字列である。つまり、この単位表音文字列は、代替語を適用した用例文字列「シテ※マシタ」である。拡張表音文字列「トビラオカクニンシテイマシタ」の各拍のそれぞれにはアクセント情報が付与されている。つまり、図12に示すように、「ト」にはアクセントが「低い」を示すアクセント情報、「ビラオカクニンシテイマ」のそれぞれにはアクセントが「高い」を示すアクセント情報、「シタ」のそれぞれにはアクセントが「低い」を示すアクセント情報が付与されている。
入力表音文字列「デンワシテイマシタ」は、入力テキスト「電話していました。」の読みを示す。入力表音文字列「デンワシテイマシタ」の各拍のそれぞれにはアクセント情報が付与されている。つまり、図12に示すように、「デ」にはアクセントが「低い」を示すアクセント情報、「ンワシテイマ」のそれぞれにはアクセントが「高い」を示すアクセント情報、「シタ」のそれぞれにはアクセントが「低い」を示すアクセント情報が付与されている。
ここで、図12に示すように、用例文字列(単位表音文字列)から2拍遡った範囲では、直前表音文字列「トビラオカクニン」の「ニン」に付与されたアクセント情報と、入力表音文字列「デンワシテイマシタ」の「ンワ」に付与されたアクセント情報とが共にアクセント情報「高い」で一致している。このため、調整範囲決定部52aは、用例文字列から2拍遡った範囲を調整範囲として決定する。すなわち、図13に示すように、拡張表音文字列「トビラオカクニンシテイマシタ」のうち直前表音文字列「トビラオカクニン」の「ニン」に対応する直前発声ピッチパターンBVが調整範囲Aの直前発声ピッチパターンとなる。また、入力表音文字列「デンワシテイマシタ」の「ンワ」に対応する入力規則ピッチパターンRが調整範囲Aの入力規則ピッチパターンとなる。
接続調整部52bは、調整範囲Aの直前発声ピッチパターンBVが、調整範囲Aの入力規則ピッチパターンRに近づくように、調整範囲Aの直前発声ピッチパターンBV、または、単位発声ピッチパターンのうち単位テキストに対応するパターンVを変形する。なお、近づくとは、例えば、調整範囲Aの直前発声ピッチパターンBVと調整範囲Aの入力規則ピッチパターンRとが一致する、あるいは、調整範囲Aの直前発声ピッチパターンBVと調整範囲Aの入力規則ピッチパターンRとの各時刻におけるピッチの差分の累積が最小になること等をいう。また、変形するとは、調整範囲Aの直前発声ピッチパターンBV、または、単位発声ピッチパターンのうち単位テキストに対応するパターンVを一律に伸縮・拡大し、あるいは、用例文字列の終了部分(終端)に向かって伸縮・拡大率が小さくなるように重みをつけて伸縮・拡大をすること等をいう。図14は、接続調整部52bにより調整範囲Aの直前発声ピッチパターンBVが変形された状態を示す図である。図14に示すように、調整範囲Aの直前発声ピッチパターンBVは、調整範囲Aの入力規則ピッチパターンに近づくように、変形されている。また、単位発声ピッチパターンのうち単位テキストに対応するパターンVは、調整範囲Aの直前発声ピッチパターンBVの変形に従って変形されている。なお、図14では、変形前の調整範囲Aの直前発声ピッチパターン、および、変形前の単位発声ピッチパターンのうち単位テキストに対応するパターンを点線にて表している。
接続調整部52bは、入力規則ピッチパターンRと、変形した調整範囲Aの直前発声ピッチパターンBVとを接続するため、図14に示す○印の部分で接続処理を行う。具体的には、接続調整部52bは、調整範囲Aの入力規則ピッチパターンR、および、単位発声ピッチパターンのうち単位テキストに対応するパターンVに対応する入力規則ピッチパターンRを除去する。また、接続調整部52bは、図14に示す○印内にあるピッチパターンを除去する。これにより、入力規則ピッチパターンR、調整範囲Aの直前発声ピッチパターンBV、および、単位発声ピッチパターンのうち単位テキストに対応するパターンVは、図15に示すようになる。接続調整部52bは、入力規則ピッチパターンRの接続端RTと、直前発声ピッチパターンBVの接続端BVTとを接続する。これにより、図16に示すように、合成音声用のピッチパターンSが生成される。
接続調整部52bは、上記と同様に、合成音声用の音素長パターン、および、合成音声用のパワーパターンを生成する。
次に、上記の構成に係る音声合成システム11の動作について、図17を参照しながら説明する。なお、図17において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図17は、音声合成システム11の動作の一例を示すフローチャートである。すなわち、図17に示すフローチャートは、図7に示すOp7の処理の代わりに、Op31およびOp32の処理を有している。つまり、Op6の後、調整範囲決定部52aは、上述のようにして、調整範囲を決定する(Op31)。接続調整部52bは、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声ピッチパターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する(Op32)。
以上のように、本実施形態に係る韻律生成装置5によれば、調整範囲決定部52aは、上述のようにして調整範囲を決定する。つまり、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとは、アクセント情報が同一であるため、調整範囲の直前発声韻律パターンと、調整範囲の入力規則韻律パターンとのパターン形状はそれぞれ近似する。接続調整部52bは、調整範囲の直前発声韻律パターンが、調整範囲の入力規則韻律パターンに近づくように、調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形する。接続調整部52bは、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
[実施の形態4]
図18は、本実施形態に係る音声合成システム12の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム12は、図1に示す韻律生成装置2の代わりに、韻律生成装置6を備えている。なお、図18において、図1と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。
韻律生成装置6は、図1に示す発声韻律記録部24、規則韻律生成部26および合成韻律生成部27の代わりに、発声韻律記録部61、規則韻律生成部62および合成韻律生成部63を備えている。なお、合成韻律生成部63は、差分算出部63aおよび接続調整部63bを有している。
発声韻律記録部61は、図1に示す発声韻律記録部24に加えて、単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録する。
規則韻律生成部62は、図1に示す規則韻律生成部26に加えて、拡張テキストの読みを示す拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンを生成する機能を備えている。なお、拡張規則韻律パターンは、拡張規則ピッチパターン、拡張規則音素長パターン、および、拡張規則パワーパターンの少なくとも1つを含む。このため、本実施形態に係る用例検索部25は、用例文字列に対応する単位発声韻律パターンを発声韻律記録部61から抽出した場合、用例文字列に対応する拡張テキストの読みを示す拡張表音文字列を、規則韻律生成部62に出力する。規則韻律生成部62は、生成した拡張規則韻律パターンを合成韻律生成部63に出力する。
差分算出部63aは、用例検索部25から出力された単位発声韻律パターンと、この単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。
以下では、差分算出部63aによる単位発声ピッチパターンと、この単位発声ピッチパターンに対応する拡張規則ピッチパターンとの差分算出処理について、図19を参照しながら具体的に説明する。なお、以下では、ピッチパターンの例について説明するが、音素長パターン、パワーパターンであっても同様である。
図19は、用例検索部25により抽出された単位発声ピッチパターンV、および、規則韻律生成部62により生成された拡張規則ピッチパターンARの一例を示す図である。図19に示すように、単位発声ピッチパターンVは、拡張テキスト「確認していました」の読みを示す拡張表音文字列「カクニンシテイマシタ」のうち単位表音文字列「シテイマシタ」(用例文字列「シテ※マシタ」)に対応するピッチパターンである。拡張規則ピッチパターンARは、拡張表音文字列「カクニンシテイマシタ」に対して、規則的あるいは統計的な韻律に関するデータを用いることにより生成されたピッチパターンである。
ここで、差分算出部63aは、単位発声ピッチパターンVのうち差分Lを算出するためのポイントVPを決定する。本実施形態においては、差分算出部63aは、ポイントVPを単位発声ピッチパターンVの最も高い部分に決定する。差分算出部63aは、決定した単位発声ピッチパターンVのポイントVPと、このポイントVPに対応する拡張規則ピッチパターンARのポイントARPとの差分Lを算出する。差分算出部63aは、算出した差分Lを接続調整部63bに出力する。
なお、上記では、差分算出部63aは、差分Lを算出するためのポイントVPを単位発声ピッチパターンVの一番高い部分に決定する例について説明したが、これに限定されない。例えば、差分算出部63aは、ポイントVPを単位発声ピッチパターンVの開始部分に決定するようにしてもよい。また、差分算出部63aは、ポイントVPを単位発声ピッチパターンVの終了部分に決定するようにしてもよい。つまり、差分算出部63aは、単位発声ピッチパターンVと、この単位発声ピッチパターンVに対応する入力規則ピッチパターンRとの差分が算出できれば、ポイントVPを決定する方法は任意である。
接続調整部63bは、差分算出部63aにより算出された差分に応じて、入力規則ピッチパターンを変形する。本実施形態においては、算出された差分が単位発声ピッチパターンVの方向へLの量を示しているため、接続調整部63bは、入力規則ピッチパターンRを、単位発声ピッチパターンVの方向へLの量分移動させるように変形する。図20は、接続調整部63bにより入力規則ピッチパターンRが変形された状態を示す図である。図20に示すように、入力規則ピッチパターンRは、図3に示す入力規則ピッチパターンと比較して、単位発声ピッチパターンVの方向へLの量分移動するように変形されている。なお、図20では、変形前の入力規則ピッチパターンR(図3に示す入力規則ピッチパターン)を点線にて表している。
接続調整部63bは、入力規則ピッチパターンRのうち単位発声ピッチパターンVに対応するピッチパターンR1以外のピッチパターンR2と、単位発声ピッチパターンVとを接続するため、図20に示す○印の部分で接続処理を行う。具体的には、接続調整部63bは、入力規則ピッチパターンRのうち単位発声ピッチパターンVに対応するピッチパターンR1、および、図20に示す○印内にあるピッチパターンを除去する。これにより、ピッチパターンR2と単位発声ピッチパターンVとは、図21に示すようになる。接続調整部63bは、ピッチパターンR2の接続端RTと、単位発声ピッチパターンVの接続端VTとを接続する。これにより、図22に示すように、合成音声用のピッチパターンSが生成される。
次に、上記の構成に係る音声合成システム12の動作について、図23を参照しながら説明する。なお、図23において、図7と同様の処理を示す部分については、同じ参照符号を付記し、その詳細な説明を省略する。
図23は、音声合成システム12の動作の一例を示すフローチャートである。すなわち、図23に示すフローチャートは、図7に示すOp7の処理の代わりに、Op41〜Op43の処理を有している。つまり、Op6の後、規則韻律生成部62は、拡張テキストの読みを示す拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンを生成する(Op41)。差分算出部63aは、Op5にて抽出された単位発声韻律パターンと、この単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する(Op42)。接続調整部63bは、Op42にて算出された差分に応じて、入力規則韻律パターンを変形し、変形した入力規則韻律パターンと、単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する(Op43)。
以上のように、本実施形態に係る韻律生成装置6によれば、差分算出部63aは、発声韻律記録部61に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する。接続調整部63bは、算出された差分に応じて、入力規則韻律パターンを変形する。接続調整部63bは、変形した入力規則韻律パターンと単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する。これにより、入力規則韻律パターンと単位発声韻律パターンとのコスト(非調和の尺度)が大きい場合であっても、単位発声韻律パターンを大きく変形することなく、入力規則韻律パターンと単位発声韻律パターンとを滑らかに接続することができる。この結果、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる。
なお、第1〜第4の実施形態において、韻律生成装置が、合成音声用の韻律パターンを出力し、波形生成装置が、合成音声用の韻律パターンに基づいて合成音声を生成し出力する例について説明したが、これに限定されない。例えば、韻律生成装置から出力された合成音声用の韻律パターンを用いて、合成音声用の韻律辞書、合成音声用の波形辞書、音声認識用の音響モデル等を生成するようにしてもよい。
すなわち、本発明は上述した第1〜第4の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
入力テキストを受け付けるテキスト入力部と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備える、韻律生成装置。
(付記2)
前記合成韻律生成部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記1に記載の韻律生成装置。
(付記3)
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む、付記1に記載の韻律生成装置。
(付記4)
前記適用判定部は、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記3に記載の韻律生成装置。
(付記5)
前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
前記合成韻律生成部は、
前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、
前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む、付記1に記載の韻律生成装置。
(付記6)
前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
前記合成韻律生成部は、
前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、
前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む、付記1に記載の韻律生成装置。
(付記7)
前記接続調整部は、前記入力規則韻律パターンのうち前記単位発声韻律パターンに対応するパターン以外のパターンを変形し、変形したパターンと、当該単位発声韻律パターンとを接続することにより、合成音声用の韻律パターンを生成する、付記6に記載の韻律生成装置。
(付記8)
付記1〜7のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える、音声合成システム。
(付記9)
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、
前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、
前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、
前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含む、韻律生成方法。
(付記10)
所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
前記韻律生成プログラムは、
入力テキストを受け付けるテキスト入力処理と、
前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させる、韻律生成プログラム。
以上のように、本発明は、発声韻律記録部に記録される情報量を抑えつつ、人間の発声並みに自然で、表現力豊かな合成音声用の韻律パターンを生成することができる韻律生成装置、韻律生成方法、または、韻律生成プログラムとして有用である。
本発明の第1の実施形態に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムにおける韻律生成装置の発声韻律記録部に記録されたデータの一例を示す図である。 上記韻律生成装置の用例検索部により抽出された単位発声ピッチパターン、および、上記韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。 入力規則ピッチパターンのうち単位発声ピッチパターンに対応するピッチパターン、および、図3に示す○印内にあるピッチパターンを除去した状態を示す図である。 上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。 上記発声韻律記録部に記録されたデータの他の例を示す図である。 上記音声合成システムの動作の一例を示すフローチャートである。 本発明の第2の実施形態に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターン、この単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。 上記音声合成システムの動作の一例を示すフローチャートである。 本発明の第3の実施形態に係る音声合成システムの概略構成を示すブロック図である。 拡張テキストの読みを示す拡張表音文字列の各拍のそれぞれに付与されたアクセント情報、および、入力テキストの読みを示す入力表音文字列の各拍のそれぞれに付与されたアクセント情報の一例を示す図である。 上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターンのうち単位テキストに対応するパターン、この単位発声ピッチパターンのうち直前テキストに対応する直前発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された入力規則ピッチパターンの一例を示す図である。 上記韻律生成装置の接続調整部により調整範囲の直前発声ピッチパターンが変形された状態を示す図である。 調整範囲の入力規則ピッチパターン、単位発声ピッチパターンのうち単位テキストに対応するパターンに対応する入力規則ピッチパターン、および、図14に示す○印内にあるピッチパターンを除去した状態を示す図である。 上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。 上記音声合成システムの動作の一例を示すフローチャートである。 本発明の第4の実施形態に係る音声合成システムの概略構成を示すブロック図である。 上記音声合成システムにおける韻律生成装置の用例検索部により抽出された単位発声ピッチパターン、および、上記音声合成システムにおける韻律生成装置の規則韻律生成部により生成された拡張規則ピッチパターンの一例を示す図である。 上記韻律生成装置の接続調整部により入力規則ピッチパターンが変形された状態を示す図である。 入力規則ピッチパターンのうち単位発声ピッチパターンに対応するピッチパターン、および、図20に示す○印内にあるピッチパターンを除去した状態を示す図である。 上記韻律生成装置の合成韻律生成部により生成された合成音声用のピッチパターンの一例を示す図である。 上記音声合成システムの動作の一例を示すフローチャートである。
符号の説明
1 音声合成システム
2、4、5、6 韻律生成装置
3 波形生成装置
21 テキスト入力部
23 言語処理部
24、41、51、61 発声韻律記録部
25 用例検索部
26、62 規則韻律生成部
27、42、52、63 合成韻律生成部
42a 差分算出部
42b 適用判定部
52a 調整範囲決定部
52b 接続調整部
63a 差分算出部
63b 接続調整部

Claims (7)

  1. 入力テキストを受け付けるテキスト入力部と、
    前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
    所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
    前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
    前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
    前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備え、
    前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
    前記合成韻律生成部は、
    前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出部と、
    前記差分算出部により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出部により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定部とを含む、韻律生成装置。
  2. 入力テキストを受け付けるテキスト入力部と、
    前記入力テキストの読みを示す入力表音文字列を生成する言語処理部と、
    所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部と、
    前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索部と、
    前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成部と、
    前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成部とを備え、
    前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
    前記規則韻律生成部は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
    前記合成韻律生成部は、
    前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出部と、
    前記差分算出部により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整部とを含む、韻律生成装置。
  3. 前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
    前記合成韻律生成部は、
    前記直前発声韻律パターンに対応する直前表音文字列の各拍のそれぞれに付与されたアクセント情報と、当該直前表音文字列に対応する入力表音文字列の各拍のそれぞれに付与されたアクセント情報とが、前記用例文字列の直前の拍から遡って一致する任意の拍数分の範囲を調整範囲として決定する調整範囲決定部と、
    前記調整範囲の直前発声韻律パターンが、前記調整範囲の入力規則韻律パターンに近づくように、前記調整範囲の直前発声韻律パターン、または、直前発声韻律パターンを除いた単位発声韻律パターンを変形し、変形した直前発声韻律パターン、または、変形した単位発声韻律パターンを用いることにより、合成音声用の韻律パターンを生成する接続調整部とを含む、請求項1または2に記載の韻律生成装置。
  4. 請求項1〜のいずれか一項に記載の韻律生成装置と、
    前記韻律生成装置により生成された合成音声用の韻律パターンに基づいて、合成音声データを生成し出力する波形生成装置とを備える、音声合成システム。
  5. 所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータが、合成音声用の韻律パターンを生成する韻律生成方法であって、
    前記コンピュータが備えるテキスト入力部が、入力テキストを受け付けるテキスト入力工程と、
    前記コンピュータが備える言語処理部が、前記入力テキストの読みを示す入力表音文字列を生成する言語処理工程と、
    前記コンピュータが備える用例検索部が、前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索工程と、
    前記コンピュータが備える韻律生成部が、前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成工程と、
    前記コンピュータが備える合成韻律生成部が、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成工程とを含
    前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
    前記合成韻律生成工程は、
    前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出工程と、
    前記差分算出工程により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出工程により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定工程とを含む、韻律生成方法。
  6. 所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
    前記韻律生成プログラムは、
    入力テキストを受け付けるテキスト入力処理と、
    前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
    前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
    前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
    前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させ
    前記発声韻律記録部に記録された単位発声韻律パターンは、前記単位テキストの直前の文字あるいは文字列に対応する直前発声韻律パターンを含み、
    前記合成韻律生成処理は、
    前記直前発声韻律パターンと、当該直前発声韻律パターンに対応する入力規則韻律パターンとの差分を算出する差分算出処理と、
    前記差分算出処理により算出された差分が閾値以上である場合、前記単位発声韻律パターンを用いることなく、前記入力規則韻律パターンを用いることにより、合成音声用の韻律パターンを生成し、かつ、前記差分算出処理により算出された差分が閾値未満である場合、前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する適用判定処理とを含む、韻律生成プログラム。
  7. 所定単位の単位テキストの読みを示す単位表音文字列の一部の文字あるいは文字列が、複数の代替語のそれぞれに置き換え可能であることが示されている用例文字列と、少なくとも前記単位テキストを読み上げた人間の発声から抽出された少なくとも前記単位テキストに対応する当該人間の発声の韻律を示す単位発声韻律パターンとを対応付けて記録する発声韻律記録部にアクセス可能なコンピュータに、合成音声用の韻律パターンを生成する処理を実行させる韻律生成プログラムであって、
    前記韻律生成プログラムは、
    入力テキストを受け付けるテキスト入力処理と、
    前記入力テキストの読みを示す入力表音文字列を生成する言語処理と、
    前記入力表音文字列と、前記用例文字列とを、当該用例文字列に対応する複数の代替語も含めて比較することにより、前記入力表音文字列の一部の文字列に一致する用例文字列があった場合、当該用例文字列に対応付けられた単位発声韻律パターンを発声韻律記録部から抽出する用例検索処理と、
    前記入力表音文字列の一部の文字列に一致する用例文字列を当該入力表音文字列から除いた文字列、または、前記入力表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、入力規則韻律パターンを生成する規則韻律生成処理と、
    前記入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する合成韻律生成処理とを前記コンピュータに実行させ、
    前記発声韻律記録部は、前記単位テキストを一部に含む拡張テキストの読みを示す拡張表音文字列をさらに記録し、
    前記規則韻律生成処理は、前記拡張表音文字列に対して、規則的あるいは統計的な韻律に関するデータを用いることにより、拡張規則韻律パターンをさらに生成し、
    前記合成韻律生成処理は、
    前記発声韻律記録部に記録された単位発声韻律パターンと、当該単位発声韻律パターンに対応する拡張規則韻律パターンとの差分を算出する差分算出処理と、
    前記差分算出処理により算出された差分に応じて、前記入力規則韻律パターンを変形し、変形した入力規則韻律パターンと前記単位発声韻律パターンとを統合することにより、合成音声用の韻律パターンを生成する接続調整処理とを含む、韻律生成プログラム。
JP2007295898A 2007-11-14 2007-11-14 韻律生成装置、韻律生成方法、および、韻律生成プログラム Active JP5012444B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007295898A JP5012444B2 (ja) 2007-11-14 2007-11-14 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007295898A JP5012444B2 (ja) 2007-11-14 2007-11-14 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Publications (2)

Publication Number Publication Date
JP2009122382A JP2009122382A (ja) 2009-06-04
JP5012444B2 true JP5012444B2 (ja) 2012-08-29

Family

ID=40814602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007295898A Active JP5012444B2 (ja) 2007-11-14 2007-11-14 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Country Status (1)

Country Link
JP (1) JP5012444B2 (ja)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10153998A (ja) * 1996-09-24 1998-06-09 Nippon Telegr & Teleph Corp <Ntt> 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置
JP3685648B2 (ja) * 1999-04-27 2005-08-24 三洋電機株式会社 音声合成方法及び音声合成装置、並びに音声合成装置を備えた電話機
JP2001034285A (ja) * 1999-07-16 2001-02-09 Fujitsu Ten Ltd はめ込み音声合成用文例テーブルデータベース及び文例テーブル生成方法
JP3560590B2 (ja) * 2001-03-08 2004-09-02 松下電器産業株式会社 韻律生成装置および韻律生成方法並びにプログラム
JP4542400B2 (ja) * 2004-09-15 2010-09-15 日本放送協会 韻律生成装置及び韻律生成プログラム
JP2006227363A (ja) * 2005-02-18 2006-08-31 Nhk Computer Service:Kk 放送音声用辞書作成装置および放送音声用辞書作成プログラム
JP4516863B2 (ja) * 2005-03-11 2010-08-04 株式会社ケンウッド 音声合成装置、音声合成方法及びプログラム
JP4403996B2 (ja) * 2005-03-29 2010-01-27 日本電気株式会社 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム
JP2007212884A (ja) * 2006-02-10 2007-08-23 Fujitsu Ltd 音声合成装置、音声合成方法、及びコンピュータプログラム
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置

Also Published As

Publication number Publication date
JP2009122382A (ja) 2009-06-04

Similar Documents

Publication Publication Date Title
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
JP5208352B2 (ja) 声調言語用分節声調モデリング
JP4054507B2 (ja) 音声情報処理方法および装置および記憶媒体
US20200410981A1 (en) Text-to-speech (tts) processing
US11763797B2 (en) Text-to-speech (TTS) processing
EP1221693A2 (en) Prosody template matching for text-to-speech systems
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2008545995A (ja) ハイブリッド音声合成装置、方法および用途
EP1668628A1 (en) Method for synthesizing speech
US10699695B1 (en) Text-to-speech (TTS) processing
WO2006106182A1 (en) Improving memory usage in text-to-speech system
US6212501B1 (en) Speech synthesis apparatus and method
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5328703B2 (ja) 韻律パターン生成装置
JP5012444B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP3378547B2 (ja) 音声認識方法及び装置
JP3485586B2 (ja) 音声合成方法
JP3397406B2 (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120508

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120521

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5012444

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150