JP2013160973A

JP2013160973A - 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法

Info

Publication number: JP2013160973A
Application number: JP2012023791A
Authority: JP
Inventors: Keigo Kawashima; 啓吾川島; Takahiro Otsuka; 貴弘大塚; Satoshi Furuta; 訓古田; Tadashi Yamaura; 正山浦
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-02-07
Filing date: 2012-02-07
Publication date: 2013-08-19
Anticipated expiration: 2032-02-07
Also published as: JP5998500B2

Abstract

【課題】入力されたテキスト文から、予め与えられた制限時間に対応する最適なポーズを挿入した中間言語情報を生成することを目的とする。
【解決手段】入力される中間言語情報にポーズが入りやすい位置の優先順位を決定し、予め与えられた合成音声の制限時間と、入力された中間言語情報の発声時間と、の差分をポーズ時間として算出し、ポーズが入りやすい位置の優先順位とポーズ時間からポーズの位置を決定するので、予め与えられた制限時間に対応する最適なポーズを挿入した中間言語情報を生成することができる。
【選択図】図１

Description

本発明は、テキスト文からポーズを考慮した合成音声を生成するための中間言語情報を生成する中間言語情報生成装置に関するものである。

従来の中間言語情報生成装置は、テキスト文の解析結果から、ポーズを除く合成音声の総時間長を計算し、この総時間長に従ってポーズの割合を制御し、ポーズ回数、ポーズ時間長、ポーズ位置を決定するものである。（特許文献１）

特開平０５−００６１９１号公報

合成音声の用途には、例えば放送用の音声など、テキスト文から生成した合成音声の時間長が予め定められた時間内に収まる必要がある場合や、組込み機器など、合成音声の出力先として指定されたバッファに出力可能なメモリ長が予め定められている場合がある。
しかし、特許文献１では、テキスト文の解析結果から合成音声の総時間長に対して、ポーズ時間長を決定するため、定められた時間長（メモリ長）を超えた合成音声が生成される場合があり、テキストの内容や話速を変えて合成音声を生成し直さなければならないという課題があった。

この発明に係る中間言語情報生成装置は、テキスト文を言語解析した中間言語情報が入力される入力部、該入力部から入力された中間言語情報に対してポーズの入りやすい１以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で決定されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部を備えたものである。

この発明は、入力される中間言語情報にポーズが入りやすい位置の優先順位を決定し、予め与えられた合成音声の制限時間と、入力された中間言語情報の発声時間と、の差分をポーズ時間として算出し、ポーズが入りやすい位置の優先順位とポーズ時間からポーズの位置を決定するので、予め与えられた制限時間に適応するポーズを挿入した中間言語情報を生成することができる。

この発明の実施の形態１における音声合成装置１の構成図である。この発明の実施の形態１における音声合成装置１の動作を示すフローチャートである。この発明の実施の形態１におけるポーズ挿入順序情報７を決定する処理を示す説明図である。この発明の実施の形態１におけるポーズ位置を決定する処理を示す説明図である。この発明の実施の形態２における音声合成装置１の構成図である。この発明の実施の形態２における音声合成装置１の動作を示すフローチャートである。

実施の形態１．
図１は、この発明の実施の形態１における中間言語生成装置で生成される中間言語情報を用いて合成音声を生成する音声合成装置１の構成図である。
合成音声装置１は、テキスト文２を取得して出力するテキスト文取得部３と、テキスト文取得部３からのテキスト文２が入力されて言語辞書４を用いて言語解析を行い生成した中間言語（中間言語情報）５を出力する言語解析部６と、言語解析部６から出力された中間言語５の区切りの位置でポーズが入りやすい位置とその位置の優先順位であるポーズ挿入順序情報（ポーズ優先順位情報）７を決定し、合成音声時間長取得部８から取得した合成音声の制限時間である最大時間長情報９と中間言語５の発声時間との差分を中間言語５のポーズ時間長（ポーズ時間）１０として算出し、この中間言語５のポーズ時間長１０とポーズ挿入順位情報７から中間言語５のポーズ位置１１を決定し、中間言語５にポーズを挿入したポーズ付与中間言語１２を出力するポーズ制御部１３と、ポーズ制御部１３から出力されたポーズ付与中間言語１２の韻律パラメータ１４を生成する韻律制御部１５と、ポーズ付与中間言語１２と韻律パラメータ１４から音声波形１６を生成し、生成した音声波形１６から合成音声１７を出力する波形生成部１８から構成される。
中間言語情報生成装置は、ポーズ制御部１３に相当する。

また、ポーズ制御部１３は、予め記憶され、中間言語５の区切りに挿入するポーズの入りやすさを求めるための情報であるポーズ挿入確率辞書（ポーズ挿入情報）１９を用いて、中間言語５の区切りに挿入するポーズの入りやすい位置とその位置の優先順位であるポーズ挿入順序情報（ポーズ優先順位情報）７を決定（生成）し出力するポーズ挿入順序決定部（ポーズ優先順位生成部）１３１と、最大時間長情報９と中間言語５の発声時間との差分を中間言語５のポーズ時間長１０として算出し、この中間言語５のポーズ時間長１０とポーズ挿入順序情報７から中間言語５のポーズ位置１１を決定するポーズ位置決定部１３２から構成される。

ポーズ位置決定部１３２は、最大時間長情報９と中間言語５の発声時間との差分を中間言語５のポーズ時間長（ポーズ時間）１０として算出するポーズ時間算出部１３２ａと、中間言語５のポーズ時間長１０とポーズ挿入順序情報７から中間言語５のポーズ位置１１を決定するポーズ位置決定部１３２ｂから構成するとしてもよい。

テキスト文取得部３は、合成音声を生成する対象となるテキスト文２（例えば、漢字かな混じり文）を取得して、言語解析部６へ出力する。
言語辞書４は、単語の読み方、品詞などの情報が登録されているデータである。
言語解析部６は、テキスト文取得部３から入力されたテキスト文２に対し、言語辞書４を参照して形態素解析、構文解析等の言語解析を実施する。

言語解析の結果、言語解析部６は、テキスト文２の形態素や単語、呼気フレーズの区切り、読み方、品詞、アクセント等を示す中間言語（中間言語情報）５を生成し、ポーズ制御部１３へ出力する。
なお、中間言語５には、前記の情報以外の言語解析に基づく情報を含めても良く、また、前記の情報の一部のみを利用しても良く、テキスト文２と同時に付帯情報を入力された場合には、それらを情報として含めても良い。

ポーズ制御部１３のポーズ挿入順序決定部１３１は、言語解析部６から入力された中間言語５の形態素区切り、読み方、品詞、アクセント等の情報を用いて、区切り（例えば形態素や単語、呼気フレーズ間等のいかなる形式の区切りであって、言語学的に区切れる位置であれば良い）におけるポーズの入りやすい位置の優先順位を示すポーズ挿入順序情報７を求め、中間言語５と共にポーズ位置決定部１３２へ出力する。

合成音声時間長取得部８は、生成された合成音声１７を予め設定される時間内に収まるようにする制限時間である最大時間長情報９をユーザからの入力により取得し、ポーズ位置決定部１３２へ出力する。
最大時間長情報９を取得する方法は、例えば、ＧＵＩにてユーザからの入力を受け付ける構成としても良く、予め合成音声の生成の対象となるテキスト文に対応した最大時間長情報９を蓄えたデータを用意して入力としても良く、固定の時間長を設定するようにしても良く、生成する合成音声１７の時間長（時間の長さ）に設定する最大の時間長（生成する合成音声１７の制限時間）が得られれば良い。

ポーズ制御部１３のポーズ位置決定部１３２は、合成音声時間長取得部８から入力された最大時間長情報９と中間言語５の発声時間から中間言語５のポーズ時間長１０を算出し、このポーズ時間長１０とポーズ挿入順序決定部１３１から入力されたポーズ挿入順序情報７を用い、合成音声１７のポーズの位置を設定し、中間言語５にポーズを反映したポーズ付与中間言語１２を生成して韻律制御部１５へ出力する。

韻律制御部１５は、ポーズ制御部１３から入力されたポーズ付与中間言語１２を用い、韻律パラメータ１４（例えばパワー、ピッチ周波数、韻律継続長等）を生成し、ポーズ付与中間言語１２と共に波形生成部１８へ出力する。
波形生成部１８は、韻律制御部１５から入力されたポーズ付与中間言語１２及び韻律パラメータ１４を用いて音声波形１６を生成し、得られた合成音声１７を出力する。

次に動作について説明する。
図２はこの発明の実施の形態１による音声合成装置１の動作を示すフローチャートである。
テキスト文取得部３にて、合成音声生成の対象となるテキスト文２の入力を受け付け、言語解析部６へ出力する（ステップＳＴ１）。
テキスト文取得部３については、ＧＵＩにてユーザからの入力を受け付ける構成としても良く、予め合成音声を生成する対象となるテキスト文を蓄えたデータを用意して入力としても良く、また、ストリームデータから入力しても良く、テキスト文が得られれば良い。

本実施の形態１ではテキスト文２の一例として漢字かな混じり文を用いているが、アルファベット、前記中間言語等のいかなる形式であってもよく、言語に関しても日本語に限らず英語、中国語等の日本語以外の言語であってもよい。
テキスト文２が前記中間言語である場合には、言語辞書４および言語解析部６は不要となるため、テキスト文取得部３、合成音声時間長取得部８、ポーズ制御部１３、韻律制御部１５、波形生成部１８で構成すればよい。

続くステップＳＴ２において言語解析部６が言語辞書４を参照して、テキスト文２に対する言語解析を実施し、中間言語５を出力する。なお、言語解析部６による言語解析処理は、入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよく、詳細な説明を省略する。

続くステップＳＴ３においてポーズ挿入順序決定部１３１が中間言語５を参照して、区切り（例えば形態素や単語、呼気フレーズ間等のいかなる形式の区切りであっても良く、予めポーズの挿入可能な位置を示した位置を区切り位置としても良い）毎のポーズの入りやすさを示すポーズ挿入順序情報７を出力する（ステップＳＴ３）。
尚、実施の形態１では、テキスト文が入力される合成音声装置１として説明するが、中間言語生成装置の場合は、ここで、中間言語情報である中間言語５が入力部から入力され、この中間言語５がポーズ挿入順序決定部１３１に入力されて処理される。

ステップＳＴ３のポーズ挿入順序決定処理の一例として、ポーズ挿入確率辞書１９を用意して先行及び後続の品詞情報を参照してポーズを挿入する優先順位を決定する処理を説明する。

図３は、ポーズ挿入順序決定部１３１のポーズ挿入順序情報７を決定する処理を示す説明図である。
図３に例示のポーズ挿入順序決定部１３１に入力される中間言語５の情報（中間言語情報）は、「食事を控えめに体重維持を心がけて下さい。」というテキスト文２に対して、「食事を」、「控え目に」、「体重維持を」、「心がけて」、「下さい」に区切られた句と、それらの読み、品詞、修飾、モーラ数情報が言語解析結果として得られたことを示している。

また、図３に例示のポーズ挿入確率辞書１９には、学習のために集めたテキスト文の中間言語５である表記（区切り）に対する読み、品詞、修飾、モーラ数といった句境界の環境毎に、ポーズ挿入確率（ポーズの入りやすさを表す値）が蓄積されている。
ここでは、句境界の環境として、先行品詞、先行モーラ数、後続品詞、後続モーラ数を用いている。
そして、ポーズ挿入順序決定部１３１では、図３に例示したポーズ挿入確率辞書１９を参照して、中間言語５の表記（区切り）に対する読み、品詞、修飾、モーラ数といった句境界の環境毎に、句境界の先行品詞、先行モーラ数、後続品詞、後続モーラ数の条件に一致するデータをポーズ挿入確率辞書１９から検索し、対応するポーズ挿入確率を得る。

そして、句境界毎に得られたポーズ挿入確率を比較し、確率の高い句境界の順にポーズ挿入順序の優先度であるポーズ挿入順序情報７を決定する。
図３の例では、「控え目に」と「体重管理を」との句境界のポーズ挿入確率が最も高いため、優先順序を１位と決定している。

図３の例では、ポーズ挿入確率を求める情報（句境界の環境）として、先行句の品詞、後続句の品詞、及びモーラ数情報を用いたが、先行句や後続句に限らず文章全体の情報を用いても良い。
また、修飾情報や係り受け情報、読み情報などの、他の言語解析結果に基づく情報や、発話内容の種類（「小説の読み上げ」、「天気予報の読み上げ」）などの言語解析結果以外の情報に基づいてポーズ挿入確率を決定しても良い。
また、ポーズ挿入確率辞書１９を用いず、その他の公知のポーズ挿入確率など求める手段を用いても良く、句境界の環境毎のポーズの入りやすさを示す値であればよい。

図３の例では、ポーズ挿入確率情報を用いてポーズ挿入順序情報７を決定したが、ポーズを入れることによる文章の聞き取り易さの改善度合いを表す情報を求めて利用しても良いし、「重要語の前」や「主語の後」などのルールに基づいてポーズ挿入順序情報７を決定しても良く、その他の公知の手法によるポーズ挿入順序情報７を決定する手段を用いても良い。
ここまでが、図２のステップＳＴ３でのポーズ挿入順序決定処理（ポーズを挿入する優先順位を決定する処理）の説明である。

図２に戻り、ステップＳＴ４においてポーズ位置決定部１３２は、合成音声時間長取得部８から入力された最大時間長情報９、及びポーズ挿入順序決定部１３１から入力されたポーズ挿入順序情報７を用いて、中間言語５にポーズを挿入し、ポーズ付与中間言語１２として出力する。

ステップＳＴ４のポーズ位置決定処理の例を説明する。
図４は、ポーズ位置決定部１３２のポーズ位置を決定する処理を示す説明図である。
ポーズ位置決定部１３２は、予め設定されている平均モーラ時間長（モーラ時間の平均の長さ）及びポーズ長（１つのポーズ時間の長さ）の情報を持ち、中間言語５から得られたモーラ数から、中間言語５の発声部分の時間長を計算する。
図４の例では、入力テキスト「食事を控え目に体重維持を心がけて下さい」に対し、言語解析結果から総モーラ数が２６モーラと得られ、予め与えられた設定値が平均モーラ時間長０．２（ｓ／モーラ）である場合、式（１）から、中間言語５の発生部分時間長（発声部分の時間長）が５．２（ｓ）と求められる。

発声部分時間長＝総モーラ数×平均モーラ時間長・・・式（１）
発声部分時間長＝２６（モーラ）×０．２（ｓ／モーラ）
＝５．２（ｓ）
設定値：平均モーラ時間長＝０．２（ｓ／モーラ）

次に、最大時間長情報９、中間言語５の発声部分時間長、及びポーズ長から挿入可能なポーズ挿入量であるポーズ挿入量（テキスト文の区切りに入るポーズの数）を求める。
ポーズ挿入量は、式（２）のように最大時間長情報９から発声部分時間長を減算した値をポーズ長で除算した値となる。
図４の例では、予め与えられた最大時間長情報９の最大時間長６（ｓ）、ポーズ長０．３（ｓ）、及び算出された発声部分時間長５．２（ｓ）からポーズ挿入量が２と求められる。

ポーズ挿入量＝(最大時間長−発声部分時間長)/ポーズ長・・・式（２）
ポーズ挿入量＝（６−５．２）／０．３
＝２
設定値：最大時間長＝６（ｓ）、ポーズ長＝０．３（ｓ）、発声部分時間長＝５．２（ｓ）

尚、この時、１つの区切りには、１つのポーズが入る。
また、ここではポーズ長が予め数値として与えられる例を示したが、中間言語５に挿入するポーズを表す記号を設定しておき、記号を変えることで後からポーズ長を設定して調整することもできる。
また、最大時間長＝発声部分時間長となる場合は、ポーズ挿入量が０（ゼロ）となり、ポーズは挿入されない。

このように、ポーズ挿入量を算出することにより、テキスト文全体の区切りにポーズが入る数を算出することができる。
最後に、ポーズ挿入順序情報７に従い、ポーズ挿入量が２個となるよう中間言語５にポーズを挿入する。
図４の例では、表記に読点でポーズ位置を表すと、「食事を控え目に、体重維持を、心がけて下さい」となる。
即ち、算出されたポーズ挿入量だけ、テキスト文の区切り毎のポーズが挿入されやすい優先順位の順にポーズの位置を決定する。

なお、図４の例では、ポーズ長が予め設定されているとしたが、例えば、ポーズ長とポーズ挿入量との対応情報を持ち、合成音声１７を生成する際にポーズ挿入量とポーズ長を決定するとしても良い。
その場合、ポーズ長とポーズ挿入量との対応情報を参照して、最大時間長情報９の最大時間長と中間言語５の発声部分時間長から求められるポーズの総時間に収まるように、ポーズ長とポーズ挿入量が決定される。そして、決定されたポーズ挿入量からポーズの位置が決定される。
また、ポーズ長をユーザが設定する手段を持っても良い。
また、話速に合わせてポーズ長を変化させてもよい。

なお、図４の例では、平均モーラ時間長（話速）が予め設定されているとしたが、例えば、ポーズ挿入量と話速の対応情報を持ち、最大時間長とポーズ長からポーズ挿入量と話速を決定するとしても良い。そして、決定されたポーズ挿入量からポーズの位置が決定される。
また、話速をユーザが設定する手段をもってもよい。
また、ポーズ長に合わせて話速を変化させても良い。

なお、図４の例では、最大時間長までポーズを挿入したが、最大時間長以内に収まる任意の量のポーズ挿入量を挿入するとしても良い。
また、最大時間長までポーズを挿入するとしたが、ユーザがポーズの挿入量を設定する手段を持ち、最大時間長を超えない量と前記のユーザの設定するポーズの挿入量の間で、小さい値の量だけポーズを挿入するとしても良い。また、前記ポーズの挿入量は、値を直接設定しても良いし、「多い」「少ない」などを設定し、対応する値をポーズの挿入量としても良い。

なお、本実施の形態１では、ポーズ挿入順序情報７として、ポーズの挿入順序（ポーズが入りやすい位置の優先順位）を用いたが、ポーズ挿入確率等の挿入順序に代替可能なポーズ挿入パラメータを用いても良く、ポーズ挿入パラメータがポーズ挿入可能な条件を満たしている場合には（例えば、ポーズ挿入パラメータが一定値（閾値）以上であることを条件とする場合など）、最大時間長情報９の最大時間長と中間言語５の発話時間から最大時間長に収まるポーズ挿入量（ポーズの数）を算出し、前記ポーズ挿入パラメータがポーズ挿入可能な条件を充たしている中間言語５の区切りの位置の中から、算出したポーズ挿入量の順にポーズ位置を決定してもよい。

なお、本実施の形態１では、合成音声時間長取得部８で最大時間長情報９を取得するとしたが、目標時間長情報２０を取得し、目標時間長に近い合成音声時間長（例えば、目標時間長の上下１０％に収まる合成音声時間長）となるように、目標時間長情報２０の目標時間長と中間言語５の発話時間からポーズ挿入量を算出し、ポーズの位置を決定してもよい。

なお、本実施の形態１では、合成音声時間長取得部８で最大時間長情報９を取得するとしたが、最小時間長情報２１を取得し、最小時間長を下回らないように、最小時間長情報２１と中間言語５の発話時間からポーズ挿入量を算出し、ポーズの位置を決定しても良い。

なお、図４の例では、最大時間長情報９を用いてポーズ挿入量を決定したが、ユーザなどにより合成音声装置１の外部（または中間言語生成装置の外部）からポーズ挿入量（ポーズの数）が設定されて、設定されたポーズの挿入量の分だけ、ポーズ挿入順序情報７のポーズが入る優先順位の順にポーズの位置を決定し、ポーズの総時間（ポーズ時間）と設定されたポーズ挿入量からポーズ長を決定するとしても良い。
例えば、設定された前記ポーズ挿入量の分だけポーズの位置を決定し、生成される合成音声時間長が最大時間長情報９と一致するように前記ポーズ長を伸縮するとしても良い。

なお、図４の例では、最大時間長情報９を用いてポーズ挿入量を決定したが、決定したポーズ挿入量に応じて、話速を調整しても良い。例えば、最大時間長以内に収まるように前記ポーズ挿入量を決定し、ポーズ付与中間言語１２で生成される合成音声時間長が最大時間長情報９と一致するように前記話速を変化させるとしても良い。

なお、図４の例では、最大時間長情報９を用いてポーズ挿入量を決定したが、前記ポーズ挿入量を決定してから、ポーズ長及び話速を調整するとしても良い。例えば、決定された前記ポーズ挿入量にて、前記ポーズ長が長すぎる、あるいは短すぎることにならないよう、一定値の範囲を超えないように前記ポーズ長の伸縮を行い、さらに、生成される合成音声時間長が最大時間長情報９と一致するように前記話速を変化させるとしても良い。

また、決定された前記ポーズ挿入量にて、前記話速が速すぎる、あるいは遅すぎることにならないよう、一定値の範囲を超えないように前記話速を変化させ、さらに、生成される合成音声時間長が最大時間長情報９と一致するように前記ポーズ長を伸縮するとしても良い。
また、決定された前記ポーズ挿入量にて、予め対応付けられた話速とポーズ長の組み合わせを変化させ、生成される合成音声時間長が最大時間長情報９と一致するようにしても良い。

なお、図４の例では、総モーラ数と平均モーラ時間長を用いて発声部分時間長を予測していたが、韻律制御部１５で生成された韻律パラメータ１４を入力として、韻律パラメータ１４内の発声部分時間長情報を予測された発声部分時間長の代わりに利用することで、ポーズ位置決定部１３２におけるポーズ位置決定処理を再度実施するようにしても良い。
ここまでが、図２のステップＳＴ４でのポーズ位置決定処理の説明である。

図２に戻り、続くステップＳＴ５において韻律制御部１５は、入力されたポーズ付与中間言語１２に対して韻律を設定し、その韻律パラメータ１４を出力する。
なお、韻律制御部１５における韻律パラメータの生成は、公知の技術を用いればよく、詳細な説明を省略する。
本実施の形態１では、入力されたポーズ付与中間言語１２に対して韻律を設定し、その韻律パラメータ１４を出力するという構成としたが、ポーズ付与中間言語１２を出力し、他の装置で韻律制御及び波形生成を行うとしても良い。その場合、韻律制御部１５および波形生成部１８は不要となるため、テキスト文取得部３、言語辞書４、言語解析部６、合成音声時間長取得部８、ポーズ制御部１３で構成すればよい。

続くステップＳＴ６において波形生成部１８は、ポーズ付与中間言語１２および韻律パラメータ１４を受けて波形生成を行い、合成音声１７を出力する。
なお、波形生成部１８における合成音声１７の波形生成処理は、「Ｄｉｐｈｏｎｅｓｙｎｔｈｅｓｉｓｕｓｉｎｇａｎｏｖｅｒｌａｐ−ａｄｄｔｅｃｈｎｉｑｕｅｆｏｒｓｐｅｅｃｈｗａｖｅｆｏｒｍｓｃｏｎｃａｔｅｎａｔｉｏｎ」（Ｆ．Ｊ．ＣｈａｒｐｅｎｔｉｅｒａｎｄＭ．Ｇ．Ｓｔｅｌｌａ、ＩＣＡＳＳＰ８６、ｐｐ．２０１５−２０１８、Ｔｏｋｙｏ、１９８６）にあげるＰＳＯＬＡ（ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＯｖｅｒＬａｐＡｄｄ）形式の規則合成音声方式等の公知の技術を用いればよく、詳細な説明を省略する。

本実施の形態１では、ポーズ付与中間言語１２および韻律パラメータ１４を受けて波形生成を行い、合成音声１７を出力するという構成としたが、ポーズ付与中間言語１２および韻律パラメータ１４を出力し、他の装置で波形生成を行うとしても良い。その場合、波形生成部１８は不要となるため、テキスト文取得部３、言語辞書４、言語解析部６、合成音声時間長取得部８、ポーズ制御部１３、韻律制御部１５で構成すればよい。

以上のように本実施の形態１では、合成音声１７の最大時間長（制限時間）を入力し、最大時間長を超えないように合成音声１７にポーズを挿入するように構成した。
これにより、出力する合成音声１７の時間長が最大時間長を超えない量（予め設定されるポーズ長のポーズの数）のポーズを挿入する構成としたため、出力可能な最大時間長を保障した範囲でのポーズの位置の制御が可能であるという効果がある。

例えば、カーナビで案内地点から所定の距離の位置で案内を開始する場合、案内地点までの距離と車速から案内するための時間が割当てられるため、その時間に合わせて適切なポーズが入った案内文の合成音声１７を生成することができる。
また、例えば、ハイウェイラジオの事故情報などで、決められた時間内に事故情報のテキスト文を音声にする必要がある場合、決められた時間内に収まり適切なポーズを入れた聞き取りやすい合成音声１７を生成することができる。

また、ユーザがポーズの挿入量（ポーズが入る数）を設定する手段を持つ構成とした場合には、ユーザの所望するポーズの挿入量の多さを反映したポーズ制御が可能であるという効果がある。

また、最大時間長情報９の代わりに目標時間長情報２０を取得する構成とした場合には、ユーザが望む時間長に近いポーズを挿入した合成音声１７が得られるという効果がある。

また、最大時間長情報９の代わりに最小時間長情報２１を取得する構成とした場合には、出力する合成音声１７の時間長が最小時間長を下回らないようにポーズを挿入するため、出力可能な最小時間長を保障した範囲でのポーズ制御が可能であるという効果がある。

また、ポーズ挿入順序情報７として、ポーズの挿入順序の代わりにポーズ挿入確率等の挿入順序に代替可能なポーズ挿入パラメータを用い、ポーズ挿入パラメータにポーズ挿入可能な条件が設定される構成とした場合には、ポーズを挿入することで聞き取りづらくなる区切り位置がポーズ挿入可能な位置となることはなく、ポーズが挿入されることで聞き取りづらくなることを防ぐことができる。あるいは、ポーズを挿入しないことで聞き取りづらくなる区切り位置はポーズ挿入可能な位置となるため、聞き取りづらくなることを防ぐことができる。この様に、合成音声１７の制限時間に収まる最適なポーズ制御が可能であるという効果がある。

また、最大時間長情報９を利用してポーズ挿入量を決定してからポーズ長を調整する構成とした場合には、最大時間長情報９に最適なポーズ挿入量を決定しても、ポーズを挿入した合成音声１７の総時間が最大時間長に満たない場合にも、ポーズ長を変更することにより話速を変えることなく、合成音声１７の時間長を最大時間長情報９により近く合わせられるという効果がある。
また、ポーズ長を短く設定することで挿入可能なポーズ挿入量を増やし、合成音声１７の聞き取り易さを改善できるという効果がある。

また、最大時間長情報９を利用してポーズ挿入量を決定してから話速を調整（変更）する構成とした場合には、重要語の強調や文意伝達のために特定のポーズ挿入位置を変更できない場合にも、特定のポーズ挿入位置以外のポーズ挿入順序情報７から決定したポーズ挿入量を用いてポーズ位置を決定し、最大時間長情報９に合わせて話速を更に調整することができるという効果がある。

また、最大時間長情報９を利用してポーズ挿入量を決定してから、ポーズ長及び話速を変更して調整する構成とした場合には、話速あるいはポーズ長の変化を抑えて、合成音声１７の時間長を最大時間長情報９に合わせられるという効果がある。

また、韻律パラメータ１４内の発声部分時間長情報を利用してポーズ位置決定部１３２におけるポーズ位置決定処理を再度実施する構成とした場合には、韻律パラメータ１４を利用しない場合と比べて、より精度の高い合成音声１７の時間長を想定したポーズ制御をすることが可能であり、合成音声１７の時間長を最大時間長情報９に合わせられるという効果がある。

実施の形態２．
以上の実施の形態１は、出力される合成音声１７の時間長を考慮して、ポーズ制御を行うようにしたものであるが、次に出力先として指定されたバッファに出力可能な合成音声１７のメモリ長を考慮して、ポーズ制御を行う実施形態を示す。

図５は、この発明の実施の形態２における音声合成装置１の構成図である。
音声合成装置１は、テキスト文取得部３、言語辞書４、言語解析部６、ポーズ制御部１３、韻律制御部１５、波形生成部１８、合成音声メモリ長取得部２２、合成音声時間長算出部２３から構成される。
合成音声メモリ長取得部（メモリ長取得部）２２は、生成する合成音声データを出力するメモリの出力可能なメモリ長（制限メモリ長）を示す出力可能合成音声メモリ長情報（メモリ情報）２４を取得し、合成音声時間長算出部２３に出力する。

合成音声時間長算出部（制限時間算出部）２３は、合成音声メモリ長取得部２２から入力された出力可能合成音声メモリ長情報２４を、生成された合成音声１７が収まる制限時間に換算し、出力可能合成音声時間長情報２５として出力する。
ポーズ位置決定部１３２は、合成音声時間長算出部２３から入力された出力可能合成音声時間長情報２５及び、ポーズ挿入順序決定部１３１から入力されたポーズ挿入順序情報７を用い、合成音声１７のポーズ位置を設定し、中間言語５にポーズ位置を反映したポーズ付与中間言語１２を生成して韻律制御部１５へ出力する。
その他の構成に関しては、前記実施の形態１と同様である。

次に動作について説明する。
図６は、この発明の実施の形態２における音声合成装置１の動作を示すフローチャートである。
ステップＳＴ３までは、実施の形態１の図３のフローチャートと同じ動作である。
ステップＳＴ３で、中間言語５を利用し、ポーズ挿入順序情報７を生成する。
次に、合成音声時間長算出部２３では、合成音声メモリ長取得部２２から入力された出力可能合成音声メモリ長情報２４の入力を用い、出力可能音声合成時間長情報Ｔ２５を式（３）により求め、ポーズ位置決定部１３２へ出力する（ステップＳＴ７）。

Ｔ＝Ｍ／（Ｆｓ×Ｂ）・・・式（３）
例えば、出力される合成音声１７のデータ形式がリニアＰＣＭであるとして
Ｔ：出力可能音声合成時間長情報
Ｍ：出力可能合成音声メモリ長情報
Ｆｓ：サンプリング周波数
Ｂ：ビートレート

例えば、Ｍ＝２４００Ｂｙｔｅ、Ｆｓ＝２４０００Ｈｚ、Ｂ＝１６ｂｉｔの場合、Ｔ＝０．５ｓが得られる。

なお、実施の形態２の例では、出力される合成音声１７のデータ形式をリニアＰＣＭとしたが、その他のいかなるデータ形式であっても良い。
また、出力可能音声合成時間長情報２５を求めるのに、サンプリング周波数、ビットレートを利用したが、出力される合成音声１７のデータ形式に依存し、出力可能音声合成時間長情報２５を求めるために必要な、いかなるパラメータ（例えば、データのヘッダ長など）を利用しても良い。
また、前記の出力可能音声合成時間長２５を求めるために必要なパラメータをユーザから入力する手段を持つ構成としても良い。

続くステップＳＴ８においてポーズ位置決定部１３２は、合成音声時間長算出部２３から入力された出力可能音声合成時間長情報２５、及びポーズ挿入順序決定部１３１から入力されたポーズ挿入順序情報７を用いて、中間言語５にポーズを挿入し、ポーズ付与中間言語１２として出力する。詳細な動作に関しては、実施の形態１におけるステップＳＴ４において、最大時間長情報９の代わりに出力可能音声合成時間長情報２５を入力した場合と同様である。

なお、中間言語５を合成音声１７した時に、出力可能音声合成時間長情報２５の出力可能音声合成時間長を超える場合（メモリに収まらない場合）、出力可能音声合成時間長に収まる範囲で、ポーズ挿入順序情報７に基づいて中間言語５のポーズが入りやすい位置で区切りを設けて、中間言語５を分割する。そして、その分割した２つの中間言語５に対して、それぞれ出力可能音声合成時間長を最大時間長情報９の最大時間長として、それぞれポーズが入りやすい位置を１つ以上決定するポーズ位置決定処理を行うようにしても良い。

これは、例えば、制限メモリ長に対して出力可能音声合成時間長が６０ｓであり、中間言語５を合成音声１７すると９０ｓとなるような場合、出力可能音声合成時間長の６０ｓの中で中間言語５のポーズが入りやすい位置で一度区切りを設けて、中間言語５を分割する。
この時、例えば、合成音声１７が５０ｓとなる中間言語５ａと、合成音声１７が４０ｓとなる中間言語５ｂに分割したとする。
これらの中間言語５ａと中間言語５ｂについて、それぞれ出力可能音声合成時間長の６０ｓを最大時間長として、それぞれポーズが入りやすい位置を１つ以上決定するポーズ位置決定処理を行うようにする。

このように、メモリ長を考慮してポーズが入りやすい位置で一度区切り、中間言語５を分割して、分割した中間言語５で更にポーズの位置を決定することもできる。
また、ポーズ挿入順序情報７に基づいて合成音声１７が分割される位置を決定する手段を持つ構成としても良い。
他の動作に関しては、前記実施の形態１と同様である。

以上のように本実施の形態２では、出力可能な合成音声１７のメモリ長を考慮して、ポーズ制御を行うように構成したので、組込み機器など、音声出力機器やソフトウェアに依存し、一度に出力可能な合成音声１７のメモリ長が限られている場合にも、合成音声１７の出力が途切れないように、合成音声１７の生成が可能であるという効果がある。

また、メモリ長を考慮して、メモリ長に収まる範囲で、ポーズ挿入順序情報７に基づいてポーズが入りやすい位置で一度分割し、分割した中間言語５についてそれぞれメモリ長を考慮した１つ以上のポーズが挿入されるようにポーズ位置決定処理を行うことにより、長文であっても、単語の途中などの不適切な位置でポーズが挿入されて合成音声１７の出力が途切れることがないように、適切な位置にポーズが付与された合成音声１７の生成が可能であるという効果がある。

また、メモリ長を考慮して、メモリ長に収まる範囲で一度分割する際に、ポーズ挿入順序情報７に基づいて分割するので、分割することによって合成音声１７の出力が途切れても聞き取り易さの劣化が少ないという効果がある。

１音声合成装置、２テキスト文、３テキスト文取得部、４言語辞書、５中間言語、６言語解析部、７ポーズ挿入順序情報、８合成音声時間長取得部、９最大時間長情報、１０ポーズ時間長、１１ポーズ位置、１２ポーズ付与中間言語、１３ポーズ制御部、１４韻律パラメータ、１５韻律制御部、１６音声波形、１７合成音声、１８波形生成部、１９ポーズ挿入確率辞書、２０目標時間長情報、２１最小時間長情報、２２合成音声メモリ長取得部、２３合成音声時間長算出部、２４出力可能合成音声メモリ長情報、２５出力可能合成音声時間長情報、１３１ポーズ挿入順序決定部、１３２ポーズ位置決定部。

Claims

テキスト文を言語解析した中間言語情報が入力される入力部、
該入力部から入力された中間言語情報に対してポーズの入りやすい１以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、
予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、
該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で生成されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、
該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部、
を備えたことを特徴とする中間言語情報生成装置。
前記ポーズ位置決定部は、予め与えられた１のポーズの時間であるポーズ長に基づいて、前記中間言語のポーズ位置を決定することを特徴とする請求項１に記載の中間言語情報生成装置。
前記ポーズ優先順位情報生成部は、予め記憶され、中間言語情報について句境界の環境毎にポーズの入りやすさを表すポーズ挿入確率に基づいて、前記ポーズ優先順位情報を生成することを特徴とする請求項１に記載の中間言語情報生成装置。
前記ポーズ優先順位情報生成部は、一定の閾値を超えたポーズ挿入確率に対応した位置についてポーズ優先順位情報を生成することを特徴とする請求項３に記載の中間言語情報生成装置。
前記中間言語情報の合成音声を記憶するメモリの容量であるメモリ長を取得するメモリ長取得部、
前記メモリ長取得部によって取得したメモリ長に基づいて前記メモリに記憶することができる合成音声の制限時間を算出する制限時間算出部、を更に備え、
前記ポーズ時間算出部は、前記制限時間算出部で算出された合成音声の制限時間からポーズ時間を算出することを特徴とする前記請求項１〜４記載のいずれかに記載の中間言語情報生成装置。
前記入力部から入力された中間言語情報の発声時間が前記制限時間算出部で算出した合成音声の制限時間よりも長い場合、
前記ポーズ時間算出部は、前記制限時間算出部で算出した合成音声の制限時間と予め記憶された前記ポーズ挿入情報とに基づいて前記中間言語情報を分割し、該分割した前記中間言語情報の各々について、前記制限時間算出部で算出した合成音声の制限時間と、の差分から前記分割した各中間言語情報に挿入するポーズ時間を算出することを特徴とする請求項５記載の中間言語情報生成装置。
テキスト文を言語解析した中間言語情報が入力される入力部、
該記入力部から入力された中間言語情報に対してポーズの入りやすい１以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、
予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、
該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で決定されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、
該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部を備え、前記ポーズ位置を反映した中間言語情報を用いて合成音声を生成することを特徴とする音声合成装置。
中間言語情報生成装置によりテキスト文の合成音声を生成するための中間言語情報を生成する中間言語情報生成方法において、
テキスト文を言語解析した中間言語情報が入力される入力ステップ、
該記入力ステップで入力された中間言語情報に対してポーズの入りやすい１以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成ステップ、
予め与えられた合成音声の制限時間と、前記入力ステップで入力された中間言語情報の発声時間と、の差分を前記入力ステップで入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出ステップ、
該ポーズ時間算出ステップで算出されたポーズ時間と、前記ポーズ優先順位生成ステップで生成されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定ステップ、
該ポーズ位置決定ステップで決定したポーズ位置を反映した前記中間言語情報を出力する出力ステップ、
を備えたことと特徴とする中間言語情報生成方法。