JP2013160973A - 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 - Google Patents

中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 Download PDF

Info

Publication number
JP2013160973A
JP2013160973A JP2012023791A JP2012023791A JP2013160973A JP 2013160973 A JP2013160973 A JP 2013160973A JP 2012023791 A JP2012023791 A JP 2012023791A JP 2012023791 A JP2012023791 A JP 2012023791A JP 2013160973 A JP2013160973 A JP 2013160973A
Authority
JP
Japan
Prior art keywords
pause
intermediate language
pose
information
language information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012023791A
Other languages
English (en)
Other versions
JP5998500B2 (ja
Inventor
Keigo Kawashima
啓吾 川島
Takahiro Otsuka
貴弘 大塚
Satoshi Furuta
訓 古田
Tadashi Yamaura
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2012023791A priority Critical patent/JP5998500B2/ja
Publication of JP2013160973A publication Critical patent/JP2013160973A/ja
Application granted granted Critical
Publication of JP5998500B2 publication Critical patent/JP5998500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 入力されたテキスト文から、予め与えられた制限時間に対応する最適なポーズを挿入した中間言語情報を生成することを目的とする。
【解決手段】 入力される中間言語情報にポーズが入りやすい位置の優先順位を決定し、予め与えられた合成音声の制限時間と、入力された中間言語情報の発声時間と、の差分をポーズ時間として算出し、ポーズが入りやすい位置の優先順位とポーズ時間からポーズの位置を決定するので、予め与えられた制限時間に対応する最適なポーズを挿入した中間言語情報を生成することができる。
【選択図】 図1

Description

本発明は、テキスト文からポーズを考慮した合成音声を生成するための中間言語情報を生成する中間言語情報生成装置に関するものである。
従来の中間言語情報生成装置は、テキスト文の解析結果から、ポーズを除く合成音声の総時間長を計算し、この総時間長に従ってポーズの割合を制御し、ポーズ回数、ポーズ時間長、ポーズ位置を決定するものである。(特許文献1)
特開平05−006191号公報
合成音声の用途には、例えば放送用の音声など、テキスト文から生成した合成音声の時間長が予め定められた時間内に収まる必要がある場合や、組込み機器など、合成音声の出力先として指定されたバッファに出力可能なメモリ長が予め定められている場合がある。
しかし、特許文献1では、テキスト文の解析結果から合成音声の総時間長に対して、ポーズ時間長を決定するため、定められた時間長(メモリ長)を超えた合成音声が生成される場合があり、テキストの内容や話速を変えて合成音声を生成し直さなければならないという課題があった。
この発明に係る中間言語情報生成装置は、テキスト文を言語解析した中間言語情報が入力される入力部、該入力部から入力された中間言語情報に対してポーズの入りやすい1以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で決定されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部を備えたものである。
この発明は、入力される中間言語情報にポーズが入りやすい位置の優先順位を決定し、予め与えられた合成音声の制限時間と、入力された中間言語情報の発声時間と、の差分をポーズ時間として算出し、ポーズが入りやすい位置の優先順位とポーズ時間からポーズの位置を決定するので、予め与えられた制限時間に適応するポーズを挿入した中間言語情報を生成することができる。
この発明の実施の形態1における音声合成装置1の構成図である。 この発明の実施の形態1における音声合成装置1の動作を示すフローチャートである。 この発明の実施の形態1におけるポーズ挿入順序情報7を決定する処理を示す説明図である。 この発明の実施の形態1におけるポーズ位置を決定する処理を示す説明図である。 この発明の実施の形態2における音声合成装置1の構成図である。 この発明の実施の形態2における音声合成装置1の動作を示すフローチャートである。
実施の形態1.
図1は、この発明の実施の形態1における中間言語生成装置で生成される中間言語情報を用いて合成音声を生成する音声合成装置1の構成図である。
合成音声装置1は、テキスト文2を取得して出力するテキスト文取得部3と、テキスト文取得部3からのテキスト文2が入力されて言語辞書4を用いて言語解析を行い生成した中間言語(中間言語情報)5を出力する言語解析部6と、言語解析部6から出力された中間言語5の区切りの位置でポーズが入りやすい位置とその位置の優先順位であるポーズ挿入順序情報(ポーズ優先順位情報)7を決定し、合成音声時間長取得部8から取得した合成音声の制限時間である最大時間長情報9と中間言語5の発声時間との差分を中間言語5のポーズ時間長(ポーズ時間)10として算出し、この中間言語5のポーズ時間長10とポーズ挿入順位情報7から中間言語5のポーズ位置11を決定し、中間言語5にポーズを挿入したポーズ付与中間言語12を出力するポーズ制御部13と、ポーズ制御部13から出力されたポーズ付与中間言語12の韻律パラメータ14を生成する韻律制御部15と、ポーズ付与中間言語12と韻律パラメータ14から音声波形16を生成し、生成した音声波形16から合成音声17を出力する波形生成部18から構成される。
中間言語情報生成装置は、ポーズ制御部13に相当する。
また、ポーズ制御部13は、予め記憶され、中間言語5の区切りに挿入するポーズの入りやすさを求めるための情報であるポーズ挿入確率辞書(ポーズ挿入情報)19を用いて、中間言語5の区切りに挿入するポーズの入りやすい位置とその位置の優先順位であるポーズ挿入順序情報(ポーズ優先順位情報)7を決定(生成)し出力するポーズ挿入順序決定部(ポーズ優先順位生成部)131と、最大時間長情報9と中間言語5の発声時間との差分を中間言語5のポーズ時間長10として算出し、この中間言語5のポーズ時間長10とポーズ挿入順序情報7から中間言語5のポーズ位置11を決定するポーズ位置決定部132から構成される。
ポーズ位置決定部132は、最大時間長情報9と中間言語5の発声時間との差分を中間言語5のポーズ時間長(ポーズ時間)10として算出するポーズ時間算出部132aと、中間言語5のポーズ時間長10とポーズ挿入順序情報7から中間言語5のポーズ位置11を決定するポーズ位置決定部132bから構成するとしてもよい。
テキスト文取得部3は、合成音声を生成する対象となるテキスト文2(例えば、漢字かな混じり文)を取得して、言語解析部6へ出力する。
言語辞書4は、単語の読み方、品詞などの情報が登録されているデータである。
言語解析部6は、テキスト文取得部3から入力されたテキスト文2に対し、言語辞書4を参照して形態素解析、構文解析等の言語解析を実施する。
言語解析の結果、言語解析部6は、テキスト文2の形態素や単語、呼気フレーズの区切り、読み方、品詞、アクセント等を示す中間言語(中間言語情報)5を生成し、ポーズ制御部13へ出力する。
なお、中間言語5には、前記の情報以外の言語解析に基づく情報を含めても良く、また、前記の情報の一部のみを利用しても良く、テキスト文2と同時に付帯情報を入力された場合には、それらを情報として含めても良い。
ポーズ制御部13のポーズ挿入順序決定部131は、言語解析部6から入力された中間言語5の形態素区切り、読み方、品詞、アクセント等の情報を用いて、区切り(例えば形態素や単語、呼気フレーズ間等のいかなる形式の区切りであって、言語学的に区切れる位置であれば良い)におけるポーズの入りやすい位置の優先順位を示すポーズ挿入順序情報7を求め、中間言語5と共にポーズ位置決定部132へ出力する。
合成音声時間長取得部8は、生成された合成音声17を予め設定される時間内に収まるようにする制限時間である最大時間長情報9をユーザからの入力により取得し、ポーズ位置決定部132へ出力する。
最大時間長情報9を取得する方法は、例えば、GUIにてユーザからの入力を受け付ける構成としても良く、予め合成音声の生成の対象となるテキスト文に対応した最大時間長情報9を蓄えたデータを用意して入力としても良く、固定の時間長を設定するようにしても良く、生成する合成音声17の時間長(時間の長さ)に設定する最大の時間長(生成する合成音声17の制限時間)が得られれば良い。
ポーズ制御部13のポーズ位置決定部132は、合成音声時間長取得部8から入力された最大時間長情報9と中間言語5の発声時間から中間言語5のポーズ時間長10を算出し、このポーズ時間長10とポーズ挿入順序決定部131から入力されたポーズ挿入順序情報7を用い、合成音声17のポーズの位置を設定し、中間言語5にポーズを反映したポーズ付与中間言語12を生成して韻律制御部15へ出力する。
韻律制御部15は、ポーズ制御部13から入力されたポーズ付与中間言語12を用い、韻律パラメータ14(例えばパワー、ピッチ周波数、韻律継続長等)を生成し、ポーズ付与中間言語12と共に波形生成部18へ出力する。
波形生成部18は、韻律制御部15から入力されたポーズ付与中間言語12及び韻律パラメータ14を用いて音声波形16を生成し、得られた合成音声17を出力する。
次に動作について説明する。
図2はこの発明の実施の形態1による音声合成装置1の動作を示すフローチャートである。
テキスト文取得部3にて、合成音声生成の対象となるテキスト文2の入力を受け付け、言語解析部6へ出力する(ステップST1)。
テキスト文取得部3については、GUIにてユーザからの入力を受け付ける構成としても良く、予め合成音声を生成する対象となるテキスト文を蓄えたデータを用意して入力としても良く、また、ストリームデータから入力しても良く、テキスト文が得られれば良い。
本実施の形態1ではテキスト文2の一例として漢字かな混じり文を用いているが、アルファベット、前記中間言語等のいかなる形式であってもよく、言語に関しても日本語に限らず英語、中国語等の日本語以外の言語であってもよい。
テキスト文2が前記中間言語である場合には、言語辞書4および言語解析部6は不要となるため、テキスト文取得部3、合成音声時間長取得部8、ポーズ制御部13、韻律制御部15、波形生成部18で構成すればよい。
続くステップST2において言語解析部6が言語辞書4を参照して、テキスト文2に対する言語解析を実施し、中間言語5を出力する。なお、言語解析部6による言語解析処理は、入力されたテキスト文の形式および言語の種類に対応した公知の解析処理を用いればよく、詳細な説明を省略する。
続くステップST3においてポーズ挿入順序決定部131が中間言語5を参照して、区切り(例えば形態素や単語、呼気フレーズ間等のいかなる形式の区切りであっても良く、予めポーズの挿入可能な位置を示した位置を区切り位置としても良い)毎のポーズの入りやすさを示すポーズ挿入順序情報7を出力する(ステップST3)。
尚、実施の形態1では、テキスト文が入力される合成音声装置1として説明するが、中間言語生成装置の場合は、ここで、中間言語情報である中間言語5が入力部から入力され、この中間言語5がポーズ挿入順序決定部131に入力されて処理される。
ステップST3のポーズ挿入順序決定処理の一例として、ポーズ挿入確率辞書19を用意して先行及び後続の品詞情報を参照してポーズを挿入する優先順位を決定する処理を説明する。
図3は、ポーズ挿入順序決定部131のポーズ挿入順序情報7を決定する処理を示す説明図である。
図3に例示のポーズ挿入順序決定部131に入力される中間言語5の情報(中間言語情報)は、「食事を控えめに体重維持を心がけて下さい。」というテキスト文2に対して、「食事を」、「控え目に」、「体重維持を」、「心がけて」、「下さい」に区切られた句と、それらの読み、品詞、修飾、モーラ数情報が言語解析結果として得られたことを示している。
また、図3に例示のポーズ挿入確率辞書19には、学習のために集めたテキスト文の中間言語5である表記(区切り)に対する読み、品詞、修飾、モーラ数といった句境界の環境毎に、ポーズ挿入確率(ポーズの入りやすさを表す値)が蓄積されている。
ここでは、句境界の環境として、先行品詞、先行モーラ数、後続品詞、後続モーラ数を用いている。
そして、ポーズ挿入順序決定部131では、図3に例示したポーズ挿入確率辞書19を参照して、中間言語5の表記(区切り)に対する読み、品詞、修飾、モーラ数といった句境界の環境毎に、句境界の先行品詞、先行モーラ数、後続品詞、後続モーラ数の条件に一致するデータをポーズ挿入確率辞書19から検索し、対応するポーズ挿入確率を得る。
そして、句境界毎に得られたポーズ挿入確率を比較し、確率の高い句境界の順にポーズ挿入順序の優先度であるポーズ挿入順序情報7を決定する。
図3の例では、「控え目に」と「体重管理を」との句境界のポーズ挿入確率が最も高いため、優先順序を1位と決定している。
図3の例では、ポーズ挿入確率を求める情報(句境界の環境)として、先行句の品詞、後続句の品詞、及びモーラ数情報を用いたが、先行句や後続句に限らず文章全体の情報を用いても良い。
また、修飾情報や係り受け情報、読み情報などの、他の言語解析結果に基づく情報や、発話内容の種類(「小説の読み上げ」、「天気予報の読み上げ」)などの言語解析結果以外の情報に基づいてポーズ挿入確率を決定しても良い。
また、ポーズ挿入確率辞書19を用いず、その他の公知のポーズ挿入確率など求める手段を用いても良く、句境界の環境毎のポーズの入りやすさを示す値であればよい。
図3の例では、ポーズ挿入確率情報を用いてポーズ挿入順序情報7を決定したが、ポーズを入れることによる文章の聞き取り易さの改善度合いを表す情報を求めて利用しても良いし、「重要語の前」や「主語の後」などのルールに基づいてポーズ挿入順序情報7を決定しても良く、その他の公知の手法によるポーズ挿入順序情報7を決定する手段を用いても良い。
ここまでが、図2のステップST3でのポーズ挿入順序決定処理(ポーズを挿入する優先順位を決定する処理)の説明である。
図2に戻り、ステップST4においてポーズ位置決定部132は、合成音声時間長取得部8から入力された最大時間長情報9、及びポーズ挿入順序決定部131から入力されたポーズ挿入順序情報7を用いて、中間言語5にポーズを挿入し、ポーズ付与中間言語12として出力する。
ステップST4のポーズ位置決定処理の例を説明する。
図4は、ポーズ位置決定部132のポーズ位置を決定する処理を示す説明図である。
ポーズ位置決定部132は、予め設定されている平均モーラ時間長(モーラ時間の平均の長さ)及びポーズ長(1つのポーズ時間の長さ)の情報を持ち、中間言語5から得られたモーラ数から、中間言語5の発声部分の時間長を計算する。
図4の例では、入力テキスト「食事を控え目に体重維持を心がけて下さい」に対し、言語解析結果から総モーラ数が26モーラと得られ、予め与えられた設定値が平均モーラ時間長0.2(s/モーラ)である場合、式(1)から、中間言語5の発生部分時間長(発声部分の時間長)が5.2(s)と求められる。
発声部分時間長=総モーラ数×平均モーラ時間長 ・・・ 式(1)
発声部分時間長=26(モーラ)×0.2(s/モーラ)
=5.2(s)
設定値:平均モーラ時間長=0.2(s/モーラ)
次に、最大時間長情報9、中間言語5の発声部分時間長、及びポーズ長から挿入可能なポーズ挿入量であるポーズ挿入量(テキスト文の区切りに入るポーズの数)を求める。
ポーズ挿入量は、式(2)のように最大時間長情報9から発声部分時間長を減算した値をポーズ長で除算した値となる。
図4の例では、予め与えられた最大時間長情報9の最大時間長6(s)、ポーズ長0.3(s)、及び算出された発声部分時間長5.2(s)からポーズ挿入量が2と求められる。
ポーズ挿入量=(最大時間長−発声部分時間長)/ポーズ長 ・・・ 式(2)
ポーズ挿入量=(6−5.2)/0.3
=2
設定値:最大時間長=6(s)、ポーズ長=0.3(s)、発声部分時間長=5.2(s)
尚、この時、1つの区切りには、1つのポーズが入る。
また、ここではポーズ長が予め数値として与えられる例を示したが、中間言語5に挿入するポーズを表す記号を設定しておき、記号を変えることで後からポーズ長を設定して調整することもできる。
また、最大時間長=発声部分時間長となる場合は、ポーズ挿入量が0(ゼロ)となり、ポーズは挿入されない。
このように、ポーズ挿入量を算出することにより、テキスト文全体の区切りにポーズが入る数を算出することができる。
最後に、ポーズ挿入順序情報7に従い、ポーズ挿入量が2個となるよう中間言語5にポーズを挿入する。
図4の例では、表記に読点でポーズ位置を表すと、「食事を控え目に、体重維持を、心がけて下さい」となる。
即ち、算出されたポーズ挿入量だけ、テキスト文の区切り毎のポーズが挿入されやすい優先順位の順にポーズの位置を決定する。
なお、図4の例では、ポーズ長が予め設定されているとしたが、例えば、ポーズ長とポーズ挿入量との対応情報を持ち、合成音声17を生成する際にポーズ挿入量とポーズ長を決定するとしても良い。
その場合、ポーズ長とポーズ挿入量との対応情報を参照して、最大時間長情報9の最大時間長と中間言語5の発声部分時間長から求められるポーズの総時間に収まるように、ポーズ長とポーズ挿入量が決定される。そして、決定されたポーズ挿入量からポーズの位置が決定される。
また、ポーズ長をユーザが設定する手段を持っても良い。
また、話速に合わせてポーズ長を変化させてもよい。
なお、図4の例では、平均モーラ時間長(話速)が予め設定されているとしたが、例えば、ポーズ挿入量と話速の対応情報を持ち、最大時間長とポーズ長からポーズ挿入量と話速を決定するとしても良い。そして、決定されたポーズ挿入量からポーズの位置が決定される。
また、話速をユーザが設定する手段をもってもよい。
また、ポーズ長に合わせて話速を変化させても良い。
なお、図4の例では、最大時間長までポーズを挿入したが、最大時間長以内に収まる任意の量のポーズ挿入量を挿入するとしても良い。
また、最大時間長までポーズを挿入するとしたが、ユーザがポーズの挿入量を設定する手段を持ち、最大時間長を超えない量と前記のユーザの設定するポーズの挿入量の間で、小さい値の量だけポーズを挿入するとしても良い。また、前記ポーズの挿入量は、値を直接設定しても良いし、「多い」「少ない」などを設定し、対応する値をポーズの挿入量としても良い。
なお、本実施の形態1では、ポーズ挿入順序情報7として、ポーズの挿入順序(ポーズが入りやすい位置の優先順位)を用いたが、ポーズ挿入確率等の挿入順序に代替可能なポーズ挿入パラメータを用いても良く、ポーズ挿入パラメータがポーズ挿入可能な条件を満たしている場合には(例えば、ポーズ挿入パラメータが一定値(閾値)以上であることを条件とする場合など)、最大時間長情報9の最大時間長と中間言語5の発話時間から最大時間長に収まるポーズ挿入量(ポーズの数)を算出し、前記ポーズ挿入パラメータがポーズ挿入可能な条件を充たしている中間言語5の区切りの位置の中から、算出したポーズ挿入量の順にポーズ位置を決定してもよい。
なお、本実施の形態1では、合成音声時間長取得部8で最大時間長情報9を取得するとしたが、目標時間長情報20を取得し、目標時間長に近い合成音声時間長(例えば、目標時間長の上下10%に収まる合成音声時間長)となるように、目標時間長情報20の目標時間長と中間言語5の発話時間からポーズ挿入量を算出し、ポーズの位置を決定してもよい。
なお、本実施の形態1では、合成音声時間長取得部8で最大時間長情報9を取得するとしたが、最小時間長情報21を取得し、最小時間長を下回らないように、最小時間長情報21と中間言語5の発話時間からポーズ挿入量を算出し、ポーズの位置を決定しても良い。
なお、図4の例では、最大時間長情報9を用いてポーズ挿入量を決定したが、ユーザなどにより合成音声装置1の外部(または中間言語生成装置の外部)からポーズ挿入量(ポーズの数)が設定されて、設定されたポーズの挿入量の分だけ、ポーズ挿入順序情報7のポーズが入る優先順位の順にポーズの位置を決定し、ポーズの総時間(ポーズ時間)と設定されたポーズ挿入量からポーズ長を決定するとしても良い。
例えば、設定された前記ポーズ挿入量の分だけポーズの位置を決定し、生成される合成音声時間長が最大時間長情報9と一致するように前記ポーズ長を伸縮するとしても良い。
なお、図4の例では、最大時間長情報9を用いてポーズ挿入量を決定したが、決定したポーズ挿入量に応じて、話速を調整しても良い。例えば、最大時間長以内に収まるように前記ポーズ挿入量を決定し、ポーズ付与中間言語12で生成される合成音声時間長が最大時間長情報9と一致するように前記話速を変化させるとしても良い。
なお、図4の例では、最大時間長情報9を用いてポーズ挿入量を決定したが、前記ポーズ挿入量を決定してから、ポーズ長及び話速を調整するとしても良い。例えば、決定された前記ポーズ挿入量にて、前記ポーズ長が長すぎる、あるいは短すぎることにならないよう、一定値の範囲を超えないように前記ポーズ長の伸縮を行い、さらに、生成される合成音声時間長が最大時間長情報9と一致するように前記話速を変化させるとしても良い。
また、決定された前記ポーズ挿入量にて、前記話速が速すぎる、あるいは遅すぎることにならないよう、一定値の範囲を超えないように前記話速を変化させ、さらに、生成される合成音声時間長が最大時間長情報9と一致するように前記ポーズ長を伸縮するとしても良い。
また、決定された前記ポーズ挿入量にて、予め対応付けられた話速とポーズ長の組み合わせを変化させ、生成される合成音声時間長が最大時間長情報9と一致するようにしても良い。
なお、図4の例では、総モーラ数と平均モーラ時間長を用いて発声部分時間長を予測していたが、韻律制御部15で生成された韻律パラメータ14を入力として、韻律パラメータ14内の発声部分時間長情報を予測された発声部分時間長の代わりに利用することで、ポーズ位置決定部132におけるポーズ位置決定処理を再度実施するようにしても良い。
ここまでが、図2のステップST4でのポーズ位置決定処理の説明である。
図2に戻り、続くステップST5において韻律制御部15は、入力されたポーズ付与中間言語12に対して韻律を設定し、その韻律パラメータ14を出力する。
なお、韻律制御部15における韻律パラメータの生成は、公知の技術を用いればよく、詳細な説明を省略する。
本実施の形態1では、入力されたポーズ付与中間言語12に対して韻律を設定し、その韻律パラメータ14を出力するという構成としたが、ポーズ付与中間言語12を出力し、他の装置で韻律制御及び波形生成を行うとしても良い。その場合、韻律制御部15および波形生成部18は不要となるため、テキスト文取得部3、言語辞書4、言語解析部6、合成音声時間長取得部8、ポーズ制御部13で構成すればよい。
続くステップST6において波形生成部18は、ポーズ付与中間言語12および韻律パラメータ14を受けて波形生成を行い、合成音声17を出力する。
なお、波形生成部18における合成音声17の波形生成処理は、「Diphone synthesis using an overlap−add technique for speech waveforms concatenation」(F.J.Charpentier and M.G.Stella、ICASSP86、pp.2015−2018、Tokyo、1986)にあげるPSOLA(Pitch Synchronous OverLap Add)形式の規則合成音声方式等の公知の技術を用いればよく、詳細な説明を省略する。
本実施の形態1では、ポーズ付与中間言語12および韻律パラメータ14を受けて波形生成を行い、合成音声17を出力するという構成としたが、ポーズ付与中間言語12および韻律パラメータ14を出力し、他の装置で波形生成を行うとしても良い。その場合、波形生成部18は不要となるため、テキスト文取得部3、言語辞書4、言語解析部6、合成音声時間長取得部8、ポーズ制御部13、韻律制御部15で構成すればよい。
以上のように本実施の形態1では、合成音声17の最大時間長(制限時間)を入力し、最大時間長を超えないように合成音声17にポーズを挿入するように構成した。
これにより、出力する合成音声17の時間長が最大時間長を超えない量(予め設定されるポーズ長のポーズの数)のポーズを挿入する構成としたため、出力可能な最大時間長を保障した範囲でのポーズの位置の制御が可能であるという効果がある。
例えば、カーナビで案内地点から所定の距離の位置で案内を開始する場合、案内地点までの距離と車速から案内するための時間が割当てられるため、その時間に合わせて適切なポーズが入った案内文の合成音声17を生成することができる。
また、例えば、ハイウェイラジオの事故情報などで、決められた時間内に事故情報のテキスト文を音声にする必要がある場合、決められた時間内に収まり適切なポーズを入れた聞き取りやすい合成音声17を生成することができる。
また、ユーザがポーズの挿入量(ポーズが入る数)を設定する手段を持つ構成とした場合には、ユーザの所望するポーズの挿入量の多さを反映したポーズ制御が可能であるという効果がある。
また、最大時間長情報9の代わりに目標時間長情報20を取得する構成とした場合には、ユーザが望む時間長に近いポーズを挿入した合成音声17が得られるという効果がある。
また、最大時間長情報9の代わりに最小時間長情報21を取得する構成とした場合には、出力する合成音声17の時間長が最小時間長を下回らないようにポーズを挿入するため、出力可能な最小時間長を保障した範囲でのポーズ制御が可能であるという効果がある。
また、ポーズ挿入順序情報7として、ポーズの挿入順序の代わりにポーズ挿入確率等の挿入順序に代替可能なポーズ挿入パラメータを用い、ポーズ挿入パラメータにポーズ挿入可能な条件が設定される構成とした場合には、ポーズを挿入することで聞き取りづらくなる区切り位置がポーズ挿入可能な位置となることはなく、ポーズが挿入されることで聞き取りづらくなることを防ぐことができる。あるいは、ポーズを挿入しないことで聞き取りづらくなる区切り位置はポーズ挿入可能な位置となるため、聞き取りづらくなることを防ぐことができる。この様に、合成音声17の制限時間に収まる最適なポーズ制御が可能であるという効果がある。
また、最大時間長情報9を利用してポーズ挿入量を決定してからポーズ長を調整する構成とした場合には、最大時間長情報9に最適なポーズ挿入量を決定しても、ポーズを挿入した合成音声17の総時間が最大時間長に満たない場合にも、ポーズ長を変更することにより話速を変えることなく、合成音声17の時間長を最大時間長情報9により近く合わせられるという効果がある。
また、ポーズ長を短く設定することで挿入可能なポーズ挿入量を増やし、合成音声17の聞き取り易さを改善できるという効果がある。
また、最大時間長情報9を利用してポーズ挿入量を決定してから話速を調整(変更)する構成とした場合には、重要語の強調や文意伝達のために特定のポーズ挿入位置を変更できない場合にも、特定のポーズ挿入位置以外のポーズ挿入順序情報7から決定したポーズ挿入量を用いてポーズ位置を決定し、最大時間長情報9に合わせて話速を更に調整することができるという効果がある。
また、最大時間長情報9を利用してポーズ挿入量を決定してから、ポーズ長及び話速を変更して調整する構成とした場合には、話速あるいはポーズ長の変化を抑えて、合成音声17の時間長を最大時間長情報9に合わせられるという効果がある。
また、韻律パラメータ14内の発声部分時間長情報を利用してポーズ位置決定部132におけるポーズ位置決定処理を再度実施する構成とした場合には、韻律パラメータ14を利用しない場合と比べて、より精度の高い合成音声17の時間長を想定したポーズ制御をすることが可能であり、合成音声17の時間長を最大時間長情報9に合わせられるという効果がある。
実施の形態2.
以上の実施の形態1は、出力される合成音声17の時間長を考慮して、ポーズ制御を行うようにしたものであるが、次に出力先として指定されたバッファに出力可能な合成音声17のメモリ長を考慮して、ポーズ制御を行う実施形態を示す。
図5は、この発明の実施の形態2における音声合成装置1の構成図である。
音声合成装置1は、テキスト文取得部3、言語辞書4、言語解析部6、ポーズ制御部13、韻律制御部15、波形生成部18、合成音声メモリ長取得部22、合成音声時間長算出部23から構成される。
合成音声メモリ長取得部(メモリ長取得部)22は、生成する合成音声データを出力するメモリの出力可能なメモリ長(制限メモリ長)を示す出力可能合成音声メモリ長情報(メモリ情報)24を取得し、合成音声時間長算出部23に出力する。
合成音声時間長算出部(制限時間算出部)23は、合成音声メモリ長取得部22から入力された出力可能合成音声メモリ長情報24を、生成された合成音声17が収まる制限時間に換算し、出力可能合成音声時間長情報25として出力する。
ポーズ位置決定部132は、合成音声時間長算出部23から入力された出力可能合成音声時間長情報25及び、ポーズ挿入順序決定部131から入力されたポーズ挿入順序情報7を用い、合成音声17のポーズ位置を設定し、中間言語5にポーズ位置を反映したポーズ付与中間言語12を生成して韻律制御部15へ出力する。
その他の構成に関しては、前記実施の形態1と同様である。
次に動作について説明する。
図6は、この発明の実施の形態2における音声合成装置1の動作を示すフローチャートである。
ステップST3までは、実施の形態1の図3のフローチャートと同じ動作である。
ステップST3で、中間言語5を利用し、ポーズ挿入順序情報7を生成する。
次に、合成音声時間長算出部23では、合成音声メモリ長取得部22から入力された出力可能合成音声メモリ長情報24の入力を用い、出力可能音声合成時間長情報T25を式(3)により求め、ポーズ位置決定部132へ出力する(ステップST7)。
T=M/(Fs×B) ・・・ 式(3)
例えば、出力される合成音声17のデータ形式がリニアPCMであるとして
T:出力可能音声合成時間長情報
M:出力可能合成音声メモリ長情報
Fs:サンプリング周波数
B:ビートレート
例えば、M=2400Byte、Fs=24000Hz、B=16bitの場合、T=0.5sが得られる。
なお、実施の形態2の例では、出力される合成音声17のデータ形式をリニアPCMとしたが、その他のいかなるデータ形式であっても良い。
また、出力可能音声合成時間長情報25を求めるのに、サンプリング周波数、ビットレートを利用したが、出力される合成音声17のデータ形式に依存し、出力可能音声合成時間長情報25を求めるために必要な、いかなるパラメータ(例えば、データのヘッダ長など)を利用しても良い。
また、前記の出力可能音声合成時間長25を求めるために必要なパラメータをユーザから入力する手段を持つ構成としても良い。
続くステップST8においてポーズ位置決定部132は、合成音声時間長算出部23から入力された出力可能音声合成時間長情報25、及びポーズ挿入順序決定部131から入力されたポーズ挿入順序情報7を用いて、中間言語5にポーズを挿入し、ポーズ付与中間言語12として出力する。詳細な動作に関しては、実施の形態1におけるステップST4において、最大時間長情報9の代わりに出力可能音声合成時間長情報25を入力した場合と同様である。
なお、中間言語5を合成音声17した時に、出力可能音声合成時間長情報25の出力可能音声合成時間長を超える場合(メモリに収まらない場合)、出力可能音声合成時間長に収まる範囲で、ポーズ挿入順序情報7に基づいて中間言語5のポーズが入りやすい位置で区切りを設けて、中間言語5を分割する。そして、その分割した2つの中間言語5に対して、それぞれ出力可能音声合成時間長を最大時間長情報9の最大時間長として、それぞれポーズが入りやすい位置を1つ以上決定するポーズ位置決定処理を行うようにしても良い。
これは、例えば、制限メモリ長に対して出力可能音声合成時間長が60sであり、中間言語5を合成音声17すると90sとなるような場合、出力可能音声合成時間長の60sの中で中間言語5のポーズが入りやすい位置で一度区切りを設けて、中間言語5を分割する。
この時、例えば、合成音声17が50sとなる中間言語5aと、合成音声17が40sとなる中間言語5bに分割したとする。
これらの中間言語5aと中間言語5bについて、それぞれ出力可能音声合成時間長の60sを最大時間長として、それぞれポーズが入りやすい位置を1つ以上決定するポーズ位置決定処理を行うようにする。
このように、メモリ長を考慮してポーズが入りやすい位置で一度区切り、中間言語5を分割して、分割した中間言語5で更にポーズの位置を決定することもできる。
また、ポーズ挿入順序情報7に基づいて合成音声17が分割される位置を決定する手段を持つ構成としても良い。
他の動作に関しては、前記実施の形態1と同様である。
以上のように本実施の形態2では、出力可能な合成音声17のメモリ長を考慮して、ポーズ制御を行うように構成したので、組込み機器など、音声出力機器やソフトウェアに依存し、一度に出力可能な合成音声17のメモリ長が限られている場合にも、合成音声17の出力が途切れないように、合成音声17の生成が可能であるという効果がある。
また、メモリ長を考慮して、メモリ長に収まる範囲で、ポーズ挿入順序情報7に基づいてポーズが入りやすい位置で一度分割し、分割した中間言語5についてそれぞれメモリ長を考慮した1つ以上のポーズが挿入されるようにポーズ位置決定処理を行うことにより、長文であっても、単語の途中などの不適切な位置でポーズが挿入されて合成音声17の出力が途切れることがないように、適切な位置にポーズが付与された合成音声17の生成が可能であるという効果がある。
また、メモリ長を考慮して、メモリ長に収まる範囲で一度分割する際に、ポーズ挿入順序情報7に基づいて分割するので、分割することによって合成音声17の出力が途切れても聞き取り易さの劣化が少ないという効果がある。
1 音声合成装置、2 テキスト文、3 テキスト文取得部、4 言語辞書、5 中間言語、6 言語解析部、7 ポーズ挿入順序情報、 8 合成音声時間長取得部、9 最大時間長情報、10 ポーズ時間長、11 ポーズ位置、12 ポーズ付与中間言語、13 ポーズ制御部、14 韻律パラメータ、15 韻律制御部、16 音声波形、17 合成音声、18 波形生成部、19 ポーズ挿入確率辞書、20 目標時間長情報、21 最小時間長情報、22合成音声メモリ長取得部、23 合成音声時間長算出部、24 出力可能合成音声メモリ長情報、25 出力可能合成音声時間長情報、131 ポーズ挿入順序決定部、132 ポーズ位置決定部。

Claims (8)

  1. テキスト文を言語解析した中間言語情報が入力される入力部、
    該入力部から入力された中間言語情報に対してポーズの入りやすい1以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、
    予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、
    該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で生成されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、
    該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部、
    を備えたことを特徴とする中間言語情報生成装置。
  2. 前記ポーズ位置決定部は、予め与えられた1のポーズの時間であるポーズ長に基づいて、前記中間言語のポーズ位置を決定することを特徴とする請求項1に記載の中間言語情報生成装置。
  3. 前記ポーズ優先順位情報生成部は、予め記憶され、中間言語情報について句境界の環境毎にポーズの入りやすさを表すポーズ挿入確率に基づいて、前記ポーズ優先順位情報を生成することを特徴とする請求項1に記載の中間言語情報生成装置。
  4. 前記ポーズ優先順位情報生成部は、一定の閾値を超えたポーズ挿入確率に対応した位置についてポーズ優先順位情報を生成することを特徴とする請求項3に記載の中間言語情報生成装置。
  5. 前記中間言語情報の合成音声を記憶するメモリの容量であるメモリ長を取得するメモリ長取得部、
    前記メモリ長取得部によって取得したメモリ長に基づいて前記メモリに記憶することができる合成音声の制限時間を算出する制限時間算出部、を更に備え、
    前記ポーズ時間算出部は、前記制限時間算出部で算出された合成音声の制限時間からポーズ時間を算出することを特徴とする前記請求項1〜4記載のいずれかに記載の中間言語情報生成装置。
  6. 前記入力部から入力された中間言語情報の発声時間が前記制限時間算出部で算出した合成音声の制限時間よりも長い場合、
    前記ポーズ時間算出部は、前記制限時間算出部で算出した合成音声の制限時間と予め記憶された前記ポーズ挿入情報とに基づいて前記中間言語情報を分割し、該分割した前記中間言語情報の各々について、前記制限時間算出部で算出した合成音声の制限時間と、の差分から前記分割した各中間言語情報に挿入するポーズ時間を算出することを特徴とする請求項5記載の中間言語情報生成装置。
  7. テキスト文を言語解析した中間言語情報が入力される入力部、
    該記入力部から入力された中間言語情報に対してポーズの入りやすい1以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成部、
    予め与えられた合成音声の制限時間と、前記入力部から入力された中間言語情報の発声時間と、の差分を前記入力部から入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出部、
    該ポーズ時間算出部で算出されたポーズ時間と、前記ポーズ優先順位生成部で決定されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定部、
    該ポーズ位置決定部で決定したポーズ位置を反映した前記中間言語情報を出力する出力部を備え、前記ポーズ位置を反映した中間言語情報を用いて合成音声を生成することを特徴とする音声合成装置。
  8. 中間言語情報生成装置によりテキスト文の合成音声を生成するための中間言語情報を生成する中間言語情報生成方法において、
    テキスト文を言語解析した中間言語情報が入力される入力ステップ、
    該記入力ステップで入力された中間言語情報に対してポーズの入りやすい1以上の位置と、その位置の優先順位と、の情報であるポーズ優先順位情報を生成するポーズ優先順位生成ステップ、
    予め与えられた合成音声の制限時間と、前記入力ステップで入力された中間言語情報の発声時間と、の差分を前記入力ステップで入力された中間言語情報に挿入するポーズ時間として算出するポーズ時間算出ステップ、
    該ポーズ時間算出ステップで算出されたポーズ時間と、前記ポーズ優先順位生成ステップで生成されたポーズ優先順位情報と、に基づいて、前記中間言語のポーズ位置を決定するポーズ位置決定ステップ、
    該ポーズ位置決定ステップで決定したポーズ位置を反映した前記中間言語情報を出力する出力ステップ、
    を備えたことと特徴とする中間言語情報生成方法。
JP2012023791A 2012-02-07 2012-02-07 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法 Active JP5998500B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012023791A JP5998500B2 (ja) 2012-02-07 2012-02-07 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012023791A JP5998500B2 (ja) 2012-02-07 2012-02-07 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法

Publications (2)

Publication Number Publication Date
JP2013160973A true JP2013160973A (ja) 2013-08-19
JP5998500B2 JP5998500B2 (ja) 2016-09-28

Family

ID=49173240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012023791A Active JP5998500B2 (ja) 2012-02-07 2012-02-07 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法

Country Status (1)

Country Link
JP (1) JP5998500B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056191A (ja) * 1991-06-27 1993-01-14 Matsushita Electric Ind Co Ltd 音声合成装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH056191A (ja) * 1991-06-27 1993-01-14 Matsushita Electric Ind Co Ltd 音声合成装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015099252A (ja) * 2013-11-19 2015-05-28 日本電信電話株式会社 ポーズ推定装置、方法、プログラム

Also Published As

Publication number Publication date
JP5998500B2 (ja) 2016-09-28

Similar Documents

Publication Publication Date Title
EP2958105B1 (en) Method and apparatus for speech synthesis based on large corpus
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
KR101735195B1 (ko) 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체
CN101114447A (zh) 语音翻译装置和方法
US9508338B1 (en) Inserting breath sounds into text-to-speech output
CN113808571B (zh) 语音合成方法、装置、电子设备以及存储介质
JP5320363B2 (ja) 音声編集方法、装置及び音声合成方法
KR100835374B1 (ko) 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템
WO2009107441A1 (ja) 音声合成装置、テキスト生成装置およびその方法並びにプログラム
TWI582755B (zh) 文字轉語音方法及系統
CN114678001A (zh) 语音合成方法和语音合成装置
US9484014B1 (en) Hybrid unit selection / parametric TTS system
JP2014062970A (ja) 音声合成方法、装置、及びプログラム
JP5998500B2 (ja) 中間言語情報生成装置、音声合成装置、および中間言語情報生成方法
JP5294700B2 (ja) 音声認識及び合成システム、プログラム及び方法
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP2009133890A (ja) 音声合成装置及びその方法
JP2014048443A (ja) 音声合成システム、音声合成方法及び音声合成プログラム
US20220189455A1 (en) Method and system for synthesizing cross-lingual speech
JP6756607B2 (ja) アクセント型判定装置及びプログラム
JP2016142936A (ja) 音声合成用データ作成方法、及び音声合成用データ作成装置
CN114678002A (zh) 文本的切分方法和文本的切分装置
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP2006030384A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP2008046636A (ja) アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20140326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160815

R151 Written notification of patent or utility model registration

Ref document number: 5998500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250