JP4603290B2 - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP4603290B2
JP4603290B2 JP2004150969A JP2004150969A JP4603290B2 JP 4603290 B2 JP4603290 B2 JP 4603290B2 JP 2004150969 A JP2004150969 A JP 2004150969A JP 2004150969 A JP2004150969 A JP 2004150969A JP 4603290 B2 JP4603290 B2 JP 4603290B2
Authority
JP
Japan
Prior art keywords
digit
speech
numerical value
data
numerical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004150969A
Other languages
English (en)
Other versions
JP2005331775A (ja
Inventor
寛之 世木
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2004150969A priority Critical patent/JP4603290B2/ja
Publication of JP2005331775A publication Critical patent/JP2005331775A/ja
Application granted granted Critical
Publication of JP4603290B2 publication Critical patent/JP4603290B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、数値を音声合成する音声合成装置および音声合成プログラムに関する。
従来、数値(数値データ)を音声合成する方法(装置)として、例えば、音声合成方法(装置)(特願2003−296584)を利用することができる。この音声合成方法(装置)は、入力したテキストデータを、前後の調音結合に従った音素分割候補に分割し、複数の音素分割候補からなる複数音素分割候補を探索単位として、音声データベースを探索して、最も滑らかで韻律が自然に聞こえる音声波形の組合せを求め、この音声波形を連結することで音声合成する方法である。
なお、この音声合成方法(装置)は、自然発話音声波形信号接続型音声合成装置(特許文献1参照)の問題点を解消するために提案されたものである。つまり、この特許文献1で開示されている自然発話音声波形信号接続型音声合成装置には、音素とこの音素の発話時間が記録された音声データベースが備えられており、この自然発話音声波形信号接続型音声合成装置は、入力されたテキストデータを音素列に分解した後、分解した音素列について音素単位を探索単位として音声データベースを探索し、連結コストおよび音韻韻律コストの和が最小になる探索結果を音声合成データとして出力するものである。
特開平10−49193号公報(段落0014〜0018、図1)
しかしながら、従来の音声合成装置(特願2003−296584および特許文献1の装置)では、主にテキストデータを音声合成する対象としており、音声データベースを探索する探索単位として、前後の音素環境を考慮した音素列を使用していたため、数値(数値データ)を音声合成しようとすると、数値の桁の内部で音素を接続する可能性があり、数値間で前後の音素環境が十分に考慮できない恐れが生じ、合成される音声合成音(音声合成データ)が不自然な感じになる(前後の音素の接続が不自然になる)、つまり音声合成音(音声合成データ)の自然性が劣化してしまうという問題がある。
そこで、本発明では、前記した問題を解決し、数値(数値データ)を音声合成した場合でも、音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる音声合成装置および音声合成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1記載の音声合成装置は、入力された数値を音声合成する音声合成装置であって、音声合成用データベースと、数値分割手段と、音声データ列探索手段と、各桁分割候補連結手段と、音声合成データ出力手段と、を備える構成とした。
かかる構成によれば、音声合成装置は、数値分割手段によって、入力された数値(数値データ)を各桁に分割し、この分割したものを各桁分割候補とする。例えば、653円は、数値分割手段によって、「6」(六百(+)五十)、「5」(六百(−)五十(+)三)、「3」(五十(−)三(+)円)に分割され、それぞれが各桁分割候補となる。
続いて、音声合成装置は、音声データ列探索手段によって、数値分割手段で分割され、前後の桁を考慮した各桁分割候補を探索単位として、数値の桁区切りの発話時刻に関連付けて数値を読み上げた音声データを記憶している音声合成用データベースを探索し、音声データを連結した連結コストが最小になる各桁分割候補に対応する音声データの組み合わせである音声データ列を求める。
連結コストは、接続される数値(各桁分割候補)がどれだけ滑らかに接続されるかを示す指標である。この連結コストの計算は、予め設定した計算式によって行われ、連結される2つの各桁分割候補の音声波形から抽出した特徴量の差を正規化したものを、当該特徴量の個数だけ計算したものである。
そして、音声合成装置は、各桁分割候補連結手段によって、音声データ探索手段で探索された連結コストが最小になる各桁分割候補に対応する音声データを連結し、この連結した音声データ列を、音声合成データ出力手段によって、数値を音声合成した結果である音声合成データとして出力する。
また、音声合成装置は、前記音声合成用データベースが、前記数値の単位に関する音声データである単位音声データと、前記数値の各桁の前後の桁を含めてクラスタリングした桁毎の発話時間とを記憶しており、前記数値分割手段は、前記数値の最後の桁を分割する際に前記数値の単位を付加した数値単位候補とし、前記数値の各桁と当該各桁に前後する1桁との合計3桁において、当該各桁に前1桁の場合には「万、千、百、十、一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、当該各桁に後1桁の場合には「一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、前記入力された数値を分割し、前記音声データ列探索手段が、前記各桁分割候補および前記数値単位候補を探索単位とする。
かかる構成によれば、音声合成装置は、音声合成用データベースに数値の単位、例えば、「円」、「株」、「個」、「m」、「g」に関する音声データである単位音声データ「えん(en)」、「かぶ(kabu)」、「こ(ko)」、「メートル(me−toru)」、「グラム(guramu)」を記憶しており、数値分割手段によって、最後の桁に数値の単位を付加した数値単位候補とする。例えば、最後の桁の数値が「3」であり、単位が「円」である場合、「3円」が数値単位候補となる。
また、音声合成装置は、数値分割手段によって、入力された数値を、クラスタリングした桁に分割し、この分割したものを各桁分割候補とする。例えば、653(円)は、数値分割手段によって、「6」(六百(+)五十)、「5」(百(−)五十(+)三)、「3」(十(−)三(+)円)に分割され、それぞれが各桁分割候補となる。
そして、音声合成装置は、音声データ列探索手段によって、各桁分割候補および数値単位候補を探索単位として探索して、探索した音声データ列を各桁分割候補連結手段で連結し、音声合成データ出力手段から出力することで、数値の単位を付加した音声合成データを生成することが可能になる。
請求項記載の音声合成装置は、請求項1に記載の音声合成装置において、前記音声合成用データベースが、前記数値を読み上げる際の特定の読み方に関する音声データである特定読み音声データを記憶していることを特徴とする。
かかる構成によれば、音声合成装置は、音声合成用データベースに、数値を読み上げる際の特定の読み方、例えば、株価等の金額の読み方で、日常では10円(じゅうえん)と読む箇所を10円「とうえん」と読む読み方や、日常では50,076円(ごまんななじゅうろくえん)と読む箇所を50,076円(ごまんとんでななじゅうろくえん)と読む読み方に関する音声データである特定読み音声データを、10円「とうえん(to−enn)」、50,076円「ごまんとんでななじゅうろくえん(go−mann−tonnde−nana−juu−roku−en)」として記憶している。
請求項記載の音声合成装置は、請求項1または請求項2に記載の音声合成装置において、前記数値分割手段は、前記数値を各桁に分割後、当該各桁の数値を構成する音素毎の基本周波数に関する情報である音韻韻律情報を推定する音韻韻律情報推定手段を備えており、前記音声データ列探索手段は、前記連結コストおよび前記音韻韻律情報から求められる音韻韻律コストが最小になる前記各桁分割候補に対応する音声データの組み合わせである音声データ列を探索することを特徴とする。
かかる構成によれば、音声合成装置は、数値分割手段が音韻韻律情報推定手段を備えることで、音韻韻律情報を推定している。この音韻韻律情報は、数値の音素毎の基本周波数に関する情報である。そして、音声合成装置は、音声データ列探索手段によって、連結コストおよび音韻韻律コストが最小になる各桁分割候補の組み合わせである音声データ列を探索する。
音韻韻律コストは、入力された数値から予測される当該数値の読み方(音素列)、予測される韻律(アクセントの配列の仕方)および基本周波数が、音声合成用データベースに記憶されている音声データの音素、韻律および基本周波数に類似しているかどうかを示す指標である。この音韻韻律コストが低いほど、予測される音素、韻律および基本周波数と音声データの音素、韻律および基本周波数とが類似していることになる。
請求項記載の音声合成装置は、請求項に記載の音声合成装置において、前記各桁分割候補連結手段が、予め予測された予測韻律と異なる部分が、前記音声データ列探索手段で探索された音声データ列に含まれている場合に、当該予測韻律を基準にした一定範囲に補正する音韻韻律補正手段を備えていることを特徴とする。
かかる構成によれば、音声合成装置は、各桁分割候補連結手段が音韻韻律補正手段を備えることで、予測韻律と異なる部分を、当該予測韻律を基準にした一定範囲に補正している。この予測韻律と異なる部分は、音声データ列探索手段で探索された音声データ列において、例えば、各桁分割候補を連結させた部分が不自然な高さになる場合に当該連結させた部分を指している。
請求項記載の音声合成プログラムは、入力された数値を音声合成するために、前記数値の桁区切りの発話時刻に関連付けた前記数値を読み上げた音声データを記憶している音声合成用データベースを備えるコンピュータを、数値分割手段、音声データ列探索手段、各桁分割候補連結手段、音声合成データ出力手段、として機能させる構成とした。
かかる構成によれば、音声合成プログラムは、数値分割手段によって、入力された数値をこの数値に各桁に分割し、各桁分割候補とし、音声データ列探索手段によって、数値分割手段で分割され、前後の桁を考慮した各桁分割候補を、音声合成用データベースを探索する際の探索単位として、音声合成用データベースに記憶されている音声データを連結した連結コストが最小になる各桁分割候補に対応する音声データの組み合わせである音声データ列を探索する。そして、音声合成プログラムは、各桁分割候補連結手段によって、音声データ列探索手段で探索された連結コストが最小になる各桁分割候補に対応する音声データを連結し、音声データ列とし、音声合成データ出力手段によって、連結された音声データ列を、数値を音声合成した結果である音声合成データとして出力する。また、音声合成プログラムは、前記音声合成用データベースが、前記数値の単位に関する音声データである単位音声データと、前記数値の各桁の前後の桁を含めてクラスタリングした桁毎の発話時間とを記憶しており、前記数値分割手段は、前記数値の最後の桁を分割する際に前記数値の単位を付加した数値単位候補とし、前記数値の各桁と当該各桁に前後する1桁との合計3桁において、当該各桁に前1桁の場合には「万、千、百、十、一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、当該各桁に後1桁の場合には「一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、前記入力された数値を分割し、前記音声データ列探索手段が、前記各桁分割候補および前記数値単位候補を探索単位とする。
請求項1および記載の発明によれば、入力された数値(数値データ)について、各桁に分割した各桁分割候補を探索単位として、音声合成用データベースを探索して、当該各桁分割候補の連結コストが最小になる音声データ列を音声合成する。このため、本発明は、音素または単語を探索単位として音声合成を行う従来の音声合成装置により数値(数値データ)を音声合成した場合に比べ、数値を音声合成した音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる。
請求項1および5記載の発明によれば、音声合成用データベースが単位音声データを記憶していることにより、最後の桁に単位を付加した数値単位候補を探索単位とすることができ、数値(数値データ)を音声合成する際に、数値を音声合成した音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止して、当該数値の最後に単位を読み上げた音を付加することができる。
また、請求項1および5記載の発明によれば、入力された数値(数値データ)を、クラスタリングした桁に分割することで、数値を各桁に分割した場合に比べ、音声合成用データベースを小さくすることが可能であり、その結果、処理速度を高速にすることができる。また、音声合成用データベースが小さい(データ量が少ない)ことで当該音声合成用データベースを作成するのにかかる時間および費用を削減することができる。
請求項記載の発明によれば、音声合成用データベースが数値を読み上げる際の特定の読み方に関する特定読み音声データを記憶していることにより、数値(数値データ)を音声合成する際に、数値の読み上げにおける独特の読み方を再現することができる。
請求項記載の発明によれば、音韻韻律情報を推定することによって、音声データ列を探索する際に利用して、連結コストおよび音韻韻律コストが最小になる各桁分割候補に対応する音声データの組み合わせである音声データ列を探索して、音声合成を行っているので、数値を音声合成した音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる。
請求項記載の発明によれば、音韻韻律補正手段によって予測された予測韻律と異なる部分を補正することで、より自然に聞こえる音声合成音(音声合成データ)を生成することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成装置の構成〉
図1は、音声合成装置のブロック図である。この図1に示すように、音声合成装置1は、入力された数値(数値データ)を音声合成して、音声合成音(音声合成データ)として出力するもので、数値データ入力手段3と、数値分割手段5と、音声データ列探索手段9と、音声合成用データベース11と、各桁分割候補連結手段13と、音声合成データ出力手段17とを備えている。
なお、この音声合成装置1は、株式市場で変動する株価(数値)等の読み上げに応用することを主たる目的としたものであり、数値以外のテキストデータを音声合成するための音声データベースを備えていないので、音声合成することができない。ちなみに、数値以外のテキストデータを音声合成するためには、従来の技術をそのまま使用すればよく、当該装置1に、入力されたテキストデータを音素または単語に分割する分割手段と、この分割手段で分割した単位に対応するデータを記憶した音声データベースを備えていればよい。
数値データ入力手段3は、数値(数値データ)を入力するインターフェースである。この数値データ入力手段3に、数値(数値データ)以外のテキストデータのみが入力された場合、音声合成装置1は、図示を省略した表示装置に、音声合成できない旨の表示を行う。
また、この数値データ入力手段3に、数値(数値データ)とテキストデータとが入力された場合、例えば、数値と単位とを含むテキストデータである「今日の出来高は23,000株です。」が入力された場合、音声合成装置1は、数値と単位のみ“23,000株”を音声合成し、数値と単位以外のテキストデータ“今日の出来高は”、“です。”については、図示を省略した表示装置に、音声合成できない旨の表示を行う(従来の技術で音声合成可能)。
数値分割手段5は、数値データ入力手段3に入力された数値(数値データ)を、各桁(位取りしたもの)に分割した各桁分割候補とするもので、音韻韻律情報推定手段7を備えている。
各桁分割候補は、数値を各桁に分割したもの、例えば、10桁の数値であれば10個に、6桁の数値であれば6個に分割したものである。
また、この数値分割手段5は、数値データ入力手段3に入力された数値(数値データ)に当該数値の単位(例えば、円、株、個)が付加されていた場合には、数値の最後の桁(1桁目)を分割する際に、この1桁目の数値に単位を付加した数値単位候補に分割するものである。例えば、最後の桁の数値が「3」であり、単位が「円」である場合、「3円」が数値単位候補となり、最後の桁の数値が「7」であり、単位が「株」である場合、「7株」が数値単位候補となる、
例として、数値データ入力手段3に9,876円(九千八百七十六円)が入力された場合、数値分割手段5は、9,876円(九千八百七十六円)を、各桁分割候補として「九千(+)八百」、「千(−)八百(+)七十」、「百(−)七十(+)六」および「十(−)六円」に分割し、数値単位候補として「六(+)円」とする。ここで、例えば、「千(−)八百(+)七十」に示す「千」と「八百」の間の「(−)」は八百の前の桁が千であることを示しており、「八百」と「七十」の間の「(+)」は八百の後の桁が十であることを意味している。
また、この数値分割手段5は、数値データ入力手段3に入力された数値(数値データ)について、メモリ(図示せず)に予め記憶した特定読み方パターンと当該数値とを比較することで、数値を読み上げる際の特定の読み方が可能であるかを判断する数値データ判断手段(図示せず)を備えている。この数値データ判断手段は、例えば、数値に0が当該数値間に含まれている場合(例として、3,006円)には、“0”の部分(2桁目と3桁目の“00”)を「とんで」という各桁分割候補とする。
或いは、数値データ判断手段(図示せず)は、数値の下一桁(1桁目)に0が付く場合、例として、20の読み方を“ふたじゅう”とする場合、これが特定読み方パターンに該当するものとして、「ふたじゅう」という各桁分割候補とする。同様に、200の読み方を「ふたひゃく」、2000の読み方を「ふたせん」という各桁分割候補とする。さらに、数値の下一桁(1桁目)に0が付き、単位が付く場合、例として、10円の読み方を“とうえん”とする場合、これが特定読み方パターンに該当するものとして、「とうえん」という各桁分割候補とする。
さらに、この数値分割手段5は、ある桁の数値が同じであれば、前後の桁の数値が異なっても1つのクラスタ(クラスタリングした桁)として取り扱うことができる。例えば、9870という数値の場合、9870「九千(−)八百(+)七十」、8870「八千(−)八百(+)七十」、7870「七千(−)八百(+)七十」を1つのクラスタとみなし、「千(−)八百(+)七十」として扱うことができる。
また、この数値分割手段5は、9870「九千(−)八百(+)七十」と9807「九千(−)八百(+)七」とを1つのクラスタとみなして、9807「九千(−)八百(+)七」として扱うことができる。
音韻韻律推定手段7は、数値を各桁に分割した後(各桁分割候補とした後)で、各桁の音韻韻律情報を推定するものである。この音韻韻律情報は、数値を構成する音素毎の基本周波数(一般にF0と表記される)に関する情報である。例えば、数値「3」の1桁目の読みは「さん(sa_n)」であり、この場合、音韻韻律情報は、音素「sa」と音素「n」の基本周波数に関する情報で構成されており、アクセント位置(アクセント型)、イントネーション(発生の抑揚)を含むものである。同様に、数値「3」の2桁目の読みは「さんじゅう(sa_n_ju)」であり、この場合、音韻韻律情報は、音素「sa」と音素「n」と音素「ju」の基本周波数に関する情報で構成されており、アクセント位置(アクセント型)、イントネーション(発生の抑揚)を含むものである。
音声データ列探索手段9は、入力された数値(数値データ)が数値分割手段5で分割された各桁分割候補を探索単位として、音声合成用データベース11に記憶されている音声データを連結した連結コストが最小になる、各桁分割候補に対応する音声データの組み合わせである音声データ列を探索するものである。また、この音声データ列探索手段9は、音韻韻律情報推定手段7で推定された音韻韻律情報を参照して、連結コストおよび音韻韻律コストが最小になる、各桁分割候補に対応する音声データの組み合わせである音声データ列を探索するものである。
また、この音声データ列探索手段9は、入力された数値に当該数値の単位が付加されていた場合であり、且つ、数値分割手段5で各桁分割候補および数値単位候補に分割されている場合、つまり、当該音声データ列探索手段9に、最後の桁の後に単位が付加された数値単位候補が入力された場合、これらを探索単位とする。
連結コストは、数値(各桁分割候補)に対応する音声データがどれだけ滑らかに接続されるかを示す指標である。この連結コストの計算は、予め設定した計算式によって行われ、連結される2つの各桁分割候補の音声波形から抽出した特徴量の差を正規化したものを、当該特徴量の個数だけ計算したものである(詳細は後記する)。
音韻韻律コストは、入力された数値から予測される当該数値の読み方(音素)、予測される韻律(アクセントの配列の仕方)および基本周波数が、音声合成用データベース11に記憶されている音声データの音素、韻律および基本周波数に類似しているかどうかを示す指標である。この音韻韻律コストが低いほど、予測される音素、韻律および基本周波数と音声データの音素、韻律および基本周波数とが類似していることになる。
この音声データ列探索手段9は、各桁分割候補が入力されると、音声合成用データベース11に存在する各桁分割候補に対応する音声データの全ての組み合わせについて、ビタービサーチに基づいた計算を実行し、このビタービサーチの結果、連結スコアおよび音韻韻律スコアが最も大きい音声データ列を探索結果として出力する。
なお、ビタービサーチとは、全ての仮説(各桁分割候補に対応する音声データの組み合わせ)の中で、最良(最大)のスコアを与える仮説の履歴のみを残していく探索手法である。また、連結スコアが最大になるということは、連結コストが最小になるということと同じこと(意味)を示しており、音韻韻律スコアが最大になるということは、音韻韻律コストが最小になるということと同じこと(意味)を示している。
ここで、これら連結スコアおよび音韻韻律スコアの算出の仕方について説明する。
素片(各桁分割候補)Aと素片(各桁分割候補)Bとの連結スコアSc(A,B)は次に示す数式(1)によって求めることができる。
Figure 0004603290
この数式(1)において、pE Aは素片Aの終わり(終端)の基本周波数を表しており、pI Bは素片Bの始め(先端)の基本周波数を表しており、cE jAはj次元目における素片Aの終わり(終端)の特徴量を表しており、cI jBはj次元目における素片Bの始め(先端)の特徴量を表している。
また、この数式(1)において、(a)および(b)はj次元目における素片Aの終わりのトライフォン(素片Aがトライフォンであればそのトライフォン)が含まれるクラスターTE A、TI BのHMM(隠れマルコフモデル)の分散値を表しており、(c)および(d)はj次元目における素片Aの終わりのトライフォンが含まれるクラスターc(A)のHMMの平均値を表しており、dは特徴量の総次元数を表しており、ω7、ω8は正の重みを表しており、aは正の定数を表している。なお、δABは素片Aと素片Bとが連続して音声合成用データベース11内にある場合を0、無い場合を1をとしている。
桁(各桁分割候補)Yと桁(音声合成用データベース11に記憶されている音声データに対応する桁)Dとの音韻韻律スコアSKETAは次に示す数式(2)によって求めることができる。
Figure 0004603290
この数式(2)において、Pj Yは入力された数値の桁Yの語頭からj番目のトライフォンの基本周波数を表しており、Pj Dは音声合成用データベース11に記憶されいる音声データに対応する桁Dの語頭からj番目のトライフォンの基本周波数を表しており、nYは入力された数値の桁Yの音素数を表している。
また、この数式(2)において、θ(Tj Y)は入力された数値の桁Yの語頭からj番目の音素Tj Yが母音若しくは半母音である場合1を返しそれ以外は0を返す関数を表しており、lYは入力された数値の桁Yの予測長を表しており、lDは音声合成用データベース11に記憶されている桁Dの音声データの長さを表しており、ω3、ω4は正の重みを表している。
すなわち、音声データ列探索手段9は、それぞれの桁毎の音声データ(各桁分割候補に対応する音声データ)の組み合わせである音声データ列を全て求めていき、その求めた中で音声データ列全体として音のつながりが最も滑らかになる組み合わせを探索している。
音声合成用データベース11は、ハードディスク等の記憶媒体によって構成されており、数値(数値データ)の桁区切りの発話時刻に関連付けた数値、つまり、桁毎の数値を読み上げた音声データを単位音声として記憶しているものである。この実施形態では、音声合成用データベース11は、桁の集合からなる「文章」を構成単位としており、各文章には「文番号」が付されており、各桁の発話時刻が記憶されている。
この音声合成用データベース11に記憶されている各文章の文番号と、発話時刻とにより、各桁の音声データを特定することができる。それゆえ、前記したように、音声データ列探索手段9が各桁分割候補を探索単位として、当該各桁分割候補に対応する音声データを探索することができる。
また、この音声合成用データベース11は、クラスタリングされた桁毎の発話時間(直前の発話終了時刻から直後の発話開始時刻(発話時刻))を記憶している。この実施形態では、ある桁の前後の1桁(合計で3桁)の影響だけを考慮してクラスタリングを行っている。左側にくる桁(ある桁の上(前)の桁)の場合には、「万、千、百、十、一、二、三、四、五、六、七、八、九、〇」等でまとめ(クラスタリングし)、右側にくる桁(ある桁の下(後)の桁)の場合には、「一、二、三、四、五、六、七、八、九、〇」等でまとめている(クラスタリングしている)。
さらに、この音声合成用データベース11には、数値の単位に関する音声データである単位音声データと、数値を読み上げる際の特定の読み方に関する音声データである特定読み音声データとを記憶している。
単位音声データは、「円」、「株」、「個」、「m」、「g」等に関する音声データであり、「えん(en)」、「かぶ(kabu)」、「こ(ko)」、「メートル(me−toru)」、「グラム(guramu)」である。
特定読み音声データは、数値“0”の読み方を「とんで」とするものや、数値“20”の読み方を「ふたじゅう」とするものである。
各桁分割候補連結手段13は、音声データ列探索手段9により音声合成用データベース11を探索した探索結果である音声データ列に含まれる音声データそれぞれを連結(接続)すると共に、音声データ同士を連結した連結部分の補正を行うもので、音韻韻律補正手段15を備えている。
音韻韻律補正手段15は、音声データ列探索手段9で計算された連結スコアと音韻韻律スコアとが最も大きくなった(連結コストと音韻韻律コストとが最も小さくなった)音声データ列の合成音声波形について、各桁分割候補に対応する音声データの連結部分が、予め予測された予測韻律と異なる場合(異なる韻律部分が生じている場合)、当該予測韻律を基準に一定範囲に収まるように(予測される声の高さ(アクセント・イントネーション)からのずれが小さくなるように)補正をする(調整を行う)ものである。なお、この音韻韻律補正手段15による合成音声波形の補正に関しては、特開平2−47700号公報に記載されている方法を適用することができる。
音声合成データ出力手段17は、各桁分割候補連結手段13で連結され、補正された音声データ列を、数値(数値データ)を音声合成した結果である音声合成データとして出力するものである。
この音声合成装置1によれば、数値データ入力手段3に入力された数値(数値データ)を各桁に分割した各桁分割候補を探索単位として、音声合成用データベース11を探索して、当該各桁分割候補の連結コストが最小になる音声データ列を音声合成するので、音素または単語を探索単位として音声合成を行う従来の音声合成装置により数値(数値データ)を音声合成した場合に比べ、音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる。
また、この音声合成装置1によれば、音声合成用データベース11が単位音声データを記憶していることにより、最後の桁に単位を付加した数値単位候補を探索単位とすることができ、数値(数値データ)を音声合成する際に、自然性の劣化を防止して、当該数値の最後に単位を読み上げた音を付加することができる。
また、この音声合成装置1によれば、音声合成用データベース11が数値を読み上げる際の特定の読み方に関する特定読み音声データを記憶していることにより、数値(数値データ)を音声合成する際に、数値の読み上げにおける独特の読み方を再現することができる。
また、この音声合成装置1によれば、音韻韻律情報推定手段7によって、音韻韻律情報を推定することにより、音声データ列を探索する際に音韻韻律情報を利用して、連結コストおよび音韻韻律コストが最小になる各桁分割候補に対応する音声データの組み合わせである音声データ列を探索して、音声合成を行っているので、音声合成音(音声合成データ)が不自然に聞こえてしまう自然性の劣化を防止することができる。
また、この音声合成装置1によれば、音韻韻律補正手段15によって予測された予測韻律と異なる部分を補正することで、より自然に聞こえる音声合成音(音声合成データ)を生成することができる。
さらに、この音声合成装置1によれば、入力された数値(数値データ)を、クラスタリングした桁に分割することで、数値を各桁に分割した場合に比べ、音声合成用データベース11を小さくすることが可能であり、その結果、処理速度を高速にすることができる。また、音声合成用データベース11が小さい(データ量が少ない)ことで当該音声合成用データベース11を作成するのにかかる時間および費用を削減することができる。
〈音声合成装置の動作〉
次に、図2に示すフローチャートを参照して、音声合成装置1の動作について説明する(適宜、図1参照)。
まず、音声合成装置1は、数値データ入力手段3を介して、数値データを入力する(ステップS1)。続いて、音声合成装置1は、数値分割手段5によって、数値データ入力手段3で入力された数値データを、各桁分割候補に分割する(ステップS2)。
そして、音声合成装置1は、音韻韻律情報推定手段7によって、音韻韻律情報を推定し(ステップS3)、音声データ列探索手段9によって、数値分割手段5で分割された各桁分割候補(数値単位候補も含む)を探索単位として、音声合成用データベース11を探索し、各桁分割候補に対応する音声データを連結した連結コストおよび音韻韻律コストが最小になる組み合わせ(音声データ列)を探索する(ステップS4)。
そして、音声合成装置1は、各桁分割候補連結手段13によって、音声データ列探索手段9で探索された音声データ列を構成する音声データ同士(各桁分割候補に対応する音声データ同士)を連結する(ステップS5)。
そして、音声合成装置1は、音韻韻律補正手段15によって、予め予測された予測韻律と異なる部分の音韻韻律を補正する(ステップS6)。その後、音声合成装置1は、音声合成データ出力手段17によって、各桁分割候補連結手段13で連結した音声データ列の音韻韻律を補正したものを、数値データを音声合成した結果である音声合成データとして出力する(ステップS7)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、音声合成装置1として説明したが、当該装置1の各構成の処理を汎用的または特殊なコンピュータ言語によって記述した音声合成プログラムとして捉えることも可能である。この場合、当該装置1と同様の効果を得ることができる。
本発明の実施形態に係る音声合成装置のブロック図である。 図1に示した音声合成装置の動作を説明したフローチャートである。
符号の説明
1 音声合成装置
3 数値データ入力手段
5 数値分割手段
7 音韻韻律情報推定手段
9 音声データ列探索手段
11 音声合成用データベース
13 各桁分割候補連結手段
15 音韻韻律補正手段
17 音声合成データ出力手段

Claims (5)

  1. 入力された数値を音声合成する音声合成装置であって、
    前記数値の桁区切りの発話時刻に関連付けた前記数値を読み上げた音声データを記憶している音声合成用データベースと、
    前記数値をこの数値の各桁に分割し、各桁分割候補とする数値分割手段と、
    この数値分割手段で分割され、前後の桁を考慮した各桁分割候補を、前記音声合成用データベースを探索する際の探索単位として、前記音声合成用データベースに記憶されている音声データを連結した連結コストが最小になる前記各桁分割候補に対応する音声データの組み合わせである音声データ列を探索する音声データ列探索手段と、
    この音声データ列探索手段で探索された連結コストが最小になる各桁分割候補に対応する音声データを連結し、前記音声データ列とする各桁分割候補連結手段と、
    この各桁分割候補連結手段で連結された音声データ列を、前記数値を音声合成した結果である音声合成データとして出力する音声合成データ出力手段と、を備え、
    前記音声合成用データベースは、前記数値の単位に関する音声データである単位音声データと、前記数値の各桁の前後の桁を含めてクラスタリングした桁毎の発話時間とを記憶しており、
    前記数値分割手段は、前記数値の1桁目を分割する際に前記数値の単位を付加した数値単位候補とし、前記数値の各桁と当該各桁に前後する1桁との合計3桁において、当該各桁に前1桁の場合には「万、千、百、十、一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、当該各桁に後1桁の場合には「一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、前記入力された数値を分割し、
    前記音声データ列探索手段は、前記各桁分割候補および前記数値単位候補を探索単位とすることを特徴とする音声合成装置。
  2. 前記音声合成用データベースは、前記数値を読み上げる際の特定の読み方に関する音声データである特定読み音声データを記憶していることを特徴とする請求項1に記載の音声合成装置。
  3. 前記数値分割手段は、前記数値を各桁に分割後、当該各桁の数値を構成する音素毎の基本周波数に関する情報である音韻韻律情報を推定する音韻韻律情報推定手段を備えており、
    前記音声データ列探索手段は、前記連結コストおよび前記音韻韻律情報から求められる音韻韻律コストが最小になる前記各桁分割候補に対応する音声データの組み合わせである音声データ列を探索することを特徴とする請求項1または請求項2に記載の音声合成装置。
  4. 前記各桁分割候補連結手段は、予め予測された予測韻律と異なる部分が、前記音声データ列探索手段で探索された音声データ列に含まれている場合に、当該予測韻律を基準にした一定範囲に補正する音韻韻律補正手段を備えていることを特徴とする請求項3に記載の音声合成装置。
  5. 入力された数値を音声合成するために、前記数値の桁区切りの発話時刻に関連付けた前記数値を読み上げた音声データを記憶している音声合成用データベースを備えるコンピュータを、
    前記数値をこの数値の各桁に分割し、各桁分割候補とする数値分割手段、
    この数値分割手段で分割され、前後の桁を考慮した各桁分割候補を、前記音声合成用データベースを探索する際の探索単位として、前記音声合成用データベースに記憶されている音声データを連結した連結コストが最小になる前記各桁分割候補に対応する音声データの組み合わせである音声データ列を探索する音声データ列探索手段、
    この音声データ列探索手段で探索された連結コストが最小になる各桁分割候補に対応する音声データを連結し、前記音声データ列とする各桁分割候補連結手段、
    この各桁分割候補連結手段で連結された音声データ列を、前記数値を音声合成した結果である音声合成データとして出力する音声合成データ出力手段、として機能させ、
    前記音声合成用データベースは、前記数値の単位に関する音声データである単位音声データと、前記数値の各桁の前後の桁を含めてクラスタリングした桁毎の発話時間とを記憶しており、
    前記数値分割手段は、前記数値の1桁目を分割する際に前記数値の単位を付加した数値単位候補とし、前記数値の各桁と当該各桁に前後する1桁との合計3桁において、当該各桁に前1桁の場合には「万、千、百、十、一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、当該各桁に後1桁の場合には「一、二、三、四、五、六、七、八、九、〇」でクラスタリングを行い、前記入力された数値を分割し、
    前記音声データ列探索手段は、前記各桁分割候補および前記数値単位候補を探索単位とすることを特徴とする音声合成プログラム。
JP2004150969A 2004-05-20 2004-05-20 音声合成装置および音声合成プログラム Expired - Lifetime JP4603290B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004150969A JP4603290B2 (ja) 2004-05-20 2004-05-20 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004150969A JP4603290B2 (ja) 2004-05-20 2004-05-20 音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2005331775A JP2005331775A (ja) 2005-12-02
JP4603290B2 true JP4603290B2 (ja) 2010-12-22

Family

ID=35486475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004150969A Expired - Lifetime JP4603290B2 (ja) 2004-05-20 2004-05-20 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4603290B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6122400A (ja) * 1984-07-09 1986-01-30 富士通株式会社 音声応答装置
JPH0229796A (ja) * 1988-07-20 1990-01-31 Ricoh Co Ltd 規則音声合成装置における数詞読み付与装置
JPH08248972A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JPH08286697A (ja) * 1995-04-11 1996-11-01 Ricoh Co Ltd 日本語処理装置
JPH08314901A (ja) * 1995-05-15 1996-11-29 Nippon Telegr & Teleph Corp <Ntt> 合成音声出力方法及び装置
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6122400A (ja) * 1984-07-09 1986-01-30 富士通株式会社 音声応答装置
JPH0229796A (ja) * 1988-07-20 1990-01-31 Ricoh Co Ltd 規則音声合成装置における数詞読み付与装置
JPH08248972A (ja) * 1995-03-10 1996-09-27 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 規則音声合成装置
JPH08286697A (ja) * 1995-04-11 1996-11-01 Ricoh Co Ltd 日本語処理装置
JPH08314901A (ja) * 1995-05-15 1996-11-29 Nippon Telegr & Teleph Corp <Ntt> 合成音声出力方法及び装置
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Also Published As

Publication number Publication date
JP2005331775A (ja) 2005-12-02

Similar Documents

Publication Publication Date Title
US11735162B2 (en) Text-to-speech (TTS) processing
US20200410981A1 (en) Text-to-speech (tts) processing
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US11763797B2 (en) Text-to-speech (TTS) processing
US20080183473A1 (en) Technique of Generating High Quality Synthetic Speech
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
EP2462586B1 (en) A method of speech synthesis
US10699695B1 (en) Text-to-speech (TTS) processing
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2004109535A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
JP5393546B2 (ja) 韻律作成装置及び韻律作成方法
JP6631186B2 (ja) 音声作成装置、方法、及びプログラム、音声データベース作成装置
JPH10247097A (ja) 自然発話音声波形信号接続型音声合成装置
JPH09230893A (ja) 規則音声合成方法及び音声合成装置
JPH1185193A (ja) 音声データベースにおける音素片情報最適化方法、及び音素片情報最適化装置
JP2002297175A (ja) テキスト音声合成装置、テキスト音声合成方法及びプログラム並びにプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH06167989A (ja) 音声合成装置
JP2005091551A (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP4839058B2 (ja) 音声合成装置および音声合成プログラム
JP2004347994A (ja) 音声合成装置、音声合成方法およびこの音声合成方法を実行するプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100311

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100723

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100819

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101001

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131008

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4603290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141008

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term