JP2007114236A - 音声合成装置および音声合成プログラム - Google Patents

音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP2007114236A
JP2007114236A JP2005302440A JP2005302440A JP2007114236A JP 2007114236 A JP2007114236 A JP 2007114236A JP 2005302440 A JP2005302440 A JP 2005302440A JP 2005302440 A JP2005302440 A JP 2005302440A JP 2007114236 A JP2007114236 A JP 2007114236A
Authority
JP
Japan
Prior art keywords
speech
data
voice
correlation
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005302440A
Other languages
English (en)
Other versions
JP4839058B2 (ja
Inventor
Hiroyuki Segi
寛之 世木
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2005302440A priority Critical patent/JP4839058B2/ja
Publication of JP2007114236A publication Critical patent/JP2007114236A/ja
Application granted granted Critical
Publication of JP4839058B2 publication Critical patent/JP4839058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】基本周波数を用いることなく、連結スコアを求めて、合成音声の音質劣化を抑制することができる音声合成装置および音声合成プログラムを提供する。
【解決手段】音声合成装置1は、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データ蓄積手段5を用いて行うものであって、探索単位分割手段3と、複数窓幅相互相関音声データ探索手段7と、音声データ連結手段9と、合成音声出力手段11と、を備える。
【選択図】図1

Description

本発明は、音声データベースを利用して、音声合成を行う音声合成装置および音声合成プログラムに関する。
従来の音声合成の方法として、例えば、自然発話音声波形信号接続型音声合成装置(特許文献1参照、以下、従来の音声合成装置という)が開示されている。
この従来の音声合成装置には、読み上げられた複数の文章(サンプル文章)の音声波形信号が記録されており、且つ、これらの文章を構成する音素の発話時刻が記録されている音声データベースが備えられている。
そして、この従来の音声合成装置は、当該装置に入力された文章(入力文章)を音素に分割した後、分割した音素を探索単位として、当該音素同士を接続した際のコスト(スコア)の和が最大となる組み合わせを、音声データベースの中から探索して音声合成を行うものである。なお、音素同士を接続した際のコストとは、音素の音声データを接続した際に自然な音声に聞こえるか否かを示す指標となるものであり、コストが低くなるほど自然に聞こえる(違和感が無くなる)と言え、音韻韻律コスト(音韻韻律スコア)と、連結コスト(連結スコア)とがある。
音韻韻律スコアは、分割された音素列同士の音韻と韻律とに着目して得られたスコアであり、主に音韻とは母音と子音とに関するものであり、韻律とはリズムやアクセントに関するものである。
連結スコアは、分割された音素列同士の基本周波数の差の自乗等を利用して得られたスコアである。
特開平10−49193号公報
しかしながら、従来の音声合成装置では、連結スコアとして、音素列同士の基本周波数の差の自乗を利用しており、この基本周波数を、音声合成する際の特徴量として用いる限り、当該基本周波数の抽出間違いが避けられず、抽出間違いが発生した場合には、連結スコアの誤差が非常に大きくなってしまい、合成した合成音声の音質劣化が激しくなるという問題がある。
例えば、接続する一方の音声データ(音声データAとする)の基本周波数の正確な値が300Hzであれば、従来の音声合成装置では、150Hzという半分の値が抽出されやすい。そして、接続する他方の音声データ(音声データBとする)の基本周波数が150Hzであるとすると、音素列Aの基本周波数は300Hzであるのに、150Hzと抽出されているので、音素列Bの基本周波数である150Hzと同じとなるので、音素列Aと音素列Bとは、何の修正も成されずに接続されることになる。しかし、実際には300Hzの音素列Aと150Hzの音素列Bとを接続しているので、音素列Aと音素列Bとを接続した接続部分に歪みが生じてしまうことになる。
そこで、本発明では、前記した問題を解決し、基本周波数を用いることなく、連結スコアを求めて、合成音声の音質劣化を抑制することができる音声合成装置および音声合成プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の音声合成装置は、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、探索単位分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。
かかる構成によれば、音声合成装置は、探索単位分割手段によって、テキストデータを探索単位に分割し、複数窓幅相互相関音声データ探索手段によって、探索単位分割手段で分割された探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。
この音声合成装置では、連結スコアを求める特徴量として、基本周波数を用いていない。つまり、従来の音声合成装置では、連結スコアを求める際に、基本周波数の差の自乗を用いているのに対し、この音声合成装置では、音声データ同士の相互相関を用いており、基本周波数の抽出間違いによる合成音声の音質劣化が生じない。なお、音声データ同士の相互相関においては、連結(接続)する音声データの音声波形が似ていれば、相互相関が大きくなり、連結(接続)する音声データの音声波形が似ていなければ、相互相関が小さくなり、少なくとも音声データの音の高さが異なる音声データの連結を避けることができる。さらに、この音声合成装置では、音声データ同士の単純な相互相関を用いるのではなく、相互相関をとるときの窓幅(時間の幅)を様々に、つまり、小さい窓幅から大きい窓幅まで変えて、複数窓幅による相互相関の値を計算して、その中で最大値を用いている。この理由は、音声データ同士の単純な相互相関の場合、1つの音声データの自己相関の場合と異なり、2つの音声データでは基本周期が異なるために、用いる窓幅により相互相関の値が激しく変動する現象が発生するためである。
請求項2に記載の音声合成装置は、入力された複数の数値がならぶ数値列の音声合成を、音声波形と桁区切りごとの発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、桁分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。
かかる構成によれば、音声合成装置は、桁分割手段によって、数値列を各桁に分割し、複数窓幅相互相関音声データ探索手段によって、桁分割手段で数値列が各桁に分割された各桁分割候補を探索単位とし、この探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。
請求項3に記載の音声合成装置は、入力されたテキストデータの音声合成を、音声波形と音素の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、形態素解析手段と、音素クラスタリング手段と、音素アクセントクラスタリング手段と、テキストデータ音素列分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。
かかる構成によれば、音声合成装置は、形態素解析手段によって、テキストデータを形態素解析し、アクセント付の音素に変換し、音素クラスタリング手段によって、形態素解析手段で変換されたアクセント付の音素について、任意の音素と前後に接続された音素とによりクラスタリングを行う。続いて、音声合成装置は、音素アクセントクラスタリング手段によって、音素クラスタリング手段でクラスタリングされたクラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行い、テキストデータ音素列分割手段によって、音素アクセントクラスタリング手段で得られたクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割する。そして、音声合成装置は、複数窓幅相互相関音声データ探索手段によって、テキストデータ音素列分割手段で分割された音素列を探索単位とし、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データの音声波形を、合成音声として出力する。
請求項4に記載の音声合成装置は、請求項1から3までのいずれか一項に記載の音声合成装置において、前記複数窓幅相互相関音声データ探索手段における前記音声データ同士の複数窓幅による相互相関の最大値の計算が、前記音声データの双方が有声音である場合、接続点付近の音声データを用い、前記音声データのいずれかが無声音である場合、接続点付近の有声音部分の音声データを用いることを特徴とする。
かかる構成によれば、音声合成装置は、音声データ連結手段により連結する双方の音声データが有声音となる場合、連結箇所である接続点前後(例えば、前後20ms)の音声データ(接続点前後とは、前方の音声データの終点を接続点として、この接続点から予め設定した範囲に収まっていること)を用いて、複数窓幅相互相関音声データ探索手段で相互相関の最大値の計算を行う。また、音声合成装置は、音声データ連結手段により連結するいずれかが無声音である場合、無声音は直近の有声音の音声データを用いて、複数窓幅相互相関音声データ探索手段で相互相関の最大値の計算を行う。
請求項5に記載の音声合成装置は、請求項1から4までのいずれか一項に記載の音声合成装置において、前記複数窓幅相互相関音声データ探索手段が、前記音声データ同士の複数窓幅による相互相関の値を予め計算してテーブル化した連結スコアテーブルを用いて、前記音声データの組み合わせを、前記音声データベースから探索することを特徴とする。
かかる構成によれば、音声合成装置は、複数窓幅相互相関音声データ探索手段が、音声データ同士の複数窓幅による相互相関の最大値(連結スコアの合計が最大となる値)を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。
請求項6に記載の音声合成装置は、請求項1から5までのいずれか一項に記載の音声合成装置において、前記音声データ連結手段が、前記複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する際に、当該音声波形の連結箇所における特徴量が連続するように補正する音声データ補正手段を備えることを特徴とする。
かかる構成によれば、音声合成装置は、音声データ補正手段によって、音声データの音声波形を連結する際に、連結箇所における特徴量が連続するように補正する。ここで、特徴量とは、基本周波数やケプストラム等である。
請求項7に記載の音声合成プログラムは、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行うために、コンピュータを、探索単位分割手段、複数窓幅相互相関音声データ探索手段、音声データ連結手段、合成音声出力手段、として機能させる構成とした。
かかる構成によれば、音声合成プログラムは、探索単位分割手段によって、テキストデータを探索単位に分割し、複数窓幅相互相関音声データ探索手段によって、探索単位分割手段で分割された探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成プログラムは、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。
請求項1,2,3および7に記載の発明によれば、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。
請求項4に記載の発明によれば、連結する音声データが有声音同士の場合と、いずれかが無声音の場合とで、相関をとる音声データを変えることで、合成音声の音質劣化を抑制することができる。
請求項5に記載の発明によれば、音声データ同士の複数窓幅による相互相関の最大値を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。
請求項6に記載の発明によれば、音声データを連結する際に、特徴量を用いて、当該特徴量が連続するように補正することで、合成音声の音質劣化の抑制に止まらず、当該合成音声の音質を向上させることができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成装置(第一実施形態)の構成〉
図1は音声合成装置のブロック図である。この図1に示すように、音声合成装置1は、入力されたテキストデータを、蓄積されている複数の音声データを用いて、音声合成する、つまり、音声合成結果(音声データ列、すなわち、合成音声)を出力するもので、探索単位分割手段3と、音声データ蓄積手段(音声データベース)5と、複数窓幅相互相関音声データ探索手段7と、音声データ連結手段9と、合成音声出力手段11とを備えている。
探索単位分割手段3は、入力されたテキストデータを探索単位に分割して、探索単位列を、複数窓幅相互相関音声データ探索手段7に出力するものである。この探索単位分割手段3で分割される探索単位として、任意の単語列、任意の音素列を取り扱うことができる。
音声データ蓄積手段5は、音声波形と音声合成する際の探索単位の発話時間(発話開始時刻および発話終了時刻)とを対応付けた複数の音声データを蓄積しているものである。この音声データ蓄積手段5には、音声データが、複数の文章のテキストデータと、当該文章が読み上げられた音声波形とが対応付けられた形態で蓄積されており、文章中の探索単位ごとに、発話開始時刻と発話終了時刻とが付されることで、当該文章が各音声データに分けられている。
複数窓幅相互相関音声データ探索手段7は、探索単位列が入力されると、音声データ蓄積手段5に蓄積されている音声データに対応する探索単位のすべての組み合わせについて、ビタービサーチに基づいた計算を実行し、このビタービサーチの結果、音声データ同士の連結スコアが最も大きくなる音声データ列を出力するものである。なお、ビタービサーチとは、最良(最大)のスコアを与える仮説の履歴のみを残していく手法のことで、ここでは、音声データ同士の連結スコアが最大となるもののみを残して、それぞれの連結スコアの合計値が最大となるものを探索することである。
具体的には、この複数窓幅相互相関音声データ探索手段7は、探索単位列の各探索単位に対応する音声データの複数窓幅による相互相関の値(最大値)を連結スコア(複数窓幅相互相関連結スコア)を算出し、連結スコアの合計値が最大となる音声データの組み合わせ(音声データ列)を、音声データ蓄積手段5の中から探索するものである。
複数窓幅によるとは、窓幅、すなわち、音声データ蓄積手段5に蓄積されている音声データから抽出する時間の幅(時間間隔)を固定するのではなく、変化させて様々な時間間隔(音声データの発話時間内で様々な時間間隔)を採用することであり、例えば、小さい窓幅(短い時間間隔)から大きい窓幅(長い時間間隔)に連続的に変えることである。ここでは、小さい窓幅とは、例えば、窓幅が480(サンプル)程度であり、サンプリング周波数を16kHzとすると、1msで16個のサンプルを取得、つまり、時間間隔である窓幅に換算すると、窓幅30msとなり、大きい窓幅とは、例えば、窓幅が1320(サンプル)程度であり、サンプリング周波数を16kHzとすると、時間間隔である窓幅に換算すると、窓幅82.5msとなる。
相互相関とは、音声データ同士の音声波形の形状によって値(相関値)が変化することをいい、連結する音声データの音声波形が似ていれば、相互相関が大きくなり、連結する音声データの音声波形が似ていなければ、相互相関が小さくなる。この相互相関をとることにより、音声データの音の高さが異なる音声データの連結を少なくとも避けることができる。
例えば、一方の音声データが350Hz(基本周期2.86ms)の正弦波であり、他方の音声データが320Hz(基本周期3.13ms)の正弦波である場合、窓幅の変化に伴った相互相関の変化を図7に示す。また、一方の音声データが350Hz(基本周期2.86ms)の正弦波であり、他方の音声データが250Hz(基本周期4.00ms)の正弦波である場合、窓幅の変化に伴った相互相関の変化を図8に示す。これら図7、8では、横軸に窓幅を縦軸に相互相関をとって、窓幅を約480サンプルから約1320サンプルまで変化させた場合の相互相関の変化を図示している。
これら図7、8に示すように、図7では、窓幅が大きくなるにつれて、相互相関が単調減少していくのに対し、図8では、窓幅が大きくなるにつれて、大小の放物線が連なるように増加と減少を繰り返している。従って、例えば、単一の窓幅720サンプル(窓幅45ms)を用いた場合、図8の場合では、相互相関が0になってしまう。このため、音声合成装置1では、複数の窓幅による相互相関をとって、相互相関の最大値を連結スコアとして用いているので、従来の音声合成装置において、特徴量として連結スコアを求める際に基本周波数を用いる場合や単一の窓幅による単純な相互相関による場合とは異なり、計算された連結スコアを、安定した特徴量として用いることができる。
また、例えば、探索単位を音素(ここでは、素片という)とし、素片Aと素片Bとの連結スコア(複数窓幅相互相関連結スコア)の計算の仕方について、数式(1)と数式(2)とを用いて説明する。
Figure 2007114236
この数式(1)において、Sc(A,B)が複数窓幅相互相関連結スコアであり、wminは最小の窓幅、wmaxは最大の窓幅であり、pは素片Aと素片Bとの相互相関をとる際の位相のずれに対応した幅(位相のずれが大きくなった場合pを大きくとる)であり、xAは素片Aの終わりのフレームを時間0としたときの音声データの値、xBは素片Bの始めのフレームを時間0としたときの音声データの値である。また、数式(1)におけるWi(k)は数式(2)で与えられる重み係数である。
Figure 2007114236
図1に戻って音声合成装置1の構成の説明を続ける。
このように、探索単位が音素である場合、音声データ蓄積手段5に蓄積されている音声データは、音素または複数の音素を接続した音素列を基盤としている。この場合、音声データ蓄積手段5では、複数の音素または音素列からなる複数の文章が構成単位とされ、各文章には文番号が付されており、各音素または各音素列の発話時間が記録されている。
また、複数窓幅相互相関音声データ探索手段7では、音声データ同士の複数窓幅による相互相関の値の計算を行う場合、音声データの双方が有声音である場合、音素境界部分を中心にして相互相関をとり、接続点前後の音声データを採用し、音声データのいずれかが無声音である場合、接続点直近の有声音の音声データを採用する。なお、無声音の音素境界部分を中心にして相互相関を取ると、相互相関の値は無条件に大きくなってしまい、相互相関の値に、有声音のピッチが異なる場合に相互相関の値が小さくなることが反映されてないことになる。これによって、音声合成装置1では、連結する音声データが有声音同士の場合と、いずれかが無声音の場合とで、相関を取る音声データを変えることで、合成音声の音質劣化を抑制することができる。
さらに、複数窓幅相互相関音声データ探索手段7では、音声データ同士の複数窓幅による相互相関の値を予め計算してテーブル化した連結スコアテーブルを用いて、音声データの組み合わせを、音声データ蓄積手段5から探索することも可能である。これによって、音声合成装置1では、複数窓幅相互相関音声データ探索手段7が、音声データ同士の複数窓幅による相互相関の最大値(連続スコアの合計が最大となる値)を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。
音声データ連結手段9は、複数窓幅相互相関音声データ探索手段7で探索された音声データ列の音声データを連結させるものであり、音声データ補正手段10を備えている。この音声データ連結手段9では、音声データ列を構成する前後の音声データの音声波形をクロスフェード(オーバーラップ)させて足し合わせることで、出力音声データを合成音声出力手段11に出力している。
音声データ補正手段10は、複数窓幅相互相関音声データ探索手段7で探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。ここで、特徴量が連続する補正に関しては、特開平2−47700号公報に記載された方法を適用することとする。
合成音声出力手段11は、音声データ連結手段9から出力された出力音声データを合成音声として外部に出力するものである。なお、この合成音声出力手段11は、実際に音声を出力するスピーカ等への出力インターフェースとなるものである。
この音声合成装置1によれば、テキストデータを探索単位分割手段3で分割した探索単位を用いて、複数窓幅相互相関音声データ探索手段7によって、音声データ蓄積手段5を探索する際に、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。
〈音声合成装置(第一実施形態)の動作〉
次に、図4に示すフローチャートを参照して、音声合成装置1の動作について説明する(適宜、図1参照)。
まず、音声合成装置1は、探索単位分割手段3によって、入力されたテキストデータを探索単位に分割する(ステップS1)。続いて、音声合成装置1は、複数窓幅相互相関音声データ探索手段7によって、探索単位分割手段3で分割された探索単位について、音声データ蓄積手段5に蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する(ステップS2)。この組み合わせが音声データ列として音声データ連結手段9に出力される。
そして、音声合成装置1は、音声データ連結手段9によって、複数窓幅相互相関音声データ探索手段7から出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する(ステップS3)。なお、この音声データ連結手段9で音声データが連結される際に、音声データ補正手段10により、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置1は、合成音声出力手段11によって、音声データ連結手段9で連結された出力音声データを合成音声として出力する(ステップS4)。
〈音声合成装置(第二実施形態)の構成〉
図2は音声合成装置(第二実施形態)のブロック図である。この図2に示すように、音声合成装置1Aは、入力された数値列を音声合成した合成音声を出力するもので、桁分割手段13と、音声データ蓄積手段5aと、複数窓幅相互相関音声データ探索手段7aと、音声データ連結手段9aと、合成音声出力手段11aとを備えている。
桁分割手段13は、入力された数値列を各桁に分割するものである。例えば、数値列として「525」(五百二十五)が入力された場合、この桁分割手段13では、「五百+二十」という各桁分割候補(素片)と、「百−二十五」という各桁分割候補(素片)といった各桁に「525」(五百二十五)を分割する。なお、これらの各桁分割候補「五百+二十」は二十が後ろに続く五百を表しており、各桁分割候補「百−二十五」では百が前に来る二十五を表している。
音声データ蓄積手段5aは、音声波形と桁区切り(各桁分割候補に対応)ごとの発話時間(発話開始時刻および発話終了時刻)とを対応付けた複数の音声データを蓄積しているものである。
複数窓幅相互相関音声データ探索手段7aは、桁分割手段13で分割された各桁分割候補を探索単位とし、この探索単位に対応する桁区切りと対応付けられている音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせ(音声データ列)を、音声データ蓄積手段5aに蓄積されている音声データの中から探索するものである。
音声データ連結手段9aは、複数窓幅相互相関音声データ探索手段7aで探索された音声データ列の音声データを連結させるものであり、音声データ補正手段10aを備えている。この音声データ連結手段9aでは、音声データ列を構成する前後の音声データの音声波形をクロスフェードさせて足し合わせることで、出力音声データを合成音声出力手段11aに出力している。
音声データ補正手段10aは、複数窓幅相互相関音声データ探索手段7aで探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。つまり、この音声データ補正手段10aは、連結される数値が、合成音声として読み上げられた際に違和感なく連続するように補正するためのものである。
合成音声出力手段11aは、音声データ連結手段9aから出力された出力音声データを合成音声として外部に出力するものである。
この音声合成装置1Aによれば、数値列を桁分割手段13で分割した各桁分割候補を探索単位とし、この探索単位を用いて、複数窓幅相互相関音声データ探索手段7aによって、音声データ蓄積手段5aを探索する際に、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。
〈音声合成装置(第二実施形態)の動作〉
次に、図5に示すフローチャートを参照して、音声合成装置1Aの動作について説明する(適宜、図2参照)。
まず、音声合成装置1Aは、桁分割手段13によって、入力された数値列を探索単位に分割する(ステップS11)。続いて、音声合成装置1Aは、複数窓幅相互相関音声データ探索手段7aによって、桁分割手段13で分割された桁分割候補を探索単位とし、この探索単位について、音声データ蓄積手段5aに蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する(ステップS12)。この組み合わせが音声データ列として音声データ連結手段9aに出力される。
そして、音声合成装置1Aは、音声データ連結手段9aによって、複数窓幅相互相関音声データ探索手段7aから出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する(ステップS13)。なお、この音声データ連結手段9aで音声データが連結される際に、音声データ補正手段10aにより、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置1Aは、合成音声出力手段11aによって、音声データ連結手段9aで連結された出力音声データを合成音声として出力する(ステップS14)。
〈音声合成装置(第三実施形態)の構成〉
図3は音声合成装置(第三実施形態)のブロック図である。この図3に示すように、音声合成装置1Bは、入力されたテキストデータを形態素解析して、音素を探索単位として音声合成を行うもので、形態素解析手段15と、音素クラスタリング手段17と、音素アクセントクラスタリング手段19と、テキストデータ音素列分割手段21と、音声データ蓄積手段5bと、複数窓幅相互相関音声データ探索手段7bと、音声データ連結手段9bと、合成音声出力手段11bとを備えている。
形態素解析手段15は、入力されたテキストデータに形態素解析を施して、当該テキストデータからアクセント付の音素を出力するものである。このアクセント付の音素は、各音素ごとにアクセントに関する情報(アクセント情報)を付したものである。なお、この形態素解析手段15には、図示を省略した複数の単語のアクセントを記録した単語アクセント辞書や様々な単語同士が連続(接続)する確率を記録した単語の接続確率テーブルを備えている。
音素クラスタリング手段17は、形態素解析手段15で形態素解析された結果であるアクセント付の音素について、任意の音素と、この任意の音素の前後に接続された1つまたは複数個の音素とによりクラスタリング(分類)を行うものである。つまり、この音素クラスタリング手段17は、ある音素(中心音素)を中心にして少なくともこの音素の前に発声される音素(先行音素)と、この音素の後に発声される音素(後続音素)とにより、少なくとも3個の音素が連続する音素列にアクセント付の音素を分類する。分類されたアクセント付の音素は、クラスタリング音素として音素アクセントクラスタリング手段19に出力される。なお、一番最初の音素を中心音素とする場合、先行音素無し、または、一番最後の音素を中心音素とする場合、後続音素無しとして処理することとする。
音素アクセントクラスタリング手段19は、音素クラスタリング手段17でクラスタリングされたクラスタリング音素を、子音の前後に接続した母音のアクセントによりクラスタリングを行うものである。クラスタリング音素が「母音、子音、母音」の3個の音素が連続したものである場合、「低低低(高高高)」、「低低高」、「低高低」、「低高高」、「高低低」、「高低高」、「高高低」の7(8)パターンにクラスタリングされる。クラスタリングされたクラスタリング音素は、テキストデータ音素列分割手段21に出力される。
テキストデータ音素列分割手段21は、音素アクセントクラスタリング手段19でクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割するものである。このテキストデータ音素列分割手段21には、当該装置1Bの利用者が登録音素列を予め登録しておく音素列登録手段(図示せず)を備えている。この登録音素列は、特願2003−296585に記載されているものを利用することができる。
音声データ蓄積手段5bは、音声波形と音素の発話時間(発話開始時刻および発話終了時刻)とを対応付けた複数の音声データを蓄積しているものである。この音声データ蓄積手段5bでは、複数の音素または音素列の集合からなる「文章」が蓄積される単位となっており、各文章には「文番号」が付されており、各音素列の発話時間が記録されている。
複数窓幅相互相関音声データ探索手段7bは、テキストデータ音素列分割手段21でクラスタリングされたテキストデータが分割された音素列を探索単位として、音声データ蓄積手段5bに蓄積されている音声データに対応する探索単位のすべての組み合わせについて、ビタービサーチに基づいた計算を実行し、このビタービサーチの結果、音声データ同士の連結スコアが最も大きくなる音声データ列を出力するものである。
音声データ連結手段9bは、複数窓幅相互相関音声データ探索手段7bで探索された音声データ列の音声データを連結させるものであり、音声データ補正手段10bを備えている。この音声データ連結手段9bでは、音声データ列を構成する前後の音声データの音声波形をクロスフェードさせて足し合わせることで、出力音声データを合成音声出力手段11bに出力している。
音声データ補正手段10bは、複数窓幅相互相関音声データ探索手段7bで探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。
合成音声出力手段11bは、音声データ連結手段9bから出力された出力音声データを合成音声として外部に出力するものである。
この音声合成装置1Bによれば、テキストデータを形態素解析手段15で形態素解析し、アクセント付の音素列に変換し、音素クラスタリング手段17によって、任意の音素と前後に接続された音素とによりクラスタリングし、音素アクセントクラスタリング手段19によって、クラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行う。そして、得られたクラスタリングされたテキストデータを、テキストデータ音素列分割手段21によって、予め登録しておいた登録音素列に従って分割し、分割された音素列を探索単位とし、複数窓幅相互相関音声データ探索手段7bによって、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとして、この連結スコアが最大となる音声データの組み合わせを求めているので、基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。
〈音声合成装置(第三実施形態)の動作〉
次に、図6に示すフローチャート参照して、音声合成装置1Bの動作について説明する(適宜、図3参照)。
まず、音声合成装置1Bは、入力されたテキストデータを、形態素解析手段15によって、形態素解析し(ステップS21)、音素クラスタリング手段17にアクセント付の音素を出力する。
続いて、音声合成装置1Bは、音素クラスタリング手段17によって、アクセント付の音素について、少なくとも前後一つずつの音素を考慮した音素にクラスタリングし(ステップS22)、このクラスリングしたクラスタリング音素を、音素アクセントクラスタリング手段19によって、子音(場合によっては、母音の場合もありうる)の前後に接続した母音のアクセントによりクラスタリングする(ステップS23)。
そして、音声合成装置1Bは、テキストデータ音素列分割手段21によって、音素アクセントクラスタリング手段19から出力されたクラスタリングされたテキストデータを、登録音素列に従って音素列に分割し(ステップS24)、複数窓幅相互相関音声データ探索手段7bによって、テキストデータ音素列分割手段21で分割された音素列を探索単位とし、この探索単位について、音声データ蓄積手段5bに蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する(ステップS25)。この組み合わせが音声データ列として音声データ連結手段9bに出力される。
そして、音声合成装置1Bは、音声データ連結手段9bによって、複数窓幅相互相関音声データ探索手段7bから出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する(ステップS26)。なお、この音声データ連結手段9bで音声データが連結される際に、音声データ補正手段10bにより、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置1Bは、合成音声出力手段11bによって、音声データ連結手段9bで連結された出力音声データを合成音声として出力する(ステップS27)。
以上、本発明の実施形態について説明したが、本発明は前記各実施形態には限定されない。例えば、各実施形態では、音声合成装置1、1A、1Bとして説明したが、これらの装置1、1A、1Bの各構成の処理を実現できるように、特殊な、または、汎用的なコンピュータ言語で記述した音声合成プログラムとして構成することも可能である。この音声合成プログラムは、音声合成装置1、1A、1Bと同様の効果を得ることができる。
本発明の実施形態に係る音声合成装置(第一実施形態)のブロック図である。 本発明の実施形態に係る音声合成装置(第二実施形態)のブロック図である。 本発明の実施形態に係る音声合成装置(第三実施形態)のブロック図である。 図1に示した音声合成装置(第一実施形態)の動作を説明するためのフローチャートである。 図2に示した音声合成装置(第二実施形態)の動作を説明するためのフローチャートである。 図3に示した音声合成装置(第三実施形態)の動作を説明するためのフローチャートである。 2つの音声データにおける窓幅と相互相関との関係(相互相関が単調減少する場合)を示した図である。 2つの音声データにおける窓幅と相互相関との関係(相互相関が増減する場合)を示した図である。
符号の説明
1、1A、1B 音声合成装置
3 探索単位分割手段
5、5a、5b 音声データ蓄積手段(音声データベース)
7、7a、7b 複数窓幅相互相関音声データ探索手段
9、9a、9b 音声データ連結手段
10、10a、10b 音声データ補正手段
11、11a、11b 合成音声出力手段
13 桁分割手段
15 形態素解析手段
17 音素クラスタリング手段
19 音素アクセントクラスタリング手段
21 テキストデータ音素列分割手段

Claims (7)

  1. 入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
    前記音声データベースと、
    前記テキストデータを前記探索単位に分割する探索単位分割手段と、
    この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
    この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
    この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
    を備えることを特徴とする音声合成装置。
  2. 入力された複数の数値がならぶ数値列の音声合成を、音声波形と桁区切りごとの発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
    前記音声データベースと、
    前記数値列を、各桁に分割する桁分割手段と、
    この桁分割手段で前記数値列が各桁に分割された各桁分割候補を探索単位とし、この探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
    この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
    この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
    を備えることを特徴とする音声合成装置。
  3. 入力されたテキストデータの音声合成を、音声波形と音素の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
    前記音声データベースと、
    前記テキストデータを形態素解析し、アクセント付の音素に変換する形態素解析手段と、
    この形態素解析手段で変換されたアクセント付の音素について、任意の音素と前後に接続された音素とによりクラスタリングを行う音素クラスタリング手段と、
    この音素クラスタリング手段でクラスタリングされたクラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行う音素アクセントクラスタリング手段と、
    この音素アクセントクラスタリング手段で得られたクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割するテキストデータ音素列分割手段と、
    このテキストデータ音素列分割手段で分割された音素列を探索単位とし、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
    この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
    この音声データ連結手段で連結された音声データの音声波形を、合成音声として出力する合成音声出力手段と、
    を備えることを特徴とする音声合成装置。
  4. 前記複数窓幅相互相関音声データ探索手段における前記音声データ同士の複数窓幅による相互相関の最大値の計算は、
    前記音声データの双方が有声音である場合、
    接続点前後の音声データを用い、
    前記音声データのいずれかが無声音である場合、
    接続点直近の有声音の音声データを用いることを特徴とする請求項1から3までのいずれか一項に記載の音声合成装置。
  5. 前記複数窓幅相互相関音声データ探索手段は、
    前記音声データ同士の複数窓幅による相互相関の最大値を予め計算してテーブル化した連結スコアテーブルを用いて、前記音声データの組み合わせを、前記音声データベースから探索することを特徴とする請求項1から4までのいずれか一項に記載の音声合成装置。
  6. 前記音声データ連結手段は、
    前記複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する際に、当該音声波形の連結箇所における特徴量が連続するように補正する音声データ補正手段を備えることを特徴とする請求項1から5までのいずれか一項に記載の音声合成装置。
  7. 入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行うために、コンピュータを、
    前記テキストデータを前記探索単位に分割する探索単位分割手段、
    この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段、
    この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段、
    この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段、
    として機能させることを特徴とする音声合成プログラム。
JP2005302440A 2005-10-18 2005-10-18 音声合成装置および音声合成プログラム Active JP4839058B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005302440A JP4839058B2 (ja) 2005-10-18 2005-10-18 音声合成装置および音声合成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005302440A JP4839058B2 (ja) 2005-10-18 2005-10-18 音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2007114236A true JP2007114236A (ja) 2007-05-10
JP4839058B2 JP4839058B2 (ja) 2011-12-14

Family

ID=38096533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005302440A Active JP4839058B2 (ja) 2005-10-18 2005-10-18 音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4839058B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
JP2002530703A (ja) * 1998-11-13 2002-09-17 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 音声波形の連結を用いる音声合成
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2004139033A (ja) * 2002-09-25 2004-05-13 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Also Published As

Publication number Publication date
JP4839058B2 (ja) 2011-12-14

Similar Documents

Publication Publication Date Title
US7890330B2 (en) Voice recording tool for creating database used in text to speech synthesis system
EP2140447B1 (en) System and method for hybrid speech synthesis
JP5208352B2 (ja) 声調言語用分節声調モデリング
US20200410981A1 (en) Text-to-speech (tts) processing
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20200365137A1 (en) Text-to-speech (tts) processing
JPH10171484A (ja) 音声合成方法および装置
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP6013104B2 (ja) 音声合成方法、装置、及びプログラム
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP2013061591A (ja) 音声合成装置、音声合成方法およびプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
KR100259777B1 (ko) 텍스트/음성변환기에서의최적합성단위열선정방법
US20070203706A1 (en) Voice analysis tool for creating database used in text to speech synthesis system
JP5328703B2 (ja) 韻律パターン生成装置
JP4839058B2 (ja) 音声合成装置および音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JP5174392B2 (ja) アクセント句マッチング事前選択を用いた日本語音声合成方法及びシステム
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
JP2021148942A (ja) 声質変換システムおよび声質変換方法
JP3854593B2 (ja) 音声合成装置及びそのためのコスト計算装置、並びにコンピュータプログラム
JP3883318B2 (ja) 音声素片作成方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110906

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111003

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141007

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4839058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250