JP2007114236A

JP2007114236A - 音声合成装置および音声合成プログラム

Info

Publication number: JP2007114236A
Application number: JP2005302440A
Authority: JP
Inventors: Hiroyuki Segi; 寛之世木; Toru Tsugi; 徹都木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-10-18
Filing date: 2005-10-18
Publication date: 2007-05-10
Anticipated expiration: 2025-10-18
Also published as: JP4839058B2

Abstract

【課題】基本周波数を用いることなく、連結スコアを求めて、合成音声の音質劣化を抑制することができる音声合成装置および音声合成プログラムを提供する。
【解決手段】音声合成装置１は、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データ蓄積手段５を用いて行うものであって、探索単位分割手段３と、複数窓幅相互相関音声データ探索手段７と、音声データ連結手段９と、合成音声出力手段１１と、を備える。
【選択図】図１

Description

本発明は、音声データベースを利用して、音声合成を行う音声合成装置および音声合成プログラムに関する。

従来の音声合成の方法として、例えば、自然発話音声波形信号接続型音声合成装置（特許文献１参照、以下、従来の音声合成装置という）が開示されている。
この従来の音声合成装置には、読み上げられた複数の文章（サンプル文章）の音声波形信号が記録されており、且つ、これらの文章を構成する音素の発話時刻が記録されている音声データベースが備えられている。

そして、この従来の音声合成装置は、当該装置に入力された文章（入力文章）を音素に分割した後、分割した音素を探索単位として、当該音素同士を接続した際のコスト（スコア）の和が最大となる組み合わせを、音声データベースの中から探索して音声合成を行うものである。なお、音素同士を接続した際のコストとは、音素の音声データを接続した際に自然な音声に聞こえるか否かを示す指標となるものであり、コストが低くなるほど自然に聞こえる（違和感が無くなる）と言え、音韻韻律コスト（音韻韻律スコア）と、連結コスト（連結スコア）とがある。

音韻韻律スコアは、分割された音素列同士の音韻と韻律とに着目して得られたスコアであり、主に音韻とは母音と子音とに関するものであり、韻律とはリズムやアクセントに関するものである。
連結スコアは、分割された音素列同士の基本周波数の差の自乗等を利用して得られたスコアである。
特開平１０−４９１９３号公報

しかしながら、従来の音声合成装置では、連結スコアとして、音素列同士の基本周波数の差の自乗を利用しており、この基本周波数を、音声合成する際の特徴量として用いる限り、当該基本周波数の抽出間違いが避けられず、抽出間違いが発生した場合には、連結スコアの誤差が非常に大きくなってしまい、合成した合成音声の音質劣化が激しくなるという問題がある。

例えば、接続する一方の音声データ（音声データＡとする）の基本周波数の正確な値が３００Ｈｚであれば、従来の音声合成装置では、１５０Ｈｚという半分の値が抽出されやすい。そして、接続する他方の音声データ（音声データＢとする）の基本周波数が１５０Ｈｚであるとすると、音素列Ａの基本周波数は３００Ｈｚであるのに、１５０Ｈｚと抽出されているので、音素列Ｂの基本周波数である１５０Ｈｚと同じとなるので、音素列Ａと音素列Ｂとは、何の修正も成されずに接続されることになる。しかし、実際には３００Ｈｚの音素列Ａと１５０Ｈｚの音素列Ｂとを接続しているので、音素列Ａと音素列Ｂとを接続した接続部分に歪みが生じてしまうことになる。

そこで、本発明では、前記した問題を解決し、基本周波数を用いることなく、連結スコアを求めて、合成音声の音質劣化を抑制することができる音声合成装置および音声合成プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載の音声合成装置は、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、探索単位分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、探索単位分割手段によって、テキストデータを探索単位に分割し、複数窓幅相互相関音声データ探索手段によって、探索単位分割手段で分割された探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。

この音声合成装置では、連結スコアを求める特徴量として、基本周波数を用いていない。つまり、従来の音声合成装置では、連結スコアを求める際に、基本周波数の差の自乗を用いているのに対し、この音声合成装置では、音声データ同士の相互相関を用いており、基本周波数の抽出間違いによる合成音声の音質劣化が生じない。なお、音声データ同士の相互相関においては、連結（接続）する音声データの音声波形が似ていれば、相互相関が大きくなり、連結（接続）する音声データの音声波形が似ていなければ、相互相関が小さくなり、少なくとも音声データの音の高さが異なる音声データの連結を避けることができる。さらに、この音声合成装置では、音声データ同士の単純な相互相関を用いるのではなく、相互相関をとるときの窓幅（時間の幅）を様々に、つまり、小さい窓幅から大きい窓幅まで変えて、複数窓幅による相互相関の値を計算して、その中で最大値を用いている。この理由は、音声データ同士の単純な相互相関の場合、１つの音声データの自己相関の場合と異なり、２つの音声データでは基本周期が異なるために、用いる窓幅により相互相関の値が激しく変動する現象が発生するためである。

請求項２に記載の音声合成装置は、入力された複数の数値がならぶ数値列の音声合成を、音声波形と桁区切りごとの発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、桁分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、桁分割手段によって、数値列を各桁に分割し、複数窓幅相互相関音声データ探索手段によって、桁分割手段で数値列が各桁に分割された各桁分割候補を探索単位とし、この探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。

請求項３に記載の音声合成装置は、入力されたテキストデータの音声合成を、音声波形と音素の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、前記音声データベースと、形態素解析手段と、音素クラスタリング手段と、音素アクセントクラスタリング手段と、テキストデータ音素列分割手段と、複数窓幅相互相関音声データ探索手段と、音声データ連結手段と、合成音声出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、形態素解析手段によって、テキストデータを形態素解析し、アクセント付の音素に変換し、音素クラスタリング手段によって、形態素解析手段で変換されたアクセント付の音素について、任意の音素と前後に接続された音素とによりクラスタリングを行う。続いて、音声合成装置は、音素アクセントクラスタリング手段によって、音素クラスタリング手段でクラスタリングされたクラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行い、テキストデータ音素列分割手段によって、音素アクセントクラスタリング手段で得られたクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割する。そして、音声合成装置は、複数窓幅相互相関音声データ探索手段によって、テキストデータ音素列分割手段で分割された音素列を探索単位とし、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成装置は、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データの音声波形を、合成音声として出力する。

請求項４に記載の音声合成装置は、請求項１から３までのいずれか一項に記載の音声合成装置において、前記複数窓幅相互相関音声データ探索手段における前記音声データ同士の複数窓幅による相互相関の最大値の計算が、前記音声データの双方が有声音である場合、接続点付近の音声データを用い、前記音声データのいずれかが無声音である場合、接続点付近の有声音部分の音声データを用いることを特徴とする。

かかる構成によれば、音声合成装置は、音声データ連結手段により連結する双方の音声データが有声音となる場合、連結箇所である接続点前後（例えば、前後２０ｍｓ）の音声データ（接続点前後とは、前方の音声データの終点を接続点として、この接続点から予め設定した範囲に収まっていること）を用いて、複数窓幅相互相関音声データ探索手段で相互相関の最大値の計算を行う。また、音声合成装置は、音声データ連結手段により連結するいずれかが無声音である場合、無声音は直近の有声音の音声データを用いて、複数窓幅相互相関音声データ探索手段で相互相関の最大値の計算を行う。

請求項５に記載の音声合成装置は、請求項１から４までのいずれか一項に記載の音声合成装置において、前記複数窓幅相互相関音声データ探索手段が、前記音声データ同士の複数窓幅による相互相関の値を予め計算してテーブル化した連結スコアテーブルを用いて、前記音声データの組み合わせを、前記音声データベースから探索することを特徴とする。

かかる構成によれば、音声合成装置は、複数窓幅相互相関音声データ探索手段が、音声データ同士の複数窓幅による相互相関の最大値（連結スコアの合計が最大となる値）を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。

請求項６に記載の音声合成装置は、請求項１から５までのいずれか一項に記載の音声合成装置において、前記音声データ連結手段が、前記複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する際に、当該音声波形の連結箇所における特徴量が連続するように補正する音声データ補正手段を備えることを特徴とする。

かかる構成によれば、音声合成装置は、音声データ補正手段によって、音声データの音声波形を連結する際に、連結箇所における特徴量が連続するように補正する。ここで、特徴量とは、基本周波数やケプストラム等である。

請求項７に記載の音声合成プログラムは、入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行うために、コンピュータを、探索単位分割手段、複数窓幅相互相関音声データ探索手段、音声データ連結手段、合成音声出力手段、として機能させる構成とした。

かかる構成によれば、音声合成プログラムは、探索単位分割手段によって、テキストデータを探索単位に分割し、複数窓幅相互相関音声データ探索手段によって、探索単位分割手段で分割された探索単位について、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを、音声データベースから探索する。そして、音声合成プログラムは、音声データ連結手段によって、複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結し、合成音声出力手段によって、音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する。

請求項１，２，３および７に記載の発明によれば、音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。

請求項４に記載の発明によれば、連結する音声データが有声音同士の場合と、いずれかが無声音の場合とで、相関をとる音声データを変えることで、合成音声の音質劣化を抑制することができる。

請求項５に記載の発明によれば、音声データ同士の複数窓幅による相互相関の最大値を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。

請求項６に記載の発明によれば、音声データを連結する際に、特徴量を用いて、当該特徴量が連続するように補正することで、合成音声の音質劣化の抑制に止まらず、当該合成音声の音質を向上させることができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈音声合成装置（第一実施形態）の構成〉
図１は音声合成装置のブロック図である。この図１に示すように、音声合成装置１は、入力されたテキストデータを、蓄積されている複数の音声データを用いて、音声合成する、つまり、音声合成結果（音声データ列、すなわち、合成音声）を出力するもので、探索単位分割手段３と、音声データ蓄積手段（音声データベース）５と、複数窓幅相互相関音声データ探索手段７と、音声データ連結手段９と、合成音声出力手段１１とを備えている。

探索単位分割手段３は、入力されたテキストデータを探索単位に分割して、探索単位列を、複数窓幅相互相関音声データ探索手段７に出力するものである。この探索単位分割手段３で分割される探索単位として、任意の単語列、任意の音素列を取り扱うことができる。

音声データ蓄積手段５は、音声波形と音声合成する際の探索単位の発話時間（発話開始時刻および発話終了時刻）とを対応付けた複数の音声データを蓄積しているものである。この音声データ蓄積手段５には、音声データが、複数の文章のテキストデータと、当該文章が読み上げられた音声波形とが対応付けられた形態で蓄積されており、文章中の探索単位ごとに、発話開始時刻と発話終了時刻とが付されることで、当該文章が各音声データに分けられている。

複数窓幅相互相関音声データ探索手段７は、探索単位列が入力されると、音声データ蓄積手段５に蓄積されている音声データに対応する探索単位のすべての組み合わせについて、ビタービサーチに基づいた計算を実行し、このビタービサーチの結果、音声データ同士の連結スコアが最も大きくなる音声データ列を出力するものである。なお、ビタービサーチとは、最良（最大）のスコアを与える仮説の履歴のみを残していく手法のことで、ここでは、音声データ同士の連結スコアが最大となるもののみを残して、それぞれの連結スコアの合計値が最大となるものを探索することである。

具体的には、この複数窓幅相互相関音声データ探索手段７は、探索単位列の各探索単位に対応する音声データの複数窓幅による相互相関の値（最大値）を連結スコア（複数窓幅相互相関連結スコア）を算出し、連結スコアの合計値が最大となる音声データの組み合わせ（音声データ列）を、音声データ蓄積手段５の中から探索するものである。

複数窓幅によるとは、窓幅、すなわち、音声データ蓄積手段５に蓄積されている音声データから抽出する時間の幅（時間間隔）を固定するのではなく、変化させて様々な時間間隔（音声データの発話時間内で様々な時間間隔）を採用することであり、例えば、小さい窓幅（短い時間間隔）から大きい窓幅（長い時間間隔）に連続的に変えることである。ここでは、小さい窓幅とは、例えば、窓幅が４８０（サンプル）程度であり、サンプリング周波数を１６ｋＨｚとすると、１ｍｓで１６個のサンプルを取得、つまり、時間間隔である窓幅に換算すると、窓幅３０ｍｓとなり、大きい窓幅とは、例えば、窓幅が１３２０（サンプル）程度であり、サンプリング周波数を１６ｋＨｚとすると、時間間隔である窓幅に換算すると、窓幅８２．５ｍｓとなる。

相互相関とは、音声データ同士の音声波形の形状によって値（相関値）が変化することをいい、連結する音声データの音声波形が似ていれば、相互相関が大きくなり、連結する音声データの音声波形が似ていなければ、相互相関が小さくなる。この相互相関をとることにより、音声データの音の高さが異なる音声データの連結を少なくとも避けることができる。

例えば、一方の音声データが３５０Ｈｚ（基本周期２．８６ｍｓ）の正弦波であり、他方の音声データが３２０Ｈｚ（基本周期３．１３ｍｓ）の正弦波である場合、窓幅の変化に伴った相互相関の変化を図７に示す。また、一方の音声データが３５０Ｈｚ（基本周期２．８６ｍｓ）の正弦波であり、他方の音声データが２５０Ｈｚ（基本周期４．００ｍｓ）の正弦波である場合、窓幅の変化に伴った相互相関の変化を図８に示す。これら図７、８では、横軸に窓幅を縦軸に相互相関をとって、窓幅を約４８０サンプルから約１３２０サンプルまで変化させた場合の相互相関の変化を図示している。

これら図７、８に示すように、図７では、窓幅が大きくなるにつれて、相互相関が単調減少していくのに対し、図８では、窓幅が大きくなるにつれて、大小の放物線が連なるように増加と減少を繰り返している。従って、例えば、単一の窓幅７２０サンプル（窓幅４５ｍｓ）を用いた場合、図８の場合では、相互相関が０になってしまう。このため、音声合成装置１では、複数の窓幅による相互相関をとって、相互相関の最大値を連結スコアとして用いているので、従来の音声合成装置において、特徴量として連結スコアを求める際に基本周波数を用いる場合や単一の窓幅による単純な相互相関による場合とは異なり、計算された連結スコアを、安定した特徴量として用いることができる。

また、例えば、探索単位を音素（ここでは、素片という）とし、素片Ａと素片Ｂとの連結スコア（複数窓幅相互相関連結スコア）の計算の仕方について、数式（１）と数式（２）とを用いて説明する。

この数式（１）において、Ｓ_c（Ａ，Ｂ）が複数窓幅相互相関連結スコアであり、ｗ_minは最小の窓幅、ｗ_maxは最大の窓幅であり、ｐは素片Ａと素片Ｂとの相互相関をとる際の位相のずれに対応した幅（位相のずれが大きくなった場合ｐを大きくとる）であり、ｘ_Aは素片Ａの終わりのフレームを時間０としたときの音声データの値、ｘ_Bは素片Ｂの始めのフレームを時間０としたときの音声データの値である。また、数式（１）におけるＷ_i（ｋ）は数式（２）で与えられる重み係数である。

図１に戻って音声合成装置１の構成の説明を続ける。
このように、探索単位が音素である場合、音声データ蓄積手段５に蓄積されている音声データは、音素または複数の音素を接続した音素列を基盤としている。この場合、音声データ蓄積手段５では、複数の音素または音素列からなる複数の文章が構成単位とされ、各文章には文番号が付されており、各音素または各音素列の発話時間が記録されている。

また、複数窓幅相互相関音声データ探索手段７では、音声データ同士の複数窓幅による相互相関の値の計算を行う場合、音声データの双方が有声音である場合、音素境界部分を中心にして相互相関をとり、接続点前後の音声データを採用し、音声データのいずれかが無声音である場合、接続点直近の有声音の音声データを採用する。なお、無声音の音素境界部分を中心にして相互相関を取ると、相互相関の値は無条件に大きくなってしまい、相互相関の値に、有声音のピッチが異なる場合に相互相関の値が小さくなることが反映されてないことになる。これによって、音声合成装置１では、連結する音声データが有声音同士の場合と、いずれかが無声音の場合とで、相関を取る音声データを変えることで、合成音声の音質劣化を抑制することができる。

さらに、複数窓幅相互相関音声データ探索手段７では、音声データ同士の複数窓幅による相互相関の値を予め計算してテーブル化した連結スコアテーブルを用いて、音声データの組み合わせを、音声データ蓄積手段５から探索することも可能である。これによって、音声合成装置１では、複数窓幅相互相関音声データ探索手段７が、音声データ同士の複数窓幅による相互相関の最大値（連続スコアの合計が最大となる値）を求める際に、連結スコアテーブルを用いることで、処理速度を向上させることができる。

音声データ連結手段９は、複数窓幅相互相関音声データ探索手段７で探索された音声データ列の音声データを連結させるものであり、音声データ補正手段１０を備えている。この音声データ連結手段９では、音声データ列を構成する前後の音声データの音声波形をクロスフェード（オーバーラップ）させて足し合わせることで、出力音声データを合成音声出力手段１１に出力している。

音声データ補正手段１０は、複数窓幅相互相関音声データ探索手段７で探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。ここで、特徴量が連続する補正に関しては、特開平２−４７７００号公報に記載された方法を適用することとする。

合成音声出力手段１１は、音声データ連結手段９から出力された出力音声データを合成音声として外部に出力するものである。なお、この合成音声出力手段１１は、実際に音声を出力するスピーカ等への出力インターフェースとなるものである。

この音声合成装置１によれば、テキストデータを探索単位分割手段３で分割した探索単位を用いて、複数窓幅相互相関音声データ探索手段７によって、音声データ蓄積手段５を探索する際に、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。

〈音声合成装置（第一実施形態）の動作〉
次に、図４に示すフローチャートを参照して、音声合成装置１の動作について説明する（適宜、図１参照）。
まず、音声合成装置１は、探索単位分割手段３によって、入力されたテキストデータを探索単位に分割する（ステップＳ１）。続いて、音声合成装置１は、複数窓幅相互相関音声データ探索手段７によって、探索単位分割手段３で分割された探索単位について、音声データ蓄積手段５に蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する（ステップＳ２）。この組み合わせが音声データ列として音声データ連結手段９に出力される。

そして、音声合成装置１は、音声データ連結手段９によって、複数窓幅相互相関音声データ探索手段７から出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する（ステップＳ３）。なお、この音声データ連結手段９で音声データが連結される際に、音声データ補正手段１０により、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置１は、合成音声出力手段１１によって、音声データ連結手段９で連結された出力音声データを合成音声として出力する（ステップＳ４）。

〈音声合成装置（第二実施形態）の構成〉
図２は音声合成装置（第二実施形態）のブロック図である。この図２に示すように、音声合成装置１Ａは、入力された数値列を音声合成した合成音声を出力するもので、桁分割手段１３と、音声データ蓄積手段５ａと、複数窓幅相互相関音声データ探索手段７ａと、音声データ連結手段９ａと、合成音声出力手段１１ａとを備えている。

桁分割手段１３は、入力された数値列を各桁に分割するものである。例えば、数値列として「５２５」（五百二十五）が入力された場合、この桁分割手段１３では、「五百＋二十」という各桁分割候補（素片）と、「百−二十五」という各桁分割候補（素片）といった各桁に「５２５」（五百二十五）を分割する。なお、これらの各桁分割候補「五百＋二十」は二十が後ろに続く五百を表しており、各桁分割候補「百−二十五」では百が前に来る二十五を表している。

音声データ蓄積手段５ａは、音声波形と桁区切り（各桁分割候補に対応）ごとの発話時間（発話開始時刻および発話終了時刻）とを対応付けた複数の音声データを蓄積しているものである。

複数窓幅相互相関音声データ探索手段７ａは、桁分割手段１３で分割された各桁分割候補を探索単位とし、この探索単位に対応する桁区切りと対応付けられている音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる音声データの組み合わせ（音声データ列）を、音声データ蓄積手段５ａに蓄積されている音声データの中から探索するものである。

音声データ連結手段９ａは、複数窓幅相互相関音声データ探索手段７ａで探索された音声データ列の音声データを連結させるものであり、音声データ補正手段１０ａを備えている。この音声データ連結手段９ａでは、音声データ列を構成する前後の音声データの音声波形をクロスフェードさせて足し合わせることで、出力音声データを合成音声出力手段１１ａに出力している。

音声データ補正手段１０ａは、複数窓幅相互相関音声データ探索手段７ａで探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。つまり、この音声データ補正手段１０ａは、連結される数値が、合成音声として読み上げられた際に違和感なく連続するように補正するためのものである。

合成音声出力手段１１ａは、音声データ連結手段９ａから出力された出力音声データを合成音声として外部に出力するものである。

この音声合成装置１Ａによれば、数値列を桁分割手段１３で分割した各桁分割候補を探索単位とし、この探索単位を用いて、複数窓幅相互相関音声データ探索手段７ａによって、音声データ蓄積手段５ａを探索する際に、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを求めているので、連結スコアを求める際に基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。

〈音声合成装置（第二実施形態）の動作〉
次に、図５に示すフローチャートを参照して、音声合成装置１Ａの動作について説明する（適宜、図２参照）。
まず、音声合成装置１Ａは、桁分割手段１３によって、入力された数値列を探索単位に分割する（ステップＳ１１）。続いて、音声合成装置１Ａは、複数窓幅相互相関音声データ探索手段７ａによって、桁分割手段１３で分割された桁分割候補を探索単位とし、この探索単位について、音声データ蓄積手段５ａに蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する（ステップＳ１２）。この組み合わせが音声データ列として音声データ連結手段９ａに出力される。

そして、音声合成装置１Ａは、音声データ連結手段９ａによって、複数窓幅相互相関音声データ探索手段７ａから出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する（ステップＳ１３）。なお、この音声データ連結手段９ａで音声データが連結される際に、音声データ補正手段１０ａにより、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置１Ａは、合成音声出力手段１１ａによって、音声データ連結手段９ａで連結された出力音声データを合成音声として出力する（ステップＳ１４）。

〈音声合成装置（第三実施形態）の構成〉
図３は音声合成装置（第三実施形態）のブロック図である。この図３に示すように、音声合成装置１Ｂは、入力されたテキストデータを形態素解析して、音素を探索単位として音声合成を行うもので、形態素解析手段１５と、音素クラスタリング手段１７と、音素アクセントクラスタリング手段１９と、テキストデータ音素列分割手段２１と、音声データ蓄積手段５ｂと、複数窓幅相互相関音声データ探索手段７ｂと、音声データ連結手段９ｂと、合成音声出力手段１１ｂとを備えている。

形態素解析手段１５は、入力されたテキストデータに形態素解析を施して、当該テキストデータからアクセント付の音素を出力するものである。このアクセント付の音素は、各音素ごとにアクセントに関する情報（アクセント情報）を付したものである。なお、この形態素解析手段１５には、図示を省略した複数の単語のアクセントを記録した単語アクセント辞書や様々な単語同士が連続（接続）する確率を記録した単語の接続確率テーブルを備えている。

音素クラスタリング手段１７は、形態素解析手段１５で形態素解析された結果であるアクセント付の音素について、任意の音素と、この任意の音素の前後に接続された１つまたは複数個の音素とによりクラスタリング（分類）を行うものである。つまり、この音素クラスタリング手段１７は、ある音素（中心音素）を中心にして少なくともこの音素の前に発声される音素（先行音素）と、この音素の後に発声される音素（後続音素）とにより、少なくとも３個の音素が連続する音素列にアクセント付の音素を分類する。分類されたアクセント付の音素は、クラスタリング音素として音素アクセントクラスタリング手段１９に出力される。なお、一番最初の音素を中心音素とする場合、先行音素無し、または、一番最後の音素を中心音素とする場合、後続音素無しとして処理することとする。

音素アクセントクラスタリング手段１９は、音素クラスタリング手段１７でクラスタリングされたクラスタリング音素を、子音の前後に接続した母音のアクセントによりクラスタリングを行うものである。クラスタリング音素が「母音、子音、母音」の３個の音素が連続したものである場合、「低低低（高高高）」、「低低高」、「低高低」、「低高高」、「高低低」、「高低高」、「高高低」の７（８）パターンにクラスタリングされる。クラスタリングされたクラスタリング音素は、テキストデータ音素列分割手段２１に出力される。

テキストデータ音素列分割手段２１は、音素アクセントクラスタリング手段１９でクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割するものである。このテキストデータ音素列分割手段２１には、当該装置１Ｂの利用者が登録音素列を予め登録しておく音素列登録手段（図示せず）を備えている。この登録音素列は、特願２００３−２９６５８５に記載されているものを利用することができる。

音声データ蓄積手段５ｂは、音声波形と音素の発話時間（発話開始時刻および発話終了時刻）とを対応付けた複数の音声データを蓄積しているものである。この音声データ蓄積手段５ｂでは、複数の音素または音素列の集合からなる「文章」が蓄積される単位となっており、各文章には「文番号」が付されており、各音素列の発話時間が記録されている。

複数窓幅相互相関音声データ探索手段７ｂは、テキストデータ音素列分割手段２１でクラスタリングされたテキストデータが分割された音素列を探索単位として、音声データ蓄積手段５ｂに蓄積されている音声データに対応する探索単位のすべての組み合わせについて、ビタービサーチに基づいた計算を実行し、このビタービサーチの結果、音声データ同士の連結スコアが最も大きくなる音声データ列を出力するものである。

音声データ連結手段９ｂは、複数窓幅相互相関音声データ探索手段７ｂで探索された音声データ列の音声データを連結させるものであり、音声データ補正手段１０ｂを備えている。この音声データ連結手段９ｂでは、音声データ列を構成する前後の音声データの音声波形をクロスフェードさせて足し合わせることで、出力音声データを合成音声出力手段１１ｂに出力している。

音声データ補正手段１０ｂは、複数窓幅相互相関音声データ探索手段７ｂで探索された音声データの音声波形を連結する際に、音声波形の連結箇所における特徴量が連続するように補正するものである。

合成音声出力手段１１ｂは、音声データ連結手段９ｂから出力された出力音声データを合成音声として外部に出力するものである。

この音声合成装置１Ｂによれば、テキストデータを形態素解析手段１５で形態素解析し、アクセント付の音素列に変換し、音素クラスタリング手段１７によって、任意の音素と前後に接続された音素とによりクラスタリングし、音素アクセントクラスタリング手段１９によって、クラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行う。そして、得られたクラスタリングされたテキストデータを、テキストデータ音素列分割手段２１によって、予め登録しておいた登録音素列に従って分割し、分割された音素列を探索単位とし、複数窓幅相互相関音声データ探索手段７ｂによって、音声データ同士の複数窓幅による相互相関の最大値を連結スコアとして、この連結スコアが最大となる音声データの組み合わせを求めているので、基本周波数を用いることなく、音声合成を行うことができ、合成音声の音質劣化を抑制することができる。

〈音声合成装置（第三実施形態）の動作〉
次に、図６に示すフローチャート参照して、音声合成装置１Ｂの動作について説明する（適宜、図３参照）。
まず、音声合成装置１Ｂは、入力されたテキストデータを、形態素解析手段１５によって、形態素解析し（ステップＳ２１）、音素クラスタリング手段１７にアクセント付の音素を出力する。

続いて、音声合成装置１Ｂは、音素クラスタリング手段１７によって、アクセント付の音素について、少なくとも前後一つずつの音素を考慮した音素にクラスタリングし（ステップＳ２２）、このクラスリングしたクラスタリング音素を、音素アクセントクラスタリング手段１９によって、子音（場合によっては、母音の場合もありうる）の前後に接続した母音のアクセントによりクラスタリングする（ステップＳ２３）。

そして、音声合成装置１Ｂは、テキストデータ音素列分割手段２１によって、音素アクセントクラスタリング手段１９から出力されたクラスタリングされたテキストデータを、登録音素列に従って音素列に分割し（ステップＳ２４）、複数窓幅相互相関音声データ探索手段７ｂによって、テキストデータ音素列分割手段２１で分割された音素列を探索単位とし、この探索単位について、音声データ蓄積手段５ｂに蓄積されている音声データの中から、音声データ同士の複数窓幅による相互相関の値を連結スコアとし、この連結スコアが最大となる音声データの組み合わせを探索する（ステップＳ２５）。この組み合わせが音声データ列として音声データ連結手段９ｂに出力される。

そして、音声合成装置１Ｂは、音声データ連結手段９ｂによって、複数窓幅相互相関音声データ探索手段７ｂから出力された音声データ列に含まれるそれぞれの音声データの音声波形を連結する（ステップＳ２６）。なお、この音声データ連結手段９ｂで音声データが連結される際に、音声データ補正手段１０ｂにより、連結箇所における特徴量が連続するように、それぞれの音声データに補正を施してもよい。そして、音声合成装置１Ｂは、合成音声出力手段１１ｂによって、音声データ連結手段９ｂで連結された出力音声データを合成音声として出力する（ステップＳ２７）。

以上、本発明の実施形態について説明したが、本発明は前記各実施形態には限定されない。例えば、各実施形態では、音声合成装置１、１Ａ、１Ｂとして説明したが、これらの装置１、１Ａ、１Ｂの各構成の処理を実現できるように、特殊な、または、汎用的なコンピュータ言語で記述した音声合成プログラムとして構成することも可能である。この音声合成プログラムは、音声合成装置１、１Ａ、１Ｂと同様の効果を得ることができる。

本発明の実施形態に係る音声合成装置（第一実施形態）のブロック図である。本発明の実施形態に係る音声合成装置（第二実施形態）のブロック図である。本発明の実施形態に係る音声合成装置（第三実施形態）のブロック図である。図１に示した音声合成装置（第一実施形態）の動作を説明するためのフローチャートである。図２に示した音声合成装置（第二実施形態）の動作を説明するためのフローチャートである。図３に示した音声合成装置（第三実施形態）の動作を説明するためのフローチャートである。２つの音声データにおける窓幅と相互相関との関係（相互相関が単調減少する場合）を示した図である。２つの音声データにおける窓幅と相互相関との関係（相互相関が増減する場合）を示した図である。

符号の説明

１、１Ａ、１Ｂ音声合成装置
３探索単位分割手段
５、５ａ、５ｂ音声データ蓄積手段（音声データベース）
７、７ａ、７ｂ複数窓幅相互相関音声データ探索手段
９、９ａ、９ｂ音声データ連結手段
１０、１０ａ、１０ｂ音声データ補正手段
１１、１１ａ、１１ｂ合成音声出力手段
１３桁分割手段
１５形態素解析手段
１７音素クラスタリング手段
１９音素アクセントクラスタリング手段
２１テキストデータ音素列分割手段

Claims

入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記テキストデータを前記探索単位に分割する探索単位分割手段と、
この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。
入力された複数の数値がならぶ数値列の音声合成を、音声波形と桁区切りごとの発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記数値列を、各桁に分割する桁分割手段と、
この桁分割手段で前記数値列が各桁に分割された各桁分割候補を探索単位とし、この探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。
入力されたテキストデータの音声合成を、音声波形と音素の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行う音声合成装置であって、
前記音声データベースと、
前記テキストデータを形態素解析し、アクセント付の音素に変換する形態素解析手段と、
この形態素解析手段で変換されたアクセント付の音素について、任意の音素と前後に接続された音素とによりクラスタリングを行う音素クラスタリング手段と、
この音素クラスタリング手段でクラスタリングされたクラスタリング音素を、前後に接続した母音のアクセントによりクラスタリングを行う音素アクセントクラスタリング手段と、
この音素アクセントクラスタリング手段で得られたクラスタリングされたテキストデータを、予め登録しておいた登録音素列に従って分割するテキストデータ音素列分割手段と、
このテキストデータ音素列分割手段で分割された音素列を探索単位とし、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段と、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段と、
この音声データ連結手段で連結された音声データの音声波形を、合成音声として出力する合成音声出力手段と、
を備えることを特徴とする音声合成装置。
前記複数窓幅相互相関音声データ探索手段における前記音声データ同士の複数窓幅による相互相関の最大値の計算は、
前記音声データの双方が有声音である場合、
接続点前後の音声データを用い、
前記音声データのいずれかが無声音である場合、
接続点直近の有声音の音声データを用いることを特徴とする請求項１から３までのいずれか一項に記載の音声合成装置。
前記複数窓幅相互相関音声データ探索手段は、
前記音声データ同士の複数窓幅による相互相関の最大値を予め計算してテーブル化した連結スコアテーブルを用いて、前記音声データの組み合わせを、前記音声データベースから探索することを特徴とする請求項１から４までのいずれか一項に記載の音声合成装置。
前記音声データ連結手段は、
前記複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する際に、当該音声波形の連結箇所における特徴量が連続するように補正する音声データ補正手段を備えることを特徴とする請求項１から５までのいずれか一項に記載の音声合成装置。
入力されたテキストデータの音声合成を、音声波形と音声合成する際の探索単位の発話時間とを対応付けた複数の音声データを記憶している音声データベースを用いて行うために、コンピュータを、
前記テキストデータを前記探索単位に分割する探索単位分割手段、
この探索単位分割手段で分割された探索単位について、前記音声データ同士の複数窓幅による相互相関の値を連結スコアとして計算し、この連結スコアが最大となる前記音声データの組み合わせを、前記音声データベースから探索する複数窓幅相互相関音声データ探索手段、
この複数窓幅相互相関音声データ探索手段で探索された音声データの音声波形を連結する音声データ連結手段、
この音声データ連結手段で連結された音声データ列の音声波形を、合成音声として出力する合成音声出力手段、
として機能させることを特徴とする音声合成プログラム。