JP6000326B2

JP6000326B2 - 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Info

Publication number: JP6000326B2
Application number: JP2014252789A
Authority: JP
Inventors: 勇祐井島; 宮崎　昇; 昇宮崎; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-15
Filing date: 2014-12-15
Publication date: 2016-09-28
Anticipated expiration: 2034-12-15
Also published as: JP2016114740A

Description

この発明は、音声合成技術に関し、特に、音声データから音声合成モデルを学習する技術に関する。

近年、主流となっている音声合成方式として、ＨＭＭ（Hidden Markov Model、隠れマルコフモデル）音声合成方式が提案されている（非特許文献１参照）。ＨＭＭ音声合成方式における音声データベース（モデル）は、合成単位ごとに音声データのパラメータ（基本周波数（F0）やスペクトル）を平均化（平滑化）し、合成単位ごとに一つのモデルを保持している。ＨＭＭ音声合成方式では、一般的に、モデル学習やパラメータ生成時に使用する情報（コンテキスト）として、音素種別やアクセント型、アクセント句境界等を使用している。

コンテキストとして、アクセント型やアクセント句境界等を使用するのではなく、各音素の量子化したF0を使用する手法も提案されている（非特許文献２参照）。コンテキストとして、アクセント型やアクセント句境界等を用いた場合、合成音声の声の高さや抑揚を大きく変動させた場合（つまり、F0を変動させた場合）、合成対象のF0に対応しないスペクトルが生成されてしまい、合成音声の品質が低下してしまう。これに対し、コンテキストとして量子化したF0を用いることで、合成対象のF0の変動に応じたコンテキストを動的に生成し、F0に対応したスペクトルを生成することが可能になる。

非特許文献２では、音声合成モデルの学習を行う際には、図１、２に示すように、F0量子化部１３が音声データと発話情報に基づいてF0の平均と分散を用いてF0を量子化し、モデル学習部１６が量子化したF0を用いて音声合成モデルの学習を行う。また、合成音声を生成する際には、図３に示すように、量子化F0取得部２１が合成対象の音素、F0、および音素継続時間長等からF0の平均と分散を用いて量子化F0情報を取得し、スペクトル生成部２２がその量子化F0情報から音声合成モデルを用いてスペクトルを生成し、音声波形生成部２３がそのスペクトルから合成音声の音声波形を生成する。非特許文献２では、図４に示すように、F0の平均と分散を用いた等分割によりF0の量子化を行う。図４の例では、量子化クラス数を4として、F0の+2σから-2σを4個に等分割し、-1σ以下に「１」を、-1σから0σに「２」を、0σから+1σに「３」を、+1σ以上に「４」を割り当てることで、F0の量子化を行っている。

益子他、"動的特徴を用いたHMMに基づく音声合成"、電子情報通信学会論文誌、vol. J79-D-II、no. 12、pp. 2184-2190、1996年12月大木他、"F0量子化に基づく韻律コンテキストを用いたHMM音声合成"、電子情報通信学会技術研究報告、vol. 109、no. 356、SP2009-87、pp. 141-146、2009年12月

しかしながら、F0の変動によるスペクトルの変動は話者や発話スタイル等によっても傾向が異なる。そのため、単純な等分割ではF0の変動によるスペクトルの変動を十分に考慮することはできない。したがって、従来技術では、F0の変動に応じた最適なスペクトルが生成できず、合成音声の品質が十分に向上しない。

この発明は、このような点に鑑みてなされたものであり、F0の変動に応じた最適なスペクトルを生成できる音声合成モデルを学習することで、合成音声の品質を向上することを目的とする。

上記の課題を解決するために、この発明の第一の態様の音声合成モデル学習装置は、音声信号のF0とスペクトルを含む音声データを記憶する音声データ記憶部と、音声データにおける各音素の時間関係を表す発話情報を記憶する発話情報記憶部と、音声データをF0に基づいてソートした整列後音声データを生成する音声データ整列部と、整列後音声データを、F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となるF0の値から量子化閾値を求めるクラスタリング部と、量子化閾値に基づいてF0を量子化した量子化F0情報を生成する量子化F0生成部と、音声データ、発話情報、および量子化F0情報を用いて音声合成モデルを学習するモデル学習部と、を含む。

この発明の第二の態様の音声合成装置は、音声合成モデル学習装置により学習した音声合成モデルを記憶する音声合成モデル記憶部と、音声合成モデル学習装置により決定した量子化閾値を含む量子化情報を記憶する量子化情報記憶部と、合成対象の読みおよび韻律情報から量子化情報を用いて合成対象の読みに対応する量子化F0情報を取得する量子化F0取得部と、合成対象の読みおよび韻律情報と、量子化F0情報とから、音声合成モデルを用いてスペクトルを生成するスペクトル生成部と、スペクトルおよび合成対象の韻律情報から音声波形を生成する音声波形生成部と、を含む。

この発明の音声合成モデル学習技術は、F0の変動だけでなくスペクトルの変動も考慮してF0を量子化し、その量子化F0情報を用いて音声合成モデルを学習する。その音声合成モデルを用いて音声合成を行うと、F0の変動に応じた最適なスペクトルを生成することができるため、合成音声の品質が向上する。

図１は、従来の音声合成モデル学習装置の機能構成を例示する図である。図２は、従来のF0量子化部の機能構成を例示する図である。図３は、従来の音声合成装置の機能構成を例示する図である。図４は、従来のF0量子化方法を例示する図である。図５は、第一実施形態の音声合成モデル学習装置の機能構成を例示する図である。図６は、第一実施形態のF0量子化部の機能構成を例示する図である。図７は、音素セグメンテーション情報の具体例を示す図である。図８は、第一実施形態の音声合成モデル学習方法の処理フローを例示する図である。図９は、ソート前後のフレームデータの具体例を示す図である。図１０は、クラスタリング後のフレームデータの具体例を示す図である。図１１は、量子化F0生成部の機能構成を例示する図である。図１２は、音素セグメンテーション情報と量子化F0情報の具体例を示す図である。図１３は、第一実施形態の音声合成装置の機能構成を例示する図である。図１４は、第一実施形態の音声合成方法の処理フローを例示する図である。図１５は、第二実施形態のF0量子化部の機能構成を例示する図である。図１６は、第三実施形態のF0量子化部の機能構成を例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
［第一実施形態］
＜音声合成モデルの学習＞
第一実施形態の音声合成モデル学習装置は、音声データおよび発話情報を用いてF0の量子化を行い、音声データおよび発話情報から量子化F0を考慮した音声合成モデル（ＨＭＭ）を学習する。

第一実施形態の音声合成モデル学習装置は、図５に示すように、音声データ記憶部１１、発話情報記憶部１２、F0量子化部１３、量子化情報記憶部１４、量子化F0記憶部１５、モデル学習部１６、および音声合成モデル記憶部１７を例えば含む。F0量子化部１３は、図６に示すように、音声データ整列部１３１、クラスタリング部１３２、および量子化F0生成部１３９を例えば含む。

音声合成モデル学習装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成モデル学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

音声合成モデル学習装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声合成モデル学習装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

音声データ記憶部１１には、音声合成モデルの学習に使用する音声データが記憶されている。音声データは、音声合成モデルを構築する対象となる一名の話者がN（≧1）個の文章を発話した音声をあらかじめ収録したものである。音声データは、具体的には、音声信号に対して信号処理を行った結果得られる音響特徴量（例えば、音高パラメータ、スペクトルパラメータ等。音高パラメータは、例えば、基本周波数(F0)等。スペクトルパラメータは、例えば、ケプストラム、メルケプストラム等。）である。音声データには、音声合成に必要な各音素が一つ以上含まれている必要がある。

発話情報記憶部１２には、音声データ記憶部１１に記憶された音声データに対応する発話情報が記憶されている。発話情報は、音声データ中の各発話に対して付与された発音等の情報であり、音声データ中の各発話に一つの発話情報が付与されている。発話情報には、少なくとも各音素の開始時間、終了時間の情報（以下、音素セグメンテーション情報と呼ぶ。）が保存されている。本形態では、開始時間および終了時間は、各発話の始点を0秒とした時の経過時間として表現される。音素セグメンテーション情報は人手で付与してもよいし、音声データから自動で付与したものでもよい。音声データから音素セグメンテーション情報を自動的に付与する方法は、例えば、「特許第３８６６１７１号公報（参考文献１）」に記載されている。また、付与する発話情報として、音素セグメンテーション情報以外にもアクセント情報（アクセント型、アクセント句長等）や品詞情報等を含んでいてもよい。

音素セグメンテーション情報の具体例を図７に示す。図７では、発話を構成する各音素の開始時間と終了時間がミリ秒単位で設定されている。図７の例では、発話開始からの経過時間が0〜350ミリ秒の音素は“pause”であり、350〜600ミリ秒の音素は“o”であり、600〜680ミリ秒の音素は“s”であることがわかる。

図８を参照して、第一実施形態の音声合成モデル学習方法の処理手続きを説明する。

ステップＳ１１〜Ｓ１３において、F0量子化部１３は、音声データ記憶部１１に記憶された音声データ（F0、スペクトル）と、発話情報記憶部１２に記憶された発話情報（音素セグメンテーション情報）とを用いて量子化時の閾値（以下、量子化閾値と呼ぶ。）を決定し、その量子化閾値を用いて各音素のF0を量子化した量子化F0情報を得る。以下、F0量子化部１３の処理をより詳しく説明する。

ステップＳ１１において、音声データ整列部１３１は、音声データに含まれる無声区間（無音、無声子音等の声帯振動が生じない音声区間）を除いた全フレームのF0およびスペクトル（以下、フレームデータと呼ぶ。）を、F0値に基づいてソートを行う。図９はソート前後のフレームデータを例示したものである。図９の例では、スペクトルの値はメルケプストラムである。メルケプストラムは、左から右へケプストラムの次数の順（0次項、1次項、…）に示している。図９の例は、F0値が最小のフレームから昇順にソートしたものである。なお、ソートの際に同一のF0値が存在する場合には当該フレームの出現時間に基づいてソートを行えばよい。

ステップＳ１２において、クラスタリング部１３２は、音声データ整列部１３１により得られたソート後の音声データを用いて、F0値を考慮したスペクトルのクラスタリングを行う。クラスタリングアルゴリズムとして、例えば、セグメンタルk-means法を用いることができる。セグメンタルk-means法についての詳細は「Juang, Biing-Hwang, and Lawrence Rabiner. “The segmental K-means algorithm for estimating parameters of hidden Markov models” Acoustics, Speech and Signal Processing, IEEE Transactions, vol. 38.9, pp. 1639-1641, 1990.（参考文献２）」を参照されたい。一般的に、セグメンタルk-means法におけるクラスタ境界の初期値は、全フレームをクラスタ数で等分割した境界を用いる。また、クラスタ数Kは固定としてクラスタリングを行う。クラスタ数Kはあらかじめ与えられた量子化クラス数を用いる。

セグメンタルk-means法は時系列を考慮したクラスタリングを行うことができる手法であり、音声認識等で用いられるＨＭＭのパラメータ推定等に用いられている。セグメンタルk-means法では、各フレームの時間情報が入れ替わらないような時系列の制約をかけた上でクラスタリングが行われる。本形態では、F0値が最小のフレームから昇順にソートを行った後のF0値を時間とみなすことで、ソート後のF0およびスペクトルを時系列データとして扱う。そのため、F0の順序が入れ替わらないように制約をかけた上で、クラスタ内のスペクトルの特徴が近くなるように各クラスタが構築される。これにより、F0値およびスペクトルが近いものが一つのクラスタに集まるため、F0の変動を考慮したスペクトルのクラスタリングを行うことができる。

本形態では、クラスタリングの結果得られた各クラスタの境界となるフレームのF0の平均値を量子化閾値として使用する。図１０は量子化クラス数を３とした場合のクラスタリング後のフレームデータの例である。図１０の例では、クラスタ１とクラスタ２の閾値として、クラスタ１側の境界のF0値（200[Hz]）とクラスタ２側の境界のF0値（210[Hz]）を平均した値である205[Hz]を量子化閾値として設定している。同様に、クラスタ２とクラスタ３の量子化閾値は214[Hz]に設定する。これにより、学習データ全体におけるF0の平均と分散のみを用いて量子化境界を決定する従来の方法と異なり、スペクトルの変動を考慮した量子化境界の決定ができる。また、本形態ではF0値として[Hz]を用いているが、聴覚特性を考慮した対数F0や、mel尺度、bark尺度等を用いてもよい。また、隣り合うクラスタの境界のF0値が同一の場合には、境界のF0値を量子化閾値として使用すればよい。

クラスタリング部１３２により得られた量子化閾値は、量子化クラス数とともに音声合成時にも利用されるため、量子化情報として量子化情報記憶部１４へ記憶される。

ステップＳ１３において、量子化F0生成部１３９は、クラスタリング部１３２により得られた量子化閾値を用いて、各音素のF0を量子化した量子化F0情報を生成する。量子化F0生成部１３９は、図１１に示すように、F0平均部１３９１および量子化F0推定部１３９２を例えば含む。F0平均部１３９１は、F0値および音素セグメンテーション情報を用いて、各フレームデータに含まれる各音素のF0平均値を算出する。量子化F0推定部１３９２は、F0平均部１３９１により得られた各音素のF0平均値と、クラスタリング部１３により得られた量子化閾値とを用いて、各音素がどのクラスタに属するかを推定し、各音素の量子化F0情報を推定する。この処理によって、量子化F0生成部１３９は、各音素の量子化F0情報をクラスタ値として得ることができる。

無声音素や無声区間については、F0平均値を算出することができないため、どのクラスタにも属していないことがわかる識別子をクラスタ番号の代わりに付与する。また、当該音素のF0平均値と量子化閾値が同一である場合は、当該音素のF0平均値と両クラスタに属する全データのF0平均値との距離を計算し、距離が小さいクラスタのクラスタ番号を付与する。

図１２に、音素セグメンテーション情報に量子化F0情報を対応付けた例を示す。図１２の例では、“o”、“a”のような有声音素にはクラスタ番号を付与し、“sil”,“s”などで表される無声音素には、クラスタ番号の代わりに、どのクラスタにも属していないことを示す識別子“x”を付与している。

ステップＳ１４において、モデル学習部１６は、音声データ記憶部１１に記憶された音声データと、発話情報記憶部１２に記憶された発話情報、量子化F0記憶部１５に記憶された各音素の量子化F0情報から生成されるコンテキスト依存ラベルを用いて、量子化F0を考慮した音声合成モデルを学習する。コンテキスト依存ラベルの詳細と音声合成モデルの学習方法は、従来と同様であり、例えば、非特許文献２に記載された方法を用いることができる。

＜音声合成＞
第一実施形態の音声合成装置は、音声合成モデル学習装置で得られた量子化F0を考慮した音声合成モデルを用いて、合成対象の音素、F0、および音素継続時間長等から合成音声を生成する。

第一実施形態の音声合成装置は、図１３に示すように、量子化情報記憶部１４、音声合成モデル記憶部１７、量子化F0取得部２１、スペクトル生成部２２、および音声波形生成部２３を例えば含む。

音声合成装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。

音声合成装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声合成装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。

図１４を参照して、第一実施形態の音声合成方法の処理手続きを説明する。

ステップＳ２１において、量子化F0取得部２１は、入力された合成対象の読み（音素等）、韻律情報（F0、音素継続時間長等）から、量子化情報記憶部１４に記憶された量子化情報を用いて、合成対象の各音素に対応する量子化F0情報を得る。入力として使用する合成対象の音素、F0、および音素継続時間長等は、例えば、テキスト音声合成を行う場合は、音声合成の過程でテキスト解析の結果得られる読み（音素）やアクセント情報等から韻律モデルを用いて生成されたものを使用する（非特許文献２参照）。なお、韻律モデルについては非特許文献１に記載されている。もしくは、公知の手法により自然音声（肉声）から抽出したF0、音素、および音素継続時間長等を用いてもよい。自然音声からF0、音素、および音素継続時間長等を抽出する手法は、例えば、「特許第３２９２２１８号公報（参考文献３）」に記載されている。

ステップＳ２２において、スペクトル生成部２２は、量子化F0取得部２１により得られた各音素の量子化F0情報と合成対象の音素とを用いて、音声合成に利用するためのコンテキスト依存ラベルを得、音声合成モデル記憶部１７に記憶された音声合成モデル、コンテキスト依存ラベル、および入力された音素継続時間長を用いて音声パラメータ（スペクトル）を生成する。コンテキスト依存ラベルについての詳細は、例えば、非特許文献２を参照されたい。コンテキスト依存ラベルは、量子化F0情報と合成対象の音素、F0、および音素継続時間長等から生成することができる。音声パラメータ（スペクトル）の生成方法は、例えば、非特許文献１を参照されたい。

ステップＳ２３において、音声波形生成部２３は、スペクトル生成部２２により得られた音声パラメータ（スペクトル）および合成対象のF0から、音声合成フィルタを用いて音声波形を生成する。音声合成フィルタは、例えば、「今井他、“音声合成のためのメル対数スペクトル近似（MLSA）フィルタ”、電子情報通信学会論文誌、vol. J66-A、no. 2、pp. 122-129、1983年2月（参考文献４）」に記載されたものを用いることができる。

第一実施形態の音声合成モデル学習装置および音声合成装置は、上記のように構成することで、F0量子化時の閾値の決定にF0だけでなくスペクトルも考慮しているため、F0の変動に応じた最適なスペクトルを生成することができる。これにより、合成音声の品質を向上することができる。

［第二実施形態］
第一実施形態では、F0量子化部においてF0量子化時の閾値を決定する際に、全ての有声区間のフレームデータを用いて、セグメンタルk-means法等によるクラスタリングを行った。しかし、その場合、スペクトルのクラスタリング時に音素の違いによるスペクトルの変動を考慮することができないため、最適なクラスタリングができない場合がある。また、F0の変動によるスペクトルの変動は音素によっても異なる場合がある。そのため、第二実施形態では、F0量子化時の閾値を音素ごとに決定することで、より適切なF0量子化時の閾値を決定する。

以下、図１５を参照しながら、第二実施形態の音声合成モデル学習方法を、第一実施形態との差分を中心に説明する。

本形態のF0量子化部１３は、第一実施形態のF0量子化部の構成に加えて、音声データ分割部１３４をさらに含み、音声データ整列部１３１とクラスタリング部１３２をM（≧2）個ずつ含む。ここで、Mは音声データに含まれる全音素数である。音声データ分割部１３４は、音素セグメンテーション情報を用いて音声データを音素ごとにM個に分割する。その後、得られた各音素のフレームデータに対し、第一実施形態と同様に、セグメンタルk-means法による量子化閾値の決定と、各音素に対する量子化F0情報の生成を行う。

第一実施形態のF0量子化部では、有声区間の全てのフレームの音声データを用いて、クラスタリングを行っていた。一方、本形態では、音素ごとにクラスタリングを行い、量子化閾値を音素ごとに決定する点が相違する。

第二実施形態の音声合成モデル学習装置は、量子化閾値の決定を音素ごとに行うことで、音素の違いによるスペクトルの変動を考慮することができる。これにより、より合成音声の品質を向上することができる。

［第三実施形態］
上述の実施形態では、F0量子化部において量子化閾値を決定する際に、全ての有声区間の音声データを用いていた。しかし、全フレームの音声データを用いてクラスタリングを行う場合、F0抽出誤り等の外れ値の影響により、クラスタリング結果に悪影響を及ぼす危険性がある。そのため、第三実施形態では、クラスタリングに各音素のF0平均値と平均スペクトルを使用することで、外れ値の影響を軽減する。また、本形態の場合、クラスタリングに用いるデータ数が大幅に削減できるため、外れ値の影響を軽減するだけでなく、クラスタリングを高速に行える利点もある。

以下、図１６を参照しながら、第三実施形態の音声合成モデル学習方法を、第一実施形態との差分を中心に説明する。

本形態のF0量子化部は、第一実施形態のF0量子化部の構成に加えて、音声データ平均部１３５をさらに含む。音声データ平均部１３５は、音素セグメンテーション情報を用いて音声データから各音素のF0平均値と平均スペクトルを算出する。その後、得られた各音素のF0平均値と平均スペクトルに対し、第一実施形態と同様に、セグメンタルk-means法による量子化閾値の決定と、各音素に対する量子化F0情報の生成を行う。

第一実施形態のF0量子化部では、有声区間の全てのフレームの音声データを用いて、クラスタリングを行っていた。一方、本形態では、クラスタリング前に各音素のF0平均値と平均スペクトルを算出し、それらを用いてクラスタリングを行い、量子化閾値を決定する点が相違する。

本形態の構成は第二実施形態に対しても同様にして組み合わせて使用することが可能である。すなわち、音声データ分割部１３４により分割された各音素の音声データが音声データ平均部１３５へ入力されるように構成し、音声データ平均部１３５は、音素ごとの音声データそれぞれについてF0とスペクトルの平均を算出し、それらを用いてセグメンタルk-means法による量子化閾値の決定を行えばよい。

第三実施形態の音声合成モデル学習装置は、量子化閾値を決定する際のクスタリングに、各フレームのF0とスペクトルを用いるのではなく、各音素のF0とスペクトルの平均値を用いることで、外れ値に頑健な量子化F0情報を生成することができる。これにより、さらに合成音声の品質を向上することができる。また、クスタリングに平均値を用いることで、クラスタリング対象のデータが減少するため、高速なクラスタリングを行うことができる。これにより、音声合成モデルを学習する時間を削減することができる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１１音声データ記憶部
１２発話情報記憶部
１３ F0量子化部
１４量子化情報記憶部
１５量子化F0記憶部
１６モデル学習部
１７音声合成モデル記憶部
２１量子化F0取得部
２２スペクトル生成部
２３音声波形生成部
１３１音声データ整列部
１３２クラスタリング部
１３４音声データ分割部
１３５音声データ平均部
１３９量子化F0生成部
１３９１ F0平均部
１３９２量子化F0推定部

Claims

音声信号のF0とスペクトルを含む音声データを記憶する音声データ記憶部と、
上記音声データにおける各音素の時間関係を表す発話情報を記憶する発話情報記憶部と、
上記音声データを上記F0に基づいてソートした整列後音声データを生成する音声データ整列部と、
上記整列後音声データを、上記F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となる上記F0の値から量子化閾値を求めるクラスタリング部と、
上記量子化閾値に基づいて上記F0を量子化した量子化F0情報を生成する量子化F0生成部と、
上記音声データ、上記発話情報、および上記量子化F0情報を用いて音声合成モデルを学習するモデル学習部と、
を含む音声合成モデル学習装置。
請求項１に記載の音声合成モデル学習装置であって、
上記発話情報を用いて上記音声データを音素ごとに分割する音声データ分割部をさらに含み、
上記音声データ整列部は、音素ごとに分割された上記音声データそれぞれについて上記整列後音声データを生成するものであり、
上記クラスタリング部は、音素ごとの上記整列後音声データそれぞれについて上記量子化閾値を決定するものである
音声合成モデル学習装置。
請求項１または２に記載の音声合成モデル学習装置であって、
上記発話情報を用いて音素ごとに上記F0の平均と上記スペクトルの平均を求める音声データ平均部をさらに含み、
上記音声データ整列部は、上記F0の平均と上記スペクトルの平均を用いて上記整列後音声データを生成するものである
音声合成モデル学習装置。
請求項１から３のいずれかに記載の音声合成モデル学習装置により学習した音声合成モデルを記憶する音声合成モデル記憶部と、
請求項１から３のいずれかに記載の音声合成モデル学習装置により決定した量子化閾値を含む量子化情報を記憶する量子化情報記憶部と、
合成対象の読みおよび韻律情報から上記量子化情報を用いて上記合成対象の読みに対応する量子化F0情報を取得する量子化F0取得部と、
上記合成対象の読みおよび韻律情報と、上記量子化F0情報とから、上記音声合成モデルを用いてスペクトルを生成するスペクトル生成部と、
上記スペクトルおよび上記合成対象の韻律情報から音声波形を生成する音声波形生成部と、
を含む音声合成装置。
音声データ記憶部に、音声信号のF0とスペクトルを含む音声データが記憶されており、
発話情報記憶部に、上記音声データにおける各音素の時間関係を表す発話情報が記憶されており、
音声データ整列部が、上記音声データを上記F0に基づいてソートした整列後音声データを生成する音声データ整列ステップと、
クラスタリング部が、上記整列後音声データを、上記F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となる上記F0の値から量子化閾値を求めるクラスタリングステップと、
量子化F0生成部が、上記量子化閾値に基づいて上記F0を量子化した量子化F0情報を生成する量子化F0生成ステップと、
モデル学習部が、上記音声データ、上記発話情報、および上記量子化F0情報を用いて音声合成モデルを学習するモデル学習ステップと、
を含む音声合成モデル学習方法。
音声合成モデル記憶部に、請求項５に記載の音声合成モデル学習方法により学習した音声合成モデルが記憶されており、
量子化情報記憶部に、請求項５に記載の音声合成モデル学習方法により決定した量子化閾値を含む量子化情報が記憶されており、
量子化F0取得部が、合成対象の読みおよび韻律情報から上記量子化情報を用いて上記合成対象の読みに対応する量子化F0情報を取得する量子化F0取得ステップと、
スペクトル生成部が、上記合成対象の読みおよび韻律情報と、上記量子化F0情報とから、上記音声合成モデルを用いてスペクトルを生成するスペクトル生成ステップと、
音声波形生成部が、上記スペクトルおよび上記合成対象の韻律情報から音声波形を生成する音声波形生成ステップと、
を含む音声合成方法。
請求項１から３のいずれかに記載の音声合成モデル学習装置もしくは請求項４に記載の音声合成装置としてコンピュータを機能させるためのプログラム。