JP6499305B2

JP6499305B2 - 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Info

Publication number: JP6499305B2
Application number: JP2017540389A
Authority: JP
Inventors: 正統田村; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2019-04-10
Anticipated expiration: 2035-09-16
Also published as: US20180174570A1; CN107924678A; US11423874B2; US20200357381A1; CN107924678B; US10878801B2; CN113724685A; WO2017046887A1; JPWO2017046887A1; CN113724685B

Description

本発明の実施形態は、音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムに関する。

任意のテキストを合成波形に変換する音声合成技術が知られている。また、音声波形のデータベースを分析して得られる特徴パラメータから統計モデルを学習する音声合成モデル学習装置と、学習された統計モデルを音声合成に用いる音声合成装置が広く知られている。

特開２００２−２６８６６０号公報

Ｈ．Ｚｅｎ，ｅｔａｌ， "ＡＨｉｄｄｅｎＳｅｍｉ‐ＭａｒｋｏｖＭｏｄｅｌ‐ＢａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓＳｙｓｔｅｍ", ＩＥＩＣＥＴＲＡＮＳ．ＩＮＦ．ＳＹＳＴ．，ＶＯＬ．Ｅ９０−Ｄ，ＮＯ．５ＭＡＹ２００７,ｐ．８２５‐８３４

従来は、固定フレームレートの音声分析による音響特徴パラメータを用いた場合、精密な音声分析が行われずに音質劣化が生じるという問題があった。また、ピッチ同期分析によって音声分析を行った場合、学習時と合成時のピッチの不一致の影響等により不自然な音素継続長になるという問題があった。本発明が解決しようとする課題は、音声劣化と不自然な音素継続長とを防止することができる音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムを提供することである。

実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から、統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成部が生成した音響特徴パラメータから音声波形を生成する。

実施形態にかかる音声合成装置を示すブロック図。ＨＳＭＭを例示する図。ＨＭＭ記憶部が記憶しているＨＭＭを示す図。実施形態にかかる音声合成モデル学習装置を示すブロック図。固定フレームレートによる分析と、ピッチ同期分析との違いを示す図。ＨＭＭ学習部が行う処理を示すフローチャート。実施形態にかかる音声合成装置がパラメータを生成する処理例を示す図。波形生成部が行う処理を示す図。状態占有確率の計算方法を示す図。実施形態にかかる音声合成装置が実行する処理を示すフローチャート。実施形態にかかる音声合成モデル学習装置が実行する処理を示すフローチャート。実施形態にかかる音声合成モデル学習装置の変形例を示すブロック図。実施形態にかかる音声合成装置の変形例を示すブロック図。選択部が実行する処理を示すフローチャート。選択部の具体的な構成例を示す図。

まず、本発明がなされるに至った背景について説明する。音声合成モデル学習装置には、時系列信号をモデル化するために、複数の状態を持つ統計モデルである隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を学習するものがある。また、音声合成装置には、学習されたＨＭＭに基づいて音声を合成するものがある。

ＨＭＭに基づく音声合成では、入力されたテキストに従って分布列を求め、得られた分布列から特徴パラメータを生成することにより音声を合成する。例えば、音声のスペクトル情報、音響特徴パラメータ及び韻律特徴パラメータを用いて、静的特徴パラメータと共に時間変化を表す動的特徴パラメータを併せた特徴パラメータ列からモデルを学習し、静的及び動的特徴パラメータの尤度を最大化するパラメータ生成アルゴリズムを適用して、滑らかな特徴パラメータ系列による音声を生成することができる。音響特徴パラメータは、音源情報を表す。韻律特徴パラメータは、音声の韻律情報であるピッチ情報を表す。

さらに、ＨＭＭの話者適応技術・話者補間技術等を応用することにより、少量データによる新話者モデルや話者補間モデル、度合いの制御が可能な感情モデルの作成など、合成音声の多様性を広げることも可能である。

ＨＭＭ音声合成では、メルケプストラム分析方法やＳＴＲＡＩＧＨＴ分析によるスペクトル包絡抽出方法を用いる方法が一般的に利用されている。これらの方法は、スペクトル分析を行うときに、例えば５ｍｓ程度の固定のフレームレートによる音声分析を行い、特徴パラメータを分析する。

メルケプストラム分析を用いる場合は、フレームの中心点と波形の周期性との対応は考慮されず、複数の周期を含む比較的広い窓幅のフレームを切り出してパラメータ分析を行う。よって、分析し再合成した音声は元の音声波形に対して歪みが生じ、音質劣化が生じる。

ＳＴＲＡＩＧＨＴ分析も同様に、固定のフレームレートによる音声分析を行う。ＳＴＲＡＩＧＨＴ分析では、時間方向平滑化及び周波数方向平滑化の処理により、分析窓の中心と周期性との対応を補正しつつスペクトル分析を行う。よって、音質劣化は低減されるものの、破裂音や無声摩擦音と有声音の境界などの非定常個所における音質劣化等、固定フレームレート分析に起因する音質劣化は依然として生じる。

また、ＨＭＭに基づく音声合成の拡張として、統計モデルに基づく音声合成と音声素片選択に基づく音声合成を組み合わせたハイブリッド型音声合成方法や、特徴パラメータを選択する音声合成方法、及びニューラルネットを利用した音声合成方法などがある。しかし、これらの方法においても、メルケプストラム分析を用いた音声分析方法や、ＳＴＲＡＩＧＨＴを利用した音声分析方法を用いる場合には、同様に機械的な音質になる問題が生じる。

固定のフレームレートによる音声分析方法を用いた場合、特徴パラメータの個数であるフレーム数は継続時間長と線形な関係になるため、フレーム数を継続長分布として利用することができる。すなわち、ＨＭＭの各状態のフレーム数を直接継続長分布のパラメータとして、隠れセミマルコフモデル（ＨＳＭＭ）のパラメータを学習した音声合成が可能である。

ＨＳＭＭは、出力分布と状態継続長分布による確率モデルであり、ＨＭＭの尤度計算において固定の自己遷移確率ではなく状態継続長分布を用いて尤度計算を行うモデルである。この場合、継続長モデルは、各音声データを各状態と統計的に対応づける状態占有確率と、状態系列における各状態に対応付けた特徴パラメータのフレーム数により、継続長分布のパラメータを学習する。時間長はフレーム数にフレームレートを乗じることによって求められるため、固定のフレームレートの音声分析を用いた場合、特徴パラメータと対応するコンテキストのみから、時間長と線形な関係を持つ継続長分布を学習することができる。

パラメータ生成時には、決定木を辿って得られる継続長分布が直接フレーム数の分布となるため、継続長分布パラメータからフレーム数を定め、得られた各状態のフレーム数に従って分布列を生成し、パラメータ生成及び波形生成処理を行うことができる。このように、固定フレームレートによる音声分析を用いた場合、音質劣化は生じるものの、特徴パラメータのフレーム数を継続長分布としてモデル化し、継続長分布のパラメータから直接音声合成時のフレーム数を定めることができる。

一方で、音声の分析方法の一つとして、ピッチ同期分析を用いることも可能である。ピッチ同期分析では、固定のフレームレートではなく、音声波形の各ピッチ周期に対応した間隔で特徴パラメータの分析を行う。例えば、音声の周期的な波形の各周期の中心時刻を表すピッチマーク情報を作成し、ピッチマーク位置から分析中心を定め、ピッチに依存した窓幅の窓関数を適用してピッチ波形を切り出し、切り出したピッチ波形を分析して音響特徴パラメータを求める。

ここで、適切に付与したピッチマーク位置を分析中心時刻として分析することにより、音声波形の局所的な変化にも対応した適切な分析が可能となるため、分析合成音声の原音との一致性を増すことができ、音質劣化が低減される。しかし、この場合、各フレームの間隔が一定でなくなるため、フレームの個数であるピッチ波形数と時刻の情報が線形な関係ではなくなり、ピッチの高い個所では多くのフレーム数となり、低い個所では少ないフレーム数の分析となる。

このように、ピッチ同期分析を用いた場合、音声フレームの個数を継続長分布のパラメータとしてモデル学習及び合成に用いると、学習時のピッチと合成時のピッチの不一致の影響により不自然な長さの合成音声となる問題が生じる。継続長モデルは、モーラ（拍）や音素との相関が高いため、ピッチに依存して変化するピッチ同期分析のピッチ波形数の分布ではなく、開始時刻と終了時刻の差による時刻パラメータによる時間長をパラメータとする方法などにより、時刻と線形な関係にあるパラメータをモデル化することが望ましい。

次に、添付図面を参照して、音声合成装置の実施形態について説明する。図１は、音声合成装置の実施形態（音声合成装置１００）を示すブロック図である。図１に示すように、音声合成装置１００は、解析部１０１、作成部１０２、決定部１０３、生成部１０４、波形生成部１０５及びＨＭＭ記憶部１０６を有する。

解析部１０１は、入力テキストに対して形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた言語情報からコンテキスト情報を作成する。解析部１０１は、別途作成された入力テキストに対応する修正済みの読み情報及びアクセント情報などを受入れて、コンテキスト情報を作成してもよい。

ここで、コンテキスト情報とは、音素・半音素・音節ＨＭＭ等の音声を分類する単位として用いられる情報である。音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができる。さらに、先行音素・後続音素を付加したトライフォン、前後２音素ずつ含めた音素情報、有声音・無声音による分類、詳細化した音素種別の属性を表す音素種別情報、各音素の文内・呼気段落内・アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報としてもよい。

作成部１０２は、解析部１０１から入力されたコンテキスト情報に従って、ＨＭＭ記憶部１０６が記憶しているＨＭＭ（図３を用いて後述）を用いて、入力テキストに対応するＨＭＭ系列を作成する。ＨＭＭは、状態遷移確率と各状態の出力分布とにより表される統計モデルである。具体的には、作成部１０２は、入力テキストに対応するコンテキスト情報、及び後述する統計モデル情報から、統計モデル系列を作成する。

ＨＭＭは、ｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭである場合、図２に示すように、各状態の出力分布Ｎ（ｏ｜μ_ｉ、Σ_ｉ）と、状態遷移確率ａ_ｉｊ（ｉ，ｊは状態インデックス）によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率ａ_ｉｊの代わりに継続長分布Ｎ（ｄ｜μ_ｉ ^d、Σ_ｉ ^d）を用いるものは、ＨＳＭＭ（隠れセミマルコフモデル）と呼ばれ、継続長のモデル化に用いられる。以下、ＨＳＭＭも含めてＨＭＭと記載する。

決定部１０３は、作成部１０２が作成したＨＭＭ系列に基づいて、継続長分布パラメータ及びピッチ特徴パラメータの出力分布から生成されるピッチパラメータを用いてピッチ波形数を決定する。つまり、決定部１０３は、作成部１０２が作成した統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長と共に、ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。

生成部１０４は、決定部１０３が決定したピッチ波形数に従って分布列を作成し、分布列から音響特徴パラメータを生成する。具体的には、生成部１０４は、ピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成する。

波形生成部１０５は、生成部１０４が生成した音響特徴パラメータの系列から音声波形を生成する。

ＨＭＭ記憶部１０６は、ピッチ同期分析による音響特徴パラメータから学習したＨＭＭを記憶している。具体的には、ＨＭＭ記憶部１０６は、ＨＭＭの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。ＨＭＭの各状態におけるピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続長分布と、コンテキスト情報に基づいて各状態の分布を選択するための決定木を統計モデル情報として記憶する。

図３は、ＨＭＭ記憶部１０６が記憶しているＨＭＭを示す図である。図３に示すように、ＨＭＭ記憶部１０６は、例えばＨＭＭの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶しており、さらに継続長分布のための決定木及び分布も記憶している。

決定木の各ノードには、分布を分類する質問が関連付けられている。例えば、ノードは、「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問が関連付けられており、その質問に該当する場合の子ノードと、該当しない場合の子ノードに分類する。つまり、決定木では、入力されたコンテキスト情報に対して、各ノードの質問に該当するか否かを判断することによって探索し、リーフノードを得る。

つまり、上述した作成部１０２は、得られたリーフノードに対応付けられている分布を各状態の出力分布として用いることにより、各音声単位に対応するＨＭＭを構築する。そして、作成部１０２は、入力されたコンテキスト情報に対応するＨＭＭ系列を作成する。

次に、音声合成モデル学習装置の実施形態について説明する。図４は、音声合成モデル学習装置の実施形態（音声合成モデル学習装置２００）を示すブロック図である。図４に示すように、音声合成モデル学習装置２００は、音声コーパス記憶部２０１、分析部２０３、特徴パラメータ記憶部２０４、ＨＭＭ学習部２０５及びＨＭＭ記憶部１０６を有する。なお、音声合成モデル学習装置２００が有するＨＭＭ記憶部１０６は、図１を用いて上述したＨＭＭ記憶部１０６に対応する。つまり、ＨＭＭ記憶部１０６に記憶されるＨＭＭは、図４に示したように、音声合成モデル学習装置２００がピッチマークを用いたピッチ同期分析を行って作成している。

音声コーパス記憶部２０１は、モデル学習に用いる音声波形（音声データ）、各音声波形に対応するコンテキスト情報及びピッチマーク情報を記憶している。音声波形は、発話者の収録音声から文ごとに切り出されたデータからなる。コンテキスト情報は、各収録音声の発声内容から作成される。

ピッチマーク情報は、有声音の周期的な区間に対しては、音声データからピッチ抽出し、周期に対応した時刻を抽出することにより作成される。また、ピッチマーク情報は、無声音や破裂音・無音などの非周期波形の区間に対しては、有声音区間の周期波形のピッチを滑らかに補間するように時刻を定めることや、非周期区間では固定のフレームレートに時刻を定めることなどにより、文全体に対して分析中心位置を示す時刻情報が設定される。つまり、ピッチマーク情報は、非周期区間の分析時刻も含む。このように、各音声波形の分析中心時刻の情報であり、周期波形区間においてはピッチ周期に対応した分析中心時刻であるピッチマーク情報が音声コーパスに作成されている。

分析部２０３は、音声波形から音響特徴パラメータを求める。音響特徴パラメータは、音声のスペクトル包絡を表すスペクトルパラメータ及び音源情報を表す音源パラメータ、基本周波数の情報を表すピッチパラメータ等による特徴パラメータであり、音声波形から抽出される。つまり、分析部２０３は、音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する。

スペクトルパラメータとしては、メルケプストラム、メルＬＳＰ、線形予測係数などのスペクトル包絡パラメータが利用できる。音源パラメータとしては、各スペクトル帯域の非周期成分の割合を表す帯域雑音強度（ＢＡＰ：ｂａｎｄａｐｅｒｉｏｄｉｃｉｔｙ）、位相情報又は群遅延情報等が用いられる。

よって、分析部２０３は、各ピッチマーク時刻に対応した音響特徴パラメータを適切に求めることができる。図５は、有声音の周期波形区間における固定フレームレートによる分析と、ピッチ同期分析との違いを示す図である。

図５（ａ）は、固定フレームレートによる音声分析を表している。固定フレームレートによる音声分析では、フレームの中心時刻と、波形の周期性との間に関連がなく、予め定めた間隔によって特徴分析が行われる。

例えば、固定フレームレートによる音声分析では、２５ｍｓ程度の窓関数で複数の周期波形を含む範囲を切り出した分析が広く用いられるが、音声波形のピーク位置とフレーム位置との間に関連がなくなるため歪みが生じる。この影響により、固定フレームレートによる音声分析は、定常的な音声区間においても不安定なスペクトル包絡となる場合がある。また、変化の急な個所においては、広い窓幅等の影響により過剰に平滑化された分析結果となり、変化する波形を適切に再現できない問題も生じる。

これに対し、ピッチ同期分析による特徴抽出では、図５（ｂ）に示したように、音声波形の各周期のピーク時刻付近にピッチマークを定める方法など、ピッチ周期に応じた時刻にピッチマークが付与され、ピッチマーク時刻を分析中心として、２ピッチ程度の窓幅のハニング窓等を用いて波形が切り出される方法が用いられる。

このように、ピッチ同期分析では、適切な時刻においてピッチに依存する窓幅で分析を行うことが可能になり、分析した特徴パラメータから合成する分析合成音声は元の音声に近い波形が得られる。

また、固定のフレームレート分析の音質劣化を低減するため、ＳＴＲＡＩＧＨＴ分析では、分析時刻の位置の不定性の補正を時間方向の平滑化によって行い、さらに周波数方向の平滑化によって滑らかなスペクトル包絡を抽出する。また、ピッチ同期分析によって得られたパラメータを固定フレームレート位置に補間して分析する場合にも、ピッチ同期分析によるパラメータをそのまま用いる場合と比較すると劣化が生じ、再合成した音声波形と元の音声波形との間には歪みが生じる。

音響特徴パラメータとして、メルＬＳＰ，ＢＡＰを用いる場合、各ピッチマーク毎に切り出した音声にメルＬＳＰ分析を適用してメルＬＳＰを求め、各時刻の左右のピッチマークの間隔の情報などからピッチ情報を求めて対数Ｆ_０に変換し、帯域雑音強度の分析によりＢＡＰを求める。帯域雑音強度の分析では、例えばＰＳＨＦ（ＰｉｔｃｈＳｃａｌｅｄＨａｒｍｏｎｉｃＦｉｌｔｅｒ）方式に基づいて、音声を周期成分と非周期成分に分離し、各時刻の非周期成分比率を求め、予め定めた帯域毎に平均化すること等によりＢＡＰを求めることができる。

さらに、位相特徴パラメータを用いる場合は、ピッチ同期に切り出した各ピッチ波形の位相情報をパラメータとして表し、複数周期を含む波形や中心位置によって切り出した波形の形状が安定しない形となる固定フレームレートの分析では困難な位相情報も、ピッチ同期分析を用いることにより特徴パラメータとして扱うことが可能となる。

ピッチ情報や継続長情報は、韻律情報を表す特徴パラメータであり、同様に音声コーパスの各音声波形から抽出される。ピッチ情報は、各音韻の抑揚や高さの変化を表す情報である。継続長は、音素等音声単位の長さを表す特徴パラメータである。ピッチ特徴パラメータとしては、対数基本周波数、基本周波数、ピッチ周期情報を利用できる。継続長情報としては、音素継続長などを用いることができる。

ピッチ同期分析では、各ピッチマーク時刻の左右の間隔から各時刻のピッチが定められ、対数基本周波数に変換される。ピッチ情報は、有声音のみ値を持つパラメータであるが、無声音の部分に補間したピッチを当てはめて特徴パラメータとすることや、無声音であることを表す値が用いられてもよい。

各音素の継続長の情報は、音素境界時刻の情報としてコンテキスト情報に付加しておき、ＨＭＭの学習時の初期モデルの学習に用いられる。ただし、ＨＳＭＭによる継続長分布のパラメータは、ＨＭＭの各状態と学習データとの対応づけから最尤推定により求められるため、予め音素時刻を特徴パラメータとして用意しない場合もある。このように、分析部２０３は、各ピッチマーク時刻における音響特徴パラメータを求めて、ＨＭＭの学習に用いる特徴パラメータを作成する。また、分析部２０３は、特徴パラメータの傾きの情報である動的特徴量（図中のΔパラメータおよびΔ^２パラメータ等）も求めて付加する。そして、図５（ｂ）に示すような音響特徴パラメータが構成される。

特徴パラメータ記憶部２０４（図４）は、分析部２０３が求めた音響特徴パラメータを、そのコンテキスト情報や時間境界情報等とともに記憶する。

ＨＭＭ学習部２０５は、特徴パラメータ記憶部２０４が記憶した特徴パラメータをＨＭＭの学習データとして用いる。ＨＭＭ学習部２０５は、継続長分布のパラメータを同時推定する隠れセミマルコフモデルの学習を、ＨＭＭの学習として行う。つまり、ＨＭＭ学習部２０５は、隠れセミマルコフモデルの学習において、コンテキスト情報及び音響特徴パラメータに加えて、ピッチ同期分析を用いるために各音声データのピッチマーク情報も入力し、時刻情報による継続長分布の学習を実現する。つまり、ＨＭＭ学習部２０５は、分析部２０３が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する。

図６は、ＨＭＭ学習部２０５が行う処理を示すフローチャートである。ＨＭＭ学習部２０５は、まず音素ＨＭＭの初期化を行い（Ｓ１０１）、ＨＳＭＭの学習により音素ＨＭＭの最尤推定をして（Ｓ１０２）、初期モデルである音素ＨＭＭを学習する。ＨＭＭ学習部２０５は、最尤推定する場合には、連結学習によってＨＭＭを文に対応させて、連結した文全体のＨＭＭと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。

次に、ＨＭＭ学習部２０５は、音素ＨＭＭを用いてコンテキスト依存ＨＭＭを初期化する（Ｓ１０３）。学習データに存在するコンテキストに対しては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするか否かといった音韻環境及び言語情報が用いられ、当該音素で初期化されたモデルが用意されている。

そして、ＨＭＭ学習部２０５は、コンテキスト依存ＨＭＭに対して連結学習による最尤推定を適用して学習し（Ｓ１０４）、決定木に基づく状態クラスタリングを適用する（Ｓ１０５）。このように、ＨＭＭ学習部２０５は、ＨＭＭの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。

より具体的には、ＨＭＭ学習部２０５は、状態毎・ストリーム毎の分布から、最尤基準やＭＤＬ（ＭｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈ）基準等によりモデルを分類する規則を学習し、図３に示した決定木を構築する。このように、ＨＭＭ学習部２０５は、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するＨＭＭを構築することができる。

最後に、ＨＭＭ学習部２０５は、クラスタリングしたモデルを最尤推定し、モデル学習が完了する（Ｓ１０６）。

ＨＭＭ学習部２０５は、クラスタリングを行うときに、各特徴量のストリーム毎に決定木を構築することにより、スペクトル情報（メルＬＳＰ）・音源情報（ＢＡＰ）・ピッチ情報（対数基本周波数）の各ストリームの決定木を構築する。また、ＨＭＭ学習部２０５は、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、ＨＭＭ単位の継続長分布決定木を構築する。なお、ＨＭＭ学習部２０５は、各最尤推定ステップにおいて、モデルの更新を行うときに、コンテキスト情報及び音響特徴量に加えて、ピッチマーク時刻情報を参照して状態継続長分布を学習する。

また、ＨＭＭ学習部２０５は、各音響特徴量に対応する時刻情報を用いて、継続長分布を学習するときに、各状態に対応づけられたフレーム数ではなく、各状態に対応づけられたフレームの開始点における時刻、及び終了点における時刻から、時刻パラメータによる時間長を求める。そして、ＨＭＭ学習部２０５は、求めた時間長から継続長分布を求めることが可能となり、ピッチ同期分析のように、非線形な間隔で特徴分析したパラメータを用いて学習しても適切な継続長分布を学習することができる。

なお、ピッチマーク時刻を用いたＨＳＭＭでは、後述するアルゴリズムを用いた連結学習による最尤推定が行われる。そして、ＨＭＭ学習部２０５が作成したＨＭＭを、ＨＭＭ記憶部１０６が記憶する。

つまり、音声合成装置１００は、作成部１０２が入力コンテキストとＨＭＭ記憶部１０６が記憶しているＨＭＭからＨＭＭ系列を作成し、決定部１０３が各ＨＭＭの各状態のピッチ波形数を決定する。そして、音声合成装置１００は、決定したピッチ波形数に従って各状態の分布を繰り返すことにより分布列を作成して、生成部１０４が静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成する。

図７は、音声合成装置１００がパラメータを生成する処理例を示す図である。図７においては、音声合成装置１００が３状態のＨＭＭで「赤い」の音声を合成する場合が例示されている。

まず、作成部１０２は、入力コンテキストのＨＭＭの各状態・各ストリームの分布及び継続長分布を選択し、ＨＭＭの系列を構成する。コンテキストとして「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用いた場合、「赤い」は、３モーラ２型であり、最初の“ａ”の音素が、先行音素“ｓｉｌ”、当該音素“ａ”、後続音素“ｋ”、音素位置１、音素数４、モーラ位置１、モーラ数３、アクセント型２型のため、“ｓｉｌ＿ａ＿ｋ＿１＿４＿１＿３＿２”といったコンテキストになる。

ＨＭＭの決定木を辿る場合、各中間ノードに当該音素がａであるか否か、アクセント型が２型であるか否かといった質問が定められており、質問を辿ることによってリーフノードの分布が選択され、メルＬＳＰ，ＢＡＰ，ＬｏｇＦ０の各ストリーム及び継続長分布の分布がＨＭＭの各状態に選択されて、ＨＭＭ系列が構成される。そして、決定部１０３は、下式１によってピッチ波形のフレーム数を決定する。

ここでは、対数Ｆ_０をピッチ情報の分布としているため、モデルｑ、状態ｉの対数基本周波数ストリームの静的特徴量の平均値μ^ｌｆ０ _ｑｉから求めた基本周波数ｅｘｐ（μ^ｌｆ０ _ｑｉ）に、モデルｑ、状態ｉの状態継続長分布の平均値μ^ｄｕｒ _ｑｉを乗算し、切り捨て、又は四捨五入等による整数化関数ｉｎｔ（）が適用されてピッチ波形数が定まる。

ピッチマーク時刻の時間情報を用いて求められたμ^ｄｕｒ _ｑｉが継続長分布であるため、フレーム数を求める場合にはピッチ情報が必要である。従来法はフレーム数をそのまま継続長分布として表すため、下式２の様に、単に整数化することにより定められる。

上述したように、特徴パラメータ分析時に固定のフレームレートで分析され、時刻に線形な関係がある場合には、上式２の形でフレーム数を求めることができる。しかし、ピッチ同期分析などにより、可変のフレームレートで音声分析を行った場合には、時刻を継続長分布のパラメータとして用いる必要があり、上式１の形によって波形数を定める必要がある。

なお、ここではピッチ情報の特徴パラメータとして対数基本周波数を用いているが、基本周波数を用いる場合はｅｘｐ（）関数が不要となる。また、ピッチ周期をパラメータとして用いる場合は下式３のように、除算により求めることになる。

生成部１０４は、このように定めたピッチ波形数によってＨＭＭの各状態の分布を繰り返すことにより分布列を作成し、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔ^２を動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻ｔの特徴パラメータｏ_ｔは、静的特徴パラメータｃ_ｔと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔｃ_ｔ、Δ^２ｃ_ｔを用いて、ｏ_ｔ＝（ｃ_ｔ’、Δｃ_ｔ’、Δ^２ｃ_ｔ’）と表される。Ｐ（Ｏ｜Ｊ，λ）を最大化する静的特徴量ｃ_ｔからなるベクトルＣ＝（ｃ_０’、・・・、ｃ_Ｔ−１’）’は、０_ＴＭをＴ×Ｍ次のゼロベクトルとして、下式４として与えられる方程式を解くことによって求められる。

ただし、Ｔはフレーム数、Ｊは状態遷移系列である。特徴パラメータＯと静的特徴パラメータＣとの関係を、動的特徴を計算する行列Ｗによって関係付けると、Ｏ＝ＷＣと表される。Ｏは３ＴＭのベクトル、ＣはＴＭのベクトルとなり、Ｗは、３ＴＭ×ＴＭの行列である。そして、μ＝（μ_ｓ００’，・・・，μ_{ｓＪ−１Ｑ−１}’）’、Σ＝ｄｉａｇ（Σ_ｓ００’，・・・，Σ_{ｓＪ−１Ｑ−１}’）’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式４は、下式５として与えられる方程式を解くことによって最適な特徴パラメータ系列Ｃを求めることができる。

この方程式は、コレスキー分解による方法により求められる。また、ＲＬＳフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成部の処理は本方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法が用いられてもよい。

波形生成部１０５は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部１０５は、対数基本周波数系列及び帯域雑音強度系列から音源信号を作成し、メルＬＳＰ系列による声道フィルタを適用して音声波形を生成する。

図８は、波形生成部１０５が行う処理を示す図である。図８に示すように、波形生成部１０５は、対数基本周波数系列からピッチマークを生成し、帯域雑音強度（ＢＡＰ）系列に従って、ノイズ成分とパルス成分の比率を制御して音源波形を生成し、メルＬＳＰ系列による声道フィルタを適用して音声波形を生成する。また、波形生成部１０５は、位相パラメータも用いてモデル化する場合、位相パラメータから位相スペクトルを生成して、スペクトルパラメータから振幅スペクトルを生成し、逆ＦＦＴにより各ピッチマークに対応するピッチ波形を生成して、重畳処理によって波形生成を行う。また、波形生成部１０５は、位相パラメータから音源波形を生成し、フィルタを適用する方法により波形生成を行ってもよい。

上述した処理により、ピッチ同期分析を用いた特徴パラメータを用いてＨＭＭモデルを構築し、音声合成に利用することが可能となる。また、これらの処理により、入力コンテキストに対応した合成音声が得られる。

次に、ＨＭＭ学習部２０５が行う最尤推定処理におけるモデル更新アルゴリズムの詳細について説明する。本アルゴリズムは、従来の隠れセミマルコフモデル学習アルゴリズムを、継続長分布を各特徴パラメータの時刻情報から学習するように拡張して導出したものである。従来法では、隠れセミマルコフモデルにより、ＨＭＭの各状態に何フレーム滞在したかを自己遷移確率に関する継続長分布として用いる。これに対し、ＨＭＭ学習部２０５は、フレーム数ではなく各フレームのピッチマーク時刻の間隔を単位として継続長分布を学習する。これにより、継続長分布は、ピッチに依存せずに、音素及び各状態の継続時間の長さを直接表す分布となり、音声合成時にピッチの不一致の影響によって不自然な継続長になる問題が解消される。

ＨＭＭでは、モデルλ、状態遷移系列Ｑ＝｛ｑ_０、ｑ_１、・・・、ｑ_Ｔ−１｝、状態ｉから状態ｊへの状態遷移確率ａ_ｉｊ、状態ｉの出力分布ｂ_ｉ（ｏ_ｔ）に対し、観測ベクトル系列Ｏ＝｛ｏ_０，ｏ_１，・・・，ｏ_Ｔ−１｝の尤度Ｐ（Ｏ｜λ）は、あらゆる状態遷移系列の総和として、下式６によって表される。

ＨＭＭは、上式６のように状態遷移すべてを状態遷移確率として表すが、隠れセミマルコフモデルＨＳＭＭでは、自己遷移確率を継続長分布として表す。

ここで、ｐｉ（ｔ，ｄ）は状態ｉに時刻ｔから時刻ｔ＋ｄまでｄフレーム滞在する確率を表し、ａ_{ｑｔ＋ｄｑｔ＋ｄ＋１}は時刻ｔ＋ｄにおいて、異なる状態ｑ_{ｔ＋ｄ＋１}へ遷移する確率を表す。

従来法では、この時刻ｔとして観測ベクトルのフレーム番号を用いており、ｄフレーム同じ状態に継続した場合の確率と、その後状態遷移する確率をすべての状態遷移系列に計算することになる。このようなＨＳＭＭに対するＦｏｒｗａｒｄ−ｂａｃｋｗａｒｄアルゴリズムを用いた出力分布パラメータ、状態遷移確率、状態継続長分布パラメータの更新アルゴリズムでは、最尤推定によりモデルパラメータを求めることができる。

ＨＭＭ学習部２０５のピッチ同期分析のためのＨＳＭＭでは、状態継続長ｐ_ｉ（ｔ，ｄ）は、フレーム数ではなく、時刻の情報をパラメータとして表す。そして、ＨＭＭ学習部２０５は、各フレームに対応するピッチマークの時刻情報から、各フレームのピッチマーク時刻をｐｍ（ｔ）としたとき、時刻ｔから時刻ｔ＋ｄの状態継続長が、ｄ（ｔ，ｄ）＝ｐｍ（ｔ＋ｄ）−ｐｍ（ｔ−１）となり、継続長分布のパラメータとして、このピッチマーク時刻の間隔を用いる。

ピッチ同期分析の場合は、ピッチマーク位置をフレームの中心として波形の分析を行うが、このときフレーム数を状態継続長分布として表した場合、ピッチが高いほど、ピッチマークの間隔は狭くなり、多くのフレーム数となる。この場合、ピッチが低いほど、ピッチマークの間隔が広くなるため、少ないフレーム数となり、時間長だけでなく、ピッチに依存した状態継続長の分布となる。

これに対し、ＨＭＭ学習部２０５は、ピッチによらず、各状態の時間長をそのままモデル化するため、各音素の長さをピッチに依存せずにモデル化することができる。固定のフレームレートの分析を行った場合は、時刻情報・フレーム数、どちらを用いても線形な関係になるため、影響を受けない。ＨＭＭ学習部２０５は、フレームの間隔が一定でない場合にも、適切に継続長モデルを計算することができる。

次に、ＨＭＭ学習部２０５が最尤推定を行う場合のモデルの連結学習のためのＦｏｒｗａｒｄ−Ｂａｃｋｗａｒｄアルゴリズムによる更新アルゴリズムについて説明する。まず、前向き確率を、以下式１０〜１７により計算する。前向き確立α^（ｑ） _ｊ（ｔ、ｄ）は、ｄフレーム続いた後に、時刻ｔにおいて、モデルｑ、状態ｊに存在する確率である。まず、時刻（ｔ＝１）において下式１０〜１３により初期化する。

そして、下式１４〜１７による再帰計算により、（２≦ｔ≦Ｔ）のフレームの前向き確率α^（ｑ） _ｊ（ｔ、ｄ）を求める。

後ろ向き確率β^（ｑ） _ｉ（ｔ、ｄ）は、同様に、時刻ｔにおいて、状態ｉにｄフレーム滞在し、その後時刻Ｔまでの観測ベクトルが出力される確率であり式１８〜２５により計算する。まず時刻（ｔ＝Ｔ）において下式１８〜２１により初期化する。

そして、下式２２〜２５の再帰（Ｔ−１≧ｔ≧１）のステップにより、β^（ｑ） _ｉ（ｔ、ｄ）が計算される。

これらと混合ガウス分布を用いると、時刻ｔにおいてモデルｑの状態ｊ、混合ｍ、ストリームｓに滞在する確率は、下式２６〜２８により求められる。

また、時刻ｔにおいてモデルｑの状態ｊに滞在する確率は、下式２９により求められる。

上式２８又は上式２９は、従来の連結学習とは異なり、図９に示すように、状態をまたがった遷移も考慮した、時刻ｔにモデルｑの状態ｊを通るあらゆる状態遷移系列の総和となっている。

また、時刻ｔ_０から時刻ｔ_１までモデルｑの状態ｊ、ストリームｓに滞在する確率は、下式３０によって表される。

このように導出した状態遷移確率、前向き確率、後ろ向き確率を用いて、モデルパラメータの更新を行い、出力分布のパラメータ、継続長モデル、遷移確率の最尤推定が行われる。継続長分布パラメータの更新式は、下式３１,３２によって表される。

また、出力分布の混合重み、平均ベクトル及び共分散行列は、下式３３〜３５により更新される。

これら式１０〜３５を用いて、ＨＭＭ学習部２０５は、モデルパラメータの最尤推定を行う。

次に、音声合成装置１００が実行する音声合成の処理について説明する。図１０は、音声合成装置１００が実行する音声合成の処理を示すフローチャートである。図１０に示すように、まず、解析部１０１は、入力テキストを解析してコンテキスト情報を求める（Ｓ２０１）。作成部１０２は、ＨＭＭ記憶部１０６が記憶しているＨＭＭを参照して入力コンテキストに対応したＨＭＭ系列を作成する（Ｓ２０２）。

決定部１０３は、ＨＭＭ系列の継続長分布及びピッチ情報を用いて各状態のピッチ波形数を決定する（Ｓ２０３）。生成部１０４は、得られた各状態のピッチ波形数にしたがって出力分布を並べて分布列を作成し、パラメータ生成アルゴリズム等を適用して音声合成に用いるパラメータ系列を分布列から生成する（Ｓ２０４）。そして、波形生成部１０５は、音声波形を生成し、合成音声を得る（Ｓ２０５）。

なお、音声合成装置１００が有する各機能は、ハードウェアによって構成されてもよいし、ＣＰＵが実行するソフトウェアによって構成されてもよい。例えば、音声合成装置１００は、音声合成プログラムを実行して音声合成を行う場合、図１０に示した各ステップをＣＰＵが実行する。

次に、音声合成モデル学習装置２００が実行する音声合成モデル学習の処理について説明する。図１１は、音声合成モデル学習装置２００が実行する音声合成モデル学習の処理を示すフローチャートである。図１１に示すように、まず、分析部２０３は、音声コーパス記憶部２０１が記憶している音声データ、ピッチマーク情報を用いて、ピッチ同期分析によりスペクトルパラメータ、ピッチパラメータ、音源パラメータによる音響特徴パラメータを抽出する（Ｓ３０１）。特徴パラメータ記憶部２０４が、抽出された音響特徴パラメータを記憶する。

次に、ＨＭＭ学習部２０５は、音響特徴パラメータ、コンテキスト情報及びピッチマーク情報を用いてＨＭＭを学習する（Ｓ３０２）。ＨＭＭは、時刻パラメータによる継続長分布及びピッチ情報の出力分布を含む。学習されたＨＭＭは、ＨＭＭ記憶部１０６に記憶され、音声合成において用いられる。

なお、音声合成モデル学習装置２００が有する各機能は、ハードウェアによって構成されてもよいし、ＣＰＵが実行するソフトウェアによって構成されてもよい。例えば、音声合成モデル学習装置２００は、音声合成モデル学習プログラムを実行して音声合成モデル学習を行う場合、図１１に示した各ステップをＣＰＵが実行する。

また、ＨＭＭ学習部２０５については、特定話者のコーパスを用いて話者依存モデルを最尤推定する場合を例に説明したが、これに限定されない。例えば、ＨＭＭ学習部２０５は、ＨＭＭ音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能である。また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式を用いることもできる。すなわち、ＨＭＭ学習部２０５は、固定のフレームレートによる音声分析でフレーム数を継続長分布のパラメータとせず、ピッチ同期分析等時刻情報を継続長分布のパラメータとする任意の方式で学習したモデルを用いて音声合成モデルを学習することが可能である。

次に、音声合成モデル学習装置２００の変形例について説明する。図１２は、音声合成モデル学習装置２００の変形例（音声合成モデル学習装置２００ａ）を示すブロック図である。図１２に示すように、音声合成モデル学習装置２００ａは、音声コーパス記憶部２０１、分析部２０３、特徴パラメータ記憶部２０４、話者適応部３０１、平均声ＨＭＭ記憶部３０２及びＨＭＭ記憶部１０６を有し、平均声からの話者適応を行って音声合成モデルを学習する。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。

話者適応部３０１は、平均声ＨＭＭ記憶部３０２が記憶している平均声モデルに対し、特徴パラメータ記憶部２０４が記憶している特徴パラメータを用いて話者適応技術を適用し、得られた適応ＨＭＭをＨＭＭ記憶部１０６に記憶させる。

平均声ＨＭＭは、複数の話者から学習した平均的な声のモデルであり、平均的な声の特徴を有するモデルである。話者適応部３０１は、この平均声を、目標話者の特徴パラメータを用いて変換することにより適応ＨＭＭを得る。また、話者適応部３０１は、最尤線形回帰等の話者適応手法を用いることにより、目標話者データが少量で不足するコンテキストが存在する場合にも、平均声ＨＭＭのモデルを目標話者に近づけるため不足コンテキストを補ったモデルを作成することができる。

最尤線形回帰では、重回帰分析により平均ベクトルを変換する。例えば、話者適応部３０１は、上式１０〜３５に示した時刻パラメータによる連結学習を用いて学習データと平均声ＨＭＭとの対応付けを行い、回帰行列を求める。そして、複数の分布で回帰行列を共有することにより、対応する学習データが存在しない分布の平均ベクトルも変換することが可能となる。これにより、少量の目標データのみを用いて学習したモデルよりも高品質な音声を合成することが可能となり、ピッチ同期分析による音響特徴パラメータを用いて話者適応したモデルから音声合成が可能となる。

次に、音声合成装置１００の変形例について説明する。図１３は、音声合成装置１００の変形例（音声合成装置１００ａ）を示すブロック図である。図１３に示すように、音声合成装置１００ａは、解析部１０１、作成部１０２、決定部１０３、生成部１０４、波形生成部１０５、ＨＭＭ記憶部１０６、特徴パラメータ記憶部２０４及び選択部４０１を有し、特徴パラメータ系列選択による音声合成を行う。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。

音声合成装置１００ａは、作成部１０２と決定部１０３の間において、選択部４０１が処理を行う。具体的には、音声合成装置１００ａは、作成部１０２において得られたＨＭＭ系列を目標として、特徴パラメータ記憶部２０４が記憶している音響特徴パラメータの中からパラメータを選択部４０１が選択し、選択したパラメータから音声波形を合成する。つまり、選択部４０１は、統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する。このように、選択部４０１が音響特徴パラメータの中からパラメータを選択することにより、ＨＭＭ音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。

ピッチ同期分析による特徴パラメータを用いた場合、分析パラメータから再生成した音声は、固定のフレームレートにより分析した従来の特徴パラメータを用いる場合よりも、原音に近い音質となる。このため、音声合成装置１００ａは、ピッチ同期分析が用いられた効果が顕著に現れ、従来の特徴パラメータを用いる場合よりも自然性が改善する。

次に、選択部４０１についてさらに詳述する。選択部４０１は、ＨＭＭに基づいて、特徴パラメータ系列を選択する。特徴パラメータ選択の単位は、任意の単位により行うことが可能にされているが、ここではＨＭＭ系列の各状態毎に、特徴パラメータを選択する。

特徴パラメータ記憶部２０４には、音声波形の各特徴パラメータとともに、状態に対応する境界を付与した情報が記憶されていることとする。例えば、ＨＭＭの各状態と、音声波形との対応付けは予めビタビアライメントにより求められ、得られた最尤状態遷移系列の時間境界が状態の境界として特徴パラメータ記憶部２０４に記憶される。選択部４０１は、特徴パラメータの選択に目標尤度及び接続尤度を用いる場合、ＨＭＭ系列の状態を単位として、動的計画法により最適特徴パラメータ系列を選択する。

図１４は、選択部４０１が実行する処理を示すフローチャートである。まず、選択部４０１は、合成する文章の最初のＨＭＭの初期状態における候補特徴パラメータを選択し（Ｓ４０１）、初期の各候補に対する目標尤度を計算する（Ｓ４０２）。

目標尤度は、該当する区間における目標と適合する度合いを数値化したものであり、ＨＭＭ系列の分布の尤度から求めることができる。対数尤度を用いる場合、各状態区間内の特徴パラメータの対数尤度の和として計算される。特徴パラメータの候補は、選択元の特徴パラメータの集合であり、該当するＨＭＭの状態における決定木のリーフノードの分布を学習するときに用いた学習データを候補とすることができる。同一の状態に対応する同一音素の特徴パラメータを候補とする方法や、音韻環境で絞った同一音素を候補とする方法、韻律属性の一致度合いによって候補を決定する方法など、他の方法により決めることも可能である。

そして、選択部４０１は、状態番号を一つ進め、各状態に対する候補を選択し（Ｓ４０３）、目標尤度及び接続尤度などの尤度計算を行う（Ｓ４０４）。

なお、ＨＭＭの最終状態の場合は、後続するＨＭＭの初期状態に進めていく。Ｓ４０３の候補選択の処理は、Ｓ４０１の処理と同様に行うことができる。接続尤度は、該当区間が先行区間の後続として適合する度合いを数値化したものである。接続尤度は、先行状態区間の各候補素片に対し、該当状態における各候補素片が選ばれたときの尤度を用い、平均ベクトルとして一つ前の状態の各候補素片の後続区間の平均ベクトルを用い、分散は各状態の出力分布の分散を用いたガウス分布の尤度により計算することができる。

そして、選択部４０１は、バックトラックするため、各候補素片に対して、一つ前の状態の最適候補の情報を保存しておく。選択部４０１は、現在の状態が入力文章に対応するＨＭＭ系列の最終ＨＭＭの最終状態であるか否かを判定する（Ｓ４０５）。選択部４０１は、最終状態である（Ｓ４０５：Ｙｅｓ）と判定すれば、Ｓ４０６の処理に進む。また、選択部４０１は、最終状態でない（Ｓ４０５：Ｎｏ）と判定すれば、状態及びＨＭＭを一つ進めてＳ４０３の処理に戻る。

最後に、選択部４０１は、尤度最大となる特徴パラメータを選択し、その先行状態の最適候補を順にバックトラックすることにより、最適特徴パラメータ系列を求める（Ｓ４０６）。選択部４０１は、このように選択された最適特徴パラメータ系列を決定部１０３に対して出力する。

図１５は、選択部４０１の具体的な構成例を示す図である。選択部４０１は、例えば候補選択部４１１、尤度計算部４１２及びバックトラック部４１３を備える。候補選択部４１１は、特徴パラメータ記憶部２０４から候補を選択する。尤度計算部４１２は、目標尤度・接続尤度を計算する。選択部４０１は、ＨＭＭ系列の状態を単位として、候補選択部４１１及び尤度計算部４１２が処理を繰り返し、最後にバックトラック部４１３が最適特徴パラメータ系列を求める。

なお、ここでは尤度最大化系列を例としたが、ＨＭＭ系列に基づいて特徴パラメータ系列を選択する任意の方法が用いられてもよい。尤度の逆数や、平均ベクトルとの二乗誤差やマハラノビス距離などによって計算するコスト関数を定義し、コスト最小化により特徴パラメータの選択を行ってもよい。また、動的計画法による特徴パラメータ選択ではなく、音響的尤度と韻律的尤度のみからコストを計算し、特徴パラメータの選択も行ってもよい。

さらに、ＨＭＭ系列から特徴パラメータを生成し、生成されたパラメータからの距離からコスト計算を行って特徴パラメータの選択を行ってもよい。パラメータ選択を行う場合、最適パラメータ系列のみでなく、各区間に複数のパラメータ系列を選択し、平均化したパラメータを利用してもよい。選択部４０１は、これらの処理により、入力されたＨＭＭ系列の各ＨＭＭの各状態に対して、最適特徴パラメータを選択することができ、これらの情報を決定部１０３に対して出力する。

決定部１０３は、選択された継続長分布系列及びピッチ特徴パラメータの系列からピッチ波形数を決定する。生成部１０４は、選択された特徴パラメータを用いて分布を更新する。ＨＭＭ系列の分散を用い、選択された特徴パラメータで分布の平均ベクトルを置き換えることにより分布を更新し、更新された分布列からパラメータを生成することにより、選択された特徴パラメータを反映したパラメータ生成を行うことができる。波形生成部１０５は、生成されたパラメータから合成音声を生成する。このように、音声合成装置１００ａは、選択部４０１を備えることにより、各区間に選択された音響特徴量より波形生成が可能となり、自然な合成音声が得られる。

なお、音声合成装置１００、音声合成装置１００ａ、音声合成モデル学習装置２００及び音声合成モデル学習装置２００ａは、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声合成装置及び音声合成モデル学習装置は、上述のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。

音声合成装置１００、音声合成装置１００ａ、音声合成モデル学習装置２００及び音声合成モデル学習装置２００ａで実行されるプログラム（音声合成プログラム又は音声合成モデル学習プログラム）は、ＲＯＭ等に予め組み込まれて提供される。

また、音声合成装置１００、音声合成装置１００ａ、音声合成モデル学習装置２００及び音声合成モデル学習装置２００ａで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。さらに、これらのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。

このように、実施形態にかかる音声合成装置によれば、統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定し、決定したピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成するので、音声劣化と不自然な音素継続長とを防止することができる。また、実施形態にかかる音声合成装置は、ピッチ同期分析による精密な音響特徴パラメータを用いつつ、継続長分布としてピッチマークから算出される時間長をモデル化し、合成時には該当する状態の継続長分布パラメータ及びピッチ特徴パラメータの出力分布に基づいて生成されるピッチ情報に基づいてピッチ波形数を算出して音声合成することができる。よって、実施形態にかかる音声合成装置は、精密な音声分析を利用しつつ学習時と合成時のピッチの不一致の影響に起因する不自然な継続長となる問題を解消し、高品質な音声合成が可能となる。

また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する記憶部と、
入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する作成部と、
前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する決定部と、
前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する生成部と、
前記生成部が生成した音響特徴パラメータから音声波形を生成する波形生成部と、
を有する音声合成装置。
前記決定部は、
前記時刻パラメータによる継続長分布に基づく継続時間長に対して、ピッチ特徴パラメータの出力分布に基づくピッチ情報に対応する基本周波数の乗算を行うこと、又はピッチ周期の除算を行うことによりピッチ波形数を決定する
請求項１に記載の音声合成装置。
前記記憶部は、
静的特徴パラメータ及び動的特徴パラメータから構成される特徴パラメータの分布によるＨＭＭ出力分布を含むＨＭＭ情報を記憶し、
前記生成部は、
ＨＭＭ出力分布の静的特徴パラメータ及び動的特徴パラメータの平均及び分散を用いて平滑化特徴パラメータを生成する
請求項１に記載の音声合成装置。
前記統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する選択部
をさらに有し、
前記決定部は、
選択された各状態の継続長パラメータ及びピッチ情報からピッチ波形数を決定する
請求項１に記載の音声合成装置。
複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶する工程と、
入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する工程と、
前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する工程と、
前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する工程と、
生成した音響特徴パラメータから音声波形を生成する工程と、
を含む音声合成方法。
複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶するステップと、
入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成するステップと、
前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定するステップと、
前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成するステップと、
生成した音響特徴パラメータから音声波形を生成するステップと、
をコンピュータに実行させるための音声合成プログラム。
音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を記憶する音声コーパス記憶部と、
前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する分析部と、
前記分析部が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する統計モデル学習部と、
を有する音声合成モデル学習装置。
前記統計モデル学習部は、
前記音声データのコンテキスト情報、及び各ピッチマーク時刻における音響特徴パラメータとともにピッチマーク時刻情報を用い、前記ピッチマーク時刻情報を参照して継続長分布を学習する
請求項７に記載の音声合成モデル学習装置。
前記統計モデル学習部は、
前記統計モデルとして、自己遷移確率を状態継続長分布として表す隠れセミマルコフモデルを用い、各状態に滞在する開始点のピッチマーク時刻及び終了点のピッチマーク時刻から各状態に滞在する時刻パラメータによる時間長を求め、前記滞在時間長の分布を状態継続長分布とする
請求項７に記載の音声合成モデル学習装置。
前記統計モデル学習部は、
状態継続長分布を用いて各状態の出力分布を推定することにより、前記統計モデルの各状態の出力分布を含むモデルパラメータの推定を行う
請求項７に記載の音声合成モデル学習装置。
前記音響特徴パラメータは、音声データの各ピッチマーク時刻におけるピッチ特徴パラメータ、スペクトル特徴パラメータ、及び音源特徴パラメータから構成され、音源特徴パラメータとして位相特徴パラメータを含む
請求項７に記載の音声合成モデル学習装置。
音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶する工程と、
前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する工程と、
分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する工程と、
を含む音声合成モデル学習方法。
音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶するステップと、
前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析するステップと、
分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習するステップと、
をコンピュータに実行させるための音声合成モデル学習プログラム。