JP6499305B2 - 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム - Google Patents

音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム Download PDF

Info

Publication number
JP6499305B2
JP6499305B2 JP2017540389A JP2017540389A JP6499305B2 JP 6499305 B2 JP6499305 B2 JP 6499305B2 JP 2017540389 A JP2017540389 A JP 2017540389A JP 2017540389 A JP2017540389 A JP 2017540389A JP 6499305 B2 JP6499305 B2 JP 6499305B2
Authority
JP
Japan
Prior art keywords
pitch
distribution
parameter
information
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017540389A
Other languages
English (en)
Other versions
JPWO2017046887A1 (ja
Inventor
正統 田村
正統 田村
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2017046887A1 publication Critical patent/JPWO2017046887A1/ja
Application granted granted Critical
Publication of JP6499305B2 publication Critical patent/JP6499305B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Description

本発明の実施形態は、音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムに関する。
任意のテキストを合成波形に変換する音声合成技術が知られている。また、音声波形のデータベースを分析して得られる特徴パラメータから統計モデルを学習する音声合成モデル学習装置と、学習された統計モデルを音声合成に用いる音声合成装置が広く知られている。
特開2002−268660号公報
H.Zen, et al, "A Hidden Semi‐Markov Model‐Based Speech Synthesis System", IEICE TRANS. INF. SYST., VOL. E90−D, NO.5 MAY 2007,p.825‐834
従来は、固定フレームレートの音声分析による音響特徴パラメータを用いた場合、精密な音声分析が行われずに音質劣化が生じるという問題があった。また、ピッチ同期分析によって音声分析を行った場合、学習時と合成時のピッチの不一致の影響等により不自然な音素継続長になるという問題があった。本発明が解決しようとする課題は、音声劣化と不自然な音素継続長とを防止することができる音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラムを提供することである。
実施形態の音声合成装置は、記憶部と、作成部と、決定部と、生成部と、波形生成部とを有する。記憶部は、複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する。作成部は、入力テキストに対応するコンテキスト情報、及び統計モデル情報から、統計モデル系列を作成する。決定部は、統計モデル系列の各統計モデルの各状態の継続長分布に基く継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。生成部は、ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する。波形生成部は、生成部が生成した音響特徴パラメータから音声波形を生成する。
実施形態にかかる音声合成装置を示すブロック図。 HSMMを例示する図。 HMM記憶部が記憶しているHMMを示す図。 実施形態にかかる音声合成モデル学習装置を示すブロック図。 固定フレームレートによる分析と、ピッチ同期分析との違いを示す図。 HMM学習部が行う処理を示すフローチャート。 実施形態にかかる音声合成装置がパラメータを生成する処理例を示す図。 波形生成部が行う処理を示す図。 状態占有確率の計算方法を示す図。 実施形態にかかる音声合成装置が実行する処理を示すフローチャート。 実施形態にかかる音声合成モデル学習装置が実行する処理を示すフローチャート。 実施形態にかかる音声合成モデル学習装置の変形例を示すブロック図。 実施形態にかかる音声合成装置の変形例を示すブロック図。 選択部が実行する処理を示すフローチャート。 選択部の具体的な構成例を示す図。
まず、本発明がなされるに至った背景について説明する。音声合成モデル学習装置には、時系列信号をモデル化するために、複数の状態を持つ統計モデルである隠れマルコフモデル(HMM:Hidden Markov Model)を学習するものがある。また、音声合成装置には、学習されたHMMに基づいて音声を合成するものがある。
HMMに基づく音声合成では、入力されたテキストに従って分布列を求め、得られた分布列から特徴パラメータを生成することにより音声を合成する。例えば、音声のスペクトル情報、音響特徴パラメータ及び韻律特徴パラメータを用いて、静的特徴パラメータと共に時間変化を表す動的特徴パラメータを併せた特徴パラメータ列からモデルを学習し、静的及び動的特徴パラメータの尤度を最大化するパラメータ生成アルゴリズムを適用して、滑らかな特徴パラメータ系列による音声を生成することができる。音響特徴パラメータは、音源情報を表す。韻律特徴パラメータは、音声の韻律情報であるピッチ情報を表す。
さらに、HMMの話者適応技術・話者補間技術等を応用することにより、少量データによる新話者モデルや話者補間モデル、度合いの制御が可能な感情モデルの作成など、合成音声の多様性を広げることも可能である。
HMM音声合成では、メルケプストラム分析方法やSTRAIGHT分析によるスペクトル包絡抽出方法を用いる方法が一般的に利用されている。これらの方法は、スペクトル分析を行うときに、例えば5ms程度の固定のフレームレートによる音声分析を行い、特徴パラメータを分析する。
メルケプストラム分析を用いる場合は、フレームの中心点と波形の周期性との対応は考慮されず、複数の周期を含む比較的広い窓幅のフレームを切り出してパラメータ分析を行う。よって、分析し再合成した音声は元の音声波形に対して歪みが生じ、音質劣化が生じる。
STRAIGHT分析も同様に、固定のフレームレートによる音声分析を行う。STRAIGHT分析では、時間方向平滑化及び周波数方向平滑化の処理により、分析窓の中心と周期性との対応を補正しつつスペクトル分析を行う。よって、音質劣化は低減されるものの、破裂音や無声摩擦音と有声音の境界などの非定常個所における音質劣化等、固定フレームレート分析に起因する音質劣化は依然として生じる。
また、HMMに基づく音声合成の拡張として、統計モデルに基づく音声合成と音声素片選択に基づく音声合成を組み合わせたハイブリッド型音声合成方法や、特徴パラメータを選択する音声合成方法、及びニューラルネットを利用した音声合成方法などがある。しかし、これらの方法においても、メルケプストラム分析を用いた音声分析方法や、STRAIGHTを利用した音声分析方法を用いる場合には、同様に機械的な音質になる問題が生じる。
固定のフレームレートによる音声分析方法を用いた場合、特徴パラメータの個数であるフレーム数は継続時間長と線形な関係になるため、フレーム数を継続長分布として利用することができる。すなわち、HMMの各状態のフレーム数を直接継続長分布のパラメータとして、隠れセミマルコフモデル(HSMM)のパラメータを学習した音声合成が可能である。
HSMMは、出力分布と状態継続長分布による確率モデルであり、HMMの尤度計算において固定の自己遷移確率ではなく状態継続長分布を用いて尤度計算を行うモデルである。この場合、継続長モデルは、各音声データを各状態と統計的に対応づける状態占有確率と、状態系列における各状態に対応付けた特徴パラメータのフレーム数により、継続長分布のパラメータを学習する。時間長はフレーム数にフレームレートを乗じることによって求められるため、固定のフレームレートの音声分析を用いた場合、特徴パラメータと対応するコンテキストのみから、時間長と線形な関係を持つ継続長分布を学習することができる。
パラメータ生成時には、決定木を辿って得られる継続長分布が直接フレーム数の分布となるため、継続長分布パラメータからフレーム数を定め、得られた各状態のフレーム数に従って分布列を生成し、パラメータ生成及び波形生成処理を行うことができる。このように、固定フレームレートによる音声分析を用いた場合、音質劣化は生じるものの、特徴パラメータのフレーム数を継続長分布としてモデル化し、継続長分布のパラメータから直接音声合成時のフレーム数を定めることができる。
一方で、音声の分析方法の一つとして、ピッチ同期分析を用いることも可能である。ピッチ同期分析では、固定のフレームレートではなく、音声波形の各ピッチ周期に対応した間隔で特徴パラメータの分析を行う。例えば、音声の周期的な波形の各周期の中心時刻を表すピッチマーク情報を作成し、ピッチマーク位置から分析中心を定め、ピッチに依存した窓幅の窓関数を適用してピッチ波形を切り出し、切り出したピッチ波形を分析して音響特徴パラメータを求める。
ここで、適切に付与したピッチマーク位置を分析中心時刻として分析することにより、音声波形の局所的な変化にも対応した適切な分析が可能となるため、分析合成音声の原音との一致性を増すことができ、音質劣化が低減される。しかし、この場合、各フレームの間隔が一定でなくなるため、フレームの個数であるピッチ波形数と時刻の情報が線形な関係ではなくなり、ピッチの高い個所では多くのフレーム数となり、低い個所では少ないフレーム数の分析となる。
このように、ピッチ同期分析を用いた場合、音声フレームの個数を継続長分布のパラメータとしてモデル学習及び合成に用いると、学習時のピッチと合成時のピッチの不一致の影響により不自然な長さの合成音声となる問題が生じる。継続長モデルは、モーラ(拍)や音素との相関が高いため、ピッチに依存して変化するピッチ同期分析のピッチ波形数の分布ではなく、開始時刻と終了時刻の差による時刻パラメータによる時間長をパラメータとする方法などにより、時刻と線形な関係にあるパラメータをモデル化することが望ましい。
次に、添付図面を参照して、音声合成装置の実施形態について説明する。図1は、音声合成装置の実施形態(音声合成装置100)を示すブロック図である。図1に示すように、音声合成装置100は、解析部101、作成部102、決定部103、生成部104、波形生成部105及びHMM記憶部106を有する。
解析部101は、入力テキストに対して形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた言語情報からコンテキスト情報を作成する。解析部101は、別途作成された入力テキストに対応する修正済みの読み情報及びアクセント情報などを受入れて、コンテキスト情報を作成してもよい。
ここで、コンテキスト情報とは、音素・半音素・音節HMM等の音声を分類する単位として用いられる情報である。音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができる。さらに、先行音素・後続音素を付加したトライフォン、前後2音素ずつ含めた音素情報、有声音・無声音による分類、詳細化した音素種別の属性を表す音素種別情報、各音素の文内・呼気段落内・アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報としてもよい。
作成部102は、解析部101から入力されたコンテキスト情報に従って、HMM記憶部106が記憶しているHMM(図3を用いて後述)を用いて、入力テキストに対応するHMM系列を作成する。HMMは、状態遷移確率と各状態の出力分布とにより表される統計モデルである。具体的には、作成部102は、入力テキストに対応するコンテキスト情報、及び後述する統計モデル情報から、統計モデル系列を作成する。
HMMは、left−to−right型HMMである場合、図2に示すように、各状態の出力分布N(o|μ、Σ)と、状態遷移確率aij(i,jは状態インデックス)によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率aijの代わりに継続長分布N(d|μ d、Σ d)を用いるものは、HSMM(隠れセミマルコフモデル)と呼ばれ、継続長のモデル化に用いられる。以下、HSMMも含めてHMMと記載する。
決定部103は、作成部102が作成したHMM系列に基づいて、継続長分布パラメータ及びピッチ特徴パラメータの出力分布から生成されるピッチパラメータを用いてピッチ波形数を決定する。つまり、決定部103は、作成部102が作成した統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長と共に、ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する。
生成部104は、決定部103が決定したピッチ波形数に従って分布列を作成し、分布列から音響特徴パラメータを生成する。具体的には、生成部104は、ピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成する。
波形生成部105は、生成部104が生成した音響特徴パラメータの系列から音声波形を生成する。
HMM記憶部106は、ピッチ同期分析による音響特徴パラメータから学習したHMMを記憶している。具体的には、HMM記憶部106は、HMMの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。HMMの各状態におけるピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続長分布と、コンテキスト情報に基づいて各状態の分布を選択するための決定木を統計モデル情報として記憶する。
図3は、HMM記憶部106が記憶しているHMMを示す図である。図3に示すように、HMM記憶部106は、例えばHMMの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶しており、さらに継続長分布のための決定木及び分布も記憶している。
決定木の各ノードには、分布を分類する質問が関連付けられている。例えば、ノードは、「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問が関連付けられており、その質問に該当する場合の子ノードと、該当しない場合の子ノードに分類する。つまり、決定木では、入力されたコンテキスト情報に対して、各ノードの質問に該当するか否かを判断することによって探索し、リーフノードを得る。
つまり、上述した作成部102は、得られたリーフノードに対応付けられている分布を各状態の出力分布として用いることにより、各音声単位に対応するHMMを構築する。そして、作成部102は、入力されたコンテキスト情報に対応するHMM系列を作成する。
次に、音声合成モデル学習装置の実施形態について説明する。図4は、音声合成モデル学習装置の実施形態(音声合成モデル学習装置200)を示すブロック図である。図4に示すように、音声合成モデル学習装置200は、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、HMM学習部205及びHMM記憶部106を有する。なお、音声合成モデル学習装置200が有するHMM記憶部106は、図1を用いて上述したHMM記憶部106に対応する。つまり、HMM記憶部106に記憶されるHMMは、図4に示したように、音声合成モデル学習装置200がピッチマークを用いたピッチ同期分析を行って作成している。
音声コーパス記憶部201は、モデル学習に用いる音声波形(音声データ)、各音声波形に対応するコンテキスト情報及びピッチマーク情報を記憶している。音声波形は、発話者の収録音声から文ごとに切り出されたデータからなる。コンテキスト情報は、各収録音声の発声内容から作成される。
ピッチマーク情報は、有声音の周期的な区間に対しては、音声データからピッチ抽出し、周期に対応した時刻を抽出することにより作成される。また、ピッチマーク情報は、無声音や破裂音・無音などの非周期波形の区間に対しては、有声音区間の周期波形のピッチを滑らかに補間するように時刻を定めることや、非周期区間では固定のフレームレートに時刻を定めることなどにより、文全体に対して分析中心位置を示す時刻情報が設定される。つまり、ピッチマーク情報は、非周期区間の分析時刻も含む。このように、各音声波形の分析中心時刻の情報であり、周期波形区間においてはピッチ周期に対応した分析中心時刻であるピッチマーク情報が音声コーパスに作成されている。
分析部203は、音声波形から音響特徴パラメータを求める。音響特徴パラメータは、音声のスペクトル包絡を表すスペクトルパラメータ及び音源情報を表す音源パラメータ、基本周波数の情報を表すピッチパラメータ等による特徴パラメータであり、音声波形から抽出される。つまり、分析部203は、音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する。
スペクトルパラメータとしては、メルケプストラム、メルLSP、線形予測係数などのスペクトル包絡パラメータが利用できる。音源パラメータとしては、各スペクトル帯域の非周期成分の割合を表す帯域雑音強度(BAP:band aperiodicity)、位相情報又は群遅延情報等が用いられる。
よって、分析部203は、各ピッチマーク時刻に対応した音響特徴パラメータを適切に求めることができる。図5は、有声音の周期波形区間における固定フレームレートによる分析と、ピッチ同期分析との違いを示す図である。
図5(a)は、固定フレームレートによる音声分析を表している。固定フレームレートによる音声分析では、フレームの中心時刻と、波形の周期性との間に関連がなく、予め定めた間隔によって特徴分析が行われる。
例えば、固定フレームレートによる音声分析では、25ms程度の窓関数で複数の周期波形を含む範囲を切り出した分析が広く用いられるが、音声波形のピーク位置とフレーム位置との間に関連がなくなるため歪みが生じる。この影響により、固定フレームレートによる音声分析は、定常的な音声区間においても不安定なスペクトル包絡となる場合がある。また、変化の急な個所においては、広い窓幅等の影響により過剰に平滑化された分析結果となり、変化する波形を適切に再現できない問題も生じる。
これに対し、ピッチ同期分析による特徴抽出では、図5(b)に示したように、音声波形の各周期のピーク時刻付近にピッチマークを定める方法など、ピッチ周期に応じた時刻にピッチマークが付与され、ピッチマーク時刻を分析中心として、2ピッチ程度の窓幅のハニング窓等を用いて波形が切り出される方法が用いられる。
このように、ピッチ同期分析では、適切な時刻においてピッチに依存する窓幅で分析を行うことが可能になり、分析した特徴パラメータから合成する分析合成音声は元の音声に近い波形が得られる。
また、固定のフレームレート分析の音質劣化を低減するため、STRAIGHT分析では、分析時刻の位置の不定性の補正を時間方向の平滑化によって行い、さらに周波数方向の平滑化によって滑らかなスペクトル包絡を抽出する。また、ピッチ同期分析によって得られたパラメータを固定フレームレート位置に補間して分析する場合にも、ピッチ同期分析によるパラメータをそのまま用いる場合と比較すると劣化が生じ、再合成した音声波形と元の音声波形との間には歪みが生じる。
音響特徴パラメータとして、メルLSP,BAPを用いる場合、各ピッチマーク毎に切り出した音声にメルLSP分析を適用してメルLSPを求め、各時刻の左右のピッチマークの間隔の情報などからピッチ情報を求めて対数Fに変換し、帯域雑音強度の分析によりBAPを求める。帯域雑音強度の分析では、例えばPSHF(Pitch Scaled Harmonic Filter)方式に基づいて、音声を周期成分と非周期成分に分離し、各時刻の非周期成分比率を求め、予め定めた帯域毎に平均化すること等によりBAPを求めることができる。
さらに、位相特徴パラメータを用いる場合は、ピッチ同期に切り出した各ピッチ波形の位相情報をパラメータとして表し、複数周期を含む波形や中心位置によって切り出した波形の形状が安定しない形となる固定フレームレートの分析では困難な位相情報も、ピッチ同期分析を用いることにより特徴パラメータとして扱うことが可能となる。
ピッチ情報や継続長情報は、韻律情報を表す特徴パラメータであり、同様に音声コーパスの各音声波形から抽出される。ピッチ情報は、各音韻の抑揚や高さの変化を表す情報である。継続長は、音素等音声単位の長さを表す特徴パラメータである。ピッチ特徴パラメータとしては、対数基本周波数、基本周波数、ピッチ周期情報を利用できる。継続長情報としては、音素継続長などを用いることができる。
ピッチ同期分析では、各ピッチマーク時刻の左右の間隔から各時刻のピッチが定められ、対数基本周波数に変換される。ピッチ情報は、有声音のみ値を持つパラメータであるが、無声音の部分に補間したピッチを当てはめて特徴パラメータとすることや、無声音であることを表す値が用いられてもよい。
各音素の継続長の情報は、音素境界時刻の情報としてコンテキスト情報に付加しておき、HMMの学習時の初期モデルの学習に用いられる。ただし、HSMMによる継続長分布のパラメータは、HMMの各状態と学習データとの対応づけから最尤推定により求められるため、予め音素時刻を特徴パラメータとして用意しない場合もある。このように、分析部203は、各ピッチマーク時刻における音響特徴パラメータを求めて、HMMの学習に用いる特徴パラメータを作成する。また、分析部203は、特徴パラメータの傾きの情報である動的特徴量(図中のΔパラメータおよびΔパラメータ等)も求めて付加する。そして、図5(b)に示すような音響特徴パラメータが構成される。
特徴パラメータ記憶部204(図4)は、分析部203が求めた音響特徴パラメータを、そのコンテキスト情報や時間境界情報等とともに記憶する。
HMM学習部205は、特徴パラメータ記憶部204が記憶した特徴パラメータをHMMの学習データとして用いる。HMM学習部205は、継続長分布のパラメータを同時推定する隠れセミマルコフモデルの学習を、HMMの学習として行う。つまり、HMM学習部205は、隠れセミマルコフモデルの学習において、コンテキスト情報及び音響特徴パラメータに加えて、ピッチ同期分析を用いるために各音声データのピッチマーク情報も入力し、時刻情報による継続長分布の学習を実現する。つまり、HMM学習部205は、分析部203が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する。
図6は、HMM学習部205が行う処理を示すフローチャートである。HMM学習部205は、まず音素HMMの初期化を行い(S101)、HSMMの学習により音素HMMの最尤推定をして(S102)、初期モデルである音素HMMを学習する。HMM学習部205は、最尤推定する場合には、連結学習によってHMMを文に対応させて、連結した文全体のHMMと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。
次に、HMM学習部205は、音素HMMを用いてコンテキスト依存HMMを初期化する(S103)。学習データに存在するコンテキストに対しては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするか否かといった音韻環境及び言語情報が用いられ、当該音素で初期化されたモデルが用意されている。
そして、HMM学習部205は、コンテキスト依存HMMに対して連結学習による最尤推定を適用して学習し(S104)、決定木に基づく状態クラスタリングを適用する(S105)。このように、HMM学習部205は、HMMの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。
より具体的には、HMM学習部205は、状態毎・ストリーム毎の分布から、最尤基準やMDL(Minimum Description Length)基準等によりモデルを分類する規則を学習し、図3に示した決定木を構築する。このように、HMM学習部205は、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するHMMを構築することができる。
最後に、HMM学習部205は、クラスタリングしたモデルを最尤推定し、モデル学習が完了する(S106)。
HMM学習部205は、クラスタリングを行うときに、各特徴量のストリーム毎に決定木を構築することにより、スペクトル情報(メルLSP)・音源情報(BAP)・ピッチ情報(対数基本周波数)の各ストリームの決定木を構築する。また、HMM学習部205は、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、HMM単位の継続長分布決定木を構築する。なお、HMM学習部205は、各最尤推定ステップにおいて、モデルの更新を行うときに、コンテキスト情報及び音響特徴量に加えて、ピッチマーク時刻情報を参照して状態継続長分布を学習する。
また、HMM学習部205は、各音響特徴量に対応する時刻情報を用いて、継続長分布を学習するときに、各状態に対応づけられたフレーム数ではなく、各状態に対応づけられたフレームの開始点における時刻、及び終了点における時刻から、時刻パラメータによる時間長を求める。そして、HMM学習部205は、求めた時間長から継続長分布を求めることが可能となり、ピッチ同期分析のように、非線形な間隔で特徴分析したパラメータを用いて学習しても適切な継続長分布を学習することができる。
なお、ピッチマーク時刻を用いたHSMMでは、後述するアルゴリズムを用いた連結学習による最尤推定が行われる。そして、HMM学習部205が作成したHMMを、HMM記憶部106が記憶する。
つまり、音声合成装置100は、作成部102が入力コンテキストとHMM記憶部106が記憶しているHMMからHMM系列を作成し、決定部103が各HMMの各状態のピッチ波形数を決定する。そして、音声合成装置100は、決定したピッチ波形数に従って各状態の分布を繰り返すことにより分布列を作成して、生成部104が静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成する。
図7は、音声合成装置100がパラメータを生成する処理例を示す図である。図7においては、音声合成装置100が3状態のHMMで「赤い」の音声を合成する場合が例示されている。
まず、作成部102は、入力コンテキストのHMMの各状態・各ストリームの分布及び継続長分布を選択し、HMMの系列を構成する。コンテキストとして「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用いた場合、「赤い」は、3モーラ2型であり、最初の“a”の音素が、先行音素“sil”、当該音素“a”、後続音素“k”、音素位置1、音素数4、モーラ位置1、モーラ数3、アクセント型2型のため、“sil_a_k_1_4_1_3_2”といったコンテキストになる。
HMMの決定木を辿る場合、各中間ノードに当該音素がaであるか否か、アクセント型が2型であるか否かといった質問が定められており、質問を辿ることによってリーフノードの分布が選択され、メルLSP,BAP,LogF0の各ストリーム及び継続長分布の分布がHMMの各状態に選択されて、HMM系列が構成される。そして、決定部103は、下式1によってピッチ波形のフレーム数を決定する。
Figure 0006499305
ここでは、対数Fをピッチ情報の分布としているため、モデルq、状態iの対数基本周波数ストリームの静的特徴量の平均値μlf0 qiから求めた基本周波数exp(μlf0 qi)に、モデルq、状態iの状態継続長分布の平均値μdur qiを乗算し、切り捨て、又は四捨五入等による整数化関数int()が適用されてピッチ波形数が定まる。
ピッチマーク時刻の時間情報を用いて求められたμdur qiが継続長分布であるため、フレーム数を求める場合にはピッチ情報が必要である。従来法はフレーム数をそのまま継続長分布として表すため、下式2の様に、単に整数化することにより定められる。
Figure 0006499305
上述したように、特徴パラメータ分析時に固定のフレームレートで分析され、時刻に線形な関係がある場合には、上式2の形でフレーム数を求めることができる。しかし、ピッチ同期分析などにより、可変のフレームレートで音声分析を行った場合には、時刻を継続長分布のパラメータとして用いる必要があり、上式1の形によって波形数を定める必要がある。
なお、ここではピッチ情報の特徴パラメータとして対数基本周波数を用いているが、基本周波数を用いる場合はexp()関数が不要となる。また、ピッチ周期をパラメータとして用いる場合は下式3のように、除算により求めることになる。
Figure 0006499305
生成部104は、このように定めたピッチ波形数によってHMMの各状態の分布を繰り返すことにより分布列を作成し、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔを動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻tの特徴パラメータoは、静的特徴パラメータcと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔc、Δを用いて、o=(c’、Δc’、Δ’)と表される。P(O|J,λ)を最大化する静的特徴量cからなるベクトルC=(c’、・・・、cT−1’)’は、0TMをT×M次のゼロベクトルとして、下式4として与えられる方程式を解くことによって求められる。
Figure 0006499305
ただし、Tはフレーム数、Jは状態遷移系列である。特徴パラメータOと静的特徴パラメータCとの関係を、動的特徴を計算する行列Wによって関係付けると、O=WCと表される。Oは3TMのベクトル、CはTMのベクトルとなり、Wは、3TM×TMの行列である。そして、μ=(μs00’,・・・,μsJ−1Q−1’)’、Σ=diag(Σs00’,・・・,ΣsJ−1Q−1’)’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式4は、下式5として与えられる方程式を解くことによって最適な特徴パラメータ系列Cを求めることができる。
Figure 0006499305
この方程式は、コレスキー分解による方法により求められる。また、RLSフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成部の処理は本方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法が用いられてもよい。
波形生成部105は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部105は、対数基本周波数系列及び帯域雑音強度系列から音源信号を作成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。
図8は、波形生成部105が行う処理を示す図である。図8に示すように、波形生成部105は、対数基本周波数系列からピッチマークを生成し、帯域雑音強度(BAP)系列に従って、ノイズ成分とパルス成分の比率を制御して音源波形を生成し、メルLSP系列による声道フィルタを適用して音声波形を生成する。また、波形生成部105は、位相パラメータも用いてモデル化する場合、位相パラメータから位相スペクトルを生成して、スペクトルパラメータから振幅スペクトルを生成し、逆FFTにより各ピッチマークに対応するピッチ波形を生成して、重畳処理によって波形生成を行う。また、波形生成部105は、位相パラメータから音源波形を生成し、フィルタを適用する方法により波形生成を行ってもよい。
上述した処理により、ピッチ同期分析を用いた特徴パラメータを用いてHMMモデルを構築し、音声合成に利用することが可能となる。また、これらの処理により、入力コンテキストに対応した合成音声が得られる。
次に、HMM学習部205が行う最尤推定処理におけるモデル更新アルゴリズムの詳細について説明する。本アルゴリズムは、従来の隠れセミマルコフモデル学習アルゴリズムを、継続長分布を各特徴パラメータの時刻情報から学習するように拡張して導出したものである。従来法では、隠れセミマルコフモデルにより、HMMの各状態に何フレーム滞在したかを自己遷移確率に関する継続長分布として用いる。これに対し、HMM学習部205は、フレーム数ではなく各フレームのピッチマーク時刻の間隔を単位として継続長分布を学習する。これにより、継続長分布は、ピッチに依存せずに、音素及び各状態の継続時間の長さを直接表す分布となり、音声合成時にピッチの不一致の影響によって不自然な継続長になる問題が解消される。
HMMでは、モデルλ、状態遷移系列Q={q、q、・・・、qT−1}、状態iから状態jへの状態遷移確率aij、状態iの出力分布b(o)に対し、観測ベクトル系列O={o,o,・・・,oT−1}の尤度P(O|λ)は、あらゆる状態遷移系列の総和として、下式6によって表される。
Figure 0006499305
HMMは、上式6のように状態遷移すべてを状態遷移確率として表すが、隠れセミマルコフモデルHSMMでは、自己遷移確率を継続長分布として表す。
Figure 0006499305
ここで、pi(t,d)は状態iに時刻tから時刻t+dまでdフレーム滞在する確率を表し、aqt+dqt+d+1は時刻t+dにおいて、異なる状態qt+d+1へ遷移する確率を表す。
Figure 0006499305
従来法では、この時刻tとして観測ベクトルのフレーム番号を用いており、dフレーム同じ状態に継続した場合の確率と、その後状態遷移する確率をすべての状態遷移系列に計算することになる。このようなHSMMに対するForward−backwardアルゴリズムを用いた出力分布パラメータ、状態遷移確率、状態継続長分布パラメータの更新アルゴリズムでは、最尤推定によりモデルパラメータを求めることができる。
HMM学習部205のピッチ同期分析のためのHSMMでは、状態継続長p(t,d)は、フレーム数ではなく、時刻の情報をパラメータとして表す。そして、HMM学習部205は、各フレームに対応するピッチマークの時刻情報から、各フレームのピッチマーク時刻をpm(t)としたとき、時刻tから時刻t+dの状態継続長が、d(t,d)=pm(t+d)−pm(t−1)となり、継続長分布のパラメータとして、このピッチマーク時刻の間隔を用いる。
Figure 0006499305
ピッチ同期分析の場合は、ピッチマーク位置をフレームの中心として波形の分析を行うが、このときフレーム数を状態継続長分布として表した場合、ピッチが高いほど、ピッチマークの間隔は狭くなり、多くのフレーム数となる。この場合、ピッチが低いほど、ピッチマークの間隔が広くなるため、少ないフレーム数となり、時間長だけでなく、ピッチに依存した状態継続長の分布となる。
これに対し、HMM学習部205は、ピッチによらず、各状態の時間長をそのままモデル化するため、各音素の長さをピッチに依存せずにモデル化することができる。固定のフレームレートの分析を行った場合は、時刻情報・フレーム数、どちらを用いても線形な関係になるため、影響を受けない。HMM学習部205は、フレームの間隔が一定でない場合にも、適切に継続長モデルを計算することができる。
次に、HMM学習部205が最尤推定を行う場合のモデルの連結学習のためのForward−Backwardアルゴリズムによる更新アルゴリズムについて説明する。まず、前向き確率を、以下式10〜17により計算する。前向き確立α(q) (t、d)は、dフレーム続いた後に、時刻tにおいて、モデルq、状態jに存在する確率である。まず、時刻(t=1)において下式10〜13により初期化する。
Figure 0006499305
Figure 0006499305
Figure 0006499305
Figure 0006499305
そして、下式14〜17による再帰計算により、(2≦t≦T)のフレームの前向き確率α(q) (t、d)を求める。
Figure 0006499305
Figure 0006499305
Figure 0006499305
Figure 0006499305
後ろ向き確率β(q) (t、d)は、同様に、時刻tにおいて、状態iにdフレーム滞在し、その後時刻Tまでの観測ベクトルが出力される確率であり式18〜25により計算する。まず時刻(t=T)において下式18〜21により初期化する。
Figure 0006499305
Figure 0006499305
Figure 0006499305
Figure 0006499305
そして、下式22〜25の再帰(T−1≧t≧1)のステップにより、β(q) (t、d)が計算される。
Figure 0006499305
Figure 0006499305
Figure 0006499305
Figure 0006499305
これらと混合ガウス分布を用いると、時刻tにおいてモデルqの状態j、混合m、ストリームsに滞在する確率は、下式26〜28により求められる。
Figure 0006499305
Figure 0006499305
Figure 0006499305
また、時刻tにおいてモデルqの状態jに滞在する確率は、下式29により求められる。
Figure 0006499305
上式28又は上式29は、従来の連結学習とは異なり、図9に示すように、状態をまたがった遷移も考慮した、時刻tにモデルqの状態jを通るあらゆる状態遷移系列の総和となっている。
また、時刻tから時刻tまでモデルqの状態j、ストリームsに滞在する確率は、下式30によって表される。
Figure 0006499305
このように導出した状態遷移確率、前向き確率、後ろ向き確率を用いて、モデルパラメータの更新を行い、出力分布のパラメータ、継続長モデル、遷移確率の最尤推定が行われる。継続長分布パラメータの更新式は、下式31,32によって表される。
Figure 0006499305
Figure 0006499305
また、出力分布の混合重み、平均ベクトル及び共分散行列は、下式33〜35により更新される。
Figure 0006499305
Figure 0006499305
Figure 0006499305
これら式10〜35を用いて、HMM学習部205は、モデルパラメータの最尤推定を行う。
次に、音声合成装置100が実行する音声合成の処理について説明する。図10は、音声合成装置100が実行する音声合成の処理を示すフローチャートである。図10に示すように、まず、解析部101は、入力テキストを解析してコンテキスト情報を求める(S201)。作成部102は、HMM記憶部106が記憶しているHMMを参照して入力コンテキストに対応したHMM系列を作成する(S202)。
決定部103は、HMM系列の継続長分布及びピッチ情報を用いて各状態のピッチ波形数を決定する(S203)。生成部104は、得られた各状態のピッチ波形数にしたがって出力分布を並べて分布列を作成し、パラメータ生成アルゴリズム等を適用して音声合成に用いるパラメータ系列を分布列から生成する(S204)。そして、波形生成部105は、音声波形を生成し、合成音声を得る(S205)。
なお、音声合成装置100が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成装置100は、音声合成プログラムを実行して音声合成を行う場合、図10に示した各ステップをCPUが実行する。
次に、音声合成モデル学習装置200が実行する音声合成モデル学習の処理について説明する。図11は、音声合成モデル学習装置200が実行する音声合成モデル学習の処理を示すフローチャートである。図11に示すように、まず、分析部203は、音声コーパス記憶部201が記憶している音声データ、ピッチマーク情報を用いて、ピッチ同期分析によりスペクトルパラメータ、ピッチパラメータ、音源パラメータによる音響特徴パラメータを抽出する(S301)。特徴パラメータ記憶部204が、抽出された音響特徴パラメータを記憶する。
次に、HMM学習部205は、音響特徴パラメータ、コンテキスト情報及びピッチマーク情報を用いてHMMを学習する(S302)。HMMは、時刻パラメータによる継続長分布及びピッチ情報の出力分布を含む。学習されたHMMは、HMM記憶部106に記憶され、音声合成において用いられる。
なお、音声合成モデル学習装置200が有する各機能は、ハードウェアによって構成されてもよいし、CPUが実行するソフトウェアによって構成されてもよい。例えば、音声合成モデル学習装置200は、音声合成モデル学習プログラムを実行して音声合成モデル学習を行う場合、図11に示した各ステップをCPUが実行する。
また、HMM学習部205については、特定話者のコーパスを用いて話者依存モデルを最尤推定する場合を例に説明したが、これに限定されない。例えば、HMM学習部205は、HMM音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能である。また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式を用いることもできる。すなわち、HMM学習部205は、固定のフレームレートによる音声分析でフレーム数を継続長分布のパラメータとせず、ピッチ同期分析等時刻情報を継続長分布のパラメータとする任意の方式で学習したモデルを用いて音声合成モデルを学習することが可能である。
次に、音声合成モデル学習装置200の変形例について説明する。図12は、音声合成モデル学習装置200の変形例(音声合成モデル学習装置200a)を示すブロック図である。図12に示すように、音声合成モデル学習装置200aは、音声コーパス記憶部201、分析部203、特徴パラメータ記憶部204、話者適応部301、平均声HMM記憶部302及びHMM記憶部106を有し、平均声からの話者適応を行って音声合成モデルを学習する。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。
話者適応部301は、平均声HMM記憶部302が記憶している平均声モデルに対し、特徴パラメータ記憶部204が記憶している特徴パラメータを用いて話者適応技術を適用し、得られた適応HMMをHMM記憶部106に記憶させる。
平均声HMMは、複数の話者から学習した平均的な声のモデルであり、平均的な声の特徴を有するモデルである。話者適応部301は、この平均声を、目標話者の特徴パラメータを用いて変換することにより適応HMMを得る。また、話者適応部301は、最尤線形回帰等の話者適応手法を用いることにより、目標話者データが少量で不足するコンテキストが存在する場合にも、平均声HMMのモデルを目標話者に近づけるため不足コンテキストを補ったモデルを作成することができる。
最尤線形回帰では、重回帰分析により平均ベクトルを変換する。例えば、話者適応部301は、上式10〜35に示した時刻パラメータによる連結学習を用いて学習データと平均声HMMとの対応付けを行い、回帰行列を求める。そして、複数の分布で回帰行列を共有することにより、対応する学習データが存在しない分布の平均ベクトルも変換することが可能となる。これにより、少量の目標データのみを用いて学習したモデルよりも高品質な音声を合成することが可能となり、ピッチ同期分析による音響特徴パラメータを用いて話者適応したモデルから音声合成が可能となる。
次に、音声合成装置100の変形例について説明する。図13は、音声合成装置100の変形例(音声合成装置100a)を示すブロック図である。図13に示すように、音声合成装置100aは、解析部101、作成部102、決定部103、生成部104、波形生成部105、HMM記憶部106、特徴パラメータ記憶部204及び選択部401を有し、特徴パラメータ系列選択による音声合成を行う。なお、上述した構成部分と実質的に同じものには、同一の符号が付してある。
音声合成装置100aは、作成部102と決定部103の間において、選択部401が処理を行う。具体的には、音声合成装置100aは、作成部102において得られたHMM系列を目標として、特徴パラメータ記憶部204が記憶している音響特徴パラメータの中からパラメータを選択部401が選択し、選択したパラメータから音声波形を合成する。つまり、選択部401は、統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する。このように、選択部401が音響特徴パラメータの中からパラメータを選択することにより、HMM音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。
ピッチ同期分析による特徴パラメータを用いた場合、分析パラメータから再生成した音声は、固定のフレームレートにより分析した従来の特徴パラメータを用いる場合よりも、原音に近い音質となる。このため、音声合成装置100aは、ピッチ同期分析が用いられた効果が顕著に現れ、従来の特徴パラメータを用いる場合よりも自然性が改善する。
次に、選択部401についてさらに詳述する。選択部401は、HMMに基づいて、特徴パラメータ系列を選択する。特徴パラメータ選択の単位は、任意の単位により行うことが可能にされているが、ここではHMM系列の各状態毎に、特徴パラメータを選択する。
特徴パラメータ記憶部204には、音声波形の各特徴パラメータとともに、状態に対応する境界を付与した情報が記憶されていることとする。例えば、HMMの各状態と、音声波形との対応付けは予めビタビアライメントにより求められ、得られた最尤状態遷移系列の時間境界が状態の境界として特徴パラメータ記憶部204に記憶される。選択部401は、特徴パラメータの選択に目標尤度及び接続尤度を用いる場合、HMM系列の状態を単位として、動的計画法により最適特徴パラメータ系列を選択する。
図14は、選択部401が実行する処理を示すフローチャートである。まず、選択部401は、合成する文章の最初のHMMの初期状態における候補特徴パラメータを選択し(S401)、初期の各候補に対する目標尤度を計算する(S402)。
目標尤度は、該当する区間における目標と適合する度合いを数値化したものであり、HMM系列の分布の尤度から求めることができる。対数尤度を用いる場合、各状態区間内の特徴パラメータの対数尤度の和として計算される。特徴パラメータの候補は、選択元の特徴パラメータの集合であり、該当するHMMの状態における決定木のリーフノードの分布を学習するときに用いた学習データを候補とすることができる。同一の状態に対応する同一音素の特徴パラメータを候補とする方法や、音韻環境で絞った同一音素を候補とする方法、韻律属性の一致度合いによって候補を決定する方法など、他の方法により決めることも可能である。
そして、選択部401は、状態番号を一つ進め、各状態に対する候補を選択し(S403)、目標尤度及び接続尤度などの尤度計算を行う(S404)。
なお、HMMの最終状態の場合は、後続するHMMの初期状態に進めていく。S403の候補選択の処理は、S401の処理と同様に行うことができる。接続尤度は、該当区間が先行区間の後続として適合する度合いを数値化したものである。接続尤度は、先行状態区間の各候補素片に対し、該当状態における各候補素片が選ばれたときの尤度を用い、平均ベクトルとして一つ前の状態の各候補素片の後続区間の平均ベクトルを用い、分散は各状態の出力分布の分散を用いたガウス分布の尤度により計算することができる。
そして、選択部401は、バックトラックするため、各候補素片に対して、一つ前の状態の最適候補の情報を保存しておく。選択部401は、現在の状態が入力文章に対応するHMM系列の最終HMMの最終状態であるか否かを判定する(S405)。選択部401は、最終状態である(S405:Yes)と判定すれば、S406の処理に進む。また、選択部401は、最終状態でない(S405:No)と判定すれば、状態及びHMMを一つ進めてS403の処理に戻る。
最後に、選択部401は、尤度最大となる特徴パラメータを選択し、その先行状態の最適候補を順にバックトラックすることにより、最適特徴パラメータ系列を求める(S406)。選択部401は、このように選択された最適特徴パラメータ系列を決定部103に対して出力する。
図15は、選択部401の具体的な構成例を示す図である。選択部401は、例えば候補選択部411、尤度計算部412及びバックトラック部413を備える。候補選択部411は、特徴パラメータ記憶部204から候補を選択する。尤度計算部412は、目標尤度・接続尤度を計算する。選択部401は、HMM系列の状態を単位として、候補選択部411及び尤度計算部412が処理を繰り返し、最後にバックトラック部413が最適特徴パラメータ系列を求める。
なお、ここでは尤度最大化系列を例としたが、HMM系列に基づいて特徴パラメータ系列を選択する任意の方法が用いられてもよい。尤度の逆数や、平均ベクトルとの二乗誤差やマハラノビス距離などによって計算するコスト関数を定義し、コスト最小化により特徴パラメータの選択を行ってもよい。また、動的計画法による特徴パラメータ選択ではなく、音響的尤度と韻律的尤度のみからコストを計算し、特徴パラメータの選択も行ってもよい。
さらに、HMM系列から特徴パラメータを生成し、生成されたパラメータからの距離からコスト計算を行って特徴パラメータの選択を行ってもよい。パラメータ選択を行う場合、最適パラメータ系列のみでなく、各区間に複数のパラメータ系列を選択し、平均化したパラメータを利用してもよい。選択部401は、これらの処理により、入力されたHMM系列の各HMMの各状態に対して、最適特徴パラメータを選択することができ、これらの情報を決定部103に対して出力する。
決定部103は、選択された継続長分布系列及びピッチ特徴パラメータの系列からピッチ波形数を決定する。生成部104は、選択された特徴パラメータを用いて分布を更新する。HMM系列の分散を用い、選択された特徴パラメータで分布の平均ベクトルを置き換えることにより分布を更新し、更新された分布列からパラメータを生成することにより、選択された特徴パラメータを反映したパラメータ生成を行うことができる。波形生成部105は、生成されたパラメータから合成音声を生成する。このように、音声合成装置100aは、選択部401を備えることにより、各区間に選択された音響特徴量より波形生成が可能となり、自然な合成音声が得られる。
なお、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aは、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声合成装置及び音声合成モデル学習装置は、上述のコンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。
音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラム(音声合成プログラム又は音声合成モデル学習プログラム)は、ROM等に予め組み込まれて提供される。
また、音声合成装置100、音声合成装置100a、音声合成モデル学習装置200及び音声合成モデル学習装置200aで実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。さらに、これらのプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。
このように、実施形態にかかる音声合成装置によれば、統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及びピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定し、決定したピッチ波形数に基づいて、音響特徴パラメータの分布列を生成し、生成した分布列に基づいて音響特徴パラメータを生成するので、音声劣化と不自然な音素継続長とを防止することができる。また、実施形態にかかる音声合成装置は、ピッチ同期分析による精密な音響特徴パラメータを用いつつ、継続長分布としてピッチマークから算出される時間長をモデル化し、合成時には該当する状態の継続長分布パラメータ及びピッチ特徴パラメータの出力分布に基づいて生成されるピッチ情報に基づいてピッチ波形数を算出して音声合成することができる。よって、実施形態にかかる音声合成装置は、精密な音声分析を利用しつつ学習時と合成時のピッチの不一致の影響に起因する不自然な継続長となる問題を解消し、高品質な音声合成が可能となる。
また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (13)

  1. 複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶する記憶部と、
    入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する作成部と、
    前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する決定部と、
    前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する生成部と、
    前記生成部が生成した音響特徴パラメータから音声波形を生成する波形生成部と、
    を有する音声合成装置。
  2. 前記決定部は、
    前記時刻パラメータによる継続長分布に基づく継続時間長に対して、ピッチ特徴パラメータの出力分布に基づくピッチ情報に対応する基本周波数の乗算を行うこと、又はピッチ周期の除算を行うことによりピッチ波形数を決定する
    請求項1に記載の音声合成装置。
  3. 前記記憶部は、
    静的特徴パラメータ及び動的特徴パラメータから構成される特徴パラメータの分布によるHMM出力分布を含むHMM情報を記憶し、
    前記生成部は、
    HMM出力分布の静的特徴パラメータ及び動的特徴パラメータの平均及び分散を用いて平滑化特徴パラメータを生成する
    請求項1に記載の音声合成装置。
  4. 前記統計モデルに基づいて各状態に対応する継続長パラメータ及びピッチ情報を含む音響特徴パラメータを、音響特徴パラメータ候補の中から選択する選択部
    をさらに有し、
    前記決定部は、
    選択された各状態の継続長パラメータ及びピッチ情報からピッチ波形数を決定する
    請求項1に記載の音声合成装置。
  5. 複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶する工程と、
    入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成する工程と、
    前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定する工程と、
    前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成する工程と、
    生成した音響特徴パラメータから音声波形を生成する工程と、
    を含む音声合成方法。
  6. 複数の状態を持つ統計モデルの各状態における、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布及び時刻パラメータによる継続長分布を統計モデル情報として記憶部が記憶するステップと、
    入力テキストに対応するコンテキスト情報、及び前記統計モデル情報から、統計モデル系列を作成するステップと、
    前記統計モデル系列の各統計モデルの各状態の継続長分布に基づく継続時間長、及び前記ピッチ特徴パラメータの出力分布に基づくピッチ情報を用いて各状態のピッチ波形数を決定するステップと、
    前記ピッチ波形数に基づいて、音響特徴パラメータの出力分布列を生成し、該出力分布列に基づいて音響特徴パラメータを生成するステップと、
    生成した音響特徴パラメータから音声波形を生成するステップと、
    をコンピュータに実行させるための音声合成プログラム。
  7. 音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を記憶する音声コーパス記憶部と、
    前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する分析部と、
    前記分析部が分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する統計モデル学習部と、
    を有する音声合成モデル学習装置。
  8. 前記統計モデル学習部は、
    前記音声データのコンテキスト情報、及び各ピッチマーク時刻における音響特徴パラメータとともにピッチマーク時刻情報を用い、前記ピッチマーク時刻情報を参照して継続長分布を学習する
    請求項7に記載の音声合成モデル学習装置。
  9. 前記統計モデル学習部は、
    前記統計モデルとして、自己遷移確率を状態継続長分布として表す隠れセミマルコフモデルを用い、各状態に滞在する開始点のピッチマーク時刻及び終了点のピッチマーク時刻から各状態に滞在する時刻パラメータによる時間長を求め、前記滞在時間長の分布を状態継続長分布とする
    請求項7に記載の音声合成モデル学習装置。
  10. 前記統計モデル学習部は、
    状態継続長分布を用いて各状態の出力分布を推定することにより、前記統計モデルの各状態の出力分布を含むモデルパラメータの推定を行う
    請求項7に記載の音声合成モデル学習装置。
  11. 前記音響特徴パラメータは、音声データの各ピッチマーク時刻におけるピッチ特徴パラメータ、スペクトル特徴パラメータ、及び音源特徴パラメータから構成され、音源特徴パラメータとして位相特徴パラメータを含む
    請求項7に記載の音声合成モデル学習装置。
  12. 音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶する工程と、
    前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析する工程と、
    分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習する工程と、
    を含む音声合成モデル学習方法。
  13. 音声データと、前記音声データのピッチマーク情報及びコンテキスト情報を音声コーパス記憶部が記憶するステップと、
    前記音声データから、ピッチマーク情報の各ピッチマーク時刻における音響特徴パラメータを分析するステップと、
    分析した音響特徴パラメータから、ピッチ特徴パラメータを含む音響特徴パラメータの出力分布、及び時刻パラメータによる継続時間長分布を含む複数の状態をもつ統計モデルを学習するステップと、
    をコンピュータに実行させるための音声合成モデル学習プログラム。
JP2017540389A 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム Active JP6499305B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/076269 WO2017046887A1 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2017046887A1 JPWO2017046887A1 (ja) 2018-04-12
JP6499305B2 true JP6499305B2 (ja) 2019-04-10

Family

ID=58288293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017540389A Active JP6499305B2 (ja) 2015-09-16 2015-09-16 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム

Country Status (4)

Country Link
US (2) US10878801B2 (ja)
JP (1) JP6499305B2 (ja)
CN (2) CN113724685B (ja)
WO (1) WO2017046887A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6499305B2 (ja) 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
CN107945786B (zh) * 2017-11-27 2021-05-25 北京百度网讯科技有限公司 语音合成方法和装置
US10755694B2 (en) 2018-03-15 2020-08-25 Motorola Mobility Llc Electronic device with voice-synthesis and acoustic watermark capabilities
CN110930975B (zh) * 2018-08-31 2023-08-04 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
JP6737320B2 (ja) * 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム
CN109616131B (zh) * 2018-11-12 2023-07-07 南京南大电子智慧型服务机器人研究院有限公司 一种数字实时语音变音方法
JP7197786B2 (ja) * 2019-02-12 2022-12-28 日本電信電話株式会社 推定装置、推定方法、及びプログラム
WO2020171034A1 (ja) * 2019-02-20 2020-08-27 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
JP7093081B2 (ja) * 2019-07-08 2022-06-29 日本電信電話株式会社 学習装置、推定装置、推定方法、およびプログラム
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN111916093A (zh) * 2020-07-31 2020-11-10 腾讯音乐娱乐科技(深圳)有限公司 音频处理方法及装置
CN111968616A (zh) * 2020-08-19 2020-11-20 浙江同花顺智能科技有限公司 一种语音合成模型的训练方法、装置、电子设备和存储介质
CN112820267B (zh) * 2021-01-15 2022-10-04 科大讯飞股份有限公司 波形生成方法以及相关模型的训练方法和相关设备、装置
US11915714B2 (en) * 2021-12-21 2024-02-27 Adobe Inc. Neural pitch-shifting and time-stretching

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1219079A (en) * 1983-06-27 1987-03-10 Tetsu Taguchi Multi-pulse type vocoder
KR940002854B1 (ko) * 1991-11-06 1994-04-04 한국전기통신공사 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
JP2000310996A (ja) * 1999-04-28 2000-11-07 Oki Electric Ind Co Ltd 音声合成装置および音韻継続時間長の制御方法
US6505152B1 (en) * 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
JP2002062890A (ja) * 2000-08-18 2002-02-28 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
JP2002268660A (ja) 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP3732793B2 (ja) * 2001-03-26 2006-01-11 株式会社東芝 音声合成方法、音声合成装置及び記録媒体
KR101016978B1 (ko) * 2002-09-17 2011-02-25 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 소리 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템
JP4241736B2 (ja) 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4816144B2 (ja) 2006-03-02 2011-11-16 カシオ計算機株式会社 音声合成装置、音声合成方法、及び、プログラム
CN1835074B (zh) * 2006-04-07 2010-05-12 安徽中科大讯飞信息科技有限公司 一种结合高层描述信息和模型自适应的说话人转换方法
JP4241762B2 (ja) * 2006-05-18 2009-03-18 株式会社東芝 音声合成装置、その方法、及びプログラム
JP4966048B2 (ja) 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
JP4455610B2 (ja) * 2007-03-28 2010-04-21 株式会社東芝 韻律パタン生成装置、音声合成装置、プログラムおよび韻律パタン生成方法
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
JP2010020166A (ja) * 2008-07-11 2010-01-28 Ntt Docomo Inc 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
GB0911494D0 (en) * 2009-07-02 2009-08-12 Univ Edinburgh Adapted statistical parametric speech models
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8781835B2 (en) * 2010-04-30 2014-07-15 Nokia Corporation Methods and apparatuses for facilitating speech synthesis
GB2480108B (en) * 2010-05-07 2012-08-29 Toshiba Res Europ Ltd A speech processing method an apparatus
JP5085700B2 (ja) 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2012032748A1 (ja) * 2010-09-06 2012-03-15 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
US9286886B2 (en) * 2011-01-24 2016-03-15 Nuance Communications, Inc. Methods and apparatus for predicting prosody in speech synthesis
JP5929909B2 (ja) * 2011-05-30 2016-06-08 日本電気株式会社 韻律生成装置、音声合成装置、韻律生成方法および韻律生成プログラム
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP5665780B2 (ja) * 2012-02-21 2015-02-04 株式会社東芝 音声合成装置、方法およびプログラム
JP5631915B2 (ja) 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
CN102779508B (zh) * 2012-03-31 2016-11-09 科大讯飞股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
JP5840075B2 (ja) * 2012-06-01 2016-01-06 日本電信電話株式会社 音声波形データベース生成装置、方法、プログラム
JP5726822B2 (ja) * 2012-08-16 2015-06-03 株式会社東芝 音声合成装置、方法及びプログラム
WO2015092936A1 (ja) * 2013-12-20 2015-06-25 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6614745B2 (ja) * 2014-01-14 2019-12-04 インタラクティブ・インテリジェンス・グループ・インコーポレイテッド 提供されたテキストの音声合成のためのシステム及び方法
WO2016042659A1 (ja) 2014-09-19 2016-03-24 株式会社東芝 音声合成装置、音声合成方法およびプログラム
JP6499305B2 (ja) * 2015-09-16 2019-04-10 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US9972304B2 (en) * 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10475438B1 (en) * 2017-03-02 2019-11-12 Amazon Technologies, Inc. Contextual text-to-speech processing

Also Published As

Publication number Publication date
US20180174570A1 (en) 2018-06-21
CN107924678A (zh) 2018-04-17
US11423874B2 (en) 2022-08-23
US20200357381A1 (en) 2020-11-12
CN107924678B (zh) 2021-12-17
US10878801B2 (en) 2020-12-29
CN113724685A (zh) 2021-11-30
WO2017046887A1 (ja) 2017-03-23
JPWO2017046887A1 (ja) 2018-04-12
CN113724685B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
JP6499305B2 (ja) 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
US11170756B2 (en) Speech processing device, speech processing method, and computer program product
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
WO2010119534A1 (ja) 音声合成装置、方法およびプログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP4945465B2 (ja) 音声情報処理装置及びその方法
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
JP6840124B2 (ja) 言語処理装置、言語処理プログラムおよび言語処理方法
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
Hashimoto et al. Overview of NIT HMMbased speech synthesis system for Blizzard Challenge 2011
Coto-Jiménez Measuring the Quality of Low-Resourced Statistical Parametric Speech Synthesis Trained with Noise-Degraded Data Supported by the University of Costa Rica
JP2015194781A (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
Takamichi Hybrid Approach to High-Quality and Flexible Text-To-Speech Synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190314

R151 Written notification of patent or utility model registration

Ref document number: 6499305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350