JP2018004997A - 音声合成装置及びプログラム - Google Patents

音声合成装置及びプログラム Download PDF

Info

Publication number
JP2018004997A
JP2018004997A JP2016132586A JP2016132586A JP2018004997A JP 2018004997 A JP2018004997 A JP 2018004997A JP 2016132586 A JP2016132586 A JP 2016132586A JP 2016132586 A JP2016132586 A JP 2016132586A JP 2018004997 A JP2018004997 A JP 2018004997A
Authority
JP
Japan
Prior art keywords
parameter
synthesis
speech
acoustic model
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016132586A
Other languages
English (en)
Inventor
和穂 尾上
Kazuho Onoe
和穂 尾上
礼子 齋藤
Reiko Saito
礼子 齋藤
信正 清山
Nobumasa Seiyama
信正 清山
今井 篤
Atsushi Imai
篤 今井
都木 徹
Toru Tsugi
徹 都木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
NHK Engineering System Inc
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
NHK Engineering System Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp, NHK Engineering System Inc filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016132586A priority Critical patent/JP2018004997A/ja
Publication of JP2018004997A publication Critical patent/JP2018004997A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】合成音声が自然の音に近くなるように、合成用パラメータを生成する。【解決手段】音声合成装置1のパラメータ生成部12は、テキストの音素列について、音素の各状態に対応するパラメータの系列oを音響モデルから生成する。パラメータ生成部12は、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布の尤度が最大となるパラメータの系列o’を生成し、さらに、合成用パラメータの系列o’に対し、MFCC等の分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。音声合成部13は、ピッチの基本周波数等に基づいて、テキストに対応する声帯信号を生成し、声帯信号に対し、合成用パラメータの系列o”を用いて声道フィルタによるフィルタ処理を施すことで、合成音声を生成する。【選択図】図1

Description

本発明は、統計的音響モデルを用いて、音声合成のための合成用パラメータを生成する音声合成装置及びプログラムに関する。
従来、テキストを分析して言語情報を生成し、言語情報からテキストの文に対応する音声波形を生成する音声合成手法が知られている。この音声合成手法は、大きく2種類に分類することができ、一方が波形接続音声合成手法であり、他方が統計的音声合成手法である。
波形接続音声合成手法は、得られた音韻の系列に従って音声素片を選択し、韻律情報に従って音声素片のピッチ及び継続時間長を変形して接続することで、合成音声を生成する。これに対し、統計的音声合成手法は、予め学習しておいた統計量に基づいて、最適な合成用パラメータを生成することで、合成音声を生成する。
具体的には、統計的音声合成手法を用いる音声合成装置は、入力したテキストを音素に変換し、予め学習しておいた各音素の状態毎の統計量を有する音響モデルを用いて、確率分布の尤度が最も高い合成用パラメータを生成する(例えば、非特許文献1を参照)。
ここで、音響モデルをλ、音素の状態の系列をq、音響モデルλから観測されるパラメータの系列をo、音素の状態の系列qと音響モデルλにおいて、パラメータの系列oが観測される確率分布をPとすると、合成用パラメータは、以下の式にて推定される。
Figure 2018004997
前記数式(1)は、音素の状態の系列qと音響モデルλにおいて、パラメータの系列oが観測される確率分布Pの尤度が最大となるパラメータの系列oを、合成用パラメータの系列o’として求めることを表している。
音響モデルを生成する際には、大量の学習用音声から、音素の状態毎にMFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)、その一次回帰係数Δ及び二次回帰係数ΔΔを含む特徴量が学習される。そして、音響モデルには、これらのパラメータの平均及び分散、及び、音素の状態間の遷移確率、並びに、出力確率が格納される。このように、合成用パラメータの系列は、MFCCの一次回帰係数Δ及び二次回帰係数ΔΔが考慮されて生成されるため、発話文章全体で平均をトレースするような滑らか値となる。
図6は、従来技術において、音響モデルを用いて生成された合成用パラメータの系列を示す図である。横軸は時間tを示し、縦軸は、MFCC c及びMFCCの一次回帰係数Δcの値を示す。
図6に示すように、従来の統計的音声合成手法により生成される合成用パラメータの系列o’(c,Δc)は、音素を構成する複数の状態について、実線で表す平均を基準にして、滑らかに変化する値となる。四角の点線は分散の範囲を示す。
しかしながら、このような統計的音声合成手法により生成される合成用パラメータの系列o’は、図6に示したとおり、平均を基準にして滑らかに変化する値となっており、自然な音声から得られる揺らぎを持つパラメータの振る舞いとは一致しない。つまり、この合成用パラメータの系列o’により生成される合成音声は、不自然な音となってしまう。
一方で、音素間で合成用パラメータの値が不連続とならないように、滑らかに変化する自然な合成用パラメータの系列を生成する手法が開示されている(例えば、特許文献1を参照)。この手法は、言語レベル(音素、音節、単語等)を単位とする言語区間のスペクトルパラメータを算出し、複数の言語区間のそれぞれに対するスペクトルパラメータを、言語情報に基づいて複数のクラスタに分類する。そして、同一クラスタに属する複数のスペクトルパラメータの特徴を示す音響モデルをクラスタ毎に生成する。合成用パラメータの系列を生成する際には、テキストの言語情報に基づいて、クラスタ毎の音響モデルからテキストに応じた音響モデルを選択する。
特開2010−237323号公報
Keiichi Tokuda,Heiga Zen,"Fundamentals and recent advances in HMM-based speech synthesis"[online],[平成28年5月20日検索],インターネット<URL:http://hts.sp.nitech.ac.jp/?Tutorial>
前述の特許文献1の手法は、言語区間に対応したクラスタ毎の音響モデルから、テキストに応じた音響モデルを選択することで、音素間で不連続点のない滑らかに変化する合成用パラメータの系列を生成することができる。
しかしながら、人間の発声には毎回揺らぎが存在し、実際の音声信号から得られる特徴量は、滑らかに変化する特性を有さない。このため、特許文献1の手法により生成される合成用パラメータの系列は、発話文章全体で平均をトレースするような滑らかな値となることに変わりがなく、前述の非特許文献1の手法と同様に、合成音声の音は、実際の人間の発声に特有な揺らぎが表現できず、不自然であるという問題があった。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、自然の音に近い合成音声を生成可能な音声合成装置及びプログラムを提供することにある。
前記課題を解決するために、請求項1の音声合成装置は、予め学習した音響モデルを用いて、テキストに対応した合成音声を生成する音声合成装置において、前記音響モデルを用いて、テキストに対応した合成用パラメータを生成するパラメータ生成部と、前記パラメータ生成部により生成された前記合成用パラメータを用いて、前記テキストに対応した声帯信号に対し、声道フィルタのフィルタ処理を施して合成音声を生成する音声合成部と、を備え、前記パラメータ生成部が、前記テキストを構成する音素の各状態に対応する特徴量を、前記音響モデルから読み出し、前記特徴量の確率分布の尤度が最大となるパラメータを生成するパラメータ生成手段と、前記テキストを構成する音素の各状態に対応する特徴量の分散を、前記音響モデルから読み出し、前記パラメータ生成手段により生成された前記パラメータに、前記分散に基づいた正規乱数を付加し、前記合成用パラメータを生成する分散付加手段と、を備えたことを特徴とする。
また、請求項2の音声合成装置は、請求項1に記載の音声合成装置において、前記テキストを構成する音素の各状態に対応する特徴量を、MFCC、MFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔとする、ことを特徴とする。
また、請求項3の音声合成装置は、請求項1または2に記載の音声合成装置において、前記パラメータ生成部に備えた前記分散付加手段に代わる新たな分散付加手段が、前記テキストを構成する音素の各状態に対応する特徴量の分散を、前記音響モデルから読み出し、前記パラメータ生成手段により生成された前記パラメータに、前記分散に基づいた正規乱数を付加し、複数の合成用パラメータを生成し、前記音声合成部に代わる新たな音声合成部が、前記新たな分散付加手段により生成された前記複数の合成用パラメータを用いて、前記テキストに対応した声帯信号に対して声道フィルタのフィルタ処理を施し、前記複数の合成用パラメータのそれぞれに対応する複数の合成音声を生成し、前記複数の合成音声を平均化する、ことを特徴とする。
さらに、請求項4のプログラムは、コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させることを特徴とする。
以上のように、本発明によれば、自然の音に近い合成音声を生成することが可能となる。
実施例1の音声合成装置の構成例を示すブロック図である。 パラメータ生成部において、合成用パラメータの系列を生成するための構成例を示すブロック図である。 音響モデルを用いて生成された合成用パラメータの系列o”の例を示す図である。 音響モデルのパラメータの系列o、合成用パラメータの系列o’及び合成用パラメータの系列o”の例を示す図である。 実施例2の音声合成装置の構成例を示すブロック図である。 従来技術において、音響モデルを用いて生成された合成用パラメータの系列を示す図である。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、合成音声の合成用パラメータを生成する際に、予め学習しておいた音響モデルの統計量である分散を用いて、揺らぎを付加した合成用パラメータを生成することを特徴とする。
つまり、本発明では、音響モデルの統計量である分散に基づいた正規乱数(ガウスノイズ)を、人間の発声の揺らぎとみなし、この揺らぎを合成用パラメータへ反映する。これにより、合成用パラメータを用いて生成される合成音声は、人間の発声の音に近くなる。つまり、自然の音に近い合成音声を生成することが可能となる。
(音声合成装置/実施例1)
まず、実施例1の音声合成装置について説明する。図1は、実施例1の音声合成装置の構成例を示すブロック図である。この音声合成装置1は、HD10、テキスト解析部11、パラメータ生成部12及び音声合成部13を備えている。
HD10には、予め学習しておいた音響モデル(統計的音響モデル、HMM(隠れマルコフモデル))が格納されている。この音響モデルは、音素を構成する複数の状態(音素の始まり、中間及び終わりの各状態)に対するガウス分布のパラメータ、及び、各状態間の遷移確率、並びに、各状態における出力確率により構成される。ここで、ガウス分布のパラメータとは、例えば、人間の音声知覚の特徴を考慮した声道特性を表す特徴量であるメル周波数ケプストラム係数(MFCC)、このMFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔからなるスペクトルパラメータの平均及び分散から構成される。
図示しない音響モデル学習部は、音響モデルを以下の手順により生成する。すなわち、音響モデル学習部は、学習対象の音声信号に対し、当該音声信号を構成する各フレームのMFCCを算出し、音素区間等の複数のMFCCをベクトル化したスペクトルパラメータを算出する。そして、音響モデル学習部は、複数のスペクトルパラメータを近似するガウス分布のパラメータ、及び、各状態間の遷移確率、並びに、各状態における出力確率を算出する。これにより、音素を構成する複数の状態のそれぞれについてのパラメータからなる音響モデルを生成する。
テキスト解析部11は、合成音声の生成対象であるテキストを入力し、テキストに対して形態素解析等の処理を行う。これにより、テキストの音素列、音素の開始時間及び終了時間、アクセントの有無、有声音及び無声音の区別情報等を生成する。そして、テキスト解析部11は、音素毎に、その開始時間及び終了時間から継続時間長を算出する。テキスト解析部11は、テキストの音素列、音素毎の継続時間長、アクセントの有無、有声音及び無声音の区別情報等をパラメータ生成部12に出力する。
パラメータ生成部12は、テキスト解析部11からテキストの音素列、音素毎の継続時間長、アクセントの有無、有声音及び無声音の区別情報等を入力する。そして、パラメータ生成部12は、まず、音素列の音素の各状態に対応するパラメータの系列oを、HD10の音響モデルから生成する。つまり、パラメータ生成部12は、音素列の音素の各状態に対応するそれぞれのパラメータをHD10の音響モデルから読み出し、パラメータの系列oを生成する。次に、パラメータ生成部12は、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される確率分布Pの尤度が最大となり、かつMFCC等の分散が反映された合成用パラメータの系列o”を生成する。パラメータ生成部12は、合成用パラメータの系列o”を音声合成部13に出力する。
また、パラメータ生成部12は、音素列の各音素について、その継続時間長及びアクセントの有無等の情報に基づいて、ピッチの基本周波数を生成する。そして、パラメータ生成部12は、音素列の各音素についてのピッチの基本周波数、有声音及び無声音の区別情報等を音声合成部13に出力する。
図2は、パラメータ生成部12において、合成用パラメータの系列を生成するための構成例を示すブロック図である。このパラメータ生成部12は、パラメータ生成手段30及び分散付加手段31を備えている。
パラメータ生成手段30は、テキスト解析部11から、テキストの音素列及び音素の継続時間長を入力し、HD10のMFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔからなるスペクトルパラメータから生成した音響モデルから、音素の各状態に対応するパラメータの系列oを生成する。そして、パラメータ生成手段30は、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布Pの尤度が最大となる合成用パラメータの系列o’を生成する。そして、パラメータ生成手段30は、合成用パラメータの系列o’を分散付加手段31に出力する。
具体的には、パラメータ生成手段30は、音響モデルをλ、音素の状態の系列をq、音響モデルλから観測されるパラメータの系列をo、音素の状態の系列qと音響モデルλにおいて、パラメータの系列oが観測される音響モデルの確率分布をPとして、音素の各状態について、前記数式(1)により、音素の状態の系列qと音響モデルλにおいて、パラメータの系列oが観測される音響モデルλの確率分布Pの尤度が最大となるパラメータの系列oを合成用パラメータの系列o’として算出する。
これにより、合成用パラメータの系列o’は、MFCCの一次回帰係数Δ及び二次回帰係数ΔΔが考慮されて生成されるため、発話文章全体で平均をトレースするような滑らか値となる。
分散付加手段31は、パラメータ生成手段30から合成用パラメータの系列o’を入力すると共に、HD10の音響モデルから、音素列の音素の各状態について合成用パラメータの系列o’に対応するMFCC等の分散を読み出す。
分散付加手段31は、音素の各状態の合成用パラメータの系列o’に対し、合成用パラメータの系列o’に対応する分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。そして、分散付加手段31は、合成用パラメータの系列o”を音声合成部13に出力する。
この分散に基づいた正規乱数(ガウスノイズ)は、人間の発声の揺らぎを表現するものであり、分散付加手段31により生成される合成用パラメータの系列o”は、人間の発声の揺らぎの成分が付加されたパラメータの系列となる。
具体的には、分散付加手段31は、MFCC等の分散をσλ、分散σλに基づいたガウスノイズをN(σλ)として、合成用パラメータの系列o’に、分散σλに基づいたガウスノイズN(σλ)を加算することで、合成用パラメータの系列o”を求める。つまり、分散付加手段31は、合成用パラメータの系列o”を、以下の数式(2)にて算出する。
[数2]
o”=o’+N(σλ) ・・・(2)
図3は、音響モデルを用いて生成された合成用パラメータの系列o”の例を示す図である。横軸は時間tを示し、縦軸はMFCC cを示す。図3には、音響モデルのパラメータの系列o(MFCC cの平均)、合成用パラメータの系列o’及び合成用パラメータの系列o”の特性を示す。四角の点線は分散を示す。
図4は、音響モデルのパラメータの系列o(MFCC cの平均)、合成用パラメータの系列o’及び合成用パラメータの系列o”の例を示す図であり、図3に示す分散の範囲の領域α,βを拡大した図である。図4(1)は音響モデルのパラメータの系列o(MFCC cの平均)の例であり、図4(2)は合成用パラメータの系列o’の例であり、図4(3)は合成用パラメータの系列o”の例である。
図4(1)は、音響モデルのパラメータの系列o(MFCC cの平均)が、音素の状態毎に一定値であることを示す。図4(2)は、合成用パラメータの系列o’が、図6に示した合成用パラメータの系列o’の特性と同じであることを示す。この合成用パラメータの系列o’は、MFCCの一次回帰係数Δ及び二次回帰係数ΔΔが考慮されて生成されるため、音響モデルのパラメータの系列oであるMFCC cの平均を基準にして、滑らかに変化する値となる。この合成用パラメータの系列o’は、図2に示したパラメータ生成手段30により生成される。
図4(3)は、合成用パラメータの系列o”が、図4(2)に示した合成用パラメータの系列o’に対し、人間の発声の揺らぎ成分を表現する、MFCC等の分散に基づいた正規乱数(ガウスノイズ)が付加された特性となることを示す。この合成用パラメータの系列o”は、図2に示した分散付加手段31により生成される。
このように、パラメータ生成部12は、音素の各状態について、MFCC等の分散を反映した合成用パラメータの系列o”、すなわち、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布Pの尤度を最大とし、かつMFCC等の分散を反映した合成用パラメータの系列o”を生成する。この合成用パラメータの系列o”は、MFCC等の分散を考慮した揺らぎが与えられ、後述する声道フィルタ21は、これを声道パラメータとして用いる。
図1に戻って、音声合成部13は、パラメータ生成部12から、音素の各状態におけるピッチの基本周波数、有声音及び無声音の区別情報等、並びに合成用パラメータの系列o”を入力する。そして、音声合成部13は、基本周波数、有声音及び無声音の区別情報等に基づいて、テキストに対応する声帯信号を生成し、声帯信号に対し、合成用パラメータの系列o”を用いて声道フィルタによるフィルタ処理を施すことで、合成音声を生成する。音声合成部13は、生成した合成音声を出力する。
図1に示すように、音声合成部13は、声帯信号生成部20及び声道フィルタ21を備えている。声帯信号生成部20は、パラメータ生成部12から、音素列の各音素についてのピッチの基本周波数、有声音及び無声音の区別情報等を入力する。そして、声帯信号生成部20は、対象区間が有声音である場合、基本周波数の逆数であるピッチ周期のパルス列を声帯信号として生成し、対象区間が無声音である場合、白色雑音を声帯信号として生成する。声帯信号生成部20は、生成した声帯信号を声道フィルタ21に出力する。
声道フィルタ21は、声帯信号生成部20から声帯信号を入力すると共に、パラメータ生成部12から合成用パラメータの系列o”を入力し、声帯信号に対し、合成用パラメータの系列o”を用いて声道フィルタによるフィルタ処理を施すことで、合成音声を生成する。声道フィルタ21は、生成した合成音声を出力する。尚、声道フィルタ21による合成音声の生成手法は既知であり、非特許文献1等を参照されたい。
以上のように、実施例1の音声合成装置1によれば、パラメータ生成部12は、テキストの音素列について、音素の各状態に対応するパラメータの系列oを音響モデルから生成する。そして、パラメータ生成部12は、前記数式(1)にて、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布の尤度が最大となる合成用パラメータの系列o’を生成する。さらに、パラメータ生成部12は、前記数式(2)にて、合成用パラメータの系列o’に対し、MFCC等の分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。
音声合成部13は、ピッチの基本周波数等に基づいて、テキストに対応する声帯信号を生成し、声帯信号に対し、合成用パラメータの系列o”を用いて声道フィルタによるフィルタ処理を施すことで、合成音声を生成する。
このように、音響モデルの統計量である分散を用いて、人間の発声の揺らぎを表現する成分を合成用パラメータの系列o”に反映するようにした。これにより、音響モデルの学習時に用いる音声信号の分布に適合した合成用パラメータの系列o”を生成することができる。つまり、人間の音声のパラメータに近い合成用パラメータの系列o”である声道パラメータを生成することができるため、この声道パラメータを用いて生成される合成音声は、実際に人間が発声する音に近くなる。すなわち、自然の音に近い合成音声を生成することができ、人間の発話に近い統計的合成音声の提供が可能となる。
(音声合成装置/実施例2)
次に、実施例2の音声合成装置について説明する。図5は、実施例2の音声合成装置の構成例を示すブロック図である。この音声合成装置2は、HD10、テキスト解析部11、パラメータ生成部14及び音声合成部15を備えている。
図1に示した実施例1の音声合成装置1と、図5に示す実施例2の音声合成装置2とを比較すると、両音声合成装置1,2は、同じテキスト解析部11を備えている点で共通する。一方、実施例2の音声合成装置2は、実施例1の音声合成装置1に備えたパラメータ生成部12及び音声合成部13とは異なるパラメータ生成部14及び音声合成部15を備えている点で、実施例1の音声合成装置1と相違する。
テキスト解析部11は、図1に示したテキスト解析部11と同一であるから、ここでは説明を省略する。
パラメータ生成部14は、テキスト解析部11からテキストの音素列、音素毎の継続時間長、アクセントの有無、有声音及び無声音の区別情報等を入力する。そして、パラメータ生成部12は、音素列の音素の各状態に対応するパラメータの系列oを、HD10の音響モデルから生成する。
パラメータ生成部14は、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布の尤度が最大となり、かつMFCC等の分散が反映された複数の合成用パラメータの系列o”を生成し、複数の合成用パラメータの系列o”を音声合成部15に出力する。具体的には、パラメータ生成部14は、前記数式(1)にて、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布の尤度が最大となる合成用パラメータの系列o’を生成する。さらに、パラメータ生成部14は、前記数式(2)にて、合成用パラメータの系列o’に対し、MFCC等の分散に基づいた正規乱数(ガウスノイズ)を付加し、複数の合成用パラメータの系列o”を生成する。
また、パラメータ生成部14は、図1に示したパラメータ生成部12と同様に、ピッチの基本周波数を生成し、音素列の各音素についてのピッチの基本周波数等を音声合成部15に出力する。
例えば、パラメータ生成部14は、合成用パラメータの系列o’に対し、MFCC等の分散に基づいた正規乱数(ガウスノイズ)を付加することで、異なる合成用パラメータの系列o1”,o2”,o3”を生成する。ここで、合成用パラメータの系列o1”,o2”,o3”は、同一の合成用パラメータの系列o’に、MFCC等の分散に基づく異なる正規乱数(ガウスノイズ)を付加して生成する。尚、MFCC等の分散を用いるから、合成用パラメータの系列o1”,o2”,o3”は、生成処理毎に異なる値となる。
音声合成部15は、パラメータ生成部14から、音素列の各音素についてのピッチの基本周波数等、及び複数の合成用パラメータの系列o1”,o2”,o3”をそれぞれ入力する。そして、音声合成部15は、ピッチの基本周波数等に基づいて、テキストに対応する声帯信号を生成し、声帯信号に対し、複数の合成用パラメータの系列o1”,o2”,o3”のそれぞれを用いて声道フィルタによるフィルタ処理を施すことで、複数の合成音声w1,w2,w3を生成する。尚、複数の合成用パラメータの系列o1”,o2”,o3” のそれぞれを用いて声道フィルタによるフィルタ処理を施すことで生成された複数の合成音声w1,w2,w3は、時間が揃っている。音声合成部15は、生成した複数の合成音声w1,w2,w3の時間波形を平均化し、平均化した時間波形を合成音声として出力する。
図5に示すように、音声合成部15は、声帯信号生成部20、声道フィルタ22及び平均化部23を備えている。声帯信号生成部20は、図1に示した声帯信号生成部20と同一であるため、ここでは説明を省略する。
声道フィルタ22は、声帯信号生成部20から声帯信号を入力すると共に、パラメータ生成部14から複数の合成用パラメータの系列o1”,o2”,o3”をそれぞれ入力する。そして、声道フィルタ22は、声帯信号に対し、複数の合成用パラメータの系列o1”,o2”,o3”のそれぞれを用いて声道フィルタによるフィルタ処理を施すことで、複数の合成音声w1,w2,w3を生成する。声道フィルタ22は、生成した複数の合成音声w1,w2,w3を平均化部23に出力する。尚、声道フィルタ22による合成音声の生成手法は既知であるため、ここでは詳細な説明を省略する。
声道フィルタ22は、第1の合成音声w1、第2の合成音声w2及び第3の合成音声w3におけるそれぞれの時間波形を平均化部23に出力する。ここで、第1の合成音声w1、第2の合成音声w2及び第3の合成音声w3は、同じテキストに対応した音声である。一方、合成用パラメータの系列o1”,o2”,o3”が異なるため、異なる時間波形となる。
平均化部23は、声道フィルタ22から複数の合成音声w1,w2,w3の時間波形を入力し、複数の合成音声w1,w2,w3の時間波形を平均化し、平均化した時間波形を合成音声として出力する。
以上のように、実施例2の音声合成装置2によれば、パラメータ生成部14は、テキストの音素列について、音素の各状態に対応するパラメータの系列oを音響モデルから生成する。そして、パラメータ生成部14は、前記数式(1)及び前記数式(2)にて、音素の各状態について、音素の状態の系列と音響モデルにおいて、パラメータの系列oが観測される音響モデルの確率分布の尤度が最大となり、かつMFCC等の分散が反映された複数の合成用パラメータの系列o1”,o2”,o3”を生成する。
音声合成部15は、ピッチ基本周波数等に基づいて、テキストに対応する声帯信号を生成し、声帯信号に対し、複数の合成用パラメータの系列o1”,o2”,o3”を用いて声道フィルタによるフィルタ処理を施すことで、複数の合成音声w1,w2,w3を生成する。そして、音声合成部15は、複数の合成音声w1,w2,w3の時間波形を平均化する。
このように、音響モデルの統計量である分散を用いて、人間の発声の揺らぎを表現する成分を複数の合成用パラメータの系列o1”,o2”,o3”に反映するようにした。これにより、これらの複数の合成用パラメータの系列o1”,o2”,o3”を用いて生成される合成音声は、人間の発声の音に一層近くなる。すなわち、自然の音に一層近い合成音声を生成することができる。
尚、本発明の実施例1,2による音声合成装置1,2のハードウェア構成としては、通常のコンピュータを使用することができる。音声合成装置1,2は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成できる。音声合成装置1に備えたHD10、テキスト解析部11、パラメータ生成部12及び音声合成部13の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現できる。また、音声合成装置2に備えたHD10、テキスト解析部11、パラメータ生成部14及び音声合成部15の各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現できる。
これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。
以上、実施例1,2を挙げて本発明を説明したが、本発明は前記実施例1,2に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、前記実施例1において、音声合成装置1のパラメータ生成部12は、音響モデルとして学習されたMFCC等の統計量を用いて、MFCC等の分散が反映された合成用パラメータの系列o”を生成するようにした。
この場合、パラメータ生成部12は、MFCCの統計量を用いて、MFCCの分散が反映された合成用パラメータの系列o”を生成するようにしてもよい。具体的には、パラメータ生成部12のパラメータ生成手段30は、前記数式(1)にて、音素の状態の系列と、MFCCを用いて学習した音響モデルにおいて、パラメータの系列oが観測される確率分布の尤度が最大となる合成用パラメータの系列o’を生成する。そして、分散付加手段31は、前記数式(2)にて、合成用パラメータの系列o’に対し、MFCCを用いて学習した音響モデルにおけるMFCCの分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。
また、パラメータ生成部12は、音響モデルとして学習されたMFCC及びMFCCの一次回帰係数Δの統計量を用いて、MFCCの分散及びMFCCの一次回帰係数Δの分散が反映された合成用パラメータの系列o”を生成するようにしてもよい。具体的には、パラメータ生成部12のパラメータ生成手段30は、前記数式(1)にて、音素の状態の系列と、MFCC及びMFCCの一次回帰係数Δを用いて学習した音響モデルにおいて、パラメータの系列oが観測される確率分布の尤度が最大となる合成用パラメータの系列o’を生成する。そして、分散付加手段31は、前記数式(2)にて、合成用パラメータの系列o’に対し、MFCC及びMFCCの一次回帰係数Δを用いて学習した音響モデルにおけるMFCCの分散及びMFCCの一次回帰係数Δの分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。
また、パラメータ生成部12は、音響モデルとして学習されたMFCC、MFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔの統計量を用いて、MFCCの分散、MFCCの一次回帰係数Δの分散及びMFCCの二次回帰係数ΔΔの分散が反映された合成用パラメータの系列o”を生成するようにしてもよい。具体的には、パラメータ生成部12のパラメータ生成手段30は、前記数式(1)にて、音素の状態の系列と、MFCC、MFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔを用いて学習した音響モデルにおいて、パラメータの系列oが観測される確率分布の尤度が最大となる合成用パラメータの系列o’を生成する。そして、分散付加手段31は、前記数式(2)にて、合成用パラメータの系列o’に対し、MFCC、MFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔを用いて学習した音響モデルにおけるMFCCの分散、MFCCの一次回帰係数Δの分散及びMFCCの二次回帰係数ΔΔの分散に基づいた正規乱数(ガウスノイズ)を付加し、合成用パラメータの系列o”を生成する。実施例2についても同様である。
1,2 音声合成装置
10 HD(ハードディスク)
11 テキスト解析部
12,14 パラメータ生成部
13,15 音声合成部
20 声帯信号生成部
21,22 声道フィルタ
23 平均化部
30 パラメータ生成手段
31 分散付加手段

Claims (4)

  1. 予め学習した音響モデルを用いて、テキストに対応した合成音声を生成する音声合成装置において、
    前記音響モデルを用いて、テキストに対応した合成用パラメータを生成するパラメータ生成部と、
    前記パラメータ生成部により生成された前記合成用パラメータを用いて、前記テキストに対応した声帯信号に対し、声道フィルタのフィルタ処理を施して合成音声を生成する音声合成部と、を備え、
    前記パラメータ生成部は、
    前記テキストを構成する音素の各状態に対応する特徴量を、前記音響モデルから読み出し、前記特徴量の確率分布の尤度が最大となるパラメータを生成するパラメータ生成手段と、
    前記テキストを構成する音素の各状態に対応する特徴量の分散を、前記音響モデルから読み出し、前記パラメータ生成手段により生成された前記パラメータに、前記分散に基づいた正規乱数を付加し、前記合成用パラメータを生成する分散付加手段と、を備えたことを特徴とする音声合成装置。
  2. 請求項1に記載の音声合成装置において、
    前記テキストを構成する音素の各状態に対応する特徴量を、MFCC、MFCCの一次回帰係数Δ及びMFCCの二次回帰係数ΔΔとする、ことを特徴とする音声合成装置。
  3. 請求項1または2に記載の音声合成装置において、
    前記パラメータ生成部に備えた前記分散付加手段に代わる新たな分散付加手段は、
    前記テキストを構成する音素の各状態に対応する特徴量の分散を、前記音響モデルから読み出し、前記パラメータ生成手段により生成された前記パラメータに、前記分散に基づいた正規乱数を付加し、複数の合成用パラメータを生成し、
    前記音声合成部に代わる新たな音声合成部は、
    前記新たな分散付加手段により生成された前記複数の合成用パラメータを用いて、前記テキストに対応した声帯信号に対して声道フィルタのフィルタ処理を施し、前記複数の合成用パラメータのそれぞれに対応する複数の合成音声を生成し、前記複数の合成音声を平均化する、ことを特徴とする音声合成装置。
  4. コンピュータを、請求項1から3までのいずれか一項に記載の音声合成装置として機能させるためのプログラム。
JP2016132586A 2016-07-04 2016-07-04 音声合成装置及びプログラム Pending JP2018004997A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016132586A JP2018004997A (ja) 2016-07-04 2016-07-04 音声合成装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016132586A JP2018004997A (ja) 2016-07-04 2016-07-04 音声合成装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2018004997A true JP2018004997A (ja) 2018-01-11

Family

ID=60949093

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016132586A Pending JP2018004997A (ja) 2016-07-04 2016-07-04 音声合成装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2018004997A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007823A1 (zh) * 2020-07-10 2022-01-13 华为技术有限公司 一种文本数据处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007823A1 (zh) * 2020-07-10 2022-01-13 华为技术有限公司 一种文本数据处理方法及装置

Similar Documents

Publication Publication Date Title
Raitio et al. HMM-based speech synthesis utilizing glottal inverse filtering
Tabet et al. Speech synthesis techniques. A survey
JP4246792B2 (ja) 声質変換装置および声質変換方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
CN107924686B (zh) 语音处理装置、语音处理方法以及存储介质
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP5961950B2 (ja) 音声処理装置
Qian et al. Improved prosody generation by maximizing joint probability of state and longer units
JP2010237323A (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP2016161919A (ja) 音声合成装置
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
Jain et al. A text-to-speech pipeline, evaluation methodology, and initial fine-tuning results for child speech synthesis
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP2018004997A (ja) 音声合成装置及びプログラム
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
JP6578544B1 (ja) 音声処理装置、および音声処理方法
Narendra et al. Time-domain deterministic plus noise model based hybrid source modeling for statistical parametric speech synthesis
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2020204755A (ja) 音声処理装置、および音声処理方法
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム