JP6000326B2 - 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム - Google Patents

音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム Download PDF

Info

Publication number
JP6000326B2
JP6000326B2 JP2014252789A JP2014252789A JP6000326B2 JP 6000326 B2 JP6000326 B2 JP 6000326B2 JP 2014252789 A JP2014252789 A JP 2014252789A JP 2014252789 A JP2014252789 A JP 2014252789A JP 6000326 B2 JP6000326 B2 JP 6000326B2
Authority
JP
Japan
Prior art keywords
speech
information
speech synthesis
quantization
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014252789A
Other languages
English (en)
Other versions
JP2016114740A (ja
Inventor
勇祐 井島
勇祐 井島
宮崎 昇
昇 宮崎
水野 秀之
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014252789A priority Critical patent/JP6000326B2/ja
Publication of JP2016114740A publication Critical patent/JP2016114740A/ja
Application granted granted Critical
Publication of JP6000326B2 publication Critical patent/JP6000326B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、音声合成技術に関し、特に、音声データから音声合成モデルを学習する技術に関する。
近年、主流となっている音声合成方式として、HMM(Hidden Markov Model、隠れマルコフモデル)音声合成方式が提案されている(非特許文献1参照)。HMM音声合成方式における音声データベース(モデル)は、合成単位ごとに音声データのパラメータ(基本周波数(F0)やスペクトル)を平均化(平滑化)し、合成単位ごとに一つのモデルを保持している。HMM音声合成方式では、一般的に、モデル学習やパラメータ生成時に使用する情報(コンテキスト)として、音素種別やアクセント型、アクセント句境界等を使用している。
コンテキストとして、アクセント型やアクセント句境界等を使用するのではなく、各音素の量子化したF0を使用する手法も提案されている(非特許文献2参照)。コンテキストとして、アクセント型やアクセント句境界等を用いた場合、合成音声の声の高さや抑揚を大きく変動させた場合(つまり、F0を変動させた場合)、合成対象のF0に対応しないスペクトルが生成されてしまい、合成音声の品質が低下してしまう。これに対し、コンテキストとして量子化したF0を用いることで、合成対象のF0の変動に応じたコンテキストを動的に生成し、F0に対応したスペクトルを生成することが可能になる。
非特許文献2では、音声合成モデルの学習を行う際には、図1、2に示すように、F0量子化部13が音声データと発話情報に基づいてF0の平均と分散を用いてF0を量子化し、モデル学習部16が量子化したF0を用いて音声合成モデルの学習を行う。また、合成音声を生成する際には、図3に示すように、量子化F0取得部21が合成対象の音素、F0、および音素継続時間長等からF0の平均と分散を用いて量子化F0情報を取得し、スペクトル生成部22がその量子化F0情報から音声合成モデルを用いてスペクトルを生成し、音声波形生成部23がそのスペクトルから合成音声の音声波形を生成する。非特許文献2では、図4に示すように、F0の平均と分散を用いた等分割によりF0の量子化を行う。図4の例では、量子化クラス数を4として、F0の+2σから-2σを4個に等分割し、-1σ以下に「1」を、-1σから0σに「2」を、0σから+1σに「3」を、+1σ以上に「4」を割り当てることで、F0の量子化を行っている。
益子他、"動的特徴を用いたHMMに基づく音声合成"、電子情報通信学会論文誌、vol. J79-D-II、no. 12、pp. 2184-2190、1996年12月 大木他、"F0量子化に基づく韻律コンテキストを用いたHMM音声合成"、電子情報通信学会技術研究報告、vol. 109、no. 356、SP2009-87、pp. 141-146、2009年12月
しかしながら、F0の変動によるスペクトルの変動は話者や発話スタイル等によっても傾向が異なる。そのため、単純な等分割ではF0の変動によるスペクトルの変動を十分に考慮することはできない。したがって、従来技術では、F0の変動に応じた最適なスペクトルが生成できず、合成音声の品質が十分に向上しない。
この発明は、このような点に鑑みてなされたものであり、F0の変動に応じた最適なスペクトルを生成できる音声合成モデルを学習することで、合成音声の品質を向上することを目的とする。
上記の課題を解決するために、この発明の第一の態様の音声合成モデル学習装置は、音声信号のF0とスペクトルを含む音声データを記憶する音声データ記憶部と、音声データにおける各音素の時間関係を表す発話情報を記憶する発話情報記憶部と、音声データをF0に基づいてソートした整列後音声データを生成する音声データ整列部と、整列後音声データを、F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となるF0の値から量子化閾値を求めるクラスタリング部と、量子化閾値に基づいてF0を量子化した量子化F0情報を生成する量子化F0生成部と、音声データ、発話情報、および量子化F0情報を用いて音声合成モデルを学習するモデル学習部と、を含む。
この発明の第二の態様の音声合成装置は、音声合成モデル学習装置により学習した音声合成モデルを記憶する音声合成モデル記憶部と、音声合成モデル学習装置により決定した量子化閾値を含む量子化情報を記憶する量子化情報記憶部と、合成対象の読みおよび韻律情報から量子化情報を用いて合成対象の読みに対応する量子化F0情報を取得する量子化F0取得部と、合成対象の読みおよび韻律情報と、量子化F0情報とから、音声合成モデルを用いてスペクトルを生成するスペクトル生成部と、スペクトルおよび合成対象の韻律情報から音声波形を生成する音声波形生成部と、を含む。
この発明の音声合成モデル学習技術は、F0の変動だけでなくスペクトルの変動も考慮してF0を量子化し、その量子化F0情報を用いて音声合成モデルを学習する。その音声合成モデルを用いて音声合成を行うと、F0の変動に応じた最適なスペクトルを生成することができるため、合成音声の品質が向上する。
図1は、従来の音声合成モデル学習装置の機能構成を例示する図である。 図2は、従来のF0量子化部の機能構成を例示する図である。 図3は、従来の音声合成装置の機能構成を例示する図である。 図4は、従来のF0量子化方法を例示する図である。 図5は、第一実施形態の音声合成モデル学習装置の機能構成を例示する図である。 図6は、第一実施形態のF0量子化部の機能構成を例示する図である。 図7は、音素セグメンテーション情報の具体例を示す図である。 図8は、第一実施形態の音声合成モデル学習方法の処理フローを例示する図である。 図9は、ソート前後のフレームデータの具体例を示す図である。 図10は、クラスタリング後のフレームデータの具体例を示す図である。 図11は、量子化F0生成部の機能構成を例示する図である。 図12は、音素セグメンテーション情報と量子化F0情報の具体例を示す図である。 図13は、第一実施形態の音声合成装置の機能構成を例示する図である。 図14は、第一実施形態の音声合成方法の処理フローを例示する図である。 図15は、第二実施形態のF0量子化部の機能構成を例示する図である。 図16は、第三実施形態のF0量子化部の機能構成を例示する図である。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
[第一実施形態]
<音声合成モデルの学習>
第一実施形態の音声合成モデル学習装置は、音声データおよび発話情報を用いてF0の量子化を行い、音声データおよび発話情報から量子化F0を考慮した音声合成モデル(HMM)を学習する。
第一実施形態の音声合成モデル学習装置は、図5に示すように、音声データ記憶部11、発話情報記憶部12、F0量子化部13、量子化情報記憶部14、量子化F0記憶部15、モデル学習部16、および音声合成モデル記憶部17を例えば含む。F0量子化部13は、図6に示すように、音声データ整列部131、クラスタリング部132、および量子化F0生成部139を例えば含む。
音声合成モデル学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成モデル学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成モデル学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成モデル学習装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
音声合成モデル学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声合成モデル学習装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
音声データ記憶部11には、音声合成モデルの学習に使用する音声データが記憶されている。音声データは、音声合成モデルを構築する対象となる一名の話者がN(≧1)個の文章を発話した音声をあらかじめ収録したものである。音声データは、具体的には、音声信号に対して信号処理を行った結果得られる音響特徴量(例えば、音高パラメータ、スペクトルパラメータ等。音高パラメータは、例えば、基本周波数(F0)等。スペクトルパラメータは、例えば、ケプストラム、メルケプストラム等。)である。音声データには、音声合成に必要な各音素が一つ以上含まれている必要がある。
発話情報記憶部12には、音声データ記憶部11に記憶された音声データに対応する発話情報が記憶されている。発話情報は、音声データ中の各発話に対して付与された発音等の情報であり、音声データ中の各発話に一つの発話情報が付与されている。発話情報には、少なくとも各音素の開始時間、終了時間の情報(以下、音素セグメンテーション情報と呼ぶ。)が保存されている。本形態では、開始時間および終了時間は、各発話の始点を0秒とした時の経過時間として表現される。音素セグメンテーション情報は人手で付与してもよいし、音声データから自動で付与したものでもよい。音声データから音素セグメンテーション情報を自動的に付与する方法は、例えば、「特許第3866171号公報(参考文献1)」に記載されている。また、付与する発話情報として、音素セグメンテーション情報以外にもアクセント情報(アクセント型、アクセント句長等)や品詞情報等を含んでいてもよい。
音素セグメンテーション情報の具体例を図7に示す。図7では、発話を構成する各音素の開始時間と終了時間がミリ秒単位で設定されている。図7の例では、発話開始からの経過時間が0〜350ミリ秒の音素は“pause”であり、350〜600ミリ秒の音素は“o”であり、600〜680ミリ秒の音素は“s”であることがわかる。
図8を参照して、第一実施形態の音声合成モデル学習方法の処理手続きを説明する。
ステップS11〜S13において、F0量子化部13は、音声データ記憶部11に記憶された音声データ(F0、スペクトル)と、発話情報記憶部12に記憶された発話情報(音素セグメンテーション情報)とを用いて量子化時の閾値(以下、量子化閾値と呼ぶ。)を決定し、その量子化閾値を用いて各音素のF0を量子化した量子化F0情報を得る。以下、F0量子化部13の処理をより詳しく説明する。
ステップS11において、音声データ整列部131は、音声データに含まれる無声区間(無音、無声子音等の声帯振動が生じない音声区間)を除いた全フレームのF0およびスペクトル(以下、フレームデータと呼ぶ。)を、F0値に基づいてソートを行う。図9はソート前後のフレームデータを例示したものである。図9の例では、スペクトルの値はメルケプストラムである。メルケプストラムは、左から右へケプストラムの次数の順(0次項、1次項、…)に示している。図9の例は、F0値が最小のフレームから昇順にソートしたものである。なお、ソートの際に同一のF0値が存在する場合には当該フレームの出現時間に基づいてソートを行えばよい。
ステップS12において、クラスタリング部132は、音声データ整列部131により得られたソート後の音声データを用いて、F0値を考慮したスペクトルのクラスタリングを行う。クラスタリングアルゴリズムとして、例えば、セグメンタルk-means法を用いることができる。セグメンタルk-means法についての詳細は「Juang, Biing-Hwang, and Lawrence Rabiner. “The segmental K-means algorithm for estimating parameters of hidden Markov models” Acoustics, Speech and Signal Processing, IEEE Transactions, vol. 38.9, pp. 1639-1641, 1990.(参考文献2)」を参照されたい。一般的に、セグメンタルk-means法におけるクラスタ境界の初期値は、全フレームをクラスタ数で等分割した境界を用いる。また、クラスタ数Kは固定としてクラスタリングを行う。クラスタ数Kはあらかじめ与えられた量子化クラス数を用いる。
セグメンタルk-means法は時系列を考慮したクラスタリングを行うことができる手法であり、音声認識等で用いられるHMMのパラメータ推定等に用いられている。セグメンタルk-means法では、各フレームの時間情報が入れ替わらないような時系列の制約をかけた上でクラスタリングが行われる。本形態では、F0値が最小のフレームから昇順にソートを行った後のF0値を時間とみなすことで、ソート後のF0およびスペクトルを時系列データとして扱う。そのため、F0の順序が入れ替わらないように制約をかけた上で、クラスタ内のスペクトルの特徴が近くなるように各クラスタが構築される。これにより、F0値およびスペクトルが近いものが一つのクラスタに集まるため、F0の変動を考慮したスペクトルのクラスタリングを行うことができる。
本形態では、クラスタリングの結果得られた各クラスタの境界となるフレームのF0の平均値を量子化閾値として使用する。図10は量子化クラス数を3とした場合のクラスタリング後のフレームデータの例である。図10の例では、クラスタ1とクラスタ2の閾値として、クラスタ1側の境界のF0値(200[Hz])とクラスタ2側の境界のF0値(210[Hz])を平均した値である205[Hz]を量子化閾値として設定している。同様に、クラスタ2とクラスタ3の量子化閾値は214[Hz]に設定する。これにより、学習データ全体におけるF0の平均と分散のみを用いて量子化境界を決定する従来の方法と異なり、スペクトルの変動を考慮した量子化境界の決定ができる。また、本形態ではF0値として[Hz]を用いているが、聴覚特性を考慮した対数F0や、mel尺度、bark尺度等を用いてもよい。また、隣り合うクラスタの境界のF0値が同一の場合には、境界のF0値を量子化閾値として使用すればよい。
クラスタリング部132により得られた量子化閾値は、量子化クラス数とともに音声合成時にも利用されるため、量子化情報として量子化情報記憶部14へ記憶される。
ステップS13において、量子化F0生成部139は、クラスタリング部132により得られた量子化閾値を用いて、各音素のF0を量子化した量子化F0情報を生成する。量子化F0生成部139は、図11に示すように、F0平均部1391および量子化F0推定部1392を例えば含む。F0平均部1391は、F0値および音素セグメンテーション情報を用いて、各フレームデータに含まれる各音素のF0平均値を算出する。量子化F0推定部1392は、F0平均部1391により得られた各音素のF0平均値と、クラスタリング部13により得られた量子化閾値とを用いて、各音素がどのクラスタに属するかを推定し、各音素の量子化F0情報を推定する。この処理によって、量子化F0生成部139は、各音素の量子化F0情報をクラスタ値として得ることができる。
無声音素や無声区間については、F0平均値を算出することができないため、どのクラスタにも属していないことがわかる識別子をクラスタ番号の代わりに付与する。また、当該音素のF0平均値と量子化閾値が同一である場合は、当該音素のF0平均値と両クラスタに属する全データのF0平均値との距離を計算し、距離が小さいクラスタのクラスタ番号を付与する。
図12に、音素セグメンテーション情報に量子化F0情報を対応付けた例を示す。図12の例では、“o”、“a”のような有声音素にはクラスタ番号を付与し、“sil”,“s”などで表される無声音素には、クラスタ番号の代わりに、どのクラスタにも属していないことを示す識別子“x”を付与している。
ステップS14において、モデル学習部16は、音声データ記憶部11に記憶された音声データと、発話情報記憶部12に記憶された発話情報、量子化F0記憶部15に記憶された各音素の量子化F0情報から生成されるコンテキスト依存ラベルを用いて、量子化F0を考慮した音声合成モデルを学習する。コンテキスト依存ラベルの詳細と音声合成モデルの学習方法は、従来と同様であり、例えば、非特許文献2に記載された方法を用いることができる。
<音声合成>
第一実施形態の音声合成装置は、音声合成モデル学習装置で得られた量子化F0を考慮した音声合成モデルを用いて、合成対象の音素、F0、および音素継続時間長等から合成音声を生成する。
第一実施形態の音声合成装置は、図13に示すように、量子化情報記憶部14、音声合成モデル記憶部17、量子化F0取得部21、スペクトル生成部22、および音声波形生成部23を例えば含む。
音声合成装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声合成装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声合成装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、音声合成装置の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。
音声合成装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。音声合成装置が備える各記憶部は、それぞれ論理的に分割されていればよく、一つの物理的な記憶装置に記憶されていてもよい。
図14を参照して、第一実施形態の音声合成方法の処理手続きを説明する。
ステップS21において、量子化F0取得部21は、入力された合成対象の読み(音素等)、韻律情報(F0、音素継続時間長等)から、量子化情報記憶部14に記憶された量子化情報を用いて、合成対象の各音素に対応する量子化F0情報を得る。入力として使用する合成対象の音素、F0、および音素継続時間長等は、例えば、テキスト音声合成を行う場合は、音声合成の過程でテキスト解析の結果得られる読み(音素)やアクセント情報等から韻律モデルを用いて生成されたものを使用する(非特許文献2参照)。なお、韻律モデルについては非特許文献1に記載されている。もしくは、公知の手法により自然音声(肉声)から抽出したF0、音素、および音素継続時間長等を用いてもよい。自然音声からF0、音素、および音素継続時間長等を抽出する手法は、例えば、「特許第3292218号公報(参考文献3)」に記載されている。
ステップS22において、スペクトル生成部22は、量子化F0取得部21により得られた各音素の量子化F0情報と合成対象の音素とを用いて、音声合成に利用するためのコンテキスト依存ラベルを得、音声合成モデル記憶部17に記憶された音声合成モデル、コンテキスト依存ラベル、および入力された音素継続時間長を用いて音声パラメータ(スペクトル)を生成する。コンテキスト依存ラベルについての詳細は、例えば、非特許文献2を参照されたい。コンテキスト依存ラベルは、量子化F0情報と合成対象の音素、F0、および音素継続時間長等から生成することができる。音声パラメータ(スペクトル)の生成方法は、例えば、非特許文献1を参照されたい。
ステップS23において、音声波形生成部23は、スペクトル生成部22により得られた音声パラメータ(スペクトル)および合成対象のF0から、音声合成フィルタを用いて音声波形を生成する。音声合成フィルタは、例えば、「今井他、“音声合成のためのメル対数スペクトル近似(MLSA)フィルタ”、電子情報通信学会論文誌、vol. J66-A、no. 2、pp. 122-129、1983年2月(参考文献4)」に記載されたものを用いることができる。
第一実施形態の音声合成モデル学習装置および音声合成装置は、上記のように構成することで、F0量子化時の閾値の決定にF0だけでなくスペクトルも考慮しているため、F0の変動に応じた最適なスペクトルを生成することができる。これにより、合成音声の品質を向上することができる。
[第二実施形態]
第一実施形態では、F0量子化部においてF0量子化時の閾値を決定する際に、全ての有声区間のフレームデータを用いて、セグメンタルk-means法等によるクラスタリングを行った。しかし、その場合、スペクトルのクラスタリング時に音素の違いによるスペクトルの変動を考慮することができないため、最適なクラスタリングができない場合がある。また、F0の変動によるスペクトルの変動は音素によっても異なる場合がある。そのため、第二実施形態では、F0量子化時の閾値を音素ごとに決定することで、より適切なF0量子化時の閾値を決定する。
以下、図15を参照しながら、第二実施形態の音声合成モデル学習方法を、第一実施形態との差分を中心に説明する。
本形態のF0量子化部13は、第一実施形態のF0量子化部の構成に加えて、音声データ分割部134をさらに含み、音声データ整列部131とクラスタリング部132をM(≧2)個ずつ含む。ここで、Mは音声データに含まれる全音素数である。音声データ分割部134は、音素セグメンテーション情報を用いて音声データを音素ごとにM個に分割する。その後、得られた各音素のフレームデータに対し、第一実施形態と同様に、セグメンタルk-means法による量子化閾値の決定と、各音素に対する量子化F0情報の生成を行う。
第一実施形態のF0量子化部では、有声区間の全てのフレームの音声データを用いて、クラスタリングを行っていた。一方、本形態では、音素ごとにクラスタリングを行い、量子化閾値を音素ごとに決定する点が相違する。
第二実施形態の音声合成モデル学習装置は、量子化閾値の決定を音素ごとに行うことで、音素の違いによるスペクトルの変動を考慮することができる。これにより、より合成音声の品質を向上することができる。
[第三実施形態]
上述の実施形態では、F0量子化部において量子化閾値を決定する際に、全ての有声区間の音声データを用いていた。しかし、全フレームの音声データを用いてクラスタリングを行う場合、F0抽出誤り等の外れ値の影響により、クラスタリング結果に悪影響を及ぼす危険性がある。そのため、第三実施形態では、クラスタリングに各音素のF0平均値と平均スペクトルを使用することで、外れ値の影響を軽減する。また、本形態の場合、クラスタリングに用いるデータ数が大幅に削減できるため、外れ値の影響を軽減するだけでなく、クラスタリングを高速に行える利点もある。
以下、図16を参照しながら、第三実施形態の音声合成モデル学習方法を、第一実施形態との差分を中心に説明する。
本形態のF0量子化部は、第一実施形態のF0量子化部の構成に加えて、音声データ平均部135をさらに含む。音声データ平均部135は、音素セグメンテーション情報を用いて音声データから各音素のF0平均値と平均スペクトルを算出する。その後、得られた各音素のF0平均値と平均スペクトルに対し、第一実施形態と同様に、セグメンタルk-means法による量子化閾値の決定と、各音素に対する量子化F0情報の生成を行う。
第一実施形態のF0量子化部では、有声区間の全てのフレームの音声データを用いて、クラスタリングを行っていた。一方、本形態では、クラスタリング前に各音素のF0平均値と平均スペクトルを算出し、それらを用いてクラスタリングを行い、量子化閾値を決定する点が相違する。
本形態の構成は第二実施形態に対しても同様にして組み合わせて使用することが可能である。すなわち、音声データ分割部134により分割された各音素の音声データが音声データ平均部135へ入力されるように構成し、音声データ平均部135は、音素ごとの音声データそれぞれについてF0とスペクトルの平均を算出し、それらを用いてセグメンタルk-means法による量子化閾値の決定を行えばよい。
第三実施形態の音声合成モデル学習装置は、量子化閾値を決定する際のクスタリングに、各フレームのF0とスペクトルを用いるのではなく、各音素のF0とスペクトルの平均値を用いることで、外れ値に頑健な量子化F0情報を生成することができる。これにより、さらに合成音声の品質を向上することができる。また、クスタリングに平均値を用いることで、クラスタリング対象のデータが減少するため、高速なクラスタリングを行うことができる。これにより、音声合成モデルを学習する時間を削減することができる。
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
11 音声データ記憶部
12 発話情報記憶部
13 F0量子化部
14 量子化情報記憶部
15 量子化F0記憶部
16 モデル学習部
17 音声合成モデル記憶部
21 量子化F0取得部
22 スペクトル生成部
23 音声波形生成部
131 音声データ整列部
132 クラスタリング部
134 音声データ分割部
135 音声データ平均部
139 量子化F0生成部
1391 F0平均部
1392 量子化F0推定部

Claims (7)

  1. 音声信号のF0とスペクトルを含む音声データを記憶する音声データ記憶部と、
    上記音声データにおける各音素の時間関係を表す発話情報を記憶する発話情報記憶部と、
    上記音声データを上記F0に基づいてソートした整列後音声データを生成する音声データ整列部と、
    上記整列後音声データを、上記F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となる上記F0の値から量子化閾値を求めるクラスタリング部と、
    上記量子化閾値に基づいて上記F0を量子化した量子化F0情報を生成する量子化F0生成部と、
    上記音声データ、上記発話情報、および上記量子化F0情報を用いて音声合成モデルを学習するモデル学習部と、
    を含む音声合成モデル学習装置。
  2. 請求項1に記載の音声合成モデル学習装置であって、
    上記発話情報を用いて上記音声データを音素ごとに分割する音声データ分割部をさらに含み、
    上記音声データ整列部は、音素ごとに分割された上記音声データそれぞれについて上記整列後音声データを生成するものであり、
    上記クラスタリング部は、音素ごとの上記整列後音声データそれぞれについて上記量子化閾値を決定するものである
    音声合成モデル学習装置。
  3. 請求項1または2に記載の音声合成モデル学習装置であって、
    上記発話情報を用いて音素ごとに上記F0の平均と上記スペクトルの平均を求める音声データ平均部をさらに含み、
    上記音声データ整列部は、上記F0の平均と上記スペクトルの平均を用いて上記整列後音声データを生成するものである
    音声合成モデル学習装置。
  4. 請求項1から3のいずれかに記載の音声合成モデル学習装置により学習した音声合成モデルを記憶する音声合成モデル記憶部と、
    請求項1から3のいずれかに記載の音声合成モデル学習装置により決定した量子化閾値を含む量子化情報を記憶する量子化情報記憶部と、
    合成対象の読みおよび韻律情報から上記量子化情報を用いて上記合成対象の読みに対応する量子化F0情報を取得する量子化F0取得部と、
    上記合成対象の読みおよび韻律情報と、上記量子化F0情報とから、上記音声合成モデルを用いてスペクトルを生成するスペクトル生成部と、
    上記スペクトルおよび上記合成対象の韻律情報から音声波形を生成する音声波形生成部と、
    を含む音声合成装置。
  5. 音声データ記憶部に、音声信号のF0とスペクトルを含む音声データが記憶されており、
    発話情報記憶部に、上記音声データにおける各音素の時間関係を表す発話情報が記憶されており、
    音声データ整列部が、上記音声データを上記F0に基づいてソートした整列後音声データを生成する音声データ整列ステップと、
    クラスタリング部が、上記整列後音声データを、上記F0の値を時間とみなしてクラスタリングし、クラスタ間の境界となる上記F0の値から量子化閾値を求めるクラスタリングステップと、
    量子化F0生成部が、上記量子化閾値に基づいて上記F0を量子化した量子化F0情報を生成する量子化F0生成ステップと、
    モデル学習部が、上記音声データ、上記発話情報、および上記量子化F0情報を用いて音声合成モデルを学習するモデル学習ステップと、
    を含む音声合成モデル学習方法。
  6. 音声合成モデル記憶部に、請求項5に記載の音声合成モデル学習方法により学習した音声合成モデルが記憶されており、
    量子化情報記憶部に、請求項5に記載の音声合成モデル学習方法により決定した量子化閾値を含む量子化情報が記憶されており、
    量子化F0取得部が、合成対象の読みおよび韻律情報から上記量子化情報を用いて上記合成対象の読みに対応する量子化F0情報を取得する量子化F0取得ステップと、
    スペクトル生成部が、上記合成対象の読みおよび韻律情報と、上記量子化F0情報とから、上記音声合成モデルを用いてスペクトルを生成するスペクトル生成ステップと、
    音声波形生成部が、上記スペクトルおよび上記合成対象の韻律情報から音声波形を生成する音声波形生成ステップと、
    を含む音声合成方法。
  7. 請求項1から3のいずれかに記載の音声合成モデル学習装置もしくは請求項4に記載の音声合成装置としてコンピュータを機能させるためのプログラム。
JP2014252789A 2014-12-15 2014-12-15 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム Active JP6000326B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014252789A JP6000326B2 (ja) 2014-12-15 2014-12-15 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014252789A JP6000326B2 (ja) 2014-12-15 2014-12-15 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2016114740A JP2016114740A (ja) 2016-06-23
JP6000326B2 true JP6000326B2 (ja) 2016-09-28

Family

ID=56140017

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014252789A Active JP6000326B2 (ja) 2014-12-15 2014-12-15 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6000326B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6747489B2 (ja) 2018-11-06 2020-08-26 ヤマハ株式会社 情報処理方法、情報処理システムおよびプログラム
JP6737320B2 (ja) 2018-11-06 2020-08-05 ヤマハ株式会社 音響処理方法、音響処理システムおよびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3884856B2 (ja) * 1998-03-09 2007-02-21 キヤノン株式会社 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ

Also Published As

Publication number Publication date
JP2016114740A (ja) 2016-06-23

Similar Documents

Publication Publication Date Title
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
TWI721268B (zh) 用於語音合成的系統和方法
EP4018439B1 (en) Systems and methods for adapting human speaker embeddings in speech synthesis
JP2019179257A (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP6631883B2 (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成用モデル学習方法、プログラム
KR20240122776A (ko) 뉴럴 음성 합성의 적응 및 학습
AU2020205275B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
KR20180078252A (ko) 성문 펄스 모델 기반 매개 변수식 음성 합성 시스템의 여기 신호 형성 방법
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
Gunawan et al. Development of Language Identification using Line Spectral Frequencies and Learning Vector Quantization Networks
Yakoumaki et al. Emotional speech classification using adaptive sinusoidal modelling.
Guner et al. A small footprint hybrid statistical/unit selection text-to-speech synthesis system for agglutinative languages
Helander Mapping techniques for voice conversion
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
RU160585U1 (ru) Система распознавания речи с моделью вариативности произношения
Sulír et al. The influence of adaptation database size on the quality of HMM-based synthetic voice based on the large average voice model
Chanjaradwichai et al. Tree-based context clustering using speech recognition features for acoustic model training of speech synthesis
Tran Noise-robust voice conversion

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160830

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 6000326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150