JP7088796B2

JP7088796B2 - 音声合成に用いる統計モデルを学習する学習装置及びプログラム

Info

Publication number: JP7088796B2
Application number: JP2018175221A
Authority: JP
Inventors: 信正清山; 清栗原; 正熊野; 篤今井; 徹都木
Original assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2022-06-21
Anticipated expiration: 2038-09-19
Also published as: JP2020046551A

Description

本発明は、テキストから音声信号を合成するために用いる統計モデルを学習する学習装置及びプログラムに関する。

従来、テキストとこれに対応する音声信号を用いて統計モデルを学習し、任意のテキストに対する合成音声を得る方法として、ディープニューラルネットワーク（ＤＮＮ：Deep Neural Network）を用いた深層学習（ＤＬ：Deep Learning）に基づく技術が知られている（例えば、非特許文献１を参照）。

図１３は、非特許文献１に記載された従来の学習方法及び合成方法を示す説明図である。この学習方法を実現する学習装置は、事前に用意された音声コーパスのテキストとこれに対応する音声信号を用いて、テキストについては言語分析処理により言語特徴量を抽出する（ステップＳ１３０１）。また、学習装置は、音声信号について音声分析処理により音響特徴量を抽出する（ステップＳ１３０２）。

学習装置は、言語特徴量と音響特徴量の時間的な対応付けを行い（ステップＳ１３０３）、言語特徴量と音響特徴量を用いて統計モデルを学習する（ステップＳ１３０４）。

また、この合成方法を実現する音声合成装置は、任意のテキストを入力し、テキストの言語分析処理により言語特徴量を抽出する（ステップＳ１３０５）。そして、音声合成装置は、学習装置により学習された統計モデルを用いて、言語特徴量から音響特徴量を推定し（ステップＳ１３０６）、音声生成処理により、音響特徴量から音声信号波形を求める（ステップＳ１３０７）。これにより、任意のテキストに対応する合成音声信号を得ることができる。

Zhizheng Wu, Oliver Watts, Simon King," Merlin：An Open Source Neural Network Speech Synthesis System", in Proc. 9th ISCA Speech Synthesis Workshop (SSW9), September 2016, Sunnyvale, CA, USA.

前述の非特許文献１の方法は、言語特徴量を入力データとし、音響特徴量を出力データとする統計モデルを用いて、任意のテキストに対して合成音声信号を得るものである。

統計モデルの学習時において、言語特徴量が網羅する範囲内に十分な量の学習データが存在し、かつ、統計モデルを用いた合成時において、この範囲内で言語特徴量が指定された場合には、安定的な品質の合成音声信号を得ることができる。

しかしながら、学習時において、前記範囲内に十分な量の学習データが存在しない場合、または、合成時において、言語特徴量の指定が前記範囲を逸脱する場合には、不安定な品質の合成音声信号となってしまう。

例えば、学習装置は、発話中のポーズの特徴量について、予め設定された閾値に基づきポーズ長を分類して設定値（分類値）を求め、このポーズ長の設定値を含む言語特徴量を生成し、この言語特徴量を用いて統計モデルを学習する。音声合成装置は、合成時に、発話中のポーズの特徴量について、前記閾値に基づきポーズ長の設定値を求め、このポーズ長の設定値を含む言語特徴量を入力データとし、統計モデルを用いて音響特徴量を推定し、合成音声信号を得る。

ここで、統計モデルの学習時に、前記閾値に基づき求めたポーズ長の設定値について、当該ポーズ長の設定値が網羅する範囲内に十分な量の学習データが存在しない場合には、安定的な品質の合成音声信号を得るための統計モデルを生成することができない。つまり、このような統計モデルを用いて生成された合成音声信号は音質劣化が生じ、不安定な品質となってしまう。このように、前述の非特許文献１の方法では、安定的な品質の合成音声信号を得ることができないという問題があった。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、ポーズに関する情報を含む言語特徴量の学習データを用いて学習を行う際に、安定的な品質の合成音声信号を得るための統計モデルを生成可能な学習装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の学習装置は、音声コーパスのテキスト及び音声信号に基づいて、音声合成に用いる統計モデルを学習する学習装置において、前記テキストを言語分析し、言語特徴量を求める言語分析部と、前記テキストに対応する前記音声信号を音声分析し、音響特徴量を求める音声分析部と、前記言語分析部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を時間的に対応付ける対応付け部と、前記対応付け部により対応付けられた前記言語特徴量に含まれるポーズ長に関する情報を変更し、前記言語特徴量に対して、変更後の前記ポーズ長に関する情報を反映したポーズ変更後言語特徴量を生成すると共に、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ長に関する情報を反映したポーズ変更後音響特徴量を生成するポーズ変更部と、前記対応付け部により対応付けられた前記言語特徴量及び前記音響特徴量、並びに、前記ポーズ変更部により生成された前記ポーズ変更後言語特徴量及び前記ポーズ変更後音響特徴量を用いて、前記統計モデルを学習する学習部と、を備えたことを特徴とする。

また、請求項２の学習装置は、請求項１に記載の学習装置において、前記対応付け部が、音素毎の特徴量からなる前記言語特徴量と、フレーム毎の特徴量からなる前記音響特徴量とを時間的に対応付けることで、前記言語特徴量に対して音素毎に、当該音素と前記フレームとを対応付けた時間情報を追加すると共に、前記ポーズ長に関する情報をポーズ情報として追加し、前記ポーズ変更部が、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を変更すると共に、当該ポーズ情報の変更に伴い、前記言語特徴量に含まれる前記時間情報を変更し、変更後の前記ポーズ情報及び変更後の前記時間情報を反映した前記ポーズ変更後言語特徴量を生成する言語特徴量生成部と、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ情報を反映したポーズ変更後音響特徴量を生成する音響特徴量生成部と、を備えたことを特徴とする。

また、請求項３の学習装置は、請求項２に記載の学習装置において、前記音響特徴量生成部が、前記音声分析部により前記音響特徴量を求める際に用いた前記音声信号に基づいて、変更後の前記ポーズ情報を反映した新たな音声信号を生成し、当該新たな音声信号を音声分析し、前記ポーズ変更後音響特徴量を生成する、ことを特徴とする。

また、請求項４の学習装置は、請求項２または３に記載の学習装置において、前記言語特徴量生成部が、予め設定された固定時間長にランダムな値を加算し、加算結果を新たなポーズ長とし、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を、前記新たなポーズ長を反映した新たなポーズ情報に変更する、ことを特徴とする。

また、請求項５の学習装置は、請求項１から４までのいずれか一項に記載の学習装置において、前記統計モデルを、ディープニューラルネットワークとする、ことを特徴とする。

さらに、請求項６のプログラムは、コンピュータを、請求項１から５までのいずれか一項に記載の学習装置として機能させることを特徴とする。

以上のように、本発明によれば、ポーズに関する情報を含む言語特徴量の学習データを用いて学習を行う際に、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。

本発明の実施形態による学習装置の構成例を示すブロック図である。本発明の実施形態による学習装置の処理例を示すフローチャートである。言語特徴量のデータ構成例を説明する図である。音声分析部による音声分析処理例を示すフローチャートである。音響特徴量のデータ構成例を説明する図である。時間情報及びポーズ情報が追加された言語特徴量のデータ構成例を説明する図である。ポーズ変更部の構成例を示すブロック図である。ポーズ変更部の処理例を示すフローチャートである。ステップＳ８０７において、部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３を反映した音響特徴量の生成処理例を示すフローチャートである。時間長モデルの学習処理例を説明する図である。音響モデルの学習処理例を説明する図である。音声合成時の言語分析処理にて生成された言語特徴量のデータ構成例を説明する図である。非特許文献１に記載された従来の学習方法及び合成方法を示す説明図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。本発明は、言語特徴量及び音響特徴量のポーズに関する情報を変更し、新たな言語特徴量及び音響特徴量を生成することで、学習データを追加することを特徴とする。

これにより、ポーズ長の設定値が網羅する範囲内（ポーズ長の取り得る範囲内）で、十分な量の学習データを生成することができるから、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。

以下、本発明の実施形態による学習装置について説明する。図１は、本発明の実施形態による学習装置の構成例を示すブロック図であり、図２は、その処理例を示すフローチャートである。

この学習装置１は、記憶部１０，１６、言語分析部１１、音声分析部１２、対応付け部１３、ポーズ変更部１４及び学習部１５を備えている。音声信号はモノラルであり、標本化周波数４８ｋＨｚ及びビット数１６で標本化されているものとする。

記憶部１０には、予め設定された音声コーパスが格納されている。音声コーパスは、テキストと、これに対応する音声信号から構成される。例えば、ＡＴＲ（株式会社国際電気通信基礎技術研究所）により作成された音素バランス５０３文を利用する場合、テキストとこれを読み上げた音声信号は、５０３対からなる。音声コーパスについては、以下の文献を参照されたい。
磯健一、渡辺隆夫、桑原尚夫、「音声データベース用文セットの設計」、音講論（春）、 pp.89-90（1988.3）

〔言語分析部１１〕
言語分析部１１は、記憶部１０から音声コーパスの各テキストを読み出し、テキストについて既知の学習用言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める（ステップＳ２０１）。そして、言語分析部１１は、音素毎の言語特徴量を対応付け部１３に出力する。

具体的には、言語分析部１１は、言語分析処理により、文を構成する音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報を求め、これらの情報からなる言語特徴量を求める。

言語分析処理としては、例えば以下に記載された形態素解析処理が用いられる。
“MeCab：Yet Another Part-of-Speech and Morphological Analyzer”，インターネット＜ＵＲＬ：http://taku910.github.io/mecab/＞
また、言語分析処理としては、例えば以下に記載された係り受け解析処理が用いられる。
“CaboCha/南瓜：Yet Another Japanese Dependency Structure Analyzer”，インターネット＜ＵＲＬ：https://taku910.github.io/cabocha/＞

図３は、言語特徴量のデータ構成例を説明する図である。図３に示すように、言語特徴量は、図２のステップＳ２０１の学習用言語分析処理により生成され、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報及び総数情報から構成される。この例は、テキストが「晴れ、のち、曇り・・・」の場合の言語特徴量である。

〔音声分析部１２〕
図１及び図２に戻って、音声分析部１２は、記憶部１０から音声コーパスの各テキストに対応する各音声信号を読み出す。そして、音声分析部１２は、フレーム毎に音声信号を切り出し、フレーム毎の音声信号について既知の音声（音響）分析処理を行い、フレーム毎の所定情報からなる音響特徴量を求める（ステップＳ２０２）。音声分析部１２は、フレーム毎の音響特徴量を対応付け部１３に出力し、記憶部１０から読み出した音声信号をポーズ変更部１４に出力する。

音声分析処理としては、例えば以下に記載された処理が用いられる。
“A high-quality speech analysis, manipulation and synthesis system”，インターネット＜ＵＲＬ：https://github.com/mmorise/World＞
また、例えば以下に記載された音声信号処理が用いられる。
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”，インターネット＜ＵＲＬ：http://sp-tk.sourceforge.net/＞
“REFERENCE MANUAL for Speech Signal Processing Toolkit Ver. 3.9”

図４は、音声分析部１２による音声分析処理例を示すフローチャートである。音声分析部１２は、記憶部１０から音声コーパスの各音声信号を読み出し、フレーム長２５ｍｓの音声信号をフレームシフト５ｍｓ毎に切り出す（ステップＳ４０１）。そして、音声分析部１２は、フレーム毎の音声信号について音響分析処理を行い、スペクトル、ピッチ周波数及び非周期成分を求める（ステップＳ４０２）。

音声分析部１２は、スペクトルをメルケプストラム分析してメルケプストラム係数ＭＧＣを求める（ステップＳ４０３）。また、音声分析部１２は、ピッチ周波数から有声／無声判定情報ＶＵＶを求め、ピッチ周波数の有声区間を対数化し、無声及び無音区間については前後の有声区間の情報を用いて補間することにより、対数ピッチ周波数ＬＦ０を求める（ステップＳ４０４）。また、音声分析部１２は、非周期成分をメルケプストラム分析して帯域非周期成分ＢＡＰを求める（ステップＳ４０５）。

これにより、静特性の音響特徴量として、フレーム毎に、メルケプストラム係数ＭＧＣ、有声／無声判定情報ＶＵＶ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰが得られる。

音声分析部１２は、メルケプストラム係数ＭＧＣの１次差分Δを算出して１次差分メルケプストラム係数ΔＭＧＣを求め（ステップＳ４０６）、２次差分Δ²を算出して２次差分メルケプストラム係数Δ²ＭＧＣを求める（ステップＳ４０７）。

音声分析部１２は、対数ピッチ周波数ＬＦ０の１次差分Δを算出して１次差分対数ピッチ周波数ΔＬＦ０を求め（ステップＳ４０８）、２次差分Δ²を算出して２次差分対数ピッチ周波数Δ²ＬＦ０を求める（ステップＳ４０９）。

音声分析部１２は、帯域非周期成分ＢＡＰの１次差分Δを算出して１次差分帯域非周期成分ΔＢＡＰを求め（ステップＳ４１０）、２次差分Δ²を算出して２次差分帯域非周期成分Δ²ＢＡＰを求める（ステップＳ４１１）。

これにより、動特性の音響特徴量として、フレーム毎に、１次差分メルケプストラム係数ΔＭＧＣ、２次差分メルケプストラム係数Δ²ＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、２次差分対数ピッチ周波数Δ²ＬＦ０、１次差分帯域非周期成分ΔＢＡＰ及び２次差分帯域非周期成分Δ²ＢＡＰが得られる。

音声分析部１２は、フレーム毎の静特性及び動特性の所定情報からなる音響特徴量を対応付け部１３に出力する。

図５は、音響特徴量のデータ構成例を説明する図である。図５に示すように、音響特徴量は、フレーム毎に、静特性のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰ、動特性の１次差分メルケプストラム係数ΔＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、１次差分帯域非周期成分ΔＢＡＰ、２次差分メルケプストラム係数Δ²ＭＧＣ、２次差分対数ピッチ周波数Δ²ＬＦ０及び２次差分帯域非周期成分Δ²ＢＡＰ、並びに静特性の有声／無声判定情報ＶＵＶから構成される。この音響特徴量は、後述するように、１９９次元のデータから構成される。

〔対応付け部１３〕
図１及び図２に戻って、対応付け部１３は、言語分析部１１から音素毎の言語特徴量を入力すると共に、音声分析部１２からフレーム毎の音響特徴量を入力する。そして、対応付け部１３は、既知の音素アラインメントの技術を用いて、音素毎の言語特徴量とフレーム毎の音響特徴量とを時間的に対応付ける（ステップＳ２０３）。

対応付け部１３は、時間的な対応付けにより、テキストの文を構成する各音素が音声信号のどの時刻に位置（対応）するのかを算出し、音素毎に時間情報を生成し、各音素についてポーズ長を求め、ポーズ長に基づいてポーズ情報を生成する。

対応付け部１３は、音素毎の言語特徴量に時間情報及びポーズ情報を追加し、時間的に対応付けた言語特徴量を生成し、時間的に対応付けた言語特徴量及び音響特徴量をポーズ変更部１４及び学習部１５に出力する。

具体的には、対応付け部１３は、時間的な対応付けにより、音素毎に、対応する開始フレームの番号及び終了フレームの番号からなる時間情報を生成し、音素の時間長（フレーム数）を求める。また、対応付け部１３は、時間的な対応付けにより音素のポーズ長を求め、所定の閾値に基づいて、ポーズ長を当該ポーズ長の設定値ＰＡＵに分類し、ポーズ長の設定値ＰＡＵを含むポーズ情報を生成する。

ポーズ長を分類するための所定の閾値及びポーズ長の設定値ＰＡＵは、予め設定されているものとする。例えば、ポーズ長を３段階の値に分類するものとし（ポーズ長の設定値ＰＡＵを３段階の値とし）、ポーズ長が５０ｍｓ未満の場合、ポーズ長の設定値ＰＡＵ＝１、ポーズ長が５０ｍｓ以上かつ２５０ｍｓ未満の場合、ポーズ長の設定値ＰＡＵ＝２とする。また、ポーズ長が２５０ｍｓ以上の場合、ポーズ長の設定値ＰＡＵ＝３とする。

対応付け部１３は、言語特徴量を構成する音素毎の所定情報に、時間情報及びポーズ情報を追加し、時間的に対応付けた音素毎の言語特徴量を生成する。また、対応付け部１３は、音素毎の時間長を音響特徴量に含め、時間的に対応付けたフレーム毎の音響特徴量（時間長については音素毎のデータ）を学習部１５に出力する。

音素毎の時間長からなる音響特徴量は、時間長モデルを学習するために用いられる。この音響特徴量は、言語特徴量及び音響特徴量の対応付けにて算出されるミリ秒（ｍｓ）単位の時間の長さを、フレームシフト５ｍｓで除算した５ｍｓのフレーム単位の数値、すなわち音素のフレーム数が用いられる。

音素アラインメントの技術としては、例えば以下に記載された音声認識処理が用いられる。
“The Hidden Markov Model Toolkit（HTK）”，インターネット＜ＵＲＬ：http://htk.eng.cam.ac.uk＞
“Speech Signal Processing Toolkit(SPTK) Version 3.11 December 25, 2017”

尚、対応付け部１３は、言語特徴量及び音響特徴量の時間的な対応付け処理の後に、各文の文頭及び文末の無音区間を削除する。

図６は、時間情報及びポーズ情報が追加された言語特徴量のデータ構成例を説明する図である。図６に示すように、時間情報及びポーズ情報が追加された言語特徴量は、図２のステップＳ２０３の処理により生成され、図３に示した言語特徴量に時間情報及びポーズ情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、時間情報、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報から構成される。

前述のとおり、時間情報は、当該音素に対応する開始フレームの番号及び終了フレームの番号からなる。また、ポーズ情報は、ポーズ長が分類された際の分類値を示すポーズ長の設定値ＰＡＵ（例えば１，２，３）等からなる。音素がポーズ区間（無音区間）である場合、当該音素のポーズ情報には、当該音素におけるポーズ長の設定値ＰＡＵが含まれる。音素が無音区間でない場合、当該音素のポーズ情報には、当該音素よりも前の直近の無音区間の音素におけるポーズ長の設定値ＰＡＵ、及び、当該音素よりも後の直近の無音区間の音素におけるポーズ長の設定値ＰＡＵが含まれる。

図６の言語特徴量において、αの音素は無音区間の音素である。その時間情報は、開始フレームの番号が６５及び終了フレームの番号が９５であることを示している（「６５９５」）いる。また、そのポーズ情報には、当該音素におけるポーズ長の設定値ＰＡＵ＝２が含まれる（「Ｐ：２・・・」）。

さらに、βの音素も無音区間の音素である。その時間情報は、開始フレームの番号が１７８であり、終了フレームの番号が２５２であることを示している（「１７８２５２」）。また、そのポーズ情報には、当該音素におけるポーズ長の設定値ＰＡＵ＝３が含まれる（「Ｐ：３・・・」）。

〔ポーズ変更部１４〕
図１及び図２に戻って、ポーズ変更部１４は、対応付け部１３から時間的に対応付けた音素毎の言語特徴量及びフレーム毎の音響特徴量（時間長については音素毎のデータ）を入力すると共に、音声分析部１２から音声信号を入力する。音声分析部１２から入力した音声信号は、対応付け部１３から入力した音響特徴量の元となる（音響特徴量に対応する）信号である。

ポーズ変更部１４は、言語特徴量における音素のポーズ情報の示すポーズ長を変更する。そして、ポーズ変更部１４は、言語特徴量における各音素について、変更後のポーズ長を反映したポーズ情報及び時間情報を生成し、ポーズ変更後の言語特徴量を生成する（ステップＳ２０４）。

ポーズ変更部１４は、変更後のポーズ長を反映した音声信号を生成し（ステップＳ２０５）、フレーム毎の音声信号について、ステップＳ２０２と同様の既知の音声分析処理を行う。そして、ポーズ変更部１４は、フレーム毎の所定情報からなるポーズ変更後の音響特徴量を生成する（ステップＳ２０６）。ポーズ変更部１４は、ポーズ変更後の言語特徴量及び音響特徴量を学習部１５に出力する。

これにより、時間的に対応付けられた言語特徴量及び音響特徴量の学習データを利用して、発話内のポーズ長が変更された新たな学習データが生成される。

図７は、ポーズ変更部１４の構成例を示すブロック図であり、図８は、ポーズ変更部１４の処理例を示すフローチャートである。このポーズ変更部１４は、言語特徴量生成部２０及び音響特徴量生成部２１を備えている。

前述の例のとおり、ポーズ長を３段階の値に分類するものとし、ポーズ長が５０ｍｓ未満の場合、ポーズ長の設定値ＰＡＵ＝１、ポーズ長が５０ｍｓ以上かつ２５０ｍｓ未満の場合、ポーズ長の設定値ＰＡＵ＝２とする。また、ポーズ長が２５０ｍｓ以上の場合、ポーズ長の設定値ＰＡＵ＝３とする。

言語特徴量生成部２０は、対応付け部１３から時間的に対応付けた音素毎の言語特徴量を入力する。また、音響特徴量生成部２１は、対応付け部１３から時間的に対応付けたフレーム毎の音響特徴量（時間長については音素毎のデータ）を入力すると共に、音声分析部１２から音声信号を入力する（ステップＳ８０１）。この場合、音響特徴量生成部２１は、言語特徴量生成部２０から、ポーズ変更後のポーズ長、及びポーズ変更の対象となるフレーム番号情報を入力する。詳細については後述する。

言語特徴量生成部２０は、言語特徴量に含まれるポーズ情報に基づいて、無音区間の音素を特定する（ステップＳ８０２）。そして、言語特徴量生成部２０は、言語特徴量における各音素の情報のうち特定した音素の情報からポーズ情報を抽出し、ポーズ情報からポーズ長の設定値ＰＡＵ_ijを抽出する（ステップＳ８０３）。ここで、学習データである言語特徴量において、ｉ番目の発話データＵ_iに含まれるｊ番目のポーズ長の設定値をＰＡＵ_ij、ポーズ長をＰ_ijとする。ステップＳ８０３にて抽出されたポーズ長の設定値ＰＡＵ_ijは、前述の例において１，２，３のうちのいずれかの値である。

言語特徴量生成部２０は、ステップＳ８０３にて抽出したポーズ長の設定値ＰＡＵ_ijに対し、部分設定値ＰＡＵ_ij＝１，２，３をそれぞれ設定する（ステップＳ８０４）。例えばポーズ長の設定値ＰＡＵ_ijが１として、部分設定値ＰＡＵ_ij＝１を設定した場合は、再設定であるが、部分設定値ＰＡＵ_ij＝２または３を設定した場合は、変更となる。

そして、言語特徴量生成部２０は、ポーズ長の設定値ＰＡＵ_ijを部分設定値ＰＡＵ_ij＝１，２，３に設定することで、元の発話データＵ_iに対して新たな発話データＵ_i１，Ｕ_i２，Ｕ_i３をそれぞれ生成する。

言語特徴量生成部２０は、ポーズ長の部分設定値ＰＡＵ_ij＝１，２，３について、以下のように、部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３をそれぞれ算出する（ステップＳ８０５）。

（部分設定値ＰＡＵ_ij＝１の場合）
言語特徴量生成部２０は、ポーズ長の部分設定値ＰＡＵ_ij＝１について、以下の式にて、０ｍｓ以上かつ５０ｍｓ未満のランダムな部分ポーズ長Ｐ_ij１を算出する。
［数１］
Ｐ_ij１＝ｉｎｔ（ｒｎｄ（）×５０）・・・（１）
ｒｎｄ（）は、０から１（１を含まない）までの乱数を出力する関数であり、ｉｎｔ（）は、整数を出力する関数とする。前記式（１）は、０の値に、０ｍｓ以上かつ５０ｍｓ未満のランダムな値を加算する演算式である。

これにより、言語特徴量における元のポーズ長の設定値ＰＡＵ_ijは、部分設定値ＰＡＵ_ij＝１に再設定または変更され、元のポーズ長Ｐ_ijは、０ｍｓ以上かつ５０ｍｓ未満のランダムな部分ポーズ長Ｐ_ij１に変更される。

（部分設定値ＰＡＵ_ij＝２の場合）
言語特徴量生成部２０は、ポーズ長の部分設定値ＰＡＵ_ij＝２について、以下の式にて、５０ｍｓ以上かつ２５０ｍｓ未満のランダムな部分ポーズ長Ｐ_ij２を算出する。
［数２］
Ｐ_ij２＝５０＋ｉｎｔ（ｒｎｄ（）×２００）・・・（２）
前記式（２）は、５０の値に、０ｍｓ以上かつ２００ｍｓ未満のランダムな値を加算する演算式である。

これにより、言語特徴量における元のポーズ長の設定値ＰＡＵ_ijは、部分設定値ＰＡＵ_ij＝２に再設定または変更され、元のポーズ長Ｐ_ijは、５０ｍｓ以上かつ２５０ｍｓ未満のランダムな部分ポーズ長Ｐ_ij２に変更される。

（部分設定値ＰＡＵ_ij＝３の場合）
言語特徴量生成部２０は、ポーズ長の部分設定値ＰＡＵ_ij＝３について、以下の式にて、２５０ｍｓ以上かつ５００ｍｓ未満のランダムな部分ポーズ長Ｐ_ij３を算出する。
［数３］
Ｐ_ij３＝２５０＋ｉｎｔ（ｒｎｄ（）×２５０）・・・（３）
前記式（３）は、２５０の値に、０ｍｓ以上かつ２５０ｍｓ未満のランダムな値を加算する演算式である。

これにより、言語特徴量における元のポーズ長の設定値ＰＡＵ_ijは、部分設定値ＰＡＵ_ij＝３に再設定または変更され、元のポーズ長Ｐ_ijは、２５０ｍｓ以上かつ５００ｍｓ未満のランダムな部分ポーズ長Ｐ_ij３に変更される。

元の発話データＵ_iに含まれる全てのポーズについて、ステップＳ８０２～Ｓ８０５の処理が行われる。

これにより、各ポーズについて、元のポーズ長の設定値ＰＡＵ_ijは、部分設定値ＰＡＵ_ij＝１，２，３に再設定または変更される。また、各ポーズについて、再設定または変更された部分設定値ＰＡＵ_ij＝１，２，３に対応する部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３が算出される。

つまり、入力した言語特徴量に含まれる全ての無音区間の音素について、ポーズ情報に含まれるポーズ長の設定値ＰＡＵ_ijに対し、部分設定値ＰＡＵ_ij＝１，２，３がそれぞれ設定され、部分設定値ＰＡＵ_ij＝１，２，３に対応する部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３がそれぞれ算出される。

言語特徴量生成部２０は、入力した言語特徴量に含まれる全ての無音区間の音素について、ポーズ長の変更対象となる音素（ポーズ長の設定値ＰＡＵ_ijの再設定または変更対象となる音素）を決定する。ポーズ長の変更対象となる音素は、全ての無音区間の音素のうち１以上であればよい。

言語特徴量生成部２０は、ポーズ長の変更対象となる音素及びこれ以外の音素（ポーズ長の変更に伴い影響を受ける音素）について、ポーズ長の部分設定値ＰＡＵ_ij＝１，２，３を反映したポーズ情報をそれぞれ生成する。また、言語特徴量生成部２０は、ポーズ長の変更対象となる音素及びこれ以外の音素について、ポーズ長の変更対象となる音素の部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３に基づいて、当該音素の開始時間（フレーム）及び終了時間（フレーム）をそれぞれ算出し、時間情報を生成する。

言語特徴量生成部２０は、元の言語特徴量について、ポーズ情報及び時間情報を変更し、ポーズ変更後の言語特徴量を生成する（ステップＳ８０６）。

音響特徴量生成部２１は、再設定または変更されたポーズ長の部分設定値ＰＡＵ_ij＝１，２，３に対応する部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３を反映した音響特徴量を、ポーズ変更後の音響特徴量として生成する（ステップＳ８０７）。これにより、ポーズ変更後の言語特徴量に対応するポーズ変更後の音響特徴量が生成される。

例えば、言語特徴量における無音区間の音素について、ポーズ長の設定値ＰＡＵ_ij（＝１）が部分設定値ＰＡＵ_ij＝２に変更された場合、当該音素に時間的に対応付けられた音響特徴量のフレームの長さが、部分設定値ＰＡＵ_ij＝２から算出された部分ポーズ長Ｐ_ij２となるように、無音区間のフレームが挿入され、ポーズ変更後の音響特徴量が生成される。音響特徴量生成部２１によるポーズ変更後の音響特徴量を生成する処理の詳細については後述する。

言語特徴量生成部２０は、ポーズ変更後の言語特徴量を学習部１５に出力し、音響特徴量生成部２１は、ポーズ変更後の音響特徴量を学習部１５に出力する（ステップＳ８０８）。

ここで、学習データである元の発話データＵ_iに含まれるポーズの数がＪ個とする。全てのポーズについて設定が行われる場合、１か所のポーズにつき３個の設定が行われる組み合わせにより、合計３^J個の新しい学習データが生成される。この場合、１個の元の学習データを利用して、３^J個の学習データが追加される。ただし、ある程度学習データの多様性を担保できる場合は、全てのポーズのうち１か所のポーズのみが変更され、１か所のポーズにつき３個の設定が行われるから、合計３×Ｊの新しい学習データが生成される。この場合、１個の元の学習データを利用して、３×Ｊ個の学習データが追加される。

また、全てのポーズについて変更が行われる場合（ポーズ長の設定値ＰＡＵ_ijに対し、設定値ＰＡＵ_ijとは異なる部分設定値ＰＡＵ_ij＝１，２，３が設定される場合、すなわち設定値ＰＡＵ_ijが異なる部分設定値ＰＡＵ_ij＝１，２，３に変更される場合）、１か所のポーズにつき２個の変更が行われる組み合わせにより、合計２^J個の新しい学習データが生成される。この場合、１個の元の学習データを利用して、２^J個の学習データが追加される。

図９は、図８のステップＳ８０７において、部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３を反映した音響特徴量の生成処理例を示すフローチャートである。音響特徴量生成部２１は、音声分析部１２から音声信号を入力すると共に、言語特徴量生成部２０から、言語特徴量のポーズ情報が変更された音素の部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３（部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３のうちのいずれかの値）及びフレーム番号情報を入力する（ステップＳ９０１）。この場合、言語特徴量生成部２０は、ポーズ情報が変更された無音区間の音素に対応するフレーム番号に関する情報を、プレーム番号情報として音響特徴量生成部２１に出力する。

音響特徴量生成部２１は、入力した音声信号に対し、フレーム番号情報に基づいて、ポーズ情報が変更された無音区間の音素に対応するフレームを特定する。そして、音響特徴量生成部２１は、特定したフレーム（無音区間のフレーム）の時間長が、入力した部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３（部分ポーズ長Ｐ_ij１，Ｐ_ij２，Ｐ_ij３のうちのいずれかの値）のポーズ長となるように、無音区間の挿入を繰り返し、またはフレームを削除する等して、新たな音声信号を生成する（ステップＳ９０２）。ポーズ長を変更する音声信号の生成手法は既知であり、ここではその詳細な説明を省略する。

音響特徴量生成部２１は、フレーム毎に新たな音声信号を切り出し、フレーム毎の音声信号について既知の音声分析処理を行う（ステップＳ９０３）。そして、音響特徴量生成部２１は、フレーム毎の所定情報からなる音響特徴量を、ポーズ変更後の音響特徴量として生成し、学習部１５に出力する（ステップＳ９０４）。

〔学習部１５〕
図１及び図２に戻って、学習部１５は、対応付け部１３から言語特徴量及び音響特徴量を入力すると共に、ポーズ変更部１４からポーズ変更後の言語特徴量及び音響特徴量を入力する。学習部１５は、対応付け部１３から入力した言語特徴量及び音響特徴量の組を１つの学習データとして扱うと共に、ポーズ変更部１４から入力したポーズ変更後の言語特徴量及び音響特徴量の組も１つの学習データとして扱う。そして、学習部１５は、学習データである言語特徴量及び音響特徴量を標準化し、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部１６に格納する（ステップＳ２０７）。

（時間長モデルの学習）
次に、学習部１５による時間長モデルの学習処理について説明する。図１０は、時間長モデルの学習処理例を説明する図である。学習部１５は、対応付け部１３またはポーズ変更部１４から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、テキストを表現する音素毎に、言語特徴を表す３１２次元のバイナリデータ及び１３次元の数値データ（整数値）を生成する。言語特徴量の次元数は３２５である。

ここで、言語特徴量における３１２次元のバイナリデータ及び１３次元の数値データは、言語特徴量に含まれる音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報に基づいて生成される。

学習部１５は、言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータを、時間長モデルの入力データとして扱う（ステップＳ１００１）。

学習部１５は、言語特徴量の３２５次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部１６に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する（ステップＳ１００２）。

また、学習部１５は、対応付け部１３またはポーズ変更部１４から入力した学習データである言語特徴量及び音響特徴量のうちの音響特徴量から、音素毎の時間長を抽出する。そして、学習部１５は、当該時間長の１次元のデータを、時間モデルの出力データとして扱う（ステップＳ１００３）。この時間長は、５ｍｓ単位のフレーム数であり、テキストを表現する音素毎に１次元の整数値からなる。

学習部１５は、時間長の１次元の全てのデータを用いて、平均値及び標準偏差を求めて記憶部１６に格納すると共に、全てのデータのそれぞれについて、平均値及び標準偏差を用いて標準化する（ステップＳ１００４）。

学習部１５は、ステップＳ１００２，Ｓ１００４から移行して、音素毎に、言語特徴量の３２５次元の標準化されたデータを入力データとし、時間長の１次元の標準化されたデータを出力データとして時間長モデルを学習する（ステップＳ１００５）。そして、学習部１５は、学習済みの時間長モデルを記憶部１６に格納する。

ステップＳ１００５における時間長モデルの学習の際には、以下のサイトに記載された技術が用いられる。
“CSTR-Edinburgh/merlin”，インターネット＜ＵＲＬ：https://github.com/CSTR-Edinburgh/merlin＞
後述する図１１のステップＳ１１０５における音響モデルの学習の場合も同様である。

時間長モデルは、例えば入力層を３２５次元、隠れ層を１０２４次元×６層、出力層を１次元とした順伝播型のディープニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を６４、エポック数を２５とし、学習係数の最適化方法として確率的勾配降下法を用い、開始学習率を０．００２とし、１０エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、１５エポックを過ぎてから、５エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。

図１０に示したステップＳ１００１～Ｓ１００５の処理は、対応付け部１３から入力した学習データである言語特徴量及び音響特徴量の組、及びポーズ変更部１４から入力した学習データであるポーズ変更後の言語特徴量及び音響特徴量の組毎に行われる。

これにより、記憶部１６には、統計モデルとして時間長モデルが格納される。また、記憶部１６には、統計モデルとして、時間長モデルの入力データである言語特徴量の３１２次元のバイナリデータ及び１３次元の数値データからなる３２５次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部１６には、統計モデルとして、時間長モデルの出力データである時間長の１次元のデータに関する平均値及び標準偏差が格納される。

（音響モデルの学習）
次に、学習部１５による音響モデルの学習処理について説明する。図１１は、音響モデルの学習処理例を説明する図である。学習部１５は、対応付け部１３またはポーズ変更部１４から入力した学習データである言語特徴量及び音響特徴量のうちの言語特徴量に基づいて、音素毎に、言語特徴を表す３１２次元のバイナリデータ、１３次元の数値データ（整数値）及び４次元の時間データを生成する。言語特徴量の次元数は３２９である。

学習部１５は、音素毎の言語特徴量における３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータから、５ｍｓのフレーム毎の言語特徴量における３２９次元のデータを生成する。

４次元の時間データは、当該フレームに対応する音素のフレーム数（１次元のデータ）、及び当該フレームの音素内における位置（３次元のデータ）からなる。

学習部１５は、フレーム毎の言語特徴量について、言語特徴量の３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータを、音響モデルの入力データとして扱う（ステップＳ１１０１）。

学習部１５は、言語特徴量の３２９次元の全てのデータを用いて、次元毎に、最大値及び最小値を求めて記憶部１６に格納すると共に、全てのデータのそれぞれについて、次元毎の最大値及び最小値を用いて標準化する（ステップＳ１１０２）。

また、学習部１５は、対応付け部１３またはポーズ変更部１４から入力した学習データである言語特徴量及び音響特徴量のうちの音響特徴量から、時間長を除く音響特徴量を抽出する。そして、学習部１５は、時間長を除くフレーム毎の音響特徴量について、１９９次元のデータを、音響モデルの出力データとして扱う（ステップＳ１１０３）。

ここで、前述のとおり、時間長を除く音響特徴量は、静特性のメルケプストラム係数ＭＧＣ、対数ピッチ周波数ＬＦ０及び帯域非周期成分ＢＡＰ、動特性の１次差分メルケプストラム係数ΔＭＧＣ、１次差分対数ピッチ周波数ΔＬＦ０、１次差分帯域非周期成分ΔＢＡＰ、２次差分メルケプストラム係数Δ²ＭＧＣ、２次差分対数ピッチ周波数Δ²ＬＦ０及び２次差分帯域非周期成分Δ²ＢＡＰ、並びに静特性の有声／無声判定情報ＶＵＶからなる。

学習部１５は、音響特徴量の１９９次元の全てのデータを用いて、次元毎に、平均値及び標準偏差を求めて記憶部１６に格納し、全てのデータのそれぞれについて、次元毎の平均値及び標準偏差を用いて標準化する（ステップＳ１１０４）。

学習部１５は、ステップＳ１１０２，Ｓ１１０４から移行して、フレーム毎に、言語特徴量の３２９次元の標準化されたデータを入力データとし、音響特徴量の１９９次元の標準化されたデータを出力データとして音響モデルを学習する（ステップＳ１１０５）。そして、学習部１５は、学習済みの音響モデルを記憶部１６に格納する。

音響モデルは、例えば入力層を３２９次元、隠れ層を１０２４次元×６層、出力層を１９９次元とした順伝播型のディープニューラルネットワークで構成される。隠れ層における活性化関数は双曲線正接関数が用いられ、損失誤差関数は平均二乗誤差関数が用いられる。また、ミニバッチ数を２５６、エポック数を２５とし、学習係数の最適化方法として確率的勾配降下法を用い、開始学習率を０．００２とし、１０エポックを過ぎてからエポック毎に学習率を指数減衰させ、誤差逆伝播法にて学習するものとする。尚、１５エポックを過ぎてから、５エポック連続して評価誤差が減少しない場合は学習を早期終了するものとする。

図１１に示したステップＳ１１０１～Ｓ１１０５の処理は、対応付け部１３から入力した学習データである言語特徴量及び音響特徴量の組、及びポーズ変更部１４から入力した学習データであるポーズ変更後の言語特徴量及び音響特徴量の組毎に行われる。

これにより、記憶部１６には、統計モデルとして音響モデルが格納される。また、記憶部１６には、統計モデルとして、音響モデルの入力データである言語特徴量の３１２次元のバイナリデータ、１３次元の数値データ及び４次元の時間データからなる３２９次元のデータに関する次元毎の最大値及び最小値が格納される。また、記憶部１６には、統計モデルとして、音響モデルの出力データである音響特徴量の１９９次元のデータに関する次元毎の平均値及び標準偏差が格納される。

以上のように、本発明の実施形態の学習装置１によれば、対応付け部１３は、言語分析部１１により生成された音素毎の言語特徴量と、音声分析部１２により生成されたフレーム毎の音響特徴量とを時間的に対応付ける。対応付け部１３は、時間的な対応付けにより音素のポーズ長を求め、所定の閾値に基づいて、ポーズ長を当該ポーズ長の設定値ＰＡＵに分類し、ポーズ長の設定値ＰＡＵを含むポーズ情報を生成し、ポーズ情報及び時間情報を含む言語特徴量を生成する。

ポーズ変更部１４は、時間的に対応付けられた言語特徴量に含まれるポーズ情報の示すポーズ長を変更し、変更後のポーズ長を反映したポーズ情報及び時間情報を生成し、ポーズ変更後の言語特徴量を生成する。また、ポーズ変更部１４は、変更後のポーズ長を反映した音声信号を生成し、フレーム毎の音声信号について音声分析処理を行い、ポーズ変更後の音響特徴量を生成する。

学習部１５は、対応付け部１３により時間的に対応付けられた言語特徴量及び音響特徴量の組を学習データとして扱うと共に、ポーズ変更部１４により生成されたポーズ変更後の言語特徴量及び音響特徴量の組も学習データとして扱う。学習部１５は、これの学習データを用いて、統計モデルである時間長モデル及び音響モデルを学習し、統計モデルを記憶部１６に格納する。

ここで、ポーズ変更部１４により生成されたポーズ変更後の言語特徴量及び音響特徴量は、対応付け部１３により時間的に対応付けられた言語特徴量及び音響特徴量を基準として、当該基準のポーズ長の設定値ＰＡＵが網羅する範囲（基準のポーズ長の取り得る範囲）の学習データである。

これにより、ポーズ長の設定値ＰＡＵが網羅する範囲内（ポーズ長の取り得る範囲内）で、十分な量の学習データを生成することができるから、安定的な品質の合成音声信号を得るための統計モデルを生成することができる。

〔音声合成装置〕
次に、図１に示した学習装置１により学習された統計モデルを用いる音声合成装置について説明する。音声合成装置は、図１３のステップＳ１３０５～Ｓ１３０７と同様の処理を行う。

具体的には、音声合成装置は、音声合成対象のテキストを入力し、テキストについて合成用言語分析処理を行い、音素毎の所定情報からなる言語特徴量を求める。合成用言語分析処理は、図２に示したステップＳ２０１の学習用言語分析処理により求められる情報に加え、ポーズ情報も求められる。ポーズ情報は、学習用言語分析処理で求められる情報及び構文構造等の情報を用いて設定された規則に基づき、ポーズ長の設定値ＰＡＵの範囲内の値を含む情報として求められる。

図１２は、音声合成時の言語分析処理（合成用言語分析処理）にて生成された言語特徴量のデータ構成例を説明する図である。図１２に示すように、合成用言語分析処理にて生成された言語特徴量は、図３に示した言語特徴量にポーズ情報を追加して構成される。具体的には、この言語特徴量は、音素毎に、音素情報、アクセント情報、品詞情報、アクセント句情報、呼気段落情報、総数情報及びポーズ情報から構成される。この例は、テキストが「晴れ、のち、曇り・・・」の場合の言語特徴量である。

音声合成装置は、合成用言語分析処理により求めた音素毎の言語特徴量に基づき、学習装置１により学習された統計モデルの最大値及び平均値等を用いて標準化及び逆標準化の処理を行う。そして、音声合成装置は、統計モデルの時間長モデル及び音響モデルを用いて、フレーム毎の音響特徴量を推定する。

このようにして推定された音響特徴量は、フレーム毎に不連続な値をとる。このため、音声合成装置は、連続するフレームの音響特徴量に対して最尤推定または移動平均を算出することで、滑らかな値を算出する。これにより、フレーム毎の音響特徴量は、連続した値となる。

音声合成装置は、推定した音響特徴量を用いてフレーム毎に音声信号を合成し、音声信号波形を求める。これにより、任意のテキストに対応する合成音声信号を得ることができる。

以上のように、音声合成装置は、本発明の実施形態の学習装置１により学習された統計モデルを用いて、任意のテキストに対応する合成音声信号を生成する。

ここで、学習装置１により学習された統計モデルは、ポーズ長の設定値ＰＡＵが網羅する範囲内（ポーズ長の取り得る範囲内）で、十分な量の学習データを用いて得られたモデルである。

これにより、学習装置１により学習された統計モデルを用いることで、安定的な品質の合成音声信号を得ることができる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば学習装置１の対応付け部１３及びポーズ変更部１４は、言語特徴量に含まれるポーズ情報について、ポーズ長の設定値ＰＡＵを３段階の値として扱うようにしたが、２段階の値として扱うようにしてもよいし、４段階以上の値として扱うようにしてもよい。

尚、本発明の実施形態による学習装置１のハードウェア構成としては、通常のコンピュータを使用することができる。学習装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

学習装置１に備えた言語分析部１１、音声分析部１２、対応付け部１３、ポーズ変更部１４及び学習部１５の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１学習装置
１０，１６記憶部
１１言語分析部
１２音声分析部
１３対応付け部
１４ポーズ変更部
１５学習部
２０言語特徴量生成部
２１音響特徴量生成部

Claims

音声コーパスのテキスト及び音声信号に基づいて、音声合成に用いる統計モデルを学習する学習装置において、
前記テキストを言語分析し、言語特徴量を求める言語分析部と、
前記テキストに対応する前記音声信号を音声分析し、音響特徴量を求める音声分析部と、
前記言語分析部により求めた前記言語特徴量及び前記音声分析部により求めた前記音響特徴量を時間的に対応付ける対応付け部と、
前記対応付け部により対応付けられた前記言語特徴量に含まれるポーズ長に関する情報を変更し、前記言語特徴量に対して、変更後の前記ポーズ長に関する情報を反映したポーズ変更後言語特徴量を生成すると共に、前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ長に関する情報を反映したポーズ変更後音響特徴量を生成するポーズ変更部と、
前記対応付け部により対応付けられた前記言語特徴量及び前記音響特徴量、並びに、前記ポーズ変更部により生成された前記ポーズ変更後言語特徴量及び前記ポーズ変更後音響特徴量を用いて、前記統計モデルを学習する学習部と、を備えたことを特徴とする学習装置。
請求項１に記載の学習装置において、
前記対応付け部は、
音素毎の特徴量からなる前記言語特徴量と、フレーム毎の特徴量からなる前記音響特徴量とを時間的に対応付けることで、前記言語特徴量に対して音素毎に、当該音素と前記フレームとを対応付けた時間情報を追加すると共に、前記ポーズ長に関する情報をポーズ情報として追加し、
前記ポーズ変更部は、
前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を変更すると共に、当該ポーズ情報の変更に伴い、前記言語特徴量に含まれる前記時間情報を変更し、変更後の前記ポーズ情報及び変更後の前記時間情報を反映した前記ポーズ変更後言語特徴量を生成する言語特徴量生成部と、
前記対応付け部により対応付けられた前記音響特徴量に対し、変更後の前記ポーズ情報を反映したポーズ変更後音響特徴量を生成する音響特徴量生成部と、を備えたことを特徴とする学習装置。
請求項２に記載の学習装置において、
前記音響特徴量生成部は、
前記音声分析部により前記音響特徴量を求める際に用いた前記音声信号に基づいて、変更後の前記ポーズ情報を反映した新たな音声信号を生成し、当該新たな音声信号を音声分析し、前記ポーズ変更後音響特徴量を生成する、ことを特徴とする学習装置。
請求項２または３に記載の学習装置において、
前記言語特徴量生成部は、
予め設定された固定時間長にランダムな値を加算し、加算結果を新たなポーズ長とし、前記対応付け部により対応付けられた前記言語特徴量に含まれる前記ポーズ情報を、前記新たなポーズ長を反映した新たなポーズ情報に変更する、ことを特徴とする学習装置。
請求項１から４までのいずれか一項に記載の学習装置において、
前記統計モデルを、ディープニューラルネットワークとする、ことを特徴とする学習装置。
コンピュータを、請求項１から５までのいずれか一項に記載の学習装置として機能させるためのプログラム。