JP2019032427A

JP2019032427A - 音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラム

Info

Publication number: JP2019032427A
Application number: JP2017153135A
Authority: JP
Inventors: 伸克北条; Nobukatsu Hojo; 勇祐井島; Yusuke Ijima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2019-02-28
Anticipated expiration: 2037-08-08
Also published as: JP6626052B2

Abstract

【課題】少量の学習データしか得られないドメインについても高品質な音声合成を実現する音響モデルを生成する音響モデル生成方法を提供する。【解決手段】複数ドメインコンテキストＤＢ内の総フレーム数が最大でないドメインのコンテキストデータにコンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し複数ドメイン均質化コンテキストＤＢの各コンテキストデータについて疑似音声データを生成して複数ドメイン均質化擬似音声ＤＢを生成する第１のステップと、複数ドメイン音声ＤＢと複数ドメイン均質化擬似音声ＤＢを統合して複数ドメイン均質音声ＤＢを生成し複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する第２のステップと、学習データとして複数ドメイン均質音声ＤＢと複数ドメイン均質コンテキストＤＢを使用して音響モデルを学習する第３のステップを含む。【選択図】図３

Description

本技術は、ＤＮＮに基づく音声合成技術に関し、音響モデル生成方法、音声合成方法、音響モデル生成装置、音声合成装置、プログラムに関する。

音声データから音声合成用モデルを学習し、合成音声を生成する手法として、ＤＮＮに基づく技術がある（非特許文献１）。また、複数ドメインの学習データを効率よく活用し、各ドメインについて品質の高い音声を合成するための手法として、ＤＮＮの複数ドメインモデリング技術がある。ドメインには、例えば話者（非特許文献２、非特許文献３）、対話行為情報（非特許文献４）がある。複数ドメインモデリング技術として、話者コード（非特許文献２）、shared hidden layer (SHU)（非特許文献３）等のモデル構成を活用する手法がある。この手法の概要を図１、図２に示す。

図１に示すように、音響モデル生成装置９１の音響モデル学習部９１３は、複数ドメイン音声ＤＢ記憶部９１１に予め記憶された複数ドメイン音声ＤＢ、複数ドメインコンテキストＤＢ記憶部９１２に予め記憶された複数ドメインコンテキストＤＢを利用し、音響モデル学習を行い、複数ドメイン音響モデルを得て、複数ドメイン音響モデル記憶部９１４に記憶する（Ｓ９１３）。

図２に示すように、音声合成装置９２のテキスト解析部９２１は、入力テキストをテキスト解析してコンテキストを得る（Ｓ９２１）。音声合成装置９２の音声パラメータ生成部９２２は、複数ドメイン音響モデル記憶部９１４に記憶された複数ドメイン音響モデルにコンテキストと合成するドメイン番号を入力し、音声パラメータを生成する（Ｓ９２２）。音声合成装置９２の音声波形生成部９２３は、得られた音声パラメータから、音声波形生成により、合成音声を得る（Ｓ９２３）。

Zen et al., "Statistical parametric speech synthesis using deep neural networks," Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013 pp. 7962-7966. N. Hojo, Y. Ijima, and H. Mizuno, "An investigation of DNN-based speech synthesis using speaker codes," Interspeech 2016, pp.2278-2282, 2016. Y. Fan, Y. Qian, F.K. Soong, and L. He, "Multi-speaker modeling and speaker adaptation for DNN-based tts synthesis," 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.4475-4479, IEEE, 2015. 北条伸克他, "対話行為情報を表現可能な音声合成の検討", 人工知能学会2016年全国大会, 2016. Nose, Takashi, and Akinori Ito. "Analysis of spectral enhancement using global variance in HMM-based speech synthesis." INTERSPEECH. 2014. Tomoki, Toda, and Keiichi Tokuda. "A speech parameter generation algorithm considering global variance for HMM-based speech synthesis." IEICE TRANSACTIONS on Information and Systems 90.5 (2007): 816-824. Takamichi, Shinnosuke, et al. "A postfilter to modify the modulation spectrum in HMM-based speech synthesis." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.

複数ドメイン音声ＤＢの整備には音声収録等のコスト、複数ドメインコンテキストＤＢの整備には音素、アクセント型等のアノテーションのコストが必要である。例えばこれらのコストが要因となり、複数ドメインＤＢのデータ量はドメインにより偏りが生じることがある。ここで、複数ドメインＤＮＮの学習時の目的関数のうち、各ドメインに関する項の占める割合は、各ドメインのデータ量に比例する。したがって、データ量の偏り（不均質）を考慮せずにモデル学習を行った場合、少量データしか得られないドメインのモデル化精度（入力されたコンテキストに対し推定される音声パラメータと正解音声パラメータとの平均二乗誤差など）は、他ドメインに比べ目的関数に対する影響が小さくなる。このため、少量データしか得られないドメインは、正確にモデル化されず、音声品質が劣化する可能性がある。

そこで本発明では、少量の学習データしか得られないドメインについても、高品質な音声合成を実現する音響モデルを生成する音響モデル生成方法を提供することを目的とする。

音声データを、ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものとし、コンテキストデータを、ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものとし、ドメインを、音声に含まれるコンテキスト以外の情報を、カテゴリにより表現したものとし、複数ドメイン音声ＤＢを、複数のドメインの音声について、その音声データを保持したものとし、複数ドメインコンテキストＤＢを、複数のドメインの音声について、その発話のコンテキストデータを保持したものとする。

本発明の音響モデル生成方法は、三つのステップを含む。

第１のステップは、複数ドメインコンテキストＤＢ内の総フレーム数が最大でないドメインのコンテキストデータにコンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、複数ドメイン均質化コンテキストＤＢの各コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する。

第２のステップは、複数ドメイン音声ＤＢと複数ドメイン均質化擬似音声ＤＢを統合して複数ドメイン均質音声ＤＢを生成し、複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する。

第３のステップは、学習データとして、複数ドメイン均質音声ＤＢと複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習する。

本発明の音響モデル生成方法によれば、少量の学習データしか得られないドメインについても、高品質な音声合成を実現する音響モデルを生成することができる。

従来技術の音響モデル生成装置の構成を示すブロック図。従来技術の音声合成装置の構成を示すブロック図。実施例１の音響モデル生成装置の構成を示すブロック図。実施例１の音響モデル生成装置の動作を示すフローチャート。実施例１の複数ドメイン均質化ＤＢ生成部の構成を示すブロック図。実施例１の複数ドメイン均質化ＤＢ生成部の動作を示すフローチャート。実施例１の複数ドメイン均質ＤＢ生成部の構成を示すブロック図。実施例１の複数ドメイン均質ＤＢ生成部の動作を示すフローチャート。実施例１の音声合成装置の構成を示すブロック図。実施例１の音声合成装置の動作を示すフローチャート。実施例２の音響モデル生成装置の構成を示すブロック図。実施例２の音響モデル生成装置の動作を示すフローチャート。実施例２の複数ドメイン均質化ポストフィルタ疑似音声ＤＢ生成部の構成を示すブロック図。実施例２の複数ドメイン均質ＤＢ生成部の構成を示すブロック図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

≪用語の説明≫
＜音声パラメータ＞
ある音声信号に対して信号処理を行った結果得られる、各発話のＦ０情報（音高）、スペクトル包絡情報（ケプストラム、メルケプストラム等）等を表す。

＜コンテキスト＞
ある発話について付与された発音等の情報を表す。コンテキストには、音素情報（発音情報）とアクセント情報（アクセント型、アクセント句長）が含まれている必要がある。コンテキストとして、これ以外にも品詞情報等が含まれていてもよい。また、各音素の開始時間、終了時間の情報（音素セグメンテーション情報）が保存されていてもよい。

＜音声データ＞
ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものを表す。

＜コンテキストデータ＞
ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものを表す。

＜ドメイン＞
音声に含まれるコンテキスト以外の情報を、カテゴリにより表現したものを表す。例えば、話者（‘話者１’，…，‘話者Ｎ’）、感情（‘喜’，‘怒’，‘哀’，‘楽’，…）、対話行為（‘感嘆’，‘謝罪’，…）、等。

＜ドメイン番号＞
音声合成に使用するドメインについて、各ドメインに対し番号を振ったものを表す。ドメイン数をＮとし、ｎ＝１，…，Ｎで表す。例えば、ｎ＝１：‘話者１’，…，ｎ＝Ｎ：‘話者Ｎ’を表す。

＜複数ドメインコンテキストＤＢ＞
複数のドメインの音声について、その発話のコンテキストデータを保持したものを表す。ドメインｎに含まれる発話数をＫ_ｎ（ｎ＝１，…，Ｎ）としたとき、

で表す。ここで、データ整備のコスト等の制約から、各ドメインｎに対応する学習データ量（総フレーム数）は一般に一致するとは限らない（ｎ≠ｎ’のとき、Ｋ_ｎ≠Ｋ_ｎ’）。

＜複数ドメイン音声ＤＢ＞
複数のドメインの音声について、その音声データを保持したものを表す。ドメインｎに含まれる発話数をＫ_ｎ（ｎ＝１，…，Ｎ）としたとき、

で表す。複数ドメインコンテキストＤＢと同様、各ドメインｎに対応する学習データ量（総フレーム数）は一致するとは限らない。

＜複数ドメイン音響モデル＞
音声合成用のＤＮＮ音響モデルで、１つのモデルで複数のドメインの音声パラメータを合成可能であるようにモデル化・学習されたものを表す。例えば、話者コードを用いた複数話者音響モデル（非特許文献２）、shared hidden layer (SHU) による複数話者音響モデル（非特許文献３）、複数対話行為音響モデル（非特許文献４）を使用する。

＜複数ドメイン均質化コンテキストＤＢ＞
データベースに含まれる各ドメインに対応する学習データ量（総フレーム数）を均質にするために使用するコンテキストデータベース。擬似データ生成のため、ＤＮＮの入力ベクトルとして活用する。ドメインｎに含まれる発話数をＫ’_ｎ（ｎ＝１，…，Ｎ）としたとき、

で表す。

＜複数ドメイン均質化擬似音声ＤＢ＞
データベースに含まれる各ドメインに対応する学習データ量（総フレーム数）を均質にするために使用する音声データベース。複数ドメイン均質化コンテキストＤＢから擬似音声データを生成することにより作成する。ドメインｎに含まれる発話数をＫ’_ｎ（ｎ＝１，…，Ｎ）としたとき、

で表す。複数ドメイン均質化コンテキストＤＢと複数ドメイン均質化擬似音声ＤＢのフレームは一対一に対応する。このため、二つのＤＢの各ドメインの総フレーム数は一致する。

＜複数ドメイン均質コンテキストＤＢ＞
複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合することにより得られるコンテキストデータベース。音響モデル学習に使用する。

＜複数ドメイン均質音声ＤＢ＞
複数ドメイン音声ＤＢと複数ドメイン均質化疑似音声ＤＢを統合することにより得られる音声データベース。音響モデル学習に使用する。

＜複数ドメイン均質音響モデル＞
複数ドメイン均質コンテキストＤＢと複数ドメイン均質音声ＤＢを利用し、音響モデル学習により得られる音響モデル。

≪用語の説明終わり≫
以下、図３を参照して実施例１の音響モデル生成装置１１の構成を説明する。同図に示すように本実施例の音響モデル生成装置１１は、複数ドメイン均質化ＤＢ生成部１１１と、複数ドメイン均質ＤＢ生成部１１２と、音響モデル学習部９１３と、複数ドメイン均質音響モデル記憶部１１４を含む。

以下、図４を参照して本実施例の音響モデル生成装置１１の動作を説明する。

〔複数ドメイン均質化ＤＢ生成部１１１〕
複数ドメイン均質化ＤＢ生成部１１１は、複数ドメインコンテキストＤＢ内の総フレーム数が最大でないドメインのコンテキストデータにコンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、複数ドメイン均質化コンテキストＤＢの各コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する（Ｓ１１１）。

〔複数ドメイン均質ＤＢ生成部１１２〕
複数ドメイン均質ＤＢ生成部１１２は、複数ドメイン音声ＤＢと複数ドメイン均質化擬似音声ＤＢを統合して複数ドメイン均質音声ＤＢを生成し、複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する（Ｓ１１２）。

〔音響モデル学習部９１３〕
音響モデル学習部９１３は、従来技術と同様に音響モデル学習を行う。ただし、音響モデル学習部９１３は、学習データとして、複数ドメイン音声ＤＢの代わりに複数ドメイン均質音声ＤＢを、複数ドメインコンテキストＤＢの代わりに複数ドメイン均質コンテキストＤＢを使用する。すなわち、音響モデル学習部９１３は、学習データとして、複数ドメイン均質音声ＤＢと複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習し、複数ドメイン均質音響モデル記憶部１１４に記憶する（Ｓ９１３）。音響モデル学習部９１３が学習する音響モデルを複数ドメイン均質音響モデルと呼ぶ。

以下、図５、図６、図７、図８を参照して、複数ドメイン均質化ＤＢ生成部１１１および複数ドメイン均質ＤＢ生成部１１２の構成および動作をさらに詳細に説明する。

［複数ドメイン均質化ＤＢ生成部１１１］
図５に示すように複数ドメイン均質化ＤＢ生成部１１１は、コンテキスト追加部１１１１と、複数ドメイン均質化コンテキストＤＢ記憶部１１１２と、音声パラメータ生成部９２２と、複数ドメイン均質化擬似音声ＤＢ記憶部１１１３を含む。コンテキスト追加部１１１１は、例えば次の（ａ）（ｂ）のサブステップを含むステップＳ１１１１を実行して、複数ドメイン均質化コンテキストＤＢを生成する。

（ａ）コンテキスト追加部１１１１は、各ドメインｎについて、複数ドメインコンテキストＤＢに含まれる総フレーム数が最大となるドメインｎ^＊およびその最大フレーム数Ｆ_ｎ＊を算出する。

ここで、ドメインｎのｋ番目（ｋ＝１，…，Ｋ_ｎ）の発話のフレーム数をｆ_ｋ ^（ｎ）とした。

（ｂ）コンテキスト追加部１１１１は、ｎ^＊以外の各ドメインｎについて、ドメインの総フレーム数がＦ^’ _ｎ＝Ｆ_ｎ＊となるまで、各ドメインのコンテキストデータにコンテキストを追加して、複数ドメイン均質化コンテキストＤＢを生成する。コンテキスト追加部１１１１は、Ｆ^’ _ｎを

の範囲の適当な値に設定することで、擬似データ生成に使用するデータ量を削減し、音声パラメータ生成、音響モデル学習に必要となる計算機メモリ量、計算時間のコストを削減すれば好適である。この時、例えば追加するコンテキストは、ドメインｎ以外のコンテキストとする。コンテキスト追加部１１１１は、生成した複数ドメイン均質化コンテキストＤＢを複数ドメイン均質化コンテキストＤＢ記憶部１１１２に記憶、保持する。

音声パラメータ生成部９２２は、複数ドメイン均質化コンテキストＤＢの各コンテキストについて、対応するドメイン番号と複数ドメイン音響モデルを使用し、音声パラメータを生成する処理を繰り返し、各コンテキストデータに対応する疑似音声データを生成し、複数ドメイン均質化擬似音声ＤＢとする（Ｓ９２２）。この時、例えば複数ドメイン音響モデルとして、従来技術により学習される複数ドメイン音響モデルを使用する。音声パラメータ生成部９２２は、生成された複数ドメイン均質化擬似音声ＤＢを、複数ドメイン均質化擬似音声ＤＢ記憶部１１１３に記憶、保持する。

［複数ドメイン均質ＤＢ生成部１１２］
図７に示すように、複数ドメイン均質ＤＢ生成部１１２は、音声ＤＢ統合部１１２１と、複数ドメイン均質音声ＤＢ記憶部１１２２と、コンテキストＤＢ統合部１１２３と、複数ドメイン均質コンテキストＤＢ記憶部１１２４を含む構成である。

音声ＤＢ統合部１１２１は、複数ドメイン音声ＤＢと複数ドメイン均質化擬似音声ＤＢを統合し、複数ドメイン均質音声ＤＢとして、複数ドメイン均質音声ＤＢ記憶部１１２２に記憶、保持する（Ｓ１１２１）。

コンテキストＤＢ統合部１１２３は、複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合し、複数ドメイン均質コンテキストＤＢとして、複数ドメイン均質コンテキストＤＢ記憶部１１２４に記憶、保持する（Ｓ１１２３）。

［音声合成装置１２］
図９に示すように、本実施例の音声合成装置１２は、従来技術と同様のテキスト解析部９２１と、音声パラメータ生成部９２２と、音声波形生成部９２３と、従来技術とは異なる複数ドメイン均質音響モデル記憶部１１４を含む。図１０に示すように、本実施例の音声合成装置１２は、従来技術と同様にステップ９２１、Ｓ９２２、Ｓ９２３を実行して合成音声を得る。ただし音響モデルとして、従来の複数ドメイン音響モデルの代わりに、複数ドメイン均質音響モデルを使用する点が従来技術とは異なる。

このように、本実施例の音響モデル生成装置１１は、不均質な複数ドメインＤＢを利用して学習された音響モデルを利用し、疑似音声データを生成し、擬似音声データを複数ドメイン音声ＤＢに追加し、複数ドメインコンテキストＤＢに対しても同様の追加を行うことで、学習データ中に含まれる各ドメインのデータ量を均質にすることができる。これにより、各ドメインについて均質なデータ量の学習データから音響モデル学習を行うことができ、少量データしか得られないドメインについても、高品質な合成音声を得ることができる。

音響モデルにより生成される音声パラメータは、実際の人間による発話（自然発話）の音声パラメータに比べ、過剰に平滑化する傾向が知られている。実施例１では、過剰に平滑化した音声パラメータを学習データに追加するため、学習された音響モデルから生成される音声パラメータは、さらに平滑化する可能性がある。そこで本実施例では、擬似的に生成された音声パラメータに対し、過剰平滑化した音声パラメータを自然発話のものに近づけるためのポストフィルタ処理を行う。これにより、学習される音響モデルから生成される音声パラメータが平滑化することを回避することができる。

≪用語の説明≫
＜複数ドメイン均質化ポストフィルタ擬似音声ＤＢ＞
複数ドメイン均質化擬似音声ＤＢに含まれる各音声データについて、ポストフィルタ処理により、その音声パラメータの傾向を自然発話に近づける処理を行ったものを表す。

＜複数ドメイン均質ポストフィルタ音声ＤＢ＞
複数ドメイン均質化ポストフィルタ擬似音声ＤＢと複数ドメイン音声ＤＢを統合して得られる音声データベース。

＜複数ドメイン均質ポストフィルタ音響モデル＞
複数ドメイン均質ポストフィルタ音声ＤＢと複数ドメイン均質コンテキストＤＢから音響モデル学習を行うことで得られる音響モデル。

≪用語の説明終わり≫
図１１に示すように、本実施例の音響モデル生成装置２１は、実施例１と同様の複数ドメイン均質化ＤＢ生成部１１１と、実施例１とは異なる複数ドメイン均質化ポストフィルタ疑似音声ＤＢ生成部２１１と、実施例１とは異なる複数ドメイン均質ＤＢ生成部２１２と、実施例１および従来技術と同様の音響モデル学習部９１３と、実施例１とは異なる複数ドメイン均質ポストフィルタ音響モデル記憶部２１４を含む。

以下、図１２を参照して本実施例の音響モデル生成装置２１の動作を説明する。

〔複数ドメイン均質化ＤＢ生成部１１１〕
実施例１と同様にステップＳ１１１を実行する。

〔複数ドメイン均質化ポストフィルタ疑似音声ＤＢ生成部２１１〕
複数ドメイン均質化ポストフィルタ疑似音声ＤＢ生成部２１１は、ポストフィルタ処理により、複数ドメイン均質化擬似音声ＤＢから複数ドメイン均質化ポストフィルタ擬似音声ＤＢを取得する（Ｓ２１１）。

〔複数ドメイン均質ＤＢ生成部２１２〕
複数ドメイン均質化擬似音声ＤＢの代わりに、複数ドメイン均質化ポストフィルタ擬似音声ＤＢを使用する点を除いて、実施例１と同様である。ただし、得られる音声ＤＢを、実施例１と区別して、複数ドメイン均質ポストフィルタ音声ＤＢと呼ぶ。すなわち、複数ドメイン均質ＤＢ生成部２１２は、複数ドメイン音声ＤＢと複数ドメイン均質化ポストフィルタ擬似音声ＤＢを統合して複数ドメイン均質ポストフィルタ音声ＤＢを生成し、実施例１と同様に、複数ドメインコンテキストＤＢと複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する（Ｓ２１２）。

〔音響モデル学習部９１３〕
音響モデル学習部９１３は、実施例１と同様にステップＳ９１３を実行する。ただし、音響モデル学習部９１３は、学習データとして、複数ドメイン均質音声ＤＢの代わりに、複数ドメイン均質ポストフィルタ音声ＤＢを使用する。すなわち、音響モデル学習部９１３は、学習データとして、複数ドメイン均質ポストフィルタ音声ＤＢと複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習し、複数ドメイン均質ポストフィルタ音響モデル記憶部２１４に記憶する（Ｓ９１３）。音響モデル学習部９１３が学習する音響モデルを実施例１と区別して、複数ドメイン均質ポストフィルタ音響モデルと呼ぶ。

［音声合成装置（図示略）］
複数ドメイン均質音響モデルの代わりに、複数ドメイン均質ポストフィルタ音響モデルを使用する点を除き、実施例１と同様である。

以下、図１３、図１４を参照して、複数ドメイン均質化ポストフィルタ擬似音声ＤＢ生成部２１１および複数ドメイン均質ＤＢ生成部２１２の構成をさらに詳細に説明する。

［複数ドメイン均質化ポストフィルタ擬似音声ＤＢ生成部２１１］
図１３に示すように、複数ドメイン均質化ポストフィルタ擬似音声ＤＢ生成部２１１は、ポストフィルタ２１１１と、複数ドメイン均質化ポストフィルタ擬似音声ＤＢ記憶部２１１３を含む。ポストフィルタ２１１１は前述のポストフィルタ処理を実行する。ポストフィルタ処理としては、例えばケプストラム特徴量に対する分散保障処理（非特許文献５）、Global Variance 保障処理（非特許文献６）、変調スペクトル保障処理（非特許文献７）等でよい。ポストフィルタ２１１１は、取得した複数ドメイン均質化ポストフィルタ擬似音声ＤＢを複数ドメイン均質化ポストフィルタ擬似音声ＤＢ記憶部２１１３に記憶する。

［複数ドメイン均質ＤＢ生成部２１２］
図１４に示すように、複数ドメイン均質ＤＢ生成部２１２は、実施例１と同様の音声ＤＢ統合部１１２１と、実施例１と異なる複数ドメイン均質ポストフィルタ音声ＤＢ記憶部２１２２と、実施例１と同様のコンテキストＤＢ統合部１１２３と、実施例１と同様の複数ドメイン均質コンテキストＤＢ記憶部１１２４を含む。音声ＤＢ統合部１１２１は、統合により得られた複数ドメイン均質ポストフィルタ音声ＤＢを複数ドメイン均質ポストフィルタ音声ＤＢ記憶部２１２２に記憶する。

上述したように、音響モデルにより生成される音声パラメータは、実際の人間による発話（自然発話）の音声パラメータに比べ、時間方向に過剰に平滑化する傾向が知られている。実施例１では、過剰に平滑化した音声パラメータを学習データに追加するため、音響モデルの学習に影響を及ぼす可能性がある。

本実施例の音響モデル生成装置２１は、擬似的に生成された音声パラメータに対し、過剰平滑化した音声パラメータを自然発話のものに近づけるためのポストフィルタ処理を行う。これにより、過剰平滑化が音響モデルの学習に与える影響を回避することができ、音声品質を向上させることができる。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボード等が接続可能な入力部、液晶ディスプレイ等が接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタ等を備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭ等の記録媒体を読み書きできる装置（ドライブ）等を設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータ等がある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータ等が記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータ等は、ＲＡＭや外部記憶装置等に適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭ等）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段等と表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

なお、明細書、特許請求の範囲に記載された各ステップは各種の情報を生成する方法の各ステップに該当する。ここでいう各種の情報は特許法第二条第四項に規定するプログラム等（プログラム…その他電子計算機による処理の用に供する情報であってプログラムに準ずるもの）に該当するため、ここでいう各種の情報は、特許法第二条第三項第一号に規定する物に該当する。従って、明細書、特許請求の範囲に記載された各種の情報を生成する方法はすなわち、特許法第二条第三項第三号に規定する物を生産する方法に該当することはいうまでもない。

Claims

音声データを、ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものとし、
コンテキストデータを、ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものとし、
ドメインを、音声に含まれる前記コンテキスト以外の情報を、カテゴリにより表現したものとし、
複数ドメイン音声ＤＢを、複数の前記ドメインの音声について、その前記音声データを保持したものとし、
複数ドメインコンテキストＤＢを、複数の前記ドメインの音声について、その発話の前記コンテキストデータを保持したものとし、
前記複数ドメインコンテキストＤＢ内の総フレーム数が最大でない前記ドメインの前記コンテキストデータに前記コンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、前記複数ドメイン均質化コンテキストＤＢの各前記コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する第１のステップと、
前記複数ドメイン音声ＤＢと前記複数ドメイン均質化擬似音声ＤＢを統合して複数ドメイン均質音声ＤＢを生成し、前記複数ドメインコンテキストＤＢと前記複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する第２のステップと、
学習データとして、前記複数ドメイン均質音声ＤＢと前記複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習する第３のステップと、
を含む音響モデル生成方法。
音声データを、ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものとし、
コンテキストデータを、ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものとし、
ドメインを、音声に含まれる前記コンテキスト以外の情報を、カテゴリにより表現したものとし、
複数ドメイン音声ＤＢを、複数の前記ドメインの音声について、その前記音声データを保持したものとし、
複数ドメインコンテキストＤＢを、複数の前記ドメインの音声について、その発話の前記コンテキストデータを保持したものとし、
前記複数ドメインコンテキストＤＢ内の総フレーム数が最大でない前記ドメインの前記コンテキストデータに前記コンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、前記複数ドメイン均質化コンテキストＤＢの各前記コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する第１のステップと、
ポストフィルタ処理により、前記複数ドメイン均質化擬似音声ＤＢから複数ドメイン均質化ポストフィルタ擬似音声ＤＢを取得する第２のステップと、
前記複数ドメイン音声ＤＢと前記複数ドメイン均質化ポストフィルタ擬似音声ＤＢを統合して複数ドメイン均質ポストフィルタ音声ＤＢを生成し、前記複数ドメインコンテキストＤＢと前記複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する第３のステップと、
学習データとして、前記複数ドメイン均質ポストフィルタ音声ＤＢと前記複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習する第４のステップと、
を含む音響モデル生成方法。
請求項１または２に記載の音響モデル生成方法であって、
前記第１のステップにおいて、
前記複数ドメインコンテキストＤＢ内の総フレーム数が最大でない前記ドメインの総フレーム数が、前記複数ドメインコンテキストＤＢ内の総フレーム数が最大となる前記ドメインの総フレーム数と等しくなるように、前記コンテキストを追加する
音響モデル生成方法。
請求項１から３の何れかに記載の音響モデル生成方法により生成された音響モデルを利用して合成音声を取得する音声合成方法。
音声データを、ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものとし、
コンテキストデータを、ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものとし、
ドメインを、音声に含まれる前記コンテキスト以外の情報を、カテゴリにより表現したものとし、
複数ドメイン音声ＤＢを、複数の前記ドメインの音声について、その前記音声データを保持したものとし、
複数ドメインコンテキストＤＢを、複数の前記ドメインの音声について、その発話の前記コンテキストデータを保持したものとし、
前記複数ドメインコンテキストＤＢ内の総フレーム数が最大でない前記ドメインの前記コンテキストデータに前記コンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、前記複数ドメイン均質化コンテキストＤＢの各前記コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する複数ドメイン均質化ＤＢ生成部と、
前記複数ドメイン音声ＤＢと前記複数ドメイン均質化擬似音声ＤＢを統合して複数ドメイン均質音声ＤＢを生成し、前記複数ドメインコンテキストＤＢと前記複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する複数ドメイン均質ＤＢ生成部と、
学習データとして、前記複数ドメイン均質音声ＤＢと前記複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習する音響モデル学習部と、
を含む音響モデル生成装置。
音声データを、ＤＮＮ学習用のデータベースに含まれる音声について、その音声パラメータを分析し、保持したものとし、
コンテキストデータを、ＤＮＮ学習用のデータベースに含まれる音声について、その発話のコンテキストを分析し、保持したものとし、
ドメインを、音声に含まれる前記コンテキスト以外の情報を、カテゴリにより表現したものとし、
複数ドメイン音声ＤＢを、複数の前記ドメインの音声について、その前記音声データを保持したものとし、
複数ドメインコンテキストＤＢを、複数の前記ドメインの音声について、その発話の前記コンテキストデータを保持したものとし、
前記複数ドメインコンテキストＤＢ内の総フレーム数が最大でない前記ドメインの前記コンテキストデータに前記コンテキストを追加して複数ドメイン均質化コンテキストＤＢを生成し、前記複数ドメイン均質化コンテキストＤＢの各前記コンテキストデータについて疑似音声データを生成して、複数ドメイン均質化擬似音声ＤＢを生成する複数ドメイン均質化ＤＢ生成部と、
ポストフィルタ処理により、前記複数ドメイン均質化擬似音声ＤＢから複数ドメイン均質化ポストフィルタ擬似音声ＤＢを取得する複数ドメイン均質化ポストフィルタ疑似音声ＤＢ生成部と、
前記複数ドメイン音声ＤＢと前記複数ドメイン均質化ポストフィルタ擬似音声ＤＢを統合して複数ドメイン均質ポストフィルタ音声ＤＢを生成し、前記複数ドメインコンテキストＤＢと前記複数ドメイン均質化コンテキストＤＢを統合して複数ドメイン均質コンテキストＤＢを生成する複数ドメイン均質ＤＢ生成部と、
学習データとして、前記複数ドメイン均質ポストフィルタ音声ＤＢと前記複数ドメイン均質コンテキストＤＢを使用して、音響モデルを学習する音響モデル学習部と、
を含む音響モデル生成装置。
請求項５または６に記載の音響モデル生成装置により生成された音響モデルを利用して合成音声を取得する音声合成装置。
コンピュータに請求項１から３の何れかに記載の音響モデル生成方法を実行させるプログラム。
コンピュータに請求項４に記載の音声合成方法を実行させるプログラム。