JP6006678B2

JP6006678B2 - 音声モデル生成装置、方法、プログラム

Info

Publication number: JP6006678B2
Application number: JP2013106031A
Authority: JP
Inventors: 勇祐井島; 水野　秀之; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2013-05-20
Filing date: 2013-05-20
Publication date: 2016-10-12
Anticipated expiration: 2033-05-20
Also published as: JP2014228580A

Description

本発明は、音声データから音声合成用HMM（隠れマルコフモデル）を生成する技術に関する。

近年、Web上に、著作権が存在しない、あるいは著作権が放棄されている、あるいは利用規約などの範囲内という制限が予定されているものの比較的自由に使用可能な、テキストとそのテキストを発話した音声データが多数存在している（例えば、無料のオーディオブックサイト、音声投稿サイト等）。この事実は、先行技術文献を挙げるまでもなくよく知られている。

また、音声合成技術として、比較的少量の音声データからでも安定した品質の音声を合成することができるHMM（隠れマルコフモデル）音声合成方式［例えば非特許文献１参照］が提案されている。HMM音声合成方式では、音声データから分割された音声合成単位（音節、音素等）をHMMでモデル化したときのモデルパラメータ（スペクトル、F0など）が音声合成単位ごとに平均化（平滑化）されており、音声合成単位ごとに一つの音声モデル（HMM）が用意されている。これによって、少量の音声データを用いる場合でも、肉声感は低いが安定した品質の音声の合成を可能としている。

益子他、"動的特徴を用いたHMMに基づく音声合成"、信学論、vol.J79-D-II、no.12、pp.2184-2190、Dec. 1996.

このような著作権の制限の無いあるいは制限が少ない音声データを利用して音声合成用のモデルを学習することができれば、低コストで様々な話者や口調の合成音声を生成することが可能になる。

一般的に、音声合成用のモデルを学習するためには、高品質な音声が必要となる（ノイズが少ない、発話誤りが無い、エコーが少ない等）。このため通常、研究や商用で利用されている音声合成システムでは防音ブースで収録された音声データが使用されている。しかし、著作権の制限の無いあるいは制限が少ない音声データにはエコーや発話誤りなどが含まれていることがある。このような音声データを用いて音声合成用のモデルを学習すると合成音声の品質が低下する。

本発明は、このような課題に鑑みて、エコーや発話誤りなどが含まれている音声データを用いた場合でも、合成音声の品質の低下が少ない音声合成用のモデルを生成する技術を提供することを目的とする。

平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する。音声合成用初期モデルとラベルデータベースとを用いて各発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する。音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとを用いて同じ発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る。選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する。

選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定してもよい。新しい選択音声データベースを得る必要があると判定された場合には、初期モデル学習部および音声選別部が音声データベースに替えて最新の選択音声データベースを用いることによって新しい選択音声データベースが得られる。新しい選択音声データベースを得る必要がないと判定された場合には、モデル学習部が、最新の選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する。

本発明によると、音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、高品質な音声データ（つまり、距離が閾値との比較判定条件を満たした音声データ）を選択して選択音声データベースを得て、この選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを得ることから、エコーや発話誤りなどが含まれている音声データを用いた場合でも、合成音声の品質の低下が少ない音声合成用のモデルを生成することができる。

第１実施形態の機能構成図。音声選別部の機能構成図。音声選別処理の処理フロー。第２実施形態の機能構成図。第３実施形態の機能構成図。

図面を参照しながら本発明の実施形態を説明する。各形態に共通の構成要素には同じ符号を割り当てて重複説明を省略することとする。

本発明の実施形態において、「音声合成単位」として、音素（例えば、前後の音韻環境や韻律特徴を考慮したコンテキスト依存トライフォンなど）、音節、半音節などを例示できる。例えば音声合成単位を音素として実施する場合には、以下の説明において、「音声合成単位」を「音素」に読み替えればよい。

《第１実施形態》
＜装置構成と処理の概略＞
実施形態１の音声モデル生成装置１は、音声データベース１０とラベルデータベース２０と平均声モデル３０とを記憶する記憶部（図示せず）と、初期モデル学習部１０１と、音声合成部１０３と、音声選別部１０５と、モデル学習部１０７と、を含む（図１参照）。
初期モデル学習部１０１は、平均声モデル３０と、音声データベース１０に含まれる全ての音声データと、ラベルデータベース２０とを用いたモデルの学習によって音声合成用初期モデル４０を生成する。
音声合成部１０３は、音声合成用初期モデル４０とラベルデータベース２０とを用いてラベルデータベースに含まれる発話情報と同一の発話情報を持つ合成音声データの集合体である判定用合成音声データベース５０を生成する。
音声選別部１０５は、音声データベース１０と判定用合成音声データベース５０とを用いて、音声データベース１０に含まれる各音声データがモデルの学習に適しているか否かを判定し、モデルの学習に適していると判定された音声データを選択して選択音声データベース６０を得る。
最後に、モデル学習部１０７が、選択音声データベース６０と、平均声モデル３０と、ラベルデータベース２０とを用いたモデルの学習によって最終的な音声モデル７０を生成する。

＜音声データベース＞
音声データベース１０は、音声モデルの生成に使用される音声データの集合体などであり、あらかじめ用意されている。
音声データベース１０には、例えば一名の話者によるN個の発話の音声信号に対する信号処理によって得られた音声パラメータであるN個の音声データ（例えば、音高パラメータ（基本周波数F0等）、スペクトルパラメータ（ケプストラム、メルケプストラム等））が保持されている。

＜ラベルデータベース＞
ラベルデータベース２０は、音声データベース１０中の各音声データに対して付与された音声合成単位ごとの発音等の情報（以下、発話情報という）の集合体である。音声データベース１０中の各音声データには、一つの発話情報が付与されている。この発話情報には、少なくとも、音素情報（発音情報）やアクセント情報（アクセント型、アクセント句長）を含んでおり、この他に品詞情報等を含んでいてもよい。

＜平均声モデル＞
平均声モデル３０は、複数の話者の音声のスペクトル系列、ピッチパターン及び継続長が同時にモデル化され、これらの複数話者の平均的な特徴（声質及び韻律特徴）を有する音声合成単位HMMである（参考文献１、参考文献２）。平均声モデルの学習には、最低でも男女各5名による30分程度の音声データとラベルデータを用いて学習することが望ましい。
（参考文献１）田村他，“HMMに基づく音声合成におけるピッチ・スペクトルの話者適応”，信学論，vol.J85-D-II，no.4，pp.545-553，April 2002.
（参考文献２）特開2002-244689号公報

＜ステップＳ１＞
初期モデル学習部１０１は、平均声モデル３０と、音声データベース１０に含まれる全ての音声データと、ラベルデータベース２０とを用いたHMMの学習によって音声合成用初期モデル（HMM）４０を生成する。この学習方法は、例えば上記参考文献１と同じ方法でよい。
音声合成用初期モデル（HMM）４０は、各音声合成単位を複数の状態を持つモデルとして表現しており、各モデルパラメータをμ^→ _ijとする。このμ^→ _ijはi番目の音声合成単位のHMMにおけるj番目の状態の音声パラメータの平均ベクトルであり、通常、多次元のベクトルで表現される（j=1,…,S_i：S_iはi番目の音声合成単位を表現するHMMに含まれる状態数）。また、このモデルパラメータには平均ベクトルだけでなく、分散や動的パラメータの平均ベクトルや分散を保存しておいてもよい。
なお、初期モデル学習部１０１によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル（例えばマルコフモデル等）であればよい。

＜ステップＳ２＞
音声合成部１０３は、音声合成用初期モデル４０とラベルデータベース２０とを用いて、ラベルデータベース２０に含まれる発話情報と同一の発話情報を持つN個の合成音声データの集合体である判定用合成音声データベース（スペクトル、F0）５０を生成する。
ラベルデータベース２０が与えられると、例えば参考文献３の方法と同様に、HMMに保存されている音声パラメータの静的特徴量の平均値と分散および動的特徴量の平均値と分散を用いてラベルデータベース２０に含まれる発話情報を持つ音声パラメータである合成音声データ（スペクトル、F0）を生成する。
（参考文献３）益子他，“動的特徴を用いたHMMに基づく音声合成”，信学論，vol.J79-D-II，no.12，pp.2184-2190，Dec. 1996.

＜ステップＳ３＞
音声選別部１０５は、初期モデル学習部１０１が使用した音声データベース１０と音声合成部１０３が生成した判定用合成音声データベース５０を用いて、モデルの学習に適している音声データを音声データベース１０から選別して、選択音声データベース６０を得る（図２、図３参照）。音声選別部１０５は、音声データベース１０に含まれる音声データと判定用合成音声データベース５０に含まれる合成音声データとを用いて音声データと合成音声データとの間の距離を計算する距離計算部１０５１と、距離計算部１０５１が計算した距離を用いて音声データベース１０に含まれる各音声データがモデルの学習に適している音声かどうかを判別する判別部１０５２を含む。

距離計算部１０５１は、同一のi番目の発話情報を持つ音声データと合成音声データとの間の距離diを計算する（i=1,…,N）。距離の計算は、例えば、スペクトルパラメータを用いて以下の式にしたがって行われる。

ここで、Tiはi番目の音声データのフレーム数、Mはスペクトルパラメータの次元数、sp_itmは、i番目の音声データのt番目のフレーム、m次元目のスペクトルパラメータであり、syn_itmはi番目の合成音声データのt番目のフレーム、m次元目のスペクトルパラメータである。二つの音声データのフレーム数は必ずしも同じではないため、事前に動的計画法に基づくマッチング法などで二つの音声データ間のフレーム同士の対応付けを行っておくことが望ましい。

このdiが大きければ音声データと合成音声データは異なった音声になっており、小さければ音声データと合成音声データは似た音声であることを示している。

判別部１０５２は、距離計算部１０５１が計算したN個の距離５５を用いて、各音声データがモデルの学習に適しているかどうかを判別する。
この処理では、距離diが閾値より小さければ音声データベース１０に含まれるi番目の音声データをモデル学習に使用する音声データであると判定し、大きければ学習に使用しない音声データであると判定する。例えば、N個の距離値の分布の平均をμ、標準偏差をσとして、μ＋σを閾値に設定してもよい。また、平均μや標準偏差σとは関わりなく単にあらかじめ設定した値を閾値に設定してもよい。ここで選択された音声データの集合体が選択音声データベース６０である。

＜ステップＳ４＞
モデル学習部１０７は、ステップＳ１の処理と同様に、平均声モデル３０と、ステップＳ３の処理で得られた選択音声データベース６０に含まれる全ての音声データと、ラベルデータベース２０（ただし、選択音声データベース６０に含まれる音声データに対応する発話情報を用いれば十分である）とを用いたHMMの学習によって音声モデル（HMM）７０を生成する。ステップＳ４の処理は、モデル学習に使用する音声データが音声選別部１０５によって得られた選択音声データベース６０に含まる音声データである点でステップＳ１の処理と異なる。
なお、モデル学習部１０７によって学習されるモデルはHMMである必要はなく、各音声合成単位を複数の状態で表現できるモデル（例えばマルコフモデル等）であればよい。

《第２実施形態》
＜概要＞
第１実施形態では、音声データベースに付属するラベルデータベースが予め整備されていることが前提となっているが、テキストデータのみが存在しているもののラベルデータベースが整備されていない場合も存在する。第２実施形態では、音声モデル生成装置２はテキスト解析器（形態素解析器）２０１を使用することによってテキストデータから発話情報を生成する（図４参照）。

＜ステップＳ１ｐ＞
テキスト解析器２０１は、音声データベース１０に含まれる各音声データに対応するテキストデータであってテキストデータベース９０に含まれるテキストデータに対してテキスト解析や形態素解析などを実行し、読みとアクセントを推定することによってラベルデータベース２０に含まれる発話情報を求める。

ステップＳ１ｐの処理の後は、第１実施形態のステップＳ１からステップＳ４の各処理が実行される。

テキスト解析では、読みやアクセント型の推定誤りが発生してしまうため、誤った推定結果をモデルの学習へ利用すると合成音声の品質が低下する。しかし、音声選別部１０５が選択音声データベース６０を抽出することによって、読みやアクセントの推定誤りによる合成音声の品質低下を軽減することが可能である。誤った読みやアクセントに基づいて生成された合成音声データは、音声データベース１０に含まれる音声データと発話内容が異なるため、正しい読みとアクセントに基づいて生成された合成音声データよりも大きい距離を与える。このため、選択音声データベース６０には、高品質かつ正しい読みとアクセントが付与された音声データのみが残る。

《第３実施形態》
＜概要＞
第１実施形態では、音声データの選別を一度実施するだけだが、得られた最新の選択音声データベース６０を新たな音声データベース１０に見立てて音声データの選別を複数回行うことによって、より高品質な合成音声を生成可能な音声モデル７０を得ることが可能である。以下、第１実施形態との差分について説明する（図５参照）。

＜ステップＳ３ｐ＞
ステップＳ３の処理の後、音声モデル生成装置３の判定部３０１は、少なくとも選択音声データベース６０を得る際に得られた情報に基づいて、再び音声データの選別を行う必要があるか否かを判定する。
この判定には、例えば音声選別部１０５が計算した標準偏差σを使用する。この標準偏差σが大きい場合、選択音声データベース６０に含まれる音声データ間の距離のばらつきが大きく、まだ選択音声データベース６０にはモデル学習に使用するには適切ではない音声データが含まれている可能性がある。このため、標準偏差σがあらかじめ定められている閾値以下であるかどうかを判定する。

なお、このような判定処理に替えて、音声選別部１０５が計算した平均μが閾値以下であるかどうかの判定処理を採用することも可能である。また、閾値を用いた判定だけでなく、選択音声データベース６０に含まれる音声データの数が音声データベース１０に含まれる音声データの数の予め定められた割合以下になった場合や、処理の繰り返し回数（つまり、ステップＳ３ｐの処理が実行された回数）が予め定められた回数に達した場合などの条件も併用することによって、最新の選択音声データベース６０に含まれる音声データの数が極端に少なくなることや、無限ループで処理が終わらなくなる等の現象を回避することも可能である。

この判定において、上記の例であれば標準偏差σがあらかじめ定められている閾値以下であると判定された場合、音声選別部１０５によって得られた最新の選択音声データベース６０を用いてステップＳ４の処理が実行される。標準偏差σがあらかじめ定められている閾値以下ではないと判定された場合は、音声選別部１０５によって得られた最新の選択音声データベース６０を音声データベース１０と見立てて、再びステップＳ１、Ｓ２、Ｓ３、Ｓ３ｐの各処理が実行される。この際に用いられるラベルデータベース２０は初回に用いられたラベルデータベース２０である必要はなく、最新の選択音声データベース６０に含まれる音声データに対応する発話情報を含むラベルデータベースであればよい。

＜音声モデル生成装置のハードウェア構成例＞
上述の実施形態に関わる音声モデル生成装置は、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Sygnal Processor）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）と、ハードディスクである外部記憶装置、並びにこれらのＣＰＵやＤＳＰ、ＲＡＭやＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音声モデル生成装置に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

音声モデル生成装置の外部記憶装置には、上述の音声モデル生成処理のためのプログラム並びにこのプログラムの処理において必要となるデータ（音声データ、発話情報等）などが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される場合がある。データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

音声モデル生成装置の記憶部には、平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成するためのプログラムと、音声合成用初期モデルとラベルデータベースとを用いて各発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成するためのプログラムと、音声データベースに含まれる音声データと判定用合成音声データベースに含まれる合成音声データとを用いて同じ発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、音声データベースに含まれる音声データの中から、距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得るためのプログラムと、選択音声データベースと、平均声モデルと、ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するためのプログラムなどが記憶されている。

音声モデル生成装置では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。この結果、ＣＰＵが所定の機能（初期モデル学習部、音声合成部、音声選別部、モデル学習部など）を実現することで上述の音声モデルの生成が実現される。

＜補記＞
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

また、上記実施形態において説明したハードウェアエンティティ（音声モデル生成装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習部と、
上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成部と、
上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別部と、
上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習部と
を含む音声モデル生成装置。
請求項１に記載の音声モデル生成装置であって、
上記発話情報は、上記音声データベースに含まれる各音声データに対応するテキストデータを解析することによって得られたものである
ことを特徴とする音声モデル生成装置。
請求項１に記載の音声モデル生成装置であって、
上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定部を含み、
上記判定部によって新しい選択音声データベースを得る必要があると判定された場合に、上記初期モデル学習部および上記音声選別部が上記音声データベースに替えて最新の選択音声データベースを用いることによって新しい選択音声データベースが得られ、上記判定部によって新しい選択音声データベースを得る必要がないと判定された場合に、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
ことを特徴とする音声モデル生成装置。
初期モデル学習部が、平均声モデルと、音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持するラベルデータベースとを用いたモデルの学習によって音声合成用初期モデルを生成する初期モデル学習ステップと、
音声合成部が、上記音声合成用初期モデルと上記ラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる判定用合成音声データベースを生成する音声合成ステップと、
音声選別部が、上記音声データベースに含まれる音声データと上記判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して選択音声データベースを得る音声選別ステップと、
モデル学習部が、上記選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成するモデル学習ステップと
を有する音声モデル生成方法。
請求項４に記載の音声モデル生成方法であって、
さらに、判定部が、上記選択音声データベースを得る際に得られた情報に基づいて、新しい選択音声データベースを得る必要があるか否かを判定する判定ステップを有し、
（１）上記判定ステップにおいて新しい選択音声データベースを得る必要があると判定された場合には、
初期モデル学習部が、平均声モデルと、最新の選択音声データベースに含まれる全ての音声データと、これら音声データに対応する発話情報を保持する最新のラベルデータベースとを用いたモデルの学習によって最新の音声合成用初期モデルを生成するステップと、
音声合成部が、上記最新の音声合成用初期モデルと上記最新のラベルデータベースとを用いて各上記発話情報を持つ合成音声データを得て、これら合成音声データが含まれる最新の判定用合成音声データベースを生成するステップと、
音声選別部が、上記最新の音声データベースに含まれる音声データと上記最新の判定用合成音声データベースに含まれる合成音声データとを用いて同じ上記発話情報に対応する音声データと合成音声データとの間の距離をそれぞれ求め、上記最新の音声データベースに含まれる音声データの中から、上記距離が閾値との比較判定条件を満たした音声データを選択して新しい選択音声データベースを得るステップとを有し、
（２）上記判定ステップにおいて新しい選択音声データベースを得る必要がないと判定された場合には、
上記モデル学習ステップにおいて、上記モデル学習部が、最新の選択音声データベースと、上記平均声モデルと、上記ラベルデータベースとを用いたモデルの学習によって音声モデルを生成する
ことを特徴とする音声モデル生成方法。
コンピュータを、請求項１から請求項３のいずれかに記載の音声モデル生成装置として機能させるためのプログラム。