JP3981640B2

JP3981640B2 - 音素モデル学習用文リスト生成装置、および生成プログラム

Info

Publication number: JP3981640B2
Application number: JP2003042611A
Authority: JP
Inventors: 朋子米澤; 秀之水野; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2003-02-20
Filing date: 2003-02-20
Publication date: 2007-09-26
Anticipated expiration: 2023-02-20
Also published as: JP2004252167A

Description

【０００１】
【産業上の利用分野】
この発明は、音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関し、特に、自動ラベリングに用いる音素モデルの学習に際して少ない音声データでより高精度な音素モデルを作成するに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関する。
【０００２】
【従来の技術】
音声認識、音声合成のデータベース作成用の文リスト生成技術として、音声データベースを作成するに必要とされる単語セットを選択する方法が研究開発されている（非特許文献１参照）。これは、エントロピー最大化アルゴリズムを提案し、単語母集団から音韻バランスの取れたエントロピー最大のサブセットを選ぶものである。子集団のエントロピーをＣＶ音節の出現頻度／ＶＣ音節ＶＶ音節の推移頻度を考慮したバランスリストを生成する。現在はトライフォン音響モデルを音響単位とすることが一般的で、表現される音響単位の出現頻度の均一化に応じて増大し、子集団に含まれない音響単位が少ない程エントロピーが増大する関数として定義し、集団内外から抽出された２文を仮に交換した場合のエントロピーと比較することで最適な文セットを選択する。
【０００３】
【非特許文献１】
鹿野清宏、「エントロピーによる音韻バランス単語リストの作成」、音響学会講演論文集（昭和５９年３月）、ｐｐ．２１１−２１２
【０００４】
【発明が解決しようとする課題】
以上の従来の方法は全ての音響単位に対して均等である様に文収集するのに対して、この発明は、全ての音響単位に基準となる最低限の個数、即ち、基準学習データ数を保証するものであり、即ち、様々な音素を含む文の音声データから、効率的に音素を学習することができる文を選択し、選択された文に含まれる音素を学習することにより、音素の学習を効率化しながら学習する音声データ量を最少化する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムを提供するものである。
【０００５】
【課題を解決するための手段】
音素の統計的音響モデルを学習する音素モデル学習用文リスト生成方法において、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース１を具備して元テキストデータベース１から各音素の個数をカウントして個数の個数リスト２を生成し、個数リスト２の音素を個数順に並び替えた並び替えリスト４を生成し、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト６に並べ、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト８を生成し、ここで、文の学習効率スコア＝（個数が基準学習データ数ａ未満である音素（最小個数音素αを除く）の種類数／（当該文に含まれる全ての音素数）で計算され、学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）で計算され、効率計算文リスト８から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト１０を生成し、最小個数音素αの個数が基準学習データ数ａに達する迄並べ替え文リスト１０の上位から順に文を選択し、選択された選択文リスト１２を生成し、リスト１２中に含まれる音素の個数を数えて既選択文音素個数リスト１４を生成し、並び替えリスト４の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト１４中に基準学習データ数ａに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト１６を生成する音素モデル学習用文リスト生成方法を構成した。
【０００６】
そして、音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、所定の充分な量の音素および音素における環境、その他のバリエーションを充分に含む文セットより成る元テキストデータベース１を具備し、元テキストデータベース１から各音素の個数をカウントして個数リスト２を生成する音素個数カウント部３を具備し、個数リスト２の音素を個数順に並び替えた並び替えリスト４を生成する音素個数順ソート部５を具備し、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト６に並べる最少個数音素文リスト生成部７を具備し、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト８を生成する学習効率計算部９を具備し、ここで、文の学習効率スコア＝（個数が基準学習データ数ａ未満である音素（最小個数音素αを除く）の種類数／（当該文に含まれる全ての音素数）で計算され、学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）で計算され、効率計算文リスト８から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト１０を生成する学習効率順文ソート部１１を具備し、最小個数音素αの個数が基準学習データ数ａに達するまで並べ替え文リスト１０の上位から順に文を選択し、選択された選択文リスト１２を生成する基準学習データ数分選択部１３を具備し、選択文リスト１２中に含まれる音素の個数を数え既選択文音素個数リスト１４を生成する既選択文音素個数カウント部１５を具備し、並び替えリスト４の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト１４中に基準学習データ数ａに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト１６を生成する基準学習データ数未満音素文リスト生成部１７を具備する音素モデル学習用文リスト生成装置を構成した。
【０００７】
また、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース１から各音素の個数をカウントして個数の個数リスト２を生成し、個数リスト２の音素を個数順に並び替えた並び替えリスト４を生成し、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト６に並べ、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト８を生成し、ここで、文の学習効率スコア＝（個数が基準学習データ数ａ未満である音素（最小個数音素αを除く）の種類数／（当該文に含まれる全ての音素数）で計算され、学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）で計算され、効率計算文リスト８から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト１０を生成し、最小個数音素αの個数が基準学習データ数ａに達するまで並べ替え文リスト１０の上位から順に文を選択し、選択された選択文リスト１２を生成し、選択文リスト１２中に含まれる音素の個数を数え既選択文音素個数リスト１４を生成し、並び替えリスト４の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト１４中に基準学習データ数ａに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト１６を生成する指令をコンピュータに対して実行する音素モデル学習用文リスト生成プログラムを構成した。
【０００８】
【発明の実施の形態】
一般に、ＨＭＭ音素モデルの学習において、精度の高いＨＭＭ音素モデルを作成するには、各音素毎に充分な音声データがあることが必要である。従って、学習音声データ量を検討する際には、学習する音声データの総時間長のみを考慮するのは問題があり、各音素毎の音声データ数を考慮する必要がある。
そのために、以下で示す手順により各音素が必要とする音声データ数（以後、基準学習データ数、と呼ぶ）を効率良く収集可能な様に、音声データの発声内容である読み上げ文を選択する。
この選択された読み上げ文に基づいて、音素モデルを作成したい話者が発声した音声データは、ＨＭＭ音素モデルの学習に効率のよい音声データとなる。
（1）基準学習データ数ａを与える。
（2）所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットよりなる元テキストデータベースに含まれる音素毎に個数をカウントする。
（3）（2）において個数が最小であった最小個数音素αを含む全ての文を元テキストデータベースから検索する。
（4）上記の文について、次式に定める文の学習効率スコアを計算する。
文の学習効率スコア＝（個数が基準学習データ数ａ未満である音素（最小個数音素αを除く）の種類数／（当該文に含まれる全ての音素数）
（5）上記の文を上記文の学習効率スコアの高い順に並べる。ただし、文の学習効率スコアが同値の場合は、以下の学習バリエーション効率スコアの高い順に並べる。
【０００９】
上記並べられた文から、上記文の学習効率スコアの高い順に最小個数音素αの個数が基準学習データ数ａ以上になるまで選択する。
学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）
（6）上記選択された全ての文または、既に選択された文があればそれに上記選択された文を追加した全ての文において、文に含まれる音素毎に個数をカウントし、個数が最小となる音素に対して、もし個数が基準学習データ数ａ未満である場合は、上記元テキストデータベースから上記選択された文を除き新たに元テキストデータベースとして（3）〜（6）までを繰り返す。
（7）上記（3）〜（6）までの手順を全ての音素において個数が基準学習データ数ａ以上になるまで繰り返す。
【００１０】
【実施例】
以上の文検索を図１ないし図３を参照して説明する。
図１および図２において、３は音素個数カウント部であり、元テキストデータベース１から各音素の個数をカウントして音素の個数の個数リスト２を生成する部位である。音素の統計的音響モデルを学習する学習データ選択において、元テキストデータベース１は所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットにより構成されている。この元テキストデータベース１を元にして、学習したい音素の全てを効率よく含む、即ち、各音素の個数を充分に含む最少の文セット、同時にそれぞれの音素において環境その他のバリエーションをバランスよく含む文セットを選択する。各音素の環境はある程度バリエーションを持つサンプルの学習が望ましい。
５は音素個数順ソート部であり、個数リスト２の音素を個数順に並び替えた並び替えリスト４を生成する部位である。
７は最少個数音素文リスト生成部であり、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト６に並べる部位である。
９は学習効率計算部であり、並び替えリスト４の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト８を生成する部位である。
【００１１】
１１は学習効率順文ソート部であり、効率計算文リスト８から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト１０を生成する部位である。
１３は基準学習データ数分選択部であり、最小個数音素αの個数が基準学習データ数ａに達するまで並べ替え文リスト１０の上位から順に文を選択し、選択された選択文リスト１２を生成する部位である。
１５は既選択文音素個数カウント部であり、選択文リスト１２中に含まれる音素の個数を数え既選択文音素個数リスト１４を生成する部位である。
１７は基準学習データ数未満音素文リスト生成部であり、並び替えリスト４の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト１４中に基準学習データ数ａに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト１６を生成する部位である。
ここで、基準学習データ数ａに達するまで、学習効率計算部９から既選択文音素個数カウント部１５に到る各部位の処理操作を繰り返し実行する。
１９は音素モデル学習部であり、選択された既選択文音素個数リスト１４’に対応する、予め「音素境界ラベリング」が与えられた音声データ１８を用いて、全ての音素を学習し、音素モデル個数リスト２０を生成、完成する部位である。
【００１２】
図３を参照して学習効率の計算とソートについて説明する。
基準学習データ数＝２で、該当音素／PY／についての学習文選択において、既に選択された文があり、その中に含まれる音素の構成が｛／A／３、／I／２、／U／４、
／E／４、／O／５、それ以外の音素０｝であるとき、
１ぴかぴかひかる
／PY／２
／*／３
／K／３
／HY／１
／I／１
／A／３
／U／１
／R／１
総音素数＝１５
音素の種類数＝８
基準学習データ数未満の種類数＝５
学習効率スコア＝５／１５（0.333）→基準学習データ数以下の種類数／総音素数
学習バリエーション効率スコア＝８／１５（0.533）→音素の種類数＋環境数（環境⇒例えば、前側／後続音素、基本周波数F0、その他、この実例においては考慮していないので値は０）／総音素数
２スピンした
／S／１
／PY／１
／I／２
／N'／１
／SY／１
／*／１
／T／１
／A／１
総音素数＝９
音素の種類数＝８
基準学習データ数未満の種類数＝６
学習効率スコア＝６／９（0.667）
学習バリエーション効率スコア＝８／９（0.889）
３安否が気遣われる
／A／４
／N'／１
／PY／１
／I／２
／G／１
／*／２
／KY／１
／Z／１
／U／２
／K／１
／W／１
／R／２
／K／１
総音素数＝２０
音素の種類数＝１３
基準学習データ数未満の種類数＝９
学習効率スコア＝９／２０（0.45）
学習バリエーション効率スコア＝１３／２０（0.65）
↓
※学習データ効率順に並べ替える。但し、同値の場合は学習バリエーション効率順とする。
→２、３、１
【００１３】
以下、具体例を説明する。
基準学習データ数と自動ラベリング精度の関係を明らかにするに、以上の手順に基づいて、２、３、５、８、１０、１５、２０、２５、３０、３５、４０の基準学習データ数に対して文を検索した。
表１の読み上げ文データから以上の手順で選択した文の数と、それらの文に含まれる音素の総数、対応する音声データの時間をそれぞれ図４に示す。表１のデータにおける読み上げ文の中で、全ての音素約２４万個を学習しても個数が少ない音素は４０個であることにかわりはなく、学習効率は音素によってばらつく。この発明の手順における図４の基準学習データ数４０における選択された文の全体の音素数約６，５００個と比較すると、少ない文データでモノフォンの音素モデルの学習効率を向上できたと考えられる。
【表１】

【表２】

学習効率の良いデータから作成された音素モデルを用いることによる効果を示す自動ラベリング実験を以下に示す。
女声ナレータの音声データを用いて、以下の手順で自動ラベリング実験を行った。先ず、表２の条件でＨＴＫ（ＨＭＭ Tool Kit）を用いて、手動ラベリングを元にモノフォンの音素モデル学習を行った。図４に示す基準学習データ数（２〜４０）に基づいて検索された文の音声データ（話者Ａ）と、表３に示す音声データ（話者Ｂ）によってそれぞれ音素モデルを学習し、表４に示す音声データ（話者Ａ）に対してＶｉｔｅｒｂｉアルゴリズムで自動音素ラベリングを行った。
【００１４】
音響パラメータは、ＦＢＡＮＫ（メル分割されたフィルタバンクの対数パワー）の１０チャンネルとＥｎｅｒｇｙ（Ｅ＝logΣ_n=1 ^Nｓ_n ²を正規化）成分を加えた
ものと、それらのΔ、ΔΔを用いた。ここで、Δは差分を意味し、ΔΔは差分の差分を意味する。
【表３】

【表４】

（実験結果）
表１から検索した文に含まれる音素４３種は表２に示される学習音素種類数５１種を満たせないことと、４３種中、２〜４０の基準学習データ数全てにおいて共通して作成することができた音素モデルの音素は３６種であった。よって、自動音素ラベリング結果はこれらの音素３６種の境界のみを扱う。自動ラベリングにより得られた音素境界と手動ラベリングの音素境界の誤差について、誤差値の絶対値の平均と誤差値の分散を求め、自動ラベリングの精度を分析する。図５は自動ラベリングの精度と基準学習データ数の関係を示す。また、図６は基準学習データ数を設定したときの学習音声データ時間を計算し、文リストに基づいて発声した音声データの時間長とラベリング精度の誤差の関係を示す。図５に見られる通り、基準学習データ数が増加するに伴って自動ラベリング誤差が減少していることがわかる。基準学習データ数が３のとき、他者のＨＭＭ音素モデルを用いた自動ラベリング誤差を超える。また、基準学習データ数が１０〜１５のとき、自動ラベリング誤差が収束する。図５の結果と音声データ量に換算した図６の結果から、１）手動ラベリングにより予め正しい音素境界が与えられた４０秒程度の音声データでＨＭＭ音素モデルを学習しておくことで、他者のＨＭＭ音素モデルを用いるよりも高い精度が得られること、２）予め正しい音素境界を与えられた２〜３分程度の音声データでＨＭＭ音素モデルを作成すれば、充分な精度を得られることが明らかになった。
【００１５】
以上の通り、この発明は、必要な最低限の音素を含む文を、効率の良い順番で選択していくことで、選択される文の長さおよび文の数を最小限にしつつ、各音素モデルの学習に充分な文を選択して行くことができ、非常に少ない読み上げ文セットとそれらに対応した音声データを用いて音素モデルの作成をすることができることとなった。これにより、手動ラベリングで予め正しい音素境界を付与しておくコストも削減することができる。
ここで、この発明は電子計算機を主要な構成部材として構成している。また、この発明を、ＣＤその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこの電子計算機にインストールして実施することができる。
【００１６】
【発明の効果】
上述した通りであって、この発明によれば、自動音素ラベリングに用いる統計的音素学習について、学習量を調整し、少ない学習量で手動による正確なラベリングを行う音声データ量を最小限に抑えると同時に、自動音素ラベリングの精度を良くすることができる。ここで、目標を手動ラベリングの結果とし、手動ラベリングによる音素境界位置との間の差が小さいことを精度がよいとする。
【図面の簡単な説明】
【図１】実施例を説明する図。
【図２】図１の続き。
【図３】学習効率の計算と文ソートを説明する図。
【図４】基準学習データ数と、ファイル数、データ長、音素数の関係を示す図。
【図５】基準学習データ数と誤差の関係を示す図。
【図６】学習した音声データ時間と誤差平均の関係を示す図。
【符号の説明】
１データベース２個数リスト
３音素個数カウント部４並び替えたリスト
５音素個数順ソート部６最少個数音素文リスト
７最少個数音素文リスト生成部８効率計算文リスト
９学習効率計算部１０並べ替え文リスト
１１学習効率順文ソート部１２選択文リスト
１３基準学習データ数分選択部１４既選択文音素個数リスト
１４’既選択文音素個数リスト１５既選択文音素個数カウント部
１６音素β文リスト１７基準学習データ数未満音素文リスト生成部
１８音声データ１９音素モデル学習部
２０音素モデルリスト

Claims

音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、
所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベースと、
元テキストデータベースから各音素の個数をカウントして個数リストを生成する音素個数カウント部と、
個数リストの音素を個数順に並び替えた並び替えリストを生成する音素個数順ソート部と、
前記並び替えリストの中で個数の最も少ない最少個数音素αを含む全ての文を前記元テキストデータベースから検索し、最少個数音素文リストに並べる最少個数音素文リスト生成部と、
前記最少個数音素文リストに含まれる各文について、音素モデルの学習効率スコア、学習バリエーション効率スコアを計算する学習効率計算部と、
前記最少個数音素文リストに含まれる各文を、前記学習効率スコア順に並べ替え、学習効率スコアが同値の場合は前記学習バリエーション効率スコア順に並べ替えた並べ替え文リストを生成する学習効率順文ソート部と、
前記最少個数音素の個数が基準学習データ数に達するまで前記並べ替え文リストの上位から順に文を選択し、選択された文を選択文リストに追加する基準学習データ数文選択部と、
前記選択文リスト中に含まれる音素の個数を数え、既選択文音素個数リストを生成する既選択文音素個数カウント部と、
前記並び替えリストの中で最少個数音素αの次に個数の少ない音素βについて、前記既選択文音素個数リスト中に前記基準学習データ数に達していない場合、前記基準学習データ数文選択部により選択された文を除き、前記元テキストデータベースから当該音素βを含む文を検索し、基準学習データ数未満音素文リストを生成する基準学習データ数未満音素文リスト生成部と、を具備し、
音素βを最少個数音素αとし、直前に基準学習データ数未満音素文リスト生成部で生成された基準学習データ数未満音素文リストを最少個数音素文リストとして、前記学習効率計算部に入力し、前記学習効率計算部、前記学習効率順文ソート部、前記基準学習データ数文選択部、前記既選択文音素個数カウント部、前記基準学習データ数未満音素文リスト生成部の各処理を繰り返し、
前記学習効率計算部は、
前記学習効率スコアを、
学習効率スコア＝（個数が基準学習データ数未満である音素（最少個数音素αを除く）の種類数／（当該文に含まれる全ての音素数）で計算し、
前記学習バリエーション効率スコアを、
学習バリエーション効率スコア＝（当該文に含まれる全ての音素の種類数）／（当該文に含まれる全ての音素数）で計算することを特徴とする音素モデル学習用文リスト生成装置。
請求項１記載の音素モデル学習用文リスト生成装置の各構成部をコンピュータにより実行するための音素モデル学習用文リスト生成プログラム。