JP2004252167A - 音素モデル学習用文リスト生成方法、生成装置、および生成プログラム - Google Patents

音素モデル学習用文リスト生成方法、生成装置、および生成プログラム Download PDF

Info

Publication number
JP2004252167A
JP2004252167A JP2003042611A JP2003042611A JP2004252167A JP 2004252167 A JP2004252167 A JP 2004252167A JP 2003042611 A JP2003042611 A JP 2003042611A JP 2003042611 A JP2003042611 A JP 2003042611A JP 2004252167 A JP2004252167 A JP 2004252167A
Authority
JP
Japan
Prior art keywords
sentence
list
phonemes
phoneme
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003042611A
Other languages
English (en)
Other versions
JP3981640B2 (ja
Inventor
Tomoko Yonezawa
朋子 米澤
Hideyuki Mizuno
秀之 水野
Masanobu Abe
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003042611A priority Critical patent/JP3981640B2/ja
Publication of JP2004252167A publication Critical patent/JP2004252167A/ja
Application granted granted Critical
Publication of JP3981640B2 publication Critical patent/JP3981640B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】自動ラベリングに用いる音素モデルの学習に際して少ない音声データでより高精度な音素モデルを作成するに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムを提供する。
【解決手段】充分な量の音素を含む文セットより成る元テキストデータベース1、音素個数カウント部3、音素個数順ソート部5、最少個数音素文リスト生成部7、学習効率計算部9、学習効率順文ソート部11、基準学習データ数分選択部13、既選択文音素個数カウント部15、基準学習データ数未満音素文リスト生成部17を具備する音素モデル学習用文リスト生成方法、生成装置、および生成プログラム。
【選択図】 図1

Description

【0001】
【産業上の利用分野】
この発明は、音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関し、特に、自動ラベリングに用いる音素モデルの学習に際して少ない音声データでより高精度な音素モデルを作成するに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関する。
【0002】
【従来の技術】
音声認識、音声合成のデータベース作成用の文リスト生成技術として、音声データベースを作成するに必要とされる単語セットを選択する方法が研究開発されている(非特許文献1 参照)。これは、エントロピー最大化アルゴリズムを提案し、単語母集団から音韻バランスの取れたエントロピー最大のサブセットを選ぶものである。子集団のエントロピーをCV音節の出現頻度/VC音節VV音節の推移頻度を考慮したバランスリストを生成する。現在はトライフォン音響モデルを音響単位とすることが一般的で、表現される音響単位の出現頻度の均一化に応じて増大し、子集団に含まれない音響単位が少ない程エントロピーが増大する関数として定義し、集団内外から抽出された2文を仮に交換した場合のエントロピーと比較することで最適な文セットを選択する。
【0003】
【非特許文献1】
鹿野清宏、「エントロピーによる音韻バランス単語リストの作成」、音響学会講演論文集(昭和59年3月)、pp.211−212
【0004】
【発明が解決しようとする課題】
以上の従来の方法は全ての音響単位に対して均等である様に文収集するのに対して、この発明は、全ての音響単位に基準となる最低限の個数、即ち、基準学習データ数を保証するものであり、即ち、様々な音素を含む文の音声データから、効率的に音素を学習することができる文を選択し、選択された文に含まれる音素を学習することにより、音素の学習を効率化しながら学習する音声データ量を最少化する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムを提供するものである。
【0005】
【課題を解決するための手段】
音素の統計的音響モデルを学習する音素モデル学習用文リスト生成方法において、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース1を具備して元テキストデータベース1から各音素の個数をカウントして個数の個数リスト2を生成し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べ、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成し、最小個数音素αの個数が基準学習データ数aに達する迄並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成し、リスト12中に含まれる音素の個数を数えて既選択文音素個数リスト14を生成し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する音素モデル学習用文リスト生成方法を構成した。
【0006】
そして、音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、所定の充分な量の音素および音素における環境、その他のバリエーションを充分に含む文セットより成る元テキストデータベース1を具備し、元テキストデータベース1から各音素の個数をカウントして個数リスト2を生成する音素個数カウント部3を具備し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成する音素個数順ソート部5を具備し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べる最少個数音素文リスト生成部7を具備し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成する学習効率計算部9を具備し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成する学習効率順文ソート部11を具備し、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成する基準学習データ数分選択部13を具備し、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成する既選択文音素個数カウント部15を具備し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する基準学習データ数未満音素文リスト生成部17を具備する音素モデル学習用文リスト生成装置を構成した。
【0007】
また、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース1から各音素の個数をカウントして個数の個数リスト2を生成し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べ、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成し、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成し、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する指令をコンピュータに対して実行する音素モデル学習用文リスト生成プログラムを構成した。
【0008】
【発明の実施の形態】
一般に、HMM音素モデルの学習において、精度の高いHMM音素モデルを作成するには、各音素毎に充分な音声データがあることが必要である。従って、学習音声データ量を検討する際には、学習する音声データの総時間長のみを考慮するのは問題があり、各音素毎の音声データ数を考慮する必要がある。
そのために、以下で示す手順により各音素が必要とする音声データ数(以後、基準学習データ数、と呼ぶ)を効率良く収集可能な様に、音声データの発声内容である読み上げ文を選択する。
この選択された読み上げ文に基づいて、音素モデルを作成したい話者が発声した音声データは、HMM音素モデルの学習に効率のよい音声データとなる。
(1) 基準学習データ数aを与える。
(2) 所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットよりなる元テキストデータベースに含まれる音素毎に個数をカウントする。
(3) (2)において個数が最小であった最小個数音素αを含む全ての文を元テキストデータベースから検索する。
(4) 上記の文について、次式に定める文の学習効率スコアを計算する。
文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)
(5) 上記の文を上記文の学習効率スコアの高い順に並べる。ただし、文の学習効率スコアが同値の場合は、以下の学習バリエーション効率スコアの高い順に並べる。
【0009】
上記並べられた文から、上記文の学習効率スコアの高い順に最小個数音素αの個数が基準学習データ数a以上になるまで選択する。
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)
(6) 上記選択された全ての文または、既に選択された文があればそれに上記選択された文を追加した全ての文において、文に含まれる音素毎に個数をカウントし、個数が最小となる音素に対して、もし個数が基準学習データ数a未満である場合は、上記元テキストデータベースから上記選択された文を除き新たに元テキストデータベースとして(3)〜(6)までを繰り返す。
(7) 上記(3)〜(6)までの手順を全ての音素において個数が基準学習データ数a以上になるまで繰り返す。
【0010】
【実施例】
以上の文検索を図1ないし図3を参照して説明する。
図1および図2において、3は音素個数カウント部であり、元テキストデータベース1から各音素の個数をカウントして音素の個数の個数リスト2を生成する部位である。音素の統計的音響モデルを学習する学習データ選択において、元テキストデータベース1は所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットにより構成されている。この元テキストデータベース1を元にして、学習したい音素の全てを効率よく含む、即ち、各音素の個数を充分に含む最少の文セット、同時にそれぞれの音素において環境その他のバリエーションをバランスよく含む文セットを選択する。各音素の環境はある程度バリエーションを持つサンプルの学習が望ましい。
5は音素個数順ソート部であり、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成する部位である。
7は最少個数音素文リスト生成部であり、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べる部位である。
9は学習効率計算部であり、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成する部位である。
【0011】
11は学習効率順文ソート部であり、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成する部位である。
13は基準学習データ数分選択部であり、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成する部位である。
15は既選択文音素個数カウント部であり、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成する部位である。
17は基準学習データ数未満音素文リスト生成部であり、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する部位である。
ここで、基準学習データ数aに達するまで、音素個数カウント部3から既選択文音素個数カウント部15に到る各部位の処理操作を繰り返し実行する。
19は音素モデル学習部であり、選択された既選択文音素個数リスト14’に対応する、予め「音素境界ラベリング」が与えられた音声データ18を用いて、全ての音素を学習し、音素モデル個数リスト20を生成、完成する部位である。
【0012】
図3を参照して学習効率の計算とソートについて説明する。
基準学習データ数=2で、該当音素/PY/についての学習文選択において、既に選択された文があり、その中に含まれる音素の構成が{/A/3、/I/2、/U/4、/E/4、/O/5、それ以外の音素0}であるとき、
1ぴかぴかひかる
/PY/2
/*/3
/K/3
/HY/1
/I/1
/A/3
/U/1
/R/1
総音素数=15
音素の種類数=8
基準学習データ数未満の種類数=5
学習効率スコア=5/15(0.333)→基準学習データ数以下の種類数/総音素数
学習バリエーション効率スコア=8/15(0.533)→音素の種類数+環境数(環境⇒例えば、前側/後続音素、基本周波数F0、その他、この実例においては考慮していないので値は0)/総音素数
2スピンした
/S/1
/PY/1
/I/2
/N’/1
/SY/1
/*/1
/T/1
/A/1
総音素数=9
音素の種類数=8
基準学習データ数未満の種類数=6
学習効率スコア=6/9(0.667)
学習バリエーション効率スコア=8/9(0.889)
3安否が気遣われる
/A/4
/N’/1
/PY/1
/I/2
/G/1
/*/2
/KY/1
/Z/1
/U/2
/K/1
/W/1
/R/2
/K/1
総音素数=20
音素の種類数=13
基準学習データ数未満の種類数=9
学習効率スコア=9/20(0.45)
学習バリエーション効率スコア=13/20(0.65)

※学習データ効率順に並べ替える。但し、同値の場合は学習バリエーション効率順とする。
→2、3、1
【0013】
以下、具体例を説明する。
基準学習データ数と自動ラベリング精度の関係を明らかにするに、以上の手順に基づいて、2、3、5、8、10、15、20、25、30、35、40の基準学習データ数に対して文を検索した。
表1の読み上げ文データから以上の手順で選択した文の数と、それらの文に含まれる音素の総数、対応する音声データの時間をそれぞれ図4に示す。表1のデータにおける読み上げ文の中で、全ての音素約24万個を学習しても個数が少ない音素は40個であることにかわりはなく、学習効率は音素によってばらつく。
この発明の手順における図4の基準学習データ数40における選択された文の全体の音素数約6,500個と比較すると、少ない文データでモノフォンの音素モデルの学習効率を向上できたと考えられる。
【表1】
Figure 2004252167
【表2】
Figure 2004252167
学習効率の良いデータから作成された音素モデルを用いることによる効果を示す自動ラベリング実験を以下に示す。
女声ナレータの音声データを用いて、以下の手順で自動ラベリング実験を行った。先ず、表2の条件でHTK(HMM Tool Kit)を用いて、手動ラベリングを元にモノフォンの音素モデル学習を行った。図4に示す基準学習データ数(2〜40)に基づいて検索された文の音声データ(話者A)と、表3に示す音声データ(話者B)によってそれぞれ音素モデルを学習し、表4に示す音声データ(話者A)に対してViterbiアルゴリズムで自動音素ラベリングを行った。
【0014】
音響パラメータは、FBANK(メル分割されたフィルタバンクの対数パワー)の10チャンネルとEnergy(E=logΣn=1 を正規化)成分を加えた
ものと、それらのΔ、ΔΔを用いた。ここで、Δは差分を意味し、ΔΔは差分の差分を意味する。
【表3】
Figure 2004252167
【表4】
Figure 2004252167
(実験結果)
表1から検索した文に含まれる音素43種は表2に示される学習音素種類数51種を満たせないことと、43種中、2〜40の基準学習データ数全てにおいて共通して作成することができた音素モデルの音素は36種であった。よって、自動音素ラベリング結果はこれらの音素36種の境界のみを扱う。自動ラベリングにより得られた音素境界と手動ラベリングの音素境界の誤差について、誤差値の絶対値の平均と誤差値の分散を求め、自動ラベリングの精度を分析する。図5は自動ラベリングの精度と基準学習データ数の関係を示す。また、図6は基準学習データ数を設定したときの学習音声データ時間を計算し、文リストに基づいて発声した音声データの時間長とラベリング精度の誤差の関係を示す。図5に見られる通り、基準学習データ数が増加するに伴って自動ラベリング誤差が減少していることがわかる。基準学習データ数が3のとき、他者のHMM音素モデルを用いた自動ラベリング誤差を超える。また、基準学習データ数が10〜15のとき、自動ラベリング誤差が収束する。図5の結果と音声データ量に換算した図6の結果から、1)手動ラベリングにより予め正しい音素境界が与えられた40秒程度の音声データでHMM音素モデルを学習しておくことで、他者のHMM音素モデルを用いるよりも高い精度が得られること、2)予め正しい音素境界を与えられた2〜3分程度の音声データでHMM音素モデルを作成すれば、充分な精度を得られることが明らかになった。
【0015】
以上の通り、この発明は、必要な最低限の音素を含む文を、効率の良い順番で選択していくことで、選択される文の長さおよび文の数を最小限にしつつ、各音素モデルの学習に充分な文を選択して行くことができ、非常に少ない読み上げ文セットとそれらに対応した音声データを用いて音素モデルの作成をすることができることとなった。これにより、手動ラベリングで予め正しい音素境界を付与しておくコストも削減することができる。
ここで、この発明は電子計算機を主要な構成部材として構成している。また、この発明を、CDその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこの電子計算機にインストールして実施することができる。
【0016】
【発明の効果】
上述した通りであって、この発明によれば、自動音素ラベリングに用いる統計的音素学習について、学習量を調整し、少ない学習量で手動による正確なラベリングを行う音声データ量を最小限に抑えると同時に、自動音素ラベリングの精度を良くすることができる。ここで、目標を手動ラベリングの結果とし、手動ラベリングによる音素境界位置との間の差が小さいことを精度がよいとする。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】図1の続き。
【図3】学習効率の計算と文ソートを説明する図。
【図4】基準学習データ数と、ファイル数、データ長、音素数の関係を示す図。
【図5】基準学習データ数と誤差の関係を示す図。
【図6】学習した音声データ時間と誤差平均の関係を示す図。
【符号の説明】
1 データベース 2 個数リスト
3 音素個数カウント部 4 並び替えたリスト
5 音素個数順ソート部 6 最少個数音素文リスト
7 最少個数音素文リスト生成部 8 効率計算文リスト
9 学習効率計算部 10 並べ替え文リスト
11 学習効率順文ソート部 12 選択文リスト
13 基準学習データ数分選択部 14 既選択文音素個数リスト
14’既選択文音素個数リスト 15 既選択文音素個数カウント部
16 音素β文リスト 17 基準学習データ数未満音素文リスト生成部
18 音声データ 19 音素モデル学習部
20 音素モデルリスト

Claims (3)

  1. 音素の統計的音響モデルを学習する音素モデル学習用文リスト生成方法において、
    所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベースを具備して、元テキストデータベースから各音素の個数をカウントして個数の個数リストを生成し、
    個数リストの音素を個数順に並び替えた並び替えリストを生成し、
    並び替えリストの中で個数の最も少ない最小個数音素を含む全ての文を最少個数音素文リストに並べ、
    並び替えリストの中で個数の最も少ない最小個数音素を含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リストを生成し、ここで、
    文の学習効率スコア=(個数が基準学習データ数未満である音素(最小個数音素を除く)の種類数/(当該文に含まれる全ての音素数)で計算され、
    学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、
    効率計算文リストから供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リストを生成し、
    最小個数音素の個数が基準学習データ数に達するまで並べ替え文リストの上位から順に文を選択し、選択された選択文リストを生成し、
    選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、
    並び替えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成する、ことを特徴とする音素モデル学習用文リスト生成方法。
  2. 音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、
    所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベースを具備し、
    元テキストデータベースから各音素の個数をカウントして個数リストを生成する音素個数カウント部を具備し、
    個数リストの音素を個数順に並び替えた並び替えリストを生成する音素個数順ソート部を具備し、
    並び替えリストの中で個数の最も少ない最小個数音素を含む全ての文を最少個数音素文リストに並べる最少個数音素文リスト生成部を具備し、
    並び替えリストの中で個数の最も少ない音素を含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リストを生成する学習効率計算部を具備し、ここで、
    文の学習効率スコア=(個数が基準学習データ数未満である音素(最小個数音素を除く)の種類数/(当該文に含まれる全ての音素数)で計算され、
    学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、
    効率計算文リストから供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リストを生成する学習効率順文ソート部を具備し、
    音素の個数が基準学習データ数に達するまで並べ替え文リストの上位から順に文を選択し、選択された選択文リストを生成する基準学習データ数分選択部を具備し、
    選択文リスト中に含まれる音素の個数を数え既選択文音素個数リストを生成する既選択文音素個数カウント部を具備し、
    並び替えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成する基準学習データ数未満音素文リスト生成部を具備する、ことを特徴とする音素モデル学習用文リスト生成装置。
  3. 所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベースから各音素の個数をカウントして個数個数リストを生成し、
    個数リストの音素を個数順に並び替えた並び替えリストを生成し、
    並び替えリストの中で個数の最も少ない最小個数音素を含む全ての文を最少個数音素文リストに並べ、
    並び替えリストの中で個数の最も少ない最小個数音素を含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算し効率計算文リストを生成し、ここで、
    文の学習効率スコア=(個数が基準学習データ数未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、
    学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、
    効率計算文リストから供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リストを生成し、
    最小個数音素の個数が基準学習データ数に達するまで並べ替え文リストの上位から順に文を選択し、選択された選択文リストを生成し、
    選択文リスト中に含まれる音素の個数を数えて既選択文音素個数リストを生成し、
    並び替えリストの中で最小個数音素の次に個数の少ない音素について、既選択文音素個数リスト中に基準学習データ数に達していない場合、当該音素をも含む基準学習データ数未満音素文リストを生成する指令をコンピュータに対して実行する音素モデル学習用文リスト生成プログラム。
JP2003042611A 2003-02-20 2003-02-20 音素モデル学習用文リスト生成装置、および生成プログラム Expired - Fee Related JP3981640B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003042611A JP3981640B2 (ja) 2003-02-20 2003-02-20 音素モデル学習用文リスト生成装置、および生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003042611A JP3981640B2 (ja) 2003-02-20 2003-02-20 音素モデル学習用文リスト生成装置、および生成プログラム

Publications (2)

Publication Number Publication Date
JP2004252167A true JP2004252167A (ja) 2004-09-09
JP3981640B2 JP3981640B2 (ja) 2007-09-26

Family

ID=33025844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003042611A Expired - Fee Related JP3981640B2 (ja) 2003-02-20 2003-02-20 音素モデル学習用文リスト生成装置、および生成プログラム

Country Status (1)

Country Link
JP (1) JP3981640B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322816A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd コーパス設計方法、コーパス設計装置及びコーパス設計プログラム
WO2010086927A1 (ja) * 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP5376341B2 (ja) * 2008-10-31 2013-12-25 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
JP2014102345A (ja) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用テキスト作成装置とその方法とプログラム
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322816A (ja) * 2006-06-01 2007-12-13 Oki Electric Ind Co Ltd コーパス設計方法、コーパス設計装置及びコーパス設計プログラム
JP5376341B2 (ja) * 2008-10-31 2013-12-25 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
WO2010086927A1 (ja) * 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置
JP4772164B2 (ja) * 2009-01-30 2011-09-14 三菱電機株式会社 音声認識装置
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
JP2011248001A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用ラベル作成装置、その方法及びプログラム
JP2014102345A (ja) * 2012-11-19 2014-06-05 Nippon Telegr & Teleph Corp <Ntt> 音響モデル学習用テキスト作成装置とその方法とプログラム
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Also Published As

Publication number Publication date
JP3981640B2 (ja) 2007-09-26

Similar Documents

Publication Publication Date Title
Valle et al. Mellotron: Multispeaker expressive voice synthesis by conditioning on rhythm, pitch and global style tokens
EP0984428B1 (en) Method and system for automatically determining phonetic transcriptions associated with spelled words
US7488886B2 (en) Music information retrieval using a 3D search algorithm
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
Athanaselis et al. ASR for emotional speech: clarifying the issues and enhancing performance
US20080059190A1 (en) Speech unit selection using HMM acoustic models
Parlak et al. Spoken term detection for Turkish broadcast news
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
Rutherford et al. Pronunciation learning for named-entities through crowd-sourcing.
Chen et al. Modeling of speaking rate influences on Mandarin speech prosody and its application to speaking rate-controlled TTS
Li et al. Styletts-vc: One-shot voice conversion by knowledge transfer from style-based tts models
JP2019101065A (ja) 音声対話装置、音声対話方法及びプログラム
JP3981640B2 (ja) 音素モデル学習用文リスト生成装置、および生成プログラム
Lee et al. A comparison of speaker-based and utterance-based data selection for text-to-speech synthesis
Liu et al. State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition
JP6674876B2 (ja) 補正装置、補正方法及び補正プログラム
Taylor Unifying unit selection and hidden Markov model speech synthesis.
Pantazoglou et al. Implementation of the generic greek model for cmu sphinx speech recognition toolkit
Gody et al. Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature
Stan RECOApy: Data recording, pre-processing and phonetic transcription for end-to-end speech-based applications
Chen et al. Data sampling based ensemble acoustic modelling
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition
CN112967717B (zh) 一种高准确性的英语语音翻译的模糊匹配训练方法
JP2005292770A (ja) 音響モデル生成装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20061018

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120706

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130706

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees