JP3981640B2 - 音素モデル学習用文リスト生成装置、および生成プログラム - Google Patents
音素モデル学習用文リスト生成装置、および生成プログラム Download PDFInfo
- Publication number
- JP3981640B2 JP3981640B2 JP2003042611A JP2003042611A JP3981640B2 JP 3981640 B2 JP3981640 B2 JP 3981640B2 JP 2003042611 A JP2003042611 A JP 2003042611A JP 2003042611 A JP2003042611 A JP 2003042611A JP 3981640 B2 JP3981640 B2 JP 3981640B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- sentence
- learning
- list
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【産業上の利用分野】
この発明は、音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関し、特に、自動ラベリングに用いる音素モデルの学習に際して少ない音声データでより高精度な音素モデルを作成するに必要とされる、音声データの元となる読み上げ文を効率よく選択する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムに関する。
【0002】
【従来の技術】
音声認識、音声合成のデータベース作成用の文リスト生成技術として、音声データベースを作成するに必要とされる単語セットを選択する方法が研究開発されている(非特許文献1 参照)。これは、エントロピー最大化アルゴリズムを提案し、単語母集団から音韻バランスの取れたエントロピー最大のサブセットを選ぶものである。子集団のエントロピーをCV音節の出現頻度/VC音節VV音節の推移頻度を考慮したバランスリストを生成する。現在はトライフォン音響モデルを音響単位とすることが一般的で、表現される音響単位の出現頻度の均一化に応じて増大し、子集団に含まれない音響単位が少ない程エントロピーが増大する関数として定義し、集団内外から抽出された2文を仮に交換した場合のエントロピーと比較することで最適な文セットを選択する。
【0003】
【非特許文献1】
鹿野清宏、「エントロピーによる音韻バランス単語リストの作成」、音響学会講演論文集(昭和59年3月)、pp.211−212
【0004】
【発明が解決しようとする課題】
以上の従来の方法は全ての音響単位に対して均等である様に文収集するのに対して、この発明は、全ての音響単位に基準となる最低限の個数、即ち、基準学習データ数を保証するものであり、即ち、様々な音素を含む文の音声データから、効率的に音素を学習することができる文を選択し、選択された文に含まれる音素を学習することにより、音素の学習を効率化しながら学習する音声データ量を最少化する音素モデル学習用文リスト生成方法、生成装置、および生成プログラムを提供するものである。
【0005】
【課題を解決するための手段】
音素の統計的音響モデルを学習する音素モデル学習用文リスト生成方法において、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース1を具備して元テキストデータベース1から各音素の個数をカウントして個数の個数リスト2を生成し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べ、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成し、最小個数音素αの個数が基準学習データ数aに達する迄並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成し、リスト12中に含まれる音素の個数を数えて既選択文音素個数リスト14を生成し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する音素モデル学習用文リスト生成方法を構成した。
【0006】
そして、音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、所定の充分な量の音素および音素における環境、その他のバリエーションを充分に含む文セットより成る元テキストデータベース1を具備し、元テキストデータベース1から各音素の個数をカウントして個数リスト2を生成する音素個数カウント部3を具備し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成する音素個数順ソート部5を具備し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べる最少個数音素文リスト生成部7を具備し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成する学習効率計算部9を具備し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成する学習効率順文ソート部11を具備し、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成する基準学習データ数分選択部13を具備し、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成する既選択文音素個数カウント部15を具備し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する基準学習データ数未満音素文リスト生成部17を具備する音素モデル学習用文リスト生成装置を構成した。
【0007】
また、所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベース1から各音素の個数をカウントして個数の個数リスト2を生成し、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成し、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べ、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成し、ここで、文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算され、学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算され、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成し、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成し、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成し、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する指令をコンピュータに対して実行する音素モデル学習用文リスト生成プログラムを構成した。
【0008】
【発明の実施の形態】
一般に、HMM音素モデルの学習において、精度の高いHMM音素モデルを作成するには、各音素毎に充分な音声データがあることが必要である。従って、学習音声データ量を検討する際には、学習する音声データの総時間長のみを考慮するのは問題があり、各音素毎の音声データ数を考慮する必要がある。
そのために、以下で示す手順により各音素が必要とする音声データ数(以後、基準学習データ数、と呼ぶ)を効率良く収集可能な様に、音声データの発声内容である読み上げ文を選択する。
この選択された読み上げ文に基づいて、音素モデルを作成したい話者が発声した音声データは、HMM音素モデルの学習に効率のよい音声データとなる。
(1) 基準学習データ数aを与える。
(2) 所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットよりなる元テキストデータベースに含まれる音素毎に個数をカウントする。
(3) (2)において個数が最小であった最小個数音素αを含む全ての文を元テキストデータベースから検索する。
(4) 上記の文について、次式に定める文の学習効率スコアを計算する。
文の学習効率スコア=(個数が基準学習データ数a未満である音素(最小個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)
(5) 上記の文を上記文の学習効率スコアの高い順に並べる。ただし、文の学習効率スコアが同値の場合は、以下の学習バリエーション効率スコアの高い順に並べる。
【0009】
上記並べられた文から、上記文の学習効率スコアの高い順に最小個数音素αの個数が基準学習データ数a以上になるまで選択する。
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)
(6) 上記選択された全ての文または、既に選択された文があればそれに上記選択された文を追加した全ての文において、文に含まれる音素毎に個数をカウントし、個数が最小となる音素に対して、もし個数が基準学習データ数a未満である場合は、上記元テキストデータベースから上記選択された文を除き新たに元テキストデータベースとして(3)〜(6)までを繰り返す。
(7) 上記(3)〜(6)までの手順を全ての音素において個数が基準学習データ数a以上になるまで繰り返す。
【0010】
【実施例】
以上の文検索を図1ないし図3を参照して説明する。
図1および図2において、3は音素個数カウント部であり、元テキストデータベース1から各音素の個数をカウントして音素の個数の個数リスト2を生成する部位である。音素の統計的音響モデルを学習する学習データ選択において、元テキストデータベース1は所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットにより構成されている。この元テキストデータベース1を元にして、学習したい音素の全てを効率よく含む、即ち、各音素の個数を充分に含む最少の文セット、同時にそれぞれの音素において環境その他のバリエーションをバランスよく含む文セットを選択する。各音素の環境はある程度バリエーションを持つサンプルの学習が望ましい。
5は音素個数順ソート部であり、個数リスト2の音素を個数順に並び替えた並び替えリスト4を生成する部位である。
7は最少個数音素文リスト生成部であり、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む全ての文を最少個数音素文リスト6に並べる部位である。
9は学習効率計算部であり、並び替えリスト4の中で個数の最も少ない最小個数音素αを含む文リストの音素モデルの学習効率スコア、学習バリエーション効率を計算して効率計算文リスト8を生成する部位である。
【0011】
11は学習効率順文ソート部であり、効率計算文リスト8から供給される文を学習効率スコア順に並べ替え、学習効率スコアが同値の場合は学習バリエーション効率順に並べ替えた並べ替え文リスト10を生成する部位である。
13は基準学習データ数分選択部であり、最小個数音素αの個数が基準学習データ数aに達するまで並べ替え文リスト10の上位から順に文を選択し、選択された選択文リスト12を生成する部位である。
15は既選択文音素個数カウント部であり、選択文リスト12中に含まれる音素の個数を数え既選択文音素個数リスト14を生成する部位である。
17は基準学習データ数未満音素文リスト生成部であり、並び替えリスト4の中で最小個数音素αの次に個数の少ない音素βについて、既選択文音素個数リスト14中に基準学習データ数aに達していない場合、当該音素βをも含む基準学習データ数未満音素文リスト16を生成する部位である。
ここで、基準学習データ数aに達するまで、学習効率計算部9から既選択文音素個数カウント部15に到る各部位の処理操作を繰り返し実行する。
19は音素モデル学習部であり、選択された既選択文音素個数リスト14’に対応する、予め「音素境界ラベリング」が与えられた音声データ18を用いて、全ての音素を学習し、音素モデル個数リスト20を生成、完成する部位である。
【0012】
図3を参照して学習効率の計算とソートについて説明する。
基準学習データ数=2で、該当音素/PY/についての学習文選択において、既に選択された文があり、その中に含まれる音素の構成が{/A/3、/I/2、/U/4、
/E/4、/O/5、それ以外の音素0}であるとき、
1ぴかぴかひかる
/PY/2
/*/3
/K/3
/HY/1
/I/1
/A/3
/U/1
/R/1
総音素数=15
音素の種類数=8
基準学習データ数未満の種類数=5
学習効率スコア=5/15(0.333)→基準学習データ数以下の種類数/総音素数
学習バリエーション効率スコア=8/15(0.533)→音素の種類数+環境数(環境⇒例えば、前側/後続音素、基本周波数F0、その他、この実例においては考慮していないので値は0)/総音素数
2スピンした
/S/1
/PY/1
/I/2
/N'/1
/SY/1
/*/1
/T/1
/A/1
総音素数=9
音素の種類数=8
基準学習データ数未満の種類数=6
学習効率スコア=6/9(0.667)
学習バリエーション効率スコア=8/9(0.889)
3安否が気遣われる
/A/4
/N'/1
/PY/1
/I/2
/G/1
/*/2
/KY/1
/Z/1
/U/2
/K/1
/W/1
/R/2
/K/1
総音素数=20
音素の種類数=13
基準学習データ数未満の種類数=9
学習効率スコア=9/20(0.45)
学習バリエーション効率スコア=13/20(0.65)
↓
※学習データ効率順に並べ替える。但し、同値の場合は学習バリエーション効率順とする。
→2、3、1
【0013】
以下、具体例を説明する。
基準学習データ数と自動ラベリング精度の関係を明らかにするに、以上の手順に基づいて、2、3、5、8、10、15、20、25、30、35、40の基準学習データ数に対して文を検索した。
表1の読み上げ文データから以上の手順で選択した文の数と、それらの文に含まれる音素の総数、対応する音声データの時間をそれぞれ図4に示す。表1のデータにおける読み上げ文の中で、全ての音素約24万個を学習しても個数が少ない音素は40個であることにかわりはなく、学習効率は音素によってばらつく。この発明の手順における図4の基準学習データ数40における選択された文の全体の音素数約6,500個と比較すると、少ない文データでモノフォンの音素モデルの学習効率を向上できたと考えられる。
【表1】
【表2】
学習効率の良いデータから作成された音素モデルを用いることによる効果を示す自動ラベリング実験を以下に示す。
女声ナレータの音声データを用いて、以下の手順で自動ラベリング実験を行った。先ず、表2の条件でHTK(HMM Tool Kit)を用いて、手動ラベリングを元にモノフォンの音素モデル学習を行った。図4に示す基準学習データ数(2〜40)に基づいて検索された文の音声データ(話者A)と、表3に示す音声データ(話者B)によってそれぞれ音素モデルを学習し、表4に示す音声データ(話者A)に対してViterbiアルゴリズムで自動音素ラベリングを行った。
【0014】
音響パラメータは、FBANK(メル分割されたフィルタバンクの対数パワー)の10チャンネルとEnergy(E=logΣn=1 Nsn 2を正規化)成分を加えた
ものと、それらのΔ、ΔΔを用いた。ここで、Δは差分を意味し、ΔΔは差分の差分を意味する。
【表3】
【表4】
(実験結果)
表1から検索した文に含まれる音素43種は表2に示される学習音素種類数51種を満たせないことと、43種中、2〜40の基準学習データ数全てにおいて共通して作成することができた音素モデルの音素は36種であった。よって、自動音素ラベリング結果はこれらの音素36種の境界のみを扱う。自動ラベリングにより得られた音素境界と手動ラベリングの音素境界の誤差について、誤差値の絶対値の平均と誤差値の分散を求め、自動ラベリングの精度を分析する。図5は自動ラベリングの精度と基準学習データ数の関係を示す。また、図6は基準学習データ数を設定したときの学習音声データ時間を計算し、文リストに基づいて発声した音声データの時間長とラベリング精度の誤差の関係を示す。図5に見られる通り、基準学習データ数が増加するに伴って自動ラベリング誤差が減少していることがわかる。基準学習データ数が3のとき、他者のHMM音素モデルを用いた自動ラベリング誤差を超える。また、基準学習データ数が10〜15のとき、自動ラベリング誤差が収束する。図5の結果と音声データ量に換算した図6の結果から、1)手動ラベリングにより予め正しい音素境界が与えられた40秒程度の音声データでHMM音素モデルを学習しておくことで、他者のHMM音素モデルを用いるよりも高い精度が得られること、2)予め正しい音素境界を与えられた2〜3分程度の音声データでHMM音素モデルを作成すれば、充分な精度を得られることが明らかになった。
【0015】
以上の通り、この発明は、必要な最低限の音素を含む文を、効率の良い順番で選択していくことで、選択される文の長さおよび文の数を最小限にしつつ、各音素モデルの学習に充分な文を選択して行くことができ、非常に少ない読み上げ文セットとそれらに対応した音声データを用いて音素モデルの作成をすることができることとなった。これにより、手動ラベリングで予め正しい音素境界を付与しておくコストも削減することができる。
ここで、この発明は電子計算機を主要な構成部材として構成している。また、この発明を、CDその他の記憶媒体からダウンロードし或いは通信回線を介してダウンロードしたプログラムをこの電子計算機にインストールして実施することができる。
【0016】
【発明の効果】
上述した通りであって、この発明によれば、自動音素ラベリングに用いる統計的音素学習について、学習量を調整し、少ない学習量で手動による正確なラベリングを行う音声データ量を最小限に抑えると同時に、自動音素ラベリングの精度を良くすることができる。ここで、目標を手動ラベリングの結果とし、手動ラベリングによる音素境界位置との間の差が小さいことを精度がよいとする。
【図面の簡単な説明】
【図1】実施例を説明する図。
【図2】図1の続き。
【図3】学習効率の計算と文ソートを説明する図。
【図4】基準学習データ数と、ファイル数、データ長、音素数の関係を示す図。
【図5】基準学習データ数と誤差の関係を示す図。
【図6】学習した音声データ時間と誤差平均の関係を示す図。
【符号の説明】
1 データベース 2 個数リスト
3 音素個数カウント部 4 並び替えたリスト
5 音素個数順ソート部 6 最少個数音素文リスト
7 最少個数音素文リスト生成部 8 効率計算文リスト
9 学習効率計算部 10 並べ替え文リスト
11 学習効率順文ソート部 12 選択文リスト
13 基準学習データ数分選択部 14 既選択文音素個数リスト
14’既選択文音素個数リスト 15 既選択文音素個数カウント部
16 音素β文リスト 17 基準学習データ数未満音素文リスト生成部
18 音声データ 19 音素モデル学習部
20 音素モデルリスト
Claims (2)
- 音素の統計的音響モデルを学習する音素モデル学習用文リスト生成装置において、
所定の充分な量の音素および音素における環境その他のバリエーションを充分に含む文セットより成る元テキストデータベースと、
元テキストデータベースから各音素の個数をカウントして個数リストを生成する音素個数カウント部と、
個数リストの音素を個数順に並び替えた並び替えリストを生成する音素個数順ソート部と、
前記並び替えリストの中で個数の最も少ない最少個数音素αを含む全ての文を前記元テキストデータベースから検索し、最少個数音素文リストに並べる最少個数音素文リスト生成部と、
前記最少個数音素文リストに含まれる各文について、音素モデルの学習効率スコア、学習バリエーション効率スコアを計算する学習効率計算部と、
前記最少個数音素文リストに含まれる各文を、前記学習効率スコア順に並べ替え、学習効率スコアが同値の場合は前記学習バリエーション効率スコア順に並べ替えた並べ替え文リストを生成する学習効率順文ソート部と、
前記最少個数音素の個数が基準学習データ数に達するまで前記並べ替え文リストの上位から順に文を選択し、選択された文を選択文リストに追加する基準学習データ数文選択部と、
前記選択文リスト中に含まれる音素の個数を数え、既選択文音素個数リストを生成する既選択文音素個数カウント部と、
前記並び替えリストの中で最少個数音素αの次に個数の少ない音素βについて、前記既選択文音素個数リスト中に前記基準学習データ数に達していない場合、前記基準学習データ数文選択部により選択された文を除き、前記元テキストデータベースから当該音素βを含む文を検索し、基準学習データ数未満音素文リストを生成する基準学習データ数未満音素文リスト生成部と、を具備し、
音素βを最少個数音素αとし、直前に基準学習データ数未満音素文リスト生成部で生成された基準学習データ数未満音素文リストを最少個数音素文リストとして、前記学習効率計算部に入力し、前記学習効率計算部、前記学習効率順文ソート部、前記基準学習データ数文選択部、前記既選択文音素個数カウント部、前記基準学習データ数未満音素文リスト生成部の各処理を繰り返し、
前記学習効率計算部は、
前記学習効率スコアを、
学習効率スコア=(個数が基準学習データ数未満である音素(最少個数音素αを除く)の種類数/(当該文に含まれる全ての音素数)で計算し、
前記学習バリエーション効率スコアを、
学習バリエーション効率スコア=(当該文に含まれる全ての音素の種類数)/(当該文に含まれる全ての音素数)で計算することを特徴とする音素モデル学習用文リスト生成装置。 - 請求項1記載の音素モデル学習用文リスト生成装置の各構成部をコンピュータにより実行するための音素モデル学習用文リスト生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003042611A JP3981640B2 (ja) | 2003-02-20 | 2003-02-20 | 音素モデル学習用文リスト生成装置、および生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003042611A JP3981640B2 (ja) | 2003-02-20 | 2003-02-20 | 音素モデル学習用文リスト生成装置、および生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004252167A JP2004252167A (ja) | 2004-09-09 |
JP3981640B2 true JP3981640B2 (ja) | 2007-09-26 |
Family
ID=33025844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003042611A Expired - Fee Related JP3981640B2 (ja) | 2003-02-20 | 2003-02-20 | 音素モデル学習用文リスト生成装置、および生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3981640B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102246226A (zh) * | 2009-01-30 | 2011-11-16 | 三菱电机株式会社 | 声音识别装置 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4775119B2 (ja) * | 2006-06-01 | 2011-09-21 | 沖電気工業株式会社 | コーパス設計装置 |
US20110224985A1 (en) * | 2008-10-31 | 2011-09-15 | Ken Hanazawa | Model adaptation device, method thereof, and program thereof |
JP5391150B2 (ja) * | 2010-05-25 | 2014-01-15 | 日本電信電話株式会社 | 音響モデル学習用ラベル作成装置、その方法及びプログラム |
JP5980101B2 (ja) * | 2012-11-19 | 2016-08-31 | 日本電信電話株式会社 | 音響モデル学習用テキスト作成装置とその方法とプログラム |
US20240078999A1 (en) * | 2021-01-15 | 2024-03-07 | Nippon Telegraph And Telephone Corporation | Learning method, learning system and learning program |
-
2003
- 2003-02-20 JP JP2003042611A patent/JP3981640B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102246226A (zh) * | 2009-01-30 | 2011-11-16 | 三菱电机株式会社 | 声音识别装置 |
CN102246226B (zh) * | 2009-01-30 | 2013-11-13 | 三菱电机株式会社 | 声音识别装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2004252167A (ja) | 2004-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11069335B2 (en) | Speech synthesis using one or more recurrent neural networks | |
Athanaselis et al. | ASR for emotional speech: clarifying the issues and enhancing performance | |
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
US7488886B2 (en) | Music information retrieval using a 3D search algorithm | |
Kirchhoff et al. | Novel approaches to Arabic speech recognition: report from the 2002 Johns-Hopkins summer workshop | |
US6363342B2 (en) | System for developing word-pronunciation pairs | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP2004523004A (ja) | 階層言語モデル | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
Shahin et al. | Talking condition recognition in stressful and emotional talking environments based on CSPHMM2s | |
JP2019101065A (ja) | 音声対話装置、音声対話方法及びプログラム | |
Walker et al. | Semi-supervised model training for unbounded conversational speech recognition | |
JP3981640B2 (ja) | 音素モデル学習用文リスト生成装置、および生成プログラム | |
JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
Stuttle et al. | A framework for dialogue data collection with a simulated ASR channel. | |
Lee et al. | A comparison of speaker-based and utterance-based data selection for text-to-speech synthesis | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Kuzdeuov et al. | Speech command recognition: Text-to-speech and speech corpus scraping are all you need | |
Kominek | Tts from zero: Building synthetic voices for new languages | |
Zhu et al. | Controlling expressivity using input codes in neural network based TTS | |
Clark et al. | Multisyn voices for the Blizzard Challenge 2006 | |
Tao et al. | A BLSTM Guided Unit Selection Synthesis System for Blizzard Challenge 2016 | |
Fukubayashi et al. | Rapid prototyping of robust language understanding modules for spoken dialogue systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050128 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061018 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070626 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070702 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120706 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130706 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |