JP3302266B2 - ヒドン・マルコフ・モデルの学習方法 - Google Patents
ヒドン・マルコフ・モデルの学習方法Info
- Publication number
- JP3302266B2 JP3302266B2 JP19314596A JP19314596A JP3302266B2 JP 3302266 B2 JP3302266 B2 JP 3302266B2 JP 19314596 A JP19314596 A JP 19314596A JP 19314596 A JP19314596 A JP 19314596A JP 3302266 B2 JP3302266 B2 JP 3302266B2
- Authority
- JP
- Japan
- Prior art keywords
- state
- hmm
- states
- learning
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 53
- 230000005283 ground state Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- UOCLXMDMGBRAIB-UHFFFAOYSA-N 1,1,1-trichloroethane Chemical compound CC(Cl)(Cl)Cl UOCLXMDMGBRAIB-UHFFFAOYSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
に適用されるヒドン・マルコフ・モデルの学習方法に関
する。
・マッチング手法から、近年では統計的な手法に変わ
り、後者は主流になりつつある。後者の統計的な手法で
は、確率的な有限状態を持つマルコフ・モデルが提案さ
れており、通常、ヒドン・マルコフ・モデル(HMM:
hidden Markov model)と呼ぶ。
えば以下のような文献に記載されるものがある。
・ジャーナル(The Bell System Technical Journal)
62「4」(1983.4)Americam Telephone and T
elegraph Company,(米)、エス・イー・レビンソン
(S.E.Levinson)、エル・アール・ラビナー(L.R.Rabi
ner)とエム・エム・ソンディ(M.M.Sondhi)著「An In
troduction to the Application of the Theory of Pro
babilistic Functions of a Markov Process to Automa
tic Speech Recognition.p1053−1074。
声認識」(昭63.7)、電子情報通信学会、p55−
61。
steringに基づく効率的なShared-State Triphone HMM」
(平7−6)、電子通信学会技術研究報告、SP95−
21、p23−30。
の学習方法」特願平7−340624号。
音声の特徴等)と状態間の遷移からなる。さらに、HM
Mは状態間の遷移を表す遷移確率と、遷移する際に伴う
特徴ベクトルを出力する出力確率分布(通常はガウス分
布を用いる)を有している。このようなHMMを用いた
音声認識方法が前記文献1に記載されており、その単語
音声認識の例を図3に示す。
MMの構造を示す状態遷移図である。
ける音声の特徴等の状態を表し、a11,a12,a22,a
23,a33,a34,a44,a45は状態遷移確率、(u1,
σ1)、(u2,σ2)、(u3,σ3)、(u4,σ4)は
出力確率分布を表す。
…,4、j=1,…,5)で状態遷移が行なわれる際、
出力確率分布(uk、σk)でべクトルを出力する。発
声された単語をHMMを用いて認識するには、まず、各
単語に対して用意された学習データを用いて、その単語
のベクトル列を最も高い確率で出力するようにHMMを
学習する。次に、発声された未知単語のべクトル列を入
力し、最も高い出力確率を与えた単語HMMを認識結果
とする。
語そのものにHMMを与えて学習し、尤度(すなわち、
べクトル列の出力確率)によって認識結果を判断するも
のである。このような単語HMMは、優れた認識精度を
保証するが、認識語彙数が増大することによって膨大な
学習データが必要となることや、学習対象語以外の音声
が全く認識できないことなどの欠点がある。
学的要素の系列で単語を表している。したがって、音素
ごとにHMMを用意し、これらのHMMを連結して単語
HMMを生成し、単語認識を行う方法もある。しかし、
実際に発声された単語音声においては、各々の音素は隣
同士の音素の影響を受け、特徴パラメータ(例えば、ス
ペクトル)がかなり変形してしまう。このような調音結
合によるスペクトルの変形は、音素HMMで表現しきれ
ないことがある。そのため、このような単純に音素HM
Mを連結して単語を認識する方法では、認諏率の低下が
免れない。
め、前後の音韻環境に依存する音素モデル、すなわちダ
イフォン(diphone)とトライフォン(triphone)が提
案されている。ここで言うダイフォンとは、対象音素に
対して、先行音素もしくは後続音素のどれかが既知であ
る音素を指し、トライフォンは先行音素と後続音素両方
とも既知である音素を指す。音声認識を行う際、ダイフ
ォンあるいはトライフォンHMMを用意し、これらのH
MMの連接によって単語HMMを構成し、単語認識を行
うようにしている。
立型音素HMMに比べ、調音結合によるスペクトル変形
に伴う認識率の低下が回避できるが、モデル数が多いた
め、HMMを学習するには大量な学習データを用意しな
ければならなかった。そこで、HMMを精度よく学習す
るため、トライフォンHMMの状態を共有化する方法が
提案されている(上記文献3参照)。この方法は、トラ
イフォンHMMの状態をクラスタリング(clustering)
して代表状態(代表点)を選び、同一クラスタに属する
状態はすべて代表状態で表し、これにより、状態の共有
を行なう。しかし、従来の状態共有法には以下のような
問題があった。
図であり、クラスタAとB、それぞれの代表状態SAと
SB、それぞれのクラスタに属する状態SA1とSB1及び
共有関係を示している。SA1はクラスタAに属するた
め、SAと共有関係を持つが、クラスタBの代表状態SB
とも近いため、単純にSAにのみ共有化させると、HM
Mの精度が低下するおそれがある。
共有を提案し(文献4:特願平7−340624号)、
以下のように状態共有関係を設計した。すなわち、1つ
の状態は複数の代表状態と共有関係を持たせ、具体的に
は、注目状態と各代表状態との距離を計算し、注目状態
に最も近い数個の代表状態(例えば、上位4個の代表状
態)の線形組み合わせで注目状態を表現する。この方法
の概念を図5に示す。
ような図4に示す状態共有法では、以下のような問題点
があった。
有より精密に状態を表現し、より高い認識性能が得られ
ることを実験で証明したが、新たな解決課題も現れた。
すなわち、代表状態に距離が極めて近い一部の状態に対
して、多元共有を施すと、かえって共有精度を下げてし
まい、逆効果になってしまう。
HMM)に対して学習データのばらつきがあり、一部の
HMMに対しては学習データ量が充分にあるが、残りの
HMMに対して充分でない現象がある。上述したように
すべてのHMMに対して状態共有を行うので、すでに充
分に学習されたHMMの精度が低下するおそれがある。
下を防ぐことができるヒドン・マルコフ・モデルの学習
方法を提供することを目的とする。
ルコフ・モデルの学習方法は、(a) 学習データを用いてヒドン・マルコフ・モデル
(HMM)を学習するステップ(ST2、ST3、ST
4)と、 (b) 前記学習により得られたHMMを状態に分解し、
該状態をクラスタリングして複数の基底代表状態を決定
するステップ(ST5)と、 (c) HMMの各状態に対し、前記複数の基底代表状態
の中から、複数個の代表状態を選定して選定された代表
状態の線形組み合わせで各状態を表現するステップ(S
T11)と を含み、前記ステップ(c)において選定され
る代表状態の数が各状態毎に別個に定められることを特
徴とする 。
らの距離が比較的小さい代表状態を選定することとして
も良い。
数(M)の代表状態を選択することと、 (c2) 下記の式(8)
態と選択された各代表状態との距離である。))によ
り、値Fikを算出することと、 (c3) 求められた値Fikが所定の閾値よりも大きいと
きに下記の式(9)
い。
合わせで表現された状態を用いてHMMを再構成し、再
構成されたHMMを、学習データを用いて再学習するス
テップ(ST7)をさらに含んでも良い。
こととしても良い。また、前記HMMは、トライフォン
HMM、ダイフォンHMM若しくは音素HMMであって
も良い。
モデルの学習方法は、トライフォンHMMの学習方法に
適用することができる。
ン・マルコフ・モデルの学習方法の処理を示すフローチ
ャートである。図1中、STはフローの各ステップを示
す。
ップST1)、学習データの音声信号(ここでは、単語
音声が入力されたこととする。)が入力され(ステップ
ST2)、前処理を行う(ステップST3)。この前処
理では、例えば入力されたアナログ音声信号をA/D変
換によってディジタル信号に変換し、LPC(LinearPr
edictive Coding:線形予測符号化)分析によるLPC
ケプストラムの抽出等により、音声特徴パラメータを抽
出する。
データ音声を使用してトライフォンHMMパラメータを
推定する。その推定には、例えば前記文献2に記載され
たBaum-Welch(B−W)アルゴリズムを用いる。
…,oT及び状態系列I=i1,i2,…,iTに対して、
式(1),式(2)のように前向き変数αt(i)と後
向き変数βt(i)を定義する。
を数5及び数6に示す式(3)式(4)のように推定す
る。
テップST5でHMMを状態に分解し、状態をクラスタ
リングして状態の代表点セット(以下、基底状態セット
と呼ぶ。)を求める。
つの状態の平均べクトルuiとuj間のユークリッド距離
を用いて、k-means法で状態をクラスタリングができ、
または、状態間のBhattacharyya距離を用いてk-means法
で状態をクラスタリングもできる。Bhattacharyya距離
は数7に示す式(5)のように定義される。
ットを用いて状態の共有関係を決める。
る状態の数がNとする。任意の状態Siに対して、基底
状態セットの各状態Cj(j=1,2,…,N)との距
離dij(j=1,2,…,N)を計算する。距離の小さ
い順から上位M個を選択する。そして、状態Siと基底
状態セットとの共有関係は数8に示す式(6)のように
決める。
理をし、HMMを再構成する。
を、上記ステップST3で得られた学習音声データを用
いて再学習する。このステップST7の再学習でHMM
のパラメータが再推定され、学習データが充分にあるト
ライフォンHMMの共有歪みによる精度低下を防ぐ。
られた閾値よりも小さいか否かを判定し、尤度の変化値
が閾値以下になっていなければ判別条件に達していない
と判断して上記ステップST5に戻り、ステップST5
〜ST8を実行する。
繰り返し施し、学習データ量が少ないトライフォンHM
M精度よく学習することを図る。ステップST8におい
て、尤度の変化値が閾値以下になったときは判別条件に
達したと判断して本フローを終え学習を終了する(ステ
ップST9)。
るヒドン・マルコフ・モデルの学習方法は、状態共有を
行いながらトライフォンHMMを学習する際、状態共有
とHMMパラメータ再推定を交替で行うことによって、
学習データ量の少ないトライフォンHMMにとっては状
態共有の利点をそのまま活かし、学習データ量が充分に
あるトライフォンHMMにとってはパラメータの再推定
効果があるため、HMMの精度低下を防ぐことができ
る。
ォンHMMの状態共有とパラメータ再推定を交替に行う
ことによって、状態共有の利点をそのまま保持しなが
ら、すべてのトライフォンを高精度に学習することがで
きる。この方法を用いた音声認識実験では、認識誤り率
を半減することに成功した。
ン・マルコフ・モデルの学習方法の処理を示すフローチ
ャートである。本実施形態に係るヒドン・マルコフ・モ
デルの学習方法の説明にあたり図1に示すヒドン・マル
コフ・モデルの学習方法の処理フローのステップと同一
ステップには同一符号を付している。
始されると、学習データの音声信号が入力され(ステッ
プST2)、前処理を行う(ステップST3)。この前
処理では、例えば入力されたアナログ音声信号をA/D
変換によってディジタル信号に変換し、LPC分析によ
るLPCケプストラムの抽出等により、音声特徴パラメ
ータを抽出する。
データ音声を使用してトライフォンHMMパラメータを
推定する。その推定には、例えばBaum-Welch(B−W)
アルゴリズムを用いる。
テップST5でHMMを状態に分解し、状態をクラスタ
リングして状態の代表点セット(基底状態セット)を求
める。
つの状態の平均べクトルuiとuj間のユークリッド距離
を用いて、k-means法で状態をクラスタリングができ、
または、状態間のBhattacharyya距離を用いてk-means法
で状態をクラスタリングもできる。
セットを用いて状態の共有関係を決める。
る状態の数がNとする。任意の状態Siに対して、基底
状態セットの各状態Sj(j=1,2,…,N)との距
離dij(j=1,2,…,N)を計算する。距離の小さ
い順から上位M個を選択する。そして、式(7)を計算
する。具体的には、kを1からMまでの範囲の整数と
し、まずk=1から始めて、数9に示す式(8)のFik
を算出する。
して、Fikとεとを比較する。
態セットとの共有関係は数10に示す式(9)のように
決める。そうでない場合は、kがMを超えない限り、k
を1増加させてから、式(8)のFikを再び計算し、
上記段落0056で述べたFikとεとの比較以降の処
理を繰り返す。kがMに達したら、状態Siと基底状態
セットとの共有関係は、k=Mとしたときの、数10に
示す式(9)のように決めれば良い。
理をし、HMMを再構成する。
を、上記ステップST3で得られた学習音声データを用
いて再学習する。このステップST7の再学習でHMM
のパラメータが再推定され、学習データが充分にあるト
ライフォンHMMの共有歪みによる精度低下を防ぐ。
られた閾値よりも小さいか否かを判定し、尤度の変化値
が閾値以下になっていなければ判別条件に達していない
と判断して上記ステップST5に戻り、ステップST5
〜ST8を実行する。
繰り返し施し、学習データ量が少ないトライフォンHM
M精度よく学習することを図る。ステップST8におい
て、尤度の変化値が閾値以下になったときは判別条件に
達したと判断して本フローを終え学習を終了する(ステ
ップST9)。
るヒドン・マルコフ・モデルの学習方法は、状態共有を
行う際に、注目状態を表現するための代表状態の数を可
変にしている。すなわち、注目状態と代表状態との距離
を利用し、距離の短い代表状態のみを共有に使うことに
よって、注目状態に比較的遠い代表状態を排除すること
ができ、HMMの精度低下を防ぐことができる。
各々の状態を表現し、注目状態の最も近い代表状態セッ
トを用いて共有することができるので、トライフォンH
MMを高精度に学習することができる。
コフ・モデルの学習方法では、トライフォンHMMを例
として説明したが、ダイフォンHMMや音素HMMに対
しても、同様な共有操作ができる。
の学習方法では、各状態に対し、複数個の代表状態を選
定して選定された代表状態の線形組み合わせで各状態を
表現するに当たり、選定される代表状態の数を、各状態
毎に異なる値に定め得ることとしたので、例えば距離の
比較的小さい代表状態のみを用いて各状態を表現するこ
とにより、HMMの精度低下を防ぐことができ、高精度
に学習を行うことができる。
分解し、該状態をクラスタリングして複数の代表状態を
選ぶステップと、各状態に対し、複数個の代表状態を選
定し て選定された代表状態の線形組み合わせで各状態を
表現するステップと、前記選定された代表状態の線形組
み合わせで表現された各状態を用いてHMMを再構成
し、再構成されたヒドン・マルコフ・モデルを、学習デ
ータを用いて再学習するステップを繰り返すことによ
り、すべてのHMMを高精度に学習することができる。
ン・マルコフ・モデルの学習方法の処理を示すフローチ
ャートである。
ン・マルコフ・モデルの学習方法の処理を示すフローチ
ャートである。
コフ・モデルの構造を示す図である。
る状態共有の概念図である。
る状態共有の概念図である。
クラスタリング基底状態セットステップ、ST6,ST
11 基底状態セットによるHMM再構成ステップ、S
T7 トライフォンHMM再学習ステップ、ST8 判別
条件ステップ
Claims (6)
- 【請求項1】 (a) 学習データを用いてヒドン・マル
コフ・モデル(HMM)を学習するステップ(ST2、
ST3、ST4)と、 (b) 前記学習により得られたHMMを状態に分解し、
該状態をクラスタリングして複数の基底代表状態を決定
するステップ(ST5)と、 (c) HMMの各状態に対し、前記複数の基底代表状態
の中から、複数個の代表状態を選定して選定された代表
状態の線形組み合わせで各状態を表現するステップ(S
T11)とを含み、 前記ステップ(c)において選定される代表状態の数が各
状態毎に別個に定められることを特徴とする ヒドン・マ
ルコフ・モデルの学習方法。 - 【請求項2】 前記ステップ(c)において、前記各状態
からの距離が比較的小さい代表状態を選定することを特
徴とする請求項1に記載のヒドン・マルコフ・モデルの
学習方法。 - 【請求項3】 前記ステップ(c)が、 (c1) 前記各状態からの距離が小さいものから順に所定
数(M)の代表状態を選択することと、 (c2) 下記の式(8) 【数1】 である。また1<k<Mであり、さらに、dijは各状
態と選択された各代表 状態との距離である。))によ
り、値Fikを算出することと、 (c3) 求められた値Fikが所定の閾値よりも大きいと
きに下記の式(9) 【数2】 で各状態を表現するステップとを含むことを特徴とする
請求項2に記載のヒドン・マルコフ・モデルの学習方
法。 - 【請求項4】 (d) 前記選定された代表状態の線形組
み合わせで表現された状態を用いてHMMを再構成し、
再構成されたHMMを、学習データを用いて再学習する
ステップ(ST7)をさらに含むことを特徴とする請求
項1乃至3の何れかに 記載のヒドン・マルコフ・モデル
の学習方法。 - 【請求項5】 前記ステップ(b)、(c)及び(d)を繰り返
すことを特徴とする請求項4に記載のヒドン・マルコフ
・モデルの学習方法。 - 【請求項6】 前記HMMは、トライフォンHMM、ダ
イフォンHMM若しくは音素HMMであることを特徴と
する請求項1乃至5のいずれかに記載のヒドン・マルコ
フ・モデルの学習方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19314596A JP3302266B2 (ja) | 1996-07-23 | 1996-07-23 | ヒドン・マルコフ・モデルの学習方法 |
US08/808,256 US5890114A (en) | 1996-07-23 | 1997-02-28 | Method and apparatus for training Hidden Markov Model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19314596A JP3302266B2 (ja) | 1996-07-23 | 1996-07-23 | ヒドン・マルコフ・モデルの学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1039893A JPH1039893A (ja) | 1998-02-13 |
JP3302266B2 true JP3302266B2 (ja) | 2002-07-15 |
Family
ID=16303040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19314596A Expired - Fee Related JP3302266B2 (ja) | 1996-07-23 | 1996-07-23 | ヒドン・マルコフ・モデルの学習方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5890114A (ja) |
JP (1) | JP3302266B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
US20030088416A1 (en) * | 2001-11-06 | 2003-05-08 | D.S.P.C. Technologies Ltd. | HMM-based text-to-phoneme parser and method for training same |
US7475014B2 (en) * | 2005-07-25 | 2009-01-06 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for tracking signal sources with wrapped-phase hidden markov models |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4918731A (en) * | 1987-07-17 | 1990-04-17 | Ricoh Company, Ltd. | Speech recognition method and apparatus |
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
US5734791A (en) * | 1992-12-31 | 1998-03-31 | Apple Computer, Inc. | Rapid tree-based method for vector quantization |
US5692100A (en) * | 1994-02-02 | 1997-11-25 | Matsushita Electric Industrial Co., Ltd. | Vector quantizer |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
-
1996
- 1996-07-23 JP JP19314596A patent/JP3302266B2/ja not_active Expired - Fee Related
-
1997
- 1997-02-28 US US08/808,256 patent/US5890114A/en not_active Expired - Lifetime
Non-Patent Citations (4)
Title |
---|
易傑 他,HMMの状態または分布の多元共有に関する検討,日本音響学会平成8年度春季研究発表会講演論文集,日本,1996年 3月26日,3−5−16,p.139−140 |
易傑 他,HMM状態のマルチ共有に関する検討,電子情報通信学会技術研究報告[音声],日本,1997年 6月20日,SP97−20 |
易傑 他,拡張LBGアルゴリズムによるHMM状態のマルチ共有,日本音響学会平成9年度秋季研究発表会講演論文集,日本,1997年 9月17日,2−1−9,p.65−66 |
易傑 他,状態多元共有における共有構造の再推定,日本音響学会平成8年度秋季研究発表会講演論文集,日本,1996年 9月25日,2−Q−17,p.163−164 |
Also Published As
Publication number | Publication date |
---|---|
JPH1039893A (ja) | 1998-02-13 |
US5890114A (en) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
US5793891A (en) | Adaptive training method for pattern recognition | |
US5165007A (en) | Feneme-based Markov models for words | |
JP3302266B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
US6173076B1 (en) | Speech recognition pattern adaptation system using tree scheme | |
Bahi et al. | Combination of vector quantization and hidden Markov models for Arabic speech recognition | |
JP2938866B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Shen et al. | Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition | |
JP3589044B2 (ja) | 話者適応化装置 | |
US5960396A (en) | Standard pattern production system employing information criterion | |
JP3420908B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JPH05232989A (ja) | 音響モデルの話者適応化法 | |
JP2968792B1 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Debyeche et al. | A new vector quantization approach for discrete HMM speech recognition system | |
JP3571821B2 (ja) | 音声認識装置および単語構成要素の辞書並びに隠れマルコフモデルの学習方法 | |
JP2912513B2 (ja) | ヒドン・マルコフ・モデルの学習方法 | |
Thandil et al. | Automatic speech recognition system for utterances in Malayalam language | |
EP0238693A1 (en) | Speech recognition system and method using statistical models for words | |
Afify et al. | Estimation of mixtures of stochastic dynamic trajectories: application to continuous speech recognition | |
JPH09179580A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH06175678A (ja) | 音声認識装置 | |
JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020416 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080426 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090426 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100426 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100426 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110426 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |