JPH0962291A - 記述長最小基準を用いたパターン適応化方式 - Google Patents
記述長最小基準を用いたパターン適応化方式Info
- Publication number
- JPH0962291A JPH0962291A JP7221740A JP22174095A JPH0962291A JP H0962291 A JPH0962291 A JP H0962291A JP 7221740 A JP7221740 A JP 7221740A JP 22174095 A JP22174095 A JP 22174095A JP H0962291 A JPH0962291 A JP H0962291A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard pattern
- input
- tree structure
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 48
- 230000003044 adaptive effect Effects 0.000 title 1
- 230000006978 adaptation Effects 0.000 claims description 62
- 238000009826 distribution Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 29
- 238000012937 correction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 239000000872 buffer Substances 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000007704 transition Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
場合、データの不足のため、パラメータ推定の精度が悪
く、標準パターンの適応の効果があがらない場合があ
る。この問題を記述長最小基準を用いてパラメータ数を
増減することにより解決する。 【構成】 入力パターン作成部201は入力パターンを
保持する。パターンマッチング部203では木構造標準
パターン記憶部202の標準パターンを用いてパターン
マッチングを行ない、入力データとカテゴリの対応付け
を行ない、ワークバッファの更新を行なう。木構造標準
パターン修正部204では、ワークバッファの値をもと
に、木構造標準パターンの修正を行なう。ノード集合選
択部205では、ワークバッファの値をもとに、記述長
採取基準を用いてノードの集合を選択する。修正標準パ
ターン作成部206では、ノード選択部の結果をもと
に、ノード集合の各ノードのパラメータを用いて標準パ
ターンを修正する。修正された標準パターンは、認識用
標準パターン記憶部207に保存される。
Description
るパターン適応化方式に関し、特に標準パターンを用い
た音声認識システム並びに混合連続分布モデル型HMM
による音声認識システムにおける話者適応化方式に関す
る。
関する研究が行なわれ、数々の手法が提案されている。
この中で、よく使われる代表的なものに、DP(ダイナ
ミックプログラミング)マッチングと呼ばれる方法、並
びに、隠れマルコフモデル(HMM)を用いた方法があ
る。
法を用いた音声認識システムとして、誰の声でも認識で
きることを目的とした不特定話者の認識システムが盛ん
に研究・開発されている。
ムについて図1を用いて説明する。
入力パターン作成部102に入力され、AD変換、音声
分析などの過程を経て、ある時間長をもつフレームと呼
ばれる単位ごとの特徴ベクトルの時系列に変換される。
この特徴ベクトルの時系列を、ここでは入力パターンと
呼ぶ。フレームの長さは通常10msから100ms程
度である。特徴ベクトルはその時刻における音声スペク
トルの特徴量を抽出したもので、通常10次元から10
0次元である。
憶されている。HMMは音声の情報源のモデルの1つで
あり、話者の音声を用いてそのパラメータを学習するこ
とができる。HMMについては認識部103の説明で詳
しく述べる。HMMは通常各認識単位ごとに用意され
る。ここでは、認識単位として音素を例にとる。不特定
話者認識システムでは、標準パターン記憶部101のH
MMとして、予め多くの話者の発声を用いて学習した不
特定話者HMMが用いられる。
想定する。つまり1000単語の認識候補から1単語の
正解を求める。単語を認識する場合には、各音素のHM
Mを連結して、認識候補単語のHMMを作成する。10
00単語認識の場合には1000単語分の単語HMMを
作成する。
力パターンの認識を行なう。HMMは、音声の情報源の
モデルであり、音声パターンの様々な揺らぎに対処する
ため、標準パターンの記述に統計的な考えが導入されて
いる。HMMの詳細な説明は、中川聖一著「確率モデル
による音声認識」、電子情報通信学会編(昭和63)
(以下、文献1)の、40〜46頁、55〜60頁、6
9〜74頁にかかれている。各音素のHMMは、それぞ
れ、通常1から10個の状態とその間の状態遷移から構
成される。通常は始状態と終状態が定義されており、単
位時間ごとに、各状態からシンボルが出力され、状態遷
移が行なわれる。各音素の音声は、始状態から終状態ま
での状態遷移の間にHMMから出力されるシンボルの時
系列として表される。各状態にはシンボルの出現確率
が、状態間の各遷移には遷移確率が、定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを
表現するためのパラメータである。出力確率パラメータ
は、音声パターンの声色の揺らぎを表現するものであ
る。始状態の確率をある値に定め、状態遷移ごとに出現
確率、遷移確率を掛けていくことにより、発声がそのモ
デルから発生する確率を求めることができる。逆に、発
声を観測した場合、それが、あるHMMから発生したと
仮定するとその発生確率が計算できることになる。HM
Mによる音声認識では、各認識候補に対してHMMを用
意し、発声が入力されると、各々のHMMにおいて、発
声確率を求め、最大となるHMMを発生源と決定し、そ
のHMMに対応する認識候補をもって認識結果とする。
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウム−ウェルチアルゴリズムについては文献1に詳し
い。以下の例では出力確率は混合連続確率分布とする。
る。特徴ベクトルの時系列として表現された入力パター
ンXを X=x1 ,x2 ,...,xt ,・・・,xT (1) とする。ここでTは入力パターンの総フレーム数であ
る。認識候補単語W1 ,W2 ,...,WN とする。N
は認識候補単語数である。各々の単語Wn の単語HMM
と入力パターンXとの間のマッチングは以下のように行
なわれる。以下必要のない限り添字nを省略する。ま
ず、単語HMMにおいて、状態jから状態iへの遷移確
率をaji、出力確率分布の混合重みをλim、各要素ガウ
ス分布(フレーム分布と呼ぶ)の平均ベクトルをμim、
共分散行列をΣimとする。ここで、tは入力時刻、i,
jはHMMの状態、mは混合要素番号を表す。前向き確
率α(i,t)に関する次の漸化式計算を行なう。
あり、bi (x)、N(x;μim,Σim)は、次式で定
義される。
度は Pn (X)=α(I,T) (6) により求められる。Iは最終状態である。この処理を各
単語モデルについて行ない、入力パターンXに対する。
認識結果単語
出力部104に送られる。
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送るなどの処理を行なう。
いて説明した。
した特定話者システムと違い、事前に使用者が発声を登
録する必要がないという利点がある。しかしながら、近
年、次のような問題点が指摘された。まず、ほとんどの
話者において認識性能が特定話者システムより劣る。さ
らに、認識性能が大幅に悪い話者(特異話者)が存在す
る。このような問題点を解決するために、従来、特定話
者システムにおいて用いられてきた、話者適応化の技術
を不特定話者システムにも適用しようという研究が最近
始まっている。
の適応化用データを用いて、認識システムを新しい使用
者(未知話者)に適応化させる方式を指す。話者適応化
では、標準パターン記憶部の標準パターンを未知話者に
対する性能が向上するよう修正する(図1点線部)。話
者適応化方式の詳細については、「音声認識における話
者適応化技術」、古井貞煕著、テレビジョン学会誌、V
ol.43、No.9、1989、pp.929−93
4に解説されている。話者適応化は大きく分けて2つの
手法に分けられる。1つは教師あり話者適応化、もう1
つは教師なし話者適応化である。ここでの教師とは入力
発声の発声内容を表す音韻表記列を指す。教師あり適応
化とは、入力発声に対する音韻表記列が既知の場合の適
応化手法であり、適応化の際、未知話者に対し発声語彙
を事前に指示する必要がある。一方、教師なし適応化と
は、入力発声に対する音韻表記列が未知の場合の適応化
手法であり、未知話者に対し入力発声の発声内容を限定
しない。すなわち、未知話者に対し発声内容を指示をす
る必要がない。実際に音声認識を使用中の入力音声を用
いて、未知話者に意識させずに、適応化を行なえる。一
般に教師なし適応化は教師あり適応化に比べ、適応化後
の認識性能が低い。現在は教師あり適応化がよく使われ
ている。
識装置使用時の話者の発声を用いて学習を行なうことに
より、標準パターンを話者に適応させ、高い認識性能を
得る技術である。しかしながら、話者の発声数が極めて
少ない場合、データの不足のため、パラメータ推定の精
度が悪く、標準パターンの適応の効果があがらない場合
がある。
最小基準を用いたパターン適応化方式は、複数のカテゴ
リから構成される標準パターンを入力サンプルの集合と
しての入力パターンを用いて学習するパターン適応化方
式において、入力パターンを作成する入力パターン作成
手段と、複数の標準パターンを記憶する候補標準パター
ン記憶手段と、標準パターンのカテゴリと入力パターン
の入力サンプルとの対応付けを行なうパターンマッチン
グ手段と、パターンマッチングに基づき、標準パターン
を修正する標準パターン修正手段と、入力パターンに対
する各修正標準パターンの記述長を計算する記述長計算
手段と、記述長を用いて修正標準パターンを選択する修
正標準パターン選択手段と、修正標準パターンを保存す
る認識用標準パターン記憶手段と、から構成されること
を特徴とするパターン適応化方式である。
パターン適応化方式は、複数のカテゴリから構成される
標準パターンを入力サンプルの集合としての入力パター
ンを用いて学習するパターン適応化方式において、入力
パターンを作成する入力パターン作成手段と、カテゴリ
の包含関係をあらわす木構造と木構造の各ノードでのパ
ラメータ集合から構成される標準パターンを記憶する木
構造標準パターン記憶手段と、木構造標準パターンのカ
テゴリと入力パターンの入力サンプルとの対応付けを行
なうパターンマッチング手段と、パターンマッチングに
基づき、木構造標準パターンを修正する木構造標準パタ
ーン修正手段と、木構造パターンにおける複数のノード
集合に対し記述長を計算し、記述長を用いてノード集合
を選択するノード集合選択手段と、選択されたノード集
合のパラメータ集合を用いて修正標準パターンを作成す
る、修正標準パターン作成手段と、修正標準パターンを
保存する認識用標準パターン記憶手段と、から構成され
ることを特徴とするパターン適応化方式である。
パターン適応化方式は、第1または第2の発明による記
述長最小基準を用いたパターン適応化方式において、入
力パターンとして、音声を分析したフレームベクトルの
時系列を用いることを特徴とするパターン適応化方式で
ある。
パターン適応化方式は、第3の発明による記述長最小基
準を用いたパターン適応化方式において、標準パターン
として、出力確率分布が混合ガウス分布である隠れマル
コフモデルを用いることを特徴とするパターン適応化方
式である。
パターン適応化方式は、第4の発明による記述長最小基
準を用いたパターン適応化方式において、隠れマルコフ
モデルの各状態のガウス分布を用いて作成した木構造を
木構造標準パターンとして用いることを特徴とするパタ
ーン適応化方式である。
ブロック図である。入力パターン作成部201は入力パ
ターンを保持する。パターンマッチング部203では木
構造標準パターン記憶部202の標準パターンを用いて
パターンマッチングを行ない、入力データとカテゴリの
対応付けを行ない、ワークバッファの更新を行なう。木
構造標準パターン修正部204では、ワークバッファの
値をもとに、木構造標準パターンの修正を行なう。ノー
ド集合選択部205では、ワークバッファの値をもと
に、記述長最小基準を用いてノードの集合を選択する。
修正標準パターン作成部206では、ノード選択部の結
果をもとに、ノード集合の各ノードのパラメータを用い
て標準パターンを修正する。修正された標準パターン
は、認識用標準パターン記憶部207に保存される。
動作について図2を用いて詳細に説明する。ここでは、
発声する単語あるいは文を予め使用者に指示して、単語
表記と入力音声を用いてHMMのパラメータの更新を行
なう。予め発声に対する正解単語がわかっているという
意味で教師あり適応化と呼ばれカテゴリに属する。話者
適応化においては、話者の負担を軽減するため、適応化
に必要な入力発声の量をなるべく少なくする必要があ
る。しかし、HMMは一般にパラメータ数が多く、少量
の適応化用発声で全パラメータを適応化しようとする
と、データ不足のためパラメータの推定精度が悪く、認
識性能が向上しない可能性がある。そこで、この例で
は、HMMのパラメータのうち、出力確率分布の平均ベ
クトルを適応化する。平均ベクトルを選んだのは、これ
が、HMMのパラメータの中でもっとも認識性能に影響
があると考えられるからである。
としては、例えば、多くの話者の発声で予め作成された
不特定話者の音素HMMを用いる。そして、この初期H
MMを元に、木構造標準パターンを作成する。ここで
は、初期HMMの状態のガウス分布の全状態にわたる集
合を考え、そのガウス分布のN段の木構造を作成する。
ガウス分布の木構造の作成の方法については、特開平6
−348292号公報「音声認識システム」(以後、文
献2)に詳しく記載されている。木構造の例を図3に示
す。この例では、総分布数は1500で、N=5の木構
造となっている。ここで、最下段(第N段)のノード
は、HMMの各状態の分布に1対1に対応する。今、木
構造の各ノードを(n,m)と表すこととする。ここ
で、nは木構造における階層(第n番目)を表し、m
は、その第n段における分布の番号を示す。差ベクトル
Δ(n,m)を、ノード(n,m)における、適応前の
平均ベクトルμとデータから推定される平均ベクトル
分散σ(n,m)を定義する。これら2つの量は各ノー
ドにおけるパラメータである。初期HMM、木構造、お
よび各ノードに付随したパラメータは木構造標準パター
ン記憶部202に格納する。次に、木構造の各ノードご
とに、特徴ベクトルの次元を持ったバッファA(n,
m)、B(n,m)と、1次元のバッファC(n,m)
を用意する。Aはノードの差ベクトルを計算するための
情報を格納するワークバッファ、Bはノードの差ベクト
ルの分散を計算するための情報を格納するワークバッフ
ァ、Cはノードに対応するデータサンプルの個数を加算
するためのワークバッファである。これらのバッファ
も、木構造標準パターン記憶部202で確保する。
処理を行なう。
部201において、入力音声から入力パターンを作成す
る。
入力パターンに対し、パターンマッチングを行ないワー
クバッファの更新を行なう。最初に、正解単語表記を用
いて入力パターンに対応する単語HMMを音素毎の初期
HMMを連結することにより作成する。そして、入力パ
ターンと単語HMMの間でパターンマッチングを行な
う。式(2)、(3)、(6)の代わりに、
法は、ビタービアルゴリズムと呼ばれる。ここで、Mは
各状態における分布数、bim(xt )は状態iにおける
m番目のリーフ分布の出現確率N(xi ;μim,Σim)
である。なお、分布番号は全状態にわたって重複しない
ようにつけられる。そして、式(9)と並行して、 Ψ1 (i,t)=argmaxj Φ(j,t−1)aj,i bi (xt ) i=1,...,I; t=1,...,T (12) Ψ2 (i,t)=argmaxm λm bim(xt ) i=1,...,I ; t=1,...,T (13) の計算を行ない、各時刻の各状態における前時刻の状態
を配列Ψ1 に、最大の出現確率を与える分布番号を配列
Ψ2 に記憶しておく。式(11)での最終フレームTの
計算が終わったのち、Ψ1 およびΨ2 を用いて、最終フ
レームから最初のフレームまで順番に、各フレームに対
応する分布が求まる。すなわち、フレームtに対応する
状態番号をS(t)、リーフ分布の番号をR(t)と表
すと、 S(T)=1 (14) S(t)=Ψ1 (S(t+1),t+1) t=1,...,T−1 (15) R(t)=Ψ2 (R(t),t) t=1,...,T−1 (16) である。この処理をバックトラックと呼ぶ。この処理に
より、各時刻の特徴ベクトルに対応する分布が求められ
る。
加算を行なう。ここで、μm n は第n段のm番目の分布
の平均ベクトルである。また、同様に、リーフノードR
(t)を子ノードとして持つノードについてもA、B、
Cバッファの加算を行なう。 A(n,m)=A(n,m)+δ(m,jn (R(t)))(xt −μm n ) n=1,...,N−1 (20) B(n,m)=B(n,m)+δ(m,jn (R(t)))(xt −μm n )2 n=1,...,N−1 (21) B(n,m)=B(n,m)+δ(m,jn (R(t)))1 n=1,.. .,N−1 (22) ここで、jn (m)はリーフ分布mを子ノードとしても
つ第n段のノード分布の番号を示し、 δ(i,j)=1 if i=j (23) =0 if i≠j (24) この処理を適応化用の発声単語数分だけ繰り返す。以上
の処理はパターンマッチング部203に対応する。
で、木構造標準パターン修正部204においてワークバ
ッファの値を用いてパラメータを推定し、木構造標準パ
ターンの修正を行なう。木構造のすべてのノードについ
て、差ベクトルΔおよびその分散σを求める。これら
は、
標準パターンの各ノードのうちHMMの平均ベクトルの
修正に用いるノードを選択するために、各リーフノード
に対し、そのリーフノード自身およびその親ノードの中
から1つのノードを選択する。このように選択されるノ
ードの集合をノード集合と呼ぶ。ノードの選択には記述
長最小基準が用いられる。
時系列データ、
推定量、kはモデルの次数、Mは情報源の個数である。
この記述長の導出については、例えば、ハン・テスン、
小林欣吾著、「情報と符号化の数理」岩波書店(199
4年)pp.211−265に詳細に説明がある。この
記述長を最小にするように、モデルを選択する。式26
の第1項は、データに対する尤度を符号反転させたもの
で、第2項は、モデルの複雑度に相当する量である。モ
デルが複雑になるほど、第1項は小さくなり、第2項は
大きくなる。このように、両者の間にはトレードオフが
あり、ある適当な複雑さをもったモデルを最適なモデル
として選択する。
ド集合の選択に記述長最小基準を適用する。すなわち、
木構造の各ノードにおける差ベクトルの分布として正規
分布を仮定し、入力パターンに対しlR が最小になるノ
ード集合を選択する。(1)式において、第3項は一定
なので無視して、あるノード集合Tを選択した時、その
ノード集合に対する記述長は、
ベクトルの総数、kはノード集合Tにおけるノードの数
である。
けるすべてのノードの組合せを探索することは、計算時
間の上で現実的ではない。そこで、次のような近似アル
ゴリズムを用いる。 1.ルートノードをthenodeとする。 2.thenodeのlR (lR P )を計算する。 3.thenodeの子ノードの集合を使用するとした
場合のlR (lR C )を計算する。 4.lR P >lR C のとき、子ノードをthenode
とし、各々の子ノードについて、2以下の処理を行な
う。 5.lR P <lR C のとき、thenodeを使用ノー
ドとして選択する。
り、木構造におけるノードの集合を選択することができ
る。修正標準パターン作成部206においては、ノード
集合中の各々のノードの差分ベクトルを用いて、リーフ
ノードの平均ベクトルを以下の式で計算する。
ードの親ノードのうち、ノード集合選択部205で選択
されたノード集合に含まれるノードにおける差ベクトル
である。このように修正された平均ベクトルは修正標準
パターンとして認識用標準パターン記憶部207に記憶
される。
ターン適応化方式について説明した。
て、ガウス分布の平均ベクトルの差ベクトルを用いた。
これ以外にも、ガウス分布の平均ベクトル、分散、状態
における重み係数、およびそれらの差分などを適応化に
パラメータとして同様の方式で適応化を行なうことが可
能である。また、それらのパラメータを組合わせて同時
に適応化することも可能である。
に示されている方法を用いたが、木構造の作成の方法は
任意である。例えば、音韻論における音韻間の類似度を
用いて木構造を作成することも可能である。また文献2
では、木構造を使った認識について記述されている。認
識手段として文献2の手法を用いる場合、そこで用いら
れている木構造と適応化の際に用いる木構造を同一のも
のとすることにより、木構造を用いた認識における性能
の向上をはかることが可能である。
ち、標準パターンを更新する方法を述べたが、一つ一つ
の発声ごとに、上で述べた処理を行ない、標準パターン
を更新すること(逐次適応化)も容易に可能である。
ータ量の変化に応じて適応化の対象となる自由パラメー
タ数を変化させることを自動的に行なうことができる。
適応化用の音声データが少ないときには、より上位の階
層のノードが選択され、自由パラメータ数は少ない。逆
に多いときには、より下位の階層のノードが選択され、
自由パラメータ数は大きくなる。このため、データ量が
少ないときには、データの不足による推定精度の悪化が
起こらない。また、データ量が十分ある時には、データ
量に見合った十分な数の自由パラメータを推定するた
め、認識性能をより高めることができる。このように、
適応化に用いるデータ量の多少に関わらず、性能の高い
適応化を行なうことが可能である。
Claims (5)
- 【請求項1】複数のカテゴリから構成される標準パター
ンを入力サンプルの集合としての入力パターンを用いて
学習するパターン適応化方式において、 入力パターンを作成する入力パターン作成手段と、 複数の標準パターンを記憶する候補標準パターン記憶手
段と、 標準パターンのカテゴリと入力パターンの入力サンプル
との対応付けを行なうパターンマッチング手段と、 パターンマッチングに基づき、標準パターンを修正する
標準パターン修正手段と、 入力パターンに対する各修正標準パターンの記述長を計
算する記述長計算手段と、 記述長を用いて修正標準パターンを選択する修正標準パ
ターン選択手段と、 修正標準パターンを保存する認識用標準パターン記憶手
段と、から構成されることを特徴とする記述長最小基準
を用いたパターン適応化方式。 - 【請求項2】複数のカテゴリから構成される標準パター
ンを入力サンプルの集合としての入力パターンを用いて
学習するパターン適応化方式において、 入力パターンを作成する入力パターン作成手段と、 カテゴリの包含関係をあらわす木構造と木構造の各ノー
ドでのパラメータ集合から構成される標準パターンを記
憶する木構造標準パターン記憶手段と、 木構造標準パターンのカテゴリと入力パターンの入力サ
ンプルとの対応付けを行なうパターンマッチング手段
と、 パターンマッチングに基づき、木構造標準パターンを修
正する木構造標準パターン修正手段と、 木構造パターンにおける複数のノード集合に対し記述長
を計算し、記述長を用いてノード集合を選択するノード
集合選択手段と、 選択されたノード集合のパラメータ集合を用いて修正標
準パターンを作成する、修正標準パターン作成手段と、 修正標準パターンを保存する認識用標準パターン記憶手
段と、から構成されることを特徴とする記述長最小基準
を用いたパターン適応化方式。 - 【請求項3】前記入力パターンとして、音声を分析した
フレームベクトルの時系列を用いることを特徴とする請
求項1又は2記載の記述長最小基準を用いたパターン適
応化方式。 - 【請求項4】前記標準パターンとして、出力確率分布が
混合ガウス分布である隠れマルコフモデルを用いること
を特徴とする請求項3記載の記述長最小基準を用いたパ
ターン適応化方式。 - 【請求項5】隠れマルコフモデルの各状態のガウス分布
を用いて作成した木構造を木構造標準パターンとして用
いることを特徴とする請求項4記載の記述長最小基準を
用いたパターン適応化方式。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07221740A JP3092491B2 (ja) | 1995-08-30 | 1995-08-30 | 記述長最小基準を用いたパターン適応化方式 |
EP96113635A EP0762383B1 (en) | 1995-08-30 | 1996-08-26 | Pattern adapting apparatus for speech or pattern recognition |
DE69613293T DE69613293T2 (de) | 1995-08-30 | 1996-08-26 | Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung |
US08/703,911 US5956676A (en) | 1995-08-30 | 1996-08-27 | Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07221740A JP3092491B2 (ja) | 1995-08-30 | 1995-08-30 | 記述長最小基準を用いたパターン適応化方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0962291A true JPH0962291A (ja) | 1997-03-07 |
JP3092491B2 JP3092491B2 (ja) | 2000-09-25 |
Family
ID=16771493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07221740A Expired - Fee Related JP3092491B2 (ja) | 1995-08-30 | 1995-08-30 | 記述長最小基準を用いたパターン適応化方式 |
Country Status (4)
Country | Link |
---|---|
US (1) | US5956676A (ja) |
EP (1) | EP0762383B1 (ja) |
JP (1) | JP3092491B2 (ja) |
DE (1) | DE69613293T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058185A (ja) * | 2001-08-09 | 2003-02-28 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151574A (en) * | 1997-12-05 | 2000-11-21 | Lucent Technologies Inc. | Technique for adaptation of hidden markov models for speech recognition |
JP3412496B2 (ja) * | 1998-02-25 | 2003-06-03 | 三菱電機株式会社 | 話者適応化装置と音声認識装置 |
JP3814459B2 (ja) * | 2000-03-31 | 2006-08-30 | キヤノン株式会社 | 音声認識方法及び装置と記憶媒体 |
ATE239966T1 (de) * | 2000-11-07 | 2003-05-15 | Ericsson Telefon Ab L M | Anwendung von referenzdaten für spracherkennung |
US20020077828A1 (en) * | 2000-12-18 | 2002-06-20 | Building Better Interfaces, Inc. | Distributed adaptive heuristic voice recognition technique |
JP4336865B2 (ja) * | 2001-03-13 | 2009-09-30 | 日本電気株式会社 | 音声認識装置 |
JP4103639B2 (ja) * | 2003-03-14 | 2008-06-18 | セイコーエプソン株式会社 | 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置 |
JP4194433B2 (ja) * | 2003-07-07 | 2008-12-10 | キヤノン株式会社 | 尤度算出装置および方法 |
US20050021337A1 (en) * | 2003-07-23 | 2005-01-27 | Tae-Hee Kwon | HMM modification method |
JP2005156593A (ja) * | 2003-11-20 | 2005-06-16 | Seiko Epson Corp | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
US8312542B2 (en) * | 2008-10-29 | 2012-11-13 | Lockheed Martin Corporation | Network intrusion detection using MDL compress for deep packet inspection |
US8327443B2 (en) * | 2008-10-29 | 2012-12-04 | Lockheed Martin Corporation | MDL compress system and method for signature inference and masquerade intrusion detection |
US8245301B2 (en) * | 2009-09-15 | 2012-08-14 | Lockheed Martin Corporation | Network intrusion detection visualization |
US8245302B2 (en) * | 2009-09-15 | 2012-08-14 | Lockheed Martin Corporation | Network attack visualization and response through intelligent icons |
US9619534B2 (en) * | 2010-09-10 | 2017-04-11 | Salesforce.Com, Inc. | Probabilistic tree-structured learning system for extracting contact data from quotes |
US9106689B2 (en) | 2011-05-06 | 2015-08-11 | Lockheed Martin Corporation | Intrusion detection using MDL clustering |
US11138966B2 (en) | 2019-02-07 | 2021-10-05 | Tencent America LLC | Unsupervised automatic speech recognition |
WO2020162294A1 (ja) * | 2019-02-07 | 2020-08-13 | 株式会社Preferred Networks | 変換方法、訓練装置及び推論装置 |
US11360990B2 (en) | 2019-06-21 | 2022-06-14 | Salesforce.Com, Inc. | Method and a system for fuzzy matching of entities in a database system based on machine learning |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
US5129002A (en) * | 1987-12-16 | 1992-07-07 | Matsushita Electric Industrial Co., Ltd. | Pattern recognition apparatus |
JPH0833739B2 (ja) * | 1990-09-13 | 1996-03-29 | 三菱電機株式会社 | パターン表現モデル学習装置 |
US5450523A (en) * | 1990-11-15 | 1995-09-12 | Matsushita Electric Industrial Co., Ltd. | Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems |
US5222146A (en) * | 1991-10-23 | 1993-06-22 | International Business Machines Corporation | Speech recognition apparatus having a speech coder outputting acoustic prototype ranks |
DE69322894T2 (de) * | 1992-03-02 | 1999-07-29 | At & T Corp., New York, N.Y. | Lernverfahren und Gerät zur Spracherkennung |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
JP2522154B2 (ja) | 1993-06-03 | 1996-08-07 | 日本電気株式会社 | 音声認識システム |
US5490223A (en) * | 1993-06-22 | 1996-02-06 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus |
AU7802194A (en) * | 1993-09-30 | 1995-04-18 | Apple Computer, Inc. | Continuous reference adaptation in a pattern recognition system |
JP2705537B2 (ja) * | 1993-10-15 | 1998-01-28 | 日本電気株式会社 | 話者学習装置 |
JP2976795B2 (ja) * | 1994-02-18 | 1999-11-10 | 日本電気株式会社 | 話者適応化方式 |
-
1995
- 1995-08-30 JP JP07221740A patent/JP3092491B2/ja not_active Expired - Fee Related
-
1996
- 1996-08-26 EP EP96113635A patent/EP0762383B1/en not_active Expired - Lifetime
- 1996-08-26 DE DE69613293T patent/DE69613293T2/de not_active Expired - Lifetime
- 1996-08-27 US US08/703,911 patent/US5956676A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058185A (ja) * | 2001-08-09 | 2003-02-28 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
EP0762383A3 (en) | 1998-04-29 |
DE69613293T2 (de) | 2002-05-02 |
US5956676A (en) | 1999-09-21 |
JP3092491B2 (ja) | 2000-09-25 |
EP0762383B1 (en) | 2001-06-13 |
EP0762383A2 (en) | 1997-03-12 |
DE69613293D1 (de) | 2001-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3092491B2 (ja) | 記述長最小基準を用いたパターン適応化方式 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
JP4336865B2 (ja) | 音声認識装置 | |
US20050159949A1 (en) | Automatic speech recognition learning using user corrections | |
JPS62231995A (ja) | 音声認識方法 | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
US20020026309A1 (en) | Speech processing system | |
JP2004226982A (ja) | 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JPH0895592A (ja) | パターン認識方法 | |
JPH10133686A (ja) | 非母国語音声認識装置 | |
JP2005091504A (ja) | 音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JPH0822296A (ja) | パターン認識方法 | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
JPH0981182A (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP3105708B2 (ja) | 音声認識装置 | |
JPH09160586A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JP4037709B2 (ja) | 音声認識方法及び音声認識システム | |
JP2002082688A (ja) | 話者適応化装置、話者適応化方法、話者適応化プログラムを記録したコンピュータ読取可能な記録媒体、音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20000627 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070728 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080728 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090728 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100728 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110728 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110728 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120728 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130728 Year of fee payment: 13 |
|
LAPS | Cancellation because of no payment of annual fees |