JP3092491B2 - 記述長最小基準を用いたパターン適応化方式 - Google Patents

記述長最小基準を用いたパターン適応化方式

Info

Publication number
JP3092491B2
JP3092491B2 JP07221740A JP22174095A JP3092491B2 JP 3092491 B2 JP3092491 B2 JP 3092491B2 JP 07221740 A JP07221740 A JP 07221740A JP 22174095 A JP22174095 A JP 22174095A JP 3092491 B2 JP3092491 B2 JP 3092491B2
Authority
JP
Japan
Prior art keywords
pattern
standard pattern
tree structure
standard
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07221740A
Other languages
English (en)
Other versions
JPH0962291A (ja
Inventor
浩一 篠田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP07221740A priority Critical patent/JP3092491B2/ja
Priority to DE69613293T priority patent/DE69613293T2/de
Priority to EP96113635A priority patent/EP0762383B1/en
Priority to US08/703,911 priority patent/US5956676A/en
Publication of JPH0962291A publication Critical patent/JPH0962291A/ja
Application granted granted Critical
Publication of JP3092491B2 publication Critical patent/JP3092491B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はパターン認識におけ
るパターン適応化方式に関し、特に標準パターンを用い
た音声認識システム並びに混合連続分布モデル型HMM
による音声認識システムにおける話者適応化方式に関す
る。
【0002】
【従来の技術】近年、音声パターンの機械による認識に
関する研究が行なわれ、数々の手法が提案されている。
この中で、よく使われる代表的なものに、DP(ダイナ
ミックプログラミング)マッチングと呼ばれる方法、並
びに、隠れマルコフモデル(HMM)を用いた方法があ
る。
【0003】DPマッチングやHMMなどの音声認識手
法を用いた音声認識システムとして、誰の声でも認識で
きることを目的とした不特定話者の認識システムが盛ん
に研究・開発されている。
【0004】以下、HMMを例にとり、音声認識システ
ムについて図1を用いて説明する。
【0005】音声認識装置に入力された話者の発声は、
入力パターン作成部102に入力され、AD変換、音声
分析などの過程を経て、ある時間長をもつフレームと呼
ばれる単位ごとの特徴ベクトルの時系列に変換される。
この特徴ベクトルの時系列を、ここでは入力パターンと
呼ぶ。フレームの長さは通常10msから100ms程
度である。特徴ベクトルはその時刻における音声スペク
トルの特徴量を抽出したもので、通常10次元から10
0次元である。
【0006】標準パターン記憶部101にはHMMが記
憶されている。HMMは音声の情報源のモデルの1つで
あり、話者の音声を用いてそのパラメータを学習するこ
とができる。HMMについては認識部103の説明で詳
しく述べる。HMMは通常各認識単位ごとに用意され
る。ここでは、認識単位として音素を例にとる。不特定
話者認識システムでは、標準パターン記憶部101のH
MMとして、予め多くの話者の発声を用いて学習した不
特定話者HMMが用いられる。
【0007】今、1000単語を認識対象とする場合を
想定する。つまり1000単語の認識候補から1単語の
正解を求める。単語を認識する場合には、各音素のHM
Mを連結して、認識候補単語のHMMを作成する。10
00単語認識の場合には1000単語分の単語HMMを
作成する。
【0008】認識部103では、単語HMMを用いて入
力パターンの認識を行なう。HMMは、音声の情報源の
モデルであり、音声パターンの様々な揺らぎに対処する
ため、標準パターンの記述に統計的な考えが導入されて
いる。HMMの詳細な説明は、中川聖一著「確率モデル
による音声認識」、電子情報通信学会編(昭和63)
(以下、文献1)の、40〜46頁、55〜60頁、6
9〜74頁にかかれている。各音素のHMMは、それぞ
れ、通常1から10個の状態とその間の状態遷移から構
成される。通常は始状態と終状態が定義されており、単
位時間ごとに、各状態からシンボルが出力され、状態遷
移が行なわれる。各音素の音声は、始状態から終状態ま
での状態遷移の間にHMMから出力されるシンボルの時
系列として表される。各状態にはシンボルの出現確率
が、状態間の各遷移には遷移確率が、定義されている。
遷移確率パラメータは音声パターンの時間的な揺らぎを
表現するためのパラメータである。出力確率パラメータ
は、音声パターンの声色の揺らぎを表現するものであ
る。始状態の確率をある値に定め、状態遷移ごとに出現
確率、遷移確率を掛けていくことにより、発声がそのモ
デルから発生する確率を求めることができる。逆に、発
声を観測した場合、それが、あるHMMから発生したと
仮定するとその発生確率が計算できることになる。HM
Mによる音声認識では、各認識候補に対してHMMを用
意し、発声が入力されると、各々のHMMにおいて、発
声確率を求め、最大となるHMMを発生源と決定し、そ
のHMMに対応する認識候補をもって認識結果とする。
【0009】出力確率パラメータには、離散確率分布表
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。出力確率パラメータ、遷移確率パラメータ、
複数のガウス分布の重みなどのパラメータは、モデルに
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習されている。
バウム−ウェルチアルゴリズムについては文献1に詳し
い。以下の例では出力確率は混合連続確率分布とする。
【0010】以下に単語認識時の処理を数式で説明す
る。特徴ベクトルの時系列として表現された入力パター
ンXを X=x1 ,x2 ,...,xt ,・・・,xT (1) とする。ここでTは入力パターンの総フレーム数であ
る。認識候補単語W1 ,W2 ,...,WN とする。N
は認識候補単語数である。各々の単語Wn の単語HMM
と入力パターンXとの間のマッチングは以下のように行
なわれる。以下必要のない限り添字nを省略する。ま
ず、単語HMMにおいて、状態jから状態iへの遷移確
率をaji、出力確率分布の混合重みをλim、各要素ガウ
ス分布(フレーム分布と呼ぶ)の平均ベクトルをμim
共分散行列をΣimとする。ここで、tは入力時刻、i,
jはHMMの状態、mは混合要素番号を表す。前向き確
率α(i,t)に関する次の漸化式計算を行なう。
【0011】
【数1】
【0012】ここで、πi は初期状態がiである確率で
あり、bi (x)、N(x;μim,Σim)は、次式で定
義される。
【0013】
【数2】
【0014】単語Wn に対する入力パターンに対する尤
度は Pn (X)=α(I,T) (6) により求められる。Iは最終状態である。この処理を各
単語モデルについて行ない、入力パターンXに対する。
認識結果単語
【0015】
【外1】
【0016】は
【0017】
【数3】
【0018】で与えられる。認識結果単語は、認識結果
出力部104に送られる。
【0019】認識結果出力部105は、認識結果を画面
上に出力する、あるいは、認識結果に対応した制御命令
を別の装置に送るなどの処理を行なう。
【0020】以上、HMMを例にとり音声認識装置につ
いて説明した。
【0021】不特定話者認識システムは、使用者を特定
した特定話者システムと違い、事前に使用者が発声を登
録する必要がないという利点がある。しかしながら、近
年、次のような問題点が指摘された。まず、ほとんどの
話者において認識性能が特定話者システムより劣る。さ
らに、認識性能が大幅に悪い話者(特異話者)が存在す
る。このような問題点を解決するために、従来、特定話
者システムにおいて用いられてきた、話者適応化の技術
を不特定話者システムにも適用しようという研究が最近
始まっている。
【0022】話者適応化とは、学習に用いるよりも少量
の適応化用データを用いて、認識システムを新しい使用
者(未知話者)に適応化させる方式を指す。話者適応化
では、標準パターン記憶部の標準パターンを未知話者に
対する性能が向上するよう修正する(図1点線部)。話
者適応化方式の詳細については、「音声認識における話
者適応化技術」、古井貞煕著、テレビジョン学会誌、V
ol.43、No.9、1989、pp.929−93
4に解説されている。話者適応化は大きく分けて2つの
手法に分けられる。1つは教師あり話者適応化、もう1
つは教師なし話者適応化である。ここでの教師とは入力
発声の発声内容を表す音韻表記列を指す。教師あり適応
化とは、入力発声に対する音韻表記列が既知の場合の適
応化手法であり、適応化の際、未知話者に対し発声語彙
を事前に指示する必要がある。一方、教師なし適応化と
は、入力発声に対する音韻表記列が未知の場合の適応化
手法であり、未知話者に対し入力発声の発声内容を限定
しない。すなわち、未知話者に対し発声内容を指示をす
る必要がない。実際に音声認識を使用中の入力音声を用
いて、未知話者に意識させずに、適応化を行なえる。一
般に教師なし適応化は教師あり適応化に比べ、適応化後
の認識性能が低い。現在は教師あり適応化がよく使われ
ている。
【0023】
【発明が解決しようとする課題】話者適応化は、音声認
識装置使用時の話者の発声を用いて学習を行なうことに
より、標準パターンを話者に適応させ、高い認識性能を
得る技術である。しかしながら、話者の発声数が極めて
少ない場合、データの不足のため、パラメータ推定の精
度が悪く、標準パターンの適応の効果があがらない場合
がある。
【0024】
【課題を解決するための手段】第1の発明による記述長
最小基準を用いたパターン適応化方式は、複数のカテゴ
リから構成される標準パターンを入力サンプルの集合と
しての入力パターンを用いて学習するパターン適応化方
式において、入力パターンを作成する入力パターン作成
手段と、複数の標準パターンを記憶する候補標準パター
ン記憶手段と、標準パターンのカテゴリと入力パターン
の入力サンプルとの対応付けを行なうパターンマッチン
グ手段と、パターンマッチングに基づき、標準パターン
を修正する標準パターン修正手段と、入力パターンに対
する各修正標準パターンの記述長を計算する記述長計算
手段と、記述長を用いて修正標準パターンを選択する修
正標準パターン選択手段と、修正標準パターンを保存す
る認識用標準パターン記憶手段と、から構成されること
を特徴とするパターン適応化方式である。
【0025】第2の発明による記述長最小基準を用いた
パターン適応化方式は、複数のカテゴリから構成される
標準パターンを入力サンプルの集合としての入力パター
ンを用いて学習するパターン適応化方式において、入力
パターンを作成する入力パターン作成手段と、カテゴリ
の包含関係をあらわす木構造と木構造の各ノードでのパ
ラメータ集合から構成される標準パターンを記憶する木
構造標準パターン記憶手段と、木構造標準パターンのカ
テゴリと入力パターンの入力サンプルとの対応付けを行
なうパターンマッチング手段と、パターンマッチングに
基づき、木構造標準パターンを修正する木構造標準パタ
ーン修正手段と、木構造パターンにおける複数のノード
集合に対し記述長を計算し、記述長を用いてノード集合
を選択するノード集合選択手段と、選択されたノード集
合のパラメータ集合を用いて修正標準パターンを作成す
る、修正標準パターン作成手段と、修正標準パターンを
保存する認識用標準パターン記憶手段と、から構成され
ることを特徴とするパターン適応化方式である。
【0026】第3の発明による記述長最小基準を用いた
パターン適応化方式は、第1または第2の発明による記
述長最小基準を用いたパターン適応化方式において、入
力パターンとして、音声を分析したフレームベクトルの
時系列を用いることを特徴とするパターン適応化方式で
ある。
【0027】第4の発明による記述長最小基準を用いた
パターン適応化方式は、第3の発明による記述長最小基
準を用いたパターン適応化方式において、標準パターン
として、出力確率分布が混合ガウス分布である隠れマル
コフモデルを用いることを特徴とするパターン適応化方
式である。
【0028】第5の発明による記述長最小基準を用いた
パターン適応化方式は、第4の発明による記述長最小基
準を用いたパターン適応化方式において、隠れマルコフ
モデルの各状態のガウス分布を用いて作成した木構造を
木構造標準パターンとして用いることを特徴とするパタ
ーン適応化方式である。
【0029】
【発明の実施の形態】図2は、本発明の一実施例を示す
ブロック図である。入力パターン作成部201は入力パ
ターンを保持する。パターンマッチング部203では木
構造標準パターン記憶部202の標準パターンを用いて
パターンマッチングを行ない、入力データとカテゴリの
対応付けを行ない、ワークバッファの更新を行なう。木
構造標準パターン修正部204では、ワークバッファの
値をもとに、木構造標準パターンの修正を行なう。ノー
ド集合選択部205では、ワークバッファの値をもと
に、記述長最小基準を用いてノードの集合を選択する。
修正標準パターン作成部206では、ノード選択部の結
果をもとに、ノード集合の各ノードのパラメータを用い
て標準パターンを修正する。修正された標準パターン
は、認識用標準パターン記憶部207に保存される。
【0030】次に、本発明によるパターン適応化方式の
動作について図2を用いて詳細に説明する。ここでは、
発声する単語あるいは文を予め使用者に指示して、単語
表記と入力音声を用いてHMMのパラメータの更新を行
なう。予め発声に対する正解単語がわかっているという
意味で教師あり適応化と呼ばれカテゴリに属する。話者
適応化においては、話者の負担を軽減するため、適応化
に必要な入力発声の量をなるべく少なくする必要があ
る。しかし、HMMは一般にパラメータ数が多く、少量
の適応化用発声で全パラメータを適応化しようとする
と、データ不足のためパラメータの推定精度が悪く、認
識性能が向上しない可能性がある。そこで、この例で
は、HMMのパラメータのうち、出力確率分布の平均ベ
クトルを適応化する。平均ベクトルを選んだのは、これ
が、HMMのパラメータの中でもっとも認識性能に影響
があると考えられるからである。
【0031】まず、初期HMMを用意する。初期HMM
としては、例えば、多くの話者の発声で予め作成された
不特定話者の音素HMMを用いる。そして、この初期H
MMを元に、木構造標準パターンを作成する。ここで
は、初期HMMの状態のガウス分布の全状態にわたる集
合を考え、そのガウス分布のN段の木構造を作成する。
ガウス分布の木構造の作成の方法については、特開平6
−348292号公報「音声認識システム」(以後、文
献2)に詳しく記載されている。木構造の例を図3に示
す。この例では、総分布数は1500で、N=5の木構
造となっている。ここで、最下段(第N段)のノード
は、HMMの各状態の分布に1対1に対応する。今、木
構造の各ノードを(n,m)と表すこととする。ここ
で、nは木構造における階層(第n番目)を表し、m
は、その第n段における分布の番号を示す。差ベクトル
Δ(n,m)を、ノード(n,m)における、適応前の
平均ベクトルμとデータから推定される平均ベクトル
【0032】
【外2】
【0033】の差分として定義する。また差ベクトルの
分散σ(n,m)を定義する。これら2つの量は各ノー
ドにおけるパラメータである。初期HMM、木構造、お
よび各ノードに付随したパラメータは木構造標準パター
ン記憶部202に格納する。次に、木構造の各ノードご
とに、特徴ベクトルの次元を持ったバッファA(n,
m)、B(n,m)と、1次元のバッファC(n,m)
を用意する。Aはノードの差ベクトルを計算するための
情報を格納するワークバッファ、Bはノードの差ベクト
ルの分散を計算するための情報を格納するワークバッフ
ァ、Cはノードに対応するデータサンプルの個数を加算
するためのワークバッファである。これらのバッファ
も、木構造標準パターン記憶部202で確保する。
【0034】以上の準備ののち、入力発声ごとに以下の
処理を行なう。
【0035】まず、認識時と同時に、入力パターン作成
部201において、入力音声から入力パターンを作成す
る。
【0036】パターンマッチング部203においては、
入力パターンに対し、パターンマッチングを行ないワー
クバッファの更新を行なう。最初に、正解単語表記を用
いて入力パターンに対応する単語HMMを音素毎の初期
HMMを連結することにより作成する。そして、入力パ
ターンと単語HMMの間でパターンマッチングを行な
う。式(2)、(3)、(6)の代わりに、
【0037】
【数4】
【0038】の漸化式を用いる。この漸化式を用いる手
法は、ビタービアルゴリズムと呼ばれる。ここで、Mは
各状態における分布数、bim(xt )は状態iにおける
m番目のリーフ分布の出現確率N(xi ;μim,Σim
である。なお、分布番号は全状態にわたって重複しない
ようにつけられる。そして、式(9)と並行して、 Ψ1 (i,t)=argmaxj Φ(j,t−1)aj,i i (xt ) i=1,...,I; t=1,...,T (12) Ψ2 (i,t)=argmaxm λm im(xt ) i=1,...,I ; t=1,...,T (13) の計算を行ない、各時刻の各状態における前時刻の状態
を配列Ψ1 に、最大の出現確率を与える分布番号を配列
Ψ2 に記憶しておく。式(11)での最終フレームTの
計算が終わったのち、Ψ1 およびΨ2 を用いて、最終フ
レームから最初のフレームまで順番に、各フレームに対
応する分布が求まる。すなわち、フレームtに対応する
状態番号をS(t)、リーフ分布の番号をR(t)と表
すと、 S(T)=1 (14) S(t)=Ψ1 (S(t+1),t+1) t=1,...,T−1 (15) R(t)=Ψ2 (R(t),t) t=1,...,T−1 (16) である。この処理をバックトラックと呼ぶ。この処理に
より、各時刻の特徴ベクトルに対応する分布が求められ
る。
【0039】次に各時刻の特徴ベクトルxt ごとに、 A(N,R(t))=A(N,R(t))+(xt −μm N ) (17) B(N,R(t))=B(N,R(t))+(xt −μm N 2 (18) C(N,R(t))=C(N,R(t))+1 (19) の処理を行ない、リーフノードのA、B、Cバッファの
加算を行なう。ここで、μm n は第n段のm番目の分布
の平均ベクトルである。また、同様に、リーフノードR
(t)を子ノードとして持つノードについてもA、B、
Cバッファの加算を行なう。 A(n,m)=A(n,m)+δ(m,jn (R(t)))(xt −μm n ) n=1,...,N−1 (20) B(n,m)=B(n,m)+δ(m,jn (R(t)))(xt −μm n 2 n=1,...,N−1 (21) B(n,m)=B(n,m)+δ(m,jn (R(t)))1 n=1,.. .,N−1 (22) ここで、jn (m)はリーフ分布mを子ノードとしても
つ第n段のノード分布の番号を示し、 δ(i,j)=1 if i=j (23) =0 if i≠j (24) この処理を適応化用の発声単語数分だけ繰り返す。以上
の処理はパターンマッチング部203に対応する。
【0040】すべての適応化用入力発声が終了した時点
で、木構造標準パターン修正部204においてワークバ
ッファの値を用いてパラメータを推定し、木構造標準パ
ターンの修正を行なう。木構造のすべてのノードについ
て、差ベクトルΔおよびその分散σを求める。これら
は、
【0041】
【数5】
【0042】と計算される。
【0043】次に、ノード集合選択部205は、木構造
標準パターンの各ノードのうちHMMの平均ベクトルの
修正に用いるノードを選択するために、各リーフノード
に対し、そのリーフノード自身およびその親ノードの中
から1つのノードを選択する。このように選択されるノ
ードの集合をノード集合と呼ぶ。ノードの選択には記述
長最小基準が用いられる。
【0044】まず、記述長は以下のように定義される。
【0045】
【数6】
【0046】ここで、xn =x1 ,...,xn は入力
時系列データ、
【0047】
【外3】
【0048】はデータxn に対するパラメータθの最尤
推定量、kはモデルの次数、Mは情報源の個数である。
この記述長の導出については、例えば、ハン・テスン、
小林欣吾著、「情報と符号化の数理」岩波書店(199
4年)pp.211−265に詳細に説明がある。この
記述長を最小にするように、モデルを選択する。式26
の第1項は、データに対する尤度を符号反転させたもの
で、第2項は、モデルの複雑度に相当する量である。モ
デルが複雑になるほど、第1項は小さくなり、第2項は
大きくなる。このように、両者の間にはトレードオフが
あり、ある適当な複雑さをもったモデルを最適なモデル
として選択する。
【0049】木構造化された標準パターンにおけるノー
ド集合の選択に記述長最小基準を適用する。すなわち、
木構造の各ノードにおける差ベクトルの分布として正規
分布を仮定し、入力パターンに対しlR が最小になるノ
ード集合を選択する。(1)式において、第3項は一定
なので無視して、あるノード集合Tを選択した時、その
ノード集合に対する記述長は、
【0050】
【数7】
【0051】ここで、Nは全入力パターンにわたる特徴
ベクトルの総数、kはノード集合Tにおけるノードの数
である。
【0052】さて、ノード集合の選択の際、木構造にお
けるすべてのノードの組合せを探索することは、計算時
間の上で現実的ではない。そこで、次のような近似アル
ゴリズムを用いる。 1.ルートノードをthenodeとする。 2.thenodeのlR (lR P )を計算する。 3.thenodeの子ノードの集合を使用するとした
場合のlR (lR C )を計算する。 4.lR P >lR C のとき、子ノードをthenode
とし、各々の子ノードについて、2以下の処理を行な
う。 5.lR P <lR C のとき、thenodeを使用ノー
ドとして選択する。
【0053】このように再帰的な処理を行なうことによ
り、木構造におけるノードの集合を選択することができ
る。修正標準パターン作成部206においては、ノード
集合中の各々のノードの差分ベクトルを用いて、リーフ
ノードの平均ベクトルを以下の式で計算する。
【0054】
【数8】
【0055】ここで、Δ(n′,m′)は当該リーフノ
ードの親ノードのうち、ノード集合選択部205で選択
されたノード集合に含まれるノードにおける差ベクトル
である。このように修正された平均ベクトルは修正標準
パターンとして認識用標準パターン記憶部207に記憶
される。
【0056】以上、本発明の記述長最小原理を用いたパ
ターン適応化方式について説明した。
【0057】今回、適応化の対象となるパラメータとし
て、ガウス分布の平均ベクトルの差ベクトルを用いた。
これ以外にも、ガウス分布の平均ベクトル、分散、状態
における重み係数、およびそれらの差分などを適応化に
パラメータとして同様の方式で適応化を行なうことが可
能である。また、それらのパラメータを組合わせて同時
に適応化することも可能である。
【0058】また、木構造の作成の仕方も今回は文献2
に示されている方法を用いたが、木構造の作成の方法は
任意である。例えば、音韻論における音韻間の類似度を
用いて木構造を作成することも可能である。また文献2
では、木構造を使った認識について記述されている。認
識手段として文献2の手法を用いる場合、そこで用いら
れている木構造と適応化の際に用いる木構造を同一のも
のとすることにより、木構造を用いた認識における性能
の向上をはかることが可能である。
【0059】ここでは、すべての入力発声が終了したの
ち、標準パターンを更新する方法を述べたが、一つ一つ
の発声ごとに、上で述べた処理を行ない、標準パターン
を更新すること(逐次適応化)も容易に可能である。
【0060】
【発明の効果】記述長最小基準を用いることにより、デ
ータ量の変化に応じて適応化の対象となる自由パラメー
タ数を変化させることを自動的に行なうことができる。
適応化用の音声データが少ないときには、より上位の階
層のノードが選択され、自由パラメータ数は少ない。逆
に多いときには、より下位の階層のノードが選択され、
自由パラメータ数は大きくなる。このため、データ量が
少ないときには、データの不足による推定精度の悪化が
起こらない。また、データ量が十分ある時には、データ
量に見合った十分な数の自由パラメータを推定するた
め、認識性能をより高めることができる。このように、
適応化に用いるデータ量の多少に関わらず、性能の高い
適応化を行なうことが可能である。
【図面の簡単な説明】
【図1】従来の音声認識システム。
【図2】本発明の一実施例を示すブロック図。
【図3】木構造標準パターン。
【符号の説明】
101 標準パターン記憶部 102 入力パターン作成部 103 認識部 104 認識結果出力部 105 話者適応化部 201 入力パターン作成部 202 木構造標準パターン記憶部 203 パターンマッチング部 204 木構造標準パターン修正部 205 ノード集合選択部 206 修正標準パターン作成部 207 認識用標準パターン記憶部
フロントページの続き (56)参考文献 特開 平7−114394(JP,A) 特開 平7−230295(JP,A) Shinoda and Watan abe,”Speaker Adapt ation with autonom ous model complexi ty control by MDL principle”,IEEE IC ASSP96,Vol2,pp.717−720 (1996) (58)調査した分野(Int.Cl.7,DB名) G01L 11/00 - 21/06 JICSTファイル(JOIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】複数のカテゴリから構成される標準パター
    ンを入力サンプルの集合としての入力パターンを用いて
    学習するパターン適応化方式において、 入力パターンを作成する入力パターン作成手段と、 複数の標準パターンを記憶する候補標準パターン記憶手
    段と、 標準パターンのカテゴリと入力パターンの入力サンプル
    との対応付けを行なうパターンマッチング手段と、 パターンマッチングに基づき、標準パターンを修正する
    標準パターン修正手段と、 入力パターンに対する各修正標準パターンの記述長を計
    算する記述長計算手段と、 記述長を用いて修正標準パターンを選択する修正標準パ
    ターン選択手段と、 修正標準パターンを保存する認識用標準パターン記憶手
    段と、から構成されることを特徴とする記述長最小基準
    を用いたパターン適応化方式。
  2. 【請求項2】複数のカテゴリから構成される標準パター
    ンを入力サンプルの集合としての入力パターンを用いて
    学習するパターン適応化方式において、 入力パターンを作成する入力パターン作成手段と、 カテゴリの包含関係をあらわす木構造と木構造の各ノー
    ドでのパラメータ集合から構成される標準パターンを記
    憶する木構造標準パターン記憶手段と、 木構造標準パターンのカテゴリと入力パターンの入力サ
    ンプルとの対応付けを行なうパターンマッチング手段
    と、 パターンマッチングに基づき、木構造標準パターンを修
    正する木構造標準パターン修正手段と、 木構造パターンにおける複数のノード集合に対し記述長
    を計算し、記述長を用いてノード集合を選択するノード
    集合選択手段と、 選択されたノード集合のパラメータ集合を用いて修正標
    準パターンを作成する、修正標準パターン作成手段と、 修正標準パターンを保存する認識用標準パターン記憶手
    段と、から構成されることを特徴とする記述長最小基準
    を用いたパターン適応化方式。
  3. 【請求項3】前記入力パターンとして、音声を分析した
    フレームベクトルの時系列を用いることを特徴とする請
    求項1又は2記載の記述長最小基準を用いたパターン適
    応化方式。
  4. 【請求項4】前記標準パターンとして、出力確率分布が
    混合ガウス分布である隠れマルコフモデルを用いること
    を特徴とする請求項3記載の記述長最小基準を用いたパ
    ターン適応化方式。
  5. 【請求項5】隠れマルコフモデルの各状態のガウス分布
    を用いて作成した木構造を木構造標準パターンとして用
    いることを特徴とする請求項4記載の記述長最小基準を
    用いたパターン適応化方式。
JP07221740A 1995-08-30 1995-08-30 記述長最小基準を用いたパターン適応化方式 Expired - Fee Related JP3092491B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP07221740A JP3092491B2 (ja) 1995-08-30 1995-08-30 記述長最小基準を用いたパターン適応化方式
DE69613293T DE69613293T2 (de) 1995-08-30 1996-08-26 Vorrichtung zur Musteranpassung für Sprach- oder Mustererkennung
EP96113635A EP0762383B1 (en) 1995-08-30 1996-08-26 Pattern adapting apparatus for speech or pattern recognition
US08/703,911 US5956676A (en) 1995-08-30 1996-08-27 Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07221740A JP3092491B2 (ja) 1995-08-30 1995-08-30 記述長最小基準を用いたパターン適応化方式

Publications (2)

Publication Number Publication Date
JPH0962291A JPH0962291A (ja) 1997-03-07
JP3092491B2 true JP3092491B2 (ja) 2000-09-25

Family

ID=16771493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07221740A Expired - Fee Related JP3092491B2 (ja) 1995-08-30 1995-08-30 記述長最小基準を用いたパターン適応化方式

Country Status (4)

Country Link
US (1) US5956676A (ja)
EP (1) EP0762383B1 (ja)
JP (1) JP3092491B2 (ja)
DE (1) DE69613293T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
JP3412496B2 (ja) * 1998-02-25 2003-06-03 三菱電機株式会社 話者適応化装置と音声認識装置
JP3814459B2 (ja) * 2000-03-31 2006-08-30 キヤノン株式会社 音声認識方法及び装置と記憶媒体
EP1205906B1 (en) * 2000-11-07 2003-05-07 Telefonaktiebolaget L M Ericsson (Publ) Reference templates adaptation for speech recognition
US20020077828A1 (en) * 2000-12-18 2002-06-20 Building Better Interfaces, Inc. Distributed adaptive heuristic voice recognition technique
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置
JP4103639B2 (ja) * 2003-03-14 2008-06-18 セイコーエプソン株式会社 音響モデル作成方法および音響モデル作成装置ならびに音声認識装置
JP4194433B2 (ja) * 2003-07-07 2008-12-10 キヤノン株式会社 尤度算出装置および方法
US20050021337A1 (en) * 2003-07-23 2005-01-27 Tae-Hee Kwon HMM modification method
JP2005156593A (ja) * 2003-11-20 2005-06-16 Seiko Epson Corp 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
US8327443B2 (en) * 2008-10-29 2012-12-04 Lockheed Martin Corporation MDL compress system and method for signature inference and masquerade intrusion detection
US8312542B2 (en) * 2008-10-29 2012-11-13 Lockheed Martin Corporation Network intrusion detection using MDL compress for deep packet inspection
US8245302B2 (en) * 2009-09-15 2012-08-14 Lockheed Martin Corporation Network attack visualization and response through intelligent icons
US8245301B2 (en) * 2009-09-15 2012-08-14 Lockheed Martin Corporation Network intrusion detection visualization
US9619534B2 (en) * 2010-09-10 2017-04-11 Salesforce.Com, Inc. Probabilistic tree-structured learning system for extracting contact data from quotes
US9106689B2 (en) 2011-05-06 2015-08-11 Lockheed Martin Corporation Intrusion detection using MDL clustering
US11138966B2 (en) 2019-02-07 2021-10-05 Tencent America LLC Unsupervised automatic speech recognition
US11360990B2 (en) 2019-06-21 2022-06-14 Salesforce.Com, Inc. Method and a system for fuzzy matching of entities in a database system based on machine learning

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US5129002A (en) * 1987-12-16 1992-07-07 Matsushita Electric Industrial Co., Ltd. Pattern recognition apparatus
JPH0833739B2 (ja) * 1990-09-13 1996-03-29 三菱電機株式会社 パターン表現モデル学習装置
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5222146A (en) * 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
ES2128390T3 (es) * 1992-03-02 1999-05-16 At & T Corp Metodo de adiestramiento y dispositivo para reconocimiento de voz.
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
JP2522154B2 (ja) 1993-06-03 1996-08-07 日本電気株式会社 音声認識システム
US5490223A (en) * 1993-06-22 1996-02-06 Kabushiki Kaisha Toshiba Pattern recognition apparatus
AU7802194A (en) * 1993-09-30 1995-04-18 Apple Computer, Inc. Continuous reference adaptation in a pattern recognition system
JP2705537B2 (ja) * 1993-10-15 1998-01-28 日本電気株式会社 話者学習装置
JP2976795B2 (ja) * 1994-02-18 1999-11-10 日本電気株式会社 話者適応化方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shinoda and Watanabe,"Speaker Adaptation with autonomous model complexity control by MDL principle",IEEE ICASSP96,Vol2,pp.717−720(1996)

Also Published As

Publication number Publication date
DE69613293T2 (de) 2002-05-02
US5956676A (en) 1999-09-21
EP0762383A3 (en) 1998-04-29
DE69613293D1 (de) 2001-07-19
EP0762383A2 (en) 1997-03-12
JPH0962291A (ja) 1997-03-07
EP0762383B1 (en) 2001-06-13

Similar Documents

Publication Publication Date Title
JP3092491B2 (ja) 記述長最小基準を用いたパターン適応化方式
JP4109063B2 (ja) 音声認識装置及び音声認識方法
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US8494847B2 (en) Weighting factor learning system and audio recognition system
JPS62231995A (ja) 音声認識方法
JPH06110493A (ja) 音声モデルの構成方法及び音声認識装置
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP2751856B2 (ja) 木構造を用いたパターン適応化方式
JPH1185186A (ja) 不特定話者音響モデル生成装置及び音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP3039399B2 (ja) 非母国語音声認識装置
JPH0895592A (ja) パターン認識方法
JP2002372987A (ja) 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JP2976795B2 (ja) 話者適応化方式
JP3029803B2 (ja) 音声認識のための単語モデル生成装置及び音声認識装置
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2005091504A (ja) 音声認識装置
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH0822296A (ja) パターン認識方法
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3105708B2 (ja) 音声認識装置
JPH09160586A (ja) ヒドン・マルコフ・モデルの学習方法
CN117334185A (zh) 弱监督数据生成方法、语音识别模型训练方法及相关设备

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000627

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070728

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080728

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090728

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100728

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110728

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120728

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130728

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees