JP2982689B2 - 情報量基準を用いた標準パターン作成方式 - Google Patents
情報量基準を用いた標準パターン作成方式Info
- Publication number
- JP2982689B2 JP2982689B2 JP8122758A JP12275896A JP2982689B2 JP 2982689 B2 JP2982689 B2 JP 2982689B2 JP 8122758 A JP8122758 A JP 8122758A JP 12275896 A JP12275896 A JP 12275896A JP 2982689 B2 JP2982689 B2 JP 2982689B2
- Authority
- JP
- Japan
- Prior art keywords
- standard pattern
- pattern
- creating
- cluster
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000003860 storage Methods 0.000 claims description 11
- 235000012571 Ficus glomerata Nutrition 0.000 claims description 5
- 244000153665 Ficus glomerata Species 0.000 claims description 5
- 238000003909 pattern recognition Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 description 16
- 230000007704 transition Effects 0.000 description 16
- 238000012545 processing Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000007476 Maximum Likelihood Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 101150076749 C10L gene Proteins 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 101100020289 Xenopus laevis koza gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Description
けるパターン作成方式に関し、特に、標準パターンを用
いた音声認識システム並びに混合連続分布モデル型HM
Mによる音声認識システムにおける標準パターン作成方
式に関する。
関する研究が行われ、数々の方法が提案されている。こ
の中で、よく使われる代表的なものに、隠れマルコフモ
デル(HMM;hidden Markov model)を用いた方法が
ある。
として、誰の声でも認識できることを目的とした不特定
話者の認識システムが盛んに研究・開発されている。H
MMは、各単語あるいは各音素ごとに少数の状態からな
る推移図(マルコフモデル)を構成し、入力音声がいず
れのモデルによって生成された可能性が最も大きいかを
調べて認識する方法であり、この時観測されるのは推移
によって生じるスペクトル列であって状態そのものは観
測されないことから「隠れ」と呼ばれている。各モデル
について、学習サンプルを用いて各状態でのスペクトル
パラメータの生起確率と状態間の推移確率を推定してお
き、認識時には、入力音声を各モデルにあてはめて入力
音声を生成する確率が最も高いモデルを選択して認識結
果とする。
て、音声認識システムについて説明する。図1に示すよ
うに、標準パターン記憶部103、入力パターン作成部
101、認識部102、認識結果出力部104からな
る。
は、入力パターン作成部101に入力され、アナログデ
ジタル変換、音声分析などの過程を経て、ある時間長を
もつ「フレーム」と呼ばれる単位ごとの特徴ベクトルの
時系列に変換される。この特徴ベクトルの時系列を、
「入力パターン」と呼ぶ。
ms程度である。特徴ベクトルは、その時刻における音
声スペクトルの特徴量を抽出したもので、通常、10次
元から100次元である。
記憶されている。HMMは音声の情報源のモデルの1つ
であり、話者の音声を用いてそのパラメータを学習する
ことができる。HMMについては認識部の説明で詳しく
説明する。HMMは通常各認識単位ごとに用意される。
ここでは、認識単位として音素を例にとる。
準パターン記憶部103のHMMとして、予め多くの話
者の発声を用いて学習した不特定話者HMMが用いられ
る。
想定する。つまり1000単語の認識候補から1単語の
正解を求める。単語を認識する場合には、各音素のHM
Mを連結して、認識候補単語のHMMを作成する。10
00単語認識の場合には1000単語分の単語HMMを
作成する。
力パターンの認識を行なう。HMMは、音声の情報源の
モデルであり、音声パターンの様々な揺らぎに対処する
ため、標準パターンの記述に統計的な考えが導入されて
いる。なお、HMMの詳細な説明は、例えば刊行物(ラ
ビナー、ジュアング著、古井訳「音声認識の基礎
(下)」、NTTアドバンステクノロジ、1995、第
102〜187頁)(文献1)の記載が参照される。
10個の状態とその間の状態遷移から構成される。
り、単位時間ごとに、各状態からシンボルが出力され、
状態遷移が行なわれる。
状態遷移の間にHMMから出力されるシンボルの時系列
として表される。各状態にはシンボルの出現確率が、状
態間の各遷移には遷移確率が、定義されている。
間的な揺らぎを表現するためのパラメータである。出力
確率パラメータは、音声パターンの音声の揺らぎを表現
するものである。始状態の確率をある値に定め、状態遷
移ごとに出現確率、遷移確率を掛けていくことにより、
発声がそのモデルから発生する確率を求めることができ
る。
HMMから発生したと仮定するとその発生確率が計算で
きることになる。
識候補に対してHMMを用意し、発声が入力されると、
各々のHMMにおいて、発生確率を求め、最大となるH
MMを発生源と決定し、そのHMMに対応する認識候補
をもって認識結果とする。
現と連続確率分布表現があるが、ここでは連続確率表現
を例にとる。連続確率分布表現では、混合連続分布、す
なわち、複数のガウス分布を重みつきで加算した分布が
使われる。以下の例では出力確率は混合連続確率分布と
する。出力確率パラメータ、遷移確率パラメータ、複数
のガウス分布の重み係数などのパラメータは、モデルに
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムにより予め学習される。
し、次にパラメータの学習について説明する。
徴ベクトルの時系列として表現された入力パターンOを
次式(1)とする。
である。認識候補単語W1,W2,…,WNとする。Nは
認識候補単語数である。
ーンOと、の間のマッチングは以下のように行なわれ
る。以下、必要のない限り添字nを省略する。
態iへの遷移確率をaji、出力確率分布の混合重み
cim、各要素ガウス分布の平均ベクトルをμim、共分散
行列をΣimとする。ここで、tは入力時刻、i,jはH
MMの状態、mは混合要素番号を表す。前向き確率αt
(i)に関する次式(2)、(3)の漸化式計算を行
う。この前向き確率αt(i)は、部分的な観測系列
o1,o2,…,otを出力し、時刻tに状態iに存在す
る確率である。
あり、bi(ot)は、次式(4)で定義される。
トルの次元数である。
度は次式(6)により求められる。
デルについて行ない、入力パターンXに対する認識結果
単語
送られる。認識結果出力部104は、認識結果を画面上
に出力する、あるいは、認識結果に対応した制御命令を
別の装置に送るなどの処理を行なう。
の後向き確率を導入する。
ときの、時刻t+1から終端までの部分的な観測系列の
確率である。前向き確率と後向き確率を用いて、観測系
統Oが与えられたときに、時刻tに状態iに存在する確
率γt(i)は、次式(10)で与えられる。
1に状態jに存在する確率ξt(i,j)は、次式(1
1)で与えられる。
に状態番号iのk番目の混合要素に存在する確率γ′t
(i,k)は、次式(12)で与えられる。
Σの推定値はそれぞれ次式(13)〜(17)で与えら
れる。
らの推定値をもとにパラメータを更新し、さらにそのパ
ラメータを用いてまた推定値を推定するという繰り返し
を行なう。繰り返し毎に観測系列の確率が大きくなるこ
とが証明されている。
いて説明した。
単位毎に標準パターンを作成する場合を説明したが、他
にも半音節単位、3音素連鎖単位など、様々な単位が考
えられる。
位、3音節連鎖単位とは、音素において、発声における
直前および直後の音素をともに考慮した音素単位であ
る。例えば「ことば」は、「kotoba」と表記され
るが、最初の/o/は前が/k/、後ろが/t/である
のに対し、2番目の/o/は前が/t/、後ろが/b/
と、前後の音素が違うためこの2つの/o/は違うもの
と見なし、別々に標準パターンが作られる。
0、半音節単位は260程度、3音素連鎖単位は300
0〜5000の種類がある。もし、学習用の発声データ
が十分な量存在していれば、単位種類数が多ければ多い
ほど認識性能が向上する。
は、通常多くの話者の発声を必要とし、常に十分な量の
発声が得られるとは限らない。
た場合、各認識単位ごとに4状態、各状態ごとに2つの
要素ガウス分布を付随させているが、十分な認識性能を
得るためには、話者85名250単語程度の発声を必要
とする。
は、学習用発声はより少なくても十分であるが、種類数
の多い単位を用いる場合には学習用発声はより多く必要
である。単位数に比して、学習用発声が少なすぎる場
合、パラメータ推定が不安定になったり、対応する学習
データがないパラメータが出現したりする現象が起き、
認識性能が劣化する。
の方法においては、不特定話者HMMの学習には、多量
の発声データを用いる。しかしながら、ある限られた量
の学習用発声が与えられた場合、認識単位種類数はどの
程度が適当であるか、あるいは、与えられた認識単位種
類数に対し、どの程度の量の学習用発声が必要か、とい
う問いに答える基準は現在まで提案・実現されていない
というのが実状である。
トデータを用いて認識評価実験を行ない、その結果をも
とに、最適な認識単位を作成するという試行錯誤的な手
法が行なわれてきた。
外に、テスト用発声も十分な量用意する必要があり、ま
た、標準パターン作成および認識実験の繰り返しに多く
の計算時間を必要とする。
れたものであって、その目的は、与えられた学習用発声
に対し最適な認識単位を、情報量基準を用いて自動的に
決定することを可能としたパターン作成方法を提供する
ことにある。
め、本発明は、標準パターンを用いるパターン認識にお
いて、入力データから入力パターンを作成する入力パタ
ーン作成手段と、各々のカテゴリの標準パターン作成用
パラメータを作成する標準パターン作成用パラメータ作
成手段と、全カテゴリ集合を複数のクラスタに分割しク
ラスタ集合を作成するクラスタ集合作成手段と、各々の
クラスタ内の全カテゴリに共通の標準パターンを作成す
る共有標準パターン作成手段と、前記クラスタ集合作成
手段により作成された互いに異なる複数のクラスタ集合
の中から、情報量基準を用いて最適なクラスタ集合を選
択する最適クラスタ集合選択手段と、前記最適クラスタ
集合の共有標準パターンを各カテゴリの標準パターンと
して記憶する標準パターン記憶手段と、を含むことを特
徴とする標準パターン作成方式を提供する。
下に説明する。図1は、本発明が適用される音声認識シ
ステムの全体構成を示したものであり、本発明の標準パ
ターン作成システムは、図1に示す標準パターン作成部
105に適用されるものである。すなわち、本発明の情
報量基準を用いたパターン作成方式は、標準パターンを
用いるパターン認識であって、入力データから入力パタ
ーンを作成する入力パターン作成手段(図2の201、
図1の101に対応する)と、各々のカテゴリの標準パ
ターン作成用パラメータを作成する標準パターン作成用
パラメータ作成手段(図2の203)と、全カテゴリ集
合を複数のクラスタに分割しクラスタ集合を作成するク
ラスタ集合作成手段(図2の204)と、各々のクラス
タ内の全カテゴリに共通の標準パターンを作成する共有
標準パターン作成手段(図2の205)と、前記クラス
タ集合作成手段により作成された互いに異なる複数のク
ラスタ集合の中から、情報量基準を用いて最適なクラス
タ集合を選択する最適クラスタ集合選択手段(図2の2
06)と、前記最適クラスタ集合の共有標準パターンを
各カテゴリの標準パターンとして記憶する標準パターン
記憶手段(図2の207、図1の103に対応する)
と、を備えている。
スタ集合作成手段においてクラスタの木構造を作成する
ことにより複数のクラスタ集合を作成するクラスタ木構
造作成手段(図3の303)をもつことを特徴とする。
択手段において、好ましくは記述長最小原理が用いられ
る。
選択手段において、情報量基準として好ましくは赤池弘
次氏により提唱されたAICが用いられる(AICにつ
いては、例えば文献(H.Akaike: A New-Look at the St
atistical Mode Identification, IEEE, Trans. on Aut
omatic Control AC-19-6,716/723(1974))、及び文献
(赤池弘次、「情報量基準とは何か」、数理科学、(昭5
1-3) 5-11 (1976))等が参照される)。
入力として音声を用い、クラスタの木構造として音韻木
を用いる。
て音声を用い、クラスタの木構造を、標準パターンに対
する音響空間における距離を用いた階層クラスタリング
を用いる。
好ましくは隠れマルコフモデル(HMM)を用いる。
図2を参照して説明する。ここでは、特にHMMとし
て、left−to−right HMM(レフト・ツ
ー・ライトHMM)を例にとる。
経過につれての系の状態番号が大きくなるモデルであ
る。つまり系の状態が左から右へと進む特性をもつ。ま
た、最も認識単位種類数が少な認識単位として、音素単
位を仮定し、最も認識単位種類数が多い認識単位とし
て、3音素連鎖単位を仮定した場合について説明する。
また、情報量基準としては、記述長最小原理を用いる。
MMの学習を同時に行なう。まず、それぞれの単語が、
3音素連鎖認識単位の記号列で記述され、これをもと
に、音声データを用いて、3音素連鎖HMMが学習され
る。
MMのパラメータの結びとして学習される。「結び」と
は、異なる認識単位、状態、分布間でパラメータを共有
することを指す。例えば、状態i1から状態jへの遷移
確率と状態i2とから状態jへの遷移確率の結びai,
jは、次式(18)で与えられる。
ルと状態i2、混合要素k2の平均ベクトルの結びμ
ikは、次式(19)で与えられる。
素連鎖HMMのパラメータの重み付き平均の形で求める
ことができる。以上の処理は、図2の標準パターン用パ
ラメータ作成手段203に対応する。
いて分割していく。分割された後のそれぞれの単位をこ
こではクラスタと呼ぶ。すなわち、音素単位は複数のク
ラスタから構成されることになる。
スタ集合」と呼ぶ。分割は最初に2つに分割をし、さら
に分割された単位についてまた2分割を行なうという作
業を繰り返すことで行なう。繰り返しは、適当なところ
で停止する。もっとも細かく分割すると、分割された各
認識単位は3音素連鎖単位と等しくなる。
の弁別素性と呼ばれる性質を用いる。たとえば、音素/
a/に対応する音素単位“a”を分割する場合、前の音
素が破裂音(例えば、/b/,/d/,/g/,/p
/,/t/,/k/)であるかないか、あるいは、後ろ
の音素が有声である(例えば、/b/,/m/,/z
/)か、無声であるか(例えば、/s/,/k/)など
の条件で2分割を行なう。
の種類は数10〜数100ほどである。なお、ここでは
分割の対象として、音素単位ではなく、音素単位の状態
をとる。すなわち、音素に対し、属する状態ごとに分割
の方法を別々とする。例えば音素単位の第1状態と第2
状態とは互いに異なる分割の仕方とされる。この方が、
音素単位全体を分割するよりも、より一層きめ細かい分
割を行なうことにより、より性能の向上が期待できる。
であるものと仮定し、さらに、同じ音素に対応する音素
単位も3音素連鎖単位に対して、同一の遷移確率を用い
ることにする。
段204の処理に対応する。分割の方法は大変たくさん
ある。すなわち、可能なクラスタ集合の種類は大変多
い。このため、多数の種類のクラスタ集合が作成され
る。
クラスタに対して標準パターンを作成する。この標準パ
ターンはこのクラスタに属するカテゴリの標準パターン
の結びとして学習される。その作成方法は上で既に述べ
た。これは、図2の共有標準パターン作成手段205に
対応する。
なるクラスタ集合の中から入力データに対し最適なクラ
スタ集合を求める。
iption Length;MDL)原理は最近の情
報理論および計算論的学習理論の研究から、データに対
し最適な確率モデルを選択する問題において、有効であ
ることが実証されている。記述長最小原理は、例えば、
刊行物(韓太舜著、「岩波講座応用数学11、情報と符
号化の数理」、岩波書店(1994)(以下、文献2)
の、第249〜275頁)の記載が参照される。
のうち、データxN=x1,…,xNの記述長を最小とす
るモデルが最適なモデルであると主張する。記述長は次
式(20)で表される。
タθ(i)=(θ1 (i),…,θk(i) (i))の最尤推定量であ
る。
する対数尤度を符号反転させたもの、第2項はモデルの
複雑さを表す量である。
なり、第2項は大きくなる。このように両者の間にはト
レードオフがあり、ある適当な複雑さをもったモデルが
最適なモデルとして選択される。
クラスタ集合Uに対する記述長は次のように計算され
る。
S1,…,SMとする。ここで、MはUにおける要素クラ
スタの個数である。今、データの状態Smに対する尤度
L(Sm)は以下の式(21)、(22)のように近似
できる。
ての3音素連鎖単位の状態、また、Kは共有標準パター
ンとして用いられる平均ベクトルおよび分散の次元数で
ある。また、μsm、Σsmは、それぞれクラスタSmに
おける共有標準パターンの平均ベクトルおよび分散であ
る。
する記述長l(U)は、次式(24)、(25)のよう
に表せる。
てのデータのフレーム数に相当する量であり、分割の方
法によらない。
長l(U)を計算し、最も小さいl(U)をもつクラス
タ集合Uを選択する。以上の処理は、図2の最適クラス
タ集合選択手段206の処理に対応する。
有標準パターンを用いて標準パターンを作成する。
集合を構成する各クラスタは、1つの共有標準パター
ン、すなわち、平均ベクトルと分散をもつ。これらをこ
のクラスタに属するすべての状態の平均値と分割する。
そしてその後、それぞれの3音素連鎖認識単位の標準パ
ターンとして記憶する。以上は、図2の標準パターン記
憶手段207に対応する。
スタ集合Uの数は通常大変多い。
ては、図3に示すように、クラスタの木構造を作成する
ことにより計算量を削減する(木構造クラスタ作成手段
303参照)。これを以下に説明する。
pに対するノード(節点)を作成する。今、このノード
をルートノードと呼ぶ。ルートノードの共有標準パター
ンは、この音素に対応するすべての3音素連鎖単位を全
て結びの関係にしたときに得られる。
を記号Q1,…,QRで表す。ここで、Rは全条件の数で
ある。この分割条件すべてについて、分割を行ない、記
述長の変化を調べる。もとのクラスタをS0、2分割し
たときのクラスタをそれぞれ、S1、S2としたとき、記
述長の変化分Δは次式(27)、(28)で表される。
件を求め、そのとき変化分Δ<0ならば2分割を行な
い、もし、変化分Δ>0ならば分割を行なわない。
ノードS1、S2それぞれについて上と同様に分割毎の記
述長を計算し、記述長が減少する場合には、最も減少量
の大きい分割条件で、分割を行なう。以上の処理を繰り
返す。結果として、分割の履歴は2分木の木構造で表現
される。
再帰的に行なうことにより、情報量基準の意味で最適な
分割を求めることが可能である。
は、図3に示した、クラスタ木構造作成手段を用いた標
準パターン作成手段303の説明である。
記述長最小原理を用いる場合についてのみ説明したが、
赤池情報量基準(Information Crireia;「AIC」と
いう)を用いた場合、すなわちAIC=−2log
e(最大尤度)+2(パラメータ数)の最大尤度に式
(20)で用いた最尤推定量xN等を用いることもでき
る。この場合、モデル決定においては、種々のモデルの
パラメータを最尤法で推定し、その中でAICを最小と
するものが最良のモデルとして選択され、もし、二つの
モデルが同程度に適合していれば、AICの第1項は等
しいことから、第2項のパラメータ数が少ない方のモデ
ルが選択される。あるいはAIC以外にも他の類似の情
報量基準を用いた場合においても容易に適用可能であ
る。
音韻規則(弁別素性)を用いて作成する方法を説明した
が、音響空間上の距離を用いて木構造を作成することも
可能である。
ック図である。
01は、入力パターンを保持し、標準パターン作成用パ
ラメータ作成手段203は、各カテゴリの標準パターン
を作成するのに必要なパラメータを計算し出力する。ク
ラスタ集合作成手段204では、カテゴリ集合を分割し
クラスタ集合とする。共有標準パターン作成手段205
では、各クラスタ集合の各クラスタの標準パターンを求
める。最適クラスタ選択手段206は、複数のクラスタ
集合および共有標準パターンを入力とし、情報量基準を
用いて最適なクラスタを選択する。標準パターン記憶手
段207は最適クラスタ集合の共有標準パターンを各カ
テゴリの標準パターンとして記憶する。
ブロック図である。
01は入力パターンを保持する。標準パターン作成用パ
ラメータ作成手段302は、各カテゴリの標準パターン
を作成するのに必要なパラメータを計算し出力する。ク
ラスタ作成手段304では、カテゴリ集合を分割し木構
造クラスタ集合とする。共有標準パターン作成手段30
5では、各クラスタ集合の各クラスタ木構造の標準パタ
ーンを求める。最適クラスタ選択手段306は、複数の
クラスタ集合および共有標準パターンを入力とし、情報
量基準を用いて最適なクラスタを選択する。標準パター
ン記憶手段307は、最適クラスタ集合の共有標準パタ
ーンを各カテゴリの標準パターンとして記憶する。
パターン認識における標準パターンの学習において、情
報量基準を用いることにより、与えられた学習データに
対し、情報量基準の意味で最適な認識単位を作成するこ
とができる。
は、種類数の小さい認識単位を、データ量が多い時に
は、多くの種類の認識単位を生成する。過学習の問題
や、学習データのないカテゴリが生じる問題を、回避し
た、安定な学習が可能で、高い認識性能をもった標準パ
ターンが作成可能である。
図である。
ク図である。
段 204、304 クラスタ集合作成手段 205、305 共有標準パターン作成手段 206、306 最適クラスタ選択手段 207 標準パターン記憶手段
Claims (7)
- 【請求項1】標準パターンを用いるパターン認識におい
て、 入力データから入力パターンを作成する入力パターン作
成手段と、 各々のカテゴリの標準パターン作成用パラメータを作成
する標準パターン作成用パラメータ作成手段と、 全カテゴリ集合を複数のクラスタに分割しクラスタ集合
を作成するクラスタ集合作成手段と、 各々のクラスタ内の全カテゴリに共通の標準パターンを
作成する共有標準パターン作成手段と、 前記クラスタ集合作成手段により作成された互いに異な
る複数のクラスタ集合の中から、情報量基準を用いて最
適なクラスタ集合を選択する最適クラスタ集合選択手段
と、 前記最適クラスタ集合の共有標準パターンを各カテゴリ
の標準パターンとして記憶する標準パターン記憶手段
と、 を含むことを特徴とする標準パターン作成方式。 - 【請求項2】前記クラスタ集合作成手段が、クラスタの
木構造を作成することにより複数のクラスタ集合を作成
するクラスタ木構造作成手段を含むことを特徴とする請
求項1記載の標準パターン作成方式。 - 【請求項3】前記標準パターン選択手段が、前記複数標
準パターンから1つの標準パターンを情報量基準を用い
て選択する際に記述長最小原理を用いることを特徴とす
る請求項1又は2に記載の標準パターン作成方式。 - 【請求項4】前記標準パターン選択手段が、前記複数標
準パターンから1つの標準パターンを情報量基準を用い
て選択する際の情報量基準として、AIC基準を用いる
ことを特徴とする請求項1又は2に記載の標準パターン
作成方式。 - 【請求項5】入力として音声を用い、前記クラスタの木
構造として音韻木を用いることを特徴とする請求項2〜
4のいずれか一に記載の標準パターン作成方式。 - 【請求項6】入力として音声を用い、前記クラスタの木
構造を、標準パターンに対する音響空間における距離を
用いた階層クラスタリングを用いて作成することを特徴
とする請求項2〜4のいずれか一に記載の標準パターン
作成方式。 - 【請求項7】請求項1〜6のいずれか一に記載の前記標
準パターン作成手段を含み、入力として音声を用い、前
記標準パターン作成方式の前記標準パターン記憶手段を
参照して入力パターンの認識を行うことにより認識結果
を出力することを特徴とする音声認識システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8122758A JP2982689B2 (ja) | 1996-04-19 | 1996-04-19 | 情報量基準を用いた標準パターン作成方式 |
EP97106569A EP0802523A3 (en) | 1996-04-19 | 1997-04-21 | Standard pattern production system employing information criterion |
US08/845,234 US5960396A (en) | 1996-04-19 | 1997-04-21 | Standard pattern production system employing information criterion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8122758A JP2982689B2 (ja) | 1996-04-19 | 1996-04-19 | 情報量基準を用いた標準パターン作成方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09288492A JPH09288492A (ja) | 1997-11-04 |
JP2982689B2 true JP2982689B2 (ja) | 1999-11-29 |
Family
ID=14843893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8122758A Expired - Fee Related JP2982689B2 (ja) | 1996-04-19 | 1996-04-19 | 情報量基準を用いた標準パターン作成方式 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5960396A (ja) |
EP (1) | EP0802523A3 (ja) |
JP (1) | JP2982689B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4336865B2 (ja) | 2001-03-13 | 2009-09-30 | 日本電気株式会社 | 音声認識装置 |
JP3896868B2 (ja) | 2002-02-27 | 2007-03-22 | 日本電気株式会社 | パターンの特徴選択方法及び分類方法及び判定方法及びプログラム並びに装置 |
JP2005156593A (ja) * | 2003-11-20 | 2005-06-16 | Seiko Epson Corp | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
JP4631076B2 (ja) * | 2004-11-01 | 2011-02-16 | 株式会社国際電気通信基礎技術研究所 | 音素単位セットを最適化する方法及びシステム |
JP4170325B2 (ja) * | 2005-08-05 | 2008-10-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 辞書の妥当性を評価する装置、方法およびプログラム |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH03203794A (ja) * | 1989-12-29 | 1991-09-05 | Pioneer Electron Corp | 音声リモートコントロール装置 |
JPH05134694A (ja) * | 1991-11-15 | 1993-05-28 | Sony Corp | 音声認識装置 |
JPH05249990A (ja) * | 1992-03-04 | 1993-09-28 | Sony Corp | パターンマッチング方法およびパターン認識装置 |
US5497447A (en) * | 1993-03-08 | 1996-03-05 | International Business Machines Corporation | Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors |
-
1996
- 1996-04-19 JP JP8122758A patent/JP2982689B2/ja not_active Expired - Fee Related
-
1997
- 1997-04-21 US US08/845,234 patent/US5960396A/en not_active Expired - Lifetime
- 1997-04-21 EP EP97106569A patent/EP0802523A3/en not_active Withdrawn
Non-Patent Citations (7)
Title |
---|
Proceedings of 1994 IEEE International Conference on Acoustics,Speech and Signal Processing,Vol.1"Automatic Training of Phoneme Dictionary based on Mutual Information Criterion"p.▲I▼−241〜▲I▼−244 |
日本音響学会講演論文集(平成8年3月)3−5−19,p.145〜146 |
日本音響学会講演論文集(平成8年9月)2−3−11,p.69−70 |
電子情報通信学会技術研究報告[音声]SP93−25,p.9〜16(1993(平成5)年6月) |
電子情報通信学会技術研究報告[音声]SP93−26,p.17〜24(1993(平成5)年6月) |
電子情報通信学会技術研究報告[音声]SP93−79,p.9〜15(1993(平成5)年12月) |
電子情報通信学会技術研究報告[音声]SP96−22,p.9〜15(1996(平成8)年6月) |
Also Published As
Publication number | Publication date |
---|---|
JPH09288492A (ja) | 1997-11-04 |
EP0802523A2 (en) | 1997-10-22 |
EP0802523A3 (en) | 1998-12-30 |
US5960396A (en) | 1999-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5526463A (en) | System for processing a succession of utterances spoken in continuous or discrete form | |
US5812975A (en) | State transition model design method and voice recognition method and apparatus using same | |
CA2163017C (en) | Speech recognition method using a two-pass search | |
JP2871561B2 (ja) | 不特定話者モデル生成装置及び音声認識装置 | |
US5983178A (en) | Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
JPS62231995A (ja) | 音声認識方法 | |
US20050228666A1 (en) | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system | |
Hashimoto et al. | Trajectory training considering global variance for speech synthesis based on neural networks | |
US5956676A (en) | Pattern adapting apparatus using minimum description length criterion in pattern recognition processing and speech recognition system | |
Zweig | Bayesian network structures and inference techniques for automatic speech recognition | |
JPH08211889A (ja) | 木構造を用いたパターン適応化方式 | |
JP2982689B2 (ja) | 情報量基準を用いた標準パターン作成方式 | |
JP2004109590A (ja) | 音響モデル作成方法および音声認識装置 | |
JP6594251B2 (ja) | 音響モデル学習装置、音声合成装置、これらの方法及びプログラム | |
CA2203649A1 (en) | Decision tree classifier designed using hidden markov models | |
JP3589044B2 (ja) | 話者適応化装置 | |
El Ouahabi et al. | Amazigh speech recognition using triphone modeling and clustering tree decision | |
Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition | |
JPH07104780A (ja) | 不特定話者連続音声認識方法 | |
JPH0981178A (ja) | 不特定話者モデル作成装置及び音声認識装置 | |
De Mori et al. | Search and learning strategies for improving hidden Markov models | |
JP3532248B2 (ja) | 学習音声パタンモデル使用音声認識装置 | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
Park et al. | Discriminative weight training for unit-selection based speech synthesis. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990824 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080924 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090924 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100924 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110924 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120924 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 14 |
|
LAPS | Cancellation because of no payment of annual fees |