JP3110478B2

JP3110478B2 - パターン認識方法および装置

Info

Publication number: JP3110478B2
Application number: JP03061842A
Authority: JP
Inventors: 彰男安藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1991-03-26
Filing date: 1991-03-26
Publication date: 2000-11-20
Anticipated expiration: 2015-11-20
Also published as: JPH04295893A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、標準パターンを用いて
データの認識を行なうパターン認識方法および装置に係
り、特に、各カテゴリごとに複数個の標準パターンを用
意してデータの識別を行なうパターン認識方法および装
置に関する。

【０００２】

【発明の概要】本発明は、各カテゴリごとに複数個ずつ
用意した標準パターンを用いてデータの認識を行なうパ
ターン認識のための標準パターン構成法および装置に関
するもので、与えられた学習データ全体を標準パターン
を用いて認識した時の誤認識の程度を当該標準パターン
の関数として構成した上、この関数を最小化する最適標
準パターンを求めることにより、従来から用いられてい
る標準パターンの学習法を用いて標準パターンを構成し
て認識を行なう場合よりも高い識別性能を提供するパタ
ーン認識方法および装置である。

【０００３】

【従来の技術】各カテゴリごとに複数個の標準パターン
を用意してデータの識別を行なうパターン認識方式のた
めの標準パターン構成法として、例えば、Ｔ．Ｋｏｈｏ
ｎｅｎ“ＳｅｌｆＯｒｇａｎｉｚａｔｉｏｎａｎｄ
ＡｓｓｏｃｉａｔｉｖｅＭｅｍｏｒｙ”に示されて
いるＬＶＱ（ＬｅａｒｎｉｎｇＶｅｃｔｏｒＱｕａ
ｎｔｉｚａｔｉｏｎ）があり、その改良版であるＬＶＱ
２は広く用いられているる。ＬＶＱ２は、学習データを
用いて繰返し標準パターンを修正していく方法で、ｔ回
目の学習ステップについて考えると、先ず１つの学習デ
ータ（ｘで表わす）を選んだ上、ｘに最も近い標準パタ
ーン（ｍ_i （ｔ）で表わす）がｘとは異なるカテゴリに
属し、かつｘに２番目に近い標準パターン（ｍ_j （ｔ）
で表わす）がｘと同じカテゴリに属する場合において、
ｘ，ｍ_i （ｔ），ｍ_j （ｔ）の位置関係がある条件（ｘ
がｍ_i （ｔ）とｍ_j （ｔ）によって決まる「窓」の中に
入る）を満たす場合に次のような「学習」を行なう方法
である：（１）ｍ_i をｘから遠ざけるように修正する；ｍ_i （ｔ＋１）＝ｍ_i （ｔ）−α（ｔ）（ｘ−ｍ
_i（ｔ））（２）ｍ_j をｘに近づけるよう修正する；ｍ_j （ｔ＋１）＝ｍ_j （ｔ）＋α（ｔ）（ｘ−ｍ
_j（ｔ））（３）ｍ_i ，ｍ_j 以外の標準パターンは修正しない；ｍ_k （ｔ＋１）＝ｍ_k （ｔ），ｋ≠ｉ，ｊ上式において、α（ｔ）は、初期値が０≦α（０）≦１
を満たすｔの単調減少関数で、繰返しの最終段階におい
て０となるように設定される。ＬＶＱ２ではこのような
学習の繰返し数と、α（ｔ）を適当に設計してやれば、
学習データに対して誤認識数を少なくするような標準パ
ターンの組が得られることが知られている。

【０００４】

【発明が解決しようとする課題】ＬＶＱ２が標準パター
ンの構成に有効であることは広く知られているが、ＬＶ
Ｑ２には「学習データに対する誤認識数の減少のみを目
的としているため、特に学習データ数が少ない場合に
は、未知データに対し高い識別能力を得ることが難し
い。」という問題点がある。

【０００５】そこで本発明の目的は、誤認識数の概念を
拡張して誤認識の程度を表わす関数を定義した上、この
関数を学習データに対し最小化することによって、少な
い学習データからでも精度良く最適標準パターンを構成
し、この最適標準パターンを用いてデータの識別を行な
うという枠組みの中で、従来法に比べ未知データに対し
て高い識別能力を持つパターン認識方法および装置を提
供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
本発明は、各カテゴリごとに複数個ずつ用意された標準
パターンを用いてデータの認識を行なうパターン認識方
法において、与えられた学習データを標準パターンを用
いて認識した時の誤認識の程度を前記学習データと前記
標準パターンとの間の距離の関数として構成し、該標準
パターンの集合にランダムな摂動を与えて新たな標準パ
ターン集合を生成し、この新たな標準パターン集合に最
適化手法を適用して前記関数を最小化する最適標準パタ
ーンを求め、当該最適標準パターンを用いてデータの認
識を行なうことを特徴とする。また本発明は、各カテゴ
リごとに複数個ずつ用意された標準パターンを用いてデ
ータの認識を行なうパターン認識装置において、与えら
れた学習データを標準パターンを用いて認識した時の誤
認識の程度を前記学習データと前記標準パターンとの間
の距離の関数として構成する手段と、該標準パターンの
集合にランダムな摂動を与えて新たな標準パターン集合
を生成する手段と、生成されたこの新たな標準パターン
集合に最適化手法を適用して前記構成された関数を最小
化する最適標準パターンを求める手段と、前記求められ
た最適標準パターンを用いてデータの認識を行なう手段
とを具えたことを特徴とする。

【０００７】

【作用】本発明によれば与えられた学習データ全体を標
準パターンを用いて認識した時の誤認識の程度を当該標
準パターンの関数として構成し、この関数を最小化する
最適標準パターンを求め、この最適標準パターンを用い
てデータ認識を行なうことによって、高い識別性能が得
られる。

【０００８】

【実施例】以下、実施例に基づいて本発明を詳細に説明
する。

【０００９】先ず、次のように記法を定める。

【００１０】Ｒ^p ：ｐ次元ユークリッド空間Ｋ：認識すべきパターンのカテゴリ数Ｎ_i ：カテゴリｉに対する学習データの数（ｉ＝１，…，Ｋ）Ｍ_i ：カテゴリｉに対する標準パターンの数（ｉ＝１，…，Ｋ）ｘ_ij：学習データ（ｘ_ij ∈Ｒ^p ）（ｉ＝１，…，Ｋ、ｊ＝１，…，Ｎ_i ）ｔ_ir：カテゴリｉに対するｒ番目の標準パターン（ｔ_ir ∈Ｒ^p ）（ｉ＝１，…，Ｋ、ｒ＝１，…，Ｍ_i ）Ｅ：標準パターンの組｛ｔ_ir｝を用いて全学習データ
｛ｘ_ij｝を識別した時の誤認識の程度を表わす関数Ｌ，ｍ：繰り返しの回数本発明は、上記のＥを最小にする標準パターンの組｛ｔ
_ir｝を構成することを特徴とする方式である。Ｅを最小
化する方法として、組合せ最適化問題を解く方法の１つ
であるアニーリング法（ｓｉｍｕｌａｔｅｄａｎｎｅ
ａｌｉｎｇ）を用いた場合の、本発明の実施例のフロー
チャートを、図１から図３までに示した。図示した各ブ
ロックにおける実行内容は次の通りである。

【００１１】Ｂ２：クラスタリング等の方法を用いて、
学習データの集合｛ｘ_ij｝から、各カテゴリごとに予め
決められた数の標準パターンを作成した後、得られた標
準パターンの組｛ｔ_ir｝を出力する。本実施例では、Ｌ
ＢＧクラスタリングアルゴリズムを用いて初期標準パタ
ーンを作成した。

【００１２】Ｂ４：集合｛ｔ_ir｝を標準パターンとし
て、学習データの集合｛ｘ_ij｝を認識した時の誤認識の
程度を表わす関数Ｅを計算する。誤認識された学習デー
タの個数でＥを定義しても良いが、本実施例では、次の
ようにしてＥを計算した。先ず、ある学習データｘ_ijに
対して次の２つの距離ｄ₁ 、ｄ₂ を定義する。

【００１３】

【数１】

【００１４】

【数２】ｄ₂（ｘ_ij，｛ｔ_ir｝）＝ｍｉｎ（ｄ（ｘ_ij，ｔ_ur））ｕ＝１，ｋ（ｕ≠ｉ）ｒ＝１，Ｍ_u ここにｄは２つのパターン間のユークリッド距離を表わ
す。この時、λを

【００１５】

【数３】で定義する。明らかに、０≦λ≦１。このλと、
パラメータκ（０＜κ＜０．５）に対して関数μ
（ｘ_ij，｛ｔ_ir｝）を定義する。具体的には、λ＜０．
５−κの場合にはμ＝０、０．５−κ≦λ＜０．５＋κ
に対して μ＝（λ＋κ−０．５）／２κ ０．５＋κ≦λに対してμ＝１とする。標準パターンを
用いる識別の場合には、λ＜０．５なら正しく識別さ
れ、λ≧０．５ならば誤って識別される。従って、λ≧
０．５に対して１、それ以外のλに対して０となる関数
μ′を考えると、μ′は誤認識かどうかを０と１で表現
する。上式のμは、このμ′にパラメータκを導入した
ものであり、誤認識の程度を表わす関数となっている。
関数Ｅを

【００１６】

【数４】で定義する。明らかにＥは標準パターンの組｛ｔ
_ir｝の関数であり、標準パターンとして｛ｔ_ir｝を選ん
で学習データ全体を識別したときの誤認識の程度を表わ
す。本実施例では、κ＝０．１と設定した。

【００１７】Ｂ６：変数ｎに０を代入する。

【００１８】Ｂ８：変数ｉに０を代入する。

【００１９】Ｂ１０：２つの誤認識の程度ＥとＥ^* を比
較する。

【００２０】Ｂ１２：Ｂ１０でＥ＜Ｅ^* のときに実行す
るブロックであって、標準パターンの集合｛ｔ_ir｝の全
要素を集合｛ｔ_ir ^* ｝の要素とし、Ｅの値をＥ^* に代入
する操作を行なう。

【００２１】Ｂ１４：Ｂ１０でＥ＜Ｅ^* でないときにお
よびＢ１２の次に実行するブロックであって、アニーリ
ング法におけるパラメータの１つである「温度」Ｔ_n を
設定する。

【００２２】Ｂ１６：学習データの集合｛ｘ_ij｝から、
なんらかの方法で１つの要素ｘ_ijを選択する。本実施例
では、集合｛ｘ_ij｝からランダムに１つの学習データｘ
_ijを選択した。

【００２３】Ｂ１８：標準パターンの集合｛ｔ_ij｝か
ら、なんらかの方法で１つの要素ｔ_urを選択する。本実
施例では、集合｛ｔ_ij｝からランダムに１つの標準パタ
ーンｔ_urを選択した。

【００２４】Ｂ２０：標準パターンの集合｛ｔ_ir｝に摂
動を与え、新たな標準パターン集合｛ｔ_ir′｝を出力す
る。摂動は、次式によって与える。

【００２５】ｔ_ur′＝ｔ_ur＋ν・θ・（ｘ_ij−ｔ_ur），ｔ_ik′＝ｔ_ik；ｉ≠μ，ｋ≠ｒ．ここに、θは区間［−１．０，１．０］上の一様乱数、
νは０≦ν≦１を満たすパラメータで、本実施例では
０．０２と設定した。

【００２６】Ｂ４：前記同様に、集合｛ｔ_ir′｝を標準
パターンとして、学習データの集合｛ｘ_ij｝を認識した
時の誤認識の程度を表わす関数Ｅ′を計算する。

【００２７】Ｂ２２：区間［０，１）の間で一様分布す
る乱数ωを発生する。

【００２８】Ｂ２４：Ｅ′−Ｅが負であるか、あるいは
Ｂ２２で発生されたωがｅｘｐ（−（Ｅ′−Ｅ）／Ｔ
_n ）未満であるかどうかを判定する。

【００２９】Ｂ２６：Ｂ２４の判定がＹｅｓのときに実
行するブロックであって、標準パターンの集合
｛ｔ_ir′｝の全要素を集合｛ｔ_ir｝の要素とし、Ｅ′の
値をＥに代入する操作を行なう。

【００３０】Ｂ２８：Ｂ２４の判定がＮｏのとき、およ
びＢ２６の次に実行するブロックであって、ｉの値を１
だけ増加させる。

【００３１】Ｂ３０：ｉが予め判定された値ｍより大き
いかどうかを判定する。判定がＮｏのときはＢ１０にす
すむ。

【００３２】Ｂ３２：Ｂ３０で判定がＹｅｓのときに実
行するブロックであって、ｎの値を１だけ増加させる。

【００３３】Ｂ３４：ｎが予め設定された値Ｌより大き
いかどうかを判定する。判定がＮｏのときはＢ８にすす
む。

【００３４】Ｂ３６：Ｂ３４で判定がＹｅｓのときに実
行するブロックであって、Ｂ１０と同様。

【００３５】Ｂ１２：前記Ｂ１２と同様Ｂ３８：集合｛ｔ_ir ^* ｝を最終的な標準パターンの集合
とする。

【００３６】以上に示した実施例では、アニーリング法
を用いた場合について述べてきたが、例えば、Ｂ２４の
判断条件をＥ′−Ｅ＜０のみにすると最急降下法を用い
る場合に対応する。従って、本発明は、アニーリング法
を用いる場合に限らず、他の最適化手法を用いる場合に
も常に適応し得ることは勿論である。

【００３７】以上に述べた通り、少ない学習データから
認識精度の高い標準パターンを構成することができるの
で、標準パターンを用いるパターン認識の問題であれ
ば、認識能力の向上を図るために本方法を適応すること
ができる。

【００３８】ついで音声認識において、標準パターンを
用いて母音を認識する装置に本発明を適応した場合につ
いて述べる図４は、本発明を実施したパターン認識装置
の機能構成を示すブロック図であり、その詳細は以下の
通りである。

【００３９】１：入力された音声情報を標本化する標本
化手段。

【００４０】２：標本化された音声データに基づいて短
い時間区間ごとにＬＰＣケプストラム係数を計算するＬ
ＰＣケプストラム分析手段。

【００４１】３：手段２からの音声データの中から母音
中心部分のＬＰＣケプストラム係数を切り出す母音デー
タ切り出し手段。

【００４２】４：手段３からのデータを学習データと
し、標準パターンを構成する標準パターン学習手段であ
って、ＣＰＵと、前記のＢ２〜Ｂ３８に示す各ブロック
をＣＰＵに実行させるためのプログラムを格納したＲＯ
Ｍと、ワークエリアを有するＲＡＭとを具えている。

【００４３】５：手段４により得られた標準パターンを
記憶した記憶手段。

【００４４】６：手段５の標準パターンの集合と手段３
からの入力音声母音データとを照合し、入力データと標
準パターンとの距離を計算する照合手段。

【００４５】７：手段６からの計算結果に基づいて入力
と最も距離が近かった標準パターンに対応する母音カテ
ゴリを判定し、認識結果として出力する判定手段。

【００４６】上記装置を用いて母音を認識した結果につ
いて述べる。母音として撥音を含む６母音／ａ／，／ｉ
／，／ｕ／，／ｅ／，／ｏ／，／Ｎ／を想定し、これら
６つの各カテゴリごとに複数個の標準パターンを用意し
て母音認識を行なう場合について検討した。但し各カテ
ゴリごとの標準パターン数は同数とした。検討に当って
はＡＴＲデータベースの中の話者ＭＡＵが文節単位に発
声した音声データを、標本化周波数１５ｋＨｚで標本化
し（手段１）、１８次のＬＰＣケプストラム分析を行な
った後（手段２）、母音中心３フレームを平均して母音
データを作成した。母音中心部は同データベースに付与
された母音中心のラベルに基づいて定めた。このような
データを、各カテゴリごとに３５０個ずつ作成し、これ
らを５０個ずつに分割（７分割）して、データセットＡ
〜Ｇを作成した。また、各カテゴリごとに１７５個ずつ
に分割（２分割）して、データセット１，２を作成した
（手段３）。

【００４７】学習データ数の少ない場合として、データ
セットＡ〜Ｇを用いて手段４，５，６，７によって実験
を行なった。先ず、データセットＡを用いて標準パター
ンを構成し、データセットＡ以外のデータ（未知デー
タ）の認識を行なった。さらに、データセットＡ以外の
データを用いて学習を行なう場合についても同様の認識
を行なった。これらの７通りの結果を平均して最終的な
認識結果とした。また、学習データが比較的多い場合と
して、データセット１，２を用いて上記と同様な実験を
行なった。なお、本発明を用いるに当っては、繰返し回
数をＬ＝５０００、ｍ＝１０と設定した。

【００４８】従来の代表的な標準パターン学習アルゴリ
ズムであるＬＶＱ２アルゴリズムを用いる場合について
も同様の認識実験を行なった。先ず、全学習データをラ
ンダムに並べかえたものを１０通り作成し、これらの中
から順に学習データを選択してＬＶＱ２により標準パタ
ーンの修正を行なった。その際、α（０）＝０．０１５
と設定し、標準パターン修正の条件を決める窓には、２
０％窓を用いた。これらはＬＶＱ２の提案者Ｔ．Ｋｏｈ
ｏｎｅｎが推奨する値である。初期標準パターンは、本
発明と同じくＬＢＧクラスタリングアルゴリズムで与え
た。

【００４９】実験の結果を図５，図６に表で示す。図５
は学習データ数が比較的多い場合、図６は学習データ数
の少ない場合である。図５，図６の縦軸は誤認識率、横
軸は各カテゴリごとの標準パターン数を示す。また、参
考のため、図５，図６にＬＢＧアルゴリズムで得られた
標準パターン（すなわち、本発明およびＬＶＱ２の初期
標準パターン）を用いた場合についての結果も示した。
図５に示されているように学習データ数が比較的多い場
合には、本発明、ＬＶＱ２とも初期状態を与えたＬＢＧ
アルゴリズムより誤認識率が少なくなっており、学習が
良好に行なわれいることが分る。しかも本発明の方が良
好な結果となっている。学習データ数が少ない場合（図
６）には、ＬＶＱ２の結果はＬＢＧアルゴリズムと余り
変わらず、従ってＬＶＱ２学習の効果がほとんど表われ
ていない。一方、本発明を用いた場合には概ね良好な結
果が得られている。

【００５０】

【発明の効果】以上説明したように、本発明によれば、
従来法に見られた学習データ数が少ない場合に学習効果
が現われないという欠点を改善することができ、しかも
学習データをある程度増やした場合でも従来法を上回る
高い識別性能を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施例の動作を示すフローチャートの
一部である。

【図２】同フローチャートの他の一部である。

【図３】同フローチャートの残りの一部である。

【図４】本発明実施例にかかるパターン認識装置の機能
構成を示すブロック図である。

【図５】本発明の実施例における実験結果の一例を示す
図である。

【図６】同実験結果の他の例を示す図である。

【符号の説明】

１標本化手段２ＬＰＣケプストラム分析手段３母音データ切り出し手段４標準パターン学習手段５記憶手段６照合手段７判定手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 9/18 Ｅ (56)参考文献特開昭63−213898（ＪＰ，Ａ) 特開平３−176781（ＪＰ，Ａ) 特開昭61−99195（ＪＰ，Ａ) 特開平４−205389（ＪＰ，Ａ) 特開昭62−14700（ＪＰ，Ａ) 特開平２−136899（ＪＰ，Ａ) 特開昭59−17598（ＪＰ，Ａ) 特開昭59−17597（ＪＰ，Ａ) 特開昭57−191698（ＪＰ，Ａ) 特開平１−154098（ＪＰ，Ａ) 特開昭63−32597（ＪＰ，Ａ) 特公平７−52354（ＪＰ，Ｂ２) 特公平４−45839（ＪＰ，Ｂ２) 特公平４−22520（ＪＰ，Ｂ２) 特公平３−44356（ＪＰ，Ｂ２) 特許2543584（ＪＰ，Ｂ２) Ｐｒｏｃｅｅｄｉｎｇｏｆ 1988 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，Ｖｏｌ. １，Ｔ．Ｋｏｈｏｎｅｎｅｔａｌ，”ＳｔａｔｉｓｔｉｃａｌＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎｗｉｔｈＮｅｕｒａｌＮｅｔｗｏｒｋｓ：ＢｅｎｃｈｍａｒｋｉｎｇＳｔｕｄｉｅｓ”，ｐ．Ｉ−61〜Ｉ−68，ＳａｎＤｉｅｇｏ，Ｃａｌｆｏｒｎｉａ, Ｊｕｌｙ 24−27，1988 電子情報通信学会論文誌Ｖｏｌ．Ｊ76 −Ａｎｏ．４「誤認識関数を最小化する標準パターン学習アルゴリズム」ｐｐ．580−588 1993年４月 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/06 G10L 15/02 G10L 101:10 ＩＥＥＥ／ＩＥＥＥｌｅｃｔｒｏｎｉｃＬｉｂｒａｒｙＯｎｌｉｎｅ

Claims

(57)【特許請求の範囲】

【請求項１】各カテゴリごとに複数個ずつ用意された
標準パターンを用いてデータの認識を行なうパターン認
識方法において、与えられた学習データを標準パターン
を用いて認識した時の誤認識の程度を前記学習データと
前記標準パターンとの間の距離の関数として構成し、該
標準パターンの集合にランダムな摂動を与えて新たな標
準パターン集合を生成し、この新たな標準パターン集合
に最適化手法を適用して前記関数を最小化する最適標準
パターンを求め、当該最適標準パターンを用いてデータ
の認識を行なうことを特徴とするパターン認識方法。
【請求項２】各カテゴリごとに複数個ずつ用意された
標準パターンを用いてデータの認識を行なうパターン認
識装置において、与えられた学習データを標準パターン
を用いて認識した時の誤認識の程度を前記学習データと
前記標準パターンとの間の距離の関数として構成する手
段と、該標準パターンの集合にランダムな摂動を与えて
新たな標準パターン集合を生成する手段と、生成された
この新たな標準パターン集合に最適化手法を適用して前
記構成された関数を最小化する最適標準パターンを求め
る手段と、前記求められた最適標準パターンを用いてデ
ータの認識を行なう手段とを具えたことを特徴とするパ
ターン認識装置。