JP3245149B2

JP3245149B2 - パターン認識装置

Info

Publication number: JP3245149B2
Application number: JP31438389A
Authority: JP
Inventors: 彰男安藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1989-12-05
Filing date: 1989-12-05
Publication date: 2002-01-07
Anticipated expiration: 2017-01-07
Also published as: JPH03176781A

Description

【発明の詳細な説明】

［産業上の利用分野］本発明は、各カテゴリごとに複数個ずつ用意された標
準パターンを用いて識別を行うパターン認識装置に関す
る。［発明の概要］各カテゴリごとに複数個ずつ用意した標準パターンを
用いて識別を行なうパターン認識のための標準パターン
構成法に関するもので、与えられた学習データを識別率
を評価関数として最適に分類して標準パターンを構成す
ることにより、従来からの識別率を考慮に入れていない
クラスタリング法を用いて標準パターンを構成する方式
よりも高い識別性能が得られるようにしたものである。［従来の技術］各カテゴリごとに複数個の標準パターンを用意して識
別を行なうパターン認識方式のための標準パターン構成
法としては、例えば、長尾真著：岩波講座情報科学21
「パターン認識と図形処理」（岩波書店発行）に開示さ
れているようなクラスタリングの手法を用いた技術が考
えられる。従来のクラスタリングは、学習データが分布
している空間において距離を定義した上、各カテゴリご
とに互いに距離が近いものを集めてクラスタを構成する
方法であり、標準パターンは各クラスタごとに重心を計
算することによって与えられる。このように、データの分類という観点から標準パター
ンを構成する方法はあるが、本発明のように識別という
観点からクラスタを構成する方法は皆無であった。［発明が解決しようとする課題］従来のクラスタリングを用いる標準パターンの構成法
は、各カテゴリごとに互いに距離の近いものを集めるこ
とによって学習データを分類する方法であって、識別と
いう点で他のカテゴリとの関係を考慮していないので、
得られた標準パターンは識別という意味では必ずしも適
当なものではなかった。そこで、より高い識別能力を実
現するためには、識別という観点から標準パターンを構
成する必要がある。本発明の目的は、かかる点に鑑み、学習データに対し
て識別という意味で最適なクラスタリングを行なって、
標準パターンを構成することにより、各カテゴリごとに
複数個の標準パターンを用意して識別を行なうというパ
ターン認識方式の中で、従来よりも高いパターン識別能
力をもつパターン認識装置を提供することにある。［課題を解決するための手段］上記目的を達成するため、本発明は、各カテゴリごと
に複数個ずつ用意された標準パターンを用いて識別を行
うパターン認識装置において、学習データを各カテゴリ
毎に複数のクラスタに分割するクラスタ分割手段と、各
前記クラスタ毎に代表点を決める代表点決定手段と、当
該代表点によって標準パターンを構成する標準パターン
構成手段と、当該標準パターンを用いて前記学習データ
を認識したときの誤認識の程度を示す関数を構成する関
数構成手段と、前記関数を評価関数として前記クラスタ
分割を最適化するクラスタ分割最適化手段と、を具備
し、最適化されたクラスタ分割に対応する代表点による
標準パターンをもって最終的な標準パターンとし、当該
最終的な標準パターンを用いて識別を行うことを特徴と
する。本発明の一形態として、前記誤認識の程度を示す関数
は、集合｛t_ir｝を標準パターンとして、学習データの
集合｛X_ij｝を認識した時の誤認識の程度を示す関数Ｅ
であり、該関数Ｅは関数μを選ぶことにより次式

【数２】で定義されることを特徴とすることができる。［作用］本発明は、学習データを各カテゴリ毎に複数のクラス
タに分割し、各クラスタ毎に代表点を決め、当該代表点
によって標準パターンを構成し、当該標準パターンを用
いて学習データを認識したときの誤認識の程度を示す関
数を構成し、この関数を評価関数としてクラスタ分割を
最適化し、最適化されたクラスタ分割に対応する代表点
による標準パターンをもって最終的な標準パターンと
し、当該最終的な標準パターンを用いて識別を行うの
で、各カテゴリごとに複数個ずつ用意された標準パター
ンを用いて識別を行うパターン認識装置において、パタ
ーン識別能力を向上させることができる。［実施例］以下、図面を参照して本発明の実施例を詳細に説明す
る。実施例の詳細まず、次のように記法を定める。Ｋ：識別すべきパターンのカテゴリ数 N_i ：カテゴリｉに対する学習データの数（ｉ＝1,…,K） M_i ：カテゴリｉに対するクラスタの数（ｉ＝1,…,K） X_ij :学習データ（ｉ＝1,…,K、ｊ＝1,…,N_i） C_ir :カテゴリ（例えば、母音）ｉに対するｒ番目のク
ラスタ（ｉ＝1,…,K、ｒ＝1,…,M_i） S_ir :クラスタC_irに含まれる学習データの数（ｉ＝1,…,K、ｒ＝1,…,M_i） y_irp :クラスタC_irに属するｐ番目の学習データ（ｉ＝1,…,K、ｒ＝1,…,M_i、ｐ＝1,…,S_ir）但し、y_irp∈｛X_ij｝ t_ir :カテゴリ（例えば、母音）ｉに対するｒ番目の標
準パターン（ｉ＝1,…,K、ｒ＝1,…,M_i）Ｅ：標準パターンの組｛t_ir｝を用いて全学習パター
ン｛X_ij｝を識別した時の誤認識の程度を表わす関数 A,B :繰返しの回数本発明実施例は、上記の関数Ｅを最小にする標準パタ
ーンの組｛t_ir｝を構成することを特徴とする。関数Ｅ
を最小化する方法として、組合せ最適化問題を解く方法
の１つであるアニーリング法（simulated annealing）
を用いた場合の、本発明の実施例のフローチャートを、
第１図から第３図までに示す。図示したB2〜B40の各ブ
ロック（処理ステップとも称する）における実行内容は
次の通りである。なお、このアルゴリズムを実行するた
めの計算機、記憶装置等は標準パターン作成に用いるこ
とのできる一般的なものを適用できるので、その説明は
省略する。 B2 :まず学習データの集合｛X_ij｝を各カテゴリごとに
予め決められた数M_i個のクラスタC_i1、…、C_iM_iに分類
する。本実施例では、従来のクラスタリング法を用いて
この分類を行う。最後に、得られたクラスタの集合｛C
_ir｝を出力する。 B4 :｛y_irp｝をクラスタC_irに含まれる学習データの集
合とすると、クラスタC_irから得られる標準パターンt_ir
を次式（１）により計算する。ここで、S_irはクラスタC_irに含まれる学習データの数
である。また、学習データがベクトル空間上の点で表現
されている場合には、上式のΣはベクトルの和を計算す
ることを意味することとする。全てのクラスタに対し標
準パターンを計算した後、標準パターンの集合｛t_ir｝
を出力して、本ブロックは処理を終える。 B6 :集合｛t_ir｝を標準パターンとして、学習データの
集合｛X_ir｝を認識した時の誤認識の程度を表わす関数
Ｅを計算する。誤認識された学習データの個数でＥを定
義しても良いが、本実施例では、次のようにしてＥを計
算する。先ず、ある学習データX_ijに対して次の２つの
距離d₁,d₂を定義する。ここで、ｄは２つのパターン間のユークリッド距離を
表わす。この時、λを λ（X_ij,｛t_ir｝）＝d₁（X_ij,｛t_ir｝）／（d₁（X_ij,｛t_ir｝）＋d₂（X_ij,｛t_ir｝）） …（２）で定義する。上式（２）から明らかに、０≦λ≦１であ
る。このλと、パラメータκ（０＜κ＜0.5）に対して
関数μ（X_ij,｛t_ir｝）を定義する。具体的には、λ＜
0.5−κの場合にはμ＝0,0.5−κ≦λ＜0.5＋κに対し
て μ＝（λ−κ−0.5）/2κ …（３）とし、0.5＋κ≦λに対してμ＝１とする。標準パター
ンを用いる識別の場合には、λ＜0.5なら正しく識別さ
れ、λ≧0.5ならば誤って識別される。従って、λ≧0.5
に対して１、それ以外のλに対して０となる関数μ′を
考えると、μ′は誤識別かどうかを０と１で表現する。
上式（３）のμは、このμ′にパラメータκを導入した
ものであり、誤認識の程度を表わす関数となっている。
関数Ｅを次式（４）で定義する。明らかにＥは標準パターンの組｛t_ir｝の
関数であり、標準パターンとして｛t_ir｝を選んで学習
パターン全体を識別したときの誤識別の程度を表わす。 B7 :E^＊の初期値としてB6で求めたＥを代入する。 B84:変数ａに０を代入する。 B10:変数ｂに０を代入する。 B12:2つの誤認識の程度ＥとＥ^＊を比較する。Ｅ＜Ｅ^＊
の場合はB14へ進み、それ以外の場合はB16へ飛ぶ。 B14:クラスタの集合｛C_ir｝及び標準パターンの集合｛t
_ir｝の全要素をそれぞれ集合｛C_ir ^＊｝｛t_ir ^＊｝の要素
とし、Ｅの値をＥ^＊に代入する操作を行なう。 B16:アニーリング法におけるパラメータの１つである
「温度」T_aを次式（５）により設定する。 T_a＝0.1/log（２＋ａ） …（５） B18:クラスタの集合｛C_ir｝の中からランダムに１つの
クラスタC_vwを選択する。 B20:B18で選ばれたクラスタC_vwと同じカテゴリに属し、
C_vwとは異なるクラスタC_vzをクラスタの集合｛C_ir｝の
中からランダムに選択する。 B22:B18で選ばれたクラスタC_vwに含まれる学習データの
中から、ｄ（y_vwp,t_vz）＜ν・ｄ（y_vwp,t_vw）を満たす学習データy_vwpをランダムに選ぶ。ここで、t
_vw,t_vzはそれぞれクラスタC_vw,C_vzに対応する標準パタ
ーンである。また、νは経験に基づいて適当に与えられ
た定数である。但し、この定数νの値は１以上（例えば
1.5）である。 B23:データy_vwpをいままでのクラスタC_vwから別のクラ
スタC_vzに移すことにより、クラスタの集合｛C_ir｝に対
し摂動を与える。摂動後のクラスタの集合を｛C_ir′｝
と表すこととする。 B24:B4と同様にして、標準パターン｛t_ir′｝の計算を
行う。 B25:B6と同様にして、誤認識の程度Ｅ′の計算を行う。 B26:区間［0,1］の間で一様分布する乱数ωを発生す
る。 B28:2つの誤認識の程度を表す関数Ｅ′,Eの差（Ｅ′−
Ｅ）が負であるか、あるいはB26で発生された乱数ωがe
xp（−（Ｅ′−Ｅ）/T_a）未満であるか否かを判定す
る。肯定（YES）の判定結果の場合はB30へ進み、否定（NO）
の判定結果の場合はB32へ飛ぶ。 B30:クラスタの集合｛C_ir′｝及び標準パターンの集合
｛t_ir′｝の全要素をそれぞれ集合｛C_ir｝および
｛t_ir｝の要素とし、Ｅ′の値をＥに代入する操作を行
なう。 B32:変数ｂの値を１だけ増加させる。 B34:変数ｂが予め設定された値（繰り返しの回数）Ｂよ
りも大きいか否かを判定する。否定判定の場合はB12へ
戻り、肯定判定の場合はB36へ進む。 B36:変数ａの値を１だけ増加させる。 B38:変数ａが予め設定された値（繰り返しの回数）Ａよ
りも大きいか否かを判定する。否定判定の場合はB10へ
戻り、肯定判定の場合はB40へ進む。 B40:集合｛t_ir ^＊｝を最終的な標準パターンの集合と決
定し、標準パターンを格納するためのあらかじめ定めた
メモリ（例えば、RAM）の所定領域に格納する。以上に示した本実施例では、アニーリング法を用いた
場合について述べてきたが、例えば、B28の判断条件を
Ｅ′−Ｅ＜０のみにすると最急降下法を用いる場合に対
応する。従って、本発明は、アニーリング法を用いる場
合に限らず、他の最適化手法を用いる場合にも常に適応
し得ることは勿論である。実験結果以上に述べた通り、本発明によれば、識別に適した標
準パターンを構成することができるので、標準パターン
を用いるパターン認識であれば音声認識に限らず、図形
認識等においても識別能力の向上を図るために本発明を
適応することができる。ここでは、音声認識のうちで、標準パターンを用いて
母音を認識する場合に本発明を適応した結果について述
べる。母音として撥音を含む６母音/a/,/i/,/u/,/e/,/o/,/N
/を想定し、これらの６つの各カテゴリごとに３つずつ
の標準パターン（すなわち、Ｋ＝6,M_i＝３（ｉ＝1,
6））を用意して母音認識を行なう場合について検討し
た。従って、全クラスタ数は18となる。検討に当っては
男性話者２名が発声した連続音声を、第２図に示すよう
に、標本化周波数15kHzで標本化し、18次のLPC（線形予
測符号化）ケプストラム分析を行なった後、母音中心３
フレームを平均して母音データを作成した。１名分の音声データ（話者１と称する）については、
母音中心は視察によって定めた。もう１名の話者の音声データ（話者２と称する）は、
ATR（アドバンストテレコミュニケーションズリサ
ーチインスティテュトインタナショナル）音声デー
タベースの中の話者MAUが文節単位に発声した文章デー
タ（SA1〜SA4）であり、母音中心はこのデータベースに
付与された母音中心のラベルに基づいて定めた。このようなデータを各カテゴリごとに100個ずつ作成
し、これらを50個ずつに分割して（すなわち、N_i＝50
（ｉ＝1,6））、データセットＡ、データセットＢを作
成した。データセットＡを用いて標準パターンを構成し、デー
タセットＡ（学習データ）の認識及びデータセットＢ
（未知データ）の認識を行なった。データセットＢを用いて標準パターンを構成する場合
についても同様のことを行ない、最後に、学習データ、
未知データ別に認識率を平均した。なお、第１図〜第３図のフローチャートのアルゴリズ
ムを使用するに当っては、B2,B24に示すクラスタ集合の
初期化を、従来から提案されているクラスタリングアル
ゴリズムの１つであるLBG（Linde,Buzo,Gray）アルゴリ
ズムを用いて行なった。また、B6,B25におけるパラメータκを0.2、B22におけ
るパラメータνを1.5と設定した。また、B38のＡを200,
B34のＢを10と設定した。比較のため、従来のクラスタリング法の例としてLBG
アルゴリズムのみを用いる場合についても同様の認識実
験を行なった。実験結果を表１に示す。表１により何れの話者につい
ても、特に未知データの場合、本発明を用いると誤認識
率が下がり、従って認識性能が向上することが確認でき
た。［発明の効果］以上説明したように、本発明によれば、学習データを
各カテゴリ毎に複数のクラスタに分割し、各クラスタ毎
に代表点を決め、当該代表点によって標準パターンを構
成し、当該標準パターンを用いて学習データを認識した
ときの誤認識の程度を示す関数を構成し、この関数を評
価関数としてクラスタ分割を最適化し、最適化されたク
ラスタ分割に対応する代表点による標準パターンをもっ
て最終的な標準パターンとし、当該最終的な標準パター
ンを用いて識別を行うので、各カテゴリごとに複数個ず
つ用意された標準パターンを用いて識別を行うパターン
認識装置において、パターン識別能力を向上させること
ができる。

【図面の簡単な説明】

第１図，第２図および第３図は、本発明のパターン認識
装置の一実施例の標準パターン構成手順を示すフローチ
ャート、第４図は、本発明を実施したパターン認識装置の機能構
成例を示すブロック図である。４……クラスタ化・標準パターン構成ブロック（B2〜B4
0に相当）、６……照合ブロック、７……判定ブロック。

フロントページの続き (56)参考文献鹿野清宏著「不特定話音単語音声認識における単語マルチテンプレートの一選択法」信学技報ＰＲＬ83−38，ＰＰ. 39−46（1983) 尾関和彦安藤彰男著「疑似アニーリング法による母音標準パターンの最適配置」日本音響学会昭和63年秋季講演論文集２−Ｐ−（22），昭和63年10月

Claims

(57)【特許請求の範囲】

【請求項１】各カテゴリごとに複数個ずつ用意された標
準パターンを用いて識別を行うパターン認識装置におい
て、学習データを各カテゴリ毎に複数のクラスタに分割する
クラスタ分割手段と、各前記クラスタ毎に代表点を決める代表点決定手段と、当該代表点によって標準パターンを構成する標準パター
ン構成手段と、当該標準パターンを用いて前記学習データを認識したと
きの誤認識の程度を示す関数を構成する関数構成手段
と、前記関数を評価関数として前記クラスタ分割を最適化す
るクラスタ分割最適化手段と、を具備し、最適化されたクラスタ分割に対応する代表点
による標準パターンをもって最終的な標準パターンと
し、当該最終的な標準パターンを用いて識別を行うこと
を特徴とするパターン認識装置。
【請求項２】前記誤認識の程度を示す関数は、集合｛t
_ir｝を標準パターンとして、学習データの集合｛X_ij｝
を認識した時の誤認識の程度を示す関数Ｅであり、該関
数Ｅは関数μを選ぶことにより次式【数１】で定義されることを特徴とする請求項１に記載のパター
ン認識装置。