JPH06105398B2

JPH06105398B2 - パタ−ン認識学習装置

Info

Publication number: JPH06105398B2
Application number: JP61072887A
Authority: JP
Inventors: 博松浦; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1986-03-31
Filing date: 1986-03-31
Publication date: 1994-12-21
Anticipated expiration: 2009-12-21
Also published as: JPS62229489A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は入力パターンの認識処理に用いられる認識辞書
を効果的に学習し、その認識性能の向上を図ることので
きるパターン認識学習装置に関する。

（従来の技術）従来のパターン認識装置では、学習時に入力された数個
の学習パターンに多少の加工を施し、これを認識辞書
（標準パターン）として認識辞書メモリに登録するよう
にしている。そしてこの認識辞書メモリに登録された種
々のカテゴリの認識辞書と入力パターンとを、例えばDP
マッチング法を用いる等して照合し、その照合結果から
上記入力パターンを認識するようにしている。

このようなパターン認識装置にあっては、種々のカテゴ
リの標準パターンを予め求め、これを辞書メモリに登録
しておけば良いので、さほど大容量の辞書メモリを必要
とせず、装置構成が比較的簡単である等の利点がある。

然し乍ら、この種のDPマッチング法で用いられる標準パ
ターンは認識対象の統計的分布を配慮していないので、
例えば不特定話者に対する音声認識等に適用するには不
十分である。

そこで最近では、パターンの統計的分布を考慮したマハ
ラノビスの汎距離や複合類似度法等の認識方式が注目さ
れている。ところがこの認識方式で用いられる認識辞書
は、認識対象パターンの統計的分布を考慮して作成する
ことが必要であり、一般的にその作成が非常に困難であ
る。

そこで上記統計的分布の幅を制限し、その範囲内で多く
の学習パターンを採取して、例えばｎ次元の辞書パター
ンを作成することが行われている。しかし、このように
してもその認識辞書（辞書パターン）の作成には多くの
労力と、多大な作業時間を必要とし、また採取した多く
の学習パターンを保存する為の大容量のメモリを必要と
した。

このような理由から、従来一般的には認識装置とは別の
システムにて認識辞書を作成し、これを認識装置に与え
て入力パターンの認識処理に供するようにしている。こ
の為、例えば認識対象パターンの分布が上記認識辞書の
作成時点の分布から大きくずれても、これに対処するこ
とができず、十分な認識率が得られなくなる等の不具合
があった。

そこで最近では認識率の向上を図るべく、認識辞書の適
応化方式が種々提唱されている。しかしその殆んどは簡
便な方法によって認識辞書を特定の認識対象に合致する
ように修正するだけのものである。これ故、総合的な、
つまり認識対象パターン総計的分布を考慮した認識辞書
の充実化は到底望み得ず、或る分布を持つ認識対象に対
する認識率の向上を図ることができなかった。

（発明が解決しようとする問題点）本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、パターン認識に用いる認識辞書
の学習に必要なパターンを効果的に採取すると共に、上
記学習に不要なパターンを効果的に廃棄してその認識辞
書の学習を効果的に行なわしめ、或る総計的分布を持つ
認識対象に対する認識率の向上を図ることのできるパタ
ーン認識学習装置を提供することにある。

［発明の構成］（問題点を解決するための手段］本発明は入力パターンと認識辞書とを複合類似度法や部
分空間法により照合して該入力パターンを認識すると共
に、上記入力パターンを用いて認識辞書を学習するよう
にしたパターン認識学習装置において、上記入力パターンをメモリに保存すると共に、この保存
された入力パターンを前記認識処理の状況、および学習
処理における入力パターンの使用状況に応じて廃棄する
ようにしたものである。

そして上記認識辞書の学習を、例えば共分散行列の更新
とKL展開法とを利用し、その特性核または上記共分散行
列に対する上記学習用の入力パターンの寄与率を変化さ
せる等して行なうようにしたものである。

（作用）かくして本発明によれば、認識処理に供するべく入力さ
れた入力パターンが、その認識結果と認識辞書の学習状
況に応じて該認識辞書の学習用パターンとしてメモリに
収集され、またメモリから廃棄される。

従ってメモリには、認識辞書の学習に有用な入力パター
ンだけが収集されて格納保存されることになり、このメ
モリに保存された入力パターンを用いて認識辞書を効果
的に学習することができる。この結果、認識対象の統計
的分布を反映した認識辞書を作成してその認識率の向上
を図ることが可能となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明す
る。

第１図は実施例装置の概略構成図である。尚、ここでは
入力音声のパターン認識につき説明するが、例えば手書
き文字認識等のパターン認識にも同様に適用することが
できる。

音声入力部１は、マイクロホンや増幅器からなり、入力
音声を電気信号に変換している。この入力部１を介して
入力された音声信号は、例えば８チャンネルのフィルタ
バンク等からなる特徴抽出部２に与えられ、周波数分解
されて各周波数成分を入力音声の特徴パラメータとする
入力音声パターンに変換される。

認識部３は上記入力音声の特徴ベクトルをｆとしたと
き、認識辞書記憶部４に登録されたカテゴリｌの辞書パ
ターン｛▲φ^(I) _n▼｝の各ｎ面のベクトル成分との間
で、なる複合類似度計算を実行し、その類似度Ｓを最大とす
るカテゴリを前記入力パターンの認識結果として求めて
いる。尚、この認識処理法としては、マハラノビス汎距
離やユークリッド距離等を用いて行なうようにしても勿
論良い。

このようにして求められた入力パターンの認識結果が、
表示部５にてディスプレイ表示される。またその認識結
果は、入力パターンと対応付けられて認識結果記憶部６
に格納されるようになっている。

一方、学習パターン記憶部７には、前記特徴抽出部２で
求められた入力音声のパターンが順次格納される。この
メモリ部７は複数の入力音声パターンをそのカテゴリ毎
に分類して格納保存するものである。そして各認識対象
カテゴリ毎に入力パターンが幾つ格納されているか、ま
た蓄積された入力音声パターンの内のどのパターンが学
習に利用されたか、その利用回数が何回であるか等を管
理している。そして後述するように、その記憶容量が満
杯となったときには、入力パターンの認識結果や前記認
識辞書の学習状況に応じて、上述した如く管理している
入力パターンを廃棄し、また新たな入力パターンの収集
を行なうものとなっている。

さて学習部８は、前記特徴抽出部２を介して求められた
入力音声パターン、および上記学習パターン記憶部７に
収集保存された学習用パターンを用いて、前記認識辞書
記憶部４に格納された辞書パターンを各認識対象カテゴ
リ毎に学習する。この学習部８における辞書パターンの
学習は、例えばその共分散行列の繰返し更新処理と、そ
の共分散行列のKL展開によって行われる。

即ち、〔Ｋ′〕＝（１−ｗ）〔Ｋ〕＋ｗ〔Ｓ〕〔Ｓ〕なる演算処理を実行することによってその学習が行われ
る。但し、Ｓは学習パターンであり、例えば64次元のベ
クトルとして与えられる。またＫはパターンＳを学習す
る為の共分散行列であり、Ｋ′は学習後の共分散行列で
ある。そしてｗは正負の値をとる重み係数であり、正の
場合には上記共分散行列の特性核の入力パターンに対す
る類似度を大きくする作用を呈し、負ならばその類似度
を小さくする作用を呈する。

このような共分散行列の学習が、各認識対象カテゴリ毎
にサンプルパターンを用いて複数回繰返して行われる。
この学習結果として求められた共分散行列ベクトルＫ′
をKL展開してその固有値と固有ベクトルが計算され、そ
の固有値と固有ベクトルとが各認識対象カテゴリの認識
辞書（標準パターン）として前記認識辞書記憶部４に登
録される。

尚、第１図において制御部９は上述したパターン認識処
理および認識辞書の学習処理をそれぞれ制御するもので
ある。

さて本装置にあっては、基本的には上述したようにして
各認識対象カテゴリの認識辞書（標準パターン）の学習
が行われる。ところで共分散行列のKL展開は、通常、ヤ
コビ法やハウスホルダースツルム法、べき乗法等の計算
手法によって実行され、一般的にはその計算処理に多大
な時間を必要とする。そこで本装置では、上述した共分
散行列の更新処理を或る程度の学習効果が得られる回数
だけ実行し、その共分散行列をKL展開することによっ
て、その学習処理を効率良く実行するようにしている。

この認識辞書の学習処理過程を含めて、その学習処理に
用いるパターンの収集処理につき、第２図を参照して更
に詳しく説明する。

学習部８は、学習パターン記憶部７に学習パターンが或
る程度の数が収集されたか否かを判定して（ステップ
ａ）、以下に説明する手順に従って認識辞書の学習を行
なう。この際、認識辞書を学習するに十分な数の学習パ
ターンが収集されていないと判断したときには、学習パ
ターンの収集を繰返し行なう（ステップｂ）。

しかして学習パターン記憶部４に、例えば各カテゴリ毎
に５個程度の学習パターンが収集されると、先ずこれら
の各学習パターンについて認識部３にてそれぞれ認識処
理する（ステップｃ）。そしてその認識処理結果を、つ
まり正しく認識されたか誤認識されたかを前記認識結果
記憶部６に格納する（ステップｄ）。この際、誤認識が
発生した場合には、その学習パターンをどのカテゴリに
誤認識したかの情報も認識結果記憶部６に格納する。ま
た同時にその認識処理結果から、例えば１位の類似度
と、１位と２位の類似度差等を用いて、その学習パター
ンが以下に説明する認識辞書の学習に適しているか否か
を判定し、その判定結果を認識結果記憶部６に登録して
おく。

学習部８では、上記認識結果に基いて特定の認識対象カ
テゴリの共分散行列Ｋを次のようにして更新する（ステ
ップｅ）。即ち、誤認識が生じた場合には、つまり本
来、認識対象カテゴリＸに関する特徴ベクトルＳを認識
対象カテゴリＹとして誤認識した場合には、カテゴリＹ
の共分散行列Kyを、例えばＫ_ｙ＝Ｋ_ｙ−αSS^ｔとして、負の重み（減算）を以て更新する。同時にカテ
ゴリＸの共分散行列Kxを、例えばＫ_ｘ＝Ｋ_ｘ＋αSS^ｔとして、正の重み（加算）を以て更新する。

また、正しい認識結果が得られた場合には、そのカテゴ
リＸの共分散行列Kxを、例えばＫ_ｘ＝Ｋ_ｘ＋αSS^ｔとして、正の重み（加算）を以て更新する。

そしてこのようにして更新処理された共分散行列をKL展
開し（ステップｆ）、これによって求められる共分散行
列の固有値と固有ベクトルとを新たな認識辞書（標準パ
ターン）として認識辞書記憶装置４に登録し、その認識
辞書の更新を行なう（ステップｇ）。そしてこの更新さ
れた認識辞書を用いて、先の学習パターンを再度認識処
理し（ステップｈ）、その認識を認識結果記憶部６に格
納する（ステップｉ）。これらの処理を、前記認識辞書
の学習に適当であると判断された学習パターンのそれぞ
れについて実行する。

しかるのち、認識辞書の学習が十分であるか否かが判定
される（ステップｊ）。この学習終了の判定は、更新さ
れた認識辞書を用いた学習パターンの認識率の情報のみ
ならず、例えば非学習データを用いた認識処理結果や、
オペレータの判断指示に従って行われる。即ち、仮に上
記の如く更新された認識辞書を用いた学習パターンの認
識率が100％となっても、その認識率は学習パターン記
憶部７に収集された学習パターンに対して求められるも
のに過ぎない。従って上記非学習データを用いた認識処
理結果やオペレータの判断を併用して、認識辞書の学習
の必要性が判断される。

しかして認識辞書の学習処理を継続すると判定された場
合には、同じ学習パターンに対して上述した共分散行列
の更新処理とそのKL展開による学習処理を繰返し実行す
る。但し、この場合には全ての学習パターンについてそ
の学習処理が行われる訳ではない。つまり、同じ学習パ
ターンを繰返し用いて認識辞書の学習を行うだけでは、
或る程度以上の認識率の向上は望めない。

そこで正しい認識結果が得られ、正の重み（加算）を以
て上述した如く共分散行列を更新処理することは、例え
ば同じ学習パターンについて２回だけ繰返し使用する如
く制御される。尚、共分散行列の更新処理によっても認
識辞書性能の向上が望めない場合には、例えば同じ学習
パターンを用いた認識辞書の繰返し学習は５回程度行わ
れる。

そこで学習パターンを認識辞書の学習に用いた場合に
は、例えばその使用回数を示す情報を該学習パターンに
付加するようにする。そしてその学習処理によって認識
辞書性能の向上が確認された場合には、例えばその学習
パターンに順にフラグを付すようにする。しかして学習
の継続が判断されたときには、学習パターンに付された
上記使用回数を示す情報とフラグとを参照し、フラグが
立てられて、且つその使用回数が複数回である場合に
は、その学習パターンの繰返し使用による認識辞書性能
の向上が望めないと判断する。

従って認識辞書の繰返し学習が必要であると判断された
場合であっても、例えば同じ学習パターンを用いて規定
回数の学習処理が行われた場合には、認識辞書の学習に
必要な学習パターンが不足していると判断される。そし
てこの場合には、前記学習パターン記憶部７に新たな学
習パターンを収集し（ステップｂ）、その収集された新
たな学習パターンを用いて上述した処理を繰返すことに
なる。

ここで新たな学習パターンを収集しようとしても、学習
パターン記憶部４の記憶容量に限りがあることから、そ
の収集が行えないことがある。この場合、前記処理判断
（ステップａ）では、例えば学習パターンに付された前
述したフラグの情報等から、また前述した如く認識辞書
の学習に用いるには不適当であると判断された学習パタ
ーンの情報に従って、学習パターン記憶部４に保存され
ている不要な学習パターンの廃棄処理を行なう（ステッ
プｋ）。つまり、以後の学習処理に用いることのない学
習パターンを廃棄処理する。

尚、この学習パターンの廃棄処理は、例えば上述した如
き認識辞書の学習を５回以上繰返し行なっても、その認
識率の向上が見られない学習パターンについても行われ
る。

以上のように本装置では、認識処理に供される入力パタ
ーンを認識辞書の学習用パターンとして学習用パターン
記憶部４に収集される。そしてその学習パターンに対す
る認識結果と、学習パターンを用いて実行される認識辞
書の学習処理の状況に応じて、学習用パターン記憶部４
に収集された学習パターンが認識辞書の学習に適したも
のであるか否かが判定され、管理される。

そしてその管理情報に従って、上記学習用パターン記憶
部４に収集された学習パターンうち、その繰返し使用に
よってもそれ以上の認識辞書性能の向上が望めないも
の、また認識辞書の学習に不適切なもの、更には繰返し
使用によっても認識辞書性能の向上が全く（殆んど）望
めないパターンが自動的に廃棄処理されることになる。
そして認識辞書の学習に有用な入力パターンが次々と収
集され、その収集された学習パターンを用いて認識辞書
の学習が順次行われることになる。

従って本装置によれば、入力パターンの認識処理を行い
つつ認識辞書学習用のパターンを収集し、またその認識
結果と学習処理の状況に応じて不要な学習パターンを廃
棄しながら上記認識辞書の学習を効率良く、しかも効果
的に行なうことができる。

故に、認識辞書の性能を認識対象パターンの統計的分布
を反映しながら次第に向上させることができ、その認識
性能（認識率）の向上を図ることが可能となる。

尚、本発明は上述した実施例に限定されるものではな
い。例えば同じ学習パターンの繰返し使用回数や、その
管理アルゴリズムは装置仕様に応じて種々変形可能なも
のである。また学習パターンを廃棄する基準も変形可能
なことは云うまでもない。更にここでは音声パターンの
認識処理と、その認識辞書の学習を例に説明したが、種
々の認識アルゴリムに従うパターン認識処理装置にそれ
ぞれ適用することができる。要するに本発明は、入力パ
ターンに対する認識処理結果と認識辞書の学習処理の状
況に応じて学習パターンの収集とその廃棄処理を行なう
ものであり、その要旨を逸脱しない範囲で種々変形して
実施することができる。

［発明の効果］以上説明したように本発明によれば、認識辞書を学習す
る為の学習パターンの収集とその廃棄処理を自動的に行
なうので、学習パターンの収集に格別な配慮を払うこと
なく認識辞書の学習を効果的に行い得る。そしてその認
識辞書の学習を、例えばその共分散行列の更新処理とKL
展開によって行なうので、次第に認識対象パターンの統
計的分布を反映した高性能なものとして行くことができ
る等の実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例装置の概略構成図、第２図は
実施例装置における認識辞書の学習処理と学習パターン
の収集・廃棄処理手続きの流れを示す図である。１……音声入力部、２……特徴抽出部、３……認識部、
４……認識辞書記憶部、５……表示部、６……認識結果
記憶部、７……学習パターン記憶部、８……学習部、９
……制御部。

Claims

【特許請求の範囲】

【請求項１】入力パターンを認識辞書と照合して該入力
パターンを認識処理する手段と、上記入力パターンを保
存するメモリと、上記認識結果に従って前記認識辞書を
上記メモリに格納された入力パターンを用いて学習する
手段と、前記メモリに対する入力パターンの収集とその
廃棄を前記認識結果と学習処理の状況に応じて制御する
手段とを具備したことを特徴とするパターン認識学習装
置。
【請求項２】入力パターンと認識辞書との照合によるパ
ターン認識は、複合類似度法または部分空間法によって
行われるものであって、認識辞書の学習は、その共分散
行列の更新とKL展開法とを用い、その特性核または上記
共分散行列に対する入力パターンの寄与率を変化させて
行われるものである特許請求の範囲第１項記載のパター
ン認識学習装置。
【請求項３】メモリに保存された入力パターンの廃棄
は、認識辞書の学習処理における入力パターンの使用回
数によって制御されるものである特許請求の範囲第１項
記載のパターン認識学習装置。