JPH0695685A - パターン認識辞書作成方法 - Google Patents

パターン認識辞書作成方法

Info

Publication number
JPH0695685A
JPH0695685A JP4247772A JP24777292A JPH0695685A JP H0695685 A JPH0695685 A JP H0695685A JP 4247772 A JP4247772 A JP 4247772A JP 24777292 A JP24777292 A JP 24777292A JP H0695685 A JPH0695685 A JP H0695685A
Authority
JP
Japan
Prior art keywords
pattern
learning
dictionary
patterns
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4247772A
Other languages
English (en)
Inventor
Katsutoshi Ono
勝利 大野
Hiroshi Idemoto
浩 出本
Hiromi Kida
博巳 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Group Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP4247772A priority Critical patent/JPH0695685A/ja
Publication of JPH0695685A publication Critical patent/JPH0695685A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 文字や音声等のカテゴリの認識処理で用い
る、認識精度の高いマルチテンプレート辞書を効率よく
作成する。 【構成】 多数の学習パターンの重ね合わせにより作成
した参照パターンを登録した初期辞書に、その辞書で誤
読された学習パターンに基づいて参照パターンを追加す
るマルチテンプレート辞書の作成方法において、ステッ
プ102では、予め学習パターンの一部か全部を平均し
て作成した平均パターンを一つあるいは複数記憶すると
ともに、全ての学習パターンを用いて、パターンを構成
する各成分の級内分散と級間分散を算出しておく。この
後、ステップ107では、初期辞書で誤読した学習パタ
ーンと、既に登録されている参照パターンの作成に用い
た学習パターンの一部あるいは全部の平均パターンとの
間で荷重平均を行ない、新たに追加する参照パターンを
作成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字や音声等のカテゴ
リの認識処理で用いるパターン認識辞書の作成方法に関
し、特に認識精度が高いパターン認識辞書を効率よく作
成するのに好適なパターン認識辞書作成方法に関する。
【0002】
【従来の技術】現在、コンピュータの使い勝手の向上等
を目的として、コンピュータへの入力を、音声や画像、
図形、文字等で行なうシステムが、例えば音声認識シス
テムや文字認識システム、および図形認識システム等と
して開発されている。これらの認識システムにおいて
は、認識の対象となる文字や音声等の学習パターンを、
予めパターン認識辞書に登録してある参照パターンと照
合し、学習パターンに最も類似する参照パターンを学習
パターンの属するカテゴリとすることにより、認識処理
を行なう。このような認識システムに関しては、例えば
「電子情報通信ハンドブック、社団法人 電子情報通信
学会編(1988年、オーム社発行)」の第1114頁
から1124頁に図形と文字に関する技術が、また、第
1191頁から1206頁には音声の認識に関する技術
が記載されている。また、予め用意しておく認識辞書と
しては、参照パターンの数がカテゴリごとに一つである
シングルテンプレート辞書と、カテゴリごとの参照パタ
ーンの数が複数であるマルチテンプレート辞書の2種類
があり、それぞれの認識辞書に対して以下に挙げるよう
な作成方法が提案されている。 シングルテンプレート辞書作成法 1−1:カテゴリごとに幾つかのパターンの相加平均を
求め、それを参照パターンとする方法。 1−2:1−1の方法で認識辞書を求めた後に、この認
識辞書で学習パターンを認識させ、誤認識が最小になる
ように参照パターンの位置を最適化するという処理を繰
返し行なう方法。最適化の方法として、LSIのレイア
ウト設計等で適用されているシミュレーティドアニーリ
ング法を採用したものが、「松永、阿部、木田:シミュ
レーテッドアニーリング法を用いた文字認識辞書の最適
化、信学技法、PRU90−39(1990)」におい
て提案されている。 マルチテンプレート辞書作成法 2−1:シングルテンプレート辞書作成法で認識辞書を
求めた後に、この認識辞書で学習パターンを認識させ、
正しく読めなかったパターンをそのまま認識辞書に新規
追加することによって辞書を作成する方法。類似した方
法で、辞書サイズをできる限り小さくするため、誤読パ
ターン一つに対して一つの参照パターンを設けるのでは
なく、複数の誤読パターンの平均を追加する方法も、
「井手、若原:文字認識におけるサブカテゴリ生成手法
の一検討、1990年電子情報通信学会全国大会論文
集、D−348、p.6−350」において提案されて
いる。 2−2:各カテゴリのパターン分布を忠実に表現するた
めに、カテゴリごとに学習パターンのクラスタリングを
行なって、各グループでパターンの相加平均をとってそ
れを参照パターンとして認識辞書を作成する方法。な
お、クラスタリング手法としてWard法等を使った辞
書作成方法は、「大倉、塩野:カテゴリー内クラスタリ
ング多重辞書類似度法の辞書パターン作成の一検討、信
学論D−2、Vol.J72−D−2、No.4、pp.49
9−508(1989)」において提案されている。
【0003】
【発明が解決しようとする課題】上記従来技術における
1−1のように、単に平均パターンを参照パターンにす
る方法は、辞書サイズはコンパクトであるという利点は
あるものの、カテゴリ間のパターン分布が異なる場合に
は認識精度が著しく低下するという問題がある。その
点、1−2は辞書サイズが小さいという利点を維持しつ
つ、カテゴリ間のパターン分布の違いを考慮して認識精
度が高くなるように辞書を最適化しているという点で優
れている。しかしながら、パターン分布が複雑でカテゴ
リ間で入り組み合っている場合や、連続でなく分離して
いるような場合は、一つの参照パターンでは対処できず
やはり認識精度の低下を招いてしまう。一方、上記マル
チテンプレート法は、カテゴリごとに複数の参照パター
ンを持つことができるので、1−1の持つ問題を解決す
ることが可能である。しかし、2−1の方法では、学習
パターンをそのまま参照パターンとするために、学習パ
ターンの持つ変動を吸収することができず、作成された
参照パターンは未知のパターンに対して十分な認識精度
を得られない。また、2−2の方法では、複数の参照パ
ターンによって、複雑なパターン分布を表現することが
可能になるが、カテゴリ当たり参照パターン数を予め決
定しておく必要があるため、最適な参照パターン数を試
行錯誤的に決定しなければならず、辞書作成に膨大な時
間を要する。本発明の目的は、このような問題点を改善
し、認識精度の高いパターン認識辞書を効率よく作成す
ることが可能なパターン認識辞書作成方法を提供するこ
とにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明のパターン認識辞書作成方法は、多数の学習
パターンの重ね合わせにより作成した参照パターンを登
録した初期辞書に、その辞書で誤読された学習パターン
に基づいて参照パターンを追加し、マルチテンプレート
辞書を作成する場合、平均パターン作成部により、予め
学習パターンの一部か全部を平均して作成した平均パタ
ーンを一つあるいは複数平均パターン記憶部に記憶して
おき、参照パターン作成部は、初期辞書で誤読した学習
パターンと、既に登録されている参照パターンの作成に
用いた学習パターンの一部あるいは全部の平均パターン
(一つの平均パターン、あるいは、複数の平均パターン
のうち、誤読した学習パターンともっとも類似した平均
パターン)との間で荷重平均を行ない、新たに追加する
参照パターンを作成することに特徴がある。また、上記
パターン認識辞書作成方法において、平均パターン作成
部は、予め全ての学習パターンを用いて、パターンを構
成する各成分の級内分散と級間分散を算出しておき、参
照パターン作成部は、追加する参照パターンを作成する
ために学習パターンと参照パターンの荷重平均を行なう
際、参照パターンの事前確率密度は、予め学習パターン
の全部あるいは一部を平均して作成した平均パターンを
平均値とし、前記級間分散を分散値とする正規分布であ
ると仮定し(つまり、既存の参照パターンの確率密度と
同じであると仮定し)、また、当該カテゴリにおける学
習パターンの条件付き確率密度は、そのカテゴリの参照
パターンを平均値とし、前記級内分散を分散値とする正
規分布であると仮定して(つまり、既存の参照パターン
に属する学習パターンの確率密度と同じであると仮定し
て)、ベイズ推定によって荷重を決定することに特徴が
ある。
【0005】
【作用】パターン認識における学習パターンには、その
属するカテゴリに固有の特徴だけでなく、むしろカテゴ
リに依存しないノイズ等を原因とする変動が多く含まれ
ている。このため、多数の学習パターンを平均して参照
パターンを作成することにより、カテゴリに依存しない
変動を吸収することができる。また、参照パターンの成
分によっては、カテゴリが異なってもその値があまり変
化しない部分も多く含まれている。従って、少数パター
ンから参照パターンを作成する場合には、前記のよう
な、カテゴリが異なってもあまり変化せず、ノイズによ
る変動が大きいと考えられる部分については、既存の参
照パターンの作成に用いた学習パターンより得られた平
均パターンを用いて変動を吸収することが有効である。
本発明においては、パターン認識辞書に参照パターンを
追加する場合に、初期辞書で誤読した学習パターンと、
既にパターン認識辞書に登録されている参照パターンの
作成に用いた学習パターンの一部あるいは全部の平均パ
ターン(以下、平均パターンと略す)とを作成して、追
加する参照パターンを作成することにより、誤差の少な
い参照パターンを、少数パターンから作成することがで
きる。また、この参照パターンを作成する場合には、追
加する参照パターンの事前確率密度として、既にパター
ン認識辞書に登録されている参照パターンの一部あるい
は全部によって推定される、参照パターンの確率密度関
数に従うことを仮定し、また、誤読した学習パターン
の、その属するべきカテゴリにおける条件付き確率密度
が、既に初期辞書に登録されている参照パターンの条件
付き確率密度と同様であると仮定することによって、前
記初期辞書で誤読した学習パターンと前記平均パターン
との間でベイズ推定となるように荷重を決定することに
より、少数の学習パターンから作成し得る最適な参照パ
ターンを作成することができる。
【0006】
【実施例】以下、本発明の一実施例を図面により説明す
る。図1は、本発明の一実施例におけるパターン認識辞
書作成方法の処理手順を示すフローチャート、図2は本
発明の一実施例におけるパターン認識辞書作成システム
の構成を示すブロック図である。本実施例のパターン認
識辞書作成システムは、多数の学習パターンから初期辞
書を作成する初期辞書作成部1と、学習パターンの一部
あるいは全部の平均パターンを作成し、前記学習パター
ンの一部あるいは全部の成分ごとの級間分散および級間
分散を計算する平均パターン作成部2と、平均パターン
作成部2で作成された平均パターンと、級間分散および
級内分散を記憶する平均パターン記憶部3と、前記学習
パターンから辞書作成に用いるパターンを選択する学習
パターン選択部4と、学習パターン選択部4で選択され
た学習パターンを初期辞書と照合する照合判定部5と、
照合判定部5で誤読とされた学習パターンと、平均パタ
ーン作成部2で作成された平均パターンとの間で荷重平
均を行ない、新たに追加する参照パターンを作成する参
照パターン作成部6と、この参照パターン作成部6で作
成した参照パターンを、パターン認識辞書に登録する参
照パターン追加部7および認識辞書記憶部8とから構成
されている。このような構成により、本実施例のパター
ン認識辞書作成システムは、文字や図形、音声等、新た
に追加する参照パターンをパターン認識辞書に追加する
場合に、高い認識精度を持つ参照パターンを作成するこ
とができる。
【0007】以下、本実施例の処理フローを図1に示
し、特にベイズ推定を用いた荷重平均の方法について、
そのアルゴリズムを説明する。まず、初期辞書作成部1
で学習パターンをカテゴリごとに平均し、初期辞書を作
成して、認識辞書記憶部8に記憶する(101)。次
に、平均パターン作成部2において、学習パターンの一
部あるいは全部を平均した平均パターンを作成するとと
もに、前記学習パターンの一部あるいは全部の級間分散
と級内分散を計算し、平均パターン記憶部3に記憶する
(102)。次いで、学習パターン選択部4では学習パ
ターンを選択し、照合判定部5に渡す(103〜10
4)。照合判定部5では、前記学習パターンを認識辞書
記憶部8に記憶された初期辞書と照合し、前記学習パタ
ーンが誤読された場合に、前記学習パターンを参照パタ
ーン作成部6に引き渡す(105〜106)。参照パタ
ーン作成部6において、前記平均パターンを、平均パタ
ーン記憶部3から取り出し、この平均パターンと学習パ
ターンから参照パターンを作成する(107)。
【0008】以下、この参照パターン作成部6で行なう
パターンの作成方法について説明する。参照パターン作
成部6で作成を行なう際には、予め仮定した確率密度関
数に基づいて、追加する参照パターンのベイズ推定を行
なう。予め初期辞書の参照パターンおよびその作成に用
いた学習パターンの全部あるいは一部を用いて、確率密
度関数のパラメータを決定しておく。ここで、初期辞書
に登録された参照パターンを、ω'j'=(μ1'j',…,
μn'j')t(j=1,…,N、Nは参照パターン数、ま
た、nはパターンを構成する成分数)、参照パターン
ω'j'の学習パターンをXk'j'=(xk1'j',…,
kn'j')t(k=1,…,N(j),N(j)はカテゴ
リjに属する学習パターン数)、学習パターンの平均パ
ターンをm=(m1,…,mn)としたとき、学習パター
ン集合の成分iの級内分散σ2 Wiは、
【数1】 級間分散σ2 Biは、
【数2】 となる。参照パターンω'j'の成分μ1'j',μ2'j',
…,μn'j'が、平均パターンmの対応する成分m1
…,mnを平均とし、各成分の級間分散σ2 B1,σ2 B2
…,σ2 Bnを分散とする正規分布N(μi,σ2 Bi)に従
い、また、追加したい参照パターンωも同様としたと
き、平均パターンmから推定される参照パターンωの成
分μ1,μ2,…,μnの事前確率密度p(μi)は、
【数3】 となる。また、初期辞書の参照パターンの作成に用いた
学習パターンXk'j'の成分xk1'j',xk2'j',…,
kn'j'がそれぞれ、参照パターンω'j'の対応する成分
1,…,mnを平均とし、各成分の級内分散σ2 W1,σ2
W2,…,σ2 Wnを分散とする正規分布N(μi,σ2 Wi
に従い、また、追加する参照パターンに属するべき学習
パターンの分布も同様としたとき、未知の参照パターン
ω=(μ1,μ2,…,μntに属する学習パターンX=
(x1,x2,…,xntの条件付き確率密度p(xi
μi)は、
【数4】 となる。ベイズの定理より、μiの事後確率密度p(μi
|xi)は、
【数5】 であり、∫p(xi|μi)p(μi)=1と規格化でき
るので、
【数6】 となり、p(μi|xi)を最大にするμiを追加する参
照パターンωの成分とする。式(6)の対数をとって、
【数7】 となる。式(7)を最大にするには、
【数8】 となるμiを求めればよい。故に、
【数9】 であり、このμiを成分とするパターンωを新たに追加
する参照パターンとする。このようにして、参照パター
ン作成部6で作成された参照パターンは、参照パターン
追加部7に渡され、参照パターン追加部7では、受け取
ったこの参照パターンをパターン認識辞書記憶部8に登
録する(108)。なお、認識の対象とするパターン
は、文字や画像、あるいは音声等のパターンそのものの
ほか、それらのパターンから抽出した特徴パターンを使
用することも可能である。
【0009】
【発明の効果】本発明によれば、認識辞書で誤読した学
習パターンに基づいて参照パターンをパターン認識辞書
に追加する場合に、学習パターンの変動を吸収した、高
い認識精度を持つ参照パターンを作成することができ、
マルチテンプレート認識辞書の作成を効率良く行なうこ
とが可能である。
【0010】
【図面の簡単な説明】
【図1】本発明の一実施例におけるパターン認識辞書作
成方法の処理手順を示すフローチャートである。
【図2】本発明の一実施例におけるパターン認識辞書作
成システムの構成を示すブロック図である。
【符号の説明】
1 初期辞書作成部 2 平均パターン作成部 3 平均パターン記憶部 4 学習パターン選択部 5 照合判定部 6 参照パターン作成部 7 参照パターン追加部 8 認識辞書記憶部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 多数の学習パターンを重ね合わせ、カテ
    ゴリ当たり一つの参照パターンを作成して初期辞書と
    し、該辞書で学習パターンを識別し、誤認識となった学
    習パターンに基づいて参照パターンを追加することによ
    り、カテゴリごとに複数の参照パターンを持つマルチテ
    ンプレート辞書を作成する方法において、予め前記学習
    パターンの一部か全部を平均して作成した平均パターン
    を用意しておき、該平均パターンと前記誤認識となった
    学習パターンとを荷重平均して参照パターンを作成する
    ことを特徴とするパターン認識辞書作成方法。
  2. 【請求項2】 上記平均パターンを作成するとともに、
    全ての学習パターンを用いて、パターンを構成する成分
    の級内分散と級間分散を算出しておき、該平均パターン
    と学習パターンの荷重平均を行なう場合、参照パターン
    の事前確率密度は、該平均パターンを平均値とし、前記
    級間分散を分散値とする正規分布であると仮定し、学習
    パターンの所属カテゴリにおける条件付き確率密度は、
    該カテゴリの参照パターンを平均値とし、前記級内分散
    を分散値とする正規分布であると仮定して、ベイズ推定
    によって荷重を決定することを特徴とする請求項1記載
    のパターン認識辞書作成方法。
JP4247772A 1992-09-17 1992-09-17 パターン認識辞書作成方法 Pending JPH0695685A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4247772A JPH0695685A (ja) 1992-09-17 1992-09-17 パターン認識辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4247772A JPH0695685A (ja) 1992-09-17 1992-09-17 パターン認識辞書作成方法

Publications (1)

Publication Number Publication Date
JPH0695685A true JPH0695685A (ja) 1994-04-08

Family

ID=17168427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4247772A Pending JPH0695685A (ja) 1992-09-17 1992-09-17 パターン認識辞書作成方法

Country Status (1)

Country Link
JP (1) JPH0695685A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246677A (ja) * 2012-05-28 2013-12-09 Toshiba Corp パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
JP2015015019A (ja) * 2013-06-28 2015-01-22 コグネックス・コーポレイション 複数のパターン認識及び登録ツールモデルをトレーニングするための半教師付き方法
US9275270B2 (en) 2012-07-09 2016-03-01 Canon Kabushiki Kaisha Information processing apparatus and control method thereof

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246677A (ja) * 2012-05-28 2013-12-09 Toshiba Corp パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
US9275270B2 (en) 2012-07-09 2016-03-01 Canon Kabushiki Kaisha Information processing apparatus and control method thereof
JP2015015019A (ja) * 2013-06-28 2015-01-22 コグネックス・コーポレイション 複数のパターン認識及び登録ツールモデルをトレーニングするための半教師付き方法
US9659236B2 (en) 2013-06-28 2017-05-23 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
US9679224B2 (en) 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
CN110084260A (zh) * 2013-06-28 2019-08-02 康耐视公司 一种训练多图案识别和配准工具模型的半监督方法
JP2020053084A (ja) * 2013-06-28 2020-04-02 コグネックス・コーポレイション 複数のパターン認識及び登録ツールモデルをトレーニングするための半教師付き方法
CN110084260B (zh) * 2013-06-28 2024-08-20 康耐视公司 一种训练多图案识别和配准工具模型的半监督方法

Similar Documents

Publication Publication Date Title
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
US10963685B2 (en) Generating variations of a known shred
CN110363049B (zh) 图形元素检测识别和类别确定的方法及装置
US7747044B2 (en) Fusing multimodal biometrics with quality estimates via a bayesian belief network
JP2737734B2 (ja) 指紋分類装置
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
JP2827994B2 (ja) 指紋特徴抽出装置
CN112149705A (zh) 分类模型的训练方法、系统、计算机设备及存储介质
JP2009539181A (ja) 手書き文字認識改善用コンバイナ
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
JP2002288667A (ja) パターン照合装置とそのパターン照合方法、及びパターン照合プログラム
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
CN109712146A (zh) 一种基于直方图的em多阈值图像分割方法及装置
JPH0695685A (ja) パターン認識辞書作成方法
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN113723111A (zh) 一种小样本意图识别方法、装置、设备及存储介质
US6466926B1 (en) Method for optimizing a recognition dictionary to distinguish between patterns that are difficult to distinguish
JP2022028912A (ja) 照合処理装置、照合処理方法、及び、照合処理プログラムが格納された記録媒体
JP3264242B2 (ja) 認識辞書学習方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
JP4350228B2 (ja) パターン認識方法および装置
CN117194275B (zh) 基于智能算法的软件自动化测试计划自动生成方法及系统
JP7318804B2 (ja) 類似度計算機、認証システム、類似度計算方法、類似度計算プログラムおよび類似度計算プログラムの生成方法
EP0885427A1 (en) Method for optimizing a recognition dictionary to distinguish between patterns that are difficult to distinguish
CN109284776B (zh) 用于防沉迷系统的基于随机森林的自训练学习系统及方法
Masters et al. Combining Classification Models