JP3925011B2 - パターン認識装置及び認識方法 - Google Patents

パターン認識装置及び認識方法 Download PDF

Info

Publication number
JP3925011B2
JP3925011B2 JP29862599A JP29862599A JP3925011B2 JP 3925011 B2 JP3925011 B2 JP 3925011B2 JP 29862599 A JP29862599 A JP 29862599A JP 29862599 A JP29862599 A JP 29862599A JP 3925011 B2 JP3925011 B2 JP 3925011B2
Authority
JP
Japan
Prior art keywords
recognition
narrowing
pattern
candidate
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29862599A
Other languages
English (en)
Other versions
JP2001118073A (ja
Inventor
紹明 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP29862599A priority Critical patent/JP3925011B2/ja
Publication of JP2001118073A publication Critical patent/JP2001118073A/ja
Application granted granted Critical
Publication of JP3925011B2 publication Critical patent/JP3925011B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータを利用したパターン認識装置及び方法に関する。
【従来の技術】
パターン認識は、与えられるパターンが既存のパターンのカテゴリのいずれに該当するかを求める技術であり、文字認識や図形認識、音声認識、構造認識などの各種分野への応用が期待されている。
【0002】
パターン認識における典型的な認識処理手法として認識辞書を利用するものがある。この手法では、まず予め想定した各カテゴリ毎にそのカテゴリの学習サンプルのパターンを多数用意し、それら学習サンプル群から当該カテゴリを代表する参照パターンを求め、求めた各カテゴリの参照パターンを記憶装置に記憶して認識辞書を作成する。そして、認識対象のパターンが与えられると、そのパターンを、認識辞書に格納されているすべての参照パターンと比較し、そのパターンに最も近い参照パターンに対応するカテゴリを、そのパターンの認識の結果として出力する。
【0003】
【発明が解決しようとする課題】
しかし、カテゴリ内の学習サンプルの分布がばらつき、数が多い場合は、参照パターンが対応カテゴリの学習サンプルの全体を反映することは困難となり、認識率の低下を招く。このことを説明するために、例えばパターンを各種の特徴量の組で表現し、同一カテゴリ内の学習サンプル群について特徴量の平均値(中心値)を求め、この平均値を当該カテゴリの参照パターンとする場合を考える。図6に示すように、カテゴリxに該当すべきパターンsを上述の従来手法で認識しようとした場合、パターンsとカテゴリxの参照パターンrとの間の距離が、パターンsとカテゴリyの参照パターンrとの間の距離より大きいので、パターンsはカテゴリyに該当すると誤認される。
【0004】
このような誤認問題の解決を目論む従来技術として、例えば、特開昭63−129488号公報には、マルチフォント文字パターンを認識するために、各文字毎に多数の参照パターンを認識辞書に記憶しておき、その認識辞書を用いて認識を行う方法が開示されている。しかしながら、この方法では、認識辞書に含まれる参照パターンの数が非常に多くなり、それら多数の参照パターンと総当たりで比較することになるため、認識時間が無視できないものになるという問題がある。カテゴリ数が多い場合には、パターン認識に要する処理時間は膨大なものとなってしまう。
【0005】
認識時間の短縮を目論む技術としては、例えば特開平10−162103号公報に、手書き文字学習サンプルを用いて手書き文字認識辞書を、活字文字学習サンプルを用いて活字文字認識辞書をそれぞれ作成しておき、入力された文字パターンが手書き文字か活字文字かをまず判断し、手書き文字の場合は手書き文字認識辞書を、活字文字の場合は活字文字認識辞書をそれぞれ用いて認識を行う方法が開示されている。しかしながら、文字フォントの種類が多いので、文字フォントの種類をすべて区別するのは容易ではないし、同じ文字フォントでも手書き文字の場合は学習サンプルの分布が一定の法則に従わないので、1つの参照パターンで学習サンプルを表現すると前述の誤認問題が発生し、認識率に影響を与える。
【0006】
本発明は、上述した事情に鑑みてなされたもので、入力パターンを高精度かつ高速に認識することのできるパターン認識装置及びパターン認識方法を提供することを目的とするものである。
【0007】
【課題を解決するための手段】
本発明では、各カテゴリ毎に、そのカテゴリ代表となる参照パターンを1つ保持した認識辞書を作成すると共に、そのカテゴリを段階的に細分化し、順に参照パターンの数が多くなるよう段階的に1以上の候補認識辞書を作成する。パターン認識処理では、まず与えられた認識対象パターンに近い参照パターン群を認識辞書から求めて候補とし、これら候補を、段階的に詳細化される候補認識辞書を用いて、段階的に絞り込んでいく。これら各段階を絞込段階と呼ぶ。各絞込段階毎に、得られた候補が同一カテゴリに属するか否かを判定し、同一カテゴリであれば、そのカテゴリを認識対象パターンの属するカテゴリの認識結果とする。同一カテゴリでなければ、得られた候補を、次の絞込段階の候補認識辞書を用いて再度絞り込む。すなわち、再度の絞込段階での絞込処理では、前段階で得られた候補のカテゴリを求め、現段階の候補認識辞書からそれら各カテゴリの参照パターン群を求め、これら参照パターン群の中から認識対象パターンに近いものを候補として選び出す。以上の絞込処理を、絞込結果の候補群が同一カテゴリとなるまで繰り返す。
【0008】
本発明では、順次詳細化されていく候補認識辞書を用いて候補を絞り込んでいくので、順次認識対象パターンにより近い候補が選ばれるようになる。したがって、最終的に得られる認識結果は、認識対象パターンに非常に近い候補から定められることになり、認識精度が向上する。また、最初から各カテゴリ毎に多数の参照パターンを含んだ詳細な辞書を用いて総当たりで調べるのではないので、処理の高速化が見込める。
【0009】
【発明の実施の形態】
以下、本発明の実施の形態(以下、実施形態という)を図面を参照して説明する。
【0010】
図1は本発明に係る認識装置の認識処理の原理を説明するための図である。本実施形態の認識装置1は、認識辞書作成部11及び認識辞書11a、候補認識辞書作成部12及びK(K≧1)個の候補認識辞書121、122、…12K、候補検出部13、候補絞込部14及び認識制御部15を含む。この装置1は、入力された認識対象のパターンが、予め定められた各カテゴリのいずれに該当するかを認識するための装置である。例えば文字認識の場合、「あ」、「い」などの各文字種が、それぞれここでいうカテゴリである。そして、紙に印刷された特定の「あ」という文字や、ある人が書いた「あ」の手書き文字などが、文字種「あ」のカテゴリに属する個別のパターンということになる。なお、以下の説明から分かるように、この装置1は、文字、図形、音声、構造など、どのような形式のパターンにも適用可能である。
【0011】
認識辞書作成部11は、記憶部18に予め記憶された各カテゴリの学習サンプル群から、各カテゴリ毎にその代表となる参照パターンを求め、各カテゴリ毎に1つの参照パターンを登録した認識辞書11aを作成する。候補認識辞書作成部12は、記憶部18の学習サンプル群から、K個の候補認識辞書121〜12Kを作成する。Kは予め定められた数であり、後述する候補絞込処理の上限段階数に相当する。各候補認識辞書12h(h=1,2,…,K)は、それぞれ第h番目の候補絞込段階で用いる辞書である。候補認識辞書12hやその作成方法等の詳細については後述する。
【0012】
候補検出部13は、認識辞書11aに格納されている参照パターンの中から、入力された認識対象パターンに対して最も近いP個(Pは予め定められた数)の参照パターンを候補として検出する。候補絞込部14は、候補認識辞書12hを用いて候補の絞込を行う。絞込の処理は、h=1,2,…,Kの順番で各絞込段階h毎に繰り返し行う。各絞込段階hでは、1つ前の絞込段階(hー1)で求められた各候補について、その候補の属するカテゴリの参照パターン群を、現段階hに対応する候補認識辞書12hから取り出し、それらの中から認識対象パターンにもっとも近いP(Pはhに対応して予め定めた数。ただしP<Ph−1)個の参照パターンを検出し、これらを絞り込まれた候補として出力する。
【0013】
認識制御部15は、候補絞込部14で絞り込まれたP個の候補の参照パターンが同一カテゴリに属するかどうかを判定する。この判定で、P個のパターンが同一カテゴリの参照パターンであると分かれば、認識制御部15は、そのカテゴリを認識結果として出力し、一連の認識処理を終了する。そうでなければ、認識制御部15は、それらP個の各参照パターンを、絞込段階hでの候補として候補絞込部14に渡し、候補絞込部14に次の段階(h+1)の絞込処理を行わせる。このようにして段階的に絞込処理を繰り返し、最後の絞込段階Kで求めたP個の候補参照パターンが同一カテゴリでなければ、それらP個の参照パターンの中で最も認識対象パターンに近い参照パターンを選び、この参照パターンの属するカテゴリを認識結果として出力する。
【0014】
以上概略的に説明したが、次に認識装置1の詳細構成について図2〜図4を用いて説明する。
【0015】
図2は認識装置1の構成を示す図である。認識パターン格納部17は、認識対象パターンの構造データを格納している。パターンの構造データは、パターンの表現方式により異なる。例えば、特徴量でパターンを表現する方式の場合は、特徴量(又は1組の特徴量)がパターンの構造データとして格納される。また、グラフ理論上のグラフでパターンを表現する場合は、パターンに対応している重み付きグラフなどが、パターンの構造データとして格納される。また、パターンが文字や図形その他の画像である場合、そのパターンを表すビットマップ等の画像データそのものを、そのパターンの構造データとして用いることもできる。
【0016】
認識辞書11aは、認識辞書作成部11(図1参照)で作成された認識辞書であり、具体的には前述の辞書データ(すなわち各カテゴリ毎の参照パターンの情報)を格納した記憶装置である。
【0017】
図3は、認識辞書11a内の辞書データのデータ構造の一例を示す図である。例えばカテゴリの数がm個であるとすると、辞書データ30は、m個のフィールドから構成される。各フィールドには、それぞれ対応するカテゴリi(i=1,2,…,m)の参照パターン3iが格納される。すなわち、辞書データ30は、カテゴリ1〜mのそれぞれの参照パターン31〜3mから構成される。
【0018】
候補認識辞書121〜12Kは、候補認識辞書作成部12で作成された候補認識辞書のデータを格納する。図4は、h番目の候補認識辞書12h内の辞書データを示す図である。この辞書は、第h番目の絞込段階で用いられるものである。図に示すようにh番目の候補認識辞書データ4h0は階層構造になっている。辞書データ4h0には、カテゴリ1、カテゴリ2、…、カテゴリmに対応して、参照パターン群4h1、参照パターン群4h2、…、参照パターン群4hmが含まれている。すべてのカテゴリiの参照パターン群4hiは、全てN個の参照パターンから構成される。すなわち、辞書データ4h0には、各カテゴリ毎に、参照パターン4h11,4h12,…,4h1Nの合計N個の参照パターンが含まれることになる。ここで、Nは、絞込段階の番号hに対応して予め定めた数であり、hが大きくなるにつれて大きくなるように定めている。すなわち、N<Ni+1である。
【0019】
メモリM1は、認識対象パターン格納部17から読み出された1つの認識対象パターンの構造データを格納する。
【0020】
メモリM2は、候補絞込部14での絞込処理の対象となる候補群を格納する。すなわち、メモリM2には、候補検出部13で検出されたP個の候補(参照パターン)の名前と構造データ、または候補絞込部14で絞り込まれたPh−1個(添え字h−1は前絞込段階の結果であることを示す)の候補の名前と構造データを格納する。メモリM2に格納している候補は、h(h=1,2,…,K)回目の候補絞込段階の入力データとなる。第1番目の絞込段階(すなわちh=1)のときの入力データは候補検出部13で検出された候補であり、第2段階以後の絞込段階hでは、候補絞込部14で前段階に候補認識辞書Dh−1(h=2,3,…,K)を用いて求められた候補が入力データとなる。
【0021】
メモリM3は、候補絞込部14で候補認識辞書D(h=1,2,…,K)から求められたP個の候補の名前と構造データを格納する。
候補検出部13は、認識辞書11aから、メモリM1に格納された認識パターンともっとも近いP個の候補(参照パターン)を求め、その結果をメモリM2に記憶させる。
【0022】
候補絞込部14は、h=1,2,…,Kの順番で各絞込段階h毎に、以下のような処理を行う。まず、メモリM2に格納された各候補(これらは前段階の絞込処理の結果である)の属するカテゴリを求め、絞込段階hに対応する候補認識辞書D(12h)から、それらカテゴリに属する参照パターン群を取り出す。そして、それら取り出した参照パターン群の中から、メモリM1に格納された認識対象パターンにもっとも近いP個の候補を求め、その結果をメモリM3に記憶させる。
【0023】
認識制御部15は、メモリM3に格納されたP個の候補が同一カテゴリの参照パターンであれば、その候補に対応するカテゴリを認識結果として出力し、そうでなければ、メモリM3の内容をメモリM2にコピーし、候補絞込部14に次の絞込段階(h+1)の処理を行わせる。そして、認識制御部15は、最後の絞込段階(すなわちh=K)において候補認識辞書Dから求められたP個の絞込結果の候補が同一カテゴリでない場合には、それら最終候補の中でメモリM1内の認識対象パターンともっとも近い候補を選び、その候補の属するカテゴリを認識結果とする。
【0024】
記憶部16には、認識制御部15で認識されたカテゴリの情報が保存される。
以上に説明した本実施形態に係る認識装置1は、コンピュータシステムを用いて構築することができる。図5は、認識装置1のプラットフォームとして用いることのできるコンピュータシステムの一例を示している。
【0025】
図5において、コンピュータシステム2は、キーボート21、外部記憶装置22、ディスプレイ23、プロセッサ部24から構成される。キーボート21は、ユーザが操作を指示するための入力装置であり、この他にマウス等その他の入力装置が付加されていてもよい。外部記憶装置22は、前述の認識対象パターンの構造データや、認識辞書データ及び候補認識辞書データや、認識結果や、前述の処理手順を実現するためのソフトウェアを格納する。また、認識対象パターン格納部17、認識辞書11aと候補認識辞書121〜12Kを、この外部記憶装置22の一部として構成することができる。さらに、記憶部16によって認識されたカテゴリの名前と構造データを格納してもよい。外部記憶装置22は、例えばハードディスクなどで構成することができる。ディスプレイ23は、ユーザに対するメッセージや認識対象パターンのデータ、認識の結果などを表示するための出力装置である。もちろん音声出力その他の出力装置が付加されていてもよい。プロセッサ部24は、外部記憶装置22に格納されているソフトウェアなどに従って、実際の処理を行う。プロセッサ部24は、具体的にマイクロプロセッサやメモリなどから構成される。そして、候補検出部13、候補絞込部14、認識制御部15は、このプロセッサ部24の上で動作するソフトウェアによって構成することができる。
【0026】
次に本発明の認識装置1の動作をさらに詳細に説明する。まず、認識対象パターン格納部17に格納されている認識対象パターンについて説明する。認識対象パターン格納部17に格納されている認識対象パターンの構造データは、パターンの表現方法に応じて様々に異なる。本実施形態の装置は、基本的にどのような形式の構造データにも適用することができる。例えば、文字パターン、音声パターン、指紋パターン、顔パターンの場合は、各パターンの特徴量(又はその組)が認識対象パターンの構造データとして格納される。化合物分子構造、RNAの二次構造などの場合は、パターン(構造)は重み付きグラフで表現でき、それぞれの重み付きグラフが認識対象パターンの構造データとして格納される。線図形の場合は、パターン(線図形)の輪郭線データや、パターン(線図形)のビットマップ等の画像データなどが、認識対象パターンの構造データとして格納される。
【0027】
次に認識辞書作成部11による認識辞書データの作成法について説明する。例えばパターンを特徴量で表現する方式の場合、各カテゴリの参照パターンを求めるには、各カテゴリ毎に、そのカテゴリのすべての学習サンプルのパターンの特徴量の各次元の平均値(この例では特徴量が、複数の成分からなるベクトルの場合を考える)を求め、求められた特徴量の平均値を、そのカテゴリの参照パターンとする。また、特徴量以外の方法でパターンを表現する場合は、各カテゴリごとに、そのカテゴリのすべての学習サンプルについて、各学習サンプル間の距離を計算し、該カテゴリのすべての学習サンプルとの距離の和が最小になる学習サンプルを求め、これをそのカテゴリを代表する参照パターンとする。認識辞書11aには、各カテゴリごとに、そのカテゴリに対応づけて参照パターンが記憶される。
【0028】
パターン間の距離の計算方法については、公知のパターン間距離の計算方法の中から、処理するパターンに適用可能なものを適宜選択して用いればよい。例えば、特徴量でパターンを表現するとき、パターン間のユークリッド距離を用いることができる。パターンpの特徴量をベクトル(pi1,pi2,…,pix)で表現すると、パターンpとパターンpの間のユークリッド距離は式で計算される。
【0029】
【数1】
Figure 0003925011
【0030】
次に候補認識辞書作成部12による候補認識辞書データの作成法について説明する。絞込段階hで用いる候補認識辞書D(12h)を作成する際には、まず各カテゴリ毎に、そのカテゴリのすべての学習サンプルをN個のクラスタまで分類する。クラスタ個数Nは、絞込段階の順番hに対応して予め定められたものであり、hが大きくなるにつれて多くなる。すなわち、1<N<N<…<Nである。絞込段階の順番hが進むほど、各カテゴリが細かくクラスタリングされることになる。つまり、候補認識辞書Dは、候補認識辞書Dh−1より、もっと詳細な学習サンプルの情報を記憶していることになる。なお、絞込段階hに対応するクラスタ個数Nは、すべてのカテゴリに共通の数である。
【0031】
クラスタリングが終わると、次に上記認識辞書の作成の際と同様の方法で、各クラスタごとにそのクラスタを代表する参照パターンを求める。したがって、各カテゴリ毎に、それぞれN個の参照パターンが求められることになる。これらN個の参照パターンを、絞込段階hの当該カテゴリの参照パターン群として候補認識辞書12hに登録する。以上のような手順を各絞込段階h(h=1,2,…,K)毎に行うことにより、各絞込段階に対応する候補認識辞書121,122,…,12Kが構成される。
【0032】
なお、以上の処理における学習サンプル群のクラスタリング(分類)は、公知のクラスタリング手法の中から、処理するパターンの形式に適したものを選択して用いればよい。例えば、文字パターンの場合には、よいクラスタリング手法として最長距離分類法が知られている。最長距離分類法は、2つのクラスタ同士の距離を各クラスタ内の任意の2つのパターン間の距離の中で最長な距離によって定義し、この距離が最小となる2つのクラスタを統合する。2つのクラスタCとC間の距離dは次式で定義される。
【0033】
【数2】
Figure 0003925011
このようにしてサンプル群内の個々のサンプルをまず最初のクラスタとし、これらを上記の方法で順次階層的に統合していくことにより、所与のサンプル群を所望の数のクラスタに分割することができる。
【0034】
次に候補検出部13の処理について説明する。候補検出部13は、メモリM1に格納されている認識対象パターンを、認識辞書11aに格納されているすべての参照パターンと比較し、認識対象パターンともっとも近いP(所定値)個の参照パターンを候補として検出し、メモリM2に記憶させる。認識辞書11aには、各カテゴリ毎に1つずつの参照パターンが記憶されているので、候補検出部13では、P(所定値)個のカテゴリが、認識対象パターンの所属可能性の高いカテゴリとして抽出されることになる。
【0035】
候補絞込部14は、1つ前の絞込段階(h−1)で検出された候補と、現絞込段階hの候補認識辞書D(12h)を用いて、それら候補を絞り込む。このとき、メモリM1に格納されている認識対象パターンを、候補認識辞書Dに格納されているすべての参照パターンと比較するのではなく、候補認識辞書Dの参照パターン群のうち、メモリM2に格納されている前絞込段階で求められた候補の属するカテゴリに該当するもののみを取り出し、これら限られたカテゴリの参照パターン群を認識対象パターンと比較する。そして、この比較により、認識対象パターンにもっとも近いP個の候補を求め、メモリM3に記憶させる。
【0036】
この絞込処理では、メモリM2に格納されている前段階の絞込結果の候補に該当するカテゴリのみを比較の対象とするので、全参照パターンと比較を行う特開昭63−129488号などの従来手法に比べて比較の数が大幅に少なくなり、処理の時間を大幅に短縮できる。
【0037】
また、絞込段階の番号hが大きくなるに従って、候補認識辞書Dに格納されている各カテゴリの参照パターン数Nが大きくなり、各カテゴリがより詳細に分割されているので、絞込段階が進むほど、認識対象パターンに近い参照パターンをより詳細に求めることができる。
【0038】
図7は、図6に示した2つのカテゴリx及びyの学習サンプルを、それぞれ3つのクラスタに分割し、各クラスタ毎に参照パターンを設定した様子を示している。図7に示すように、1カテゴリに対して3つの参照パターンを設定することにより、図6のように1カテゴリを1つの参照パターンで代表させる場合より、学習サンプルの分布をよりよく反映することができる。カテゴリxに含まれるべきパターンsを認識するとき、パターンsはカテゴリxの参照パターンrx3にもっとも近いので、この参照パターンrx3は必ず候補として抽出されることになる。
【0039】
このように、絞込段階hでは前段階(h−1)よりも詳細なクラスタリングが行われているので、候補絞込部14の絞込処理では、より認識対象パターンに近いものが抽出される。したがって、絞込段階hで抽出する候補の数Pが、前段階で求めた候補の数Ph−1よりも小さくなるように設定していることを考え合わせると、絞込段階が進むにつれて、認識対象パターンに対してより近く、より数の少ない参照パターンが選ばれていくことがわかる。したがって、絞込段階を繰り返すにつれて、認識対象パターンが該当する可能性のより高いカテゴリが選ばれるようになり、しかも選ばれるカテゴリの数も少なくなっていく。
【0040】
次に認識制御部15について説明する。認識制御部15は、まず最初は候補検出部13で検出された候補(メモリM2内にある)が、すべて同じカテゴリに属するかを検査する。すべての候補が同じカテゴリの参照パターンであれば、そのカテゴリを認識の結果として出力する。そうでなければ、候補絞込部14に、絞込処理を行わせる。そして、この絞込により求められた候補(メモリM3内にある)が、同じカテゴリの参照パターンかどうかを検査する。同じカテゴリの参照パターンであればそのカテゴリを認識結果として出力し、そうでなければメモリM3の内容をメモリM2にコピーし、候補絞込部14に次の絞込段階の処理を行わせる。これを繰り返すことにより、徐々に候補が絞り込まれていき、同一カテゴリの候補のみが選ばれるようになった段階で、そのカテゴリが認識結果として出力されることになる。なお、想定した最後の絞込段階(h=K)の絞込結果のP個の候補が同一カテゴリにならなかった場合は、それら最終候補の中で認識対象パターンにもっとも近い候補を選び、この候補の属するカテゴリを認識結果として出力する。
【0041】
以下、本実施形態における処理の手順をフローチャートを参照して説明していく。まず、候補検出部13の動作をフローチャートを用いて説明する。図8は候補検出部13の動作手順を示すフローチャートである。各ステップの処理順に説明する。
【0042】
〔S1〕 まず変数の初期化を行う。iは認識辞書11aに格納している参照パターンの比較順序を示す番号であり、これをi=1に初期化する。dMax()は、認識対象パターンに近い順にP個までの各候補の、認識対象パターンとの距離であり、これらはdMax(1)=dMax(2)=…dMax(P)=最大値に設定する。mは、認識辞書に格納している参照パターンの個数であり、これには想定するカテゴリの数をmを設定する。また、C()は、候補を記憶するメモリ変数であり、認識対象パターンに近い順にP個の分が設けられている。これらC(1),C(2),…,C(P)はすべて空(ヌル値)に初期化される。なおここで、dMax()の最大値は、ソフトウエア上でDMax変数の型が表現できる値の範囲の上限である。
【0043】
〔S2〕 認識対象パターンqと参照パターンSとの間の距離d(q,S)を計算する。
【0044】
〔S3〕 候補の順番jをj=1と初期化する。
【0045】
〔S4〕 認識対象パターンqと現在注目する参照パターンSとの距離d(q,S)がdMax(j)より小さいかどうかを判断する。小さい場合は、S5へ行く。小さくない場合はS7へ行く。
【0046】
〔S5〕 候補C(j),C(j+1),…,C(P−1)をそれぞれC(j+1),C(j+2),…,C(P)にコピーし、距離dMax(i),dMax(j+1),…,dMax(P−1)をそれぞれdMax(i+1),dMax(j+2),…,dMax(P)にコピーする。そして、S6へ進む。このステップでは、S4で距離d(q,S)が現時点で認識対象パターンにj番目に近い候補の距離dMax(j)より小さいことが分かったので、現在注目する参照パターンSをj番目に挿入すべく、それまでj番目以降に配列されていた候補群を1つずつ後にずらす。
【0047】
〔S6〕 空いたj番目の変数に、現在注目している参照パターンSの情報をセットする。すなわちC(j)=S,dMax(j)=d(q,S)と設定し、S9に進む。
【0048】
〔S7〕 S4の判定の結果が否定(No)の場合、jを1だけインクリメントして、次に比較する候補を設定してS8に進む。
【0049】
〔S8〕 jの値を全候補の数Pと比較して、dMax(1),…,dMax(P)のうち比較すべきものが残っているか否かを検査する。残っていない場合(判定結果No)はS9へ進む。比較する候補はまだ残っている場合(判定結果Yes)は、S4へ行く。
【0050】
〔S9〕 このステップに来るのは、カレントの参照パターンSが、認識対象パターンqに近い順のP個の候補配列の中に位置を見出した場合(S6から)か、あるいはSがその候補配列の中に入らない(すなわち認識対象から遠い)ことが判明した場合(S8から)のいずれかであり、いずれにしてもカレントの参照パターンSについての処理が終了した場合である。このステップでは、参照パターンの順番を示すインデックスiを1だけインクリメントし、次に比較する参照パターンを設定してS10に進む。
【0051】
〔S10〕 iの値をmと比較して、処理を行うべき参照パターンが残っているかどうかを判定する。残っていなければ(判定結果No)、候補検出部13の処理を終了する。比較する参照パターンはまだ残っている場合は、S2に戻って以上の処理を繰り返す。
【0052】
このような処理により候補の配列C(1),C(2),…,C(P)には、認識対象パターンqに近い順にP個の参照パターンが記憶されることになる。
【0053】
次に候補絞込部14の動作をフローチャートを用いて説明する。図9は候補絞込部14の絞込段階h(ただしh=1,2,…,K)における動作手順を示すフローチャートである。
【0054】
〔S11〕 まず変数の初期化を行う。iは、1つ前の絞込段階(h−1)で検出された候補を取り出す順番を示す番号であり、これをi=1に初期化する。また、認識対象パターンに近い順にP個までの各候補の、認識対象パターンとの距離を初期化する。すなわちdMax(1)=dMax(2)=…dMax(P)=最大値と設定する。また、認識対象パターンに近い順にP個の候補を記憶するためのメモリ変数列C(1),C(2),…,C(P)を空にする。
【0055】
〔S12〕 jは、候補認識辞書Dにおける、前段階の第i番目の候補Ch−1(i)が属するカテゴリの参照パターン群の中から順番に参照パターンを取り出す際の順番を示す番号であり、これをj=1に初期化する。
【0056】
〔S13〕 認識パターンqと、前回候補Ch−1(i)の属するカテゴリの絞込段階hにおける第j番目の参照パターンS(j)と、間の距離d(q,S(j))を計算する。
【0057】
〔S14〕 候補の順番uを、u=1と設定する。
【0058】
〔S15〕 距離d(q,S(j))がdMax(u)より小さいかどうかを判断する。小さい場合は、S16へ行く。小さくない場合はS18へ行く。
【0059】
〔S16〕 候補C(u),C(u+1),…,C(P−1)をそれぞれC(u+1),C(u+2),…,C(P)にコピーし、距離dMax(u),dMax(u+1),…,dMax(P−1)をそれぞれdMax(u+1),dMax(u+2),…,dMax(P)にコピーする。
【0060】
〔S17〕 S16の処理より空いたu番目の変数に、カレントの参照パターンS(j)の情報を記憶させる。すなわち、C(u)=S(j);dMax(u)=d(q,S(j))と設定する。これが終わると、S20に進む。
【0061】
〔S18〕 S15の判定の結果が否定の場合、uを1インクリメントし、次に比較する候補を設定してS19に進む。
【0062】
〔S19〕 uの値を全候補の数Pと比較して、dMax(1),…,dMax(P)のうち比較すべきものが残っているか否かを検査する。残っていない場合は、S20へ行く。比較する候補はまだ残っている場合は、S15に戻って以上の処理を繰り返す。
【0063】
〔S20〕 ここにくるのは、カレントの参照パターンS(j)が候補配列に挿入されたか、あるいは候補配列に入らないことが判明したかのいずれかの場合であり、いずれの場合もカレント参照パターンについての処理は終わったということなので、インデクスjを1だけインクリメントし、次の参照パターンを取り上げて、S21に進む。
【0064】
〔S21〕 jの値をN(当該段階hにおける1カテゴリ当たりの参照パターン数)と比較し、候補Ch−1(i)に対応する参照パターンのうち残っているものがないかを判定する。残っているものがない場合(判定結果No)、S22へ行く。比較する参照パターンがまだ残っている場合は、S13に戻って以上の処理を繰り返す。
【0065】
〔S22〕 このステップに来るのは、候補Ch−1(i)に対応するN個の全参照パターンの処理が完了したときなので、iを1だけインクリメントして、iが前絞込段階の絞込結果の中の次の候補を示すようにし、S23に進む。
【0066】
〔S23〕 iの値を、前段階(h−1)における絞込結果の候補の数Ph−1と比較し、前段階の絞込結果のうち、まだ取り出されていない候補が残っているかどうかを判定する。残っていなければ(判定結果No)、候補絞込部14の処理を終了する。比較する候補がまだ残っている場合は、S12に戻って以上の処理を繰り返す。
【0067】
以上に示した絞込処理部14の処理により、絞込結果の候補の配列C(1),C(2),…,C(P)には、認識対象パターンqに近い順にP個の参照パターンが記憶されることになる。
【0068】
なお、以上の処理では、1つ前の絞込段階(h−1)の絞込結果のPh−1の候補の1つ1つについて上記処理を繰り返したが、絞込結果のPh−1の候補の中に同一カテゴリに属するものが複数ある場合も考えられる。このような場合を想定して、S22で前絞込段階の絞込結果から次の候補を取り出した際に、その候補が以前に取り出した候補のいずれかと同じカテゴリに属するかどうかをチェックし、同じカテゴリに属する場合には、その候補についてのS13〜S22の処理をスキップするなどの例外処理を設けてもよい。
【0069】
次に認識制御部15の動作をフローチャートを用いて説明する。図10は認識制御部15の動作手順を示すフローチャートである。
【0070】
〔S24〕 候補認識辞書の順番hを、h=1と初期化する(絞込段階hの初期化)。
【0071】
〔S25〕 候補認識辞書Dを用いて、候補絞込部14でP個の候補C(1),C(2),…,C(P)を検出する。この候補絞込部14の処理については、既に説明した。
【0072】
〔S26〕 検出されたP個の候補が同じパターンであるかどうかを判定する。同じパターンの場合は、S30へ行く。同じパターンではない場合は、S27へ行く。
【0073】
〔S27〕 絞込結果の候補が同じパターンでない場合、hを1だけインクリメントし、次の候補認識辞書を取り出す(絞込段階hのインクリメント)。
【0074】
〔S28〕 hの値を絞込段階の上限数Kと比較し、更なる候補の絞込が可能か否かを判定する。更なる絞込が可能な場合(判定結果Yes)、S25に戻って次の絞込段階の処理を実行する。更なる絞込処理ができない場合(hがKを越えた場合)、S29に進む。
【0075】
〔S29〕 このステップに到達するのは、最後の絞込段階Kで得られた候補が同一のカテゴリでない場合であり、このような場合は、それら候補のうち認識対象パターンに最も近い候補C(1)を取り出し、この候補の属するカテゴリを、認識対象パターンのカテゴリとして出力し、一連の処理を終了する。
【0076】
〔S30〕 このステップに到達するのは、絞込段階hで得られたすべての候補が同一カテゴリに属すると判定された場合であり、このような場合には、そのカテゴリを認識結果として出力する。どの候補を選んでもカテゴリは同じなので、例えば最初の候補C(1)を選び、この候補のカテゴリを認識結果として、一連の処理を終了する。
【0077】
なお、図10では省略したが、認識制御部15は、候補検出部13で求められた最初の候補についても、S26と同様の判定処理を行い、その結果全ての候補が同一カテゴリであれば、そのカテゴリを認識結果とし、その段階で処理を終了する。それら候補が同一カテゴリでない場合に、図10に示す絞込段階の処理に移行する。
【0078】
発明者は、本実施形態の認識装置1を用いて具体的に文字パターンを認識する実験を行った。その実験における認識率及び認識速度について説明する。なお、ここでは、距離の計算回数を、認識速度の評価のための評価値として用いる。
【0079】
文字パターンは、紙に印刷された文字画像をスキャナでコンピュータに入力したものである。文字パターンは2次ペリフェラル特徴量(128次元)で表現し、文字パターン間のユークリッド距離で文字パターン同士の近さを判定する。実験に用いた文字パターンのカテゴリ数は3455個であり、カテゴリ(すなわち文字種)毎に、100から150個程度の学習サンプルを用意した。まず、文字毎に、該文字のすべての学習サンプルの中心値を求め、認識辞書を作成した。続いて、文字毎に、該文字のすべての学習サンプルを15クラスタまで最長距離法で分類し、15個の参照パターンを求め、候補認識辞書を1個作成した(すなわち、K=1の場合に相当する)。候補認識辞書Dには、3455x15=51825個の参照パターンが記憶されていることになる。また、抽出する候補数をP=30,P=1と設定した。
【0080】
以上のようなパラメータ設定で本実施形態の装置を用いた場合と、認識辞書のみを用いる従来の認識方法を用いた場合の両方について、学習したサンプルを認識する実験を行った。その結果、従来認識方法の認識率は88.51%であり、本実施形態の認識方法の認識率は97.06%であった。1文字を認識するときの距離計算回数は、従来認識方法の場合は、3455回であり、本実施形態の認識方法の場合は、3455+30×15=3905回であった。
【0081】
この実験結果から分かるように、本実施形態によれば、認識速度の低下をそれほど招かずに、認識率を飛躍的に向上させることができる。このように、本実施形態によれば、パターン認識分野における未知パターンを認識する問題に対して、より高い認識精度かつ比較的に高速にパターンを認識することが可能になる。
【0082】
【発明の効果】
以上の説明から明らかなように、本発明に係る認識装置及び方法によれば、入力された認識パターンを従来よりも高精度かつ高速に認識することができる。
【図面の簡単な説明】
【図1】 本発明に係る認識装置の原理を示す図である。
【図2】 本発明に係る認識装置の構成を示す図である。
【図3】 認識辞書のデータ構造を示す図である。
【図4】 候補認識辞書のデータ構造を示す図である。
【図5】 認識装置のハードウエア構成例を示す図である。
【図6】 各カテゴリを1つの参照パターンで表現する従来手法での問題を説明するための図である。
【図7】 各カテゴリをそれぞれ複数の参照パターンで表現する本実施形態の手法の利点を説明するための図である。
【図8】 候補検出部の動作手順を示すフローチャートである。
【図9】 候補絞込部の動作手順を示すフローチャートである。
【図10】 認識制御部の動作手順を示すフローチャートである。
【符号の説明】
1 認識装置、11 認識辞書作成部、11a 認識辞書、12 候補認識辞書作成部、121〜12K 候補認識辞書、13 候補検出部、14 候補絞込部、15 認識制御部。

Claims (10)

  1. 入力された認識対象パターンが、予め定められた複数のカテゴリのいずれに該当するかを判別するパターン認識装置において、
    各カテゴリ毎に、そのカテゴリの学習サンプル群からそのカテゴリを代表する参照パターンを求め、各カテゴリ毎にその参照パターンを記憶した認識辞書を作成する認識辞書作成手段と、
    K(K≧1)段階の各絞込段階h(h=1,2,…,K)毎に、前記各カテゴリについて、そのカテゴリの学習サンプル群からそれぞれその絞込段階に応じた数 h 個(N h >0,N i <N i+1 ,i=1,2,…,K−1)の参照パターンを求めることにより、当該絞込段階の候補認識辞書 h を作成する候補認識辞書作成手段と、
    前記認識対象パターンに近い所定数P 0 個の参照パターン候補として前記認識辞書から検出する候補検出手段と、
    絞込段階1の絞込処理として、前記候補検出手段で検出された候補が代表する各カテゴリに属する参照パターンのうち、前記認識対象パターンによりよく適合する所定数P 1 個の参照パターンを絞込段階1の候補として求めるとともに、絞込段階h(h=2,…,K)の絞込処理として、前絞込段階(h−1)で求められた各候補の属する各カテゴリについて、現絞込段階hの候補認識辞書D h からそれら各カテゴリの参照パターン群を取得し、これら取得した参照パターン群から前記認識対象パターンに近い順に、当該絞込段階hに対応して定められた所定数P h (P h >1,P h <P h-1 )個の参照パターンを抽出し、抽出した各参照パターンを現絞込段階hの候補として求める候補絞込手段と、
    前記候補絞込手段に、前記各絞込段階の順に、当該絞込段階の前記候補認識辞書を用いて段階的に絞込を行わせて認識結果を求める認識制御手段であって、各絞込段階h毎に、前記候補絞込手段で得られたP h 個の参照パターンを調べ、これら参照パターン群がすべて同一のカテゴリに属する場合に、そのカテゴリを認識結果として出力し、認識処理を終了する認識制御手段と、
    を備えるパターン認識装置。
  2. 前記認識辞書作成手段は、各カテゴリ毎に、そのカテゴリのすべての学習サンプルの代表値を求め、その代表値を該カテゴリの参照パターンとして記憶させることにより認識辞書を作成することを特徴とする請求項1記載のパターン認識装置。
  3. 前記候補認識辞書作成手段は、絞込段階h(h=1,2,…,K)の候補認識辞書Dhを作成するに当たり、各カテゴリ毎に、そのカテゴリのすべての学習サンプルをその絞込段階hに応じて定められた h のクラスタにクラスタリングし、前記Nh個のクラスタの代表値をそれぞれ求め、求めたNh個の代表値を当該カテゴリのNh個の参照パターンとして記憶させることにより候補認識辞書Dhを作成することを特徴とする請求項1記載のパターン認識装置。
  4. 前記候補検出手段は、入力された前記認識対象パターンを前記認識辞書に格納されている各参照パターンと比較し、前記認識対象パターンに近い順に所定数P0(P0>1)個の参照パターンを求め、求めた参照パターンを候補とすることを特徴とする請求項1記載のパターン認識装置。
  5. 前記認識制御手段は、最後の絞込段階Kについて前記候補絞込手段で得られたPK個の参照パターン群が同一のカテゴリでない場合に、それら参照パターン群のうち前記認識対象パターンに最も近い参照パターンの属するカテゴリを認識結果として出力することを特徴とする請求項記載のパターン認識装置。
  6. 入力された認識対象パターンが予め定められた複数のカテゴリのいずれに属するかを認識するパターン認識装置であって、
    各絞込段階h(h=1,2,…,K)毎に作成された認識辞書 h であって、それぞれが、前記カテゴリ毎に、そのカテゴリの学習サンプル群を、対応する絞込段階に応じたクラスタ数 h (N h >0,N i <N i+1 ,i=1,2,…,K−1)に分類して得られた各クラスタを代表するN h 個の参照パターンを保持する複数の認識辞書と、
    前記各絞込段階毎に、その絞込段階の認識辞書 h から、その前の絞込段階(h− 1)で得られた各候補の属する各カテゴリに属する参照パターン群を取得し、これら取得した各参照パターンの中から前記認識対象パターンに近いものを所定数 h (P h >1,P h <P h-1 個選んで当該絞込段階hの候補とする候補絞込手段と、
    前記候補絞込手段の絞込段階hの絞込処理で選ばれた h 個の候補が全て同じカテゴリに属する場合そのカテゴリを前記認識対象パターンのカテゴリと判定し、そうでない場合は前記候補絞込手段に次の絞込段階(h+1)絞込処理を行わせる認識制御手段と、
    を備えるパターン認識装置。
  7. 入力された認識対象パターンが予め定められた複数のカテゴリのいずれに該当するかを認識するパターン認識方法であって、
    各絞込段階h(h=1,2,…,K)毎の認識辞書 h を作成するステップであって、前記各カテゴリ毎に、そのカテゴリの学習サンプル群を、対応する絞込段階に応じたクラスタ数 h (N h >0,N i <N i+1 ,i=1,2,…,K−1)のクラスタに分類し、これら各クラスタごとにそれぞれそのクラスタを代表する参照パターンを求め、これら求めた参照パターンをそれぞれ前記各カテゴリに対応づけて記憶することにより認識辞書 h を作成する辞書作成ステップと、
    前記各絞込段階の順に、当該絞込段階の認識辞書 h から、その前の絞込段階(h−1)で得られた候補の属する各カテゴリの参照パターン群を取得し、これら取得した各参照パターンの中から前記認識対象パターンに近いものを所定数 h (P h >1,P h <P h-1 選んで当該絞込段階hの候補として選択する候補絞込ステップと、
    絞込段階hについての前記候補絞込ステップで選ばれた h 個の候補が全て同じカテゴリに属する場合そのカテゴリを前記認識対象パターンのカテゴリと判定し、そうでない場合は次の絞込段階(h+1)について前記候補絞込ステップを実行する認識制御ステップと、
    を含むパターン認識方法。
  8. 前記認識辞書作成ステップでは、各絞込段階の認識辞書 h を作成するに当たり、前記各クラスタごとにそのクラスタに属する学習サンプル群の代表値を求め、この代表値を前記参照パターンとすることを特徴とする請求項記載のパターン認識方法。
  9. 最後の絞込段階について前記候補絞込ステップで得られた参照パターン群が同一のカテゴリでない場合に、それら参照パターン群のうち前記認識対象パターンに最も近い参照パターンの属するカテゴリを認識結果として出力することを特徴とする請求項記載のパターン認識方法。
  10. 前記候補絞込ステップで選択する候補の数は、後の絞込段階ほど小さい数に定められることを特徴とする請求項記載のパターン認識方法。
JP29862599A 1999-10-20 1999-10-20 パターン認識装置及び認識方法 Expired - Fee Related JP3925011B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29862599A JP3925011B2 (ja) 1999-10-20 1999-10-20 パターン認識装置及び認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29862599A JP3925011B2 (ja) 1999-10-20 1999-10-20 パターン認識装置及び認識方法

Publications (2)

Publication Number Publication Date
JP2001118073A JP2001118073A (ja) 2001-04-27
JP3925011B2 true JP3925011B2 (ja) 2007-06-06

Family

ID=17862165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29862599A Expired - Fee Related JP3925011B2 (ja) 1999-10-20 1999-10-20 パターン認識装置及び認識方法

Country Status (1)

Country Link
JP (1) JP3925011B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9147130B2 (en) 2011-12-01 2015-09-29 Canon Kabushiki Kaisha Information processing method, information processing apparatus, and recording medium for identifying a class of an object by using a plurality of discriminators

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2521092A1 (en) * 2009-12-28 2012-11-07 Cyber Ai Entertainment Inc. Image recognition system
WO2012105085A1 (ja) * 2011-01-31 2012-08-09 Necソフト株式会社 画像認証装置、画像認証方法、プログラムおよび記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9147130B2 (en) 2011-12-01 2015-09-29 Canon Kabushiki Kaisha Information processing method, information processing apparatus, and recording medium for identifying a class of an object by using a plurality of discriminators

Also Published As

Publication number Publication date
JP2001118073A (ja) 2001-04-27

Similar Documents

Publication Publication Date Title
Weinman et al. Scene text recognition using similarity and a lexicon with sparse belief propagation
JP4311552B2 (ja) ドキュメントの自動分離
Hsu et al. A practical guide to support vector classification
JP4308785B2 (ja) デジタルインク質疑検索装置及びその方法
KR100249055B1 (ko) 문자인식장치및방법
US5768417A (en) Method and system for velocity-based handwriting recognition
EP0355748A2 (en) A pattern recognition apparatus and method for doing the same
JP3903610B2 (ja) 検索装置、検索方法及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR102379674B1 (ko) 문서 내 테이블 분석방법 및 장치
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP3903613B2 (ja) 検索装置及び検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Singh et al. Recognition of online unconstrained handwritten Gurmukhi characters based on Finite State Automata
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
JP3313272B2 (ja) 住所読み取り方法および識別関数重みベクトル生成方法
WO1996008787A1 (en) System and method for automatic subcharacter unit and lexicon generation for handwriting recognition
JP3925011B2 (ja) パターン認識装置及び認識方法
Premaratne et al. Lexicon and hidden Markov model-based optimisation of the recognised Sinhala script
Lomte et al. Handwritten Vedic Sanskrit Text Recognition Using Deep Learning
Sotoodeh et al. A music symbols recognition method using pattern matching along with integrated projection and morphological operation techniques
Kou et al. A stacked graphical model for associating sub-images with sub-captions
JPH0638276B2 (ja) パターン識別装置
EP2565799A1 (en) Method and device for generating a fuzzy rule base for classifying logical structure features of printed documents
JP2002183667A (ja) 文字認識装置及び記録媒体
Tavoli et al. A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier
JP3374793B2 (ja) 高速認識検索システム及びそれに用いる認識検索高速化方法並びにその制御プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040217

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070219

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140309

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees