JP4199954B2 - 文字認識辞書作成方法及び文字認識方法 - Google Patents

文字認識辞書作成方法及び文字認識方法 Download PDF

Info

Publication number
JP4199954B2
JP4199954B2 JP2002097237A JP2002097237A JP4199954B2 JP 4199954 B2 JP4199954 B2 JP 4199954B2 JP 2002097237 A JP2002097237 A JP 2002097237A JP 2002097237 A JP2002097237 A JP 2002097237A JP 4199954 B2 JP4199954 B2 JP 4199954B2
Authority
JP
Japan
Prior art keywords
recognition
template
character
detailed
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002097237A
Other languages
English (en)
Other versions
JP2003296663A (ja
Inventor
隆則 石田
Original Assignee
株式会社日本デジタル研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日本デジタル研究所 filed Critical 株式会社日本デジタル研究所
Priority to JP2002097237A priority Critical patent/JP4199954B2/ja
Publication of JP2003296663A publication Critical patent/JP2003296663A/ja
Application granted granted Critical
Publication of JP4199954B2 publication Critical patent/JP4199954B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は文字認識技術に関し、特に、多段階クラスタリングを用いた文字認識方法及びこの文字認識方法で使用する文字認識辞書の構造及び文字認識辞書の作成方法に関する。
【0002】
【従来の技術】
文字認識において、認識時間の短縮を目的とした大分類辞書と詳細辞書を用いて大分類、詳細認識の順に2段階で文字認識を行なう文字認識方法がある。この方法で用いる認識辞書は、辞書作成時に各認識対象文字に対してそれらの文字コードと字形による標準的な特徴量を格納した詳細認識用テンプレートを作成して詳細辞書を作成し、図10(a)に示すような全詳細認識用テンプレートを特徴量の類似性から図10(b)に示すように幾つかのクラスタ(グループ)1、2、・・・、5、・・に分類(クラスタリング)してから、図10(c)に示すように各クラスタ毎にクラスタ内の詳細認識用テンプレート1−1、1−2、1−3、・・、2−1、・・2−4、・・、3−1、3−2、3−3、・・・、4−1、4−2、4−3、・・、5−1、・・・、5−5、・・から代表特徴量(各クラスタ内で×印で表されている)を決定して大分類用テンプレートを作成して大分類辞書を作成する。
【0003】
そして、文字認識時には、未知入力文字の特徴量を抽出し、まず大分類として図10(d)に示すような未知入力文字の特徴量(△印で表している)と大分類辞書の特徴量(×)との比較を行ない、未知入力文字の特徴量との類似性が高い上位M個(Mは任意の整数)のクラスタを選択し、次に詳細認識として図10(e)に示すように選択したクラスタ内の詳細認識用テンプレート(この例ではテンプレート1−1(「目」)、1−2(「月」)、1−3(「日」)、2−1(「岡」)、2−2(「用」)、2−3(「周」)、2−4(「同」)、3−1(「回」)、3−2(「田」)、3−3(「囲」))に対して未知入力文字との比較を行い、未知入力文字の特徴量との類似性が高い上位L個(Lは任意の整数)の詳細認識用テンプレートの文字コードを認識結果(図10(f))として出力する方法がある。なお、図10の例では特徴量を説明上2次元で表したが実際には異なり、多次元となる場合が多い。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来の文字認識方法では漢字認識の場合のようにカテゴリ数が多い場合に特徴量の次元数が多くなり、クラスタ同士が複雑に絡み合うため、クラスタリングにより図11(a)に示すように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)Pがクラスタ境界付近にある場合や、図11(b)に示すように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)P’と該詳細認識用テンプレートが所属しているクラスタの代表特徴量(×印)との距離が詳細認識用テンプレートP’が属していないクラスタの代表特徴量と詳細認識用テンプレートP’の距離よりも遠く離れている場合がある(ここで、図11の○印は詳細認識用テンプレートの特徴量、●印は未知入力文字の正解文字コードを格納する詳細認識用テンプレート、×印はクラスタの代表特徴量、△印は未知入力文字の特徴量を意味する)。
【0005】
このような場合には、例えば、図11(a)で詳細認識用テンプレートPの文字コードを正解文字コードとする場合、これら詳細認識用テンプレートPの特徴量と類似性を持つ未知入力文字の認識時に、クラスタ分類(大分類)で該未知入力文字の正解文字コードを持つ詳細認識用テンプレートPが属するクラスタを選択できず(つまり、大分類辞書による分類の失敗)、未知入力文字の認識結果に正解文字コードが出力されないという問題点がある。また、図11(b)詳細認識用テンプレートP’の例でも同様の問題点がある。
【0006】
このような問題点の解決方法として大分類で選択するクラスタ数Mの値を増やす方法があるが、Mの値を増やすと詳細認識時に未知入力文字と比較する詳細認識用テンプレート数が増加して認識速度が遅くなるという欠点がある。また、別の方法として、大分類用テンプレートを追加してクラスタ内の代表特徴量をふやす方法があるが、辞書サイズが拡大するという欠点がある。
【0007】
本発明は上記課題を解決するためになされたものであり、新たな辞書テンプレートを追加することなく、大分類による分類性能及び認識性能が高く、且つ認識速度の速い、文字認識辞書作成方法及び文字認識方法の提供を目的とする。
【0008】
【課題を解決するための手段】
上記問題を解決するために、請求項1に記載の発明の文字認識辞書作成方法は、大分類、詳細認識の順に行う多段階文字認識に用いる文字認識辞書の作成方法であって、認識対象文字毎に詳細認識用テンプレートを作成する工程と、作成した詳細認識用テンプレートをクラスタリングする工程と、クラスタリングされた詳細認識用テンプレート毎に当該詳細認識用テンプレートが属するクラスタのクラスタ識別情報を当該詳細認識用テンプレートの所属クラスタ情報とする工程と、クラスタリングにより取得されたクラスタ毎に当該クラスタの代表特徴量を決定する工程と、決定されたクラスタの代表特徴量を有し、詳細認識用テンプレートと同一構造、同一サイズであって隣接クラスタ情報を有さない大分類用テンプレートを作成する工程と、詳細認識用テンプレート毎に当該詳細認識用テンプレートが所属していないクラスタの代表特徴量のうち距離が最小となる上位N個のクラスタのクラスタ識別情報を当該詳細認識用テンプレートの隣接クラスタ情報とする工程と、を含むことを特徴とする。
【0009】
また、請求項2に記載の発明は請求項1に記載の発明の文字認識辞書作成方法において、更に、使用頻度の高い認識対象文字であって大分類による分類性能が低い認識対象文字のうち認識性能が所定値以下のそれぞれの認識対象文字について、現段階の文字認識辞書に該認識対象文字の詳細認識用テンプレートが存在するか否かを判定する工程と、現段階の文字認識辞書に該認識対象文字の詳細認識用テンプレートが存在する場合は、現段階の文字認識辞書を用いて該認識対象文字の文字イメージに対して大分類・詳細認識共用テンプレートおよび詳細認識用テンプレートからなる詳細認識使用可能テンプレートによる総当り文字認識と大分類、詳細認識の順の2段階文字認識を行う工程と、総当り文字認識と大分類、詳細認識の順の2段階文字認識を行う工程において、詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識対象文字イメージが存在した場合に、該認識対象文字イメージに対して、詳細認識使用可能テンプレートの総当り文字認識での認識数の最も多い詳細認識用テンプレートを変更詳細認識用テンプレートとする工程と、変更詳細認識用テンプレートの種類判別情報を変更して大分類・詳細認識共用テンプレートとして文字認識辞書を更新する工程と、を含むことを特徴とする。
【0010】
また、請求項3に記載の発明は請求項2に記載の発明の文字認識辞書作成方法において、更に、更新する工程によって更新された文字認識辞書に格納されている各テンプレートを大分類用テンプレート、大分類・詳細認識共用テンプレート、詳細認識用テンプレートの順に並び替える工程、を備えたことを特徴とする。
【0011】
また、請求項4に記載の文字認識方法は、テンプレートの種類を判別する種類判別情報と、テンプレートのクラスタ識別情報からなる所属クラスタ情報と種類判別情報が詳細認識用テンプレートを意味しているテンプレート毎に取得した当該テンプレートが所属していないクラスタの代表特徴量のうち距離が最小のクラスタのクラスタ識別情報からなる隣接クラスタ情報とを含む詳細認識用テンプレートと、詳細認識用テンプレートと同一構造、同一サイズであって、隣接クラスタ情報を含まない大分類用テンプレートを格納してなる文字認識辞書を用いて大分類、詳細認識の順に行う多段階文字認識方法であって、
未知入力文字の特徴量を抽出する工程と、未知入力文字の特徴量と詳細認識用テンプレートのうち大分類用にも使用可能なテンプレートとして種類判別情報が変更されている大分類・詳細認識用テンプレートおよび大分類用テンプレートとの特徴量とを比較する工程と、比較結果に基いて未知入力文字の特徴量との距離が最小となる上位M個のクラスタを詳細認識候補クラスタとして取得する工程と、大分類・詳細認識共用テンプレートおよび詳細認識用テンプレートからなる詳細認識使用可能テンプレートのうちで、工程で取得したM個の詳細認識候補クラスタのクラスタ識別情報所属クラスタ情報又は隣接クラスタ情報として有する詳細認識使用可能テンプレートの特徴量と未知入力文字の特徴量との比較を行う工程と、比較結果に基いて未知入力文字の特徴量との距離が最小となる上位L個の詳細認識使用可能テンプレートを取得する工程と、L個の詳細認識使用可能テンプレートが有する文字コードを認識結果として出力する工程と、を備えたことを特徴とする。
【0013】
【発明の実施の形態】
1.文字認識装置の構成
図1は本発明の文字認識方法を適用可能な文字認識装置の構成例を示すブロック図であり、文字認識装置100は、制御部10、読み取り部11、文字切り出し部12、特徴抽出部13、大分類部14、詳細認識部15、文字認識辞書16及び表示部17を備えている。
【0014】
制御部10は、CPU(又はMPU)、プログラム格納メモリ及びRAM等の周辺回路(図示せず)からなるコンピュータ構成をなし、上述の文字認識装置100の各構成部分の動作の制御及び文字認識装置100全体の動作を制御する。
【0015】
読み取り部11は認識対象文字を含む原稿を読み取って原稿イメージ(イメージデータ)に変換し、文字切り出し部12に渡し、文字切り出し部12は読み取り部11から受け取った原稿イメージから1文字単位に文字イメージを切り出して特徴抽出部13に渡す。特徴抽出部13は文字切り出し部12から受け取った文字イメージから文字の特徴抽出を行って各文字イメージ毎の特徴量を得る。
【0016】
大分類部14は特徴抽出部13で抽出した特徴量を基に後述(図7)するように本発明の文字認識辞書16を用いて詳細認識候補クラスタを取得する。 また、詳細認識部15は特徴抽出部13で抽出した特徴量を基に後述(図8)するように本発明の文字認識辞書16を用いて認識候補文字コードを取得する。また、表示部17は原稿1枚分の文字イメージと認識結果を表示する。
【0017】
文字認識辞書16はハードディスクや光ディスクのような大容量の保存記憶メモリに複数の辞書テンプレートを格納してなる。また、各辞書テンプレートは図2のテンプレートフラグ欄23に格納されたテンプレートフラグにより、大分類テンプレート、大分類・詳細認識共用テンプレート、詳細認識用テンプレートに区別されている。つまり、文字認識辞書16は図5に示すように大分類用テンプレート161群、大分類詳細認識共用テンプレート162群及び詳細認識用テンプレート163群からなる。
【0018】
2.テンプレートの構造
図2は本発明の文字認識辞書を構成するテンプレートの一実施例を示す図であり、図2(a)は詳細認識用テンプレートの構成例を示す図、図2(b)は大分類用テンプレートの構成例を示す図である。
【0019】
図2で、詳細認識用テンプレート20と大分類用テンプレート20’は同一構造及び同一サイズであり、テンプレート番号を格納するテンプレート番号欄21、文字コードを格納する文字コード欄22、テンプレートが詳細認識用テンプレートか大分類用テンプレートかを区別するテンプレートフラグを格納するテンプレートフラグ欄23、大分類所属1位番号(=所属クラスタ情報)を格納する大分類所属1位番号欄24、大分類所属2位番号(=隣接クラスタ情報)を格納する大分類所属2位番号欄25及び特徴量を格納する特徴量欄26を有している。なお、下記に述べるように大分類所属1位番号欄24、大分類所属2位番号欄25及び特徴量欄26に格納する大分類所属1位番号、大分類所属2位番号及び特徴量の意味は詳細認識用テンプレート20と大分類用テンプレート20’で異なる。
【0020】
詳細認識用テンプレート20の大分類所属1位番号欄24には当該詳細認識用テンプレートが属しているクラスタ番号が大分類所属1位番号として格納され、詳細認識用テンプレート20の大分類所属2位番号欄25には当該詳細認識用テンプレートが属していない各クラスタの代表特徴量と当該詳細認識用テンプレートの特徴量の比較結果のうち距離が最小のクラスタのクラスタ番号が大分類所属2位番号として格納される。また、詳細認識用テンプレート20の特徴量欄26にはその詳細認識用テンプレートの特徴量が格納される。
【0021】
一方、大分類用テンプレート20’の大分類所属1位番号欄24にはそのクラスタのクラスタ番号が大分類所属1位番号として格納され、大分類所属2位番号欄25及び文字コード欄22にはスペース又は無効データ(null)が格納される。また、大分類用テンプレート20’の特徴量欄26にはそのクラスタの代表特徴量(クラスタ代表特徴量)が格納される。
【0022】
また、後述するように詳細認識用テンプレート20のテンプレートフラグ欄23の値を変更することにより、大分類・詳細認識共用テンプレートを作成することができる。
【0023】
以上説明したような同一構造のテンプレートを用いることにより、テンプレートフラグ欄の値を変更することにより、新たな辞書テンプレートを追加することなく大分類用テンプレート、詳細認識用テンプレート及び後述する大分類・詳細認識共用テンプレートを作成し、文字認識用辞書として用いることができる。
【0024】
3.文字認識辞書作成方法
図3は本発明に基く文字認識辞書作成方法の手順を示すフローチャートであり、図4は詳細認識用テンプレート作成の説明図、図5は図3の文字認識辞書作成手順により作成された大分類用テンプレート、大分類・詳細認識共用テンプレート及び詳細認識用テンプレートを順にまとめた文字認識辞書の一例を示す図である。
【0025】
ステップS1:(詳細認識用テンプレートの作成)
辞書作成の第一段階として、認識対象文字ごとに詳細認識用テンプレートを作成する。詳細認識用テンプレートの作成には、先ず、データ収集によって集めた各認識対象文字のイメージデータについて、イメージと文字コードが一致しているかどうかのチェック、極端に変形した字形の文字や誤字の修正又は削除、及び大きなノイズの除去などを行って辞書作成用イメージを作成する。なお、字形の変形パターンの多い文字や使用頻度の高い文字に関しては辞書作成用イメージとして各変形パターンを用意することが好ましい。次に、各認識対象文字毎にその全辞書作成用イメージに対してノイズ除去及び文字のストロークを明確にした後、正規化処理を行って文字の大きさを整えてから特徴抽出を行い、文字の字形による特徴量(特徴量は各次元の特徴量からなる)を抽出し、抽出した全特徴量つまり、ある認識対象文字についてその全辞書作成用イメージから抽出した各特徴量、から認識対象文字の変形パターンを考慮した代表特徴量を幾つか決定し、その認識対象文字の文字コードを文字コード欄22に、テンプレートフラグ欄23に詳細認識用テンプレートを意味するフラグ値(例えば、「3」)を格納し、特徴量欄26に上述のようにして決定した代表特徴量をそれぞれ格納した詳細認識用テンプレートを作成する(詳細認識用テンプレートは決定された代表特徴量の数だけ作成される。なお、詳細認識用テンプレートの数は字形パターンの多い文字や使用頻度の高い文字については多めにする)。
【0026】
ここで、代表特徴量の決定方法として、例えば、ある認識対象文字についてその全辞書作成用イメージから抽出した全特徴量を特徴の類似性から幾つかのクラスタに分類し、各クラスタ毎にクラスタ内の特徴量の各次元の平均を求めて代表特徴量とする方法がある。認識対象文字「問」の詳細認識用テンプレートを作成する場合を例にとると、全ての「問」辞書作成用イメージに対してノイズ除去及び文字のストロークを明確にした後、正規化処理を行って文字の大きさを整えて特徴抽出を行い、図4に示すように抽出した全特徴量を特徴の類似性からクラスタ1〜3に分類し、各クラスタ毎にクラスタ内の特徴量の各次元の平均を求めて代表特徴量M1〜M3を決定し、認識対象文字「問」の文字コード、テンプレートフラグ及び特徴量M1〜M3を格納した3個の詳細認識用テンプレートを作成する。
【0027】
ステップS2:(詳細認識用テンプレートのクラスタリング)
次に、上記ステップS1で求めた全認識対象文字の全ての詳細認識用テンプレートに対しクラスタリングを行い、任意数のクラスタに分類する。クラスタの分類はステップS1の場合と同様に各詳細認識用テンプレートの特徴量の類似性を基に行う。ここで各クラスタにはクラスタ番号が付与される。また、クラスタ数については何パターンかクラスタ数が異なるパターンを作成しておき、最終的に認識性能が高くて認識速度が速いパターンを選択するようにすることが望ましい。
【0028】
ステップS3:(大分類所属1位番号の格納)
次に、上記ステップS2でクラスタリングした各詳細認識用テンプレート毎に、その詳細認識用テンプレートが属するクラスタのクラスタ番号を大分類所属1位番号として当該詳細認識用テンプレートの大分類所属1位番号欄24(図2)に格納する。
【0029】
ステップS4:(大分類用テンプレートの作成)
次に、上記ステップS2で全詳細認識用テンプレートをクラスタリングして得たクラスタについて、各クラスタ毎にクラスタ代表特徴量を決定し、テンプレートフラグ欄23に大分類用テンプレートを意味するフラグ値(例えば、「1」)を格納し、特徴量欄26に上述のようにして決定したクラスタ代表特徴量を格納した大分類用テンプレート20’(図2)を作成する。クラスタ代表特徴量の決定方法としては、例えば、各クラスタ毎にクラスタ内の詳細認識用テンプレートの特徴量の各次元の平均値を求めてクラスタ代表特徴量とする方法がある。
【0030】
ステップS5:(大分類所属2位番号の格納)
次に、各詳細認識用テンプレート毎にその詳細認識用テンプレートが属していないクラスタのクラスタ代表特徴量と当該詳細認識用テンプレートの特徴量とを比較して距離が最小となるクラスタを求め、求めたクラスタのクラスタ番号を大分類所属2位番号として当該詳細認識用テンプレートの大分類所属2位番号欄25に格納する。
【0031】
ステップS6:(大分類・詳細認識共用テンプレートへの変更検討)
次に、使用頻度の高い認識対象文字であって大分類による分類性能が低い認識対象文字について、そのような認識対象文字の詳細認識用テンプレートの内で詳細認識用テンプレートを大分類に用いることにより当該認識対象文字の大分類での分類性能を上げることが予想される詳細認識用テンプレートを求め、求めた詳細認識用テンプレートを大分類・詳細認識共用テンプレートに変更する(詳細フローは図9参照)。これにより、当該認識対象文字の詳細認識用テンプレートは大分類で使用可能となる。
【0032】
なお、上記図2のテンプレートの構造例では大分類所属1位番号を格納する大分類所属1位番号欄24及び大分類所属2位番号を格納する大分類所属2位番号欄25を設けたがこれに限定されず、例えば、大分類所属1位番号を格納する大分類所属1位番号欄と大分類所属N+1位番号をそれぞれ格納する大分類所属2位番号欄、大分類所属3位番号欄、・・・、大分類所属N+1位番号欄を設けるようにしてもよい。この場合は上記ステップS5を、「各詳細認識用テンプレート毎にその詳細認識用テンプレートが属していないクラスタのクラスタ代表特徴量と当該詳細認識用テンプレートの特徴量とを比較して距離が最小となる上位N個(Nは任意数)のクラスタを求め、求めたクラスタのクラスタ番号を距離が小さいほうから順に大分類所属2位番号、大分類所属3位番号、・・・、大分類所属N+1位番号として当該詳細認識用テンプレートの大分類所属2位番号欄、大分類所属3位番号欄、・・・、大分類所属N+1位番号欄に格納する。」とする。
【0033】
上記図3に示した文字認識辞書作成方法の手順により、新たな辞書テンプレートを追加することなく、大分類による分類性能及び認識性能の高い文字認識辞書(図5)を作成することができる。
【0034】
図6は図3の文字認識辞書作成手順の具体例を示す図であり、上記図3のステップS1で述べたような方法によりx個の詳細認識用テンプレートが作成され、ステップS2のクラスタリングにより図6(a)に示すように5個のクラスタに分類されているとしたとき未知入力文字△の正解文字をクラスタ5に属するテンプレート番号nの詳細認識用テンプレートの文字コード「問」とすると、ステップS3で図6(b)に示すように認識対象文字「問」が属するクラスタ5のクラスタ番号「5」が、テンプレート番号nの詳細認識用テンプレートの大分類所属1位番号欄24に格納される。次に、ステップS4で各クラスタの代表特徴量が決定され、大分類用テンプレートが作成され、ステップS5でテンプレート番号nの詳細認識用テンプレートの特徴量欄26に格納されている特徴量とテンプレート番号nの詳細認識用テンプレートが属していないクラスタの代表特徴量を比較した結果のうち最も距離が近いクラスタ1のクラスタ番号「1」がテンプレート番号nの詳細認識用テンプレートの大分類所属2位番号欄25に格納される。以下、図9のフローチャートに示す手順で大分類・詳細認識共用テンプレートへの変更検討が行われる。ここで、ステップS6(=図9のフローチャートに示す手順)で、認識対象文字「問」が使用頻度の高く且つ大分類による分類性能が低い認識対象文字であって、テンプレート番号nの詳細認識用テンプレートを大分類に用いることにより認識対象文字「問」の大分類での分類性能を上げると判定された場合は、テンプレート番号nの詳細認識用テンプレートのテンプレートフラグ欄23の値は大分類・詳細認識共用テンプレートを示す値(例えば、「2」)に変更される。つまり、図6(c)に示すようにテンプレート番号nの詳細認識用テンプレートの所属するクラスタ5にクラスタ代表特徴量以外の代表特徴量(◆)が存在することとなる。
【0035】
4.文字認識動作
図7及び図8は本発明の文字認識辞書を用いた文字認識手順を示すフローチャートであり、図7は文字認識装置100の大分類部14による文字認識動作手順(=大分類手順)を示すフローチャート、図8は詳細認識部15による文字認識動作手順(=詳細認識手順)を示すフローチャートである。
【0036】
<大分類手順>
大分類部14は特徴抽出部13で抽出した未知入力文字(文字イメージ)の特徴量を文字認識辞書16の大分類使用可能テンプレート(=図5の大分類用テンプレート161及び大分類・詳細認識共用テンプレート162)の特徴量と比較し、距離(=2つの特徴量の各次元の距離の総和)が最小となる上位M個(Mは任意数)の大分類使用可能テンプレートを求め、求めた大分類使用可能テンプレートの大分類所属1位番号を詳細認識候補クラスタのクラスタ番号とする。
【0037】
ここで、文字認識辞書16に大分類・詳細認識共用テンプレート162が格納されている場合は図5の文字認識辞書16におけるテンプレート番号2番やA番のテンプレートのように大分類使用可能テンプレートに大分類所属1位番号が同じテンプレートが存在するので、前記距離が最小となる上位M個の大分類使用可能テンプレートの中に大分類所属1位番号が同じテンプレートがないようにする必要がある。以下、図1、図5の文字認識辞書及び図7のフローチャートに基いて大分類手順を説明する。
【0038】
図7で、大分類部14はテンプレート番号カウンタTEMPを0(ゼロ)クリアして初期化すると共に、上位M個の距離格納配列(=メモリ上に確保した距離保持用エリア(アレイ))をMAX値で初期化し、上位M個のテンプレート番号格納配列(=メモリ上に確保したテンプレート番号保持用エリア(アレイ))を−1で初期化する(ステップT1)。
【0039】
次に、大分類部14は、文字認識辞書16のテンプレート番号TEMP番のテンプレートを参照してテンプレートフラグ欄23の値を調べ、「1」なら大分類用テンプレートとしてステップT3に遷移し、「2」なら大分類・詳細認識共用テンプレートとして同様にステップT3に遷移し、「3」なら詳細認識用テンプレートとしてステップT6に遷移する(ステップT2)。
【0040】
大分類部14は、特徴抽出部13で抽出した未知入力文字の特徴量とテンプレート番号TEMP番のテンプレートの特徴量との距離を算出し(ステップT3)、求めた距離と上位M個の距離格納配列に保持(記憶)されている距離とを比較し、距離格納配列に保持されているM個の距離のいずれかより小さい場合はステップT5に遷移し、そうでない場合はステップT6に遷移する(ステップT4)。
【0041】
上位M個の距離格納配列に保持されている距離のうち、上記ステップT3で求めた距離より大きい距離をずらして距離格納配列に保持し直し、上記ステップT3で求めた距離を空いた部分に保持する。また、同時に上位M個のテンプレート番号格納配列の対応する順位の配列要素にテンプレート番号(TEMPの値)を保持するために上記ステップT3で求めた距離より大きい距離に対応してテンプレート番号格納配列に記憶されているテンプレート番号をずらしてテンプレート番号格納配列に保持し直し、テンプレート番号(TEMPの値)を空いた部分に保持する。つまり、上記ステップT3で求めた距離は距離格納配列内でシフトされるので距離格納配列に保持されていた最も大きい距離及び対応するテンプレート番号(M+1番の大きさの距離及び対応するテンプレート番号)は上位M個の距離格納配列及びテンプレート番号格納配列には保持されないこととなる(ステップT5)。
【0042】
大分類部14は、文字認識辞書16内に参照されていないテンプレートがある場合はテンプレート番号カウンタTEMPに1を加えてステップT2に戻って次のテンプレートの参照を開始し(ステップT6)、文字認識辞書16内の全てのテンプレートの参照が終了した場合は、上記上位M個のテンプレート番号格納配列に格納されているM個のテンプレート番号のテンプレートの大分類所属1位番号欄24の値、つまり、M個の大分類所属1位番号を詳細認識候補クラスタのクラスタ番号として詳細認識部15に渡す(ステップT7)。
【0043】
上記図7のフローチャートの説明から明らかなように本発明の大分類手順では大分類に大分類用テンプレートに加えて大分類・詳細認識共用テンプレートを用いているので、図11(a)に示したように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)Pがクラスタ境界付近にある場合や、図11(b)に示すように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)P’と該詳細認識用テンプレートが所属しているクラスタの代表特徴量(×印)との距離が詳細認識用テンプレートP’が属していないクラスタの代表特徴量と詳細認識用テンプレートP’の距離よりも遠く離れている場合でも、未知入力文字の認識時に、クラスタ分類(大分類)で該未知入力文字の正解文字コードを持つ詳細認識用テンプレートPが属するクラスタを選択することができる。
【0044】
<詳細認識手順>
詳細認識部15は、文字認識辞書16内の詳細認識使用可能テンプレート(=大分類・詳細認識共用テンプレート及び詳細認識用テンプレート)のなかで、大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号を大分類所属第1位番号欄24又は大分類所属第2位番号欄25のどれかに格納しているテンプレートの特徴量と特徴抽出部13で抽出した未知入力文字の特徴量とを比較し、距離(2つの特徴量の各次元の距離の総和)が最小となる上位L個(Lは任意数)の詳細認識使用可能テンプレートを求め、求めた詳細認識使用可能テンプレートの文字コード欄22に格納されている文字コードを認識候補文字コードとする。
【0045】
なお、実施例ではテンプレートの大分類所属番号格納欄を大分類所属第1位番号欄24、大分類所属第2位番号欄25の2つとしたがこれに限定されない。つまり、大分類所属番号格納欄はn個(n≧1、nは辞書構成により決まる整数値)備えることができる。この場合、大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号を大分類所属第1位番号欄から大分類所属第n位番号欄のどれかに格納しているテンプレートの特徴量と特徴抽出部13で抽出した未知入力文字の特徴量とを比較し、距離(2つの特徴量の各次元の距離の総和)が最小となる上位L個(Lは任意数)の詳細認識使用可能テンプレートを求め、求めた詳細認識使用可能テンプレートの文字コード欄22に格納されている文字コードを認識候補文字コードとするようにする。
【0046】
又、図5に示したように、文字認識辞書16内で各辞書テンプレートを大分類用テンプレート群、大分類・詳細認識共用テンプレート群、詳細認識用テンプレート群の順に格納することにより、大分類及び詳細認識に用いるテンプレートの選択速度が向上する。以下、図1、図5の文字認識辞書及び図8のフローチャートに基いて詳細認識手順を説明する。なお、下記図8のフローチャートでは説明上テンプレートの大分類所属番号格納欄が2個の場合を例とする。
【0047】
図8で、詳細認識部15はテンプレート番号カウンタTEMPを0(ゼロ)クリアして初期化すると共に、上位L個の距離格納配列をMAX値で初期化し、上位L個のテンプレート番号格納配列を−1で初期化する(ステップU1)。
【0048】
次に、詳細認識部15は、文字認識辞書16のテンプレート番号TEMP番のテンプレートを参照してテンプレートフラグ欄23の値を調べ、「2」なら大分類・詳細認識共用テンプレートとしてステップU3に遷移し、「3」なら詳細認識用テンプレートとして同様にステップU3に遷移し、「1」なら大分類用テンプレートとしてステップU8に遷移する(ステップU2)。
【0049】
詳細認識部15は、文字認識辞書16内のテンプレート番号TEMP番のテンプレートの大分類所属1位番号欄24を調べ、格納されている大分類所属1位番号(=所属するクラスタ番号)が大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号のどれかと一致する場合はステップU5に遷移し、そうでない場合はステップU4に遷移する(ステップU3)。
【0050】
詳細認識部15は、文字認識辞書16内のテンプレート番号TEMP番のテンプレートの大分類所属2位番号欄25を調べ、格納されている大分類所属2位番号が大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号のどれかと一致する場合はステップU5に遷移し、そうでない場合はステップU8遷移する(ステップU4)。
【0051】
次に、詳細認識部15は、特徴抽出部13で抽出した未知入力文字の特徴量とテンプレート番号TEMP番のテンプレートの特徴量との距離を算出し(ステップU5)、求めた距離と上位L個の距離格納配列に保持(記憶)されている距離とを比較し、距離格納配列に保持されているL個の距離のいずれかより小さい場合はステップU7に遷移し、そうでない場合はステップU8に遷移する(ステップU6)。
【0052】
上位L個の距離格納配列に保持されている距離のうち、上記ステップU5で求めた距離より大きい距離をずらして距離格納配列に保持し直し、上記ステップU5で求めた距離を空いた部分に保持する。また、同時に上位L個のテンプレート番号格納配列の対応する順位の配列要素にテンプレート番号(=TEMPの値)を保持するために上記ステップU5で求めた距離より大きい距離に対応してテンプレート番号格納配列に記憶されているテンプレート番号をずらしてテンプレート番号格納配列に保持し直し、テンプレート番号(TEMPの値)を空いた部分に保持する。つまり、上記ステップU5で求めた距離は距離格納配列内でシフトされるので距離格納配列に保持されていた最も大きい距離及び対応するテンプレート番号(L+1番の大きさの距離及び対応するテンプレート番号)は上位L個の距離格納配列及びテンプレート番号格納配列には保持されないこととなる(ステップU7)。
【0053】
詳細認識部15は、文字認識辞書16内に参照されていないテンプレートがある場合はテンプレート番号カウンタTEMPに1を加えてステップU2に戻って次のテンプレートの参照を開始し(ステップU8)、文字認識辞書16内の全てのテンプレートの参照が終了した場合は、上記上位L個のテンプレート番号格納配列に格納されているL個のテンプレート番号のテンプレートの文字コード欄22に格納されている文字コードを未知入力文字の認識候補文字とする(ステップU9)。
【0054】
なお、テンプレートの大分類所属番号格納欄がn個の場合は、上記図8のステップU4で、「詳細認識部15は、文字認識辞書16内のテンプレート番号TEMP番のテンプレートの大分類所属2位番号欄を調べ、格納されている大分類所属2位番号が大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号のどれかと一致する場合はステップU5に遷移し、そうでない場合はステップU4−2に遷移する(ステップU4−1)。」とし、以下、「詳細認識部15は、文字認識辞書16内のテンプレート番号TEMP番のテンプレートの大分類所属3位番号欄を調べ、格納されている大分類所属3位番号が大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号のどれかと一致する場合はステップU5に遷移し、そうでない場合はステップU4−3に遷移する(ステップU4−2)。」・・・「詳細認識部15は、文字認識辞書16内のテンプレート番号TEMP番のテンプレートの大分類所属n位番号欄を調べ、格納されている大分類所属n位番号が大分類部14から受け取ったM個の詳細認識候補クラスタのクラスタ番号のどれかと一致する場合はステップU5に遷移し、そうでない場合はステップU8に遷移する(ステップU4−(nー1))。」とするようにすればよい。
【0055】
上記図8のフローチャートの説明から明らかなように、本発明の詳細認識手順では詳細認識使用可能テンプレートの大分類所属1位番号から大分類所属n位番号までと大分類手順で取得した詳細認識候補クラスタとを用いているので、図11(a)に示したように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)Pがクラスタ境界付近にある場合や、図11(b)に示すように未知入力文字の正解文字コードを格納する詳細認識用テンプレート(●印)P’と該詳細認識用テンプレートが所属しているクラスタの代表特徴量(×印)との距離が詳細認識用テンプレートP’が属していないクラスタの代表特徴量と詳細認識用テンプレートP’の距離よりも遠く離れている場合でも正解文字コードを出力することができる。
【0056】
また、大分類手順、詳細認識手順で用いる大分類・詳細認識共用テンプレートは文字認識辞書内の詳細認識用テンプレートを一定の条件下で大分類・詳細認識共用テンプレートとしただけなので、新たなテンプレートを追加する必要がなく、認識精度を上げるために文字認識辞書を拡大する必要がない。
【0057】
5.大分類・詳細認識共用テンプレートへの変更検討手順
図9は大分類・詳細認識共用テンプレートへの変更検討手順(=図3のステップS6)を示すフローチャートである。
【0058】
図9で、先ず、現段階の文字認識辞書を用いて全認識評価用イメージに対して詳細認識使用可能テンプレート(=大分類・詳細認識共用テンプレート及び詳細認識用テンプレート)の総当り文字認識と大分類、詳細認識の順の2段階文字認識を行う(ステップS6−1)。
【0059】
次に、上記ステップS6−1で得た詳細認識使用可能テンプレートの総当り文字認識の結果と大分類、詳細認識の順の2段階文字認識の結果を基に、詳細認識用テンプレートの大分類・詳細認識共用テンプレートへの変更検討を行う。変更検討の方法としては、例えば、使用頻度の高い認識対象文字の大分類、詳細認識の順の2段階文字認識での認識性能と、詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識評価用イメージ数の割合が高い認識対象文字(=大分類による分類性能が低い認識対象文字)の認識性能と、認識速度との兼ね合いから判断する。変更検討の結果、変更する場合はステップS6−3に遷移し、変更しない場合は変更検討処理を終了する(ステップS6−2)。
【0060】
上記ステップ6−1で得た詳細認識使用可能テンプレートの総当り文字認識の結果と大分類、詳細認識の順の2段階文字認識の結果を基に、大分類・詳細認識共用テンプレートへの変更候補文字リストを作成する。大分類・詳細認識共用テンプレートへの変更候補文字リストに記憶する認識対象文字の条件は大分類による分類が失敗して認識性能が低下していることであり、変更候補文字リストには、例えば、詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識評価用イメージ数の割合が高い認識対象文字や、使用頻度の高い認識対象文字のうちで詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識評価用イメージ数が0でない認識対象文字等を記憶する(ステップS6−3)。
【0061】
次に、上記ステップS6−3で作成した大分類・詳細認識共用テンプレートへの変更候補文字リストから変更対象カテゴリを1つ取り出し(ステップS6−4)、現段階の文字認識辞書を用いて変更対象カテゴリの全認識評価用イメージに対して大分類、詳細認識の順の2段階文字認識を行う(ステップS6−5)。
【0062】
上記ステップ6−1で得た詳細認識使用可能テンプレートの総当り文字認識の結果と上記ステップS6−5での変更対象カテゴリの大分類、詳細認識の順の2段階文字認識での認識結果から変更対象カテゴリの大分類、詳細認識の順の2段階文字認識での認識性能が所定値に達しているか否かを判定し、所定値に達している場合はステップS6−11に遷移し、達していない場合はS6−7に遷移する(ステップS6−6)。
【0063】
詳細認識用テンプレートを大分類・詳細認識共用テンプレートに変更することが目的であるため、先ず、現段階の文字認識辞書に変更対象カテゴリの詳細認識用テンプレートが存在するかどうか確認し、存在する場合はステップS6−8に遷移し、存在しない場合はステップS6−11に遷移する(ステップS6−7)。
【0064】
現段階の文字認識辞書を用いて変更対象カテゴリの全認識評価用イメージに対して詳細認識使用可能テンプレートの総当り文字認識と大分類、詳細認識の順の2段階文字認識を行い、詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識評価用イメージが存在した場合に、詳細認識使用可能テンプレートの総当り文字認識で当該認識評価用イメージを認識できた詳細認識使用可能テンプレートを詳細認識使用可能テンプレート毎にカウントし、カウント数が一番多い詳細認識用テンプレートを大分類・詳細認識共用テンプレートへの変更詳細認識用テンプレートとする(ステップS6−8)。
【0065】
上記ステップS6−8で取得した変更詳細認識用テンプレートのテンプレートフラグ欄23に格納されているテンプレートフラグの値を詳細認識用テンプレートを意味する値(例えば「3」)から大分類・詳細認識共用テンプレートを意味する値(例えば「2」)に変更し、該変更詳細認識用テンプレートを大分類・詳細認識共用テンプレートに変更する(これにより、文字認識辞書が更新される)(ステップS6−9)。
【0066】
次に、上記ステップS6−9で更新した現段階の文字認識辞書を図5に示すように大分類用テンプレート、大分類・詳細認識共用テンプレート、詳細認識用テンプレートの順に並び替えて(これにより、文字認識辞書が更新される)、ステップS6−5に遷移する。このようにすることにより、大分類及び詳細認識に用いるテンプレートの選択速度が向上する(ステップS6−10)。
【0067】
変更候補文字リスト内の全てのカテゴリに対して変更検討が終了したかどうかを調べ、終了した場合はステップS6−1に戻り、終了していない場合はステップS6−4に戻る(ステップS6−11)。
【0068】
なお、上記ステップS6−2で、使用頻度の高い文字は文字認識装置を使用する目的毎に異なるので、事前に使用頻度の高い文字を調査しておくことが望ましい。また、文字認識装置の運用時に使用頻度をカウントするようにしてもよい。
【0069】
以上説明したように、上記図9のフローチャートに示した大分類・詳細認識共用テンプレートへの変更検討手順により、詳細認識用テンプレートを大分類・詳細認識共用テンプレートに変更するとその大分類・詳細認識共用テンプレートの大分類での分類性能が上がるだけでなく、その大分類・詳細認識共用テンプレートが属するクラスタ内でその大分類・詳細認識共用テンプレートと特徴量が近い他の詳細認識用テンプレートについても大分類時にその大分類・詳細認識共用テンプレートが用いられることにより分類性能が向上する。ここで、上記ステップS6−6で変更対象カテゴリ取得後に変更対象カテゴリの認識性能が所定値に達したか否かを判定するのは、このような大分類・詳細認識共用テンプレートへの変更による効果への期待に基く。
【0070】
また、詳細認識用テンプレートを大分類・詳細認識共用テンプレートに変更したときに、当該大分類・詳細認識共用テンプレートの属するクラスタ以外のクラスタに属する全詳細認識使用可能テンプレートに対して大分類所属第2位番号以下の再計算を当該詳細認識使用可能テンプレートの属するクラスタ以外のクラスタに属する大分類使用可能テンプレートと行うことで、当該大分類・詳細認識共用テンプレートの属するクラスタ以外のクラスタに属する他の詳細認識用テンプレートで大分類所属第2位番号以下が再計算により当該大分類・詳細認識共用テンプレートの所属するクラスタのクラスタ番号に変更となった詳細認識用テンプレートについても分類性能が向上する。
【0071】
なお、本発明の文字認識辞書、文字認識辞書作成方法及び文字認識方法は大分類、詳細認識の順に2段階で文字を認識する文字認識方法だけでなく、多段階で文字を認識する文字認識方法にも適用が可能である。
【0072】
以上、本発明の一実施例について説明したが本発明は上記実施例に限定されるものではなく、種々の変形実施が可能であることはいうまでもない。
【0073】
【発明の効果】
上記説明したように、請求項1に係る文字認識辞書作成方法によれば、大分類用テンプレートと詳細認識用テンプレートを同一サイズ、同一構造として構成しているので、種類判別情報(テンプレートフラグ欄の値)を変更することにより、新たな辞書テンプレートを追加することなく大分類用テンプレート、詳細認識用テンプレート及び大分類・詳細認識共用テンプレートを作成し、文字認識用辞書として用いることができる。
また、請求項2に係る文字認識辞書作成方法によれば、大分類手順、詳細認識手順で用いる大分類・詳細認識共用テンプレートは文字認識辞書内の詳細認識用テンプレートを一定の条件下で大分類・詳細認識共用テンプレートに変更するので、新たなテンプレートの追加がなく、認識精度を上げるために文字認識辞書を拡大する必要がない。
【0074】
また、請求項3に係る文字認識辞書作成方法によれば、更新した現段階の文字認識辞書を大分類用テンプレート、大分類・詳細認識共用テンプレート、詳細認識用テンプレートの順に並び替えるので、大分類及び詳細認識に用いるテンプレートの選択速度が向上する。
【0075】
また、本発明の文字認識方法によれば、詳細認識使用可能テンプレートの大分類所属1位番号から大分類所属n位番号までと大分類手順で取得した詳細認識候補クラスタとを用いているので、未知入力文字の正解文字コードを格納する詳細認識用テンプレートがクラスタ境界付近にある場合や、未知入力文字の正解文字コードを格納する詳細認識用テンプレートと該詳細認識用テンプレートが所属しているクラスタの代表特徴量との距離が当該詳細認識用テンプレートが属していないクラスタの代表特徴量と当該詳細認識用テンプレートの距離よりも遠く離れている場合でも正解文字コードを出力することができる。
【図面の簡単な説明】
【図1】本発明の文字認識方法を適用可能な文字認識装置の構成例を示すブロック図である。
【図2】本発明の文字認識辞書を構成するテンプレートの一実施例を示す図である。
【図3】本発明に基く文字認識辞書作成方法の手順を示すフローチャートである。
【図4】詳細認識用テンプレート作成の説明図である。
【図5】大分類用テンプレート、大分類・詳細認識共用テンプレート及び詳細認識用テンプレートを順にまとめた文字認識辞書の一例を示す図である。
【図6】図3の文字認識辞書作成手順の具体例を示す図である。
【図7】文字認識装置の大分類手順を示すフローチャートである。
【図8】文字認識装置の詳細認識手順を示すフローチャートである。
【図9】大分類・詳細認識共用テンプレートへの変更検討手順を示すフローチャートである。
【図10】従来の文字認識技術の説明図である。
【図11】従来の文字認識技術の問題点の説明図である。
【符号の説明】
1、2、・・・、5 クラスタ
10 制御部
11 読み取り部
12 文字切り出し部
13 特徴抽出部
14 大分類部
15 詳細認識部
16 文字認識辞書
17 表示部
20 詳細認識用テンプレート
20’ 大分類用テンプレート
21 テンプレート番号欄
22 文字コード欄
23 テンプレートフラグ欄
24 大分類所属1位番号欄
25 大分類所属2位番号欄
26 特徴量欄
100 文字認識装置
161 大分類用テンプレート
162 大分類・詳細認識共用テンプレート
163 詳細認識用テンプレート

Claims (4)

  1. 大分類、詳細認識の順に行う多段階文字認識に用いる文字認識辞書の作成方法であって、認識対象文字毎に詳細認識用テンプレートを作成する工程と、
    前記作成した詳細認識用テンプレートをクラスタリングする工程と、
    前記クラスタリングされた詳細認識用テンプレート毎に当該詳細認識用テンプレートが属するクラスタのクラスタ識別情報を当該詳細認識用テンプレートの所属クラスタ情報とする工程と、
    前記クラスタリングにより取得されたクラスタ毎に当該クラスタの代表特徴量を決定する工程と、
    前記決定されたクラスタの代表特徴量を有し、詳細認識用テンプレートと同一構造、同一サイズであって隣接クラスタ情報を有さない大分類用テンプレートを作成する工程と、
    前記詳細認識用テンプレート毎に当該詳細認識用テンプレートが所属していないクラスタの代表特徴量のうち距離が最小となる上位N個のクラスタのクラスタ識別情報を当該詳細認識用テンプレートの隣接クラスタ情報とする工程と、
    を含むことを特徴とする文字認識辞書作成方法。
  2. 更に、使用頻度の高い認識対象文字であって大分類による分類性能が低い認識対象文字のうち認識性能が所定値以下のそれぞれの認識対象文字について、現段階の文字認識辞書に該認識対象文字の詳細認識用テンプレートが存在するか否かを判定する工程と、
    現段階の文字認識辞書に該認識対象文字の詳細認識用テンプレートが存在する場合は、現段階の文字認識辞書を用いて該認識対象文字の文字イメージに対して大分類・詳細認識共用テンプレートおよび詳細認識用テンプレートからなる詳細認識使用可能テンプレートによる総当り文字認識と大分類、詳細認識の順の2段階文字認識を行う工程と、
    前記総当り文字認識と大分類、詳細認識の順の2段階文字認識を行う工程において、詳細認識使用可能テンプレートの総当り文字認識では認識できるが、大分類、詳細認識の順の2段階文字認識では認識できない認識対象文字イメージが存在した場合に、該認識対象文字イメージに対して、詳細認識使用可能テンプレートの総当り文字認識での認識数の最も多い詳細認識用テンプレートを変更詳細認識用テンプレートとする工程と、
    前記変更詳細認識用テンプレートの種類判別情報を変更して大分類・詳細認識共用テンプレートとして前記文字認識辞書を更新する工程と、
    を含むことを特徴とする請求項1に記載の文字認識辞書作成方法。
  3. 更に、前記更新する工程によって更新された文字認識辞書に格納されている各テンプレートを大分類用テンプレート、大分類・詳細認識共用テンプレート、詳細認識用テンプレートの順に並び替える工程、
    を備えたことを特徴とする請求項2に記載の文字認識辞書作成方法。
  4. テンプレートの種類を判別する種類判別情報と、テンプレートのクラスタ識別情報からなる所属クラスタ情報と前記種類判別情報が詳細認識用テンプレートを意味しているテンプレート毎に取得した当該テンプレートが所属していないクラスタの代表特徴量のうち距離が最小のクラスタのクラスタ識別情報からなる隣接クラスタ情報とを含む詳細認識用テンプレートと、詳細認識用テンプレートと同一構造、同一サイズであって、隣接クラスタ情報を含まない大分類用テンプレートを格納してなる文字認識辞書を用いて大分類、詳細認識の順に行う多段階文字認識方法であって、
    未知入力文字の特徴量を抽出する工程と、
    前記未知入力文字の特徴量と詳細認識用テンプレートのうち大分類用にも使用可能なテンプレートとして種類判別情報が変更されている大分類・詳細認識共用テンプレートおよび大分類用テンプレートとの特徴量とを比較する工程と、
    前記比較結果に基いて未知入力文字の特徴量との距離が最小となる上位M個のクラスタを詳細認識候補クラスタとして取得する工程と、
    大分類・詳細認識共用テンプレートおよび詳細認識用テンプレートからなる詳細認識使用可能テンプレートのうちで、前記工程で取得したM個の詳細認識候補クラスタのクラスタ識別情報を所属クラスタ情報又は隣接クラスタ情報として有する詳細認識使用可能テンプレートの特徴量と前記未知入力文字の特徴量との比較を行う工程と、
    前記比較結果に基いて前記未知入力文字の特徴量との距離が最小となる上位L個の詳細認識使用可能テンプレートを取得する工程と、
    前記L個の詳細認識使用可能テンプレートが有する文字コードを認識結果として出力する工程と、
    を備えたことを特徴とする文字認識方法。
JP2002097237A 2002-03-29 2002-03-29 文字認識辞書作成方法及び文字認識方法 Expired - Lifetime JP4199954B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002097237A JP4199954B2 (ja) 2002-03-29 2002-03-29 文字認識辞書作成方法及び文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002097237A JP4199954B2 (ja) 2002-03-29 2002-03-29 文字認識辞書作成方法及び文字認識方法

Publications (2)

Publication Number Publication Date
JP2003296663A JP2003296663A (ja) 2003-10-17
JP4199954B2 true JP4199954B2 (ja) 2008-12-24

Family

ID=29387649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002097237A Expired - Lifetime JP4199954B2 (ja) 2002-03-29 2002-03-29 文字認識辞書作成方法及び文字認識方法

Country Status (1)

Country Link
JP (1) JP4199954B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5521497B2 (ja) * 2009-11-05 2014-06-11 富士通株式会社 パターン認識装置、パターン認識プログラム、パターン認識方法

Also Published As

Publication number Publication date
JP2003296663A (ja) 2003-10-17

Similar Documents

Publication Publication Date Title
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
US4903312A (en) Character recognition with variable subdivisions of a character region
US8295600B2 (en) Image document processing device, image document processing method, program, and storage medium
Denker et al. Neural network recognizer for hand-written zip code digits
US7254269B2 (en) Character recognition system
JP4172584B2 (ja) 文字認識結果出力装置、文字認識装置、その方法及びプログラム
US6847734B2 (en) Word recognition method and storage medium that stores word recognition program
US20050036712A1 (en) Image retrieving apparatus and image retrieving program
CN111144399B (zh) 处理图像的装置和方法
US20160247019A1 (en) Methods and systems for efficient automated symbol recognition using decision forests
CN100501764C (zh) 字符识别系统及方法
JPH11203415A (ja) 類似パターンカテゴリ識別辞書作成装置および方法
JP5377148B2 (ja) クラスタリング処理方法、クラスタリング処理装置、およびプログラム
US20090190841A1 (en) Word recognition method and storage medium that stores word recognition program
JP4199954B2 (ja) 文字認識辞書作成方法及び文字認識方法
JP2986074B2 (ja) 近傍点検出方法及びパターン認識装置
RU2582064C1 (ru) Способы и системы эффективного автоматического распознавания символов с использованием леса решений
JP2803709B2 (ja) 文字認識装置及び文字認識方法
JP2019096118A (ja) パターン認識プログラム、装置、及び方法
JP2005182201A (ja) 画像の対応点探索方法、対応点探索装置および対応点探索プログラム
JP2766205B2 (ja) 文字認識装置
JPH06215197A (ja) 文字認識方法および装置
KR102007791B1 (ko) 단계별 윤곽선 특성 분석을 이용한 숫자 인식 방법 및 장치
JP3442223B2 (ja) 文字認識方法
JP3898936B2 (ja) 対応点探索装置、対応点探索処理方法および対応点探索処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040608

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081006

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4199954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141010

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term