JP4413904B2 - パターン認識装置、パターン認識方法およびパターン認識プログラム - Google Patents

パターン認識装置、パターン認識方法およびパターン認識プログラム Download PDF

Info

Publication number
JP4413904B2
JP4413904B2 JP2006253923A JP2006253923A JP4413904B2 JP 4413904 B2 JP4413904 B2 JP 4413904B2 JP 2006253923 A JP2006253923 A JP 2006253923A JP 2006253923 A JP2006253923 A JP 2006253923A JP 4413904 B2 JP4413904 B2 JP 4413904B2
Authority
JP
Japan
Prior art keywords
character
unit
dictionary
recognition
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006253923A
Other languages
English (en)
Other versions
JP2008077277A (ja
Inventor
由明 黒沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2006253923A priority Critical patent/JP4413904B2/ja
Publication of JP2008077277A publication Critical patent/JP2008077277A/ja
Application granted granted Critical
Publication of JP4413904B2 publication Critical patent/JP4413904B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本発明は、例えば文字画像などのパターン画像を文字に変換するためのパターン認識を行うパターン認識装置、パターン認識方法およびパターン認識プログラムに関するものである。
従来のパターン認識技術の一つに、予め類似文字をグループ分けし、それぞれのグループ毎に類似文字テーブルを設け、類似文字テーブルに存在する各文字毎の標準的な特徴と認識対象の文字の特徴との相違度を求めて、相違度の最も小さい文字を第1位の文字候補とする技術が提案されている(例えば特許文献1参照)。
特開平08−272909号公報
ところで、認識対象の文字の特徴部分は、文字全体の中の一部であり、小さいことが多く、従来のパターン認識技術により、認識対象の文字の特徴部分を抽出したときに、特徴部分が判別しにくい状況がある。
この場合、抽出した特徴部分と標準的な特徴とを比較しても得られた第1位の文字候補が必ずしも認識元の文字に一致または類似しているとは限らないという問題があった。
本発明はこのような課題を解決するためになされたもので、類似する文字の判別精度を向上することで、文字認識率を向上することのできるパターン認識装置、パターン認識方法およびパターン認識プログラムを提供することを目的とする。
上記の課題を解決するために本発明のパターン認識装置は、文字画像の入力を受け付ける受付部と、辞書データとこの辞書データに対応する文字コードとを含む文字認識用の第1辞書と辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された第2辞書とを記憶した辞書記憶部と、前記受付部により受け付けられた文字画像について前記辞書記憶部に記憶された第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力する第1文字認識部と、前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が、文字コード毎にグループ分けして設定された区分情報記憶部と、前記第1文字認識部から出力された文字コードに従って、前記区分情報記憶部の類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分する区分部と、前記区分部により疎および密の小領域に区分された文字画像を、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成する画像変換部と、前記画像変換部により変換された類似文字判別用の文字画像について前記辞書記憶部に記憶された該当グループの第2辞書を用いて文字認識する第2文字認識部とを備えることを特徴とする。
本発明のパターン認識プログラムは、コンピュータに入力された文字画像のパターン認識処理を実行させるパターン認識プログラムにおいて、前記コンピュータを、前記文字画像の入力を受け付ける受付部と、辞書データとこの辞書データに対応する文字コードとを含む文字認識用の第1辞書と辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された第2辞書とを記憶した辞書記憶部と、前記受付部により受け付けられた文字画像について前記辞書記憶部に記憶された第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力する第1文字認識部と、前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が、文字コード毎にグループ分けして設定された区分情報記憶部と、前記第1文字認識部から出力された文字コードに従って、前記区分情報記憶部の類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分する区分部と、前記区分部により疎および密の小領域に区分された文字画像を、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成する画像変換部と、前記画像変換部により変換された類似文字判別用の文字画像について前記辞書記憶部に記憶された該当グループの第2辞書を用いて文字認識する第2文字認識部として機能させることを特徴とする。
本発明のパターン認識方法は、文字画像の入力を受付部が受け付けるステップと、前記受付部により受け付けられた文字画像について、第1文字認識部が、辞書データと文字コードとを含む第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力するステップと、前記第1文字認識部から出力された文字コードに従って、区分部が、前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が文字コード毎にグループ分けして設定された区分情報記憶部から、類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分するステップと、前記区分部により疎および密の小領域に区分された文字画像を、画像変換部が、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成するステップと、前記画像変換部により変換された類似文字判別用の文字画像について、第2文字認識部が、辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された中の該当グループの第2辞書を用いて文字認識するステップとを有することを特徴とする。
本発明によれば、類似する文字の判別精度を向上することで、文字認識率を向上することができる。
(第1の実施形態)
図1は本発明の第1の実施形態にかかるパターン認識装置の構成を示すブロック図である。同図に示すように、本実施形態のパターン認識装置100は、受付部1、第1文字認識部としての一次認識部110および第1文字認識部としての二次認識部120、および認識結果記憶部3を備えている。
受付部1は、例えばスキャナ、外部通信インターフェース装置などであり、入力された文字画像データ(以下「入力パターン」と称す)を受け付ける。
一次認識部110は、特徴抽出部111とパターン識別部112と辞書記憶部113等を有している。特徴抽出部111は、入力パターンの特徴を濃度パターン法、加重方向ヒストグラム法などの公知の方法で抽出して特徴ベクトルを生成する。
辞書記憶部113には、標準的な文字画像に対応する辞書データとこの辞書データに対応する文字コードとを含む文字認識用の辞書(この辞書を「第1辞書」という。)が記憶されている。
パターン識別部112は、特徴抽出部111より入力された特徴ベクトルと、辞書記憶部113に記憶された検出対象文字種の標準の辞書データである特徴ベクトルとを照合して類似度の高い1以上の文字の候補を判定して、その判定結果(文字候補の文字コードと認識対象の入力パターン)を一次認識部110の出力として二次認識部120へ与える。
二次認識部120は、文字グループ対応テーブル125aと、特徴抽出部121と、最終判定部127とを有している。
図2は文字グループ対応テーブル125aを図示したものである。文字グループ対応テーブル125aには、文字グループに対応する区分情報としてのパターン変換パラメータ、辞書記憶部123の辞書へのポインタが格納されている。
図2に示すように、文字グループ対応テーブル125aは、類似文字のペアのコード対(文字コードr1、文字コードr2)とポインタ(ポインタr)をテーブルの1セットとして有している。この文字グループ対応テーブル125aでは、ポインタrの指し示す先にパターン変換パラメータr、パターン辞書rが格納されている。
この例では、ポインタとしているが、ここにパターン変換パラメータや辞書の実体を置いても良い。
例えば、パターン変換パラメータは、図2のtx0〜txm、ty0〜tymのテーブルのような形式で、パラメータのセットとして格納されている。
図2の文字グループ対応テーブル125aは、文字グループ(1〜N)と類似文字識別部(区分情報として用いるパターン変換パラメータ(1〜N)とパターン辞書(1〜N))との対応を知るためのテーブルである。
文字グループ対応テーブル125aによって、1位、2位の文字コードと同じ文字コードr1,r2が登録されているグループを見つけ、そのポインタrが指し示すパターン変換パラメータrとパターン辞書rによって、類似文字識別を行なえる。この文字グループ対応テーブル125aの例は、2文字の例であるが、3文字以上にするなど、文字数の可変に対応可能である。
特徴抽出部121は、類似文字識別部124−x(類似文字識別部124−1,類似文字識別部124−1,・・・類似文字識別部124−N)と、切り替え部125と、特徴ベクトル生成部126とを有している。最終判定部127は、パターン識別部122と、辞書記憶部123とを有している。
類似文字識別部124−xは、類似する文字のグループ毎に複数設けられている。複数の類似文字識別部124−xでは、切り替え部125によって選択された一つの類似文字識別部(類似文字識別部124−0〜類似文字識別部124−Nのいずれか)が、受付部1により受け付けられた入力パターンを、予め設定された区分情報に従って区分し画像変換を行う。
例えば類似文字識別部124−1が「ぼ」の文字のグループの類似文字識別部であった場合、入力パターンの画像変換は、次のようにして行われる。
図3は「ぼ」が描かれた入力パターンの一例を示す図、図4は図3の入力パターンを所定のルールで、密な小領域Apと、それ以外の疎な小領域Aq,Ar,Asとに分割した様子を示す図である。
辞書記憶部123には、標準的な文字画像に対応する辞書データとこの辞書データに対応する文字コードとを含む類似文字認識用の辞書(第2辞書)が、類似する文字のグループ毎に分けて記憶されており、パターン識別部122は、一次認識された認識結果の候補の文字コードが、辞書記憶部123に記憶されている中の「ぼ」の文字のグループに属する場合、その「ぼ」の文字のグループの辞書を利用して文字認識する。類似文字認識用に類似する文字グループ毎に分けられている辞書を「第2辞書」という。なお、辞書記憶部113と辞書記憶部123は、一つの辞書記憶部として構成されていてもよい。
「ぼ」という文字を含む類似文字のグループには、「ぼ」の他に「ほ」「ぽ」「は」「ば」「ぱ」などが属している。これらの類似文字は、図3に示すように、文字全体の領域のうち右上の部分Sが、文字の識別にとって重要な部分、つまり類似パターン認識のために有効なエリアである。
そこで、「ぼ」という文字を含む類似文字のグループに対応する類似文字識別部124−1は、右上部分の小領域Apについて比較的に密になるよう小さいエリア(例えば4×4画素等)に区分し、その他の部分領域については、比較的に疎になるよう区分する。
なお、小領域Apの画素は最小単位、つまり1×1画素等でもよい。またこのサイズは整数値になっていなくても良く、1以下でも良い。
この例では、その他の部分領域のうち、小領域Aqは、小領域Apの縦横方向に3倍の領域の12×12画素等に区分され、小領域Arは、小領域Apの横方向に3倍の12×4画素に区分れ、小領域Asは、小領域Apの縦方向に3倍の4×12画素等に区分される。
一つの類似文字識別部124−1は、区分情報記憶部200、区分部201、画像変換部202を有している。
区分情報記憶部200には、入力パターンを上記のような小領域Ap〜Asに区分するための区分情報がパラメータ、ルール、関数(図7参照)などで設定されている。
区分部201は、区分情報記憶部200から読み出した区分情報に従って入力パターンを疎および密の小領域Ar〜Asに区分する。
画像変換部202は、区分部201により疎および密の小領域Ap〜Asに区分された入力パターンを、各小領域が等しい幅になるように画像変換することで、類似文字判別用に文字の形を変形させた文字画像データ(以下「文字パターン」と称す)を生成する。
類似文字識別部124−xでは、類似文字判別用の文字パターンについて、例えば濃度パターン法などによって特徴量を求める。ただし、この方法に限らず、加重方向ヒストグラム法など、他の公知の方法を用いてもよい。
また、「ぼ」のグループ以外の類似文字のグループ、例えば「大」、「太」などの文字を含む類似文字のグループについては、これらの類似文字の下部が認識にとって重要な部分となる。このため、
類似文字識別部124−xには、「ぼ」という文字を含む類似文字のグループに対して設けられた類似文字識別部124−1とは別の類似文字識別部(類似文字識別部124−2等)が用意されている。すなわち、この類似文字識別部124−2に設定された小領域は下部においては密に区分され、その他の小領域については疎に区分される。このように類似文字識別部124−xは、類似文字の判別にとって重要な部分が異なる類似文字のグループ毎に設けられている。
切り替え部125は、一次認識部110の認識結果を基に、類似文字識別が必要な場合には、少なくとも一つの類似文字識別部124−xを選択し、入力パターンを与える。
つまり、切り替え部125は、一次認識部110の認識結果である文字コードの候補の属する類似文字のグループを判定して、そのグループに対応する類似文字識別部124−xを選択し、その類似文字識別部124−xへ入力パターンを与える。
このためにパターン認識装置100は、文字とグループと類似文字識別部124−xとの対応を知るための文字グループ対応テーブル125a(図2参照)を保持している必要がある。切り替え部125は、この文字グループ対応テーブル125aを参照して文字候補の属するグループを特定し、さらにこのグループに対応する類似文字識別部124−xを選出し、類似識別のための計算を実行させる。
さらに具体的には、例えば、一次認識部110の認識結果として「ぼ」と「ぽ」という2つの文字候補が得られた場合に、切り替え部125は、これらの文字を含む類似文字のグループを判定して、そのグループに対応する類似文字識別部124−x、つまり入力パターン全体(画像全体)の領域のうち、右上部分に部分領域が密に分割された類似文字識別部124−xを選択し、その類似文字識別部124−xへ入力パターンを与える。
特徴ベクトル生成部126は、切り替え部125により選択された類似文字識別部124−xによって変換された文字パターンの特徴量を表す特徴ベクトルを生成して、これを特徴抽出部121の出力として最終判定部127へ与える。
最終判定部127では、パターン識別部122が、特徴抽出部121からの出力である特徴ベクトルと、文字グループ対応テーブル125aのポインタによって求められる辞書記憶部123に記憶された中の該当類似文字グループの辞書であるところの特徴ベクトルとを照合して文字認識を行い、一次認識で得られた文字コードの候補の中から類似度の最も高い文字コードを最終的な認識結果として認識結果記憶部3へ出力する。
認識結果記憶部3は、不揮発性のメモリまたはハードディスク装置等により実現される。認識結果記憶部3には、二次認識部120の最終判定部127により最終的に判定されたパターン認識結果の文字コードと、認識元の画像データである入力パターンとが対応して記憶される。
なお、一次認識の結果が「ぽ」のグループとは異なるグループの文字コード、例えば「大」などの文字候補が得られた場合は、辞書記憶部123に「大」の文字のグループとして記憶されている類似文字認識用の辞書を利用して文字認識が行われる。
この例では、辞書記憶部123とパターン識別部122を1つ設定するようにしているが、辞書記憶部123の辞書とパターン識別部122を類似文字識別部124−xに対応させて複数設定するようにし、切り替え部125の選択に応じた辞書記憶部123とパターン識別部122とを用いて、変換された文字パターンの識別を行うように構成しても良い。
すなわち、このパターン認識装置は、入力パターンの入力を受け付ける受付部1と、文字画像に対応する辞書データとこの辞書データに対応する文字コードとを含む文字認識用の第1辞書を記憶した辞書記憶部113と、辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に分けて設定された第2辞書を記憶した辞書記憶部123と、受付部1により受け付けられた入力パターンについて辞書記憶部113に記憶された第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力する第1文字認識部としての一次認識部110と、入力パターンの領域のうち類似文字の判別に有効な第1領域Apを密に、これ以外の第2領域Aq,Ar,Asを疎に区分するための区分情報(領域を区分するためのパラメータ、関数またはルール)が、文字コード毎にグループ分けして設定された区分情報記憶部200と、一次認識部110から入力された文字コードの候補に従って、類似文字を識別する複数の類似文字識別部124−xの中の一つを選択する切り替え部125と、選択された類似文字識別部124−1の、区分情報記憶部200の類似文字のグループの区分情報を読み出して、入力パターンを疎および密の小領域Ap〜Asに区分する区分部201と、区分部201により疎および密の小領域Ap〜Asに区分された入力パターンを、各小領域が均等な幅になるように画像変換することで、類似文字判別用の文字パターンを生成する画像変換部202と、画像変換部202により変換された類似文字判別用の文字パターンについて、辞書記憶部123の該当グループの第2辞書を用いて文字認識し、一次認識部110から入力された文字コードの候補についての最終判定(どれが正しいかの判定)を行う最終判定部127とを備える。
次に、図4乃至図6を参照してこの第1実施形態のパターン認識装置100の動作を説明する。
このパターン認識装置100では、対象文字の文字画像である入力パターンが受付部1によって受け付けられると(図4のステップ101)、その入力パターンが一次認識部110へ入力される。なお以降の説明ではステップを「S」と称す。
一次認識部110は、特徴抽出部111にて入力パターンから特徴を抽出して特徴ベクトルを生成してパターン識別部112へ与える。
パターン識別部112は、入力された特徴ベクトルと、辞書記憶部113に格納された標準の文字の特徴ベクトルとを照合して、類似度の高い1以上の文字コードを一次認識結果、つまり認識結果となり得る文字コードの候補として二次認識部120へ出力する(S102)。
二次認識部120は、一次認識部110より入力された文字コードの候補を特徴抽出部121の切り替え部125に入力する。
切り替え部125は、入力された文字コードが、類似文字識別部124−xの中のどの類似文字識別部124−1〜124−Nに属するかを判定し、文字コードが属する類似文字グループの類似文字識別部、例えば文字コードの候補が「ぽ」の場合は、認識対象の入力パターンを類似文字識別部124−1へ与える。
このとき、一次認識部110より得られた文字コードの候補が複数存在し、それぞれの文字コードの候補が属するグループが異なる場合には、それぞれのグループに対応する別々の類似文字識別部124−0〜類似文字識別部124−Nへ認識対象の入力パターンをそれぞれ入力する。
「ぽ」のグループの類似文字識別部124−1では、区分部201が、区分情報記憶部200の類似文字のグループの区分情報を読み出して、入力パターンを疎および密の小領域に区分する(S103)。区分された入力パターンの様子を図5に示す。
画像変換部202は、区分部201により疎および密の小領域に区分された入力パターンを、各小領域が等しい幅になるように画像変換することで、図6に示すような類似文字判別用の文字パターン61を生成し(S104)、生成した文字パターン61の特徴量を計算してその結果を特徴ベクトル生成部126へ与える。
特徴ベクトル生成部126は、類似文字識別部124−1より与えられた文字パターン61の特徴量を表す特徴ベクトルを生成して、最終判定部127へ出力する。
このとき、特徴ベクトル生成部126は、類似文字識別部124−1だけでなく、他の類似文字識別部124−xから文字パターンの特徴量が入力された場合には、それぞれに対応する特徴ベクトルが生成されて最終判定部127へ与えられる。
最終判定部127では、パターン識別部122が、特徴ベクトルを取得すると、この特徴ベクトルと、辞書記憶部123に格納された標準の文字の特徴ベクトルとを照合して類似度を計算し、一次認識結果の文字コードの候補と今回文字認識して得られた文字コードの中から、最も高い類似度が得られた文字コードを認識結果として出力する(S105)。
ここで、画像変換部202の動作について説明する。入力パターン(入力画像)の横方向の画素数をxとし、文字パターンの縦方向の画素数をyとすると、画像変換部202は、入力パターンを(x+1)個の縦線と(y+1)個の横線で区切る。
このとき、画像変換部202は、入力パターンが縦横の線で区切られてできる矩形がパターン識別に重要な部分では密に、そうでない部分では疎になるように縦横の線を設定する。
次に、画像変換部202は、変換後の文字パターン(出力画像)の中に同じ本数の縦線と横線を配置、つまり領域を等間隔に区切るように縦横の線を設定する。
このように変換後の文字パターンを等間隔に区切ってできる矩形は、変換後の文字パターンの1画素に対応している。この変換後の文字パターンの画素の座標値を(i,j)とする。一方、同じ本数の縦横の線で区切った入力パターンの矩形も変換後の文字パターンの矩形と1対1の対応している。これをT(i,j)と記載する。
T(i,j)の入力パターン中の位置を矩形の左上頂点を表す座標値(xst,yst)、右下頂点を表す座標値(xen,yen)と記述する。xstは、矩形の領域を生成するための開始点のx座標を示す。xenは、矩形の領域を生成するための終了点のx座標を示す。x座標系のみに着目した場合、入力パターンの画素のx座標と、変換後の文字パターンの画素の位置iとの関係は図7に示すようになる。
図7は変換前の座標値iから変換後の座標値xへの座標変換関数f(i)の定義の例を示したものである。この例は、i軸上にi0からi6までの点を設定し、これに対応するx座標値x0〜x6を設定し、(ir,xr)と(ir+1、xr+1)の間を線分で補間した折れ線グラフによってf(i)を定義したものである。
この例で、irを等間隔で定義すれば、7個の値x0〜x6によって座標変換関数を定義することができる。これと同様にy軸方向でもy0〜y6の値によって座標変換関数を定義することができる。このxr、yrの値のセットが区分情報としてのパターン変換パラメータの例であり、図2のtx0〜txm、ty0〜tymに対応している。
これにより、入力パターンのサイズをw,hとし、座標変換関数f(i),g(j)を図7に示すような形で準備して、この変換関数を用いて、xst=f(i*w/n),xen=f((i+1)*w/n),yst=g(j*h/n),yen=g((j+1)*h/n)によってT(i,j)の位置を定義し、これによって入力パターンを、文字パターンへ変形させる。
ここで、T(i,j)の位置から文字パターンの画素値を決める方法を説明する。
x軸上において開始点xstから終了点xenまで、y軸上において開始点ystから終了点yenまでで囲まれる領域を、文字パターン中の画素(i,j)に対応する入力パターン上での参照矩形領域とする。この矩形領域内の黒画素の占める割合を積算値rとして計算する。そして、これを出力画素値とする。
なお、画素が矩形内に中途半端に含まれるケースの場合、図8に示すように、参照矩形領域をブロックαとして計算する。
ブロックαにおける積算値rは、ブロックαに含まれる画素の画素値の積算値をブロックαの面積で割ったものである。画素Aや画素Bのように、その一部分がブロックαに含まれているものについてはその重なりに相当する部分だけを積算する。
この例のケースでは画素の面積を1としたときのブロックαと重なり合っている部分の面積、すなわち面積A、Bをそれぞれの画素の画素値に掛けたものをブロックαにおける積算値として積算していく。
画素Cのように画素すべてがブロックに含まれる場合にはそのまま積算する。この積算値をブロックαの面積で割ったものが積算値rである。
この積算値rを文字パターンの画素(i,j)の画素値とする。また、このとき、予め設定された閾値によって2値化処理を行い2値画像に変換することも可能である。このようにして求められた文字パターンに対してパターン認識を行う。
なお、この実施形態以外にも、画像変換パターン変形、入力パターンの認識に有効なエリアを広げる方向に、そうでないエリアを縮める方向に画像を変換する技術であれば、本発明に適用できることはいうまでもない。
従来の文字認識で非線形正規化法という手法がパターンを変形する手法が知られていたが、これはパターンの密度を画像内で一様になるように変形する手法であり、本実施例の変形とは異なるものである。
このようにこの第1実施形態のパターン認識装置によれば、入力パターンの認識にとって重要な部位の領域を密に区分し、そうでない部位の領域を疎に区分した後、各領域がほぼ等しい幅になるように画像変換して文字パターンを生成し、生成した文字パターンについて二次認識を行うので、類似文字の認識にとって重要な部分に対する着目を強めた特徴抽出を行うことができる。
すなわち、入力パターンの認識にとって重要な部位を大きく引き伸ばし、そうでない部位は小さく縮小することによって、認識にとって重要な部分の特徴量を計算するための情報量を増大させることで、類似文字の判別精度を高めることができる。
(第2の実施形態)
次に、図10、図11を参照して第2の実施形態について説明する。この第2実施形態は、上記第1実施形態の変形例であり、画像変換の際に使われるパラメータを学習によって求める例である。
第2の実施形態のパターン認識装置は、メモリ21、画像変換部22、特徴抽出部23、辞書記憶部24、パターン識別部25、認識結果記憶部3、最適パラメータ判定部4、学習用パターン入力部5、辞書作成部6、暫定パラメータ生成部7、バッファ8および全体制御部9等を有する類似文字認識部10を備えている。
メモリ21には、区分情報として画像変換パラメータが記憶されている。画像変換部22は、入力パターンを画像変換パラメータに従って文字パターンへ変換する。特徴抽出部23は、変換された文字パターンから特徴を抽出する。
辞書記憶部24には、標準の文字の特徴と対応する文字コードが記憶されている。パターン識別部25は、特徴抽出部により抽出された特徴と辞書記憶部24の文字の特徴とを照合して、特徴が合致した文字コードとその特徴を認識結果として認識結果記憶部3に記憶する。最適パラメータ判定部4は、バッファ8に保持されている中から最適なパラメータを判定する。
学習用パターン入力部5は、学習用の文字画像である学習用パターンの入力を受け付ける。辞書作成部6は、辞書を作成する。暫定パラメータ生成部7は、カレントパラメータから暫定パラメータを複数生成しバッファ8に一次記憶する。全体制御部9は、上記各部を制御して画像変換パラメータの学習機能を実現する。
すなわち、この第2実施形態のパターン認識装置は、区分情報が項目単位のパラメータで構成される場合、カレントパラメータと暫定パラメータの記憶部としてのバッファ8を有し、区分情報を学習によって自動生成するときに、カレントパラメータを構成する項目の変更、削除、追加のうち少なくとも一つを行うことによってカレントパラメータを変動させて複数の暫定パラメータを生成し、この暫定パラメータによって領域の区分、画像変換、文字認識を行い、その文字認識結果に基づいてカレントパラメータを更新し、これを繰り返すことにより、認識精度のよい区分情報を設定する学習部を備える。
続いて、図11のフローチャートを参照してこの第2実施形態のパターン認識装置の動作を説明する。この場合、暫定パラメータ生成部7は、バッファ8に、カレントパラメータと暫定パラメータとを設定する。
暫定パラメータ生成部7は、画像変換パラメータの初期値としてメモリ21に予め決めておいた画像変換パラメータ、例えば、何も変換しない等間隔なデータをバッファ8のカレントパラメータにセットする(S201)。
暫定パラメータ生成部7は、バッファ8に保持されているカレントパラメータの一部分を変更してN個の画像変換パラメータを作成し(S202)、これを暫定パラメータi(i=0,…,N−1)とする。
例えばX座標について言えば、ある位置から左の画像変換パラメータの値を微小量増加させる等の変更である。あるいは、1つの画像変換パラメータだけを増加させてもよい。
暫定パラメータ生成部7は、作成したN個の暫定パラメータをバッファ8に記憶する。
画像変換部22は、i=0、つまりカウンタに0をセットして(S203)、認識対象の入力パターンを取り出すポインタを初期化する(S204)。
学習の際に、1つの暫定パラメータについて学習用の文字画像である学習用パターンが学習用パターン入力部5から辞書作成部6へ入力される。
すると、辞書作成部6は、画像変換部22へ渡し、画像変換部22は、バッファ8のカレントパラメータを用いて学習用パターンに対して変形処理を行い、辞書作成部6は、この変形したパターンから辞書を作成する(S205)。
受付部1により受け付けられた認識対象の入力パターンが画像変換部22に入力されると(S206)、画像変換部22は、バッファ8に保持されている暫定パラメータiによって、その入力パターンを変形して(S207)、文字パターンを生成し、その文字パターンをから特徴抽出部23が特徴を抽出し(S208)、抽出した特徴からパターン識別部25が類似文字のパターン識別を行なう(S209)。
パターン識別部25は、この際、学習用パターンで作成した辞書記憶部24の辞書によって類似文字の識別を行う。
これら一連の処理をすべての入力パターンに対して実行し、都度、認識精度を得る。このようにして得られた認識精度と暫定パラメータとの組をメモリ21に記憶しておく(S210〜S211)。
最適パラメータ判定部4は、一連の認識処理が終了すると(S212〜S214)、メモリ21に記憶した暫定パラメータの中で最良の認識精度を示す暫定パラメータをバッファ8のカレントパラメータとしてセットする(S215)。これを繰り返して学習を行なう。
すなわち、最適パラメータ判定部4は、暫定パラメータを変動させて認識精度を求め、この値が徐々に良くなるようにバッファ8のカレントパラメータを更新していく。そして、学習が進まなくなる、つまり、前回の結果よりも認識精度が上がらなくなるまで学習を継続する(S215)。
最適パラメータ判定部4は、最終的に得られたカレントパラメータを学習結果としてバッファ8から読み出してメモリ21に保存する(S216)。
パラメータの変更は上記ではパラメータの値の増減させる例で説明したが、この他、例えばパラメータを取り除く方法や追加させる方法等を適用することが可能である。
(第3の実施形態)
本発明において画像変換部202を次のように構成してもよい。出力する画素(i,j)に対応する入力パターンの矩形領域の頂点座標xst,xen,yst,yenを縦横の線で区切られた矩形ではなく、任意の位置および大きさの矩形として、重要な部分に密に、そうで無い部分に疎に設定し、その座標値をパターン変換パラメータとして記憶しておき、そのパターン変換パラメータを用いて画像変換を行うことができる。またパターン変換パラメータの値を学習機能で更新して画像変換を行うことも可能である。
また、座標変換の式をp=f(i,j)、q=g(i,j)で定義してこれによって画像変換を行うことができる。
この場合、変換後の文字パターンの画素の位置(i,j)に対応する入力パターンの画素位置が(p,q)として求まるが、これに基づいて文字パターンの画素値を以下のように決定する。
図9に示したように、(p,q)の位置が入力パターンの画像中の画素(k,h)の中にあり、その画素内の左上から(r,s)の位置に相当しているものとする。
ここで、入力パターンの画素のサイズは、縦横それぞれ1とする。画素(r,s)の画素値をv(r,s)と書く。画素(r,s)に隣接する左の画素は(K−1,h)、上の画素は(k,h−1)、左上の画素は(K−1,h−1)とする。このとき、文字パターンの画素の値zを次式で定義する。
z=(0.5+r)(0.5+s)v(k,h)+(0.5+r)(0.5−s)v(k,h−1)+(0.5−r)(0.5+s)v(K−1,h)+(0.5−r)(0.5−s)v(K−1,h−1)
なお、本願発明は、上記実施形態のみに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形してもよい。また、上記実施形態に開示されている複数の構成要素を適宜組み合わせることにより、種々の発明を構成できる。
例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
具体的には、類似パターン認識を類似グループ毎に密なエリアの位置が異なる複数個のパターン変換を用意して複数の変換パターンを作成し、そのそれぞれについてパターン識別部で識別を行い、最終的に総合的な判断、例えばもっとも類似度の高いものを正解とするような判断によって最終的な認識結果を決めるようにしても良い。
以上、複数種類の実施形態を説明したが、これらの実施形態では、パターン認識装置に画像変換部および学習機能を搭載したが、この他、これらの機能をパターン認識装置に搭載せずに、別途用意した画像変換部および学習機能が学習用パターンから画像変換および特徴抽出を行い、その抽出した特徴をパターン認識装置に入力するようにしてもよい。
一方、パターン認識装置がパターン認識を行っている最中に、別途用意した学習機能が特徴抽出および学習処理を適宜行うようにしても良い。
上記実施形態では、文字や画像等のデータを対象として説明したが、本発明は、これのみに限定されるものではなく、パターン認識可能な対象物であればどのようなデータでも適用できる。
本発明の第1実施形態のパターン認識装置の構成を示す図である。 文字グループ対応テーブルを示す図である。 認識対象の文字画像である入力パターンの一例を示す図である。 パターン認識装置の動作を示すフローチャートである。 図3の入力パターンを疎および密に区分した様子を示す図である。 小領域が等しい幅になるように画像変換して生成した文字パターンを示す図である。 入力パターンを文字パターンへ変換するための変換グラフを示す図である。 画素が矩形内に中途半端に含まれるケースの計算方法を示す図である。 変換の際に文字パターンの画素値を決定するための仕組みを示す図である。 第2実施形態のパターン認識装置の構成を示す図である。 パターン認識装置の動作を示すフローチャートである。
符号の説明
1…受付部、3…認識結果記憶部、4…最適パラメータ判定部、5…学習用パターン入力部、6…辞書作成部、7…暫定パラメータ生成部、8…バッファ、9…全体制御部
21…メモリ、22…画像変換部、23…特徴抽出部、24…辞書記憶部、24…ターン識別部、24…辞書記憶部、25…パターン識別部、100…パターン認識装置、110…一次認識部、111…特徴抽出部、112…パターン識別部、113…辞書記憶部
120…二次認識部、121…特徴抽出部、122…パターン識別部、123…辞書記憶部、124−x…類似文字識別部、125…切り替え部、125a…文字グループ対応テーブル、126…特徴ベクトル生成部、127…最終判定部、200…区分情報記憶部、201…区分部、202…画像変換部。

Claims (4)

  1. 文字画像の入力を受け付ける受付部と、
    辞書データとこの辞書データに対応する文字コードとを含む文字認識用の第1辞書と辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された第2辞書とを記憶した辞書記憶部と、
    前記受付部により受け付けられた文字画像について前記辞書記憶部に記憶された第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力する第1文字認識部と、
    前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が、文字コード毎にグループ分けして設定された区分情報記憶部と、
    前記第1文字認識部から出力された文字コードに従って、前記区分情報記憶部の類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分する区分部と、
    前記区分部により疎および密の小領域に区分された文字画像を、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成する画像変換部と、
    前記画像変換部により変換された類似文字判別用の文字画像について前記辞書記憶部に記憶された該当グループの第2辞書を用いて文字認識する第2文字認識部と
    を具備することを特徴とするパターン認識装置。
  2. 請求項1記載のパターン認識装置において、
    前記区分情報が項目単位のパラメータで構成される場合、カレントパラメータと暫定パラメータの記憶部を有し、前記区分情報を学習によって自動生成するときに、前記カレントパラメータを変動させて複数の暫定パラメータを生成し、この暫定パラメータによって領域の区分、画像変換、文字認識を行い、その文字認識結果に基づいて前記カレントパラメータを更新し、これを繰り返すことにより、認識精度のよい前記区分情報を設定する学習部を具備することを特徴とするパターン認識装置。
  3. コンピュータに入力された文字画像のパターン認識処理を実行させるパターン認識プログラムにおいて、
    前記コンピュータを、
    前記文字画像の入力を受け付ける受付部と、
    辞書データとこの辞書データに対応する文字コードとを含む文字認識用の第1辞書と辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された第2辞書とを記憶した辞書記憶部と、
    前記受付部により受け付けられた文字画像について前記辞書記憶部に記憶された第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力する第1文字認識部と、
    前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が、文字コード毎にグループ分けして設定された区分情報記憶部と、
    前記第1文字認識部から出力された文字コードに従って、前記区分情報記憶部の類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分する区分部と、
    前記区分部により疎および密の小領域に区分された文字画像を、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成する画像変換部と、
    前記画像変換部により変換された類似文字判別用の文字画像について前記辞書記憶部に記憶された該当グループの第2辞書を用いて文字認識する第2文字認識部
    として機能させることを特徴とするパターン認識プログラム。
  4. 文字画像の入力を受付部が受け付けるステップと、
    前記受付部により受け付けられた文字画像について、第1文字認識部が、辞書データとこの辞書データに対応する文字コードとを含む第1辞書を用いて文字認識することで、認識結果となり得る文字コードの候補を出力するステップと、
    前記第1文字認識部から出力された文字コードに従って、区分部が、前記文字画像の領域のうち類似文字の判別に有効な第1領域を密に、この第1領域以外の第2領域を疎に区分するための区分情報が文字コード毎にグループ分けして設定された区分情報記憶部から、類似文字のグループの区分情報を読み出して、前記文字画像を疎および密の小領域に区分するステップと、
    前記区分部により疎および密の小領域に区分された文字画像を、画像変換部が、各小領域が等しい幅になるように変換することで、類似文字判別用の文字画像を生成するステップと、
    前記画像変換部により変換された類似文字判別用の文字画像について、第2文字認識部が、辞書データとこの辞書データに対応する文字コードとを含み、類似する文字のグループ毎に設定された中の該当グループの第2辞書を用いて文字認識するステップと
    を有することを特徴とするパターン認識方法。
JP2006253923A 2006-09-20 2006-09-20 パターン認識装置、パターン認識方法およびパターン認識プログラム Active JP4413904B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006253923A JP4413904B2 (ja) 2006-09-20 2006-09-20 パターン認識装置、パターン認識方法およびパターン認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006253923A JP4413904B2 (ja) 2006-09-20 2006-09-20 パターン認識装置、パターン認識方法およびパターン認識プログラム

Publications (2)

Publication Number Publication Date
JP2008077277A JP2008077277A (ja) 2008-04-03
JP4413904B2 true JP4413904B2 (ja) 2010-02-10

Family

ID=39349284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006253923A Active JP4413904B2 (ja) 2006-09-20 2006-09-20 パターン認識装置、パターン認識方法およびパターン認識プログラム

Country Status (1)

Country Link
JP (1) JP4413904B2 (ja)

Also Published As

Publication number Publication date
JP2008077277A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
CN106980856B (zh) 公式识别方法及系统和符号推理计算方法及系统
JP4968075B2 (ja) パターン認識装置、パターン認識方法、およびパターン認識プログラム
JPH04104324A (ja) プログラム作成装置
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP7220062B2 (ja) 学習データ生成プログラム、学習データ生成装置、及び学習データ生成方法
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
JPH04199388A (ja) 文字認識方法
JP2008234479A (ja) 画像高品質化装置、方法、及びプログラム
JP4791295B2 (ja) 罫線抽出プログラム、罫線抽出装置、罫線抽出方法
JP4413904B2 (ja) パターン認識装置、パターン認識方法およびパターン認識プログラム
CN116246064A (zh) 一种多尺度空间特征增强方法及装置
Osechkina et al. Multistroke mouse gestures recognition in QReal metaCASE Technology
CN115187834A (zh) 一种票据识别的方法及装置
Lipkina et al. Grapheme Approach to Recognizing Letters based on Medial Representation.
JP2023072561A (ja) 情報処理装置、情報処理方法、およびプログラム
JP4648084B2 (ja) 記号認識方法及び装置
CN112085816A (zh) 一种字形曲线生成方法及装置
JP2009259190A (ja) 文字認識プログラムおよび文字認識装置
JP5083162B2 (ja) 画像データ判定装置、画像データ判定システム、及びプログラム
JP2020064438A (ja) 学習データ生成装置および学習データ生成方法
JP2009282940A (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP2000076464A (ja) 図形認識方法、図形認識装置、図形分類方法、図形分類装置、記録媒体、及び、図形特徴抽出方法
JP4313178B2 (ja) ベクトル化図形の作成方法および装置
Chen et al. An extraction method of solid line graph elements in mathematical graphs for automating translation of tactile graphics
Sakou et al. Texture Discrimination Using Self‐Organized Multiresolution Filtering

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091027

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091118

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121127

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4413904

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131127

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350