JP4132234B2 - 文字認識方法および装置および文字認識プログラムを記録した記録媒体 - Google Patents
文字認識方法および装置および文字認識プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP4132234B2 JP4132234B2 JP16998698A JP16998698A JP4132234B2 JP 4132234 B2 JP4132234 B2 JP 4132234B2 JP 16998698 A JP16998698 A JP 16998698A JP 16998698 A JP16998698 A JP 16998698A JP 4132234 B2 JP4132234 B2 JP 4132234B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- character string
- segment
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、紙媒体に記入された文字あるいは文字列を読み取り、その読取結果に基づいて当該紙媒体を仕分けするシステムに用いられる文字認識方法および装置および文字認識プログラムを記録した記録媒体に関し、特に紙媒体から読み取った画像にノイズが混在している場合でも予め登録された文字列の単語辞書をもとに適正に文字あるいは文字列を認識することができる文字認識方法および装置および文字認識プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来から、印刷あるいは手書きされた文字や文字列を高速に自動読取を行う文字認識方式があるが、これらの文字認識方式では、1つ1つの文字を切り出して読取る精度に限界があることから、この文字列の文脈に関する知識を用いて、読取精度を高めるようにしている。
【0003】
これらの文字認識方式としては、例えば、「言語情報を利用した手書き文字列からの文字切り出しと認識」(村瀬 洋他、電子情報通信学会論文誌(D)、j69-D,9,pp.1292-1301)があり、この論文に記載されたものでは、入力パターンを基本セグメントという最小の処理単位に分解した後、基本セグメントの網羅的な組合せの中から、文字認識で得られた文字類似度が最大となるものを探索し、単語知識を用いて最終的な文字列認識結果を決定するようにしている。
【0004】
また、特開平6−195508号公報に記載された文字切り出し方法にも、知識処理を行って文字列を認識するものが記載されている。すなわち、まず形状的な知識を用いて文字の切出しを行い、この文字切出結果に対して文字認識を行って、単語的な連接関係を用いて文字妥当性を評価し、この評価が不当であると評価された領域のみについて、再度、文字の切出しを最良優先探索方式を用いて最適なパターン検索を行って確実な文字列の読取を行うようにしている。
【0005】
【発明が解決しようとする課題】
しかしながら、上述した文字認識方式では、文字列が書かれた入力パターンから切り出した全てのセグメントに対して、何らかの文字カテゴリーが割り当てられることを前提としたものであり、この入力パターンに、文字以外のパターン、例えば入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等で訂正書きのパターン等、そのパターンの大きさや縦横比の形状特徴だけでは除去することができないようなノイズが混入している場合には、このノイズを1つの文字、あるいは1つの文字の一部分として割り当ててしまい、文字列の切出処理および読取(認識)性能が極端に低下してしまうという問題点があった。
【0006】
また、この場合、上述したノイズを含む各セグメントのいくつかを順次ノイズであると仮定して入力パターンから除外して文字認識処理を行うことも考えられるが、このようなノイズの除外処理を加えると文字認識処理量が非常に大きくなり、結果的に文字認識処理効率が低下するという問題点が発生することになる。
【0007】
そこで、本発明はかかる問題点を除去し、入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する入力パターンであっても、適正かつ効率的に入力された文字列を読み取ることができる文字認識方法および装置および文字認識プログラムを記録した記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
上記目的を達成するため、請求項1の発明の文字認識方法は、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第1のステップと、認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第2のステップと、前記第2のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第3のステップと、前記第3のステップで決定した各候補セグメントを前記第1のステップで登録した文字列を構成する各文字を参照して文字認識する第4のステップと、前記第4のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第1のステップで登録された複数の文字列の各文字に対応付ける第5のステップと、前記第5のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第6のステップと、前記第6のステップで抽出された文字列候補と前記第1のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第7のステップとを具備したことを特徴とする。
【0009】
また、請求項2の発明は、請求項1の発明において、前記第6のステップは、前記複数の文字列の順序に適合しない候補セグメントを削除し、この結果前記文字列の文字数に満たない候補セグメントの組合せとなる文字列を予め削除した後前記文字列候補を抽出することを特徴とする。
【0010】
また、請求項3の発明は、請求項1または2の発明において、前記第6のステップは、前記文字列候補に含まれない前記候補セグメントを各文字列候補に対応させて保持し、前記第7のステップは、前記文字列候補を構成する各候補セグメントおよび前記第6のステップで保持した候補セグメントと前記第1のステップで登録された文字列の各文字とのマッチング量と、各候補セグメントのエリアの大きさとをもとに各文字列候補の評価値を算定して判定することを特徴とする。
【0011】
また、請求項4の発明は、請求項1〜3のうちのいずれかの発明において、前記第7のステップは、前記文字列候補の評価値が所定値以上の評価値を有し、かつ前記所定値以上の評価値を有する文字列候補が唯一の場合に、当該文字列候補を前記読取対象媒体上に記入された文字列として判定することを特徴とする。
【0012】
また、請求項5の発明の文字認識装置は、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する登録手段と、認識対象エリアから画素分布が連続している基本セグメントを切り出す切出手段と、前記切出手段で切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する候補セグメント決定手段と、前記候補セグメント決定手段で決定した各候補セグメントを前記登録手段で登録した文字列を構成する各文字を参照して文字認識する文字認識手段と、前記文字認識手段で文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記登録手段で登録された複数の文字列の各文字に対応付ける対応付手段と、前記対応付手段で各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する抽出手段と、前記抽出手段で抽出された文字列候補と前記登録手段で登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する判定手段とを具備したことを特徴とする。
【0013】
また、請求項6の発明は、読取対象媒体上に記載された文字列の画像をもとに当該文字列の文字認識を行う文字認識処理をコンピュータにより実行させる文字認識プログラムを記録した記録媒体であって、前記文字認識プログラムは、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第1のステップと、認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第2のステップと、前記第2のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第3のステップと、前記第3のステップで決定した各候補セグメントを前記第1のステップで登録した文字列を構成する各文字を参照して文字認識する第4のステップと、前記第4のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第1のステップで登録された複数の文字列の各文字に対応付ける第5のステップと、前記第5のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第6のステップと、前記第6のステップで抽出された文字列候補と前記第1のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第7のステップとを含むことを特徴とする。
【0020】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【0021】
図1は、本発明の実施の形態である文字認識装置を用いた仕分けシステムの概要構成図である。図1において、その表面に自由手書き文字が記入された仕分け対象の複数の紙媒体は繰出装置1にセットされる。繰出装置1は、順次、紙媒体を文字認識装置2に1枚ずつ繰り出す。
【0022】
文字認識装置2は、制御部Cの制御のもとに、入力された紙媒体の画像を読み取って文字認識を行い、文字列の認識結果を仕分け装置7に出力する。この文字認識処理については後述する。
【0023】
仕分け装置7は、文字認識装置2を通って搬送されてきた紙媒体を文字認識結果をもとに仕分けする。ここで、仕分け装置7は、文字認識結果が唯一でない場合に、当該紙媒体をリジェクトする。このリジェクトも1つの仕分けとなる。
【0024】
なお、紙媒体に記入された自由手書き文字は、予め設定されている複数種類の文字列であり、この文字列を構成する個々の文字は個別文字認識辞書8に登録されているとともに、文字列はその文字並びの順序とともに単語辞書9に登録されている。この登録処理は、制御部Cの制御のもとに画像入力部3によって読み込まれ単語辞書9及び個別文字認識辞書8に登録される。この制御部C、画像入力部3、単語辞書9及び個別文字認識辞書8が登録手段に相当する。
【0025】
図2は、文字認識装置2の文字読取処理手順を示すフローチャートである。また、図3は、この文字読取処理手順における個別文字認識処理までの処理を説明する具体例を示す図である。ここでの文字読取処理は、4つの単語(文字列)、すなわち「姫路赤子」、「赤穂兵太郎」、「兵庫一郎」、「姫路一子」のうちのいずれかが紙媒体に記入されているという前提で処理を説明する。そして、図3(a)に示すように、「路」と「赤」との画像間に「一」に相当するノイズパターンが混入しているものとする。このノイズパターンは、紙媒体の折り目がある場合や、文字と背景との濃淡差が少ない低品位な画像でしばしば発生するものである。
【0026】
さて、図1〜図3において、まず繰出装置1から紙媒体が1枚ずつ繰り出され、文字認識装置2の画像入力部3で1枚の紙媒体全体の画像を取込み(S1)、画像入力部3は、取込んだ1枚の紙媒体全体画像の文字列部分の領域を傾き補正を行って抽出する(S2)。この傾き補正処理は、紙媒体搬送時における紙媒体の傾きを補正する処理であり、紙媒体エッジの傾き角度を検出し、その傾き角度をもとに文字列部分の領域の画像を回転させて補正する。さらに、画像入力部3は、この抽出した文字列部分の領域を2値化する処理を行う(S3)。例えば、紙媒体のある領域に図3(a)に示すような自由手書き文字列が記入されていた場合、画像入力部3は、「姫路赤子」に対応する自由手書き文字列部分の領域を抽出し、2値化した2値化画像E1を生成する。
【0027】
この2値化画像E1は、切出処理部4に入力され、切出処理部4は、この2値化画像E1の切出処理を行う。ここで、高さおよび幅が所定値に満たない小さな黒画素領域は除去される。但し、「路」と「赤」との間の「一」に相当するパターンは、所定値以上であるとして除去されない。切出処理では、まず図3(b)に示すようにY軸射影特徴抽出処理を行う。このY軸射影特徴抽出処理を行うのは、文字列が縦書きであるからである。また、Y軸射影とは、Y軸方向からみた黒画素分布のヒストグラムである。切出処理部4は、Y軸射影特徴抽出処理されたY軸射影E2をもとに、基本セグメントを作成する(S4)。この基本セグメントは、Y軸射影のまとまり、すなわち黒画素分布のヒストグラムが連続しているところを基本セグメントとして決定している。例えば、図3(b)におけるY軸射影E2は、部分Y軸射影E21〜E26の6つのまとまりに区分することができ、各部分Y軸射影E21〜E26に対応した基本セグメントBS1〜BS6が基本セグメントとして決定される。この基本セグメントBSiの添字iは、Y軸の値が小さい方から(上の方から)順次割り付けられる。
【0028】
さらに、切出処理部4は、隣接する基本セグメントBS1〜BS6をマージして、候補セグメントの作成処理を行う(S5)。この基本セグメントのマージの基準は、次のとおりである。すなわち、
(1)マージ後のY軸方向の大きさが、マージ後のX方向の大きさの所定倍P1以下であること
(2)マージ後のY軸方向の大きさが固定値P2以下であること
(3)マージに使用された基本セグメントの面積の合計が、すべての基本セグメントの面積の合計の所定百分率P3以下であること
(4)マージする基本セグメント間の距離が、すべての基本セグメント間の距離の平均以下であること
を基準として決定される。なお、これらの基準はすべて満たすことが要求され、また、P1〜P3の値は予め設定されている。マージされた新しいセグメントと基本セグメントの双方が候補セグメントとなる。
【0029】
このような基準をもとに例えば、図3(c)に示す候補セグメントCS1(1,1)〜CS8(4,5)の8つの候補セグメントが作成される。候補セグメントCS1(1,1)〜CS6(6,6)は、基本セグメントBS1〜BS6に対応し、それぞれ同じ内容のセグメントである。また、候補セグメント7(3,4)は、基本セグメントBS3と基本セグメントBS4とをマージしたセグメントであり、その意味で候補セグメントのかっこ内の符号は(3,4)として示している。かっこ内の最初の値「3」は基本セグメントBS3の「3」の値であり、かっこ内の最後の値「4」は基本セグメントBS4の「4」の値である。すなわち、候補セグメントのかっこ内の最初の値はマージした最初の基本セグメントの番号を示し、かっこ内の最後の値はマージした最後の基本セグメントの番号を示している。候補セグメントCS8(4,5)は、基本セグメントBS4,BS5をマージしたセグメントである。図3では存在しないが、例えば候補セグメントのかっこの値が(4,6)である場合は、基本セグメントBS4,BS5,BS6をそれぞれマージしたことを示すことになる。以下、かっこ内の値を(starti,endi)と示し、これにより、マージされた範囲が示される。但し、startiとendiのiの値はCS7やCS8のように異なっていてもよい。
【0030】
次に、切出処理部4は、マージの基準をもとにして合成された候補セグメントCS1(1,1)〜CS8(4,5)を文字認識部5に送出し、文字認識部5は、個別文字認識辞書8をもとに、各候補セグメントの個別文字認識を行う(S6)。個別文字認識辞書8には、少なくとも上述した4つの単語を構成する全ての種類の文字が登録され、文字認識部5は、この登録された文字と各候補セグメントとのマッチング処理を行い、マッチング量が所定値以上の文字を各候補セグメントに対応する文字の可能があるとして対応づける。尚、登録文字としては、最低限、複数の文字列に使用される文字が該当するが、これを含んで更に、種々の文字を登録しておくとよい。文字の種類及び登録数はシステムに応じて任意に設定すればよい。例えば、図3(d)において、候補セグメントCS1(1,1)に対して所定値以上のマッチング量を有するものとして、「姫」、「郎」、「庫」、「兵」の4つの文字が選択されたことを示している。所定値以上のマッチング量を有する文字の個数をJとすると、ここではJは4となる。なお、この場合のマッチング量は、「姫」→「郎」→「庫」→「兵」の順である。この順序を「j」(j=J以下の自然数)を用いて、各文字をCODEjとして示し、マッチング量をσjとして示すことができる。例えば、CODE1(CS1)は、「姫」であり、σ2(CS1)は、「郎」のマッチング量を示している。
【0031】
次に、この各候補セグメントと個別文字認識結果は、知識処理部6に出力され、知識処理部6は、この対応関係および単語辞書9をもとに、最適な候補セグメントの組合せを選択して自由手書きされた文字列を認識する(S7)。その概要は、候補セグメントに対する文字認識結果の関係を、単語(文字列)に対する各候補セグメントの対応関係とした対応表6aを生成し、文字列候補抽出部6bが文字列の順序関係から文字列候補を抽出し、評価・判定部6cが文字認識結果であるマッチング量等をもとに各文字列候補の評価を行い、この評価結果をもとに文字列の認識を行う。この知識処理の詳細については後述する。
【0032】
このようにして知識処理部6で認識された結果は、仕分け装置7に出力され(S8)、仕分け装置7は、認識結果をもとに搬送されてきた当該紙媒体を仕分けする。
【0033】
全ての紙媒体を処理したか否かを判断し(S9)、まだ処理すべき紙媒体が残っている場合には、ステップS1に移行して、上述したステップS1〜S8の処理を繰り返し、全ての紙媒体の処理が終了した場合は、本処理を終了する。尚、実際にはステップS5〜S8の途中において次の紙媒体は繰り出され、全体画像の取込み(S1)は行なわれている。
【0034】
次に、図4〜図9を参照して、上述したステップS7の知識処理について詳述する。以下、図4のフローチャートが示す、ステップS7の知識処理手順の順序で説明するが、まずこの処理の前に初期化処理を行う。すなわち、図6に示すインデックス表を作成する。このインデックス表は、図5に示す単語辞書9をもとに作成され、単語辞書9を構成する全ての文字について各文字が単語辞書9内の何番目の単語(すなわち、単語番号)で、かつ何番目の文字(すなわち、文字番号)であるかが対となって示される。例えば、「姫」は、単語辞書9内で1番目の単語における1文字目(単語番号=1,文字番号=1)と、4番目の単語における1文字目(単語番号=4,文字番号=1)であるので、インデックス表では、文字「姫」に対して(1,1),(4,1)のアドレス情報が対応づけられる。
【0035】
(1)対応表の作成(ステップS11)
知識処理部6は、図7に示すような対応表を作成する。この対応表は、各単語毎、該単語を構成する各文字がどの候補セグメントに対応しているかを示す作業用シートである。
【0036】
この対応表の作成は、まず候補セグメントCSi(i=自然数であり、候補セグメントの個数までの数)が文字認識結果の文字CODEjを有するとき、インデックス表を参照して、対応表における文字CODEjの行に、候補セグメントCSiの添字iを書き込む。
【0037】
例えば、候補セグメントCS1の文字認識結果の1つである文字CODE1=「姫」は、インデックス表の「姫」の行に記載された情報(1,1),(4,1)をもとに、対応表の単語番号1の1文字目の行、および単語番号4の1文字目にCS1の添字「1」を書き込む。候補セグメントCS1のCODE2=「郎」については、単語番号2の5文字目および単語番号3の4文字目にCS1の添字「1」を書き込む。同様に、候補セグメントCS1の文字CODE3=「庫」については、単語番号3の2文字目にCS1の添字「1」を書き込む。最後に、候補セグメントCS1の文字CODE4=「兵」については、単語番号2の3文字目および単語番号3の1文字目にCS1の添字「1」を書き込む。このようにして候補セグメントCS1に対する処理を終了し、同様にして、残りの他の候補セグメントCSiの処理を行う。
【0038】
ここで、図7の対応候補セグメントの欄の数字は、各単語毎、単語内の文字に対応する候補セグメントの番号を示し、候補セグメントCSi(starti,endi)の「starti」の「i」の値が文字番号よりも小さいときは、そのような対応関係は有り得ないので、この候補セグメントの添字を対応表から予め除外しておく。図7では、除外される対応候補セグメントの添字に×印を付している。これにより、事後の処理が軽減される。
【0039】
(2)不対応文字を含む単語候補の棄却(ステップS12)
ステップS11の対応表の作成の結果、各単語の各文字には、対応する候補セグメントが複数あるものや、全くないものがある。例えば、図7の単語番号1の3番目の文字「赤」には、3つの候補セグメントが対応し、単語番号2の5番目の文字「郎」には、対応する候補セグメントが全くない(上記(1)で除外されているので)。対応する候補セグメントが全くない文字を含む場合、そのような単語が記載されることはないと判断される。例えば、単語番号2の「赤穂兵太郎」の5番目の文字「郎」に対応する候補セグメントは全く存在しないため、「赤穂兵太郎」の単語は記載されていないと認識され、その単語は認識候補から除外される。一般的には、対応する候補セグメントが存在する文字の個数が、単語の文字数より小さいとき、その単語を認識候補から除外する。図8は、そのような対応関係を示した図であり、単語番号2と単語番号3の単語が認識候補から除外されることになる。従って、この処理によって、単語番号1と単語番号4の単語が認識候補となり、いずれかの単語が紙媒体に記載された単語であることになる。
【0040】
(3)順序関係のチェック(ステップS13)
次に、隣合う文字間で、対応する候補セグメント間の順序関係が成立するか否かをチェックする。単語の文字の順序は既に文字列の順序で対応表に並んでおり、また、対応する候補セグメントに対しては添字の値が順序を示しており、これらの順序および値をもとに順序関係をチェックすることになる。このとき、上述したノイズが混入されていることを考慮すると、順序関係が成立する条件は、具体的演算において次のようになる。すなわち、
「ある単語における、i番目の文字に対応する候補セグメントCSj1(startj1,endj1)と、i+1番目の文字に対応する候補セグメントCSj2(startj2,endj2)との間で、endj1<startj2が成立すること」
である。例えば、図7の単語番号1における1番目の文字「姫」に対応する候補セグメントCS1(1,1)と2番目の文字「路」に対応する候補セグメントCS2(2,2)との間では、end1=1<start2=2であり、順序関係が成立する。また、単語番号1における2番目の文字「路」に対応する候補セグメントCS2(2,2)と3番目の文字「赤」に対応する候補セグメントCS8(4,5)との間でも、end2=2<start8=4であるので、順序関係が成立する。しかし、単語番号1における1番目の文字「姫」に対応する候補セグメントCS2と2番目の文字「路」に対応する候補セグメントCS2との間では、end2=2=start2=2であり、順序関係は成立しない。
【0041】
これにより、図7の破線で示すように順序関係を満足するリンクができることになる。
【0042】
(4)連結リストの作成と未対応の候補セグメントの抽出(ステップS14)
ステップS13の処理によって順列関係がOKとなる候補セグメントのみをつないでリストを作り、これを連結リストと呼ぶ。図9に示すように、連結リストCL1_1〜CL1_3、CL4_1〜CL4_3が生成される。そして、連結リスト毎に、使用されていない候補セグメント、すなわち未対応の候補セグメントを抽出する。但し、未対応の候補セグメントは、構成される基本セグメントの個数が1つであるものの中から選択する。例えば、連結リストCL1_3は、候補セグメントCS1,CS2,CS8,CS6からなり、候補セグメントCS3,CS4,CS5,CS7を含まないが、候補セグメントCS3,CS4,CS5,CS7の全てを未対応の候補セグメントとせず、CS3のみを未対応の候補セグメントとして選択する。なぜなら、基本セグメント1個からなるものはCS3、CS4、CS5であり、その内CS4とCS5は候補セグメントCS8で用いられているので、結局候補セグメントCS3のみを未対応とすればよいからである。
【0043】
(5)配置関係のチェック(ステップS15)
各連結リストを構成する文字列に対し、外接する矩形の横幅あるいは高さ、および重心位置等から配置関係をチェックし、文字間で大きさが極めて異なる文字列、あるいは文字間ピッチが極めて不均一であるといった配置バランスの悪い文字列については、その連結リストを除外する処理を行う。この処理についは周知の技術を用いることによって達成することができる。尚、図3に示す実施例から作成された連結リスト(図9)の例では、除外されるものはない。
【0044】
(6)評価量の算出(ステップS16)
ステップS15までの処理で残った連結リストのそれぞれに対する評価量を算出する。そして、各単語内で最大となる連結リストをその単語に対する評価値とし、かつ候補セグメントの対応関係とする。各連結リストの評価量Tは、次式による。すなわち、
である。ここで、Ω1は、連結リストを構成する候補セグメントの集合であり、Ω2は、連結リストに含まれない未対応の候補セグメントの集合である。また、L(CS)は、候補セグメントCSの大きさを表す量、例えば、CSの高さあるいは黒画素数等である。Si(CS)は、候補セグメントCSを、当該単語の第i番目の文字で読んだときのマッチング量である(連結リストの第i番目の候補セグメントとCSは一致する)。また、N(CS)は、候補セグメントCSをノイズとみなしたときの評価値であり、例えば当該単語のいずれかの文字として認識した場合のマッチング量よりも小さい一定値、あるいはσJ+1(CS)を当該評価値とする。
【0045】
ここで、図9に示す連結リストCL1_1の評価量を例にとって説明すると、まず、連結リストは、候補セグメントCS1→CS2→CS4→CS6からなり、未対応の候補セグメントは、候補セグメントCS3,CS5である。そこで、上式の評価量Tの式に当てはめると、その分子の第1項は、S1(CS1)L(CS1)+S2(CS2)L(CS2)+S3(CS4)L(CS4)+S4(CS6)L(CS6)となる。S1(CS1)は、候補セグメントCS1を単語番号1の「姫路赤子」の1文字目の「姫」と読んだときのマッチング量σ1(CS1)に等しい。すなわち、S1(CS1)=σ1(CS1)となる。同様にして、S2(CS2)=σ1(CS2)、S3(CS4)=σ1(CS4)、S4(CS6)=σ1(CS6)となる。
【0046】
また、分子の第2項は、N(CS3)L(CS3)+N(CS5)L(CS5)であり、N(CS3)は、候補セグメントCS3をノイズとみなしたときの評価量、例えばσ3(CS3)となる。これは、CS3の「J」の値は2まであり、σJ+1=σ3となるからである。つまり、候補セグメントCS3をノイズとみなすので、文字認識結果が所定値以上とならなかった3番目のマッチング量を用いている。同様にして、N(CS5)=σ3(CS5)となる。
【0047】
従って、連結リストCL1_1に対する評価量Tは次のようになる。すなわち、
T=(σ1(CS1)L(CS1)+σ1(CS2)L(CS2)+σ1(CS4)L(CS4)+σ1(CS6)L(CS6)+σ3(CS3)L(CS3)+σ3(CS5)L(CS5))/(L(CS1)+L(CS2)+L(CS4)+L(CS6)+L(CS3)+L(CS5))
となる。このようにして、マッチング量と候補セグメントの大きさを表す量とをもとに評価量を求めることができる。この結果、図9に示す連結リストのうち、単語番号1の「姫路赤子」に対しては、連結リストCL1_3=(CS1,CS2,CS8,CS6)と未対応の候補セグメントCS3との組が評価量が大きいとして選択され、単語番号4の「姫路一子」に対しては、連結リストCL4_2=(CS1,CS2,CS3,CS6)と未対応の候補セグメントCS4,CS5との組が評価量が大きいとして選択される。
【0048】
(7)単語認識結果の決定(ステップS17)
ステップS16で選択された連結リストの評価量Tの値が所定のしきい値以上をもつ連結リストが唯一であるとき、この連結リストの単語を認識結果として出力し、所定のしきい値以上をもつ連結リストがひとつもないときは読取単語候補なしとしてリジェクトし、所定のしきい値をもつ連結リストが2つ以上存在するときも、判定不能としてリジェクトする。
【0049】
図9に示す連結リストからは、連結リストCL1_3が所定のしきい値以上の評価量を有し、連結リストCL4_2が所定のしきい値以上の評価量を有しないとして、連結リストCL1_3が示す「姫路赤子」が認識結果として出力され、連結リストCL4_2が示す「姫路一子」は認識結果として採用されず、結果的に「一」がノイズパターンとして解釈されることになる。
【0050】
このように、本実施の形態による知識処理によれば、上述した「一」のような、紙媒体の折り目や、文字と背景との濃淡差が少ない入力系の品位の低さに起因したノイズを含む入力パターンであっても、適正かつ効率的に入力された文字列を読み取ることができる。
【0051】
なお、上述した入力系の品位の低さ等に起因するノイズパターンに限らず、二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する入力パターンであっても、上述した知識処理に適用できる。
【0052】
また、上述した実施の形態では、縦書きの文字列として説明したが、もちろん横書きの文字列に適用できるのは明らかである。この場合、X軸射影特徴抽出処理を行うとよい。さらに、射影特徴抽出のみを用いて基本セグメントを決定しているが、黒画素の連結成分の解析に基づいて行ったり、これらを融合した方法等各種の方法によって基本セグメントの決定を行うようにしてもよい。
【0053】
さらに、単語辞書における単語の長さや個数が増加しても、上述した知識処理は線形のオーダーの増加にとまり、処理量の大きな増加はないため、文字列が記入された複数の紙媒体の仕分け処理にかかる時間も増大しない。
【0054】
【発明の効果】
以上詳細に説明したように、請求項1から請求項6の発明では、入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する文字列の入力パターンであっても、文字列の順序関係をもとに、適正かつ効率的に入力された文字列を読み取ることができるという効果を有する。
【0055】
特に、このような順序関係をもとに文字列候補を抽出するようにしているので、文字列の文字数が増大したとしても、文字列候補の組合せ数は、線形のオーダーで増加するに過ぎず、文字列の文字数の増大に伴って処理量が急激に増大することはなく、効率的な知識処理を達成することができるという効果を有する。
【0056】
また、請求項2の発明では、さらに文字列候補の抽出時に文字列の順序関係を満たさない候補セグメントのみが対応づけられた文字をもつ文字列を抽出対象から予め削除しておくことにより、文字列候補の抽出処理を効率的に行うことができるという効果を有する。
【0057】
さらに、請求項3の発明では、抽出された文字列候補を評価する際、文字列候補に含まれない候補セグメントも含めて評価するようにしているので、より適正な評価・判定を行うことができるという効果を有する。
【0058】
また、請求項4の発明では、文字列候補の評価値が所定値以上で、かつ唯一の場合のみに当該文字列候補に対応する文字列を文字認識結果として判定するので、さらに適正な文字列の認識を行うことができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態である文字認識装置を用いた仕分けシステムの概要構成を示す図である。
【図2】文字認識装置2の文字読取処理手順を示すフローチャートである。
【図3】文字読取処理手順における個別文字認識処理までの処理を説明する具体例を示す図である。
【図4】ステップS7の知識処理手順を示すフローチャートである。
【図5】単語辞書の一例を示す図である。
【図6】インデックス表の一例を示す図である。
【図7】対応表の一例を示す図である。
【図8】不対応文字を含む単語の棄却の一例を示す図である。
【図9】連結リストと未対応の候補セグメントとの組を示す図である。
【符号の説明】
1…繰出装置 2…文字認識装置 3…画像入力部 4…切出処理部
5…文字認識部 6…知識処理部 6a…対応表 6b…文字列候補抽出部
6c…評価・判定部 7…仕分け装置 C…制御部
Claims (6)
- 文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第1のステップと、
認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第2のステップと、
前記第2のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第3のステップと、
前記第3のステップで決定した各候補セグメントを前記第1のステップで登録した文字列を構成する各文字を参照して文字認識する第4のステップと、
前記第4のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第1のステップで登録された複数の文字列の各文字に対応付ける第5のステップと、
前記第5のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第6のステップと、
前記第6のステップで抽出された文字列候補と前記第1のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第7のステップと
を具備したことを特徴とする文字認識方法。 - 前記第6のステップは、
前記複数の文字列の順序に適合しない候補セグメントを削除し、この結果前記文字列の文字数に満たない候補セグメントの組合せとなる文字列を予め削除した後前記文字列候補を抽出する
ことを特徴とする請求項1に記載の文字認識方法。 - 前記第6のステップは、
前記文字列候補に含まれない前記候補セグメントを各文字列候補に対応させて保持し、
前記第7のステップは、
前記文字列候補を構成する各候補セグメントおよび前記第6のステップで保持した候補セグメントと前記第1のステップで登録された文字列の各文字とのマッチング量と、各候補セグメントのエリアの大きさとをもとに各文字列候補の評価値を算定して判定する
ことを特徴とする請求項1または2に記載の文字認識方法。 - 前記第7のステップは、
前記文字列候補の評価値が所定値以上の評価値を有し、かつ前記所定値以上の評価値を有する文字列候補が唯一の場合に、当該文字列候補を前記読取対象媒体上に記入された文字列として判定する
ことを特徴とする請求項1〜3のうちのいずれか1項に記載された文字認識方法。 - 文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する登録手段と、
認識対象エリアから画素分布が連続している基本セグメントを切り出す切出手段と、
前記切出手段で切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する候補セグメント決定手段と、
前記候補セグメント決定手段で決定した各候補セグメントを前記登録手段で登録した文字列を構成する各文字を参照して文字認識する文字認識手段と、
前記文字認識手段で文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記登録手段で登録された複数の文字列の各文字に対応付ける対応付手段と、
前記対応付手段で各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する抽出手段と、
前記抽出手段で抽出された文字列候補と前記登録手段で登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する判定手段と
を具備したことを特徴とする文字認識装置。 - 読取対象媒体上に記載された文字列の画像をもとに当該文字列の文字認識を行う文字認識処理をコンピュータにより実行させる文字認識プログラムを記録した記録媒体であって、
前記文字認識プログラムは、
文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第1のステップと、
認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第2のステップと、
前記第2のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第3のステップと、
前記第3のステップで決定した各候補セグメントを前記第1のステップで登録した文字列を構成する各文字を参照して文字認識する第4のステップと、
前記第4のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第1のステップで登録された複数の文字列の各文字に対応付ける第5のステップと、
前記第5のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第6のステップと、
前記第6のステップで抽出された文字列候補と前記第1のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第7のステップと
を含むことを特徴とする文字認識プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16998698A JP4132234B2 (ja) | 1998-06-17 | 1998-06-17 | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16998698A JP4132234B2 (ja) | 1998-06-17 | 1998-06-17 | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000011091A JP2000011091A (ja) | 2000-01-14 |
JP4132234B2 true JP4132234B2 (ja) | 2008-08-13 |
Family
ID=15896487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16998698A Expired - Fee Related JP4132234B2 (ja) | 1998-06-17 | 1998-06-17 | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4132234B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5288915B2 (ja) * | 2008-07-08 | 2013-09-11 | キヤノン株式会社 | 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体 |
-
1998
- 1998-06-17 JP JP16998698A patent/JP4132234B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000011091A (ja) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3842006B2 (ja) | 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US6778703B1 (en) | Form recognition using reference areas | |
US6886136B1 (en) | Automatic template and field definition in form processing | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
JPS6077279A (ja) | 文字イメ−ジ切出し方法 | |
JPH0467234B2 (ja) | ||
CN110490190A (zh) | 一种结构化图像文字识别方法及系统 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN114119949A (zh) | 一种增强文本合成图像的生成方法和系统 | |
KR101793184B1 (ko) | 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법 | |
JP4132234B2 (ja) | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 | |
JP2000339406A (ja) | 帳票認識方法 | |
JPH09319824A (ja) | 帳票認識方法 | |
CN110135426B (zh) | 样本标注方法及计算机存储介质 | |
JP3090070B2 (ja) | 帳票識別方法及び装置 | |
CN114627457A (zh) | 一种票面信息识别方法及装置 | |
JP3730073B2 (ja) | テンプレート作成方法、装置、およびテンプレート作成プログラムを記録した記録媒体 | |
JP3022459B2 (ja) | 帳票識別登録装置 | |
JP3157530B2 (ja) | 文字切り出し方法 | |
JPH07182459A (ja) | 表構造抽出装置 | |
JP2995818B2 (ja) | 文字切り出し方法 | |
JP3867237B2 (ja) | 文字認識方法および装置および文字認識プログラムを記録した記録媒体 | |
JP2906758B2 (ja) | 文字読取装置 | |
JPH1116020A (ja) | 商品券識別方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060421 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060620 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060807 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060824 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20060915 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080602 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110606 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120606 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130606 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |