JP4132234B2

JP4132234B2 - 文字認識方法および装置および文字認識プログラムを記録した記録媒体

Info

Publication number: JP4132234B2
Application number: JP16998698A
Authority: JP
Inventors: 博史亀山; 昌利大西
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 1998-06-17
Filing date: 1998-06-17
Publication date: 2008-08-13
Anticipated expiration: 2018-06-17
Also published as: JP2000011091A

Description

【０００１】
【発明の属する技術分野】
本発明は、紙媒体に記入された文字あるいは文字列を読み取り、その読取結果に基づいて当該紙媒体を仕分けするシステムに用いられる文字認識方法および装置および文字認識プログラムを記録した記録媒体に関し、特に紙媒体から読み取った画像にノイズが混在している場合でも予め登録された文字列の単語辞書をもとに適正に文字あるいは文字列を認識することができる文字認識方法および装置および文字認識プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
従来から、印刷あるいは手書きされた文字や文字列を高速に自動読取を行う文字認識方式があるが、これらの文字認識方式では、１つ１つの文字を切り出して読取る精度に限界があることから、この文字列の文脈に関する知識を用いて、読取精度を高めるようにしている。
【０００３】
これらの文字認識方式としては、例えば、「言語情報を利用した手書き文字列からの文字切り出しと認識」（村瀬洋他、電子情報通信学会論文誌（Ｄ）、j69-D,9,pp.1292-1301）があり、この論文に記載されたものでは、入力パターンを基本セグメントという最小の処理単位に分解した後、基本セグメントの網羅的な組合せの中から、文字認識で得られた文字類似度が最大となるものを探索し、単語知識を用いて最終的な文字列認識結果を決定するようにしている。
【０００４】
また、特開平６−１９５５０８号公報に記載された文字切り出し方法にも、知識処理を行って文字列を認識するものが記載されている。すなわち、まず形状的な知識を用いて文字の切出しを行い、この文字切出結果に対して文字認識を行って、単語的な連接関係を用いて文字妥当性を評価し、この評価が不当であると評価された領域のみについて、再度、文字の切出しを最良優先探索方式を用いて最適なパターン検索を行って確実な文字列の読取を行うようにしている。
【０００５】
【発明が解決しようとする課題】
しかしながら、上述した文字認識方式では、文字列が書かれた入力パターンから切り出した全てのセグメントに対して、何らかの文字カテゴリーが割り当てられることを前提としたものであり、この入力パターンに、文字以外のパターン、例えば入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等で訂正書きのパターン等、そのパターンの大きさや縦横比の形状特徴だけでは除去することができないようなノイズが混入している場合には、このノイズを１つの文字、あるいは１つの文字の一部分として割り当ててしまい、文字列の切出処理および読取（認識）性能が極端に低下してしまうという問題点があった。
【０００６】
また、この場合、上述したノイズを含む各セグメントのいくつかを順次ノイズであると仮定して入力パターンから除外して文字認識処理を行うことも考えられるが、このようなノイズの除外処理を加えると文字認識処理量が非常に大きくなり、結果的に文字認識処理効率が低下するという問題点が発生することになる。
【０００７】
そこで、本発明はかかる問題点を除去し、入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する入力パターンであっても、適正かつ効率的に入力された文字列を読み取ることができる文字認識方法および装置および文字認識プログラムを記録した記録媒体を提供することを目的とする。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、請求項１の発明の文字認識方法は、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第１のステップと、認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第２のステップと、前記第２のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第３のステップと、前記第３のステップで決定した各候補セグメントを前記第１のステップで登録した文字列を構成する各文字を参照して文字認識する第４のステップと、前記第４のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第１のステップで登録された複数の文字列の各文字に対応付ける第５のステップと、前記第５のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第６のステップと、前記第６のステップで抽出された文字列候補と前記第１のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第７のステップとを具備したことを特徴とする。
【０００９】
また、請求項２の発明は、請求項１の発明において、前記第６のステップは、前記複数の文字列の順序に適合しない候補セグメントを削除し、この結果前記文字列の文字数に満たない候補セグメントの組合せとなる文字列を予め削除した後前記文字列候補を抽出することを特徴とする。
【００１０】
また、請求項３の発明は、請求項１または２の発明において、前記第６のステップは、前記文字列候補に含まれない前記候補セグメントを各文字列候補に対応させて保持し、前記第７のステップは、前記文字列候補を構成する各候補セグメントおよび前記第６のステップで保持した候補セグメントと前記第１のステップで登録された文字列の各文字とのマッチング量と、各候補セグメントのエリアの大きさとをもとに各文字列候補の評価値を算定して判定することを特徴とする。
【００１１】
また、請求項４の発明は、請求項１〜３のうちのいずれかの発明において、前記第７のステップは、前記文字列候補の評価値が所定値以上の評価値を有し、かつ前記所定値以上の評価値を有する文字列候補が唯一の場合に、当該文字列候補を前記読取対象媒体上に記入された文字列として判定することを特徴とする。
【００１２】
また、請求項５の発明の文字認識装置は、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する登録手段と、認識対象エリアから画素分布が連続している基本セグメントを切り出す切出手段と、前記切出手段で切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する候補セグメント決定手段と、前記候補セグメント決定手段で決定した各候補セグメントを前記登録手段で登録した文字列を構成する各文字を参照して文字認識する文字認識手段と、前記文字認識手段で文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記登録手段で登録された複数の文字列の各文字に対応付ける対応付手段と、前記対応付手段で各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する抽出手段と、前記抽出手段で抽出された文字列候補と前記登録手段で登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する判定手段とを具備したことを特徴とする。
【００１３】
また、請求項６の発明は、読取対象媒体上に記載された文字列の画像をもとに当該文字列の文字認識を行う文字認識処理をコンピュータにより実行させる文字認識プログラムを記録した記録媒体であって、前記文字認識プログラムは、文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第１のステップと、認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第２のステップと、前記第２のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第３のステップと、前記第３のステップで決定した各候補セグメントを前記第１のステップで登録した文字列を構成する各文字を参照して文字認識する第４のステップと、前記第４のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第１のステップで登録された複数の文字列の各文字に対応付ける第５のステップと、前記第５のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第６のステップと、前記第６のステップで抽出された文字列候補と前記第１のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第７のステップとを含むことを特徴とする。
【００２０】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について説明する。
【００２１】
図１は、本発明の実施の形態である文字認識装置を用いた仕分けシステムの概要構成図である。図１において、その表面に自由手書き文字が記入された仕分け対象の複数の紙媒体は繰出装置１にセットされる。繰出装置１は、順次、紙媒体を文字認識装置２に１枚ずつ繰り出す。
【００２２】
文字認識装置２は、制御部Ｃの制御のもとに、入力された紙媒体の画像を読み取って文字認識を行い、文字列の認識結果を仕分け装置７に出力する。この文字認識処理については後述する。
【００２３】
仕分け装置７は、文字認識装置２を通って搬送されてきた紙媒体を文字認識結果をもとに仕分けする。ここで、仕分け装置７は、文字認識結果が唯一でない場合に、当該紙媒体をリジェクトする。このリジェクトも１つの仕分けとなる。
【００２４】
なお、紙媒体に記入された自由手書き文字は、予め設定されている複数種類の文字列であり、この文字列を構成する個々の文字は個別文字認識辞書８に登録されているとともに、文字列はその文字並びの順序とともに単語辞書９に登録されている。この登録処理は、制御部Ｃの制御のもとに画像入力部３によって読み込まれ単語辞書９及び個別文字認識辞書８に登録される。この制御部Ｃ、画像入力部３、単語辞書９及び個別文字認識辞書８が登録手段に相当する。
【００２５】
図２は、文字認識装置２の文字読取処理手順を示すフローチャートである。また、図３は、この文字読取処理手順における個別文字認識処理までの処理を説明する具体例を示す図である。ここでの文字読取処理は、４つの単語（文字列）、すなわち「姫路赤子」、「赤穂兵太郎」、「兵庫一郎」、「姫路一子」のうちのいずれかが紙媒体に記入されているという前提で処理を説明する。そして、図３（ａ）に示すように、「路」と「赤」との画像間に「一」に相当するノイズパターンが混入しているものとする。このノイズパターンは、紙媒体の折り目がある場合や、文字と背景との濃淡差が少ない低品位な画像でしばしば発生するものである。
【００２６】
さて、図１〜図３において、まず繰出装置１から紙媒体が１枚ずつ繰り出され、文字認識装置２の画像入力部３で１枚の紙媒体全体の画像を取込み（Ｓ１）、画像入力部３は、取込んだ１枚の紙媒体全体画像の文字列部分の領域を傾き補正を行って抽出する（Ｓ２）。この傾き補正処理は、紙媒体搬送時における紙媒体の傾きを補正する処理であり、紙媒体エッジの傾き角度を検出し、その傾き角度をもとに文字列部分の領域の画像を回転させて補正する。さらに、画像入力部３は、この抽出した文字列部分の領域を２値化する処理を行う（Ｓ３）。例えば、紙媒体のある領域に図３（ａ）に示すような自由手書き文字列が記入されていた場合、画像入力部３は、「姫路赤子」に対応する自由手書き文字列部分の領域を抽出し、２値化した２値化画像Ｅ１を生成する。
【００２７】
この２値化画像Ｅ１は、切出処理部４に入力され、切出処理部４は、この２値化画像Ｅ１の切出処理を行う。ここで、高さおよび幅が所定値に満たない小さな黒画素領域は除去される。但し、「路」と「赤」との間の「一」に相当するパターンは、所定値以上であるとして除去されない。切出処理では、まず図３（ｂ）に示すようにＹ軸射影特徴抽出処理を行う。このＹ軸射影特徴抽出処理を行うのは、文字列が縦書きであるからである。また、Ｙ軸射影とは、Ｙ軸方向からみた黒画素分布のヒストグラムである。切出処理部４は、Ｙ軸射影特徴抽出処理されたＹ軸射影Ｅ２をもとに、基本セグメントを作成する（Ｓ４）。この基本セグメントは、Ｙ軸射影のまとまり、すなわち黒画素分布のヒストグラムが連続しているところを基本セグメントとして決定している。例えば、図３（ｂ）におけるＹ軸射影Ｅ２は、部分Ｙ軸射影Ｅ２１〜Ｅ２６の６つのまとまりに区分することができ、各部分Ｙ軸射影Ｅ２１〜Ｅ２６に対応した基本セグメントＢＳ１〜ＢＳ６が基本セグメントとして決定される。この基本セグメントＢＳｉの添字ｉは、Ｙ軸の値が小さい方から（上の方から）順次割り付けられる。
【００２８】
さらに、切出処理部４は、隣接する基本セグメントＢＳ１〜ＢＳ６をマージして、候補セグメントの作成処理を行う（Ｓ５）。この基本セグメントのマージの基準は、次のとおりである。すなわち、
（１）マージ後のＹ軸方向の大きさが、マージ後のＸ方向の大きさの所定倍Ｐ１以下であること
（２）マージ後のＹ軸方向の大きさが固定値Ｐ２以下であること
（３）マージに使用された基本セグメントの面積の合計が、すべての基本セグメントの面積の合計の所定百分率Ｐ３以下であること
（４）マージする基本セグメント間の距離が、すべての基本セグメント間の距離の平均以下であること
を基準として決定される。なお、これらの基準はすべて満たすことが要求され、また、Ｐ１〜Ｐ３の値は予め設定されている。マージされた新しいセグメントと基本セグメントの双方が候補セグメントとなる。
【００２９】
このような基準をもとに例えば、図３（ｃ）に示す候補セグメントＣＳ１（１，１）〜ＣＳ８（４，５）の８つの候補セグメントが作成される。候補セグメントＣＳ１（１，１）〜ＣＳ６（６，６）は、基本セグメントＢＳ１〜ＢＳ６に対応し、それぞれ同じ内容のセグメントである。また、候補セグメント７（３，４）は、基本セグメントＢＳ３と基本セグメントＢＳ４とをマージしたセグメントであり、その意味で候補セグメントのかっこ内の符号は（３，４）として示している。かっこ内の最初の値「３」は基本セグメントＢＳ３の「３」の値であり、かっこ内の最後の値「４」は基本セグメントＢＳ４の「４」の値である。すなわち、候補セグメントのかっこ内の最初の値はマージした最初の基本セグメントの番号を示し、かっこ内の最後の値はマージした最後の基本セグメントの番号を示している。候補セグメントＣＳ８（４，５）は、基本セグメントＢＳ４，ＢＳ５をマージしたセグメントである。図３では存在しないが、例えば候補セグメントのかっこの値が（４，６）である場合は、基本セグメントＢＳ４，ＢＳ５，ＢＳ６をそれぞれマージしたことを示すことになる。以下、かっこ内の値を（starti，endi）と示し、これにより、マージされた範囲が示される。但し、startiとendiのiの値はＣＳ７やＣＳ８のように異なっていてもよい。
【００３０】
次に、切出処理部４は、マージの基準をもとにして合成された候補セグメントＣＳ１（１，１）〜ＣＳ８（４，５）を文字認識部５に送出し、文字認識部５は、個別文字認識辞書８をもとに、各候補セグメントの個別文字認識を行う（Ｓ６）。個別文字認識辞書８には、少なくとも上述した４つの単語を構成する全ての種類の文字が登録され、文字認識部５は、この登録された文字と各候補セグメントとのマッチング処理を行い、マッチング量が所定値以上の文字を各候補セグメントに対応する文字の可能があるとして対応づける。尚、登録文字としては、最低限、複数の文字列に使用される文字が該当するが、これを含んで更に、種々の文字を登録しておくとよい。文字の種類及び登録数はシステムに応じて任意に設定すればよい。例えば、図３（ｄ）において、候補セグメントＣＳ１（１，１）に対して所定値以上のマッチング量を有するものとして、「姫」、「郎」、「庫」、「兵」の４つの文字が選択されたことを示している。所定値以上のマッチング量を有する文字の個数をJとすると、ここではJは４となる。なお、この場合のマッチング量は、「姫」→「郎」→「庫」→「兵」の順である。この順序を「j」（j＝J以下の自然数）を用いて、各文字をＣＯＤＥjとして示し、マッチング量をσjとして示すことができる。例えば、ＣＯＤＥ１（ＣＳ１）は、「姫」であり、σ２（ＣＳ１）は、「郎」のマッチング量を示している。
【００３１】
次に、この各候補セグメントと個別文字認識結果は、知識処理部６に出力され、知識処理部６は、この対応関係および単語辞書９をもとに、最適な候補セグメントの組合せを選択して自由手書きされた文字列を認識する（Ｓ７）。その概要は、候補セグメントに対する文字認識結果の関係を、単語（文字列）に対する各候補セグメントの対応関係とした対応表６ａを生成し、文字列候補抽出部６ｂが文字列の順序関係から文字列候補を抽出し、評価・判定部６ｃが文字認識結果であるマッチング量等をもとに各文字列候補の評価を行い、この評価結果をもとに文字列の認識を行う。この知識処理の詳細については後述する。
【００３２】
このようにして知識処理部６で認識された結果は、仕分け装置７に出力され（Ｓ８）、仕分け装置７は、認識結果をもとに搬送されてきた当該紙媒体を仕分けする。
【００３３】
全ての紙媒体を処理したか否かを判断し（Ｓ９）、まだ処理すべき紙媒体が残っている場合には、ステップＳ１に移行して、上述したステップＳ１〜Ｓ８の処理を繰り返し、全ての紙媒体の処理が終了した場合は、本処理を終了する。尚、実際にはステップＳ５〜Ｓ８の途中において次の紙媒体は繰り出され、全体画像の取込み（Ｓ１）は行なわれている。
【００３４】
次に、図４〜図９を参照して、上述したステップＳ７の知識処理について詳述する。以下、図４のフローチャートが示す、ステップＳ７の知識処理手順の順序で説明するが、まずこの処理の前に初期化処理を行う。すなわち、図６に示すインデックス表を作成する。このインデックス表は、図５に示す単語辞書９をもとに作成され、単語辞書９を構成する全ての文字について各文字が単語辞書９内の何番目の単語（すなわち、単語番号）で、かつ何番目の文字（すなわち、文字番号）であるかが対となって示される。例えば、「姫」は、単語辞書９内で１番目の単語における１文字目（単語番号＝１，文字番号＝１）と、４番目の単語における１文字目（単語番号＝４，文字番号＝１）であるので、インデックス表では、文字「姫」に対して（１，１），（４，１）のアドレス情報が対応づけられる。
【００３５】
（１）対応表の作成（ステップＳ１１）
知識処理部６は、図７に示すような対応表を作成する。この対応表は、各単語毎、該単語を構成する各文字がどの候補セグメントに対応しているかを示す作業用シートである。
【００３６】
この対応表の作成は、まず候補セグメントＣＳi（i＝自然数であり、候補セグメントの個数までの数）が文字認識結果の文字ＣＯＤＥjを有するとき、インデックス表を参照して、対応表における文字ＣＯＤＥjの行に、候補セグメントＣＳiの添字iを書き込む。
【００３７】
例えば、候補セグメントＣＳ１の文字認識結果の１つである文字ＣＯＤＥ１＝「姫」は、インデックス表の「姫」の行に記載された情報（１，１），（４，１）をもとに、対応表の単語番号１の１文字目の行、および単語番号４の１文字目にＣＳ１の添字「１」を書き込む。候補セグメントＣＳ１のＣＯＤＥ２＝「郎」については、単語番号２の５文字目および単語番号３の４文字目にＣＳ１の添字「１」を書き込む。同様に、候補セグメントＣＳ１の文字ＣＯＤＥ３＝「庫」については、単語番号３の２文字目にＣＳ１の添字「１」を書き込む。最後に、候補セグメントＣＳ１の文字ＣＯＤＥ４＝「兵」については、単語番号２の３文字目および単語番号３の１文字目にＣＳ１の添字「１」を書き込む。このようにして候補セグメントＣＳ１に対する処理を終了し、同様にして、残りの他の候補セグメントＣＳiの処理を行う。
【００３８】
ここで、図７の対応候補セグメントの欄の数字は、各単語毎、単語内の文字に対応する候補セグメントの番号を示し、候補セグメントＣＳi（starti，endi）の「starti」の「i」の値が文字番号よりも小さいときは、そのような対応関係は有り得ないので、この候補セグメントの添字を対応表から予め除外しておく。図７では、除外される対応候補セグメントの添字に×印を付している。これにより、事後の処理が軽減される。
【００３９】
（２）不対応文字を含む単語候補の棄却（ステップＳ１２）
ステップＳ１１の対応表の作成の結果、各単語の各文字には、対応する候補セグメントが複数あるものや、全くないものがある。例えば、図７の単語番号１の３番目の文字「赤」には、３つの候補セグメントが対応し、単語番号２の５番目の文字「郎」には、対応する候補セグメントが全くない（上記（１）で除外されているので）。対応する候補セグメントが全くない文字を含む場合、そのような単語が記載されることはないと判断される。例えば、単語番号２の「赤穂兵太郎」の５番目の文字「郎」に対応する候補セグメントは全く存在しないため、「赤穂兵太郎」の単語は記載されていないと認識され、その単語は認識候補から除外される。一般的には、対応する候補セグメントが存在する文字の個数が、単語の文字数より小さいとき、その単語を認識候補から除外する。図８は、そのような対応関係を示した図であり、単語番号２と単語番号３の単語が認識候補から除外されることになる。従って、この処理によって、単語番号１と単語番号４の単語が認識候補となり、いずれかの単語が紙媒体に記載された単語であることになる。
【００４０】
（３）順序関係のチェック（ステップＳ１３）
次に、隣合う文字間で、対応する候補セグメント間の順序関係が成立するか否かをチェックする。単語の文字の順序は既に文字列の順序で対応表に並んでおり、また、対応する候補セグメントに対しては添字の値が順序を示しており、これらの順序および値をもとに順序関係をチェックすることになる。このとき、上述したノイズが混入されていることを考慮すると、順序関係が成立する条件は、具体的演算において次のようになる。すなわち、
「ある単語における、i番目の文字に対応する候補セグメントＣＳj1（startj1，endj1）と、i+1番目の文字に対応する候補セグメントＣＳj2（startj2，endj2）との間で、endj1＜startj2が成立すること」
である。例えば、図７の単語番号１における１番目の文字「姫」に対応する候補セグメントＣＳ１（１，１）と２番目の文字「路」に対応する候補セグメントＣＳ２（２，２）との間では、end1＝１＜start2＝２であり、順序関係が成立する。また、単語番号１における２番目の文字「路」に対応する候補セグメントＣＳ２（２，２）と３番目の文字「赤」に対応する候補セグメントＣＳ８（４，５）との間でも、end2＝２＜start8＝４であるので、順序関係が成立する。しかし、単語番号１における１番目の文字「姫」に対応する候補セグメントＣＳ２と２番目の文字「路」に対応する候補セグメントＣＳ２との間では、end2＝２＝start2＝２であり、順序関係は成立しない。
【００４１】
これにより、図７の破線で示すように順序関係を満足するリンクができることになる。
【００４２】
（４）連結リストの作成と未対応の候補セグメントの抽出（ステップＳ１４）
ステップＳ１３の処理によって順列関係がＯＫとなる候補セグメントのみをつないでリストを作り、これを連結リストと呼ぶ。図９に示すように、連結リストＣＬ１＿１〜ＣＬ１＿３、ＣＬ４＿１〜ＣＬ４＿３が生成される。そして、連結リスト毎に、使用されていない候補セグメント、すなわち未対応の候補セグメントを抽出する。但し、未対応の候補セグメントは、構成される基本セグメントの個数が１つであるものの中から選択する。例えば、連結リストＣＬ１＿３は、候補セグメントＣＳ１，ＣＳ２，ＣＳ８，ＣＳ６からなり、候補セグメントＣＳ３，ＣＳ４，ＣＳ５，ＣＳ７を含まないが、候補セグメントＣＳ３，ＣＳ４，ＣＳ５，ＣＳ７の全てを未対応の候補セグメントとせず、ＣＳ３のみを未対応の候補セグメントとして選択する。なぜなら、基本セグメント１個からなるものはＣＳ３、ＣＳ４、ＣＳ５であり、その内ＣＳ４とＣＳ５は候補セグメントＣＳ８で用いられているので、結局候補セグメントＣＳ３のみを未対応とすればよいからである。
【００４３】
（５）配置関係のチェック（ステップＳ１５）
各連結リストを構成する文字列に対し、外接する矩形の横幅あるいは高さ、および重心位置等から配置関係をチェックし、文字間で大きさが極めて異なる文字列、あるいは文字間ピッチが極めて不均一であるといった配置バランスの悪い文字列については、その連結リストを除外する処理を行う。この処理についは周知の技術を用いることによって達成することができる。尚、図３に示す実施例から作成された連結リスト（図９）の例では、除外されるものはない。
【００４４】
（６）評価量の算出（ステップＳ１６）
ステップＳ１５までの処理で残った連結リストのそれぞれに対する評価量を算出する。そして、各単語内で最大となる連結リストをその単語に対する評価値とし、かつ候補セグメントの対応関係とする。各連結リストの評価量Ｔは、次式による。すなわち、

である。ここで、Ω１は、連結リストを構成する候補セグメントの集合であり、Ω２は、連結リストに含まれない未対応の候補セグメントの集合である。また、Ｌ（CS）は、候補セグメントＣＳの大きさを表す量、例えば、ＣＳの高さあるいは黒画素数等である。Ｓi（CS）は、候補セグメントＣＳを、当該単語の第i番目の文字で読んだときのマッチング量である（連結リストの第i番目の候補セグメントとＣＳは一致する）。また、Ｎ（CS）は、候補セグメントＣＳをノイズとみなしたときの評価値であり、例えば当該単語のいずれかの文字として認識した場合のマッチング量よりも小さい一定値、あるいはσJ+1（CS）を当該評価値とする。
【００４５】
ここで、図９に示す連結リストＣＬ１＿１の評価量を例にとって説明すると、まず、連結リストは、候補セグメントＣＳ１→ＣＳ２→ＣＳ４→ＣＳ６からなり、未対応の候補セグメントは、候補セグメントＣＳ３，ＣＳ５である。そこで、上式の評価量Ｔの式に当てはめると、その分子の第１項は、Ｓ1（ＣＳ１）Ｌ（ＣＳ１）＋Ｓ2（ＣＳ２）Ｌ（ＣＳ２）＋Ｓ3（ＣＳ４）Ｌ（ＣＳ４）＋Ｓ4（ＣＳ６）Ｌ（ＣＳ６）となる。Ｓ1（ＣＳ１）は、候補セグメントＣＳ１を単語番号１の「姫路赤子」の１文字目の「姫」と読んだときのマッチング量σ１（ＣＳ１）に等しい。すなわち、Ｓ1（ＣＳ１）＝σ１（ＣＳ１）となる。同様にして、Ｓ2（ＣＳ２）＝σ１（ＣＳ２）、Ｓ3（ＣＳ４）＝σ１（ＣＳ４）、Ｓ4（ＣＳ６）＝σ１（ＣＳ６）となる。
【００４６】
また、分子の第２項は、Ｎ（ＣＳ３）Ｌ（ＣＳ３）＋Ｎ（ＣＳ５）Ｌ（ＣＳ５）であり、Ｎ（ＣＳ３）は、候補セグメントＣＳ３をノイズとみなしたときの評価量、例えばσ３（ＣＳ３）となる。これは、ＣＳ３の「J」の値は２まであり、σJ+1＝σ３となるからである。つまり、候補セグメントＣＳ３をノイズとみなすので、文字認識結果が所定値以上とならなかった３番目のマッチング量を用いている。同様にして、Ｎ（ＣＳ５）＝σ３（ＣＳ５）となる。
【００４７】
従って、連結リストＣＬ１＿１に対する評価量Ｔは次のようになる。すなわち、
Ｔ＝（σ１（ＣＳ１）Ｌ（ＣＳ１）＋σ１（ＣＳ２）Ｌ（ＣＳ２）＋σ１（ＣＳ４）Ｌ（ＣＳ４）＋σ１（ＣＳ６）Ｌ（ＣＳ６）＋σ３（ＣＳ３）Ｌ（ＣＳ３）＋σ３（ＣＳ５）Ｌ（ＣＳ５））／（Ｌ（ＣＳ１）＋Ｌ（ＣＳ２）＋Ｌ（ＣＳ４）＋Ｌ（ＣＳ６）＋Ｌ（ＣＳ３）＋Ｌ（ＣＳ５））
となる。このようにして、マッチング量と候補セグメントの大きさを表す量とをもとに評価量を求めることができる。この結果、図９に示す連結リストのうち、単語番号１の「姫路赤子」に対しては、連結リストＣＬ１＿３＝（ＣＳ１，ＣＳ２，ＣＳ８，ＣＳ６）と未対応の候補セグメントＣＳ３との組が評価量が大きいとして選択され、単語番号４の「姫路一子」に対しては、連結リストＣＬ４＿２＝（ＣＳ１，ＣＳ２，ＣＳ３，ＣＳ６）と未対応の候補セグメントＣＳ４，ＣＳ５との組が評価量が大きいとして選択される。
【００４８】
（７）単語認識結果の決定（ステップＳ１７）
ステップＳ１６で選択された連結リストの評価量Ｔの値が所定のしきい値以上をもつ連結リストが唯一であるとき、この連結リストの単語を認識結果として出力し、所定のしきい値以上をもつ連結リストがひとつもないときは読取単語候補なしとしてリジェクトし、所定のしきい値をもつ連結リストが２つ以上存在するときも、判定不能としてリジェクトする。
【００４９】
図９に示す連結リストからは、連結リストＣＬ１＿３が所定のしきい値以上の評価量を有し、連結リストＣＬ４＿２が所定のしきい値以上の評価量を有しないとして、連結リストＣＬ１＿３が示す「姫路赤子」が認識結果として出力され、連結リストＣＬ４＿２が示す「姫路一子」は認識結果として採用されず、結果的に「一」がノイズパターンとして解釈されることになる。
【００５０】
このように、本実施の形態による知識処理によれば、上述した「一」のような、紙媒体の折り目や、文字と背景との濃淡差が少ない入力系の品位の低さに起因したノイズを含む入力パターンであっても、適正かつ効率的に入力された文字列を読み取ることができる。
【００５１】
なお、上述した入力系の品位の低さ等に起因するノイズパターンに限らず、二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する入力パターンであっても、上述した知識処理に適用できる。
【００５２】
また、上述した実施の形態では、縦書きの文字列として説明したが、もちろん横書きの文字列に適用できるのは明らかである。この場合、Ｘ軸射影特徴抽出処理を行うとよい。さらに、射影特徴抽出のみを用いて基本セグメントを決定しているが、黒画素の連結成分の解析に基づいて行ったり、これらを融合した方法等各種の方法によって基本セグメントの決定を行うようにしてもよい。
【００５３】
さらに、単語辞書における単語の長さや個数が増加しても、上述した知識処理は線形のオーダーの増加にとまり、処理量の大きな増加はないため、文字列が記入された複数の紙媒体の仕分け処理にかかる時間も増大しない。
【００５４】
【発明の効果】
以上詳細に説明したように、請求項１から請求項６の発明では、入力系の品位の低さに起因したノイズ、あるいは二重線・消し込み・塗りつぶし等の訂正書き等のパターンで文字の大きさに近いノイズ等の文字以外のパターンが混在する文字列の入力パターンであっても、文字列の順序関係をもとに、適正かつ効率的に入力された文字列を読み取ることができるという効果を有する。
【００５５】
特に、このような順序関係をもとに文字列候補を抽出するようにしているので、文字列の文字数が増大したとしても、文字列候補の組合せ数は、線形のオーダーで増加するに過ぎず、文字列の文字数の増大に伴って処理量が急激に増大することはなく、効率的な知識処理を達成することができるという効果を有する。
【００５６】
また、請求項２の発明では、さらに文字列候補の抽出時に文字列の順序関係を満たさない候補セグメントのみが対応づけられた文字をもつ文字列を抽出対象から予め削除しておくことにより、文字列候補の抽出処理を効率的に行うことができるという効果を有する。
【００５７】
さらに、請求項３の発明では、抽出された文字列候補を評価する際、文字列候補に含まれない候補セグメントも含めて評価するようにしているので、より適正な評価・判定を行うことができるという効果を有する。
【００５８】
また、請求項４の発明では、文字列候補の評価値が所定値以上で、かつ唯一の場合のみに当該文字列候補に対応する文字列を文字認識結果として判定するので、さらに適正な文字列の認識を行うことができるという効果を有する。
【図面の簡単な説明】
【図１】本発明の実施の形態である文字認識装置を用いた仕分けシステムの概要構成を示す図である。
【図２】文字認識装置２の文字読取処理手順を示すフローチャートである。
【図３】文字読取処理手順における個別文字認識処理までの処理を説明する具体例を示す図である。
【図４】ステップＳ７の知識処理手順を示すフローチャートである。
【図５】単語辞書の一例を示す図である。
【図６】インデックス表の一例を示す図である。
【図７】対応表の一例を示す図である。
【図８】不対応文字を含む単語の棄却の一例を示す図である。
【図９】連結リストと未対応の候補セグメントとの組を示す図である。
【符号の説明】
１…繰出装置２…文字認識装置３…画像入力部４…切出処理部
５…文字認識部６…知識処理部６ａ…対応表６ｂ…文字列候補抽出部
６ｃ…評価・判定部７…仕分け装置Ｃ…制御部

Claims

文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第１のステップと、
認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第２のステップと、
前記第２のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第３のステップと、
前記第３のステップで決定した各候補セグメントを前記第１のステップで登録した文字列を構成する各文字を参照して文字認識する第４のステップと、
前記第４のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第１のステップで登録された複数の文字列の各文字に対応付ける第５のステップと、
前記第５のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第６のステップと、
前記第６のステップで抽出された文字列候補と前記第１のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第７のステップと
を具備したことを特徴とする文字認識方法。
前記第６のステップは、
前記複数の文字列の順序に適合しない候補セグメントを削除し、この結果前記文字列の文字数に満たない候補セグメントの組合せとなる文字列を予め削除した後前記文字列候補を抽出する
ことを特徴とする請求項１に記載の文字認識方法。
前記第６のステップは、
前記文字列候補に含まれない前記候補セグメントを各文字列候補に対応させて保持し、
前記第７のステップは、
前記文字列候補を構成する各候補セグメントおよび前記第６のステップで保持した候補セグメントと前記第１のステップで登録された文字列の各文字とのマッチング量と、各候補セグメントのエリアの大きさとをもとに各文字列候補の評価値を算定して判定する
ことを特徴とする請求項１または２に記載の文字認識方法。
前記第７のステップは、
前記文字列候補の評価値が所定値以上の評価値を有し、かつ前記所定値以上の評価値を有する文字列候補が唯一の場合に、当該文字列候補を前記読取対象媒体上に記入された文字列として判定する
ことを特徴とする請求項１〜３のうちのいずれか１項に記載された文字認識方法。
文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する登録手段と、
認識対象エリアから画素分布が連続している基本セグメントを切り出す切出手段と、
前記切出手段で切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する候補セグメント決定手段と、
前記候補セグメント決定手段で決定した各候補セグメントを前記登録手段で登録した文字列を構成する各文字を参照して文字認識する文字認識手段と、
前記文字認識手段で文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記登録手段で登録された複数の文字列の各文字に対応付ける対応付手段と、
前記対応付手段で各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する抽出手段と、
前記抽出手段で抽出された文字列候補と前記登録手段で登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する判定手段と
を具備したことを特徴とする文字認識装置。
読取対象媒体上に記載された文字列の画像をもとに当該文字列の文字認識を行う文字認識処理をコンピュータにより実行させる文字認識プログラムを記録した記録媒体であって、
前記文字認識プログラムは、
文字認識対象の複数の文字列を該文字列を構成する各文字の順序とともに予め登録する第１のステップと、
認識対象エリアから画素分布が連続しているセグメントを基本セグメントとして切り出す第２のステップと、
前記第２のステップで切り出した基本セグメントおよび該基本セグメントの中で隣接する基本セグメントを所定の基準に基づき連結したセグメントを文字認識の候補セグメントとして決定する第３のステップと、
前記第３のステップで決定した各候補セグメントを前記第１のステップで登録した文字列を構成する各文字を参照して文字認識する第４のステップと、
前記第４のステップで文字認識した所定のマッチング量以上の文字認識結果を有する候補セグメントを前記第１のステップで登録された複数の文字列の各文字に対応付ける第５のステップと、
前記第５のステップで各文字が対応付けられた複数の文字列毎に該文字列の順序関係に適合する候補セグメントの組合せからなる文字列候補を抽出する第６のステップと、
前記第６のステップで抽出された文字列候補と前記第１のステップで登録された文字列とのマッチング量をもとに各文字列候補の評価値を算定して前記読取対象媒体上に記入された文字列を判定する第７のステップと
を含むことを特徴とする文字認識プログラムを記録した記録媒体。