JP2004062385A

JP2004062385A - 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置

Info

Publication number: JP2004062385A
Application number: JP2002217969A
Authority: JP
Inventors: Toshihiro Suzuki; 鈴木　俊博
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2002-07-26
Filing date: 2002-07-26
Publication date: 2004-02-26

Abstract

【課題】処理対象の文字列画像における文字形態が変わっても、その変動に対応して高い文字候補の切り出し精度を維持する。
【解決手段】認識対象の文字列画像、正解情報（使用文字の正しい外接矩形座標値等）が入力される。入力文字列画像に対して断面系列法を適用し、断面系列情報をもとに上下の階層で表現した文字要素情報（図中（ｉ）に示すように、上位：Ｃ１、下位：ＳＳ，ＳＲ）を生成する。この文字要素を単独か任意に組み合わせて、図に例示する文字候補１〜８を生成した後、各文字候補に対して、非文字か文字かを評価する。評価方法は、各文字候補と正解情報の文字の外接矩形を比較し、矩形座標値が一致するか否かにより、各候補に対する非文字／文字の判定結果を文字列画像に対する文字候補生成（文字切り出し）処理に利用するために管理する。
【選択図】　　　　図４

Description

【０００１】
【発明の属する技術分野】
本発明は、ＯＣＲ（光学的文字読み取り装置）等に利用される文字認識技術に関し、より特定すると、文書原稿から読み取った文字列画像をもとに文字認識の対象となる文字候補の生成（文字単位の切り出し）を高精度に行うために、文字候補に対して非文字か文字かの評価に用いる非文字データを生成する処理ステップを有した文字認識方法、該方法の実行に用いるプログラム及び文字認識装置に関する。
【０００２】
【従来の技術】
従来のＯＣＲ（光学的文字読み取り装置）においては、スキャナーにより文書原稿から読み取った画像に基づいて原稿に記された文字を認識する処理を行っている。この処理を行う際に、読み取った画像に含まれる文字列画像をもとに文字認識の対象となる文字候補を生成する（文字単位の切り出しを行う）が、この文字候補の生成を精度良く行うことは、認識の正確さを保証するために不可欠である。
文字候補の生成（切り出し）に用いる方法として、入力文字列画像から図形としてまとまりのある単位パターンを抽出し、その単位パターン或いはその組み合わせを文字候補として切り出し、切り出した文字候補の図形的特徴を一文字単位であることの確からしさの評価基準として用いて、目的とする一文字単位の切り出しを行うという方法が従来から知られている。
例えば、特許第２６７１５３３号（文字列認識方法及びその装置）をこの流れにある方法の一例として示すことができる。ここには、候補文字パタンの形状評価値と文字認識評価値とを合成した特性値を算出し、これに基づいて最良の文字列評価値をもたらす解釈を選択するという方法が開示されおり、文字候補を生成して最良の解釈を選択するという意味で、標準的な手法と言える。
また、特公平０７−０９２８１８号（パターン切出しおよび認識方法とそのシステム）をこの流れにある他の例として示すことができる。ここには、接触文字（隣接文字同士が接触し、連結した形状部分を構成する）が対象となった場合の対応を可能にする切り出し処理が示され、接触文字間に観測される事象に対応できるように、切り出した単位パターンとその組み合わせからなる複数のパターンを対象に文字認識処理を行い、その認識結果から最終的な解を判定するために予め書き換え規則を定めている。これによって、途中の切り出し結果が誤った場合でも、文字候補の並びに基づく後処理（書き換え規則）によって正しい切り出し結果を得ることを可能にしている。
【０００３】
【発明が解決しようとする課題】
しかしながら、例示した特許第２６７１５３３号においては、一般的な選択手法が開示されているものの、選択基準をどのように設定するかは記載されておらず、試行錯誤的に定められることになるものと考えられるが、実際に適用する対象に対して予め用意された選択基準が最適である保証はなく、適用対象の文字形態の変動に対して安定した切り出し精度を確保するには限界があり、最適化を目指して精度向上を図る場合には、試行錯誤的な努力が必要になると推測される。
また、例示した特公平０７−０９２８１８号では、ここでも実際に適用する対象に対して予め用意された書き換え規則が万全であるという保証はなく、やはり適用対象の文字形態の変動に対して安定した精度を確保するには限界があり、最適解を得るための書き換え規則を予め定めるためには、多くの労力を要するであろうと推測される。
このように、従来技術においては、文字列認識（切り出し）精度向上の省力化・自動化という問題を抱えている。
本発明は、処理対象として入力された文字列画像から文字単位を含むと見なせる文字候補を切り出し、切り出した文字単位を対象に文字認識を行う際に必要とされる文字候補の切り出し処理における上述の従来技術の問題に鑑みてなされたものであり、その目的は、処理対象として入力された文字列画像における文字形態が変わっても、その変動に対応して高い切り出し精度を維持することを可能にする手順を文字認識手段（装置）側に用意し、手段（装置）の利用者に負担を掛けること無くその問題が解決できるようにし、しかも簡単な方法によりその実現を図ることを可能にする文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
【０００４】
【課題を解決するための手段】
請求項１の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【０００５】
請求項２の発明は、請求項１に記載された文字認識方法において、前記文字候補の非文字らしさを評価・判定するステップとして、非文字らしいと評価されなかった文字候補に対して候補同士の外接矩形の一致を検出するステップと、外接矩形の一致が検出された場合に該当する文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップを付加したことを特徴とする方法である。
【０００６】
請求項３の発明は、請求項２に記載された文字認識方法において、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップの評価・判定結果に文字コード、確信度の少なくともいずれかを用いることを特徴とする方法である。
【０００７】
請求項４の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、生成された文字候補の組み合わせに文字列解釈を適用し、最適な組み合わせを選択する文字列解釈ステップと、前記文字切り出し時文字認識ステップ及び前記文字列解釈ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【０００８】
請求項５の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像における文字群の外接矩形に基づいて求めた形状情報にランダムな係数値を適用して得た領域情報によって文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた前記各文字に固有の基準外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【０００９】
請求項６の発明は、請求項１乃至５のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【００１０】
請求項７の発明は、請求項６に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置である。
【００１１】
【発明の実施の形態】
本発明は、文字列認識（切り出し）精度の向上に必要となる、非文字データを自動生成することにある。すなわち、処理対象として入力された文字列画像における文字形態の変動に適応して、文字列認識の（切り出し）精度を高度に維持するために、切り出された文字候補の中で文字ではないもの（非文字と呼ぶ）を学習用のデータとして作成することが必要であり、そのための手順を提供するものであり、これにより文字列認識（切り出し）精度向上の実現に際し、その省力化が図られる。
以下の各実施形態には、本発明を特徴付ける非文字データの生成に関する手順を中心に実施に係わる形態を例示する。従って、文字認識処理全体、即ち、対象画像の入力から最終的に文字認識の最適解を得るまでの全ステップについて、説明をしないが、文字認識に必要な基本的な手順は従前から知られている手順に従って実施し得るものとし、ここでは詳細な説明は省略し、必要な部分については説明を加えることとする。
また、以下の実施形態では、予め文字辞書として、各文字の文字コード、文字に固有の画像特徴（この要素として、文字に固有の外接矩形の基準値（例えば座標位置で表現された情報）といった形状特徴）が与えられている。なお、以下の記述で各文字の“正解情報”という場合には、文字辞書に記載された各文字の文字コードや文字に固有の外接矩形の位置情報を指す。
【００１２】
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
先ず、下記「実施形態１」〜「実施形態４」の実施に共通に用いる処理システムを説明する。図１は、この処理システムを構成する機能ブロック図を示すものである。
図１を参照すると、１は例えばスキャナ等の画像データを入力する画像入力部、２は入力画像データから文字の構成要素を抽出する文字要素生成部、３は文字要素から文字候補を生成する文字候補生成部、４は切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識部（識別器）、５は文字候補を対象にして文字らしさを評価する非文字評価部、６は文字候補により構成する文字列候補を対象に最も妥当な文字列解釈により正解を選択する文字列解釈選択部、７は文字・非文字の生成結果の生成データを出力する出力部である。なお、入力される画像データは２値でも多値でもよいが、多値の場合は、所定の閾値で画像の白／黒を判定しながら処理を行う。また、この処理システムを構成する機能ブロック各部の詳細は、以下の実施形態にて追記する。
【００１３】
「実施形態１」
本実施形態は、図１に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、文字候補を文字要素に基づいて生成し、得られた文字候補に非文字の評価を行うという手順による生成プロセスの基本的な実施形態を示す。なお、この実施形態における非文字の生成プロセスでは、図１に示した処理システムの構成要素のうち、文字認識部（識別器）４および文字列解釈選択部６は必須ではない。
図２は、本実施形態の非文字を生成する処理のフローチャートを示す。
図２を参照すると、本実施形態フローでは、先ず、入力部１により認識対象となる文字列画像と、正解情報（文字列を構成するために使用される各文字種の外接矩形の座標値）とが入力される（Ｓ２１）。なお、正解情報は、文字認識に用いる辞書データの一部を構成するものとして入力されるものであっても良い。
入力された文字列画像と正解情報の一例を図３（ａ）に示す。同図中において文字列画像「５０２」（ここでは手書き文字のように接触文字「５０」を有する文字列が示されている）は入力画像を、又破線で示す矩形は正解情報、即ち「５」と「０」の外接矩形の基準（正解）値を表すものとして示されている。
【００１４】
次に、ステップＳ２１で入力された文字列画像をもとに文字要素生成部２で文字要素を生成する（Ｓ２２）。文字要素の生成は、本実施形態においては、例えば、断面系列法（この方法の原理と利用法については、特開２００１−３４４５６９号（以下、「先行例」という）参照）を適用する。この方法では、入力文字列画像を断面系列グラフの上下二階層の文字要素により表現する。
図３（ｂ）は、入力文字列（図３（ａ））に断面系列法を適用し、上下二階層の断面系列情報により表現した文字要素を説明する図である。同図に示すように、下位層は断面系列グラフ（“断面”は文字の線分方向に直交するように求めた境界点ペアであり、“断面系列”は断面の一連の並びである）を用いており、ＳＳと表記されるのが断面系列である。断面系列は、文字における通常の線分領域に相当する。ＳＲと表記されるのが特異領域である。特異領域とは、端点領域、屈曲領域、分岐・交差領域に相当する。また、上位層は境界点列を基礎とする連結成分（輪郭）に相当する。図３（ｂ）では、｛Ｃ０，Ｃ２｝で一つの連結成分を表すことになる。
ここに、二つの階層には冗長性があるが、これは精度と処理量のトレードオフを調整するためである。上位層は要素数が少ないため、処理量圧縮を指向する。いっぽう、下位層は、文字の構成要素をより詳細な部品の組み合わせで表現するため、処理量は増加するが処理精度を高めることができる。例えば、図３において、「５」と「０」が接触しているが、上位層は両者を併せたものを１つの要素と表現することになり、これ以上の分解が困難であるのに対し、下位層であれば、ＳＲ１で分割することによって、それぞれの文字を取り出すことが容易に可能となる。
したがって、階層性をうまく使い分けることで、精度と処理量のバランスを図ることができる。ここでは、階層選択を行って、図４（ｉ）のような文字の構成要素が残されたと仮定する。つまり、「５」「０」に下位層を適用して文字要素を断面系列ＳＳと特異領域ＳＲで表し、「２」に上位層を適用して文字要素を連結成分Ｃ１で表す。
【００１５】
次に、ステップＳ２２で生成された文字要素を単独で用いるか、或いは任意に組み合わせることにより、文字候補を生成する（Ｓ２３）。即ち、文字要素の生成処理により、図４（ｉ）のような形態で取り出された文字要素に対して文字候補生成部３において文字候補の生成処理を適用する。この処理の結果、本例では同図（ａ）〜（ｈ）の候補１〜８が生成されるとする。つまり、断面系列ＳＳを特異領域ＳＲで切り離して生成される文字要素を単独或いは他の要素と組み合わせて構成したものを含んだ形で文字候補を生成する。
上記のような方法を適用することにより対象文字列画像から文字候補を生成する処理を実行することが可能になる。なお、上述の文字要素の生成及び文字候補の生成についての詳細は、上記した先行例を参照することとする。
ステップＳ２３により文字候補を生成した後、生成した各文字候補に対して、非文字か文字かを非文字評価部５で評価する（Ｓ２４）。
評価の方法は、各文字候補の外接矩形とステップＳ２１で入力された正解情報の文字の外接矩形を比較し、その矩形の座標値が一致するか否かによって判定する。図４の例では、候補２、候補６および候補８が入力された正解座標値情報と一致するので、文字と判定される。これら以外の候補１、候補３、候補４、候補５および候補７は一致しないので、非文字と判定される。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字／文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし（Ｓ２４）、文字である場合には文字として集計し（Ｓ２５）、他方、非文字である場合には非文字として集計する（Ｓ２６）。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し（Ｓ２７）、この処理を終了する。
管理された各文字候補に対する非文字／文字情報は、この処理システムに今後処理の対象として入力されてくるであろう文字列画像に対する文字切り出し処理の判断材料として用いることが可能であり、この非文字／文字情報を用いることにより、さらに高精度の文字切り出し（文字候補の判定）を高効率に行うことを可能にする。
【００１６】
「実施形態２」
本実施形態は、図１に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態１」に示した基本的な生成プロセスに改善を加えるもので、「実施形態１」において文字と判定された中に含まれるエラーを修正することを可能にする処理手順を付加することを特徴とする。
文字と判定された中に含まれる上記したエラーは、「実施形態１」では、外接矩形の座標値のみに基づいて正解情報との照合をとっているために生じるものである。つまり、外接矩形が同一であっても、例えば、図４の候補１と候補２に関して、「５」という文字の横棒の突き出しが短い場合、横棒のない「５」との関係がこれに相当するものとなる。この場合には、「実施形態１」においては、ともに「文字」と判定されてしまうが、期待されるのは候補１を「非文字」とし、候補２のみを「文字」とすることである。従って、候補１を「非文字」と修正し、エラーを解消することを可能にするための処理手順を追加する。
なお、この実施形態における非文字の生成プロセスでは、図１に示した処理システムの構成要素のうち、「実施形態１」では文字認識部（識別器）４が用いられないのに対し、ここでは文字認識部（識別器）４を用いる。
【００１７】
図５は、本実施形態の非文字を生成する処理のフローチャートを示す。
図５を参照すると、本実施形態フローでは、「実施形態１」における処理との違いは、最初の非文字評価（Ｓ３４）の後である。そこまでは「実施形態１」と共通である（図２のステップＳ２１〜２４、参照）から、ステップＳ３４までの説明は省略する。
ステップＳ３４で文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字／文字に分け、次に行う処理を分岐するために各文字候補の判定結果が非文字か文字かをチェックし（Ｓ３４）、非文字である場合には、そのデータを管理するために非文字として第一次の集計を行う（Ｓ２６）。
他方、各文字候補の判定結果をチェックし、文字である場合には、ステップＳ３４で非文字か文字かを判定するために外接矩形の座標値を正解情報と照合し、一致を検知したときと同じ外接矩形の座標値を持つ文字候補が他に存在したか（同じ外接矩形を持つ文字候補が複数あるか）を調べ（Ｓ３６）、文字候補が他にあった場合には、該当する文字候補に対して文字認識部（識別器）４を用いて個別に文字認識処理を行い（Ｓ３７）、非文字／文字を確認する。即ち、この認識処理を行い、得た認識結果に付随する確信度等の情報を用いて、最も正解らしいものを「文字」と判定し、その他のものを「非文字」と判定する。
処理手順としては、文字認識を行い、その結果、最も正解らしいと判定された文字候補を文字と判定して、そのデータを管理するために文字として集計を行う（Ｓ４０）。このとき、認識結果として得られた文字コード、確信度の少なくともいずれかを管理データとして用いて保存する。なお、文字として集計される文字候補は、ステップＳ３６で同じ外接矩形の座標値を持つ文字候補が他に存在しなかった場合の候補も含まれるので、そのデータも対象となる。
また、文字認識を行い、その結果、最も正解らしいと判定された文字候補以外の文字候補については（Ｓ３８−ＮＯ）、一旦文字と判定されたが、非文字に修正し、非文字として第二次の集計を行う（Ｓ３９）。
それぞれの集計結果（Ｓ３５，Ｓ３９，Ｓ４０）を、非文字として集計された文字候補群のデータと、文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し（Ｓ４１）、この処理を終了する。
【００１８】
「実施形態３」
本実施形態は、図１に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態１」に示した基本的な生成プロセスにさらに文字候補への文字認識と文字列解釈という別の観点による判断を加えて非文字の生成を行うもので、「実施形態１」が、少ない処理量でたくさんの非文字情報を生成するのに対し、本実施形態は、文字列認識の切り出し精度向上に対して、より効果的な非文字情報を区別することを特徴とする。なお、この実施形態における非文字の生成プロセスでは、図１に示した処理システムの構成要素のうち、「実施形態１」では文字認識部（識別器）４が用いられないのに対し、ここでは文字認識部（識別器）４と文字列解釈選択部６とを含む全ての構成要素を用いる。
図６は、本実施形態の非文字を生成する処理のフローチャートを示す。
図６を参照すると、本実施形態フローでは、「実施形態１」における処理との違いは、最初の非文字評価（Ｓ５６）の後にある。そこまでは「実施形態１」と共通している（図２のステップＳ２１〜２６、参照）から、ステップＳ５６までの説明は省略する。
抽出された文字候補に対して正解情報（外接矩形）との一致性による評価をして、第一次の非文字データを求め、そのデータを管理した（Ｓ５６）後、次に同じ文字候補に対して、候補毎に個別に（図４の例でいえば、候補１〜候補８のそれぞれに）文字認識部（識別器）４を適用して文字認識を行う（Ｓ５７）。
引き続いて、文字列解釈選択部６により文字列解釈を生成して、妥当な解釈を選択する処理を行う（Ｓ５８）。文字列解釈とは、一行の文字列を構成する要素を（多少の重複は許すが）過不足なく用いて、文字列を解釈するものであり、文字列候補を生成することと同義である。
【００１９】
図４の例に対しては、下記〔１〕〜〔ｎ〕の文字列候補が生成されるとする。
〔１〕　候補１−候補４−候補６−候補８
〔２〕　候補１−候補４−候補７
〔３〕　候補１−候補５−候補８
…
〔ｎ〕　候補３−候補８
この文字列候補から、形状情報（正解情報に含まれる文字外接矩形の座標値等）や認識結果情報などを総合して最も文字列解釈として妥当なものが選択される。選択の方法としては、先行例（特開２００１−３４４５６９号）において開示された方法をそのまま適用できるので、説明は省略する。
この文字列解釈で、例えば、解釈の対象となったものが
〔ｎ〕　候補３−候補８
であったとする。この場合、正解情報（各文字の座標値）と照らし合わせると、候補３が非文字であることがわかる。即ち、この文字列解釈選択部６にとって、候補３は誤りやすいものであることがわかる。「実施形態１」との比較でいえば、「実施形態１」では一般的な非文字である｛候補１，候補３，候補４，候補５，候補７｝を正解情報（各文字の外接矩形の座標値）に基づいて全て一律に非文字と判定している。これに対し、「実施形態２」では外接矩形によって判定したものを第一次の非文字としたうえで、文字列解釈によって｛候補３｝を第二次の非文字として、抽出するわけである。
このようにして生成した第二次の非文字のみを学習対象とすることで、効率的かつ効果的に文字列認識精度の向上を図ることが可能になる。
【００２０】
「実施形態４」
本実施形態は、図１に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、上記「実施形態１」に示した生成プロセスおけるよりも簡略な手順により構成することを意図するものである。即ち、「実施形態１」では入力文字列画像から文字要素を生成することを必要条件とし、得られた文字要素の組み合わせに着目して、文字要素の組み合わせを文字候補として生成するという方法を採用したのに対して、本実施形態では文字要素の生成という多くの処理ステップ数を要する手順を経ずに文字領域情報を生成し、これを正解情報との一致性チェックに用いることを特徴とする。従って、この実施形態においては、図１に示した処理システムの構成要素のうち、文字要素生成部２、文字認識部（識別器）４及び文字列解釈選択部６を必要とせずに文字候補の切り出しを行う。
図７は、本実施形態の非文字を生成する処理のフローチャートを示す。
図７を参照すると、本実施形態フローでは、先ず、入力部１により認識対象となる文字列画像と、正解情報（文字列を構成するために使用される各文字種の外接矩形の座標値）とが入力される（Ｓ７１）。
【００２１】
次に、入力された文字列画像に基づいて文字候補を切り出すための領域情報を生成する（Ｓ７２）。この領域情報の生成手順は、まず入力文字列画像のおおよその文字サイズを推定する。例えば、行単位でその行内に含まれる文字高さの平均値（或いは最大値）を求め、求めた文字高さの所定倍（例えば、１／２〜２倍）の範囲に文字幅が収まるという推定方法による。
文字候補を切り出すための領域情報は、この推定文字サイズの範囲で乱数生成により自動的に生成する。ここでは、上記のようにして求めた文字高さにランダムな係数値を適用して文字高さの所定倍（例えば、１／２〜２倍）の範囲に文字幅を収めるような切り出し方で領域を決める。
処理手順としては、ステップＳ２３により文字候補を決めるための領域情報を生成した後、生成した各領域情報の文字候補に対して、非文字か文字かを非文字評価部５で評価する（Ｓ７３）。
評価の方法は、領域情報により定まる各文字候補とステップＳ７１で入力された正解情報の文字の外接矩形同士を比較し、矩形の座標値が一致するか否かによって判定する。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字／文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし（Ｓ７３）、文字である場合には文字として集計し（Ｓ７４）、他方、非文字である場合には非文字として集計する（Ｓ７５）。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し（Ｓ７６）、この処理を終了する。
【００２２】
「実施形態５」
本実施形態は、本発明に係わる文字認識装置の実施形態を示すものである。
上記した「実施形態１」〜「実施形態４」に示した非文字の生成処理手順を含む処理ステップを実行する手段として、汎用の処理装置（コンピュータ）を利用して構成される装置を例示するものである。
図８は、本実施形態の文字認識装置の構成を例示する。図８に示すように、本例は、汎用の処理装置（コンピュータ）により実施する例を示すものであり、構成要素として、スキャナ、キーボード、マウス等の入力装置に対する入力部Ｉ／Ｆ１１、ＣＰＵ１２、記憶装置１３、ハードディスクドライブ等の補助記憶装置１４、ディスプレイ等への出力装置への出力Ｉ／Ｆ１５、リムーバブルな記憶媒体のドライブ１６、リムーバブルな記憶媒体１７、ネットワークを介して他機と通信するためのコントローラ１８などを備え、これらをバス接続して構成する。
また、記憶装置１３、ハードディスクドライブ等の補助記憶装置１４、ドライブ１６が用いる記憶媒体の一部には、本発明に係わる文字認識処理機能を実現するための、上記「実施形態１」〜「実施形態４」に示した非文字の生成処理手順を含む文字認識方法に示した各処理ステップを実行するためのプログラム（ソフトウェア）が記録されている。
処理対象の文字列画像は、スキャナー等の入力装置４による原稿読み取りで入力され、例えばハードディスク３などに格納されているものである。ＣＰＵ１は、記憶手段が有する記録媒体から上記した処理機能・処理方法を実現するプログラムを読み出し、プログラムに従う処理を対象文字列画像に実行し、その処理結果等をディスプレイ６に出力する。
なお、本発明に係わる文字認識装置を図８に示すように、コントローラ１８によりネットワークを介して、外部の装置と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
また、本発明の文字認識方法の各処理ステップの実行プログラムを本実施形態のように汎用コンピュータに搭載することによって実施する以外に、各処理ステップの実行に必要な機能をファームウェアや電気回路の形態によって利用装置に組み込むことにより文字認識装置を構成することも可能である。
【００２３】
【発明の効果】
（１）　請求項１〜３の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、処理対象として入力された文字列画像における文字形態の変動に適応して、文字の切り出し精度（延いては文字認識精度）を高度に維持するための学習用のデータを提供し得、文字列認識（切り出し）精度向上の実現に際し、その自動化・省力化を図ることを可能にする。
また、外接矩形による判定結果にエラーが含まれると見られる文字候補に文字認識処理を適用し、その結果によりエラーを修正するようにし、しかも文字認識の結果を文字コード、確信度の少なくともいずれかを用いて表すようにしたので、さらに正しい非文字データの提供を可能にする。
【００２４】
（２）　請求項４の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補を対象に文字認識と文字列解釈という、請求項１〜３の発明（文字候補の外接矩形による判定）とは異なる観点による判断に従って非文字の生成を行うもので、請求項１〜３の発明が、少ない処理量でたくさんの非文字情報を生成するのに対し、本発明は、文字列認識の切り出し精度向上に対して、より効果的な非文字データの区別を可能にする。
（３）　請求項５の発明に対応する効果
文字候補を領域情報（入力文字列画像と正解情報の外接矩形から求めた）として生成し、生成した領域情報を正解情報（予め用意しておいた各文字に固有の外接矩形）と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、文字要素の生成という手順を用いた請求項１〜４の発明に比べて、文字候補の生成処理をより簡略化することが可能になる。
（４）　請求項６，７の発明に対応する効果
請求項１乃至５に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記（１）〜（３）の効果を容易に具現化し、また、該効果を奏する文字認識装置を提供することが可能になる。
【図面の簡単な説明】
【図１】非文字データを生成するための処理システムを構成する機能ブロックを示す。
【図２】「実施形態１」の非文字を生成する処理のフローチャートを示す。
【図３】入力された文字列画像と正解情報：（ａ）、文字要素：（ｂ）の一例を示す。
【図４】対象文字列（ｉ）への断面系列法による文字要素生成の適用を説明し、文字要素から生成された文字候補の生成結果（ａ）〜（ｈ）を示す図である。
【図５】「実施形態２」の非文字を生成する処理のフローチャートを示す。
【図６】「実施形態３」の非文字を生成する処理のフローチャートを示す。
【図７】「実施形態４」の非文字を生成する処理のフローチャートを示す。
【図８】汎用コンピュータを利用して構成される本発明の実施形態に係わる文字認識装置の構成を示す。
【符号の説明】
１…入力部、　　　　　　　　　　２…文字要素生成部、
３…文字候補生成部、　　　　　　４…文字認識部（識別器）、
５…非文字評価部、　　　　　　　６…文字列解釈選択部、
７…出力部、　　　　　　　　　１１…入力部Ｉ／Ｆ、
１２…ＣＰＵ、　　　　　　　　　　１３…記憶装置、
１４…補助記憶装置、　　　　　　１５…出力Ｉ／Ｆ、
１６…ドライブ、　　　　　　　　１７…リムーバブルな記憶媒体、
１８…コントローラ。

Claims

処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
請求項１に記載された文字認識方法において、前記文字候補の非文字らしさを評価・判定するステップとして、非文字らしいと評価されなかった文字候補に対して候補同士の外接矩形の一致を検出するステップと、外接矩形の一致が検出された場合に該当する文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップを付加したことを特徴とする文字認識方法。
請求項２に記載された文字認識方法において、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップの評価・判定結果に文字コード、確信度の少なくともいずれかを用いることを特徴とする文字認識方法。
処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、生成された文字候補の組み合わせに文字列解釈を適用し、最適な組み合わせを選択する文字列解釈ステップと、前記文字切り出し時文字認識ステップ及び前記文字列解釈ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像における文字群の外接矩形に基づいて求めた形状情報にランダムな係数値を適用して得た領域情報によって文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた前記各文字に固有の基準外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
請求項１乃至５のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラム。
請求項６に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置。