JP2004046723A - 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 - Google Patents
文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 Download PDFInfo
- Publication number
- JP2004046723A JP2004046723A JP2002205874A JP2002205874A JP2004046723A JP 2004046723 A JP2004046723 A JP 2004046723A JP 2002205874 A JP2002205874 A JP 2002205874A JP 2002205874 A JP2002205874 A JP 2002205874A JP 2004046723 A JP2004046723 A JP 2004046723A
- Authority
- JP
- Japan
- Prior art keywords
- character
- recognition
- error
- aspect ratio
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
【解決手段】文字やその配置が未知の段階で切り出された文字候補(複数存在)に文字認識処理(認識辞書照合スコアや言語的な尤度に基づき最尤解が選択)を行い、認識結果がほぼ確定した段階でこの結果を対象に文字配置ピッチ(図4に示す文字矩形間距離と中心線距離情報)を求め、平均値から大きく相違する不規則な文字配置ピッチが生じた箇所を文字切り出し誤りとして検出する。誤り箇所に再切り出し・再認識処理を行い元の認識結果を合わせて最尤解を求める。また、半角・横倍角文字を推定して除外する処理を付加する。文字の外接矩形のアスペクト比を形状特徴として文字別に予め用意しておき、実際の認識文字画像と比較することによって、文字切り出し誤りを検出する方法も示されている。
【選択図】 図4
Description
【発明の属する技術分野】
本発明は、OCR(光学的文字読み取り装置)等に利用される文字認識処理に関し、より特定すると、文書原稿から読み取った画像データをもとに一文字(文字単位)を含む領域を切り出す“文字切り出し”を高精度に行うための処理ステップを備えた文字認識方法、該方法の実行に用いるプログラム及び文字認識装置に関する。
【0002】
【従来の技術】
従来より、OCR(光学的文字読み取り装置)等において行われているように、スキャナーにより文書原稿から読み取った画像データに基づいて原稿に記された文字を認識する処理が行われている。この処理を行う際に、読み取った原稿画像データから文字単位のデータを取り出す“文字切り出し”を正確に行うことは、高い認識精度を得るために不可欠である。
文字切り出し方法として、印字ピッチに現れる規則性(なお、設定された印字条件に従って印刷された原稿であることが前提にある)、或いは文字の各種属性を利用して、そこから切り出し条件を導く方法が提案されている。
前者の例として示すことができる、特許第3148106号公報(文字切り出し方法)では、印字ピッチ幅不明の文字列からの文字切り出しをする際に、最初に、投影(射影)分布をもとに複数の文字ピッチを仮定し、その中から妥当性の最も高いものを判定して推定文字ピッチとし、文字列の切り出しに適用するものである。しかしながら、この方法では、定ピッチ(文字の中心線間距離が一定)の文字に適した方法であり、これ以外のルール(例えば、後述するプロポーショナルピッチ)により文字を配置する場合に適用しても、ピッチ幅を正確に求めることができず、精度が十分に保証されない。
【0003】
また、後者の例として示すことができる、特開平5−197840号公報(文字切り出し制御方法)では、再切り出しのフィードバック制御に関して言及したものであり、切り出した部分に対する確からしさを図形情報を用いて一般化した基準により評価し、高い順に決定される切り出し候補を対象にして文字認識を行い、認識結果によって再切り出しが必要な部分を指示するフィードバックを行っている。しかしながら、この方法では、フィードバックする情報が認識に失敗した部分の再切り出しを指示する、即ち次候補に対する処理を指示するだけであり、認識に成功するまで次々と上記の一般化した評価基準により決定した候補への処理を繰り返すことになり、処理回数が多くなる場合が生じる。
さらに、後者の例として示すことができる、特開平8−212301号公報(文字切出装置及びその切出方法)では、入力文字の文字種を判定して(文字データの画数或いは形状に基づき判定)、切り出しパラメータを変更し、高精度な文字切り出しを実現することを目的としたものである。しかしながら、文字種の判定方法がオンライン筆記による入力を想定し、文字データの画数或いは形状に基づくものであり、オフラインによる文字認識に適したものではない。加えて、同じ文字種内でも文字画像の外形は大きく異なるので、字種情報だけに基づいて切り出しパラメータを変更するには限界があり、高精度な切り出し処理を実現するには十分とはいえない。
【0004】
【発明が解決しようとする課題】
本発明は、文書原稿の読み取り画像データから文字単位のデータを切り出し、切り出し部分を対象に文字認識を行う際の前記文字切り出しにおける上述の従来技術の問題点に鑑みてなされたものであり、その目的は、定ピッチに配置された文字以外の文字配列に適用しても、適正な文字切り出しを可能にする処理ステップ(或いは処理手段)を備えた文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
また、本発明は、文書原稿の読み取り画像データから文字単位のデータを切り出し、切り出し部分を対象に文字認識を行う際の前記文字切り出しにおける上述の従来技術の問題点に鑑みてなされたものであり、その目的は、文字切り出し候補を対象にした文字認識結果から適正な切り出し情報をフィードバックできるようにして、一般化した評価基準により決定した候補への処理を繰り返すことになり、処理回数が多くなるという従来技術の処理を回避することが可能で、さらに設定された印字条件に従って印刷された原稿を対象にしたオフラインによる文字認識に適し、かつより高精度な文字切り出しを可能にする処理ステップ(或いは処理手段)を備えた文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
【0005】
【課題を解決するための手段】
請求項1の発明は、処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字配列を対象にして文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離をそれぞれ算出する文字ピッチ算出ステップと、文字ピッチの算出結果から文字配列における文字の配置の特徴を判定する文字配列特徴判定ステップを含むことを特徴とする文字認識方法である。
【0006】
請求項2の発明は、請求項1に記載された文字認識方法において、前記文字配列特徴判定ステップは、対象全体から判定した特徴を連続して満たさない文字ピッチを文字飾りにより生じたものであると判定するようにしたことを特徴とする方法である。
【0007】
請求項3の発明は、処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字を対象にして文字の外接矩形のアスペクト比を算出する文字アスペクト比算出ステップと、文字アスペクト比の算出結果と予め辞書に格納した当該文字の標準化された文字アスペクト比を比較し、文字切り出し誤りを判定する文字切り出し誤り判定ステップを含むことを特徴とする文字認識方法である。
【0008】
請求項4の発明は、請求項3に記載された文字認識方法において、前記文字切り出し誤り判定ステップは、連続して文字切り出し誤りが判定された文字列を文字飾りによるものとし、文字飾りを取って標準化された文字アスペクト比との比較による再判定を行うようにしたことを特徴とする文字認識方法ある。
【0009】
請求項5の発明は、請求項3又は4に記載された文字認識方法において、さらに前記文字切り出し誤り判定ステップにより切り出し誤りが判定された文字に対する認識結果への信頼度の低下を提示するステップを含むことを特徴とする文字認識方法である。
【0010】
請求項6の発明は、請求項3乃至5のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップにより切り出し誤りと判定された文字候補領域に再切り出しを行う文字再切り出しステップと、再切り出しされた文字の文字認識を行い、元の結果と併せて妥当性を評価し、尤もらしい解を選択する再文字認識ステップを含むことを特徴とする文字認識方法である。
【0011】
請求項7の発明は、請求項6に記載された文字認識方法において、前記文字再切り出しステップは、文字配列中の切り出し誤りと判定された文字候補領域の両側に隣接する文字を加えた範囲を対象に再切り出しを行うことを特徴とする文字認識方法である。
【0012】
請求項8の発明は、請求項3乃至7のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップは、アスペクト比の変動の激しい文字を通常の文字切り出し誤り判定の対象から除外するようにしたことを特徴とする文字認識方法である。
【0013】
請求項9の発明は、請求項3乃至8のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップは、前記文字認識ステップで言語処理によって辞書単語と照合されている文字を通常の文字切り出し誤り判定の対象から除外するようにしたことを特徴とする文字認識方法である。
【0014】
請求項10の発明は、処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字配列を対象にして、文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離をそれぞれ算出する文字ピッチ算出ステップと、前記文字認識ステップで認識された文字を対象にして、文字の外接矩形のアスペクト比を算出する文字アスペクト比算出ステップと、対象文字・文字列の文字ピッチ及び文字アスペクト比それぞれの算出結果の組み合わせの存在確率を予め標準値として用意された当該文字ピッチ及び文字アスペクト比の組み合わせの存在確率を参照することにより求め、求めた参照値に基づいて文字切り出し誤りを判定する文字切り出し誤り判定ステップを含むことを特徴とする文字認識方法である。
【0015】
請求項11の発明は、請求項1乃至10のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【0016】
請求項12の発明は、請求項11に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置である。
【0017】
【発明の実施の形態】
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
本発明は高精度な文字認識を実現するための方法を提供するもので、文字列から文字単位を含むと見なせる文字候補を切り出して文字認識を行い、認識結果がほぼ確定した段階において、認識の対象とした文字・文字列における文字配置ピッチや文字固有の特徴量であるアスペクト比等の情報を用いて、切り出された文字候補における文字切り出し誤り位置を精度よく検出する。さらに、文字切り出し誤りを検出した後、検出された部分に対し再切り出しを行い、追加される文字候補に対する文字認識を再度行うようにして、目的を実現するものである。
下記の「実施形態1」、「実施形態2」は、一次処理で認識された文字配列を対象にして文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離情報を用いて文字切り出し誤りを求める例を示し、「実施形態3」〜「実施形態8」は、文字固有の特徴量であるアスペクト比等の情報を用いて文字切り出し誤りを求める例を示し、「実施形態10」は、文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離情報及び文字固有の特徴量であるアスペクト比等の情報を用いた、trigramによる文字切り出し誤りを求める例を示す。
【0018】
図1は、処理対象となる文書画像の一例を示す。なお、下記の各実施形態では、日本語文の横書原稿を例に説明するが、特にことわらない限り、本発明は、例示に限定されるものではなく、文字画像に含まれる文字列の配置ピッチを判定し、予め定めた規則に反して切り出された文字の配置ピッチの箇所を文字切り出し誤りと判定すること、また、予め各文字に固有の外接矩形特徴の標準値を用意しておき、認識対象とした文字の外接矩形と比較することによって、許容範囲を越える相違がある場合に文字切り出し誤りだと判定することによって、高精度に文字切り出し処理を行うことを保証するものであり、特定の言語、文字画像種類(手書き/活字文字など)、書式(縦書き/横書き)に限定されない。
また、下記の各実施形態に共通する処理として、対象となる文書画像から文字単位を含むと見なせる文字候補を切り出す処理を行うが、ここでは、文字行を単位とするので、文字候補の切り出しの前段で、先ず行切り出しの処理を行う。
この行切り出し処理では、対象画像中の黒ランの外接矩形の抽出による切り出し方法を適用する。この切り出し方法では、文字は通常黒で描かれるので、黒値を示す連続画素のかたまりである黒ランを求め、求めた黒ランから文字要素と思われる矩形を統合して外接矩形を抽出する。図2は、この外接矩形を抽出した結果を示す。次いで、抽出された文字要素と思われる黒ランの外接矩形について近隣同士を所定の基準に従い連結していき、行に成長させ、これを目的の行として切り出す処理を行う。図3は、行切り出し処理により得られた結果を示す。
この後、さらに行から認識対象の文字候補としての切り出しを行う。
【0019】
「実施形態1」
本実施形態は、切り出された文字候補の文字列における文字配置ピッチ、即ち認識対象となった文字の外接矩形同士の隣接矩形間距離と隣接矩形の矩形中心線距離情報を用いて文字切り出し誤りを求める方法に係わる。
行切り出し処理により得られた行(図3参照)中には、複数の黒画素外接矩形が存在し、それらを組み合わせたバラエティの内、認識スコアや言語的な尤度を考慮して、最終的に文字切り出し位置が決まり、例えば、図4に示すような認識結果が得られる。
図4に示すように、文字間の距離も文字切り出し処理に用いられる特徴であり、文字切り出し処理でも考慮されるが、一般的に文字切り出し処理の時点では、文字認識結果および配置ピッチは未知であることが多く、極端に不正な候補が排除されるにとどまり、切り出し位置を一意に決定することができず、複数の可能性を求めている。その候補の中から、認識辞書照合スコアや言語的な尤度に基づいて、最尤解が選択される。そこで、このような認識結果がほぼ確定した段階で再度、文字の配置ピッチを検査し、不正なピッチの箇所の存在によって文字切り出し誤りを判定すれば、文字切り出し誤りを精度よく検出することができる。
文字の配置ピッチとしては、定ピッチとプロポーショナルピッチの2種に大別され、いずれも文字の外接矩形の形状特徴に依存して、文字間の距離は変化する。文字間の距離としては、
(a)文字矩形間距離
(b)矩形中心線距離
の2種類が考えられる(図4参照)。
【0020】
プロポーショナル・ピッチに文字が配置される場合には、その性格上、(a)文字矩形間距離がほぼ一定になることは明らかである。しかし、文字の外接矩形の形状は文字によって、正方形/縦長/横長…などと異なり、一定ではない。よって、(b)矩形中心線距離は一定とはなり得ない。
一方、定ピッチに文字が配置される場合には、固定された範囲に一文字を配置する形式であるから、文字の形状によらず、文字外接矩形の中心線距離は一定である。しかし、上述のように文字外接矩形の形状は文字によって異るので、中心位置を一定に配置された場合には、外接矩形間の距離は一定にならない。
これらをまとめると以下のようになる。
図4に示すように、文字認識結果の1行において、(a),(b)2種類の文字間の距離を集計し、上記の規則性に照らして、当該行が定ピッチであるか或いはプロポーショナルピッチであるかを判定することができる。規則性に照らして一行のピッチを判定した後に、規則性に反する不正なピッチの箇所を検出し、そこに文字切り出し誤りが存在すると判断する。例えば、
・定ピッチと判定した場合:
中心線距離が等間隔でない部分は文字切り出し誤り
・プロポーショナルピッチと判定した場合:
文字矩形間距離が等しくない部分は文字切り出し誤り
の存在をそれぞれ判断する。
【0021】
図5は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図5を参照して、文字の配置ピッチを判定して、文字切り出し誤りを検出するステップを含む本例の文字認識処理を説明する。
まず、スキャナーなどの画像入力機器によって、原稿の文書画像を入力する(step 1)。
次に、入力された文書画像から文字認識の対象となる文字候補の切り出す一連のステップとして、行切り出しまでの処理(上記、参照)を行う。即ち、入力画像中の黒ランから文字要素と思われる矩形を統合して外接矩形を抽出し(step 2)、この外接矩形について近隣する矩形同士を所定の基準に従い統合して、行に成長させ、行として切り出す(step 3)。
ここで、切り出した行に対して文字切り出し処理を行う(step 4)。この処理は、前段の処理で切り出された行には長手方向(横書きの場合には横方向)に複数文字が配列されているので、黒画素射影、行高さ、などに基づいて行を1文字だと思われる範囲(文字単位を含むと見なせる文字候補領域)に分割する。文字種等によってサイズが一定ではないので、複数の候補が得られることがあるが、本例では複数の候補があっても構わないような処理方法を採用する。
次に、前段の文字切り出しで求められた文字候補に対して文字認識の処理を行う(step 5)。文字認識の処理は、対象となる文字候補の画像特徴と認識辞書に記載されている文字の画像特徴とを照合し、認識スコアを算出し、認識スコアが予め設定したしきい値以上の解を認識候補として残す。
この後、前段の文字認識処理で求められた認識候補の並びと、言語辞書及び文法と照合して、認識スコアを加味した上、妥当な解を選択する後処理(言語処理)を行う(step 6)。ここでは、文字切り出しで複数の候補が得られた場合や認識処理で複数の候補が得られた場合でも、妥当な解を一つに絞りそれを処理結果とする。
【0022】
次に、ここまでの処理ステップで文字がほぼ確定したので、その処理結果を受けて、文字の配置ピッチの種別の判定及び判定されたピッチの種類の規則性に基づいて文字切り出しの誤りを検出する一連の処理を行う。
この処理の始めに、2種類の矩形距離を測定する(step 7)。この測定は、認識結果の各文字の外接矩形をもとに、隣接する文字矩形同士の矩形間距離及び中心線距離(図4参照)を測定するものであり、その測定結果は記憶される。
また、step 7の処理で記憶した文字矩形間距離および矩形中心線距離をもとに、2種類の矩形距離それぞれの平均値を算出する(step 8)。
次いで、文字の配置ピッチの種別を判定するための指数として用いるために、step 7で記憶した隣接する文字矩形同士の文字矩形間距離および矩形中心線距離とstep 8で算出した各々の平均値とを比較し、平均値としきい値以上相違している矩形距離の回数を2種類の矩形距離それぞれにカウントする(step 9)。
ここで、step 9の結果を受けて、2種類の距離値が一定か否かを判定する(step 10)。本実施形態では、例えば、相違している回数(step 9のカウント値)にしきい値処理をする。即ち、カウント値が、全距離数(= 文字の間隔数 = 全文字数 − 1)に応じて設定したしきい値(所定の割合)より多ければ、距離は一定でないと判定する、という方法により実現する。なお、別の実現方法としては、距離値の標準偏差を求め、それがしきい値以上であれば、一定ではないと判定する方法を採用しても良い。
【0023】
次に、step 10で2種類の距離値が一定であるか否かを判定した結果を受けて、ピッチの判定を行う(step 11)。ここでは、文字矩形間距離が一定であり、かつ矩形中心線距離が一定でない場合に、文字の配置ピッチの種別をプロポーショナルピッチと判定し、又文字矩形間距離が一定でなく、かつ中心線距離が一定である場合に、定ピッチと判定する。
この後、step 10の判定結果を受けて、以降の処理を分岐するので、判定結果が定ピッチであるか否かをチェックする(step 12)。
step 12で定ピッチである場合に、文字の再切り出し処理等の後処理へ対応するために、対象とする文字行内の文字の配置ピッチを調べて、定ピッチにならない部分を検出する(step 13)。具体的には、対象とする文字の矩形中心線間の距離がstep 8で算出した平均値と大きく相違する部分を見つけて、そこを切り出し誤り箇所とみなして検出する。このstep 13の処理を終え、本例のフローを終了する。
他方、step 12でプロポーショナルピッチである(定ピッチではない)場合にも、文字の再切り出し処理等の後処理へ対応するために、対象とする文字行内の文字の配置ピッチを調べて、文字矩形間距離が一定にならない部分を検出する(step 14)。具体的には、対象とする文字の文字矩形間距離がstep 8で算出した平均値と大きく相違する部分を見つけて、そこを切り出し誤り箇所とみなして検出する。このstep 14の処理を終え、本例のフローを終了する。
【0024】
「実施形態2」
本実施形態は、切り出された文字候補の文字列における文字配置ピッチを用いて文字切り出し誤りを求める方法に係わるもので、文字飾り範囲を考慮して行う方法である。
上記「実施形態1」に示した方法では、文字切り出しの対象とする行において部分的に文字飾り(即ち、半角・全角の混合、横倍角等の標準的な文字サイズを所定の規則に従って相違させる修飾の施された文字)が施され、部分的に文字配置ピッチが異なる場合、切り出し精度を低下させる要因となる。そこで、本実施形態では、文字飾りによりピッチが変化する部分を検出し、その部分を文字切り出し誤りを求めるための情報から除外して、除外した後に上記「実施形態1」と同様のピッチの検出ルールを適用して、精度低下の回避を図るものである。
文字列における文字配置ピッチに生じる文字飾りによる変化の検出原理は、文字飾りによるピッチの変化が1箇所のみのピッチの変化に現れるとは考えにくいので、連続して文字の配置ピッチが標準的な値(実際には平均値による)から大きく相違する部分を文字飾りによる変化として検出することによる。
つまり、文字切り出しの対象とする行の平均ピッチを求めた後、そのピッチに適合しない範囲を検査し、下記の半角、横倍角の例に示すような文字飾り特徴を満たしていれば、その文字飾り種類を判定する。
半角: 切り出し対象行の文字飾りされてない部分において算出した矩形中心線距離の約半分の矩形中心線距離が連続する箇所
横倍角: 切り出し対象行の文字飾りされてない部分において算出した矩形中心線距離の約2倍の矩形中心線距離が連続する箇所
【0025】
図6は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図6を参照して、文字切り出し誤りを求めるための文字の配置ピッチ情報から文字飾りにより生じるピッチ情報を除外して、文字の配置ピッチを判定して、文字切り出し誤りを検出するステップを含む本例の文字認識処理を説明する。
なお、本例では、上記「実施形態1」に文字飾り範囲を考慮した処理ステップを付加してその手順を実行する。従って、「実施形態1」におけるstep 1〜step8(図5)までの処理ステップと同一の処理を行う本実施形態におけるstep 1〜step 8(図6)については、先の説明を参照することとし、ここでは記載を省略する。
本実施形態において、step 8で文字矩形間距離および矩形中心線距離の2種類の矩形距離それぞれの平均値を算出した後、文字飾り範囲を判定するために必要な情報として用いるために、step 7で記憶した隣接する文字矩形同士の文字矩形間距離および矩形中心線距離とstep 8で算出した各々の平均値とを比較し、平均値としきい値以上相違している値が連続している箇所を探索する(step 29)。この後、step 29の探索結果を受けて、以降の処理を分岐するので、探索結果により連続している箇所があるか否かをチェックする(step 30)。
step 30で連続している箇所がない場合には文字飾り範囲判定(step 31)をパスするが、連続している箇所がある場合には、文字飾り範囲判定を行う(step 31)。この判定は、
半角加工: 切り出し対象行の文字飾りされていないと思われる部分(矩形 中心線距離及び文字矩形間距離が平均値に近い値の部分)にお いて算出した矩形中心線距離の約半分の中心線距離値が連続す る箇所
横倍角加工: 切り出し対象行の文字飾りされてないと思われる部分(矩形中心線距離及び文字矩形間距離が平均値に近い値の部分)において算出した矩形中心線距離の約2倍の中心線距離値が連続する箇所
の各条件を吟味し、満足していれば、文字飾り範囲とみなし、文字飾り範囲を示す情報と文字飾りの種類を記憶する。
【0026】
次に、step 31で行った文字飾り範囲の判定結果を受けて、文字飾り範囲と判定された部分の情報をstep 7で記憶した隣接する文字矩形同士の文字矩形間距離および矩形中心線距離の情報から除いて、2種類の矩形距離それぞれの平均値を算出し、算出した各々の平均値とstep 7で記憶した隣接する文字矩形同士の文字矩形間距離および矩形中心線距離とを比較し、平均値としきい値以上相違している矩形距離の回数を2種類の矩形距離それぞれにカウントする(step 32)。
ここで、step 32の結果を受けて、2種類の距離値が一定か否かを判定する(step 33)。ただし、このときに文字飾り範囲と判定された部分については判定をしない。それ以外については、「実施形態1」におけるstep 10(図5)の処理と変わりがない。
また、本実施形態では、次のステップであるピッチの判定(step 34)以降のフローを終了するまでの処理ステップについても上記「実施形態1」と同一の処理を行う。従って、「実施形態1」におけるstep 10〜step 14(図5)までの処理ステップと同一の処理を行う本実施形態におけるstep 33〜step 37(図6)については、先の説明を参照することとし、ここでは記載を省略する。
【0027】
「実施形態3」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比(文字の外接矩形の縦横比)によるチェックをかけて、文字切り出し誤りを求める方法に係わる。
上述したように、文字によってそれぞれの形状が異なるために、文字の外接矩形も一定ではない。一般的に漢字はややサイズが大きく、正方形なものが多いし、英数記号は正方形でないものの割合も多い。
文字コードをその外接矩形の形状別に予め分類しておけば、切り出された文字候補に文字認識処理を行って文字コードが求められた後に、予め用意した文字コードの文字が本来持っている外接矩形の形状特徴(アスペクト比)と、実際の認識画像の外接矩形の形状とを比較することによって、両者に不整合があれば、文字切り出しが正しくない可能性があることを検出することができる。
【0028】
図7は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図7を参照して、切り出された文字候補に文字認識処理を行って得た結果に、本来文字に固有の特徴量であるアスペクト比(文字の外接矩形の縦横比)を用いて文字切り出し誤りを求める本例の文字認識処理を説明する。
なお、本例では、切り出された文字候補に文字認識処理を行うまでの処理ステップは、上記「実施形態1」において行ったと同一の手順を実行する。従って、「実施形態1」におけるstep 1〜step 6(図5)までの処理ステップと同一の処理を行う本実施形態におけるstep 1〜step 6(図6)については、先の説明を参照することとし、ここでは記載を省略する。
本実施形態において、切り出された文字候補にstep 7で文字認識処理を行って複数の文字の切り出し候補や認識文字候補があった場合でも、最も妥当と判断される文字がstep 6で特定され、その段階で一旦文字切り出し位置が確定するので、そのとき、確定した文字に対し、文字のアスペクト比を算出する(step 47)。
次に、算出した文字のアスペクト比に基づいて、次に示すような文字切り出し誤りの検出を行う(step 48)。
文字認識の結果として特定される文字コードの文字が固有の特徴量として本来持っているはずの外接矩形のアスペクト比と、実際に認識処理の対象となった文字画像の外接矩形のアスペクト比とを比較し、一致するか否かをチェックしその結果により、文字切り出し誤りが有るか否かを検出する。
【0029】
例えば、「明細」という単語の場合、偏と旁が分離しても1文字として成立し得る文字で構成されているので、文字切り出し位置の決定が難しいが、文字コードと文字外接矩形の形状特徴との組み合わせによって、明らかに正しくない解は棄却できる。下記の〔第1表〕に「明細」を例にして、文字(文字コードで表現)と該文字から想定される文字外接矩形の形状特徴との対応表を例示する。
例えば、次のような認識結果に対して〔第1表〕を適用し一致性を判断した場合の結果を以下に示す。
明:正方形
糸:やや縦長 →× 〔第1表〕では正方形であり、合致しない
田:やや縦長 →× 〔第1表〕では正方形であり、合致しない
この一致性の判断結果により、「糸」「田」の部分が文字切り出し誤りである可能性が大であることが検出できる。
【0030】
ところで、形状の特徴を示す「やや縦長」「正方形」などの表現は、文字の外接矩形のアスペクト比(縦横比)の一つの表現形式であり、数値によって定義することも可能である。
下記〔第2表〕に文字コードに対するアスペクト比の対応表を例示する。表中の文字SJISのアスペクト比(= 縦/横)は、標本の平均値Av. で示され、
外接矩形が縦長の文字ではAv. が1より大きい
外接矩形が正方形に近いものはAv. が1に近い
外接矩形が横長の文字ではAv. が1より小さい
を表現することができる。
【0031】
認識結果に〔第2表〕を適用し一致性を判断することにより、認識対象とした文字の切り出し誤りを検出した実施形態における検出結果を下記の〔第3表〕に示す。
〔第3表〕中に示される、(a) 認識結果の外接矩形の実際のアスペクト比は、外接矩形座標から求められる。また、(b) 認識結果の文字コードから予想されるアスペクト比の平均値および(c) 標準偏差はそれぞれ〔第2表〕から求められる。
切り出し誤りを検出する手順は、実際の矩形のアスペクト比((a))と認識結果の文字コードから予想されるアスペクト比((b)、(c))とを比較し、大きく相違していれば、文字切り出し誤りだと判定する。
〔第3表〕の例では、正規分布の特徴に基づいて、
(b) − (c) * 3 < (a) < (b) + (c) * 3 ならば、相違無し(= 誤差範囲内)
(b) − (c) * 3 < (a) < (b) + (c) * 3 でなければ、相違有り
と判定して、◯×で表示している。
〔第3表〕に示すように、アスペクト比に注目することによって、
「理」→「王」「里」
のように誤って文字切り出ししてしまった箇所が検出できることがわかる。
ここで用いた判定条件:
(b) − (c) * 3 < (a) < (b) + (c) * 3
は、平均値よりどれだけ離れているかを標準偏差の定数倍を基準に判定しているが、この定数倍(例では3倍)を調整することによって、検出条件を厳しく/緩く、調整可能であることは言うまでもない。また、この判定条件はあくまで一例であり、標準的なアスペクト比と認識結果のアスペクト比を比較して、予め設定した範囲よりも相違していたら、文字切り出し誤りだとすることが実現できれば、実施例に示した条件に限定されるものではない。相違の範囲を限定する方法としては、例えば、アスペクト比の差や比にしきい値を設けることでも実現可能である。
【0032】
「実施形態4」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、文字飾り範囲を考慮して行う方法である。
上記「実施形態3」に示した方法では、文字切り出しの対象とする行において部分的に文字飾り(即ち、半角、横倍角等の標準的な文字形状を所定の規則に従って相違させる修飾の施された文字)が施されている場合に認識結果から予想される標準的なアスペクト比によりチェックすると、切り出し誤りが検出され、切り出し精度を低下させる要因となる。そこで、本実施形態では、文字飾りをかけた文字部分を検出し、その部分を文字切り出し誤りを求めるための情報から除外して、除外した後に上記「実施形態3」と同様のアスペクト比による検出ルールを適用して、精度低下の回避を図るものである。
文字列に生じる文字飾りによる変化の検出原理は、文字飾りによりアスペクト比が予想される値より大きく異なる場合が1文字のみに現れるとは考えにくいので、連続して文字のアスペクト比が予想される値より大きく相違する部分を文字飾りによる変化として検出することによる。
つまり、文字切り出しの対象とする行の文字認識後の文字に対し順次アスペクト比を算出し、アスペクト比が予想される値に適合しない範囲を検査し、下記の半角、横倍角の例に示すような文字飾り特徴を満たしていれば、その文字飾り種類を判定する。
半角: 切り出し対象文字について算出したアスペクト比が 0.4以上 0.6以下で連続していたら半角と判定し、その文字部分は、そのアスペクト比を2倍して予想アスペクト比と比較
横倍角: 切り出し対象文字について算出したアスペクト比が 1.7以上 2.2以下で連続していたら横倍角と判定し、その文字部分は、そのアスペクト比を1/2倍して予想アスペクト比と比較
本実施形態は、文字飾り範囲を考慮した上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)において実行する、という形態で実施し得る。
【0033】
「実施形態5」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、文字切り出し誤りの検出結果を提示する処理を伴う方法である。
上記「実施形態3」に示した方法では、文字切り出し誤りが検出された場合に、検出結果の利用の仕方が示されていない。本実施形態では、文字切り出し誤りの検出結果の利用方法を示すものである。
一般的な手法に従う上記した文字認識過程では、認識辞書との照合程度、言語的な尤度などの観点から認識スコアを算出するので、そのスコアにより認識結果がどの程度信頼できるかを示す認識信頼度が付与されている場合が多い。
この認識信頼度の利用法として、認識信頼度が低い場合に、認識結果を利用するユーザに知らせるようにすれば、もし認識に間違いがあっても、ユーザによるチェックや訂正作業を著しく効率化することか可能になる。このために、信頼度の低い文字はユーザに提示する際に、表示形態を変えるようにして、ユーザに注意を喚起し、その発見を容易にする。
ここでは、文字切り出し誤り検出によって、誤りだと判定された文字は少なくとも、表示形態を変えて提示する文字の対象とすることが適当である。
また本実施形態は、表示形態を変えて認識信頼度の低い文字を提示する上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)に付随して実行する、という形態で実施し得る。
【0034】
「実施形態6」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、文字切り出し誤りの検出結果に従い再度切り出し、認識処理を行う方法である。
上記「実施形態3」に示した方法では、文字切り出し誤りが検出された場合に、検出結果の利用の仕方が示されていない。本実施形態では、文字切り出し誤りの検出結果を用いて、誤り検出部分に新たな切り出し・認識を行い元の認識結果と競合させてより精度の高い認識処理を可能とするものである。
より詳細には、上記のようにアスペクト比によるチェックを最初にかけて、文字切り出し誤りが検出されても、一連の認識処理を経てきて選択された結果であり、実際には正解である可能性もあるので、文字切り出し誤りの判定により直ちに棄却してしまうのは危険である。そこで、元の解を棄却しないで保持しておき、文字切り出し誤りと判定された部分に、再度文字切り出し処理を行い、新たな文字切り出し位置候補を求め、ここに含まれる文字に対する認識処理を行い、新たに求められた文字候補(切り出し位置が異なる)を保持しておいた元の解と競合させて、後処理(言語処理)を行い、即ちこれまに対象とした全ての文字候補の中から尤度を表す認識スコアの最も高い文字を選択する。したがって、再度、元の解が選択される場合もあり得るが、構わない。
なお、本実施形態は、文字切り出し誤りが判定された部分に再度一連の認識処理を行う上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)に伴って実行する、という形態で実施し得る。
【0035】
「実施形態7」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、文字切り出し誤りの検出結果に従い再度切り出し、認識処理を行う方法である。
上記「実施形態6」に示した方法では、文字切り出し誤りが検出された場合の再切り出し・認識処理の対象部分として、誤り検出部分の隣接部分を考慮していなかったが、文字切り出し誤りは、検出された文字だけでなく、隣接する文字にも影響する可能性が高い。したがって、誤りとして検出された文字部分だけでなく、隣接する文字も含めた範囲において再度、切り出し候補を見つけることによって、誤り検出された文字だけでなく、検出から漏れたが実は誤認識していた隣接文字をも正解に転じることが可能になる。隣接する文字は、切り出された行が横行の場合左右に隣接する文字が、又縦行の場合上下に隣接する文字が対象になる。
なお、本実施形態は、「実施形態6」と同様に、文字切り出し誤りが判定された部分に隣接部分を加えて再度一連の認識処理を行う上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)に伴って実行する、という形態で実施し得る。
【0036】
「実施形態8」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、アスペクト比の変動の激しい文字を考慮して行う方法である。
上記「実施形態3」に示した方法では、文字切り出しの対象とする行において部分的にアスペクト比の変動の激しい文字、例えばドット系の文字(即ち、/・/./,/“/”/などの文字)が施されている場合に認識結果から予想される標準的なアスペクト比によりチェックすると、切り出し誤りが検出され、切り出し精度を低下させる要因となる。そこで、本実施形態では、ドット系の文字等の部分を検出し、その部分を文字切り出し誤りを求めるための情報から除外して、除外した後に上記「実施形態3」と同様のアスペクト比による検出ルールを適用して、精度低下の回避を図るものである。
詳細には、例えばドット系の文字(/・/./,/“/”/など)は、画像品質(解像度)に影響されて画素数が変動した場合、この文字の性質として縦横ともに画素数が少ないために、少々の変動でも、アスペクト比は大きく変動する。本来、縦長だったものでも横長になってしまうことも少くない。
そこで、ドット系の文字等のアスペクト比の変動の激しい文字の集合を予め設定しておき、この集合に含まれる文字はアスペクト比による文字切り出し誤り判定から除外する。これによって、本質的に正確な誤り位置検出を期待できない文字に対して、誤り検出処理を行う無駄を避けることができ、都合がよい。
なお、本実施形態は、アスペクト比の変動の激しい文字を考慮した上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)において実行する、という形態で実施し得る。
【0037】
「実施形態9」
本実施形態は、切り出された文字候補に認識処理を行って得た文字に、その文字に固有の特徴量として本来持っているはずのアスペクト比によるチェックをかけて、文字切り出し誤りを求める方法に係わるもので、言語処理の結果を反映した処理を行う方法である。
上記「実施形態3」に示した方法では、単一文字として扱う場合に認識結果から予想される標準的なアスペクト比によりチェックすると、切り出し誤りが検出されるが、言語的な正しさからは切り出しに間違いがない場合があり、単一文字のアスペクト比によるチェックでは切り出し精度を低下させる要因となる。そこで、本実施形態では、言語的に正しいと判定された部分を文字切り出し誤りを求めるための情報から除外して、除外した後に上記「実施形態3」と同様のアスペクト比による検出ルールを適用して、精度低下の回避を図るものである。
詳細には、本来の正解文が言語的に正しいという前提では、文字切り出し誤り箇所は、その言語的な正しさが乱れてしまっている可能性が高い。逆にいえば、アスペクト比や矩形間距離に基づく文字切り出し誤り検出処理によって誤りだと判定されたとしても、言語的に正しければ正解であると考えた方が妥当である。よって、辞書単語に合致している範囲(文字列)は、文字切り出し誤りと判定されたとしても、誤りとはみなさない。
文字切り出し誤り検出対象である認識結果は、言語処理を経て求められたものであるから、当該文字が辞書単語内であるか否かを判定することは容易である。文字認識結果の内部データに照合した単語と、その何文字目なのかを記憶する項目を設ければよい。
なお、本実施形態は、言語的に正しいと判定された単語を考慮した上述の処理を上記「実施形態3」に示した文字認識処理フロー(図7)のアスペクト比に基づく文字切り出し誤りの検出ステップ(step 48)において実行する、という形態で実施し得る。
【0038】
「実施形態10」
本実施形態は、切り出された文字候補に認識処理を行って得た対象文字・文字列の文字配置ピッチ及び文字アスペクト比それぞれの算出結果の組み合わせ(文字の連続する並び)に、その文字・文字列の文字ピッチ及び文字アスペクト比の組み合わせに特有の性質(連続する並びの性質)によるチェックをかけて、文字切り出し誤りを求める方法に係わる。
上述の文字の連続する並びは、切り出された文字候補列に文字認識処理を行ったときに得た文字種・文字外接矩形の形状(アスペクト比)と2種の文字配置ピッチの条件(文字中心線距離、文字矩形間距離それぞれの行内標準値との違い)で表現する。一方、連続する並びの性質は、標準原稿の学習により連続する並びが違う場合(つまり文字種・文字外接矩形の形状(アスペクト比)と2種の文字配置ピッチの条件が違う場合)の出現確率をそれぞれ予め求めておく。
文字切り出し誤りの検出の際には、実際の対象文字列について連続する並びを得、得た並びの存在確率を標準原稿の学習により用意したそれぞれの連続する並びの出現確率を参照することにより求め、求めた出現確率の低い箇所を文字切り出しが正しくない可能性がある箇所として検出する。
【0039】
図8は、本実施形態の文字認識処理のフローの一例を示すチャートである。
図8を参照して、本実施形態の文字認識処理を説明すると、本例では、切り出された文字候補に文字認識処理を行い、2種の矩形距離を求め、それらの平均値を求めるまでの処理ステップは、上記「実施形態1」において行ったと同一の手順を実行する。従って、「実施形態1」におけるstep 1〜step 8(図5)までの処理ステップと同一の処理を行う本実施形態におけるstep 1〜step 8(図8)については、先の説明を参照することとし、ここでは記載を省略する。
本実施形態において、切り出された文字候補にstep 7で文字認識処理を行って複数の文字の切り出し候補や認識文字候補があった場合でも、最も妥当と判断される文字がstep 6で特定され、その段階で一旦文字切り出し位置が確定するので、そのとき、確定した文字に対し、文字のアスペクト比を算出する(step 59)。
次に、算出した文字のアスペクト比及び2種の矩形距離とそれらの平均値に基づいて、次に示すような文字切り出し誤りの検出を行う(step 60)。
【0040】
この文字切り出し誤り検出ステップでは、上述のように、対象とする文字の連続する並びを文字種・文字外接矩形のアスペクト比と2種の文字配置ピッチ条件で表現し、その並びの性質を調べる。
対象とする文字は、本来文字毎にアスペクト比が異なるが、実際には変動があるので精密にアスペクト比を数値で設定する必要はなく、代表的な有限個に分類しておけばよい。
本例では、例えば、アスペクト比を特徴的な下記の3種、
縦長 : アスペクト比 > 1.0 + α
正方形 : アスペクト比 = 1.0 ± α
横長 : アスペクト比 < 1.0 − α
α は調整可能
に分類し、文字コードの文字種を3種(漢字/ひらがな、カタカナ/英数記)に大別したものと組み合わせて、下記の9種(= 3種×3種)に分類する。
漢字:縦長
漢字:正方形
漢字:横長
ひらがな、カタカナ:縦長
ひらがな、カタカナ:正方形
ひらがな、カタカナ:横長
英数記:縦長
英数記:正方形
英数記:横長
一方、上記「実施形態1」で言及したように、文字の配置ピッチには代表的な2種があり、行内での標準的なピッチ幅(図8step8で算出した平均値)を基準にしてその長、短で表現すれば、各矩形間のピッチは下記の6種(= 3+3)に分類される。
文字中心線距離(標準、長、短:3種)
文字矩形間距離(標準、長、短:3種)
また、上記「実施形態1」でも示したように、文字の外接矩形のアスペクト比と、文字の配置ピッチとの間には関連性がある。そこで、文字の外接矩形のアスペクト比と、配置ピッチとをまとめて分類して以下のように定義する。
(漢字:縦長) かつ (文字中心線距離:標準) かつ (文字矩形間距離:標準)
(漢字:縦長) かつ (文字中心線距離:標準) かつ (文字矩形間距離:短)
(漢字:縦長) かつ (文字中心線距離:標準) かつ (文字矩形間距離:長)
………
………
………
(漢字:標準) かつ (文字中心線距離:標準) かつ (文字矩形間距離:標準)
………
………
………
ここに、分類の基準は、
a 文字矩形の分類(9種)
b 文字中心線距離(標準、長、短:3種)
c 文字矩形間距離(標準、長、短:3種)
であるから、種類の総数は、
a の種類 × b の種類 × c の種類 = 9×3×3 = 81種
と求められる。
【0041】
このように、各基準(リファレンス)を有限個に分類することによって、文字の外接矩形のアスペクト比と、文字配置ピッチを併せて同時に有限個の種類で表現することが可能である。
この外接矩形のアスペクト比と配置ピッチとの連続する並びの性質をリファレンスとして記憶しておき、認識結果においても、それらを求め、記憶している性質と比較して、大きく相違していたら、文字切り出し誤りだと判定することができる。
連続する並びの性質を学習する手段としては n−gram が考えられる。これは、81種の例によると、81種の連続する並び分類を81種のシンボルでラベル付けしておき、学習時には、誤認識のほとんどない原稿によって、このシンボル列の n−gram の出現確率を学習する。
例えば、シンボルの3連続を定義する trigram を利用すれば、
P(xi | xi−2, xi−1):xi−2, xi−1 が連続して出現した下に xi が出現する事後確率
を求めることが、連続する並びの性質を学習することに相当する。
ここで xi−2, xi−1, xi は、外接矩形のアスペクト比と配置ピッチを表現したシンボルにあたる。 P(xi | xi−2, xi−1) は、以下のように正しく文字切り出しされた学習データから容易に求めることができる。
P(xi | xi−2, xi−1) = C( xi−2, xi−1, xi) / C( xi−2, xi−1)
C( xi−2, xi−1) : xi−2, xi−1 が連続して出現する数
C( xi−2, xi−1, xi) : xi−2, xi−1, xi が連続して出現する数
trigram でモデル化すれば、81×81×81=531441種のtrigramに対する確率値をテーブルによって学習結果を記憶できる。出現しないか或いは出現しても少数のtrigramも多いことが予想され、その場合は低い一定値で代用しても問題はないので、記憶すべき trigramはこれより少なくなるであろう。
【0042】
図9は、学習した trigram を用いて文字切り出し誤り検出を行う方法を説明するための図である。
切り出された文字候補に文字認識処理を行い、認識結果の外接矩形のアスペクト比、2種の文字配置ピッチを求め、各文字を trigram で用いるシンボルに変換する。この変換後に、学習した trigram の出現確率を順に適用していき、低い確率値を示す部分が、文字切り出し誤り箇所だと判定する。
図9の例において、「くな」が合併して1文字と誤って文字切り出しされ、「件」と認識されてしまったとする。その他は正しく認識されると仮定する。このときの各文字に trigram を適用した結果を下記の〔第4表〕に示す。
〔第4表〕の出現確率は図9の下部にプロットしている。図9に示すように、低確率しきい値を下回る部分を文字切り出し誤りであると判定する。
【0043】
「実施形態11」
本実施形態は、本発明に係わる文字認識装置の実施形態を示すものである。
上記した「実施形態1」〜「実施形態10」に示した文字切り出し誤りの検出手順を含む文字認識方法に示した処理ステップを実行する手段として、汎用の処理装置(コンピュータ)を利用して構成される装置を例示するものである。
図10は、本実施形態の文字認識装置の構成を例示する。図10に示すように、本例は、汎用の処理装置(コンピュータ)により実施する例を示すものであり、構成要素としてCPU1、メモリ2、ハードディスクドライブ3、スキャナ、キーボード、マウス等の入力装置4、CD−ROMドライブ5、ディスプレイ6、フレキシブルディスクドライブ7、通信装置8などを用意し、これらをバス接続して構成する。
また、記憶手段としてのメモリ2、ハードディスクドライブ3、CD−ROMドライブ5、フレキシブルディスクドライブ7が用いる記憶媒体(図示せず)の一部には、本発明に係わる文字認識処理機能を実現し、上記「実施形態1」〜「実施形態10」に示した文字切り出し誤りの検出手順を含む文字認識方法に示した各処理ステップを実行するためのプログラム(ソフトウェア)が記録されている。
処理対象の原稿文書画像は、スキャナー等の入力装置4により入力され、例えばハードディスク3などに格納されているものである。CPU1は、記憶手段が有する記録媒体から上記した処理機能・処理方法を実現するプログラムを読み出し、プログラムに従う処理を対象文書画像に実行し、その処理結果等をディスプレイ6に出力する。
なお、本発明に係わる文字認識装置を図11に示すように、通信装置8によりインターネットなどの通信回線20を介して、外部の装置11〜13と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
また、本発明の文字認識方法の各処理ステップの実行プログラムを本実施形態のように汎用コンピュータに搭載することによって実施する以外に、各処理ステップの実行に必要な機能をファームウェアや電気回路の形態によって利用装置に組み込むことにより文字認識装置を構成することも可能である。
【0044】
【発明の効果】
(1) 請求項1,2の発明に対応する効果
文字やその配置が未知の段階で切り出された文字候補(複数存在)に文字認識処理を行い、認識結果がほぼ確定した段階で、この結果により定まった文字を対象に文字矩形間距離と中心線距離を求め、平均値から大きく相違する不規則な文字配置ピッチが生じた箇所を文字切り出し誤りとして検出するようにしたので、文字切り出し誤りを高精度に検出可能とし、また定ピッチ以外の文字配列にも適用し得る。さらに、文字飾りにより生じた文字配置ピッチを判定するようにしたので、文字切り出し誤りの精度を低下させる要因に対応した処理を可能にし、より性能を向上させることができる。
【0045】
(2) 請求項3の発明に対応する効果
文字やその配置が未知の段階で切り出された文字候補(複数存在)に文字認識処理を行い、認識結果がほぼ確定した段階で、この結果により定まった文字を対象に文字アスペクト比(形状特徴)を求め、予め辞書に格納した当該文字の標準化された文字アスペクト比と比較した結果、大きく相違する文字が存在する箇所を文字切り出し誤りとして検出するようにしたので、文字切り出し誤りを高精度に検出可能とし、また文字配置ピッチ以外のアプローチを可能にする。
(3) 請求項4の発明に対応する効果
上記(2)の効果に加え、文字切り出し誤りの検出結果から文字飾りを判定し、文字飾りを取ることにより文字切り出し誤りの精度を低下させる要因に対応した処理をしたので、より精度を向上させることができる。
(4) 請求項5の発明に対応する効果
上記(2)、(3)の効果に加え、切り出し誤りが判定された文字に対する認識結果への信頼度の低下を提示し、認識信頼度が低い場合に、その認識結果を利用するユーザに知らせるようにしたので、認識に間違いがあっても、ユーザによるチェックや訂正作業を著しく効率化することか可能になる。
【0046】
(5) 請求項6,7の発明に対応する効果
上記(2)〜(4)の効果に加え、文字切り出し誤りと判定された文字候補領域に再切り出しと再文字認識を行い、元の結果と併せて妥当性を評価し、尤もらしい解を選択するようにしたので、より高精度の文字認識をすることが可能になる。さらに、文字配列中の切り出し誤りと判定された文字候補領域の両側に隣接する文字を加えた範囲を対象に再切り出しを行うようにしたので、さらに高精度化を図ることが可能になる。
(6) 請求項8の発明に対応する効果
上記(2)〜(5)の効果に加え、アスペクト比の変動の激しい文字(例えばドット系の文字)を通常の文字切り出し誤り判定の対象から除外するようにしたので、精度低下を避け、本質的に正確な誤り位置検出を期待できない文字に対して、誤り検出処理を行う無駄を避けることが可能になる。
(7) 請求項9の発明に対応する効果
上記(2)〜(6)の効果に加え、文字認識ステップで言語処理によって辞書単語と照合されている文字を通常の文字切り出し誤り判定の対象から除外し、言語の正しさを優先させるようにしたので、精度低下を回避することが可能になる。
【0047】
(8) 請求項10の発明に対応する効果
文字やその配置が未知の段階で切り出された文字候補(複数存在)に文字認識処理を行い、認識結果がほぼ確定した段階で、この結果により定まった文字を対象に文字矩形間距離、中心線距離及び文字アスペクト比(形状特徴)を求め、これらの情報を組み合わせ、この組み合わせの存在確率を予め標準原稿で学習し、格納したデータ値を参照して得ることにより、文字切り出し誤りの判定の基礎としたので、文字切り出し誤りを高精度に検出可能とし、安定した認識結果を得ることを可能にする。
(9) 請求項11,12の発明に対応する効果
請求項1乃至10に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記(1)〜(8)の効果を容易に具現化し、また、該効果を奏する文字認識装置を提供することが可能になる。
【図面の簡単な説明】
【図1】処理対象となる文書画像の一例を示す。
【図2】文書画像の例(図1)における文字と見なせる黒ランの外接矩形を作成した結果を示す。
【図3】統合処理の結果得られる文字行の矩形と文字外接矩形を示す図である。
【図4】対象文字行における文字認識結果と2種類の文字矩形距離を説明する図である。
【図5】「実施形態1」の文字認識処理のフローの一例を示すチャートである。
【図6】「実施形態2」の文字認識処理のフローの一例を示すチャートである。
【図7】「実施形態3」の文字認識処理のフローの一例を示すチャートである。
【図8】「実施形態10」の文字認識処理のフローの一例を示すチャートである。
【図9】学習した trigram を用いて文字切り出し誤り検出を行う方法を説明するための図である。
【図10】本発明の実施形態に係わる文字認識装置の構成を示す。
【図11】本発明の実施形態に係わる文字認識装置の他の構成を示す。
【符号の説明】
1…CPU、 2…メモリ、
3…ハードディスクドライブ、 4…入力装置、
5…CD−ROMドライブ、 6…ディスプレイ(表示装置)、
7…FDドライブ、 8…通信装置。
Claims (12)
- 処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字配列を対象にして文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離をそれぞれ算出する文字ピッチ算出ステップと、文字ピッチの算出結果から文字配列における文字の配置の特徴を判定する文字配列特徴判定ステップを含むことを特徴とする文字認識方法。
- 請求項1に記載された文字認識方法において、前記文字配列特徴判定ステップは、対象全体から判定した特徴を連続して満たさない文字ピッチを文字飾りにより生じたものであると判定するようにしたことを特徴とする文字認識方法。
- 処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字を対象にして文字の外接矩形のアスペクト比を算出する文字アスペクト比算出ステップと、文字アスペクト比の算出結果と予め辞書に格納した当該文字の標準化された文字アスペクト比を比較し、文字切り出し誤りを判定する文字切り出し誤り判定ステップを含むことを特徴とする文字認識方法。
- 請求項3に記載された文字認識方法において、前記文字切り出し誤り判定ステップは、連続して文字切り出し誤りが判定された文字列を文字飾りによるものとし、文字飾りを取って標準化された文字アスペクト比との比較による再判定を行うようにしたことを特徴とする文字認識方法。
- 請求項3又は4に記載された文字認識方法において、さらに前記文字切り出し誤り判定ステップにより切り出し誤りが判定された文字に対する認識結果への信頼度の低下を提示するステップを含むことを特徴とする文字認識方法。
- 請求項3乃至5のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップにより切り出し誤りと判定された文字候補領域に再切り出しを行う文字再切り出しステップと、再切り出しされた文字の文字認識を行い、元の結果と併せて妥当性を評価し、尤もらしい解を選択する再文字認識ステップを含むことを特徴とする文字認識方法。
- 請求項6に記載された文字認識方法において、前記文字再切り出しステップは、文字配列中の切り出し誤りと判定された文字候補領域の両側に隣接する文字を加えた範囲を対象に再切り出しを行うことを特徴とする文字認識方法。
- 請求項3乃至7のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップは、アスペクト比の変動の激しい文字を通常の文字切り出し誤り判定の対象から除外するようにしたことを特徴とする文字認識方法。
- 請求項3乃至8のいずれかに記載された文字認識方法において、前記文字切り出し誤り判定ステップは、前記文字認識ステップで言語処理によって辞書単語と照合されている文字を通常の文字切り出し誤り判定の対象から除外するようにしたことを特徴とする文字認識方法。
- 処理対象として入力された文字配列を有する文書画像から文字単位を含むと見なせる文字候補領域を切り出す文字切り出しステップと、切り出された文字を辞書に格納した文字画像特徴と照合し、照合結果にもとづき文字認識をする文字認識ステップを含む文字認識方法であって、さらに前記文字認識ステップで認識された文字配列を対象にして、文字の外接矩形における隣接矩形間距離と隣接矩形の矩形中心線距離をそれぞれ算出する文字ピッチ算出ステップと、前記文字認識ステップで認識された文字を対象にして、文字の外接矩形のアスペクト比を算出する文字アスペクト比算出ステップと、対象文字・文字列の文字ピッチ及び文字アスペクト比それぞれの算出結果の組み合わせの存在確率を予め標準値として用意された当該文字ピッチ及び文字アスペクト比の組み合わせの存在確率を参照することにより求め、求めた参照値に基づいて文字切り出し誤りを判定する文字切り出し誤り判定ステップを含むことを特徴とする文字認識方法。
- 請求項1乃至10のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラム。
- 請求項11に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002205874A JP4194020B2 (ja) | 2002-07-15 | 2002-07-15 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002205874A JP4194020B2 (ja) | 2002-07-15 | 2002-07-15 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004046723A true JP2004046723A (ja) | 2004-02-12 |
JP4194020B2 JP4194020B2 (ja) | 2008-12-10 |
Family
ID=31711060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002205874A Expired - Fee Related JP4194020B2 (ja) | 2002-07-15 | 2002-07-15 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4194020B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242579A (ja) * | 2004-02-25 | 2005-09-08 | Ricoh Co Ltd | 文書処理装置、文書処理方法、および文書処理プログラム |
JP2006031546A (ja) * | 2004-07-20 | 2006-02-02 | Ricoh Co Ltd | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
US8467608B2 (en) | 2007-03-30 | 2013-06-18 | Nidec Sankyo Corporation | Method and apparatus for character string recognition |
JP2016118909A (ja) * | 2014-12-19 | 2016-06-30 | コニカミノルタ株式会社 | 文字画像処理システム、文字画像処理システムの制御プログラム、情報処理装置、および情報処理装置の制御プログラム |
US10621427B2 (en) | 2016-11-29 | 2020-04-14 | Canon Kabushiki Kaisha | Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image |
JP2021119374A (ja) * | 2020-01-30 | 2021-08-12 | Kddi株式会社 | 文書から認知・非認知能力を推定する能力推定プログラム、装置及び方法 |
-
2002
- 2002-07-15 JP JP2002205874A patent/JP4194020B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005242579A (ja) * | 2004-02-25 | 2005-09-08 | Ricoh Co Ltd | 文書処理装置、文書処理方法、および文書処理プログラム |
JP4504702B2 (ja) * | 2004-02-25 | 2010-07-14 | 株式会社リコー | 文書処理装置、文書処理方法、および文書処理プログラム |
JP2006031546A (ja) * | 2004-07-20 | 2006-02-02 | Ricoh Co Ltd | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
JP4553241B2 (ja) * | 2004-07-20 | 2010-09-29 | 株式会社リコー | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
US8467608B2 (en) | 2007-03-30 | 2013-06-18 | Nidec Sankyo Corporation | Method and apparatus for character string recognition |
JP2016118909A (ja) * | 2014-12-19 | 2016-06-30 | コニカミノルタ株式会社 | 文字画像処理システム、文字画像処理システムの制御プログラム、情報処理装置、および情報処理装置の制御プログラム |
US10621427B2 (en) | 2016-11-29 | 2020-04-14 | Canon Kabushiki Kaisha | Information processing apparatus, storage medium, and information processing method for character recognition by setting a search area on a target image |
JP2021119374A (ja) * | 2020-01-30 | 2021-08-12 | Kddi株式会社 | 文書から認知・非認知能力を推定する能力推定プログラム、装置及び方法 |
JP7177105B2 (ja) | 2020-01-30 | 2022-11-22 | Kddi株式会社 | 文書から認知・非認知能力を推定する能力推定プログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4194020B2 (ja) | 2008-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108595410B (zh) | 手写作文的自动批改方法及装置 | |
US7583841B2 (en) | Table detection in ink notes | |
US6249605B1 (en) | Key character extraction and lexicon reduction for cursive text recognition | |
US20070140566A1 (en) | Framework for detecting a structured handwritten object | |
JP3452774B2 (ja) | 文字認識方法 | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
KR20010093764A (ko) | 어근 모델에 근거한 초서체 한자 주석의 검색법 | |
JP4280355B2 (ja) | 文字認識装置 | |
US20090052786A1 (en) | Computer vision-based methods for enhanced jbig2 and generic bitonal compression | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
US20070041643A1 (en) | Character recognition apparatus and character recognition method | |
EP2138959B1 (en) | Word recognizing method and word recognizing program | |
KR100718139B1 (ko) | 영상에 포함된 문자 인식장치 및 방법 | |
JP2004046723A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JP2008097452A (ja) | 単語認識方法および単語認識プログラム | |
Ball et al. | Writer verification of historical documents among cohort writers | |
CN112926577B (zh) | 一种医疗票据图像结构化方法和装置、计算机可读介质 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
Kumar et al. | Line based robust script identification for indianlanguages | |
JP4601835B2 (ja) | 単語認識方法および単語認識プログラムおよび単語認識装置 | |
JP2022095391A (ja) | 情報処理装置、及び情報処理プログラム | |
JP4087191B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
Sturgeon | Unsupervised extraction of training data for pre-modern Chinese OCR | |
JP3374762B2 (ja) | 文字認識方法及びその装置 | |
CN112183538B (zh) | 一种满文识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080918 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |