JP2004062385A - 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 - Google Patents
文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 Download PDFInfo
- Publication number
- JP2004062385A JP2004062385A JP2002217969A JP2002217969A JP2004062385A JP 2004062385 A JP2004062385 A JP 2004062385A JP 2002217969 A JP2002217969 A JP 2002217969A JP 2002217969 A JP2002217969 A JP 2002217969A JP 2004062385 A JP2004062385 A JP 2004062385A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- recognition
- processing
- character recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
【課題】処理対象の文字列画像における文字形態が変わっても、その変動に対応して高い文字候補の切り出し精度を維持する。
【解決手段】認識対象の文字列画像、正解情報(使用文字の正しい外接矩形座標値等)が入力される。入力文字列画像に対して断面系列法を適用し、断面系列情報をもとに上下の階層で表現した文字要素情報(図中(i)に示すように、上位:C1、下位:SS,SR)を生成する。この文字要素を単独か任意に組み合わせて、図に例示する文字候補1〜8を生成した後、各文字候補に対して、非文字か文字かを評価する。評価方法は、各文字候補と正解情報の文字の外接矩形を比較し、矩形座標値が一致するか否かにより、各候補に対する非文字/文字の判定結果を文字列画像に対する文字候補生成(文字切り出し)処理に利用するために管理する。
【選択図】 図4
【解決手段】認識対象の文字列画像、正解情報(使用文字の正しい外接矩形座標値等)が入力される。入力文字列画像に対して断面系列法を適用し、断面系列情報をもとに上下の階層で表現した文字要素情報(図中(i)に示すように、上位:C1、下位:SS,SR)を生成する。この文字要素を単独か任意に組み合わせて、図に例示する文字候補1〜8を生成した後、各文字候補に対して、非文字か文字かを評価する。評価方法は、各文字候補と正解情報の文字の外接矩形を比較し、矩形座標値が一致するか否かにより、各候補に対する非文字/文字の判定結果を文字列画像に対する文字候補生成(文字切り出し)処理に利用するために管理する。
【選択図】 図4
Description
【0001】
【発明の属する技術分野】
本発明は、OCR(光学的文字読み取り装置)等に利用される文字認識技術に関し、より特定すると、文書原稿から読み取った文字列画像をもとに文字認識の対象となる文字候補の生成(文字単位の切り出し)を高精度に行うために、文字候補に対して非文字か文字かの評価に用いる非文字データを生成する処理ステップを有した文字認識方法、該方法の実行に用いるプログラム及び文字認識装置に関する。
【0002】
【従来の技術】
従来のOCR(光学的文字読み取り装置)においては、スキャナーにより文書原稿から読み取った画像に基づいて原稿に記された文字を認識する処理を行っている。この処理を行う際に、読み取った画像に含まれる文字列画像をもとに文字認識の対象となる文字候補を生成する(文字単位の切り出しを行う)が、この文字候補の生成を精度良く行うことは、認識の正確さを保証するために不可欠である。
文字候補の生成(切り出し)に用いる方法として、入力文字列画像から図形としてまとまりのある単位パターンを抽出し、その単位パターン或いはその組み合わせを文字候補として切り出し、切り出した文字候補の図形的特徴を一文字単位であることの確からしさの評価基準として用いて、目的とする一文字単位の切り出しを行うという方法が従来から知られている。
例えば、特許第2671533号(文字列認識方法及びその装置)をこの流れにある方法の一例として示すことができる。ここには、候補文字パタンの形状評価値と文字認識評価値とを合成した特性値を算出し、これに基づいて最良の文字列評価値をもたらす解釈を選択するという方法が開示されおり、文字候補を生成して最良の解釈を選択するという意味で、標準的な手法と言える。
また、特公平07−092818号(パターン切出しおよび認識方法とそのシステム)をこの流れにある他の例として示すことができる。ここには、接触文字(隣接文字同士が接触し、連結した形状部分を構成する)が対象となった場合の対応を可能にする切り出し処理が示され、接触文字間に観測される事象に対応できるように、切り出した単位パターンとその組み合わせからなる複数のパターンを対象に文字認識処理を行い、その認識結果から最終的な解を判定するために予め書き換え規則を定めている。これによって、途中の切り出し結果が誤った場合でも、文字候補の並びに基づく後処理(書き換え規則)によって正しい切り出し結果を得ることを可能にしている。
【0003】
【発明が解決しようとする課題】
しかしながら、例示した特許第2671533号においては、一般的な選択手法が開示されているものの、選択基準をどのように設定するかは記載されておらず、試行錯誤的に定められることになるものと考えられるが、実際に適用する対象に対して予め用意された選択基準が最適である保証はなく、適用対象の文字形態の変動に対して安定した切り出し精度を確保するには限界があり、最適化を目指して精度向上を図る場合には、試行錯誤的な努力が必要になると推測される。
また、例示した特公平07−092818号では、ここでも実際に適用する対象に対して予め用意された書き換え規則が万全であるという保証はなく、やはり適用対象の文字形態の変動に対して安定した精度を確保するには限界があり、最適解を得るための書き換え規則を予め定めるためには、多くの労力を要するであろうと推測される。
このように、従来技術においては、文字列認識(切り出し)精度向上の省力化・自動化という問題を抱えている。
本発明は、処理対象として入力された文字列画像から文字単位を含むと見なせる文字候補を切り出し、切り出した文字単位を対象に文字認識を行う際に必要とされる文字候補の切り出し処理における上述の従来技術の問題に鑑みてなされたものであり、その目的は、処理対象として入力された文字列画像における文字形態が変わっても、その変動に対応して高い切り出し精度を維持することを可能にする手順を文字認識手段(装置)側に用意し、手段(装置)の利用者に負担を掛けること無くその問題が解決できるようにし、しかも簡単な方法によりその実現を図ることを可能にする文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
【0004】
【課題を解決するための手段】
請求項1の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0005】
請求項2の発明は、請求項1に記載された文字認識方法において、前記文字候補の非文字らしさを評価・判定するステップとして、非文字らしいと評価されなかった文字候補に対して候補同士の外接矩形の一致を検出するステップと、外接矩形の一致が検出された場合に該当する文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップを付加したことを特徴とする方法である。
【0006】
請求項3の発明は、請求項2に記載された文字認識方法において、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップの評価・判定結果に文字コード、確信度の少なくともいずれかを用いることを特徴とする方法である。
【0007】
請求項4の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、生成された文字候補の組み合わせに文字列解釈を適用し、最適な組み合わせを選択する文字列解釈ステップと、前記文字切り出し時文字認識ステップ及び前記文字列解釈ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0008】
請求項5の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像における文字群の外接矩形に基づいて求めた形状情報にランダムな係数値を適用して得た領域情報によって文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた前記各文字に固有の基準外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0009】
請求項6の発明は、請求項1乃至5のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【0010】
請求項7の発明は、請求項6に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置である。
【0011】
【発明の実施の形態】
本発明は、文字列認識(切り出し)精度の向上に必要となる、非文字データを自動生成することにある。すなわち、処理対象として入力された文字列画像における文字形態の変動に適応して、文字列認識の(切り出し)精度を高度に維持するために、切り出された文字候補の中で文字ではないもの(非文字と呼ぶ)を学習用のデータとして作成することが必要であり、そのための手順を提供するものであり、これにより文字列認識(切り出し)精度向上の実現に際し、その省力化が図られる。
以下の各実施形態には、本発明を特徴付ける非文字データの生成に関する手順を中心に実施に係わる形態を例示する。従って、文字認識処理全体、即ち、対象画像の入力から最終的に文字認識の最適解を得るまでの全ステップについて、説明をしないが、文字認識に必要な基本的な手順は従前から知られている手順に従って実施し得るものとし、ここでは詳細な説明は省略し、必要な部分については説明を加えることとする。
また、以下の実施形態では、予め文字辞書として、各文字の文字コード、文字に固有の画像特徴(この要素として、文字に固有の外接矩形の基準値(例えば座標位置で表現された情報)といった形状特徴)が与えられている。なお、以下の記述で各文字の“正解情報”という場合には、文字辞書に記載された各文字の文字コードや文字に固有の外接矩形の位置情報を指す。
【0012】
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
先ず、下記「実施形態1」〜「実施形態4」の実施に共通に用いる処理システムを説明する。図1は、この処理システムを構成する機能ブロック図を示すものである。
図1を参照すると、1は例えばスキャナ等の画像データを入力する画像入力部、2は入力画像データから文字の構成要素を抽出する文字要素生成部、3は文字要素から文字候補を生成する文字候補生成部、4は切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識部(識別器)、5は文字候補を対象にして文字らしさを評価する非文字評価部、6は文字候補により構成する文字列候補を対象に最も妥当な文字列解釈により正解を選択する文字列解釈選択部、7は文字・非文字の生成結果の生成データを出力する出力部である。なお、入力される画像データは2値でも多値でもよいが、多値の場合は、所定の閾値で画像の白/黒を判定しながら処理を行う。また、この処理システムを構成する機能ブロック各部の詳細は、以下の実施形態にて追記する。
【0013】
「実施形態1」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、文字候補を文字要素に基づいて生成し、得られた文字候補に非文字の評価を行うという手順による生成プロセスの基本的な実施形態を示す。なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、文字認識部(識別器)4および文字列解釈選択部6は必須ではない。
図2は、本実施形態の非文字を生成する処理のフローチャートを示す。
図2を参照すると、本実施形態フローでは、先ず、入力部1により認識対象となる文字列画像と、正解情報(文字列を構成するために使用される各文字種の外接矩形の座標値)とが入力される(S21)。なお、正解情報は、文字認識に用いる辞書データの一部を構成するものとして入力されるものであっても良い。
入力された文字列画像と正解情報の一例を図3(a)に示す。同図中において文字列画像「502」(ここでは手書き文字のように接触文字「50」を有する文字列が示されている)は入力画像を、又破線で示す矩形は正解情報、即ち「5」と「0」の外接矩形の基準(正解)値を表すものとして示されている。
【0014】
次に、ステップS21で入力された文字列画像をもとに文字要素生成部2で文字要素を生成する(S22)。文字要素の生成は、本実施形態においては、例えば、断面系列法(この方法の原理と利用法については、特開2001−344569号(以下、「先行例」という)参照)を適用する。この方法では、入力文字列画像を断面系列グラフの上下二階層の文字要素により表現する。
図3(b)は、入力文字列(図3(a))に断面系列法を適用し、上下二階層の断面系列情報により表現した文字要素を説明する図である。同図に示すように、下位層は断面系列グラフ(“断面”は文字の線分方向に直交するように求めた境界点ペアであり、“断面系列”は断面の一連の並びである)を用いており、SSと表記されるのが断面系列である。断面系列は、文字における通常の線分領域に相当する。SRと表記されるのが特異領域である。特異領域とは、端点領域、屈曲領域、分岐・交差領域に相当する。また、上位層は境界点列を基礎とする連結成分(輪郭)に相当する。図3(b)では、{C0,C2}で一つの連結成分を表すことになる。
ここに、二つの階層には冗長性があるが、これは精度と処理量のトレードオフを調整するためである。上位層は要素数が少ないため、処理量圧縮を指向する。いっぽう、下位層は、文字の構成要素をより詳細な部品の組み合わせで表現するため、処理量は増加するが処理精度を高めることができる。例えば、図3において、「5」と「0」が接触しているが、上位層は両者を併せたものを1つの要素と表現することになり、これ以上の分解が困難であるのに対し、下位層であれば、SR1で分割することによって、それぞれの文字を取り出すことが容易に可能となる。
したがって、階層性をうまく使い分けることで、精度と処理量のバランスを図ることができる。ここでは、階層選択を行って、図4(i)のような文字の構成要素が残されたと仮定する。つまり、「5」「0」に下位層を適用して文字要素を断面系列SSと特異領域SRで表し、「2」に上位層を適用して文字要素を連結成分C1で表す。
【0015】
次に、ステップS22で生成された文字要素を単独で用いるか、或いは任意に組み合わせることにより、文字候補を生成する(S23)。即ち、文字要素の生成処理により、図4(i)のような形態で取り出された文字要素に対して文字候補生成部3において文字候補の生成処理を適用する。この処理の結果、本例では同図(a)〜(h)の候補1〜8が生成されるとする。つまり、断面系列SSを特異領域SRで切り離して生成される文字要素を単独或いは他の要素と組み合わせて構成したものを含んだ形で文字候補を生成する。
上記のような方法を適用することにより対象文字列画像から文字候補を生成する処理を実行することが可能になる。なお、上述の文字要素の生成及び文字候補の生成についての詳細は、上記した先行例を参照することとする。
ステップS23により文字候補を生成した後、生成した各文字候補に対して、非文字か文字かを非文字評価部5で評価する(S24)。
評価の方法は、各文字候補の外接矩形とステップS21で入力された正解情報の文字の外接矩形を比較し、その矩形の座標値が一致するか否かによって判定する。図4の例では、候補2、候補6および候補8が入力された正解座標値情報と一致するので、文字と判定される。これら以外の候補1、候補3、候補4、候補5および候補7は一致しないので、非文字と判定される。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし(S24)、文字である場合には文字として集計し(S25)、他方、非文字である場合には非文字として集計する(S26)。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S27)、この処理を終了する。
管理された各文字候補に対する非文字/文字情報は、この処理システムに今後処理の対象として入力されてくるであろう文字列画像に対する文字切り出し処理の判断材料として用いることが可能であり、この非文字/文字情報を用いることにより、さらに高精度の文字切り出し(文字候補の判定)を高効率に行うことを可能にする。
【0016】
「実施形態2」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態1」に示した基本的な生成プロセスに改善を加えるもので、「実施形態1」において文字と判定された中に含まれるエラーを修正することを可能にする処理手順を付加することを特徴とする。
文字と判定された中に含まれる上記したエラーは、「実施形態1」では、外接矩形の座標値のみに基づいて正解情報との照合をとっているために生じるものである。つまり、外接矩形が同一であっても、例えば、図4の候補1と候補2に関して、「5」という文字の横棒の突き出しが短い場合、横棒のない「5」との関係がこれに相当するものとなる。この場合には、「実施形態1」においては、ともに「文字」と判定されてしまうが、期待されるのは候補1を「非文字」とし、候補2のみを「文字」とすることである。従って、候補1を「非文字」と修正し、エラーを解消することを可能にするための処理手順を追加する。
なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、「実施形態1」では文字認識部(識別器)4が用いられないのに対し、ここでは文字認識部(識別器)4を用いる。
【0017】
図5は、本実施形態の非文字を生成する処理のフローチャートを示す。
図5を参照すると、本実施形態フローでは、「実施形態1」における処理との違いは、最初の非文字評価(S34)の後である。そこまでは「実施形態1」と共通である(図2のステップS21〜24、参照)から、ステップS34までの説明は省略する。
ステップS34で文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、次に行う処理を分岐するために各文字候補の判定結果が非文字か文字かをチェックし(S34)、非文字である場合には、そのデータを管理するために非文字として第一次の集計を行う(S26)。
他方、各文字候補の判定結果をチェックし、文字である場合には、ステップS34で非文字か文字かを判定するために外接矩形の座標値を正解情報と照合し、一致を検知したときと同じ外接矩形の座標値を持つ文字候補が他に存在したか(同じ外接矩形を持つ文字候補が複数あるか)を調べ(S36)、文字候補が他にあった場合には、該当する文字候補に対して文字認識部(識別器)4を用いて個別に文字認識処理を行い(S37)、非文字/文字を確認する。即ち、この認識処理を行い、得た認識結果に付随する確信度等の情報を用いて、最も正解らしいものを「文字」と判定し、その他のものを「非文字」と判定する。
処理手順としては、文字認識を行い、その結果、最も正解らしいと判定された文字候補を文字と判定して、そのデータを管理するために文字として集計を行う(S40)。このとき、認識結果として得られた文字コード、確信度の少なくともいずれかを管理データとして用いて保存する。なお、文字として集計される文字候補は、ステップS36で同じ外接矩形の座標値を持つ文字候補が他に存在しなかった場合の候補も含まれるので、そのデータも対象となる。
また、文字認識を行い、その結果、最も正解らしいと判定された文字候補以外の文字候補については(S38−NO)、一旦文字と判定されたが、非文字に修正し、非文字として第二次の集計を行う(S39)。
それぞれの集計結果(S35,S39,S40)を、非文字として集計された文字候補群のデータと、文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S41)、この処理を終了する。
【0018】
「実施形態3」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態1」に示した基本的な生成プロセスにさらに文字候補への文字認識と文字列解釈という別の観点による判断を加えて非文字の生成を行うもので、「実施形態1」が、少ない処理量でたくさんの非文字情報を生成するのに対し、本実施形態は、文字列認識の切り出し精度向上に対して、より効果的な非文字情報を区別することを特徴とする。なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、「実施形態1」では文字認識部(識別器)4が用いられないのに対し、ここでは文字認識部(識別器)4と文字列解釈選択部6とを含む全ての構成要素を用いる。
図6は、本実施形態の非文字を生成する処理のフローチャートを示す。
図6を参照すると、本実施形態フローでは、「実施形態1」における処理との違いは、最初の非文字評価(S56)の後にある。そこまでは「実施形態1」と共通している(図2のステップS21〜26、参照)から、ステップS56までの説明は省略する。
抽出された文字候補に対して正解情報(外接矩形)との一致性による評価をして、第一次の非文字データを求め、そのデータを管理した(S56)後、次に同じ文字候補に対して、候補毎に個別に(図4の例でいえば、候補1〜候補8のそれぞれに)文字認識部(識別器)4を適用して文字認識を行う(S57)。
引き続いて、文字列解釈選択部6により文字列解釈を生成して、妥当な解釈を選択する処理を行う(S58)。文字列解釈とは、一行の文字列を構成する要素を(多少の重複は許すが)過不足なく用いて、文字列を解釈するものであり、文字列候補を生成することと同義である。
【0019】
図4の例に対しては、下記〔1〕〜〔n〕の文字列候補が生成されるとする。
〔1〕 候補1−候補4−候補6−候補8
〔2〕 候補1−候補4−候補7
〔3〕 候補1−候補5−候補8
…
〔n〕 候補3−候補8
この文字列候補から、形状情報(正解情報に含まれる文字外接矩形の座標値等)や認識結果情報などを総合して最も文字列解釈として妥当なものが選択される。選択の方法としては、先行例(特開2001−344569号)において開示された方法をそのまま適用できるので、説明は省略する。
この文字列解釈で、例えば、解釈の対象となったものが
〔n〕 候補3−候補8
であったとする。この場合、正解情報(各文字の座標値)と照らし合わせると、候補3が非文字であることがわかる。即ち、この文字列解釈選択部6にとって、候補3は誤りやすいものであることがわかる。「実施形態1」との比較でいえば、「実施形態1」では一般的な非文字である{候補1,候補3,候補4,候補5,候補7}を正解情報(各文字の外接矩形の座標値)に基づいて全て一律に非文字と判定している。これに対し、「実施形態2」では外接矩形によって判定したものを第一次の非文字としたうえで、文字列解釈によって{候補3}を第二次の非文字として、抽出するわけである。
このようにして生成した第二次の非文字のみを学習対象とすることで、効率的かつ効果的に文字列認識精度の向上を図ることが可能になる。
【0020】
「実施形態4」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、上記「実施形態1」に示した生成プロセスおけるよりも簡略な手順により構成することを意図するものである。即ち、「実施形態1」では入力文字列画像から文字要素を生成することを必要条件とし、得られた文字要素の組み合わせに着目して、文字要素の組み合わせを文字候補として生成するという方法を採用したのに対して、本実施形態では文字要素の生成という多くの処理ステップ数を要する手順を経ずに文字領域情報を生成し、これを正解情報との一致性チェックに用いることを特徴とする。従って、この実施形態においては、図1に示した処理システムの構成要素のうち、文字要素生成部2、文字認識部(識別器)4及び文字列解釈選択部6を必要とせずに文字候補の切り出しを行う。
図7は、本実施形態の非文字を生成する処理のフローチャートを示す。
図7を参照すると、本実施形態フローでは、先ず、入力部1により認識対象となる文字列画像と、正解情報(文字列を構成するために使用される各文字種の外接矩形の座標値)とが入力される(S71)。
【0021】
次に、入力された文字列画像に基づいて文字候補を切り出すための領域情報を生成する(S72)。この領域情報の生成手順は、まず入力文字列画像のおおよその文字サイズを推定する。例えば、行単位でその行内に含まれる文字高さの平均値(或いは最大値)を求め、求めた文字高さの所定倍(例えば、1/2〜2倍)の範囲に文字幅が収まるという推定方法による。
文字候補を切り出すための領域情報は、この推定文字サイズの範囲で乱数生成により自動的に生成する。ここでは、上記のようにして求めた文字高さにランダムな係数値を適用して文字高さの所定倍(例えば、1/2〜2倍)の範囲に文字幅を収めるような切り出し方で領域を決める。
処理手順としては、ステップS23により文字候補を決めるための領域情報を生成した後、生成した各領域情報の文字候補に対して、非文字か文字かを非文字評価部5で評価する(S73)。
評価の方法は、領域情報により定まる各文字候補とステップS71で入力された正解情報の文字の外接矩形同士を比較し、矩形の座標値が一致するか否かによって判定する。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし(S73)、文字である場合には文字として集計し(S74)、他方、非文字である場合には非文字として集計する(S75)。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S76)、この処理を終了する。
【0022】
「実施形態5」
本実施形態は、本発明に係わる文字認識装置の実施形態を示すものである。
上記した「実施形態1」〜「実施形態4」に示した非文字の生成処理手順を含む処理ステップを実行する手段として、汎用の処理装置(コンピュータ)を利用して構成される装置を例示するものである。
図8は、本実施形態の文字認識装置の構成を例示する。図8に示すように、本例は、汎用の処理装置(コンピュータ)により実施する例を示すものであり、構成要素として、スキャナ、キーボード、マウス等の入力装置に対する入力部I/F11、CPU12、記憶装置13、ハードディスクドライブ等の補助記憶装置14、ディスプレイ等への出力装置への出力I/F15、リムーバブルな記憶媒体のドライブ16、リムーバブルな記憶媒体17、ネットワークを介して他機と通信するためのコントローラ18などを備え、これらをバス接続して構成する。
また、記憶装置13、ハードディスクドライブ等の補助記憶装置14、ドライブ16が用いる記憶媒体の一部には、本発明に係わる文字認識処理機能を実現するための、上記「実施形態1」〜「実施形態4」に示した非文字の生成処理手順を含む文字認識方法に示した各処理ステップを実行するためのプログラム(ソフトウェア)が記録されている。
処理対象の文字列画像は、スキャナー等の入力装置4による原稿読み取りで入力され、例えばハードディスク3などに格納されているものである。CPU1は、記憶手段が有する記録媒体から上記した処理機能・処理方法を実現するプログラムを読み出し、プログラムに従う処理を対象文字列画像に実行し、その処理結果等をディスプレイ6に出力する。
なお、本発明に係わる文字認識装置を図8に示すように、コントローラ18によりネットワークを介して、外部の装置と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
また、本発明の文字認識方法の各処理ステップの実行プログラムを本実施形態のように汎用コンピュータに搭載することによって実施する以外に、各処理ステップの実行に必要な機能をファームウェアや電気回路の形態によって利用装置に組み込むことにより文字認識装置を構成することも可能である。
【0023】
【発明の効果】
(1) 請求項1〜3の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、処理対象として入力された文字列画像における文字形態の変動に適応して、文字の切り出し精度(延いては文字認識精度)を高度に維持するための学習用のデータを提供し得、文字列認識(切り出し)精度向上の実現に際し、その自動化・省力化を図ることを可能にする。
また、外接矩形による判定結果にエラーが含まれると見られる文字候補に文字認識処理を適用し、その結果によりエラーを修正するようにし、しかも文字認識の結果を文字コード、確信度の少なくともいずれかを用いて表すようにしたので、さらに正しい非文字データの提供を可能にする。
【0024】
(2) 請求項4の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補を対象に文字認識と文字列解釈という、請求項1〜3の発明(文字候補の外接矩形による判定)とは異なる観点による判断に従って非文字の生成を行うもので、請求項1〜3の発明が、少ない処理量でたくさんの非文字情報を生成するのに対し、本発明は、文字列認識の切り出し精度向上に対して、より効果的な非文字データの区別を可能にする。
(3) 請求項5の発明に対応する効果
文字候補を領域情報(入力文字列画像と正解情報の外接矩形から求めた)として生成し、生成した領域情報を正解情報(予め用意しておいた各文字に固有の外接矩形)と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、文字要素の生成という手順を用いた請求項1〜4の発明に比べて、文字候補の生成処理をより簡略化することが可能になる。
(4) 請求項6,7の発明に対応する効果
請求項1乃至5に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記(1)〜(3)の効果を容易に具現化し、また、該効果を奏する文字認識装置を提供することが可能になる。
【図面の簡単な説明】
【図1】非文字データを生成するための処理システムを構成する機能ブロックを示す。
【図2】「実施形態1」の非文字を生成する処理のフローチャートを示す。
【図3】入力された文字列画像と正解情報:(a)、文字要素:(b)の一例を示す。
【図4】対象文字列(i)への断面系列法による文字要素生成の適用を説明し、文字要素から生成された文字候補の生成結果(a)〜(h)を示す図である。
【図5】「実施形態2」の非文字を生成する処理のフローチャートを示す。
【図6】「実施形態3」の非文字を生成する処理のフローチャートを示す。
【図7】「実施形態4」の非文字を生成する処理のフローチャートを示す。
【図8】汎用コンピュータを利用して構成される本発明の実施形態に係わる文字認識装置の構成を示す。
【符号の説明】
1…入力部、 2…文字要素生成部、
3…文字候補生成部、 4…文字認識部(識別器)、
5…非文字評価部、 6…文字列解釈選択部、
7…出力部、 11…入力部I/F、
12…CPU、 13…記憶装置、
14…補助記憶装置、 15…出力I/F、
16…ドライブ、 17…リムーバブルな記憶媒体、
18…コントローラ。
【発明の属する技術分野】
本発明は、OCR(光学的文字読み取り装置)等に利用される文字認識技術に関し、より特定すると、文書原稿から読み取った文字列画像をもとに文字認識の対象となる文字候補の生成(文字単位の切り出し)を高精度に行うために、文字候補に対して非文字か文字かの評価に用いる非文字データを生成する処理ステップを有した文字認識方法、該方法の実行に用いるプログラム及び文字認識装置に関する。
【0002】
【従来の技術】
従来のOCR(光学的文字読み取り装置)においては、スキャナーにより文書原稿から読み取った画像に基づいて原稿に記された文字を認識する処理を行っている。この処理を行う際に、読み取った画像に含まれる文字列画像をもとに文字認識の対象となる文字候補を生成する(文字単位の切り出しを行う)が、この文字候補の生成を精度良く行うことは、認識の正確さを保証するために不可欠である。
文字候補の生成(切り出し)に用いる方法として、入力文字列画像から図形としてまとまりのある単位パターンを抽出し、その単位パターン或いはその組み合わせを文字候補として切り出し、切り出した文字候補の図形的特徴を一文字単位であることの確からしさの評価基準として用いて、目的とする一文字単位の切り出しを行うという方法が従来から知られている。
例えば、特許第2671533号(文字列認識方法及びその装置)をこの流れにある方法の一例として示すことができる。ここには、候補文字パタンの形状評価値と文字認識評価値とを合成した特性値を算出し、これに基づいて最良の文字列評価値をもたらす解釈を選択するという方法が開示されおり、文字候補を生成して最良の解釈を選択するという意味で、標準的な手法と言える。
また、特公平07−092818号(パターン切出しおよび認識方法とそのシステム)をこの流れにある他の例として示すことができる。ここには、接触文字(隣接文字同士が接触し、連結した形状部分を構成する)が対象となった場合の対応を可能にする切り出し処理が示され、接触文字間に観測される事象に対応できるように、切り出した単位パターンとその組み合わせからなる複数のパターンを対象に文字認識処理を行い、その認識結果から最終的な解を判定するために予め書き換え規則を定めている。これによって、途中の切り出し結果が誤った場合でも、文字候補の並びに基づく後処理(書き換え規則)によって正しい切り出し結果を得ることを可能にしている。
【0003】
【発明が解決しようとする課題】
しかしながら、例示した特許第2671533号においては、一般的な選択手法が開示されているものの、選択基準をどのように設定するかは記載されておらず、試行錯誤的に定められることになるものと考えられるが、実際に適用する対象に対して予め用意された選択基準が最適である保証はなく、適用対象の文字形態の変動に対して安定した切り出し精度を確保するには限界があり、最適化を目指して精度向上を図る場合には、試行錯誤的な努力が必要になると推測される。
また、例示した特公平07−092818号では、ここでも実際に適用する対象に対して予め用意された書き換え規則が万全であるという保証はなく、やはり適用対象の文字形態の変動に対して安定した精度を確保するには限界があり、最適解を得るための書き換え規則を予め定めるためには、多くの労力を要するであろうと推測される。
このように、従来技術においては、文字列認識(切り出し)精度向上の省力化・自動化という問題を抱えている。
本発明は、処理対象として入力された文字列画像から文字単位を含むと見なせる文字候補を切り出し、切り出した文字単位を対象に文字認識を行う際に必要とされる文字候補の切り出し処理における上述の従来技術の問題に鑑みてなされたものであり、その目的は、処理対象として入力された文字列画像における文字形態が変わっても、その変動に対応して高い切り出し精度を維持することを可能にする手順を文字認識手段(装置)側に用意し、手段(装置)の利用者に負担を掛けること無くその問題が解決できるようにし、しかも簡単な方法によりその実現を図ることを可能にする文字認識方法、該方法の実行に用いるプログラム及び文字認識装置を提供することにある。
【0004】
【課題を解決するための手段】
請求項1の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0005】
請求項2の発明は、請求項1に記載された文字認識方法において、前記文字候補の非文字らしさを評価・判定するステップとして、非文字らしいと評価されなかった文字候補に対して候補同士の外接矩形の一致を検出するステップと、外接矩形の一致が検出された場合に該当する文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップを付加したことを特徴とする方法である。
【0006】
請求項3の発明は、請求項2に記載された文字認識方法において、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップの評価・判定結果に文字コード、確信度の少なくともいずれかを用いることを特徴とする方法である。
【0007】
請求項4の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、生成された文字候補の組み合わせに文字列解釈を適用し、最適な組み合わせを選択する文字列解釈ステップと、前記文字切り出し時文字認識ステップ及び前記文字列解釈ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0008】
請求項5の発明は、処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像における文字群の外接矩形に基づいて求めた形状情報にランダムな係数値を適用して得た領域情報によって文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた前記各文字に固有の基準外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法である。
【0009】
請求項6の発明は、請求項1乃至5のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【0010】
請求項7の発明は、請求項6に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置である。
【0011】
【発明の実施の形態】
本発明は、文字列認識(切り出し)精度の向上に必要となる、非文字データを自動生成することにある。すなわち、処理対象として入力された文字列画像における文字形態の変動に適応して、文字列認識の(切り出し)精度を高度に維持するために、切り出された文字候補の中で文字ではないもの(非文字と呼ぶ)を学習用のデータとして作成することが必要であり、そのための手順を提供するものであり、これにより文字列認識(切り出し)精度向上の実現に際し、その省力化が図られる。
以下の各実施形態には、本発明を特徴付ける非文字データの生成に関する手順を中心に実施に係わる形態を例示する。従って、文字認識処理全体、即ち、対象画像の入力から最終的に文字認識の最適解を得るまでの全ステップについて、説明をしないが、文字認識に必要な基本的な手順は従前から知られている手順に従って実施し得るものとし、ここでは詳細な説明は省略し、必要な部分については説明を加えることとする。
また、以下の実施形態では、予め文字辞書として、各文字の文字コード、文字に固有の画像特徴(この要素として、文字に固有の外接矩形の基準値(例えば座標位置で表現された情報)といった形状特徴)が与えられている。なお、以下の記述で各文字の“正解情報”という場合には、文字辞書に記載された各文字の文字コードや文字に固有の外接矩形の位置情報を指す。
【0012】
本発明を添付する図面とともに示す以下の実施形態に基づき説明する。
先ず、下記「実施形態1」〜「実施形態4」の実施に共通に用いる処理システムを説明する。図1は、この処理システムを構成する機能ブロック図を示すものである。
図1を参照すると、1は例えばスキャナ等の画像データを入力する画像入力部、2は入力画像データから文字の構成要素を抽出する文字要素生成部、3は文字要素から文字候補を生成する文字候補生成部、4は切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識部(識別器)、5は文字候補を対象にして文字らしさを評価する非文字評価部、6は文字候補により構成する文字列候補を対象に最も妥当な文字列解釈により正解を選択する文字列解釈選択部、7は文字・非文字の生成結果の生成データを出力する出力部である。なお、入力される画像データは2値でも多値でもよいが、多値の場合は、所定の閾値で画像の白/黒を判定しながら処理を行う。また、この処理システムを構成する機能ブロック各部の詳細は、以下の実施形態にて追記する。
【0013】
「実施形態1」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、文字候補を文字要素に基づいて生成し、得られた文字候補に非文字の評価を行うという手順による生成プロセスの基本的な実施形態を示す。なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、文字認識部(識別器)4および文字列解釈選択部6は必須ではない。
図2は、本実施形態の非文字を生成する処理のフローチャートを示す。
図2を参照すると、本実施形態フローでは、先ず、入力部1により認識対象となる文字列画像と、正解情報(文字列を構成するために使用される各文字種の外接矩形の座標値)とが入力される(S21)。なお、正解情報は、文字認識に用いる辞書データの一部を構成するものとして入力されるものであっても良い。
入力された文字列画像と正解情報の一例を図3(a)に示す。同図中において文字列画像「502」(ここでは手書き文字のように接触文字「50」を有する文字列が示されている)は入力画像を、又破線で示す矩形は正解情報、即ち「5」と「0」の外接矩形の基準(正解)値を表すものとして示されている。
【0014】
次に、ステップS21で入力された文字列画像をもとに文字要素生成部2で文字要素を生成する(S22)。文字要素の生成は、本実施形態においては、例えば、断面系列法(この方法の原理と利用法については、特開2001−344569号(以下、「先行例」という)参照)を適用する。この方法では、入力文字列画像を断面系列グラフの上下二階層の文字要素により表現する。
図3(b)は、入力文字列(図3(a))に断面系列法を適用し、上下二階層の断面系列情報により表現した文字要素を説明する図である。同図に示すように、下位層は断面系列グラフ(“断面”は文字の線分方向に直交するように求めた境界点ペアであり、“断面系列”は断面の一連の並びである)を用いており、SSと表記されるのが断面系列である。断面系列は、文字における通常の線分領域に相当する。SRと表記されるのが特異領域である。特異領域とは、端点領域、屈曲領域、分岐・交差領域に相当する。また、上位層は境界点列を基礎とする連結成分(輪郭)に相当する。図3(b)では、{C0,C2}で一つの連結成分を表すことになる。
ここに、二つの階層には冗長性があるが、これは精度と処理量のトレードオフを調整するためである。上位層は要素数が少ないため、処理量圧縮を指向する。いっぽう、下位層は、文字の構成要素をより詳細な部品の組み合わせで表現するため、処理量は増加するが処理精度を高めることができる。例えば、図3において、「5」と「0」が接触しているが、上位層は両者を併せたものを1つの要素と表現することになり、これ以上の分解が困難であるのに対し、下位層であれば、SR1で分割することによって、それぞれの文字を取り出すことが容易に可能となる。
したがって、階層性をうまく使い分けることで、精度と処理量のバランスを図ることができる。ここでは、階層選択を行って、図4(i)のような文字の構成要素が残されたと仮定する。つまり、「5」「0」に下位層を適用して文字要素を断面系列SSと特異領域SRで表し、「2」に上位層を適用して文字要素を連結成分C1で表す。
【0015】
次に、ステップS22で生成された文字要素を単独で用いるか、或いは任意に組み合わせることにより、文字候補を生成する(S23)。即ち、文字要素の生成処理により、図4(i)のような形態で取り出された文字要素に対して文字候補生成部3において文字候補の生成処理を適用する。この処理の結果、本例では同図(a)〜(h)の候補1〜8が生成されるとする。つまり、断面系列SSを特異領域SRで切り離して生成される文字要素を単独或いは他の要素と組み合わせて構成したものを含んだ形で文字候補を生成する。
上記のような方法を適用することにより対象文字列画像から文字候補を生成する処理を実行することが可能になる。なお、上述の文字要素の生成及び文字候補の生成についての詳細は、上記した先行例を参照することとする。
ステップS23により文字候補を生成した後、生成した各文字候補に対して、非文字か文字かを非文字評価部5で評価する(S24)。
評価の方法は、各文字候補の外接矩形とステップS21で入力された正解情報の文字の外接矩形を比較し、その矩形の座標値が一致するか否かによって判定する。図4の例では、候補2、候補6および候補8が入力された正解座標値情報と一致するので、文字と判定される。これら以外の候補1、候補3、候補4、候補5および候補7は一致しないので、非文字と判定される。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし(S24)、文字である場合には文字として集計し(S25)、他方、非文字である場合には非文字として集計する(S26)。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S27)、この処理を終了する。
管理された各文字候補に対する非文字/文字情報は、この処理システムに今後処理の対象として入力されてくるであろう文字列画像に対する文字切り出し処理の判断材料として用いることが可能であり、この非文字/文字情報を用いることにより、さらに高精度の文字切り出し(文字候補の判定)を高効率に行うことを可能にする。
【0016】
「実施形態2」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態1」に示した基本的な生成プロセスに改善を加えるもので、「実施形態1」において文字と判定された中に含まれるエラーを修正することを可能にする処理手順を付加することを特徴とする。
文字と判定された中に含まれる上記したエラーは、「実施形態1」では、外接矩形の座標値のみに基づいて正解情報との照合をとっているために生じるものである。つまり、外接矩形が同一であっても、例えば、図4の候補1と候補2に関して、「5」という文字の横棒の突き出しが短い場合、横棒のない「5」との関係がこれに相当するものとなる。この場合には、「実施形態1」においては、ともに「文字」と判定されてしまうが、期待されるのは候補1を「非文字」とし、候補2のみを「文字」とすることである。従って、候補1を「非文字」と修正し、エラーを解消することを可能にするための処理手順を追加する。
なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、「実施形態1」では文字認識部(識別器)4が用いられないのに対し、ここでは文字認識部(識別器)4を用いる。
【0017】
図5は、本実施形態の非文字を生成する処理のフローチャートを示す。
図5を参照すると、本実施形態フローでは、「実施形態1」における処理との違いは、最初の非文字評価(S34)の後である。そこまでは「実施形態1」と共通である(図2のステップS21〜24、参照)から、ステップS34までの説明は省略する。
ステップS34で文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、次に行う処理を分岐するために各文字候補の判定結果が非文字か文字かをチェックし(S34)、非文字である場合には、そのデータを管理するために非文字として第一次の集計を行う(S26)。
他方、各文字候補の判定結果をチェックし、文字である場合には、ステップS34で非文字か文字かを判定するために外接矩形の座標値を正解情報と照合し、一致を検知したときと同じ外接矩形の座標値を持つ文字候補が他に存在したか(同じ外接矩形を持つ文字候補が複数あるか)を調べ(S36)、文字候補が他にあった場合には、該当する文字候補に対して文字認識部(識別器)4を用いて個別に文字認識処理を行い(S37)、非文字/文字を確認する。即ち、この認識処理を行い、得た認識結果に付随する確信度等の情報を用いて、最も正解らしいものを「文字」と判定し、その他のものを「非文字」と判定する。
処理手順としては、文字認識を行い、その結果、最も正解らしいと判定された文字候補を文字と判定して、そのデータを管理するために文字として集計を行う(S40)。このとき、認識結果として得られた文字コード、確信度の少なくともいずれかを管理データとして用いて保存する。なお、文字として集計される文字候補は、ステップS36で同じ外接矩形の座標値を持つ文字候補が他に存在しなかった場合の候補も含まれるので、そのデータも対象となる。
また、文字認識を行い、その結果、最も正解らしいと判定された文字候補以外の文字候補については(S38−NO)、一旦文字と判定されたが、非文字に修正し、非文字として第二次の集計を行う(S39)。
それぞれの集計結果(S35,S39,S40)を、非文字として集計された文字候補群のデータと、文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S41)、この処理を終了する。
【0018】
「実施形態3」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、「実施形態1」に示した基本的な生成プロセスにさらに文字候補への文字認識と文字列解釈という別の観点による判断を加えて非文字の生成を行うもので、「実施形態1」が、少ない処理量でたくさんの非文字情報を生成するのに対し、本実施形態は、文字列認識の切り出し精度向上に対して、より効果的な非文字情報を区別することを特徴とする。なお、この実施形態における非文字の生成プロセスでは、図1に示した処理システムの構成要素のうち、「実施形態1」では文字認識部(識別器)4が用いられないのに対し、ここでは文字認識部(識別器)4と文字列解釈選択部6とを含む全ての構成要素を用いる。
図6は、本実施形態の非文字を生成する処理のフローチャートを示す。
図6を参照すると、本実施形態フローでは、「実施形態1」における処理との違いは、最初の非文字評価(S56)の後にある。そこまでは「実施形態1」と共通している(図2のステップS21〜26、参照)から、ステップS56までの説明は省略する。
抽出された文字候補に対して正解情報(外接矩形)との一致性による評価をして、第一次の非文字データを求め、そのデータを管理した(S56)後、次に同じ文字候補に対して、候補毎に個別に(図4の例でいえば、候補1〜候補8のそれぞれに)文字認識部(識別器)4を適用して文字認識を行う(S57)。
引き続いて、文字列解釈選択部6により文字列解釈を生成して、妥当な解釈を選択する処理を行う(S58)。文字列解釈とは、一行の文字列を構成する要素を(多少の重複は許すが)過不足なく用いて、文字列を解釈するものであり、文字列候補を生成することと同義である。
【0019】
図4の例に対しては、下記〔1〕〜〔n〕の文字列候補が生成されるとする。
〔1〕 候補1−候補4−候補6−候補8
〔2〕 候補1−候補4−候補7
〔3〕 候補1−候補5−候補8
…
〔n〕 候補3−候補8
この文字列候補から、形状情報(正解情報に含まれる文字外接矩形の座標値等)や認識結果情報などを総合して最も文字列解釈として妥当なものが選択される。選択の方法としては、先行例(特開2001−344569号)において開示された方法をそのまま適用できるので、説明は省略する。
この文字列解釈で、例えば、解釈の対象となったものが
〔n〕 候補3−候補8
であったとする。この場合、正解情報(各文字の座標値)と照らし合わせると、候補3が非文字であることがわかる。即ち、この文字列解釈選択部6にとって、候補3は誤りやすいものであることがわかる。「実施形態1」との比較でいえば、「実施形態1」では一般的な非文字である{候補1,候補3,候補4,候補5,候補7}を正解情報(各文字の外接矩形の座標値)に基づいて全て一律に非文字と判定している。これに対し、「実施形態2」では外接矩形によって判定したものを第一次の非文字としたうえで、文字列解釈によって{候補3}を第二次の非文字として、抽出するわけである。
このようにして生成した第二次の非文字のみを学習対象とすることで、効率的かつ効果的に文字列認識精度の向上を図ることが可能になる。
【0020】
「実施形態4」
本実施形態は、図1に示した処理システムにより実行される非文字の生成処理に係わるものである。ここに示す非文字の生成処理は、上記「実施形態1」に示した生成プロセスおけるよりも簡略な手順により構成することを意図するものである。即ち、「実施形態1」では入力文字列画像から文字要素を生成することを必要条件とし、得られた文字要素の組み合わせに着目して、文字要素の組み合わせを文字候補として生成するという方法を採用したのに対して、本実施形態では文字要素の生成という多くの処理ステップ数を要する手順を経ずに文字領域情報を生成し、これを正解情報との一致性チェックに用いることを特徴とする。従って、この実施形態においては、図1に示した処理システムの構成要素のうち、文字要素生成部2、文字認識部(識別器)4及び文字列解釈選択部6を必要とせずに文字候補の切り出しを行う。
図7は、本実施形態の非文字を生成する処理のフローチャートを示す。
図7を参照すると、本実施形態フローでは、先ず、入力部1により認識対象となる文字列画像と、正解情報(文字列を構成するために使用される各文字種の外接矩形の座標値)とが入力される(S71)。
【0021】
次に、入力された文字列画像に基づいて文字候補を切り出すための領域情報を生成する(S72)。この領域情報の生成手順は、まず入力文字列画像のおおよその文字サイズを推定する。例えば、行単位でその行内に含まれる文字高さの平均値(或いは最大値)を求め、求めた文字高さの所定倍(例えば、1/2〜2倍)の範囲に文字幅が収まるという推定方法による。
文字候補を切り出すための領域情報は、この推定文字サイズの範囲で乱数生成により自動的に生成する。ここでは、上記のようにして求めた文字高さにランダムな係数値を適用して文字高さの所定倍(例えば、1/2〜2倍)の範囲に文字幅を収めるような切り出し方で領域を決める。
処理手順としては、ステップS23により文字候補を決めるための領域情報を生成した後、生成した各領域情報の文字候補に対して、非文字か文字かを非文字評価部5で評価する(S73)。
評価の方法は、領域情報により定まる各文字候補とステップS71で入力された正解情報の文字の外接矩形同士を比較し、矩形の座標値が一致するか否かによって判定する。
文字候補それぞれに対して非文字か文字かを判定した結果にしたがって、各文字候補を非文字/文字に分け、そのデータを管理するための処理を次に行う。この処理の手順として、各文字候補の判定結果が非文字か文字かをチェックし(S73)、文字である場合には文字として集計し(S74)、他方、非文字である場合には非文字として集計する(S75)。
それぞれの集計結果を、非文字として集計された文字候補群のデータと文字として集計された文字候補群のデータを管理するために各々別の保存・登録場所に出力し(S76)、この処理を終了する。
【0022】
「実施形態5」
本実施形態は、本発明に係わる文字認識装置の実施形態を示すものである。
上記した「実施形態1」〜「実施形態4」に示した非文字の生成処理手順を含む処理ステップを実行する手段として、汎用の処理装置(コンピュータ)を利用して構成される装置を例示するものである。
図8は、本実施形態の文字認識装置の構成を例示する。図8に示すように、本例は、汎用の処理装置(コンピュータ)により実施する例を示すものであり、構成要素として、スキャナ、キーボード、マウス等の入力装置に対する入力部I/F11、CPU12、記憶装置13、ハードディスクドライブ等の補助記憶装置14、ディスプレイ等への出力装置への出力I/F15、リムーバブルな記憶媒体のドライブ16、リムーバブルな記憶媒体17、ネットワークを介して他機と通信するためのコントローラ18などを備え、これらをバス接続して構成する。
また、記憶装置13、ハードディスクドライブ等の補助記憶装置14、ドライブ16が用いる記憶媒体の一部には、本発明に係わる文字認識処理機能を実現するための、上記「実施形態1」〜「実施形態4」に示した非文字の生成処理手順を含む文字認識方法に示した各処理ステップを実行するためのプログラム(ソフトウェア)が記録されている。
処理対象の文字列画像は、スキャナー等の入力装置4による原稿読み取りで入力され、例えばハードディスク3などに格納されているものである。CPU1は、記憶手段が有する記録媒体から上記した処理機能・処理方法を実現するプログラムを読み出し、プログラムに従う処理を対象文字列画像に実行し、その処理結果等をディスプレイ6に出力する。
なお、本発明に係わる文字認識装置を図8に示すように、コントローラ18によりネットワークを介して、外部の装置と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
また、本発明の文字認識方法の各処理ステップの実行プログラムを本実施形態のように汎用コンピュータに搭載することによって実施する以外に、各処理ステップの実行に必要な機能をファームウェアや電気回路の形態によって利用装置に組み込むことにより文字認識装置を構成することも可能である。
【0023】
【発明の効果】
(1) 請求項1〜3の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、処理対象として入力された文字列画像における文字形態の変動に適応して、文字の切り出し精度(延いては文字認識精度)を高度に維持するための学習用のデータを提供し得、文字列認識(切り出し)精度向上の実現に際し、その自動化・省力化を図ることを可能にする。
また、外接矩形による判定結果にエラーが含まれると見られる文字候補に文字認識処理を適用し、その結果によりエラーを修正するようにし、しかも文字認識の結果を文字コード、確信度の少なくともいずれかを用いて表すようにしたので、さらに正しい非文字データの提供を可能にする。
【0024】
(2) 請求項4の発明に対応する効果
入力文字列画像から生成した文字要素を組み合わせて文字候補を生成し、生成した文字候補を対象に文字認識と文字列解釈という、請求項1〜3の発明(文字候補の外接矩形による判定)とは異なる観点による判断に従って非文字の生成を行うもので、請求項1〜3の発明が、少ない処理量でたくさんの非文字情報を生成するのに対し、本発明は、文字列認識の切り出し精度向上に対して、より効果的な非文字データの区別を可能にする。
(3) 請求項5の発明に対応する効果
文字候補を領域情報(入力文字列画像と正解情報の外接矩形から求めた)として生成し、生成した領域情報を正解情報(予め用意しておいた各文字に固有の外接矩形)と対比し、一致しない文字候補を非文字らしいと評価・判定し、その結果を保存することにより、非文字データの自動生成を可能にしたので、文字要素の生成という手順を用いた請求項1〜4の発明に比べて、文字候補の生成処理をより簡略化することが可能になる。
(4) 請求項6,7の発明に対応する効果
請求項1乃至5に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記(1)〜(3)の効果を容易に具現化し、また、該効果を奏する文字認識装置を提供することが可能になる。
【図面の簡単な説明】
【図1】非文字データを生成するための処理システムを構成する機能ブロックを示す。
【図2】「実施形態1」の非文字を生成する処理のフローチャートを示す。
【図3】入力された文字列画像と正解情報:(a)、文字要素:(b)の一例を示す。
【図4】対象文字列(i)への断面系列法による文字要素生成の適用を説明し、文字要素から生成された文字候補の生成結果(a)〜(h)を示す図である。
【図5】「実施形態2」の非文字を生成する処理のフローチャートを示す。
【図6】「実施形態3」の非文字を生成する処理のフローチャートを示す。
【図7】「実施形態4」の非文字を生成する処理のフローチャートを示す。
【図8】汎用コンピュータを利用して構成される本発明の実施形態に係わる文字認識装置の構成を示す。
【符号の説明】
1…入力部、 2…文字要素生成部、
3…文字候補生成部、 4…文字認識部(識別器)、
5…非文字評価部、 6…文字列解釈選択部、
7…出力部、 11…入力部I/F、
12…CPU、 13…記憶装置、
14…補助記憶装置、 15…出力I/F、
16…ドライブ、 17…リムーバブルな記憶媒体、
18…コントローラ。
Claims (7)
- 処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた各文字に固有の外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
- 請求項1に記載された文字認識方法において、前記文字候補の非文字らしさを評価・判定するステップとして、非文字らしいと評価されなかった文字候補に対して候補同士の外接矩形の一致を検出するステップと、外接矩形の一致が検出された場合に該当する文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップを付加したことを特徴とする文字認識方法。
- 請求項2に記載された文字認識方法において、前記文字切り出し時文字認識ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップの評価・判定結果に文字コード、確信度の少なくともいずれかを用いることを特徴とする文字認識方法。
- 処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像から文字要素を生成するステップと、該文字要素を組み合わせて文字候補を生成するステップと、生成された文字候補に文字認識処理を適用する文字切り出し時文字認識ステップと、生成された文字候補の組み合わせに文字列解釈を適用し、最適な組み合わせを選択する文字列解釈ステップと、前記文字切り出し時文字認識ステップ及び前記文字列解釈ステップの処理結果に基づいて文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
- 処理対象として入力された文字列画像から文字単位と見なせる文字候補を切り出す文字切り出しステップと、切り出された文字候補と辞書に格納した文字の画像特徴を照合し、照合結果に基づき文字認識をする文字認識ステップを含む文字認識方法であって、前記文字切り出しステップは、入力された文字列画像における文字群の外接矩形に基づいて求めた形状情報にランダムな係数値を適用して得た領域情報によって文字候補を生成するステップと、生成された文字候補の外接矩形を予め用意しておいた前記各文字に固有の基準外接矩形と対比し、文字候補の非文字らしさを評価・判定するステップと、評価・判定結果を保存するステップを有することを特徴とする文字認識方法。
- 請求項1乃至5のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラム。
- 請求項6に記載されたプログラムを搭載したコンピュータを備え、該コンピュータにより対象画像のデータを処理することを特徴とする文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002217969A JP2004062385A (ja) | 2002-07-26 | 2002-07-26 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002217969A JP2004062385A (ja) | 2002-07-26 | 2002-07-26 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004062385A true JP2004062385A (ja) | 2004-02-26 |
Family
ID=31939283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002217969A Pending JP2004062385A (ja) | 2002-07-26 | 2002-07-26 | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004062385A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010140291A1 (ja) * | 2009-06-02 | 2010-12-09 | 日本電気株式会社 | 情報処理装置 |
JP2012043077A (ja) * | 2010-08-17 | 2012-03-01 | Fuji Xerox Co Ltd | 文字画像識別装置、文字画像識別方法およびプログラム |
JP2015075926A (ja) * | 2013-10-09 | 2015-04-20 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04335487A (ja) * | 1991-05-10 | 1992-11-24 | Ricoh Co Ltd | 文字認識装置の文字切り出し方法 |
JPH08161432A (ja) * | 1994-12-02 | 1996-06-21 | Seiko Epson Corp | 文字切り出し方法および文字切り出し装置 |
JP2001101345A (ja) * | 1999-09-27 | 2001-04-13 | Oki Electric Ind Co Ltd | 文字認識装置 |
JP2002015283A (ja) * | 2000-04-26 | 2002-01-18 | Fujitsu Ltd | 分離文字列統合方法および装置 |
JP2002042055A (ja) * | 2000-07-24 | 2002-02-08 | Japan Science & Technology Corp | カラー文書画像からの文字抽出方法 |
-
2002
- 2002-07-26 JP JP2002217969A patent/JP2004062385A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04335487A (ja) * | 1991-05-10 | 1992-11-24 | Ricoh Co Ltd | 文字認識装置の文字切り出し方法 |
JPH08161432A (ja) * | 1994-12-02 | 1996-06-21 | Seiko Epson Corp | 文字切り出し方法および文字切り出し装置 |
JP2001101345A (ja) * | 1999-09-27 | 2001-04-13 | Oki Electric Ind Co Ltd | 文字認識装置 |
JP2002015283A (ja) * | 2000-04-26 | 2002-01-18 | Fujitsu Ltd | 分離文字列統合方法および装置 |
JP2002042055A (ja) * | 2000-07-24 | 2002-02-08 | Japan Science & Technology Corp | カラー文書画像からの文字抽出方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010140291A1 (ja) * | 2009-06-02 | 2010-12-09 | 日本電気株式会社 | 情報処理装置 |
JP2012043077A (ja) * | 2010-08-17 | 2012-03-01 | Fuji Xerox Co Ltd | 文字画像識別装置、文字画像識別方法およびプログラム |
JP2015075926A (ja) * | 2013-10-09 | 2015-04-20 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4968075B2 (ja) | パターン認識装置、パターン認識方法、およびパターン認識プログラム | |
JP2006260401A (ja) | 画像処理装置、方法、およびプログラム | |
JP4100885B2 (ja) | 帳票認識装置、方法、プログラムおよび記憶媒体 | |
JP2008015641A (ja) | 人体領域抽出方法および装置並びにプログラム | |
JP2007102401A (ja) | 顔向き特定方法、顔判別方法および装置並びにプログラム | |
JP2016095640A (ja) | 密度計測装置、密度計測方法、およびプログラム | |
CN108520263B (zh) | 一种全景图像的识别方法、系统及计算机存储介质 | |
EP1758048A2 (en) | Character recognition apparatus and character recognition method | |
CN115291864B (zh) | 一种基于图神经网络的零碎图层检测方法及装置 | |
JP3634574B2 (ja) | 情報処理方法及び装置 | |
JP6340227B2 (ja) | 人物検出装置 | |
KR20010015025A (ko) | 문자인식장치의 문자추출방법 및 장치 | |
JP7494001B2 (ja) | 学習データセット作成支援装置および学習データセット作成支援方法 | |
JP2004062385A (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JP3099797B2 (ja) | 文字認識装置 | |
JP5761353B2 (ja) | 隆線方向抽出装置、隆線方向抽出方法、隆線方向抽出プログラム | |
JP2008299618A (ja) | 画像高品質化装置、方法およびプログラム | |
CN115497097A (zh) | 一种倾斜汉字点选验证码识别方法 | |
KR100834602B1 (ko) | 문자 인식 장치 및 문자 인식 방법 | |
CN115731561A (zh) | 使用视觉箭头关系检测的手绘示图识别 | |
KR102663350B1 (ko) | 적대적 변형된 이미지 탐지 방법 및 적대적 변형된 이미지 탐지 방법을 실행시키도록 기록매체에 저장된 컴퓨터 프로그램 | |
JP2019079135A (ja) | 情報処理方法及び情報処理装置 | |
JP2005352623A (ja) | パターン照合装置、画像品質検証方法及び画像品質検証プログラム | |
JP4055974B2 (ja) | パターン辞書作成方法及び装置、並びに記録媒体 | |
JPH11175662A (ja) | パターン認識方法および装置とパターン認識方法をコンピュータに実行させるためのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071016 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071115 |