JP4977232B2 - 文字読取結果確認装置および文字読取結果確認方法 - Google Patents

文字読取結果確認装置および文字読取結果確認方法 Download PDF

Info

Publication number
JP4977232B2
JP4977232B2 JP2010110400A JP2010110400A JP4977232B2 JP 4977232 B2 JP4977232 B2 JP 4977232B2 JP 2010110400 A JP2010110400 A JP 2010110400A JP 2010110400 A JP2010110400 A JP 2010110400A JP 4977232 B2 JP4977232 B2 JP 4977232B2
Authority
JP
Japan
Prior art keywords
character
image
group
confirmation
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010110400A
Other languages
English (en)
Other versions
JP2011238119A (ja
Inventor
彰夫 古畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2010110400A priority Critical patent/JP4977232B2/ja
Priority to US12/961,204 priority patent/US8411957B2/en
Priority to CN2010105883845A priority patent/CN102243707B/zh
Publication of JP2011238119A publication Critical patent/JP2011238119A/ja
Application granted granted Critical
Publication of JP4977232B2 publication Critical patent/JP4977232B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19013Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V30/1902Shifting or otherwise transforming the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Description

本発明の実施形態は、文字読取結果確認装置および文字読取結果確認方法に関する。
画像から文字を認識する文字認識の技術分野において、認識の誤りを訂正するため、オペレータによる認識結果の確認及び誤った認識結果の修正作業が必要となる。通常、文字認識結果を訂正する際には、文字認識結果と認識対象画像とを対比できるように画面に表示して目視で確認するが、これには多大な労力と時間がかかる。
従来の文字認識技術としては、文字認識結果を確認および訂正するための技術が既にある(例えば特許文献1参照)。
特開平6−119484号公報
ところで、画像を文字認識した結果は、認識確度が高い場合であっても誤りを含まないとは限らないため、結局は全ての文字についてオペレータが確認する必要があり、確認それ自体を高速に行うことが可能な技術の開発が必要である。
本発明は画像から文字認識した結果の確認を高速に行うことができる文字読取結果確認装置および文字読取結果確認方法を提供することを目的とする。
実施形態の文字読取結果確認装置は、文字が記入または印刷された帳票を光学的に読み取って得られた帳票画像から、一文字単位に切り出した文字画像に対して文字認識を行った結果、同じ文字として分類されたグループの複数の文字画像を取得する取得部と、前記取得部により取得された同じグループの前記複数の文字画像を重ね合わせて、前記複数の文字画像の中で、前記全ての文字画像で同じ画素値を示す第1部位と、前記他の文字画像と異なる画素値を示す第2部位とをオペレータが目視で判別可能な確認用画像を生成する確認用画像生成部と、前記確認用画像生成部により生成された前記確認用画像を出力する出力部とを具備する。
第1の実施形態の文字読取結果確認装置の構成を示す図である。 文字列領域から文字を認識する様子を示す図である。 3枚の文字画像を統合(合成)して確認用画像を作成する例を示す図である。 他の確認用画像の例を示す図である。 数字の文字画像「3」と数字の文字画像「2」を重ね合わせた例を示す図である。 数字の文字画像「3」と数字の文字画像「8」を重ね合わせた例を示す図である。 確認用画像との対比で文字画像を分類する動作を示すフローチャートである。 第2の実施形態の文字読取結果確認装置の構成を示す図である。 文字認識結果が「1」である文字画像の文字グループの例を示す図である。 図9の文字画像から生成された代表画像を示す図である。 代表画像と各文字画像との画素間の距離を計算する動作の説明図である。 画素間の距離が一番遠い文字画像として選択された文字画像を示す図である。 元の文字グループ内の文字画像を二つのグループのいずれかに分類した例を示す図である。 第3の実施形態の文字読取結果確認装置の構成を示す図である。
以下、図面を参照して、実施形態を詳細に説明する。
(第1の実施形態)
図1は第1の実施形態の文字認識システムの構成を示す図である。
図1に示すように、この実施形態の文字認識システムは、スキャナ1等の画像読取装置と、モニタ3などの表示装置と、これらの装置が接続されたコンピュータ2とを備えている。
コンピュータ2は、文字認識部21、認識結果取得部22、確認用画像生成部23、確認用画像出力部24およびメモリ25などを有している。文字認識部21、認識結果取得部22、確認用画像生成部23、確認用画像出力部24はハードディスク装置にインストールされたソフトウェアの一つの機能として実現される。
文字認識部21は、スキャナ1により光学的に読み取られた帳票の画像を文字認識する。認識結果取得部22は文字認識部21により認識された文字認識結果(文字コードおよび各文字認識結果に対応する認識元の文字画像)を取得しメモリ25に記憶する。文字認識部21はスキャナ1と共に文字認識装置としてコンピュータ2とは別のハードウェアとしてもよい。
認識結果取得部22は、帳票画像のうち、文字認識のため文字領域を1文字単位に切り出した画像を2値化した後の画像、つまり文字認識結果の文字コードに対応する文字画像を取得する。文字認識結果として得られる文字コードは、この他、例えばテキストデータなどいってもよい。
すなわち認識結果取得部22は文字が記入または印刷された帳票を光学的に読み取って得られた帳票画像から、一文字単位に切り出した文字画像に対して文字認識を行った結果、同じグループとして分類された複数の文字画像を取得する。同じグループであると分類する基準としては、文字認識結果の文字コードが同じであるか否かを用いる。この他に、例えば各文字に対してフォント識別を行った結果などを追加してもよい。この場合、例えばまず文字コード”2”のグループがあり、その下にフォントArialのグループ、フォントMS Sans Serifのグループ…というようにフォント単位でのものが存在するようになる。
確認用画像生成部23は、認識結果取得部22により取得された同じグループの複数の文字画像を重ね合わせて、複数の文字画像の中で、全ての文字画像で同じ画素値を示す第1部位と、他の文字画像と異なる画素値を示す第2部位とをオペレータが目視で判別可能な確認用画像を生成する。オペレータは認識結果の確認および修正を行う作業者である。
すなわち、確認用画像生成部23はメモリ25の文字認識結果(文字および文字画像)からオペレータに提示する確認用画像を生成する。換言すると、確認用画像生成部23は、認識結果取得部22により取得された同じグループの複数の文字画像を重ね合わせてオペレータに提示する確認用画像を生成する。
確認用画像生成部23は、グループ内の全ての文字画像で文字の一部である部分と、グループ内の少なくとも1枚の文字画像で文字の一部であり、少なくとも1枚の文字画像で文字の一部でない部分と、グループ内の全ての文字画像で文字の一部でない部分とで表示が異なるように確認用画像を生成する。なお各部分を色分けして表示する際に、出現頻度に応じて確認用画像の色を部位毎に変えてもよい。
確認用画像出力部24は確認用画像および文字認識結果を用いて認識結果の確認および修正を行うための確認用画像を提示すると共に、確認用画像の確認および修正を促すメッセージを表示する。すなわち確認用画像出力部24は確認用画像生成部23により生成された確認用画像をモニタ3へ出力する。
モニタ3は確認用画像出力部24から出力された確認用画像を画面に表示しオペレータに提示する。確認用画像出力部24は、確認用画像生成部23により生成された確認用画像をオペレータに提示するためにモニタ3へ出力する。
このコンピュータ2は、主要なハードウェア部分が例えばパーソナルコンピュータ(PC)で構成されており、主要機能はハードディスク装置にインストールされたソフトウェアにより実現される。コンピュータ2以外に、主要機能の各構成要素を一つのハードウェアとして生成し、それらを組み合わせて実現してもよい。
以下、図2乃至図6を参照してこの第1の実施形態の文字認識システムの動作を説明する。なお、以下では数字の認識を行った場合を例にとって説明するが、これ以外の文字、例えば英字や漢字などであってもよい。
まず、文字認識部21は、コンピュータ2に接続されたスキャナ1が帳票から読み取り、コンピュータ2に入力した帳票画像を、文字認識処理することで、文字認識結果と、それぞれの文字が存在する位置を取得しメモリ25に記憶する。
文字認識部21は、図2に示すように、帳票画像のうち認識対象の文字列の領域31を文字認識部21が切り出し、その文字列の領域31から、一文字ごとの文字画像32を切り出して文字として認識した結果の文字コード(テキスト)33と文字画像32とを生成する。
認識結果取得部22は、文字認識部21により生成された文字コード(テキスト)33と文字画像32を取得し、メモリ25に記憶する。なお、ここでは確認用画像生成のための処理対象とする文字画像32は2値画像であるとしているが、グレー画像やカラー画像などの3値以上の画像であってもよい。このような場合は、例えば大津の方法などにより2値化処理を行うことで2値の文字画像を取得することができる。
次に、確認用画像生成部23は、メモリ25より同じグループの文字画像32を読み出し、読み出した文字画像32から確認用画像を生成する。具体的には、まず同じグループの取得した全ての文字画像を、文字認識結果ごとに分類する。この例の場合、数字のため、認識結果が数字の文字グループ「0」〜「9」のうち、いずれのグループに属す(該当する)かを確認するため、10個のグループに分類、つまりグループ分けする。
次に、確認用画像生成部23は、数字の文字グループ「0」〜「9」の各グループ内の複数の文字画像を用いて確認用画像を生成する。図3は同じ帳票画像または異なる帳票画像の異なる位置で数字の「2」という認識結果を得たグループの複数の文字画像(文字画像32a、文字画像32b、文字画像32cの3枚の画像)から確認用画像を作成する例を示している。
なお、以下では2値の文字画像において、文字の一部である画素を黒、文字の一部でない画素を白とする。具体的には、確認用画像生成部23は、3枚の画像のいずれにおいても黒である画素を黒、3枚の画像の少なくとも1枚で黒、少なくとも1枚で白である画素を灰色、3枚の画像のいずれにおいても白である画素を白、とした画像を生成し、確認用画像とする。
ここで、各文字画像の大きさが異なる場合には、例えば非線形正規化などの処理を行い、大きさを揃えてもよい。また、生成する確認用画像はこの形に限定されず、例えば上記確認用画像の黒の画素のみを黒、白と灰色の画素を白とした画像(以下「同じ位置の画素全てが黒の画像」または「AND画像」と称す)と、黒の画素と灰色の画素を黒、白の画素を白とした画像(以下「同じ位置の画素いずれかが黒の画像」または「OR画像」と称す)との2枚を確認用画像とする、などとしてもよい。「同じ位置の画素全てが黒の画像」は換言すると、「全てで黒画像」とも言える。「同じ位置の画素いずれかが黒の画像」は、換言すると、「いずれかで黒画像」と言える。
なお、図3に示した確認用画像34は、「同じ位置の画素全てが黒の画像」と「同じ位置の画素いずれかが黒の画像」とを一枚の画像に重ね合わせて表現したものである。異なる文字画像32a~32cの同じ部位の画素で白色の画素(白画素)と黒色の画素(黒画素)が重なる部分はグレーや網掛け(図3の確認用画像34では斜線等)にして表示している。なお各部分を色分けして表示する際に、出現頻度に応じて確認用画像34の色を部位(画素)毎に変えてもよい。
また、確認用画像34として、これらの画像を複数用いるようにしてもよい。
ここで、図4を参照してAND画像41とOR画像42を用いた認識結果確認方法を説明する。図4の左側に示す「同じ位置の画素全てが黒の画像」41は、上述したように同グループ内の全ての文字画像で画素が黒色、すなわち文字の一部であるとされている画素のみを特定の画素値:色(図では黒色など)にした場合の第1画像である。
また、図4の右側の「同じ位置の画素いずれかが黒の画像」42は、同グループ内のいずれかの画像で画素の色が黒色である画素を全て特定の画素値:色(図では黒色など)にした場合の第2画像である。
すなわち、「同じ位置の画素全てが黒の画像」41と「同じ位置の画素いずれかが黒の画像」42との差分、つまり確認用画像で灰色にあたる部分が、同グループ内において文字毎に黒と白との間で変動する部分である。
なお、「同じ位置の画素全てが黒の画像」41と「同じ位置の画素いずれかが黒の画像」42が同一の文字であれば、その差分は同一の文字内での変動分とみなす事ができる。つまり、確認用画像から容易に視認できる「同じ位置の画素全てが黒の画像」41と「同じ位置の画素いずれかが黒の画像」42とに対して認識結果の確認を行うことで、同じグループに分類された全ての文字画像に対して認識結果の確認を行うことができる。
また、前述したとおり確認用画像34はAND画像41とOR画像42を1枚の画像に重ね合わせて表現したものであるため、これを用いる場合でも同様に行うことができる。
次に、確認用画像出力部24は、モニタ3の画面にAND画像41とOR画像42、または確認用画像34など、確認用画像生成部23で生成された画像を出力する。この結果、モニタ3の画面にこれらの画像が表示され、これをオペレータが見ることで、認識結果の同じ文字に誤認識した文字がある可能性の有無を確認することができる。
この他、確認用画像出力部24に、オペレータの指示を受けて確認用画像34、「同じ位置の画素全てが黒の画像」41、「同じ位置の画素いずれかが黒の画像」42を切り替えて表示する機能を備えてもよく、これらを自動で切り替えながら表示するようにしてもよい。
ここで、図5を参照して画像合成(重ね合わせ)の一例として、実際には異なる文字を現す文字画像が、誤読によって重ね合わされてしまった場合の例について説明する。
図5は数字の文字画像「3」と文字画像「2」を重ね合わせた例である。この場合、図5に示すように、「同じ位置の画素全てが黒の画像」41と「同じ位置の画素いずれかが黒の画像」42は、共に形状が文字としてふさわしくないため、このグループの中に誤りが含まれていると判断できる。
図6は数字の文字画像「3」と数字の文字画像「8」を重ね合わせた例である。この場合、「同じ位置の画素全てが黒の画像」41は「3」、「同じ位置の画素いずれかが黒の画像」42は「8」と判定でき、互いの判定結果が食い違うことになる。従って、このグループの中に誤りが含まれているものと判定できる。
ここで、図7のフローチャートを参照して確認画像生成動作を説明する。コンピュータ2では、確認画像生成部24が、初期グループXを設定し(S101)、グループX内の文字画像の平均画像を作成する(S102)。
確認画像生成部24は、作成した平均画像と文字画像の同じ位置の画素間の距離d(i)を計算する(S103)。
そして、確認画像生成部24は、距離d(i)が最大値dmaxとなる文字画像Iを選択する(S104)。
また確認画像生成部24は、最大値dmaxと予め設定されている分類のための閾値thとを比較し(S105)、最大値dmaxが閾値thよりも大きい場合(S105のYes)、選択した文字画像Iを別のグループYへ移動する(S106)。
確認画像生成部24は、文字画像Iと各文字画像との距離d’(i)を算出、つまり計算により求める(S107)。
確認画像生成部24は、算出した距離d’(i)と距離d(i)とを比較し、距離d(i)よりも小さい距離d’(i)となる文字画像をグループYへ移動する(S108)。
この動作をグループX内の全ての文字画像に対して行い(S109)、処理を終了する。
このようにこの第1の実施形態によれば、オペレータは、モニタ3に表示された確認用画像34を確認することで、多数の文字の認識結果を一括して確認し、誤りを含むグループのみ全文字データに対して認識結果の確認を行えばよくなる。このため、認識結果の確認作業を高速に行うことができる。
(第2の実施形態)
以下、図8、図9を参照して第2の実施形態を説明する。図8は第2の実施形態の文字認識システムの構成を示す図である。なおこの第2の実施形態において第1の実施形態と同様な構成には同一の符号を付しその説明は省略する。
この第2の実施形態の文字認識システムは、図8に示すように、第1実施形態の構成に、さらに入力部26と判定受付部27を追加したものである。
上記第1の実施形態では、確認用画像をモニタ3に表示しユーザに確認させるだけであったが、この第2の実施形態では、各文字グループに分類した文字画像が誤分類されている可能性がある場合に、オペレータからの指示を受け付けて新たなグループまたは他のグループへ再分類する。すなわち、この第2の実施形態では、確認用画像生成部23は、グループ内の文字画像に対してクラスタリングを行い、予め設定したグループ分けのパラメータを超える文字画像を新たなグループとして分類し、クラスタリング前のグループを細分する。
入力部26は、例えばキーボード等であり、オペレータにより操作されるキーに応じたコマンドをコンピュータ2へ入力する。判定受付部27は、入力部26から入力されたキーに応じたコマンド(例えば「Y」キーまたは「N」キー)を受け付け、提示した確認用画像に対しオペレータが下したグループの正否判定結果を得る。
オペレータは、モニタ3に表示された確認用画像を確認し、認識結果のグループが正しいと判断すれば、入力部26としてのキーボードの例えば「Y」キーなどを押し、グループの分類が間違っていると思えば、キーボードの例えば「N」キーなどを押す。
判定受付部27は、押されたキーに応じて異なる処理を行う。例えば「Y」キーが押された場合、次の文字グループの処理に進むよう確認用画像生成部23に通知する一方、「N」キーが押された場合、そのグループに誤認識した文字画像が混在する可能性があるため、当該グループを再分類する処理を確認用画像生成部23に行わせる。
第2の実施形態における認識結果取得部22では、文字画像として、大きさを正規化した濃度画像を用いる。具体的には、文字画像を固定の大きさのメッシュとする。そして、認識対象とした画像から前記文字が存在する位置に対してメッシュをマッピングする。
次に、認識対象とした画像を参照して各メッシュに含まれる画素の濃度の平均を求め、メッシュの値とする。
この実施形態では、認識対象とした画像としてグレー画像を利用することとする。グレー画像は、黒画素の画素値を「0」、白画素の画素値を「255」の合計256階調のグレー画像とし、文字は黒で書かれているものとする。また、本例における画像の濃度値は、(255−認識対象とした画像における画素値)によって定義する。
但し、扱うことのできる画像はグレー画像に限らず、例えば色変換処理を用いてカラー画像からグレー画像に変換して同様の処理を行ってもよい。また、2値画像を対象とするような場合には、範囲内での黒画素の数を数えてグレー画像を作成してもよい。
続いて、確認用画像生成部23は、文字画像から確認用画像を生成する。具体的には、第1の実施形態と同様に、取得した全ての文字画像を、文字認識結果の文字グループ毎に分類する。
次に、確認用画像生成部23は、各文字グループに対してクラスタリングなどの処理を行い、各文字グループをさらに細かく分類する。なお、文字画像を文字グループに分類する上で、第1実施形態と同様に初回はクラスタリングを行わずに分類し、2回目以降からクラスタリングを行った上で分類するようにしてもよい。
ここで、図9乃至図13を参照してクラスタリングにより再分類する方法を説明する。この例では、図9に示すように、文字認識結果が「1」である文字画像90a〜90eの文字グループを例にとって説明する。
確認用画像生成部23は、まず、各文字画像90a〜90eを縦横に区切ったメッシュの各画素ブロックの位置について、図10に示すように、同グループに含まれる全文字画像での濃度の平均を求めることにより、グループの代表画像91を生成(決定)する(ステップS201)。
但し代表画像91の決め方はこの例(濃度の平均を求める方法)に限定されるものではない。この他、代表画像91は、例えばグループ内の他の文字画像との距離の総和が最も小さい文字画像を代表画像とする、また代表画像と同様の手段で平均画像を求め、その平均画像最も近い文字画像を代表画像とするなど、他の計算方法を用いて決定してもよい。
次に、確認用画像生成部23は、図11に示すように、代表画像91と各文字画像90a〜90eの画素間の距離を計算する(ステップS202)。つまり一つ一つの文字画像iについて、代表画像91の画素ブロックの位置からの距離d(i)を求める。ここで、iはグループ内における文字画像の番号とし、1〜Nの値をとる。但し、Nはグループ内の文字画像数である。なおこの例では距離d(i)は、次の式(1)のように、
Figure 0004977232
と定義する。つまり、各メッシュにおける濃度差の2乗和の平方根として定義するが、例えばマハラノビス汎距離を用いるなど、他の定義を用いて距離を定義してもよい。
次に、確認用画像生成部23は、図12に示すように、代表画像からの距離d(i)が最も遠い(一番遠い)文字画像Xを決定する。この例では文字画像90dが相当する。以下これを与えるiをimaxとする。
続いて、確認用画像生成部23は、文字画像Xと代表画像の距離d(imax)が閾値Thを超える場合、その文字画像Xを、新たに生成した別グループ(新グループ)に分類する(ステップS203)。
ここで、閾値Thは予め定めてもおいてもよく、例えば距離d(i)の平均や中央値などを用いて動的に決定してもよい。
最後に、確認用画像生成部23は、元のグループ内の文字画像を二つのグループのいずれかに分類する。
つまり、分類されたグループ内に残っている各文字画像について、分類した文字画像と代表画像のどちらに、より近いかを調べ、図13に示すように、文字画像を近い方のグループに分類する(ステップS204)。
ここで、代表画像はグループ内に残っている画像のみから再計算してもよい。図13の例では、文字画像90a〜90cが元のグループに分類され、文字画像90dと文字画像90eが新グループに分類され、元のグループの文字画像がゴシック体の「1」に近く、新グループの文字画像が明朝体の「1」に近い画像の集まりになっていることが判る。
すなわち、以上の処理によって1つのグループ内に平均から閾値Th以上離れた画像、つまり代表画像に十分似ていない画像が含まれていた場合、その画像及びその画像の側により近い画像を別のグループに分ける。
この方法を用いることで、図9の例のように、同じ文字でも異字体の文字画像が同じグループの中に含まれているなどの理由からグループ内でうまく重ね合わせができないような場合に、文字画像を同じ数字であっても異なるフォントの別グループとして分類し、適切な文字グループに再分類できるようになる。
誤分類の可能性のある文字画像を別のグループに再分類した後、確認用画像生成部23は、グループ毎に確認用画像を生成する。第2の実施形態においては、確認用画像は、各メッシュにおけるグループ内での最小値を取った最小値画像と、同じく最大値を取った最大値画像の2枚の画像を利用する。
ここで、最小値画像は最も濃度の薄い場合の文字画像に相当すると考えられ、第1の実施形態における「全てで黒の画像」に相当する。また、最大値画像は同じく最も濃度の濃い場合の文字画像に相当すると考えられ、「いずれかで黒の画像」に相当する。この方法を用いることで、オペレータは、第1の実施形態と同様に認識結果の確認を高速に行うことができる。
次に、判定受付部27は、入力部26から入力されたキーによるオペレータの判断結果を取得する。判断結果がYesの場合は処理を終了する。
一方、判断結果がNoの場合、判定受付部27は、すなわちグループ内に異なる文字の文字画像が含まれている(すなわち認識誤りが含まれている)ため、文字グループを再分類するよう判定受付部27へ通知し、再分類を行わせる。
具体的には、判定受付部27は、確認用画像生成部23に対してグループ分けの閾値Thを前回よりも小さくして分類を再度実行させる。ここで、グループ分けの結果が変わらなければ、閾値Thをさらに小さくしてグループが分かれるまで繰り返すなどしてもよい。
誤認識を起こした文字画像しか含まれないグループが発生するまでこれを繰り返せば、誤認識のみを抽出することができる。なお、例えばグループ内の文字画像数が十分少なくなった時点など、なんらかの段階で繰り返しを打ち切るなどしてもよい。
このようにこの第2の実施形態の文字認識システムによれば、オペレータは、確認用画像を確認して多数の文字の認識結果を一括して確認し、誤りを含むグループに対してこの手順を繰り返すことで、誤認識した文字を高速に特定することができる。
(第3の実施形態)
以下、図14を参照して第3の実施形態を説明する。図14は第3の実施形態の文字認識システムの構成を示す図である。なおこの第3の実施形態において第1の実施形態と同様な構成には同一の符号を付しその説明は省略する。
この第3の実施形態の文字認識システムは、図14に示すように、第1実施形態の構成から、確認用画像出力部24を無くし、確認画像生成部23により生成された確認用画像を文字認識部21へ入力するよう構成する。
文字認識部21は、入力された確認用画像に対して文字認識を行うことで、文字として正常に認識できない場合は、誤認識した可能性がある文字画像が含まれているものとして、その文字グループ名をモニタ3に表示し、またはその文字グループに誤認識の可能性がある文字画像が含まれていることを示すメッセージなどをモニタ3に表示する。すなわち、文字認識部21は、確認用画像生成部23により生成された確認用画像を文字認識し、確認用画像が元のグループとして認識できなかった場合、同グループ内に誤認識した文字画像が含まれているものと判定しその旨を出力する。
上記第2の実施形態では、確認用画像を確認用画像出力部24からモニタ3へ出力し画面に表示(提示)して、オペレータに確認用画像を確認させ、文字画像が誤分類されている可能性があることの判断をオペレータにさせ、正誤判断の結果をキー入力させたが、この第3実施形態では、確認画像生成部23により生成された確認用画像を文字認識部21に入力し、確認用画像を文字認識部21に文字認識させることで、誤認識の可能性を自動的に判定させ、判定結果として、誤認識した文字画像が含まれている可能性のある文字グループ名などをモニタ3に表示する。
この第3の実施形態の文字認識システムによれば、グループ毎に誤認識した可能性を自動的に判定し、誤認識した文字画像が含まれる文字グループ名をモニタ3に表示するなどして、オペレータに提示することで、文字グループを分類する上での精度向上に寄与することができる。
なお、本願発明は、上記実施形態のみに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形してもよい。例えば実施形態で説明した各要素の拡張、一部の削除を含む変更を行った形態も本発明の技術的範囲に含まれる。
すなわち、上記実施形態に開示した複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。また実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施の形態に係る構成要素を適宜組み合わせてもよい。
また上記実施形態に示した各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現してもよく、また上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。
1…スキャナ、2…コンピュータ、3…モニタ、21…文字認識部、22…認識結果取得部、23…認用画像生成部、24…確認用画像出力部、25…メモリ、26…入力部、27…判定受付部。

Claims (8)

  1. 文字が記入または印刷された帳票を光学的に読み取って得られた帳票画像から、一文字単位に切り出した文字画像に対して文字認識を行った結果、同じ文字として分類されたグループの複数の文字画像を取得する取得部と、
    前記取得部により取得された同じグループの前記複数の文字画像を重ね合わせて、前記複数の文字画像の中で、前記全ての文字画像で同じ画素値を示す第1部位と、前記他の文字画像と異なる画素値を示す第2部位とをオペレータが目視で判別可能な確認用画像を生成する確認用画像生成部と
    を具備することを特徴とする文字読取結果確認装置。
  2. 前記確認用画像生成部は、
    グループ内の全ての文字画像で文字の一部である部分と、グループ内の少なくとも1枚の文字画像で文字の一部であり、少なくとも1枚の文字画像で文字の一部でない部分と、グループ内の全ての文字画像で文字の一部でない部分とで表示が異なるように前記確認用画像を生成することを特徴とする請求項1に記載の文字読取結果確認装置。
  3. 前記確認用画像生成部は、
    グループ内の全ての文字画像で文字の一部である部分が所定の画素値である第1画像と、グループ内の少なくとも1枚の文字画像で文字の一部である部分が所定の画素値である第2画像とを確認用画像として生成することを特徴とする請求項1記載の文字読取結果確認装置。
  4. 前記確認用画像生成部は、
    前記グループ内の文字画像に対してクラスタリングを行い、予め設定したグループ分けのパラメータを超える文字画像を新たなグループとして分類し、クラスタリング前のグループを細分することを特徴とする請求項1乃至3いずれか1記載の文字読取結果確認装置。
  5. 前記確認用画像の確認結果として誤認識された文字画像が含まれるグループとして入力されたキーを受け付け、前記グループを前記確認用画像生成部に入力する受付部と、
    前記確認用画像生成部は、
    前記受付部から入力された誤認識のグループの文字画像に対して確認画像を生成する際に、前記グループ分けのパラメータを変更した上で確認用画像を生成することを特徴とする請求項4記載の文字読取結果確認装置。
  6. 各部分を色分けして表示する際に、出現頻度に応じて確認用画像の色を部位毎に変えることを特徴とする請求項2記載の文字読取結果確認装置。
  7. 前記確認用画像生成部により生成された確認用画像を文字認識し、前記確認用画像が元のグループとして認識できなかった場合、前記グループに誤認識した文字画像が含まれているものと判定する文字認識部を具備することを特徴とする請求項1記載の文字読取結果確認装置。
  8. 文字が記入または印刷された帳票を光学的に読み取って得られた帳票画像から、一文字単位に切り出した文字画像に対して文字認識を行った結果、同じ文字として分類されたグループの複数の文字画像を取得するステップと、
    取得した同じグループの前記複数の文字画像を重ね合わせて、前記複数の文字画像の中で、前記全ての文字画像で同じ画素値を示す第1部位と、前記他の文字画像と異なる画素値を示す第2部位とをオペレータが目視で判別可能な確認用画像を生成するステップと
    を有することを特徴とする文字読取結果確認方法。
JP2010110400A 2010-05-12 2010-05-12 文字読取結果確認装置および文字読取結果確認方法 Active JP4977232B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010110400A JP4977232B2 (ja) 2010-05-12 2010-05-12 文字読取結果確認装置および文字読取結果確認方法
US12/961,204 US8411957B2 (en) 2010-05-12 2010-12-06 Character recognition result verification apparatus and character recognition result verification method
CN2010105883845A CN102243707B (zh) 2010-05-12 2010-12-10 字符识别结果验证设备和字符识别结果验证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010110400A JP4977232B2 (ja) 2010-05-12 2010-05-12 文字読取結果確認装置および文字読取結果確認方法

Publications (2)

Publication Number Publication Date
JP2011238119A JP2011238119A (ja) 2011-11-24
JP4977232B2 true JP4977232B2 (ja) 2012-07-18

Family

ID=44911801

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010110400A Active JP4977232B2 (ja) 2010-05-12 2010-05-12 文字読取結果確認装置および文字読取結果確認方法

Country Status (3)

Country Link
US (1) US8411957B2 (ja)
JP (1) JP4977232B2 (ja)
CN (1) CN102243707B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
JP6119952B2 (ja) * 2012-05-15 2017-04-26 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN107784219B (zh) * 2016-08-25 2019-04-30 腾讯科技(深圳)有限公司 一种字符验证码实现方法、装置及终端
CN109961063B (zh) * 2017-12-26 2021-12-14 杭州海康机器人技术有限公司 文本检测方法及装置、计算机设备和存储介质
CN108268841A (zh) * 2018-01-10 2018-07-10 佛山市顺德区中山大学研究院 一种轧钢板热喷字符串识别与验证系统及方法
CN110222753B (zh) * 2019-05-28 2022-07-29 北京金山数字娱乐科技有限公司 字符识别验证方法、系统、计算机设备、存储介质和芯片

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3278899A (en) * 1962-12-18 1966-10-11 Ibm Method and apparatus for solving problems, e.g., identifying specimens, using order of likeness matrices
JPH0449289A (ja) 1990-06-14 1992-02-18 Sankyo Co Ltd 新規化合物アピオジオネン
JPH0612520A (ja) * 1992-06-24 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> 文字認識装置の確認修正方式
JPH06119484A (ja) * 1992-10-05 1994-04-28 Matsushita Electric Ind Co Ltd 文字認識装置
JP4049289B2 (ja) 1999-08-04 2008-02-20 株式会社リコー 文字認識方法、文字認識装置及び記録媒体
JP4771804B2 (ja) 2005-12-20 2011-09-14 富士通株式会社 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
KR101015663B1 (ko) 2008-06-24 2011-02-22 삼성전자주식회사 문자인식장치에서의 문자인식방법 및 그 장치

Also Published As

Publication number Publication date
CN102243707A (zh) 2011-11-16
JP2011238119A (ja) 2011-11-24
US20110280452A1 (en) 2011-11-17
CN102243707B (zh) 2013-06-26
US8411957B2 (en) 2013-04-02

Similar Documents

Publication Publication Date Title
JP4977232B2 (ja) 文字読取結果確認装置および文字読取結果確認方法
JP5240047B2 (ja) キーワード識別方法及装置
US5410611A (en) Method for identifying word bounding boxes in text
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
US11475655B2 (en) Methods for optical character recognition (OCR)
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
US20200320325A1 (en) Image processing system, image processing apparatus, image processing method, and storage medium
KR20170004983A (ko) 라인 분할 방법
US20210056336A1 (en) Image processing apparatus, image processing method, and storage medium
US8463054B2 (en) Hierarchical OCR using decision tree and nonparametric classifier
JP2010055142A (ja) 文書処理装置およびプログラム
JP2014127188A (ja) 整形装置及び方法
JP2020046819A (ja) 情報処理装置及びプログラム
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN107403123B (zh) 识别目标图像中的条码图像的图像分析设备
JP2015138496A (ja) 文書ファイル生成装置及び文書ファイル生成方法
JP2013171309A (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP4672692B2 (ja) 単語認識システムおよび単語認識プログラム
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
KR20160053544A (ko) 후보 문자의 추출 방법
US20190294662A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2006227824A (ja) 図面認識方法および装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
US20210019554A1 (en) Information processing device and information processing method
JP5657401B2 (ja) 文書処理装置、及び文書処理プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120321

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120413

R150 Certificate of patent or registration of utility model

Ref document number: 4977232

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350