JP2014085841A - 文字切出装置及び文字切出方法並びに文字認識装置 - Google Patents

文字切出装置及び文字切出方法並びに文字認識装置 Download PDF

Info

Publication number
JP2014085841A
JP2014085841A JP2012234336A JP2012234336A JP2014085841A JP 2014085841 A JP2014085841 A JP 2014085841A JP 2012234336 A JP2012234336 A JP 2012234336A JP 2012234336 A JP2012234336 A JP 2012234336A JP 2014085841 A JP2014085841 A JP 2014085841A
Authority
JP
Japan
Prior art keywords
character
frame
virtual individual
candidate segment
individual frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012234336A
Other languages
English (en)
Other versions
JP6030917B2 (ja
Inventor
Masafumi Maeda
雅史 前田
Masanori Yokota
政憲 横田
Shigeko Fumino
滋子 文野
Takeshi Nozaki
剛 野崎
Mayumi Ueda
真弓 植田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2012234336A priority Critical patent/JP6030917B2/ja
Publication of JP2014085841A publication Critical patent/JP2014085841A/ja
Application granted granted Critical
Publication of JP6030917B2 publication Critical patent/JP6030917B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】文字枠に文字が記入された記入用紙の画像から各文字を含む文字画像を切り出す。
【解決手段】文字切出装置を、文字のみが含まれる入力画像を取得する入力画像取得部と、入力画像上で文字枠を再現した仮想個別枠を走査して仮想個別枠の位置を決定する仮想個別枠位置決定部と、入力画像上で文字を形成する画素情報に基づいて行分割位置を検出すると共に、決定された仮想個別枠の位置から取得した各行の位置情報に基づいて検出した行分割位置を検証して決定する行分割位置決定部と、決定された行分割位置で分割された各行の画像から一文字である可能性がある部分画像を基本セグメントとして抽出して、基本セグメント及び複数の基本セグメントを結合したセグメントを候補セグメントとすると共に、候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部とによって構成する。
【選択図】 図1

Description

この発明は帳票等の記入用紙を撮像した画像から記入された各文字を含む部分画像を切り出すための文字切出装置及び文字切出方法並びに切り出された部分画像に含まれる文字を文字認識する文字認識装置に関する。
従来、申請書類等の各種記入用紙を含む帳票を撮像した画像から、記入された文字を自動的に文字認識する装置が利用されている。例えば、記入用紙では、住所や氏名等の各種情報を記入する位置が記入枠によって指定されている。各記入枠は、複数の文字枠によって形成されており、各文字枠の中に一文字ずつ文字を記入するようになっている。文字認識装置では、記入用紙を撮像した画像から、記入用紙上での文字枠の位置情報を利用して各文字を含む部分画像が切り出され、この部分画像に含まれる文字を文字認識する処理が行われる。文字認識処理は文字のみが含まれる画像を利用して行われるため、文字枠を含まず文字のみを含む部分画像が切り出される。
文字のみを含む部分画像を得るために、例えば、文字枠を含まないように文字枠の内側だけを切り出す方法があるが、この方法では、文字の一部が文字枠上に記入されたために、切り出した部分画像に文字の一部が含まれず、文字認識を正確に行えない場合がある。文字の一部が文字枠上に記入された場合でも文字全体を切り出すために、記入用紙上の文字枠をドロップアウトカラーで印刷する方法がある。文字枠の色に応じた所定の光を照射すれば、文字枠を含まず文字のみを含む画像を撮像することができる。文字枠をドロップアウトさせて文字のみを含むように記入用紙を撮像した後、この画像から文字枠を含む所定領域を切り出すことにより、文字全体を切り出して正確に文字認識処理を行うことができる。
ドロップアウトカラーとして赤や緑の薄い色が利用されるが、記入用紙に文字を記入する利用者から、色が薄く文字枠の位置が分かり難いと指摘されることがある。このため、近年、非ドロップアウトカラーの文字枠を利用した場合でも、文字枠を含まず文字のみを含む部分画像を切り出すことができる装置が登場している。例えば、特許文献1に開示された装置では、文字を形成する画素が文字枠の枠線を挟むように存在している場合に文字の一部が文字枠上にあると判定して、文字枠上で文字を形成する画素の位置を特定する。これにより、文字枠上の画素を含め、文字を形成する全ての画素を抽出することができる。また、特許文献2では、文字及び文字枠を含む画像から文字枠のみを消去した後、文字枠の消去により失われた文字の一部を、この文字のストロークに基づいて補間することにより、記入された文字だけを抽出することができる。
特開平10−222606号公報 特開2001−222682号公報
しかしながら、上記従来技術によれば、文字だけを含む画像を抽出しても、その後の処理で、各文字を正確に切り出せない場合がある。具体的には、従来技術を利用すれば、図12(a)左図に示すように文字枠を利用して記入された記入用紙から、同図右に示すように文字だけを含む画像を取得することができる。そして、この画像から、文字枠の位置情報を利用して文字枠を含む領域を切り出すことにより、各文字を含む部分画像を得ることができる。ところが、例えば、図12(b)に示す「三」の文字のように、文字の一部が文字枠から大きくはみ出して記入された場合には、文字枠を含むように部分画像を切り出しても、「三」の文字を形成する3本の線のうち2本しか切り出されず、その結果、「二」と誤って文字認識される可能性がある。
また、このような事態を回避するために、文字枠によらず、画素情報に基づいて行間及び文字間を検出することにより各文字を切り出す方法がある。ところが、この場合には、図12(c)に示すように、行間を検出する際に「三」の一文字が3行に分割されて、三文字の「一」と誤って文字認識される可能性がある。
本発明は、上述した従来技術による問題点を解消するためになされたものであり、文字枠を利用して文字が記入された記入用紙の画像から、各文字を含む文字画像を正確に切り出すことができる文字切出装置及び文字切出方法と、切り出された文字画像を利用して記入された各文字を正確に文字認識することができる文字認識装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出装置であって、紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得部と、前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定部と、画素情報に基づいて前記入力画像を各行の画像に分割する行分割位置を検出すると共に、前記仮想個別枠位置決定部によって決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、検出した前記行分割位置を検証して行分割位置を決定する行分割位置決定部と、前記行分割位置決定部によって決定された行分割位置で行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出して、前記基本セグメント及び複数の基本セグメントを結合したものを候補セグメントとし、前記候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部とを備えたことを特徴とする。
また、本発明は、上記発明において、前記仮想個別枠位置決定部は、前記入力画像上で全ての仮想個別枠の位置関係を維持した状態で走査を行い、各走査位置で、各仮想個別枠に含まれる文字の画素位置に対応して得られた評価値を全ての仮想個別枠について合計した値を仮想個別枠評価値として算出して、前記仮想個別枠評価値に基づいて前記仮想個別枠の位置を決定することを特徴とする。
また、本発明は、上記発明において、各仮想個別枠で画素単位で配分される評価値は、枠内中心の画素位置で最大値、枠の外周に接する画素位置で最小値となるように配分されて、前記最小値が前記最大値の略半分以下の所定値に設定されることを特徴とする。
また、本発明は、上記発明において、複数の仮想個別枠で枠の大きさが異なる場合も評価値の最大値は同じ値に設定されることを特徴とする。
また、本発明は、上記発明において、前記候補セグメント決定部は、前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定することを特徴とする。
また、本発明は、上記発明において、前記候補セグメント決定部は、前記仮想個別枠の枠幅、及び前記仮想個別枠に対応する各候補セグメントで算出された前記候補セグメント評価値の値からしきい値を算出して、各候補セグメントで算出された前記候補セグメント評価値と前記しきい値とを比較して処理対象とする候補セグメントを決定することを特徴とする。
また、本発明は、上記発明において、前記行分割位置決定部は、前記仮想個別枠の位置に基づいて文字の高さ方向の各行中心位置を検出して、隣接する行の中心位置の間に検出された前記行分割位置が複数ある場合には、前記行分割位置が1つとなるように余計な行分割位置を削除して、隣接する行の中心位置の間に前記行分割位置が検出されていない場合には、新たに行分割位置を追加して、一行目の中心位置の上側及び最終行の中心位置の下側に検出された前記行分割位置がある場合には、前記行分割位置を削除することを特徴とする。
また、本発明は、文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出方法であって、紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得工程と、前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定工程と、画素情報に基づいて前記入力画像を各行の画像に分割する行分割工程と、前記仮想個別枠位置決定工程で決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、前記行分割工程で検出した行分割位置を検証して行分割位置を決定する行分割位置決定工程と、前記行分割位置決定工程で決定された行分割位置により行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出する基本セグメント抽出工程と、前記基本セグメント抽出工程で抽出された基本セグメントを候補セグメントとすると共に、複数の基本セグメントを結合して候補セグメントを作成する候補セグメント作成工程と、前記候補セグメント作成工程で作成された候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定工程とを含んだことを特徴とする。
また、本発明は、上記発明において、前記候補セグメント決定工程では、前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて、各候補セグメントに対応する仮想個別枠を選択して、前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定することを特徴とする。
また、本発明は、文字認識装置であって、上記発明に記載の文字切出装置で処理対象として決定された候補セグメントから、該候補セグメントに含まれる文字を文字認識する文字認識部を備えることを特徴とする。
また、本発明は、上記発明において、前記候補セグメントと前記仮想個別枠との対応関係に基づいて、一つの仮想個別枠に対応する文字認識結果が複数得られた場合に、文字認識結果に誤りがあると評価する文字認識結果評価部をさらに備えることを特徴とする。
本発明によれば、記入用紙の文字枠に記入された文字を撮像して得られた入力画像上で画素情報に基づいて検出された行分割位置を、文字枠に相当する仮想個別枠を利用して得られた各行の位置情報に基づいて検証することにより、入力画像を各行の画像に正確に行分割することができる。また、各行で一文字である可能性がある全ての部分画像を候補セグメントとして網羅的に抽出することができる。さらに、仮想個別枠の位置情報に基づいて、一文字である可能性が低い候補セグメントを除外して処理対象を絞り込むので、候補セグメントを対象として行われる文字認識処理に係る負荷を軽減することができる。
また、本発明によれば、入力画像上で仮想個別枠の位置を決定する際に、各枠内に文字が含まれたこと及び全ての仮想個別枠に文字が含まれたことの両方を評価する仮想個別枠評価値を算出することにより、仮想個別枠の位置を正確に決定することができる。
また、本発明によれば、仮想個別枠で画素毎に配分された評価値が、中心位置で最大値に設定され、外周に接する画素位置の最小値が最大値の略半分以下の所定値に設定されるので、例えば、文字を形成する画素が枠内の中心付近には存在しない「口」等の文字であっても枠内に含まれることを正しく評価することができる。
また、本発明によれば、仮想個別枠の大きさが異なる場合でも評価値の最大値が同じ値に設定されるので、仮想個別枠の大きさによる影響を受けることなく枠内に文字が含まれることを正しく評価することができる。
また、本発明によれば、候補セグメントに対応する仮想個別枠を選択して、候補セグメントと対応する仮想個別枠との間の位置のずれや大きさの違いを評価する候補セグメント評価値を算出して、算出された値に基づいて、一文字である可能性が低いことを正確に評価することができる。
また、本発明によれば、一文字である可能性が最も高い候補セグメントを選択した後、この候補セグメントとの関係に基づいて処理対象とするか否かを決定するためのしきい値を算出して、候補セグメント評価値がしきい値より低い候補セグメントを処理対象として残すので、例えば、入力画像にノイズが含まれるような場合でも、文字認識処理の処理対象とすべき候補セグメントが誤って除外されることを回避することができる。
図1は、本実施形態に係る文字切出方法及び文字認識方法の概要を説明する図である。 図2は、本実施形態に係る文字切出装置及び文字認識装置の構成例を説明する機能ブロック図である。 図3は、入力画像上で仮想個別枠を走査する方法を説明する図である。 図4は、仮想個別枠の枠内で画素単位で配分される評価点数と該評価点数から算出される仮想個別枠評価スコアについて説明する図である。 図5は、仮想個別枠の大きさが異なる場合の評価点数の設定方法を説明する図である。 図6は、入力画像上で行分割位置を決定する方法を説明する図である。 図7は、基本セグメントを抽出して候補セグメントを作成する方法及び各候補セグメントに対応する仮想個別枠を選択する方法を説明する図である。 図8は、候補セグメントと対応する仮想個別枠の関係から候補セグメント評価スコアを算出する方法を説明する図である。 図9は、候補セグメント評価スコアの算出例を示す図である。 図10は、算出された候補セグメント評価スコアに基づいて文字認識処理の処理対象を選択する方法を説明する図である。 図11は、入力画像から各文字が含まれる部分画像を候補セグメントとして切り出して文字認識する処理手順を説明するフローチャートである。 図12は、従来方法を説明する図である。
以下に添付図面を参照して、この発明に係る文字切出装置及び文字切出方法並びに文字認識装置の好適な実施例を詳細に説明する。本発明は、文字枠を利用して各種情報が記入された記入用紙を撮像した画像から、各文字を含む文字画像を切り出して文字認識するものである。処理対象とする用紙や文字の種類は特に限定されないが、以下では帳票に印刷された文字枠に、漢字で住所が記入された場合を例に説明することとする。
まず、図1を参照しながら、本実施形態に係る文字切出方法及び文字認識処理方法について概要を説明する。帳票100には、背景とは異なる色の文字枠101が印刷されており、この文字枠101を利用して住所や氏名等の情報が記入される(A−1)。本実施形態に係る文字切出装置では、まず、この帳票100を撮像した帳票画像から、文字枠101を消去して文字だけを含む画像を取得して、この画像を入力画像102として処理を開始する(A−2)。例えば、文字枠101と文字の色の違いに基づいて文字枠101のみが消去される。
また、本実施形態に係る文字切出装置では、帳票100に印刷された各文字枠101の情報を、仮想個別枠103として利用する(A−3)。仮想個別枠103は、例えば、帳票100の左上端等の所定位置を基準点として、文字枠101の左上端の点の座標と、文字枠101の縦方向の長さ及び横方向の長さによって定義される。1つの文字枠101に対応して1つの仮想個別枠103が定義される。これにより、帳票100上に、複数の文字枠101が離れた位置に印刷されていたり、異なる大きさで印刷されていたりする場合も、全ての文字枠101の位置及び大きさを、入力画像102上で、仮想個別枠103として再現することができる。図1の例では、帳票100上の文字枠101に対応して、9つの仮想個別枠103が利用されることになる。
入力画像102が得られると、入力画像102上の文字を各行に分割する行分割位置の検出が行われる(A−4)。例えば、各行の文字列が横方向に記入されている入力画像102で行分割位置を検出するため、縦方向の軸上に入力画像102上の黒画素の分布を示すヒストグラムを作成して、黒画素が存在しない位置又は黒画素の数が所定数以下の位置を行分割位置として検出する。画素情報を利用して行分割位置を検出する方法は特に限定されず従来技術を利用することが可能であるため詳細な説明は省略する。画素情報に基づいて行分割位置を検出すると、例えば、図1(A−4)に示すように、「三」の文字が誤って3行に行分割される場合がある。
また、入力画像102上では、仮想個別枠103の位置検出が行われる(A−5)。具体的には、仮想個別枠103によって文字枠101の位置及び大きさを再現して、これを入力画像102上で走査して、各文字が対応する各仮想個別枠103の内部に収まる位置を検出する。文字枠101を消去した入力画像102上で仮想個別枠103の位置を決定するので、帳票100上では文字枠101から一部がはみ出して記入された文字についても、文字を形成する画素の多くが仮想個別枠103の枠内に含まれるように位置が決定される。
画素情報のみに基づいて行分割位置を検出しようとすると、図1(A−4)や図12(c)に示したように、誤った位置が行分割位置とされる可能性がある。また、仮想個別枠103の位置及び大きさのみに基づいて各文字を切り出そうとすると図12(b)に示したように文字全体を切り出せない可能性がある。文字枠101を消去してから仮想個別枠103による走査を行えば、図1(A−1)に示すように文字枠101からはみ出して記入された「三」の文字を、同図(A−5)に示すように仮想個別枠103では枠内に含めることができる。しかし、仮想個別枠103を利用しても、図1(A−5)に示す「手」の文字のように、文字の一部が枠からはみ出した状態となる場合もある。図1(A−5)で仮想個別枠103を利用して文字を切り出すと、「手」の文字の一部を切り出すことができないため、文字認識時に例えば「壬」と誤認識される可能性がある。そこで、本実施形態に係る文字切出装置では、仮想個別枠103を走査して位置決めすることに加えて、さらに、仮想個別枠103を利用して得られた各行の位置情報と画素情報に基づく行分割位置情報との両方を利用する。
具体的には、図1(A−4)に示すように画素情報に基づいて行分割位置を検出した後、これらを、同図(A−5)に示す仮想個別枠103の位置情報を利用して検証する(A−6)。例えば、仮想個別枠103の位置から「三」の文字は一行を形成する文字であると認識されて、この一行をさらに分割するように検出された行分割位置は誤りであると判定される。そして、誤った行分割位置は削除される。また、検出されていない行分割位置があれば新たに行分割位置を追加する。これにより、入力画像102を各行の画像に正しく分割することができる。例えば、「手」の文字のように文字枠101から大きくはみ出して記入された文字も、文字全体を一行の画像に含めることができる。
入力画像102が各行の画像に分割されると、次に、各行の文字画像が基本セグメントに分割されて、さらに各基本セグメントから候補セグメントが作成される(A−7)。基本セグメントは、一行の画像を行と直交する方向に分割したもので、一文字である可能性のある最小の部分画像である。漢字では、偏や旁が基本セグメントとして抽出されることになる。例えば、「姫」の文字部分では「女」の偏の部分と「臣」の旁の部分が基本セグメントとして抽出されて、「女」、「臣」、「姫」の3つの候補セグメントが作成される。また、「路」の文字部分では「足」と「各」が基本セグメントとなり、「足」、「各」、「路」の3つの候補セグメントが作成される。また、「姫路」の部分からは、さらに、基本セグメント「女」と「臣」と「足」から形成される候補セグメント、「臣」と「足」から形成される候補セグメント、及び「臣」と「足」と「各」から形成される候補セグメントが作成される。候補セグメントは、入力画像102が各行に分割された後、各行の画像を行に直行する方向に分割した基本セグメントから作成される。このため、仮想個別枠103を利用して一部の領域だけを切り出す場合のように、文字の一部を切り出せないという事態を回避して、文字である可能性がある部分画像を候補セグメントとして網羅的に切り出すことができる。
こうして各行で複数の候補セグメントが作成されると、次に、処理対象とする候補セグメントが選択される(A−8)。具体的には、候補セグメントの位置とこれに対応する仮想個別枠103の位置等に基づいて各候補セグメント評価して、一文字である可能性が低い候補セグメントを処理対象から除外する。仮想個別枠103は帳票100上での文字枠101に相当するので、処理対象とすべき各文字は各仮想個別枠103の枠内に含まれる可能性が高い。これに基づいて各候補セグメントを評価するものであるが、この処理の詳細については後述する。
処理対象となる候補セグメントが絞り込まれると、DPマッチング(Dynamic Programming、動的計画法)により文字認識処理を行う(A−9)。DPマッチング法による文字認識の処理としては従来技術を利用することが可能であるため詳細な説明は省略する。
次に、文字の切り出し及び文字認識の処理を行う文字認識装置1について説明する。図2は文字認識装置1の構成例を説明する機能ブロック図である。文字認識装置1は、通信部2と、入力画像取得部3と、文字切出部10と、メモリ20と、文字認識部30と、文字認識結果評価部40とを備えている。
なお、図2には文字認識装置1の構成例を示しており、本実施形態に係る文字切出装置は、同図の文字切出部10に相当する。ただし、文字切出装置の構成がこれに限定されるものではなく、例えば、図2に示す構成のうち、文字認識部30及び文字認識結果評価部40を省いた構成を有していてもよい。文字切出装置として動作する場合には、入力された画像から、文字認識処理の処理対象となる各文字画像を切り出した後、これを外部へ出力して、外部装置によって文字認識処理が行われることになる。
通信部2は、外部装置との間で、帳票100を撮像した帳票画像又は帳票画像から文字枠101を消去した入力画像102を画像データとして受信したり、受信した画像データから得られた文字認識結果を外部へ送信したりする機能を有する。また、通信部2は、入力画像102上で帳票100に印刷された文字枠101を再現するための仮想個別枠情報22や、文字認識処理に利用する辞書データである文字認識用テンプレート23を送受信する機能も有している。
入力画像取得部3は、通信部2で受信した画像データが文字枠101を含む帳票画像である場合には、文字枠101を消去した入力画像102を作成して、これを入力画像データ21としてメモリ20に保存する機能を有する。また、受信した画像データが、既に文字枠101が消去された入力画像102である場合には、そのままの状態で入力画像データ21としてメモリ20に保存する。なお、文字枠101を含む帳票画像から入力画像102を作成する方法としては、例えば、文字枠101が赤色のドロップアウトカラーで印刷されている場合に、赤色照明や赤色フィルターを利用して帳票100に赤色光を照射して、文字枠101を含まない帳票画像を撮像する方法がある。また、可視光で撮像した帳票画像上で、文字枠101を形成する画素の位置情報や色情報を利用してこれを消去する方法がある。これらの方法については、従来技術を利用することが可能であるため、詳細な説明は省略する。
文字切出部10は、行分割位置決定部11と、仮想個別枠位置決定部12と、候補セグメント決定部13とを有している。行分割位置決定部11は、入力画像102の画素情報に基づく行分割位置と、仮想個別枠103の位置に基づく各行の位置情報とを利用して、入力画像102上の行分割位置を決定する機能を有する。仮想個別枠位置決定部12は、メモリ20から仮想個別枠情報22を読み出して仮想個別枠103を設定し、これを入力画像102上で走査して、各枠内に対応する各文字が含まれるように仮想個別枠103の位置を決定する機能を有する。候補セグメント決定部13は、行分割された各行の画像から基本セグメントを抽出して、基本セグメントを組み合わせて作成した複数の候補セグメントの中から、文字認識処理の処理対象とする候補セグメントを決定する。このように、文字切出部10は、入力画像102から、各文字を含む部分画像である文字画像を候補セグメントとして切り出すものであるが、各処理の詳細については後述する。
メモリ20は、不揮発性の半導体メモリ等から成り、入力画像データ21、仮想個別枠情報22、文字認識用テンプレート23の保存に利用される。また、文字切出部10等の各部での処理過程でデータを一時保存するために利用される。仮想個別枠情報22は、帳票100上での各文字枠101の位置や大きさに関する情報である。具体的には、各文字枠101の位置関係や縦横のサイズに関する情報で、この情報を利用することにより、入力画像102作成時に帳票画像から消去された全ての文字枠101を、仮想個別枠103として再現することができる。文字認識用テンプレート23は、文字認識処理を行う際に、文字認識部30によって利用される辞書データである。
文字認識部30は、メモリ20に保存された文字認識用テンプレート23を利用して、文字切出部10によって得られた候補セグメントに含まれる文字を文字認識する機能を有する。具体的には、文字切出部10によって一文字を含む可能性がある候補セグメントが複数得られると、候補セグメントに含まれる文字の特徴と文字認識用テンプレート23に含まれる各文字の特徴を比較してDPマッチングにより文字認識結果を決定する。
文字認識結果評価部40は、文字認識部30によって得られた文字認識結果と、仮想個別枠位置決定部12によって決定された仮想個別枠103の位置情報とに基づいて、文字認識結果が正しいか否かを評価する。具体的には、例えば、1つの仮想個別枠103に対応する位置から、2つ以上の文字認識結果が得られた場合には、文字認識結果に誤りがあると判定する。また、例えば、帳票100の各行で文字を左詰で記入するよう定められているにも拘わらず、一行の文字認識結果で、例えば連続文字列の文字と文字の間に空白であるとの文字認識結果が得られた場合に、文字認識結果に誤りがあると判定する。文字認識結果に誤りがあると判定した場合には、通信部2からは、文字認識結果に代えて文字認識できなかったことを示す情報が出力される。
次に、仮想個別枠位置決定部12によって行われる入力画像102上での仮想個別枠103の位置の決定方法について説明する。仮想個別枠位置決定部12は、メモリ20に保存された入力画像データ21及び仮想個別枠情報22を読み出して、入力画像102上に、仮想個別枠103を設定する。具体的には、帳票100上での文字枠101の大きさと記入された文字の大きさとの関係に基づいて、入力画像102の文字の大きさに応じて仮想個別枠103の大きさを設定する。また、帳票100上での複数の文字枠101の位置関係に基づいて、複数の仮想個別枠103の位置関係を設定する。すなわち、入力画像102に含まれる文字と仮想個別枠103とによって、帳票100に記入された文字と文字枠101との関係を再現するように各仮想個別枠103の大きさ及び位置が設定される。
入力画像102に含まれる全ての仮想個別枠103が設定されると、これら一群の仮想個別枠103を入力画像102上で走査する。そして、各位置で、各仮想個別枠103に、対応する各文字が含まれるか否かを評価する。図3は、一群の仮想個別枠103を走査する方法を説明する図である。このように、各仮想個別枠103の大きさ及び位置関係を維持した状態で走査する。図3の例では、一群の仮想個別枠103aの左上隅の枠基準点が、入力画像102の左上隅と重なる位置をPa(0,0)として、一群の仮想個別枠103bの右下隅の点が入力画像102の右下隅と重なるときの枠基準点の位置をPb(p,q)とする。そして、枠基準点が右方向へ1画素分ずつ移動するように一群の仮想個別枠103aを移動させる。一群の仮想個別枠103aの右端が入力画像102の右辺に接すると、枠基準点が、Paから下方向へ1画素分移動した位置となるように一群の仮想個別枠103の位置を左端へ戻してから、再び右方向へ1画素分ずつ移動させる。枠基準点がPb(p,q)に至るまで、このような移動を繰り返すことにより、入力画像102上を走査する。
そして、走査時に、各位置で仮想個別枠評価スコア(仮想個別枠評価値)を算出して、各仮想個別枠103の枠内に、対応する各文字が含まれる位置を決定する。仮想個別枠評価スコアは、各仮想個別枠103の枠内に、対応する各文字が含まれていることを評価するための評価値である。仮想個別枠評価スコアは、各文字を形成する画素が、仮想個別枠103内のどの画素位置にあるかに基づいて算出されるが、詳細については後述する。なお、本実施形態ではスコアと記載しているが、予め設定された値又はこれらの値から算出された値を示すもので、正数等に限定されるものではない。
図4は、仮想個別枠103の枠内で画素単位で配分される評価点数(評価値)と該評価点数から算出される仮想個別枠評価スコアについて説明する図である。図4では、最小単位の矩形が各画素を示している。また、図4(a)は、仮想個別枠103の枠内での標準的な点数配分を示している。図4(a)に示す点数配分を有する仮想個別枠103を基本枠として、仮想個別枠103の大きさや形状が異なる場合でも、この基本枠における画素位置と評価点数との関係に基づいて点数配分が設定されるが、詳細については後述する。
図4(a)では、仮想個別枠103内の中心に文字を形成する黒画素がある場合には、評価点数として10点が加算されることを示している。枠内の横方向中央かつ縦方向中央の画素を含む縦方向6画素分の各画素位置では10点が加算される。また、10点が加算される縦方向6画素の領域を取り囲むように設定された1画素幅の矩形帯状領域に黒画素がある場合には9点が加算される。さらにその外側を取り囲む1画素幅の矩形帯状領域に黒画素がある場合には8点が加算される。こうして、外側に行くほど点数が低くなり、一番外側の矩形帯状領域では4点が加算される。言い換えれば、一番外側の矩形帯状領域の画素の評価点数を最小値として、一画素ずつ内側の矩形帯状領域に行くに連れて1点ずつ点数を高くして行き、最後に残った短辺方向中央位置の長辺方向1列の画素群で評価点数を最大値とする。さらに言い換えれば、短辺方向及び長辺方向の両外側の点数を同じ最低点数として、短辺方向中央を最高点数とする。そして、最低点から最高点に至る短辺方向の点数配分の傾きが一定となるように設定して、これと同じ傾きで長辺方向の最低点から最高点に至る点数配分が設定される。
例えば、文字を形成する黒画素が、図4(b)に示す位置にある場合には、10点の画素が2つ、9点の画素が5つ、8点の画素が4つ、7点の画素が3つ、6点の画素が2つ、5点の画素が1つであるから、この仮想個別枠103でのスコアは、これらを合計した135点となる。9つの仮想個別枠103の各々で図4に示したようにスコアを算出して、9つの仮想個別枠103の全てのスコアを合計した値が、その走査位置での仮想個別枠評価スコアとなる。
より多くの仮想個別枠103内で、中心に近い位置に黒画素が存在するほど仮想個別枠評価スコアの値が高くなるので、入力画像102に含まれる各文字が、対応する各仮想個別枠103の枠内に存在するときに仮想個別枠評価スコアが最大値を示す。このため、仮想個別枠評価スコアに基づいて、例えば図1(A−5)に示すように、各仮想個別枠103の内部に、対応する各文字が含まれる位置を決定することができる。
図4に示した仮想個別枠103では、中心位置で評価点数が最大値となるように設定されて外側に行くほど評価点数が低くなるが、最も外側の最小値でも最大値の40%の点数が与えられる。このように、仮想個別枠103の内部に文字が含まれているか否かを評価する評価点数は、最小値を示す枠内の最も外側の画素位置でも、最大値を示す枠内中心位置の評価点数の40%〜50%程度の点数とする。例えば、「口」という文字は、仮想個別枠103の内部に含まれる場合でも、枠内の中心付近に文字を形成する黒画素が存在しない。このような文字の場合でもスコアが極端に小さくならず、枠内に文字が含まれていることを正しく評価できるように枠内の評価点数を配分するものである。
また、仮想個別枠103内の評価点数は、仮想個別枠103の大きさ、すなわち文字の大きさによる影響を受けないように設定される。図5は、仮想個別枠103の大きさが異なる場合に各枠内での評価点数を設定する方法を説明する図である。帳票100では、異なる大きさの文字枠101が利用される場合がある。文字枠101の大きさが異なると、例えば、図5(a)に示すように、仮想個別枠103c及び103dの大きさも異なることになる。このような場合には、まず、大きさが最大の仮想個別枠103dで評価点数が設定される。具体的には、基本枠として図4(a)に示すように評価点数の点数配分が設定されている場合に、図5(b)に示すように、最大の仮想個別枠103dの点数配分が設定される。すなわち、基本枠の横方向の点数配分を、図5(b)下側の斜線部に示すように図形で表した場合に、最大の仮想個別枠103dの点数配分を表す図形が、基本枠の図形と相似形となるように設定される。最大の仮想個別枠103dの短辺の長さが基本枠の短辺の長さ(L1)の2倍である場合には、短辺方向の点数配分が、基本枠の4点〜10点の配分に対して、仮想個別枠103dでは8点〜20点に設定されることになる。なお、図5(b)では、短辺方向の点数配分のみを図示しているが、長辺方向の点数配分についても、同様に設定される。
こうして、最大の仮想個別枠103dで評価点数の配分が設定されると、次に、他の仮想個別枠103cで評価点数の配分が設定される。具体的には、他の仮想個別枠103cの評価点数の最大値及び最小値を、最大の仮想個別枠103dの評価点数の最大値及び最小値と同一の点数に設定する。すなわち、図5(b)に示すように、最大の仮想個別枠103dの評価点数に合わせて、小さい仮想個別枠103cの中心画素の最大の評価点数を20点として、外周に接する画素の最小の評価点数を8点とする。そして、他の画素については、図4(a)で説明したように、短辺方向の最小値から最大値に至る点数配分の傾きが一定となるように点数配分を設定すると共に、これと同じ傾きで長辺方向の点数配分が設定される。
仮想個別枠103の枠の大きさによって評価点数が変化すると、例えば、同様に仮想個別枠103の中心画素が黒画素であるにも拘わらず、枠の大きさによって評価点数が異なることになる。この結果、仮想個別枠103の大きさが大きいほど評価点数が重視されることになり、仮想個別枠評価スコアによる位置評価を正しく行えない可能性がある。このため、枠の大きさによる影響を受けないように、枠の大きさによらず評価点数の最大値及び最小値が同じ値となるように設定するものである。
次に、行分割位置決定部11によって行われる入力画像102上での行分割位置の決定方法について説明する。行分割位置決定部11は、仮想個別枠位置決定部12によって、入力画像102上での仮想個別枠103の位置が決定された後、この位置情報を利用して行分割位置を決定する。
図6は、行分割位置の決定方法を説明する図である。まず、図6(a)に示すように、入力画像102に含まれる文字の画素情報に基づいて行分割位置D1〜D3が検出される。例えば、横方向に黒画素が存在しない位置が行分割位置D1〜D3とされる。また、図6(b)に示すように、仮想個別枠位置決定部12によって決定された仮想個別枠103の位置に基づいて、各行の仮想個別枠103の中心線C1〜C3の位置が検出される。
そして、図6(c)に示すように、画素情報に基づいて得られた行分割位置D1〜D3と、仮想個別枠103から得られた中心線C1〜C3との位置関係から、行分割位置の検証が行われる。具体的には、2本の中心線C1とC2との間に行分割位置が無いことから、行分割位置が検出できなかったものと判定して、新たな行分割位置D4が追加される。新たな行分割位置D4は、例えば、横方向の黒画素の数の合計が最も少ない位置に追加される。また、2本の中心線C2とC3との間に、2つの行分割位置D1及びD2があることから、いずれかが誤って検出されたものと判定される。そして、2本の中心線C2及びC3の中間位置に近い行分割位置D1が正しいものとして、行分割位置D2が削除される。さらに、一番下の中心線C3より下にある行分割位置D3は、誤って検出されたものであると判定されて削除される。この結果、図6(d)に示すように、行分割位置D1及びD4のみが残り、3行の文字を正しく行分割することができる。なお、図6の例は該当しないが、一番上の中心線C1より上に行分割位置が検出されている場合にも誤検出として削除される。
このとき、行分割位置の追加及び削除を行う範囲は、予め設定された範囲内で行われる。具体的には、先頭行の中心線C1を中心線C1からC2の間隔分だけ上側へ移動した位置から、最下行の中心線C3を中心線C3からC2までの間隔分だけ下側へ移動した位置までを設定範囲とする。これにより、先頭行又は最下行から極端に離れた位置を行分割位置として誤判定することを回避することができる。
次に、候補セグメント決定部13によって行われる基本セグメントの抽出、候補セグメントの作成及び処理対象とする候補セグメントの選択について説明する。候補セグメント決定部13は、仮想個別枠位置決定部12によって仮想個別枠103の位置が決定されて、行分割位置決定部11によって各行の行分割位置D1及びD4が決定されると、行分割位置D1及びD4によって分割された各行の画像を利用して処理を開始する。なお、各行で同様の処理が行われるため、以下では、図6(d)に示すように行分割された際の、一行目の文字画像を利用して処理内容を説明することとする。
図7は、基本セグメントを抽出してから、候補セグメントに対応する仮想個別枠103を選択するまでの処理を説明する図である。なお、図7(a)は、一行目の文字画像と、位置決定された各仮想個別枠F11(103e)、F12(103f)及び枠F13(103g)との位置関係を示している。
図7(b)に示すように、一行の画像が、文字列と直交する方向(図中縦方向)に分割されて、同図(c)に示すように基本セグメントが抽出される。基本セグメントは、例えば縦方向に黒画素が無い位置で分割されたもので、一文字である可能性がある最小単位の部分画像であり、漢字では偏や旁に相当する。
そして、得られた基本セグメントを利用して候補セグメントが作成される。ここで作成される候補セグメントが、文字認識処理の処理対象となる文字画像に相当する。図7(c)に示す基本セグメントから、同図(d)に示すように、基本セグメントを候補セグメントとして、さらに、隣り合う基本セグメントを結合して候補セグメントが作成される。
なお、隣り合う基本セグメントを順に結合することにより候補セグメントが作成されるが、結合する基本セグメントの数は作成される候補セグメントの行方向(図中横方向)の長さによって制限される。具体的には、候補セグメントの横方向の長さが、例えば、行の高さの2倍以下となるように制限される。これにより、図7(c)に示す基本セグメントで「女」〜「各」までの4つの基本セグメントを結合した候補セグメントが作成されるが、さらに「市」を加えて5つの基本セグメントを結合した候補セグメントは作成されない。
こうして、複数の候補セグメントが作成された後、これらの中から文字認識処理の処理対象とする候補セグメントを選択する処理が行われる。候補セグメントの選択は、各候補セグメントと対応する仮想個別枠103との位置関係を評価することによって行われる。このため、評価に先立って、各候補セグメントに対応する仮想個別枠103e〜103gの選択が行われる。各候補セグメントに対応する仮想個別枠103e〜103gは、候補セグメントの行方向中心線と、各仮想個別枠103e〜103gの行方向中心線との位置関係によって選択される。例えば、図7(e)に示すように、候補セグメント201では、中心線の位置が、3つの仮想個別枠103e〜103gのうち仮想個別枠F11(103e)の中心線CL1に最も近いので、対応する仮想個別枠103として仮想個別枠F11(103e)が選択される。候補セグメント203についても同様に、対応する仮想個別枠103として、仮想個別枠F11(103e)が選択される。これに対して、候補セグメント204では、中心線の位置が、仮想個別枠F11(103e)の中心線CL1よりも仮想個別枠F12(103f)の中心線CL2に近いので、対応する仮想個別枠103として仮想個別枠F12(103f)が選択される。こうして各候補セグメントに対応する仮想個別枠103が選択され、図7(f)に示すように分類される。
各候補セグメントと仮想個別枠103の対応関係が決定されると、これを利用して各候補セグメントの評価が行われる。候補セグメントの評価は、候補セグメント評価スコア(候補セグメント評価値)によって行われる。図8は、候補セグメント評価スコアの算出方法を説明する図である。
図8に示すように、候補セグメント評価スコアは、候補セグメント200の中心線a1から仮想個別枠103の中心線a4までの距離g1と、候補セグメント200の左端a2から仮想個別枠103の枠幅W3を中心方向に10%分縮小した際の左端a7までの距離g2と、候補セグメント200の右端a3から仮想個別枠103の枠幅W3を10%分縮小した際の右端a8までの距離g3と、仮想個別枠103の枠幅W3を10%分縮小した際の枠幅W2と候補セグメント200の枠幅W1との差の絶対値とを加算して算出される。
値g1は、候補セグメント200の中心線a1と仮想個別枠103の中心線a4とのずれを評価する値である。また、値g2及びg3は、候補セグメント200の左端a2及び右端a3と、仮想個別枠103の左端a5及び右端a6がどれくらい離れているかを評価するものであるが、この際、仮想個別枠103の枠幅W3を10%分縮小した位置a7及びa8を基準に評価する。帳票100の文字枠101に文字を記入する際には、幅方向で枠内いっぱいの大きさで記入されることは少なく、多くの場合、左右に空白が残るように記入される。これを考慮して、値g2及びg3については、文字枠101に相当する仮想個別枠103の左端a5及び右端a6ではなく、枠幅W3を中心方向に10%分縮小した位置を左端a7及び右端a8としてこれらを基準に評価するものである。また、候補セグメント200と仮想個別枠103の幅方向の大きさの違いを評価する場合にも、仮想個別枠103の枠幅W3を縮小した枠幅W2を利用して評価する。なお、枠幅W1とW2の差を評価する場合に、W1よりW2の方が広い場合と、W1よりW2の方が狭い場合の両方があるため、差の絶対値によって評価する。
図9は、図7(f)に示した仮想個別枠F11(103e)に対応する各候補セグメント201〜203、205及び206について、候補セグメント評価スコアを算出する方法を示したものである。図9(a)〜(e)の下部には、こうして算出した候補セグメント評価スコアを示している。候補セグメント評価スコアは、各候補セグメント201〜203、205及び206と仮想個別枠103eとの間で、位置がどれくらいずれているか、幅にどれくらい差があるかを示すもので、候補セグメント評価スコアが小さいほど、候補セグメントと仮想個別枠103の差が小さいことを示す。
各仮想個別枠103に対応する各候補セグメントについて、候補セグメン評価スコアを算出して、文字認識処理の処理対象とする候補セグメントが選択される。図10は、図9に示す候補セグメント評価スコアの算出結果をまとめた表を示している。この例では、仮想個別枠F11(103e)について、候補セグメント評価スコアが最小値の候補セグメント202が文字認識処理の対象として選択される。
このとき、候補セグメント評価スコアに加えてスコアリミット(しきい値)が算出され、スコアリミットを利用した処理対象の選択が行われる。スコアリミットは、候補セグメント評価スコアがこの値より小さい場合には、文字認識処理の処理対象として選択するというしきい値であり、図10下部に示す式で算出される。仮想個別枠103の枠幅W3と、候補セグメント評価スコアの最小値とを利用して算出される値で、例えば図10の例では、候補セグメント評価スコアの最小値「S=3」と枠幅W3の値「W3=21」から、スコアリミットが「20」と算出される。図10の例では、候補セグメント評価スコアがスコアリミットより小さい候補セグメントは1つだけであるから、仮想個別枠F11(103e)に対応する候補セグメントとしては「姫」の候補セグメント202だけが選択される。しかし、例えば、候補セグメント評価スコアが「19」となる候補セグメントがあれば、この候補セグメントも、仮想個別枠F11(103e)に対応する文字認識処理の処理対象として選択されることになる。
例えば、帳票100の文字枠101で左右いずれかに偏った形で文字が記入された場合や、入力画像102に文字とは関係ないノイズとなるような黒画素が含まれている場合に、この影響を受けて候補セグメント評価スコアが低くなる可能性がある。このような場合に、候補セグメント評価スコアが最小値を示したものだけを選択すると、本来選択されるべき候補セグメントが選択されない可能性がある。このような事態を回避するため、スコアリミットを利用して、候補セグメント評価スコアがスコアリミットより小さい場合に、これを処理対象に含めるようにする。すなわち、スコアリミットは、本来選択されるべき候補セグメントが処理対象から除外されることがないように候補セグメント評価スコアの許容範囲を設定するものである。
こうして、各仮想個別枠103について文字認識処理の対象とする候補セグメントが選択されると、選択された候補セグメントについて文字認識処理が行われる。図7に示すように、一文字である可能性がある部分画像を基本セグメントとして抽出して、さらに、一文字である可能性がある文字画像を候補セグメントとして網羅的に作成するので、文字枠101から横方向にはみ出して記入された文字がある場合も、これを候補セグメントとして切り出すことができる。また、図10に示すように処理対象が絞り込まれるので、全ての候補セグメントについて処理を行う場合に比べて、文字認識処理の処理負荷を軽減して高速に処理を行うことができる。
次に、各処理の流れについて説明する。図11は、図2に示した文字認識装置1によって行われる各処理の流れを示すフローチャートである。まず、帳票100の文字枠101及び該文字枠101に記入された文字を含む帳票画像、又は文字枠101が消去された入力画像102が、通信部2に入力される(ステップS1)。文字枠101を含む帳票画像が入力された場合には、入力画像取得部3によって、例えば、文字とは異なる色で印刷されている文字枠101を画像上の色情報に基づいて消去するカラードロップアウト処理を行うことにより、入力画像102が取得される。入力画像102は、入力画像データ21としてメモリ20に保存される。
次に、仮想個別枠位置決定部12が、メモリ20に保存された仮想個別枠情報22を利用して、入力画像102に含まれる全ての文字に対応する仮想個別枠103を再現する。そして、再現された一群の仮想個別枠103により入力画像102上を1画素単位で走査して、各仮想個別枠103内に、対応する文字が含まれる位置を決定する処理が行われる(ステップS2)。この処理は、図3〜図5を参照しながら説明したように仮想個別枠評価スコアを算出することによって行われる。
仮想個別枠位置決定部12によって入力画像102上で仮想個別枠103の位置が決定されると、次に、行分割位置決定部11によって、入力画像102に含まれる文字を各行の画像に分割するために行分割位置を検出する処理が行われる(ステップS3)。この処理は、図6を参照しながら説明したように、入力画像102上で画素情報に基づいて検出した行分割位置と、仮想個別枠103の位置とを利用して行われる。そして、決定された行分割位置で、入力画像102が各行の画像に分割される(ステップS4)。
行分割位置決定部11によって各行に分割されると、候補セグメント決定部13によって、各行の画像から基本セグメントが抽出される(ステップS5)。そして、抽出した基本セグメントを利用して候補セグメントが作成される(ステップS6)。続いて、作成した全ての候補セグメントの中から、仮想個別枠103毎に、文字認識の処理対象となる候補セグメントが選択される(ステップS7)。これらの処理は、図7〜図10を参照しながら説明したように、仮想個別枠評価スコア及びスコアリミットを算出することによって行われる。
候補セグメント決定部13によって、各仮想個別枠103に対応する候補セグメントが選択されると、これらを対象として、文字認識部30による文字認識処理が行われる(ステップS8)。文字認識処理は、選択された候補セグメントとメモリ20に保存された文字認識用テンプレート23とを利用してDPマッチング法により行われる。
文字認識部30によって文字認識結果が得られると、文字認識結果評価部40により、文字認識結果と対応する仮想個別枠103の位置情報とを比較して、文字認識結果を評価する処理が行われる(ステップS9)。
そして、1つの仮想個別枠103に対応して2つ以上の文字認識結果が得られた場合には(ステップS10;Yes)、文字認識結果に誤りがあると判定して、通信部2から、文字認識結果が得られなかったことを示すエラー信号が出力される(ステップS12)。1文字の枠内に2文字の文字認識結果が得られた場合にエラーとするものである。
また、各仮想個別枠103で1つの文字認識結果が得られたものの(ステップS10;No)、一行分の文字列の文字認識結果で、連続する文字と文字との間に空白であると認識された仮想個別枠103が存在する場合には(ステップS11;Yes)、同様に、文字認識結果に誤りがあると判定して、エラー信号を出力する(ステップS12)。通常、記入用紙の文字枠101には左詰で文字が記入されるので、文字と文字の間に空白がある場合にエラーとするものである。
一方、文字認識結果評価部40による評価の結果、文字認識結果に問題がないと判定された場合には(ステップS11;No)、得られた文字認識結果を通信部2から外部装置へ向けて出力する(ステップS13)。こうして、処理を終了する。
上述してきたように、本実施形態によれば、入力画像102を各行に分割する行分割位置を画素情報に基づいて検出した後、この行分割位置を、各文字に対応するように位置決定された仮想個別枠103の位置に基づいて検証するので、入力画像102を正確に各行の画像に行分割することができる。このとき、文字枠101を消去して文字だけが含まれる入力画像102上で画素情報に基づいて行分割位置を検出するので、例えば、文字枠101からはみ出して文字が記入された場合でも、はみ出した文字のほぼ全てを行内に含むように行分割することができる。また、例えば、画素情報に基づいて誤って検出された行分割位置や検出できなかった行分割位置がある場合でも、仮想個別枠103の位置から得られる各行の位置情報に基づいて、誤検出された行分割位置を削除したり検出できなかった行分割位置を追加したりすることができる。
また、各行の画像から一文字である可能性がある最小単位の部分画像を基本セグメントとして抽出して、この基本セグメントと複数の基本セグメントを結合したセグメントとを候補セグメントとすることにより、一文字である可能性のある文字画像を網羅的に抽出することができる。その上で、候補セグメントと対応する仮想個別枠103との位置関係に基づいて、一文字の文字画像である可能性の低い候補セグメントを処理対象から除外して文字認識処理の処理対象を絞り込むことができる。これにより、正確な文字認識処理を実現しながら、処理を高速に行うことができる。
以上のように、本発明は、文字枠を利用して文字が記入された帳票等の記入用紙の画像から文字認識する場合に、画像に含まれる文字を行毎に分割して、さらに各行の画像から文字認識処理の対象とする文字画像を正確に切り出すために有用な技術であり、切り出された文字画像を利用して正確な文字認識結果を得るために有用な技術である。
1 文字認識装置
2 通信部
3 入力画像取得部
10 文字切出部
11 行分割位置決定部
12 仮想個別枠位置決定部
13 候補セグメント決定部
20 メモリ
21 入力画像データ
22 仮想個別枠情報
23 文字認識用テンプレート
30 文字認識部
40 文字認識結果評価部
100 帳票
101 文字枠
102 入力画像
103、103a〜103g 仮想個別枠
200〜204 候補セグメント

Claims (11)

  1. 文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出装置であって、
    紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得部と、
    前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定部と、
    画素情報に基づいて前記入力画像を各行の画像に分割する行分割位置を検出すると共に、前記仮想個別枠位置決定部によって決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、検出した前記行分割位置を検証して行分割位置を決定する行分割位置決定部と、
    前記行分割位置決定部によって決定された行分割位置で行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出して、前記基本セグメント及び複数の基本セグメントを結合したものを候補セグメントとし、前記候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部と
    を備えたことを特徴とする文字切出装置。
  2. 前記仮想個別枠位置決定部は、
    前記入力画像上で全ての仮想個別枠の位置関係を維持した状態で走査を行い、
    各走査位置で、各仮想個別枠に含まれる文字の画素位置に対応して得られた評価値を全ての仮想個別枠について合計した値を仮想個別枠評価値として算出して、
    前記仮想個別枠評価値に基づいて前記仮想個別枠の位置を決定する
    ことを特徴とする請求項1に記載の文字切出装置。
  3. 各仮想個別枠で画素単位で配分される評価値は、枠内中心の画素位置で最大値、枠の外周に接する画素位置で最小値となるように配分されて、前記最小値が前記最大値の略半分以下の所定値に設定されることを特徴とする請求項2に記載の文字切出装置。
  4. 複数の仮想個別枠で枠の大きさが異なる場合も評価値の最大値は同じ値に設定されることを特徴とする請求項2又は3に記載の文字切出装置。
  5. 前記候補セグメント決定部は、
    前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、
    前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、
    前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定する
    ことを特徴とする請求項1に記載の文字切出装置。
  6. 前記候補セグメント決定部は、
    前記仮想個別枠の枠幅、及び前記仮想個別枠に対応する各候補セグメントで算出された前記候補セグメント評価値の値からしきい値を算出して、
    各候補セグメントで算出された前記候補セグメント評価値と前記しきい値とを比較して処理対象とする候補セグメントを決定する
    ことを特徴とする請求項5に記載の文字切出装置。
  7. 前記行分割位置決定部は、
    前記仮想個別枠の位置に基づいて文字の高さ方向の各行中心位置を検出して、
    隣接する行の中心位置の間に検出された前記行分割位置が複数ある場合には、前記行分割位置が1つとなるように余計な行分割位置を削除して、
    隣接する行の中心位置の間に前記行分割位置が検出されていない場合には、新たに行分割位置を追加して、
    一行目の中心位置の上側及び最終行の中心位置の下側に検出された前記行分割位置がある場合には、前記行分割位置を削除する
    ことを特徴とする請求項1〜4のいずれか1項に記載の文字切出装置。
  8. 文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出方法であって、
    紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得工程と、
    前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定工程と、
    画素情報に基づいて前記入力画像を各行の画像に分割する行分割工程と、
    前記仮想個別枠位置決定工程で決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、前記行分割工程で検出した行分割位置を検証して行分割位置を決定する行分割位置決定工程と、
    前記行分割位置決定工程で決定された行分割位置により行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出する基本セグメント抽出工程と、
    前記基本セグメント抽出工程で抽出された基本セグメントを候補セグメントとすると共に、複数の基本セグメントを結合して候補セグメントを作成する候補セグメント作成工程と、
    前記候補セグメント作成工程で作成された候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定工程と
    を含んだことを特徴とする文字切出方法。
  9. 前記候補セグメント決定工程では、
    前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、
    前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、
    前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定する
    ことを特徴とする請求項8に記載の文字切出方法。
  10. 請求項1〜7のいずれか1項に記載の文字切出装置で処理対象として決定された候補セグメントから、該候補セグメントに含まれる文字を文字認識する文字認識部を備えることを特徴とする文字認識装置。
  11. 前記候補セグメントと前記仮想個別枠との対応関係に基づいて、一つの仮想個別枠に対応する文字認識結果が複数得られた場合に、文字認識結果に誤りがあると評価する文字認識結果評価部をさらに備えることを特徴とする請求項10に記載の文字認識装置。
JP2012234336A 2012-10-24 2012-10-24 文字切出装置及び文字切出方法並びに文字認識装置 Active JP6030917B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012234336A JP6030917B2 (ja) 2012-10-24 2012-10-24 文字切出装置及び文字切出方法並びに文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012234336A JP6030917B2 (ja) 2012-10-24 2012-10-24 文字切出装置及び文字切出方法並びに文字認識装置

Publications (2)

Publication Number Publication Date
JP2014085841A true JP2014085841A (ja) 2014-05-12
JP6030917B2 JP6030917B2 (ja) 2016-11-24

Family

ID=50788845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012234336A Active JP6030917B2 (ja) 2012-10-24 2012-10-24 文字切出装置及び文字切出方法並びに文字認識装置

Country Status (1)

Country Link
JP (1) JP6030917B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备
KR101937398B1 (ko) 2017-10-20 2019-01-10 김학선 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법
KR101985612B1 (ko) * 2018-01-16 2019-06-03 김학선 종이문서의 디지털화 방법
CN111178363A (zh) * 2019-12-18 2020-05-19 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN112101386A (zh) * 2020-09-25 2020-12-18 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325216A (ja) * 1993-03-15 1994-11-25 Toshiba Corp 光学的文字読取装置
JPH08243506A (ja) * 1995-03-14 1996-09-24 Hitachi Ltd 住所読取り装置及び方法
JP2006146741A (ja) * 2004-11-24 2006-06-08 Hitachi Computer Peripherals Co Ltd 印字データ読取り方法
JP2008107946A (ja) * 2006-10-24 2008-05-08 Kobe Steel Ltd 画像の文字列領域決定方法,画像の文字列領域決定装置
JP2009069951A (ja) * 2007-09-11 2009-04-02 Hitachi Computer Peripherals Co Ltd 文字認識装置及び文字認識装置における文字認識方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325216A (ja) * 1993-03-15 1994-11-25 Toshiba Corp 光学的文字読取装置
JPH08243506A (ja) * 1995-03-14 1996-09-24 Hitachi Ltd 住所読取り装置及び方法
JP2006146741A (ja) * 2004-11-24 2006-06-08 Hitachi Computer Peripherals Co Ltd 印字データ読取り方法
JP2008107946A (ja) * 2006-10-24 2008-05-08 Kobe Steel Ltd 画像の文字列領域決定方法,画像の文字列領域決定装置
JP2009069951A (ja) * 2007-09-11 2009-04-02 Hitachi Computer Peripherals Co Ltd 文字認識装置及び文字認識装置における文字認識方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备
KR101937398B1 (ko) 2017-10-20 2019-01-10 김학선 고문서의 이미지 데이터에서의 문자 추출 시스템 및 이를 이용한 문자 추출 방법
KR101985612B1 (ko) * 2018-01-16 2019-06-03 김학선 종이문서의 디지털화 방법
CN111178363A (zh) * 2019-12-18 2020-05-19 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN111178363B (zh) * 2019-12-18 2024-02-20 北京旷视科技有限公司 文字识别方法、装置、电子设备以及可读存储介质
CN112101386A (zh) * 2020-09-25 2020-12-18 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质
CN112101386B (zh) * 2020-09-25 2024-04-23 腾讯科技(深圳)有限公司 文本检测方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP6030917B2 (ja) 2016-11-24

Similar Documents

Publication Publication Date Title
JP5624671B2 (ja) 文字列切出方法及び文字列切出装置
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
JP6030917B2 (ja) 文字切出装置及び文字切出方法並びに文字認識装置
JP3278471B2 (ja) 領域分割方法
JP4801551B2 (ja) 画像領域検出方法、該プログラム、及び該装置
US10007846B2 (en) Image processing method
US10740899B2 (en) Image processing apparatus for identifying region within image, information processing method, and storage medium
JP6220770B2 (ja) 帳票定義装置、帳票定義方法、及び帳票定義プログラム
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
US20070041643A1 (en) Character recognition apparatus and character recognition method
CN113378839A (zh) 信息处理装置、信息处理方法及计算机可读介质
US8989485B2 (en) Detecting a junction in a text line of CJK characters
KR101793184B1 (ko) 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP5672059B2 (ja) 文字認識処理装置および方法並びに文字認識処理プログラム
CN113159035A (zh) 图像处理方法、装置、设备及存储介质
JP4696239B2 (ja) 文字列の傾斜補正方法及び装置
JP7243981B2 (ja) 紙面領域分類装置及びそのプログラム
US20100238470A1 (en) Document image processing system and document image processing method
JP4803001B2 (ja) 画像処理装置及び画像処理プログラム
JP5109548B2 (ja) 画像処理装置及びプログラム
JP2008269131A (ja) 画像処理装置及び画像処理プログラム
JP2000357287A (ja) ナンバープレート認識方法および認識装置
JP2009272714A (ja) 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150914

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161021

R150 Certificate of patent or registration of utility model

Ref document number: 6030917

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150