JP2014085841A

JP2014085841A - 文字切出装置及び文字切出方法並びに文字認識装置

Info

Publication number: JP2014085841A
Application number: JP2012234336A
Authority: JP
Inventors: Masafumi Maeda; 雅史前田; Masanori Yokota; 政憲横田; Shigeko Fumino; 滋子文野; Takeshi Nozaki; 剛野崎; Mayumi Ueda; 真弓植田
Original assignee: Glory Ltd
Current assignee: Glory Ltd
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2014-05-12
Anticipated expiration: 2032-10-24
Also published as: JP6030917B2

Abstract

【課題】文字枠に文字が記入された記入用紙の画像から各文字を含む文字画像を切り出す。
【解決手段】文字切出装置を、文字のみが含まれる入力画像を取得する入力画像取得部と、入力画像上で文字枠を再現した仮想個別枠を走査して仮想個別枠の位置を決定する仮想個別枠位置決定部と、入力画像上で文字を形成する画素情報に基づいて行分割位置を検出すると共に、決定された仮想個別枠の位置から取得した各行の位置情報に基づいて検出した行分割位置を検証して決定する行分割位置決定部と、決定された行分割位置で分割された各行の画像から一文字である可能性がある部分画像を基本セグメントとして抽出して、基本セグメント及び複数の基本セグメントを結合したセグメントを候補セグメントとすると共に、候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部とによって構成する。
【選択図】図１

Description

この発明は帳票等の記入用紙を撮像した画像から記入された各文字を含む部分画像を切り出すための文字切出装置及び文字切出方法並びに切り出された部分画像に含まれる文字を文字認識する文字認識装置に関する。

従来、申請書類等の各種記入用紙を含む帳票を撮像した画像から、記入された文字を自動的に文字認識する装置が利用されている。例えば、記入用紙では、住所や氏名等の各種情報を記入する位置が記入枠によって指定されている。各記入枠は、複数の文字枠によって形成されており、各文字枠の中に一文字ずつ文字を記入するようになっている。文字認識装置では、記入用紙を撮像した画像から、記入用紙上での文字枠の位置情報を利用して各文字を含む部分画像が切り出され、この部分画像に含まれる文字を文字認識する処理が行われる。文字認識処理は文字のみが含まれる画像を利用して行われるため、文字枠を含まず文字のみを含む部分画像が切り出される。

文字のみを含む部分画像を得るために、例えば、文字枠を含まないように文字枠の内側だけを切り出す方法があるが、この方法では、文字の一部が文字枠上に記入されたために、切り出した部分画像に文字の一部が含まれず、文字認識を正確に行えない場合がある。文字の一部が文字枠上に記入された場合でも文字全体を切り出すために、記入用紙上の文字枠をドロップアウトカラーで印刷する方法がある。文字枠の色に応じた所定の光を照射すれば、文字枠を含まず文字のみを含む画像を撮像することができる。文字枠をドロップアウトさせて文字のみを含むように記入用紙を撮像した後、この画像から文字枠を含む所定領域を切り出すことにより、文字全体を切り出して正確に文字認識処理を行うことができる。

ドロップアウトカラーとして赤や緑の薄い色が利用されるが、記入用紙に文字を記入する利用者から、色が薄く文字枠の位置が分かり難いと指摘されることがある。このため、近年、非ドロップアウトカラーの文字枠を利用した場合でも、文字枠を含まず文字のみを含む部分画像を切り出すことができる装置が登場している。例えば、特許文献１に開示された装置では、文字を形成する画素が文字枠の枠線を挟むように存在している場合に文字の一部が文字枠上にあると判定して、文字枠上で文字を形成する画素の位置を特定する。これにより、文字枠上の画素を含め、文字を形成する全ての画素を抽出することができる。また、特許文献２では、文字及び文字枠を含む画像から文字枠のみを消去した後、文字枠の消去により失われた文字の一部を、この文字のストロークに基づいて補間することにより、記入された文字だけを抽出することができる。

特開平１０−２２２６０６号公報特開２００１−２２２６８２号公報

しかしながら、上記従来技術によれば、文字だけを含む画像を抽出しても、その後の処理で、各文字を正確に切り出せない場合がある。具体的には、従来技術を利用すれば、図１２（ａ）左図に示すように文字枠を利用して記入された記入用紙から、同図右に示すように文字だけを含む画像を取得することができる。そして、この画像から、文字枠の位置情報を利用して文字枠を含む領域を切り出すことにより、各文字を含む部分画像を得ることができる。ところが、例えば、図１２（ｂ）に示す「三」の文字のように、文字の一部が文字枠から大きくはみ出して記入された場合には、文字枠を含むように部分画像を切り出しても、「三」の文字を形成する３本の線のうち２本しか切り出されず、その結果、「二」と誤って文字認識される可能性がある。

また、このような事態を回避するために、文字枠によらず、画素情報に基づいて行間及び文字間を検出することにより各文字を切り出す方法がある。ところが、この場合には、図１２（ｃ）に示すように、行間を検出する際に「三」の一文字が３行に分割されて、三文字の「一」と誤って文字認識される可能性がある。

本発明は、上述した従来技術による問題点を解消するためになされたものであり、文字枠を利用して文字が記入された記入用紙の画像から、各文字を含む文字画像を正確に切り出すことができる文字切出装置及び文字切出方法と、切り出された文字画像を利用して記入された各文字を正確に文字認識することができる文字認識装置を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出装置であって、紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得部と、前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定部と、画素情報に基づいて前記入力画像を各行の画像に分割する行分割位置を検出すると共に、前記仮想個別枠位置決定部によって決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、検出した前記行分割位置を検証して行分割位置を決定する行分割位置決定部と、前記行分割位置決定部によって決定された行分割位置で行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出して、前記基本セグメント及び複数の基本セグメントを結合したものを候補セグメントとし、前記候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部とを備えたことを特徴とする。

また、本発明は、上記発明において、前記仮想個別枠位置決定部は、前記入力画像上で全ての仮想個別枠の位置関係を維持した状態で走査を行い、各走査位置で、各仮想個別枠に含まれる文字の画素位置に対応して得られた評価値を全ての仮想個別枠について合計した値を仮想個別枠評価値として算出して、前記仮想個別枠評価値に基づいて前記仮想個別枠の位置を決定することを特徴とする。

また、本発明は、上記発明において、各仮想個別枠で画素単位で配分される評価値は、枠内中心の画素位置で最大値、枠の外周に接する画素位置で最小値となるように配分されて、前記最小値が前記最大値の略半分以下の所定値に設定されることを特徴とする。

また、本発明は、上記発明において、複数の仮想個別枠で枠の大きさが異なる場合も評価値の最大値は同じ値に設定されることを特徴とする。

また、本発明は、上記発明において、前記候補セグメント決定部は、前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定することを特徴とする。

また、本発明は、上記発明において、前記候補セグメント決定部は、前記仮想個別枠の枠幅、及び前記仮想個別枠に対応する各候補セグメントで算出された前記候補セグメント評価値の値からしきい値を算出して、各候補セグメントで算出された前記候補セグメント評価値と前記しきい値とを比較して処理対象とする候補セグメントを決定することを特徴とする。

また、本発明は、上記発明において、前記行分割位置決定部は、前記仮想個別枠の位置に基づいて文字の高さ方向の各行中心位置を検出して、隣接する行の中心位置の間に検出された前記行分割位置が複数ある場合には、前記行分割位置が１つとなるように余計な行分割位置を削除して、隣接する行の中心位置の間に前記行分割位置が検出されていない場合には、新たに行分割位置を追加して、一行目の中心位置の上側及び最終行の中心位置の下側に検出された前記行分割位置がある場合には、前記行分割位置を削除することを特徴とする。

また、本発明は、文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出方法であって、紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得工程と、前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定工程と、画素情報に基づいて前記入力画像を各行の画像に分割する行分割工程と、前記仮想個別枠位置決定工程で決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、前記行分割工程で検出した行分割位置を検証して行分割位置を決定する行分割位置決定工程と、前記行分割位置決定工程で決定された行分割位置により行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出する基本セグメント抽出工程と、前記基本セグメント抽出工程で抽出された基本セグメントを候補セグメントとすると共に、複数の基本セグメントを結合して候補セグメントを作成する候補セグメント作成工程と、前記候補セグメント作成工程で作成された候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定工程とを含んだことを特徴とする。

また、本発明は、上記発明において、前記候補セグメント決定工程では、前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて、各候補セグメントに対応する仮想個別枠を選択して、前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定することを特徴とする。

また、本発明は、文字認識装置であって、上記発明に記載の文字切出装置で処理対象として決定された候補セグメントから、該候補セグメントに含まれる文字を文字認識する文字認識部を備えることを特徴とする。

また、本発明は、上記発明において、前記候補セグメントと前記仮想個別枠との対応関係に基づいて、一つの仮想個別枠に対応する文字認識結果が複数得られた場合に、文字認識結果に誤りがあると評価する文字認識結果評価部をさらに備えることを特徴とする。

本発明によれば、記入用紙の文字枠に記入された文字を撮像して得られた入力画像上で画素情報に基づいて検出された行分割位置を、文字枠に相当する仮想個別枠を利用して得られた各行の位置情報に基づいて検証することにより、入力画像を各行の画像に正確に行分割することができる。また、各行で一文字である可能性がある全ての部分画像を候補セグメントとして網羅的に抽出することができる。さらに、仮想個別枠の位置情報に基づいて、一文字である可能性が低い候補セグメントを除外して処理対象を絞り込むので、候補セグメントを対象として行われる文字認識処理に係る負荷を軽減することができる。

また、本発明によれば、入力画像上で仮想個別枠の位置を決定する際に、各枠内に文字が含まれたこと及び全ての仮想個別枠に文字が含まれたことの両方を評価する仮想個別枠評価値を算出することにより、仮想個別枠の位置を正確に決定することができる。

また、本発明によれば、仮想個別枠で画素毎に配分された評価値が、中心位置で最大値に設定され、外周に接する画素位置の最小値が最大値の略半分以下の所定値に設定されるので、例えば、文字を形成する画素が枠内の中心付近には存在しない「口」等の文字であっても枠内に含まれることを正しく評価することができる。

また、本発明によれば、仮想個別枠の大きさが異なる場合でも評価値の最大値が同じ値に設定されるので、仮想個別枠の大きさによる影響を受けることなく枠内に文字が含まれることを正しく評価することができる。

また、本発明によれば、候補セグメントに対応する仮想個別枠を選択して、候補セグメントと対応する仮想個別枠との間の位置のずれや大きさの違いを評価する候補セグメント評価値を算出して、算出された値に基づいて、一文字である可能性が低いことを正確に評価することができる。

また、本発明によれば、一文字である可能性が最も高い候補セグメントを選択した後、この候補セグメントとの関係に基づいて処理対象とするか否かを決定するためのしきい値を算出して、候補セグメント評価値がしきい値より低い候補セグメントを処理対象として残すので、例えば、入力画像にノイズが含まれるような場合でも、文字認識処理の処理対象とすべき候補セグメントが誤って除外されることを回避することができる。

図１は、本実施形態に係る文字切出方法及び文字認識方法の概要を説明する図である。図２は、本実施形態に係る文字切出装置及び文字認識装置の構成例を説明する機能ブロック図である。図３は、入力画像上で仮想個別枠を走査する方法を説明する図である。図４は、仮想個別枠の枠内で画素単位で配分される評価点数と該評価点数から算出される仮想個別枠評価スコアについて説明する図である。図５は、仮想個別枠の大きさが異なる場合の評価点数の設定方法を説明する図である。図６は、入力画像上で行分割位置を決定する方法を説明する図である。図７は、基本セグメントを抽出して候補セグメントを作成する方法及び各候補セグメントに対応する仮想個別枠を選択する方法を説明する図である。図８は、候補セグメントと対応する仮想個別枠の関係から候補セグメント評価スコアを算出する方法を説明する図である。図９は、候補セグメント評価スコアの算出例を示す図である。図１０は、算出された候補セグメント評価スコアに基づいて文字認識処理の処理対象を選択する方法を説明する図である。図１１は、入力画像から各文字が含まれる部分画像を候補セグメントとして切り出して文字認識する処理手順を説明するフローチャートである。図１２は、従来方法を説明する図である。

以下に添付図面を参照して、この発明に係る文字切出装置及び文字切出方法並びに文字認識装置の好適な実施例を詳細に説明する。本発明は、文字枠を利用して各種情報が記入された記入用紙を撮像した画像から、各文字を含む文字画像を切り出して文字認識するものである。処理対象とする用紙や文字の種類は特に限定されないが、以下では帳票に印刷された文字枠に、漢字で住所が記入された場合を例に説明することとする。

まず、図１を参照しながら、本実施形態に係る文字切出方法及び文字認識処理方法について概要を説明する。帳票１００には、背景とは異なる色の文字枠１０１が印刷されており、この文字枠１０１を利用して住所や氏名等の情報が記入される（Ａ−１）。本実施形態に係る文字切出装置では、まず、この帳票１００を撮像した帳票画像から、文字枠１０１を消去して文字だけを含む画像を取得して、この画像を入力画像１０２として処理を開始する（Ａ−２）。例えば、文字枠１０１と文字の色の違いに基づいて文字枠１０１のみが消去される。

また、本実施形態に係る文字切出装置では、帳票１００に印刷された各文字枠１０１の情報を、仮想個別枠１０３として利用する（Ａ−３）。仮想個別枠１０３は、例えば、帳票１００の左上端等の所定位置を基準点として、文字枠１０１の左上端の点の座標と、文字枠１０１の縦方向の長さ及び横方向の長さによって定義される。１つの文字枠１０１に対応して１つの仮想個別枠１０３が定義される。これにより、帳票１００上に、複数の文字枠１０１が離れた位置に印刷されていたり、異なる大きさで印刷されていたりする場合も、全ての文字枠１０１の位置及び大きさを、入力画像１０２上で、仮想個別枠１０３として再現することができる。図１の例では、帳票１００上の文字枠１０１に対応して、９つの仮想個別枠１０３が利用されることになる。

入力画像１０２が得られると、入力画像１０２上の文字を各行に分割する行分割位置の検出が行われる（Ａ−４）。例えば、各行の文字列が横方向に記入されている入力画像１０２で行分割位置を検出するため、縦方向の軸上に入力画像１０２上の黒画素の分布を示すヒストグラムを作成して、黒画素が存在しない位置又は黒画素の数が所定数以下の位置を行分割位置として検出する。画素情報を利用して行分割位置を検出する方法は特に限定されず従来技術を利用することが可能であるため詳細な説明は省略する。画素情報に基づいて行分割位置を検出すると、例えば、図１（Ａ−４）に示すように、「三」の文字が誤って３行に行分割される場合がある。

また、入力画像１０２上では、仮想個別枠１０３の位置検出が行われる（Ａ−５）。具体的には、仮想個別枠１０３によって文字枠１０１の位置及び大きさを再現して、これを入力画像１０２上で走査して、各文字が対応する各仮想個別枠１０３の内部に収まる位置を検出する。文字枠１０１を消去した入力画像１０２上で仮想個別枠１０３の位置を決定するので、帳票１００上では文字枠１０１から一部がはみ出して記入された文字についても、文字を形成する画素の多くが仮想個別枠１０３の枠内に含まれるように位置が決定される。

画素情報のみに基づいて行分割位置を検出しようとすると、図１（Ａ−４）や図１２（ｃ）に示したように、誤った位置が行分割位置とされる可能性がある。また、仮想個別枠１０３の位置及び大きさのみに基づいて各文字を切り出そうとすると図１２（ｂ）に示したように文字全体を切り出せない可能性がある。文字枠１０１を消去してから仮想個別枠１０３による走査を行えば、図１（Ａ−１）に示すように文字枠１０１からはみ出して記入された「三」の文字を、同図（Ａ−５）に示すように仮想個別枠１０３では枠内に含めることができる。しかし、仮想個別枠１０３を利用しても、図１（Ａ−５）に示す「手」の文字のように、文字の一部が枠からはみ出した状態となる場合もある。図１（Ａ−５）で仮想個別枠１０３を利用して文字を切り出すと、「手」の文字の一部を切り出すことができないため、文字認識時に例えば「壬」と誤認識される可能性がある。そこで、本実施形態に係る文字切出装置では、仮想個別枠１０３を走査して位置決めすることに加えて、さらに、仮想個別枠１０３を利用して得られた各行の位置情報と画素情報に基づく行分割位置情報との両方を利用する。

具体的には、図１（Ａ−４）に示すように画素情報に基づいて行分割位置を検出した後、これらを、同図（Ａ−５）に示す仮想個別枠１０３の位置情報を利用して検証する（Ａ−６）。例えば、仮想個別枠１０３の位置から「三」の文字は一行を形成する文字であると認識されて、この一行をさらに分割するように検出された行分割位置は誤りであると判定される。そして、誤った行分割位置は削除される。また、検出されていない行分割位置があれば新たに行分割位置を追加する。これにより、入力画像１０２を各行の画像に正しく分割することができる。例えば、「手」の文字のように文字枠１０１から大きくはみ出して記入された文字も、文字全体を一行の画像に含めることができる。

入力画像１０２が各行の画像に分割されると、次に、各行の文字画像が基本セグメントに分割されて、さらに各基本セグメントから候補セグメントが作成される（Ａ−７）。基本セグメントは、一行の画像を行と直交する方向に分割したもので、一文字である可能性のある最小の部分画像である。漢字では、偏や旁が基本セグメントとして抽出されることになる。例えば、「姫」の文字部分では「女」の偏の部分と「臣」の旁の部分が基本セグメントとして抽出されて、「女」、「臣」、「姫」の３つの候補セグメントが作成される。また、「路」の文字部分では「足」と「各」が基本セグメントとなり、「足」、「各」、「路」の３つの候補セグメントが作成される。また、「姫路」の部分からは、さらに、基本セグメント「女」と「臣」と「足」から形成される候補セグメント、「臣」と「足」から形成される候補セグメント、及び「臣」と「足」と「各」から形成される候補セグメントが作成される。候補セグメントは、入力画像１０２が各行に分割された後、各行の画像を行に直行する方向に分割した基本セグメントから作成される。このため、仮想個別枠１０３を利用して一部の領域だけを切り出す場合のように、文字の一部を切り出せないという事態を回避して、文字である可能性がある部分画像を候補セグメントとして網羅的に切り出すことができる。

こうして各行で複数の候補セグメントが作成されると、次に、処理対象とする候補セグメントが選択される（Ａ−８）。具体的には、候補セグメントの位置とこれに対応する仮想個別枠１０３の位置等に基づいて各候補セグメント評価して、一文字である可能性が低い候補セグメントを処理対象から除外する。仮想個別枠１０３は帳票１００上での文字枠１０１に相当するので、処理対象とすべき各文字は各仮想個別枠１０３の枠内に含まれる可能性が高い。これに基づいて各候補セグメントを評価するものであるが、この処理の詳細については後述する。

処理対象となる候補セグメントが絞り込まれると、ＤＰマッチング（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ、動的計画法）により文字認識処理を行う（Ａ−９）。ＤＰマッチング法による文字認識の処理としては従来技術を利用することが可能であるため詳細な説明は省略する。

次に、文字の切り出し及び文字認識の処理を行う文字認識装置１について説明する。図２は文字認識装置１の構成例を説明する機能ブロック図である。文字認識装置１は、通信部２と、入力画像取得部３と、文字切出部１０と、メモリ２０と、文字認識部３０と、文字認識結果評価部４０とを備えている。

なお、図２には文字認識装置１の構成例を示しており、本実施形態に係る文字切出装置は、同図の文字切出部１０に相当する。ただし、文字切出装置の構成がこれに限定されるものではなく、例えば、図２に示す構成のうち、文字認識部３０及び文字認識結果評価部４０を省いた構成を有していてもよい。文字切出装置として動作する場合には、入力された画像から、文字認識処理の処理対象となる各文字画像を切り出した後、これを外部へ出力して、外部装置によって文字認識処理が行われることになる。

通信部２は、外部装置との間で、帳票１００を撮像した帳票画像又は帳票画像から文字枠１０１を消去した入力画像１０２を画像データとして受信したり、受信した画像データから得られた文字認識結果を外部へ送信したりする機能を有する。また、通信部２は、入力画像１０２上で帳票１００に印刷された文字枠１０１を再現するための仮想個別枠情報２２や、文字認識処理に利用する辞書データである文字認識用テンプレート２３を送受信する機能も有している。

入力画像取得部３は、通信部２で受信した画像データが文字枠１０１を含む帳票画像である場合には、文字枠１０１を消去した入力画像１０２を作成して、これを入力画像データ２１としてメモリ２０に保存する機能を有する。また、受信した画像データが、既に文字枠１０１が消去された入力画像１０２である場合には、そのままの状態で入力画像データ２１としてメモリ２０に保存する。なお、文字枠１０１を含む帳票画像から入力画像１０２を作成する方法としては、例えば、文字枠１０１が赤色のドロップアウトカラーで印刷されている場合に、赤色照明や赤色フィルターを利用して帳票１００に赤色光を照射して、文字枠１０１を含まない帳票画像を撮像する方法がある。また、可視光で撮像した帳票画像上で、文字枠１０１を形成する画素の位置情報や色情報を利用してこれを消去する方法がある。これらの方法については、従来技術を利用することが可能であるため、詳細な説明は省略する。

文字切出部１０は、行分割位置決定部１１と、仮想個別枠位置決定部１２と、候補セグメント決定部１３とを有している。行分割位置決定部１１は、入力画像１０２の画素情報に基づく行分割位置と、仮想個別枠１０３の位置に基づく各行の位置情報とを利用して、入力画像１０２上の行分割位置を決定する機能を有する。仮想個別枠位置決定部１２は、メモリ２０から仮想個別枠情報２２を読み出して仮想個別枠１０３を設定し、これを入力画像１０２上で走査して、各枠内に対応する各文字が含まれるように仮想個別枠１０３の位置を決定する機能を有する。候補セグメント決定部１３は、行分割された各行の画像から基本セグメントを抽出して、基本セグメントを組み合わせて作成した複数の候補セグメントの中から、文字認識処理の処理対象とする候補セグメントを決定する。このように、文字切出部１０は、入力画像１０２から、各文字を含む部分画像である文字画像を候補セグメントとして切り出すものであるが、各処理の詳細については後述する。

メモリ２０は、不揮発性の半導体メモリ等から成り、入力画像データ２１、仮想個別枠情報２２、文字認識用テンプレート２３の保存に利用される。また、文字切出部１０等の各部での処理過程でデータを一時保存するために利用される。仮想個別枠情報２２は、帳票１００上での各文字枠１０１の位置や大きさに関する情報である。具体的には、各文字枠１０１の位置関係や縦横のサイズに関する情報で、この情報を利用することにより、入力画像１０２作成時に帳票画像から消去された全ての文字枠１０１を、仮想個別枠１０３として再現することができる。文字認識用テンプレート２３は、文字認識処理を行う際に、文字認識部３０によって利用される辞書データである。

文字認識部３０は、メモリ２０に保存された文字認識用テンプレート２３を利用して、文字切出部１０によって得られた候補セグメントに含まれる文字を文字認識する機能を有する。具体的には、文字切出部１０によって一文字を含む可能性がある候補セグメントが複数得られると、候補セグメントに含まれる文字の特徴と文字認識用テンプレート２３に含まれる各文字の特徴を比較してＤＰマッチングにより文字認識結果を決定する。

文字認識結果評価部４０は、文字認識部３０によって得られた文字認識結果と、仮想個別枠位置決定部１２によって決定された仮想個別枠１０３の位置情報とに基づいて、文字認識結果が正しいか否かを評価する。具体的には、例えば、１つの仮想個別枠１０３に対応する位置から、２つ以上の文字認識結果が得られた場合には、文字認識結果に誤りがあると判定する。また、例えば、帳票１００の各行で文字を左詰で記入するよう定められているにも拘わらず、一行の文字認識結果で、例えば連続文字列の文字と文字の間に空白であるとの文字認識結果が得られた場合に、文字認識結果に誤りがあると判定する。文字認識結果に誤りがあると判定した場合には、通信部２からは、文字認識結果に代えて文字認識できなかったことを示す情報が出力される。

次に、仮想個別枠位置決定部１２によって行われる入力画像１０２上での仮想個別枠１０３の位置の決定方法について説明する。仮想個別枠位置決定部１２は、メモリ２０に保存された入力画像データ２１及び仮想個別枠情報２２を読み出して、入力画像１０２上に、仮想個別枠１０３を設定する。具体的には、帳票１００上での文字枠１０１の大きさと記入された文字の大きさとの関係に基づいて、入力画像１０２の文字の大きさに応じて仮想個別枠１０３の大きさを設定する。また、帳票１００上での複数の文字枠１０１の位置関係に基づいて、複数の仮想個別枠１０３の位置関係を設定する。すなわち、入力画像１０２に含まれる文字と仮想個別枠１０３とによって、帳票１００に記入された文字と文字枠１０１との関係を再現するように各仮想個別枠１０３の大きさ及び位置が設定される。

入力画像１０２に含まれる全ての仮想個別枠１０３が設定されると、これら一群の仮想個別枠１０３を入力画像１０２上で走査する。そして、各位置で、各仮想個別枠１０３に、対応する各文字が含まれるか否かを評価する。図３は、一群の仮想個別枠１０３を走査する方法を説明する図である。このように、各仮想個別枠１０３の大きさ及び位置関係を維持した状態で走査する。図３の例では、一群の仮想個別枠１０３ａの左上隅の枠基準点が、入力画像１０２の左上隅と重なる位置をＰａ（０，０）として、一群の仮想個別枠１０３ｂの右下隅の点が入力画像１０２の右下隅と重なるときの枠基準点の位置をＰｂ（ｐ，ｑ）とする。そして、枠基準点が右方向へ１画素分ずつ移動するように一群の仮想個別枠１０３ａを移動させる。一群の仮想個別枠１０３ａの右端が入力画像１０２の右辺に接すると、枠基準点が、Ｐａから下方向へ１画素分移動した位置となるように一群の仮想個別枠１０３の位置を左端へ戻してから、再び右方向へ１画素分ずつ移動させる。枠基準点がＰｂ（ｐ，ｑ）に至るまで、このような移動を繰り返すことにより、入力画像１０２上を走査する。

そして、走査時に、各位置で仮想個別枠評価スコア（仮想個別枠評価値）を算出して、各仮想個別枠１０３の枠内に、対応する各文字が含まれる位置を決定する。仮想個別枠評価スコアは、各仮想個別枠１０３の枠内に、対応する各文字が含まれていることを評価するための評価値である。仮想個別枠評価スコアは、各文字を形成する画素が、仮想個別枠１０３内のどの画素位置にあるかに基づいて算出されるが、詳細については後述する。なお、本実施形態ではスコアと記載しているが、予め設定された値又はこれらの値から算出された値を示すもので、正数等に限定されるものではない。

図４は、仮想個別枠１０３の枠内で画素単位で配分される評価点数（評価値）と該評価点数から算出される仮想個別枠評価スコアについて説明する図である。図４では、最小単位の矩形が各画素を示している。また、図４（ａ）は、仮想個別枠１０３の枠内での標準的な点数配分を示している。図４（ａ）に示す点数配分を有する仮想個別枠１０３を基本枠として、仮想個別枠１０３の大きさや形状が異なる場合でも、この基本枠における画素位置と評価点数との関係に基づいて点数配分が設定されるが、詳細については後述する。

図４（ａ）では、仮想個別枠１０３内の中心に文字を形成する黒画素がある場合には、評価点数として１０点が加算されることを示している。枠内の横方向中央かつ縦方向中央の画素を含む縦方向６画素分の各画素位置では１０点が加算される。また、１０点が加算される縦方向６画素の領域を取り囲むように設定された１画素幅の矩形帯状領域に黒画素がある場合には９点が加算される。さらにその外側を取り囲む１画素幅の矩形帯状領域に黒画素がある場合には８点が加算される。こうして、外側に行くほど点数が低くなり、一番外側の矩形帯状領域では４点が加算される。言い換えれば、一番外側の矩形帯状領域の画素の評価点数を最小値として、一画素ずつ内側の矩形帯状領域に行くに連れて１点ずつ点数を高くして行き、最後に残った短辺方向中央位置の長辺方向１列の画素群で評価点数を最大値とする。さらに言い換えれば、短辺方向及び長辺方向の両外側の点数を同じ最低点数として、短辺方向中央を最高点数とする。そして、最低点から最高点に至る短辺方向の点数配分の傾きが一定となるように設定して、これと同じ傾きで長辺方向の最低点から最高点に至る点数配分が設定される。

例えば、文字を形成する黒画素が、図４（ｂ）に示す位置にある場合には、１０点の画素が２つ、９点の画素が５つ、８点の画素が４つ、７点の画素が３つ、６点の画素が２つ、５点の画素が１つであるから、この仮想個別枠１０３でのスコアは、これらを合計した１３５点となる。９つの仮想個別枠１０３の各々で図４に示したようにスコアを算出して、９つの仮想個別枠１０３の全てのスコアを合計した値が、その走査位置での仮想個別枠評価スコアとなる。

より多くの仮想個別枠１０３内で、中心に近い位置に黒画素が存在するほど仮想個別枠評価スコアの値が高くなるので、入力画像１０２に含まれる各文字が、対応する各仮想個別枠１０３の枠内に存在するときに仮想個別枠評価スコアが最大値を示す。このため、仮想個別枠評価スコアに基づいて、例えば図１（Ａ−５）に示すように、各仮想個別枠１０３の内部に、対応する各文字が含まれる位置を決定することができる。

図４に示した仮想個別枠１０３では、中心位置で評価点数が最大値となるように設定されて外側に行くほど評価点数が低くなるが、最も外側の最小値でも最大値の４０％の点数が与えられる。このように、仮想個別枠１０３の内部に文字が含まれているか否かを評価する評価点数は、最小値を示す枠内の最も外側の画素位置でも、最大値を示す枠内中心位置の評価点数の４０％〜５０％程度の点数とする。例えば、「口」という文字は、仮想個別枠１０３の内部に含まれる場合でも、枠内の中心付近に文字を形成する黒画素が存在しない。このような文字の場合でもスコアが極端に小さくならず、枠内に文字が含まれていることを正しく評価できるように枠内の評価点数を配分するものである。

また、仮想個別枠１０３内の評価点数は、仮想個別枠１０３の大きさ、すなわち文字の大きさによる影響を受けないように設定される。図５は、仮想個別枠１０３の大きさが異なる場合に各枠内での評価点数を設定する方法を説明する図である。帳票１００では、異なる大きさの文字枠１０１が利用される場合がある。文字枠１０１の大きさが異なると、例えば、図５（ａ）に示すように、仮想個別枠１０３ｃ及び１０３ｄの大きさも異なることになる。このような場合には、まず、大きさが最大の仮想個別枠１０３ｄで評価点数が設定される。具体的には、基本枠として図４（ａ）に示すように評価点数の点数配分が設定されている場合に、図５（ｂ）に示すように、最大の仮想個別枠１０３ｄの点数配分が設定される。すなわち、基本枠の横方向の点数配分を、図５（ｂ）下側の斜線部に示すように図形で表した場合に、最大の仮想個別枠１０３ｄの点数配分を表す図形が、基本枠の図形と相似形となるように設定される。最大の仮想個別枠１０３ｄの短辺の長さが基本枠の短辺の長さ（Ｌ１）の２倍である場合には、短辺方向の点数配分が、基本枠の４点〜１０点の配分に対して、仮想個別枠１０３ｄでは８点〜２０点に設定されることになる。なお、図５（ｂ）では、短辺方向の点数配分のみを図示しているが、長辺方向の点数配分についても、同様に設定される。

こうして、最大の仮想個別枠１０３ｄで評価点数の配分が設定されると、次に、他の仮想個別枠１０３ｃで評価点数の配分が設定される。具体的には、他の仮想個別枠１０３ｃの評価点数の最大値及び最小値を、最大の仮想個別枠１０３ｄの評価点数の最大値及び最小値と同一の点数に設定する。すなわち、図５（ｂ）に示すように、最大の仮想個別枠１０３ｄの評価点数に合わせて、小さい仮想個別枠１０３ｃの中心画素の最大の評価点数を２０点として、外周に接する画素の最小の評価点数を８点とする。そして、他の画素については、図４（ａ）で説明したように、短辺方向の最小値から最大値に至る点数配分の傾きが一定となるように点数配分を設定すると共に、これと同じ傾きで長辺方向の点数配分が設定される。

仮想個別枠１０３の枠の大きさによって評価点数が変化すると、例えば、同様に仮想個別枠１０３の中心画素が黒画素であるにも拘わらず、枠の大きさによって評価点数が異なることになる。この結果、仮想個別枠１０３の大きさが大きいほど評価点数が重視されることになり、仮想個別枠評価スコアによる位置評価を正しく行えない可能性がある。このため、枠の大きさによる影響を受けないように、枠の大きさによらず評価点数の最大値及び最小値が同じ値となるように設定するものである。

次に、行分割位置決定部１１によって行われる入力画像１０２上での行分割位置の決定方法について説明する。行分割位置決定部１１は、仮想個別枠位置決定部１２によって、入力画像１０２上での仮想個別枠１０３の位置が決定された後、この位置情報を利用して行分割位置を決定する。

図６は、行分割位置の決定方法を説明する図である。まず、図６（ａ）に示すように、入力画像１０２に含まれる文字の画素情報に基づいて行分割位置Ｄ１〜Ｄ３が検出される。例えば、横方向に黒画素が存在しない位置が行分割位置Ｄ１〜Ｄ３とされる。また、図６（ｂ）に示すように、仮想個別枠位置決定部１２によって決定された仮想個別枠１０３の位置に基づいて、各行の仮想個別枠１０３の中心線Ｃ１〜Ｃ３の位置が検出される。

そして、図６（ｃ）に示すように、画素情報に基づいて得られた行分割位置Ｄ１〜Ｄ３と、仮想個別枠１０３から得られた中心線Ｃ１〜Ｃ３との位置関係から、行分割位置の検証が行われる。具体的には、２本の中心線Ｃ１とＣ２との間に行分割位置が無いことから、行分割位置が検出できなかったものと判定して、新たな行分割位置Ｄ４が追加される。新たな行分割位置Ｄ４は、例えば、横方向の黒画素の数の合計が最も少ない位置に追加される。また、２本の中心線Ｃ２とＣ３との間に、２つの行分割位置Ｄ１及びＤ２があることから、いずれかが誤って検出されたものと判定される。そして、２本の中心線Ｃ２及びＣ３の中間位置に近い行分割位置Ｄ１が正しいものとして、行分割位置Ｄ２が削除される。さらに、一番下の中心線Ｃ３より下にある行分割位置Ｄ３は、誤って検出されたものであると判定されて削除される。この結果、図６（ｄ）に示すように、行分割位置Ｄ１及びＤ４のみが残り、３行の文字を正しく行分割することができる。なお、図６の例は該当しないが、一番上の中心線Ｃ１より上に行分割位置が検出されている場合にも誤検出として削除される。

このとき、行分割位置の追加及び削除を行う範囲は、予め設定された範囲内で行われる。具体的には、先頭行の中心線Ｃ１を中心線Ｃ１からＣ２の間隔分だけ上側へ移動した位置から、最下行の中心線Ｃ３を中心線Ｃ３からＣ２までの間隔分だけ下側へ移動した位置までを設定範囲とする。これにより、先頭行又は最下行から極端に離れた位置を行分割位置として誤判定することを回避することができる。

次に、候補セグメント決定部１３によって行われる基本セグメントの抽出、候補セグメントの作成及び処理対象とする候補セグメントの選択について説明する。候補セグメント決定部１３は、仮想個別枠位置決定部１２によって仮想個別枠１０３の位置が決定されて、行分割位置決定部１１によって各行の行分割位置Ｄ１及びＤ４が決定されると、行分割位置Ｄ１及びＤ４によって分割された各行の画像を利用して処理を開始する。なお、各行で同様の処理が行われるため、以下では、図６（ｄ）に示すように行分割された際の、一行目の文字画像を利用して処理内容を説明することとする。

図７は、基本セグメントを抽出してから、候補セグメントに対応する仮想個別枠１０３を選択するまでの処理を説明する図である。なお、図７（ａ）は、一行目の文字画像と、位置決定された各仮想個別枠Ｆ１１（１０３ｅ）、Ｆ１２（１０３ｆ）及び枠Ｆ１３（１０３ｇ）との位置関係を示している。

図７（ｂ）に示すように、一行の画像が、文字列と直交する方向（図中縦方向）に分割されて、同図（ｃ）に示すように基本セグメントが抽出される。基本セグメントは、例えば縦方向に黒画素が無い位置で分割されたもので、一文字である可能性がある最小単位の部分画像であり、漢字では偏や旁に相当する。

そして、得られた基本セグメントを利用して候補セグメントが作成される。ここで作成される候補セグメントが、文字認識処理の処理対象となる文字画像に相当する。図７（ｃ）に示す基本セグメントから、同図（ｄ）に示すように、基本セグメントを候補セグメントとして、さらに、隣り合う基本セグメントを結合して候補セグメントが作成される。

なお、隣り合う基本セグメントを順に結合することにより候補セグメントが作成されるが、結合する基本セグメントの数は作成される候補セグメントの行方向（図中横方向）の長さによって制限される。具体的には、候補セグメントの横方向の長さが、例えば、行の高さの２倍以下となるように制限される。これにより、図７（ｃ）に示す基本セグメントで「女」〜「各」までの４つの基本セグメントを結合した候補セグメントが作成されるが、さらに「市」を加えて５つの基本セグメントを結合した候補セグメントは作成されない。

こうして、複数の候補セグメントが作成された後、これらの中から文字認識処理の処理対象とする候補セグメントを選択する処理が行われる。候補セグメントの選択は、各候補セグメントと対応する仮想個別枠１０３との位置関係を評価することによって行われる。このため、評価に先立って、各候補セグメントに対応する仮想個別枠１０３ｅ〜１０３ｇの選択が行われる。各候補セグメントに対応する仮想個別枠１０３ｅ〜１０３ｇは、候補セグメントの行方向中心線と、各仮想個別枠１０３ｅ〜１０３ｇの行方向中心線との位置関係によって選択される。例えば、図７（ｅ）に示すように、候補セグメント２０１では、中心線の位置が、３つの仮想個別枠１０３ｅ〜１０３ｇのうち仮想個別枠Ｆ１１（１０３ｅ）の中心線ＣＬ１に最も近いので、対応する仮想個別枠１０３として仮想個別枠Ｆ１１（１０３ｅ）が選択される。候補セグメント２０３についても同様に、対応する仮想個別枠１０３として、仮想個別枠Ｆ１１（１０３ｅ）が選択される。これに対して、候補セグメント２０４では、中心線の位置が、仮想個別枠Ｆ１１（１０３ｅ）の中心線ＣＬ１よりも仮想個別枠Ｆ１２（１０３ｆ）の中心線ＣＬ２に近いので、対応する仮想個別枠１０３として仮想個別枠Ｆ１２（１０３ｆ）が選択される。こうして各候補セグメントに対応する仮想個別枠１０３が選択され、図７（ｆ）に示すように分類される。

各候補セグメントと仮想個別枠１０３の対応関係が決定されると、これを利用して各候補セグメントの評価が行われる。候補セグメントの評価は、候補セグメント評価スコア（候補セグメント評価値）によって行われる。図８は、候補セグメント評価スコアの算出方法を説明する図である。

図８に示すように、候補セグメント評価スコアは、候補セグメント２００の中心線ａ１から仮想個別枠１０３の中心線ａ４までの距離ｇ１と、候補セグメント２００の左端ａ２から仮想個別枠１０３の枠幅Ｗ３を中心方向に１０％分縮小した際の左端ａ７までの距離ｇ２と、候補セグメント２００の右端ａ３から仮想個別枠１０３の枠幅Ｗ３を１０％分縮小した際の右端ａ８までの距離ｇ３と、仮想個別枠１０３の枠幅Ｗ３を１０％分縮小した際の枠幅Ｗ２と候補セグメント２００の枠幅Ｗ１との差の絶対値とを加算して算出される。

値ｇ１は、候補セグメント２００の中心線ａ１と仮想個別枠１０３の中心線ａ４とのずれを評価する値である。また、値ｇ２及びｇ３は、候補セグメント２００の左端ａ２及び右端a３と、仮想個別枠１０３の左端ａ５及び右端ａ６がどれくらい離れているかを評価するものであるが、この際、仮想個別枠１０３の枠幅Ｗ３を１０％分縮小した位置ａ７及びａ８を基準に評価する。帳票１００の文字枠１０１に文字を記入する際には、幅方向で枠内いっぱいの大きさで記入されることは少なく、多くの場合、左右に空白が残るように記入される。これを考慮して、値ｇ２及びｇ３については、文字枠１０１に相当する仮想個別枠１０３の左端ａ５及び右端ａ６ではなく、枠幅Ｗ３を中心方向に１０％分縮小した位置を左端ａ７及び右端ａ８としてこれらを基準に評価するものである。また、候補セグメント２００と仮想個別枠１０３の幅方向の大きさの違いを評価する場合にも、仮想個別枠１０３の枠幅Ｗ３を縮小した枠幅Ｗ２を利用して評価する。なお、枠幅Ｗ１とＷ２の差を評価する場合に、Ｗ１よりＷ２の方が広い場合と、Ｗ１よりＷ２の方が狭い場合の両方があるため、差の絶対値によって評価する。

図９は、図７（ｆ）に示した仮想個別枠Ｆ１１（１０３ｅ）に対応する各候補セグメント２０１〜２０３、２０５及び２０６について、候補セグメント評価スコアを算出する方法を示したものである。図９（ａ）〜（ｅ）の下部には、こうして算出した候補セグメント評価スコアを示している。候補セグメント評価スコアは、各候補セグメント２０１〜２０３、２０５及び２０６と仮想個別枠１０３ｅとの間で、位置がどれくらいずれているか、幅にどれくらい差があるかを示すもので、候補セグメント評価スコアが小さいほど、候補セグメントと仮想個別枠１０３の差が小さいことを示す。

各仮想個別枠１０３に対応する各候補セグメントについて、候補セグメン評価スコアを算出して、文字認識処理の処理対象とする候補セグメントが選択される。図１０は、図９に示す候補セグメント評価スコアの算出結果をまとめた表を示している。この例では、仮想個別枠Ｆ１１（１０３ｅ）について、候補セグメント評価スコアが最小値の候補セグメント２０２が文字認識処理の対象として選択される。

このとき、候補セグメント評価スコアに加えてスコアリミット（しきい値）が算出され、スコアリミットを利用した処理対象の選択が行われる。スコアリミットは、候補セグメント評価スコアがこの値より小さい場合には、文字認識処理の処理対象として選択するというしきい値であり、図１０下部に示す式で算出される。仮想個別枠１０３の枠幅Ｗ３と、候補セグメント評価スコアの最小値とを利用して算出される値で、例えば図１０の例では、候補セグメント評価スコアの最小値「Ｓ＝３」と枠幅Ｗ３の値「Ｗ３＝２１」から、スコアリミットが「２０」と算出される。図１０の例では、候補セグメント評価スコアがスコアリミットより小さい候補セグメントは１つだけであるから、仮想個別枠Ｆ１１（１０３ｅ）に対応する候補セグメントとしては「姫」の候補セグメント２０２だけが選択される。しかし、例えば、候補セグメント評価スコアが「１９」となる候補セグメントがあれば、この候補セグメントも、仮想個別枠Ｆ１１（１０３ｅ）に対応する文字認識処理の処理対象として選択されることになる。

例えば、帳票１００の文字枠１０１で左右いずれかに偏った形で文字が記入された場合や、入力画像１０２に文字とは関係ないノイズとなるような黒画素が含まれている場合に、この影響を受けて候補セグメント評価スコアが低くなる可能性がある。このような場合に、候補セグメント評価スコアが最小値を示したものだけを選択すると、本来選択されるべき候補セグメントが選択されない可能性がある。このような事態を回避するため、スコアリミットを利用して、候補セグメント評価スコアがスコアリミットより小さい場合に、これを処理対象に含めるようにする。すなわち、スコアリミットは、本来選択されるべき候補セグメントが処理対象から除外されることがないように候補セグメント評価スコアの許容範囲を設定するものである。

こうして、各仮想個別枠１０３について文字認識処理の対象とする候補セグメントが選択されると、選択された候補セグメントについて文字認識処理が行われる。図７に示すように、一文字である可能性がある部分画像を基本セグメントとして抽出して、さらに、一文字である可能性がある文字画像を候補セグメントとして網羅的に作成するので、文字枠１０１から横方向にはみ出して記入された文字がある場合も、これを候補セグメントとして切り出すことができる。また、図１０に示すように処理対象が絞り込まれるので、全ての候補セグメントについて処理を行う場合に比べて、文字認識処理の処理負荷を軽減して高速に処理を行うことができる。

次に、各処理の流れについて説明する。図１１は、図２に示した文字認識装置１によって行われる各処理の流れを示すフローチャートである。まず、帳票１００の文字枠１０１及び該文字枠１０１に記入された文字を含む帳票画像、又は文字枠１０１が消去された入力画像１０２が、通信部２に入力される（ステップＳ１）。文字枠１０１を含む帳票画像が入力された場合には、入力画像取得部３によって、例えば、文字とは異なる色で印刷されている文字枠１０１を画像上の色情報に基づいて消去するカラードロップアウト処理を行うことにより、入力画像１０２が取得される。入力画像１０２は、入力画像データ２１としてメモリ２０に保存される。

次に、仮想個別枠位置決定部１２が、メモリ２０に保存された仮想個別枠情報２２を利用して、入力画像１０２に含まれる全ての文字に対応する仮想個別枠１０３を再現する。そして、再現された一群の仮想個別枠１０３により入力画像１０２上を１画素単位で走査して、各仮想個別枠１０３内に、対応する文字が含まれる位置を決定する処理が行われる（ステップＳ２）。この処理は、図３〜図５を参照しながら説明したように仮想個別枠評価スコアを算出することによって行われる。

仮想個別枠位置決定部１２によって入力画像１０２上で仮想個別枠１０３の位置が決定されると、次に、行分割位置決定部１１によって、入力画像１０２に含まれる文字を各行の画像に分割するために行分割位置を検出する処理が行われる（ステップＳ３）。この処理は、図６を参照しながら説明したように、入力画像１０２上で画素情報に基づいて検出した行分割位置と、仮想個別枠１０３の位置とを利用して行われる。そして、決定された行分割位置で、入力画像１０２が各行の画像に分割される（ステップＳ４）。

行分割位置決定部１１によって各行に分割されると、候補セグメント決定部１３によって、各行の画像から基本セグメントが抽出される（ステップＳ５）。そして、抽出した基本セグメントを利用して候補セグメントが作成される（ステップＳ６）。続いて、作成した全ての候補セグメントの中から、仮想個別枠１０３毎に、文字認識の処理対象となる候補セグメントが選択される（ステップＳ７）。これらの処理は、図７〜図１０を参照しながら説明したように、仮想個別枠評価スコア及びスコアリミットを算出することによって行われる。

候補セグメント決定部１３によって、各仮想個別枠１０３に対応する候補セグメントが選択されると、これらを対象として、文字認識部３０による文字認識処理が行われる（ステップＳ８）。文字認識処理は、選択された候補セグメントとメモリ２０に保存された文字認識用テンプレート２３とを利用してＤＰマッチング法により行われる。

文字認識部３０によって文字認識結果が得られると、文字認識結果評価部４０により、文字認識結果と対応する仮想個別枠１０３の位置情報とを比較して、文字認識結果を評価する処理が行われる（ステップＳ９）。

そして、１つの仮想個別枠１０３に対応して２つ以上の文字認識結果が得られた場合には（ステップＳ１０；Ｙｅｓ）、文字認識結果に誤りがあると判定して、通信部２から、文字認識結果が得られなかったことを示すエラー信号が出力される（ステップＳ１２）。１文字の枠内に２文字の文字認識結果が得られた場合にエラーとするものである。

また、各仮想個別枠１０３で１つの文字認識結果が得られたものの（ステップＳ１０；Ｎｏ）、一行分の文字列の文字認識結果で、連続する文字と文字との間に空白であると認識された仮想個別枠１０３が存在する場合には（ステップＳ１１；Ｙｅｓ）、同様に、文字認識結果に誤りがあると判定して、エラー信号を出力する（ステップＳ１２）。通常、記入用紙の文字枠１０１には左詰で文字が記入されるので、文字と文字の間に空白がある場合にエラーとするものである。

一方、文字認識結果評価部４０による評価の結果、文字認識結果に問題がないと判定された場合には（ステップＳ１１；Ｎｏ）、得られた文字認識結果を通信部２から外部装置へ向けて出力する（ステップＳ１３）。こうして、処理を終了する。

上述してきたように、本実施形態によれば、入力画像１０２を各行に分割する行分割位置を画素情報に基づいて検出した後、この行分割位置を、各文字に対応するように位置決定された仮想個別枠１０３の位置に基づいて検証するので、入力画像１０２を正確に各行の画像に行分割することができる。このとき、文字枠１０１を消去して文字だけが含まれる入力画像１０２上で画素情報に基づいて行分割位置を検出するので、例えば、文字枠１０１からはみ出して文字が記入された場合でも、はみ出した文字のほぼ全てを行内に含むように行分割することができる。また、例えば、画素情報に基づいて誤って検出された行分割位置や検出できなかった行分割位置がある場合でも、仮想個別枠１０３の位置から得られる各行の位置情報に基づいて、誤検出された行分割位置を削除したり検出できなかった行分割位置を追加したりすることができる。

また、各行の画像から一文字である可能性がある最小単位の部分画像を基本セグメントとして抽出して、この基本セグメントと複数の基本セグメントを結合したセグメントとを候補セグメントとすることにより、一文字である可能性のある文字画像を網羅的に抽出することができる。その上で、候補セグメントと対応する仮想個別枠１０３との位置関係に基づいて、一文字の文字画像である可能性の低い候補セグメントを処理対象から除外して文字認識処理の処理対象を絞り込むことができる。これにより、正確な文字認識処理を実現しながら、処理を高速に行うことができる。

以上のように、本発明は、文字枠を利用して文字が記入された帳票等の記入用紙の画像から文字認識する場合に、画像に含まれる文字を行毎に分割して、さらに各行の画像から文字認識処理の対象とする文字画像を正確に切り出すために有用な技術であり、切り出された文字画像を利用して正確な文字認識結果を得るために有用な技術である。

１文字認識装置
２通信部
３入力画像取得部
１０文字切出部
１１行分割位置決定部
１２仮想個別枠位置決定部
１３候補セグメント決定部
２０メモリ
２１入力画像データ
２２仮想個別枠情報
２３文字認識用テンプレート
３０文字認識部
４０文字認識結果評価部
１００帳票
１０１文字枠
１０２入力画像
１０３、１０３ａ〜１０３ｇ仮想個別枠
２００〜２０４候補セグメント

Claims

文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出装置であって、
紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得部と、
前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定部と、
画素情報に基づいて前記入力画像を各行の画像に分割する行分割位置を検出すると共に、前記仮想個別枠位置決定部によって決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、検出した前記行分割位置を検証して行分割位置を決定する行分割位置決定部と、
前記行分割位置決定部によって決定された行分割位置で行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出して、前記基本セグメント及び複数の基本セグメントを結合したものを候補セグメントとし、前記候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定部と
を備えたことを特徴とする文字切出装置。
前記仮想個別枠位置決定部は、
前記入力画像上で全ての仮想個別枠の位置関係を維持した状態で走査を行い、
各走査位置で、各仮想個別枠に含まれる文字の画素位置に対応して得られた評価値を全ての仮想個別枠について合計した値を仮想個別枠評価値として算出して、
前記仮想個別枠評価値に基づいて前記仮想個別枠の位置を決定する
ことを特徴とする請求項１に記載の文字切出装置。
各仮想個別枠で画素単位で配分される評価値は、枠内中心の画素位置で最大値、枠の外周に接する画素位置で最小値となるように配分されて、前記最小値が前記最大値の略半分以下の所定値に設定されることを特徴とする請求項２に記載の文字切出装置。
複数の仮想個別枠で枠の大きさが異なる場合も評価値の最大値は同じ値に設定されることを特徴とする請求項２又は３に記載の文字切出装置。
前記候補セグメント決定部は、
前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、
前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、
前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定する
ことを特徴とする請求項１に記載の文字切出装置。
前記候補セグメント決定部は、
前記仮想個別枠の枠幅、及び前記仮想個別枠に対応する各候補セグメントで算出された前記候補セグメント評価値の値からしきい値を算出して、
各候補セグメントで算出された前記候補セグメント評価値と前記しきい値とを比較して処理対象とする候補セグメントを決定する
ことを特徴とする請求項５に記載の文字切出装置。
前記行分割位置決定部は、
前記仮想個別枠の位置に基づいて文字の高さ方向の各行中心位置を検出して、
隣接する行の中心位置の間に検出された前記行分割位置が複数ある場合には、前記行分割位置が１つとなるように余計な行分割位置を削除して、
隣接する行の中心位置の間に前記行分割位置が検出されていない場合には、新たに行分割位置を追加して、
一行目の中心位置の上側及び最終行の中心位置の下側に検出された前記行分割位置がある場合には、前記行分割位置を削除する
ことを特徴とする請求項１〜４のいずれか１項に記載の文字切出装置。
文字枠を利用して文字が記入された紙葉類の画像から各文字を含む文字画像を切り出す文字切出方法であって、
紙葉類に記入された文字のみが含まれる入力画像を取得する入力画像取得工程と、
前記入力画像上で前記紙葉類の文字枠を再現した仮想個別枠を走査して、各枠内に、対応する各文字が含まれる前記仮想個別枠の位置を決定する仮想個別枠位置決定工程と、
画素情報に基づいて前記入力画像を各行の画像に分割する行分割工程と、
前記仮想個別枠位置決定工程で決定された前記仮想個別枠の位置から取得した各行の位置情報に基づいて、前記行分割工程で検出した行分割位置を検証して行分割位置を決定する行分割位置決定工程と、
前記行分割位置決定工程で決定された行分割位置により行分割された一行の画像から、画素情報に基づいて一文字である可能性がある部分画像を基本セグメントとして抽出する基本セグメント抽出工程と、
前記基本セグメント抽出工程で抽出された基本セグメントを候補セグメントとすると共に、複数の基本セグメントを結合して候補セグメントを作成する候補セグメント作成工程と、
前記候補セグメント作成工程で作成された候補セグメントのうち一文字である可能性が低い候補セグメントを除外して処理対象とする候補セグメントを決定する候補セグメント決定工程と
を含んだことを特徴とする文字切出方法。
前記候補セグメント決定工程では、
前記候補セグメントの中心から各仮想個別枠の中心までの距離に基づいて各候補セグメントに対応する仮想個別枠を選択して、
前記仮想個別枠と対応する前記候補セグメントとの位置関係、及び前記仮想個別枠の枠幅と対応する前記候補セグメントの枠幅との差から候補セグメント評価値を算出して、
前記候補セグメント評価値に基づいて処理対象とする候補セグメントを決定する
ことを特徴とする請求項８に記載の文字切出方法。
請求項１〜７のいずれか１項に記載の文字切出装置で処理対象として決定された候補セグメントから、該候補セグメントに含まれる文字を文字認識する文字認識部を備えることを特徴とする文字認識装置。
前記候補セグメントと前記仮想個別枠との対応関係に基づいて、一つの仮想個別枠に対応する文字認識結果が複数得られた場合に、文字認識結果に誤りがあると評価する文字認識結果評価部をさらに備えることを特徴とする請求項１０に記載の文字認識装置。