JP4566510B2 - 帳票認識装置および帳票認識方法 - Google Patents

帳票認識装置および帳票認識方法 Download PDF

Info

Publication number
JP4566510B2
JP4566510B2 JP2002369126A JP2002369126A JP4566510B2 JP 4566510 B2 JP4566510 B2 JP 4566510B2 JP 2002369126 A JP2002369126 A JP 2002369126A JP 2002369126 A JP2002369126 A JP 2002369126A JP 4566510 B2 JP4566510 B2 JP 4566510B2
Authority
JP
Japan
Prior art keywords
character
character recognition
item
recognition
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002369126A
Other languages
English (en)
Other versions
JP2004199529A (ja
Inventor
勝利 小原
真一 江口
浩一 金元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Ltd
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd, Fujitsu Frontech Ltd filed Critical Fujitsu Ltd
Priority to JP2002369126A priority Critical patent/JP4566510B2/ja
Publication of JP2004199529A publication Critical patent/JP2004199529A/ja
Application granted granted Critical
Publication of JP4566510B2 publication Critical patent/JP4566510B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は帳票認識装置および帳票認識方法に関し、特に光学的に読み取った帳票のイメージ情報から所定の文字認識項目の文字認識を行なう帳票認識装置および帳票認識方法に関する。
【0002】
【従来の技術】
従来、帳票処理業務の効率化のため、帳票上に印字された情報を光学的にイメージ情報として読み取り、読み取ったイメージ情報を画像処理して帳票上に印字された文字の認識を行なう帳票認識装置が利用されている。
【0003】
このような帳票認識装置は、同一種類の帳票を多量に処理するばかりでなく、多種多様なフォーマットの帳票を処理することが要求されている。このため、例えば、帳票に印刷された罫線や、帳票識別コード等によって帳票を識別し、印字された文字の認識処理を行なっている。さらに、複数の帳票の特徴を示す図形が登録された図形データベースと、同様に複数の帳票の特徴をそれぞれ示す文字が登録された識別コードデータベースとを用いて、図形と文字の両方で照合して帳票を識別することにより、識別精度を向上させた帳票識別装置がある(例えば、特許文献1参照)。
【0004】
従来の帳票の識別処理および文字の認識処理は、帳票の特徴が定義された定義体に基づいて実施される。図9は、帳票と帳票の特徴を示した定義体の一例を示した図である。図9の例では、帳票1000は、帳票識別コード1001が帳票の左上から横軸方向にx、縦軸方向にy離れた座標(x、y)から印字されており、帳票識別コード1001により帳票の種類を識別することができる。
【0005】
定義体とは、このような帳票の種別を特定するための情報や、文字認識を行なうための規定などについてなされた定義を言い、帳票認識装置内に組み込まれる。例えば、帳票の特徴を示す罫線、図形などについての定義や、文字の桁数や特徴(数字のみであるなど)が定義されている。図9の例では、定義体1003は、帳票識別コード1001のコードが開始される左上の座標、識別コード、および識別コードに対応する帳票IDなどが含まれる。
【0006】
このような帳票認識装置では、定義体1003に基づいて帳票認識および文字認識処理を行なうプログラムが作成され、装置内に格納される。また、定義体の一部がデータベースとして装置内の記憶装置に格納され、プログラムが適宜参照する場合もある。これらのプログラムをコンピュータで実行することにより、帳票認識処理および文字認識処理が実現される。
【0007】
【特許文献1】
特開2001−175862号公報
【0008】
【発明が解決しようとする課題】
しかし、従来の帳票認識装置および帳票認識方法では、帳票ごとに定義体を作成しなければならないという問題がある。
【0009】
上記の説明のように、従来の帳票認識装置およびその帳票認識方法は、帳票ごとの特徴を示す定義体に基づいて作成されたプログラムがコンピュータで実行されることにより処理機能が実現される。このため、読み取る帳票の種類が増えると、定義体作成の作業量が膨大に膨れてしまうという問題があった。近年、帳票形式の共通化が図られており、類似する形式の帳票が多数存在するが、類似する全ての帳票について定義体を作成する必要があった。例えば、同一項目が記載される複数の帳票を処理する場合、その項目の印字される位置が帳票ごとに若干異なっていれば、それぞれの帳票について定義体を作成しなければならなかった。このように、定義体作成に多大な労力が必要となることが、認識する帳票数を増やす際の障害となっていた。
【0010】
また、帳票認識装置において帳票認識および文字認識処理を実現するためのプログラムは、定義体に基づいて作成されるため、定義体によって定義された規定が制御文に組み込まれてしまっている場合がある。図9の定義体1003の例では、識別コードが印字されている座標が同一であるので、識別コードの読み込みを制御する制御文に、「座標(x1、y1)から識別コード読み込み」と組み込むことができる。このような場合、座標が若干異なる帳票を追加する場合には、制御文まで変更する必要が生じる。このように、定義体作成の作業ばかりでなく、定義体の作成に伴ってプログラムの修正をしなければならないなど、煩雑な作業をしなければならなかった。
【0011】
本発明はこのような点に鑑みてなされたものであり、帳票の種類の追加や変更に容易に対応することが可能な帳票認識装置および帳票認識方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
本発明では上記課題を解決するために、図1に示すような帳票認識装置が提供される。本発明に係る帳票認識装置では、文字認識情報記憶手段1に文字認識を行なう帳票上の対象を囲む範囲の位置指定を含む文字認識情報が格納され、構文ルール情報記憶手段2に対象範囲の文字列によって表される文字認識項目と対象範囲の文字列より成る構文について文字認識項目間の位置関係の規定を含む構文ルール情報が格納されている。文字認識手段3は、イメージスキャナによって光学的に読み取られた帳票のイメージ情報を入力し、文字認識情報記憶手段1から読み出した文字認識情報に基づき、文字認識情報で指定された位置のイメージ情報を抽出し、その抽出内容について文字認識を行なう。文字認識された結果は、構文解析手段4に送られる。構文解析手段4は、文字認識結果である対象範囲の文字列を構文ルール情報に基づいて解析し、文字認識項目との対応付けを行なう。このように、文字認識された構文と文字認識項目とを構文ルール情報に基づいて対応付けることにより、所定の文字認識項目に関する文字認識を行ない、これによって帳票認識を行なう。
【0013】
また、上記課題を解決するために、文字認識情報と構文ルール情報とを予め設定しておき、取得したイメージ情報の対象範囲の情報を抽出して文字認識情報を用いて文字認識を行ない、構文ルール情報を用いて文字認識された文字列と文字認識項目とを対応付けることにより、所定の文字認識項目の文字認識を行なう帳票認識方法が提供される。
【0014】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照して説明する。まず、実施の形態に適用される発明の概念について説明し、続いて本発明が適用される実施の形態について説明する。
【0015】
図1は、本発明の実施の形態に適用される発明の概念図である。
本発明に係る帳票認識装置は、文字認識に用いる文字認識情報を記憶した文字認識情報記憶手段1、文字列より成る構文についての構文ルール情報を格納する構文ルール情報記憶手段2、イメージ情報から帳票の文字認識を行なう文字認識手段3および文字認識された文字列と文字認識項目との対応付けを行なう構文解析手段4を具備する。
【0016】
文字認識情報記憶手段1は、文字認識のために必要な情報を格納する記憶手段である。例えば、文字認識を行なう対象範囲の位置を指定する位置情報、文字認識時に参照する文字認識辞書などが格納されている。さらに必要に応じて、文字認識の精度を上げるために文字種や字体などの文字情報などが格納されている。
【0017】
構文ルール情報記憶手段2は、文字認識された対象範囲の文字列より成る構文についてのルール情報を格納する記憶手段である。例えば、文字認識が行なわれた構文が表す文字認識項目、文字列についての規定などが格納されている。文字列についての規定には、その文字列の桁数や文字種などがある。さらに必要に応じて、文字認識項目間の位置関係を規定する項目間位置関係ルール情報が格納される。
【0018】
文字認識手段3は、文字認識情報記憶手段1に記憶された文字認識情報を用いて、所定の文字認識の対象範囲に相当するイメージ情報を抽出し、そこに含まれる文字が何であるかを判別する。このようにして得られた文字認識の結果は、認識文字情報として構文解析手段4に送られる。
【0019】
構文解析手段4は、認識文字情報を入力し、文字認識手段3によって文字認識された対象範囲の文字列より成る構文について、構文ルール情報記憶手段2に格納された構文ルールを用いてその文字認識項目との対応付けを行なう。このとき、文字列に関するルールや項目間位置関係ルール情報を用いて、対応付けの精度を上げる。
【0020】
このような構成の帳票認識装置の動作および帳票認識方法について説明する。
予め、文字認識情報記憶手段1には、対象の帳票の文字認識を行なうために必要な文字認識情報が格納される。同様に、構文ルール情報記憶手段2に、文字認識された文字列と文字認識項目との対応付けを行なうために必要な構文ルール情報が格納される。
【0021】
文字認識手段3は、対象となる帳票のイメージ情報を入力すると、文字認識情報記憶手段1に格納された文字認識情報を用いて文字認識を行なう。文字認識情報に含まれる対象範囲の位置を指定する位置情報に基づいて、対象範囲のイメージ情報を取り出し、文字認識辞書を参照して対象範囲の文字を特定する。このとき、文字種や字形などの文字情報が参照される。文字認識された認識文字情報は構文解析手段4に送られる。構文解析手段4は、認識文字情報を取得し、構文ルール情報記憶手段2に格納された構文ルール情報を用いて文字認識された対象範囲の文字列と文字認識項目との対応付けを行なう。対応付けは、登録された構文ルール情報のうち適用可能なルールを用いて、対象範囲の文字列に対応する文字認識項目を推定していく。このとき、例えば、文字認識項目の位置を示す座標、文字認識項目の特徴を表す桁数、あるいは他の文字認識項目との位置関係などを文字列ルールとして登録し、これらを用いて対応付けを行なう。
【0022】
このようにして、帳票の文字認識項目と文字認識された認識文字情報とが結び付けられて、帳票認識処理が終了する。
従来の定義体を用いた手法では、定義体によって定義された対象範囲の位置を指定する座標によって文字認識項目との対応付けが行なわれる。このため、全ての文字認識項目について座標の設定を行なわなければならなかった。例えば、類似する帳票であって印字される位置が若干異なる場合であっても、それぞれに定義体を設定しなければならなかった。本発明では、文字認識項目の特徴を表すルールによって、読み取られた認識文字情報と文字認識項目とを対応付けることができるため、特徴が同じ類似する帳票であれば、同一の構文ルール情報によって処理することが可能となる。このように、帳票ごとに定義体を作成する必要がないため、帳票の種類の追加や変更に容易に対応することができる。
【0023】
次に、本発明が適用される実施の形態について説明する。図2は、本発明の実施の形態の構成図である。
本発明に係る帳票認識装置100は、入力帳票300のイメージ情報を取得するイメージ読取部150、取得したイメージ情報の文字認識を行なう文字認識処理部130、認識された文字列の構文解析を行なう構文解析処理部140、解析された構文をチェックして確定させる項目確定処理部180および認識された結果を表示する認識結果表示部190を具備する。また、文字認識に用いる文字認識情報として、文字認識辞書を記憶する文字認識辞書データベース(以下、DBとする)111、文字認識を行なう範囲を指定する文字認識位置を記憶する文字認識位置テーブルDB112および文字データに関する文字認識カテゴリを記憶する文字認識カテゴリテーブルDB113を具備する。同様に、構文ルール情報として、文字認識項目を記憶する文字認識項目テーブルDB121、文字列に関する規定を記憶した文字列ルールテーブルDB122及び項目間の位置関係の規定を記憶した項目間位置関係テーブルDB123を備え、項目確定のためのチェックデータに関するデータチェック情報を記憶するデータチェックテーブルDB171を具備する。さらに、取得したイメージ情報を一時格納するイメージ格納メモリ161と、文字認識された結果を一時格納する認識結果格納メモリ162を具備する。
【0024】
文字認識辞書DB111に格納される文字認識辞書は、認識しようとしている文字との比較に用いる辞書データである。帳票の種類が限定される場合、その帳票で使用可能な文字のみが登録されていればよい。また、文字認識位置テーブルDB112に格納される文字認識位置テーブルは、イメージ情報上で文字認識を行なう箇所を、開始の座標と終了の座標の2点示される矩形で指定する。例えば、矩形の左上のX,Y座標と、右下のX,Y座標とを指定する。文字認識カテゴリテーブルDB113に格納される文字認識カテゴリテーブルは、文字認識位置テーブルで指定した矩形ごとに、文字認識を行なう際のカテゴリを指定する。カテゴリは、文字の特徴を表す情報で、認識される文字の文字種(数字、記号、英字など)や、フォント(ゴシック体、明朝体)などを表す。1つの文字認識領域で数字、記号、英字などを組み合わせて指定することもできる。さらに、1文字種ごとに認識結果として有効か無効かを指定することができる。例えば、記号としては、「*」のみが有効であり、他の記号と認識された場合は無効であるなどの指定が可能である。
【0025】
文字認識項目テーブルDB121に格納される文字認識項目テーブルは、文字認識対象の項目を指定するテーブルである。文字認識項目を数字などのIDに対応付けて、IDにて指定することもできる。文字列ルールテーブルDB122に格納される文字列ルールテーブルは、文字認識項目を表す文字列の特徴をルール化したもので、文字認識項目ごとに文字認識項目の桁数、カテゴリ、該当項目が印字される位置などを指定する。項目間位置関係テーブルDB123に格納される項目間位置関係テーブルは、文字認識項目が複数存在するとき、帳票上に並ぶ順などの項目間に位置関係を指定する。例えば、項目A、B、Cが存在するとき、帳票上には、A→B→Cの順に並ぶことがルール化されている。また、項目の並びは縦または横の指定が可能である。
【0026】
文字認識処理部130は、イメージ格納メモリ161に格納されたイメージ情報を取り出し、文字認識位置テーブルDB112から文字認識位置座標及び文字認識カテゴリテーブルDB113から文字認識する際のカテゴリ情報を取り出し、イメージ情報上で文字認識位置に該当する部分をカテゴリ情報に従って文字認識を行なう。このとき、文字認識辞書DB111が参照される。文字認識の結果である認識文字情報は、認識結果格納メモリ162に格納する。
【0027】
構文解析処理部140は、認識結果格納メモリ162に格納された認識文字情報を取り出し、文字認識項目テーブルDB121、文字列ルールテーブルDB122および項目間位置関係テーブルDB123を用いて、文字認識された文字列と文字認識項目とを対応付ける。このとき、1つの項目に複数の認識結果が対応する場合、対応する全てを候補としてあげる。
【0028】
イメージ読取部150は、イメージリーダ200が光学的手段を用いて生成した入力帳票300のイメージ情報を読み取り、イメージ格納メモリ161に格納する。
【0029】
イメージ格納メモリ161および認識結果格納メモリ162は、帳票認識装置100が生成する情報データを一時保存するための記憶手段である。イメージ格納メモリ161は、イメージ読取部150が取得した帳票のイメージ情報を格納する。また、認識結果格納メモリ162は、文字認識処理部130が文字認識を行なって生成された認識文字情報を格納する。
【0030】
データチェックテーブルDB171に格納されたデータチェックテーブルは、文字認識された文字列の確認のため照合する照合データの位置を含むデータチェック情報である。例えば、同一項目の内容を印字したエリアが帳票上の別の位置に存在する場合は、データチェック用としてその位置を指定する。
【0031】
項目確定処理部180は、帳票上に確認用として同一項目の内容が印字されている場合、データチェックテーブルDB171からデータチェック情報を取り出し、データチェック情報の指定するデータと文字認識情報とを照合することにより、文字認識および項目設定が正しいかどうかを確認する。また、1つの項目に複数の認識結果が対応付けられているような場合、最も確からしいものを選択し、対応を確定させる。
【0032】
認識結果表示部190は、認識結果を画面に表示してオペレータに通知する。必要であれば、オペレータがキーボードあるいはマウスにてデータの修正を行なえるようにする。また、文字認識結果をそのまま表示するより、日本語項目等に変換したほうがオペレータの視認性が高まる場合には、変換テーブルを設けて認識結果を変換してもよい。
【0033】
このような構成の帳票認識装置の動作について、マルチペイメントネットワーク(MulitiPayment Network:以下MPNとする)帳票の認識処理を行なう場合で説明する。MPNとは、諸税/公共料金の支払いにおいて、収納機関と金融機関をネットワークで結び、納付者はATM、電話、パソコンなどのチャネルで支払いができ、即時の消込み情報が収納機関に通知されるネットワークを指す。MPN帳票とは、この支払いで必要な情報が印字された帳票をいう。MPN帳票は、帳票設計上の規約に従って作成されており、決済するための情報が印字される領域および印字される文字の種類や項目の配置順など決められている。
【0034】
図3は、MPN帳票の一例である。図3の例のMPN帳票301では、文字認識領域310内に、決済するための情報として、「ご請求金額」欄311、「収納機関番号」欄312、「お客様番号」欄313、「確認番号」欄314などの項目が設けられている。また、帳票には、帳票を発行した収納機関が、発行した帳票による請求に対する支払いが行なわれたかを各社システムでチェック(消込み)するためのOCR文字列、あるいはコンビニエンスストアなどの店舗で支払いを行なうためのバーコードが印刷されているものもある。図3の例では、OCR文字列が文字認識領域310の下に設定されており、OCR文字列の所定の位置に「収納機関番号」確認用のチェックコード321と「ご請求金額」確認用のチェックコード322が印字されている。チェックコードには、対応する項目と同じデータが印字されている。これらの情報は、例えば、次のように規約化されている。
(1)「ご請求金額」は、設定可能な場所が規定されている。
(2)「収納機関番号」は、5桁固定で印字データの種類は規定されている。
(3)「収納機関番号」、「お客様番号」、「確認番号」の順番で設定される。
(4)「確認番号」は、4桁から6桁の数字で印字される。
(5)「ご請求金額」は、1番目のOCR文字列の決まった位置に同じデータが印字される。
【0035】
上記規約の(1)、(2)および(4)は、文字列に関する規約であり、規約はルール化されて、文字列ルールテーブルDB122に登録される。また、規約(3)は、項目間の位置関係に関する規約であり、規約はルール化されて、項目間位置関係テーブルDB123に登録される。さらに、(5)は、データチェック情報であり、データチェックテーブルDB171に登録される。
【0036】
ここで、このようなMPN帳票301について作成される文字認識情報と構文ルール情報およびデータチェック情報について説明する。
図4は、本発明の実施の形態における文字認識情報の一例を示した図である。
(A)は文字認識位置テーブル、(B)は文字認識カテゴリテーブルである。
【0037】
(A)文字認識位置テーブルは、文字認識を行なう対象範囲を左上と右下の2座標で表される矩形で指定している。図4の例では、4箇所の対象範囲を示す座標が登録されている。
【0038】
(B)文字認識カテゴリテーブルは、それぞれの対象範囲に印字される文字の特徴より指定される文字種やフォントなどの文字カテゴリが指定される。図4の例では、1は文字種が「数字」で、フォントは「OCR−B」であると指定されている。この指定は、いずれか一方でもよい。例えば、図3に示したMPN帳票301の文字認識領域310は、文字カテゴリとして、「数字と記号」が指定される。
【0039】
図5は、本発明の実施の形態における構文ルール情報の一例を示した図である。(C)は文字認識項目テーブル、(D)は文字列ルールテーブル、(E)は項目間位置関係テーブルである。
【0040】
(C)文字認識項目テーブルは、帳票上で文字認識を行なう文字認識項目が登録されている。図5の例では、文字認識項目とそのIDが登録されている。例えば、「ご請求金額」にはIDとして10が割り振られている。「収納機関番号」、「お客様番号」および「確認番号」にも同様にIDが割り振られて登録されている。
【0041】
(D)文字列ルールテーブルは、各文字認識項目に設定される文字列ルールが登録されている。図5の例では、「ご請求金額」は、設定される位置が決められており、その位置を指定する座標が登録されている。「収納機関番号」は、5桁固定で印字データの種類が規定されている。また、「確認番号」は、4から6桁に決められている。
【0042】
(E)項目間位置関係テーブルは、各文字認識項目と他の項目との位置関係が登録されている。図5の例では、「収納機関番号」、「お客様番号」および「確認番号」は、右から順に配置されることが示されている。
【0043】
データチェックは、ここではMPM帳票301のOCR文字列およびバーコードを用いて行なうとし、OCR文字列とバーコードの規定に基づいてデータチェック情報を生成する。例えば、OCR文字列の場合は、該当するのは何番目のOCR文字列か、何桁目か、右詰か左詰か、ゼロサプレスはあるかなどが指定される。また、バーコードの場合は、何番目のバーコードか、何桁目か、右詰か左詰か、ゼロサプレスはあるかなどが指定される。
【0044】
このようなMPM帳票301の文字認識処理の動作について説明する。
イメージ読取部150は、イメージリーダ200を用いてMPN帳票301の読み取りを行ない、イメージリーダ200によって生成されたイメージ情報を取り込み、イメージ格納メモリ161に格納する。
【0045】
文字認識処理部130は、イメージ格納メモリ161からイメージ情報を、文字認識位置テーブルDB112から文字認識位置座標を、文字認識カテゴリテーブルDB113から文字認識する際のカテゴリ情報を取り出し、イメージ上で文字認識位置座標に該当する部分をカテゴリ情報(ここでは、数字と記号とする)に従って文字認識する。文字認識された結果であるコードと位置座標から成る認識文字情報は認識結果格納メモリ162に格納される。
【0046】
図6は、本発明の実施の形態における認識文字情報を示した図である。図6の例では、文字認識領域310の範囲内の文字認識結果として、1に「ご請求金額」欄311の「9989」と、印字された位置を示す左上座標と右下座標が登録されている。同様に、2に「収納機関番号」欄312の「50003」、3に「お客様番号」欄313の「98−76543−21098−7」、4に「確認番号」欄314の「128891」が位置座標とともに登録されている。さらに、5に「ご使用月」欄の14と8が、6に「お支払期限」欄の14と10と11が登録されている。カテゴリ情報として数字と記号に限定されているため、数字と記号のみが文字認識される。
【0047】
続いて、構文解析処理部140は、文字認識項目テーブルの各項目と認識結果とを対応付ける処理を行なう。まず、認識結果格納メモリ162から認識文字情報である認識結果のコードと位置座標を1組ずつ取り出し、構文ルール情報を用いて対応する項目を推定する。このとき、1つの項目に複数の認識結果が対応する場合、対応する全てを候補としてあげる。
【0048】
例えば、1の認識文字情報であるコード「9989」と位置座標を文字列ルールテーブルと照合すると、「9989」は「ご請求金額」のルールとして設定された位置範囲と一致するので、「9989」は「ご請求金額」の候補とする。
【0049】
2の認識文字情報であるコード「50003」と位置座標を文字列ルールテーブルと照合すると、これは「収納機関番号」のルールである5桁と一致するので、「50003」は「収納機関番号」の候補とする。さらに、ここで収納機関番号の一覧を示すテーブルが登録されているとする。図7は、本発明の実施の形態における収納機関番号の一覧を示している。「収納機関番号」の候補となった場合、「50003」を収納機関番号の一覧と照合し、一致するものがあるかどうかを判定する。この場合、一致するのものがあるので、「収納機関番号」の候補を継続する。
【0050】
3の認識文字情報であるコード「98−76543−21098−7」と位置座標を文字列ルールテーブルと照合するが、一致するものはない。そこで、さらに、項目間位置関係テーブルを参照すると、「収納機関番号」の右には「お客様番号」が配置されることが規定されている。そこで、「98−76543−21098−7」は「お客様番号」の候補とする。
【0051】
4の認識文字情報であるコード「128891」と位置座標を文字列ルールテーブルと照合すると、これは「確認番号」のルールと一致するので、「128891」は「確認番号」の候補とする。
【0052】
5の認識文字情報であるコード「14と8」と位置座標および6の認識文字情報であるコード「14と10と11」と位置座標は、文字列ルールテーブルと照合しても該当するものがない。また、項目間位置関係テーブルを参照しても定義がないため、どの候補にも該当しない。
【0053】
ここまでの処理により、文字認識された文字列に対応する認識文字項目の候補が設定される。
さらに、項目確定処理部180では、構文ルール情報およびデータチェック情報とを用いて項目の確定を行なう。例えば、「ご請求金額」は、確認用データとして、1番目のOCR文字列の決まった位置に同じデータが印字される。そこで、データチェック情報を参照し、OCR文字列の固定場所のチェックコード322の値と、これまでの「ご請求金額」の候補である「9989」とを比較する。この場合、数値が一致するので、「9989」が「ご請求金額」であると確定させる。
【0054】
また、「収納機関番号」も同様に、チェックコードがOCR文字列の決まった位置に同じデータが印字されるので、OCR文字列の固定場所のチェックコード321とこれまでの「収納機関番号」の候補である「50003」とを比較する。この場合にも、数値が一致するので、「50003」が「収納機関番号」であることを確定させる。さらに、「収納機関番号」が確定したことにより、その右隣に順に並ぶ「お客様番号」と「確認番号」とを確定させる。
【0055】
以上のような手順により、「ご請求金額」、「収納機関番号」、「お客様番号」および「確認番号」が確定する。
上記の説明では、文字認識処理、構文解析処理および項目確定処理を帳票単位で順次行なうとしたが、文字認識領域単位で処理を順次行なうようにすることもできる。
【0056】
次に、本発明の帳票認識方法について説明する。図8は、本発明の実施の形態である帳票認識方法の手順を示したフローチャートである。図2と同じものには同じ番号を付し、説明は省略する。
【0057】
帳票のイメージ情報が生成され、処理が開始される。
[ステップS101] 文字認識位置テーブルDB112の文字認識位置情報を参照して、イメージ情報の指定座標(x、y)から文字列を読み込む。
【0058】
[ステップS102] 文字認識処理を行なう。文字認識カテゴリテーブルDB113および文字認識辞書DB111の情報を参照して、読み込まれた文字列の文字認識を行なう。文字認識されたコードと位置座標を認識文字情報として生成する。
【0059】
[ステップS103] 構文解析処理を行なう。認識文字情報を取り込み、文字認識項目テーブルDB121、文字列ルールテーブルDB122および項目間位置関係テーブルDB123の情報を参照して文字認識項目との対応付けを行なう。
【0060】
[ステップS104] 項目確定処理を行なう。ステップS103の処理により対応付けられた文字認識されたコードと文字認識項目との対応関係をデータチェックテーブルDB171の情報を用いて確認し、対応関係を確定させる。このとき、必要に応じて、項目間位置関係テーブルDB123および文字列ルールテーブルDB123の情報を参照する。ステップS103の処理により1つのコードに対して複数の文字認識項目が対応付けられた場合には、チェック処理を行なって最も確からしい項目を選択する。
【0061】
[ステップS105] 全体対象範囲の処理が終了したかどうかを判定する。終了している場合には処理を終了し、終了していない場合には、ステップS101に戻って、次の座標の文字列読み込みからの処理を行なう。
【0062】
このように、構文ルール情報やデータチェック情報を用いて文字認識項目を推定し、最も確からしい項目を選択するため、認識不能な項目を減らすことができる。例えば、文字認識処理の認識結果に認識できない文字が存在する場合であっても、適用可能なルールのみを適用して文字認識項目を推定し、項目を確定させることができる。
【0063】
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、帳票認識装置が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
【0064】
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
【0065】
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
【0066】
(付記1) 光学的に読み取った帳票のイメージ情報から所定の文字認識項目の文字認識を行なう帳票認識装置において、
前記帳票における文字認識の対象範囲の位置指定を含む文字認識情報を記憶する文字認識情報記憶手段と、
前記イメージ情報を取得し、前記文字認識情報に基づいて前記イメージ情報から前記文字認識の対象範囲の情報を抽出して文字認識を行なう文字認識手段と、
前記文字認識の対象範囲の文字列によって表される文字認識項目および前記対象範囲の文字列より成る構文についての規定を含む構文ルール情報を記憶する構文ルール情報記憶手段と、
前記構文ルール情報に基づいて前記文字認識手段によって認識された文字列より成る構文を解析し、前記文字認識項目との対応付けを行なう構文解析手段と、
を具備することを特徴とする帳票認識装置。
【0067】
(付記2) 前記文字認識情報記憶手段は、前記文字認識情報として前記文字認識の対象範囲にある文字を規定する文字認識カテゴリ情報を含み、
前記文字認識手段は、前記文字認識カテゴリ情報を用いて前記文字認識の対象範囲にある文字を特定することを特徴とする付記1記載の帳票認識装置。
【0068】
(付記3) 前記構文ルール情報記憶手段は、前記構文ルール情報として前記文字認識項目間の位置関係を規定する項目間位置関係ルールを含み、
前記構文解析手段は、前記項目間位置関係ルールに基づいて前記構文を解析し、前記文字認識項目との対応付けを行なうことを特徴とする付記1記載の帳票認識装置。
【0069】
(付記4) 前記構文解析手段は、前記構文ルール情報のうち適用可能なもののみを適用して前記文字認識項目との対応付けを行なうことを特徴とする付記1記載の帳票認識装置。
【0070】
(付記5) 前記文字認識項目ごとに前記文字認識手段により得られた前記文字認識結果と照合する照合データの位置を含むデータチェック情報を記憶するデータチェック情報記憶手段と、
前記データチェック情報を用いて前記文字認識手段により特定された前記文字認識結果を確認し、前記文字認識項目の前記文字認識の結果を確定する項目確定手段と、
を具備することを特徴とする付記1記載の帳票認識装置。
【0071】
(付記6) 光学的に読み取った帳票のイメージ情報から所定の文字認識項目の文字認識を行なう帳票認識方法において、
予め前記帳票における文字認識の対象範囲の位置指定を含む文字認識情報と、
前記文字認識の対象範囲の文字列によって表される文字認識項目および前記対象範囲の文字列より成る構文についての規定を含む構文ルール情報と、を記憶するステップと、
前記イメージ情報を取得し、前記文字認識情報に基づいて前記イメージ情報から前記文字認識の対象範囲の情報を抽出して文字認識を行なうステップと、
前記文字認識が行なわれた前記文字認識の対象範囲の文字列より成る構文を前記構文ルール情報に基づいて解析し、前記文字認識項目との対応付けを行なうステップと、
を具備することを特徴とする帳票認識方法。
【0072】
(付記7) コンピュータによって光学的に読み取った帳票のイメージ情報から所定の文字認識項目の文字認識を行なうためのプログラムであって、
コンピュータに、
予め前記帳票における文字認識の対象範囲の位置指定を含む文字認識情報と、前記文字認識の対象範囲の文字列によって表される文字認識項目および前記対象範囲の文字列より成る構文についての規定を含む構文ルール情報と、を記憶するステップと、
前記イメージ情報を取得し、前記文字認識情報に基づいて前記イメージ情報から前記文字認識の対象範囲の情報を抽出して文字認識を行なうステップと、
前記文字認識が行なわれた前記文字認識の対象範囲の文字列より成る構文を前記構文ルール情報に基づいて解析し、前記文字認識項目との対応付けを行なうステップと、
を実行させることを特徴とするプログラム。
【0073】
【発明の効果】
以上説明したように本発明では、帳票の対象範囲の文字認識に用いる文字認識情報と、構文ルール情報とを用いて所定の文字認識項目の文字認識を行なう。構文ルール情報と文字認識情報は、所定の記憶手段に格納されており、容易に変更が可能である。このため、読み取る帳票数が増える場合の情報変更にも容易に対応することができる。また、文字認識情報と構文ルール情報とは、定義体のように帳票ごとに用意する必要がない等の利点もある。
【図面の簡単な説明】
【図1】本発明の概要を示した構成図である。
【図2】本発明の実施の形態の構成図である。
【図3】MPN帳票の一例である。
【図4】本発明の実施の形態における文字認識情報の一例を示した図である。
【図5】本発明の実施の形態における構文ルール情報の一例を示した図である。
【図6】本発明の実施の形態における認識文字情報を示した図である。
【図7】本発明の実施の形態における収納機関番号の一覧を示している。
【図8】本発明の実施の形態である帳票認識方法の手順を示したフローチャートである。
【図9】帳票と帳票の特徴を示した定義体の一例を示した図である。
【符号の説明】
1 文字認識情報記憶手段
2 構文ルール情報記憶手段
3 文字認識手段
4 構文解析手段
100 帳票認識装置
111 文字認識辞書DB
112 文字認識位置テーブルDB
113 文字認識カテゴリテーブルDB
121 文字認識項目テーブルDB
122 文字列ルールテーブルDB
123 項目間位置関係テーブルDB
130 文字認識処理部
140 構文解析処理部
150 イメージ読取部
161 イメージ格納メモリ
162 認識結果格納メモリ
171 データチェックテーブルDB
180 項目確定処理部
190 認識結果表示部

Claims (2)

  1. 光学的に読み取った帳票のイメージ情報の文字認識を行なう帳票認識装置において、
    文字認識を行う対象範囲を表わす複数の位置座標を指定する文字認識位置テーブルと、前記対象範囲ごとに前記対象範囲の文字認識処理において文字認識の対象とする文字種を指定する文字認識カテゴリテーブルと、複数の文字認識対象の項目それぞれに対応付けて前記対象範囲内に印字された文字列の特徴を規定する文字列ルールテーブルと、前記複数の文字認識対象の項目のうちの1つの文字認識対象の項目を第1の項目とし、前記複数の文字認識対象の項目のうちの前記第1の項目以外の1つの文字認識対象の項目を第2の項目とし、前記第1の項目に対応する文字列の位置から見たときの前記第2の項目に対応する文字列の配置方向を規定する項目間位置関係テーブルと、を記憶する記憶手段と、
    前記イメージ情報を取得し、前記文字認識位置テーブルで指定された前記対象範囲を表わす複数の位置座標に基づいて前記対象範囲のイメージ情報を抽出し、前記対象範囲に対して前記文字認識カテゴリテーブルで指定された前記文字種を対象として文字認識を行ない、文字認識した認識文字列と、該認識文字列を検出した位置座標を取得する文字認識手段と、
    前記認識文字列及び該認識文字列の位置座標と、前記文字列ルールテーブルに規定される前記文字認識対象の項目に対応する文字列の特徴とを照合し、前記文字認識対象の項目に対応する文字列の特徴と一致した前記認識文字列を該文字認識対象の項目に対応付け、さらに、前記認識文字列の位置座標と前記項目間位置関係テーブルとを照合し、前記第1の項目に対応付けられた認識文字列の位置から見たときの前記第2の項目に対応する文字列の配置方向に、いずれの文字認識対象の項目にも対応付けられていない認識文字列が配置されている場合、該いずれの文字認識対象の項目にも対応付けられていない認識文字列を前記第2の項目に対応付ける、解析手段と、
    を具備することを特徴とする帳票認識装置。
  2. 光学的に読み取った帳票のイメージ情報の文字認識を行なう帳票認識方法において、
    文字認識を行う対象範囲を表わす複数の位置座標を指定する文字認識位置テーブルと、前記対象範囲ごとに前記対象範囲の文字認識処理において文字認識の対象とする文字種を指定する文字認識カテゴリテーブルと、複数の文字認識対象の項目それぞれに対応付けて前記対象範囲内に印字された文字列の特徴を規定する文字列ルールテーブルと、前記複数の文字認識対象の項目のうちの1つの文字認識対象の項目を第1の項目とし、前記複数の文字認識対象の項目のうちの前記第1の項目以外の1つの文字認識対象の項目を第2の項目とし、前記第1の項目に対応する文字列の位置から見たときの前記第2の項目に対応する文字列の配置方向を規定する項目間位置関係テーブルと、を記憶手段に記憶するステップと、
    前記イメージ情報を取得し、前記文字認識位置テーブルで指定された前記対象範囲を表わす複数の位置座標に基づいて前記対象範囲のイメージ情報を抽出し、前記対象範囲に対して前記文字認識カテゴリテーブルで指定された前記文字種を対象として文字認識を行ない、文字認識した認識文字列と、該認識文字列を検出した位置座標を取得するステップと、
    前記認識文字列及び該認識文字列の位置座標と、前記文字列ルールテーブルに規定される前記文字認識対象の項目に対応する文字列の特徴とを照合し、前記文字認識対象の項目に対応する文字列の特徴と一致した前記認識文字列を該文字認識対象の項目に対応付け、さらに、前記認識文字列の位置座標と前記項目間位置関係テーブルとを照合し、前記第1の項目に対応付けられた認識文字列の位置から見たときの前記第2の項目に対応する文字列の配置方向に、いずれの文字認識対象の項目にも対応付けられていない認識文字列が配置されている場合、該いずれの文字認識対象の項目にも対応付けられていない認識文字列を前記第2の項目に対応付けるステップと、
    を具備することを特徴とする帳票認識方法。
JP2002369126A 2002-12-20 2002-12-20 帳票認識装置および帳票認識方法 Expired - Fee Related JP4566510B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002369126A JP4566510B2 (ja) 2002-12-20 2002-12-20 帳票認識装置および帳票認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002369126A JP4566510B2 (ja) 2002-12-20 2002-12-20 帳票認識装置および帳票認識方法

Publications (2)

Publication Number Publication Date
JP2004199529A JP2004199529A (ja) 2004-07-15
JP4566510B2 true JP4566510B2 (ja) 2010-10-20

Family

ID=32765441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002369126A Expired - Fee Related JP4566510B2 (ja) 2002-12-20 2002-12-20 帳票認識装置および帳票認識方法

Country Status (1)

Country Link
JP (1) JP4566510B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11699296B2 (en) 2020-12-09 2023-07-11 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006085582A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP4871889B2 (ja) * 2008-01-18 2012-02-08 株式会社日立ソリューションズ 表認識方法及び表認識装置
JP5566971B2 (ja) * 2011-07-29 2014-08-06 富士通フロンテック株式会社 情報処理プログラム、情報処理装置および文字認識方法
JP2014021658A (ja) * 2012-07-17 2014-02-03 Mitsubishi Electric Corp 台帳管理システム
JP6910273B2 (ja) * 2017-11-17 2021-07-28 グローリー株式会社 帳票画像処理装置、帳票画像処理システム、帳票画像処理方法およびプログラム
JP2022095391A (ja) 2020-12-16 2022-06-28 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11699296B2 (en) 2020-12-09 2023-07-11 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium

Also Published As

Publication number Publication date
JP2004199529A (ja) 2004-07-15

Similar Documents

Publication Publication Date Title
JP3469345B2 (ja) 画像のファイリング装置及びファイリング方法
CN101441714B (zh) 帐票处理方法与帐票处理系统
US6501864B1 (en) Data medium handling apparatus and data medium handling method
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
EP0565911A2 (en) Data processing system and method for sequentially repairing character recognition errors for scanned images of document forms
JP4078009B2 (ja) 帳票における文字記録領域の検出装置、帳票における文字記録領域の検出方法、記憶媒体及び帳票フォーマット作成装置
JP4977368B2 (ja) 媒体処理装置,媒体処理方法,媒体処理システム,及び媒体処理プログラムを記録したコンピュータ読取可能な記録媒体
JP3422924B2 (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
EP1946233A2 (en) Form data extraction without customization
US20070201768A1 (en) Method And System For Acquiring Data From Machine-Readable Documents
JP4566510B2 (ja) 帳票認識装置および帳票認識方法
JPH0581473A (ja) プログラムの作成方法
JP2006065477A (ja) 文字認識装置
JP2020154962A (ja) 情報処理装置及びプログラム
JP4356908B2 (ja) 財務諸表自動入力装置
JP5481965B2 (ja) 情報処理装置及び情報処理プログラム
JP3467437B2 (ja) 文字認識装置及びその方法とプログラム記録媒体
JP3946043B2 (ja) 帳票識別装置及び識別方法
JP3732254B2 (ja) フォーマット情報生成方法及びフォーマット情報生成装置
JP2002032704A (ja) 帳票処理システム、帳票処理方法、記憶媒体、帳票
JP2002358521A (ja) 帳票フォーマット登録・識別装置、方法及びプログラム
JP4418823B2 (ja) 帳票識別装置及びその識別方法
JP3000349B2 (ja) キー入力編集方法及び編集装置
JP2010152464A (ja) 文字認識装置、文字認識装置の確認画面生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080925

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20081015

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20081107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100708

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100804

R150 Certificate of patent or registration of utility model

Ref document number: 4566510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees