JP2001312694A - 多種類の帳票認識方法および装置 - Google Patents
多種類の帳票認識方法および装置Info
- Publication number
- JP2001312694A JP2001312694A JP2000132272A JP2000132272A JP2001312694A JP 2001312694 A JP2001312694 A JP 2001312694A JP 2000132272 A JP2000132272 A JP 2000132272A JP 2000132272 A JP2000132272 A JP 2000132272A JP 2001312694 A JP2001312694 A JP 2001312694A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- recognition
- information
- slip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】
【課題】大量の帳票定義対象から帳票種類をすばやく特
定し、且つフォーマット情報に影響を受けることなく、
処理を行えるようにする。 【解決手段】帳票上の情報の中で最も帳票自身の固有性
を示す文字列である作成元あるいは発行元名称の文字情
報を帳票定義体テーブル2−2,2−3,2−4の第一
候補として設定することで、入力帳票の文字認識結果と
最小項目数の文字列定義体の照合処理だけで帳票を識別
する。なお、帳票nの場合、テーブル2−4の第一候補
文字列で一致、第二候補文字列でも一致し、順次照合を
繰り返す。文字認識結果2−1には、第一〜第五候補ま
で全て一致したことを示している。この文字列の簡素化
した照合アルゴリズムにより、処理効率の良い帳票認識
処理が実現される。
定し、且つフォーマット情報に影響を受けることなく、
処理を行えるようにする。 【解決手段】帳票上の情報の中で最も帳票自身の固有性
を示す文字列である作成元あるいは発行元名称の文字情
報を帳票定義体テーブル2−2,2−3,2−4の第一
候補として設定することで、入力帳票の文字認識結果と
最小項目数の文字列定義体の照合処理だけで帳票を識別
する。なお、帳票nの場合、テーブル2−4の第一候補
文字列で一致、第二候補文字列でも一致し、順次照合を
繰り返す。文字認識結果2−1には、第一〜第五候補ま
で全て一致したことを示している。この文字列の簡素化
した照合アルゴリズムにより、処理効率の良い帳票認識
処理が実現される。
Description
【0001】
【発明の属する技術分野】本発明は、帳票のイメージデ
ータより文字認識した結果と予め登録しておく文字列定
義情報より帳票を特定する帳票認識方法および装置に関
し、特に、イメージスキャナ等で取得された帳票イメー
ジに対して、多種のレイアウトが混在した不特定多数の
帳票に対して、できるだけ短時間かつ高精度に種別を特
定することが可能な多種類の帳票認識方法および装置に
関する。
ータより文字認識した結果と予め登録しておく文字列定
義情報より帳票を特定する帳票認識方法および装置に関
し、特に、イメージスキャナ等で取得された帳票イメー
ジに対して、多種のレイアウトが混在した不特定多数の
帳票に対して、できるだけ短時間かつ高精度に種別を特
定することが可能な多種類の帳票認識方法および装置に
関する。
【0002】
【従来の技術】従来、例えば、銀行等の金融機関に公共
料金や税金等を納付する場合、付近の営業所のATM等
の自動納付装置で納付できれば極めて便利であるにもか
かわらず、納付書のフォーマットがそれぞれ異なるた
め、ATMが帳票を認識できず、自動納付することが不
可能であった。その結果、必ず金融機関の窓口に行った
納付しなければならなかった。一般に、公共料金の納付
書のフォーマットの種類だけでも6万〜7万種類存在す
ると言われている。これらのフォーマットを持つ帳票の
種別を識別して特定するときには、帳票識別ソフトウェ
アにより帳票の種別を特定していた。その際に、バーコ
ードや、数値で示される文字を帳票の固定位置に印刷し
て、帳票を識別するための固定フォーマット(帳票I
D)として使用したり、あるいは帳票上の特定罫線(線
分)をパターンマッチングの情報として使用してきた
が、前記情報は帳票識別ソフトウェアのプログラムコー
ド自体に処理条件として記述していた。また、多種類の
登録帳票の中からイメージ入力された帳票の文字認識を
行った後、文字情報で全定義体項目と照合し、最も確か
らしい帳票を選出する方法がある。公共料金の納付書以
外の帳票として、医院によるカルテの認識特定、事務所
や会社による伝票の認識特定や整理等においても、同じ
ように認識ソフトウェアにより認識していた。
料金や税金等を納付する場合、付近の営業所のATM等
の自動納付装置で納付できれば極めて便利であるにもか
かわらず、納付書のフォーマットがそれぞれ異なるた
め、ATMが帳票を認識できず、自動納付することが不
可能であった。その結果、必ず金融機関の窓口に行った
納付しなければならなかった。一般に、公共料金の納付
書のフォーマットの種類だけでも6万〜7万種類存在す
ると言われている。これらのフォーマットを持つ帳票の
種別を識別して特定するときには、帳票識別ソフトウェ
アにより帳票の種別を特定していた。その際に、バーコ
ードや、数値で示される文字を帳票の固定位置に印刷し
て、帳票を識別するための固定フォーマット(帳票I
D)として使用したり、あるいは帳票上の特定罫線(線
分)をパターンマッチングの情報として使用してきた
が、前記情報は帳票識別ソフトウェアのプログラムコー
ド自体に処理条件として記述していた。また、多種類の
登録帳票の中からイメージ入力された帳票の文字認識を
行った後、文字情報で全定義体項目と照合し、最も確か
らしい帳票を選出する方法がある。公共料金の納付書以
外の帳票として、医院によるカルテの認識特定、事務所
や会社による伝票の認識特定や整理等においても、同じ
ように認識ソフトウェアにより認識していた。
【0003】ところで、レイアウトパターンを持つ帳票
をシステムに導入する場合や、特定罫線(線分)をパタ
ーンマッチング情報として使用する場合には、最適な帳
票認識手順を求めるために、例えば東京電力、関西電
力、中部ガス、水道局等では、料金納付書のフォーマッ
トの様式がそれぞれ異なっており、また何年か使用した
後、ある年からそのレイアウトパターンや罫線が変更さ
れる場合があり、その都度、認識ソフトウェアを変更す
る必要があった。そこで、これに対する方法として、例
えば、特願2000−046998号明細書および図面
に記載の帳票認識方法では、新規のレイアウトを持つ帳
票が追加されても、途中でフォーマットや罫線が変更さ
れても、短時間かつ高精度で帳票の種別を特定すること
ができるように、スクリプトファイルに帳票定義ファイ
ルの処理順序を記述しておき、このスクリプトファイル
に記述した順序に従ってイメージデータと帳票定義ファ
イルとを照合するようにしたものがある。ソフトウェア
を変更するよりも、スクリプトファイルの中の記述を変
更する方が極めて簡単であることに着目している。
をシステムに導入する場合や、特定罫線(線分)をパタ
ーンマッチング情報として使用する場合には、最適な帳
票認識手順を求めるために、例えば東京電力、関西電
力、中部ガス、水道局等では、料金納付書のフォーマッ
トの様式がそれぞれ異なっており、また何年か使用した
後、ある年からそのレイアウトパターンや罫線が変更さ
れる場合があり、その都度、認識ソフトウェアを変更す
る必要があった。そこで、これに対する方法として、例
えば、特願2000−046998号明細書および図面
に記載の帳票認識方法では、新規のレイアウトを持つ帳
票が追加されても、途中でフォーマットや罫線が変更さ
れても、短時間かつ高精度で帳票の種別を特定すること
ができるように、スクリプトファイルに帳票定義ファイ
ルの処理順序を記述しておき、このスクリプトファイル
に記述した順序に従ってイメージデータと帳票定義ファ
イルとを照合するようにしたものがある。ソフトウェア
を変更するよりも、スクリプトファイルの中の記述を変
更する方が極めて簡単であることに着目している。
【0004】
【発明が解決しようとする課題】このように、従来の帳
票認識方法として、多種のレイアウトや罫線が混在する
帳票の認識を行う場合、帳票認識の処理時間を短縮す
る、あるいは認識の精度を向上するため、バーコード
や、数値で示される文字を帳票の固定位置に印刷して、
帳票を識別するための固定フォーマット(帳票ID)と
して使用したり、あるいは帳票上の特定罫線(線分)を
パターンマッチングの情報として使用する方法が用いら
れていた。また、認識ソフトウェアの代りにスクリプト
ファイルを用いる方法も提案されていた。しかしなが
ら、いずれの方法も認識特定するまでに長い時間がかか
るという問題があった。
票認識方法として、多種のレイアウトや罫線が混在する
帳票の認識を行う場合、帳票認識の処理時間を短縮す
る、あるいは認識の精度を向上するため、バーコード
や、数値で示される文字を帳票の固定位置に印刷して、
帳票を識別するための固定フォーマット(帳票ID)と
して使用したり、あるいは帳票上の特定罫線(線分)を
パターンマッチングの情報として使用する方法が用いら
れていた。また、認識ソフトウェアの代りにスクリプト
ファイルを用いる方法も提案されていた。しかしなが
ら、いずれの方法も認識特定するまでに長い時間がかか
るという問題があった。
【0005】そこで、本発明の目的は、これら従来の問
題を解決し、多種多様な帳票を短時間に大量に処理しな
ければならない場合、またフォーマット情報が変更され
た場合、それらに影響を受けることなく、高精度で帳票
認識することができる多種類の帳票認識方法および装置
を提供することにある。
題を解決し、多種多様な帳票を短時間に大量に処理しな
ければならない場合、またフォーマット情報が変更され
た場合、それらに影響を受けることなく、高精度で帳票
認識することができる多種類の帳票認識方法および装置
を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明による多種類の帳票認識方法は、予め帳票定
義体テーブル上の第一候補に、帳票上の情報の中で最も
帳票自体の固有性を示す情報である作成元あるいは発行
元などの文字情報を登録して、第一候補を先ず照合し、
それでも重複している場合には、第2候補の帳票種別を
設定しておき、第二候補を照合。なお、認識方式の用途
により、物理定義体テーブル(罫線や地域、時期等の属
性を登録)との照合処理を文字列定義体テーブルとの照
合処理と並行して、あるいは前/後の段階に配置するこ
とも可能である。なお、文字列定義体テーブルの第一、
第二候補の照合、さらに物理定義テーブルとの照合の間
で、1つでも一致したならば、その時点で認識結果を出
力すること、および失敗に終った場合には、その内容で
帳票定義体を生成して次回の認識に役立てることも特徴
としている。このように、最小のテーブル項目数に対し
て入力帳票の文字認識結果との照合処理を行うことで、
従来の照合方式の全数マッチング方式に比べて、定義対
象帳票の自由度を残したまま処理効率の良い判別方法を
実現する。また、作成元や種別名称など最小構成の文字
認識により帳票識別を行うため、フォーマットが定期的
に変更される帳票に対しても影響を受け難く、また、定
義項目を最小限に抑えているため定義体の管理・保守性
を高めることができる。
め、本発明による多種類の帳票認識方法は、予め帳票定
義体テーブル上の第一候補に、帳票上の情報の中で最も
帳票自体の固有性を示す情報である作成元あるいは発行
元などの文字情報を登録して、第一候補を先ず照合し、
それでも重複している場合には、第2候補の帳票種別を
設定しておき、第二候補を照合。なお、認識方式の用途
により、物理定義体テーブル(罫線や地域、時期等の属
性を登録)との照合処理を文字列定義体テーブルとの照
合処理と並行して、あるいは前/後の段階に配置するこ
とも可能である。なお、文字列定義体テーブルの第一、
第二候補の照合、さらに物理定義テーブルとの照合の間
で、1つでも一致したならば、その時点で認識結果を出
力すること、および失敗に終った場合には、その内容で
帳票定義体を生成して次回の認識に役立てることも特徴
としている。このように、最小のテーブル項目数に対し
て入力帳票の文字認識結果との照合処理を行うことで、
従来の照合方式の全数マッチング方式に比べて、定義対
象帳票の自由度を残したまま処理効率の良い判別方法を
実現する。また、作成元や種別名称など最小構成の文字
認識により帳票識別を行うため、フォーマットが定期的
に変更される帳票に対しても影響を受け難く、また、定
義項目を最小限に抑えているため定義体の管理・保守性
を高めることができる。
【0007】本発明の原理を説明すると、帳票の特徴点
があらかじめ予測できる帳票をグループ化できるものは
フォーマット認識で帳票を特定できるが、膨大な種類の
帳票を対象とする帳票認識方法としては全てを体系化で
きず、定義対象として自由度の高い帳票認識方法が必要
となる。この場合、帳票を特定することと自由度が高い
方法を実現することとは相反する関係に有り、また自由
度を高めるほど処理時間を要することになるため、目的
によって手法を検討し、処理効果を上げる必要がある。
銀行業務を想定した場合、取扱われる帳票は種類が非常
に多く、同じような目的の帳票でも異なったフォーマッ
トがあり、また、帳票名称がまったく同じでフォーマッ
トの違うものも存在する。しかし、そのような多種多様
な帳票を短時間で大量に処理しなければならない業務形
態に適応する場合には、フォーマット情報に影響を受け
難く、大量の帳票定義体から帳票種類を素速く特定する
方法が必要となる。そこで、本発明においては、入力さ
れた帳票イメージデータから特に帳票発行元、帳票の種
別名、その他の名称等、第一、第二、第三の候補として
順次文字列を登録した文字定義体テーブルを、また罫線
情報等のフォーマットや地域、時期属性等の特質を登録
した物理定義体テーブルを作成し、一方/両方の照合処
理を行い、どの候補でも、またどの段階でも一致した時
点で結果を出力するようにしている。これにより、大量
の定義体が存在する場合でも、効率よく帳票認識を行え
るようにした。
があらかじめ予測できる帳票をグループ化できるものは
フォーマット認識で帳票を特定できるが、膨大な種類の
帳票を対象とする帳票認識方法としては全てを体系化で
きず、定義対象として自由度の高い帳票認識方法が必要
となる。この場合、帳票を特定することと自由度が高い
方法を実現することとは相反する関係に有り、また自由
度を高めるほど処理時間を要することになるため、目的
によって手法を検討し、処理効果を上げる必要がある。
銀行業務を想定した場合、取扱われる帳票は種類が非常
に多く、同じような目的の帳票でも異なったフォーマッ
トがあり、また、帳票名称がまったく同じでフォーマッ
トの違うものも存在する。しかし、そのような多種多様
な帳票を短時間で大量に処理しなければならない業務形
態に適応する場合には、フォーマット情報に影響を受け
難く、大量の帳票定義体から帳票種類を素速く特定する
方法が必要となる。そこで、本発明においては、入力さ
れた帳票イメージデータから特に帳票発行元、帳票の種
別名、その他の名称等、第一、第二、第三の候補として
順次文字列を登録した文字定義体テーブルを、また罫線
情報等のフォーマットや地域、時期属性等の特質を登録
した物理定義体テーブルを作成し、一方/両方の照合処
理を行い、どの候補でも、またどの段階でも一致した時
点で結果を出力するようにしている。これにより、大量
の定義体が存在する場合でも、効率よく帳票認識を行え
るようにした。
【0008】
【発明の実施の形態】以下、本発明の実施例を、図面に
より詳細に説明する。図4は、本発明の一実施例を示す
多種類の帳票認識装置のブロック図、図2は、本発明に
おける帳票定義体と入力帳票の文字認識結果の照合処理
を示す説明図である。図4において、4−1は窓口業務
における非接触スタンド型イメージスキャナあるいは自
動機等では内蔵のスキャナ等、4Aはコンピュータ、4
Bはメモリである。4−2はスキャナ4−1で読み取ら
れたイメージデータを入力して2値化処理等のイメージ
解析を行う前処理部、4−4は帳票サイズや罫線等の物
理特徴を抽出して、予め登録された物理定義体テーブ
ル、4−3は入力されたイメージデータをこの物理定義
体テーブル4−4と比較照合し、第1段階の絞り込みを
行う物理的特徴照合処理部、4−6は文字認識に必要な
基準となる辞書、4−5は入力されたイメージデータか
ら一部ないし全ての文字データを切り出し、辞書4−6
を参照して文字認識を行う文字認識処理部、4−8は帳
票作成元を示す文字列を抽出して、予め登録された文字
列定義体テーブル、4−7は文字認識された一部ないし
全ての文字データと文字列定義体テーブル4−8と比較
照合する文字列照合処理部、4−10は一致したときに
帳票の名称を出力するか、不一致のときに照合結果を表
示する表示出力部、4−9はプリント出力部である。な
お、簡単な帳票認識処理の場合には、物理定義体テーブ
ル4−4および物理的特徴照合処理部4−3を省略する
ことができる(破線参照)。この場合には、前処理部4
−2のイメージデータ出力を文字認識処理部4−5に直
接入力させる。
より詳細に説明する。図4は、本発明の一実施例を示す
多種類の帳票認識装置のブロック図、図2は、本発明に
おける帳票定義体と入力帳票の文字認識結果の照合処理
を示す説明図である。図4において、4−1は窓口業務
における非接触スタンド型イメージスキャナあるいは自
動機等では内蔵のスキャナ等、4Aはコンピュータ、4
Bはメモリである。4−2はスキャナ4−1で読み取ら
れたイメージデータを入力して2値化処理等のイメージ
解析を行う前処理部、4−4は帳票サイズや罫線等の物
理特徴を抽出して、予め登録された物理定義体テーブ
ル、4−3は入力されたイメージデータをこの物理定義
体テーブル4−4と比較照合し、第1段階の絞り込みを
行う物理的特徴照合処理部、4−6は文字認識に必要な
基準となる辞書、4−5は入力されたイメージデータか
ら一部ないし全ての文字データを切り出し、辞書4−6
を参照して文字認識を行う文字認識処理部、4−8は帳
票作成元を示す文字列を抽出して、予め登録された文字
列定義体テーブル、4−7は文字認識された一部ないし
全ての文字データと文字列定義体テーブル4−8と比較
照合する文字列照合処理部、4−10は一致したときに
帳票の名称を出力するか、不一致のときに照合結果を表
示する表示出力部、4−9はプリント出力部である。な
お、簡単な帳票認識処理の場合には、物理定義体テーブ
ル4−4および物理的特徴照合処理部4−3を省略する
ことができる(破線参照)。この場合には、前処理部4
−2のイメージデータ出力を文字認識処理部4−5に直
接入力させる。
【0009】図4に示した文字列定義体テーブル4−8
は、図2(f)に示すテーブル2−2,2−3,2−4
に相当する。テーブル2−2では、候補1として○○電
力、候補2として・・・と順次登録されており、テーブ
ル2−3では、候補1として△△ガス、候補2として・
・・・と順次登録されており、テーブル2−4では、候
補1として××納税署、候補2として自動車税納付書、
候補3として・・・と順次登録されている。これらの文
字列定義体テーブル4−8に対して、(b)に示す帳票
Aが入力された場合には、CPUにより、入力イメージ
がA4サイズ、B5サイズ、縮/横置き等により文字認
識したいイメージに対して、全面認識処理を一律に行
い、文字認識結果テーブルに帳票の左上、右下、大きい
文字などの特徴的なものを優先的(ヒット率の高いもの
として)に捉えて、候補文字の先頭に位置付けた文字列
定義体テーブルを作成しておき、全面処理の結果とこの
テーブルの最優先のものから順次照合して一致するか否
かを判定する。右下の「○○電力」が帳票発行元として
テーブル2−2の候補1と一致するので、その時点で帳
票Aであることが特定できる。次に、(c)に示す帳票
Bが入力された場合には、左上の「△△ガス」が帳票種
別名としてテーブル2−3の候補1と一致するので、そ
の時点で帳票Bであることが特定できる。次に、(n)
に示す帳票nが入力された場合には、左上の「自動車税
納付書」および右下の「xx納税署」がそれぞれテーブ
ル2−4の候補1および候補2と一致するので、その時
点で帳票nであることが特定できる。なお、左上および
右下の文字列がテーブルと一致しないときには、帳票上
の全ての文字列が順次切り出され、比較される。図2
(e)の2−1は、(a)の入力帳票に対する文字認識
結果を示す図である。全面イメージ文字認識結果に対し
て、次に(f)結果の候補1から水平方向にマッチング
するか否かを判定していく。なお、物理定義体テーブル
は、特に図2には示されていないが、例えば、帳票左上
の角からの各枠欄へのサイズや色やその他の特徴点が登
録されている。
は、図2(f)に示すテーブル2−2,2−3,2−4
に相当する。テーブル2−2では、候補1として○○電
力、候補2として・・・と順次登録されており、テーブ
ル2−3では、候補1として△△ガス、候補2として・
・・・と順次登録されており、テーブル2−4では、候
補1として××納税署、候補2として自動車税納付書、
候補3として・・・と順次登録されている。これらの文
字列定義体テーブル4−8に対して、(b)に示す帳票
Aが入力された場合には、CPUにより、入力イメージ
がA4サイズ、B5サイズ、縮/横置き等により文字認
識したいイメージに対して、全面認識処理を一律に行
い、文字認識結果テーブルに帳票の左上、右下、大きい
文字などの特徴的なものを優先的(ヒット率の高いもの
として)に捉えて、候補文字の先頭に位置付けた文字列
定義体テーブルを作成しておき、全面処理の結果とこの
テーブルの最優先のものから順次照合して一致するか否
かを判定する。右下の「○○電力」が帳票発行元として
テーブル2−2の候補1と一致するので、その時点で帳
票Aであることが特定できる。次に、(c)に示す帳票
Bが入力された場合には、左上の「△△ガス」が帳票種
別名としてテーブル2−3の候補1と一致するので、そ
の時点で帳票Bであることが特定できる。次に、(n)
に示す帳票nが入力された場合には、左上の「自動車税
納付書」および右下の「xx納税署」がそれぞれテーブ
ル2−4の候補1および候補2と一致するので、その時
点で帳票nであることが特定できる。なお、左上および
右下の文字列がテーブルと一致しないときには、帳票上
の全ての文字列が順次切り出され、比較される。図2
(e)の2−1は、(a)の入力帳票に対する文字認識
結果を示す図である。全面イメージ文字認識結果に対し
て、次に(f)結果の候補1から水平方向にマッチング
するか否かを判定していく。なお、物理定義体テーブル
は、特に図2には示されていないが、例えば、帳票左上
の角からの各枠欄へのサイズや色やその他の特徴点が登
録されている。
【0010】(第1の実施例)図1は、本発明の第1の
実施例を示す多種類の帳票認識方法の動作フローチャー
トであり、第1の実施例は、帳票の語数があまり多くな
い場合の処理に適しており、例えば医院のカルテの認
識、注文伝票の認識等の処理に好適である。まず、事前
準備として、帳票認識の対象となるすべての帳票上に印
刷されている情報で、且つ、帳票自体の固有性を強く示
している作成元あるいは発行元の名称を、それぞれ文字
列定義体として予め登録しておく(ステップ1−1)。
この文字列定義体は入力される帳票の文字認識結果と照
合を行うため、メモリ上にロードされ(ステップ1−
2)、文字列定義体テーブル(文字認識処理テーブル)と
して展開される(ステップ1−3)。文字列定義体テー
ブルは、第一候補に帳票上の情報で最も個別性が高い情
報である作成元が設定され(図2(f)参照)、それで
も重複している場合には、第2候補として帳票種別など
を文字列定義体テーブルに設定することで、照合対象を
最小項目数に抑えることができる。また、作成元や種別
名称など最小構成の文字認識により帳票識別を行うた
め、帳票フォーマットの変更に影響を受け難く、また、
変更要素を最小限に抑えているため定義体の保守性を高
めることができる。
実施例を示す多種類の帳票認識方法の動作フローチャー
トであり、第1の実施例は、帳票の語数があまり多くな
い場合の処理に適しており、例えば医院のカルテの認
識、注文伝票の認識等の処理に好適である。まず、事前
準備として、帳票認識の対象となるすべての帳票上に印
刷されている情報で、且つ、帳票自体の固有性を強く示
している作成元あるいは発行元の名称を、それぞれ文字
列定義体として予め登録しておく(ステップ1−1)。
この文字列定義体は入力される帳票の文字認識結果と照
合を行うため、メモリ上にロードされ(ステップ1−
2)、文字列定義体テーブル(文字認識処理テーブル)と
して展開される(ステップ1−3)。文字列定義体テー
ブルは、第一候補に帳票上の情報で最も個別性が高い情
報である作成元が設定され(図2(f)参照)、それで
も重複している場合には、第2候補として帳票種別など
を文字列定義体テーブルに設定することで、照合対象を
最小項目数に抑えることができる。また、作成元や種別
名称など最小構成の文字認識により帳票識別を行うた
め、帳票フォーマットの変更に影響を受け難く、また、
変更要素を最小限に抑えているため定義体の保守性を高
めることができる。
【0011】次に、帳票認識の対象となる帳票をイメー
ジ入力装置で入力する(ステップ1−4)。入力されたイ
メージは、前処理部において文字認識のために2値化な
ど前処理及び帳票上の文字列の位置などを検出する(ス
テップ1−5)、続いて帳票イメージデータから全ての
文字認識を行い(ステップ1−6)、その結果の文字列を
全て照合処理に渡す(ステップ1−7)。照合処理にお
いては、事前にメモリ内に展開されている文字認識処理
テーブルとの照合になるが、最も確からしい確率で帳票
定義全体をマッチング処理する方法と異なり、図2
(a)〜(f)で示されるように、文字列定義体テーブ
ルに設定されている照合対象帳票の中から一意的に判別
できる最小文字列構成(2−2)〜(2−4)と照合処
理を行い(ステップ1−7)、展開されている入力帳票の
文字認識結果(2−1)の照合処理において、 (当該帳票の定義体テーブルの文字列) < (文字認識
結果の文字列) の不等式が成立した段階で帳票認識処理を終了し、特定
した帳票名称を出力する(ステップ1−8)。本実施例で
は、定義体テーブルの母数が増加するに従い、文字定義
体テーブル全項目のマッチングよりも処理効率を高める
ことができる。
ジ入力装置で入力する(ステップ1−4)。入力されたイ
メージは、前処理部において文字認識のために2値化な
ど前処理及び帳票上の文字列の位置などを検出する(ス
テップ1−5)、続いて帳票イメージデータから全ての
文字認識を行い(ステップ1−6)、その結果の文字列を
全て照合処理に渡す(ステップ1−7)。照合処理にお
いては、事前にメモリ内に展開されている文字認識処理
テーブルとの照合になるが、最も確からしい確率で帳票
定義全体をマッチング処理する方法と異なり、図2
(a)〜(f)で示されるように、文字列定義体テーブ
ルに設定されている照合対象帳票の中から一意的に判別
できる最小文字列構成(2−2)〜(2−4)と照合処
理を行い(ステップ1−7)、展開されている入力帳票の
文字認識結果(2−1)の照合処理において、 (当該帳票の定義体テーブルの文字列) < (文字認識
結果の文字列) の不等式が成立した段階で帳票認識処理を終了し、特定
した帳票名称を出力する(ステップ1−8)。本実施例で
は、定義体テーブルの母数が増加するに従い、文字定義
体テーブル全項目のマッチングよりも処理効率を高める
ことができる。
【0012】(第2の実施例)図3は、本発明の第2の
実施例を示す多種類の帳票認識方法の動作フローチャー
トである。第2の実施例は、帳票の語数が多くて、フォ
ーマットがときどき変更されるような場合の処理に対し
て適しており、例えば金融機関のATM等の帳票認識処
理に好適である。銀行業務の取引きで使用する帳票は、
営業店に設置されている自行で作成する制定帳票以外に
税金振込票や公共料金支払書など料金納付先が作成する
千差万別の非制定帳票が数万種類も存在する。そこで、
銀行業務に本実施例の方法を適用し、定義対象帳票の制
限をできるだけ緩和し、且つ、効率よく処理する。第1
の実施例と同様に、まず帳票定義体テーブルに登録する
(ステップ3−1)。この場合には、図2に示すようにn
種類の登録帳票に対して一意的に決まる情報を持たせる
ため、帳票作成元を示す文字列を第一候補に設定し、作
成元が重複する定義体には帳票種別文字列などを最小限
度の情報を第二候補〜第m候補として追加定義する。ま
た、帳票サイズや線分(罫線)本数、取扱い地域や取扱い
時期の制限があるものを付加情報として登録する。次
に、定義体テーブルをメモリに展開する前に付加情報よ
り地域性や時期的な情報を抽出し(ステップ3−2)、
対象帳票に当てはまらないものは定義体テーブルより除
外し、過去の照合率の高い順番にメモリに展開する(ス
テップ3−3)。次にサイズ、線分数などの物理定義体
テーブルを生成し(ステップ3−4)、前述の第1の実
施例と同じように文字定義体テーブルを生成する(ステ
ップ3−5)。ここまでの事前準備を終了した後に、本
実施例の処理方法は、それ以降に入力される取扱い帳票
イメージデータの帳票認識を行う。
実施例を示す多種類の帳票認識方法の動作フローチャー
トである。第2の実施例は、帳票の語数が多くて、フォ
ーマットがときどき変更されるような場合の処理に対し
て適しており、例えば金融機関のATM等の帳票認識処
理に好適である。銀行業務の取引きで使用する帳票は、
営業店に設置されている自行で作成する制定帳票以外に
税金振込票や公共料金支払書など料金納付先が作成する
千差万別の非制定帳票が数万種類も存在する。そこで、
銀行業務に本実施例の方法を適用し、定義対象帳票の制
限をできるだけ緩和し、且つ、効率よく処理する。第1
の実施例と同様に、まず帳票定義体テーブルに登録する
(ステップ3−1)。この場合には、図2に示すようにn
種類の登録帳票に対して一意的に決まる情報を持たせる
ため、帳票作成元を示す文字列を第一候補に設定し、作
成元が重複する定義体には帳票種別文字列などを最小限
度の情報を第二候補〜第m候補として追加定義する。ま
た、帳票サイズや線分(罫線)本数、取扱い地域や取扱い
時期の制限があるものを付加情報として登録する。次
に、定義体テーブルをメモリに展開する前に付加情報よ
り地域性や時期的な情報を抽出し(ステップ3−2)、
対象帳票に当てはまらないものは定義体テーブルより除
外し、過去の照合率の高い順番にメモリに展開する(ス
テップ3−3)。次にサイズ、線分数などの物理定義体
テーブルを生成し(ステップ3−4)、前述の第1の実
施例と同じように文字定義体テーブルを生成する(ステ
ップ3−5)。ここまでの事前準備を終了した後に、本
実施例の処理方法は、それ以降に入力される取扱い帳票
イメージデータの帳票認識を行う。
【0013】取扱われる帳票は、窓口業務では非接触ス
タンド型イメージや自動機では内蔵のスキャナ、その他
汎用スキャナなどを用いてイメージデータとなる(ステ
ップ3−6)。入力されたイメージデータは、この段階
で2値化処理などのイメージ解析を行う(ステップ3−
7)。制定帳票に代表されるID番号などの固定位置に
ある特定情報やバーコードなどの特徴的な情報、あるい
は手形・小切手など制定帳票ではないが規格性を有する
帳票については、この時点でフォーマット認識により帳
票識別されることになる。しかし、この処理過程で判別
される帳票は取扱い帳票定義体の内で数種類であり、定
義されている大多数の帳票は本実施例の帳票認識処理を
行うことで効率良く種類を識別できる。
タンド型イメージや自動機では内蔵のスキャナ、その他
汎用スキャナなどを用いてイメージデータとなる(ステ
ップ3−6)。入力されたイメージデータは、この段階
で2値化処理などのイメージ解析を行う(ステップ3−
7)。制定帳票に代表されるID番号などの固定位置に
ある特定情報やバーコードなどの特徴的な情報、あるい
は手形・小切手など制定帳票ではないが規格性を有する
帳票については、この時点でフォーマット認識により帳
票識別されることになる。しかし、この処理過程で判別
される帳票は取扱い帳票定義体の内で数種類であり、定
義されている大多数の帳票は本実施例の帳票認識処理を
行うことで効率良く種類を識別できる。
【0014】まず、先のイメージデータより帳票サイ
ズ、罫線認識などの物理特徴を抽出して、物理定義テー
ブルと照合し、そのサイズ情報や線分数により、ある程
度緩和した制限の中で第1段階の絞込みをする(ステッ
プ3−8)。文字列定義体テーブルのメモリ展開時と物
理特徴での絞込みにより、母数は更に減少するが、まだ
対象となる帳票種類は多数存在している。そこで、入力
帳票全体のイメージデータから全ての文字列を抽出し
て、文字認識を行い(ステップ3−9)、認識結果を文字
認識結果照合処理へ渡す(ステップ3−10)。図2
(e)に示すように、文字認識結果2−1は、文字認識
処理テーブル(文字列定義体テーブル)の候補文字列2−
2、2−3、2−4の第一候補から照合される(ステッ
プ3−5)。まず、最も照合率の高い帳票定義体テーブ
ルの文字列2−2の第一候補は文字認識結果2−1には
存在しない。次に、定義体テーブルの文字列2−3に移
り、第1候補文字列で一致し、第2候補以降が無いた
め、定義体テーブルの文字列2−3が全て入力帳票の文
字認識結果2−1に含まれていることとなり(ステップ
3−11)、帳票認識処理はこの段階で帳票認識処理終
了となって、特定できた帳票名称を出力する(ステップ
3−12)。前述の文字認識結果照合(ステップ3−1
0)において、帳票nのような定義体テーブルの文字列
2−4との照合となった場合には、第1候補文字列で一
致し、第2候補が存在するため再度文字認識結果2−1
と照合し、この処理を繰り返して、候補が全て文字認識
結果2−1の文字列に含まれていることが確認できた時
に帳票認識処理を終了する。このように、帳票上の情報
で個別性が高く単純な文字列を帳票認識の識別子とする
ことで、照合処理を簡素化でき、処理時間を短縮するこ
とができる。
ズ、罫線認識などの物理特徴を抽出して、物理定義テー
ブルと照合し、そのサイズ情報や線分数により、ある程
度緩和した制限の中で第1段階の絞込みをする(ステッ
プ3−8)。文字列定義体テーブルのメモリ展開時と物
理特徴での絞込みにより、母数は更に減少するが、まだ
対象となる帳票種類は多数存在している。そこで、入力
帳票全体のイメージデータから全ての文字列を抽出し
て、文字認識を行い(ステップ3−9)、認識結果を文字
認識結果照合処理へ渡す(ステップ3−10)。図2
(e)に示すように、文字認識結果2−1は、文字認識
処理テーブル(文字列定義体テーブル)の候補文字列2−
2、2−3、2−4の第一候補から照合される(ステッ
プ3−5)。まず、最も照合率の高い帳票定義体テーブ
ルの文字列2−2の第一候補は文字認識結果2−1には
存在しない。次に、定義体テーブルの文字列2−3に移
り、第1候補文字列で一致し、第2候補以降が無いた
め、定義体テーブルの文字列2−3が全て入力帳票の文
字認識結果2−1に含まれていることとなり(ステップ
3−11)、帳票認識処理はこの段階で帳票認識処理終
了となって、特定できた帳票名称を出力する(ステップ
3−12)。前述の文字認識結果照合(ステップ3−1
0)において、帳票nのような定義体テーブルの文字列
2−4との照合となった場合には、第1候補文字列で一
致し、第2候補が存在するため再度文字認識結果2−1
と照合し、この処理を繰り返して、候補が全て文字認識
結果2−1の文字列に含まれていることが確認できた時
に帳票認識処理を終了する。このように、帳票上の情報
で個別性が高く単純な文字列を帳票認識の識別子とする
ことで、照合処理を簡素化でき、処理時間を短縮するこ
とができる。
【0015】また、この照合処理がすべて一致しないと
判定された場合(ステップ3−11)、その帳票に対す
る定義体テーブルを即座に生成するために、先の絞込み
処理で使用した物理特徴を抽出した後(ステップ3−1
3)、文字認識結果を抽出する(ステップ3−14)す
る。次に、入力帳票文字認識結果(ステップ3−9)を画
面上に表示し、文字認識結果テーブル情報となる帳票作
成元を表す文字列を選択させる(ステップ3−15)。
その内容を元に新規の帳票定義体として登録データを生
成し(ステップ3−16)、帳票定義体テーブルに追加す
ることにより(ステップ3−17)、次からは本帳票に
ついても帳票認識が可能となる。センタなど帳票定義を
一元管理保守している場合には、本定義体テーブルを追
加分として送信するか、あるいは共有することで、他の
窓口、営業店でもこのテーブルを使用することが可能と
なる。
判定された場合(ステップ3−11)、その帳票に対す
る定義体テーブルを即座に生成するために、先の絞込み
処理で使用した物理特徴を抽出した後(ステップ3−1
3)、文字認識結果を抽出する(ステップ3−14)す
る。次に、入力帳票文字認識結果(ステップ3−9)を画
面上に表示し、文字認識結果テーブル情報となる帳票作
成元を表す文字列を選択させる(ステップ3−15)。
その内容を元に新規の帳票定義体として登録データを生
成し(ステップ3−16)、帳票定義体テーブルに追加す
ることにより(ステップ3−17)、次からは本帳票に
ついても帳票認識が可能となる。センタなど帳票定義を
一元管理保守している場合には、本定義体テーブルを追
加分として送信するか、あるいは共有することで、他の
窓口、営業店でもこのテーブルを使用することが可能と
なる。
【0016】
【発明の効果】以上説明したように、本発明によれば、
帳票上の情報の中で最も帳票自体の固有性を示す文字列
である作成元あるいは発行元の名称の文字情報を帳票定
義体テーブルとして登録することにより、入力帳票の文
字認識結果と最小項目数の文字列定義体テーブルの照合
処理だけで帳票を識別できるので、大量の定義体が存在
する場合でも、帳票の種域を迅速に特定することが可能
であり、かつフォーマット情報に影響を受けることな
く、帳票を識別することができる。
帳票上の情報の中で最も帳票自体の固有性を示す文字列
である作成元あるいは発行元の名称の文字情報を帳票定
義体テーブルとして登録することにより、入力帳票の文
字認識結果と最小項目数の文字列定義体テーブルの照合
処理だけで帳票を識別できるので、大量の定義体が存在
する場合でも、帳票の種域を迅速に特定することが可能
であり、かつフォーマット情報に影響を受けることな
く、帳票を識別することができる。
【図1】本発明の第1の実施例を示す多種類の帳票認識
方法の動作フローチャートである。
方法の動作フローチャートである。
【図2】本発明における帳票定義体テーブルと入力帳票
の文字認識結果の照合処理を示す説明図である。
の文字認識結果の照合処理を示す説明図である。
【図3】本発明の第2の実施例を示す多種類の帳票認識
方法の動作フローチャートである。
方法の動作フローチャートである。
【図4】本発明の一実施例を示す多種類の帳票認識装置
のブロック図である。
のブロック図である。
4−1…入力部(スキャナ)、4−2…前処理部(イメ
ージ解析)、4−3…物理的特徴照合処理部、4−4…
物理定義体テーブル、4−5…文字認識処理部、4−6
…文字列定義体テーブル、4−7…判定部、4−8…出
力表示部、4−9…プリンタ出力部、4A…コンピュー
タ、2−1…入力帳票文字認識結果、4B…メモリ、2
−2,2−3,2−4…登録済み帳票定義体文字列テー
ブル。
ージ解析)、4−3…物理的特徴照合処理部、4−4…
物理定義体テーブル、4−5…文字認識処理部、4−6
…文字列定義体テーブル、4−7…判定部、4−8…出
力表示部、4−9…プリンタ出力部、4A…コンピュー
タ、2−1…入力帳票文字認識結果、4B…メモリ、2
−2,2−3,2−4…登録済み帳票定義体文字列テー
ブル。
Claims (3)
- 【請求項1】 多種類の帳票を認識する方法において、 帳票の認識対象となる情報のうち、該帳票の最も固有性
を有する帳票作成元の名称を文字列定義体に予め登録し
ておき、 入力帳票から文字列の一部ないし全てを文字認識し、 文字認識した結果と前記文字列定義体との照合処理を行
うことにより、該入力帳票の種別を認識することを特徴
とする多種類の帳票認識方法。 - 【請求項2】 請求項1に記載の多種類の帳票認識方法
において、 前記帳票作成元の名称を、第一候補として文字列定義体
に登録し、 該帳票の種別を含む文字情報を、第二候補として該文字
列定義体に登録し、 さらに、帳票サイズや罫線位置を含む物理的特徴を物理
定義体に登録し、 まず、入力帳標の物理的特徴を抽出し、該物理的特徴と
該物理定義体の特徴情報とを照合し、次に該入力帳票か
ら文字列の一部ないし全てを文字認識し、文字認識した
結果と前記文字列定義体の第一候補とを照合し、不一致
であれば第二候補と照合し、いずれか一致した時点で帳
票名称を出力し、 また、認識できなかった帳票に対しては、照合処理の判
断に至る過程の情報をフィードッバックし、前記文字列
定義体に追加登録することを特徴とする多種類の帳票認
識方法。 - 【請求項3】 帳票のイメージデータを取り込む画像入
力部と、該イメージデータのイメージ解析を行う前処理
部と、予め帳票の帳票サイズや罫線認識を含む物理特徴
を登録した物理定義体テーブルと、該物理定義体テーブ
ルと該イメージデータより抽出した帳票サイズや罫線認
識を含む物理的特徴とを比較照合する物理特徴照合処理
部と、予め帳票自体の固有性を持つ作成元あるいは発行
元を含む文字情報を登録した文字列定義体テーブルと、
該イメージデータから文字列の一部ないし全部を文字認
識する文字認識処理部と、該文字認識処理部の認識結果
と前記文字列定義体の文字列とを照合し、一致したとき
帳票名称を出力する文字列照合処理部とを有することを
特徴とする多種類の帳票認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000132272A JP2001312694A (ja) | 2000-05-01 | 2000-05-01 | 多種類の帳票認識方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000132272A JP2001312694A (ja) | 2000-05-01 | 2000-05-01 | 多種類の帳票認識方法および装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2001312694A true JP2001312694A (ja) | 2001-11-09 |
Family
ID=18641010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000132272A Pending JP2001312694A (ja) | 2000-05-01 | 2000-05-01 | 多種類の帳票認識方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2001312694A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008310531A (ja) * | 2007-06-13 | 2008-12-25 | Hitachi Computer Peripherals Co Ltd | 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム |
JP2012059226A (ja) * | 2010-09-13 | 2012-03-22 | Ricoh Co Ltd | 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体 |
JP2014238773A (ja) * | 2013-06-10 | 2014-12-18 | 富士通フロンテック株式会社 | 文字認識装置、文字認識方法、および文字認識プログラム |
JP2017083943A (ja) * | 2015-10-23 | 2017-05-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
-
2000
- 2000-05-01 JP JP2000132272A patent/JP2001312694A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008310531A (ja) * | 2007-06-13 | 2008-12-25 | Hitachi Computer Peripherals Co Ltd | 帳票識別方法及び帳票識別プログラム並びに該帳票識別方法を用いた光学文字読取システム |
JP2012059226A (ja) * | 2010-09-13 | 2012-03-22 | Ricoh Co Ltd | 帳票処理装置、帳票処理方法、帳票処理プログラム、及びそのプログラムを記録した記録媒体 |
JP2014238773A (ja) * | 2013-06-10 | 2014-12-18 | 富士通フロンテック株式会社 | 文字認識装置、文字認識方法、および文字認識プログラム |
JP2017083943A (ja) * | 2015-10-23 | 2017-05-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100368586B1 (ko) | 전표처리방법 및 시스템 | |
JP5204208B2 (ja) | レシートデータ照合支援装置およびレシートデータ照合支援プログラム | |
JP3088019B2 (ja) | 媒体処理装置及び媒体処理方法 | |
US20060219773A1 (en) | System and method for correcting data in financial documents | |
US20050281450A1 (en) | System and method for correcting data in financial documents | |
US6038351A (en) | Apparatus and method for multi-entity, mixed document environment document identification and processing | |
JP5216890B2 (ja) | レシートデータ認識装置およびそのプログラム | |
JP5385349B2 (ja) | レシート定義データ作成装置およびそのプログラム | |
US10509958B2 (en) | Systems and methods for capturing critical fields from a mobile image of a credit card bill | |
CA2477745A1 (en) | Extracting text written on a check | |
JP6100532B2 (ja) | レシート定義データ作成装置およびそのプログラム | |
JP2016048444A (ja) | 帳票識別プログラム、帳票識別装置、帳票識別システム、および帳票識別方法 | |
JP5702342B2 (ja) | レシート定義データ作成装置およびプログラム | |
JPWO2019008766A1 (ja) | 証憑処理システムおよび証憑処理プログラム | |
JP2012221183A (ja) | レシートデータ認識装置およびそのプログラム | |
JPH11282955A (ja) | 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP6507459B2 (ja) | 会計処理システム | |
US6769615B2 (en) | Multi-pass merge process for the check processing control system | |
JP2001312694A (ja) | 多種類の帳票認識方法および装置 | |
JP3435374B2 (ja) | 文字読取装置および文字認識方法 | |
JP5304397B2 (ja) | 帳票処理装置及び帳票処理プログラム | |
JPH05108689A (ja) | 為替振込処理装置 | |
TWM626292U (zh) | 業務導向要項鍵值辨識系統 | |
JP4516376B2 (ja) | 帳票処理システム | |
JPH1116020A (ja) | 商品券識別方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041008 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050513 |