JP2000029986A - 帳票データ読取方法、記録媒体、及び、帳票データ読取装置 - Google Patents

帳票データ読取方法、記録媒体、及び、帳票データ読取装置

Info

Publication number
JP2000029986A
JP2000029986A JP10196181A JP19618198A JP2000029986A JP 2000029986 A JP2000029986 A JP 2000029986A JP 10196181 A JP10196181 A JP 10196181A JP 19618198 A JP19618198 A JP 19618198A JP 2000029986 A JP2000029986 A JP 2000029986A
Authority
JP
Japan
Prior art keywords
frame
processing
character recognition
data
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10196181A
Other languages
English (en)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10196181A priority Critical patent/JP2000029986A/ja
Publication of JP2000029986A publication Critical patent/JP2000029986A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 ID番号に依存せず、フォームの違いに対応
可能な帳票データ読取方法及び装置を提供する。 【解決手段】 表構造認識部103で帳票上の表のマト
リクス構造を認識する。表の第1行の各枠に記載された
項目名を文字認識部106で認識し、フォーマット情報
(105)と突き合わせることにより処理方法を決定す
る。各列の枠のデータを、その項目名に応じた処理方法
により読み取る。例えば銀行名の列の枠では、文字認識
部106で文字認識し、その結果に対し知識処理部11
0で銀行名データベース111aを用いた知識処理を施
す。帳票IDは利用しない。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表形式の帳票のデ
ータ読取技術に関する。
【0002】
【従来の技術】帳票類のデータ読取技術に関しては、例
えば特開平5−258097号公報に記載されている光
学的文字認識装置のように、まず、帳票のIDフィール
ドからID番号を読み取り、このID番号に対応して用
意されているフォーマットコントロール情報に従って、
帳票の読取フィールドに対するデータ読み取りを制御す
る技術が知られている。
【0003】
【発明が解決しようとする課題】金融業務などで用いら
れる帳票類には、記入されるデータの内容は決まってい
るがフォームが統一されていないものが少なくない。例
えば、振込依頼票は、データの内容は統一されている
が、個々の金融機関毎にフォームが微妙に異なってい
る。前記従来技術においては、このようなフォームの違
いが微妙なものであっても、同じID番号を用いるとデ
ータ読取位置精度が悪化するなどの問題が生じるため、
それぞれのフォーム毎に別々のID番号を付け、また、
それぞれのID番号に対応したフォーマットコントロー
ル情報を用意する必要がある。しかし、微妙に異なるフ
ォームが数十種類もあり、また帳票入手先の都合で既存
のフォームを変更することができないような場合(すな
わちID番号を付けることができない)も少なくない。
【0004】よって、本発明の目的は、ID番号を必要
とせず、様々なフォームに対応できる帳票データ読取方
法及び装置を提供することにある。
【0005】
【課題を解決するための手段】本発明の帳票データ読取
方法によれば、帳票のイメージデータから帳票上の表の
マトリクス構造が認識され、認識された表のマトリクス
構造の特定の行(又は列)の各枠に対し文字認識が行わ
れ、認識された項目名に対応した処理方法により、当該
枠と同じ列(又は行)の他の枠よりデータが読み取られ
る。項目名に応じた処理方法として、例えば、特定の文
字種に限定した文字認識、文字認識とその認識結果に対
する特定種類の知識処理の組合せ、マーク認識、又は、
文字認識とその認識結果の統合の組合せなどが選択可能
とされる。
【0006】本発明の帳票データ読取装置は、帳票のイ
メージデータを入力する手段と、入力された帳票のイメ
ージデータから帳票上の表のマトリクス構造を認識する
手段と、項目名とそれに対する処理方法が記述されたフ
ォーマット情報を記憶するための手段と、文字認識を行
うための手段と、複数種類の知識処理を行うための手段
と、制御手段とを具備し、あるいは、マーク認識手段を
さらに具備する。該制御手段は、認識された表のマトリ
クス構造の特定の行(又は列)の各枠に対し該文字認識
の手段により文字認識を行わせ、その認識結果を該フォ
ーマット情報と突き合わせ、一致した項目名に対応した
処理方法に従って、該文字認識の手段と該該知識処理の
手段の一方又は両方を利用し、あるいは、該文字認識の
手段、該該知識処理の手段及び該マーク認識の手段の一
つ又は複数を利用し、当該枠と同じ列(又は行)の他の
枠に対するデータ読み取りを行う。項目名に対応した処
理方法として、例えば、特定文字種に限定した文字認
識、文字認識とその認識結果に対する特定種類の知識処
理の組合せ、文字認識とその認識結果の統合の組合せ、
又は、マーク認識などが選択可能とされる。
【0007】
【発明の実施の形態】以下、添付図面を参照し、本発明
の実施の形態を説明する。
【0008】図1は本発明による帳票データ読取装置の
ブロック構成の一例を示すブロック図である。図2は、
この帳票データ読取装置における全体的処理フローの一
例を示すフローチャートである。
【0009】図1において、100は例えば帳票を光学
的に走査することによって帳票のイメージデータを入力
するイメージ入力部である。101は、入力された帳票
のイメージデータや処理の中間データなどの記憶域とし
て利用されるメモリである。102は帳票上の表や文字
の領域を識別する領域識別部、103は帳票上の表の構
造を認識する表構造認識部、104は表構造認識部10
3により生成される表データマトリクスの記憶部、10
5はフォーマット情報の記憶部である。106は帳票上
の文字を認識するための文字認識部、107と108は
文字認識部106に利用される特徴辞書と単語辞書の記
憶部である。109は帳票上のマークを認識するための
マーク認識部、110は文字認識部106による認識結
果に対し複数種類の知識処理を行うための知識処理部、
111は知識処理に利用される知識データベース(辞
書)の記憶部である。この知識データベース記憶部11
1に記憶されている知識データベース(辞書)には、銀
行名データベース(辞書)111a、支店名データベー
ス(辞書)111b、口座番号データベース111c、
姓名データベース(辞書)111dなどが含まれる。1
12は最終的な読取データが格納される読取データ格納
部、113は装置各部の動作や処理フローの制御、後述
の文字認識結果の統合処理などを行う制御部である。
【0010】この帳票データ読取装置又はその処理は、
専用のハードウェアなどによって実現してもよいが、例
えば図3に示すCPU300、メモリ301、ハードデ
ィスク302、イメージスキャナ303、フロッピーデ
ィスクやCD−ROMなどの記録媒体304の読み書き
のための媒体ドライブ305、外部機器や通信回線など
との入出力インターフェース306などをシステムバス
307で接続したようなコンピュータを利用し、ソフト
ウェアによって実現してもよい。この場合、コンピュー
タのハードウェア上で図1に示した機能ブロックを実現
させるための、あるいは、図2に示した各処理ステップ
を実行させるためのプログラム309と、処理に必要な
情報(フォーマット情報、特徴辞書、単語辞書及び知識
データベース)は、例えば、それが記録された記録媒体
304から媒体ドライブ305を介して読み込まれ、ハ
ードディスク302に一旦格納される。帳票データ読取
処理を実行する時に、そのプログラム309と、処理に
必要な情報の全部又は一部がメモリ301に読み込まれ
る。図1中のメモリ101や各情報の記憶部104,1
05,107,108,111としてメモリ309上の
特定の領域が割り当てられ、また、読取データ格納部1
11として例えばハードディスク302上の記憶域が割
り当てられる。帳票のイメージデータは、例えば、イメ
ージスキャナ303を利用して入力される。
【0011】次に、図1及び図2を参照し、この帳票デ
ータ読取装置の全体的な処理の流れを説明する。まず、
イメージ入力部100によって帳票のイメージデータが
入力され、メモリ101に格納される(ステップ20
0)。このイメージデータが2値化されていない場合、
例えば領域識別部102によって入力イメージデータの
2値化が行われ、帳票の2値化イメージデータがメモリ
101上に生成される(ステップ201)。以下の処理
には、基本的に、この2値化イメージデータが用いられ
る。次に、領域識別部102において、帳票の2値化イ
メージデータから帳票上の表や文字の領域が識別される
(ステップ202)。この領域識別結果はメモリ101
に記憶される。
【0012】領域識別が終わると処理ループに入る。
この処理ループは領域識別で抽出された全ての表領域
に対して繰り返される処理のループである。一つの表領
域に対し、表構造認識部103によって表のマトリクス
構造が認識され、それを記述した表データマトリクスが
生成されて記憶部104に格納される(ステップ20
4)。この表データマトリクスは、表中の各枠を2次元
マトリクスの各要素に対応させ、各枠(要素)を行番号
と列番号で識別できるように表現し、また、各枠の帳票
上での位置を例えば左上と右上の座標で記述するもので
ある。例えば、帳票上に図8に示すような表が存在する
場合、図示のように行番号と列番号が割り付けられ、こ
れら行番号、列番号によって表の各枠を特定可能となる
(行番号と列番号は帳票上には記載されていない)。
【0013】次に処理ループに入る。表形式の帳票で
は、表の特定の行(又は列)に表の各列(又は各行)に
対する項目名が記入されていることが多い。振込依頼票
などでは、図8に示す表の例に見られるように、表の一
番上の行に項目名(銀行名、支店名など)が記入されて
いることが圧倒的に多い。処理ループは、このような
項目名が記入されていると予想される表の特定の行(又
は列)の全ての枠に対して繰り返される処理のループで
ある。ここでは、図8に示すような振込依頼票の表を想
定し、表の第1行の各列の枠を処理の対象にするものと
して説明する。第1行の各列の枠内に対し、制御部11
3は文字認識部106によって文字認識を行わせる(ス
テップ205)。そして、制御部113で、文字認識結
果とフォーマット情報(105)とが突き合わされ、文
字認識結果がある項目名と一致したときは、その項目名
に対応した処理方法を示す情報が取り出される(ステッ
プ206)。この処理方法の情報は例えば表データマト
リクス記憶部104に格納される。
【0014】振込依頼票を想定した場合のフォーマット
情報は、例えば図7に示すような項目名と、各項目名に
対応した処理方法を示す1つ以上の処理番号とが記述さ
れたものである。したがって、ステップ206で、この
1つ以上の処理番号が取り出されることになる。なお、
フォーマット情報においては、「銀行名」などの項目名
は「名」を除いた形で記述されている。これは、項目名
が例えば「銀行名」と記入されていても「銀行」と記入
されていても、同じ項目名として処理できるようにする
ためである。同様に「口座種類」は「種類」として記述
されている。
【0015】第1行の全ての列の枠に対する処理が終わ
ると、処理ループを抜けて処理ループに入る。この
処理ループは、表の第1行以外の全ての枠について繰
り返される処理のループである。制御部113におい
て、表の第1行以外の各枠について、その列番号が項目
名の記入された枠の列番号と一致するかチェックされる
(ステップ207)。その枠の列番号がある項目名の枠
の列番号と一致すると、制御部113は、その項目名に
対応した処理番号を表データマトリクス記憶部104よ
り読み込み、文字認識部106、知識処理部110又は
マーク認識部109を利用しデータ読取処理を実行する
(ステップ208)。この項目名に対応したデータ読取
処理の内容については後述する。処理の対象となってい
る、表の第1行以外の全ての枠に対し処理を終えると処
理ループを抜け、処理ループの先頭に戻って別の表
に対する処理を開始する。全ての表に対しデータ読取処
理が終わると、メモリ101に得らた読取データが読取
データ格納部112に格納され(ステップ209)、1
枚の帳票に対する処理を完了する。
【0016】図2中の各処理ステップの処理内容につい
て、より具体的に説明する。
【0017】図4は、処理ステップ202の処理手順の
一例を示すフローチャートである。図4において、まず
帳票の2値化イメージデータを圧縮(縮小)したイメー
ジデータが作成される(ステップ400)。この圧縮
は、例えば、圧縮前の複数の画素の値のOR値を圧縮後
の1つの画素の値とする方法により行われる。次に、圧
縮イメージデータ上の黒連結成分に外接する矩形が抽出
される(ステップ401)。表の領域や、文字又はその
一部の領域などが矩形として抽出されるので、矩形の形
状や大きさに基づいて、矩形は表領域や文字領域などに
分類される(ステップ402)。文字領域に識別された
矩形については、近接した矩形を1文字として適当な大
きさの矩形に統合する処理も行われる(ステップ40
3)。このような領域識別については、例えば特開平7
−37036号公報により詳しく述べられている。
【0018】図5は、処理ステップ204の処理手順の
一例を示すフローチャートである。図5において、ステ
ップ202で抽出された各表領域の内部について、帳票
の2値化イメージデータより罫線が抽出される(ステッ
プ500)。表は実罫線を用いて作られることが多いの
で、表の構造を認識するには一般に実罫線を抽出するこ
とになる。実罫線は、例えば、罫線の方向(縦方向と横
方向)に一定の長さ以上の黒ランを抽出し、それを統合
することによって抽出することができる。しかし、表の
枠の区切りに点線の罫線が用いられることもある。ま
た、図9に示す「金額」の枠のように、桁の区切り線と
して点線の罫線が用いられることもある。このような点
線の罫線は、点線罫線の要素として適当な長さの黒ラン
を抽出し、それら黒ランの中で適当な間隔で連続したも
のを統合することによって抽出することができる。この
ような罫線抽出については、例えば特開平7−2305
25号公報に、より詳しく述べられている。なお、2値
化イメージデータからは抽出困難なカラー罫線などが用
いられている場合には、2値化前のイメージデータを用
いて罫線を抽出することも可能である。そして、抽出さ
れた罫線の情報に基づいて前述のような表のマトリクス
構造が解析され(ステップ501)、その構造を記述す
る表データマトリクスが生成され、その記憶部104に
格納される(ステップ502)。
【0019】なお、領域識別の処理ステップ202を省
き、表構造認識の処理ステップ204を帳票の2値化イ
メージ全体に対して行い、罫線の組合せから表の領域を
認識することも可能である。
【0020】図6は、処理ステップ205の処理手順の
一例を示すフローチャートである。この処理は、文字認
識部106で、特徴辞書(107)及び単語辞書(10
8)を利用して行われる。まず、注目した枠の内部の文
字画像が2値化イメージデータより切り出される(ステ
ップ600)。領域識別処理ステップ202で文字領域
が抽出されているので、その領域情報をこの文字切り出
しに利用できる。切り出された文字画像の特徴が抽出さ
れ(ステップ601)、その特徴と特徴辞書(107)
の特徴との距離計算により、1文字単位の文字認識が行
われる(ステップ602)。この1文字単位の文字認識
の認識候補としては、距離が最小の第1候補だけでな
く、距離が小さい候補がいくつか求められる。次に、枠
内部の各文字に対する認識候補の組合せと、単語辞書
(108)に登録されている単語とが照合されることに
より、認識結果が確定される(ステップ603)。
【0021】次に処理ステップ206について、図7と
図8を参照して説明する。図8に示す表の場合、第1行
第1列の枠に対する文字認識結果は「銀行名」であり、
これは図7に示すフォーマット情報中の項目名「銀行」
と一致する。したがって、第1列に対し処理番号「1」
が取得される。同様に、第2列に対しては処理番号
「2」が取得され、第3列に対しては処理番号「3」が
取得され、第4列に対しては処理番号「4,5」が取得
される。第5行に対しては処理番号「6」が取得され、
第6行に対しては処理番号「4,7」が取得される。各
処理番号に対応した処理内容は図7に示すとおりであ
る。
【0022】次に図8に示す表の場合について、処理ス
テップ208の内容を説明する。表の第1列に対しては
処理番号「1」が取得されているため、第1列の各枠に
対しては図10に示すようなデータ読取処理が行われ
る。すなわち、制御部113は、まず、文字認識部10
6によって枠の内部に対する文字認識を行わせる(ステ
ップ1000)。この文字認識は図6に示した手順で行
われるが、ただし単語処理(ステップ603)は行われ
ない。制御部113は次に、知識処理部110によっ
て、枠内の文字列に対する認識候補の組合せに対し銀行
名データベース(辞書)111aを用いた知識処理を行
わせる(ステップ1001)。この知識処理によって、
実在の銀行名(又は信用金庫名)と矛盾しない認識結果
が得られる。
【0023】表の第2列に対しては処理番号「2」が取
得されているため、第2列の各枠に対しては図11に示
すようなデータ読取処理が行われる。すなわち、制御部
113は、まず、文字認識部106によって、図6のス
テップ600〜602に相当する1文字単位の文字認識
を枠の内部に対して行わせる(ステップ1100)。次
に、知識処理部110によって、枠内の文字列に対する
認識候補の組合せに対し、支店名データベース111b
を用いた知識処理を行わせる(ステップ1101)。こ
の知識処理により、実在の支店名と矛盾しない認識結果
が得られる。
【0024】表の第3列に対しては処理番号「3」が取
得されているため、第3列の各枠に対して図12に示す
ようなデータ読取処理が行われる。「口座種類」の枠に
は、ドロップアウトカラーなどで「当座」と「普通」な
どの口座種類を表す2つ以上の文字列が印刷され、その
いずれかの文字列に丸印やチェックマークを記入させる
ことが多い。ここでは、そのような口座種類の指定方法
が採用されている場合を想定している。すなわち、制御
部113は、マーク認識部109によって、枠の内部に
対し丸印やチェックマークなどのマーク認識を行わせ
(ステップ1200)、認識されたマークの位置から口
座種類を判定する(ステップ1201)。なお、「口座
種類」の枠に対しマーク認識と文字認識を併用するよう
にしてもよい。例えば、最初にマーク認識を行い、マー
クが認識できない場合に文字認識を行わせる。このよう
にすれば、マークが記入される帳票、文字が記入される
帳票のいずれにも対応可能になる。
【0025】表の第4列に対しては処理番号「4,5」
が得られているから、第4列の各枠に対し図13に示す
ようなデータ読取処理が行われる。すなわち、制御部1
13は、まず、文字認識部106によって、文字種を数
字に限定し、図6のステップ600〜602に相当する
1文字単位の文字認識を行わせる(ステップ130
0)。次に、知識処理部110によって、枠内の文字列
に対する認識候補の組合せに対し、口座番号データベー
ス111cを用いた知識処理を行わせる(ステップ13
01)。この知識処理により、実在の口座番号と矛盾の
ない認識結果を得ることができる。
【0026】表の第5列に対しては処理番号「6」が取
得されているから、第5列の各枠に対し図14に示すよ
うなデータ読取処理が行われる。すなわち、制御部11
3は、まず、文字認識部106によって枠の内部に対し
1文字単位の文字認識を行わせる(ステップ140
0)。次に、知識処理部110によって、枠内の文字列
に対する認識候補の組合せに対し、氏名データベース1
11dを用いた知識処理を行わせる(ステップ140
1)。この知識処理によって、実在の口座名義人と矛盾
しない認識結果が得られる。
【0027】表の第6列に対しては処理番号「4,7」
が取得されているから、第6列の各枠に対し図15に示
すようなデータ読取処理が行われる。制御部113はま
ず、文字認識部106によって、文字種を数字に限定
し、図6のステップ600〜602に相当する1文字単
位の文字認識を行わせる(ステップ1500)。ところ
で、第6列の「金額」の枠の内部に図9に示すような点
線罫線の区切り線がある場合、表構造認識の際に、点線
罫線も忠実に抽出し、枠の内部を区切り線でさらに分割
した形で表構造を認識すると、区切り線で区切られた数
字が独立した形で認識される。しかし、必要なデータ
は、その数字を組み合わせた金額としての値である。そ
こで、制御部113において、文字認識部106で認識
された複数の数字をひとまとまりのデータに統合する処
理を行う(ステップ1501)。
【0028】図16に示すような、データの内容は同じ
であるが、表のフォーマットが微妙に異なる帳票は、従
来技術によれば、それぞれに異なったID番号を付与
し、そのフォーマットコントロール情報を用意する必要
があった。これに対し本発明による帳票データ読取装置
によれば、ここまでの説明から明らかなように、別々の
ID番号やフォーマットコントロール情報を用意するこ
となく、そのようなフォーマットが微妙に異なる表を含
む帳票を、同じように扱って、問題なくデータを読み取
ることが可能であり、従来に比べフォームの変更・改編
の許容度が遥かに大きい。
【0029】
【発明の効果】以上の説明から明らかなように、本発明
の帳票データ読取方法又は装置によれば、振込依頼票の
ようなデータの内容がある程度決まっているがフォーム
が統一されていないような表形式帳票類のデータを、I
D番号に依存することなく、精度よく読み取ることが可
能になる。また、その結果、フォームの変更・改編が従
来より容易になる。また、本発明の記録媒体によれば、
そのような帳票データ読取方法を一般的なコンピュータ
を利用して容易に実施することができる、等々の効果を
得られる。
【図面の簡単な説明】
【図1】本発明による帳票データ読取装置のブロック構
成の一例を示すブロック図である。
【図2】本発明による帳票データ読取装置における全体
的な処理フローの一例を示すフローチャートである。
【図3】本発明をソフトウェアにより実施するためのコ
ンピュータのハードウェア構成の一例を示すブロック図
である。
【図4】領域識別処理の手順例を示すフローチャートで
ある。
【図5】表構造認識処理の手順例を示すフローチャート
である。
【図6】文字認識処理のフローチャートである。
【図7】フォーマット情報の説明図である。
【図8】表のマトリクス構造の例を示す図である。
【図9】枠内の点線罫線よる区切り線の説明図である。
【図10】「銀行名」枠に対するデータ読取処理を示す
フローチャートである。
【図11】「支店名」枠に対するデータ読取処理を示す
フローチャートである。
【図12】「口座種類」枠に対するデータ読取処理を示
すフローチャートである。
【図13】「口座番号」枠に対するデータ読取処理を示
すフローチャートである。
【図14】「氏名」枠に対するデータ読取処理を示すフ
ローチャートである。
【図15】「金額」枠に対するデータ読取処理を示すフ
ローチャートである。
【図16】微妙にフォーマットの異なる表の例を示す図
である。
【符号の説明】
100 イメージ入力部 101 メモリ 102 領域識別部 103 表構造認識部 104 表データマトリクス記憶部 105 フォーマット情報記憶部 106 文字認識部 107 特徴辞書 108 単語辞書 109 マーク認識部 110 知識処理部 111 知識データベース記憶部 111a 銀行名データベース 111b 支店名データベース 111c 口座番号データベース 111d 姓名データベース 112 読取データ格納部 113 制御部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 帳票上の表に記入されたデータの読取方
    法であって、帳票のイメージデータから帳票上の表のマ
    トリクス構造を認識する第1のステップと、該第1のス
    テップにより認識された表のマトリクス構造の特定の行
    (又は列)の各枠に対し文字認識を行う第2のステップ
    と、該第2のステップにより特定の行(又は列)の各枠
    より認識された項目名に対応した処理方法により、当該
    枠と同じ列(又は行)の他の枠よりデータを読み取る第
    3のステップとを有することを特徴とする帳票データ読
    取方法。
  2. 【請求項2】 第3のステップにおいて、第2のステッ
    プによる各枠の文字認識結果を、項目名とそれに対応し
    た処理方法が記述されたフォーマット情報と突き合わ
    せ、一致した項目名に対応する処理方法を選択すること
    を特徴とする請求項1記載の帳票データ読取方法。
  3. 【請求項3】 請求項1又は2記載の第1のステップ、
    第2のステップ及び第3のステップをコンピュータに実
    行させるためのプログラムが記録されたことを特徴とす
    るコンピュータ読取可能記録媒体。
  4. 【請求項4】 帳票のイメージデータを入力する手段
    と、入力された帳票のイメージデータから帳票上の表の
    マトリクス構造を認識する手段と、項目名とそれに対す
    る処理方法が記述されたフォーマット情報を記憶するた
    めの手段と、文字認識を行うための手段と、複数種類の
    知識処理を行うための手段と、認識された表のマトリク
    ス構造の特定の行(又は列)の各枠に対し該文字認識の
    手段により文字認識を行わせ、その認識結果を該フォー
    マット情報と突き合わせ、一致した項目名に対応した処
    理方法に従って、該文字認識の手段と該該知識処理の手
    段の一方又は両方を利用し当該枠と同じ列(又は行)の
    他の枠に対するデータ読み取りを行う制御手段とを具備
    する帳票データ読取装置。
  5. 【請求項5】 帳票のイメージデータを入力する手段
    と、入力された帳票のイメージデータから帳票上の表の
    マトリクス構造を認識する手段と、項目名とそれに対す
    る処理方法が記述されたフォーマット情報を記憶するた
    めの手段と、文字認識を行うための手段と、複数種類の
    知識処理を行うための手段と、マーク認識を行うための
    手段と、認識された表のマトリクス構造の特定の行(又
    は列)の各枠に対し該文字認識の手段により文字認識を
    行わせ、その認識結果を該フォーマット情報と突き合わ
    せ、一致した項目名に対応した処理方法に従って、該文
    字認識の手段、該該知識処理の手段及び該マーク認識の
    手段の一つ又は複数を利用し当該枠と同じ列(又は行)
    の他の枠に対するデータ読み取りを行う制御手段とを具
    備する帳票データ読取装置。
JP10196181A 1998-07-10 1998-07-10 帳票データ読取方法、記録媒体、及び、帳票データ読取装置 Pending JP2000029986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10196181A JP2000029986A (ja) 1998-07-10 1998-07-10 帳票データ読取方法、記録媒体、及び、帳票データ読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10196181A JP2000029986A (ja) 1998-07-10 1998-07-10 帳票データ読取方法、記録媒体、及び、帳票データ読取装置

Publications (1)

Publication Number Publication Date
JP2000029986A true JP2000029986A (ja) 2000-01-28

Family

ID=16353556

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10196181A Pending JP2000029986A (ja) 1998-07-10 1998-07-10 帳票データ読取方法、記録媒体、及び、帳票データ読取装置

Country Status (1)

Country Link
JP (1) JP2000029986A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8564846B2 (en) 2010-09-13 2013-10-22 Ricoh Company, Ltd. Form processing apparatus, form processing method, and storage medium for updating definition data

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8564846B2 (en) 2010-09-13 2013-10-22 Ricoh Company, Ltd. Form processing apparatus, form processing method, and storage medium for updating definition data

Similar Documents

Publication Publication Date Title
JP4366108B2 (ja) 文書検索装置、文書検索方法及びコンピュータプログラム
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US7970213B1 (en) Method and system for improving the recognition of text in an image
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
JPH0750483B2 (ja) 文書画像追加情報の蓄積方法
US6320983B1 (en) Method and apparatus for character recognition, and computer-readable recording medium with a program making a computer execute the method recorded therein
KR100268367B1 (ko) 화성 처리 방법과 장치
JP3078318B2 (ja) 文書からの予め定められたデータを位置決定することおよび抽出することを含む文字認識方法および装置
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH08320914A (ja) 表認識方法および装置
JP4566510B2 (ja) 帳票認識装置および帳票認識方法
JP2000029986A (ja) 帳票データ読取方法、記録媒体、及び、帳票データ読取装置
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
JP2002024761A (ja) 画像処理装置及び画像処理方法並びに記憶媒体
JP2000029983A (ja) 文書読取装置
JPH08329187A (ja) 文書読取装置
JP3435375B2 (ja) 文字認識方法および装置
JPH11328306A (ja) 文書画像の論理要素抽出方法、装置および記録媒体
JPH10207981A (ja) 帳票認識方法
WO2023042270A1 (ja) 文字認識プログラム、文字認識システム、及び文字認識方法
JP3006294B2 (ja) 光学的文字読取装置
JP2618468B2 (ja) 文書処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051004

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060705