JPH09231291A - 帳票読取方法及びその装置 - Google Patents

帳票読取方法及びその装置

Info

Publication number
JPH09231291A
JPH09231291A JP8039990A JP3999096A JPH09231291A JP H09231291 A JPH09231291 A JP H09231291A JP 8039990 A JP8039990 A JP 8039990A JP 3999096 A JP3999096 A JP 3999096A JP H09231291 A JPH09231291 A JP H09231291A
Authority
JP
Japan
Prior art keywords
character
attribute
area
preprinted
written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8039990A
Other languages
English (en)
Inventor
Yuzo Maruta
裕三 丸田
Yasuhiro Okada
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8039990A priority Critical patent/JPH09231291A/ja
Publication of JPH09231291A publication Critical patent/JPH09231291A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 記入済み帳票に基づき帳票フォーマットを自
動的に作成することができて、帳票フォーマットを作成
する手続きが不要になり、帳票を読み取る際の事務処理
の負担を従来よりも軽減することができる帳票読取装置
を提供する。 【解決手段】 帳票イメージ取得手段101と、帳票イ
メージ格納手段102と、直線情報、文字領域情報、図
表領域情報等のレイアウト情報を生成するレイアウト解
析手段106と、文字認識手段104と、文字認識結果
に基づき文字領域に記載されている文字がプレプリント
文字あるいは記入文字のいずれであるか判定するプレプ
リント文字判定手段107と、プレプリント文字判定手
段107の判定結果に基づきレイアウト情報の文字領域
に属性を付加する記入文字属性判定手段108と、レイ
アウト情報、プレプリント文字判定手段107の判定結
果、および、記入文字属性判定手段108で付加された
属性により帳票フォーマット情報を作成する帳票フォー
マット情報作成手段109と、読み取り結果出力手段1
05とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票に記入された
文字を認識して、その結果を出力する帳票読取方法及び
その装置に関わる。
【0002】
【従来の技術】帳票に記入された文字を認識し、その結
果を出力する従来の帳票読取装置には、図41に示され
る構成のものがある。この図に示されるように、従来の
帳票読取装置は、帳票のイメージを取り込む帳票イメー
ジ取得手段101、帳票イメージ取得手段101により
取得された帳票のイメージを格納する帳票イメージ格納
手段102、帳票を読み取るために必要な情報(以下
「帳票フォーマット情報」とする)を管理する帳票フォ
ーマット情報管理手段103、帳票上に記入されている
文字を帳票フォーマット情報に従って認識する文字認識
手段104、文字認識の結果を出力する読み取り結果出
力手段105、および、これら各手段を制御する制御手
段100を備える。
【0003】この帳票フォーマット情報というのは、帳
票の罫線などのレイアウト情報や、プレプリント情報、
帳票のどの部分にどういう属性をもつ文字が記入される
か、という情報である。例えば、どの部分に氏名が記載
されるとか、帳票の日付記入領域に記入されるのは6桁
の数字であるとか、県名や市名の記入領域に記入される
のは8桁のアルファベットであるとか、氏名記入領域に
記入されるのは8桁のカタカナであるという情報であ
る。帳票フォーマット情報の作成方法は、例えば特開平
6−96272号公報に開示されている。帳票フォーマ
ット情報があると、領域ごとに文字認識を行う際にその
認識対象が限定されるので認識の精度が向上する。
【0004】以下、従来の帳票読取装置の動作の概略を
図41を用いて説明する。まず帳票イメージ取得手段1
01により帳票のイメージが取り込まれ、そのイメージ
が帳票イメージ格納手段102に格納される。つぎに帳
票フォーマット情報管理手段103は、あらかじめ帳票
フォーマットが格納されている記憶装置(図示されてい
ない)から帳票フォーマット情報を読み込む。このと
き、どの帳票フォーマット情報を読み込むかは、例え
ば、帳票左上に定義されているIDフィールドによって判
定する。文字認識手段104は、その読み込まれた帳票
フォーマット情報に従って指定された文字部を認識す
る。読み取り結果出力手段105は、帳票フォーマット
情報に従って認識された文字に所定の属性を付加して出
力する。
【0005】
【発明が解決しようとする課題】ところで、従来の帳票
読取装置では、帳票を認識させるに先だって帳票フォー
マット情報を作成する必要があった。このように、帳票
を認識するには、まず帳票フォーマット情報を作成する
必要があるので、手間がかかり繁雑であった。
【0006】また、他の従来装置として特開昭63−1
37383号公報に記載されたものがあるが、これは空
帳票と記入帳票のイメージを比較して、記入文字列を抽
出するものであるので、空帳票を必要とする。
【0007】また、他の従来装置として特開平2−23
468号公報に記載されたものがあるが、これはキーと
なる単語を認識することにより対応する部分を認識する
ものであり、事前にキーとなる単語の登録を必要とす
る。
【0008】本発明はこのような問題点を解決しようと
するもので、帳票フォーマット情報をあらかじめ作成せ
ずとも帳票認識を行なえる帳票読取装置を提供するもの
である。
【0009】
【課題を解決するための手段】請求項1に係る帳票読取
方法は、記入済み帳票を読み込む第1のステップと、読
み込まれた帳票イメージから少なくとも文字領域を抽出
して前記帳票のレイアウト情報を得る第2のステップ
と、前記文字領域について文字認識を行なう第3のステ
ップと、前記文字領域に記載されている文字が予め印刷
されたプレプリント文字であるかどうか判定する第4の
ステップと、前記第4のステップの判定結果に基づき前
記レイアウト情報の文字領域に属性を付加する第5のス
テップと、前記第2のステップのレイアウト情報、前記
第4のステップの判定結果、および、前記第5のステッ
プで付加された属性により、帳票フォーマット情報を作
成する第6のステップとを備えたものである。
【0010】請求項2に係る帳票読取装置は、記入済み
帳票を読み込む帳票イメージ取得手段と、読み込まれた
帳票イメージから少なくとも文字領域を抽出して前記帳
票のレイアウト情報を得るレイアウト解析手段と、前記
文字領域について文字認識を行なう文字認識手段と、前
記文字領域に記載されている文字がプレプリント文字あ
るいは記入文字のいずれであるか判定するプレプリント
文字判定手段と、前記プレプリント文字判定手段の判定
結果に基づき前記レイアウト情報の文字領域に属性を付
加する記入文字属性判定手段と、前記レイアウト情報、
前記プレプリント文字判定手段の判定結果、および、前
記記入文字属性判定手段で付加された属性により、帳票
フォーマット情報を作成する帳票フォーマット情報作成
手段と、前記文字認識手段による文字認識結果とともに
前記帳票フォーマット情報を出力する読み取り結果出力
手段とを備えたものである。
【0011】プレプリント文字とは、記入者の便宜のた
めに帳票に予め印刷された「日付」「住所」「氏名」等
の文字である。通常は活字文字であるが、手書文字であ
ることもある。記入文字とは、記入者が帳票に書き込む
文字である。通常は手書文字であるが、活字文字(たと
えば「スタンプ」による文字)であることも考えられ
る。属性とは、文字領域に記入される文字がどのような
種類の文字あるいは単語であるかを示す文字の種別であ
る。例えば、帳票の文字領域に記入されるのは氏名であ
るとか、日付であるとか、住所であるとかの情報であ
る。あるいは帳票の日付記入領域に記入されるのは6桁
の数字であるとか、県名や市名の記入領域に記入される
のは8桁のアルファベットであるとか、氏名記入領域に
記入されるのは8桁のカタカナであるという情報であ
る。
【0012】請求項3記載の帳票読取装置は、前記プレ
プリント文字判定手段は、前記文字認識手段が活字文字
であると認識したときに前記文字領域の文字をプレプリ
ント文字であると判定するものである。
【0013】請求項4記載の帳票読取装置は、前記プレ
プリント文字判定手段は、複数の記入済み帳票イメージ
に基づき処理を行い、同じ文字領域についての前記文字
認識手段の認識結果が同じであるときに、前記文字領域
の文字をプレプリント文字であると判定するものであ
る。
【0014】請求項5記載の帳票読取装置は、前記記入
文字属性判定手段は、前記帳票イメージ上の前記記入文
字と前記プレプリント文字との間の距離に基づき、前記
プレプリント文字の認識結果と前記記入文字の属性とを
対応付けるものである。
【0015】請求項6記載の帳票読取装置は、単語とそ
の属性との関係が予め格納されたデータベースを備え、
前記記入文字属性判定手段は、前記文字認識手段の認識
結果に基づき前記データベースから対応する属性を検索
し、この属性を前記記入文字の属性と対応付けるもので
ある。
【0016】請求項7記載の帳票読取装置は、前記記入
文字属性判定手段は、複数の記入済み帳票イメージそれ
ぞれについて前記記入文字とその属性を対応付けるとと
もに、複数の記入済み帳票イメージの同じ文字領域につ
いて付加された属性間に不一致が生じたときに、前記デ
ータベースを検索したときに最も頻度の高い属性を前記
文字領域の属性とするものである。
【0017】
【発明の実施の形態】
発明の実施の形態1.以下、発明の実施の形態1の帳票
読取装置を図に基づき説明する。図1はこの発明の実施
の形態1の装置の機能ブロック図である。この図におい
て、101は帳票のイメージデータを取得して帳票イメ
ージとして出力するスキャナなどの帳票イメージ取得手
段である。帳票イメージ取得手段101が出力する帳票
イメージの例を図2に示す。図2の例では、帳票の上部
に氏名表示領域が設けられており、その欄に手書きの文
字「山田」が記載されている。
【0018】102は帳票イメージ取得手段101が出
力する帳票イメージを一端記憶するメモリ装置などの帳
票イメージ格納手段である。106は直線情報、文字領
域情報、図表領域情報等の帳票のレイアウト情報を得る
レイアウト解析手段である。レイアウト解析手段106
が出力するレイアウト情報の例を図3に示す。図3の例
は、図2の帳票イメージに対応するものである(以下、
この実施の形態1の図8まで同じ)。レイアウト情報に
は、帳票イメージ上の垂直線・水平線の直線情報、これ
ら垂直線・水平線により区切られる文字領域情報、およ
び、図表領域情報が含まれる。直線情報、文字領域情
報、および、図表領域情報からなるレイアウト情報は、
後述の帳票フォーマット情報作成手段109に出力され
る。一方、これらのうちの文字領域情報のみが、次で述
べる文字認識手段104に出力される。
【0019】104はレイアウト解析手段106が出力
する文字領域情報に基づいて文字認識を行う文字認識手
段である。文字認識結果の例を図4に示す。図2の例
で、上部の欄の左側を第1文字領域、右側を第2文字領
域とすると、文字認識手段104は、第1文字領域に記
載されている文字は、印刷文字の「氏名」であると認識
し、第2文字領域に記載されている文字は、手書き文字
の「山田」であると認識した。
【0020】107は、文字認識手段104の文字認識
結果に基づきプレプリント判定を行うプレプリント文字
判定手段である。プレプリント文字判定手段107は、
文字認識手段104の文字認識結果が印刷文字であると
きはプレプリントと、手書き文字であるときは記入文字
と判定する。プレプリント文字判定手段107が出力す
るプレプリント判定結果の例を図5に示す。
【0021】108は、プレプリント判定手段107の
プレプリント判定結果に基づき記入文字属性を判定する
記入文字属性判定手段である。記入文字属性判定手段1
08は後述のようにプレプリントと記入文字との距離に
基づき判定を行う。記入文字属性判定手段108が出力
する記入文字属性判定結果の例を図6に示す。
【0022】109は、レイアウト解析手段104のレ
イアウト情報、文字認識手段104の文字認識結果、プ
レプリント判定手段107のプレプリント判定結果、お
よび、記入文字属性判定手段108の記入文字属性判定
結果に基づきフォーマット情報を作成する帳票フォーマ
ット情報作成手段である。帳票フォーマット情報作成手
段109が出力するフォーマット情報の例を図7に示
す。このフォーマット情報は、直線情報、文字領域情
報、および、図表領域情報等の帳票のイメージのレイア
ウト情報とともに、これら領域がプレプリント領域であ
るかどうか、それとも記入文字領域であるのか、記入文
字領域の属性は何であるかについての情報から構成され
る。
【0023】105は、帳票フォーマット情報作成手段
109のフォーマット情報に基づき読み取り処理を行い
その結果を出力する読み取り結果出力手段である。読み
取り結果出力手段105が出力する読み取り結果の例を
図8に示す。100はこれら各手段を制御する制御手段
である。
【0024】また、図9はレイアウト解析手段106の
詳細な構成図である。この図において、121は直線を
検出し直線情報を得る直線検出手段、122は文字領域
を抽出し、文字領域情報を得る文字領域検出手段、12
3は図領域を抽出し、図領域情報を得る図領域検出手
段、124は、直線検出手段121〜図領域検出手段1
23の各手段を制御するレイアウト解析制御手段であ
る。
【0025】また、図10〜図17はレイアウト解析手
段106の動作を説明するための図である。図10はレ
イアウト解析手段106の動作のフローチャートであ
る。図11は原イメージである。この図では、氏名と県
名の2つの欄があり、それぞれ手書きで「鈴木」「埼
玉」の文字が記入されている。また下側には図形が記載
されている。図12は直線領域検出結果である。図13
は文字領域検出結果である。図14は図領域検出結果で
ある。図15は検出される直線情報である。図16は検
出される文字領域情報である。図17は検出される図領
域情報である。
【0026】また、図18はプレプリント文字判定手段
107の動作を説明するための図である。図19はプレ
プリント文字判定手段107の動作のフローチャートお
よびその処理の具体例である。
【0027】また、図20は記入文字属性判定手段10
8の詳細な構成図である。この図において、131は最
近接プレプリント文字検索手段、132は記入文字属性
付加手段である。図21は記入文字属性判定手段108
の動作を説明する図である。図22は記入文字属性判定
手段108の動作のフローチャートおよびその処理の具
体例である。
【0028】次に図1〜図22を用いて動作を説明す
る。操作者は記入済み帳票を1枚以上帳票イメージ取得
手段101に読み込ませることによって、帳票イメージ
を取得する。取得した帳票イメージは帳票イメージ格納
手段102に格納される。
【0029】次に取得した帳票イメージについて、レイ
アウト解析手段106によりレイアウト解析を行なう。
【0030】図9〜17を用いて、レイアウト解析手段
106の動作を説明する。読み込まれた帳票イメージが
図11であるとする。直線検出手段121は、帳票イメ
ージから直線を検出し、その始点の座標点、長さ、水平
/垂直などの属性を抽出する。図15に検出された直線
情報を、図12に検出された直線を示す。
【0031】次に文字領域検出手段122は、文字が書
かれている領域を検出し、その領域の左上隅の座標点、
領域の幅、領域の高さを抽出する。図16に検出された
文字領域情報を、図13に検出された文字領域を示す。
【0032】次に図領域検出手段123は帳票イメージ
から図領域を検出し、その領域の左上隅の座標点、領域
の幅、領域の高さを抽出する。図17に検出された図領
域情報を、図14に検出された図領域を示す。以上の動
作により、図11の帳票の文字領域と図領域とが認識さ
れる。以上のような動作をする直線検出手段、文字領域
検出手段、図領域検出手段は、例えば特開昭61−29
6481号公報に開示されているような既知の技術で容
易に構成できる。このようにしてレイアウト解析手段1
06は図3のレイアウト解析結果を出力する。
【0033】次にレイアウト解析手段106により文字
領域と判定された領域について、文字認識手段104に
て文字認識を行なう。文字認識手段104は文字を認識
し、手書き文字が活字文字かを判定し、図4の文字認識
結果を出力する。活字文字か手書き文字かの判定につい
ては、特開昭56−88572号公報、特開昭57−1
47775号公報に開示されているような既知の技術で
容易に構成できる。
【0034】次に文字認識手段104で文字認識した結
果について、プレプリント文字判定手段107により、
それがプレプリント文字か、それとも記入された文字で
あるかの判定を行ない、図5のプレプリント文字判定結
果を出力する。
【0035】プレプリント文字判定手段107の具体的
な動作を図18および図19をもとに説明する。図18
は図11の原イメージの一部を示す図である。左側の第
1文字領域の「氏名」は予め印刷されたプレプリントで
あり、右側の第2文字領域の「鈴木」は手書き文字であ
る。図11の「県名」「埼玉」についても同様である。
【0036】プレプリント文字判定手段107は、文字
認識手段104の結果を用い、判定対象の文字が活字文
字である場合にはプレプリント文字と判定し、手書き文
字である場合には記入文字と判定する。すなわち、ま
ず、文字認識手段104から文字認識結果が手書きであ
るか活字であるかの情報を取得する。図18の例では、
第1文字領域の認識結果「氏名」は活字文字であり、第
2の文字領域の認識結果「鈴木」は手書き文字である。
活字文字の場合、プレプリントと判定する。図18の例
では、第1文字領域がプレプリントと判定される。手書
き文字の場合、記入文字と判定する。図18の例では、
第2文字領域が記入文字と判定される。
【0037】つぎに記入文字属性判定手段108は記入
文字と判定された文字について、その文字がどの属性を
もつかを判定し、図6の記入文字属性判定結果を出力す
る。記入文字属性判定手段108は、図20に示すよう
に、最近接プレプリント文字検索手段131、記入文字
属性付加手段132とからなる。
【0038】図20〜図22を用いて記入文字属性判定
手段108の動作を説明する。図21は原イメージの例
であり、上側に活字の「氏名」と手書きの「山田」が記
載されており、下側に活字の「県名」と手書きの「福
島」が記載されている。まず、最近接プレプリント文字
検索手段131は、記入文字の領域から、帳票イメージ
上もっとも近い位置に存在するプレプリント文字を検索
する。例えば、図22において、「山田」という記入文
字に関して、「氏名」までの距離Aと「県名」までの距
離Bとを比較すると氏名までの距離の方が短い(距離A
<距離B)から、このとき、その左部にある「氏名」と
いうプレプリント文字が検索される。他方、「福島」と
いう記入文字においては、その左部にある「県名」とい
うプレプリント文字が検索される。次に記入文字属性判
定手段132は、プレプリント文字の認識結果を付加す
る。図22の場合、「山田」という記入文字に対して、
「氏名」という属性を付加し、「福島」という記入文字
に対して、「県名」という属性を付加する。
【0039】記入文字の属性が決定したら、記入文字属
性判定手段132は、記入文字がかかれる領域に対して
も同じ属性をつける。
【0040】以上のような動作により、直線の位置情
報、プレプリント文字の検出、記入文字領域とその属性
が決定したので、帳票フォーマット情報作成手段109
は、図7のようにプレプリント文字の位置情報、記入文
字の位置情報、プレプリント文字と記入文字の関連情報
などを帳票フォーマット情報として作成する。
【0041】読み取り結果出力手段105により、図8
のように記入文字の認識結果をその位置情報、属性を付
加して出力する。
【0042】上記のように記入文字属性判定手段108
によって記入文字の属性が判定された後は、認識される
文字の種類を限定できるので、文字認識手段104でそ
の属性に対応する文字種だけを認識対象とすることがで
きる。これによって、文字認識の精度が向上する。
【0043】帳票フォーマットを一度作成したら、それ
以降の処理は従来の帳票フォーマットを人手により作成
した場合と同様に処理することも可能であることはいう
までもない。
【0044】また、表示手段を設けて、帳票フォーマッ
ト情報を作成したら、それを表示手段に表示し、操作者
に確認を促すことも可能である。
【0045】発明の実施の形態2.次に、本発明の別の
発明の実施の形態を説明する。この発明の実施の形態
は、発明の実施の形態1のうち、プレプリント判定手段
の構成を変更したものである。
【0046】本発明の実施の形態2におけるプレプリン
ト文字判定手段の構成を図23に示す。この図におい
て、141は各帳票において同一の位置にある文字領域
を検出する同一文字領域検出手段、142は同一文字領
域の文字認識結果が各帳票ごとに異なるときに記入文字
とし、そうでないときにプリプリント領域であるとする
文字認識結果比較手段である。また、図24〜図27は
説明図である。図24はこの実施の形態2のプレプリン
ト判定手段107の動作のフローチャートである。図2
5は原イメージの例である。この図は3枚の帳票の原イ
メージを横にならべて示したものであり、プレプリント
の「氏名」として記入された文字は、左側から「山田」
「田中」「鈴木」である。図26は読み取り範囲の説明
図である。図27は判定結果である。
【0047】次に動作について説明する。図24におい
て、まず、同一文字領域検出手段141は、複数の帳票
について、同一の領域にある文字領域を検出する。すな
わち、文字認識手段104から文字認識結果と文字領域
座標を取得する(ST1)。文字領域座標は、例えば図
26のようなものである。この図は左隅を原点(0、
0)とし、これを基準に第1文字領域と第2文字領域の
左隅を始点座標としている。必要な枚数N分のデータを
取得する(ST2)。図25の例では3枚である。各帳
票において同一の位置にある文字領域を検出する(ST
3)。図25においては、1枚目、2枚目、3枚目の帳
票について、同一の文字領域(それぞれの左上からの同
一座標(50mm,100mm)の位置)が存在するので、これを
第1文字領域として検出する。
【0048】次に、文字認識結果比較手段142は、複
数の帳票で検出された同一文字領域について、その文字
認識結果を比較する。そして、文字認識結果が同一の場
合にプレプリントと判定し、そうでない場合には、記入
文字と判定する。すなわち、各帳票における同一文字領
域の文字認識結果が帳票ごとに異なっている場合には記
入文字と判定する(ST4)。各帳票における同一文字
領域の文字認識結果が同一ならばプレプリントと判定す
る(ST5)。例えば、図25の3枚の帳票いずれにつ
いても上記の第1文字領域の文字認識結果は「氏名」
と、同一の認識結果なのでそれはプレプリント文字と判
定する。
【0049】このようにして得られたプレプリント判定
手段107の判定結果の例を図27に示す。他方、同様
に同一文字領域として検出される第2文字領域の認識結
果は、各帳票ごとに異なるので、第2文字領域の文字は
記入文字と判定される。
【0050】なお、同一の文字領域の検出については、
スキャナなど帳票イメージ取得手段に起因するような誤
差を考慮してもよいことは言うまでもない。
【0051】なお、本発明の実施の形態2では、帳票フ
ォーマットを作成する際に複数の帳票が必要なので、読
み取り結果出力手段105は帳票フォーマットが確定し
た後、さかのぼって帳票イメージ格納手段に格納されて
ある最初の帳票から出力を行なう。
【0052】発明の実施の形態3.次に、本発明の別の
発明の実施の形態を説明する。この発明の実施の形態3
は、発明の実施の形態1のうち、記入文字属性判定手段
の構成を変更したものである。
【0053】図28は、本発明の実施の形態3の記入文
字属性判定手段の一例を示したものである。この図にお
いて、151はデータベース検索手段、150a、15
0b、150cはデータベースである。各データベース
にはそのデータの内容を示す属性が定義されている。図
29はこの記入文字属性判定手段の動作の説明のための
原イメージ、図30は動作のフローチャート、図31は
データベース150a〜150cの内容の一例を示す図
である。
【0054】次に図30のフローチャートに基づき動作
を説明する。データベース検索手段151は、記入文字
の文字認識結果を文字認識手段104より取得する(S
T11)。その認識結果と一致する文字列を各データベ
ース150a〜150cから検索する(ST12)。デ
ータベース150a〜150cは、たとえば、「田中」
「山田」といった人の氏が蓄えられた「氏名データベー
ス」、「北海道」「青森」といった都道府県名が蓄えら
れた「都道府県データベース」、各種製品名が蓄えられ
た「製品データベース」である。
【0055】これらデータベースを検索して一致する名
称があれば、その記入文字の属性はそのデータベースの
属性に一致すると考えられる。そこで記入文字属性付加
手段132は、データベースの検索結果に基づき記入文
字の属性を定める。たとえば「北海道」という文字が記
入文字である場合に「北海道」という文字列が都道府県
名データベース内に見つかったとする。その場合に記入
文字属性付加手段132は「北海道」という記入文字の
属性として、都道府県名データベースの属性「都道府県
名」を付加する(ST13)。以上のように、上記の方
法によればプレプリントと記入文字との間の距離を用い
ずに記入文字属性を判定することができる。この方法
は、たとえば記入文字の位置がばらついてプレプリント
と記入文字との間隔の対応がとれない場合でも正確に判
定を行うことができる。
【0056】なお、発明の実施の形態1と本発明の実施
の形態3で説明した2つの例を組み合わせて信頼性を向
上させることもできる。図32は上記2つを組み合わせ
た例である。図において、161は、記入文字属性仮決
定手段である。162は記入文字属性検定手段である。
図33はこの記入文字属性判定手段の動作の説明のため
の原イメージ、図34は動作のフローチャート、図35
はデータベース150a〜150cの内容の一例を示す
図、図36は同義テーブルの例を示す図である。
【0057】次に図34のフローチャートに基づき動作
を説明する。データベース検索手段151は、記入され
た文字と同じ文字列をデータベース150a〜150c
から検索する。たとえば「山田」という文字が記入文字
である場合に「山田」という文字列が氏名データベース
内に見つかったとする。その場合、記入文字属性仮決定
手段161は「山田」という文字認識結果の属性として
「氏名」を仮決定する。また、「福島」という文字列が
氏名データベースと都道府県名データベースに見つかっ
た場合には、「福島」という文字は「氏名」あるいは
「都道府県名」のいずれでも有り得るから、これらのう
ちの少なくともどちらかであると仮決定する。
【0058】次に、最近接プレプリント文字検索手段1
31は各々の記入文字について、最も近い位置に存在す
るプレプリント文字を検索する。もっとも近いプレプリ
ント文字が検索されたら、記入文字属性検定手段162
により、プレプリント文字の文字認識結果が上記仮決定
と矛盾しないかを検定し、矛盾しない場合には、該記入
文字の属性をプレプリント文字の認識結果とする。この
図の場合には、記入文字「山田」の近くにあるプレプリ
ント文字「名前」と、「山田」の仮決定属性「氏名」と
が矛盾しないので、「山田」の属性を「名前」に確定
し、「福島」の場合は、もっとも近いプレプリント文字
が「県名」なので、「福島」の属性は「県名」と確定す
る。矛盾していれば記入文字属性の仮決定を再度行う。
【0059】矛盾するかしないかの判断は、例えば図3
6に示した同義テーブルを参照する。このテーブルは同
じ意味を持つ文字列をグループ別に定義しており、ある
文字列と同義テーブルに存在する文字列が同じグループ
にあれば、それらの文字列は矛盾していないと判定する
ことができる。
【0060】なお、もっとも近いプレプリント文字が存
在しない場合には、仮決定した属性をそのまま属性とす
る。
【0061】図32の記入文字属性判定手段によれば、
データベース検索に基づき記入文字属性を仮決定すると
ともに、さらにプリプリント文字との間隔にも基づき記
入文字属性を決定するという二重判定を行うので、判定
の信頼度が高くなる。
【0062】発明の実施の形態4.次に、本発明のさら
に他の発明の実施の形態を説明する。この発明の実施の
形態4は、発明の実施の形態1のうち、記入文字属性判
定手段108の構成を変更したものである。
【0063】図37は本発明の実施の形態4の記入文字
属性判定手段108の構成を示したものである。この図
において、171は記入文字属性検定手段2、172は
記入文字属性再付加手段である。図38は本発明の実施
の形態4の処理を示すフロー図である。図39は本発明
の実施の形態4の動作を示す原イメージ図である。1枚
めの右上には「福島」、2枚めの右上には「秋田」、3
枚めの右上には「東京」が記入されている。図40は本
発明の実施の形態4の処理の説明図である。
【0064】次に図38に基づき動作を説明する。処理
は、最初にN=1として開始される。データベース検索
手段151は、まず、第N番目にある文字領域が記入文
字領域の場合、記入文字領域の認識結果を文字認識手段
104から取得する(ST1)。次に、各データベース
を参照して、その認識結果が存在するかどうか調べる
(ST2)。
【0065】記入文字属性仮決定手段161は、第N番
目の帳票のある文字領域の文字が記入文字である場合、
記入文字の属性をデータベースを参照するとによって仮
決定する(ST3)。次に第N+1番目の帳票の同一文字
領域の文字について同様に仮決定する(ST4)。
【0066】記入文字属性検定手段171は、上記仮決
定した2つの属性が異なる場合に検定を行なう。第N番
目と第N+1番目の同じ文字領域の属性を比較する(S
T4)。属性が一致しているかどうか調べ、一致してい
ればステップST1に戻り、一定していなければ次のス
テップST7に進む。例えば、図40では、第1番目お
よび第2番目の帳票の第1文字領域の属性を「氏名」と
仮決定していたが、第3番目の帳票の第1文字領域の属
性については、「東京」が氏名データベースになく、都
道府県名データベースのみにあるので、「都道府県名」
に仮決定する。このように属性が異なるため、ステップ
ST7に進み検定を行なう。
【0067】記入文字属性再付加手段172は、N+1番
目以前の帳票について、同一文字領域について、データ
ベースを検索し、各データベースのヒット回数を計数す
る。その後、最もヒット回数が多いデータベースの属性
をあらたに記入文字属性と決定する(ST7)。たとえ
ば、図40における例では、1番目から3番目の帳票の
第1領域「福島」「秋田」「東京」について、データベ
ースを検索する。その結果、氏名データベースには2回
のヒット、都道府県名データベースには3回のヒットが
あることになり、あらたな属性は「都道府県名」とな
る。
【0068】次に、記入文字属性再付加手段172によ
って決定された記入文字属性を最初の帳票の該当文字領
域の文字につけなおす(ST8)。さらに、読み取り結
果出力手段105も最初の帳票にさかのぼって読み取り
結果を出力する。
【0069】この発明の実施の形態4の記入文字属性判
定手段108によれば、複数の帳票ごとに文字領域がど
の属性をもつか調べ、その頻度の高いものをその文字属
性として最終的に判断する。したがって、非常に信頼性
の高い判定が可能になる。なお、上記実施の形態3で述
べたように、さらに、最近接プレプリント文字検索手段
131を組合わせてもよい。
【0070】
【発明の効果】以上のように、この発明によれば、文字
領域に記載されている文字がプレプリント文字あるいは
記入文字のいずれであるか判定するプレプリント文字判
定手段と、前記プレプリント文字判定手段の判定結果に
基づき前記レイアウト情報の文字領域に属性を付加する
記入文字属性判定手段と、前記レイアウト情報、前記プ
レプリント文字判定手段の判定結果、および、前記記入
文字属性判定手段で付加された属性により、帳票フォー
マット情報を作成する帳票フォーマット情報作成手段と
を備えたので、記入済み帳票に基づき帳票フォーマット
を自動的に作成することができる。したがって、帳票フ
ォーマットを作成する手続きが不要になり、帳票を読み
取る際の事務処理の負担を従来よりも軽減することがで
きる。
【0071】また、この発明によれば、プレプリント文
字判定手段は、文字認識手段が活字文字であると認識し
たときに文字領域の文字をプレプリント文字であると判
定するので、プレプリントの判定のための処理をさほど
増加させることなく、文字認識結果を活用しつつ簡便な
方法で処理が可能になる。したがって、装置の構成が簡
単ですむとともに、処理負荷を軽減できる。
【0072】また、この発明によれば、プレプリント文
字判定手段は、複数の記入済み帳票イメージに基づき処
理を行い、同じ文字領域についての文字認識手段の認識
結果が同じであるときに、文字領域の文字をプレプリン
ト文字であると判定するので、判定の信頼性が向上す
る。また、文字が活字であるか手書きのいずれの場合に
も対応可能である。
【0073】また、この発明によれば、記入文字属性判
定手段は、帳票イメージ上の前記記入文字とプレプリン
ト文字との間の距離に基づき、プレプリント文字の認識
結果と記入文字の属性とを対応付けるので、簡便な方法
で処理が可能になる。したがって、装置の構成が簡単で
すむとともに、処理負荷を軽減できる。
【0074】また、この発明によれば、単語とその属性
との関係が予め格納されたデータベースを備え、記入文
字属性判定手段は、文字認識手段の認識結果に基づきデ
ータベースから対応する属性を検索し、この属性を記入
文字の属性と対応付けるので、プレプリントと記入文字
との対応関係によらず判定を行うことができる。したが
って、判定の信頼性が向上する。
【0075】また、この発明によれば、前記記入文字属
性判定手段は、複数の記入済み帳票イメージそれぞれに
ついて前記記入文字とその属性を対応付けるとともに、
複数の記入済み帳票イメージの同じ文字領域について付
加された属性間に不一致が生じたときに、前記データベ
ースを検索したときに最も頻度の高い属性を前記文字領
域の属性とするので、複数の帳票に基づき属性を判断
し、非常に信頼性の高い判定が可能になる。
【図面の簡単な説明】
【図1】 発明の実施の形態1の装置の機能ブロック図
である。
【図2】 発明の実施の形態1の装置の動作説明のため
の帳票イメージの例である。
【図3】 発明の実施の形態1の装置のレイアウト解析
手段が出力するレイアウト情報の例である。
【図4】 発明の実施の形態1の装置の文字認識手段が
出力する文字認識結果の例である。
【図5】 発明の実施の形態1の装置のプレプリント文
字判定手段が出力するプレプリント判定結果の例であ
る。
【図6】 発明の実施の形態1の装置の記入文字属性判
定手段が出力する記入文字属性判定結果の例である。
【図7】 発明の実施の形態1の装置の帳票フォーマッ
ト情報作成手段が出力するフォーマット情報の例であ
る。
【図8】 発明の実施の形態1の装置の読み取り結果出
力手段が出力する読み取り結果の例である。
【図9】 発明の実施の形態1の装置のレイアウト解析
手段の詳細な構成図である。
【図10】 発明の実施の形態1の装置のレイアウト解
析手段の動作のフローチャートである。
【図11】 発明の実施の形態1の装置のレイアウト解
析手段の動作を説明するための原イメージである。
【図12】 発明の実施の形態1の装置のレイアウト解
析手段による直線領域検出結果である。
【図13】 発明の実施の形態1の装置のレイアウト解
析手段による文字領域検出結果である。
【図14】 発明の実施の形態1の装置のレイアウト解
析手段による図領域検出結果である。
【図15】 発明の実施の形態1の装置のレイアウト解
析手段により検出される直線情報である。
【図16】 発明の実施の形態1の装置のレイアウト解
析手段により検出される文字領域情報である。
【図17】 発明の実施の形態1の装置のレイアウト解
析手段により検出される図領域情報である。
【図18】 発明の実施の形態1の装置のプレプリント
文字判定手段の動作を説明するための図である。
【図19】 発明の実施の形態1の装置のプレプリント
文字判定手段の動作のフローチャートおよびその処理の
具体例である。
【図20】 発明の実施の形態1の装置の記入文字属性
判定手段の詳細な構成図である。
【図21】 発明の実施の形態1の装置の記入文字属性
判定手段の動作を説明するための図である。
【図22】 発明の実施の形態1の装置の記入文字属性
判定手段の動作のフローチャートおよびその処理の具体
例である。
【図23】 発明の実施の形態2の装置のプレプリント
判定手段の構成図である。
【図24】 発明の実施の形態2の装置のプレプリント
判定手段の動作のフローチャートである。
【図25】 動作説明のための原イメージの例である。
【図26】 発明の実施の形態2の装置のプレプリント
判定手段の読み取り範囲の説明図である。
【図27】 発明の実施の形態2の装置のプレプリント
判定手段の判定結果の例である。
【図28】 発明の実施の形態3の装置の記入文字属性
判定手段の構成図である。
【図29】 発明の実施の形態3の装置の記入文字属性
判定手段の動作の説明のための原イメージの例である。
【図30】 発明の実施の形態3の装置の記入文字属性
判定手段の動作のフローチャートである。
【図31】 発明の実施の形態3の装置の記入文字属性
判定手段のデータベースの内容の一例を示す図である。
【図32】 発明の実施の形態3の他の装置の記入文字
属性判定手段の構成図である。
【図33】 発明の実施の形態3の他の装置の記入文字
属性判定手段の動作の説明のための原イメージの例であ
る。
【図34】 発明の実施の形態3の他の装置の記入文字
属性判定手段の動作のフローチャートである。
【図35】 発明の実施の形態3の他の装置の記入文字
属性判定手段のデータベースの内容の一例を示す図であ
る。
【図36】 発明の実施の形態3の他の装置の記入文字
属性判定手段の同義テーブルの例を示す図である。
【図37】 発明の実施の形態4の装置の記入文字属性
判定手段の構成図である。
【図38】 発明の実施の形態4の装置の記入文字属性
判定手段の処理を示すフロー図である。
【図39】 動作を説明するための原イメージの例であ
る。
【図40】 発明の実施の形態4の装置の記入文字属性
判定手段の処理の説明図である。
【図41】 従来の帳票読取装置の概略構成図である。
【符号の説明】
100 制御手段、101 帳票イメージ取得手段、1
02 帳票イメージ格納手段、103 フォーマット管
理手段、104 文字認識手段、105 読み取り結果
出力手段、106 レイアウト解析手段、107 プレ
プリント文字判定手段、108 記入文字属性判定手
段、109 帳票フォーマット作成手段、121 直線
検出手段、122 文字領域検出手段、123 図領域
検出手段、124 レイアウト解析制御手段、131
最近接プレプリント文字検索手段、132 記入文字属
性付加手段、141 文字領域比較手段、142 文字
認識結果比較手段、150a、150b、150c デ
ータベース、151 データベース検索手段、161
記入文字属性仮決定手段、162 記入文字属性検定手
段、171 記入文字属性判定手段2、172 記入文
字属性再付加手段。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 記入済み帳票を読み込む第1のステップ
    と、 読み込まれた帳票イメージから少なくとも文字領域を抽
    出して前記帳票のレイアウト情報を得る第2のステップ
    と、 前記文字領域について文字認識を行なう第3のステップ
    と、 前記文字領域に記載されている文字が予め印刷されたプ
    レプリント文字であるかどうか判定する第4のステップ
    と、 前記第4のステップの判定結果に基づき前記レイアウト
    情報の文字領域に属性を付加する第5のステップと、 前記第2のステップのレイアウト情報、前記第4のステ
    ップの判定結果、および、前記第5のステップで付加さ
    れた属性により、帳票フォーマット情報を作成する第6
    のステップとを備えた帳票読取方法。
  2. 【請求項2】 記入済み帳票を読み込む帳票イメージ取
    得手段と、 読み込まれた帳票イメージから少なくとも文字領域を抽
    出して前記帳票のレイアウト情報を得るレイアウト解析
    手段と、 前記文字領域について文字認識を行なう文字認識手段
    と、 前記文字領域に記載されている文字がプレプリント文字
    あるいは記入文字のいずれであるか判定するプレプリン
    ト文字判定手段と、 前記プレプリント文字判定手段の判定結果に基づき前記
    レイアウト情報の文字領域に属性を付加する記入文字属
    性判定手段と、 前記レイアウト情報、前記プレプリント文字判定手段の
    判定結果、および、前記記入文字属性判定手段で付加さ
    れた属性により、帳票フォーマット情報を作成する帳票
    フォーマット情報作成手段と、 前記文字認識手段による文字認識結果とともに前記帳票
    フォーマット情報を出力する読み取り結果出力手段とを
    備えた帳票読取装置。
  3. 【請求項3】 請求項2記載の帳票読取装置において、
    前記プレプリント文字判定手段は、前記文字認識手段が
    活字文字であると認識したときに前記文字領域の文字を
    プレプリント文字であると判定することを特徴とする帳
    票読取装置。
  4. 【請求項4】 請求項2記載の帳票読取装置において、
    前記プレプリント文字判定手段は、複数の記入済み帳票
    イメージに基づき処理を行い、同じ文字領域についての
    前記文字認識手段の認識結果が同じであるときに、前記
    文字領域の文字をプレプリント文字であると判定するこ
    とを特徴とする帳票読取装置。
  5. 【請求項5】 請求項2記載の帳票読取装置において、
    前記記入文字属性判定手段は、前記帳票イメージ上の前
    記記入文字と前記プレプリント文字との間の距離に基づ
    き、前記プレプリント文字の認識結果と前記記入文字の
    属性とを対応付けることを特徴とする帳票読取装置。
  6. 【請求項6】 請求項2記載の帳票読取装置において、
    単語とその属性との関係が予め格納されたデータベース
    を備え、前記記入文字属性判定手段は、前記文字認識手
    段の認識結果に基づき前記データベースから対応する属
    性を検索し、この属性を前記記入文字の属性と対応付け
    ることを特徴とする帳票読取装置。
  7. 【請求項7】 請求項6記載の帳票読取装置において、
    前記記入文字属性判定手段は、複数の記入済み帳票イメ
    ージそれぞれについて前記記入文字とその属性を対応付
    けるとともに、複数の記入済み帳票イメージの同じ文字
    領域について付加された属性間に不一致が生じたとき
    に、前記データベースを検索したときに最も頻度の高い
    属性を前記文字領域の属性とすることを特徴とする帳票
    読取装置。
JP8039990A 1996-02-27 1996-02-27 帳票読取方法及びその装置 Pending JPH09231291A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8039990A JPH09231291A (ja) 1996-02-27 1996-02-27 帳票読取方法及びその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8039990A JPH09231291A (ja) 1996-02-27 1996-02-27 帳票読取方法及びその装置

Publications (1)

Publication Number Publication Date
JPH09231291A true JPH09231291A (ja) 1997-09-05

Family

ID=12568381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8039990A Pending JPH09231291A (ja) 1996-02-27 1996-02-27 帳票読取方法及びその装置

Country Status (1)

Country Link
JP (1) JPH09231291A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030585A (ja) * 2001-07-12 2003-01-31 Canon Inc 画像処理装置、方法、プログラム及び記憶媒体
JP2007052615A (ja) * 2005-08-17 2007-03-01 Fuji Xerox Co Ltd 文書処理装置、ルールデータ生成方法およびプログラム
JP2008033604A (ja) * 2006-07-28 2008-02-14 Univ Of Tokyo 画像処理システム、文字認識システムおよび画像処理プログラム
JP2009015876A (ja) * 2008-10-23 2009-01-22 Fujitsu Ltd 文字認識方法
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム
JP2017016290A (ja) * 2015-06-30 2017-01-19 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2019101512A (ja) * 2017-11-29 2019-06-24 小林クリエイト株式会社 文字認識プログラム
JP2019204399A (ja) * 2018-05-25 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2020071558A1 (ja) * 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JP2020144653A (ja) * 2019-03-07 2020-09-10 日本電気株式会社 帳票処理装置、帳票処理方法、及びプログラム
JP2021504787A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
JP2021167990A (ja) * 2020-04-08 2021-10-21 Arithmer株式会社 レイアウト解析装置、その解析プログラムおよびその解析方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030585A (ja) * 2001-07-12 2003-01-31 Canon Inc 画像処理装置、方法、プログラム及び記憶媒体
JP2007052615A (ja) * 2005-08-17 2007-03-01 Fuji Xerox Co Ltd 文書処理装置、ルールデータ生成方法およびプログラム
JP4682747B2 (ja) * 2005-08-17 2011-05-11 富士ゼロックス株式会社 文書処理装置、ルールデータ生成方法およびプログラム
JP2008033604A (ja) * 2006-07-28 2008-02-14 Univ Of Tokyo 画像処理システム、文字認識システムおよび画像処理プログラム
JP2009031937A (ja) * 2007-07-25 2009-02-12 Fuji Xerox Co Ltd 帳票画像処理装置及び帳票画像処理プログラム
JP2009015876A (ja) * 2008-10-23 2009-01-22 Fujitsu Ltd 文字認識方法
JP2014002662A (ja) * 2012-06-20 2014-01-09 Hitachi Solutions Ltd 帳票印刷システム
JP2014010795A (ja) * 2012-07-03 2014-01-20 Fujitsu Ltd 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム
JP2017016290A (ja) * 2015-06-30 2017-01-19 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2019101512A (ja) * 2017-11-29 2019-06-24 小林クリエイト株式会社 文字認識プログラム
JP2021504787A (ja) * 2017-12-01 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation コグニティブな文書イメージのデジタル化のための方法、コンピュータ・プログラム及びシステム
JP2019204399A (ja) * 2018-05-25 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
US11361572B2 (en) 2018-05-25 2022-06-14 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium
WO2020071558A1 (ja) * 2018-10-05 2020-04-09 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JPWO2020071558A1 (ja) * 2018-10-05 2021-10-07 Arithmer株式会社 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JP2020144653A (ja) * 2019-03-07 2020-09-10 日本電気株式会社 帳票処理装置、帳票処理方法、及びプログラム
JP2021167990A (ja) * 2020-04-08 2021-10-21 Arithmer株式会社 レイアウト解析装置、その解析プログラムおよびその解析方法

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
JPH09231291A (ja) 帳票読取方法及びその装置
JP3294995B2 (ja) 帳票読取装置
KR100570224B1 (ko) 전표정의데이터 작성방법 및 전표처리장치
JPH03161891A (ja) 表形式文書読取装置
JPH11282955A (ja) 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3394694B2 (ja) フォーマット情報登録方法及びocrシステム
JPH05142993A (ja) 地図作成装置
JP2003223610A (ja) 文字認識装置及び文字認識方法
JPH103483A (ja) 情報検索装置
JPH06124366A (ja) 住所読取装置
JPH06215184A (ja) 抽出領域のラベリング装置
JP4054453B2 (ja) 文字認識装置およびプログラム記録媒体
JP3484446B2 (ja) 光学文字認識装置
JPH10207981A (ja) 帳票認識方法
JPH0728935A (ja) 文書画像処理装置
JP2005275830A (ja) 帳票認識方法
JP2002366893A (ja) 帳票認識方法
JP2000090192A (ja) 住所および郵便番号の文字列修正方法
JP2001264098A (ja) ナビゲーションシステムの入力方法
JPH0689330A (ja) 画像ファイリングシステム
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP3985926B2 (ja) 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体
JP2682873B2 (ja) 表形式文書の認識装置
JPH08335247A (ja) フォーマット情報生成方法及びフォーマット情報生成装置