JP2001126010A - 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 - Google Patents

帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体

Info

Publication number
JP2001126010A
JP2001126010A JP31059999A JP31059999A JP2001126010A JP 2001126010 A JP2001126010 A JP 2001126010A JP 31059999 A JP31059999 A JP 31059999A JP 31059999 A JP31059999 A JP 31059999A JP 2001126010 A JP2001126010 A JP 2001126010A
Authority
JP
Japan
Prior art keywords
character
area
information
keyword
form definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP31059999A
Other languages
English (en)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP31059999A priority Critical patent/JP2001126010A/ja
Publication of JP2001126010A publication Critical patent/JP2001126010A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 詳細な内容の帳票定義データの作成を自動化
する。 【解決手段】 罫線抽出部300、罫線特徴抽出部30
2、枠抽出部304により、帳票のマスター画像上の罫
線で囲まれた枠領域とその罫線特徴を抽出する。文字認
識部310の認識結果とキーワード辞書314とを辞書
照合部312で照合し、枠作成部316で、キーワード
と一致した文字(列)の近傍に文字記入枠などの枠領域
を作成し、その大きさの妥当性を枠判定部318でチェ
ツクする。帳票定義出力部322で、各領域の領域情報
や罫線特徴などが帳票定義書式に従って整理され、帳票
定義データとして出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、帳票に記入された
データの文字認識などを行う帳票処理の分野に係り、特
に、帳票処理のために利用される帳票定義データの作成
を自動化する技術に関する。
【0002】
【従来の技術】帳票上に設定された文字記入枠に記入さ
れた文字の認識などを行う帳票処理装置においては、一
般に、帳票上の文字記入枠の位置などを定義した帳票定
義データを予め用意しておく必要がある。
【0003】このような帳票定義データの作成を支援す
る手段として、データが記入されていない帳票の画像
(マスター画像)をコンピュータのディスプレイに縮小
表示し、マウスなどのポインティングデバイスを利用し
て画面上で文字記入枠を指示することにより、その文字
記入枠の領域情報(位置)を自動抽出させ、また、指定
した文字記入枠に関する文字種や知識処理などの情報を
対話的に設定することができるソフトウェアなどが存在
する。
【0004】
【発明が解決しようとする課題】しかし、そのようなソ
フトウェアなどは、帳票定義データの作成に多くの人手
操作を必要とし、対話的な操作環境を提供するとはいっ
ても作業が繁雑で間違いも起きやすい。また、帳票処理
装置において、様々な帳票の種類識別や、帳票上の様々
な領域の識別や処理の制御などを的確に行うためには、
文字記入枠などを囲む罫線の特徴など、より詳細な情報
を含む帳票定義データが必要とされる。また、罫線で囲
まれていない文字記入枠などの領域を持つ帳票も存在す
るので、そのような領域に関しても定義できなければな
らない。
【0005】よって、本発明の目的は、データが記入さ
れていない帳票の画像(マスター画像)に基づいて、そ
の帳票定義データを自動的に作成できるようにすること
である。本発明のもう1つの目的は、帳票のマスター画
像に基づいて、より詳細な帳票定義情報を含む帳票定義
データをマスター画像に基づいて自動的に作成できるよ
うにすることである。本発明のもう1つの目的は、帳票
のマスター画像から、罫線で囲まれていない文字記入枠
のような領域を自動的に抽出できるようにすることであ
る。
【0006】
【課題を解決するための手段】前記目的を達成するた
め、請求項1記載の発明によれば、帳票のマスター画像
を入力する手段と、入力されたマスター画像上の文字記
入枠などの領域を指定するための手段と、指定された各
領域の周辺部分の罫線特徴を前記マスター画像より抽出
する手段と、予め定められた帳票定義書式に従って、少
なくとも前記各領域に関する領域情報と罫線特徴を整理
し、帳票定義データとして出力する手段とを具備する構
成とされる。
【0007】請求項2記載の発明によれば、帳票のマス
ター画像を入力する手段と、入力されたマスター画像よ
り罫線及びその特徴を抽出する手段と、抽出された罫線
により囲まれた領域を抽出する手段と、予め定められた
帳票定義書式に従って、少なくとも前記各領域に関する
領域情報と罫線特徴を整理し、帳票定義データとして出
力する手段とを具備する構成とされる。
【0008】請求項3記載の発明によれば、請求項1又
は2記載の発明の構成に、各領域の内部にプレ印刷文字
が存在するか否かを判定する手段が加えられ、その判定
結果の情報も帳票定義データに含めて出力される。
【0009】請求項4記載の発明によれば、帳票のマス
ター画像を入力する手段と、入力されたマスター画像に
対し文字認識を行う手段と、その認識結果とキーワード
辞書とを照合する手段と、この照合で前記キーワード辞
書に登録されているいずれかのキーワードと一致した文
字又は文字列の近傍の特定位置に文字記入枠などの領域
を作成する手段と、予め定められた帳票定義書式に従っ
て、少なくとも前記各領域に関する領域情報を整理し、
帳票定義データとして出力する手段とを具備する構成と
される。
【0010】請求項5記載の発明によれば、請求項4記
載の発明の構成において、キーワード辞書にキーワード
に対応した文字種の情報も登録され、キーワードと一致
した文字又は文字列の近傍に作成された領域に関する情
報として、そのキーワードに対応して前記キーワード辞
書に登録されている文字種の情報も帳票定義データに含
めて出力される。
【0011】請求項6記載の発明によれば、請求項4又
は5記載の発明の構成に、マスター画像より罫線及びそ
の特徴を抽出する手段と、抽出された罫線により囲まれ
た領域を抽出する手段とが加えられ、抽出された各領域
に関する領域情報と罫線特徴も帳票定義データに含めて
出力される。
【0012】請求項7記載の発明によれば、請求項1又
は2記載の発明の構成に、各領域に対し文字認識を行う
手段と、その認識結果と、キーワードと文字種と位置の
情報が対応付けられて登録されているキーワード辞書と
を照合する手段と、この照合でいずれかのキーワードと
一致した領域の近傍の、そのキーワードに対応した位置
の情報で指定された他の領域に対し、そのキーワードに
対応した文字種を設定する手段とが加えられ、少なくと
も前記各領域に関する文字種の情報も帳票定義データに
含めて出力される。
【0013】請求項8記載の発明によれば、請求項1又
は2記載の発明の構成に、各領域の内部にプレ印刷文字
が存在するか否かを判定する手段と、これによりプレ印
刷文字が存在すると判定された領域に対し文字認識を行
う手段と、その認識結果と、キーワードと文字種と位置
の情報が対応付けられて登録されているキーワード辞書
とを照合する手段と、この照合でいずれかのキーワード
と一致した領域の近傍の、そのキーワードに対応した位
置の情報で指定された他の領域に対し、そのキーワード
に対応した文字種を設定する手段とが加えられ、少なく
とも各領域に関する文字種とプレ印刷文字の有無の情報
も帳票定義データに含めて出力される。
【0014】請求項9記載の発明によれば、請求項1又
は2記載の発明の構成に、マスター画像に対し文字認識
を行う手段と、その認識結果と、キーワードと文字種と
位置の情報が対応付けられて登録されているキーワード
辞書とを照合する手段と、この照合でいずれかのキーワ
ードと一致した文字又は文字列が、抽出されている領域
の内部にある場合に、その領域の近傍の、そのキーワー
ドに対応した位置の情報で指定された他の領域に対し、
そのキーワードに対応した文字種を設定する手段とが加
えられ、少なくとも前記各領域に関する文字種の情報も
帳票定義データに含めて出力される。
【0015】請求項10記載の発明によれば、帳票のマ
スター画像上のポインティングデバイスなどにより指定
された領域の周辺部分の罫線特徴を前記マスター画像よ
り抽出するステップと、予め定められた帳票定義書式に
従って、少なくとも前記各領域に関する領域情報と罫線
特徴を整理して帳票定義データを作成するステップとを
有する構成とされる。
【0016】請求項11記載の発明によれば、帳票のマ
スター画像より罫線及びその特徴を抽出するステップ
と、抽出された罫線により囲まれた領域を抽出するステ
ップと、予め定められた帳票定義書式に従って、少なく
とも前記各領域に関する領域情報と罫線特徴を整理して
帳票定義データを作成するステップとを有する構成とさ
れる。
【0017】請求項12記載の発明によれば、請求項1
0又は11記載の発明の構成に、各領域の内部にプレ印
刷文字が存在するか否かを判定するステップが加えら
れ、その判定結果の情報も帳票定義データに含められ
る。
【0018】請求項13記載の発明によれば、帳票のマ
スター画像に対し文字認識を行うステップと、その認識
結果とキーワード辞書とを照合するステップと、この照
合で前記キーワード辞書に登録されているいずれかのキ
ーワードと一致した文字又は文字列の近傍の特定位置に
文字記入枠などの領域を作成するステップと、予め定め
られた帳票定義書式に従って、少なくとも前記各領域に
関する領域情報を整理して帳票定義データを作成するス
テップとを有する構成とされる。
【0019】請求項14記載の発明によれば、請求項1
3記載の発明の構成において、キーワード辞書にキーワ
ードに対応した文字種の情報も登録され、キーワードと
一致した文字又は文字列の近傍に作成された領域に関す
る情報として、そのキーワードに対応して前記キーワー
ド辞書に登録されている文字種の情報も帳票定義データ
に含められる。
【0020】請求項15記載の発明によれば、請求項1
3又は14記載の発明の構成に、マスター画像より罫線
及びその特徴を抽出するステップと、抽出された罫線に
より囲まれた領域を抽出するステップとが加えられ、抽
出された各領域に関する領域情報と罫線特徴も帳票定義
データに含められる。
【0021】請求項16記載の発明によれば、請求項1
0又は11記載の発明の構成に、各領域に対し文字認識
を行うステップと、その認識結果と、キーワードと文字
種と位置の情報が対応付けられて登録されているキーワ
ード辞書とを照合するステップと、この照合でいずれか
のキーワードと一致した領域の近傍の、そのキーワード
に対応した位置の情報で指定された他の領域に対し、そ
のキーワードに対応した文字種を設定するステップとが
加えられ、少なくとも前記各領域に関する文字種の情報
も帳票定義データに含められる。
【0022】請求項17記載の発明によれば、請求項1
0又は11記載の発明の構成に、各領域の内部にプレ印
刷文字が存在するか否かを判定するステップと、これに
よりプレ印刷文字が存在すると判定された領域に対し文
字認識を行うステップと、その認識結果と、キーワード
と文字種と位置の情報が対応付けられて登録されている
キーワード辞書とを照合するステップと、この照合でい
ずれかのキーワードと一致した領域の近傍の、そのキー
ワードに対応した位置の情報で指定された他の領域に対
し、そのキーワードに対応した文字種を設定するステッ
プとが加えられ、少なくとも各領域に関する文字種とプ
レ印刷文字の有無の情報も帳票定義データに含められ
る。
【0023】請求項18記載の発明によれば、請求項1
0又は11記載の発明の構成に、マスター画像に対し文
字認識を行うステップと、その認識結果と、キーワード
と文字種と位置の情報が対応付けられて登録されている
キーワード辞書とを照合するステップと、この照合でい
ずれかのキーワードと一致した文字又は文字列が、抽出
されている領域の内部にある場合に、その領域の近傍
の、そのキーワードに対応した位置の情報で指定された
他の領域に対し、そのキーワードに対応した文字種を設
定するステップとが加えられ、少なくとも前記各領域に
関する文字種の情報も帳票定義データに含められる。
【0024】請求項19記載の発明によれば、帳票のマ
スター画像に対し文字認識を行うステップと、その認識
結果とキーワード辞書とを照合するステップと、この照
合で前記キーワード辞書に登録されているいずれかのキ
ーワードと一致した文字又は文字列を起点として、文字
高さに相当する長さの縦ラインを、予め定められた最大
探索幅を限度として、水平方向に順次移動させながら黒
画素を探索するステップと、このステップにより探索さ
れた範囲の上端及び下端を起点として、その範囲の幅に
相当する横ラインを、予め定められた最大探索高さを限
度として、上方向及び下方向にそれぞれ順次移動させな
がら黒画素を探索することにより、文字記入枠などの領
域の候補を作成するステップと、作成された領域の候補
が文字記入枠などして妥当であるか判定するステップと
によって、マスター画像上の罫線で囲まれない文字記入
枠などの領域が抽出される。
【0025】
【発明の実施の形態】以下、添付図面を参照しながら本
発明の実施の形態について説明する。図1は、本発明の
実施の一形態である帳票処理装置の全体的構成の一例を
示すブロック図である。この帳票処理装置は、データが
記入された帳票の画像又はデータが記入されていない帳
票の画像を入力するための画像入力部1と、入力された
帳票画像から、帳票に記入(手書き又は印刷)された文
字の認識などを行う帳票認識処理部2と、この帳票認識
処理部2で利用される帳票定義データを作成する帳票定
義作成部3と、帳票定義データなどのデータを蓄積する
ためのデータ蓄積部4とからなる。
【0026】帳票定義を作成する場合には、データが記
入(手書き又は印刷)されていない帳票の画像(マスタ
ー画像)が画像入力部1によって入力される。帳票定義
作成部3において、入力されたマスター画像上の文字記
入領域などの領域情報、それらに関する罫線の情報など
を抽出し、それを予め定められた帳票定義の書式に従っ
て整理して帳票定義データほ作成しデータ蓄積部4に出
力する。
【0027】帳票の文字認識などの処理を行う場合に
は、データが記入された帳票の画像が画像入力部1によ
って入力される。帳票認識処理部2においては、入力さ
れた帳票画像に対する処理を行う際に、データ蓄積部4
に蓄積されている帳票定義データを参照する。例えば、
入力された帳票画像上の文字記入枠の配置などと帳票定
義データとを照合することによって、帳票の種類識別
や、文字記入枠などの識別などを行う。
【0028】このような帳票処理装置は、専用のハード
ウェアとして実現できることは当然であるが、例えば、
図16に示すCPU600、メモリ601、ハードディ
スク602、ディスプレイ603、キーボードやマウス
(ポインティングデバイス)などからなるユーザ入力装
置604、イメージスキャナ605、フロッピーディス
ク、光ディスク、光磁気ディスクなどの記憶媒体606
の読み書きのための媒体ドライブ607、通信装置60
8などをバス609で接続したようなコンピュータを利
用して、ソフトウェアによって実現してもよい。この場
合、図1中の各部の機能を、コンピュータのハードウェ
ア資源を利用して実現させるためのプログラム、換言す
れば、帳票処理装置で遂行される処理をコンピュータ上
で実行させるためのプログラムは、例えば、同プログラ
ムが記録された記憶媒体606から媒体ドライブ607
により読み込まれ、又は通信装置608によってネット
ワーク経由で外部のコンピュータなどから取り込まれ
る。そして、同プログラムは、メモリ601に直接ロー
ドされるか、あるいは、ハードディスク602に一旦保
存され、必要な時にハードディスク602から読み出さ
れてメモリ601にロードされ、CPU600で実行さ
れることにより、帳票処理装置がコンピュータ上に実現
される。同プログラムが記録された記憶媒体も本発明に
包含される。同プログラムを格納したROM、EEPR
OMのような半導体記憶媒体をコンピュータに実装して
もよく、このような半導体記憶媒体も本発明に包含され
る。
【0029】図1に示した帳票処理装置において、帳票
定義作成部3が本発明の特徴と直接関係する部分である
ので、帳票定義作成部3の具体的な構成及び処理内容に
ついて以下に詳述するが、図16のコンピュータ上でソ
フトウェアによって帳票処理装置が実現される場合を考
慮し、図16と適宜関連付けながら説明する。
【0030】《実施例1》図2は、本発明の実施例1に
よる帳票定義作成部3の内部構成を処理の流れに沿う形
で簡略化して示すブロック図である。図1に見られるよ
うに、本実施例の帳票定義作成部3は、文字記入枠など
の領域(枠領域と総称する)を指定するための領域指定
部100と、指定された枠領域に関連した罫線を抽出す
るための罫線抽出部102と、罫線の特徴を抽出する罫
線特徴抽出部104と、枠領域の内部にプレ印刷文字が
あるか否かを判定するためのプレ印刷判定部106と、
指定された枠領域の領域情報(例えば領域の左上コーナ
ーの座標と右下コーナーの座標:始点、終点の座標)、
抽出された罫線の特徴、及び、定義情報入力部108か
ら必要に応じて人手で入力された定義情報を、予め定め
られている帳票定義書式に従って整理し、帳票定義デー
タとしてデータ蓄積部4へ出力する帳票定義出力部11
0とから構成される。罫線抽出処理と罫線特徴抽出処理
とは一般に密接に関連するため、図2に見られるよう
に、罫線特徴抽出部104は罫線抽出部102に一体化
されることが多い。以下、各部の処理内容について全体
的な処理の流れに沿って説明する。
【0031】ある帳票の定義を作成する場合、まず、デ
ータが記入(手書き又は印刷)されていない帳票の画像
(マスター画像)が画像入力部1によって入力される。
このマスター画像の入力は、図16のコンピュータで
は、例えばイメージスキャナ605によってデータが未
記入の帳票を読み取ることによって行われ、入力された
マスター画像はメモリ601の特定領域に記憶される。
なお、予めマスター画像を記憶媒体606やハードディ
スク602に保存しておき、それをメモリ601に読み
込むような形態もとり得る。本実施例及び後記各実施例
では、マスター画像は白黒2値画像とする。罫線の色も
罫線特徴として利用する場合には、カラーのマスター画
像を入力し、罫線特徴抽出部104で罫線の色も特徴と
して抽出させるようにすればよい。
【0032】次に、枠領域指定部100によって、マス
ター画像上の1つ以上の枠領域が指定される。枠領域指
定部100による枠領域指定は、例えば図16のコンピ
ュータにおいて、マスター画像を表示したディスプレイ
603の画面上で、ユーザ入力装置604に含まれるマ
ウス(ポインティングデバイス)を利用して枠領域の左
上コーナーと右下コーナーを指定するような操作によっ
て行われる。指定される枠領域には、四方を罫線で囲ま
れた領域と、全方向又は一部方向に罫線がない領域とが
ある。
【0033】枠領域が指定されると、指定された枠領域
が1つずつ選ばれ、その枠領域に対する罫線抽出と罫線
特徴抽出の処理が罫線抽出部102及び罫線特徴抽出部
104によって行われる。これらの処理は、枠領域の周
辺部分について行われる。例えば、図3に示す枠領域1
20が指定された場合、この枠領域120の左辺近傍部
分を含む矩形領域121の範囲について罫線抽出と罫線
特徴抽出が行われる。枠領域120の右辺、上辺、下辺
の近傍部分についても、同様な矩形領域の範囲について
罫線抽出と罫線特徴抽出が行われる。このような罫線抽
出と罫線特徴抽出は、公知の様々な手法を利用し得る
が、例えば次のような方法で行われる。
【0034】処理範囲内において、罫線方向(枠領域の
左辺と右辺については垂直方向、上辺と下辺については
水平方向)の黒ランを抽出する。罫線方向に接続した黒
ランを矩形統合するとともに、各矩形の幅、長さ、隣の
矩形との間隔に関するヒストグラムを求める。実線とみ
なせる長い矩形は、罫線方向に連続しているとみなせる
ものを統合し、統合矩形の長さ、幅などが枠領域を囲む
罫線として妥当であれば実罫線として抽出する。実罫線
が抽出されなければ、点線罫線の可能性を調べる。点線
罫線ならば、比較的小さな一定の長さ値、幅値、間隔値
でヒストグラムにピークが現れる。そのようなピークが
あれば、そのピークに対応した長さ値、幅値及び間隔値
の矩形を罫線方向に統合し、枠領域を囲む点線罫線とし
ての妥当性を調べ、妥当なら点線罫線として抽出する。
そして、罫線が抽出された場合は、その太さを抽出す
る。罫線として抽出された矩形の幅を、そのまま太さと
することも可能である。スキューを考慮する必要がある
場合は、例えば、罫線矩形内を再走査して罫線方向と直
行する方向の黒ランの長さを検出し、その平均値や中央
値などを太さとする方法も可能であろう。あるいは、よ
り簡便な方法として、実罫線ならば、その罫線矩形中の
黒画素数を、罫線矩形の長さで割った値をその太さと
し、点線罫線ならば、その罫線矩形中の黒画素数を、罫
線矩形の長さから定数又はヒストグラムのピークに対応
した間隔値によって決まる値を引いた値で、割った値を
太さとするような方法を用いてもよい。点線罫線につい
ては、点と点の間隔(点線間隔)も求められる。例え
ば、矩形間隔のヒストグラムのピークに対応した間隔値
を、そのまま点線間隔の値とすることができる。このよ
うにして、枠領域の上下左右各々における罫線特徴とし
て、罫線種類(実線/点線/空白)、罫線の太さ、点線
間隔が得られる。ただし、罫線種類の「空白」とは、罫
線が抽出されないことを意味する。つまり、罫線で囲ま
れない文字記入枠や、ある方向のみ罫線が存在する文字
記入枠なども定義可能である。
【0035】なお、罫線抽出及び罫線特徴抽出には上に
述べた方法以外の方法を用いてよいが、帳票認識処理部
2における罫線抽出及び罫線特徴抽出との整合性を考慮
する必要がある。
【0036】次に、プレ印刷判定部106で、指定され
た各枠領域の内部にプレ印刷文字があるか無いかの判定
が行われる。この判定は、様々な方法で行うことが可能
である。例えば、枠領域内部の黒画素数を計数し、その
計数値が、ノイズなどによる誤差を考慮した、ある閾値
以上であれば、プレ印刷文字があると判定し、その閾値
未満であればプレ印刷文字がないと判定する方法を利用
できる。枠領域内部において黒画素連結成分に外接する
矩形の抽出を行い、ある閾値より大きな矩形が抽出され
た場合にプレ印刷文字があると判定し、そうでない場合
にプレ印刷文字がないと判定する方法も可能である。こ
の判定結果は、枠領域の1つの特徴である。
【0037】以上のような処理が指定された枠領域すべ
てに対して繰り返されることにより、文字記入枠などの
枠領域を指定するだけで、各枠領域の領域情報(始点、
終点の座標)のほかに、上下左右における罫線特徴とし
て罫線種類(実線/点線/空白)、罫線太さ、及び、点
線罫線の点線間隔と、枠領域内部の特徴としてのプレ印
刷文字の有無といった情報が自動的に得られる。枠領域
の指定のために人手が介入する点は後記実施例2に比べ
て不利な点でもあるが、その代わり、罫線で囲まれてい
ない文字記入枠などの定義情報も抽出できる利点があ
る。これらの情報と、必要ならば定義情報入力部108
によって入力された他の定義情報も、帳票定義出力部1
10において、予め定められた帳票定義書式に従って整
理され、帳票定義データとしてデータ蓄積部4に出力さ
れる。
【0038】帳票定義書式の一例を図17に示す。この
書式を用いる場合、本実施例では、「キーワードの有
無」、「認識情報(OCR種類、文字種)」、「枠の意
味(日付、金額など)」の定義情報は、定義情報入力部
108によって人手で入力する必要がある。これらの定
義情報が不要ならば、本実施例によれば、枠領域を指定
する操作を行うだけで、他の定義情報はすべて自動的に
抽出され、それらの情報を含む帳票定義データが作成さ
れることになる。なお、定義情報入力部108による定
義情報入力は、例えば図16のコンピュータにおいて、
ディスプレイ603に表示された案内画面に従って、ユ
ーザ入力装置604に含まれるキーボードやマウスを利
用して文字などを入力する操作である。
【0039】前述のように、帳票認識処理部2は、画像
入力部1より入力された帳票画像に対する認識処理を行
う際に、データ蓄積部4に蓄積されている帳票定義デー
タを参照することによって、入力帳票の種類識別や文字
記入枠の識別などを行う。この際、罫線定義データには
枠領域の領域情報(始点、終点の座標)に加え、罫線種
類(実線/点線/空白)、罫線太さ、点線間隔の情報が
含まれているため、帳票認識処理部2において、入力帳
票画像の罫線とその特徴を抽出し、その結果と罫線定義
データとを照合することによって、より高精度な識別が
可能となる。また、帳票定義データから枠領域内部のプ
レ印刷文字の有無が分かるため、枠領域が項目領域かデ
ータ記入領域であるかの識別が容易になるほか、プレ印
刷文字の消去処理が容易になる。このプレ印刷文字の消
去について次に説明する。
【0040】図4は、質問文と回答選択肢が印刷されて
いて、回答者が選んだ選択肢に丸印を記入するようなア
ンケート用紙の一例を示している。各選択肢に対するチ
ェックの有無判定を、その領域内の黒画素数カウントに
よって行うような場合、プレ印刷文字の画素を消去する
処理を適用する必要がある。しかし、画像全体に対しプ
レ印刷文字の消去処理を適用したのでは、処理時間がか
かり過ぎる。
【0041】このような場合、本実施例によれば、帳票
定義作成時に、例えば図5(a)に示すように、各選択
肢の領域を枠領域として指定すれば、枠領域内にプレ印
刷文字があるか否かの情報が帳票定義データに自動的に
設定される。したがって、帳票認識処理部2において、
帳票定義データに従ってプレ印刷文字がある枠領域にの
み選択的にプレ印刷文字の消去処理を適用することがで
きる。そして、図5(b)のように選択肢がチェックさ
れた場合、理想的には、図5(c)のように各選択肢の
枠領域内のプレ印刷文字が消去され、回答者が記入した
丸印のみが残るため、枠領域内の黒画素数カウントによ
って、チェックされた選択肢を容易、確実に認識でき
る。
【0042】《実施例2》図6は、本発明の実施例2に
よる帳票定義作成部3の内部構成を処理の流れに沿う形
で簡略化して示すブロック図である。図6に示すよう
に、本実施例の帳票定義作成部3は、マスター画像上の
罫線を抽出する罫線抽出部200、抽出された罫線の種
類、太さ、点線間隔を抽出する罫線特徴抽出部202、
罫線で囲まれた枠領域を抽出する枠抽出部204、枠領
域内部のプレ印刷文字の有無を判定するプレ印刷判定部
206、必要に応じて人手により定義情報を入力するた
めの定義情報入力部208、帳票定義データを作成しデ
ータ蓄積部4へ出力する帳票定義出力部210からな
る。前記実施例1に関連して述べたように、罫線特徴抽
出は罫線特徴抽出と一般に密接に関連するため、本実施
例においても罫線特徴抽出部202は罫線抽出部200
に一体化された形で図示されている。また、罫線で囲ま
れた枠抽出も罫線抽出と密接に関連することが多いた
め、本実施例においては、枠抽出部204も罫線抽出部
200に一体化された形で示されている。このような帳
票定義作成部3の各部の処理内容について、全体的な処
理の流れに沿って以下に説明する。
【0043】まず、帳票のマスター画像が画像入力部1
によって入力される。このマスター画像に対し、罫線抽
出と罫線特徴抽出の処理が罫線抽出部200と罫線特徴
抽出部202によって行われ、また、抽出された罫線に
よって囲まれた枠領域の抽出処理が枠抽出部204で行
われる。
【0044】このような処理は、公知の様々な方法で行
ってよい。例えば、マスター画像の全体を処理範囲とし
て、前記実施例1と同様の方法で実線罫線と点線罫線を
抽出し、また、抽出した罫線の太さ、点線罫線の点線間
隔などを抽出し、そして、抽出された罫線で囲まれた領
域を枠領域として抽出することができる。
【0045】また、次のような方法を用いることも可能
である。マスター画像の各走査ライン毎に黒画素又は水
平方向黒ランのヒストグラムを求め、そのヒストグラム
値が所定値を越える位置を水平罫線候補領域の上下のY
座標値とし、また、各画素位置毎に黒画素又は垂直方向
黒ランのヒストグラムを求め、そのヒストグラム値が所
定値を越える位置を垂直罫線候補領域の左右のX座標値
とする。そして、それら座標値を用いてマスター画像を
罫線で囲まれていると推定される領域に分割し、各分割
領域の4辺近傍領域の画像を観測し、例えば、黒画素の
個数又は比率、黒連結成分矩形の個数、大きさや間隔又
はその偏差などを基準にして、罫線の有無、罫線の太さ
や種類、点線破線の点線間隔を判定する。最終的に、4
辺を罫線で囲まれた分割領域が有効な枠領域として抽出
される。
【0046】なお、罫線抽出、罫線特徴抽出及び枠領域
抽出には上に述べた方法のほか様々な方法を用いてよい
が、帳票認識処理部2における対応した処理の方法との
整合性を考慮する必要がある。
【0047】このようにして抽出された各枠領域に対
し、プレ印刷判定部206で、領域内部にプレ印刷文字
があるか否かが判定される。この判定の方法は、前記実
施例1に関連して述べたような方法でよい。
【0048】以上のような処理によって、人手を全く介
在することなく、罫線で囲まれた枠領域の領域情報(始
点、終点の座標)のほかに、それを囲む上下左右の罫線
の種類(実線/点線)、太さ、及び、点線罫線の点線間
隔と、枠領域内部のプレ印刷文字の有無の情報が得られ
る。必要ならば定義情報入力部208によって他の定義
情報も入力される。そして、それらの情報が、帳票定義
出力部210において、予め定められた帳票定義の書
式、例えば図17に示す書式に従って整理されて帳票定
義データが作成され、データ蓄積部4に出力される。
【0049】このように、本実施例によれば、前記実施
例1で必要であった枠領域指定のための人手の介入を排
除し、かつ、同様の情報を含む帳票定義データを作成す
ることができる。図17に示す書式中の「キーワードの
有無」、「認識情報(OCR種類、文字種)」、「枠の
意味」の情報を必要としないのであれば、帳票定義デー
タの作成を完全に自動化できる。
【0050】《実施例3》図7は、本発明の実施例3に
よる帳票定義作成部3の内部構成を処理の流れに沿う形
で簡略化して示すブロック図である。図7に示すよう
に、本実施例の帳票定義作成部3は、罫線で囲まれた枠
領域の情報を抽出するための罫線抽出部300、罫線特
徴抽出部302及び枠抽出部304からなるブロック
と、罫線で囲まれない枠領域の情報を抽出するための処
理ブロック330と、必要に応じて人手操作で定義情報
を入力するための定義情報入力部320と、帳票定義出
力部322とからなる。処理ブロック330は、文字認
識部310、文字認識結果をキーワード辞書314と照
合する辞書照合部312、枠作成部316及び枠判定部
318から構成される。図8は、処理ブロック330の
処理内容を説明するためのフローチャートである。
【0051】このような帳票定義作成部3の処理内容に
ついて、全体的な処理の流れに沿って以下に説明する。
【0052】帳票のマスター画像が画像入力部1によっ
て入力される。このマスター画像に対し、罫線抽出部3
00、罫線特徴抽出部302及び枠抽出部304によっ
て、罫線抽出、罫線特徴抽出、罫線で囲まれた枠領域の
抽出のための処理が行われる。このような処理の内容
は、前記実施例2の対応部分と同様であるので、ここで
は説明を省略する。
【0053】一方、処理ブロック330において、帳票
上のプレ印刷キーワードの近傍に設定された、罫線で囲
まれない枠領域が抽出される。例えば、図10(a)に
部分的に示すような帳票において、図10(b)に示す
ように、プレ印刷文字「月」の左側の文字記入領域34
1やプレ印刷文字「日」の左側の文字記入領域342な
どが、枠領域として抽出される。具体的な処理内容を図
8及び図9のフローチャートを参照して説明する。キー
ワードは、例えば、「年」「月」「日」「時」「分」
「フリガナ」「電話」などの文字又は文字列である。
【0054】処理ブロック330において、文字認識部
310は、マスター画像上の黒画素連結矩形を抽出し
(ステップS1)、偏と旁、冠と足のような1文字の一
部とみなされるような矩形を統合する(ステップS
2)。この統合処理後の矩形について、その大きさや縦
横比などから明らかに文字でないと判断される矩形は認
識対象から排除する(ステップS4)。なお、このよう
な不要矩形の排除の処理は、ステップS5からステップ
S10の処理ループ内で行ってもよい。次に、排除され
なかった矩形の領域の画像の特徴を抽出し、抽出された
特徴量と不図示の認識用辞書とのマッチングを行って認
識結果を得る(ステップS5)。矩形の処理順序は、横
書き伝票の場合には、上の矩形並びから下の矩形並びへ
と処理し、また、矩形並びの中では左端の矩形から順次
右側と処理する。辞書照合部312は、認識結果の第1
候補をキーワード辞書314に登録されているキーワー
ドの文字と照合する(ステップS6)。どのキーワード
の文字とも一致しない場合(ステップS7,NO)、ス
テップS5に戻り次の矩形を処理する。ステップS6の
照合で、注目した矩形の認識結果の第1候補が、あるキ
ーワードの1文字と一致した場合(ステップS7,YE
S)、その一致がキーワード全文字との一致であるかチ
ェックする(ステップS8)。すなわち、一致したキー
ワードが1文字のみからなる場合には、ステップS7で
一致すればキーワード全文字と一致したと判断してよい
が、複数文字からなるキーワードの場合には、連続した
複数の矩形(文字列)に対する認識結果の第1候補とキ
ーワードの各文字との一致を調べる必要がある。この一
致判定をステップS8で行うわけである。あるキーワー
ドの全文字と一致した場合、そのキーワードに相当する
プレ印刷文字(又は文字列)の左側に枠領域を設定する
処理を枠作成部316及び枠判定部318で行い(ステ
ップS9)、次の矩形の処理に戻る。キーワードの全文
字について一致がとれない場合、枠領域設定処理を行う
ことなく次の矩形の処理に戻る。同様の処理が最後の矩
形まで繰り返される。なお、1文字からなるキーワード
だけを考慮する場合には、ステップS8は不要であり、
ステップS6で一致したときに(ステップS7,YE
S)にステップS9に進む。
【0055】ステップS9の処理内容について、図9の
フローチャートと、図10乃至図12の説明図を参照し
て説明する。
【0056】まず、枠作成部316において、キーワー
ドと一致した矩形の左端(複数文字のキーワードと一致
した場合は、その先頭文字と一致した矩形の左端)を起
点として、図11(a)に示すように、その矩形の高さ
(height)に相当する長さの縦方向ラインを探索ラインと
して、探索ラインを順次左に移動しながら黒画素を探索
し、黒画素が見つかった探索ラインの位置、又は、最大
探索幅まで探索ラインを移動しても黒画素が見つからな
かった場合は最大探索幅に達した時の探索ラインの位置
を、枠領域の左端位置に設定する(ステップS20〜S
23)。なお、探索の起点位置が枠領域の右端位置とし
て設定される。図10(a)に示す帳票にプレ印刷され
たキーワード「月」の場合、その左側には文字などがな
いため、最大探索幅まで探索される結果、図11(b)
に示す網目領域の左端位置が設定されることになる。な
お、最大探索幅はパラメータであり、手書き文字記入枠
でも2cm程度に選べば一般に十分であろう。
【0057】次に、枠作成部316において、図11
(c)に示すように、横方向の探索領域の上端及び下端
をそれぞれ起点とし、その領域幅と同じ幅の横方向ライ
ンを探索ラインとして、それを上方向及び下方向に順次
移動させながら黒画素を探索し、黒画素が見つかった探
索ラインの位置、または、最大探索高さだけ探索ライン
を移動しても黒画素が見つからなかった場合は最大探索
高さに達した時の探索ラインの位置を、枠領域の上端位
置又は下端位置に設定する(ステップS24〜S2
7)。最大探索高さは、枠領域幅を2cmとすると、1
cm程度に選べば一般に十分であろう。図10に示すキ
ーワード「月」の場合、上方向には文字などが存在しな
いので、上方向は最大探索高さまで探索しても黒画素が
見つからないがが、下方向は最大探索高さまで探索する
手前で罫線に到達する。したがって、縦方向探索で、図
11(d)に示す網目領域が「月」の左側の枠領域候補
として作成される。
【0058】最後に、枠判定部318において、以上の
ようにして作成された枠領域候補の縦横の大きさが文字
記入枠として妥当であるかチェックし(ステップS2
8)、妥当ならば枠領域候補を枠領域として設定する
(ステップS29)。以上の処理によって、図10
(a)に示したマスター画像上にプレ印刷されたキーワ
ード「月」と「日」の左側に、図10(b)に網掛けし
て示すような枠領域341,342が抽出される。この
枠領域は、罫線で囲まれていないので、その罫線特徴は
上下左右とも「空白」となる。また、内部にプレ印刷文
字はないのでプレ印刷の有無は「無」となる。また、対
応するのキーワードがプレ印刷されているので、キーワ
ードは「有」となる。
【0059】なお、図12に示すように、キーワードの
前に罫線で囲まれた記入枠がプレ印刷されているような
帳票の場合、網掛けして示した狭い領域350のような
不要な枠領域が抽出される可能性がある。文章中にキー
ワードが含まれている場合にも、同様な不要領域が抽出
される可能性がある。前記ステップS28は、このよう
な不要な枠領域を排除することを目的としている。
【0060】以上のような処理によって、人手を全く介
在することなく、罫線で囲まれた枠領域の領域情報(始
点、終点の座標)のほかに、それを囲む上下左右の罫線
の種類(実線/点線)、太さ、及び、点線罫線の点線間
隔と、プレ印刷されたキーワードに関連した、罫線で囲
まれていない枠領域の領域情報(その罫線種類は「空
白」)が抽出される。これらの情報と、必要に応じて定
義情報入力部320によって入力された他の定義情報
は、帳票定義出力部210において、例えば図17に示
す帳票定義書式に従って整理されて帳票定義データが作
成され、データ蓄積部4に出力される。
【0061】このように、本実施例によれば、罫線に基
づいて抽出することができないような文字記入枠のよう
な領域に関する情報をも含む帳票定義データを自動的に
作成することができる。図17に示す帳票定義書式中の
「認識情報(OCR種類、文字種)」、「枠の意味」の
情報を必要としないのであれば、帳票定義データ作成を
完全に自動化できる。なお、キーワードと一致するプレ
印刷文字又は文字列の前に枠領域を抽出すると説明した
が、それに限らず、そのような文字又は文字列の近傍の
特定位置、例えば前後に枠領域を抽出する態様も可能で
ある。
【0062】《実施例4》本発明の実施例4による帳票
定義作成部3は、前記実施例3と同様のブロック構成
(図7)である。また、処理ブロック330における処
理も基本的に前記実施例3と同様である。前記実施例3
との相違点は、罫線で囲まれていない枠領域に記入され
る文字種の情報も帳票定義情報として取得する点であ
る。以下、この相違点についてのみ、前記実施例3に関
連した図面を援用して説明する。
【0063】本実施例においては、図7に示すキーワー
ド辞書314に、キーワードのほかに、各キーワードに
対応した文字種の情報が登録されている。例えば、
「年:数字」「月:数字」「日:数字」「時:数字」
「分:数字」「フリガナ:カタカナ」「電話:数字|記
号(数字と記号のOR)」というようなキーワードと文
字種の組合わせが登録されている。
【0064】辞書照合部312においては、あるキーワ
ードの全文字と一致がとれた場合(図8のステップS8
で全部一致と判定された場合)、そのキーワードに対応
した文字種の情報もキーワード辞書314から取り出
す。この文字種の情報は枠領域に設定され、枠領域の領
域情報とともに帳票定義出力部322に渡され、図17
に示す帳票定義書式中の「文字種」として出力される。
例えば図10(b)の枠領域341,342について
は、「文字種」として「数字」が出力される。
【0065】このように帳票定義データに枠領域の文字
種を定義する情報が含まれていると、帳票認識処理部2
において枠領域に対する文字認識が容易になり、認識誤
りも減少する。
【0066】《実施例5》図13は、本発明の実施例5
による帳票定義作成部3の内部構成を処理の流れに沿う
形で簡略化して示すブロック図である。図13に示すよ
うに、本実施例の帳票定義作成部3は、領域指定部40
0、罫線抽出部402、罫線特徴抽出部404、プレ印
刷判定部406、文字認識部408、辞書照合部41
0、キーワード辞書412、枠特徴設定部414、定義
情報入力部416及び帳票定義出力部418からなる。
【0067】領域指定部400は前記実施例1の対応部
と同様に人手による枠領域の指定を行うための部分であ
る。罫線抽出部402及び罫線特徴抽出部404は、前
記実施例1の対応部と同様の枠領域周辺の罫線とその特
徴の抽出処理を行う。プレ印刷判定部406は、前記実
施例1の対応部と同様に枠領域内部にプレ印刷文字があ
るか否かを判定する部分である。文字認識部408は、
プレ印刷文字があると判定された枠領域の内部に対し、
前記実施例3の対応部と同様の文字認識処理を行う部分
である。キーワード辞書412には、例えば図14に示
すようなキーワードと文字種と関連枠領域の位置の組が
登録されている。辞書照合部410は、認識結果の第1
候補について前記実施例4の対応部と同様なキーワード
辞書412との照合を行い、キーワード全体と一致がと
れた場合には、そのキーワードに対応した「文字種」と
「位置」の情報を読み出して枠特徴設定部414に渡
す。この枠特徴設定部414は、キーワードと一致する
文字又は文字列がプレ印刷された枠領域に対し、「位
置」情報で指定された位置関係にある他の枠領域に(例
えば、キーワード「年」がプレ印刷された枠領域の場合
は右隣の枠領域に、キーワード「電話」がプレ印刷され
た枠領域の場合は下隣の枠領域に)そのキーワードに対
応した文字種の情報を設定する部分である。定義情報入
力部412は、前記各実施例の対応部と同様に、必要に
応じて帳票定義情報を人手操作によって入力するための
部分である。帳票定義出力部418は、前記各実施例の
対応部と同様に、得られた各枠領域の領域情報、罫線特
徴、プレ印刷文字の有無、文字種と、人手入力された情
報とを、例えば図17に示す帳票定義書式に従って整理
し、それを帳票定義データとして出力する部分である。
【0068】全体的な処理は以下の通りである。帳票の
マスター画像が入力されると、領域指定部400によっ
て枠領域を指定する。具体的には、例えば前述のよう
に、マスター画像が表示されたディスプレイの画面上
で、マウスなどを用いて枠領域の範囲を指定することに
よって行うことができる。この段階で、指定された枠領
域の領域情報(始点と終点の座標)が抽出される。次
に、指定された枠領域の4辺部分に対し、罫線抽出部4
02と罫線特徴抽出部404で罫線とその特徴の抽出処
理が行われ、各枠領域の罫線種類(罫線の有無を含
む)、罫線の太さ、点線罫線の点線間隔が抽出される。
また、各枠領域内部のプレ印刷文字の有無がプレ印刷判
定部406で判定される。そして、プレ印刷文字のある
枠領域に対する文字認識処理が文字認識部408で行わ
れ、その認識結果の第1候補とキーワード辞書412と
の照合が辞書照合部410で行われ、キーワードとの一
致、不一致に基づいて枠領域にキーワードの有無が設定
される。そして、ある枠領域でキーワードとの一致がと
れた場合、そのキーワードと対応した文字種の情報が、
当該キーワードに対応した「位置」情報で指定される他
の枠領域に設定される。かくして、枠領域を指定するだ
けで、各枠領域の領域情報、罫線の種類、罫線の太さ、
点線罫線の点線間隔、プレ印刷の有無、キーワードの有
無(プレ印刷文字がキーワードであるか否かの別)、プ
レ印刷されたキーワードに対応した枠領域の文字種を含
む詳細な帳票定義データが自動的に作成され、帳票定義
出力部418より出力される。
【0069】なお、本実施例において、プレ印刷文字の
有無に関係なく全ての枠領域を文字認識部408の認識
対象とすることも可能である。ただし、一般にプレ印刷
文字の有無判定は、前述のように黒画素数などに基づ
き、文字認識処理に比べ遙かに短時間で行うことができ
るため、プレ印刷文字の有無判定を行い、プレ印刷文字
が存在する枠領域のみを対象として文字認識を行うほう
が処理時間の短縮を期待できる。
【0070】《実施例6》本発明の実施例6による帳票
定義作成部3は、図示しないが、前記実施例5の帳票定
義作成部における領域指定部400、罫線抽出部402
及び罫線特徴部404(図13)を、前記実施例2の罫
線抽出部200、罫線特徴抽出部202及び枠抽出部2
04(図6)と同様の処理部で置き換えた構成とされ
る。したがって、本実施例によれば、マスター画像を入
力することによって、まったく人手を介入することな
く、前記実施例5と同様の詳細な内容の帳票定義データ
を生成できる。
【0071】《実施例7》図15は、本発明の実施例7
による帳票定義作成部3の内部構成を処理の流れに沿う
形で簡略化して示すブロック図である。図15に示すよ
うに、本実施例の帳票定義作成部3は、文字認識部50
0、辞書照合部502、キーワード辞書504、枠設定
部506、枠内文字位置判定部508、枠特徴設定部5
10、定義情報入力部512及び帳票定義出力部514
からなる。
【0072】枠設定部506は、前記実施例1の領域指
定部100、罫線特徴抽出部102及び罫線特徴抽出部
104の組合せ(図2)と同様な処理ブロック、又は、
前記実施例2の罫線抽出部200、罫線特徴抽出部20
2及び枠抽出部204の組合せ(図6)と同様な処理ブ
ロックであり、マスター画像上の枠領域の領域情報と、
枠領域の周囲の罫線の種類、太さ及び点線間隔の情報を
抽出し、それを枠領域に関する情報として設定するとと
もに、枠領域の領域情報を枠内文字位置判定部508に
与える。
【0073】文字認識部500は、マスター画像全体に
対し、例えば前記実施例3の場合と同様の文字認識処理
を行ってプレ印刷文字を認識する。プレ印刷文字の位置
情報と認識結果は辞書照合部502に与えられる。キー
ワード辞書504には、前記実施例5と同様に、図14
に示すような「キーワード」「文字種」「位置」の組が
登録されている。辞書照合部502は、前記実施例3の
場合と同様に、プレ印刷文字の認識結果の第1候補とキ
ーワード辞書504との照合を行い、あるプレ印刷文字
(文字列)の認識結果がキーワードの全文字と一致した
場合に、そのプレ印刷文字(文字列)の位置情報を枠内
文字位置判定部508に与えるとともに、そのキーワー
ドに対応した文字種と位置の情報をキーワード辞書50
4から読み出して枠特徴設定部510に渡す。枠内文字
位置判定部508は、辞書照合部502より与えられた
プレ印刷文字(文字列)の位置情報と枠設定部506よ
り与えられた枠領域の領域情報とを比較し、プレ印刷文
字(文字列)がいずれかの枠領域の内部にあるか否かを
判定し、判定結果を枠特徴設定部510に与える。プレ
印刷文字(列)が枠領域の内部にあると判定された場
合、枠特徴設定部510は、その枠領域に対しプレ印刷
文字が有る旨とキーワードが有る旨の情報を設定し、ま
た、辞書照合部502より与えられた「位置」情報に従
って、その枠領域の右隣又は下隣の枠領域に対し、辞書
照合部502より与えられた「文字種」の情報を設定す
る。
【0074】以上のようにして得られた各枠領域に関す
る領域情報、罫線の種類、太さ、点線間隔、プレ印刷の
有無、キーワードの有無、文字種の情報、また、必要に
応じて定義情報入力部512より入力された情報は、帳
票定義出力部514において、例えば図17の帳票定義
書式に従って整理され、帳票定義データとして出力され
る。
【0075】なお、本実施例において、前記実施例3又
は4の枠作成部316及び枠判定部318と同様の処理
ブロックを追加し、この処理ブロックによって、枠内文
字位置判定部508で枠領域の外部であると判定された
プレ印刷文字(文字列)の近傍に、罫線で囲まれていな
い枠領域を抽出させるような構成も可能である。
【0076】以上、様々な実施例について説明したが、
本発明はそれら実施例のみに限定されるものではなく、
様々な変形が許されるものである。また、帳票認識処理
部と帳票定義作成部の両方を備える帳票処理装置に関す
る実施例について説明したが、帳票認識処理部を持たな
い、つまり、帳票定義作成専用の帳票処理装置において
も本発明を適用できることは言うまでもない。さらに付
言すれば、前述のように、前記各実施例における帳票定
義作成方法、前記実施例3又は4におけるプレ印刷文字
に基づいた文字記入枠などの領域抽出方法、それら方法
の処理ステップをコンピュータに実行させるためのプロ
グラムが記録された各種記憶媒体も、本発明に包含され
る。
【0077】
【発明の効果】以上に詳細に説明したように、本発明に
よれば、帳票定義データの作成を大幅に自動化すること
ができる。データが記入されていない帳票画像に基づい
て、文字記入枠などの枠領域の領域情報のみならず、枠
領域を囲む罫線の種類、太さ、点線罫線の点線間隔、さ
らには、枠領域内部の特徴としてのプレ印刷文字の有無
や文字種、罫線で囲まれていない文字記入枠などに関す
る情報などを含む詳細な内容の帳票定義データを容易に
作成することができる。このような詳細な内容の帳票定
義データを提供することにより、帳票処理の際に、入力
帳票の種類識別や文字記入枠の識別、それに対する文字
認識などを、より高精度に行うことができるようにな
り、また、文字記入枠などのプレ印刷文字の消去処理を
効率的に行うことができるようになる等々の効果を得ら
れる。
【図面の簡単な説明】
【図1】本発明の実施の一形態である帳票処理装置の全
体的構成の一例を示すブロック図である。
【図2】帳票定義作成部の内部構成の一例を、処理の流
れに沿った形で簡略化して示すブロック図である。
【図3】枠領域の指定と罫線抽出の説明のための図であ
る。
【図4】アンケート用紙の一例を示す図である。
【図5】プレ印刷文字の有無の判定とプレ印刷文字の消
去を説明するための図である。
【図6】帳票定義作成部の内部構成の一例を、処理の流
れに沿った形で簡略化して示すブロック図である。
【図7】帳票定義作成部の内部構成の一例を、処理の流
れに沿った形で簡略化して示すブロック図である。
【図8】図7に関連したフローチャートである。
【図9】図7中のステップS9の処理内容を示すフロー
チャートである。
【図10】(a)キーワードがプレ印刷された帳票のマ
スター画像を例示する図である。 (b)同マスター画像中のキーワード近傍に作成された
枠領域の例を示す図である。
【図11】枠領域の作成処理の説明のための図である。
【図12】不適切な枠領域の例を示す図である。
【図13】帳票定義作成部の内部構成の一例を、処理の
流れに沿った形で簡略化して示すブロック図である。
【図14】キーワード辞書の登録内容の例を示す図であ
る。
【図15】帳票定義作成部の内部構成の一例を、処理の
流れに沿った形で簡略化して示すブロック図である。
【図16】本発明をソフトウェアで実施するために利用
可能なコンピュータの一例を示すブロック図である。
【図17】帳票定義書式と帳票定義データの例を示す図
である。
【符号の説明】
1 画像入力部 2 帳票認識処理部 3 帳票定義作成部 4 データ蓄積部 100 領域指定部 102 罫線抽出部 104 罫線特徴抽出部 106 プレ印刷判定部 108 定義情報入力部 110 帳票定義出力部 200 罫線抽出部 202 罫線特徴抽出部 204 枠抽出部 206 プレ印刷判定部 208 定義情報入力部 210 帳票定義出力部 300 罫線抽出部 302 罫線特徴抽出部 304 枠抽出部 310 文字認識部 312 辞書照合部 314 キーワード辞書 316 枠作成部 318 枠判定部 320 定義情報入力部 322 帳票定義出力部 400 領域指定部 402 罫線抽出部 404 罫線特徴抽出部 406 プレ印刷判定部 408 文字認識部 410 辞書照合部 412 キーワード辞書 414 枠特徴設定部 416 定義情報入力部 418 帳票定義出力部 500 文字認識部 502 辞書照合部 504 キーワード辞書 506 枠設定部 508 枠内文字位置判定部 510 枠特徴設定部 512 定義情報入力部 514 帳票定義出力部

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 帳票のマスター画像を入力する手段と、
    入力されたマスター画像上の文字記入枠などの領域を指
    定するための手段と、指定された各領域の周辺部分の罫
    線特徴を前記マスター画像より抽出する手段と、予め定
    められた帳票定義書式に従って、少なくとも前記各領域
    に関する領域情報と罫線特徴を整理し、帳票定義データ
    として出力する手段とを具備する帳票処理装置。
  2. 【請求項2】 帳票のマスター画像を入力する手段と、
    入力されたマスター画像より罫線及びその特徴を抽出す
    る手段と、抽出された罫線により囲まれた領域を抽出す
    る手段と、予め定められた帳票定義書式に従って、少な
    くとも前記各領域に関する領域情報と罫線特徴を整理
    し、帳票定義データとして出力する手段とを具備する帳
    票処理装置。
  3. 【請求項3】 各領域の内部にプレ印刷文字が存在する
    か否かを判定する手段をさらに有し、その判定結果の情
    報も帳票定義データに含めて出力されることを特徴とす
    る請求項1又は2記載の帳票処理装置。
  4. 【請求項4】 帳票のマスター画像を入力する手段と、
    入力されたマスター画像に対し文字認識を行う手段と、
    その認識結果とキーワード辞書とを照合する手段と、こ
    の照合で前記キーワード辞書に登録されているいずれか
    のキーワードと一致した文字又は文字列の近傍の特定位
    置に文字記入枠などの領域を作成する手段と、予め定め
    られた帳票定義書式に従って、少なくとも前記各領域に
    関する領域情報を整理し、帳票定義データとして出力す
    る手段とを具備する帳票処理装置。
  5. 【請求項5】 キーワード辞書にキーワードに対応した
    文字種の情報も登録されており、キーワードと一致した
    文字又は文字列の近傍に作成された領域に関する情報と
    して、そのキーワードに対応して前記キーワード辞書に
    登録されている文字種の情報も帳票定義データに含めて
    出力されることを特徴とする請求項4記載の帳票処理装
    置。
  6. 【請求項6】 マスター画像より罫線及びその特徴を抽
    出する手段と、抽出された罫線により囲まれた領域を抽
    出する手段とをさらに有し、抽出された各領域に関する
    領域情報と罫線特徴も帳票定義データに含めて出力され
    ることを特徴とする請求項4又は5記載の帳票処理装
    置。
  7. 【請求項7】 各領域に対し文字認識を行う手段と、そ
    の認識結果と、キーワードと文字種と位置の情報が対応
    付けられて登録されているキーワード辞書とを照合する
    手段と、この照合でいずれかのキーワードと一致した領
    域の近傍の、そのキーワードに対応した位置の情報で指
    定された他の領域に対し、そのキーワードに対応した文
    字種を設定する手段とをさらに有し、少なくとも前記各
    領域に関する文字種の情報も帳票定義データに含めて出
    力されることを特徴とする請求項1又は2記載の帳票処
    理装置。
  8. 【請求項8】 各領域の内部にプレ印刷文字が存在する
    か否かを判定する手段と、これによりプレ印刷文字が存
    在すると判定された領域に対し文字認識を行う手段と、
    その認識結果と、キーワードと文字種と位置の情報が対
    応付けられて登録されているキーワード辞書とを照合す
    る手段と、この照合でいずれかのキーワードと一致した
    領域の近傍の、そのキーワードに対応した位置の情報で
    指定された他の領域に対し、そのキーワードに対応した
    文字種を設定する手段とをさらに有し、少なくとも各領
    域に関する文字種とプレ印刷文字の有無の情報も帳票定
    義データに含めて出力されることを特徴とする請求項1
    又は2記載の帳票処理装置。
  9. 【請求項9】 マスター画像に対し文字認識を行う手段
    と、その認識結果と、キーワードと文字種と位置の情報
    が対応付けられて登録されているキーワード辞書とを照
    合する手段と、この照合でいずれかのキーワードと一致
    した文字又は文字列が、抽出されている領域の内部にあ
    る場合に、その領域の近傍の、そのキーワードに対応し
    た位置の情報で指定された他の領域に対し、そのキーワ
    ードに対応した文字種を設定する手段とをさらに有し、
    少なくとも前記各領域に関する文字種の情報も帳票定義
    データに含めて出力されることを特徴とする請求項1又
    は2記載の帳票処理装置。
  10. 【請求項10】 帳票のマスター画像上のポインティン
    グデバイスなどにより指定された領域の周辺部分の罫線
    特徴を前記マスター画像より抽出するステップと、予め
    定められた帳票定義書式に従って、少なくとも前記各領
    域に関する領域情報と罫線特徴を整理して帳票定義デー
    タを作成するステップとを有することを特徴とする帳票
    定義作成方法。
  11. 【請求項11】 帳票のマスター画像より罫線及びその
    特徴を抽出するステップと、抽出された罫線により囲ま
    れた領域を抽出するステップと、予め定められた帳票定
    義書式に従って、少なくとも前記各領域に関する領域情
    報と罫線特徴を整理して帳票定義データを作成するステ
    ップとを有することを特徴とする帳票定義作成方法。
  12. 【請求項12】 各領域の内部にプレ印刷文字が存在す
    るか否かを判定するステップをさらに有し、その判定結
    果の情報も帳票定義データに含められることを特徴とす
    る請求項10又は11記載の帳票定義作成方法。
  13. 【請求項13】 帳票のマスター画像に対し文字認識を
    行うステップと、その認識結果とキーワード辞書とを照
    合するステップと、この照合で前記キーワード辞書に登
    録されているいずれかのキーワードと一致した文字又は
    文字列の近傍の特定位置に文字記入枠などの領域を作成
    するステップと、予め定められた帳票定義書式に従っ
    て、少なくとも前記各領域に関する領域情報を整理して
    帳票定義データを作成するステップとを有することを特
    徴とする帳票定義作成方法。
  14. 【請求項14】 キーワード辞書にキーワードに対応し
    た文字種の情報も登録されており、キーワードと一致し
    た文字又は文字列の近傍に作成された領域に関する情報
    として、そのキーワードに対応して前記キーワード辞書
    に登録されている文字種の情報も帳票定義データに含め
    られることを特徴とする請求項13記載の帳票定義作成
    方法。
  15. 【請求項15】 マスター画像より罫線及びその特徴を
    抽出するステップと、抽出された罫線により囲まれた領
    域を抽出するステップとをさらに有し、抽出された各領
    域に関する領域情報と罫線特徴も帳票定義データに含め
    られることを特徴とする請求項13又は14記載の帳票
    定義作成方法。
  16. 【請求項16】 各領域に対し文字認識を行うステップ
    と、その認識結果と、キーワードと文字種と位置の情報
    が対応付けられて登録されているキーワード辞書とを照
    合するステップと、この照合でいずれかのキーワードと
    一致した領域の近傍の、そのキーワードに対応した位置
    の情報で指定された他の領域に対し、そのキーワードに
    対応した文字種を設定するステップとをさらに有し、少
    なくとも前記各領域に関する文字種の情報も帳票定義デ
    ータに含められることを特徴とする請求項10又は11
    記載の帳票定義作成方法。
  17. 【請求項17】 各領域の内部にプレ印刷文字が存在す
    るか否かを判定するステップと、これによりプレ印刷文
    字が存在すると判定された領域に対し文字認識を行うス
    テップと、その認識結果と、キーワードと文字種と位置
    の情報が対応付けられて登録されているキーワード辞書
    とを照合するステップと、この照合でいずれかのキーワ
    ードと一致した領域の近傍の、そのキーワードに対応し
    た位置の情報で指定された他の領域に対し、そのキーワ
    ードに対応した文字種を設定するステップとをさらに有
    し、少なくとも各領域に関する文字種とプレ印刷文字の
    有無の情報も帳票定義データに含められることを特徴と
    する請求項10又は11記載の帳票定義作成方法。
  18. 【請求項18】 マスター画像に対し文字認識を行うス
    テップと、その認識結果と、キーワードと文字種と位置
    の情報が対応付けられて登録されているキーワード辞書
    とを照合するステップと、この照合でいずれかのキーワ
    ードと一致した文字又は文字列が、抽出されている領域
    の内部にある場合に、その領域の近傍の、そのキーワー
    ドに対応した位置の情報で指定された他の領域に対し、
    そのキーワードに対応した文字種を設定するステップと
    をさらに有し、少なくとも前記各領域に関する文字種の
    情報も帳票定義データに含められることを特徴とする請
    求項10又は11記載の帳票定義作成方法。
  19. 【請求項19】 帳票のマスター画像から、罫線で囲ま
    れない文字記入枠などの領域を抽出する方法であって、
    前記マスター画像に対し文字認識を行うステップと、そ
    の認識結果とキーワード辞書とを照合するステップと、
    この照合で前記キーワード辞書に登録されているいずれ
    かのキーワードと一致した文字又は文字列を起点とし
    て、文字高さに相当する長さの縦ラインを、予め定めら
    れた最大探索幅を限度として、水平方向に順次移動させ
    ながら黒画素を探索するステップと、このステップによ
    り探索された範囲の上端及び下端を起点として、その範
    囲の幅に相当する横ラインを、予め定められた最大探索
    高さを限度として、上方向及び下方向にそれぞれ順次移
    動させながら黒画素を探索することにより、文字記入枠
    などの領域の候補を作成するステップと、作成された領
    域の候補が文字記入枠などして妥当であるか判定するス
    テップとを有することを特徴とする領域抽出方法。
  20. 【請求項20】 請求項10乃至18のいずれか1項記
    載の帳票定義作成方法の各ステップをコンピュータに実
    行させるためのプログラムが記録されたコンピュータ読
    み取り可能記憶媒体。
  21. 【請求項21】 請求項19記載の領域抽出方法の各ス
    テップをコンピュータに実行させるためのプログラムが
    記録されたコンピュータ読み取り可能記憶媒体。
JP31059999A 1999-11-01 1999-11-01 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 Pending JP2001126010A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP31059999A JP2001126010A (ja) 1999-11-01 1999-11-01 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP31059999A JP2001126010A (ja) 1999-11-01 1999-11-01 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体

Publications (1)

Publication Number Publication Date
JP2001126010A true JP2001126010A (ja) 2001-05-11

Family

ID=18007203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP31059999A Pending JP2001126010A (ja) 1999-11-01 1999-11-01 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体

Country Status (1)

Country Link
JP (1) JP2001126010A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
US8564846B2 (en) 2010-09-13 2013-10-22 Ricoh Company, Ltd. Form processing apparatus, form processing method, and storage medium for updating definition data
JP5385372B2 (ja) * 2009-03-31 2014-01-08 富士通フロンテック株式会社 文字認識装置及び文字認識方法
JP2016126636A (ja) * 2015-01-07 2016-07-11 コニカミノルタ株式会社 帳票識別装置及びプログラム
JP2019095858A (ja) * 2017-11-17 2019-06-20 グローリー株式会社 帳票画像処理装置、帳票画像処理システム、帳票画像処理方法およびプログラム
JP2020126326A (ja) * 2019-02-01 2020-08-20 株式会社プリマジェスト 帳票に含まれる文字列を認識するための装置、方法、及びプログラム
CN111797772A (zh) * 2020-07-07 2020-10-20 因凡科技(北京)有限公司 发票图像自动分类方法、系统、装置
US10949610B2 (en) 2018-03-14 2021-03-16 Hitachi, Ltd. Computing machine and template management method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181479A (ja) * 2008-01-31 2009-08-13 Japan Digital Laboratory Co Ltd データ管理システムおよび方法並びにプログラム
JP5385372B2 (ja) * 2009-03-31 2014-01-08 富士通フロンテック株式会社 文字認識装置及び文字認識方法
US8564846B2 (en) 2010-09-13 2013-10-22 Ricoh Company, Ltd. Form processing apparatus, form processing method, and storage medium for updating definition data
JP2016126636A (ja) * 2015-01-07 2016-07-11 コニカミノルタ株式会社 帳票識別装置及びプログラム
JP2019095858A (ja) * 2017-11-17 2019-06-20 グローリー株式会社 帳票画像処理装置、帳票画像処理システム、帳票画像処理方法およびプログラム
US10949610B2 (en) 2018-03-14 2021-03-16 Hitachi, Ltd. Computing machine and template management method
JP2020126326A (ja) * 2019-02-01 2020-08-20 株式会社プリマジェスト 帳票に含まれる文字列を認識するための装置、方法、及びプログラム
JP7329331B2 (ja) 2019-02-01 2023-08-18 株式会社プリマジェスト 帳票に含まれる文字列を認識するための装置、方法、及びプログラム
CN111797772A (zh) * 2020-07-07 2020-10-20 因凡科技(北京)有限公司 发票图像自动分类方法、系统、装置

Similar Documents

Publication Publication Date Title
US5867277A (en) Reduced resolution document storage and retrieval system
US5818978A (en) Image pre-processor for character image recognition system
Jain et al. Document representation and its application to page decomposition
JP3294995B2 (ja) 帳票読取装置
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
EP0677817A2 (en) Page segmentation and character recognition system
US7035463B1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
US5650799A (en) Programmable function keys for a networked imaging computer system
US8213717B2 (en) Document processing apparatus, document processing method, recording medium and data signal
CN1226696C (zh) 用于检索草体手写注释的方法
US6614929B1 (en) Apparatus and method of detecting character writing area in document, and document format generating apparatus
JP2010510563A (ja) ハード・コピーの書式からの書式定義の自動発生
CN114299528A (zh) 一种针对扫描文档的信息提取和结构化方法
CN111553334A (zh) 问卷图像识别方法、电子装置及存储介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
CN111860450A (zh) 票证识别装置以及票证信息管理系统
JP2001126010A (ja) 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体
CN115050025A (zh) 基于公式识别的知识点抽取方法及装置
JPH07220023A (ja) 表認識方法及びその装置
JPH0689365A (ja) 文書画像処理装置
Yamashita et al. A document recognition system and its applications
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061220