JPH07249099A - 帳票識別装置 - Google Patents

帳票識別装置

Info

Publication number
JPH07249099A
JPH07249099A JP6041676A JP4167694A JPH07249099A JP H07249099 A JPH07249099 A JP H07249099A JP 6041676 A JP6041676 A JP 6041676A JP 4167694 A JP4167694 A JP 4167694A JP H07249099 A JPH07249099 A JP H07249099A
Authority
JP
Japan
Prior art keywords
distribution
vertical
horizontal
line
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6041676A
Other languages
English (en)
Inventor
Katsuo Fukazawa
克夫 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6041676A priority Critical patent/JPH07249099A/ja
Publication of JPH07249099A publication Critical patent/JPH07249099A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 (修正有) 【目的】 帳票識別を容易、かつ低コストで行い、特定
の箇所の切出しを精度良く行う。 【構成】 水平線及び垂直線を抽出する抽出手段24、
水平線をY軸上に投影し、イメージデータのY軸を一定
間隔に分割した各間隔内に、投影される水平線の累積長
を求めることで、水平線の分布を作成し、垂直線に対し
てもX軸に関する投影を求めることで、垂直線の分布を
作成する分布作成手段25、並びに入力が予想される帳
票について予め作成された垂直線・水平線の分布を格納
しておく辞書27と、入力帳票の垂直・水平線の分布と
予め求めておいた分布との照合を行う照合手段26を備
える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の帳票を自動的に
仕分けし、または、光学式文字読取装置(OCR)のよ
うに複数の帳票を入力して各帳票ごとに決まっている箇
所を読み取る帳票識別装置に関する。今日、OCRを用
いて帳票に記入された文字を電子化したり、電子ファイ
リングシステムにより帳票をファイリングすること等が
盛んに行われている。この際、帳票の種類ごとに認識位
置やファイル分類などを変える必要があるが、オペレー
タが仕分けしてから入力することは非常な手間であるの
で、帳票を自動識別する装置が必要である。
【0002】また、OCRやファイリング装置におい
て、装置の低価格化が要望されている。このため、紙送
り精度は悪いが安価なイメージスキャナを組み込んだ
り、ファクスを入力装置として流用すること等が要望さ
れている。しかし例えばファクスでは紙送りに最大±1
0%程度の誤差があり、また帳票のスキューも大きいた
め、帳票の識別や読み取りは困難であった。
【0003】さらに、使用者の負担を減らす意味から、
帳票をラフにスキャナに入力しても正しく読み取れる装
置が要望されている。例えば、帳票を束にしてシートフ
ィーダーから入力する場合、オペレータが帳票の向きを
揃えてから入力するのは大変であるので、帳票の向きを
自動識別する装置が必要とされている。また、フラット
ベッド型のスキャナは通常ガラス面の左上などにきちん
と帳票を合わせて入力する必要があり、オペレータの負
担が大きい。そのため、ガラス面のどこに置いても良
く、また多少曲がって置いても識別できる装置が望まれ
ている。
【0004】
【従来の技術】従来の帳票を識別する方法としては、帳
票の自動識別、紙送りの誤差の補正、帳票位置の検出、
の3つの要素がある。以下順に説明する。従来、複数種
類の帳票を自動識別するには、(1)帳票のサイズや形
で見分ける、(2)帳票中の特定の箇所を読んで識別す
る、(3)帳票の色で見分ける、の3つの方法がある。
【0005】帳票のサイズや形で見分ける最も簡単な方
法には、例えば入力する帳票の縦横の大きさをすべて変
えておき、入力された帳票の大きさを計測して識別する
方法がある。帳票の大きさを計測するには、例えばイメ
ージスキャナの搬送機構に光センサを組み込めば良い。
帳票がセンサの下を通ったかどうかを検出することで、
用紙の縦横サイズが検出可能である。
【0006】帳票中の特定の箇所を読んで識別するに
は、帳票の決まった部分に識別するための記号(数字や
バーコードなど)を記入しておく方法がある。例えば、
帳票の左上隅を基準として同じ場所に数字を書いておけ
ば、文字認識により帳票を識別することができる(図1
5(a))。図15(a)において、0101という数
字で示されるマーク1は発注書2を示し、0102とい
う数字で示されるマーク3は納品書4を示す。これらの
文字のマーク1,3により帳票を識別することができ
る。
【0007】これはOCRで一般的に用いられている手
法である。この方法以外にも、複数箇所を読み取り、マ
ークが記入されている箇所で識別することも可能である
(図15(b))。図15(b)において、黒塗りの四
角のマーク5,6により、発注書2を識別し、また、黒
塗りの四角のマーク7により納品書4を識別する。
【0008】また、帳票色によって識別する方法は、帳
票ごとに用紙色を変えておき、カラースキャナで入力し
て用紙色を調べることで、帳票を識別するものである。
金融機関では入金伝票と出金伝票の色を変えているの
で、このような伝票類を識別するには適している。次
に、紙送り誤差を補正するには、帳票の端に一定間隔で
マークを記入しておく方法がある。例えば、帳票の左右
端に一定間隔でマークを書いておく(図16)。
【0009】図16において、8,9は一定間隔でつけ
られる棒のマークを示し、これらのマーク8,9によ
り、請求書10の紙送り誤差を検出し、補正する。すな
わち、画像が入力されたときにマーク8,9の位置を検
出して、マーク間隔を計測することにより、マーク間隔
の伸び縮みから紙送り誤差を検出し補正することができ
る。
【0010】次に、帳票位置の検出には、(1)スキャ
ナ側に用紙の検出機構を設ける、(2)帳票の特定箇所
に位置検出用のマークを付ける、の2つの方法がある。
スキャナ側に用紙の検出機構を設けた例として、スキャ
ナ内部の反射率を低くしておき用紙が入力されない箇所
は黒が出るようにしておく方法がある。こうすると用紙
以外の部分は黒く出力されるので、黒の部分と白の部分
の境界を検出することによって帳票の位置や傾きを知る
ことができる。これはまた帳票サイズの検出にも利用で
きる。
【0011】すなわち、図17に示すように、用紙11
が入力されない部分12については黒く出力するため、
用紙11の位置や傾きを検出することができる。また、
帳票の端から一定の場所にマークを設けることによって
も、位置の検出が可能である。例えば帳票の3隅にマー
クを記入しておけば、イメージデータ上からマークを検
出することにより、帳票の位置や傾きを知ることができ
る。
【0012】すなわち、図18に示すように、例えば、
請求書10の3隅に黒塗りの四角の位置検出用のマーク
13,14,15を記入して、請求書10の位置検出を
行う。
【0013】
【発明が解決しようとする課題】しかしながら、このよ
うな従来の帳票を識別する方法にあっては、それぞれ以
下のような問題点があった。まず、帳票識別について
は、帳票のサイズや形で見分けるためには、入力される
帳票のサイズや形をすべて違うものにする必要がある。
しかし、伝票などを考えればわかるように帳票のサイズ
というのは皆同じ大きさのものが多い。また、他者が発
行した伝票などはサイズを変えることが許されない場合
が多く、本方法は使えない。
【0014】帳票中の特定の箇所を読んで帳票を識別す
る方法では、あらかじめ識別のための記号をすべての帳
票に書いておかねばならない。既存の伝票に後から識別
情報を記入するのは大変であるため、通常、帳票の印刷
時にこのような情報も印刷しておくことになる。つま
り、市販の伝票類や他者が発行した伝票などでは本方法
は使えない。更に、レイアウト上このような識別情報を
記入する場所がない帳票に対しても使えない。
【0015】帳票の色で識別するにはカラースキャナが
必要であるが、これは通常の白黒で読むスキャナに比べ
価格が高いという欠点がある。また、入力される帳票の
色をすべて変える必要があるため、種々の帳票に対応で
きないという欠点があり、更に印刷コストもかかる。次
に、紙送り誤差の補正については、帳票の端に一定間隔
でマークを記入するには、予め帳票にそのようなマーク
を印刷しておく必要がある。そのため既存の伝票類には
本方法は使えない。また、帳票にマークを記入するのは
見栄えが悪いという問題もある。
【0016】次に、帳票位置の検出については、スキャ
ナ側に用紙の検出機構を設けると、スキャナの装置価格
が上昇するため好ましくない。また、図17に示したよ
うな、帳票以外の部分を黒く出力するスキャナでは、帳
票入力専用となり、他の用途に流用できないという欠点
がある。更に、帳票の特定箇所に位置検出用のマークを
付けるのは、紙送り誤差の補正で述べたと同様に、既存
伝票類では使用できず、また見栄えが悪くなるという問
題がある。
【0017】本発明は、このような問題点を解決し、か
つ特定箇所の切り出しを精度良く行う帳票識別装置を提
供することを目的とする。
【0018】
【課題を解決するための手段】図1は本発明の原理説明
図である。本発明は、帳票をイメージ入力手段21によ
り入力してイメージデータに変換した後、画像から水平
線および垂直線を抽出する抽出手段24と、水平線をY
軸上に投影し、イメージデータのY軸を一定間隔に分割
した各間隔内に、投影される水平線の累積長を求めるこ
とで、水平線の分布を作成し、垂直線に対してもX軸に
関する投影を求めることで垂直線の分布を作成する分布
作成手段25と、入力が予想される帳票について予め作
成された垂直線・水平線の分布を格納しておく辞書27
と、入力帳票の垂直・水平線の分布と予め求めておいた
分布とを、水平線の分布どうし、垂直線の分布どうしで
照合を行う照合手段26と、を備えたことを特徴とす
る。
【0019】また、本発明は、前記分布作成手段25に
より、入力帳票を90度、180度、270度回転した
ものについても垂直線・水平線の分布を求めておき、こ
れらを予め求めておいた垂直線・水平線の分布と照合を
行うことで、帳票の識別と同時に、入力された帳票の9
0度単位の回転方向も識別することを特徴とする。ま
た、本発明は、前記照合手段26として端点フリーの照
合を用い、前記辞書27の先頭部分と入力のすべてとの
相違度を計算し、次に前記辞書27の2番目から最後ま
で順に相違度を計算し、相違度の比較の際始点からの距
離で正規化することを特徴とする。
【0020】また、本発明は、前記端点フリーの照合に
おいて、水平線の分布の照合結果が良好だったものおよ
び垂直線の分布の照合結果が良好だったものを複数選択
した後、端点フリー照合の照合経路より帳票の存在範囲
を求め、その範囲の垂直線もしくは水平線で再度分布を
計算しなおして照合を行うことを特徴とする。また、本
発明は、前記分布作成手段25により分布を計算する
際、イメージデータのX軸・Y軸を一定間隔に分割した
各間隔内の累積長ではなく、一本一本の垂直・水平線に
対して投影した座標と線分の長さを記憶し、投影した座
標間の間隔が広くなる場所には、擬似的に長さ0の線分
を投影して、X軸・Y軸上の垂直線・水平線の分布を作
成し、作成した分布を照合することを特徴とする。
【0021】また、本発明は、入力が予想される帳票に
ついて垂直線・水平線の分布を求めておくと同時に、帳
票上の切出しが必要な箇所の座標を記憶しておき、入力
帳票を照合により識別した後、識別した帳票に対応した
切出し座標を、識別時の照合経路と入力帳票の傾きとか
ら補正し、この補正した座標で入力画像を切り出すこと
により、特定箇所の切り出しを行うことを特徴とする。
【0022】
【作用】このような構成を備えた本発明の帳票識別装置
によれば、本発明では、帳票や伝票類には垂直・水平線
が多いことを利用して、入力されたイメージデータから
垂直線と水平線を抽出し、この垂直・水平線の長さと位
置から、水平線をY軸上に投影したときの分布と、垂直
線をX軸上に投影したときの分布を作成し、入力される
帳票について予め同様の方法で求めておいた分布と照合
を行い、帳票中に存在する垂直・水平線の分布を特徴と
してとらえることによって帳票を識別するため、従来の
ように帳票のサイズを変えたり、帳票に識別情報を印刷
するなどの処置は不要となる。また、垂直・水平線を求
める段階で帳票の傾きも計測できるため、得られた傾き
を考慮して線分を投影することにより、帳票が傾いてい
ても識別が可能となる。
【0023】また、本発明では照合手段にDP照合を用
いている。DP照合は音声認識などの時系列情報を持っ
たパターンの照合に良く用いられる手法であり、対象が
時間軸に対して多少伸縮しても伸縮を補正しながら照合
が行えるという特徴がある。本発明ではこの特徴を利用
することにより、紙送り精度の悪いスキャナにより画像
が伸縮しても、正しく照合を行うことが可能である。従
って、伸縮補正のためのマークは不要となる。
【0024】また、本発明では端点フリーDP照合と呼
ばれるDP照合の1方法を用いている。この照合手段
は、不要部分を必要な情報の前後に含んだ特徴のうちか
ら、部分的に選択して照合することが可能である。これ
により、帳票位置を検出することができるため、従来の
ように帳票に位置決めマークを印刷することは不要とな
る。
【0025】本発明ではさらに、端点フリーDP照合に
よって位置決めされた結果から再度分布を求めなおして
照合し、分布を一定間隔の累積値ではなく、線分が投影
された座標値も含んだ値とすることで、帳票の識別精度
を高めている。また、照合する際に90度単位に回転し
たものとも照合を行って最も良いものを選択することに
より、横転して入力された帳票や、天地逆に入力された
帳票なども識別することが可能である。
【0026】また、本発明では、入力された帳票の必要
領域を切り出す際、端点フリーDP照合によって得られ
た位置情報と伸縮情報により切出し位置を補正する。こ
れにより、位置ずれや画像の伸縮があっても正しい位置
を切り出すことが可能である。
【0027】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。図2〜図14は本発明の一実施例を示す図であ
る。図2は本発明の一実施例に係るブロック図である。
図2において、21はイメージ入力手段としてのイメー
ジスキャナであり、イメージスキャナ21により帳票を
入力し、イメージデータに変換して出力する。
【0028】22は帳票切出し部であり、帳票切出し部
22は入力されたイメージデータの画像に対し帳票の存
在する範囲を切り出す。23は前処理部であり、前処理
部23は入力した画像の線分の切れ・掠れを補正するた
めの前処理を行う。24は抽出手段としての水平・垂直
線抽出部であり、水平・垂直線抽出部24は画像中から
水平線と垂直線を抽出する。
【0029】25は分布作成手段としての水平・垂直線
分布作成部であり、水平・垂直線分布作成部25は、水
平線をY軸上に帳票傾きの方向に投影し、イメージデー
タのY軸を一定間隔に分割した各間隔内に、投影される
水平線の累積長を求めることで、水平線の分布を作成
し、垂直線に対しても同様にしてX軸に関する投影を求
めることで、垂直線の分布を作成する。
【0030】また、水平・垂直線分布作成部25は、入
力帳票を90度、180度、270度回転したものにつ
いても垂直線・水平線の分布を求めておく。また、水平
・垂直線分布作成部25は、分布を計算する際、イメー
ジデータのX軸・Y軸を一定間隔に分割した各間隔内の
累積長ではなく、一本一本の垂直・水平線に対して投影
した座標と線分の長さを記憶し、また投影した座標間の
間隔が広くなる場所には、擬似的に長さ0の線分を投影
して、X軸・Y軸の垂直線・水平線の分布を作成する。
【0031】26は照合手段としてのDP照合部であ
り、DP照合部26は入力帳票の垂直・水平線の分布と
予め求めておいた分布とを、水平線の分布どうし、垂直
線の分布どうしでDP照合を行う。DP照合部26は端
点フリーのDP照合も行う。DP照合は音声認識などの
時系列情報を持ったパターンの照合に良く用いられる手
法であり、対象が時間軸に対して多少伸縮しても伸縮を
補正しながら照合が行えるという特徴がある。
【0032】すなわち、辞書27の先頭部分と入力のす
べてとの相違度を計算し、次に辞書27の2番目から最
後まで順に相違度を計算し、相違度の比較の際始点から
の距離で正規化する。また、DP照合部26は、端点フ
リーのDP照合において、水平線の分布の照合結果が良
好だったものおよび垂直線の分布の照合結果が良好だっ
たものを複数選択した後、端点フリーDP照合の照合経
路より帳票の存在範囲を求め、その範囲の垂直線もしく
は水平線で再度分布を計算しなおしてDP照合を行う。
【0033】また、DP照合部26は、帳票上の切出し
が必要な箇所の座標を記憶しておき、入力帳票をDP照
合により識別した後、識別した帳票に対応した切出し座
標を、識別時のDPの照合経路と入力帳票の傾きとから
補正し、この補正した座標で入力画像を切り出すことに
より、特定箇所の切り出しを行う。27は前記辞書であ
り、辞書27には、入力が予想される帳票について予め
作成された垂直線・水平線の分布が格納される。
【0034】次に、図2の帳票識別装置の処理を説明す
る。まず、イメージスキャナ21により帳票を入力し、
イメージデータに変換して、帳票切出し部22に出力す
る。次に、帳票切出し部22により、入力された画像に
対して帳票の存在する範囲のみを切り出す。これは単純
なDP照合では、帳票のある場所だけを切り出さないと
正しく照合できないためである。帳票位置の検出には、
従来技術で述べた方法を使用する。
【0035】次に、前処理部23により、線分の切れ・
掠れを補正するために前処理を行う。切れ掠れが多い画
像では垂直・水平線が正しく抽出できない可能性がある
ためである。切れ掠れの補正方法は本発明には無関係で
あるため詳細は説明しないが、例えば膨張処理による方
法が「コンピュータ画像処理」(田村秀行監修,総研出
版発行)p219に記載されている。
【0036】次に、水平・垂直線抽出部24により、画
像中から垂直線と水平線を抽出する。垂直・水平線の抽
出には種々の方法があるが、例えば、本発明者が特願平
04−342342号の「画像の傾き角度計測方式」に
述べたように・短冊ヒストグラムに基づく方法を使用し
ても良い。本処理により、画像中の垂直線・水平線だけ
が抽出される。
【0037】図3(a)は帳票切出し部22により切り
出され、前処理部23で前処理された帳票28を示す。
また、29は切出し部分を示す。この段階においては、
帳票28に記入された文字や記号が残っている。水平・
垂直線抽出部24により、図3(b)に示すように帳票
28の水平線と垂直線だけが抽出される。
【0038】次に、水平・垂直線分布作成部25によ
り、求めた水平線を帳票の傾き方向を考慮してY軸上に
投影し、水平線の分布を作成する。分布を求めるには、
Y軸を等間隔に分割して、おのおのの間隔内に投影され
る線分の長さを累積することで行う。同様に垂直線か
ら、垂直線の分布を作成する。図4は帳票28の水平線
と垂直線から作成した水平線分布と垂直線分布を示す。
なお、帳票の傾き角度の計測には種々の方法があるが、
1方法として、先の特願平04−342342号に述べ
た方法を使っても良い。
【0039】次に、DP照合部26により、求めた垂直
・水平線の分布と、同様のやり方により予め求めておい
た辞書27の分布とを、DP(ダイナミックプログラミ
ング:動的計画法)照合を行い、帳票を識別する。DP
照合は音声認識によく用いられる手法であり、例えば
「音声認識」(新美康永著,共立出版発行)p101〜
108に詳細に記載されている。
【0040】図5は縦軸が入力帳票より求めた水平線分
布、横軸が予め登録された帳票の水平線分布をそれぞれ
示す。本実施例ではDP照合により、入力と辞書27と
の水平線分布の対応づけと、相違度の計算を行う。例え
ば、入力の水平線分布と辞書27の水平線分布とが全く
等しければ、入力と辞書27の対応は図5(1)のよう
に直線になるはずであるが、イメージスキャナ21の紙
送り誤差により分布が伸縮するため、実際には図5
(2)のように曲線となる。このような対応付けをDP
で行う。
【0041】なお、DP照合の経路は、例えば図6のよ
うにしたが、他の経路にしても良い。図6において、D
P照合の経路は、水平方向、垂直方向、右上り方向の3
つの経路があり、また、「1]、「1」、「2」で示す
数字は、経路の重みをそれぞれ示す。
【0042】本実施例による帳票の識別では垂直線の分
布と水平線の分布の2つを使用し、別々にDP照合によ
って相違度を求める。相違度の計算方法は参考文献にあ
るので省略する。なお、相違度を求めるための距離計算
には、ユークリッド距離や差の絶対値などを使用する。
水平と垂直の2つの相違度を求めた後、2つを加算した
結果を全体の相違度とし、この計算をすべての登録パタ
ーンに対して行う。得られた相違度のうち、最も値の小
さい登録パターンが、帳票の識別結果となる。
【0043】このように、帳票上にすでにある垂直線・
水平線を元に照合するため、帳票のサイズを変えたり、
帳票に識別用の記号を印刷するなど、帳票に手を加える
必要がない。そのため市販の伝票類についても照合が可
能である。また、DP照合によりイメージデータの伸縮
に対処しているため、帳票の位置ずれも検出している。
帳票にマークを印刷したり、イメージスキャナに用紙の
検出機構を追加する必要が無いため、市販の伝票類につ
いて照合が可能である。また、特殊なイメージスキャナ
を使用する必要がない。
【0044】次に、帳票が回転していた場合への対応を
説明する。これは、入力の帳票から求めた分布を、90
度,180度,270度回転したものを求めておき、全
部で4つの分布から最小の相違度を持つものを求める。
帳票の水平線の分布をH、垂直線の分布をVとすると、 0度回転:水平線分布→ H 垂直線分布= V 90度回転:水平線分布→ V 垂直線分布=Rev(H) 180度回転:水平線分布→Rev(H)垂直線分布=Rev(V) 270度回転:水平線分布→Rev(V)垂直線分布= H となる(Revは分布の順番を反転したもの)。
【0045】図7(a)は帳票30が0度回転の状態
を、図7(b)は帳票30が90度回転した状態を、図
7(c)は帳票30が180度回転した状態を、図7
(d)は帳票30が270度回転した状態を、それぞれ
示す。したがって、水平線・垂直線の分布を前述したよ
うにして求め、DP照合により相違度を求めることによ
り、90度単位に回転した帳票においても照合が可能で
ある。
【0046】こうして、横転して入力された帳票や、天
地逆に入力された帳票なども識別することが可能であ
る。次に、図2において帳票切出し処理が不要な照合方
法について述べる。図8は縦軸が入力帳票より求めた水
平線分布、横軸が予め登録された帳票の水平線分布を示
す。また、登録パターンには帳票以外の余分な部分やゴ
ミ等はないものとする。通常、辞書27に登録する際に
はオペレータが介在して確認作業を行うのが普通であ
る。そのため登録時に切出しや不要部分の削除をオペレ
ータが行っても特に支障はない。このように辞書27を
クリーン化すると、辞書27は入力画像の一部と照合す
ることになる。図8において、31は入力のうちの帳票
部分を示す。
【0047】端点フリーDPの処理について説明する。
まず、辞書27の先頭部分と、入力のすべてとを距離計
算する(図9の(a)の列)。次に、辞書27の2番目
と相違度の計算を行い、3番目,4番目と辞書27の最
後まで順に相違度を計算する。辞書27の最後で最も相
違度の小さい箇所が、最も良く照合した結果である。な
お、端点フリーDPの場合は、通常のDPと異なり、相
違度の比較の際に始点からの距離で正規化することが必
要である。例えば図9の場合、3つの経路(1)〜
(3)のうち最良のものを選択する必要があるが、それ
ぞれの始点が違うため、そのままでは正しい比較ができ
ない。そのため、(1)〜(3)の相違度をそれぞれの
経路長で割り算して、正規化を行うことが必要である。
【0048】垂直線の分布と水平線の分布の2つについ
て、別々に端点フリーDP照合によって相違度を求めた
後、2つを加算した結果を全体の相違度とすれば、最も
値の小さい登録パターンが帳票の識別結果となる。次
に、端点フリーDPの照合精度を向上させる方法につい
て説明する。いま端点フリーDPにより、入力と辞書2
7の水平線分布が図10(a)のように対応づいたとす
る。このとき、正しく照合されれば、画像上では図10
(b)のように帳票の水平部分のみが対応づき、ゴミ等
の不要部分は除外されるはずである。
【0049】図10(b)の32は帳票33の水平部分
を示し、水平部分32は入力のうちの帳票部分31に対
応し、不要部分34は除外されている。したがって、端
点フリーDPの水平線分布の対応付け結果を元に、画像
を切り出して垂直線分布を求めれば、帳票以外の余分な
垂直線を含めないクリーンなデータを得ることができ
る。
【0050】すなわち、端点フリーDPを行ったすべて
の水平線・垂直線分布について分布を求め直すのは処理
時間がかかるため、水平線の分布の照合結果が良好だっ
たもの、および垂直線の分布の照合結果が良好だったも
のを複数選択した後、端点フリーDP照合の照合経路よ
り帳票の存在範囲を求め、その範囲の垂直線もしくは水
平線で再度分布を計算しなおしてDP照合を行う。
【0051】これにより、帳票周囲のノイズを除去した
分布を使って照合できるため、照合精度を上げることが
可能である。次に、端点フリーDPの照合精度を向上さ
せる別の方法について説明する。今まで述べた方法で
は、水平線・垂直線の分布を求める際、イメージデータ
のX軸・Y軸を一定間隔に分割し、各間隔内に含まれる
水平・垂直線の累積長を求めていた。しかし、一定間隔
の分割では、図11のように同一レイアウトで線分の間
隔が微妙に異なる帳票の場合、識別が困難である。
【0052】図11(a)に示す領収書35と図11
(b)に示す納品書36は線分の間隔が非常に類似して
いる。このような場合、分割を細かくして微妙な違いが
分布に現れるようにしても良いが、分割数が増えるため
データ量が増大する。そのため本実施例では、一定間隔
の分割をやめて、一本一本の垂直・水平線について、投
影した座標とその線分の長さを分布として使用すること
とした。この様子を図12に示す。線分の間隔の広い箇
所はデータ間にすきまがあいてしまう。この間隔が大き
いとDPの計算に悪影響を及ぼすため、ある間隔以上す
きまのある箇所には、一定間隔おきに長さ0の擬似線分
37が投影されているとみなしている。
【0053】DP照合の経路は図13のように、辞書2
7の線分の間隔に、イメージスキャナ21の紙送り誤差
から決まる伸縮率を乗じて、この値の範囲に入る線分を
すべて計算対象とする。例えば図13で、辞書27の線
分間隔が100であり、伸縮率が0.8〜1.25とす
れば、80〜125までの範囲38が計算範囲となる。
この範囲38に入るものに対して、従来の端点フリーD
Pと同様の計算を行う。辞書27の始点から終点まで
を、同様に計算してゆくことで、従来の端点フリーDP
照合と同様に、相違度を求めることができる。
【0054】本方法では線分一本一本を対応づけている
ため、一定間隔おきに求めた分布と比べて照合精度が良
い。すなわち、垂直・水平線の分布を計算する際、投影
した位置の情報を持たせることにより、垂直線や水平線
の位置を考慮した照合を行っているため、より精度よく
照合することが可能である。また、次に述べる帳票の切
出しにおいても精度よく対応を求めることが可能であ
る。
【0055】次に、本実施例による帳票識別を利用し
た、帳票の切出しについて説明する。DPによる水平線
・垂直線の照合では、入力と辞書との水平線・垂直線の
最適な対応付けが行われる。この様子は図5に示した。
このため、例えば水平線の対応付けが分かれば、辞書2
7から入力帳票へのY座標の対応を求めることができる
し、垂直線の対応付けが分かればX座標の対応付けが分
かる。更に入力帳票のスキューも計測されているため、
辞書27から入力への座標変換を行うことが可能であ
る。
【0056】今、仮に辞書27から入力帳票への水平線
の対応付けの関数をF(y) 、垂直線の対応付けの関数を
FX(x) 、入力帳票のスキューをθとする。このとき、
辞書27上の座標(x,y)は、入力上の座標(x1,
y1)に以下の式で対応付けられる(図14、参照)。
図14(a)は入力画像を示し、図14(b)は辞書2
7の座標を示す。 x1=(FX(x) −tanθ・FY(y) )/(tan2
θ+1) y1=(FY(y) +tanθ・FX(x) )/(tan2
θ+1) なお、θがせいぜい数度とすると、tan2 θはほとん
ど0であるので、 x1=FX(x) −tanθ・FY(y) y1=FY(y) +tanθ・FX(x) とおくこともできる。上式により辞書27上の座標を補
正して入力上の領域を切り出せば、帳票のスキューや位
置ずれ、及び伸縮を補正した切出しが可能である。従っ
て本帳票識別の結果を利用して、特定箇所の切出しや、
数値欄の文字認識などの処理を行うことも可能となる。
【0057】なお、本実施例においては、DP照合に以
下の制限を加えることで、より厳密な照合を行うことも
可能である。 (1)垂直・もしくは水平方向にある長さ以上進む経路
は棄却する (2)経路の平均傾きがある一定範囲を越えるものは棄
却する また、端点フリーDPにおいて、相違度を垂直線と水平
線の両方の相違度の和としたが、例えば相違度を以下の
ように決めてもよい。
【0058】(1)相違度の和+入力の照合しなかった
部分の総和 (2)(相違度の和+入力の照合しなかった部分の総
和)/入力分布の総和 端点フリーDPでは、帳票以外の部分は照合対象となら
ないが、この照合されなかった部分も相違度を含めるこ
とで、精度を上げることも可能であり、更に入力分布の
総和で全体を割り算することで、正規化を行ってもよ
い。
【0059】また、本実施例で水平線・垂直線を求める
際、ある長さ未満の線分はゴミとして照合対象から外し
ても良い。帳票内のゴミや文字の一部を線分として取り
出すことが減少できるため、照合精度を高めることが可
能となる。
【0060】
【発明の効果】以上説明してきたように、本発明によれ
ば、帳票上にある垂直線・水平線を元に照合するため、
帳票に手を加える必要がない。このため、市販の伝票類
や、既存の帳票についても識別が可能である。また、D
P照合によりイメージデータの伸縮に対応しているた
め、紙送り精度の低いイメージスキャナも使用可能であ
る。
【0061】また、端点フリーDP照合により帳票の位
置ずれに対応しているため、帳票やイメージスキャナに
手を加えることなく、帳票の位置検出が可能である。ま
た、照合の際に90度単位に回転したものとも照合を行
うことにより、横転して入力された帳票や、天地逆に入
力された帳票も識別することができる。さらに、端点フ
リーDP照合により、帳票に位置ずれ・伸縮があっても
切出し位置を補正できるため、OCRやファイリング装
置などに有用である。
【図面の簡単な説明】
【図1】本発明の原理説明図
【図2】本発明の一実施例を示すブロック図
【図3】水平・垂直線の抽出の説明図
【図4】水平・垂直分布作成の説明図
【図5】DP照合の対応付けの説明図
【図6】DP照合の経路の例を示す図
【図7】帳票が回転した際の分布の変化を示す図
【図8】端点フリーDPによる対応付けの説明図
【図9】正規化の説明図
【図10】帳票切出しの説明図
【図11】分布計算が一定間隔では識別が困難な例を示
す図
【図12】擬似線分による分布作成の説明図
【図13】DP照合の経路の説明図
【図14】座標変換の説明図
【図15】従来の帳票識別の説明図
【図16】従来の紙送り誤差補正の説明図
【図17】従来の帳票位置検出の説明図
【図18】従来の帳票位置検出の他の説明図
【符号の説明】
21:イメージスキャナ(イメージ入力手段) 22:帳票切出し部 23:前処理部 24:水平・垂直線抽出部(抽出手段) 25:水平・垂直線分布作成部(分布作成手段) 26:DP照合部(照合手段) 27:辞書 28,30,33:帳票 29:切出し部分 31:帳票部分 32:水平部分 34:不要部分 35:領収書 36:納品書 37:類似線分 38:範囲

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】帳票をイメージ入力手段(21)により入
    力してイメージデータに変換した後、画像から水平線お
    よび垂直線を抽出する抽出手段(24)と、 水平線をY軸上に投影し、イメージデータのY軸を一定
    間隔に分割した各間隔内に、投影される水平線の累積長
    を求めることで、水平線の分布を作成し、垂直線に対し
    てもX軸に関する投影を求めることで垂直線の分布を作
    成する分布作成手段(25)と、 入力が予想される帳票について予め作成された垂直線・
    水平線の分布を格納しておく辞書(27)と、 入力帳票の垂直・水平線の分布と予め求めておいた分布
    とを、水平線の分布どうし、垂直線の分布どうしで照合
    を行う照合手段(26)と、を備えたことを特徴とする
    帳票識別装置。
  2. 【請求項2】前記分布作成手段(25)により、入力帳
    票を90度、180度、270度回転したものについて
    も垂直線・水平線の分布を求めておき、これらを予め求
    めておいた垂直線・水平線の分布と照合を行うことで、
    帳票の識別と同時に、入力された帳票の90度単位の回
    転方向も識別することを特徴とする請求項1の帳票識別
    装置。
  3. 【請求項3】前記照合手段(26)として端点フリーの
    照合を用い、前記辞書(27)の先頭部分と入力のすべ
    てとの相違度を計算し、次に前記辞書(27)の2番目
    から最後まで順に相違度を計算し、相違度の比較の際始
    点からの距離で正規化することを特徴とする請求項1の
    帳票識別装置。
  4. 【請求項4】前記端点フリーの照合において、水平線の
    分布の照合結果が良好だったものおよび垂直線の分布の
    照合結果が良好だったものを複数選択した後、端点フリ
    ー照合の照合経路より帳票の存在範囲を求め、その範囲
    の垂直線もしくは水平線で再度分布を計算しなおして照
    合を行うことを特徴とする請求項3の帳票識別装置。
  5. 【請求項5】前記分布作成手段(25)により分布を計
    算する際、イメージデータのX軸・Y軸を一定間隔に分
    割した各間隔内の累積長ではなく、一本一本の垂直・水
    平線に対して投影した座標と線分の長さを記憶し、投影
    した座標間の間隔が広くなる場所には、擬似的に長さ0
    の線分を投影して、X軸・Y軸上の垂直線・水平線の分
    布を作成し、作成した分布を照合することを特徴とする
    請求項1の帳票識別装置。
  6. 【請求項6】入力が予想される帳票について垂直線・水
    平線の分布を求めておくと同時に、帳票上の切出しが必
    要な箇所の座標を記憶しておき、入力帳票を照合により
    識別した後、識別した帳票に対応した切出し座標を、識
    別時の照合経路と入力帳票の傾きとから補正し、この補
    正した座標で入力画像を切り出すことにより、特定箇所
    の切り出しを行うことを特徴とする請求項5の帳票識別
    装置。
JP6041676A 1994-03-14 1994-03-14 帳票識別装置 Withdrawn JPH07249099A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6041676A JPH07249099A (ja) 1994-03-14 1994-03-14 帳票識別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6041676A JPH07249099A (ja) 1994-03-14 1994-03-14 帳票識別装置

Publications (1)

Publication Number Publication Date
JPH07249099A true JPH07249099A (ja) 1995-09-26

Family

ID=12615025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6041676A Withdrawn JPH07249099A (ja) 1994-03-14 1994-03-14 帳票識別装置

Country Status (1)

Country Link
JP (1) JPH07249099A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111984A (en) * 1997-06-10 2000-08-29 Fujitsu Limited Method for matching input image with reference image, apparatus for the same, and storage medium storing program for implementing the method
JP2005293409A (ja) * 2004-04-02 2005-10-20 Fujitsu Ltd 特定画像位置推定装置,特定画像位置推定方法,特定画像位置推定プログラム及び特定画像位置推定プログラムを記録したコンピュータ読取可能な記録媒体並びに媒体
US7016535B2 (en) 2001-07-19 2006-03-21 Fujitsu Limited Pattern identification apparatus, pattern identification method, and pattern identification program
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
JP2012099089A (ja) * 2010-10-29 2012-05-24 Sharp Corp 画像判定装置、画像抽出装置、画像判定プログラム、および画像判定方法
JP2014514649A (ja) * 2011-03-29 2014-06-19 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. イメージのスクラッチの検出

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6111984A (en) * 1997-06-10 2000-08-29 Fujitsu Limited Method for matching input image with reference image, apparatus for the same, and storage medium storing program for implementing the method
US7106904B2 (en) 2001-04-25 2006-09-12 Hitachi, Ltd. Form identification method
US7016535B2 (en) 2001-07-19 2006-03-21 Fujitsu Limited Pattern identification apparatus, pattern identification method, and pattern identification program
JP2005293409A (ja) * 2004-04-02 2005-10-20 Fujitsu Ltd 特定画像位置推定装置,特定画像位置推定方法,特定画像位置推定プログラム及び特定画像位置推定プログラムを記録したコンピュータ読取可能な記録媒体並びに媒体
JP4576146B2 (ja) * 2004-04-02 2010-11-04 富士通株式会社 特定画像位置推定装置
JP2012099089A (ja) * 2010-10-29 2012-05-24 Sharp Corp 画像判定装置、画像抽出装置、画像判定プログラム、および画像判定方法
JP2014514649A (ja) * 2011-03-29 2014-06-19 ヒューレット−パッカード デベロップメント カンパニー エル.ピー. イメージのスクラッチの検出
US9098897B2 (en) 2011-03-29 2015-08-04 Hewlett-Packard Development Company, L.P. Detection of scratches on an image

Similar Documents

Publication Publication Date Title
US6782144B2 (en) Document scanner, system and method
WO2016127545A1 (zh) 一种字符切割识别方法
US5198907A (en) Method and appratus for automatically locating predefined exposure areas in a scanned image
EP0738987A2 (en) Processing machine readable forms
EP0472313A2 (en) Image processing method and apparatus therefor
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2001283152A (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3636809B2 (ja) 画像処理方法
JPH07249099A (ja) 帳票識別装置
JP2003109007A (ja) 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
US6934404B2 (en) Stamp detecting device, stamp detecting method, letter processing apparatus and letter processing method
JP3090342B2 (ja) 文字列方向判別装置
JP3689485B2 (ja) 帳票認識方法
JPH10207981A (ja) 帳票認識方法
JP4521377B2 (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP3223878B2 (ja) 文字列照合装置、方法及び記録媒体
JP3718105B2 (ja) 帳票読取装置および帳票読取方法並びに記憶媒体
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JPH03263282A (ja) 文字読取装置の文字切出し方法
JP2002024743A (ja) 画像読取システムおよび画像読取方法
JPH09179982A (ja) 特定パターン検出方法
JP3276554B2 (ja) フォーマット認識装置及び文字読取り装置
JPH08335247A (ja) フォーマット情報生成方法及びフォーマット情報生成装置
JPH07141462A (ja) 文書システム
JPH07192087A (ja) 光学文字読取装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20010605