JP2995650B2 - 罫線除去方式 - Google Patents

罫線除去方式

Info

Publication number
JP2995650B2
JP2995650B2 JP7352856A JP35285695A JP2995650B2 JP 2995650 B2 JP2995650 B2 JP 2995650B2 JP 7352856 A JP7352856 A JP 7352856A JP 35285695 A JP35285695 A JP 35285695A JP 2995650 B2 JP2995650 B2 JP 2995650B2
Authority
JP
Japan
Prior art keywords
ruled line
character
ruled
line
cutting position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7352856A
Other languages
English (en)
Other versions
JPH09185726A (ja
Inventor
直哉 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7352856A priority Critical patent/JP2995650B2/ja
Publication of JPH09185726A publication Critical patent/JPH09185726A/ja
Application granted granted Critical
Publication of JP2995650B2 publication Critical patent/JP2995650B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、少数のストローク
から形成される文字(数字(算用数字),アルファベッ
ト,カタカナ,およびひらがな等の文字。数字が最も一
般的である)が記入された帳票(罫線を有する帳票)の
画像(帳票画像)から罫線を除去する罫線除去方式に関
し、特に罫線と重なっている文字(接触または交差して
いる文字)のストロークを欠損することなく罫線の除去
を実現するための罫線除去方式に関する。
【0002】
【従来の技術】従来より、この種の罫線除去方式は、O
CR(Optical Character Read
er)において、文字認識処理の前に文字認識の障害と
なる罫線を除去するために用いられる。
【0003】従来のこの種の罫線除去方式は、帳票画像
を予め蓄積している画像メモリと、該帳票画像上の罫線
の位置を示す情報(罫線位置情報)を予め蓄積している
罫線位置保存メモリと、画像解析手段と、罫線消去手段
とから構成される。
【0004】画像解析手段は、例えば、帳票画像上で図
形の輪郭追跡を行い、罫線位置情報と輪郭追跡結果の位
置情報とを比較解析して、罫線と文字とが重なっている
かどうかを判定する。
【0005】すなわち、罫線の内側の輪郭は罫線位置情
報と輪郭追跡によって検出された各輪郭線の位置情報
(輪郭追跡結果の位置情報)とを比較することにより特
定できるが、この輪郭が罫線位置保存メモリから読み出
された罫線位置情報によって示される罫線の位置から大
きくずれることなく、かつ、単純な矩形形状をしていた
なら、罫線とその内部に書かれている文字との干渉はな
いと判定できる。一方、この条件(輪郭が罫線の位置か
ら大きくずれることなく単純な矩形形状をしているとい
う条件)が満たされず、干渉があると判定された場合に
は、さらに解析が行われ、文字と重なっていない罫線の
区間が特定される。
【0006】さらに、画像解析手段は、文字と重なって
いない罫線の区間として特定された区間を消去すること
により、文字のストロークの欠損を避けつつ罫線の除去
を実現している。
【0007】
【発明が解決しようとする課題】上述した従来の罫線除
去方式では、輪郭追跡および輪郭追跡結果に基づく解析
を行う必要があるので、文字のストロークの欠損を回避
しつつ罫線除去を実現するための処理量(計算機システ
ムの演算量)が大きくなり、その演算コスト(大規模な
計算機システムを構築するための金額および罫線除去処
理に要する処理時間や処理数等)が大きくなるという問
題点があった。
【0008】しかも、従来の罫線除去方式では、画像上
に罫線成分の途切れが生じていた場合には、この途切れ
を補間するための前処理を組み込む必要があるので、こ
の処理(途切れ補間のための前処理)に要する演算コス
トが大きくなるという問題点もあった。
【0009】また、従来の罫線除去方式では、文字と罫
線との干渉箇所で両者を分離する際に、文字に罫線成分
の一部が残った状態で分離される等のおそれがあるの
で、罫線除去に際しての精度が悪くなるという問題点が
あった。
【0010】本発明の目的は、上述の点に鑑み、文字
(少数のストロークによって形成される文字)および罫
線を有する帳票画像において文字のストロークの欠損を
回避しつつ罫線の除去を実現する際に、演算量が少なく
てすみ(したがって、高速処理が可能となる)、高精度
の処理を実現することができる罫線除去方式を提供する
ことにある。
【0011】
【課題を解決するための手段】本発明の罫線除去方式
は、少数のストロークによって形成される文字および罫
線を有する帳票画像を予め蓄積している画像メモリと、
前記画像メモリ内の帳票画像中の罫線の罫線位置情報を
蓄積している罫線位置保存メモリと、文字と罫線との干
渉箇所で生じた文字の切断位置の座標値を保存する切断
位置保存メモリと、前記罫線位置保存メモリから読み出
された罫線位置情報を利用して前記画像メモリ内の帳票
画像中の罫線を消去し、罫線消去の過程で文字と罫線と
の干渉箇所で生じた文字成分の切断位置を示す座標値を
前記切断位置保存メモリに保存する罫線消去手段と、前
記罫線位置保存メモリ内の罫線位置情報,前記切断位置
保存メモリ内の切断位置を示す座標値,および前記画像
メモリ内の帳票画像の参照に基づいて該切断位置の近傍
の帳票画像の図形構造を解析し、その解析によって該切
断位置で生じている文字と罫線との干渉パターンを推定
し、その推定に基づいて文字の欠損部分を復元する文字
欠損復元手段とを有し、前記罫線除去手段が、前記罫線
位置情報に基づいて仮罫線を設定し、前記仮罫線に基づ
いて罫線の平均線幅を求め、前記平均線幅に基づいて許
容線幅を設定し罫線境界を求めることを特徴とする。
【0012】
【発明の実施の形態】次に、本発明について図面を参照
して詳細に説明する。
【0013】図1は、本発明の罫線除去方式の一実施例
の構成を示すブロック図である。
【0014】本実施例の罫線除去方式は、帳票の画像
(帳票画像)を予め蓄積している画像メモリ1と、画像
メモリ1中に蓄積された帳票画像上の罫線を消去する罫
線消去手段2と、罫線に接触または交差していた図形
(文字のストロークを構成する図形等)について罫線消
去によって途切れた箇所(切断箇所)の位置(切断位
置)の座標値を保存する切断位置保存メモリ3と、罫線
の消去により生じた文字欠損を復元する文字欠損復元手
段4と、罫線位置情報を蓄積している罫線位置保存メモ
リ5とを含んで構成されている。
【0015】なお、以下の〜に、図1中のいくつか
の構成要素について説明を加えておく。
【0016】 画像メモリ1 画像メモリ1は、金額等の数字を記入した帳票をイメー
ジスキャナ等で取り込んで得られた2値の2次元ディジ
タル画像である帳票を予め蓄積している。ここで、帳票
の無い部分の画素値は「1」であり、帳票の背景部分
(文字および罫線等の図形パターンが存在しない部分)
の画素値は「0」であり、帳票における文字および罫線
等の図形パターンの部分の画素値は「1」である。な
お、上記のように本実施例では罫線と干渉する文字が数
字である場合について述べるが、数字以外の文字につい
ても、ストローク数が少ない文字(アルファベット,カ
タカナ,およびひらがな等)に対してであれば本発明は
有効である。
【0017】 罫線位置保存メモリ5 罫線位置保存メモリ5は、画像メモリ1に蓄積されてい
る帳票画像中の罫線の位置を本発明の構成要素以外の手
段・装置等により検出した結果を示す罫線位置情報を予
め蓄積している。
【0018】図13に示すように、罫線位置保存メモリ
5内の罫線位置情報は、変数A,B,C,D,およびE
の変数値の組として表現される。
【0019】ここで、変数Aは、罫線が横罫線であるか
縦罫線であるかを識別するコードである。
【0020】変数Bおよび変数Cは、罫線を次の一次式 y=ax+b(横罫線) ・・・(式1) または、 x=cy+d(縦罫線) ・・・(式2) で表現した場合の、一次の項の係数aまたはcの値(変
数B)と、定数項bまたはdの値(変数C)とである。
【0021】変数Dおよび変数Eは、式1および式2に
おいて、横罫線ならばxの取り得る範囲(x0 ≦x≦x
M )を示しており、縦罫線ならばyの取り得る範囲(y
0 ≦y≦yN )を示している。すなわち、変数Dはx0
またはy0 を示し、変数EはxM またはyN を示す。
【0022】 文字欠損復元手段4 図4に示すように、文字欠損復元手段4は、交点座標算
出手段401と、交点座標記憶手段402と、切断位置
情報棄却手段403と、区間設定手段404と、特徴抽
出手段405と、第1判定手段406と、第2判定手段
407と、復元手段408と、切断位置情報選別手段4
09と、局所切断位置情報保存手段410とを含んで構
成されている。
【0023】図2は、本実施例の罫線除去方式の処理
(全体動作に係る処理)を示す流れ図である。この処理
は、罫線読込みステップ201と、罫線消去ステップ2
02と、文字欠損復元ステップ203と、終了判定ステ
ップ204とからなる。
【0024】図3は、罫線消去手段2の処理を示す流れ
図である。この処理は、仮罫線境界検出ステップ301
と、平均線幅等算出ステップ302と、罫線境界修正ス
テップ303と、罫線境界未検出箇所補間ステップ30
4と、罫線成分消去ステップ305とからなる。
【0025】図4は、先に述べたように、文字欠損復元
手段4の構成を示すブロック図である。
【0026】図5は、文字欠損復元手段4の処理を示す
流れ図である。この処理は、交点検出ステップ501
と、交点該当切断位置座標値棄却ステップ502と、区
間設定ステップ503と、局所特徴抽出ステップ504
と、第1判定ステップ505と、第2判定ステップ50
6と、復元ステップ507とからなる。
【0027】図6は、罫線消去手段2の動作を説明する
ための図である。
【0028】図7〜図12は、本実施例の罫線除去方式
の具体的な動作を説明するための図である。
【0029】図13は、先に述べたように、罫線位置保
存メモリ5内の罫線位置情報の構造(データ構造)を示
す図である。
【0030】次に、このように構成された本実施例の罫
線除去方式の動作について説明する。
【0031】まず、図1および図2を参照して、本実施
例の罫線除去方式の全体動作について説明する。
【0032】罫線消去手段2は、まず、罫線位置保存メ
モリ5から図13中の変数A,B,C,D,およびEの
値で示される1本分の罫線についての罫線位置情報を読
み込む(ステップ201)。
【0033】次に、罫線消去手段2は、ステップ201
で読み込んだ罫線位置情報に該当する画像メモリ1内の
帳票画像中の罫線を消去する(ステップ202)。すな
わち、画像メモリ1中の2値2次元ディジタル画像にお
いて該罫線成分の画素値を「1」から「0」に変換す
る。この処理では文字成分のうち、罫線に重なる成分の
部分も消去されるが、この時にできる画素値「1」の画
素領域(画素値「1」の画素が途切れなく連続する1つ
の領域)の箇所(切断箇所)の座標値(切断位置を示す
座標値)を切断位置保存メモリに出力して保存する。
【0034】罫線消去手段2による罫線の消去が終了す
ると、文字欠損復元手段4が起動される。
【0035】文字欠損復元手段4は、文字切断位置保存
メモリ3から画素値が「1」の画素領域(切断箇所)の
切断位置を読み出し、罫線位置保存メモリ5内の罫線位
置情報を利用しながら画像メモリ1内の該当座標値近傍
の成分の図形構造を解析することによって、欠損前の文
字成分の形状を推定し、その推定に基づいて欠損した文
字の復元を行う(ステップ203)。なお、復元結果に
ついては、画像メモリ1に書き込む。
【0036】以上の処理が終了すると、罫線消去手段2
は、罫線位置保存メモリ5内の全ての罫線位置情報につ
いて処理が終了したか否かを判定する(ステップ20
4)。
【0037】罫線消去手段2は、ステップ204で「罫
線位置保存メモリ5内の全ての罫線位置情報について処
理が終了した」と判定した場合には、本実施例の罫線除
去方式の全体動作を終了させる。
【0038】また、罫線消去手段2は、ステップ204
で「罫線位置保存メモリ5内の全ての罫線位置情報につ
いて処理が終了していない」と判定した場合には、罫線
位置保存メモリ5から未処理の罫線位置情報を読み出
し、その罫線位置情報に関して上述のステップ201〜
203と同様な処理を実行する。
【0039】次に、罫線消去手段2および文字欠損復元
手段4の各々の詳細な動作について説明する。
【0040】第1に、図3および図6を参照して、罫線
消去手段2の動作を説明する。
【0041】罫線消去手段2は、以下の(1)〜(5)
に示す処理を行う。
【0042】(1) 初めに、次のようにして、仮の罫
線の境界を検出する(ステップ301)。
【0043】まず、罫線位置保存メモリ5から罫線1本
分の罫線位置情報を読み取る。読み取った罫線をLとす
る。罫線位置情報の読み取り後、罫線Lと平行で、罫線
LからΔs離れた罫線LaおよびLbを生成する。ここ
では、これら罫線LaおよびLbで挟まれる領域を領域
Zと呼ぶ(図6参照)。
【0044】今、罫線Lが横罫線である場合について説
明する(なお、罫線Lが縦罫線である場合の処理は、以
下の説明における処理において、x軸とy軸とを交換し
たものとなる)。
【0045】画像メモリ1中で領域Z内の画像上をx=
0 (罫線位置保存メモリ5における変数Dの値)から
x=xM (罫線位置保存メモリ5における変数Eの値)
まで1画素単位に変化させ、各x座標値において、y座
標値を領域Zの範囲内でy方向に変化させる。この過程
で指定される各座標値(x,y)における画素値を読み
取る。
【0046】その読取り結果に基づき、次の条件を満た
す罫線Lに最も近い座標値(x,y)を検出する。ここ
で、f(x,y)は座標値(x,y)における画素の画
素値を表している。 条件: f(x,y)=1、かつ、f(x,y−1)=0 ・・・(式3) または、 f(x,y)=1、かつ、f(x,y+1)=0 ・・・(式4)
【0047】領域Z内で、式3を満たす罫線Lに最も近
い座標値が検出された場合には、その座標値の画素を起
点としてyの値を1画素づつ増加させ、式4を満たす座
標値を検出する。逆に、式4を満たす罫線Lに最も近い
座標値が検出された場合には、その座標値の画素を起点
としてyの値を1画素ずつ減少させ、式3を満たす座標
値を検出する。
【0048】以上のようにして検出された式3を満たす
座標値(x,y)の画素の位置は仮の罫線の上端位置を
示している。また、以上のようにして検出された式4を
満たす座標値(x,y)の画素の位置は仮の罫線の下端
位置を示している。各座標値は、罫線消去手段2の内部
に用意された以下のおよびに示す配列に、次のよう
に保存される。
【0049】 横罫線上端座標値保存用配列: KUPP={(x0 ,yu0),(x1 ,yu1),
(x2 ,yu2),…,(xM ,yuM)}
【0050】 横罫線下端座標値保存用配列: KLOW={(x0 ,yw0),(x1 ,yw1),
(x2 ,yw2),…,(xM ,ywM)}
【0051】ここで、x0 ,x1 ,x2 ,…,xM は、
着目している横罫線が存在する範囲のx座標値を1画素
単位で保存したものである。
【0052】また、yu0,yu1,yu2,…,yuMは、対
応するx座標値x0 ,x1 ,x2 ,…,xM での該横罫
線の上端y座標値を保存したものである。なお、上記の
処理によって該横罫線の上端y座標値のいくつかを検出
できなかった場合には、該上端y座標値として「−1」
を保存する(「−1」は「検出できなかった」ことを示
す情報であり、必ずしも「−1」という値に限定される
ものではない)。
【0053】さらに、yw0,yw1,yw2,…,ywMは、
対応するx座標値x0 ,x1 ,x2,…,xM での該横
罫線の下端y座標値を保存したものである。なお、上記
の処理によって該横罫線の下端y座標値のいくつかを検
出できなかった場合には、該下端y座標値として「−
1」を保存する。
【0054】以上のようにして、仮の罫線の境界(この
場合には、該横罫線の上端および下端)を検出する。
【0055】(2) ステップ301で検出した仮の罫
線の境界に基づき、次のようにして平均線幅および許容
線幅を算出する(ステップ302)。
【0056】まず、横罫線上端座標値保存用配列KUP
Pと横罫線下端座標値保存用配列KLOWとの間で、等
しいx座標値xm におけるy座標の差を求め、そのx座
標値xm における上端と下端との距離すなわち線幅d
uwm を求める。ただし、mは0,1,2,…,Mの値を
とる。
【0057】この算出結果から、平均線幅dを次式によ
って求める。 d=(m=0 M Σduwm )/(M+1−M′) ・・・(式5)
【0058】なお、式(5)におけるdは、duwm につ
いてのm=0からm=Mまでの総和を示す。ただし、y
um=−1または/およびywm=−1である場合のduwm
は加算されない。また、M′はその場合(yum=−1ま
たは/およびywm=−1である場合)の数を示す。
【0059】さらに、平均線幅dに所定の微小量αを足
した値のdlimit を許容線幅として求める。
【0060】(3) 横罫線上端座標値保存用配列KU
PPおよび横罫線下端座標値保存用配列KLOWにおい
て「duwm >dlimit 」となるm番目の要素(なお、K
UPPおよびKLOWの配列データは0番目の要素から
始まる)のy座標値(yumおよびywm)を共に「−1」
に変更する。すなわち、ステップ302の算出結果に基
づいて着目している罫線の境界を修正する(ステップ3
03)。
【0061】(4) 次のようにして、罫線境界未検出
箇所を求め、その罫線境界未検出箇所の補間を行う(ス
テップ304)。
【0062】まず、横罫線上端座標値保存用配列KUP
Pおよび横罫線下端座標値保存用配列KLOWにおい
て、y座標値が「−1」をとる要素を検索する。このよ
うな要素は、画像メモリ1中の帳票画像上で、罫線と背
景との境界が発見されなかった箇所(罫線境界未検出箇
所)に対応している。
【0063】次に、横罫線上端座標値保存用配列KUP
Pおよび横罫線下端座標値保存用配列KLOWの各配列
データ上で、この罫線境界未検出箇所について補間を行
う。すなわち、連続するx座標値の系列において、罫線
境界未検出箇所の周囲の検出成功箇所によってその罫線
境界未検出箇所の補間を行う。これによって、着目して
いる罫線の位置が確定する(横罫線上端座標値保存用配
列KUPPおよび横罫線下端座標値保存用配列KLOW
の最終的な生成が完了する)。
【0064】なお、この場合に、罫線境界未検出箇所の
両端のx座標値およびy座標値を切断箇所の位置(切断
位置)の座標値として切断位置保存メモリ3に出力す
る。
【0065】(5) 最後に、ステップ304までの処
理によって生成された横罫線上端座標値保存用配列KU
PPおよび横罫線下端座標値保存用配列KLOWのxm
座標値(m=0〜M)の各々において、yumの座標値で
示される位置とywmの座標値で示される位置とで挟まれ
る区間にある画素(罫線成分の画素)を消去する(ステ
ップ305)。すなわち、それらの画素の画素値を
「1」から「0」に変換する(もともと画素値が「0」
である画素については「0」のままとする)。
【0066】第2に、図4および図5を参照して、文字
欠損復元手段4の動作を説明する。
【0067】文字欠損復元手段4は、着目罫線(処理対
象として着目している罫線)に対する罫線消去手段2の
処理の終了後に起動され、以下の(1)〜(8)に示す
処理を行う。
【0068】(1) 文字欠損復元手段4内の交点座標
算出手段401は、罫線位置保存メモリ5から、着目罫
線の罫線位置情報と、この罫線に直交する罫線の罫線位
置情報とを読み込む。さらに、交点座標算出手段401
は、これらの罫線位置情報に基づき、これらの罫線の交
点の座標値を計算(検出)し、交点座標記憶手段402
にその座標値(罫線交点座標値)を出力する(ステップ
501)。交点座標記憶手段402は、その罫線交点座
標値を保存する。
【0069】(2) 切断位置情報棄却手段403は、
交点座標記憶手段402に保存された罫線交点座標値を
用いて、切断位置保存メモリ3に保存された切断箇所の
座標値の中から、該交点で生じた切断箇所の座標値を検
出してこれを棄却する(ステップ502)。
【0070】(3) 区間設定手段404は、交点座標
記憶手段402内の罫線交点座標値を読み出し、連続す
る交点に挟まれた区間の内の1つを抽出し、その区間の
両端を数画素広げた区間を設定する(ステップ50
3)。このように、本実施例では、1区間(1文字分の
領域)の認識において、横罫線が着目罫線である場合に
縦罫線で区切られた1区間に基づいて該認識を行ってい
る(縦罫線が着目罫線である場合には横罫線で区切られ
た1区間に基づいて該認識を行うこととなる)。ただ
し、予め区間指定を行っておく等の他の認識手法も考え
られる。
【0071】(4) 特徴抽出手段405は、以下の局
所特徴群を抽出する(ステップ504)。ただし、ここ
では、説明の便宜上、横罫線が着目罫線である場合に限
定した説明を行う。
【0072】今、切断位置保存メモリ3から読み出され
た切断箇所を以下のように称する。 ○ 横罫線の上部で生じた切断箇所{ai},i=0,
1,…,Nupp −1 ○ 横罫線の下部で生じた切断箇所{bj},j=0,
1,…,Nlow −1
【0073】ただし、Nupp は罫線上部で生じた切断箇
所の個数であり、Nlow は罫線下部で生じた切断箇所の
個数である。座標値は、X座標値が小さいものから大き
いものに順に並んでいるものとする。また、各切断箇所
の左端の座標値を(xaLi ,yaLi )または(xbLj
bLj )と表し、右端の座標値を(xaRi ,yaRi )ま
たは(xbRj ,ybRj )と表し、中央の座標値を(x
aMi ,yaMi )または(xbMj ,ybMj )と表すものと
する。
【0074】特徴抽出手段405は、これらの切断箇所
に関して以下の〜に示す局所特徴を抽出する。
【0075】 局所特徴1:着目区間(ステップ50
3で設定された区間)内でのaiとbjとのx軸方向の
距離差: dij=|xaMi −xbMj | ただし、Nupp >0かつNlow >0の場合にのみ抽出す
る。
【0076】 局所特徴2:各切断箇所に連続する文
字等の成分の方向: θai,θbj(0≦θai,θbj<π)
【0077】 局所特徴3:各切断箇所に連続する文
字等の成分の高さ(罫線端から延びている距離): hai,hbj
【0078】(5) 第1判定手段406は、上述の局
所特徴の抽出処理の終了後に起動され、特徴抽出手段4
05から局所特徴1〜3の特徴量を受け取り、切断位置
保存メモリ3から着目区間内の切断箇所の座標値を受け
取り、1対1に対応する(x座標値が最も近い)罫線上
部の切断箇所aiと罫線下部の切断箇所bjとの組につ
いて以下の判定(判定および判定からなる第1の判
定)を実施する(ステップ505)。なお、d
threshold1,dthreshold2,およびθthreshold は、所
定のしきい値であり、dthreshold1<dthreshold2であ
る。
【0079】判定:dij<dthreshold1ならば、ai
とbjとが「交差1」の干渉パターン(図7参照)に関
する切断箇所であると判定する。
【0080】判定:dij<dthreshold2、かつ、|θ
i −θj |<θthreshold ならば、aiとbjとが「交
差1」の干渉パターンに関する切断箇所であると判定す
る。
【0081】以上の第1の判定の判定結果は、第2判定
手段407に出力される。
【0082】(6) 切断位置情報選別手段409は、
ステップ505における第1の判定の終了後に起動さ
れ、切断位置に関する情報を、区間設定手段404で設
定された各区間別に識別できるように分類して、その
を局所切断位置情報保存手段410に蓄積する。
【0083】(7) 第2判定手段407は、切断位置
情報選別手段409による選別処理の後に起動され、第
1判定手段406の判定結果(判定の過程で使われた値
を含む)と局所切断位置情報保存手段410から受け取
る着目区間内の切断箇所の位置(切断位置)の座標値と
から、罫線上部の切断箇所ai(i=0,…,Nupp
と罫線下部の切断箇所bj(j=0,…,Nlow )との
組について以下の判定(判定,,およびからなる
第2の判定)を実施する(ステップ506)。ここで、
判定,,およびの判定結果として出力される干渉
パターンは、「交差2」,「交差1」,および「重な
り」の干渉パターンである。これらは、それぞれ、図
8,図7,および図9に示す干渉パターンに対応する。
【0084】判定1): Nupp =2、かつ、Nlow =1で、 xaM0 −xbM0 >Dshort 、かつ、 xbL0 −xaR0 <Dlong 、かつ、 xaM1 −xbM0 >Dshort 、かつ、 xaL1 −xbR0 <Dlong 、かつ、 xaL1 −xaR0 <Dlong2 、かつ、 ha0 <Hshort 、かつa1 >Hlong ならば、a0,a1,およびb0は「交差2」の干渉パ
ターンに関する切断箇所であると判定する。なお、各し
きい値の値は、例えば、Dshort =2(この数値は画素
数を示す。以下同様),Dlong=7,Dlong2 =14,
short =5,およびHlong=5である。
【0085】判定:Nupp =2、かつ、Nlow =2
で、 xaR0 −xaL0 <Wth、かつ、 xaR1 −xaL1 <Wth、かつ、 xbR0 −xbL0 <Wth、かつ、 xbR1 −xbL1 <Wth、かつ、 |xaM0 −xbM0 |<Dth2 、かつ、 |xaM1 −xbM1 |<Dth2 、かつ、 xaL1 −xaR0 <Dth3 、かつ、 ha0 >HLong 、かつ、 hb1 >HLong 、かつ、 hb0 <Hshort 、かつ、 ha1 <Hshort ならば、a0,a1,b0,およびb1は2組(a0と
b0との組およびa1とb1との組)の「交差1」の干
渉パターンに関する切断箇所であると判定する。なお、
各しきい値の値は、例えば、Wth=5,Dth2 =10,
th3 =14,HLong=7,およびHshort =5であ
る。
【0086】判定:Nupp =2、かつ、Nlow =0
で、 xaM1 −xaM0 <Dth4 、かつ、 ha0 >HLong 、かつ、 ha1 >HLong ならば、a0およびa1は「重なり」の干渉パターンに
関する切断箇所であると判定する。なお、各しきい値の
値は、例えば、Dth4 =20およびHLong=7である。
【0087】第2判定手段407は、以上の第2の判定
の判定結果と第1判定手段406による第1の判定の判
定結果とを、復元手段408に出力する。
【0088】なお、第2の判定では、上記のように、区
間内のNupp およびNlow の数が限定されたものとなっ
ている。したがって、この判定が適用される文字として
は数字がふさわしいと考えられる。
【0089】(8) 復元手段408は、ステップ50
6における第2の判定の終了後に起動され、第1判定手
段406による判定結果と第2判定手段407による判
定結果とを入力し、これらの判定結果に基づいて切断位
置保存メモリ3から受け取る着目区間内の切断箇所の座
標値で示される画像メモリ1中の文字欠損位置に対して
復元処理を施す(ステップ507)。
【0090】この復元処理は、「交差1」,「交差
2」,および「重なり」の3種類の干渉パターンに対し
て、それぞれ異なる手続きで行われる。以下の〜
で、各干渉パターンに対する復元処理の手続きを説明す
る(具体例である図10〜図12参照)。
【0091】なお、以下では横罫線によって生じた文字
欠損の復元処理の場合に限定して説明するが、x軸とy
軸の関係を交換することにより、縦罫線によって生じた
文字欠損の復元処理も同様に可能となる。
【0092】 「交差1」の干渉パターンに対する復
元処理の手続き 図10に示されるように罫線上部の切断箇所の右端と罫
線下部の切断箇所の右端とを結ぶ直線と、同じく上下の
切断箇所の左端同士を結ぶ直線とを生成する。その結果
得られる上下の切断箇所と上記手続きによって生成され
た2直線とで囲まれる領域内の画素(図10において
「○」で示される画素)の画素値を「0」から「1」に
変換する。
【0093】 「交差2」の干渉パターンに対する復
元処理の手続き 罫線上部の切断箇所a0およびa1と罫線下部の切断箇
所b0とについて、a0とb0とに対してと、a1とb
0とに対してとのそれぞれに、上記「交差1」に適用し
た手続きと同じ手続きを施す(図11参照。図11にお
いて「○」で示される画素の画素値を「0」から「1」
に変換する)。
【0094】 「重なり」の干渉パターンに対する復
元処理の手続き 図12に示されるように、罫線上部の切断箇所a0およ
びa1について、まず、2つの切断箇所a0およびa1
の外接矩形領域(図12において「×」で示される画素
の領域)を設定する。次に、設定された外接矩形領域に
含まれる画素の画素値を「0」から「1」に変換する
(図12の例ではもともと「1」である)。さらに、そ
の外接矩形領域の下部に隣接する2ライン分(画素2つ
の間隔のライン分)の領域に含まれる画素(図12にお
いて「○」で示される画素)の画素値を「0」から
「1」に変換する。ただし、各ラインの長さは矩形領域
から離れるに従って短く復元する。
【0095】本実施例では「横罫線と文字との干渉(特
に、横罫線と文字の下部との干渉)」を対象として説明
を進めてきたが、上述の各所でも一部言及したように、
横罫線と文字の上部との干渉,縦罫線と文字の右部との
干渉,および縦罫線と文字の左部との干渉に対しても、
上記の説明における座標を180°,反時計回転方向に
90°,および時計回転方向に90°だけ回転させるこ
とによって同様に対処することができる。
【0096】
【発明の効果】以上説明したように、本発明の罫線除去
方式は、罫線を消去した後に生じる欠損文字の切断位置
に着目し、その近傍の図形構造を解析することによって
文字と罫線との干渉パターンを推定し、その干渉パター
ンに基づいて復元処理を行うように構成することによ
り、輪郭追跡等を利用する他の方式(従来の罫線除去方
式)に比べて、高精度、かつ高速に欠損文字の復元処理
が可能になるという効果を有する。この効果により、本
発明の罫線除去方式が組み込まれるOCRにおける罫線
除去処理の処理精度や処理速度の向上を実現することが
できる。
【図面の簡単な説明】
【図1】本発明の罫線除去方式の一実施例の構成を示す
ブロック図である。
【図2】図1に示す罫線除去方式の処理(全体動作に係
る処理)を示す流れ図である。
【図3】図1中の罫線消去手段の処理を示す流れ図であ
る。
【図4】図1中の文字欠損復元手段の構成を示すブロッ
ク図である。
【図5】図4に示す文字欠損復元手段の処理を示す流れ
図である。
【図6】図1中の罫線消去手段の動作を説明するための
図である。
【図7】干渉パターン「交差1」の例を示す図である。
【図8】干渉パターン「交差2」の例を示す図である。
【図9】干渉パターン「重なり」の例を示す図である。
【図10】「交差1」に対する復元処理を説明するため
の図である。
【図11】「交差2」に対する復元処理を説明するため
の図である。
【図12】「重なり」に対する復元処理を説明するため
の図である。
【図13】図1中の罫線位置保存メモリに蓄積されてい
る罫線位置情報のデータ構造を示す図である。
【符号の説明】
1 画像メモリ 2 罫線消去手段 3 切断位置保存メモリ 4 文字欠損復元手段 5 罫線位置保存メモリ 401 交点座標算出手段 402 交点座標記憶手段 403 切断位置情報棄却手段 404 区間設定手段 405 特徴抽出手段 406 第1判定手段 407 第2判定手段 408 復元手段 409 切断位置情報選別手段 410 局所切断位置情報保存手段

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】少数のストロークによって形成される文字
    および罫線を有する帳票画像を予め蓄積している画像メ
    モリと、 前記画像メモリ内の帳票画像中の罫線の罫線位置情報を
    蓄積している罫線位置保存メモリと、 文字と罫線との干渉箇所で生じた文字の切断位置の座標
    値を保存する切断位置保存メモリと、 前記罫線位置保存メモリから読み出された罫線位置情報
    を利用して前記画像メモリ内の帳票画像中の罫線を消去
    し、罫線消去の過程で文字と罫線との干渉箇所で生じた
    文字成分の切断位置を示す座標値を前記切断位置保存メ
    モリに保存する罫線消去手段と、 前記罫線位置保存メモリ内の罫線位置情報,前記切断位
    置保存メモリ内の切断位置を示す座標値,および前記画
    像メモリ内の帳票画像の参照に基づいて該切断位置の近
    傍の帳票画像の図形構造を解析し、その解析によって該
    切断位置で生じている文字と罫線との干渉パターンを推
    定し、その推定に基づいて文字の欠損部分を復元する文
    字欠損復元手段とを有し、 前記罫線除去手段が、前記罫線位置情報に基づいて仮罫
    線を設定し、前記仮罫線に基づいて罫線の平均線幅を求
    め、前記平均線幅に基づいて許容線幅を設定し罫線境界
    を求める ことを特徴とする罫線除去方式。
  2. 【請求項2】 縦罫線と横罫線とが存在する帳票の帳票
    画像を蓄積する画像メモリと、1文字分の領域の認識に
    おいて、横罫線が着目罫線である場合には縦罫線で区切
    られた1区間に基づいて該認識を行い、縦罫線が着目罫
    線である場合には横罫線で区切られた1区間に基づいて
    該認識を行う文字欠損復元手段とを有することを特徴と
    する請求項1記載の罫線除去方式。
  3. 【請求項3】 推定対象の「文字と罫線との干渉パター
    ン」が「交差1」,「交差2」,および「重なり」であ
    る文字欠損復元手段を有することを特徴とする請求項1
    または請求項2記載の罫線除去方式。
  4. 【請求項4】 「少数のストロークによって形成される
    文字」が数字であること を特徴とする請求項1、請求項
    2又は請求項3記載の罫線除去方式。
JP7352856A 1995-12-28 1995-12-28 罫線除去方式 Expired - Fee Related JP2995650B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7352856A JP2995650B2 (ja) 1995-12-28 1995-12-28 罫線除去方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7352856A JP2995650B2 (ja) 1995-12-28 1995-12-28 罫線除去方式

Publications (2)

Publication Number Publication Date
JPH09185726A JPH09185726A (ja) 1997-07-15
JP2995650B2 true JP2995650B2 (ja) 1999-12-27

Family

ID=18426914

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7352856A Expired - Fee Related JP2995650B2 (ja) 1995-12-28 1995-12-28 罫線除去方式

Country Status (1)

Country Link
JP (1) JP2995650B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3204245B2 (ja) 1999-04-27 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 罫線除去方法および装置
JP4867400B2 (ja) * 2006-03-06 2012-02-01 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5357612B2 (ja) * 2009-04-13 2013-12-04 株式会社日立ソリューションズ 下線除去装置
JP2012084132A (ja) * 2010-09-16 2012-04-26 Toshiba Corp 文字認識装置、文字認識方法および区分装置
JP6561525B2 (ja) * 2015-03-23 2019-08-21 日本電気株式会社 文字抽出装置、文字抽出方法及び文字抽出プログラム

Also Published As

Publication number Publication date
JPH09185726A (ja) 1997-07-15

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Liu et al. Identification of fork points on the skeletons of handwritten Chinese characters
CN111640089B (zh) 一种基于特征图中心点的缺陷检测方法及装置
CN111797829A (zh) 一种车牌检测方法、装置、电子设备和存储介质
JP7026165B2 (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN101727580A (zh) 图像处理装置、电子介质和图像处理方法
CN111433780A (zh) 车道线检测方法、设备、计算机可读存储介质
US20170351925A1 (en) Analysis method of lane stripe images, image analysis device, and non-transitory computer readable medium thereof
CN105184225A (zh) 一种多国纸币图像识别方法和装置
CN112329548A (zh) 一种文档章节分割方法、装置及存储介质
JP2640673B2 (ja) パターン認識装置
US20230065041A1 (en) Geometric pattern matching method and device for performing the method
JP2995650B2 (ja) 罫線除去方式
CN108573510B (zh) 一种栅格地图矢量化方法及设备
CN110705554B (zh) 图像的处理方法和装置
CN115471849B (zh) 一种手写汉字图像评估方法及系统
JP3064334B2 (ja) 図面処理方法および装置
JP3904397B2 (ja) 表認識方法
Janssen et al. Evaluation method for an automatic map interpretation system for cadastral maps
JP3130869B2 (ja) 指紋画像処理装置、指紋画像処理方法、および記録媒体
JPH01271883A (ja) 指紋中心検出方式
CN112069849A (zh) 基于多个二维码的识别定位方法、装置、设备及存储介质
EP1538547B1 (en) Method and device for extracting skeletal data from image data
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
CN109472777B (zh) 一种基于fpga异构计算的桥梁检测方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071029

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081029

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091029

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101029

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111029

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121029

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees