JPH0757047A - 文字切出し方式 - Google Patents

文字切出し方式

Info

Publication number
JPH0757047A
JPH0757047A JP5222239A JP22223993A JPH0757047A JP H0757047 A JPH0757047 A JP H0757047A JP 5222239 A JP5222239 A JP 5222239A JP 22223993 A JP22223993 A JP 22223993A JP H0757047 A JPH0757047 A JP H0757047A
Authority
JP
Japan
Prior art keywords
character
ruled line
line
ruled
line segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5222239A
Other languages
English (en)
Other versions
JP3077929B2 (ja
Inventor
Yuji Yonekura
雄司 米倉
Masaomi Nakajima
正臣 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP05222239A priority Critical patent/JP3077929B2/ja
Publication of JPH0757047A publication Critical patent/JPH0757047A/ja
Application granted granted Critical
Publication of JP3077929B2 publication Critical patent/JP3077929B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 文字と罫線とを含む画像データから文字を切
り出す方式において、画像データの全てを1度走査する
だけで、罫線抽出処理と文字切出し処理との2つの処理
を行うことができ、しかも、罫線除去を、それが必要な
部分のみに限定して行うことにより、罫線除去という負
荷の高い処理を極力抑制して、文字認識前処理全体の処
理速度を向上させる。 【構成】 線分抽出部12が、画像データをラスター走
査してx方向の線分を抽出する。次に、x線分グループ
化部13が、抽出されたx線分の長さとx線分相互間の
位置関係とに基づいて、複数のx線分を幾つかのグルー
プに分け、外接方形計算部14が各線分グループの外接
方形の座標を計算する。次に、罫線抽出部15が、外接
方形の縦横の寸法と位置とに基づいて、罫線として抽出
する。文字切出し部16は、罫線として抽出されなかっ
た外接方形について、統合や切断を行って文字パターン
の外接方形を求める。また、罫線除去部17が、抽出さ
れた罫線のうち、文字パターンと重なった部分を残し
て、他の罫線部分を除去する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は一般に文字切出し方式に
関し、特に、光学的文字読取り装置(以下、「OCR」
という)において、画像データ中の文字パターンを切出
す際に適用される文字切出し方式に関する。
【0002】
【従来の技術】OCRは一般に一文字単位で文字認識を
行うので、その文字認識処理の前段階で各文字毎に文字
領域を決定して、画像データ中から文字パターンを切出
す処理を必要とする。更に、黒枠罫線が画像データ中に
含まれている場合、切出された文字パターン中に罫線が
含まれているとその文字認識の精度が低下してしまうた
め、予め画像データ中から罫線を削除する処理が必要で
ある。
【0003】画像データ中から罫線を削除する処理とし
て、一般に次の二種類の罫線抽出方式が利用されてい
る。第1の罫線抽出方式は、2値画像データを文字列に
対して平行方向(x方向)又は垂直方向(y方向)に一
画素ずつ走査しながら、黒画素をx軸及びy軸に夫々投
影したヒストグラムをとるものである。これにより、上
記方式はヒストグラムの値が予め決められた閾値より大
きい位置に罫線があるものとして罫線を抽出する。
【0004】第2の罫線抽出方式は、2値画像データを
走査することにより、黒画素がx方向又はy方向に予め
決められた閾値より長く連結している所に罫線があるも
のとして、罫線を抽出する方式である。
【0005】また、文字列から文字パターンを切出す場
合には、特にフリーピッチで書かれた文字列を対象とす
る場合、一般に、以下のような文字パターン切出し方式
が採用される。該方式は、上記各文字パターンを黒画素
の連結成分(以下、「黒連結成分」という)の集合と考
え、まず、2値画像データをx方向又はy方向に一画素
ずつ走査しながら黒連結成分の外接方形座標を求め、次
に、求められた複数の外接方形について、例えばx座標
の重なり具合が、予め決められた閾値より大きい場合
に、上記複数の外接方形の統合を行ったり、外接方形の
x方向幅が予め決められた閾値より大きい場合に、x軸
に投影された黒画素のヒストグラムの値が極小となる部
分で強制切断を行ったりすることによって、予め推定し
た文字サイズに等しくなるように各文字パターンを切出
すものである。
【0006】この文字パターン切り出しにおいて、文字
パターンと黒枠罫線とが接触している場合は、黒連結成
分の中に罫線も含まれることとなるから、黒枠罫線を含
む一つの大きな外接方形が求められてしまい、文字パタ
ーンのみを切出すことができない。そのため、文字切出
しの処理を行う前に、罫線除去の処理を行う必要があ
る。
【0007】
【発明が解決しようとする課題】ところが、上述した従
来の罫線抽出処理及び文字切出し処理は各々の処理にお
いて画像データの全てを走査する必要があり、又、上述
した理由により文字切出しの処理を行う前に罫線除去の
処理が行われる必要があるために、全体として画像デー
タの全てを2回走査しなければならないこととなり、負
荷の高い処理となっている。
【0008】更に、上記従来方式は、文字パターンと罫
線とが重なっておらず罫線除去を行わなくてもよい場合
や、罫線のほんの一部しか文字パターンと重なっておら
ず部分的に罫線除去を行えば済む場合等においても、罫
線全体を除去しなければならず、非効率であるという問
題点もある。
【0009】本発明は上記事情に鑑みてなされたもの
で、その目的は、文字認識のための文字切り出し方式に
おいて、画像データの全てを1度走査するだけで、罫線
抽出処理と文字切出し処理との2つの処理を行うことが
できるのみならず、罫線除去を、それが必要な部分のみ
に限定して行うことにより、罫線除去という負荷の高い
処理を極力抑制することができ、もって、前処理全体の
処理速度を向上させることにある。
【0010】
【課題を解決するための手段】本発明の文字切り出し方
式は、第1方向又はこれに垂直な第2方向に延びる罫線
と、一個以上の文字とを含む画像データ中から各文字を
切り出す方式であって、画像データを走査して、第1方
向の線分を抽出する線分抽出手段と、抽出された線分の
長さと、線分相互間の位置関係とに基づいて、抽出され
た線分を複数のグループに分ける線分グループ化手段
と、各線分グループの外接多角形を求める外接多角形決
定手段と、外接多角形の第1方向の寸法に基づいて、線
分グループを罫線と文字とに識別する罫線識別手段と、
文字として識別された線分グループから、各文字パター
ンの外接多角形を切り出す文字パターン切り出し手段
と、罫線として識別された線分グループについて、文字
として識別された線分グループとの重なりを検出し、重
なりのない罫線部分を除去する罫線除去手段とを備える
ことを特徴とする。
【0011】
【作用】上記構成において、第1方向(例えば横方向)
又は第2方向(例えば縦方向)の罫線と文字列とを含む
画像データから、まず、第1方向の線分が抽出される。
次いで、抽出された複数の線分の各々の長さと、線分相
互の配置関係とに基づいて、それら複数の線分が幾つか
の線分グループに分けられる。この処理により、罫線を
構成する線分グループと、文字を構成する線分グループ
とを別グループとして分離することが大体可能である。
【0012】次に、各線分グループの外接多角形が求め
られ、その外接多角形の寸法に基づいて、各線分グルー
プが罫線なのか文字なのかが識別される。
【0013】好適な実施例では、各線分グループの外接
方形が求められ、その第1方向の寸法と第2方向の寸法
から、十分に細長い外接方形をもつ線分グループが罫線
候補として抽出される。そして、その候補の中から、予
め判っている罫線の位置や形状に合致するものだけが、
最終的に罫線として抽出される。
【0014】さて、上記過程で文字として識別された線
分グループについては、それらから各文字パターンが切
り出される。この過程では、外接多角形の統合や分離な
どの先行技術に従う手法を用いることができる。
【0015】また、上記過程で罫線として識別された線
分グループについては、文字として識別された線分グル
ープとの重なり合いがチェックされ、重なり合いの無い
部分だけが消去される。これにより、画像データの中か
ら罫線が除去され、文字が残される。
【0016】この罫線除去の処理は、文字パターンの外
接方形の外に位置する罫線部分のように、文字認識に影
響しない罫線部分については、処理を省略しても良い。
そうすることにより、処理速度が一層向上する。
【0017】
【実施例】以下、図面により本発明の一実施例について
説明する。
【0018】図1は、本発明に従う文字切出し方式の一
実施例の全体構成を示すブロック図である。本実施例
は、図1に示すように、画像メモリ11並びに、x線分
抽出部12、x線分グループ化部13、外接方形計算部
14、罫線抽出部15、文字切出し部16及び罫線除去
部17を備えている。これらの処理部12〜17は、プ
ログラムされたコンピュータ18により実施される。図
2は、これらの処理部による処理結果の一例を示してい
る。
【0019】図1において、x線分抽出部12は、画像
メモリ11に記憶されている2値画像データ(例えば、
図2(A)の原パターン)をx方向(左右方向)に一ラ
インずつ走査することによって、上記2値画像データ中
の黒画素がx方向に連結している線分(x線分)を抽出
する。x線分抽出部12は、これら抽出したx線分の夫
々に対してラベル付けを行う。上記ラベルには、ラベル
情報として、ラベル番号、当ラベルを有するx線分の右
端と左端の座標である線分座標、当x線分のy座標値、
及び当x線分の左端と右端のx座標の差である線分長等
の各種データが記憶される。上記x線分抽出部12によ
るx線分の抽出ステップは、図3のフローチャートに示
されている。以下、図3を参照しながらx線分の抽出ス
テップを説明する。
【0020】まず、画像メモリ11から読出された画像
データ(例えば図2(A)に示す原パターン)におい
て、その最左上の先頭点が着目点とされ(ステップ10
1)、上記画像データのラベル数が0に初期設定される
(ステップ102)。
【0021】次に、ステップ105〜ステップ114に
示した処理内容が、上記画像データを構成する各々のX
方向ラインの左端(始端)から右端(終端)まで1画素
毎に実行(ループ2)され(ステップ104、11
5)、そして、このループ2が最上ラインから最下ライ
ンまで一ライン毎に実行(ループ1)される(ステップ
103、116、117)。
【0022】各ラインでの処理(ループ2)では、ま
ず、ライン内の着目点が黒画素か否かがチェックされ
(ステップ105)、結果がイエスであれば、次に過去
点(左隣の画素)が黒画素か否かがチェックされる(ス
テップ106)。その結果がイエスであれば、x線分が
過去点から着目点へと右方向へ延びていることを意味す
るので、そのx線分の右端座標が着目点のx座標で更新
される(ステップ107)。
【0023】この後、着目点を右隣の(次の)画素に移
動させてループ2を繰り返すために、過去点が着目点で
更新され(ステップ113)、着目点が次の画素で更新
される(ステップ114)。
【0024】また、ステップ105で着目点が黒画素で
なければ、着目点はx線分に当たってないことを意味す
るので、直ちに、上記ステップ113、114の処理が
実行される。
【0025】また、ステップ106で過去点が黒でなけ
れば、着目点が新たなx線分に当たったことを意味する
ので、その新しいx線分にラベル付けをするべく、ラベ
ル数がインクリメントされ(ステップ108)、そし
て、新たなラベルが用意されて、このラベルにその識別
番号として前記ラベル数が登録される(ステップ10
9)。続いて、そのラベルの記載事項であるそのx線分
のy座標に着目点のy座標が登録され(ステップ11
0)、そのx線分の左端に着目点のx座標が登録され
(ステップ111)、そして、そのx線分の右端に着目
点のx座標が登録される(ステップ112)。この後、
前記ステップ113、114の処理が実行される。
【0026】このような処理が全てのラインに亘って実
行されることにより、全てのx線分が抽出され、各x線
分にラベルが付けられる。
【0027】図1を再び参照して、x線分グループ化部
13は、y方向で隣接した2本のx線分の線分長を調
べ、それらの線分長の双方が予め決められた閾値より長
い場合又は短い場合に、上記2本のx線分を同一グルー
プとする。この操作は、y方向で隣接したx線分の全て
のペアについて行われる。x線分グループ化部13は上
記操作により、x線分を、x座標において重なり合い且
つy方向で隣接し合っている比較的短いx線分のグルー
プと、同様の相互関係をもった比較的長いx線分のグル
ープとにグループ分けする。認識されたx線分の各グル
ープは、x線分グループ化部13から外接方形計算部1
4に出力される。
【0028】x線分グループ化部13によるx線分のグ
ループ化処理は、図4のフローチャートに示されてい
る。以下、図4を参照しながらx線分のグループ化処理
を説明する。
【0029】各x線分について、ステップ122からス
テップ127に示す処理が実行(ループ1)され、この
ループ1の処理が全てのx線分について繰り返される
(ステップ121、128)。
【0030】各x線分についての処理では、まず、着目
しているx線分のy方向上側に別のx線分が存在するか
否かがチェックされる(ステップ122)。その結果、
y方向上側に別のx線分が存在する場合には、着目して
いるx線分と、そのy方向上側に存在する最も近いx線
分(以下、上側隣接x線分と呼ぶ)について、線分長の
チェックが行われる。
【0031】即ち、双方のx線分の長さが共に予め設定
されたx線分閾値以上であれば(ステップ123、ステ
ップ124)、両x線分は同一のグループに属するもの
としてそのグループに登録される(ステップ125)。
また、両x線分の長さが共に上記x線分閾値未満である
場合にも(ステップ123、ステップ126)、両x線
分は、同一のグループに属するものとしてそのグループ
に登録される(ステップ125)。
【0032】一方、その2本のx線分の一方の長さがx
線分閾値未満であり、他方の長さがx線分閾値以上であ
る場合(ステップ123、ステップ126)または(ス
テッップ123、ステップ124)には、着目している
x線分を新しいグループに登録する(ステップ12
7)。また、着目しているx線分の上側に、隣接するx
線分が存在しない場合も、その着目しているx線分を新
しいグループに登録する(ステップ127)。
【0033】このようにして、全てのx線分は、x座標
で重なり合い且つy方向で隣接し合ったx線分閾値未満
の短いx線分同士の1又は2個以上のグループと、同様
の相互関係を持つx線分閾値以上の長いx線分同士がy
方向に連結した1又は2個以上のグループとにグループ
分けされる。この処理では、x線分閾値を上手く設定し
ておくことにより、図2に示すような横書き文字の場合
は、各文字(又はその構成部分)と、罫線(又はその構
成部分)とを別のグループとして分離することが出来
る。
【0034】図1を再び参照して、外接方形計算部14
は、上記のようにグループ分けされたx線分の各グルー
プについて、そのグループ内の全てのx線分を取り囲む
外接方形座標(上端値、下端値、右端値及び左端値)を
求める。この外接方形座標を求めるために、外接方形計
算部14は、着目しているグループ内のx線分を検索
し、そのグループの外接方形座標値を更新していく。
【0035】即ち、外接方形計算部14は、まず、最初
に検索したx線分について、その右端及び左端のx座標
を外接方形の右端値及び左端値として初期登録し、且
つ、そのx線分のy座標を外接方形の上端値及び下端値
として初期登録する。
【0036】続いて、外接方形計算部14は、2番目以
降のx線分について、そのx線分の右端値と既登録の外
接方形座標の右端値のいずれか小さい方を、外接方形座
標の右端値として選択し、また、そのx線分の左端値と
既登録の外接方形座標の左端値のいずれか大きい方を、
外接方形座標の左端値として選択し、また、そのx線分
のy座標と既登録の外接方形座標の上端値のいずれか小
さい方の値を、外接方形座標の上端値として選択し、ま
た、そのx線分のy座標と既登録の外接方形座標の下端
値のいずれか大きい方の値を、外接方形座標の下端値と
して選択する。
【0037】外接方形計算部14は、上述した処理をグ
ループ内の全てのx線分について行うことにより、その
グループ内を取り囲む外接方形座標を求める。図2
(B)に示したパターンは、この外接方形計算部14に
よって得た処理結果である。こうして求められた外接方
形座標は、罫線抽出部15に出力される。
【0038】罫線抽出部15は、外接方形計算部14か
ら出力された外接方形中から、所定の横罫線X閾値より
大きなx方向幅を持ち且つ所定の横罫線Y閾値より小さ
なy方向幅を持つ外接方形を抽出して、これを横罫線候
補とする。又、罫線抽出部15は、外接方形計算部14
から出力された外接方形中から、所定の縦罫線X閾値よ
り小さなx方向幅を持ち且つ所定の縦罫線Y閾値より大
きなy方向幅を持つ外接方形を抽出して、これを縦罫線
候補とする。上記の横罫線X閾値、横罫線Y閾値、縦罫
線X閾値及び縦罫線Y閾値は、使用される帳票フォーマ
ット等を基に予め定められて、外接方形計算部14内に
記憶されているものである。
【0039】罫線抽出部15は、さらに、使用する帳票
フォーマットから予め得てある罫線の位置又は形状に関
する情報に基づき、罫線のおよその位置又は形状を推定
し、罫線候補の中で推定した位置又は形状に当てはまる
ものを罫線として抽出する。
【0040】ここで、罫線位置の推定は、例えば帳票上
端から5cm離間した位置に横罫線があるというように罫
線の具体的な位置が判っている場合には、この罫線の位
置情報から罫線座標を換算することによって実行可能で
ある。又、帳票に引かれている罫線の形状が、例えば図
5のようであると判っている場合には、横線分の右端と
左端附近、及び横線分を3等分する2つの位置に夫々縦
線分が存在する、というような情報を用いて罫線形状が
推定できる。この推定結果に基づいた罫線抽出により、
罫線の誤抽出の可能性が一層低減される。
【0041】罫線抽出部15による罫線抽出処理は、図
6のフローチャートに示されている。以下、図6を参照
しながら罫線抽出処理を説明する。
【0042】ステップ132〜ステップ137に示す処
理(ループ1)が、全ての外接方形について繰り返し実
行される(ステップ131、138)。各ループ1で
は、外接方形計算部14から出力された前記外接方形座
標(上端値、下端値、右端値及び左端値)に基づいて、
まず、着目している外接方形の高さ(y方向幅)が縦罫
線のY閾値よりも大きく且つその横幅(x方向幅)が縦
罫線のX閾値よりも小さいか否かチェックされ(ステッ
プ132)、結果がイエスであれば、その外接方形は縦
罫線候補として選ばれる。そして、その縦罫線候補の座
標が縦罫線推定位置に該当すれば(ステップ135)、
その外接方形は縦罫線として抽出される(ステップ13
6)。
【0043】一方、ステップ132の結果がノーの場合
は、次に、ステップ133に進み、着目している外接方
形の高さが横罫線のY閾値よりも小さく且つその横幅が
横罫線のX閾値よりも大きいかチェックされ、結果がイ
エスであれば、その外接方形は横罫線候補であると判断
される(ステップ133)。そして、その横罫線候補の
座標が横罫線推定位置に該当すれば(ステップ13
4)、その外接方形は横罫線として抽出される(ステッ
プ137)。
【0044】この罫線抽出処理によって得られた結果の
一例を図2(C)に示す。図1を再び参照して、この処
理結果は、罫線抽出部15から文字切出し部16に出力
される。
【0045】文字切出し部16は、罫線抽出部15にお
いて罫線外接方形として抽出されなかった外接方形の大
きさが予め推定した文字パターンのサイズと近似するよ
うに所定の処理を行うことにより、文字パターンの外接
方形の座標を求める。この処理では、例えば、複数の外
接方形のx方向の重なり具合が予め決められた閾値より
大きい場合に、それらの外接方形を統合したり、外接方
形のx方向幅が予め決められた閾値より大きい場合に、
x軸に投影された黒画素のヒストグラムの値が極小とな
るx座標でその外接方形を強制切断したりする処理が行
われる。このような統合や切断によって、各文字の外接
方形が決定され、その座標が求められる。
【0046】まお、この文字切出し処理では、例えば、
平成4年特許願第259501号「文字切出し方法」
や、平成4年特許願第289784号「文字切出し方
法」に示された手法を利用することができる。
【0047】参考までに簡単に説明すると、(1)の手
法は、フリーピッチの接触文字の強制切断を含む文字切
出しを提供するものである。この手法では、まず、2値
画像を垂直方向にラスタ走行することにより、黒連結成
分外接枠方形と垂直方向黒画素ヒストグラムを同時に算
出する。次に、算出した外接方形について、方形幅の一
定割合以上が重なる外接方形同士を統合する(ファース
トマージ)。次に、ファーストマージ後の外接方形の高
さの平均又は中央値に基づき、文字サイズを推定する。
次に、文字サイズの幅が大きすぎるものを強制切断候補
とする。次に、強制切断候補に対し、文字サイズの1/
4をピッチとして移動平均法による平滑化を2度行う。
次に、この結果に、更に文字サイズをピッチとして平滑
化を行う。次に、この結果のピーク値を検出した後のヒ
ストグラムと、前の平滑処理結果との交点から次の交点
までの間を、強制切断探索範囲と設定する。次に、設定
された強制切断範囲の中のヒストグラムが最小となる箇
所で、強制切断をする。そして、外接方形の横方向での
統合を試み、外接方形の縦、横比が1に近づくように求
める。
【0048】また、(2)の手法は、筆記者による文字
変動に対して許容度の大きい文字切出し方法を提供する
ものである。この手法ではまず、2値画像を垂直方向に
ラスタ走行して、黒画素連結成分の外接枠方形を求め
る。次に、垂直方向の重なり具合に基づいて、外接方形
を統合する(ファーストマージ)。次に、文字外接方形
の幾つかの特徴量に対し判別分析法による重み付けを行
うことで合成変量を算出する。そして、合成変量の値に
より、垂直方向に隣接した外接方形を統合するか否かを
決定する。ここで、上記特徴量としては、例えば次のよ
うなものが使用できる。
【0049】・統合後の外接方形のx方向の矩形幅 ・統合後の外接方形のy方向の矩形幅 ・統合前の2つの外接方形のx方向重心間距離 ・統合前の2つの外接方形のy方向重心間距離 ・統合前の2つの外接方形の方形間隔 ・統合後の外接方形とそれに隣接する外接方形との間隔 ・統合前の2つの外接方形の線密度の合計値 さて、上述した文字切り出し処理による結果の一例を図
2(D)に示す。この処理結果は文字切出し部16から
罫線除去部17に出力される。
【0050】罫線除去部17は、罫線抽出部15におい
て抽出された罫線のうち、文字パターンと重なった部分
を残して、他の部分を除去する。罫線除去部17は、除
去対象である罫線が横(x方向)罫線である場合、図7
〜図9のフローチャートに示すような処理を実行する。
【0051】この罫線除去処理は、横罫線の外接方形の
一ライン上の画素(以下、上側着目点と呼ぶ)と一ライ
ン下の画素(以下、下側着目点と呼ぶ)とを左から右へ
走査しながら、それら上側及び下側着目点と、上側及び
下側の過去点(着目点の左隣の画素)の状態(白か黒
か)に応じて、横罫線のどの部分を除去するかを決定
し、そして除去していく。その除去の様子の典型例は図
10に示されている。また、着目点と過去点の状態の種
々の組み合わせと、行うべき処理内容との対応関係が図
11に示されている。
【0052】以下、図7〜図11を参照して、罫線除去
処理を詳細に説明する。
【0053】なお、以下の説明では、除去しようとして
いる横罫線の外接方形の左上の座標を(l,t)とし、
右下の座標を(r,b)とし、また、上側及び下側着目
点の座標を夫々(x,t−1)及び(x,b+1)と
し、上下過去点の座標を夫々(x−1,t−1)及び
(x−1,b+1)とし(但し、l≦x≦r)て説明を
行う(図10(A)参照)。
【0054】また、上側着目点が白画素で且つ下側着目
点が黒画素の組合せが何組連続したか、或いは上側が黒
画素で下側が白画素の組合せが何組連続したか、をカウ
ントするためにカウンタが使用される。このカウンタの
カウント値をSとする。
【0055】図7を参照して、一つの罫線に関して、ス
テップ142〜ステップ152の処理(ループ1)が、
その罫線の左端の上側及び下側着目点から、罫線の右端
の上側及び下側着目点まで、繰り返し実行される。
【0056】各ループ1では、上側着目点が白画素であ
り且つ下側着目点も白画素である場合(ステップ14
2、ステップ148)は、ステップ151の処理が実行
される。その詳細を図8に示す。また、上側着目点が黒
画素であり且つ下側着目点も黒画素である場合(ステッ
プ142、ステップ143)は、ステップ144の処理
が実行される。この処理の詳細は図9に示す。
【0057】さて、図8を参照して、上下着目点が共に
白の場合は、上側過去点(x−1,t−1)が白画素で
且つ下側過去点(x−1,b+1)が黒画素であれば
(ステップ161、ステップ162)、更に、上側着目
点よりS+1だけ左側の点(x−S−1,t−1)の画
素が白画素、黒画素のいずれであるかチェックされる
(ステップ163、図10参照)。
【0058】ステップ163で上記画素が黒画素である
と判断されたときには、図10(A)に示すように、x
座標変数x1の値が0≦x1≦Sの範囲で変更されなが
ら、移動点(x−x1,t−1)と下側着目点(x,b
+1)とを結ぶ線分上の黒画素が白画素へと変換されて
行く。これにより、上側着目点(x,t−1)と点(x
−S,t−1)と下側着目点(x,b+1)とで囲まれ
た領域中の黒画素が白画素に変換される(ステップ16
4)。この処理は、横罫線に対し文字パターンが左上か
ら右下へと交差している場合、その文字パターンよりも
上側の罫線部分を消去することを意味する。この処理が
終了すると、カウント値Sが0にされる(ステップ17
1)。
【0059】また、ステップ163において上記点(x
−S−1,t−1)の画素が白画素であると判断された
ときには、図10(B)に示すように、上側移動点(x
−x1,t−1)と下側移動点(x−x1,b+1)とを
結ぶ線分上の黒画素が白画素へと変換されて行く。これ
により、4点(x,t−1)、(x−S,t−1)、
(x−S,b+1)及び(x,b+1)で囲まれた領域
中の黒画素が白画素に変換される(ステップ165)。
この処理は、横罫線の下側に文字パターンが接している
場合、その文字パターンと接した罫線部分を消去するこ
とを意味する。この処理が終わると、カウント値Sが0
にされる(ステップ171)。
【0060】また、ステップ161、162において上
側及び下側過去点が共に白画素であると判断されたとき
には、上下着目点(x,t−1)、(x,b+1)を結
ぶ線分上の黒画素が白画素に変換される(ステップ16
6、図11のパターン1)。これは、文字パターンと交
差も接触もしてない罫線部分を消去することを意味す
る。この後、カウント値Sが0にされる(ステップ17
1)。
【0061】また、ステップ161、167で上側過去
点(x−1,t−1)が黒画素で且つ下側過去点(x−
1,b+1)が白画素であると判断された場合には、更
に、下側過去点よりS+1だけ左側の点(x−S−1,
b+1)の画素が白画素、黒画素のいずれであるかがチ
ェックされる(ステップ168)。
【0062】ステップ168で上記画素が黒画素である
と判断されたときには、図11のパターンP4に示すよ
うに、3点(x,t−1)、(x−S,b+1)及び
(x,b+1)で囲まれた領域中の黒画素が白画素に変
換される(ステップ169)。これは、横罫線に文字パ
ターンが左下から右上へ交差している場合、文字パター
ンの下側の罫線部分を消去することを意味する。
【0063】また、ステップ168において上記点(x
−S−1,t−1)の画素が白画素であると判断された
ときには、図11のパターンP5に示すように、4点
(x,t−1)、(x−S,t−1)、(x−S,b+
1)及び(x,b+1)で囲まれた領域中の黒画素が白
画素に変換される(ステップ170)。これは、横罫線
の上側に文字パターンが接している場合、文字パターン
と接している罫線部分を消去することを意味する。
【0064】また、ステップ161、167において上
側及び下側過去点が共に黒画素であると判断されたとき
には、図11のパターンP6に示すように、上下着目点
(x,t−1)、(x,b+1)を結ぶ線分上の黒画素
が白画素に変換される(ステップ166)。
【0065】以上のようにして、上限着目点が共に白の
場合の処理が行われる。この処理が終わると、図7のス
テップ152に移行して上下着目点が右隣の画素へと移
行され、前記ループ1の処理が繰り返される。
【0066】次に、図7の上下着目点が共に黒の場合の
処理(ステップ144)を、図9、11を参照して説明
する。
【0067】図10において、上側過去点(x−1,t
−1)が白画素で且つ下側過去点(x−1,b+1)が
黒画素である場合(ステップ181、ステップ182)
には、図11のパターンP7に示すように、x座標変数
x1の値が0≦x1≦Sの範囲で変更されながら、移動点
(x−x1,t−1)と点(x−S,b+1)とを結ぶ
線分上の黒画素が白画素へと変換されて行く。これによ
り、3点(x,t−1)、(x−S,t−1)及び(x
−S,b+1)で囲まれた領域中の黒画素が白画素に変
換される(ステップ183)。これは、横罫線に文字パ
ターンが左下から右上へ交差する場合、その文字パター
ンの上側の罫線部分を消去することを意味する。この
後、カウント値Sが0にされる(ステップ186)。
【0068】また、上側過去点(x−1,t−1)が黒
画素で且つ下側過去点(x−1,b+1)が白画素であ
る場合(ステップ181、ステップ184)には、図1
1のパターンP8に示すように、3点(x−S,t−
1)、(x−S,b+1)及び(x,b+1)で囲まれ
た領域中の黒画素が白画素に変換される(ステップ18
5)。これは、横罫線に文字パターンが左上から右下へ
交差している場合に、その文字パターンの下側の罫線部
分を消去することを意味する。この後、カウント値Sを
0にする。
【0069】また、上側及び下側過去点が共に白画素で
ある場合(ステップ181、ステップ182)、及び共
に黒画素である場合(ステップ181、ステップ18
4)には、消去処理は行わずに、カウント値Sを0にす
る。
【0070】以上のようにして、上限着目点が共に黒で
ある場合の処理(図7ステップ144)が行われる。
【0071】次に、図7のステップ142、143にお
いて上側着目点が黒画素で且つ下側着目点が白画素と判
断された場合について説明する。
【0072】この場合には、上側過去点及び下側過去点
の状態がチェックされ(ステップ145)、上側過去点
が黒画素で且つ下側過去点が白画素であると判断された
場合(即ち、上下着目点と白黒の組合せが同一の場合)
には、カウンタSがインクリメントされ(ステップ14
6)る。また、ステップ145において、上下過去点に
おける白黒の組合せが上下着目点における白黒の組合せ
と反対であると判断された場合は、カウンタSが1に更
新される(ステップ147)。この後、ステップ152
に進み着目点が右隣へ移行される。
【0073】次に、ステップ142、148において上
側着目点が白画素で且つ下側着目点が黒画素と判断され
た場合について説明する。
【0074】この場合には、上側過去点及び下側過去点
の状態がチェックされ(ステップ149)、上側過去点
が白画素で且つ下側過去点が黒画素の場合(即ち、上下
着目点と白黒の組合せが同一の場合)には、カウンタS
がインクリメントされる(ステップ150)。また、ス
テップ149において、上下過去点における白黒の組合
せが上下着目点における白黒の組合せと反対であると判
断された場合は、カウンタSが1に更新される(ステッ
プ147)。
【0075】上述した図7〜図9に示した罫線除去の処
理の全体は、図11に模式的に要約して示してある。
【0076】ところで、上述した罫線除去処理は、横罫
線を除去する場合について説明した。この処理は、x座
標とy座標とを入れ換えることによって、縦罫線を除去
する場合についても適用することが可能である。
【0077】以上のような罫線除去処理により得られた
結果を図2(E)に示す。この図2(E)の結果は文字
パターンと重ならない罫線部分が全て除去されている。
一方、図2(F)に示すように、文字認識の支障となら
ない罫線部分は、除去処理を行わないことによって、処
理の高速化を図ることも可能である。これは、例えば、
罫線除去処理に先だって、罫線の外接方形座標と文字切
出し処理によって得た文字パターンの外接方形座標とを
比較して、文字パターンの外接方形内に含まれる罫線部
分のみを、罫線除去処理の対象として選定することによ
って実現できる。
【0078】以上、本発明の好適な実施例を説明した
が、本発明はこの実施例にのみ限定されるものではな
く、その要旨を逸脱しない範囲内で異なる種々の態様で
実施することが可能である。
【0079】
【発明の効果】以上説明したように、本発明によれば、
画像データの走査によって得た線分を、罫線と文字とに
区別できるようにグループ分けして、罫線と文字を識別
するようにしているので、画像データの全てを1度走査
するだけで、罫線抽出処理と文字切出し処理との2つの
処理を行うことができる。
【0080】また、罫線除去を、文字認識に影響無い部
分に付いて省略する場合には、罫線除去という負荷の高
い処理を極力抑制できるので、文字認識前処理全体の処
理速度を向上させることが可能である。
【図面の簡単な説明】
【図1】本発明の文字切出し方式の一実施例の構成を示
すブロック図。
【図2】同実施例による各処理段階での処理結果の一例
を示した説明図。本発明の一実施例に従う罫線除去ステ
ップを示した説明図。
【図3】同実施例におけるx線分抽出処理を示したフロ
ーチャート。
【図4】同実施例におけるx線分グループ化処理を示し
たフローチャート。
【図5】罫線の形状例を示した説明図。
【図6】同実施例における罫線抽出処理を示したフロー
チャート。
【図7】同実施例における罫線除去処理を示したフロー
チャート。
【図8】罫線除去処理における上下着目点が共に白の場
合の処理を示したフローチャート。
【図9】罫線除去処理における上下着目点が共に黒の場
合の処理を示したフローチャート。
【図10】上下着目点が共に白の場合の罫線除去の様子
を示した説明図。
【図11】罫線除去処理の全容をまとめた説明図。
【符号の説明】
11 画像メモリ 12 x線分抽出部 13 x線分グループ化部 14 外接方形計算部 15 罫線抽出部 16 文字切出し部 17 罫線除去部

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 第1方向又はこれに垂直な第2方向に延
    びる罫線と、一個以上の文字とを含む画像データ中から
    各文字を切り出す方式において、 前記画像データを走査して、前記第1方向の線分を抽出
    する線分抽出手段と、 抽出された線分の長さと、線分相互間の位置関係とに基
    づいて、前記抽出された線分を複数のグループに分ける
    線分グループ化手段と、 各線分グループの外接多角形を求める外接多角形決定手
    段と、 前記外接多角形の前記第1方向の寸法に基づいて、前記
    線分グループを罫線と文字とに識別する罫線識別手段
    と、 文字として識別された前記線分グループから、各文字パ
    ターンの外接多角形を切り出す文字パターン切り出し手
    段と、 罫線として識別された前記線分グループについて、前記
    文字として識別された線分グループとの重なりを検出
    し、重なりのない罫線部分を除去する罫線除去手段とを
    有することを特徴とする文字切り出し方式。
  2. 【請求項2】 請求項1記載の文字切り出し方式におい
    て、 前記線分グループ化手段が、前記第2方向で隣接するよ
    うに配置された複数の線分であって、それら線分の全て
    が所定の線分長閾値より長い又は短い複数の線分を同一
    のグループに属せしめることを特徴とする文字切り出し
    方式。
  3. 【請求項3】 請求項1記載の文字切り出し方式におい
    て、 前記罫線識別手段が、前記線分グループの外接多角形の
    前記第1方向の寸法だけでなく、前記第2方向の寸法に
    も基づいて、前記罫線と文字との識別を行うことを特徴
    とする文字切り出し方式。
  4. 【請求項4】 請求項3記載の文字切り出し方式におい
    て、 前記罫線識別手段が、前記線分グループのうち、その外
    接多角形の前記第1方向の寸法及び第2方向の寸法の内
    の一方が所定の罫線長閾値より長く、他方が所定の罫線
    幅閾値より短いものを、罫線として識別することを特徴
    とする文字切り出し方式。
  5. 【請求項5】 請求項1乃至3記載の文字切り出し方式
    において、 前記罫線識別手段が、前記外接多角形の寸法だけでな
    く、予め用意した使用すべき帳票内での罫線の位置又は
    形状に関する情報にも基づいて、前記罫線と文字の識別
    を行うことを特徴とする文字切り出し方式。
  6. 【請求項6】 請求項1記載の文字切り出し方式におい
    て、 前記罫線除去手段が、前記罫線識別手段によって罫線と
    して識別された線分グループの内、前記文字パターン切
    出し手段によって切出された文字パターンの外接多角形
    の外側に存在する部分に対しては、処理を行わないこと
    を特徴とする文字切出し方式。
  7. 【請求項7】 請求項1記載の文字切り出し方式におい
    て、 前記罫線除去手段が、前記罫線として識別された線分グ
    ループの外接多角形の外縁に存在する画素の状態をチェ
    ックすることにより、前記文字として識別された線分グ
    ループとの重なり合いを検出することを特徴とする文字
    切り出し方式。
  8. 【請求項8】 請求項1記載の文字切り出し方式におい
    て、 前記罫線除去手段が、前記罫線として識別された線分グ
    ループの外接多角形に対し、前記文字として識別された
    線分グループが交差しているか否かを検出し、前記文字
    として識別された線分グループが交差している前記外接
    多角形の部分を残して、前記外接多角形の他の部分の内
    部の黒画素を白画素に変換することを特徴とする文字切
    り出し方式。
JP05222239A 1993-08-13 1993-08-13 文字切出し方式 Expired - Fee Related JP3077929B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05222239A JP3077929B2 (ja) 1993-08-13 1993-08-13 文字切出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05222239A JP3077929B2 (ja) 1993-08-13 1993-08-13 文字切出し方式

Publications (2)

Publication Number Publication Date
JPH0757047A true JPH0757047A (ja) 1995-03-03
JP3077929B2 JP3077929B2 (ja) 2000-08-21

Family

ID=16779292

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05222239A Expired - Fee Related JP3077929B2 (ja) 1993-08-13 1993-08-13 文字切出し方式

Country Status (1)

Country Link
JP (1) JP3077929B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19753858C2 (de) * 1996-12-05 2002-06-13 Ricoh Kk Verfahren zum Löschen von geraden Linien und prozessorlesbares Medium zur Durchführung des Verfahrens

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3035985A1 (en) 2013-08-22 2016-06-29 Sanofi-Aventis Deutschland GmbH Assembly for a drug delivery device and use of an attenuation member

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19753858C2 (de) * 1996-12-05 2002-06-13 Ricoh Kk Verfahren zum Löschen von geraden Linien und prozessorlesbares Medium zur Durchführung des Verfahrens

Also Published As

Publication number Publication date
JP3077929B2 (ja) 2000-08-21

Similar Documents

Publication Publication Date Title
US5335290A (en) Segmentation of text, picture and lines of a document image
US5410611A (en) Method for identifying word bounding boxes in text
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP2933801B2 (ja) 文字の切り出し方法及びその装置
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JPH06309498A (ja) 画像抽出方式
US5341438A (en) Method and apparatus for segmenting and classifying unconstrained handwritten characters
US6947596B2 (en) Character recognition method, program and recording medium
US5982952A (en) Optical character reader with tangent detection for detecting tilt of image data
JP3077929B2 (ja) 文字切出し方式
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JP2917427B2 (ja) 図面読取装置
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
Loo et al. Word and sentence extraction using irregular pyramid
JPH07220081A (ja) 画像認識装置の図形の切出し方法
JP3343305B2 (ja) 文字切り出し装置、及び文字切り出し方法
JP3188580B2 (ja) 文字切り出し回路、及び文字切り出し方法
JP3710164B2 (ja) 画像処理装置及び方法
JP3428504B2 (ja) 文字認識装置
JP4878057B2 (ja) 文字認識方法,プログラム及び記録媒体
JP3285837B2 (ja) 文字列の切り出し装置および方法
JPH0573718A (ja) 領域属性識別方式
JP2797523B2 (ja) 図面続取装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2002334301A (ja) 2値イメージの特徴点抽出方法及び特徴点抽出プログラム

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080616

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090616

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100616

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110616

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120616

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130616

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees