JP3077929B2 - 文字切出し方式 - Google Patents
文字切出し方式Info
- Publication number
- JP3077929B2 JP3077929B2 JP05222239A JP22223993A JP3077929B2 JP 3077929 B2 JP3077929 B2 JP 3077929B2 JP 05222239 A JP05222239 A JP 05222239A JP 22223993 A JP22223993 A JP 22223993A JP 3077929 B2 JP3077929 B2 JP 3077929B2
- Authority
- JP
- Japan
- Prior art keywords
- line
- character
- ruled line
- line segment
- ruled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Input (AREA)
Description
関し、特に、光学的文字読取り装置(以下、「OCR」
という)において、画像データ中の文字パターンを切出
す際に適用される文字切出し方式に関する。
行うので、その文字認識処理の前段階で各文字毎に文字
領域を決定して、画像データ中から文字パターンを切出
す処理を必要とする。更に、黒枠罫線が画像データ中に
含まれている場合、切出された文字パターン中に罫線が
含まれているとその文字認識の精度が低下してしまうた
め、予め画像データ中から罫線を削除する処理が必要で
ある。
て、一般に次の二種類の罫線抽出方式が利用されてい
る。第1の罫線抽出方式は、2値画像データを文字列に
対して平行方向(x方向)又は垂直方向(y方向)に一
画素ずつ走査しながら、黒画素をx軸及びy軸に夫々投
影したヒストグラムをとるものである。これにより、上
記方式はヒストグラムの値が予め決められた閾値より大
きい位置に罫線があるものとして罫線を抽出する。
走査することにより、黒画素がx方向又はy方向に予め
決められた閾値より長く連結している所に罫線があるも
のとして、罫線を抽出する方式である。
合には、特にフリーピッチで書かれた文字列を対象とす
る場合、一般に、以下のような文字パターン切出し方式
が採用される。該方式は、上記各文字パターンを黒画素
の連結成分(以下、「黒連結成分」という)の集合と考
え、まず、2値画像データをx方向又はy方向に一画素
ずつ走査しながら黒連結成分の外接方形座標を求め、次
に、求められた複数の外接方形について、例えばx座標
の重なり具合が、予め決められた閾値より大きい場合
に、上記複数の外接方形の統合を行ったり、外接方形の
x方向幅が予め決められた閾値より大きい場合に、x軸
に投影された黒画素のヒストグラムの値が極小となる部
分で強制切断を行ったりすることによって、予め推定し
た文字サイズに等しくなるように各文字パターンを切出
すものである。
パターンと黒枠罫線とが接触している場合は、黒連結成
分の中に罫線も含まれることとなるから、黒枠罫線を含
む一つの大きな外接方形が求められてしまい、文字パタ
ーンのみを切出すことができない。そのため、文字切出
しの処理を行う前に、罫線除去の処理を行う必要があ
る。
来の罫線抽出処理及び文字切出し処理は各々の処理にお
いて画像データの全てを走査する必要があり、又、上述
した理由により文字切出しの処理を行う前に罫線除去の
処理が行われる必要があるために、全体として画像デー
タの全てを2回走査しなければならないこととなり、負
荷の高い処理となっている。
線とが重なっておらず罫線除去を行わなくてもよい場合
や、罫線のほんの一部しか文字パターンと重なっておら
ず部分的に罫線除去を行えば済む場合等においても、罫
線全体を除去しなければならず、非効率であるという問
題点もある。
で、その目的は、文字認識のための文字切り出し方式に
おいて、画像データの全てを1度走査するだけで、罫線
抽出処理と文字切出し処理との2つの処理を行うことが
できるのみならず、罫線除去を、それが必要な部分のみ
に限定して行うことにより、罫線除去という負荷の高い
処理を極力抑制することができ、もって、前処理全体の
処理速度を向上させることにある。
は、第1方向又はこれに垂直な第2方向に延びる罫線
と、一個以上の文字とを含む画像データ中から各文字を
切り出すもので、画像データを走査して、第1方向の線
分を抽出する線分抽出手段と、抽出された線分の長さ
と、線分相互間の位置関係とに基づいて、抽出された線
分を複数のグループに分ける線分グループ化手段と、各
線分グループの外接多角形を求める外接多角形決定手段
と、外接多角形の第1方向の寸法及び、予め用意した帳
票内での罫線の位置又は形状に関する情報に基づいて、
線分グループを罫線と文字とに識別する罫線識別手段
と、文字として識別された線分グループから、各文字パ
ターンの外接多角形を切り出す文字パターン切り出し手
段と、罫線として識別された線分グループについて、文
字として識別された線分グループとの重なりを検出し、
重なりのない罫線部分を除去する罫線除去手段とを有す
ることを特徴とする。
又は第2方向(例えば縦方向)の罫線と文字列とを含む
画像データから、まず、第1方向の線分が抽出される。
次いで、抽出された複数の線分の各々の長さと、線分相
互の配置関係とに基づいて、それら複数の線分が幾つか
の線分グループに分けられる。この処理により、罫線を
構成する線分グループと、文字を構成する線分グループ
とを別グループとして分離することが大体可能である。
られ、その外接多角形の寸法を含む諸情報に基づいて、
各線分グループが線分なのか文字なのかが識別される。
られ、その第1方向の寸法及び、予め用意した帳票内で
の罫線の位置又は形状に関する情報に基づいて、十分に
細長い外接方形をもつ線分グループが罫線候補として抽
出される。そして、その候補の中から、予め判っている
罫線の位置や形状に合致するものだけが、最終的に罫線
として抽出される。
分グループについては、それらから各文字パターンが切
り出される。この過程では、外接多角形の統合や分離な
どの先行技術に従う手法を用いることができる。
分グループについては、文字として識別された線分グル
ープとの重なり合いがチェックされ、重なり合いの無い
部分だけが消去される。これにより、画像データの中か
ら罫線が除去され、文字が残される。
接方形の外に位置する罫線部分のように、文字認識に影
響しない罫線部分については、処理を省略しても良い。
そうすることにより、処理速度が一層向上する。
説明する。
実施例の全体構成を示すブロック図である。本実施例
は、図1に示すように、画像メモリ11並びに、x線分
抽出部12、x線分グループ化部13、外接方形計算部
14、罫線抽出部15、文字切出し部16及び罫線除去
部17を備えている。これらの処理部12〜17は、プ
ログラムされたコンピュータ18により実施される。図
2は、これらの処理部による処理結果の一例を示してい
る。
メモリ11に記憶されている2値画像データ(例えば、
図2(A)の原パターン)をx方向(左右方向)に一ラ
インずつ走査することによって、上記2値画像データ中
の黒画素がx方向に連結している線分(x線分)を抽出
する。x線分抽出部12は、これら抽出したx線分の夫
々に対してラベル付けを行う。上記ラベルには、ラベル
情報として、ラベル番号、当ラベルを有するx線分の右
端と左端の座標である線分座標、当x線分のy座標値、
及び当x線分の左端と右端のx座標の差である線分長等
の各種データが記憶される。上記x線分抽出部12によ
るx線分の抽出ステップは、図3のフローチャートに示
されている。以下、図3を参照しながらx線分の抽出ス
テップを説明する。
データ(例えば図2(A)に示す原パターン)におい
て、その最左上の先頭点が着目点とされ(ステップ10
1)、上記画像データのラベル数が0に初期設定される
(ステップ102)。
示した処理内容が、上記画像データを構成する各々のX
方向ラインの左端(始端)から右端(終端)まで1画素
毎に実行(ループ2)され(ステップ104、11
5)、そして、このループ2が最上ラインから最下ライ
ンまで一ライン毎に実行(ループ1)される(ステップ
103、116、117)。
ず、ライン内の着目点が黒画素か否かがチェックされ
(ステップ105)、結果がイエスであれば、次に過去
点(左隣の画素)が黒画素か否かがチェックされる(ス
テップ106)。その結果がイエスであれば、x線分が
過去点から着目点へと右方向へ延びていることを意味す
るので、そのx線分の右端座標が着目点のx座標で更新
される(ステップ107)。
動させてループ2を繰り返すために、過去点が着目点で
更新され(ステップ113)、着目点が次の画素で更新
される(ステップ114)。
なければ、着目点はx線分に当たってないことを意味す
るので、直ちに、上記ステップ113、114の処理が
実行される。
れば、着目点が新たなx線分に当たったことを意味する
ので、その新しいx線分にラベル付けをするべく、ラベ
ル数がインクリメントされ(ステップ108)、そし
て、新たなラベルが用意されて、このラベルにその識別
番号として前記ラベル数が登録される(ステップ10
9)。続いて、そのラベルの記載事項であるそのx線分
のy座標に着目点のy座標が登録され(ステップ11
0)、そのx線分の左端に着目点のx座標が登録され
(ステップ111)、そして、そのx線分の右端に着目
点のx座標が登録される(ステップ112)。この後、
前記ステップ113、114の処理が実行される。
行されることにより、全てのx線分が抽出され、各x線
分にラベルが付けられる。
13は、y方向で隣接した2本のx線分の線分長を調
べ、それらの線分長の双方が予め決められた閾値より長
い場合又は短い場合に、上記2本のx線分を同一グルー
プとする。この操作は、y方向で隣接したx線分の全て
のペアについて行われる。x線分グループ化部13は上
記操作により、x線分を、x座標において重なり合い且
つy方向で隣接し合っている比較的短いx線分のグルー
プと、同様の相互関係をもった比較的長いx線分のグル
ープとにグループ分けする。認識されたx線分の各グル
ープは、x線分グループ化部13から外接方形計算部1
4に出力される。
ループ化処理は、図4のフローチャートに示されてい
る。以下、図4を参照しながらx線分のグループ化処理
を説明する。
テップ127に示す処理が実行(ループ1)され、この
ループ1の処理が全てのx線分について繰り返される
(ステップ121、128)。
しているx線分のy方向上側に別のx線分が存在するか
否かがチェックされる(ステップ122)。その結果、
y方向上側に別のx線分が存在する場合には、着目して
いるx線分と、そのy方向上側に隣接するx線分につい
て、線分長のチェックが行われる。
されたx線分閾値以上であれば(ステップ123、ステ
ップ124)、両x線分は同一のグループに属するもの
としてそのグループに登録される(ステップ125)。
また、両x線分の長さが共に上記x線分閾値未満である
場合にも(ステップ123、ステップ126)、両x線
分は、同一のグループに属するものとしてそのグループ
に登録される(ステップ125)。
線分閾値以上であり、下側の長さがX線分閾値未満であ
る場合(ステップ123、ステップ126)、またはこ
れとは逆に、上記2本のx線分の下側の長さがx線分閾
値以上であり、上側の長さがX線分閾値未満である場合
(ステップ123、ステップ124)には、着目してい
るx線分を新しいグループに登録する(ステップ12
7)。また、着目しているX線分の上側に、隣接するX
線分が存在しない場合も、その着目しているX線分を新
しいグループに登録する(ステップ127)。
で重なり合い且つy方向で隣接し合ったx線分閾値未満
の短いx線分同士の1又は2個以上のグループと、同様
の相互関係を持つx線分閾値以上の長いx線分同士がy
方向に連結した1又は2個以上のグループとにグループ
分けされる。この処理では、x線分閾値を上手く設定し
ておくことにより、図2に示すような横書き文字の場合
は、各文字(又はその構成部分)と、罫線(又はその構
成部分)とを別のグループとして分離することが出来
る。
は、上記のようにグループ分けされたx線分の各グルー
プについて、そのグループ内の全てのx線分を取り囲む
外接方形座標(上端値、下端値、右端値及び左端値)を
求める。この外接方形座標を求めるために、外接方形計
算部14は、着目しているグループ内のx線分を検索
し、そのグループの外接方形座標値を更新していく。
に検索したx線分について、その右端及び左端のx座標
を外接方形の右端値及び左端値として初期登録し、且
つ、そのx線分のy座標を外接方形の上端値及び下端値
として初期登録する。
降のx線分について、そのx線分の右端値と既登録の外
接方形座標の右端値のいずれか大きい方を、外接方形座
標の右端値として選択し、また、そのx線分の左端値と
既登録の外接方形座標の左端値のいずれか小さい方を、
外接方形座標の左端値として選択し、また、そのx線分
のy座標と既登録の外接方形座標の上端値のいずれか小
さい方の値を、外接方形座標の上端値として選択し、ま
た、そのx線分のy座標と既登録の外接方形座標の下端
値のいずれか大きい方の値を、外接方形座標の下端値と
して選択する。
ループ内の全てのx線分について行うことにより、その
グループ内を取り囲む外接方形座標を求める。図2
(B)に示したパターンは、この外接方形計算部14に
よって得た処理結果である。こうして求められた外接方
形座標は、罫線抽出部15に出力される。
ら出力された外接方形中から、所定の横罫線X閾値より
大きなx方向幅を持ち且つ所定の横罫線Y閾値より小さ
なy方向幅を持つ外接方形を抽出して、これを横罫線候
補とする。又、罫線抽出部15は、外接方形計算部14
から出力された外接方形中から、所定の縦罫線X閾値よ
り小さなx方向幅を持ち且つ所定の縦罫線Y閾値より大
きなy方向幅を持つ外接方形を抽出して、これを縦罫線
候補とする。上記の横罫線X閾値、横罫線Y閾値、縦罫
線X閾値及び縦罫線Y閾値は、使用される帳票フォーマ
ット等を基に予め定められて、外接方形計算部14内に
記憶されているものである。
フォーマットから予め得てある罫線の位置又は形状に関
する情報に基づき、罫線のおよその位置又は形状を推定
し、罫線候補の中で推定した位置又は形状に当てはまる
ものを罫線として抽出する。
端から5cm離間した位置に横罫線があるというように罫
線の具体的な位置が判っている場合には、この罫線の位
置情報から罫線座標を換算することによって実行可能で
ある。又、帳票に引かれている罫線の形状が、例えば図
5のようであると判っている場合には、横線分の右端と
左端附近、及び横線分を3等分する2つの位置に夫々縦
線分が存在する、というような情報を用いて罫線形状が
推定できる。この推定結果に基づいた罫線抽出により、
罫線の誤抽出の可能性が一層低減される。
6のフローチャートに示されている。以下、図6を参照
しながら罫線抽出処理を説明する。
理(ループ1)が、全ての外接方形について繰り返し実
行される(ステップ131、138)。各ループ1で
は、外接方形計算部14から出力された前記外接方形座
標(上端値、下端値、右端値及び左端値)に基づいて、
まず、着目している外接方形の高さ(y方向幅)が縦罫
線のY閾値よりも大きく且つその横幅(x方向幅)が縦
罫線のX閾値よりも小さいか否かチェックされ(ステッ
プ132)、結果がイエスであれば、その外接方形は縦
罫線候補として選ばれる。そして、その縦罫線候補の座
標が縦罫線推定位置に該当すれば(ステップ135)、
その外接方形は縦罫線として抽出される(ステップ13
6)。
は、次に、ステップ133に進み、着目している外接方
形の高さが横罫線のY閾値よりも小さく且つその横幅が
横罫線のX閾値よりも大きいかチェックされ、結果がイ
エスであれば、その外接方形は横罫線候補であると判断
される(ステップ133)。そして、その横罫線候補の
座標が横罫線推定位置に該当すれば(ステップ13
4)、その外接方形は横罫線として抽出される(ステッ
プ137)。
一例を図2(C)に示す。図1を再び参照して、この処
理結果は、罫線抽出部15から文字切出し部16に出力
される。
いて罫線外接方形として抽出されなかった外接方形の大
きさが予め推定した文字パターンのサイズと近似するよ
うに所定の処理を行うことにより、文字パターンの外接
方形の座標を求める。この処理では、例えば、複数の外
接方形のx方向の重なり具合が予め決められた閾値より
大きい場合に、それらの外接方形を統合したり、外接方
形のx方向幅が予め決められた閾値より大きい場合に、
x軸に投影された黒画素のヒストグラムの値が極小とな
るx座標でその外接方形を強制切断したりする処理が行
われる。このような統合や切断によって、各文字の外接
方形が決定され、その座標が求められる。
平成4年特許願第259501号「文字切出し方法」
や、平成4年特許願第289784号「文字切出し方
法」に示された手法を利用することができる。
許願第259501号の手法は、フリーピッチの接触文
字の強制切断を含む文字切出しを提供するものである。
この手法では、まず、2値画像を垂直方向にラスタ走行
することにより、黒連結成分外接枠方形と垂直方向黒画
素ヒストグラムを同時に算出する。次に、算出した外接
方形について、方形幅の一定割合以上が重なる外接方形
同士を統合する(ファーストマージ)。次に、ファース
トマージ後の外接方形の高さの平均又は中央値に基づ
き、文字サイズを推定する。次に、文字サイズの幅が大
き過ぎるものを強制切断候補とする。次に、強制切断候
補に対し、文字サイズの1/4をピッチとして移動平均
法による平滑化を2度行う。次に、この結果に、更に文
字サイズをピッチとして平滑化を行う。次に、この結果
のピーク値を検出した後のヒストグラムと、前の平滑処
理結果との交点から次の交点までの間を、強制切断探索
範囲と設定する。次に、設定された強制切断範囲の中の
ヒストグラムが最小となる箇所で、強制切断をする。そ
して、外接方形の横方向での統合を試み、外接方形の
縦、横比が1に近づくように求める。
手法は、筆記者による文字変動に対して許容度の大きい
文字切出し方法を提供するものである。この手法では、
まず、2値画像を垂直方向にラスタ走行して、黒画素連
結成分の外接枠方形を求める。次に、垂直方向の重なり
具合に基づいて、外接方形を統合する(ファーストマー
ジ)。次に、文字外接方形の幾つかの特徴量に対し判別
分析法による重み付けを行うことで合成変量を算出す
る。そして、合成変量の値により、垂直方向に隣接した
外接方形を統合するか否かを決定する。ここで、上記特
徴量としては、例えば次のようなものが使用できる。
2(D)に示す。この処理結果は文字切出し部16から
罫線除去部17に出力される。
て抽出された罫線のうち、文字パターンと重なった部分
を残して、他の部分を除去する。罫線除去部17は、除
去対象である罫線が横(x方向)罫線である場合、図7
〜図9のフローチャートに示すような処理を実行する。
一ライン上の画素(以下、上側着目点と呼ぶ)と一ライ
ン下の画素(以下、下側着目点と呼ぶ)とを左から右へ
走査しながら、それら上側及び下側着目点と、上側及び
下側の過去点(着目点の左隣の画素)の状態(白か黒
か)に応じて、横罫線のどの部分を除去するかを決定
し、そして除去していく。その除去の様子の典型例は図
10に示されている。また、着目点と過去点の状態の種
々の組み合わせと、行うべき処理内容との対応関係が図
11に示されている。
処理を詳細に説明する。
いる横罫線の外接方形の左上の座標を(l,t)とし、
右下の座標を(r,b)とし、また、上側及び下側着目
点の座標を夫々(x,t−1)及び(x,b+1)と
し、上下過去点の座標を夫々(x−1,t−1)及び
(x−1,b+1)とし(但し、l≦x≦r)て説明を
行う(図10(A)参照)。
点が黒画素の組合せが何組連続したか、或いは上側が黒
画素で下側が白画素の組合せが何組連続したか、をカウ
ントするためにカウンタが使用される。このカウンタの
カウント値をSとする。
テップ142〜ステップ152の処理(ループ1)が、
その罫線の左端の上側及び下側着目点から、罫線の右端
の上側及び下側着目点まで、繰り返し実行される。
り且つ下側着目点も白画素である場合(ステップ14
2、ステップ148)は、ステップ151の処理が実行
される。その詳細を図8に示す。また、上側着目点が黒
画素であり且つ下側着目点も黒画素である場合(ステッ
プ142、ステップ143)は、ステップ144の処理
が実行される。この処理の詳細は図9に示す。
白の場合は、上側過去点(x−1,t−1)が白画素で
且つ下側過去点(x−1,b+1)が黒画素であれば
(ステップ161、ステップ162)、更に、上側着目
点よりS+1だけ左側の点(x−S−1,t−1)の画
素が白画素、黒画素のいずれであるかチェックされる
(ステップ163、図10参照)。
と判断されたときには、図10(A)に示すように、x
座標変数x1の値が0≦x1≦Sの範囲で変更されなが
ら、移動点(x−x1,t−1)と下側着目点(x,b
+1)とを結ぶ線分上の黒画素が白画素へと変換されて
行く。これにより、上側着目点(x,t−1)と点(x
−S,t−1)と下側着目点(x,b+1)とで囲まれ
た領域中の黒画素が白画素に変換される(ステップ16
4)。この処理は、横罫線に対し文字パターンが左上か
ら右下へと交差している場合、その文字パターンよりも
上側の罫線部分を消去することを意味する。この処理が
終了すると、カウント値Sが0にされる(ステップ17
1)。
−S−1,t−1)の画素が白画素であると判断された
ときには、図10(B)に示すように、上側移動点(x
−x1,t−1)と下側移動点(x−x1,b+1)とを
結ぶ線分上の黒画素が白画素へと変換されて行く。これ
により、4点(x,t−1)、(x−S,t−1)、
(x−S,b+1)及び(x,b+1)で囲まれた領域
中の黒画素が白画素に変換される(ステップ165)。
この処理は、横罫線の下側に文字パターンが接している
場合、その文字パターンと接した罫線部分を消去するこ
とを意味する。この処理が終わると、カウント値Sが0
にされる(ステップ171)。
側及び下側過去点が共に白画素であると判断されたとき
には、上下着目点(x,t−1)、(x,b+1)を結
ぶ線分上の黒画素が白画素に変換される(ステップ16
6、図11のパターン1)。これは、文字パターンと交
差も接触もしてない罫線部分を消去することを意味す
る。この後、カウント値Sが0にされる(ステップ17
1)。
点(x−1,t−1)が黒画素で且つ下側過去点(x−
1,b+1)が白画素であると判断された場合には、更
に、下側過去点よりS+1だけ左側の点(x−S−1,
b+1)の画素が白画素、黒画素のいずれであるかがチ
ェックされる(ステップ168)。
と判断されたときには、図11のパターンP4に示すよ
うに、3点(x,t−1)、(x−S,b+1)及び
(x,b+1)で囲まれた領域中の黒画素が白画素に変
換される(ステップ169)。これは、横罫線に文字パ
ターンが左下から右上へ交差している場合、文字パター
ンの下側の罫線部分を消去することを意味する。
−S−1,t−1)の画素が白画素であると判断された
ときには、図11のパターンP5に示すように、4点
(x,t−1)、(x−S,t−1)、(x−S,b+
1)及び(x,b+1)で囲まれた領域中の黒画素が白
画素に変換される(ステップ170)。これは、横罫線
の上側に文字パターンが接している場合、文字パターン
と接している罫線部分を消去することを意味する。
側及び下側過去点が共に黒画素であると判断されたとき
には、図11のパターンP6に示すように、上下着目点
(x,t−1)、(x,b+1)を結ぶ線分上の黒画素
が白画素に変換される(ステップ166)。
場合の処理が行われる。この処理が終わると、図7のス
テップ152に移行して上下着目点が右隣の画素へと移
行され、前記ループ1の処理が繰り返される。
処理(ステップ144)を、図9、11を参照して説明
する。
−1)が白画素で且つ下側過去点(x−1,b+1)が
黒画素である場合(ステップ181、ステップ182)
には、図11のパターンP7に示すように、x座標変数
x1の値が0≦x1≦Sの範囲で変更されながら、移動点
(x−x1,t−1)と点(x−S,b+1)とを結ぶ
線分上の黒画素が白画素へと変換されて行く。これによ
り、3点(x,t−1)、(x−S,t−1)及び(x
−S,b+1)で囲まれた領域中の黒画素が白画素に変
換される(ステップ183)。これは、横罫線に文字パ
ターンが左下から右上へ交差する場合、その文字パター
ンの上側の罫線部分を消去することを意味する。この
後、カウント値Sが0にされる(ステップ186)。
画素で且つ下側過去点(x−1,b+1)が白画素であ
る場合(ステップ181、ステップ184)には、図1
1のパターンP8に示すように、3点(x−S,t−
1)、(x−S,b+1)及び(x,b+1)で囲まれ
た領域中の黒画素が白画素に変換される(ステップ18
5)。これは、横罫線に文字パターンが左上から右下へ
交差している場合に、その文字パターンの下側の罫線部
分を消去することを意味する。この後、カウント値Sを
0にする。
ある場合(ステップ181、ステップ182)、及び共
に黒画素である場合(ステップ181、ステップ18
4)には、消去処理は行わずに、カウント値Sを0にす
る。
ある場合の処理(図7ステップ144)が行われる。
いて上側着目点が黒画素で且つ下側着目点が白画素と判
断された場合について説明する。
の状態がチェックされ(ステップ145)、上側過去点
が黒画素で且つ下側過去点が白画素であると判断された
場合(即ち、上下着目点と白黒の組合せが同一の場合)
には、カウンタSがインクリメントされ(ステップ14
6)る。また、ステップ145において、上下過去点に
おける白黒の組合せが上下着目点における白黒の組合せ
と反対であると判断された場合は、カウンタSが1に更
新される(ステップ147)。この後、ステップ152
に進み着目点が右隣へ移行される。
側着目点が白画素で且つ下側着目点が黒画素と判断され
た場合について説明する。
の状態がチェックされ(ステップ149)、上側過去点
が白画素で且つ下側過去点が黒画素の場合(即ち、上下
着目点と白黒の組合せが同一の場合)には、カウンタS
がインクリメントされる(ステップ150)。また、ス
テップ149において、上下過去点における白黒の組合
せが上下着目点における白黒の組合せと反対であると判
断された場合は、カウンタSが1に更新される(ステッ
プ147)。
理の全体は、図11に模式的に要約して示してある。
線を除去する場合について説明した。この処理は、x座
標とy座標とを入れ換えることによって、縦罫線を除去
する場合についても適用することが可能である。
結果を図2(E)に示す。この図2(E)の結果は文字
パターンと重ならない罫線部分が全て除去されている。
一方、図2(F)に示すように、文字認識の支障となら
ない罫線部分は、除去処理を行わないことによって、処
理の高速化を図ることも可能である。これは、例えば、
罫線除去処理に先だって、罫線の外接方形座標と文字切
出し処理によって得た文字パターンの外接方形座標とを
比較して、文字パターンの外接方形内に含まれる罫線部
分のみを、罫線除去処理の対象として選定することによ
って実現できる。
が、本発明はこの実施例にのみ限定されるものではな
く、その要旨を逸脱しない範囲内で異なる種々の態様で
実施することが可能である。
画像データの走査によって得た線分を、罫線と文字とに
区別できるようにグループ分けして、罫線と文字を識別
するようにしているので、画像データの全てを1度走査
するだけで、罫線抽出処理と文字切出し処理との2つの
処理を行うことができる。
分に付いて省略する場合には、罫線除去という負荷の高
い処理を極力抑制できるので、文字認識前処理全体の処
理速度を向上させることが可能である。
すブロック図。
を示した説明図。本発明の一実施例に従う罫線除去ステ
ップを示した説明図。
ーチャート。
たフローチャート。
チャート。
チャート。
合の処理を示したフローチャート。
合の処理を示したフローチャート。
を示した説明図。
Claims (4)
- 【請求項1】 第1方向又はこれに垂直な第2方向に延
びる罫線と、一個以上の文字とを含む画像データ中から
各文字を切り出す方式において、 前記画像データを走査して、前記第1方向の線分を抽出
する線分抽出手段と、 抽出された線分の長さと、線分相互間の位置関係とに基
づいて、前記抽出された線分を複数のグループに分ける
線分グループ化手段と、 各線分グループの外接多角形を求める外接多角形決定手
段と、 前記外接多角形の前記第1方向の寸法及び、予め用意し
た帳票内での罫線の位置又は形状に関する情報に基づい
て、前記線分グループを罫線と文字とに識別する罫線識
別手段と、 文字として識別された前記線分グループから、各文字パ
ターンの外接多角形を切り出す文字パターン切り出し手
段と、 罫線として識別された前記線分グループについて、前記
文字として識別された線分グループとの重なりを検出
し、重なりのない罫線部分を除去する罫線除去手段と、 を有することを特徴とする文字切出し方式。 - 【請求項2】 請求項1記載の文字切出し方式におい
て、 前記線分グループ化手段が、前記第2方向で隣接するよ
うに配置された複数の線分であって、それら線分の全て
が所定の線分長閾値より長い又は短い複数の線分を同一
のグループに属せしめることを特徴とする文字切出し方
式。 - 【請求項3】 第1方向又はこれに垂直な第2方向に延
びる罫線と、一個以上の文字とを含む画像データ中から
各文字を切り出す方式において、 前記画像データを走査して、前記第1方向の線分を抽出
する線分抽出手段と、 抽出された線分の長さと、線分相互間の位置関係とに基
づいて、前記抽出された線分を複数のグループに分ける
線分グループ化手段と、 各線分グループの外接多角形を求める外接多角形決定手
段と、 前記外接多角形の前記第1方向の寸法及び、予め用意し
た帳票内での罫線の位置又は形状に関する情報に基づい
て、前記線分グループを罫線と文字とに識別する罫線識
別手段と、 文字として識別された前記線分グループから、各文字パ
ターンの外接多角形を切り出す文字パターン切り出し手
段と、 罫線として識別された前記線分グループについて、前記
文字として識別された線分グループとの重なりを検出
し、重なりのない罫線部分を除去する罫線除去手段とを
有し、 前記罫線除去手段が、前記罫線識別手段によって罫線と
して識別された線分グループの内、前記文字パターン切
り出し手段によって切り出された文字パターンの外接多
角形の外側に存在する部分に対しては、処理を行わない
ことを特徴とする文字切出し方式。 - 【請求項4】 第1方向又はこれに垂直な第2方向に延
びる罫線と、一個以上の文字とを含む画像データ中から
各文字を切り出す方式において、 前記画像データを走査して、前記第1方向の線分を抽出
する線分抽出手段と、 抽出された線分の長さと、線分相互間の位置関係とに基
づいて、前記抽出された線分を複数のグループに分ける
線分グループ化手段と、 各線分グループの外接多角形を求める外接多角形決定手
段と、 前記外接多角形の前記第1方向の寸法及び、予め用意し
た帳票内での罫線の位置又は形状に関する情報に基づい
て、前記線分グループを罫線と文字とに識別する罫線識
別手段と、 文字として識別された前記線分グループから、各文字パ
ターンの外接多角形を切り出す文字パターン切り出し手
段と、 罫線として識別された前記線分グループについて、前記
文字として識別された線分グループとの重なりを検出
し、重なりのない罫線部分を除去する罫線除去手段とを
有し、 前記罫線除去手段が、前記罫線として識別された線分グ
ループの外接多角形の外縁に存在する、前記外縁を挟ん
で対向関係にある一対の着目点同士における画素の状態
と、前記外縁を挟んで対向関係にある一対の過去点同士
における画素の状態とを夫々チェックすることにより、
それら画素の状態の組み合わせに応じて除去すべき罫線
部分を決定することを特徴とする文字切出し方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05222239A JP3077929B2 (ja) | 1993-08-13 | 1993-08-13 | 文字切出し方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05222239A JP3077929B2 (ja) | 1993-08-13 | 1993-08-13 | 文字切出し方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0757047A JPH0757047A (ja) | 1995-03-03 |
JP3077929B2 true JP3077929B2 (ja) | 2000-08-21 |
Family
ID=16779292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05222239A Expired - Fee Related JP3077929B2 (ja) | 1993-08-13 | 1993-08-13 | 文字切出し方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3077929B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10420890B2 (en) | 2013-08-22 | 2019-09-24 | Sanofi-Aventis Deutschland Gmbh | Assembly for a drug delivery device and use of an attenuation member |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3615333B2 (ja) * | 1996-12-05 | 2005-02-02 | 株式会社リコー | 罫線消去装置 |
-
1993
- 1993-08-13 JP JP05222239A patent/JP3077929B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10420890B2 (en) | 2013-08-22 | 2019-09-24 | Sanofi-Aventis Deutschland Gmbh | Assembly for a drug delivery device and use of an attenuation member |
Also Published As
Publication number | Publication date |
---|---|
JPH0757047A (ja) | 1995-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5410611A (en) | Method for identifying word bounding boxes in text | |
US5465304A (en) | Segmentation of text, picture and lines of a document image | |
Wenyin et al. | From raster to vectors: extracting visual information from line drawings | |
JP3469345B2 (ja) | 画像のファイリング装置及びファイリング方法 | |
EP0785522B1 (en) | Method and system for detecting a pattern in an image | |
JP2641380B2 (ja) | 光学式文字認識システム用折曲点抽出方法 | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
JPH06348896A (ja) | 文字の切り出し方法及びその装置 | |
EP0580153A2 (en) | Method and apparatus for segmenting and classifying unconstrained handwritten characters | |
JP4704601B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
JP3615333B2 (ja) | 罫線消去装置 | |
JP3216800B2 (ja) | 手書き文字認識方法 | |
JP3077929B2 (ja) | 文字切出し方式 | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
JPH07220081A (ja) | 画像認識装置の図形の切出し方法 | |
JP2796561B2 (ja) | 表形式文書認識方式 | |
JP2917427B2 (ja) | 図面読取装置 | |
JP3343305B2 (ja) | 文字切り出し装置、及び文字切り出し方法 | |
JP3188580B2 (ja) | 文字切り出し回路、及び文字切り出し方法 | |
JP3897999B2 (ja) | 手書き文字認識方法 | |
Hu et al. | Automatic reading of the white pages in a telephone directory | |
JP2797523B2 (ja) | 図面続取装置 | |
JP4878057B2 (ja) | 文字認識方法,プログラム及び記録媒体 | |
JP3285837B2 (ja) | 文字列の切り出し装置および方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080616 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090616 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100616 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110616 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120616 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130616 Year of fee payment: 13 |
|
LAPS | Cancellation because of no payment of annual fees |