JP3147281B2 - アンダライン抽出方法 - Google Patents

アンダライン抽出方法

Info

Publication number
JP3147281B2
JP3147281B2 JP01046995A JP1046995A JP3147281B2 JP 3147281 B2 JP3147281 B2 JP 3147281B2 JP 01046995 A JP01046995 A JP 01046995A JP 1046995 A JP1046995 A JP 1046995A JP 3147281 B2 JP3147281 B2 JP 3147281B2
Authority
JP
Japan
Prior art keywords
underline
image
extracting
document
black
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01046995A
Other languages
English (en)
Other versions
JPH08202819A (ja
Inventor
照雄 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP01046995A priority Critical patent/JP3147281B2/ja
Publication of JPH08202819A publication Critical patent/JPH08202819A/ja
Application granted granted Critical
Publication of JP3147281B2 publication Critical patent/JP3147281B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書中の文字列の下に
印刷ないし手書きで記入されたアンダラインを抽出する
方法に関する。
【0002】
【従来の技術】従来、文書中に記入されたキーワード等
をOCRで認識する際、その認識すべき文字の位置をO
CRに指示するための方法として、その認識すべきキー
ワードの下にアンダラインを引く方法がとられている。
このアンダラインを抽出するための方法として、図16
に示すように、黒画素のランレングスが一定以上の長さ
を持つ1まとまりの図形を抽出し、アンダラインとして
抽出する方法が考えられる。図16では水平方向の黒ラ
ンのうち、連続量が一定値を超えるものをまとめて1つ
の図形とし、アンダラインとして抽出する。これによ
り、破線で囲まれた長方形の領域がアンダラインの領域
として抽出される。
【0003】
【発明が解決しようとする課題】この方法はワードプロ
セッサなどを用いて出力されたアンダラインや、定規を
用いて水平に記入されたアンダラインに対しては有効で
あったが、手書きで自由に記入されて手振れによる変動
があるアンダライン、直線であっても傾いて入力された
アンダラインに対しては抽出が困難になるという欠点が
あった。また、黒画素のランの途中にかすれなどの白画
素があると抽出ができなくなるという欠点があった。こ
の欠点を補うものとして、図17に示すように、輪郭の
追跡を行い、輪郭点の外接矩形が細長い図形のものをア
ンダラインとして抽出する方法がある。図17の方法も
16の方法と同様に、破線で囲まれた部分がアンダラ
インとして抽出されるが、この方法も図18に示すよう
にアンダラインの上に記入された文字がアンダラインに
接触すると輪郭の追跡が文字の部分にまで及んでしま
い、アンダラインの抽出が困難になるという欠点があっ
た。
【0004】本発明の目的は、文書画像中に記入された
アンダラインを傾きや手振れがあっても、また文字に接
触していても正確に抽出でき、また入力時のかすれや破
線に対してもある程度の対応が可能なアンダライン抽出
方法を提供することにある。
【0005】
【課題を解決するための手段】本発明のアンダライン抽
出方法は、文書を入力し、該入力文書を標本化と量子化
によって2値の数値で表現される文書画像に変換する文
書入力段階と、文書入力段階によって得られた文書画像
を走査し、水平方向に連続した一定数の連続した画素毎
に、該連続画素に所定数以上の黒画素が含まれていた場
合、全ての白画素を黒画素に置換する処理を行なう画素
置換段階と、画素置換段階で得られた文書画像に対し、
垂直方向に黒画素が連続した黒ランの伸長処理を1回以
上行う垂直黒ラン伸長段階と、垂直黒ラン伸長段階で得
られた文書画像から、一定の範囲の長さの水平方向の黒
ランを抽出する水平黒ラン抽出段階と、水平黒ラン抽出
段階で得られた文書画像に対し、垂直方向に黒画素が連
続した黒ランの縮退処理を垂直黒ラン伸長段階で行った
伸長処理と同じ回数だけ行う垂直黒ラン縮退段階と、垂
直黒ラン縮退段階で得られた文書画像と、画素置換段階
で得られた画素置換画像との論理積をとることにより、
アンダラインの候補画像を抽出するアンダライン候補抽
出段階と、アンダライン候補抽出段階で得られたアンダ
ライン候補画像に対し論理演算を施すことによりアンダ
ラインの下輪郭を抽出する下輪郭抽出段階と、下輪郭抽
出段階で得られた下輪郭点のうち、一定の長さ以上連続
した輪郭点列をアンダラインとして抽出するアンダライ
ン抽出段階を有する。
【0006】前記下輪郭抽出段階は、前記アンダライン
の候補画像の垂直方向の黒画素群を上方向に1画素だけ
シフトし、シフト前の画像とシフト後の画像の排他的論
理和をとった画像を求め、該画像と前記シフト後の画像
を反転した画像の論理積を求めることにより行なわれ
る。
【0007】
【0008】
【作用】2値表現される原文書に対し一定数の連続した
画素毎に、その中に所定数以上の黒画素が含まれていた
場合、全ての白画素を黒画素に置換し、連続した黒画素
に置き換えた画素置換画像を作成する。これによりアン
ダラインとして破線が用いられたりかすれていても安定
にアンダラインを抽出できる。次に、一定の長さの水平
方向の黒画素のランを、アンダラインが傾いていた場合
でも安定に抽出するために、垂直方向の黒画素のランの
伸長を行った上で、一定の長さの水平方向の黒画素のラ
ンを抽出し、さらに垂直方向の黒画素のランの縮退処理
を行う。次に、縮退処理を行った画像と画素置換画像と
の論理積をとることによりアンダラインの候補領域を抽
出し、文書画像のシフトと論理演算の組み合わせによっ
てアンダライン候補領域の下輪郭点を抽出した後、下輪
郭点の追跡処理を行ってアンダラインの抽出を行う。
【0009】したがって、文書画像中に記入されたアン
ダラインに傾きや手振れがあっても、また文字に接触し
ていても正確にアンダラインの抽出を行うことができ
る。
【0010】なお、本発明は、文書中に記入された手書
きのアンダラインのみならず、文書に印刷されたアンダ
ライン、罫線も全く同様の方法で抽出することができ
る。また、水平方向の罫線だけでなく垂直方向の罫線も
同様の方法で抽出可能である。
【0011】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0012】図1は本発明の一実施例のアンダライン抽
出方法を示すフローチャートである。
【0013】本実施例のアンダライン抽出方法は文書入
力段階1と画素置換段階2と垂直黒ラン伸長段階3と水
平黒ラン抽出段階4と垂直黒ラン縮退段階5とアンダラ
イン候補抽出段階6と下輪郭抽出段階7とアンダライン
抽出段階8で構成される。
【0014】文書入力段階1では、ファクシミリ、スキ
ャナなどを用いて文書を標本化し、さらに各画素の値を
黒は1、白は0の2値に量子化を行い、原画像を作成す
る。画素置換段階2では、作成された原画像の水平方向
に連続した一定数の画素毎に、その中に1個以上黒画素
が含まれていれば、全ての白画素を黒画素に置換する。
垂直黒ラン伸長段階3では、水平方向の黒ランを、アン
ダラインが傾いていた場合でも安定に抽出するために、
入力された画像(黒画素)を垂直下方向へ1画素だけ太
め処理(伸長処理)を行う。水平黒ラン抽出段階4で
は、垂直黒ラン伸張段階3で得られた画像に対して一定
以上の長さをもつ水平黒ランを抽出する。垂直黒ラン縮
退段階5では、伸長した垂直方向の黒ランを元の状態に
戻すためのもので、垂直黒ラン伸長段階3において行わ
れた伸長処理と同じ回数だけ縮退処理を行う。縮退処理
は、画像全体を垂直黒ラン伸張段階3で行った伸長処理
と反対の方向、すなわち上方向に1画素シフトして、シ
フト前の画像との論理積をとることにより実現する。さ
らに縮退処理を行う場合にはこの処理を反復すればよ
い。アンダライン候補抽出段階6では、垂直黒ラン縮退
段階5で得られた画像と画素置換段階2で得られた画像
の論理積をとることによってアンダライン候補を抽出す
る。論理積の演算を行うのは、アンダラインが罫線に近
接して存在する場合に垂直黒ラン伸長段階5においてア
ンダラインが罫線と接触してしまい、垂直黒ラン縮退段
階5を経てもアンダラインが罫線と近接している場合、
罫線とアンダラインが分離しない場合があるからであ
る。下輪郭抽出段階7では、アンダライン候補抽出段階
6で得られたアンダライン候補の下輪郭を抽出する。ア
ンダライン抽出段階8では、下輪郭抽出段階7で得られ
た画素列を左端から走査し、一定の長さ以上のものを抽
出し、その下輪郭点全体を含む図形全体をアンダライン
として抽出する。
【0015】次に、本実施例のアンダライン抽出方法の
具体的動作を図2〜図15により説明する。
【0016】図2は、文書入力段階1で2値化された文
書画像の例を示している。アンダラインは傾いて入力さ
れており、しかもかすれによる白画素が含まれている。
これに対し、画素置換段階2では、例えば図2の△を左
端とする水平方向の連続した4画素が1つでも黒画素を
含めば、この画素群の白画素を全て黒画素に置き換え
る。これにより図2に示した原画像は図3のようにな
る。これにより、アンダラインとして破線が用いられて
いたり、かすれていてもアンダラインを安定に抽出でき
る。次の垂直黒ラン伸長段階3では、垂直方向の各黒画
素群を垂直下方向に1画素伸ばす黒ラン伸長処理を行な
う。例えば図3の矢印で示す垂直方向の黒画素群(図4
(a))を1画素下にシフトして(図4(b))、シフ
ト前の画像(図4(a))と論理和をとる(図4
(c))ことにより、垂直黒ラン伸長処理を実現する。
図5は垂直黒ラン伸長処理後の画像を示している。さら
に伸長処理を行う場合にはこの処理を反復すればよい。
水平黒ラン抽出段階4では、垂直黒ラン伸長処理で得ら
れた画像に対して例えば長さ10以上の水平黒ランを抽
出する(図6)。なお、図6では図3で示された水平黒
ランを波下線で示している。一方、図3に示した画像に
対し、2回の垂直黒ラン伸長処理を施し、同様に長さ1
0以上の黒ランを抽出したものが図7である。図6と比
べ安定に水平黒ランが抽出されているのがわかる。ここ
で示した例では、元の画像に対し、下方向のみに伸長処
理を行ったが、上方向、あるいは上下両方向に伸長処理
を行ってもよい。また、1画素の伸張処理を複数回行な
ったが、1回の処理で2画素以上の伸張処理を行なって
もよい。垂直黒ラン縮退段階5では、水平黒ラン抽出段
階4で得られた画像の垂直方向の各黒画素群の一番下の
黒画素を白画素に変更する。図8は垂直黒ラン縮退段階
5の処理の様子を示している。すなわち、垂直方向の画
素群(図8(a))を1画素だけ上方向にシフトし(図
8(b))、これと元の画素群(図8(a))の論理積
をとる(図8(c))。図9は水平黒ラン抽出段階4で
抽出した水平黒ラン(図7)に対し2回の垂直黒ラン縮
退処理を施した結果を示している。伸長・縮退処理を行
うことより、図3における長さ10未満の水平黒ランも
抽出されていることがわかる。アンダライン候補抽出段
階6では、垂直黒ラン縮退段階5で得られた画像と画素
置換段階2で得られた画像の論理積をとる。これはアン
ダラインが罫線等の図形と近接している場合に、縮退処
理によってもアンダラインが罫線等の図形と分離しない
場合が起きるからである。具体的に図を用いて説明す
る。図10は図3に示したアンダラインに近接して罫線
が存在している場合の例である。このアンダラインに対
し、垂直黒ランの伸長を行ったものが図11、縮退処理
を行ったものが図12である。このようにアンダライン
と罫線が接触してしまい1つの図形となってしまう。こ
のような場合でも図10の画像と図12の画像の論理積
をとることにより、ランレングスによる罫線の安定抽出
を行いつつ伸長縮退処理によって接触した部分を図10
のように復元にすることが可能になる。次に、下輪郭抽
出段階7で、アンダライン候補抽出段階6で得られたア
ンダライン候補の下輪郭を抽出する。下輪郭抽出の原理
を図13に示す。図13(a)は図9の△の垂直方向の
画像を示している。まず、図13(a)の画像を1画素
上方向にシフトした画像(図13(b))を作成し、元
の画像(図13(a))との排他的論理和をとった画像
(図13(c))を求める。この論理演算によって、画
像(図13(a))の下から3番目と6番目の画素が黒
画素の画像が得られる。この画像(図13(c))と、
画像(図13(b))を反転した画像(図13(d))
との論理積を求めることにより元の画像(図13
(a))の下から3番目の画素のみが黒画素の画像(図
13(e))を得ることができる。このように元の画像
に対して、アンダラインの下輪郭点を画像同士の論理演
算のみで求めることができる。このように、アンダライ
ン候補抽出段階6で得られた画像に対し、論理演算を組
合せて適用することにより、図14に◎印で示すアンダ
ラインの下輪郭点が抽出される。最後のアンダライン抽
出段階8では、図15に示すように、まず、下輪郭点抽
出段階7で得られた輪郭点の左端(▲)を検出する。次
に、右方向(矢印方向)に下輪郭点を追跡する。右方向
に連続する下輪郭点が存在しない場合には段を変えて下
輪郭点を追跡する。図15では追跡する段を1つ上に上
げて下輪郭点を追跡している。なお、画像によっては下
輪郭点が2段以上跳躍することがある。この場合には一
定の値を設け、その値の範囲内で段差をもつ下輪郭点を
連続して追跡すればよい。ここで、あまり大きな値を設
定すると、本来、別のものであるアンダラインを同一の
アンダラインとして抽出してしまうことになる。追跡が
完了した時点で、下輪郭点の連続画素数を計数し、一定
の長さ以上のものについて、その下輪郭点全体を含む図
形全体をアンダラインとして抽出する。
【0017】
【0018】以上、スキャナやファクシミリ等から入力
された2値の文書画像において、文字などの下に手書き
で記入されたアンダラインの抽出方法を例にとって本発
明を説明したが、本発明は手書きのものに限定されるこ
となく、文書に印刷されたアンダライン、罫線も全く同
様の方法で抽出することができることは明らかである。
さらに、文字列の下に記入ないし印刷されたアンダライ
ンだけでなく、水平方向の罫線や、垂直方向の罫線な
ど、直線状のものであれば同様の方法で抽出できること
も明らかである。
【0019】
【発明の効果】以上説明したように、本発明は、文書画
像中に記入されたアンダラインに傾きや手振れがあって
も、また文字に接触していても正確にアンダラインの抽
出を行うことができる。また、入力時のかすれや破線に
対してもある程度の対応が可能である。
【図面の簡単な説明】
【図1】本発明の一実施例のアンダライン抽出方法を示
すフローチャートである。
【図2】2値化された文書画像の例を示す図である。
【図3】画素置換後の文書画像を示す図である。
【図4】垂直黒ラン伸張処理を示す図である。
【図5】垂直黒ラン伸長処理後の画像を示す図である。
【図6】長さ10以上の黒ランを抽出した例を示す図で
ある。
【図7】2回の垂直黒ラン伸長処理を施し、長さ10以
上の黒ランを抽出した例を示す図である。
【図8】垂直黒ライン伸長処理を示す図である。
【図9】2回の垂直黒ラン伸長・縮退処理によって抽出
された水平黒ランを示す図である。
【図10】互いに近接したアンダラインと罫線の例を示
す図である。
【図11】伸張処理を行ったアンダラインと罫線を示す
図である。
【図12】縮退処理後の接触したアンダラインと罫線を
示す図である。
【図13】下輪郭抽出処理を示す図である。
【図14】アンダライン候補の抽出例を示す図である。
【図15】アンダライン候補抽出処理を示す図である。
【図16】ランレングスを用いたアンダライン抽出を示
す図である。
【図17】外接矩形を用いたアンダライン抽出を示す図
である。
【図18】外接矩形を用いたアンダライン抽出が困難な
例を示す図である。
【符号の説明】
1 文書入力段階 2 画素置換段階 3 垂直黒ラン伸長段階 4 水平黒ラン抽出段階 5 垂直黒ラン縮退段階 6 アンダライン候補抽出段階 7 下輪郭抽出段階 8 アンダライン抽出段階

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書中の文字列の下に印刷ないし手書き
    で記入されたアンダラインを抽出するアンダライン抽出
    方法であって、 文書を入力し、該入力文書を標本化と量子化によって2
    値の数値で表現される文書画像に変換する文書入力段階
    と、 前記文書入力段階によって得られた文書画像を走査し、
    水平方向に連続した一定数の連続した画素毎に、該連続
    画素に所定数以上の黒画素が含まれていた場合、全ての
    白画素を黒画素に置換する処理を行なう画素置換段階
    と、 前記画素置換段階で得られた文書画像に対し、垂直方向
    に黒画素が連続した黒ランの伸長処理を1回以上行う垂
    直黒ラン伸長段階と、 前記垂直黒ラン伸長段階で得られた文書画像から、一定
    の範囲の長さの水平方向の黒ランを抽出する水平黒ラン
    抽出段階と、 前記水平黒ラン抽出段階で得られた文書画像に対し、垂
    直方向に黒画素が連続した黒ランの縮退処理を前記垂直
    黒ラン伸長段階で行った伸長処理と同じ回数だけ行う垂
    直黒ラン縮退段階と、 前記垂直黒ラン縮退段階で得られた文書画像と、前記画
    素置換段階で得られた画素置換画像との論理積をとるこ
    とにより、アンダラインの候補画像を抽出するアンダラ
    イン候補抽出段階と、 前記アンダライン候補抽出段階で得られたアンダライン
    候補画像に対し論理演算を施すことによりアンダライン
    の下輪郭を抽出する下輪郭抽出段階と、 前記下輪郭抽出段階で得られた下輪郭点のうち、一定の
    長さ以上連続した輪郭点列をアンダラインとして抽出す
    るアンダライン抽出段階とを有するアンダライン抽出方
    法。
  2. 【請求項2】 前記下輪郭抽出段階は、前記アンダライ
    ンの候補画像の垂直方向の黒画素群を上方向に1画素だ
    けシフトし、シフト前の画像とシフト後の画像の排他的
    論理和をとった画像を求め、該画像と前記シフト後の画
    像を反転した画像の論理積を求めることにより行なわれ
    る、請求項1記載のアンダライン抽出方法。
JP01046995A 1995-01-26 1995-01-26 アンダライン抽出方法 Expired - Lifetime JP3147281B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01046995A JP3147281B2 (ja) 1995-01-26 1995-01-26 アンダライン抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01046995A JP3147281B2 (ja) 1995-01-26 1995-01-26 アンダライン抽出方法

Publications (2)

Publication Number Publication Date
JPH08202819A JPH08202819A (ja) 1996-08-09
JP3147281B2 true JP3147281B2 (ja) 2001-03-19

Family

ID=11751002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01046995A Expired - Lifetime JP3147281B2 (ja) 1995-01-26 1995-01-26 アンダライン抽出方法

Country Status (1)

Country Link
JP (1) JP3147281B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6880460B2 (ja) * 2018-03-27 2021-06-02 京セラドキュメントソリューションズ株式会社 画像処理装置

Also Published As

Publication number Publication date
JPH08202819A (ja) 1996-08-09

Similar Documents

Publication Publication Date Title
US5729635A (en) OCR image free-processing method for image enhancement of scanned documents
US8155445B2 (en) Image processing apparatus, method, and processing program for image inversion with tree structure
JP3056905B2 (ja) 文字認識方法およびテキスト認識システム
JP4189506B2 (ja) 画像処理のための装置、方法及び記録媒体
JP2001092919A (ja) 2次元バーコードのねじれ角決定法
JPH0713995A (ja) 自動テキスト特徴決定装置
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
JPH05242300A (ja) 文書イメージの処理方法
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
US5982952A (en) Optical character reader with tangent detection for detecting tilt of image data
JP3147281B2 (ja) アンダライン抽出方法
JP2003067738A (ja) 網点除去方法及びシステム
JPH08317193A (ja) ディジタル化画像の縦横ラインを検知し修正する方法および装置
US5638466A (en) Method and apparatus for deskewing images of symbols having a non-linear baseline
Baloun et al. ChronSeg: Novel Dataset for Segmentation of Handwritten Historical Chronicles.
Aparna et al. A complete OCR system development of Tamil magazine documents
Saritha et al. Handwritten text detection using OpenCV and CNN
JP3187895B2 (ja) 文字領域抽出方法
Konya et al. Adaptive methods for robust document image understanding
JP3187894B2 (ja) 文書画像傾き検出方法
JP6701773B2 (ja) 罫線削除装置、罫線削除方法、および罫線削除プログラム
JP2006277509A (ja) ドットテクスチャ重畳表記部形状回復方法及びそのためのプログラム
KR100334624B1 (ko) 클러스터링기반문서영상분할방법
Khan et al. Morphology based Character Recognition of Overlapped and Touched Objects
JP4571447B2 (ja) 文字画像抽出プログラム、文字画像抽出方法および文字画像抽出装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090112

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100112

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 12

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term