JPH10134180A - 認識辞書自動生成方法 - Google Patents

認識辞書自動生成方法

Info

Publication number
JPH10134180A
JPH10134180A JP28793196A JP28793196A JPH10134180A JP H10134180 A JPH10134180 A JP H10134180A JP 28793196 A JP28793196 A JP 28793196A JP 28793196 A JP28793196 A JP 28793196A JP H10134180 A JPH10134180 A JP H10134180A
Authority
JP
Japan
Prior art keywords
white
dotted line
black
connected component
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP28793196A
Other languages
English (en)
Inventor
Katsumi Marukawa
勝美 丸川
Yoshihiro Shima
好博 嶋
Hiroshi Shinjo
広 新庄
Kazuki Nakajima
和樹 中島
Takeyuki Sugimoto
建行 杉本
Hidekazu Hatano
英一 羽田野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP28793196A priority Critical patent/JPH10134180A/ja
Publication of JPH10134180A publication Critical patent/JPH10134180A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 2値画像中の直線上の点線を抽出する。 【解決手段】 101にて画像を入力し、102、103にて画
像から黒ランデータを生成し、黒連結成分を求める。そ
して、106にて画像から白ランデータを生成し、107にて
背景を構成する不要な白ランを除去し、108にて白ラン
データから白連結成分を求め、109にて文字や記号を構
成する不要な白連結成分を除去する。そして、110、111
にて点線を一つの棒状の白連結成分として求める。そ
して、105にて、103にて求めた黒連結成分と111にて求
めた白連結成分から各黒連結成分が属する点線候補を求
め、点線とその領域を求める。 【効果】 様々な直線上の点線を高速かつ高精度に抽出
できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2値画像中の直線
状の点線を抽出する方法に係わり、帳票や雑誌目次など
に存在する点線を抽出する点線抽出方法に関する。
【0002】
【従来の技術】従来の点線を抽出する方法としては、例
えば、園田浩一郎「文書画像中の点線抽出アルゴリズム
の検討」(電子情報通信学会秋季大会、D-316、1994
年)や後藤英昭「文書画像中のけい線・フィールドセパ
レータの抽出のための一手法」(電子情報通信学会論文
誌D-II、Vol。 J78-D-II、No。 12、pp。 1935-1939、1
995年)がある。前者の方法は画像内の塊状図形の外形
矩形の寸法やその並びの規則性を用いる。また後者の方
法は画像内の黒ランにハフ変換を施し線素を求め、これ
に含まれる黒画素に対し自己相関を求め点線を抽出す
る。
【0003】
【発明が解決しようとする課題】図2に示す201と202、2
03の例から分かるように、点間距離は文書毎に異なり、
203のように複数の種類の点線が存在する場合もある。
また203で扱われている点線の1種類は2個の点から構成
され、同時に2種類の点線が連続して記述されているこ
とが分かる。このように、様々に表現された点線をより
少ない処理量で高精度に抽出することが課題となる。
【0004】従来の前者の技術「文書画像中の点線抽出
アルゴリズムの検討」では点と点の位置の規則性を利用
するため、点の数が2個、3個と少ない場合、規則性を利
用できないので点の数が少ない点線を抽出することが難
しい。また、複数種類の点線が連続した場合、規則性を
利用したのでは点線を求めることができない。さらに、
点候補と考えられる相対的に小さな点毎に、点間距離が
安定しているか否かを判断しながら近接する点候補を探
索する必要があるので、処理量が多くなる。
【0005】また従来の後者の技術「文書画像中のけい
線・フィールドセパレータの抽出のための一手法」の場
合、自己相関により規則性を利用し点線を求める。従っ
て、前者の方法同様、点の数が2個、3個と少ない場合や
複数種類の点線が連続した場合、規則性を利用したので
は点線を求めることができない。また点線を線素として
求める際、ハフ変換を利用して線素を探すので処理量が
多くなる。
【0006】従って、点線の線素の探索に多くの処理量
を要さず、点の数が2個、3個と少ない場合や複数種類の
点線が連続した場合などでも点線を求める必要がある。
【0007】そこで、本発明の目的は、点の数が2個、3
個と少ない場合でもまた複数の種類の点線が連続した場
合でも少ない処理量でかつ高精度に点線を抽出できる点
線抽出方法を提供することにある。
【0008】
【課題を解決するための手段】第1の観点では、画像中
に含まれる直線状の点線を抽出する点線抽出方法におい
て、画像を入力し、該画像から黒ランデータを生成し、
該黒ランデータから黒連結成分を求める。また入力した
画像から白ランデータを生成し、背景を構成する不要な
白ランを除去することで必要な白ランを求め、該白ラン
データから白連結成分を求める。そして文字や記号を構
成する不要な白連結成分をマージし除去することで必要
な白連結成分を求め、該白連結成分に対し、(垂直成分
が重なり)かつ(水平方向の間隔がp4未満あるいは以下)
である白連結成分をマージし、直線状の矩形である白連
結成分を求める。そして既に求めた黒連結成分と先に求
めた白連結成分から各黒連結成分が属する点線候補を求
め、各点線候補に含まれる黒連結成分の集合に対し、黒
連結成分の個数がN以上の集合を点線として、該点線に
含まれる黒連結成分を包含する領域を求めることを特徴
とする点線抽出方法を提供する。
【0009】第2の観点では、画像を縮小することを特
徴とする点線抽出方法を提供する。
【0010】第3の観点では、入力画像から白ランデー
タを生成し、閾値p1未満あるいは以下の白ランを求める
ことを特徴とする点線抽出方法を提供する。
【0011】第4の観点では、白ランデータから白連結
成分を求め、(水平成分が重なり)かつ(垂直方向の間隔
がp2未満あるいは以下)である白連結成分をマージし、
マージした白連結成分に対し高さがp3以上あるいはより
大きい白連結成分を除去することを特徴とする点線抽出
方法を提供する。
【0012】第5の観点では、白連結成分の領域の両端
からp7ビット拡張した領域に存在する黒連結成分を求
め、同一の領域に属する黒連結成分を点線候補とするこ
とを特徴とする点線抽出方法を提供する。
【0013】第6の観点では、画像を垂直方向上下にq1
ビット膨張させることを特徴とする点線抽出方法を提供
する。
【0014】第1の観点による点線抽出方法では、画像
中に含まれる直線状の点線を抽出する点線抽出方法にお
いて、画像を入力し、該画像から黒ランデータを生成
し、該黒ランデータから黒連結成分を求める。また入力
した画像から白ランデータを生成し、背景を構成する不
要な白ランを除去することで必要な白ランを求め、該白
ランデータから白連結成分を求める。そして文字や記号
を構成する不要な白連結成分をマージし除去することで
必要な白連結成分を求め、該白連結成分に対し、(垂直
成分が重なり)かつ(水平方向の間隔がp4未満あるいは以
下)である白連結成分をマージし、直線状の矩形である
白連結成分を求める。そして既に求めた黒連結成分と先
に求めた白連結成分から各黒連結成分が属する点線候補
を求め、各点線候補に含まれる黒連結成分の集合に対
し、黒連結成分の個数がN以上の集合を点線として求
め、該点線に含まれる黒連結成分を包含する領域を求め
る。
【0015】これにより、点間距離を用いないので、点
の数が2個、3個と少ない場合でも点線を抽出できる。そ
して同様な理由により、複数の種類の点線が連続した場
合でも点線を抽出できる。さらに、点候補の探索や接続
の判定を行ったり、ハフ変換を用いたりしないので、少
ない処理量で点線を抽出できる。
【0016】第2の観点による点線抽出方法では、画像
を縮小する。
【0017】これにより、処理対象のデータ量を低減し
高速な処理を行うことができる。
【0018】第3の観点による点線抽出方法では、入力
画像から白ランデータを生成し、閾値p1未満あるいは以
下の白ランを求める。
【0019】これにより、背景を構成する不要な白ラン
を除去し、点線に関する白ランを絞り込むことができ
る。
【0020】第4の観点による点線抽出方法では、白ラ
ンデータから白連結成分を求め、(水平成分が重なり)か
つ(垂直方向の間隔がp2未満あるいは以下)である白連結
成分をマージし、マージした白連結成分に対し高さがp3
以上あるいはより大きい白連結成分を除去する。
【0021】これにより、文字や記号を構成する不要な
白連結成分をマージし除去し、点線に関する白連結成分
を絞り込むことができる。
【0022】第5の観点による点線抽出方法では、白連
結成分の領域の両端からp7ビット拡張した領域に存在す
る黒連結成分を求め、同一の領域に属する黒連結成分を
点線候補とする。
【0023】これにより、点線候補を求めることができ
る。
【0024】第6の観点による点線抽出方法では、画像
を垂直方向上下にq1ビット膨張させることを特徴とする
点線抽出方法を提供する。
【0025】これにより、入力画像が傾いた場合でも点
線を求めることができる。
【0026】(実施例)本発明は点線の特徴「点間距離
は点線毎に異なるが、点の幅は点線の種類によらず同程
度の大きさである」を利用することで様々に表現された
直線状の点線を高速に抽出する。具体的には、画像から
白ランを求め、背景や文字などを構成する不要な白ラン
を除去し、点(黒ラン)を白ランで塗りつぶす。これによ
り、棒状の白ランを生成し、これをラベリングすること
で棒状の塊と見なし、点間距離に依存せず様々な点線を
容易に抽出する。本発明は、点間距離の規則性を利用し
ないので、点の数が少ない場合でも、また複数種類の点
線が連続されて記述された場合でも点線を抽出する。さ
らに、ハフ変換や点間距離を利用した点候補の探索を行
なわないので、簡易な画像処理のみで点線を抽出するこ
とができ高速な処理を実現する。
【0027】以下、本発明を図面を用いて説明する。
【0028】図1は本発明の点線処理方法を実施する処
理フローを示す図である。101にて画像を入力する。以
下の処理では該画像もしくはこれを縮小処理した画像を
用いる。縮小処理は高速な処理を実現するために行な
う。次に、102にて処理対象となる画像から黒ランデー
タを求める。これはランを扱うことで処理対象の量を削
減し、高速な処理を実現する。次に、103にて102で求め
た黒ランに対しラベリングを行ない黒の塊である黒連結
成分を求める。101での縮小方法、102でのランデータを
求める方法および103でのラベリングの方法は画像処理
の基本処理として周知の方法である。
【0029】次に、104にて点線を決定する際の領域を
求める。具体的には、106から111の処理で行なわれる
が、104での処理の概要は先に述べた点線の特徴を利用
し点線の疑似的な領域となる棒状の白の塊(白連結成分)
を求める。
【0030】106にて、102で求めた黒ランデータから白
ランデータを生成する。次に、107にて背景の部分など
の長い白ランを除去する。これにより、不要な白ランを
除去し点間の白ランを絞り込む。本処理の詳細は図3に
て説明する。本処理の結果の例を図4に示す。401から分
かるように、文字や記号などにより不要な白ランが多数
存在する。そのため、以下の処理でこれらの不要な白ラ
ンを除去し、点線の疑似領域を求める。108にて先に求
めた白ランに対しラベリングを行ない白の塊である白連
結成分を求める。次に、109にて文字や記号などを構成
している不要な白連結成分を除去する。本処理の詳細は
図5にて説明する。これは文字の内部に存在する複数の
水平成分が重なる白連結成分をマージし除去すること
で、不要な白連結成分を除去し、一つの棒状の白の塊と
しての抽出精度を高める。次に、110にて精選された
白連結成分に対し、水平方向にスムージングを行ない点
線を構成する個々の白連結成分を一つの棒状の塊とす
る。本処理の詳細は図6にて説明する。次に、111にて
点線の概形「細長い棒状」を利用することで、110で求
めた白連結成分から適切な棒状の白連結成分を選択す
る。本処理の詳細は図7にて説明する。
【0031】次に、105にて、103で求めた黒連結成分と
111で求めた点線候補の疑似的な領域により、点線を求
める。本処理の詳細は図8、9、10を用いて説明する。
【0032】次に、107の処理について図3を用いて説明
する。まず白ランデータを入力する(301)。次に、白ラ
ンデータの回数だけ303と304を繰り返す(302)。303では
扱う白ランの長さがp1未満か否かを判定する。そしてp1
未満の白ランを登録する(304)。これにより、背景の部
分などの不要な白ランを除去する。
【0033】次に、109の処理について図5を用いて説明
する。図4から分かるように、文字等を構成する白連結
成分は水平成分が重なりかつ垂直方向の間隔が近接して
いる。そのため、502により文字等を構成する白連結成
分をマージし、その高さがp3以上のものを除去する。ま
ず白連結成分を入力する(501)。次に、(x成分が重なり)
かつ(y方向の間隔がp2以下)の連結成分を求めそれらを
マージする(502)。そしてマージ処理後の白連結成分数
回504と505を繰り返す(503)。次に、504にて白連結成分
の高さがp3未満か否かを判定する(504)。そしてp3未満
の白連結成分を登録する(505)。これにより、文字の部
分などの不要な白ランを除去する。
【0034】次に、110の処理について図6を用いて説明
する。図4から分かるように、点線を構成する白連結成
分は垂直成分が重なりかつ水平方向の間隔が近接する。
そのため、点線を構成する白連結成分をマージしスムー
ジングすることで、点線部分の棒状の白連結成分を抽出
する。まず白連結成分を入力する(601)。次に、(垂直成
分が重なり)かつ(水平方向の間隔がp4以下)の白連結成
分をマージする(602)。そして処理結果を登録する(60
3)。
【0035】次に、111の処理について図7を用いて説
明する。まず登録した白連結成分を入力する(701)。次
に、白連結成分の回数だけ703と704を繰り返す(702)。7
03では(白連結成分の高さがp5未満)かつ(白連結成分の
幅がp6より大きい)白連結成分か否かを判定する(703)。
そして条件を満たせば白連結成分の領域を点線候補疑似
領域として登録する(704)。これにより、点線の概形を
満たす白連結成分を抽出する。
【0036】次に、105の処理について図8、9、10を用
いて説明する。111にて点線候補の疑似領域が求められ
る。105ではこれに属する103で求めた黒連結成分を割り
当て確認処理を行うことで、点線を求める。図8の801の
ように802の間隔がパラメータp1未満の場合、黒連結成
分は全て点線候補疑似領域803に包含される。一方、図8
の804のように805の間隔がパラメータp1以上の場合、黒
連結成分807が点線候補疑似領域806に隣接することにな
り、点線を構成する黒連結成分は必ずしも点線候補疑似
領域内に存在しない。そのため、点線候補疑似領域内に
存在しない黒連結成分を取り込む処理を図9を用いて説
明する。まず点線候補疑似領域を入力する(901)。次
に、黒連結成分を入力する(902)。次に、黒連結成分の
回数だけ904と905を繰り返し行う(903)。904では点線候
補疑似領域をその両端からp7ビット拡張した領域内に黒
連結成分が存在するか否かを判定する(904)。そして領
域内に存在すれば当該領域の黒連結成分として登録する
(905)。
【0037】次に、905で登録された黒連結成分に対
し、点線として見なされるものを選び出し、点線の領域
を求める処理を図10を用いて説明する。まず点線候補疑
似領域数を入力する(1001)。次に、各点線候補疑似領域
に属する黒連結成分を入力する(1002)。次に、点線疑似
領域数回だけ1004、1005、1006を繰り返し行う(1003)。
1004では同一の点線候補疑似領域に属する黒連結成分数
がN個以上か否かを判定する(1004)。そしてN個以上の場
合、点線と見なし、その領域に属する黒連結成分から点
線の領域を求める(1005)。そして点線の領域を格納する
(1006)。
【0038】
【発明の効果】本発明の点線抽出方法によれば、点間距
離を用いないので、点の数が2個、3個と少ない場合でも
また複数の種類の点線が連続した場合でも点線を抽出で
き、さらに、点候補探索やその接続判定、あるいはハフ
変換を用いないので、少ない処理量で点線を抽出でき
る。従って、様々な直線状の点線を高速かつ高精度に抽
出できる。
【図面の簡単な説明】
【図1】本発明の一実施例の点線抽出方法を示す図であ
る。
【図2】点間距離が異なる点線また複数の種類の点線が
連続して記述された例を示す図である。
【図3】白ラン候補抽出の方法を示す図である。
【図4】白ラン候補を抽出した例を示す図である。
【図5】不要な白連結成分を除去する方法を示す図であ
る。
【図6】白連結成分をスムージングする方法を示す図で
ある。
【図7】点線候補となる疑似領域を抽出する方法を示す
図である。
【図8】点線候補疑似領域と黒連結成分との関係を示す
図である。
【図9】点線候補を求める方法を示す図である。
【図10】点線候補から点線を選択する方法を示す図で
ある。
【符号の説明】
101:画像入力 102:黒ランデータ生成 103:ラベリング(黒連結成分) 104:点線疑似領域抽出 105:点線選択 106:白ランデータ生成 107:白ラン候補抽出 108:ラベリング(白連結成分) 109:不要白連結成分除去 110:白連結成分スムージング 111:点線候補疑似領域抽出。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 中島 和樹 東京都国分寺市東恋ケ窪一丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 杉本 建行 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレ−ジシステム事業部内 (72)発明者 羽田野 英一 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレ−ジシステム事業部内

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】画像中に含まれる直線状の点線を抽出する
    点線抽出方法において、画像を入力する第1の手段と、
    第1の手段により得た画像から黒ランデータを生成する
    第2の手段と、該黒ランデータから黒連結成分を求める
    第3の手段と、第1の手段により得た画像から白ランデー
    タを生成し、背景を構成する不要な白ランを除去するこ
    とで必要な白ランを求める第4の手段と、該手段により
    求めた白ランデータから白連結成分を求め、文字や記号
    を構成する不要な白連結成分をマージし除去することで
    必要な白連結成分を求める第5の手段と、該手段により
    求めた白連結成分に対し、(垂直成分が重なり)かつ(水
    平方向の間隔がp4未満あるいは以下)である白連結成分
    をマージする第6の手段と、該手段によりマージした白
    連結成分に対し、直線状の矩形である白連結成分を求め
    る第7の手段と、第3の手段により求めた黒連結成分と第
    7の手段により求めた白連結成分から、各黒連結成分が
    属する点線候補を求める第8の手段と、第8の手段により
    求めた各点線候補に含まれる黒連結成分の集合に対し、
    黒連結成分がN個以上の集合を点線として求め、該点線
    に含まれる黒連結成分を包含する領域を求める第9の手
    段を有することを特徴とする点線抽出方法。
  2. 【請求項2】請求項1において、請求項1第1の手段とし
    て、入力した画像を縮小する手段を用いることを特徴と
    する点線抽出方法。
  3. 【請求項3】請求項1において、請求項1第4の手段とし
    て、請求項1第1の手段により得た画像から白ランデータ
    を生成し、閾値p1未満あるいは以下の白ランを求めるこ
    とを特徴とする点線抽出方法。
  4. 【請求項4】請求項1において、請求項1第5の手段とし
    て、請求項1第4の手段により求めた白ランデータから白
    連結成分を求め、(水平成分が重なり)かつ(垂直方向の
    間隔がp2未満あるいは以下)である白連結成分をマージ
    する手段と、該手段によりマージした白連結成分に対し
    高さがp3以上あるいはより大きい白連結成分を除去する
    手段を有することを特徴とする点線抽出方法。
  5. 【請求項5】請求項1において、請求項1第8の手段とし
    て、請求項1第7の手段により求めた白連結成分の領域の
    両端からp7ビット拡張した領域に存在する請求項1第3の
    手段により求めた黒連結成分を求め、同一の領域に属す
    る黒連結成分を点線候補とすることを特徴とする点線抽
    出方法。
  6. 【請求項6】請求項1第1の手段において、請求項1第1あ
    るいは請求項2の手段で得られた画像を垂直方向上下にq
    1ビット膨張させる手段を有することを特徴とする点線
    抽出方法。
JP28793196A 1996-10-30 1996-10-30 認識辞書自動生成方法 Pending JPH10134180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28793196A JPH10134180A (ja) 1996-10-30 1996-10-30 認識辞書自動生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28793196A JPH10134180A (ja) 1996-10-30 1996-10-30 認識辞書自動生成方法

Publications (1)

Publication Number Publication Date
JPH10134180A true JPH10134180A (ja) 1998-05-22

Family

ID=17723591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28793196A Pending JPH10134180A (ja) 1996-10-30 1996-10-30 認識辞書自動生成方法

Country Status (1)

Country Link
JP (1) JPH10134180A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176414A (ja) * 2009-01-29 2010-08-12 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176414A (ja) * 2009-01-29 2010-08-12 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
JP4706764B2 (ja) * 2009-01-29 2011-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8805076B2 (en) 2009-01-29 2014-08-12 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer readable medium

Similar Documents

Publication Publication Date Title
JP3086702B2 (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
JP4112968B2 (ja) ビデオテキスト処理装置
JP3308032B2 (ja) スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置
US9098581B2 (en) Method for finding text reading order in a document
CN113343658B (zh) 一种pdf文件信息抽取方法、装置以及计算机设备
Modi et al. Text line detection and segmentation in Handwritten Gurumukhi Scripts
JPH10134180A (ja) 認識辞書自動生成方法
JPH05334490A (ja) 表認識装置
Ymin et al. On the segmentation of multi-font printed Uygur scripts
Boudraa et al. An efficient cooperative smearing technique for degraded historical document image segmentation
CN112836510A (zh) 一种产品图片文字识别方法和系统
CN108764155B (zh) 一种手写维吾尔文单词切分识别方法
Thongkanchorn et al. Thai character segmentation in handwriting images using four directional depth first search
JPH0410671B2 (ja)
JP2968284B2 (ja) 文字認識装置およびその文字領域分離方法
JPH02171977A (ja) 線分と接触した文字の切出し方法
JP2002297638A (ja) 文書画像からのタイトル抽出方法
JPH06176142A (ja) 図面自動入力装置の輪郭ベクトル化方法
JP3666903B2 (ja) 画像処理方法および装置
JPH05159062A (ja) 文書認識装置
Ramdan et al. Segmentation of Arabic VVords Using Area Voronoi Diagrams and Neighbours Graph
JPH11338975A (ja) 文字切り出し処理方式および文字切り出し処理プログラムを記録した記録媒体
Wei et al. Word spotting application in historical Mongolian document images
CN117152458A (zh) 一种基于行程编码的连通域快速提取方法及系统
JPH0746363B2 (ja) 図面読取装置