JPH0554189A - 画像情報処理装置 - Google Patents

画像情報処理装置

Info

Publication number
JPH0554189A
JPH0554189A JP3217096A JP21709691A JPH0554189A JP H0554189 A JPH0554189 A JP H0554189A JP 3217096 A JP3217096 A JP 3217096A JP 21709691 A JP21709691 A JP 21709691A JP H0554189 A JPH0554189 A JP H0554189A
Authority
JP
Japan
Prior art keywords
pattern
ruled line
vector
segment
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3217096A
Other languages
English (en)
Inventor
Jun Yoshino
順 吉野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP3217096A priority Critical patent/JPH0554189A/ja
Publication of JPH0554189A publication Critical patent/JPH0554189A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【目的】 線分と画像が重畳するパタンから画像パタン
の領域を抽出する際に、画像パタンの欠落を最小限に
し、かつノイズの少ない画像を得ること。 【構成】 線分と画像が重畳するパタンから画像パタン
の領域を抽出する画像情報処理装置において、前記線分
の始点及び終点を表すベクトルデータを抽出する手段
と、該ベクトルデータをベクトルと垂直方向のランの隣
接関係を着目としてトレースする手段と、トレースしな
がら前記線分パタンを消去していく手段と、局所的に線
分パタンの太さが変化したときにその消去を回避し、画
像パタンの欠落を防ぐ手段とを具備したことを特徴とす
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、画像情報処理装置に関
し、特に、線分と画像が重畳する線分・画像重畳パタン
(罫線と文字が重畳する文書画像等)からの画像パタン
(文字パタン等)を抽出する画像情報処理装置(罫線・
文字重畳パタン分離装置)に関するものである。
【0002】
【従来の技術】文書画像中から文字パタンを抽出する
際、黒連結特徴を用いる方法が一般的である。しかし、
例えば、罫線と文字が重畳した文書画像の場合、罫線パ
タンと文字パタンの黒画素が連結しているために、文字
パタンのみを抽出することは不可能である。よって、こ
れらに対処するための前処理として、罫線・文字パタン
の分離が必要となる。従来手法として、文字パタンと罫
線パタンが接触する境界で強制的に分離する方法があ
る。また、罫線に着目して罫線パタンを消去した後、文
字パタンを抽出する方法がある。
【0003】
【発明が解決しようとする課題】しかしながら、前記強
制的に分離する従来手法では、罫線を突き抜けた文字パ
タン部分は無視され、文字パタンの欠落が生じる。
【0004】また、前記罫線パタンを消去してから黒連
結特徴を用いて文字パタンを抽出する従来手法では、文
字パタン中の黒画素が罫線の前後で分離してしまうた
め、黒連結特徴を用いて文字パタンの領域を決定する
時、分離した部分の統合処理が必要となる。
【0005】また、分離部分の欠落したパタンの整形処
理を施す必要もあるが、一旦分離した文字パタンの欠落
した画素の再生は難しく、処理の副作用により文字パタ
ンを劣化させ、文字認識に悪影響をおよぼす可能性があ
る。また、消去方法によっては、消去しきれなかった罫
線パタンがノイズとなって残る場合もある。
【0006】本発明は、前記問題点を解決するためにな
されたものであり、本発明の目的は、線分と画像が重畳
するパタンから画像パタンの領域を抽出する際に、画像
パタンの欠落を最小限にし、かつノイズの少ない画像を
得ることが可能な技術を提供することにある。
【0007】本発明の他の目的は、罫線と文字が重畳す
る文書画像から文字パタンの領域を抽出する際に、文字
パタンの欠落を最小限にし、かつノイズの少ない画像を
得ることが可能な技術を提供することにある。
【0008】本発明の前記ならびにその他の目的と新規
な特徴は、本明細書の記述及び添付図面によって明らか
になるであろう。
【0009】
【課題を解決するための手段】前記目的を達成するため
に、本発明は、線分と画像が重畳するパタンから画像パ
タンの領域を抽出する画像情報処理装置において、前記
線分の始点及び終点を表すベクトルデータを抽出する手
段と、該ベクトルデータをベクトルと垂直方向のランの
隣接関係に着目してトレースする手段と、トレースしな
がら前記線分パタンを消去していく手段と、局所的に線
分パタンの太さが変化したときにその消去を回避し、画
像パタンの欠落を防ぐ手段とを具備したことを最も主要
な特徴とする。
【0010】また、罫線と文字が重畳する文書画像から
文字パタンの領域を抽出する罫線・文字重畳パタン分離
装置において、前記罫線の始点と終点を表すベクトルデ
ータを抽出する手段と、該ベクトルデータをベクトルと
垂直方向のランの隣接関係に着目してトレースする手段
と、トレースしながら罫線パタンを消去していく手段
と、局所的に線分パタンの太さが変化したときにその消
去を回避し、文字パタンの欠落を防ぐ手段とを具備した
ことを特徴とする。
【0011】
【作用】前述の手段によれば、最初に線分をベクトルデ
ータとして抽出し、そのベクトルデータの長さ等の対象
依存情報と照合することにより、例えば、簡単に罫線の
ベクトルを選択することができるため、誤った罫線以外
のベクトルデータの消去を避けることができる。また、
ベクトルデータをベクトルと垂直方向のランの隣接関係
に着目してトレースすることにより、近傍にある文字パ
タンを罫線のパタンと誤って消去することを回避するこ
とができる。また、ベクトルデータをベクトル方向にト
レースしながら、罫線パタンをトレース方向と垂直に1
ラインずつ消去するため、罫線の太さが微妙に変化して
も罫線境界部分にノイズを残さず綺麗に消去することが
できる。また、罫線の太さの変化により罫線パタンの消
去をスキップするため、文字パタンに食い込んで消去す
ることを避けることが可能である。これらにより、ノイ
ズが少なく、かつ欠落の少ない文字パタンを抽出するこ
とができる。
【0012】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。
【0013】図1は、本発明の画像情報処理装置を罫線
・文字重畳パタン分離装置に適用した一実施例の概略構
成を示すブロック図、図2は、図1の罫線・文字重畳パ
タン分離機能システムの構成を示すブロック図である。
図1において、1は演算処理装置(CPU)、2は内部
メモリであり、例えば、半導体LSIメモリからなる汎
用メモリである。3は線分特徴格納メモリ、4は入力画
像格納メモリ、5は出力画像格納メモリであり、例え
ば、磁気ディスク、磁気テープ等からなる外部メモリで
ある。
【0014】図2において、11は罫線ベクトル抽出
部、12は罫線パタン消去部、13は対象依存情報、1
4は線分ベクトル、15は文書原画像、16は罫線消去
後の文書画像である。前記罫線ベクトル抽出部11では
対象依存のデータベースを参照することにより、文書画
像から抽出された線分ベクトルデータ中から罫線を構成
する線分ベクトルが選択される。罫線パタン消去部12
では、罫線ベクトル抽出部11で選択された線分ベクト
ル(罫線ベクトル)をトレースしながら文書画像中の罫
線パタンを消去する。前記対象依存情報13は汎用メモ
リに格納され、線分ベクトル14は、線分特徴格納メモ
リ3(図1)に格納される。文書原画像15は入力画像
格納メモリ4(図1)に格納される。罫線消去後の文書
画像16は出力画像格納メモリ5(図1)に格納され
る。
【0015】前記線分ベクトル14は、線分の始点と終
点で定義され、その始点と終点の各ベクトルデータの一
例を図3に示し、その線分ベクトル14の対象依存情報
の一例を図4に示す。図3及び図4において、x1,y1
は線分の始点の座標、x2,y2は線分の終点の座標、α
1,αy1は前記始点からの差分、αx2,αy2は前記
終点からの差分である。
【0016】本実施例の罫線・文字重畳パタン分離装置
による罫線・文字重畳パタン分離の処理手順は、図5
(罫線・文字重畳パタン分離処理手順を示すフローチャ
ート)に示すように、文書画像中から線分をベクトルデ
ータとして抽出する(ステップ101)。次に、線分ベ
クトルと対象依存情報を照合し、罫線ベクトルを決定し
(ステップ102)、罫線ベクトルの始点を着目点(対
象)座標とする(ステップ103)。次に、罫線パタン
垂直方向1ラインを消去し(ステップ104)、着目点
(対象)座標と罫線ベクトルの終点とを照合して真(tr
ue)であるか否かをチェックする(ステップ105)。
そのチェックが真(true:罫線ベクトルの終点)であれ
ば、処理は終了し、真でなければ(false:罫線ベクト
ルの終点でない)、着目点(対象)座標を罫線ベクトル
方向へ1画素進ませて(ステップ106)、ステップ1
04に戻す。
【0017】前記ステップ104の処理手順は、図6
(ステップ104の処理手順を示すフローチャート)に
示すように、罫線ベクトルの始点から終点の方向へ処理
着目点(対象点)の座標を移動する。ある着目点(対象
点)の座標において、着目点の罫線ベクトルと重なる文
書画像中の画素が黒か否かをチェックし(ステップ20
1)、画素が黒の時、ベクトル方向と垂直に、画素が白
になるまで両方向にトレースし、黒画素ランを抽出する
(ステップ202)。また、罫線ベクトルと重なる文書
画像中の画素が白の時、罫線ベクトルと垂直方向にトレ
ースし、着目点座標と最も近い黒画素ランを抽出する
(ステップ203)。ここで、初回のラン消去以降は、
ランの長さの条件に加えて前回消去された垂直方向のラ
ンとのオーバーラップも条件としてチェックし(ステッ
プ204)、この条件ともマッチした場合に限りラン消
去を行う(以上図7参照)。
【0018】・オーバーラップしているか (REi−RSe)*(RSi−REe)≦0 RSi:着目点の座標のランの始点 REi:着目点の座標のランの終点 RSe:前回に消去したランの始点 REe:前回に消去したランの終点 但し、始点と終点の値は罫線ベクトルと垂直方向の座標
値 ・どのぐらいの長さにわたってオーバーラップしている
か RO≧C1 RO:着目点座標のランと前回に消去したランとのオー
バーラップしている長さ C1:定数 そして、抽出されたランを以下の条件と照合することに
より、罫線パタンの一部であるかの判定を行う(ステッ
プ207)。
【0019】・RLi≦C3 RLi:着目点(対象点)座標のランの長さ C3:定数 条件にマッチした場合は、ランの始点終点(罫線境界)
座標を記憶して、罫線境界座標間の画素を白に変更(ラ
ン消去)し(ステップ208)、罫線ベクトルの終点の
方向へ1画素進む。前記ステップ204において、マッ
チしない場合は、更に垂直方向へ進み条件にマッチする
ランを見つける(ステップ205)。ある一定幅中に条
件にマッチしたランが見つからない場合(ステップ20
6)は、消去を行わずに罫線ベクトルの方向へ1画素ス
キップする。罫線ベクトルと垂直方向の各ラインに対し
て同様に繰り返し、罫線ベクトルの方向の終点まで処理
を行う(図5のステップ105)。
【0020】以上の説明からわかるように、本実施例に
よれば、最初に線分をベクトルデータとして抽出し、そ
のベクトルデータの長さ等の対象依存情報と照合するこ
とにより、簡単に罫線のベクトルを選択することができ
るので、誤った罫線以外のベクトルデータの消去を避け
ることができる。
【0021】また、ベクトルデータをベクトルと垂直方
向のランの隣接関係に着目してトレースすることによ
り、近傍にある文字パタンを罫線のパタンと誤って消去
することを回避することができる。
【0022】また、ベクトルデータをベクトル方向にト
レースしながら、罫線パタンをトレース方向と垂直に1
ラインずつ消去するので、罫線の太さが微妙に変化して
も罫線境界部分にノイズを残さず綺麗に消去することが
できる。
【0023】また、罫線の太さの変化により罫線パタン
の消去をスキップするため、文字パタンに食い込んで消
去することを避けることが可能である。これらにより、
ノイズが少なく、かつ欠落の少ない文字パタンを抽出す
ることができる。
【0024】前記実施例では、罫線・文字重畳パタン分
離装置に本発明を適用した例で説明したが、本発明は、
線分と画像パタンとが重なる種々の重畳パタンから画像
パタンを分離する情報処理装置に適用できることは前記
説明から明らかである。
【0025】また、前記実施例では、線分の始点と終点
を照合することにより、罫線ベクトルを決定する手法を
用いたが、線分で囲まれた矩形の大きさを照合すること
により、その矩形を構成する線分を罫線ベクトルと決定
する手法等の他の手法を用いてもよい。
【0026】以上、本発明を実施例にもとづき具体的に
説明したが、本発明は、前記実施例に限定されるもので
はなく、その要旨を逸脱しない範囲において種々変更可
能であることは言うまでもない。
【0027】
【発明の効果】以上説明したように、本発明によれば、
線分と画像パタンとが重なる種々の重畳パタンから画像
パタンをノイズが少なく、かつ欠落の少ない、品質の良
い画像パタンを抽出することができる。
【0028】また、罫線と文字とが重畳した文書画像か
ら、ノイズが少なく、かつ欠落の少ない、品質の良い文
字パタンを抽出することができる。
【図面の簡単な説明】
【図1】 図1は、本発明の画像情報処理装置を罫線・
文字重畳パタン分離装置に適用した一実施例の概略構成
を示すブロック図、
【図2】 図2は、図1の罫線・文字重畳パタン分離機
能システムの構成を示すブロック図、
【図3】 本実施例の線分ベクトルの始点と終点の各ベ
クトルデータの一例を示す図、
【図4】 本実施例の線分ベクトルの対象依存情報の一
例を示す図、
【図5】 本実施例の罫線・文字重畳パタンから文字パ
タンを分離する処理手順を示すフローチャート、
【図6】 本実施例の罫線パタン垂直方向1ラインを消
去する処理手順を示すフローチャート、
【図7】 本実施例の罫線パタン消去の実施例を説明す
るための図。
【符号の説明】
1…演算処理装置(CPU)、2…内部メモリ、3…線
分特徴格納メモリ、4…入力画像格納メモリ、5…出力
画像格納メモリ、11…罫線ベクトル抽出部、12…罫
線パタン消去部、13…対象依存情報、14…線分ベク
トル、15…文書原画像、16…罫線消去後の文書画
像。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 線分と画像が重畳するパタンから画像パ
    タンの領域を抽出する画像情報処理装置において、前記
    線分の始点及び終点を表すベクトルデータを抽出する手
    段と、該ベクトルデータをベクトルと垂直方向のランの
    隣接関係に着目してトレースする手段と、トレースしな
    がら前記線分パタンを消去していく手段と、局所的に線
    分パタンの太さが変化したときにその消去を回避し、画
    像パタンの欠落を防ぐ手段とを具備したことを特徴とす
    る画像情報処理装置。
  2. 【請求項2】 罫線と文字が重畳する文書画像から文字
    パタンの領域を抽出する罫線・文字重畳パタン分離装置
    において、前記罫線の始点と終点を表すベクトルデータ
    を抽出する手段と、該ベクトルデータをベクトルと垂直
    方向のランの隣接関係に着目してトレースする手段と、
    トレースしながら罫線パタンを消去していく手段と、局
    所的に線分パタンの太さが変化したときにその消去を回
    避し、文字パタンの欠落を防ぐ手段とを具備したことを
    特徴とする罫線・文字重畳パタン分離装置。
JP3217096A 1991-08-28 1991-08-28 画像情報処理装置 Pending JPH0554189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3217096A JPH0554189A (ja) 1991-08-28 1991-08-28 画像情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3217096A JPH0554189A (ja) 1991-08-28 1991-08-28 画像情報処理装置

Publications (1)

Publication Number Publication Date
JPH0554189A true JPH0554189A (ja) 1993-03-05

Family

ID=16698783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3217096A Pending JPH0554189A (ja) 1991-08-28 1991-08-28 画像情報処理装置

Country Status (1)

Country Link
JP (1) JPH0554189A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859929A (en) * 1995-12-01 1999-01-12 United Parcel Service Of America, Inc. System for character preserving guidelines removal in optically scanned text
WO2004088587A1 (ja) * 2003-03-28 2004-10-14 National Institute Of Information And Communications Technology, Independent Administrative Agency 画像処理方法及び画像処理装置
US8542931B2 (en) 2009-02-05 2013-09-24 Fuji Xerox Co., Ltd. Ruled line extraction technique based on comparision results and indentifying noise based on line thickness

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859929A (en) * 1995-12-01 1999-01-12 United Parcel Service Of America, Inc. System for character preserving guidelines removal in optically scanned text
WO2004088587A1 (ja) * 2003-03-28 2004-10-14 National Institute Of Information And Communications Technology, Independent Administrative Agency 画像処理方法及び画像処理装置
US8542931B2 (en) 2009-02-05 2013-09-24 Fuji Xerox Co., Ltd. Ruled line extraction technique based on comparision results and indentifying noise based on line thickness

Similar Documents

Publication Publication Date Title
US10303968B2 (en) Method and apparatus for image recognition
JP4380838B2 (ja) ビデオ画像の道路標識自動認識方法及び道路標識自動認識装置並びに道路標識自動認識プログラム
JPWO2004051575A1 (ja) 特徴領域抽出装置、特徴領域抽出方法および特徴領域抽出プログラム
JP2007148677A (ja) 画像処理装置、画像処理方法
KR20110131949A (ko) 영상 처리 장치 및 방법
JP2005148906A (ja) 岸線抽出装置及び岸線抽出方法及びプログラムを記録したコンピュータ読み取り可能な記録媒体及びプログラム
JP2002203207A (ja) 文字認識方法,プログラム及び記録媒体
JPH10301948A (ja) 画像および映像検索方法
KR20110087620A (ko) 레이아웃 기반의 인쇄매체 페이지 인식방법
JPH0554189A (ja) 画像情報処理装置
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
JPH09322061A (ja) 画像合成装置
CN112364835A (zh) 视频信息取帧方法、装置、设备及存储介质
JP3090070B2 (ja) 帳票識別方法及び装置
JP2009048499A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JP4064068B2 (ja) 画像処理装置と画像処理方法及び記録媒体
JPH1021403A (ja) 対応点抽出方法及び装置
JPH1139477A (ja) 対応点探索装置
JP3585143B2 (ja) 文字列抽出方法および装置
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2821303B2 (ja) 掠れ文字結合方式
JPH10134144A (ja) 図面の認識方法
JP2005352623A (ja) パターン照合装置、画像品質検証方法及び画像品質検証プログラム
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 7

Free format text: PAYMENT UNTIL: 20090517

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100517

Year of fee payment: 8

FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 9

Free format text: PAYMENT UNTIL: 20110517

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120517

Year of fee payment: 10

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130517

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees