JP2509992B2 - 分離文字の統合方式 - Google Patents

分離文字の統合方式

Info

Publication number
JP2509992B2
JP2509992B2 JP63284655A JP28465588A JP2509992B2 JP 2509992 B2 JP2509992 B2 JP 2509992B2 JP 63284655 A JP63284655 A JP 63284655A JP 28465588 A JP28465588 A JP 28465588A JP 2509992 B2 JP2509992 B2 JP 2509992B2
Authority
JP
Japan
Prior art keywords
character
bar
net
extracted
nets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63284655A
Other languages
English (en)
Other versions
JPH02129781A (ja
Inventor
俊子 武田
英雄 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63284655A priority Critical patent/JP2509992B2/ja
Publication of JPH02129781A publication Critical patent/JPH02129781A/ja
Application granted granted Critical
Publication of JP2509992B2 publication Critical patent/JP2509992B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔概要〕 図面入力装置における文字の切り出しに関し、 任意の方向に書かれた分離文字を正確に統合すること
を目的とし、 入力された図面のベクトルデータ中から接続している
ベクトルの独立した集合であるネットを抽出し、予め定
めた最大値以下で予め定めた最小値以上の長さを有する
直線と見なされるベクトルをバーとして抽出するバー抽
出手段と、該バー抽出手段により抽出されたバーから予
め定めた範囲内に在る、最大文字サイズ以下のネットを
探索するネット探索手段と、該ネット探索手段により探
索されたネットが三個以上のとき前記バーに近い方から
二つを選択するネット選択手段と、前記抽出されたバー
と二つ以内のネットとを統合した外接枠の大きさが予め
定めた最大文字サイズ以内であるとき一文字として統合
する文字統合手段と、を備え、ベクトルデータ中に在る
複数のネットからなる分離文字を一つの文字に統合し、
任意方向の文字列切り出し処理に対して、文字統合結果
を渡すよう構成する。
〔産業上の利用分野〕
本発明は図面入力装置における文字の切り出しに係
り、特に分離文字の統合方式に関する。
図面入力装置は、入力された図面の画像データから線
分、シンボル(回路記号等)および文字列を抽出し、認
識してコードデータとして格納する。この際、図面中の
文字列には、横方向、縦方向の他に斜め方向のものもあ
り、また、文字には黒画素のかたまりが複数個分離して
一文字を構成するものもあり、これらを正確に切り出す
ことが要求される。
〔従来の技術〕
図面入力装置においては、光学スキャナにより読み取
った画像データをアナログ/ディジタル変換し、画素毎
の二値化データとした後、黒画素を連ねたベクトルデー
タに変換し、このベクトルデータを元として以後の処理
を行う方式を採るのが一般的である。即ち、黒画素の連
なりが一定の許容範囲内で同一方向ならば、その始点座
標と終点座標を持つベクトルとして抽出する。図面内の
画像は、一定値以下の孤立黒画素は雑音として除去さ
れ、その他はベクトルの連なり、または孤立ベクトルと
して記述される。
或る一定の長さL以上のベクトルに連なるベクトルは
線分として抽出される。或る一定の大きさS以内のサイ
ズを持ち、或る一定の大きさC以上の接続しているベク
トルの独立した集合(これをネットと呼ぶ)はシンボル
候補として抽出される。また、或る一定の大きさC以内
のネットは文字候補として抽出される。
従来、図面入力装置における文字列の抽出および分離
文字の統合は次のようにして行われていた。
第7図は、従来例による文字列抽出処理を示す図であ
る。図面内に使用される文字の種類は、数字、英大文字
および特定の符号に限定される。
第7図(a)は、処理の流れを示すフローチャートで
あり、処理は次のように行われる。
前記のようにしてベクトルデータから抽出された文
字候補を入力する。
未処理文字候補があるか識別され、無ければ処理を
終わり、有ればステップへ進む。
各文字候補の座標データ(ネットに外接する四辺形
の左上座標と右下座標)から、横方向に連なる文字候補
を抽出しその数をカウントする。即ち、基点となる(最
も左)文字候補から、x座標の近い文字候補を選び、同
図(b)に示すように、基点となる文字候補の高さhに
対して隣接する(間隔が一定値以内)文字候補との位置
のずれΔが閾値(h×係数α)内であれば、この文字候
補は連なっているとする。文字列の高さは両文字候補を
合わせた高さh"とされ、文字候補数がカウントされる。
ステップを90度回転させた処理、即ち文字候補の
幅wに対して、y軸方向のずれΔが閾値(w×係数β)
内で重なることにより、縦方向に連なる文字候補を抽出
し、その数をカウントする。
ステップで抽出した横方向文字候補数とステップ
で抽出した縦方向文字候補数を比較して、横方向文字
候補数が多いか同数であればステップへ進み、逆であ
ればステップへ進む。
横方向文字列として生成する。
縦方向文字列として生成する。
第8図は、従来例による分離文字統合処理を示す図で
ある。
第8図(a)は、処理の流れを示すフローチャートで
あり、処理は次のように行われる。
第7図の処理で抽出された文字列を入力する。
未処理の文字列があるか識別する。有ればステップ
へ進み無ければステップ処理を終わる。
文字列内に未処理の文字候補が有ればステップへ
進み、無ければステップへ戻る。
同一文字列内に文字列方向と直角方向に重なる文字
候補があるかを検索する。重なる文字候補とは、横方向
文字列ならばx座標、縦方向文字列であればy座標の重
なりのある文字候補のことである。
重なる文字候補があれば、ステップへ進み、無け
ればステップへ戻る。
同図(b)に示すように、重なる文字候補間で各領
域の最大、最小同士の差d(d1,d2のうちの大きい方)
が設定してある閾値内であるか識別する。閾値内であれ
ばステップへ進み、外であればステップへ戻る。
同一文字として統合する。
第8図(b)において、は、英数字における「ゼ
ロ」と「オー」の差別を明確にするため「オー」である
ことを示すためのアッパーラインを付けた文字であり、
しばしば用いられており、これは分離文字を構成する。
〔発明が解決しようとする課題〕
第9図は従来例により抽出された文字列を示し、上記
の従来技術によると、同図(b)に示すように、“−”
付きの“”のような文字は、“−”が文字列切り出し
領域から脱落し易く、“”と“O"を読み誤ってしまう
場合がしばしば生ずる。
また、文字列の方向を横と縦の方向に絞って処理を行
うため、領域座標値(領域の左上座標値と右下座標値で
領域を表す)をそのまま処理に用いることができるが、
第10図に示すような任意方向(斜め方向)の文字列に対
しては、同様な座標値計算は行えないので、任意方向の
切り出しは不可能であった。
本発明が解決しようとする課題は、このような従来の
問題点を解消した分離文字の統合方式を提供することに
ある。
〔課題を解決するための手段〕
第1図は、前述の課題を解決するための手段の原理を
示すブロック図である。
図において、1はバー抽出手段であり、ベクトルデー
タ中から予め定めた最大値以下で予め定めた最小値以上
の直線と話されるベクトルをバーとして抽出する。
2はネット探索手段であり、前記バー抽出手段1によ
り抽出されたバーから予め定められた範囲内にあるネッ
トを探索する。
3はネット選択手段であり、前記ネット探索手段2に
より探索されたネットが三個以上のとき前記バーに近い
方から二つを選択する。
4は文字統合手段であり、前記バーと前記ネット選択
手段3により選択されたネットとを統合した外接枠の大
きさが予め定めた最大文字サイズ以内であるとき一文字
として統合する。
(作用) 本発明が対象とする文字種は、図面内に使用される数
字、英大文字およひ特定の符号である。これらの文字種
では、分離文字は、“",“=",“%”等であり、すべ
て“−”(バー)が含まれている。本発明は、これに着
目し、文字列の切り出しの前に、まず“−”(バー)の
抽出を行って、文字の統合処理を行い、それから文字列
の切り出し処理を行うものである。
バー抽出手段1は、入力されたベクトルデータ中から
予め定めた最大値以下で予め定めた最小値以上の孤立ベ
クトルをバーとして抽出する。次いで、ネット探索手段
2は、抽出されたバーを基準に、その周辺に予め定めら
れた範囲内にあるネットを探索する。探索したネットが
三つ以上のときは、ネット選択手段3が近い方から二つ
を選択する。
文字統合手段4は、前記バーと探索されたネット(探
索されたネットが三つ以上のときはネット選択手段3に
より選択されたネット)とを統合して、文字候補とす
る。統合した後の文字サイズが予め定めた文字サイズ以
上になる場合は統合しない。
以上の文字統合処理の結果は、文字列の切り出し処理
に提供される。本方式によれば、任意の方向に文字列を
切り出す処理に使用することができる。また、文字列切
り出しの前に統合処理を行うことにより、“”のよう
な分離文字の“−”を脱落させることは少なくなる。
〔実施例〕
以下第2図〜第6図に示す実施例により、本発明をさ
らに具体的に説明する。
第2図は、本発明の一実施例である図面入力装置のシ
ステム構成を示す図である。
図において、10はスキャナであり、図面を光学的に走
査し画像情報を電気信号に変換する。
20は二値化部であり、電気信号をアナログ/ディジタ
ル変換し画素毎の二値化信号に変換する。
30はベクトル化処理部であり、二値化画像信号をベク
トルデータに変換する。
40は文字統合処理部であり、本発明による文字統合処
理を行う。
50は切り出し処理部であり、ベクトルデータおよび文
字統合処理結果からシンボル、文字、および文字列を切
り出す。
60は認識処理部であり、切り出されたシンボルおよび
文字の特徴を抽出し、辞書70と照合して認識する。
80は出力部であり、認識結果データおよび線分データ
図面データファイル90に格納する。
第3図は、本発明の一実施例による処理を示すフロー
チャートである。
第4図は、本実施例におけるバー抽出の際のバーの定
義を示し、第5図および第6図は、本発明の一実施例に
よる処理例を示す図である。
以下、第3図に示すフローチャートのステップに従っ
て本実施の動作を説明する。
ベクトルデータ中にバーがあるかを探索する。バー
の定義は、第4図に示すように、端点から端点までの長
さlが一定の長さ範囲にあり(L1>l≧L2)、偏りh/l
が0.1以内をバーと見なす。
バーが存在すればステップに進み、無ければ文字
統合処理を終わる。
バーの周辺に、第5図および第6図に破線で示すよ
うな探索範囲を文字サイズに応じて予め設定し、この範
囲でネットが存在するかを探索する。
ネットが存在すればステップへ進み、無ければ処
理を終わる。
ネットが三つ以上存在すれば、ステップへ進み、
二つ以内ならばステップへ飛ぶ。
バーに近い方から二つを選択する。
バーとステップまたはステップから送られたネ
ットを統合した外接枠を作る。
統合した外接枠の大きさが、第5図および第6図に
示すように、予め指定された最大文字サイズを超えるか
を調べる。超えなければステップへ進み、超えれば統
合を止め処理を終わる。
一文字として統合し、統合結果文字枠を文字切り出
しデータとして、次の切り出し処理に渡す。
〔発明の効果〕
以上説明のように本発明によれば、文字列の切り出し
処理においてバー(“−”)の脱落をぐことができ、誤
認識を減少させると共に、任意方向の文字列領域の切り
出し処理が可能となるという効果がある。
【図面の簡単な説明】
第1図は本発明の原理を示すブロック図、 第2図は本発明の一実施例のシステム構成を示す図、 第3図は本発明の一実施例による処理を示すフローチャ
ート、 第4図は本発明の一実施例におけるバーの定義を示す
図、 第5図および第6図は本発明の一実施例による処理例を
示す図、 第7図は従来例による文字列抽出処理を示す図、 第8図は従来例による分離文字統合処理を示す図、 第9図は従来例により抽出された文字列の例を示す図、 第10図は従来技術により抽出できない文字列例を示す図
である。 図面において、 1はバー抽出手段、2はネット探索手段、3はネット選
択手段、4は文字統合手段、10はスキャナ、20は二値化
処理部、30はベクトル化処理部、40は文字統合処理部、
50は切り出し処理部、60は認識処理部、70は辞書、80は
出力部、90は図面データファイル、 をそれぞれ示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された図面の二値化画像データをベク
    トルの集合として記述したベクトルデータに変換し、該
    ベクトルデータから線分、シンボルおよび文字列を切り
    出し、特徴を抽出して辞書と照合して認識し、コードデ
    ータとして格納する図面入力装置において、 入力された図面のベクトルデータ中から接続しているベ
    クトルの独立した集合であるネットを抽出し、予め定め
    た最大値以下で予め定めた最小値以上の長さを有する直
    線と見なされるベクトルをバーとして抽出するバー抽出
    手段(1)と、 該バー抽出手段(1)により抽出されたバーから予め定
    めた範囲内に在る、最大文字サイズ以下のネットを探索
    するネット探索手段(2)と、 該ネット探索手段(2)により探索されたネットが三個
    以上のとき前記バーに近い方から二つを選択するネット
    選択手段(3)と、 前記抽出されたバーと二つ以内のネットとを統合した外
    接枠の大きさが予め定めた最大文字サイズ以内であると
    き一文字として統合する文字統合手段(4)と、を備
    え、 ベクトルデータ中に在る複数のネットからなる分離文字
    を一つの文字に統合し、任意方向の文字列切り出し処理
    に対して、文字統合結果を渡すよう構成したことを特徴
    とする分離文字の統合方式。
JP63284655A 1988-11-10 1988-11-10 分離文字の統合方式 Expired - Lifetime JP2509992B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63284655A JP2509992B2 (ja) 1988-11-10 1988-11-10 分離文字の統合方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63284655A JP2509992B2 (ja) 1988-11-10 1988-11-10 分離文字の統合方式

Publications (2)

Publication Number Publication Date
JPH02129781A JPH02129781A (ja) 1990-05-17
JP2509992B2 true JP2509992B2 (ja) 1996-06-26

Family

ID=17681272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63284655A Expired - Lifetime JP2509992B2 (ja) 1988-11-10 1988-11-10 分離文字の統合方式

Country Status (1)

Country Link
JP (1) JP2509992B2 (ja)

Also Published As

Publication number Publication date
JPH02129781A (ja) 1990-05-17

Similar Documents

Publication Publication Date Title
EP0854434B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP2619429B2 (ja) 接触文字の分離方法
US4813078A (en) Character recognition apparatus
JP2006338578A (ja) 文字認識装置
JPS63182793A (ja) 文字切り出し方式
JP2509992B2 (ja) 分離文字の統合方式
JP2917427B2 (ja) 図面読取装置
JP3197441B2 (ja) 文字認識装置
JPH10198761A (ja) 文字認識方法および文字認識装置
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
Arias et al. Information extraction from telephone company drawings
Hu et al. Automatic reading of the white pages in a telephone directory
JPH0652358A (ja) 文字認識方法
Hu et al. Structural boundary feature extraction for printed character recognition
JP2797523B2 (ja) 図面続取装置
JP2794042B2 (ja) 表形式文書の認識装置
JPH08329191A (ja) 文字列切り出し方法
JP2578767B2 (ja) 画像処理方法
JP3027232B2 (ja) 文字認識装置
JPH04260980A (ja) 図形認識装置
JPH06150056A (ja) 表認識装置
JPH04280393A (ja) 文字図形認識装置
JPH05174185A (ja) 日本語文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH03189888A (ja) 図面読取装置における文字列の種類決定装置