JPH07104905B2 - 文字列抽出方法 - Google Patents

文字列抽出方法

Info

Publication number
JPH07104905B2
JPH07104905B2 JP62090795A JP9079587A JPH07104905B2 JP H07104905 B2 JPH07104905 B2 JP H07104905B2 JP 62090795 A JP62090795 A JP 62090795A JP 9079587 A JP9079587 A JP 9079587A JP H07104905 B2 JPH07104905 B2 JP H07104905B2
Authority
JP
Japan
Prior art keywords
line segment
character
character string
extracted
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62090795A
Other languages
English (en)
Other versions
JPS63257082A (ja
Inventor
繁 角本
一雄 渡辺
基 片岡
岩村  一昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62090795A priority Critical patent/JPH07104905B2/ja
Publication of JPS63257082A publication Critical patent/JPS63257082A/ja
Publication of JPH07104905B2 publication Critical patent/JPH07104905B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、図形と文字の混在する図面の中から、文字お
よび複数の文字からなる文字列を抽出する文字列抽出方
法に係り、特に文字と図形の重なり、あるいは、文字同
志が重なつた場合にも文字列の抽出が可能な文字列抽出
方法に関するものである。
〔従来技術〕
CADシステムの普及に伴ない、光電変換素子を備えた読
取装置を用いて図面情報を計算機へ自動的に入力するこ
とが試みられている。読取装置から計算機に入力された
図面情報の画像データつまりラスデータを線として認識
し、ベクトルデータに変換する線認識処理が研究されて
いる。
近年では、図形と同様にさらに文字や記号も認識するこ
とが要求され、文字や記号の認識処理の研究が行われる
ようになつた。
図面内の任意の位置に書かれた文字を認識するために
は、文字認識の前処理として図面情報から文字の情報だ
けを抽出する必要がある。
従来、例えば「情報処理学会第32回(昭和61年前期)全
国大会講演論文集4N−5」に記載された文字列抽出方法
が提案されている。
この方式は、まず図面情報の中で独立した線分群を囲む
矩形領域が予め設定された文字サイズ内のとき、その矩
形領域を文字領域として抽出する。その文字領域のデー
タは、線分群を囲む矩形の座標データと矩形内の線分群
の座標データとから構成されている。そして、図面情報
中の複数の文字領域の中から、所定の方向の所定の間隔
で並ぶ文字領域同志を連結して文字列を抽出していた。
〔発明が解決しようとする問題点〕
このような文字列抽出方法では、文字と文字あるいは文
字と図形が交差あるいは重なつた場合、その線分群は予
め設定された文字サイズより大きな線分群として認識さ
れるため、文字が図形とみなされ、抽出できない問題点
があつた。
本発明の目的は、前記問題点を鑑み、文字と文字あるい
は文字と図形が交差もしくは重なる場合にも文字列を抽
出することが可能な文字列抽出方法を提供することにあ
る。
〔問題点を解決するための手段〕
上記目的を解決するための本発明の構成を実施例に対応
する第1図および第2図を用いて説明する。
14は座標列データ記憶部で、図形と文字を構成する各線
分の座標と、これらの線分の中から文字候補となりうる
線分の座標を記憶する。15は制御・演算処理部で、座標
列データ記憶部14に接続され、図面情報の中から文字候
補となりうる線分の抽出と、これらの線分の配列から文
字列を抽出する。
〔作 用〕
以上の構成で、制御・演算処理部15は以下の処理を実行
する。
座標列データ記憶部14に記憶された図形と文字を構成す
る線分の中から、予め設定された文字サイズより短かい
線分を文字候補として抽出し、座標列データ記憶部14に
記憶させる。(第2図のステツプ21、以下第2図におけ
る各ステツプは、ステツプ○○と表示する)。
座標列データ記憶部14から最初に呼出した短かい線分を
基準として、その線分の周囲を囲む第1の抽出領域を設
定する(ステツプ22)。
少なくとも一部が第1の抽出領域内に含まれる未抽出の
線分を座標列データ記憶部14に記憶された短かい線分の
中から抽出する(ステツプ23)。
新に抽出した線分を含む方向に第1の抽出領域を拡張し
て、第2の抽出領域として設定する(ステツプ24)。
そして、前記拡張方向と垂直な方向に所定の長さで文字
列サイズを設定し、新たに抽出した線分を文字列サイズ
と比較する(ステツプ25)。
新たに抽出した線分が文字列サイズ内にあるとき、第2
の抽出領域内の線分を文字候補として抽出し、拡張され
た第2の抽出領域を新たな第1の抽出領域として設定す
る(ステツプ26)。
また、新たに抽出した線分の一部もしくは全部が文字列
サイズから突出しているとき、その線分を文字候補から
除外し、拡張前の第1の抽出領域をそのまま第1の抽出
領域として設定する(ステップ27)。
再び、少なくとも一部が第1の抽出領域内に含まれる他
の未抽出の線分を抽出する(ステツプ23)。
以後、第1の抽出領域に少なくとも一部が含まれる未抽
出の線分がなくなるまで、(ステツプ23)ないし(ステ
ツプ27)をくりかえし、第1の抽出領域内の線分群を文
字列として抽出する(ステツプ28)。
以上のように、文字を含む図面情報から、文字とみなさ
れる短かい線分を抽出し、文字列サイズ内の線分群の配
列から文字列を抽出できる。
〔実施例〕
以下、本発明の一実施例を第1図ないし第7図により説
明する。
第1図において、11は図面で、文字と図形が混在して書
かれている。12は走査入力部で、図面11から文字と図形
の図面情報を読取り、ラスタデータとして出力する。13
は画像処理部で、走査入力部12から前記ラスタデータが
入力されそのラスタデータをベクトル化する線認識処理
をほどこし、座標列データとして出力する。14は座標列
データ記憶部で、画像処理部で、画像処理部13から入力
された座標列データと、後述する制御・演算処理部から
入力される線分の座標列データを記憶する。15は制御・
演算処理部で、座標列データ記憶部14に接続され、座標
列データを呼出し、文字候補となる線分の座標列データ
を抽出し、座標列データ記憶部14に記憶させる。座標列
データ記憶部14から前記文字候補となる線分の座標列デ
ータを逐次呼出し、そのデータの中から文字列の抽出を
行う。16は文字列データ記憶部で、制御・演算処理部15
から入力された文字列のデータを記憶する。17は表示部
で、文字列データ記憶部16から入奥された文字列のデー
タをデイスプレイ(図示せず)に表示する。18は出力部
で、文字列データ記憶部16から入力はされた文字列のデ
ータを記憶媒体(図示せず)に出力する。
以上の構成で、走査入力部12は図面11を上下方向に走査
し、徐々に左から右へ移動することにより、図面11の全
体を図面情報としてもれなく読取る。
前記図面情報のデータを所定の閾値を基準に2値化し
て、線分のある部分のますめは黒レベル、線分のない部
分のますめは白レベルのドツトデータと判定し、第3図
(b)のより(b)のようなラスタデータとして画像処
理部13に出力する。
画像処理部13は線分の存在する黒レベルのドツトデータ
を線分の一部と認識して、一方向に黒レベルのドツトデ
ータが隣接し、その方向と反対方向に黒レベルのドット
データが隣接しない点Q1を端点として求める。その点Q1
に隣接する黒レベルのドットデータと同一方向に黒レベ
ルのドツトデータを順次追跡し、黒レベルのドツトデー
タがとぎれる点Q2を他方の端点として認識する。そし
て、第3図(c)のように線分Q1Q2として認識し、点
Q1,Q2を線分の始点とと終点の座標データ、つまりベク
トルデータとして座標例データ記憶部14に出力する。以
下同様に線分Q2Q3とQ4Q5をベクトルデータとして座標列
データ記憶部14に出力する。
座標列データ記憶部14には、画像処理部13から入力され
るベクトルデータの始点と終点が、第1表のように座標
列データとして記憶される。
制御・演算処理部15は、座標列データ記憶部14より逐次
前記座標列データを呼出し、予め設定された文字サイズ
より短かい線分を抽出し、抽出した線分の始点と終点の
座標データを座標列データ記憶部14へ戻し、再度記憶さ
せる。例えば第4図(a)において、四角形EFGHを予め
設定された文字サイズとすれば、線分Q1Q2の場合、|x2
−x1|<|x11−x0|,|y2−y1|<|y11−y0|となるので抽出
対象の線分Q1Q2として抽出する。(第2図のステツプ2
1,以下第2図における各ステツプは、ステツプ○○と表
示する)。
制御・演算処理部15は、座標列データ記憶部14に再記憶
された線分の始点と終点の座標データの中から任意の線
分を呼出し、例えば第4図(b)のように呼出した線分
Q1Q2の両端の座標Q1,Q2を基準として、その周囲を囲む
矩形の領域R0R1R2R3を抽出領域として設定する。この抽
出領域R0R1R2R3の設定は、例えば文字サイズEFGHの各辺
の長さdx,dyの2倍の長さDx,Dyを各辺の長さとする矩形
で、線分Q1,Q2を基準とした領域である。その抽出領域R
0R1R2R3の座標データとその中に含まれる線分Q1Q2の始
点と終点の座標データを抽出領域および文字候補として
設定する(ステツプ22)。
次に、制御・演算処理部15は座標列データ記憶部14に再
記憶された座標データの中から第4図(c)のように、
少なくとも一端が前記抽出領域R0R1R2R3に含まれる未抽
出の線分Q2Q3を抽出する(ステツプ23)。
そして、先に抽出された線分Q1Q2と、新たに抽出された
線分Q2Q3の一端の座標Q3を基準として、その周囲を囲む
矩形の領域R0S1S2R3を設定し、これを第2の抽出領域R0
S1S2R3として設定する。そして、新たに設定された抽出
領域R0S1S2R3が先に設定された抽出領域R0R1R2R3に対し
拡張された方向と垂直な方向に、前記線分Q1Q2を基準と
して、文字サイズEFGHより大きく、抽出領域R0R1R2R3
り小さい文字列サイズJMを設定する。この文字列サイズ
JMは、例えば、抽出領域が横方向に拡張された場合、文
字サイズEFGHの縦方向の寸法dyと抽出領域R0R1R2R3の縦
方向の寸法Dyの中間の大きさαとする。この大きさα
は、例えば、文字サイズEFGHの寸法dyの1.5倍に設定
する(ステツプ24)。
次に、線分Q2Q3を制御・演算処理部15に設定された文字
列サイズJMと比較する。そして、線分Q2Q3が文字列サイ
ズJM内に含まれるので、第2の抽出領域R0R1R2R3を新た
な抽出領域と判定する(ステツプ25)。
この抽出領域と判定された第2の抽出領域R0S1S2R3の座
標データと、その中に含まれる線分Q1Q2,Q2Q3のそれぞ
れの始点と終点の座標データを新たに第1の抽出領域お
よび文字候補として設定する(ステツプ26)。
再び、第4図(d)のように第1の抽出領域R0S1S2R3
少なくとも一端が含まれる線分Q4Q5を抽出する(ステツ
プ23)。
以下同様に、第1の抽出領域R0S1S2R3に含まれる線分Q1
Q2,Q2Q3,Q4Q5を基準として、その周囲を囲む領域R0S1S2
R3を第2の抽出領域R0S1S2R3として設定する(ステツプ
24)。
次に、線分Q4Q5を前記文字列サイズJMと比較する。そし
て、線分Q4Q5が文字列サイズJM内に含まれるので、第2
の抽出領域R0S1S2R3を新たな抽出領域と判定する(ステ
ツプ25)。そして、新しく抽出領域と判定された第2の
抽出領域R0S1S2R3の座標データと、その中に含まれる線
分Q1Q2,Q2Q3,Q4Q5のそれぞれの始点と終点の座標データ
を新たに第1の抽出領域および文字候補として設定する
(ステツプ26)。
さらに、第4図(d)に示すように、新たに記憶された
第1の抽出領域R0S1S2R3に少なくとも一端が含まれる線
分Q6Q7を抽出する(ステツプ23)。
線分Q6Q7を含む第2の抽出領域R0U1U2R3を設定する(ス
テツプ24)。
次に、線分Q6Q7を前記文字列サイズJMと比較する。そし
て、線分Q6Q7が文字列サイズJMに含まれるので、第2の
抽出領域R0U1U2R3を新たな抽出領域と判定する(ステツ
プ25)。
そして、第2の抽出領域R0U1U2R3の座標データと線分Q1
Q2,Q2Q3,Q4Q5,Q6Q7のそれぞれの始点と終点の座標デー
タを第1の抽出領域および文字候補として設定する(ス
テツプ26)。
以降、同様に(ステツプ23)ないし(ステツプ26)をく
りかえし、第1の抽出領域を次々と更新し、第4図
(e)のように第1の抽出領域R0Z1Z2R3に少なくとも一
端が含まれる未抽出の線分がなくなるまでくりかえす。
そして、第1の抽出領域R0Z1Z2R3含まれる未抽出の線分
がなくなると、文字列サイズJM内に含まれる線分Q1Q2,Q
2Q3,Q4Q5,Q6Q7,Q7Q8,Q8Q9,Q10Q11,Q11Q12,Q12Q13,Q13Q
14,Q14Q15,Q15Q16,Q16Q17,Q17Q10のそれぞれの始点と終
点の座標データが文字列「AND」を構成する文字候補と
して文字列データ記憶部16に記憶される。そして、文字
列データ記憶部16に記憶された前記各線分Q1Q2ないしQ
17Q10の各座標データは二重に抽出されないように座標
列データ記憶部14から削除される(ステツプ28)。
次に、座標列データ記憶部14に、さらに座標データがあ
る場合、前記の操作をくりかえし実行して文字列の抽出
を行なう。そして、座標列データ記憶部14に座標データ
がなくなつた場合、文字列の抽出を終了する(ステツプ
29)。
文字同志が重なつた場合の例を第5図に示す。
同図の場合においても、前記第4図の場合と同様に、各
線分Q1Q2ないしQ17Q10を順次抽出することにより、各線
分Q1Q2ないしQ17Q10を文字列「AND」を構成する文字の
候補として抽出することができる。
文字と図形が交差した場合の例を第6図に示すこの場
合、線分P1P2が文字サイズEFGHより大きいため、(ステ
ツプ21)で線分Q1Q2ないしQ17Q10を抽出する際に除去さ
れる。従つて、第4図の場合と同じ方法で文字列を抽出
することができる。
文字を構成する線分と図形を構成する線分の一部が重な
つた場合の例を第7図に示す。
同図(a)に示すように、文字「N」を構成する線分Q8
Q9と、図形を構成する線分P4P5が重なり合う場合、(ス
テツプ21)の文字候補となる線分の抽出で文字サイズEF
GHより長いので、線分P3P4,P4P5が除外され、同図
(b)に示すように線分Q1Q2,Q2Q3,Q4Q5,Q6Q7,Q7Q8Q10Q
11,Q11Q12,Q12Q13,Q13Q14,Q14Q15,Q15Q16,Q16Q17,Q17Q
10,P5P6が抽出される。
そして、第4図の場合と同様にして、線分Q1Q2から線分
Q7Q8まで抽出する。すると、第7図(c)に示すように
第1の抽出領域R0V1V2R3が限定される。
そして、その第1の抽出領域R0V1V2R3の中に少なくとも
一端が含まれる線分としてP5P6を抽出する(ステツプ2
3)と、この線分P5P6を含む抽出領域として、第2の抽
出領域R0W1W2R3が設定される(ステツプ24)。一方、線
分P5P6を文字列サイズJMと比較する(ステツプ25)。す
ると、線分P5P6が文字列サイズJMの領域を横切つて領域
外に突出しているため、線分P5P6は文字候補から除外さ
れる(ステツプ27)。新たに設定された第2の抽出領域
R0W1W2R3は取消される。線分P5P6を抽出する前の第1の
抽出領域R0V1V2R3がそのまま第1の抽出領域R0V1V2R3
して認定される。次に、再度抽出領域R0V1V2R3内に含ま
れる線分P5P6以外の線分Q10Q11を抽出する(ステツプ2
3)。
以下、第4図の場合と同様にして第7図(d)に示すよ
うに線分Q1Q2ないしQ17Q10を抽出して、各線分Q1Q2ない
しQ17Q10の座標データを文字列データ記憶部16へ記憶す
る。
文字列データ記憶部16は記憶された文字候補の座標デー
タを表示部17に出力し、ディスプレイ(図示せず)に表
示する。また、文字列データ記憶部16は、出力部18にも
出力し、フロツピデイスクやハードデイスクなどの記憶
媒体(図示せず)に記憶させることができる。
上記のように、文字と文字あるいは文字と図形の交差ま
たは重なりが存在する図面情報から文字候補になる線分
の座標データを文字列として抽出することができる。
なお、上記各実施例はいずれも横方向の文字列の場合に
ついて説明したが、抽出領域が縦方向に拡張されたと
き、文字列サイズの大きさは、文字サイズEFGHの横方向
の寸法dxと抽出領域R0R1R2R3の横方向の寸法Dxの中間の
大きさに設定する。以降、(ステツプ25)の第2の抽出
領域は縦方向の文字列サイズで比較することにより、第
4図と同様に文字列を抽出できる。
また、抽出領域R0R1R2R3の横方向の寸法Dxと縦方向の寸
法Dyは文字サイズEFGHの横方向の寸法dxと縦方向の寸法
dyの2倍に限らずに設定してもよい。文字列サイズの横
方向の寸法αと縦方向の寸法αも文字サイズEFGHの
横方向の寸法dxと縦方向の寸法dyの1.5倍に限らずdx
α<Dx,dy<α<Dyの条件を満たせば任意に設定し
てよい。
〔発明の効果〕
以上述べたように、本発明によれば文字と文字あるいは
文字と図形の交差または重なりが存在する図面情報から
文字候補の座標データを文字列として抽出することがで
きる。
【図面の簡単な説明】
第1図は本発明の文字列抽出処理を実現する装置のブロ
ック図、第2図は本発明の処理手順の一実施例を示すフ
ローチヤート、第3図は図面情報を読取る工程図、第4
図は本発明の文字列抽出の工程図、第5図ないし第7図
は本発明による文字列抽出の実施例の説明図である。 14……座標列データ記憶部、15……制御・演算処理部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 片岡 基 神奈川県海老名市上今泉2100番地 日立精 工エンジニアリング株式会社内 (72)発明者 岩村 一昭 東京都国分寺市東恋ヶ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 昭61−117670(JP,A) 特開 昭60−233780(JP,A) 特開 昭57−211674(JP,A)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文字を含む図面情報より、予め設定された
    文字サイズより短い線分を文字候補として抽出し、文字
    候補として抽出された線分群の中から最初に抽出された
    線分を基準として、その周囲を囲む所定の大きさの矩形
    の抽出領域を設定し、前記線分群から、少なくとも一部
    が前記抽出領域に含まれる次ぎの線分を抽出し、抽出さ
    れた線分を含む方向に前記抽出領域を拡張して抽出領域
    を更新し、抽出領域の拡張方向を設定すると共に、その
    拡張方向と垂直な方向に抽出領域より広い文字列サイズ
    を設定し、前記線分群から次ぎに抽出された線分と前記
    文字列サイズとを比較し、線分が文字列サイズ内にある
    とき、この線分を含むように前記拡張方向に抽出領域を
    拡張更新し、順次更新される抽出領域に含まれる未抽出
    の線分がなくなるまで、線分の抽出と抽出領域の拡張を
    繰返し、拡張された抽出領域に含まれる線分群を一つの
    文字列として抽出することを特徴とする文字列の抽出方
    法。
JP62090795A 1987-04-15 1987-04-15 文字列抽出方法 Expired - Lifetime JPH07104905B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62090795A JPH07104905B2 (ja) 1987-04-15 1987-04-15 文字列抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62090795A JPH07104905B2 (ja) 1987-04-15 1987-04-15 文字列抽出方法

Publications (2)

Publication Number Publication Date
JPS63257082A JPS63257082A (ja) 1988-10-24
JPH07104905B2 true JPH07104905B2 (ja) 1995-11-13

Family

ID=14008518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62090795A Expired - Lifetime JPH07104905B2 (ja) 1987-04-15 1987-04-15 文字列抽出方法

Country Status (1)

Country Link
JP (1) JPH07104905B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60233780A (ja) * 1984-05-07 1985-11-20 Oki Electric Ind Co Ltd 文字分類方法
JPS61117670A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文字切り出し処理方式

Also Published As

Publication number Publication date
JPS63257082A (ja) 1988-10-24

Similar Documents

Publication Publication Date Title
JP2608571B2 (ja) 入力走査画像データのベクトル化のための装置及び方法
US5050229A (en) Method and apparatus for thinning alphanumeric characters for optical character recognition
JPH032979A (ja) 画像修正方法及び装置
JP2878194B2 (ja) 画像データの部分消去および部分検出方法
JPH07104905B2 (ja) 文字列抽出方法
JPH0786906B2 (ja) 文字列抽出方法
JP3391228B2 (ja) 画像処理方法及び画像処理装置
JP2796561B2 (ja) 表形式文書認識方式
JPH04255080A (ja) 画像入力装置
JP3070801B2 (ja) 図面管理方法
Ablameyko et al. Automatic map digitising: problems and solution
JP2003296726A (ja) 図面変換方法、図面変換装置、図面変換プログラム及び記録媒体
JP2675043B2 (ja) 図面データの編集方法
JP2876023B2 (ja) 骨格点列のセグメント化方法
JP3029215B2 (ja) イメージデータの修正方法
JPS62274467A (ja) 知的会話処理による図形入力処理装置
JP2803735B2 (ja) 罫線を含んだ文字認識装置
JPS63291185A (ja) 文字列抽出方法
JPS63157287A (ja) 文字パタ−ン抽出方法
JP2933947B2 (ja) 画像処理方法及び装置
JP3145265B2 (ja) 文字認識装置
JPH0821059B2 (ja) 文字輪郭生成時の不要データ除去方式
JPH05189606A (ja) 文字列領域検出方法
JPH06101028B2 (ja) 文字ドツト・フオント線分化方式
JPH05290162A (ja) 画像入力装置の線図形分岐点接続方法