JPH03189888A

JPH03189888A - 図面読取装置における文字列の種類決定装置

Info

Publication number: JPH03189888A
Application number: JP1330026A
Authority: JP
Inventors: Tomoyuki Kurita; 栗田　知幸; Tetsuya Yasuda; 哲也安田
Original assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Current assignee: Meidensha Corp; Meidensha Electric Manufacturing Co Ltd
Priority date: 1989-12-20
Filing date: 1989-12-20
Publication date: 1991-08-19

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は文字、線分、シンボル等が混在する書類や図面
から、文字データを検出してその文字の認識を行う図面
読取装置における文字列の種類決定装置に関する。

Ｂ１発明の概要本発明は文字、線分、シンボルが混在する書類や図面等
の被写体をラスタスキャンして得られた黒白に対応する
２値化画素データから文字データを抽出し、その文字の
認識を行う図面読取装置ににおける文字列の種類決定装
置において、文字列候補から文字列を抽出した後、日本
語文字列か英数文字列かを検出して英数文字列のときに
は幅方向の統合を行わないで文字切り出しを行うように
したことにより、文字、線分、シンボルが混在する書類や図面から文字を
読み取って認識する場合、大きさや書式に限定条件を付
けることなくいかなる大きさ、書式の文字であっても容
易に且つ正確に読み取ることができるとともに、処理の
簡単化を図り、しかも英数文字列から誤り切り出しが少
くなるようにしたものである。

Ｃ１従来の技術文字や図形等を読み取る場合、例えば、書類や図面等の
被写体をイメージスキャナ等の入力装置でラスタスキャ
ンして黒と白の２値画像データ（入カバターン）に変換
し、この２値画像データから対象物の文字データを抽出
し、対象物の認識処理を行っている。文字、図形等が混
在する図面等に含まれる文字を認識するには、まず文字
の部分と図形の部分を分け、さらに１文字分の情報ごと
に切り出して認識を行う必要がある。

Ｄ０発明が解決しようとする課題ここで図面に含まれる文字は、文書のものとは異なり文
字の大きさが一定ではなく、またその書式も定まってい
ない。このため文字、線分、シンボル等が混在する書類
や図面に含まれる文字を、その書式や大きさにとられれ
ることなく抽出して認識することは極めて困難であった
。特に、英数文字列の抽出には誤った判断をされるおそ
れがある。

本発明は上記の点に鑑みてなされたものでその目的は、
書類や図面に含まれる文字がいかなる大きさ、書式であ
っても容易に且つ正確に読み取ることができるとともに
英数文字列を誤りなく確実に検出できるようにした図面
読取装置を提供することにある。

Ｅ９課題を解決するための手段本発明は、文字、線分、シンボルが混在する被写体をラ
スタスキャンして得られた黒白に対応する２値化画素デ
ータから文字データを抽出し、該抽出された文字データ
と文字辞書を参照、比較して文字を認識する図面読取装
置において、前記被写体をラスタスキャンして得られた
黒白に対応する２値化画素データに基づいて、互いに隣
接した２個の黒画素を結ぶベクトルを結合して成る輪郭
ベクトルのデータを求めるとともに、該輪郭ベクトルに
外接する外接四角形データを文字候補として求める輪郭
ベクトル化処理部と、前記輪郭ベクトル化処理部で求め
られた文字候補の外接四角形データをツリー構造で登録
する登録部と、所定の大きさに設定した文字列候補の核から検索範囲を
決定し、前記登録部に登録された文字候補のうち中心座
標が前記検索範囲内に存在する文字列を文字列候補とし
て抽出する文字列候補抽出部と、前記文字列候補抽出部で抽出されたデータの中から、文
字列候補核の高さｈｃと文字列候補内の互いに隣接する
文字候補間の距離ｄがｄ＜ｈｃ×α（αは定数）なる関
係にあるデータを文字列として抽出する文字列抽出部と
、前記文字列抽出部で抽出された文字列の高さ方向の統合
の割合をしきい値と比較し、その割合がしきい値より小
さいときには高さ方向の統合が零であるか否を比較し、
この比較結果から日本語文字列か英数文字列かを判断す
る文字列性質決定部と、前記文字列性質決定部で日本語文字列と判断されたとき
には高さおよび幅方向の統合を行い、英数文字列と判断
されたときには幅方向の統合を行わないで、文字列から
文字を切り出す文字切り出し部と、前記文字切り出し部で切り出された文字データに基づい
て文字認識を行うことを特徴としている。

Ｆ１作用前記ベクトル化処理部によって外接四角形を求めると文
字、線分、シンボルが混在する被写体（書類や図面）の
中から文字候補のデータが得られる。この文字候補の外
接四角形データはツリー構造で登録部に登録される。文
字列候補抽出部は文字列候補核で決まる検索範囲で前記
登録部内のデータを検索し、中心座標が検索範囲内にあ
る文字列を文字列候補として抽出する。前記外接四角形
データはツリー構造で登録されているので領域四角形の
返戻検索処理は軽減される。前記文字列候補の中で、ｄ
＜ｈｃ×α（ｄは隣接する文字候補間距離、ｈｃは文字
列候補核の高さ、αは定数）の関係が成立するデータが
文字列抽出部によって文字列として抽出される。すなわ
ち被写体の中に混在する線分やシンボルは除外され文字
列のデータのみが抽出される。抽出された文字列は日本
語文字列か英数文字列かを判断して、日本語文字列の場
合には高さおよび幅方向とも統合し、また英数文字列の
場合には幅方向の統合を行わないで、文字切り出し部へ
与えられる。文字切り出し部は前記文字列から文字を切
り出す。これによって文字の大きさや書式がいかなるも
のであっても文字として読み取ることができる。

Ｇ、実施例以下、図面を参照しながら本発明の一実施例を説明する
。本発明の装置は第１図のように輪郭ベクトル化処理部
１、登録部２、文字列候補抽出部３、文字列抽出部４、
文字列性質決定部７、文字切り出し部５および文字認識
部６を備えており、全体の処理の流れは第２図のように
示される。すなわちまずステップＳ＋において輪郭ベク
トル化処理部ｌが前処理を行い、ステップＳ、において
登録部２、文字列候補抽出部３、文字列抽出部４、文字
列性質決定部７および文字切り出し部５が文字切り出し
処理を行い、ステップＳ、において文字認識部６が文字
認識処理を行う。前記輪郭ベクトル化処理部１が行う前
処理は第３図のようなフローチャートで表される。すな
わちステップｓｌにおいて画像入力処理を行い、ステッ
プＳ、において輪郭ベクトル化処理を行い、ステップＳ
、において要素分離処理を行う。このうち前記画像入力
処理および輪郭ベクトル化処理は例えば特願昭６３−７
８６８４の特許明細書に記載された輪郭検出装置によっ
て、次のようにして行う。

第４図は輪郭検出装置の構成を示す図であり、１１は輪
郭抽出部である。この輪郭抽出部１１は、第５図に示す
ように書類や図面等の被写体をラスタスキャンして得ら
れた黒白に対応する２値化画素データを取り込んで、縦
横２画素×２画素の画素データをスキャンラインに沿っ
て順次に取り出し、この画素データに基づいて輪郭検出
用のコマンド列を作成して後段の輪郭解析部１２に出力
する。輪郭解析部１２は前記コマンド列に基づいてテー
ブル格納部１３内の輪郭要素テーブル、輪郭管理テーブ
ル及び輪郭接続テーブルの記載を更新する。また、輪郭
解析部１２は輪郭要素テーブルと輪郭管理テーブルを使
用してＩ輪郭画素系列を構成する各点のうち始点からみ
て極大となる点を抽出する（巨視的処理部３１）ととも
に、この処理で抽出された連続する２点の間にある最大
距離となる点を設定したしきい値との関係からいくつか
抽出しく微視的処理部３２）、この処理により抽出され
た点の輪郭ベクトルを輪郭ベクトル系列テーブル３３に
記載し、この輪郭ベクトルのうち短い（ショート）ベク
トルをショートベクトル除去部３４で除去し、その記載
を更新する。

ここで輪郭要素とは互いに隣接した２個の黒画素を結ぶ
ベクトルに相当するものであり、これを結合することに
よって輪郭が構成される。そして輪郭要素テーブルとは
、第６図に示すように輪郭要素とこれら輪郭要素群より
なる輪郭とに対して各々固有の符号を付すと共に、輪郭
要素毎に、その座標及び方向と輪郭要素が所属する輪郭
の符号と輪郭要素の前後に夫々接続されている他の輪郭
要素の符号とを記載するためのものである。また輪郭管
理テーブルとは第７図に示すように輪郭毎に先端及び終
端に位置する輪郭要素の符号を記載するためのものであ
り、輪郭接続テーブルとは、第８図に示すようにラスタ
スキャン方向に並ぶ座標とその座標に前端または後端が
存在する未接続の輪郭要素の符号とその輪郭要素の未接
続端の前後端の区別とを対応させて記載するためのもの
である。また、輪郭ベクトル系列テーブルとは第９図に
示すように輪郭ベクトル系列毎に始点座標の符号を記載
するためのものである。

輪郭抽出部１１より出力されるコマンド列は、そのとき
に取り出された２画素×２画素の画素データに係る画素
と輪郭画素との接続関係の情報、及び当該画素データの
黒白の配列パターンの情報を含む接続・パターンコード
と、当該画素データのＸ座標を示す座標コードとを組み
合わせてなる。

前記接続関係の一例を第１０図に示すと、同図（イ）の
大枠で囲まれた２画素×２画素の画素データを取り込ん
だときには、この画素データのＸ座標Ｘ７に位置する輪
郭要素の前端が接続されているという情報になる。この
例では、画素データの座標としては、−紙面に向かって
右下に位置する画素Ｐ１の座標をとっている。また同図
（ロ）の大枠で囲まれた画素データを取り込んだときに
は、この画素データのＸ座標より一つ前の座標Ｘ□。

に位置する輪郭要素の後端が接続されているという情報
になる。なお第１Ｏ図中○印を有する枠は黒画素を示し
、０印を有しない枠は白画素を示している。そして例え
ば第１Ｏ図（イ）の大枠に着目すると、この場合の接続
・パターンコードは、上述の接続情報と大枠内に黒白の
配列パターンの情報とを含み、コマンド列は、この接続
・パターンコードと画素Ｐ、のＸ座標を示す座標コード
との組み合わせとなる。なおこの座標コードについては
輪郭解析部１２側にて、コマンド列の取り込みのタイミ
ングに同期して発生させることもできる。

このようにして得たコマンド列が輪郭解析部Ｉ２に取り
込まれると次のような処理が行われる。

金策１Ｉ図の大枠の画素データに関するコマンド列が取
り込まれたとすると、点線で示す輪郭要素Ｃｊを輪郭要
素テーブルに登録し、その方向及び座標を記入すると共
に、当該輪郭要素Ｃｊの前後に夫々接続されている他の
輪郭要素の番号を接続要素番号欄に記入する。この場合
輪郭要素Ｃｊは輪郭要素Ｃｉの前方に位置するので、輪
郭要素Ｃｊの欄に係る後方接続棚にＣｉを記入し、輪郭
要素Ｃｊの闇に係る前方接続棚にＣｉを記入する。

更に輪郭要素Ｃｊの所属する輪郭の番号をこの例ではＳ
ｉを輪郭番号欄に記入する。輪郭要素の方向については
例えば８連結の場合、第１２図に示すように上下、左右
、斜めの方向に対応してａｌ〜ａ、が規定され、また４
連結の場合、上下、左右の４方向が規定される。そして
輪郭管理テーブルの輪郭番号Ｓ＋について、先端の輪郭
要素番号欄をＣｉからＣｊに更新すると共に、輪郭接続
テーブルにおける当該画素データのＸ座標について、未
接続の輪郭要素番号の前方接続の欄をＣｉからＣｊに更
新する。ところで実際の処理においては、輪郭要素Ｃｉ
に接続されるべき輪郭要素は輪郭接続テーブルにより明
らかにされているため、輪郭要素テーブルの輪郭要素番
号Ｃｉ欄に係る前方接続棚のＣｊの記載は、輪郭接続テ
ーブルを参照して行われる。以上において所属輪郭番号
は、ラスタスキャンの進行に伴って別々に発生した二つ
の輪郭が接続されて一つの輪郭になった場合には−方が
他方に統合されて同一になる。

上記のような処理において、■輪郭画素系列を構成する
各点のうち始点からみて極大となる点を抽出し、次に抽
出された連続する２点の間にある最大距離となる点を抽
出する。このように抽出された輪郭ベクトルをテーブル
に格納する。

上記のような画像人力処理および輪郭ベクトル化処理に
よって、被写体の例えばｒＡＪという文字の入力画像は
第１３図のような輪郭ベクトルで表される。

次に文字候補の抽出を行う要素分離処理（第３図のステ
ップＳＳ）について説明する。まず前述した第９図の輪
郭ベクトル系列テーブルを使用してショートベクトルを
除去する。第１４図はショートベクトル除去手段を説明
するフローチャートであり、ステップＳ、で第９図に示
す輪郭ベクトル系列テーブルから輪郭ベクトルの外接四
角形（第１５図に示す）　（Ｘ　ｗａｔｎ、　Ｖ　＋＋
＋Ｉｎ）、（Ｘ　＠□、ｙｗａｘ）の算出を行う。次に
ステップＳ、でｄ　ｘ＝ｘ□、Ｘ　＠Ｉｎｎ　ｄ　３’
　＝　３’　ｗａａｚ　　Ｙ　ｍｌｈとしきい値ＤＸ−
ｈ。

Ｄ　Ｙ　ｔｈとを比較する。ステップＳ３はステップＳ
、の比較判断部で、このステップＳ３で（ｄｘ＞Ｄ　Ｘ
　ｒｈ）　ＬＪ　（ｄ　ｙ　＞　Ｄ　Ｙ　ｔｈ）を判断
し、ＹＥＳならステップＳ４で輪郭ベクトルとして外接
四角形という情報を作成する。この情報の１例を第１６
図に外接四角形情報テーブルとして示す。前記ステップ
Ｓ３でＮＯなら第９図に示す輪郭ベクトル系列テーブル
からステップＳ、で同一系列のベクトルを削除して雑音
（ノイズ）を除去する。

第１５図は輪郭ベクトルの外接四角形を示す説明図であ
り、この図において％　Ｘ　＠ａｌｌ＋　Ｘ　＋＋＋１
ｎ＋ｙ□え、ｙ□。は次のようになる。

Ｘ　ｍａｘ＝ｍａ　Ｘ　（”’、　Ｘ　ｔ＋　”’）Ｘ
　、、、＝　ｍ　ｊ　ｎ　（・・・＋Ｘｊ＋川）’ｊｍ
ａｘ＝ｒｎ　　ａ　　Ｘ　　（”’、　　”Ｊ　　１１
　　”’）ｙ＊Ｉｎ＝ｍ　ｉ　ｎ　（”’、　Ｙ　ｔ＋
　”’）ｄ　Ｘ　”　Ｘ　ｗａａｘ〜Ｘ、直。

（１””ｌｓ□−ｙｌ、ｌ（ｄ　ｘ＜ＤＸｃｒ＋）　ｎ（ｄｙ＜ＤＹｔｈ）但し、
ＤＸｔｈ、ＤＹｔｈ：　Ｌきい値である。

上記のようにして求められた外接四角形情報（第１３図
）に基づいて次のような条件で文字候補を抽出する。

条件■　ｗ８〈シきい値且っｗ、くしきい値（Ｗｌｌは
外接四角形のＸ方向長さ、ｗ、は外接四角形のｙ方向長
さ）条件■　外周輪郭ベクトルそして文字候補の外接四角形に完全包含される外周及び
内周の輪郭ベクトルは文字候補となった輪郭ベクトルに
リンク付けされる。

以上、第３図〜第１６図のようにして前処理を行うが、
次に文字切り出し処理（第２図のステップＳ、）につい
て説明する。

まずこの文字切り出し処理は、前記輪郭ベクトル処理部
１で求められた文字候補を対象に第１７図のように水平
方向（ステップＳ、）、垂直方向（ステップＳｔ）およ
び斜め方向（ステップＳ、）に行われる。各方向の処理
は各々同一の内容であり、第１８図に示すように文字列
候補抽出処理（ステップＳ＋）を行った後、文字列抽出
処理（ステップＳｔ）を行い、その後、文字列性質決定
処理（ステップＳＳ）を行ってから文字切り出し処理（
ステップＳ、）を行う。

前記各ステップの処理は次のようにして行われる。まず
文字列候補抽出処理は第１９図に示すように文字候補の
ツリー構造化処理（ステップＳ、）を行った後、文字列
候補の範囲検索処理（ステップＳ、）を行う。実際には
第１６図のように得られた文字候補の外接四角形の中心
座標を基に空間的な２分割を繰り返す形式のツリー構造
として登録部（第１図の登録部２）に登録する。そして
文字候補のうち検索しようとする文字列の高さと同程度
の高さをもつものを文字列候補の核として第２０図（ａ
）に示すような検索範囲に中心座標がある文字候補を前
記登録部２の文字候補ツリーから検索する。この検索は
次のような手順で第１図の文字列候補抽出部３が行う。

■文字列核から右側に第２０図（ｂ）のような探索範囲
内に他の文字候補の中心点を検索する。

■前記■で見つかった中心点のうち、中心核より最も遠
い距離にあるものを次の探索範囲の開始点とする。もし
■で中心点が見つからない場合は右側方向の探索路り。

■左側方向について前記■、■と同様に行う。

上記の検索で見つけられたものを文字列候補とする。尚
文字列候補の核となる大きさを大きなものから数段階に
分けて設定して検索を行うことにより、大きさの異なる
文字列に対しても対応がとれる。

次に文字列抽出部４は文字列候補の中から次の条件に合
うものを文字列として抽出する。すなわち第２１図に示
すように文字列抽出部の高さｈｅと文字候補間距離ｄがｄ　（ｉ、ｊ）＜ｈｃｘ定数　−−−−−・（１）なる
関係にあるとき、図示文字列候補内のｉ、ｊが文字列と
なる。

文字列抽出を行った後の文字列は第２２図に示すように
ステップＳＩで高さ方向の統合を行ってから入力文字列
の性質決定の処理をステップｓｔで行う。ステップＳ、
で文字列の性質が決定された文字列はステップＳ３の比
較判定部で日本語文字列か英数文字列かが判定される。

判定の結果が日本語文字列のときにはステップＳ４の幅
方向統合切り出し処理を行い、英数文字列ならステップ
Ｓ、の非統合切り出し処理を行う。

前記ステップＳ、の入力文字列の性質決定処理は第２３
図に示すように、まずステップＳＩで入力文字列中の高
さ方向統合個数をカウントし始める。次にステップＳ、
でデータの大きさに対して高さ方向統合の割合を計算処
理する。この処理の後、ステップＳ、でしきい値θ、よ
り小さいかを比較部で判定される。判定結果がｎｏのと
きには日本語文字列として切り出し処理される。ステッ
プＳ３でｙｅｓと判定されたなら、ステップｓ４で高さ
方向の統合は零であるか、どうかを比較判定する。ステ
ップＳ４でｎｏと判定されたなら、ステップＳ５で高さ
方向の統合のあったものに対して形状およびその配置か
ら特殊記号の可能性を調べる。このステップＳ、の処理
の結果からステップＳ６で特殊記号らしくないものが存
在するかを判定する。このステップＳｆｌの判定結果が
ｙｅｓなら日本語文字列として切り出し部５に行く。ま
た、ｎｏのときにはステップＳ７の処理へ進む。ステッ
プＳヮはステップＳ４でｙｅｓと判定されたときに行わ
れる処理で、このステップＳ７は文字列の文字の大きさ
Ｓ、を高さまたは幅によって計算した後に、ステップＳ
１１に進みステップＳ８で文字列の文字間隔の大きさＳ
、を計算する。ステップＳ。

はしきい値θ、がｒ　（ｓ、、　ｓｔ）　　［二つの値
より文字列の英数文字列らしさを判断する関数］より小
さいかを比較判定し、ｎｏなら日本語文字列として切り
出し部５の処理を行う。また、ステップＳ８でｙｅｓな
ら英数文字列として切り出し部５へ進む。

なお、次式は文字の大きさ（外接矩形の高さ。

幅）および文字間隔の大きさを計算するもである。

Ｚ＝Σ（Ｘ　ｓ、ｎ　　Ｘ　ｒ　）　／　ｎＸａｒａｒ
ａｎ：高さまたは幅１文字間隔の平均値ｘ１：それぞれ
の矩形の高さ、または幅２文字間隔ｎ：文字列中の矩形
の総数または間隔の総数また、ｆ　（Ｓ、、Ｓ、）はｒ
（ｓ　ｌ、　ｓ　ｔ）　＝　ａ　ｓ　Ｉ＋ｂｓｘ／２に
よって計算する。但し、ａ、ｂは重みである。

上述した文字切り出し処理（第１７図、第１８図）の過
程では、文字候補が文字列として確定する毎に処理済マ
ークがつき処理対象数が少なくなる。また第１８図の各
処理では水平方向について説明したが、垂直方向につい
てはｘ、ｙ方向が逆になる。斜め方向については所定の
傾き角度を仮定し、その角度での座標変換処理が、文字
列抽出処理、文字列性質決定処理、文字切り出し処理（
第１８図のステップＳ、、Ｓ３．Ｓ、）に含まれる。

文字認識処理（第２図のステップＳ３）は次のようにし
て行われる。文字認識部６は前記文字切り出し部５で切
り出された文字と、予め文字が登録された辞書と参照、
比較し、−文字ずつ認識する。

Ｈ，発明の効果以上のように本発明によれば輪郭ベクトル化処理部と、
登録部と、文字列候補抽出部と、文字列抽出部と、文字
列性質決定部、文字切り出し部とを設けたので、文字、
線分、シンボルが混在する書類や図面から文字を読み取
って認識する場合、大きさや書式に限定条件を付けるこ
となくいかなる大きさ、書式の文字であっても容易に且
つ正確に読み取ることができる。また文字候補のデータ
はツリー構造で登録しておくので処理の高速化が図れる
。さらに、英数文字列と日本語の文字列が異なる条件で
切り出すことが可能であるので、英数文字列からの誤切
り出しが少くなくなる。

【図面の簡単な説明】

第１図〜第２３図は本発明の一実施例を示し、第１図は
全体構成のブロック図、第２図は全体のフローチャート
、第３図は輪郭ベクトル化処理部のフローチャート、第
４図は輪郭検出装置のブロック図、第５図はラスタスキ
ャンの様子を示す説明図、第６図は輪郭要素テーブルを
示す説明図、第７図は輪郭管理テーブルを示す説明図、
第８図は輪郭接続テーブルを示す説明図、第９図は輪郭
ベクトル系列テーブルを示す説明図、第１０図（イ）、
（ロ）は、各々画素データと輪郭要素との関係を示す説
明図、第１１図は輪郭要素間の接続状態を示す説明図、
第１２図は輪郭要素の方向を示す説明図、第１３図は輪
郭ベクトル化処理の説明図、第１４図はショートベクト
ル除去部段のフローチャート、第１５図は外接四角形の
説明図、第１６図は外接四角形情報テーブルを示す説明
図、第１７図および第１８図はともに文字切り出し処理
のフローチャート、第１９図は文字列候補抽出処理のフ
ローチャート、第２０図（ａ）、（ｂ）はともに文字列
候補抽出処理の説明図、第２１図は文字列抽出処理の説
明図、第２２図は文字切り出し部のフローチャート、第
２３図は文字列の性質決定部のフローチャートである。 ■・・・輪郭ベクトル化処理部、２・・・登録部、３・
・・文字列候補抽出部、４・・・文字列抽出部、５・・
・文字切り出し部、６・・・文字認識部、７・・・文字
列性質決定部、Ｉｆ・・・輪郭抽出部、１２・・・輪郭
解析部、１３・・・テーブル格納部、３１・・・巨視的
処理部、３２・・・微視的処理部、３３・・・輪郭ベク
トル系列テーブル、３４・・・ショートベクトル除去部
。第３図輪郭ベグト靴処理部（前処理）のフローチャート第８図輪郭接続テーブル第９図輪郭ベクトル系列テーブル輪郭ベクトル化処理の説明図第１５図第１４図ショートベクトル除去手段のフローチャート第１７図文字切り出し処理のフローチャート第１８図文字切り出し処理のフローチャート第１９図文字列候補抽出処理のフローチャート第２０図文字列候補抽出処理の説明図（ａ）（ｂ）ｈ＝ｈｃＸ定数第２１図文字列抽出処理の説明図ドー州；ｄ（ｉ、ｉχ 第２２図切り出し部のフローチャート

Claims

【特許請求の範囲】

（１）文字、線分、シンボルが混在する被写体をラスタ
スキャンして得られた黒白に対応する２値化画素データ
から文字データを抽出し、該抽出された文字データと文
字辞書を参照、比較して文字を認識する図面読取装置に
おいて、前記被写体をラスタスキャンして得られた黒白に対応す
る２値化画素データに基づいて、互いに隣接した２個の
黒画素を結ぶベクトルを結合して成る輪郭ベクトルのデ
ータを求めるとともに、該輪郭ベクトルに外接する外接
四角形データを文字候補として求める輪郭ベクトル化処
理部と、前記輪郭ベクトル化処理部で求められた文字候
補の外接四角形データをツリー構造で登録する登録部と
、所定の大きさに設定した文字列候補の核から検索範囲を
決定し、前記登録部に登録された文字候補のうち中心座
標が前記検索範囲内に存在する文字列を文字列候補とし
て抽出する文字列候補抽出部と、前記文字列候補抽出部で抽出されたデータの中から、文
字列候補核の高さｈｃと文字列候補内の互いに隣接する
文字候補間の距離ｄがｄ＜ｈｃ×α（αは定数）なる関
係にあるデータを文字列として抽出する文字列抽出部と
、前記文字列抽出部で抽出された文字列の高さ方向の統合
の割合をしきい値と比較し、その割合がしきい値より小
さいときには高さ方向の統合が零であるか否を比較し、
この比較結果から日本語文字列か英数文字列かを判断す
る文字列性質決定部と、前記文字列性質決定部で日本語文字列と判断されたとき
には高さおよび幅方向の統合を行い、英数文字列と判断
されたときには幅方向の統合を行わないので、文字列か
ら文字を切り出す文字切り出し部と、前記文字切り出し部で切り出された文字データに基づい
て文字認識を行うことを特徴とする図面読取装置におけ
る文字列の種類決定装置。