JPH0697470B2 - 文字列抽出装置 - Google Patents

文字列抽出装置

Info

Publication number
JPH0697470B2
JPH0697470B2 JP60031914A JP3191485A JPH0697470B2 JP H0697470 B2 JPH0697470 B2 JP H0697470B2 JP 60031914 A JP60031914 A JP 60031914A JP 3191485 A JP3191485 A JP 3191485A JP H0697470 B2 JPH0697470 B2 JP H0697470B2
Authority
JP
Japan
Prior art keywords
character
area
character string
character area
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60031914A
Other languages
English (en)
Other versions
JPS61193276A (ja
Inventor
能一 伊藤
美知子 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60031914A priority Critical patent/JPH0697470B2/ja
Publication of JPS61193276A publication Critical patent/JPS61193276A/ja
Publication of JPH0697470B2 publication Critical patent/JPH0697470B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔目次〕 以下の順次で本発明を説明する。
〔産業上の利用分野〕
〔従来の技術〕 〔発明が解決しようとする問題点〕 〔問題点を解決するための手段〕 〔作用〕 〔実施例〕 (1) 実施例の構成(第2図、第3図) (2) 第1の実施例の動作説明(第4図、第5図) (3) 第2の実施例の動作説明(第6図、第7図、第
8図) 〔発明の効果〕 〔産業上の利用分野〕 本発明は、説明図面等の書面の内容を自動入力システム
に用いられる書面に含まれる文字列を抽出する文字列抽
出装置に関し、特に水平及び垂直方向に2方向に書かれ
ている文字列の方向を読取った書面の内容から自動的に
決定することのできる文字列抽出方式に関する。
手書き又は機械によって書かれた書面をコンピュータに
自動入力することが行なわれている。このような自動入
力システムは第9図の如く入力すべき書面をレンジLSを
介してCCD(Charged Coupled Device)等の読取スキャ
ナ2で書面の内容を読取り書面の内容をイメージ(画
像)データとしてコンピュータ1へ入力するものであ
る。このようなイメージデータは書面1枚分でも大量の
ものとなるため、そのままコンピュータ1の画像ファイ
ルへ収容しておくと、ファイル要領を多く必要とするか
ら、コンピュータ1内でイメージデータを解析し、その
内容であるライン、シンボル、文字等を認識して収容す
るようにしている。例えば、第10図に示すプラント関係
の設計図面においては、ライン、シンボル、文字が書か
れており、コンピュータ1はこの説明図面を読取ってえ
たイメージデータからライン、シンボル、文字を分離し
て認識を行う。ラインと、シンボル、文字との分離は、
一般にラインは連続長が長いため、ドットの連続長によ
ってライン、シンボル、文字を分離できる。更に文字が
含まれている領域を得るには、第11図(B)に示す如く
連続するドットの領域の最大、最小を求めて予じめ定め
られた文字領域CSのサイズに対応するものを取出す方式
や画像第11図(C)の如くベクトル化し、連続するベク
トル全体を囲む矩形の大きさから文字領域CSのサイズに
対応するものを取出す方式等が用いられる。
このようにして文字領域が第11図(A)のCS1〜CS6の如
く抽出されると、次にこの文字領域の文字の認識が行な
われる。
〔従来の技術〕
一方、図面においては、文字は一方向に書かれていると
は限らず、第10図で示した如く水平及び垂直の2方向に
書かれている場合が多い。このため、文字について個々
の文字の認識を行なうに当り文字列の抽出が必要とな
り、従来、第12図に示す個々の文字CSを縦横S1、S2の2
方向で認識し、その結果によって文字列も抽出するとい
う方法が用いられていた。
〔発明が解決しようとする問題点〕 係る従来の方法では、個々の文字領域を文字を2方向で
認識するため、認識のための処理時間が2倍となり、認
識に要する時間が長くなるという問題がある他に
「−」、「+」、「|」「×」など1文字で向きの決め
にくい文字もあり、文字列の抽出が困難であるという問
題も生じていた。
この問題を解決するために、個々の文字の領域の相関関
係から文字列を抽出する方法が提案されているが(例え
ば、特開昭55−127678号公報等)、この方法では、文字
領域の上下左右一定距離内に他の文字領域が存在するか
を調べ、X方向の配列数とY方向の配列数との比較によ
り、水平か垂直かを決定するため、X方向の配列であっ
ても、配列文字数が少ない場合は、Y方向の配列と誤認
識するという問題があった。
本発明は、文字例の方向の誤認識の少ない文字列抽出装
置を提供することを目的とする。
〔問題点を解決するための手段〕
第1図は本発明の原理図である。
一般に図面入力においては、図面規約を定め処理できる
文字、図形を規定している。このような規約は種々ある
が、一般には、1つの文字列内において各文字はほぼ同
サイズで書かれ、整列しており、文字列と文字列との間
は離れていることである。
例えば、第1図(A)の水平方向の4文字「ABCD」の文
字列と垂直方向の5文字「EFGHI」の文字列の如きであ
る。
本発明ではこのような各文字領域に対し上下左右に1つ
の文字列内のものと見なしうる他の文字領域が存在する
かを文字領域から調べ第1図(B)の如くのテーブルを
作成する。これはコンピュータのプロセッサが各文字領
域を求めた後、各文字領域間の距離によって上下左右に
隣接文字領域があるかを調べ、有ればその文字領域の番
号をテーブルに登録しておく。そして、プロセッサはテ
ーブルから右方向にのみ他の文字領域のある文字領域
(図では文字領域番号1のもの)を水平方向の文字列の
先頭文字と決定し、右方向に順次テーブルの次文字領域
をたどっていき、水平方向の文字列(図では文字領域番
号1、2、3、4)を抽出し、又、テーブルから上又は
下方向にのみ他の文字領域のある文字領域(図では文字
領域番号5のもの)を垂直方向の文字列の先頭文字と決
定し、上又は下方向に順次テーブルの次文字領域をたど
っていき、垂直方向の文字列(図では文字領域番号5、
6、7、8、9)を抽出するようにしている。
そして、テーブルの各文字領域番号の上下左右の他の文
字領域番号欄において、抽出した文字領域番号をクリア
して、残りの文字領域に対して、前述の先頭文字の抽出
処理を行うものである。
〔作用〕
本発明では、各文字領域に対し上下左右の隣接文字領域
を示すテーブルをプロセッサが求めた文字領域から作成
し、このテーブルによって文字列を抽出するようにして
いるので、文字列方向に文字数が多い時や、文字列方向
に文字数が少なくても、突出した文字列がある場合に、
正確に文字列を抽出できる。
〔実施例〕
以下、本発明を実施例により詳細に説明する。
(1) 実施例の構成 第2図は本発明の実施例ブロック図であり、図中、第9
図で示したものと同一のものは同一の記号で示してあ
り、10は処理プロセッサ(以下プロセッサと称す)であ
り、読取りスキャナ2が読取った書面のイメージデータ
から文字領域の決定、文字列の抽出及び文字の認識をプ
ログラムの実行によって行うもの、11は画像ファイルで
あり、読取りスキャナ2で読取られたイメージデータを
ページ単位に一時格納し、プロセッサ10の認識処理後、
認識結果に置き代えて格納しておくもの、12は画像メモ
リであり、画像ファイル11より読出されたプロセッサ10
が処理すべき1ページ分のイメージデータを格納してお
くもの、13はテーブル用メモリであり、プロセッサ10が
文字認識処理のための各種のテーブルを格納しておくも
のであり、第3図にて後述するものである。
第3図は第2図構成のテーブルメモリ13の構成図であ
る。
図中、13aは文字領域テーブルであり、文字領域番号の
付けられた各文字領域の左下座標a、右上座標b、上、
下、左、右方向の隣接文字領域を番号で表示するための
上、下、左、右方向ポインタ及び処理フラグで構成され
るもの、13b文字列テーブルであり、決定された文字列
の方向と、その文字数、その文字列の左下座標a、右上
座標b及び後述する認識テーブルを示すポインタで構成
されるもの、13cは認識テーブルであり、各文字列の文
字領域番号に対する文字認識結果である認識文字コード
を格納しておくものである。
(2) 一実施例の動作説明 次に、第2図及び第3図構成による基本実施例の動作に
ついて第4図の処理フロー図及び第5図の処理動作説明
図を用いて説明する。
前述の如く、文字規約としてはこの実施例では、文字列
間の間隔d1、d2は第5図(A)の如く文字間隔d3より大
きく書かれていること、例えば0<d3<5mm、d1、d25
mmとする。
又、文字列内の各文字は整列し、各文字はほぼ同一のサ
イズで書かれること及び文字領域に重なりがなく、例え
ば1文字領域内に「1/2」という書き方は許されないこ
と、更に1文字のみときは水平判定し、水平方向を優先
とする。
上述の文字規約の元に、第5図(A)の水平方向2列、
垂直方向1列の文字列の抽出処理を例に説明する。
プロセッサ10は画像ファイル11から認識すべき1ペ
ージ分のイメージデータを取り出し、画像メモリ12に格
納する。これは読取り用スキャナ2から読取った書面の
イメージデータを直接画像メモリ12に格納してもよい。
プロセッサ10は画像メモリ12の1ページ分のイメージデ
ータから文字領域の抽出を行なう。この文字領域の抽出
方法は従来技術で述べた如く種々あるが、例えば、ドッ
トの連続性によって画像をベクトル化し、連続するベク
トル全体を囲む矩形の大きさを求め、これの大きさが予
じめ定めた文字領域のサイズ範囲内のものを選択して抽
出する。
又、「−」、「|」などの様に文字領域の縦横比が著し
く異なるものは、上下左右の文字領域と重ならない範囲
で縦又は横の大きい方のサイズに他方を変更する文字サ
イズ規格化処理を行なう。更に「」、「=」、
「%」、「:」、.「;」など1文字が2つ以上の部分
に分離して書かれているものがあるが、これらは、例え
ば組合せて予め定めた文字領域のサイズになるか等の判
定を行ない、一文字に統合する分離文字の統合を行な
う。
このような文字領域の抽出方法は周知であるので、これ
以上の説明は省く。
このようにして文字領域が抽出されると、各文字領
域に通し番号(文字領域番号1、2…12)が振られ、対
応する文字領域の左下座標aと右上座標bが、第5図
(B)の如く、各文字領域番号1…12に対し、a1〜a1
2、b1〜b12のように文字領域テーブル13aに格納され
る。
次に、プロセッサ10は、各文字領域の位置と全ての
他の文字領域との位置との距離と算出し、各文字領域に
対し上下左右に隣接する他の文字領域があるかを調べ
る。算出した距離が予じめ定めた文字列の文字間隔d3
である時は、隣接文字領域有りと判定し、隣接方向に対
応して文字領域テーブル13aの上、下、右、左方向のポ
インタにその隣接文字領域の番号を格納する。ないとき
には“0"をセットする。例えば、第5図(A)の文字領
域番号1に対しては、上、左方向には他の文字領域がな
くそのポインタには“0"がセットされ、下、右方向に他
の文字領域10、2があるが、文字領域10との距離d1はd1
>d3のため隣接文字領域とは見なされず、右方向の文字
領域2のみが隣接文字領域と判定され、その文字領域番
号2が右方向ポインタに格納される。このようにして文
字領域番号2以降12まで同様の隣接文字領域の判定、ポ
インタのセットが行なわれ、第5図(B)の文字領域テ
ーブル13aが完成する。
次に、予じめ水平方向は第5図(A)の如く左から
右へ、垂直方向は下から上へ文字が書かれるものと図面
規約しておくと、水平方向の先頭文字領域は上、下、左
に隣接文字がないものであるから、プロセッサ10は文字
領域テーブル13aの各文字領域の上、下、左、右4方向
のポインタを調べ、上、下、左方向のポインタ“0"の文
字領域を探し、これを水平方向の先頭文字と判定する。
第5図(A)、(B)の例では、文字領域1、10が水平
方向の先頭文字として抽出される。
更に、プロセッサ10は、先頭文字と判定された右方向の
ポインタをたどっていき、右方向のポインタが“0"(右
方向に文字領域なし)となるところまでを1つの文字列
とする。例えば先頭文字1に対しては次文字は右方向ポ
インタが“2"であるから次文字は文字領域2であり、更
に次文字に対しては右方向のポインタが“3"であるから
次文字は、文字領域3であり、次次文字3に対しては右
方向のポインタが“4"であるから文字領域4であり、文
字領域4では右方向ポインタが“0"であるから、文字列
の最終文字であるとする。このようにして、文字列に組
込まれた文字領域の処理フラグには“1"がセットされ、
文字列テーブル13bに文字列の方向、文字列の数、文字
列左下座標、文字例右上座標及びポインタがセットさ
れ、文字認識テーブル13cのポインタで示された位置に
その文字列の領域番号がセットされる。例えば、文字列
が文字領域番号1、2、3、4の4文字と判定される
と、文字列テーブル13bには、文字列方向として「水平
1」文字数「4」、文字列左下座標として先頭文字領域
1の左下座標「a1」、文字例右上座標として最終文字領
域4の右上座標「b4」、ポインタ「c1」がセットされ、
文字認識テーブル13cのポインタc1の示すエリアに文字
列を構成する文字領域番号1〜4がセットされる。先頭
文字領域が「10」の場合も同様に右方向のポインタがた
どられ、文字領域番号10、11、12が1つの文字例を構成
すると判定され、同様の文字列テーブル13b及び文字認
識テーブル13cのセットが行なわれる。
次に、プロセッサ10は、垂直方向の文字列の抽出を
行なう。
前述のステップの図面規約に従えば、垂直方向の先頭
文字領域は、下、左、右に隣接文字がないものであるか
ら、プロセッサ10は、文字領域テーブル13aの各文字領
域の上、下、左、右4方向のポインタを調べ、下、左、
右方向のポインタが“0"の文字領域を探し、これを垂直
方向の先頭文字と判定する。第5図(A)、(B)の例
では、文字領域5の垂直方向の先頭文字として抽出され
る。
更に、プロセッサ10は、先頭文字と判定された上方向の
ポインタをたどっていき、上方向のポインタが“0"(上
方向に文字領域なし)となるところまで、1つの文字列
とする。例えば先頭文字5に対しては次文字は上方向ポ
インタが“6"であるから次文字は文字領域6であり、更
に次文字6に対しては上方向のポインタが“7"であるか
ら次文字は、文字領域7であり、次次文字7に対しては
上方向のポインタが“8"であるから文字領域8であり、
文字領域8では上方向ポインタが“9"であるから、文字
領域9であり、文字領域9の上方向のポインタが“0"で
ある、文字領域9か文字列の最終文字であるとする。
このようにして、文字列に組込まれた文字領域の処理フ
ラグには“1"がセットされ、文字列テーブル13bに水平
方向の場合と同様に文字列の方向、文字列の数、文字列
左下座標、文字列右上座標及びポインタがセットされ、
文字認識テーブル13cのポインタで示された位置にその
文字例の領域番号がセットされる。例えば、垂直文字列
が文字領域番号5、6、7、8、9の5文字と判定され
ると、文字列テーブル13bには、文字例方向として「垂
直1」、文字数「5」、文字列左下座標として先頭文字
領域5の左下座標「a5」、文字列右上座標として最終文
字領域9の右上座標「b9」、ポインタ「c3」がセットさ
れ、文字認識テーブル13cのポインタc3の示すエリアに
文字列を構成する文字領域番号5〜9がセットされる。
このようにして、第5図(B)、(C)、(D)のテー
ブル13a、13b、13cが完成し、文字列の抽出は終了す
る。
そして、プロセッサ10は文字列テーブル13bより文字列
の方向を知り、文字認識テーブル13cの各文字列の文字
領域に対し文字列方向の一方向で文字認識を行い、その
結果を文字認識テーブル13cの認識文字コードエリアに
格納する。文字認識の方法は、周知の特徴抽出法やパタ
ーンマッチング法等といずれであってもよい。
上述の如く、図面規約に従って書かれた文字列の抽出は
行なわれる。
一方、図面規約が守られなく、各文字列の間隔d1が文字
列内の文字間隔d3に近づき、d1d3となった時について
も文字列の抽出が可能である。
第6図は本発明の一実施例の処理フロー図、第7図及び
第8図はその動作説明図である。
以下、第7図(A)の水平方向の3例、2列の計5列の
文字列で且つ各文字列の間隔がd1である場合の例につい
て説明する。
第4図のステップと同様にして文字領域の抽出を
行なう。
第4図のステップと同様にして、抽出された文字
領域に通し番号を振り、その左下座標、右上座標を文字
領域テーブル13aに格納する。
第4図のステップと同様にして各文字領域に対し
隣接文字領域の判定、上、下、左、右ポインタのセット
が行なわれ、第7図(B)の文字領域テーブル13aが完
成する。
ここで前述の如く図面規約が守られていないので、文字
領域「5」、「12」、「15」が先頭文字であっても、右
方向ポインタ以外の上、下方向ポインタも“0"でなく他
の文字列を文字領域が隣接する文字領域とみなされて、
その文字領域番号がセットされる。
第4図のステップと同様にして、上、下、左方向
のポインタが“0"の文字領域を探し、これを水平文字列
の先頭文字と判定し、同様にして右方向ポインタをたど
って、右方向ポインタが“0"となるところまでを1つ文
字列として、文字列テーブル13b、文字認識テーブル13c
に同様にしてセットする。ここで、前述の如く、先頭文
字である文字領域「5」、「12」、「15」は先頭文字と
して抽出されず、先頭文字として抽出されるのは、文字
領域番号「1」及び「8」であり、抽出される文字例
は、水平1の文字列である文字領域番号「1」、
「2」、「3」、「4」と、水平2の文字列である文字
領域番号「8」、「9」、「10」、「11」である。そし
てこれらの文字列に組込まれた文字領域には処理フラグ
“1"が第8図(A)の如くセットされる。
次に、第4図のステップと同様にして、垂直文字
列の抽出が行なわれる。第7図(A)の例では垂直文字
列が示されていないが、あればこれと同様にして行なわ
れる。
次に、プロセッサ10は、文字領域テーブル13aにお
いて文字に組込まれた文字領域(番号)の4方向全ての
ポインタを第8図(A)の如く“0"にクリアし、更に、
組込まれていない文字領域において存在するポインタに
おいて、指示された組込まれた文字領域番号も“0"にク
リアする。第7図(A)の例では、第8図(A)に示す
如く、文字列に組込まれた文字領域「1」、「2」、
「3」、「4」、「8」、「9」「10」、「11」の全ポ
インタが“0"クリアされる他に、この文字領域以外の文
字領域「5」〜「7」、「12」〜「17」において組込ま
れた文字領域が示されているポインタ、例えば文字領域
「5」の上、下方向ポインタの「2」、「9」も“0"ク
リアされる。
そして、前述の水平文字列抽出のステップに戻り、処
理フラグが“1"にセットされていない文字領域に対し水
平文字列抽出が行なわれる。第7図(A)の例では、第
8図(A)に示す如く、上、下、左ポインタが“0"のも
のとして文字領域「5」が先頭文字として抽出され、右
方向ポインタをたどって文字例「5」、「6」、「7」
が水平3の文字列として抽出され、同様にして文字列テ
ーブル13b、文字認識テーブル13cにセットされる。
次にステップと同様にして垂直文字列の抽出が行なわ
れ、更にステップと同様にしてプロセッサ10は、文字
領域テーブル13aにおいて文字列に組込まれた文字領域
(番号)の4方向全てのポインタを第8図(B)の如く
“0"にクリアし、更に、組込まれて文字領域において存
在するポインタにおいて、指示された組込まれた文字領
域番号も“0"にクリアする。
そしてステップに再び戻り、ステップ、で水平、
垂直の先頭文字が検出されなくなるまで繰返す。
このようにして、先頭文字領域が「1」、「5」、
「8」の文字列が抽出されるが、第7図(B)の右側の
先頭文字領域「12」、「15」の2つの文字列は抽出され
ず残り、文字領域テーブル13aは第8図(B)の如く処
理されない文字領域「12」〜「17」が残る。
このような文字列を抽出するため、プロセッサ10は第8
図(B)の文字領域テーブル13aの処理フラグが“1"と
なっていない未処理の文字領域「12」〜「17」に対し、
左、下のポインタが“0"となっているものを探し、図形
規約の水平方向、垂直方向である右方向と上方向にポイ
ンタをたどって、それぞれの文字数を数える。例えば、
第7図(A)及び第8図(B)では、左、下のポインタ
が“0"のものは文字領域「15」であるから、これから右
方向へたどると文字領域「16」へ次に文字領域「17」と
文字数は“3"となり、上方向へたどると文字領域「12」
となり、文字数は“2"となる。
この文字数の多い方の向きに文字列を決定する。即ち、
第7図(A)及び第8図(B)では、文字数が“3"の文
字領域「15」、「16」、「17」の水平方向として決定
し、処理フラグ“1"を立て、これを水平4として同様に
文字列テーブル13b、文字認識テーブル13cにセットす
る。尚、文字数が同一の時には、水平方向を優先とし、
水平方向と決定する。
次に、プロセッサ10は、決定された文字列(水平
4)に対し、ステップと同様に、組込まれた文字領域
(番号)の4方向の全てのポインタを“0"にクリアし、
組込まれていない未処理文字領域において存在するポイ
ンタにおいて指示された組込まれた文字領域番号も“0"
にクリアする。即ち、第8図(B)の矢印で示す如くの
“0"クリアが行なわれ、未処理の文字領域は「12」〜
「14」となる。
そして、ステップへ戻ると、先頭文字領域が文字領域
「12」と抽出され、水平文字列「12」、「13」、「14」
が水平5として抽出され、文字列テーブル13b及び文字
認識テーブル13cにセットされる。
そして全ての文字領域の処理が終了すると、文字列の抽
出は完了し、第7図(C)、(D)の文字列テーブル13
b及び文字認識テーブル13cがえられる。
以降は第4図と同様各文字列の文字領域が抽出された方
向で文字認識され、認識文字コードは文字認識テーブル
13cに格納される。
このようにして、図面規約が守られずに、文字列間隔が
小となっても文字列の抽出が可能となる。
前述の例では垂直方向の文字列が下から上へ向く例で示
したが、上から下へ向く場合には、ステップの垂直文
字列の先頭文字領域の条件は、上、左、右に文字領域が
ない。即ち上、左、右のポインタが“0"の場合となる。
又、水平方向の文字列のみの場合で説明したが同様にし
て垂直方向の文字列が第7図(A)の様な場合である時
も抽出ができる。更に、第2の実施例において、垂直文
字列が上から下へ向く時には、ステップの先頭文字領
域抽出を条件を左、上のポインタが“0"となっているも
のと、右方向と下方向にポインタをたどるようにすれば
よい。
以上本発明を実施例により説明したが、本発明は本発明
の主旨に従い種々の変形が可能であり、本発からこれら
を排除するものではない。
〔発明の効果〕
以上説明した様に、本発明によれば、次の効果を奏す
る。
各文字領域に対し、上下左右に存在する他の文字領域
番号をセットしておき、右方向、上又は下方向にのみ他
の文字領域が存在する文字領域を水平又は垂直方向の文
字列の先頭文字として抽出して、その文字に対する関係
を求めるため、水平文字列と垂直文字列とが混在して
も、精度良く水平文字列と垂直文字列とを抽出できる。
テーブルの抽出物分を除いて再抽出処理を行うので、
水平、垂直文字列が混在しても突出した文字列が存在す
れば、水平、垂直方向の文字数にかかわらず、正確に文
字列の方向を抽出できる。
各文字に対し、文字領域番号をセットしたテーブルを
作成すればよいため、水平、垂直文字列が混在した文字
列の抽出が容易となり、且つテーブル容量も少なくて済
む。
【図面の簡単な説明】
第1図は本発明の原理説明図、 第2図は本発明の一実施例構成図、 第3図は第2図構成におけるテーブルメモリの構成図、 第4図は第2図構成における実施例基本処理フロー図、 第5図は第4図処理の動作説明図、 第6図は本発明の一実施例処理フロー図、 第7図及び第8図は第6図処理の動作説明図、 第9図は図面自動入力システムの説明図、 第10図は入力される図面の説明図、 第11図は文字領域抽出処理の説明図、 第12図は従来の図面文字認識の説明図である。 図中、 DS……書面(図面)、 1……コンピュータ、 2……読取りスキャナ(読取り手段)、 10……処理プロセッサ、 13……テーブル用メモリ、 13a……文字領域テーブル、 13b……文字列テーブル。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】水平あるいは垂直の2方向に書かれた文字
    列を有する書面を読取る読取り手段と、 該読取った書面の内容から該文字列を構成する個々の文
    字の領域を求めた後、各文字領域に対し該文字領域の上
    下左右一定距離内に他の文字領域が存在するかを調べて
    テーブルを作成する処理手段とを含み、 該テーブル内容から文字列の向きを抽出する文字列抽出
    装置において、 該テーブルに、該文字領域に付した番号に対応して、上
    下左右に存在する他の文字領域番号をセットしておき、 該処理手段は、該作成したテーブルを参照して、右方向
    にのみ他の文字領域が存在する文字領域を水平方向の文
    字列の先頭文字として、右方向の文字領域を順次たどっ
    て、水平方向文字列を抽出するとともに、上又は下方向
    にのみ他の文字領域が存在する文字領域を垂直方向の文
    字列の先頭文字として、上又は下方向の文字領域を順次
    たどって垂直方向の文字列を抽出し、 該テーブルの各文字領域番号の上下左右の他の文字領域
    番号欄において、 該抽出した文字領域番号をクリアして、残りの文字領域
    に対して前記先頭文字の抽出から始まる文字列抽出処理
    を繰り返すことを 特徴とする文字列抽出装置。
JP60031914A 1985-02-20 1985-02-20 文字列抽出装置 Expired - Lifetime JPH0697470B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60031914A JPH0697470B2 (ja) 1985-02-20 1985-02-20 文字列抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60031914A JPH0697470B2 (ja) 1985-02-20 1985-02-20 文字列抽出装置

Publications (2)

Publication Number Publication Date
JPS61193276A JPS61193276A (ja) 1986-08-27
JPH0697470B2 true JPH0697470B2 (ja) 1994-11-30

Family

ID=12344245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60031914A Expired - Lifetime JPH0697470B2 (ja) 1985-02-20 1985-02-20 文字列抽出装置

Country Status (1)

Country Link
JP (1) JPH0697470B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63268081A (ja) * 1987-04-17 1988-11-04 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 文書の文字を認識する方法及び装置
JPH01175084A (ja) * 1987-12-29 1989-07-11 Fujitsu Ltd 孤立領域間隔抽出方式
JP3095470B2 (ja) * 1991-09-13 2000-10-03 松下電器産業株式会社 文字認識装置
JP2576350B2 (ja) * 1993-02-25 1997-01-29 日本電気株式会社 文字列抽出装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55127678A (en) * 1979-03-22 1980-10-02 Nec Corp Character array direction detector

Also Published As

Publication number Publication date
JPS61193276A (ja) 1986-08-27

Similar Documents

Publication Publication Date Title
US5774580A (en) Document image processing method and system having function of determining body text region reading order
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
JP2008108114A (ja) 文書処理装置および文書処理方法
JPH0821057B2 (ja) 文書画像解析方式
JPH0697470B2 (ja) 文字列抽出装置
JP6322086B2 (ja) 表示制御装置、表示装置、プログラム、記録媒体
JPH08320914A (ja) 表認識方法および装置
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JP2575480B2 (ja) 表構造化方式
JPS6245581B2 (ja)
JPH06187489A (ja) 文字認識装置
Rao et al. Script identification of telugu, english and hindi document image
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JPH06131497A (ja) 表認識方式
JP2582611B2 (ja) マルチフオント辞書の作成法
JP2586117B2 (ja) 文字認識装置
CN115830607A (zh) 基于人工智能的文本识别方法、装置、计算机设备及介质
JPS62134767A (ja) 記号名・線分名の自動抽出装置
JPH02176973A (ja) 図面読取処理方法
JP2571826B2 (ja) 文字列パターン切り出し装置
JPS6327752B2 (ja)
JP2962525B2 (ja) テキストブロック認識方法
JP2008083846A (ja) 認識対象領域決定方法及び装置
JPH0128990B2 (ja)
JPH05274472A (ja) 画像認識装置