JPH01260589A - 文字列抽出方式 - Google Patents

文字列抽出方式

Info

Publication number
JPH01260589A
JPH01260589A JP63089488A JP8948888A JPH01260589A JP H01260589 A JPH01260589 A JP H01260589A JP 63089488 A JP63089488 A JP 63089488A JP 8948888 A JP8948888 A JP 8948888A JP H01260589 A JPH01260589 A JP H01260589A
Authority
JP
Japan
Prior art keywords
character string
character
interval
strings
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63089488A
Other languages
English (en)
Inventor
Katsuo Fukazawa
克夫 深沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63089488A priority Critical patent/JPH01260589A/ja
Publication of JPH01260589A publication Critical patent/JPH01260589A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔概要〕 図形や文字列等を二値化して記憶するイメージメモリか
ら文字列を抽出する場合、文字列中に含まれる空白文字
を認識することを可能とする文字列抽出方式に関し、 文字列内に存在する空白文字を認識することを目的とし
、 図面から読出された図形や文字等を記41するイメージ
メモリより、イメージデータを読出し、予め与えられた
パラメータに基づき、所定の大きさのイメージデータを
文字と判定し、該文字と判定されたイノ〜シデータが図
面」−において縦又は横方向に所定の間隔以下で連続す
る範囲を文字列として抽出する装置において、該所定の
間隔を広くしたパラメータに基づき文字列の抽出を行う
文字列抽出手段と、該文字列抽出手段が抽出した文字列
の前記イメージメモリ+の各文字位置を示す座標情報か
ら、各文字間の間隔のヒストグラJ、を作成し、文字間
隔に対応する間隔の分布状態と、空白文字に対応する間
隔の分布状態と、文字列と文字列との間隔に対応する間
隔の分布状態を求め、該間隔の分布状態に基づいて設定
されたパラメータに基づき、前記文字列抽出手段か抽出
した文字列から再度文字列を抽出し直ずデータ更新手段
とを設け、文字列中に3まれている空白文字を認識し7
で文字列の抽出を行う構成とする。
(産業上の利用分野〕 本発明to1図形や文字列等を二値化して記1Oするイ
メージメモリから文字列を抽出ずろ、1よ置に係り、特
乙こ該文字列中に含まれるスペース(空白文字)を認、
識することを可能とする文字列抽出方式に関する。
図面十己こ書込まれた図形や文字列等をスキャナで読取
り、丁、値化してイメージメモリに格納しておき、この
イメージメモリから文字列のみを取り出して処理するこ
とか行われているか、この文字列の中にはスペースを持
つ文字列か存在し5ている場合がある。
この文字列の中に含まれるスペースは意味のあるもので
あり、スペースとして認1熾されることが必要である。
〔従来の技術〕
第5図は従来の技術を説明するフロック図である。
スキャナ1し」図示省略したは1面上を走査1〜てしj
形や文字列等を読取り、これを二値化してイメージメ千
り2に格納する。文字列抽出部3はイメージメモリ2を
走査してイメージデータを読出ず。
即し、イメージメモリ2にj順次アドレスを送出して走
査し、例えば1′′の画素の集中している領域をイメー
ジデータとして抽出する。
そし7て、予め設定されたパラノーク乙こ基づき、縦又
は横方)ii] 1.”−所定の大きさを持つ・イメー
ジう一一一−り閑、文字として認識し、この文字と認識
t7たイメージデータのイメージメモリ2ににおりるア
I・レスを座標として同時に11打出し、この所定の大
きさのイメージデータか縦又は横方向に、所定の間隔以
下で連続する範囲を、該座標を用いて抽出し、文字列と
して認識する。
即ち、文字の大きさを規定し、この大きさの誤差範囲に
ある縦又4J横方向の大きさを持つイメージデータは文
字と判定し、この大きさのイメージデータか横又目縦方
向に、文字間隔と見做される所定の間隔以下て連続する
範囲を文字列とする。
この文字列の範囲を決定するのは、予め設定されるパラ
メータであり、イメージデータの連続する範囲が成る距
翔(以」−離れた場合、例えば、文字間隔と判定される
距離以」二肺れた場合、別の文字列と判定する。
−5= このようにして、文字列と判定されたイメージデータは
、イメージメモリ2上の各文字勿の座標値と共にメモリ
4に格納される。
そし・て、メモリ4に格納された文字列は文字認識等の
後処理を行う装置に送出される。
第6図は第5図の動作を説明する図である。
イメージメモリ2から読出したイメージデータの中に、
横方向に長い文字列と判定されるものがあり、これが、
例えは、第G図fa)に示す如く、一つの文字列のrA
BcJてあり、更に、他の文字列のr 123 =−5
4Jであるとすると、X、は文字列を区切る距離であり
、x2はスペースを示す距離であり、X3は文字間隔で
ある。従って、XI >X2 >X3である。
文字列抽出部3は与えられたパラメータにより、距離X
1が距離X3より大きいことがら、r A BClと1
123− 54jを夫々別の文字列と判定する。そして
、距MX2を文字間隔と判定するか、又は、文字列の区
切りと判定する。
文字間隔と判定した場合、文字列抽出部3は第6図(b
)に示す如く、文字列rABCJと「123−54」と
を夫々抽出してメモリ4に格納するが、ごの時文字列「
123−54」のスペースは無視する。
又、文字列の区切りと判定した場合、文字列抽出部3は
第6図(C)に示す如く、文字列r A B C−1と
r123−Jと「54」とを夫々抽出し、メモリ4に格
納する。
イメージメモリ2から読出したイメージデータの中に、
縦方向に長い文字列と判定されるものがあり、これが、
例えば、第6図(d+に示ず如<、一つの文字列のr 
F U N  B E L T Jであるとすると、」
]記同様文字列抽出部3が距離×2を文字間隔と判定す
るか、文字列の切れ目と判定するかで、第6図(c)に
示す如<、一つの文字列rFUNBEL ′r−1と判
定され、スペースか無視されるか、第6図(f)に示す
如く、二つの文字列rFUN、J  rBE L T 
Jと判定される。
〔発明が解決乙ようとする課題〕
」−記の如く、従来はスペースを認識することが出来な
いため、スペースが無視されて距離X2が文字間隔とさ
れた文字列が抽出されるか、スペースの位置で二つの文
字列と認識され、一つの文字列が二つの文字列として抽
出されるという問題がある。
本発明はこのような問題点に鑑み、文字列抽出部2のパ
ラメータを大きくとって、文字列の抽出を行い、この抽
出された文字列から、文字間の距離を検出してヒス1グ
ラムを作成し、この距離のヒストグラムから文字間の間
隔にX2に対応するものかあることを検出し、スペース
を認識することを目的としている。
〔課題を解決するための手段〕
第1図は本発明の原理ブロック図で、第2図は第1図の
動作を説明する図である。
第5図と同一符号は同一機能のものを示す。第5図で説
明した如く、文字列抽出手段5は、イメージメモリ2に
格納された図形や文字列を走査して、文字列を抽出する
が、この時のパラメータを大きくして、例えば、第6F
a(a)に示す距離×1を文字間隔として複数の文字列
を一つの文字列として抽出し、各文字毎の座標値と共に
、メモリ4に格納する。
データ更新手段6ばメモリ3に格納された文字列の各文
字付の座標値から、文字と文字との1.6>ての間隔を
調べ、第2図に示す如きヒス1グラムを作成する。
即し、縦軸に個数をとり、横軸に間隔をとると、文字間
隔に対応する間隔の抽出個数が形成するピーク値■を中
心するグループと、スペースに対応する間隔の抽出個数
が形成するピーク値■を中心とするグループと、文字列
と文字列の間隔に対応する間隔の抽出個数が形成するピ
ーク値■を持つグループとが作成される。
データ更新手段6は、このピーク値■、■、■をパラメ
ータとして、メモリ4から読出した文字列から再度文字
列を抽出し直す処理を行い、文字列中にスペースの存在
を示す間隔かある場合、該当間隔をスペースとし7で処
理し、メモリ4に再度書込む。
〔作用〕
−に記の如(構成することにより、文字列抽出手段5は
文字列を抽出するパラメータを大きくして、複数の文字
列を一つの文字列としてイメージメモリ2から抽出し、
データ更新手段6はこの複数の文字列から文字間隔に対
応する間隔と、スペースに対応する間隔と、文字列と文
字列の間隔に対応する間隔を識別するためのパラメータ
をヒストグラムを作成することで検出し、このバラメー
クを用いて文字列抽出手段5が抽出した文字列から再度
文字列を抽出する処理を施すため、最終的にスペースを
持つ文字列を抽出することが出来る。
〔実施例〕
第3図は本発明の一実施例を示す回路のブロック図で、
第4図は第3図の動作を説明する図であ第5図と同一符
号は同−i能のものを示す。文字列抽出部7は文字間隔
に対応する間隔を識別するパラメータを大きくしてイメ
ージメモリ2を走査し、文字列を抽出する。従って、例
えは第41図ta+に示す如く、横方向に文字列間隔が
Xlの文字列「ΔBC」とr123− 54Jが一つの
文字列として抽出され、メモリ4に各文字毎のイメージ
メモリ2]二の座標値を伴って書込まれる。
又、例えば第4図(1))に示す如く、縦方向のスペー
スを含む文字列r F U N  B E L TJと
、文字列間隔X1を持つ縦方向の文字列[A−1及び[
432]が一つの文字列として抽出され、メモリ4に各
文字旬のイメージメモリ2上の座標値を伴って書込まれ
る。
ヒス1〜グラム作成部8はメモリ4に書込まれた文字列
の各文字の座標値から、各文字間の間隔を調へ、第2図
に示す如きヒストダラムを作成し、判定部9に送出する
判定部9はこのヒストダラムから文字間隔に対応する間
隔を識別するパラメータと、スペースに対応する間隔を
識別するパラメータと、文字列間隔を識別するパラメー
タとを決定し、テーク更新部10に送出する。
テーク更新部10ばメモリ4に格納されている文字列抽
出部7が抽出した第4図ta+ (b)に示す如き文字
列を続出し、判定部9が決定したパラメータに従って、
再度文字列の切出しを行う。即ち、スペースに対応する
間隔を持つ文字列か存在すると、該当する位置をスペー
スとして認識し、一つの文字列としてメモリ4に書込む
従って、スペースを持たない文字列rABcjとスペー
スを持つ文字列I’ 123− 5d lとが夫々−つ
の文字列として書込まれ、スペースを持つ文字列r F
 U N  B P、L TIと、スペースを1、へた
ない文字列「Δ」及びr 432、.1とか夫々−つの
文字列として書込まれる。
若し、文字列抽出部7が複数の文字列を一つの文字列と
して抽出することが出来なかった場合、又は、スペース
を持つ文字列がjjjjかった場合は、第2図に示ずヒ
ス1−グラ1の■に示ずグループ、又は■に示ずグルー
プが得られないが、この場合にはスペースを含む文字列
の有無をパラメータとして予め謁えれば良い。
〔発明の効果〕
以上説明した如く、本発明は図面から読取られたイメー
ジメモリの中から文字列を抽出する場合、文字間の距離
のヒストダラムをとるという簡易な手段で、意味のある
スペースを持つ文字列を抽出することが出来る。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は第1図の動作を説明する図、 第3図は本発明の一実施例を示す回路のブロック1図、 第4図は第3図の動作を説明する図、 第5図は従来の技術を説明するブロック図、第6図は第
5図の動作を説明する図である。 = 13− Hにおいて、 1はスキャナ、    2はイメージメモリ、3.7は
文字列抽出部、4はメモリ、 5は文字列抽出手段、6はデータ更新手段、8はヒスト
グラム作成部、 9は判定部、    10はテーク更新部である。 ヰ 乙n) C1r))。 V″ノ 第5閾(71)動作: 茶 す沈明す6図 乙 図

Claims (1)

  1. 【特許請求の範囲】 図面から読出された図形や文字等を記憶するイメージメ
    モリ(2)より、イメージデータを読出し、予め与えら
    れたパラメータに基づき、所定の大きさのイメージデー
    タを文字と判定し、該文字と判定されたイメージデータ
    が、該図面上において縦又は横方向に所定の間隔以下で
    連続する範囲を文字列として抽出する装置において、 該所定の間隔を広くしたパラメータに基づき文字列の抽
    出を行う文字列抽出手段(5)と、該文字列抽出手段(
    5)が抽出した文字列の前記イメージメモリ(2)上の
    各文字位置を示す座標情報から、各文字間の間隔のヒス
    トグラムを作成し、文字間隔に対応する間隔の分布状態
    と、空白文字に対応する間隔の分布状態と、文字列と文
    字列との間隔に対応する間隔の分布状態を求め、該間隔
    の文字列の中に含まれている空白文字を認識して文字列
    の抽出を行うことを特徴とする文字列抽出方式。
JP63089488A 1988-04-12 1988-04-12 文字列抽出方式 Pending JPH01260589A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63089488A JPH01260589A (ja) 1988-04-12 1988-04-12 文字列抽出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63089488A JPH01260589A (ja) 1988-04-12 1988-04-12 文字列抽出方式

Publications (1)

Publication Number Publication Date
JPH01260589A true JPH01260589A (ja) 1989-10-17

Family

ID=13972133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63089488A Pending JPH01260589A (ja) 1988-04-12 1988-04-12 文字列抽出方式

Country Status (1)

Country Link
JP (1) JPH01260589A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP2017084089A (ja) * 2015-10-28 2017-05-18 株式会社デンソーウェーブ 光学的情報読取装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032770A (ja) * 2000-06-23 2002-01-31 Internatl Business Mach Corp <Ibm> 文書処理方法、文書処理システムおよび媒体
JP2017084089A (ja) * 2015-10-28 2017-05-18 株式会社デンソーウェーブ 光学的情報読取装置

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP2011248702A (ja) 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体
JP2006338578A (ja) 文字認識装置
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JPH01260589A (ja) 文字列抽出方式
KR101676000B1 (ko) 은행, 통신사 또는 보험사와 개인 사이에서 생성된 디지털 문서 내의 지문 감지 및 보안처리 방법
US20010016071A1 (en) Image recognition method, image recognition apparatus, and recording medium
JP2890306B2 (ja) 表領域分離装置および表領域分離方法
JP2871590B2 (ja) 画像抽出方式
KR20000025647A (ko) 쉐이딩 알고리즘을 이용한 영상 처리 방법
WO2001093188A9 (fr) Procede de traitement de document, support sur lequel est enregistre un programme de traitement de document et processeur de document
JPS615383A (ja) 文字パタ−ン分離装置
JPS6254380A (ja) 文字認識装置
JP2003016385A (ja) 画像処理装置、方法、プログラム、及び記憶媒体
JPH11306282A (ja) 文字列領域抽出方法及び装置
CA2057412C (en) Character recognition system
JP2506071B2 (ja) 輪郭追跡装置
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPS5811663B2 (ja) 文字図形認識方式
JP4763113B2 (ja) 高速ラベリング方式
JP2522511B2 (ja) 画像輪郭追跡ユニット
JPH0578068B2 (ja)
JPH01311388A (ja) 光学文字読取装置
JP3009237B2 (ja) 特徴抽出方法