JPH01265378A - 欧文文字認識方式 - Google Patents

欧文文字認識方式

Info

Publication number
JPH01265378A
JPH01265378A JP63093819A JP9381988A JPH01265378A JP H01265378 A JPH01265378 A JP H01265378A JP 63093819 A JP63093819 A JP 63093819A JP 9381988 A JP9381988 A JP 9381988A JP H01265378 A JPH01265378 A JP H01265378A
Authority
JP
Japan
Prior art keywords
word
characters
dictionary
distribution
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63093819A
Other languages
English (en)
Inventor
Jun Sato
純 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63093819A priority Critical patent/JPH01265378A/ja
Publication of JPH01265378A publication Critical patent/JPH01265378A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [概要] 欧文文書を光学的に読取って認識する欧文文字認識方式
に関し、 文字間隔が狭く文字同志が接触している場合にも、短時
間の処理で正しい認識結果か得られることを目的とし、 欧文文字行の中から単語を切出して単語単位で幾何学的
特徴、即ち、単語内の縦線分布、単語内の縦方向線密度
分布fi、及び又は単晶R内のループ部分の分布を抽出
し、抽出した単語の幾何学的特徴と辞書に登録された各
単語の幾何学的特徴との距離を演算して最も合致する単
語を判定するように構成する。
[産業上の利用分野] 本発明は、欧文文書を光学的に読取って認識する欧文文
字認識方式に関する。
文字読取装置における文字認識方式にあっては、光学的
に読取った文書中の文字の領域を1個ずつ決定して文字
切出しを行なって上で文字の特徴を抽出し、辞書に登録
された各文字の特徴との距離を演算して最も合致する文
字を判定しており、文字認識率を向上させることが望ま
れる。
[従来の技術] 従来の欧文文字の認識方式にあっては、光学的に読取っ
た欧文文書中の文字領域を1個ずつ決定して文字を切出
し、切出された文字単位で辞書との比較(距離演算)に
より文字を認識している。
[発明が解決しようとする課題] しかしながら、文書中の文字領域を1個ずつ決定した上
で文字を切出して認識する従来方式にあっては、文字間
隔が狭いことによって隣接する文字同志が接触している
場合等には、正常に文字切出しが行なわれず、正しい文
字認識結果が得られない場合がある。
また、文字切出しの誤りを修正するために、複数の切出
し候補について文字認識をおこなう方式や、切出し位置
を変化させながら文字認識を行ない、適切な認識結果が
得られるまで処理を繰り返す方式等が試みられている しかし、これらの方式は試行回数が増大するために処理
時間が長くなるという問題がある。
特に文字間隔が狭い場合の欧文文字の文字切出しの困難
さは、各文字部分の切出し範囲を幾何学的な条件のみに
J:り推定していることに起因している。
例えば日本語の活字認識においては、「文字は略正方形
であり、且つ各文字の幅は略一定である。
」という幾何学的条件を用いて各文字範囲を推定するこ
とが可能であるが、欧文の場合には、文字の種類によっ
て文字幅が変化するため、このような単純な条件は使用
できない。例えば、rmJは「i」の2倍以上の文字幅
をもっている。
このため欧文の個々の文字範囲を推定するためには、幾
何学的条件のみならず、文字としてのル2識結果を利用
して「文字としての妥当性」を確五2して各文字の範囲
を決定する必要がある。
しかし、1文字としての妥当性」を判定するだけでは不
十分な場合がある。例えばl”rnJという文字画像は
、2つに分割してrr J 十In Jとも認識可能で
あるし、1つに統合してrm Jとも認識可能である。
rr J + 「n Jか「m」かは意味判断を伴わず
に判定することは困難且つ不確実であり、この結果、欧
文の文字認識をより一層困難なものにしている。
本発明は、このような従来の問題点に鑑みてなされたも
ので、文字間隔が狭く文字同志が接触している場合にも
、短時間の処理で正しい認識結果が得られる欧文文字認
識方式を提供することを目的とする。
[課題を解決するための手段] 第1図は本発明の原理説明図である。
第1図において、欧文文士を光学的に読取った画像入力
による文字行の中から単語切出し部10によって単語を
切出し、特徴抽出部12により切出した単語の幾何学的
特徴を特徴を抽出する。単語の幾何学的特徴としては、
例えば、単語内の縦線分布、単語内の縦方向線密度分1
1i、及び又は点後内のループ部分の分布を抽出する。
更に、各単語の幾何学的特徴を予め登録した辞書14が
設けられる。辞書14にも各単語毎に単語内の縦線分布
、単語内の縦方向線密度分布、及び又は単語内のループ
部分の分布が単語の特徴として登録されている。
そして、特徴抽出部12で抽出された単語の幾何学的特
徴と辞書14に登録された各単語の特徴との距離を演算
して最も合致する単語を判定部16により判定する。
[作用] このような本発明の欧文文字認識方式にあっては、欧文
文書のもつ特徴として「分かち書きにより単語単位で分
割されている」点に着目し、単語単位に幾何学的条件、
即ち、単語内の縦線分布、単語内の縦方向線密度分布、
単語内のループ部分の分布等を判定しつつ単語としての
意味判定を行なうことにより、確実に欧文文書を認識す
ることができる。
また文字切出しは単語単位で行なうことから、文字間隔
が狭い場合であっても、単品単位の分かち書きによって
単語間のスペースから確実に単語単位の切出しができ、
文字単位の切出しのような困難さは解消され、更に単語
単位で切出して認識することから文字単位の切出し認識
に比べ認識処理時間も大幅に短縮できる。
[実施例] 第2図は本発明の一実施例を示した実施例構成図である
第2図において、18は画像入力部であり、欧文文書を
光学的に読取り、光学的な読取りで得られたアナログ画
像信号を2値画像データに変換して画像メモリ20に格
納する。22は行抽出部であり、画像メモリ20に格納
された欧文文書の画像データの中から行毎の画像データ
を抽出して行画像メモリ24に1行分の画像データを記
憶する。
26は縦投影作成部であり、行画像メモリ24に蓄積さ
れた1行文の画像データを読出して縦投影データを作成
する。縦投影作成部26で作成された1行文の画像デー
タの縦投影データは縦投影判別部28に与えられ、縦投
影判別部28で単語間の空白を検出して単語の範囲を決
定する。縦投影判別部28で!li語の範囲が決定され
ると、この決定情報を受けて単語切出し部10が1行文
の画像データの中から単語データを切出して単語画像メ
モリ30に格納する。
単語画像メモリ30に1行文の各単語データが格納され
ると、特徴抽出部12が起動し単語画像メモリ30から
1つづつ単語画像データを取り込んで単aRの幾何学的
特徴を抽出する。
特徴抽出部12で抽出される単語の幾何学的特徴として
は、 (a)単語内の縦線分イ[ (b)単語内の縦方向線密度分布 (C)単語内のループ部分の分布 をli:iの幾何学的特徴として抽出する。この実施例
にあっては、単語内の縦線分布と単語内の縦方向線密度
分布の2つを幾何学的条件として抽出している。更に単
語の幾何学的特徴として、例えば単語の上凸カーブの分
布や下凸カーブの分布等を抽出してもよい。
一方、14は辞書であり、欧文の各単語毎に特徴抽出部
12で抽出する単語の幾何学的特徴と同じ特徴を予め抽
出した結果が各単語単位で登録されている。
16は判定部であり、距離計算部32と単語判定部34
を備える。距離計算部32は特徴抽出部12より抽出さ
れた単語の幾何学的特徴−の入力を受けたときに、辞書
14に予め登録されている各単語の幾何学的特徴との間
の距離(相違度〉を演算する。単語判定部34は距離計
算部32の各単語毎の計算距離を受けて最も計算距離の
小さい単語を認識結果として判定する。
次に第3図の認識処理説明図を参照して第2図の実施例
の動作を説明する。
今、行抽出部22により行画像メモリ24に格納された
1行文の画像データの中から単品切出し部10により単
語画像メモリ30に第3図に示すrcommun i 
cat i onJが切出されたとする。この単語画像
メモリ30の単語について、特徴抽出部12は第3図に
示すように縦線分布としての縦線特徴、及び縦方向線密
度としての線密度特徴のそれぞれを抽出する。すなわら
、縦線特徴とは入力単語r COm m u n ! 
Ca j I On Jの単語内における縦方向の線分
布でおり、一方、線密度特徴とは入力単語rcommu
n i caTionJにお【プる横方向の線密度を加
算したデータである。例えばrcJを例にとると、横方
向に2本の線成分が存在することから1凸」状の線密度
特徴が抽出される。
一方、辞書14には例えば[commu n i ca
teJに対応した縦線特徴及び線密度特徴のそれぞれが
登録されている。
その結果、距離計締部32では特徴抽出部12で抽出さ
れた入力単語rcommun i cat 1onJの
縦線特徴及び線密度特徴のそれぞれにつき、辞書14に
登録された辞書単語[commun i cateJの
縦線特徴及び線密度特徴との間の距離を針線し、この距
離の計算結果から単語判定部34において入力中m9 
[COm m u n j CationJに対し距離
の最も小さい辞書単語がrcommun i cate
Jであることを判定し、更に入力単語の語尾[1onJ
と辞書単語の語尾「e」の相違から入力単語が名詞形「
commun i cat i onJであることを最
終的に判定して入力単語を認識することができる。
尚、上記の実施例はt4j語の幾何学的特徴として縦線
分布及び縦方向線密度の分布の2つを用いた場合を例に
とるものであったが、これに加えて単品内のループ部分
の分布等を特徴として抽出するようにしてもよい。
[発明の効果コ 以上説明してきたように本発明によれば、欧文文字の認
識において文字フォント(字形)や文字サイズが異なっ
たり、文字間隔に広狭・があっても単語単位に得られる
所定の幾何学的特徴を抽出することにより文字同志が接
触している場合にあっても正確に文字を認識して読取る
ことができる。
また、単語単位で1回だけ特徴抽出及び辞書検索を行な
う方式であるため、従来の文字単位での特徴抽出及び辞
書検索する方式に比べ、認識処理を高速化することがで
きる。例えば、抽出する特徴次元数を同一にすると従来
方式に比べ、本発明にあっては平均で5倍程度高速の処
理を実現することができる。
【図面の簡単な説明】
第1図は本発明の原理説明図: 第2図は本発明の実施例構成図: 第3図は本発明の詳細な説明図である。 図中、 10:単語切出し部 12:特徴抽出部 14:辞庄 16二判定部 18:画像入力部 20:画像メモリ 22:行抽出部 24:行画像メモリ 26:縦投影部 28二縦投影判別部 30:単語画像メモリ 32:距離計算部 34:単語判定部 イζ発日月、V刀に4δ話−日月匹a 第1図

Claims (2)

    【特許請求の範囲】
  1. (1)欧文文言を光学的に読取つて認識する欧文文字認
    識方式に於いて、 欧文文字行の中から単語を切り出す単語切出し部(10
    )と; 該単語切出し部(10)で切り出された単語の幾何学的
    特徴を抽出する特徴抽出部(12)と;各単語の幾何学
    的特徴を予め登録した辞書(14)と; 前記特徴抽出部(12)で抽出された単語の幾何学的特
    徴と前記辞書(14)に登録された各単語の特徴との距
    離を演算して最も合致する単語を判定する判定部(16
    )と; を備えたことを特徴とする欧文文字認識方式。
  2. (2)前記単語の幾何学的特徴として、単語内の縦線分
    布、単語内の縦方向線密度分布及び又は単語内のループ
    部分の分布を用いることを特徴とする請求項1記載の欧
    文文字認識方式。
JP63093819A 1988-04-15 1988-04-15 欧文文字認識方式 Pending JPH01265378A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63093819A JPH01265378A (ja) 1988-04-15 1988-04-15 欧文文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63093819A JPH01265378A (ja) 1988-04-15 1988-04-15 欧文文字認識方式

Publications (1)

Publication Number Publication Date
JPH01265378A true JPH01265378A (ja) 1989-10-23

Family

ID=14093006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63093819A Pending JPH01265378A (ja) 1988-04-15 1988-04-15 欧文文字認識方式

Country Status (1)

Country Link
JP (1) JPH01265378A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003069914A (ja) * 2001-08-29 2003-03-07 Matsushita Electric Ind Co Ltd Url情報取得装置
US7403657B2 (en) 2001-03-22 2008-07-22 Hitachi, Ltd. Method and apparatus for character string search in image

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7403657B2 (en) 2001-03-22 2008-07-22 Hitachi, Ltd. Method and apparatus for character string search in image
JP2003069914A (ja) * 2001-08-29 2003-03-07 Matsushita Electric Ind Co Ltd Url情報取得装置
JP4575630B2 (ja) * 2001-08-29 2010-11-04 パナソニック株式会社 Url情報取得装置

Similar Documents

Publication Publication Date Title
JP2000353215A (ja) 文字認識装置および文字認識プログラムを記録した記録媒体
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPS63182793A (ja) 文字切り出し方式
JPH04195692A (ja) 文書読取装置
JPS63216189A (ja) 文字認識方法
Baird Global-to-local layout analysis
JPH01265378A (ja) 欧文文字認識方式
Ymin et al. On the segmentation of multi-font printed Uygur scripts
JP2000331122A (ja) 文字認識方法および装置
Ting et al. A syntactic business form classifier
JP3457094B2 (ja) 文字認識装置及び文字認識方法
Amin Recognition of printed Arabic text using machine learning
JP3193573B2 (ja) かぎかっこ付文字認識装置
JPH02230484A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH05174185A (ja) 日本語文字認識装置
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH0433075B2 (ja)
JP2963474B2 (ja) 類似文字識別方法
JPS62169287A (ja) 記載文字形態判別方式
JPH0816720A (ja) 文字認識装置
JPH1069522A (ja) 文字認識装置及び文字認識方法並びに文字認識方法を記録した記録媒体
JPH0576674B2 (ja)
JPS62145485A (ja) 文字認識方式
JPS6160184A (ja) 光学的文字読取装置