JPH0368093A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0368093A
JPH0368093A JP1204987A JP20498789A JPH0368093A JP H0368093 A JPH0368093 A JP H0368093A JP 1204987 A JP1204987 A JP 1204987A JP 20498789 A JP20498789 A JP 20498789A JP H0368093 A JPH0368093 A JP H0368093A
Authority
JP
Japan
Prior art keywords
character
characters
extracted
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1204987A
Other languages
English (en)
Inventor
Mikio Aoki
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1204987A priority Critical patent/JPH0368093A/ja
Publication of JPH0368093A publication Critical patent/JPH0368093A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野1 本発明は1紙面上に書かれた文字を画像として入力する
ことにより、文書画像から文字領域を抽出し、コード番
号に変換する文字認識装置に関する。
[従来の技術] 近年、文字認識装置の急激なる進歩により、様々な文書
画像から文字領域を自動的に抽出し、さらに一つ一つの
文字を切り出し、認識し、自動的に文書ファイルが作成
できる様になってきており文字の認識方法には様々な方
法が考え出されている。
例えば簡単な方法として文字のメツシュ特徴やペリフェ
ラル特徴を比較して認識する方法がある。該認識方法は
、研究実用化報告第34巻第1号P、P、47〜58に
掲載されており、メッシュ特徴は文字全体の大まかな形
状分布を表現したちのである。特徴の抽出方法は、文字
の外接短形を分割してnXnの小領域を求める。該各々
の小領域に含まれる文字部の面積を計数1メツシユ特徴
とする。該メツシュ特徴は、一つの文字につきnxnコ
のデータを持っており、nXnコのうちのある領域にお
ける文字部の面積の割合を辞書として所有しているデー
タと比較することによって文字の推定を行う、またペリ
フェラル特徴は、文字の周辺情報に着目したものであり
、特徴の抽出方法は、まず文字パターンの外接短形を求
め、外接短形の各辺をそれぞれn分割する0次に分割さ
れた各分割辺から文字に向かって走査していき。
最初に文字に出合うまでの面積2次に文字に出合うまで
の面積を計数する。各分割辺に対して同様の処理を行う
ことによりnX4X2のデータを持つペリフェラル特徴
を得ることができ、該nX4×2のデータと辞書として
所有しているデータとを比較することによって文字の推
定が可能となる。
以上の様な方法により、抽出した文字の特徴と辞書とし
て所有しているすべての文字のデータとを比較し最も近
い文字を選び出し、認識結果として出力している。
[発明が解決しようとする課題] しかしながら、前記方法の様に辞書として所有している
すべての文字データとの比較を行う場合、非常に認識に
時間がかかる。また、複数のフォントのデータ辞書を有
する場合、それぞれ専用の文字データ辞書を所有するた
め、メモリーの量を多く必要とする等の課題を有する。
そこで本発明は、以上の課題を解決するものでその目的
とするところは複数のフォントに対して少ないメモリー
で高速に認識する文字認識装置を提供することにある。
[課題を解決するための手段] 本発明の文字認識装置は。
(1)紙面等の反射光を光電変換して文書画像を入力す
る光学的画像入力手段と、前記入力画像から文字行及び
単語の位置を検知して一単語一単語を抽出する手段と、
前記抽出単語から一文字一文字を抽出し、あらかじめ所
有している文字データ辞書との比較を行いながら文字コ
ードに変換する文字認識手段と、抽出文字の特徴により
前記文字データ辞書中のどの文字と比較すれば良いかを
表すテーブルを具備することを特徴とする。
(2)前記テーブルは、抽出文字のフォントにより分類
されていることを特徴とする。
(3)前記テーブルは1文字データ辞書の特徴により分
類されていることを特徴とする。
[実 施 例] 以下本発明について実施例に基づいて詳細に説明する。
本発明の文字認識装置のブロック図を第1図に示す0文
字認識装置は、プログラムに従って処理を実行するCP
Ul01.文字画像を記憶装置に入力する画像入力装置
102.文字認識結果を表示する文字表示手段103.
認識用の文字データ辞書の納まっているROM104、
文字画像を記憶する記憶装置であるRAM105より構
成されている。
以下、本発明の文字認識装置の文字の認識方法を第5図
に示すフローチャートに基づいて、第2図、第3図及び
第4図を用いて詳細に説明する。
本発明の文字認識装置はまず初めに画像入力装置102
において光学的な方法により紙面等に書かれた文字をイ
メージデータとして記憶装置であるRAM105に入力
する0次に入力した文書画像から単!ll!iSl域の
抽出を行う、単語領域の抽出は、まず入力文書画像の行
方向の周辺分布を計数する。該周辺分布(図示せず)は
1文字行の存在する位置で値が大きくなり1文字行と文
字行との間は周辺分布の値が小さい、従って、該周辺分
布の値により文字行の位置を容易に推定することが可能
である0文字行の位置を推定すると次に推定文字行の行
方向と垂直な方向の周辺分布を計数する。該周辺分布(
図示せず)の値の大きいところは文字の存在している領
域であり、小さいところは文字の存在していない領域で
ある。従って1文字の存在していない領域を調べること
により、単語間隔と文字間隔の大きさが推定でき、単語
領域が抽出できる。
単語領域が抽出されると次は、抽出した単語内の一文字
一文字を抽出しながら認識を行う0本発明においては、
抽出された文字の認識は、抽出文字の外接短形の各辺の
分割辺から文字までの面積を特徴とする特許 字の認識は,抽出文字の特徴を抽出し、該特徴と辞書と
して所有しているすべての文字との比較を行い最も一致
したものを認識結果としている.そのため認識に要する
時間が非常に長くかかる.そこで、本発明においては、
文字の特徴により文字データ辞書中のどの文字と比較す
れば良いかを表すテーブルを使用し辞書との比較を行う
.例えば第3図に示す様なテーブルを使用する.該テー
ブルは、文字の特徴により分類している.分類のし方は
、第2図に示した様に、抽出文字かはねの存在する文字
第2図(a)であるか存在しない文字第2図(b)であ
るか、又,外接短形内の左上に文字画像が存在する文字
第2図(c)であるか否か、さらに外接短形内の右上の
領域に文字画像が存在する文字第2図(d)であるか否
かにより分類する.従って、3つの特徴で分類を行うの
で、第3図に示した様に■〜■の8つのグループに分類
することができる.尚、■〜■の対応は,以下の表に示
す。
第3図において、lで表わされている文字は。
抽出文字がそのグループと判断された場合に文字の比較
を行い,Oの場合には比較を行わなくてち良いことを表
す.第3図において表されている文字は,文字番号1〜
l2の合計12コの文字である.もし、該12コの候補
文字の中から、一文字を決定するとした場合,従来12
コのデータと比較しなければならt,1い.しかしなが
ら、本発明においては第3図に示す様に、■〜■の8つ
のグループに分類し、各グループごとに、比較する文字
はl,比較しない文字は0という様に分けてあり、該値
によりl2コのデータの中から必要なデータのみと比較
を行う.その結果、第3図に示した様に、3つか4つの
文字と比較するだけでl2コの文字中から一つの該当文
字を絞ることが可能となる.従って、対象文字が多くて
も、該テーブルを使用することにより非常に短い時間で
の認識が可能となる。
また、前記テーブルのかわりに第4図に示したテーブル
を使用する.該テーブルは,明朝体のabcdef及び
ゴシック体のabcdefの辞書との比較を表したもの
である.従来,明朝体のaからfまでの6文字及びゴシ
ック体のaからfまでの6文字の合計12文字を認識対
象とした場合には,辞書として12文字分のデータを所
有しなければならなかった.しかし、文字の中には、第
4図文字番号5、8、9に示した様にデータが非常に似
たちのがある.そこで、これらの文字を共有し,ゴシッ
ク体の場合は、テーブルに従って文字番号1.3、5、
6、8,9と,明朝体の場合は,テーブルに従って文字
番号2、4、5,7、8、9と比較し文字の決定を行う
.従って、同じ文字を認識するにも,非常に少ないメモ
リー量で認識することが可能となった.以上の様にして
文字の認識を行った後、文字表示手段103において認
識結果を出力して、認識の全ての動作を終了する。
【発明の効果] 以上述べた様に本発明は,文字の認識時において,抽出
文字と辞書中の文字との比較を行うか否かのテーブルを
用いて辞書との比較を行っているので、非常に高速に認
識することが可能となり、また、非常に少ないメモリー
量で認識することが可能となった.その結果、複数のフ
ォントに対して少ないメモリーで高速に認識する文字認
識装置を提供することが可能になった。
【図面の簡単な説明】
第1図は本発明の文字認識装置のブロック図。 第2図、第3図及び第4図は本発明の概要を示した図。 第5図は本発明の文字認識装置のフローチャート。 以上

Claims (3)

    【特許請求の範囲】
  1. (1)紙面等の反射光を光電変換して文書画像を入力す
    る光学的画像入力手段と、前記入力画像から文字行及び
    単語の位置を検知して一単語一単語を抽出する手段と、
    前記抽出単語から一文字一文字を抽出し、あらかじめ所
    有している文字データ辞書との比較を行いながら文字コ
    ードに変換する文字認識手段と、抽出文字の特徴により
    前記文字データ辞書中のどの文字と比較すれば良いかを
    表すテーブルを具備することを特徴とする文字認識装置
  2. (2)前記テーブルは、抽出文字のフォントにより分類
    されていることを特徴とする請求項1記載の文字認識装
    置。
  3. (3)前記テーブルは、文字データ辞書の特徴により分
    類されていることを特徴とする請求項1記載の文字認識
    装置。
JP1204987A 1989-08-08 1989-08-08 文字認識装置 Pending JPH0368093A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1204987A JPH0368093A (ja) 1989-08-08 1989-08-08 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1204987A JPH0368093A (ja) 1989-08-08 1989-08-08 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0368093A true JPH0368093A (ja) 1991-03-25

Family

ID=16499600

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1204987A Pending JPH0368093A (ja) 1989-08-08 1989-08-08 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0368093A (ja)

Similar Documents

Publication Publication Date Title
US4903312A (en) Character recognition with variable subdivisions of a character region
JP3086702B2 (ja) テキスト又は線図形を識別する方法及びデジタル処理システム
JP2627928B2 (ja) 画像認識装置
US5455871A (en) Detecting function words without converting a scanned document to character codes
US6272238B1 (en) Character recognizing method and apparatus
Han et al. Off-line cursive handwriting segmentation
JPH0368093A (ja) 文字認識装置
JPH0350692A (ja) 文字認識装置
JPH0281189A (ja) 文字認識方法
JP2788506B2 (ja) 文字認識装置
JPH0371380A (ja) 文字認識装置
JPH0273484A (ja) 文字認識方法
JPS6227887A (ja) 文字種分離方式
JPH0262682A (ja) 文字認識方法
JP3072126B2 (ja) 書体を識別する方法及び装置
Anuraj et al. A Hybrid Decision Tree for Printed Sinhala Character Recognition Using SVMs
Abdulatif et al. Smart glasses robot for blind people using raspberry-pi and python
JPS63269267A (ja) 文字認識方法
Soua et al. Efficient multiscale and multifont optical character recognition system based on robust feature description
JPS6089290A (ja) パタ−ン認識方法
Buchowski et al. OMNIREC: a character recognition system
JP2749425B2 (ja) 記事抽出方式
JPH0281283A (ja) 文字認識方法
JPS60110089A (ja) 文字認識装置
Kruatrachue et al. Automatic Thai and English fonts identification without character recognition