JPH0281283A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH0281283A
JPH0281283A JP63234018A JP23401888A JPH0281283A JP H0281283 A JPH0281283 A JP H0281283A JP 63234018 A JP63234018 A JP 63234018A JP 23401888 A JP23401888 A JP 23401888A JP H0281283 A JPH0281283 A JP H0281283A
Authority
JP
Japan
Prior art keywords
character
segments
characters
strokes
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63234018A
Other languages
English (en)
Inventor
Mikio Aoki
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP63234018A priority Critical patent/JPH0281283A/ja
Publication of JPH0281283A publication Critical patent/JPH0281283A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、紙面上に書かれた文字を画像として入力する
ことにより、文書画像から文字領域を捜し出しコード番
号に変換する文字認識装置の文字認識方法に関する。
〔従来の技術〕
近年、文字認識装置の急激なる進歩により、さまざまな
文書画像から文字領域を自動的に抽出し、さらに一つ一
つの文字を切り出し、認識し、自動的に文書ファイルが
作成できるようになってきており、文字の認識方法はさ
まざまな方法が考え出されてきている。
例えば、文字認識方法の一つとしてメツシュ特徴(研究
実用化報告 第34巻 第1号 P、  P。
47〜57)がある。該方法は、文字全体の大まかな形
状分布を表現したものである。特徴の抽出方法は、文字
の外接矩形を分割してnxnの小領域を求める。該各々
の小領域に含まれる文字部の面積を計数してメツシュ特
徴とする。該メツシュ特徴は、一つの文字につきnXn
コのデータを持っており、nXnコのうらにある領域に
おける文字部の面積の割合を辞書として所有しているデ
ータと比較することによって文字の推定が可能となる。
また、他の方法として、ペリフェラル特徴(研突尖用化
報告 第34巻 第1号 P、  P、 47〜57)
がある。該方法は、文字の周辺情報に着目したものであ
る。特徴の抽出方法は、まず文字パターンの外接矩形を
求め、外接矩形の各辺をそれぞれn分割する。次に分割
された分割辺から文字に向かって走査していき、最初;
こ文字に出合うまでの面積、次に文字に出合うまでの面
積を計数する。各分割辺に対して同様の処理を行うこと
により、nX4X2のデータを持つペリフェラル特徴を
得ることができ、該nX4X2のデータと辞書として所
有しているデータとを比較することによって文字の推定
か可能となる。
〔発明が解決しようとする課題〕
しかしながら、前記文字認識方法のメツシュ特徴やペリ
フェラル特徴のみでは、候補文字を一つに絞るには非常
に長い時間がかかり、また、候補文字を一つに絞ること
は困難である。
ペリフェラル特徴やメツシュ特徴による文字認識方法は
、既に述べた様に各文字ごとのデータを所有しており、
該データをすべての文字について比較を行い候補文字を
絞っている。従って英文字の場合、常に最低52文字の
データと比較して候補文字を絞っているわけてあり、ま
た、日本語文字の認識を行う場合には候補文字の数か膨
大なものとなり、候補文字を絞るのにかなりの時間を要
する。また、たとえ時間が短くなったとしても、認識の
対象が日本語文字であった場合、例えば、「右」と「石
」、白」と「日」の様にほんの少しの違いによって全く
違う文字になってしまうことが多く、今までの認識方法
では候補文字を完全に絞ることは不可能であった。
また、前記認識方法は、文字の外接矩形を用いて、外接
矩形の内部での線の位置情報、文字の形状等に着目した
ものであるため、極端に変形した文字についての認識は
不可能であり、特に手書き文字の認識には全く適してい
ない。
そこで本発明は、以上の様な課題を解決するもので、そ
の目的とするところは、対象文字に限定されずに、高速
かつ正確に認識結果を出す文字認識方法を提供すること
にある。
〔課題を解決するための手段〕
本発明の光学的画像入力手段により紙面等に書かれた文
字画像を読み取り、入力された画像データ中の文字を認
識しコード番号に置き換える文字認識方法は、 切り出し文字画像の交点の位置及び線分の端点の位置の
情報により文字のストロークを抽出し文字を推定するこ
とを特徴とする。
〔実 施 例〕
以下、本発明を実施例に基ついて詳細に説明する。
本発明の文字認識方法は、一般に第3図のブロック図に
示す様なハードウェアにおいて用いられる。該ハードウ
ェアは、認識対象文書画像を入力するための画像入力装
置24、画像入力装置24によって入力された画像情報
及び演算結果を蓄えるRAM22、演算を実行するCP
U21、文学誌1徹のための辞書データ及び演算のプロ
グラムが納まっているROM23、及び認識結果を表示
するデイスプレィ25により(19i成されている。
以下、本発明の文字認識方法を第4図に示すフローチャ
ートに従って詳細に説明する。
ブロックAにおいて認識対象となる文字画像が入力され
る。この時、画像入力装置34の読み取り幅によって入
力された文字画像はさまざまであるが、通常複数行の文
字画像が入力される。
ブロックBにおいて、文字画像の行方向の周辺分布を計
数する。該周辺分布をみることにより、文字行の位置及
び行幅を知ることができる。また該行幅より、文字のだ
いたいの大きさを推定することができる。
ブロックCにおいては、ブロックBにおいて抽出された
文字行の垂直方向の周辺分布を計数する。
該周辺分布より、文字間隔、文字位置等の情報が得られ
、−文字一文字の文字の切り出しが可能となる。
ブロックDにおいては、ブロックCにおいて抽出された
文字の認識を行う。本発明の文字認識方法は、抽出され
た文字の交点の位置及び線分の端点を位置の情報により
ストロークを抽出して文字を推定する。具体的に第1図
及び第2図を用いて説明する。今、第1図(a)に示す
「右」という文字が抽出されたとする。該文字より、■
で示される4つの線分の端点、■で示される2つの線分
の交点、■で示される3つの線分の接点が抽出される。
以上の線分の交点及び線分の端点の情報を用いて文字を
線分に分解すると、第1図(b)の1〜6に示す6本の
線分になる。また、分解した6つの線分には、「右」と
いう文字における線分の交点、端点等の情報が残されて
いる。従って、線分の端点■、線分の交点■、線分の接
点■の対応を明確にしておくことにより、線分に分解し
た後も線分の文字における位置付けが分かる。この後、
分解された線分を用いて文字のストロークを抽出する。
本実施例においては、文字のストロークを左上から右下
の順序に抽出を行う。既に述べた様に、線分における線
分の交点、端点等の情報が残されているので、一つ一つ
の線分の他の線分との位置関係が明確である。そこで、
分解された線分を左上から右下の順序に並び換えると、
第1図(b)の1〜6の順序に線分が並ぶ。従って1〜
6の順序の線分が文字「右」のストロークとなる。同様
に第2図(a)に示した文字「石」のストロークを抽出
すると、第2図(b)の7〜12の順序の線分で示され
るストロークが抽出できる。
従って、従来の方法においては非常に区別しにくかった
文字も容易に区別できる。また、ストロークによって文
字の推定を行うので、すべての文字と比較する必要がな
く、階層的に候補文字を絞っていくことが可能である。
従って、対象文字が英文字であろうと、日本語文字であ
ろうと、認識に要する時間は殆んど変わりなく短時間で
できる。
さらに、本発明はストロークによる文字の推定であるた
め、対象文字が活字印刷文字であろうと、手書き文字で
あろうと容易に文字の認識が可能である。
以上の様にして文字の認識が終了すると、入力文字画像
のすべての文字の認識が終了するまで、ブロックC1ブ
ロックDの行程、さらにブロックB1ブロックC1ブロ
ックDの行程を繰り返す。
すべての文字の認識が終了すると、ブロックEにおいて
、デイスプレィ25等の表示装置に結果を表示して終了
する。
本実施例はストロークの抽出において、左上から右下の
順序に抽出を行ったが、順序はこれに限定されるもので
はなく、いかなる順序でも規則性を持って抽出すれば良
い。
〔発明の効果〕
以上述べた様に本発明によれば、抽出された文字の線分
の交点の位置及び線分の端点の位置の情報により文字の
ストロークを抽出して文字の推定を行うので、非常に似
た文字であっても正確な文字の推定が可能であり、また
文字のストロークで推定を行うので、階層的に候補文字
を絞ることが可能となり、候補文字の数に関係なく、殆
んど一定の短時間での文字の指定が可能となる。さらに
ストロークを抽出して文字の推定を行うため、対象文字
画像が印刷活字であろうと、手書き文字であろうと変わ
り無く文字の推定が可能である。よって、本発明は、文
字認識装置の速度と信頼性を多いに向上させ、また用途
を拡大するものである。
【図面の簡単な説明】
第1図(a)(b)に本発明の文字認識方法を示した図
。 第2図(a)(b)に本発明の文字認識方法を示した図
。 第3図に本発明の文字認識方法が用いられる文字認識装
置のブロック図。 第4図に本発明の文字認識方法のフローチャート。 を示す。 ■・ ■・ ■・ 21 晦 23 ・ 線分の端点 線分の交点 線分の接点 PU AM OM 画像入力装置 ・デイスプレィ ・ブロックA ・ブロックB ・ブロックC ・ブロックD ・ブロックE 出願人 セイコーエプソン株式会社 代理人 弁理士 上 柳 雅 誉(他1名)第1図(a
) 第1図(b)

Claims (1)

  1. 【特許請求の範囲】 光学的画像入力手段により紙面等に書かれた文字画像を
    読み取り、入力された画像データ中の文字を認識しコー
    ド番号に置き換える文字認識方法は、 切り出し文字画像の交点の位置及び線分の端点の位置の
    情報により文字のストロークを抽出し文字を推定するこ
    とを特徴とする文字認識方法。
JP63234018A 1988-09-19 1988-09-19 文字認識方法 Pending JPH0281283A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63234018A JPH0281283A (ja) 1988-09-19 1988-09-19 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63234018A JPH0281283A (ja) 1988-09-19 1988-09-19 文字認識方法

Publications (1)

Publication Number Publication Date
JPH0281283A true JPH0281283A (ja) 1990-03-22

Family

ID=16964269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63234018A Pending JPH0281283A (ja) 1988-09-19 1988-09-19 文字認識方法

Country Status (1)

Country Link
JP (1) JPH0281283A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071777A (ja) * 2014-10-01 2016-05-09 株式会社東芝 電子機器、処理方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016071777A (ja) * 2014-10-01 2016-05-09 株式会社東芝 電子機器、処理方法およびプログラム

Similar Documents

Publication Publication Date Title
Lu Machine printed character segmentation—; An overview
US4903312A (en) Character recognition with variable subdivisions of a character region
KR100658119B1 (ko) 문자 인식 장치 및 방법
EP1564675B1 (en) Apparatus and method for searching for digital ink query
CN106940799B (zh) 文本图像处理方法和装置
US4813078A (en) Character recognition apparatus
EP0436819B1 (en) Handwriting recognition employing pairwise discriminant measures
JPH05242292A (ja) 分離方法
JPH06348896A (ja) 文字の切り出し方法及びその装置
Lawgali et al. Automatic segmentation for Arabic characters in handwriting documents
JPH0281283A (ja) 文字認識方法
Nguyen et al. Enhanced character segmentation for format-free Japanese text recognition
Mashiyat et al. Bangla off-line handwritten character recognition using superimposed matrices
JPH0350692A (ja) 文字認識装置
JP2000231602A (ja) 特徴抽出装置
El Makhfi et al. Scale-space approach for character segmentation in scanned images of Arabic documents
JPH0281189A (ja) 文字認識方法
Rao et al. Font and size identification in Telugu printed document
Fadeel An efficient segmentation algorithm for arabic handwritten characters recognition system
KR102014434B1 (ko) 필기 문서의 문자 판정 장치 및 방법
JP2982221B2 (ja) 文字読み取り装置
JPH0262682A (ja) 文字認識方法
CN113971802A (zh) 字符分割装置和方法
Djaghbellou et al. A survey on text-line segmentation process in historical Arab manuscripts.
Soua et al. Efficient multiscale and multifont optical character recognition system based on robust feature description