JPH0468483A - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JPH0468483A
JPH0468483A JP2180804A JP18080490A JPH0468483A JP H0468483 A JPH0468483 A JP H0468483A JP 2180804 A JP2180804 A JP 2180804A JP 18080490 A JP18080490 A JP 18080490A JP H0468483 A JPH0468483 A JP H0468483A
Authority
JP
Japan
Prior art keywords
character
word
recognition
feature
position information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2180804A
Other languages
English (en)
Other versions
JP2985243B2 (ja
Inventor
Ryoichi Yushimo
良一 湯下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2180804A priority Critical patent/JP2985243B2/ja
Publication of JPH0468483A publication Critical patent/JPH0468483A/ja
Application granted granted Critical
Publication of JP2985243B2 publication Critical patent/JP2985243B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は英文字のように複数の文字で構成された単語を
複数個並べて表現された文章の認識を行う文字認識方法
に関するものであも 従来の技術 近蝦 文字認識装置をコンピュータ等の入力装置として
利用する要求が高まっており、安定な認識結果を効率的
に得ることのできる文字認識装置がコンピュータ等のシ
ステムの性能向上に不可欠となっていも 従来の文字認
識の方法として認識対象文書から文章領域及び文字領域
を順次切り出し 文字領域に存在する文字−つ一つの画
像データから図形特徴を抽出し 予め用意された辞書と
比較することにより認識結果を得るものかあった[発明
が解決しようとする課題] 上記で説明した従来の文字認識の方式1表 各文字に注
目して認識処理を行っており、文字領域を切り出す処理
の正確さが認識性能を決める一つの大きな要因となって
いも しかしながら一般的な文書にはノイズやつぶれに
よる文字間の接触が多く存在するA 文字領域を正確に
切り出すのが困難となり認識率の低下を招いていた [課題を解決する為の手段] 本発明は上記問題点を解決するA 文字の切り出し処理
より単語の切り出し処理が安定である事に注目し 認識
対象文書から文字領域を切り出す前に単語領域を切り出
し その図形特徴と単語辞書とを比較する事により認識
結果を得る認識処理部を従来の文字認識処理の前段とし
て設ζ上 文字切り出し処理の影響を最小限に抑えるよ
うにした[作用] 本発明において、認識処理の前段として、単語領域を切
り出し限定した単語に対して認識処理を行うた6  L
l識速度を低下する事なく、文字切り出し処理の影響を
最小限に抑え認識性能を向上させることが可能となも [実施例] 以下、本発明の一実施例を添付図面とともに説明すも 
第1図は本実施例の文字認識方法を用いた文字認識装置
の構成を示すブロック図であa第1図において、 ■は
認識対象文書を文書画像として入力する画像入力部であ
ム 2は入力された文書画像から文字列の集まりを見つ
け、文章領域を出力する文章領域切り出し部であa 3
は文書領域から単語単位の区切りを見つけ1つの単語の
範囲を単語領域として出力する単語切り出し部であム 
4は単語領域から文字単位の区切りを見つけ1つの文字
の範囲を文字領域として出力する文字切り出し部であ7
)。 5は単語領域から抽出した図形特徴と、出現頻度
にて限定した単語の図形特徴を基に作成された限定単語
特徴辞書7とを比較し 特徴が一致した単語を認識結果
として出力する1次認識処理部であム 6は文字領域か
ら抽出した図形特徴と、認識対象となる全ての文字の図
形特徴を基に作成された文字特徴辞書8とを比較し 特
徴が一致した文字を認識結果とする2次認識処理部であ
a 7は出現頻度にて限定した単語の図形特徴を基に作
成された限定単語特徴辞書であム 8は認識対象となる
全ての文字の図形特徴を基に作成された文字特徴辞書で
あム 9は画像入力部1文章切り出し部2等の各部を図
のようにつなぐ内部バスであ&  10は1次認識処理
部5と限定単語辞書7とをつなぐ内部バスであも 11
は2次認識処理部6と文字特徴辞書8とをつなぐ内部バ
スであ4 以上のように構成された本実施例の文字認識装置を用い
た文字認識装置について、第2図に全体の処理の流れ図
を、第3図に具体的な一例を示し以下その動作を説明す
も 認識したい文書を画像入力部にて文書画像として入
力する(処理12)。
入力された文書画像を文章領域切り出し部2に送り、文
章領域切り出し部2にて文書画像の縦方向及び横方向の
黒画素のヒストグラムを求へ これをもとに文章領域を
見つけも そして文章領域の位置情報を内部データとし
て蓄える(処理13)。
単語切り出し部3に文章領域の位置情報を送り、文章領
域内に対する単語切り出し処理を行う。単語切り出し部
3では単語の前後のスペースが単語内の文字間よりも大
きいことに注目し ある幅以上のスペースに挟まれた文
字列を単語として切り出し 文章領域内の全ての単語の
位置情報を求へ内部データとして蓄える(処理14)。
第3図中の24を文章領域切り出し結果とした時へ 単
語切り出し結果を同図中25に示す。以下、処理15か
ら処理22(よ 求められた単語の位置情報を文章領域
の左上端から全ての単語に対して繰り返して行うことを
前提として説明すも 単語切り出し処理にて求められた
単語の位置情報を1次認識処理部5に送り、 1次認識
処理部5ではその位置情報にて定まる単語領域内の図形
特徴を束数 出現頻度が高い順に限定した単語の図形特
徴を基に作成された限定単語特徴辞書7と比較し特徴が
一致した単語を1次認識処理部5における認識結果とす
ム 一致する単語が存在しない場合はりジェツト、すな
わち棄却として後段に伝える(処理15)。限定単語辞
書は出現頻度が高い順に限定し作成される力丈 ここで
は一般的に出現頻度が高いと考えられる3文字以内の特
別動職 助動風 人称代名職 冠職 前置詞を限定単語
として作成し九 第3図中26が1次認識処理の結果で
あり、’ she’、’ is’、’ the’、°O
f°、1mylは限定単語に含まれたム 認識さi’l
、  ’dBughter’、’ friend’は含
まれないム リジェクトされたことを示していも一次認
識処理部5にて認識された場合は認識結果を出力し 処
理21に処理を移す(処理16.22)。リジェクトさ
れた場合は次の処理を行う(処理16)。−次認識処理
部5にてリジェクトされた単語を文字切り出し部4に送
り、縦方向の黒画素のヒストグラムの変化により一文字
ずつ区切り、単語領域内に存在する全ての文字の位置情
報が求められる(処理17)。第3図中27が文字単位
に切り出された結果であム 求められた文字の位置情報
は左端から2次認識処理部6に送られ 文字単位の認識
処理が行われ42次認識処理部6では送られてきた文字
の位置情報をもとに文字の図形情報を抽出し これと認
識対象となる全ての文字の図形特徴を基に作成された文
字特徴辞書8とを比較し 特徴が一致した文字を認識結
果として出力する(処理18、19)。処理18から処
理20を処理17にて求められた文字の総数の回数繰り
返し 一つの単語の認識を完了させも 第3図中28に
2次認識処理の結果を示す。
以上 処理15から処理22を、文章領域の左上端から
全ての単語に対して繰り返して行うことにより、文章領
域内の単語全てが認識処理され事となり、 1次認識処
理に於ける認識結果及び2次認識処理に於ける認識結果
を組合せ、最終的な認識結果を得ることが出来も 第3
図中29に認識結果を示す。口供 ’ she’、+ 
is+、’ the’、’ of’、°my’が1次認
識処理結果であり、’ daughter’、’ fr
iend’が2次認識処理結果であ4 [発明の効果コ 以上説明したように本発明は単語を切り出してRA語と
しての特徴から文字認識を行なうので、文字切り出し処
理の影響を最小限に抑えることが出来 処理速度の低下
を招くことなく、安定な認識結果を得ることが出来も
【図面の簡単な説明】
第1図は本発明の一実施例における文字認識方法を用い
た文字認識装置の構成を示すブロック医第2図は本実施
例の制御手順を示すフローチャート、第3図は処理過程
での認識対象文字ダ土 認識結果を示す説明図であa 1・・・画像人力訊 2・・・文章領域切り出し餓 3
・・・単語切り出し熾 4・・・文字切り出し服 5・
・・1次認識処理訊 6・・・2次認識処理皿 7・・
・限定単語特徴辞書、 8・・・文字特徴辞書、代理人
の氏名 弁理士 粟野重孝 ほか1名第1図 第 図 第 図 認識結果: he he daughter f y f「 end、 −29

Claims (1)

  1. 【特許請求の範囲】 認識すべき文字画像を読み取り、 読み取った文字画像データから単語を切り出し、切り出
    された各単語の画像データの特徴と単語辞書とを比較し
    て各単語を認識し、 認識できなかった単語から該単語を構成する文字を切り
    出し、 切り出された各文字の画像データの特徴と文字辞書とを
    比較して各文字を認識する ことを特徴とする文字認識方法。
JP2180804A 1990-07-09 1990-07-09 文字認識方法 Expired - Lifetime JP2985243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2180804A JP2985243B2 (ja) 1990-07-09 1990-07-09 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2180804A JP2985243B2 (ja) 1990-07-09 1990-07-09 文字認識方法

Publications (2)

Publication Number Publication Date
JPH0468483A true JPH0468483A (ja) 1992-03-04
JP2985243B2 JP2985243B2 (ja) 1999-11-29

Family

ID=16089638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2180804A Expired - Lifetime JP2985243B2 (ja) 1990-07-09 1990-07-09 文字認識方法

Country Status (1)

Country Link
JP (1) JP2985243B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243078A (ja) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd ホログラム記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243078A (ja) * 2005-02-28 2006-09-14 Fuji Xerox Co Ltd ホログラム記録媒体

Also Published As

Publication number Publication date
JP2985243B2 (ja) 1999-11-29

Similar Documents

Publication Publication Date Title
Arai et al. Method for real time text extraction of digital manga comic
Halima et al. Nf-savo: Neuro-fuzzy system for arabic video ocr
CN113408535A (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
Essa et al. Enhanced technique for Arabic handwriting recognition using deep belief network and a morphological algorithm for solving ligature segmentation
Elaiwat Holistic word descriptor for lexicon reduction in handwritten arabic documents
JPH0468483A (ja) 文字認識方法
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JPH0528324A (ja) 英文字認識装置
JPH09274645A (ja) 文字認識方法および装置
JP2995825B2 (ja) 日本語文字認識装置
JP2746345B2 (ja) 文字認識の後処理方法
JPS60110089A (ja) 文字認識装置
Islam et al. An enhanced MSER pruning algorithm for detection and localization of bangla texts from scene images.
JPH04289989A (ja) 英文字認識装置
JP3116452B2 (ja) 英文字認識装置
JP3151866B2 (ja) 英文字認識方法
JPH04306786A (ja) 文字認識装置
JPH04115383A (ja) オンライン手書き文字認識装置の文字認識方式
JP3100786B2 (ja) 文字認識後処理方式
JP3116453B2 (ja) 英文字認識装置
JP2549831B2 (ja) 文字認識装置の入力パターン・文字列登録方法
Chatwiriya et al. Thai handwriting legal amounts recognition
JPH04372087A (ja) 英文字認識装置
Tangwongsan et al. Realization of a high performance bilingual ocr system for thai-english printed documents
JP2000200323A (ja) オンライン手書き漢字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081001

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091001

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101001

Year of fee payment: 11