JPH07117995B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH07117995B2
JPH07117995B2 JP1189372A JP18937289A JPH07117995B2 JP H07117995 B2 JPH07117995 B2 JP H07117995B2 JP 1189372 A JP1189372 A JP 1189372A JP 18937289 A JP18937289 A JP 18937289A JP H07117995 B2 JPH07117995 B2 JP H07117995B2
Authority
JP
Japan
Prior art keywords
character
word
recognition
next candidate
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1189372A
Other languages
English (en)
Other versions
JPH0353392A (ja
Inventor
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1189372A priority Critical patent/JPH07117995B2/ja
Publication of JPH0353392A publication Critical patent/JPH0353392A/ja
Publication of JPH07117995B2 publication Critical patent/JPH07117995B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、紙面上に書かれた文字を画像として入力する
ことにより、文書画像から文字領域を抽出し、コード番
号に変換する文字認識装置に関する。
〔従来の技術〕 近年、文字認識装置の急激なる進歩により、様々な文書
画像から文字領域を自動的に抽出し、さらに一つ一つの
文字を切り出し、認識し、自動的に文書ファイルが作成
できる様になってきており文字の認識方法には様々な方
法が考え出されている。
例えば、簡単な文字認識方法としては、文字の認識用の
辞書として文字そのものの辞書パターンを所有し、単に
抽出文字画像との一致度を比較する方法があるが、該方
法は、文字の位置ずれ、大きさの変動等に非常に弱くほ
とんど使用されていない。文字の位置ずれ、大きさの変
動等に影響されず、また簡単な方法として文字のメッシ
ュ特徴やペリフェラル特徴を比較して認識する方法があ
る。該認識方法は、研究実用化報告、第34巻第1号p.p.
47〜58に掲載されており、メッシュ特徴は、文字全体の
大まかな形状分布を表現したものである。特徴の抽出方
法は、文字の外接矩形を分割してn×nの小領域を求め
る。該各々の小領域に含まれる文字部の面積を計数しメ
ッシュ特徴とする。該メッシュ特徴は、一つの文字につ
きn×nコのデーダーを持っており、n×nコのうちの
ある領域における文字部の面積の割合を辞書として所有
しているデータと比較することによって文字の推定を行
う。また、ペリフェラル特徴は、文字の周辺情報に着目
したものであり、特徴の抽出方法は、まず文字パターン
の外接矩形を求め、外接矩形の各辺をそれぞれn分割す
る。次に分割された各分割辺から文字に向かって走査し
ていき、最初に文字に出合うまでの面積、次に文字に出
合うまでの面積を計数する。各分割辺に対して同様の処
理を行うことにより、n×4×2のデータを持つペリフ
ェラル特徴を得ることができ、該n×4×2のデータと
辞書として所有しているデータとを比較することによっ
て文字の推定が可能となる。
以上の方法は、アルゴリズム上も非常に簡単であり、認
識率も一文字あたり95%程度実現できるものである。
〔発明が解決しようとする課題〕
しかしながら、前記方法においては簡単なアルゴリズム
で1文字あたりを認識率が95%実現できても、それを欧
米文書等の単語に換算すると70%弱になってしまい、文
書ファイルに変換した時の文書の正確さがかなり低い。
また、単語においても95%程度の認識率を実現しようと
すると、文字認識のアルゴリズムが非常に複雑になった
り、文字認識装置が大型化する。
そこで本発明は以上の様な課題を解決するもので、その
目的とするところは、簡単なアルゴリズムでかつ、小型
の装置で単語を高い認識率で認識する文字認識装置を提
供することにある。
〔課題を解決するための手段〕
本発明の文字認識装置は (1)紙面等の反射光を光電変換して文字画像を入力す
る光学的画像入力手段と、 前記入力画像から文字行及び単語の位置を検知して単語
を抽出する単語抽出手段と、 抽出された前記単語から文字を抽出し、あらかじめ所有
している文字データ辞書との比較を行ないながら文字コ
ードに変換する文字認識手段と、 あらかじめ所有している単語データ辞書とを具備する文
字認識装置において、 前記単語の認識時に、認識文字中で、前記文字データ辞
書中の文字データとの一致度の低かった文字について次
候補文字を抽出する次候補文字抽出手段と、 前記単語データ辞書中の単語データと比較を行い、該当
単語が存在しない場合には、認識単語中の前記一致度の
低い文字を前記次候補文字と入れ換えて単語の照合を行
なう単語照合手段とを有し、 前記認識単語と前記単語データと比較し、該当する単語
が存在する場合には前記単語を出力することを特徴とす
る。
さらに、前記単語照合手段は、次候補文字の一致度と、
一致度の低い文字の一致度とを比較して、文字の入れ換
えを制御するように構成されていることを特徴とする。
〔実施例〕
以下本発明について実施例に基づいて詳細に説明する。
本発明の文字認識装置のブロック図を第1図に示す。文
字認識装置はプログラムに従って処理を実行するCPU10
1、文字画像を記憶装置に入力する画像入力装置102、文
字認識結果を表示する文字表示手段103、認識用の文字
データ、単語辞書の納まっているROM105より構成されて
いる。
以下、本発明の文字認識装置の文字認識の方法を第3図
に示すフローチャートに基づいて、第2図、第4図、第
5図を用いて詳細に説明する。本発明の文字認識装置は
まず初めに画像入力装置102において、光学的な方法に
より紙面等に書かれた文字をイメージデータとして記憶
装置であるRAM105に入力する。次に入力した文字画像か
ら単語領域の抽出を行う。単語領域の抽出は、まず入力
文字画像の行方向の周辺分布を計数する。該周辺分布
(図示せず)は、文字行の存在する位置で値が大きくな
り、文字行と文字行との間は周辺分布の値が小さい。従
って、該周辺分布の値により文字行の位置を容易に推定
することが可能である。文字行の位置を推定すると次に
推定文字行の行方向と垂直な方向の周辺分布を計数す
る。該周辺分布(図示せず)の値の大きいところは文字
の存在している領域であり、小さいところは、文字の存
在していない領域である。従って文字の存在していない
領域を調べることにより、単語間隔と文字間隔の大きさ
が推定でき、単語領域が抽出できる。
単語領域が抽出されると次は、抽出した単語の認識を行
う。単語の認識は、一文字一文字を抽出した後に、ROM1
04に納まっている文字データ辞書と比較する。ROM104中
の文字データ辞書と抽出文字とを比較して、最も一致し
ている文字データが抽出文字の認識結果となる。こうし
て各文字について認識を一通り行うと、入力文字画像中
の単語の認識が終了する。従来の方法では、この時点で
認識を終了し認識結果を出力する。ところが、文字認識
装置の一文字あたりの文字の認識率が95%程度であった
場合次のようなことが生じる。
今仮に入力文字画像より抽出した単語がrecognizeであ
ったとする。該単語を文字認識装置において認識した結
果、第5図に示す様に、rccognizeと認識したとする。
(この様なことは95%程度の認識率ではしばしば見られ
る)この場合、従来では認識した結果501のrccognizeを
そのまま出力するか、良くても、ROM104に納まっている
単語辞書502と照合して出力するだけである。従ってそ
のまま出力すれば当然間違えた答を出力するし、たとえ
ROM104中の単語辞書502と照合しても、該単語辞書502中
に認識結果501に該当した単語は存在せず、位置的に最
も近い単語はRCとなってしまい全く違った出力をする。
ところが本発明の場合、前記文字画像と同じ画像から単
語領域を抽出し認識した結果は、第2図のようになる。
第2図に示す認識結果201は、従来の場合と同じようにr
ccognizeとなる。しかし本発明の場合、ROM104中の文字
データと比較して文字の決定を行う際に、二番目の候補
文字、3番目の候補文字等の次候補文字を抽出する。そ
して、単語の認識が終了した時点で、認識単語内で、文
字の辞書との一致度の最も低い文字を拾い出し、該文字
の次候補文字を記憶装置であるRAM105中に格納する。該
一致度が最も低い文字は、もし単語内に認識の間違って
いる文字があるとしたらその可能性の最も大きい文字で
ある。従って、本発明の場合、単語の認識の結果は第2
図201に示すrccognizeが得られ、単語中で最も一致度の
低い文字は2文字目のc205であり、該文字の次候補文字
としてe203とo204が得られる。次に前記認識結果201をR
OM104中の単語辞書202と比較して確認を行う。該認識結
果201は、rccognizeというスペルの単語である。従っ
て、辞書中202のrの部分を端から比較して該当単語を
捜す。rの次の文字はcであるので、辞書中でrcで始ま
る単語を捜した結果、RCという単語にぶつかる。次に、
認識結果の3文字目のcについて調べる。その結果、RC
の次の単語はRDとなり、rccと続く単語は全く存在しな
いことが分かる。従って、認識結果201は間違っている
可能性がある。そこで、認識文字中で最も一致度の低い
文字を次候補文字に入れ替えて単語の検索を行う。認識
単語201中で最も一致度の低い文字205を次候補文字e203
に入れ替えて単語辞書202中の単語の検索を行うと、rec
ognizableの次にrecognizeという単語が存在し、次候補
文字203を入れ替えることによって該当単語が存在し
た。さらに、次候補文字204を入れ替えて辞書の検索を
行ってもrocognizeという単語は存在せず、最も近い文
字はrockyとなってしまう。従って、入力文字画像はrec
ognizeという単語であると判断でき、認識によって間違
えた2文字目を修正することができる。該結果recogniz
eを認識結果として出力することにより、文字認識装置
の文字認識率は高いものと判断される。その結果、一文
字あたりの文字認識率が95%程度で単語の認識率が70%
弱となってしまった文字認識装置において、認識方法そ
のものを変えずに単語の認識率を95%程度まで上げるこ
とが可能となる。
また、単語中で文字の一致度の最も低い文字の次候補文
字の一致度が、認識文字の一致度に比べて極端に低い場
合について述べる。この場合は、第4図に述べる。認識
結果401はrecognizeという単語であり、単語中で最も一
致度の低い文字はe405となった。該文字の次候補文字は
c403、o404が上げられたが、一致度は、e405に比べて極
端に低い。従ってこの場合、文字e405が間違っている可
能性があっても、次候補文字が合っている可能性はさら
に低いので、文字e405を次候補文字に入れ替えての単語
の確認は行わない。実際に第4図の場合には、認識結果
401に該当する単語は辞書402中に存在し、認識結果は正
しいと確認できるが、たとえ辞書402中に存在しなくて
も、次候補文字に入れ替えることによる認識率の向上は
見込まれないので、そのまま認識結果として出力する。
そうすることにより、認識時間の短縮の効果がある。
以上述べた様に、認識単語を単語辞書と比較し、該当単
語が存在しない場合に、認識単語中で一致度の最も低い
文字を次候補文字に入れ替えて、該当単語が存在する場
合に、前記単語を認識結果として出力するので、文字認
識装置全体の認識率の向上が実現できる。よって該方法
を構成要素に用いる文字認識装置の信頼性を大幅に向上
させることが可能となった。
〔発明の効果〕
以上述べた様に本発明は、文字認識時において認識文字
中で認識用辞書データとの一致度の最も低い文字の次候
補文字を格納し、認識結果出力前に単語辞書を検索し、
該当単語が存在しない場合に、一致度の最も低い文字を
次候補文字に入れ替え検索し、該当単語が存在する場合
該単語を出力し、存在しない場合は前記認識単語を出力
するので、今まで一文字あたりの認識率が95%程度で単
語の認識率が70%弱となってしまった認識方法でも容易
に認識率を95%程度に向上させることができる。その結
果、簡単なアルゴリズムで、かつ小型の装置で高い認識
率を持つ文字認識装置を実現することが可能となり、ま
た、文字認識装置の信頼性を多いに向上させるという効
果を有する。
【図面の簡単な説明】
第1図は本発明の文字認識装置を示すブロック図。 第2図、第4図は本発明の文字認識の様子を示す図。 201……認識結果 202……単語辞書 203,204……次候補文字 205……一致度の最も低い文字 401……認識結果 402……単語辞書 403,404……次候補文字 405……一致度の最も低い文字 第3図に本発明の文字認識装置のフローチャートを示
す。 第5図は、従来の文字認識の様子を示す図。 501……認識結果 502……単語辞書

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】紙面等の反射光を光電変換して文字画像を
    入力する光学的画像入力手段と、 前記入力画像から文字行及び単語の位置を検知して単語
    を抽出する単語抽出手段と、 抽出された前記単語から文字を抽出し、あらかじめ所有
    している文字データ辞書との比較を行ないながら文字コ
    ードに変換する文字認識手段と、 あらかじめ所有している単語データ辞書とを具備する文
    字認識装置において、 前記単語の認識時に、認識文字中で、前記文字データ辞
    書中の文字データとの一致度の低かった文字について次
    候補文字を抽出する次候補文字抽出手段と、 前記単語データ辞書中の単語データと比較を行い、該当
    単語が存在しない場合には、認識単語中の前記一致度の
    低い文字を前記次候補文字と入れ換えて単語の照合を行
    なう単語照合手段とを有し、 前記認識単語と前記単語データと比較し、該当する単語
    が存在する場合には前記単語を出力することを特徴とす
    る文字認識装置。
  2. 【請求項2】前記次候補文字の一致度と、前記一致度の
    低い文字の一致度とを比較して、文字の入れ換えを制御
    する単語照合手段を有することを特徴とする請求項1記
    載の文字認識装置。
JP1189372A 1989-07-21 1989-07-21 文字認識装置 Expired - Lifetime JPH07117995B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1189372A JPH07117995B2 (ja) 1989-07-21 1989-07-21 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1189372A JPH07117995B2 (ja) 1989-07-21 1989-07-21 文字認識装置

Publications (2)

Publication Number Publication Date
JPH0353392A JPH0353392A (ja) 1991-03-07
JPH07117995B2 true JPH07117995B2 (ja) 1995-12-18

Family

ID=16240218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1189372A Expired - Lifetime JPH07117995B2 (ja) 1989-07-21 1989-07-21 文字認識装置

Country Status (1)

Country Link
JP (1) JPH07117995B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0684006A (ja) * 1992-04-09 1994-03-25 Internatl Business Mach Corp <Ibm> オンライン手書き文字認識方法
US7499588B2 (en) * 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6116383A (ja) * 1984-07-03 1986-01-24 Mitsubishi Electric Corp 単語読取方式

Also Published As

Publication number Publication date
JPH0353392A (ja) 1991-03-07

Similar Documents

Publication Publication Date Title
KR100249055B1 (ko) 문자인식장치및방법
JP3345224B2 (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
JPH07117995B2 (ja) 文字認識装置
US20040114803A1 (en) Method of stricken-out character recognition in handwritten text
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JPH0350692A (ja) 文字認識装置
JP2976445B2 (ja) 文字認識装置
JP2671985B2 (ja) 情報認識方法
JP2903779B2 (ja) 文字列認識方法及びその装置
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JPS6142083A (ja) 文字認識装置
JP2851865B2 (ja) 文字認識装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2994992B2 (ja) 手書き文字オンライン認識装置とその字体登録・学習方法
JP2002312398A (ja) 文書検索装置
JP2622004B2 (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
JP2746345B2 (ja) 文字認識の後処理方法
JPH0877293A (ja) 文字認識装置および文字認識用辞書作成方法
JP2000207491A (ja) 文字列読取方法及び装置
JPH0436885A (ja) 光学式文字読取装置
JPS6125284A (ja) パターン認識装置
JPH07107698B2 (ja) 文字認識方法
JP2953162B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081218

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081218

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091218

Year of fee payment: 14

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091218

Year of fee payment: 14