JP2904517B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2904517B2
JP2904517B2 JP1308886A JP30888689A JP2904517B2 JP 2904517 B2 JP2904517 B2 JP 2904517B2 JP 1308886 A JP1308886 A JP 1308886A JP 30888689 A JP30888689 A JP 30888689A JP 2904517 B2 JP2904517 B2 JP 2904517B2
Authority
JP
Japan
Prior art keywords
character
image
character image
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1308886A
Other languages
English (en)
Other versions
JPH03171275A (ja
Inventor
保直 伊崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1308886A priority Critical patent/JP2904517B2/ja
Publication of JPH03171275A publication Critical patent/JPH03171275A/ja
Application granted granted Critical
Publication of JP2904517B2 publication Critical patent/JP2904517B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概 要〕 入力文字を標準パターン辞書と照合して得られる候補
文字に後処理を行って認識文字を出力する文字認識装置
に関し、 字種や字体が多様である場合でも文字の認識精度を向
上させるとともに、認識処理速度を向上させることを目
的とし、 入力文字列から一文字に相当する画像部分を切り出
し、その切り出された入力文字画像に対して特徴抽出を
行って標準パターン辞書と文字認識処理し、認識結果で
ある候補文字列に対して文字認識のための後処理を行っ
て認識文字を選出する文字認識装置において、後処理結
果の認識文字に対応する入力文字画像を文字画像辞書に
登録する文字画像登録部と、入力文字画像と文字画像辞
書の登録文字画像とをパターンマッチングして両者の類
似度を求める類似度算出部と、この類似度に基づいてパ
ターンマッチングした登録文字画像より直ちに候補文字
列を出力するか、特徴抽出を行い標準パターンと正規の
文字認識処理を実行してから候補文字を出力するかを判
定する類似度判定部を設けるように構成する。
〔産業上の利用分野〕
本発明は、入力文字を標準パターン辞書と照合して得
られる候補文字に後処理を行って認識文字を出力する文
字認識装置に関する。
〔従来の技術〕
文字認識を行う場合は、第5図に示すように、入力文
字列から一文字に相当する画像部分を切り出し、その切
り出された入力文字画像に対して特徴抽出を行って標準
パターン辞書と照合し、照合結果である候補文字列に対
して文字認識のための後処理を行って認識文字を選出す
る方式が用いられている。
第5図において、認識対象となる入力文字列は2値化
部21において2値化処理された後、切り出し部22におい
て、一文字に相当する画像部分である入力文字画像の切
り出しが行われる。
正規化部23は、切り出された入力文字画像を所定サイ
ズ(例えば、48×48ドット)に正規化して、正規化画像
部24に格納する。
特徴抽出部25は、正規化画像部24の入力文字画像よ
り、その文字認識のための特徴を抽出する処理を行う。
文字認識用の特徴としては、例えば、文字の複雑さを表
す線密度、文字を構成する各ストロークの方向を表す線
方向特徴、ストローク間に囲まれた領域を表す領域特徴
等が抽出される。
大分類部26は入力文字画像と大分類辞書27中の各大分
類用の標準パターンを照合し、各特徴に基づいて距離計
算又は類似度計算を行ない、相違度が所定値以下のもの
又は類似度が所定値以上の標準パターンの各文字を選出
する。そして、この絞り込まれた各文字を候補対象文字
列として出力する。
詳細認識部28は、選出された各候補対象文字と詳細識
別辞書29中の各詳細識別用の標準パターンを照合し、各
特徴に基づいて距離計算又は類似度計算を行ない、相違
度が所定値以下のもの又は類似度が所定値以上の各文字
を候補文字列として選出する。
後処理部30は、この候補文字列について単語辞書31及
び単語接続規則32との照合を行い、これらの単語辞書及
び単語接続規則と最もマッチングした文字を認識文字と
して出力する。なお、この後処理は、句読点で区切られ
た文字列単位で行われる。
以上の様な認識処理を施すことにより、精度の高い文
字認識を行うことができる。
〔発明が解決しようとする課題〕
従来の文字認識装置は、前述のように、入力文字列か
ら一文字に相当する画像部分を切り出し、その切り出さ
れた入力文字画像に対して特徴抽出を行って標準パター
ン辞書と照合し、照合結果である候補文字列に対して文
字認識のための後処理を行って認識文字を選出すること
により、文字認識を行っていた。
この従来の文字認識装置では、認識対象となる文字の
字種や字体が多いとそれに対応して標準パターンの種類
も多くなり、標準パターンとの照合処理に時間がかかる
ようになって、文字認識処理速度が低下するという問題
があった。
日本語の場合は、字種が4000以上の多種である上に、
字体も明朝体や教科書体等があって多様であり、特に平
仮名の場合はデザインが多様であるため、認識に使用さ
れる特徴は、256次元あるいは384次元という大きなもの
である。これに伴い、このような字体の多様性や多くの
類似文字の存在を吸収して高精度の文字認識を行うため
には、多数の字体を標準パターンとして登録する必要が
ある。このため大分類処理により対象を絞り込んではい
るが、標準パターンとの照合処理により時間がかかり、
文字認識処理速度が低下するという問題があった。
本発明は、字種や字体が多様である場合でも文字の認
識精度を向上させるとともに、認識処理速度を向上させ
るように改良した文字認識装置を提供することを目的と
する。
〔課題を解決するための手段〕
前述の課題を解決するために本発明が採用した手段
を、第1図を参照して説明する。第1図は、本発明の基
本構成をブロック図で示したものである。
第1図において、20は第5図で説明したような文字認
識装置である。すなわち、入力文字列から一文字に相当
する画像部分を切り出し、その切り出された入力文字画
像に対して特徴抽出を行って標準パターン辞書と文字認
識処理し、認識結果である候補文字列に対して文字認識
のための後処理を行って認識文字を選出する処理を行
う。
11は文字画像登録部であり、文字認識装置20における
後処理結果の認識文字に対応する入力文字画像を文字画
像辞書12に登録する処理を行う。
13は類似度算出部であり、入力文字画像と文字画像辞
書12の登録文字画像とをパターンマッチングして両者の
類似度を求める処理を行う。
14は類似度判定部であり、求められた類似度に基づい
て、パターンマッチングした登録文字画像より直ちに候
補文字列を出力するか、特徴抽出を行い標準パターンと
正規の文字認識処理を実行してから候補文字を出力する
かを判定する処理を行う。
なお、文字画像登録部11、文字画像辞書12、類似度算
出部13、類似度判定部14は、文字認識装置20内に設ける
ようにしてもよい。
〔作 用〕
文字認識装置20は、認識対象となる入力文字列から一
文字に相当する画像部分を切り出し、入力文字画像を生
成する。
類似度算出部13は、文字認識装置20の生成した入力文
字画像と文字画像辞書12の登録文字画像とをパターンマ
ッチングして両者の類似度を求める。
類似度判定部14は、求められた類似度に基づいて、パ
ターンマッチングした登録文字画像より直ちに候補文字
列を出力するか、特徴抽出を行い標準パターンと正規の
文字認識処理を実行してから候補文字を出力するかを判
定する。
類似度が所定値よりも大きい場合は、マッチングした
登録文字画像より直ちに候補文字列を出力して文字認識
装置20に送り、候補文字に対する後処理を実行させる。
これにより、文字認識装置20内の図示しない大分類部及
び詳細識別部で標準パターン辞書と照合して候補文字を
選出する処理を行うことなく、直ちに入力文字画像の候
補文字列を選出することができる。
類似度が所定値よりも小さい場合は、類似度判定部14
は文字画像辞書12には入力文字画像の候補文字は存在し
ないと判定して、認識装置20に正規の文字認識処理を実
行させる。
文字認識装置20は、入力文字画像に対して従来方式と
同様に特徴抽出を行い、図示しない標準パターン辞書と
照合して候補文字列を選出し、この候補文字に対する後
処理を行って認識文字を選出する。
文字画像登録部11は、文字認識装置20における後処理
結果の認識文字に対応する入力文字画像を文字画像辞書
12に登録文字画像として登録する処理を行う。
以上のようにして、類似度に基づいて、マッチングし
た登録文字画像より候補文字列を出力するが、入力文字
画像に対して正規の文字認識処理を実行するかを判定す
る処理が行われる。
以下、入力文字列を構成する各文字に対し、前述の各
処理が実行されて、入力文字列に対する文字認識が行わ
れる。
印刷文書の場合は、1頁内では同じ字体で印刷されて
いることが殆どであるので、各文字について一辺文字画
像辞書に登録すると、以降その文字においては文字画像
辞書と照合することにより、従来方式のような手間の掛
かる標準パターン辞書との照合処理を必要とすることな
く、直ちに候補文字を選出することが可能となり、高精
度でかつ高速の文字認識を行うことができる。
以上のように、後処理結果の認識文字に対応する入力
文字画像を文字画像辞書に登録し、入力文字画像と文字
画像辞書の登録文字画像とを照合して候補文字列を選出
するようにしたので、予め準備した標準パターン辞書に
登録されていない字体にも対応できるとともに、認識精
度を向上させ、かつ認識処理速度を向上させることがで
きる。
〔実施例〕
本発明の一実施例を、第2図乃至第4図を参照して説
明する。第2図は本発明の一実施例の構成の説明図、第
3図は同実施例の文字認識処理動作の説明図、第4図は
同実施例の文字画像辞書の説明図である。
(A)実施例の構成 第2図において、文字画像登録部11、文字画像辞書1
2、類似度算出部13、類似度判定部14及び文字認識装置2
0については、第1図で説明したとおりである。
また、文字認識装置20の構成は、第5図で説明した文
字認識装置20と同様な構成から成るので、以下対応する
構成要素には同じ符号を付して説明する。すなわち、21
は2値化部、22は切り出し部、23は正規化部、24は正規
化画像格納部、25は特徴抽出部、26は大分類部、27は大
分類辞書、28は詳細識別、29は詳細識別辞書、30は後処
理部、31は単語辞書、32は単語接続規則である。
なお、先に述べたように、文字画像登録部11、文字画
像辞書12、類似度算出部13、類似度判定部14は、文字認
識装置20内に設けるようにしてもよい。
(B)実施例の動作 実施例の動作を、第3図及び第4図を参照し、入力文
字列b〜kが第3図(a)に示すように「下記の通り、
取り行う」である場合を例にとって説明する。
認識対象となる入力文字列は2値化部21に入力され、
ここで2値化処理された後、切り出し部22において、一
文字に相当する画像部分である入力文字画像の切り出し
が行われる。
正規化部23は、切り出された入力文字画像を所定サイ
ズ(例えば、48×48ドット)に正規化して、正規化画像
部24に格納する。
類似度算出部13は、文字認識装置20の生成した入力文
字画像と文字画像辞書12の登録文字画像とを照合して両
者の類似度を求める。この照合は、例えば入力文字画像
と文字画像辞書12の登録文字画像の両パターンを重ね合
わせてその類似度をみる重ね合わせ照合によって行われ
る。
類似度判定部14は、求められた類似度に基づいて、マ
ッチングした登録文字画像より候補文字列を出力する
か、入力文字画像に対して正規の文字認識処理を実行す
るかを判定する。
すなわち、類似度が所定値よりも大きい場合は、登録
文字画像を直ちに候補文字として選出し、文字認識装置
20に送り、候補文字にする後処理を実行させる。これに
より、文字認識装置20内の大分類部26及び詳細識別部28
で各標準パターン辞書(大分類辞書27、詳細識別辞書2
9)と照合して候補文字を選出する処理を行うことな
く、直ちに入力文字画像の候補文字を選出することがで
きる。
類似度が所定値よりも小さい場合は、類似度判定部14
は文字画像辞書12には入力文字画像の候補文字列は存在
しないと判定して、認識装置20に正規の文字認識処理を
実行させる。
この場合、文字認識装置20にある特徴抽出部25は、正
規化画像部24の入力文字画像よりその文字認識のための
特徴を抽出する処理を行う。文字認識用の特徴として、
例えば、文字の複雑さを表す線密度、文字を構成する各
ストロークの方向を表す線方向特徴、ストローク間に囲
まれた領域を表す領域特徴が抽出される。
大分類部26は入力文字画像と大分類辞書27中の各大分
類用の標準パターンを照合し、各特徴に基づいて距離計
算又は類似度計算を行ない、相違度が所定値以下のもの
又は類似度が所定値以上の標準パターンの各文字を選出
する。そして、この絞り込まれた各文字を候補対象文字
列として出力する。
詳細認識部28は、選出された各候補対象文字と詳細識
別辞書29中の各詳細識別用の標準パターンを照合し、各
特徴に基づいて距離計算又は類似度計算を行ない、相違
度が所定値以下のもの又は類似度が所定値以上の各文字
を候補文字列として選出する。
以上の候補文字選出処理により、入力文字列b〜f
「下記の通り」の候補文字列として、第3図(b)に示
すようなb′〜f′が選出される。いま、大分類部26及
び詳細識別部28により入力文字f「り」に対する候補文
字の選出が行われ、その正解文字である「り」は、図示
のように第2位にランクされたとする。
後処理部30は、この候補文字列f′の各文字について
単語辞書31及び単語接続規則32との照合を行い、最もマ
ッチングした文字を認識文字として出力する。これによ
り、第2位にランクされていた正解文字「り」が、第3
図(c)に示すように第1位のランクに修正されて、正
しい認識結果が得られるようになる。なお、この後処理
は、句読点で区切られた文字列単位(b〜f)で行われ
る。
文字画像登録部11は、この後処理部30における後処理
により第2位から第1位に上げられた認識文字「り」に
対応する入力文字画像を文字画像辞書12に登録文字画像
として登録する処理を行う。
以上のようにして、求められた類似度に基づいて、登
録文字画像を直ちに候補文字とするか、文字認識装置20
により入力文字画像から候補文字を選出して文字認識を
行い、その認識文字に対応する入力文字画像を文字画像
辞書12に登録する処理が行われる。
第4図は、このようにして作成された文字画像辞書12
の一例を示したものである。図において、左端に示す数
字1〜nは、候補文字として出力されるn個の登録文字
画像を示す。次の2値パターン欄には、各登録文字画像
の2値画像パターンが格納される。次のマスクパターン
欄には、入力文字画像と登録文字画像を照合する時のマ
スクパターンが格納される。マスクパターンは、登録文
字画像の2値パターンの特徴的部分以外をマスクするよ
うに形成される。最後の候補列欄には、その登録文字画
像の候補文字列が格納される。この文字画像辞書12の各
登録文字画像と入力文字画像とを照合するときは、マス
クパターンによってマスクされた登録文字画像の2値パ
ターンと2値化された入力文字画像とが、前述のように
重ね合わせ照合される。
以下、入力文字列を構成する各文字に対して前述の各
処理が実行され、入力文字列に対する文字認識が行われ
る。
すなわち、続く文字列h〜k「取り行う」の内、文字
h「取」が初めての文字であるとすると、その入力文字
画像は文字画像辞書12中に存在しない。したがって、正
規の文字認識処理により入力文字画像から候補文字を選
出して文字認識を行い、その認識文字「取」の入力文字
画像を文字画像辞書12に登録する処理が行われる。
次の文字「り」の入力文字画像は文字画像辞書12に登
録されているので、文字画像辞書12と照合することによ
り、直ちに入力文字「り」に対する候補文字列が選出さ
れる。この候補文字列は後処理部30に送られて後処理さ
れ、文字「り」が認識結果として出力される。
以下に続く各文字「行」及び「う」に対してもその入
力文字画像が文字画像辞書12の登録文字画像とマッチン
グの有無に対応して、前述の入力文字「取」又は「り」
の処理が行われる。印刷文書の場合は、前述のように1
頁内では同じ字体で印刷されていることが殆どであるの
で、各文字について一辺文字画像辞書に登録すると、以
降その文字においては文字画像辞書と照合することによ
り、直ちに候補文字列を選出することが可能となり、高
精度でかつ高速の文字認識を行うことができる。
以上本発明の一実施例について説明したが、本発明は
この実施例に限定されるものではなく、その発明の主旨
に従った種々の変形が可能である。
〔発明の効果〕
以上説明したように、本発明は、後処理結果の認識文
字に対応する入力文字画像を文字画像辞書に登録し、入
力文字画像と文字画像辞書の登録文字画像とを照合して
候補文字列を選出するようにしたので、予め準備した標
準パターン辞書に登録されていない字体にも対応できる
とともに、認識精度を向上させ、かつ認識処理速度を向
上させることができる。
【図面の簡単な説明】
第1図は本発明の基本構成の説明図、 第2図は本発明の一実施例の構成の説明図、 第3図は同実施例の文字認識処理動作の説明図、 第4図は同実施例の文字画像辞書の説明図、 第5図は従来の文字認識装置の説明図である。 第1図及び第2図において、 11……文字画像登録部、12……文字画像辞書、13……類
似度算出部、14……類似度判定部、20……文字認識装
置、21……2値化部、22……切り出し部、23……正規化
部、24……正規化画像格納部、25……特徴抽出部、26…
…大分類部、27……大分類辞書、28……詳細識別部、29
……詳細識別辞書、30……後処理部、31……単語辞書、
32……単語接続規則。
フロントページの続き (56)参考文献 特開 昭61−42083(JP,A) 特開 昭62−27874(JP,A) 特開 昭62−103784(JP,A) 特開 昭63−233488(JP,A) 特開 昭62−107389(JP,A) 特開 昭62−214487(JP,A) 特開 昭62−49581(JP,A) 特開 昭56−35276(JP,A) 特開 平2−224085(JP,A) 特開 昭62−200483(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/62 G06K 9/68

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力文字列から一文字に相当する画像部分
    を切り出し、その切り出された入力文字画像に対して特
    徴抽出を行って標準パターン辞書と文字認識処理し、認
    識結果である候補文字列に対して文字認識のための後処
    理を行って認識文字を選出する文字認識装置(20)にお
    いて、 (a)後処理結果の認識文字に対応する入力文字画像を
    文字画像辞書(12)に登録する文字画像登録部(11)
    と、 (b)入力文字画像と文字画像辞書(12)の登録文字画
    像とをパターンマッチングして両者の類似度を求める類
    似度算出部(13)と、 (c)求められた類似度に基づいて、パターンマッチン
    グした登録文字画像より直ちに候補文字列を出力する
    か、特徴抽出を行い標準パターン辞書と正規の文字認識
    処理を実行してから候補文字列を出力するかを判定する
    類似度判定部(14)と、 を設けたことを特徴とする文字認識装置。
JP1308886A 1989-11-30 1989-11-30 文字認識装置 Expired - Fee Related JP2904517B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1308886A JP2904517B2 (ja) 1989-11-30 1989-11-30 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1308886A JP2904517B2 (ja) 1989-11-30 1989-11-30 文字認識装置

Publications (2)

Publication Number Publication Date
JPH03171275A JPH03171275A (ja) 1991-07-24
JP2904517B2 true JP2904517B2 (ja) 1999-06-14

Family

ID=17986449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1308886A Expired - Fee Related JP2904517B2 (ja) 1989-11-30 1989-11-30 文字認識装置

Country Status (1)

Country Link
JP (1) JP2904517B2 (ja)

Also Published As

Publication number Publication date
JPH03171275A (ja) 1991-07-24

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
US20120066213A1 (en) Information processing apparatus, information processing method, and computer program product
JP4280355B2 (ja) 文字認識装置
JP2904517B2 (ja) 文字認識装置
Naz et al. Arabic script based character segmentation: a review
JP3669626B2 (ja) 検索装置、記録媒体およびプログラム
Allam Segmentation versus segmentation-free for recognizing Arabic text
Lu et al. Word searching in document images using word portion matching
Puri et al. Sentence detection and extraction in machine printed imaged document using matching technique
JP3115139B2 (ja) 文字切り出し方法
JP3151866B2 (ja) 英文字認識方法
JP3207566B2 (ja) 文字認識方法
JP3128357B2 (ja) 文字認識処理装置
JP2671984B2 (ja) 情報認識装置
JP2922949B2 (ja) 文字認識の後処理方法
JP2002312398A (ja) 文書検索装置
JP2697790B2 (ja) 文字タイプ決定方法
JP2908132B2 (ja) 文字認識結果の後処理方法
JP2677271B2 (ja) 文字認識装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP2866920B2 (ja) 標準パターン作成方法及び装置並びに文字認識装置及び方法
JP2001005913A (ja) 文字認識装置及び方法並びに記録媒体
JPH0580711B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees