JPS59205681A

JPS59205681A - 文字読取装置

Info

Publication number: JPS59205681A
Application number: JP58054481A
Authority: JP
Inventors: Fumio Yoda; 依田　文夫; Keiji Kobayashi; 啓二小林; Masataka Yamamoto; 山本　勝敬
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-03-30
Filing date: 1983-03-30
Publication date: 1984-11-21
Also published as: JPH0259504B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発明は帳票などに記入された文字を読取って当該文
字の文字コードを出力する文字読取装置に関するもので
あり、更に詳しくは、文字読取装置における大分類（第
１段の分顛〕方法に関するものであるう文字認識においては、文字を読取って得られた文字パタ
ーンに類似する文字パターンを有する複数の候補文字を
選定するという処理を最初に行う。

この最初の処理を大分類と称し、大分類においてはその
処理自体が簡単でるって、大分類で選定される候補文字
の数がなるべく少くなることかのぞましい。

第１図はこの発明の一実施例を示すブロック図であるが
、第１図において閾値テーブル（７）を除いたものが、
はソ従来の装置を示し、（１）は帳票、（２１は走査手
段、（３）は特徴抽出手段、（４１は類似度算出手段、
（５）は認識辞書、（６１は分類手段、：８１は識別手
段である。

第２図は帳票（１）の枠内に記入された文字を示す図で
、（９）は漢字「田」が記入されている例を示す。

従来の装置はよく知られているので、その詳細な説明を
省略するが、帳票ｉｌ＋に記入された文字（９）は、た
とえばテレビジョンカメラのような光電変換装置で走査
され、この走査の結果得られたビデオ信号が処理されて
１画素１ビツトの信号で表示される入力文字パターンと
なって記憶される。特徴抽出手段（３）は入力文字パタ
ーンの記憶から所定の法則に従ってその特徴を抽出する
つ一方、この装置で読取るべきすべての文字に対して、各
文字を基準的な図形で記入したものについて特徴抽出を
行い、その特徴を各文字の文字コードに対応して認識辞
書（５１に記憶している。

特徴抽出手段（３）で抽出された特徴は、類似度算出手
段（４）によって認識辞書（５）内に記憶ぜれる特徴と
比較されて七の類似度が算出されるつ第３図は算出され
た類似度の−９′ｌｌヲ示す図で（ｌＯ）ハ認識辞書内
では文字コードによって表わされている文字を仮に漢字
で示し、Ｕυは各文字１１０）に対する類似度を、（６
）は文字１０）のうちの漢字「田」を、　１（１３１は
漢字「田」に対する類似度を示す。

類似度算出手段（４１から出力される、たとえば第３図
に示すような類似度（１１１から候補文字を選定する従
来の方法のうちの１つは、類似度ｔｔｎの値の大きいも
のからＮ個の文字を選定することであった。

第３図の例において、Ｎ＝５とすると「田」「国」「図
」「間」「女」の５文字が候補文字となるがこの方法の
欠点は新しく類似度が算出されるごとに、類似度順に従
って文字コード順の並べ換えを実行しなければならず、
認識の対象となる文字が多い場合、並べ換えの実行のた
めに多くの時間を要し、ひいては認識処理が遅くなると
いう欠点があった。

従来の方法のうちの第２の方法は、各文字に対する類似
度から最大類似度を求め、この最大類似度から、あらか
じめ定めた固定の閾値を減じたものを判定値とし、この
判定値より大きな類似度を有する文字を候補文字として
選定する方法である。

この方法では類似度順により文字の順序を並べ換える必
要はなく、新に算出された類似度がそれまでの最大類似
度として記憶される数値より大きい場合だけ、この記憶
されている数値を、新しく算出された数値によって更新
すればよい。

たｙ、この第２の方法では、どの文字に対し七も同一の
閾値を用いるため、ある文字群に対してはこの閾値が大
きすぎて候補文字数が多くなりすぎ、また、他の文字群
に対してはこの閾値が小さすぎて誤分類の割合が増加す
るという欠点があったっこの発明は従来の装置における上記の欠点を除去するた
めになされたもので、文字ごとの類似度゛の分散からそ
の文字に対する閾値を決定して記憶し、この記憶した閾
値を用いて大分類を行うことによって、分類能力を低下
させることなく分類処理に要する時間を短縮することを
目的としている。

以下、図面についてこの発明の詳細な説明する。先に述
べたとおり、第１図はこの発明の一実施例を示すブロッ
ク図で、類似度算出手段（４）の出力点までの動作は既
に説明したとおりである。

閾値テーブル（７１の内容は次のようにして決定するこ
とができる。すなわち、１つの文字についてその文字の
基準的な字形から変形した字形であって、変形はしてい
るけれども人間が読取るときは容易に正しく読取ること
ができる許容範囲内にある変形文字を複数個用意し、こ
れら変形文字の類似度を算出することにより、当該文字
に対する類似度の分散を知ることができる。この分散を
基として当該文字の閾値を定める。すなわち、分散が小
さいことは文字を変形して記入しても類似度が余り低下
しないことを意味するので閾値を小さくすることができ
、これに反し、分散が大きい文字に対しては、変形して
記入された場合にも候補文字の選定から洩れることのな
いように閾値を大きくしておくのであるっ認識辞書（５）中に存在するすべての文字コードの文字
に対し閾値を決定して、これを文字コードと対応して閾
値テーブル（７）に記憶しておくっ第４図は第３図の文
字に対応して分類手段（６）が閾値テーブル（７）から
読出した閾値を示し、第３図と同一符号は同一意味を有
し、０４は閾値、（１→は漢字「田」に対する閾値であ
る。第４図の例から推量できるように類似した文字に対
する閾値は互に類似している。

分類手段（６）は、類似度算出手段（４）によって算出
された最大類似度は０．８０（第３図）であることを知
り、この類似度を与える文字「田」に対する閾値αυを
閾値テーブル（７）から帆０４と読出し、Ｏ，ＳＯ−０
，０４＝　０．７６を判定値として、類似変種７６以上
の文字「田」「国」「図」を候補文字Ｈ（第５図）とし
て決定するっもし、漢字「田」が著しく変形して記入されており、或
は文字パターンにノイズが存在し、漢字「田」の類似度
が０．８０−０．０４二帆７６　　になジ、其他が第３
図に示すとおりであるとすれば、最太灼似度は０．７８
　（ｒ国」）となり、判定値は０．７８−０．０４　＝
　０．７４となり、「女」「図」「田」「国」「間」が
候補文字となるが、「田」が候補文字から除外される機
会は極めて少ない。

識別手段（８１ハ候袖文字を入力し、その中からいずれ
か１つの文字を決定するか、又は読取り拒否とするかの
判定ケ行うが、この動作は従来の装置　　　１と同一で
あるのでその説明を省略するっ以上のようにこの発明で
は、文字ごとに闇値を設定し、最大類似度を与える文字
に応じた閾値を分類判定に用いているため、分類誤りを
増大させることなく、候補文字を効果的に絞ることが可
能であシ、葦だ類似度の高さに基いて文字の順序を並べ
換える必要がないため高速に分類を行うことができる。

なお、第２図〜第５図の例は漢字だけを示したか、この
発明によって読取ることのできる文字は漢字に限定され
るものではないっ以上のようにこの発明によれば、認識精度全低下するこ
となく、大分類の処理時間全太幅に短縮することができ
る。

【図面の簡単な説明】

第１図はこの発明の一実施例を示すブロック図、第２図
は入力文字の例を示す図、第３図は第１図の類似度算出
手段で算出される類似度の例を示す図、第４図は第３図
に示す文字に対応する閾値を示す図、第５図は選定され
た候補文字を示す図である。山・・・帳票、（２）・・・走査手段、（３１・・・特
徴抽出手段、（４１・−・類似度算出手段、（５１・・
・認識辞書、（６１・・・分類手段、（７）・・・閾値
テーブル、（８）・・・認識手段。代理人　葛　野　信　− 第２図７＜１、事件の表示　　　特願昭　５８−５４４８１号２、
発明の名称文字読取装置３、補正をする者事件との関係　　特許出願人４、代理人住所　　　　東京都千代田区丸の内二丁目２番３号ある
を「漢字などの多字柚の文字を、認識する場合、最初に
識別の対象とする文字を小数に絞った後、更に詳細な特
徴を用いて識別を行う階層的識別方法が一般に用いられ
ている。」と訂正ビデオ信号が処理されて１画累１ビッ
トの信号で表示される」とるるを削除する。（３）　　同書第４頁オフ行目「パターンの記憶」とあ
るを「パターン」とＨ」圧する。（４１同書第４頁オフ行目「各文字を基準的な図形で記
入したもの」とあるを「各文字の基準とする文形の文字
パターン」と訂正する。（５）　　同書第５頁第１６行目乃至第１９行目「靴に
算出された・・・更新すれはよい。」とあるを「最太余
似度〃・ら判定値を求め、このセ」定値と各文字に対す
る類似度を比軟すれば良い。」と訂正する。以　　上 −艮侶−

Claims

【特許請求の範囲】帳票などに記入された文字を走査して光電変換し、その
処理結果を六方文字パターンとして記憶する走査手段と
、上記入力文字パターンから所定の法則に従って尚該文字
パターンの特徴を抽出する特徴抽出手段と、読取るべきすべての文字の基準的な字形についての入力
文字パターンから上記所定の法則に従って抽出した文字
パターンの特徴を各文字の文字コードと対応して記憶す
る認識辞書と、上記特徴抽出手段で抽出した特徴と上記認識辞書に記憶
さ五る特徴との間の類似度を算出する類似度算出手段と
、上記認識辞書に記憶されるすべての文字について、当該
文字の基準的な字形から許容される範囲内で変形した複
数種類の変形字形について抽出した各特徴と、上記認識
辞書内の当該文字の特徴との間の各類似度を算出するこ
とによって得られる当該文字に関する類似度の分散値に
基づいて定めた閾値を各文字の文字コードと対応して記
憶する閾値テーブルと、上記類似度算出手段によって算出された類似度のうち最
大値を与える文字に対する閾値を上記閾値テーブルから
読出して、この読出した閾値を上記最大値から減算した
値を判定値として、上記類似度算出手段によって算出さ
れた類似度のうち上記判定値以上の類似度を有する文字
を候補文字として選定する分類手段と、この分類手段により選定された候補文字の中から所定の
法則により１つの文字を決定し又は決定不能として処理
する認識手段と、全備えた文字読取装置。