JPH06231310A

JPH06231310A - 文字認識装置における文字認識方法

Info

Publication number: JPH06231310A
Application number: JP5018464A
Authority: JP
Inventors: Misako Suwa; 美佐子諏訪; Haruo Akimoto; 晴雄秋元; 東善 ▲はい▼; Touzen Hai; Toshiyuki Yoshitake; 敏幸吉武
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-02-05
Filing date: 1993-02-05
Publication date: 1994-08-19

Abstract

(57)【要約】【目的】本発明は文字認識装置における文字認識方法
に関し、特定類似文字種間に関する識別能力を向上させ
ることを目的とする。【構成】特徴抽出部４で、文字画像から特徴を抽出
し、照合部５で、辞書部６の辞書の特徴と比較し文字認
識を行う文字認識装置１において、類似文字種の学習文
字パターンに対し、共通部分を切り出して取り除き、切
り出した残りのパターンの部分の特徴抽出を行い、各文
字種毎に再判定用辞書部９の辞書を作成しておき、文字
認識時には、照合部５から出力する文字認識結果を中間
認識結果とし、これが、選択された特定の類似文字種グ
ループに属するか否かを判断し、属する場合には、再判
定部８が、中間認識結果に対し、再度再判定用辞書部９
の辞書で再判定し、文字認識結果とするように構成し
た。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、光学的手書き文字読み
取り装置（以下、単に「ＯＣＲ」という）の文字認識装
置で、手書き文字の認識処理を行う場合に利用される文
字認識装置における文字認識方法に関する。

【０００２】

【従来の技術】図７〜図９は、従来例を示した図であ
り、図７はＯＣＲ（光学的手書き文字読み取り装置）の
構成図、図８は方向指数特徴の例を示した図、図９は辞
書照合処理の説明図である。

【０００３】図７〜図９中、１はＯＣＲ（光学的手書き
文字読み取り装置）、２は観測部、３は前処理部、４は
特徴抽出部、５は照合部、６は辞書部、７は後処理部を
示す。

【０００４】§１：一般的な手書き文字認識処理の説明一般的に、「手書き文字の認識」とは、大雑把にいえ
ば、予め作成されている各文字種毎の辞書と、識別した
い文字とを比較して、一番似ている辞書の文字種を読み
取りの結果として出力するといったものである。

【０００５】手書き文字を読み取る装置としては、ＯＣ
Ｒ（光学的手書き文字読み取り装置）がある。 §２：ＯＣＲの説明・・・図７参照一般的なＯＣＲの構成図を図７に示す。図示のように、
この例では、ＯＣＲ１に、観測部２、前処理部３、特徴
抽出部４、照合部５、辞書部６、後処理部７等を設け
る、：ＯＣＲ１に対して、識別したい文字を入力すると、
観測部２では、光電変換を行って、２値の画像データ
（文字画像データ）として取り込む。

【０００６】：その後、前処理部３では、文字データ
のノイズを除去し、正規化（大きさ、傾きの補正）等の
処理を行う。：続いて、特徴抽出部４では、文字パターンの特徴
を、所定の方法により、数値として取り出す。

【０００７】特徴の例として、図８に、方向指数特徴を
示す。図８において、例えば、方向成分が、水平成分７
個、左上成分９個、右上成分０個、根垂直成分６個であ
った場合、文字の座標表示は、ｍ（Ｘ）＝ｍ（・・・，
７，９，０，６・・・）のようになる。

【０００８】このように、特徴値のセットによって、文
字の座標付けがされたことになる。：辞書部６は、予め作成された各文字種の辞書データ
が格納されているファイルである。

【０００９】辞書というのは、各文字種の代表的な特徴
値であり、多数収集された辞書作成用文字（学習用文
字）の特徴値から、変形に応じて、各文字種に対し、複
数個作成されている。

【００１０】：照合部５では、図９に示したように、
入力文字の特徴値と、各辞書の特徴値の距離計算を行
い、一番近い辞書の属する文字種を認識結果（中間認識
結果）として出力する。この部分は、必要に応じて、大
識別と、詳細識別の多段階に分かれている。

【００１１】：その後、後処理部７で、後処理を行っ
て、最終の認識結果を出力する。

【００１２】

【発明が解決しようとする課題】上記のような従来のも
のにおいては、次のような課題があった。：手書き文字の認識処理において、例えば、一連の
「門がまえ」の付く漢字間や、｛ば、ぱ｝等の濁点、半
濁点の付く平仮名間、或いは、｛鳥、烏｝等のストロー
ク数が１本だけ違うといった様な文字間、｛２，３｝の
ような書き方によっては区別しにくい数字間、即ち、類
似文字間では、誤読が発生し易い。

【００１３】なお、このような誤読の生じる一因として
は、大まかな外形が一致してしまうと、より細部の差が
識別にきいてこないという事が考えられる。：上記のような類似文字間では、誤読が発生し易いた
め、ＯＣＲの文字認識処理に対する信頼性の向上が困難
である。

【００１４】本発明は、このような従来の課題を解決
し、文字認識装置（ＯＣＲ）の特定類似文字種間に関す
る識別能力を向上させることを目的とする。

【００１５】

【課題を解決するための手段】図１は本発明の原理説明
図であり、図１中、図７〜図９と同じものは、同一符号
で示してある。また、８は再判定部、９は再判定用辞書
部を示す。

【００１６】本発明は上記の課題を解決するため、次の
ように構成した。：文字画像から特徴を抽出し、この抽出した特徴と、
予め用意された辞書（辞書部６の辞書）の特徴とを比較
することにより、文字認識を行う文字認識装置におい
て、上記辞書とは別に、上記文字認識結果を再判定する
ための再判定用辞書（再判定用辞書部９の辞書）を作成
しておき、上記辞書（辞書部６の辞書）の特徴と比較し
て得られた文字認識結果を、文字の中間認識結果とし、
該中間認識結果に対し、これが、選択された特定の類似
文字種グループに属するか否かを判断し、属しない場合
は、上記中間認識結果をそのまま文字認識結果とし、属
する場合には、上記中間認識結果に対し、再度、上記再
判定用辞書（再判定用辞書部９の辞書）を用いて再判定
し、この再判定の結果を、文字認識結果とするように構
成した。

【００１７】：構成において、上記再判定用辞書
（再判定用辞書部９の辞書）を作成する際、類似文字種
の学習文字パターンに対し、共通部分を切り出して、取
り除き、切り出した残りのパターンの部分の特徴抽出を
行い、各文字種毎に、上記再判定用辞書を作成するよう
に構成した。

【００１８】：構成において、再判定用辞書（再判
定用辞書部９の辞書）を作成する際、類似文字種の学習
文字パターンに対し、非共通部分に対する辞書数は、変
形に応じて、複数作成するように構成した。

【００１９】：構成において、再判定用辞書（再判
定用辞書部９の辞書）を作成する際、切り出す類似文字
種の学習文字パターンの共通部分は、「漢字の部首」等
のような離れた一部分だけでなく、ストロークの一部分
（例えば、「２」、「３」の上部）も含めて切り出すよ
うに構成した。

【００２０】

【作用】上記構成に基づく本発明の作用を、図１に基づ
いて説明する。：上記の再判定用辞書は例えば、図１（Ａ）のように
して作成する。図１（Ａ）は、門がまえの付く文字間の
識別に強い辞書を作成する例を示している。

【００２１】先ず、門がまえの付く十分多くの学習用文
字パターンから、共通部分である門がまえのみを切り出
し取り除く。そして、残りの部分、すなわち、「日、
耳、口、ｅｔｃ．」に対して、正規化、特徴抽出を行
い、従来の任意の方法で、それぞれ複数個の辞書を作成
する。

【００２２】このようにして作成した辞書に、門がまえ
の付く、ということしか分からない未知の文字を認識さ
せたい場合、門がまえを除いた残りの部分を認識させ
る。このようにして、文字種決定に重要な細部の差が無
視されるといった問題は解消され、文字の誤読が減少す
る。

【００２３】：また、文字認識処理時には、図１
（Ｂ）に示した文字認識装置（ＯＣＲ）１において、次
のように処理を行う。前処理を行った画像データに対
し、特徴抽出部４で、文字の特徴抽出を行ない、照合部
５で、辞書部６の辞書を使用して、抽出した文字の特徴
の照合を行ない、中間認識結果を出力する。

【００２４】その後、ＯＣＲ１では、上記照合部５より
出力された中間認識結果が、選択された特定の類似文字
種グループに属するか否かを判断し、特定の類似文字種
グループに属しない場合は、最終認識結果の出力を行
う。

【００２５】しかし、中間認識結果が、選択された特定
の類似文字種グループに属する場合には、再判定部８
は、再判定用辞書部９の再判定用辞書を使用して、再判
定を行ない、最終認識結果の出力を行う。

【００２６】以上のようにして、再判定用辞書部９の再
判定用辞書による認識結果の再判定を行うことにより、
ＯＣＲの特定類似文字種間に関する識別能力を向上させ
る事が出来る。

【００２７】

【実施例】以下、本発明の実施例を図面に基づいて説明
する。図２〜図６は、本発明の実施例を示した図であ
り、図２は類似文字間誤読の生じる原因の例を示した
図、図３は再判定用辞書作成処理の説明図、図４はＯＣ
Ｒの構成図、図５は再判定用辞書作成処理フローチャー
ト、図６は文字認識処理フローチャートを示す。

【００２８】図２〜図６中、図１、及び図７〜図９と同
じものは、同一符号で示してある。 §１：類似文字間誤読の生じる原因の例の説明・・・図
２参照類似文字間誤読の生じる原因の例を図２に示す。例え
ば、図２に示したように、真の文字種「間」の辞書と、
「門」の部分の形状の違いの方が強かったため、言い換
えると、間違った文字種「問」の辞書と、「門」の部分
が似てしまった為に、「日」の部分の差が無視されてし
まい、誤読となった例である。

【００２９】このように、大まかな外形が一致してしま
うと、より細部の差が識別にきいてこないために、誤読
が発生する。 §２：類似文字間誤読を減少させるための基本的な説明上記のような類似文字間誤読を減少させるため、本発明
では、次のようにして、再判定用辞書を作成する。

【００３０】：ＯＣＲで、互いに間違い易い類似文字
種の手書き文字を多数収集し、これを、再判定用辞書作
成用（学習用）文字とする。これらの学習用文字パター
ン全てから、パターン間に共通な部分のみを取り出し、
取り除く。

【００３１】：各文字種毎に、文字パターンの残りの
部分に対して特徴抽出を行い、変形に対応するよう辞書
を複数個作成する。 §３：再判定用辞書作成時の処理の基本的な説明・・・
図３参照上記の再判定用辞書は例えば、次のようにして作成す
る。図３は、門がまえの付く文字間の識別に強い辞書を
作成する例を示している。

【００３２】先ず、門がまえの付く十分多くの学習用文
字パターンから、共通部分である門がまえのみを切り出
し取り除く。そして、残りの部分、すなわち、「日、
耳、口、ｅｔｃ．」に対して、正規化、特徴抽出を行
い、従来の任意の方法で、それぞれ複数個の辞書を作成
する。

【００３３】このようにして作成した辞書に、門がまえ
の付く、ということしか分からない未知の文字を認識さ
せたい場合、門がまえを除いた残りの部分を認識させる
ことで、「文字種決定に重要な細部の差が無視される」
といった問題は解消される。

【００３４】また、再判定用辞書部９の辞書を作成する
際、類似文字種の学習文字パターンに対し、非共通部分
に対する辞書数は、変形に応じて、複数作成する。更
に、再判定用辞書部９の辞書を作成する際、切り出す類
似文字種の学習文字パターンの共通部分は、「漢字の部
首」等のような離れた一部分だけでなく、ストロークの
一部分、例えば、数字の「２」、「３」の上部も含めて
切り出すようにする。

【００３５】§４：ＯＣＲの説明・・図４参照本実施例のＯＣＲの構成図を図４に示す。図示のよう
に、この例では、ＯＣＲ１に、観測部２、前処理部３、
特徴抽出部４、照合部５、辞書部６、後処理部７、再判
定部８、再判定用辞書部９等を設ける。

【００３６】再判定用辞書部９は、再判定用辞書の格納
部（ファィル）であり、再判定部８は再判定用辞書部９
の再判定用辞書を使用して、照合部５から出力する中間
認識結果を再判定するものである。

【００３７】なお、再判定部８及び、再判定用辞書部９
以外の構成は、従来例と同じなので、説明は省略する。 §５：再判定用辞書（類似文字種識別用辞書）作成処理
の説明・・・図５参照再判定用辞書作成処理フローチャートを図５に示す。以
下、図５の処理フローチャートに基づいて、再判定用辞
書の作成処理を説明する。なお、Ｓ１〜Ｓ７は各処理番
号を示す。

【００３８】：上記辞書を作成する場合には、従来の
ＯＣＲで、互いに誤読する率の高い、類似文字種のセッ
トを選んでおく。そして、従来の方法での辞書作成に使
用した学習文字データ（光電変換済み）の内、選んだ文
字種に属する文字を、再判定用辞書作成用データ（学習
用文字データ）として用いる。

【００３９】なお、この再判定用辞書作成用データ（学
習用文字データ）は、図５の学習用文字データファイル
に格納しておく。：先ず、学習用文字データファイルから、学習用文字
データの読み込みを行い（Ｓ１）、特定の類似文字種の
収集を行う（Ｓ２）。

【００４０】その後、上記§３で説明した方法により、
収集した類似文字種のセットの各々に対して、文字パタ
ーンの共通部分の切り出し（Ｓ３）を行い、該共通部分
を取り除いた残りの部分（非共通部分）を正規化する
（Ｓ４）。

【００４１】続いて、非共通部分の特徴抽出を行い（Ｓ
５）、それらの特徴値から、各類似文字種のセットに対
する辞書を、所定の作成方法で（任意の辞書作成方法
で）作成する（Ｓ６）。

【００４２】作成した辞書は、再判定用辞書（類似文字
種識別用辞書）として、ＯＣＲ１の再判定用辞書部（フ
ァイル）９に格納する（Ｓ７）。 §６：文字認識処理の説明・・・図６参照文字認識処理フローチャートを図６に示す。以下、図４
に示したＯＣＲにおける文字認識処理を、図６の処理フ
ローチャートに基づいて説明する。なお、Ｓ１１〜Ｓ１
８は各処理番号を示す。

【００４３】：先ず、ＯＣＲ１で帳票を読んで、文字
の入力を行い（Ｓ１１）、観測部２で、文字の光電変換
処理を行う（Ｓ１２）。その後、前処理部３で、正規
化、及びノイズ除去処理等を行い（Ｓ１３）、特徴抽出
部４で、文字の特徴抽出を行う（Ｓ１４）。

【００４４】続いて、照合部５は、辞書部６の辞書を使
用して、抽出した文字の特徴の照合を行う（Ｓ１５）。
その結果、照合部５より、中間認識結果を出力する。な
お、以上のＳ１１〜Ｓ１５の処理は、従来の処理と同じ
である。

【００４５】：次に、ＯＣＲ１では、上記照合部５よ
り出力された中間認識結果が、選択された特定の類似文
字種グループに属するか否かを判断し（Ｓ１６）、特定
の類似文字種グループに属しない場合は、後処理部７で
の後処理を行って、最終認識結果の出力を行う（Ｓ１
８）。

【００４６】しかし、中間認識結果が、選択された特定
の類似文字種グループに属する場合には、再判定部８
は、再判定用辞書９を使用して、再判定を行う（Ｓ１
７）。その後、後処理部７での後処理を行って、最終認
識結果の出力を行う（Ｓ１８）。

【００４７】

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。：詳細な識別用の辞書による認識結果の再判定を行う
ことにより、ＯＣＲの特定類似文字種間に関する識別能
力を向上させる事が出来る。

【００４８】：ＯＣＲの文字認識精度が向上し、ＯＣ
Ｒの信頼性が向上する。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】類似文字間誤読の生じる原因の例を示した図で
ある。

【図３】再判定用辞書作成処理の説明図である。

【図４】実施例におけるＯＣＲの構成図である。

【図５】実施例における再判定用辞書作成処理フローチ
ャートである。

【図６】実施例における文字認識処理フローチャートで
ある。

【図７】従来のＯＣＲの構成図である。

【図８】方向指数特徴の例を示した図である。

【図９】辞書照合処理の説明図である。

【符号の説明】

４特徴抽出部５照合部６辞書部８再判定部９再判定用辞書部

───────────────────────────────────────────────────── フロントページの続き (72)発明者吉武敏幸神奈川県川崎市中原区上小田中1015番地富士通株式会社内

Claims

【特許請求の範囲】

【請求項１】文字画像から特徴を抽出し、この抽出し
た特徴と、予め用意された辞書（６）の特徴とを比較す
ることにより、文字認識を行う文字認識装置において、上記辞書（６）とは別に、上記文字認識結果を再判定す
るための再判定用辞書（９）を作成しておき、上記辞書（６）の特徴と比較して得られた文字認識結果
を、文字の中間認識結果とし、該中間認識結果に対し、これが、選択された特定の類似
文字種グループに属するか否かを判断し、属しない場合は、上記中間認識結果をそのまま文字認識
結果とし、属する場合には、上記中間認識結果に対し、再度、上記
再判定用辞書（９）を用いて再判定し、この再判定の結果を、文字認識結果とすることを特徴と
した文字認識装置における文字認識方法。
【請求項２】上記再判定用辞書（９）を作成する際、類似文字種の学習文字パターンに対し、共通部分を切り
出して、取り除き、切り出した残りのパターンの部分の特徴抽出を行い、各文字種毎に、上記再判定用辞書（９）を作成すること
を特徴とした請求項１記載の文字認識装置における文字
認識方法。
【請求項３】上記再判定用辞書（９）を作成する際、類似文字種の学習文字パターンに対し、非共通部分に対
する辞書数は、変形に応じて、複数作成することを特徴
とした請求項２記載の文字認識装置における文字認識方
法。
【請求項４】上記再判定用辞書（９）を作成する際、切り出す類似文字種の学習文字パターンの共通部分は、
「漢字の部首」等のような離れた一部分だけでなく、ス
トロークの一部分（例えば、「２」、「３」の上部）も
含めて切り出すことを特徴とした請求項２記載の文字認
識装置における文字認識方法。