JPH0388090A

JPH0388090A - 文字認識装置

Info

Publication number: JPH0388090A
Application number: JP1224814A
Authority: JP
Inventors: Kazuhito Haruki; 春木　和仁
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-08-31
Filing date: 1989-08-31
Publication date: 1991-04-12

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は、ニューラルネットワークを用いた文字認識装
置に関する。

（従来の技術）近年、ニューラルネットワークを用いて文字認識、音声
認識、画像情報処理等を行うシステムの開発が盛んであ
る。

このニューラルネットを用いた文字認識処理では、ある
入力文字パターンの認識結果に誤りが生じた場合、その
入力文字パターンに対する次回からの文字認識において
正解の文字パターン候補が得られるような方向性を持っ
てニューラルネットワークにおける各アーク荷重値を修
正することで、入力文字パターンの特徴の変化に応じた
良好な文字認識を安定して行うことが可能とされている
。

（発明が解決しようとする課題）ところが、こうしたニューラルネットワークを採用した
文字認識処理では、手書き数字の認識においては良好な
認識率が得られるものの、これを手書きカナ文字等に適
用しようとした場合数々の障害があった。

例えば、手書き数字の場合、ニューラルネ・ソトワーク
の入力層は、入力文字パターンと「０」から「９」まで
の各数字との類似度にそれぞれ対応する１０個のユニッ
トと、ダミー１個の計１１個のユニットだけで済む。こ
れに対し手書きカナ文字の場合は、入力層は、入力文字
パターンと「ア」から「ン」までの各カナ文字との類似
度にそれぞれ対応する４６個のユニットとダミー１個の
計４７個が必要となる。これに伴って中間層の数も数字
の場合は５０個程度で済んでいたが、カナ文字の場合は
少なくとも　１００個あるいはそれ以上必要とする。

出力層についても数字の場合は１０個、カナ文字の場合
は４６個必要とする。

したがって、大規模となり、しかも手書きカナ文字の場
合、「工、コ、ユ」等の類似した文字が多いため学習に
長時間を要し、満足する認識率を得ることができないと
いう問題があった。

本発明はこのような課題を解決するためのもので、手書
きカナ文字のように文字種類が多く、多くの類似パター
ンを有した文字群についても高い正解率で文字認識を行
うことのできる文字認識装置の提供を目的としている。

［発明の構成］（課題を解決するための手段）本発明の文字認識装置は上記した目的を達成するために
、入力文字パターンと複数の文字パターン候補との各類
似度から入力文字パターンの認識結果として確信度の高
い複数の文字パターン候補を判定する文字認識装置にお
いて、各文字パターン候補を類似文字群のグループ毎に
複数分類し、各類似度から、各グループ毎に本来類似度
が最大となってしかるべき文字パターン候補が最終的な
文字認識候補の一つとして得られるよう学習を行い、各
グループ毎に確信度の高い複数の文字パターン候補をそ
れぞれ判定する複数のサブニューラルネットと、各類似
度から、本来類似度が最大となってしかるべき文字パタ
ーン候補を含むサブニューラルネットの判定結果が最終
的な文字認識候補の一つとなるよう学習を行い、最も確
信度の高い文字パターン候補を含むサブニューラルネッ
トを判定するニューラルネットと、各サブニューラルネ
ットの判定結果とニューラルネットの判定結果から、最
終的な文字認識結果として確信度の高い複数の文字パタ
ーン候補を判定する判定手段とを具備したものである。

（作　用）本発明の文字認識装置では、各サブニューラルネットお
よびニューラルネットに、それぞれ入力文字パターンと
複数の文字パターン候補との各類似度が入力されると、
各サブニューラルネットは、それぞれのグループ内にお
いて、最終的な文字認識結果として確信度の高い複数の
文字パターン候補をそれぞれ判定する。一方、ニューラ
ルネットは、前記各類似度が入力されると、これら各類
似度から、最も確信度の高い文字パターン候補を含むサ
ブニューラルネットを判定する。そして判定手段は、各
サブニューラルネットの判定結果とニューラルネットの
判定結果から、最終的な文字認識結果として確信度の高
い複数の文字パターン候補を判定する。こうして判定さ
れた一つの入力文字パターンに対する複数の文字パター
ン候補は、例えば、その前後の入力文字パターンに対し
て得られた文字パターン候補と組合せた上での妥当性を
調べることにより、最終的に一つに絞られる。

また学習時において、各サブニューラルネットは、それ
ぞれのグループ内において、入力文字パターンと複数の
文字パターン候補との各類似度から本来類似度が最大と
なってしかるべき文字パターン候補が最終的な文字認識
候補の一つとして得られるよう学習を行い、ニューラル
ネットは、各類似度から本来類似度が最大となってしか
るべき文字パターン候補を含むサブニューラルネットの
判定結果が最終的な文字認識候補の一つとして決定され
るよう学習を行う。

したがって、この発明によれば、手書きカナ文字のよう
に文字種類が多く、多くの類似パターンを有した文字群
についても高い正解率で文字認識を行うことができる。

（実施例）以下、本発明の実施例を図面に基づいて詳細に説明する
。

第１図はこの発明に係る一実施例の文字認識装置の構成
を説明するためのブロック図である。

同図において、１は帳票上に手書きされたカナ文字等を
光学的に読取ってその文字パターンを得るスキャナ部、
２はスキャナ部１により読取られた入力文字パターンと
のマツチング対象となる文字パターン候補群（この実施
例では「ア」〜「ン」までのカナ文字が不可欠）が登録
されたパターン候補格納部、３はスキャナ部１からの入
力文字パターンとパターン候補格納部２に格納された文
字パターン候補との所定のパターン・マツチングを行っ
てそれぞれの類似度を算出するパターン・マツチング部
、４はパターン・マツチング部３において算出された各
文字パターン候補に対する類似度の組合せから、確信度
の高い上位所定数までの文字パターン候補を文字認識候
補として判定する文字候補判定部、５は文字候補判定部
４において判定された複数の文字認識候補を、後処理に
備えて格納するデータ格納部である。

さて、このような構成の文字認識装置において、上記し
た文字候補判定部４はニューラルネットを採用して次の
ように構成される。

第２図はこのニューラルネットを用いて構成された文字
候補判定部の構成を示している。

同図に示すように、この文字候補判定部４は、判断部１
１、制御用ニューラルネット１２、複数のサブニューラ
ルネット１３〜３２（この実施例では１９個）、最終判
定部３３、学習データベース３４を備えて構成される。

判断部１１は、パターン・マツチングにより算出された
各文字パターン候補に対する類似度の最大値が、予め設
定されたしきい値を越えているか否かを判断して、越え
ていればその最大類似度を得た文字パターン候補を最終
的な文字認識結果として出力し、越えていなければ制御
用ニューラルネット１２およびサブニューラルネット１
３〜３２に文字認識結果の判定処理を渡す。

サブニューラルネット１３〜３２は、各文字パターン候
補を、誤読を招き易い類似文字群のグループ毎に分類し
、入力文字パターンと各文字パターン候補との各類似度
から、各グループ毎に本来類似度が最大となってしかる
べき文字パターン候補が文字認識候補の一つとして得ら
れるよう学習を行い、その学習の結果において、各グル
ープ毎に確信度の高い上位所定、数まで文字パターン候
補の判定を行うものである。

制御用のニューラルネット１２は、入力文字パターンと
各文字パターン候補との類似度から、本来類似度が最大
となってしかるべき文字パターン候補を含むサブニュー
ラルネット１３〜３２の判定結果が最終的な認識結果と
して最終判定部３３において選択されるよう学習を行い
、その学習の結果において、最も確信度の高い文字パタ
ーン候補を含んだサブニューラルネット１３〜３２を判
定するものである。

全体学習データベース３４は、制御用ニューラルネット
１２および各サブニューラルネット１３〜３２での学習
で用いられるデータ、すなわち入力文字パターンと各文
字パターン候補との類似度とこれに対応する正解のデー
タとの組が格納される。またこの全体学習データベース
３４に格納された学習データは、学習実行の際、各ニュ
ーラルネット１２．１３〜３２の学習データベース（後
述する）に転送されることになるが、各サブニューラル
ネット１３〜３２に対しては、データ選別器３５を介し
てそれぞれ該当する学習データを選別した上で転送され
る。

ところで、上述した各ニューラルネット１２．１３〜３
２では、その学習機能を、例えばバックプロパゲーショ
ンアルゴリズム等の学習アルゴリズムを用いて実現して
いる。

第３図は各ニューラルネットの基本構成を示している。

同図に示すように、この実施例のニューラルネット１２
．１３〜３２の構成は、パターン・マツチングにより算
出された各パターン候補に対する類似度がそれぞれ入力
される複数の入力ノードＡからなる入力層と、各入力ノ
ードＡとアークＢを介してネットワークで結合された複
数の中間ノードＣからなる中間層と、各中間ノードＣと
アークＤを介してネットワークで結合され、各パターン
候補に対する類似度からそれぞれの最終的な正解確信度
を示す値を出力する出力ノードＥからなる出力層とから
構成されている。

また上述した各アークＢ、Ｄには、各ノード間の結合の
強さを示す荷重値が設定されており、これらの荷重値は
、次のネットワーク管理部により修正されるようになっ
ている。

このネットワーク管理部の構成を第４図を用いて説明す
る。

同図において、４１は入力ノードＡおよび中間ノードＣ
からそれぞれ出力されたデータを一時的に保持するノー
ド出力値テーブル、４２は各アークＢ、Ｄに設定された
荷重値を保持する荷重値テーブル、４３は各入力ノード
Ａや中間ノードＣからの出力データにそれぞれ荷重値テ
ーブル４２上の対応する荷重値を乗じて積算を行う枯算
器、４４は個々の中間ノードＣや出力ノードＥに終結さ
れる積算結果を加算する加算器である。また４５は通常
の文字認識において出力された各文字パターン候補に対
する最終的な積算値（類似度）の中から最大値を得た文
字パターン候補を最終的な文字認識結果として判定する
判定器、４６は学習時において出力された各文字パター
ン候補に対する最終的な積算値と本来類似度が最大とな
ってしかるべき正解のデータとをそれぞれ取込んで比較
し、それぞれが一致しているかどうかを評価する評価器
、４７は評価器４６において各データが一致しないと判
定されたとき、当該入力文字パターンに対する次回から
の文字認識処理において正解を得るような方向性を持っ
て荷重値テーブル４２上の各荷重値を修正する荷重値修
正器、４８は全体学習データベース３３からの学習デー
タを格納する学習データベース、４９は学習データベー
ス４８の登録内容を管理する学習管理器である。

次にこのネットワーク管理部による学習の基本動作を第
５図のフローチャートを用いて説明する。

まず学習データベース４８から、類似度の組合せとこれ
に対応する正解のデータの組を１つずつ抽出しくステッ
プａ）、これを制御用ニューラルネット１２、サブニュ
ーラルネット１３〜３２の各入力ノード出力値テーブル
４１と評価器４６にそれぞれセットする（ステップｂ）
。

入力ノード出力値テーブル４１に類似度がセットされる
と、各類似度は入力ノードＡから中間ノードＣを介して
出力ノードＥに至るまでの間において、アークＢおよび
アークＤにそれぞれ設定された荷重値を用いて積算、さ
らに加算され、最終的に各出力ノードＥに終結されたそ
れぞれの値が各文字パターン候補に対する確からしさを
示す値（確信度）となる（ステップＣ）。

この後、各出力、ノードＥから出力された各文字パター
ン候補に対する値は評価器４６に出力される。比較器４
６は、各出力ノードＥから出力されたデータと正解のデ
ータとを比較評価しくステップｄ）、その比較評価の結
果、両者が一致していなければ、荷重値修正器４７を起
動させて荷重値テーブル４２における各荷重値を、次回
からの処理において正解のデータが得られるような方向
性を持って修正する（ステップｅ）。同時に学習管理器
４つは、今回の文字認識処理における入力類似度の組合
せと正解のデータとの組を再び学習データとして学習デ
ータベース４８に格納する。

全ての文字パターンのサンプルに対する　１回目の学習
が終了すると、学習管理器４つは、２回目の学習を開始
させるため学習データベース４８から再度ｉ組ずつ各類
似度の組合せと正解のデータとの組を抽出し、これらを
各ニューラルネット１２．１３〜３２にそれぞれセット
する。

以上の学習動作を延々と繰り返し、全ての文字パターン
のサンプルについて正解のデータが得られるようになっ
た時点で、あるいは所定回数の荷重値修正を終えた時点
で、全ての学習を終了させる（ステップｆ）。

次にこの文字認識装置の動作を説明する。

ある手書きカナ文字についてパターン・マツチングを行
い、その結果得た各文字パターン候補に対する類似度の
組合せが文字候補判定部４に入力されると、判断部１１
は、まずその中での最大類似度が予め設定されたしきい
値を越えているか否かを判断する。そして最大類似度が
しきい値を越えていれば、その最大類似度を得た文字パ
ターン候補を最終的な文字認識結果として出力する。ま
た最大類似度がしきい値を越えていなければ、制御用ニ
ューラルネット１２、サブニューラルネット１３〜３２
に文字認識候補の判定処理を渡し、その後処理で最終的
な文字認識結果の判定を行う。

制御用ニューラルネット１２は、判断部１１より処理を
受継ぐと、上記各類似度の組合せから、どのサブニュー
ラルネット１３〜３２の判定結果が最も確信度が高いか
を決定し、そのネ・ント番号を最終判定部３３に送る。

一方、各サブニューラルネット１３〜３２では、それぞ
れ自身のグループに属する文字間で、上記各類似度の組
合せから、入力文字パターンの認識結果として確信度の
高い上位所定数までの文字パターン候補を決定し、これ
らを最終判定部３３に送る。

この結果、最終判定部３３は、制御用ニューラルネット
１２で決定したサブニューラルネットの判定結果を文字
認識候補として出力する。

こうして判定された複数の文字認識候補は、旦データ格
納部５に格納された後、例えば、一つの入力文字パター
ンに対して得られた複数の文字認識候補を、その前後の
入力文字パターンに対して得られた文字認識候補と組合
せてみて、その妥当性を調べることにより、最終的に一
つに絞られる。

次にこの文字認識装置での学習の具体例を説明する。

正解が「ユ」である入力文字パターンについて、この文
字を含むサブニューラルネット１２〜３２において各文
字パターン候補との類似度を算出したところ、工・・・・・・・・・０．５コ・・・・・・・・・０．８ユ・・・・・・・・・０，７ヨ・・・・・・・・・　０．３フ・・・・・・・・・０，７という結果が得られたとする。

この場合、本来類似度が最大となってしかるべき文字パ
ターン候補は「コ」や「フ」ではなく「ユ」であること
から、学習により、「ユ」の文字パターン候補に対する
類似度の算出結果が「コ」や「フ」の文字パターン候補
に対する類似度の最終結果よりも高くなるよう、同サブ
ニューラルネット１２〜３２における各アークの荷重値
を修正する。

例えば、ここでサブニューラルネット１２〜３２から出
力される文字パターン候補が、類似度が上位２位までの
ものとした場合は、正解の「フ」と最大類似度を得た「
コ」を正解とする一方、「ユ」を不正解として仮定した
上で学習を行う。

また、上記類似度の組合せから、制御用ニューラルネッ
ト１２において、同サブニューラルネット１２〜３２の
判定結果が最も確信度が高いものとして判定されるよう
該制御用ニューラルネット１２における各アークの荷重
値を修正する。

かくしてこの実施例の文字認識装置によれば、各サブニ
ューラルネット１３〜３２において、それぞれ類似パタ
ーン毎に分類された文字パターン候補間での学習および
複数の文字認識候補の判定を行い、制御用ニューラルネ
ット１２において、どのサブニューラルネット１３〜３
２が最も確信度が高い文字パターン候補を含んでいるか
を学習、判定するようにしたので、手書きカナ文字のよ
うに文字種類が多く、類似文字パターンを多く含んだも
のであっても、高い正解率で文字認識を行うことができ
る。

尚、上述した実施例では、ニューラルネットによる文字
認識を、入力文字パターンと文字パターン候補とのマツ
チングの結果書た最大類似度が、あるしきい値を越えな
い場合に限り行ったが、その他の方法として、最大類似
度から２番目に高い類似度を差し引いた値をしきい値と
比較し、その結果から次の動作を決定するようにしても
よい。

また、この実施例では手書きカナ文字の認識について説
明したが、本発明はこれに限定されるものではなく、例
えば、ローマ字や漢字等の認識にも適用が可能である。

［発明の効果］以上説明したように本発明の文字認識装置によれば、手
書きカナ文字のように文字種類が多く、多くの類似パタ
ーンを有した文字群についても高い正解率で文字認識を
行うことができる。

【図面の簡単な説明】

第１図は本発明の一実施例の文字認識装置の全体構成を
説明するためのブロック図、第２図は第１図におけるニ
ューラルネットを用いた文字判定部の構成を説明するた
めのブロック図、第３図はニューラルネットの基本構成
を示す図、第４図は各ニューラルネットにおけるネット
ワーク管理部の構成を説明するためのブロック図、第５
図は第４図のネットワーク管理部による学習の基本動作
を示すフローチャートである。１１・・・判断部、１２・・・制御用ニューラルネット
、１３〜３２・・・サブニューラルネット、３３・・・
最終判定部。

Claims

【特許請求の範囲】入力文字パターンと複数の文字パターン候補との各類似
度から前記入力文字パターンの認識結果として確信度の
高い複数の文字パターン候補を判定する文字認識装置に
おいて、前記各文字パターン候補を類似文字群のグループ毎に複
数分類し、前記各類似度から、各グループ毎に本来類似
度が最大となってしかるべき文字パターン候補が最終的
な文字認識候補の一つとして得られるよう学習を行い、
前記各グループ毎に確信度の高い複数の文字パターン候
補をそれぞれ判定する複数のサブニューラルネットと、前記各類似度から、本来類似度が最大となってしかるべ
き文字パターン候補を含む前記サブニューラルネットの
判定結果が前記文字認識候補の一つとなるよう学習を行
い、最も確信度の高い文字パターン候補を含むサブニュ
ーラルネットを判定するニューラルネットと、前記各サブニューラルネットの判定結果と前記ニューラ
ルネットの判定結果から、最終的な文字認識結果として
確信度の高い複数の文字パターン候補を判定する判定手
段とを具備したことを特徴とする文字認識装置。