JPH08255223A

JPH08255223A - 文字認識装置における類似文字判別方法

Info

Publication number: JPH08255223A
Application number: JP7057008A
Authority: JP
Inventors: Shinji Matsui; 伸二松井; Tetsuo Kiuchi; 哲夫木内
Original assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Current assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Priority date: 1995-03-16
Filing date: 1995-03-16
Publication date: 1996-10-01

Abstract

(57)【要約】【目的】文字認識装置における類似文字の誤読率を低滅
する文字認識の方法を提供し、文書読取装置を高能率化
する。【構成】画像入力装置にから入力された文字パターンデ
ータを解析して得た切出し文字ベクトルを、文字ベクト
ル辞書と照合して切り出した文字の読み取りの候補文字
に挙げる候補文字１次ソート処理の後に、この候補文字
を詳細認識を要する類似文字を登録した類似文字テーブ
ルと照合し、類似文字テーブルに登録の文字であるとき
には、予め共通字画ベクトルメモリに格納しておいた登
録文字の類似文字間に共通な字画部分を示す共通字画ベ
クトルを読み出して切出し文字ベクトルとの差分を演算
することによって詳細認識を行うべき着目部分を着目域
ベクトルとして抽出し、この着目域ベクトルと、着目領
域における類似文字間の字画の差異を検査する定規とし
て登録しておいた差分テンプレートとの類似度を演算
し、類似度を最上位とする候補文字を文字認識結果とし
て出力するようにする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】文字読取装置における文字認識方
法、特に類似文字の認識方法に関する。

【０００２】

【従来の技術】文字読取装置（ＯＣＲ）は、図７に例示
のようにイメージスキャナ11と文字認識装置12からなる
文字読取装置１およびホストコンピュータ２によって構
成されており、文字認識装置12はイメージスキャナ11が
光学的に読取った文書画像データを入力とし、概略を図
８に示したフローの処理にしたがって先ず入力文書画像
データを観測して１文字として処理すべき文字パターン
データ領域を切り出し、切り出した文字パターンデータ
を解析して該文字パターンデータが内蔵している特徴パ
ラメータを抽出し、この特徴パラメータを読み取り対象
範囲の各文字に対応して予め用意した各文字に属する特
徴パラメータの辞書と照合して特徴パラメータが整合す
る文字を抽出することによって読取った文字を認識し、
該文字に割当た文字区分コードを文字情報として出力す
る作用を基本機能とするものである。このとき、ホスト
コンピュータ２は、読み取り対象文書の読み取り条件の
指示設定、読み取り結果の表示等のマンマシンインター
フェースとして機能するとともに、読み取りによって得
られた文書情報をもととする文書の編集校正の作業をも
遂行する。

【０００３】文字の認識方法がパターンマッチング法で
ある文字認識装置では、イメージスキャナ11から入力さ
れて一文字として切り出された図９の（ａ）に例示のよ
うな文字パターンデータ領域を、同図（ｂ）のように適
当な細かさの縦Ｌ横Ｉの枡目に区分し、それぞれの枡目
の濃度値を枡目の座標の関数ｆ(Xp,Yq) (1≦ｐ≦Ｉ，1
≦ｑ≦Ｌ）として読み取り、１つの文字パターンデータ
領域に対応して得られる濃度パターン値の集まりを読み
取り文字の近似データとしている。そして、このような
文字パターンデータ領域を枡目に区分して得た濃度パタ
ーンの値ｆ(Xp,Yq) の集まりにＩ×Ｌ＝Ｋ個の枡目の区
分の順に番号をつけ、この番号順に濃度パターンの値 x
i=ｆ(Xp,Yq) を並べて、これをＫ次元空間に張られた式
１で表される文字ベクトルＸと解釈している。

【０００４】

【数１】Ｘ＝（x1,x2,…xk） k=I×L （１）上記のように、１個の文字は読取りの分解能に相当する
一文字領域を区分する枡目の数ｋに等しい次元の文字ベ
クトルによって表現されるので、読み取り対象文字範囲
となる各文字のそれぞれについて、あらかじめ上記枡目
区分による該文字を表わすＫ次元の基準文字ベクトルを
求め、この基準文字ベクトルの集まりを文字ベクトル辞
書として用意しておくと、読取り対象の文書をイメージ
スキャナで走査して得られた文書画像から切り取られた
認識対象文字に対応して得られる文字ベクトルを、辞書
に収録の基準文字ベクトルと照合して一致するベクトル
を選定することによって原理的には該文字を認識するこ
とができる。

【０００５】ところで、プリンタあるいは活字によって
印刷された文字のような規格化された文字であっても、
同一書体で印刷された同一の文字の字体を詳細に比較す
るとプリンタ，あるいは活字の製作元における文字設計
のちがいによる僅かな差異が見られるのが普通である。
このような同一の文字であっても異る字体で印刷された
２つの文字は、文字パターン領域における濃度パターン
分布がいく分異なっているので、文字パターンデータ領
域を枡目に区分するサンプリングによって得られる文字
ベクトルは、字体の異なる２つの文字間で類似ではある
が完全に一致することはない。それゆえ、認識対象文字
の文字ベクトルと辞書に登録の基準文字ベクトルとの一
致を判定認識の条件にすると大方の文字の読取り認識が
不可能になってしまう。

【０００６】文字ベクトルの完全一致を文字認識の判定
条件とした場合に生じる上記の不都合を避けて、字体の
僅少の差異に影響されずに文字を正しく認識するため、
文字ベクトル空間における２つのベクトルの一致の替り
に、２つのベクトルｆとｇのへだたりを意味する式
（１）で表わされる距離ｄ(f,g) または式（２）で表わ
される類似度ｓ(f,g) を認識判定に利用する方法が実用
されている。

【０００７】

【数２】

【０００８】

【数３】

【０００９】距離ｄ(f,g) は０≦ｄ≦∞の値を取り、ｆ
＝ｇの時に０となる。一方、類似度ｓ(f,g) は２つのベ
クトルｆとｇとがなす角度θの余弦値と等しく−１≦ｓ
≦１の値をとり、ｆ＝ｇのとき１となる。文字認識判定
において基準となる辞書に登録する各文字に対応の基準
文字ベクトルについても、基準に選定した一文字にもと
づいて定めるのではなく、同属の字体に属する同一文字
の多数の事例サンプルを集めて求めた各文字ベクトルの
平均ベクトルを文字基準ベクトルとして登録する方法が
実行されている。このようにして設定された文字基準ベ
クトルは同一文字について字体，サイズ，太さ，変形率
等の異るサンプルの特徴の次元ごとに平均ベクトルを求
めたもので各平均ベクトルはテンプレートと呼ばれてい
る。

【００１０】上記のパターンマッチング法を基礎とする
文字認識においては、印刷濃度の差の影響が少ない式
（２）で表わされる類似度を判定基準とする方法が主に
用いられているが、単純に類似度のみを判定基準とする
方法では、文字の大局的な特徴によるマッチング度が大
きく影響するため、認識対象文字に固有の細かな特徴、
たとえば漢字の「太」と「大」のような特定領域の点パ
ターン「、」の有無を陽に取り出して類似パターンを弁
別するといった一様でない処理は不得手である。そこ
で、部分空間識別理論にもとづいて類似の文字ベクトル
間の差分を求めて、この差分を認識推論の過程に加えた
複合類似度法、および、これを更に発展させた混合類似
度法などの部分パターンマッチング法が導入されてい
る。

【００１１】従来技術の範囲で上記の部分パターンマッ
チング法を適用した詳細判別処理によって類似文字間の
差異を判別して認識精度を向上させようとするとき、認
識対象とする類似の各文字について、それぞれの識別領
域を人による視察にもとづいて求めて設定し、予め辞書
として用意しておく必要がある。

【００１２】

【発明が解決しようとする課題】以上に説明のごとく、
従来技術にもとづくパターンマッチング法を適用した類
似文字判別方法によって膨大な文字数からなるさまざま
の字体の活字印刷漢字に対応しようとする場合、それぞ
れの文字について、予め膨大な労力を費やして字体間の
字形の差異などに影響されない安定した着目領域を視察
によって抽出して該領域のパターンデータによる特徴ベ
クトルを設定し、特徴辞書として登録しておく必要があ
る。

【００１３】そして、認識対象文字を読み取って着目す
べき領域を着目域ベクトルとして抽出して特徴辞書に登
録の特徴ベクトルと類似度法による照合を行う際、認識
対象文字または照合対象の基準文字いづれかの特徴領域
が空白であり、着目域ベクトルまたは特徴ベクトルどち
らかのベクトル値がゼロであると、類似度を求める式３
の演算が不能となって、「大」と「太」のように注目領
域のパターンの一方が空白で、そのことが判別の重要な
キーポイントとなるような場合に、これを有効に役立て
ることができないという問題がある。

【００１４】本発明は、従来技術における上記の問題点
に鑑みなされた発明であり、様々の字体の文字から字体
間の字形の差異に影響されたり安定した着目領域を自動
的に抽出する方法を提供して、特徴辞書の作成と文書読
取の両局面における注目領域抽出処理の能率を高め、抽
出した注目領域が空白である場合でも、これを文字認識
の評価判定に役立てる手段を提供して文字認識装置にお
ける類似文字の誤読率を低滅することを目的とする。

【００１５】

【課題を解決するための手段】類似文字間の特徴差異点
を抽出して認識の判定基準とし、類似文字の誤読率を低
滅するため、本発明にもとづく類似文字判別方法におい
ては、イメージスキャナによって光学的に読み取ってバ
ッファに格納した文書画像入力の文字パターンデータを
観測して単一文字域を切り出してこれを判読するとき、
切り出した文字パターンデータを解析して得た濃度パタ
ーンの値の順序集合である切出し文字ベクトルを、文字
ベクトル辞書に登録の各文字に設定した基準文字ベクト
ル照合してベクトル値が同等の基準文字を前記の切り出
した文字の読み取りの候補文字に挙げる候補文字１次ソ
ート処理の後に、この候補文字を詳細認識を要する類似
文字が存在する文字として予め類似文字テーブルに登録
した登録類似文字と照合し、類似文字テーブルに登録さ
れている文字であるときには、予め副プログラムによっ
て生成して共通字画ベクトルメモリに格納しておいた前
記登録文字の類似文字間に共通な字画部分を示す共通字
画ベクトルを読み出して前記切出し文字ベクトルとの差
分を演算することによって詳細認識を行うべき着目部分
を着目域ベクトルとして抽出し、この着目域ベクトル
と、着目領域における類似文字間の字画の差異を検査す
る定規として予め副プログラムによって生成して登録し
ておいた差分テンプレートとの類似度を演算し、類似度
を最上位とする候補文字を文字認識結果として出力する
ようにする。

【００１６】

【作用】イメージスキャナで光学的に読み取ってバッフ
ァに格納した文書画像入力の文字パターンデータを観測
解析して得られた一文字に対応の切出し文字ベクトルは
文字ベクトル辞書に登録の各文字に設定した基準文字ベ
クトルと照合する候補文字１次ソートにおいて、ベクト
ル値が同等の基準文字が切り出した文字の読み取りの候
補文字に挙げられる。

【００１７】読み取りの候補文字に挙げられた文字は、
類似文字テーブルに登録されている登録類似文字と照合
され、類似文字テーブルに登録されている文字であると
きには、この登録文字の類似文字間に共通な字画部分を
示す共通字画ベクトルを共通字画ベクトルメモリから抽
出して前記切出し文字ベクトルとの差分を演算すること
によって詳細認識を行うべき着目部分が着目域ベクトル
として抽出され、この着目域ベクトルと、類似文字間の
字画の差異の検査定規として登録されている差分テンプ
レートとの類似度が演算され、類似度を最上位とする候
補文字が文字認識結果として出力される。

【００１８】

【実施例】本発明にもとづく類似文字判別方法を用いた
文字認識方法の一実施例における処理のフローを図１に
示し、図１によって本発明の方法を説明する。なお、本
発明の方法を実行する文書読取装置の構成は、従来技術
の説明に用いた図６に例示の構成の装置と同等であり、
以下説明に必要な場合図６中に付された符号を引用す
る。

【００１９】文字認識装置12は、イメージスキャナー11
がが読み取って入力した文書画像入力データから従来技
術にもとづいて一文字としての文字領域を切出し、切出
した文字領域の文字パターンデータを解析して切出し文
字ベクトルとして抽出し、この切出し文字ベクトルを文
字ベクトル辞書の基準文字ベクトルと照合して切出し文
字ベクトルに一致または、近接の文字ベクトルに対応の
文字を切出した文字の読み取り候補文字として挙げる候
補文字１次ソートを行う（Ｓ１〜Ｓ４）。

【００２０】候補文字１次ソート（Ｓ４）によって読み
取り候補文字が優先順に挙げられたら、まず最優先候補
文字を予め類似の字形をもつ文字のリストとして用意さ
れて類似文字テーブルＭ１と照合して該候補文字が着目
領域の検査をともなう類似文字との差異の詳細認識処理
が必要な文字か否かを判定し（Ｓ５）、詳細認識処理を
不要と判定した場合には、候補文字１次ソート（Ｓ４）
で抽出した最優先候補文字文字を選別して（Ｓ８）従来
技術に準ずる知識処理による修正からなる後処理（Ｓ
９）を加えたのち決定認識文字として出力する（Ｓ1
0）。

【００２１】一方、候補文字を詳細認識処理が必要な文
字と判定したときには、前記の切出し文字ベクトルを、
予め副プログラムによって共通字画ベクトルメモリＭ２
に用意した類似文字テーブルＭ１に挙げられた各文字の
類似文字の対に対応の共通字画文字ベクトルと比較し、
両者の差分ベクトルを求めてこれに特徴抽出処理をほど
こして候補文字との詳細差異を示す着目域ベクトルを生
成する（Ｓ６）。そして、この着目域ベクトルと、着目
領域における類似文字間の字画の差異を検査する定規と
して予め副プログラムによって生成して差分テンプレー
トメモリＭ３に登録しておいた差分テンプレートとの類
似度Ｓを式（３）の演算によって求め、高い類似度の着
目部を有する文字を選定する着目部ソートを行なって最
上位の類似度を与える文字を候補文字として選別し（Ｓ
７）、後処理による修正を加えて決定認識文字として出
力する（Ｓ10，Ｓ11）。

【００２２】上記の本発明にもとづく類似文字判別方法
における文字認識処理の基本フローの説明に続いて、基
本フローの処理の過程で用いる類似の字形の２文字Ｉと
Ｊの文字ベクトルの差Ｖijを演算して詳細な差異検討を
行うべき領域を示す着目域ベクトルＳijを生成する副プ
ログラムと、着目域ベクトルＳijを生成する副プログラ
ムで用いる類似文字Ｉ，Ｊ間の共通字画部分を示す共通
字画ベクトルＣijを、異なる字体で印字された同一文字
Ｉの多数の文字サンプルをもとに生成された代表文字ベ
クトルＰi を経て生成する副プログラム、及び類似文字
ＩとＪの着目領域における字画の差異特徴を示す差分テ
ンプレートＱijを抽出する副プログラムの実施例につい
て、処理のアルゴリズムの説明図を図２に示し、最初
に、代表文字ベクトルＰi を生成する副プログラムにつ
いて説明する。

【００２３】代表文字ベクトルＰi を生成する副プログ
ラムでは、図２の縦方向に示されているいるように、あ
る文字Ｉの異なる字体のｎ個のサンプル文字Ｉl (l=1,2
…n)各々をイメージスキャナーで読み取って得た文字ベ
クトルを足し合わせることで、字体による字形のばらつ
きを表現した図３に例示のような分布パターンＴi を得
て、これを代表文字ベクトルＰi としている。なお、こ
のときノイズ除去と要素の連結処理を行なって該文字の
特徴パターンを強調した結果を代表文字ベクトルＰi と
すると更に有効な代表文字ベクトルが得られる。

【００２４】代表文字ベクトルＰi を得るときの文字の
サンプル数ｎが十分に大きくない場合、特徴パターンの
中の突出した大きな要素や全体的に濃度の濃い特定のサ
ンプルに影響され偏ったものになる恐れがある。このよ
うな場合には、図４に例示のように、ガウスの重み関数
を用いたボケ処理により突出した要素を抑え、濃度の正
規化を行ってから各特徴パターンを足し合わせることに
より字形の分布パターンを得るようにすると文字全体の
特徴量の中の重要な部分が強調された高精度の文字認識
の用途に耐える代表文字ベクトルを得ることができる。
そして、ボケ処理には字形の変動を吸収する効果があ
り、サンプルとして収集できなかった未知の字体にも対
応する効果が期待できる。また、突出した要素を抑える
目的にはＮ乗根（Ｎ＞１）をとる方法等があり、これら
を併用することも効果的である。

【００２５】さらに、特徴パターンの濃度を正規化する
方法としては、各特徴パターンをベクトルと考えて、そ
の絶対値を等しくするために、各要素を特徴パターンの
ノルム（＝Ｍｉ・Ｍｉ^T）で割ってやればよい。また
は、各特徴パターンの最大要素を一定にするように正規
化する方法も有効である。次に、類似２文字Ｉ，Ｊ間で
顕著な特徴差異を示す着目領域の抽出に用いる差分テン
プレートＱijを生成する副プログラムについて説明す
る。

【００２６】差分テンプレートＱijを求める副プログラ
ムとしては、上記の代表文字ベクトルを得る副プログラ
ムによって得られた類似の２文字ＩとＪ、たとえば、
「問」と「間」それぞれの代表文字ベクトルＰi とＰj
間の差を求めてこれを差分テンプレートＱijとする図２
最下段に例示されているアルゴリズムによる処理を基本
とする方法がある。この処理方法においては、両文字間
の差異を示す領域として特に強調すべき門構えの中の
「日」と「口」との差分「ー」を抽出すべく、図５に例
示のように、両代表文字ベクトル成分間の差分を２乗し
て主要な差分を強調した後、所定のしきい値を用いた２
値化で値の小さな要素を除去し、収縮演算による細かな
ノイズの除去と膨張演算による要素の連結を行なって着
目領域を抽出することにより有効な差分テンプレートＱ
ijを得ることができる。

【００２７】差分テンプレートＱijを求める他の副プロ
グラムとしては、図２の最右列に示されているように、
同一字体の類似サンプル文字それぞれの文字ベクトル間
の差を演算して先ず差分ベクトルＶijを得、この差分ベ
クトルＶijの縦方向の加算結果を差分テンプレートＱij
とする処理方法があり、類似サンプル文字間の差分ベク
トルＶijを得る演算処理には、上記に説明の差分テンプ
レートを生成する副プログラムにおける処理のフローを
利用できる。

【００２８】上記の類似サンプル文字間の差分ベクトル
Ｖijを得る演算処理を先行させる方法よれば、同一字体
の類似文字間の共通部分、たとえば、「問」と「間」に
おける「門構え」の部分がほぼ完全に一致して両文字間
の差異を示す「門構え」の中の「日」と「口」とがコン
トラスト良く差分ベクトルＶijとして抽出されるので、
この差分ベクトルＶijの縦方向の加算結果に簡単なノイ
ズの除去処理を加えることによって有効な差分テンプレ
ートＱijを得ることができる。

【００２９】上記によって類似文字ＩとＪの代表文字ベ
クトルＰi,Ｐj と差分テンプレートＱijが得られたら、
代表文字ベクトルＰi 又はＰj から差分テンプレートＱ
ij相当の要素以外の要素を抽出すると類似文字の共通字
画部分が得られるので、この抽出要素にノイズの除去等
の処理を加えた結果を類似文字Ｉ，Ｊに対応の共通字画
ベクトルＣijとして共通字画ベクトルメモリＭ２に登録
する。

【００３０】続いて、イメージスキャナー11がが読み取
って入力した文書画像入力データから、一文字の文字領
域として切出された文字パターンデータを解析して得た
文字ベクトルから着目域ベクトルＳijを生成する副プロ
グラムついて説明する。既に、図１によって説明の如
く、本発明にもとづく類似文字判別方法においては、切
出し文字ベクトルが得られると該切出し文字の候補文字
が抽出され、抽出した候補文字を類似文字テーブルと照
合することによって類似文字との差異の詳細認識処理が
必要な文字か否かを判定しているので、詳細認識処理の
要否判定処理が終了したとき、比較検査すべき類似文字
の組合せは類似文字テーブル照合の過程で定められる。

【００３１】そこで、着目域ベクトル生成副プログラム
は、類似文字テーブル照合の過程で得られる類似文字組
合せ情報をもとに、共通字画ベクトルメモリから、詳細
認識処理対象文字群に対応の共通字画ベクトルを抽出
し、抽出した共通字画ベクトルと切り出した文字の文字
ベクトルとの差分ベクトルＶijを演算して、これを２乗
して主要な差分を強調した後、両文字間の差異を示す領
域として特に強調すべ部分を抽出すべく、まず所定のし
きい値を用いた２値化で値の小さな要素を除去した後、
収縮演算による細かなノイズの除去と膨張演算による要
素の連結処理を行なって着目域ベクトルＳijを生成する
ようにしている。

【００３２】以上のように文字ベクトルを正規化して代
表文字パターンを得る副プログラムと、２文字間の差異
ベクトルを得る副プログラムを用意しておけば、種々の
字体で印刷された文字のサンプルを多数収集してこれを
上記副プログラムで処理することによって本発明の方法
にもとづく類似文字判別方法の処理の過程で必要となる
共通字画ベクトルと差分テンプレートを構成するデータ
を自動的に得て登録することができる。

【００３３】また、差分デンプレート生成対象となる文
字の組み合わせを類似文字テーブルに登録するようにし
ておけば、差分テンプレートを準備する過程で類似文字
テーブルも構築され、本発明による類似度判別方法の適
用に必要なデータベースがすべて整えられる。上記のよ
うにしてデータベースを準備して本発明の方法にもとづ
く文字認識処理を立ち上げて、候補文字１次ソートで第
１位で「間」，第２位で「問」が抽出さると、類似文字
テーブルを照合する過程で着目領域を用いる詳細認識を
実行する過程が選択されて類似文字テーブルＭ１照合過
程における選択情報にもとづいて共通字画メモリＭ２か
ら文字「間」と「問」に共通な字画部分を示す共通字画
ベクトルＣijが抽出され、切出し文字ベクトルＫｉと共
に着目域ベクトル生成処理プログラムに渡される。

【００３４】着目域ベクトル抽出処理プログラムでは、
共通字画ベクトルＣijと切出し文字ベクトルＫｉとの差
分ベクトルを作成したのち図４によって説明のフローと
同等の処理を経て着目域ベクトルＴijが抽出される。着
目域ベクトルＴijが得られたら、差分テンプレートメモ
リ格納の第１順位の文字「間」と第２順位の文字「問」
との着目領域の差分を示す差分テンプレートＱijを抽出
して前記着目域ベクトルＴijとの式３にもとづく類似度
ｓを式３の演算によって求める。

【００３５】認識対象文字が上位候補文字の通り「間」
であるなら着目域ベクトルＴijとしては差分テンプレー
トＣijと同等の門がまえ内の「日」の横棒に相当する有
意の値が得られているので類似度ｓとしては一致を意味
する１に近い値が得られ、認識対象文字は「間」である
と判定できる。一方認識対象文字が実際には第２候補の
文字「問」である場合には着目域ベクトルＴijはゼロ相
当なり、式３にもとづく類似度ｓを求める演算において
は分母分子がゼロとなるので類似度の値は不定となって
しまうが、類似度ｓが不定となることを根拠に認識対象
文字が「問」であることを一旦は判定できる。

【００３６】上記のように、類似度を求める決算に用い
る一方のベクトルが空白に相当するゼロとなると判定に
積極的に順寄する類似度Ｓの値が求められない。そこ
で、第５の発明にもとづいて空白を考慮した着目域ベク
トルＴij（以下Ｘと略記）と差分テンプレートＱij（以
下Ｙと略記）の両ベクトル間の類似度ｓを次式（４）で
定義する。

【００３７】

【数４】

【００３８】ここで、Ｉは要素が全て１の無地ベクトル
であり、ａは定数である。ベクトルＸ，ＹおよびＩを２
次元のベクトルと簡約化して式４の概念を図５に例示す
る。なお、２次元の場合、要素が全て１の無地ベクトル
Ｉは２次元平面内の水平線に対して45°の方向のベクト
ルとなる。図５より、定数ａを大きく取れば、ベクトル
Ｘ，Ｙと無地ベクトルＩとの合成ベクトルは無地ベクト
ルＩによって大勢が定まるので類似度ｓ（ベクトル間の
角度）は小さくなり、空白の識別能力は増すが、空白以
外のパターン間の類似度識別能力の低下が推測できる。
よって、式４は空白が大きな意味を持つ詳細認識のみに
用いられる。

【００３９】ところで、ＸとＹとをｎ次元のベクトルと
し、Ｘ＝（x1,x2,…xi…xn）Ｙ＝（y1,y2,…yi…yn）のように表すと、式４の分子の内積（Ｘ＋ａＩ，Ｙ＋ａ
Ｉ）は下記の式５のように展開される。

【００４０】

【数５】

【００４１】Ｘを標準パターン、Ｙを入力文字から得ら
れた特徴パターンとすれば、式４の｜Ｘ＋ａＩ｜および
式５の第３項以降は、予め標準パターン毎に算出される
定数であり、また、｜Ｙ＋ａＩ｜は類似度の大小比較に
は関係しないため、式４は次式６のように簡略化でき
る。

【００４２】

【数６】

【００４３】式６によれば、Σｙ_iさえ算出すれば式３
と同様な手順で類似度を算出することが可能となり、特
徴パターンに対して無地ベクトルを加算する処理が不用
となる。

【００４４】

【発明の効果】本発明にもとづく類似文字認識方法にお
いては、イメージスキャナで光学読み取りした文字パタ
ーンデータから切り出して得た切出し文字ベクトルを文
字ベクトル辞書に登録の各文字に設定した基準文字ベク
トル照合して読み取りの候補文字を抽出したとき、この
候補文字を詳細認識を要する類似文字が存在する文字と
して予め類似文字テーブルに登録した登録類似文字と照
合し、類似文字テーブルに登録されている類似文字が存
在する文字であるときには、該類似文字間の詳細認識を
行うべき領域を共通字画ベクトルメモリに予め用意した
共通字画ベクトルを用いて着目域ベクトルとして抽出
し、この着目域ベクトルと、着目領域における類似文字
間の字画の差異を検査する定規として予め副プログラム
によって生成して登録しておいた差分テンプレートとの
類似度を演算し、類似度を最上位とする候補文字を文字
認識結果として出力するので、認識対象文字に固有の細
かな特徴を有する場合でもこれを見逃すことなく正しく
認識して判読するので、類似文字の誤読率が低滅される
という効果が得られる。

【００４５】本発明の類似文字認識方法の処理の過程で
基準として用いる２つのベクトルの正規化された差ベク
トルを求める処理が、それぞれのベクトルの成分の差を
演算してこれを２乗し、所定のしきい値を用いて２値化
した後、収縮演算によるノイズの除去と膨張演算による
要素の連結を行う処理である場合、２値化と収縮演算に
よりノイズが除去され、収縮膨張演算によって正規化さ
れた要素が連結されるので、個別のベクトルに付随する
ノイズや個別の特徴に依存しない基準ベクトルを設定で
きるという効果が得られる。

【００４６】異なる字体で印刷された同一文字の複数の
サンプルについてボケ処理と特徴濃度の正規化を行った
後に重ね書して代表文字ベクトルを得て、共通字画ベク
トル及び差分テンプレートを生成する副プログラムを設
ける発明により、文字サンプルを収集することによって
本発明の方法にもとづく類似文字判別方法の処理の過程
で必要となる共通字画ベクトルと差分テンプレートを構
成するデータを自動的に得て登録することができるとい
う効果が得られる。

【００４７】一方、サンプル文字間の差分ベクトル得る
演算処理を先行させこれを重ね合わせて得た分布パター
ンに対してノイズ除去処理と要素の空間連結処理を施し
て得らる結果を差分テンプレートとして自動設定する方
法によれば、類似文字間の特徴差異部分がコントラスト
良く差分ベクトルとして抽出されるので、この差分ベク
トルの加算結果にノイズの除去処理を加える簡単な処理
によって有効な差分テンプレートを得ることができると
いう効果が得られる。

【００４８】さらに、着目領域を示す着目域ベクトルお
よび差分テンプレートに、要素が全て等しい無地ベクト
ルを加算して類似度を求める演算に用いる方法によれ
ば、着目領域に字画が存在せず着目域ベクトルまたは差
分テンプレートいずれかのベクトルがゼロとなる場合で
も類似度として不定でない値が得られて空白も含めて着
目領域の特徴を正しく認識して判読するので、類似文字
の誤読率が低滅されるという効果が得られる。

【図面の簡単な説明】

【図１】本発明による類似文字判別方法を用いた文字認
識処理の基本フロー図

【図２】代表文字パターンと差分テンプレートを生成す
る処理のアルゴリズム説明図

【図３】代表文字パターンの例を示す図

【図４】重みパターンを得る副プログラムのフロー図

【図５】差分ベクトルから差分テンプレートを得る副プ
ログラムのフロー図

【図６】無地ベクトルを用いる類似度演算方法の説明図

【図７】文書読取装置の概念構成図

【図８】文字読取認識の基本フロー図

【図９】文字ベクトルの説明図

【符号の説明】１文字読取装置１１イメージスキャナ１２文字認識装置２ホストコンピュータ

Claims

【特許請求の範囲】

【請求項１】イメージスキャナによって光学的に読み取
ってバッファに格納した文書画像入力の文字パターンデ
ータを観測して単一文字域を切り出し、切り出した文字パターンデータを解析して得た濃度パタ
ーンの値の順序集合である切出し文字ベクトルを、文字
ベクトル辞書に登録の各文字に設定した基準文字ベクト
ル照合してベクトル値が同等の基準文字を、前記の切り
出した文字の読み取りの候補文字に挙げる候補文字１次
ソート処理の後に、この候補文字を詳細認識を要する類
似文字が存在する文字として予め類似文字テーブルに登
録した登録類似文字と照合し、類似文字テーブルに登録されている文字であるときに
は、予め副プログラムによって生成して共通字画ベクト
ルメモリに格納しておいた前記登録文字の類似文字間に
共通な字画部分を示す共通字画ベクトルを読み出して前
記切出し文字ベクトルとの差分を演算することによって
詳細認識を行うべき着目部分を着目域ベクトルとして抽
出し、この着目域ベクトルと、着目領域における類似文字間の
字画の差異を検査する定規として予め副プログラムによ
って生成して登録しておいた差分テンプレートとの類似
度を演算し、類似度を最上位とする候補文字を文字認識
結果として出力することを特徴とする文字認識装置にお
ける類似文字判別方法。
【請求項２】共通字画ベクトル及び差分テンプレートを
設定する副プログラムにおける２つのベクトルの正規化
された差ベクトルを求める処理が、それぞれのベクトル
の成分の差を演算してこれを２乗し、所定のしきい値を
用いて２値化した後、収縮演算によるノイズの除去と膨
張演算による要素の連結を行う処理であることを特徴と
する請求項１に記載の類似文字判別方法。
【請求項３】共通字画ベクトル及び差分テンプレートを
設定する副プログラムにおいて用いる代表文字ベクトル
を得る副プログラムが、異なる字体で印刷された同一文
字の複数のサンプルについてボケ処理と特徴濃度の正規
化を行った後に重ね書して得られる分布パターンを該文
字の代表文字ベクトルとする処理であることを特徴とす
る請求項１または２のいずれかに記載の類似文字判別方
法。
【請求項４】差分テンプレートを定める副プログラム
が、類似文字のそれぞれについて得られる前記代表文字
ベクトル間の差としての差分ベクトルを求め、この差分
ベクトルに対してノイズ除去処理と要素の空間連結処理
を施して得られる結果を差分テンプレートとして自動設
定する処理であることを特徴とする請求項１ないし請求
項３のいずれかの項に記載の類似文字判別方法。
【請求項５】差分テンプレートを定める副プログラム
が、異なる字体で印刷された類似文字のそれぞれ複数の
サンプルに対して得られる文字ベクトル間の差分ベクト
ルを求め、これを重ね合わせて得た分布パターンに対し
てノイズ除去処理と要素の空間連結処理を施して得らる
結果を差分テンプレートとして自動設定する処理である
ことを特徴とする請求項１ないし請求項３のいずれかの
項に記載の類似文字判別方法。
【請求項６】着目領域を示す着目域ベクトルおよび差分
テンプレートに、要素が全て等しい無地ベクトルを加算
して類似度を求める演算に用いることを特徴とする請求
項１ないし５のいずれかの項に記載の類似文字判別方
法。