JPH08255223A - 文字認識装置における類似文字判別方法 - Google Patents

文字認識装置における類似文字判別方法

Info

Publication number
JPH08255223A
JPH08255223A JP7057008A JP5700895A JPH08255223A JP H08255223 A JPH08255223 A JP H08255223A JP 7057008 A JP7057008 A JP 7057008A JP 5700895 A JP5700895 A JP 5700895A JP H08255223 A JPH08255223 A JP H08255223A
Authority
JP
Japan
Prior art keywords
character
vector
difference
similar
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7057008A
Other languages
English (en)
Inventor
Shinji Matsui
伸二 松井
Tetsuo Kiuchi
哲夫 木内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP7057008A priority Critical patent/JPH08255223A/ja
Publication of JPH08255223A publication Critical patent/JPH08255223A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】文字認識装置における類似文字の誤読率を低滅
する文字認識の方法を提供し、文書読取装置を高能率化
する。 【構成】画像入力装置にから入力された文字パターンデ
ータを解析して得た切出し文字ベクトルを、文字ベクト
ル辞書と照合して切り出した文字の読み取りの候補文字
に挙げる候補文字1次ソート処理の後に、この候補文字
を詳細認識を要する類似文字を登録した類似文字テーブ
ルと照合し、類似文字テーブルに登録の文字であるとき
には、予め共通字画ベクトルメモリに格納しておいた登
録文字の類似文字間に共通な字画部分を示す共通字画ベ
クトルを読み出して切出し文字ベクトルとの差分を演算
することによって詳細認識を行うべき着目部分を着目域
ベクトルとして抽出し、この着目域ベクトルと、着目領
域における類似文字間の字画の差異を検査する定規とし
て登録しておいた差分テンプレートとの類似度を演算
し、類似度を最上位とする候補文字を文字認識結果とし
て出力するようにする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】文字読取装置における文字認識方
法、特に類似文字の認識方法に関する。
【0002】
【従来の技術】文字読取装置(OCR)は、図7に例示
のようにイメージスキャナ11と文字認識装置12からなる
文字読取装置1およびホストコンピュータ2によって構
成されており、文字認識装置12はイメージスキャナ11が
光学的に読取った文書画像データを入力とし、概略を図
8に示したフローの処理にしたがって先ず入力文書画像
データを観測して1文字として処理すべき文字パターン
データ領域を切り出し、切り出した文字パターンデータ
を解析して該文字パターンデータが内蔵している特徴パ
ラメータを抽出し、この特徴パラメータを読み取り対象
範囲の各文字に対応して予め用意した各文字に属する特
徴パラメータの辞書と照合して特徴パラメータが整合す
る文字を抽出することによって読取った文字を認識し、
該文字に割当た文字区分コードを文字情報として出力す
る作用を基本機能とするものである。このとき、ホスト
コンピュータ2は、読み取り対象文書の読み取り条件の
指示設定、読み取り結果の表示等のマンマシンインター
フェースとして機能するとともに、読み取りによって得
られた文書情報をもととする文書の編集校正の作業をも
遂行する。
【0003】文字の認識方法がパターンマッチング法で
ある文字認識装置では、イメージスキャナ11から入力さ
れて一文字として切り出された図9の(a)に例示のよ
うな文字パターンデータ領域を、同図(b)のように適
当な細かさの縦L横Iの枡目に区分し、それぞれの枡目
の濃度値を枡目の座標の関数f(Xp,Yq) (1≦p≦I,1
≦q≦L)として読み取り、1つの文字パターンデータ
領域に対応して得られる濃度パターン値の集まりを読み
取り文字の近似データとしている。そして、このような
文字パターンデータ領域を枡目に区分して得た濃度パタ
ーンの値f(Xp,Yq) の集まりにI×L=K個の枡目の区
分の順に番号をつけ、この番号順に濃度パターンの値 x
i=f(Xp,Yq) を並べて、これをK次元空間に張られた式
1で表される文字ベクトルXと解釈している。
【0004】
【数1】X=(x1,x2,…xk) k=I×L (1) 上記のように、1個の文字は読取りの分解能に相当する
一文字領域を区分する枡目の数kに等しい次元の文字ベ
クトルによって表現されるので、読み取り対象文字範囲
となる各文字のそれぞれについて、あらかじめ上記枡目
区分による該文字を表わすK次元の基準文字ベクトルを
求め、この基準文字ベクトルの集まりを文字ベクトル辞
書として用意しておくと、読取り対象の文書をイメージ
スキャナで走査して得られた文書画像から切り取られた
認識対象文字に対応して得られる文字ベクトルを、辞書
に収録の基準文字ベクトルと照合して一致するベクトル
を選定することによって原理的には該文字を認識するこ
とができる。
【0005】ところで、プリンタあるいは活字によって
印刷された文字のような規格化された文字であっても、
同一書体で印刷された同一の文字の字体を詳細に比較す
るとプリンタ,あるいは活字の製作元における文字設計
のちがいによる僅かな差異が見られるのが普通である。
このような同一の文字であっても異る字体で印刷された
2つの文字は、文字パターン領域における濃度パターン
分布がいく分異なっているので、文字パターンデータ領
域を枡目に区分するサンプリングによって得られる文字
ベクトルは、字体の異なる2つの文字間で類似ではある
が完全に一致することはない。それゆえ、認識対象文字
の文字ベクトルと辞書に登録の基準文字ベクトルとの一
致を判定認識の条件にすると大方の文字の読取り認識が
不可能になってしまう。
【0006】文字ベクトルの完全一致を文字認識の判定
条件とした場合に生じる上記の不都合を避けて、字体の
僅少の差異に影響されずに文字を正しく認識するため、
文字ベクトル空間における2つのベクトルの一致の替り
に、2つのベクトルfとgのへだたりを意味する式
(1)で表わされる距離d(f,g) または式(2)で表わ
される類似度s(f,g) を認識判定に利用する方法が実用
されている。
【0007】
【数2】
【0008】
【数3】
【0009】距離d(f,g) は0≦d≦∞の値を取り、f
=gの時に0となる。一方、類似度s(f,g) は2つのベ
クトルfとgとがなす角度θの余弦値と等しく−1≦s
≦1の値をとり、f=gのとき1となる。文字認識判定
において基準となる辞書に登録する各文字に対応の基準
文字ベクトルについても、基準に選定した一文字にもと
づいて定めるのではなく、同属の字体に属する同一文字
の多数の事例サンプルを集めて求めた各文字ベクトルの
平均ベクトルを文字基準ベクトルとして登録する方法が
実行されている。このようにして設定された文字基準ベ
クトルは同一文字について字体,サイズ,太さ,変形率
等の異るサンプルの特徴の次元ごとに平均ベクトルを求
めたもので各平均ベクトルはテンプレートと呼ばれてい
る。
【0010】上記のパターンマッチング法を基礎とする
文字認識においては、印刷濃度の差の影響が少ない式
(2)で表わされる類似度を判定基準とする方法が主に
用いられているが、単純に類似度のみを判定基準とする
方法では、文字の大局的な特徴によるマッチング度が大
きく影響するため、認識対象文字に固有の細かな特徴、
たとえば漢字の「太」と「大」のような特定領域の点パ
ターン「、」の有無を陽に取り出して類似パターンを弁
別するといった一様でない処理は不得手である。そこ
で、部分空間識別理論にもとづいて類似の文字ベクトル
間の差分を求めて、この差分を認識推論の過程に加えた
複合類似度法、および、これを更に発展させた混合類似
度法などの部分パターンマッチング法が導入されてい
る。
【0011】従来技術の範囲で上記の部分パターンマッ
チング法を適用した詳細判別処理によって類似文字間の
差異を判別して認識精度を向上させようとするとき、認
識対象とする類似の各文字について、それぞれの識別領
域を人による視察にもとづいて求めて設定し、予め辞書
として用意しておく必要がある。
【0012】
【発明が解決しようとする課題】以上に説明のごとく、
従来技術にもとづくパターンマッチング法を適用した類
似文字判別方法によって膨大な文字数からなるさまざま
の字体の活字印刷漢字に対応しようとする場合、それぞ
れの文字について、予め膨大な労力を費やして字体間の
字形の差異などに影響されない安定した着目領域を視察
によって抽出して該領域のパターンデータによる特徴ベ
クトルを設定し、特徴辞書として登録しておく必要があ
る。
【0013】そして、認識対象文字を読み取って着目す
べき領域を着目域ベクトルとして抽出して特徴辞書に登
録の特徴ベクトルと類似度法による照合を行う際、認識
対象文字または照合対象の基準文字いづれかの特徴領域
が空白であり、着目域ベクトルまたは特徴ベクトルどち
らかのベクトル値がゼロであると、類似度を求める式3
の演算が不能となって、「大」と「太」のように注目領
域のパターンの一方が空白で、そのことが判別の重要な
キーポイントとなるような場合に、これを有効に役立て
ることができないという問題がある。
【0014】本発明は、従来技術における上記の問題点
に鑑みなされた発明であり、様々の字体の文字から字体
間の字形の差異に影響されたり安定した着目領域を自動
的に抽出する方法を提供して、特徴辞書の作成と文書読
取の両局面における注目領域抽出処理の能率を高め、抽
出した注目領域が空白である場合でも、これを文字認識
の評価判定に役立てる手段を提供して文字認識装置にお
ける類似文字の誤読率を低滅することを目的とする。
【0015】
【課題を解決するための手段】類似文字間の特徴差異点
を抽出して認識の判定基準とし、類似文字の誤読率を低
滅するため、本発明にもとづく類似文字判別方法におい
ては、イメージスキャナによって光学的に読み取ってバ
ッファに格納した文書画像入力の文字パターンデータを
観測して単一文字域を切り出してこれを判読するとき、
切り出した文字パターンデータを解析して得た濃度パタ
ーンの値の順序集合である切出し文字ベクトルを、文字
ベクトル辞書に登録の各文字に設定した基準文字ベクト
ル照合してベクトル値が同等の基準文字を前記の切り出
した文字の読み取りの候補文字に挙げる候補文字1次ソ
ート処理の後に、この候補文字を詳細認識を要する類似
文字が存在する文字として予め類似文字テーブルに登録
した登録類似文字と照合し、類似文字テーブルに登録さ
れている文字であるときには、予め副プログラムによっ
て生成して共通字画ベクトルメモリに格納しておいた前
記登録文字の類似文字間に共通な字画部分を示す共通字
画ベクトルを読み出して前記切出し文字ベクトルとの差
分を演算することによって詳細認識を行うべき着目部分
を着目域ベクトルとして抽出し、この着目域ベクトル
と、着目領域における類似文字間の字画の差異を検査す
る定規として予め副プログラムによって生成して登録し
ておいた差分テンプレートとの類似度を演算し、類似度
を最上位とする候補文字を文字認識結果として出力する
ようにする。
【0016】
【作用】イメージスキャナで光学的に読み取ってバッフ
ァに格納した文書画像入力の文字パターンデータを観測
解析して得られた一文字に対応の切出し文字ベクトルは
文字ベクトル辞書に登録の各文字に設定した基準文字ベ
クトルと照合する候補文字1次ソートにおいて、ベクト
ル値が同等の基準文字が切り出した文字の読み取りの候
補文字に挙げられる。
【0017】読み取りの候補文字に挙げられた文字は、
類似文字テーブルに登録されている登録類似文字と照合
され、類似文字テーブルに登録されている文字であると
きには、この登録文字の類似文字間に共通な字画部分を
示す共通字画ベクトルを共通字画ベクトルメモリから抽
出して前記切出し文字ベクトルとの差分を演算すること
によって詳細認識を行うべき着目部分が着目域ベクトル
として抽出され、この着目域ベクトルと、類似文字間の
字画の差異の検査定規として登録されている差分テンプ
レートとの類似度が演算され、類似度を最上位とする候
補文字が文字認識結果として出力される。
【0018】
【実施例】本発明にもとづく類似文字判別方法を用いた
文字認識方法の一実施例における処理のフローを図1に
示し、図1によって本発明の方法を説明する。なお、本
発明の方法を実行する文書読取装置の構成は、従来技術
の説明に用いた図6に例示の構成の装置と同等であり、
以下説明に必要な場合図6中に付された符号を引用す
る。
【0019】文字認識装置12は、イメージスキャナー11
がが読み取って入力した文書画像入力データから従来技
術にもとづいて一文字としての文字領域を切出し、切出
した文字領域の文字パターンデータを解析して切出し文
字ベクトルとして抽出し、この切出し文字ベクトルを文
字ベクトル辞書の基準文字ベクトルと照合して切出し文
字ベクトルに一致または、近接の文字ベクトルに対応の
文字を切出した文字の読み取り候補文字として挙げる候
補文字1次ソートを行う(S1〜S4)。
【0020】候補文字1次ソート(S4)によって読み
取り候補文字が優先順に挙げられたら、まず最優先候補
文字を予め類似の字形をもつ文字のリストとして用意さ
れて類似文字テーブルM1と照合して該候補文字が着目
領域の検査をともなう類似文字との差異の詳細認識処理
が必要な文字か否かを判定し(S5)、詳細認識処理を
不要と判定した場合には、候補文字1次ソート(S4)
で抽出した最優先候補文字文字を選別して(S8)従来
技術に準ずる知識処理による修正からなる後処理(S
9)を加えたのち決定認識文字として出力する(S1
0)。
【0021】一方、候補文字を詳細認識処理が必要な文
字と判定したときには、前記の切出し文字ベクトルを、
予め副プログラムによって共通字画ベクトルメモリM2
に用意した類似文字テーブルM1に挙げられた各文字の
類似文字の対に対応の共通字画文字ベクトルと比較し、
両者の差分ベクトルを求めてこれに特徴抽出処理をほど
こして候補文字との詳細差異を示す着目域ベクトルを生
成する(S6)。そして、この着目域ベクトルと、着目
領域における類似文字間の字画の差異を検査する定規と
して予め副プログラムによって生成して差分テンプレー
トメモリM3に登録しておいた差分テンプレートとの類
似度Sを式(3)の演算によって求め、高い類似度の着
目部を有する文字を選定する着目部ソートを行なって最
上位の類似度を与える文字を候補文字として選別し(S
7)、後処理による修正を加えて決定認識文字として出
力する(S10,S11)。
【0022】上記の本発明にもとづく類似文字判別方法
における文字認識処理の基本フローの説明に続いて、基
本フローの処理の過程で用いる類似の字形の2文字Iと
Jの文字ベクトルの差Vijを演算して詳細な差異検討を
行うべき領域を示す着目域ベクトルSijを生成する副プ
ログラムと、着目域ベクトルSijを生成する副プログラ
ムで用いる類似文字I,J間の共通字画部分を示す共通
字画ベクトルCijを、異なる字体で印字された同一文字
Iの多数の文字サンプルをもとに生成された代表文字ベ
クトルPi を経て生成する副プログラム、及び類似文字
IとJの着目領域における字画の差異特徴を示す差分テ
ンプレートQijを抽出する副プログラムの実施例につい
て、処理のアルゴリズムの説明図を図2に示し、最初
に、代表文字ベクトルPi を生成する副プログラムにつ
いて説明する。
【0023】代表文字ベクトルPi を生成する副プログ
ラムでは、図2の縦方向に示されているいるように、あ
る文字Iの異なる字体のn個のサンプル文字Il (l=1,2
…n)各々をイメージスキャナーで読み取って得た文字ベ
クトルを足し合わせることで、字体による字形のばらつ
きを表現した図3に例示のような分布パターンTi を得
て、これを代表文字ベクトルPi としている。なお、こ
のときノイズ除去と要素の連結処理を行なって該文字の
特徴パターンを強調した結果を代表文字ベクトルPi と
すると更に有効な代表文字ベクトルが得られる。
【0024】代表文字ベクトルPi を得るときの文字の
サンプル数nが十分に大きくない場合、特徴パターンの
中の突出した大きな要素や全体的に濃度の濃い特定のサ
ンプルに影響され偏ったものになる恐れがある。このよ
うな場合には、図4に例示のように、ガウスの重み関数
を用いたボケ処理により突出した要素を抑え、濃度の正
規化を行ってから各特徴パターンを足し合わせることに
より字形の分布パターンを得るようにすると文字全体の
特徴量の中の重要な部分が強調された高精度の文字認識
の用途に耐える代表文字ベクトルを得ることができる。
そして、ボケ処理には字形の変動を吸収する効果があ
り、サンプルとして収集できなかった未知の字体にも対
応する効果が期待できる。また、突出した要素を抑える
目的にはN乗根(N>1)をとる方法等があり、これら
を併用することも効果的である。
【0025】さらに、特徴パターンの濃度を正規化する
方法としては、各特徴パターンをベクトルと考えて、そ
の絶対値を等しくするために、各要素を特徴パターンの
ノルム(=Mi・MiT )で割ってやればよい。また
は、各特徴パターンの最大要素を一定にするように正規
化する方法も有効である。次に、類似2文字I,J間で
顕著な特徴差異を示す着目領域の抽出に用いる差分テン
プレートQijを生成する副プログラムについて説明す
る。
【0026】差分テンプレートQijを求める副プログラ
ムとしては、上記の代表文字ベクトルを得る副プログラ
ムによって得られた類似の2文字IとJ、たとえば、
「問」と「間」それぞれの代表文字ベクトルPi とPj
間の差を求めてこれを差分テンプレートQijとする図2
最下段に例示されているアルゴリズムによる処理を基本
とする方法がある。この処理方法においては、両文字間
の差異を示す領域として特に強調すべき門構えの中の
「日」と「口」との差分「ー」を抽出すべく、図5に例
示のように、両代表文字ベクトル成分間の差分を2乗し
て主要な差分を強調した後、所定のしきい値を用いた2
値化で値の小さな要素を除去し、収縮演算による細かな
ノイズの除去と膨張演算による要素の連結を行なって着
目領域を抽出することにより有効な差分テンプレートQ
ijを得ることができる。
【0027】差分テンプレートQijを求める他の副プロ
グラムとしては、図2の最右列に示されているように、
同一字体の類似サンプル文字それぞれの文字ベクトル間
の差を演算して先ず差分ベクトルVijを得、この差分ベ
クトルVijの縦方向の加算結果を差分テンプレートQij
とする処理方法があり、類似サンプル文字間の差分ベク
トルVijを得る演算処理には、上記に説明の差分テンプ
レートを生成する副プログラムにおける処理のフローを
利用できる。
【0028】上記の類似サンプル文字間の差分ベクトル
Vijを得る演算処理を先行させる方法よれば、同一字体
の類似文字間の共通部分、たとえば、「問」と「間」に
おける「門構え」の部分がほぼ完全に一致して両文字間
の差異を示す「門構え」の中の「日」と「口」とがコン
トラスト良く差分ベクトルVijとして抽出されるので、
この差分ベクトルVijの縦方向の加算結果に簡単なノイ
ズの除去処理を加えることによって有効な差分テンプレ
ートQijを得ることができる。
【0029】上記によって類似文字IとJの代表文字ベ
クトルPi,Pj と差分テンプレートQijが得られたら、
代表文字ベクトルPi 又はPj から差分テンプレートQ
ij相当の要素以外の要素を抽出すると類似文字の共通字
画部分が得られるので、この抽出要素にノイズの除去等
の処理を加えた結果を類似文字I,Jに対応の共通字画
ベクトルCijとして共通字画ベクトルメモリM2に登録
する。
【0030】続いて、イメージスキャナー11がが読み取
って入力した文書画像入力データから、一文字の文字領
域として切出された文字パターンデータを解析して得た
文字ベクトルから着目域ベクトルSijを生成する副プロ
グラムついて説明する。既に、図1によって説明の如
く、本発明にもとづく類似文字判別方法においては、切
出し文字ベクトルが得られると該切出し文字の候補文字
が抽出され、抽出した候補文字を類似文字テーブルと照
合することによって類似文字との差異の詳細認識処理が
必要な文字か否かを判定しているので、詳細認識処理の
要否判定処理が終了したとき、比較検査すべき類似文字
の組合せは類似文字テーブル照合の過程で定められる。
【0031】そこで、着目域ベクトル生成副プログラム
は、類似文字テーブル照合の過程で得られる類似文字組
合せ情報をもとに、共通字画ベクトルメモリから、詳細
認識処理対象文字群に対応の共通字画ベクトルを抽出
し、抽出した共通字画ベクトルと切り出した文字の文字
ベクトルとの差分ベクトルVijを演算して、これを2乗
して主要な差分を強調した後、両文字間の差異を示す領
域として特に強調すべ部分を抽出すべく、まず所定のし
きい値を用いた2値化で値の小さな要素を除去した後、
収縮演算による細かなノイズの除去と膨張演算による要
素の連結処理を行なって着目域ベクトルSijを生成する
ようにしている。
【0032】以上のように文字ベクトルを正規化して代
表文字パターンを得る副プログラムと、2文字間の差異
ベクトルを得る副プログラムを用意しておけば、種々の
字体で印刷された文字のサンプルを多数収集してこれを
上記副プログラムで処理することによって本発明の方法
にもとづく類似文字判別方法の処理の過程で必要となる
共通字画ベクトルと差分テンプレートを構成するデータ
を自動的に得て登録することができる。
【0033】また、差分デンプレート生成対象となる文
字の組み合わせを類似文字テーブルに登録するようにし
ておけば、差分テンプレートを準備する過程で類似文字
テーブルも構築され、本発明による類似度判別方法の適
用に必要なデータベースがすべて整えられる。上記のよ
うにしてデータベースを準備して本発明の方法にもとづ
く文字認識処理を立ち上げて、候補文字1次ソートで第
1位で「間」,第2位で「問」が抽出さると、類似文字
テーブルを照合する過程で着目領域を用いる詳細認識を
実行する過程が選択されて類似文字テーブルM1照合過
程における選択情報にもとづいて共通字画メモリM2か
ら文字「間」と「問」に共通な字画部分を示す共通字画
ベクトルCijが抽出され、切出し文字ベクトルKiと共
に着目域ベクトル生成処理プログラムに渡される。
【0034】着目域ベクトル抽出処理プログラムでは、
共通字画ベクトルCijと切出し文字ベクトルKiとの差
分ベクトルを作成したのち図4によって説明のフローと
同等の処理を経て着目域ベクトルTijが抽出される。着
目域ベクトルTijが得られたら、差分テンプレートメモ
リ格納の第1順位の文字「間」と第2順位の文字「問」
との着目領域の差分を示す差分テンプレートQijを抽出
して前記着目域ベクトルTijとの式3にもとづく類似度
sを式3の演算によって求める。
【0035】認識対象文字が上位候補文字の通り「間」
であるなら着目域ベクトルTijとしては差分テンプレー
トCijと同等の門がまえ内の「日」の横棒に相当する有
意の値が得られているので類似度sとしては一致を意味
する1に近い値が得られ、認識対象文字は「間」である
と判定できる。一方認識対象文字が実際には第2候補の
文字「問」である場合には着目域ベクトルTijはゼロ相
当なり、式3にもとづく類似度sを求める演算において
は分母分子がゼロとなるので類似度の値は不定となって
しまうが、類似度sが不定となることを根拠に認識対象
文字が「問」であることを一旦は判定できる。
【0036】上記のように、類似度を求める決算に用い
る一方のベクトルが空白に相当するゼロとなると判定に
積極的に順寄する類似度Sの値が求められない。そこ
で、第5の発明にもとづいて空白を考慮した着目域ベク
トルTij(以下Xと略記)と差分テンプレートQij(以
下Yと略記)の両ベクトル間の類似度sを次式(4)で
定義する。
【0037】
【数4】
【0038】ここで、Iは要素が全て1の無地ベクトル
であり、aは定数である。ベクトルX,YおよびIを2
次元のベクトルと簡約化して式4の概念を図5に例示す
る。なお、2次元の場合、要素が全て1の無地ベクトル
Iは2次元平面内の水平線に対して45°の方向のベクト
ルとなる。図5より、定数aを大きく取れば、ベクトル
X,Yと無地ベクトルIとの合成ベクトルは無地ベクト
ルIによって大勢が定まるので類似度s(ベクトル間の
角度)は小さくなり、空白の識別能力は増すが、空白以
外のパターン間の類似度識別能力の低下が推測できる。
よって、式4は空白が大きな意味を持つ詳細認識のみに
用いられる。
【0039】ところで、XとYとをn次元のベクトルと
し、 X=(x1,x2,…xi…xn) Y=(y1,y2,…yi…yn) のように表すと、式4の分子の内積(X+aI,Y+a
I)は下記の式5のように展開される。
【0040】
【数5】
【0041】Xを標準パターン、Yを入力文字から得ら
れた特徴パターンとすれば、式4の|X+aI|および
式5の第3項以降は、予め標準パターン毎に算出される
定数であり、また、|Y+aI|は類似度の大小比較に
は関係しないため、式4は次式6のように簡略化でき
る。
【0042】
【数6】
【0043】式6によれば、Σyi さえ算出すれば式3
と同様な手順で類似度を算出することが可能となり、特
徴パターンに対して無地ベクトルを加算する処理が不用
となる。
【0044】
【発明の効果】本発明にもとづく類似文字認識方法にお
いては、イメージスキャナで光学読み取りした文字パタ
ーンデータから切り出して得た切出し文字ベクトルを文
字ベクトル辞書に登録の各文字に設定した基準文字ベク
トル照合して読み取りの候補文字を抽出したとき、この
候補文字を詳細認識を要する類似文字が存在する文字と
して予め類似文字テーブルに登録した登録類似文字と照
合し、類似文字テーブルに登録されている類似文字が存
在する文字であるときには、該類似文字間の詳細認識を
行うべき領域を共通字画ベクトルメモリに予め用意した
共通字画ベクトルを用いて着目域ベクトルとして抽出
し、この着目域ベクトルと、着目領域における類似文字
間の字画の差異を検査する定規として予め副プログラム
によって生成して登録しておいた差分テンプレートとの
類似度を演算し、類似度を最上位とする候補文字を文字
認識結果として出力するので、認識対象文字に固有の細
かな特徴を有する場合でもこれを見逃すことなく正しく
認識して判読するので、類似文字の誤読率が低滅される
という効果が得られる。
【0045】本発明の類似文字認識方法の処理の過程で
基準として用いる2つのベクトルの正規化された差ベク
トルを求める処理が、それぞれのベクトルの成分の差を
演算してこれを2乗し、所定のしきい値を用いて2値化
した後、収縮演算によるノイズの除去と膨張演算による
要素の連結を行う処理である場合、2値化と収縮演算に
よりノイズが除去され、収縮膨張演算によって正規化さ
れた要素が連結されるので、個別のベクトルに付随する
ノイズや個別の特徴に依存しない基準ベクトルを設定で
きるという効果が得られる。
【0046】異なる字体で印刷された同一文字の複数の
サンプルについてボケ処理と特徴濃度の正規化を行った
後に重ね書して代表文字ベクトルを得て、共通字画ベク
トル及び差分テンプレートを生成する副プログラムを設
ける発明により、文字サンプルを収集することによって
本発明の方法にもとづく類似文字判別方法の処理の過程
で必要となる共通字画ベクトルと差分テンプレートを構
成するデータを自動的に得て登録することができるとい
う効果が得られる。
【0047】一方、サンプル文字間の差分ベクトル得る
演算処理を先行させこれを重ね合わせて得た分布パター
ンに対してノイズ除去処理と要素の空間連結処理を施し
て得らる結果を差分テンプレートとして自動設定する方
法によれば、類似文字間の特徴差異部分がコントラスト
良く差分ベクトルとして抽出されるので、この差分ベク
トルの加算結果にノイズの除去処理を加える簡単な処理
によって有効な差分テンプレートを得ることができると
いう効果が得られる。
【0048】さらに、着目領域を示す着目域ベクトルお
よび差分テンプレートに、要素が全て等しい無地ベクト
ルを加算して類似度を求める演算に用いる方法によれ
ば、着目領域に字画が存在せず着目域ベクトルまたは差
分テンプレートいずれかのベクトルがゼロとなる場合で
も類似度として不定でない値が得られて空白も含めて着
目領域の特徴を正しく認識して判読するので、類似文字
の誤読率が低滅されるという効果が得られる。
【図面の簡単な説明】
【図1】本発明による類似文字判別方法を用いた文字認
識処理の基本フロー図
【図2】代表文字パターンと差分テンプレートを生成す
る処理のアルゴリズム説明図
【図3】代表文字パターンの例を示す図
【図4】重みパターンを得る副プログラムのフロー図
【図5】差分ベクトルから差分テンプレートを得る副プ
ログラムのフロー図
【図6】無地ベクトルを用いる類似度演算方法の説明図
【図7】文書読取装置の概念構成図
【図8】文字読取認識の基本フロー図
【図9】文字ベクトルの説明図
【符号の説明】 1 文字読取装置 11 イメージスキャナ 12 文字認識装置 2 ホストコンピュータ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】イメージスキャナによって光学的に読み取
    ってバッファに格納した文書画像入力の文字パターンデ
    ータを観測して単一文字域を切り出し、 切り出した文字パターンデータを解析して得た濃度パタ
    ーンの値の順序集合である切出し文字ベクトルを、文字
    ベクトル辞書に登録の各文字に設定した基準文字ベクト
    ル照合してベクトル値が同等の基準文字を、前記の切り
    出した文字の読み取りの候補文字に挙げる候補文字1次
    ソート処理の後に、この候補文字を詳細認識を要する類
    似文字が存在する文字として予め類似文字テーブルに登
    録した登録類似文字と照合し、 類似文字テーブルに登録されている文字であるときに
    は、予め副プログラムによって生成して共通字画ベクト
    ルメモリに格納しておいた前記登録文字の類似文字間に
    共通な字画部分を示す共通字画ベクトルを読み出して前
    記切出し文字ベクトルとの差分を演算することによって
    詳細認識を行うべき着目部分を着目域ベクトルとして抽
    出し、 この着目域ベクトルと、着目領域における類似文字間の
    字画の差異を検査する定規として予め副プログラムによ
    って生成して登録しておいた差分テンプレートとの類似
    度を演算し、類似度を最上位とする候補文字を文字認識
    結果として出力することを特徴とする文字認識装置にお
    ける類似文字判別方法。
  2. 【請求項2】共通字画ベクトル及び差分テンプレートを
    設定する副プログラムにおける2つのベクトルの正規化
    された差ベクトルを求める処理が、それぞれのベクトル
    の成分の差を演算してこれを2乗し、所定のしきい値を
    用いて2値化した後、収縮演算によるノイズの除去と膨
    張演算による要素の連結を行う処理であることを特徴と
    する請求項1に記載の類似文字判別方法。
  3. 【請求項3】共通字画ベクトル及び差分テンプレートを
    設定する副プログラムにおいて用いる代表文字ベクトル
    を得る副プログラムが、異なる字体で印刷された同一文
    字の複数のサンプルについてボケ処理と特徴濃度の正規
    化を行った後に重ね書して得られる分布パターンを該文
    字の代表文字ベクトルとする処理であることを特徴とす
    る請求項1または2のいずれかに記載の類似文字判別方
    法。
  4. 【請求項4】差分テンプレートを定める副プログラム
    が、類似文字のそれぞれについて得られる前記代表文字
    ベクトル間の差としての差分ベクトルを求め、この差分
    ベクトルに対してノイズ除去処理と要素の空間連結処理
    を施して得られる結果を差分テンプレートとして自動設
    定する処理であることを特徴とする請求項1ないし請求
    項3のいずれかの項に記載の類似文字判別方法。
  5. 【請求項5】差分テンプレートを定める副プログラム
    が、異なる字体で印刷された類似文字のそれぞれ複数の
    サンプルに対して得られる文字ベクトル間の差分ベクト
    ルを求め、これを重ね合わせて得た分布パターンに対し
    てノイズ除去処理と要素の空間連結処理を施して得らる
    結果を差分テンプレートとして自動設定する処理である
    ことを特徴とする請求項1ないし請求項3のいずれかの
    項に記載の類似文字判別方法。
  6. 【請求項6】着目領域を示す着目域ベクトルおよび差分
    テンプレートに、要素が全て等しい無地ベクトルを加算
    して類似度を求める演算に用いることを特徴とする請求
    項1ないし5のいずれかの項に記載の類似文字判別方
    法。
JP7057008A 1995-03-16 1995-03-16 文字認識装置における類似文字判別方法 Pending JPH08255223A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7057008A JPH08255223A (ja) 1995-03-16 1995-03-16 文字認識装置における類似文字判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7057008A JPH08255223A (ja) 1995-03-16 1995-03-16 文字認識装置における類似文字判別方法

Publications (1)

Publication Number Publication Date
JPH08255223A true JPH08255223A (ja) 1996-10-01

Family

ID=13043434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7057008A Pending JPH08255223A (ja) 1995-03-16 1995-03-16 文字認識装置における類似文字判別方法

Country Status (1)

Country Link
JP (1) JPH08255223A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
JP2006048180A (ja) * 2004-07-30 2006-02-16 Tkc Corp 画像処理装置、画像処理方法および画像処理プログラム
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
WO2019069617A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 個体識別装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301663A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301662A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、画像辞書作成方法及びそのプログラム
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
US7889926B2 (en) 2004-04-12 2011-02-15 Fuji Xerox Co., Ltd. Image dictionary creating apparatus, coding apparatus, image dictionary creating method
JP2006048180A (ja) * 2004-07-30 2006-02-16 Tkc Corp 画像処理装置、画像処理方法および画像処理プログラム
JP2009175800A (ja) * 2008-01-21 2009-08-06 Denso Corp 文字認識装置、そのような装置を備えた燃料ポンプモジュールの組み付け装置及び文字認識方法
JP2010152884A (ja) * 2008-12-02 2010-07-08 Intel Corp 画像認識アルゴリズム、それを用いて目標画像を識別する方法、および、携帯用電子装置へ送信するデータを選択する方法
US8391615B2 (en) 2008-12-02 2013-03-05 Intel Corporation Image recognition algorithm, method of identifying a target image using same, and method of selecting data for transmission to a portable electronic device
WO2019069617A1 (ja) * 2017-10-05 2019-04-11 日本電気株式会社 個体識別装置
US11132582B2 (en) 2017-10-05 2021-09-28 Nec Corporation Individual identification device

Similar Documents

Publication Publication Date Title
CN110516208B (zh) 一种针对pdf文档表格提取的系统及方法
Kumar et al. A detailed review of feature extraction in image processing systems
KR100248917B1 (ko) 패턴인식장치및방법
JP3453134B2 (ja) 複数の記号ストリングの等価性を判定する方法
CN110503054B (zh) 文本图像的处理方法及装置
CN101520783B (zh) 基于图像内容的关键词搜索方法和装置
CN105760901A (zh) 一种多语种倾斜文档图像的自动语言判别方法
Hamida et al. A novel feature extraction system for cursive word vocabulary recognition using local features descriptors and gabor filter
Akhtar et al. Optical character recognition (OCR) using partial least square (PLS) based feature reduction: An application to artificial intelligence for biometric identification
JP2005148987A (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
CN110222660B (zh) 一种基于动态与静态特征融合的签名鉴伪方法及系统
Zhou et al. Discrimination of characters by a multi-stage recognition process
Liang et al. Automatic handwriting feature extraction, analysis and visualization in the context of digital palaeography
JPH08255223A (ja) 文字認識装置における類似文字判別方法
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN111612045B (zh) 一种获取目标检测数据集的通用方法
Leyk et al. Extracting composite cartographic area features in low-quality maps
Lee et al. Combining macro and micro features for writer identification
Zaghloul et al. Recognition of Hindi (Arabic) handwritten numerals
Sajedi et al. Persian handwritten number recognition using adapted framing feature and support vector machines
JP2000331122A (ja) 文字認識方法および装置
Sunilkumar et al. Gujarati handwritten character recognition using grey level co-occurrence matrix and dynamic time warping technique
Humied Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm
JPH08287188A (ja) 文字列認識装置
JP3790736B2 (ja) 文字認識用辞書作成装置及び文字認識装置