JP2980059B2 - 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 - Google Patents
文字認識方法、装置及び文字認識プログラムを記録した記録媒体Info
- Publication number
- JP2980059B2 JP2980059B2 JP9128494A JP12849497A JP2980059B2 JP 2980059 B2 JP2980059 B2 JP 2980059B2 JP 9128494 A JP9128494 A JP 9128494A JP 12849497 A JP12849497 A JP 12849497A JP 2980059 B2 JP2980059 B2 JP 2980059B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- category
- individual
- pattern
- same
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
的に取り込み認識する光学的文字認識装置に関する。特
に、数字や平仮名のように筆記者によって字形の大きく
異なる手書き文字を認識する光学的文字認識装置におけ
る、文字認識処理に関する。
書き文字を読み取る際、装置に入力された1つのパター
ンが何のカテゴリーに属するかを、予め定められた参照
パターン(辞書叉はテンプレートと呼ばれる)と照合す
ることにより決定していた。あるカテゴリーの参照パタ
ーンを構成する際は、例えば多数の人間によって記載さ
れた同一カテゴリーの文字パターンの平均パターンを参
照パターンとして登録したり、マルチテンプレートと呼
ばれる形式である同一カテゴリーあたり複数の代表的な
パターンを参照パターンとして登録することによって作
られていた。しかしこの方法では、個人の筆記特性が参
照パターンに必ずしも反映されていないため、筆記者に
よっては特定の文字が高い頻度で異なる特定の文字に誤
認識されるという問題があった。例えば図2のように、
Aという人物の書いた「の」とBという人物の書いた
「9」が非常に類似したパターンだった場合、これらの
文字パターンをA氏については「の」と、B氏について
は「9」と、正しく認識することは困難となる。すなわ
ち、A氏については正しく認識されるがB氏については
高い頻度で「の」と誤認識されるか、もしくはB氏にに
ついては正しく認識されるがA氏については「9」と認
識されるかのいずれかとなる可能性が非常に高い。この
問題を解決するために、例えば”福田由紀雄:特願昭6
0−204090「パターン認識方式およびこれに用い
る記憶媒体」”に記載されているように文字を記載する
人間が特定可能な場合、個人毎に特化した参照パターン
を用いることにより認識を行う方法が知られている。し
かしこの方法では、一般の帳票等のように誰が文字を記
載したかの特定が困難な場合には、個人毎に特化した参
照パターンを用いることができないので適用することが
できないという問題が残る。誰が文字を記載したかの特
定が困難な場合でも適用できる方法としては、例えば”
堀田悦伸他:「クラスタリングによる個人筆記特性に基
づく文字認識方式」信学技報、PRMU96−183
(1997)”に記載されているように、同一文書中に
同じカテゴリーの文字が一定数以上(例えば7文字以
上)記載されている場合、文書毎に文字パターンをグル
ープ化(クラスタリング)して個人の筆記特性を統計的
に反映させる方式が知られている。
等のように誰が文字を記載したかの特定が困難であり、
かつ同一文書中に同じカテゴリーである文字の数が少な
い場合は、個人毎に特化した参照パターンを用いること
ができないだけでなく、文書毎に文字パターンをクラス
タリングして個人の筆記特性を統計的に反映させること
も困難であるため、従来技術では適用が難しかった。本
発明は、文字を記載した人間が特定できず、かつ同一文
書中に同じカテゴリーである文字の数が少ない場合であ
っても、個人の筆記特性に起因して発生する特定の文字
を高い頻度で異なる特定の文字に誤認識してしまうとい
う問題に対処することのできる文字認識装置を提供する
ことを目的としている。
するため、文字列パターンを入力して認識を行う文字認
識方法において、文字認識を行った結果カテゴリーが同
一であると認識された文字パターン群に対して、同一個
人が前記カテゴリーの文字を記載した場合に生じる変動
範囲内に含まれるかどうかを、あらかじめ複数人につい
て求めた前記変動範囲の平均値を用いることにより検証
し、前記文字パターン群の一部が、前記文字パターン群
の他の部分と比較して、同一個人が記載した同一カテゴ
リーの文字ではないと判定された場合に、前記一部もし
くは前記他の部分のカテゴリーを変更することを特徴と
する。本発明は前記課題を解決するため、文字列パター
ンを入力して認識を行う文字認識装置において、文字列
の画像を入力する入力部と、前記入力部から前記文字列
の画像を読み出し、一文字づつ文字パターンを切り出す
文字切り出し部と、前記文字切り出し部から切り出され
た文字パターンを読み出し、文字認識を行って各文字パ
ターンに対してカテゴリーを対応付けて記憶する初期認
識部と、同一個人が記載した場合において同一カテゴリ
ーであると判断しうる文字パターンの変動範囲を各カテ
ゴリーごとに記憶する個人変動範囲記憶部と、前記初期
認識部から前記文字パターン及び当該文字パターンに対
応づけられた前記カテゴリーを読み出し、前記個人変動
範囲記憶部から前記変動範囲を読み出し、同一カテゴリ
ーに対応づけられた文字パターン群が前記変動範囲内に
あるかどうかを判定する同一カテゴリー判定部と、前記
同一カテゴリー判定部において、前記文字パターン群の
一部が、前記文字パターン群の他の部分と比較して、同
一個人が記載した同一カテゴリーの文字ではないと判定
された場合に、前記一部もしくは前記他の部分のカテゴ
リーを変更する文字再認識部とを備えることを特徴とす
る。本発明は前記課題を解決するため、同一カテゴリー
あたり複数の参照パターンを用いて文字認識を行う文字
認識方法において、同一カテゴリーに用いられる複数の
参照パターンどうしの特徴空間上の距離を算出し、あら
かじめ複数人について同一個人が同一カテゴリーの文字
を記載した場合に生じる変動範囲を求めてその平均値を
算出し、前記距離と前記平均値を比較し、前記複数の参
照パターンの一部が、前記複数の参照パターンの他の部
分と比べて、同一個人が記載した同一カテゴリーの文字
ではないと判定された場合に、同一個人が記載した文字
列を認識する際には前記一部と前記他の部分は、文字列
中で同時に参照パターンとして選択されないようにする
ことを特徴とする。本発明は前記課題を解決するため、
文字列パターンを入力して認識を行う文字認識装置にお
いて、文字列の画像を入力する入力部と、前記入力部か
ら前記文字列の画像を読み出し、一文字づつ文字パター
ンを切り出す文字切り出し部と、前記文字切り出し部か
ら切り出された文字パターンを読み出し、同一カテゴリ
ーあたり複数の参照パターンを用いて文字認識を行って
各文字パターンに対してカテゴリーを対応付けて記憶す
る初期認識部と、あらかじめ同一カテゴリー内における
参照パターン間の、前記初期認識部において文字認識に
用いた特徴空間における距離を計算し、前記距離と同一
個人が記載した場合において同一カテゴリーであると判
断しうる文字パターンの変動範囲とを比較して、個人に
おいても同一カテゴリーと判定しうる参照パターンのセ
ットを各カテゴリーごとに記憶する個人変動範囲記憶部
と、前記初期認識部から前記文字パターン及び当該文字
パターンに対応づけられた前記カテゴリーを読み出し、
前記個人変動範囲記憶部から前記参照パターンのセット
を読み出し、同一カテゴリーに対応づけられた文字パタ
ーン群を、前記参照パターンのセットに従って、個人に
おいても同一カテゴリーに対応づけられるかどうかを判
定する同一カテゴリー判定部と、前記同一カテゴリー判
定部において、前記文字パターン群の一部が、前記文字
パターン群の他の部分と比較して、同一個人が記載した
同一カテゴリーの文字ではないと判定された場合に、前
記一部もしくは前記他の部分のカテゴリーを変更する文
字再認識部とを備えることを特徴とする。
図2に示すようなA氏の文字「の」の文字パターンが単
独で提示された場合、これが「の」であるか「9」であ
るかは人間にとっても決めかねる問題であり、主観的な
印象から「9」であると答える人間のほうが多いとも考
えられる。しかし、図3のように「の」という文字パタ
ーンが文字列の一部として提示され、かつその文字列中
に「の」と「9」の両方が記載されている場合は、
「の」という文字パターンについての同一個人が記載し
た場合に生じうる平均的な変動範囲内に、「9」という
文字パターンがあるかどうかを判断することにより、両
者が少なくとも同じカテゴリーではないと判断すること
ができる。更に、文字列が住所であるという前提のもと
では、文字列全体を「1の16の19の109」と認識
することも可能であるが、この原理については後述す
る。そこで、各カテゴリごとに同一個人が記載した場合
に生じうる平均的な変動範囲(以下、個人平均変動範囲
とよぶ)をあらかじめ求めておく。文字認識をした結
果、同一カテゴリに対応づけられた文字パターンが複数
存在する場合は、それらの文字パターンが個人において
も同一カテゴリーに属するといえるかどうかを、そのカ
テゴリーの個人平均変動範囲を基準にして判断する。同
一ではないと判断された場合は、いずれかの文字パター
ンを誤認識していると考えられるので、いずれか一方の
カテゴリーを修正することで誤認識の低減を図ることが
できる。個人平均変動範囲の求め方としては、以下の方
法が考えられる。第一の方法としては、個人が書く場合
に文字パターンがどの程度の広がり、即ち標準偏差を持
って特徴空間上に分布するかの情報を用いる方法であ
る。図4のように、ある特定の個人が「9」という文字
パターンを書くと、その文字パターンの分布は「9」と
いうカテゴリー全体の分布よりも分散が小さくなる。こ
れは、カテゴリー全体の分布は個人間のばらつきも加味
された分布となるからであり、A氏の「9」の分布、B
氏の「9」の分布、C氏の「9」の分布といった多数の
個人の分布を重ね合わせたものが、「9」というカテゴ
リー全体の分布に該当するからである。従って、「9」
という文字パターンについて個人ごとに分布の標準偏差
を求めて平均をとり平均個人標準偏差を求めると、その
値は「9」というカテゴリー全体の標準偏差よりも小さ
くなる。このことは、カテゴリー全体の分布には同時に
含まれる文字パターンであっても、個人の分布には同時
に含まれない文字パターンが存在しうることを意味す
る。以下、例をあげて説明する。302番、305番、
307番、308番、311番の文字パターンと「の」
及び「9」のカテゴリ全体の分布が、例えば特徴空間上
で図5に示すような関係にあるとする。ここでは、30
2番と311番の文字パターンは、いずれも「9」とい
うカテゴリーの全体分布内にある。今、311番の文字
パターンを中心とした円で「9」の平均個人標準偏差
を、302番の文字パターンを中心とした円で「の」の
平均個人標準偏差を表わしたものを図6に示す。図6で
は、2つの平均個人標準偏差によって示される円は互い
に他の円の中心を含んでいない。このことは、平均個人
標準偏差を個人平均変動範囲とするならば、311番の
文字パターンを「9」と仮定した場合、302番の文字
パターンは「9」の個人平均変動範囲内にはないことを
意味し、同様に302番の文字パターンを「の」と仮定
した場合、311番の文字パターンは「の」の個人平均
変動範囲内にはないことを意味している。このように、
各カテゴリーの平均個人標準偏差を基準として、302
番の文字パターンと311番の文字パターンとの特徴空
間上での距離を評価することにより、全体においては同
一カテゴリーとなりうる311番と302番の文字パタ
ーンが、個人においても同一カテゴリーとして許容しう
るかどうかを判定することが可能となる。第二の方法と
しては、個人が書く場合に文字パターンが特徴空間上で
どの程度他の文字パターンと離れて分布しているかとい
う情報を用いる方法である。すなわち、個人の文字パタ
ーンの分布中心と、それに最も距離の近い同じ個人が書
く他のカテゴリーの分布中心間距離の平均値、すなわち
平均個人文字間距離を用いる。今、例えば、「9」とい
うカテゴリーの全体分布内にある311番と302番の
文字パターンに対して、311番の文字パターンを中心
とした円で「9」の平均個人文字間距離を、302番の
文字パターンを中心とした円で「の」の平均個人文字間
距離を表した場合を図7に示す。図7では、2つの平均
個人標準偏差によって示される円は互いに他の円の中心
を含んでいない。このことは、平均個人文字間距離を個
人平均変動範囲とするならば、311番の文字パターン
を「9」と仮定した場合、302番の文字パターンは
「9」の個人平均変動範囲内にはないことを意味し、同
様に302番の文字パターンを「の」と仮定した場合、
311番の文字パターンは「の」の個人平均変動範囲内
にはないことを意味している。このように、各カテゴリ
ーの平均個人文字間距離を基準として、302番の文字
パターンと311番の文字パターンとの特徴空間上での
距離を評価することにより、全体においては同一カテゴ
リーとなりうる311番と302番の文字パターンが、
個人においても同一カテゴリーとして許容しるかどうか
を判定することが可能となる。以上、同一カテゴリーに
対応づけられた文字パターン間の距離と、個人平均変動
範囲とを比較することにより、個人においても同一カテ
ゴリーといえるかどうかを判定する方法について説明し
たが、一カテゴリーあたり複数の参照パターンを用いて
文字認識を行う場合には、次の方法も考えられる。すな
わち、同一カテゴリーに属する複数の参照パターン間の
距離と、個人平均変動範囲とを比較することにより、個
人において同時に採用されうる参照パターンのセットを
決定する。そして、同一セットでない参照パターンが同
時に採用された場合は、同一セットでない参照パターン
にそれぞれ対応づけられた文字パターンは個人において
は同一カテゴリーではないと判定する。次に、個人にお
いて同一カテゴリーでないと判定された場合の、カテゴ
リーを修正する方法について説明する。例えば、文字認
識の際に、文字パターンをカテゴリーと対応付けるとと
もに、対応付けの確からしさも記憶しておき、前記確か
らしさが最も高い文字パターン及びその文字パターンと
個人において同一カテゴリーと判定された文字パターン
についてはカテゴリーを変更せず、前記確からしさが最
も高い文字パターンとは個人において同一カテゴリーで
ないと判定された文字パターンについてカテゴリーを修
正する。修正方法としては、例えば文字認識の際に一つ
の文字パターンに複数のカテゴリーが順位づけがなされ
て対応づけられている場合、2位のカテゴリーを修正後
のカテゴリーとして採用する。また、文字列が住所を記
載したものであった場合、住所であるという知識を利用
することによりカテゴリーを決定することもできる。例
えば、図3において、302番、305番、307番、
308番及び311番に、最初「9」というカテゴリー
が対応づけられたが、本発明により、個人においては3
02番、305番、308番のセットと307番、31
1番のセットは、同一カテゴリーではないと判断された
とする。また、これらの文字パターンには2位のカテゴ
リーとして「の」が対応づけられているとする。この場
合、いずれのセットを「9」に対応付け、または「の」
に対応づけるかによって、「1の16の19の109」
という組合せと「191691の910の」という組合
せが考えられる。ここで、文字列が住所であるという知
識、すなわち191691という大きな丁目を持つ住所
は存在しないという知識から、後者の組合せは不適合で
あることがわかり、前者が選択される。この結果、30
2番、305番、308番の文字パターンについてはカ
テゴリーを変更せず、307番、311番の文字パター
ンのカテゴリーを「の」に修正することになる。
して説明する。図1は、本発明の実施例の一例を示すブ
ロック図である。本実施例は、文字列の画像を入力する
入力部11と、前記入力部11から前記文字列の画像を
読み出し、一文字づつ文字パターンを切り出す文字切り
出し部12と、前記文字切り出し部12から切り出され
た文字パターンを読み出し、文字認識を行って各文字パ
ターンに対してカテゴリーを対応付けて記憶する初期認
識部13と、同一個人が記載した場合において同一カテ
ゴリーであると判断しうる文字パターンの変動範囲を各
カテゴリーごとに記憶する個人変動範囲記憶部14と、
前記初期認識部13から前記文字パターン及び当該文字
パターンに対応づけられた前記カテゴリーを読み出し、
前記個人変動範囲記憶部14から前記変動範囲を読み出
し、同一カテゴリーに対応づけられた文字パターン群が
前記変動範囲内にあるかどうかを判定する同一カテゴリ
ー判定部15と、前記同一カテゴリー判定部15におい
て、前記文字パターン群の一部が、前記文字パターン群
の他の部分と比較して、同一個人が記載した同一カテゴ
リーの文字ではないと判定された場合に、前記一部もし
くは前記他の部分のカテゴリーを変更する文字再認識部
16とを備えて成る。次に、本実施例の動作について説
明する。入力部11は、二値化された文字列の画像を入
力する手段である。図3は、入力部11に入力される文
字列の画像の例を示す。文字切り出し部12は、文字列
の画像から一文字づつの文字パターンを切り出して入力
する手段である。文字切り出し部12は例えば「特願平
07−008793」に記載された技術を用いることに
より容易に実現できる。図8に切り出された文字パター
ンの例を示す。初期認識部13は、文字切り出し部12
から入力された文字パターンに文字認識処理を施し、文
字パターンに対応するカテゴリーと対応づけの確からし
さを表す信頼度を、文字認識結果情報として記憶する手
段である。文字認識処理としては、例えば津雲:「方向
パタンマッチング法の改良と手書き漢字認識への応用」
信学技報、PRU90−20(1990)を用いること
ができる。信頼度としては、特徴空間上の距離値や類似
度を用いることができ、また例えば「特願平07−16
1433」に記載された技術を用いて算出することがで
きる。ここで、文字認識に用いる参照パターンは、一カ
テゴリあたり複数であってもよい。複数の参照パターン
を用いる場合は、各参照パターンには通し番号を付加
し、文字認識結果情報として参照パターンの通し番号も
出力する。図9は、初期認識部13が記憶する文字認識
結果情報の具体例を示すものである。図9において、1
位候補及び2位候補は文字認識の結果最も可能性の高い
カテゴリーと二番目に可能性の高いカテゴリーを表して
おり、信頼度はパーセントで表示している。1位候補の
カテゴリの信頼度が高い場合には、2位候補のカテゴリ
は対応づけていない。参照パターンの通し番号の、例え
ば「1−2」とは、「1」というカテゴリーの2番目の
参照パターンであることを示している。個人変動範囲記
憶部14は、個人平均変動範囲として、例えば次のよう
な情報を記憶する手段である。第一の例としては、平均
個人標準偏差を記憶する。平均個人標準偏差とは、各カ
テゴリごとに、個人の文字パターンの分布の標準偏差を
複数人について求めて平均したものをいう。第二の例と
しては、平均個人文字間距離を記憶する。平均個人内文
字間距離とは、各カテゴリごとに、個人の文字パターン
の分布中心と、それに最も距離の近い同じ個人が書く他
のカテゴリーの分布中心との間の距離を複数人について
求めて平均したものをいう。同一カテゴリー判定部15
は、初期認識部13に記憶された文字パターンと文字認
識結果情報を読み出し、また個人変動範囲記憶部14に
記憶された個人平均変動範囲を読み出し、同一カテゴリ
ーに対応づけられた文字パターン群に対して、前記個人
平均変動範囲を基準にして個人においても同一のカテゴ
リーといえるかどうか判定する手段である。本手段の動
作を、個人変動範囲記憶部14に平均個人標準偏差が記
憶されている場合について説明する。初期認識部13に
おいて文字列中の複数の文字パターンが同一カテゴリー
に対応づけられた場合、これらの文字パターンどうしの
特徴空間における距離Dk(i,j)を求める。ここ
で、符号kはカテゴリーを表し、iとjはカテゴリーk
に対応づけられた文字パターンの通し番号(以下、カテ
ゴリー内番号と呼ぶ)を表す。Dk(i,j)が、個人
変動範囲記憶部14に記憶されているカテゴリーkの平
均個人標準偏差のα1倍以下だった場合は文字パターン
iと文字パターンjは同一カテゴリーであると判定し、
α1倍を越える場合は違うカテゴリーであると判定す
る。ここで値α1は正の実数であればよく、その大小に
よって文字再認識部16におけるカテゴリーの修正の頻
度を調整することができるが、0.5〜3.5の範囲に
設定することが望ましい。具体例として、図3におい
て、本来「の」という文字である302番、305番、
308番の文字パターン、及び本来「9」という文字で
ある307番、311番の文字パターンが、すべて
「9」という同一カテゴリーに対応づけられた場合を考
える。図9は、この場合の文字認識結果情報を示す。す
なわち、「9」というカテゴリに5つの文字パターンが
対応づけられることとなるが、これら5つの文字パター
ンには(文字パターン番号:302、305、307、
308、311)=(カテゴリー内番号:1、2、3、
4、5)のように通し番号を対応させておく。次に、こ
れら5つの文字パターンどうしの特徴空間における距離
Dk(i,j)を求める。例えば、305番と311番
について距離Dk(i,j)を求める場合、符号kはカ
テゴリーを表すのでk=9となり、305番のカテゴリ
ー内番号は2、311番のカテゴリー内番号は5なの
で、D9(2,5)を計算することになる。図10に、
これら5つの文字パターンどうしの距離Dk(i,j)
を求めて表にした例を示す。この距離Dk(i,j)
と、個人変動範囲記憶部14に記憶されているカテゴリ
ー「9」についての平均個人標準偏差をα1倍した値と
を比較する。例えば、平均個人標準偏差が10、α1が
2.5だった場合、距離Dk(i,j)は25と比較さ
れることになる。図10に示す例では、距離が25以下
となる組合せは4つあり、互いに距離が25以下となる
組合せを一つも有さないようにグループ分けすると、3
02番、305番、308番のグループと、307番、
311番のグループに分けることができる。このこと
は、302番、305番、308番のグループと、30
7番、311番のグループは、個人においては同じカテ
ゴリとはいえないことを示す。次に本手段の動作を、個
人変動範囲記憶部14に平均個人文字間距離が記憶され
ている場合について説明する。距離Dk(i,j)を求
める過程は、平均個人標準偏差が記憶されている場合と
同様であるが、比較する際に、平均個人文字間距離のβ
1倍以下だった場合は文字パターンiと文字パターンj
は同一カテゴリーであると判定し、β1倍を越える場合
は違うカテゴリーであると判定する。ここで値β1は正
の実数であればよく、その大小によって文字再認識部1
6におけるカテゴリーの修正の頻度を調整することがで
きるが、0.2〜1.5の範囲に設定することが望まし
い。以上、同一カテゴリーに対応づけられた文字パター
ン間の距離と、個人平均変動範囲とを比較することによ
り、個人においても同一カテゴリーといえるかどうかを
判定する場合の動作について説明したが、一カテゴリー
あたり複数の参照パターンを用いて文字認識を行う場合
には、次の実施例も考えられる。すなわち、同一カテゴ
リーに属する複数の参照パターン間の距離と、個人平均
変動範囲とを比較することにより、個人において同時に
採用されうる参照パターンのセットを決定する。そし
て、同一セットでない参照パターンが同時に採用された
場合に、同一セットでない参照パターンに対応づけられ
た文字パターンは個人においては同一カテゴリーではな
いと判定する。具体的には、文字列中の複数の文字パタ
ーンが同一カテゴリーkであると判断された場合、それ
ぞれの文字パターンに対応づけられた参照パターンどう
しの特徴空間における距離Dk(iDi,iDj)を求
める。ここで、符号kはカテゴリーを表し、iDiとi
Djはカテゴリー内番号i、jの文字パターンに対応づ
けられた参照パターンの通し番号である。このDk(i
Di,iDj)が、例えば個人変動範囲記憶部14に記
憶されている平均個人標準偏差をα2倍した値以下だっ
た場合は同一カテゴリーであると判定し、α2倍を越え
る場合は違うカテゴリーであると判定する。ここで値α
2は正の実数であればよく、その大小によって文字再認
識部16におけるカテゴリーの修正の頻度を調整するこ
とができるが、0.5〜3.5の範囲に設定することが
望ましい。また、個人変動範囲記憶部14に平均個人文
字間距離が記憶されている場合は、平均個人文字間距離
のβ2倍以下だった場合は同一カテゴリーであると判定
し、β2倍を越える場合は違うカテゴリーであると判定
する。ここで値β2は正の実数であればよく、その大小
によって文字再認識部16におけるカテゴリーの修正の
頻度を調整することができるが、0.2〜1.5の範囲
に設定することが望ましい。また次のような実施例も考
えられる。すなわち、カテゴリーごとにあらかじめ参照
パターンどうしの距離を計算しておき、個人平均変動範
囲と前記距離を比較して、個人においても同一カテゴリ
ーといえる参照パターンのセット、すなわち個人におい
て同時に参照されてもよい参照パターンのセットを決定
し、例えば図11に示すようなテーブルの形で、個人変
動範囲記憶部14に記憶させておく。図11において、
同一受理通し番号とは、個人においても同一カテゴリー
として同時に受理できる参照パターンの通し番号を意味
する。例えば、参照パターン通し番号が9−2の参照パ
ターンに対しては、同一受理通し番号が9−3となって
おり、これは9−2と9−3の参照パターンは個人にお
いて同時に参照されてもよいことを表している。同一カ
テゴリ判定部15では、初期認識部13から読み出した
文字認識結果情報の参照パターンの通し番号と、個人変
動範囲記憶部14から読み出した個人においても同一カ
テゴリーといえる参照パターンのセットとを比較するこ
とにより、各文字パターンが個人においても同一カテゴ
リといえるかどうかを判定する。また、例えば、パター
ンAとパターンB、パターンBとパターンCは同じカテ
ゴリーであると判定されたが、パターンAとパターンC
は違うカテゴリーであると判定された場合、パターン
A、B、Cは同じカテゴリーとして扱うことができる。
文字再認識部16は、同一カテゴリー判定部15におい
て個人において同一カテゴリーではないと判定された文
字パターンに対して、再びカテゴリー付けを行う手段で
ある。この処理は次のようにして実現できる。例えば、
個人において同一カテゴリではないと判定された文字パ
ターンのうち、最も信頼度の高い文字パターンを選出す
る。かかる文字パターンと、かかる文字パターンと個人
において同一カテゴリーであると判定された他の文字パ
ターンについては、対応づけられたカテゴリーは変更せ
ず、それ以外の文字パターンについて、対応づけられた
カテゴリーを変更する。変更方法としては、例えば文字
認識結果情報として、一つの文字パターンに複数のカテ
ゴリーが順位づけがなされた状態で対応づけられている
場合、2位のカテゴリーを変更後のカテゴリーとして採
用する。図9には、一つの文字パターンに最大第2位候
補まで対応づけられている場合についての、文字認識情
報結果が示されている。また一カテゴリあたり複数の参
照パターンが用いられている場合は、次のような実施例
も考えられる。例えば文字再認識部16において、各カ
テゴリーごとに、参照パターンに対してあらかじめ他の
カテゴリーとの間違いにくさの順に優先度を付加し、記
憶しておく。そして、文字パターンと対応づけられた参
照パターンのうち、優先度が最も高い参照パターンを選
出する。かかる参照パターン及びかかる参照パターンと
個人において同時に参照されてもよいとされた参照パタ
ーンに対応づけられた文字パターンについてはカテゴリ
を変更せず、それ以外の文字パターンについて対応づけ
られたカテゴリを変更する。変更方法としては、例えば
文字認識結果情報として、一つの文字パターンに複数の
カテゴリーが順位づけがなされた状態で対応づけられて
いる場合、2位のカテゴリーを変更後のカテゴリーとし
て採用する。また、文字列が住所を記載したものであっ
た場合は、次のような実施例も考えられる。例えば、初
期認識部13においては、図3に示す302番、305
番、307番、308番及び311番の文字パターン
に、「9」というカテゴリーが対応づけられたが、同一
カテゴリ判定部15において、個人においては302
番、305番、308番のセットと307番、311番
のセットは、同一カテゴリーではないと判断されたとす
る。また、これらの文字パターンには第2位のカテゴリ
ーとして「の」が対応づけられているとする。文字再認
識部16では、302番、305番、308番のセット
と、307番、311番のセットは違うカテゴリーであ
るという情報を受けて、一方のセットのカテゴリーを
「の」に変更することにより、「1の16の19の10
9」という組合せと「191691の910の」という
組合せを作成する。一方、文字再認識部16には、あら
かじめ住所知識として丁目、番地、号の範囲を記憶して
おく。作成した組合せのうち、丁目、番地、号に該当す
る数字が範囲内にあるかどうかを判定し、範囲外となっ
てしまう組合せについては棄却する。この例では、後者
の組合せにおける191691という数字は丁目、番
地、号のいずれについても範囲外となり、棄却される。
従って、前者の組合せの「1の16の19の109」を
選択し、302番、305番、308番の文字パターン
についてはカテゴリーを変更せず、307番、311番
の文字パターンに対応づけられたカテゴリーを「の」に
変更する。この他にも住所知識の利用方法としては、下
村:「手書き住所読取りにおける街区住所知識処理方
式」情処第51全大、4R−8(1995)に記載され
た技術を用いることができる。
参照して詳細に説明する。
文字認識プログラムを記録した記録媒体17を備える。
この記録媒体17はCD−ROM、磁気ディスク、半導
体メモリその他の記録媒体であってよく、ネットワーク
を介して流通する場合も含む。
ータ処理装置18に読み込まれ、データ処理装置18の
動作を制御する。データ処理装置18は文字認識プログ
ラムの制御により、入力部11から入力された文字列画
像に対して文字切り出しをし、切り出された文字パター
ンに対して文字認識を行い、文字認識を行った結果カテ
ゴリーが同一であると認識された文字パターン群に対し
て、同一個人が前記カテゴリーの文字を記載した場合に
生じる変動範囲内に含まれるかどうかを、あらかじめ複
数人について求めた前記変動範囲の平均値を用いること
により検証し、前記文字パターン群の一部が、前記文字
パターン群の他の部分と比較して、同一個人が記載した
同一カテゴリーの文字ではないと判定された場合に、前
記一部もしくは前記他の部分のカテゴリーを変更する。
すなわち、データ処理装置18は文字認識プログラムの
制御により、図1における文字切り出し部12,初期認
識部13,個人変動範囲記憶部14,同一カテゴリ判定
部15、文字再認識部16による処理と同一の処理を実
行する。
個人を特定することができないために個人用に特化した
参照パターンを用意することができない場合であって、
かつ文字列中に同一カテゴリの文字パターンが統計的に
個人の筆記特性を抽出するほどには存在しない場合であ
っても、個人の筆記特性に起因する誤認識の軽減を図る
ことができる。
ある。
がりと「9」というカテゴリ全体の分布の広がりの関係
を示した説明図である。
及び「の」というカテゴリ全体の分布を示した説明図で
ある。
人標準偏差を半径とする円を示した説明図である。
人文字間距離を半径とする円を示した説明図である。
ある。
る。
ーン間の距離値の具体例を示す説明図である。
ターンのセットを表すテーブルの具体例を示す説明図で
ある。
Claims (14)
- 【請求項1】文字列パターンを入力して認識を行う文字
認識方法において、文字認識を行った結果カテゴリーが
同一であると認識された文字パターン群に対して、同一
個人が前記カテゴリーの文字を記載した場合に生じる変
動範囲内に含まれるかどうかを、あらかじめ複数人につ
いて求めた前記変動範囲の平均値を用いることにより検
証し、前記文字パターン群の一部が、前記文字パターン
群の他の部分と比較して、同一個人が記載した同一カテ
ゴリーの文字ではないと判定された場合に、前記一部も
しくは前記他の部分のカテゴリーを変更することを特徴
とする文字認識方法。 - 【請求項2】文字列パターンを入力して認識を行う文字
認識装置において、文字列の画像を入力する入力部と、
前記入力部から前記文字列の画像を読み出し、一文字づ
つ文字パターンを切り出す文字切り出し部と、前記文字
切り出し部から切り出された文字パターンを読み出し、
文字認識を行って各文字パターンに対してカテゴリーを
対応付けて記憶する初期認識部と、同一個人が記載した
場合において同一カテゴリーであると判断しうる文字パ
ターンの変動範囲を各カテゴリーごとに記憶する個人変
動範囲記憶部と、前記初期認識部から前記文字パターン
及び当該文字パターンに対応づけられた前記カテゴリー
を読み出し、前記個人変動範囲記憶部から前記変動範囲
を読み出し、同一カテゴリーに対応づけられた文字パタ
ーン群が前記変動範囲内にあるかどうかを判定する同一
カテゴリー判定部と、前記同一カテゴリー判定部におい
て、前記文字パターン群の一部が、前記文字パターン群
の他の部分と比較して、同一個人が記載した同一カテゴ
リーの文字ではないと判定された場合に、前記一部もし
くは前記他の部分のカテゴリーを変更する文字再認識部
とを備えることを特徴とする文字認識装置。 - 【請求項3】コンピュータ上で動作する文字認識プログ
ラムを記録した記録媒体において、文字認識を行った結
果カテゴリーが同一であると認識された文字パターン群
に対して、同一個人が前記カテゴリーの文字を記載した
場合に生じる変動範囲内に含まれるかどうかを、あらか
じめ複数人について求めた前記変動範囲の平均値を用い
ることにより検証するステップと、前記文字パターン群
の一部が、前記文字パターン群の他の部分と比較して、
同一個人が記載した同一カテゴリーの文字ではないと判
定された場合に、前記一部もしくは前記他の部分のカテ
ゴリーを変更するステップを備えることを特徴とする、
コンピュータ上で動作する文字認識プログラムを記録し
た記録媒体。 - 【請求項4】前記初期認識部における文字認識に用いる
特徴量の個人内標準偏差をあらかじめ複数人について求
めておき、前記個人変動範囲記憶部において、同一個人
が記載した場合において同一カテゴリーであると判断し
うる文字パターンの変動範囲として、前記個人内標準偏
差の平均値を記憶することを特徴とする請求項2記載の
文字認識装置。 - 【請求項5】前記初期認識部における文字認識に用いる
特徴空間において、あらかじめ個人ごとのカテゴリー分
布を複数人について求めて、前記個人ごとのカテゴリー
分布においてカテゴリーごとに分布中心間の距離が最小
となる他のカテゴリーとの距離を分布中心間距離として
算出しておき、前記個人変動範囲記憶部において、同一
個人が記載した場合において同一カテゴリーであると判
断しうる文字パターンの変動範囲として、前記分布中心
間距離の平均値を記憶することを特徴とする請求項2記
載の文字認識装置。 - 【請求項6】前記同一カテゴリー判定部において、前記
個人変動範囲記憶部から読み出した前記変動範囲と、前
記初期認識部において文字認識に用いた特徴空間におけ
る、文字パターン間の距離とを比較して判定することを
特徴とする請求項2、4又は5記載の文字認識装置。 - 【請求項7】前記初期認識部において同一カテゴリーあ
たり複数の参照パターンを用いて文字認識を行い、前記
同一カテゴリー判定部において、前記個人変動範囲記憶
部から読み出した前記変動範囲と、前記初期認識部にお
いて文字認識に用いた特徴空間における、文字パターン
に対応づけられた参照パターン間の距離とを比較して判
定することを特徴とする請求項2、4又は5記載の文字
認識装置。 - 【請求項8】同一カテゴリーあたり複数の参照パターン
を用いて文字認識を行う文字認識方法において、 同一カテゴリーに用いられる複数の参照パターンどおし
の特徴空間上の距離を算出し、あらかじめ複数人につい
て同一個人が同一カテゴリーの文字を記載した場合に生
じる変動範囲を求めてその平均値を算出し、前記距離と
前記平均値を比較し、個人においても同一カテゴリーと
いえる参照パターンのセットを決定し、その結果を記憶
したテーブルを前もって作成し、 前記テーブルを参照することにより、文字認識を行った
結果カテゴリーが同一であると認識された文字パターン
群が、個人においても同一カテゴリーといえるか否かを
判定し、 同一個人が記載した同一カテゴリーの文字ではないと判
定された場合に、前記同一カテゴリーでないと判定され
た文字のカテゴリーを変更することを特徴とする文字認
識方法。 - 【請求項9】文字列パターンを入力して認識を行う文字
認識装置において、文字列の画像を入力する入力部と、
前記入力部から前記文字列の画像を読み出し、一文字づ
つ文字パターンを切り出す文字切り出し部と、前記文字
切り出し部から切り出された文字パターンを読み出し、
同一カテゴリーあたり複数の参照パターンを用いて文字
認識を行って各文字パターンに対してカテゴリーを対応
付けて記憶する初期認識部と、あらかじめ同一カテゴリ
ー内における参照パターン間の、前記初期認識部におい
て文字認識に用いた特徴空間における距離を計算し、前
記距離と同一個人が記載した場合において同一カテゴリ
ーであると判断しうる文字パターンの変動範囲とを比較
して、個人においても同一カテゴリーと判定しうる参照
パターンのセットを各カテゴリーごとに記憶する個人変
動範囲記憶部と、前記初期認識部から前記文字パターン
及び当該文字パターンに対応づけられた前記カテゴリー
を読み出し、前記個人変動範囲記憶部から前記参照パタ
ーンのセットを読み出し、同一カテゴリーに対応づけら
れた文字パターン群を、前記参照パターンのセットに従
って、個人においても同一カテゴリーに対応づけられる
かどうかを判定する同一カテゴリー判定部と、前記同一
カテゴリー判定部において、前記文字パターン群の一部
が、前記文字パターン群の他の部分と比較して、同一個
人が記載した同一カテゴリーの文字ではないと判定され
た場合に、前記一部もしくは前記他の部分のカテゴリー
を変更する文字再認識部とを備えることを特徴とする文
字認識装置。 - 【請求項10】前記初期認識部における文字認識に用い
る特徴量の個人内標準偏差をあらかじめ複数人について
求めておき、前記個人変動範囲記憶部において、同一個
人が記載した場合において同一カテゴリーであると判断
しうる文字パターンの変動範囲として、前記個人内標準
偏差の平均値を用いることを特徴とする請求項9記載の
文字認識装置。 - 【請求項11】前記初期認識部における文字認識に用い
る特徴空間において、あらかじめ個人ごとのカテゴリー
分布を複数人について求めて、カテゴリーごとに分布中
心間の距離が最小となるカテゴリーとの距離を分布中心
間距離として算出しておき、前記個人変動範囲記憶部に
おいて、同一個人が記載した場合において同一カテゴリ
ーであると判断しうる文字パターンの変動範囲として、
前記分布中心間距離の平均値を記憶することを特徴とす
る請求項9記載の文字認識装置。 - 【請求項12】前記初期認識部において文字パターンに
対してカテゴリーを対応づけるとともに対応付けの信頼
度を出力し、前記文字再認識部においてカテゴリーを変
更する時、前記対応付けの信頼度が最も高い文字パター
ンが含まれる方についてはカテゴリーを変更せず、そう
でない方についてカテゴリーを変更することを特徴とす
る請求項2、4、5、6、9、10又は11記載の文字
認識装置。 - 【請求項13】前記初期認識部において同一カテゴリー
あたり複数の参照パターンを用いて文字認識を行い、前
記文字再認識部においてカテゴリーを変更する時、あら
かじめ参照パターンの優先度を定めておき、優先度が最
も高い参照パターンが含まれる方についてはカテゴリー
を変更せず、そうでない方についてカテゴリーを変更す
ることを特徴とする請求項2、4、5、6、9、10又
は11記載の文字認識装置。 - 【請求項14】前記同一カテゴリー判定部において、前
記文字パターン群の一部が、前記文字パターン群の他の
部分と比較して、同一個人が記載した同一カテゴリーの
文字ではないと判定され、前記文字再認識部においてカ
テゴリーを変更する時、入力文字列パターンが住所を表
すことを前提として文字パターンのカテゴリーへの対応
づけに制限を設け、前記一部を変更せず前記他の部分を
変更した場合と、その逆の場合で、前記制限をより満た
す方を採択することを特徴とする請求項2、4、5、
6、9、10又は11記載の文字認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9128494A JP2980059B2 (ja) | 1997-05-19 | 1997-05-19 | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9128494A JP2980059B2 (ja) | 1997-05-19 | 1997-05-19 | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10320501A JPH10320501A (ja) | 1998-12-04 |
JP2980059B2 true JP2980059B2 (ja) | 1999-11-22 |
Family
ID=14986143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9128494A Expired - Fee Related JP2980059B2 (ja) | 1997-05-19 | 1997-05-19 | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2980059B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446695B (zh) * | 2018-02-06 | 2022-02-11 | 创新先进技术有限公司 | 用于数据标注的方法、装置和电子设备 |
-
1997
- 1997-05-19 JP JP9128494A patent/JP2980059B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH10320501A (ja) | 1998-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Senior | A combination fingerprint classifier | |
US4989258A (en) | Character recognition apparatus | |
JP2000353215A (ja) | 文字認識装置および文字認識プログラムを記録した記録媒体 | |
JPH0562391B2 (ja) | ||
JP2001052116A (ja) | パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法 | |
US6549662B1 (en) | Method of recognizing characters | |
JP3634574B2 (ja) | 情報処理方法及び装置 | |
JPH07509576A (ja) | 文字の認識方法 | |
JP2980059B2 (ja) | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 | |
JPH11282964A (ja) | 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体 | |
JPH0498370A (ja) | 指紋識別装置 | |
JPH0520794B2 (ja) | ||
JPH08287188A (ja) | 文字列認識装置 | |
JPS6146573A (ja) | 文字認識装置 | |
JPH06162265A (ja) | イメージ認識システム | |
JP4055974B2 (ja) | パターン辞書作成方法及び装置、並びに記録媒体 | |
JP3151866B2 (ja) | 英文字認識方法 | |
JP2987462B2 (ja) | 文字方向判定装置及び文字方向判定方法 | |
JPH0944604A (ja) | 文字認識処理方法 | |
JPS6027077A (ja) | 光学的文字読取装置 | |
JP2000251017A (ja) | 単語辞書作成装置および単語認識装置 | |
JPH01191992A (ja) | 文字認識装置 | |
JP2001043318A (ja) | 住所読取装置 | |
JPH06162266A (ja) | オンライン手書き文字認識の方法及びその装置 | |
JPS6160184A (ja) | 光学的文字読取装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19990817 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110917 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 14 |
|
LAPS | Cancellation because of no payment of annual fees |