JPH07160831A - 手書き文字認識結果のリジェクト方法 - Google Patents

手書き文字認識結果のリジェクト方法

Info

Publication number
JPH07160831A
JPH07160831A JP5309494A JP30949493A JPH07160831A JP H07160831 A JPH07160831 A JP H07160831A JP 5309494 A JP5309494 A JP 5309494A JP 30949493 A JP30949493 A JP 30949493A JP H07160831 A JPH07160831 A JP H07160831A
Authority
JP
Japan
Prior art keywords
character
attribute
character recognition
recognition result
handwritten
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5309494A
Other languages
English (en)
Inventor
Atsushi Hidaka
篤 日高
Kazuyuki Yoshida
收志 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP5309494A priority Critical patent/JPH07160831A/ja
Publication of JPH07160831A publication Critical patent/JPH07160831A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 手書き文字についても精度の良いリジェクト
処理を可能とする。 【構成】 従来はステップS1,S2,S3の処理を順
次実行して読み取り結果5を得、ステップS4で読み取
り結果5に所定のリジクト処理を施して最終結果7を得
るようにしているが、この発明では、別途読み取り対象
文書全体から筆記者の癖など手書きによる文字属性11
を検出し、これにもとづき最終結果7のリジクト処理S
5を行なうことで、手書き文字のリジェクト精度を向上
させる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、手書き文書を文字認
識装置(OCR)により認識した結果のリジェクト方法
に関する。リジェクトとは、文字認識装置への入力文字
の判断が難しく、認識結果を特定するのが疑わしい場合
に、そのことをオペレータに通知することをいうが、こ
の発明はかかるリジェクト方法の改良に関するものであ
る。
【0002】
【従来の技術】一般に、文字認識装置では文書中の全て
の文字を誤りなく読み取ることが理想である。しかしな
がら、文書、特に手書き文書によってはかすれがあった
り、文字が変形したりしていて読み取りの困難なものが
ある。かかる場合、文字認識装置の認識率は低下し、誤
読が生じる。誤読された文字は訂正する必要がある。訂
正作業には誤読箇所の検出が不可欠で、その作業は多く
の場合、人手によって行なわれる。ところで、誤読箇所
を検出して文字の訂正を行なうことは、文書中の文字を
逐一検査することになるため、大変な労力を必要とす
る。
【0003】したがって、文字認識装置に正しく認識さ
れないまでも、認識結果が疑わしい箇所を通知できれ
ば、訂正のための作業がずっと軽減されることになり、
実用上のメリットは大きい。そこで、リジェクト処理が
必要となるが、このリジェクト処理は読み取りの信頼度
を推定すること、つまり、認識結果を確定とリジェクト
に判別することにより行なわれる。
【0004】
【従来の技術】図7はかかるリジェク処理を行なう従来
例(特開平3−223986号)を示すフローチャート
である。まず、文書画像1が入力されると、ステップS
1で良く知られている方法により文字の切り出しが行な
われ、文字画像2が得られる。次いで、ステップS2で
は個々の文字の特徴抽出が行なわれ、その結果として個
々の文字の光学的特徴3が得られる。ステップS3で
は、得られた個々の文字の光学的特徴3と、辞書4に格
納されている光学的特徴の標準パターンとの類似度計算
が行なわれ、類似度の高い順に一定数の候補群が文字読
み取り結果5として出力される。類似度計算としては例
えば、マハラノビスの距離計算や相関値などがある。
【0005】ステップS4ではリジェクト処理が行なわ
れるが、そのとき確からしさテーブル6が参照される。
このテーブル6には、文字種毎の認識結果の確からしさ
(以下、正答率ともいう)が記憶されており、認識結果
の文字種からこのテーブル6を参照することにより、認
識結果の確からしさを求める。そして、所定の判別関数
のパラメータの中にこの認識結果の確からしさをも加え
て所定の判別関数の関数値を求め、これにもとづき認識
結果のリジェクト処理をして最終結果7を出力する。
【0006】上記判別関数としては、例えばa)〜d)
をパラメータとして、(1)式のように定義することが
できる。 a)X={Xn|n=1,2,3,…} Xnはn位の認識結果候補文字の類似度 b)C={Cn|n=1,2,3,…} Cnはn位の認識結果候補文字の文字種 c)Pt’={Pt’(Cn)|n=1,2,3,…} Pt’(Cn)はn位の認識結果候補文字の正答率 d)Pa={Pa(Cn)|n=1,2,3,…} Pa(Cn)はn位の認識結果候補文字の出現率 判別関数F(X,C,Pt’,Pa) =F(X1,X2,…,C1,C2,…,Pt’(C1),…, Pa(C1),…) …(1) なお、F≧0のときは正答としてリジェクトせず、F<
0のときリジェクトするものとする。
【0007】第1位の結果だけ特に有効であるとする
と、上記(1)式の判別関数は次のようになる。 F’(X1,C1,Pt’(C1),Pa(C1)) =a1X1+a2Pt’(C1)+a3Pa(C1)+a4 …(2) なお、a1〜a4は定数で、実験的に決定される。この
ように、判別関数FおよびF’は認識結果の文字種,類
似度の分布をもとに統計的手法を用いて求めることがで
きる。また、第1位の読取結果のみを用いる代わりに、
確からしさテーブルに格納する値を出現率に応じた値に
する場合と、出現率を一定とする場合(a3=0)と
で、入れ替えることができる。さらには、(1),
(2)式の判別しきい値「0」を可変にして、リジェク
ト強度を自由に設定することも可能である。
【0008】図8は別の従来例を示すフローチャートで
ある。これは、図7に示す確からしさのテーブル6に代
えて、文字の大きさテーブル8およびしきい値テーブル
9を設けた点が特徴である。いま、文字の重心からの上
下左右4方向の大きさをそれぞれWu,Wd,Wlおよ
びWrとするとき、文字種iにおいて幾つかのサンプル
からそれぞれ平均値Wui(−),Wdi(−),Wl
i(−)およびWri(−)を求めておく。大きさとし
ては、例えば標準文字サイズとの比とする。(−)を付
して平均値を示す。
【0009】そして、 |Wu−Wui(−)|<α1 …(3) |Wd−Wdi(−)|<α1 …(4) |Wl−Wli(−)|<α1 …(5) |Wl−Wli(−)|<α1 …(6) のすべてを満たせば確定、それ以外はリジェクトとす
る。なお、α1はしきい値を示し、文字種ごとに求めて
おくこととするが、一定としても良い。
【0010】
【発明が解決しようとする課題】しかしながら、上記の
ように認識結果の確からしさ(正答率)をも考慮するも
のや、重心から上下左右の4方向の大きさという形状特
徴を利用するものでは、認識対象が文字品質の安定した
印刷文字の場合は比較的良好な結果が得られるが、手書
き文字の場合は文字品質が多様であるため、これらを考
慮するだけでは不十分でリジェクト精度も余り上がらな
いという問題がある。したがって、この発明の課題は手
書き文字でも精度の良いリジェクト処理を可能にするこ
とにある。
【0011】
【課題を解決するための手段】このような課題を解決す
るため、第1の発明では、手書き文字を標準パターンと
比較して文字認識を行ない、リジェクト処理をして得ら
れた最終結果に対し、筆記者に固有の書き方の属性を、
予め設けられている属性テーブルを参照して別途検出
し、手書き文書と同じ属性を持たない前記最終結果をリ
ジェクトすることを特徴としている。第2の発明では、
手書き文字を標準パターンと比較して文字認識を行な
い、リジェクト処理をして得られた最終結果に対し、筆
記具の線の太さの属性を、予め設けられている属性テー
ブルを参照して別途検出し、手書き文書と同じ属性を持
たない前記文字認識結果をリジェクトすることを特徴と
している。
【0012】第3の発明では、手書き文字を標準パター
ンと比較して文字認識を行ない、その文字認識結果の類
似度および確からしさをパラメータとして含む所定判別
関数の関数値を求め、これを所定しきい値と比較して得
た最終結果に対し、文字認識結果から、筆記者に固有の
書き方の属性を、予め設けられている属性テーブルを参
照して別途検出し、手書き文書と同じ属性を持たない前
記最終結果をリジェクトすることを特徴としている。
【0013】第4の発明では、手書き文字を標準パター
ンと比較して文字認識を行ない、その文字認識結果の類
似度および確からしさをパラメータとして含む所定判別
関数の関数値を求め、これを所定しきい値と比較して得
た最終結果に対し、文字認識装置による手書き文書の認
識結果から、筆記具の線の太さの属性を、予め設けられ
ている属性テーブルを参照して別途検出し、手書き文書
と同じ属性を持たない前記最終結果をリジェクトするこ
とを特徴としている。
【0014】第5の発明では、手書き文字を標準パター
ンと比較して文字認識を行ない、その文字認識結果の文
字種から、その文字が文字パターンの重心位置から上下
左右にどの位の幅を持つかを示す標準の幅情報を、予め
格納したテーブルを参照して取り出し、これを認識対象
とする文字パターンの実際の幅情報と比較して得た最終
結果に対し、文字認識結果から、筆記者に固有の書き方
の属性を、予め設けられている属性テーブルを参照して
別途検出し、手書き文書と同じ属性を持たない前記最終
結果をリジェクトすることを特徴としている。
【0015】第6の発明では、手書き文字を標準パター
ンと比較して文字認識を行ない、その文字認識結果の文
字種から、その文字が文字パターンの重心位置から上下
左右にどの位の幅を持つかを示す標準の幅情報を、予め
格納したテーブルを参照して取り出し、これを認識対象
とする文字パターンの実際の幅情報と比較して得た最終
結果に対し、文字認識結果から、筆記具の線の太さの属
性を、予め設けられている属性テーブルを参照して別途
検出し、手書き文書と同じ属性を持たない前記最終結果
をリジェクトすることを特徴としている。なお、上記第
3,第4の発明においては、前記判別関数の確からしさ
のパラメータを所定のテーブルを参照して求めるととも
に、この確からしさを文字の出現率に応じた値とする
か、または一定値とすることができる。
【0016】
【作用】従来の文字認識結果についてのリジェクト処理
出力(最終結果)に対し、さらに、文書全体の文字を参
照してその文書おける筆記者の癖,筆記具の特徴などの
属性を抽出し、この属性からはずれる上記最終結果をリ
ジェクトするようにしてリジェクト精度を向上させる。
【0017】
【実施例】図1はこの発明の実施例を示すフローチャー
トである。以下、筆記者の書き方の属性を用いて、最終
結果をリジェクト処理する方法につき説明する。図1か
らも明らかなように、図7の従来例と同様にして処理さ
れた最終結果7について、別途属性テーブル10を参照
して図示されない文字読取装置により求めた読み取り対
象文書の属性11と一致しないものを、リジェクトする
ステップS5を付加した点が特徴である。なお、最終結
果7としては、図7の如き処理により得られたものにつ
いてだけでなく、図8の如き処理またはリジェクト処理
を含むその他の一連の処理によって得た最終結果に対し
ても、同様に適用することができるのは言うまでもな
い。
【0018】このリジェクト処理の詳細を図2に示す。
認識結果として出力された或る1つのデータを例えばX
とすると、このデータXには属性テーブル10から属性
Yが付与される(参照)。一方、読み取り対象文書に
ついても、属性テーブル10によりその属性が判断さ
れ、文書属性Ypが与えられる(,,参照)。そ
して、この文書属性YpとXの属性Yとを比較し(,
参照)、一致しない場合は結果Xはリジェクトされて
リジェクトコードが出力され(参照)、一致する場合
は結果Xがそのまま出力される(参照)。なお、かか
る処理は文書内の全ての文字について行なわれる。
【0019】ここに、文書属性Ypは予め与えておくこ
ともできるが、以下のようにして求めることもできる。
すなわち、認識結果の中からn個(nは文字総数)を参
照し、このn個の文字の読み取り結果をそれぞれX1,
X2,…Xnとする。このX1,X2,…Xnには結果
Xと同様に属性Y1,Y2,…Ynが付属する。この属
性Y1,Y2,…Ynを参照し、最大頻度の属性を文書
属性Ypとする。このとき、属性Y1,Y2,…Ynの
最大頻度に同じものがあったときは、文字の類似度の点
数の平均が高いものを、文書属性Ypとする。
【0020】つまり、同一筆記者により書かれた文書の
場合、その文書中の文字には共通の特徴(筆記者の癖)
が見られる。その特徴の1例を図3に示す。ここでは、
図3(イ)のように文字の右肩が極端に上がっているも
の(右上がり)と、図3(ロ)のように文字の左肩が極
端に上がっているもの(左上がり)を示す。そこで、こ
れらの属性毎に辞書4に光学的特徴標準パターンを作成
しておくとともに、それぞれの文字に対応した属性テー
ブル10を作成する。この光学的特徴標準パターンと属
性テーブル10を用いて図1または図2の処理を行な
い、文書全体の認識結果を出力した後に、本リジェクト
処理を実行する。
【0021】図5に郵便番号の読み取り例を示す。ここ
では、「右上がり」の属性を持つ3つの文字A(=
8),B(=4),C(=3)が読み取り対象である。
この3文字を従来方法で処理した場合、AとCは正しく
認識され属性も「右上がり」となるが、Bの認識結果は
例えば「9」となり、属性も「右上がり」とはならず
「普通」になった例を示している。
【0022】このBは類似度が643(リジェクトしき
い値615)と高く、従来方法ではリジェクトされるこ
とはない。しかるに、この実施例のような属性を用いる
リジェクト方法では、AとCは文書属性と属性が同じな
のでリジェクトされないが、Bはその属性が文書属性と
異なるためリジェクトされ、リジェクトコードが出力さ
れるというわけである。
【0023】次に、筆記具の線の太さの属性を用いてリ
ジェクト処理を行なう例につき、説明する。処理方法は
上記と同じなので、図1および図2の説明は省略する。
すなわち、筆記具の特徴を示すものとして、その太さが
ある。その例を図4に示す。同図(イ)のように太いも
の、(ロ)のように中くらいのもの、(ハ)のように細
いものにそれぞれ分けることができる。したがって、こ
れらの属性毎に辞書4に光学的特徴標準パターンとして
作成しておくとともに、それぞれの文字に対応した属性
テーブル10を作成しておく。そして、この光学的特徴
標準パターンと属性テーブル10を用いて、図1または
図2の処理を行ない、文書全体の認識結果を出力した後
に、本リジェクト処理を実行するようにする。
【0024】図6に郵便番号の他の読み取り例を示す。
ここでは、「太さ」の属性を持つ3つの文字E(=
8),F(=7),G(=0)が読み取り対象である。
この3文字を従来方法で処理した場合、EとGは正しく
認識され属性も「太い」となるが、Fの認識結果は例え
ば「1」で、属性も「太い」ではなく「中くらい」にな
ってしまう。
【0025】このFは類似度が685(リジェクトしき
い値605)と高く、従来方法ではリジェクトされるこ
とはない。しかるに、この実施例のような属性を用いる
リジェクト方法では、EとGは文書属性と属性が同じな
のでリジェクトされないが、Fはその属性が文書属性と
異なるためリジェクトされ、リジェクトコードが出力さ
れることになる。
【0026】
【発明の効果】この発明によれば、文書内の全ての文字
から筆記者の癖,筆記具の特徴を含む文書の属性を抽出
し、この属性にもとづきリジェクトするようにしたの
で、従来のような1文字毎のリジェクト処理ではできな
かった認識結果についても、リジェクトすることが可能
となり、従来よりも高精度のリジェクトが可能となる利
点が得られる。その結果、必要不可欠である誤読の訂正
を迅速かつ簡単に実行できるようになる。そして、この
ような訂正時におけるオペレータの労力の軽減は、訂正
の間違いの低減や人員コストの削減に多大の効果をもた
らすものである。
【図面の簡単な説明】
【図1】この発明の実施例を示すフローチャートであ
る。
【図2】図1におけるリジェクト処理の詳細を説明する
ための説明図である。
【図3】右上がり,左上がり文字の例の説明図である。
【図4】文字の太さ属性の説明図である。
【図5】書き方による文字のリジェクト処理を説明する
ための説明図である。
【図6】文字の太さによるリジェクト処理を説明するた
めの説明図である。
【図7】従来例を説明するためのフローチャートであ
る。
【図8】別の従来例を説明するためのフローチャートで
ある。
【符号の説明】
1…文書画像、2…文字画像、3…光学的特徴、4…辞
書、5…文字読み取り結果、6…確からしさテーブル、
7…最終結果、8…文字の大きさテーブル、9…しきい
値テーブル、10…属性テーブル、11…文字属性。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 手書き文字を標準パターンと比較して文
    字認識を行ない、リジェクト処理をして得られた最終結
    果に対し、 筆記者に固有の書き方の属性を、予め設けられている属
    性テーブルを参照して別途検出し、手書き文書と同じ属
    性を持たない前記最終結果をリジェクトすることを特徴
    とする手書き文字認識結果のリジェクト方法。
  2. 【請求項2】 手書き文字を標準パターンと比較して文
    字認識を行ない、リジェクト処理をして得られた最終結
    果に対し、 筆記具の線の太さの属性を、予め設けられている属性テ
    ーブルを参照して別途検出し、手書き文書と同じ属性を
    持たない前記文字認識結果をリジェクトすることを特徴
    とする手書き文字認識結果のリジェクト方法。
  3. 【請求項3】 手書き文字を標準パターンと比較して文
    字認識を行ない、その文字認識結果の類似度および確か
    らしさをパラメータとして含む所定判別関数の関数値を
    求め、これを所定しきい値と比較して得た最終結果に対
    し、 文字認識結果から、筆記者に固有の書き方の属性を、予
    め設けられている属性テーブルを参照して別途検出し、
    手書き文書と同じ属性を持たない前記最終結果をリジェ
    クトすることを特徴とする手書き文字認識結果のリジェ
    クト方法。
  4. 【請求項4】 手書き文字を標準パターンと比較して文
    字認識を行ない、その文字認識結果の類似度および確か
    らしさをパラメータとして含む所定判別関数の関数値を
    求め、これを所定しきい値と比較して得た最終結果に対
    し、 文字認識装置による手書き文書の認識結果から、筆記具
    の線の太さの属性を、予め設けられている属性テーブル
    を参照して別途検出し、手書き文書と同じ属性を持たな
    い前記最終結果をリジェクトすることを特徴とする手書
    き文字認識結果のリジェクト方法。
  5. 【請求項5】 前記判別関数の確からしさのパラメータ
    を所定のテーブルを参照して求めるとともに、この確か
    らしさを文字の出現率に応じた値とするか、または一定
    値とすることを特徴とする請求項3または4のいずれか
    に記載の手書き文字認識結果のリジェクト方法。
  6. 【請求項6】 手書き文字を標準パターンと比較して文
    字認識を行ない、その文字認識結果の文字種から、その
    文字が文字パターンの重心位置から上下左右にどの位の
    幅を持つかを示す標準の幅情報を、予め格納したテーブ
    ルを参照して取り出し、これを認識対象とする文字パタ
    ーンの実際の幅情報と比較して得た最終結果に対し、 文字認識結果から、筆記者に固有の書き方の属性を、予
    め設けられている属性テーブルを参照して別途検出し、
    手書き文書と同じ属性を持たない前記最終結果をリジェ
    クトすることを特徴とする手書き文字認識結果のリジェ
    クト方法。
  7. 【請求項7】 手書き文字を標準パターンと比較して文
    字認識を行ない、その文字認識結果の文字種から、その
    文字が文字パターンの重心位置から上下左右にどの位の
    幅を持つかを示す標準の幅情報を、予め格納したテーブ
    ルを参照して取り出し、これを認識対象とする文字パタ
    ーンの実際の幅情報と比較して得た最終結果に対し、 文字認識結果から、筆記具の線の太さの属性を、予め設
    けられている属性テーブルを参照して別途検出し、手書
    き文書と同じ属性を持たない前記最終結果をリジェクト
    することを特徴とする手書き文字認識結果のリジェクト
    方法。
JP5309494A 1993-12-09 1993-12-09 手書き文字認識結果のリジェクト方法 Pending JPH07160831A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5309494A JPH07160831A (ja) 1993-12-09 1993-12-09 手書き文字認識結果のリジェクト方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5309494A JPH07160831A (ja) 1993-12-09 1993-12-09 手書き文字認識結果のリジェクト方法

Publications (1)

Publication Number Publication Date
JPH07160831A true JPH07160831A (ja) 1995-06-23

Family

ID=17993673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5309494A Pending JPH07160831A (ja) 1993-12-09 1993-12-09 手書き文字認識結果のリジェクト方法

Country Status (1)

Country Link
JP (1) JPH07160831A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294588A (zh) * 2022-08-17 2022-11-04 湖北鑫英泰系统技术股份有限公司 一种基于rpa流程机器人的数据处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115294588A (zh) * 2022-08-17 2022-11-04 湖北鑫英泰系统技术股份有限公司 一种基于rpa流程机器人的数据处理方法及系统
CN115294588B (zh) * 2022-08-17 2024-04-19 湖北鑫英泰系统技术股份有限公司 一种基于rpa流程机器人的数据处理方法及系统

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
JP3842006B2 (ja) 帳票類判別装置、帳票類判別方法、およびこれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6259812B1 (en) Key character extraction and lexicon reduction cursive text recognition
EP2138959A1 (en) Word recognizing method and word recognizing program
JPH07509576A (ja) 文字の認識方法
JP2003109007A (ja) 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JPH07160831A (ja) 手書き文字認識結果のリジェクト方法
JP7404625B2 (ja) 情報処理装置、及びプログラム
JPH07220023A (ja) 表認識方法及びその装置
JP2012084132A (ja) 文字認識装置、文字認識方法および区分装置
JP3374762B2 (ja) 文字認識方法及びその装置
JPH11184976A (ja) 辞書学習方式および文字認識装置
JP2001243425A (ja) オンライン文字認識装置およびオンライン文字認識方法
JP3266687B2 (ja) マーク認識方法
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP2963474B2 (ja) 類似文字識別方法
JP4543190B2 (ja) 文字判定方法、文字判定装置及びコンピュータプログラム
JPS638884A (ja) 文字読取装置
JPH0520490A (ja) 光学的文字読取修正システム
JP3079202B2 (ja) 文字認識方法及び文字認識装置
JPH11126236A (ja) オンライン手書き文字認識装置およびオンライン手書き文字認識方法ならびにその方法を記録した記録媒体
JP2003099709A (ja) 誤読文字修正方法及び光学的文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (prs date is renewal date of database)

Year of fee payment: 12

Free format text: PAYMENT UNTIL: 20080725

LAPS Cancellation because of no payment of annual fees