JP3079202B2 - 文字認識方法及び文字認識装置 - Google Patents

文字認識方法及び文字認識装置

Info

Publication number
JP3079202B2
JP3079202B2 JP05075071A JP7507193A JP3079202B2 JP 3079202 B2 JP3079202 B2 JP 3079202B2 JP 05075071 A JP05075071 A JP 05075071A JP 7507193 A JP7507193 A JP 7507193A JP 3079202 B2 JP3079202 B2 JP 3079202B2
Authority
JP
Japan
Prior art keywords
category
candidate
value
recognition result
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP05075071A
Other languages
English (en)
Other versions
JPH06259603A (ja
Inventor
由美 中山
敏夫 堤田
Original Assignee
株式会社エヌ・ティ・ティ・データ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エヌ・ティ・ティ・データ filed Critical 株式会社エヌ・ティ・ティ・データ
Priority to JP05075071A priority Critical patent/JP3079202B2/ja
Publication of JPH06259603A publication Critical patent/JPH06259603A/ja
Application granted granted Critical
Publication of JP3079202B2 publication Critical patent/JP3079202B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置(OC
R)における文字単位の認識結果の確からしさ(認識結
果の信頼性を数量化したもの:以下、候補確度と称す
る)を調べた上でリジェクト判定,或いは文字列照合等
の後処理を行う文字認識技術に関する。
【0002】
【従来の技術】字認識は、従来、図4に示すような構
成の文字認識装置により行われている。この種の文字認
識装置では、まず、帳票上の認識対象文字列をスキャナ
又は文字切り出し装置等の読取り手段(図示省略)によ
って文字単位に2値変換してパタン化し、それを特徴抽
出部1に入力している。特徴抽出部1では、入力された
文字パタンの特徴を解析し、その特徴ベクトルを表す信
号を識別部3に出力している。識別部3では、辞書メモ
リ2から取り出した認識対象カテゴリの標準的な特徴を
表す標準ベクトルと前述の特徴ベクトルとを照合し、両
者の類似度、例えば距離値を計算して類似度の高い順
(距離値であればその距離が小さい順)に上位候補とな
るカテゴリ群を生成し、認識結果として、より上位候補
のカテゴリ情報とそのときの距離値情報とを出力してい
。この距離値情報は、通常、後段のリジェクト判定、
或いは後処理のために候補確度を示す値として付加され
る。
【0003】図5は、図4に示す文字認識装置による認
識結果の一例であって、マハラノビス距離(特徴間の統
計的相関を補う距離測度)を用いたときの距離値情報に
関する並び、即ち距離値列を示したものである。
【0004】この距離値列において、x軸方向は認識結
果の候補順位(上位1位から10位まで)を表わし、y
軸方向は各候補順位における夫々の距離値の大きさを表
わしている。
【0005】ここで、一般的には、候補確度を代用する
尺度として、標準パタンとの類似性を重視し、第1位候
補やその次候補、即ち、第2位候補の独立性を考慮し
第1位候補の距離値の大きさと第2位候補の距離値
の大きさとの距離差の絶対値に着目するか、或いは
にこれらの2変数組み合わせることによって候補確
度の安定化を図っている。
【0006】
【発明が解決しようとする課題】しかしながら、認識対
象文字パタンについて類似カテゴリが存在するか否か、
或いは当該文字パタンのカテゴリが漢字か非漢字等の
カテゴリの相違により、カテゴリ毎の距離値の分布形
状、例えば、その平均値,分散等はカテゴリ間で大き
く異なっているのが通常である。
【0007】加えて、図5に示すパタンA,パタンBの
ような2つの距離値列において、標準パタンと第1位候
補との類似性から見ればパタンAが、又第2位候補以下
との独立性から見ればパタンBが、夫々認識結果として
確からしく見えてしまう。こうした場合、上述した文字
認識装置のように、距離値という一次元的で個別な尺度
による手法では、いずれのパタンが確かであるかの判断
ができなくなることがある。
【0008】要するに、従来の文字認識装置の場合、候
補文字のカテゴリ情報と距離値列とを複合的に扱ってい
ないので、前述の分布形状の全体を表現することができ
ず、候補確度の妥当性や安定性を高めることができない
という問題点があった。
【0009】本発明は、かかる問題点解消すべくなさ
れたもので、その目的とするところは、文字パタンの認
識結果に対して最適且つ安定的に候補確度を決定し得る
文字認識方法及び字認識装置を提供することにある。
【0010】本発明の文字認識方法は、入力された文字
パタンの特徴を表す特徴ベクトルと認識対象カテゴリの
標準的な特徴を表す標準ベクトルとを照合し、標準ベク
トルからの距離が小さい順に上位となる複数の候補カテ
ゴリと各候補カテゴリについての距離値dとを認識結果
として出力するステップを有する文字認識方法におい
て、互いに類似するカテゴリ群をグループ化した類似カ
テゴリグループ毎に、予め判別分析によってカテゴリ群
の正読傾向と誤読傾向とを判別するように判別係数値w
を求めておき、前記認識結果に含まれる複数の候補カテ
ゴリの距離値dの分布形状を表す差分値データd’を作
成するとともに第1位候補カテゴリC1が属する類似カ
テゴリグループに対応する前記判別係数値wを特定し、
特定した判別係数値wと前記距離値dの内積と、特定し
た判別係数値wと前記差分値データd’の内積との総和
からなる判別関数値H(=f(w、d、d’))を算出
し、この判別関数値Hを前記認識結果の確からしさを表
す候補確度として当該認識結果に付加することを特徴と
する。
【0011】本発明の文字認識装置は、入力された文字
パタンの特徴を表す特徴ベクトルと認識対象カテゴリの
標準的な特徴を表す標準ベクトルとを照合し、標準ベク
トルからの距離が小さい順に上位となる複数の候補カテ
ゴリと各候補カテゴリについての距離値dとを認識結果
として出力する文字認識装置において、互いに類似する
カテゴリ群をグループ化した類似カテゴリグループを識
別するためのグループ番号を、入力が予定される文字パ
タンの各々のカテゴリを識別するためのカテゴリ番号と
対応付けて格納した第一のメモリと、類似カテゴリグル
ープ毎に、カテゴリ群の正読傾向と誤読傾向とを判別す
るように予め判別分析によって求めた判別係数値wを前
記グループ番号と対応付けて格納した第二のメモリと、
前記認識結果に含まれる複数の候補カテゴリの距離値d
の分布形状を表す差分値データd’を作成する分布情報
作成手段と、前記認識結果に含まれる第1位候補カテゴ
リC1のカテゴリ番号に対応するグループ番号を第一メ
モリから抽出し、抽出したグループ番号に基づいて対応
する判別係数値wを第二のメモリから抽出するととも
に、抽出した判別係数値wと前記距離値dの内積と、抽
出した判別係数値wと算出された前記差分値データd’
の内積との総和からなる判別関数値H(=f(w、d、
d’))を算出する候補確度算出手段とを設け、算出し
た判別関数値Hを前記認識結果の確からしさを表す候補
確度として当該認識結果と共に出力することを特徴とす
る。
【0012】
【0013】
【作用】字パタンの認識処理により複数の候補カテゴ
リと各候補カテゴリ間の距離値情報が得られる。分布情
報生成手段は、この距離値情報から各候補カテゴリの
情報、例えば各候補カテゴリ間の距離値の列全体の分
布形状を表す差分値データを生成する。候補確度導出手
段は、個々の候補カテゴリが属する類似カテゴリグルー
プを特定し、特定した類似カテゴリグループの識別情報
を第一メモリから抽出するとともに、この識別情報に基
づいて対応する判別係数値を第二のメモリか抽出し、
抽出した判別係数値と分布情報とに基づいて補確度を
個々の候補カテゴリ毎に導出する。このように、距離値
情報を複合的に扱い、候補カテゴリの分布情報を反映さ
せながら候補確度を導出することで、当該文字パタンを
認識する上で最も妥当な候補確度が導出される。
【0014】
【実施例】以下に実施例を挙げ、本発明の文字認識方法
及び文字認識装置について、図面を参照して詳細に説明
する。図1は、本発明の文字認識方法の実施に適した
字認識装置ブロック構成例を示した図である。なお、
4にした従来の文字認識装置と同一機能の構成部分
には同一符号を付してその説明を省略する。
【0015】図1に示されるように、本実施例の文字認
識装置は、係数インデックス用メモリ14、係数メモリ
5、係数選択部16、差分値作成部17及び補確度
算出部18を備えている。
【0016】係数インデックス用メモリ14は、認識対
となる文字パタンのカテゴリが属する類似カテゴリ
ループのグループ番号を、入力が予定される文字パタン
の全カテゴリ分について格納している。また、係数メモ
リ15は、類似カテゴリグループ毎に、正読傾向(文字
パタンが正しく読まれる傾向にあるカテゴリ群)と誤読
傾向(文字パタンが誤って読まれる傾向にあるカテゴリ
群)とを判別するように公知の判別分析を用いて学習し
た判別係数値を格納している。「判別分析」は、多変量
解析の分野で一般的に用いられている公知の分類手法で
あり、2つの群が与えられているときに、新たに与えら
れたパタンがどちらの群に属するかを判別する手法であ
る。本実施例に即していえば、文字パタンが正読傾向と
誤読傾向のどちらに属するかを判別する。この判別分析
の詳細については、以下の文献等に紹介されている。 1)K.Fukunaga:“Statistical Pattern Recognition"S
econd Edition P.441-507,Academic Press,Inc(1990)、 2)古谷野 亘:“多変量解析ガイド”、P81-90,川島
書店(1988) 3)柳井 晴夫,高木 広文:“多変量解析ハンドブッ
ク”、現代数学社(1989)「学習」とは、正読傾向と誤読
傾向とを最も良く判別できるような境界を設定する処理
をいう。この処理についても、上記文献に詳しく紹介さ
れている。
【0017】数選択部16は、係数インデックス用メ
モリ14におけるグループ番号と識別部3から認識結果
として送られるカテゴリ情報とに基づいて認識対象文
字パタンが属する類似カテゴリグループを決定すると共
に、係数メモリ15からそのときの判別係数値を出力
する。差分値作成部17は、識別部3からの距離値情
から距離値列全体の分布形状を表複数の差分値データ
を求める。「距離値列全体の分布形状」としては、例え
ば標準パタンから第1位候補までの距離値が小さい/大
きい、第1位候補と第2位候補との距離値が大きい/小
さい、類似カテゴリが存在する場合に第1位候補と第2
位候補との距離値が小さい等が挙げられる。候補確度算
出部18は、差分値作成部17から得られる複数の差分
値データと係数選択部16によって選択され判別係数
値との間で所定の判別関数を用いて積をとり、その値
各候補カテゴリの候補確度として導出する。
【0018】図2は、係数インデックス用メモリ14の
内容を示した図であり、符号20はカテゴリ番号、
21は対応する類似カテゴリが属するグループのグル
ープ番号を表す。また、図3は係数メモリ15の内容
示した図であり、符号31は、図2に示した類似カテ
ゴリが属するグループのグループ番号21に対応するグ
ループ毎の判別係数値を表す。このグループ毎の判別係
数値31は予め設定されている。
【0019】次に、この文字認識装置による実行される
文字認識方法、特に、候補確度を導出する処理具体
説明する。こでは、識別部3から以下に示すような
認識結果が得られた場合を定して説明する。
【0020】 対象とする最大候補カテゴリ数をKとする
、カテゴリ情報Cは下式で表わされる。
【0021】
【数1】C={Ck|k=1,2,・・・,K} (但し、Ckは第k位の候補カテゴリ)
【0022】また、距離値情報(距離値列)dは下式で
表わされる。
【数2】d={dk|=1,2,・・・,K} (但し、dkは第kの候補距離値) 最初に第1位候補
カテゴリC1 に着目し、係数選択部16で候補確度の算
出時に用いる判別係数値wを選択する。例えば第1位候
補カテゴリC1のカテゴリ番号が“”であったとする
と、図2及び図3を参照すれば、このときの判別係数値
wは下式の如く表わされる。
【0023】
【数3】w=(w21,w22,・・・,w2K,w2(2・K-1)) 差分値作成部17は、上述した距離値列dを受けて距離
値列全体の分布形状に着目した差分値データ列d´を求
める。
【0024】
【数4】この差分値データ列d´は下式の如く表わされ
る。 d´={d´k:dk+1-dk|k=1,2,・・・,K-1} (但し、d´kは第k位の候補距離値)次に、候補確度
算出部18において、認識結果の距離値列dと、差分値
作成部17で求めた差分値データ列d´と、係数選択部
16で求めた判別係数値wとをパラメタとした判別関数
f(w,d,d´)に基づいて認識結果の候補確度Hを
下式のように算出する。
【0025】
【数5】 H=f(w,d,d´) =w21d1+w22d2 +・・・w2・KdK +w2(K+1)d´K+w2(K+2)d´2+・・・ +w2(2・K-1)d´K-1 この後、得られた候補確度Hを、認識結果の確からしさ
を数量化した値として後段のリジェクト判定処理や後処
理に適用させる。
【0026】尚、上述した実施例における距離値の引用
及び差分値データd´の作成は、サンプル的に行ってい
るので、他の方法によっても行い得る。
【0027】このように、本実施例では、候補カテゴ
リの傾向に対応した判別係数値w、距離値列d、及び差
分値データ列d´を求め、距離値系列全体の分布形状が
わかるように距離値情報を複合的に表現して候補確度を
導出するようにしたので、従来のように部分的な距離値
情報のみで表現した場合に比べて認識結果の妥当性が格
段に高まる。これにより、最適で、且つ、安定な候補確
度が得られ、従来の課題が解決される。
【0028】なお、本発明は、この実施例の構成に拘束
されるものでなく、その要旨を逸脱しない範囲で任意に
変更が可能である。
【0029】
【発明の効果】以上詳細に説明したように、本発明の文
字認識方法によれば個々の類似カテゴリグループに対
して最適な候補確度が得られる。また、距離値情報を複
合的に扱い、候補カテゴリの分布情報を把握し得るよう
にしたので、当該文字パタンに対して最も妥当な候補確
度が安定的に得られるようになる。
【0030】また、本発明の文字認識処理装置によれ
ば、最適な候補確度が得られるので、高精度なリジェク
ト判定処理、あるいは後処理の実現に寄与することが容
易になる。
【0031】発明は、私的機関あるいは公共機関での
データエントリー業務で使用されるOCR等に広く適用
が可能である。
【図面の簡単な説明】
【図1】本発明の一実施例に係る文字認識装置の要部ブ
ロック図である。
【図2】図1に示す文字認識装置が備える係数インデッ
クス用メモリの内容を示したものである。
【図3】図1に示す文字認識装置が備える係数メモリの
内容を示したものである。
【図4】従来の文字認識装置を示したブロック図であ
る。
【図5】図4に示す文字認識装置による文字認識処理に
係る候補順位と距離値との関係を示したものである。
【符号の説明】
1 特徴抽出部 2 辞書メモリ 3 識別 14 係数インデックス用メモ 15 係数メモ 16 係数選択部 17 差分値作成部 18 候補確度算出

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された文字パタンの特徴を表す特徴
    ベクトルと認識対象カテゴリの標準的な特徴を表す標準
    ベクトルとを照合し、標準ベクトルからの距離が小さい
    順に上位となる複数の候補カテゴリと各候補カテゴリに
    ついての距離値dとを認識結果として出力するステップ
    を有する文字認識方法において、 互いに類似するカテゴリ群をグループ化した類似カテゴ
    リグループ毎に、予め判別分析によってカテゴリ群の正
    読傾向と誤読傾向とを判別するように判別係数値wを求
    めておき、 前記認識結果に含まれる複数の候補カテゴリの距離値d
    の分布形状を表す差分値データd’を作成するとともに
    第1位候補カテゴリC1が属する類似カテゴリグループ
    に対応する前記判別係数値wを特定し、特定した判別係
    数値wと前記距離値dの内積と、特定した判別係数値w
    と前記差分値データd’の内積との総和からなる判別関
    数値H(=f(w、d、d’))を算出し、この判別関
    数値Hを前記認識結果の確からしさを表す候補確度とし
    て当該認識結果に付加することを特徴とする、 文字認識方法。
  2. 【請求項2】 入力された文字パタンの特徴を表す特徴
    ベクトルと認識対象カテゴリの標準的な特徴を表す標準
    ベクトルとを照合し、標準ベクトルからの距離が小さい
    順に上位となる複数の候補カテゴリと各候補カテゴリに
    ついての距離値dとを認識結果として出力する文字認識
    装置において、 互いに類似するカテゴリ群をグループ化した類似カテゴ
    リグループを識別するためのグループ番号を、入力が予
    定される文字パタンの各々のカテゴリを識別するための
    カテゴリ番号と対応付けて格納した第一のメモリと、 類似カテゴリグループ毎に、カテゴリ群の正読傾向と誤
    読傾向とを判別するように予め判別分析によって求めた
    判別係数値wを前記グループ番号と対応付けて格納した
    第二のメモリと、 前記認識結果に含まれる複数の候補カテゴリの距離値d
    の分布形状を表す差分値データd’を作成する分布情報
    作成手段と、 前記認識結果に含まれる第1位候補カテゴリC1のカテ
    ゴリ番号に対応するグループ番号を第一メモリから抽出
    し、抽出したグループ番号に基づいて対応する判別係数
    値wを第二のメモリから抽出するとともに、抽出した判
    別係数値wと前記距離値dの内積と、抽出した判別係数
    値wと算出された前記差分値データd’の内積との総和
    からなる判別関数値H(=f(w、d、d’))を算出
    する候補確度算出手段とを設け、 算出した判別関数値Hを前記認識結果の確からしさを表
    す候補確度として当該認識結果と共に出力することを特
    徴とする、 文字認識装置。
JP05075071A 1993-03-10 1993-03-10 文字認識方法及び文字認識装置 Expired - Lifetime JP3079202B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP05075071A JP3079202B2 (ja) 1993-03-10 1993-03-10 文字認識方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05075071A JP3079202B2 (ja) 1993-03-10 1993-03-10 文字認識方法及び文字認識装置

Publications (2)

Publication Number Publication Date
JPH06259603A JPH06259603A (ja) 1994-09-16
JP3079202B2 true JP3079202B2 (ja) 2000-08-21

Family

ID=13565601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05075071A Expired - Lifetime JP3079202B2 (ja) 1993-03-10 1993-03-10 文字認識方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP3079202B2 (ja)

Also Published As

Publication number Publication date
JPH06259603A (ja) 1994-09-16

Similar Documents

Publication Publication Date Title
US6950555B2 (en) Holistic-analytical recognition of handwritten text
EP0355748B1 (en) A pattern recognition apparatus and method for doing the same
US6125362A (en) Data processing method and apparatus for identifying classification to which data belongs
US8340429B2 (en) Searching document images
US5917941A (en) Character segmentation technique with integrated word search for handwriting recognition
US5005205A (en) Handwriting recognition employing pairwise discriminant measures
US20110317882A1 (en) Biometric matching method and apparatus
JP3589007B2 (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP3079202B2 (ja) 文字認識方法及び文字認識装置
JP2002183667A (ja) 文字認識装置及び記録媒体
Hebert et al. Writing type and language identification in heterogeneous and complex documents
Slavin et al. Matching Digital Copies of Documents Based on OCR
JP2903779B2 (ja) 文字列認識方法及びその装置
JPH08212300A (ja) 文字認識方法及び文字認識装置
Kornfield et al. Further explorations in text alignment with handwritten documents
JP2001243425A (ja) オンライン文字認識装置およびオンライン文字認識方法
JP2000298496A (ja) パターン認識処理における認識結果棄却方法およびそれを実装したパターン認識装置
JPH04363780A (ja) 文字列認識方法及びその装置
JP2728117B2 (ja) 文字認識装置
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム
JP3151866B2 (ja) 英文字認識方法
JP4666875B2 (ja) 単語照合方法及び文字認識装置
JP2851865B2 (ja) 文字認識装置
JP2002222389A (ja) 追加テンプレートの作成方法、追加テンプレートの作成をコンピュータにより実現させるプログラムおよびocr認識辞書作成装置
Madhvanath et al. Score Aggregation from Multiple Sources and Training in the Context of Lexicon Reduction using Holistic Features

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080623

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090623

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100623

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110623

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120623

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130623

Year of fee payment: 13

EXPY Cancellation because of completion of term