JPH0567238A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPH0567238A
JPH0567238A JP3225753A JP22575391A JPH0567238A JP H0567238 A JPH0567238 A JP H0567238A JP 3225753 A JP3225753 A JP 3225753A JP 22575391 A JP22575391 A JP 22575391A JP H0567238 A JPH0567238 A JP H0567238A
Authority
JP
Japan
Prior art keywords
character
category
candidate
subcategory
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3225753A
Other languages
English (en)
Other versions
JP2906758B2 (ja
Inventor
Toshifumi Yamauchi
俊史 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3225753A priority Critical patent/JP2906758B2/ja
Publication of JPH0567238A publication Critical patent/JPH0567238A/ja
Application granted granted Critical
Publication of JP2906758B2 publication Critical patent/JP2906758B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 帳票あるいは文書全体の文字情報を利用し個
々の文字認識では読取困難な文字に対し読取精度の向上
を行う。 【構成】 認識辞書部4には1つの文字カテゴリーにつ
いて複数のサブカテゴリー特徴ベクトルが格納してあ
る。距離計算部5で予め各サブカテゴリー特徴ベクトル
間の距離計算を行い、距離値の小さいサブカテゴリー対
には近接フラグを立て近接フラグメモリー7に格納す
る。読取時、判定結果メモリー8には第1候補、第2候
補カテゴリー名、サブカテゴリー特徴ベクトル番号、判
定フラグを格納する。判定結果が棄却を示している文字
について、第2候補のカテゴリーが前後の他の文字の第
1候補として判定済みか否か比較を行う。判定済みの場
合、近接フラグメモリー7の値または判定頻度分布メモ
リー10の値により制御し、総合判定部12において棄
却を示している文字を第1候補カテゴリーに強制判定を
行う。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、手書き文字、印刷文字
を自動読取する文字読取装置に関し、特に手書きの変形
を有する字体、類似した字体、マルチフォント印刷文
字、オムニフォント印刷文字を読取する文字読取装置に
関する。
【0002】
【従来の技術】従来、手書き文字、印刷文字などの文字
パターンを読取する文字読取装置では、帳票あるいは文
書上に手書きされた、あるいは印刷された文字列データ
に対し、文字切り出し部において個々の文字に切り出し
処理が行われた後に、個別文字の認識処理が行われる。
一般の個別文字認識処理は、文字切り出し部で切り出さ
れた個々の未知入力文字パターンに対し、特徴抽出処理
を行い、得られた特徴ベクトルと、予め学習文字パター
ン集合より設計された文字認識辞書との距離値あるいは
類似度を計算し、判定部では最小距離値あるいは最大類
似度値を取る文字カテゴリーを読取結果とすることによ
り行われる。
【0003】文字読取において読取性能の向上の手段と
して、1つのカテゴリーについて、様々の変形に対応し
た複数のサブカテゴリーからなる文字認識辞書を設ける
ことにより、文字読取を行う方法がある。(参考文献:
Miyamoto.N.,Nakajima.N.an
d Kawatani.T:”High perfor
mance optical character r
eaderforhand printed nume
rals.alphabets.andkatakan
a”,NTT Review,Vol.1,No.2,
pp.73−81(July.1989).
【発明が解決しようとする課題】しかし、従来の文字読
取装置では、各文字毎に独立して認識処理を行っている
ため、帳票あるいは文書上に書かれている他の文字デー
タの情報はなく、筆記者の癖などが原因で、複数の文字
カテゴリーと類似した文字パターンが入力されたとき、
識別が困難で、判定不能、もしくは誤認識が発生すると
いう欠点がある。
【0004】図2に帳票に書かれた文字の例を示す。文
字枠内に5文字記入されているが、第2文字目は、数字
の1か7かの識別が困難で、従来の文字読取装置では判
定不能として読取が棄却される。ところが、人間が文字
読取を行う際には、必ずしも1文字のみ注目して、個別
に認識を行っているのではなく、前後に書かれている文
字の情報も利用している。
【0005】図2の文字の例では、1文字だけ注目した
場合は、第2文字目は、1か7かの識別が困難である
が、第4文字目は、確実に7と判定できる。人間は、同
一筆記者が記入したデータであるという仮定がある場
合、第4文字目の判定情報を利用して、第4文字目と第
2文字目は字形に差があること、第4文字目が7と判定
可能であることから、第2文字目を1と判定する。した
がって、1文字ずつ独立して判定処理を行う従来の文字
読取装置では、人間に近い読取性能を得るのは困難であ
る。
【0006】本発明の目的は、同一筆記者が記入した帳
票あるいは文書などにおいて、同一筆記者が記入した同
一のカテゴリーの字形のばらつきは小さいという性質を
利用し、帳票あるいは文書上に記入された全体の文字字
形情報から読取を行うことにより、従来の1文字ずつの
処理を行う個別文字認識方式では読取困難であった文字
字形について、読取可能とする文字読取装置を提供する
ことにある。
【0007】
【課題を解決するための手段】第1の発明の文字読取装
置は、1つの文字カテゴリーに対して複数のサブカテゴ
リーの特徴ベクトルを格納する認識辞書を有し、入力文
字パターンの特徴ベクトルと認識辞書の各サブカテゴリ
ーの特徴ベクトル間の距離値に基づきカテゴリーの判定
処理を行う個別文字認識手段を用い、帳票あるいは文書
上の文字を読取る文字読取装置において、サブカテゴリ
ー特徴ベクトル間の距離値の小さいサブカテゴリー対に
近接フラグを立て記憶する近接フラグメモリーと、距離
値の第1候補、第2候補のカテゴリー名、サブカテゴリ
ー特徴ベクトル番号、および読取るか棄却するかを示す
判定フラグを記憶する判定結果メモリーと、1枚分の帳
票の判定処理が終了した後、第i文字目が棄却を示して
いるとき、第i文字目の第2候補カテゴリーと同一カテ
ゴリーが他の文字の第1候補カテゴリーとして存在する
か比較を行い、帳票あるいは文書上の第j文字目に同一
カテゴリーが存在し、かつ第i文字目の第1候補、第2
候補サブカテゴリー対に近接フラグが立っており、第i
文字目の第1候補、第j文字目第1候補サブカテゴリー
対に近接フラグが立っていないとき、第i文字目の第1
候補カテゴリーを判定結果とし、棄却文字を再度強制判
定する強制文字判定手段とを有することを特徴とする。
【0008】第2の発明の文字読取装置は、1つの文字
カテゴリーに対して複数のサブカテゴリーの特徴ベクト
ルを格納する認識辞書を有し、入力文字パターンの特徴
ベクトルと認識辞書の各サブカテゴリーの特徴ベクトル
間の距離値に基づきカテゴリーの判定処理を行う個別文
字認識手段を用い、帳票あるいは文書上の文字を読取る
文字読取装置において、サブカテゴリー特徴ベクトル間
の距離値の小さいサブカテゴリー対に近接フラグを立て
記憶する近接フラグメモリーと、距離値の第1候補、第
2候補のカテゴリー名、サブカテゴリー特徴ベクトル番
号、および読取るか棄却するかを示す判定フラグを記憶
する判定結果メモリーと、同一筆記者から求めた認識辞
書における各サブカテゴリー特徴ベクトルの判定頻度を
予め記憶する判定頻度分布メモリーと、1枚分の帳票の
判定処理が終了した後、第i文字目が棄却を示している
とき、第i文字目の第2候補カテゴリーと同一カテゴリ
ーが他の判定済みの文字の第1候補カテゴリーとして存
在するか比較を行い、帳票あるいは文書上の第j文字目
に同一カテゴリーが存在したとき、第i文字目の第2候
補のサブカテゴリー特徴ベクトル番号、第j文字目の第
1候補のサブカテゴリー特徴ベクトル番号に基づき前記
判定頻度分布メモリーを参照し、判定頻度がしきい値以
下のとき、第i文字目の第1候補カテゴリーを判定結果
とし、棄却文字を再度強制判定する強制文字判定手段と
を有することを特徴とする。第3の発明の文字読取装置
は、第2の発明の文字読取装置の判定頻度分布メモリー
において、帳票あるいは文書の読取動作中に判定頻度分
布メモリーの内容を更新することを特徴とする。
【0009】
【作用】帳票あるいは文書上の文字について判定処理終
了後、判定結果メモリー内のデータを参照し、第1候補
カテゴリーと第2候補カテゴリーの距離値が接近し棄却
を示している文字について、近接フラグメモリーの内
容、または判定頻度分布メモリーの内容により、棄却を
示している文字の第2候補カテゴリーと同一カテゴリー
が帳票あるいは文書上の他の文字の第1候補カテゴリー
として存在し、複数の異なるカテゴリーと近接すること
なく高い信頼度でもって判定している場合、棄却を示し
ている文字を第1候補カテゴリーに強制判定する。
【0010】
【実施例】以下に第1、2、3の発明の構成について図
面を参照しながら説明する。図1は第1、2、3の発明
の一実施例を示す構成図である。スキャナ部1におい
て、光学的にスキャンされた帳票あるいは文書イメージ
データに対し二値化処理を行い、白黒二値レベルの文字
列パターンを生成する。文字切り出し部2では、文字列
パターンの大きさ、ピッチ情報などに基づき文字列パタ
ーン切り出し、個々の文字切り出し処理が行われる。特
徴抽出部3では、文字の濃淡特徴、輪郭特徴などの文字
特徴を抽出し、N次元の特徴ベクトルf=(f1 ,・・
・・・・・・,fN )を生成する。認識辞書部4には、
認識対象のM種類の文字カテゴリーC1 (I=1,・・
・,M)の学習パターンについて、L個のサブカテゴリ
ーに分割を行ったサブカテゴリーCI J(I=1,・・
・,M,J=1,・・・,L)の特徴ベクトルの集合の
演算により得られるサブカテゴリー特徴ベクトルgI J
=(gI J 1 ,・・・・・,gI J N )を格納してあ
る。
【0011】次に距離計算部5において、入力文字パタ
ーンの特徴ベクトルと各サブカテゴリー特徴ベクトル間
の距離計算を式(1)に基づき行う。
【0012】 D2 (f,gI J )=(f−gI J t (f−gI J ) (1) 判定部6では、距離計算部5において得られた距離値に
ついて、小さい順に並び替え処理を行い、得られた判定
結果を判定結果メモリー8に書き込む。判定結果メモリ
ー8に格納される判定結果データは、図3に示すよう
に、帳票または文書上に記入されたn個の文字につい
て、1文字ずつ順番に各文字に対して判定部6において
得られた結果を書き込む。第k文字目の結果は、判定か
棄却を示す判定フラグh( k ) と、距離値が第1位(最
小)の第1候補カテゴリー名CI 1 (k ) 、サブカテゴ
リー特徴ベクトル番号SI 1 J 1 ( k ) 、距離値が第2
位の第2候補カテゴリー名(第1位のカテゴリーとは異
なる)CI 2 ( k )、サブカテゴリー特徴ベクトル番号
I 2 J 2 ( k ) から成る。
【0013】判定フラグは式(2)、(3)に示すよう
に、第k文字目の第1候補の距離値と第2候補の距離値
の差が、しきい値εより小さいとき、異なるカテゴリー
と距離値が接近しているため、判定フラグを立て(判定
フラグhk =1)、しきい値εより大きいとき、判定フ
ラグは立てない(判定フラグhk =0)。従来の文字読
取装置では、判定フラグを立てた文字については棄却
(読取不能)処理を行っている。
【0014】 D2 (f,gI 2 J 2 ( k ) )−D2 (f,gI 1 J 1 ( k ) )≦ε のとき hk =1 (2) D2 (f,gI 2 J 2 ( k ) )−D2 (f,gI 1 J 1 ( k ) )>ε のとき hk =0 (3) またサブカテゴリー特徴ベクトル間の距離計算を式
(4)に基づき行い、式(5)に示すように、辞書間の
距離が、予め設定されたしきい値δより小さいとき、近
接フラグを立て(RI J I ' J' =1)、式(6)に示
すように、しきい値δ以上のとき、近接フラグには0
(RI J I ' J' =0)が、近接フラグメモリー7に書
き込まれる。
【0015】 D2 (gI J ,gI ' J ' )= (gI J −gI ' J ' t (gI J −gI ' J ' ) (4) D2 (gI J ,gI ' J ' )<δ (I≠I’)のときRI J I ' J ' =1 (5) (I=I’)のときRI J I ' J ' =0 (6) D2 (gI J ,gI ' J ' )≧δ のときRI J I ' J ' =0 (7) 近接フラグメモリー7の内容を図4に示す。図4におい
て、各サブカテゴリー特徴ベクトル番号21、22をア
ドレスとし、23に示す近接フラグの値RIJI ' J '
データとするメモリーである。SI J とSI J ' のよう
な同一カテゴリーの場合は、近接フラグの値は0とな
り、SI J とSI ' J ' (I≠I’)のような異なった
カテゴリーについては、式(5)、(6)、(7)の条
件に基づいて、23に示す近接フラグRI J I ' J '
内容は定められ、近接フラグメモリー7に格納される。
【0016】次に判定頻度分布メモリー10の内容を図
5に示す。各サブカテゴリー特徴ベクトル番号24、2
5をアドレスとし、26に示す判定頻度数P
I J I ' J ' がデータとなる行列である。判定頻度分布
メモリー10としきい値レジスタ11は判定頻度分布制
御部9において制御され、判定部6において得られたサ
ブカテゴリー特徴ベクトル番号に基づきメモリーの内容
を制御する。
【0017】第2の発明の文字読取装置における、予め
同一筆記者が記入した学習パターンから判定頻度分布を
求めるアルゴリズムは以下のようになる。同一筆記者が
記入した学習文字パターンが判定されたサブカテゴリー
特徴ベクトル番号をSI J とし、SI J で判定される文
字数のカウンターをqI J としたとき、step.1
判定頻度数PI J I ' J ' の各成分を初期化する。
【0018】 PI J I ' J ' =0(I=1,・・・,M,J=1,・・・,L,I’=1, ・・・,M,J’=1,・・・,L) (8) step.2 カウンターの各成分を初期化する。
【0019】 qI J =0、rI J =0 (I=1,・・・,M,J=1,・・・,L) (9) step.3 同一筆記者が記入した学習文字パターン
集合の全ての文字について、特徴ベクトルと各サブカテ
ゴリー特徴ベクトル間の距離計算を式(1)に基づき行
い、距離値が最小となるサブカテゴリー特徴ベクトル番
号SI J としたとき、カウンターの値を加算する。
【0020】 qI J =qI J +1 (10) step.4 全学習文字パターンについてstep.
3を実行した後、カテゴリーの発生頻度とサブカテゴリ
ーの発生頻度の比をしきい値処理を行うことにより、r
I J の値を更新する。
【0021】
【数1】
【0022】一人の筆記者の記入した学習文字につい
て、step.2からstep.4を実行する step.5 rI J =1 かつ rI ' J ' =1 のとき (I=1,・・・,M,J=1,・・・,L,I’=1,・・・ M,J’=1,・・・,L) PI J I ' J ' =1 (12) step.6 筆記者を変更した学習文字データベース
において、step.2からstep.5を実行する。
筆記者をα人としたとき、しきい値レジスタ11に設定
するしきい値θは式(13)によって求められる。
【0023】 θ=f(α) f:単調増加関数 (13) 第3の発明の文字読取装置における、帳票あるいは文書
の読取動作中に、未知入力文字パターンから判定頻度分
布を求めるアルゴリズムは以下のようになる。未知入力
文字パターンが判定されるサブカテゴリー特徴ベクトル
番号をSI J とし、SI J で判定される文字数のカウン
ターをqIJ としたとき、step.1 判定頻度数P
I J I ' J 'の各成分を初期化する。
【0024】 PI J I ' J ' =0(I=1,・・・,M,J=1,・・・,L,I’=1, ・・・,M,J’=1,・・・,L) (14) step.2 カウンターの各成分を初期化する。
【0025】 qI J =0、rI J =0 (I=1,・・・,M,J=1,・・・,L) (15) step.3 入力された帳票あるいは文書に記入され
た文字について、特徴ベクトルと各サブカテゴリー特徴
ベクトル間の距離計算を式(1)に基づき行い、距離値
が最小となるサブカテゴリー特徴ベクトル番号をSI J
としたとき、カウンターの値を加算する。
【0026】 qI J =qI J +1 (16) step.4 全学習文字パターンについてstep.
3を実行した後、カテゴリーの発生頻度とサブカテゴリ
ーの発生頻度の比をしきい値処理を行うことにより、r
I J の値を更新する。
【0027】
【数2】
【0028】入力された1枚の帳票あるいは文書に対し
て、step.2からstep.4を実行する。 step.5 rI J =1 かつ rI ' J ' =1 の
とき (I=1,・・・,M,J=1,・・・,L,I’=1,・・・ M,J’=1,・・・,L) PI J I ' J ' =1 (18) step.6 しきい値レジスタ11に設定するしきい
値θは式(19)によって求められる。
【0029】 θ=θ1 θ1 :定数 (19) 本発明の文字読取装置では、総合判定部12を有してお
り、従来、棄却処理を行っていた文字についても、判定
結果メモリー8に格納されている帳票あるいは文書全体
の判定結果情報を利用し、救済処理をすることにより読
取ることを可能とする。
【0030】第1の発明の文字読取装置における総合判
定部の処理を図6、7、8のフローを用いて説明する。
帳票あるいは文書上の全文字について認識処理を行い、
判定結果メモリー8に判定結果が格納されている段階に
おいて、処理28で第k文字目の判定フラグh( k )
チェックを行い、判定フラグが立っている(h( k )
1)ときは棄却を示しているため本処理の対象となる。
処理32において、第1候補カテゴリーCI 1 ( k )
第2候補カテゴリーCI 2 ( k )について近接フラグで
あるRI 1 J 1 I 2 J 2 のチェックを行う。近接フラグ
が立っていない(RI 1 J 1 I 2 J 2 =0)ときは次の
文字に処理を移し、近接フラグが立っている(R
I 1 J 1 I 2 J 2 =1)ときは他の文字の判定処理デー
タをサーチし、処理36において、第2候補カテゴリー
I 2 ( k ) と等しいカテゴリーが他の文字の第1候補
カテゴリーとして存在するかどうかチェックする。処理
38において、等しいカテゴリーが存在しかつ該当する
文字の近接フラグが立っていないとき(R
I 1 ' J 1 ' I 2 ' J 2 ' =0)、処理41においてカ
テゴリーCI 1 ( k ) に判定し、処理40において判定
フラグh( k ) をクリアする。上記以外の場合は判定フ
ラグが立っていないとき処理41においてカテゴリーを
I 1 (k ) に判定し、立っているときは処理46にお
いて棄却処理を行う。
【0031】次に、第2、第3の発明の文字読取装置に
おける総合判定部の処理を図9、10、11のフローを
用いて説明する。帳票あるいは文書上の全文字について
認識処理を行い、判定結果メモリー8に判定結果が格納
されている段階において、処理49で第k文字目の判定
フラグh( k ) のチェックを行い、判定フラグが立って
いる(h( k ) =1)ときは棄却を示しているため本処
理の対称となる。判定結果メモリー8内の他の文字の判
定処理データをサーチし、処理55において第2候補カ
テゴリーCI 2 ( k ) と等しいカテゴリーが他の文字の
第1候補カテゴリーとして存在するかどうかチェックす
る。等しいカテゴリーが存在した場合、その判定してい
る第1候補のサブカテゴリー特徴ベクトル番号と棄却を
示している文字の第1候補のサブカテゴリー特徴ベクト
ル番号に基づき判定頻度分布メモリー10を参照し、処
理59において判定頻度数PI 2 J 2 I 1 ' J 1 ' とし
きい値レジスタ11の内容であるしきい値θを比較し、 PI 2 J 2 I 1 ' J 1 ' ≦θ (20) のとき、処理61においてカテゴリーをCI 1 ( k )
判定し、処理60において判定フラグh( k ) をクリア
する。上記以外の場合は判定フラグが立っていないとき
処理61においてカテゴリーCI 1 ( k ) に判定し、判
定フラグが立っているときは処理66において棄却処理
を行う。
【0032】図12において、第1の発明の文字読取装
置における読取結果の説明を、従来技術の読取結果と比
較しながら行う。図12の第2文字目68の字形は、カ
テゴリー1かカテゴリー7かあいまいであり、従来の文
字読取装置では棄却処理が行われ、従来技術の読取結果
は、棄却72となる。ところが、本発明の文字読取装置
では、帳票あるいは文書全体の文字情報に基づき読み取
ることが可能である。第4文字目70において、カテゴ
リー7と判定可能な字形が存在することにより、第4文
字目70の文字情報を用い第2文字目68の文字を再度
判定する。判定の方法としては、全ての文字の判定結果
が判定結果メモリー8に格納された段階において、第4
文字目の判定結果は棄却72となっており、処理29に
おける第1候補カテゴリーは1、第2候補カテゴリーは
7である。処理31における近接フラグはカテゴリー1
と7のサブカテゴリー特徴ベクトルベクトルは、カテゴ
リー1の字形82、カテゴリー7の字形85において接
近しているため、第1候補近接フラグ、第2候補近接フ
ラグは1となる。帳票もしくは文書上の他の文字の判定
結果で73に示す第2候補カテゴリー名である7と同一
カテゴリーが第1候補のカテゴリーとして存在するか否
か処理36において比較を行い、74に示す第4文字目
70において同一カテゴリーが第1候補カテゴリーに存
在する。処理39において字形84のサブカテゴリー特
徴ベクトルについては、特に近接する他のカテゴリーが
存在しないため、第1候補近接フラグ、第2候補近接フ
ラグは0となる。よって処理41おいて読取結果として
カテゴリーを1と強制判定すること可能である。
【0033】図14において、第2、3の発明の文字読
取装置における読取結果の説明を、従来技術の読取結果
と比較しながら行う。図14の第2文字目76の字形
は、カテゴリー1かカテゴリー7かあいまいであり、従
来の文字読取装置では棄却処理が行われ、読取結果は、
棄却80となる。ところが、第2の発明の文字読取装置
では帳票あるいは文書全体の文字情報に基づき読み取る
ことが可能である。第4文字目78において、カテゴリ
ー7と明らかに判定可能な字形が存在することにより、
第4文字目78の文字情報を用い第2文字目76の文字
を再度判定する。判定の方法としては、全ての文字の判
定結果が判定結果メモリー8に格納された段階におい
て、第2文字目76の判定結果は棄却80となっている
が、処理50における第1候補カテゴリーは1、第2候
補カテゴリーは7であり、帳票もしくは文書上の他の文
字の判定結果で81に示す第2候補カテゴリーと同一カ
テゴリーが第1位のカテゴリーとして存在するか否か処
理55において比較を行い、82に示す第4文字目の判
定結果において同一カテゴリーである7が第1候補に存
在する。このとき第2文字目76の第1候補サブカテゴ
リー特徴ベクトル番号S1 2 と第4文字目78のサブカ
テゴリー特徴ベクトル番号S7 2 をアドレスとし、判定
頻度分布メモリーから処理57に示す判定頻度数P
1 2 7 1 をロードし、設定されたしきい値θとの比較を
行う。
【0034】図15には、84のような字形をした、サ
ブカテゴリー特徴ベクトル番号S71 を基準とした、判
定頻度分布メモリーの内容PI J 7 1 (I=1,J=
1,・・・,L,L=4)について示している。図13
においてカテゴリー7の字形を字形84のように記入す
る筆記者は同一カテゴリー7の字形を別の場所に字形8
5、字形86のような異なった字形で記入する頻度は極
めて少ない。これは筆記者が文字を記入するときに、同
一のカテゴリーについての字形のばらつきは小さく同じ
ような字形を記入するという性質であり、本発明では、
この性質を利用する。処理59において、判定頻度数P
7 2 7 1 について、 P7 2 7 1 ≦θ (21) が成り立つことより、処理60において判定フラグをク
リアし、処理61において判定結果をC1 ( 2 ) 、カテ
ゴリー1と強制判定する。
【0035】
【発明の効果】以上に説明したように、本発明によれ
ば、帳票上の前後に書かれている文字データの全体の情
報をもとに、筆記者の癖などを原因とする歪を吸収する
ことにより、複数のカテゴリーに類似した文字の読取が
可能である。また印刷文字のマルチフォント文字のよう
に、単独の文字では他のフォントの異なるカテゴリーと
同字形か存在し、読取できない場合のような全体の文字
字形から判定が必要な場合でも本発明の文字読取装置で
は読取が可能である。また、本発明では文字を対象とし
て説明を行ったが、画像、音声、図形を対象としても容
易に実現可能である。また、特徴ベクトルと認識辞書間
の近さを示す尺度としてユークリッド距離を用いて説明
を行ったが、他の距離(マハラノビス距離、シティブロ
ック距離など)、類似度(単純類似度、複合類似度な
ど)にも適用可能である。
【図面の簡単な説明】
【図1】第1、2、3の発明の文字読取装置の一実施例
を説明するためのブロック図。
【図2】従来の文字読取装置の読取結果を説明するため
の図。
【図3】第1、2、3の発明の文字読取装置の判定結果
メモリーの内容を説明するための図。
【図4】第1、2、3の発明の文字読取装置の近接フラ
グメモリーの内容を説明するための図。
【図5】第2、3の発明の文字読取装置の判定頻度分布
メモリーの内容を説明するための図。
【図6】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
【図7】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
【図8】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
【図9】第2の発明の文字読取装置の総合判定部の処理
について説明するためのフローの一部。
【図10】第2の発明の文字読取装置の総合判定部の処
理について説明するためのフローの一部。
【図11】第2の発明の文字読取装置の総合判定部の処
理について説明するためのフローの一部。
【図12】第1の発明の文字読取装置による文字読取結
果と従来技術による文字読取結果について比較説明する
ための図。
【図13】第1、2、3の発明の文字読取装置で読取る
カテゴリー1とカテゴリー7の文字字形例について説明
するための図。
【図14】第2、3の発明の文字読取装置による文字読
取結果と従来技術による文字読取結果について比較説明
するための図。
【図15】第2、3の発明の判定頻度分布メモリーに格
納されている分布の状態について説明するための図。
【符号の説明】
1 スキャナ部 2 文字切り出し部 3 特徴抽出部 4 認識辞書部 5 距離計算部 6 判定部 7 近接フラグメモリー 8 判定結果メモリー 9 判定頻度分布制御部 10 判定頻度分布メモリー 11 しきい値レジスタ 12 総合判定部 13 判定結果

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 1つの文字カテゴリーに対して複数のサ
    ブカテゴリーの特徴ベクトルを格納する認識辞書を有
    し、入力文字パターンの特徴ベクトルと認識辞書の各サ
    ブカテゴリーの特徴ベクトル間の距離値に基づきカテゴ
    リーの判定処理を行う個別文字認識手段を用い、帳票あ
    るいは文書上の文字を読取る文字読取装置において、 サブカテゴリー特徴ベクトル間の距離値の小さいサブカ
    テゴリー対に近接フラグを立て記憶する近接フラグメモ
    リーと、距離値の第1候補、第2候補のカテゴリー名、
    サブカテゴリー特徴ベクトル番号、および読取るか棄却
    するかを示す判定フラグを記憶する判定結果メモリー
    と、1枚分の帳票の判定処理が終了した後、第i文字目
    が棄却を示しているとき、第i文字目の第2候補カテゴ
    リーと同一カテゴリーが他の文字の第1候補カテゴリー
    として存在するか比較を行い、帳票あるいは文書上の第
    j文字目に同一カテゴリーが存在し、かつ第i文字目の
    第1候補、第2候補サブカテゴリー対に近接フラグが立
    っており、第i文字目の第1候補、第j文字目第1候補
    サブカテゴリー対に近接フラグが立っていないとき、第
    i文字目の第1候補カテゴリーを判定結果とし、棄却文
    字を再度強制判定する強制文字判定手段とを有すること
    を特徴とする文字読取装置。
  2. 【請求項2】 1つの文字カテゴリーに対して複数のサ
    ブカテゴリーの特徴ベクトルを格納する認識辞書を有
    し、入力文字パターンの特徴ベクトルと認識辞書の各サ
    ブカテゴリーの特徴ベクトル間の距離値に基づきカテゴ
    リーの判定処理を行う個別文字認識手段を用い、帳票あ
    るいは文書上の文字を読取る文字読取装置において、 サブカテゴリー特徴ベクトル間の距離値の小さいサブカ
    テゴリー対に近接フラグを立て記憶する近接フラグメモ
    リーと、距離値の第1候補、第2候補のカテゴリー名、
    サブカテゴリー特徴ベクトル番号、および読取るか棄却
    するかを示す判定フラグを記憶する判定結果メモリー
    と、同一筆記者から求めた認識辞書における各サブカテ
    ゴリー特徴ベクトルの判定頻度を予め記憶する判定頻度
    分布メモリーと、1枚分の帳票の判定処理が終了した
    後、第i文字目が棄却を示しているとき、第i文字目の
    第2候補カテゴリーと同一カテゴリーが他の判定済みの
    文字の第1候補カテゴリーとして存在するか比較を行
    い、 帳票あるいは文書上の第j文字目に同一カテゴリーが存
    在したとき、第i文字目の第2候補のサブカテゴリー特
    徴ベクトル番号、第j文字目の第1候補のサブカテゴリ
    ー特徴ベクトル番号に基づき前記判定頻度分布メモリー
    を参照し、判定頻度がしきい値以下のとき、第i文字目
    の第1候補カテゴリーを判定結果とし、棄却文字を再度
    強制判定する強制文字判定手段とを有することを特徴と
    する文字読取装置。
  3. 【請求項3】 判定頻度分布メモリーにおいて、帳票あ
    るいは文字の読取動作中に判定頻度分布メモリーの内容
    を更新することを特徴とする請求項2記載の文字読取装
    置。
JP3225753A 1991-09-05 1991-09-05 文字読取装置 Expired - Lifetime JP2906758B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3225753A JP2906758B2 (ja) 1991-09-05 1991-09-05 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3225753A JP2906758B2 (ja) 1991-09-05 1991-09-05 文字読取装置

Publications (2)

Publication Number Publication Date
JPH0567238A true JPH0567238A (ja) 1993-03-19
JP2906758B2 JP2906758B2 (ja) 1999-06-21

Family

ID=16834288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3225753A Expired - Lifetime JP2906758B2 (ja) 1991-09-05 1991-09-05 文字読取装置

Country Status (1)

Country Link
JP (1) JP2906758B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074262A (ja) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk 認識文字修正方法
JP2015185033A (ja) * 2014-03-25 2015-10-22 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074262A (ja) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk 認識文字修正方法
JP2015185033A (ja) * 2014-03-25 2015-10-22 株式会社日立情報通信エンジニアリング 文字認識装置及び識別関数生成方法

Also Published As

Publication number Publication date
JP2906758B2 (ja) 1999-06-21

Similar Documents

Publication Publication Date Title
Spitz Determination of the script and language content of document images
KR100658119B1 (ko) 문자 인식 장치 및 방법
US7519226B2 (en) Form search apparatus and method
EP0439951B1 (en) Data processing
EP0740263A2 (en) Method of training character templates for use in a recognition system
US5787197A (en) Post-processing error correction scheme using a dictionary for on-line handwriting recognition
KR100412317B1 (ko) 문자인식/수정방법및장치
KR19980018029A (ko) 문자 인식 장치
CN109190630A (zh) 字符识别方法
Malakar et al. A holistic approach for handwritten Hindi word recognition
EP0810542A2 (en) Bitmap comparison apparatus and method
US6272238B1 (en) Character recognizing method and apparatus
JP2000315247A (ja) 文字認識装置
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
CN113673294B (zh) 文献关键信息的提取方法、装置、计算机设备和存储介质
US20220188543A1 (en) Information processing apparatus and non-transitory computer readable medium
US5909509A (en) Statistical-based recognition of similar characters
Chaudhuri et al. Extraction of type style-based meta-information from imaged documents
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JPH0567238A (ja) 文字読取装置
Kumar et al. Line based robust script identification for indianlanguages
CN116229493B (zh) 跨模态的图片文本命名实体识别方法、系统及电子设备
JPH08287188A (ja) 文字列認識装置
JPH08123905A (ja) 文字認識装置及び方法
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム