JP2906758B2 - Character reader - Google Patents

Character reader

Info

Publication number
JP2906758B2
JP2906758B2 JP3225753A JP22575391A JP2906758B2 JP 2906758 B2 JP2906758 B2 JP 2906758B2 JP 3225753 A JP3225753 A JP 3225753A JP 22575391 A JP22575391 A JP 22575391A JP 2906758 B2 JP2906758 B2 JP 2906758B2
Authority
JP
Japan
Prior art keywords
character
category
candidate
determination
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP3225753A
Other languages
Japanese (ja)
Other versions
JPH0567238A (en
Inventor
俊史 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP3225753A priority Critical patent/JP2906758B2/en
Publication of JPH0567238A publication Critical patent/JPH0567238A/en
Application granted granted Critical
Publication of JP2906758B2 publication Critical patent/JP2906758B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、手書き文字、印刷文字
を自動読取する文字読取装置に関し、特に手書きの変形
を有する字体、類似した字体、マルチフォント印刷文
字、オムニフォント印刷文字を読取する文字読取装置に
関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character reading apparatus for automatically reading handwritten characters and printed characters, and more particularly to a character for reading handwritten deformations, similar fonts, multi-font printed characters, and omni-font printed characters. It relates to a reading device.

【0002】[0002]

【従来の技術】従来、手書き文字、印刷文字などの文字
パターンを読取する文字読取装置では、帳票あるいは文
書上に手書きされた、あるいは印刷された文字列データ
に対し、文字切り出し部において個々の文字に切り出し
処理が行われた後に、個別文字の認識処理が行われる。
一般の個別文字認識処理は、文字切り出し部で切り出さ
れた個々の未知入力文字パターンに対し、特徴抽出処理
を行い、得られた特徴ベクトルと、予め学習文字パター
ン集合より設計された文字認識辞書との距離値あるいは
類似度を計算し、判定部では最小距離値あるいは最大類
似度値を取る文字カテゴリーを読取結果とすることによ
り行われる。
2. Description of the Related Art Conventionally, in a character reading apparatus for reading a character pattern such as a handwritten character or a printed character, individual character data is extracted in a character cutout section from character string data handwritten or printed on a form or a document. After the clipping process is performed, the individual character recognition process is performed.
The general individual character recognition process performs a feature extraction process on each unknown input character pattern cut out by the character cutout unit, and obtains the obtained feature vector and a character recognition dictionary designed in advance from a set of learning character patterns. The distance value or similarity is calculated, and the determination unit determines the character category having the minimum distance value or the maximum similarity value as the read result.

【0003】文字読取において読取性能の向上の手段と
して、1つのカテゴリーについて、様々の変形に対応し
た複数のサブカテゴリーからなる文字認識辞書を設ける
ことにより、文字読取を行う方法がある。(参考文献:
Miyamoto.N.,Nakajima.N.an
d Kawatani.T:”High perfor
mance optical character r
eaderforhand printed nume
rals.alphabets.andkatakan
a”,NTT Review,Vol.1,No.2,
pp.73−81(July.1989).
As a means of improving the reading performance in character reading, there is a method of performing character reading by providing a character recognition dictionary including a plurality of subcategories corresponding to various deformations for one category. (References:
Miyamoto. N. , Nakajima. N. an
d Kawatani. T: "High performer
mance optical character r
eaderforhand printed number
rals. alphabets. and Katakan
a ", NTT Review, Vol. 1, No. 2,
pp. 73-81 (July. 1989).

【発明が解決しようとする課題】しかし、従来の文字読
取装置では、各文字毎に独立して認識処理を行っている
ため、帳票あるいは文書上に書かれている他の文字デー
タの情報はなく、筆記者の癖などが原因で、複数の文字
カテゴリーと類似した文字パターンが入力されたとき、
識別が困難で、判定不能、もしくは誤認識が発生すると
いう欠点がある。
However, in the conventional character reading apparatus, since recognition processing is performed independently for each character, there is no information of other character data written on a form or a document. , When a character pattern similar to multiple character categories is input due to the writer's habit, etc.
There is a drawback that identification is difficult, determination is impossible, or erroneous recognition occurs.

【0004】図2に帳票に書かれた文字の例を示す。文
字枠内に5文字記入されているが、第2文字目は、数字
の1か7かの識別が困難で、従来の文字読取装置では判
定不能として読取が棄却される。ところが、人間が文字
読取を行う際には、必ずしも1文字のみ注目して、個別
に認識を行っているのではなく、前後に書かれている文
字の情報も利用している。
FIG. 2 shows an example of characters written on a form. Although five characters are entered in the character frame, the second character is difficult to discriminate whether it is a numeral 1 or 7, and the reading is rejected because it cannot be determined by the conventional character reading device. However, when a human reads a character, he or she does not always pay attention to one character and recognizes it individually, but also uses information of characters written before and after.

【0005】図2の文字の例では、1文字だけ注目した
場合は、第2文字目は、1か7かの識別が困難である
が、第4文字目は、確実に7と判定できる。人間は、同
一筆記者が記入したデータであるという仮定がある場
合、第4文字目の判定情報を利用して、第4文字目と第
2文字目は字形に差があること、第4文字目が7と判定
可能であることから、第2文字目を1と判定する。した
がって、1文字ずつ独立して判定処理を行う従来の文字
読取装置では、人間に近い読取性能を得るのは困難であ
る。
In the example of the characters shown in FIG. 2, if only one character is focused on, it is difficult to determine whether the second character is 1 or 7, but the fourth character can be reliably determined to be 7. If it is assumed that the data is the data written by the same writer, the fourth character and the second character have a difference in the character shape using the fourth character determination information. Since the eye can be determined to be 7, the second character is determined to be 1. Therefore, it is difficult for a conventional character reading device that performs the determination process independently for each character to obtain a reading performance close to that of a human.

【0006】本発明の目的は、同一筆記者が記入した帳
票あるいは文書などにおいて、同一筆記者が記入した同
一のカテゴリーの字形のばらつきは小さいという性質を
利用し、帳票あるいは文書上に記入された全体の文字字
形情報から読取を行うことにより、従来の1文字ずつの
処理を行う個別文字認識方式では読取困難であった文字
字形について、読取可能とする文字読取装置を提供する
ことにある。
An object of the present invention is to fill in a form or a document written by the same writer by taking advantage of the fact that the variation in the character shape of the same category written by the same writer is small. It is an object of the present invention to provide a character reading device that can read a character shape that is difficult to read by the conventional individual character recognition method that performs processing for each character by reading from the entire character character shape information.

【0007】[0007]

【課題を解決するための手段】第1の発明の文字読取装
置は、1つの文字カテゴリーに対して複数のサブカテゴ
リーの特徴ベクトルを格納する認識辞書を有し、入力文
字パターンの特徴ベクトルと認識辞書の各サブカテゴリ
ーの特徴ベクトル間の距離値に基づきカテゴリーの判定
処理を行う個別文字認識手段を用い、帳票あるいは文書
上の文字を読取る文字読取装置において、サブカテゴリ
ー特徴ベクトル間の距離値の小さいサブカテゴリー対に
近接フラグを立て記憶する近接フラグメモリーと、距離
値の第1候補、第2候補のカテゴリー名、サブカテゴリ
ー特徴ベクトル番号、および読取るか棄却するかを示す
判定フラグを記憶する判定結果メモリーと、1枚分の帳
票の判定処理が終了した後、第i文字目が棄却を示して
いるとき、第i文字目の第2候補カテゴリーと同一カテ
ゴリーが他の文字の第1候補カテゴリーとして存在する
か比較を行い、帳票あるいは文書上の第j文字目に同一
カテゴリーが存在し、かつ第i文字目の第1候補、第2
候補サブカテゴリー対に近接フラグが立っており、第i
文字目の第1候補、第j文字目第1候補サブカテゴリー
対に近接フラグが立っていないとき、第i文字目の第1
候補カテゴリーを判定結果とし、棄却文字を再度強制判
定する強制文字判定手段とを有することを特徴とする。
According to a first aspect of the present invention, there is provided a character reading apparatus having a recognition dictionary for storing feature vectors of a plurality of sub-categories for one character category, and recognizing a feature vector of an input character pattern. In a character reading device that reads characters on a form or a document using individual character recognition means that performs category determination processing based on the distance value between feature vectors of each subcategory of a dictionary, the distance value between the subcategory feature vectors is small. A determination result that stores a proximity flag memory that sets and stores a proximity flag for a subcategory pair, a category name of a first candidate and a second candidate of a distance value, a subcategory feature vector number, and a determination flag indicating whether to read or reject. If the i-th character indicates rejection after the judgment process of the memory and one sheet of form is completed, the i-th sentence A comparison is made as to whether the same category as the second candidate category of the eye exists as the first candidate category of another character, and the same category exists at the j-th character on the form or document, and the first category of the i-th character Candidate, second
The proximity flag is set for the candidate subcategory pair, and
When the proximity flag is not set for the first candidate of the character and the first candidate subcategory pair of the j-th character, the first candidate of the i-th character
It is characterized by having forced character determination means for determining a candidate category as a determination result and forcibly determining a rejected character again.

【0008】第2の発明の文字読取装置は、1つの文字
カテゴリーに対して複数のサブカテゴリーの特徴ベクト
ルを格納する認識辞書を有し、入力文字パターンの特徴
ベクトルと認識辞書の各サブカテゴリーの特徴ベクトル
間の距離値に基づきカテゴリーの判定処理を行う個別文
字認識手段を用い、帳票あるいは文書上の文字を読取る
文字読取装置において、サブカテゴリー特徴ベクトル間
の距離値の小さいサブカテゴリー対に近接フラグを立て
記憶する近接フラグメモリーと、距離値の第1候補、第
2候補のカテゴリー名、サブカテゴリー特徴ベクトル番
号、および読取るか棄却するかを示す判定フラグを記憶
する判定結果メモリーと、同一筆記者から求めた認識辞
書における各サブカテゴリー特徴ベクトルの判定頻度を
予め記憶する判定頻度分布メモリーと、1枚分の帳票の
判定処理が終了した後、第i文字目が棄却を示している
とき、第i文字目の第2候補カテゴリーと同一カテゴリ
ーが他の判定済みの文字の第1候補カテゴリーとして存
在するか比較を行い、帳票あるいは文書上の第j文字目
に同一カテゴリーが存在したとき、第i文字目の第2候
補のサブカテゴリー特徴ベクトル番号、第j文字目の第
1候補のサブカテゴリー特徴ベクトル番号に基づき前記
判定頻度分布メモリーを参照し、判定頻度がしきい値以
下のとき、第i文字目の第1候補カテゴリーを判定結果
とし、棄却文字を再度強制判定する強制文字判定手段と
を有することを特徴とする。第3の発明の文字読取装置
は、第2の発明の文字読取装置の判定頻度分布メモリー
において、帳票あるいは文書の読取動作中に判定頻度分
布メモリーの内容を更新することを特徴とする。
The character reading apparatus of the second invention has a recognition dictionary for storing a plurality of sub-category feature vectors for one character category, and includes a feature vector of an input character pattern and a sub-category of each sub-category of the recognition dictionary. In a character reading device that reads characters on a form or a document using an individual character recognition unit that performs a category determination process based on a distance value between feature vectors, a proximity flag is set to a subcategory pair having a small distance value between the subcategory feature vectors. The same writer as a proximity flag memory that stores and stores a first candidate and a second candidate of a distance value, a category name, a subcategory feature vector number, and a determination flag indicating whether to read or reject. To pre-store the judgment frequency of each subcategory feature vector in the recognition dictionary obtained from After the determination processing of the degree distribution memory and one sheet of form is completed, when the i-th character indicates rejection, the same category as the second candidate category of the i-th character is used for other determined characters. A comparison is made as to whether the same category exists as the first candidate category. If the same category exists at the j-th character on the form or document, the sub-category feature vector number of the second candidate at the i-th character, The judgment frequency distribution memory is referred to based on the subcategory feature vector number of one candidate, and when the judgment frequency is equal to or less than the threshold value, the first candidate category of the i-th character is used as the judgment result, and the rejected character is forcibly judged again. A forced character determination unit. A character reading device according to a third invention is characterized in that, in the determination frequency distribution memory of the character reading device according to the second invention, the content of the determination frequency distribution memory is updated during the operation of reading a form or a document.

【0009】[0009]

【作用】帳票あるいは文書上の文字について判定処理終
了後、判定結果メモリー内のデータを参照し、第1候補
カテゴリーと第2候補カテゴリーの距離値が接近し棄却
を示している文字について、近接フラグメモリーの内
容、または判定頻度分布メモリーの内容により、棄却を
示している文字の第2候補カテゴリーと同一カテゴリー
が帳票あるいは文書上の他の文字の第1候補カテゴリー
として存在し、複数の異なるカテゴリーと近接すること
なく高い信頼度でもって判定している場合、棄却を示し
ている文字を第1候補カテゴリーに強制判定する。
After the judgment processing for characters on a form or document is completed, the data in the judgment result memory is referred to, and the proximity flag is set for a character whose distance value between the first candidate category and the second candidate category is close and indicates rejection. According to the content of the memory or the content of the determination frequency distribution memory, the same category as the second candidate category of the character indicating rejection exists as the first candidate category of another character on the form or document, and a plurality of different categories If the determination is made with high reliability without proximity, the character indicating rejection is forcibly determined as the first candidate category.

【0010】[0010]

【実施例】以下に第1、2、3の発明の構成について図
面を参照しながら説明する。図1は第1、2、3の発明
の一実施例を示す構成図である。スキャナ部1におい
て、光学的にスキャンされた帳票あるいは文書イメージ
データに対し二値化処理を行い、白黒二値レベルの文字
列パターンを生成する。文字切り出し部2では、文字列
パターンの大きさ、ピッチ情報などに基づき文字列パタ
ーン切り出し、個々の文字切り出し処理が行われる。特
徴抽出部3では、文字の濃淡特徴、輪郭特徴などの文字
特徴を抽出し、N次元の特徴ベクトルf=(f1 ,・・
・・・・・・,fN )を生成する。認識辞書部4には、
認識対象のM種類の文字カテゴリーC1 (I=1,・・
・,M)の学習パターンについて、L個のサブカテゴリ
ーに分割を行ったサブカテゴリーCI J(I=1,・・
・,M,J=1,・・・,L)の特徴ベクトルの集合の
演算により得られるサブカテゴリー特徴ベクトルgI J
=(gI J 1 ,・・・・・,gI J N )を格納してあ
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The constructions of the first, second and third inventions will be described below with reference to the drawings. FIG. 1 is a configuration diagram showing one embodiment of the first, second, and third inventions. The scanner unit 1 performs a binarization process on a form or document image data optically scanned to generate a black and white binary level character string pattern. The character cutout unit 2 cuts out a character string pattern based on the size and pitch information of the character string pattern, and performs individual character cutout processing. The feature extracting unit 3 extracts character features such as the shading feature and the outline feature of the character, and obtains an N-dimensional feature vector f = (f 1 ,.
.., F N ). In the recognition dictionary unit 4,
M types of character categories C 1 to be recognized (I = 1,.
., M), the sub-category C IJ (I = 1,...) Divided into L sub-categories
, M, J = 1,..., L) sub-category feature vector g IJ obtained by calculating a set of feature vectors
= (G IJ 1 ,..., G IJN ).

【0011】次に距離計算部5において、入力文字パタ
ーンの特徴ベクトルと各サブカテゴリー特徴ベクトル間
の距離計算を式(1)に基づき行う。
Next, a distance calculator 5 calculates the distance between the feature vector of the input character pattern and each sub-category feature vector based on equation (1).

【0012】 D2 (f,gI J )=(f−gI J t (f−gI J ) (1) 判定部6では、距離計算部5において得られた距離値に
ついて、小さい順に並び替え処理を行い、得られた判定
結果を判定結果メモリー8に書き込む。判定結果メモリ
ー8に格納される判定結果データは、図3に示すよう
に、帳票または文書上に記入されたn個の文字につい
て、1文字ずつ順番に各文字に対して判定部6において
得られた結果を書き込む。第k文字目の結果は、判定か
棄却を示す判定フラグh( k ) と、距離値が第1位(最
小)の第1候補カテゴリー名CI 1 (k ) 、サブカテゴ
リー特徴ベクトル番号SI 1 J 1 ( k ) 、距離値が第2
位の第2候補カテゴリー名(第1位のカテゴリーとは異
なる)CI 2 ( k )、サブカテゴリー特徴ベクトル番号
I 2 J 2 ( k ) から成る。
D 2 (f, g IJ ) = (f−g IJ ) t (f−g IJ ) (1) The determination unit 6 rearranges the distance values obtained by the distance calculation unit 5 in ascending order. And writes the obtained determination result in the determination result memory 8. As shown in FIG. 3, the determination result data stored in the determination result memory 8 is obtained by the determination unit 6 for each character one by one in order for n characters written on a form or a document. Write the result. The result of the k-th character is a judgment flag h (k) indicating judgment or rejection, a first candidate category name C I 1 (k) having the first (minimum) distance value, and a sub-category feature vector number S I. 1 J 1 (k) , distance value is second
Second candidate category name of position (different from the first position category) C I 2 (k), consisting of the sub-category feature vector number S I 2 J 2 (k) .

【0013】判定フラグは式(2)、(3)に示すよう
に、第k文字目の第1候補の距離値と第2候補の距離値
の差が、しきい値εより小さいとき、異なるカテゴリー
と距離値が接近しているため、判定フラグを立て(判定
フラグhk =1)、しきい値εより大きいとき、判定フ
ラグは立てない(判定フラグhk =0)。従来の文字読
取装置では、判定フラグを立てた文字については棄却
(読取不能)処理を行っている。
As shown in equations (2) and (3), the determination flag is different when the difference between the distance value of the first candidate and the distance value of the second candidate of the k-th character is smaller than the threshold value ε. Since the category and the distance value are close to each other, the judgment flag is set (judgment flag h k = 1). When the value is larger than the threshold value ε, the judgment flag is not set (judgment flag h k = 0). In a conventional character reading apparatus, a character for which a determination flag is set is rejected (impossible to read).

【0014】 D2 (f,gI 2 J 2 ( k ) )−D2 (f,gI 1 J 1 ( k ) )≦ε のとき hk =1 (2) D2 (f,gI 2 J 2 ( k ) )−D2 (f,gI 1 J 1 ( k ) )>ε のとき hk =0 (3) またサブカテゴリー特徴ベクトル間の距離計算を式
(4)に基づき行い、式(5)に示すように、辞書間の
距離が、予め設定されたしきい値δより小さいとき、近
接フラグを立て(RI J I ' J' =1)、式(6)に示
すように、しきい値δ以上のとき、近接フラグには0
(RI J I ' J' =0)が、近接フラグメモリー7に書
き込まれる。
When D 2 (f, gI 2 J 2 (k) ) − D 2 (f, g I 1 J 1 (k) ) ≦ ε, h k = 1 (2) D 2 (f, g I 2 J) It performed based on the 2 (k)) -D 2 ( f, g I 1 J 1 (k))> ε h k = 0 (3) the equation (4 calculation of distance between the sub-category feature vector time), the formula As shown in (5), when the distance between dictionaries is smaller than a preset threshold value δ, a proximity flag is set (R IJI 'J' = 1), and as shown in equation (6), When the value is equal to or larger than the threshold value δ, 0 is set in the proximity flag.
(R IJI 'J' = 0) is written to the proximity flag memory 7.

【0015】 D2 (gI J ,gI ' J ' )= (gI J −gI ' J ' t (gI J −gI ' J ' ) (4) D2 (gI J ,gI ' J ' )<δ (I≠I’)のときRI J I ' J ' =1 (5) (I=I’)のときRI J I ' J ' =0 (6) D2 (gI J ,gI ' J ' )≧δ のときRI J I ' J ' =0 (7) 近接フラグメモリー7の内容を図4に示す。図4におい
て、各サブカテゴリー特徴ベクトル番号21、22をア
ドレスとし、23に示す近接フラグの値RIJI ' J '
データとするメモリーである。SI J とSI J ' のよう
な同一カテゴリーの場合は、近接フラグの値は0とな
り、SI J とSI ' J ' (I≠I’)のような異なった
カテゴリーについては、式(5)、(6)、(7)の条
件に基づいて、23に示す近接フラグRI J I ' J '
内容は定められ、近接フラグメモリー7に格納される。
D 2 (g IJ , g I 'J' ) = (g IJ -g I 'J' ) t (g IJ -g I 'J' ) (4) D 2 (g IJ , g I 'J) ' ) <Δ (I ≠ I') R IJI 'J' = 1 (5) When (I = I ') R IJI' J ' = 0 (6) D 2 (g IJ , g I' J ' ) ≧ δ R IJI' J ' = 0 (7) The contents of the proximity flag memory 7 are shown in FIG. In FIG. 4, the sub-category feature vector numbers 21 and 22 are used as addresses, and the proximity flag value R IJI 'J' shown as 23 is used as data. In the case of the same category such as SIJ and SIJ ' , the value of the proximity flag is 0. For different categories such as SIJ and SI'J ' (I ≠ I '), the expression (5) , (6) and (7), the contents of the proximity flag R IJI 'J' shown in 23 are determined and stored in the proximity flag memory 7.

【0016】次に判定頻度分布メモリー10の内容を図
5に示す。各サブカテゴリー特徴ベクトル番号24、2
5をアドレスとし、26に示す判定頻度数P
I J I ' J ' がデータとなる行列である。判定頻度分布
メモリー10としきい値レジスタ11は判定頻度分布制
御部9において制御され、判定部6において得られたサ
ブカテゴリー特徴ベクトル番号に基づきメモリーの内容
を制御する。
Next, the contents of the judgment frequency distribution memory 10 are shown in FIG. Each subcategory feature vector number 24, 2
5 is the address, and the determination frequency P shown in 26
IJI 'J' is a matrix for data. The judgment frequency distribution memory 10 and the threshold value register 11 are controlled by the judgment frequency distribution control unit 9, and control the contents of the memory based on the sub-category feature vector numbers obtained by the judgment unit 6.

【0017】第2の発明の文字読取装置における、予め
同一筆記者が記入した学習パターンから判定頻度分布を
求めるアルゴリズムは以下のようになる。同一筆記者が
記入した学習文字パターンが判定されたサブカテゴリー
特徴ベクトル番号をSI J とし、SI J で判定される文
字数のカウンターをqI J としたとき、step.1
判定頻度数PI J I ' J ' の各成分を初期化する。
In the character reading device of the second invention, an algorithm for obtaining a determination frequency distribution from a learning pattern previously written by the same writer is as follows. When the subcategory feature vector number in which the learning character pattern written by the same writer is determined is S IJ, and the counter of the number of characters determined by S IJ is q IJ , step. 1
Each component of the judgment frequency P IJI 'J' is initialized.

【0018】 PI J I ' J ' =0(I=1,・・・,M,J=1,・・・,L,I’=1, ・・・,M,J’=1,・・・,L) (8) step.2 カウンターの各成分を初期化する。P IJI 'J' = 0 (I = 1,..., M, J = 1,..., L, I ′ = 1,..., M, J ′ = 1 ,. , L) (8) step. 2 Initialize each component of the counter.

【0019】 qI J =0、rI J =0 (I=1,・・・,M,J=1,・・・,L) (9) step.3 同一筆記者が記入した学習文字パターン
集合の全ての文字について、特徴ベクトルと各サブカテ
ゴリー特徴ベクトル間の距離計算を式(1)に基づき行
い、距離値が最小となるサブカテゴリー特徴ベクトル番
号SI J としたとき、カウンターの値を加算する。
Q IJ = 0, r IJ = 0 (I = 1,..., M, J = 1,..., L) (9) step. 3. The distance between the feature vector and each subcategory feature vector is calculated based on equation (1) for all the characters in the set of learning character patterns written by the same writer, and the subcategory feature vector number S that minimizes the distance value is calculated. When IJ is set, add the value of the counter.

【0020】 qI J =qI J +1 (10) step.4 全学習文字パターンについてstep.
3を実行した後、カテゴリーの発生頻度とサブカテゴリ
ーの発生頻度の比をしきい値処理を行うことにより、r
I J の値を更新する。
Q IJ = q IJ +1 (10) step. 4 For all learning character patterns, step.
After executing step 3, the ratio between the frequency of occurrence of the category and the frequency of occurrence of the sub-category is subjected to threshold processing to obtain r
Update the value of IJ .

【0021】[0021]

【数1】 (Equation 1)

【0022】一人の筆記者の記入した学習文字につい
て、step.2からstep.4を実行する step.5 rI J =1 かつ rI ' J ' =1 のとき (I=1,・・・,M,J=1,・・・,L,I’=1,・・・ M,J’=1,・・・,L) PI J I ' J ' =1 (12) step.6 筆記者を変更した学習文字データベース
において、step.2からstep.5を実行する。
筆記者をα人としたとき、しきい値レジスタ11に設定
するしきい値θは式(13)によって求められる。
The learning characters entered by one scribe are written in step. 2 to step. Execute step 4. 5 When r IJ = 1 and r I 'J' = 1 (I = 1,..., M, J = 1,..., L, I ′ = 1,... M, J ′ = 1 ,..., L) P IJI 'J' = 1 (12) step. 6 In the learning character database in which the scribe is changed, step. 2 to step. Step 5 is executed.
When the number of writers is α, the threshold θ set in the threshold register 11 is obtained by Expression (13).

【0023】 θ=f(α) f:単調増加関数 (13) 第3の発明の文字読取装置における、帳票あるいは文書
の読取動作中に、未知入力文字パターンから判定頻度分
布を求めるアルゴリズムは以下のようになる。未知入力
文字パターンが判定されるサブカテゴリー特徴ベクトル
番号をSI J とし、SI J で判定される文字数のカウン
ターをqIJ としたとき、step.1 判定頻度数P
I J I ' J 'の各成分を初期化する。
Θ = f (α) f: monotonically increasing function (13) In the character reading device of the third invention, an algorithm for obtaining a determination frequency distribution from an unknown input character pattern during an operation of reading a form or document is as follows. Become like When the subcategory feature vector number for which an unknown input character pattern is determined is S IJ and the counter of the number of characters determined by S IJ is q IJ , step. 1 Judgment frequency P
Initialize each component of IJI 'J' .

【0024】 PI J I ' J ' =0(I=1,・・・,M,J=1,・・・,L,I’=1, ・・・,M,J’=1,・・・,L) (14) step.2 カウンターの各成分を初期化する。P IJI 'J' = 0 (I = 1,..., M, J = 1,..., L, I ′ = 1,..., M, J ′ = 1 ,. , L) (14) step. 2 Initialize each component of the counter.

【0025】 qI J =0、rI J =0 (I=1,・・・,M,J=1,・・・,L) (15) step.3 入力された帳票あるいは文書に記入され
た文字について、特徴ベクトルと各サブカテゴリー特徴
ベクトル間の距離計算を式(1)に基づき行い、距離値
が最小となるサブカテゴリー特徴ベクトル番号をSI J
としたとき、カウンターの値を加算する。
Q IJ = 0, r IJ = 0 (I = 1,..., M, J = 1,..., L) (15) step. 3. The distance between the feature vector and each subcategory feature vector is calculated based on equation (1) for the characters entered in the input form or document, and the subcategory feature vector number that minimizes the distance value is S IJ
Then, add the value of the counter.

【0026】 qI J =qI J +1 (16) step.4 全学習文字パターンについてstep.
3を実行した後、カテゴリーの発生頻度とサブカテゴリ
ーの発生頻度の比をしきい値処理を行うことにより、r
I J の値を更新する。
Q IJ = q IJ +1 (16) step. 4 For all learning character patterns, step.
After executing step 3, the ratio between the frequency of occurrence of the category and the frequency of occurrence of the sub-category is subjected to threshold processing to obtain r
Update the value of IJ .

【0027】[0027]

【数2】 (Equation 2)

【0028】入力された1枚の帳票あるいは文書に対し
て、step.2からstep.4を実行する。 step.5 rI J =1 かつ rI ' J ' =1 の
とき (I=1,・・・,M,J=1,・・・,L,I’=1,・・・ M,J’=1,・・・,L) PI J I ' J ' =1 (18) step.6 しきい値レジスタ11に設定するしきい
値θは式(19)によって求められる。
For one input form or document, step. 2 to step. Execute Step 4. step. 5 When r IJ = 1 and r I 'J' = 1 (I = 1,..., M, J = 1,..., L, I ′ = 1,... M, J ′ = 1 ,..., L) P IJI 'J' = 1 (18) step. 6 The threshold value θ to be set in the threshold value register 11 is obtained by Expression (19).

【0029】 θ=θ1 θ1 :定数 (19) 本発明の文字読取装置では、総合判定部12を有してお
り、従来、棄却処理を行っていた文字についても、判定
結果メモリー8に格納されている帳票あるいは文書全体
の判定結果情報を利用し、救済処理をすることにより読
取ることを可能とする。
Θ = θ 1 θ 1 : constant (19) The character reading apparatus of the present invention has the comprehensive judgment unit 12, and stores characters which have been subjected to rejection processing in the judgment result memory 8 in the past. It is possible to read by performing a rescue process using the determined result information of the completed form or the entire document.

【0030】第1の発明の文字読取装置における総合判
定部の処理を図6、7、8のフローを用いて説明する。
帳票あるいは文書上の全文字について認識処理を行い、
判定結果メモリー8に判定結果が格納されている段階に
おいて、処理28で第k文字目の判定フラグh( k )
チェックを行い、判定フラグが立っている(h( k )
1)ときは棄却を示しているため本処理の対象となる。
処理32において、第1候補カテゴリーCI 1 ( k )
第2候補カテゴリーCI 2 ( k )について近接フラグで
あるRI 1 J 1 I 2 J 2 のチェックを行う。近接フラグ
が立っていない(RI 1 J 1 I 2 J 2 =0)ときは次の
文字に処理を移し、近接フラグが立っている(R
I 1 J 1 I 2 J 2 =1)ときは他の文字の判定処理デー
タをサーチし、処理36において、第2候補カテゴリー
I 2 ( k ) と等しいカテゴリーが他の文字の第1候補
カテゴリーとして存在するかどうかチェックする。処理
38において、等しいカテゴリーが存在しかつ該当する
文字の近接フラグが立っていないとき(R
I 1 ' J 1 ' I 2 ' J 2 ' =0)、処理41においてカ
テゴリーCI 1 ( k ) に判定し、処理40において判定
フラグh( k ) をクリアする。上記以外の場合は判定フ
ラグが立っていないとき処理41においてカテゴリーを
I 1 (k ) に判定し、立っているときは処理46にお
いて棄却処理を行う。
The processing of the overall judgment section in the character reading apparatus of the first invention will be described with reference to the flowcharts of FIGS.
Performs recognition processing for all characters on a form or document,
At the stage where the determination result is stored in the determination result memory 8, the determination flag h (k) of the k-th character is checked in process 28, and the determination flag is set (h (k) =
Since 1) indicates rejection, it is subject to this processing.
In process 32, the first candidate category C I 1 (k) ,
The second candidate category C I 2 (k) a check is R I 1 J 1 I 2 J 2 is a proximity flag. If the proximity flag is not set (R I 1 J 1 I 2 J 2 = 0), the processing shifts to the next character, and the proximity flag is set (R
If I 1 J 1 I 2 J 2 = 1), the search processing data of another character is searched, and in a process 36, the category equal to the second candidate category C I 2 (k) is the first candidate category of another character. Check if it exists as. In the process 38, when the same category exists and the proximity flag of the corresponding character is not set (R
I 1 'J 1' I 2 'J 2' = 0), the process 41 determines the category C I 1 (k) , and the process 40 clears the determination flag h (k) . In cases other than the above, when the determination flag is not set, the category is determined to be C I 1 (k) in the processing 41, and when it is set, the rejection processing is performed in the processing 46.

【0031】次に、第2、第3の発明の文字読取装置に
おける総合判定部の処理を図9、10、11のフローを
用いて説明する。帳票あるいは文書上の全文字について
認識処理を行い、判定結果メモリー8に判定結果が格納
されている段階において、処理49で第k文字目の判定
フラグh( k ) のチェックを行い、判定フラグが立って
いる(h( k ) =1)ときは棄却を示しているため本処
理の対称となる。判定結果メモリー8内の他の文字の判
定処理データをサーチし、処理55において第2候補カ
テゴリーCI 2 ( k ) と等しいカテゴリーが他の文字の
第1候補カテゴリーとして存在するかどうかチェックす
る。等しいカテゴリーが存在した場合、その判定してい
る第1候補のサブカテゴリー特徴ベクトル番号と棄却を
示している文字の第1候補のサブカテゴリー特徴ベクト
ル番号に基づき判定頻度分布メモリー10を参照し、処
理59において判定頻度数PI 2 J 2 I 1 ' J 1 ' とし
きい値レジスタ11の内容であるしきい値θを比較し、 PI 2 J 2 I 1 ' J 1 ' ≦θ (20) のとき、処理61においてカテゴリーをCI 1 ( k )
判定し、処理60において判定フラグh( k ) をクリア
する。上記以外の場合は判定フラグが立っていないとき
処理61においてカテゴリーCI 1 ( k ) に判定し、判
定フラグが立っているときは処理66において棄却処理
を行う。
Next, the processing of the overall judgment section in the character reading apparatus according to the second and third aspects of the present invention will be described with reference to the flowcharts of FIGS. Recognition processing is performed for all characters on the form or document, and at the stage where the determination result is stored in the determination result memory 8, the determination flag h (k) for the k-th character is checked in processing 49, and the determination flag is determined. When standing (h (k) = 1), it indicates rejection, and this processing is symmetric. The judgment processing data of another character in the judgment result memory 8 is searched, and in a process 55, it is checked whether a category equal to the second candidate category C I 2 (k) exists as the first candidate category of another character. If the same category exists, the judgment frequency distribution memory 10 is referred to based on the subcategory feature vector number of the first candidate being determined and the subcategory feature vector number of the first candidate of the character indicating rejection, and processing is performed. At 59, the judgment frequency P I 2 J 2 I 1 'J 1' is compared with the threshold value θ which is the content of the threshold value register 11, and PI 2 J 2 I 1 'J 1' ≦ θ (20) At this time, in step 61, the category is determined to be C I 1 (k) , and in step 60, the determination flag h (k) is cleared. In cases other than the above, when the judgment flag is not set, judgment is made in the category C I 1 (k) in step 61, and when the judgment flag is set, rejection processing is performed in step 66.

【0032】図12において、第1の発明の文字読取装
置における読取結果の説明を、従来技術の読取結果と比
較しながら行う。図12の第2文字目68の字形は、カ
テゴリー1かカテゴリー7かあいまいであり、従来の文
字読取装置では棄却処理が行われ、従来技術の読取結果
は、棄却72となる。ところが、本発明の文字読取装置
では、帳票あるいは文書全体の文字情報に基づき読み取
ることが可能である。第4文字目70において、カテゴ
リー7と判定可能な字形が存在することにより、第4文
字目70の文字情報を用い第2文字目68の文字を再度
判定する。判定の方法としては、全ての文字の判定結果
が判定結果メモリー8に格納された段階において、第4
文字目の判定結果は棄却72となっており、処理29に
おける第1候補カテゴリーは1、第2候補カテゴリーは
7である。処理31における近接フラグはカテゴリー1
と7のサブカテゴリー特徴ベクトルベクトルは、カテゴ
リー1の字形82、カテゴリー7の字形85において接
近しているため、第1候補近接フラグ、第2候補近接フ
ラグは1となる。帳票もしくは文書上の他の文字の判定
結果で73に示す第2候補カテゴリー名である7と同一
カテゴリーが第1候補のカテゴリーとして存在するか否
か処理36において比較を行い、74に示す第4文字目
70において同一カテゴリーが第1候補カテゴリーに存
在する。処理39において字形84のサブカテゴリー特
徴ベクトルについては、特に近接する他のカテゴリーが
存在しないため、第1候補近接フラグ、第2候補近接フ
ラグは0となる。よって処理41おいて読取結果として
カテゴリーを1と強制判定すること可能である。
In FIG. 12, the reading result of the character reading apparatus of the first invention will be described while comparing it with the reading result of the prior art. The character shape of the second character 68 in FIG. 12 is ambiguous whether it is category 1 or category 7, and the rejection process is performed in the conventional character reading device, and the rejection result in the related art is rejection 72. However, with the character reading device of the present invention, it is possible to read based on the character information of a form or the entire document. Since the fourth character 70 has a character shape that can be determined as Category 7, the character of the second character 68 is determined again using the character information of the fourth character 70. As a determination method, when the determination results of all the characters are stored in the determination result memory 8, the fourth
The determination result of the character is rejection 72, and the first candidate category in the process 29 is 1 and the second candidate category is 7. The proximity flag in process 31 is category 1
Since the sub-category feature vector vectors of and are close to each other in the character shape 82 of category 1 and the character shape 85 of category 7, the first candidate proximity flag and the second candidate proximity flag become 1. In the processing 36, a comparison is made in the process 36 as to whether or not the same category as the second candidate category name 7 shown in 73 in the determination result of the other characters on the form or document exists as the first candidate category. In character 70, the same category exists as the first candidate category. In the processing 39, regarding the subcategory feature vector of the character shape 84, since there is no other category that is particularly close, the first candidate proximity flag and the second candidate proximity flag become 0. Therefore, it is possible to forcibly determine that the category is 1 as the reading result in the process 41.

【0033】図14において、第2、3の発明の文字読
取装置における読取結果の説明を、従来技術の読取結果
と比較しながら行う。図14の第2文字目76の字形
は、カテゴリー1かカテゴリー7かあいまいであり、従
来の文字読取装置では棄却処理が行われ、読取結果は、
棄却80となる。ところが、第2の発明の文字読取装置
では帳票あるいは文書全体の文字情報に基づき読み取る
ことが可能である。第4文字目78において、カテゴリ
ー7と明らかに判定可能な字形が存在することにより、
第4文字目78の文字情報を用い第2文字目76の文字
を再度判定する。判定の方法としては、全ての文字の判
定結果が判定結果メモリー8に格納された段階におい
て、第2文字目76の判定結果は棄却80となっている
が、処理50における第1候補カテゴリーは1、第2候
補カテゴリーは7であり、帳票もしくは文書上の他の文
字の判定結果で81に示す第2候補カテゴリーと同一カ
テゴリーが第1位のカテゴリーとして存在するか否か処
理55において比較を行い、82に示す第4文字目の判
定結果において同一カテゴリーである7が第1候補に存
在する。このとき第2文字目76の第1候補サブカテゴ
リー特徴ベクトル番号S1 2 と第4文字目78のサブカ
テゴリー特徴ベクトル番号S7 2 をアドレスとし、判定
頻度分布メモリーから処理57に示す判定頻度数P
1 2 7 1 をロードし、設定されたしきい値θとの比較を
行う。
Referring to FIG. 14, the reading result of the character reading apparatus according to the second and third aspects of the present invention will be described while comparing with the reading result of the prior art. The character shape of the second character 76 in FIG. 14 is ambiguous whether it is category 1 or category 7, and rejection processing is performed in the conventional character reading device, and the reading result is
It will be rejected 80. However, the character reading apparatus according to the second aspect of the present invention can read the form or the entire document based on the character information. In the fourth character 78, there is a character shape that can be clearly determined to be category 7,
The character of the second character 76 is determined again using the character information of the fourth character 78. As a determination method, at the stage when the determination results of all characters are stored in the determination result memory 8, the determination result of the second character 76 is rejection 80, but the first candidate category in the process 50 is 1 The second candidate category is 7, and in the process 55, a comparison is made as to whether or not the same category as the second candidate category indicated by 81 in the determination result of the other characters on the form or document exists as the first category. , 82, which is the same category in the determination result of the fourth character, exists as the first candidate. In this case the first candidate sub category feature vector number S 1 2 and address subcategories feature vector number S 7 2 of the fourth character 78 of the second character 76, the number of determination frequency indicating the determination frequency distribution memory to the processing 57 P
1 2 7 1 is loaded and compared with the set threshold value θ.

【0034】図15には、84のような字形をした、サ
ブカテゴリー特徴ベクトル番号S71 を基準とした、判
定頻度分布メモリーの内容PI J 7 1 (I=1,J=
1,・・・,L,L=4)について示している。図13
においてカテゴリー7の字形を字形84のように記入す
る筆記者は同一カテゴリー7の字形を別の場所に字形8
5、字形86のような異なった字形で記入する頻度は極
めて少ない。これは筆記者が文字を記入するときに、同
一のカテゴリーについての字形のばらつきは小さく同じ
ような字形を記入するという性質であり、本発明では、
この性質を利用する。処理59において、判定頻度数P
7 2 7 1 について、 P7 2 7 1 ≦θ (21) が成り立つことより、処理60において判定フラグをク
リアし、処理61において判定結果をC1 ( 2 ) 、カテ
ゴリー1と強制判定する。
FIG. 15 shows the contents P IJ 71 (I = 1, J = 1) of the judgment frequency distribution memory based on the sub-category feature vector number S71 having a character shape like 84.
1,..., L, L = 4). FIG.
The scribe who fills in the character shape of category 7 as character shape 84 in FIG.
5. The frequency of writing in different character shapes such as character shape 86 is extremely low. This is a property that when a scribe writes a character, the variance of the character shape for the same category is small and a similar character shape is entered.
Take advantage of this property. In process 59, the determination frequency P
Since P 7 27 1 ≤θ (21) holds for 7271, the determination flag is cleared in processing 60 and the determination result is forcibly determined to be C 1 (2) and category 1 in processing 61.

【0035】[0035]

【発明の効果】以上に説明したように、本発明によれ
ば、帳票上の前後に書かれている文字データの全体の情
報をもとに、筆記者の癖などを原因とする歪を吸収する
ことにより、複数のカテゴリーに類似した文字の読取が
可能である。また印刷文字のマルチフォント文字のよう
に、単独の文字では他のフォントの異なるカテゴリーと
同字形か存在し、読取できない場合のような全体の文字
字形から判定が必要な場合でも本発明の文字読取装置で
は読取が可能である。また、本発明では文字を対象とし
て説明を行ったが、画像、音声、図形を対象としても容
易に実現可能である。また、特徴ベクトルと認識辞書間
の近さを示す尺度としてユークリッド距離を用いて説明
を行ったが、他の距離(マハラノビス距離、シティブロ
ック距離など)、類似度(単純類似度、複合類似度な
ど)にも適用可能である。
As described above, according to the present invention, distortion caused by a writer's habit is absorbed based on the entire information of character data written before and after on a form. By doing so, it is possible to read characters similar to a plurality of categories. In addition, even when a single character, such as a multi-font character of a print character, has the same character shape as a different category of another font, and it is necessary to judge from the entire character character shape, such as when the character cannot be read, the character reading of the present invention is performed. The device can read. Although the present invention has been described with reference to characters, the present invention can be easily realized with respect to images, sounds, and graphics. Also, the explanation was made using the Euclidean distance as a measure indicating the closeness between the feature vector and the recognition dictionary, but other distances (Maharanobis distance, city block distance, etc.) and similarities (simple similarity, compound similarity, etc.) ) Is also applicable.

【図面の簡単な説明】[Brief description of the drawings]

【図1】第1、2、3の発明の文字読取装置の一実施例
を説明するためのブロック図。
FIG. 1 is a block diagram for explaining an embodiment of a character reading device according to first, second and third aspects of the present invention;

【図2】従来の文字読取装置の読取結果を説明するため
の図。
FIG. 2 is a diagram for explaining a reading result of a conventional character reading device.

【図3】第1、2、3の発明の文字読取装置の判定結果
メモリーの内容を説明するための図。
FIG. 3 is a diagram for explaining the contents of a determination result memory of the character reading device according to the first, second, and third inventions.

【図4】第1、2、3の発明の文字読取装置の近接フラ
グメモリーの内容を説明するための図。
FIG. 4 is a diagram for explaining the contents of a proximity flag memory of the character reading device according to the first, second, and third inventions.

【図5】第2、3の発明の文字読取装置の判定頻度分布
メモリーの内容を説明するための図。
FIG. 5 is a diagram for explaining the contents of a judgment frequency distribution memory of the character reading device according to the second and third inventions.

【図6】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
FIG. 6 is a part of a flow for explaining a process of a comprehensive judgment unit of the character reading device of the first invention.

【図7】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
FIG. 7 is a part of a flow for describing a process of a comprehensive judgment unit of the character reading device of the first invention.

【図8】第1発明の文字読取装置の総合判定部の処理に
ついて説明するためのフローの一部。
FIG. 8 is a part of a flow for describing a process of a comprehensive judgment unit of the character reading device of the first invention.

【図9】第2の発明の文字読取装置の総合判定部の処理
について説明するためのフローの一部。
FIG. 9 is a part of a flow for explaining a process of a comprehensive judgment unit of the character reading device of the second invention.

【図10】第2の発明の文字読取装置の総合判定部の処
理について説明するためのフローの一部。
FIG. 10 is a part of a flow for explaining a process of a comprehensive judgment unit of the character reading device of the second invention.

【図11】第2の発明の文字読取装置の総合判定部の処
理について説明するためのフローの一部。
FIG. 11 is a part of a flow for explaining a process of a comprehensive judgment unit of the character reading device of the second invention.

【図12】第1の発明の文字読取装置による文字読取結
果と従来技術による文字読取結果について比較説明する
ための図。
FIG. 12 is a diagram for comparing and explaining a character reading result by the character reading device of the first invention and a character reading result by the conventional technique.

【図13】第1、2、3の発明の文字読取装置で読取る
カテゴリー1とカテゴリー7の文字字形例について説明
するための図。
FIG. 13 is a view for explaining examples of character shapes of category 1 and category 7 which are read by the character reading apparatuses of the first, second and third inventions.

【図14】第2、3の発明の文字読取装置による文字読
取結果と従来技術による文字読取結果について比較説明
するための図。
FIG. 14 is a diagram for comparing and explaining a character reading result by the character reading device according to the second and third inventions and a character reading result by the conventional technique.

【図15】第2、3の発明の判定頻度分布メモリーに格
納されている分布の状態について説明するための図。
FIG. 15 is a diagram for explaining states of distributions stored in a judgment frequency distribution memory according to the second and third inventions.

【符号の説明】[Explanation of symbols]

1 スキャナ部 2 文字切り出し部 3 特徴抽出部 4 認識辞書部 5 距離計算部 6 判定部 7 近接フラグメモリー 8 判定結果メモリー 9 判定頻度分布制御部 10 判定頻度分布メモリー 11 しきい値レジスタ 12 総合判定部 13 判定結果 DESCRIPTION OF SYMBOLS 1 Scanner part 2 Character extraction part 3 Feature extraction part 4 Recognition dictionary part 5 Distance calculation part 6 Judgment part 7 Proximity flag memory 8 Judgment result memory 9 Judgment frequency distribution control part 10 Judgment frequency distribution memory 11 Threshold register 12 Comprehensive judgment part 13 Judgment result

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/03 G06K 9/62 G06K 9/68 G06K 9/72 ──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 6 , DB name) G06K 9/03 G06K 9/62 G06K 9/68 G06K 9/72

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 1つの文字カテゴリーに対して複数のサ
ブカテゴリーの特徴ベクトルを格納する認識辞書を有
し、入力文字パターンの特徴ベクトルと認識辞書の各サ
ブカテゴリーの特徴ベクトル間の距離値に基づきカテゴ
リーの判定処理を行う個別文字認識手段を用い、帳票あ
るいは文書上の文字を読取る文字読取装置において、入力文字パターンの特徴ベクトルと認識辞書の各サブカ
テゴリー特徴ベクトル間の距離値が第1位、第2位に小
さい 第1候補、第2候補のカテゴリ名、距離値の第1候
補、第2候補のカテゴリー名、サブカテゴリー特徴ベク
トル番号、および読取るか棄却するかを示す判定フラグ
を記憶する判定結果メモリーと、前記判定フラグが第i
文字目が棄却を示しているとき、第i文字目の第1、第
2候補カテゴリーに近接フラグが立っていないときは、
前記第i文字目を読取不能として次の文字に処理を移
し、近接フラグが立っているときは、前記第i文字目の
第2候補カテゴリーと同一カテゴリーが他の判定済みの
文字の第1候補カテゴリーとして存在するかを比較する
ためにサブカテゴリー特徴ベクトル間の距離値の小さい
サブカテゴリー対に近接フラグを立て記憶する近接フラ
グメモリーと、同一筆記者から求めた認識辞書における
各サブカテゴリー特徴ベクトルの判定頻度を予め記憶す
る判定頻度分布メモリーと、1枚分の帳票の判定処理が
終了した後、第i文字目が棄却を示しているとき、第i
文字目の第2候補カテゴリーと同一カテゴリーが他の判
定済みの文字の第1候補カテゴリーとして存在するか比
較を行い、 帳票あるいは文書上の第j文字目に同一カテゴリーが存
在したとき、第i文字目の第2候補のサブカテゴリー特
徴ベクトル番号、第j文字目の第1候補のサブカテゴリ
ー特徴ベクトル番号に基づき前記判定頻度分布メモリー
を参照し、判定頻度がしきい値以下のとき、第i文字目
の第1候補カテゴリーを判定結果とし、棄却文字を再度
強制判定する強制文字判定手段とを有することを特徴と
する文字読取装置。
1. A recognition dictionary for storing feature vectors of a plurality of subcategories for one character category, based on a distance value between a feature vector of an input character pattern and a feature vector of each subcategory of the recognition dictionary. In a character reading device that reads characters on a form or a document by using an individual character recognizing unit that performs category determination processing, a feature vector of an input character pattern and each sub-card of a recognition dictionary are used.
Distance value between categorical feature vectors is 1st and 2nd
Sai first candidate, category name of the second candidate, the first candidate distance values, category name of the second candidate, and the determination result memory for storing a determination flag indicating whether to reject or subcategory feature vector number, and read, If the determination flag is i-th
When the character indicates rejection, the first and
2 If the proximity flag is not set for the candidate category,
The i-th character is determined to be unreadable and the process proceeds to the next character.
When the proximity flag is on, the i-th character
The same category as the second candidate category has already been judged
Compare whether the character exists as the first candidate category
Determining the frequency for storing in advance determined frequency of each sub-category feature vectors in the sub-category, wherein a proximity flag memory for storing sets a proximity flag on smaller sub-category pair of distance values between the vectors, the recognition dictionary determined from the same writer to After the determination processing of the distribution memory and one sheet has been completed, if the i-th character indicates rejection, the i-th character
A comparison is made as to whether the same category as the second candidate category of the character exists as the first candidate category of another determined character. When the same category exists as the jth character on the form or document, the i-th character The judgment frequency distribution memory is referred to based on the subcategory feature vector number of the second candidate of the eye and the subcategory feature vector number of the first candidate of the jth character. A character reading device comprising: forced character determination means for forcibly determining a rejected character again using a first candidate category of an eye as a determination result.
【請求項2】 判定頻度分布メモリーにおいて、帳票あ
るいは文字の読取動作中に判定頻度分布メモリーの内容
を更新することを特徴とする請求項記載の文字読取装
置。
2. A determination frequency distribution memory, a character reader according to claim 1, wherein updating the contents of the determination frequency distribution memory during a read operation of the form or character.
JP3225753A 1991-09-05 1991-09-05 Character reader Expired - Lifetime JP2906758B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3225753A JP2906758B2 (en) 1991-09-05 1991-09-05 Character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3225753A JP2906758B2 (en) 1991-09-05 1991-09-05 Character reader

Publications (2)

Publication Number Publication Date
JPH0567238A JPH0567238A (en) 1993-03-19
JP2906758B2 true JP2906758B2 (en) 1999-06-21

Family

ID=16834288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3225753A Expired - Lifetime JP2906758B2 (en) 1991-09-05 1991-09-05 Character reader

Country Status (1)

Country Link
JP (1) JP2906758B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002074262A (en) * 2000-08-28 2002-03-15 Nippon Digital Kenkyusho:Kk Method for correcting recognition character
JP6170860B2 (en) * 2014-03-25 2017-07-26 株式会社日立情報通信エンジニアリング Character recognition device and identification function generation method

Also Published As

Publication number Publication date
JPH0567238A (en) 1993-03-19

Similar Documents

Publication Publication Date Title
Bissacco et al. Photoocr: Reading text in uncontrolled conditions
US8224092B2 (en) Word detection method and system
KR100658119B1 (en) Apparatus and Method for Recognizing Character
US7327883B2 (en) Character recognition system and method
US7336827B2 (en) System, process and software arrangement for recognizing handwritten characters
US5787197A (en) Post-processing error correction scheme using a dictionary for on-line handwriting recognition
KR100412317B1 (en) Character recognizing/correcting system
KR19980018029A (en) Character recognition device
Elms et al. The advantage of using an HMM-based approach for faxed word recognition
CN104951781B (en) Character recognition device and recognition function generation method
Malakar et al. A holistic approach for handwritten Hindi word recognition
JP2000315247A (en) Character recognizing device
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
JPH11203415A (en) Device and method for preparing similar pattern category discrimination dictionary
JP2906758B2 (en) Character reader
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
Kumar et al. Line based robust script identification for indianlanguages
CN115311666A (en) Image-text recognition method and device, computer equipment and storage medium
Dhandra et al. On Separation of English Numerals from Multilingual Document Images.
Koga et al. Segmentation of Japanese handwritten characters using peripheral feature analysis
JP2751865B2 (en) String recognition device
Hebert et al. Writing type and language identification in heterogeneous and complex documents
Pourreza et al. Persian OCR with Cascaded Convolutional Neural Networks Supported by Language Model
JP3374762B2 (en) Character recognition method and apparatus
Saabni Boosting feature based classifiers for writer identification