JP2000251015A - Method and device for discriminating similar character and storage medium recording similar character discrimination program - Google Patents

Method and device for discriminating similar character and storage medium recording similar character discrimination program

Info

Publication number
JP2000251015A
JP2000251015A JP11052844A JP5284499A JP2000251015A JP 2000251015 A JP2000251015 A JP 2000251015A JP 11052844 A JP11052844 A JP 11052844A JP 5284499 A JP5284499 A JP 5284499A JP 2000251015 A JP2000251015 A JP 2000251015A
Authority
JP
Japan
Prior art keywords
character
height
pattern
similar
uppercase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11052844A
Other languages
Japanese (ja)
Inventor
Koji Kurokawa
浩司 黒川
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11052844A priority Critical patent/JP2000251015A/en
Publication of JP2000251015A publication Critical patent/JP2000251015A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a similar character discriminating method capable of exactly discriminating similar characters while flexibly dealing with a document mixing various fonts or emphasized expressions. SOLUTION: Concerning a character recognizing device provided with a pattern recognizing means for recognizing respective characters described on an original on the basis of character patterns, it is discriminated whether the height of respective character patterns is uniform or not by receiving a character pattern stream corresponding to character strings within a prescribed range including similar characters and the recognized result of the pattern recognizing means, when there is a dispersion in the height of character patterns, the similar characters are discriminated by classification into a capital letter class and a small letter class with discrimination analysis concerning the height of character patterns and when the height of character patterns is uniform, the fixed characters included in the recognized result are classified into prescribed letter types. Then, similar characters are discriminated corresponding to the result of comparison between the height of the character pattern corresponding to the similar characters and the height of the character pattern classified into the prescribed letter type.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文書ファイルシス
テムなどに備えられる文字認識装置に関し、特に、相似
形の文字パターンで表されているために、判別が困難な
相似文字を判別する技術に関するものである。例えば、
英大文字の「C」と英小文字の「c」やひらがな大文字
の「つ」とひらがな小文字の「っ」のように、大文字と
小文字とがほぼ相似形の文字パターンによって表されて
いる文字(以下、相似文字と称する)は、パターン辞書
などを用いたパターンマッチング技術のみでは、認識結
果を確定することができない。このため、パターンマッ
チングによる文字認識とは別途に、大文字か小文字かを
判別する技術が必要とされている。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition device provided in a document file system and the like, and more particularly to a technique for determining a similar character which is difficult to determine because it is represented by a similar character pattern. It is. For example,
Characters whose uppercase and lowercase characters are represented by character patterns that are almost similar, such as uppercase “C” and lowercase “c” and lowercase “tsu” and lowercase “tsu” (hereinafter referred to as “hi”). , And similar characters), the recognition result cannot be determined only by a pattern matching technique using a pattern dictionary or the like. For this reason, there is a need for a technique for distinguishing between uppercase and lowercase, in addition to character recognition by pattern matching.

【0002】[0002]

【従来の技術】相似文字について、大文字であるか小文
字であるかを判別するための技法として、特開平3−1
11983号公報「類似文字識別方法」が提案されてい
る。図10に、特開平3−111983号公報記載の技
法による相似文字識別方法を適用した文字認識装置の構
成例を示す。
2. Description of the Related Art As a technique for determining whether a similar character is uppercase or lowercase, Japanese Unexamined Patent Publication No.
Japanese Patent Application Publication No. 11983, “Similar character identification method” has been proposed. FIG. 10 shows an example of the configuration of a character recognition device to which a similar character identification method according to the technique described in Japanese Patent Application Laid-Open No. 3-111983 is applied.

【0003】図10に示したパターン認識部402は、
原稿読取部401が原稿から読み取った画像データか
ら、個々の文字に対応する文字パターンを切り出し、こ
の文字パターンをパターン辞書403に登録された標準
文字パターンとを照合することにより各文字を認識する
構成となっている。また、図10において、相似文字抽
出部404は、このパターン認識部402によって相似
文字を示す認識結果が得られた場合に、該当する文字パ
ターンを相似文字判定部410に送出し、これに応じ
て、この相似文字判定部410が、後述する判定処理を
行う構成となっている。
[0003] The pattern recognition unit 402 shown in FIG.
A configuration in which the document reading unit 401 cuts out a character pattern corresponding to each character from the image data read from the document, and recognizes each character by comparing the character pattern with a standard character pattern registered in the pattern dictionary 403. It has become. In FIG. 10, when the similar character extracting unit 404 obtains a recognition result indicating a similar character by the pattern recognizing unit 402, the similar character extracting unit 404 sends the corresponding character pattern to the similar character determining unit 410, and accordingly, The similar character determination unit 410 performs a determination process described later.

【0004】また、図10において、出力処理部405
は、相似文字判定部410によって得られた判定結果を
受け取り、この判定結果を認識結果に含めて文書ファイ
ルシステムに送出する構成となっている。この相似文字
判定部410において、空白比算出部411は、パター
ン認識部402から受け取った標準行幅に対して、判定
対象の文字を表す文字パターンの空白部分の幅が占める
割合を求め、比較器412の処理に供する構成となって
いる。
In FIG. 10, an output processing unit 405
Is configured to receive a determination result obtained by the similar character determination unit 410, include the determination result in the recognition result, and send the result to the document file system. In the similar character determination unit 410, the blank ratio calculation unit 411 calculates the ratio of the width of the blank portion of the character pattern representing the character to be determined to the standard line width received from the pattern recognition unit 402, and 412.

【0005】この比較器412は、得られた空白比を所
定の閾値TH1 と比較し、空白比がこの閾値TH1 以上であ
る場合に小文字である旨の判定結果を出力し、空白比が
閾値TH1 以下である場合に大文字である旨の判定結果を
出力する構成とすればよい。ここで、図11に示すよう
に、フォントおよびポイント数が同一であれば、大文字
に対応する上側空白dlと小文字に対応する上側空白dsと
は大きく異なっているから、標準行幅Dに対して、判別
対象の文字に対応する上側空白dが占める割合に基づい
て、その文字が大文字であるか小文字であるかを容易に
判別することができる。
The comparator 412 compares the obtained blank ratio with a predetermined threshold value TH1, and outputs a determination result indicating that a lowercase letter is present when the blank ratio is equal to or greater than the threshold value TH1. In the case of the following, a configuration may be adopted in which a determination result indicating that the character is a capital letter is output. Here, as shown in FIG. 11, if the font and the number of points are the same, the upper space dl corresponding to uppercase letters and the upper space ds corresponding to lowercase letters are significantly different. It is possible to easily determine whether the character is uppercase or lowercase based on the ratio of the upper space d corresponding to the character to be determined.

【0006】[0006]

【発明が解決しようとする課題】ところで、ワードプロ
セッサなどの普及に従って、文字認識装置の認識対象と
なる文書の多様化が進み、多数のフォントの切り替えや
斜体文字および太字などの強調表現を駆使した多彩な表
現技法が用いられるようになっている。このような様々
なフォントや強調表現が混在する文書においては、大文
字を表す文字パターンに対応する上側空白dlと標準行幅
Dとの比が上述した所定の閾値TH1 を超える場合や、逆
に、小文字を表す文字パターンに対応する上側空白dsと
標準行幅Dとの比が上述した所定の閾値TH1 を下回る場
合が考えられる。
By the way, with the spread of word processors and the like, diversification of documents to be recognized by the character recognition device has progressed, and a variety of fonts have been switched, and a variety of fonts using emphasized expressions such as italic characters and bold characters have been used. Various expression techniques have come to be used. In such a document in which various fonts and emphasized expressions are mixed, when the ratio between the upper space dl corresponding to the character pattern representing an uppercase letter and the standard line width D exceeds the above-described predetermined threshold TH1, or conversely, It is conceivable that the ratio between the upper blank space ds corresponding to the character pattern representing lowercase letters and the standard line width D is lower than the above-mentioned predetermined threshold value TH1.

【0007】しかしながら、上述した従来の大小文字判
定方法は、判別対象の文字についての空白比と固定の閾
値TH1 との比較結果に基づいて判別しているため、この
ような文書に含まれる相似文字の全てを正確に判別する
ことは困難である。本発明は、様々なフォントや強調表
現が混在する文書に柔軟に対応し、相似文字を正確に判
定可能な相似文字判別方法および相似文字判別装置並び
に、相似文字判別プログラムを記録した記憶媒体を提供
することを目的とする。
However, in the above-described conventional case determination method, since the determination is made based on the comparison result between the blank ratio of the character to be determined and the fixed threshold value TH1, similar characters included in such a document are used. Is difficult to determine accurately. The present invention provides a similar character discrimination method and a similar character discrimination device capable of flexibly coping with a document in which various fonts and emphasized expressions are mixed and accurately determining similar characters, and a storage medium storing a similar character discrimination program. The purpose is to do.

【0008】[0008]

【課題を解決するための手段】図1に、本発明の相似文
字判別方法の原理を示す。請求項1の発明は、原稿から
読み取られた文字パターンに基づいて原稿に記載された
各文字を認識するパターン認識手段を備えた文字認識装
置において、相似形の文字パターンによって大文字と小
文字とが表される相似文字を含む所定の範囲の文字列に
対応する文字パターン列と、パターン認識手段によって
文字パターン列について行われた認識結果とを受け取
り、文字パターン列に含まれる文字パターンの高さが一
様であるか否かを判定し、文字パターン列に含まれる文
字パターンの高さにばらつきがある場合に、文字パター
ン列に含まれる文字パターンの高さについての判別分析
によって、大文字に相当する高さを持つ大文字クラスと
小文字に相当する高さを持つ小文字クラスとに分類し、
相似文字についての分類結果に基づいて、相似文字の認
識結果を決定し、文字パターン列に含まれる文字パター
ンの高さが一様である場合は、認識結果に含まれる確定
済みの文字について、文字パターンの高さ方向における
分布の特徴が異なる複数の文字型に分類し、相似文字に
対応する文字パターンの高さと、複数の文字型に分類さ
れた確定済みの文字に対応する文字パターンの高さとの
比較結果に応じて、相似文字に対応する認識結果を決定
することを特徴とする。
FIG. 1 shows the principle of a similar character discriminating method according to the present invention. According to a first aspect of the present invention, there is provided a character recognition apparatus including a pattern recognition unit for recognizing each character written on a document based on a character pattern read from the document. A character pattern string corresponding to a predetermined range of character strings including similar characters to be recognized and a recognition result performed on the character pattern string by the pattern recognition unit are received, and the height of the character pattern included in the character pattern string is one. Is determined, and if the heights of the character patterns included in the character pattern string vary, the height equivalent to the capital letters is determined by discriminant analysis of the height of the character pattern included in the character pattern string. Class into uppercase classes with heights and lowercase classes with heights equivalent to lowercase,
The similar character recognition result is determined based on the similar character classification result, and if the height of the character pattern included in the character pattern string is uniform, the character is determined for the determined character included in the recognition result. Classification into multiple character types with different distribution characteristics in the height direction of the pattern, the height of character patterns corresponding to similar characters, and the height of character patterns corresponding to confirmed characters classified into multiple character types Is characterized in that a recognition result corresponding to a similar character is determined according to the comparison result.

【0009】請求項1の発明は、相似文字を含む文字列
を表す文字パターンの高さにばらつきがある場合に、文
字の高さに注目した判別分析を行い、文字集合に含まれ
る各文字を大文字クラスと小文字クラスとに分類するこ
とにより、文字集合に含まれる全ての文字の高さを利用
して、判別対象の相似文字が大文字であるか小文字であ
るかを判別することができる。
According to the first aspect of the present invention, when there is a variation in the height of a character pattern representing a character string including similar characters, discriminant analysis is performed by focusing on the character height, and each character included in the character set is determined. By classifying into uppercase and lowercase classes, it is possible to determine whether similar characters to be determined are uppercase or lowercase using the heights of all characters included in the character set.

【0010】また、文字パターンの高さが一様である場
合は、文字集合に属する文字のうち、大文字の高さある
いは小文字の高さの基準となる文字型に分類された文字
の高さを利用して、相似文字を個別に判別することがで
きる。図2に、本発明の相似文字判別装置の原理ブロッ
ク図を示す。請求項2の発明は、原稿から読み取られた
文字パターンに基づいて原稿に記載された各文字を認識
するパターン認識手段101を備えた文字認識装置にお
いて、相似形の文字パターンによって大文字と小文字と
が表される相似文字を含む所定の範囲の文字列に対応す
る文字パターン列と、パターン認識手段101によって
文字パターン列について行われた認識結果とを受け取っ
て入力する文字集合入力手段111と、文字パターン列
に含まれる各文字パターンの高さが一様であるか否かを
判定する高さ分布判定手段112と、各文字パターンの
高さにばらつきがある旨の判定結果に応じて、文字パタ
ーン列に含まれる文字パターンの高さについての判別分
析によって、大文字に相当する高さを持つ大文字クラス
と小文字に相当する高さを持つ小文字クラスとに分類
し、この分類結果に基づいて、判別対象となる相似文字
の認識結果を決定する判別分析処理手段113と、各文
字パターンの高さが一様である旨の判定結果に応じて、
認識結果に含まれる確定済みの文字について、文字パタ
ーンの高さ方向における分布の特徴が異なる複数の文字
型に分類する分類手段114と、相似文字に対応する文
字パターンの高さと、複数の文字型に分類された確定済
みの文字に対応する文字パターンの高さとに基づいて、
相似文字それぞれに対応する認識結果を個別に決定する
個別判定手段115とを備えたことを特徴とする。
If the height of the character pattern is uniform, the height of a character belonging to a character type that is a reference for the height of uppercase letters or lowercase letters among characters belonging to a character set is determined. Utilization can be used to distinguish similar characters individually. FIG. 2 shows a principle block diagram of the similar character discriminating apparatus of the present invention. According to a second aspect of the present invention, there is provided a character recognition apparatus including a pattern recognition unit for recognizing each character written on a document based on a character pattern read from the document. A character set input unit 111 for receiving and inputting a character pattern string corresponding to a predetermined range of character strings including similar characters to be represented and a recognition result performed on the character pattern string by the pattern recognition unit 101; A height distribution determining unit 112 for determining whether the height of each character pattern included in the column is uniform, and a character pattern sequence according to a determination result that the height of each character pattern varies. Based on the discriminant analysis of the height of the character pattern included in, the uppercase class with the height equivalent to uppercase and the height equivalent to lowercase A classification analysis processing unit 113 that classifies the character patterns into character classes and determines a recognition result of similar characters to be determined based on the classification result; and a determination unit that determines that the height of each character pattern is uniform. hand,
A classification unit 114 for classifying the determined characters included in the recognition result into a plurality of character types having different distribution characteristics in the height direction of the character pattern; a height of the character pattern corresponding to the similar character; Based on the height of the character pattern corresponding to the confirmed character classified into
And an individual determination unit for individually determining a recognition result corresponding to each similar character.

【0011】請求項2の発明は、高さ分布判定手段11
2による判定結果に応じて、判別分析処理手段113あ
るいは分類手段114および個別判定手段115が動作
することにより、文字集合入力手段111を介してパタ
ーン認識手段101から受け取った一連の文字パターン
の高さの分布の特徴を利用して、この文字集合に含まれ
る相似文字を判別することができる。
According to a second aspect of the present invention, a height distribution determining means is provided.
2 operates the discriminant analysis processing means 113 or the classification means 114 and the individual judgment means 115 in response to the height of a series of character patterns received from the pattern recognition means 101 via the character set input means 111. Utilizing the characteristics of the distribution, similar characters included in this character set can be determined.

【0012】請求項3の発明は、原稿から読み取られた
文字パターンに基づいて原稿に記載された各文字を認識
するパターン認識手段101を備えた文字認識装置にお
いて、相似形の文字パターンによって大文字と小文字と
が表される相似文字を含む所定の範囲の文字列に対応す
る文字パターン列と、パターン認識手段101によって
文字パターン列について行われた認識結果とを受け取っ
て入力する文字集合入力手順と、文字パターン列に含ま
れる各文字パターンの高さが一様であるか否かを判定す
る高さ分布判定手順と、各文字パターンの高さにばらつ
きがある旨の判定結果に応じて、文字パターン列に含ま
れる文字パターンの高さについての判別分析によって、
大文字に相当する高さを持つ大文字クラスと小文字に相
当する高さを持つ小文字クラスとに分類し、この分類結
果に基づいて、判別対象となる相似文字の認識結果を決
定する判別分析処理手順と、各文字パターンの高さが一
様である旨の判定結果に応じて、認識結果に含まれる確
定済みの文字について、文字パターンの高さ方向におけ
る分布の特徴が異なる複数の文字型に分類する分類手順
と、相似文字に対応する文字パターンの高さと、複数の
文字型に分類された確定済みの文字に対応する文字パタ
ーンの高さとに基づいて、相似文字それぞれに対応する
認識結果を個別に決定する個別判定手順とをコンピュー
タに実行させることを特徴とする。
According to a third aspect of the present invention, there is provided a character recognition apparatus provided with a pattern recognition means for recognizing each character written on a document based on a character pattern read from the document. A character set inputting step of receiving and inputting a character pattern string corresponding to a predetermined range of character strings including similar characters represented by lowercase letters and a recognition result performed on the character pattern string by the pattern recognition means 101; A height distribution determination procedure for determining whether or not the height of each character pattern included in the character pattern string is uniform, and a character pattern according to a determination result that the height of each character pattern varies. By discriminant analysis on the height of the character pattern included in the column,
Classification into uppercase class with height equivalent to uppercase and lowercase class with height equivalent to lowercase, and based on this classification result, a discriminant analysis processing procedure to determine the recognition result of similar characters to be discriminated. According to the determination result that the height of each character pattern is uniform, the determined characters included in the recognition result are classified into a plurality of character types having different distribution characteristics in the height direction of the character pattern. Based on the classification procedure, the height of the character pattern corresponding to the similar character, and the height of the character pattern corresponding to the determined character classified into a plurality of character types, individually recognize the recognition result corresponding to each similar character. The individual determination procedure to be determined is executed by a computer.

【0013】請求項3の発明は、高さ分布判定手順にお
ける判定結果に応じて、判別分析処理手順あるいは分類
手順および個別判定手順を実行することにより、文字集
合入力手順によりパターン認識手段101から受け取っ
た一連の文字パターンの高さの分布の特徴を利用して、
この文字集合に含まれる相似文字を判別することができ
る。
According to a third aspect of the present invention, a discriminant analysis processing procedure, a classification procedure, and an individual determination procedure are executed in accordance with a determination result in the height distribution determination procedure, so that a pattern is received from the pattern recognition means 101 by a character set input procedure. Utilizing the height distribution characteristics of a series of character patterns
Similar characters included in this character set can be determined.

【0014】[0014]

【発明の実施の形態】以下、図面に基づいて、本発明の
実施形態について詳細に説明する。図3に、本発明の相
似文字判別装置を適用した文字認識装置の構成を示す。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 3 shows a configuration of a character recognition device to which the similar character discrimination device of the present invention is applied.

【0015】図3に示した文字認識装置において、パタ
ーン認識部402は、原稿読取部401によって読み取
られた画像データに含まれる文字パターンを順次に切り
出して、パターン辞書403との照合結果に基づいて文
字を認識し、得られた認識結果を相似文字判別装置21
0を介して、文書ファイルシステム(図示せず)などに
送出する構成となっている。
In the character recognition apparatus shown in FIG. 3, a pattern recognition unit 402 sequentially cuts out character patterns included in image data read by the document reading unit 401 and based on a result of comparison with a pattern dictionary 403. Characters are recognized, and the obtained recognition result is used as a similar character discriminating device 21
0 to a document file system (not shown) or the like.

【0016】図3に示した相似文字判別装置210にお
いて、文字列入力部211は、請求項2で述べた文字集
合入力手段111に相当するものであり、原稿上の所定
の範囲に対応する一連の文字パターンのおよび認識結果
をパターン認識部402から受け取り、文字型判別部2
12および高さ分布評価部213の処理に供する構成と
なっている。
In the similar character discriminating device 210 shown in FIG. 3, the character string input section 211 corresponds to the character set input means 111 described in claim 2, and is a sequence corresponding to a predetermined range on the document. Of the character pattern and the recognition result from the pattern recognition unit 402,
12 and a configuration used for processing by the height distribution evaluation unit 213.

【0017】この文字列入力部211は、例えば、後に
追加開示項6において述べる文字集合入力手段111と
して動作し、原稿上の各行に対応する一連の文字パター
ンおよび認識結果を順次に判別対象として入力する構成
とすればよい。この文字型判別部212は、請求項2で
述べた文字型判別手段114に相当するものであり、文
字列入力部211から受け取った1行分の認識結果に属
する各文字が、図4に示す文字型のどれに属するかを判
別し、判別結果を判別制御部214の処理に供する構成
となっている。
The character string input unit 211 operates as, for example, a character set input unit 111 which will be described later in the additional disclosure item 6, and sequentially inputs a series of character patterns and recognition results corresponding to each line on the document as a determination target. The configuration may be such that The character type discriminating unit 212 corresponds to the character type discriminating unit 114 described in claim 2, and each character belonging to the recognition result for one line received from the character string input unit 211 is shown in FIG. It is configured to determine to which of the character types it belongs and to provide the determination result to the processing of the determination control unit 214.

【0018】図4(a)に示したように、英字についての
相似文字型は、大文字と小文字との組が互いに相似な文
字パターンによって表される文字が属する型であり、例
えば、英大文字の「C,O,S,U,V,W,X,Z」
および英小文字の「c,o,s,u,v,w,x,z」
を含んでいる。また、大文字型は、大文字の上側接線お
よび下側接線としてそれぞれ与えられる大文字線および
基準線の双方に接し、大文字と小文字との組が互いに異
なる文字パターンによって表される文字が属する型であ
り、例えば、英大文字の「A,B,D,E,F,G,
H,K,L,M,N,R,T,Y」および英小文字の
「b,d,f,h,k」を含んでいる。
As shown in FIG. 4 (a), the similar character type for an alphabetic character is a type to which characters represented by a character pattern in which a set of uppercase and lowercase characters are similar to each other belong, for example, "C, O, S, U, V, W, X, Z"
And lowercase letters "c, o, s, u, v, w, x, z"
Contains. In addition, the uppercase type is a type to which a character that is in contact with both an uppercase line and a base line respectively given as an upper tangent and a lower tangent of an uppercase letter, and whose uppercase and lowercase letters are represented by different character patterns, For example, the uppercase letters "A, B, D, E, F, G,
H, K, L, M, N, R, T, Y "and lowercase letters" b, d, f, h, k ".

【0019】一方、小文字型は、小文字の上側接線とし
て与えられる小文字線と上述した基準線との双方に接
し、大文字と小文字とが互いに異なる文字パターンによ
って表される文字が属する型であり、例えば、英小文字
の「a,e,m,n,r」を含んでいる。また、中文字
型は、上述した基準線に接し、文字パターンの上端が小
文字線と大文字線との中間にある文字が属する型であ
り、例えば、英小文字の「i,t」を含んでいる。
On the other hand, the lower case type is a type to which a character which is in contact with both a lower case line given as an upper tangent of a lower case and the above-mentioned reference line and whose upper case and lower case are represented by character patterns different from each other belongs. , Lowercase letters “a, e, m, n, r”. The middle character type is a type to which a character which is in contact with the above-mentioned reference line and whose upper end of the character pattern is located between a lower case line and an upper case line belongs to, and includes, for example, lowercase letters "i, t". .

【0020】一方、英大文字の「Q」のように、大文字
線に接し、基準線の下側に文字パターンが突き出してい
る文字は下大文字型に属し、英小文字の「q、y」のよ
うに、小文字線に接し、基準線の下側に文字パターンが
突き出している文字は下小文字型に属しており、また、
英小文字の「g、j」のように、文字パターンの上端が
小文字線と大文字線との中間にあり、基準線の下側に文
字パターンが突き出している文字は下中文字型に属して
いる。
On the other hand, a character that is in contact with an uppercase line and has a character pattern protruding below the reference line, such as an uppercase letter “Q”, belongs to the lowercase uppercase type and is represented by a lowercase letter “q, y”. In addition, characters that touch the lowercase line and have a character pattern protruding below the reference line belong to the lowercase type,
Characters whose upper end of the character pattern is halfway between the lowercase and uppercase lines and whose character pattern protrudes below the base line, such as the lowercase letter “g, j”, belong to the lower middle character type .

【0021】なお、英小文字の「p」および英大文字の
「P」は特殊相似文字型とし、この方に属する文字につ
いて大文字か小文字かを判定する際には、英小文字の
「p」の基準線より上側の部分の高さを文字の高さとす
ればよい。一方、英大文字の「I,J」および小文字の
「l」は、文字型の推定制度が低いため対象除外型と
し、これらの文字は後述する判別処理には利用しない。
Note that the lowercase letter “p” and the uppercase letter “P” are of a special similar character type, and when determining whether a character belonging to this is uppercase or lowercase, the base line of the lowercase letter “p” is determined. The height of the upper part may be the height of the character. On the other hand, the uppercase letters “I, J” and the lowercase “l” are of the target exclusion type because the character type estimation system is low, and these characters are not used in the discrimination processing described later.

【0022】また、図3において、高さ分布評価部21
3は、文字列入力部211から受け取った1行分の文字
パターンに基づいて、該当する行に含まれる各文字の文
字高さおよびその分布範囲を求め、得られた分布範囲を
各文字の文字高さを示す高さ情報とともに判別制御部2
14の処理に供する構成となっている。図3に示した判
別制御部214は、上述した文字型判別部212による
判別結果と高さ分布評価部213によって得られた文字
パターンの高さの分布範囲とに基づいて、判別分析処理
部215、高さ判定処理部216および高さ比判定処理
部217の動作を制御し、これらの各部で得られた判別
結果によって文字列入力部211を介して受け取ったパ
ターン認識結果に含まれる相似文字についての認識結果
を確定し、認識結果として文書ファイルシステム(図示
せず)などに送出する構成となっている。
In FIG. 3, a height distribution evaluator 21 is provided.
3 obtains the character height and distribution range of each character included in the corresponding line based on the character pattern for one line received from the character string input unit 211, and calculates the obtained distribution range as the character range of each character. Discrimination control unit 2 together with height information indicating the height
14 is provided. The discrimination control unit 214 illustrated in FIG. 3 performs the discrimination analysis processing unit 215 based on the discrimination result of the character type discrimination unit 212 and the distribution range of the height of the character pattern obtained by the height distribution evaluation unit 213. , Controls the operations of the height determination processing unit 216 and the height ratio determination processing unit 217, and determines the similar characters included in the pattern recognition result received via the character string input unit 211 based on the determination results obtained by these units. Is determined and sent as a recognition result to a document file system (not shown).

【0023】図5に、相似文字判別動作を表す流れ図を
示す。図3に示した文字列入力部211によって1行分
のパターン認識結果が入力されると、文字型判別部21
2により、このパターン認識結果に含まれる各文字が属
する文字型が判別される(ステップ301、302)。
このステップ302で得られた文字型の集合に相似文字
型が含まれていない場合に、判別制御部214は、ステ
ップ303の否定判定としてステップ310に進み、文
字列入力部211を介して受け取ったパターン認識結果
をそのまま文書ファイルシステムに送出して、処理を終
了すればよい。
FIG. 5 is a flowchart showing the similar character determining operation. When a pattern recognition result for one line is input by the character string input unit 211 shown in FIG.
2, the character type to which each character included in the pattern recognition result belongs is determined (steps 301 and 302).
If the similar character type is not included in the set of character types obtained in step 302, the determination control unit 214 proceeds to step 310 as a negative determination in step 303 and receives the same via the character string input unit 211. What is necessary is just to send the pattern recognition result as it is to the document file system and end the processing.

【0024】一方、上述したステップ302で得られた
文字型の集合に相似文字型が含まれている場合に、判別
制御部214は、高さ分布評価部213による評価結果
を参照し、入力された文字列に対応する文字パターンの
高さが一様であるか否かを判定する(ステップ30
4)。この高さ分布評価部213で得られた分布範囲が
所定の閾値V1以上である場合に、判別制御部214は、
入力された判別対象の文字列は判別分析の適用条件を満
たしていると判断し、ステップ304の否定判定とし
て、高さ分布評価部213で得られた高さ情報を判別分
析処理部215の処理に供すればよい。
On the other hand, when the similar character type is included in the set of character types obtained in the above-described step 302, the discrimination control unit 214 refers to the evaluation result by the height distribution evaluating unit 213 and inputs the same. It is determined whether the height of the character pattern corresponding to the character string is uniform (step 30).
4). When the distribution range obtained by the height distribution evaluation unit 213 is equal to or more than the predetermined threshold V1, the discrimination control unit 214
It is determined that the input character string to be distinguished satisfies the conditions for applying the discriminant analysis, and as a negative determination in step 304, the height information obtained by the height distribution evaluation unit 213 is processed by the discriminant analysis processing unit 215. It is good to serve.

【0025】これに応じて、判別分析処理部215によ
り、判別分析処理が行われる(ステップ305)。図6
に、判別分析を説明する図を示す。相似文字型に属する
文字は、大文字と同等の文字高さを持つクラスと小文字
と同等の文字高さを持つクラスに分類することができ
る。
In response, the discriminant analysis processing section 215 performs discriminant analysis processing (step 305). FIG.
The figure explaining discriminant analysis is shown in FIG. Characters belonging to the similar character type can be classified into a class having a character height equivalent to uppercase letters and a class having a character height equivalent to lowercase letters.

【0026】一方、判別対象の文字列が十分な数の文字
を含んでいれば、この文字列に含まれる各文字の高さの
分布は、図6(a)に示すように、大文字の文字高さを中
心とする正規分布と小文字の文字高さを中心とする正規
分布の和として表すことができる。したがって、判別分
析処理部215は、判別分析手法を用いて上述した2つ
の正規分布を分離する閾値kを求め、この閾値kに基づ
いて、判別対象の文字列に含まれる相似文字型の文字が
大文字であるか小文字であるかを判定すればよい。
On the other hand, if the character string to be discriminated contains a sufficient number of characters, the distribution of the height of each character contained in this character string is, as shown in FIG. It can be expressed as the sum of a normal distribution centered on the height and a normal distribution centered on the height of lowercase characters. Accordingly, the discriminant analysis processing unit 215 obtains a threshold k for separating the two normal distributions described above using a discriminant analysis technique, and based on the threshold k, a similar character type character included in the character string to be discriminated is determined. What is necessary is just to judge whether it is a capital letter or a small letter.

【0027】図6(b)に、判別分析処理部の詳細構成図
を示す。図6において、ヒストグラム作成部221は、
判別制御部214から受け取った高さ情報に基づいて、
判別対象の文字列に含まれる各文字の高さの分布を表す
ヒストグラムを作成し、分離度算出部223の処理に供
する構成となっている。一方、閾値決定部222は、最
適化制御部224からの指示に応じて、上述した閾値k
の値を調整し、分離度算出部223の処理に供する構成
となっており、この分離度算出部223は、閾値決定部
222から受け取った閾値kに基づいて上述したヒスト
グラムで表される分布を分離した場合に、誤判定となる
確率の和を示す分離度λを求める構成となっている。
FIG. 6B shows a detailed configuration diagram of the discriminant analysis processing unit. In FIG. 6, the histogram creation unit 221 includes:
Based on the height information received from the discrimination control unit 214,
A histogram representing the distribution of the height of each character included in the character string to be determined is created and provided to the processing of the degree-of-separation calculating unit 223. On the other hand, the threshold determination unit 222 responds to the instruction from the optimization control unit 224 to set the threshold k
Is adjusted and provided to the process of the degree-of-separation calculating unit 223. The degree-of-separation calculating unit 223 converts the distribution represented by the above-described histogram based on the threshold value k received from the threshold value determining unit 222. In the case of separation, the configuration is such that a degree of separation λ indicating the sum of the probability of erroneous determination is obtained.

【0028】また、最適化制御部224は、上述した分
離度λの値に応じて、閾値決定部222による閾値決定
処理を制御し、分離度λが最小となったときの閾値kを
比較処理部225の処理に供する構成となっている。こ
のようにして得られた閾値kは、図6(a)に示した大文
字と同等の文字高さを持つ文字に対応する文字高さの分
布と小文字と同等の文字高さを持つ文字に対応する文字
高さの分布との境界を示している。
Further, the optimization control unit 224 controls the threshold value determination processing by the threshold value determination unit 222 according to the value of the above-mentioned separation degree λ, and compares the threshold value k when the separation degree λ becomes the minimum. The configuration is provided for the processing of the unit 225. The threshold k obtained in this manner corresponds to the distribution of character heights corresponding to characters having the same character height as uppercase letters shown in FIG. 4 shows the boundary between the character height distribution and the character height distribution.

【0029】したがって、比較処理部225は、ヒスト
グラム作成部221から判別対象の相似文字型の文字に
対応する文字高さを受け取り、この文字高さと閾値kと
の比較結果に基づいて、この相似文字が大文字であるか
小文字であるかを判定し、判定結果を判別制御部214
に返せばよい。
Therefore, the comparison processing unit 225 receives the character height corresponding to the similar character type character to be discriminated from the histogram creation unit 221 and, based on the comparison result between the character height and the threshold k, determines the similar character. Is determined to be a capital letter or a small letter, and the determination result is determined by the determination control unit 214.
Return it to

【0030】これに応じて、判別制御部214は、図5
に示したステップ306において、受け取った判別結果
に基づいて、パターン認識部402による認識結果に含
まれる相似文字に関する認識結果を確定し、得られた認
識結果を文書ファイルシステムなどに送出して処理を終
了すればよい。一方、判別対象の一行分の文字列の高さ
が一様であった場合は、上述したステップ304におけ
る肯定判定となり、判別制御部214は、ステップ30
7において、文字型判別部212による判別結果の中
に、大文字の文字高さあるいは小文字の文字高さの基準
となる文字型に属する文字が含まれているか否かを判定
する。
In response, the discrimination control unit 214
In step 306, the recognition result for the similar character included in the recognition result by the pattern recognition unit 402 is determined based on the received determination result, and the obtained recognition result is sent to a document file system or the like to perform processing. It should just end. On the other hand, if the height of the character string for one line to be determined is uniform, an affirmative determination is made in step 304 described above, and the determination control unit 214 determines in step 30
In 7, it is determined whether or not the result of the determination by the character type determination unit 212 includes a character belonging to a character type serving as a reference for the character height of uppercase characters or the character height of lowercase characters.

【0031】このステップ307の肯定判定の場合に、
判別制御部214は、後に追加開示項1において述べる
基準文字抽出手段131として動作し、得られた基準文
字の高さおよび文字型を示す情報とともに判別対象の相
似文字の高さを示す情報を高さ判定処理部216に送出
し、これに応じて、この高さ判定処理部216により、
基準文字の高さによる判別処理が行われる(ステップ3
08)。
In the case of an affirmative determination in step 307,
The discrimination control unit 214 operates as the reference character extracting means 131 described later in the additional disclosure item 1, and outputs the information indicating the height and the character type of the obtained reference character and the information indicating the height of the similar character to be discriminated. To the height determination processing unit 216, and accordingly, the height determination processing unit 216
A determination process based on the height of the reference character is performed (step 3).
08).

【0032】このとき、判別制御部214は、大文字型
あるいは小文字型に属する文字があれば優先的に基準文
字として選択し、これらの文字型に属する文字がない場
合には、下小文字型、下中文字型あるいは下大文字型に
属する文字を基準文字として選択し、後に追加開示項1
において述べる高さ判定手段132に相当する高さ判定
処理部216の処理に供すればよい。
At this time, the discrimination control unit 214 preferentially selects a character belonging to an uppercase type or a lowercase type as a reference character. Select a character belonging to the middle or lower case type as the reference character, and add additional disclosure
May be provided for the processing of the height determination processing unit 216 corresponding to the height determination means 132 described in.

【0033】図7に、文字高さによる判別動作を表す流
れ図を示す。高さ判定処理部216は、ステップ311
で受け取った基準文字型について、まず、大文字型であ
るか否かを判定し(ステップ312)、肯定判定の場合
に、高さ判定処理部216は、判別対象の相似文字は大
文字であると判断し(ステップ313)、判別結果を判
別制御部214に返して(ステップ314)、処理を終
了すればよい。
FIG. 7 is a flowchart showing the discrimination operation based on the character height. The height determination processing unit 216 determines in step 311
First, it is determined whether or not the reference character type received in step 311 is an uppercase type (step 312). In the case of an affirmative determination, the height determination processing unit 216 determines that the similar character to be determined is uppercase. Then (Step 313), the determination result is returned to the determination control unit 214 (Step 314), and the process may be terminated.

【0034】一方、ステップ312の否定判定の場合
は、受け取った基準文字型が小文字型であるか否かを判
定し(ステップ315)、肯定判定の場合に、高さ判定
処理部216は、判別対象の相似文字は小文字であると
判断し(ステップ316)、判別結果を判別制御部21
4に返して(ステップ314)、処理を終了すればよ
い。また一方、ステップ315の否定判定の場合に、高
さ判定処理部216は、基準文字の文字高さHsと判別対
象の相似文字の文字高さHxとを比較し、ほぼ等しい場合
(ステップ317の肯定判定)にステップ313に進ん
で大文字であると判断し、ステップ317の否定判定の
場合は、ステップ316に進んで小文字であると判断す
ればよい。
On the other hand, in the case of a negative determination in step 312, it is determined whether or not the received reference character type is a lower case type (step 315). In the case of an affirmative determination, the height determination processing unit 216 determines It is determined that the target similar character is a lowercase letter (step 316), and the determination result is determined by the determination control unit 21.
4 (step 314), and the process may be terminated. On the other hand, in the case of a negative determination in step 315, the height determination processing unit 216 compares the character height Hs of the reference character with the character height Hx of the similar character to be determined and determines that they are substantially equal (step 317). The process proceeds to step 313 to determine that the character is a capital letter, and if the determination is negative in step 317, the process proceeds to step 316 to determine that the character is a small letter.

【0035】このようにして得られた判別結果を受け取
って、判別制御部214は、図5に示したステップ30
6に進み、判別結果をパターン認識結果に反映して、処
理を終了すればよい。ところで、判別対象の文字列に基
準となりうる文字型に属する文字が含まれていない場合
に、判別制御部214は、ステップ307の否定判定と
して、判別対象の相似文字の文字高さを示す高さ情報を
高さ比判定処理部217に送出し、これに応じて、この
高さ比判定処理部217により、該当する相似文字の文
字高さと標準的な大文字の文字高さとの比に基づく判定
処理が行われる(ステップ309)。
Upon receiving the determination result obtained in this manner, the determination control unit 214 executes step 30 shown in FIG.
Then, the process may be terminated by reflecting the determination result to the pattern recognition result and proceeding to step 6. By the way, when the character string to be determined does not include a character belonging to a character type that can be a reference, the determination control unit 214 determines the character height of the similar character to be determined as a negative determination in step 307. The information is sent to the height ratio determination processing unit 217. In response, the height ratio determination processing unit 217 performs determination processing based on the ratio between the character height of the corresponding similar character and the standard uppercase character height. Is performed (step 309).

【0036】図8に、高さ比判定処理部217の詳細構
成を示す。図8に示した高さ比判定処理部217におい
て、外接矩形抽出部231は、後に追加開示項2におい
て述べる基準文字抽出手段131として動作し、文字列
入力部211を介して原稿上の各行に対応する文字パタ
ーンを順次に受け取り、1行分の文字パターンに含まれ
る各文字に対応する文字パターンの外接矩形をそれぞれ
抽出し、文字型判別部212を介して受け取った文字型
に応じて、基準線推定部232、大文字線推定部233
および小文字線推定部234に送出する構成となってい
る。
FIG. 8 shows a detailed configuration of the height ratio determination processing section 217. In the height ratio determination processing unit 217 shown in FIG. 8, the circumscribed rectangle extraction unit 231 operates as the reference character extraction unit 131 described later in the additional disclosure item 2, and outputs each line on the document via the character string input unit 211. The corresponding character patterns are sequentially received, and the circumscribed rectangles of the character patterns corresponding to the respective characters included in the character pattern for one line are extracted. Line estimation unit 232, capital letter line estimation unit 233
And a lower-case line estimating unit 234.

【0037】この外接矩形抽出部231は、例えば、大
文字型と判別された文字パターンに対応する外接矩形を
基準線推定部232および大文字線推定部233に送出
し、小文字型と判別された文字パターンに対応する外接
矩形を基準線推定部232および小文字線推定部234
に送出すればよい。この基準線推定部232は、後に追
加開示項3において述べる基準線推定手段136に相当
するものであり、外接矩形抽出部231から受け取った
外接矩形の下側底辺の中点の集合について、例えば、最
小二乗法による直線近似処理などを行って、これらの外
接矩形が共通して外接する基準線を推定し、大文字サイ
ズ推定部235および小文字サイズ推定部236の処理
に供する構成となっている。
The circumscribed rectangle extracting section 231 sends, for example, a circumscribed rectangle corresponding to the character pattern determined to be uppercase to the reference line estimating section 232 and the uppercase line estimating section 233, and outputs the character pattern determined to be lowercase. The circumscribed rectangle corresponding to the reference line estimating unit 232 and the lowercase line estimating unit 234
Should be sent to The reference line estimating unit 232 corresponds to the reference line estimating unit 136 described in the additional disclosure item 3 later. For the set of the midpoints of the lower bottom sides of the circumscribed rectangles received from the circumscribed rectangle extraction unit 231, for example, A straight line approximation process using the least squares method or the like is performed to estimate a reference line commonly circumscribing these circumscribed rectangles, and the estimated reference line is used for processing by the uppercase size estimator 235 and the lowercase size estimator 236.

【0038】一方、大文字線推定部233は、後に追加
開示項3において述べる大文字線推定手段135に相当
するものであり、外接矩形抽出部231から受け取った
外接矩形の上側底辺の中点の集合について、例えば、最
小二乗法による直線近似処理などを行って、これらの外
接矩形が共通して外接する大文字線を推定し、大文字サ
イズ推定部235の処理に供する構成となっている。
On the other hand, the upper-case line estimating unit 233 corresponds to the upper-case line estimating unit 135 described in the additional disclosure item 3 later. For example, a straight line approximation process using the least squares method is performed to estimate a capital letter line that circumscribes these circumscribed rectangles in common, and is used for processing by the capital letter size estimation unit 235.

【0039】また、図8に示した大文字サイズ推定部2
35は、後に追加開示項3において述べる文字高さ算出
手段137に相当するものであり、受け取った大文字線
と基準線との距離に基づいて標準的な大文字の高さを求
め、セレクタ237aを介して高さ比算出部239の処
理に供するとともに、得られた大文字の高さをサイズ保
持部238aに保持する構成となっている。
The upper case size estimating unit 2 shown in FIG.
35 is equivalent to the character height calculating means 137 described later in the additional disclosure item 3, and calculates the standard capital letter height based on the distance between the received capital letter line and the reference line. In addition to the processing of the height ratio calculation unit 239, the obtained uppercase height is stored in the size storage unit 238a.

【0040】このように、上述した基準線推定部232
および大文字線推定部233の動作により、現在注目し
ている原稿上の行に含まれる文字の大きさを忠実に反映
した基準線および大文字線を精密に推定し、大文字サイ
ズ推定部235の処理に供することにより、後に追加開
示項2において述べる大文字高さ推定手段133の機能
を実現し、文字列入力部211を介して受け取った各行
に対応する文字パターンの連なりに基づいて、標準的な
大文字の文字高さを示す指標を動的に算出することがで
きる。
As described above, the above-described reference line estimating unit 232
By the operation of the capital letter line estimating unit 233, the reference line and the capital letter line that accurately reflect the size of the characters included in the line on the current document are precisely estimated. By providing the function, the function of the capital letter height estimating means 133 described later in the additional disclosure item 2 is realized, and based on the series of character patterns corresponding to each line received via the character string input unit 211, a standard capital letter An index indicating the character height can be dynamically calculated.

【0041】また、図8において、セレクタ237a
は、大文字線推定部233からの指示に応じて、大文字
サイズ推定部235の出力とサイズ保持部238aの出
力のいずれかを選択し、大文字の文字高さHaとして高さ
比算出部239の処理に供する構成となっている。ここ
で、大文字線推定部233は、大文字線を正常に推定で
きた場合に、大文字サイズ推定部235の出力を選択す
る旨をセレクタ237aに指示し、大文字線の推定処理
ができなかった場合に、サイズ保持部238aの出力を
選択する旨をセレクタ237aに指示すればよい。
In FIG. 8, the selector 237a
Selects either the output of the uppercase size estimation unit 235 or the output of the size holding unit 238a in accordance with an instruction from the uppercase line estimation unit 233, and sets the uppercase character height Ha as the processing of the height ratio calculation unit 239. It is configured to be used for Here, the uppercase line estimating unit 233 instructs the selector 237a to select the output of the uppercase size estimating unit 235 when the uppercase line can be normally estimated, and when the uppercase line estimating process cannot be performed. The selector 237a may be instructed to select the output of the size holding unit 238a.

【0042】このように、大文字線が正常に推定できた
か否かに応じて、セレクタ237aの選択動作を制御す
ることにより、現在注目している範囲に大文字の文字高
さの基準となる文字型に属する文字が存在するか否かに
かかわらず、大文字の高さを示す適切な指標を高さ比算
出部239の処理に供することができる。この高さ比算
出部239は、判別制御部214を介して判別対象の相
似文字の文字高さHxを受け取り、この文字高さHxと上述
した大文字の文字高さHaとの高さ比Vhを求める構成とな
っており、後述する閾値算出部240および比較処理部
241とともに、後に追加開示項2において述べる高さ
比判定手段134を形成している。
As described above, by controlling the selection operation of the selector 237a in accordance with whether or not the capital letter line has been correctly estimated, the character type serving as the reference for the character height of the capital letter in the range currently focused on. Regardless of whether or not there is a character belonging to, an appropriate index indicating the height of uppercase letters can be provided to the processing of the height ratio calculation unit 239. The height ratio calculation unit 239 receives the character height Hx of the similar character to be determined via the determination control unit 214, and calculates a height ratio Vh between the character height Hx and the above-described uppercase character height Ha. The height ratio determination unit 134 described later in the additional disclosure 2 is formed together with the threshold calculation unit 240 and the comparison processing unit 241 to be described later.

【0043】図8において、比較処理部241は、この
高さ比Vhと閾値算出部240によって得られる閾値Thv
とを比較し、得られた結果に応じて、判別対象の相似文
字が大文字であるか小文字であるかを示す判別結果を判
別制御部214に返す構成となっている。また、図8に
おいて、閾値算出部240は、上述した大文字の文字高
さHaと後述する小文字の文字高さHbとの比に基づいて閾
値Thv を算出し、比較処理部241の処理に供する構成
とすればよい。
In FIG. 8, the comparison processing unit 241 compares the height ratio Vh with the threshold value Thv obtained by the threshold value calculation unit 240.
, And a determination result indicating whether the similar character to be determined is a capital letter or a small letter is returned to the determination control unit 214 in accordance with the obtained result. In FIG. 8, the threshold calculator 240 calculates a threshold Thv based on the ratio between the uppercase character height Ha described above and the lowercase character height Hb described later, and provides the threshold Thv to the processing of the comparison processor 241. And it is sufficient.

【0044】上述した大文字の文字高さHaと同様にし
て、小文字の文字高さHbを示す指標を求め、高さ比につ
いての閾値Thv を動的に決定することができる。図8に
おいて、小文字線推定部234は、外接矩形抽出部23
1から受け取った外接矩形の上側底辺の中点の集合につ
いて、上述した大文字線推定部233と同様の処理を行
い、これらの外接矩形が共通して外接する小文字線をそ
れぞれ推定し、小文字サイズ推定部236の処理に供す
る構成となっている。
In the same manner as the above-described uppercase character height Ha, an index indicating the lowercase character height Hb is obtained, and the threshold value Thv for the height ratio can be dynamically determined. In FIG. 8, the lowercase line estimating unit 234 includes a circumscribed rectangle extracting unit 23.
For the set of the midpoints of the upper bottom sides of the circumscribed rectangles received from No. 1, the same processing as that of the above-described upper-case line estimation unit 233 is performed, the lower-case lines common to these circumscribed rectangles are circumscribed, and the lower-case size is estimated. The configuration is provided for the processing of the unit 236.

【0045】また、小文字サイズ推定部236は、受け
取った小文字線と基準線との距離に基づいて標準的な小
文字の高さを求め、セレクタ237bを介して閾値算出
部240の処理に供するとともに、得られた小文字の高
さをサイズ保持部238bに保持する構成となってい
る。このセレクタ237bは、小文字線推定部234か
らの指示に応じて、小文字サイズ推定部236の出力と
サイズ保持部238bの出力のいずれかを選択し、小文
字の文字高さHbとして閾値算出部240の処理に供する
構成とすればよい。
The lower case size estimating unit 236 obtains a standard lower case height based on the distance between the received lower case line and the reference line, and provides the same to the threshold calculating unit 240 via the selector 237b. The obtained lowercase height is stored in the size storage unit 238b. The selector 237b selects one of the output of the lowercase size estimating unit 236 and the output of the size holding unit 238b in response to an instruction from the lowercase line estimating unit 234, and sets the lowercase character height Hb as the lowercase character height Hb. What is necessary is just to set it as the structure provided for a process.

【0046】これにより、原稿上の各行の特徴に応じ
て、高さ比による判定の基準となる大文字の文字高さHa
および判別のための閾値Thv を動的に決定し、これらの
判定基準に従って、相似文字の判別を行うことができ
る。ここで、図5に示したステップ309が実行される
のは、判別対象の文字列の高さが一様であり、かつ、大
文字あるいは小文字の高さの基準となる文字型に属する
文字が含まれていない場合であり、非常に希なケースで
ある。
Thus, the character height Ha of the capital letter, which is a criterion for determination based on the height ratio, is determined according to the characteristics of each line on the document.
And a threshold value Thv for discrimination is dynamically determined, and similar characters can be discriminated in accordance with these criteria. Here, step 309 shown in FIG. 5 is executed because the character string to be discriminated has a uniform height and includes a character belonging to a character type serving as a standard for uppercase or lowercase height. This is a very rare case.

【0047】このとき、大文字線推定部233および小
文字線推定部234においては、ともに推定処理が不可
能となるため、セレクタ237a、237bにより、そ
れぞれサイズ保持部238a、238bに保持された大
文字の文字高さHaと小文字の文字高さHbがそれぞれ選択
され、高さ比算出部239、閾値算出部240および比
較処理部241によって、高さ比に基づく判定処理が行
われる。
At this time, since the estimation process cannot be performed in both the capital letter line estimation unit 233 and the small letter line estimation unit 234, the capital letters held in the size holding units 238a and 238b by the selectors 237a and 237b, respectively. The height Ha and the lowercase character height Hb are selected, and the height ratio calculation unit 239, the threshold value calculation unit 240, and the comparison processing unit 241 perform determination processing based on the height ratio.

【0048】この場合に、上述したようにして、現在注
目している原稿上の行よりも以前に認識された行におけ
る大文字の文字高さおよび大文字と小文字との文字高さ
の比を基準として、文字の高さに基づく判定処理を行う
ことにより、判別対象の相似文字が大文字であるか小文
字であるかを判断することができる。図8に示した大文
字線推定部233、基準線推定部232、小文字線推定
部234、大文字サイズ推定部235および小文字サイ
ズ推定部236により、この判別結果は、上述した判断
基準を求めた原稿上の行と現在注目している行との間
で、フォントの切替やポイント数の切替のような特徴の
変化がない限り正確である。
In this case, as described above, the uppercase character height and the ratio of uppercase and lowercase character heights in the line recognized earlier than the line on the current document of interest are used as references. By performing the determination process based on the character height, it is possible to determine whether the similar character to be determined is a capital letter or a small letter. The uppercase line estimator 233, the reference line estimator 232, the lowercase line estimator 234, the uppercase size estimator 235, and the lowercase size estimator 236 shown in FIG. Is accurate unless there is a change in characteristics such as font switching or point number switching between the line and the current line of interest.

【0049】なお、高さ比算出部239によって得られ
た高さ比と固定の閾値とを比較した結果に基づいて、相
似文字の判別を行うことも可能である。この場合は、図
8に示した小文字線推定部234、小文字サイズ推定部
236、セレクタ237b、サイズ保持部238および
閾値算出部240を除外して高さ比判定処理部217を
構成し、標準的なフォントにおける大文字の文字高さと
小文字の文字高さの比に基づいて決定した固定の閾値を
比較処理部241の処理に供すればよい。
It is also possible to determine similar characters based on the result of comparing the height ratio obtained by the height ratio calculation unit 239 with a fixed threshold. In this case, the height ratio determination processing unit 217 is configured by excluding the lowercase line estimation unit 234, the lowercase size estimation unit 236, the selector 237b, the size holding unit 238, and the threshold value calculation unit 240 illustrated in FIG. A fixed threshold determined based on the ratio of the character height of uppercase characters to the character height of lowercase characters in a simple font may be provided to the processing of the comparison processing unit 241.

【0050】ここで、上述したように、文字列入力部2
11の動作により、原稿上の1行ごとに相似文字の判別
処理を行う場合は、上述した判別分析処理部215、高
さ判定処理部216および高さ比判定処理部217は、
相似文字が大文字であるか小文字であるかを判別するた
めの判別指標をそれぞれ原稿上の各行について求めてい
る。
Here, as described above, the character string input unit 2
In the case where the similar character discriminating process is performed for each line on the document by the operation of 11, the discriminant analysis processing unit 215, the height determination processing unit 216, and the height ratio determination processing unit 217
A determination index for determining whether a similar character is uppercase or lowercase is obtained for each line on the document.

【0051】したがって、例えば、脚注などのように、
ポイント数が行ごとに変化している部分を含む文書が原
稿となった場合においても、判別指標を行ごとに動的に
変化させ、各行に含まれる相似文字を正確に判別するこ
とが可能である。また、図3に示した相似文字判別装置
を構成する各部は、それぞれソフトウェアによって実現
可能であり、これらのソフトウェアによって、請求項3
で述べた文字集合入力手順、高さ分布評価手順、判別分
析処理手順、分類手順および個別判定手順をコンピュー
タに実行させることができ、このようなプログラムをフ
ロッピーディスクやCD−ROMなどの記憶媒体に記録
して頒布することにより、本発明による正確な相似文字
判別処理を幅広い利用者に提供することができる。
Therefore, for example, as in a footnote,
Even when a document contains a document with a portion where the number of points changes for each line, it is possible to dynamically change the discrimination index for each line and accurately identify similar characters included in each line. is there. Further, each unit constituting the similar character discriminating apparatus shown in FIG. 3 can be realized by software, respectively.
The computer can execute the character set input procedure, the height distribution evaluation procedure, the discriminant analysis processing procedure, the classification procedure, and the individual determination procedure described in, and such a program is stored in a storage medium such as a floppy disk or a CD-ROM. By recording and distributing, accurate similar character discrimination processing according to the present invention can be provided to a wide range of users.

【0052】次に、日本語文字と英字とを相互に利用し
て、相似文字の判別処理を行う方法について説明する。
ここで、図9(a)に示すように、標準的なひらがな大文
字は、標準的な英大字よりも一回り大きい文字パターン
で表されている場合が多い。したがって、例えば、英文
字で記述された文書を主として認識する場合は、図9
(b)に示すように、文字列入力部211に設けた日本語
文字判別部251によって、ひらがな大文字の高さhnの
基準となる文字を判別し、正規化処理部252により、
これらの文字を表す文字パターンの高さに適切な正規化
定数Csを乗じて、文字型判別部212および高さ分布評
価部213の処理に供する構成とすればよい。
Next, a description will be given of a method of performing similar character discrimination processing by mutually using Japanese characters and English characters.
Here, as shown in FIG. 9A, a standard hiragana capital letter is often represented by a character pattern that is slightly larger than a standard English capital letter. Therefore, for example, when mainly recognizing a document described in English characters, FIG.
As shown in (b), the Japanese character discriminating unit 251 provided in the character string input unit 211 discriminates a character serving as a reference for the height hn of the hiragana capital letter, and the normalization processing unit 252
The height of the character pattern representing these characters may be multiplied by an appropriate normalization constant Cs to be provided to the processing of the character type determination unit 212 and the height distribution evaluation unit 213.

【0053】この日本語文字判別部251は、後に追加
開示項4において述べる言語判別手段121に相当する
ものであり、文字列入力部211を介して受け取ったパ
ターン認識結果から、例えば、図4(b)に示したひらが
な文字「か、き、く、け、さ、し、す、そ」などを基準
となる文字として判別する構成とすればよい。また、正
規化処理部252は、後に追加開示項4において述べる
正規化手段122に相当するものであり、例えば、標準
的なひらがな大文字の高さhnと標準的な英大文字の高さ
heとの比に基づいて予め正規化定数Csを求めておき、日
本語文字判別部251によって判別された各文字に対応
する文字高さhxを上述した正規化定数Csによって正規化
し、英文字に関する認識結果とともに、文字型判別部2
12および文字高さ分布評価部213に送出すればよ
い。
The Japanese character discriminating section 251 corresponds to the language discriminating means 121 described later in the additional disclosure item 4. Based on the pattern recognition result received via the character string input section 211, for example, FIG. A configuration may be adopted in which the hiragana characters “ka, ki, ku, ke, sa, shi, su, so” shown in b) are determined as reference characters. The normalization processing unit 252 corresponds to the normalization unit 122 described later in the additional disclosure item 4. For example, a standard hiragana capital letter height hn and a standard alphabetical capital letter height hn
The normalization constant Cs is obtained in advance based on the ratio to he, and the character height hx corresponding to each character determined by the Japanese character determination unit 251 is normalized by the above-described normalization constant Cs, and Along with the recognition result, the character type discriminating unit 2
12 and the character height distribution evaluation unit 213.

【0054】また、逆に、日本語文字を主として認識す
る場合に、日本語文字で記述された文書に混在している
英文字の高さをひらがな大文字の高さに合わせて正規化
すれば、図4(b)に示したひらがなの相似文字「あ、
い、う、え、お、つ、や、ゆ、よ、ぁ、ぃ、ぅ、ぇ、
ぉ、っ、ゃ、ゅ、ょ」の判別処理に利用することができ
る。
Conversely, when Japanese characters are mainly recognized, if the height of English characters mixed in a document described in Japanese characters is normalized to the height of Hiragana capital letters, The similar character "A,
I, u, ue, oh, tsu, ya, yu, yo, ぁ, ぃ, ぅ, ぇ,
ぉ, ゃ, ゃ, ゅ, 」”.

【0055】また一方、文字列入力部211が、後に追
加開示項5において述べる文字集合入力手段111とし
て動作し、例えば、原稿読取部401による読み取り範
囲内の複数行についてのパターン認識結果を判別対象の
文字列として入力した場合は、判別分析処理部215、
高さ判定処理部216および高さ比判定処理部217に
より、それぞれこの読み取り範囲ごとに、相似文字が大
文字であるか小文字であるかを判別する判別指標を求め
ることができる。
On the other hand, the character string input unit 211 operates as a character set input unit 111 described later in the additional disclosure item 5, and determines, for example, a pattern recognition result for a plurality of lines within a reading range by the document reading unit 401. When the character string is input as a character string, the discriminant analysis processing unit 215
The height determination processing unit 216 and the height ratio determination processing unit 217 can determine a determination index for determining whether a similar character is uppercase or lowercase for each of the reading ranges.

【0056】この場合は、十分なサンプル数が確保でき
るので、確実に判別分析処理部215による判別処理を
行うことが可能であり、また、十分なサンプルに基づく
判別分析処理によれば、適切な閾値kを十分な精度で推
定することが可能であるから、判別対象の領域に含まれ
る強調表現やフォントの変化に伴う文字の大きさの微妙
な変化を吸収し、上述した判別対象の文字列に含まれる
相似文字を大文字と小文字とに確実に判別することがで
きる。
In this case, since a sufficient number of samples can be secured, the discriminant processing by the discriminant analysis processing unit 215 can be performed reliably. According to the discriminant analysis processing based on sufficient samples, an appropriate Since it is possible to estimate the threshold value k with sufficient accuracy, it absorbs subtle changes in the size of characters due to changes in the emphasis expressions and fonts included in the area to be determined, and the above-described character string to be determined Can be reliably distinguished between uppercase and lowercase.

【0057】その一方、このように判別対象の領域を拡
大した場合は、ポイント数の局所的な変化などには十分
に対応することができない。逆に、文字列入力部211
が、後に追加開示項7において述べる文字集合入力手段
111として動作し、パターン認識結果を単語単位で入
力する構成とした場合は、判別分析処理部215、高さ
判定処理部216および高さ比判定処理部217によ
り、それぞれ各単語について、相似文字が大文字である
か小文字であるかを判別する判別指標を動的に求めるこ
とができる。
On the other hand, when the area to be determined is enlarged in this way, it is not possible to sufficiently cope with a local change in the number of points or the like. Conversely, the character string input unit 211
Operates as the character set input unit 111 described later in the additional disclosure item 7, and inputs the pattern recognition result in units of words. In the case where the discrimination analysis processing unit 215, the height determination processing unit 216, and the height ratio determination The processing unit 217 can dynamically determine, for each word, a determination index for determining whether a similar character is a capital letter or a small letter.

【0058】この場合は、サンプル数が極端に少ないた
めに、判別分析処理部215、高さ判定処理部216お
よび高さ比判定処理部217によってそれぞれ得られる
判別指標の推定精度は低下する可能性がある。その反
面、上述したようにして、各単語について動的に求めた
判別指標に基づいて、その単語に含まれる相似文字の判
別を行うことにより、例えば、単語単位でポイント数が
変化する部分を含む文書が原稿となった場合において
も、相似文字を判別することができる。
In this case, since the number of samples is extremely small, the estimation accuracy of the discrimination index obtained by the discriminant analysis processing unit 215, the height determination processing unit 216, and the height ratio determination processing unit 217 may decrease. There is. On the other hand, as described above, based on the discrimination index dynamically obtained for each word, the similar characters included in the word are discriminated to include, for example, a portion where the number of points changes in word units. Even when the document is a manuscript, similar characters can be determined.

【0059】[0059]

【発明の効果】以上に説明したように、請求項1、請求
項2および請求項10の発明によれば、原稿から読み取
られた所定の範囲に含まれる文字パターンの高さに関す
る特徴に基づいて、判別分析処理あるいは個別判定処理
を行うことにより、この所定の範囲について動的に求め
た判別指標に基づいて、その範囲内の相似文字を判別す
ることができるので、フォントの違いや強調表現による
文字パターンの変化などを吸収して、相似文字を正確に
判別することが可能である。
As described above, according to the first, second, and tenth aspects of the present invention, based on the feature relating to the height of a character pattern included in a predetermined range read from a document. By performing the discriminant analysis process or the individual judgment process, similar characters within the predetermined range can be determined based on the discrimination index dynamically obtained for the predetermined range. It is possible to accurately determine similar characters by absorbing changes in character patterns.

【0060】以上の説明に関して、更に、以下の項を開
示する。 追加開示項1.請求項2に記載の相似文字判別装置にお
いて、個別判定手段115は、分類手段114による分
類結果を受け取り、大文字または小文字の高さの基準と
なりうる文字型に分類される文字に対応する文字パター
ンを基準文字パターンとして抽出する基準文字抽出手段
131と、基準文字パターンの高さと判別対象となる相
似文字に対応する文字パターンの高さとの比較結果に応
じて、相似文字の認識結果を決定する高さ判定手段13
2とを備えた構成であることを特徴とする。
With respect to the above description, the following items are further disclosed. Additional Disclosure 1. 3. The similar character discriminating apparatus according to claim 2, wherein the individual judging unit 115 receives the classification result by the classifying unit 114, and converts a character pattern corresponding to a character classified into a character type that can be a reference for the height of uppercase letters or lowercase letters. A reference character extracting unit 131 that extracts a reference character pattern, and a height that determines a similar character recognition result according to a comparison result between the height of the reference character pattern and the character pattern corresponding to the similar character to be determined. Judgment means 13
2 is provided.

【0061】追加開示項1の相似文字判別装置は、高さ
判定手段132が、基準文字抽出手段131によって抽
出された基準文字パターンの高さと相似文字の文字パタ
ーンの高さとを直接に比較することにより、文字集合に
含まれる基準文字の高さに基づいて、相似文字を正確に
判別することができる。このように、追加開示項1を適
用すれば、パターン認識手段によって認識結果が確定し
ている文字の高さを大文字と小文字とを判別するための
判別指標として利用することにより、フォントの違いや
強調表現による文字パターンの変化にかかわらず、相似
文字を正確に判別することができる。
In the similar character discriminating apparatus according to additional disclosure 1, the height determining means 132 directly compares the height of the reference character pattern extracted by the reference character extracting means 131 with the height of the character pattern of the similar character. Accordingly, similar characters can be accurately determined based on the height of the reference characters included in the character set. As described above, when the additional disclosure item 1 is applied, the difference between fonts can be improved by using the height of a character whose recognition result has been determined by the pattern recognition means as a determination index for determining uppercase and lowercase. Regardless of a change in the character pattern due to the emphasized expression, similar characters can be accurately determined.

【0062】追加開示項2.請求項2に記載の相似文字
判別装置において、個別判定手段115は、分類手段1
14による分類結果を受け取り、大文字または小文字の
高さの基準となりうる文字型に分類される文字に対応す
る文字パターンを基準文字パターンとして抽出する基準
文字抽出手段131と、基準文字パターンに基づいて、
標準的な大文字の高さを推定する大文字高さ推定手段1
33と、大文字高さ推定手段133によって得られた大
文字の高さと、判別対象となる相似文字に対応する文字
パターンの高さとの比に基づいて、相似文字の認識結果
を決定する高さ比判定手段134とを備えた構成である
ことを特徴とする。
Additional Disclosure Item 2. 3. The similar character discriminating apparatus according to claim 2, wherein the individual judging means 115 comprises
A reference character extraction unit 131 that receives a classification result according to 14 and extracts a character pattern corresponding to a character classified into a character type that can be a reference for the height of uppercase or lowercase letters as a reference character pattern;
Uppercase height estimation means 1 for estimating standard uppercase height
33, a height ratio determination for determining a recognition result of similar characters based on a ratio of a capital letter height obtained by the capital letter height estimating means 133 to a character pattern corresponding to a similar character to be determined. And means 134.

【0063】追加開示項2の相似文字判別装置は、基準
文字抽出手段131によって抽出された基準文字の高さ
に基づいて、大文字高さ推定手段133が、標準的な大
文字の高さを推定することにより、高さ比判定手段13
4により、この標準的な大文字の高さと判別対象の相似
文字の高さとの比に基づいて、この相似文字を判別する
ことができる。
In the similar character discriminating apparatus according to Additional Disclosure 2, the capital letter height estimating means 133 estimates the standard capital letter height based on the height of the reference character extracted by the reference character extracting means 131. The height ratio determination means 13
According to FIG. 4, the similar character can be determined based on the ratio between the standard uppercase letter height and the height of the similar character to be determined.

【0064】追加開示項3.請求項4に記載の相似文字
判別装置において、大文字高さ推定手段133は、大文
字の高さの基準となりうる文字型に分類された基準文字
パターンに対応する外接矩形の上側底辺の中点の集合に
基づいて、標準的な大文字を表す文字パターンの上部が
外接する大文字線を推定する大文字線推定手段135
と、大文字または小文字の高さの基準となりうる文字型
に分類された基準文字パターンに対応する外接矩形の下
側底辺の中点の集合に基づいて、標準的な大文字および
小文字を表す文字パターンの下部が外接する基準線を推
定する基準線推定手段136と、大文字線と基準線との
距離を求め、標準的な大文字の高さとして出力する文字
高さ算出手段137とを備えた構成であることを特徴と
する。
Additional Disclosure Item 3. 5. The similar character discriminating apparatus according to claim 4, wherein the capital letter height estimating means 133 is a set of middle points of the upper bottom of a circumscribed rectangle corresponding to a reference character pattern classified into a character type that can be a reference for the capital letter height. Capital line estimating means 135 for estimating a capital line circumscribing the upper part of a character pattern representing a standard capital letter based on
Based on the set of midpoints on the lower base of the circumscribed rectangle corresponding to the reference character pattern categorized as a character type that can be the standard for uppercase or lowercase characters, a character pattern representing standard uppercase and lowercase characters It is provided with a reference line estimating means 136 for estimating a reference line whose lower part is circumscribed, and a character height calculating means 137 for determining the distance between the capital letter line and the reference line and outputting the distance as a standard capital letter height. It is characterized by the following.

【0065】追加開示項3の相似文字判別装置は、大文
字線推定手段135および基準線推定手段136の動作
により、複数の基準文字の高さに基づいて、大文字線と
基準線とを精密に推定することができるから、文字高さ
算出手段137により、標準的な大文字の高さを正確に
求めることができる。
The similar character discriminating apparatus according to additional disclosure item 3 accurately estimates a capital letter line and a reference line based on the heights of a plurality of reference characters by the operation of the capital letter line estimation means 135 and the reference line estimation means 136. Therefore, the character height calculator 137 can accurately determine the height of a standard uppercase letter.

【0066】したがって、追加開示項2および追加開示
項3を適用すれば、パターン認識手段によって認識結果
が確定している文字に対応する文字パターンに基づい
て、標準的な大文字の高さを精密に推定し、この標準的
な大文字の高さとの比を判別指標として利用することに
より、フォントの違いや強調表現による文字パターンの
変化にかかわらず、相似文字を正確に判別することがで
きる。
Therefore, if the additional disclosure item 2 and the additional disclosure item 3 are applied, the standard capital letter height can be precisely determined based on the character pattern corresponding to the character whose recognition result has been determined by the pattern recognition means. By estimating and using the ratio to the standard uppercase letter height as a discrimination index, similar characters can be accurately discriminated irrespective of font differences or changes in character patterns due to emphasized expressions.

【0067】追加開示項4.請求項2に記載の相似文字
判別装置において、文字集合入力手段111は、パター
ン認識手段101から受け取った文字列に含まれる各文
字が属する言語を判別する言語判別手段121と、文字
認識装置が主として扱う主言語以外の言語に属する外国
語文字として判別された各文字について、対応する文字
パターンの大きさを主言語に属する文字の大きさに合わ
せて正規化する正規化手段122とを備えた構成である
ことを特徴とする。
Additional Disclosure Item 4. In the similar character discriminating apparatus according to claim 2, the character set input means 111 is mainly composed of a language discriminating means 121 for discriminating a language to which each character included in the character string received from the pattern recognizing means 101 belongs, and A configuration including a normalizing means for normalizing the size of the corresponding character pattern to each character determined as a foreign language character belonging to a language other than the main language to be handled in accordance with the size of the character belonging to the main language; It is characterized by being.

【0068】追加開示項4の相似文字判別装置は、言語
判別手段121によって外国語文字であると判別された
各文字について、正規化手段122が正規化処理を行う
ことにより、文字集合に含まれる外国語文字を相似文字
の判別に利用することが可能である。この追加開示項4
を適用すれば、外国語文字の大きさを主言語文字の標準
的な大文字の大きさに基づいて正規化することにより、
外国語文字を主言語文字に含めた文字集合に基づいて、
判別指標を求めることが可能となるので、複数の言語に
用いられる文字が混在する文書についての相似文字の判
別精度を向上することができる。
In the similar character discriminating apparatus according to the additional disclosure item 4, each character determined as a foreign language character by the language discriminating means 121 is included in the character set by the normalizing means 122 performing normalization processing. Foreign language characters can be used to determine similar characters. This additional disclosure item 4
, By normalizing the size of foreign language characters based on the standard capitalization of main language characters,
Based on a character set that includes foreign language characters as main language characters,
Since it is possible to obtain the discrimination index, it is possible to improve the accuracy of discriminating similar characters in a document in which characters used in a plurality of languages are mixed.

【0069】追加開示項5.請求項2に記載の相似文字
判別装置において、文字集合入力手段111は、原稿に
おいて判別対象となる相似文字を含む所定の読み取り領
域に含まれる文字パターンとこれらの文字パターンにつ
いてパターン認識手段101によって得られた認識結果
とを入力する構成であることを特徴とする。
Additional Disclosure Item 5. 3. The similar character discriminating apparatus according to claim 2, wherein the character set input unit 111 obtains, by the pattern recognition unit 101, a character pattern included in a predetermined reading area including the similar character to be discriminated in the original document and these character patterns. The received recognition result is input.

【0070】追加開示項5の相似文字判別装置は、文字
集合入力手段111の動作により、読み取り領域に含ま
れる文字パターンとその認識結果を文字集合として入力
することにより、判別分析処理手段113および個別判
別手段115において、相似文字が大文字であるか小文
字であるかを判別するための判別指標をそれぞれ上述し
た読み取り領域ごとに動的に求めて判別することができ
る。
The similar character discriminating apparatus according to the additional disclosure item 5 operates the character set input means 111 to input a character pattern included in the reading area and its recognition result as a character set, thereby providing the discriminant analysis processing means 113 and the individual The determination means 115 can dynamically determine a determination index for determining whether a similar character is a capital letter or a small letter for each of the above-described reading regions.

【0071】この追加開示項5を適用し、読み取り領域
ごとに判別指標を求める構成とすれば、十分なサンプル
に基づいた判別分析処理により、相似文字を精密に判別
することが可能となる。 追加開示項6.請求項2に記載の相似文字判別装置にお
いて、文字集合入力手段111は、原稿において判別対
象となる相似文字を含む1行に対応する文字パターンと
これらの文字パターンについてパターン認識手段101
によって得られた認識結果とを入力する構成であること
を特徴とする。
When the additional disclosure item 5 is applied and the discrimination index is obtained for each reading area, similar characters can be discriminated accurately by the discriminant analysis processing based on sufficient samples. Additional Disclosure Item 6. 3. The similar character discriminating apparatus according to claim 2, wherein the character set input unit 111 includes a character pattern corresponding to one line including a similar character to be determined in the document and a pattern recognition unit 101 for these character patterns.
And a recognition result obtained by the above.

【0072】追加開示項6の相似文字判別装置は、文字
集合入力手段111の動作により、原稿上の1行に相当
する文字集合を入力することにより、判別分析処理手段
113および個別判別手段115において、相似文字が
大文字であるか小文字であるかを判別するための判別指
標をそれぞれ原稿上の行ごとに動的に求めて判別するこ
とができる。
The similar character discriminating apparatus according to the additional disclosure item 6 inputs a character set corresponding to one line on a document by the operation of the character set inputting means 111, so that the discrimination analysis processing means 113 and the individual discriminating means 115 The determination index for determining whether the similar character is uppercase or lowercase can be dynamically obtained for each line on the document and can be determined.

【0073】追加開示項7.請求項2に記載の相似文字
判別装置において、文字集合入力手段111は、原稿に
おいて判別対象となる相似文字を含む単語に対応する文
字パターンとこれらの文字パターンについてパターン認
識手段101によって得られた認識結果とを入力する構
成であることを特徴とする。追加開示項7の相似文字判
別装置は、文字集合入力手段111の動作により、単語
に相当する文字集合を入力することにより、判別分析処
理手段113および個別判別手段115において、相似
文字が大文字であるか小文字であるかを判別するための
判別指標をそれぞれ単語ごとに動的に求めて判別するこ
とができる。
Additional Disclosure Item 7. 3. The similar character discriminating apparatus according to claim 2, wherein the character set input unit 111 includes a character pattern corresponding to a word including a similar character to be determined in the document and a recognition obtained by the pattern recognizing unit 101 for these character patterns. And a result input unit. In the similar character discriminating apparatus according to the additional disclosure item 7, when the character set corresponding to the word is input by the operation of the character set input unit 111, the similar character is capitalized in the discriminant analysis processing unit 113 and the individual determination unit 115. It is possible to dynamically determine and determine a determination index for determining whether a word is a lowercase or a lowercase for each word.

【0074】追加開示項6あるいは追加開示項7を適用
し、原稿上の行あるいは単語ごとに判別指標を求める構
成とすれば、ポイント数の局所的な変化などにも柔軟に
追従し、相似文字の判別を行うことができる。
When the additional disclosure item 6 or 7 is applied to determine the discrimination index for each line or word on the manuscript, it is possible to flexibly follow a local change in the number of points, etc. Can be determined.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の相似文字判別方法の原理を示す図であ
る。
FIG. 1 is a diagram illustrating the principle of a similar character determination method according to the present invention.

【図2】本発明の相似文字判別装置の原理ブロック図で
ある。
FIG. 2 is a principle block diagram of a similar character discriminating apparatus of the present invention.

【図3】本発明の相似文字判別装置を適用した文字認識
装置の構成を示す図である。
FIG. 3 is a diagram showing a configuration of a character recognition device to which the similar character discrimination device of the present invention is applied.

【図4】文字型の例を説明する図である。FIG. 4 is a diagram illustrating an example of a character type.

【図5】相似文字判別動作を表す流れ図である。FIG. 5 is a flowchart illustrating a similar character determining operation.

【図6】判別分析を説明する図である。FIG. 6 is a diagram illustrating discriminant analysis.

【図7】文字高さによる判別動作を表す流れ図である。FIG. 7 is a flowchart illustrating a determination operation based on a character height.

【図8】高さ比判定処理部の詳細構成図である。FIG. 8 is a detailed configuration diagram of a height ratio determination processing unit.

【図9】日本語文字および英字の特徴を説明する図であ
る。
FIG. 9 is a diagram illustrating characteristics of Japanese characters and English characters.

【図10】特開平3ー111983号公報に記載の発明
技法を適用した文字認識装置の構成図である。
FIG. 10 is a configuration diagram of a character recognition device to which the invention technique described in Japanese Patent Application Laid-Open No. 3-111983 is applied.

【図11】従来の空白比による判定方法を説明する図で
ある。
FIG. 11 is a diagram illustrating a conventional determination method based on a blank ratio.

【符号の説明】[Explanation of symbols]

101 パターン認識手段 111 文字集合入力手段 112 高さ分布判定手段 113 判別分析処理手段 114 分類手段 115 個別判定手段 121 言語判別手段 122 正規化手段 131 基準文字抽出手段 132 高さ判定手段 133 大文字高さ推定手段 134 高さ比判定手段 135 大文字線推定手段 136 基準線推定手段 137 文字高さ算出手段 210 相似文字判別装置 211 文字列入力部 212 文字型判別部 213 高さ分布評価部 214 判別制御部 215 判別分析処理部 216 高さ判定処理部 217 高さ比判定処理部 221 ヒストグラム作成部 222 閾値決定部 223 分離度算出部 224 最適化制御部 225、241 比較処理部 231 外接矩形抽出部 232 基準線推定部 233 大文字線推定部 234 小文字線推定部 235 大文字サイズ推定部 236 小文字サイズ推定部 237 セレクタ 238 サイズ保持部 239 高さ比算出部 240 閾値算出部 401 原稿読取部 402 パターン認識部 403 パターン辞書 404 相似文字抽出部 405 出力処理部 410 相似文字判定部 411 空白比算出部 412 比較器 DESCRIPTION OF SYMBOLS 101 Pattern recognition means 111 Character set input means 112 Height distribution judgment means 113 Discrimination analysis processing means 114 Classification means 115 Individual judgment means 121 Language discrimination means 122 Normalization means 131 Reference character extraction means 132 Height judgment means 133 Uppercase letter height estimation Means 134 Height ratio determining means 135 Uppercase line estimating means 136 Reference line estimating means 137 Character height calculating means 210 Similar character discriminating device 211 Character string input unit 212 Character type discriminating unit 213 Height distribution evaluating unit 214 Discrimination control unit 215 Discrimination Analysis processing unit 216 Height determination processing unit 217 Height ratio determination processing unit 221 Histogram creation unit 222 Threshold determination unit 223 Separation degree calculation unit 224 Optimization control units 225, 241 Comparison processing unit 231 Circumscribed rectangle extraction unit 232 Reference line estimation unit 233 Upper case line estimation unit 234 Small Character line estimation unit 235 Uppercase size estimation unit 236 Lowercase size estimation unit 237 Selector 238 Size holding unit 239 Height ratio calculation unit 240 Threshold calculation unit 401 Document reading unit 402 Pattern recognition unit 403 Pattern dictionary 404 Similar character extraction unit 405 Output processing unit 410 Similar character determination unit 411 Blank ratio calculation unit 412 Comparator

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 原稿から読み取られた文字パターンに基
づいて前記原稿に記載された各文字を認識するパターン
認識手段を備えた文字認識装置において、 相似形の文字パターンによって大文字と小文字とが表さ
れる相似文字を含む所定の範囲の文字列に対応する文字
パターン列と、前記パターン認識手段によって前記文字
パターン列について行われた認識結果とを受け取り、 前記文字パターン列に含まれる文字パターンの高さが一
様であるか否かを判定し、 前記文字パターン列に含まれる文字パターンの高さにば
らつきがある場合に、前記文字パターン列に含まれる文
字パターンの高さについての判別分析によって、大文字
に相当する高さを持つ大文字クラスと小文字に相当する
高さを持つ小文字クラスとに分類し、 前記相似文字についての分類結果に基づいて、前記相似
文字の認識結果を決定し、 前記文字パターン列に含まれる文字パターンの高さが一
様である場合は、前記認識結果に含まれる確定済みの文
字について、文字パターンの高さ方向における分布の特
徴が異なる複数の文字型に分類し、 前記相似文字に対応する文字パターンの高さと、前記複
数の文字型に分類された確定済みの文字に対応する文字
パターンの高さとの比較結果に応じて、前記相似文字に
対応する認識結果を決定することを特徴とする相似文字
判別方法。
1. A character recognition device comprising a pattern recognition means for recognizing each character written on a document based on a character pattern read from the document, wherein uppercase and lowercase characters are represented by similar character patterns. Receiving a character pattern string corresponding to a character string in a predetermined range including similar characters, and a recognition result performed on the character pattern string by the pattern recognition unit, the height of the character pattern included in the character pattern string Is determined whether or not is uniform, if the heights of the character patterns included in the character pattern sequence varies, by discriminant analysis of the height of the character patterns included in the character pattern sequence, capital letters Classified into uppercase class with height equivalent to lowercase and lowercase class with height equivalent to lowercase. The recognition result of the similar character is determined based on the classification result. If the height of the character pattern included in the character pattern sequence is uniform, the character pattern is determined for the determined character included in the recognition result. Are classified into a plurality of character types having different distribution characteristics in the height direction, and the height of a character pattern corresponding to the determined character classified into the plurality of character types and the height of a character pattern corresponding to the similar character. Determining a recognition result corresponding to the similar character according to a result of comparison with the similar character.
【請求項2】 原稿から読み取られた文字パターンに基
づいて前記原稿に記載された各文字を認識するパターン
認識手段を備えた文字認識装置において、 相似形の文字パターンによって大文字と小文字とが表さ
れる相似文字を含む所定の範囲の文字列に対応する文字
パターン列と、前記パターン認識手段によって前記文字
パターン列について行われた認識結果とを受け取って入
力する文字集合入力手段と、 前記文字パターン列に含まれる各文字パターンの高さが
一様であるか否かを判定する高さ分布判定手段と、 前記各文字パターンの高さにばらつきがある旨の判定結
果に応じて、前記文字パターン列に含まれる文字パター
ンの高さについての判別分析によって、大文字に相当す
る高さを持つ大文字クラスと小文字に相当する高さを持
つ小文字クラスとに分類し、この分類結果に基づいて、
判別対象となる前記相似文字の認識結果を決定する判別
分析処理手段と、 前記各文字パターンの高さが一様である旨の判定結果に
応じて、前記認識結果に含まれる確定済みの文字につい
て、文字パターンの高さ方向における分布の特徴が異な
る複数の文字型に分類する分類手段と、 前記相似文字に対応する文字パターンの高さと、前記複
数の文字型に分類された確定済みの文字に対応する文字
パターンの高さとに基づいて、前記相似文字それぞれに
対応する認識結果を個別に決定する個別判定手段とを備
えたことを特徴とする相似文字判別装置。
2. A character recognition device comprising a pattern recognition means for recognizing each character written on a document based on a character pattern read from the document, wherein uppercase and lowercase characters are represented by similar character patterns. Character set input means for receiving and inputting a character pattern string corresponding to a character string in a predetermined range including similar characters, and a recognition result performed on the character pattern string by the pattern recognition means; and Height distribution determining means for determining whether or not the height of each character pattern included in the character pattern is uniform; and the character pattern string according to a determination result that the height of each of the character patterns varies. Based on the discriminant analysis of the height of the character pattern included in the uppercase, the uppercase class with the height equivalent to the uppercase and the small sentence with the height equivalent to the lowercase Character class, and based on this classification result,
Discriminant analysis processing means for determining a recognition result of the similar character to be determined; and for a determined character included in the recognition result, according to a determination result that the height of each of the character patterns is uniform. A classification means for classifying into a plurality of character types having different distribution characteristics in the height direction of the character pattern; and a height of the character pattern corresponding to the similar character, and a determined character classified into the plurality of character types. A similar character discriminating device, comprising: individual determining means for individually determining a recognition result corresponding to each of the similar characters based on a height of a corresponding character pattern.
【請求項3】 原稿から読み取られた文字パターンに基
づいて前記原稿に記載された各文字を認識するパターン
認識手段を備えた文字認識装置において、 相似形の文字パターンによって大文字と小文字とが表さ
れる相似文字を含む所定の範囲の文字列に対応する文字
パターン列と、前記パターン認識手段によって前記文字
パターン列について行われた認識結果とを受け取って入
力する文字集合入力手順と、 前記文字パターン列に含まれる各文字パターンの高さが
一様であるか否かを判定する高さ分布判定手順と、 前記各文字パターンの高さにばらつきがある旨の判定結
果に応じて、前記文字パターン列に含まれる文字パター
ンの高さについての判別分析によって、大文字に相当す
る高さを持つ大文字クラスと小文字に相当する高さを持
つ小文字クラスとに分類し、この分類結果に基づいて、
判別対象となる前記相似文字の認識結果を決定する判別
分析処理手順と、 前記各文字パターンの高さが一様である旨の判定結果に
応じて、前記認識結果に含まれる確定済みの文字につい
て、文字パターンの高さ方向における分布の特徴が異な
る複数の文字型に分類する分類手順と、 前記相似文字に対応する文字パターンの高さと、前記複
数の文字型に分類された確定済みの文字に対応する文字
パターンの高さとに基づいて、前記相似文字それぞれに
対応する認識結果を個別に決定する個別判定手順とをコ
ンピュータに実行させる相似文字判別プログラムを記録
した記憶媒体。
3. A character recognition device comprising a pattern recognition means for recognizing each character written on a document based on a character pattern read from the document, wherein uppercase and lowercase characters are represented by similar character patterns. A character set sequence for receiving and inputting a character pattern string corresponding to a character string in a predetermined range including similar characters, and a recognition result performed on the character pattern string by the pattern recognition means; and A height distribution determining procedure for determining whether the height of each character pattern included in the character pattern is uniform, and the character pattern string according to a determination result that the height of each character pattern varies. Based on the discriminant analysis of the height of the character pattern included in the uppercase, the uppercase class with the height equivalent to the uppercase and the small sentence with the height equivalent to the lowercase Character class, and based on this classification result,
A discriminant analysis processing procedure for determining a recognition result of the similar character to be determined, and a determined character included in the recognition result according to a determination result that the height of each character pattern is uniform. A classification procedure of classifying into a plurality of character types having different distribution characteristics in the height direction of the character pattern; and a height of a character pattern corresponding to the similar character, and a determined character classified into the plurality of character types. A storage medium storing a similar character determination program for causing a computer to execute an individual determination procedure for individually determining a recognition result corresponding to each of the similar characters based on a height of a corresponding character pattern.
JP11052844A 1999-03-01 1999-03-01 Method and device for discriminating similar character and storage medium recording similar character discrimination program Withdrawn JP2000251015A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11052844A JP2000251015A (en) 1999-03-01 1999-03-01 Method and device for discriminating similar character and storage medium recording similar character discrimination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11052844A JP2000251015A (en) 1999-03-01 1999-03-01 Method and device for discriminating similar character and storage medium recording similar character discrimination program

Publications (1)

Publication Number Publication Date
JP2000251015A true JP2000251015A (en) 2000-09-14

Family

ID=12926164

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11052844A Withdrawn JP2000251015A (en) 1999-03-01 1999-03-01 Method and device for discriminating similar character and storage medium recording similar character discrimination program

Country Status (1)

Country Link
JP (1) JP2000251015A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831434A (en) * 2012-07-03 2012-12-19 天津师范大学 Handwritten Chinese character recognizing method based on identification normalization
CN103295007A (en) * 2013-05-02 2013-09-11 华南理工大学 Feature dimension-reduction optimization method for Chinese character recognition

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831434A (en) * 2012-07-03 2012-12-19 天津师范大学 Handwritten Chinese character recognizing method based on identification normalization
CN103295007A (en) * 2013-05-02 2013-09-11 华南理工大学 Feature dimension-reduction optimization method for Chinese character recognition
CN103295007B (en) * 2013-05-02 2016-06-22 华南理工大学 A kind of Feature Dimension Reduction optimization method for Chinese Character Recognition

Similar Documents

Publication Publication Date Title
US5768417A (en) Method and system for velocity-based handwriting recognition
US6738519B1 (en) Character recognition apparatus
US5802205A (en) Method and system for lexical processing
US20030190074A1 (en) Methods and apparatuses for handwriting recognition
JP2012208589A (en) Business form recognition apparatus, business form recognition method and program therefor
KR100480316B1 (en) Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing
JP3313272B2 (en) Address reading method and identification function weight vector generation method
KR101265928B1 (en) Logical structure and layout based offline character recognition
JP2000251015A (en) Method and device for discriminating similar character and storage medium recording similar character discrimination program
Cao et al. Robust page segmentation based on smearing and error correction unifying top-down and bottom-up approaches
US6320985B1 (en) Apparatus and method for augmenting data in handwriting recognition system
JP4087191B2 (en) Image processing apparatus, image processing method, and image processing program
JP3180792B2 (en) Character recognition device, character learning device, and computer-readable recording medium
JP2001283157A (en) Method and program for recognizing word
JP4109738B2 (en) Image processing method and apparatus and storage medium therefor
JPH11184976A (en) Dictionary learning system and character recognition device
JP3925011B2 (en) Pattern recognition apparatus and recognition method
JPH09245120A (en) Character segmenting method
JPH11191135A (en) Japanese/english discriminating method for document image, document recognizing method and recording medium
JP2001092924A (en) Method and device for recognizing pattern
JP2002056357A (en) Character recognizing device, its method, and recording medium
JPH09282417A (en) Character recognition device
JP2866920B2 (en) Standard pattern creation method and apparatus, and character recognition apparatus and method
JPH0950488A (en) Method for reading different size characters coexisting character string
JPH08241378A (en) Recognizing method for low-quality character

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060509