JP3537570B2 - Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings - Google Patents

Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Info

Publication number
JP3537570B2
JP3537570B2 JP32873795A JP32873795A JP3537570B2 JP 3537570 B2 JP3537570 B2 JP 3537570B2 JP 32873795 A JP32873795 A JP 32873795A JP 32873795 A JP32873795 A JP 32873795A JP 3537570 B2 JP3537570 B2 JP 3537570B2
Authority
JP
Japan
Prior art keywords
pitch
character
space
characters
rectangle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP32873795A
Other languages
Japanese (ja)
Other versions
JPH09167206A (en
Inventor
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP32873795A priority Critical patent/JP3537570B2/en
Publication of JPH09167206A publication Critical patent/JPH09167206A/en
Application granted granted Critical
Publication of JP3537570B2 publication Critical patent/JP3537570B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する分野】本発明は、文字認識装置における
スペース検出処理に係り、特に、日英混在の文書に対す
るスペース検出処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to space detection processing in a character recognition device, and more particularly to space detection processing for a document in a mixture of Japanese and English.

【0002】[0002]

【従来の技術】文書を文字認識によってテキストデータ
に変換し、このテキストデータから文書を再現できるよ
うにする場合等には、文字認識に際し、文書中のスペー
スも検出する必要がある。このような文書中のスペース
検出に関する従来技術としては次に述べるようなものが
知られている。
2. Description of the Related Art When a document is converted into text data by character recognition so that the document can be reproduced from the text data, it is necessary to detect a space in the document upon character recognition. The following is known as a prior art relating to such space detection in a document.

【0003】従来技術1:文字間の白画素数を計数し、
計数値を標準文字ピッチで割ることによりスペースコー
ド数を決定する(特願昭63−14282号)。
Prior Art 1: Counting the number of white pixels between characters,
The number of space codes is determined by dividing the counted value by the standard character pitch (Japanese Patent Application No. 63-14282).

【0004】従来技術2:文書のピッチ書式(定ピッチ
/プロポーショナルピッチ)を判定する。そして、判定
したピッチ書式に応じた方法でスペースを検出する(特
願平1−161176号)。
Prior art 2: A pitch format (constant pitch / proportional pitch) of a document is determined. Then, a space is detected by a method according to the determined pitch format (Japanese Patent Application No. 1-161176).

【0005】従来技術3:日英文字混在の日本語文章に
おいて、文字間空白幅と文字幅の情報を比較しスペース
の種類と有無を判定するが、スペースの前後にある文字
の種類を参照してスペースの有効/無効を判定する(特
願平2−214136号)。
Prior art 3: In a Japanese sentence in which Japanese and English characters are mixed, the type of space and the presence or absence of a space are determined by comparing information on the space width between characters and the character width. To determine whether the space is valid or invalid (Japanese Patent Application No. 2-214136).

【0006】従来技術4:日英文字混在の日本語文章に
おいて、文字間空白幅と文字の標準サイズを比較し、ス
ペースの種類と有無を判定するが、文字間空白に隣接す
る文字に応じて文字間空白幅を補正し、この補正後の値
を標準文字サイズと比較する(特願平3−18476
号)。
Prior art 4: In a Japanese sentence containing both Japanese and English characters, the width of the space between characters and the standard size of the character are compared to determine the type and presence or absence of the space. The character space width is corrected, and the corrected value is compared with the standard character size (Japanese Patent Application No. Hei 3-18476).
issue).

【0007】[0007]

【発明が解決しようとする課題】日本文字と英数字(英
文字と数字)が混在する文書では、日本文字と英数字の
フォントの違い、全角文字と半角文字という文字サイズ
の違い、定ピッチとプロポーショナルピッチというピッ
チ書式の違いが存在し、しかも、このような違いが文書
中の不特定の部分に生じる。そして、スペースの幅も場
所によって違いが生じる。このことは図9に示す印字サ
ンプルをみれば容易に理解されよう。図9において、全
て全角文字で定ピッチ印字されたサンプル1では、「R
icoh」の「h」と次の「P」との間にだけスペース
がある。これに対して英数字がプロポーショナルピッチ
で印字されたサンプル2では、「新型」の「型」と次の
「R」との間、及び「Ricoh」の「h」と次の
「P」にスペースがあり、しかも、そのスペースはサン
プル1のスペースより間隔が狭い。
In a document in which Japanese characters and alphanumeric characters (alphabetic characters and numbers) are mixed, differences in fonts between Japanese characters and alphanumeric characters, differences in character sizes between full-width characters and half-width characters, constant pitch and There is a difference in pitch format called proportional pitch, and such a difference occurs in an unspecified portion in a document. The width of the space also differs depending on the location. This can be easily understood from the print sample shown in FIG. In FIG. 9, in sample 1 in which all pitch characters are printed at a constant pitch, “R
There is a space only between the "h" of the iconh and the next "P". On the other hand, in sample 2 in which alphanumeric characters are printed at a proportional pitch, a space is placed between the "model" of the "new model" and the next "R", and between "h" of the "Ricoh" and the next "P". And the space is narrower than the space of the sample 1.

【0008】このような日英混在文書に対しては、従来
技術では高精度のスペース検出が困難な場合があった。
また、行中で日本文字と英数字が混在するような場合に
ピッチ書式を的確に判定する方法は知られていなかっ
た。従来技術2は、文書全体又は行全体が英文であると
仮定し、英単語単位の処理となっているため、行中に部
分的に現れる英単語中のスペースを精度よく検出できな
かった。定ピッチ文字列中のスペース検出に関しては、
定ピッチ文字列の文字間隔の変動が大きいため、全角サ
イズのスペースは検出できても、文字間隔を補正する従
来技術4によっても半角スペースの検出精度が上がらな
かった。プロポーショナルピッチ文字列中のスペース検
出に関しては、プロポーショナルピッチ文字列の文字間
隔が狭いので、従来技術4によってもスペースを検出で
きなかった。
For such a mixed document of Japanese and English, it has been difficult in the prior art to detect a space with high accuracy.
Also, there has been no known method for accurately determining a pitch format when Japanese characters and alphanumeric characters are mixed in a line. The prior art 2 assumes that the entire document or the entire line is an English sentence, and performs processing in units of English words. Therefore, it is not possible to accurately detect a space in an English word that appears partially in a line. Regarding space detection in fixed pitch character strings,
Because the character spacing of the constant-pitch character string greatly fluctuates, a full-width space can be detected, but even the conventional technology 4 for correcting the character spacing does not improve the detection accuracy of a half-width space. Regarding the space detection in the proportional pitch character string, the space could not be detected even in the prior art 4 because the character pitch of the proportional pitch character string was narrow.

【0009】本発明の目的は、日本文字と英数字が行中
に混在するような日英混在文書に対し高精度のスペース
検出が可能な改良した方法、並びに、このスペース検出
方法のために好適なピッチ書式の判定方法及び定ピッチ
文字列中のスペースの検出方法を提供することにある
SUMMARY OF THE INVENTION It is an object of the present invention to provide an improved method capable of detecting a space with high accuracy in a Japanese-English mixed document in which Japanese characters and alphanumeric characters are mixed in a line, and suitable for the space detecting method. Pitch format determination method and constant pitch
An object of the present invention is to provide a method for detecting a space in a character string .

【0010】[0010]

【課題を解決するための手段】本発明による日英混在文
書のスペース検出方法は、文書の画像より文字を切り出
し認識する文字認識装置において、英日混在の文書の文
字認識結果に基づいて英数文字列を対象範囲として抽出
する対象範囲抽出処理と、該対象範囲抽出処理により抽
出された各対象範囲毎にピッチ書式が定ピッチかプロポ
ーショナルピッチかを判定するピッチ書式判定処理と、
該ピッチ書式判定処理により定ピッチと判定された各対
象範囲毎にスペースを検出する定ピッチ文字列スペース
検出処理と、該ピッチ書式判定処理によりプロポーショ
ナルピッチと判定された各対象範囲毎にスペースを検出
するプロポーショナルピッチ文字列スペース検出処理と
を有することを基本とするものである。
According to the present invention , there is provided a method for detecting a space in a mixed-language document in a character recognition apparatus for recognizing characters by extracting characters from an image of the document. A target range extracting process of extracting a character string as a target range, a pitch format determining process of determining whether a pitch format is a fixed pitch or a proportional pitch for each target range extracted by the target range extracting process,
A constant pitch character string space detection process for detecting a space for each target range determined as a constant pitch by the pitch format determination process, and a space detection for each target range determined as a proportional pitch by the pitch format determination process it is an basic that it has a proportional pitch string space detecting process.

【0011】請求項1記載の発明は、上記日英混在文書
のスペース検出方法において、ピッチ書式判定処理で、
各対象範囲に対し、各対象範囲毎に切り出し情報に基づ
き決定される標準文字サイズに対する文字矩形間隔の比
である文字矩形間隔比が所定の閾値より小さい文字矩形
間隔のほうが、文字矩形間隔比が該閾値以上の文字矩形
間隔より多数であるならばプロポーショナルピッチと判
定し、そうでなければ定ピッチと判定することを特徴と
するものである。
According to a first aspect of the present invention, in the method for detecting a space in a mixed document of Japanese and English, the pitch format determination processing includes:
For each target range, the character rectangle interval ratio, which is a ratio of the character rectangle interval to the standard character size determined based on the clipping information for each target range, is smaller than a predetermined threshold value, the character rectangle interval ratio is smaller. If the number of characters is larger than the threshold and is larger than the character rectangle interval, it is determined that the pitch is proportional, otherwise, it is determined that the pitch is constant.

【0012】請求項2記載の発明は、更に、定ピッチ文
字列スペース検出処理で、注目した文字間の前後の文字
間の文字矩形ピッチのうちの小さい方の文字矩形ピッチ
を注目した文字間の基準ピッチとし、注目した文字間の
文字矩形ピッチの基準ピッチとの比が所定の閾値より大
きいときに、注目した文字間にスペースが存在すると判
定することを特徴とするものである。
According to a second aspect of the present invention, in the constant-pitch character string space detection processing, the smaller character rectangular pitch of the character rectangular pitches between the characters before and after the focused character is detected. When the ratio of the character rectangular pitch between the focused characters to the reference pitch is larger than a predetermined threshold value, it is determined that a space exists between the focused characters.

【0013】請求項3記載の発明は、更に、プロポーシ
ョナルピッチ文字列スペース検出処理で、各対象範囲毎
に切り出し情報に基づき決定される標準文字サイズに対
する文字矩形間隔の比である文字矩形間隔比が、所定の
閾値より大きいときに、対応する文字間にスペースが存
在すると判定することを特徴とするものである。
According to a third aspect of the present invention, in the proportional pitch character string space detecting process, a character rectangle interval ratio, which is a ratio of a character rectangle interval to a standard character size determined based on cutout information for each target range, is set. , When it is larger than a predetermined threshold value, it is determined that a space exists between the corresponding characters.

【0014】また、請求項4記載の発明のピッチ書式判
定方法は、文書の画像より文字を切り出し認識する文字
認識装置において、認識された各英数文字列に対し、各
英数文字列毎に切り出し情報に基づいて決定される標準
文字サイズに対する文字矩形間隔の比である文字矩形間
隔比が所定の閾値より小さい文字矩形間隔のほうが、文
字矩形間隔比が該閾値以上の文字矩形間隔より多数であ
るならばプロポーショナルピッチと判定し、そうでなけ
れば定ピッチと判定することを特徴とする。
According to a fourth aspect of the present invention, there is provided a character recognition device for recognizing a character by extracting a character from a document image. A character rectangle interval in which the character rectangle interval ratio which is a ratio of the character rectangle interval to the standard character size determined based on the cutout information is smaller than a predetermined threshold is larger than a character rectangle interval in which the character rectangle interval ratio is equal to or larger than the threshold. If there is, a proportional pitch is determined, and if not, a constant pitch is determined.

【0015】また、請求項5記載の発明の定ピッチ英数
文字列のスペース検出方法は、文書の画像より文字を切
り出し認識する文字認識装置において、認識された定ピ
ッチの各英数文字列に対して、隣接する文字矩形の中心
の間隔を文字間の文字矩形ピッチとし、注目した文字間
の前後の文字間の文字矩形ピッチのうちの小さい方の文
字矩形ピッチを注目した文字間の基準ピッチとし、注目
した文字間が該英数文字列の最初の文字間であるとき
は、該注目した文字間の後の文字間の文字矩形ピッチを
基準ピッチとし、注目した文字間が該英数文字列の最後
の文字間であるときは、該注目した文字間の前の文字間
の文字矩形ピッチを基準ピッチとし、注目した文字間の
文字矩形ピッチの基準ピッチとの比(文字矩形ピッチ/
基準ピッチ)が所定の閾値より大きいときに、注目した
文字間にスペースが存在すると判定することを特徴とす
るものである。
According to a fifth aspect of the present invention, there is provided a character recognition apparatus for extracting a character from a document image by recognizing a space in a fixed-pitch alphanumeric character string. In contrast, the center of the adjacent character rectangle
The spacing and character rectangle pitch between characters, a reference pitch between characters which focuses the smaller character rectangle pitch ones of character rectangle pitch between the front and rear of characters between target character, attention
Is between the first characters of the alphanumeric character string
Is the character rectangle pitch between characters following the noted character.
The reference pitch is used, and the space between the noticed characters is the end of the alphanumeric character string.
Between the characters of the
Of the character rectangle pitch between the focused characters and the reference pitch (character rectangle pitch / character rectangle pitch).
When the reference pitch is larger than a predetermined threshold value, it is determined that a space exists between the focused characters.

【0016】[0016]

【発明の実施の形態】本発明の実施の形態を明らかにす
るため、図面を用いて本発明の一実施例を説明する。図
1は本発明の一実施例の全体的処理フローを示し、図2
は本発明の一実施例のための装置構成例を示す。図1中
のスペース検出処理のフローを図3に示す。図3中のピ
ッチ書式判定処理のフローを図4に、プロポーショナル
ピッチ文字列スペース検出処理のフローを図5に、定ピ
ッチ文字列スペース検出処理のフローを図6に、それぞ
れ示す。図7及び図8はスペース検出処理の説明のため
の図である。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS In order to clarify an embodiment of the present invention, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows an overall processing flow of an embodiment of the present invention, and FIG.
Shows an example of a device configuration for an embodiment of the present invention. FIG. 3 shows a flow of the space detection processing in FIG. FIG. 4 shows the flow of the pitch format determination processing in FIG. 3, FIG. 5 shows the flow of the proportional pitch character string space detection processing, and FIG. 6 shows the flow of the constant pitch character string space detection processing. 7 and 8 are diagrams for explaining the space detection processing.

【0017】初めに図1及び図2を参照し、全体的処理
フローを装置構成と関連付けて説明する。まず、画像入
力部200により文書画像のデータを入力し、これをバ
ス213を経由して画像メモリ208に格納する(ステ
ップ100)。画像が入力されると、行・文字切り出し
部202において、画像メモリ208内の文書画像中の
文字行と文字を切り出し、切り出した文字行及び文字の
領域の情報を切り出しメモリ209に格納する(ステッ
プ110)。ここに格納される切り出し情報は、例え
ば、文字行の始点と終点の座標あるいは始点座標と幅、
文字の外接矩形(文字矩形)の対角頂点の座標やサイズ
情報である。これらの情報は、各文字矩形と、それが所
属する文字行との対応関係が識別できるような形で作成
され格納されることは当然である。そして、文字認識部
203において、切り出しメモリ209内の切り出し情
報を参照し、画像メモリ208より文字画像を取り込
み、それを文字辞書メモリ210内の文字辞書と比較す
ることにより文字画像に対する文字コードを決定し、そ
れを結果メモリ211に格納する(ステップ120)。
なお、文字認識部203において、単語や文法等の言語
知識を利用して、文字辞書との比較による認識結果に対
する修正等の後処理を行ってもよい。
Referring first to FIGS. 1 and 2, the overall processing flow will be described in relation to the apparatus configuration. First, document image data is input by the image input unit 200 and stored in the image memory 208 via the bus 213 (step 100). When an image is input, the line / character cutout unit 202 cuts out character lines and characters in the document image in the image memory 208, and stores information on the cutout character lines and character areas in the cutout memory 209 (step). 110). The clipping information stored here includes, for example, the coordinates of the starting point and the ending point of the character line or the starting point coordinates and the width,
The coordinates and size information of the diagonal vertices of the circumscribed rectangle (character rectangle) of the character. Naturally, such information is created and stored in such a manner that the correspondence between each character rectangle and the character line to which it belongs can be identified. The character recognition unit 203 refers to the cut-out information in the cut-out memory 209, takes in the character image from the image memory 208, and compares it with the character dictionary in the character dictionary memory 210 to determine the character code for the character image. Then, it is stored in the result memory 211 (step 120).
Note that the character recognition unit 203 may perform post-processing such as correction of a recognition result by comparison with a character dictionary, using linguistic knowledge such as words and grammar.

【0018】文字認識部203による認識処理が文書画
像の全体あるいは一部について終了した段階で、スペー
ス検出処理(ステップ130)が開始する。このスペー
ス検出処理(ステップ130)は、対象範囲抽出部20
4、ピッチ書式判定部205、定ピッチ文字列スペース
検出部206及びプロポーショナルピッチ文字列スペー
ス検出部207により実行され、その際に切り出しメモ
リ209、結果メモリ211及びワークメモリ212が
参照される。スペース検出結果は結果メモリ211に格
納される。スペース検出処理が終了すると、結果メモリ
211内のデータが外部に出力され(ステップ14
0)、処理全体が終了する。
When the recognition process by the character recognition unit 203 is completed for the whole or a part of the document image, the space detection process (step 130) starts. This space detection processing (step 130) is performed by the target range extraction unit 20.
4. The process is executed by the pitch format determining unit 205, the constant pitch character string space detecting unit 206, and the proportional pitch character string space detecting unit 207. At this time, the cutout memory 209, the result memory 211, and the work memory 212 are referred to. The space detection result is stored in the result memory 211. When the space detection process is completed, the data in the result memory 211 is output to the outside (step 14).
0), the entire process ends.

【0019】スペース検出処理(ステップ130)の概
略は図3に示すとおりである。まず、対象範囲抽出部2
04において、結果メモリ211内の文字認識結果(文
字コード)を参照し、スペース検出処理の対象範囲とし
ての英数文字列を抽出する(ステップ300)。抽出し
た対象範囲に関する情報はワークメモリ212に保存さ
れる。次に、ピッチ書式判定部205において、対象範
囲の文字に関して切り出しメモリ209及び結果メモリ
211の内容を参照し、対象範囲がプロポーショナルピ
ッチであるか、定ピッチであるかを判定する(ステップ
301)。判定結果はワークメモリ212に保存され
る。プロポーショナルピッチと判定された対象範囲に対
しては、プロポーショナルピッチ文字列スペース検出部
207において切り出しメモリ209及び結果メモリ2
11の内容を参照して、プロポーショナルピッチ用の方
法によりスペース検出を行い、検出したスペースをスペ
ースコードとして結果メモリ211に書き込む(ステッ
プ302)。定ピッチと判定された対象範囲に対して
は、定ピッチ文字列スペース検出部206において切り
出しメモリ209及び結果メモリ211の内容を参照し
て、定ピッチ用の方法によりスペース検出を行い、検出
したスペースをスペースコードとして結果メモリ211
に書き込む(ステップ303)。こここ述べた処理の具
体的な内容について、図4乃至図8を参照し説明する。
The outline of the space detecting process (step 130) is as shown in FIG. First, the target range extraction unit 2
At 04, the character recognition result (character code) in the result memory 211 is referred to, and an alphanumeric character string as a target range of the space detection processing is extracted (step 300) . Information about the extracted target range is stored in the work memory 212. Next, the pitch format determination unit 205 refers to the contents of the cutout memory 209 and the result memory 211 for the characters in the target range, and determines whether the target range is a proportional pitch or a constant pitch (step 301). The determination result is stored in the work memory 212. With respect to the target range determined to be proportional pitch, the proportional pitch character string space detection unit 207 extracts the cutout memory 209 and the result memory 2.
11, the space is detected by the method for proportional pitch, and the detected space is written to the result memory 211 as a space code (step 302). With respect to the target range determined as the constant pitch, the constant pitch character string space detection unit 206 performs space detection by the method for the constant pitch with reference to the contents of the cutout memory 209 and the result memory 211, and detects the detected space. In the result memory 211 as a space code
(Step 303). The specific contents of the processing described above will be described with reference to FIGS.

【0020】図7の(a)に示すような文字行を処理す
る場合を考える。この文字行には、スペースを含む部分
が2カ所ある。一つはプロポーショナルピッチ(フォン
トはTimes−Roman)で印字された「Preter 5
5」の「Preter」と「55」の間である。もう一
つは、定ピッチ(フォントはCourier)で印字された
「Imagio 77」の「Imagio」と「77」
の間である。この文字行に対する文字認識(ステップ1
20)の結果はスペースを含まず、「新型コピー、Pr
eter55とImagio77発売」となる。
Consider the case of processing a character line as shown in FIG . This character line has two parts including spaces. One is “Preter 5” printed at proportional pitch (font is Times-Roman).
5 "between" Preter "and" 55 ". The other is “Imagio” and “77” of “Imagio 77” printed at a fixed pitch (font is Courier).
Between. Character recognition for this character line (step 1
The result of 20) does not include a space, and “New copy, Pr
ETER55 and IMAGEIO77 released. "

【0021】対象範囲抽出処理(ステップ300)で
は、そのようなスペースを含まない文字認識結果を参照
し、英数字(英字又は数字)が5文字以上連続している
文字列を対象範囲として抽出する。したがって、図7の
(a)に示す文字行では、図7の(b)に示すように
「Preter55」と「Imagio77」の二つの
文字列が対象範囲として抽出される。なお、抽出判定の
ための文字長は5文字に限定されるものではなく、処理
する文書の種類に応じて適宜変更してよい。また、対象
範囲の決定方法そのものも適宜変更し得るものである。
In the target range extraction process (step 300), a character string in which five or more consecutive alphanumeric characters (alphabetic characters or numbers) are extracted as a target range with reference to a character recognition result that does not include such spaces. . Therefore, in the character line shown in FIG. 7A, as shown in FIG. 7B, two character strings “Preter55” and “Imagio77” are extracted as the target range. Note that the character length for extraction determination is not limited to five characters, and may be changed as appropriate according to the type of document to be processed. Further, the method of determining the target range itself can be appropriately changed.

【0022】このようにして対象範囲として抽出された
英数文字列について、ピッチ書式判定(ステップ30
1)を行う。図4はそのフローチャートである。
With respect to the alphanumeric character string extracted as the target range in this way, pitch format determination (step 30)
Perform 1). FIG. 4 is a flowchart thereof.

【0023】まず、対象範囲に関する標準文字サイズを
決定する(ステップ400)。具体的には、対象範囲内
における最大の文字矩形高さの1.25倍(文字サイズ
A)と、対象範囲が含まれる文字行内の最大の文字矩形
高さ(文字サイズB)を求める。文字サイズA,Bの大
きい方の値を標準文字サイズとする。ただし、対象範囲
内に「j」の文字矩形がある場合、その文字矩形は標準
文字サイズの決定には利用しない。図8は、このような
標準文字サイズ決定の説明図である。
First, the standard character size for the target range is determined (step 400). Specifically, 1.25 times the maximum character rectangle height (character size A) in the target range and the maximum character rectangle height (character size B) in the character line including the target range are obtained. The larger value of the character sizes A and B is set as the standard character size. However, when the character rectangle of “j” exists in the target range, the character rectangle is not used for determining the standard character size. FIG. 8 is an explanatory diagram of such a standard character size determination.

【0024】図7に示した一つ目の対象範囲では、
「P」の文字矩形の高さが最大であるので、その高さを
1.25倍した値と、文字行内で最大の「新」の文字矩
形高さとを比較し、大きい方の値が標準文字サイズとさ
れる。なお、他の方法によって標準文字サイズを決定し
てもよい。
In the first target range shown in FIG.
Since the height of the character rectangle of "P" is the maximum, a value obtained by multiplying the height by 1.25 and the maximum height of the character rectangle of the "new" in the character line are compared. Character size. Note that the standard character size may be determined by another method.

【0025】以上のようにして対象範囲に対する標準文
字サイズを決定すると、次に、この標準文字サイズを用
いて、対象範囲の先頭より、隣接する文字矩形のペアを
選び、その文字矩形間の空白部の幅、すなわち文字矩形
間隔(図7の(c)参照)の標準文字サイズに対する比
(文字矩形間隔比=文字矩形間隔/標準文字サイズ)を
計算する(ステップ405,410)。計算した文字矩
形間隔比は、ワークメモリ212に保存される。文字矩
形間隔は、切り出しメモリ209に保存されている二つ
の文字矩形の座標から算出される。ただし、切り出し処
理の段階で文字矩形間隔を求めておいてもよく、その場
合は、切り出しメモリ209より読み出した文字矩形間
隔を文字矩形間隔比の計算に用いればよい。次に、この
ようにして計算した文字矩形間隔比を所定の閾値TH1
と比較する(ステップ415)。この閾値TH1は例え
ば0.17である(この値に限らないが、一般的文書で
は、このあたりの値が適当であることが実験により確認
された。ただし、処理する文書に応じて調整するのが好
ましい)。文字矩形間隔比が閾値TH1より小さいとき
にカウンタNS(初期値は0)を1だけインクリメント
し(ステップ420)、文字矩形間隔比が閾値TH1以
上のときにカウンタNL(初期値は0)を1だけインク
リメントする(ステップ421)。次の文字矩形ペアが
残っている場合は、ステップ405からステップ420
の処理ループを繰り返す。
When the standard character size for the target range is determined as described above, a pair of adjacent character rectangles is selected from the head of the target range using the standard character size, and the space between the character rectangles is selected. The width of the copy, that is, the ratio of the character rectangle interval (see FIG. 7C) to the standard character size (character rectangle interval ratio = character rectangle interval / standard character size) is calculated (steps 405 and 410). The calculated character rectangle interval ratio is stored in the work memory 212. The character rectangle interval is calculated from the coordinates of two character rectangles stored in the cutout memory 209. However, the character rectangle interval may be obtained at the stage of the cutout processing. In that case, the character rectangle interval read from the cutout memory 209 may be used for calculating the character rectangle interval ratio. Next, the character rectangle interval ratio calculated in this manner is set to a predetermined threshold value TH1.
(Step 415). This threshold value TH1 is, for example, 0.17 (although it is not limited to this value, it has been experimentally confirmed that a value around this is appropriate in a general document. However, it is adjusted according to the document to be processed. Is preferred). When the character rectangle interval ratio is smaller than the threshold value TH1, the counter NS (initial value is 0) is incremented by 1 (step 420), and when the character rectangle interval ratio is equal to or greater than the threshold value TH1, the counter NL (initial value is 0) is incremented by one. Is incremented by one (step 421). If the next character rectangle pair remains, step 405 to step 420
Is repeated.

【0026】最後の文字矩形ペアまで処理が終了する
と、ステップ405からステップ420又は421まで
の処理ループを抜けステップ425に進む。このステッ
プ425では、カウンタNSの値とカウンタNLの値を
比較する(ステップ425)。カウンタNSの値は対象
範囲内における文字矩形間隔比が閾値TH1より小さ
い、つまり「標準文字サイズ*TH1」より狭い文字矩
形間隔の個数であり、カウンタNLの値は広い文字矩形
間隔の個数である。ゆえに、ステップ425では、狭い
文字矩形間隔が過半数であるか否かを調べている。NS
>NLつまり狭い文字矩形間隔が過半数と判定した場合
には対象範囲の文字列のピッチ書式をプロポーショナル
ピッチに設定し、そのフラグ情報をワークメモリ212
に対象範囲と対応付けて書き込み(ステップ430)、
そうでない場合、つまり広い文字矩形間隔が半数以下で
ある場合には、ピッチ書式を定ピッチに設定し、そのフ
ラグ情報をワークメモリ212に対象範囲と対応付けて
書き込む(ステップ435)。このフラグ情報にしたが
って、次の処理として、プロポーショナルピッチ文字列
スペース検出処理(ステップ302)又は定ピッチ文字
列スペース検出処理(ステップ303)が選択される。
When the processing is completed up to the last character rectangle pair, the processing loop from step 405 to step 420 or 421 is exited, and the routine proceeds to step 425. In this step 425, the value of the counter NS is compared with the value of the counter NL (step 425). The value of the counter NS is the number of character rectangle intervals in which the character rectangle interval ratio in the target range is smaller than the threshold value TH1, that is, smaller than “standard character size * TH1”, and the value of the counter NL is the number of wide character rectangle intervals. . Therefore, in step 425, it is checked whether or not the narrow character rectangle interval is a majority. NS
> NL, that is, when it is determined that the narrow character rectangle interval is the majority, the pitch format of the character string in the target range is set to the proportional pitch, and the flag information is set to the work memory 212.
Is written in association with the target range (step 430),
Otherwise, that is, if the wide character rectangle interval is less than half, the pitch format is set to a constant pitch, and the flag information is written in the work memory 212 in association with the target range (step 435). According to the flag information, a proportional pitch character string space detection process (step 302) or a constant pitch character string space detection process (step 303) is selected as the next process.

【0027】図7の(a)に示した例では、最初の対象
範囲「Preter55」は図7(c)に示すようにプ
ロポーショナルピッチと判定され、もう一つの対象範囲
「Imagio77」は定ピッチと判定される。
In the example shown in FIG. 7A, the first target range "Preter55" is determined to be a proportional pitch as shown in FIG. 7C, and the other target range "Imagio77" is determined to have a constant pitch. Is determined.

【0028】プロポーショナルピッチと判定された対象
範囲に対するスペース検出処理(ステップ302)の処
理内容について説明する。図5は、そのフローチャート
である。
The processing content of the space detection processing (step 302) for the target range determined to be proportional pitch will be described. FIG. 5 is a flowchart thereof.

【0029】ワークメモリ212に保存されている対象
範囲の文字矩形間隔比を取り出し、それを所定の閾値T
H2と比較する(ステップ500,505)。この閾値
TH2は例えば0.29である(この値に限らないが、
一般的文書では、このあたりの値が適当であることが実
験により確認された。ただし、処理する文書に応じて調
整するのが好ましい)。文字矩形間隔比がTH2以下で
あれば、つまり文字矩形間隔が「標準文字サイズ*TH
2」より狭いときには、対応した文字矩形ペアの間にス
ペースは無いと判断される。文字矩形間隔比がTH2よ
り大きいときには、つまり文字矩形間隔が「標準文字サ
イズ*TH2」より広いときには、対応した文字矩形ペ
アの間にスペースが存在すると判断され、対応する認識
結果文字コードの間にスペースコードが挿入される(ス
テップ510)。同様の処理が対象範囲内の全ての文字
矩形間隔比について実行される。
The character rectangle interval ratio of the target range stored in the work memory 212 is extracted, and is taken as a predetermined threshold T.
Compare with H2 (steps 500 and 505). The threshold TH2 is, for example, 0.29 (although not limited to this value,
In a general document, it was confirmed by experiments that the values in this area were appropriate. However, it is preferable to adjust according to the document to be processed.) If the character rectangle spacing ratio is equal to or less than TH2, that is, if the character rectangle spacing is “standard character size * TH
If it is smaller than "2", it is determined that there is no space between the corresponding character rectangle pairs. When the character rectangle interval ratio is larger than TH2, that is, when the character rectangle interval is wider than "standard character size * TH2", it is determined that a space exists between the corresponding character rectangle pairs, and the space between the corresponding recognition result character codes. A space code is inserted (step 510). Similar processing is executed for all character rectangle interval ratios within the target range.

【0030】図7の(a)に示した例では、図7の
(d)に示すように、プロポーショナルピッチと判定さ
れた対象範囲において「Preter」の末尾の「r」
と次の「5」との間の文字矩形間隔比だけがTH2を超
えるので、その位置にスペースコードが挿入される。
In the example shown in FIG. 7A, as shown in FIG. 7D, "r" at the end of "Preter" in the target range determined to be proportional pitch.
Since only the character rectangle interval ratio between the character and the next “5” exceeds TH2, a space code is inserted at that position.

【0031】定ピッチと判定された対象範囲に対するス
ペース検出処理(ステップ303)の処理内容について
説明する。図6は、そのフローチャートである。
The contents of the space detection process (step 303) for the target range determined to have a constant pitch will be described. FIG. 6 is a flowchart thereof.

【0032】対象範囲内のすべての文字間の文字矩形ピ
ッチを計算し、結果をワークメモリ212に保存する
(ステップ600)。すなわち、文字間を介して隣接す
る文字矩形の中心を計算し、その中心の間隔を当該文字
間の文字矩形ピッチとして求める。この計算には、切り
出しメモリ209に保存されている文字矩形の座標デー
タを用いる。ただし、切り出し処理段階で予め隣接した
文字矩形の中心間隔を計算して切り出しメモリ209に
保存しておき、その値を読み出すようにしてもよい。
The character rectangle pitch between all characters in the target range is calculated, and the result is stored in the work memory 212 (step 600). That is, the center of a character rectangle adjacent between characters is calculated, and the distance between the centers is determined as the character rectangle pitch between the characters. For this calculation, the coordinate data of the character rectangle stored in the cutout memory 209 is used. However, the center interval between adjacent character rectangles may be calculated in advance in the cutout processing step, stored in the cutout memory 209, and the value thereof may be read.

【0033】このような文字矩形ピッチの計算を終わる
と、対象範囲の先頭より、注目する一つの文字間を選び
(ステップ605)、注目文字間の前の文字間の文字矩
形ピッチと、注目文字間の後の文字間の文字矩形ピッチ
とを比較し、小さい方の文字矩形ピッチを注目文字間に
対する基準ピッチとする(ステップ610)。注目文字
間が対象範囲の最初の文字間であるときには、注目文字
間の前には文字間が存在しないので、注目文字間の後の
文字間の文字矩形ピッチを基準ピッチとする。同様に、
注目文字間が対象範囲の最後の文字間であるときには、
その前の文字間の文字矩形ピッチを基準ピッチとする。
When the calculation of the character rectangle pitch is completed, one character space to be noticed is selected from the beginning of the target range (step 605). The character rectangle pitch between the following characters is compared with the character rectangle pitch, and the smaller character rectangle pitch is set as the reference pitch for the target character (step 610). When the target character is between the first characters in the target range, since there is no character before the target character, the character rectangular pitch between the characters following the target character is set as the reference pitch. Similarly,
When the space between the characters of interest is between the last characters of the target range,
The character rectangular pitch between the preceding characters is set as the reference pitch.

【0034】次に、注目文字間の文字矩形ピッチを基準
ピッチで割った値を文字矩形ピッチ比(=文字矩形ピッ
チ/基準ピッチ)として計算する(ステップ615)。
そして、文字矩形ピッチ比が所定の閾値TH3より大き
いか、すなわち注目文字間の文字矩形ピッチが「基準ピ
ッチ*TH3」より広いか判定する(ステップ62
0)。閾値TH3は例えば1.8である(この値に限ら
ないが、一般的文書では、このあたりの値が、全角文字
列中の全角スペースも半角文字列中の半角スペースも検
出可能であり、適当であることが実験により確認され
た。ただし、処理する文書に応じて調整するのが好まし
い)。
Next, a value obtained by dividing the character rectangular pitch between the characters of interest by the reference pitch is calculated as a character rectangular pitch ratio (= character rectangular pitch / reference pitch) (step 615).
Then, it is determined whether the character rectangle pitch ratio is larger than a predetermined threshold value TH3, that is, whether the character rectangle pitch between the characters of interest is wider than “reference pitch * TH3” (step 62).
0). The threshold value TH3 is, for example, 1.8 (although the value is not limited to this value, in a general document, a value around this can detect both a full-width space in a full-width character string and a half-width space in a half-width character string. Has been confirmed by experiment, but it is preferable to adjust according to the document to be processed).

【0035】文字矩形ピッチ比がTH3以下であれば、
注目文字間にスペースが存在しないと判断される。文字
矩形ピッチ比がTH3より大きいときには、注目文字間
にスペースが存在すると判断されるので、結果メモリ2
11内の対応した文字コードの間にスペースコードが挿
入される(ステップ625)。同様の処理が対象範囲の
最後の文字間まで繰り返される。
If the character rectangle pitch ratio is TH3 or less,
It is determined that there is no space between the target characters. If the character rectangle pitch ratio is larger than TH3, it is determined that there is a space between the characters of interest.
A space code is inserted between the corresponding character codes in 11 (step 625). Similar processing is repeated up to the last character in the target range.

【0036】図7の(a)に示した例では、図7の
(d)に示すように、定ピッチと判定された対象範囲に
おいて「Imagio」の最後の「o」と次の「7」の
文字間だけ文字矩形ピッチ比がTH3を超えるので、そ
の文字間にスペースが有ると判断されスペースコードが
挿入される。
In the example shown in FIG. 7 (a), as shown in FIG. 7 (d), the last "o" of "Imagio" and the next "7" in the target range determined to have a constant pitch. Since the character rectangular pitch ratio exceeds TH3 only between the characters, it is determined that there is a space between the characters, and a space code is inserted.

【0037】[0037]

【発明の効果】以下に本発明の主な効果を列記する。 (1) 文字認識結果より英数文字列を対象範囲として
抽出し、対象範囲毎にピッチ書式を判別し、各対象範囲
に対して、そのピッチ書式別のスペース検出処理を行う
ため、行中に英数文字列と日本文字列とが混在し、しか
も定ピッチの英数文字列とプロポーショナルピッチの英
数文字列が混在するような日英混在文書に対しても、精
度のよいスペース検出が可能になる。
The main effects of the present invention are listed below. (1) An alphanumeric character string is extracted as a target range from the character recognition result, a pitch format is determined for each target range, and a space detection process for each pitch format is performed for each target range. High-precision space detection is possible for mixed-language Japanese and English documents in which alphanumeric strings and Japanese strings are mixed, and alphanumeric strings with fixed pitch and proportional pitch are mixed. become.

【0038】(2) 対象範囲として抽出した英数文字
列毎に標準文字サイズを決定し、英数文字列における文
字矩形間隔の標準文字サイズに対する相対的な広狭の割
合に着目してピッチ書式を判定するため、英数文字列が
日本文字列と混在し、しかも全角文字と半角文字の英数
文字列が混在するような場合にも、英数文字列のピッチ
書式が定ピッチであるかプロポーショナルピッチである
かを精度よく判別でき、したがって日英混在文書中の英
数文字列に対し、そのピッチ書式にあったスペース検出
処理を的確に適用できるため、定ピッチとプロポーショ
ナルピッチの英数文字列が混在した文書中のスペースを
高精度に検出することができる。
(2) The standard character size is determined for each of the alphanumeric character strings extracted as the target range, and the pitch format is determined by focusing on the relative width ratio of the character rectangle interval to the standard character size in the alphanumeric character string. Even if alphanumeric character strings are mixed with Japanese character strings and full-width and half-width alphanumeric character strings are mixed, the pitch format of alphanumeric character strings is fixed pitch or proportional. It is possible to accurately determine whether the pitch is a pitch, and therefore, it is possible to accurately apply space detection processing that matches the pitch format to alphanumeric character strings in mixed Japanese and English documents, so that alphanumeric character strings with fixed pitch and proportional pitch Can be detected with high precision in a document in which is mixed.

【0039】(3) 定ピッチ英数文字列の文字矩形ピ
ッチは文字によって大きく変動するため、この変動が反
映されない一定の基準ピッチと文字矩形ピッチとの相対
的な広狭を調べても、スペースを精度よく検出できな
い。本発明によれば、注目した文字間の前と後の文字間
の文字矩形ピッチの中の小さい方を、注目した文字間に
対する基準ピッチとして用いるため、文字矩形ピッチの
変動が大きい定ピッチ英数字文字列中のスペースを精度
よく検出することができ、したがって定ピッチの英数文
字列が混在した文書に対するスペース検出精度を上げる
ことができる。
(3) Since the character rectangular pitch of the constant-pitch alphanumeric character string varies greatly depending on the character, even if the relative width of the character rectangular pitch and the fixed reference pitch, which does not reflect this variation, is examined, the space is not changed. Cannot be detected accurately. According to the present invention , the smaller one of the character rectangular pitches between the preceding and succeeding characters between the noted characters is used as the reference pitch for the noted characters. Spaces in a character string can be detected with high precision, and therefore, space detection accuracy can be improved for a document in which alphanumeric character strings having a constant pitch are mixed.

【0040】(4) プロポーショナルピッチ英数文字
列は文字矩形間隔が狭いため、ピッチ書式や文字種を考
慮しない標準文字サイズと文字矩形間隔とを比較する方
法では、スペース検出が難しかった。本発明によれば、
個々のプロポーショナルピッチ英数文字列毎に標準文字
サイズを決定し、標準文字サイズに対する文字矩形間隔
の比を閾値処理するため、プロポーショナルピッチの英
数文字列中のスペースを精度よく検出でき、したがって
プロポーショナルピッチの英数文字列が混在した文書の
スペース検出精度を上げることができる。
(4) Since a proportional pitch alphanumeric character string has a narrow character rectangle interval, it is difficult to detect a space by a method of comparing a standard character size with a character rectangle interval without considering a pitch format or a character type. According to the present invention ,
Since the standard character size is determined for each proportional pitch alphanumeric character string and the ratio of the character rectangle spacing to the standard character size is thresholded, spaces in alphanumeric character strings with proportional pitch can be detected accurately, and Space detection accuracy of a document in which alphanumeric character strings of pitches are mixed can be improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の全体処理フローを示すフロ
ーチャートである。
FIG. 1 is a flowchart showing an overall processing flow of an embodiment of the present invention.

【図2】本発明の一実施例のための装置構成の例を示す
ブロック図である。
FIG. 2 is a block diagram showing an example of a device configuration for one embodiment of the present invention.

【図3】図1中のスペース検出処理の概略を示すフロー
チャートである。
FIG. 3 is a flowchart showing an outline of a space detection process in FIG. 1;

【図4】図3中のピッチ書式判定処理の内容を示すフロ
ーチャートである。
4 is a flowchart showing the contents of a pitch format determination process in FIG.

【図5】図3中のプロポーショナルピッチ文字列スペー
ス検出処理の内容を示すフローチャートである。
FIG. 5 is a flowchart showing the content of a proportional pitch character string space detection process in FIG. 3;

【図6】図3中の定ピッチ文字列スペース検出処理の内
容を示すフローチャートである。
FIG. 6 is a flowchart showing the contents of a constant pitch character string space detection process in FIG. 3;

【図7】スペース検出の具体例を説明するための図であ
る。
FIG. 7 is a diagram illustrating a specific example of space detection.

【図8】ピッチ書式判定のための標準文字サイズの決定
方法の説明図である。
FIG. 8 is an explanatory diagram of a method of determining a standard character size for pitch format determination.

【図9】日英混在文書のスペース検出における課題を明
らかにするための図である。
FIG. 9 is a diagram for clarifying a problem in space detection of a mixed document in Japanese and English.

【符号の説明】[Explanation of symbols]

200 画像入力部 202 行・文字切り出し部 203 文字認識部 204 対象範囲抽出部 205 ピッチ書式判定部 206 定ピッチ文字列スペース検出部 207 プロポーショナルピッチ文字列スペース検出部 208 画像メモリ 209 切り出しメモリ 210 文字辞書メモリ 211 結果メモリ 212 ワークメモリ 213 バス 200 Image input unit 202 Line / character cutout unit 203 character recognition unit 204 Target range extraction unit 205 Pitch format judgment unit 206 Constant pitch character string space detector 207 Proportional pitch character string space detector 208 Image memory 209 Cutout memory 210 character dictionary memory 211 Result memory 212 work memory 213 bus

Claims (5)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 文書の画像より文字を切り出し認識する
文字認識装置において、英日混在の文書の文字認識結果
に基づいて英数文字列を対象範囲として抽出する対象範
囲抽出処理と、該対象範囲抽出処理により抽出された各
対象範囲毎にピッチ書式が定ピッチかプロポーショナル
ピッチかを判定するピッチ書式判定処理と、該ピッチ書
式判定処理により定ピッチと判定された各対象範囲毎に
スペースを検出する定ピッチ文字列スペース検出処理
と、該ピッチ書式判定処理によりプロポーショナルピッ
チと判定された各対象範囲毎にスペースを検出するプロ
ポーショナルピッチ文字列スペース検出処理とを有し、
該ピッチ書式判定処理において、各対象範囲に対し、各
対象範囲毎に切り出し情報に基づき決定される標準文字
サイズに対する文字矩形間隔の比である文字矩形間隔比
が所定の閾値より小さい文字矩形間隔のほうが、文字矩
形間隔比が該閾値以上の文字矩形間隔より多数であるな
らばプロポーショナルピッチと判定し、そうでなければ
定ピッチと判定することを特徴とする日英混在文書のス
ペース検出方法。
1. A character recognition apparatus for extracting and recognizing characters from an image of a document, a target range extracting process for extracting an alphanumeric character string as a target range based on a character recognition result of a document in a mixture of English and Japanese, and the target range A pitch format determination process for determining whether the pitch format is a fixed pitch or a proportional pitch for each target range extracted by the extraction process, and a space is detected for each target range determined as a constant pitch by the pitch format determination process. Constant pitch character string space detection processing, and proportional pitch character string space detection processing for detecting a space for each target range determined as proportional pitch by the pitch format determination processing,
In the pitch format determination processing, for each target range,
Standard characters determined based on clipping information for each target range
Character rectangle spacing ratio, which is the ratio of character rectangle spacing to size
Is smaller than the predetermined threshold.
The shape spacing ratio is greater than the character rectangle spacing that is greater than or equal to the threshold.
If it is proportional pitch, if not
Characterized as a fixed pitch
Pace detection method.
【請求項2】 該ピッチ書式判定処理により定ピッチと
判定されたとき、該定ピッチ文字列スペース検出処理に
おいて、注目した文字間の前後の文字間の文字矩形ピッ
チのうちの小さい方の文字矩形ピッチを注目した文字間
の基準ピッチとし、注目した文字間の文字矩形ピッチの
基準ピッチとの比が所定の閾値より大きいときに、注目
した文字間にスペースが存在すると判定することを特徴
とする請求項1に記載の日英混在文書のスペース検出方
法。
2. The method according to claim 2, wherein the pitch format is determined by a constant pitch.
When it is determined, the constant pitch character string space detection processing
Of the character rectangle between the characters before and after the character of interest.
Between the characters focusing on the smaller character rectangle pitch
Of the character rectangle pitch between the focused characters
Attention when the ratio to the reference pitch is larger than a predetermined threshold
Characteristic that there is a space between characters
2. A method for detecting spaces in mixed Japanese and English documents according to claim 1.
Law.
【請求項3】 該ピッチ書式判定処理によりプロポーシ
ョナルピッチと判定されたとき、該プロポーショナルピ
ッチ文字列スペース検出処理において、各対象範囲毎に
切り出し情報に基づき決定される標準文字サイズに対す
る文字矩形間隔の比である文字矩形間隔比が、所定の閾
値より大きいときに、対応する文字間にスペースが存在
すると判定することを特徴とする請求項1に記載の日英
混在文書のスペース検出方法
3. The method according to claim 1, wherein said pitch format determination processing
When it is determined that the pitch is proportional, the proportional pitch
Switch character string space detection processing,
For standard character size determined based on clipping information
The character rectangle space ratio, which is the ratio of the character rectangle space
Space between corresponding characters when greater than value
2. The Japanese-English language according to claim 1, wherein
Space detection method for mixed documents .
【請求項4】 文書の画像より文字を切り出し認識する
文字認識装置において、認識された各英数文字列に対
し、各英数文字列毎に切り出し情報に基づいて決定され
る標準文字サイズに対する文字矩形間隔の比である文字
矩形間隔比が所定の閾値より小さい文字矩形間隔のほう
が、文字矩形間隔比が該閾値以上の文字矩形間隔より多
数であるならばプロポーショナルピッチと判定し、そう
でなければ定ピッチと判定することを特徴とするピッチ
書式判定方法。
4. A character is cut out from a document image and recognized.
In the character recognition device, each recognized alphanumeric character string
Is determined based on the cut-out information for each alphanumeric character string.
Is the ratio of the character rectangle spacing to the standard character size
The character rectangle spacing whose rectangle spacing ratio is smaller than the predetermined threshold
Is greater than the character rectangle spacing that is greater than or equal to the threshold.
If it is a number, judge it as proportional pitch, so
Otherwise, the pitch is determined to be a constant pitch.
Format determination method.
【請求項5】 文書の画像より文字を切り出し認識する
文字認識装置において、認識された定ピッチの各英数文
字列に対して、隣接する文字矩形の中心の間隔を文字間
の文字矩形ピッチとし、注目した文字間の前後の文字間
の文字矩形ピッチのうちの小さい方の文字矩形ピッチを
注目した文字間の基準ピッチとし、注目した文字間が該
英数文字列の最初の文字間であるときは、該注目した文
字間の後の文字間の文字矩形ピッチを基準ピッチとし、
注目した文字間が該英数文字列の最後の文字間であると
きは、該注目した文字間の前の文字間の文字矩形ピッチ
を基準ピッチとし、注目した文字間の文字矩形ピッチの
基準ピッチとの比が(文字矩形ピッチ/基準ピッチ)所
定の閾値より大きいときに、注目した文字間にスペース
が存在すると判定することを特徴とする定ピッチ英数文
字列のスペース検出方法。
5. Character recognition by extracting characters from an image of a document
In the character recognition device, each alphanumeric sentence of a fixed pitch recognized
The distance between the centers of adjacent character rectangles in the character string
And the character rectangle pitch between the characters before and after
The smaller of the character rectangle pitches
The reference pitch between the noted characters is used as the reference pitch.
If it is between the first characters of the alphanumeric character string,
The character rectangular pitch between the characters after the character is used as the reference pitch,
If the space between the noticed characters is the last character of the alphanumeric string
The character rectangle pitch between the characters before the noted character
Is the reference pitch, and the character rectangular pitch between
Where the ratio to the reference pitch is (character rectangle pitch / reference pitch)
When the value is larger than the specified threshold, a space
Fixed-pitch alphanumeric sentences characterized by determining that
How to detect space in strings.
JP32873795A 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings Expired - Lifetime JP3537570B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32873795A JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32873795A JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Publications (2)

Publication Number Publication Date
JPH09167206A JPH09167206A (en) 1997-06-24
JP3537570B2 true JP3537570B2 (en) 2004-06-14

Family

ID=18213619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32873795A Expired - Lifetime JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Country Status (1)

Country Link
JP (1) JP3537570B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3919617B2 (en) 2002-07-09 2007-05-30 キヤノン株式会社 Character recognition device, character recognition method, program, and storage medium
JP5508359B2 (en) * 2011-08-03 2014-05-28 シャープ株式会社 Character recognition device, character recognition method and program
CN113780265B (en) * 2021-09-16 2023-12-15 平安科技(深圳)有限公司 Space recognition method and device for English words, storage medium and computer equipment

Also Published As

Publication number Publication date
JPH09167206A (en) 1997-06-24

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JPH04195692A (en) Document reader
JP3537570B2 (en) Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings
JPS62133585A (en) Word segmenting system
JP2915175B2 (en) Word space detection method
JPH0991371A (en) Character display device
JP2569103B2 (en) Character detection method
JP3086264B2 (en) Character space recognition method
JP3236732B2 (en) Character recognition device
JPH0728935A (en) Document image processor
JP2887823B2 (en) Document recognition device
JP2995818B2 (en) Character extraction method
JPH028348B2 (en)
JP2968354B2 (en) Post-processing method of character recognition result
JP2838850B2 (en) Kana-Kanji conversion device
JPH0754517B2 (en) Stylistic check processing device for Japanese documents
JPH02125389A (en) Space detecting method
JP3064508B2 (en) Document recognition device
JPH01171080A (en) Recognizing device for error automatically correcting character
JP3243389B2 (en) Document identification method
JPH0950488A (en) Method for reading different size characters coexisting character string
JPH06131492A (en) License plate recognizing method
JP2575947B2 (en) Phrase extraction device
JPH0496883A (en) Inter-character space processing method
JPH10214308A (en) Character discrimination method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040317

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120326

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 10

EXPY Cancellation because of completion of term