JPH09167206A - Space detecting method for japanese/english-mixed document, pitch format judging method, space detecting method for constant pitch alphanumeric character string and space detecting method for proportional pitch alphanumeric character string - Google Patents

Space detecting method for japanese/english-mixed document, pitch format judging method, space detecting method for constant pitch alphanumeric character string and space detecting method for proportional pitch alphanumeric character string

Info

Publication number
JPH09167206A
JPH09167206A JP7328737A JP32873795A JPH09167206A JP H09167206 A JPH09167206 A JP H09167206A JP 7328737 A JP7328737 A JP 7328737A JP 32873795 A JP32873795 A JP 32873795A JP H09167206 A JPH09167206 A JP H09167206A
Authority
JP
Japan
Prior art keywords
pitch
character
space
target range
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7328737A
Other languages
Japanese (ja)
Other versions
JP3537570B2 (en
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP32873795A priority Critical patent/JP3537570B2/en
Publication of JPH09167206A publication Critical patent/JPH09167206A/en
Application granted granted Critical
Publication of JP3537570B2 publication Critical patent/JP3537570B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To detect space in an alphanumeric character string which exits mixedly with a Japanese character string with high precision by picking-up the alphanumeric character string from a character recognition result as an object range, discriminating a pitch format at every object area and executing a space detection processing by pitch format for every object range. SOLUTION: At first, in an object range pick-up part 204, the character recognition result inside a result memory 211 is referred and the alphanumeric string as the object range of the space detection processing is picked-up. Information concerning the picked-up object range is preserved in a work memory 212. Then, in a pitch format judging part 205, the contents of a segmenting memory 209 and the result memory 211 are referred concerning the character of the object range and it is judged whether the object range is a proportional pitch or a constant pitch. The judgement result is preserved in the work memory 212. A constant pitch character string space detection processing or a proportional pitch character string space processing is executed in accordance with the judgement result.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する分野】本発明は、文字認識装置における
スペース検出処理に係り、特に、日英混在の文書に対す
るスペース検出処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a space detection process in a character recognition device, and more particularly to a space detection process for a Japanese / English mixed document.

【0002】[0002]

【従来の技術】文書を文字認識によってテキストデータ
に変換し、このテキストデータから文書を再現できるよ
うにする場合等には、文字認識に際し、文書中のスペー
スも検出する必要がある。このような文書中のスペース
検出に関する従来技術としては次に述べるようなものが
知られている。
2. Description of the Related Art When converting a document into text data by character recognition so that the document can be reproduced from the text data, it is necessary to detect spaces in the document during character recognition. The following is known as a conventional technique relating to such space detection in a document.

【0003】従来技術1:文字間の白画素数を計数し、
計数値を標準文字ピッチで割ることによりスペースコー
ド数を決定する(特願昭63−14282号)。
Prior art 1: Counting the number of white pixels between characters,
The number of space codes is determined by dividing the count value by the standard character pitch (Japanese Patent Application No. 63-14182).

【0004】従来技術2:文書のピッチ書式(定ピッチ
/プロポーショナルピッチ)を判定する。そして、判定
したピッチ書式に応じた方法でスペースを検出する(特
願平1−161176号)。
Prior art 2: Determine the pitch format (constant pitch / proportional pitch) of a document. Then, the space is detected by a method according to the determined pitch format (Japanese Patent Application No. 1-161176).

【0005】従来技術3:日英文字混在の日本語文章に
おいて、文字間空白幅と文字幅の情報を比較しスペース
の種類と有無を判定するが、スペースの前後にある文字
の種類を参照してスペースの有効/無効を判定する(特
願平2−214136号)。
Prior art 3: In a Japanese sentence in which Japanese and English characters are mixed, the space width between characters and the character width information are compared to determine the type of space and the presence / absence of the space, but the types of characters before and after the space are referred to. To determine whether the space is valid or invalid (Japanese Patent Application No. 2-214136).

【0006】従来技術4:日英文字混在の日本語文章に
おいて、文字間空白幅と文字の標準サイズを比較し、ス
ペースの種類と有無を判定するが、文字間空白に隣接す
る文字に応じて文字間空白幅を補正し、この補正後の値
を標準文字サイズと比較する(特願平3−18476
号)。
Prior art 4: In a Japanese sentence containing both Japanese and English characters, the space width between characters and the standard size of the character are compared to determine the type and presence of the space. Depending on the character adjacent to the space between characters, The space width between characters is corrected, and the corrected value is compared with the standard character size (Japanese Patent Application No. 3-18476).
issue).

【0007】[0007]

【発明が解決しようとする課題】日本文字と英数字(英
文字と数字)が混在する文書では、日本文字と英数字の
フォントの違い、全角文字と半角文字という文字サイズ
の違い、定ピッチとプロポーショナルピッチというピッ
チ書式の違いが存在し、しかも、このような違いが文書
中の不特定の部分に生じる。そして、スペースの幅も場
所によって違いが生じる。このことは図9に示す印字サ
ンプルをみれば容易に理解されよう。図9において、全
て全角文字で定ピッチ印字されたサンプル1では、「R
icoh」の「h」と次の「P」との間にだけスペース
がある。これに対して英数字がプロポーショナルピッチ
で印字されたサンプル2では、「新型」の「型」と次の
「R」との間、及び「Ricoh」の「h」と次の
「P」にスペースがあり、しかも、そのスペースはサン
プル1のスペースより間隔が狭い。
[Problems to be Solved by the Invention] In a document in which Japanese characters and alphanumeric characters (English characters and numbers) are mixed, the difference between the fonts of Japanese characters and alphanumeric characters, the difference in character size between full-width characters and half-width characters, and constant pitch There is a difference in pitch format called proportional pitch, and such a difference occurs in an unspecified part of the document. And the width of the space also differs depending on the location. This can be easily understood by looking at the print sample shown in FIG. In FIG. 9, in Sample 1 in which all double-byte characters are printed at a constant pitch, “R
There is a space only between the "h" of "icoh" and the next "P". On the other hand, in Sample 2 in which alphanumeric characters were printed at a proportional pitch, spaces were placed between the "new model" and "R", and between "Ricoh" and "h" and "P". And the space is narrower than the space of Sample 1.

【0008】このような日英混在文書に対しては、従来
技術では高精度のスペース検出が困難な場合があった。
また、行中で日本文字と英数字が混在するような場合に
ピッチ書式を的確に判定する方法は知られていなかっ
た。従来技術2は、文書全体又は行全体が英文であると
仮定し、英単語単位の処理となっているため、行中に部
分的に現れる英単語中のスペースを精度よく検出できな
かった。定ピッチ文字列中のスペース検出に関しては、
定ピッチ文字列の文字間隔の変動が大きいため、全角サ
イズのスペースは検出できても、文字間隔を補正する従
来技術4によっても半角スペースの検出精度が上がらな
かった。プロポーショナルピッチ文字列中のスペース検
出に関しては、プロポーショナルピッチ文字列の文字間
隔が狭いので、従来技術4によってもスペースを検出で
きなかった。
For such a Japanese-English mixed document, it has been difficult in the prior art to detect the space with high accuracy.
Further, there is no known method for accurately determining the pitch format when Japanese characters and alphanumeric characters are mixed in a line. Prior art 2 assumes that the entire document or the entire line is an English sentence and processes it in units of English words. Therefore, it is not possible to accurately detect a space in an English word that partially appears in a line. Regarding space detection in constant pitch character string,
Since the character spacing of the constant-pitch character string fluctuates greatly, even if full-width spaces can be detected, the conventional art 4 for correcting the character spacing also fails to detect half-width spaces. Regarding the space detection in the proportional pitch character string, since the character spacing of the proportional pitch character string is narrow, the space cannot be detected by the prior art 4.

【0009】本発明の目的は、日本文字と英数字が行中
に混在するような日英混在文書に対し高精度のスペース
検出が可能な改良した方法、並びに、このスペース検出
方法のために好適なピッチ書式の判定方法、定ピッチ文
字列中のスペースの検出方法、及びプロポーショナルピ
ッチ文字列中のスペースの検出方法を提供することにあ
る。
The object of the present invention is suitable for an improved method capable of detecting a space with high precision in a Japanese-English mixed document in which Japanese characters and alphanumeric characters are mixed in a line, and the space detecting method. Another object of the present invention is to provide a method for determining a proper pitch format, a method for detecting a space in a constant pitch character string, and a method for detecting a space in a proportional pitch character string.

【0010】[0010]

【課題を解決するための手段】請求項1記載の発明によ
る日英混在文書のスペース検出方法は、文書の画像より
文字を切り出し認識する文字認識装置において、英日混
在の文書の文字認識結果に基づいて英数文字列を対象範
囲として抽出する対象範囲抽出処理と、該対象範囲抽出
処理により抽出された各対象範囲毎にピッチ書式が定ピ
ッチかプロポーショナルピッチかを判定するピッチ書式
判定処理と、該ピッチ書式判定処理により定ピッチと判
定された各対象範囲毎にスペースを検出する定ピッチ文
字列スペース検出処理と、該ピッチ書式判定処理により
プロポーショナルピッチと判定された各対象範囲毎にス
ペースを検出するプロポーショナルピッチ文字列スペー
ス検出処理とを有することを特徴とするものである。
According to the space detection method for a Japanese-English mixed document according to the invention described in claim 1, a character recognition device for recognizing a character from an image of a document recognizes the character recognition result of the English-Japanese mixed document. A target range extraction process for extracting an alphanumeric character string based on the target range, and a pitch format determination process for determining whether the pitch format is a constant pitch or proportional pitch for each target range extracted by the target range extraction process, Constant pitch character string space detection processing for detecting a space for each target range determined to be a constant pitch by the pitch format determination processing, and space detection for each target range determined to be a proportional pitch by the pitch format determination processing Proportional pitch character string space detection processing is performed.

【0011】請求項2記載の発明は、請求項1記載の発
明の日英混在文書のスペース検出方法において、ピッチ
書式判定処理で、各対象範囲に対し、各対象範囲毎に切
り出し情報に基づき決定される標準文字サイズに対する
文字矩形間隔の比である文字矩形間隔比が所定の閾値よ
り小さい文字矩形間隔のほうが、文字矩形間隔比が該閾
値以上の文字矩形間隔より多数であるならばプロポーシ
ョナルピッチと判定し、そうでなければ定ピッチと判定
することを特徴とするものである。
According to a second aspect of the present invention, in the space detection method for a Japanese-English mixed document according to the first aspect of the present invention, the pitch format determination processing determines each target range based on cutout information for each target range. If the character rectangle interval ratio, which is the ratio of the character rectangle interval to the standard character size, is smaller than a predetermined threshold value, if the character rectangle interval ratio is larger than the character rectangle interval of the threshold value or more, the proportional pitch is The feature is that it is determined, and if it is not, the pitch is determined to be constant.

【0012】請求項3記載の発明は、請求項1記載の発
明の日英混在文書のスペース検出方法において、定ピッ
チ文字列スペース検出処理で、注目した文字間の前後の
文字間の文字矩形ピッチのうちの小さい方の文字矩形ピ
ッチを注目した文字間の基準ピッチとし、注目した文字
間の文字矩形ピッチの基準ピッチとの比が所定の閾値よ
り大きいときに、注目した文字間にスペースが存在する
と判定することを特徴とするものである。
According to a third aspect of the present invention, in the space detection method for a Japanese-English mixed document according to the first aspect, the constant pitch character string space detection process is performed to detect a character rectangular pitch between characters before and after a focused character. There is a space between the focused characters when the smaller character rectangle pitch among the focused characters is used as the reference pitch between the focused characters and the ratio of the rectangular character pitch between the focused characters to the reference pitch is greater than a predetermined threshold. Then, the determination is made.

【0013】請求項4記載の発明は、請求項1記載の発
明の日英混在文書のスペース検出方法において、プロポ
ーショナルピッチ文字列スペース検出処理で、各対象範
囲毎に切り出し情報に基づき決定される標準文字サイズ
に対する文字矩形間隔の比である文字矩形間隔比が、所
定の閾値より大きいときに、対応する文字間にスペース
が存在すると判定することを特徴とするものである。
According to a fourth aspect of the present invention, in the space detection method for a Japanese-English mixed document according to the first aspect of the invention, the standard is determined in each proportional range based on the cutout information in the proportional pitch character string space detection processing. When the character rectangle interval ratio, which is the ratio of the character rectangle interval to the character size, is larger than a predetermined threshold value, it is determined that there is a space between the corresponding characters.

【0014】請求項5記載の発明のピッチ書式判定方法
は、文書の画像より文字を切り出し認識する文字認識装
置において、認識された各英数文字列に対し、各英数文
字列毎に切り出し情報に基づいて決定される標準文字サ
イズに対する文字矩形間隔の比である文字矩形間隔比が
所定の閾値より小さい文字矩形間隔のほうが、文字矩形
間隔比が該閾値以上の文字矩形間隔より多数であるなら
ばプロポーショナルピッチと判定し、そうでなければ定
ピッチと判定することを特徴とする。
According to a fifth aspect of the pitch format determining method of the present invention, in a character recognizing device for recognizing a character cut out from a document image, for each recognized alphanumeric character string, cutout information is obtained for each alphanumeric character string. If the character rectangle interval ratio, which is the ratio of the character rectangle interval to the standard character size determined based on, is smaller than a predetermined threshold value, the character rectangle interval ratio is larger than the character rectangle interval of the threshold value or more. For example, it is determined to be proportional pitch, and if not, it is determined to be constant pitch.

【0015】請求項6記載の発明の定ピッチ英数文字列
のスペース検出方法は、文書の画像より文字を切り出し
認識する文字認識装置において、認識された定ピッチの
各英数文字列において、注目した文字間の前後の文字間
の文字矩形ピッチのうちの小さい方の文字矩形ピッチを
注目した文字間の基準ピッチとし、注目した文字間の文
字矩形ピッチの基準ピッチとの比が所定の閾値より大き
いときに、注目した文字間にスペースが存在すると判定
することを特徴とするものである。
According to a sixth aspect of the present invention, there is provided a space detecting method for a constant-pitch alphanumeric character string, wherein a character recognizing device for slicing and recognizing characters from an image of a document recognizes each constant-pitch alphanumeric character string. The smaller character rectangle pitch of the character rectangle pitch between the characters before and after the selected character is set as the reference pitch between the focused characters, and the ratio of the character rectangular pitch between the focused characters to the reference pitch is less than the predetermined threshold. When it is large, it is characterized in that it is determined that there is a space between the noted characters.

【0016】請求項7記載の発明のプロポーショナルピ
ッチ英数文字列のスペース検出方法は、文書の画像より
文字を切り出し認識する文字認識装置において、認識さ
れたプロポーショナルピッチの各英数文字列において、
各英数文字列毎に切り出し情報に基づき決定される標準
文字サイズに対する文字矩形間隔の比である文字矩形間
隔比が、所定の閾値より大きいときに、対応する文字間
にスペースが存在すると判定することを特徴とするもの
である。
According to a seventh aspect of the present invention, there is provided a space detecting method for a proportional pitch alphanumeric character string in a character recognition device for recognizing a character cut out from an image of a document, in which each alphanumeric character string of the proportional pitch is recognized.
When the character rectangle interval ratio, which is the ratio of the character rectangle interval to the standard character size determined based on the cutout information for each alphanumeric character string, is larger than a predetermined threshold value, it is determined that there is a space between the corresponding characters. It is characterized by that.

【0017】[0017]

【発明の実施の形態】本発明の実施の形態を明らかにす
るため、図面を用いて本発明の一実施例を説明する。図
1は本発明の一実施例の全体的処理フローを示し、図2
は本発明の一実施例のための装置構成例を示す。図1中
のスペース検出処理のフローを図3に示す。図3中のピ
ッチ書式判定処理のフローを図4に、プロポーショナル
ピッチ文字列スペース検出処理のフローを図5に、定ピ
ッチ文字列スペース検出処理のフローを図6に、それぞ
れ示す。図7及び図8はスペース検出処理の説明のため
の図である。
BEST MODE FOR CARRYING OUT THE INVENTION An embodiment of the present invention will be described with reference to the drawings in order to clarify the embodiment of the present invention. FIG. 1 shows an overall processing flow of an embodiment of the present invention, and FIG.
Shows an example of a device configuration for one embodiment of the present invention. The flow of the space detection process in FIG. 1 is shown in FIG. The flow of the pitch format determination process in FIG. 3 is shown in FIG. 4, the flow of the proportional pitch character string space detection process is shown in FIG. 5, and the flow of the constant pitch character string space detection process is shown in FIG. 7 and 8 are diagrams for explaining the space detection process.

【0018】初めに図1及び図2を参照し、全体的処理
フローを装置構成と関連付けて説明する。まず、画像入
力部200により文書画像のデータを入力し、これをバ
ス213を経由して画像メモリ208に格納する(ステ
ップ100)。画像が入力されると、行・文字切り出し
部202において、画像メモリ208内の文書画像中の
文字行と文字を切り出し、切り出した文字行及び文字の
領域の情報を切り出しメモリ209に格納する(ステッ
プ110)。ここに格納される切り出し情報は、例え
ば、文字行の始点と終点の座標あるいは始点座標と幅、
文字の外接矩形(文字矩形)の対角頂点の座標やサイズ
情報である。これらの情報は、各文字矩形と、それが所
属する文字行との対応関係が識別できるような形で作成
され格納されることは当然である。そして、文字認識部
203において、切り出しメモリ209内の切り出し情
報を参照し、画像メモリ208より文字画像を取り込
み、それを文字辞書メモリ210内の文字辞書と比較す
ることにより文字画像に対する文字コードを決定し、そ
れを結果メモリ211に格納する(ステップ120)。
なお、文字認識部203において、単語や文法等の言語
知識を利用して、文字辞書との比較による認識結果に対
する修正等の後処理を行ってもよい。
First, referring to FIGS. 1 and 2, the overall processing flow will be described in association with the apparatus configuration. First, data of a document image is input by the image input unit 200 and stored in the image memory 208 via the bus 213 (step 100). When an image is input, the line / character cutout unit 202 cuts out character lines and characters in the document image in the image memory 208, and stores information on the cut-out character lines and character areas in the cutout memory 209 (step 110). The cutout information stored here is, for example, the coordinates of the start and end points of a character line or the start point coordinates and width,
It is the coordinates and size information of the diagonal vertices of the circumscribing rectangle (character rectangle) of the character. It goes without saying that these pieces of information are created and stored in such a form that the correspondence between each character rectangle and the character line to which it belongs can be identified. Then, the character recognition unit 203 refers to the cut-out information in the cut-out memory 209, reads the character image from the image memory 208, and compares it with the character dictionary in the character dictionary memory 210 to determine the character code for the character image. Then, it is stored in the result memory 211 (step 120).
The character recognition unit 203 may use language knowledge such as words and grammars to perform post-processing such as correction of a recognition result by comparison with a character dictionary.

【0019】文字認識部203による認識処理が文書画
像の全体あるいは一部について終了した段階で、スペー
ス検出処理(ステップ130)が開始する。このスペー
ス検出処理(ステップ130)は、対象範囲抽出部20
4、ピッチ書式判定部205、定ピッチ文字列スペース
検出部206及びプロポーショナルピッチ文字列スペー
ス検出部207により実行され、その際に切り出しメモ
リ209、結果メモリ211及びワークメモリ212が
参照される。スペース検出結果は結果メモリ211に格
納される。スペース検出処理が終了すると、結果メモリ
211内のデータが外部に出力され(ステップ14
0)、処理全体が終了する。
When the recognition processing by the character recognition unit 203 is completed for the whole or a part of the document image, the space detection processing (step 130) is started. This space detection processing (step 130) is performed by the target range extraction unit 20.
4. The pitch format determination unit 205, the constant pitch character string space detection unit 206, and the proportional pitch character string space detection unit 207 are executed, and the cutout memory 209, the result memory 211, and the work memory 212 are referred to at that time. The space detection result is stored in the result memory 211. When the space detection process ends, the data in the result memory 211 is output to the outside (step 14
0), the entire process ends.

【0020】スペース検出処理(ステップ130)の概
略は図3に示すとおりである。まず、対象範囲抽出部2
04において、結果メモリ211内の文字認識結果(文
字コード)を参照し、スペース検出処理の対象範囲とし
ての英数文字列を抽出する(ステップ301)。抽出し
た対象範囲に関する情報はワークメモリ212に保存さ
れる。次に、ピッチ書式判定部205において、対象範
囲の文字に関して切り出しメモリ209及び結果メモリ
211の内容を参照し、対象範囲がプロポーショナルピ
ッチであるか、定ピッチであるかを判定する(ステップ
301)。判定結果はワークメモリ212に保存され
る。プロポーショナルピッチと判定された対象範囲に対
しては、プロポーショナルピッチ文字列スペース検出部
207において切り出しメモリ209及び結果メモり2
11の内容を参照して、プロポーショナルピッチ用の方
法によりスペース検出を行い、検出したスペースをスペ
ースコードとして結果メモリ211に書き込む(ステッ
プ302)。定ピッチと判定された対象範囲に対して
は、定ピッチ文字列スペース検出部206において切り
出しメモリ209及び結果メモり211の内容を参照し
て、定ピッチ用の方法によりスペース検出を行い、検出
したスペースをスペースコードとして結果メモリ211
に書き込む(ステップ303)。こここ述べた処理の具
体的な内容について、図4乃至図8を参照し説明する。
The outline of the space detection process (step 130) is as shown in FIG. First, the target range extraction unit 2
In 04, the character recognition result (character code) in the result memory 211 is referred to, and the alphanumeric character string as the target range of the space detection processing is extracted (step 301). Information about the extracted target range is stored in the work memory 212. Next, the pitch format determination unit 205 refers to the contents of the cutout memory 209 and the result memory 211 for the characters in the target range, and determines whether the target range is the proportional pitch or the constant pitch (step 301). The determination result is stored in the work memory 212. For the target range determined as the proportional pitch, the proportional pitch character string space detection unit 207 cuts out the memory 209 and the result memory 2.
Referring to the contents of No. 11, the space is detected by the method for proportional pitch, and the detected space is written in the result memory 211 as a space code (step 302). For the target range determined to be the constant pitch, the constant pitch character string space detection unit 206 refers to the contents of the cutout memory 209 and the result memory 211 to detect the space by the method for the constant pitch and detect the space. Result memory 211 with space as space code
(Step 303). Specific contents of the processing described above will be described with reference to FIGS. 4 to 8.

【0021】図3の(a)に示すような文字行を処理す
る場合を考える。この文字行には、スペースを含む部分
が2カ所ある。一つはプロポーショナルピッチ(フォン
トはTimes−Roman)で印字された「Preter 5
5」の「Preter」と「55」の間である。もう一
つは、定ピッチ(フォントはCourier)で印字された
「Imagio 77」の「Imagio」と「77」
の間である。この文字行に対する文字認識(ステップ1
20)の結果はスペースを含まず、「新型コピー、Pr
eter55とImagio77発売」となる。
Consider the case of processing a character line as shown in FIG. This character line has two parts including spaces. One is “Preter 5” printed with proportional pitch (Times-Roman font).
It is between “Preter” of “5” and “55”. The other is "Imagio" and "77" of "Imagio 77" printed at a constant pitch (the font is Courier).
Between. Character recognition for this character line (Step 1
The result of 20) does not include spaces, and says "new copy, Pr
eter55 and Image77 released ”.

【0022】対象範囲抽出処理(ステップ300)で
は、そのようなスペースを含まない文字認識結果を参照
し、英数字(英字又は数字)が5文字以上連続している
文字列を対象範囲として抽出する。したがって、図7の
(a)に示す文字行では、図7の(b)に示すように
「Preter55」と「Imagio77」の二つの
文字列が対象範囲として抽出される。なお、抽出判定の
ための文字長は5文字に限定されるものではなく、処理
する文書の種類に応じて適宜変更してよい。また、対象
範囲の決定方法そのものも適宜変更し得るものである。
In the target range extraction processing (step 300), a character string in which five or more alphanumeric characters (alphabetic characters or numbers) are consecutive is extracted as a target range by referring to the character recognition result that does not include such spaces. . Therefore, in the character line shown in FIG. 7A, as shown in FIG. 7B, two character strings of “Preter 55” and “Imagio 77” are extracted as the target range. The character length for extraction determination is not limited to 5 characters, and may be appropriately changed according to the type of document to be processed. Further, the method of determining the target range itself can be changed appropriately.

【0023】このようにして対象範囲として抽出された
英数文字列について、ピッチ書式判定(ステップ30
1)を行う。図4はそのフローチャートである。
With respect to the alphanumeric character string thus extracted as the target range, pitch format judgment (step 30
Perform 1). FIG. 4 is a flowchart thereof.

【0024】まず、対象範囲に関する標準文字サイズを
決定する(ステップ400)。具体的には、対象範囲内
における最大の文字矩形高さの1.25倍(文字サイズ
A)と、対象範囲が含まれる文字行内の最大の文字矩形
高さ(文字サイズB)を求める。文字サイズA,Bの大
きい方の値を標準文字サイズとする。ただし、対象範囲
内に「j」の文字矩形がある場合、その文字矩形は標準
文字サイズの決定には利用しない。図8は、このような
標準文字サイズ決定の説明図である。
First, the standard character size for the target range is determined (step 400). Specifically, 1.25 times the maximum character rectangle height in the target range (character size A) and the maximum character rectangle height in the character line that includes the target range (character size B) are obtained. The larger value of the character sizes A and B is the standard character size. However, if there is a character rectangle of "j" in the target range, the character rectangle is not used for determining the standard character size. FIG. 8 is an explanatory diagram of such standard character size determination.

【0025】図7に示した一つ目の対象範囲では、
「P」の文字矩形の高さが最大であるので、その高さを
1.25倍した値と、文字行内で最大の「新」の文字矩
形高さとを比較し、大きい方の値が標準文字サイズとさ
れる。なお、他の方法によって標準文字サイズを決定し
てもよい。
In the first target range shown in FIG. 7,
Since the height of the "P" character rectangle is the maximum, compare that value multiplied by 1.25 with the maximum "new" character rectangle height in the character line, and the larger value is the standard. It is assumed to be the font size. The standard character size may be determined by another method.

【0026】以上のようにして対象範囲に対する標準文
字サイズを決定すると、次に、この標準文字サイズを用
いて、対象範囲の先頭より、隣接する文字矩形のペアを
選び、その文字矩形間の空白部の幅、すなわち文字矩形
間隔(図7の(c)参照)の標準文字サイズに対する比
(文字矩形間隔比=文字矩形間隔/標準文字サイズ)を
計算する(ステップ405,410)。計算した文字矩
形間隔比は、ワークメモリ212に保存される。文字矩
形間隔は、切り出しメモリ209に保存されている二つ
の文字矩形の座標から算出される。ただし、切り出し処
理の段階で文字矩形間隔を求めておいてもよく、その場
合は、切り出しメモリ209より読み出した文字矩形間
隔を文字矩形間隔比の計算に用いればよい。次に、この
ようにして計算した文字矩形間隔比を所定の閾値TH1
と比較する(ステップ415)。この閾値TH1は例え
ば0.17である(この値に限らないが、一般的文書で
は、このあたりの値が適当であることが実験により確認
された。ただし、処理する文書に応じて調整するのが好
ましい)。文字矩形間隔比が閾値TH1より小さいとき
にカウンタNS(初期値は0)を1だけインクリメント
し(ステップ420)、文字矩形間隔比が閾値TH1以
上のときにカウンタNL(初期値は0)を1だけインク
リメントする(ステップ421)。次の文字矩形ペアが
残っている場合は、ステップ405からステップ420
の処理ループを繰り返す。
After determining the standard character size for the target range as described above, next, using this standard character size, a pair of adjacent character rectangles is selected from the beginning of the target range, and a space between the character rectangles is selected. The width of the part, that is, the ratio of the character rectangle interval (see FIG. 7C) to the standard character size (character rectangle interval ratio = character rectangle interval / standard character size) is calculated (steps 405 and 410). The calculated character rectangle interval ratio is stored in the work memory 212. The character rectangle interval is calculated from the coordinates of the two character rectangles stored in the cutout memory 209. However, the character rectangle interval may be obtained in the cutting process stage, and in that case, the character rectangle interval read from the cutout memory 209 may be used for the calculation of the character rectangle interval ratio. Next, the character rectangle interval ratio calculated in this way is set to a predetermined threshold value TH1.
(Step 415). This threshold TH1 is, for example, 0.17 (not limited to this value, it was confirmed by experiments that a value around this is appropriate in general documents. However, it should be adjusted according to the document to be processed. Is preferred). When the character rectangle interval ratio is smaller than the threshold value TH1, the counter NS (initial value is 0) is incremented by 1 (step 420), and when the character rectangle interval ratio is equal to or greater than the threshold value TH1, the counter NL (initial value is 0) is increased by 1. Incremented only (step 421). If the next character rectangle pair remains, steps 405 to 420
The processing loop of is repeated.

【0027】最後の文字矩形ペアまで処理が終了する
と、ステップ405からステップ420又は421まで
の処理ループを抜けステップ425に進む。このステッ
プ425では、カウンタNSの値とカウンタNLの値を
比較する(ステップ425)。カウンタNSの値は対象
範囲内における文字矩形間隔比が閾値TH1より小さ
い、つまり「標準文字サイズ*TH1」より狭い文字矩
形間隔の個数であり、カウンタNLの値は広い文字矩形
間隔の個数である。ゆえに、ステップ425では、狭い
文字矩形間隔が過半数であるか否かを調べている。NS
>NLつまり狭い文字矩形間隔が過半数と判定した場合
には対象範囲の文字列のピッチ書式をプロポーショナル
ピッチに設定し、そのフラグ情報をワークメモリ212
に対象範囲と対応付けて書き込み(ステップ430)、
そうでない場合、つまり広い文字矩形間隔が半数以下で
ある場合には、ピッチ書式を定ピッチに設定し、そのフ
ラグ情報をワークメモリ212に対象範囲と対応付けて
書き込む(ステップ435)。このフラグ情報にしたが
って、次の処理として、プロポーショナルピッチ文字列
スペース検出処理(ステップ302)又は定ピッチ文字
列スペース検出処理(ステップ303)が選択される。
When the processing is completed up to the last character rectangle pair, the processing loop from step 405 to step 420 or 421 is exited and the process proceeds to step 425. In this step 425, the value of the counter NS and the value of the counter NL are compared (step 425). The value of the counter NS is the number of character rectangle intervals in which the ratio of character rectangle intervals in the target range is smaller than the threshold value TH1, that is, the number of character rectangle intervals narrower than “standard character size * TH1”, and the value of the counter NL is the number of wide character rectangle intervals. . Therefore, in step 425, it is checked whether the narrow character rectangle interval is a majority. NS
> NL, that is, when it is determined that the narrow character rectangle interval is a majority, the pitch format of the character string in the target range is set to proportional pitch, and the flag information is set to the work memory 212.
Write in association with the target range (step 430),
If not, that is, if the wide character rectangle interval is less than half, the pitch format is set to constant pitch, and the flag information is written in the work memory 212 in association with the target range (step 435). According to this flag information, the proportional pitch character string space detection processing (step 302) or the constant pitch character string space detection processing (step 303) is selected as the next processing.

【0028】図7の(a)に示した例では、最初の対象
範囲「Preter55」は図7(c)に示すようにプ
ロポーショナルピッチと判定され、もう一つの対象範囲
「Imagio77」は定ピッチと判定される。
In the example shown in FIG. 7A, the first target range "Preter55" is determined to be a proportional pitch as shown in FIG. 7C, and the other target range "Imagio77" is a constant pitch. To be judged.

【0029】プロポーショナルピッチと判定された対象
範囲に対するスペース検出処理(ステップ302)の処
理内容について説明する。図5は、そのフローチャート
である。
The processing contents of the space detection processing (step 302) for the target range determined as the proportional pitch will be described. FIG. 5 is a flowchart thereof.

【0030】ワークメモリ212に保存されている対象
範囲の文字矩形間隔比を取り出し、それを所定の閾値T
H2と比較する(ステップ500,505)。この閾値
TH2は例えば0.29である(この値に限らないが、
一般的文書では、このあたりの値が適当であることが実
験により確認された。ただし、処理する文書に応じて調
整するのが好ましい)。文字矩形間隔比がTH2以下で
あれば、つまり文字矩形間隔が「標準文字サイズ*TH
2」より狭いときには、対応した文字矩形ペアの間にス
ペースは無いと判断される。文字矩形間隔比がTH2よ
り大きいときには、つまり文字矩形間隔が「標準文字サ
イズ*TH2」より広いときには、対応した文字矩形ペ
アの間にスペースが存在すると判断され、対応する認識
結果文字コードの間にスペースコードが挿入される(ス
テップ510)。同様の処理が対象範囲内の全ての文字
矩形間隔比について実行される。
The character rectangle interval ratio of the target range stored in the work memory 212 is taken out and is taken as a predetermined threshold value T.
It is compared with H2 (steps 500 and 505). The threshold TH2 is, for example, 0.29 (not limited to this value,
In general documents, it was confirmed by experiments that the value around this is appropriate. However, it is preferable to adjust according to the document to be processed). If the character rectangle interval ratio is TH2 or less, that is, the character rectangle interval is “standard character size * TH
When it is narrower than 2 ”, it is determined that there is no space between the corresponding character rectangle pairs. When the character rectangle interval ratio is larger than TH2, that is, when the character rectangle interval is wider than “standard character size * TH2”, it is determined that there is a space between the corresponding character rectangle pairs, and between the corresponding recognition result character codes. A space code is inserted (step 510). Similar processing is executed for all character rectangle interval ratios within the target range.

【0031】図7の(a)に示した例では、図7の
(d)に示すように、プロポーショナルピッチと判定さ
れた対象範囲において「Preter」の末尾の「r」
と次の「5」との間の文字矩形間隔比だけがTH2を超
えるので、その位置にスペースコードが挿入される。
In the example shown in FIG. 7 (a), as shown in FIG. 7 (d), the "r" at the end of "Preter" in the target range determined to be proportional pitch.
Since only the character rectangle interval ratio between the next and "5" exceeds TH2, the space code is inserted at that position.

【0032】定ピッチと判定された対象範囲に対するス
ペース検出処理(ステップ303)の処理内容について
説明する。図6は、そのフローチャートである。
The processing contents of the space detection processing (step 303) for the target range determined to be the constant pitch will be described. FIG. 6 is a flowchart thereof.

【0033】対象範囲内のすべての文字間の文字矩形ピ
ッチを計算し、結果をワークメモリ212に保存する
(ステップ600)。すなわち、文字間を介して隣接す
る文字矩形の中心を計算し、その中心の間隔を当該文字
間の文字矩形ピッチとして求める。この計算には、切り
出しメモリ209に保存されている文字矩形の座標デー
タを用いる。ただし、切り出し処理段階で予め隣接した
文字矩形の中心間隔を計算して切り出しメモリ209に
保存しておき、その値を読み出すようにしてもよい。
The character rectangle pitch between all the characters within the target range is calculated, and the result is stored in the work memory 212 (step 600). That is, the centers of adjacent character rectangles between characters are calculated, and the distance between the centers is determined as the character rectangle pitch between the characters. For this calculation, the coordinate data of the character rectangle stored in the cutout memory 209 is used. However, the center interval of the adjacent character rectangles may be calculated in advance in the cutout processing stage, stored in the cutout memory 209, and the value may be read out.

【0034】このような文字矩形ピッチの計算を終わる
と、対象範囲の先頭より、注目する一つの文字間を選び
(ステップ605)、注目文字間の前の文字間の文字矩
形ピッチと、注目文字間の後の文字間の文字矩形ピッチ
とを比較し、小さい方の文字矩形ピッチを注目文字間に
対する基準ピッチとする(ステップ610)。注目文字
間が対象範囲の最初の文字間であるときには、注目文字
間の前には文字間が存在しないので、注目文字間の後の
文字間の文字矩形ピッチを基準ピッチとする。同様に、
注目文字間が対象範囲の最後の文字間であるときには、
その前の文字間の文字矩形ピッチを基準ピッチとする。
When the calculation of the character rectangular pitch is completed, one character of interest is selected from the beginning of the target range (step 605), and the character rectangular pitch between the characters before the character of interest and the character of interest are selected. The character rectangular pitch between the characters after the interval is compared, and the smaller character rectangular pitch is used as the reference pitch for the target character (step 610). When the target character is the first character in the target range, there is no character space before the target character, and therefore the character rectangular pitch between the characters after the target character is set as the reference pitch. Similarly,
When the space between the characters of interest is between the last characters in the target range,
The character rectangular pitch between the preceding characters is used as the reference pitch.

【0035】次に、注目文字間の文字矩形ピッチを基準
ピッチで割った値を文字矩形ピッチ比(=文字矩形ピッ
チ/基準ピッチ)として計算する(ステップ615)。
そして、文字矩形ピッチ比が所定の閾値TH3より大き
いか、すなわち注目文字間の文字矩形ピッチが「基準ピ
ッチ*TH3」より広いか判定する(ステップ62
0)。閾値TH3は例えば1.8である(この値に限ら
ないが、一般的文書では、このあたりの値が、全角文字
列中の全角スペースも半角文字列中の半角スペースも検
出可能であり、適当であることが実験により確認され
た。ただし、処理する文書に応じて調整するのが好まし
い)。
Next, a value obtained by dividing the character rectangle pitch between the target characters by the reference pitch is calculated as a character rectangle pitch ratio (= character rectangle pitch / reference pitch) (step 615).
Then, it is determined whether the character rectangle pitch ratio is larger than a predetermined threshold value TH3, that is, whether the character rectangle pitch between the target characters is wider than "reference pitch * TH3" (step 62).
0). The threshold value TH3 is, for example, 1.8 (not limited to this value, but in general documents, a value around this value can detect both a full-width space in a full-width character string and a half-width space in a half-width character string, and is appropriate. However, it is preferable to adjust it according to the document to be processed).

【0036】文字矩形ピッチ比がTH3以下であれば、
注目文字間にスペースが存在しないと判断される。文字
矩形ピッチ比がTH3より大きいときには、注目文字間
にスペースが存在すると判断されるので、結果メモり2
11内の対応した文字コードの間にスペースコードが挿
入される(ステップ625)。同様の処理が対象範囲の
最後の文字間まで繰り返される。
If the character rectangle pitch ratio is TH3 or less,
It is determined that there is no space between the characters of interest. When the character rectangle pitch ratio is greater than TH3, it is determined that there is a space between the characters of interest, so the result memory 2
A space code is inserted between the corresponding character codes in 11 (step 625). The same process is repeated until the last character in the target range.

【0037】図7の(a)に示した例では、図7の
(d)に示すように、定ピッチと判定された対象範囲に
おいて「Imagio」の最後の「o」と次の「7」の
文字間だけ文字矩形ピッチ比がTH3を超えるので、そ
の文字間にスペースが有ると判断されスペースコードが
挿入される。
In the example shown in FIG. 7A, as shown in FIG. 7D, the last "o" of "Imagio" and the next "7" in the target range determined to have a constant pitch. Since the character rectangle pitch ratio exceeds TH3 only between the characters, it is determined that there is a space between the characters, and the space code is inserted.

【0038】[0038]

【発明の効果】請求項1記載の発明によれば、文字認識
結果より英数文字列を対象範囲として抽出し、対象範囲
毎にピッチ書式を判別し、各対象範囲に対して、そのピ
ッチ書式別のスペース検出処理を行うため、行中に英数
文字列と日本文字列とが混在し、しかも定ピッチの英数
文字列とプロポーショナルピッチの英数文字列が混在す
るような日英混在文書に対しても、精度のよいスペース
検出が可能になる。
According to the first aspect of the invention, an alphanumeric character string is extracted as a target range from the character recognition result, the pitch format is determined for each target range, and the pitch format is determined for each target range. Separate space detection processing is performed, so a mixture of alphanumeric characters and Japanese characters in a line, and a mixture of fixed-pitch alphanumeric characters and proportional-pitch alphanumeric characters in a Japanese-English document Even with respect to, the space can be detected with high accuracy.

【0039】請求項2記載の発明によれば、対象範囲と
して抽出した英数文字列毎に標準文字サイズを決定し、
英数文字列における文字矩形間隔の標準文字サイズに対
する相対的な広狭の割合に着目してピッチ書式を判定す
るため、英数文字列が日本文字列と混在し、しかも全角
文字と半角文字の英数文字列が混在するような場合に
も、英数文字列のピッチ書式が定ピッチであるかプロポ
ーショナルピッチであるかを精度よく判別でき、したが
って日英混在文書中の英数文字列に対し、そのピッチ書
式にあったスペース検出処理を的確に適用できるため、
定ピッチとプロポーショナルピッチの英数文字列が混在
した文書中のスペースを高精度に検出することができ
る。
According to the second aspect of the invention, the standard character size is determined for each alphanumeric character string extracted as the target range,
Since the pitch format is determined by paying attention to the relative ratio of the character rectangle spacing in the alphanumeric character string to the standard character size, the alphanumeric character string is mixed with the Japanese character string, and the full-width character and the half-width character Even when several character strings are mixed, it is possible to accurately determine whether the pitch format of the alphanumeric character string is constant pitch or proportional pitch. Therefore, for alphanumeric character strings in a Japanese-English mixed document, Since the space detection processing that matches the pitch format can be applied accurately,
It is possible to detect with high precision a space in a document in which a constant pitch and a proportional pitch alphanumeric character string are mixed.

【0040】定ピッチ英数文字列の文字矩形ピッチは文
字によって大きく変動するため、この変動が反映されな
い一定の基準ピッチと文字矩形ピッチとの相対的な広狭
を調べても、スペースを精度よく検出できない。これに
対し、請求項3記載の発明によれば、注目した文字間の
前と後の文字間の文字矩形ピッチの中の小さい方を、注
目した文字間に対する基準ピッチとして用いるため、文
字矩形ピッチの変動が大きい定ピッチ英数字文字列中の
スペースを精度よく検出することができ、したがって定
ピッチの英数文字列が混在した文書に対するスペース検
出精度を上げることができる。
Since the character rectangular pitch of the constant-pitch alphanumeric character string varies greatly depending on the character, even if the relative width between the constant reference pitch and the character rectangular pitch that does not reflect this variation is checked, the space is detected accurately. Can not. On the other hand, according to the third aspect of the invention, the smaller one of the character rectangular pitches between the characters before and after the focused character is used as the reference pitch for the focused character. It is possible to accurately detect spaces in a constant pitch alphanumeric character string with a large variation in, and thus to improve space detection accuracy for a document in which a constant pitch alphanumeric character string is mixed.

【0041】プロポーショナルピッチ英数文字列は文字
矩形間隔が狭いため、ピッチ書式や文字種を考慮しない
標準文字サイズと文字矩形間隔とを比較する方法では、
スペース検出が難しかった。請求項4記載の発明によれ
ば、個々のプロポーショナルピッチ英数文字列毎に標準
文字サイズを決定し、標準文字サイズに対する文字矩形
間隔の比を閾値処理するため、プロポーショナルピッチ
の英数文字列中のスペースを精度よく検出でき、したが
ってプロポーショナルピッチの英数文字列が混在した文
書のスペース検出精度を上げることができる。
Since the character-pitch alphanumeric character string has a narrow character-rectangle interval, the method of comparing the standard character size and the character-rectangle interval without considering the pitch format and the character type is as follows.
Space detection was difficult. According to the invention described in claim 4, the standard character size is determined for each individual proportional pitch alphanumeric character string, and the ratio of the character rectangle interval to the standard character size is thresholded. The space can be detected with high accuracy, and therefore the space detection accuracy of a document in which an alphanumeric character string of proportional pitch is mixed can be improved.

【0042】請求項5記載の発明によれば、英数文字列
毎に標準文字サイズを決定し、英数文字列における文字
矩形間隔の標準文字サイズに対する相対的な広狭の割合
に着目してピッチ書式を判定するため、英数文字列が日
本文字列と混在し、しかも全角文字と半角文字の英数文
字列が混在するような場合にも、英数文字列が定ピッチ
であるかプロポーショナルピッチであるかを精度よく判
別できる。
According to the fifth aspect of the present invention, the standard character size is determined for each alphanumeric character string, and the pitch is focused on the relative wideness of the character rectangle spacing in the alphanumeric character string with respect to the standard character size. In order to determine the format, even if the alphanumeric character string is mixed with the Japanese character string, and also if the full-width character and half-width character alphanumeric character string are mixed, the alphanumeric character string has a constant pitch or proportional pitch. Can be accurately determined.

【0043】定ピッチ英数文字列の文字矩形ピッチは文
字によって大きく変動するため、この変動が反映されな
い一定の基準ピッチと文字矩形ピッチとの相対的な広狭
を調べても、スペースを精度よく検出できないが、請求
項6記載の発明によれば、注目した文字間の前と後の文
字間の文字矩形ピッチの中の小さい方を、注目した文字
間に対する基準ピッチとして用いるため、文字矩形ピッ
チの変動が大きい定ピッチ英数字文字列中のスペースを
精度よく検出することができる。
Since the character rectangular pitch of the constant-pitch alphanumeric character string varies greatly depending on the character, even if the relative width between the constant reference pitch and the character rectangular pitch that does not reflect this variation is examined, the space can be detected accurately. However, according to the invention of claim 6, the smaller one of the character rectangular pitches between the characters before and after the focused character is used as the reference pitch for the focused characters. It is possible to accurately detect a space in a constant pitch alphanumeric character string that greatly varies.

【0044】プロポーショナルピッチ英数文字列は文字
矩形間隔が狭いため、ピッチ書式や文字種を考慮しない
標準文字サイズと文字矩形間隔とを比較する方法では、
スペース検出が難しかったが、請求項7記載の発明によ
れば、個々のプロポーショナルピッチ英数文字列毎に標
準文字サイズを決定し、標準文字サイズに対する文字矩
形間隔の比を閾値処理するため、プロポーショナルピッ
チの英数文字列中のスペースを精度よく検出できる。
The proportional pitch alphanumeric character string has a narrow character rectangle interval. Therefore, in the method of comparing the standard character size and the character rectangle interval without considering the pitch format and the character type,
Although it is difficult to detect a space, according to the invention of claim 7, the standard character size is determined for each proportional pitch alphanumeric character string, and the ratio of the character rectangular interval to the standard character size is thresholded. The space in the alphanumeric string of pitch can be detected accurately.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の全体処理フローを示すフロ
ーチャートである。
FIG. 1 is a flowchart showing an overall processing flow of an embodiment of the present invention.

【図2】本発明の一実施例のための装置構成の例を示す
ブロック図である。
FIG. 2 is a block diagram showing an example of a device configuration for one embodiment of the present invention.

【図3】図1中のスペース検出処理の概略を示すフロー
チャートである。
FIG. 3 is a flowchart showing an outline of space detection processing in FIG.

【図4】図3中のピッチ書式判定処理の内容を示すフロ
ーチャートである。
FIG. 4 is a flowchart showing the contents of pitch format determination processing in FIG.

【図5】図3中のプロポーショナルピッチ文字列スペー
ス検出処理の内容を示すフローチャートである。
5 is a flowchart showing the content of proportional pitch character string space detection processing in FIG. 3. FIG.

【図6】図3中の定ピッチ文字列スペース検出処理の内
容を示すフローチャートである。
FIG. 6 is a flowchart showing the contents of constant pitch character string space detection processing in FIG.

【図7】スペース検出の具体例を説明するための図であ
る。
FIG. 7 is a diagram for explaining a specific example of space detection.

【図8】ピッチ書式判定のための標準文字サイズの決定
方法の説明図である。
FIG. 8 is an explanatory diagram of a method of determining a standard character size for pitch format determination.

【図9】日英混在文書のスペース検出における課題を明
らかにするための図である。
FIG. 9 is a diagram for clarifying a problem in space detection of a Japanese-English mixed document.

【符号の説明】[Explanation of symbols]

200 画像入力部 202 行・文字切り出し部 203 文字認識部 204 対象範囲抽出部 205 ピッチ書式判定部 206 定ピッチ文字列スペース検出部 207 プロポーショナルピッチ文字列スペース検出部 208 画像メモリ 209 切り出しメモリ 210 文字辞書メモリ 211 結果メモり 212 ワークメモリ 213 バス 200 image input unit 202 line / character cutout unit 203 character recognition unit 204 target range extraction unit 205 pitch format determination unit 206 constant pitch character string space detection unit 207 proportional pitch character string space detection unit 208 image memory 209 cutout memory 210 character dictionary memory 211 Result memory 212 Work memory 213 Bus

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 文書の画像より文字を切り出し認識する
文字認識装置において、英日混在の文書の文字認識結果
に基づいて英数文字列を対象範囲として抽出する対象範
囲抽出処理と、該対象範囲抽出処理により抽出された各
対象範囲毎にピッチ書式が定ピッチかプロポーショナル
ピッチかを判定するピッチ書式判定処理と、該ピッチ書
式判定処理により定ピッチと判定された各対象範囲毎に
スペースを検出する定ピッチ文字列スペース検出処理
と、該ピッチ書式判定処理によりプロポーショナルピッ
チと判定された各対象範囲毎にスペースを検出するプロ
ポーショナルピッチ文字列スペース検出処理とを有する
ことを特徴とする日英混在文書のスペース検出方法。
1. A character recognition device for recognizing a character cut out from a document image, and a target range extraction process for extracting an alphanumeric character string as a target range based on a character recognition result of a document containing both English and Japanese, and the target range. A pitch format determination process for determining whether the pitch format is a constant pitch or a proportional pitch for each target range extracted by the extraction process, and a space is detected for each target range determined to be a constant pitch by the pitch format determination process. A fixed-pitch character string space detection process and a proportional-pitch character string space detection process that detects a space for each target range determined to be a proportional pitch by the pitch format determination process Space detection method.
【請求項2】 文書の画像より文字を切り出し認識する
文字認識装置において、英日混在の文書の文字認識結果
に基づいて英数文字列を対象範囲として抽出する対象範
囲抽出処理と、該対象範囲抽出処理により抽出された各
対象範囲毎にピッチ書式が定ピッチかプロポーショナル
ピッチかを判定するピッチ書式判定処理と、該ピッチ書
式判定処理により定ピッチと判定された各対象範囲毎に
スペースを検出する定ピッチ文字列スペース検出処理
と、該ピッチ書式判定処理によりプロポーショナルピッ
チと判定された各対象範囲毎にスペースを検出するプロ
ポーショナルピッチ文字列スペース検出処理とを有し、
該ピッチ書式判定処理において、各対象範囲に対し、各
対象範囲毎に切り出し情報に基づき決定される標準文字
サイズに対する文字矩形間隔の比である文字矩形間隔比
が所定の閾値より小さい文字矩形間隔のほうが、文字矩
形間隔比が該閾値以上の文字矩形間隔より多数であるな
らばプロポーショナルピッチと判定し、そうでなければ
定ピッチと判定することを特徴とする日英混在文書のス
ペース検出方法。
2. A target range extraction process for extracting an alphanumeric character string as a target range based on a character recognition result of a document containing a mixture of English and Japanese in a character recognition device for recognizing a character extracted from a document image, and the target range. A pitch format determination process for determining whether the pitch format is a constant pitch or a proportional pitch for each target range extracted by the extraction process, and a space is detected for each target range determined to be a constant pitch by the pitch format determination process. A constant pitch character string space detection process and a proportional pitch character string space detection process for detecting a space for each target range determined to be proportional pitch by the pitch format determination process,
In the pitch format determination process, for each target range, the character rectangle interval ratio, which is the ratio of the character rectangle interval to the standard character size determined based on the cut-out information for each target range, is smaller than the predetermined threshold. A space detection method for a Japanese-English mixed document, characterized in that if the character rectangle interval ratio is more than the character rectangle interval equal to or more than the threshold value, it is determined as proportional pitch, and if not, it is determined as constant pitch.
【請求項3】 文書の画像より文字を切り出し認識する
文字認識装置において、英日混在の文書の文字認識結果
に基づいて英数文字列を対象範囲として抽出する対象範
囲抽出処理と、該対象範囲抽出処理により抽出された各
対象範囲毎にピッチ書式が定ピッチかプロポーショナル
ピッチかを判定するピッチ書式判定処理と、該ピッチ書
式判定処理により定ピッチと判定された各対象範囲毎に
スペースを検出する定ピッチ文字列スペース検出処理
と、該ピッチ書式判定処理によりプロポーショナルピッ
チと判定された各対象範囲毎にスペースを検出するプロ
ポーショナルピッチ文字列スペース検出処理とを有し、
該定ピッチ文字列スペース検出処理において、注目した
文字間の前後の文字間の文字矩形ピッチのうちの小さい
方の文字矩形ピッチを注目した文字間の基準ピッチと
し、注目した文字間の文字矩形ピッチの基準ピッチとの
比が所定の閾値より大きいときに、注目した文字間にス
ペースが存在すると判定することを特徴とする日英混在
文書のスペース検出方法。
3. A target range extraction process for extracting an alphanumeric character string as a target range based on a character recognition result of an English-Japanese mixed document in a character recognition device for recognizing a character from a document image, and the target range. A pitch format determination process for determining whether the pitch format is a constant pitch or a proportional pitch for each target range extracted by the extraction process, and a space is detected for each target range determined to be a constant pitch by the pitch format determination process. A constant pitch character string space detection process and a proportional pitch character string space detection process for detecting a space for each target range determined to be proportional pitch by the pitch format determination process,
In the constant pitch character string space detection processing, the smaller character rectangular pitch of the character rectangular pitches between the characters before and after the focused character is set as the reference pitch between the focused characters, and the character rectangular pitch between the focused characters is used. A method of detecting a space in a Japanese-English mixed document, which is characterized in that when the ratio to the reference pitch of is larger than a predetermined threshold value, it is determined that there is a space between the focused characters.
【請求項4】 文書の画像より文字を切り出し認識する
文字認識装置において、英日混在の文書の文字認識結果
に基づいて英数文字列を対象範囲として抽出する対象範
囲抽出処理と、該対象範囲抽出処理により抽出された各
対象範囲毎にピッチ書式が定ピッチかプロポーショナル
ピッチかを判定するピッチ書式判定処理と、該ピッチ書
式判定処理により定ピッチと判定された各対象範囲毎に
スペースを検出する定ピッチ文字列スペース検出処理
と、該ピッチ書式判定処理によりプロポーショナルピッ
チと判定された各対象範囲毎にスペースを検出するプロ
ポーショナルピッチ文字列スペース検出処理とを有し、
該プロポーショナルピッチ文字列スペース検出処理にお
いて、各対象範囲毎に切り出し情報に基づき決定される
標準文字サイズに対する文字矩形間隔の比である文字矩
形間隔比が、所定の閾値より大きいときに、対応する文
字間にスペースが存在すると判定することを特徴とする
日英混在文書のスペース検出方法。
4. A character recognition device for recognizing a character cut out from a document image, and a target range extraction process for extracting an alphanumeric character string as a target range based on a character recognition result of a document containing both English and Japanese, and the target range. A pitch format determination process for determining whether the pitch format is a constant pitch or a proportional pitch for each target range extracted by the extraction process, and a space is detected for each target range determined to be a constant pitch by the pitch format determination process. A constant pitch character string space detection process and a proportional pitch character string space detection process for detecting a space for each target range determined to be proportional pitch by the pitch format determination process,
In the proportional pitch character string space detection processing, when the character rectangle interval ratio, which is the ratio of the character rectangle interval to the standard character size determined based on the cutout information for each target range, is greater than a predetermined threshold value, the corresponding character A method for detecting a space in a Japanese-English mixed document characterized by determining that a space exists between them.
【請求項5】 文書の画像より文字を切り出し認識する
文字認識装置において、認識された各英数文字列に対
し、各英数文字列毎に切り出し情報に基づいて決定され
る標準文字サイズに対する文字矩形間隔の比である文字
矩形間隔比が所定の閾値より小さい文字矩形間隔のほう
が、文字矩形間隔比が該閾値以上の文字矩形間隔より多
数であるならばプロポーショナルピッチと判定し、そう
でなければ定ピッチと判定することを特徴とするピッチ
書式判定方法。
5. A character recognition apparatus for recognizing a character cut out from an image of a document, for each recognized alphanumeric character string, a character for a standard character size determined based on the cutout information for each alphanumeric character string. If the character rectangle interval ratio, which is the ratio of the rectangle intervals that is smaller than the predetermined threshold value, is larger than the character rectangle interval that is greater than the threshold value, the character rectangle interval ratio is determined to be proportional pitch. A pitch format determination method characterized by determining a constant pitch.
【請求項6】 文書の画像より文字を切り出し認識する
文字認識装置において、認識された定ピッチの各英数文
字列において、注目した文字間の前後の文字間の文字矩
形ピッチのうちの小さい方の文字矩形ピッチを注目した
文字間の基準ピッチとし、注目した文字間の文字矩形ピ
ッチの基準ピッチとの比が所定の閾値より大きいとき
に、注目した文字間にスペースが存在すると判定するこ
とを特徴とする定ピッチ英数文字列のスペース検出方
法。
6. A character recognizing device that cuts out characters from an image of a document and recognizes, in each recognized alphanumeric character string of a constant pitch, the smaller one of the character rectangular pitches between the characters before and after the noted character. When the ratio of the character rectangular pitch between the focused characters to the reference pitch is larger than a predetermined threshold, it is determined that there is a space between the focused characters. Characteristic constant pitch alphanumeric character space detection method.
【請求項7】 文書の画像より文字を切り出し認識する
文字認識装置において、認識されたプロポーショナルピ
ッチの各英数文字列において、各英数文字列毎に切り出
し情報に基づき決定される標準文字サイズに対する文字
矩形間隔の比である文字矩形間隔比が、所定の閾値より
大きいときに、対応する文字間にスペースが存在すると
判定することを特徴とするプロポーショナルピッチ英数
文字列のスペース検出方法。
7. A character recognition device for recognizing characters from an image of a document, for each recognized alphanumeric character string of proportional pitch, with respect to a standard character size determined based on the cutout information for each alphanumeric character string. A method for detecting a space in a proportional-pitch alphanumeric character string, characterized in that when a character rectangle interval ratio, which is a ratio of character rectangle intervals, is larger than a predetermined threshold value, it is determined that there is a space between corresponding characters.
JP32873795A 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings Expired - Lifetime JP3537570B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32873795A JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32873795A JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Publications (2)

Publication Number Publication Date
JPH09167206A true JPH09167206A (en) 1997-06-24
JP3537570B2 JP3537570B2 (en) 2004-06-14

Family

ID=18213619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32873795A Expired - Lifetime JP3537570B2 (en) 1995-12-18 1995-12-18 Space detection method for Japanese-English mixed documents, pitch format determination method, and space detection method for fixed-pitch alphanumeric character strings

Country Status (1)

Country Link
JP (1) JP3537570B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162086B2 (en) 2002-07-09 2007-01-09 Canon Kabushiki Kaisha Character recognition apparatus and method
US20130034302A1 (en) * 2011-08-03 2013-02-07 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
CN113780265A (en) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 English word space recognition method and device, storage medium and computer equipment

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162086B2 (en) 2002-07-09 2007-01-09 Canon Kabushiki Kaisha Character recognition apparatus and method
US20130034302A1 (en) * 2011-08-03 2013-02-07 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
JP2013033416A (en) * 2011-08-03 2013-02-14 Sharp Corp Character recognition device, character recognition method, and program
US8861862B2 (en) 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
CN113780265A (en) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 English word space recognition method and device, storage medium and computer equipment
CN113780265B (en) * 2021-09-16 2023-12-15 平安科技(深圳)有限公司 Space recognition method and device for English words, storage medium and computer equipment

Also Published As

Publication number Publication date
JP3537570B2 (en) 2004-06-14

Similar Documents

Publication Publication Date Title
EP0621553A2 (en) Methods and apparatus for inferring orientation of lines of text
US7088873B2 (en) Bit-mapped image multi-stage analysis method
RU2309456C2 (en) Method for recognizing text information in vector-raster image
JPH04195692A (en) Document reader
JPH09167206A (en) Space detecting method for japanese/english-mixed document, pitch format judging method, space detecting method for constant pitch alphanumeric character string and space detecting method for proportional pitch alphanumeric character string
JPS62133585A (en) Word segmenting system
JP2915175B2 (en) Word space detection method
JPH06215184A (en) Labeling device for extracted area
JPH0991371A (en) Character display device
JPH0619962A (en) Text dividing device
JPH0728935A (en) Document image processor
JPH10124615A (en) Character recognizing device
JP2968354B2 (en) Post-processing method of character recognition result
JP3086264B2 (en) Character space recognition method
JPH10171924A (en) Character recognizing device
JPH028348B2 (en)
JP2887823B2 (en) Document recognition device
JP2746345B2 (en) Post-processing method for character recognition
JPH01171080A (en) Recognizing device for error automatically correcting character
JPH02230484A (en) Character recognizing device
JPH0950488A (en) Method for reading different size characters coexisting character string
JP2891368B2 (en) Post-processing method of character recognition result
JP3116453B2 (en) English character recognition device
JP3243389B2 (en) Document identification method
JPH0496883A (en) Inter-character space processing method

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040317

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090326

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100326

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110326

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120326

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130326

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140326

Year of fee payment: 10

EXPY Cancellation because of completion of term