JP2977247B2 - Inter-character space processing method - Google Patents

Inter-character space processing method

Info

Publication number
JP2977247B2
JP2977247B2 JP2214136A JP21413690A JP2977247B2 JP 2977247 B2 JP2977247 B2 JP 2977247B2 JP 2214136 A JP2214136 A JP 2214136A JP 21413690 A JP21413690 A JP 21413690A JP 2977247 B2 JP2977247 B2 JP 2977247B2
Authority
JP
Japan
Prior art keywords
space
width
character
characters
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2214136A
Other languages
Japanese (ja)
Other versions
JPH0496883A (en
Inventor
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2214136A priority Critical patent/JP2977247B2/en
Publication of JPH0496883A publication Critical patent/JPH0496883A/en
Application granted granted Critical
Publication of JP2977247B2 publication Critical patent/JP2977247B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字認識装置における文字間スペースの処
理方法に係り、特に日本語文章を処理する漢字OCRなど
に適用される文字間スペース処理方法に関する。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for processing a space between characters in a character recognition device, and more particularly to a method for processing a space between characters applied to a kanji OCR or the like for processing Japanese sentences. About.

〔従来の技術〕[Conventional technology]

一般に文字認識装置においては、文字間スペース(ス
ペース文字)の検出は文字切出し情報に基づいて行って
いる。例えば、文字間空白の幅と印字ピッチとの比較な
どによって、文字間空白がスペースであるか否を判定し
ている。そして、検出したスペースは、そのまま認識結
果として出力される。
Generally, in a character recognition device, the detection of an inter-character space (space character) is performed based on character cut-out information. For example, it is determined whether or not the space between characters is a space by comparing the width of the space between characters with the print pitch. Then, the detected space is output as a recognition result as it is.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

日本語文章の場合、文章中に全角の漢字、ひらがな等
に混じって、半角の数字、英字、記号が用いられ、さら
にスペースも全角スペースと半角スペースが混在する。
このような日本語文章に忠実な認識出力文章を得るため
には、スペースも他の文字も半角、全角を区別して認識
し、出力する必要がある。
In the case of Japanese sentences, half-width numbers, alphabets, and symbols are used in the text, as well as full-width kanji and hiragana characters, and the space includes both full-width and half-width spaces.
In order to obtain a recognized output sentence that is faithful to the Japanese sentence, it is necessary to recognize and output a space and other characters by distinguishing half-width and full-width characters.

しかし、従来のような文字間空白幅を用いた方法によ
って日本語文章中の半角スペースを検出しようとする
と、認識出力中に入力文章中に存在しなかったスペース
が発生し、認識出力文章が入力文章と異なったものにな
る場合があった。その理由は、日本語文章の場合、全角
の漢字、ひらがな、記号の中に、左右に分離した文字等
や、片側に偏在して印字される文字や記号が少なくな
く、これらの文字等の内部や両側の空白部分がスペース
として誤検出されやすいからである。
However, when trying to detect a half-width space in a Japanese sentence by the conventional method using the space between characters, a space that did not exist in the input sentence was generated during the recognition output, and the recognition output sentence was input. Sometimes it was different from the text. The reason is that in the case of Japanese sentences, there are not many characters such as double-byte kanji, hiragana, and symbols separated left and right, and characters and symbols printed unevenly on one side. And blank portions on both sides are easily erroneously detected as spaces.

例えば、ひらがなの「い」の中央空白が半角スペース
として検出されたり、「…です。次に…」という文章
で、句点「。」が左側に偏在して印字されるので、その
後の空白が半角スペースとして検出される、という現象
が発生しやすい。同様の現象は、括弧類(「 」『 』
( )[ ]{ }〈 〉)、句読点類(、。,.“ ”
‘ ’)の前後でも発生しやすい。
For example, the central space of the hiragana "i" is detected as a half-width space, or in the sentence "... is next ...", the punctuation mark "." Is printed eccentrically to the left. The phenomenon of being detected as a space is likely to occur. A similar phenomenon is caused by parentheses (“”, “”
() [] {} <>), Punctuation marks (,.,. ""
It is easy to occur before and after '').

本発明の目的は、漢字OCRにおいて、余分なスペース
を排除し、入力文章に忠実な認識出力文章を得るための
文字間スペース処理方法を提供することにある。
SUMMARY OF THE INVENTION It is an object of the present invention to provide an inter-character space processing method for eliminating an extra space in a kanji OCR and obtaining a recognized output sentence faithful to an input sentence.

また、文字認識を利用するアプリケーションによって
は、半角コードの存在がデータ処理上好ましくない場合
(認識結果をデータベースの入力として利用する場合な
ど)、スペースが少ないほうが好ましい場合(認識結果
の情報圧縮など)もある。
Also, depending on the application that uses character recognition, when the presence of a half-width code is not preferable in data processing (such as when using the recognition result as input to a database) or when less space is preferable (such as information compression of the recognition result). There is also.

このような場合に適した形式の認識結果を出力可能と
することが、本発明の他の目的である。
It is another object of the present invention to be able to output a recognition result in a format suitable for such a case.

〔課題を解決するための手段〕[Means for solving the problem]

本発明は、文字の切出し情報に基づいて検出された文
字間のスペースについて、該検出されたスペースの前後
の文字の一方あるいは両方の文字種や、更には該検出さ
れたスペースの種類(半角スペース、全角スペース)に
基づいて、あらためて有効(検出されたスペースのま
ま)、無効(スペースなし)、あるいは変換(半角スペ
ースから全角スペース、あるはその逆)の処理を行うこ
とを主要な特徴とする。
The present invention relates to a space between characters detected based on character cut-out information, the character type of one or both of characters before and after the detected space, and the type of the detected space (half-width space, The main feature is to perform processing of validity (the detected space remains as it is), invalidity (no space), or conversion (half-width space to full-width space, or vice versa) based on the full-width space.

また、本発明では、検出されたスペースの有効、無効
あるいは変換を行うためのルールを複数備え、その中か
ら適用する一つ以上のルールを選択することを特徴とす
る。更には、半角スペースまたは全角スペースを無条件
に無効とし、または半角スペースを無条件に全角スペー
スへ変換する処理を行うルールを含めることを特徴とす
る。
Further, the present invention is characterized in that a plurality of rules for validating, invalidating or converting the detected space are provided, and one or more rules to be applied are selected from the rules. Further, the present invention is characterized by including a rule for invalidating a half-width space or a full-width space unconditionally, or for converting a half-width space to a full-width space unconditionally.

〔作 用〕(Operation)

前述のように、文字切出し情報に基づいたスペース検
出方法、例えば個々の文字間空白幅と全角文字標準幅と
の比較による方法によりスペースを検出すると、不要な
半角スペースが検出されたり、半角スペースが全スペー
スとして検出されることがある。しかし、このような不
要な半角スペースや半角スペースと全角スペースの間違
いは、その前後の文字との関係から予め予測することが
可能である。
As described above, when a space is detected by a space detection method based on character cut-out information, for example, a method of comparing a space width between individual characters and a full-width character standard width, an unnecessary half-width space is detected or a half-width space is detected. May be detected as whole space. However, such an unnecessary half-width space or an error between a half-width space and a full-width space can be predicted in advance from the relationship between the characters before and after the half-width space.

本発明によれば、文字切出し情報に基づいて検出され
たスペースの前後の一方または両方の文字の認識結果、
さらには該検出されたスペースの認識結果との関係を調
べることによって、スペースが有効であるか否か、ある
いは半角スペースと全角スペースの取り間違いであるか
否かを判定し、修正することが可能であり、文字切出し
情報に基づいたスペース検出によって日本語文章中で発
生するスペース検出誤りの殆どを修正可能である。
According to the present invention, the recognition result of one or both characters before and after the space detected based on the character cutout information,
Furthermore, by examining the relationship between the detected space and the recognition result, it is possible to determine whether the space is valid or whether the half-width space and the full-width space are incorrectly taken, and correct the space. Thus, it is possible to correct most of the space detection errors occurring in Japanese sentences by the space detection based on the character extraction information.

ここで、検出されたスペースの有効、無効あるいは変
換を行うための具体的なルールの例としては次のような
ものが考えられる。
Here, the following are conceivable as specific examples of rules for validating, invalidating, or converting the detected space.

ルールA:半角スペースの前後両方の文字の認識結果が英
数字のときのみ、該半角スペースを有効とする。
Rule A: The single-byte space is valid only when the recognition result of both characters before and after the single-byte space is alphanumeric.

ルールB:半角スペースの前後両方または片方の認識結果
が英数字のときのみ、該半角スペースを有効とする。
Rule B: The single-byte space is valid only when the recognition result before and / or after the single-byte space is an alphanumeric character.

ルールC:半角スペースの前の文字の認識結果が句読
点(、。,.等)であって、後に何等かの文字が存在する
ときに、該半角スペースを無効とする。
Rule C: When the recognition result of the character before the one-byte space is a punctuation mark (,., .., etc.) and there is any character after that, the one-byte space is invalidated.

ルールD:半角または全角スペースの前の文字の認識結果
が句読点であって、後に何等かの文字が存在するとき
に、該半角または全角スペースを無効とする。
Rule D: When the recognition result of the character before the one-byte or two-byte space is a punctuation mark, and there is some character after it, the one-byte or two-byte space is invalidated.

ルールE:半角スペースの後の文字の認識結果が始まり括
弧({(「『[等)で、前に何等かの文字が存在すると
きに、該半角スペースを無効とする。
Rule E: The recognition result of the character after the single-byte space starts and the parenthesis ({(“[[, etc.], if there is any character before, invalidates the single-byte space.

ルールF:全角または半角スペースの後の文字の認識結果
が始まり括弧({(「『[等)で、前に何等かの文字が
存在するときに、該全角または半角スペースを無効とす
る。
Rule F: A recognition result of a character after a double-byte or single-byte space starts and a parenthesis ({(“[[, etc.) is used to invalidate the double-byte or single-byte space when there is any character before it.

ルールG:半角スペースの前の文字の認識結果が終り括弧
(」』)}等)で、後に何等かの文字が存在するとき
に、該半角スペースを無効とする。
Rule G: When the recognition result of the character before the half-width space ends with parentheses ("") {), etc., and there is any character after that, the half-width space is invalidated.

ルールH:全角または半角スペースの前の文字の認識結果
が終り括弧(」』)}等)、後に何等かの文字が存在す
るときに、該全角または半角スペースを無効とする。
Rule H: When the recognition result of the character before the double-byte or single-byte space ends with parentheses ("") {), etc., and when there is any character after it, the double-byte or single-byte space is invalidated.

また、認識結果出力よりスペースを全面的に排除した
り半角スペースを排除して、認識結果出力を利用するア
プリケーションに都合のよい認識結果出力を得たい場合
がある。そのような場合に適用される具体的なルールと
しては次のようなルールが考えられる。
Further, there is a case where it is desired to completely remove a space or a half-width space from a recognition result output and obtain a recognition result output convenient for an application using the recognition result output. The following rules can be considered as specific rules applied in such a case.

ルールI:半角スペースを、その前後の文字の認識結果に
関係なく無効とする。
Rule I: One-byte space is invalid regardless of the recognition result of characters before and after it.

ルールJ:全角または半角スペースを、前後の文字の認識
結果に関係なく無効とする。
Rule J: A double-byte or single-byte space is invalid regardless of the recognition result of characters before and after.

ルールK:半角スペースを、その前後の文字の認識結果に
関係なく全角スペースに変換する。
Rule K: A half-width space is converted to a full-width space regardless of the recognition result of the characters before and after it.

〔実施例〕〔Example〕

第1図は本発明の一実施例に係る文字認識装置のブロ
ック図である。この文字認識装置において、画像入力部
10はスキャナーなどにより原稿の画像を読取り、その2
値画像データを入力し、画像メモリ11に格納する。行・
文字切出し部12は、画像メモリ11内の入力画像に対し文
字行と文字画像を切出し、文字画像データを文字画像メ
モリ13へ格納し、また文字切出し位置、文字幅、文字間
空白の幅、行の高さ、文字の標準幅などの切出し情報を
切出し情報メモリ14に格納する。
FIG. 1 is a block diagram of a character recognition device according to one embodiment of the present invention. In this character recognition device, the image input unit
10 reads the image of the original by a scanner or the like, and
The value image data is input and stored in the image memory 11. line·
The character cutout unit 12 cuts out a character line and a character image from the input image in the image memory 11, stores the character image data in the character image memory 13, and outputs a character cutout position, a character width, a width of a space between characters, and a line. The cutout information such as the height of the character and the standard width of the character is stored in the cutout information memory 14.

スペース検出部15は、切出し情報メモリ14に得られた
切出し情報に基づいて文字間の半角スペースまたは全角
スペースを検出し、検出結果情報を切出し情報メモリ14
に文字間空間と対応させて格納する。
The space detecting unit 15 detects a half-width space or a full-width space between characters based on the cut-out information obtained in the cut-out information memory 14, and outputs the detection result information to the cut-out information memory 14.
Is stored corresponding to the inter-character space.

文字認識部16は、文字画像メモリ13より文字画像のデ
ータを読込み、正規化処理を行ってから特徴を抽出し、
抽出特徴と辞書メモリ17より読出した辞書の特徴とを比
較し、特徴の距離が小さい認識結果候補を求めて認識結
果メモリ18へ格納する。また、切出し情報メモリ14内の
スペース検出結果情報を参照し、検出された文字間の半
角または全角スペースの情報も文字並びに従って認識結
果メモリ18に格納する。したがって、認識結果メモリ18
内には、原稿上の文字並び通りに文字の認識結果候補と
スペースのコードが並べられた形の認識結果データが得
られる。
The character recognition unit 16 reads character image data from the character image memory 13, performs normalization processing, and then extracts features,
The extracted features are compared with the features of the dictionary read from the dictionary memory 17, and a recognition result candidate having a small feature distance is obtained and stored in the recognition result memory 18. Further, referring to the space detection result information in the cut-out information memory 14, information on half-width or full-width spaces between the detected characters is also stored in the recognition result memory 18 in accordance with the character arrangement. Therefore, the recognition result memory 18
In the table, there is obtained recognition result data in which character recognition result candidates and space codes are arranged in line with the character arrangement on the document.

スペース処理部19は、スペース処理のルールを認識結
果メモリ18に得られた全角または半角スペースに適用す
ることにより、不要なスペースの無効処理や不適当な半
角スペースの全角スペースへの変換処理、あるいはスペ
ースの無条件削除(無効)や半角スペースの全角スペー
スへの無条件変換などの処理を行い、認識結果メモリ18
の内容を書き替える。ルール記憶部20はスペース処理に
適用可能なルールを格納している。装置のユーザは、こ
のルール記憶部20に記憶されている複数のルール(例え
ば前記ルールA〜Kなど)より、ルール処理に適用させ
るルールを一つ、または二つ以上を組合わせて選択する
ことができる。この選択は図示されていないコンソール
を通して行うことができる。
The space processing unit 19 applies the space processing rule to the full-width or half-width space obtained in the recognition result memory 18, thereby invalidating unnecessary space or converting inappropriate half-width space to full-width space, or Processing such as unconditional deletion (invalid) of spaces and unconditional conversion of half-width spaces to full-width spaces is performed, and the recognition result memory 18
Rewrite the contents of The rule storage unit 20 stores rules applicable to space processing. The user of the apparatus selects one or a combination of two or more rules to be applied to the rule processing from a plurality of rules (for example, the above rules A to K) stored in the rule storage unit 20. Can be. This selection can be made through a console not shown.

結果出力部21は、認識結果メモリ21のスペース処理後
の認識結果データをディスクやプリンタなどの出力機器
に出力する。
The result output unit 21 outputs the recognition result data after the space processing in the recognition result memory 21 to an output device such as a disk or a printer.

次に、第2図に示す横書き文字列“これは、『新型△
AIBCH△WP」です”(但し、便宜上、明細書中では半角
スペースを△印、全角スペースを□印で示す。以下同
様)を例にして、スペース検出及びスペース処理の内容
について説明する。
Next, the horizontal character string “This is the“ new
AIBCH @ WP "(for convenience, the half-width space is indicated by a triangle and the full-width space is indicated by a square. The same applies to the following description), and the contents of space detection and space processing will be described.

スペース検出部15は、切出し情報メモリ14を参照し、
文字間空白幅を全角文字標準幅と比較することにより、
半角スペース、全角スペースを検出する。全角文字標準
幅は、行の高さや文字列中の文字幅の平均値などを用い
て行・文字切出し部12において(あるいはスペース検出
部15において)計算される。
The space detection unit 15 refers to the cutout information memory 14,
By comparing the space width between characters with the full width character standard width,
Detects single-byte and double-byte spaces. The full-width character standard width is calculated in the line / character cutout unit 12 (or in the space detection unit 15) using the height of the line, the average value of the character width in the character string, and the like.

具体的な検出処理手順は第3図のフローチャートに示
す通りであり、行の最初の文字間空白より順番に、文字
間空白幅を全角文字標準幅で除算し、除算結果が1.0以
上であれば文字間空白を全角スペースとして検出し、除
算結果が1.0未満、0.5以上であれば文字間空白を半角ス
ペースとして検出し、除算結果が0.5未満であればスペ
ースではないと判定する。これを行の最後の空白まで繰
返し、結果を切出し情報メモリ14に書込む。
The specific detection processing procedure is as shown in the flowchart of FIG. 3. In this case, the inter-character space width is divided by the full-width character standard width in order from the first inter-character space, and if the division result is 1.0 or more. The inter-character space is detected as a full-width space, and if the division result is less than 1.0 and 0.5 or more, the inter-character space is detected as a half-width space, and if the division result is less than 0.5, it is determined that the space is not a space. This is repeated until the last blank of the line, and the result is written into the cut-out information memory 14.

例の文字列に対する切出し情報メモリ14の内容が第1
表の通りであったとする。
The contents of the cutout information memory 14 for the character string in the example are the first.
Assume that it is as shown in the table.

この場合、全角文字標準幅が60であるから、幅が60以
上の文字間空白が全角スペース、幅が30から59までの文
字間空白が半角スペースと判定される。
In this case, since the full-width character standard width is 60, a space between characters having a width of 60 or more is determined to be a full-width space, and a space between characters having a width of 30 to 59 is determined to be a half-width space.

よって、この文字列は、“これは、□『新型△AIBCH
△WP』△です”となるが、最初の全角スペースと最後の
半角スペースは入力文字列には存在しない余分なスペー
スである。このような余分なスペースは、句読点や括弧
が左または右に偏在して印刷されているために発生した
ものである。そして、このような余分なスペースも含
め、検出されたスペースはそのまま認識結果メモリ18内
の認識結果文字列にも挿入される。
Therefore, this character string is "This is □" New AIBCH
The first full-width space and the last half-width space are extra spaces that do not exist in the input character string. Such extra spaces are caused by punctuation and parentheses skewed to the left or right. The detected space, including such extra space, is also inserted into the recognition result character string in the recognition result memory 18 as it is.

次にスペース処理部19の処理について説明する。この
処理の一般適な流れは第4図のフローチャートに示す如
くである。ただし、適用するルールによっては半角、全
角の判定は必ずしも必要ではない。また、条件判定でNG
(無効、変換などが必要)となった場合の処理内容は、
適用されるルールによって決まる。
Next, the processing of the space processing unit 19 will be described. A general suitable flow of this processing is as shown in the flowchart of FIG. However, it is not always necessary to determine half-width or full-width depending on the rule to be applied. In addition, NG
(Invalid, conversion required, etc.)
It depends on the rules applied.

例えば前記ルールB「半角スペースの前後の両方また
は片方の認識結果が英数字の場合のみ、該半角スペース
は有効」を適用した場合、例の文字列の最後の半角スペ
ースの前後の文字が“』”と“で”であって、いずれも
英数字ではないので、それを無効と判定し認識結果メモ
リ18内の当該スペースのデータを“なし”に書換える。
For example, when the rule B “the half-width space is valid only when both or one of the recognition results before and after the half-width space is an alphanumeric character” is applied, the character before and after the last half-width space in the example character string is “”. Since both "" and "" are not alphanumeric, they are determined to be invalid, and the data of the space in the recognition result memory 18 is rewritten to "none".

よって、文字列は“これは、□『新型△AIBCH△WP』
です”に修正され、より正しい結果に近づく。
Therefore, the character string is “This is □“ New △ AIBCH △ WP ”
Is corrected to a closer result.

また、ルールBと同時に前記ルールD「全角または半
角スペースの前の文字の認識結果が句読点で、後に何等
かの文字が存在する場合、その全角または半角スペース
は無効」を適用した場合、例の文字列の最初の全角スペ
ースが、その前が句読点“、”で、後に括弧“『”が存
在するので無効と判定される。
In addition, when the rule D “the recognition result of the character before the double-byte or single-byte space is a punctuation mark and there is any character after it, the double-byte or single-byte space is invalid” is applied simultaneously with the rule B. The first double-byte space in the character string is determined to be invalid because the punctuation mark "," precedes it and the parenthesis "[" follows.

よって、文字列は“これは、『新型△AIBCH△WP』で
す”となり、正しい結果が得られた。
Therefore, the character string is "This is 'new AIBCH WP'", and the correct result was obtained.

前記の他のルールも単独または組合せて適用すること
ができる。例えば前記ルールFと前記ルールHを適用す
ることにより、文字列中の括弧の前後のスペースを削除
することができる。認識結果出力を利用するアプリケー
ションが半角スペースの存在を嫌う場合には、前記ルー
ルIまたはKを適用して半角スペースをすべて削除(無
効)したり全角スペースに変換させることができる。ま
た、前記ルールJを適用すれば、文字列中の全角スペー
ス、半角スペースをすべて削除できる。
The other rules described above can be applied alone or in combination. For example, by applying the rules F and H, spaces before and after parentheses in a character string can be deleted. If the application that uses the recognition result output dislikes the presence of a half-width space, the rule I or K can be applied to delete (invalidate) all the half-width spaces or convert them to full-width spaces. Further, by applying the rule J, all double-byte spaces and single-byte spaces in a character string can be deleted.

このように、予め多用なルールを用意しておくことに
より、入力文章の形式や認識結果の出力目的に応じて、
必要なルールを選択して単独または組合せて適用するこ
とにより、容易に適切なスペース処理を施した認識結果
出力を得ることができる。
In this way, by preparing various rules in advance, according to the format of the input sentence and the purpose of outputting the recognition result,
By selecting necessary rules and applying them alone or in combination, it is possible to easily obtain a recognition result output subjected to appropriate space processing.

〔発明の効果〕〔The invention's effect〕

以上説明した如く、請求項(1)、(2)記載の発明
によれば、文字切出し情報に基づいて検出された余分な
スペースの削除(無効)や半角スペースと全角スペース
の取り間違いの修正が可能であり、日本語文章中で発生
するスペース検出誤りの殆どを判別し修正可能である。
また、請求項(3)記載の発明によれば、入力文章の形
式や認識結果出力の利用方法などに応じて適用するルー
ルを一つまたは組み合せて選択することにより、望まし
い形式の認識結果出力を容易に得ることができる。さら
に請求項(4)記載の発明によれば、認識結果出力より
スペースを全面的に排除したり半角スペースを排除する
ことができるため、認識結果出力を利用するアプリケー
ションに都合のよい認識結果出力を容易に得ることがで
きる。
As described above, according to the inventions described in claims (1) and (2), it is possible to delete (invalidate) an extra space detected based on character cut-out information and correct mistaking of a half-width space and a full-width space. It is possible to determine and correct most of space detection errors occurring in Japanese sentences.
According to the invention described in claim (3), by selecting one or a combination of rules to be applied in accordance with the format of the input sentence, the method of using the output of the recognition result, and the like, the output of the recognition result in a desired format is achieved. Can be easily obtained. Further, according to the invention described in claim (4), it is possible to completely eliminate a space or a half-width space from the recognition result output, so that a recognition result output convenient for an application using the recognition result output can be provided. Can be easily obtained.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例に係る文字認識装置のブロッ
ク図、第2図は入力文字列の一例の説明図、第3図はス
ペース検出処理のフローチャート、第4図はスペース処
理のフローチャートである。 10……画像入力部、11……画像メモリ、 12……行・文字切出し部、 13……文字画像メモリ、 14……切出し情報メモリ、 15……スペース検出部、16……文字認識部、 17……文字辞書メモリ、 18……認識結果メモリ、 19……スペース処理部、 20……ルール記憶部、21……結果出力部。
FIG. 1 is a block diagram of a character recognition device according to one embodiment of the present invention, FIG. 2 is an explanatory diagram of an example of an input character string, FIG. 3 is a flowchart of space detection processing, and FIG. It is. 10 ... image input unit, 11 ... image memory, 12 ... line / character cutout unit, 13 ... character image memory, 14 ... cutout information memory, 15 ... space detection unit, 16 ... character recognition unit, 17: Character dictionary memory, 18: Recognition result memory, 19: Space processing unit, 20: Rule storage unit, 21: Result output unit.

Claims (4)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文字の切出し情報に基づいて文字間のスペ
ースを検出し、該検出したスペースについて、当該スペ
ースの前後の文字の一方あるいは両方の文字種に基づい
て有効、無効あるいは変換を行うことを特徴とする文字
間スペース処理方法。
An object of the present invention is to detect a space between characters based on character cut-out information, and to perform valid, invalid, or conversion on the detected space based on one or both character types of characters before and after the space. Characteristic space handling method.
【請求項2】文字の切出し情報に基づいて文字間のスペ
ースを検出し、該検出したスペースについて、当該スペ
ースの種類、当該スペースの前後の文字の一方あるいは
両方の文字種に基づいて有効、無効あるいは変換を行う
ことを特徴とする文字間スペース処理方法。
2. A method for detecting a space between characters based on character cut-out information, and detecting whether the detected space is valid, invalid, or invalid based on a type of the space, one or both of characters before and after the space. A method for processing a space between characters, comprising performing conversion.
【請求項3】請求項(1)または(2)記載の文字間ス
ペース処理方法において、検出されたスペースの有効、
無効あるいは変換を行うためのルールを複数備え、その
中から適用する一つ以上のルールを選択することを特徴
とする文字間スペース処理方法。
3. The method according to claim 1, wherein the detected space is effective.
A method for processing a space between characters, comprising a plurality of rules for performing invalidation or conversion, and selecting one or more rules to be applied from the rules.
【請求項4】請求項(3)記載の文字間スペース処理方
法において、半角スペースまたは全角スペースを無条件
に無効とし、または半角スペースを無条件に全角スペー
スへ変換する処理を行うルールを含めることを特徴とす
る文字間スペース処理方法。
4. A method according to claim 3, further comprising a rule for invalidating a half-width space or a full-width space or for converting a half-width space to a full-width space unconditionally. Character space processing method characterized by the following.
JP2214136A 1990-08-13 1990-08-13 Inter-character space processing method Expired - Fee Related JP2977247B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2214136A JP2977247B2 (en) 1990-08-13 1990-08-13 Inter-character space processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2214136A JP2977247B2 (en) 1990-08-13 1990-08-13 Inter-character space processing method

Publications (2)

Publication Number Publication Date
JPH0496883A JPH0496883A (en) 1992-03-30
JP2977247B2 true JP2977247B2 (en) 1999-11-15

Family

ID=16650827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2214136A Expired - Fee Related JP2977247B2 (en) 1990-08-13 1990-08-13 Inter-character space processing method

Country Status (1)

Country Link
JP (1) JP2977247B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6447066B2 (en) 2014-12-01 2019-01-09 株式会社リコー Image processing apparatus, image processing method, and program

Also Published As

Publication number Publication date
JPH0496883A (en) 1992-03-30

Similar Documents

Publication Publication Date Title
US7293229B2 (en) Ensuring proper rendering order of bidirectionally rendered text
CA2078423C (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US4813010A (en) Document processing using heading rules storage and retrieval system for generating documents with hierarchical logical architectures
US5359673A (en) Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
US8270721B2 (en) Method and system for acquiring data from machine-readable documents
JP4332356B2 (en) Information retrieval apparatus and method, and control program
JP2713622B2 (en) Tabular document reader
US8340425B2 (en) Optical character recognition with two-pass zoning
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
US20020181779A1 (en) Character and style recognition of scanned text
JP2977247B2 (en) Inter-character space processing method
Nevill‐Manning et al. Extracting text from PostScript
JP3669626B2 (en) Search device, recording medium, and program
JPH10171920A (en) Method and device for character recognition, and its recording medium
JPH0883280A (en) Document processor
JP3086264B2 (en) Character space recognition method
JPH0554072A (en) Digital translation device
JP2829186B2 (en) Optical character reader
JPH09204511A (en) Filing device
JPH04302070A (en) Character recognizing device
JP2004199483A (en) Image output apparatus
JP2003173421A (en) Character recognition result correcting device
JPH06223221A (en) Character recognizing device
JP2024003769A (en) Character recognition system, method of recognizing character by computer, and character search system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080910

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090910

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees