JP2003115031A - Image processor and its method - Google Patents

Image processor and its method

Info

Publication number
JP2003115031A
JP2003115031A JP2001307568A JP2001307568A JP2003115031A JP 2003115031 A JP2003115031 A JP 2003115031A JP 2001307568 A JP2001307568 A JP 2001307568A JP 2001307568 A JP2001307568 A JP 2001307568A JP 2003115031 A JP2003115031 A JP 2003115031A
Authority
JP
Japan
Prior art keywords
character
image
boundary area
binarization
character boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001307568A
Other languages
Japanese (ja)
Other versions
JP4132766B2 (en
Inventor
Akira Muragata
明 村形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001307568A priority Critical patent/JP4132766B2/en
Publication of JP2003115031A publication Critical patent/JP2003115031A/en
Application granted granted Critical
Publication of JP4132766B2 publication Critical patent/JP4132766B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To binarize a character boundary area as faithfully as possible and to improve an OCR recognition rate in binarizing process for converting a multi-valued character image into a binary character image. SOLUTION: An image processor is provided with a scanner means for digitizing character information formed on the surface of paper and entering the digital information as multi-valued image information, an arithmetic processing means for executing image processing operation, an image storing means for storing the image information and an image processing result obtained by the arithmetic processing means, a separation means for separating a character boundary area generated by an input from the scanner means, a 1st binarization means for binarizing the character boundary area, a 2nd binarization means for binarizing an area other than the character boundary area, and a correction means for smoothing and correcting the ruggedness of the character boundary area after the binarizing processing.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、画像処理装置およ
び方法に関し、特に、文字認識処理のための文字画像二
値化処理を行う画像処理装置および方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing apparatus and method, and more particularly to an image processing apparatus and method for performing character image binarization processing for character recognition processing.

【0002】[0002]

【従来の技術】文書のデジタル化が進み、紙面上に形成
されている文字情報をデジタル化して画像情報として保
存することが多くなった。しかし、ビットマップなどの
形式の画像情報ではデータ量が大きく、さらに文書(画
像情報)の編集が困難なため、文字コードに変換するこ
とが望まれている。
2. Description of the Related Art With the progress of digitization of documents, the character information formed on the paper surface is often digitized and stored as image information. However, image information in a format such as a bitmap has a large amount of data, and since it is difficult to edit a document (image information), it is desired to convert it into a character code.

【0003】そこで、文字画像を読み取って文字コード
に変換するOCR(Optical Character Reader:光学式
文字読み取り装置)が利用されるが、OCRによって文
字コードに変換する処理を行う際には、文字画像ごとに
切り出して、その1文字画像を正規化して、文字境界領
域のエッジの方向をもとに認識するので、スキャナなど
の入力装置でデジタル化した多値の文字画像を、まず、
文字画素の位置を特定するために文字画素と背景画素に
分離する処理が必要となる。
Therefore, an OCR (Optical Character Reader) that reads a character image and converts it into a character code is used. When performing the process of converting into a character code by OCR, each character image is processed. Is cut out and the one character image is normalized and recognized based on the direction of the edge of the character boundary area. Therefore, a multi-valued character image digitized by an input device such as a scanner is first
In order to specify the position of the character pixel, the process of separating the character pixel and the background pixel is required.

【0004】スキャナ入力によって多値化された文字画
像を入力として二値化処理し、二値表現された文字画像
を出力する処理が必要となる。一般的な文字画像二値化
処理を行う装置の構成を図27に示す。この装置は、紙
面上に形成されている文字情報をデジタル化して多値表
現の画像データとして読み取るスキャナ部1、スキャナ
部1で読み込んだ多値画像データや画像処理後の画像デ
ータを保存する画像記憶部2、入力された多値画像デー
タを二値化処理するCPU(信号処理部)3、二値表現
されている文字画像データをもとに文字認識処理を行う
OCR4で構成される。また、図27の矢印は、画像情
報の流れを示している。
It is necessary to perform a binarization process using a character image multi-valued by scanner input as an input and output a binary-represented character image. FIG. 27 shows the configuration of a device that performs general character image binarization processing. This device is a scanner unit 1 that digitizes character information formed on paper and reads it as multivalued image data, an image that stores multivalued image data read by the scanner unit 1 and image data after image processing. The storage unit 2 includes a CPU (signal processing unit) 3 that binarizes input multi-valued image data, and an OCR 4 that performs character recognition processing based on the binary-coded character image data. The arrow in FIG. 27 indicates the flow of image information.

【0005】処理の流れは以下のようなものである。ス
キャナ部1で読み込んだ多値文字画像を、一旦、画像記
憶部2に保存する。次に、その多値文字画像に対し、C
PU3において、スキャナ入力によって生じる文字の境
界領域を分離する処理を行い、文字境界領域の分離画像
を画像記憶部2に保存する。画像記憶部2に保存してい
る入力多値文字画像と、CPU3において画像処理して
作成した文字境界領域の分離画像とをもとに、CPU3
において入力多値文字画像に対して、順に、二値化処理
と、文字境界領域の平滑化処理と、を行う。この二値化
処理および文字境界領域平滑化処理の結果、得られる二
値文字画像データを、再び画像記憶部2に保存する。画
像記憶部2に二値文字画像を保存した後、OCR4は、
この二値文字画像を入力として文字認識処理を行う。O
CR4内では、単純閾値で二値化するようになっている
ので、文字領域と判断された画素を濃度値255、背景
画素と判断された画素を濃度値0とした8bitの画像
を文字認識の対象画像としてOCR4に送る。
The flow of processing is as follows. The multi-valued character image read by the scanner unit 1 is temporarily stored in the image storage unit 2. Next, for the multi-valued character image, C
The PU 3 performs a process of separating the character boundary area generated by the scanner input, and stores the separated image of the character boundary area in the image storage unit 2. Based on the input multi-valued character image stored in the image storage unit 2 and the separated image of the character boundary area created by image processing in the CPU 3, the CPU 3
In step 2, the input multi-valued character image is sequentially subjected to binarization processing and character boundary area smoothing processing. The binary character image data obtained as a result of the binarization processing and the character boundary area smoothing processing is stored again in the image storage unit 2. After saving the binary character image in the image storage unit 2, the OCR 4
Character recognition processing is performed using this binary character image as an input. O
In CR4, since binarization is performed with a simple threshold value, an 8-bit image in which a pixel determined to be a character region has a density value of 255 and a pixel determined to be a background pixel has a density value of 0 is used for character recognition. It is sent to OCR4 as a target image.

【0006】文字や文書画像を二値化処理する従来技術
として、特開2000−333022号公報は、画像の
二値化方法および装置並びに記憶媒体について開示して
いる。また、特開平5−282494号公報は、画像デ
ータの二値化装置について開示している。また、特開平
10−308871号公報は、二値化方法および文字読
み取り装置について開示している。これらの従来技術
は、文字や文書画像を対象とした二値化方法および装置
であるが、二値化処理を行う際の情報として、濃度情報
を用いて行っている。
As a conventional technique for binarizing a character or a document image, Japanese Patent Laid-Open No. 2000-333022 discloses an image binarizing method and apparatus and a storage medium. Further, Japanese Patent Laid-Open No. 5-282494 discloses an image data binarizing device. Japanese Patent Laid-Open No. 10-308871 discloses a binarizing method and a character reading device. These prior arts are a binarization method and apparatus for a character or a document image, and the density information is used as the information when performing the binarization process.

【0007】そのために、入力装置、特にスキャナで読
み取った文字画像は、スキャナ特性によって、元が二値
の文字情報でも、CCDの読み取りやMTF特性によっ
て多値化し、特に、濃度勾配が急な文字境界領域で濃度
断面がなまる。スキャナ特性は個々のスキャナ装置で固
有のものであり、濃度断面のなまる度合いはスキャナご
とに異なるため、多値化された文字画像では、濃度値の
エッジの傾きが変化する。特に、なまる度合いが急なス
キャナ入力の多値化画像の濃度断面部では、中間濃度に
なりやすい。二値化処理の際、その中間濃度領域に分布
する画素の二値化判断が難しく、従来の二値化手法で
は、この境界領域の二値化判断を誤ることにより文字画
像が潰れたり掠れたりするという問題がある。
For this reason, a character image read by an input device, especially a scanner, becomes multi-valued even if the original binary character information is read by the CCD or the MTF characteristic depending on the scanner characteristic, and especially the character having a steep density gradient. The concentration cross section is rounded in the boundary region. The scanner characteristic is unique to each scanner device, and the degree of rounding of the density cross section varies from scanner to scanner. Therefore, in the multivalued character image, the slope of the edge of the density value changes. In particular, in a density cross-section portion of a scanner-input multi-valued image in which the degree of rounding is steep, intermediate density is likely to occur. During the binarization process, it is difficult to determine the binarization of the pixels distributed in the intermediate density area, and in the conventional binarization method, the character image is crushed or blurred due to the erroneous binarization determination of the boundary area. There is a problem of doing.

【0008】また、濃度断面のなまる度合いは、局所的
な領域情報、例えば、太い文字線に囲まれた領域は、背
景領域であっても濃度値が近傍の文字領域の影響を受け
て高くなるので、大きくなる傾向がある。スキャナ入力
によって濃度断面がなまり、濃度断面がなまった結果生
じる領域は主に文字境界領域で、文字画素から背景画素
へまたは背景画素から文字画素へと遷移する領域なの
で、文字画素と背景画素が混在する。
Further, the degree of rounding of the density cross section is high due to local area information, for example, the area surrounded by a thick character line has a high density value even if the background area is affected by a nearby character area. So it tends to grow. The area that is generated as a result of the density section being blunted by the scanner input and the density section being blunted is mainly the character boundary area, which is the area that transitions from the character pixel to the background pixel or from the background pixel to the character pixel. To do.

【0009】また、特に、低解像度の影響でサンプリン
グが荒くなり、デジタル化する際に特に濃度変化の大き
い文字境界領域において濃度値のばらつきが生じやすく
なる。図28に、解像度の異なる多値画像の二値化処理
において、多値画像の解像度の違いにより二値化処理後
の画像に文字境界領域において凹凸が生じる様子を示
す。左側は、スキャナによって高解像度で取り込まれた
画像を示す。右側は、スキャナによって低解像度で取り
込まれた画像を示す。特に、右側上図の低解像度画像で
は、サンプリング間隔が大きいので、文字境界領域の急
な濃度勾配を表現できず、濃度のばらつきが生じてい
る。これらの画像を単純閾値(濃度値128、※1画素
8bit表現)で二値化処理した結果が下段の図であ
る。このように、特に低解像度の画像では、文字境界領
域の急な濃度勾配を表現できないことから、従来の二値
化手法での二値化後の画像では凹凸が生じやすい。
Further, particularly, the sampling becomes rough due to the influence of the low resolution, and when digitized, the density value is likely to vary in the character boundary region where the density change is particularly large. FIG. 28 shows how, in the binarization processing of multivalued images having different resolutions, unevenness occurs in the character boundary area in the image after the binarization processing due to the difference in the resolution of the multivalued images. The left side shows an image captured in high resolution by the scanner. The right side shows the image captured at low resolution by the scanner. In particular, in the low-resolution image in the upper right diagram, since the sampling interval is large, it is not possible to express a steep density gradient in the character boundary area, and density variations occur. The result of binarizing these images with a simple threshold (density value 128, * 1 pixel 8 bit expression) is shown in the lower diagram. As described above, particularly in a low-resolution image, since a steep density gradient in the character boundary region cannot be expressed, unevenness is likely to occur in the image binarized by the conventional binarization method.

【0010】スキャナ入力した多値文字画像に対し濃度
情報のみを用いて二値化すると、前述したように、スキ
ャナ特性によって生じる濃度断面のなまる度合いが局所
的に異なるので、二値化処理の結果、文字が潰れたり掠
れたりし、OCR認識率が低下するという問題があっ
た。従来の二値化手法では、スキャナ入力によって生じ
る濃度断面がなまり、濃度断面がなまった結果生じる領
域で二値化判定を誤っていることが多かった。濃度断面
がなまった結果生じる領域に対して誤判定しにくい二値
化処理方法および装置がOCR認識率向上のために望ま
れている。
When the multi-valued character image input by the scanner is binarized by using only the density information, as described above, the degree of rounding of the density cross section caused by the scanner characteristic is locally different. As a result, the characters are crushed or blurred and the OCR recognition rate is lowered. In the conventional binarization method, the density section generated by the scanner input is blunted, and the binarization determination is often erroneous in the region resulting from the blunted density section. There is a demand for a binarization processing method and apparatus that are less likely to be erroneously determined for a region resulting from a blunted density cross section in order to improve the OCR recognition rate.

【0011】また、前述したように低解像度入力によっ
て文字境界領域で凹凸が表れやすくなり、OCR認識率
が低下するという問題があった。OCRは、文字画像の
境界領域の文字の境界の方向を検出して認識を行う。O
CR認識率を向上させるために、認識するための特徴量
にしている、従来方法では二値化処理の誤判定が多い、
文字境界領域の情報を忠実に二値化することのできる方
法および装置が求められている。
Further, as described above, there is a problem that unevenness is likely to appear in the character boundary area due to low resolution input, and the OCR recognition rate is lowered. The OCR recognizes by detecting the direction of the character boundary in the boundary area of the character image. O
In order to improve the CR recognition rate, a feature amount for recognition is used. In the conventional method, there are many erroneous determinations in the binarization processing.
There is a need for a method and apparatus that can faithfully binarize information in character boundary areas.

【0012】[0012]

【発明が解決しようとする課題】本発明は、かかる問題
点に鑑みてなされたものであり、OCRでの文字認識処
理のために、多値文字画像から二値文字画像を出力する
二値化処理において文字境界領域をできる限り忠実に二
値化し、OCR認識率を向上させることのできる画像処
理方法および装置を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above problems, and it is a binarization for outputting a binary character image from a multivalued character image for character recognition processing in OCR. It is an object of the present invention to provide an image processing method and apparatus capable of binarizing a character boundary area in processing as faithfully as possible and improving the OCR recognition rate.

【0013】請求項1記載の発明は、スキャナ入力によ
って生じる文字境界領域に対し、文字の局所的な情報で
ある濃度断面の情報を二値化判定に用いることによっ
て、文字境界領域の二値化誤判定を抑え、OCR認識率
を向上させることを目的とする。
According to the first aspect of the present invention, for the character boundary area generated by the scanner input, the information of the density cross section, which is the local information of the character, is used for the binarization determination, so that the character boundary area is binarized. The purpose is to suppress erroneous determination and improve the OCR recognition rate.

【0014】文字画像はコントラストが高いので、特に
スキャナ入力の文字画像は文字の境界領域が劣化してな
まりやすくなる。スキャナ入力によって生じる文字の境
界領域は、文字線の局所的な位置情報やフォントの太さ
によっても文字の境界領域が劣化の度合いが近傍領域の
濃度情報に影響を受けて変化するので、特に全画素に対
し単一に濃度値の閾値を設定する従来の方法では二値化
後の文字の潰れや掠れが生じていた。請求項2記載の発
明は、文字の境界領域の二値化誤判定を防止するため、
スキャナ入力によって生じる文字の境界領域を抽出し、
この領域に適した二値化を行い、OCRの認識率を向上
させることを目的とする。
Since a character image has a high contrast, the character boundary area of the character particularly in the scanner-inputted character image is deteriorated and liable to be blunted. The character boundary area generated by the scanner input is especially affected by the local position information of the character lines and the font thickness, as the degree of deterioration of the character boundary area is affected by the density information of the neighboring areas. In the conventional method in which a single threshold value of density value is set for a pixel, a character is crushed or blurred after binarization. The invention according to claim 2 prevents the erroneous binarization of the boundary region of the character.
Extract the boundary area of characters generated by scanner input,
The purpose is to perform binarization suitable for this region and improve the recognition rate of OCR.

【0015】文字画像はコントラストが高いので、特に
スキャナ入力の文字画像は文字の境界領域が劣化してな
まりやすくなる。スキャナ入力によって生じる文字の境
界領域は、文字線の局所的な位置情報やフォントの太さ
によっても変わるので、特に、特に全画素に対し単一に
濃度値の閾値を設定する従来の方法では二値化後の文字
の潰れや掠れが生じていた。請求項3記載の発明は、二
値化の判定に困難な画素に対しLBGアルゴリズムを用
いることによって、効率良く分離を行って、このスキャ
ナ入力によって生じる文字境界領域を抽出し、この領域
に適した二値化処理を行い、OCRの認識率を向上させ
ることを目的とする。
Since the character image has a high contrast, the character input area of the scanner is apt to be blunted due to deterioration of the character boundary area. Since the boundary area of characters generated by scanner input also changes depending on the local position information of character lines and the thickness of fonts, especially in the conventional method of setting a single density value threshold value for all pixels. The characters were crushed or blurred after the value was converted. According to the third aspect of the present invention, by using the LBG algorithm for pixels that are difficult to determine the binarization, the character boundary area generated by this scanner input is extracted by performing efficient separation, and is suitable for this area. The purpose is to perform binarization processing and improve the recognition rate of OCR.

【0016】スキャナ入力によって生じる文字境界領域
は、文字画素と背景画素が混在する。請求項4記載の発
明は、その領域を二値化処理するために、1濃度断面ご
とに局所的な二値化閾値を設けて1濃度断面ごとに二値
化処理を行い、局所的な二値化閾値の設定によって、二
値化後の文字画像の潰れや掠れを防ぎ、OCRの認識率
を向上させることを目的とする。
In the character boundary area generated by scanner input, character pixels and background pixels are mixed. In order to perform the binarization process on the region, a local binarization threshold value is provided for each concentration cross section, and the binarization process is performed for each concentration cross section to perform the local binarization process. The object of the present invention is to prevent crushing and blurring of a character image after binarization by setting a threshold value for thresholding, and to improve the recognition rate of OCR.

【0017】請求項5記載の発明は、スキャナ入力によ
って生じる文字境界領域が二値化された画像に対し、文
字の内側の領域と背景領域とを近傍の二値化結果を用い
て安定して二値化処理することを目的とする。
According to a fifth aspect of the present invention, for an image in which the character boundary region generated by scanner input is binarized, the region inside the character and the background region are stably used by using the neighboring binarization results. It is intended to be binarized.

【0018】OCRで文字認識を行いたい場合、特に、
低解像度の影響により、二値化処理後に文字境界領域に
生じる凹凸によって誤認識することがある。請求項6記
載の発明は、二値化後の文字画像に対し、境界領域に生
じる凹凸を文字境界領域の平滑化で除去することによっ
て、OCRの認識率を向上させることを目的とする。
When character recognition is desired by OCR, in particular,
Due to the influence of the low resolution, erroneous recognition may occur due to unevenness generated in the character boundary area after the binarization process. It is an object of the present invention to improve the OCR recognition rate by removing unevenness generated in the boundary area by smoothing the character boundary area in the binarized character image.

【0019】スキャナ入力によって生じる文字の境界領
域は、スキャナ特性や文字フォントの影響により文字境
界領域が劣化してなまりやすくなる。スキャナなどで読
み込んだ文字画像は、文字近傍領域の影響も受けるの
で、文字領域や背景領域でも濃度値の値が大きく異な
る。スキャナ入力の画像に対して、全画素に単一の濃度
の閾値を設定して二値化すると、文字が潰れや掠れの原
因になる。請求項7記載の発明は、検知手段より、スキ
ャナ入力によって生じる文字境界領域を分離して領域ご
とに二値化処理を切り替えることによって、二値化後の
文字境界電子領域での二値化誤判定を抑え、OCRの認
識率を向上させることを目的とする。
The character boundary area generated by the scanner input is apt to be blunted due to deterioration of the character boundary area due to the influence of the scanner characteristics and the character font. Since a character image read by a scanner or the like is also affected by the character vicinity area, the density value greatly differs between the character area and the background area. When a single density threshold value is set for all pixels in an image input by a scanner and the image is binarized, the characters are crushed or blurred. According to a seventh aspect of the present invention, the detection unit separates the character boundary region generated by the scanner input and switches the binarization process for each region, thereby making an error in binarizing the character boundary electronic region after binarization. The object is to suppress the judgment and improve the recognition rate of OCR.

【0020】スキャナ入力によって生じる文字境界領域
は、文字画素と背景画素が混在する。請求項8記載の発
明は、その領域を二値化するために、1断面ごとに局所
的な二値化閾値を設けて1濃度断面ごとに二値化処理を
行う。濃度断面の形状を用いて局所的な二値化閾値の設
定を行うことによって、二値化後の文字画像の潰れや掠
れを防ぎ、OCRの認識率を向上させることを目的とす
る。
In the character boundary area generated by scanner input, character pixels and background pixels are mixed. In order to binarize the region, a local binarization threshold value is provided for each cross section and binarization processing is performed for each density cross section. By locally setting a binarization threshold value using the shape of the density cross section, it is an object to prevent the character image after binarization from being crushed or blurred and to improve the OCR recognition rate.

【0021】[0021]

【課題を解決するための手段】かかる目的を達成するた
めに、請求項1記載の発明は、紙面上に形成されている
文字情報をデジタル化して多値画像情報として取り込む
スキャナ手段と、画像処理演算を行う演算処理手段と、
画像情報と演算処理手段による画像処理結果とを格納す
る画像記憶手段と、を備える画像処理装置であって、ス
キャナ手段による入力によって生じる文字境界領域を分
離する分離手段と、文字境界領域を二値化処理する第1
の二値化手段と、文字境界領域以外の領域を二値化処理
する第2の二値化手段と、二値化処理後に文字境界領域
の凹凸を平滑化して補正する補正手段とを有することを
特徴としている。
In order to achieve such an object, the invention according to claim 1 is a scanner means for digitizing character information formed on a paper surface and taking it in as multi-valued image information, and image processing. Arithmetic processing means for performing arithmetic,
An image processing apparatus comprising: an image storage unit for storing image information and an image processing result by an arithmetic processing unit; a separating unit for separating a character boundary region generated by an input by a scanner unit; First to process
The binarizing means, the second binarizing means for binarizing the area other than the character boundary area, and the correcting means for smoothing and correcting the unevenness of the character boundary area after the binarizing processing. Is characterized by.

【0022】請求項2記載の発明は、請求項1記載の発
明において、分離手段は、一次微分値と濃度値の情報を
特徴量として用いて、文字境界領域の分離を行うことを
特徴としている。
The invention according to claim 2 is characterized in that, in the invention according to claim 1, the separating means separates the character boundary area by using the information of the primary differential value and the density value as the characteristic amount. .

【0023】請求項3記載の発明は、請求項1記載の発
明において、分離手段は、入力画像の一次微分−濃度平
面を用いて、LBGアルゴリズムにより文字境界領域の
分離を行うことを特徴としている。
According to a third aspect of the invention, in the first aspect of the invention, the separating means separates the character boundary area by the LBG algorithm using the first differential-density plane of the input image. .

【0024】請求項4記載の発明は、請求項1記載の発
明において、第1の二値化手段は、文字境界領域を、ス
キャナ手段による入力によって生じる文字濃度断面情報
を用いて二値化処理することを特徴としている。
According to a fourth aspect of the present invention, in the first aspect of the present invention, the first binarizing means binarizes the character boundary area using the character density cross-section information generated by the input by the scanner means. It is characterized by doing.

【0025】請求項5記載の発明は、請求項1記載の発
明において、第2の二値化手段は、近傍の文字境界領域
の二値化処理結果を用いて二値化処理を行うことを特徴
としている。
According to a fifth aspect of the present invention, in the first aspect of the present invention, the second binarizing means performs the binarizing process by using the binarizing result of the neighboring character boundary area. It has a feature.

【0026】請求項6記載の発明は、請求項1記載の発
明において、補正手段は、二値化処理後の画像の文字境
界領域に生じる凹凸を検出して埋めることにより平滑化
を行うことを特徴としている。
According to a sixth aspect of the present invention, in the first aspect of the invention, the correction means performs smoothing by detecting and filling irregularities generated in the character boundary area of the image after the binarization processing. It has a feature.

【0027】請求項7記載の発明は、請求項1記載の発
明において、文字境界領域を分離して、分離された領域
ごとに二値化処理を切り替えることを特徴としている。
The invention according to claim 7 is characterized in that, in the invention according to claim 1, the character boundary area is separated, and the binarization processing is switched for each separated area.

【0028】請求項8記載の発明は、請求項1記載の発
明において、第1の二値化手段は、文字境界領域を、ス
キャナ手段による入力によって生じる文字濃度断面とそ
の形状の情報とを用いて二値化処理することを特徴とし
ている。
According to an eighth aspect of the present invention, in the first aspect of the present invention, the first binarizing means uses a character boundary area as a character density cross section produced by an input by the scanner means and information on its shape. It is characterized by performing binarization processing.

【0029】請求項9記載の発明は、スキャナ入力の多
値文字画像について、スキャナ入力によって生じる文字
境界領域を分離する分離ステップと、分離された文字境
界領域を二値化処理する第1の二値化ステップと、文字
境界領域以外の領域を二値化処理する第2の二値化ステ
ップと、二値化処理後に文字境界領域の凹凸を平滑化し
て補正する補正ステップとを有することを特徴としてい
る。
According to a ninth aspect of the present invention, with respect to a multi-valued character image input by a scanner, a separation step of separating a character boundary area generated by the scanner input, and a first binary processing of the separated character boundary area. It has a binarization step, a second binarization step for binarizing an area other than the character boundary area, and a correction step for smoothing and correcting irregularities in the character boundary area after the binarization processing. I am trying.

【0030】請求項10記載の発明は、請求項9記載の
発明において、分離ステップは、一次微分値と濃度値の
情報を特徴量として用いて、文字境界領域の分離を行う
ことを特徴としている。
The invention according to claim 10 is characterized in that, in the invention according to claim 9, the separating step separates the character boundary area by using the information of the primary differential value and the density value as the feature amount. .

【0031】請求項11記載の発明は、請求項9記載の
発明において、分離ステップは、入力画像の一次微分−
濃度平面を用いて、LBGアルゴリズムにより文字境界
領域の分離を行うことを特徴としている。
In the invention described in claim 11, in the invention described in claim 9, the separating step is the first derivative of the input image.
It is characterized in that the character boundary area is separated by the LBG algorithm using the density plane.

【0032】請求項12記載の発明は、請求項9記載の
発明において、第1の二値化ステップは、文字境界領域
を、スキャナ入力によって生じる文字濃度断面情報を用
いて二値化処理することを特徴としている。
According to a twelfth aspect of the present invention, in the ninth aspect of the present invention, the first binarizing step binarizes the character boundary area using the character density cross section information generated by scanner input. Is characterized by.

【0033】請求項13記載の発明は、請求項9記載の
発明において、第2の二値化ステップは、近傍の文字境
界領域の二値化処理結果を用いて二値化処理を行うこと
を特徴としている。
According to a thirteenth aspect of the present invention, in the ninth aspect of the invention, the second binarization step performs the binarization process by using the binarization process result of the adjacent character boundary region. It has a feature.

【0034】請求項14記載の発明は、請求項9記載の
発明において、補正ステップは、二値化処理後の画像の
文字境界領域に生じる凹凸を検出して埋めることにより
補正を行うことを特徴としている。
According to a fourteenth aspect of the invention, in the ninth aspect of the invention, the correction step performs the correction by detecting and filling the unevenness generated in the character boundary area of the image after the binarization processing. I am trying.

【0035】請求項15記載の発明は、請求項9記載の
発明において、文字境界領域を分離して、分離された領
域ごとに二値化処理を切り替えることを特徴としてい
る。
The invention of claim 15 is characterized in that, in the invention of claim 9, the character boundary region is separated and the binarization processing is switched for each separated region.

【0036】請求項16記載の発明は、請求項9記載の
発明において、第1の二値化ステップは、文字境界領域
を、スキャナ入力によって生じる文字濃度断面とその形
状の情報とを用いて二値化処理することを特徴としてい
る。
According to a sixteenth aspect of the invention, in the ninth aspect of the invention, the first binarizing step uses the character boundary area by using the character density cross section generated by the scanner input and the information of the shape. The feature is that it is digitized.

【0037】[0037]

【発明の実施の形態】以下、本発明の実施の形態を添付
図面を参照しながら詳細に説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described in detail below with reference to the accompanying drawings.

【0038】[第1の実施例]図1は、本発明の第1の
実施の形態における画像処理方法を示す図である。この
画像処理は、CPU(信号処理部)が行う処理である。
本画像処理方法は、順に、入力である多値文字画像I1
に対しての文字境界領域の抽出処理101、多値文字画
像I1と文字境界領域の抽出処理後に得られる文字境界
領域の分離画像I2とを元にした文字境界領域の二値化
処理102、文字境界領域の二値化処理後の画像に対す
る文字境界領域以外の領域の二値化処理103、およ
び、上記二値化処理後の出力画像に対する文字境界領域
の補正処理104を行い、二値文字画像I3を出力する
ものである。
[First Embodiment] FIG. 1 is a diagram showing an image processing method according to the first embodiment of the present invention. This image processing is processing performed by the CPU (signal processing unit).
In the image processing method, the input multi-valued character image I1
A character boundary region extraction process 101, a multi-valued character image I1 and a character boundary region binarization process 102 based on a character boundary region separation image I2 obtained after the character boundary region extraction process, and a character Binarization processing 103 of the area other than the character boundary area is performed on the image after the binarization processing of the boundary area, and correction processing 104 of the character boundary area is performed on the output image after the binarization processing. I3 is output.

【0039】文字境界領域の抽出処理101では、スキ
ャナ入力によって生じる文字の境界領域を、(濃度値曲
線の)一次微分などの特徴量を元に分離する。
In the character boundary area extraction processing 101, the character boundary area generated by the scanner input is separated based on the characteristic amount such as the first derivative (of the density curve).

【0040】文字境界領域の二値化処理102では、ス
キャナ入力によって生じる文字の境界領域に注目し、局
所的に判定用閾値を変化させて二値化処理を行う。図1
9に、スキャナから取り込んだ明朝体とゴシック体の文
字画像の例とその二値化結果の例を示す。図19におい
て、上部の画像は原画像を示す。中央の上下の図は、原
画像の濃度断面上の濃度分布を示している。下部の画像
は、濃度分布上に示した閾値Aと閾値Bそれぞれで二値
化処理した結果の画像を示している。この処理では、図
19のように、対象文字画像の横方向にラスタ走査を行
い、濃度断面を横方向ごとに設定する。文字境界領域で
あるエッジ部は、前述した文字境界領域の抽出処理10
1によって分離した結果の画像を用いている。
In the binarization processing 102 of the character boundary area, attention is paid to the boundary area of the character generated by the scanner input, and the threshold value for determination is locally changed to perform the binarization processing. Figure 1
FIG. 9 shows an example of Mincho typeface and Gothic type character images captured by the scanner and an example of the binarization result. In FIG. 19, the upper image shows the original image. The upper and lower figures in the center show the density distribution on the density cross section of the original image. The lower image shows an image as a result of binarization processing with each of the threshold A and the threshold B shown on the density distribution. In this process, as shown in FIG. 19, raster scanning is performed in the horizontal direction of the target character image, and the density section is set for each horizontal direction. The edge portion, which is the character boundary area, has the above-described character boundary area extraction processing 10
The resulting image separated by 1 is used.

【0041】中央図の閾値Aは、8bit画像の中間の
濃度値である128を単純閾値としたものである。それ
に対し、閾値Bは、文字境界領域の抽出処理101にお
いて、文字境界領域であるエッジ部と判断された領域
(中央図上段の点線部)に、その最大濃度画素と最小濃
度画素の中間値に設定されたものである。その他の文字
境界領域であるエッジ部に対しても、同様に、閾値Bを
設定する。図19下部画像は、以上の処理を横方向に全
走査した後の二値化処理結果である。図19下部画像を
参照してわかるように、全体の画像から単純閾値Aを設
定して二値化を行うと、スキャナ入力によって生じる文
字境界領域に対し、文字線が細い明朝体では掠れが生
じ、文字線が太いゴシック体では潰れが生じている。そ
れに対し、1濃度断面(エッジ部)ごとに局所的な閾値
Bを設定した方法では、全濃度断面の山と谷を再現でき
るので、文字の掠れや潰れが生じにくくなっている。
The threshold value A in the center diagram is a simple threshold value of 128, which is an intermediate density value of an 8-bit image. On the other hand, the threshold value B is set to an intermediate value between the maximum density pixel and the minimum density pixel in the area (dotted line part in the upper part of the central figure) determined to be the edge area which is the character boundary area in the character boundary area extraction processing 101. It has been set. The threshold value B is similarly set for the other edge portions which are the character boundary areas. The lower image in FIG. 19 is the binarization processing result after the above processing is fully scanned in the horizontal direction. As can be seen from the lower image of FIG. 19, when the simple threshold A is set from the entire image and binarization is performed, the character boundary area generated by scanner input is blurred in the Mincho type with thin character lines. Occurrence occurs in the Gothic type with thick character lines. On the other hand, in the method in which the local threshold value B is set for each one density cross section (edge portion), the peaks and valleys of all density cross sections can be reproduced, so that blurring or crushing of characters is less likely to occur.

【0042】なお、実際にはこの二値化処理102で
は、文字境界領域であるエッジ部のみを二値化するが、
従来の単純閾値による手法と比較するために、文字境界
領域以外の画素は閾値Aで二値化した例を示している。
In the binarization process 102, only the edge portion which is the character boundary area is binarized in practice.
For comparison with the conventional method using the simple threshold value, an example in which pixels other than the character boundary area are binarized with the threshold value A is shown.

【0043】文字境界領域以外の領域の二値化処理10
3では、上記102の処理においてスキャナ入力によっ
て生じる文字境界領域が二値化されているので、文字線
の内部領域と背景領域とを、その近傍の二値化されたス
キャナ入力によって生じる文字境界領域の情報を利用し
統合させることによって、安定して二値化処理する。
Binarization processing of the area other than the character boundary area 10
In No. 3, since the character boundary area generated by the scanner input in the process of 102 is binarized, the character boundary area generated by the binarized scanner input in the vicinity of the inner area of the character line and the background area is binarized. By using and integrating the information of, stable binarization processing is performed.

【0044】文字境界領域の補正処理104では、特に
低解像度の影響でサンプリングが荒くなり、デジタル化
する際に特に濃度変化の大きい文字境界領域で、濃度値
のばらつきが生じやすくなる文字境界領域に対しての補
正処理を行う。低解像度の画像では文字境界領域の急な
濃度勾配を表現できないことから二値化後画像で凹凸が
生じやすいので、二値化処理後の文字画像に対し、境界
領域に生じる凹凸を文字境界領域の平滑化処理で除去す
る。
In the character boundary region correction processing 104, sampling is rough due to the influence of low resolution, and especially in the character boundary region where the density change is large when digitized, the character boundary region in which the density value variation easily occurs. A correction process is performed for it. Since it is not possible to express a steep density gradient in the character boundary area in a low-resolution image, unevenness is likely to occur in the binarized image. It is removed by the smoothing process of.

【0045】図2は、図1に示される本発明の画像処理
方法の基本構成を基にした二値化処理の流れを示す図で
ある。図1における文字境界領域抽出処理101に対
し、図2の処理では、非確定画素の分離処理201を行
う。入力画像として、スキャナ部で取り込んだ多値文字
画像に対し、文字境界領域において、近傍の濃度変化が
急で、スキャナ入力によって生じる文字境界領域に分布
する画素を非確定画素P1とし、文字境界領域以外にお
いて、近傍の濃度変化が平坦な領域に分布する画素を確
定画素P2として分離処理を行う。
FIG. 2 is a diagram showing the flow of binarization processing based on the basic configuration of the image processing method of the present invention shown in FIG. In contrast to the character boundary area extraction process 101 in FIG. 1, in the process of FIG. 2, a non-determined pixel separation process 201 is performed. With respect to the multi-valued character image captured by the scanner unit as the input image, pixels distributed in the character boundary area due to scanner input due to a sudden change in density in the character boundary area are defined as non-determined pixels P1, and the character boundary area is defined. In other cases, the separation processing is performed by setting the pixels distributed in the area where the density change in the vicinity is flat as the definite pixel P2.

【0046】図12に、非確定画素の分離処理201を
施した画像の図を示す。左側の図はスキャナ入力によっ
て取り込んだ多値文字画像の例であり、その原画像に対
し、非確定画素の分離処理201を施した画像が右側の
図である。非確定画素P1は白で、確定画素P2は黒で
示されている。右図のように、非確定画素P1はスキャ
ナ入力によって生じる文字境界領域なので、スキャナ特
性によって生じる文字の滲んだ境界領域に分布してい
る。確定画素P2は、スキャナ入力によって生じる文字
境界領域以外の領域なので、文字線の内側の領域と、文
字の影響がない背景領域とに分布している。主に文字境
界領域に分布する画素を非確定画素P1と定義する。文
字の影響がない背景領域に分布する画素と文字線の内側
の領域を確定画素P2と定義する。具体的な分離方法と
して、非確定画素P1は近傍の濃度変化が急なことを利
用して、濃度の一次微分特性を特徴量として分離処理を
行う。入力の多値文字画像に対してエッジ検出フィルタ
をかけて一次微分の強度を算出する。この一次微分の強
度に閾値を設けて閾値以上の画素を非確定画素P1、閾
値未満の画素を確定画素P2として文字境界領域の分離
画像208を得る。
FIG. 12 shows a diagram of an image which has been subjected to the non-determined pixel separation processing 201. The diagram on the left is an example of a multi-valued character image captured by scanner input, and the image on the right is the image obtained by subjecting the original image to the non-determined pixel separation processing 201. The non-determined pixel P1 is shown in white and the determined pixel P2 is shown in black. As shown in the right figure, the non-deterministic pixels P1 are the character boundary area generated by the scanner input, and therefore are distributed in the character blurred area generated by the scanner characteristics. Since the fixed pixels P2 are areas other than the character boundary area generated by the scanner input, they are distributed in the area inside the character line and the background area that is not affected by the character. Pixels mainly distributed in the character boundary area are defined as non-determined pixels P1. Pixels distributed in the background area where there is no influence of characters and the area inside the character line are defined as fixed pixels P2. As a specific separation method, the non-determined pixel P1 performs the separation process using the first-order differential characteristics of the density as a feature amount by utilizing the fact that the density change in the vicinity is rapid. An edge detection filter is applied to the input multivalued character image to calculate the strength of the first derivative. A threshold value is set for the intensity of the first-order differential, and a pixel above the threshold value is set as the non-determined pixel P1 and a pixel below the threshold value is determined pixel P2 to obtain the separated image 208 of the character boundary region.

【0047】次に、文字境界領域の二値化処理102と
して、非確定画素P1の二値化処理202を行う。入力
は、スキャナ部で取り込んだ多値文字画像と文字境界領
域の分離画像である。多値文字画像は、濃度情報から閾
値決定を行うために用いる。文字境界領域の分離画像
は、対象画像が、文字境界領域に分布する非確定画素P
1か否かを調べるために用いる。注目している非確定画
素を中心に局所的な正方形の近傍領域を設定し、その近
傍領域内に分布する画素の平均濃度値を、注目している
非確定画素の閾値として用いて二値化処理を行う。
Next, as the binarization processing 102 of the character boundary area, the binarization processing 202 of the undetermined pixel P1 is performed. The input is the multi-valued character image captured by the scanner unit and the separated image of the character boundary area. The multi-valued character image is used to determine the threshold value from the density information. In the separated image of the character boundary area, the target image is an undetermined pixel P distributed in the character boundary area.
It is used to check if it is 1. Binaryization is performed by setting a local square neighborhood area centered on the non-determined pixel of interest and using the average density value of the pixels distributed in that neighborhood as the threshold of the non-determined pixel of interest. Perform processing.

【0048】次に、文字境界領域以外の領域の二値化処
理103として、確定画素P2の二値化処理203を行
う。入力として、非確定画素P1の二値化処理202後
の、スキャナ入力によって生じる文字境界領域のみが二
値化された画像を用いる。この非確定画素P1が分布す
る文字境界領域の周辺領域を二値化するために、注目す
る確定画素の近傍に分布する非確定画素P1の情報をも
とに、確定画素P2の近傍には文字画素が多いか背景画
素が多いか計算して判定を行い、多い方に統合する。
Next, as the binarization processing 103 of the area other than the character boundary area, the binarization processing 203 of the fixed pixel P2 is performed. As an input, an image in which only the character boundary region generated by the scanner input is binarized after the binarization process 202 of the undetermined pixel P1 is used. In order to binarize the peripheral area of the character boundary area in which the non-determined pixel P1 is distributed, the characters near the determined pixel P2 are determined based on the information of the non-determined pixel P1 distributed in the vicinity of the determined pixel of interest. The number of pixels or the number of background pixels is calculated to make a determination, and the pixel with the larger number is integrated.

【0049】次に、第1の実施例における画像処理方法
の文字境界領域の補正処理104に対して、文字境界領
域の補正処理204を行う。入力は、確定画素P2の二
値化処理203において全画素二値化された画像を用い
る。図13に示すような、X方向(横)とY方向(縦)
の左上の画素からラスタ走査を行って横と縦方向の文字
画素の連続領域を検出し、その連続領域の間が狭い場
合、その画素を文字画素に埋めることによって横と縦方
向の文字境界の凹凸を埋める。図13では、2と4の例
で、黒画素(文字画素)の連続の間に生じている白画素
(背景画素)を黒画素(文字画素)に補正する。
Next, the character boundary area correction processing 204 is performed with respect to the character boundary area correction processing 104 of the image processing method according to the first embodiment. As an input, an image obtained by binarizing all pixels in the binarization processing 203 of the fixed pixel P2 is used. X direction (horizontal) and Y direction (vertical) as shown in FIG.
Raster scanning is performed from the upper left pixel of the to detect a continuous area of horizontal and vertical character pixels, and if the continuous area is narrow, fill that pixel with a character pixel to create a horizontal and vertical character boundary. Fill the irregularities. In FIG. 13, in the examples of 2 and 4, white pixels (background pixels) that occur between consecutive black pixels (character pixels) are corrected to black pixels (character pixels).

【0050】次に、図13に示すようなX方向とY方向
の左上の画素から、横と縦方向の背景画素の連続領域を
検出し、その連続領域の間が狭い場合、その画素を背景
画素に埋めることによって、横と縦方向の文字境界の凹
凸を埋める。図13では、1と3の例で、白画素(背景
画素)の連続の間に生じている黒画素(文字画素)を白
画素(背景画素)に補正する。文字画像の境界領域の凹
凸を埋めて文字境界領域を補正した二値文字画像を出力
する。
Next, a continuous region of horizontal and vertical background pixels is detected from the upper left pixel in the X and Y directions as shown in FIG. 13, and when the continuous region is narrow, the pixel is set as the background. By filling in the pixels, the unevenness of the horizontal and vertical character boundaries is filled. In FIG. 13, in the examples of 1 and 3, the black pixels (character pixels) generated between the continuous white pixels (background pixels) are corrected to white pixels (background pixels). The binary character image in which the character boundary area is corrected by filling the irregularities in the boundary area of the character image is output.

【0051】また、図3に、図2の画像処理方法とは異
なるバリエーションの二値化処理の流れを示す。図2の
方法との違いは、確定画素P2の二値化処理303にお
いて、入力である多値文字画像I1と、非確定画素P1
のみの二値化処理画像と、を利用して確定画素P2を二
値化する処理を行う。確定画素P2は、濃度値が十分高
いか十分低いかに分離できるので、図2の手法のように
近傍の情報を利用しないで、濃度値に閾値を設けて確定
画素P2の二値化を行う。その他の処理は、図2の方法
と同様である。
FIG. 3 shows a flow of binarization processing which is a variation different from the image processing method of FIG. The difference from the method of FIG. 2 is that in the binarization process 303 of the fixed pixel P2, the input multi-valued character image I1 and the non-fixed pixel P1 are input.
The binarization-processed image is used to binarize the determined pixel P2. Since the fixed pixel P2 can be separated into a sufficiently high density value and a sufficiently low density value, a threshold value is set for the density value to binarize the fixed pixel P2 without using nearby information as in the method of FIG. Other processes are the same as the method of FIG.

【0052】[第2の実施例]図4に、第1の実施例で
説明した文字境界領域の抽出処理101に対し、本発明
の第2の実施例における画像処理方法での非確定画素P
1の分離処理を示す。この非確定画素P1の分離処理で
は、文字画像の濃度断面から領域を仮定し、多値文字画
像I1を入力として、スキャナ入力によって生じる文字
境界領域に分布する非確定画素P1を抽出する。
[Second Embodiment] FIG. 4 shows the undefined pixel P in the image processing method according to the second embodiment of the present invention, in contrast to the character boundary area extraction processing 101 described in the first embodiment.
The separation processing of No. 1 is shown. In the separation process of the non-determined pixel P1, the region is assumed from the density cross section of the character image, the multi-valued character image I1 is input, and the non-determined pixel P1 distributed in the character boundary region generated by the scanner input is extracted.

【0053】図14に文字画像の濃度断面を示す。領域
1は、濃度勾配が平坦な背景領域を、領域2は、文字か
ら背景へ/背景から文字への遷移領域を、領域3は、濃
度勾配が平坦な文字領域を、領域4は、文字線と文字線
に挟まれた狭い背景領域への遷移領域をそれぞれ示して
いる。図14のような領域があるとまず仮定し、非確定
画素P1が分布する領域2および4を一次微分の強度と
濃度情報とをもとに抽出する。一次微分の強度は、一次
微分量の算出処理401を行って得る。
FIG. 14 shows a density cross section of a character image. Area 1 is a background area with a flat density gradient, area 2 is a transition area from a character to a background / background to a character, area 3 is a character area with a flat density gradient, and area 4 is a character line. And the transition region to the narrow background region sandwiched between the character lines. First, assuming that there is a region as shown in FIG. 14, regions 2 and 4 in which the undetermined pixel P1 is distributed are extracted based on the intensity of the first derivative and the density information. The intensity of the first derivative is obtained by performing the calculation process 401 of the first derivative.

【0054】図15に一次微分と濃度値の分布を示す。
図14のそれぞれの領域1〜4は、一次微分−濃度値平
面で見ると、図15のように分布する。この平面上で、
領域2および4に分布する非確定画素P1と領域1およ
び3に分布する確定画素P2を図のような閾値T1を用
いて分離する。この閾値T1より上の領域を非確定画素
P1の領域、下の領域を確定画素P2の領域として分離
処理を行う。
FIG. 15 shows the first derivative and the distribution of density values.
Regions 1 to 4 in FIG. 14 are distributed as shown in FIG. 15 when viewed on the first derivative-density value plane. On this plane,
The undetermined pixels P1 distributed in the regions 2 and 4 and the undetermined pixels P2 distributed in the regions 1 and 3 are separated using a threshold value T1 as shown in the figure. Separation processing is performed with the area above the threshold value T1 as the area of the non-determined pixel P1 and the area below it as the area of the determined pixel P2.

【0055】図4の一次微分−濃度値平面上での閾値T
1の設定処理402では、入力である多値文字画像I1
の最大と最小の濃度値の平均値を横方向の座標、縦方向
は0座標の点を基準としてその基準点から直線的に区切
った線が閾値T1となる。閾値T1の決定の際は、上記
基準点から直線状に存在する画素の分布を探索し、最小
となる2つの直線を求めてその直線を閾値T1とする。
閾値T1を求めた後、閾値T1での分離処理403によ
って、入力である多値文字画像I1から、この一次微分
−濃度値平面で閾値T1よりも上にある領域を非確定画
素P1の領域として抽出する。そして、文字境界領域の
分離画像I2を得る。
Threshold T on the first derivative-density value plane of FIG.
In the setting processing 402 of No. 1, the input multi-valued character image I1
A line that is linearly divided from the reference point with the average value of the maximum and minimum density values in the horizontal direction as the reference and the coordinate in the vertical direction as the coordinate 0 is the threshold T1. When the threshold value T1 is determined, the distribution of pixels existing in a straight line is searched from the reference point, two minimum straight lines are obtained, and the straight lines are set as the threshold value T1.
After the threshold value T1 is obtained, by the separation processing 403 at the threshold value T1, the area above the threshold value T1 on this first-order differential-density value plane is set as the area of the undetermined pixel P1 from the input multivalued character image I1. Extract. Then, the separated image I2 of the character boundary area is obtained.

【0056】[第3の実施例]図5に、第1の実施例で
説明した文字境界領域の抽出処理101に対して、第3
の実施例における画像処理方法での非確定画素の分離処
理の流れを示す。この非確定画素P1の分離処理は、文
字画像の濃度断面から領域を仮定し、スキャナ入力によ
って生じる文字境界領域に分布する非確定画素P1を抽
出する。第2の実施例の図3に示した領域1〜4を、図
15に示す一次微分−濃度値平面上でLBGアルゴリズ
ムを用いて効率的に分離する。
[Third Embodiment] FIG. 5 shows a third embodiment of the character boundary region extraction processing 101 described in the first embodiment.
7 shows a flow of separation processing of undetermined pixels in the image processing method in the embodiment. In the separation process of the non-determined pixel P1, the region is assumed from the density cross section of the character image, and the non-determined pixel P1 distributed in the character boundary region generated by the scanner input is extracted. Regions 1 to 4 shown in FIG. 3 of the second embodiment are efficiently separated using the LBG algorithm on the first derivative-density value plane shown in FIG.

【0057】第3の実施例での非確定画素の分離処理に
おいて、入力画像は第2の実施例と同じスキャナ入力の
多値文字画像I1であり、最大と最小の一次微分値と、
最大と最小の濃度値を抽出する。一次微分の強度は、第
2の実施例の一次微分値の算出処理401と同様の処理
を行って得る。
In the non-determined pixel separation processing in the third embodiment, the input image is the same scanner-input multi-valued character image I1 as in the second embodiment, and the maximum and minimum first-order differential values,
Extract the maximum and minimum density values. The intensity of the primary differential is obtained by performing the same process as the calculation process 401 of the primary differential value of the second embodiment.

【0058】次に、一次微分−濃度値平面上でのLBG
アルゴリズムによるグルーピング処理502を行って、
非確定画素P1を分離してゆく。図15に示している領
域を5つに分離するために、5領域の中心となるLBG
アルゴリズムの初期点を図16のように設定する。次
に、LBGアルゴリズムによって全分布点について、5
点間との最小距離を算出してどの中心点に最も近いか距
離計算し、最近点にグループ化してゆく。図17に、そ
れぞれの中心点と分布点の距離計算式を示す。一次微分
−濃度値平面で濃度値をx方向、一次微分値をy方向と
して分布点の座標を(x,y)、それぞれの領域の中心
点の座標を(x0 ,y0 )として、図21の下部計算式
により分布点と中心点との距離計算を行う。グループ化
された点でそのグループの中心点を算出し、再び最近点
を見つけるため距離計算を行って最近点を探索して再び
グループ化する。この中心点の算出演算を繰り返し行
い、中心点の移動距離が収束したら処理を終了する。そ
のとき、領域1、3の中心点にグループ化されている画
素を確定画素P2、領域2、4の中心点にグループ化さ
れている画素を非確定画素P1として分離する。そし
て、文字境界領域の分離画像I2を得る。
Next, the LBG on the first derivative-density value plane
Perform grouping process 502 by algorithm,
The non-determined pixel P1 is separated. In order to divide the area shown in FIG. 15 into five areas, the LBG that is the center of the five areas
The initial point of the algorithm is set as shown in FIG. Next, 5 is applied to all distribution points by the LBG algorithm.
The minimum distance between points is calculated, the distance to which central point is closest is calculated, and the points are grouped into the closest points. FIG. 17 shows a distance calculation formula between each center point and each distribution point. A graph in which the coordinates of the distribution point are (x, y) and the coordinates of the center point of each region are (x 0 , y 0 ) with the density value in the x direction and the primary differential value in the y direction on the first derivative-density value plane. The distance between the distribution point and the center point is calculated by the lower calculation formula 21. The center point of the group is calculated from the grouped points, distance calculation is performed to find the closest point again, the closest point is searched, and the point is grouped again. The calculation calculation of the center point is repeated, and the process ends when the movement distance of the center point converges. At that time, the pixels grouped at the center points of the regions 1 and 3 are separated as definite pixels P2, and the pixels grouped at the center points of the regions 2 and 4 are separated as non-determined pixels P1. Then, the separated image I2 of the character boundary area is obtained.

【0059】[第4の実施例]図6に、第1の実施例の
構成で説明した文字境界領域の二値化処理102に対し
て、本発明の第4の実施例における画像処理方法での非
確定画素の二値化処理の流れを示す。この非確定画素二
値化処理は、文字境界領域の画素に対し、濃度断面の情
報をもとに局所的な二値化を行う。
[Fourth Embodiment] FIG. 6 shows an image processing method according to a fourth embodiment of the present invention in contrast to the binarization processing 102 of the character boundary area described in the configuration of the first embodiment. 2 shows a flow of binarization processing of non-determined pixels of. In this undetermined pixel binarization process, the pixels in the character boundary region are locally binarized based on the information of the density cross section.

【0060】第4の実施例での二値化処理の入力は、ス
キャナ入力による多値文字画像I1と、文字境界領域の
分離画像I2を用いる。
For the input of the binarization processing in the fourth embodiment, the multi-valued character image I1 input by the scanner and the separated image I2 of the character boundary area are used.

【0061】図18に、文字画像の濃度断面の例を示
す。スキャナ入力によって生じる文字境界領域に分布す
る非確定画素P1を対象にして、断面の勾配ごとに図の
ように閾値T2を設定し、その1濃度断面に属している
非確定画素P1に対し、濃度断面という局所的な線状の
情報を用いて二値化処理を行う。
FIG. 18 shows an example of the density cross section of a character image. Targeting the undetermined pixels P1 distributed in the character boundary area generated by the scanner input, the threshold value T2 is set as shown in the figure for each gradient of the cross section, and the density of the undetermined pixels P1 belonging to the one density cross section is set. Binarization processing is performed using local linear information called a cross section.

【0062】図19に、非確定画素P1の近傍領域を示
す。文字画像は、2次元画像なので、4方向の濃度断面
が存在する。これら4方向のスキャナ入力によって生じ
る文字境界領域の情報を用いて二値化処理を行う。ま
ず、多値文字画像I1に対し、図6の方向微分オペレー
タによる一次微分の計算処理601を行う。画像に対
し、横方向にラスタ走査を行い、注目する非確定画素P
を探索し、その画素Pを中心に、方向ごとに重みを付け
たフィルタをかけて一次微分値(濃度断面の傾き)を計
算する。これは、後で示すどの方向の二値化結果がより
有効かを調べるための特徴量として計算する。濃度断面
の傾きが大きい方向ほど、より文字境界領域で非確定画
素Pがどこに分布しているかが明確で、二値化判定に有
効だと考えられる。
FIG. 19 shows a region near the undefined pixel P1. Since the character image is a two-dimensional image, there are density cross sections in four directions. Binarization processing is performed using the information on the character boundary area generated by the scanner input in these four directions. First, the multi-valued character image I1 is subjected to the primary differential calculation processing 601 by the directional differential operator of FIG. Raster scanning is performed in the horizontal direction with respect to the image, and the undetermined pixel P of interest
Is searched for, and a primary differential value (inclination of the density cross section) is calculated by applying a filter weighted for each direction around the pixel P. This is calculated as a feature amount for investigating which direction of the binarization result shown later is more effective. As the inclination of the density cross section becomes larger, it is clear where the non-determined pixels P are distributed in the character boundary region, and it is considered to be effective for the binarization determination.

【0063】一次微分算出処理601の後、+45°方
向の非確定画素P1の近傍領域での二値化結果の取得処
理602を行う。注目画素Pから確定画素P2までに存
在する、その方向に分布する非確定画素P1を、近傍領
域として、その近傍領域ごとに局所的な閾値T2を設定
する。図20に、図19の+45°方向に分布する近傍
領域と判断された非確定画素P1の濃度分布を示す。1
方向ごとに近傍領域の閾値T2を設定し二値化処理す
る。
After the primary differential calculation processing 601, a binarization result acquisition processing 602 in the vicinity of the undetermined pixel P1 in the + 45 ° direction is performed. The non-determined pixels P1 existing in the direction from the target pixel P to the determined pixel P2 and distributed in that direction are set as the neighboring regions, and the local threshold value T2 is set for each of the neighboring regions. FIG. 20 shows the density distribution of the undetermined pixel P1 which is determined to be the neighboring area distributed in the + 45 ° direction of FIG. 1
The threshold value T2 of the neighborhood area is set for each direction and binarization processing is performed.

【0064】以後、この+45°方向の非確定画素P1
の近傍領域での二値化結果の取得処理602と同様、方
向を変えて同様の処理を行う。水平方向の非確定画素P
1の近傍領域での二値化結果の取得処理603、−45
°方向の非確定画素P1の近傍領域での二値化結果の取
得処理604、垂直方向の非確定画素P1の近傍領域で
の二値化結果の取得処理605を順に行い、4方向の方
向別の二値化結果を得る。方向ごとの二値化結果に上記
の一次微分値である濃度断面の傾きを投票処理606に
よって判定することによって、最終的な二値化結果を得
る。全非確定画素P1と選択された画素に対し、上記処
理を行う。この投票処理とは、例えば、水平方向の二値
化結果が文字で一次微分値が50、垂直方向の二値化結
果が背景で一次微分値が100、+45°方向の二値化
結果が背景で一次微分値が10、−45°方向の二値化
結果が文字で一次微分値が35だとする。この場合、文
字には水平方向と−45°方向の一次微分値が投票され
85になり、背景には垂直方向と+45°方向の一次微
分値が投票され110となり、この結果、最終的なこの
画素の二値化結果は背景となる。
Thereafter, the undetermined pixel P1 in the + 45 ° direction
Similar to the binarization result acquisition process 602 in the vicinity region of, the direction is changed and the same process is performed. Undetermined pixel P in the horizontal direction
Acquisition processing 603, -45 of the binarization result in the neighborhood region of 1
A binarization result acquisition process 604 in the vicinity region of the non-determined pixel P1 in the ° direction and a binarization result acquisition process 605 in the neighborhood region of the non-determined pixel P1 in the vertical direction are performed in order. Obtain the binarization result of. The final binarization result is obtained by determining the inclination of the concentration cross section, which is the above-mentioned first-order differential value, in the binarization result for each direction by the voting process 606. The above process is performed on all the undetermined pixels P1 and the selected pixels. This voting process is, for example, a horizontal binarization result is a character with a primary differential value of 50, a vertical binarization result is a background with a primary differential value of 100, and a + 45 ° binary conversion result is a background. Then, the primary differential value is 10, and the binarization result in the −45 ° direction is a character, and the primary differential value is 35. In this case, the first differential value of the horizontal direction and the −45 ° direction is voted to 85 for the character, and the first differential value of the vertical direction and the + 45 ° direction is voted to 110 for the background, and as a result, the final differential value is obtained. The pixel binarization result becomes the background.

【0065】非確定画素P1と決定された全画素に対
し、横方向のラスタ走査を行い探索し上記の処理を行
い、非確定画素の領域のみの二値化画像I4を得る。
All the pixels determined to be the non-determined pixel P1 are subjected to the raster scanning in the horizontal direction and searched, and the above processing is performed to obtain the binarized image I4 of only the region of the non-determined pixel.

【0066】[第5の実施例]図7に、第1の実施例で
説明した文字境界領域以外の二値化処理103に対し
て、本発明の第5の実施例における画像処理方法での確
定画素の二値化処理の流れを示す。この確定画素の二値
化処理は、近傍の二値化された非確定画素P1の情報を
用いて文字の内側の領域と背景領域に分布する確定画素
P2を二値化処理する。
[Fifth Embodiment] FIG. 7 shows the image processing method according to the fifth embodiment of the present invention, which is different from the binarization processing 103 other than the character boundary area described in the first embodiment. 7 shows a flow of binarization processing of fixed pixels. In the binarization processing of the confirmed pixels, the confirmed pixels P2 distributed in the area inside the character and the background area are binarized by using the information of the adjacent unconfirmed pixels P1 that are binarized.

【0067】入力画像は、第1の実施例の非確定画素二
値化処理202でスキャナ入力によって生じる文字境界
領域が二値化されている非確定画素P1の領域のみの二
値化画像I4を用いる。
The input image is the binarized image I4 of only the region of the non-determined pixel P1 in which the character boundary region generated by the scanner input is binarized in the non-determined pixel binarization process 202 of the first embodiment. To use.

【0068】確定画素P2の近傍領域の決定処理701
によって確定画素P2の二値化に用いる領域を決定す
る。図21に、確定画素P2の近傍領域を示す。このよ
うに注目している確定画素P2の8近傍画素を探索し
て、近傍領域として決定する。
Determining process 701 of the area near the determined pixel P2
The area used for binarization of the fixed pixel P2 is determined by. FIG. 21 shows a region near the fixed pixel P2. In this way, 8 neighboring pixels of the focused pixel P2 of interest are searched and determined as a neighboring region.

【0069】近傍領域決定後、投票処理702を行って
確定画素P2の二値化処理を行う。近傍領域と決定され
た場所に分布する二値化された非確定画素P1の個数を
調べて投票し、多く投票された方に統合させて二値化す
る。また、数が同数の場合は、さらに、確定画素P2の
近傍領域の拡大処理703を行い、近傍領域を図21の
右図のように拡大して16近傍まで探索範囲を広げて同
様に投票処理702を行い、二値化を行う。対象画像の
左上から横方向にラスタ走査して確定画素P2を探索し
て上記の処理を行ってゆく。注目している確定画素P2
の近傍領域に確定画素P2しか存在しない場合、既に処
理された確定画素P2の二値化結果も投票に反映して二
値化する。
After the neighborhood area is determined, the voting process 702 is performed to perform the binarization process of the fixed pixel P2. The number of binarized undetermined pixels P1 distributed in the location determined as the neighboring region is checked and voted, and binarization is performed by integrating the voted majority. In the case where the numbers are the same, the enlargement processing 703 of the neighborhood area of the fixed pixel P2 is further performed, and the neighborhood area is enlarged as shown in the right diagram of FIG. 702 is performed to perform binarization. The raster scanning is performed in the horizontal direction from the upper left of the target image to search for the fixed pixel P2, and the above processing is performed. Definite pixel P2 being noticed
When only the confirmed pixel P2 exists in the neighborhood area of, the binarization result of the already processed confirmed pixel P2 is also reflected in the vote and binarized.

【0070】図22に、文字境界領域が二値化されてお
り、確定画素P2は二値化されていない画像に対しての
上記の処理の結果を示す。図22のように背景に囲まれ
た確定画素P2は背景画素に、文字画素に囲まれた確定
画素P2は文字画素に二値化される。
FIG. 22 shows the result of the above-described processing for an image in which the character boundary area is binarized and the fixed pixel P2 is not binarized. The fixed pixel P2 surrounded by the background as shown in FIG. 22 is binarized into the background pixel, and the fixed pixel P2 surrounded by the character pixels is binarized into the character pixel.

【0071】確定画素P1と判断された全ての画素に対
し、上記の確定画素二値化処理を行い、二値文字画像
(文字境界領域補正前)I5を得る。
All the pixels determined to be the definite pixel P1 are subjected to the definite pixel binarization process described above to obtain a binary character image (before character boundary area correction) I5.

【0072】[第6の実施例]図8に、第1の実施例で
説明した文字境界領域の補正処理104に対して、本発
明の第6の実施例における画像処理方法での文字境界領
域の補正処理の流れを示す。この文字境界領域の補正処
理は、文字境界領域に生じる凹凸を平滑化によって埋め
る処理を行って除去する。
[Sixth Embodiment] FIG. 8 shows a character boundary area in the image processing method according to the sixth embodiment of the present invention, in contrast to the character boundary area correction processing 104 described in the first embodiment. The flow of the correction process of is shown. In the correction process for the character boundary region, the unevenness generated in the character boundary region is removed by performing a process of filling it by smoothing.

【0073】入力画像は、確定画素P2の二値化処理2
03後の全画素が二値化された二値文字画像(文字境界
領域補正前)I5を用いる。
The input image is the binarization processing 2 of the determined pixel P2.
A binary character image (before character boundary area correction) I5 in which all pixels after 03 are binarized is used.

【0074】図13に示したように、文字画像に対し、
x(横)方向に2回ラスタ走査して、横方向での文字画
像の連続領域の間に分布する背景画素の穴埋め処理80
1と、横方向での背景画素の連続領域の間に分布する文
字画素の穴埋め処理802とを行う。最初のx方向ラス
タ走査で、文字画素を探索し、文字画素の連続領域を抽
出したら、その方向に背景画素が続いているかどうか探
索する。続いているならば、次の文字画素の連続領域を
x方向の最後の画素まで探索する。続いていない場合、
背景画素の後に再び文字画像が分布しているので、その
背景画素を文字画素に埋めて文字画素の連続領域を繋ぐ
処理を行う。全x方向についてこの処理を行う。次に、
背景画素に注目し、背景画素の連続領域に対して上記と
同様の処理を行い、背景画素の連続領域を繋ぐ処理を全
x方向について行う。
As shown in FIG. 13, for the character image,
Raster scanning is performed twice in the x (horizontal) direction to fill in the background pixels distributed between the continuous regions of the character image in the horizontal direction 80.
1 and the padding process 802 of the character pixels distributed between the continuous regions of the background pixels in the horizontal direction. In the first x-direction raster scan, character pixels are searched for, and when a continuous area of character pixels is extracted, it is searched whether background pixels continue in that direction. If it continues, the continuous area of the next character pixel is searched up to the last pixel in the x direction. If not followed,
Since the character image is distributed again after the background pixel, the background pixel is embedded in the character pixel to perform a process of connecting continuous areas of the character pixel. This process is performed for all x directions. next,
Focusing on the background pixels, the same processing as described above is performed on the continuous area of the background pixels, and the processing of connecting the continuous areas of the background pixels is performed in all x directions.

【0075】y(縦)方向についても同様に、2回ラス
タ走査して、縦方向の文字画素の連続領域の間の穴埋め
処理803と、縦方向の背景画素の連続領域の間に分布
する文字画素の穴埋め処理804とを行う。
Similarly in the y (vertical) direction, raster scanning is performed twice to fill in the gaps 803 between the continuous regions of the vertical character pixels and the characters distributed between the continuous regions of the vertical background pixels. A pixel filling process 804 is performed.

【0076】図23に、文字境界領域の平滑化処理の例
を示す。図23の(a)や(c)で文字の境界領域に存
在するノイズと思われる境界領域の凹凸を平滑化するこ
とによって除去し、図23の(b)や(d)のような文
字の境界領域が補正された二値文字画像I3を出力す
る。二値化された文字画像の境界に着目し、低解像度の
影響により二値化処理の際に生じる境界領域の凹凸を抽
出し、平滑化して除去する。縦方向の文字画素の連続領
域を検出し、その連続領域の間隔が閾値以下の場合、そ
の画素を文字画素に埋めることによって文字境界領域の
凹凸を埋める。同様の処理を横方向の文字画素の連続領
域に対しても行い、その連続領域の間隔が閾値以下の場
合、その画素を文字画素に埋めることによって文字境界
領域の凹凸を埋める。また、背景画素の縦と横方向の連
続領域に対しても同様の処理を行い、文字画像の境界領
域の凹凸を埋める。図24に上記平滑化処理の実行例を
示す。
FIG. 23 shows an example of smoothing processing of the character boundary area. 23 (a) and 23 (c), the unevenness of the boundary area, which is considered to be noise and is present in the boundary area of the character, is removed by smoothing to remove the unevenness of the character as shown in FIGS. 23 (b) and 23 (d). The binary character image I3 whose boundary area has been corrected is output. Focusing on the boundary of the binarized character image, the unevenness of the boundary area generated during the binarization process due to the influence of the low resolution is extracted, smoothed, and removed. A continuous area of character pixels in the vertical direction is detected, and when the interval between the continuous areas is equal to or smaller than a threshold value, the pixel is filled with the character pixel to fill the unevenness of the character boundary area. Similar processing is performed on a continuous area of character pixels in the horizontal direction, and when the interval between the continuous areas is less than or equal to a threshold value, the pixels are filled in with the character pixels to fill the unevenness of the character boundary area. Further, the same processing is performed for the continuous area in the vertical and horizontal directions of the background pixel to fill the unevenness of the boundary area of the character image. FIG. 24 shows an execution example of the smoothing process.

【0077】[第7の実施例]図9に、本発明の第7の
実施例における画像処理方法での領域ごとに二値化処理
を切り替える処理を示す。非確定画素P1の分離処理で
は、文字画像の濃度断面から領域を仮定し、スキャナ入
力によって生じる文字境界領域に分布する非確定画素P
1を抽出する。まず、セレクト処理901で、一次微分
や濃度値などの特徴量を用いて、領域を分離する。そし
て、領域ごとに異なる二値化処理902、903を施
す。
[Seventh Embodiment] FIG. 9 shows a process for switching the binarization process for each region in the image processing method according to the seventh embodiment of the present invention. In the separation processing of the non-determined pixel P1, the region is assumed from the density cross section of the character image, and the non-determined pixel P distributed in the character boundary region generated by the scanner input.
Extract 1. First, in the selection processing 901, the regions are separated by using the feature amounts such as the primary differential and the density value. Then, different binarization processing 902, 903 is performed for each area.

【0078】図12に、第2の実施例の非確定画素の分
離処理201を施した画像の濃度分布図を示す。一次微
分と濃度情報とからこのように文字境界領域である非確
定画素P1を抽出し、このスキャナ入力の影響を多く受
けた画素に対し、第7の実施例の方法における局所的な
閾値T2の設定を行い、二値化処理する。
FIG. 12 shows a density distribution chart of an image which has been subjected to the non-determined pixel separation processing 201 of the second embodiment. The non-determined pixel P1 which is the character boundary area is extracted from the first-order derivative and the density information, and the local threshold value T2 in the method of the seventh embodiment is set for the pixel that is largely affected by the scanner input. Set and binarize.

【0079】また、図25に、濃度断面での非確定画素
P1と確定画素P2の分布図を示す。この図から、非確
定画素P1は、文字境界領域に相当する文字境界領域に
分布し確定画素P2は濃度変化が平坦な領域に分布する
ことがわかる。スキャナ入力によって生じる文字境界領
域に分布する画素と文字境界領域以外に分布する画素と
を分離することによって、スキャナ入力によって生じる
文字境界領域に分布している非確定画素P1に対して1
濃度断面ごとに閾値T2を設定し、二値化処理する。
Further, FIG. 25 shows a distribution diagram of the non-determined pixel P1 and the determined pixel P2 in the density cross section. From this figure, it can be seen that the non-determined pixels P1 are distributed in the character boundary area corresponding to the character boundary area, and the determined pixels P2 are distributed in the area where the density change is flat. By separating the pixels distributed in the character boundary area generated by the scanner input from the pixels distributed in areas other than the character boundary area, 1 is set for the non-determined pixel P1 distributed in the character boundary area generated by the scanner input.
A threshold value T2 is set for each concentration cross section, and binarization processing is performed.

【0080】それぞれの二値化手法で二値化処理した
後、その結果の統合処理904によって、セレクト処理
901において分離され二値化処理された結果を統合し
て、その結果を最終的な二値文字画像I3として出力す
る。
After the binarization processing is performed by each of the binarization methods, the integration processing 904 of the results integrates the binarized results separated in the selection processing 901, and the results are finally binarized. The value character image I3 is output.

【0081】[第8の実施例]図10に、第1の実施例
で説明した文字境界領域の二値化処理102に対して、
本発明の第8の実施例における画像処理方法での非確定
画素の二値化処理の流れを示す。この非確定画素の二値
化処理では、文字境界領域の画素に対し、濃度断面の情
報をもとに局所的な二値化処理を行う。この処理の入力
は、スキャナ入力による多値文字画像I1と、文字境界
領域の分離画像I2とを用いる。前述の第4の実施例と
は、+45°方向の非確定画素P1の近傍領域での新し
い閾値による二値化結果取得処理1002から垂直方向
の非確定画素P1の近傍領域での新しい閾値による二値
化結果取得処理1005までの処理における閾値設定方
法が異なる。
[Eighth Embodiment] FIG. 10 shows the binarization processing 102 of the character boundary area described in the first embodiment.
13 shows a flow of binarization processing of undetermined pixels in the image processing method according to the eighth embodiment of the present invention. In the binarization processing of the non-determined pixels, the local binarization processing is performed on the pixels in the character boundary area based on the information of the density cross section. The input of this processing uses the multi-valued character image I1 by the scanner input and the separated image I2 of the character boundary area. The fourth embodiment described above is different from the binarization result acquisition processing 1002 in the neighborhood area of the non-determined pixel P1 in the + 45 ° direction by the new threshold in the neighborhood area of the non-determined pixel P1 in the vertical direction. The threshold value setting method in the processes up to the binarization result acquisition process 1005 is different.

【0082】+45°方向の非確定画素の近傍領域での
新しい閾値による二値化結果取得処理1002では、近
傍領域を、確定画素P2の位置までに存在する、その方
向に分布する非確定画素P1を、近傍領域として、その
近傍領域ごとに、局所的な閾値を設定する。図26に、
文字の掠れや潰れを防ぐための閾値シフトを示す。第4
の実施例では、近傍領域として決定した非確定画素P1
の濃度値を領域し、最大と最小濃度の平均値を閾値T2
に設定しいてる。これに対し、第8の実施例では、注目
画素が分布する非確定画素P1の濃度分布の形状を利用
して閾値T2をシフトして、濃度断面の小さな山や谷を
再現できるように設定し、文字の掠れや潰れを防ぐ。図
26の(a)のように、濃度断面の形状が山を描くよう
に分布している場合、文字の掠れを防ぐために閾値を下
げる。(b)のように、濃度断面の形状が谷を描くよう
に分布している場合、文字の潰れを防ぐために閾値を上
げる。それ以外の形状、単調増加や減少の場合は、閾値
のシフトは行わない。
In the binarization result acquisition processing 1002 with a new threshold value in the neighborhood area of the non-determined pixel in the + 45 ° direction, the non-determined pixel P1 existing in the neighborhood area up to the position of the confirmed pixel P2 and distributed in that direction. Is set as a neighborhood area, and a local threshold value is set for each neighborhood area. In FIG. 26,
A threshold shift for preventing blurring and crushing of characters is shown. Fourth
In the embodiment of FIG.
Of the maximum and minimum densities is set as the threshold value T2.
Is set to. On the other hand, in the eighth embodiment, the threshold value T2 is shifted using the shape of the density distribution of the non-determined pixel P1 in which the pixel of interest is distributed so that the small peaks and valleys of the density section can be reproduced. , Prevent blurring and crushing of characters. As shown in (a) of FIG. 26, when the concentration cross-sections are distributed so as to draw mountains, the threshold value is lowered to prevent blurring of characters. When the shape of the density cross section is distributed so as to draw a valley as in (b), the threshold value is increased to prevent the characters from being crushed. For other shapes, or for monotonous increase or decrease, the threshold shift is not performed.

【0083】投票処理1006では、第4の実施例と同
様な処理を行い、最終的な二値化結果を得る。画像の横
方向に非確定画素P1を探索し、全非確定画素P1に対
して上記の処理を行い、非確定画素P1の領域のみの二
値化画像I4を得る。
In the voting process 1006, the same process as in the fourth embodiment is performed to obtain the final binarization result. The non-determined pixel P1 is searched in the horizontal direction of the image, the above-described processing is performed on all the non-determined pixels P1, and the binarized image I4 only in the region of the non-determined pixel P1 is obtained.

【0084】以上により本発明の実施形態について説明
した。なお、上述した実施形態は、本発明の好適な実施
形態の一例を示すものであり、本発明はそれに限定され
るものではなく、その要旨を逸脱しない範囲内におい
て、種々変形実施が可能である。
The embodiments of the present invention have been described above. The above-described embodiment shows an example of a preferred embodiment of the present invention, and the present invention is not limited thereto, and various modifications can be made without departing from the scope of the invention. .

【0085】[0085]

【発明の効果】以上の説明から明らかなように、請求項
1記載の発明によれば、従来の二値化手法では二値化判
定を誤る確率の高いスキャナ入力によって生じる文字境
界領域を抽出し、二値化対象画素が文字画像のどこに分
布しているかを濃度断面の情報から判断して二値化して
いるので、出力後の文字画像の画質を向上することがで
きる。また、また、OCR認識率を向上させることがで
きる。
As is apparent from the above description, according to the first aspect of the invention, the conventional binarization method extracts the character boundary area caused by the scanner input having a high probability of erroneous binarization determination. Since the binarization target pixels are distributed in the character image based on the information of the density cross section, the binarization is performed, so that the image quality of the character image after output can be improved. In addition, the OCR recognition rate can be improved.

【0086】また、請求項2記載の発明によれば、文字
画像からスキャナ入力によって生じる文字境界領域を分
離する。従来の二値化手法では二値化判定を誤る確率の
高いスキャナ入力によって生じる文字境界領域に対して
二値化処理を換えることが可能となる。
According to the second aspect of the invention, the character boundary area generated by the scanner input is separated from the character image. With the conventional binarization method, it is possible to change the binarization process for a character boundary region generated by a scanner input that has a high probability of making an error in the binarization determination.

【0087】また、請求項3記載の発明によれば、文字
画像からスキャナ入力によって生じる文字境界領域を、
LBGアルゴリズムを用いることによって効率良く分離
する。LBGアルゴリズムは最初に設定した初期点の個
数だけ領域を分割することが可能である。従来の二値化
手法では二値化判定を誤る確率の高いスキャナ入力によ
って生じる文字境界領域に対して二値化処理を換えるこ
とが可能となる。
According to the third aspect of the invention, the character boundary area generated by the scanner input from the character image is
Separation is efficiently performed by using the LBG algorithm. The LBG algorithm can divide the region by the number of initially set initial points. With the conventional binarization method, it is possible to change the binarization process for a character boundary region generated by a scanner input that has a high probability of making an error in the binarization determination.

【0088】また、請求項4記載の発明によれば、スキ
ャナ入力によって生じる文字境界領域に対し、1濃度断
面の情報を用いて局所的な閾値設定が可能となる。1濃
度断面から閾値を設定するので、太い文字線に囲まれた
背景領域を抽出したり、細い文字線を忠実に再現するこ
とが可能となる。また、OCR認識率が向上する。
According to the fourth aspect of the invention, it is possible to set a local threshold value for the character boundary area generated by the scanner input by using the information of one density cross section. Since the threshold value is set from the 1-density cross section, it is possible to extract the background area surrounded by thick character lines and faithfully reproduce thin character lines. Further, the OCR recognition rate is improved.

【0089】また、請求項5記載の発明によれば、スキ
ャナ入力によって生じる文字境界領域以外の領域におい
て、文字の内側に背景と誤判定したり、背景領域に文字
領域が存在しにくくなるので、出力後の文字画像の画質
が向上するとともに、文字領域内の粒状の文字画像のノ
イズに敏感なOCRにおいて認識率が向上する。
According to the fifth aspect of the present invention, in the area other than the character boundary area generated by the scanner input, it is erroneously determined as the background inside the character, and the character area is less likely to exist in the background area. The image quality of the output character image is improved, and the recognition rate is improved in the OCR sensitive to noise of the granular character image in the character area.

【0090】また、請求項6記載の発明によれば、二値
化処理後に生じる文字境界領域の凹凸に対し、穴埋め処
理による平滑化により除去を行うので、文字画像の画質
が向上するとともに、文字境界領域の凹凸に敏感なOC
Rにおいて認識率が向上する。
According to the sixth aspect of the invention, since the unevenness of the character boundary area generated after the binarization processing is removed by smoothing by the hole filling processing, the image quality of the character image is improved and the character image is improved. OC sensitive to irregularities in the boundary area
In R, the recognition rate is improved.

【0091】また、請求項7記載の発明によれば、スキ
ャナ入力によって生じる文字境界領域ごとに、1濃度断
面の情報を用いて局所的な閾値を変化させた局所的な二
値化処理が可能となる。1濃度断面から閾値を設定する
ので、太い文字線に囲まれた背景領域を抽出したり、細
い文字線を忠実に再現することが可能となる。また、O
CR認識率が向上する。
According to the seventh aspect of the invention, it is possible to perform a local binarization process in which the local threshold value is changed by using the information of one density cross section for each character boundary region generated by the scanner input. Becomes Since the threshold value is set from the 1-density cross section, it is possible to extract the background area surrounded by thick character lines and faithfully reproduce thin character lines. Also, O
CR recognition rate is improved.

【0092】また、請求項8記載の発明によれば、スキ
ャナ入力によって生じる文字境界領域に対し、文字の濃
度断面とその形状の情報を用いた局所的な閾値設定が可
能となる。文字濃度断面とその形状の情報から閾値を変
えて設定するので、太い文字線に囲まれた背景領域を抽
出したり、細い文字線を忠実に再現することが可能とな
る。また、OCR認識率が向上する。
According to the eighth aspect of the present invention, it is possible to set a local threshold value for a character boundary area generated by scanner input using information on a density cross section of a character and its shape. Since the threshold is changed and set based on the information of the character density cross section and its shape, it is possible to extract the background area surrounded by the thick character line and faithfully reproduce the thin character line. Further, the OCR recognition rate is improved.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施の形態における画像処理方
法を示す図である。
FIG. 1 is a diagram showing an image processing method according to a first embodiment of the present invention.

【図2】本発明の第1の実施の形態における画像処理方
法の二値化処理の流れを示す図である。
FIG. 2 is a diagram showing the flow of binarization processing of the image processing method according to the first embodiment of the present invention.

【図3】本発明の第1の実施の形態における画像処理方
法の二値化処理の別方法を示す図である。
FIG. 3 is a diagram showing another method of the binarization processing of the image processing method according to the first embodiment of the present invention.

【図4】本発明の第2の実施の形態における画像処理方
法の非確定画素分離処理を示す図である。
FIG. 4 is a diagram showing an undetermined pixel separation process of an image processing method according to a second embodiment of the present invention.

【図5】本発明の第3の実施の形態における画像処理方
法の非確定画素分離処理を示す図である。
FIG. 5 is a diagram showing an undetermined pixel separation process of an image processing method according to a third embodiment of the present invention.

【図6】本発明の第4の実施の形態における画像処理方
法の二値化処理を示す図である。
FIG. 6 is a diagram showing binarization processing of an image processing method according to a fourth embodiment of the present invention.

【図7】本発明の第5の実施の形態における画像処理方
法の確定画素の二値化処理を示す図である。
FIG. 7 is a diagram showing binarization processing of fixed pixels in the image processing method according to the fifth embodiment of the present invention.

【図8】本発明の第6の実施の形態における画像処理方
法の文字境界領域の補正処理を示す図である。
FIG. 8 is a diagram showing a correction process of a character boundary area in the image processing method according to the sixth embodiment of the present invention.

【図9】本発明の第7の実施の形態における画像処理方
法の二値化処理切り替え処理を示す図である。
FIG. 9 is a diagram showing a binarization process switching process of an image processing method according to a seventh embodiment of the present invention.

【図10】本発明の第8の実施の形態における画像処理
方法の非確定画素二値化処理を示す図である。
FIG. 10 is a diagram showing non-determined pixel binarization processing of an image processing method according to an eighth embodiment of the present invention.

【図11】単純閾値Aと局所的閾値Bによるそれぞれの
二値化処理の例を示す図である。
FIG. 11 is a diagram showing an example of binarization processing using a simple threshold value A and a local threshold value B.

【図12】非確定画素の分離処理を施した画像を示す図
である。
FIG. 12 is a diagram showing an image on which non-determined pixel separation processing has been performed.

【図13】文字境界領域の凹凸の除去を示す図である。FIG. 13 is a diagram showing removal of irregularities in a character boundary region.

【図14】文字画像の濃度断面について示す図である。FIG. 14 is a diagram illustrating a density cross section of a character image.

【図15】一次微分と濃度値の分布を示す図である。FIG. 15 is a diagram showing the distribution of primary differentials and density values.

【図16】LBGアルゴリズムによる非確定画素P1の
分離処理を示す図である。
FIG. 16 is a diagram showing a separation process of an undetermined pixel P1 by the LBG algorithm.

【図17】中心点と分布点との距離計算式について示す
図である。
FIG. 17 is a diagram showing a distance calculation formula between a center point and a distribution point.

【図18】文字画像の濃度断面の例を示す図である。FIG. 18 is a diagram showing an example of a density cross section of a character image.

【図19】非確定画素P1の近傍領域を示す図である。FIG. 19 is a diagram showing a region near a non-determined pixel P1.

【図20】+45°方向に分布する近傍領域と判断され
た非確定画素P1の濃度分布を示す図である。
FIG. 20 is a diagram showing a density distribution of an undetermined pixel P1 which is determined as a neighboring area distributed in a + 45 ° direction.

【図21】確定画素P2の近傍領域を示す図である。FIG. 21 is a diagram showing a region near a fixed pixel P2.

【図22】確定画素P2の二値化処理の実行例を示す図
である。
FIG. 22 is a diagram illustrating an example of execution of binarization processing of a fixed pixel P2.

【図23】文字境界領域の平滑化処理についての図であ
る。
FIG. 23 is a diagram illustrating a smoothing process for a character boundary area.

【図24】文字境界領域の平滑化処理の実行例を示す図
である。
FIG. 24 is a diagram illustrating an execution example of smoothing processing of a character boundary area.

【図25】濃度断面での非確定画素P1と確定画素P2
の分布について示す図である。
FIG. 25 is a non-determined pixel P1 and a determined pixel P2 in a density section.
It is a figure which shows about distribution of.

【図26】文字の掠れや潰れを防ぐための閾値のシフト
を示す図である。
FIG. 26 is a diagram showing a shift of a threshold value for preventing blurring and crushing of characters.

【図27】一般的な文字読み取り装置の構成を示す図で
ある。
FIG. 27 is a diagram showing a configuration of a general character reading device.

【図28】解像度の違いによる二値化処理後の文字境界
領域の凹凸を示す図である。
FIG. 28 is a diagram showing unevenness of a character boundary area after binarization processing due to a difference in resolution.

【符号の説明】[Explanation of symbols]

I1 スキャナ入力の多値文字画像 I2 文字境界領域の分離画像 I3 二値文字画像 I4 非確定画素の領域のみの二値化画像 I5 二値文字画像(文字境界領域補正前) P1 非確定画素 P2 確定画素 T1 非確定画素の分離処理に用いる閾値 T2 非確定画素の近傍領域の閾値 1 スキャナ部 2 画像記憶部 3 CPU(画像処理部) 4 OCR(文字認識処理部) I1 Scanner input multi-valued character image Separated image of I2 character boundary area I3 binary character image I4 Binarized image of only non-determined pixel area I5 Binary character image (before correction of character boundary area) P1 Undetermined pixel P2 fixed pixel T1 Threshold value used for separation processing of undetermined pixels T2 Threshold value in the neighborhood of undetermined pixels 1 Scanner section 2 Image storage 3 CPU (image processing unit) 4 OCR (character recognition processing unit)

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 1/403 H04N 1/40 103A 1/409 101C ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) H04N 1/403 H04N 1/40 103A 1/409 101C

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 紙面上に形成されている文字情報をデジ
タル化して多値画像情報として取り込むスキャナ手段
と、画像処理演算を行う演算処理手段と、前記画像情報
と前記演算処理手段による画像処理結果とを格納する画
像記憶手段と、を備える画像処理装置であって、 前記スキャナ手段による入力によって生じる文字境界領
域を分離する分離手段と、 前記文字境界領域を二値化処理する第1の二値化手段
と、 前記文字境界領域以外の領域を二値化処理する第2の二
値化手段と、 二値化処理後に前記文字境界領域の凹凸を平滑化して補
正する補正手段と、を有することを特徴とする画像処理
装置。
1. A scanner means for digitizing character information formed on a paper surface to take in multivalued image information, an arithmetic processing means for performing image processing arithmetic operation, the image information and an image processing result by the arithmetic processing means. An image processing device comprising: an image storage unit for storing the character boundary region; and a separation unit for separating a character boundary region generated by an input by the scanner unit; and a first binary for binarizing the character boundary region. And a second binarizing means for binarizing an area other than the character boundary area, and a correcting means for smoothing and correcting unevenness of the character boundary area after the binarizing processing. An image processing device characterized by:
【請求項2】 前記分離手段は、 一次微分値と濃度値の情報を特徴量として用いて、前記
文字境界領域の分離を行うことを特徴とする請求項1記
載の画像処理装置。
2. The image processing apparatus according to claim 1, wherein the separating unit separates the character boundary area by using the information of the primary differential value and the density value as a feature amount.
【請求項3】 前記分離手段は、 入力画像の一次微分−濃度平面を用いて、LBGアルゴ
リズムにより前記文字境界領域の分離を行うことを特徴
とする請求項1記載の画像処理装置。
3. The image processing apparatus according to claim 1, wherein the separating unit separates the character boundary area by an LBG algorithm using a first-order differential-density plane of an input image.
【請求項4】 前記第1の二値化手段は、 前記文字境界領域を、前記スキャナ手段による入力によ
って生じる文字濃度断面情報を用いて二値化処理するこ
とを特徴とする請求項1記載の画像処理装置。
4. The binarizing means according to claim 1, wherein the first binarizing means binarizes the character boundary area using character density cross-section information generated by an input by the scanner means. Image processing device.
【請求項5】 前記第2の二値化手段は、 近傍の前記文字境界領域の二値化処理結果を用いて二値
化処理を行うことを特徴とする請求項1記載の画像処理
装置。
5. The image processing apparatus according to claim 1, wherein the second binarizing means performs binarization processing using a binarization processing result of the character boundary area in the vicinity.
【請求項6】 前記補正手段は、 前記二値化処理後の画像の前記文字境界領域に生じる凹
凸を検出して埋めることにより平滑化を行うことを特徴
とする請求項1記載の画像処理装置。
6. The image processing apparatus according to claim 1, wherein the correction unit performs smoothing by detecting and filling irregularities generated in the character boundary area of the image after the binarization processing. .
【請求項7】 前記文字境界領域を分離して、該分離さ
れた領域ごとに二値化処理を切り替えることを特徴とす
る請求項1記載の画像処理装置。
7. The image processing apparatus according to claim 1, wherein the character boundary area is separated, and the binarization processing is switched for each of the separated areas.
【請求項8】 前記第1の二値化手段は、 前記文字境界領域を、前記スキャナ手段による入力によ
って生じる文字濃度断面とその形状の情報とを用いて二
値化処理することを特徴とする請求項1記載の画像処理
装置。
8. The first binarizing means binarizes the character boundary area by using a character density section generated by an input by the scanner means and information on its shape. The image processing apparatus according to claim 1.
【請求項9】 スキャナ入力の多値文字画像について、
前記スキャナ入力によって生じる文字境界領域を分離す
る分離ステップと、 前記分離された文字境界領域を二値化処理する第1の二
値化ステップと、 前記文字境界領域以外の領域を二値化処理する第2の二
値化ステップと、 該二値化処理後に前記文字境界領域の凹凸を平滑化して
補正する補正ステップと、を有することを特徴とする画
像処理方法。
9. A scanner input multi-valued character image,
A separation step of separating a character boundary area generated by the scanner input, a first binarization step of binarizing the separated character boundary area, and a binarization processing of an area other than the character boundary area. An image processing method comprising: a second binarization step; and a correction step of smoothing and correcting the unevenness of the character boundary area after the binarization processing.
【請求項10】 前記分離ステップは、 一次微分値と濃度値の情報を特徴量として用いて、前記
文字境界領域の分離を行うことを特徴とする請求項9記
載の画像処理方法。
10. The image processing method according to claim 9, wherein in the separating step, the character boundary area is separated by using information of a first-order differential value and a density value as a feature amount.
【請求項11】 前記分離ステップは、 入力画像の一次微分−濃度平面を用いて、LBGアルゴ
リズムにより前記文字境界領域の分離を行うことを特徴
とする請求項9記載の画像処理方法。
11. The image processing method according to claim 9, wherein in the separating step, the character boundary area is separated by an LBG algorithm using a first derivative-density plane of an input image.
【請求項12】 前記第1の二値化ステップは、 前記文字境界領域を、前記スキャナ入力によって生じる
文字濃度断面情報を用いて二値化処理することを特徴と
する請求項9記載の画像処理方法。
12. The image processing according to claim 9, wherein in the first binarization step, the character boundary area is binarized using character density cross-section information generated by the scanner input. Method.
【請求項13】 前記第2の二値化ステップは、 近傍の前記文字境界領域の二値化処理結果を用いて二値
化処理を行うことを特徴とする請求項9記載の画像処理
方法。
13. The image processing method according to claim 9, wherein in the second binarizing step, the binarizing process is performed using a binarizing process result of the neighboring character boundary region.
【請求項14】 前記補正ステップは、 前記二値化処理後の画像の前記文字境界領域に生じる凹
凸を検出して埋めることにより平滑化を行うことを特徴
とする請求項9記載の画像処理方法。
14. The image processing method according to claim 9, wherein in the correction step, smoothing is performed by detecting and filling unevenness generated in the character boundary area of the image after the binarization processing. .
【請求項15】 前記文字境界領域を分離して、該分離
された領域ごとに二値化処理を切り替えることを特徴と
する請求項9記載の画像処理方法。
15. The image processing method according to claim 9, wherein the character boundary area is separated, and the binarization processing is switched for each of the separated areas.
【請求項16】 前記第1の二値化ステップは、 前記文字境界領域を、前記スキャナ入力によって生じる
文字濃度断面とその形状の情報とを用いて二値化処理す
ることを特徴とする請求項9記載の画像処理方法。
16. The binarization step of the first binarization step is characterized in that the character boundary area is binarized by using a character density section generated by the scanner input and information on its shape. 9. The image processing method described in 9.
JP2001307568A 2001-10-03 2001-10-03 Image processing apparatus and method Expired - Fee Related JP4132766B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001307568A JP4132766B2 (en) 2001-10-03 2001-10-03 Image processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001307568A JP4132766B2 (en) 2001-10-03 2001-10-03 Image processing apparatus and method

Publications (2)

Publication Number Publication Date
JP2003115031A true JP2003115031A (en) 2003-04-18
JP4132766B2 JP4132766B2 (en) 2008-08-13

Family

ID=19127009

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001307568A Expired - Fee Related JP4132766B2 (en) 2001-10-03 2001-10-03 Image processing apparatus and method

Country Status (1)

Country Link
JP (1) JP4132766B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222374A (en) * 2004-02-06 2005-08-18 Ricoh Co Ltd Image processor, image processing method and program to be executed by computer
JP2006174276A (en) * 2004-12-17 2006-06-29 Fuji Xerox Co Ltd Image processing apparatus, image processing method, and program thereof
JP2006174285A (en) * 2004-12-17 2006-06-29 Fuji Xerox Co Ltd Image processing apparatus, image processing method, and program thereof
JP2007102730A (en) * 2005-10-07 2007-04-19 Sony Corp Image correction device, image correction program and image correction method
JP2008054002A (en) * 2006-08-24 2008-03-06 Fuji Xerox Co Ltd Image processing system, image compression system, image editing system, image processing program, and image processor
JP2009284419A (en) * 2008-05-26 2009-12-03 Oki Data Corp Image processor
JP2014194599A (en) * 2013-03-28 2014-10-09 Hammock:Kk OCR system
CN111259878A (en) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 Method and equipment for detecting text
JP2021013124A (en) * 2019-07-08 2021-02-04 キヤノン株式会社 Image processing apparatus, image processing method, and program

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222374A (en) * 2004-02-06 2005-08-18 Ricoh Co Ltd Image processor, image processing method and program to be executed by computer
JP4517287B2 (en) * 2004-12-17 2010-08-04 富士ゼロックス株式会社 Image processing apparatus, image processing method, and program thereof
JP2006174276A (en) * 2004-12-17 2006-06-29 Fuji Xerox Co Ltd Image processing apparatus, image processing method, and program thereof
JP2006174285A (en) * 2004-12-17 2006-06-29 Fuji Xerox Co Ltd Image processing apparatus, image processing method, and program thereof
JP4517288B2 (en) * 2004-12-17 2010-08-04 富士ゼロックス株式会社 Image processing apparatus, image processing method, and program thereof
JP2007102730A (en) * 2005-10-07 2007-04-19 Sony Corp Image correction device, image correction program and image correction method
JP4706425B2 (en) * 2005-10-07 2011-06-22 ソニー株式会社 Image correction apparatus, image correction program, and image correction method
JP2008054002A (en) * 2006-08-24 2008-03-06 Fuji Xerox Co Ltd Image processing system, image compression system, image editing system, image processing program, and image processor
US8014620B2 (en) 2006-08-24 2011-09-06 Fuji Xerox Co., Ltd. Image processing system, image compression system, image editing system, computer readable medium, computer data signal and image processing apparatus
JP2009284419A (en) * 2008-05-26 2009-12-03 Oki Data Corp Image processor
JP2014194599A (en) * 2013-03-28 2014-10-09 Hammock:Kk OCR system
CN111259878A (en) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 Method and equipment for detecting text
JP2021013124A (en) * 2019-07-08 2021-02-04 キヤノン株式会社 Image processing apparatus, image processing method, and program
JP7341758B2 (en) 2019-07-08 2023-09-11 キヤノン株式会社 Image processing device, image processing method, and program

Also Published As

Publication number Publication date
JP4132766B2 (en) 2008-08-13

Similar Documents

Publication Publication Date Title
US7965892B2 (en) Image processing apparatus, control method thereof, and program
JP4525787B2 (en) Image extraction apparatus and image extraction program
JP3904840B2 (en) Ruled line extraction device for extracting ruled lines from multi-valued images
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US8200012B2 (en) Image determination apparatus, image search apparatus and computer readable recording medium storing an image search program
JP4339925B2 (en) Document image processing method, document image processing apparatus, document image processing program, and storage medium
JP4658848B2 (en) Character string recognition method and character string recognition apparatus
JP2001297303A (en) Method and device for recognizing document image and computer readable recording medium
US7411699B2 (en) Method and apparatus to enhance digital image quality
JP6743092B2 (en) Image processing apparatus, image processing control method, and program
US7123768B2 (en) Apparatus and method for detecting a pattern
JP4132766B2 (en) Image processing apparatus and method
JP4392907B2 (en) Character extraction method
JP4565396B2 (en) Image processing apparatus and image processing program
JP5005732B2 (en) Image forming apparatus and image processing method
US7221795B2 (en) Document processing method, recording medium having recorded thereon document processing program, document processing program, document processing apparatus, and character-input document
JP2002133424A (en) Detecting method of inclination angle and boundary of document
JP3187895B2 (en) Character area extraction method
JP3966448B2 (en) Image processing apparatus, image processing method, program for executing the method, and recording medium storing the program
JP2003281469A (en) Method for processing document image
JP4978460B2 (en) Bar code recognition apparatus and program
JP2010218106A (en) Image processing apparatus, image processing method and program
JP3020293B2 (en) Attribute determination method
JPH05128306A (en) Attribute discriminating method for sentence picture
JPH04316180A (en) Method for discriminating attribute of document picture

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040902

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20041021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080520

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080602

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees