JP5337563B2 - Form recognition method and apparatus - Google Patents
Form recognition method and apparatus Download PDFInfo
- Publication number
- JP5337563B2 JP5337563B2 JP2009093533A JP2009093533A JP5337563B2 JP 5337563 B2 JP5337563 B2 JP 5337563B2 JP 2009093533 A JP2009093533 A JP 2009093533A JP 2009093533 A JP2009093533 A JP 2009093533A JP 5337563 B2 JP5337563 B2 JP 5337563B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- color
- pixel
- pixels
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title description 116
- 239000003086 colorant Substances 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims description 93
- 238000012937 correction Methods 0.000 description 19
- 238000003702 image correction Methods 0.000 description 12
- 238000007796 conventional method Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000004456 color vision Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
Description
本発明は、OCR(Optical Character Reader:光学式文字読取装置)等の画像の処理技術に関し、特に除去対象の色が不定な状況において、背景色などをドロップアウトする技術に関する。 The present invention relates to an image processing technique such as an OCR (Optical Character Reader), and more particularly to a technique for dropping out a background color or the like in a situation where a color to be removed is indefinite.
OCRで帳票上の文字を認識するためには、イメージスキャナ等で読み取った画像中から文字成分のみを抽出する必要がある。文字成分を抽出するためには、罫線などのノイズ成分や背景と文字成分とを分離しなければならない。一般的に、文字と背景とを分離するには2値化処理が用いられる。2値化により、輝度が低い文字成分が黒に、輝度が高い背景部分が白となる2値画像が得られる。文字成分と罫線などのノイズ成分の色が異なる場合には、2値化の前にドロップアウト処理が用いられる。ドロップアウト処理とは、印刷もしくは印字されている帳票や文書の画像において、特定の色を画像として現れないようにする処理である。 In order to recognize a character on a form by OCR, it is necessary to extract only a character component from an image read by an image scanner or the like. In order to extract a character component, it is necessary to separate a noise component such as a ruled line, a background, and a character component. In general, a binarization process is used to separate a character and a background. By binarization, a binary image in which a character component with low luminance is black and a background portion with high luminance is white is obtained. When the color of a noise component such as a character component and a ruled line is different, dropout processing is used before binarization. The dropout processing is processing for preventing a specific color from appearing as an image in a printed or printed form or document image.
ドロップアウト処理の代表的な従来技術としては、以下の3種がある。
(1)指定した赤系もしくは青系の色を光学的にドロップアウト
ノイズ成分が赤系もしくは青系のいずれかを指定し、ノイズ成分と同系色の光源で撮像した画像を文字認識に用いる。例えば、文字が黒で罫線が赤い帳票を赤系の光源で撮像すると、罫線部分が画像に現れなくなる。青系でも同様である。既存のハードウェアOCR製品の多くがこの方式をとっている。
(2)RGBで最適なドロップアウト色を動的に選択
カラー画像を撮像し、RBGの3つの色のうち、ノイズ成分の輝度が最も高くなる色を選択した後、その色における画素の濃淡値を用いて2値化する方式がある。この方式の従来例としては特許文献1がある。
(3)濃淡画像の濃度で分離
この方式は色情報を使わず、濃淡画像を用いる方式である。濃淡画像において輝度値のヒストグラムをとり、最も明るい領域を背景、最も暗い領域を文字、中間をノイズ成分と仮定して分離する方式がある。この方式の従来例としては特許文献2がある。
There are the following three types of typical conventional techniques for dropout processing.
(1) The specified red or blue color is optically specified as either a red or blue dropout noise component, and an image captured with a light source having the same color as the noise component is used for character recognition. For example, if a form with black characters and red ruled lines is imaged with a red light source, the ruled line portions do not appear in the image. The same applies to the blue system. Many existing hardware OCR products use this method.
(2) Dynamically selecting an optimal dropout color in RGB After picking up a color image and selecting a color having the highest luminance of the noise component among the three RBG colors, the gray value of the pixel in that color There is a method of binarization using. There is Patent Document 1 as a conventional example of this method.
(3) Separation by density of gray image This method uses a gray image without using color information. There is a method of taking a histogram of luminance values in a grayscale image and separating them on the assumption that the brightest area is a background, the darkest area is a character, and the middle is a noise component. There exists
本発明の画像処理装置は、画像中の色情報や濃淡情報を用いて文字成分とその他の成分を分離することを目的とする。さらに、画像ごとに文字成分とノイズ成分の色の組み合わせが異なる場合でも、正しくドロップアウトすることを目的としている。この処理を実現するにあたって解決すべき課題は以下の通りである。
(a)文字成分やノイズ成分の色が様々で,これらの色の組み合わせが画像毎に異なる
異なる機関で発行された帳票を一括して処理する場合、文字の色や罫線などのノイズ成分の色は同じである保証はない。したがって、文字やノイズ成分が異なる帳票が混在した状態で、文字以外の成分をドロップアウトする必要がある。この場合、ドロップアウトする色をあらかじめ指定することができないため、従来手法(1)の方式は適用できない。
(b)RGBでは分離困難な色
茶色や紫などRBGの情報では分離が困難な色や、濃淡値が高い色を含む帳票では、従来手法(2)を適用することができない。
(c)複数のノイズ成分色
従来手法(2)のように、RGBで分離する手法では、複数の色のノイズ成分を含む場合にはドロップアウトできない場合がある。例えば、赤系と青系のノイズ成分を含む場合には、どちらか一方の色しかドロップアウトできない。
(d)高濃度のノイズ成分色
従来手法(1)(2)(3)は、画素の濃淡値に基づいて2値化処理利用する。したがって、ノイズ成分が文字成分と同程度に高濃度の場合には両者を分離できないため、ノイズ成分をドロップアウトできない。
(e)同系色のノイズ成分色
文字色とノイズ成分色の色が同系色の場合には、色の違いに着目した従来手法(1)(2)ではノイズ成分をドロップアウトできない。濃度に着目すればドロップアウトできる場合もある。しかしながらこの方式では、文字と同系色のノイズと、文字と濃度が同じで異なる色のノイズが混在する場合には、後者のノイズ成分をドロップアウトできない。
(f)偽色
スキャナの撮像素子の特性上、文字や罫線などの境界付近に本来の色とは異なる色(偽色)が発生する場合がある。従来手法(1)(2)は、除去対象の色に着目してドロップアウト処理を行なうため、除去対象とは異なる色である偽色部分が除去されないという問題がある。さらに、文字内に偽色が発生する場合には、この画素をドロップアウトしてしまうという問題もある。
An object of the image processing apparatus of the present invention is to separate a character component and other components using color information and shading information in an image. Furthermore, the object is to drop out correctly even when the combination of the color of the character component and the noise component is different for each image. Problems to be solved in realizing this processing are as follows.
(A) Character components and noise components vary in color, and combinations of these colors differ from image to image When processing forms issued by different organizations at one time, the colors of characters and noise components such as ruled lines There is no guarantee that they are the same. Therefore, it is necessary to drop out components other than characters in a state where forms with different characters and noise components are mixed. In this case, since the color to be dropped out cannot be designated in advance, the method of the conventional method (1) cannot be applied.
(B) Colors that are difficult to separate with RGB Conventional method (2) cannot be applied to forms that include colors that are difficult to separate with RBG information, such as brown and purple, and forms that have high gray values.
(C) A plurality of noise component colors As in the conventional method (2), in the method of separating with RGB, there are cases where dropout cannot be performed when noise components of a plurality of colors are included. For example, when red and blue noise components are included, only one of the colors can be dropped out.
(D) High-density noise component color The conventional methods (1), (2), and (3) use binarization processing based on the gray value of a pixel. Therefore, when the noise component is as high as the character component, the noise component cannot be dropped out because they cannot be separated.
(E) Noise component of similar color When the character color and the noise component color are similar colors, the conventional methods (1) and (2) focusing on the color difference cannot drop out the noise component. In some cases, it is possible to drop out by focusing on the concentration. However, with this method, when noise of the same color as the character and noise of the same color and different color are mixed, the latter noise component cannot be dropped out.
(F) False color Due to the characteristics of the image sensor of the scanner, a color (false color) different from the original color may occur near the boundary of characters, ruled lines, and the like. In the conventional methods (1) and (2), dropout processing is performed by paying attention to the color to be removed, so that there is a problem that a false color portion that is different from the color to be removed is not removed. Further, when a false color occurs in the character, there is a problem that the pixel is dropped out.
本発明の一例では、処理画像中の文字を構成する画素以外の画素をドロップアウトする画像処理方法であって、処理画像を入力するステップと、処理画像の画素を第1の色空間上で色クラスタリングするステップと、色クラスタリングに基づいて背景色、文字色を識別するステップを有する。背景色、文字色を識別するステップにおいて、例えば最も画素数が多いクラスタまたは最も明度が高いクラスタに属する画素から背景色を識別することができる。また、背景色でないと識別されたクラスタから文字色が含まれるクラスタを選択する。例えば、2番目に画素数が多いクラスタまたは最も明度が低いクラスタに属する画素から文字色を識別することができる。 In one example of the present invention, there is provided an image processing method for dropping out pixels other than those constituting a character in a processed image, the step of inputting the processed image, and the pixels of the processed image in the first color space. Clustering, and identifying a background color and a character color based on the color clustering. In the step of identifying the background color and the character color, for example, the background color can be identified from the pixels belonging to the cluster having the largest number of pixels or the cluster having the highest brightness. In addition, a cluster including a character color is selected from clusters identified as not having a background color. For example, the character color can be identified from the pixel belonging to the cluster having the second largest number of pixels or the cluster having the lowest brightness.
さらに、処理画像の各画素を、上記で識別された背景色、文字色に加えて、当該画素のRGB以外の要素(例えば、色相や彩度)を用いて、背景候補、文字候補および除去候補等に弁別することができる。 Furthermore, in addition to the background color and character color identified above, each pixel of the processed image is used as a background candidate, a character candidate, and a removal candidate using an element other than RGB (for example, hue and saturation) of the pixel. And so on.
第1の色空間は、RGB、HSV、HLS、HSB、CMY、CMYKなどの各種色空間を用いることができる。画素の色相および彩度を用いる場合に、画像の画素を第1の色空間からRGB以外の色相、彩度等の次元が含まれる第2の色空間、例えばHSV、HLS、HSB等に変換してから処理を行うことができる。別の例としては、色空間の変換を行わず、処理の都度第1の色空間の数値から色相、彩度等を計算することもできる。 As the first color space, various color spaces such as RGB, HSV, HLS, HSB, CMY, and CMYK can be used. When using the hue and saturation of a pixel, the pixel of the image is converted from the first color space to a second color space including dimensions such as hue and saturation other than RGB, such as HSV, HLS, and HSB. Can be processed. As another example, hue, saturation, and the like can be calculated from numerical values in the first color space each time processing is performed without performing color space conversion.
本発明の一形態によると、文字成分色とノイズ成分色が不定である帳票に対して、自動的にノイズ成分をドロップアウトすることができる。さらに、ノイズ成分が同系色である場合や、複数の場合、高濃度の場合でもドロップアウトできる。 According to one embodiment of the present invention, a noise component can be automatically dropped out of a form whose character component color and noise component color are indefinite. Furthermore, when the noise component is a similar color, or when there are a plurality of noise components, it can be dropped out even when the density is high.
本発明の実施形態を図面を用いて説明する。なお、本発明は、以下の説明によって限定されるものではない。 Embodiments of the present invention will be described with reference to the drawings. In addition, this invention is not limited by the following description.
図1は、本発明の実施形態の帳票認識システムの構成を示す図である。 FIG. 1 is a diagram showing a configuration of a form recognition system according to an embodiment of the present invention.
帳票認識システムは、入力装置10、画像入力装置20、画像処理装置30、辞書40、表示装置50、及び画像データベース(DB)60を備える。
The form recognition system includes an
入力装置10は、画像処理装置30にコマンド及びコードデータ等を入力するためのキーボード及びマウス等の装置である。
The
画像入力装置20は、帳票を画像データとして、画像処理装置30に入力するためのスキャナ等の装置である。
The
画像処理装置30は、画像入力装置20によって入力された帳票の読み取り領域を検出してドロップアウト処理をする計算機であって、図示しないCPU、メモリ、及び記憶装置を備える。画像処理装置では、ドロップアウト画像の文字認識などの処理も実行することができる。
The
辞書40は、画像処理装置30が帳票を認識する際に参照する辞書データベースである。辞書40は、具体的には、画像処理装置30が文字認識する際に参照する文字認識辞書や、帳票の読み取り領域を検出する際に参照する帳票情報等を格納する。
The
表示装置50は、画像処理装置30によって帳票が認識された結果を表示するディスプレイ等の装置である。
The
画像DB60は、画像入力装置20によって画像処理装置30に入力された画像データを格納する。また、画像DB60には、画像入力装置20によって画像処理装置30が認識する対象となる画像データが予め格納されていてもよい。
The image DB 60 stores image data input to the
なお、本発明は、画像処理装置30と同じ機能を備えるソフトウェアによって通常の計算機に実装されてもよい。
The present invention may be implemented in a normal computer by software having the same function as the
本発明で実現するドロップアウト方式の具体例を示す前に、本発明の処理結果の概要を図2に示す日付印の例を用いて説明する。
図2(a)において,2000は処理対象の領域,2010は押印,2020は帳票上の罫線、2030はノイズを表す。ドロップアウト処理は,図2(a)の入力画像から図2(b)のドロップアウト画像を生成する処理である。ドロップアウトされた画像図(b)では、領域内には押印の色成分の画素(2040)のみが残っている。なお、図2は押印の例なので、スタンプの輪郭も文字と同じ色であるので、円形の輪郭も一緒に残っている。
このような処理を実現するために、本発明では以下のような方式をとる。まず、RGB色空間の情報を用いて文字と背景、およびその他の色をクラスタリングする。次に文字色か否かを判定して、文字以外の色の成分をドロップアウトする。文字の色か否かの判定の際にはRGB色空間の情報だけでなく,HSV色空間の情報も利用する。HSV色空間の情報を利用することにより,高濃度のノイズ成分も色相での分離が可能となる。
次に、本発明における課題の解決策についての概要を説明する。詳細については図3以降を用いて説明する。
(a)文字成分やノイズ成分の色が様々で,これらの色の組み合わせが帳票毎に異なる
背景色と文字色を推定した後,文字色を黒,それ以外を白とする2値化処理を行なう。文書ごとに文字色を推定するため,文字の色が一定でなくてもドロップアウトが可能になる。
(b)RGBでは分離困難な色
茶色や紫など、単純にRBG分離してもドロップアウトが困難な色をドロップアウトするには,RGBの色情報だけでなく,HSV色空間の明度(V)や色相(H)を利用して分離する。
(c)複数のノイズ成分色
従来の方式では,除去する色を選択してドロップアウトする方式が多かったため,除去したい色が複数ある場合には対応が困難な方式があった。本発明では,文字色以外を除去する方式をとる。このため,ドロップアウトしたい色が複数の場合でも,除去したい色ごとの判定処理は不要であり,除去したい色の数に依存しない。
(d)高濃度のノイズ成分色
従来の方式では,濃度が高い画素は2値化処理で黒になる傾向が多い。本発明では,文字色との違いに着目しているため,文字色と異なる色相の画素除去することにより,濃度が高い画素をドロップアウトできる。
(e)同系色のノイズ成分色
文字色とノイズ成分が同系色の場合は,相対的に明度が低い方を文字色,高い方をノイズ色として分離することにより,ドロップアウトが実現できる。
(f)偽色
文字色を残して,他の色を除去するため,偽色が残ることは少ない。文字の画素が偽色になった場合には,周辺の画素の色を勘案して文字色かそれ以外かを判定することにより,文字内の偽色を残すことが可能になる。
Before showing a specific example of the dropout method realized in the present invention, an outline of the processing result of the present invention will be described using an example of a date stamp shown in FIG.
In FIG. 2A, 2000 represents a region to be processed, 2010 represents a stamp, 2020 represents a ruled line on the form, and 2030 represents noise. The dropout process is a process for generating the dropout image of FIG. 2B from the input image of FIG. In the image (b) that has been dropped out, only the pixel (2040) of the color component of the seal remains in the area. Since FIG. 2 is an example of a stamp, the outline of the stamp is the same color as the character, so that a circular outline remains together.
In order to realize such processing, the present invention adopts the following method. First, characters, backgrounds, and other colors are clustered using information in the RGB color space. Next, it is determined whether or not it is a character color, and components of colors other than characters are dropped out. When determining whether or not the character color is used, not only the RGB color space information but also the HSV color space information is used. By using the information in the HSV color space, it is possible to separate high density noise components by hue.
Next, the outline | summary about the solution of the subject in this invention is demonstrated. Details will be described with reference to FIG.
(A) There are various colors of character components and noise components, and combinations of these colors are different for each form. After estimating the background color and character color, binarization processing is performed in which the character color is black and the others are white. Do. Since the text color is estimated for each document, dropout is possible even if the text color is not constant.
(B) Colors that are difficult to separate with RGB In order to drop out colors that are difficult to drop out even with simple RBG separation, such as brown and purple, not only RGB color information but also the brightness (V) of the HSV color space Or using hue (H).
(C) Multiple Noise Component Colors In the conventional method, there are many methods of selecting and dropping out the color to be removed, so there is a method that is difficult to cope with when there are a plurality of colors to be removed. In the present invention, a method for removing colors other than the character color is adopted. For this reason, even when there are a plurality of colors to be dropped out, determination processing for each color to be removed is unnecessary and does not depend on the number of colors to be removed.
(D) High-density noise component color In the conventional method, pixels with high density tend to become black by binarization processing. Since the present invention focuses on the difference from the character color, a pixel having a high density can be dropped out by removing pixels having a hue different from the character color.
(E) Noise component colors of similar colors When the character color and noise components are similar colors, dropout can be realized by separating the relatively lighter as the character color and the higher one as the noise color.
(F) False color Since the character color is left and other colors are removed, the false color is rarely left. When the pixel of the character becomes false color, it is possible to leave the false color in the character by determining whether it is the character color or not by considering the color of the surrounding pixels.
以下、本発明を適用した画像処理方法および画像処理装置の一実施形態について説明する。 Hereinafter, an embodiment of an image processing method and an image processing apparatus to which the present invention is applied will be described.
図3は、本発明を適用した画像処理方法の処理フローを示す図である。これは,画像処理装置(CPU)30にて実行される。通常はCPUで実行されるプログラムとして実現され、このようなプログラムは各種記録媒体に格納することができ、メモリに格納されてCPUで実行される。 FIG. 3 is a diagram showing a processing flow of an image processing method to which the present invention is applied. This is executed by an image processing device (CPU) 30. Usually, it is realized as a program executed by the CPU, and such a program can be stored in various recording media, stored in a memory and executed by the CPU.
処理領域選択処理(3000)は、画像中から読取対象の文字を含む領域を選択する処理である。この処理は画像中の一部分を選択しても、全体を選択しても良い。 The processing area selection process (3000) is a process for selecting an area including characters to be read from an image. This processing may select a part of the image or the entire image.
色クラスタリング処理(3010)は、処理領域中の各画素を色クラスタリングする処理である。色クラスタリングは、画像中の各画素を色空間上にマッピングした後、あらかじめ決められた基準に基づいて、近い色同士を同じクラスタとする。 The color clustering process (3010) is a process for color clustering each pixel in the processing area. In color clustering, each pixel in an image is mapped onto a color space, and then close colors are made the same cluster based on a predetermined criterion.
図4に色クラスタリングの一例を示す。図4は、RGB色空間へのマッピングの例であるが、他の種類の色空間でも良い。RGB色空間は、RGBそれぞれの値を軸に持つ3次元空間である。通常、RGBの各軸の値は0から255をとる。原点(0,0,0)は黒を表し、(255,255,255)は白を表す。処理対象領域内の各画素はRGB色空間上の一点にマッピングできる。文字、罫線、背景の色は全く同じになることはないので、各カテゴリの代表的な色を中心とした複数の分布ができる。このようにRGB色空間では赤、緑、青の色に着目したクラスタリングができる。図2の例で、背景を白、文字(2010)の色を赤、罫線(2020)の色を青とすると、図4では、4000が背景の画素の分布、4010が文字の画素の分布、4020が罫線の画その分布となる。それ以外にも、ノイズや偽色として4030から4050のような別の色も存在しうる。色クラスタリングでは、各分布の中心の色や最も頻度が高い色を中心とするクラスタ間を、ボロノイ分割やユークリッド距離の閾値などを用いて分割することである。これにより、例えば3つのクラスタに分ける場合には、4000、4010,4020を中心とした3つのクラスタに分割できる。 FIG. 4 shows an example of color clustering. FIG. 4 shows an example of mapping to the RGB color space, but other types of color spaces may be used. The RGB color space is a three-dimensional space having RGB values as axes. Usually, the value of each axis of RGB ranges from 0 to 255. The origin (0, 0, 0) represents black and (255, 255, 255) represents white. Each pixel in the processing target area can be mapped to one point on the RGB color space. Since characters, ruled lines, and background colors are never the same, a plurality of distributions centered on representative colors of each category can be created. In this way, clustering focusing on red, green, and blue colors can be performed in the RGB color space. In the example of FIG. 2, if the background is white, the color of the character (2010) is red, and the color of the ruled line (2020) is blue, in FIG. 4, 4000 is the background pixel distribution, 4010 is the character pixel distribution, 4020 is the distribution of ruled lines. In addition, other colors such as 4030 to 4050 may exist as noise and false colors. In color clustering, a cluster centered on the center color of each distribution or a color with the highest frequency is divided using Voronoi division, a threshold of Euclidean distance, or the like. Thereby, when dividing into three clusters, for example, it can be divided into three clusters centered on 4000, 4010, and 4020.
背景色選択処理(3020)は、色クラスタリングした結果から、背景色を選択する処理である。図4の例では4000のクラスタを選択した後、このクラスタの分布の中心の色、もしくは最も画素数(頻度)が多い色を背景色とする。背景色を含むクラスタの選択基準の一例としては、最も画素数が多いクラスタを採用する。この理由は、処理対象領域内では、文字、罫線、ノイズ、背景の中で、一般的に背景の面積が最も多いからである。背景色を含むクラスタの選択基準の他の例としては、最も明度が高いクラスタを選択することができる。この理由は、紙の色は文字の色に比べて明度が高いためである。クラスタの明度としてはクラスタに含まれる画素の平均の明度や、分布のピークまたは中心の明度を用いることができる。なお、明度を基準とする場合には、RGB色空間ではなく、HSV色空間などを用いても良い。HSV色空間については、図5を用いて後述する。 The background color selection process (3020) is a process for selecting a background color from the result of color clustering. In the example of FIG. 4, after 4000 clusters are selected, the color at the center of the cluster distribution or the color with the largest number of pixels (frequency) is used as the background color. As an example of a selection criterion for a cluster including a background color, a cluster having the largest number of pixels is employed. This is because the area of the background is generally the largest among the characters, ruled lines, noise, and background in the processing target area. As another example of the selection criterion for the cluster including the background color, the cluster having the highest brightness can be selected. This is because the paper color has a higher brightness than the character color. As the brightness of the cluster, the average brightness of the pixels included in the cluster or the brightness of the peak or center of the distribution can be used. Note that when the brightness is used as a reference, an HSV color space or the like may be used instead of the RGB color space. The HSV color space will be described later with reference to FIG.
文字色選択処理(3030)は、色クラスタリングした結果から、文字色を選択する処理である。図4の例では4010のクラスタを選択した後、このクラスタの分布の中心の色、もしくは最も画素数(頻度)が多い色を背景色とする。文字色を含むクラスタの選択基準の一例としては、背景色を含むクラスタの次に画素数が多いクラスタを採用する。この理由は、背景色と同様、処理領域内に占める面積に起因する。あるいは、最も明度が低いクラスタを採用する方法もある。 The character color selection process (3030) is a process for selecting a character color from the result of color clustering. In the example of FIG. 4, after selecting 4010 clusters, the color at the center of the cluster distribution or the color with the largest number of pixels (frequency) is set as the background color. As an example of a selection criterion for a cluster including a character color, a cluster having the next largest number of pixels is employed after a cluster including a background color. The reason for this is due to the area occupied in the processing region, similar to the background color. Alternatively, there is a method of adopting a cluster having the lowest brightness.
なお背景や文字の色があらかじめ指定されている場合においては、指定された色情報を用いてクラスタを選択してもよい。例えば背景が白や黄色、文字が黒や青などであることが多いので、これらの情報を利用しても良い。 When the background and the character color are designated in advance, the cluster may be selected using the designated color information. For example, since the background is often white or yellow and the characters are black or blue in many cases, such information may be used.
なお、背景色選択処理(3020)と文字色選択処理(3030)で色クラスタリングする処理領域は、同じでも異なっていてもよい。同じ場合の例は、3000で指定された処理領域内の画素を全て利用すればよい。異なる場合の例としては、文字色選択の際には文字が存在している領域に限定することができる。これは、帳票上の文字など、あらかじめ文字の位置が特定できる場合に利用できる。また、背景色選択の際には背景が存在しやすい領域に限定することができる。 Note that the processing areas for color clustering in the background color selection process (3020) and the character color selection process (3030) may be the same or different. In the case of the same case, all the pixels in the processing area designated by 3000 may be used. As an example of a different case, the character color selection can be limited to a region where a character exists. This can be used when a character position such as a character on a form can be specified in advance. Further, when selecting a background color, it can be limited to an area where a background tends to exist.
HSV変換処理(3040)は、画素分類処理(3050)に利用するために、処理対象の画素を入力装置から得られるRGB色空間からHSV色空間に変換する処理である。
図5を用いてHSV色空間の概要を説明する。HSV色空間は、色を色相(H)、彩度(S)、明度(V)で表現するモデルであり、円錐で視覚化できる。色相は円錐の外周に添って変化する。垂直軸は明度を、水平軸は彩度を表す。RGB色空間からHSV色空間へは、数式を用いて変換することが可能である。本発明でHSV色空間を用いた理由は、一般にHSV色空間を用いた色の表現は、色相や明るさを用いた人間の色の知覚方法と類似しているためである。なお、色空間の変換はHSVだけでなく、HLS色空間(色相(H)、輝度(L)、彩度(S)で表現する)やHSB色空間(色相(H)、彩度(S)、明度(B)で表現する)などを用いてもよい。その他にも、印刷の過程で利用する減法混色の表現法であるCMY色空間やCMYK色空間などを利用してもよい。
The HSV conversion process (3040) is a process of converting the pixel to be processed from the RGB color space obtained from the input device to the HSV color space for use in the pixel classification process (3050).
The outline of the HSV color space will be described with reference to FIG. The HSV color space is a model that expresses colors by hue (H), saturation (S), and brightness (V), and can be visualized as a cone. Hue changes along the circumference of the cone. The vertical axis represents lightness, and the horizontal axis represents saturation. Conversion from the RGB color space to the HSV color space can be performed using mathematical formulas. The reason why the HSV color space is used in the present invention is that the expression of colors using the HSV color space is generally similar to a human color perception method using hue and brightness. Note that the conversion of the color space is not limited to HSV, but the HLS color space (represented by hue (H), luminance (L), saturation (S)) or HSB color space (hue (H), saturation (S)). , Expressed in brightness (B)) or the like. In addition, a CMY color space or a CMYK color space that is a subtractive color expression method used in the printing process may be used.
このようにRGB以外の次元を用いることにより、高精度の画素分類処理が可能となる。なお、上記の例では、一括して色空間の変換を行ってから次の処理を行ったが、色空間の変換を行わずに、H,S等をその都度RGBから計算して処理を行うことも可能である。 By using dimensions other than RGB in this way, highly accurate pixel classification processing can be performed. In the above example, the following processing is performed after batch conversion of the color space. However, H, S, etc. are calculated from RGB each time without performing color space conversion. It is also possible.
画素分類処理(3050)は、ドロップアウトを目的として領域内の各画素を分類する処理である。 The pixel classification process (3050) is a process of classifying each pixel in the area for the purpose of dropout.
図6を用いてこの処理の概要を説明する。図6は、図2の数字「2」付近の拡大図である。個々の正方形は画素を表す。図2(a)は入力された画像の一部である。文字の画素(6000など)と背景の画素(6010など)、罫線の画素(6020など)、ノイズ等の画素が存在する。ノイズについては、紙に存在していたノイズ(6030など)の他に、偽色などスキャン時に発生するノイズ(6040など)がある。偽色とは、撮像素子や光学系の特性により、実際とは異なる色が発生することである。偽色は色が大きく異なる箇所に発生しやすいため、罫線や文字の境界付近に発生することが多い。図6(a)の画像を入力して、図(b)に示すように各画素を分類する。分類は、まず文字(6050など)と背景(6060など)とに判定する。この判定は、図3の3020、3030で選択された背景色、文字色を用いて行うことができる。この2つに明確に分類できない場合は、画素の色や明度に応じて、主に偽色を意味する文字候補(6070など)と、文字でも背景でもない色であるとして主に罫線などを意味する除去候補(6080など)に判定する。この画素分類処理の詳細は図7を用いて後述する。 The outline of this process will be described with reference to FIG. FIG. 6 is an enlarged view around the number “2” in FIG. 2. Each square represents a pixel. FIG. 2A shows a part of the input image. There are character pixels (such as 6000), background pixels (such as 6010), ruled line pixels (such as 6020), and pixels such as noise. Regarding noise, in addition to noise (such as 6030) that existed on paper, there is noise (such as 6040) that occurs during scanning, such as false colors. The false color is a color that is different from the actual color due to the characteristics of the image sensor or the optical system. Since false colors are likely to occur at locations where the colors are significantly different, they are often generated near the borders of ruled lines and characters. The image of FIG. 6A is input, and each pixel is classified as shown in FIG. The classification is first made by character (eg 6050) and background (eg 6060). This determination can be made using the background color and character color selected in 3020 and 3030 of FIG. If it cannot be clearly classified into these two, depending on the color and brightness of the pixel, it mainly means a character candidate (6070, etc.) that means false color and a ruled line, etc., because it is neither a character nor a background. It is determined as a removal candidate to be removed (6080 or the like). Details of the pixel classification processing will be described later with reference to FIG.
濃淡画像生成処理(3060)は、後段の2値化処理(3070)において文字の画素が残り、それ以外の画素が除去されやすいように、各画素の輝度値を補正した濃淡画像を生成する処理である。補正処理は、画素分類処理(3050)において文字、背景、文字候補、もしくは除去候補に分けられた各画素に対して、当該画素と周囲の画素の判定結果や明度などから、当該画素の輝度値を変更する。背景、文字、文字候補、除去候補のそれぞれの輝度値の補正方法の概要を以下に示す。背景の画素は、確実にドロップアウトできるように白(輝度値255)に変換する。文字の画素の輝度値はそのままにする。文字候補や除去候補の画素は、当該画素の周囲の画素の判定結果や輝度から信頼度を設定し、信頼度が低ければ白に変換し、第1の基準以上、第2の基準以下であれば輝度値を高く(明るく)する。第2の基準以上であれば、輝度値はそのままにする。この処理の詳細については、図8から図11を用いて後述する。 The grayscale image generation process (3060) is a process for generating a grayscale image in which the luminance value of each pixel is corrected so that the character pixels remain in the subsequent binarization process (3070) and the other pixels are easily removed. It is. In the correction process, for each pixel divided into a character, background, character candidate, or removal candidate in the pixel classification process (3050), the luminance value of the pixel is determined based on the determination result and brightness of the pixel and surrounding pixels. To change. An outline of a method for correcting the luminance values of the background, characters, character candidates, and removal candidates is shown below. Background pixels are converted to white (luminance value 255) to ensure dropout. The luminance value of the character pixel is left as it is. Pixels for character candidates and removal candidates are set to reliability based on determination results and brightness of pixels around the pixel, and converted to white if the reliability is low. Increase the brightness value. If it is above the second reference, the luminance value is left as it is. Details of this processing will be described later with reference to FIGS.
2値化処理(3070)は、濃淡画像生成処理(3060)で生成された濃淡画像を白と黒に2値化する処理である。この結果、文字の画素を残して、背景や罫線、ノイズ等の画素をドロップアウトした2値画像が生成される。2値化の手法としては、固定閾値を用いる手法や、動的に閾値を変える手法など多くの手法が提案されている。代表的な手法としては大津の2値化手法がある。この2値画像が文字認識などの処理に利用される。 The binarization process (3070) is a process for binarizing the grayscale image generated by the grayscale image generation process (3060) into white and black. As a result, a binary image is generated in which the pixels of the background, ruled lines, noise, and the like are dropped out, leaving the character pixels. As a binarization method, many methods such as a method using a fixed threshold and a method of dynamically changing the threshold have been proposed. As a representative method, there is Otsu's binarization method. This binary image is used for processing such as character recognition.
図7を用いて、以下、図3における画素分類(3050)の処理フローを詳細に説明する。 Hereinafter, the processing flow of the pixel classification (3050) in FIG. 3 will be described in detail with reference to FIG.
まず、ステップ7000において、領域内の最初の画素を選択する。この画素に対して、以下の判定処理を行なう。ステップ7010は、背景の画素を判定する処理である。紙色は白であることが多いので、背景色を白と仮定した上で、当該画素の色が白に近ければ、ステップ7020において当該画素を背景と判定する。また、白の代わりに図3の3020で選択された背景色に近い色を背景と判定することもできる。本実施例では、判定結果はフラグに記録されることとする。白(または背景色)に近いか否かの判定の一例として、RGB空間において、白(255,255,255)と当該画素とのユークリッド距離が基準以下であるか否かを判定する方法がある。HSV色空間であれば、明度が基準以上で彩度が基準以下であれば白と判定する。ステップ7010の判定条件を満たさない場合は、ステップ7030の処理を行なう。ステップ7030は白や背景色以外の背景の画素を判定する処理である。背景は白に限らないが、文字に比べると明度が高いため、当該画素の明度が基準以上であれば、ステップ7020において当該画素を背景と判定する。明るさの尺度の一例としては、RGB色空間やHSV色空間から求めた輝度や明度を利用することができる。ここまでの処理で背景の画素を判定できる。
First, in
ステップ7040は、当該画素が文字か否かを判定する処理である。当該画素が図3のステップ3030で求めた文字色に近い画素であれば、ステップ7050において当該画素を文字と判定する。文字色に近いか否かの判定の一例は、RGB空間内における当該画素の色と文字色とのユークリッド距離が基準以下であれば文字と判定する。
ステップ7040の判定条件を満たさない場合、ステップ7060において、ステップ3030で求めた文字色が無彩色(灰色や黒)か有彩色かで処理を分ける。この判定はHSV色空間での彩度(S)を用いることができる。彩度が低いと文字色は黒に近く、彩度が高いと文字色は色彩をもつ(カラーである)と判定できる。
If the determination condition in
ステップ7060の判定で文字色が黒であると判定された場合に、ステップ7070で当該画素が文字か否かを判定する。当該画素の彩度が基準いかであれば、彩度が低い文字色に近いため、ステップ7050で当該画素を文字と判定する。ステップ7070の判定条件を満たさない場合は、ステップ7080において当該画素を文字候補と判定する。文字候補と判定された画素は、図8を用いて後述する輝度補正処理が実行される。この処理については図8と図9を用いて後述する。
If it is determined in
ステップ7060の判定で文字色がカラーであると判定された場合に、ステップ7090で当該画素が文字か否かを判定する。文字の色がカラーである場合には、当該画素と文字色の色相の差が基準以下であれば、ステップ7050において当該画素を文字と判定する。色相のみを判定することにより、かすれなどによる濃淡の違いを吸収できるというメリットがある。
If it is determined in
ステップ7090の条件を満たさない場合には、当該画素は文字とは異なる色であり罫線などのノイズであるとして、ステップ7100にて除去候補と判定する。文字候補と判定された画素は、図8を用いて後述する輝度補正処理が実行される。この処理については図8と図10を用いて後述する。
If the condition in
当該画素がステップ7020、7050、7080、7100のいずれかの処理を経た後、ステップ7110にて領域内の全ての画素が処理されたか否かを判定する。全て処理していなければステップ7120にて次の画素を選択してステップ7010に戻る。全て処理していれば、画素分類処理を終了する。
After the pixel has undergone any one of
なお、図7においては、文字以外の色をドロップアウトするために文字の色のみに着目してステップ7090の色相の判定を行なった。しかし、罫線などのノイズ成分の色が検出できる場合には、ノイズ成分の色相との判定を加えてもよい。
また、図7においては、文字、背景、文字候補、除去候補に画像を分類したが、文字候補と除去候補は一つにまとめてもよい。すなわち、ステップ7080とステップ7100が同じ処理となる。この場合、図8から図11で説明する濃淡画像生成においても、文字候補と除去候補は同じであるとして処理を行なう。
In FIG. 7, in order to drop out colors other than characters, the hue is determined in
In FIG. 7, images are classified into characters, backgrounds, character candidates, and removal candidates. However, the character candidates and removal candidates may be combined into one. That is,
以下、図8から図11を用いて、図3の濃淡画像生成処理(3060)の処理フローを詳細に説明する。 Hereinafter, the processing flow of the grayscale image generation process (3060) in FIG. 3 will be described in detail with reference to FIGS.
図8は、濃淡画像生成処理の全体概要である。図7で分類した結果は必ずしも正しくないために、分類結果の信頼度を算出し、信頼度を用いて濃淡画像を生成する。まず、ステップ8000において文字候補と判定された画素について信頼度を設定する。この処理の詳細については、図9を用いて後述する。次に、ステップ8010において、除去候補と判定された画素について信頼度を設定する。この処理の詳細については、図10を用いて後述する。最後に、ステップ8020において、文字候補と除去候補と判定された画素に対して信頼度に応じた輝度値の修正を行なって濃淡画像を生成する。この処理の詳細は図11を用いて後述する。
FIG. 8 is an overview of the entire gray image generation process. Since the result of classification in FIG. 7 is not necessarily correct, the reliability of the classification result is calculated, and a grayscale image is generated using the reliability. First, the reliability is set for the pixel determined as a character candidate in
図9は、図8のステップ8000に示した、文字候補と判定された画素に対する信頼度付けの処理フローを示す図である。この処理の目的は、主に境界付近に発生する偽色を、適切に除去もしくは残留させることである。この処理は、文字候補の画素の周囲に文字の画素があるか否かを判定し、文字の画素があれば、その数や輝度に応じて当該画素の信頼度を高める。当該画素の周辺の画素を判定する理由は、周辺に文字の画素が多い場合は、文字の一部の色が偽色などで変化した画素である可能性が高いからである。そうでなければ文字色に近いノイズ成分と判断できる。図9の処理において信頼度が高くなる文字候補の画素は、図3の2値化処理(3080)において、文字の画素として判定される可能性が高くなる。
FIG. 9 is a diagram showing a processing flow for assigning reliability to pixels determined to be character candidates shown in
図9では、まず、ステップ9000において、領域内の最初の画素を選択する。この画素に対して以下の判定処理を行なう。ステップ9010は、当該画素が文字候補か否かを判定する。文字候補の場合には、ステップ9020において、当該画素の周囲に文字と判定された画素の有無を判定する。周囲とは、当該画素を中心として隣接する8近傍でも4近傍でもよい。周囲に文字の画素が存在する場合には、周囲の文字画素の数や、当該画素や文字画素の輝度の情報を利用して信頼度を設定する。信頼度の一例としては、周囲の文字画素の数を定数倍する手法がある。その他には、当該画素と文字画素との輝度の差の逆数を定数倍する手法がある。輝度の差を利用する理由は、文字の画素との輝度の差が少ないほど文字の可能性が高いからである。
In FIG. 9, first, in
ステップ9020で条件を満たさない場合、もしくはステップ9030の後、ステップ9040にて領域内の全ての画素が処理されたか否かを判定する。全て処理していなければステップ9050にて次の画素を選択してステップ9010に戻る。全て処理していれば、文字候補画素の信頼度設定処理を終了する。
If the condition is not satisfied in
図10は、図8のステップ8010に示した、除去候補と判定された画素に対する信頼度付けの処理フローを示す図である。この処理の目的は、文字でも背景でもない色を持つ罫線などのノイズ成分の画素を除去することである。この処理では、除去候補の画素の周囲に、文字の画素や信頼度が高い文字候補の画素があるか否かを判定し、文字の画素や文字候補の画素があれば、その数や輝度に応じて当該画素の信頼度を高める。当該画素の周囲の画素を判定する理由は、周囲に文字の画素が多い場合は、罫線などのノイズ成分と文字が交差している部分である可能性が高いからである。図9の処理において信頼度が高い文字候補画素も判定対象とする理由は、文字に隣接しているために最終的に文字になる可能性が高いからである。
FIG. 10 is a diagram showing a processing flow for assigning reliability to a pixel determined as a removal candidate shown in
図10では、まずステップ10000において、領域内の最初の画素を選択する。この画素に対して以下の判定処理を行なう。ステップ10010は、当該画素が除去候補か否かを判定する。除去候補の場合には、ステップ10020において、当該画素の周囲に文字と判定された画素の有無を判定する。周囲に文字の画素が存在する場合には、周囲の文字画素の数や、当該画素や文字画素の輝度の情報を利用して信頼度を設定する。この信頼度の設定方法は図9のステップ9030と同様でも別でもよい。ステップ10020の条件を満たさない場合には、当該画素の周囲に図8のステップ8000で高い信頼度となった文字候補の有無を判定する。この条件を満たす場合には、ステップ10030に進む。
In FIG. 10, first, in
ステップ10040で条件を満たさない場合、もしくはステップ10030の後、ステップ10050にて領域内の全ての画素が処理されたか否かを判定する。全て処理していなければステップ10060にて次の画素を選択してステップ10010に戻る。全て処理していれば、除去候補画素の信頼度設定処理を終了する。
If the condition is not satisfied in
図11は、図8のステップ8020に示した、判定結果と信頼度に基づく濃淡画像生成処理のフローを示す図である。この処理では、画素の分類と信頼度に応じて画素の輝度値を補正して濃淡画像を生成する。輝度値の補正では、背景は白に、文字でない画素は輝度値を上げる。この処理により、後段の2値化処理において文字のみが残る2値画像を生成することを目的としている。
FIG. 11 is a diagram showing the flow of the grayscale image generation process based on the determination result and the reliability shown in
まず、ステップ11000において、領域内の最初の画素を選択する。この画素に対して、以下の判定処理を行なう。ステップ11010は、当該画素が文字か否を判定する処理である。文字の画素の場合は、ステップ11010において当該画素の輝度値をセットする。ステップ11010の条件を満たさない場合、ステップ11020において当該画素が背景か否かを判定する。背景の画素の場合は、確実にドロップアウトできるように、白の輝度値(最大輝度値、255)をセットする。
First, in
ステップ11020の条件を満たさない画素は、文字候補もしくは除去候補である。これらはステップ11040において、信頼度が0か否かを判定する。信頼度が0であるということは、周囲に文字の画素が存在しないということである。この場合、ノイズであると判定して、ステップ11030にて白の輝度値をセットする。信頼度が0より大きい場合は、ステップ11050において、信頼度が予め決められた基準値を超えるか否かを判定する。信頼度が基準値以下の場合には、ステップ11060にて輝度値を増加させた値をセットする。ステップ11050の条件を満たす画素は、文字である可能性が低いものの可能性が0ではない。そこで、2値化でドロップアウトしやすくするために輝度値を上げた値をセットする。輝度値を上げたとしても、当該画素の輝度値や周囲の輝度値により、ドロップアウトされる場合とされない場合がある。最終判定は、後段の2値化処理(3070)で行なう。輝度値を上げる計算の一例は、輝度値に信頼度の定数倍を増やすことができる。
Pixels that do not satisfy the condition of
ステップ11050の条件を満たさない場合は、11010にて輝度値をそのままセットする。これは、当該画素と隣接する文字の画素が多いため、文字の画素と同じ扱いをしたものである。
If the condition of
当該画素がステップ11010、11030、11060のいずれかの処理を経た後、ステップ11070にて領域内の全ての画素が処理されたか否かを判定する。全て処理していなければステップ11080にて次の画素を選択してステップ11010に戻る。全て処理していれば、判定結果と信頼度に基づく濃淡画像生成処理を終了する。
図9から図11の処理を図6の例を用いて補足する。まず、文字候補の画素について説明する。6090や6100のような周囲に文字の画素が多い場合は、文字であるとして図6(c)に示すように黒に2値化される。6110は周囲に文字の画素がないため、図6(c)では白となる。6070は周囲に文字の画素があるものの、輝度が高かったため、図6(c)では白となる。次に、除去候補の画素について説明する。6080は罫線の画素である。これは文字の色とは輝度もしくは色相が異なるため、図6(c)では白となる。6030は周囲に文字の画素がないため、図6(c)では白となる。一方、6120や6130は除去候補であるものの、周囲に文字候補が多いため、図6(c)では黒となる。このように、偽色や罫線などの他の色が存在している場合でも、文字と同じ色のみをドロップアウトできる。
After the pixel has undergone any one of
The processing of FIGS. 9 to 11 will be supplemented by using the example of FIG. First, the pixel of a character candidate will be described. When there are many character pixels around 6090 and 6100, the character is binarized to black as shown in FIG. 6110 is white in FIG. 6C because there is no character pixel around it. Although 6070 has character pixels around it, the luminance is high, so in FIG. 6C, it is white. Next, the removal candidate pixels will be described. Reference numeral 6080 denotes a ruled line pixel. This is white in FIG. 6C because the luminance or hue is different from the character color. 6030 is white in FIG. 6C because there is no character pixel around it. On the other hand, although 6120 and 6130 are removal candidates, there are many character candidates around them, and therefore, black is displayed in FIG. 6C. Thus, even when other colors such as false colors and ruled lines exist, only the same color as the character can be dropped out.
次に、本発明を適用した画像処理方法および画像処理装置の第二の実施形態について説明する。 Next, a second embodiment of an image processing method and an image processing apparatus to which the present invention is applied will be described.
図12は、本発明のドロップアウト処理のフローを示す別の図である。図3と同じ番号がついている処理は図3と同じである。この例では、図3の2値化処理(3070)の前後に画像補正1(12000)と画像補正2(12010)が追加されている。なお、この処理はどちらか一方でもよい。
画像補正1(12000)は、濃淡画像を用いた画像補正である。補正の例としては、傾き補正がある。傾き補正をここで行なうメリットは、2値化後の画像に比べて濃淡画像では傾き補正後に量子化誤差が発生しにくいことである。具体的には、斜めの線や曲線を含む画像を補正した際に、線上にギザギザが発生しにくくなる。傾き補正手法の例としては、バイリニア法やバイキュービック法を利用することができる。なお、傾き補正のためには、傾きを検出する必要がある。これは画像補正1(12000)内で実行しても、他の処理で求めてもよい。画像補正1で行なう処理の他の例としては、ノイズ除去がある。ノイズ除去の例としては、隣接する画素の濃度からスムージング処理を行なうなどがある。
画像補正2(12010)は、2値画像を用いた画像補正である。補正の一例としては、傾き補正がある。傾き補正をここで行なうメリットは、濃淡画像に比べて処理時間が短いことである。なお、傾き補正のため傾き検出は画像補正2(12010)内で実行しても、他の処理で求めてもよい。傾き補正は画像補正1(12000)と画像補正2(12010)のどちらでも実行可能であるので、通常はどちらか一方で行なえばよい。画像補正1で行なう処理の他の例としては、ノイズ除去がある。ノイズ除去の例としては、孤立点除去などがある。
FIG. 12 is another diagram showing a flow of the dropout processing of the present invention. The processes with the same numbers as in FIG. 3 are the same as those in FIG. In this example, image correction 1 (12000) and image correction 2 (12010) are added before and after the binarization processing (3070) in FIG. This process may be either one.
Image correction 1 (12000) is image correction using a grayscale image. An example of correction is tilt correction. The merit of performing the inclination correction here is that quantization errors are less likely to occur after the inclination correction in the grayscale image as compared to the binarized image. Specifically, when an image including an oblique line or curve is corrected, a jagged line is hardly generated on the line. As an example of the inclination correction method, a bilinear method or a bicubic method can be used. In order to correct the inclination, it is necessary to detect the inclination. This may be executed within the image correction 1 (12000) or may be obtained by other processing. Another example of processing performed in image correction 1 is noise removal. As an example of noise removal, smoothing processing is performed from the density of adjacent pixels.
Image correction 2 (12010) is image correction using a binary image. One example of correction is tilt correction. The advantage of performing the inclination correction here is that the processing time is shorter than that of the grayscale image. Note that for inclination correction, the inclination detection may be executed within the image correction 2 (12010) or may be obtained by other processing. Since the inclination correction can be executed by either image correction 1 (12000) or image correction 2 (12010), it is usually sufficient to perform either one. Another example of processing performed in image correction 1 is noise removal. An example of noise removal is removal of isolated points.
次に、本発明を適用した画像処理方法および画像処理装置の第三の実施形態について説明する。 Next, an image processing method and an image processing apparatus to which the present invention is applied will be described.
図13は、本発明のドロップアウト処理を利用した、帳票上の文字の読取を行なう処理フローである。画像入力(13000)において対象のカラー画像を入力し、読取領域選択(13010)において読取対象の文字を含む領域を検出する。読取り対象の領域検出方法としては、帳票上の枠を検出する方法や、あらかじめ決められた座標から求める方法などがある。次に、読取対象の領域に対してドロップアウト処理(13020)を行なう。この処理は、本発明の図3や図12の手法を利用することができる。次に、ドロップアウトした画像から文字領域を検出する(13030)。文字領域の検出の一例として、行抽出などの手法を利用できる。次に、文字認識(13040)を行なった後、認識結果を出力(13050)する。 FIG. 13 is a processing flow for reading characters on a form using the dropout processing of the present invention. In the image input (13000), the target color image is input, and in the reading area selection (13010), an area including the character to be read is detected. As a method for detecting a region to be read, there are a method for detecting a frame on a form, a method for obtaining from a predetermined coordinate, and the like. Next, dropout processing (13020) is performed on the area to be read. For this processing, the technique of FIG. 3 or FIG. 12 of the present invention can be used. Next, a character area is detected from the dropped-out image (13030). As an example of character area detection, a technique such as line extraction can be used. Next, after character recognition (13040), the recognition result is output (13050).
次に、本発明を適用した画像処理方法および画像処理装置の第四の実施形態について説明する。 Next, a fourth embodiment of an image processing method and an image processing apparatus to which the present invention is applied will be described.
図14は、本発明のドロップアウト処理を利用した、領収印の日付認識の処理フローである。図13内の番号は図13と同じ処理である。画像入力(13000)において対象のカラー画像を入力し、領収印検知(14000)において領収印の領域を検出する。領収印領域検出の一例としては、特許文献3がある。次に、領収印の領域に対してドロップアウト処理(14010)を行なう。この処理は、本発明の図3や図12の手法を利用することができる。この処理では、傾き補正も行なうものとする。次に、ドロップアウトした領収印の画像から日付領域を検出する(14020)。日付領域の検出の一例として、上下方向に中央付近に存在する黒画素の塊の列を選択するなどの手法を利用できる。次に、ドロップアウト画像から日付領域を切り出して日付認識をすることができる。日付認識(14030)ではOCRを用いて文字を認識する。さらに、様々な日付の表記形式をあらかじめ知識として蓄えておき、文字認識結果と照合することにより、文字認識結果を修正して日付として矛盾のない認識結果を出力する。文字認識結果が日付として矛盾がなければ結果を出力して(13050)終了する。矛盾があれば、日付画像を180度回転して(14050)認識しなおす。 FIG. 14 is a process flow for recognizing the date of receipt using the dropout process of the present invention. The numbers in FIG. 13 are the same as those in FIG. The target color image is input in the image input (13000), and the region of the receipt is detected in the receipt detection (14000). As an example of receipt area detection, there is Patent Document 3. Next, dropout processing (14010) is performed on the region of receipt. For this processing, the technique of FIG. 3 or FIG. 12 of the present invention can be used. In this process, inclination correction is also performed. Next, a date area is detected from the image of the receipt that has been dropped out (14020). As an example of the date area detection, a technique such as selecting a column of black pixel blocks existing near the center in the vertical direction can be used. Next, the date area can be cut out from the dropout image for date recognition. In date recognition (14030), characters are recognized using OCR. Furthermore, various date notation formats are stored as knowledge in advance and collated with the character recognition result to correct the character recognition result and output a consistent recognition result as a date. If the character recognition result is consistent with the date, the result is output (13050) and the process ends. If there is a contradiction, the date image is rotated 180 degrees (14050) and re-recognized.
Claims (2)
画像内の画素を色クラスタリングすることにより、By color clustering the pixels in the image,
背景色を選択するとともに背景色以外の色から文字色を選択し、Select a background color and a text color from colors other than the background color,
さらに処理領域内の画素をドロップアウトするために分類する手段を有し、And further comprises means for classifying the pixels in the processing region for dropout,
上記分類結果と各画素の周囲情報に基づいて画素の輝度値を補正して濃淡画像を生成し、Based on the classification result and the surrounding information of each pixel, the luminance value of the pixel is corrected to generate a grayscale image,
濃淡画像を2値化して2値画像を生成し、Generate a binary image by binarizing the grayscale image,
当該画像処理装置は画像の画素を文字、背景、文字候補、および除去候補に分類するものであり、The image processing apparatus classifies image pixels into characters, backgrounds, character candidates, and removal candidates,
画素の色が背景色または白に近いもしくは輝度が基準以上の場合は背景と判断し、If the color of the pixel is close to the background color or white or the brightness is above the standard, it will be judged as the background
当該画素の色が文字色に近い場合は、当該画素を文字と判断し、If the color of the pixel is close to the character color, determine the pixel as a character,
上記の判断で対象外になった画素に対して、For pixels that are excluded from the above judgment,
文字色が黒に近い場合には、当該画素の彩度が第一の基準未満の場合には当該画素を文字と判断し、彩度が第一の基準以上であれば当該画素を文字候補と判断し、When the character color is close to black, if the saturation of the pixel is less than the first reference, the pixel is determined to be a character, and if the saturation is greater than or equal to the first reference, the pixel is determined as a character candidate. Judgment
文字の色が色彩を持つ場合には、当該画素の色相と文字の色相の差が第二の基準未満であれば当該画素を文字と判定し、第二の基準以上であれば除去候補とすることを特徴とする画像処理装置。When the color of the character has a color, if the difference between the hue of the pixel and the hue of the character is less than the second reference, the pixel is determined to be a character, and if the difference is greater than or equal to the second reference, it is determined as a removal candidate. An image processing apparatus.
文字候補や除去候補の画素の周囲に、文字の画素や文字候補の画素が存在する場合には信頼度を高くし、If there are character pixels or character candidate pixels around the candidate and removal candidate pixels, increase the reliability.
文字の画素には入力された画素の輝度値を設定し、Set the brightness value of the input pixel to the character pixel,
背景の画素には最大輝度値を設定し、Set the maximum brightness value for the background pixels,
文字候補や除去候補の画素に対しては、信頼度が第三の基準未満であれば背景と判断して最大輝度を設定し、信頼度が第三の基準以上で第四の基準未満であれば入力画素の輝度を大きくして設定し、信頼度が第四の基準以上であれば入力画素の輝度値を設定し、For character candidates and removal candidate pixels, if the reliability is less than the third standard, the background is determined to be the maximum brightness, and the reliability is greater than the third standard and less than the fourth standard. If the reliability is higher than the fourth standard, set the luminance value of the input pixel.
上記設定された画素の輝度値を用いて濃淡画像を生成するGenerate a grayscale image using the brightness value of the set pixel
ことを特徴とする画像処理装置。An image processing apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093533A JP5337563B2 (en) | 2009-04-08 | 2009-04-08 | Form recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093533A JP5337563B2 (en) | 2009-04-08 | 2009-04-08 | Form recognition method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010244372A JP2010244372A (en) | 2010-10-28 |
JP5337563B2 true JP5337563B2 (en) | 2013-11-06 |
Family
ID=43097314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009093533A Active JP5337563B2 (en) | 2009-04-08 | 2009-04-08 | Form recognition method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5337563B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5830338B2 (en) * | 2011-10-07 | 2015-12-09 | 株式会社日立情報通信エンジニアリング | Form recognition method and form recognition apparatus |
JP5887242B2 (en) * | 2012-09-28 | 2016-03-16 | 日立オムロンターミナルソリューションズ株式会社 | Image processing apparatus, image processing method, and program |
US8837867B2 (en) * | 2012-12-07 | 2014-09-16 | Realnetworks, Inc. | Method and system to detect and select best photographs |
JP6348791B2 (en) * | 2014-07-16 | 2018-06-27 | クラリオン株式会社 | Display control apparatus and display control method |
JP6791593B2 (en) * | 2017-09-04 | 2020-11-25 | 富士通フロンテック株式会社 | Recognition device, recognition program, and recognition method |
JP7059799B2 (en) | 2018-05-23 | 2022-04-26 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment and programs |
JP7049292B2 (en) * | 2019-06-18 | 2022-04-06 | キヤノン株式会社 | Image processing equipment, image processing methods and programs |
JP7337572B2 (en) * | 2019-07-08 | 2023-09-04 | グローリー株式会社 | Serial number reading device, paper sheet processing device, and serial number reading method |
CN112784850A (en) * | 2019-11-04 | 2021-05-11 | 珠海金山办公软件有限公司 | Method and device for removing penetrating print of notes |
CN117095820B (en) * | 2023-10-18 | 2024-01-23 | 查理高特(青岛)健康科技有限公司 | Risk early warning method and equipment for family gout |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3115075B2 (en) * | 1991-03-30 | 2000-12-04 | 株式会社東芝 | Reader |
JP3955467B2 (en) * | 2001-12-27 | 2007-08-08 | 株式会社日立製作所 | Image processing program and image processing apparatus |
JP4603807B2 (en) * | 2004-03-10 | 2010-12-22 | 富士通株式会社 | Character recognition device, character recognition method, medium processing method, character recognition program, and computer-readable recording medium on which character recognition program is recorded |
JP4857173B2 (en) * | 2007-04-25 | 2012-01-18 | 日立オムロンターミナルソリューションズ株式会社 | Image processing apparatus, image processing method, and image processing program |
-
2009
- 2009-04-08 JP JP2009093533A patent/JP5337563B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010244372A (en) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5337563B2 (en) | Form recognition method and apparatus | |
US10455117B2 (en) | Image processing apparatus, method, and storage medium | |
US6865290B2 (en) | Method and apparatus for recognizing document image by use of color information | |
KR100339691B1 (en) | Apparatus for recognizing code and method therefor | |
US7324692B2 (en) | Character recognition method | |
JP5830338B2 (en) | Form recognition method and form recognition apparatus | |
US9171224B2 (en) | Method of improving contrast for text extraction and recognition applications | |
JP5616308B2 (en) | Document modification detection method by character comparison using character shape feature | |
US10699110B2 (en) | Image processing apparatus, image processing method, and non-transitory recording medium storing program for causing computer to execute image processing method | |
US20160292503A1 (en) | Computer-readable storage medium storing image processing program, image processing device, and image processing method | |
JP4764903B2 (en) | Method and image processing apparatus for detecting line structure from text map | |
US6269186B1 (en) | Image processing apparatus and method | |
Fernández-Caballero et al. | Display text segmentation after learning best-fitted OCR binarization parameters | |
JP5929282B2 (en) | Image processing apparatus and image processing program | |
JP5887242B2 (en) | Image processing apparatus, image processing method, and program | |
CN117011855A (en) | Character string image cutting and identifying method, system and readable storage medium | |
JP2010186246A (en) | Image processing apparatus, method, and program | |
RU2571510C2 (en) | Method and apparatus using image magnification to suppress visible defects on image | |
US11948342B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium for determining extraction target pixel | |
JP4943501B2 (en) | Image processing apparatus and method, and optical character identification apparatus and method | |
JP4974367B2 (en) | Region dividing method and apparatus, and program | |
JP2001291056A (en) | Document picture recognizing device and recording medium | |
JP2023132586A (en) | Image processing device, image processing method, and program | |
JP4650958B2 (en) | Image processing apparatus, method, and program | |
JP2002158874A (en) | Image processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130416 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5337563 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |