JP2003244437A - Image processor - Google Patents

Image processor

Info

Publication number
JP2003244437A
JP2003244437A JP2002035911A JP2002035911A JP2003244437A JP 2003244437 A JP2003244437 A JP 2003244437A JP 2002035911 A JP2002035911 A JP 2002035911A JP 2002035911 A JP2002035911 A JP 2002035911A JP 2003244437 A JP2003244437 A JP 2003244437A
Authority
JP
Japan
Prior art keywords
density
image
line
background
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002035911A
Other languages
Japanese (ja)
Other versions
JP2003244437A5 (en
Inventor
Akira Muragata
明 村形
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002035911A priority Critical patent/JP2003244437A/en
Publication of JP2003244437A publication Critical patent/JP2003244437A/en
Publication of JP2003244437A5 publication Critical patent/JP2003244437A5/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide an image processor for eliminating the base texture for the unit not only of an entire document image or specific area but also of a line and for easily reading character information by an OCR even from the document image having the high gray level value of a background. <P>SOLUTION: In a system having a scanner part 101 for digitizing and capturing character information written on the surface of paper, an image signal processing part 103 for performing an image processing operation and an image storage part 102 for storing image information and the processing result, the system has a means 203 for finding a gray level histogram in a subscanning direction, a means 204 for finding the gray level histogram of maximum appearance frequency for each line in the subscanning direction and a means 205 for converting the gray level value of the image on the basis of the gray level histogram information of the maximum appearance frequency for each line in the subscanning direction, the gray level value of the background is efficiently specified and only the gray level value of that background is eliminated. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、複写機、ファクシ
ミリ、プリンタ等の画像処理装置に関し、特に文書画像
の地肌除去を行う画像処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an image processing apparatus such as a copying machine, a facsimile, a printer, etc., and more particularly to an image processing apparatus for removing a background of a document image.

【0002】[0002]

【従来の技術】従来より、文書のディジタル化が進み、
紙面に書かれた文字情報を画像情報として保存すること
が多くなっているが、ビットマップ等の画像情報では容
量が大きく、さらに文書の編集が困難であることから、
文字コードに変換することが望まれてきた。そこで、文
字画像を読み取って文字コードに変換するOCR(Opti
cal Character Reader:光学式読取装置)が利用され
る。この際、正しくOCRに文字コードを変換させるに
は、OCR内で行われる二値化処理で、文字領域と背景
領域を正しく分離することが必要となる。
2. Description of the Related Art Conventionally, documents have been digitized,
Text information written on paper is often saved as image information, but since image information such as bitmaps has a large capacity and document editing is difficult,
It has been desired to convert it to a character code. Therefore, the OCR (Opti that reads the character image and converts it to the character code
cal Character Reader: optical reader) is used. At this time, in order to correctly convert the character code into the OCR, it is necessary to correctly separate the character area and the background area by the binarization processing performed in the OCR.

【0003】しかし、特に新聞などの全体的に背景の濃
度値が高い画像は、このOCR内で行われる二値化処理
で、正しく文字と背景画素に分離できないことがあり、
その結果、OCR認識率は低下する。そこで、OCRに
かける前に、前段の処理として、背景の濃度値が特に高
い画像に対してはOCR認識率を向上させるために、地
肌除去を行う必要がある。
However, an image having a high background density value, such as a newspaper, may not be correctly separated into a character and a background pixel by the binarization process performed in the OCR.
As a result, the OCR recognition rate decreases. Therefore, before applying the OCR, it is necessary to perform background removal as a first-stage process in order to improve the OCR recognition rate for an image in which the background density value is particularly high.

【0004】この点、地肌除去を行う従来装置として
は、特願平6−48571号の画像処理における地肌除
去処理方法及び装置や、特願平3−7573号の画像記
憶装置の地肌除去方式があり、さらに特願平2−145
100号の画像処理装置などが知られている。これらの
従来装置は、縦軸:頻度、横軸:濃度値の、濃度ヒスト
グラムを特徴量として用い、地肌除去を行っている。
In this respect, as a conventional apparatus for removing the background, the background removal processing method and apparatus in the image processing of Japanese Patent Application No. 6-48571 and the background removal method of the image storage device of Japanese Patent Application No. 3-7573 are available. Yes, and Japanese Patent Application No. 2-145
An image processing device of No. 100 and the like are known. These conventional apparatuses use the density histogram of the vertical axis: frequency and the horizontal axis: density value as a feature amount to remove the background.

【0005】次に、一般的な文書画像の地肌除去処理装
置の構成を図9に示す。紙面に書かれた文字情報をディ
ジタル化して読み取るスキャナ部901、スキャナ部で
取り込んだ画像情報や画像処理後の画像情報を保存する
画像記憶部902、入力された多値のディジタル画像を
二値化する画像信号処理部903で構成する。
Next, FIG. 9 shows the configuration of a general document image background removal processing apparatus. A scanner unit 901 that digitizes and reads character information written on paper, an image storage unit 902 that stores image information captured by the scanner unit and image information after image processing, and binarizes an input multivalued digital image. The image signal processing unit 903 is configured to operate.

【0006】なお、図9の矢印は前記画像情報の流れを
示している。まず、スキャナ部901で読み込んだ多値
画像を、いったん画像記憶部902に保存する。次に、
その取り込んだ多値画像に対し、画像信号処理部903
で背景の濃度値を検出し地肌除去処理を行う。この地肌
除去処理の結果、画像を再び画像記憶部902に保存す
る。さらに、画像記憶部902に地肌除去処理後の画像
を保存した後、OCR904は、画像信号処理部903
で処理された画像を、入力として文字認識処理を行う。
この際、OCR904内で単純閾値で二値化するため、
文字領域の濃度値をほとんど変えず背景領域の濃度値を
低く地肌を除去した画像を、文字認識の対象画像として
OCR904に送る。
Arrows in FIG. 9 indicate the flow of the image information. First, the multi-valued image read by the scanner unit 901 is temporarily stored in the image storage unit 902. next,
An image signal processing unit 903 is applied to the captured multivalued image.
The background density value is detected by and the background removal processing is performed. As a result of this background removal process, the image is stored again in the image storage unit 902. Further, after storing the image after the background removal processing in the image storage unit 902, the OCR 904 sets the image signal processing unit 903.
Character recognition processing is performed by using the image processed in step 1 as an input.
At this time, since binarization is performed with a simple threshold value in the OCR 904,
An image in which the background area has a low density value while the density value of the character area is hardly changed and the background is removed is sent to the OCR 904 as a target image for character recognition.

【0007】[0007]

【発明が解決しようとする課題】しかし、このような従
来装置によれば、画像全体の情報を一度走査させること
により、文書画像全体や特定領域だけの地肌除を行うこ
とはできるが、ライン単位で地肌除を行うことができな
いという問題がある。
However, according to such a conventional apparatus, it is possible to scan the information of the entire image once to remove the background of the entire document image or only a specific area, but in line units. There is a problem that it is impossible to remove the background.

【0008】このために、地肌濃度が一様でない場合に
は、局所的な情報を用いていないので全体の濃度情報に
左右されてしまい、局所的な領域でその領域にあった地
肌除去を行うことが困難である。
For this reason, when the background density is not uniform, the local information is not used, so that it depends on the entire density information, and the background removal in the local area is performed. Is difficult.

【0009】また、背景の濃度値が高い文書画像から文
字情報を読み取る際には、文字領域と背景領域の濃度値
の差が低くなり、画像がはっきりしていないので読み取
りにくいという問題がある。
Further, when reading character information from a document image having a high background density value, the difference between the density values of the character area and the background area becomes small, and there is a problem that the image is not clear and it is difficult to read.

【0010】そこで、本発明は、縦軸:副走査1ライン
単位の最大頻度の濃度値、横軸:副走査のライン数のヒ
ストグラムを、地肌除去の特微量とし、副走査1ライン
ごとに濃度変換方式を用いて、特微量にあわせて地肌除
去を行う画像処理装置を提供することを目的とする。
Therefore, according to the present invention, the vertical axis is the density value of the maximum frequency in the unit of one line in the sub-scanning, and the horizontal axis is the histogram of the number of lines in the sub-scanning as the trace amount of the background removal, and the density is determined for each sub-scanning line An object of the present invention is to provide an image processing device that removes the background in accordance with an extremely small amount by using a conversion method.

【0011】[0011]

【課題を解決するための手段】上記の目的を解決するた
めに、請求項1記載の発明は、紙面に書かれた文字情報
をディジタル化して取り込むスキャナ部と、画像処理演
算を行う画像信号処理部と、画像情報と処理結果を格納
する画像記憶部とを有するシステムにおいて、副走査方
向に濃度ヒストグラムを求める手段と、副走査方向に1
ラインごとの出現頻度が最大の濃度ヒストグラムを求め
る手段と、副走査方向に1ラインごとの出現頻度が最大
の濃度ヒストグラム情報をもとに画像の濃度値を変換す
る手段とを有し、効率的に背景の濃度値を特定し、その
背景の濃度値だけを除去することを特徴とする。
In order to solve the above-mentioned problems, the invention as claimed in claim 1 is a scanner unit for digitizing and capturing character information written on a paper, and image signal processing for performing image processing operation. In a sub-scanning direction, and a unit for obtaining a density histogram in the sub-scanning direction.
Efficiently having means for obtaining a density histogram with the maximum appearance frequency for each line and means for converting the density value of the image based on the density histogram information with the maximum appearance frequency for each line in the sub-scanning direction. The feature is that the density value of the background is specified and only the density value of the background is removed.

【0012】また、請求項2記載の発明は、請求項1記
載の画像処理装置において、副走査方向に1ラインごと
の出現頻度が最大の濃度ヒストグラムを求める手段によ
って得られる、1ラインごとの出現頻度が最大の濃度ヒ
ストグラムに対し平滑化を行う手段をさらに有し、画像
全体に対し地肌除去を行った処理後の画像に対し、背景
の濃度値が入力画像の濃度値を反映し、かつ均一になる
ようにすることを特徴とする。
According to a second aspect of the invention, in the image processing apparatus according to the first aspect, the appearance for each line obtained by the means for obtaining the density histogram having the maximum appearance frequency for each line in the sub-scanning direction. The density histogram of the maximum frequency is further smoothed, and the background density value reflects the density value of the input image and is uniform in the processed image after the background removal of the entire image. It is characterized in that

【0013】さらに、請求項3記載の発明は、請求項1
または2に記載の画像処理装置において、副走査方向に
1ラインごとの出現頻度が最大の濃度ヒストグラムを求
める手段の前に、濃度値の正規化を行う手段をさらに有
し、全体的に濃度値が高い画像は特に中間の濃度値の画
素を高くし、その後の処理に対し、背景の濃度値の特定
を容易にして、より効率的に地肌除去することを特徴と
する。
Further, the invention according to claim 3 is the same as claim 1
Alternatively, the image processing apparatus according to the second aspect further includes a unit for normalizing the density value before the unit for obtaining the density histogram having the maximum appearance frequency for each line in the sub-scanning direction. An image having a high value is characterized in that the pixels having an intermediate density value are made high, the background density value is easily identified for the subsequent processing, and the background is removed more efficiently.

【0014】他方、請求項4記載の発明は、請求項1か
ら3のいずれか1項に記載の画像処理装置において、副
走査方向に1ラインごとの出現頻度が最大の濃度ヒスト
グラム情報をもとに画像の濃度値を変換する手段に対
し、濃度の情報を用いて変換する手段を換える手段をさ
らに有し、出力画像は文字画素に対しては濃度値の変化
が少なく、背景画素に対し地肌除去の影響が高くなるこ
とを特徴とする。
On the other hand, according to the invention of claim 4, in the image processing apparatus according to any one of claims 1 to 3, the density histogram information having the maximum appearance frequency for each line in the sub-scanning direction is used. In addition to the means for converting the density value of the image, there is further provided means for changing the means for converting using the density information, and the output image has little change in the density value for the character pixels and has a background for the background pixels. It is characterized in that the effect of removal is high.

【0015】[0015]

【発明の実施の形態】次に、添付書面を参照して、本発
明による画像処理装置の実施形態を、詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The embodiments of the image processing apparatus according to the present invention will now be described in detail with reference to the attached document.

【0016】[実施例1]この実施例は、請求項1に関
する。図1に、図9の画像信号処理部903で行う請求
項1の地肌除去処理の流れを示す。 図1の処理順に、入力である多値文書画像101に対
し、濃度ヒストグラムの作成103を行い、濃度ヒスト
グラム情報をもとに1ラインごとの出現頻度が最大の濃
度ヒストグラムの作成104を行い、ラインごとのヒス
トグラム情報をもとに、そのラインに分布する画素に対
し濃度変換式による地肌除去105を行い、地肌除去さ
れた文書画像102を画像記憶部902に出力する。
[Embodiment 1] This embodiment relates to claim 1. FIG. 1 shows the flow of the background removal processing of claim 1 performed by the image signal processing unit 903 of FIG. In the processing order of FIG. 1, a density histogram is created 103 for the input multi-valued document image 101, and a density histogram with the maximum appearance frequency for each line is created 104 based on the density histogram information. Based on the histogram information for each line, the background removal 105 is performed on the pixels distributed in that line by the density conversion formula, and the document image 102 with the background removed is output to the image storage unit 902.

【0017】まず、前記多値文書画像101に対し、副
走査方向に1ライン分濃度値を探索し、濃度ヒストグラ
ムの作成103処理を行って、1ライン分の濃度ヒスト
グラムを作成する。 これにより、副走査方向の1ライン
の濃度分布情報として保存しておく。 なお、ヒストグラムは、その副走査方向の出現頻度が最
大の濃度値を探索する際に用いる。
First, with respect to the multi-valued document image 101, a density value for one line is searched in the sub-scanning direction, and a density histogram creation 103 process is performed to create a density histogram for one line. As a result, the density distribution information for one line in the sub-scanning direction is stored. The histogram is used when searching for a density value having the highest appearance frequency in the sub-scanning direction.

【0018】次に、濃度ヒストグラムの情報をもとに、
副走査1ラインごとの出現頻度が最大の濃度ヒストグラ
ムの作成104を行う。 この際、濃度ヒストグラムの作
成103で作成したヒストグラムの情報をもとに、全濃
度値の頻度を探索し、最大頻度の濃度値情報を、その副
走査1ラインの出現頻度が最大の濃度ヒストグラムの値
として保存する。 作成したら、次の副走査方向に再び濃度ヒストグラムの
作成103処理を行い、1ラインごとの出現頻度が最大
の濃度ヒストグラムの作成104を行って、全副走査方
向の1ラインごとの出現頻度が最大の濃度ヒストグラム
を作成する。
Next, based on the information of the density histogram,
A density histogram having the maximum appearance frequency for each sub-scanning line is created 104. At this time, the frequency of all density values is searched based on the information of the histogram created in the density histogram creation 103, and the density value information of the maximum frequency is searched for in the density histogram in which the appearance frequency of one sub-scanning line is the maximum. Save as a value. After the creation, the density histogram creation 103 process is performed again in the next sub-scanning direction, and the density histogram 104 having the maximum appearance frequency for each line is created 104 to maximize the appearance frequency for each line in all sub-scanning directions. Create a density histogram.

【0019】全副走査方向に対し、1ラインごとの出現
頻度が最大の濃度ヒストグラムが作成したら、濃度変換
式による地肌除去105処理を行い、地肌除去する。 この処理の時点で、全副走査方向に画像を探索している
ので、画像全体での最小濃度値が探索されており、この
値と、入力画像の注目画素の濃度値を変換式に用いて変
換する。1副走査方向に属する画素に対し、そのライン
の出現頻度が最大の濃度値を探索して求め、この値と、
画像全体での最小濃度値とを変換式に用いて、濃度変換
を行う。 この処理を、全副走査方向の1ラインごとの出現頻度が
最大の濃度ヒストグラムを探索して、画像全体に対し濃
度値変換を行い、地肌除去する。 文字領域の画素は、処理前から濃度値が高いので、あま
り濃度値の変化がないが、背景領域の画素は変換式によ
って濃度値が低くなる。
When the density histogram having the maximum appearance frequency for each line is created in all sub-scanning directions, the background removal 105 process is performed by the density conversion formula to remove the background. Since the image is searched in all sub-scanning directions at the time of this processing, the minimum density value in the entire image is searched, and this value and the density value of the pixel of interest of the input image are used in the conversion formula to convert. To do. For pixels belonging to one sub-scanning direction, a density value having the maximum appearance frequency of the line is searched for and obtained, and
The minimum density value of the entire image is used in the conversion formula to perform density conversion. In this process, the density histogram with the highest appearance frequency for each line in all sub-scanning directions is searched, the density value is converted for the entire image, and the background is removed. Since the density value of the pixel in the character area is high before the processing, the density value does not change so much, but the density value of the pixel in the background area decreases due to the conversion formula.

【0020】図2に、地肌除去を行う前の文書画像と、
地肌除去を行った画像の例を示す。 図2は、スキャナで読み取った新聞の1部を切り抜いた
画像で、図2の(a)では、新聞はもともと背景の濃度
値が高い。それに対し、図2の(b)では、効果的に背
景の濃度値が低く変換され、文字領域はあまり変化して
いない。
FIG. 2 shows a document image before background removal,
The example of the image which performed the background removal is shown. FIG. 2 is an image obtained by cutting out a part of a newspaper read by a scanner. In FIG. 2A, the newspaper originally has a high density value in the background. On the other hand, in FIG. 2B, the background density value is effectively converted to a low value, and the character area does not change much.

【0021】図3に、図2(a)、(b)の画像の濃度
ヒストグラムを示す。 この両方のヒストグラムを見ても明らかであるが、
(a)で中間の濃度値100辺りに背景として多く分布
している画素が、(b)では濃度値25辺りにシフトし
ている。 また、(a)の濃度値150以上の画素に対しては、
(b)ではほとんど濃度値の変化が見られない。
FIG. 3 shows a density histogram of the images of FIGS. 2 (a) and 2 (b). As you can see from both histograms,
In (a), the pixels that are mostly distributed around the middle density value 100 as a background are shifted to around 25 density values in (b). In addition, for pixels with a density value of 150 or more in (a),
In (b), there is almost no change in the density value.

【0022】[実施例2]この実施例は、請求項2に関
する。図4に、図9の画像信号処理部903で行う、請
求項2の地肌除去処理の流れを示す。 図4の処理順に、入力である多値文書画像101に対
し、濃度ヒストグラムの作成103を行い、その濃度ヒ
ストグラム情報をもとに、1ラインごとの出現頻度が最
大の濃度ヒストグラムの作成104を行う。ここで、1
ラインごとの出現頻度が最大の濃度ヒストグラムの作成
104で作成したヒストグラムを、1ラインごとの出現
頻度が最大の濃度ヒストグラムの平滑化201で平滑化
する。平滑化されたラインごとのヒストグラム情報をも
とに、そのラインに分布する画素に対し、濃度変換式に
よる地肌除去105を行い、地肌が除去された文書画像
102を画像記憶部902に出力する。
[Embodiment 2] This embodiment relates to claim 2. FIG. 4 shows the flow of the background removal processing of claim 2 performed by the image signal processing unit 903 of FIG. In the processing order of FIG. 4, the density histogram is created 103 for the input multi-valued document image 101, and the density histogram having the maximum appearance frequency for each line is created 104 based on the density histogram information. . Where 1
The histogram created in the creation 104 of the density histogram having the maximum appearance frequency for each line is smoothed by the smoothing 201 of the density histogram having the maximum appearance frequency for each line. Based on the smoothed histogram information for each line, the background distribution removal 105 is performed on the pixels distributed in that line by the density conversion formula, and the document image 102 from which the background is removed is output to the image storage unit 902.

【0023】まず、多値文書画像101に対し、副走査
方向に、1ライン分の濃度値を探索し、濃度ヒストグラ
ムの作成103処理を行って、1 ライン分の濃度ヒスト
グラムを作成する。 これにより、副走査方向の1ライン
の濃度分布情報として保存しておく。 このヒストグラム
は、その副走査方向の出現頻度が最大の濃度値を探索す
る際に用いる。
First, for the multi-valued document image 101, a density value for one line is searched in the sub-scanning direction, and a density histogram creation 103 process is performed to create a density histogram for one line. As a result, the density distribution information for one line in the sub-scanning direction is stored. This histogram is used when searching for the density value having the highest appearance frequency in the sub-scanning direction.

【0024】次に、その濃度ヒストグラムの情報をもと
に、1ラインごとの出現頻度が最大の濃度ヒストグラム
の作成104を行う。 濃度ヒストグラムの作成103で
作成したヒストグラムの情報をもとに、全濃度値の頻度
を探索し、最大頻度の濃度値情報を、その副走査1ライ
ンの出現頻度が最大の濃度ヒストグラムの値として保存
する。 作成したら、次の副走査方向に、再び濃度ヒストグラム
の作成103処理を行い、1ラインごとの出現頻度が最
大の濃度ヒストグラムの作成104を行って、全副走査
方向の、1ラインごとの出現頻度が最大の濃度ヒストグ
ラムの作成をする。
Next, based on the information of the density histogram, the density histogram 104 having the maximum appearance frequency for each line is created 104. Based on the information of the histogram created in 103 of creating the density histogram, the frequency of all density values is searched, and the density value information of the maximum frequency is stored as the value of the density histogram in which the appearance frequency of one sub-scanning line is the maximum. To do. After the creation, the density histogram creation 103 process is performed again in the next sub-scanning direction, and the density histogram creation 104 having the maximum appearance frequency for each line is performed to determine the appearance frequency for each line in all sub-scanning directions. Create the maximum density histogram.

【0025】全副走査方向に、1ラインごとの出現頻度
が最大の濃度ヒストグラムの作成104を行って、1ラ
インごとの出現頻度が最大の濃度ヒストグラムを作成し
たら、次に、1ラインごとの出現頻度が最大の濃度ヒス
トグラムの平滑化201処理を行う。1ラインごとの出
現頻度が最大の濃度ヒストグラムは、1次元の副走査の
同じ濃度の画素の最大頻度を変数とした関数なので、こ
の1次元の関数に対し1次微分をとって平滑化を行う。
The density histogram having the maximum appearance frequency for each line is created 104 in all sub-scanning directions to create the density histogram having the maximum appearance frequency for each line, and then the appearance frequency for each line is generated. Performs the smoothing 201 process of the maximum density histogram. Since the density histogram with the maximum appearance frequency for each line is a function that uses the maximum frequency of pixels of the same density in one-dimensional sub-scan as a variable, smoothing is performed by taking the first-order derivative of this one-dimensional function. .

【0026】図5に示したように、注目している頻度量
aに対し、近傍の平均値を取って平滑化する。 図5のよ
うに、a近傍で平滑化する場合、前後の頻度値がそれぞ
れbとcであるならば、注目している頻度量aを(b+
c)/2と平均をとった値に、注目している頻度量aを
置き換える、出現頻度の最大濃度値の平滑化処理を行
う。
As shown in FIG. 5, the frequency value a of interest is smoothed by taking an average value in the vicinity. As shown in FIG. 5, in the case of smoothing in the vicinity of a, if the preceding and following frequency values are b and c, respectively, the frequency amount of interest a is (b +
c) The average value of 2 is replaced with the frequency amount a of interest, and the smoothing process of the maximum density value of the appearance frequency is performed.

【0027】全副走査方向に対し、1ラインごとの出現
頻度が最大の濃度ヒストグラムを作成したら、濃度変換
式による地肌除去105処理を行い、地肌除去する。 この処理の時点で、全副走査方向に、画像を探索してい
るので、画像全体での最小濃度値が探索されており、こ
の値と、入力画像の注目画素の濃度値を変換式に用いて
変換する。さらに、1副走査方向に属する画素に対し、
そのラインの出現頻度が最大の濃度値を探索して求め、
この値と、画像全体での最小濃度値とを変換式に用い、
濃度変換を行う。 この処理を、全副走査方向の1ラインごとの出現頻度が
最大の濃度ヒストグラムを探索し、画像全体に対して濃
度値変換を行い、地肌除去する。 文字領域の画素は、処理前から濃度値が低いのであまり
濃度値の変化がないが、背景領域の画素は、変換式によ
って濃度値が低くなる。
After the density histogram having the maximum appearance frequency for each line is created in all sub-scanning directions, the background removal 105 process is performed by the density conversion formula to remove the background. Since the image is searched in all sub-scanning directions at the time of this processing, the minimum density value in the entire image is searched, and this value and the density value of the pixel of interest of the input image are used in the conversion formula. Convert. Furthermore, for pixels belonging to one sub-scanning direction,
Find the density value with the highest appearance frequency of the line,
Using this value and the minimum density value of the entire image in the conversion formula,
Perform density conversion. In this process, a density histogram with the highest appearance frequency for each line in all sub-scanning directions is searched, density value conversion is performed on the entire image, and the background is removed. Since the density value of the pixel in the character area is low before the processing, the density value does not change much, but the density value of the pixel in the background area becomes low due to the conversion formula.

【0028】図6に平滑化処理無しと、平滑化処理有り
の結果画像を示す。 平滑化処理無し(a)では、1ラインごとに、濃度変換
式が最大頻度の濃度値によって大きく異なる場合がある
ので、近傍でも変換式の値が大きくかわり、画像の中央
のように不自然なエッジが生じる場合がある。 それに対し、平滑化処理有り(b)では、ライン近傍の
平均値を取っているので、そのラインだけ大きく違う濃
度変換式になることがなく、副走査方向に不自然なエッ
ジが生じにくい。
FIG. 6 shows a result image without smoothing and with smoothing. Without the smoothing process (a), the density conversion formula may vary greatly from line to line depending on the density value of the maximum frequency, so the value of the conversion formula may change greatly even in the vicinity, and the image may look unnatural at the center of the image. Edges may occur. On the other hand, in the smoothing processing (b), since the average value in the vicinity of the line is taken, the density conversion formulas for the lines are not significantly different, and an unnatural edge is less likely to occur in the sub-scanning direction.

【0029】[実施例3]この実施例は、請求項3に関
する。図7に、図9の画像信号処理部903で行う、請
求項3の地肌除去処理の流れを示す。 図7の処理順に、入力である多値文書画像101に対
し、濃度値の正規化701を行い、入力画像の最小濃度
値を0に正規化した後に、濃度ヒストグラムの作成10
3を行い、その濃度ヒストグラム情報をもとに、1ライ
ンごとの出現頻度が最大の濃度ヒストグラムの作成10
4を行う。1ラインごとのヒストグラム情報をもとに、
そのラインに分布する画素に対し、濃度変換式による地
肌除去105を行い、地肌が除去された文書画像102
を画像記憶部902に出力する。
[Embodiment 3] This embodiment relates to claim 3. FIG. 7 shows the flow of the background removal processing of claim 3 performed by the image signal processing unit 903 of FIG. In the processing order of FIG. 7, the density value normalization 701 is performed on the input multi-valued document image 101, the minimum density value of the input image is normalized to 0, and then the density histogram is created.
3 is performed, and based on the density histogram information, a density histogram having the highest appearance frequency for each line is created 10
Do 4. Based on the histogram information for each line,
For the pixels distributed on that line, the background removal 105 is performed by the density conversion formula, and the background is removed from the document image 102.
Is output to the image storage unit 902.

【0030】入力画像は、地肌の背景の濃度値が高く、
また、文字領域の濃度値もさらに低いので、濃度ヒスト
グラムは、背景領域の濃度値と文字領域の濃度値の差が
少なく、全体的な幅が狭い。 この濃度の範囲が狭いヒストグラムに対し、濃度値の正
規化701を行う。 なお、正規化式は、 正規化後の濃度値={入力画像の最大階調値−(正規化
前の濃度値×入力画像の最大階調値)/入力画像の最大
濃度値} で正規化を行い、文字領域と背景領域の濃度値の差を広
げる。
The input image has a high background density value of the background,
In addition, since the density value of the character area is even lower, the density histogram has a small difference between the density value of the background area and the density value of the character area, and the overall width is narrow. Normalization 701 of the density value is performed on the histogram in which the density range is narrow. The normalization formula is as follows: Normalized density value = {maximum gradation value of input image− (density value before normalization × maximum gradation value of input image) / maximum density value of input image} To increase the difference between the density values of the character area and the background area.

【0031】この後は、請求項1で行う濃度のヒストグ
ラムの作成103、1ラインごとの出現頻度が最大の濃
度ヒストグラムの作成104、濃度変換式による地肌除
去105を行って、同様な、地肌除去処理をする。
After that, the density histogram creation 103 according to the first aspect, the density histogram 104 having the highest appearance frequency for each line, and the background removal 105 by the density conversion formula are performed to perform the same background removal. To process.

【0032】[実施例4]この実施例は、請求項4に関
する。図8に、図9の画像信号処理部903で行う、請
求項4の地肌除去処理の流れを示す。 図8の処理順に、入力である多値文書画像101に対
し、濃度ヒストグラムの作成103を行い、その濃度ヒ
ストグラム情報をもとに、1ラインごとの出現頻度が最
大の濃度ヒストグラムの作成104を行い、このライン
ごとのヒストグラム情報をもとに、そのラインに分布す
る画素に対し、注目する画素の濃度値によって濃度変換
式をaまたはbと換えて、地肌除去を行い、地肌が除去
された文書画像102を画像記憶部902に出力する。
[Embodiment 4] This embodiment relates to claim 4. FIG. 8 shows the flow of the background removal processing of claim 4 performed by the image signal processing unit 903 of FIG. In the processing order of FIG. 8, a density histogram is created 103 for the input multi-valued document image 101, and based on the density histogram information, a density histogram 104 having the maximum appearance frequency for each line is created 104. , Based on the histogram information for each line, the background conversion is performed by replacing the density conversion formula with a or b according to the density value of the pixel of interest for the pixels distributed on that line, and the document with the background removed. The image 102 is output to the image storage unit 902.

【0033】まず、多値文書画像101に対し、副走査
方向に1ライン分濃度値を探索し、濃度ヒストグラムの
作成103処理を行って、1ライン分の濃度ヒストグラ
ムを作成する。 これにより、副走査方向の1ラインの濃
度分布情報として、保存しておく。 なお、このヒストグラムは、その副走査方向の出現頻度
が最大の濃度値を探索する際に用いる。
First, the multi-valued document image 101 is searched for a density value for one line in the sub-scanning direction, and the density histogram creation 103 process is performed to create a density histogram for one line. As a result, the density distribution information for one line in the sub-scanning direction is saved. It should be noted that this histogram is used when searching for a density value having the highest appearance frequency in the sub-scanning direction.

【0034】次に、その濃度ヒストグラムの情報をもと
に、1ラインごとの出現頻度が最大の濃度ヒストグラム
の作成104を行う。 濃度ヒストグラムの作成103で
作成したヒストグラムの情報をもとに、全濃度値の頻度
を探索して、最大頻度の濃度値情報を、その副走査1ラ
インの出現頻度が最大の濃度ヒストグラムの値として保
存する。 作成したら、次の副走査方向に、再び、濃度ヒストグラ
ムの作成103処理を行い、1ラインごとの出現頻度が
最大の濃度ヒストグラムの作成104を行って、全副走
査方向の、1ラインごとの出現頻度が最大の濃度ヒスト
グラムを作成する。
Next, based on the information of the density histogram, the density histogram 104 having the maximum appearance frequency for each line is created 104. Based on the information of the histogram created in 103 of creating the density histogram, the frequency of all the density values is searched, and the density value information of the maximum frequency is used as the value of the density histogram in which the appearance frequency of one sub-scanning line is the maximum. save. Once created, the density histogram creation 103 processing is performed again in the next sub-scanning direction, and the density histogram creation 104 having the maximum appearance frequency for each line is created 104, and the appearance frequency for each line in all sub-scanning directions is performed. Creates the maximum density histogram.

【0035】全副走査方向の、1ラインごとの出現頻度
が最大の濃度ヒストグラムが作成できたら、注目してい
る画素の濃度値ごとに濃度変換の式を換え、濃度値変換
式による地肌除去801、802処理を行い、地肌を除
去する。 文書画像は、背景領域の方が多く分布するので、1ライ
ンごとの出現頻度が最大の濃度値をそのラインの背景の
濃度値と仮定し、この値を閾値として、高低関係で濃度
値が高い場合には、文字領域用の濃度値変換式a、他
方、濃度値が低い場合には、背景領域用の濃度値変換式
b、に分けて処理を行っていく。
When a density histogram having the maximum appearance frequency for each line in all sub-scanning directions can be created, the density conversion formula is changed for each density value of the pixel of interest, and the background removal 801 by the density value conversion formula, 802 processing is performed to remove the background. Since the document image is more distributed in the background area, the density value with the highest appearance frequency for each line is assumed to be the background density value of that line, and this value is used as a threshold value, and the density value is high due to the height relationship. In this case, the density value conversion equation a for the character area is processed separately, and when the density value is low, the density value conversion equation b for the background area is processed separately.

【0036】この処理の時点で、全副走査方向に画像を
探索しているので、画像全体での最小濃度値が探索され
ており、この値と、入力画像の注目画素の濃度値とを変
換式に用いて、変換する。 1副走査方向に属する画素に
対し、そのラインの出現頻度が最大の濃度値を探索して
求め、画像全体での最小濃度値を変換式に用い、濃度変
換を行う。 この処理を、全副走査方向の1ラインごとの出現頻度が
最大の濃度ヒストグラムを探索して画像全体に対し濃度
値変換を行い、地肌除去する。
Since the image is searched in all sub-scanning directions at the time of this processing, the minimum density value of the entire image is searched, and this value and the density value of the target pixel of the input image are converted into a conversion formula. Used to convert. For pixels belonging to one sub-scanning direction, the density value with the highest appearance frequency of the line is searched for and obtained, and the minimum density value in the entire image is used in the conversion formula to perform density conversion. In this process, the density histogram with the highest appearance frequency for each line in all sub-scanning directions is searched, the density value is converted for the entire image, and the background is removed.

【0037】文字領域の画素は、処理前から濃度値が高
く、かつ文字領域用の濃度変換式aで濃度変換を行うの
で、あまり濃度値の変化が少ないが、背景領域の画素
は、背景領域用の濃度変換式bによって変換されるの
で、変換前の濃度値よりさらに濃度値が低くなる。
The pixels in the character area have a high density value before processing, and the density conversion is performed by the density conversion equation a for the character area, so the density value does not change much, but the pixels in the background area are Since the density value is converted by the density conversion equation b for the density value, the density value becomes lower than the density value before the conversion.

【0038】[0038]

【発明の効果】請求項1記載の発明によれば、1ライン
ごとの出現頻度が最大の濃度ヒストグラムを用いること
によって、入力画像の背景の濃度値を特定しうるので、
その情報をもとに、背景の濃度値を低く変換することが
可能となり、地肌除去できる。
According to the invention described in claim 1, since the density value of the background of the input image can be specified by using the density histogram having the maximum appearance frequency for each line,
Based on this information, the background density value can be converted to a low value, and the background can be removed.

【0039】請求項2記載の発明によれば、1ラインご
との出現頻度が最大の濃度ヒストグラムを平滑化するこ
とによって、近傍領域の差が平滑化されるので、出力画
像は近傍の濃度値の差が少なくなり、不自然なエッジが
生じにくくなる。また、濃度変換式によって背景の濃度
値が低くなり、地肌除去される。
According to the second aspect of the present invention, since the difference in the neighboring area is smoothed by smoothing the density histogram in which the appearance frequency of each line is the maximum, the output image has the density values of the neighboring areas. The difference is small, and it is difficult for an unnatural edge to occur. Further, the density conversion formula lowers the density value of the background and removes the background.

【0040】請求項3記載の発明によれば、最初に、入
力画像の最小濃度値を階調の最小濃度値に正規化するこ
とによって、最小濃度値が原点に近づくので、背景の濃
度値が高い画像で、効率的に背景の濃度値を低く設定で
き、出力画像の地肌が除去される。
According to the third aspect of the present invention, first, by normalizing the minimum density value of the input image to the minimum density value of the gradation, the minimum density value approaches the origin, so that the background density value is With a high image, the background density value can be efficiently set low, and the background of the output image is removed.

【0041】請求項4記載の発明によれば、1ラインご
との出現頻度が最大の濃度ヒストグラムと入力画像の濃
度値の情報を用いて、濃度変換式を換えることによっ
て、背景の濃度値を低く文字の濃度は変化が少なく濃度
変換できるので、出力画像の地肌が除去され、かつ、文
字の濃度は入力画像と変わらない画像を出力することが
できる。
According to the fourth aspect of the present invention, the background density value is lowered by changing the density conversion formula using the density histogram having the maximum appearance frequency for each line and the density value information of the input image. Since the density of the character changes little and the density can be converted, it is possible to output an image in which the background of the output image is removed and the density of the character is the same as that of the input image.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施形態における、地肌除去処理の
流れを示す図である。
FIG. 1 is a diagram showing a flow of background removal processing according to an embodiment of the present invention.

【図2】地肌除去を行う前の文書画像(a)と地肌除去
を行った後の文書画像の例を示す図である。
FIG. 2 is a diagram showing an example of a document image (a) before background removal and a document image after background removal.

【図3】図2(a)、(b)の画像の濃度ヒストグラム
である。
FIG. 3 is a density histogram of the images of FIGS. 2 (a) and 2 (b).

【図4】本発明の一実施形態における、濃度ヒストグラ
ムの平滑化を行う地肌除去処理の流れを示す図である。
FIG. 4 is a diagram showing a flow of background removal processing for smoothing a density histogram according to the embodiment of the present invention.

【図5】1ラインごとの出現頻度が最大の濃度ヒストグ
ラムの一部を示す図である。
FIG. 5 is a diagram showing a part of a density histogram having the maximum appearance frequency for each line.

【図6】平滑化処理の有無の比較を示す図である。FIG. 6 is a diagram showing comparison of presence / absence of smoothing processing.

【図7】本発明の一実施形態における、濃度値の正規化
を行う地肌除去処理の流れを示す図である。
FIG. 7 is a diagram showing a flow of background removal processing for normalizing density values according to the embodiment of the present invention.

【図8】本発明の一実施形態における、濃度変換式を換
えた地肌除去処理の流れを示す図である。
FIG. 8 is a diagram showing a flow of background removal processing in which the density conversion formula is changed according to the embodiment of the present invention.

【図9】一般的な地肌除去処理装置の構成図である。FIG. 9 is a configuration diagram of a general background removal processing device.

【符号の説明】[Explanation of symbols]

101 多値文書画像 102 地肌が除去された文書画像 103 濃度のヒストグラムの作成 104 1ラインごとの出現頻度が最大の濃度のヒスト
グラムの作成 105 濃度変換式による地肌除去 201 1ラインごとの出現頻度が最大の濃度のヒスト
グラムの平滑化 701 濃度値の正規化 801 濃度変換式aによる地肌除去 802 濃度変換式bによる地肌除去 901 スキャナ部 902 画像記憶部 903 画像信号処理部 904 OCR(光学式読取装置)
101 Multi-valued document image 102 Document image with the background removed 103 Creating a density histogram 104 Creating a density histogram with the highest appearance frequency for each line 105 Background removal by a density conversion formula 201 The appearance frequency for each line is the maximum Smoothing of histogram of density 701 Normalization of density value 801 Background removal by density conversion equation a 802 Background removal by density conversion equation b 901 Scanner unit 902 Image storage unit 903 Image signal processing unit 904 OCR (optical reading device)

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 紙面に書かれた文字情報をディジタル化
して取り込むスキャナ部と、画像処理演算を行う画像信
号処理部と、画像情報と処理結果を格納する画像記憶部
とを有するシステムにおいて、 副走査方向に、濃度ヒストグラムを求める手段と、 前記副走査方向に、1ラインごとの出現頻度が最大の濃
度ヒストグラムを求める手段と、 前記副走査方向に、1ラインごとの出現頻度が最大の濃
度ヒストグラム情報をもとに、画像の濃度値を変換する
手段とを、有することを特徴とする画像処理装置。
1. A system comprising a scanner unit for digitizing and capturing character information written on paper, an image signal processing unit for performing image processing calculation, and an image storage unit for storing image information and processing results. A means for obtaining a density histogram in the scanning direction, a means for obtaining a density histogram having the maximum appearance frequency for each line in the sub-scanning direction, and a density histogram having the maximum appearance frequency for each line in the sub-scanning direction An image processing apparatus comprising: means for converting a density value of an image based on information.
【請求項2】 前記副走査方向に、1ラインごとの出現
頻度が最大の濃度ヒストグラムを求める手段によって得
られる、1ラインごとの出現頻度が最大の濃度ヒストグ
ラムに対し、 平滑化を行う手段を、さらに有することを特徴とする請
求項1記載の画像処理装置。
2. A means for performing smoothing on the density histogram having the maximum appearance frequency for each line obtained by the means for obtaining the density histogram having the maximum appearance frequency for each line in the sub-scanning direction, The image processing apparatus according to claim 1, further comprising:
【請求項3】 前記副走査方向に、1ラインごとの出現
頻度が最大の濃度ヒストグラムを求める手段の前に、 濃度値の正規化を行う手段を、さらに有することを特徴
とする請求項1または2に記載の画像処理装置。
3. The method according to claim 1, further comprising a unit for normalizing the density value before the unit for obtaining the density histogram having the maximum appearance frequency for each line in the sub-scanning direction. 2. The image processing device according to item 2.
【請求項4】 前記副走査方向に、1ラインごとの出現
頻度が最大の濃度ヒストグラム情報をもとに画像の濃度
値を変換する手段に対し、 濃度の情報を用いて変換する手段を換える手段を、さら
に有することを特徴とする請求項1から3のいずれか1
項に記載の画像処理装置。
4. A means for converting a density value of an image based on density histogram information having the maximum appearance frequency for each line in the sub-scanning direction, and a means for changing a conversion means using the density information. 4. The method according to claim 1, further comprising:
The image processing device according to item.
JP2002035911A 2002-02-13 2002-02-13 Image processor Pending JP2003244437A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002035911A JP2003244437A (en) 2002-02-13 2002-02-13 Image processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002035911A JP2003244437A (en) 2002-02-13 2002-02-13 Image processor

Publications (2)

Publication Number Publication Date
JP2003244437A true JP2003244437A (en) 2003-08-29
JP2003244437A5 JP2003244437A5 (en) 2006-02-23

Family

ID=27777965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002035911A Pending JP2003244437A (en) 2002-02-13 2002-02-13 Image processor

Country Status (1)

Country Link
JP (1) JP2003244437A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169181A (en) * 2016-06-30 2016-11-30 北京奇艺世纪科技有限公司 A kind of image processing method and system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169181A (en) * 2016-06-30 2016-11-30 北京奇艺世纪科技有限公司 A kind of image processing method and system
CN106169181B (en) * 2016-06-30 2019-04-26 北京奇艺世纪科技有限公司 A kind of image processing method and system

Similar Documents

Publication Publication Date Title
JP3768052B2 (en) Color image processing method, color image processing apparatus, and recording medium therefor
US7894683B2 (en) Reformatting binary image data to generate smaller compressed image data size
US8384964B2 (en) Image processing apparatus and image processing method
EP1173003B1 (en) Image processing method and image processing apparatus
US7437002B2 (en) Image recognition system utilizing an edge image and a binary image
US8611658B2 (en) Image processing apparatus and image processing method
JP4100885B2 (en) Form recognition apparatus, method, program, and storage medium
JP3886727B2 (en) Image processing device
JP2010146218A (en) Image processing apparatus, image processing method, computer program
JP2005275854A (en) Image processor, image processing method, image processing program and recording medium with this program stored thereon
JP2003115031A (en) Image processor and its method
EP0870276B1 (en) A method for transforming a gray-level image into a black-and-white image
JP2003244437A (en) Image processor
JP7301529B2 (en) Image processing device, image processing method, and program
JP2004153817A (en) Method of forming output image by transforming input image
JP3830350B2 (en) Color image processing method, color image processing apparatus, program, and recording medium
JP2000022945A (en) Image processor and image processing method
Boiangiu et al. Bitonal image creation for automatic content conversion
JP4035696B2 (en) Line segment detection apparatus and image processing apparatus
JP3966448B2 (en) Image processing apparatus, image processing method, program for executing the method, and recording medium storing the program
JPH08237404A (en) Selection of optical character recognition mode
JP2003250046A (en) Image processing apparatus
JPH08221515A (en) Image processor
JP2006262258A (en) Image processor, and image processing method and program
JP2937603B2 (en) Binary discrimination method of image data in image data reading device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050125

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070619