JP2002185782A - Character extracting device, character extracting method and recording medium - Google Patents

Character extracting device, character extracting method and recording medium

Info

Publication number
JP2002185782A
JP2002185782A JP2000379796A JP2000379796A JP2002185782A JP 2002185782 A JP2002185782 A JP 2002185782A JP 2000379796 A JP2000379796 A JP 2000379796A JP 2000379796 A JP2000379796 A JP 2000379796A JP 2002185782 A JP2002185782 A JP 2002185782A
Authority
JP
Japan
Prior art keywords
image
character
read
unit
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000379796A
Other languages
Japanese (ja)
Inventor
Hiroshi Sumiya
浩 角谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2000379796A priority Critical patent/JP2002185782A/en
Publication of JP2002185782A publication Critical patent/JP2002185782A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a character extracting device that can efficiently extract characters on a postcard or an original having a background without being affected by the background. SOLUTION: The character extracting device that extracts character on a postcard or an original having a background, reads a character image on the postcard or the original having a background pattern, extracts a major color configuring the image, separates the image into images where the extracted major color is used for a median, selects the character image among the separated images, and extracts characters from the image resulting from applying expansion or contraction processing to the selected character image.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、年賀葉書、かも
メールなどの当選番号付葉書の抽選番号や背景のある原
稿の文字を抽出する文字抽出装置、文字抽出方法および
記録媒体に関するものであり、特に、背景に模様がある
葉書または原稿の文字画像を読み取り、画像を構成する
主要な色を抽出し、抽出した主要な色の値を中心値とす
る画像に分離し、分離した画像の中から文字画像を選択
し、その画像を膨張または収縮処理した画像から文字を
抽出する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting apparatus, a character extracting method, and a recording medium for extracting a lottery number of a postcard with a winning number, such as a New Year's postcard or a mail, and a character of a document having a background. In particular, it reads the text image of a postcard or manuscript with a pattern on the background, extracts the main colors that make up the image, separates them into an image with the extracted main color value as the center value, and from among the separated images A character image is selected, and characters are extracted from an image obtained by expanding or contracting the image.

【0002】[0002]

【従来の技術】従来、年賀葉書、かもメールなどの当選
番号付葉書の抽選番号を自動的に抽出する処理は、抽選
番号の抽出に邪魔になっている模様部、例えば年賀葉書
ならば赤色系の網模様、かもメールならば青色系の網模
様と同じ色を照射し、模様部の色を無効とするドロップ
アウトカラー手法で行っている。
2. Description of the Related Art Conventionally, a process for automatically extracting a lottery number of a postcard with a winning number, such as a New Year's postcard or an e-mail, is performed by using a pattern portion which hinders the extraction of the lottery number. In the case of email, the same color as that of a blue-colored net pattern is emitted, and a drop-out color method is used to invalidate the color of the pattern portion.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、従来技
術では年賀葉書における赤色系の模様は色のバラツキが
あり、単一のドロップアウトカラー照射では精度よく文
字を抽出することができず、ドロップアウトカラーを調
整する必要があるため効率が悪いという問題点があっ
た。
However, in the prior art, the red pattern in a New Year's postcard has a color variation, and characters cannot be accurately extracted by a single dropout color irradiation. Therefore, there is a problem that efficiency is poor because it is necessary to adjust.

【0004】また、かもメールも同様に行うことができ
るようにすると、かもメールは抽選番号の背景が青色系
の模様であるため、赤色系または青色系の判断、および
それに従ってドロップアウトカラーの光源を切り替える
ことが必要となり、ハードウェア費用が非常に高くなる
という問題点があった。
[0004] In addition, if it is made possible to carry out the same kind of mail, if the mail has a lottery number with a blue pattern background, it is determined whether the lottery number is red or blue and the light source of the dropout color is accordingly determined. Has to be switched, and there is a problem that the hardware cost becomes very high.

【0005】[0005]

【課題を解決するための手段】この発明は上記のような
問題点を考慮してなされたもので、背景に模様がある葉
書または原稿の文字を抽出する文字抽出装置、文字抽出
方法および記録媒体において、背景に模様がある葉書ま
たは原稿の文字画像を読み取り、画像を構成する主要な
色を抽出し、抽出した主要な色の値を中心値とする画像
に分離し、分離した画像の中から文字画像を選択し、そ
の画像を膨張または収縮処理した画像から文字を抽出す
ることにより、背景のある葉書または原稿上の文字を背
景に影響されることなく、効率よく抽出することができ
る。
SUMMARY OF THE INVENTION The present invention has been made in consideration of the above-described problems, and is provided with a character extracting apparatus, a character extracting method, and a recording medium for extracting the characters of a postcard or an original having a pattern on the background. In, read the character image of a postcard or manuscript with a pattern in the background, extract the main colors that make up the image, separate the image with the center value of the extracted main color value, from among the separated images By selecting a character image and extracting characters from an image obtained by subjecting the image to expansion or contraction processing, characters on a postcard or an original with a background can be efficiently extracted without being affected by the background.

【0006】なお、この明細書において、「単純クラス
タリング手法」という用語は、N個のサンプル集合X=
[X1、X2、…、Xn]がある場合、しきい値Tを設定
し、まず任意の1つのサンプル、例えばX1を取り、こ
れをクラスタの中心、Z1(=X1)とする。次にXi
(i=2、…、N)を取り、Z1とXiとの距離D1i
を計算し、D1i=<TであればXiはZ1を中心とす
るクラスタに属すると判定する。D1i>TであればX
iを新たなクラスタ中心Z2とする。そこで残りのサン
プルXiについてZ1、Z2との距離D1i、D2iを
計算し、D1i、D2iのいずれかがTより小さければ
Xiはそのクラスタに属するものとし、そうでなけれ
ば、Xiを新たなクラスタ中心Z3とする。このように
して、すべてのサンプル[X1、X2、…、Xn]を調べ
て、いくつかのクラスタに分ける手法を指す。
[0006] In this specification, the term "simple clustering technique" refers to a set of N samples X =
If there is [X1, X2,..., Xn], the threshold T is set, and first, an arbitrary sample, for example, X1, is taken, and this is set as the center of the cluster, Z1 (= X1). Next, Xi
(I = 2,..., N) and the distance D1i between Z1 and Xi
Is calculated, and if D1i = <T, it is determined that Xi belongs to a cluster centered on Z1. X if D1i> T
Let i be the new cluster center Z2. Therefore, the distances D1i and D2i from the remaining samples Xi to Z1 and Z2 are calculated. If any of D1i and D2i is smaller than T, Xi belongs to the cluster. Otherwise, Xi is set to the new cluster center. Let it be Z3. In this way, it refers to a method of examining all samples [X1, X2,..., Xn] and dividing them into several clusters.

【0007】また、この明細書において、「K平均クラ
スタリング手法」という用語は、N個のサンプル集合X
=[X1、X2、…、Xn]がある場合、K個の初期クラ
スタ中心Z1(1)、Z2(1)、…、Zk(1)を適
当に決め、サンプル[X]を初期クラスタ中心Z1
(1)、Z2(1)、…、Zk(1)の中から一番近い
クラスタに属するように、K個のクラスタに分類する。
次に分類したK個のクラスタの中心Z1(2)、Z2
(2)、…、Zk(2)を求め、同様にサンプル[X]を
クラスタ中心Z1(2)、Z2(2)、…、Zk(2)
の中から一番近いクラスタに属するように、K個のクラ
スタに分類する。これを繰返しクラスタが収束するまで
行う手法を指す。
[0007] In this specification, the term "K-means clustering technique" refers to a set of N samples X
= [X1, X2,..., Xn], K initial cluster centers Z1 (1), Z2 (1),..., Zk (1) are appropriately determined, and the sample [X] is set to the initial cluster center Z1.
The clusters are classified into K clusters so as to belong to the closest cluster from (1), Z2 (1),..., Zk (1).
Next, the centers Z1 (2) and Z2 of the K clusters classified
(2),..., Zk (2) are obtained, and the sample [X] is similarly set to the cluster centers Z1 (2), Z2 (2),.
Are classified into K clusters so as to belong to the closest cluster. This refers to a method of repeating this until the cluster converges.

【0008】また、この明細書において、「ラベリング
処理」という用語は、2値画像を例にして説明すると、
画像内における黒隗の数を求める処理であり、同一(連
続)黒隗領域に属する点には同じラベル、異なる(離
散)黒隗領域に属する点には他のラベルをつけ、同じラ
ベルをつけた黒隗領域を矩形領域で囲う処理を指す。
In this specification, the term "labeling process" is described by taking a binary image as an example.
This is a process for calculating the number of black aggregates in an image. Points belonging to the same (continuous) black aggregate region are labeled with the same label, points belonging to different (discrete) black aggregate regions are labeled with another label, and the same label is labeled. Refers to the process of enclosing the black aggregate area with a rectangular area.

【0009】[0009]

【発明の実施の形態】(1)背景に模様がある葉書また
は原稿の文字を抽出する文字抽出装置において、背景に
模様がある葉書または原稿上の文字を画像として読み取
る画像読取部と、画像読取部で読み取った画像から画像
を構成する主要な色(代表色)を抽出する代表色抽出部
と、画像読取部で読み取った画像を代表色抽出部で抽出
した主要な色の値を中心値とする画像に分離する画像分
離部と、画像分離部で分離した画像をそれぞれラベリン
グ処理して矩形領域を求め、矩形領域の数、配置、配置
の規則性、矩形領域内の線分構成により文字画像を判定
する文字画像判定部と、文字画像判定部で判定した画像
を膨張または収縮処理することにより画像を補正する文
字画像補正部とを備えることにより、背景のある葉書ま
たは原稿上の文字を背景に影響されることなく、効率よ
く抽出することができる。
DESCRIPTION OF THE PREFERRED EMBODIMENTS (1) In a character extracting apparatus for extracting characters on a postcard or a document having a pattern on a background, an image reading section for reading a postcard or a character on a document having a pattern on a background as an image, and an image reading device A representative color extracting unit for extracting a main color (representative color) constituting an image from an image read by the image reading unit, and a central value representing a value of the main color extracted by the representative color extracting unit for the image read by the image reading unit. The image separation unit that separates the images into images to be separated, and the images separated by the image separation unit are each subjected to labeling processing to obtain a rectangular area, and the character image is determined by the number, arrangement, regularity of arrangement, and line segment configuration within the rectangular area. Character image determination unit, and a character image correction unit that corrects the image by performing expansion or contraction processing on the image determined by the character image determination unit, so that a postcard with a background or a character on a document is provided. Without being to be affected by the background it can be extracted efficiently.

【0010】(2)(1)記載の文字抽出装置におい
て、単純クラスタリング手法により画像読取部で読み取
った画像から画像を構成する主要な色を算出する代表色
抽出部と、代表色抽出部で算出した主要な色の値を核値
としてK平均クラスタリング手法により、画像読取部で
読み取った画像を分離する画像分離部とを備えることに
より、画像を自動的に背景、模様、文字の主要な画像に
分離することができる。
(2) In the character extracting apparatus described in (1), a representative color extracting section for calculating main colors constituting an image from an image read by the image reading section by a simple clustering technique, and a calculation by the representative color extracting section. An image separation unit that separates the image read by the image reading unit by the K-means clustering method using the main color values as core values, automatically converts the image into the main image of the background, pattern, and characters. Can be separated.

【0011】(3)背景に模様がある葉書または原稿の
文字を抽出する文字抽出方法において、背景に模様があ
る葉書または原稿上の文字を画像として読み取り、読み
取った画像から画像を構成する主要な色を抽出し、読み
取った画像を抽出した主要な色の値を中心値とする画像
に分離し、分離した画像をそれぞれラベリング処理して
矩形領域を求め、矩形領域の数、配置、配置の規則性、
矩形領域内の線分構成により文字画像を判定し、文字画
像と判定した画像を膨張または収縮処理して画像を補正
することにより、背景のある葉書または原稿上の文字を
背景に影響されることなく、効率よく抽出することがで
きる。
(3) In a character extracting method for extracting characters on a postcard or an original having a pattern on a background, a character on a postcard or an original having a pattern on a background is read as an image, and a main image forming an image from the read image is provided. Extracts colors, separates the read image into images with the extracted main color values as center values, labels each separated image to obtain a rectangular area, and determines the number, arrangement, and arrangement rules of the rectangular area sex,
A character image is determined based on a line segment configuration in a rectangular area, and the image determined as the character image is expanded or contracted to correct the image, so that a postcard with a background or a character on a document is affected by the background. And can be efficiently extracted.

【0012】(4)背景に模様がある葉書または原稿の
画像から文字を抽出するツールを記憶した記録媒体にお
いて、背景に模様がある葉書または原稿の文字を画像と
して読み取り、読み取った画像から画像を構成する主要
な色を抽出し、読み取った画像を抽出した主要な色の値
を中心値とする画像に分離し、分離した画像をそれぞれ
ラベリング処理して矩形領域を求め、矩形領域の数、配
置、配置の規則性、矩形領域内の線分構成により文字画
像を判定し、文字画像と判定した画像を膨張または収縮
処理して画像を補正するためのプログラムを記録した記
録媒体をコンピュータにより実行することにより、背景
のある葉書または原稿上の文字を背景に影響されること
なく、効率よく抽出することができる。
(4) On a recording medium storing a tool for extracting a character from an image of a postcard or an original having a pattern on the background, a character of the postcard or the original having a pattern on the background is read as an image, and the image is read from the read image. The main colors to be composed are extracted, the read image is separated into images having the extracted main color values as center values, and the separated images are subjected to labeling processing to obtain rectangular regions, and the number and arrangement of the rectangular regions. A computer executes a recording medium storing a program for determining a character image based on the regularity of arrangement and the line segment configuration in a rectangular area, and expanding or contracting the image determined as the character image to correct the image. As a result, it is possible to efficiently extract a postcard with a background or characters on a document without being affected by the background.

【0013】[0013]

【実施例】図1に、本発明の構成ブロック図を示す。図
中、1は文字抽出装置であり、文字抽出装置1は背景に
模様がある葉書または原稿上の文字を画像として読み取
る画像読取部11と、画像読取部11で読み取った画像
から画像を構成する主要な色(代表色)を抽出する代表
色抽出部12と、画像読取部11で読み取った画像を代
表色抽出部12で抽出した主要な色の値を中心値とする
画像に分離する画像分離部13と、画像分離部13で分
離した画像をそれぞれラベリング処理して矩形領域を求
め、矩形領域の数、配置、配置の規則性、矩形領域内の
線分構成により文字画像を判定する文字画像判定部14
と、文字画像判定部14で判定した画像を膨張または収
縮処理することにより画像を補正する文字画像補正部1
5とで構成されている。
FIG. 1 is a block diagram showing the configuration of the present invention. In the figure, reference numeral 1 denotes a character extracting device. The character extracting device 1 forms an image from an image reading unit 11 that reads a postcard having a pattern in the background or characters on a document as an image, and an image read by the image reading unit 11. A representative color extraction unit 12 for extracting a main color (representative color); and an image separation unit for separating an image read by the image reading unit 11 into an image having a center value of a main color value extracted by the representative color extraction unit 12. A character image that determines a character image based on the number, arrangement, regularity of arrangement, and line segment configuration within the rectangular area by obtaining a rectangular area by performing labeling processing on each of the images separated by the image separating unit 13 and the image separating unit 13 Judgment unit 14
Character image correction unit 1 that corrects an image by subjecting the image determined by character image determination unit 14 to expansion or contraction processing
5 is comprised.

【0014】図2、図3を参照して、本発明の文字抽出
方法について説明する。図2は当選番号付葉書の抽選番
号の文字抽出方法の一実施例の処理フローチャート、図
3は抽選番号の文字抽出方法の説明図である。なお、こ
の例は当選番号付葉書にある背景に模様が付いた抽選番
号を抽出する例である。
The character extracting method of the present invention will be described with reference to FIGS. FIG. 2 is a processing flowchart of one embodiment of a method of extracting a character of a lottery number of a postcard with a winning number, and FIG. 3 is an explanatory diagram of a method of extracting a character of a lottery number. This example is an example of extracting a lottery number with a pattern on the background of a postcard with a winning number.

【0015】以下、図2のフローにしたがって動作を説
明する。
The operation will be described below with reference to the flow chart of FIG.

【0016】ステップS201:葉書の抽選番号部分の
画像を読み込む。読み込んだ画像は図3(a)に示され
るように模様の上に6桁の抽選番号があり、模様(赤
色)、抽選番号(黒色)、背景(白色)の主要な3色で
構成されているものである。
Step S201: The image of the lottery number portion of the postcard is read. The read image has a 6-digit lottery number on the pattern as shown in FIG. 3A, and is composed of three main colors of the pattern (red), the lottery number (black), and the background (white). Is what it is.

【0017】ステップS202:読み込んだ画像から画
像を構成する主要な色を単純クラスタリング手法により
求める。これにより、画像を構成する主要な赤色、黒
色、白色に近い3色が求められる。なお、この処理の詳
細は後で説明する。
Step S202: The main colors constituting the image are determined from the read image by a simple clustering method. As a result, three colors close to the main red, black, and white that constitute the image are obtained. The details of this process will be described later.

【0018】ステップS203:求めた主要な色(代表
色)を核値として、K平均クラスタリング手法によっ
て、読み込んだ抽選番号部分の画像を分離する。分離さ
れた画像は図3(b)で示されるように背景、模様、文
字の画像に分離される。なおこの処理の詳細は後で説明
する。
Step S203: Using the obtained main color (representative color) as a core value, the image of the read lottery number portion is separated by the K-means clustering method. The separated image is separated into background, pattern, and character images as shown in FIG. The details of this processing will be described later.

【0019】ステップS204:分離された画像をそれ
ぞれラベリング処理して矩形領域を求め、矩形領域の
数、配置により文字画像を判定する。なお、分離された
画像はラベリング処理により図3(c)で示されるよう
になり、背景画像はバラバラに配置された非常に小さな
矩形領域が多数求められ、模様画像は1つの矩形領域が
求められ、文字画像は横方向に一列に配置されている6
つの矩形領域が求められる。したがって、抽出する抽選
番号は6桁とわかっているので、文字画像は横方向に6
つの矩形領域が求められた画像と判定することができ
る。
Step S204: Labeling processing is performed on each of the separated images to obtain a rectangular area, and a character image is determined based on the number and arrangement of the rectangular areas. Note that the separated image is as shown in FIG. 3C by the labeling process, a large number of very small rectangular areas arranged separately are obtained for the background image, and one rectangular area is obtained for the pattern image. , The character images are arranged in a line in the horizontal direction.
One rectangular area is required. Therefore, since the lottery number to be extracted is known to be 6 digits, the character image is 6
It can be determined that two rectangular areas are obtained images.

【0020】この例のように葉書の抽選番号を抽出する
場合は、抽選番号の文字数が予めわかっているので矩形
領域の数、配置により文字画像と判定したが、模様のあ
る原稿上の文字を抽出するような場合は、矩形領域の
数、配置、配置の規則性、矩形領域内の線分構成などを
解析することにより、文字画像を判定するようにすると
よい。
When the lottery number of the postcard is to be extracted as in this example, since the number of characters of the lottery number is known in advance, a character image is determined based on the number and arrangement of the rectangular areas. In the case of extracting the character image, the character image may be determined by analyzing the number, arrangement, regularity of arrangement, line segment configuration in the rectangular area, and the like.

【0021】ステップS205:文字画像を膨張/収縮
処理して、文字認識しやすい画像に補正する。文字画像
は図3(d)に示されるように膨張処理され、次の処理
で行われる文字認識の認識率を高めることができる。そ
して、処理を終了する。
Step S205: The character image is expanded / contracted to correct the image so that the character can be easily recognized. The character image is expanded as shown in FIG. 3D, and the recognition rate of character recognition performed in the next process can be increased. Then, the process ends.

【0022】このように処理することにより、背景のあ
る葉書や原稿上の文字を効率よく、かつ安価なハードウ
ェア構成で抽出することが可能となる。
By performing such processing, it becomes possible to efficiently extract postcards with backgrounds and characters on originals with a low-cost hardware configuration.

【0023】次に、図2のステップS202の単純クラ
スタリング処理およびステップS203のK平均クラス
タリング処理について詳細を説明する。
Next, the simple clustering process in step S202 and the K-means clustering process in step S203 in FIG. 2 will be described in detail.

【0024】図4に、単純クラスタリング処理の一実施
例の処理フローチャートを示す。以下、このフローにし
たがって動作を説明する。
FIG. 4 shows a processing flowchart of one embodiment of the simple clustering processing. Hereinafter, the operation will be described according to this flow.

【0025】ステップS401:同一クラスに属するか
否かの基準となる距離(許容値)を設定する。通常、距
離はコンピュータ系の配色であるRGB座標系で記述さ
れる各ピクセルの値を人間の色彩感覚に合わせたLab
座標系に変換し、Lab空間において人間が異なる色と
判断する色差距離=8〜12を設定する。
Step S401: A distance (permissible value) is set as a reference as to whether or not the object belongs to the same class. Normally, the distance is a Lab that matches the value of each pixel described in the RGB coordinate system, which is a color system of a computer system, to the human color sense.
The coordinate system is converted to a coordinate system, and a color difference distance = 8 to 12 at which a human judges a different color in the Lab space is set.

【0026】ステップS402:対象画像から任意の1
つのピクセルを選択し、1つのクラスZi(i=1)を
設定し、その中心値とする。
Step S402: Any one of the target images
One pixel is selected, one class Zi (i = 1) is set, and the center value is set.

【0027】ステップS403:対象画像の先頭のピク
セルを指すポインタPを設定する。
Step S403: A pointer P pointing to the first pixel of the target image is set.

【0028】ステップS404:ポインタPが指すピク
セルが設定されているクラスZm(m=1〜n)のいず
れかに属するかを確認する。つまりポインタPが指すピ
クセルと設定されたクラスZiの中心値との距離を求
め、その距離が許容値以内かを判定する。
Step S404: It is checked whether the pixel indicated by the pointer P belongs to any of the set classes Zm (m = 1 to n). That is, the distance between the pixel pointed by the pointer P and the center value of the set class Zi is obtained, and it is determined whether the distance is within the allowable value.

【0029】ステップS405:ステップS405の処
理結果、許容値以内ならばステップS407に進み、許
容値以内でないならばステップS406に進む。
Step S405: If the processing result of step S405 is within the allowable value, the process proceeds to step S407, and if not, the process proceeds to step S406.

【0030】ステップS406:ポインタPが指すピク
セルを新たなクラスZi(i=i+1)に設定し、ま
た、ポインタPが指すピクセルをクラスZi(i=i+
1)の中心値とする。そして、ステップS404に戻
る。
Step S406: The pixel pointed by the pointer P is set to a new class Zi (i = i + 1), and the pixel pointed to by the pointer P is set to a class Zi (i = i +
The central value of 1) is used. Then, the process returns to step S404.

【0031】ステップS407:ポインタPが指すピク
セルを許容値以内にあるクラスに振分ける。
Step S407: The pixel pointed to by the pointer P is assigned to a class within an allowable value.

【0032】ステップS408:対象画像の全ピクセル
で処理したかを判定する。全ピクセルで処理したならば
ステップS410に進み、全ピクセルで処理していない
ならばステップS409に進む。
Step S408: It is determined whether or not all pixels of the target image have been processed. If all pixels have been processed, the process proceeds to step S410. If all pixels have not been processed, the process proceeds to step S409.

【0033】ステップS409:次のピクセルを指すよ
うにポインタPを更新する。
Step S409: The pointer P is updated so as to point to the next pixel.

【0034】ステップS410:クラスに属するピクセ
ルの多い順に上位3クラスを選択し、その中心値を代表
値に設定し、後の処理に渡す。そして、処理を終了す
る。
Step S410: The upper three classes are selected in descending order of the number of pixels belonging to the class, the center value is set as a representative value, and the result is passed to the subsequent processing. Then, the process ends.

【0035】このように処理することにより、対象画像
を構成する3つの代表色を求めることができる。
By performing such processing, three representative colors constituting the target image can be obtained.

【0036】図5に、K平均クラスタリング処理の一実
施例の処理フローチャートを示す。以下、このフローに
したがって動作を説明する。
FIG. 5 shows a flowchart of an embodiment of the K-means clustering process. Hereinafter, the operation will be described according to this flow.

【0037】ステップS501:単純クラスタリング処
理により獲得した3色の代表値を第1の3つの核値(中
心値)に設定する。
Step S501: The representative values of the three colors obtained by the simple clustering process are set as the first three core values (center values).

【0038】ステップS502:対象画像の全ピクセル
を第1の3つの核値のうち、色差が一番小さいクラス、
つまり一番似た色のクラスに属するように振分ける。
Step S502: classify all pixels of the target image into a class having the smallest color difference among the first three kernel values;
In other words, they are assigned to belong to the class with the most similar color.

【0039】ステップS503:振分けられた3つのク
ラスに対して、それぞれのクラスの代表値(平均値)を
求め、第2の3つの核値とする。
Step S503: With respect to the three classes, the representative values (average values) of the respective classes are obtained, and are set as second three core values.

【0040】ステップS504:第1の核値と第2の核
値の色差が所定値以下かを判定する。所定値以下ならば
ステップS506に進み、所定値以下でないならステッ
プS505に進む。
Step S504: It is determined whether the color difference between the first kernel value and the second kernel value is equal to or less than a predetermined value. If the value is equal to or smaller than the predetermined value, the process proceeds to step S506.

【0041】ステップS505:求めた第2の3つの核
値を第1の3つの核値に設定する。そして、ステップS
502に戻る。
Step S505: The obtained second three kernel values are set to the first three kernel values. And step S
Return to 502.

【0042】ステップS506:振分けた3つのクラス
を、対象画像を3色の代表色に分離した画像として、後
の処理に渡す。そして、処理を終了する。
Step S506: The three classes are transferred to the subsequent processing as an image obtained by separating the target image into three representative colors. Then, the process ends.

【0043】このように処理することにより、対象画像
を最適な3つの代表色の画像に分離することができる。
By performing the above-described processing, the target image can be separated into images of three optimum representative colors.

【0044】[0044]

【発明の効果】この発明は、上記に説明したような形態
で実施され、以下の効果がある。
The present invention is embodied in the form described above, and has the following effects.

【0045】年賀葉書のように赤系模様の色にバラツキ
があっても、またかもメールのように青系模様であって
も、影響を受けることなく抽選番号を効率よく抽出する
ことが可能となる。また、背景のある原稿上の文字も背
景に影響されることなく文字を効率よく抽出することが
可能となる。
It is possible to efficiently extract the lottery number without being affected even if the color of the red pattern has a variation like the New Year's postcard or the blue pattern like the mail. Become. In addition, characters on a document having a background can be efficiently extracted without being affected by the background.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の構成ブロック図である。FIG. 1 is a configuration block diagram of the present invention.

【図2】 当選番号付葉書の抽選番号の文字抽出方法の
一実施例の処理フローチャートである。
FIG. 2 is a processing flowchart of one embodiment of a method for extracting a character of a lottery number of a postcard with a winning number;

【図3】 抽選番号の文字抽出方法の説明図である。FIG. 3 is an explanatory diagram of a character extraction method of a lottery number.

【図4】 単純クラスタリング処理の一実施例の処理フ
ローチャートである。
FIG. 4 is a processing flowchart of one embodiment of a simple clustering process.

【図5】 K平均クラスタリング処理の一実施例の処理
フローチャートである。
FIG. 5 is a processing flowchart of one embodiment of a K-means clustering process.

【符号の説明】[Explanation of symbols]

1 文字抽出装置 11 画像読取部 12 代表色抽出部 13 画像分離部 14 文字画像判定部 15 文字画像補正部 REFERENCE SIGNS LIST 1 character extracting device 11 image reading unit 12 representative color extracting unit 13 image separating unit 14 character image determining unit 15 character image correcting unit

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 背景に模様がある葉書または原稿上の文
字を画像として読み取る画像読取部(11)と、 画像読取部(11)で読み取った画像から画像を構成す
る主要な色を抽出する代表色抽出部(12)と、 画像読取部(11)で読み取った画像を代表色抽出部
(12)で抽出した主要な色の値を中心値とする画像に
分離する画像分離部(13)と、 画像分離部(13)で分離した画像をそれぞれラベリン
グ処理して矩形領域を求め、矩形領域の数、配置、配置
の規則性、矩形領域内の線分構成により文字画像を判定
する文字画像判定部(14)と、 文字画像判定部(14)で判定した画像を膨張または収
縮処理することにより画像を補正する文字画像補正部
(15)とで構成することを特徴とする文字抽出装置。
An image reading unit (11) for reading a postcard or a character on a document having a pattern on the background as an image, and a representative for extracting main colors constituting the image from the image read by the image reading unit (11). A color extracting unit (12); an image separating unit (13) for separating an image read by the image reading unit (11) into an image having a center value of a main color value extracted by the representative color extracting unit (12); Character image determination for determining a rectangular image by labeling each of the images separated by the image separating unit (13) to determine a rectangular region, and determining the character image based on the number, arrangement, arrangement regularity of the rectangular regions, and the line segment configuration in the rectangular region A character extraction device comprising: a unit (14); and a character image correction unit (15) that corrects the image by performing expansion or contraction processing on the image determined by the character image determination unit (14).
【請求項2】 請求項1記載の文字抽出装置において、 単純クラスタリング手法により画像読取部で読み取った
画像から画像を構成する主要な色を算出する代表色抽出
部(12)と、 代表色抽出部で算出した主要な色の値を核値としてK平
均クラスタリング手法により、画像読取部で読み取った
画像を分離する画像分離部(13)とを備えることを特
徴とする文字抽出装置。
2. The character extracting device according to claim 1, wherein a representative color extracting unit (12) for calculating a main color forming the image from the image read by the image reading unit by a simple clustering method, and a representative color extracting unit. A character extraction device comprising: an image separation unit (13) that separates an image read by an image reading unit by a K-means clustering method using the main color values calculated in (1) as kernel values.
【請求項3】 背景に模様がある葉書または原稿上の文
字を画像として読み取り、読み取った画像から画像を構
成する主要な色を抽出し、読み取った画像を抽出した主
要な色の値を中心値とする画像に分離し、分離した画像
をそれぞれラベリング処理して矩形領域を求め、矩形領
域の数、配置、配置の規則性、矩形領域内の線分構成に
より文字画像を判定し、文字画像と判定した画像を膨張
または収縮処理して画像を補正することを特徴とする文
字抽出方法。
3. A postcard or a character on a document having a pattern on a background is read as an image, a main color constituting the image is extracted from the read image, and a value of the main color obtained by extracting the read image is a central value. Is separated into images, and the separated images are each labeled to obtain a rectangular area, and the number of rectangular areas, arrangement, regularity of arrangement, and line segment configuration within the rectangular area are used to determine a character image. A character extracting method, wherein the determined image is expanded or reduced to correct the image.
【請求項4】 文字情報を含む画像から文字情報を抽出
するツールを記憶した記録媒体において、 背景に模様がある葉書または原稿上の文字を画像として
読み取り、読み取った画像から画像を構成する主要な色
を抽出し、読み取った画像を抽出した主要な色の値を中
心値とする画像に分離し、分離した画像をそれぞれラベ
リング処理して矩形領域を求め、矩形領域の数、配置、
配置の規則性、矩形領域内の線分構成により文字画像を
判定し、文字画像と判定した画像を膨張または収縮処理
して画像を補正するためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体。
4. A recording medium storing a tool for extracting character information from an image including character information, wherein a postcard having a pattern on a background or a character on a document is read as an image, and a main image constituting the image from the read image is read. The color is extracted, the read image is separated into images having the extracted main color values as center values, and the separated images are respectively subjected to labeling processing to obtain rectangular regions.
A computer-readable recording medium storing a program for determining a character image based on the regularity of arrangement and the line segment configuration in a rectangular area, and expanding or contracting the image determined as the character image to correct the image.
JP2000379796A 2000-12-14 2000-12-14 Character extracting device, character extracting method and recording medium Pending JP2002185782A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000379796A JP2002185782A (en) 2000-12-14 2000-12-14 Character extracting device, character extracting method and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000379796A JP2002185782A (en) 2000-12-14 2000-12-14 Character extracting device, character extracting method and recording medium

Publications (1)

Publication Number Publication Date
JP2002185782A true JP2002185782A (en) 2002-06-28

Family

ID=18848097

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000379796A Pending JP2002185782A (en) 2000-12-14 2000-12-14 Character extracting device, character extracting method and recording medium

Country Status (1)

Country Link
JP (1) JP2002185782A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1437692A1 (en) * 2003-01-08 2004-07-14 Glory Ltd. Bill serial number reading device and bill serial number reading method
CN1312625C (en) * 2004-07-02 2007-04-25 清华大学 Character extracting method from complecate background color image based on run-length adjacent map
CN102236927A (en) * 2010-04-27 2011-11-09 北京中科金财科技股份有限公司 Method and device for collecting and indentifying digital information of bill stamp pattern
CN102236929A (en) * 2010-04-27 2011-11-09 北京中科金财科技股份有限公司 Acquisition and identification method of specified color pattern digitization information on bill and equipment thereof
KR101215987B1 (en) * 2008-12-22 2012-12-28 한국전자통신연구원 Apparatus for separating foreground from back ground and method thereof
JP2013178659A (en) * 2012-02-28 2013-09-09 Tokyo Denki Univ Character recognition apparatus, character recognition method and program

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1437692A1 (en) * 2003-01-08 2004-07-14 Glory Ltd. Bill serial number reading device and bill serial number reading method
US6883707B2 (en) 2003-01-08 2005-04-26 Glory Ltd. Bill serial number reading device and bill serial number reading method
CN1312625C (en) * 2004-07-02 2007-04-25 清华大学 Character extracting method from complecate background color image based on run-length adjacent map
KR101215987B1 (en) * 2008-12-22 2012-12-28 한국전자통신연구원 Apparatus for separating foreground from back ground and method thereof
US8417034B2 (en) 2008-12-22 2013-04-09 Electronics And Telecommunications Research Institute Apparatus and method for separating foreground and background
CN102236927A (en) * 2010-04-27 2011-11-09 北京中科金财科技股份有限公司 Method and device for collecting and indentifying digital information of bill stamp pattern
CN102236929A (en) * 2010-04-27 2011-11-09 北京中科金财科技股份有限公司 Acquisition and identification method of specified color pattern digitization information on bill and equipment thereof
JP2013178659A (en) * 2012-02-28 2013-09-09 Tokyo Denki Univ Character recognition apparatus, character recognition method and program

Similar Documents

Publication Publication Date Title
US7936929B2 (en) Image processing method and apparatus for removing noise from a document image
US6990235B2 (en) Color image processing apparatus and pattern extracting apparatus
US7272269B2 (en) Image processing apparatus and method therefor
US9189681B2 (en) Image processing apparatus, method thereof, and computer-readable storage medium
US7376272B2 (en) Method for image segmentation to identify regions with constant foreground color
US8401303B2 (en) Method and apparatus for identifying character areas in a document image
US6731789B1 (en) Image processing apparatus and method, and storage medium
JP5539066B2 (en) Clustering processing apparatus and clustering processing method
JPH05225378A (en) Area dividing system for document image
JPH11345339A (en) Method, device and system for picture segmentation, and computer-readable memory
JP4077919B2 (en) Image processing method and apparatus and storage medium therefor
CN115131804A (en) Document identification method and device, electronic equipment and computer readable storage medium
US6975761B1 (en) Image processing for clustering related text objects
JP2002185782A (en) Character extracting device, character extracting method and recording medium
JP2009123020A (en) Information processor, information processing method, program and recording medium
JP4211941B2 (en) Pattern extraction device
JP4967045B2 (en) Background discriminating apparatus, method and program
JP2011087144A (en) Telop character area detection method, telop character area detection device, and telop character area detection program
JP2002042055A (en) Method for character extraction from color document image
CN115147852A (en) Ancient book identification method, ancient book identification device, ancient book storage medium and ancient book storage equipment
JP3661774B2 (en) Character string recognition method, character recognition device and program
US6678427B1 (en) Document identification registration system
JP2001222717A (en) Document image recognition method and system, and computer readable recording medium
RU2630743C1 (en) Method and device for classification of images of printed copies of documents and sorting system of printed copies of documents
JPH02137079A (en) Color identifying circuit

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060328

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060808