JPH06111060A - Optical character reader - Google Patents

Optical character reader

Info

Publication number
JPH06111060A
JPH06111060A JP4256302A JP25630292A JPH06111060A JP H06111060 A JPH06111060 A JP H06111060A JP 4256302 A JP4256302 A JP 4256302A JP 25630292 A JP25630292 A JP 25630292A JP H06111060 A JPH06111060 A JP H06111060A
Authority
JP
Japan
Prior art keywords
character
color
label
image
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4256302A
Other languages
Japanese (ja)
Inventor
Hiroyuki Harashima
裕之 原島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4256302A priority Critical patent/JPH06111060A/en
Publication of JPH06111060A publication Critical patent/JPH06111060A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To read a character recorded on a form using various kinds of colors such as a general document on the market or a slip not assuming processing by an optical character reader, etc. CONSTITUTION:This reader is comprised of a scanning part 10 which detects a color image based on the form on which the character, etc., is recorded, a sheet buffer 20 to store a detected color image, a labelling part 30 which detects and stores a label image consisting of a set of connected elements at each color from among stored color images, a label identification part 40 which identifies whether or not a detected label image of each color is the label image in correspondence with the character, a character string extraction part 50 which extracts a character string based on the arrangement of the label image identified as the one in correspondence with the character, and a character recognition part 60 which performs character recognition on prescribed label images stored in the labelling part 30.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、複数の色が使用された
用紙に記録された文字の読取りを行なう光学的文字読取
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical character reader for reading characters recorded on a sheet of paper having a plurality of colors.

【0002】[0002]

【従来の技術】一般に、帳票等に記入された文字等の読
取りを行なう光学的文字読取装置は、黒色を有効(文字
データ)、白色を無効(背景)とする白黒(2値)画像
を処理の対象としている。そのため、帳票等に対して光
学的走査を行なって画像を検出する走査部では、あるし
きい値に基づいて、白/黒に対応する2値化が行なわれ
ている。
2. Description of the Related Art Generally, an optical character reader for reading characters written on a form or the like processes a black and white (binary) image in which black is valid (character data) and white is invalid (background). The target of. Therefore, in the scanning unit that optically scans a form or the like to detect an image, binarization corresponding to white / black is performed based on a certain threshold value.

【0003】このため、光学的文字読取装置の処理対象
とされる帳票に文字記入枠や読取りの不要な文字等を印
刷するために用いられる色は、光学的文字読取装置(の
走査部におけるしきい値理論)では白色と判定される
色、すなわちドロップアウトカラーと呼ばれる色が使用
される。このドロップアウトカラーは、走査部において
使用される光源の波長に応じて決定される。
For this reason, the color used for printing a character entry frame or a character that does not need to be read on a form to be processed by the optical character reading device has a color in the scanning part of the optical character reading device. In the threshold theory), a color determined to be white, that is, a color called a dropout color is used. This dropout color is determined according to the wavelength of the light source used in the scanning section.

【0004】従って、光学的文字読取装置用の帳票であ
れば、不要な背景等の色印刷はドロップアウトされ、記
入された読取り対象とする文字(文字データ)のみが検
出されて文字認識処理に供される。
Therefore, in the case of a form for an optical character reading device, unnecessary color printing of the background or the like is dropped out, and only the written characters (character data) to be read are detected for character recognition processing. Be served.

【0005】ところで、一般には、市販されている伝票
や、光学的文字読取装置による処理を前提としない帳票
等が多数使用されている。このため、これらの伝票や帳
票に記入された文字等を、光学的文字読取装置によって
読取ることが要求されている。
By the way, generally, a large number of slips that are commercially available and forms that are not premised on the processing by the optical character reader are used. Therefore, it is required that the characters written on these slips and forms be read by the optical character reading device.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、市販さ
れている伝票や、光学的文字読取装置による処理を前提
としない(ドロップアウトカラーが用いられていない)
帳票等は、さまざまな色を使用しているため、光学的文
字読取装置によって読取りを行なっても、読取り対象と
する文字が2値化処理によってドロップアウトしたり、
背景と文字とが共に黒と判定されてしまう。このような
ことから、光学的文字読取装置用の帳票以外の帳票等に
記録された文字の読取りを行なうことができなかった。
However, it is not premised on the processing of commercially available slips and optical character readers (dropout color is not used).
Since forms use various colors, even if they are read by an optical character reading device, the characters to be read may drop out due to the binarization process,
Both the background and the characters are determined to be black. For this reason, it is impossible to read the characters recorded on a form other than the form for the optical character reading device.

【0007】本発明は前記のような点に鑑みてなされた
もので、市販されている一般の伝票や光学的文字読取装
置による処理を前提としていない帳票等の、様々な色が
用いられた用紙に記録されている文字の読取りが可能な
光学的文字読取装置を提供することを目的とする。
The present invention has been made in view of the above points, and is a sheet using various colors such as a general slip that is commercially available and a form that is not premised on the processing by the optical character reading device. It is an object of the present invention to provide an optical character reading device capable of reading characters recorded on a computer.

【0008】[0008]

【課題を解決するための手段】本発明は、文字等が記録
された用紙について光学的走査を行ない、カラー画像を
検出する走査手段と、前記走査手段によって検出された
カラー画像を格納するための格納手段と、前記格納手段
に格納されたカラー画像から、色毎に、連結した画素の
集合からなるラベル画像を検出すると共に、色毎にラベ
ル画像を格納するラベリング手段と、前記ラベリング手
段によって検出された各色のラベル画像について、文字
に対応するラベル画像であるか否かを識別するラベル識
別手段と、前記ラベル識別手段により文字に対応すると
識別されたラベル画像の配列に基づいて文字列を抽出す
る文字列抽出手段と、前記文字列抽出手段によって抽出
された文字列に関する情報に基づいて、前記ラベリング
手段に格納された所定のラベル画像について文字認識を
行なう文字認識手段とを具備して構成する。
According to the present invention, there is provided scanning means for optically scanning a sheet on which characters and the like are recorded to detect a color image, and storing the color image detected by the scanning means. A storage unit, a label image composed of a set of connected pixels for each color is detected from the color image stored in the storage unit, and a labeling unit for storing the label image for each color; With respect to each of the label images of the respective colors, a label identification means for identifying whether or not the label image corresponds to a character, and a character string is extracted based on an array of label images identified as corresponding to the character by the label identification means. Stored in the labeling means based on the information about the character string extracting means and the character string extracted by the character string extracting means. And configure and a character recognition means for performing character recognition for the constant of the label image.

【0009】[0009]

【作用】このような構成によれば、複数の色が混在する
用紙から検出されたカラー画像について、色毎に文字に
対応するラベル画像(文字パターン)が検出され、その
並び(文字列)が抽出されるので、1枚の用紙に記録さ
れた複数の色による文字についてそれぞれ認識すること
ができる。
According to such a configuration, a label image (character pattern) corresponding to a character is detected for each color in a color image detected from a paper in which a plurality of colors are mixed, and the arrangement (character string) is detected. Since the characters are extracted, it is possible to recognize each of the characters of a plurality of colors recorded on one sheet.

【0010】[0010]

【実施例】以下、図面を参照して本発明の一実施例を説
明する。図1は同実施例に係わる光学的文字読取装置の
構成を示すブロック図である。図1に示すように、本発
明による光学的文字読取装置は、走査部10、シートバ
ッファ20、ラベリング部30、ラベル識別部40、文
字列抽出部50、及び文字認識部60によって構成され
ている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the arrangement of the optical character reading apparatus according to the embodiment. As shown in FIG. 1, the optical character reader according to the present invention includes a scanning unit 10, a sheet buffer 20, a labeling unit 30, a label identification unit 40, a character string extraction unit 50, and a character recognition unit 60. .

【0011】走査部10は、処理対象とする用紙等をカ
ラー画像として光学的に走査し、カラー画像信号をシー
トバッファ20に出力するものである。シートバッファ
20は、走査部10における光学的走査によって得られ
たカラー画像を、例えば1用紙分格納するものである。
ラベリング部30は、シートバッファ20に格納された
カラー画像から、色毎に画素の連結性によりラベル付け
を行ない、その画像(以下、ラベル画像と称する)を格
納するものである。ラベル識別部40は、ラベリング部
30によって検出されたラベル画像が文字についてのも
のであるかを、例えばその大きさに基づいて識別する。
この際、ラベル識別部40は、各色のラベル画像につい
て識別を行なう。文字列抽出部50は、ラベル識別部4
0によって文字と識別されたラベル画像について、色情
報及び配列に基づいて、文字列を抽出するものである。
文字認識部60は、文字抽出部50によって抽出された
情報に応じて、ラベリング部30に格納されたラベル画
像について文字認識を行なうものである。次に、本実施
例の動作について説明する。まず、処理対象とする用紙
は、走査部10において走査され、カラー画像として検
出される。検出されたカラー画像は、シートバッファ2
0に格納される。
The scanning unit 10 optically scans a sheet or the like to be processed as a color image and outputs a color image signal to the sheet buffer 20. The sheet buffer 20 stores the color image obtained by the optical scanning in the scanning unit 10 for one sheet, for example.
The labeling unit 30 labels the color image stored in the sheet buffer 20 for each color according to the connectivity of pixels and stores the image (hereinafter referred to as a label image). The label identifying unit 40 identifies whether the label image detected by the labeling unit 30 is for a character, for example, based on its size.
At this time, the label identifying unit 40 identifies the label image of each color. The character string extracting unit 50 includes the label identifying unit 4
With respect to the label image identified as a character by 0, the character string is extracted based on the color information and the arrangement.
The character recognition unit 60 performs character recognition on the label image stored in the labeling unit 30 according to the information extracted by the character extraction unit 50. Next, the operation of this embodiment will be described. First, the paper to be processed is scanned by the scanning unit 10 and detected as a color image. The detected color image is stored in the sheet buffer 2
Stored in 0.

【0012】ラベリング部30は、シートバッファ20
に1用紙分のカラー画像が格納されると、カラー画像に
ついて色毎に画像の連結性を調べ、連結される集合毎に
ラベル付けを行なってラベル毎の画像(ラベル画像)を
色毎に格納する。
The labeling section 30 includes a sheet buffer 20.
When a color image for one sheet is stored in, the connectivity of images is checked for each color in the color image, labeling is performed for each connected set, and the image for each label (label image) is stored for each color. To do.

【0013】色毎のイメージについてラベル付けが行な
われると、ラベル識別部40は、各色のラベル画像が文
字に対応するものであるかを識別する。この識別の方法
は、例えばラベリング画像の大きさが、予め設定された
あるしきい値より小さい場合に文字と識別し、大きい場
合には絵、写真、背景色などの非文字であると識別す
る。
When the labeling for each color image is performed, the label identifying section 40 identifies whether the label image of each color corresponds to a character. This identification method is, for example, when the size of the labeling image is smaller than a preset threshold value, it is identified as a character, and when it is larger, it is identified as a non-character such as a picture, a photograph, and a background color. .

【0014】文字列抽出部50は、文字と識別されたラ
ベル画像について、その色、及び位置情報により文字列
を抽出・生成する。文字列は、文字列抽出部50によ
り、ラベル画像間のユークリッド距離を調べ、1つの文
字の領域が抽出され、合わせて文字並びの方向(縦書き
・横書き等)も識別される。図2は文字列抽出を説明す
るための図である。
The character string extraction unit 50 extracts and generates a character string for the label image identified as a character based on its color and position information. For the character string, the character string extraction unit 50 checks the Euclidean distance between the label images, extracts one character area, and also identifies the direction of the character arrangement (vertical writing, horizontal writing, etc.). FIG. 2 is a diagram for explaining the character string extraction.

【0015】図2に示すように、1つのラベル画像に注
目し、このラベル画像の周辺に位置するラベル画像との
距離を求める。その結果、距離が短い方のラベル画像
を、同じ文字列の並びとする。
As shown in FIG. 2, attention is paid to one label image, and the distance between the label image and the label images located around the label image is obtained. As a result, the label image with the shorter distance is arranged in the same character string.

【0016】文字列抽出部50によって文字列が抽出さ
れると、文字認識部60は、抽出された文字列に関する
情報に基づいて、ラベリング部30に格納された文字に
ついてのラベル画像について、1文字毎に認識処理を行
なう。
When the character string is extracted by the character string extracting unit 50, the character recognizing unit 60 determines, based on the information about the extracted character string, one character for the label image of the character stored in the labeling unit 30. The recognition process is performed for each.

【0017】すなわち、文字認識部60は、文字列が抽
出された色のラベル画像について、ラベル画像の並びの
方向に従って順次ラベル画像について文字認識を行な
う。これにより、用紙に記録された文字の並びの順に文
字認識結果が得られることになるため、処理対象とする
用紙に記録される文字の並びは特に限定されない。ま
た、例えば赤色の文字が縦書き、青色の文字が横書きで
あるような場合であっても、各色の文字を正しい順で文
字認識することができる。
That is, the character recognizing section 60 sequentially performs character recognition on the label images of the color from which the character string is extracted, in accordance with the arrangement direction of the label images. As a result, the character recognition result is obtained in the order of the arrangement of the characters recorded on the paper, and therefore the arrangement of the characters recorded on the paper to be processed is not particularly limited. Further, for example, even when the red characters are written vertically and the blue characters are written horizontally, the characters of each color can be recognized in the correct order.

【0018】このようにして、用紙に記録された文字に
ついて各色毎に文字列を抽出し、その並びに応じて文字
認識を行なうので、用紙に対して複数の色が混在してい
る場合であっても、各色毎の文字について正しい文字認
識の結果が得られる。
In this way, a character string is extracted for each color of the characters recorded on the paper, and the character recognition is performed according to the arrangement, so that a plurality of colors may be mixed on the paper. Also, a correct character recognition result can be obtained for characters of each color.

【0019】[0019]

【発明の効果】以上のように本発明によれば、検出され
たカラー画像から色毎に文字の画像(ラベル画像)を抽
出し、その並びに応じて文字認識を行なうので、市販さ
れている一般の伝票や光学的文字読取装置による処理を
前提としていない帳票等の、様々な色が用いられた用紙
に記録されている文字の読取りが可能となるものであ
る。
As described above, according to the present invention, a character image (label image) is extracted for each color from a detected color image, and character recognition is performed according to the extracted color image. It is possible to read characters recorded on papers of various colors, such as slips and forms that are not premised on processing by the optical character reading device.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例に係わる光学的文字読取装置
の構成を示すブロック図。
FIG. 1 is a block diagram showing the configuration of an optical character reading device according to an embodiment of the present invention.

【図2】本実施例における文字列抽出部50の処理を説
明するための図。
FIG. 2 is a diagram for explaining the processing of a character string extraction unit 50 in this embodiment.

【符号の説明】[Explanation of symbols]

10…走査部、20…シートバッファ、30…ラベリン
グ部、40…ラベル識別部、50…文字列抽出部、60
…文字認識部。
10 ... Scan unit, 20 ... Sheet buffer, 30 ... Labeling unit, 40 ... Label identifying unit, 50 ... Character string extracting unit, 60
… Character recognition part.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 文字等が記録された用紙について光学的
走査を行ない、カラー画像を検出する走査手段と、 前記走査手段によって検出されたカラー画像を格納する
ための格納手段と、 前記格納手段に格納されたカラー画像から、色毎に、連
結した画素の集合からなるラベル画像を検出すると共
に、色毎にラベル画像を格納するラベリング手段と、 前記ラベリング手段によって検出された各色のラベル画
像について、文字に対応するラベル画像であるか否かを
識別するラベル識別手段と、 前記ラベル識別手段により文字に対応すると識別された
ラベル画像の配列に基づいて文字列を抽出する文字列抽
出手段と、 前記文字列抽出手段によって抽出された文字列に関する
情報に基づいて、前記ラベリング手段に格納された所定
のラベル画像について文字認識を行なう文字認識手段
と、 を具備したことを特徴とする光学的文字読取装置。
1. A scanning unit for optically scanning a sheet on which characters and the like are recorded to detect a color image, a storage unit for storing the color image detected by the scanning unit, and a storage unit for storing the color image. From the stored color image, for each color, while detecting the label image consisting of a set of connected pixels, labeling means for storing the label image for each color, for each color label image detected by the labeling means, A label identifying means for identifying whether or not the label image corresponds to a character, a character string extracting means for extracting a character string based on an array of label images identified as corresponding to the character by the label identifying means, Based on the information regarding the character string extracted by the character string extracting means, the predetermined label image stored in the labeling means is Optical character reader, wherein the character recognition means for performing character recognition, by comprising a.
JP4256302A 1992-09-25 1992-09-25 Optical character reader Pending JPH06111060A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4256302A JPH06111060A (en) 1992-09-25 1992-09-25 Optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4256302A JPH06111060A (en) 1992-09-25 1992-09-25 Optical character reader

Publications (1)

Publication Number Publication Date
JPH06111060A true JPH06111060A (en) 1994-04-22

Family

ID=17290779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4256302A Pending JPH06111060A (en) 1992-09-25 1992-09-25 Optical character reader

Country Status (1)

Country Link
JP (1) JPH06111060A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009152757A (en) * 2007-12-19 2009-07-09 Toshiba Corp Slip processor and program
JP2010218165A (en) * 2009-03-16 2010-09-30 Fuji Xerox Co Ltd Image processor, information processor, and image reader
JP2010218420A (en) * 2009-03-18 2010-09-30 Fuji Xerox Co Ltd Character recognition apparatus, image reading apparatus, and program
JP2014026660A (en) * 2013-09-12 2014-02-06 Toppan Printing Co Ltd Data generation device and data generation method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009152757A (en) * 2007-12-19 2009-07-09 Toshiba Corp Slip processor and program
JP2010218165A (en) * 2009-03-16 2010-09-30 Fuji Xerox Co Ltd Image processor, information processor, and image reader
US8660354B2 (en) 2009-03-16 2014-02-25 Fuji Xerox Co., Ltd. Image processing apparatus including an obtaining unit, an isolating unit, a classifying unit, information processing apparatus, and image reading apparatus
JP2010218420A (en) * 2009-03-18 2010-09-30 Fuji Xerox Co Ltd Character recognition apparatus, image reading apparatus, and program
US8385651B2 (en) 2009-03-18 2013-02-26 Fuji Xerox Co., Ltd. Character recognition device, image-reading device, computer readable medium, and character recognition method
JP2014026660A (en) * 2013-09-12 2014-02-06 Toppan Printing Co Ltd Data generation device and data generation method

Similar Documents

Publication Publication Date Title
US20040179733A1 (en) Image reading apparatus
CA2192024C (en) Method and apparatus of network distribution of record data using transmittal symbols hand entered on a transmittal sheet
US4797940A (en) Optical character reader
EP0896294B1 (en) Method for document rendering and character extraction
JPH06111060A (en) Optical character reader
JPH06131495A (en) Image information extraction system
JPH06111057A (en) Optical character reader
JP2925300B2 (en) Optical character reader
JP2925275B2 (en) Optical character reader
JPH05274473A (en) Optical character reader
JP3437296B2 (en) High-speed character string extraction device
JP2906608B2 (en) Optical character reader
JP2722434B2 (en) Optical character reader
JPH09259196A (en) Optical character reader and its control method
JP2710280B2 (en) Optical character reader
JP2573665B2 (en) Optical character reader
JPH06176193A (en) Optical character reader
JPH10254981A (en) Image processor
JPH06176194A (en) Optical character reader
JP2669434B2 (en) Optical character reader
JPH0528314A (en) Optical character reader
JP2002259909A (en) Character reader
JPH10233930A (en) Image processor
JPH0469785A (en) Optical information reader
JPH05298484A (en) Optical character reader