JPH04181392A - Optical character reader - Google Patents

Optical character reader

Info

Publication number
JPH04181392A
JPH04181392A JP2308479A JP30847990A JPH04181392A JP H04181392 A JPH04181392 A JP H04181392A JP 2308479 A JP2308479 A JP 2308479A JP 30847990 A JP30847990 A JP 30847990A JP H04181392 A JPH04181392 A JP H04181392A
Authority
JP
Japan
Prior art keywords
image
character
label
color
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2308479A
Other languages
Japanese (ja)
Other versions
JP2925300B2 (en
Inventor
Katsuhiko Furuya
古屋 勝彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2308479A priority Critical patent/JP2925300B2/en
Publication of JPH04181392A publication Critical patent/JPH04181392A/en
Application granted granted Critical
Publication of JP2925300B2 publication Critical patent/JP2925300B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To securely read characters out of a document, etc., where colors other than a dropout color are used by displaying an image which is decided as a character by using a color indicating the character and then correcting the decision making result. CONSTITUTION:A binarizing part 80 performs a binarizing process so that a label image decided as a character by a label decision part 50 or a label image indicated with position information from an operation part 70 is effective and others are ineffective; and the obtained binarized image is sent out to a character recognition part 90 and a character recognizing process is performed. In this case, the label image decided as the character is displayed by using the color indicating the character and the decision result is corrected according to the displayed image. Consequently, characters can be read out of general documents on the market and documents produced without the consideration of processing by an optical character reader.

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、帳票等に記入された文字等の読取りを行なう
光学的文字読取装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial Application Field) The present invention relates to an optical character reading device for reading characters written on a form or the like.

(従来の技術) 一般に、帳票等に記入された文字等の読取りを行なう光
学的文字読取装置は、黒色を有効(文字データ)、白色
を無効(背景)とする白黒(2値)画像を処理の対象と
している。そのため、帳票等に対して光学的走査を行な
って画像を検出する走査部では、あるしきい値論理に基
づいて、白/黒に対応する2値化か行なわれている。こ
のため、光学的文字読取装置の処理対象とされるOCR
帳票に文字記入枠や読取りの不要な文字等を印刷するた
めに用いられる色は、光学的文字読取装置(の走査部に
おけるしきい値論理)では白色と判定される色、すなわ
ちドロップアウトカラーと呼ばれる色か使用される。こ
のドロップアウトカラーは、走査部において使用される
光源の波長に応じて決定される。
(Prior art) Generally, optical character reading devices that read characters written on forms, etc. process black and white (binary) images in which black is valid (character data) and white is invalid (background). It is targeted for. Therefore, in a scanning unit that optically scans a document or the like to detect an image, binarization corresponding to white/black is performed based on a certain threshold logic. For this reason, OCR, which is the processing target of optical character reading devices,
The color used to print text boxes and characters that do not need to be read on forms is a color that is determined to be white by an optical character reader (threshold logic in the scanning unit), that is, a dropout color. Colors called or used. This dropout color is determined depending on the wavelength of the light source used in the scanning section.

従って、OCR帳票であれば、不要な背景等の色印刷は
ドロップアウトされ、記入された読取り対象とする文字
(文字データ)のみが検出されて、文字認識処理に供さ
れる。
Therefore, in the case of an OCR form, unnecessary color printing such as the background is dropped out, and only the written characters (character data) to be read are detected and subjected to character recognition processing.

ところで、一般には、市販されている伝票や、光学的文
字読取装置による処理を前提としない帳票等が多数使用
されている。このため、これらの伝票や帳票に記入され
た文字等を、光学的文字読取装置によって読取ることか
要求されている。
Incidentally, in general, many commercially available slips and forms that are not intended to be processed by an optical character reading device are used. Therefore, it is required that the characters written on these slips and forms be read by optical character reading devices.

(発明が解決しようとする課題) しかしなから、市販されている伝票や、光学的文字読取
装置による処理を前提としない(ドロップアウトカラー
か用いられていない)帳票等は、さまさまな色を使用し
ているため、光学的文字読取装置によって読取りを行な
っても、読取り対象とする文字か2値化によってドロッ
プアウトしたり、背景と文字とか共に黒と判定されてし
まう。このようなことから、OCR帳票以外の帳票等に
記録された文字の読取りを行なうことができなかった。
(Problem to be solved by the invention) However, commercially available slips and forms that are not intended to be processed by optical character reading devices (dropout colors or not used) are available in a variety of colors. Because of this, even if an optical character reading device is used to read the characters, the characters to be read may drop out due to binarization, or both the background and the characters may be determined to be black. For this reason, it has been impossible to read characters recorded on forms other than OCR forms.

本発明は前記のような点に鑑みてなされたもので、市販
されている一般の伝票や光学的文字読取装置による処理
を前提としていない帳票等の文字読取りが可能な光学的
文字読取装置を提供することを目的とする。
The present invention has been made in view of the above points, and provides an optical character reading device that can read characters on commercially available general slips and forms that are not intended to be processed by an optical character reading device. The purpose is to

し発明の構成] (課題を解決するための手段) 本発明は、文字等が記入された用紙についてのカラー画
像を検出する走査手段と、前記操作手段によって検出さ
れたカラー画像を少なくとも1用紙分格納するための格
納手段と、前記格納手段に格納されたカラー画像から、
複数の色毎に、連結した画素の集合からなるラベル画像
を検出するラベル画像検出手段と、前記ラベル画像検出
手段によって検出されたラベル画像について、文字のラ
ベル画像であるか否かを判定するラベル判定手段と、前
記ラベル判定手段によって文字のラベル画像と判定され
たラベル画像のみを特定の色に変更して、前記走査手段
によって検出されたカラー画像を表示する表示手段と、
前記表示手段によって表示された画像中の任意の位置を
示す位置情報を人力する人力手段と、前記入力手段によ
って入力された位置情報及び前記ラベル判定手段による
判定結果に基づいて2値画像を生成する2値化手段と、
前記2値化手段によって得られた2値画像をもとにして
文字認識処理を行なう文字認識処理手段と、を具備して
構成するものである。
[Structure of the Invention] (Means for Solving the Problems) The present invention includes a scanning means for detecting a color image on a sheet on which characters, etc. are written, and a color image detected by the operation means for at least one sheet. a storage means for storing, and a color image stored in the storage means;
a label image detection means for detecting a label image consisting of a set of connected pixels for each of a plurality of colors; and a label for determining whether or not a label image detected by the label image detection means is a label image of text. a determining means; a display means for changing only the label image determined to be a character label image by the label determining means to a specific color and displaying the color image detected by the scanning means;
human-powered means for manually inputting positional information indicating an arbitrary position in the image displayed by the displaying means; and generating a binary image based on the positional information input by the inputting means and the determination result by the label determining means. Binarization means,
The apparatus further comprises a character recognition processing means for performing character recognition processing based on the binary image obtained by the binarization means.

(作 用) このような構成によれば、文字と判定されたラベル画像
については文字を示す特定の色によって表示し、この表
示された画像をもとに判定にっいての修正を行なうこと
かできる。
(Function) According to such a configuration, a label image that is determined to be a character is displayed in a specific color indicating the character, and the determination is corrected based on this displayed image. can.

(実施例) 以下、図面を参照して本発明の一実施例を説明する。第
1図は同実施例に係わる光学的文字読取装置の構成を示
すブロック図である。第1図において、10は制御部で
あり、装置の動作全体の制御を司るものである。この制
御部1.0によって以下の各部か制御される。図中20
は走査部であり、処理対象とする帳票等をカラー画像と
して走査し、カラー画像信号をシートメモリ30に出力
するものである。シートメモリ30は、走査部20から
出力されたカラー画像を、例えば1帳票分格納するもの
である。図中40はラベリング部であり、シートメモリ
30に格納されたカラー画像から、色毎に画素の連結性
によりラベル付けを行ない、その画像(以下、ラベル画
像と称する)を蓄えるものである。図中50はラベル判
定部であり、ラベリング部40てラベル付けされた画像
か文字であるか否かを判定するものである。図中55は
文字列抽出部であり、ラベル判定部50により文字と判
定されたラベ小画像の配列から文字列を抽出するもので
ある。
(Example) Hereinafter, an example of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of an optical character reading device according to the same embodiment. In FIG. 1, reference numeral 10 denotes a control section, which controls the entire operation of the apparatus. The following sections are controlled by this control section 1.0. 20 in the diagram
1 is a scanning unit that scans a form or the like to be processed as a color image and outputs a color image signal to the sheet memory 30. The sheet memory 30 stores the color image output from the scanning section 20, for example, for one form. Reference numeral 40 in the figure is a labeling unit, which labels the color image stored in the sheet memory 30 by pixel connectivity for each color and stores the image (hereinafter referred to as a label image). In the figure, 50 is a label determining section, which determines whether the image labeled by the labeling section 40 is an image or a character. Reference numeral 55 in the figure represents a character string extracting unit, which extracts character strings from the array of label small images determined to be characters by the label determining unit 50.

図中60は表示部であり、ラベリング部40、またはシ
ートメモリ30に格納されたイメージを制御部90の制
御のもとに表示するものである。図中70は操作部であ
り、表示部60に表示されているイメージ中の任意の1
点を指定することができ、指定位置を示す位置情報を制
御部10に出力するものである。
In the figure, 60 is a display section, which displays images stored in the labeling section 40 or the sheet memory 30 under the control of the control section 90. 70 in the figure is an operation unit, and any one in the image displayed on the display unit 60
A point can be specified, and position information indicating the specified position is output to the control section 10.

図中80は2値化部であり、ラベル判定部50によって
文字と判定されたラベル画像、または操作部70からの
位置情報によって指示されるラベル画像を有効(黒色、
例えば“1″)とし、その他を無効(白色、例えば“0
”)とした2値化を行ない、得られた2値画像を文字認
識部90に出力するものである。文字認識部90は、2
値化部80から入力した2値画像をもとに、文字認識処
理を行なうものである。
80 in the figure is a binarization unit, which enables (black, black,
For example, “1”) and disable the others (white, for example “0”).
”) and outputs the obtained binary image to the character recognition unit 90. The character recognition unit 90
Character recognition processing is performed based on the binary image input from the digitization section 80.

次に、同実施例の動作について説明する。Next, the operation of this embodiment will be explained.

まず、処理対象とする帳票は、走査部20において走査
され、カラー画像として検出される。検出されたカラー
画像は、シートメモリ30に格納される。
First, a form to be processed is scanned by the scanning unit 20 and detected as a color image. The detected color image is stored in the sheet memory 30.

次に、ラベリング部40は、シートメモリ30に格納さ
れたカラー画像について複数種の色毎に画素の連結性を
調べ、連結される集合毎にラベル付けを行なってラベル
毎の画像(ラベル画像)を格納する。色毎のイメージに
ついてラベル付けが行なわれると、ラベル判定部50は
、例えば各色のラベル画像の色と連結性により文字を示
すものであるか否かを判定する。文字の判定の方法とし
ては、ラベル画像を所定値分太らせることにより、連続
した(塊の)画像となった場合に文字部分であると判定
する。すなわち、文字の画像は細かいために、太らせる
ことにより画像が漬れることを利用するものである。ま
たは、単位面積中に存在する線の数によって判定する。
Next, the labeling unit 40 examines the connectivity of pixels for each of the plurality of colors in the color image stored in the sheet memory 30, labels each connected set, and creates an image for each label (label image). Store. When the images for each color are labeled, the label determination unit 50 determines whether or not each color represents a character based on the color and connectivity of the label image for each color, for example. As a method for character determination, the label image is thickened by a predetermined value, and if it becomes a continuous (clump) image, it is determined that it is a character portion. In other words, since the character image is fine, it takes advantage of the fact that the image is blurred by making it thicker. Alternatively, it is determined by the number of lines existing in a unit area.

すなわち、文字であれば線が他より多く存在することを
利用するものである。
That is, in the case of characters, the fact that there are more lines than others is utilized.

制御部10は、人力画像を表示部60に表示させる。The control unit 10 causes the display unit 60 to display the human-powered image.

この時、ラベル判定部FPOによって文字と判定された
ラベル画像の色を例えば黒色に変換して表示する。たた
し、文字を示す画像と同画像に接する背景が同し色の場
合には、文字と背景か区別できるように背景の明度、ま
たは色を変更して表示する。
At this time, the color of the label image determined to be text by the label determination unit FPO is converted to, for example, black and displayed. However, if an image showing characters and a background adjacent to the same image have the same color, the brightness or color of the background is changed and displayed so that the characters and the background can be distinguished.

なお、文字と判定された画像を表示する際の色は黒色に
限るものではない。
Note that the color in which images determined to be characters are displayed is not limited to black.

ここで、表示部60に表示された画像に対して、操作部
70の例えばマウスカーソルの移動操作によって任意の
一点を指示することかできる。すなわち、文字と判定さ
れたラベル画像か正しいか否かを判断し、変更の必要が
ある場合には表示画像の変更すべき領域の任意の1点を
指定し、さらにその領域を文字とするか背景とするかを
指示する。
Here, an arbitrary point can be specified on the image displayed on the display section 60 by, for example, moving a mouse cursor on the operation section 70. In other words, it is determined whether the label image determined to be a character is correct or not, and if a change is necessary, an arbitrary point in the area to be changed in the displayed image is specified, and then that area is determined as a character. Specify whether to use it as a background.

操作部70からの位置指示は、制御部10に通知される
。なお、この時、複数の領域の指定を行なうことができ
るようにしても良い。これにより、ラベル判定部50に
おいて誤った判定が行なわれた場合でも、容易に修正す
ることができる。
The position instruction from the operation unit 70 is notified to the control unit 10. Note that at this time, it may be possible to designate a plurality of areas. Thereby, even if the label determination unit 50 makes an incorrect determination, it can be easily corrected.

制御部IOは、操作部70からの位置情報とラベル情報
をラベル判定部50に出力する。ラベル判定部50は、
位置情報が示すラベル画像をラベリング部40より読出
し、再度文字の判定処理を大行する。
The control unit IO outputs the position information and label information from the operation unit 70 to the label determination unit 50. The label determination unit 50
The label image indicated by the position information is read out from the labeling unit 40, and the character determination process is performed again.

文字列抽出部55は、ラベル判定部50によって文字と
判定されたラベル画像の配列から文字列を抽出する。文
字列抽出部55は、抽出した文字列の画像を2値化部8
0に転送する。2値化部80は、ラベル判定部50によ
って文字列と判定されたラベル画像、または操作部70
から入力された(文字を示す)位置情報を含むラベル画
像を有効(例えば“1”)とし、その他のラベル画像を
無効(例えば“0”)とするように2値化を行なう。2
値化部80は、2値化によって得られた画像を文字認識
部90へ出力する。
The character string extraction unit 55 extracts character strings from the array of label images determined to be characters by the label determination unit 50. The character string extraction section 55 converts the extracted character string image into a binarization section 8.
Transfer to 0. The binarization unit 80 converts the label image determined to be a character string by the label determination unit 50 or the operation unit 70
Binarization is performed so that the label image including the positional information (indicating a character) inputted from is made valid (for example, "1"), and the other label images are made invalid (for example, "0"). 2
The digitization section 80 outputs the image obtained by the binarization to the character recognition section 90.

文字認識部90は、2値化部80からの2値画像から1
文字毎に文字パターンを切出して文字認識処理を行なう
The character recognition unit 90 extracts 1 from the binary image from the binarization unit 80.
A character pattern is cut out for each character and character recognition processing is performed.

このようにして、文字と判定されたラベル画像について
は色を変更して表示させて、オペレータによって判定が
誤りか否かを指示させることができる。このため、文字
認識処理させるべき画像が確実になるので、光学的文字
読取装置用ではない帳票等についても1確に文字読取り
ができる。
In this way, a label image determined to be a character can be displayed with a different color, allowing the operator to indicate whether or not the determination is incorrect. Therefore, since the image to be subjected to character recognition processing is reliable, it is possible to reliably read characters even on forms and the like that are not intended for optical character reading devices.

[発明の効果] 以上のように本発明によれば、文字と判定された画像を
文字を示す色によって表示させ、そこで判定についての
修正を行なうことができるので、市販されている一般の
伝票や光学的文字読取装置による処理を前提としていな
いドロップアウトカラー以外の色が用いられた帳票等の
文字読取りを確実に行なうことが可能となるものである
[Effects of the Invention] As described above, according to the present invention, an image determined to be a character can be displayed in a color indicating the character, and the determination can be corrected. This makes it possible to reliably read characters on forms and the like that use colors other than dropout colors, which are not intended for processing by an optical character reading device.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は本発明の一実施例に係わる光学的文字読取装置
の構成を示すブロック図である。 10・・・制御部、20・・・走査部、30・・・シー
トメモリ(格納手段)、40・・・ラベリング部(ラベ
ル画像検出手段)、50・・・ラベル判定部、55・・
・文字列抽出部、60・・・表示部、70・・・操作部
(入力手段)、8o・・・2値化部、90・・文字認識
部。 出願人代理人 弁理士 鈴 江 武 彦!s1図
FIG. 1 is a block diagram showing the configuration of an optical character reading device according to an embodiment of the present invention. DESCRIPTION OF SYMBOLS 10... Control part, 20... Scanning part, 30... Sheet memory (storage means), 40... Labeling part (label image detection means), 50... Label determination part, 55...
- Character string extraction unit, 60...Display unit, 70...Operation unit (input means), 8o...Binarization unit, 90...Character recognition unit. Applicant's agent, patent attorney Takehiko Suzue! s1 diagram

Claims (1)

【特許請求の範囲】 文字等が記入された用紙についてのカラー画像を検出す
る走査手段と、 前記操作手段によって検出されたカラー画像を少なくと
も1用紙分格納するための格納手段と、前記格納手段に
格納されたカラー画像から、複数の色毎に、連結した画
素の集合からなるラベル画像を検出するラベル画像検出
手段と、 前記ラベル画像検出手段によって検出されたラベル画像
について、文字のラベル画像であるか否かを判定するラ
ベル判定手段と、 前記ラベル判定手段によって文字のラベル画像と判定さ
れたラベル画像のみを特定の色に変更して、前記走査手
段によって検出されたカラー画像を表示する表示手段と
、 前記表示手段によって表示された画像中の任意の位置を
示す位置情報を入力する入力手段と、前記入力手段によ
って入力された位置情報及び前記ラベル判定手段による
判定結果に基づいて2値画像を生成する2値化手段と、 前記2値化手段によって得られた2値画像をもとにして
文字認識処理を行なう文字認識処理手段と、 を具備したことを特徴とする光学的文字読取装置。
[Scope of Claims] A scanning means for detecting a color image of a sheet on which characters or the like are written, a storage means for storing at least one sheet of color image detected by the operation means, and a storage means for storing the color image detected by the operation means for at least one sheet; a label image detection means for detecting a label image consisting of a set of connected pixels for each of a plurality of colors from the stored color images; and a label image detected by the label image detection means, which is a label image of a character. a display means for displaying the color image detected by the scanning means by changing only the label image determined to be a text label image by the label determining means to a specific color; an input means for inputting positional information indicating an arbitrary position in the image displayed by the display means, and a binary image based on the positional information input by the input means and a determination result by the label determination means. An optical character reading device comprising: a binarization means for generating a binary image; and a character recognition processing means for performing character recognition processing based on the binary image obtained by the binarization means.
JP2308479A 1990-11-16 1990-11-16 Optical character reader Expired - Lifetime JP2925300B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2308479A JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2308479A JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Publications (2)

Publication Number Publication Date
JPH04181392A true JPH04181392A (en) 1992-06-29
JP2925300B2 JP2925300B2 (en) 1999-07-28

Family

ID=17981517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2308479A Expired - Lifetime JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Country Status (1)

Country Link
JP (1) JP2925300B2 (en)

Also Published As

Publication number Publication date
JP2925300B2 (en) 1999-07-28

Similar Documents

Publication Publication Date Title
US8306325B2 (en) Text character identification system and method thereof
US5805740A (en) Bar-code field detecting apparatus performing differential process and bar-code reading apparatus
JPS63158678A (en) Inter-word space detecting method
US4797940A (en) Optical character reader
JP2925300B2 (en) Optical character reader
JPH0291789A (en) Character recognizing system
JPH06131495A (en) Image information extraction system
JPH06111060A (en) Optical character reader
JP3022459B2 (en) Form identification registration device
JP2925275B2 (en) Optical character reader
JPH06111057A (en) Optical character reader
JP2000331117A (en) Document reading system
JP2573665B2 (en) Optical character reader
JPH0252329A (en) Method for recording and reading image information
JP2906608B2 (en) Optical character reader
JP2002259909A (en) Character reader
JPS61147379A (en) Optical character reader
JPH0437967A (en) Optical character reader
JPH10233930A (en) Image processor
JP2514660B2 (en) Optical character reader
JPH08171609A (en) High-speed character string extracting device
JPH03122786A (en) Optical character reader
JPH10254981A (en) Image processor
JPS6278686A (en) Optical character reader
JPH02187883A (en) Document reader

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090507

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090507

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100507

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100507

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12