JP2925300B2 - Optical character reader - Google Patents

Optical character reader

Info

Publication number
JP2925300B2
JP2925300B2 JP2308479A JP30847990A JP2925300B2 JP 2925300 B2 JP2925300 B2 JP 2925300B2 JP 2308479 A JP2308479 A JP 2308479A JP 30847990 A JP30847990 A JP 30847990A JP 2925300 B2 JP2925300 B2 JP 2925300B2
Authority
JP
Japan
Prior art keywords
image
label
character
color
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2308479A
Other languages
Japanese (ja)
Other versions
JPH04181392A (en
Inventor
勝彦 古屋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2308479A priority Critical patent/JP2925300B2/en
Publication of JPH04181392A publication Critical patent/JPH04181392A/en
Application granted granted Critical
Publication of JP2925300B2 publication Critical patent/JP2925300B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、帳票等に記入された文字等の読取りを行な
う光学的文字読取装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial application field) The present invention relates to an optical character reader for reading characters and the like written on a form and the like.

(従来の技術) 一般に、帳票等に記入された文字等の読取りを行なう
光学的文字読取装置は、黒色を有効(文字データ)、白
色を無効(背景)とする白黒(2値)画像を処理の対象
としている。そのため、帳票等に対して光学的走査を行
なって画像を検出する走査部では、あるしきい値論理に
基づいて、白/黒に対応する2値化が行なわれている。
このため、光学的文字読取装置の処理対象とされるOCR
帳票に文字記入枠や読取りの不要な文字等を印刷するた
めに用いられる色は、光学的文字読取装置(の走査部に
おけるしきい値論理)では白色と判定される色、すなわ
ちドロップアウトカラーと呼ばれる色が使用される。こ
のドロップアウトカラーは、走査部において使用される
光源の波長に応じて決定される。
(Prior Art) In general, an optical character reader that reads characters and the like written on a form or the like processes a black-and-white (binary) image in which black is valid (character data) and white is invalid (background). It is targeted for. Therefore, in a scanning unit that performs optical scanning on a form or the like to detect an image, binarization corresponding to white / black is performed based on a certain threshold logic.
For this reason, OCR, which is the object of processing by the optical character reader,
The colors used for printing character entry frames, characters that do not need to be read, and the like on a form are colors that are determined to be white by an optical character reading device (threshold logic in the scanning unit), that is, dropout colors. The called color is used. This dropout color is determined according to the wavelength of the light source used in the scanning unit.

従って、OCR帳票であれば、不要な背景等の色印刷は
ドロップアウトされ、記入された読取り対象とする文字
(文字データ)のみが検出されて、文字認識処理に供さ
れる。
Therefore, in the case of an OCR form, unnecessary color printing of the background and the like is dropped out, and only the written characters (character data) to be read are detected and provided for character recognition processing.

ところで、一般には、市販されている伝票や、光学的
文字読取装置による処理を前提としない帳票等が多数使
用されている。このため、これらの伝票や帳票に記入さ
れた文字等を、光学的文字読取装置によって読取ること
が要求されている。
By the way, in general, a lot of commercially available slips, forms that do not require processing by an optical character reader, and the like are used. For this reason, it is required that the characters and the like written on these slips and forms are read by an optical character reading device.

(発明が解決しようとする課題) しかしながら、市販されている伝票や、光学的文字読
取装置による処理を前提としない(ドロップアウトカラ
ーが用いられていない)帳票等は、さまざまな色を使用
しているため、光学的文字読取装置によって読取りを行
なっても、読取り対象とする文字が2値化によってドロ
ップアウトしたり、背景と文字とが共に黒と判定されて
しまう。このようなことから、OCR帳票以外の帳票等に
記録された文字の読取りを行なうことができなかった。
(Problems to be Solved by the Invention) However, commercially available slips, and slips or the like that do not assume the processing by the optical character reader (no dropout color is used) use various colors. Therefore, even when reading is performed by an optical character reading device, a character to be read is dropped out by binarization, or both the background and the character are determined to be black. For this reason, characters recorded on forms other than the OCR form cannot be read.

本発明は前記のような点に鑑みてなされたもので、市
販されている一般の伝票や光学的文字読取装置による処
理を前提としていない帳票等の文字読取りが可能な光学
的文字読取装置を提供することを目的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and provides an optical character reading device capable of reading characters of a form or the like that is not premised on processing by a commercially available general slip or optical character reading device. The purpose is to do.

[発明の構成] (課題を解決するための手段) 本発明は、文字等が記入された用紙についてのカラー
画像を検出する走査手段と、前記走査手段によって検出
されたカラー画像を格納するための格納手段と、前記格
納手段に格納されたカラー画像から、色毎に、連結した
画素の集合からなるラベル画像を検出するラベル画像検
出手段と、前記ラベル画像検出手段によって検出された
ラベル画像について、文字のラベル画像であるか否かを
判定するラベル判定手段と、前記ラベル判定手段によっ
て文字のラベル画像と判定されたラベル画像のみを特定
の色に変更して、前記走査手段によって検出されたカラ
ー画像を表示する表示手段と、前記表示手段によって表
示されたカラー画像中の任意の位置を示す位置情報を入
力する入力手段と、前記入力手段によって入力された位
置情報によって指示されたラベル画像及び画像を格納前
記ラベル判定手段によって文字のラベル画像と判定され
たラベル画像を有効とし、他を無効とすることにより2
値画像を生成する2値化手段と、前記2値化手段によっ
て得られた2値画像をもとにして文字認識処理を行なう
文字認識処理手段と、を具備して構成するものである。
[Constitution of the Invention] (Means for Solving the Problems) The present invention relates to a scanning unit for detecting a color image on a sheet on which characters and the like are written, and a storage unit for storing the color image detected by the scanning unit. Storage means, from the color image stored in the storage means, for each color, a label image detection means for detecting a label image consisting of a set of connected pixels, for the label image detected by the label image detection means, A label determining unit that determines whether or not the label image is a character label image, and changing only a label image determined as a character label image by the label determining unit to a specific color, and a color detected by the scanning unit. Display means for displaying an image; input means for inputting position information indicating an arbitrary position in the color image displayed by the display means; 2 by the label image determined as a character of the label image by storing the label determining unit label images and image indicated by the position information input by means as valid, and invalidates the other
And a character recognition processing means for performing a character recognition process based on the binary image obtained by the binarization means.

(作 用) このような構成によれば、文字と判定されたラベル画
像については文字を示す特定の色によって表示し、この
表示された画像をもとに判定についての修正を行なうこ
とができる。
(Operation) According to such a configuration, the label image determined to be a character is displayed in a specific color indicating the character, and the determination can be corrected based on the displayed image.

(実施例) 以下、図面を参照して本発明の一実施例を説明する。
第1図は同実施例に係わる光学的文字読取装置の構成を
示すブロック図である。第1図において、10は制御部で
あり、装置の動作全体の制御を司るものである。この制
御部10によって以下の各部が制御される。図中20は走査
部であり、処理対象とする帳票等をカラー画像として走
査し、カラー画像信号をシートメモリ30に出力するもの
である。シートメモリ30は、走査部20から出力されたカ
ラー画像を、例えば1帳票分格納するものである。図中
40はラベリング部であり、シートメモリ30に格納された
カラー画像から、色毎に画素の連結性によりラベル付け
を行ない、その画像(以下、ラベル画像と称する)を蓄
えるものである。図中50はラベル判定部であり、ラベリ
ング部40でラベル付けされた画像が文字であるか否かを
判定するものである。図中55は文字列抽出部であり、ラ
ベル判定部50により文字と判定されたラベル画像の配列
から文字列を抽出するものである。図中60は表示部であ
り、ラベリング部40、またはシートメモリ30に格納され
たイメージを制御部10の制御のもとに表示するものであ
る。図中70は操作部であり、表示部60に表示されている
イメージ中の任意の1点を指定することができ、指定位
置を示す位置情報を制御部10に出力するものである。図
中80は2値化部であり、ラベル判定部50によって文字と
判定されたラベル画像、または操作部70からの位置情報
によって指示されるラベル画像を有効(黒色、例えば
“1")とし、その他を無効(白色、例えば“0")とした
2値化を行ない、得られた2値画像を文字認識部90に出
力するものである。文字認識部90は、2値化部80から入
力した2値画像をもとに、文字認識処理を行なうもので
ある。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of an optical character reading apparatus according to the embodiment. In FIG. 1, reference numeral 10 denotes a control unit which controls the overall operation of the apparatus. The following units are controlled by the control unit 10. In the figure, a scanning unit 20 scans a form or the like to be processed as a color image and outputs a color image signal to the sheet memory 30. The sheet memory 30 stores, for example, one form of the color image output from the scanning unit 20. In the figure
Reference numeral 40 denotes a labeling unit that labels a color image stored in the sheet memory 30 according to the connectivity of pixels for each color and stores the image (hereinafter, referred to as a label image). In the figure, reference numeral 50 denotes a label determination unit which determines whether or not the image labeled by the labeling unit 40 is a character. In the figure, reference numeral 55 denotes a character string extracting unit, which extracts a character string from the array of label images determined to be characters by the label determining unit 50. In the figure, reference numeral 60 denotes a display unit, which displays an image stored in the labeling unit 40 or the sheet memory 30 under the control of the control unit 10. In the figure, reference numeral 70 denotes an operation unit which can designate an arbitrary point in the image displayed on the display unit 60 and outputs position information indicating the designated position to the control unit 10. In the figure, reference numeral 80 denotes a binarization unit that validates a label image determined as a character by the label determination unit 50 or a label image indicated by position information from the operation unit 70 (black, for example, “1”); The binarization is performed with the others being invalid (white, for example, “0”), and the obtained binary image is output to the character recognition unit 90. The character recognition section 90 performs a character recognition process based on the binary image input from the binarization section 80.

次に、同実施例の動作について説明する。 Next, the operation of the embodiment will be described.

まず、処理対象とする帳票は、走査部20において走査
され、カラー画像として検出される。検出されたカラー
画像は、シートメモリ30に格納される。
First, a form to be processed is scanned by the scanning unit 20 and detected as a color image. The detected color image is stored in the sheet memory 30.

次に、ラベリング部40は、シートメモリ30に格納され
たカラー画像について複数種の色毎に画素の連結性を調
べ、連結される集合毎にラベル付けを行なってラベル毎
の画像(ラベル画像)を格納する。色毎のイメージにつ
いてラベル付けが行なわれると、ラベル判定部50は、例
えば各色のラベル画像の色と連結性により文字を示すも
のであるか否かを判定する。文字の判定の方法として
は、ラベル画像を所定値分太らせることにより、連続し
た(塊の)画像となった場合に文字部分であると判定す
る。すなわち、文字の画像は細かいために、太らせるこ
とにより画像が潰れることを利用するものである。また
は、単位面積中に存在する線の数によって判定する。す
なわち、文字であれば線が他より多く存在することを利
用するものである。
Next, the labeling unit 40 checks the connectivity of pixels for each of a plurality of colors in the color image stored in the sheet memory 30, performs labeling for each connected set, and performs image processing for each label (label image). Is stored. When the labeling is performed on the image for each color, the label determination unit 50 determines whether or not the image indicates a character based on, for example, the color and the connectivity of the label image of each color. As a method of character determination, a label image is fattened by a predetermined value, and when a continuous (lump) image is formed, it is determined that the character portion is present. That is, the fact that the image of the character is fine and the image is crushed by thickening is used. Alternatively, the determination is made based on the number of lines existing in the unit area. In other words, for characters, the fact that there are more lines than others is used.

制御部10は、入力画像を表示部60に表示させる。この
時、ラベル判定部50によって文字と判定されたラベル画
像の色を例えば黒色に変換して表示する。ただし、文字
を示す画像と同画像に接する背景が同じ色の場合には、
文字と背景が区別できるように背景の明度、または色を
変更して表示する。なお、文字と判定された画像を表示
する際の色は黒色に限るものではない。
The control unit 10 causes the display unit 60 to display the input image. At this time, the color of the label image determined as a character by the label determination unit 50 is converted to, for example, black and displayed. However, if the image showing the text and the background in contact with the image have the same color,
Change the brightness or color of the background so that text and background can be distinguished. It should be noted that the color used to display an image determined to be a character is not limited to black.

ここで、表示部60に表示された画像に対して、操作部
70の例えばマウスカーソルの移動操作によって任意の一
点を指示することができる。すなわち、文字と判定され
たラベル画像が正しいか否を判断し、変更の必要がある
場合には表示画像の変更すべき領域の任意の1点を指定
し、さらにその領域を文字とするか背景とするかを指示
する。操作部70からの位置指示は、制御部10に通知され
る。なお、この時、複数の領域の指定を行なうことがで
きるようにしても良い。これにより、ラベル判定部50に
おいて誤った判定が行なわれた場合でも、容易に修正す
ることができる。
Here, the image displayed on the display unit 60 is
An arbitrary point can be designated by moving the mouse cursor 70, for example. That is, it is determined whether or not the label image determined to be a character is correct. If it is necessary to change the label image, an arbitrary point in the area to be changed of the display image is designated. Is specified. The position instruction from the operation unit 70 is notified to the control unit 10. At this time, a plurality of areas may be designated. Thus, even when an erroneous determination is made in the label determination unit 50, it can be easily corrected.

制御部10は、操作部70からの位置情報とラベル情報を
ラベル判定部50に出力する。ラベル判定部50は、位置情
報が示すラベル画像をラベリング部40より読出し、再度
文字の判定処理を実行する。
The control unit 10 outputs the position information and the label information from the operation unit 70 to the label determination unit 50. The label determination unit 50 reads the label image indicated by the position information from the labeling unit 40, and executes the character determination process again.

文字列抽出部55は、ラベル判定部50によって文字と判
定されたラベル画像の配列から文字列を抽出する。文字
列抽出部55は、抽出した文字列の画像を2値化部80に転
送する。2値化部80は、ラベル判定部50によって文字列
と判定されたラベル画像、または操作部70から入力され
た(文字を示す)位置情報を含むラベル画像を有効(例
えば“1")とし、その他のラベル画像を無効(例えば
“0")とするように2値化を行なう。2値化部80は、2
値化によって得られた画像を文字認識部90へ出力する。
The character string extraction unit 55 extracts a character string from the array of label images determined to be characters by the label determination unit 50. The character string extracting unit 55 transfers the image of the extracted character string to the binarizing unit 80. The binarization unit 80 validates (for example, “1”) a label image determined to be a character string by the label determination unit 50 or a label image including position information (indicating a character) input from the operation unit 70, Binarization is performed so that other label images are invalid (for example, “0”). The binarization unit 80
The image obtained by the binarization is output to the character recognition unit 90.

文字認識部90は、2値化部80からの2値画像から1文
字毎に文字パターンを切出して文字認識処理を行なう。
The character recognizing unit 90 performs a character recognizing process by extracting a character pattern for each character from the binary image from the binarizing unit 80.

このようにして、文字と判定されたラベル画像につい
ては色を変更して表示させて、オペレータによって判定
が誤りか否かを指示させることができる。このため、文
字認識処理させるべき画像が確実になるので、光学的文
字読取装置用ではない帳票等についても正確に文字読取
りができる。
In this way, the color of the label image determined to be a character can be changed and displayed, and the operator can instruct whether or not the determination is incorrect. For this reason, the image to be subjected to the character recognition processing is assured, so that characters can be accurately read even for forms and the like that are not used for the optical character reading device.

[発明の効果] 以上のように本発明によれば、文字と判定された画像
を文字を示す色によって表示させ、そこで判定について
の修正を行なうことができるので、市販されている一般
の伝票や光学的文字読取装置による処理を前提としてい
ないドロップアウトカラー以外の色が用いられた帳票等
の文字読取りを確実に行なうことが可能となるものであ
る。
[Effects of the Invention] As described above, according to the present invention, an image determined to be a character is displayed in a color indicating the character, and the determination can be corrected there. This makes it possible to reliably read a character such as a form using a color other than the dropout color which is not premised on the processing by the optical character reading device.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明の一実施例に係わる光学的文字読取装置
の構成を示すブロック図である。 10……制御部、20……走査部、30……シートメモリ(格
納手段)、40……ラベリング部(ラベル画像検出手
段)、50……ラベル判定部、55……文字列抽出部、60…
…表示部、70……操作部(入力手段)、80……2値化
部、90……文字認識部。
FIG. 1 is a block diagram showing a configuration of an optical character reading device according to one embodiment of the present invention. 10 control section, 20 scanning section, 30 sheet memory (storage means), 40 labeling section (label image detecting means), 50 label determination section, 55 character string extraction section, 60 …
... display unit, 70 ... operation unit (input means), 80 ... binarization unit, 90 ... character recognition unit.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】文字等が記入された用紙についてのカラー
画像を検出する走査手段と、 前記走査手段によって検出されたカラー画像を格納する
ための格納手段と、 前記格納手段に格納されたカラー画像から、色毎に、連
結した画素の集合からなるラベル画像を検出するラベル
画像検出手段と、 前記ラベル画像検出手段によって検出されたラベル画像
について、文字のラベル画像であるか否かを判定するラ
ベル判定手段と、 前記ラベル判定手段によって文字のラベル画像と判定さ
れたラベル画像のみを特定の色に変更して、前記走査手
段によって検出されたカラー画像を表示する表示手段
と、 前記表示手段によって表示されたカラー画像中の任意の
位置を示す位置情報を入力する入力手段と、 前記入力手段によって入力された位置情報によって指示
されたラベル画像及び前記ラベル判定手段によって文字
のラベル画像と判定されたラベル画像を有効とし、他を
無効とすることにより2値画像を生成する2値化手段
と、 前記2値化手段によって得られた2値画像をもとにして
文字認識処理を行なう文字認識処理手段と、 を具備したことによる光学的文字認識読取装置。
A scanning means for detecting a color image on a sheet on which characters and the like are written; a storage means for storing the color image detected by the scanning means; and a color image stored in the storage means. A label image detecting means for detecting a label image composed of a set of connected pixels for each color; and a label for determining whether or not the label image detected by the label image detecting means is a character label image. Determining means, changing only a label image determined as a character label image by the label determining means to a specific color, and displaying a color image detected by the scanning means; and displaying by the display means. Input means for inputting position information indicating an arbitrary position in the input color image, and the position information input by the input means. A binarizing unit that generates a binary image by validating a designated label image and a label image determined to be a character label image by the label determining unit, and invalidating the other, by the binarizing unit; And a character recognition processing means for performing character recognition processing based on the obtained binary image.
JP2308479A 1990-11-16 1990-11-16 Optical character reader Expired - Lifetime JP2925300B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2308479A JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2308479A JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Publications (2)

Publication Number Publication Date
JPH04181392A JPH04181392A (en) 1992-06-29
JP2925300B2 true JP2925300B2 (en) 1999-07-28

Family

ID=17981517

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2308479A Expired - Lifetime JP2925300B2 (en) 1990-11-16 1990-11-16 Optical character reader

Country Status (1)

Country Link
JP (1) JP2925300B2 (en)

Also Published As

Publication number Publication date
JPH04181392A (en) 1992-06-29

Similar Documents

Publication Publication Date Title
US6575367B1 (en) Image data binarization methods enabling optical reader to read fine print indicia
EP0063454A2 (en) Method for recognizing machine encoded characters
JPS63158678A (en) Inter-word space detecting method
JPH07105312A (en) Method and device for eliminating dirt from character image in optical character reader
JP2925300B2 (en) Optical character reader
JP2925275B2 (en) Optical character reader
JP3171626B2 (en) Character recognition processing area / processing condition specification method
JPH06111060A (en) Optical character reader
JPH06111057A (en) Optical character reader
JP2877380B2 (en) Optical character reader
JP2000331117A (en) Document reading system
JPS6278686A (en) Optical character reader
JPH0437967A (en) Optical character reader
JP2002259909A (en) Character reader
JPS61147379A (en) Optical character reader
JP2567852B2 (en) Optical character reader
JPH02187883A (en) Document reader
JP2514663B2 (en) Optical character reader
JPH01159779A (en) Optical read checking system
JPH10233930A (en) Image processor
JPH08171609A (en) High-speed character string extracting device
JPS63118893A (en) Optical character reader
JPH0731716B2 (en) Optical character reader
JPS6031682A (en) Method and apparatus for region extraction of printed document picture
JPH0760451B2 (en) Optical character reader

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090507

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090507

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100507

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100507

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110507

Year of fee payment: 12