JP2925275B2 - Optical character reader - Google Patents
Optical character readerInfo
- Publication number
- JP2925275B2 JP2925275B2 JP2233846A JP23384690A JP2925275B2 JP 2925275 B2 JP2925275 B2 JP 2925275B2 JP 2233846 A JP2233846 A JP 2233846A JP 23384690 A JP23384690 A JP 23384690A JP 2925275 B2 JP2925275 B2 JP 2925275B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- color
- label
- ruled line
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、帳票等に記入された文字等の読取りを行な
う光学的文字読取装置に関する。DETAILED DESCRIPTION OF THE INVENTION [Object of the Invention] (Industrial application field) The present invention relates to an optical character reader for reading characters and the like written on a form and the like.
(従来の技術) 一般に、帳票等に記入された文字等の読取りを行なう
光学的文字読取装置は、黒色を有効(文字データ)、白
色を無効(背景)とする白黒(2値)画像を処理の対象
としている。そのため、帳票等に対して光学的走査を行
なって画像を検出する走査部では、あるしきい値論理に
基づいて、白/黒に対応する2値化が行なわれている。
このため、光学的文字読取装置の処理対象とされるOCR
帳票に文字記入枠や読取りの不要な文字等を印刷するた
めに用いられる色は、光学的文字読取装置(の走査部に
おけるしきい値論理)では白色と判定される色、すなわ
ちドロップアウトカラーと呼ばれる色が使用される。こ
のドロップアウトカラーは、走査部において使用される
光源の波長に応じて決定される。(Prior Art) In general, an optical character reader that reads characters and the like written on a form or the like processes a black-and-white (binary) image in which black is valid (character data) and white is invalid (background). It is targeted for. Therefore, in a scanning unit that performs optical scanning on a form or the like to detect an image, binarization corresponding to white / black is performed based on a certain threshold logic.
For this reason, OCR, which is the object of processing by the optical character reader,
The colors used for printing character entry frames, characters that do not need to be read, and the like on a form are colors that are determined to be white by an optical character reading device (threshold logic in the scanning unit), that is, dropout colors. The called color is used. This dropout color is determined according to the wavelength of the light source used in the scanning unit.
したがって、OCR帳票であれば、不要な背景等の色印
刷はドロップアウトされ、記入された読取り対象とする
文字(文字データ)のみが検出されて、文字認識処理に
供される。Therefore, in the case of an OCR form, unnecessary color printing of a background or the like is dropped out, and only the written characters (character data) to be read are detected and subjected to character recognition processing.
ところで、一般には、市販されている伝票や、光学的
文字読取装置による処理を前提としない帳票等が多数使
用されている。このため、これらの伝票や帳票に記入さ
れた文字等を、光学的文字読取装置によって読取ること
が要求されている。By the way, in general, a lot of commercially available slips, forms that do not require processing by an optical character reader, and the like are used. For this reason, it is required that the characters and the like written on these slips and forms are read by an optical character reading device.
(発明が解決しようとする課題) しかしながら、市販されている伝票や、光学的文字読
取装置による処理を前提としない(ドロップアウトカラ
ーが用いられていない)帳票等は、さまざまな色を使用
しているため、光学的文字読取装置によって読取りを行
おうとしても、読取り対象とする文字が2値化によって
ドロップアウトしたり、背景と文字とが共に黒と判定さ
れてしまう。このようなことから、OCR帳票以外の帳票
等に記録された文字の読取りを行なうことができなかっ
た。(Problems to be Solved by the Invention) However, commercially available slips, and slips or the like that do not assume the processing by the optical character reader (no dropout color is used) use various colors. Therefore, even if the reading is performed by the optical character reading device, the character to be read is dropped out by binarization, or both the background and the character are determined to be black. For this reason, characters recorded on forms other than the OCR form cannot be read.
本発明は前記のような点に鑑みてなされたもので、市
販されている一般の伝票や光学的文字読取装置による処
理を前提としていない帳票等の文字読取りが可能な光学
的文字読取装置を提供することを目的とする。SUMMARY OF THE INVENTION The present invention has been made in view of the above points, and provides an optical character reading device capable of reading characters of a form or the like that is not premised on processing by a commercially available general slip or optical character reading device. The purpose is to do.
[発明の構成] (課題を解決するための手段) 本発明は、文字等が記入される用紙についてのカラー
画像を検出する走査手段と、前記走査手段によって検出
されたカラー画像を格納するための格納手段と、前記格
納手段に格納されたカラー画像から、色毎に、連結した
画素の集合からなるラベル画像を検出するラベル画像検
出手段と、前記ラベル画像検出手段によって検出された
色毎のラベル画像が罫線であることの条件を満足するか
否かに基づいて、前記用紙に記録された罫線の画像を検
出する罫線検出手段と、前記罫線検出手段によって検出
された罫線の画像を表示する表示手段と、前記表示手段
によって表示された罫線の画像によって囲まれた領域中
の任意の位置を示す位置情報を入力する入力手段と、前
記入力手段によって入力された位置情報が示す領域内に
おける前記ラベル画像検出手段によって検出された色毎
のラベル画像の中で最大の面積を持つ特定の色のラベル
画像を検出し、この検出された特定の色のラベル画像を
無効、その他のラベル画像を有効とした2値画像を生成
する2値化手段と、前記2値化手段によって得られた2
値画像をもとにして文字認識処理を行う文字認識処理手
段とを具備して構成するものである。[Configuration of the Invention] (Means for Solving the Problems) The present invention provides a scanning unit for detecting a color image on a sheet on which characters and the like are written, and a storage unit for storing the color image detected by the scanning unit. A storage unit, a label image detection unit that detects a label image composed of a set of connected pixels for each color from the color image stored in the storage unit, and a label for each color detected by the label image detection unit A ruled line detecting means for detecting a ruled line image recorded on the sheet based on whether or not a condition that the image is a ruled line is displayed, and a display for displaying the ruled line image detected by the ruled line detecting means Means, input means for inputting position information indicating an arbitrary position in an area surrounded by the image of the ruled line displayed by the display means, and input means input by the input means. A label image of a specific color having the largest area among the label images for each color detected by the label image detecting means in the area indicated by the position information detected, and the detected label image of the specific color is detected. Means for generating a binary image in which the label image is invalid and other label images are effective; and the binarization means obtained by the binarization means.
And character recognition processing means for performing character recognition processing based on the value image.
(作用) このような構成によれば、文字読取りに不要な背景の
ラベル画像が検出され、これをもとに文字パターンを含
む2値画像が生成されるので、一般の光学的文字読取装
置においてドロップアウトされない色による帳票等につ
いての文字読取りが可能となる。(Operation) According to such a configuration, a label image of a background unnecessary for character reading is detected, and a binary image including a character pattern is generated based on the detected label image. Therefore, in a general optical character reading device, Characters can be read for forms and the like in colors that are not dropped out.
(実施例) 以下、図面を参照して本発明の一実施例を説明する。
第1図は同実施例に係わる光学的文字読取装置の構成を
示すブロック図である。第1図において、10は制御部で
あり、装置の動作全体の制御を司るものである。この制
御部10によって以下の各部が制御される。図中20は走査
部であり、処理対象とする帳票等をカラー画像として走
査し、カラー画像信号をシートメモリ30に出力するもの
である。シートメモリ30は、走査部20から出力されたカ
ラー画像を、例えば1帳票分格納するものである。図中
40はラベリング部であり、シートメモリ30に格納された
カラー画像から、色毎に画素の連結性によりラベル付け
を行ない、その画像(以下、ラベル画像と称する)を蓄
えるものである。図中50は罫線検出部であり、ラベリン
グ部40に格納されたラベル画像から、罫線を判定・検出
するものである。図中60は表示部であり、ラベリング部
40、またはシートメモリ30に格納されたイメージを制御
部10の制御のもとに表示するものである。図中70は操作
部であり、表示部60に表示されているイメージ中の任意
の1点を指定することができ、指定位置を示す位置情報
を制御部10に出力するものである。図中80は2値化部で
あり、操作部70からの位置情報を制御部10から入力し、
位置情報によって示される点を含んだ罫線で囲まれた領
域(罫線領域)において最大の面積を持つラベリング部
40に格納されたラベル画像を無効(白色)とした2値化
を行ない、その結果得られる2値画像を文字認識部90に
出力するものである。文字認識部90は、2値化部80から
入力した2値画像をもとに、文字認識処理を行なうもの
である。Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a configuration of an optical character reading apparatus according to the embodiment. In FIG. 1, reference numeral 10 denotes a control unit which controls the overall operation of the apparatus. The following units are controlled by the control unit 10. In the figure, a scanning unit 20 scans a form or the like to be processed as a color image and outputs a color image signal to the sheet memory 30. The sheet memory 30 stores, for example, one form of the color image output from the scanning unit 20. In the figure
Reference numeral 40 denotes a labeling unit that labels a color image stored in the sheet memory 30 according to the connectivity of pixels for each color and stores the image (hereinafter, referred to as a label image). In the figure, reference numeral 50 denotes a ruled line detection unit which determines and detects ruled lines from the label image stored in the labeling unit 40. In the figure, reference numeral 60 denotes a display unit, which is a labeling unit.
40, or an image stored in the sheet memory 30 under the control of the control unit 10. In the figure, reference numeral 70 denotes an operation unit which can designate an arbitrary point in the image displayed on the display unit 60 and outputs position information indicating the designated position to the control unit 10. In the figure, reference numeral 80 denotes a binarization unit, which inputs position information from the operation unit 70 from the control unit 10,
A labeling unit having the largest area in an area (ruled area) surrounded by a ruled line including a point indicated by the position information
The binarization is performed such that the label image stored in 40 is invalidated (white), and the resulting binary image is output to the character recognition unit 90. The character recognition section 90 performs a character recognition process based on the binary image input from the binarization section 80.
次に、同実施例の動作について説明する。 Next, the operation of the embodiment will be described.
まず、処理対象とする帳票は、走査部20において走査
され、カラー画像として検出される。検出されたカラー
画像は、シートメモリ30に格納される。First, a form to be processed is scanned by the scanning unit 20 and detected as a color image. The detected color image is stored in the sheet memory 30.
次に、ラベリング部40は、シートメモリ30に格納され
たカラー画像について複数種の色毎に画素の連結性を調
べ、連結される集合毎にラベル付けを行なってラベル毎
の画像(ラベル画像)を格納する。色毎のイメージにつ
いてラベル付けが行なわれると、罫線検出部50は、各色
のラベル画像をもとに罫線の判定・検出を行なう。その
結果、罫線と判定されたラベル画像には、罫線のイメー
ジであることを示す情報が付加される。なお、罫線の判
定・検出は、例えばラベル画像毎に射影をとり、その射
影が罫線であることの条件(長さ,太さ等)を満足する
か否かによって行なう。Next, the labeling unit 40 checks the connectivity of pixels for each of a plurality of colors in the color image stored in the sheet memory 30, performs labeling for each connected set, and performs image processing for each label (label image). Is stored. When the labeling is performed on the image for each color, the ruled line detection unit 50 determines and detects the ruled line based on the label image of each color. As a result, information indicating that the image is a ruled line is added to the label image determined to be a ruled line. The determination / detection of a ruled line is performed, for example, by projecting for each label image and determining whether or not the condition (length, thickness, etc.) that the projection is a ruled line is satisfied.
制御部10は、罫線検出部50によって罫線と判定された
画像をシートメモリ30から読み出すか、またはラベル画
像から復元して表示部60に表示する。ここで、操作部70
の例えばマウスカーソルの移動操作によって、表示部60
に表示された罫線の画像に対して、囲まれた領域中の任
意の一点(すなわち一つの領域)を指示することができ
る。操作部70からの位置指示は、制御部10に通知され
る。なお、この時、複数の領域の指定を行なうことがで
きるようにしても良い。The control unit 10 reads the image determined as a ruled line by the ruled line detection unit 50 from the sheet memory 30 or restores the image from the label image and displays the image on the display unit 60. Here, the operation unit 70
For example, by moving the mouse cursor, the display 60
In the image of the ruled line displayed in (1), any one point (that is, one area) in the enclosed area can be designated. The position instruction from the operation unit 70 is notified to the control unit 10. At this time, a plurality of areas may be designated.
制御部10は、操作部70からの位置情報を2値化部80に
転送する。2値化部80は、指定された位置情報が含まれ
る罫線で囲まれた閉領域における各色についてのラベル
画像をラベリング部40から読み出す。そして、指示され
た閉領域において最大の面積を持つラベル画像を検出す
る。すなわち、ここで検出されるラベル画像は、帳票の
背景の色によるイメージとなる。2値化部80は、検出さ
れたラベル画像を無効(例えば“0")とし、同閉領域に
おけるその他の(他の色に対応する)ラベル画像(罫線
部分は除く)を有効(例えば“1")とするように2値化
を行なう。この結果、文字パターンを含むイメージを得
ることができる。The control unit 10 transfers the position information from the operation unit 70 to the binarization unit 80. The binarizing unit 80 reads out, from the labeling unit 40, a label image for each color in a closed region surrounded by a ruled line including the designated position information. Then, a label image having the largest area in the designated closed region is detected. That is, the label image detected here is an image based on the background color of the form. The binarizing unit 80 invalidates the detected label image (for example, “0”) and validates other label images (corresponding to other colors) (excluding the ruled line portion) in the closed area (for example, “1”). Binarization is performed as in "). As a result, an image including the character pattern can be obtained.
例えば、第2図に示すように、背景が青色の帳票につ
いての読取りによって、図中破線位置に罫線が検出さ
れ、左上の罫線で囲まれた閉領域内の一点が位置指示さ
れたものとする。この場合、指示された閉領域では、背
景の青色によるラベル画像が最大の面積として検出され
る。この領域内に文字が記入されていれば、検出された
ラベル画像においては白抜き文字のようになっている。
2値化部80は、背景部分を無効、文字部分を有効として
2値化を行ない、第3図に示すように2値画像を文字認
識部90に出力する。For example, as shown in FIG. 2, it is assumed that a ruled line is detected at a broken line position in the drawing by reading a form with a blue background, and a point in a closed area surrounded by a ruled line at the upper left is pointed. . In this case, in the designated closed area, the label image with the blue background is detected as the largest area. If a character is written in this area, the detected label image looks like a white character.
The binarization unit 80 binarizes the image by making the background part invalid and the character part valid, and outputs a binary image to the character recognition unit 90 as shown in FIG.
文字認識部90は、2値化部80からの2値画像から文字
パターンを切出して、文字認識処理を行なう。The character recognition unit 90 cuts out a character pattern from the binary image from the binarization unit 80 and performs a character recognition process.
なお、操作部70から複数の閉領域が指定されている場
合には、2値化部80による2値化処理、及び文字認識部
90による文字認識処理を指定された領域について逐次実
行する。When a plurality of closed areas are designated from the operation unit 70, the binarization processing by the binarization unit 80 and the character recognition unit
The character recognition processing by 90 is sequentially executed for the designated area.
このようにして、処理対象として指定された閉領域に
おいて最大の面積を持つラベル画像を背景とし、これに
基づいて2値化を行なうことによって、ドロップアウト
カラー以外の色印刷による帳票等であっても、確実に文
字認識処理を行なうことができる。In this way, the label image having the largest area in the closed area specified as the processing target is set as the background, and binarization is performed based on the label image. Also, the character recognition processing can be performed reliably.
[発明の効果] 以上のように本発明によれば、指定された閉領域にお
ける最大の面積を持つラベル画像を背景として検出し、
残りのラベル画像に基づいて文字認識処理を行なうこと
ができるので、市販されている一般の伝票や光学的文字
読取装置による処理を前提としていないドロップアウト
カラー以外の色が用いられた帳票等の文字読取りが可能
となるものである。[Effects of the Invention] As described above, according to the present invention, a label image having a maximum area in a designated closed region is detected as a background,
Since character recognition processing can be performed based on the remaining label images, characters such as general slips on the market and forms using colors other than dropout colors that are not assumed to be processed by an optical character reader It is possible to read.
第1図は本発明の一実施例に係わる光学的文字読取装置
の構成を示すブロック図、第2図及び第3図は2値化部
における処理を説明するための図である。 10…制御部、20…走査部、30…シートメモリ(格納手
段)、40…ラベリング部(ラベル画像検出手段)、50…
罫線検出部、60…表示部、70…操作部(入力手段)、80
…2値化部、90…文字認識部。FIG. 1 is a block diagram showing a configuration of an optical character reading apparatus according to one embodiment of the present invention, and FIGS. 2 and 3 are views for explaining processing in a binarizing unit. 10 control section, 20 scanning section, 30 sheet memory (storage means), 40 labeling section (label image detection means), 50 ...
Ruled line detection unit, 60 ... display unit, 70 ... operation unit (input means), 80
... Binarization unit, 90 ... Character recognition unit.
Claims (1)
画像を検出する走査手段と、 前記走査手段によって検出されたカラー画像を格納する
ための格納手段と、 前記格納手段に格納されたカラー画像から、色毎に、連
結した画素の集合からなるラベル画像を検出するラベル
画像検出手段と、 前記ラベル画像検出手段によって検出された色毎のラベ
ル画像が罫線であることの条件を満足するか否かに基づ
いて、前記用紙に記録された罫線の画像を検出する罫線
検出手段と、 前記罫線検出手段によって検出された罫線の画像を表示
する表示手段と、 前記表示手段によって表示された罫線の画像によって囲
まれた領域中の任意の位置を示す位置情報を入力する入
力手段と、 前記入力手段によって入力された位置情報が示す領域内
における前記ラベル画像検出手段によって検出された色
毎のラベル画像の中で最大の面積を持つ特定の色のラベ
ル画像を検出し、この検出された特定の色のラベル画像
を無効、その他のラベル画像を有効とした2値画像を生
成する2値化手段と、 前記2値化手段によって得られた2値画像をもとにして
文字認識処理を行う文字認識処理手段と、 を具備したことを特徴とする光学的文字読取装置。1. A scanning means for detecting a color image on a sheet on which characters and the like are written, a storage means for storing the color image detected by the scanning means, and a color image stored in the storage means A label image detecting means for detecting a label image composed of a set of connected pixels for each color; and whether or not a condition that the label image for each color detected by the label image detecting means is a ruled line is satisfied. , A ruled line detecting means for detecting a ruled line image recorded on the paper, a display means for displaying a ruled line image detected by the ruled line detecting means, and a ruled line image displayed by the display means Input means for inputting position information indicating an arbitrary position in an area surrounded by the area, and the laser in an area indicated by the position information input by the input means. A label image of a specific color having the largest area among the label images for each color detected by the image detection means, invalidating the detected label image of the specific color and validating other label images And a character recognition processing unit for performing a character recognition process based on the binary image obtained by the binarization unit. Optical character reader.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2233846A JP2925275B2 (en) | 1990-09-04 | 1990-09-04 | Optical character reader |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2233846A JP2925275B2 (en) | 1990-09-04 | 1990-09-04 | Optical character reader |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04113485A JPH04113485A (en) | 1992-04-14 |
JP2925275B2 true JP2925275B2 (en) | 1999-07-28 |
Family
ID=16961487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2233846A Expired - Lifetime JP2925275B2 (en) | 1990-09-04 | 1990-09-04 | Optical character reader |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2925275B2 (en) |
-
1990
- 1990-09-04 JP JP2233846A patent/JP2925275B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH04113485A (en) | 1992-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4962432A (en) | Selective retrieval of data from microfilm images of different forms by reading a memory index form cord (bar code) recorded on each image frame | |
US5608544A (en) | Framed-area defining rectangle forming device | |
JPH07120389B2 (en) | Optical character reader | |
JP2925275B2 (en) | Optical character reader | |
JP2925300B2 (en) | Optical character reader | |
JP3171626B2 (en) | Character recognition processing area / processing condition specification method | |
JPH06111057A (en) | Optical character reader | |
JPH06111060A (en) | Optical character reader | |
JP2573665B2 (en) | Optical character reader | |
JPS5949671A (en) | Optical character reader | |
JP3249231B2 (en) | Method and apparatus for masking a microfilm reader | |
JP2906608B2 (en) | Optical character reader | |
JPH06176193A (en) | Optical character reader | |
JPH0437967A (en) | Optical character reader | |
JPH0820669B2 (en) | Image information recording / reading method | |
JPH10233930A (en) | Image processor | |
JPS6278686A (en) | Optical character reader | |
JPS6020786B2 (en) | character reading device | |
JPS6361387A (en) | Character segmenting system | |
JPS63316563A (en) | Picture reader | |
JPH06317846A (en) | Method and device for masking microfilm reader | |
JPS63118893A (en) | Optical character reader | |
JPH1074236A (en) | Picture input device | |
JPH05274473A (en) | Optical character reader | |
JPH06176194A (en) | Optical character reader |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090507 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090507 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100507 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100507 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110507 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110507 Year of fee payment: 12 |