JPH11282958A - Character recognition method, its device and storage medium - Google Patents

Character recognition method, its device and storage medium

Info

Publication number
JPH11282958A
JPH11282958A JP10079085A JP7908598A JPH11282958A JP H11282958 A JPH11282958 A JP H11282958A JP 10079085 A JP10079085 A JP 10079085A JP 7908598 A JP7908598 A JP 7908598A JP H11282958 A JPH11282958 A JP H11282958A
Authority
JP
Japan
Prior art keywords
character
connected component
pixel connected
ruled line
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10079085A
Other languages
Japanese (ja)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP10079085A priority Critical patent/JPH11282958A/en
Publication of JPH11282958A publication Critical patent/JPH11282958A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform normal character recognition even when a character inside a frame is in contact with a frame ruled line. SOLUTION: A white picture element connection component area 102 inside a frame 100 is extracted, and black picture element connection component areas 104, 105 and 106 are extracted inside the above area. By checking the length of the white run of the outer periphery of the area 102, the contact of the character and the ruled line on the lower side of the frame 100 is estimated and the lower side of the area 106 is moved upwards by one or two picture elements for separation. Thereafter, the image of the area 104 and the image of the integrated area of the area 105 and the area 106 are segmented and the character is recognized.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、文字認識技術に係
り、特に、表や帳票などの罫線で囲まれた枠の内部の文
字の認識技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character recognition technique, and more particularly to a technique for recognizing a character inside a frame surrounded by ruled lines such as a table or a form.

【0002】[0002]

【従来の技術】従来、表や帳票などの罫線で囲まれた枠
内に記入された文字を認識する場合、例えば特開平3−
172984号公報に述べられているように、まず、主
走査方向及び副走査方向について罫線矩形を抽出し、罫
線矩形により囲まれた枠を罫線矩形の座標を用いて認識
する。次に、認識した枠の内部について黒画素連結成分
の矩形を抽出するが、枠の罫線の一部を文字として誤っ
て切り出さないように、黒画素連結成分の矩形と枠との
接触を調べ、枠と接触した矩形を除去し、除去されずに
残った黒画素連結成分の矩形だけを用いて枠内の文字画
像を切り出して文字認識を行う。
2. Description of the Related Art Conventionally, when recognizing characters written in a frame surrounded by ruled lines such as a table or a form, Japanese Patent Laid-Open Publication No.
As described in Japanese Patent No. 172984, first, ruled line rectangles are extracted in the main scanning direction and the sub-scanning direction, and a frame surrounded by the ruled line rectangles is recognized using the coordinates of the ruled line rectangles. Next, the rectangle of the black pixel connected component is extracted inside the recognized frame, but the contact between the rectangle of the black pixel connected component and the frame is checked so as not to cut out part of the ruled line of the frame as a character by mistake. The rectangle in contact with the frame is removed, and character recognition is performed by cutting out a character image in the frame using only the rectangle of the black pixel connected component remaining without being removed.

【0003】[0003]

【発明が解決しようとする課題】上に述べたような従来
技術によると、枠内の文字が罫線と接触していると、そ
の文字の黒画素連結成分矩形が除去されてしまうため、
文字画像を正しく切り出すことができず認識できないな
いという問題があった。
According to the above-mentioned prior art, if a character in a frame is in contact with a ruled line, a black pixel connected component rectangle of the character is removed.
There was a problem that character images could not be cut out correctly and could not be recognized.

【0004】よって、本発明の目的は、枠の罫線と接触
した文字がある場合でも、枠内の文字を正確に認識でき
るようにすることである。
Accordingly, an object of the present invention is to enable a character in a frame to be accurately recognized even when a character is in contact with a ruled line of the frame.

【0005】[0005]

【課題を解決するための手段】上記目的を達成するた
め、本発明は、帳票等の2値画像の白画素連結成分領域
を抽出し、抽出した白画素連結成分領域の内部について
2値画像の黒画素連結成分領域を抽出し、抽出した黒画
素連結成分領域中の、文字と罫線との接触があると推定
される黒画素連結成分領域に対し文字と罫線を分離する
ための処理を施した後、黒画素連結成分領域の情報に基
づいて2値画像から文字画像を切り出し文字認識を行
う。また、白画素連結成分領域の外周にある白ランの長
さを調べることによって、文字と罫線との接触がある黒
画素連結成分を推定する。
SUMMARY OF THE INVENTION In order to achieve the above object, the present invention extracts a white pixel connected component region of a binary image such as a form, and forms a binary image of the binary image inside the extracted white pixel connected component region. A black pixel connected component region is extracted, and a process for separating the character and the ruled line is performed on the black pixel connected component region in the extracted black pixel connected component region where it is estimated that there is contact between the character and the ruled line. Thereafter, a character image is cut out from the binary image based on the information of the black pixel connected component area, and character recognition is performed. Further, by examining the length of the white run on the outer periphery of the white pixel connected component area, a black pixel connected component having a contact between a character and a ruled line is estimated.

【0006】[0006]

【発明の実施の形態】以下、本発明の文字認識方法及び
装置の一実施形態として、コンピュータを利用する文字
認識システムを説明する。この文字認識システムの処理
の流れを図1に、機能的ブロック構成を図2に、ハード
ウェア構成を図3に示す。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A character recognition system using a computer will be described below as an embodiment of the character recognition method and apparatus of the present invention. FIG. 1 shows a processing flow of this character recognition system, FIG. 2 shows a functional block configuration, and FIG. 3 shows a hardware configuration.

【0007】図3に示すハードウェア構成はコンピュー
タとして一般的なものであり、50はCPU、51はC
PU50のワークエリア、プログラムやデータの記憶域
として利用されるRAM、52はハードディスク装置、
53はディスプレイ装置、54はマウスなどのポインテ
ィングデバイスやキーボードなどの入力装置、55はイ
メージスキャナ、56はフロッピーディスクやCD−R
OMなどの可搬記録媒体の読み書きのためのドライブで
あり、これら各要素はシステムバス58を介して相互に
接続される。
The hardware configuration shown in FIG. 3 is a general computer, and reference numeral 50 denotes a CPU and 51 denotes a C
A RAM used as a work area of the PU 50, a storage area of programs and data, a hard disk drive 52,
53 is a display device, 54 is a pointing device such as a mouse or an input device such as a keyboard, 55 is an image scanner, 56 is a floppy disk or CD-R.
The drive is a drive for reading and writing a portable recording medium such as an OM, and these components are interconnected via a system bus 58.

【0008】このコンピュータのハードウェア上で、図
1に示すステップS1〜S8からなる処理を実行させる
ための、あるいは図2に示す2値画像入力部20、認識
領域情報入力部21、白画素連結成分抽出部22、黒画
素連結成分抽出部23、文字・罫線分離部24、文字画
像生成部25及び文字認識部26の機能を実現させるた
めの文字認識処理プログラム68は、RAM51に置か
れCPU50によって実行される。この文字認識処理プ
ログラム68は、例えば、同プログラムが記録されたフ
ロッピーディスクなどの可搬記録媒体57よりドライブ
56によって読み込まれてRAM51に直接的にロード
され、あるいはハードディスク装置52に一旦格納さ
れ、実行時にハードディスク装置52よりRAM51に
ロードされる。図2中の各種メモリ30〜36としてR
AM51の特定の領域60〜66が割り当てられる。R
AM51には、文字認識のための標準パターン又はテン
プレートの集合である認識辞書67も記録媒体57又は
ハードディスク装置52よりロードされる。また、オペ
レーティングシステムなどの制御プログラムなどもハー
ドディスク装置52よりRAM51にロードされる。
In order to execute the processing consisting of steps S1 to S8 shown in FIG. 1 on the hardware of this computer, or a binary image input unit 20, a recognition area information input unit 21, and a white pixel connection unit shown in FIG. A character recognition processing program 68 for realizing the functions of the component extracting unit 22, the black pixel connected component extracting unit 23, the character / ruled line separating unit 24, the character image generating unit 25, and the character recognizing unit 26 is stored in the RAM 51 and executed by the CPU 50. Be executed. The character recognition processing program 68 is read from a portable recording medium 57 such as a floppy disk on which the program is recorded by the drive 56 and directly loaded into the RAM 51, or is temporarily stored in the hard disk device 52 and executed. Sometimes, it is loaded from the hard disk device 52 to the RAM 51. As various memories 30 to 36 in FIG.
Specific areas 60 to 66 of the AM 51 are allocated. R
A recognition dictionary 67 which is a set of standard patterns or templates for character recognition is loaded from the recording medium 57 or the hard disk device 52 into the AM 51. A control program such as an operating system is also loaded from the hard disk device 52 into the RAM 51.

【0009】以下、主として図1及び図2を参照し、文
字認識処理の動作を説明する。まずステップS1で、2
値画像入力部20により、処理対象となる帳票のマスタ
ー画像(データの記入されていない空の帳票の2値画
像)を入力し、それをマスターイメージメモリ30に格
納する。具体的には、例えば、イメージスキャナ55に
よって空の帳票を読み取り、読み取った画像をマスター
イメージメモリ30に格納するか、あるいは、予め読み
取られてハードディスク装置52に格納されているマス
ター画像をマスターイメージメモリ30に読み込む。
The operation of the character recognition process will be described below mainly with reference to FIGS. First, in step S1, 2
A master image of a form to be processed (a binary image of an empty form with no data) is input by the value image input unit 20 and stored in the master image memory 30. Specifically, for example, an empty form is read by the image scanner 55, and the read image is stored in the master image memory 30, or a master image read in advance and stored in the hard disk device 52 is stored in the master image memory. Read in 30.

【0010】次のステップS2で、認識領域情報入力部
21により、帳票上の文字認識の対象となる枠(水平方
向の罫線と垂直方向の罫線で四方を囲まれた矩形領域)
の位置や認識対象文字種などの情報(認識領域情報)を
入力し、それを領域情報メモリ32に格納する。具体的
は、例えば、前ステップS1で入力されたマスター画像
をディスプレイ装置53の画面に表示させ、入力装置5
4のマウスなどを操作して画面上で枠の対向した2つの
頂点を指示して、その座標を入力し、また文字種などを
指定する。なお、既に処理したことのある帳票と同じ種
類の帳票を扱う場合で、その認識領域情報がファイルと
してハードディスク装置52に保存されている場合に
は、帳票の種類を指定し、その認識領域情報を領域情報
メモリ32に読み込む方法で、認識領域情報の入力を行
うこともできる。この場合、マスター画像の入力を改め
て行う必要はない(ステップS1を省略可能である)。
In the next step S2, the recognition area information input unit 21 causes a character recognition frame on the form (a rectangular area surrounded on all sides by a horizontal ruled line and a vertical ruled line).
The information (recognition area information) such as the position of the character and the character type to be recognized is input and stored in the area information memory 32. Specifically, for example, the master image input in the previous step S1 is displayed on the screen of the display device 53, and the input device 5
By operating the mouse 4 etc., two opposing vertices of the frame are designated on the screen, the coordinates are input, and the character type and the like are designated. If a form of the same type as a form that has already been processed is handled, and the recognition area information is stored in the hard disk device 52 as a file, the type of the form is designated and the recognition area information is specified. Recognition area information can also be input by a method of reading into the area information memory 32. In this case, there is no need to input the master image again (step S1 can be omitted).

【0011】次のステップS3で、2値画像入力部20
により、同じ種類の帳票のデータ画像(文字認識の対象
となるデータ、すなわち数字や記号を含む文字の記入さ
れている帳票の2値画像)を入力し、データイメージメ
モリ31に格納する。具体的には、例えば、イメージス
キャナ55によってデータが記入された帳票を読み取
り、読み取った画像をデータイメージメモリ31に格納
する。あるいは、予めイメージスキャナ55で読み取ら
れてハードディスク装置52に格納されているデータ画
像を、データイメージメモリ31に読み込む。
In the next step S3, the binary image input unit 20
Thus, a data image of the same type of form (data to be subjected to character recognition, that is, a binary image of a form in which characters including numbers and symbols are entered) is input and stored in the data image memory 31. Specifically, for example, the form in which data is written is read by the image scanner 55, and the read image is stored in the data image memory 31. Alternatively, a data image previously read by the image scanner 55 and stored in the hard disk device 52 is read into the data image memory 31.

【0012】次のステップS4で、白画素連結成分抽出
部22において、領域情報メモリ32内の認識対象の枠
の位置情報を参照し、その枠の内部についてデータ画像
を走査して白画素の連結成分を抽出し、白画素連結成分
を囲む矩形領域の位置情報(例えば対向する2頂点の座
標)を白画素連結成分領域の情報として白連結成分メモ
リ33に格納する。帳票上に認識対象となる枠が複数個
存在する場合には、それぞれの枠について同様の白画素
連結成分領域が抽出される。この処理の際に、白画素連
結成分抽出部22は白画素連結成分領域の外周にある白
ランの長さも検出し、白ラン長情報を白連結成分メモリ
33に格納する。
In the next step S4, the white pixel connected component extraction unit 22 refers to the position information of the frame to be recognized in the area information memory 32, scans the data image inside the frame, and connects the white pixels. The component is extracted, and the position information (for example, the coordinates of two opposing vertices) of the rectangular region surrounding the white pixel connected component is stored in the white connected component memory 33 as the information of the white pixel connected component region. When there are a plurality of frames to be recognized on the form, a similar white pixel connected component area is extracted for each of the frames. In this process, the white pixel connected component extraction unit 22 also detects the length of the white run on the outer periphery of the white pixel connected component area, and stores the white run length information in the white connected component memory 33.

【0013】図4を参照して説明する。図4において、
100は枠を構成する罫線であり、102は抽出される
白画素連結成分領域である。この白画素連結成分領域1
02の上辺H1及び下辺H2にある水平方向の白ランの
長さと、左辺V1及び右辺V2にある垂直方向の白ラン
の長さが検出される。
A description will be given with reference to FIG. In FIG.
100 is a ruled line constituting a frame, and 102 is a white pixel connected component area to be extracted. This white pixel connected component area 1
02, the length of the horizontal white run on the upper side H1 and the lower side H2 and the length of the vertical white run on the left side V1 and the right side V2 are detected.

【0014】次のステップS5では、黒画素連結成分抽
出部23において、白連結成分メモリ33内の白画素連
結成分領域の情報を参照し、白画素連結成分領域内につ
いてデータイメージメモリ31内のデータ画像を走査
し、黒画素の連結成分を抽出し、黒画素連結成分を囲む
矩形領域の位置情報(例えば対向する2頂点の座標)を
黒画素連結成分領域情報として黒連結成分メモリ34に
格納する。図4に示す枠の場合、枠内に記入された文字
「あ」に対応する黒画素連結成分領域104、文字
「う」の上部分に対応する黒画素連結成分領域105及
び下部分に対応する黒画素連結成分領域106が抽出さ
れることになる。この黒画素連結成分領域の抽出処理
は、認識対象となる全ての枠の白画素連結領域について
行われる。
In the next step S5, the black pixel connected component extraction unit 23 refers to the information of the white pixel connected component area in the white connected component memory 33, and the data in the data image memory 31 for the white pixel connected component area. The image is scanned, the connected components of the black pixels are extracted, and the position information (for example, the coordinates of two opposing vertices) of the rectangular region surrounding the black pixel connected components is stored in the black connected component memory 34 as the black pixel connected component region information. . In the case of the frame shown in FIG. 4, the black pixel connected component region 104 corresponding to the character "A" written in the frame, the black pixel connected component region 105 corresponding to the upper portion of the character "U", and the lower portion correspond to the lower portion. The black pixel connected component area 106 is extracted. The extraction processing of the black pixel connected component area is performed on the white pixel connected areas of all the frames to be recognized.

【0015】次のステップS6では、文字・罫線分離部
24において、白連結成分メモリ33内の白画素連結成
分領域と白ラン長の情報を参照し、枠の罫線と文字との
接触の有無を判定し、また、接触位置を推定する。文字
と罫線の接触がない場合、白画素連結成分領域の外周
(上辺、下辺、左辺、右辺)の長さと、それぞれにおい
て検出される白ランの長さはほぼ等しいはずである。し
かし、罫線と文字との接触があると、その接触部分で白
ランが分断され上に述べたような関係が成立しなくな
る。したがって、白画素連結成分領域の外周にある白ラ
ンの長さを調べることにより、枠の罫線と文字との接触
の有無を判定できる。また、文字と罫線との接触がある
と判定した場合、白ランの長さを調べることで、文字と
罫線との接触が起こっている黒画素連結成分領域を推定
できる。
In the next step S6, the character / ruled line separating section 24 refers to the information on the white pixel connected component area and the white run length in the white connected component memory 33 to determine whether or not the ruled line of the frame is in contact with the character. Judge and estimate the contact position. If there is no contact between the character and the ruled line, the length of the outer periphery (upper side, lower side, left side, right side) of the white pixel connected component area should be substantially equal to the length of the white run detected in each. However, if there is a contact between the ruled line and the character, the white run is divided at the contact portion, and the above-mentioned relationship is not established. Therefore, by checking the length of the white run on the outer periphery of the white pixel connected component area, it is possible to determine the presence or absence of contact between the ruled line of the frame and the character. When it is determined that there is a contact between a character and a ruled line, by checking the length of a white run, it is possible to estimate a black pixel connected component region where a contact between the character and a ruled line occurs.

【0016】図4に示す例では、白画素連結成分領域1
02の上辺H1、左辺V1、右辺V2の長さと、そこに
検出される白ランの長さはほぼ等しい。しかし、下辺H
2では文字と罫線との接触位置を境に前後に分断された
2つの白ランが検出され、それぞれの長さw1,w2は
下辺H2の長さと大きく相異するため、下辺において文
字と罫線とが接触していると判定される。また、接触位
置で白ランが分断されるのであるから、黒画素連結成分
領域106の下端部分で文字と罫線の接触があると推定
される。このような文字と罫線の接触は、文字の記入位
置のずれによって起きる場合と、罫線の局所的な位置ず
れによっても起こる。
In the example shown in FIG. 4, the white pixel connected component area 1
02, the length of the left side V1, the length of the right side V2, and the length of the white run detected there are almost equal. However, the lower side H
In FIG. 2, two white runs divided before and after the contact position between the character and the ruled line are detected, and the lengths w1 and w2 are significantly different from the length of the lower side H2. Are determined to be in contact. Since the white run is divided at the contact position, it is estimated that there is a contact between the character and the ruled line at the lower end of the black pixel connected component area 106. Such contact between the character and the ruled line occurs due to a displacement of the character entry position and also due to a local displacement of the ruled line.

【0017】文字・罫線分離部24においては、文字と
罫線との接触があると判断したときには、黒連結成分メ
モリ34内の黒画素連結成分領域情報を参照し、罫線と
文字との接触があると推定される黒画素連結成分領域
を、その領域から罫線の画素をノイズとして除去するよ
うに、つまり文字と罫線とを分離させるように修正し、
修正後の黒画素連結成分領域の情報によって黒連結成分
メモリ34内の該当情報を書き換える。図4の例の場
合、枠の下辺を構成する罫線と文字の接触が黒画素連結
成分領域106において生じていると推定されるので、
例えば、黒画素連結成分領域106の下辺を例えば1画
素又は2画素分だけ上に移動させるように修正する。か
くして、文字「う」の下部分の文字線と罫線とが分離さ
れる。なお、枠の上辺の罫線と接触していると推定され
る黒画素連結成分領域については、その上辺を例えば1
画素又は2画素分だけ下に移動させ、枠の罫線の左辺又
は右辺の罫線と接触していると推定される黒画素連結成
分領域については、その左辺を右へ、又はその右辺を左
へ、例えば1画素又は2画素分だけ移動させることによ
って、罫線と文字の分離を行うことになる。
When the character / ruled line separation unit 24 determines that there is a contact between the character and the ruled line, the character / ruled line separation unit 24 refers to the black pixel connected component area information in the black connected component memory 34 and there is a contact between the ruled line and the character. The black pixel connected component region estimated to be corrected to remove the pixels of the ruled line from the region as noise, that is, to separate the character and the ruled line,
The corresponding information in the black connected component memory 34 is rewritten with the corrected information of the black pixel connected component area. In the case of the example of FIG. 4, since it is estimated that the contact between the ruled line constituting the lower side of the frame and the character has occurred in the black pixel connected component area 106,
For example, the correction is made such that the lower side of the black pixel connected component area 106 is moved upward by one pixel or two pixels, for example. Thus, the character line and the ruled line below the character "U" are separated. For the black pixel connected component region estimated to be in contact with the ruled line on the upper side of the frame, the upper side is set to, for example, 1
Moved down by a pixel or two pixels, for a black pixel connected component area that is presumed to be in contact with the ruled line on the left or right side of the ruled line of the frame, the left side to the right, or the right side to the left, For example, by moving by one or two pixels, the ruled line and the character are separated.

【0018】次のステップS7で、文字画像生成部25
において、黒連結成分メモリ34内の黒画素連結成分領
域情報を参照し、図4の黒画素連結成分領域104のよ
うな単独で1文字とみなされる黒画素連結成分領域のイ
メージ、あるいは図4の黒画素連結成分領域105,1
06のように1つの文字とみなされる2つ又はそれ以上
の黒画素連結成分領域を統合した領域のイメージを、デ
ータイメージメモリ31内のデータ画像より切り出すこ
とにより文字画像を生成し、それを文字イメージメモリ
35に格納する。図4の黒画素連結成分領域106のよ
うに文字と罫線との接触がある領域でも、前のステップ
S7の処理によって、その接触を分離するように領域に
修正が加えられているため、罫線から分離された文字画
像が生成される。
In the next step S7, the character image generation unit 25
4, the image of the black pixel connected component area that is regarded as one character alone, such as the black pixel connected component area 104 in FIG. 4, or the image in FIG. Black pixel connected component area 105,1
A character image is generated by cutting out an image of an area obtained by integrating two or more black pixel connected component areas regarded as one character, such as 06, from the data image in the data image memory 31 and generating the character image. It is stored in the image memory 35. Even in an area where a character and a ruled line are in contact with each other, as in the black pixel connected component area 106 in FIG. 4, the area in the previous step S7 is modified so as to separate the contact. A separated character image is generated.

【0019】次のステップS8では、文字認識部26に
おいて、文字イメージメモリ35より文字画像を読み込
んで特徴を抽出し、抽出した特徴と認識辞書67(図
3)とのマッチングをとることにより文字を認識し、認
識結果を認識結果メモり36に格納する。この認識の
際、領域情報メモリ32内の認識対象文字種の情報を参
照し、字種を絞り込む。枠の罫線と接触した図4の文字
「う」のような文字も、罫線から分離された形で文字画
像が生成されるため精度よく認識可能である。次に処理
すべき同じ種類の帳票があれば、ステップS3からステ
ップS8までの処理が繰り返されて文字認識が行われ
る。
In the next step S8, the character recognition section 26 reads a character image from the character image memory 35 to extract features, and matches the extracted features with the recognition dictionary 67 (FIG. 3) to identify characters. The recognition is performed, and the recognition result is stored in the recognition result memory 36. At the time of this recognition, the character type is narrowed down by referring to the information on the character type to be recognized in the area information memory 32. Characters such as the character “U” in FIG. 4 that are in contact with the ruled line of the frame can be recognized with high accuracy because a character image is generated in a form separated from the ruled line. If there is the same type of form to be processed next, the processing from step S3 to step S8 is repeated to perform character recognition.

【0020】なお、本発明は、コンピュータを利用せ
ず、図2に示したような構成の専用のハードウェアによ
って実施することも可能であることは言うまでもない。
It is needless to say that the present invention can be implemented by dedicated hardware having a configuration as shown in FIG. 2 without using a computer.

【0021】[0021]

【発明の効果】以上に詳細に説明した如く、本発明の文
字認識方法及び装置によれば、表や帳票などにおいて、
枠内に記入された文字が枠の罫線と接触している場合に
も正確な文字認識が可能となるという大きな効果を得ら
れる。
As described in detail above, according to the character recognition method and apparatus of the present invention, in a table or a form,
There is a great effect that accurate character recognition can be performed even when a character written in the frame is in contact with the ruled line of the frame.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施例の処理の流れを示すフローチ
ャートである。
FIG. 1 is a flowchart illustrating a flow of a process according to an embodiment of the present invention.

【図2】本発明の一実施例の機能的ブロック構成を示す
ブロック図である。
FIG. 2 is a block diagram showing a functional block configuration according to an embodiment of the present invention.

【図3】本発明の一実施例のハードウェア構成を示すブ
ロック図である。
FIG. 3 is a block diagram illustrating a hardware configuration according to an embodiment of the present invention.

【図4】処理内容の説明のための模式図である。FIG. 4 is a schematic diagram for explaining processing contents.

【符号の説明】[Explanation of symbols]

20 2値画像入力部 21 認識領域情報入力部 22 白画素連結成分抽出部 23 黒画素連結成分抽出部 24 文字・罫線分離部 25 文字画像生成部 26 文字認識部 30 マスターイメージメモリ 31 データイメージメモリ 32 領域情報メモリ 33 白連結成分メモリ 34 黒連結成分メモリ 35 文字イメージメモリ 36 認識結果メモり 50 CPU 51 RAM 52 ハードディスク装置 53 ディスプレイ装置 54 入力装置 55 イメージスキャナ 57 可搬記録媒体 68 文字認識処理プログラム 100 枠罫線 102 白画素連結成分領域 104,105,106 黒画素連結成分領域 Reference Signs List 20 Binary image input unit 21 Recognition area information input unit 22 White pixel connected component extraction unit 23 Black pixel connected component extraction unit 24 Character / ruled line separation unit 25 Character image generation unit 26 Character recognition unit 30 Master image memory 31 Data image memory 32 Area information memory 33 White connected component memory 34 Black connected component memory 35 Character image memory 36 Recognition result memory 50 CPU 51 RAM 52 Hard disk device 53 Display device 54 Input device 55 Image scanner 57 Portable recording medium 68 Character recognition processing program 100 frame Ruled line 102 White pixel connected component area 104, 105, 106 Black pixel connected component area

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 帳票等の2値画像の白画素連結成分領域
を抽出する第1のステップと、第1のステップにより抽
出された白画素連結成分領域の内部について2値画像の
黒画素連結成分領域を抽出する第2のステップと、第2
のステップにより抽出された黒画素連結成分領域中の、
文字と罫線との接触があると推定される黒画素連結成分
領域に対し文字と罫線を分離するための処理を施す第3
のステップと、第3のステップの処理後の黒画素連結成
分領域の情報に基づいて2値画像から文字画像を切り出
す第4のステップと、第4のステップにより切り出され
た文字画像の文字認識を行う第5のステップとを有する
ことを特徴とする文字認識方法。
1. A first step of extracting a white pixel connected component region of a binary image such as a form, and a black pixel connected component of the binary image inside the white pixel connected component region extracted by the first step A second step of extracting a region;
In the black pixel connected component area extracted by the step of
A process for separating a character and a ruled line from a black pixel connected component area estimated to be in contact with a character and a ruled line is performed.
Step, a fourth step of cutting out a character image from the binary image based on the information of the black pixel connected component area after the processing of the third step, and character recognition of the character image cut out by the fourth step. Performing the fifth step.
【請求項2】 請求項1記載の文字認識方法において、
第3のステップでは、白画素連結成分領域の外周の白ラ
ンの長さを調べることにより、文字と罫線との接触があ
る黒画素連結成分領域を推定することを特徴とする文字
認識方法。
2. The character recognition method according to claim 1, wherein
In a third step, a character recognition method is characterized by estimating a black pixel connected component region where a character is in contact with a ruled line by examining the length of a white run on the outer periphery of the white pixel connected component region.
【請求項3】 帳票等の2値画像を記憶する第1の手段
と、第1の手段に記憶されている2値画像の白画素連結
成分領域を抽出する第2の手段と、第2の手段により抽
出された白画素連結成分領域の内部について第1の手段
に記憶されている2値画像の黒画素連結成分領域を抽出
する第3の手段と、第3の手段により抽出された黒画素
連結成分領域中の文字と罫線との接触があると推定され
る黒画素連結成分領域に対し文字と罫線を分離するため
の処理を施す第4の手段と、第4の手段による処理後の
黒画素連結成分領域の情報に基づいて第1の手段に記憶
されている2値画像より文字画像を切り出す第5の手段
と、第5の手段により切り出された文字画像の文字認識
を行う第6の手段とを有することを特徴とする文字認識
装置。
A first means for storing a binary image such as a form; a second means for extracting a white pixel connected component area of the binary image stored in the first means; Third means for extracting a black pixel connected component area of a binary image stored in the first means inside the white pixel connected component area extracted by the means, and black pixels extracted by the third means Fourth means for performing processing for separating a character and a ruled line from a black pixel connected component area in which it is estimated that there is contact between a character and a ruled line in the connected component area, and black after processing by the fourth means. Fifth means for cutting out a character image from the binary image stored in the first means based on the information of the pixel connected component area, and sixth means for performing character recognition of the character image cut out by the fifth means And a character recognition device.
【請求項4】 請求項3記載の文字認識装置において、
第4の手段は、白画素連結成分領域の外周の白ランの長
さを調べることにより、文字と罫線との接触がある黒画
素連結成分領域を推定することを特徴とする文字認識装
置。
4. The character recognition device according to claim 3, wherein
A fourth means is a character recognition device for estimating a black pixel connected component region where a character contacts a ruled line by examining a length of a white run on an outer periphery of the white pixel connected component region.
【請求項5】 請求項1又は2記載の文字認識方法の第
1のステップ、第2のステップ、第3のステップ、第4
のステップ及び第5のステップをコンピュータに実行さ
せるためのプログラムが記録されたことを特徴とするコ
ンピュータ読み取り可能な記録媒体。
5. The first, second, third, and fourth steps of the character recognition method according to claim 1 or 2.
A computer-readable recording medium on which is recorded a program for causing a computer to execute the steps of the first and second steps.
JP10079085A 1998-03-26 1998-03-26 Character recognition method, its device and storage medium Pending JPH11282958A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10079085A JPH11282958A (en) 1998-03-26 1998-03-26 Character recognition method, its device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10079085A JPH11282958A (en) 1998-03-26 1998-03-26 Character recognition method, its device and storage medium

Publications (1)

Publication Number Publication Date
JPH11282958A true JPH11282958A (en) 1999-10-15

Family

ID=13680055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10079085A Pending JPH11282958A (en) 1998-03-26 1998-03-26 Character recognition method, its device and storage medium

Country Status (1)

Country Link
JP (1) JPH11282958A (en)

Similar Documents

Publication Publication Date Title
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP4159720B2 (en) Table recognition method, table recognition device, character recognition device, and storage medium storing table recognition program
JPH1083431A (en) Information processor and its method
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
MXPA02008494A (en) Correction of distortions in form processing.
JP4867401B2 (en) Image processing apparatus and program
JP4420440B2 (en) Image processing apparatus, image processing method, character recognition apparatus, program, and recording medium
JP2000082110A (en) Ruled line deletion device, character picture extraction device, ruled line deletion method, character picture extraction method and storage medium
JP2002342710A (en) Character segmenting device and character segmenting method used for the same device and its program
JP7406884B2 (en) Information processing device, program and control method
JPH11282958A (en) Character recognition method, its device and storage medium
JP2006072839A (en) Image processing method, image processing apparatus, image processing program and recording medium
JP4040231B2 (en) Character extraction method and apparatus, and storage medium
JP3391987B2 (en) Form recognition device
JPH09288714A (en) Method and device for recognizing table
JP4867400B2 (en) Image processing apparatus and program
JP4974367B2 (en) Region dividing method and apparatus, and program
JP2001236464A (en) Method and device for character extraction and storage medium
JP4064068B2 (en) Image processing apparatus, image processing method, and recording medium
JPH02138674A (en) Method and device processing document
JP2887803B2 (en) Document image processing device
JPH0728934A (en) Document image processor
Amano et al. Character string detection algorithm using horizontal boundaries, and its application to a part number entry system
JP2006106903A (en) Image processor
JPH10334184A (en) Ruled line erasing method and device, table processing method and device, character recognition method and device and recording medium

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060419