JPH1097588A - Ruled-line recognizing method, table processing method, and recording medium - Google Patents

Ruled-line recognizing method, table processing method, and recording medium

Info

Publication number
JPH1097588A
JPH1097588A JP8247786A JP24778696A JPH1097588A JP H1097588 A JPH1097588 A JP H1097588A JP 8247786 A JP8247786 A JP 8247786A JP 24778696 A JP24778696 A JP 24778696A JP H1097588 A JPH1097588 A JP H1097588A
Authority
JP
Japan
Prior art keywords
dotted
rectangle
line
extracting
scanning direction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8247786A
Other languages
Japanese (ja)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8247786A priority Critical patent/JPH1097588A/en
Publication of JPH1097588A publication Critical patent/JPH1097588A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To accurately extract only dotted lines even when characters in similar shapes are arranged or when there are a plurality of dotted lines with narrow line spacing. SOLUTION: A document 2 is read as a binary value image, which is stored in a memory 2. A rectangle extraction part 3 generates rectangles containing all connecting black pixels by referring to the memory 2 and stores only a rectangle of size corresponding to a dotted line in a rectangle memory 4. A black pixel rate calculation part 5 counts the black pixels in the rectangle and calculates the number of black pixels to the rectangle area as a black pixel occupation rate. A dotted-line element decision part 6 decides whether or not a dotted line is constituted on the basis of the black pixel occupation rate of the rectangle and a dotted ruled line extraction part 8 integrates only adequate rectangles among rectangles decided to be dotted-line elements as a dotted line on the basis of the intervals between the dotted-line elements to extract the dotted ruled line.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、表や帳票などの罫
線を含む文字画像の文字および罫線の認識方法、表処理
方法および記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method of recognizing a character and a ruled line of a character image including a ruled line such as a table or a form, a table processing method, and a recording medium.

【0002】[0002]

【従来の技術】一般に、文字認識装置において文書を処
理する場合、文書画像を文字領域、表領域、図その他の
領域に分類し、それぞれの領域に応じた処理を行う場合
が多い。その中でも表を構成する罫線を認識する方法と
しては、実線からなる罫線を認識する処理に加え、点線
を認識する方法としては、黒画素連結成分を構成する矩
形を統合して点線を認識する方法が知られている(例え
ば、特開平7−230525号公報を参照)。
2. Description of the Related Art In general, when a document is processed by a character recognition apparatus, a document image is often classified into a character area, a table area, a figure, and other areas, and processing according to each area is often performed. Among them, as a method of recognizing ruled lines constituting a table, in addition to a process of recognizing ruled lines composed of solid lines, a method of recognizing dotted lines is a method of recognizing dotted lines by integrating rectangles constituting black pixel connected components. Is known (for example, see Japanese Patent Application Laid-Open No. 7-230525).

【0003】[0003]

【発明が解決しようとする課題】しかし、上記した方法
では、点線以外の文字あるいは文字の一部で、形状の類
似している矩形が等間隔に並んで印字されている場合
に、誤って点線と誤認織したり、行間の狭い点線が複数
存在すると点線と直交する方向にも誤って点線を認識す
る場合があった。
However, according to the above-described method, when a rectangle or a part of a character other than a dotted line and a rectangle having a similar shape is printed at regular intervals, the dotted line is erroneously printed. When there are a plurality of narrow dotted lines between rows, there are cases where the dotted lines are erroneously recognized in a direction orthogonal to the dotted lines.

【0004】本発明の目的は、形状の似通った文字が並
んでいたり、行間の狭い複数の点線が存在していても、
正確に点線のみを抽出することを可能にした罫線認識方
法、表処理方法および記録媒体を提供することにある。
[0004] The object of the present invention is to provide a method in which even if characters having similar shapes are lined up or a plurality of dotted lines with a narrow line spacing exist.
An object of the present invention is to provide a ruled line recognition method, a table processing method, and a recording medium that enable accurate extraction of only dotted lines.

【0005】[0005]

【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、2値画像から連結する黒
画素をすべて包含する矩形を抽出し、該矩形を統合して
点線罫線を抽出する罫線認識方法であって、前記抽出さ
れた矩形内の黒画素の比率を基に点線罫線としての妥当
性を判定することを特徴としている。
In order to achieve the above object, according to the first aspect of the present invention, a rectangle including all connected black pixels is extracted from a binary image, and the rectangle is integrated to form a dotted ruled line. , Wherein the validity as a dotted ruled line is determined based on the ratio of black pixels in the extracted rectangle.

【0006】請求項2記載の発明では、2値画像から連
結する黒画素をすべて包含する矩形を抽出し、該矩形を
統合して点線罫線を抽出する罫線認識方法であって、前
記画像の主走査方向あるいは副走査方向の点線罫線を抽
出するために用いた矩形に対してラベルを付け、副走査
方向あるいは主走査方向の点線罫線を抽出するとき、該
ラベルを付与された矩形を用いないことを特徴としてい
る。
According to a second aspect of the present invention, there is provided a rule recognition method for extracting a rectangle including all connected black pixels from a binary image, and integrating the rectangle to extract a dotted rule. Label the rectangle used to extract the dotted ruled line in the scanning direction or sub-scanning direction, and do not use the labeled rectangle when extracting the dotted ruled line in the sub-scanning direction or the main scanning direction. It is characterized by.

【0007】請求項3記載の発明では、2値画像から所
定の閾値以上の長さの黒ランを抽出し、該抽出された黒
ラン同士が所定の閾値以内の距離にあるとき、該黒ラン
同士を統合して実線罫線として抽出する処理と、請求項
1または2記載の方法によって点線罫線を抽出する処理
を行うことを特徴としている。
According to the third aspect of the present invention, a black run having a length equal to or longer than a predetermined threshold is extracted from the binary image, and when the extracted black runs are within a distance within a predetermined threshold, the black run is detected. The method is characterized in that a process of integrating them and extracting them as a solid ruled line and a process of extracting a dotted ruled line by the method of claim 1 or 2 are performed.

【0008】請求項4記載の発明では、請求項3記載の
処理を主走査方向と副走査方向に対して行ない、主走査
方向の罫線および副走査方向の罫線を抽出し、該抽出さ
れた罫線を組み合わせて枠を認識することを特徴として
いる。
According to a fourth aspect of the present invention, the processing according to the third aspect is performed in the main scanning direction and the sub-scanning direction, and a ruled line in the main scanning direction and a ruled line in the sub-scanning direction are extracted. Are combined to recognize the frame.

【0009】請求項5記載の発明では、請求項4記載の
処理によって抽出された枠領域から、枠内の文字を抽出
し、文字認識することを特徴としている。
According to a fifth aspect of the present invention, a character in the frame is extracted from the frame region extracted by the processing of the fourth aspect, and the character is recognized.

【0010】請求項6記載の発明では、請求項3記載の
処理によって抽出された実線罫線および点線罫線のそれ
ぞれの座標値および罫線種類を出力し、罫線種類に応じ
た原稿を再現することを特徴としている。
According to a sixth aspect of the present invention, the coordinate values and the ruled line types of the solid ruled line and the dotted lined rule extracted by the processing of the third aspect are output, and a document corresponding to the ruled line type is reproduced. And

【0011】請求項7記載の発明では、請求項5記載の
処理によって文字認識された文字コードを出力し、また
同時に請求項6記載の処理によって罫線を出力して、原
稿を再現することを特徴としている。
According to a seventh aspect of the present invention, the character code recognized by the processing of the fifth aspect is output, and at the same time, a ruled line is output by the processing of the sixth aspect to reproduce the original. And

【0012】請求項8記載の発明では、2値画像から連
結する黒画素をすべて包含する矩形を抽出し、該矩形を
統合して点線罫線を抽出する機能を、コンピュータに実
現させるためのプログラムを記録した記録媒体であっ
て、前記抽出された矩形内の黒画素の比率を基に点線罫
線としての妥当性を判定する機能を実現させるためのプ
ログラムを記録したことを特徴としている。
According to an eighth aspect of the present invention, there is provided a program for causing a computer to extract a rectangle including all connected black pixels from a binary image, and to integrate the rectangle to extract a dotted ruled line. A recording medium in which a program for realizing a function of determining validity as a dotted ruled line based on a ratio of black pixels in the extracted rectangle is recorded.

【0013】請求項9記載の発明では、2値画像から連
結する黒画素をすべて包含する矩形を抽出し、該矩形を
統合して点線罫線を抽出する機能を、コンピュータに実
現させるためのプログラムを記録した記録媒体であっ
て、前記画像の主走査方向あるいは副走査方向の点線罫
線を抽出するために用いた矩形に対してラベルを付け、
副走査方向あるいは主走査方向の点線罫線を抽出すると
き、該ラベルを付与された矩形を用いない機能を実現さ
せるためのプログラムを記録したことを特徴としてい
る。
According to the ninth aspect of the present invention, there is provided a program for causing a computer to extract a rectangle including all connected black pixels from a binary image, and to integrate the rectangle to extract a dotted ruled line. In the recording medium on which recording is performed, a label is attached to a rectangle used for extracting a dotted ruled line in the main scanning direction or the sub-scanning direction of the image,
When a dotted ruled line in the sub-scanning direction or the main scanning direction is extracted, a program for realizing a function that does not use the labeled rectangle is recorded.

【0014】[0014]

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例1の構成を示す。
図2は、本発明の実施例1の処理フローチャートであ
る。スキャナ等の2値画像入力部1を用いて、文書や帳
票等の原稿を2値画像として読み取り、2値イメージメ
モリ2に格納する(ステップ101)。矩形抽出部3
は、2値イメージメモリ2をスキャンし、連結する黒画
素をすべて包含するような矩形を生成し、この矩形から
点線を構成する要素として妥当な大きさの矩形データ
(始点、終点の座標値など)のみを矩形メモリ4に格納
する(ステップ102)。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be specifically described below with reference to the drawings. <Embodiment 1> FIG. 1 shows the structure of Embodiment 1 of the present invention.
FIG. 2 is a processing flowchart of the first embodiment of the present invention. Using a binary image input unit 1 such as a scanner, an original such as a document or a form is read as a binary image and stored in a binary image memory 2 (step 101). Rectangle extraction unit 3
Scans the binary image memory 2, generates a rectangle that includes all the connected black pixels, and generates rectangular data of an appropriate size as an element forming a dotted line from the rectangle (the coordinates of the start point, end point, etc.). ) Is stored in the rectangular memory 4 (step 102).

【0015】黒画素比率算出部5は、矩形メモリ4から
読み出した矩形内の黒画素数を計数し、矩形面積(Ar
ea)に対する黒画素の数(Pixe1)を黒画素占有
率(Black Ratio)として計算する(ステッ
プ103)。BlackRatio=Pixel/Ar
ea 点線要素判定部6は、矩形の黒画素占有率を基に該矩形
が点線を構成するものか否かの判定を行い、点線要素と
判定された矩形を点線要素メモリ7に格納する(ステッ
プ104)。すなわち、図3(b)のように点線を構成
する矩形の場合(rA〜rD)、矩形の内部の画像は黒
画素が多いと考えられる。一方、図3(a)のように同
一形状の文字(この例では左括弧)が並んでいるような
場合(ra〜rd)には、矩形内の画像は必ずしも黒画
素が多いとは考えられない。従って、この性質を利用し
て、矩形が点線を構成するか否かを正確に判定すること
が可能になる。また、点線を構成する要素か否かの判定
には、黒画素占有率が例えば0.9以上か未満かを判定
の基準に用いることとする。なお、この他に、矩形の幅
などを基に点線要素となり得るものを抽出してもよい。
The black pixel ratio calculating section 5 counts the number of black pixels in the rectangle read from the rectangular memory 4 and calculates the rectangular area (Ar
ea), the number of black pixels (Pixel1) is calculated as a black pixel occupation ratio (Black Ratio) (step 103). BlackRatio = Pixel / Ar
ea The dotted line element determination unit 6 determines whether or not the rectangle forms a dotted line based on the black pixel occupancy of the rectangle, and stores the rectangle determined to be a dotted line element in the dotted line element memory 7 (step 104). That is, in the case of a rectangle forming a dotted line as shown in FIG. 3B (rA to rD), it is considered that the image inside the rectangle has many black pixels. On the other hand, in the case where characters of the same shape (left parenthesis in this example) are arranged side by side as shown in FIG. Absent. Therefore, by utilizing this property, it is possible to accurately determine whether or not the rectangle forms the dotted line. Further, in determining whether or not the element constitutes the dotted line, whether or not the black pixel occupation ratio is, for example, 0.9 or more is used as a criterion for determination. It should be noted that, in addition to the above, an element that can be a dotted line element may be extracted based on the width of the rectangle.

【0016】点線罫線抽出部8は、点線要素メモリ7か
ら点線要素を読み出し、点線要素どうしの間隔を基に点
線として妥当なものを統合することにより、点線罫線を
抽出する(ステップ105)。なお、この処理は、前掲
した公報の図15、16、17に示すように、統合処理
を多段階に行なうことで、より正碓に罫線の抽出を行な
うことができる。
The dotted ruled line extracting unit 8 reads out dotted line elements from the dotted line element memory 7 and integrates valid dotted lines based on the intervals between the dotted line elements to extract dotted line rules (step 105). In this process, as shown in FIGS. 15, 16, and 17 of the above-mentioned publication, by performing the integration process in multiple stages, the ruled line can be more accurately extracted.

【0017】〈実施例2〉図4は、本発明の実施例2の
構成を示し、図5は、本発明の実施例2の処理フローチ
ャートである。2値画像入力部21、2値イメージメモ
リ22、矩形抽出部23、矩形メモリ24は実施例1と
同様であるので、その説明は省略する。また、ステップ
202の矩形抽出の処理までは実施例1と同一である。
Embodiment 2 FIG. 4 shows the configuration of Embodiment 2 of the present invention, and FIG. 5 is a processing flowchart of Embodiment 2 of the present invention. The binary image input unit 21, the binary image memory 22, the rectangle extraction unit 23, and the rectangle memory 24 are the same as those in the first embodiment, and thus description thereof will be omitted. The processing up to the rectangle extraction processing in step 202 is the same as that of the first embodiment.

【0018】まず、点線罫線抽出部25は、矩形メモリ
24を参照して主走査方向に対して、矩形の統合を行な
い、点線罫線を抽出し、点線罫線メモリ26に格納する
(ステップ203)。ラベル付与部27は、主走査方向
罫線を構成した矩形に対してラベリングを行なう(ステ
ップ204)。図6は、矩形に対してラベル付与を説明
する図である。h1は主走査方向の実線、h2からh4
はそれぞれ抽出された主走査方向の点線罫線である。
First, the dotted ruled line extracting unit 25 refers to the rectangular memory 24, integrates rectangles in the main scanning direction, extracts dotted ruled lines, and stores them in the dotted ruled line memory 26 (step 203). The labeling unit 27 performs labeling on the rectangle forming the ruled line in the main scanning direction (step 204). FIG. 6 is a diagram illustrating labeling for a rectangle. h1 is a solid line in the main scanning direction, h2 to h4
Are the extracted dotted ruled lines in the main scanning direction.

【0019】上記したようにh2ないしh4の主走査方
向点線罫線が抽出されるので、これらを構成する矩形
(図中の斜線で囲まれた矩形)に対して、ラベル付与部
27は、抽出済みのラベルを付ける。
As described above, the dotted ruled lines h2 to h4 in the main scanning direction are extracted, and the labeling unit 27 extracts the rectangles (rectangular rectangles enclosed by oblique lines in the figure) constituting these. Label.

【0020】次に、点線罫線抽出部28は、矩形メモリ
24を参照し、副走査方向に対して、矩形の統合を行な
い、点線罫線を抽出する(ステップ205)。その際、
先にラベル付与部27によってラベルが付された矩形を
統合の対象外とし、それ以外の矩形(図6では、縦方向
の格子状の矩形)どうしの間隔を基に統合を行なう。こ
の実施例2の処理によって、図6に示すように、R1の
ような疑似罫線の発生が抑えられ、v1のような目的と
する、副走査方向の点線罫線のみが抽出されることにな
る。
Next, the dotted ruled line extraction unit 28 refers to the rectangular memory 24, integrates rectangles in the sub-scanning direction, and extracts dotted ruled lines (step 205). that time,
The rectangles that have been previously labeled by the labeling unit 27 are excluded from integration, and integration is performed based on the intervals between the other rectangles (vertical lattices in FIG. 6). By the processing of the second embodiment, as shown in FIG. 6, the generation of a pseudo ruled line such as R1 is suppressed, and only a target dotted ruled line in the sub-scanning direction such as v1 is extracted.

【0021】〈実施例3〉図7は、本発明の実施例3の
構成を示し、図8は本発明の実施例3の処理フローチャ
ートである。
<Embodiment 3> FIG. 7 shows the configuration of Embodiment 3 of the present invention, and FIG. 8 is a processing flowchart of Embodiment 3 of the present invention.

【0022】スキャナ等の2値画像入力部31によっ
て、文書や帳票等の原稿を2値画像として読み取り、2
値イメージメモリ32に格納する(ステップ301)。
黒ラン抽出部33は、2値イメージメモリ32から、予
め定められたしきい値以上の黒ランを抽出して、そのデ
ータ(始点、終点の座標値など)を黒ランメモリ34に
格納する(ステップ302)。
An original such as a document or a form is read as a binary image by a binary image input unit 31 such as a scanner.
It is stored in the value image memory 32 (step 301).
The black run extraction unit 33 extracts a black run equal to or larger than a predetermined threshold value from the binary image memory 32 and stores the data (the coordinate values of the start point and the end point) in the black run memory 34 ( Step 302).

【0023】実線罫線認識部35は、黒ランメモリ34
に抽出された黒ラン同士が予め定められたしきい値以内
にあるか否かを調ベ、しきい値以内にある黒ランを全て
統合して、実線罫線として抽出し、実線罫線メモリ36
に格納する(ステップ303)。
The solid line rule recognition unit 35 includes a black run memory 34
It is checked whether or not the black runs extracted within the threshold value are within a predetermined threshold value. All the black runs within the threshold value are integrated and extracted as a solid ruled line.
(Step 303).

【0024】以下、ステップ304からステップ307
では、実施例1または2と同様にして点線罫線を抽出
し、ステップ308では、抽出された実線罫線と点線罫
線を併せて出力する。
Hereinafter, steps 304 to 307 will be described.
Then, a dotted ruled line is extracted in the same manner as in the first or second embodiment, and in step 308, the extracted solid ruled line and the dotted ruled line are output together.

【0025】〈実施例4〉図9は、本発明の実施例4の
構成を示す。実線罫線認識部41は、実施例3の2値画
像入力部、2値イメージメモリ、黒ラン抽出部、黒ラン
メモリ、実線罫線認識部から構成され、点線罫線抽出部
42は、実施例2の矩形抽出部、矩形メモリ、点線罫線
抽出部(主走査方向)、点線罫線メモリ、ラベル付与
部、点線罫線抽出部(副走査方向)から構成されてい
る。図10は、本発明の実施例4の処理フローチャート
である。
<Embodiment 4> FIG. 9 shows the configuration of Embodiment 4 of the present invention. The solid ruled line recognizing unit 41 includes a binary image input unit, a binary image memory, a black run extracting unit, a black run memory, and a solid line ruled line recognizing unit according to the third embodiment. It is composed of a rectangle extraction unit, a rectangle memory, a dotted line extraction unit (main scanning direction), a dotted line memory, a label assigning unit, and a dotted line extraction unit (sub scanning direction). FIG. 10 is a processing flowchart according to the fourth embodiment of the present invention.

【0026】ステップ401からステップ407(点線
罫線抽出)の処理までは実施例3と同一である。これら
の処理を主走査方向と副走査方向の両方に対して行う。
枠認識部43は、主走査方向と副走査方向の実線罫線お
よび点線罫線を参照し、4辺に囲まれた枠領域を抽出し
て、枠領域メモリ44に格納する(ステップ408)。
The processing from step 401 to step 407 (dotted ruled line extraction) is the same as in the third embodiment. These processes are performed in both the main scanning direction and the sub-scanning direction.
The frame recognizing unit 43 refers to the solid ruled line and the dotted ruled line in the main scanning direction and the sub-scanning direction, extracts a frame region surrounded by four sides, and stores the frame region in the frame region memory 44 (step 408).

【0027】〈実施例5〉図11は、本発明の実施例5
の構成を示し、実施例4の構成に文字認識部55を付加
して構成したものである。図12は、本発明の実施例5
の処理フローチャートである。
<Embodiment 5> FIG. 11 shows Embodiment 5 of the present invention.
This is a configuration in which a character recognition unit 55 is added to the configuration of the fourth embodiment. FIG. 12 shows Embodiment 5 of the present invention.
It is a processing flowchart of.

【0028】ステップ508の枠認識の処理までは実施
例4と同一である。文字認識部55は、枠領域メモリ5
4および枠領域に相当する2値イメージメモリを参照
し、文字認織領域を確定し、この領域に対して文字認識
を行い、文字認識結果メモリ56に格納する(ステップ
509)。
The processing up to the frame recognition processing in step 508 is the same as in the fourth embodiment. The character recognition unit 55 includes
The character recognition area is determined by referring to the binary image memory corresponding to 4 and the frame area, character recognition is performed on this area, and the area is stored in the character recognition result memory 56 (step 509).

【0029】〈実施例6〉図13は、本発明の実施例6
の構成を示し、実施例4の枠認識部を原稿再現部63に
置き換えて構成されている。実施例4と同様の部分の説
明は省略する。図14は、本発明の実施例6の処理フロ
ーチャートである。
<Embodiment 6> FIG. 13 shows Embodiment 6 of the present invention.
In this example, the frame recognizing unit of the fourth embodiment is replaced with a document reproducing unit 63. The description of the same parts as in the fourth embodiment is omitted. FIG. 14 is a processing flowchart of the sixth embodiment of the present invention.

【0030】実線罫線および点線罫線を求める、ステッ
プ607の処理までは実施例3と同じである。この処理
を主走査方向と副走査方向の両方に対して行い、主/副
走査両方向の実線/点線を抽出する。
The processing up to step 607 for obtaining the solid ruled line and the dotted ruled line is the same as that of the third embodiment. This processing is performed in both the main scanning direction and the sub-scanning direction, and solid lines / dotted lines in both the main / sub-scanning directions are extracted.

【0031】原稿再現部63は、罫線データを実線、点
線の区別をしながら原稿の再現を行い、例えば、この罫
線データをDTP装置などに出力する。再現の方法とし
ては、抽出された罫線データ(罫線の存在範囲)をベク
トル化し、線分の太さの情報などを付ける。
The document reproducing section 63 reproduces the document while distinguishing the ruled line data from solid lines and dotted lines, and outputs the ruled line data to a DTP device or the like, for example. As a reproducing method, the extracted ruled line data (range of ruled lines) is vectorized, and information such as the thickness of the line segment is added.

【0032】〈実施例7〉図15は、本発明の実施例7
の構成を示し、ブロック71は図11に示す構成からな
り、該ブロック71に原稿再現部72を接続してなる。
この原稿再現部72には文字認識結果と、罫線データが
入力される。図16は、本発明の実施例7の処理フロー
チャートである。
<Embodiment 7> FIG. 15 shows Embodiment 7 of the present invention.
The block 71 has the configuration shown in FIG. 11, and is connected to the block 71 by a document reproducing section 72.
The result of character recognition and the ruled line data are input to the document reproducing section 72. FIG. 16 is a processing flowchart according to the seventh embodiment of the present invention.

【0033】実施例5と同様の部分の説明は省略する。
実線罫線、点線罫線および文字認識結果を得る、ステッ
プ709の処理までは同一である。原稿再現部72は、
抽出された罫線および文字コードを、原稿の再現のため
に利用する。罫線の再現に関しては、実施例6と同様で
あり、文字の再現に関しては認織された文字コードを2
値イメージメモリ上に存在していた絶対座標から算出し
て配置する。原稿上の文字、罫線ともにデータとしてD
TPなどに入力する場合などに有効である。
The description of the same parts as in the fifth embodiment is omitted.
The processing up to the processing of step 709 for obtaining the solid ruled line, the dotted ruled line and the character recognition result is the same. The manuscript reproducing unit 72
The extracted ruled lines and character codes are used for reproducing the document. The reproduction of the ruled line is the same as that of the sixth embodiment.
The position is calculated from the absolute coordinates existing on the value image memory. Both characters and ruled lines on the manuscript are D
This is effective when inputting to a TP or the like.

【0034】〈実施例8〉図17は、本発明の実施例8
の構成を示す。本実施例は、ソフトウェアによって実現
する場合の実施例であり、CPU81、メモリ82、ハ
ードディスク83、入力装置84、CD−ROMドライ
ブ85などからなる汎用の処理装置を用意する。CD−
ROMなどの記録媒体86には、本発明の罫線認識方
法、表処理方法の処理機能や処理手順を実現させるため
のプログラムが記録されている。また、文書や帳票など
の原稿画像は、例えばハードディスク83などに格納さ
れている。CPU81は、記録媒体86から上記した処
理機能、手順を実現するプログラムを読み出し、逐一実
行し、罫線などを認識出力する。
Embodiment 8 FIG. 17 shows Embodiment 8 of the present invention.
Is shown. This embodiment is an embodiment realized by software, and prepares a general-purpose processing device including a CPU 81, a memory 82, a hard disk 83, an input device 84, a CD-ROM drive 85 and the like. CD-
A recording medium 86 such as a ROM stores a program for realizing the processing functions and processing procedures of the ruled line recognition method and the table processing method of the present invention. Document images such as documents and forms are stored in the hard disk 83 or the like, for example. The CPU 81 reads a program for realizing the above-described processing functions and procedures from the recording medium 86, executes the program one by one, and recognizes and outputs ruled lines and the like.

【0035】[0035]

【発明の効果】以上、説明したように、請求項1、8記
載の発明によれば、文字あるいは文字の一部が並んで印
字されている原稿に対して、誤って点線として抽出する
ことなく、点線を認識することが可能となる。
As described above, according to the first and eighth aspects of the present invention, a document in which characters or a part of characters are printed side by side can be erroneously extracted as a dotted line. , The dotted line can be recognized.

【0036】請求項2、9の発明によれば、行間の狭い
表などで点線が複数存在する原稿に対しても、直交方向
に誤って抽出することなく、本来の点線のみを正確に認
識することができる。
According to the second and ninth aspects of the present invention, even for a document having a plurality of dotted lines in a table with a narrow line or the like, only the original dotted lines are accurately recognized without erroneous extraction in the orthogonal direction. be able to.

【0037】請求項3の発明によれば、従来の実線認識
と合わせて同時に、点線を正確に認識することが可能に
なる。
According to the third aspect of the present invention, the dotted line can be accurately recognized simultaneously with the conventional solid line recognition.

【0038】請求項4の発明によれば、従来の枠認識を
行う表処理方法において、点線が含まれた表に対する処
理が可能となり、処理対象となる原稿種が増加する。
According to the fourth aspect of the present invention, in the conventional table processing method for performing frame recognition, processing can be performed on a table including a dotted line, and the number of originals to be processed increases.

【0039】請求項5の発明によれば、従来の枠認識を
行った後に、枠内に書かれている文字を認識する表処理
方法において、点線が含まれた表に対する処理が可能と
なり、処理対象となる原稿種が格段に増加する。
According to the fifth aspect of the present invention, in a conventional table processing method for recognizing characters written in a frame after performing frame recognition, processing on a table including a dotted line becomes possible. The number of target document types is significantly increased.

【0040】請求項6の発明によれば、紙に印刷された
原稿を基にして、罫線からなるフオーマット情報をDT
Pなどに入力する場合に、従来認識できなかった点線の
罫線も認識できるため、原稿をより忠実に再現すること
ができる。
According to the sixth aspect of the present invention, based on a document printed on paper, the format information consisting of ruled lines
When an input is made to P or the like, a dotted ruled line that could not be recognized conventionally can be recognized, so that the original can be reproduced more faithfully.

【0041】請求項7の発明によれば、紙に印刷された
原稿を基にして、表などの罫線及び文字が書かれた原稿
をDTPなどに入力する場合に、従来認識できなかった
点線の罫線や、点線があるために文字認識の妨げになっ
ていた原稿でも入力対象とすることが可能となり、多様
な原稿をより忠実に再現することができる。
According to the seventh aspect of the present invention, when a document on which ruled lines such as a table and characters are written is input to a DTP or the like based on a document printed on paper, a dotted line which cannot be recognized conventionally can be used. It is possible to input a document that has been hindered by character recognition due to the presence of ruled lines or dotted lines, so that various documents can be reproduced more faithfully.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例1の構成を示す。FIG. 1 shows a configuration of a first exemplary embodiment of the present invention.

【図2】本発明の実施例1の処理フローチャートを示
す。
FIG. 2 shows a processing flowchart of Embodiment 1 of the present invention.

【図3】黒画素占有率を説明する図である。FIG. 3 is a diagram illustrating a black pixel occupancy.

【図4】本発明の実施例2の構成を示す。FIG. 4 shows a configuration of a second exemplary embodiment of the present invention.

【図5】本発明の実施例2の処理フローチャートを示
す。
FIG. 5 shows a processing flowchart of Embodiment 2 of the present invention.

【図6】矩形に対してラベル付与を説明する図である。FIG. 6 is a diagram illustrating labeling for a rectangle.

【図7】本発明の実施例3の構成を示す。FIG. 7 shows a configuration of a third embodiment of the present invention.

【図8】本発明の実施例3の処理フローチャートを示
す。
FIG. 8 shows a processing flowchart according to a third embodiment of the present invention.

【図9】本発明の実施例4の構成を示す。FIG. 9 shows a configuration of a fourth embodiment of the present invention.

【図10】本発明の実施例4の処理フローチャートを示
す。
FIG. 10 shows a processing flowchart according to a fourth embodiment of the present invention.

【図11】本発明の実施例5の構成を示す。FIG. 11 shows a configuration of a fifth embodiment of the present invention.

【図12】本発明の実施例5の処理フローチャートを示
す。
FIG. 12 shows a processing flowchart of Embodiment 5 of the present invention.

【図13】本発明の実施例6の構成を示す。FIG. 13 shows a configuration of Embodiment 6 of the present invention.

【図14】本発明の実施例6の処理フローチャートを示
す。
FIG. 14 shows a processing flowchart of Embodiment 6 of the present invention.

【図15】本発明の実施例7の構成を示す。FIG. 15 shows a configuration of Example 7 of the present invention.

【図16】本発明の実施例7の処理フローチャートを示
す。
FIG. 16 is a flowchart illustrating a process according to a seventh embodiment of the present invention.

【図17】本発明の実施例8の構成を示す。FIG. 17 shows a configuration of Example 8 of the present invention.

【符号の説明】[Explanation of symbols]

1 2値画像入力部 2 2値イメージメモリ 3 矩形抽出部 4 矩形メモリ 5 黒画素比率算出部 6 点線要素判定部 7 点線要素メモリ 8 点線罫線抽出部 Reference Signs List 1 binary image input unit 2 binary image memory 3 rectangle extraction unit 4 rectangle memory 5 black pixel ratio calculation unit 6 dotted line element determination unit 7 dotted line element memory 8 dotted line ruled line extraction unit

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 2値画像から連結する黒画素をすべて包
含する矩形を抽出し、該矩形を統合して点線罫線を抽出
する罫線認識方法であって、前記抽出された矩形内の黒
画素の比率を基に点線罫線としての妥当性を判定するこ
とを特徴とする罫線認識方法。
1. A rule recognition method for extracting a rectangle including all connected black pixels from a binary image, and extracting a dotted rule by integrating the rectangles. A ruled line recognition method characterized by determining the validity of a dotted ruled line based on a ratio.
【請求項2】 2値画像から連結する黒画素をすべて包
含する矩形を抽出し、該矩形を統合して点線罫線を抽出
する罫線認識方法であって、前記画像の主走査方向ある
いは副走査方向の点線罫線を抽出するために用いた矩形
に対してラベルを付け、副走査方向あるいは主走査方向
の点線罫線を抽出するとき、該ラベルを付与された矩形
を用いないことを特徴とする罫線認織方法。
2. A rule recognition method for extracting a rectangle including all connected black pixels from a binary image, and extracting a dotted rule by integrating the rectangle, wherein a main scanning direction or a sub-scanning direction of the image is provided. Labeling a rectangle used for extracting the dotted ruled line, and extracting the dotted ruled line in the sub-scanning direction or the main scanning direction without using the labeled rectangle. Weaving method.
【請求項3】 2値画像から所定の閾値以上の長さの黒
ランを抽出し、該抽出された黒ラン同士が所定の閾値以
内の距離にあるとき、該黒ラン同士を統合して実線罫線
として抽出する処理と、請求項1または2記載の方法に
よって点線罫線を抽出する処理を行うことを特徴とする
罫線認識方法。
3. A black run having a length equal to or greater than a predetermined threshold is extracted from the binary image. When the extracted black runs are within a distance within a predetermined threshold, the black runs are integrated to form a solid line. 3. A ruled line recognizing method characterized by performing a process of extracting a ruled line and a process of extracting a dotted ruled line by the method according to claim 1 or 2.
【請求項4】 請求項3記載の処理を主走査方向と副走
査方向に対して行ない、主走査方向の罫線および副走査
方向の罫線を抽出し、該抽出された罫線を組み合わせて
枠を認識することを特徴とする表処理方法。
4. The processing according to claim 3, which is performed in the main scanning direction and the sub-scanning direction, extracts ruled lines in the main-scanning direction and ruled lines in the sub-scanning direction, and recognizes a frame by combining the extracted ruled lines. A table processing method.
【請求項5】 請求項4記載の処理によって抽出された
枠領域から、枠内の文字を抽出し、文字認識することを
特徴とする表処理方法。
5. A table processing method comprising: extracting characters in a frame from a frame region extracted by the processing according to claim 4; and recognizing the characters.
【請求項6】 請求項3記載の処理によって抽出された
実線罫線および点線罫線のそれぞれの座標値および罫線
種類を出力し、罫線種類に応じた原稿を再現することを
特徴とする表処理方法。
6. A table processing method, comprising outputting coordinate values and ruled line types of a solid line ruled line and a dotted line ruled line extracted by the processing according to claim 3, and reproducing a document corresponding to the ruled line type.
【請求項7】 請求項5記載の処理によって文字認識さ
れた文字コードを出力し、また同時に請求項6記載の処
理によって罫線を出力して、原稿を再現することを特徴
とする表処理方法。
7. A table processing method comprising: outputting a character code recognized by the processing according to claim 5; and simultaneously outputting a ruled line by processing according to claim 6, to reproduce a document.
【請求項8】 2値画像から連結する黒画素をすべて包
含する矩形を抽出し、該矩形を統合して点線罫線を抽出
する機能を、コンピュータに実現させるためのプログラ
ムを記録した記録媒体であって、前記抽出された矩形内
の黒画素の比率を基に点線罫線としての妥当性を判定す
る機能を実現させるためのプログラムを記録した記録媒
体。
8. A recording medium for recording a program for causing a computer to realize a function of extracting a rectangle including all connected black pixels from a binary image, and extracting a dotted ruled line by integrating the rectangle. A recording medium for recording a program for realizing a function of determining validity as a dotted rule line based on the ratio of black pixels in the extracted rectangle.
【請求項9】 2値画像から連結する黒画素をすべて包
含する矩形を抽出し、該矩形を統合して点線罫線を抽出
する機能を、コンピュータに実現させるためのプログラ
ムを記録した記録媒体であって、前記画像の主走査方向
あるいは副走査方向の点線罫線を抽出するために用いた
矩形に対してラベルを付け、副走査方向あるいは主走査
方向の点線罫線を抽出するとき、該ラベルを付与された
矩形を用いない機能を実現させるためのプログラムを記
録した記録媒体。
9. A recording medium storing a program for realizing a function of extracting a rectangle including all connected black pixels from a binary image, and extracting a dotted rule by integrating the rectangle. A label is attached to the rectangle used to extract the dotted line in the main scanning direction or the sub-scanning direction of the image, and the label is attached when extracting the dotted line in the sub-scanning direction or the main scanning direction. A recording medium on which a program for realizing a function not using a rectangle is recorded.
JP8247786A 1996-09-19 1996-09-19 Ruled-line recognizing method, table processing method, and recording medium Pending JPH1097588A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8247786A JPH1097588A (en) 1996-09-19 1996-09-19 Ruled-line recognizing method, table processing method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8247786A JPH1097588A (en) 1996-09-19 1996-09-19 Ruled-line recognizing method, table processing method, and recording medium

Publications (1)

Publication Number Publication Date
JPH1097588A true JPH1097588A (en) 1998-04-14

Family

ID=17168637

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8247786A Pending JPH1097588A (en) 1996-09-19 1996-09-19 Ruled-line recognizing method, table processing method, and recording medium

Country Status (1)

Country Link
JP (1) JPH1097588A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113217A1 (en) 2009-03-31 2010-10-07 富士通フロンテック株式会社 Character recognition device and character recognition method
JP2011065204A (en) * 2009-09-15 2011-03-31 Fuji Xerox Co Ltd Image processing apparatus and image processing program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010113217A1 (en) 2009-03-31 2010-10-07 富士通フロンテック株式会社 Character recognition device and character recognition method
US8577147B2 (en) 2009-03-31 2013-11-05 Fujitsu Frontech Limited Character recognition apparatus and character recognition method
JP2011065204A (en) * 2009-09-15 2011-03-31 Fuji Xerox Co Ltd Image processing apparatus and image processing program
US8503774B2 (en) 2009-09-15 2013-08-06 Fuji Xerox Co., Ltd. Apparatus, method and computer readable medium for performing solid-line conversion from lines having breaks

Similar Documents

Publication Publication Date Title
JP3904840B2 (en) Ruled line extraction device for extracting ruled lines from multi-valued images
US7321688B2 (en) Image processor for character recognition
JPH10326331A (en) Recording medium with dot code, and code reader
US20100008585A1 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
JP2000207489A (en) Character extracting method and device and record medium
US6269186B1 (en) Image processing apparatus and method
JP2001043313A (en) Character segmenting method
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
JP3858559B2 (en) Image processing apparatus, image processing method, and recording medium
JPH1097588A (en) Ruled-line recognizing method, table processing method, and recording medium
US8295602B2 (en) Image processing apparatus and image processing method
JP2002342710A (en) Character segmenting device and character segmenting method used for the same device and its program
JPH0656618B2 (en) Image information character / graphic separation method
JP5673277B2 (en) Image processing apparatus and program
JP5470734B2 (en) Image processing apparatus and image processing program
JPH07230525A (en) Method for recognizing ruled line and method for processing table
JPH08237404A (en) Selection of optical character recognition mode
JP3019897B2 (en) Line segmentation method
JP3431267B2 (en) Table processing method and apparatus
JP3391987B2 (en) Form recognition device
JP3756660B2 (en) Image recognition method, apparatus and recording medium
JP4738645B2 (en) SHADED AREA DETECTING DEVICE, SHATTERED AREA DETECTING METHOD, PROGRAM, AND STORAGE MEDIUM
JPH0373916B2 (en)
JP2000222577A (en) Method and device for ruled line processing, and recording medium
JP2964980B2 (en) Linear component detection method and apparatus in optical character recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041026