JPH1145339A - Broken line identification method and recording medium - Google Patents

Broken line identification method and recording medium

Info

Publication number
JPH1145339A
JPH1145339A JP10137911A JP13791198A JPH1145339A JP H1145339 A JPH1145339 A JP H1145339A JP 10137911 A JP10137911 A JP 10137911A JP 13791198 A JP13791198 A JP 13791198A JP H1145339 A JPH1145339 A JP H1145339A
Authority
JP
Japan
Prior art keywords
line
dashed line
broken line
rectangle
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10137911A
Other languages
Japanese (ja)
Other versions
JP3753354B2 (en
Inventor
Hiroko Sugiura
裕子 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP13791198A priority Critical patent/JP3753354B2/en
Publication of JPH1145339A publication Critical patent/JPH1145339A/en
Application granted granted Critical
Publication of JP3753354B2 publication Critical patent/JP3753354B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To remove a thinned solid line and to precisely identify a broken line by identifying the broken line or a pseudo broken line based on the sizes of broken line elements and the variance value of a distance between the elements. SOLUTION: A picture inputted from a binary picture input part 100 is stored in a binary image memory 110. A rectangle extraction part 120 uses data of the binary image memory 110, extracts a rectangle and stores it in a rectangle memory 130. A broken line/ruled line extraction part 140 uses rectangle information in the memory 130 and extracts the broken line. The broken line extracted in the broken line/ruled line extraction part 140 is stored in a broken line/ruled line memory 150, and a processing terminates when it is not extracted. A broken line judgement part 160 removes the pseudo broken line and sorts the pseudo broken line from the real broken line. The removal processing of the pseudo broken line is executed on all the extracted broken lines. The remaining real broken lines from which the pseudo broken lines are removed by the broken line judgment part 160 are stored in a broken line/ruled line memory 170.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、破線と擬似破線を
精度よく識別する破線識別方法および記録媒体に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for identifying a broken line and a pseudo broken line with high accuracy and a recording medium.

【0002】[0002]

【従来の技術】表を構成する点線罫線を認識する方法と
して、例えば特開平7−230525号公報に記載され
た罫線認識方法がある。この方法は、所定の閾値以下の
矩形を点線要素として抽出し、該要素間の間隔が所定の
閾値以内の要素同士を統合した矩形を点線罫線として抽
出する。また、矩形の大きさおよび矩形間の間隔のそれ
ぞれの分散値を基に罫線としての妥当性も判断してい
る。
2. Description of the Related Art As a method of recognizing dotted ruled lines constituting a table, there is, for example, a ruled line recognizing method described in JP-A-7-230525. According to this method, a rectangle that is equal to or smaller than a predetermined threshold is extracted as a dotted line element, and a rectangle obtained by integrating elements whose intervals between the elements are within a predetermined threshold is extracted as a dotted ruled line. In addition, the validity of the ruled line is determined based on the respective variances of the size of the rectangle and the interval between the rectangles.

【0003】[0003]

【発明が解決しようとする課題】しかし、上記したよう
に矩形の抽出処理を所定の閾値で行うと、例えば、文字
を構成している矩形を、破線の構成要素として誤って抽
出する可能性がある。また、画像がスキューしていた
り、ノイズがある場合には、正しく破線を抽出すること
できないという問題がある。
However, if the rectangle extraction process is performed at a predetermined threshold value as described above, for example, there is a possibility that a rectangle constituting a character is erroneously extracted as a broken line component. is there. In addition, when the image is skewed or has noise, there is a problem that a broken line cannot be correctly extracted.

【0004】本発明の目的は、破線識別処理後、または
処理中に破線を構成している要素の大きさと要素間距離
(破線間隔)のバラツキ量(分散などの統計量)を計算
し、そのバラツキ量が所定の閾値以上のものは擬似破線
として除去することにより、破線の識別精度を向上させ
た破線識別方法および記録媒体を提供することにある。
An object of the present invention is to calculate the variation (statistics such as variance) of the size of the elements constituting the broken line and the distance between the elements (broken line interval) after or during the broken line identification processing, An object of the present invention is to provide a dashed line identification method and a recording medium with improved dashed line identification accuracy by removing those having a variation amount equal to or greater than a predetermined threshold value as pseudo dashed lines.

【0005】[0005]

【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像から黒画素連結
成分を統合した矩形を抽出し、該抽出された矩形から破
線を構成する矩形(以下、破線要素)を抽出し、該破線
要素を基に破線であるか、文字矩形の一部から構成され
ている擬似破線であるかを識別する方法であって、前記
破線要素の大きさ、要素間の距離の分散値を基に破線で
あるか擬似破線であるかを識別することを特徴としてい
る。
In order to achieve the above object, according to the first aspect of the present invention, a rectangle in which black pixel connected components are integrated is extracted from a document image, and a dashed line is formed from the extracted rectangle. A method for extracting a rectangle (hereinafter referred to as a dashed line element) and identifying whether it is a dashed line or a pseudo dashed line composed of a part of a character rectangle based on the dashed line element, wherein the size of the dashed line element is The method is characterized in that it is distinguished between a broken line and a pseudo broken line based on the variance of the distance between elements.

【0006】請求項2記載の発明では、前記破線要素の
幅と高さの比、破線要素の幅と要素間の距離の比、高さ
と要素間の距離の比を基に破線であるか擬似破線である
かを識別することを特徴としている。
According to the second aspect of the present invention, a broken line or pseudo line is based on the ratio of the width and the height of the broken line element, the ratio of the width of the broken line element to the distance between the elements, and the ratio of the height and the distance between the elements. It is characterized by identifying whether it is a broken line.

【0007】請求項3記載の発明では、前記破線要素に
占める黒画素の面積または白画素の面積を基に破線であ
るか擬似破線であるかを識別することを特徴としてい
る。
According to a third aspect of the present invention, it is characterized in that a dashed line or a pseudo dashed line is identified based on the area of a black pixel or the area of a white pixel occupying the broken line element.

【0008】請求項4記載の発明では、前記破線の位置
情報と文字矩形の位置情報との差を基に破線であるか擬
似破線であるかを識別することを特徴としている。
According to a fourth aspect of the present invention, it is characterized in that it is distinguished as a broken line or a pseudo broken line based on the difference between the position information of the broken line and the position information of the character rectangle.

【0009】請求項5記載の発明では、前記破線要素の
位置情報と文字矩形の位置情報との差を基に破線である
か擬似破線であるかを識別することを特徴としている。
According to a fifth aspect of the present invention, it is characterized in that it is distinguished as a broken line or a pseudo broken line based on the difference between the position information of the broken line element and the position information of the character rectangle.

【0010】請求項6記載の発明では、前記識別される
破線は、点線、一点鎖線、二点鎖線を含む破線であるこ
とを特徴としている。
In the invention according to a sixth aspect, the identified broken line is a broken line including a dotted line, an alternate long and short dash line.

【0011】請求項7記載の発明では、請求項1、2、
3、4、5記載の全ての方法、またはそれらの一部を組
み合わせて破線であるか擬似破線であるかを識別するこ
とを特徴としている。
[0011] According to the invention described in claim 7, according to claims 1, 2,
All of the methods described in 3, 4, and 5, or a part thereof are combined to identify a broken line or a pseudo broken line.

【0012】請求項8記載の発明では、請求項1、2、
3、4、5、または7記載の方法によって識別された破
線について、破線を構成している矩形にラベリングする
ことを特徴としている。
[0012] According to the invention described in claim 8, according to claims 1 and 2,
The method is characterized in that the broken line identified by the method described in 3, 4, 5, or 7 is labeled as a rectangle constituting the broken line.

【0013】請求項9記載の発明では、文書画像から黒
画素連結成分を統合した矩形を抽出する機能と、該抽出
された矩形から破線を構成する矩形(以下、破線要素)
を抽出する機能と、該破線要素の大きさ、要素間の距離
を基に破線であるか、文字矩形の一部から構成されてい
る擬似破線であるかを識別する機能と、該識別された破
線を構成している矩形にラベリングする機能をコンピュ
ータに実現させるためのプログラムを記録したコンピュ
ータ読み取り可能な記録媒体であることを特徴としてい
る。
According to the ninth aspect of the present invention, a function of extracting a rectangle integrating black pixel connected components from a document image, and a rectangle forming a broken line from the extracted rectangle (hereinafter, a broken line element)
And a function for identifying whether a dashed line or a pseudo dashed line composed of a part of a character rectangle based on the size of the dashed line element and the distance between the elements. It is a computer-readable recording medium in which a program for causing a computer to implement a function of labeling a rectangle forming a broken line is recorded.

【0014】[0014]

【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。本発明の各実施例を説明する
前に、まず、本発明で使用する用語を定義する。 矩形/矩形抽出:画像中に、連続している画像、または
所定の閾値以上、連続している画像部分(例えば、2値
画像であれば連続黒画素部、もしくは連続白画像部)を
一塊として、それらが包含されるように外接四角形で囲
んだ範囲を矩形とし、その位置座標を抽出することを矩
形抽出と定義する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention will be specifically described below with reference to the drawings. Before describing each embodiment of the present invention, first, terms used in the present invention will be defined. Rectangle / rectangle extraction: A continuous image or a continuous image portion (for example, a continuous black pixel portion or a continuous white image portion in the case of a binary image) that is equal to or more than a predetermined threshold value is bundled into an image A rectangle enclosed by a circumscribed rectangle so that they are included is defined as a rectangle, and extracting the position coordinates of the rectangle is defined as rectangle extraction.

【0015】破線/破線要素/擬似破線:実線以外の線
を破線と定義する。すなわち、破線とは、点線、一点鎖
線、二点鎖線などを含む総称である。破線を構成する矩
形を破線要素とする。例えば、2値画像であれば黒画素
の矩形を指す。破線でないにも係らず、破線として誤っ
て識別された破線を擬似破線と呼ぶ。例えば文字を構成
している矩形の一部が破線識別処理の対象となって、誤
認識された結果、抽出された破線がこの擬似破線に相当
する。
Broken line / broken line element / pseudo broken line: A line other than a solid line is defined as a broken line. That is, the broken line is a general term including a dotted line, a one-dot chain line, a two-dot chain line, and the like. The rectangle forming the broken line is defined as a broken line element. For example, a binary image indicates a rectangle of black pixels. A dashed line that is incorrectly identified as a dashed line despite being not a dashed line is called a pseudo dashed line. For example, a part of a rectangle forming a character is a target of the broken line identification processing, and a broken line extracted as a result of erroneous recognition corresponds to the pseudo broken line.

【0016】要素間距離:破線を構成している要素と要
素の間の距離である。この距離は、例えば要素と要素の
位置座標の差や、要素が黒画素で構成されている2値画
像であれば、黒画素要素間の連続白画像部の長さを表わ
す。
[0016] Inter-element distance: the distance between the elements constituting the broken line. This distance represents, for example, the difference between the position coordinates of the elements and, if the element is a binary image composed of black pixels, the length of the continuous white image portion between the black pixel elements.

【0017】図1は、本発明の実施例1から5に共通す
る構成を示す。また、図2は、本発明の実施例1から5
に共通する全体の処理フローチャートである。2値画像
入力部100は、例えばスキャナのような画像入力部で
ある。ここでは、2値画像として取り込むが、多値画像
でもよい。2値画像入力部100から入力された画像
は、2値イメージメモリ110に格納される(ステップ
1)。
FIG. 1 shows a configuration common to the first to fifth embodiments of the present invention. FIG. 2 shows Embodiments 1 to 5 of the present invention.
7 is an overall processing flowchart common to FIG. The binary image input unit 100 is an image input unit such as a scanner, for example. Here, the image is captured as a binary image, but may be a multivalued image. The image input from the binary image input unit 100 is stored in the binary image memory 110 (Step 1).

【0018】次に、矩形抽出部120は、この2値イメ
ージメモリ110のデータを使用して矩形を抽出し、矩
形メモリ130に格納する(ステップ2)。破線罫線抽
出部140では、このメモリ130内の矩形情報を利用
して破線を抽出する(ステップ3)。破線抽出処理は、
破線を識別する方法であれば、何れの方法を用いてもよ
い。破線罫線抽出部140で抽出された破線は、破線罫
線メモリ150に格納され(ステップ4)、抽出されな
ければ処理が終了する。この段階では、擬似破線も破線
として含まれている。以下詳述するように、破線判断部
160では、この擬似破線を除去して擬似破線と真の破
線とに選別する(ステップ5)。この擬似破線の除去処
理を、抽出した全ての破線について行う(ステップ
6)。
Next, the rectangle extracting unit 120 extracts a rectangle using the data of the binary image memory 110 and stores it in the rectangle memory 130 (step 2). The dashed line extraction unit 140 extracts a dashed line by using the rectangle information in the memory 130 (step 3). The dashed line extraction process
Any method may be used as long as it identifies a broken line. The dashed line extracted by the dashed line extraction unit 140 is stored in the dashed line memory 150 (step 4), and if not extracted, the process ends. At this stage, a pseudo broken line is also included as a broken line. As will be described in detail below, the broken line determining unit 160 removes the pseudo broken line and selects a pseudo broken line and a true broken line (step 5). This pseudo dashed line removal processing is performed for all extracted dashed lines (step 6).

【0019】破線判断部160は、分散計算部161、
比率計算部162、一定情報量占有率の計算部163、
矩形位置と破線位置の比較計算部164、矩形位置と破
線要素位置の比較計算部165を備えている。破線判断
部160で擬似破線を除去した残りの真の破線を破線罫
線メモリ170に格納する。ここで、破線罫線メモリと
してメモリ170を専用に設けているが、メモリ150
を共用してもよい。
The broken line determining unit 160 includes a variance calculating unit 161,
A ratio calculating unit 162, a constant information amount occupancy calculating unit 163,
A rectangular position and a broken line position comparing / calculating unit 164 and a rectangular position / a broken line element position comparing / calculating unit 165 are provided. The remaining true dashed line from which the dashed line is removed by the dashed line determination unit 160 is stored in the dashed line memory 170. Here, although the memory 170 is provided exclusively as a broken line ruled line memory,
May be shared.

【0020】また、図1では処理順序として、破線抽出
部140で破線を抽出した後に、破線判断部160で破
線を判断しているが、破線を抽出しながら判断する処理
順序を採ってもよい。
In FIG. 1, as the processing order, the dashed line is extracted by the dashed line extraction unit 140 and then the dashed line determination unit 160 determines the dashed line. .

【0021】〈実施例1〉実施例1では、破線判断部1
60の分散計算部161のみが機能する。分散計算部1
61では、破線罫線メモリ150内の抽出された破線、
もしくは抽出中の破線の要素の幅と高さと要素間距離の
バラツキを計算する。バラツキを示すものとしてここで
は、例えば統計処理の分散を例にとって説明する。
<Embodiment 1> In the first embodiment, the broken line determination unit 1
Only the 60 variance calculation units 161 function. Distributed calculation unit 1
At 61, the extracted dashed line in the dashed line rule memory 150,
Alternatively, the variation of the width and height of the broken-line element being extracted and the distance between the elements is calculated. Here, a description will be given of, for example, the dispersion of statistical processing as an example showing the variation.

【0022】図3は、実施例1に係る破線判断部160
の処理フローチャートである。破線判断部160は、破
線罫線メモリ150から破線を構成している要素矩形を
取り出し(ステップ11)、分散計算部161は、要素
矩形の高さ、幅、要素間距離について、それぞれの分散
値A1、A2,A3(バラツキ)を算出する(ステップ
12)。そして、かすれなどによるバラツキも考慮し
て、擬似破線であると判断できるそれぞれの閾値A
1’、A2’、A3’を決定し、上記したバラツキが閾
値以上であるとき、擬似破線であると判断する(ステッ
プ13)。擬似破線と判断された破線を除去して真の破
線を破線罫線メモリ170に格納する(ステップ1
4)。
FIG. 3 shows a dashed line determination unit 160 according to the first embodiment.
It is a processing flowchart of. The dashed line determination unit 160 extracts the element rectangles constituting the dashed line from the dashed line memory 150 (step 11), and the variance calculation unit 161 calculates the variance A1 for each of the height, width, and inter-element distance of the element rectangle. , A2, A3 (variation) are calculated (step 12). Each threshold A that can be determined to be a pseudo-dashed line in consideration of variations due to blurring or the like.
1 ′, A2 ′, and A3 ′ are determined, and when the above-mentioned variation is equal to or greater than the threshold value, it is determined that it is a pseudo-dashed line (step 13). The dashed line determined as the pseudo dashed line is removed and the true dashed line is stored in the dashed line rule memory 170 (step 1).
4).

【0023】〈実施例2〉上記した実施例では、除去で
きない擬似破線が存在する可能性がある。本実施例は、
破線の識別精度を向上させたものであり、破線判断部1
60の比率計算部162のみが機能する。
<Embodiment 2> In the above-described embodiment, there is a possibility that a pseudo broken line which cannot be removed exists. In this embodiment,
This is an improvement in the accuracy of identification of a broken line, and a broken line determination unit 1
Only the 60 ratio calculators 162 function.

【0024】図4は、実施例2に係る破線判断部160
の処理フローチャートである。破線判断部160は、破
線罫線メモリ150から破線を構成している要素矩形を
取り出し(ステップ21)、比率計算部162は、抽出
された破線、もしくは抽出中の破線要素の幅と高さと要
素間距離の値から、幅をW、高さをH、要素間距離をD
とすると、DとW、WとH、DとHの比率B1、B2、
B3をそれぞれ算出する(ステップ22)。比率の組み
合わせとして全ての組み合わせを採ってもよいし、計算
する値は平均値を採ってもよい。そして、一般的な擬似
破線の各比率の特徴量を測定し、その特徴量を基にそれ
ぞれの閾値B1’、B2’、B3’を決定し、上記した
比率の値と閾値とを比較する。上記した比率が閾値以上
のとき擬似破線であると判断して(ステップ23)、擬
似破線と判断された破線を除去する(ステップ24)。
FIG. 4 shows a broken line determining unit 160 according to the second embodiment.
It is a processing flowchart of. The dashed line determining unit 160 extracts the element rectangles constituting the dashed line from the dashed line rule memory 150 (step 21), and the ratio calculation unit 162 determines the width and height of the extracted dashed line or the dashed line element being extracted and the distance between the elements. From the value of the distance, W is the width, H is the height, and D is the distance between elements.
Then, D and W, W and H, D and H ratio B1, B2,
B3 is calculated (step 22). All combinations may be used as the combination of ratios, and the calculated value may be an average value. Then, the characteristic amount of each ratio of a general pseudo-dashed line is measured, the respective thresholds B1 ', B2', B3 'are determined based on the characteristic amounts, and the above-described ratio value is compared with the threshold. When the above ratio is equal to or greater than the threshold value, it is determined that the dashed line is a pseudo dashed line (step 23), and the dashed line determined as the pseudo dashed line is removed (step 24).

【0025】〈実施例3〉上記した実施例1、2では、
除去できない擬似破線が存在する可能性がある。本実施
例は、破線の識別精度をより向上させたものであり、破
線判断部160の一定情報量占有率の計算部163のみ
が機能する。
<Embodiment 3> In Embodiments 1 and 2 described above,
There may be pseudo-dashed lines that cannot be removed. In the present embodiment, the accuracy of identifying a broken line is further improved, and only the constant information amount occupancy calculating unit 163 of the broken line determining unit 160 functions.

【0026】図5は、実施例3に係る破線判断部160
の処理フローチャートである。破線判断部160は、破
線罫線メモリ150から破線を構成している要素矩形を
取り出し(ステップ31)、一定情報量占有率の計算部
163は、抽出された破線、もしくは抽出中の破線要素
の黒画素の比率Cを算出する(ステップ32)。
FIG. 5 shows a broken line determining unit 160 according to the third embodiment.
It is a processing flowchart of. The dashed line determining unit 160 extracts the element rectangles constituting the dashed line from the dashed line rule memory 150 (step 31). The constant information amount occupancy calculating unit 163 determines whether the extracted dashed line or the dashed line element being extracted is black. A pixel ratio C is calculated (step 32).

【0027】図6は、文字矩形例と点線要素矩形例を示
す。矩形の面積をSとし、矩形内の黒画素の面積(図6
の例では文字aの面積)をBlackとすると、矩形の
黒画素比率CをC=Black/Sと定義する。矩形が
文字であれば黒画素比率は低く、破線要素であれば黒画
素比率が高くなることを利用して、擬似破線か真の破線
であるかを判定する。所定の閾値をC’として、破線を
構成している要素矩形の黒画素比率Cまたは全要素矩形
の黒画素比率の平均値Cavgを算出して、C<C’ま
たはCavg<C’であれば(ステップ33)、要素矩
形は文字矩形つまり擬似破線であると判定して除去する
(ステップ34)。破線判断部160では、擬似破線と
判定された破線を除去して破線罫線メモリ170に格納
する。
FIG. 6 shows an example of a character rectangle and an example of a dotted line element rectangle. The area of a rectangle is represented by S, and the area of a black pixel in the rectangle (FIG. 6)
In the example, the area of the character a) is defined as Black, and the rectangular black pixel ratio C is defined as C = Black / S. Using the fact that the black pixel ratio is low if the rectangle is a character and the black pixel ratio is high if the rectangle is a dashed line element, it is determined whether it is a pseudo dashed line or a true dashed line. Assuming that the predetermined threshold value is C ′, the black pixel ratio C of the element rectangles constituting the broken line or the average value Cavg of the black pixel ratios of all the element rectangles is calculated, and if C <C ′ or Cavg <C ′, (Step 33) The element rectangle is determined to be a character rectangle, that is, a pseudo dashed line, and is removed (Step 34). The dashed line determination unit 160 removes the dashed line determined as the pseudo dashed line and stores the dashed line in the dashed line rule memory 170.

【0028】〈実施例4〉上記した実施例3の処理方法
を用いると、図7に示すLine2やLine4を擬似
破線として簡単に除去することが可能となる。しかし、
上記した実施例3の方法では、文字矩形から構成される
擬似破線Line1やLine3を破線要素と区別する
ことが難しい場合もある。そこで、本実施例は、図7に
示す擬似破線Line1やLine3を除去する実施例
である。
<Embodiment 4> By using the processing method of Embodiment 3 described above, Line 2 and Line 4 shown in FIG. 7 can be easily removed as pseudo-dashed lines. But,
In the method of the third embodiment described above, it may be difficult to distinguish the pseudo dashed lines Line1 and Line3 composed of the character rectangles from the dashed line elements. Therefore, the present embodiment is an embodiment in which the pseudo broken lines Line1 and Line3 shown in FIG. 7 are removed.

【0029】本実施例の破線判断部160では、矩形位
置と破線位置の比較計算部164を設けている。図8
は、実施例4に係る破線判断部160の処理フローチャ
ートである。比較計算部164では、抽出された破線、
もしくは抽出中の破線そのものの位置情報と画像上の文
字矩形の位置情報とを比較して、破線の位置と文字矩形
の位置の差Dを算出し(ステップ42)、Dが所定の閾
値以下D’であれば(ステップ43)、その破線は文字
の矩形の一部から構成される擬似破線であると判定して
除去する(ステップ44)。
The dashed line determining section 160 of this embodiment includes a rectangular position and dashed line position comparing / calculating section 164. FIG.
13 is a processing flowchart of the dashed line determination unit 160 according to the fourth embodiment. In the comparison calculation unit 164, the extracted broken line,
Alternatively, the position information of the dashed line itself being extracted is compared with the position information of the character rectangle on the image, and the difference D between the position of the dashed line and the position of the character rectangle is calculated (step 42). If it is' (step 43), the dashed line is determined to be a pseudo dashed line composed of a part of the character rectangle, and is removed (step 44).

【0030】図9は、実施例4で除去する擬似点線の例
(Line1)を示す。図中の点線は抽出された矩形の
位置範囲を示す。上記したDは、横書きの文字の場合、
矩形位置とLine1位置との横方向における距離であ
る。このDの算出方法としては、Line1近傍に存在
する任意の矩形との距離を算出するか、もしくは対象画
像中に存在する全矩形との距離を算出するか、もしくは
Line1近傍に存在する文字矩形と判断された矩形と
の距離を算出するなど、何れかの算出方法を採ればよ
い。本実施例では、算出された距離Dが所定の閾値以下
であれば、Line1を擬似点線と判断して除去する。
FIG. 9 shows an example (Line 1) of the pseudo dotted line removed in the fourth embodiment. The dotted line in the figure indicates the position range of the extracted rectangle. If D is a horizontally written character,
This is the horizontal distance between the rectangular position and the Line1 position. As a method of calculating D, a distance to an arbitrary rectangle existing in the vicinity of Line 1 is calculated, a distance to all rectangles existing in the target image is calculated, or a character rectangle existing in the vicinity of Line 1 is calculated. Any calculation method such as calculating the distance from the determined rectangle may be used. In the present embodiment, if the calculated distance D is equal to or less than a predetermined threshold, Line1 is determined to be a pseudo dotted line and removed.

【0031】〈実施例5〉上記した実施例1から4の処
理では、除去できない擬似破線が存在する可能性があ
る。また、実施例4では、破線の位置情報と文字矩形の
位置情報を比較判断しているだけであるので、小さい表
や罫線と文字が近接しているような密な表の場合、真の
破線であるにもかかわらず、擬似破線として誤って除去
してしまう可能性がある。
Fifth Embodiment In the processing of the first to fourth embodiments, there is a possibility that a pseudo broken line that cannot be removed exists. In the fourth embodiment, since only the position information of the broken line is compared with the position information of the character rectangle, in the case of a small table or a dense table where ruled lines and characters are close to each other, a true broken line is used. Despite this, there is a possibility that it will be erroneously removed as a pseudo broken line.

【0032】そこで、本実施例では、破線識別処理後ま
たは処理中に破線を構成している個々の要素矩形の画像
上での位置情報と文字を構成している矩形の画像上での
位置情報とを比較して、抽出された破線が文字の矩形要
素から構成される擬似破線であるか否かを判定する手段
を設けたものであり、これにより、破線の識別精度をさ
らに向上させている。
Therefore, in the present embodiment, after or during the dashed line identification processing, the position information on the image of each element rectangle forming the dashed line and the position information on the rectangular image forming the character To determine whether the extracted dashed line is a pseudo dashed line composed of character rectangular elements, thereby further improving the accuracy of dashed line identification. .

【0033】図10は、実施例5に係る破線判断部16
0の処理フローチャートである。矩形位置と破線要素位
置の比較計算部165は、抽出された破線、もしくは抽
出中の破線要素の位置情報と文字矩形の位置情報とを比
較して、破線要素の位置と文字矩形の位置の差Eを算出
し(ステップ53)、差Eが所定の閾値E’以下であれ
ば(ステップ54)、その破線要素は文字の矩形の一部
から構成される擬似破線要素と判定し、カウントする
(ステップ55)。
FIG. 10 shows a broken line determining unit 16 according to the fifth embodiment.
0 is a processing flowchart of FIG. The comparison calculation unit 165 compares the position information of the extracted dashed line or the dashed line element being extracted with the position information of the character rectangle, and determines the difference between the position of the dashed line element and the position of the character rectangle. E is calculated (step 53), and if the difference E is equal to or smaller than a predetermined threshold value E '(step 54), the dashed line element is determined to be a pseudo dashed line element composed of a part of a character rectangle, and counted ( Step 55).

【0034】図11は、実施例5で除去する擬似破線例
である。図中のLine1は文字矩形l(エル)を破線
要素として誤って識別した擬似破線を示す。実施例5で
は、Line1を構成している各要素に対して近傍矩形
との距離Eを算出する。
FIG. 11 is an example of a pseudo broken line removed in the fifth embodiment. Line 1 in the figure indicates a pseudo-dashed line in which the character rectangle 1 (ell) is erroneously identified as a broken line element. In the fifth embodiment, the distance E between each element constituting Line 1 and the neighboring rectangle is calculated.

【0035】すなわち、その距離Eの算出方法は、以下
に示すように両サイドの文字矩形の存在の有無を確かめ
る。図11の要素のl(エル)の文字矩形に注目し、l
(エル)のYe座標値をbaselineとする。
That is, the method of calculating the distance E checks whether or not there is a character rectangle on both sides as described below. Notice the character rectangle of l (el) of the element in FIG.
The Ye coordinate value of (L) is set to baseline.

【0036】別に文字矩形として抽出されている矩形の
Ye座標値がdyeの範囲に存在し、かつ、別に文字矩
形として抽出されている矩形のXe座標値がdxLの範
囲に、またはXs座標値がdxRの範囲に存在する。こ
こで、dye、dxL、dxRは所定の閾値である。
The Ye coordinate value of a rectangle separately extracted as a character rectangle exists in the range of dye, and the Xe coordinate value of the rectangle separately extracted as a character rectangle falls in the range of dxL, or the Xs coordinate value of the rectangle is extracted. It is in the range of dxR. Here, dye, dxL, and dxR are predetermined thresholds.

【0037】上記の条件を破線要素数すべてについて満
たしていれば、つまり、算出されたEが所定の閾値E’
以下であれば、それは文字矩形(例えばl(エル)やI
(アイ))であり、擬破線要素と判断できる。このよう
にLine1を構成している全要素に対して擬似破線要
素か破線要素かの判定を行う。
If the above condition is satisfied for all the numbers of broken line elements, that is, the calculated E is equal to the predetermined threshold value E '.
If it is less than or equal to a character rectangle (for example, l (el) or I
(Eye)), which can be determined as a pseudo-dashed line element. In this manner, it is determined whether all elements constituting Line 1 are pseudo dashed line elements or dashed line elements.

【0038】次に、Line1が擬似破線か否かの判定
方法を説明する。破線の構成要素数をNとし、上記した
処理で擬似破線要素と判定された数をNGnumとする
と、N=NGnumまたはN=NGnum×2であれ
ば、擬似破線と判定し(ステップ57)、擬似破線とし
て除去する(ステップ58)。図11のLine1の構
成要素数は3個であるので、擬似破線要素と判定された
要素数が3個であればLine1を擬似破線と判定す
る。また、図11のLine3は構成要素数が6個であ
るので、擬似破線要素と判定される数が3個であれば、
Line3を擬似破線と判定する。
Next, a method of determining whether or not Line 1 is a pseudo broken line will be described. Assuming that the number of components of the broken line is N and the number determined to be a pseudo-dashed line element in the above processing is NGnum, if N = NGnum or N = NGnum × 2, it is determined to be a pseudo-dashed line (step 57), It is removed as a broken line (step 58). Since the number of components of Line1 in FIG. 11 is three, if the number of elements determined to be a pseudo-dashed line element is three, Line1 is determined to be a pseudo-dashed line. Further, since the number of components of Line 3 in FIG. 11 is six, if the number of elements determined to be a pseudo-dashed line element is three,
Line 3 is determined to be a pseudo broken line.

【0039】このように、本実施例では、各破線要素に
ついて擬似破線であるか否かを判定しているので、上記
した実施例4に比べて確実に擬似破線を識別除外するこ
とができ、破線の抽出率が向上する。また、真の破線で
あっても、文字が破線の近辺に存在した場合は、実施例
4の処理では誤って真の破線を擬似破線として除外して
しまう可能性がある。これに対して、本実施例の処理で
は、破線要素の数と擬似破線要素の数を比較して判断し
ているために確実に擬似破線を識別し、除外することが
できる。
As described above, in this embodiment, it is determined whether or not each dashed element is a pseudo dashed line. Therefore, the pseudo dashed line can be identified and excluded more reliably than in the fourth embodiment. The extraction rate of the broken line is improved. Further, even if the character is a true dashed line, if a character exists near the dashed line, the processing of the fourth embodiment may erroneously exclude the true dashed line as a pseudo dashed line. On the other hand, in the processing of the present embodiment, since the number of dashed line elements and the number of pseudo dashed line elements are compared and determined, a pseudo dashed line can be reliably identified and excluded.

【0040】〈実施例6〉上記した実施例1、2では、
抽出された破線を構成する要素間距離のバラツキ(分
散)と比を計算しているが、本実施例ではこの計算結果
を利用することによって、破線の種類を分類することが
可能となる。また、本実施例では、破線の種類を分類し
た結果を罫線情報に加えて、罫線識別における詳細なデ
ータを得ることができるとともに、表再現時に罫線の詳
細な再現データを用いて、読み込んだ原稿に近い表を再
現することができる。
Embodiment 6 In Embodiments 1 and 2 described above,
Although the variation (variance) and the ratio of the distance between the elements constituting the extracted broken line are calculated, in this embodiment, the type of the broken line can be classified by using the calculation result. Further, in this embodiment, in addition to the ruled line information, the result of classifying the type of the broken line can be used to obtain detailed data for ruled line discrimination. Tables close to can be reproduced.

【0041】図12は、本発明の実施例6の構成を示
す。図1に示す構成に、さらに、算出結果メモリ18
0、破線種類分別部190、罫線再現部200を設けて
いる。他の構成要素は図1のものと同様である。図13
は、実施例6の処理フローチャートである。
FIG. 12 shows the configuration of the sixth embodiment of the present invention. The configuration shown in FIG.
0, a broken line type classification unit 190 and a ruled line reproduction unit 200 are provided. Other components are the same as those in FIG. FIG.
13 is a processing flowchart of the sixth embodiment.

【0042】分散計算部161と比率計算部162の算
出結果が算出結果メモリ180に保持される。この算出
結果を基に、破線種類分別部190は破線の種類を点
線、一点鎖線、二点鎖線、その他に分類する(ステップ
66)。
The calculation results of the variance calculator 161 and the ratio calculator 162 are held in the calculation result memory 180. Based on the calculation result, the dashed line type classification unit 190 classifies the dashed line type into a dotted line, a one-dot chain line, a two-dot chain line, and others (step 66).

【0043】図14は、破線種類分別部の処理フローチ
ャートである。図15は、識別方向における破線要素の
高さh、幅w、要素間距離dを示す。分類の方法は、識
別された破線に対して、破線を構成している要素の高
さ、幅、要素間距離のバラツキを表す値、例えば、分散
値h、w、dを算出する(ステップ71)。所定の閾値
をVとして、h、w、dが、h<Vかつw<Vかつd<
Vの条件を満たせば(ステップ72)、破線を点線(構
成要素が同じサイズである破線)と判断して、破線の種
類を点線とラベリングする(ステップ73)。なお、上
記所定の閾値Vはh、w、d毎に異なる場合もある。
FIG. 14 is a flowchart of the process performed by the broken line type classification unit. FIG. 15 shows the height h, width w, and inter-element distance d of the broken line elements in the identification direction. The classification method calculates, for the identified dashed line, values representing variations in the height, width, and distance between elements constituting the dashed line, for example, variance values h, w, and d (step 71). ). Assuming that a predetermined threshold is V, h, w, and d are h <V and w <V and d <
If the condition of V is satisfied (step 72), the dashed line is determined to be a dotted line (a dashed line having the same size of constituent elements), and the type of the dashed line is labeled with the dotted line (step 73). Note that the predetermined threshold V may be different for each of h, w, and d.

【0044】次いで、点線と判断されなかった場合に
は、一点および二点鎖線であるための条件を満たすか否
かの判断条件に処理を進める。所定の閾値をV2、V3
として(V2<V3)、h<V2かつd<V2かつw<
V3を満たしていれば(ステップ74)、破線は一点も
しくは二点鎖線であると判断して、一点、二点鎖線とし
てラベリングする(ステップ75)。
Next, if it is not determined to be a dotted line, the process proceeds to a condition for determining whether or not a condition for a one-point and two-dot chain line is satisfied. V2, V3
(V2 <V3), h <V2 and d <V2 and w <
If V3 is satisfied (step 74), it is determined that the broken line is a one-point or two-dot chain line, and labeling is performed as a one-point or two-dot chain line (step 75).

【0045】一点、二点鎖線と判断された場合には、さ
らに詳細に分類する処理に進む。破線構成要素におい
て、1つおきに位置している要素に対して、高さと幅の
分散値h1、w1を算出する(ステップ76)。所定の
閾値をV4とすると、h1<V4かつw1<V4を満た
せば(ステップ77)、一点鎖線と判断してラベリング
する(ステップ78)。
If it is determined that the position is a one-point or two-dot chain line, the process proceeds to a more detailed classification. The variance values h1 and w1 of the height and width are calculated for every other element in the broken line component (step 76). Assuming that the predetermined threshold value is V4, if h1 <V4 and w1 <V4 are satisfied (step 77), it is determined as a dashed line and labeling is performed (step 78).

【0046】次に、ラベリングされなかった場合には、
2つおきに位置している要素に対して、同様に高さと幅
の分散値h2、w2を算出する(ステップ79)。所定
の閾値をV5とすると、h2<V5かつw2<V5を満
たせば(ステップ80)、二点鎖線と判断してラベリン
グする(ステップ81) また、DTPなどの罫線再現部200が罫線を再現する
とき、破線種類分別部190の分類結果を用いて正しい
罫線を再現することができる。
Next, when no labeling is performed,
Similarly, variance values h2 and w2 of the height and width are calculated for every third element (step 79). Assuming that the predetermined threshold value is V5, if h2 <V5 and w2 <V5 are satisfied (step 80), it is determined as a two-dot chain line and labeling is performed (step 81). Also, the ruled line reproducing unit 200 such as DTP reproduces the ruled line. At this time, a correct ruled line can be reproduced using the classification result of the broken line type classification unit 190.

【0047】〈実施例7〉本実施例は、上記した各実施
例を組み合わせたもので、擬似破線を精度よく除去する
ことができ、高精度に破線を抽出することが可能とな
る。
<Embodiment 7> This embodiment is a combination of the above-described embodiments, and can remove pseudo dashed lines with high accuracy and extract dashed lines with high accuracy.

【0048】〈実施例8〉本実施例は、上記した各実施
例で擬似破線を除去し、正しく識別された破線につい
て、その破線を構成している矩形にラベリングし、一
度、識別に使用された矩形を明確化することによって、
他の識別処理時の誤認を低減し、表処理構造認識と表再
現処理の精度を向上させた実施例である。
<Embodiment 8> In this embodiment, a pseudo dashed line is removed in each of the above embodiments, and a correctly identified dashed line is labeled as a rectangle constituting the dashed line, and is used once for identification. By clarifying the rectangle
This is an embodiment in which misidentification during other identification processing is reduced, and the accuracy of table processing structure recognition and table reproduction processing is improved.

【0049】図16は、本発明の実施例8の構成を示
し、図1の構成にさらに、矩形ラベリング部300、矩
形メモリ310、他の識別処理部320を設けている。
図17は、実施例8の処理フローチャートである。破線
判断部160で正しく識別され、破線罫線メモリ170
に格納されている破線について(ステップ95)、その
破線を構成している矩形に対して、矩形ラベリング部3
00でラベリングする(ステップ96)。
FIG. 16 shows the configuration of the eighth embodiment of the present invention. The configuration of FIG. 1 further includes a rectangular labeling unit 300, a rectangular memory 310, and another identification processing unit 320.
FIG. 17 is a processing flowchart of the eighth embodiment. The dashed line determination unit 160 correctly identifies the dashed line memory 170
(Step 95), the rectangular labeling unit 3
Labeling with 00 (step 96).

【0050】ここで、ラベリングとは、例えば、正しく
識別された破線を構成している矩形に対して、破線識別
番号などを付けることを指す。また、例えば破線だけで
はなく、既に正しく識別されている実線などの罫線類、
その他の識別処理に使用された矩形についても同様にラ
ベリングされる。
Here, labeling refers to, for example, attaching a broken line identification number or the like to a rectangle constituting a correctly identified broken line. Also, for example, not only a broken line but also a ruled line such as a solid line which has been correctly identified,
The rectangles used for other identification processing are labeled in the same manner.

【0051】ラベリングされた矩形は矩形メモリ310
に保持される。この矩形メモリ310としては、メモリ
130を用いてもよい。破線の識別処理が終了した後、
他の識別処理320を行うとき、矩形メモリ310内の
矩形ラベリング情報を利用して、その矩形が罫線等の矩
形であるか否かを判断し、現識別処理とは関係のない矩
形を除いて識別処理を進めることができる。
The labeled rectangle is a rectangle memory 310.
Is held. The memory 130 may be used as the rectangular memory 310. After the dashed line identification process ends,
When performing other identification processing 320, it is determined whether or not the rectangle is a rectangle such as a ruled line by using the rectangle labeling information in the rectangle memory 310, and a rectangle not related to the current identification processing is removed. The identification process can proceed.

【0052】つまり、従来は、他の識別処理を行うと
き、再度、2値画像の入力100→2値イメージメモリ
への格納110→矩形抽出120→矩形メモリ130へ
の格納と処理を進めるか、あるいは矩形メモリ130の
矩形情報を利用しているが、本実施例では、この矩形メ
モリ130の矩形情報に、ラベリングされた矩形情報が
追加されるため、識別処理を容易に行うことができ、こ
れにより誤認織の低減、高速処理を実現することができ
る。
That is, conventionally, when performing another identification processing, the binary image input 100 → storage into the binary image memory 110 → rectangular extraction 120 → storage into the rectangular memory 130 proceeds again. Alternatively, although the rectangle information of the rectangle memory 130 is used, in the present embodiment, since the labeled rectangle information is added to the rectangle information of the rectangle memory 130, the identification process can be easily performed. Thereby, it is possible to reduce false recognition and realize high-speed processing.

【0053】〈実施例9〉図18は、本発明の実施例9
の構成を示し、ソフトウェアによって実現する実施例で
ある。本発明をソフトウェアによって実現する場合に
は、図18に示すように、CPU、ROM、RAM、表
示装置、ハードディスク、キーボード、CD−ROMド
ライブ、スキャナなどからなる汎用の処理装置を用意
し、CD−ROMなどのコンピュータ読み取り可能な記
録媒体には、本発明の破線識別機能を実現するプログラ
ムが記録されている。また、スキャナなどから入力され
た文書などの画像は一時的にハードディスクなどに格納
される。そして、該プログラムが起動されると、一時保
存された画像データが読み込まれて、破線識別処理を実
行し、その識別結果をディスプレイなどに出力する。
<Embodiment 9> FIG. 18 shows Embodiment 9 of the present invention.
Is an embodiment realized by software. When the present invention is implemented by software, as shown in FIG. 18, a general-purpose processing device including a CPU, a ROM, a RAM, a display device, a hard disk, a keyboard, a CD-ROM drive, and a scanner is prepared. On a computer-readable recording medium such as a ROM, a program for realizing the broken line identification function of the present invention is recorded. Images such as documents input from a scanner or the like are temporarily stored on a hard disk or the like. When the program is started, the temporarily stored image data is read, a broken line identification process is executed, and the identification result is output to a display or the like.

【0054】[0054]

【発明の効果】以上、説明したように、請求項1、9記
載の発明によれば、破線要素の大きさ、破線要素間の距
離などの情報のバラツキを計算し、そのバラツキを基に
擬似破線であるか破線であるかを識別しているので、か
すれている実線などを除去することができ、正しく破線
を識別することができる。
As described above, according to the first and ninth aspects of the present invention, a variation in information such as a size of a broken line element and a distance between broken line elements is calculated, and a pseudo value is calculated based on the calculated variation. Since it is identified whether it is a broken line or a broken line, a faint solid line or the like can be removed, and a broken line can be correctly identified.

【0055】請求項2、9記載の発明によれば、破線要
素の幅、高さ、破線要素間の距離のそれぞれの比を基に
擬似破線であるか破線であるかを識別しているので、精
度よく擬似破線またはかすれている実線などを除去する
ことができる。
According to the second and ninth aspects of the present invention, it is determined whether a dashed line or a dashed line is based on the respective ratios of the width, height, and distance between dashed line elements. It is possible to accurately remove pseudo-dashed lines or faint solid lines.

【0056】請求項3記載の発明によれば、破線要素に
占める黒画素または白画素の面積率を基に擬似破線であ
るか破線であるかを識別しているので、精度よく擬似破
線またはかすれている実線などを除去することができ
る。
According to the third aspect of the present invention, whether a pseudo-dashed line or a broken line is identified based on the area ratio of a black pixel or a white pixel occupying a broken-line element, the pseudo-dashed line or the blurred portion is accurately detected. Solid lines and the like can be removed.

【0057】請求項4記載の発明によれば、破線の位置
情報と文字矩形の位置情報との差を基に破線であるか擬
似破線であるかを識別しているので、擬似破線を除去す
る精度が向上し、正しく破線を識別することができる。
According to the fourth aspect of the present invention, whether a broken line or a pseudo broken line is identified based on the difference between the position information of the broken line and the position information of the character rectangle, the pseudo broken line is removed. Accuracy is improved, and a broken line can be correctly identified.

【0058】請求項5記載の発明によれば、破線要素の
位置情報と文字矩形の位置情報との差を基に破線である
か擬似破線であるかを識別しているので、擬似破線を除
去する精度が一層向上し、正しく破線を識別することが
できる。
According to the fifth aspect of the present invention, whether a line is a broken line or a pseudo broken line is identified based on the difference between the position information of the broken line element and the position information of the character rectangle. Accuracy can be further improved, and a broken line can be correctly identified.

【0059】請求項6記載の発明によれば、破線の種類
を点線、一点鎖線、二点鎖線などに識別可能であるの
で、罫線を精度よく再現することができる。
According to the sixth aspect of the invention, the type of the broken line can be identified as a dotted line, a one-dot chain line, a two-dot chain line, etc., so that the ruled line can be accurately reproduced.

【0060】請求項7記載の発明によれば、上記した各
識別方法を適宜組み合わせているので、擬似破線を除去
する精度がより一層向上し、高精度に破線を抽出するこ
とができる。
According to the seventh aspect of the present invention, since the above-mentioned respective identification methods are appropriately combined, the accuracy of removing the false dashed line is further improved, and the dashed line can be extracted with high accuracy.

【0061】請求項8記載の発明によれば、正しく識別
された破線を構成している矩形に対してラベリングをし
ているので、他の識別処理時にそのラベリング情報を使
用することによって、誤識別が防止され、破線の識別率
が向上する。
According to the eighth aspect of the present invention, labeling is performed on a rectangle that constitutes a dashed line that has been correctly identified. Therefore, erroneous identification is performed by using the labeling information during another identification process. Is prevented, and the identification rate of the broken line is improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施例1から5に共通する構成を示
す。
FIG. 1 shows a configuration common to Embodiments 1 to 5 of the present invention.

【図2】本発明の実施例1から5に共通する全体の処理
フローチャートである。
FIG. 2 is an overall processing flowchart common to Embodiments 1 to 5 of the present invention.

【図3】実施例1に係る破線判断部160の処理フロー
チャートである。
FIG. 3 is a processing flowchart of a broken line determination unit 160 according to the first embodiment.

【図4】実施例2に係る破線判断部160の処理フロー
チャートである。
FIG. 4 is a processing flowchart of a dashed line determination unit 160 according to the second embodiment.

【図5】実施例3に係る破線判断部160の処理フロー
チャートである。
FIG. 5 is a processing flowchart of a dashed line determination unit 160 according to the third embodiment.

【図6】文字矩形例と点線要素矩形例を示す。FIG. 6 shows an example of a character rectangle and an example of a dotted line element rectangle.

【図7】擬似破線の例を示す。FIG. 7 shows an example of a pseudo broken line.

【図8】実施例4に係る破線判断部160の処理フロー
チャートである。
FIG. 8 is a processing flowchart of a dashed line determination unit 160 according to the fourth embodiment.

【図9】実施例4で除去する擬似破線の例を示す。FIG. 9 shows an example of a pseudo-dashed line removed in the fourth embodiment.

【図10】実施例5に係る破線判断部160の処理フロ
ーチャートである。
FIG. 10 is a processing flowchart of a dashed line determination unit 160 according to the fifth embodiment.

【図11】実施例5で除去する擬似破線例である。FIG. 11 is an example of a pseudo-dashed line removed in a fifth embodiment.

【図12】本発明の実施例6の構成を示す。FIG. 12 shows a configuration of a sixth embodiment of the present invention.

【図13】実施例6の処理フローチャートである。FIG. 13 is a processing flowchart of a sixth embodiment.

【図14】破線種類分別部の処理フローチャートであ
る。
FIG. 14 is a processing flowchart of a broken line type classification unit.

【図15】識別方向における破線要素の高さh、幅w、
要素間距離dを示す。
FIG. 15 shows the height h, width w,
The distance d between elements is shown.

【図16】本発明の実施例8の構成を示す。FIG. 16 shows a configuration of Example 8 of the present invention.

【図17】実施例8の処理フローチャートである。FIG. 17 is a processing flowchart of the eighth embodiment.

【図18】本発明の実施例9の構成を示す。FIG. 18 shows a configuration of a ninth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

100 2値画像入力部 110 2値イメージメモリ 120 矩形抽出部 130 矩形メモリ 140 破線罫線抽出部 150 破線罫線メモリ 160 破線判断部 161 分散計算部 162 比率計算部 163 一定情報量占有率の計算部 164 矩形位置と破線位置の比較計算部 165 矩形位置と破線要素位置の比較計算部 170 破線罫線メモリ Reference Signs List 100 binary image input unit 110 binary image memory 120 rectangle extraction unit 130 rectangle memory 140 dashed ruled line extraction unit 150 dashed ruled line memory 160 dashed line determination unit 161 variance calculation unit 162 ratio calculation unit 163 constant information amount occupancy calculation unit 164 rectangle Comparison calculation section 165 between position and broken line position Comparison calculation section between rectangle position and broken line element position 170 Ruled line memory

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 文書画像から黒画素連結成分を統合した
矩形を抽出し、該抽出された矩形から破線を構成する矩
形(以下、破線要素)を抽出し、該破線要素を基に破線
であるか、文字矩形の一部から構成されている擬似破線
であるかを識別する方法であって、前記破線要素の大き
さ、要素間の距離の分散値を基に破線であるか擬似破線
であるかを識別することを特徴とする破線識別方法。
1. A rectangle integrating black pixel connected components is extracted from a document image, and a rectangle (hereinafter, a dashed line element) constituting a dashed line is extracted from the extracted rectangle, and a dashed line is formed based on the dashed line element. Or a pseudo-dashed line composed of a part of a character rectangle, the method being a broken line or a pseudo-dashed line based on the size of the broken-line element and the variance of the distance between the elements. A method for identifying a broken line.
【請求項2】 前記破線要素の幅と高さの比、破線要素
の幅と要素間の距離の比、高さと要素間の距離の比を基
に破線であるか擬似破線であるかを識別することを特徴
とする請求項1記載の破線識別方法。
2. A method for identifying a dashed line or a pseudo dashed line based on the ratio of the width and height of the broken line element, the ratio of the width of the broken line element to the distance between the elements, and the ratio of the height and the distance between the elements. 2. The method for identifying broken lines according to claim 1, wherein:
【請求項3】 前記破線要素に占める黒画素の面積また
は白画素の面積を基に破線であるか擬似破線であるかを
識別することを特徴とする請求項1記載の破線識別方
法。
3. The method according to claim 1, wherein the method determines whether the pixel is a dashed line or a pseudo dashed line based on an area of a black pixel or an area of a white pixel occupying the dashed line element.
【請求項4】 前記破線の位置情報と文字矩形の位置情
報との差を基に破線であるか擬似破線であるかを識別す
ることを特徴とする請求項1記載の破線識別方法。
4. The method for identifying a broken line according to claim 1, further comprising the step of identifying a broken line or a pseudo broken line based on a difference between the position information of the broken line and the position information of the character rectangle.
【請求項5】 前記破線要素の位置情報と文字矩形の位
置情報との差を基に破線であるか擬似破線であるかを識
別することを特徴とする請求項1記載の破線識別方法。
5. The dashed line identification method according to claim 1, wherein a dashed line or a pseudo dashed line is identified based on a difference between the position information of the dashed line element and the position information of the character rectangle.
【請求項6】 前記識別される破線は、点線、一点鎖
線、二点鎖線を含む破線であることを特徴とする請求項
1、2、3、4または5記載の破線識別方法。
6. The broken line identification method according to claim 1, wherein the identified broken line is a broken line including a dotted line, a dashed line, and a two-dot chain line.
【請求項7】 請求項1、2、3、4、5記載の全ての
方法、またはそれらの一部を組み合わせて破線であるか
擬似破線であるかを識別することを特徴とする破線識別
方法。
7. A method for identifying a dashed line as a dashed line or a pseudo dashed line by combining all of the methods according to claim 1, 2, 3, 4, and 5, or a combination thereof. .
【請求項8】 請求項1、2、3、4、5、または7記
載の方法によって識別された破線について、破線を構成
している矩形にラベリングすることを特徴とする破線識
別方法。
8. A method for identifying a dashed line, wherein the dashed line identified by the method according to claim 1, 2, 3, 4, 5, or 7 is labeled as a rectangle constituting the dashed line.
【請求項9】 文書画像から黒画素連結成分を統合した
矩形を抽出する機能と、該抽出された矩形から破線を構
成する矩形(以下、破線要素)を抽出する機能と、該破
線要素の大きさ、要素間の距離を基に破線であるか、文
字矩形の一部から構成されている擬似破線であるかを識
別する機能と、該識別された破線を構成している矩形に
ラベリングする機能をコンピュータに実現させるための
プログラムを記録したコンピュータ読み取り可能な記録
媒体。
9. A function for extracting a rectangle integrating black pixel connected components from a document image, a function for extracting a rectangle forming a broken line (hereinafter, a broken line element) from the extracted rectangle, and a size of the broken line element Now, a function of identifying whether a dashed line or a pseudo dashed line composed of a part of a character rectangle based on the distance between elements, and a function of labeling the identified dashed line as a rectangle. Computer-readable recording medium on which a program for causing a computer to realize the above is recorded.
JP13791198A 1997-05-30 1998-05-20 Broken line identification device and recording medium Expired - Lifetime JP3753354B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13791198A JP3753354B2 (en) 1997-05-30 1998-05-20 Broken line identification device and recording medium

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-141355 1997-05-30
JP14135597 1997-05-30
JP13791198A JP3753354B2 (en) 1997-05-30 1998-05-20 Broken line identification device and recording medium

Publications (2)

Publication Number Publication Date
JPH1145339A true JPH1145339A (en) 1999-02-16
JP3753354B2 JP3753354B2 (en) 2006-03-08

Family

ID=26471074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13791198A Expired - Lifetime JP3753354B2 (en) 1997-05-30 1998-05-20 Broken line identification device and recording medium

Country Status (1)

Country Link
JP (1) JP3753354B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059298A (en) * 2006-08-31 2008-03-13 Fujitsu Ltd Ruled line extraction program, ruled line extraction apparatus, and ruled line extraction method
JP2016224914A (en) * 2015-05-29 2016-12-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド Document image binarization method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059298A (en) * 2006-08-31 2008-03-13 Fujitsu Ltd Ruled line extraction program, ruled line extraction apparatus, and ruled line extraction method
JP2016224914A (en) * 2015-05-29 2016-12-28 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド Document image binarization method

Also Published As

Publication number Publication date
JP3753354B2 (en) 2006-03-08

Similar Documents

Publication Publication Date Title
JP3904840B2 (en) Ruled line extraction device for extracting ruled lines from multi-valued images
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
KR100480781B1 (en) Method of extracting teeth area from teeth image and personal identification method and apparatus using teeth image
JP2008148298A (en) Method and apparatus for identifying regions of different content in image, and computer readable medium for embodying computer program for identifying regions of different content in image
JP2002298085A (en) Character recognition device, character recognition method, and record medium
JP3995185B2 (en) Frame recognition device and recording medium
CN113688838A (en) Red handwriting extraction method and system, readable storage medium and computer equipment
JP2000207489A (en) Character extracting method and device and record medium
JP4049560B2 (en) Halftone dot removal method and system
JP3416058B2 (en) Character extraction method of gray image and recording medium recording the program
JP3753354B2 (en) Broken line identification device and recording medium
CN111311696B (en) License plate authenticity detection method based on hyperspectral unmixing technology
JPH10285399A (en) Binarization method for image
JP2002342710A (en) Character segmenting device and character segmenting method used for the same device and its program
JP4213357B2 (en) Image processing apparatus, image processing method, and program for executing the method
JP4409713B2 (en) Document image recognition apparatus and recording medium
JP4116377B2 (en) Image processing method and image processing apparatus
JP3423889B2 (en) Pattern recognition method and recording medium recording pattern recognition program
JP2000357287A (en) Method and device for number plate recognition
JP2004334461A (en) Character recognition device and character recognition program
JP4248700B2 (en) Ruled line identification method, ruled line identification apparatus and recording medium
JP2000331118A (en) Image processor and recording medium
JP4738645B2 (en) SHADED AREA DETECTING DEVICE, SHATTERED AREA DETECTING METHOD, PROGRAM, AND STORAGE MEDIUM
JP3756660B2 (en) Image recognition method, apparatus and recording medium
JP3412441B2 (en) Image processing device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050801

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081222

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091222

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101222

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131222

Year of fee payment: 8

EXPY Cancellation because of completion of term