JPH07111738B2 - Area boundary extraction method in document - Google Patents

Area boundary extraction method in document

Info

Publication number
JPH07111738B2
JPH07111738B2 JP63097750A JP9775088A JPH07111738B2 JP H07111738 B2 JPH07111738 B2 JP H07111738B2 JP 63097750 A JP63097750 A JP 63097750A JP 9775088 A JP9775088 A JP 9775088A JP H07111738 B2 JPH07111738 B2 JP H07111738B2
Authority
JP
Japan
Prior art keywords
document
histogram
threshold value
black pixels
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63097750A
Other languages
Japanese (ja)
Other versions
JPH01269184A (en
Inventor
純 佐藤
里至 清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63097750A priority Critical patent/JPH07111738B2/en
Publication of JPH01269184A publication Critical patent/JPH01269184A/en
Publication of JPH07111738B2 publication Critical patent/JPH07111738B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Image Analysis (AREA)

Description

【発明の詳細な説明】 〔概要〕 文書中の文字、図形、表及び写真等の記載領域を自動的
に抽出する文書読取装置において、該記載領域の境界を
確実に検出する文書中の領域境界抽出方式に関し、 各領域の境界を正確に抽出することを目的とし、 文書を読取って二値化したデータとして画像メモリに格
納し、画像メモリに格納したデータから、文書上におけ
る縦及び横方向の黒画素の分布状態を示すヒストグラム
を作成して、各文字、図形、表及び写真等の各記載領域
を夫々区分して抽出する文書読取装置であって、ヒスト
グラムが示す黒画素の分布量が少ない部分を検出するた
めの最小値から最大値までの複数の比較値を持つ第1の
閾値と、黒画素の分布量が少ない部分の広さを検出する
ための最大値から最小値までの複数の比較値を持つ第2
の閾値を設定したパラメータテーブルと、この設定した
第1と第2の閾値を用いて、ヒストグラムが示す黒画素
の分布量が少ない部分の文書上の位置を検出して記載領
域間の境界と判定する手段とを設け、パラメータテーブ
ルに設定された第1の閾値と第2の閾値とを組合わせ、
ヒストグラムが示す黒画素の分布量が少ない部分を抽出
する動作を繰り返し、抽出された部分の文書上における
位置を記載領域の境界とするように構成する。
DETAILED DESCRIPTION OF THE INVENTION [Outline] In a document reading device for automatically extracting a description area such as a character, a figure, a table and a photograph in a document, an area boundary in a document for surely detecting the boundary of the description area Regarding the extraction method, in order to accurately extract the boundaries of each area, the document is read and stored as binary data in the image memory, and the vertical and horizontal directions in the document are stored from the data stored in the image memory. A document reading device that creates a histogram showing the distribution state of black pixels and extracts each description area of each character, figure, table, photograph, etc., and the distribution amount of black pixels shown by the histogram is small. A first threshold having a plurality of comparison values from a minimum value to a maximum value for detecting a portion, and a plurality of maximum values to a minimum value for detecting the width of a portion having a small black pixel distribution amount. Has a comparison value Second
By using the parameter table in which the threshold value is set and the set first and second threshold values, the position on the document where the distribution amount of black pixels in the histogram is small is detected to determine the boundary between the description areas. Means for controlling the combination of the first threshold value and the second threshold value set in the parameter table,
The operation of extracting the portion where the distribution amount of black pixels indicated by the histogram is small is repeated, and the position of the extracted portion on the document is set as the boundary of the description area.

〔産業上の利用分野〕[Industrial application field]

本発明は文書の文字、図形、表及び写真等の記載領域を
自動的に抽出する文書読取装置に係り、特に該記載領域
の境界を確実に検出することを可能とする文書中の領域
境界抽出方式に関する。
The present invention relates to a document reading device for automatically extracting a description area such as a character, a figure, a table, and a photograph of a document, and in particular, area boundary extraction in a document capable of surely detecting the boundary of the description area. Regarding the scheme.

印刷文書の中には、文字列の外に図形、表及び写真等が
混在しているが、印刷文書読取装置は、この文字列が記
載されている領域、図形の記載されている領域、表の記
載されている領域、写真の記載されている領域等を夫々
区分して読取っている。
In the print document, figures, tables, photographs, etc. are mixed in addition to the character strings, but the print document reading device uses an area in which the character strings are described, an area in which the figures are described, and a table. The area in which is described, the area in which the photograph is described, and the like are separately read.

このように各領域を区分して読取るのは、文字列であれ
ば文字を文字コードに変換するとか、図形や写真はイメ
ージデータに変換するとか、表からは統計値を収集する
とか、夫々文書を読取った後で処理する内容が異なるた
めである。
In this way, each area is read by dividing the characters into character codes in the case of character strings, converting figures and images into image data, collecting statistical values from tables, and reading documents respectively. This is because the content to be processed after reading is different.

ところで、このような領域を区分するためには、各領域
の境界が確実に検出出来ることが必要である。
By the way, in order to divide such an area, it is necessary to surely detect the boundary of each area.

〔従来の技術〕[Conventional technology]

文書中の文字列、図表、写真等の記載された領域を自動
的に抽出するため、従来から種々の方法が試みられてき
た。その代表的な方法に、文書を読取って二値化して画
像メモリに格納し、この画像メモリから二値化したデー
タを読出し、文書上における縦及び横方向の黒画素の分
布状態を示すヒストグラムを作成して、黒画素の分布が
0か0に近い部分を探索する方法がある。
Various methods have heretofore been attempted in order to automatically extract a region of a document such as a character string, a chart, a photograph, or the like. A typical method is to read a document, binarize it, store it in an image memory, read the binarized data from this image memory, and display a histogram showing the distribution state of vertical and horizontal black pixels on the document. There is a method of creating and searching a portion where the distribution of black pixels is 0 or close to 0.

第6図は従来の技術を説明するブロック図で、第7図は
第6図の動作を説明する図である。
FIG. 6 is a block diagram for explaining the conventional technique, and FIG. 7 is a diagram for explaining the operation of FIG.

スキャナ1は図示省略した文書上を走査して文字列、図
形、表及び写真等を読取り、これを二値化して、例えば
第7図に示す如きイメージデータを画像メモリ2に格納
する。黒画素計数部3は画像メモリ2を走査して、横方
向の各画素列毎の黒画素の総計を求め、文字領域、写
真領域、文字領域,及びに対するヒストグラム
と、縦方向の各画素列毎の黒画素の総計を求め、文字
領域、写真領域、文字領域,及びに対するヒ
ストグラムとを作成し、ヒストグラムメモリ4に格納
する。
The scanner 1 scans a document (not shown) to read a character string, a figure, a table, a photograph and the like, binarizes the same, and stores image data as shown in FIG. The black pixel counting unit 3 scans the image memory 2 to obtain a total of black pixels for each pixel row in the horizontal direction, and a histogram for the character area, the photograph area, the character area, and each vertical pixel row. The total of the black pixels of is calculated, a histogram for the character area, the photograph area, the character area, and the histogram are created and stored in the histogram memory 4.

そして、ヒストグラムとの黒画素の分布が0か0に
近い部分を探索して、この探索で得られた部分の文書上
における位置を領域間の境界と判定する。
Then, a portion where the distribution of black pixels in the histogram is 0 or close to 0 is searched, and the position of the portion obtained by this search on the document is determined as the boundary between the areas.

〔発明が解決しようとする課題〕[Problems to be Solved by the Invention]

ヒストグラムメモリ4に格納されたヒストグラムと
から、文書中の文字領域と写真領域と文字領域と
文字領域と文字領域とを夫々区分するためには、ヒ
ストグラムとにおいて、黒画素の分布が0か0に近
い部分を検出する必要がある。
In order to distinguish the character area, the photograph area, the character area, the character area, and the character area in the document from the histogram stored in the histogram memory 4, the distribution of black pixels in the histogram is set to 0 or 0. It is necessary to detect the near part.

ヒストグラムから文字領域ととの境界及び文字領
域ととの境界を示す空白部分に対応する黒画素数の
ない部分を検出する場合、写真領域の黒画素数が多
いと、黒画素数の少ない空白部分に、写真領域の黒画素
数が付加されるため、本来黒画素数が0か殆ど0に近い
数である筈の空白部分の検出が困難となる。
When detecting the part without black pixel number corresponding to the blank part indicating the boundary with the character region and the boundary with the character region from the histogram, if the number of black pixels in the photo region is large, the blank part with few black pixels is detected. In addition, since the number of black pixels in the photographic area is added, it is difficult to detect a blank portion where the number of black pixels is originally 0 or almost 0.

即ち、黒画素数の少ない部分を検出することが困難と
なり、正確に文字領域と間の境界と、文字領域と
間の境界を区分することが出来ない。
That is, it becomes difficult to detect a portion having a small number of black pixels, and the boundary between the character area and the boundary between the character area cannot be accurately separated.

又、ヒストグラムから文字領域と写真領域
間の境界を示す空白部分に対応する黒画素数の少ない部
分は、比較的明確に検出出来るが、文書の地が汚れて
いる場合は、前記同様に検出が困難となり、且つ、この
境界の幅が狭い場合、文字列の行間隔との区別が困難と
なり、正確に領域間の境界を検出することが出来ないと
いう問題がある。
Also, from the histogram, the part with a small number of black pixels corresponding to the blank part indicating the boundary between the character area and the photo area can be detected relatively clearly, but if the ground of the document is dirty, it can be detected as described above. When it becomes difficult and the width of this boundary is narrow, it is difficult to distinguish it from the line spacing of the character string, and there is a problem that the boundary between the regions cannot be accurately detected.

本発明はこのような問題点に鑑み、各領域間の境界の抽
出を行う際に、領域間の空白部分の広/狭にかかわら
ず、又空白部分に地汚れ等がある場合にも、各領域の境
界を正確に抽出することを目的としている。
In view of such a problem, the present invention extracts each boundary between areas regardless of the width / narrowness of the blank area between the areas and when the blank area has a background stain or the like. The purpose is to accurately extract the boundaries of regions.

〔課題を解決するための手段〕[Means for Solving the Problems]

第1図は本発明の原理ブロック図で、第2図は第1図の
動作を説明する図である。
FIG. 1 is a block diagram of the principle of the present invention, and FIG. 2 is a diagram for explaining the operation of FIG.

第1図は第6図に判定手段5とパラメータテーブル6を
追加したものである。第6図で説明した如く、ヒストグ
ラムメモリ4には、第7図に示す如きヒストグラムと
が格納されている。
FIG. 1 shows a judgment unit 5 and a parameter table 6 added to FIG. As described with reference to FIG. 6, the histogram memory 4 stores the histogram as shown in FIG.

判定手段5はパラメータテーブル6から、例えば第7図
に示す文字領域、写真領域、文字領域,及び
の各領域間の空白部分を検出するための比較値として、
黒画素数の少ない部分から、比較的黒画素の多い部分ま
で抽出する値を持つ第1の閾値と、該第1の閾値で抽出
された該空白部分の広さを検出する第2の閾値を読取
り、ヒストグラムメモリ4に格納されているヒストグラ
ムの空白部分に対応する黒画素数の少ない部分と
の抽出を開始する。
The determination means 5 uses the parameter table 6 as a comparison value for detecting a blank area between the character area, the photograph area, the character area, and each area shown in FIG.
A first threshold having a value for extracting from a portion having a small number of black pixels to a portion having a relatively large number of black pixels, and a second threshold for detecting the width of the blank portion extracted by the first threshold are set. The reading is started, and the extraction with the portion having a small number of black pixels corresponding to the blank portion of the histogram stored in the histogram memory 4 is started.

パラメータテーブル6から最初に読出された第1の閾値
T1は最も小さい値であり、第2の閾値W1は最も大きな値
である。従って、第2図(a)に示す如く、各領域間の
空白部分の幅が広く、文書の地汚れ又は写真のような黒
画素が多量に展開するような部分と重なることが無い場
合、黒画素の分布量が少なく幅の広い範囲が抽出され
る。そして、黒画素の分布は少ないが幅の狭いに示す
如き部分は抽出されない。
First threshold value read from parameter table 6 first
T 1 is the smallest value, and the second threshold value W 1 is the largest value. Therefore, as shown in FIG. 2 (a), when the width of the blank portion between the respective areas is wide and there is no background stain on the document or a portion such as a photograph in which a large number of black pixels develop, the black portion is black. A wide range with a small pixel distribution amount is extracted. Then, the distribution of black pixels is small, but the portion shown as narrow is not extracted.

次に判定手段5は第1の閾値をT1のままとし、パラメー
タテーブル6から第2の閾値W2を読出し、再び、ヒスト
グラムの空白部分に対応する黒画素数の少ない部分
の抽出を行う。この場合閾値W2<W1である。続い
て、判定手段5は第1の閾値をT1のままとし、第2の閾
値W3をパラメータテーブル6から読出し、ヒストグラム
の空白部分に対応する黒画素数の少ない部分の
抽出を行う。この場合閾値W3<W2である。
Next, the determination means 5 keeps the first threshold value T 1 and reads the second threshold value W 2 from the parameter table 6, and again extracts the portion having a small number of black pixels corresponding to the blank portion of the histogram. In this case, the threshold value W 2 <W 1 . Subsequently, the determination means 5 keeps the first threshold value as T 1 , reads the second threshold value W 3 from the parameter table 6, and extracts the portion having a small number of black pixels corresponding to the blank portion of the histogram. In this case, the threshold value W 3 <W 2 .

このようにして、パラメータテーブル6に用意されてい
る第2の閾値Wmまで実行すると、例えば、第2図(b)
に示す如く、領域間の空白部分の幅の狭い範囲が検出
される。この場合第2の閾値Wmは、文字列の行間隔又は
文字間隔を検出する程小さい値では無いことが必要であ
る。
In this way, when the process is executed up to the second threshold value W m prepared in the parameter table 6, for example, FIG.
As shown in, the narrow range of the blank portion between the areas is detected. In this case the second threshold value W m, it is necessary that not a small value enough to detect the line spacing or character spacing of the string.

判定手段5は続いて、第1の閾値をT2とし、第2の閾値
をW1からWmまで変化させて、黒画素数の少ない部分
を抽出する動作を実行する。この場合閾値T2>T1であ
る。そして、更に第1の閾値をT3として上記動作を繰り
返す。この場合閾値T3>T2である。
Judging means 5 is subsequently a first threshold value and T 2, the second threshold is changed from W 1 to W m, executes an operation of extracting the portion of a small number of black pixels. In this case, the threshold value T 2 > T 1 . Then, further the above-described operation is repeated a first threshold value as T 3. In this case, the threshold value T 3 > T 2 .

このようにして、パラメータテーブル6に用意されてい
る第1の閾値がTmとなるまで実行すると、例えば、第2
図(c)に示す如き、地汚れが有り、且つ空白部分の幅
が狭い範囲が検出される。
In this way, when the first threshold value prepared in the parameter table 6 is executed until T m , for example, the second threshold value
As shown in FIG. 7C, a range where there is background stain and the width of the blank portion is narrow is detected.

判定手段5は上記と異なる他の方法として、第1と第2
の閾値を同時に変化させる。即ち、パラメータテーブル
6から第1の閾値T1と第2の閾値W1とを読出して、ヒス
トグラムの黒画素数の少ない部分の抽出動作を
行うと、第1の閾値T2と、第2の閾値W2を読出して、再
び、黒画素数の少ない部分の抽出動作を行い、続い
て、第1の閾値T3と、第2の閾値W3を読出し、黒画素数
の少ない部分の抽出を行う動作を繰り返し、第1の
閾値がTmで第2の閾値がWmとなるまで実行する。
The determination means 5 uses the first and second methods as another method different from the above.
The threshold of is changed at the same time. That is, when the first threshold value T 1 and the second threshold value W 1 are read out from the parameter table 6 and the extraction operation of the portion having a small number of black pixels in the histogram is performed, the first threshold value T 2 and the second threshold value The threshold value W 2 is read out, the extraction operation of the portion with a small number of black pixels is performed again, then the first threshold value T 3 and the second threshold value W 3 are read out, and the portion with a small number of black pixels is extracted. The operation to be performed is repeated until the first threshold becomes T m and the second threshold becomes W m .

〔作用〕[Action]

上記の如く構成することにより、判定手段5はパラメー
タテーブル6に予め設定された第1と第2の閾値を用い
て、ヒストグラムメモリ4に格納されたヒストグラムよ
り、地汚れが無いか、又は、写真の如き黒画素の多い部
分と重ならず、且つ幅の広い空白部分から、地汚れがあ
るか、又は、黒画素の多い部分と重なり、且つ幅の狭い
空白部分までを抽出することが出来る。
With the above-described configuration, the determination unit 5 uses the first and second threshold values set in advance in the parameter table 6 to determine whether the histogram stored in the histogram memory 4 is free of background stains or the photograph. It is possible to extract from a wide blank portion which does not overlap with a portion having a large number of black pixels as described above to a blank portion which has a background stain or overlaps a portion having a large number of black pixels and which has a narrow width.

〔実施例〕〔Example〕

第3図は本発明の一実施例を示す回路のブロック図で、
第4図は第3図の動作を説明するフローチャートで、第
5図はパラメータテーブルの一例を示す図である。
FIG. 3 is a block diagram of a circuit showing an embodiment of the present invention.
FIG. 4 is a flowchart explaining the operation of FIG. 3, and FIG. 5 is a diagram showing an example of a parameter table.

第6図と同一符号は同一機能のものを示す。スキャナ1
は図示省略した文書上を走査して文字列、図形、表及び
写真等を読取り、これを二値化した後画像間引き処理を
行って画素数を減らし、A4の大きさの文書を、例えば縦
方向が300ドットで、横方向が210ドットの大きさの画像
メモリ2に格納する。
6 that are the same as those in FIG. 6 have the same functions. Scanner 1
Scans a document (not shown) to scan text, graphics, tables, photos, etc., binarizes it, then performs image thinning processing to reduce the number of pixels, and prints a document of A4 size, for example, vertically. The image memory 2 has a size of 300 dots in the direction and 210 dots in the horizontal direction.

黒画素計数部3は画像メモリ2を走査して、例えば第7
図に示す如きイメージデータの横方向の黒画素の総計を
求め、文字領域、写真領域、文字領域,及び
に対するヒストグラムと、縦方向の黒画素の総計を求
め、文字領域、写真領域、文字領域,及びに
対するヒストグラムを作成し、ヒストグラムメモリ4
に格納する。
The black pixel counting unit 3 scans the image memory 2 to display, for example, the seventh
The total of black pixels in the horizontal direction of the image data as shown in the figure is obtained, the histogram for the character area, the photograph area, the character area, and the total of the black pixels in the vertical direction are obtained, and the character area, the photograph area, the character area, Histogram memory 4
To store.

プロセッサ7は第5図に示す如き内容のパラメータテー
ブル6から、mを第1の閾値Tm及び第2の閾値Wmに対す
る変数として読出す。即ち、第1の閾値T1として、2ド
ットを読出し、第2の閾値W1として3ドットを読出す。
The processor 7 reads m from the parameter table 6 having the contents shown in FIG. 5 as a variable for the first threshold value T m and the second threshold value W m . That is, 2 dots are read as the first threshold T 1 , and 3 dots are read as the second threshold W 1 .

そして、ヒストグラムメモリ4に格納されているヒスト
グラムとの領域間の空白部分に対応する黒画素数の
少ない部分との抽出を開始する。
Then, extraction of a portion having a small number of black pixels corresponding to a blank portion between the histogram stored in the histogram memory 4 and the area is started.

即ち、第4図に示す如く、第1の閾値(2ドット)以下
の黒画素数の部分がヒストグラム,にあるか探し、
あればその幅をドット数で測定する。そして、この幅が
第2の閾値(3ドット)以上であるか調べる。そして、
第2の閾値以上であれば、領域間の境界と判定する。
That is, as shown in FIG. 4, it is searched for a portion of the number of black pixels equal to or smaller than the first threshold value (2 dots) in the histogram,
If so, measure its width in dots. Then, it is checked whether this width is equal to or larger than the second threshold value (3 dots). And
If it is equal to or larger than the second threshold value, it is determined to be a boundary between regions.

第1の閾値(2ドット)以下の黒画素数の部分がヒスト
グラム,に無いか、あっても、その幅が第2の閾値
(3ドット)以下であった場合、プロセッサ7は領域間
の境界では無く、非境界であると判定する。
If there is no portion of the number of black pixels equal to or less than the first threshold value (2 dots) in the histogram, or if the width is equal to or less than the second threshold value (3 dots), the processor 7 determines the boundary between the regions. Instead, it is determined to be non-boundary.

そして、プロセッサ7は第1と第2の閾値を変更する。
即ち、パラメータテーブル6から、第1の閾値T2とし
て、6ドットを読出し、第2の閾値W2として3ドットを
読出す。
Then, the processor 7 changes the first and second threshold values.
That is, from the parameter table 6, 6 dots are read as the first threshold value T 2 , and 3 dots are read as the second threshold value W 2 .

そして、パラメータテーブル6の設定値が終了か調べ
る。この場合は新たな設定値であるため、再び、ヒスト
グラム,に第1の閾値(6ドット)以下の黒画素数
の部分があるか探し、あればその幅を測定するルーチン
に戻り、この幅が第2の閾値(3ドット)以上であるか
調べる。
Then, it is checked whether the set value in the parameter table 6 is completed. In this case, since it is a new set value, the histogram is searched again for a portion having the number of black pixels equal to or smaller than the first threshold value (6 dots), and if there is, the routine returns to the routine for measuring the width, and this width is It is checked whether it is equal to or larger than the second threshold value (3 dots).

この幅が第2の閾値以上であれば、領域間の境界である
と判定し、第1の閾値以下の黒画素数の部分がヒストグ
ラム,に無いか、あっても、第2の閾値以上の幅を
持つ部分が無い場合、非境界と判定した後、プロセッサ
7は更に第1と第2の閾値を変更するため、パラメータ
テーブル6から、第1の閾値T3として、11ドットを読出
し、第2の閾値W3として3ドットを読出す。
If this width is greater than or equal to the second threshold value, it is determined that it is a boundary between regions, and there is no portion of the number of black pixels equal to or less than the first threshold value in the histogram. If there is no portion having a width, after determining that it is a non-boundary, the processor 7 further changes the first and second threshold values. Therefore, 11 dots are read from the parameter table 6 as the first threshold value T 3 , 3 dots are read as the threshold value W 3 of 2.

そして、パラメータテーブル6の設定値が終了か調べ、
新たな設定値であるため、再び、ヒストグラム,に
第1の閾値(11ドット)以下の黒画素数の部分があるか
探し、あればその幅を測定するルーチンに戻り、この幅
が第2の閾値(3ドット)以上であるか調べる。
Then, it is checked whether the setting value of the parameter table 6 is completed,
Since it is a new setting value, the histogram again searches for a portion with the number of black pixels equal to or less than the first threshold value (11 dots), and if there is, returns to the routine for measuring the width, and this width is set to the second value. It is checked whether it is equal to or more than the threshold value (3 dots).

前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7は更に
パラメータテーブル6から、第1の閾値T4として、18ド
ットを読出し、第2の閾値W4として3ドットを読出し、
パラメータテーブル6の設定値が終了か調べ、新たな設
定値であるため、再び、ヒストグラム,に第1の閾
値(18ドット)以下の黒画素数の部分があるか探し、あ
ればその幅を測定するルーチンに戻り、この幅が第2の
閾値(3ドット)以上であるか調べる。
Similar to the above, if there is a part corresponding to the blank part, it is determined to be a boundary, and if not, it is determined to be a non-boundary, and then the processor 7 further reads 18 dots from the parameter table 6 as the first threshold T 4 , and Read out 3 dots as the threshold value W 4 of 2,
It is checked whether the setting value of the parameter table 6 is finished, and the setting value is new. Therefore, the histogram is searched again for a portion having the number of black pixels equal to or smaller than the first threshold value (18 dots), and the width thereof is measured. Then, it is checked whether this width is equal to or larger than the second threshold value (3 dots).

前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7は更に
パラメータテーブル6から、第1の閾値T5として、18ド
ットを読出し、第2の閾値W5として2ドットを読出し、
パラメータテーブル6の設定値が終了か調べ、新たな設
定であるため、再び、ヒストグラム,に第1の閾値
(18ドット)以下の黒画素数の部分があるか探し、あれ
ばその幅を測定するルーチンに戻り、この幅が第2の閾
値(2ドット)以上であるか調べる。
Similar to the above, if there is a part corresponding to the blank part, it is determined to be a boundary, and if not, it is determined to be a non-boundary, and then the processor 7 further reads 18 dots from the parameter table 6 as the first threshold T 5 , 2 dots are read out as the threshold value W 5 of 2,
It is checked whether or not the set value in the parameter table 6 is finished, and since it is a new setting, the histogram is searched again for a portion having the number of black pixels equal to or smaller than the first threshold value (18 dots), and if there is, the width is measured. Returning to the routine, it is checked whether this width is the second threshold value (2 dots) or more.

前記同様空白部分に該当する部分が有れば、境界と判定
し、無ければ非境界と判定した後、プロセッサ7に更に
第1と第2の閾値を変更するため、パラメータテーブル
6から、第1の閾値T6と第2の閾値W6を読出さうとする
が、パラメータテーブル6には新たな設定値が存在しな
いため、設定値終了と認識しヒストグラム,から空
白部分に対応する黒画素の分布量の少ない部分とを
抽出する動作を終了する。
Similar to the above, if there is a portion corresponding to the blank portion, it is determined to be a boundary, and if not, it is determined to be a non-boundary, and the processor 7 further changes the first and second threshold values. The threshold value T 6 and the second threshold value W 6 are read, but since there is no new set value in the parameter table 6, it is recognized that the set value has ended, and the distribution of black pixels corresponding to the blank part is detected from the histogram. The operation of extracting the portion with the small amount is ended.

〔発明の効果〕〔The invention's effect〕

以上説明した如く、本発明は文書中の記載領域間の境界
を示す空白部分の幅が種々混在していている場合にも正
確に領域分割が可能となると共に、該記載領域間の空白
部分に地汚れがあったり、写真の如き黒画素の分布する
領域とヒストグラムを作成する時重なる空白部分であっ
ても、正確に領域を分割することが出来る。
As described above, according to the present invention, it is possible to accurately divide an area even when there are various widths of blank portions indicating the boundaries between the writing areas in a document, and the blank portions between the writing areas are Even if there is a background stain or a blank portion that overlaps with a region where black pixels are distributed as in a photograph when a histogram is created, the region can be accurately divided.

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明の原理ブロック図、 第2図は第1図の動作を説明する図、 第3図は本発明の一実施例を示す回路のブロック図、 第4図は第3図の動作を説明するフローチャート、 第5図はパラメータテーブルの一例を示す図、 第6図は従来の技術を説明するブロック図、 第7図は第6図の動作を説明する図である。 図において、 1はスキャナ、2は画像メモリ、 3は黒画素計数部、4はヒストグラムメモリ、 5は判定手段、6はパラメータテーブル、 7はプロセッサである。 1 is a block diagram of the principle of the present invention, FIG. 2 is a diagram for explaining the operation of FIG. 1, FIG. 3 is a block diagram of a circuit showing an embodiment of the present invention, and FIG. 4 is of FIG. FIG. 5 is a flow chart for explaining the operation, FIG. 5 is a diagram showing an example of the parameter table, FIG. 6 is a block diagram for explaining the conventional technique, and FIG. 7 is a diagram for explaining the operation of FIG. In the figure, 1 is a scanner, 2 is an image memory, 3 is a black pixel counting unit, 4 is a histogram memory, 5 is determination means, 6 is a parameter table, and 7 is a processor.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】文書中から文字、図形、表及び写真等を読
取って、二値化したデータとして画像メモリ(2)に格
納し、該画像メモリ(2)に格納したデータから、該文
書上における縦及び横方向の黒画素の分布状態を示すヒ
ストグラムを作成した後、該ヒストグラムに基づき、各
文字、図形、表及び写真等の各記載領域を夫々区分して
抽出する文書読取装置であって、 前記ヒストグラムが示す黒画素の分布量が少ない部分を
検出するための最小値から最大値までの複数の比較値を
持つ第1の閾値と、該黒画素の分布量が少ない部分の広
さを検出するための最大値から最小値までの複数の比較
値を持つ第2の閾値が予め設定されたパラメータテーブ
ル(6)と、 該パラメータテーブル(6)に設定された第1と第2の
閾値を用いて、前記ヒストグラムが示す黒画素の分布量
が少ない部分の前記文書上における位置を検出し、該検
出位置を前記記載領域間の境界と判定する手段(5)と
を設け、 前記パラメータテーブル(6)に設定された第1の閾値
と第2の閾値とを組合わせ、前記ヒストグラムが示す黒
画素の分布量が少ない部分を抽出する動作を繰り返し、
該抽出された部分の前記文書上における位置を前記記載
領域の境界とすることを特徴とする文書中の領域境界抽
出方式。
1. A character, a figure, a table, a photograph, etc. are read from a document and stored as binarized data in an image memory (2). From the data stored in the image memory (2), the document is read. A document reading device that creates a histogram showing the distribution of black and white pixels in the vertical and horizontal directions in FIG. 2 and then divides and extracts each description area of each character, figure, table, photograph, etc. based on the histogram. A first threshold value having a plurality of comparison values from a minimum value to a maximum value for detecting a portion where the distribution amount of black pixels indicated by the histogram is small, and a width of a portion where the distribution amount of black pixels is small. A parameter table (6) in which a second threshold value having a plurality of comparison values from a maximum value to a minimum value for detection is preset, and first and second threshold values set in the parameter table (6) Using the hiss A unit (5) for detecting a position on the document of a portion where the distribution amount of black pixels indicated by the gram is small and determining the detected position as a boundary between the description regions is set in the parameter table (6). The first threshold and the second threshold thus combined are combined, and the operation of extracting a portion where the distribution amount of black pixels indicated by the histogram is small is repeated,
An area boundary extraction method in a document, wherein a position of the extracted portion on the document is used as a boundary of the description area.
JP63097750A 1988-04-20 1988-04-20 Area boundary extraction method in document Expired - Lifetime JPH07111738B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63097750A JPH07111738B2 (en) 1988-04-20 1988-04-20 Area boundary extraction method in document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63097750A JPH07111738B2 (en) 1988-04-20 1988-04-20 Area boundary extraction method in document

Publications (2)

Publication Number Publication Date
JPH01269184A JPH01269184A (en) 1989-10-26
JPH07111738B2 true JPH07111738B2 (en) 1995-11-29

Family

ID=14200560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63097750A Expired - Lifetime JPH07111738B2 (en) 1988-04-20 1988-04-20 Area boundary extraction method in document

Country Status (1)

Country Link
JP (1) JPH07111738B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3653156B2 (en) * 1997-01-29 2005-05-25 株式会社リコー Document image area extraction method
JP4480421B2 (en) * 2004-03-04 2010-06-16 富士通株式会社 Document image layout analysis program
JP5664181B2 (en) * 2010-11-30 2015-02-04 富士通株式会社 Image processing apparatus, image processing method, and computer program for image processing

Also Published As

Publication number Publication date
JPH01269184A (en) 1989-10-26

Similar Documents

Publication Publication Date Title
Antonacopoulos Page segmentation using the description of the background
US6738154B1 (en) Locating the position and orientation of multiple objects with a smart platen
US5818978A (en) Image pre-processor for character image recognition system
US5563403A (en) Method and apparatus for detection of a skew angle of a document image using a regression coefficient
US6798906B1 (en) Image processing apparatus and method including line segment data extraction
JPH08123900A (en) Method and apparatus for decision of position for line scanning image
JP2001109895A (en) Processing method for digital images
JP4574503B2 (en) Image processing apparatus, image processing method, and program
US5467410A (en) Identification of a blank page in an image processing system
US4901365A (en) Method of searching binary images to find search regions in which straight lines may be found
JP4777024B2 (en) Image processing apparatus and image processing apparatus control method
JPH07111738B2 (en) Area boundary extraction method in document
JP3268552B2 (en) Area extraction method, destination area extraction method, destination area extraction apparatus, and image processing apparatus
US8260057B2 (en) Image processing apparatus that obtains a ruled line from a multi-value image
EP0975146B1 (en) Locating the position and orientation of multiple objects with a smart platen
JP2000357287A (en) Method and device for number plate recognition
JPH04309191A (en) Area attribute identifying device
JP3020293B2 (en) Attribute determination method
JPS63101983A (en) Character string extracting system
JP3190794B2 (en) Character segmentation device
JPH05135202A (en) Document picture reader
JPH0822507A (en) Document recognition device
JPH10507014A (en) Automatic determination of landscape scan in binary image
JP3381803B2 (en) Tilt angle detector
JPH0575850A (en) Picture area discriminating device