JPH08287275A - Table recognition device and method for interpolating break of table frame line - Google Patents

Table recognition device and method for interpolating break of table frame line

Info

Publication number
JPH08287275A
JPH08287275A JP7108228A JP10822895A JPH08287275A JP H08287275 A JPH08287275 A JP H08287275A JP 7108228 A JP7108228 A JP 7108228A JP 10822895 A JP10822895 A JP 10822895A JP H08287275 A JPH08287275 A JP H08287275A
Authority
JP
Japan
Prior art keywords
table frame
line
frame width
histogram
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7108228A
Other languages
Japanese (ja)
Other versions
JP2723075B2 (en
Inventor
Katsuhiko Takahashi
勝彦 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7108228A priority Critical patent/JP2723075B2/en
Publication of JPH08287275A publication Critical patent/JPH08287275A/en
Application granted granted Critical
Publication of JP2723075B2 publication Critical patent/JP2723075B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

PURPOSE: To provide the device and method which can correctly interpolate a break of a table frame even when the break is large by measuring the widths of table items, checking their frequencies, and interpolating a break of the table frame line present in the table. CONSTITUTION: This device is equipped with a means 1 which detects the external outline of the table frame line, a means 2 which extracts one or plural table internal outlines present in the extracted closed curve, a table frame width measuring means 3 which measures the distance between two pixels that belong to the same table internal outline and are present in the same row or the same column as the table frame width as to each extracted table internal outline, a histogram measuring means 4 which finds a histogram of the table frame width, a table frame line break estimating means 5 which regards a value of high frequency in the histogram as the standard table frame width and judges that there is a table frame line break at a place corresponding to a value of low frequency, and an interpolating means 6 which interpolates the estimated broken table frame life.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は表認識装置及び方法に関
し、特に表形式を含む文書を読み取り表構造を認識する
表認識装置及び方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a table recognition apparatus and method, and more particularly to a table recognition apparatus and method for reading a document including a table format and recognizing a table structure.

【0002】[0002]

【従来の技術】近時、文書を光学的装置で読み取って文
字情報を電子化したいというニーズは多く、且つそうし
た文書には表形式を含むものが少なくない。
2. Description of the Related Art Recently, there is a great need to read a document with an optical device to digitize character information, and many such documents include a tabular format.

【0003】表文書を電子化する場合、従来、例えば東
芝製エキスプレスリーダ(ExpressReader)マニュアル
やメディアドライブ社製ウインリーダ(Win Reader)マ
ニュアル等に記載されているように、罫線を除去して文
字だけを認識する方法がある。
In the case of digitizing a table document, conventionally, as described in, for example, Toshiba's Express Reader manual or Media Drive's Win Reader manual, ruled lines are removed and only characters are written. There is a way to recognize.

【0004】しかし、表文書では各項目枠(「セル」と
いう)の位置も大切な情報の一つであり、このため各セ
ルを正しく抽出し、セル内に記されている文字を読み取
ることが重要である。
However, the position of each item frame (referred to as "cell") is one of the important information in the table document. Therefore, it is possible to correctly extract each cell and read the characters written in the cell. is important.

【0005】一般的にセルを抽出するには、ハフ変換等
を用いて直線を検出したり、表枠線に対応する黒画素を
トレースして閉領域をみつければよい。
Generally, in order to extract a cell, a straight line may be detected using Hough transform or the like, or a closed area may be found by tracing black pixels corresponding to a table frame line.

【0006】しかし、前者の方法は多くの処理時間を要
するという問題がある。一方、後者の方法は計算量は前
者に比べて少ないが、原稿中の表枠線の一部がもともと
途切れていたり、うすく描かれている場合には、光学的
に読み取られた画像中で表枠線の途切れが発生し、表構
造を正しく抽出することが難しい。そこで、画像中の途
切れた表枠線を補間する技術が必要となる。
However, the former method has a problem that it takes a lot of processing time. On the other hand, the latter method requires less calculation than the former method, but if some of the table frame lines in the original are originally broken or thinly drawn, they will be displayed in the optically read image. It is difficult to extract the table structure correctly because the frame breaks. Therefore, a technique for interpolating the broken frame line in the image is required.

【0007】途切れ表枠線を含む表形式を認識する従来
の装置として、例えば特開平5-73721号公報には、文字
や表を構成する黒画素の中からまず表枠線に対応する画
素だけを選出した画像を生成し、この画像を縦方向にM
分割、横方向にN分割してM×Nの領域とし、各領域に
おいて1画素でも黒画素があったら1ドットの黒画素と
するサイズM×Nの縮小画像を作り、縮小画像における
黒画素の並びから表枠線を抽出し、縮小画像を作成する
ことにより破線やかすれによる線の途切れがなくなり、
正確に表構造を認識できるようにした表認識装置が提案
されている。
As a conventional device for recognizing a table format including a broken table frame line, for example, in Japanese Patent Laid-Open No. 5-73721, only pixels corresponding to the table frame line are first selected from black pixels forming characters and tables. Image is generated, and this image is
The image is divided into N in the horizontal direction to form an M × N area, and if even one pixel has a black pixel in each area, a reduced image of size M × N that is one dot of black pixel is created, and the black pixel in the reduced image is By extracting the table frame line from the line and creating a reduced image, there is no break in the line due to broken lines or blurring,
There has been proposed a table recognition device capable of accurately recognizing a table structure.

【0008】[0008]

【発明が解決しようとする課題】しかしながら、前記特
開平5-73721号公報に記載された装置においては、途切
れ表枠線が縮小画像では途切れなくなることを利用して
いるため、縮小率の決め方が問題となる。
However, in the apparatus described in the above-mentioned Japanese Patent Laid-Open No. 5-73721, the fact that the broken table frame line is not broken in the reduced image is used, so the method of determining the reduction ratio is It becomes a problem.

【0009】なぜなら、縮小率の最適値は原画像におけ
る表の高さ/幅、及び枠線の途切れ長に依存し、これを
自動的に設定することは困難だからである。
This is because the optimum value of the reduction ratio depends on the height / width of the table in the original image and the length of breaks in the frame line, and it is difficult to set this automatically.

【0010】また、前記特開平5-73721号公報に記載さ
れた装置では、表枠の途切れが大きい場合正しくセルを
抽出できない可能性が高い。
Further, in the device disclosed in the above-mentioned Japanese Patent Laid-Open No. 5-73721, there is a high possibility that the cells cannot be correctly extracted when the discontinuity of the table frame is large.

【0011】従って、本発明は上記問題点を解消し、表
項目の幅を計測し、その頻度を調べることによって表内
部に存在する表枠線の途切れを補間し、大きな途切れの
補間を可能とする表認識装置及び方法を提供することを
目的とする。
Therefore, the present invention solves the above-mentioned problems, measures the width of a table item, and checks the frequency to interpolate the breaks in the table frame lines existing inside the table, thus enabling the interpolation of large breaks. It is an object of the present invention to provide a table recognizing device and method.

【0012】[0012]

【課題を解決するための手段】前記目的を達成するた
め、本発明は、表形式を含んで記載された原稿を走査し
て得られた画像より、表の構造を認識する表認識方式に
おいて、表枠線の外側輪郭を検出する表外側輪郭線抽出
手段と、前記表外側輪郭線抽出手段によって抽出された
閉曲線内に存在する1又は複数の表内側輪郭を抽出する
表内側輪郭線抽出手段と、抽出された前記表内側輪郭線
のそれぞれについて、同一の表内側輪郭線に属し、且つ
同一行又は同一列に存在する2画素間の距離を表枠幅と
して計測する表枠幅計測手段と、前記表枠幅のヒストグ
ラムを求めるヒストグラム計測手段と、前記ヒストグラ
ム計測手段によって得られたヒストグラムにおいて、そ
の頻度が高い値を標準の表枠幅とし、頻度が低い値に対
応する箇所を表枠線途切れが生じたものとする表枠線途
切れ推定手段と、推定された途切れ表枠線を補間する表
枠線補間手段と、を備えたことを特徴とする表認識装置
を提供する。
In order to achieve the above object, the present invention provides a table recognition method for recognizing a table structure from an image obtained by scanning an original document including a table format. Front-outer contour line extracting means for detecting the outer contour of the front-side frame line, and front-side contour line extracting means for extracting one or more front-side contour lines existing in the closed curve extracted by the front-outer contour line extracting means. For each of the extracted inside contour lines, table frame width measuring means for measuring the distance between two pixels belonging to the same inside contour line and existing in the same row or the same column as a table frame width, In the histogram measuring means for obtaining the histogram of the table frame width, and in the histogram obtained by the histogram measuring means, a value having a high frequency is set as a standard table frame width, and a portion corresponding to a value having a low frequency is a table frame line. Providing an estimation unit interruption table border shall cut occurs, and table frame line interpolation means for interpolating the estimated interrupted table border, a table recognition apparatus characterized by comprising a.

【0013】本発明においては、前記表枠幅抽出手段
が、同一列に存在する2つの表枠線間の距離を計測する
垂直方向表枠幅計測手段と、同一行に存在する2つの表
枠線間の距離を計測する水平方向表枠幅計測手段と、を
備え、垂直方向の表枠幅を計測して得たヒストグラムか
ら水平方向の表枠線途切れを推定して補間し、次に水平
方向の表枠幅を計測して得たヒストグラムから垂直方向
の表枠線途切れを推定して補間するように構成してもよ
い。
In the present invention, the table frame width extracting means measures the distance between two table frame lines in the same column in the vertical direction, and the two table frame widths in the same row. Horizontal table frame width measuring means for measuring the distance between the lines, and estimating the horizontal table frame line break from the histogram obtained by measuring the vertical table frame width, and then interpolating A vertical table frame line break may be estimated and interpolated from a histogram obtained by measuring the table frame width in the direction.

【0014】また、本発明は、(a)表を含む文書を走査
して得られた画像信号について表枠線の外側輪郭を抽出
する工程と、(b)抽出された前記外側輪郭内に存在する
1又は複数の表内側輪郭を抽出する工程と、(c)抽出さ
れた前記表内側輪郭線のそれぞれについて前記表内側輪
郭線上の端部に属し且つ表内部を介して互いに対向する
2画素間の距離を表枠幅として表枠線が存在する範囲で
所定方向に計測する工程と、(d)前記表枠幅のヒストグ
ラムを求める工程と、(e)前記ヒストグラムにおいて、
その頻度が最も高い枠幅を標準の表枠幅とし、頻度が低
い値の枠幅に対応する箇所を表枠線途切れが生じたもの
と推定する工程と、(f)途切れた表枠線を補間する工程
と、を含むことを特徴とする表枠線の途切れ補間方法を
提供する。
Further, according to the present invention, (a) a step of extracting an outer contour of a table frame line from an image signal obtained by scanning a document including a table, and (b) existence of the outer contour in the extracted outer contour. A step of extracting one or a plurality of front-side inner contours, and (c) between two pixels that belong to the ends on the front-side inner contour line of each of the extracted front-side inner contour lines and face each other through the inner side of the table. A step of measuring the distance of the table frame width in a predetermined direction in a range where the table frame line exists, (d) a step of obtaining a histogram of the table frame width, and (e) in the histogram,
The frame width with the highest frequency is set as the standard table frame width, and the process of estimating that the position corresponding to the frame width with the low frequency is the table frame line break, and (f) the broken table frame line And a step of interpolating, which provides an interruption interpolation method for a table frame line.

【0015】[0015]

【作用】以下に本発明の原理・作用を説明する。本発明
においては、表枠線で囲まれた1つの閉領域について表
枠幅を計測し、そのヒストグラムをとり、一閉領域に占
める表枠幅とその頻度の関係を求める。認識対象とする
表形式が長方形をした項目の集合体ならば、一項目(セ
ル)中の表枠幅は場所によらず等しい。このため、ヒス
トグラム中には1カ所のピークが現れる。
The principle and operation of the present invention will be described below. In the present invention, the table frame width is measured for one closed area surrounded by the table frame line, the histogram is taken, and the relationship between the table frame width occupied in one closed area and its frequency is obtained. If the table format to be recognized is a collection of rectangular items, the table frame width in one item (cell) is the same regardless of the location. Therefore, one peak appears in the histogram.

【0016】しかし、表枠線が途切れ、複数のセルが1
つの閉領域中をなしていたならば、複数のピークを持つ
ヒストグラムが得られる。例えば、表枠線の途切れ長は
セルの辺の長さの半分より短いものと仮定すれば、計測
したヒストグラム中、高い頻度の値が本来の表枠幅であ
り、低い頻度の値が枠線の途切れによって計測された表
枠幅であると判定することができ、途切れ箇所を抽出す
ることができる。
However, the table frame line is broken, and a plurality of cells are 1
If you are in one closed region, you will get a histogram with multiple peaks. For example, assuming that the break length of the table frame line is shorter than half the length of the side of the cell, in the measured histogram, the high frequency value is the original table frame width and the low frequency value is the frame line. It is possible to determine that the width of the table frame is measured by the interruption, and the interruption point can be extracted.

【0017】[0017]

【実施例】図面を参照して、本発明の実施例を以下に説
明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0018】[0018]

【実施例1】図1は本発明の一実施例の構成を説明する
図である。
[Embodiment 1] FIG. 1 is a diagram for explaining the configuration of an embodiment of the present invention.

【0019】図1を参照して、表外側輪郭線抽出手段1
は、表枠線の外側輪郭線を検出する。表外側輪郭線抽出
手段1が扱う表形式は、水平/垂直もしくはこれに近い
方向の表枠線のみから形成され、最外郭の表枠線には途
切れはないものとする。また、セル中に別のセルが含ま
れたり、セルとセル内の文字が接触することはないもの
とする。
Referring to FIG. 1, front and outer contour line extracting means 1
Detects the outer contour line of the table frame line. It is assumed that the table format handled by the outer-outside contour line extraction means 1 is formed only of the table frame lines in the horizontal / vertical direction or a direction close to the horizontal / vertical lines, and that the outermost table frame lines have no breaks. Further, it is assumed that another cell is not included in the cell and that the cell and the character in the cell do not contact each other.

【0020】図2、図3を参照して、表外側輪郭線抽出
手段1を詳細に説明する。
The outer-surface contour line extracting means 1 will be described in detail with reference to FIGS.

【0021】表形式21のような表を含む原稿をスキャ
ナ等で読み込んで形成した画像データに対し、図中左上
の画素を開始点としてラスタ走査し、白画素と黒画素が
隣り合う箇所を探す。
The image data formed by reading a document including a table such as the table format 21 with a scanner or the like is raster-scanned with the upper left pixel in the drawing as a starting point to search for a portion where a white pixel and a black pixel are adjacent to each other. .

【0022】白画素から黒画素に変化する場所が見つか
ったならば、その黒画素の位置とその画素が表枠線の左
端に位置することを記憶する。
When a place where the white pixel changes to the black pixel is found, the position of the black pixel and the fact that the pixel is located at the left end of the table frame line are stored.

【0023】そして、この点を始点として、表枠線の外
側輪郭をトレースし、その位置座標とその画素の表枠線
に対する相対位置を順次記憶していく。但し、ここで記
憶する位置情報はその画素が表枠線の端部例えば右端も
しくは左端に位置する場合のみでよい。
Then, starting from this point, the outer contour of the table frame line is traced, and the position coordinates and the relative position of the pixel with respect to the table frame line are sequentially stored. However, the position information stored here may be only when the pixel is located at the end of the table frame line, for example, at the right end or the left end.

【0024】図3を参照して、説明の便宜上、表枠線3
2の図中左端に位置する画素31群には‘L’フラグ
を、右端に位置する画素群には‘R’フラグ(不図示)
をそれぞれ相対位置情報として記憶することとする。
With reference to FIG. 3, for convenience of explanation, the table frame line 3
2 has an “L” flag for the pixel group 31 located at the left end and an “R” flag for the pixel group located at the right end (not shown).
Are stored as relative position information.

【0025】トレースの結果、始点の位置に戻ってきた
らトレースを終了し、その領域の高さ及び幅を調べ、認
識対象とする最大文字サイズよりも十分に大きければ表
であると判断して次の処理に進む。
As a result of tracing, when the position of the starting point is returned, the tracing is ended, the height and width of the area are examined, and if it is sufficiently larger than the maximum character size to be recognized, it is judged to be a table and the next character is recognized. Go to processing.

【0026】もし、最大文字サイズよりも小さければ表
ではないと判断し、まだ走査されていない画素に対して
走査を行う。
If it is smaller than the maximum character size, it is determined that it is not a table, and scanning is performed for pixels that have not been scanned.

【0027】さて、表外側輪郭線抽出手段1によって表
外側輪郭線が検出されたならば、その内部には表枠線の
内側輪郭が必ず1つ以上存在することになる。
Now, when the outer-outer contour line is detected by the outer-outer contour line extracting means 1, there is always one or more inner contours of the front-frame lines inside.

【0028】表内側輪郭線抽出手段2は、この表内側輪
郭を形成する黒画素位置とその画素の表枠線に対する相
対位置を表外側輪郭をトレースしたのと同様の方法で記
憶する。すなわち、表内側輪郭の端部を形成する画素群
に対して所定の識別フラグを設定する。
The inside-outside contour extracting means 2 stores the position of a black pixel forming the inside-outside contour and the relative position of the pixel with respect to the outside border of the frame in the same manner as tracing the outside-side contour. That is, a predetermined identification flag is set for the pixel group forming the end of the front inside contour.

【0029】次に、図4を参照して、表枠幅計測手段3
について説明する。本処理以降の処理は、抽出された各
表内側輪郭毎に適用される。
Next, referring to FIG. 4, the table frame width measuring means 3
Will be described. The processing after this processing is applied to each of the extracted front inside contours.

【0030】表枠幅計測手段3では、表内側輪郭の水平
方向距離、すなわち「表枠幅」を求める。各水平方向画
素列において、‘R’フラグが付加された表内側輪郭の
画素のうち最も右に位置する画素41と、画素41と同
一水平画素上に位置し、且つ最も左側に位置する‘L’
フラグが付加された表内側輪郭の画素42(画素41と
対向する位置に来る)との距離を表枠幅43とし、この
表枠幅43を表枠線が存在する範囲の各水平画素列に対
して求める。即ち、表枠幅43を表輪郭の図注水直方向
に順次求める。
The front frame width measuring means 3 obtains the horizontal distance of the front inner contour, that is, the "front frame width". In each horizontal pixel row, the rightmost pixel 41 among the pixels of the inside contour to which the “R” flag is added, and the “L” that is located on the same horizontal pixel as the pixel 41 and is located on the leftmost side. '
The distance to the pixel 42 (which comes to a position facing the pixel 41) of the front inside contour to which the flag is added is defined as a table frame width 43, and this table frame width 43 is set to each horizontal pixel column in the range where the table frame line exists. Ask for. That is, the table frame width 43 is sequentially obtained in the direction of water pouring of the table contour.

【0031】ヒストグラム計測手段4は、表枠幅計測手
段3によって抽出された表枠幅についてヒストグラム
(頻度分布)をとる。
The histogram measuring means 4 takes a histogram (frequency distribution) for the table frame width extracted by the table frame width measuring means 3.

【0032】図5に、図4に示した表形式に対応する表
枠幅のヒストグラムの一例を示す。
FIG. 5 shows an example of a histogram of the table frame width corresponding to the table format shown in FIG.

【0033】図5を参照して、表枠線途切れ推定手段5
は、抽出されたヒストグラムからその頻度の高い部分5
1が標準の表枠幅であり、標準の表枠幅よりも枠幅が大
きな、頻度の低い部分52が枠線途切れによって発生す
る枠幅であると判定する。
Referring to FIG. 5, the table frame line break estimation means 5
Is a high frequency part 5 from the extracted histogram.
1 is the standard table frame width, and it is determined that the infrequent portion 52 having a larger frame width than the standard table frame width is the frame width generated by the frame line break.

【0034】また、図5に示したように、頻度の高い部
分51が頻度の低い部分52の左側に現れた場合は、表
枠幅計測方向(図4では水平方向)と直交する方向の表
枠線途切れであると推定する。
Further, as shown in FIG. 5, when the high frequency portion 51 appears on the left side of the low frequency portion 52, the table in the direction orthogonal to the table frame width measurement direction (horizontal direction in FIG. 4) is displayed. It is presumed that the border is broken.

【0035】図6に、横方向の表枠線が途切れた表形式
の例を示す。表形式61の表枠幅を水平方向に計測する
と、そのヒストグラムは図7に示すように、最高頻度7
1である標準の表枠幅より小さい値72が途切れ位置か
ら検出される。そして、図7において、頻度の高い部分
71が頻度の低い部分72の右側に現れた場合は、表枠
幅計測方向(図6では水平方向)と並行な方向の表枠線
途切れであると推定する。
FIG. 6 shows an example of a table format in which the horizontal table frame line is broken. When the table frame width of the tabular form 61 is measured in the horizontal direction, the histogram shows that the maximum frequency is 7 as shown in FIG.
A value 72 smaller than the standard table frame width of 1 is detected from the break position. In FIG. 7, when the high frequency portion 71 appears on the right side of the low frequency portion 72, it is estimated that the table frame line is broken in a direction parallel to the table frame width measurement direction (horizontal direction in FIG. 6). To do.

【0036】そこで、表枠線補間手段6は、表枠幅計測
方向に直交する方向の表枠線途切れの場合は、頻度の少
ない枠幅に対応する水平画素列において表枠幅が他の部
分と等しくなるように黒画素を原画像に書き込む。
Therefore, in the case where the table frame line is interrupted in the direction orthogonal to the table frame width measuring direction, the table frame line interpolating means 6 has other portions of the table frame width in the horizontal pixel row corresponding to the frame width which is less frequent. Write black pixels in the original image so that

【0037】また、表枠幅計測方向の表枠線途切れの場
合は、頻度の低い表枠幅となっている水平画素列におい
て、‘R’フラグの付加されている画素から‘L’フラ
グの付加されている画素までを黒画素で埋めることによ
って表枠線を補間することができる。
In the case where the table frame line in the table frame width measurement direction is interrupted, in the horizontal pixel row having a table frame width that is infrequent, the pixel from the pixel to which the'R 'flag is added to the pixel to the'L' flag is changed. The table frame line can be interpolated by filling the added pixels with black pixels.

【0038】本実施例では、表枠幅を水平方向に計測す
る方法を説明したが、表枠線の上下方向に位置する表内
側輪郭にフラグ(すなわち上端、下端を識別するための
フラグ)をたて、垂直方向に表枠幅を計測しても同様の
方法で表枠線途切れを補間することができる。
In the present embodiment, the method of measuring the width of the table frame in the horizontal direction has been described. However, a flag (that is, a flag for identifying the upper end and the lower end) is set on the inside contours located in the vertical direction of the table frame line. Even if the table frame width is measured in the vertical direction, the table frame line break can be interpolated by the same method.

【0039】また、本実施例は表が傾いていないことを
前提して計算量を低く抑えているが、原稿中の表が傾い
ている場合には、まず表形式の所定の傾き補正を行い、
その後本実施例が適用される。
In this embodiment, the amount of calculation is kept low on the assumption that the table is not tilted. However, if the table in the document is tilted, first, a predetermined tilt correction in a table format is performed. ,
Then, this embodiment is applied.

【0040】[0040]

【実施例2】図8を参照して、本発明の別の実施例を説
明する。
Second Embodiment Another embodiment of the present invention will be described with reference to FIG.

【0041】表枠幅を水平方向に計測するとき、これと
同方向の表枠線途切れがあり、且つ微妙に傾いている表
形式81に対するヒストグラムは明らかなピークを示さ
ない可能性がある。
When the width of the table frame is measured in the horizontal direction, there is a possibility that the histogram for the table format 81, which has a break in the table frame line in the same direction as the table frame and is slightly tilted, does not show a clear peak.

【0042】このような場合、表枠幅を水平方向に計測
し垂直方向の表枠線途切れを補間し、次に表枠幅を垂直
方向に計測して水平方向の表枠線途切れを抽出する。
In such a case, the table frame width is measured in the horizontal direction and the vertical table frame line break is interpolated, and then the table frame width is measured in the vertical direction to extract the horizontal table frame line break. .

【0043】垂直補間、水平補間を途切れがなくなるま
で繰り返すことにより、表枠線の交点等の途切れにも対
応できる。
By repeating vertical interpolation and horizontal interpolation until there is no interruption, it is possible to cope with interruptions such as the intersections of the table frame lines.

【0044】以上、本発明を上記実施例に即して説明し
たが、本発明は上記態様にのみ限定されず、本発明の原
理に準ずる各種態様を含むことは勿論である。
Although the present invention has been described with reference to the above embodiments, it is needless to say that the present invention is not limited to the above embodiments and includes various embodiments according to the principles of the present invention.

【0045】[0045]

【発明の効果】以上説明したように、本発明によれば、
表項目の幅を計測しその頻度を調べることによって、表
内部に存在する表枠線の途切れを検出し、表内部に存在
する枠線の途切れを補間することができる。
As described above, according to the present invention,
By measuring the width of the table item and checking the frequency, it is possible to detect the break of the table frame line existing inside the table and interpolate the break of the frame line existing inside the table.

【0046】特に、わずかな長さの途切れであれば、前
記従来例のように縮小画像をつくるといった局所的な処
理でも途切れをうめることは可能であるが、表枠の途切
れが大きい場合正しくセルを抽出できない可能性が高
い。これに対して、本発明によれば、表項目は基本的に
矩形であるという特徴を用いることによって、より大き
な途切れを補間することが可能である。
In particular, if there is a slight break in the length, it is possible to fill the break even with a local process such as creating a reduced image as in the prior art example. There is a high possibility that it cannot be extracted. On the other hand, according to the present invention, it is possible to interpolate a larger discontinuity by using the feature that the table item is basically rectangular.

【0047】また、本発明(請求項2)によれば、垂直
補間、水平補間を途切れがなくなるまで繰り返すことに
より、表枠線の交点等における途切れも補間することが
できる。
Further, according to the present invention (claim 2), the vertical interpolation and the horizontal interpolation are repeated until the discontinuity disappears, so that the discontinuity at the intersection of the table frame lines can be interpolated.

【0048】更に、本発明は、表形式が微妙に傾いてい
ても途切れを補間することができるという効果を有す
る。
Further, the present invention has an effect that the discontinuity can be interpolated even if the table format is slightly inclined.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の構成を示す図である。FIG. 1 is a diagram showing a configuration of an exemplary embodiment of the present invention.

【図2】表枠線に途切れがある表の例を説明する図であ
る。
FIG. 2 is a diagram illustrating an example of a table in which a table frame line has a break.

【図3】図2に示す表の左上角部を拡大した図である。FIG. 3 is an enlarged view of an upper left corner portion of the table shown in FIG.

【図4】本発明の一実施例における表枠幅の測定方法を
説明するための図である。
FIG. 4 is a diagram for explaining a method of measuring a table frame width according to an embodiment of the present invention.

【図5】本発明の一実施例において図4に示す表を処理
して得られる表枠線と表枠幅の関係を示すヒストグラム
である。
5 is a histogram showing a relationship between a table frame line and a table frame width obtained by processing the table shown in FIG. 4 in one embodiment of the present invention.

【図6】横方向の表枠線が途切れている表の一例を示す
図である。
FIG. 6 is a diagram showing an example of a table in which a horizontal table frame line is interrupted.

【図7】本発明の一実施例において図6に示す表を処理
して得られる表枠線と表枠幅との関係を示すヒストグラ
ムである。
FIG. 7 is a histogram showing a relationship between a table frame line and a table frame width obtained by processing the table shown in FIG. 6 in one example of the present invention.

【図8】表形式が微妙に傾いた場合の一例を示す図であ
る。
FIG. 8 is a diagram showing an example of a case where the table format is slightly tilted.

【符号の説明】[Explanation of symbols]

21 表枠線 31 表枠線の左側に位置する画素 32 表枠線 33 表内部 41 表内側輪郭線のうち輪郭線の右側にある画素 42 表内側輪郭線のうち輪郭線の左側にある画素 43 表枠幅 51 ヒストグラムの頻度が高い部分 52 ヒストグラムの頻度が低い部分 61 表枠線 81 表枠線 21 Table frame line 31 Pixel located on the left side of the table frame line 32 Table frame line 33 Inside table 41 Pixel on the right side of the contour line of the inside contour line 42 Pixel on the left side of the contour line of the inside contour line 43 Table frame width 51 High frequency histogram area 52 Low frequency histogram area 61 Table frame line 81 Table frame line

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】表形式を含んで記載された原稿を走査して
得られた画像より表の構造を認識する表認識方式におい
て、 表枠線の外側輪郭を検出する表外側輪郭線抽出手段と、 前記表外側輪郭線抽出手段によって抽出された閉曲線内
に存在する1又は複数の表内側輪郭を抽出する表内側輪
郭線抽出手段と、 抽出された前記表内側輪郭線のそれぞれについて、同一
の表内側輪郭線に属し、且つ同一行又は同一列に存在す
る2画素間の距離を表枠幅として計測する表枠幅計測手
段と、 前記表枠幅のヒストグラムを求めるヒストグラム計測手
段と、 前記ヒストグラム計測手段によって得られたヒストグラ
ムにおいて、その頻度が高い値を標準の表枠幅とし、頻
度が低い値に対応する箇所を表枠線途切れが生じたもの
とする表枠線途切れ推定手段と、 推定された途切れ表枠線を補間する表枠線補間手段と、 を備えたことを特徴とする表認識装置。
1. In a table recognition method for recognizing a table structure from an image obtained by scanning an original document including a table format, an outer-outer contour line extracting means for detecting an outer contour of a table frame line. A front-inside contour extracting unit that extracts one or a plurality of front-inner contours existing in the closed curve extracted by the front-outer contour extracting unit; and the same table for each of the extracted front-inner contour lines. Table frame width measuring means for measuring a distance between two pixels belonging to the inner contour line and existing in the same row or the same column as a table frame width; histogram measuring means for obtaining a histogram of the table frame width; In the histogram obtained by the means, a table frame line breakage estimating means that the frequency is a standard table frame width, and a portion corresponding to a low frequency value is a table frame line breakage, Table recognition apparatus, wherein the table frame line interpolation means for interpolating a constant has been interrupted table border, further comprising a.
【請求項2】前記表枠幅抽出手段が、同一列に存在する
2つの表枠線間の距離を計測する垂直方向表枠幅計測手
段と、 同一行に存在する2つの表枠線間の距離を計測する水平
方向表枠幅計測手段と、 を備え、 垂直方向の表枠幅を計測して得たヒストグラムから水平
方向の表枠線途切れを推定して補間し、 次に水平方向の表枠幅を計測して得たヒストグラムから
垂直方向の表枠線途切れを推定して補間することを特徴
とする請求項1に記載の表認識装置。
2. The vertical frame width measuring means for measuring the distance between two table frame lines existing in the same column, and the table frame width extracting means between the two table frame lines existing in the same row. The horizontal table frame width measuring means for measuring the distance is provided, and the horizontal table frame line break is estimated and interpolated from the histogram obtained by measuring the vertical table frame width. The table recognition device according to claim 1, wherein a vertical table frame line break is estimated and interpolated from a histogram obtained by measuring a frame width.
【請求項3】(a)表を含む文書を走査して得られた画像
信号について表枠線の外側輪郭を抽出する工程と、 (b)抽出された前記外側輪郭内に存在する1又は複数の
表内側輪郭を抽出する工程と、 (c)抽出された前記表内側輪郭線のそれぞれについて前
記表内側輪郭線上の端部に属し且つ表内部を介して互い
に対向する2画素間の距離を表枠幅として表枠線が存在
する範囲で所定方向に計測する工程と、 (d)前記表枠幅のヒストグラムを求める工程と、 (e)前記ヒストグラムにおいて、その頻度が最も高い枠
幅を標準の表枠幅とし、頻度が低い値の枠幅に対応する
箇所を表枠線途切れが生じたものと推定する工程と、 (f)途切れた表枠線を補間する工程と、 を含むことを特徴とする表枠線の途切れ補間方法。
3. A step of: (a) extracting an outer contour of a table frame line with respect to an image signal obtained by scanning a document including a table; and (b) one or more existing within the extracted outer contour. And (c) for each of the extracted front-side inner contour lines, displaying a distance between two pixels that belong to an end portion on the front-side inner contour line and face each other through the front-side inside. As a frame width, a step of measuring in a predetermined direction within a range in which a table frame line exists, (d) a step of obtaining a histogram of the table frame width, and (e) in the histogram, the frame width with the highest frequency is the standard. It is characterized by including a step of estimating a portion corresponding to a frame width having a low frequency as a frame width with a low frequency, and (f) interpolating the broken table frame line. Interpolation interpolation method for table frame lines.
【請求項4】前記抽出された表枠線の端部を構成する画
素に端部であることを識別するための所定のフラグを設
けたことを特徴とする請求項3記載の表枠線の途切れ補
間方法。
4. The table frame line according to claim 3, wherein a predetermined flag for identifying an end portion of the pixel forming the end portion of the extracted table frame line is provided. Interruption interpolation method.
JP7108228A 1995-04-07 1995-04-07 Table Recognition Device and Method for Interpolating Table Frame Lines Expired - Fee Related JP2723075B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7108228A JP2723075B2 (en) 1995-04-07 1995-04-07 Table Recognition Device and Method for Interpolating Table Frame Lines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7108228A JP2723075B2 (en) 1995-04-07 1995-04-07 Table Recognition Device and Method for Interpolating Table Frame Lines

Publications (2)

Publication Number Publication Date
JPH08287275A true JPH08287275A (en) 1996-11-01
JP2723075B2 JP2723075B2 (en) 1998-03-09

Family

ID=14479308

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7108228A Expired - Fee Related JP2723075B2 (en) 1995-04-07 1995-04-07 Table Recognition Device and Method for Interpolating Table Frame Lines

Country Status (1)

Country Link
JP (1) JP2723075B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033200A (en) * 2015-07-30 2017-02-09 京セラドキュメントソリューションズ株式会社 Image processing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017033200A (en) * 2015-07-30 2017-02-09 京セラドキュメントソリューションズ株式会社 Image processing device

Also Published As

Publication number Publication date
JP2723075B2 (en) 1998-03-09

Similar Documents

Publication Publication Date Title
JP2835274B2 (en) Image recognition device
JP3904840B2 (en) Ruled line extraction device for extracting ruled lines from multi-valued images
EP1091320A2 (en) Processing multiple digital images
EP1081648B1 (en) Method for processing a digital image
US20020051574A1 (en) Character recognition method, program and recording medium
JP4145530B2 (en) Automatic table positioning in documents
JP3936436B2 (en) Table recognition method
JP2723075B2 (en) Table Recognition Device and Method for Interpolating Table Frame Lines
JP3268552B2 (en) Area extraction method, destination area extraction method, destination area extraction apparatus, and image processing apparatus
JP4242962B2 (en) Character extractor
JP4847378B2 (en) Image processing apparatus, image processing method, program, and computer-readable recording medium
JP4738645B2 (en) SHADED AREA DETECTING DEVICE, SHATTERED AREA DETECTING METHOD, PROGRAM, AND STORAGE MEDIUM
JP3019897B2 (en) Line segmentation method
JPH07230525A (en) Method for recognizing ruled line and method for processing table
US6142374A (en) Optical character reader
JPH0573718A (en) Area attribute identifying system
JP2963508B2 (en) Character extraction device
JP2001236464A (en) Method and device for character extraction and storage medium
JP3190794B2 (en) Character segmentation device
JPH10507014A (en) Automatic determination of landscape scan in binary image
JP2859307B2 (en) Character extraction device
JPH09288714A (en) Method and device for recognizing table
JPH05135204A (en) Character recognition device
JPH0540846A (en) Japanese/european language discrimination method for document image
Okun et al. Text/graphics separation for technical papers

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071128

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081128

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091128

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101128

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121128

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131128

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees