JP3502130B2 - Table recognition device and table recognition method - Google Patents

Table recognition device and table recognition method

Info

Publication number
JP3502130B2
JP3502130B2 JP27345893A JP27345893A JP3502130B2 JP 3502130 B2 JP3502130 B2 JP 3502130B2 JP 27345893 A JP27345893 A JP 27345893A JP 27345893 A JP27345893 A JP 27345893A JP 3502130 B2 JP3502130 B2 JP 3502130B2
Authority
JP
Japan
Prior art keywords
diagonal
cell
extracted
line
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP27345893A
Other languages
Japanese (ja)
Other versions
JPH07129723A (en
Inventor
裕二郎 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP27345893A priority Critical patent/JP3502130B2/en
Publication of JPH07129723A publication Critical patent/JPH07129723A/en
Application granted granted Critical
Publication of JP3502130B2 publication Critical patent/JP3502130B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、画像データにおいて表
構造およびセル内の文字を認識する表認識装置および表
認識方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a table recognition device and a table recognition method for recognizing a table structure and characters in cells in image data.

【0002】[0002]

【従来の技術】近年、表認識装置がコンピュータ等の入
力装置として利用されるようになってきた。文書の清書
システムとして表認識装置の利用を考慮すると、罫線位
置、線種、線巾およびセル内の文字を認識する必要があ
る。
2. Description of the Related Art In recent years, table recognition devices have come to be used as input devices for computers and the like. Considering the use of a table recognition device as a document clearing system, it is necessary to recognize ruled line positions, line types, line widths, and characters in cells.

【0003】以下に従来の表認識装置について説明す
る。図5は従来の表認識装置の機能構成を示すブロック
図である。
A conventional table recognition device will be described below. FIG. 5 is a block diagram showing a functional configuration of a conventional table recognition device.

【0004】画像入力部51は、スキャナー等の画像入
力器から表画像を読み取り、それを2値の画像データに
変換する。画像メモリ52は、画像入力部51から与え
られる画像データを格納する。実線ラン抽出部53は、
画像メモリ52内の画像データを走査して一定長さ以上
の黒画素の並び(以下ランと呼ぶ)を抽出する。破線ラ
ン抽出部54は、画像メモリ52内の画像データを走査
して特定パターンのランを抽出する。表構造抽出部55
は、実線ラン抽出部53および破線ラン抽出部54によ
り抽出されたランの連結性を調べて罫線を抽出するとと
もに、抽出された罫線位置の相互関係を解析することに
より表内のセルを抽出する。
The image input section 51 reads a front image from an image input device such as a scanner and converts it into binary image data. The image memory 52 stores the image data supplied from the image input unit 51. The solid line run extraction unit 53
The image data in the image memory 52 is scanned to extract an array of black pixels having a predetermined length or more (hereinafter referred to as a run). The broken line run extraction unit 54 scans the image data in the image memory 52 and extracts runs of a specific pattern. Table structure extraction unit 55
Extracts the ruled lines by examining the connectivity of the runs extracted by the solid line run extraction unit 53 and the broken line run extraction unit 54, and extracts the cells in the table by analyzing the mutual relation of the extracted ruled line positions. .

【0005】一方、文字パターン辞書56にはサンプル
文字が記憶される。文字認識部57においては、表構造
抽出部55により抽出されたセル内のデータが文字とし
て認識される。文字認識部57は、画像メモリ52内の
画像データにおいて、表構造抽出部55により抽出され
た各セル内の文字を文字パターン辞書56に記憶された
サンプル文字と比較し、類似度を算出する。そして、算
出された類似度が予め定められた値よりも高い場合に
は、そのサンプル文字をセル内の文字として出力する。
表出力部58は、表構造抽出部55により抽出された表
構造および文字認識部57により認識された文字の情報
を出力する。
On the other hand, the character pattern dictionary 56 stores sample characters. In the character recognition unit 57, the data in the cell extracted by the table structure extraction unit 55 is recognized as a character. In the image data in the image memory 52, the character recognition unit 57 compares the characters in each cell extracted by the table structure extraction unit 55 with the sample characters stored in the character pattern dictionary 56, and calculates the similarity. If the calculated similarity is higher than a predetermined value, the sample character is output as the character in the cell.
The table output unit 58 outputs the table structure extracted by the table structure extraction unit 55 and the information of the character recognized by the character recognition unit 57.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記の
従来の表認識装置では、図6に示すようにセルの対角線
上に斜め線が存在する表画像を認識する場合、斜め線は
特別な意味をもたず、文字コードとして出力されるとい
う問題点があった。
However, in the above-described conventional table recognition device, when a table image having diagonal lines on the diagonal of a cell is recognized as shown in FIG. 6, the diagonal lines have a special meaning. However, there was a problem that it was output as a character code.

【0007】そこで、本発明の目的は、セルの対角線上
に斜め線が存在する表画像を認識する場合でも正確な表
構造認識およびセル内の文字認識を行なうことができる
表認識装置および表認識方法を提供することを目的とす
る。
Therefore, an object of the present invention is to provide a table recognition device and a table recognition device capable of performing accurate table structure recognition and character recognition in a cell even when recognizing a table image in which diagonal lines exist on diagonal lines of a cell. The purpose is to provide a method.

【0008】[0008]

【課題を解決するための手段】本発明は、表画像データ
を記憶する表画像記憶手段と、表画像記憶手段に記憶さ
れた表画像データから罫線を抽出し、当該罫線で囲まれ
た領域をセルとして抽出するセル抽出手段と、セル抽出
手段により抽出されたセルの対角線上の画素を調べるこ
とにより斜め線を抽出する斜め線抽出手段と、セル抽出
手段により抽出された罫線、斜め線抽出手段により抽出
された斜め線を表データとして記憶する表データ記憶手
段と、斜め線抽出手段により抽出された斜め線を画像
データから消去する斜め線消去手段と、斜め線消去手段
により斜め線消去後のセルに対して文字認識を行う文字
認識手段と、を有する構成とした。
SUMMARY OF THE INVENTION The present invention provides a table image data.
And a table image storage means for storing
A ruled line is extracted from the generated table image data , and a diagonal line is extracted by examining a cell on the diagonal line of the cell extracted by the cell extracting unit that extracts a region surrounded by the ruled line as a cell. Diagonal line extraction means and cell extraction
Ruled lines extracted by means, extracted by diagonal line extraction means
Table data memorizer that stores the generated diagonal lines as table data
A step, an oblique line erasing means for erasing the oblique line extracted by the oblique line extracting means from the front image data, and an oblique line erasing means
Characters that perform character recognition on cells after diagonal lines are erased by
And a recognition means.

【0009】また、本発明は、表画像データを記憶する
ステップと、記憶した表画像データから罫線を抽出し、
当該罫線で囲まれた領域をセルとして抽出するステップ
と、抽出されたセルの対角線上の画素を調べることによ
り斜め線を抽出するステップと、抽出された罫線、斜め
線を表データとして記憶するステップと、抽出された斜
め線を画像データから消去するステップと、斜め線消
去後のセルに対して文字認識を行うステップと、を有す
る構成とした。
The present invention also stores front image data.
Steps and ruled lines are extracted from the stored table image data ,
The step of extracting the area surrounded by the ruled line as a cell, the step of extracting the diagonal line by checking the pixels on the diagonal line of the extracted cell, the extracted ruled line, the diagonal line
The step of storing the line as table data, the step of deleting the extracted diagonal line from the table image data, and the step of erasing the diagonal line
And the step of performing character recognition on the cell after leaving.
It has a configuration.

【0010】[0010]

【作用】本発明は、セルの対角線上に斜め線が存在する
表画像を認識する場合、抽出した斜め線を表データとし
て記憶すると共に、斜め線を表画像中からは削除して文
字認識を行うので、斜め線が文字認識を邪魔することな
く文字認識を行うことができ、且つ斜め線を表構造デー
タとして抽出することができる。
In the present invention , when a table image having diagonal lines on the diagonal of a cell is recognized, the extracted diagonal lines are used as table data.
The diagonal line is deleted from the front image and the sentence is deleted.
Character recognition is performed, so diagonal lines do not interfere with character recognition.
Character recognition can be performed and diagonal lines can be extracted as table structure data.

【0011】[0011]

【実施例】図1は、本発明の一実施例による表認識装置
の機能構成を示すブロック図である。
FIG. 1 is a block diagram showing the functional arrangement of a table recognition device according to an embodiment of the present invention.

【0012】図1において、画像入力部1は、スキャナ
等の画像入力器から表画像を読み取り、それを2値の画
像データに変換する。画像メモリ2は、画像入力部1か
ら与えられる画像データを格納する。実線ラン抽出部3
は、画像メモリ2内の画像データを走査して一定長さ以
上の黒画素の並び(以下、ランと呼ぶ)を抽出する。破
線ラン抽出部4は、画像メモリ2内の画像データを走査
して特定パターンのランを抽出する。セル抽出部5は、
実線ラン抽出部3および破線ラン抽出部4により抽出さ
れたランの連結性を調べて罫線を抽出するとともに、抽
出された罫線で囲まれた矩形領域をセルとして抽出す
る。
In FIG. 1, an image input section 1 reads a front image from an image input device such as a scanner and converts it into binary image data. The image memory 2 stores the image data supplied from the image input unit 1. Solid line run extraction unit 3
Scans the image data in the image memory 2 and extracts an array of black pixels having a predetermined length or more (hereinafter referred to as a run). The broken line run extraction unit 4 scans the image data in the image memory 2 and extracts runs of a specific pattern. The cell extraction unit 5
The connectivity of the runs extracted by the solid line run extraction unit 3 and the broken line run extraction unit 4 is checked to extract ruled lines, and the rectangular area surrounded by the extracted ruled lines is extracted as a cell.

【0013】斜め線抽出部6は、画像メモリ2内の画像
データにおいて、セル抽出部5により抽出されたセルの
対角線上に斜め線が存在するかどうかを調べ、斜め線を
抽出する。斜め線出力部7は、斜め線抽出部6により抽
出された斜め線を出力する。斜め線消去部8は、画像メ
モリ2内の画像データにおいて、斜め線抽出部6により
抽出された斜め線を消去する。
The diagonal line extraction unit 6 checks whether the diagonal line of the cell extracted by the cell extraction unit 5 exists in the image data in the image memory 2 and extracts the diagonal line. The diagonal line output unit 7 outputs the diagonal line extracted by the diagonal line extraction unit 6. The diagonal line erasing unit 8 erases the diagonal line extracted by the diagonal line extracting unit 6 in the image data in the image memory 2.

【0014】文字パターン辞書9にはサンプル文字が記
憶される。文字認識部10は、画像メモリ2内の画像デ
ータにおいて、セル抽出部5により抽出された各セル内
の文字を文字パターン辞書9内のサンプル文字と比較
し、類似度を算出する。そして、算出された類似度が予
め定めた値よりも高い場合に、そのサンプル文字をセル
内の文字として出力する。表出力部11は、セル抽出部
35により抽出された表構造、文字認識部10により認
識された文字、および斜め線出力部7により出力された
斜め線の情報を出力する。
The character pattern dictionary 9 stores sample characters. The character recognition unit 10 compares the character in each cell extracted by the cell extraction unit 5 with the sample character in the character pattern dictionary 9 in the image data in the image memory 2 to calculate the similarity. Then, when the calculated similarity is higher than a predetermined value, the sample character is output as the character in the cell. The table output unit 11 outputs the table structure extracted by the cell extraction unit 35, the characters recognized by the character recognition unit 10, and the diagonal line information output by the diagonal line output unit 7.

【0015】図2は、この実施例の表認識装置のハード
ウエア構成を示すブロック図である。
FIG. 2 is a block diagram showing the hardware configuration of the table recognition device of this embodiment.

【0016】この表認識装置は、スキャナ41、RAM
(ランダムアクセスメモリ)42、ROM(リードオン
リメモリ)46、処理回路49、キーボード50および
表示部51を含む。
This table recognition device comprises a scanner 41, a RAM
It includes a (random access memory) 42, a ROM (read only memory) 46, a processing circuit 49, a keyboard 50 and a display section 51.

【0017】スキャナ41は表画像を読み取り、読み取
った表画像を画像データ(イメージデータ)として出力
する。RAM42は、画像メモリ領域43、ラン領域4
4および表データ領域45を含む。画像メモリ領域43
にはスキャナ41から与えられる画像データが記憶され
る。ラン領域44には画像メモリ領域43内の画像デー
タの縦および横の2方向のランが格納される。表データ
領域45には表認識の結果として得られる表構造および
セル内の文字が格納される。
The scanner 41 reads a front image and outputs the read front image as image data (image data). The RAM 42 has an image memory area 43 and a run area 4
4 and a table data area 45. Image memory area 43
The image data given from the scanner 41 is stored in. The run area 44 stores runs of image data in the image memory area 43 in two directions, vertical and horizontal. The table data area 45 stores the table structure obtained as a result of table recognition and the characters in the cells.

【0018】ROM46は特徴辞書領域47およびプロ
グラム記憶領域48を含む。特徴辞書領域47には文字
認識に使用する文字パターン辞書が記憶される。プログ
ラム領域48には制御プログラムが記憶される。処理回
路49は、プログラム記憶領域48に記憶された制御プ
ログラムに従って処理を行なう。キーボード50は認識
指令を行なうために用いられる。表示部51は表データ
領域45に記憶された表構造および文字を表示する。
The ROM 46 includes a feature dictionary area 47 and a program storage area 48. In the characteristic dictionary area 47, a character pattern dictionary used for character recognition is stored. A control program is stored in the program area 48. The processing circuit 49 performs processing according to the control program stored in the program storage area 48. The keyboard 50 is used to issue a recognition command. The display unit 51 displays the table structure and characters stored in the table data area 45.

【0019】図2の画像メモリ領域43は図1の画像メ
モリ2に対応し、図2の特徴辞書領域47は図1の文字
パターン辞書9に対応する。また、図2のプログラム記
憶領域48に記憶された制御プログラムおよび処理回路
49が、図1の画像入力部1、実線ラン抽出部3、破線
ラン抽出部4、セル抽出部5、斜め線抽出部6、斜め線
出力部7、斜め線消去部8、文字認識部10および表出
力部11を構成する。
The image memory area 43 of FIG. 2 corresponds to the image memory 2 of FIG. 1, and the feature dictionary area 47 of FIG. 2 corresponds to the character pattern dictionary 9 of FIG. In addition, the control program and processing circuit 49 stored in the program storage area 48 of FIG. 2 includes the image input unit 1, the solid line run extraction unit 3, the broken line run extraction unit 4, the cell extraction unit 5, and the oblique line extraction unit of FIG. 6, a diagonal line output unit 7, a diagonal line erase unit 8, a character recognition unit 10 and a table output unit 11.

【0020】次に、図3のフローチャートを参照しなが
ら図1および図2に示される表認識装置の動作を説明す
る。
Next, the operation of the table recognition apparatus shown in FIGS. 1 and 2 will be described with reference to the flowchart of FIG.

【0021】ステップs1では、画像入力部1がスキャ
ナ41から画像データを入力し、入力された画像データ
を画像メモリ2(画像メモリ領域43)に格納する。ス
テップs2では、画像メモリ2内の画像データにおいて
画像の傾きが補正される。ステップs3では、ステップ
s2で傾き補正された画像データから、実線ラン抽出部
3が縦および横方向の一定長さ以上のランを抽出し、破
線ラン抽出部4が縦および横方向の特定パターンのラン
を抽出する。抽出されたランはラン領域44に格納され
る。
In step s1, the image input section 1 inputs image data from the scanner 41 and stores the input image data in the image memory 2 (image memory area 43). In step s2, the image inclination in the image data in the image memory 2 is corrected. In step s3, the solid line run extraction unit 3 extracts runs of a predetermined length or more in the vertical and horizontal directions from the image data whose inclination has been corrected in step s2, and the broken line run extraction unit 4 extracts a specific pattern in the vertical and horizontal directions. Extract the orchid. The extracted run is stored in the run area 44.

【0022】ステップs4では、セル抽出部5が、ステ
ップs3で抽出されたランのうち、途切れの長さが所定
のしきい値以内でかつ長さが所定のしきい値以上のラン
を選択する。ステップs5では、セル抽出部5が、ステ
ップs4で選択されたランを連結し、罫線を抽出する。
抽出された罫線は表データ領域45に格納される。ステ
ップs6では、さらにセル抽出部5が、画像メモリ2内
の画像データにおいてステップs5で抽出した罫線で囲
まれた矩形領域をセルとして抽出する。
In step s4, the cell extracting unit 5 selects a run whose length of interruption is within a predetermined threshold value and whose length is equal to or more than a predetermined threshold value among the runs extracted in step s3. . In step s5, the cell extraction unit 5 connects the runs selected in step s4 and extracts ruled lines.
The extracted ruled lines are stored in the table data area 45. In step s6, the cell extraction unit 5 further extracts the rectangular area surrounded by the ruled line extracted in step s5 in the image data in the image memory 2 as a cell.

【0023】ステップs7では、斜め線抽出部6が、画
像メモリ2内の画像データにおいてステップs6で抽出
されたすべてのセル内の斜め線を抽出するとともに、斜
め線消去部8が、画像メモリ2内の画像データから斜め
線部分の画像を消去する(このステップの詳細は後述す
る)。抽出された斜め線は表データ領域45に格納され
る。
In step s7, the diagonal line extracting unit 6 extracts the diagonal lines in all the cells extracted in step s6 in the image data in the image memory 2, and the diagonal line erasing unit 8 in the image memory 2 The image in the diagonal line portion is erased from the image data in (the details of this step will be described later). The extracted diagonal lines are stored in the table data area 45.

【0024】ステップs8では、文字認識部10による
セル内の文字認識がすべて終了したかどうかを調べ、終
了した場合にはステップs10で表出力部11が表デー
タ領域45に格納された表構造および文字を出力して処
理を終了する。文字認識部10によるセル内の文字認識
がすべて終了していない場合は、ステップs9で文字認
識部10が文字認識を行なう。
At step s8, it is checked whether or not the character recognition in the cell by the character recognition unit 10 is completed. If it is completed, the table output unit 11 at step s10 outputs the table structure and the table structure stored in the table data area 45. Outputs characters and ends processing. If all the characters in the cell have not been recognized by the character recognition unit 10, the character recognition unit 10 performs the character recognition in step s9.

【0025】次に、図4のフローチャートを用いて図3
のステップs7の斜め線抽出処理を詳細に説明する。
Next, referring to the flow chart of FIG.
The diagonal line extraction processing in step s7 of step 1 will be described in detail.

【0026】ステップs71では、未処理のセルがある
かどうかを調べ、未処理の処理がある場合にはステップ
s72に進み、未処理のセルがない場合には処理を終了
する。
In step s71, it is checked whether or not there is any unprocessed cell. If there is any unprocessed cell, the process proceeds to step s72. If there is no unprocessed cell, the process ends.

【0027】ステップs72では、斜め線抽出部6が、
画像メモリ2内の画像データにおいてセルの左上角から
右下角の斜め方向の画素を走査し、黒画素の並びを調べ
る。この斜め方向の走査は、セルの左上角のアドレスお
よびセルの右下角のアドレスに基づいてセルの対角線上
のアドレスを算出することにより行なう。
In step s72, the diagonal line extraction unit 6
In the image data in the image memory 2, pixels in the diagonal direction from the upper left corner to the lower right corner of the cell are scanned to check the arrangement of black pixels. This diagonal scanning is performed by calculating the address on the diagonal line of the cell based on the address at the upper left corner of the cell and the address at the lower right corner of the cell.

【0028】ステップs73では、斜め線抽出部6は、
ステップs72で走査した黒画素の並びの途切れが所定
のしきい値以内であるかどうかを調べる。黒画素の並び
の途切れがしきい値以内であれば斜め線があると判断し
てステップs74に進み、黒画素の並びの途切れが所定
のしきい値より大きければステップs76に進む。
In step s73, the diagonal line extraction unit 6
In step s72, it is checked whether the discontinuity in the arrangement of black pixels scanned is within a predetermined threshold value. If the discontinuity of the arrangement of black pixels is within the threshold value, it is determined that there is a diagonal line, and the process proceeds to step s74. If the discontinuity of the arrangement of black pixels is larger than a predetermined threshold value, the process proceeds to step s76.

【0029】ステップs74では、斜め線出力部7が、
斜め線抽出部6により抽出された斜め線データを表デー
タ領域45に出力する。ステップs75では、斜め線消
去部8が、画像メモリ2内の画像データにおいてステッ
プs72で走査された画像部分を白画素で消去する。
In step s74, the diagonal line output unit 7
The diagonal line data extracted by the diagonal line extraction unit 6 is output to the table data area 45. In step s75, the diagonal line erasing unit 8 erases the image portion of the image data in the image memory 2 scanned in step s72 with white pixels.

【0030】ステップs76では、斜め線抽出部6が、
画像メモリ2内の画像データにおいてセルの右上角から
左下角の斜め方向の画素を走査し、黒画素の並びを調べ
る。ステップs77では、斜め線抽出部6は、ステップ
s76で走査した黒画素の並びの途切れが所定のしきい
値以内であるかどうかを調べる。黒画素の並びの途切れ
がしきい値以内であれば斜め線があると判断してステッ
プs78に進み、黒画素の並びの途切れがしきい値より
大きければステップs71に戻る。
At step s76, the diagonal line extraction unit 6
In the image data in the image memory 2, pixels in a diagonal direction from the upper right corner to the lower left corner of the cell are scanned to check the arrangement of black pixels. In step s77, the diagonal line extraction unit 6 checks whether the discontinuity in the arrangement of the black pixels scanned in step s76 is within a predetermined threshold value. If the discontinuity of the black pixel arrangement is within the threshold value, it is determined that there is a diagonal line, and the process proceeds to step s78. If the discontinuity of the black pixel arrangement is greater than the threshold value, the process returns to step s71.

【0031】ステップs78では、斜め線出力部7が、
斜め線抽出部6により抽出された斜め線データを表デー
タ領域45に出力する。ステップs79では、斜め線消
去部8が、画像メモリ2内の画像データにおいてステッ
プs76で走査された画像部分を白画素で消去する。
In step s78, the diagonal line output unit 7
The diagonal line data extracted by the diagonal line extraction unit 6 is output to the table data area 45. In step s79, the diagonal line erasing section 8 erases the image portion of the image data in the image memory 2 scanned in step s76 with white pixels.

【0032】上記実施例によれば、画像データにおける
各セル内の斜め線が斜め線抽出部6により抽出され、斜
め線出力部7により出力されるとともに、斜め線消去部
8により画像データにおける各セル内の斜め線が消去さ
れるので、セル内に斜め線が存在する表画像について
も、表構造および各セル内の文字を正確に認識すること
ができる。
According to the above embodiment, the diagonal lines in each cell in the image data are extracted by the diagonal line extraction unit 6 and output by the diagonal line output unit 7, and the diagonal lines in the image data are output by the diagonal line erasing unit 8. Since the diagonal lines in the cells are erased, the table structure and the characters in each cell can be accurately recognized even in the case of a table image having diagonal lines in the cells.

【0033】[0033]

【発明の効果】以上のように本発明によれば、表画像デ
ータを記憶する表画像記憶手段と、表画像記憶手段に記
憶された表画像データから罫線を抽出し、当該罫線で囲
まれた領域をセルとして抽出するセル抽出手段と、セル
抽出手段により抽出されたセルの対角線上の画素を調べ
ることにより斜め線を抽出する斜め線抽出手段と、セル
抽出手段により抽出された罫線、斜め線抽出手段により
抽出された斜め線を表データとして記憶する表データ記
憶手段と、斜め線抽出手段により抽出された斜め線を表
画像データから消去する斜め線消去手段と、斜め線消去
手段により斜め線消去後のセルに対して文字認識を行う
文字認識手段と、を有する構成としたことにより、セル
の対角線上に斜め線が存在する表画像を認識する場合、
抽出した斜め線を表データとして記憶すると共に、斜め
線を表画像中からは削除して文字認識を行うので、斜め
線が文字認識を邪魔することなく文字認識を行うことが
でき、且つ斜め線を表構造データとして抽出することが
でき、表構造の正確な認識とセル内の文字の認識精度向
上とを併せて実現できる。
As described above, according to the present invention, the front image data
Table image storage means for storing data and
A ruled line is extracted from the stored table image data and surrounded by the ruled line.
Cell extracting means for extracting the entrapped region as a cell,
Examine the pixels on the diagonal of the cell extracted by the extraction means
Diagonal line extraction means for extracting diagonal lines by
Ruled lines extracted by extraction means, diagonal lines extracted by extraction means
Table data description that stores the extracted diagonal lines as table data
The diagonal lines extracted by the storage means and the diagonal line extraction means are displayed.
Oblique line erasing means to erase from image data and diagonal line erasing
Character recognition is performed on the cell after the diagonal line is erased by the means.
With the configuration including the character recognition means, the cell
When recognizing a table image with diagonal lines on the diagonal of
The extracted diagonal lines are stored as table data and
Since lines are deleted from the front image for character recognition,
Character recognition can be done without lines hindering character recognition.
And can extract diagonal lines as tabular data
The accuracy of table structure and the recognition accuracy of characters in cells can be improved.
The above can be realized together.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例における表認識装置の機能構
成を示すブロック図
FIG. 1 is a block diagram showing a functional configuration of a table recognition device according to an embodiment of the present invention.

【図2】本発明の一実施例における表認識装置のハード
ウエア構成を示すブロック図
FIG. 2 is a block diagram showing a hardware configuration of a table recognition device according to an embodiment of the present invention.

【図3】本発明の一実施例における表認識装置の動作を
示すフローチャート
FIG. 3 is a flowchart showing the operation of the table recognition device in the embodiment of the present invention.

【図4】本発明の一実施例における表認識装置の斜め線
抽出処理のフローチャート
FIG. 4 is a flowchart of a diagonal line extraction process of the table recognition device according to the embodiment of the present invention.

【図5】従来の表認識装置の機能構成を示すブロック図FIG. 5 is a block diagram showing a functional configuration of a conventional table recognition device.

【図6】セルの対角線上に斜め線が存在する表画像を示
す図
FIG. 6 is a diagram showing a table image in which diagonal lines are present on diagonal lines of cells.

【符号の説明】[Explanation of symbols]

1 画像入力部 2 画像メモリ 3 実線ラン抽出部 4 破線ラン抽出部 5 セル抽出部 6 斜め線抽出部 7 斜め線出力部 8 斜め線消去部 9 文字パターン辞書 10 文字認識部 11 表出力部 41 スキャナ 42 RAM 43 画像メモリ領域 44 ラン領域 45 表データ領域 46 ROM 47 特徴辞書領域 48 プログラム記憶領域 49 処理回路 50 キーボード 51 表示部 1 Image input section 2 image memory 3 Solid line run extraction unit 4 Dashed line run extraction unit 5 Cell extractor 6 Diagonal line extraction unit 7 Oblique line output section 8 Diagonal line eraser 9-character pattern dictionary 10 Character recognition part 11 Table output section 41 Scanner 42 RAM 43 image memory area 44 Run area 45 table data area 46 ROM 47 Feature dictionary area 48 program storage area 49 Processing circuit 50 keyboard 51 display

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−23185(JP,A) 特開 平4−303277(JP,A) 特開 平4−360294(JP,A) 特開 平5−174186(JP,A) 特開 平6−103409(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-4-23185 (JP, A) JP-A-4-303277 (JP, A) JP-A-4-360294 (JP, A) JP-A-5- 174186 (JP, A) JP-A-6-103409 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G06K 9/00-9/76

Claims (2)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】表画像データを記憶する表画像記憶手段
と、 前記表画像記憶手段に記憶された表 画像データから罫線
を抽出し、当該罫線で囲まれた領域をセルとして抽出す
るセル抽出手段と、 前記セル抽出手段により抽出されたセルの対角線上の画
素を調べることにより斜め線を抽出する斜め線抽出手段
と、前記セル抽出手段により抽出された罫線、前記斜め線抽
出手段により抽出された斜め線を表データとして記憶す
る表データ記憶手段と、 前記斜め線抽出手段により抽出された斜め線を前記
像データから消去する斜め線消去手段と 前記斜め線消去手段により斜め線消去後のセルに対して
文字認識を行う文字認識手段と、を有することを特徴と
する 表認識装置。
1. A front image storage means for storing front image data.
And a ruled line from the front image data stored in the front image storage means.
Extracts, and cell extracting means for extracting a region surrounded by the border as a cell, a diagonal line extracting means for extracting a diagonal line by examining the pixels on the diagonal of the cell extracted by the cell extracting means, Ruled lines extracted by the cell extracting means, the diagonal line extraction
Store the diagonal lines extracted by the output means as table data
That the table data storing means, and the diagonal line erase means for a diagonal line extracted by the oblique line extracting means for erasing from the table image <br/> image data, the cell after diagonal erased by the oblique line erase means for
Character recognition means for recognizing characters,
Table recognition device to.
【請求項2】表画像データを記憶するステップと、 記憶した表 画像データから罫線を抽出し、当該罫線で囲
まれた領域をセルとして抽出するステップと、 前記抽出されたセルの対角線上の画素を調べることによ
り斜め線を抽出するステップと、抽出された罫線、斜め線を表データとして記憶するステ
ップと、 前記抽出された斜め線を前記画像データから消去する
ステップと 斜め線消去後のセルに対して文字認識を行うステップ
と、を有することを特徴とする 表認識方法。
2. A step of storing table image data, a step of extracting a ruled line from the stored table image data , and a step of extracting a region surrounded by the ruled line as a cell, and pixels on a diagonal line of the extracted cell. And the step of storing the extracted ruled lines and diagonal lines as table data.
Performing a-up, a step of erasing the extracted diagonal lines from the table image data, the character recognition with respect to the cell after the diagonal erase
A table recognition method comprising:
JP27345893A 1993-11-01 1993-11-01 Table recognition device and table recognition method Expired - Fee Related JP3502130B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27345893A JP3502130B2 (en) 1993-11-01 1993-11-01 Table recognition device and table recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27345893A JP3502130B2 (en) 1993-11-01 1993-11-01 Table recognition device and table recognition method

Publications (2)

Publication Number Publication Date
JPH07129723A JPH07129723A (en) 1995-05-19
JP3502130B2 true JP3502130B2 (en) 2004-03-02

Family

ID=17528200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27345893A Expired - Fee Related JP3502130B2 (en) 1993-11-01 1993-11-01 Table recognition device and table recognition method

Country Status (1)

Country Link
JP (1) JP3502130B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5505182B2 (en) * 2010-08-09 2014-05-28 富士ゼロックス株式会社 Image determination apparatus and program

Also Published As

Publication number Publication date
JPH07129723A (en) 1995-05-19

Similar Documents

Publication Publication Date Title
JPH0721310A (en) Document recognizing device
JP2000112599A (en) Device and method for processing document image
JP3502130B2 (en) Table recognition device and table recognition method
JP3052438B2 (en) Table recognition device
JP2796561B2 (en) Tabular document recognition method
JP3060248B2 (en) Table recognition device
JP2788506B2 (en) Character recognition device
JPH04255080A (en) Image input device
JPH08185475A (en) Picture recognition device
JP3402755B2 (en) Area division method
JP2908495B2 (en) Character image extraction device
JP2803736B2 (en) Character recognition method
JPH06337960A (en) Table recognizing device
JP4040231B2 (en) Character extraction method and apparatus, and storage medium
JPH06150056A (en) Table recognizing device
JPH06195505A (en) Table recognizing device
JP2003317107A (en) Method and device for ruled-line detection
JPH11242716A (en) Image processing method and storage medium
JPH0728934A (en) Document image processor
JPH05159100A (en) Table recognition device
JPH0573721A (en) Table recognition device
JP2954218B2 (en) Image processing method and apparatus
JP2991761B2 (en) Line segmentation method
JPH04360294A (en) Device and method for recognizing table
JPH09128478A (en) Image processor

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031204

LAPS Cancellation because of no payment of annual fees