JPH06337960A - Table recognizing device - Google Patents
Table recognizing deviceInfo
- Publication number
- JPH06337960A JPH06337960A JP5126559A JP12655993A JPH06337960A JP H06337960 A JPH06337960 A JP H06337960A JP 5126559 A JP5126559 A JP 5126559A JP 12655993 A JP12655993 A JP 12655993A JP H06337960 A JPH06337960 A JP H06337960A
- Authority
- JP
- Japan
- Prior art keywords
- black
- cell
- extracted
- white
- inverted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、印刷された表を読み取
り、表構造および、セル内の文字を認識する表認識装置
に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a table recognition device for reading a printed table and recognizing a table structure and characters in cells.
【0002】[0002]
【従来の技術】近年、表認識装置がコンピュータなどの
入力装置として利用されるようになってきた。文書の清
書システムとして表認識装置の利用を考慮すると、罫線
位置、線種、線幅およびセル内の文字を認識する必要が
ある。2. Description of the Related Art In recent years, table recognition devices have come to be used as input devices for computers and the like. Considering the use of a table recognition device as a document clearing system, it is necessary to recognize ruled line positions, line types, line widths, and characters in cells.
【0003】以下に従来の表認識装置について説明す
る。図5は従来の表認識装置の機能ブロック図であり、
11はスキャナなどの入力装置などで文書画像を入力す
る画像入力部であり、入力された画像データは画像領域
12に格納される。画像データは実線ラン抽出部13で
走査して一定長さ以上の黒画素の並び(以下ランとい
う)が抽出され、またラン画像データは破線ラン抽出部
14で走査して特定パターンのランの並びが抽出され
る。前記実線ラン抽出部13および破線ラン抽出部14
で抽出されたランの連結性は表構造抽出部15で調べて
罫線を抽出し、抽出された罫線位置の相互関係を見るこ
とにより、セルを抽出する。前記セル内の文字は文字切
り出し部16で切り出され、サンプル文字は文字パター
ン辞書17で記憶される。そして各セル内の文字を文字
認識部18でサンプル文字と比較し、前もって決めた値
よりも近い類似度ならば、その文字として出力し、認識
した表の情報は表出力部19で出力されるようになって
いる。A conventional table recognition device will be described below. FIG. 5 is a functional block diagram of a conventional table recognition device,
An image input unit 11 inputs a document image with an input device such as a scanner, and the input image data is stored in the image area 12. The image data is scanned by the solid line run extraction unit 13 to extract a black pixel array having a predetermined length or more (hereinafter referred to as a run), and the run image data is scanned by the broken line run extraction unit 14 to array a specific pattern of runs. Is extracted. The solid line run extraction unit 13 and the broken line run extraction unit 14
The connectivity of the runs extracted in step 1 is checked by the table structure extraction unit 15 to extract ruled lines, and cells are extracted by observing the mutual relation of the extracted ruled line positions. The characters in the cells are cut out by the character cutting unit 16, and the sample characters are stored in the character pattern dictionary 17. Then, the character in each cell is compared with the sample character by the character recognition unit 18, and if the similarity is closer than a predetermined value, the character is output as the character and the recognized table information is output by the table output unit 19. It is like this.
【0004】[0004]
【発明が解決しようとする課題】しかしながら上記従来
の構成では、表の中に白黒反転のセルを持つ文書の場
合、上記実線ラン抽出部13において、白黒反転セル内
に無数の実線ランを抽出してしまい、表の構造が正確に
認識できないという問題点があった。However, in the above-described conventional configuration, in the case of a document having black-and-white inverted cells in the table, the solid-line run extraction unit 13 extracts innumerable solid-line runs in the black-and-white inverted cells. There was a problem that the structure of the table could not be recognized accurately.
【0005】本発明は前記従来の問題に留意し、表の構
造が正確に認識できる表認識装置を提供することを目的
とする。The present invention has been made in consideration of the above-mentioned conventional problems, and an object of the present invention is to provide a table recognition device capable of accurately recognizing the structure of a table.
【0006】[0006]
【課題を解決するための手段】本発明は上記問題点を解
決するため、しきい値よりも幅が大きいランに囲まれた
部分を抽出する白黒反転セル候補抽出部と、白黒反転セ
ルかどうかを決定する白黒反転セル決定部と、白黒反転
セル内の白画素と黒画素を反転する画素反転部を備える
表認識装置の構成とする。In order to solve the above problems, the present invention solves the above problems by extracting a black / white inversion cell candidate extraction unit for extracting a portion surrounded by runs having a width larger than a threshold value, and whether or not it is a black / white inversion cell. The configuration of the table recognition device includes a black-and-white inversion cell determining unit that determines the black and white inversion cell, and a pixel inversion unit that inverts white pixels and black pixels in the black-and-white inversion cell.
【0007】[0007]
【作用】本発明は上記した構成において、白黒反転セル
を抽出し、抽出したセル内の画素を反転することによ
り、中の文字も通常のセルと同様に認識することができ
る。したがって、白黒反転セルを持った表の構造および
中の文字認識が可能となる。According to the present invention, in the above structure, the black and white inversion cell is extracted, and the pixels in the extracted cell are inverted, so that the character inside can be recognized in the same manner as a normal cell. Therefore, the structure of the table having the black and white reversal cell and the character recognition therein are possible.
【0008】[0008]
【実施例】以下本発明の実施例を説明する。図1は本発
明の一実施例における表認識装置の機能ブロック図を示
すものである。図1において構成要素として21はスキ
ャナなどの入力装置などで文書画像を入力する画像入力
部、22は入力された画像データを格納する画像領域、
23は画像データを走査して一定長さ以上のランを抽出
する実線ラン抽出部、24は実線ラン抽出部23で抽出
されたランの内、幅がしきい値よりも大きいものに囲ま
れた部分を抽出する白黒反転セル候補抽出部、25は抽
出されたセル候補の内部の黒画素比を算出し、50%よ
り大きい場合はその部分を白黒反転セルと決定する白黒
反転セル決定部、26は白黒反転セル決定部25で抽出
された白黒反転セル内の内部の画素を反転する画素反転
部、27は画像データを走査して特定パターンのランの
並びを抽出する破線ラン抽出部、28は実線ラン抽出部
23で抽出された実線ランと白黒反転セル決定部25で
抽出された白黒反転セルと破線ラン抽出部27で抽出さ
れた破線ランの相互関係を見ることにより、表構造を抽
出する表構造を抽出する表構造抽出部、29は白黒反転
セル決定部25で反転されたセル内および表構造抽出部
28で抽出された通常のセル内の文字を切り出す文字切
り出し部、30はサンプル文字を記憶する文字パターン
辞書、31は各セル内の文字をサンプル文字と比較し、
前もって決めた値よりも近い類似度ならば、その文字と
して出力する文字認識部、32は認識した表の情報を出
力する表出力部である。EXAMPLES Examples of the present invention will be described below. FIG. 1 is a functional block diagram of a table recognition device according to an embodiment of the present invention. In FIG. 1, as components, 21 is an image input unit for inputting a document image with an input device such as a scanner, 22 is an image area for storing the input image data,
Reference numeral 23 is a solid line run extraction unit that scans image data to extract runs of a certain length or more, and 24 is surrounded by runs whose width is larger than a threshold value among the runs extracted by the solid line run extraction unit 23. A black / white inversion cell candidate extraction unit for extracting a portion, 25 calculates a black pixel ratio inside the extracted cell candidate, and if it is greater than 50%, a black / white inversion cell determination unit for determining the portion as a black / white inversion cell, 26 Is a pixel inversion unit that inverts the pixels inside the black and white inversion cell extracted by the black and white inversion cell determination unit 25, 27 is a broken line run extraction unit that scans the image data and extracts the sequence of runs of a specific pattern, and 28 is The table structure is extracted by observing the mutual relationship between the solid line run extracted by the solid line run extraction unit 23, the black and white inversion cell extracted by the black and white inversion cell determination unit 25, and the broken line run extracted by the broken line run extraction unit 27. Extract table structure A table structure extraction unit 29 is a character cutout unit that cuts out characters in the cells inverted by the black / white inversion cell determination unit 25 and normal cells extracted by the table structure extraction unit 28, and 30 is a character that stores a sample character. The pattern dictionary, 31 compares the characters in each cell with the sample characters,
If the similarity is closer than the value determined in advance, the character recognition unit that outputs the character, and 32 is the table output unit that outputs the information of the recognized table.
【0009】図2は本実施例の表認識装置の構成を示す
ブロック図である。図2において40は表画像を読み取
るスキャナで、読み取った表画像を読み取るスキャナ
で、読み取った表画像をイメージデータとして出力す
る。41はRAMで、スキャナ40からのイメージデー
タを記憶する画像メモリ領域42、イメージデータの
縦、横2方向の黒画素の並びを格納するラン領域43、
ランの並びから抽出した実線および破線を格納する罫線
領域44、表認識の結果得られる表の構造、セル内の文
字を格納する表データ領域45を有する。46はROM
で、文字認識に使用する辞書を記憶した特徴辞書領域4
7およびプログラム記憶領域48を有する。49はプロ
グラム記憶領域48に記憶された制御プログラムに従っ
て処理を行う処理回路である。50は認識指令を行うキ
ーボードであり、51は表データ領域45に記憶された
表を表示する表示部である。FIG. 2 is a block diagram showing the configuration of the table recognition device of this embodiment. In FIG. 2, reference numeral 40 denotes a scanner that reads a front image, and a scanner that reads the front image that has been read outputs the front image that has been read as image data. Reference numeral 41 denotes a RAM, which is an image memory area 42 for storing image data from the scanner 40, a run area 43 for storing an array of black pixels in the vertical and horizontal directions of the image data,
It has a ruled line area 44 for storing a solid line and a broken line extracted from an array of runs, a table structure obtained as a result of table recognition, and a table data area 45 for storing characters in cells. 46 is a ROM
And feature dictionary area 4 that stores the dictionary used for character recognition.
7 and a program storage area 48. Reference numeral 49 is a processing circuit that performs processing in accordance with the control program stored in the program storage area 48. Reference numeral 50 is a keyboard for issuing a recognition command, and 51 is a display unit for displaying a table stored in the table data area 45.
【0010】以上の各構成要素よりなる本実施例の表認
識装置について以下その動作を図3のフローチャートを
用いて説明する。ステップs1では、スキャナから画像
を入力し、メモリに格納する。ステップs2では、入力
した画像の傾きを補正する。ステップs3では、画像の
縦、横2方向の黒画素の並びを抽出する。ステップs4
では、抽出したランの内、一定長さ以上のものを検索す
る。ステップs5では、s4で検索したランを連結し
て、罫線を抽出する。ステップs6では、白黒反転セル
を抽出する(このステップの詳細は後述する)。ステッ
プs7では、抽出した白黒反転セルの内部の画素を反転
する。ステップs8では、ステップs3で抽出したラン
の内、特定パターンで一定長さより長いものを検索す
る。ステップs9では、検索したランを連結して、破線
を抽出する。ステップs10では、ステップs5で抽出
した罫線の中で白黒反転セルに含まれないものと、ステ
ップs6で抽出した白黒反転セルと、ステップs9で抽
出した破線に囲まれた部分を通常のセルとして抽出す
る。ステップs11では、文字認識が終了していないセ
ルがあるか調べ、あればステップs12のセル内文字認
識を行う。ステップs13では、認識された表を出力す
る。The operation of the table recognition apparatus of this embodiment having the above-mentioned components will be described below with reference to the flowchart of FIG. In step s1, an image is input from the scanner and stored in the memory. In step s2, the inclination of the input image is corrected. In step s3, the arrangement of black pixels in the vertical and horizontal directions of the image is extracted. Step s4
Now, search for runs of a certain length or longer among the extracted runs. In step s5, the runs searched in s4 are connected to extract a ruled line. In step s6, black and white inversion cells are extracted (the details of this step will be described later). In step s7, the pixels inside the extracted black-and-white inversion cell are inverted. In step s8, the run extracted in step s3 is searched for a specific pattern longer than a certain length. In step s9, the retrieved runs are connected to extract a broken line. In step s10, the ruled lines extracted in step s5 that are not included in the black / white inversion cells, the black / white inversion cells extracted in step s6, and the part surrounded by the broken line extracted in step s9 are extracted as normal cells. To do. In step s11, it is checked whether or not there is a cell for which character recognition has not been completed. If there is a cell, character recognition in the cell is performed in step s12. In step s13, the recognized table is output.
【0011】次に図4のフローチャートを用いてステッ
プs6の詳細について説明する。ステップs61では、
ステップ4で抽出した罫線の内、しきい値よりも幅が太
いものを検索する。ステップs62では、検索した罫線
で囲まれた部分がないか調べ、有ればステップs63、
なければ白黒反転セル抽出部を終了する。ステップs6
3では、ステップs62で見つかった部分の内部の黒画
素の比率を算出する。ステップs64では、黒画素の比
率が50%よりも大きいかどうか調べ、大きければ、ス
テップs65で白黒反転部として出力する。Next, the details of step s6 will be described with reference to the flowchart of FIG. In step s61,
Among the ruled lines extracted in step 4, one having a width wider than the threshold value is searched. In step s62, it is checked whether or not there is a portion surrounded by the searched ruled lines.
If not, the black-and-white inversion cell extraction unit is terminated. Step s6
In 3, the ratio of black pixels inside the portion found in step s62 is calculated. In step s64, it is checked whether or not the ratio of black pixels is larger than 50%, and if it is larger, it is output as a black and white reversal unit in step s65.
【0012】以上のように本実施例によれば、白黒反転
セル候補抽出部24と、白黒反転セル決定部25、およ
び画素反転部26を設けることにより、正確に表の構造
および内部の文字を認識することができる。As described above, according to the present embodiment, the black-and-white inversion cell candidate extraction section 24, the black-and-white inversion cell determination section 25, and the pixel inversion section 26 are provided, so that the structure of the table and the internal characters can be accurately determined. Can be recognized.
【0013】[0013]
【発明の効果】前記実施例の説明より明らかなように、
本発明は罫線の内、幅がしきい値以上のもので囲まれた
部分を白黒反転セル候補として抽出する白黒反転セル候
補抽出部と、抽出した白黒反転セル候補の内部の黒画素
の密度により、その部分を白黒反転セルと決定する白黒
反転セル決定部と、決定したセル内の画素を反転する画
素反転部を設けることにより、表の構造および内部の文
字を正確に認識することができる。As is clear from the description of the above embodiment,
The present invention uses a black / white inversion cell candidate extraction unit that extracts, as a black / white inversion cell candidate, a part of a ruled line that is surrounded by a width equal to or larger than a threshold value, and the density of black pixels inside the extracted black / white inversion cell candidate. By providing the black-and-white inversion cell determination unit that determines that portion as a black-and-white inversion cell and the pixel inversion unit that inverts the pixels in the determined cell, the structure of the table and the internal characters can be accurately recognized.
【図1】本発明の一実施例における表認識装置の機能ブ
ロック図FIG. 1 is a functional block diagram of a table recognition device according to an embodiment of the present invention.
【図2】本実施例の表認識装置の構成を示すブロック図FIG. 2 is a block diagram showing the configuration of a table recognition device according to this embodiment.
【図3】本実施例における制御手順を示すフローチャー
トFIG. 3 is a flowchart showing a control procedure in this embodiment.
【図4】本実施例における制御手順を示すフローチャー
トFIG. 4 is a flowchart showing a control procedure in this embodiment.
【図5】従来の表認識装置の機能ブロック図FIG. 5 is a functional block diagram of a conventional table recognition device.
21 画像入力部 22 画像領域 23 実線ラン抽出部 24 白黒反転セル候補抽出部 25 白黒反転セル決定部 26 画素反転部 27 破線ラン抽出部 28 表構造抽出部 29 文字切り出し部 30 文字パターン辞書 31 文字認識部 32 表出力部 40 スキャナ 41 RAM 42 画像メモリ領域 43 ラン領域 44 罫線領域 45 表データ領域 46 ROM 47 特徴辞書領域 48 プログラム記憶領域 49 処理回路 50 キーボード 51 表示部 21 image input section 22 image area 23 solid line run extraction section 24 black and white inversion cell candidate extraction section 25 black and white inversion cell determination section 26 pixel inversion section 27 broken line run extraction section 28 table structure extraction section 29 character cutout section 30 character pattern dictionary 31 character recognition Part 32 Table Output Part 40 Scanner 41 RAM 42 Image Memory Area 43 Run Area 44 Ruled Line Area 45 Table Data Area 46 ROM 47 Feature Dictionary Area 48 Program Storage Area 49 Processing Circuit 50 Keyboard 51 Display Section
Claims (1)
原図形情報に基づいて、表の構造を認識する表認識装置
において、縦・横2方向の黒画素のランのうち、一定長
さ以上のものを抽出する手段と、抽出されたランを連結
することにより、実線の罫線を抽出する手段と、抽出さ
れた罫線の内、幅がしきい値以上のもので囲まれた部分
を白黒反転セル候補として抽出する手段と、抽出した白
黒反転セル候補の内部の黒画素の密度により、その部分
を白黒反転セルと決定する手段と、決定したセル内の画
素を反転する手段を有し、表の構造および中の文字を正
確に認識することを特徴とする表認識装置。1. A table recognition device for recognizing a structure of a table on the basis of original figure information obtained by scanning a given input figure, in a run of black pixels in vertical and horizontal directions, a fixed length. A means for extracting the above ruled lines and a means for extracting the ruled line of a solid line by connecting the extracted runs, and a part of the extracted ruled lines surrounded by those whose width is greater than or equal to the threshold value. It has means for extracting as a black-and-white inversion cell candidate, means for determining that portion as a black-and-white inversion cell based on the density of black pixels inside the extracted black-and-white inversion cell candidate, and means for inverting the pixels in the determined cell. A table recognition device characterized by accurately recognizing the structure of a table and the characters in the table.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5126559A JPH06337960A (en) | 1993-05-28 | 1993-05-28 | Table recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5126559A JPH06337960A (en) | 1993-05-28 | 1993-05-28 | Table recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH06337960A true JPH06337960A (en) | 1994-12-06 |
Family
ID=14938168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5126559A Pending JPH06337960A (en) | 1993-05-28 | 1993-05-28 | Table recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH06337960A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008198157A (en) * | 2007-02-16 | 2008-08-28 | Fujitsu Ltd | Table recognition program, method, and device |
-
1993
- 1993-05-28 JP JP5126559A patent/JPH06337960A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008198157A (en) * | 2007-02-16 | 2008-08-28 | Fujitsu Ltd | Table recognition program, method, and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0713995A (en) | Automatic determination device of feature of text | |
JPH0721310A (en) | Document recognizing device | |
JP3993025B2 (en) | Document image conversion method, document image conversion program, and document image conversion apparatus | |
JPH06337960A (en) | Table recognizing device | |
JPH08180068A (en) | Electronic filing device | |
JP3052438B2 (en) | Table recognition device | |
JP3502130B2 (en) | Table recognition device and table recognition method | |
JP3060248B2 (en) | Table recognition device | |
JP2796561B2 (en) | Tabular document recognition method | |
JP3304512B2 (en) | Table recognition device | |
JPH06150056A (en) | Table recognizing device | |
JP4040231B2 (en) | Character extraction method and apparatus, and storage medium | |
JPH0830725A (en) | Device and method for processing image | |
JP2743378B2 (en) | Character recognition method | |
JPH04276888A (en) | Character reader | |
JPH06139277A (en) | Electronic dictionary device | |
JPH0573721A (en) | Table recognition device | |
JPH06195505A (en) | Table recognizing device | |
JPH04360294A (en) | Device and method for recognizing table | |
JP2995825B2 (en) | Japanese character recognition device | |
JPH0728934A (en) | Document image processor | |
JPH05189604A (en) | Optical character reader | |
JPH09269970A (en) | Method for recognizing character and its device | |
JP2931041B2 (en) | Character recognition method in table | |
JPH08263591A (en) | Device and method for character recognition |