JP3179280B2 - Form processing device including tables - Google Patents

Form processing device including tables

Info

Publication number
JP3179280B2
JP3179280B2 JP07679594A JP7679594A JP3179280B2 JP 3179280 B2 JP3179280 B2 JP 3179280B2 JP 07679594 A JP07679594 A JP 07679594A JP 7679594 A JP7679594 A JP 7679594A JP 3179280 B2 JP3179280 B2 JP 3179280B2
Authority
JP
Japan
Prior art keywords
ruled line
ruled
extracted
lines
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07679594A
Other languages
Japanese (ja)
Other versions
JPH07282193A (en
Inventor
敬 平野
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP07679594A priority Critical patent/JP3179280B2/en
Publication of JPH07282193A publication Critical patent/JPH07282193A/en
Application granted granted Critical
Publication of JP3179280B2 publication Critical patent/JP3179280B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は帳票処理装置に関する。
特に本発明は帳票上の表に記入された文字や記号を読取
る帳票処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form processing apparatus.
In particular, the present invention relates to a form processing apparatus for reading characters and symbols written in a table on a form.

【0002】[0002]

【従来の技術】帳票上の表に記入された文字、記号等を
読取るには、まず表の形式を判定する表照合処理が行わ
れる。次に表の形式から規定される表中の文字読取り領
域(以下、フィールド領域という。)の画像上での位置
が算出される。最後にフィールド領域内の文字を切り出
し、切り出された文字が認識される。
2. Description of the Related Art In order to read characters, symbols, and the like written in a table on a form, a table collation process for determining a table format is first performed. Next, the position on the image of a character reading area (hereinafter, referred to as a field area) in the table defined by the table format is calculated. Finally, the characters in the field area are cut out, and the cut out characters are recognized.

【0003】従来このような要求に応える帳票処理装置
が特開平2−217977号公報に開示されている。こ
の開示された帳票処理装置において表照合処理を行うブ
ロック構成を図15に示す。図中、符号201は光電変
換部、202はイメージバッファ、203は線分検出
部、204はフレーム構造抽出部、205はフレーム構
造辞書格納部、206はフレーム構造マッチング部、2
07はフィールドイメージ抽出部、208は文字検出切
出し部、209は文字認識部である。
A form processing apparatus responding to such a request has been disclosed in Japanese Patent Laid-Open No. 2-217977. FIG. 15 shows a block configuration for performing a table matching process in the disclosed form processing apparatus. In the figure, reference numeral 201 denotes a photoelectric conversion unit, 202 denotes an image buffer, 203 denotes a line segment detection unit, 204 denotes a frame structure extraction unit, 205 denotes a frame structure dictionary storage unit, 206 denotes a frame structure matching unit,
Reference numeral 07 denotes a field image extraction unit, 208 denotes a character detection cutout unit, and 209 denotes a character recognition unit.

【0004】前記帳票処理装置において表照合処理は以
下の手順で行われる。
In the form processing device, the table collation processing is performed in the following procedure.

【0005】まず、光電変換部201において図16に
示す表を含む帳票210が光学的走査に基づき帳票画像
として読取られる。この読取られた帳票画像はイメージ
バッファ202に格納される。次に、線分検出部203
において予め定められた線分検出領域211内から図1
7に示す水平方向罫線H1〜H6が検出される。次に、
フレーム構造抽出部204において検出された水平方向
罫線H1〜H6に基づきフレーム構造が抽出される。こ
こでフレーム構造は水平方向罫線の本数、各罫線の長
さ、太さ及び位置関係で表わされる。
First, a form 210 including a table shown in FIG. 16 is read as a form image based on optical scanning in the photoelectric conversion unit 201. The read form image is stored in the image buffer 202. Next, the line segment detection unit 203
In FIG.
7, horizontal ruled lines H1 to H6 are detected. next,
The frame structure is extracted based on the horizontal ruled lines H1 to H6 detected by the frame structure extraction unit 204. Here, the frame structure is represented by the number of horizontal ruled lines, the length, thickness, and positional relationship of each ruled line.

【0006】前記フレーム構造が抽出された後、予めフ
レーム構造辞書格納部205に格納されたフレーム構造
情報が表フォーマットとして読出される。フレーム構造
マッチング部206において読出された表フォーマット
とフレーム構造抽出部204で抽出されたフレーム情報
との表照合が行われる。表照合の結果、異なった表であ
ると判定された場合には別の表フォーマットがフレーム
構造辞書格納部205から読出され、再度表照合が行わ
れる。また表照合の結果、同一の表であると判定された
場合にはフレーム構造辞書格納部205から帳票上のフ
ィールド領域位置を示す読取りフィールド位置情報が読
出される。読出された読取りフィールド位置情報はフィ
ールドイメージ抽出部207に出力される。
After the frame structure has been extracted, the frame structure information stored in the frame structure dictionary storage unit 205 in advance is read out as a table format. A table comparison between the table format read by the frame structure matching unit 206 and the frame information extracted by the frame structure extraction unit 204 is performed. As a result of the table comparison, if it is determined that the table is different, another table format is read from the frame structure dictionary storage unit 205, and the table comparison is performed again. Also, as a result of the table comparison, when it is determined that the tables are the same table, read field position information indicating a field area position on the form is read from the frame structure dictionary storage unit 205. The read read field position information is output to the field image extraction unit 207.

【0007】そして、フィールドイメージ抽出部207
において読取りフィールド位置情報が示すフィールド領
域位置のイメージが画像から抽出される。次に、文字検
出切出し部208においてフィールド領域内に存在する
文字イメージが切出される。最後に、文字認識部209
において文字検出切出し部208で切り出された文字イ
メージが認識される。
[0007] Then, the field image extraction unit 207
In step (1), an image of the field area position indicated by the read field position information is extracted from the image. Next, a character image existing in the field area is extracted by the character detection extraction unit 208. Finally, the character recognition unit 209
In step (1), the character image cut out by the character detection cutout unit 208 is recognized.

【0008】[0008]

【発明が解決しようとする課題】前述の開示された帳票
処理装置で行なわれる表照合処理においては以下の点の
配慮がなされていない。
The following points are not taken into consideration in the table collation processing performed by the above-described form processing apparatus.

【0009】第1に、前記表フォーマットには線分検出
領域211として指定された領域内で検出された罫線の
本数、各罫線の長さ、太さ及び位置関係等、罫線の属性
を示す罫線属性情報が使用される。このため、罫線属性
情報が類似する場合には構造的に異なる表が区別できな
い。例えば、図18(A)、(D)にそれぞれ示す2つ
の表イメージ220及び221は構造的に異なる。とこ
ろが、罫線属性情報においては図18(B)及び(E)
に示す水平方向罫線H1とH2とがかなり類似してお
り、図18(C)及び(F)に示す垂直方向罫線V1と
V2とは同一であるので、罫線属性情報の水平方向罫線
H1とH2との間の差では表イメージ220と221と
の間の相違性が表現できない。
First, in the table format, ruled lines indicating the attributes of the ruled lines, such as the number of ruled lines detected in the area designated as the line segment detection region 211, and the length, thickness, and positional relationship of each ruled line. Attribute information is used. Therefore, when the ruled line attribute information is similar, it is not possible to distinguish tables that are structurally different. For example, the two table images 220 and 221 shown in FIGS. 18A and 18D are structurally different. However, in the ruled line attribute information, FIG.
Since the horizontal ruled lines H1 and H2 shown in FIG. 18 are very similar and the vertical ruled lines V1 and V2 shown in FIGS. 18C and 18F are the same, the horizontal ruled lines H1 and H2 in the ruled line attribute information are displayed. Does not represent the difference between the tabular images 220 and 221.

【0010】第2に、表に歪が存在する場合、表が傾い
た場合、表が拡大や縮小された場合には罫線属性情報で
ある罫線の位置情報や長さ情報に狂いが生じるので、正
しく表照合処理ができない。
Second, if there is distortion in the table, if the table is tilted, or if the table is enlarged or reduced, the position information and length information of the ruled line, which is the attribute information of the ruled line, will be out of order. Table matching cannot be performed correctly.

【0011】第3に、手書き文字等を表に記入した場
合、文字部分から多数の余分な罫線が検出される。ま
た、その文字部分から検出された罫線と表罫線とが接触
して、見かけの表罫線長さが長くなる。これにより罫線
の本数と長さの情報に狂いが生じるので、表照合処理が
困難になる。
Third, when handwritten characters and the like are entered in a table, a large number of extra ruled lines are detected from the character portion. Further, the ruled line detected from the character portion comes into contact with the table ruled line, and the apparent table ruled line length increases. As a result, the information on the number and length of the ruled lines is disturbed, so that the table matching process becomes difficult.

【0012】第4に、表罫線に切れ、かすれ等が存在す
る場合には罫線の長さや本数が実際の表と異なり、正し
く表照合処理ができない。
Fourth, when the table ruled lines are cut or blurred, the length and the number of ruled lines are different from those of an actual table, and the table collation processing cannot be performed correctly.

【0013】第5に、フィールド領域を抽出する場合に
おいて読取りフィールド位置情報に示したフィールド領
域位置のイメージが画像から直接抽出される。フィール
ド領域位置は一般に表領域を基準とした座標値等で示さ
れ、表の拡大、縮小、表の傾き、表の歪みは考慮されな
い。このため、歪んだ表、傾いた表、拡大や縮小された
表においては予め格納されたフィールド領域位置と実際
の画像上での位置との間にずれが生じ、正確なフィール
ド領域位置が得られない。
Fifth, when extracting a field area, an image of the field area position indicated by the read field position information is directly extracted from the image. The field area position is generally indicated by a coordinate value or the like based on the table area, and does not take into account enlargement / reduction of the table, table inclination, and table distortion. Therefore, in a distorted table, a tilted table, or an enlarged or reduced table, a deviation occurs between a field area position stored in advance and a position on an actual image, and an accurate field area position is obtained. Absent.

【0014】本発明は、このような課題を解決するため
になされたもので、類似した罫線属性情報を持つ表、手
書き文字等の外乱を含む表、歪んだ表、傾いた表、拡大
や縮小された表、切れやかすれを持つ表に対しても高精
度な表照合が得られ、かつ正確なフィールド領域位置が
得られる帳票処理装置の提供を目的する。
The present invention has been made to solve such a problem, and includes a table having similar ruled line attribute information, a table including a disturbance such as handwritten characters, a distorted table, a tilted table, and an enlargement / reduction. It is an object of the present invention to provide a form processing apparatus capable of obtaining a high-accuracy table comparison even for a set table and a table having cuts or fading, and obtaining an accurate field area position.

【0015】[0015]

【課題を解決するための手段】上記目的を達成するため
に、本発明に係る表を含む帳票処理装置は、罫線抽出手
段、表構造解析手段、表フォーマットデータベース、表
照合手段、フィールド位置探索手段、及び結果出力手段
を備えたことを特徴とする。
In order to achieve the above object, a form processing apparatus including a table according to the present invention comprises a ruled line extracting means, a table structure analyzing means, a table format database, a table collating means, a field position searching means. , And a result output means.

【0016】前記罫線抽出手段は例えば、画像入力手
段、表領域抽出手段、及び罫線属性情報算出手段で構成
され、帳票上の表領域に含まれる罫線が抽出される。
The ruled line extracting means includes, for example, an image inputting means, a table area extracting means, and a ruled line attribute information calculating means, and extracts ruled lines included in a table area on a form.

【0017】前記表構造解析手段は、前記罫線抽出手段
で抽出された罫線中から矩形表の外形を構成する罫線で
ある表外接罫線を検出する表外接罫線検出手段と、前記
表外接罫線を最初の構造段階の親罫線として登録する手
段と、現構造段階における互いに対向する前記親罫線に
両端が接する内接罫線を検出する手段と、各構造段階に
おける前記親罫線と前記内接罫線とに基づいた前記各構
造段階毎の罫線構造情報を前記表構造として登録する手
段と、前記現構造段階において検出された前記内接罫線
を次構造段階の前記親罫線として設定する手段とを有す
るものである。
The table structure analyzing means may include the ruled line extracting means.
From the ruled lines extracted in
An outside table tangent line detecting means for detecting a certain outside table tangent line,
A method for registering the external circumscribed ruled line as the parent ruled line in the first construction stage
And the parent ruled lines facing each other at the current structural stage.
A means for detecting inscribed ruled lines where both ends touch,
Each of the components based on the parent ruled line and the inscribed ruled line.
A method for registering ruled line structure information for each manufacturing stage as the table structure
A step and the inscribed rule detected in the current construction step
Means for setting the parent rule line in the next structure stage
Things.

【0018】前記フィールド位置探索手段においては画
像上のフィールド位置が探索される。
The field position searching means searches for a field position on an image.

【0019】前記結果出力手段においては表照合結果及
びフィールド位置探索結果が出力される。
The result output means outputs a table collation result and a field position search result.

【0020】[0020]

【作用】本発明に係る表を含む帳票処理装置において
は、罫線抽出手段で表を含む帳票が画像として読込ま
れ、帳票上の表領域に含まれる罫線が抽出される。表構
造解析手段においては前記罫線抽出手段で抽出された罫
線から表フォーマットが作成される。表フォーマットデ
ータベースは前記表構造解析手段で作成された表フォー
マットを格納する。表照合手段においては表フォーマッ
トデータベースに格納された表フォーマットに記載され
る表構造と帳票上の表領域から罫線抽出手段で抽出され
た罫線とが照合される。フィールド位置探索手段におい
ては前記表照合結果及び表フォーマットに記載された読
取りフィールド位置情報に基づき帳票画像上のフィール
ド領域位置が算出される。結果出力手段は確信度及びフ
ィールド領域位置を出力する。
In the form processing apparatus including a table according to the present invention, the form including the table is read as an image by the ruled line extracting means, and the ruled line included in the table area on the form is extracted. In the table structure analyzing means, a table format is created from the ruled lines extracted by the ruled line extracting means. The table format database stores the table format created by the table structure analyzing means. In the table collating means, the table structure described in the table format stored in the table format database is collated with the ruled line extracted from the table area on the form by the ruled line extracting means. The field position searching means calculates the field region position on the form image based on the table collation result and the read field position information described in the table format. The result output means outputs the certainty factor and the field area position.

【0021】前記罫線抽出手段の画像入力手段において
は表を含む帳票が読込まれる。前記画像入力手段で読込
んだ帳票画像上の表領域は表領域抽出手段で抽出され
る。罫線属性情報算出手段においては前記表領域抽出手
段で抽出された表領域内に含まれる罫線が抽出され、罫
線属性情報が算出される。
A form including a table is read by the image input means of the ruled line extracting means. The table area on the form image read by the image input means is extracted by the table area extracting means. The ruled line attribute information calculating means extracts ruled lines included in the table area extracted by the table area extracting means, and calculates ruled line attribute information.

【0022】前記表構造解析手段においては、前記罫線
抽出手段で抽出された罫線中から矩形表の外形を構成す
る罫線である表外接罫線が検出され、この検出された表
外接罫線を最初の構造段階の親罫線として登録する。こ
の最初の構造段階における互いに対向する親罫線に両端
が接する内接罫線が検出され、この内接罫線が次構造段
階の親罫線として設定される。このようにして、現構造
段階における互いに対向する親罫線に両端が接する内接
罫線が検出され、次構造段階の親罫線として設定され
る。各構造段階における親罫線と内接罫線とに基づいた
各構造段階毎の罫線構造情報が表構造として登録され
る。
In the table structure analysis means, the ruled line
The outline of the rectangular table is constructed from the ruled lines extracted by the extraction means.
Circumscribed ruled line, which is a ruled line, is detected.
Register the circumscribed ruled line as the parent ruled line at the first structural stage. This
At both ends of the parent lines facing each other in the first construction stage
Is detected, and this inscribed ruled line is
Set as the parent rule of the floor. In this way, the current structure
Inscribed with both ends touching the opposing parent rule line in the stage
The rule is detected and set as the parent rule for the next structural stage.
You. Based on parent and inscribed rules at each structural stage
Ruled line structure information for each structure stage is registered as a table structure.
You.

【0023】[0023]

【0024】[0024]

【0025】[0025]

【0026】[0026]

【0027】[0027]

【0028】[0028]

【実施例】以下、本発明に係る実施例について、図面を
参照し説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0029】本発明に係る表を含む帳票処理装置の全体
構成を図1に示す。図1に示すように、表を含む帳票処
理装置は罫線抽出手段1、表構造解析手段2、表フォー
マットデータベース3、表照合手段4、フィールド位置
探索手段5及び結果出力手段6を備える。
FIG. 1 shows the overall configuration of a form processing apparatus including a table according to the present invention. As shown in FIG. 1, a form processing apparatus including a table includes a ruled line extracting means 1, a table structure analyzing means 2, a table format database 3, a table collating means 4, a field position searching means 5, and a result outputting means 6.

【0030】前記罫線抽出手段1においては表を含む帳
票が画像として読込まれ、この帳票画像中の表領域に含
まれる罫線が抽出される。この罫線抽出手段1は画像入
力手段1a、表領域抽出手段1b及び罫線属性情報算出
手段1cで構成される。
In the ruled line extracting means 1, a form including a table is read as an image, and a ruled line included in a table area in the form image is extracted. The ruled line extracting means 1 includes an image input means 1a, a table area extracting means 1b, and a ruled line attribute information calculating means 1c.

【0031】前記表構造解析手段2においては前記罫線
抽出手段1で抽出された罫線から表フォーマットが作成
される。この表構造解析手段2は表外接罫線検出手段2
a、罫線構造情報算出手段2b及び表フォーマット作成
手段2cで構成される。
In the table structure analyzing means 2, a table format is created from the ruled lines extracted by the ruled line extracting means 1. This table structure analyzing means 2 is an external table tangential ruled line detecting means 2
a, ruled line structure information calculation means 2b and table format creation means 2c.

【0032】前記表フォーマットデータベース3におい
ては前記表構造解析手段2で作成された表フォーマット
が格納される。
The table format database 3 stores the table format created by the table structure analyzing means 2.

【0033】前記表照合手段4においては前記罫線抽出
手段1で表領域内から抽出された罫線と表フォーマット
データベース3に格納された表フォーマットに記載され
た表構造とが照合される。この表照合手段4は罫線対応
付け手段4a及び確信度算出手段4bで構成される。
The table collating means 4 collates the ruled lines extracted from the table area by the ruled line extracting means 1 with the table structure described in the table format stored in the table format database 3. The table collating means 4 includes a ruled line associating means 4a and a certainty factor calculating means 4b.

【0034】前記フィールド位置探索手段5においては
前記表フォーマットに記載された読取りフィールド位置
情報及び表照合手段4で得られた罫線対応付け結果に基
づいて画像上のフィールド領域位置が求められる。前記
結果出力手段6においては前記表照合手段4で算出され
た確信度及びフィールド位置探索手段5で求められたフ
ィールド領域位置が出力される。
The field position search means 5 obtains the field area position on the image based on the read field position information described in the table format and the ruled line matching result obtained by the table collation means 4. The result output unit 6 outputs the certainty factor calculated by the table matching unit 4 and the field area position calculated by the field position search unit 5.

【0035】このように構成される表を含む帳票処理装
置においては表フォーマット作成処理、表読取り処理の
2通りの処理が行われる。ここで、表フォーマット作成
処理は空の表を含む帳票から表フォーマットを作成する
処理である。また、表読取り処理は、文字の記入された
表を含む帳票を読込み、表フォーマットと照合して同一
表と判定した場合にフィールド領域を探索する処理であ
る。以降、上記表を含む帳票処理装置の表フォーマット
作成処理、表読取り処理について各々別々に説明する。
In a form processing apparatus including a table configured as described above, two processes of a table format creation process and a table reading process are performed. Here, the table format creation process is a process of creating a table format from a form including an empty table. The table reading process is a process of reading a form including a table in which characters are written, and searching for a field area when it is determined to be the same table by comparing it with a table format. Hereinafter, the table format creation processing and the table reading processing of the form processing device including the above-described table will be described separately.

【0036】表フォーマット作成処理 まず、表フォーマット作成処理の手順について説明す
る。この表フォーマット作成処理は図1に示す罫線抽出
手段1、表構造解析手段2及び表フォーマットデータベ
ース3で行なわれる。表フォーマット作成処理の手順の
概要は、最初に罫線抽出手段1において何も記入されて
いない空表を含む帳票の表領域内に含まれる罫線を抽出
する。この罫線抽出手段1で抽出された罫線に基づき表
構造解析手段2で空表に対する表フォーマットが作成さ
れる。最後に表構造解析手段2で作成した表フォーマッ
トが表フォーマットデータベース3に格納される。
Table Format Creation Processing First, the procedure of the table format creation processing will be described. This table format creation processing is performed by the ruled line extracting means 1, the table structure analyzing means 2, and the table format database 3 shown in FIG. The outline of the procedure of the table format creation processing is as follows. First, the ruled line extracting means 1 extracts ruled lines included in a table area of a form including an empty table in which nothing is entered. Based on the ruled lines extracted by the ruled line extracting means 1, a table format for an empty table is created by the table structure analyzing means 2. Finally, the table format created by the table structure analysis means 2 is stored in the table format database 3.

【0037】次に、表フォーマット作成処理の詳細な手
順について図1乃至図8を使用し説明する。図2は画像
として読込まれた表を含む帳票画像を示す。図3は帳票
画像上の表領域から抽出された縦横罫線を示す。図4は
罫線同士の交点特徴例を示す。図5は表の外接罫線を示
す。図6には罫線構造情報算出手段2bで行なわれる処
理のフローチャートが示される。図7は罫線構造情報算
出手段2bで行なわれる構造解析例を示す。図8には表
フォーマット作成手段2cで作成された表フォーマット
例を示す。
Next, a detailed procedure of the table format creation processing will be described with reference to FIGS. FIG. 2 shows a form image including a table read as an image. FIG. 3 shows vertical and horizontal ruled lines extracted from a table area on a form image. FIG. 4 shows an example of an intersection feature between ruled lines. FIG. 5 shows the circumscribed ruled line of the table. FIG. 6 shows a flowchart of the processing performed by the ruled line structure information calculating means 2b. FIG. 7 shows an example of the structure analysis performed by the ruled line structure information calculating means 2b. FIG. 8 shows an example of a table format created by the table format creating means 2c.

【0038】最初に、罫線抽出手段1の画像入力手段1
aにおいて空表を含む帳票40(図2参照)が読込まれ
る。画像入力手段1aにはファクシミリ(FAX)、イ
メージリーダ等の光学的画像読取り装置が使用される。
次に、表領域抽出手段1bにおいて帳票画像40上の表
領域41が抽出される。表領域41は例えば「陸、李、
“A Table Processing Algorithm for Printed
Document Analysis ”、D−610、信学論春季全
大、1990年」に示される方法で抽出できる。次に、
罫線属性情報算出手段1cにおいて表領域41内の縦横
方向(垂直水平方向)罫線が抽出される。そして同時
に、抽出された各罫線の長さ、始終点、線種、罫線同士
の接続関係、交点位置、交点特徴等の罫線属性情報が算
出される。これら罫線及び罫線属性情報は例えば「林、
下辻、他、“特徴パターン情報検出による図面の効果的
自動入力法について”、PRL83−8、第57頁−第
64頁、1983年」に示される方法で抽出できる。こ
れらの方法によって、表領域41内から図3に示す横罫
線h0〜h6及び縦罫線v0〜v11を有する罫線群が
得られる。前述の交点特徴は横罫線h及び縦罫線vの2
罫線の接触状態を表し、図4(A)〜(I)に示す9形
態がある。横罫線hと縦罫線vとの交点は符号cで示
す。罫線属性情報算出後には罫線抽出手段1での処理が
終了する。
First, the image input means 1 of the ruled line extracting means 1
At a, a form 40 (see FIG. 2) including an empty table is read. An optical image reading device such as a facsimile (FAX) or an image reader is used for the image input means 1a.
Next, the table area 41 on the form image 40 is extracted by the table area extracting means 1b. The table area 41 is, for example, “Lu, Li,
"A Table Processing Algorithm for Printed
Document Analysis ", D-610, IEICE Spring Institute, 1990". next,
The ruled line attribute information calculating means 1c extracts ruled lines in the vertical and horizontal directions (vertical and horizontal directions) in the table area 41. At the same time, rule line attribute information such as the length, start point and end point, line type, connection relationship between rule lines, intersection position, and intersection feature of each extracted rule line is calculated. These ruled lines and ruled line attribute information are, for example, “Hayashi,
Shimotsuji, et al., "Effective Automatic Input Method of Drawings by Detecting Feature Pattern Information", PRL 83-8, pp. 57-64, 1983. By these methods, a ruled line group having horizontal ruled lines h0 to h6 and vertical ruled lines v0 to v11 shown in FIG. The intersection features described above are horizontal ruled line h and vertical ruled line v.
It represents the contact state of the ruled line, and there are nine forms shown in FIGS. The intersection between the horizontal ruled line h and the vertical ruled line v is indicated by the symbol c. After calculating the ruled line attribute information, the process in the ruled line extracting means 1 ends.

【0039】次に、表構造解析手段2での処理が実行さ
れる。表構造解析手段2においては図1に示す表外接罫
線検出手段2a、罫線構造情報算出手段2b及び表フォ
ーマット作成手段2cで処理が行われる。
Next, the processing in the table structure analyzing means 2 is executed. In the table structure analysis means 2, the processing is performed by the outside table tangential ruled line detection means 2a, ruled line structure information calculation means 2b and table format creation means 2c shown in FIG.

【0040】表構造解析手段2の表外接罫線検出手段2
aにおいては罫線抽出手段1で抽出された罫線中から表
外接罫線が検出される。ここで、表外接罫線は表を複数
の矩形表に分解した際に各矩形表の外枠をなす4罫線と
定義する。表外接罫線は以下の手順で求められる。
Outer table tangent ruled line detector 2 of table structure analyzer 2
In the case of a, the external tangential ruled line is detected from the ruled line extracted by the ruled line extracting means 1. Here, the outer table tangent rule line is defined as four rule lines forming an outer frame of each rectangular table when the table is decomposed into a plurality of rectangular tables. The outer circumscribed ruled line is obtained by the following procedure.

【0041】まず、図3において、所定長以上の長さを
持つ罫線中、最上位及び最下位に位置する2本の横罫線
h0、h6と最左位及び最右位に位置する2本の縦罫線
v0、v11とが外接罫線候補として選択される。次
に、外接罫線候補の平行な2本の罫線に両端が接触する
罫線、横罫線h1、h3、h4、h5、h6及び縦罫線
v0を罫線群から検出する。この検出された罫線のうち
最上位及び最下位に位置する横罫線と最左位及び最右位
に位置する縦罫線を求める。この処理により横罫線h1
及びh6と縦罫線v0が求められる。これら横罫線h
1,h6及び縦罫線v0と、その前に選択されている外
接罫線候補h0,h6,v0,v11との和集合を新た
な外接罫線候補とする。
First, in FIG. 3, two horizontal ruled lines h0 and h6 located at the uppermost and lowermost positions and two leftmost and rightmost positions are located among the ruled lines having a length equal to or longer than a predetermined length. The vertical ruled lines v0 and v11 are selected as circumscribed ruled line candidates. Next, a ruled line, a horizontal ruled line h1, h3, h4, h5, h6, and a vertical ruled line v0 whose both ends are in contact with two parallel ruled lines of the circumscribed ruled line candidate are detected from the ruled line group. Ru seek horizontal ruled lines and vertical ruled lines located leftmost position and the rightmost position located uppermost and lowermost among the detected border. By this processing, the horizontal ruled line h1
And h6 and the vertical ruled line v0 are obtained. These horizontal ruled lines h
1, h6 and vertical ruled line v0, and the outside selected before
New union with tangent rule line candidates h0, h6, v0, v11
Circumscribed ruled line candidate.

【0042】次に、求められた外接罫線候補すなわち縦
罫線v0、v11、横罫線h0、h1及びh6が組合わ
され、仮想矩形が設定される。仮想矩形は2本の縦罫線
及び2本の横罫線を含む合計4本の仮想外接罫線で指定
される矩形である。前述の外接罫線候補においては3つ
の仮想矩形(v0、v11、h0、h1)、(v0、v
11、h1、h6)及び(v0、v11、h0、h6)
が設定できる。
Next, the obtained circumscribed ruled line candidates, that is, the vertical ruled lines v0 and v11 and the horizontal ruled lines h0, h1 and h6 are combined to set a virtual rectangle. The virtual rectangle is a rectangle specified by a total of four virtual circumscribed rule lines including two vertical rule lines and two horizontal rule lines. In the circumscribed ruled line candidates described above, three virtual rectangles (v0, v11, h0, h1), (v0, v
11, h1, h6) and (v0, v11, h0, h6)
Can be set.

【0043】次に、各仮想矩形が正しい矩形表であるか
否かが調べられる。ここで、仮想矩形を構成する4本の
外接罫線候補が端点同士で接続して1矩形を構成する場
合に正しい矩形表であると定義する。そして、正しい矩
形表であると判定された仮想矩形において外接罫線候補
を外接罫線として仮想矩形が矩形表として登録される。
本実施例においては外接罫線候補v0、v11、h1及
びh6から構成される矩形表が正しい矩形表であると判
定され、登録される。
Next, it is checked whether or not each virtual rectangle is a correct rectangle table. Here, it is defined as a correct rectangle table when four circumscribed ruled line candidates constituting the virtual rectangle are connected by end points to constitute one rectangle. Then, in the virtual rectangle determined to be the correct rectangular table, the circumscribed rule candidate is registered as the circumscribed rule, and the virtual rectangle is registered as the rectangular table.
In the present embodiment, the rectangular table composed of the circumscribed ruled line candidates v0, v11, h1, and h6 is determined to be a correct rectangular table and registered.

【0044】その後、正しい矩形表であると判定されな
かった各仮想矩形領域内において外接罫線候補の探索が
行われ、再度上記処理が実行される。この処理は仮想矩
形領域が探索不能になるまで繰返され、処理が繰返され
ると複雑な外形の表が複数の矩形表に分割され、この複
数に分割された矩形表において各々外接罫線が求められ
る。この結果、図5に示すように、外接罫線v0、v
4、h0及びh1で囲まれた矩形表Aと外接罫線v0、
v11、h1及びh6で囲まれた矩形表Bとが求められ
る。
Thereafter, a search is made for a circumscribed ruled line candidate in each virtual rectangular area that is not determined to be a correct rectangular table, and the above processing is executed again. This process is repeated until the virtual rectangular area cannot be searched. When the process is repeated, the table having a complicated outer shape is divided into a plurality of rectangular tables, and circumscribed ruled lines are obtained in each of the divided rectangular tables. As a result, as shown in FIG. 5, the circumscribed ruled lines v0, v
4, a rectangular table A surrounded by h0 and h1 and a circumscribed ruled line v0,
A rectangular table B surrounded by v11, h1 and h6 is obtained.

【0045】次に、前記表外接罫線算出手段2aで求め
られた表外接罫線及び罫線抽出手段1で抽出された罫線
に基づき罫線構造情報算出手段2bにおいて表構造が解
析され、罫線構造情報が算出される。この罫線構造情報
算出手段2で行われる処理の流れは図6に示すフローチ
ャート及び図7に示す構造解析例を使用し具体的に説明
する。
Next, the table structure is analyzed by the ruled-line structure information calculating means 2b based on the ruled-line tangential lines determined by the ruled-line tangential line calculating means 2a and the ruled lines extracted by the ruled line extracting means 1, and the ruled line structure information is calculated. Is done. The flow of the processing performed by the ruled line structure information calculating means 2 will be specifically described using a flowchart shown in FIG. 6 and a structural analysis example shown in FIG.

【0046】まず、図6に示す初期化手段7において段
階i=0が設定される。次に、外接罫線登録手段8にお
いて表外接罫線検出手段2aで得られた外接罫線が検出
済み罫線として登録される。図7(A)〜(D)中、実
線は現段階以前に検出された罫線を示し、点線は未検出
罫線を示す。ここでは例えば図7(A)に示す6本の罫
線v0、v4、v11、h0、h1及びh6が登録され
る。
First, a stage i = 0 is set in the initialization means 7 shown in FIG. Next, the circumscribed ruled line registration means 8 registers the circumscribed ruled line obtained by the table external circumscribed line detection means 2a as a detected ruled line. 7A to 7D, solid lines indicate ruled lines detected before the current stage, and dotted lines indicate undetected ruled lines. Here, for example, six ruled lines v0, v4, v11, h0, h1, and h6 shown in FIG. 7A are registered.

【0047】次に、分割罫線検出手段9において登録済
み罫線に両端が接触する罫線が検出され、図7(B)に
示す横罫線h3、h4及びh5と縦罫線v1、v2及び
v7が検出される。そして、判定手段10において処理
の終了判定が行われる。ここでは罫線が検出されない場
合に処理が終了し、逆に罫線が検出された場合に段階i
がインクリメントされ罫線情報読取り手段11が実行さ
れる。罫線情報読取り手段11では検出された罫線が持
つ罫線構造情報が求められる。罫線構造情報は罫線が検
出された段階i及び罫線の両端が接触する直交方向の2
罫線(以下、この2罫線は親罫線という。)の罫線番号
で構成される。
Next, the divided ruled line detecting means 9 detects a ruled line whose both ends touch the registered ruled line, and detects horizontal ruled lines h3, h4 and h5 and vertical ruled lines v1, v2 and v7 shown in FIG. 7B. You. Then, the determination means 10 determines the end of the process. Here, if no ruled line is detected, the process ends. Conversely, if a ruled line is detected, step i is executed.
Is incremented, and the ruled line information reading means 11 is executed. The ruled line information reading means 11 obtains ruled line structure information of the detected ruled line. The ruled line structure information includes the stage i at which the ruled line is detected and the two in the orthogonal direction where both ends of the ruled line are in contact.
A ruled line number (hereinafter, the two ruled lines are referred to as parent ruled lines).

【0048】そして、罫線登録手段12において現段階
で検出された罫線が追加登録され、処理が繰返される。
この処理の繰返しにより、図7(C)に示す段階を経て
表を構成する全罫線を有する罫線構造情報が段階的に得
られる。最終的には図7(D)に示すように最終段階i
max=3までに全罫線が検出される。
Then, the ruled line detected at this stage is additionally registered in the ruled line registration means 12, and the process is repeated.
By repeating this processing, ruled line structure information having all ruled lines forming the table is obtained stepwise through the steps shown in FIG. 7C. Finally, as shown in FIG.
All ruled lines are detected before max = 3.

【0049】前記罫線構造情報算出手段2bでの処理が
終了すると、表フォーマット作成手段2cでの処理が実
行される。表フォーマット作成手段2cにおいては罫線
属性情報算出手段1cで算出された罫線属性情報及び罫
線構造情報算出手段2bで算出された罫線構造情報に基
づいて表フォーマットが作成される。図8には図3に示
す罫線群から作成された表フォーマット例を示す。この
表フォーマットは同図8に示すように表構造情報部及び
読取りフィールド位置情報部で構成される。表構造情報
部は表照合に用いる表構造情報を格納する部分である。
表構造情報は表を構成する各罫線が有する罫線番号、始
終点、長さ、線種、親罫線番号、段階等の罫線情報を罫
線構造情報算出手段2bで検出された全罫線分において
まとめたものである。読取りフィールド位置情報部はフ
ィールド位置探索手段で用いる読取りフィールド位置情
報を格納する部分である。読取りフィールド位置情報は
フィールドを構成する罫線番号であ。例えば図3に示す
フィールド20の位置を探索する場合にはフィールド2
0を構成する罫線番号h1、h3、v0、v2が読取り
フィールド位置情報として使用される。表中の何処をフ
ィールドとするかについては表構造情報に基づき人為的
に指定が行われる。
When the processing in the ruled line structure information calculating means 2b is completed, the processing in the table format creating means 2c is executed. The table format creating means 2c creates a table format based on the ruled line attribute information calculated by the ruled line attribute information calculating means 1c and the ruled line structure information calculated by the ruled line structure information calculating means 2b. FIG. 8 shows an example of a table format created from the ruled line group shown in FIG. This table format includes a table structure information section and a read field position information section as shown in FIG. The table structure information section stores table structure information used for table comparison.
In the table structure information, the ruled line information such as the ruled line number, the start and end points, the length, the line type, the parent ruled line number, and the stage of each ruled line constituting the table is summarized in all the ruled lines detected by the ruled line structure information calculating means 2b. Things. The read field position information section stores read field position information used by the field position search means. The read field position information is a ruled line number constituting the field. For example, when searching for the position of the field 20 shown in FIG.
The ruled line numbers h1, h3, v0, v2 constituting 0 are used as read field position information. Where in the table a field is designated is artificially specified based on the table structure information.

【0050】表フォーマット作成手段2cでの処理が終
了すると作成された表フォーマットが表フォーマットデ
ータベース3に格納され、表フォーマット作成処理が終
了する。
When the processing in the table format creation means 2c is completed, the created table format is stored in the table format database 3, and the table format creation processing ends.

【0051】表読取り処理 次に、表読取り処理の手順について説明する。表読取り
処理は図1に示す罫線抽出手段1、表フォーマットデー
タベース3、表照合手段4、フィールド位置探索手段5
及び結果出力手段6で行われる。この表読取り処理の手
順の概要は、最初に罫線抽出手段1において文字を記入
した表を含む帳票が画像として読込まれ、表領域中に含
まれる罫線が抽出される。次に、表照合手段4において
表フォーマットデータベース3に格納された表フォーマ
ットに記載される表構造情報と罫線抽出手段1で抽出さ
れた罫線とが照合され確信度が算出される。表照合手段
4において表フォーマットと同一表であると判定された
場合には表照合結果及び表フォーマットに記載される読
取りフィールド位置情報に基づきフィールド位置探索手
段5で画像上のフィールド領域位置が算出される。最後
に結果出力手段6において表照合手段4で算出された確
信度及びフィールド位置探索手段5で求められた画像上
のフィールド領域位置が出力される。
[0051] Table reading Processing Next, a description is given of the procedure of the table reading processing. The table reading process includes the ruled line extracting means 1, table format database 3, table collating means 4, field position searching means 5 shown in FIG.
And the result output means 6. The outline of the procedure of the table reading process is as follows. First, a form including a table in which characters are written is read as an image by the ruled line extracting means 1, and ruled lines included in a table area are extracted. Next, the table collation means 4 collates the table structure information described in the table format stored in the table format database 3 with the ruled lines extracted by the ruled line extracting means 1 to calculate the certainty factor. If the table matching means 4 determines that the table is the same as the table format, the field position search means 5 calculates the field area position on the image based on the table matching result and the read field position information described in the table format. You. Finally, the result output unit 6 outputs the certainty factor calculated by the table matching unit 4 and the field area position on the image obtained by the field position search unit 5.

【0052】次に、表読取り処理の手順の詳細について
図1、図3及び図9〜図14を使用し説明する。図9は
文字が記入された表領域から抽出された縦横罫線を示
す。図10は罫線対応付け手段4aで行われる処理の流
れを示すフローチャートである。図11は分割罫線率の
算出例を示す。図12は分割罫線率が同じとなる例を示
す。図13は切れた罫線の補間例を示す。図14はフィ
ールド領域抽出例を示す。
Next, the details of the procedure of the table reading process will be described with reference to FIGS. 1, 3 and 9 to 14. FIG. 9 shows vertical and horizontal ruled lines extracted from a table area in which characters are written. FIG. 10 is a flowchart showing the flow of processing performed by the ruled line association means 4a. FIG. 11 shows a calculation example of the division ruled line ratio. FIG. 12 shows an example in which the division rule rates are the same. FIG. 13 shows an example of interpolation of a broken ruled line. FIG. 14 shows an example of field region extraction.

【0053】最初に、罫線抽出手段1において文字が記
入された表を含む帳票が画像として読込まれ、表領域が
抽出された後、表領域内の縦横方向罫線が抽出される。
罫線抽出手段1での処理は先に述べた表フォーマット作
成処理の場合と同じであり、結果として図9に示す縦横
方向罫線が表領域内で抽出される。
First, the ruled line extracting means 1 reads a form including a table in which characters are entered as an image, extracts a table region, and then extracts vertical and horizontal ruled lines in the table region.
The processing by the ruled line extracting means 1 is the same as that of the table format creation processing described above. As a result, the vertical and horizontal ruled lines shown in FIG. 9 are extracted in the table area.

【0054】前記罫線抽出手段1において処理が終了す
ると表照合手段4での処理が実行される。表照合手段4
は図1に示す罫線対応付け手段4a及び確信度算出手段
4bで構成される。以降には、罫線抽出手段1で抽出さ
れた図9に示す罫線群と図3に示す表から作成された表
フォーマットとが照合される場合を想定し、各処理の内
容を順に説明する。
When the processing in the ruled line extracting means 1 is completed, the processing in the table collating means 4 is executed. Table collation means 4
Is composed of ruled line association means 4a and certainty degree calculation means 4b shown in FIG. Hereinafter, assuming a case where the ruled line group shown in FIG. 9 extracted by the ruled line extracting means 1 and a table format created from the table shown in FIG.

【0055】罫線対応付け手段4aにおいては罫線抽出
手段1で画像から抽出された罫線(以下、表イメージ罫
線という。)及び表フォーマットに記述された罫線(以
下、表フォーマット罫線という。)が対応付けられる。
この対応付けは段階的に行われ、1回の対応付けで同一
の罫線構造情報を持つ表フォーマット罫線群と表イメー
ジ罫線から選出された罫線候補群とが対応付けられる。
In the ruled line association means 4a, the ruled lines (hereinafter referred to as table image ruled lines) extracted from the image by the ruled line extraction means 1 and the ruled lines described in the table format (hereinafter referred to as table format ruled lines) are associated with each other. Can be
This association is performed step by step, and in a single association, a table format ruled line group having the same ruled line structure information is associated with a ruled line candidate group selected from table image ruled lines.

【0056】この罫線対応付け手段4aで行われる処理
の詳細について図10に示すフローチャートを使用し説
明する。まず、初期化手段13において対応段階m=0
が設定される。次に、表フォーマット読込み手段15に
おいて同一の罫線構造情報を持つ表フォーマット罫線で
構成された罫線組が作成される。罫線組は、対応段階m
と同じ段階iを持つ表フォーマット罫線が表フォーマッ
トから読込まれ、この読込まれた罫線が親罫線別に分類
されることで作成される。例えば対応段階m=1の場合
には図8に示す段階i=1を持つ表フォーマット罫線v
1、v2、v7、h3、h4、h5の情報が読込まれ、
親罫線(v0、v11)、(h0、h1)及び(h1、
h6)を持つ3つの罫線組が作成できる。
The processing performed by the ruled line association means 4a will be described in detail with reference to the flowchart shown in FIG. First, the corresponding stage m = 0 in the initialization means 13.
Is set. Next, the table format reading means 15 creates a ruled line set composed of table format ruled lines having the same ruled line structure information. The ruled line set is the corresponding stage m
The table format ruled line having the same stage i is read from the table format, and the read ruled line is created by being classified according to the parent ruled line. For example, when the corresponding stage m = 1, the table format ruled line v having the stage i = 1 shown in FIG.
The information of 1, v2, v7, h3, h4, h5 is read,
Parent rule lines (v0, v11), (h0, h1) and (h1,
h6) can be created.

【0057】次に、罫線候補算出手段16において各罫
線組に属する表フォーマット罫線と対応付ける罫線候補
が表イメージ罫線群から選出される。各罫線組を構成す
る親罫線はm−1以前の対応段階で既に表イメージ罫線
と対応付いていることが図6に示す罫線構造情報算出フ
ローから明らかである。従って、例えば親罫線(h1、
h6)を持つ罫線組に対応付けるための罫線候補は親罫
線(h1、h6)に対応する図9の親罫線に対応付けた
表イメージ罫線46、47を含む罫線候補探索領域48
内に一部が掛る表イメージ罫線を罫線候補として求めら
れる。これにより搾り込まれた罫線候補iv0〜iv1
3及び罫線候補数CNが得られる。
Next, ruled line candidate calculating means 16 selects ruled line candidates to be associated with table format ruled lines belonging to each ruled line set from the table image ruled line group. It is clear from the ruled line structure information calculation flow shown in FIG. 6 that the parent ruled lines constituting each ruled line set are already associated with the table image ruled lines at the corresponding stage before m-1. Therefore, for example, the parent ruled line (h1,
The ruled line candidate for associating with the ruled line group having h6) is a ruled line candidate search area 48 including table image ruled lines 46 and 47 corresponding to the parent ruled lines in FIG. 9 corresponding to the parental ruled lines (h1 and h6).
Table image ruled lines that are partially inside are obtained as ruled line candidates. The squeezed ruled line candidates iv0 to iv1
3 and the number CN of ruled line candidates are obtained.

【0058】前記罫線候補の算出処理が終了すると分割
罫線算出手段17での処理が実行される。分割罫線算出
手段17においては罫線候補算出手段16で得られた各
罫線候補毎に分割罫線率が算出される。分割罫線率とは
任意の罫線候補が親罫線に対応する表イメージ罫線に両
端を接する罫線である確率を表す。ここで、罫線候補j
(j=1〜CN)の分割罫線確率Cpjは例えば0〜1に
正規化された値に設定され、分割罫線である確率が高い
ものは1に近い値、低いものは0に近い値をとる。この
場合、親罫線(h1、h6)に対する罫線候補iv0〜
iv13の分割罫線確率は図11に示す値をとる。分割
罫線率は罫線の長さ及び交点特徴に基づき算出され、式
(1)に示すように罫線候補の両端が親罫線に接触する
場合にはCp =1になる。
When the calculation process of the ruled line candidates is completed, the process by the divided ruled line calculating means 17 is executed. The divided ruled line calculating means 17 calculates a divided ruled line rate for each ruled line candidate obtained by the ruled line candidate calculating means 16. The division ruled line ratio indicates the probability that an arbitrary ruled line candidate is a ruled line having both ends in contact with the table image ruled line corresponding to the parent ruled line. Here, ruled line candidate j
The divided ruled line probability Cpj of (j = 1 to CN) is set to a value normalized to, for example, 0 to 1. A divided ruled line having a high probability is a value close to 1 and a low divided ruled line has a value close to 0. . In this case, ruled line candidates iv0 to iv0 for the parent ruled lines (h1, h6)
The divided ruled line probability of iv13 takes a value shown in FIG. The divided ruled line rate is calculated based on the ruled line length and the intersection feature. When both ends of the ruled line candidate contact the parent ruled line as shown in Expression (1), Cp = 1.

【0059】逆に罫線候補の両端が親罫線に接触せずに
長さが短い場合や罫線の両端が親罫線に接触するものの
親罫線をはみ出す場合には式(2)に示すようにCp は
0に近い値になる。表フォーマット罫線の両端は常に親
罫線に接触するため、Cp の値が1に近い程、表フォー
マット罫線と罫線候補との間の類似性が高いことを表
す。ここで、Cp を算出する際に用いる罫線の長さには
帳票画像サイズを基準とした絶対的長さではなく、平行
な親罫線同士の間隔を基準長とした相対的長さが使用さ
れる。親罫線同士の間隔は対応付けにより定まる値であ
る。従って、罫線間隔が変化したような歪んだ表、拡大
された表、縮小された表であっても表フォーマットと構
造的に等しい罫線はCp =1になる。
Conversely, when both ends of a ruled line candidate are short without contacting the parent ruled line, or when both ends of the ruled line contact the parent ruled line but extend beyond the parent ruled line, Cp is calculated as shown in equation (2). It becomes a value close to 0. Since both ends of the table format ruled line always contact the parent ruled line, the closer the value of Cp is to 1, the higher the similarity between the table format ruled line and the ruled line candidate. Here, the length of the ruled line used in calculating Cp is not an absolute length based on the form image size but a relative length based on the interval between parallel parent ruled lines. . The interval between the parent ruled lines is a value determined by association. Therefore, even if the table is distorted, the table is enlarged, or the table is reduced as the ruled line interval is changed, the ruled line which is structurally equal to the table format has Cp = 1.

【0060】もし罫線候補の両端が親罫線に接触し、は
み出さない場合: Cp =1 … (1) その他の場合: 0≦Cp <1 … (2) 前記分割罫線が算出された後には罫線照合手段18での
処理が実行される。罫線照合手段18においては表フォ
ーマット罫線群と罫線候補群とが照合され表フォーマッ
ト罫線と罫線候補とが対応付けられる。照合にはDPマ
ッチング、ボルツマンマシン等の一般的最適化手法が使
用できるが、本実施例はDPマッチングを用いた例を示
す。DPマッチングを用いた場合にはある罫線組を構成
する表フォーマット罫線群と罫線候補とが対応付けら
れ、経路のエネルギが最小になる対応関係が照合結果と
される。ここで、最小となる経路のエネルギEmは表フ
ォーマット罫線群F、罫線候補群Iとした場合に式
(3)で求められる。式(3)においてFNは表フォー
マット罫線本数、CNは罫線候補本数である。またFは
罫線組を構成する表フォーマット罫線群に加え親罫線で
指定された罫線候補探索領域を通り対応段階m−1以前
に対応済みの表フォーマット罫線を含む。例えば対応段
階m=1で親罫線(h1、h6)の場合には図7(B)
に示すように罫線組を構成する表フォーマット罫線群は
v2、v7であり、罫線候補探索領域を通り対応段階m
−1以前に対応済みの表フォーマット罫線はv0、v1
1である。従って、F=(v0、v2、v7、v11)
になる。
If both ends of the ruled line candidate touch the parent ruled line and do not protrude: Cp = 1 (1) Other cases: 0 ≦ Cp <1 (2) After the divided ruled line is calculated, the ruled line The processing in the matching means 18 is executed. The ruled line matching means 18 compares the table format ruled line group with the ruled line candidate group, and associates the table format ruled line with the ruled line candidate. A general optimization method such as a DP matching and a Boltzmann machine can be used for the matching, but this embodiment shows an example using the DP matching. In the case of using DP matching, a table format ruled line group constituting a certain ruled line set is associated with a ruled line candidate, and a correspondence that minimizes the energy of a path is determined as a matching result. Here, the energy Em of the minimum route is obtained by Expression (3) when the table format ruled line group F and the ruled line candidate group I are set. In equation (3), FN is the number of ruled lines in the table format, and CN is the number of ruled line candidates. Further, F includes a table format ruled line which has passed through the ruled line candidate search area designated by the parent ruled line and which has been corresponded before the corresponding stage m-1 in addition to the table format ruled line group constituting the ruled line set. For example, in the case of the corresponding rule m = 1 and the parent rule line (h1, h6), FIG.
The table format ruled line groups forming the ruled line set are v2 and v7 as shown in FIG.
Table format ruled lines corresponding to -1 or earlier are v0, v1
It is one. Therefore, F = (v0, v2, v7, v11)
become.

【0061】 Em=h(FN, CN) … (3) h( n, j) =min[h( n, j−1) +Pe 1, h( n−i, j) +P e 2, h( n−1, j−1) +d( n, j) ] … (4) もしjが既にm−1以前の対応段階でnと対応付いた罫
線である場合: d(n, j)=0 … (5) その他の場合: d2 (n, j)=α1・( Cpn −Cpj )+α2・f( Pn −Pj ) +α3・δ( Ltn −Ltj ) … (6) ここで、h(n,j)は表フォーマット罫線nと表イメ
ージ罫線jが対応付く場合のエネルギ値を示す。Pe
1、Pe 2はペナルティ値(定数)である。表フォーマ
ット罫線と表イメージ罫線との多対1対応を避けるため
にPe 2は大きな値をとる。d(n,j)は罫線nと罫
線jとの相違度であり、罫線同士が類似する場合にはd
(n,j)は0に近い値を、類似しない場合には大きな
値に設定される。Cp は分割罫線率、Pは表サイズで正
規化した罫線位置である。Lt は線種であり、例えば実
線でLt =0、点線でLt =1等線種により異なる値が
設定される。α1、α2、α3は定数である。表イメー
ジ罫線は常にその親罫線に両端を接するので、Cpn(n
=0〜FN)は1に設定される。従って、式(6)にお
いて右辺第1項は分割罫線としての相違性を示し、第2
項は位置ずれ量を示し、第3項は線種の相違性を示す。
またδ(x)はクロネッカのデルタであり、x=0でδ
(x)=0となり、それ以外の場合にはδ(x)=1に
なる。
Em = h (FN, CN) (3) h (n, j) = min [h (n, j−1) + Pe1, h (ni, j) + Pe2, h (n) −1, j−1) + d (n, j)] (4) If j is a ruled line already associated with n in the corresponding stage before m−1: d (n, j) = 0 ( 5) otherwise: d 2 (n, j) = α1 · (Cp n -Cp j) + α2 · f (P n -P j) + α3 · δ (Lt n -Lt j) ... (6) where, h (n, j) indicates the energy value when the table format ruled line n and the table image ruled line j are associated with each other. Pe
1, Pe 2 is a penalty value (constant). Pe2 takes a large value to avoid many-to-one correspondence between table format ruled lines and table image ruled lines. d (n, j) is the degree of difference between ruled line n and ruled line j.
(N, j) is set to a value close to 0, and to a large value if they are not similar. Cp is the division rule rate, and P is the rule position normalized by the table size. Lt is a line type. For example, different values are set depending on the type of isoline, Lt = 0 for a solid line, and Lt = 1 for a dotted line. α1, α2, α3 are constants. Since both ends of the table image rule are always in contact with its parent rule, Cpn (n
= 0 to FN) is set to 1. Therefore, in the equation (6), the first term on the right side indicates the difference as a divided ruled line,
The term indicates the amount of displacement, and the third term indicates the difference in line type.
Δ (x) is Kronecker's delta, and when x = 0, δ
(X) = 0, otherwise δ (x) = 1.

【0062】前記式(6)において右辺第2項が評価に
加えられることで拡大された表、縮小された表又は歪ん
だ表に対して位置ずれの影響から照合精度が低下する。
しかし、第2項は手書き文字等の外乱により生じた罫線
と表罫線が同一の分割罫線率を持つ場合にそれらを区別
するために必要である。例えば図12に示すように両端
が親罫線と接触する数字“1”を表に記入した場合にお
いては、表罫線も数字も分割罫線率Cp =1になり、第
2項無しでは表罫線と数字との区別ができない。そこ
で、第2項の罫線位置Pにおいては表の幅、高さで正規
化された値が使用される。これにより罫線位置Pは表の
拡大や縮小に影響を受けず、拡大された表、縮小された
表も正しく照合ができる。また相違度d(n,j)を算
出する際、jが既にm−1以前の対応段階でnと対応付
いた罫線である場合にはd(n,j)=0に設定され
る。これは対応段階m−1以前に対応付いた罫線同士を
対応段階mで強制的に対応付けることを意味し、過去の
照合結果を指標として現対応段階での照合を補正する働
きがある。従って、罫線の位置ずれが吸収され、歪んだ
表も精度良く照合ができる。ここで関数f(x)は位置
ずれが少ない場合に小さな値を示し、例えば式(7)で
表すことができる。
In the equation (6), the second term on the right-hand side is added to the evaluation, so that the matching accuracy of the enlarged, reduced, or distorted table is reduced due to the influence of positional displacement.
However, the second term is necessary for distinguishing between ruled lines generated by disturbance such as handwritten characters and table ruled lines when they have the same divided ruled line rate. For example, as shown in FIG. 12, when a numeral "1" at both ends of which is in contact with the parent rule line is entered in the table, both the table rule line and the number become the divided rule ratio Cp = 1, and without the second term, the table rule line and the numeral Can not be distinguished. Therefore, at the ruled line position P of the second term, values normalized by the width and height of the table are used. Accordingly, the ruled line position P is not affected by the enlargement or reduction of the table, and the enlarged table and the reduced table can be correctly collated. When calculating the degree of difference d (n, j), if j is a ruled line associated with n at the corresponding stage before m−1, d (n, j) = 0 is set. This means that the ruled lines associated before the corresponding stage m-1 are forcibly associated with each other at the corresponding stage m, and has a function of correcting the matching at the current corresponding stage using the past matching result as an index. Therefore, the displacement of the ruled line is absorbed, and the distorted table can be compared with high accuracy. Here, the function f (x) shows a small value when the displacement is small, and can be represented by, for example, Expression (7).

【0063】もし |x| <閾値: f(x)= |x| … (7) その他の場合: f(x)=1 … (8) しかし、一般に手書きで描かれた表や解像度の低い画像
入力装置で読取った表においては切れ、かすれが生じ易
い。この場合には本来1本の表イメージ罫線が複数本に
分割された認識が行われ、上記の罫線対応付け手段では
対応付けが困難になる。罫線に切れが生じた場合に一般
に画像処理的手法が使用され、単純に補間することが考
えられる。しかし、これは誤った補間を行う可能性があ
り、照合精度が低下する要因になる。
If | x | <threshold value: f (x) = | x | (7) In other cases: f (x) = 1 (8) However, in general, tables and low-resolution images drawn by hand are generally used. The table read by the input device tends to be cut or blurred. In this case, recognition in which one table image ruled line is originally divided into a plurality of lines is performed, and it becomes difficult for the above described ruled line associating means to associate. When a ruled line is cut, an image processing method is generally used, and simple interpolation can be considered. However, there is a possibility that erroneous interpolation is performed, which causes a reduction in matching accuracy.

【0064】そこで、画像処理的手法によらない切れの
補間処理が罫線対応付け手段の前処理として付加され
る。この付加される前処理は以下の手順で行われる。ま
ず、罫線候補算出手段16において図13(A)に示す
11本の罫線候補が得られたと仮定する。図13(A)
において符号50、51は親罫線に対応する表イメージ
罫線を示す。ch1〜ch11は罫線候補を示す。ここ
で、罫線候補群chの罫線候補ch1〜ch11中で同
一罫線を構成すると考えられる罫線候補を用い仮想罫線
p1が設定される。具体的には仮想罫線p11=(ch
3,ch4)及びp12=(ch7,ch8,ch9,
ch10)が設定される。
Therefore, an interpolating process which does not depend on an image processing method is added as a pre-process of the ruled line associating means. This added preprocessing is performed in the following procedure. First, it is assumed that the ruled line candidate calculating means 16 has obtained 11 ruled line candidates shown in FIG. FIG. 13 (A)
, Reference numerals 50 and 51 indicate table image rule lines corresponding to the parent rule lines. ch1 to ch11 indicate ruled line candidates. Here, the virtual ruled line p1 is set using ruled line candidates considered to form the same ruled line among the ruled line candidates ch1 to ch11 of the ruled line candidate group ch. Specifically, the virtual ruled line p11 = (ch
3, ch4) and p12 = (ch7, ch8, ch9,
ch10) is set.

【0065】次に、各仮想罫線p1i毎に式(9)によ
り相違度d2(p1i)が算出される。式(9)におい
て右辺第1項は式(6)の右辺第1項と等価である。た
だし、第2項PL(p1i)は新たに付加されたもの
で、このPL(p1i)は分裂した罫線から仮想罫線p
1iを作成することに対する損失を表す。これは仮想罫
線を構成する罫線間の間隙が大きい場合や罫線間の交点
特徴が連続性を損う場合に大きな値をとる。例えば図1
3(B)に示すように親罫線50a、51aに対する仮
想罫線53は52より連続性が低いとみなされ、PLは
大きな値をとる。
Next, the degree of difference d2 (p1i) is calculated for each virtual ruled line p1i by equation (9). In the equation (9), the first term on the right side is equivalent to the first term on the right side of the equation (6). However, the second term PL (p1i) is newly added, and this PL (p1i) is obtained by dividing the divided ruled line from the virtual ruled line p.
1i represents the loss to creating. This takes a large value when the gap between the ruled lines constituting the virtual ruled line is large or when the intersection feature between the ruled lines impairs continuity. For example, FIG.
As shown in FIG. 3B, the virtual ruled line 53 with respect to the parent ruled lines 50a and 51a is regarded as having lower continuity than 52, and PL takes a large value.

【0066】次に、相違度d2(p1i)が最小となる
罫線候補の組合わせが最適化手法で算出される。例え
ば、最適化の結果p11を構成するch4やp12を構
成するch10は取り除かれ、仮想罫線を構成する罫線
の組合せはp11=(ch3)及びp12=(ch7,
ch8,ch9)に設定される。最後に作成された仮想
罫線が使用され、新たな罫線候補群I=(ch1,ch
2,p11,ch5,ch6,p12,ch11)とし
て対応付けが行われる。ただし、対応付けを行う場合に
は仮想罫線と表フォーマット罫線との類似度算出時に式
(6)に右辺第4項として損失PLが付加される。上記
処理により罫線に切れやかすれが存在する場合でも表フ
ォーマットに基づいた最適な補間結果が作成され、精度
よく罫線の対応付けが行われる。
Next, a combination of ruled line candidates that minimizes the difference d2 (p1i) is calculated by an optimization method. For example, ch4 forming p11 and ch10 forming p12 as a result of the optimization are removed, and the combination of the ruled lines forming the virtual ruled line is p11 = (ch3) and p12 = (ch7,
ch8, ch9). The virtual ruled line created last is used, and a new ruled line candidate group I = (ch1, ch
2, p11, ch5, ch6, p12, ch11). However, when the association is performed, the loss PL is added as the fourth term on the right side to equation (6) when calculating the similarity between the virtual ruled line and the table format ruled line. By the above processing, even when the ruled lines are cut or blurred, the optimal interpolation result based on the table format is created, and the ruled lines are accurately associated.

【0067】 d2 (p1)=α1・(Cp −Cppl)+PL(p1) … (9 ) 前述の罫線照合手段18により対応段階mでの表フォー
マット罫線と表イメージ罫線との対応付けが終了すると
対応段階インクリメント手段19において対応段階mに
1を加え、再度上記処理14から19(図10参照)を
繰り返す。終了判定手段14においては対応段階mが表
フォーマットに記述された最大段階imaxよりも大き
いか、罫線候補算出手段16での罫線候補数CN=0の
場合に罫線対応付け手段4が終了する。
[0067] d2 2 (p1) = α1 · (Cp n -Cp pl) + PL (p1) ... (9) correspondence between tabular format borders and table image borders in the corresponding stage m the border checking means 18 of the aforementioned When the processing is completed, the corresponding step increment means 19 adds 1 to the corresponding step m, and repeats the above processings 14 to 19 (see FIG. 10) again. In end determining unit 14 corresponding stage m is greater than the maximum step imax described in Table format, borders correlating means 4 a is terminated when the ruled line candidate number CN = 0 in ruled line candidate calculation unit 16.

【0068】前記罫線対応付け手段4が終了すると、
確信度算出手段4において表の確信度Cfが算出され
る。確信度Cfは帳票上の表が表フォーマットと同一表
である確率を表す指標であり、式(10)で表される。
[0068] When the ruled line correspondence unit 4 a is completed,
Table confidence Cf is calculated in confidence factor calculating means 4 b. The certainty factor Cf is an index indicating the probability that the table on the form is the same as the table format, and is expressed by equation (10).

【0069】 Cf=Cm+Cu … (10) ここで、g1は表フォーマット罫線と対応付けた表イメ
ージ罫線本数である。L1は表フォーマット罫線と対応
付けた表イメージ罫線である。Z(L1n )は表イメー
ジ罫線L1n と対応する表フォーマット罫線番号であ
る。d(x,y)は式(6)と同じ関数である。これに
よりCmは対応付けた表イメージ罫線と表フォーマット
罫線との相違性を表す。逆にg2は表フォーマット罫線
と対応付かない表イメージ罫線本数を表わす。L2は表
フォーマット罫線と対応付かない表イメージ罫線であ
る。Cp ´L2は全対応段階m=0〜imax中で算出
された表イメージ罫線L2の最大分割罫線率である。こ
のため、表フォーマット罫線と対応付かない罫線の両端
が他の2罫線と接触する場合(表構造を歪める場合)に
Cp ´L2は大きな値をとる。Cuは表フォーマット罫
線と対応付かない表イメージ罫線による表フォーマット
とのずれを示す。各Cm、Cuは表フォーマットと画像
上の表が類似する場合に小さな値をとる。ゆえに確信度
Cfが0に近い場合には入力された表が表フォーマット
で記述された表と同一のものであると判断される。ここ
で、相違度を算出するための罫線情報は罫線の属性を示
す罫線属性情報に加えて表構造を表す罫線構造情報を含
む。罫線構造情報によりこれら罫線同士の相違度は表の
構造的な相違性を反映したものとなる。
Cf = Cm + Cu (10) Here, g1 is the number of table image ruled lines associated with the table format ruled line. L1 is a table image ruled line associated with a table format ruled line. Z (L1 n) is a table format borders numbers corresponding with Table image borders L1 n. d (x, y) is the same function as equation (6). Thus, Cm indicates the difference between the associated table image ruled line and the table format ruled line. Conversely, g2 represents the number of table image ruled lines that are not associated with table format ruled lines. L2 is a table image ruled line that is not associated with a table format ruled line. Cp 'L2 is the maximum dividing ruled line rate of the table image ruled line L2 calculated in all the corresponding stages m = 0 to imax. Therefore, when both ends of the ruled line that does not correspond to the table format ruled line contact the other two ruled lines (when the table structure is distorted), Cp 'L2 takes a large value. Cu indicates a shift from the table format ruled line to the table format due to the uncorrelated table image ruled line. Each of Cm and Cu takes a small value when the table format and the table on the image are similar. Therefore, when the confidence Cf is close to 0, it is determined that the input table is the same as the table described in the table format. Here, the ruled line information for calculating the degree of difference includes ruled line structure information indicating a table structure in addition to ruled line attribute information indicating the attribute of the ruled line. According to the ruled line structure information, the degree of difference between these ruled lines reflects the structural difference of the table.

【0070】このような罫線情報を用いて罫線同士の照
合が行われ、罫線同士の類似性を用いて確信度が算出さ
れると、手書き文字等の外乱が存在する場合、表が歪ん
だ場合、拡大、縮小された場合、傾いた場合、さらに罫
線属性情報が類似する場合でも精度良く表照合が行え
る。
When the matching between the ruled lines is performed using such ruled line information, and the degree of certainty is calculated using the similarity between the ruled lines, when a disturbance such as a handwritten character is present or the table is distorted. The table can be compared with high accuracy even when the information is enlarged, reduced, inclined, or even when the ruled line attribute information is similar.

【0071】前記確信度が算出されると、表照合処理4
が終了する。ここで、確信度Cfがある値より大きい場
合には表フォーマットと一致しないとして表読取り処理
が終了する。逆に確信度Cfが小さい場合には次段のフ
ィールド位置探索手段5での処理が実行される。
When the certainty factor is calculated, the table matching process 4
Ends. Here, when the certainty factor Cf is larger than a certain value, the table reading process ends because it does not match the table format. Conversely, when the certainty factor Cf is small, the processing in the next stage field position searching means 5 is executed.

【0072】前記フィールド位置探索手段5においては
表フォーマットに記載された読取りフィールド位置情報
及び表照合手段4の結果に基づいて画像上でのフィール
ド領域位置が探索される。読取りフィールド位置情報に
は図8に示すように探索するフィールドを構成する複数
本の表フォーマット罫線番号が記述される。ここで、図
8に示すフィールド20の画像上位置を探索する場合を
考える。この場合、まずフィールド20を構成する表フ
ォーマット罫線h1、h3、v0及びv2が表フォーマ
ットから読込まれる。次に、これらの表フォーマット罫
線と対応する表イメージ罫線が求められる。これは表照
合手段4による表フォーマット罫線及び表イメージ罫線
の対応付け結果から明らかである。例えば図14に示す
ように表フォーマット罫線h1、h3、v0及びv2に
対応する表イメージ罫線60、61、62、63が得ら
れる。次に、表イメージ罫線60、61、62、63で
構成される交点位置から画像上のフィールド領域位置が
求められる。交点位置は罫線属性情報算出手段1cで算
出された罫線属性情報から既知である。
The field position search means 5 searches the field area position on the image based on the read field position information described in the table format and the result of the table collation means 4. As shown in FIG. 8, the read field position information describes a plurality of table format ruled line numbers constituting a field to be searched. Here, a case where the position on the image of the field 20 shown in FIG. 8 is searched will be considered. In this case, the table format ruled lines h1, h3, v0, and v2 constituting the field 20 are read from the table format. Next, table image rule lines corresponding to these table format rule lines are obtained. This is apparent from the result of the association between the table format ruled line and the table image ruled line by the table matching means 4. For example, as shown in FIG. 14, table image ruled lines 60, 61, 62 and 63 corresponding to table format ruled lines h1, h3, v0 and v2 are obtained. Next, the position of the field area on the image is determined from the position of the intersection formed by the table image ruled lines 60, 61, 62 and 63. The position of the intersection is known from the ruled line attribute information calculated by the ruled line attribute information calculating means 1c.

【0073】以上の処理により、フィールド20に対応
する画像上のフィールド領域64が求められる。これは
罫線同士の対応結果に基づいたフィールド位置探索法で
あるため、歪んだ表、傾いた表、拡大、縮小された表で
も表照合結果に基づいて正確なフィールド領域位置が算
出できる。またフィールドを構成する表フォーマット罫
線を増やすことで複雑な形状のフィールドが定義でき
る。
By the above processing, the field area 64 on the image corresponding to the field 20 is obtained. Since this is a field position search method based on the result of correspondence between ruled lines, an accurate field region position can be calculated based on the table comparison result even for a distorted table, a tilted table, an enlarged or reduced table. Also, a field having a complicated shape can be defined by increasing the number of table format ruled lines constituting the field.

【0074】前記フィールド位置が算出されるとフィー
ルド位置探索手段5が終了し、最後に結果出力手段6で
の処理が実行される。結果出力手段6においては表照合
手段4で算出された確信度、フィールド位置探索手段5
で求めた画像上のフィールド位置等が結果として出力さ
れる。
When the field position is calculated, the field position searching means 5 ends, and finally, the processing by the result output means 6 is executed. In the result output means 6, the confidence calculated by the table matching means 4, the field position search means 5
Is output as a result.

【0075】前記結果出力手段6での処理が終了する
と、表読取り処理が終了する。
When the processing in the result output means 6 ends, the table reading processing ends.

【0076】なお、本発明は、前記実施例に限定される
ものではなく、その要旨を逸脱しない範囲において、種
々変更できる。
The present invention is not limited to the above-described embodiment, but can be variously modified without departing from the gist thereof.

【0077】[0077]

【発明の効果】以上説明したように、本発明によれば、
罫線属性情報が類似した表、手書き文字等外乱を含む
表、罫線の切れた表、歪んだり傾いた表、拡大、縮小さ
れた表に対しても高精度の表照合が行え、正確なフィー
ルド領域位置が得られる帳票処理装置が実現できる。
As described above, according to the present invention,
High-precision table matching can be performed even for tables with similar rule attribute information, tables containing disturbances such as handwritten characters, broken tables, distorted or inclined tables, and enlarged / reduced tables. A form processing device that can obtain a position can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る帳票処理装置の構成図である。FIG. 1 is a configuration diagram of a form processing apparatus according to the present invention.

【図2】 表を含む帳票画像を示した図である。FIG. 2 is a diagram showing a form image including a table.

【図3】 表領域内で抽出される縦横方向罫線を示す図
である。
FIG. 3 is a view showing vertical and horizontal ruled lines extracted in a table area.

【図4】 (A)〜(I)は罫線同士の交点特徴を示す
図である。
FIGS. 4A to 4I are views showing intersection features between ruled lines; FIGS.

【図5】 表を構成する矩形表を示す図である。FIG. 5 is a diagram showing a rectangular table constituting the table.

【図6】 罫線構造情報算出手段の処理フローチャート
を示す図である。
FIG. 6 is a diagram showing a processing flowchart of a ruled line structure information calculating means.

【図7】 (A)〜(D)は罫線構造情報算出手段の処
理例を示す図である。
FIGS. 7A to 7D are diagrams illustrating processing examples of a ruled line structure information calculating unit;

【図8】 表フォーマット例を示す図である。FIG. 8 is a diagram showing an example of a table format.

【図9】 文字を記入した表から抽出された罫線を示す
図である。
FIG. 9 is a diagram showing ruled lines extracted from a table in which characters are written.

【図10】 罫線対応付け処理のフローチャートを示す
図である。
FIG. 10 is a diagram showing a flowchart of a ruled line association process.

【図11】 罫線候補の分割罫線率算出例を示す図であ
る。
FIG. 11 is a diagram illustrating an example of calculating a ruled line ratio of a ruled line candidate.

【図12】 分割罫線率が同じになることを示す図であ
る。
FIG. 12 is a diagram showing that divided ruled line rates are the same.

【図13】 (A)及び(B)は罫線の切れ、かすれの
補間例を示す図である。
13A and 13B are diagrams showing examples of interpolation of broken or blurred ruled lines.

【図14】 フィールド領域抽出例を示す図である。FIG. 14 is a diagram illustrating an example of extracting a field region.

【図15】 従来例の帳票処理装置の構成を示す図であ
る。
FIG. 15 is a diagram illustrating a configuration of a conventional form processing apparatus.

【図16】 表を含む帳票画像を示した図である。FIG. 16 is a diagram showing a form image including a table.

【図17】 表領域内で抽出される水平方向罫線であ
る。
FIG. 17 shows horizontal ruled lines extracted in a table area.

【図18】 (A)〜(F)は表照合困難となる例を示
す図である。
FIGS. 18A to 18F are diagrams showing examples in which table matching becomes difficult.

【符号の説明】[Explanation of symbols]

1 罫線抽出手段、1a 画像入力手段、1b 表領域
抽出手段、1c 罫線属性情報算出手段、2 表構造解
析手段、2a 表外接罫線検出手段、2b 罫線構造情
報算出手段、2c 表フォーマット作成手段、3 表フ
ォーマットデータベース、4 表照合手段、4a 罫線
対応付け手段、4b 確信度算出手段、5 フィールド
位置探索手段、6 結果出力手段、7、13 初期化手
段、8 外接罫線登録手段、9 分割罫線検出手段、1
0 判定手段、11 罫線情報読取り手段、12 罫線
登録手段、14 終了判定手段、15 表フォーマット
読込み手段、16 罫線候補算出手段、17 分割罫線
算出手段、18 罫線照合手段、19 対応段階インク
リメント手段、20 フィールド、40 表を含む帳票
画像、41 帳票画像中の表領域、46、47 親罫線
に対応付けた表イメージ罫線、48 罫線候補探索領
域、50、50a、51、51a 表イメージ、52、
53 仮想罫線、60〜63フィールドを構成する表イ
メージ罫線、64 フィールド領域。
1 ruled line extracting means, 1a image input means, 1b table area extracting means, 1c ruled line attribute information calculating means, 2 table structure analyzing means, 2a table external tangential ruled line detecting means, 2b ruled line structure information calculating means, 2c table format creating means, 3 Table format database, 4 table matching means, 4a ruled line association means, 4b certainty factor calculating means, 5 field position searching means, 6 result output means, 7, 13 initialization means, 8 circumscribed ruled line registration means, 9 divided ruled line detection means , 1
0 determining means, 11 ruled line information reading means, 12 ruled line registration means, 14 end determining means, 15 table format reading means, 16 ruled line candidate calculating means, 17 divided ruled line calculating means, 18 ruled line collating means, 19 corresponding step increment means, 20 Field, form image including 40 tables, 41 table area in form image, 46, 47 table image ruled line associated with parent ruled line, 48 ruled line candidate search area, 50, 50a, 51, 51a table image, 52,
53 virtual ruled lines, table image ruled lines constituting 60 to 63 fields, 64 field regions.

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−38984(JP,A) 特開 平4−167194(JP,A) 特表 平3−504423(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 ──────────────────────────────────────────────────続 き Continuation of the front page (56) References JP-A-62-38984 (JP, A) JP-A-4-167194 (JP, A) JP-A-3-504423 (JP, A) (58) Survey Field (Int.Cl. 7 , DB name) G06K 9/00-9/82

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 表を含む帳票を画像として読込み、前記
画像中の表領域に含まれる罫線を抽出する罫線抽出手段
と、 前記罫線抽出手段で抽出された罫線から表構造及び文字
読取り領域位置を示す表フォーマットを作成する表構造
解析手段と、 前記表構造解析手段で作成された表フォーマットを格納
する表フォーマットデータベースと、 前記表フォーマットデータベースに格納された表フォー
マットに記載される表構造と帳票上の表領域から前記罫
線抽出手段で抽出した罫線とを照合する表照合手段と、 前記表照合手段で照合された表照合結果及び前記表フォ
ーマットに記載された文字読取り領域位置情報に基づき
画像上での表中の文字読取り領域位置を算出するフィー
ルド位置探索手段と、 前記表照合手段で照合された表照合結果と前記フィール
ド位置探索手段で算出された表中の文字読取り領域位置
とを出力する結果出力手段と、 を有し、 前記表構造解析手段は、 前記罫線抽出手段で抽出された罫線中から矩形表の外形
を構成する罫線である表外接罫線を検出する表外接罫線
検出手段と、 前記表外接罫線を最初の構造段階の親罫線として登録す
る手段と、 現構造段階における互いに対向する前記親罫線に両端が
接する内接罫線を検出する手段と、 各構造段階における前記親罫線と前記内接罫線とに基づ
いた前記各構造段階毎の罫線構造情報を前記表構造とし
て登録する手段と、 前記現構造段階において検出された前記内接罫線を次構
造段階の前記親罫線として設定する手段と、 を有することを特徴とする表を含む帳票処理装置。
1. A form including a table is read as an image, and a ruled line extracting means for extracting a ruled line included in a table area in the image, a table structure and a character reading area position are determined from the ruled line extracted by the ruled line extracting means. Table structure analysis means for creating the table format shown, a table format database for storing the table format created by the table structure analysis means, and a table structure and a form described in the table format stored in the table format database A table matching unit that matches the ruled line extracted by the ruled line extracting unit from the table area; and a table matching result matched by the table matching unit and a character reading area position information described in the table format. A field position searching means for calculating a character reading area position in the table, a table matching result matched by the table matching means, And a result output means for outputting the character reading area position in the table calculated by the field position searching means. The table structure analyzing means comprises: a ruler line extracted from the ruled line extracting means; An external tangent ruled line detecting means for detecting an external tangent ruled line which is a ruled line, a means for registering the external tangent ruled line as a parent ruled line in an initial structure stage, Means for detecting inscribed ruled lines in contact with each other; means for registering, as the table structure, ruled line structure information for each of the structural stages based on the parent ruled line and the inscribed ruled line in each structural stage; Means for setting the detected inscribed ruled line as the parent ruled line in the next structure stage, and a form processing device including a table.
【請求項2】 請求項1に記載される表を含む帳票処理
装置において、 前記表照合手段は、前記罫線抽出手段で抽出された抽出
罫線群と前記表フォーマットに記載される登録罫線群と
を前記表構造の前記構造段階に応じて段階的に対応付け
る手段であって、各対応付け段階においては前記登録罫
線群のうちそれぞれ一つの前記構造段階の前記罫線構造
情報に係る前記内接罫線と前記抽出罫線群とを対応付け
る罫線対応付け手段を有することを特徴とする表を含む
帳票処理装置。
2. A form processing device including a table according to claim 1, wherein said table collating means compares the ruled line group extracted by said ruled line extracting means with a registered ruled line group described in said table format. Means for associating the table structure in a stepwise manner according to the structure step, wherein in each association step, the inscribed ruled line associated with the ruled line structure information of one of the registered ruled line groups in the structure step is A form processing apparatus including a table, comprising a ruled line association unit for associating the extracted ruled line group with the extracted ruled line group.
【請求項3】 請求項2に記載される表を含む帳票処理
装置において、 前記罫線対応付け手段は、現対応付け段階以前に得られ
た前記抽出罫線と前記登録罫線との対応関係を指標とし
て、現対応付け段階での罫線対応付けを行う前記抽出罫
線の候補を選出する罫線候補選出手段を有することを特
徴とする表を含む帳票処理装置。
3. A form processing apparatus including a table according to claim 2, wherein said ruled line associating means uses, as an index, a correspondence between said extracted ruled line obtained before a current associating step and said registered ruled line. A form processing apparatus including a table, further comprising a ruled line candidate selecting means for selecting the candidate for the extracted ruled line to be associated with the ruled line in the current associating step.
JP07679594A 1994-04-15 1994-04-15 Form processing device including tables Expired - Fee Related JP3179280B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07679594A JP3179280B2 (en) 1994-04-15 1994-04-15 Form processing device including tables

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07679594A JP3179280B2 (en) 1994-04-15 1994-04-15 Form processing device including tables

Publications (2)

Publication Number Publication Date
JPH07282193A JPH07282193A (en) 1995-10-27
JP3179280B2 true JP3179280B2 (en) 2001-06-25

Family

ID=13615581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07679594A Expired - Fee Related JP3179280B2 (en) 1994-04-15 1994-04-15 Form processing device including tables

Country Status (1)

Country Link
JP (1) JP3179280B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3580670B2 (en) * 1997-06-10 2004-10-27 富士通株式会社 Method for associating input image with reference image, apparatus therefor, and storage medium storing program for implementing the method
JP4450888B2 (en) 1999-05-28 2010-04-14 富士通株式会社 Form recognition method
JP2003030583A (en) * 2001-07-11 2003-01-31 Oki Electric Ind Co Ltd Method and device for identifying chart classification, and method and device for identifying format classification
JP2008083846A (en) * 2006-09-26 2008-04-10 Oki Electric Ind Co Ltd Target area determination method and device
JP2008152719A (en) * 2006-12-20 2008-07-03 Oki Electric Ind Co Ltd Apparatus for creating business form dictionary
JP6690089B2 (en) 2016-04-25 2020-04-28 富士通株式会社 Form recognition method, form recognition device, and form recognition program

Also Published As

Publication number Publication date
JPH07282193A (en) 1995-10-27

Similar Documents

Publication Publication Date Title
US6470336B1 (en) Document image search device and recording medium having document search program stored thereon
US6137908A (en) Handwriting recognition system simultaneously considering shape and context information
US7142728B2 (en) Method and system for extracting information from a document
US6577763B2 (en) Document image recognition apparatus and computer-readable storage medium storing document image recognition program
KR100412317B1 (en) Character recognizing/correcting system
JP2001283152A (en) Device and method for discrimination of forms and computer readable recording medium stored with program for allowing computer to execute the same method
JP2002324236A (en) Method for discriminating document and method for registering document
JP3179280B2 (en) Form processing device including tables
JP3216800B2 (en) Handwritten character recognition method
JP3917349B2 (en) Retrieval device and method for retrieving information using character recognition result
JP3232991B2 (en) Character reading method and address reading method
US7130487B1 (en) Searching method, searching device, and recorded medium
JP2002063548A (en) Handwritten character recognizing method
JPH08221510A (en) Device and method for processing form document
JP2003030654A (en) Pattern identification device, pattern identification method and program for pattern identification
JP2998054B2 (en) Character recognition method and character recognition device
JP3812719B2 (en) Document search device
JP3897999B2 (en) Handwritten character recognition method
JP3466899B2 (en) Character recognition device and method, and program storage medium
JPH10207981A (en) Document recognition method
JP4221960B2 (en) Form identification device and identification method thereof
JP3374762B2 (en) Character recognition method and apparatus
JPH07319880A (en) Keyword extraction/retrieval device
JP3526821B2 (en) Document search device
JP3487400B2 (en) Character recognition device, character recognition method, and storage medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080413

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090413

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100413

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 13

LAPS Cancellation because of no payment of annual fees