JP2000293596A - Slip recognition device, information processing system, slip recognition method and storage medium - Google Patents

Slip recognition device, information processing system, slip recognition method and storage medium

Info

Publication number
JP2000293596A
JP2000293596A JP11096076A JP9607699A JP2000293596A JP 2000293596 A JP2000293596 A JP 2000293596A JP 11096076 A JP11096076 A JP 11096076A JP 9607699 A JP9607699 A JP 9607699A JP 2000293596 A JP2000293596 A JP 2000293596A
Authority
JP
Japan
Prior art keywords
format data
table format
image
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11096076A
Other languages
Japanese (ja)
Other versions
JP2000293596A5 (en
JP4416204B2 (en
Inventor
Kenichi Kazumi
健一 数見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP09607699A priority Critical patent/JP4416204B2/en
Publication of JP2000293596A publication Critical patent/JP2000293596A/en
Publication of JP2000293596A5 publication Critical patent/JP2000293596A5/en
Application granted granted Critical
Publication of JP4416204B2 publication Critical patent/JP4416204B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To precisely reflect the similarity of cell distributions in the comparison processing of the table format detailed structures that is carried out for recognizing a slip and accordingly to improve the slip recognizing accuracy by using directly the data which are outputted from an image feature value extraction means as the comparison data and performing the comparison of cells through the comparison of number of pieces of line units. SOLUTION: In this slip recognizer, a processor 11 has an image feature value extraction means 11a which extracts the feature value of the image data on slips that is read by a scanner 13, a character recognition means 11b which recognizes the character areas included in the image data and similarity calculation means 11c which calculates the similarity of slips. Then the processor 11 carries out the arithmetic processing in response to various types of programs and also carries out various types of processing necessary for recognizing the slips. In this device, the comparison data mean the cross coordinate value of the table ruled lines and use directly the data which are outputted from the means 11a. As a result, no error is caused for production of the format information. Furthermore, the variance of similarity due to the cell distribution situation can be reduced since the comparison of numbers of pieces of cells is carried out through the comparison of the number of pieces of line units.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票の自動認識を
行う帳票認識装置及び帳票認識方法と、前記帳票認識装
置を備えた情報処理システムと、前記帳票認識方法を実
現するための記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form recognition apparatus and form recognition method for automatically recognizing forms, an information processing system including the form recognition apparatus, and a storage medium for implementing the form recognition method. .

【0002】[0002]

【従来の技術】大量の帳票を処理するに際し、帳票のフ
ォーマットごとの自動分類を可能にする帳票認識装置
は、従来より既に知られている。
2. Description of the Related Art A form recognizing apparatus capable of automatically classifying each form when processing a large number of forms has been known.

【0003】この種の帳票認識装置では、帳票内のテー
ブル書式詳細構造の比較処理において、帳票テーブル内
のセルの位置やセルの個数が比較データとして使用され
てきた。すなわち、セルの位置の一致度の判定には、セ
ルの中心座標を使用する方法や、グリッド分割法と呼ば
れるものが用いられている。
In this type of form recognition apparatus, the position of a cell in a form table and the number of cells have been used as comparison data in comparison processing of the detailed structure of the table format in the form. That is, a method using the center coordinates of a cell or a method called a grid division method is used to determine the degree of coincidence of cell positions.

【0004】セルの中心座標を使用する方法は、画像の
特微量抽出手段で取得したセルの四角の座標値からその
中心座標を計算し、その中心座標を比較してセルの位置
の一致度を判定する。一方、グリッド分割法は、テーブ
ル全体を複数のグリッドで格子状に分割し、これによっ
て作成された各ブロック内に含まれるテーブル罫線の交
差点の個数を比較する。
A method of using the center coordinates of a cell is to calculate the center coordinates from the square coordinate values of the cell obtained by the image extraordinary amount extraction means and compare the center coordinates to determine the degree of coincidence of the cell position. judge. On the other hand, in the grid division method, the entire table is divided into a grid by a plurality of grids, and the number of intersections of table rule lines included in each block created by this is compared.

【0005】また、セルの個数の比較方法としては、単
純にテーブル内の全セル個数を比較する方法が一般的に
知られている。
As a method of comparing the number of cells, a method of simply comparing the total number of cells in a table is generally known.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、上記従
来の帳票認識装置におけるテーブル書式詳細構造の比較
処理では、次のような問題点があった。
However, the comparison processing of the detailed table format structure in the conventional form recognition apparatus has the following problems.

【0007】(1)上述のセルの中心座標を使用する方
法では、画像の特微量抽出手段で取得したセル矩形の座
標値からその中心座標を計算する必要があり、この計算
過程で誤差が発生する。つまり、テーブル書式データそ
のものに誤差が含まれることになる。
(1) In the above-described method using the center coordinates of the cell, it is necessary to calculate the center coordinates from the coordinate values of the cell rectangle obtained by the extra-trace extraction means of the image, and an error occurs in the calculation process. I do. That is, the table format data itself contains an error.

【0008】(2)グリッド分割方法は、画像特微量抽
出手段内でテーブル書式を求める方法であり、画像特微
量抽出手段で取得した特徴点の座標値を使用するものと
比較して、処理が複雑である。
(2) The grid division method is a method for obtaining a table format in the image feature extraction means. The grid division method requires more processing than the method using coordinate values of feature points obtained by the image feature extraction means. It's complicated.

【0009】(3)テーブル全体のセル個数の比較で
は、セル分布が異なっても全個数が同じであれば、類似
したテーブルと判定することになるため、判定精度に問
題がある。
(3) In comparison of the number of cells in the entire table, if the total number of cells is the same even if the cell distribution is different, it is determined that the tables are similar, and thus there is a problem in the determination accuracy.

【0010】本発明は上記従来の問題点に鑑み、帳票認
識におけるテーブル書式詳細構造の比較処理において、
セル分布の類似性をより細かく類似度の計算に反映させ
て、帳票認識精度を向上させた帳票認識装置、情報処理
システム、帳票認識方法、及び記憶媒体を提供すること
を目的とする。
The present invention has been made in view of the above-described conventional problems, and has been described in comparison processing of a detailed table format structure in form recognition.
It is an object of the present invention to provide a form recognition device, an information processing system, a form recognition method, and a storage medium that improve form recognition accuracy by more closely reflecting the similarity of cell distribution in calculation of similarity.

【0011】[0011]

【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明に係る帳票認識装置では、帳票
画像データの特微量を抽出する画像特徴量抽出手段と、
前記画像特徴量抽出手段によって得られるライン情報に
より帳票書式データを生成する帳票書式データ作成手段
と、前記帳票書式データに基づいて帳票認識を行う帳票
認識手段とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided a form recognition apparatus for extracting a very small amount of form image data.
A form format data creating unit for generating form format data based on line information obtained by the image feature amount extracting unit, and a form recognition unit for performing form recognition based on the form format data.

【0012】請求項2記載の発明に係る帳票認識装置で
は、請求項1記載の帳票認識装置において、帳票を画像
データとして読み取る画像入力手段を有し、前記画像特
徴量抽出手段は、前記画像入力手段により読み取られた
帳票画像データの特徴量を抽出する構成にしたことを特
徴とする。
According to a second aspect of the present invention, there is provided the form recognition apparatus according to the first aspect, further comprising an image input unit for reading the form as image data, wherein the image feature amount extracting unit includes the image input unit. The feature amount of the form image data read by the means is extracted.

【0013】請求項3記載の発明に係る帳票認識装置で
は、請求項1または請求項2記載の帳票認識装置におい
て、前記帳票書式データを保存する保存手段を有するこ
とを特徴とする。
According to a third aspect of the present invention, there is provided the form recognition apparatus according to the first or second aspect, further comprising a storage unit for storing the form format data.

【0014】請求項4記載の発明に係る帳票認識装置で
は、請求項1乃至請求項3記載の帳票認識装置におい
て、前記帳票書式データ作成手段は、前記画像特微量抽
出手段で抽出された帳票画像データにおけるテーブル罫
線とセルの交差座標値により登録テーブル書式データを
生成する手段を有し、前記保存手段は、前記登録テーブ
ル書式データを、これを識別するコードと共に保存する
ようにしたことを特徴とする。
According to a fourth aspect of the present invention, in the form recognition apparatus according to any one of the first to third aspects, the form format data creating means includes a form image extracted by the image extra-volume extracting means. Means for generating registration table format data based on intersection coordinate values of table ruled lines and cells in the data, wherein the storage means stores the registration table format data together with a code for identifying the registration table format data. I do.

【0015】請求項5記載の発明に係る帳票認識装置で
は、請求項4記載の帳票認識装置において、前記帳票書
式データ作成手段は、前記画像特微量抽出手段で抽出さ
れた帳票画像データにおけるテーブル罫線とセルの交差
座標値により検索テーブル書式データを生成する手段を
有し、前記帳票認識手段は、前記検索テーブル書式デー
タと前記保存手段に保存された登録テーブル書式データ
とを比較して、前記検索テーブル書式データと前記登録
テーブル書式データの類似度を計算する類似度計算手段
を備えたことを特徴とする。
In the form recognition apparatus according to a fifth aspect of the present invention, in the form recognition apparatus according to the fourth aspect, the form format data creating means includes a table ruled line in the form image data extracted by the image extra amount extracting means. Means for generating search table format data based on the intersection coordinate values of the cells and the cells, wherein the form recognition means compares the search table format data with the registration table format data stored in the storage means, and performs the search. A similarity calculating means for calculating a similarity between the table format data and the registration table format data is provided.

【0016】請求項6記載の発明に係る帳票認識装置で
は、請求項5記載の帳票認識装置において、前記類似度
計算手段で得られた計算結果に基づいて、前記検索テー
ブル書式データに対して類似度の高い登録テーブル書式
データの識別コードと当該類似度を帳票認識結果として
出力する帳票認識結果出力手段を備えたことを特徴とす
る。
In the form recognition apparatus according to a sixth aspect of the present invention, in the form recognition apparatus according to the fifth aspect, a similarity to the search table format data is obtained based on a calculation result obtained by the similarity calculation means. Form recognition result output means for outputting the identification code of the registration table format data having a high degree and the similarity as the form recognition result is provided.

【0017】請求項7記載の発明に係る情報処理システ
ムでは、帳票の自動認識を行う帳票認識装置を有する情
報処理システムにおいて、前記帳票認識装置は、帳票画
像データの特微量を抽出する画像特徴量抽出手段と、前
記画像特徴量抽出手段によって得られるライン情報によ
り帳票書式データを生成する帳票書式データ作成手段
と、前記帳票書式データに基づいて帳票認識を行う帳票
認識手段とを備えたことを特徴とする。
According to a seventh aspect of the present invention, in the information processing system having a form recognition apparatus for automatically recognizing a form, the form recognition apparatus includes an image feature amount for extracting a very small amount of form image data. Extracting means, form form data creating means for generating form format data based on line information obtained by the image feature quantity extracting means, and form recognizing means for performing form recognition based on the form format data. And

【0018】請求項8記載の発明に係る情報処理システ
ムでは、請求項7記載の情報処理システムにおいて、前
記帳票認識装置は、帳票を画像データとして読み取る画
像入力手段を有し、前記画像特徴量抽出手段が、前記画
像入力手段により読み取られた帳票画像データの特徴量
を抽出する構成であることを特徴とする。
According to an eighth aspect of the present invention, in the information processing system according to the seventh aspect, the form recognition device includes image input means for reading the form as image data, and the image feature amount extraction means. The means is configured to extract a feature amount of the form image data read by the image input means.

【0019】請求項9記載の発明に係る情報処理システ
ムでは、請求項7または請求項8記載の情報処理システ
ムにおいて、前記帳票認識装置は、前記帳票書式データ
を保存する保存手段を有することを特徴とする。
According to a ninth aspect of the present invention, in the information processing system according to the seventh or eighth aspect, the form recognition device has a storage unit for storing the form format data. And

【0020】請求項10記載の発明に係る情報処理シス
テムでは、請求項7乃至請求項9記載の情報処理システ
ムにおいて、前記帳票書式データ作成手段は、前記画像
特微量抽出手段で抽出された帳票画像データにおけるテ
ーブル罫線とセルの交差座標値により登録テーブル書式
データを生成する手段を有し、前記保存手段は、前記登
録テーブル書式データを、これを識別するコードと共に
保存するようにしたことを特徴とする。
According to a tenth aspect of the present invention, in the information processing system according to any one of the seventh to ninth aspects, the form format data creating means includes a form image extracted by the image extra-quantity extracting means. Means for generating registration table format data based on intersection coordinate values of table ruled lines and cells in the data, wherein the storage means stores the registration table format data together with a code for identifying the registration table format data. I do.

【0021】請求項11記載の発明に係る情報処理シス
テムでは、請求項10記載の情報処理システムにおい
て、前記帳票書式データ作成手段は、前記画像特微量抽
出手段で抽出された帳票画像データにおけるテーブル罫
線とセルの交差座標値により検索テーブル書式データを
生成する手段を有し、前記帳票認識手段は、前記検索テ
ーブル書式データと前記保存手段に保存された登録テー
ブル書式データとを比較して、前記検索テーブル書式デ
ータと前記登録テーブル書式データの類似度を計算する
類似度計算手段を備えたことを特徴とする。
In the information processing system according to an eleventh aspect of the present invention, in the information processing system according to the tenth aspect, the form format data creating means includes a table ruled line in the form image data extracted by the image extra amount extracting means. Means for generating search table format data based on the intersection coordinate values of the cells and the cells, wherein the form recognition means compares the search table format data with the registration table format data stored in the storage means, and performs the search. A similarity calculating means for calculating a similarity between the table format data and the registration table format data is provided.

【0022】請求項12記載の発明に係る情報処理シス
テムでは、請求項11記載の情報処理システムにおい
て、前記類似度計算手段で得られた計算結果に基づい
て、前記検索テーブル書式データに対して類似度の高い
登録テーブル書式データの識別コードと当該類似度を帳
票認識結果として出力する帳票認識結果出力手段を備え
たことを特徴とする。
In the information processing system according to a twelfth aspect of the present invention, in the information processing system according to the eleventh aspect, similarity to the search table format data is obtained based on a calculation result obtained by the similarity calculating means. Form recognition result output means for outputting the identification code of the registration table format data having a high degree and the similarity as the form recognition result is provided.

【0023】請求項13記載の発明に係る帳票認識方法
では、帳票画像データの特微量を抽出する画像特徴量抽
出処理と、前記画像特徴量抽出処理によって得られるラ
イン情報により帳票書式データを生成する帳票書式デー
タ作成処理と、前記帳票書式データに基づいて帳票認識
を行う帳票認識処理とを実行することを特徴とする。
According to a thirteenth aspect of the present invention, there is provided a form recognition method for extracting an image feature amount for extracting a very small amount of form image data, and generating form format data based on line information obtained by the image feature amount extraction process. Form form data creation processing and form recognition processing for performing form recognition based on the form format data are executed.

【0024】請求項14記載の発明に係る帳票認識方法
では、請求項13記載の帳票認識方法において、帳票を
画像データとして読み取る画像入力処理を行い、前記画
像特徴量抽出処理は、前記画像入力処理により読み取ら
れた帳票画像データの特徴量を抽出することを特徴とす
る。
According to a fourteenth aspect of the present invention, in the form recognition method according to the thirteenth aspect, an image input process for reading the form as image data is performed, and the image feature amount extracting process is performed in the image input process. The feature amount of the form image data read by the above is extracted.

【0025】請求項15記載の発明に係る帳票認識方法
では、請求項13または請求項14記載の帳票認識方法
において、前記帳票書式データを保存する保存処理を有
することを特徴とする。
According to a fifteenth aspect of the present invention, there is provided the form recognition method according to the thirteenth or fourteenth aspect, further comprising a storage process for storing the form format data.

【0026】請求項16記載の発明に係る帳票認識方法
では、請求項13乃至請求項15記載の帳票認識方法に
おいて、前記帳票書式データ作成処理は、前記画像特微
量抽出処理で抽出された帳票画像データにおけるテーブ
ル罫線とセルの交差座標値により登録テーブル書式デー
タを生成する処理を有し、前記保存処理は、前記登録テ
ーブル書式データを、これを識別するコードと共に保存
するようにしたことを特徴とする。
According to a sixteenth aspect of the present invention, in the form recognition method according to any one of the thirteenth to fifteenth aspects, the form format data creation processing is performed on the form image extracted by the image extraordinary amount extraction processing. A process of generating registration table format data based on intersection coordinate values of table ruled lines and cells in the data, wherein the storage process stores the registration table format data together with a code for identifying the registration table format data. I do.

【0027】請求項17記載の発明に係る帳票認識方法
では、請求項16記載の帳票認識方法において、前記帳
票書式データ作成処理は、前記画像特微量抽出処理で抽
出された帳票画像データにおけるテーブル罫線とセルの
交差座標値により検索テーブル書式データを生成する処
理を有し、前記帳票認識処理は、前記検索テーブル書式
データと前記保存処理に保存された登録テーブル書式デ
ータとを比較して、前記検索テーブル書式データと前記
登録テーブル書式データの類似度を計算する類似度計算
処理を有することを特徴とする。
According to a seventeenth aspect of the present invention, in the form recognition method according to the sixteenth aspect, the form format data creation processing is performed using table ruled lines in the form image data extracted by the image extraordinary amount extraction processing. And processing for generating search table format data based on the intersection coordinate values of cells and the cells. The form recognition process compares the search table format data with the registration table format data stored in the storage process, and performs the search. It has a similarity calculation process for calculating the similarity between the table format data and the registered table format data.

【0028】請求項18記載の発明に係る帳票認識方法
では、請求項17記載の帳票認識方法において、前記類
似度計算処理で得られた計算結果に基づいて、前記検索
テーブル書式データに対して類似度の高い登録テーブル
書式データの識別コードと当該類似度を帳票認識結果と
して出力する帳票認識結果出力処理を有することを特徴
とする。
In the form recognition method according to the present invention, based on the calculation result obtained in the similarity calculation processing, similarity to the search table format data is obtained. It has a form recognition result output process for outputting the identification code of the registration table format data having a high degree and the similarity as the form recognition result.

【0029】請求項19記載の発明に係る記憶媒体で
は、帳票の自動認識を行う帳票認識方法を実行する、コ
ンピュータで読み出し可能なプログラムを格納した記憶
媒体であって、前記帳票認識方法は、帳票画像データの
特微量を抽出する画像特徴量抽出ステップと、前記画像
特徴量抽出ステップによって得られるライン情報により
帳票書式データを生成する帳票書式データ作成ステップ
と、前記帳票書式データに基づいて帳票認識を行う帳票
認識ステップとを備えたことを特徴とする。
A storage medium according to a nineteenth aspect of the present invention is a storage medium storing a computer-readable program for executing a form recognition method for automatically recognizing a form. An image feature amount extraction step of extracting a very small amount of image data; a form format data creation step of generating form format data based on line information obtained by the image feature amount extraction step; and a form recognition based on the form format data. And a form recognition step to be performed.

【0030】請求項20記載の発明に係る記憶媒体で
は、請求項19記載の記憶媒体において、帳票を画像デ
ータとして読み取る画像入力ステップを有し、前記画像
特徴量抽出ステップは、前記画像入力ステップにより読
み取られた帳票画像データの特徴量を抽出することを特
徴とする。
According to a twentieth aspect of the present invention, there is provided the storage medium according to the nineteenth aspect, further comprising an image input step of reading a form as image data, wherein the image feature amount extracting step is performed by the image input step. The feature amount of the read form image data is extracted.

【0031】請求項21記載の発明に係る記憶媒体で
は、請求項19または請求項20記載の記憶媒体におい
て、前記帳票書式データを保存する保存ステップを有す
ることを特徴とする。
A storage medium according to a twenty-first aspect of the present invention is the storage medium according to the nineteenth or twentieth aspect, further comprising a storage step of storing the form format data.

【0032】請求項22記載の発明に係る記憶媒体で
は、請求項19乃至請求項21記載の記憶媒体におい
て、前記帳票書式データ作成ステップは、前記画像特微
量抽出ステップで抽出された帳票画像データにおけるテ
ーブル罫線とセルの交差座標値により登録テーブル書式
データを生成するステップを有し、前記保存ステップ
は、前記登録テーブル書式データを、これを識別するコ
ードと共に保存するようにしたことを特徴とする。
In the storage medium according to a twenty-second aspect of the present invention, in the storage medium according to any one of the nineteenth to twenty-first aspects, the form format data creating step includes a step of creating the form image data extracted in the image extra-trace extraction step. The method further comprises the step of generating registered table format data based on the intersection coordinate values of table ruled lines and cells, and wherein the storing step stores the registered table format data together with a code for identifying the registered table format data.

【0033】請求項23記載の発明に係る記憶媒体で
は、請求項22記載の記憶媒体において、前記帳票書式
データ作成ステップは、前記画像特微量抽出ステップで
抽出された帳票画像データにおけるテーブル罫線とセル
の交差座標値により検索テーブル書式データを生成する
ステップを有し、前記帳票認識ステップは、前記検索テ
ーブル書式データと前記保存ステップに保存された登録
テーブル書式データとを比較して、前記検索テーブル書
式データと前記登録テーブル書式データの類似度を計算
する類似度計算ステップを有することを特徴とする。
[0033] In the storage medium according to the twenty-third aspect of the present invention, in the storage medium according to the twenty-second aspect, the form format data creating step includes a table ruled line and a cell in the form image data extracted in the image extra-trace extraction step. Generating the search table format data based on the intersection coordinate values of the search table format, wherein the form recognition step compares the search table format data with the registration table format data stored in the storage step to generate the search table format data. A similarity calculating step of calculating a similarity between the data and the registration table format data.

【0034】請求項24記載の発明に係る記憶媒体で
は、請求項23記載の記憶媒体において、前記類似度計
算ステップで得られた計算結果に基づいて、前記検索テ
ーブル書式データに対して類似度の高い登録テーブル書
式データの識別コードと当該類似度を帳票認識結果とし
て出力する帳票認識結果出力ステップを有することを特
徴とする。
According to a twenty-fourth aspect of the present invention, in the storage medium according to the twenty-third aspect, based on a calculation result obtained in the similarity calculation step, a similarity is calculated with respect to the search table format data. A form recognition result output step of outputting the identification code of the high registration table format data and the similarity as a form recognition result is provided.

【0035】[0035]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。
Embodiments of the present invention will be described below in detail with reference to the drawings.

【0036】[第1実施形態]図1は、本発明の第1実
施形態に係る帳票認識装置の概略構成を示すブロック図
である。
[First Embodiment] FIG. 1 is a block diagram showing a schematic configuration of a form recognition apparatus according to a first embodiment of the present invention.

【0037】この帳票認識装置は、装置全体の動作を制
御するプロセッサ11と、各種のデータを記憶するメモ
リ12と、帳票を画像データとして読み取るスキャナー
13と、帳票の登録や検索などの指示操作を行うための
キーボード14と、補助記憶装置として機能するディス
ク15と、認識結果等の各種情報を表示するディスプレ
イ16とを備え、これらの構成要素がバス20を介して
相互に接続されている。
This form recognition apparatus includes a processor 11 for controlling the operation of the entire apparatus, a memory 12 for storing various data, a scanner 13 for reading a form as image data, and an instruction operation for registering and retrieving a form. A keyboard 14 for performing the operation, a disk 15 functioning as an auxiliary storage device, and a display 16 for displaying various information such as a recognition result are connected to each other via a bus 20.

【0038】プロセッサ11は、スキャナー13より読
み取られた帳票の画像データの特徴量を抽出する画像特
徴量抽出手段11a、前記画像データ中の文字領域を認
識する文字認識手段11b、及び図4のフローチャート
に従った帳票の類似度計算を行う類似度計算手段11c
を有し、各種制御プログラムに従った演算処理を行い、
帳票認識に必要な各種処理を実行する。
The processor 11 includes an image feature extracting means 11a for extracting a feature of image data of a form read by the scanner 13, a character recognizing means 11b for recognizing a character area in the image data, and a flowchart shown in FIG. Similarity calculating means 11c for calculating the similarity of a form according to
And performs arithmetic processing according to various control programs,
Executes various processes required for form recognition.

【0039】スキャナー13で読み取った画像は、2値
化処理されて画像特微量抽出手段11aに送られる。黒
ドットのヒストグラム法などの手法により、画像をテー
ブル、テキスト、及びピクチャなどの領域ごとに分割す
る。例えば、テーブル・ブロックであれば、罫線追跡手
法などでテーブルの詳細構造を求める。テキスト・ブロ
ックであれば、文字認識手段で文字コードに変換する。
The image read by the scanner 13 is binarized and sent to the image feature extraction unit 11a. The image is divided into regions such as tables, texts, and pictures by a method such as a black dot histogram method. For example, in the case of a table block, a detailed structure of the table is obtained by a ruled line tracking method or the like. If it is a text block, it is converted to a character code by character recognition means.

【0040】このようにして取得した情報の中で、テー
ブルのセルの詳細構造を、図2(a),(b)に示すテ
ーブル書式データ12aとしてメモリ12及びディスク
15に保存する。
In the information thus obtained, the detailed structure of the cells of the table is stored in the memory 12 and the disk 15 as table format data 12a shown in FIGS. 2 (a) and 2 (b).

【0041】図2(a)のライン書式例において、ま
ず、テーブル原点の水平仮想罫線に左上角が接するセル
を0ライン目のセルと定義する。次に、Y軸下の方向の
水平仮想罫線を1ライン目、同様に次の水平仮想罫線を
2ライン目と定義していく。各ライン情報は、図2
(b)に示すように、ライン情報の個数、ラインの先頭
X座標(水平罫線の左端位置)、当該ラインのセルの右
下角X座標を記録する。この情報とは別に、テーブル・
トップ位置からの仮想罫線位置をライン位置情報として
記録する。
In the example of the line format shown in FIG. 2A, first, a cell whose upper left corner is in contact with the horizontal imaginary ruled line at the table origin is defined as a cell of the 0th line. Next, the horizontal virtual ruled line in the direction below the Y axis is defined as the first line, and similarly, the next horizontal virtual ruled line is defined as the second line. Each line information is shown in FIG.
As shown in (b), the number of line information, the starting X coordinate of the line (the left end position of the horizontal ruled line), and the lower right corner X coordinate of the cell of the line are recorded. Apart from this information, a table
The virtual ruled line position from the top position is recorded as line position information.

【0042】これらのテーブル書式データを使用して、
帳票内のテーブル認識を行う。帳票認識システムは、キ
ーボード14から帳票の登録、帳票の検索などの命令を
受け取り、それに対応する処理をプロセッサ11がテー
ブル書式データ12aを使用することで行う。そして、
その結果をディスプレイ16に表示する。
Using these table format data,
Recognize tables in forms. The form recognition system receives commands such as form registration and form search from the keyboard 14, and the processor 11 performs corresponding processing by using the table format data 12a. And
The result is displayed on the display 16.

【0043】以下、図3及び図4を参照して本実施形態
の帳票認識システム、特にプロセッサ11が実行する各
種制御処理の動作を説明する。
The operation of the form recognition system according to the present embodiment, in particular, various control processes executed by the processor 11 will be described below with reference to FIGS.

【0044】図3(a),(b)は、本実施形態の処理
手順で類似度を求めるサンプル・テーブルを示す図であ
り、同図(a)は検索テーブル、同図(b)は登録テー
ブルを示している。
FIGS. 3A and 3B are diagrams showing sample tables for obtaining similarity in the processing procedure of the present embodiment. FIG. 3A shows a search table, and FIG. Shows a table.

【0045】検索テーブルが、登録テーブルとどの程度
類似しているかを求め、最も類似している登録テーブル
を検索テーブルにとって認識されたテーブルと見做す。
The degree to which the search table is similar to the registration table is determined, and the most similar registration table is regarded as a table recognized by the search table.

【0046】図4は、本実施形態に係る類似度を計算す
るための手順を示すフローチャートである。このフロー
チャートに従った類似度計算プログラムは、メモリ12
またはディスク15に格納されている。
FIG. 4 is a flowchart showing a procedure for calculating the similarity according to the present embodiment. The similarity calculation program according to this flowchart is stored in the memory 12
Alternatively, it is stored on the disk 15.

【0047】まず、ステップS11では、検索テーブル
と登録テーブルの幅及び高さの平均値を求める。検索テ
ーブルの幅=4−1、検索テーブルの高さ=F−A、登
録テーブルの幅=4−1、登録テーブルの高さ=E−A
であるから、 AVX=(検索テーブルの幅+登録テーブルの幅)/2 AVY=(検索テーブルの高さ+登録テーブルの高さ)
/2 である。次に、これらのテーブルのうちセル個数の多い
テーブルのセル個数をMAXCにセットする。MAXC
=15となる。
First, in step S11, the average value of the width and height of the search table and the registration table is obtained. Search table width = 4-1, search table height = FA, registration table width = 4-1, registration table height = EA
AVX = (width of search table + width of registration table) / 2 AVY = (height of search table + height of registration table)
/ 2. Next, the number of cells of a table having a large number of cells among these tables is set in MAXC. MAXC
= 15.

【0048】ステップS12以降の処理は、2つのテー
ブルの相違をペナルティ値として記録する処理である。
これらのペナルティ値は、ラインごとに求めて最終ライ
ンまで加算していく。
The processing after step S12 is processing for recording the difference between the two tables as a penalty value.
These penalty values are obtained for each line and added up to the last line.

【0049】ステップS12では、当該ライン(最初は
Aの水平仮想罫線に接するセル)のライン情報に記録し
ているセルの個数を次式を用いて比較する。
In step S12, the number of cells recorded in the line information of the line (the first cell in contact with the horizontal virtual ruled line of A) is compared using the following equation.

【0050】PC=KC*|(検索テーブルのセル位
置)−(検索テーブルのセル個数)|/MAXC 検索テーブルのライン情報の個数は4、同じく登録テー
ブルのライン情報の個数は4であるから、セル個数によ
るペナルティPC=0である。KCは、ペナルティの重
み付けのための係数である。
PC = KC * | (cell position of search table) − (number of cells of search table) | / MAXC The number of line information in the search table is 4, and the number of line information in the registration table is 4. The penalty PC = 0 due to the number of cells. KC is a coefficient for penalty weighting.

【0051】ステップS13では、当該ラインのライン
情報に記録しているセルの位置を比較する。検索テーブ
ルのライン情報は{1、2、3、4}、登録テーブルの
ライン情報は{1、2、3、4}である。|(検索ライ
ン1)−(登録ライン1)|、|(検索ライン2)−
(登録ライン2)|、|(検索ライン3)−(登録ライ
ン3)に|(検索ライン4)−(登録ライン4)|がセ
ル位置の相違である。
In step S13, the position of the cell recorded in the line information of the line is compared. The line information of the search table is {1, 2, 3, 4}, and the line information of the registration table is {1, 2, 3, 4}. | (Search line 1)-(registration line 1) |, | (search line 2)-
(Registration line 2) |, | (search line 3)-(registration line 3) | (search line 4)-(registration line 4) |

【0052】これらの差分値を次式に代入して、ペナル
ティ値を計算する。
The penalty value is calculated by substituting these difference values into the following equation.

【0053】PX=KX*|(検索テーブルのセル位
置)−(検索テーブルのセル位置に最も近い登録テーブ
ルのセル位置)|/AVX KXは、ペナルティの重み付けに使用する係数である。
上記の差分値は、検索ラインに最も近いラインを登録ラ
イン情報から抽出し計算する。例えば、検索ライン2に
最も近いラインが登録ライン3であれば、|(検索ライ
ン2)−(登録ライン3)|を差分値とする。この場
合、登録ライン2は、ペナルティの計算に使用されない
が、検索ラインの1と2の間に位置しているであろうか
ら、登録ラインのセルの個数が1個多くなる可能性が強
いため、セルの個数のペナルティで加算されているとみ
なす。
PX = KX * | (cell position of search table)-(cell position of registration table closest to cell position of search table) / AVX KX is a coefficient used for penalty weighting.
The difference value is calculated by extracting the line closest to the search line from the registered line information. For example, if the line closest to the search line 2 is the registered line 3, | (search line 2) − (registered line 3) | In this case, the registration line 2 is not used for penalty calculation, but will be located between 1 and 2 of the search line, so that the number of cells in the registration line is likely to increase by one. , And the number of cells is considered to have been added.

【0054】ステップS14では、当該ライン位置の相
違に対するペナルティ値を次式により計算する。
In step S14, a penalty value for the difference between the line positions is calculated by the following equation.

【0055】PY=KY*|(検索テーブルの当該ライ
ン位置)−(登録テーブルの当該ライン位置)|/AV
Y 検索テーブルのライン位置A、登録テーブルのライン位
置Aであり、テーブルの左上角を原点とするため、ライ
ン位置は両方のテーブルともに0となり、ペナルティ値
PY=0である。なお、KYは、ライン位置のペナルテ
ィの重み付け係数である。
PY = KY * | (the relevant line position in the search table)-(the relevant line position in the registration table) | / AV
Y is the line position A of the search table and the line position A of the registration table. Since the origin is at the upper left corner of the table, the line position is 0 in both tables, and the penalty value PY = 0. Note that KY is a weighting coefficient for penalty of the line position.

【0056】ステップS15では、次に比較するライン
を計算する。検索、登録テーブルのラインが最も近いの
はBラインだから、Bラインのライン情報を取得する。
In step S15, the next line to be compared is calculated. Since the line in the search and registration table is closest to the B line, the line information of the B line is acquired.

【0057】そして、ステップS17では、まだテーブ
ルの最終ラインまでペナルティ計算を行っていないか
ら、ステップS12に戻って次のラインのペナルティ値
を計算し、Aラインのペナルティ値に加算していく。
In step S17, since the penalty calculation has not yet been performed up to the last line of the table, the process returns to step S12 to calculate the penalty value of the next line and add it to the penalty value of line A.

【0058】ステップS15で次に比較するラインを求
める。今度は、検索テーブルのDラインと登録テーブル
のCラインが最も近い位置であるから、これらのライン
情報を取得する。
In step S15, a line to be compared next is obtained. This time, since the D line of the search table and the C line of the registration table are the closest positions, the line information is acquired.

【0059】ステップS16では、検索テーブルのCラ
インをスキップするので、このラインのセルの個数3を
ペナルティに加算する。ステップS17では、まだ最終
ラインでないから、ステップS12に戻ってペナルティ
値を計算する処理を再開する。このステップS17にお
いて、検索及び登録テーブルのどちらかの最終ラインま
で到達すれば、上記の計算ループを抜けて、ステップS
18へ進み、残りのラインのセル個数を計算し、ペナル
ティ値に加算する。
In step S16, since the C line of the search table is skipped, the number 3 of cells in this line is added to the penalty. In step S17, since it is not the last line yet, the process returns to step S12 to restart the process of calculating the penalty value. In this step S17, if the process reaches the last line in either the search or registration table, the process exits the above calculation loop and proceeds to step S17.
Proceeding to 18, the number of cells in the remaining lines is calculated and added to the penalty value.

【0060】そして、ステップS19で最終的な類似度
を計算する。全く同じ帳票の類似度を1とすれば、1か
ら全ペナルティ値を加算した値を引けば、当該登録テー
ブルに対する検索テーブルの類似度を取得できる。
Then, the final similarity is calculated in step S19. Assuming that the similarity of exactly the same form is 1, subtracting a value obtained by adding all penalty values from 1 makes it possible to acquire the similarity of the search table with respect to the registration table.

【0061】このように本実施形態の帳票認識方式で
は、図2(a),(b)に示すようなライン情報をテー
ブル書式として使用する。まず、テーブル原点(テーブ
ル左上角)と交差する水平罫線にセルの左上角が接する
セルを0ライン目のセルと定義する。次に下方向に移動
して最初に現れる水平罫線を1ライン目、同様に下方向
に2ライン目と定義していく。各ラインは、情報の個
数、ライン先頭のX座標(先頭セルの左下角位置)、セ
ルの右下角X座標をライン書式として保存する。要する
に、テーブル書式の比較では、近似するライン位置のラ
イン情報を書式データとして使用する。すなわち、比較
データは、テーブル罫線の交差座標値であり、画像特微
量手段が出力するデータをそのまま使用するので、書式
情報作成するための誤差が発生しない。また、セル個数
の比較は、ライン単位の個数を比較するので、セルの分
布状況による類似度の変動が小さくなる。
As described above, in the form recognition method of this embodiment, line information as shown in FIGS. 2A and 2B is used as a table format. First, a cell in which the upper left corner of the cell touches a horizontal ruled line intersecting the table origin (upper left corner of the table) is defined as a cell on the 0th line. Next, the horizontal ruled line which moves downward and appears first is defined as the first line, and similarly, the second horizontal line is defined downward. Each line stores the number of pieces of information, the X coordinate of the head of the line (the lower left corner position of the head cell), and the X coordinate of the lower right corner of the cell as a line format. In short, in the comparison of the table formats, the line information of the approximate line position is used as the format data. That is, the comparison data is the intersection coordinate value of the table ruled line, and the data output by the image feature means is used as it is, so that no error occurs for creating the format information. Further, since the comparison of the number of cells is performed by comparing the number of lines, the variation of the similarity due to the distribution state of the cells is reduced.

【0062】[第2実施形態]上記実施形態では、テー
ブル書式をすべて比較して生成したペナルティ値を類似
度の計算に使用している。しかし、帳票認識システムの
使用方法を考えれば、非常に多くの登録帳票の中から、
検索帳票と類似する帳票をピックアップしなければなら
ない。認識スピードを鑑みれば、次の手順で類似度を計
算するのが好ましい。
[Second Embodiment] In the above embodiment, a penalty value generated by comparing all table formats is used for calculating similarity. However, considering how to use the form recognition system, out of a large number of registered forms,
A form similar to the search form must be picked up. Considering the recognition speed, it is preferable to calculate the similarity by the following procedure.

【0063】すなわち、検索帳票と同じ帳票であると判
断する類似度の閾値を予め決めておき、この類似度以上
の帳票が見つかった場合のみ、その帳票の識別番号と類
似度を出力するようにする。
That is, a threshold value of the similarity for determining that the form is the same as the search form is determined in advance, and only when a form having the similarity or higher is found, the identification number and the similarity of the form are output. I do.

【0064】このシステムを実現するためには、検索帳
票のテーブル書式と類似度の閾値が、本発明の手順にパ
ラメータとして組み込まれる。すなわち、本発明の手順
で類似度が閾値以下なれば、計算を中止し次のテーブル
書式の類似度の計算を実行するような手順を組み込めば
よい。
In order to realize this system, the table format of the search form and the threshold value of the similarity are incorporated as parameters in the procedure of the present invention. That is, if the similarity falls below the threshold value in the procedure of the present invention, it is sufficient to incorporate a procedure for stopping the calculation and executing the calculation of the similarity in the next table format.

【0065】その一例として以下の手順を追加する。図
4のステップS16の手順では、1ラインのライン情報
のペナルテイ値が計算済みである。この次のステップ
で、ステップS19に示すような類似度計算を行い、こ
の結果が閾値以下であれば、テーブルの類似度の計算処
理を抜け出るようにすればよい。
As an example, the following procedure is added. In the procedure of step S16 in FIG. 4, the penalty value of the line information of one line has been calculated. In the next step, similarity calculation as shown in step S19 is performed, and if the result is equal to or smaller than the threshold, the process of calculating the similarity of the table may be exited.

【0066】本発明は、上述した実施形態の装置に限定
されず、複数の機器から構成されるシステムに適用して
も、1つの機器から成る装置に適用してもよい。前述し
た実施形態の機能を実現するソフトウェアのプログラム
コードを記憶した記憶媒体をシステムあるいは装置に供
給し、そのシステムあるいは装置のコンピュータ(また
はCPUやMPU)が記憶媒体に格納されたプログラム
コードを読み出し実行することによっても、完成される
ことは言うまでもない。
The present invention is not limited to the apparatus of the above-described embodiment, and may be applied to a system including a plurality of devices or an apparatus including a single device. A storage medium storing program codes of software for realizing the functions of the above-described embodiments is supplied to a system or apparatus, and a computer (or CPU or MPU) of the system or apparatus reads out and executes the program code stored in the storage medium. It goes without saying that it will be completed by doing so.

【0067】この場合、記憶媒体から読み出されたプロ
グラムコード自体が前述した実施形態の機能を実現する
ことになり、そのプログラムコードを記憶した記憶媒体
は本発明を構成することになる。プログラムコードを供
給するための記憶媒体としては、例えば、フロッピー
(登録商標)ディスク、ハードディスク、光ディスク、
光磁気ディスク、CD−ROM、CD−R、磁気テー
プ、不揮発性のメモリーカード、ROMを用いることが
できる。また、コンピュータが読み出したプログラムコ
ードを実行することにより、前述した実施形態の機能が
実現されるだけではなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼動しているOSなどが実
際の処理の一部または全部を行い、その処理によって前
述した実施形態の機能が実現される場合も含まれること
は言うまでもない。
In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. As a storage medium for supplying the program code, for example, a floppy (registered trademark) disk, a hard disk, an optical disk,
Magneto-optical disks, CD-ROMs, CD-Rs, magnetic tapes, nonvolatile memory cards, and ROMs can be used. When the computer executes the readout program code, not only the functions of the above-described embodiments are realized, but also the OS or the like running on the computer performs the actual processing based on the instruction of the program code. It goes without saying that a case where some or all of the operations are performed and the functions of the above-described embodiments are realized by the processing is also included.

【0068】さらに、記憶媒体から読み出されたプログ
ラムコードが、コンピュータに挿入された機能拡張ボー
ドやコンピュータに接続された機能拡張ユニットに備わ
るメモリに書き込まれた後、次のプログラムコードの指
示に基づき、その拡張機能を拡張ボードや拡張ユニット
に備わるCPUなどが処理を行って実際の処理の一部ま
たは全部を行い、その処理によって前述した実施形態の
機能が実現される場合も含まれることは言うまでもな
い。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, the program code is read based on the next program code. Needless to say, the extended function may be performed by a CPU or the like provided in an expansion board or an expansion unit to perform a part or all of the actual processing, and the processing may realize the functions of the above-described embodiments. No.

【0069】[0069]

【発明の効果】以上詳述したように、請求項1乃至請求
項6記載の発明に係る帳票認識装置、請求項7乃至請求
項12記載の発明に係る情報処理システム、請求項13
乃至請求項18記載の発明に係る帳票認識方法、及び請
求項19乃至請求項24記載の発明に係る記憶媒体によ
れば、テーブル詳細構造の比較処理において、比較デー
タとして画像特微量抽出手段が出力するデータをそのま
ま使用するので、帳票書式データ作成のために誤差が発
生しない。また、セル個数の比較はライン単位の個数を
比較するので、セルの分布状況による類似度の変動が小
さくなり、帳票認識精度を向上させる可能になる。すな
わち、テーブル詳細構造の比較処理においてライン情報
を使用し、帳票テーブル内のセル個数をライン単位でチ
ェックすることができるようになる。これにより、帳票
テーブル内のセル個数の単純チェックに比べて、セル分
布の類似性をより細かく類似度の計算に反映することが
可能になり、検索テーブル書式と最も類似している登録
テーブル書式を的確に識別することができる。
As described in detail above, the form recognition apparatus according to the first to sixth aspects of the present invention, the information processing system according to the seventh to twelfth aspects, and the thirteenth aspect.
According to the form recognition method of the present invention and the storage medium of the present invention, in the comparison processing of the table detailed structure, the image extraordinary amount extracting means is output as comparison data. Since the data to be used is used as it is, no error occurs for creating the form data. Further, since the comparison of the number of cells is performed by comparing the number of lines, the variation in similarity due to the distribution of cells is reduced, and the form recognition accuracy can be improved. That is, the line information is used in the comparison processing of the table detailed structure, and the number of cells in the form table can be checked in line units. This makes it possible to reflect the similarity of the cell distribution more finely in the calculation of the similarity than in the simple check of the number of cells in the form table, and to use the registration table format most similar to the search table format. It can be accurately identified.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1実施形態に係る帳票認識装置の概
略構成を示すブロック図である。
FIG. 1 is a block diagram illustrating a schematic configuration of a form recognition device according to a first embodiment of the present invention.

【図2】第1実施形態に係るテーブル書式データを説明
する図である。
FIG. 2 is a diagram illustrating table format data according to the first embodiment.

【図3】第1実施形態の処理手順で類似度を求めるサン
プル・テーブルを示す図である。
FIG. 3 is a diagram showing a sample table for obtaining a similarity in the processing procedure of the first embodiment.

【図4】本実施形態に係る類似度を計算するための手順
を示すフローチャートである。
FIG. 4 is a flowchart illustrating a procedure for calculating a similarity according to the embodiment;

【符号の説明】[Explanation of symbols]

11 プロセッサ 11a 画像特徴量抽出手段 11b 文字認識手段 11c 類似度計算手段 12 メモリ 13 スキャナー 14 キーボード 15 ディスク 16 ディスプレイ 20 バス Reference Signs List 11 processor 11a image feature extraction means 11b character recognition means 11c similarity calculation means 12 memory 13 scanner 14 keyboard 15 disk 16 display 20 bus

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/70 330G 460E Fターム(参考) 5B029 BB02 CC18 CC27 5B075 MM11 ND03 ND06 ND23 NK07 NK13 NK39 NK54 PP02 PP04 PP12 PP30 PQ02 PQ15 PR06 QM08 UU40 5L096 BA20 FA03 FA16 FA53 FA64 FA69 FA73 JA03 KA15 ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) G06F 15/70 330G 460E F-term (Reference) 5B029 BB02 CC18 CC27 5B075 MM11 ND03 ND06 ND23 NK07 NK13 NK39 NK54 PP02 PP04 PP12 PP30 PQ02 PQ15 PR06 QM08 UU40 5L096 BA20 FA03 FA16 FA53 FA64 FA69 FA73 JA03 KA15

Claims (24)

【特許請求の範囲】[Claims] 【請求項1】 帳票画像データの特微量を抽出する画像
特徴量抽出手段と、前記画像特徴量抽出手段によって得
られるライン情報により帳票書式データを生成する帳票
書式データ作成手段と、 前記帳票書式データに基づいて帳票認識を行う帳票認識
手段とを備えたことを特徴とする帳票認識装置。
1. An image feature amount extracting unit for extracting a very small amount of form image data, a form format data generating unit for generating form format data based on line information obtained by the image feature amount extracting unit, and the form format data And a form recognition unit for performing form recognition based on the form.
【請求項2】 帳票を画像データとして読み取る画像入
力手段を有し、前記画像特徴量抽出手段は、前記画像入
力手段により読み取られた帳票画像データの特徴量を抽
出する構成にしたことを特徴とする請求項1記載の帳票
認識装置。
2. An image input means for reading a form as image data, wherein the image feature quantity extracting means is configured to extract a feature quantity of the form image data read by the image input means. The form recognition device according to claim 1.
【請求項3】 前記帳票書式データを保存する保存手段
を有することを特徴とする請求項1または請求項2記載
の帳票認識装置。
3. The form recognition apparatus according to claim 1, further comprising a storage unit for storing the form format data.
【請求項4】 前記帳票書式データ作成手段は、前記画
像特微量抽出手段で抽出された帳票画像データにおける
テーブル罫線とセルの交差座標値により登録テーブル書
式データを生成する手段を有し、前記保存手段は、前記
登録テーブル書式データを、これを識別するコードと共
に保存するようにしたことを特徴とする請求項1乃至請
求項3記載の帳票認識装置。
4. The form format data creating means has means for generating registration table format data based on intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature extraction means. 4. The form recognition apparatus according to claim 1, wherein the means stores the registration table format data together with a code for identifying the registration table format data.
【請求項5】 前記帳票書式データ作成手段は、前記画
像特微量抽出手段で抽出された帳票画像データにおける
テーブル罫線とセルの交差座標値により検索テーブル書
式データを生成する手段を有し、前記帳票認識手段は、
前記検索テーブル書式データと前記保存手段に保存され
た登録テーブル書式データとを比較して、前記検索テー
ブル書式データと前記登録テーブル書式データの類似度
を計算する類似度計算手段を備えたことを特徴とする請
求項4記載の帳票認識装置。
5. The form format data generating means includes means for generating search table format data based on intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature amount extracting means. Recognition means,
A similarity calculating unit that compares the search table format data with the registration table format data stored in the storage unit and calculates a similarity between the search table format data and the registration table format data. The form recognition device according to claim 4, wherein
【請求項6】 前記類似度計算手段で得られた計算結果
に基づいて、前記検索テーブル書式データに対して類似
度の高い登録テーブル書式データの識別コードと当該類
似度を帳票認識結果として出力する帳票認識結果出力手
段を備えたことを特徴とする請求項5記載の帳票認識装
置。
6. An identification code of registration table format data having a high similarity to the search table format data and the similarity are output as a form recognition result based on the calculation result obtained by the similarity calculation means. 6. The form recognition apparatus according to claim 5, further comprising a form recognition result output unit.
【請求項7】 帳票の自動認識を行う帳票認識装置を有
する情報処理システムにおいて、 前記帳票認識装置は、 帳票画像データの特微量を抽出する画像特徴量抽出手段
と、 前記画像特徴量抽出手段によって得られるライン情報に
より帳票書式データを生成する帳票書式データ作成手段
と、 前記帳票書式データに基づいて帳票認識を行う帳票認識
手段とを備えたことを特徴とする情報処理システム。
7. An information processing system having a form recognizing device for automatically recognizing a form, wherein the form recognizing device comprises: an image feature amount extracting unit for extracting a very small amount of form image data; and the image feature amount extracting unit. An information processing system comprising: a form format data generating unit configured to generate form format data based on obtained line information; and a form recognition unit configured to perform form recognition based on the form format data.
【請求項8】 前記帳票認識装置は、帳票を画像データ
として読み取る画像入力手段を有し、前記画像特徴量抽
出手段が、前記画像入力手段により読み取られた帳票画
像データの特徴量を抽出する構成であることを特徴とす
る請求項7記載の情報処理システム。
8. The form recognizing device includes image input means for reading a form as image data, and the image feature quantity extracting means extracts a feature quantity of the form image data read by the image input means. The information processing system according to claim 7, wherein
【請求項9】 前記帳票認識装置は、前記帳票書式デー
タを保存する保存手段を有することを特徴とする請求項
7または請求項8記載の情報処理システム。
9. The information processing system according to claim 7, wherein the form recognition device has a storage unit for storing the form format data.
【請求項10】 前記帳票書式データ作成手段は、前記
画像特微量抽出手段で抽出された帳票画像データにおけ
るテーブル罫線とセルの交差座標値により登録テーブル
書式データを生成する手段を有し、前記保存手段は、前
記登録テーブル書式を、これを識別するコードと共に保
存するようにしたことを特徴とする請求項7乃至請求項
9記載の情報処理システム。
10. The form format data generating means includes means for generating registration table format data based on intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature amount extracting means. 10. The information processing system according to claim 7, wherein the means stores the registration table format together with a code for identifying the registration table format.
【請求項11】 前記帳票書式データ作成手段は、前記
画像特微量抽出手段で抽出された帳票画像データにおけ
るテーブル罫線とセルの交差座標値により検索テーブル
書式データを生成する手段を有し、前記帳票認識手段
は、前記検索テーブル書式データと前記保存手段に保存
された登録テーブル書式データとを比較して、前記検索
テーブル書式データと前記登録テーブル書式データの類
似度を計算する類似度計算手段を備えたことを特徴とす
る請求項10記載の情報処理システム。
11. The form format data generating means includes means for generating search table format data based on intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature extraction means. The recognizing unit includes a similarity calculating unit that compares the search table format data with the registration table format data stored in the storage unit and calculates a similarity between the search table format data and the registration table format data. The information processing system according to claim 10, wherein:
【請求項12】 前記類似度計算手段で得られた計算結
果に基づいて、前記検索テーブル書式データに対して類
似度の高い登録テーブル書式データの識別コードと当該
類似度を帳票認識結果として出力する帳票認識結果出力
手段を備えたことを特徴とする請求項11記載の情報処
理システム。
12. An identification code of a registration table format data having a high similarity to the search table format data and the similarity are output as a form recognition result based on a calculation result obtained by the similarity calculation means. The information processing system according to claim 11, further comprising a form recognition result output unit.
【請求項13】 帳票画像データの特微量を抽出する画
像特徴量抽出処理と、 前記画像特徴量抽出処理によって得られるライン情報に
より帳票書式データを生成する帳票書式データ作成処理
と、 前記帳票書式データに基づいて帳票認識を行う帳票認識
処理とを実行することを特徴とする帳票認識方法。
13. An image feature amount extraction process for extracting a very small amount of form image data, a form format data creation process for generating form format data from line information obtained by the image feature amount extraction process, and the form format data And a form recognition process for performing form recognition based on the form.
【請求項14】 帳票を画像データとして読み取る画像
入力処理を行い、前記画像特徴量抽出処理は、前記画像
入力処理により読み取られた帳票画像データの特徴量を
抽出することを特徴とする請求項13記載の帳票認識方
法。
14. An image input process for reading a form as image data, wherein the image feature amount extracting process extracts a feature amount of the form image data read by the image input process. Form recognition method described.
【請求項15】 前記帳票書式データを保存する保存処
理を有することを特徴とする請求項13または請求項1
4記載の帳票認識方法。
15. The method according to claim 13, further comprising a storage process for storing the form format data.
4. The form recognition method described in 4.
【請求項16】 前記帳票書式データ作成処理は、前記
画像特微量抽出処理で抽出された帳票画像データにおけ
るテーブル罫線とセルの交差座標値により登録テーブル
書式データを生成する処理を有し、前記保存処理は、前
記登録テーブル書式データを、これを識別するコードと
共に保存するようにしたことを特徴とする請求項13乃
至請求項15記載の帳票認識方法。
16. The form data creation processing includes a process of generating registration table format data from intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature extraction processing. 16. The form recognition method according to claim 13, wherein the processing stores the registration table format data together with a code for identifying the registration table format data.
【請求項17】 前記帳票書式データ作成処理は、前記
画像特微量抽出処理で抽出された帳票画像データにおけ
るテーブル罫線とセルの交差座標値により検索テーブル
書式データを生成する処理を有し、前記帳票認識処理
は、前記検索テーブル書式データと前記保存処理に保存
された登録テーブル書式データとを比較して、前記検索
テーブル書式データと前記登録テーブル書式データの類
似度を計算する類似度計算処理を有することを特徴とす
る請求項16記載の帳票認識方法。
17. The form format data generating process includes a process of generating search table format data based on intersection coordinate values of table ruled lines and cells in the form image data extracted by the image feature extraction process. The recognition process includes a similarity calculation process of comparing the search table format data with the registration table format data stored in the storage process to calculate a similarity between the search table format data and the registration table format data. 17. The form recognition method according to claim 16, wherein:
【請求項18】 前記類似度計算処理で得られた計算結
果に基づいて、前記検索テーブル書式データに対して類
似度の高い登録テーブル書式データの識別コードと当該
類似度を帳票認識結果として出力する帳票認識結果出力
処理を有することを特徴とする請求項17記載の帳票認
識方法。
18. An identification code of registration table format data having a high similarity to the search table format data and the similarity are output as a form recognition result based on a calculation result obtained in the similarity calculation process. 18. The form recognition method according to claim 17, further comprising a form recognition result output process.
【請求項19】 帳票の自動認識を行う帳票認識方法を
実行する、コンピュータで読み出し可能なプログラムを
格納した記憶媒体であって、 前記帳票認識方法は、 帳票画像データの特微量を抽出する画像特徴量抽出ステ
ップと、 前記画像特徴量抽出ステップによって得られるライン情
報により帳票書式データを生成する帳票書式データ作成
ステップと、 前記帳票書式データに基づいて帳票認識を行う帳票認識
ステップとを備えたことを特徴とする記憶媒体。
19. A storage medium storing a computer-readable program for executing a form recognition method for automatically recognizing a form, wherein the form recognition method includes an image feature for extracting a very small amount of form image data. An amount extraction step, a form format data generation step of generating form format data based on the line information obtained by the image feature amount extraction step, and a form recognition step of performing form recognition based on the form format data. Characteristic storage medium.
【請求項20】 帳票を画像データとして読み取る画像
入力ステップを有し、前記画像特徴量抽出ステップは、
前記画像入力ステップにより読み取られた帳票画像デー
タの特徴量を抽出することを特徴とする請求項19記載
の記憶媒体。
20. An image inputting step of reading a form as image data, wherein the image feature amount extracting step comprises:
20. The storage medium according to claim 19, wherein a feature amount of the form image data read in the image input step is extracted.
【請求項21】 前記帳票書式データを保存する保存ス
テップを有することを特徴とする請求項19または請求
項20記載の記憶媒体。
21. The storage medium according to claim 19, further comprising a storage step of storing said form format data.
【請求項22】 前記帳票書式データ作成ステップは、
前記画像特微量抽出ステップで抽出された帳票画像デー
タにおけるテーブル罫線とセルの交差座標値により登録
テーブル書式データを生成するステップを有し、前記保
存ステップは、前記登録テーブル書式データを、これを
識別するコードと共に保存するようにしたことを特徴と
する請求項19乃至請求項21記載の記憶媒体。
22. The form data creation step,
Generating registration table format data from intersection coordinate values of table ruled lines and cells in the form image data extracted in the image feature extraction step; and the storage step identifies the registration table format data. 22. The storage medium according to claim 19, wherein the storage medium is stored together with a code to be executed.
【請求項23】 前記帳票書式データ作成ステップは、
前記画像特微量抽出ステップで抽出された帳票画像デー
タにおけるテーブル罫線とセルの交差座標値により検索
テーブル書式データを生成するステップを有し、前記帳
票認識ステップは、前記検索テーブル書式データと前記
保存ステップに保存された登録テーブル書式データとを
比較して、前記検索テーブル書式データと前記登録テー
ブル書式データの類似度を計算する類似度計算ステップ
を有することを特徴とする請求項22記載の記憶媒体。
23. The form data creation step,
A step of generating search table format data based on intersecting coordinate values of table ruled lines and cells in the form image data extracted in the image feature amount extraction step, wherein the form recognition step includes the search table format data and the storage step 23. The storage medium according to claim 22, further comprising a similarity calculation step of comparing the registration table format data stored in the search table format data and calculating the similarity between the search table format data and the registration table format data.
【請求項24】 前記類似度計算ステップで得られた計
算結果に基づいて、前記検索テーブル書式データに対し
て類似度の高い登録テーブル書式データの識別コードと
当該類似度を帳票認識結果として出力する帳票認識結果
出力ステップを有することを特徴とする請求項23記載
の記憶媒体。
24. An identification code of registration table format data having a high similarity to the search table format data and the similarity are output as a form recognition result based on the calculation result obtained in the similarity calculation step. The storage medium according to claim 23, further comprising a form recognition result output step.
JP09607699A 1999-04-02 1999-04-02 Form recognition device, form recognition method, and storage medium Expired - Fee Related JP4416204B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09607699A JP4416204B2 (en) 1999-04-02 1999-04-02 Form recognition device, form recognition method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09607699A JP4416204B2 (en) 1999-04-02 1999-04-02 Form recognition device, form recognition method, and storage medium

Publications (3)

Publication Number Publication Date
JP2000293596A true JP2000293596A (en) 2000-10-20
JP2000293596A5 JP2000293596A5 (en) 2006-06-08
JP4416204B2 JP4416204B2 (en) 2010-02-17

Family

ID=14155321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09607699A Expired - Fee Related JP4416204B2 (en) 1999-04-02 1999-04-02 Form recognition device, form recognition method, and storage medium

Country Status (1)

Country Link
JP (1) JP4416204B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1686784A1 (en) 2005-02-01 2006-08-02 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method and programs for implementing the methods
JP2013015909A (en) * 2011-06-30 2013-01-24 Fujitsu Ltd Table structure automatic recognition program, table structure automatic recognition method and table structure automatic recognition device
CN113536751A (en) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 Processing method and device of table data, electronic equipment and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1686784A1 (en) 2005-02-01 2006-08-02 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method and programs for implementing the methods
US7787158B2 (en) 2005-02-01 2010-08-31 Canon Kabushiki Kaisha Data processing apparatus, image processing apparatus, data processing method, image processing method, and programs for implementing the methods
JP2013015909A (en) * 2011-06-30 2013-01-24 Fujitsu Ltd Table structure automatic recognition program, table structure automatic recognition method and table structure automatic recognition device
CN113536751A (en) * 2021-06-30 2021-10-22 北京百度网讯科技有限公司 Processing method and device of table data, electronic equipment and storage medium
CN113536751B (en) * 2021-06-30 2023-09-22 北京百度网讯科技有限公司 Processing method and device of form data, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP4416204B2 (en) 2010-02-17

Similar Documents

Publication Publication Date Title
JP4366108B2 (en) Document search apparatus, document search method, and computer program
JP2000090195A (en) Method and device for table recognition
JP2007148677A (en) Image processor and image processing method
JP2007272473A (en) Character recognition device, method and program
CN109034032B (en) Image processing method, apparatus, device and medium
US6968501B2 (en) Document format identification apparatus and method
JP2010198308A (en) Character recognition program, character recognition method, and character recognition device
KR101118628B1 (en) Iamge Data Recognition and Managing Method for Ancient Documents using Intelligent Recognition Library and Management Tool
CN113591433A (en) Text typesetting method and device, storage medium and computer equipment
JP2000293596A (en) Slip recognition device, information processing system, slip recognition method and storage medium
CN112084103B (en) Interface test method, device, equipment and medium
JP5483467B2 (en) Form reader, square mark detection method, and square mark detection program
JP4416202B2 (en) Form recognition device, information system, and storage medium
CN114495132A (en) Character recognition method, device, equipment and storage medium
JP3814334B2 (en) Image processing apparatus and method
JP3792759B2 (en) Character recognition method and apparatus
JP3977473B2 (en) Handwritten character recognition method and handwritten character recognition apparatus
JP2006338368A (en) Image processor and image processing method
JPH11143990A (en) Method and device for recognizing character and recording medium in which method for recognizing character is recorded
JPH11187231A (en) Image retrieving device and image retrieval method
JP3346943B2 (en) Database search control device
CN112464753B (en) Method and device for detecting key points in image and terminal equipment
JP2803736B2 (en) Character recognition method
CN113065318B (en) Electronic point reading material manufacturing method and device, electronic equipment and storage medium
JP2658137B2 (en) Character recognition method

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070412

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070420

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091013

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees