JP2000285190A - Method and device for identifying slip and storage medium - Google Patents

Method and device for identifying slip and storage medium

Info

Publication number
JP2000285190A
JP2000285190A JP11093762A JP9376299A JP2000285190A JP 2000285190 A JP2000285190 A JP 2000285190A JP 11093762 A JP11093762 A JP 11093762A JP 9376299 A JP9376299 A JP 9376299A JP 2000285190 A JP2000285190 A JP 2000285190A
Authority
JP
Japan
Prior art keywords
identified
registered
image
feature amount
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11093762A
Other languages
Japanese (ja)
Other versions
JP3851742B2 (en
Inventor
Mieko Matsuda
三恵子 松田
Hiroaki Kubota
浩明 久保田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP09376299A priority Critical patent/JP3851742B2/en
Publication of JP2000285190A publication Critical patent/JP2000285190A/en
Application granted granted Critical
Publication of JP3851742B2 publication Critical patent/JP3851742B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform slip identification with high performance by previously classifying registration slips having a plurality of characteristics, such as color information, ruled line information or the recognized results of preprinted characters with a common characteristic. SOLUTION: Registration slips having plural characteristics, such as color information, ruled line information or recognized results of preprinted characters are previously classified with a common characteristic. In this device, an image inputting part 1 scans respective slips to be filed and gives an obtained image to a slip identifying part 5. The part 5 performs identification on the basis of plural pieces of format information registered with a format information storing part 4 and according to which slip among registered slips a slip to be filed coincides with. Then, the results are shown on a display device 6, and the obtained identification results are presented to a user to perform confirmation by interactive processing with the user. Subsequently, the user instructs processing by using an instructing device 7.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、帳票を種別を効率
よく識別、分類するための帳票識別方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form identification method for efficiently identifying and classifying forms.

【0002】[0002]

【従来の技術】従来、画像を識別するために、例えば、
特開昭61−75477号には、格納すべき対象文書の
見本文書(複数個)の画像あるいはその特徴パターンを
あらかじめ記憶しておき,格納すべき対象文書の画像か
ら特徴パターンを抽出して、上記見本文書の特徴パター
ンと比較し同一であると判定した見本文書の分類コード
を入力文書に付与することによって、自動的に分類コー
ドの決定を行う方法が提案されている。
2. Description of the Related Art Conventionally, in order to identify an image, for example,
Japanese Patent Application Laid-Open No. 61-75477 discloses an image of a sample document (plural) of a target document to be stored or a feature pattern thereof is stored in advance, and a feature pattern is extracted from the image of the target document to be stored. There has been proposed a method of automatically determining a classification code by assigning, to an input document, a classification code of a sample document which is determined to be the same as the characteristic pattern of the sample document, and which is determined to be identical.

【0003】しかし、例えば特開昭61−75477号
では、画像の水平・垂直線分の積分値(水平・垂直方向
への長い線分の画素数の加算)を用いていることから、
異なる文書が同一の直線部を有している場合には区別が
できない他、画像が傾いていたり、位置づれがある場合
には、画像レベルでの位置合わせや傾き補正が難しいと
いう問題があった。
However, for example, in Japanese Patent Application Laid-Open No. 61-75477, an integrated value of horizontal and vertical line segments of an image (addition of the number of pixels of long line segments in horizontal and vertical directions) is used.
If different documents have the same linear portion, it cannot be distinguished, and if the image is skewed or misaligned, there is a problem that it is difficult to perform alignment and skew correction at the image level. .

【0004】この問題を解決するために、例えば、特開
平08−255236号では、帳票画像から抽出した罫
線枠の情報をハッシュテーブルを利用し、帳票間で照合
することで識別を行う処理を提案している。これは、登
録帳票に対して帳票画像から抽出した罫線枠の連結性を
検査し、その連結罫線枠の外接長方形により正規化し、
各罫線枠の中心座標をハッシュテーブルに登録する。一
方、識別対象の帳票に対しても同様に、帳票画像から罫
線枠を抽出し、連結罫線枠より正規化する。最後に、各
罫線枠の中心座標で登録しておいたハッシュテーブルを
検索し、最もヒットした登録帳票の種別を該当する帳票
とするという手法である。
[0004] In order to solve this problem, for example, Japanese Patent Application Laid-Open No. 08-255236 proposes a process for performing identification by collating information of ruled lines extracted from a form image between forms using a hash table. are doing. This is to check the connectivity of the ruled line frame extracted from the form image against the registered form, normalize it by the circumscribed rectangle of the connected ruled line frame,
The center coordinates of each ruled line frame are registered in the hash table. On the other hand, a ruled line frame is similarly extracted from a form image for a form to be identified, and normalized based on a linked ruled line frame. Finally, there is a method in which the registered hash table is searched using the center coordinates of each ruled line frame, and the type of the registered form that hits the most is set as the corresponding form.

【0005】[0005]

【発明が解決しようとする課題】大量・多品種の帳票を
扱うにつれ、罫線枠の物理的な構造にのみに基づいてい
る手法では、同じ構造をもっていても異なる種類の帳票
として分類したい場合、例えば、枠情報が一致していて
もプレ印字文字のみが違うもの、色情報のみが違うもの
などでは、認識性能に限界がでてきた。
[0006] As a large number of types of forms are handled, a method based on only the physical structure of a ruled line frame may be used to classify as different types of forms even if they have the same structure. However, even if the frame information matches, only the pre-printed characters differ, and only the color information differs, the recognition performance is limited.

【0006】そこで、本発明は、罫線枠等の物理的な構
造のみに限定することなく、色情報、キーワード認識結
果など、複数の特徴を用いて性能のよい帳票識別を可能
にする帳票識別方法およびそれを用いた帳票識別装置を
提供することを目的とする。
Therefore, the present invention is not limited to a physical structure such as a ruled frame, but a form identification method capable of performing a form identification with good performance using a plurality of features such as color information and a keyword recognition result. And a form identification device using the same.

【0007】[0007]

【課題を解決するための手段】本発明の帳票識別方法
は、入力された識別対象の帳票の画像から複数の特徴量
を抽出し、そのうちの1つと登録帳票の特徴量とを比較
して該識別対象の帳票の種別が識別できなかったとき、
前記複数の特徴量のうちの他の特徴量と前記登録帳票の
特徴量とを比較して該識別対象の帳票の種別を識別する
ことにより、罫線枠等の物理的な構造のみに限定するこ
となく、色情報、キーワード認識結果など、複数の特徴
を用いて性能のよい帳票識別を可能にする。
According to a form identification method of the present invention, a plurality of features are extracted from an input image of a form to be identified, and one of the features is compared with the features of a registered form. When the type of the form to be identified cannot be identified,
By comparing the other feature amount of the plurality of feature amounts with the feature amount of the registration form to identify the type of the form to be identified, limiting to only a physical structure such as a ruled line frame. Instead, it enables high-performance form identification using a plurality of features such as color information and keyword recognition results.

【0008】本発明の帳票識別方法は、入力された帳票
の画像から帳票の種別を特定するための色および罫線お
よび文字列のうちの少なくとも1つを特徴量として抽出
し、複数の登録帳票をこれらに共通する前記特徴量で予
め分類しておき、入力された識別対象の帳票の画像から
抽出された前記特徴量のうち、該識別対象の帳票の種別
を識別する際に用いる特徴量を選択し、この選択された
特徴量で分類された登録帳票の特徴量に基づき該識別対
象の帳票の種別を識別することにより、検索範囲を絞り
ながら、大量・多品種の帳票の識別を可能にし、性能の
よい帳票識別結果を得ることができる。
According to the form identification method of the present invention, at least one of a color, a ruled line, and a character string for specifying a form type from an input form image is extracted as a feature quantity, and a plurality of registered forms are extracted. These are classified in advance by the feature amounts common to them, and among the feature amounts extracted from the input image of the form to be identified, a feature amount used when identifying the type of the form to be identified is selected. Then, by identifying the type of the form to be identified based on the characteristic amount of the registered form classified by the selected characteristic amount, while narrowing down the search range, it is possible to identify a large number and variety of forms. A good form identification result can be obtained.

【0009】好ましくは、入力された識別対象の帳票の
画像の種別に応じて、該帳票の画像から抽出する特徴量
を選択する。
Preferably, a feature quantity to be extracted from the image of the form to be identified is selected according to the type of the image of the form to be identified.

【0010】好ましくは、前記識別対象の帳票の画像か
ら抽出された特徴量に一致する帳票が登録されていない
とき、該特徴量に最も類似する登録帳票の特徴量を用い
て該帳票を登録する。
Preferably, when a form matching the characteristic amount extracted from the image of the form to be identified is not registered, the form is registered using the characteristic amount of the registered form most similar to the characteristic amount. .

【0011】好ましくは、帳票の特徴量として色を抽出
する際、各画素の色を周辺画素の色を基に判定する。
Preferably, when extracting a color as a feature of a form, the color of each pixel is determined based on the colors of peripheral pixels.

【0012】本発明の帳票識別装置は、入力された識別
対象の帳票の画像から複数の特徴量を抽出する抽出手段
と、この抽出手段で抽出された複数の特徴量のうちの1
つと登録帳票の特徴量とを比較して該識別対象の帳票の
種別を識別する第1の識別手段と、この第1の識別手段
で前記識別対象の帳票の種別が識別できなかったとき、
前記複数の特徴量のうちの他の特徴量と前記登録帳票の
特徴量とを比較して該識別対象の帳票の種別を識別する
第2の識別手段とを具備したことにより、罫線枠等の物
理的な構造のみに限定することなく、色情報、キーワー
ド認識結果など、複数の特徴を用いて性能のよい帳票識
別を可能にする。
A form identification apparatus according to the present invention includes an extracting unit for extracting a plurality of feature amounts from an image of an input form to be identified, and one of the plurality of feature amounts extracted by the extracting unit.
A first identifying means for comparing the characteristic amount of the registered form with the registered form to identify the type of the form to be identified; and when the type of the form to be identified cannot be identified by the first identifying means,
A second identification unit that identifies the type of the form to be identified by comparing another characteristic amount of the plurality of characteristic amounts with the characteristic amount of the registration form, thereby providing a ruled line frame or the like. It is possible to perform high-performance form identification using a plurality of features such as color information and a keyword recognition result without being limited to only the physical structure.

【0013】本発明の帳票識別装置は、入力された帳票
の画像から帳票の種別を特定するための色および罫線お
よび文字列のうちの少なくとも1つを特徴量として抽出
する抽出手段と、複数の登録帳票をこれらに共通する前
記特徴量で分類する分類手段と、入力された識別対象の
帳票の画像から抽出された前記特徴量のうち、該識別対
象の帳票の種別を識別する際に用いる特徴量を選択し、
この選択された特徴量で分類された登録帳票の特徴量に
基づき該識別対象の帳票の種別を識別する識別手段とを
具備したことにより、検索範囲を絞りながら、大量・多
品種の帳票の識別を可能にし、性能のよい帳票識別結果
を得ることができる。
[0013] The form identification apparatus of the present invention comprises: an extracting means for extracting at least one of a color, a ruled line, and a character string for specifying a form type from an input form image as a feature amount; A classifying means for classifying the registered form by the characteristic amount common to them, and a characteristic used when identifying the type of the form to be identified among the characteristic amounts extracted from the input image of the form to be identified. Select the amount,
Identification means for identifying the type of the form to be identified based on the characteristic amount of the registered form classified by the selected characteristic amount, thereby enabling identification of a large number and variety of forms while narrowing the search range. And a high-performance form identification result can be obtained.

【0014】好ましくは、入力された識別対象の帳票の
画像の種別に応じて、該帳票の画像から抽出する特徴量
を選択する。
Preferably, a feature quantity to be extracted from the image of the form to be identified is selected according to the type of the image of the form to be identified.

【0015】好ましくは、前記識別対象の帳票の画像か
ら抽出された特徴量に一致する帳票が登録されていない
とき、該特徴量に最も類似する登録帳票の特徴量を用い
て該帳票を登録する。
Preferably, when a form matching the characteristic amount extracted from the image of the form to be identified is not registered, the form is registered using the characteristic amount of the registered form most similar to the characteristic amount. .

【0016】[0016]

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0017】図1は、本実施形態にかかる帳票画像を識
別するための帳票識別装置の構成例を示したもので、画
像入力部1とディスプレイ装置6と入力デバイス7と各
種記憶手段(入力データメモリ3、保存部8、フォーマ
ット情報記憶部4)をバスに接続して構成されている。
FIG. 1 shows an example of the configuration of a form identification apparatus for identifying a form image according to the present embodiment. The form input unit 1, display device 6, input device 7, and various storage means (input data) The memory 3, the storage unit 8, and the format information storage unit 4) are connected to a bus.

【0018】図1には、帳票登録部2と帳票識別部4を
ハードウエア資源として示しているが、画像入力部1と
ディスプレイ装置6と入力デバイス7と各種記憶手段
(入力データメモリ3、保存部8、フォーマット情報記
憶部4)とCPUとを有したコンピュータに実行させる
ことのできるプログラムとしてフロッピーディスク、C
D−ROM等の記憶媒体に記録して頒布することもでき
る。
FIG. 1 shows the form registration unit 2 and the form identification unit 4 as hardware resources. The image input unit 1, display device 6, input device 7, and various storage means (input data memory 3, storage Section 8, a format information storage section 4) and a program which can be executed by a computer having a CPU.
It can also be recorded on a storage medium such as a D-ROM and distributed.

【0019】図1に示す帳票識別装置は、帳票登録モー
ドと帳票識別モードの2種類のモードを有し、帳票登録
モードにおいては、以下のように動作する。すなわち、
画像入力部1は登録する帳票(登録帳票)をスキャンし
て、得られた画像を帳票登録部2に与える。入力データ
メモリ3は入力された画像を記憶しておくものである。
帳票登録部2は入力された画像にカラー分離、線分抽
出、文字枠抽出、文字認識、枠抽出などの認識処理を施
し、認識結果をディスプレイ装置6に表示してユーザに
提示し、ユーザとの対話的な処理によって、登録帳票の
各種構成要素を抽出して、フォーマット情報を生成して
フォーマット情報記憶部4に登録する。
The form identification apparatus shown in FIG. 1 has two modes, a form registration mode and a form identification mode, and operates in the form registration mode as follows. That is,
The image input unit 1 scans a form (registration form) to be registered and provides the obtained image to the form registration unit 2. The input data memory 3 stores an input image.
The form registration unit 2 performs recognition processing such as color separation, line segment extraction, character frame extraction, character recognition, and frame extraction on the input image, and displays the recognition result on the display device 6 to present to the user. The various components of the registration form are extracted, the format information is generated, and registered in the format information storage unit 4 by the interactive processing of.

【0020】一方、帳票識別モード時に以下のように動
作する。すなわち、画像入力部1はファイリングすべき
各々の帳票をスキャンして、得られた画像を帳票識別部
5に与える。帳票識別部5はフォーマット情報記憶部4
に登録された複数のフォーマット情報をもとにして、フ
ァイリングすべき帳票が、登録された帳票のうちのどれ
と一致しているかを基に識別する。そしてその結果をデ
ィスプレイ装置6に表示することによって、得られた識
別結果をユーザに提示し、ユーザとの対話的な処理によ
って確認を行ったのち、例えばマウス、キーボード、電
子ペン等の入力装置から構成される指示デバイス7を用
いてユーザにより処理が指示される。最後に、帳票登録
部2で登録された登録帳票のフォーマット情報と帳票識
別部5で得られた帳票のフォーマット情報とに基づき、
入力画像を保存部8にファイリングする。ただし、この
対話処理を省略し、自動保存を行い、複数枚を保存した
後に確認作業を行うことも可能である。
On the other hand, the following operation is performed in the form identification mode. That is, the image input unit 1 scans each form to be filed and provides the obtained image to the form identification unit 5. The form identification unit 5 is a format information storage unit 4
Based on a plurality of pieces of format information registered in, a form to be filed is identified based on which of the registered forms matches. Then, by displaying the result on the display device 6, the obtained identification result is presented to the user, and after confirming the result by interactive processing with the user, for example, from an input device such as a mouse, a keyboard, and an electronic pen. Processing is instructed by the user using the instruction device 7 configured. Finally, based on the format information of the registered form registered by the form registration unit 2 and the format information of the form obtained by the form identification unit 5,
The input image is filed in the storage unit 8. However, it is also possible to omit this interactive processing, perform automatic saving, and perform a confirmation operation after saving a plurality of sheets.

【0021】次に、上記した各動作モードで行われる処
理を、より詳細に説明する。まず、帳票登録モードにつ
いて説明する。
Next, the processing performed in each of the above operation modes will be described in more detail. First, the form registration mode will be described.

【0022】図2は、帳票登録モードにおける処理動作
を説明するためのフローチャートである。まず、スキャ
ナによって入力された登録帳票の画像がディスプレイ装
置6上に表示される(ステップS1)。そして、この入
力画像に対し、帳票登録部2では、カラー分離処理を行
って、背景画像、罫線およびプレ印字部抽出を行う(ス
テップS2)。次に罫線・プレ印字部として得られたデ
ータに対しては、色解析処理(ステップS3)、2値化
処理(ステップS4)が実行される。さらに、要素抽出
処理(ステップS5)が施され、罫線、文字枠、文字コ
ードなどの帳票の種別を識別する際に用いる特徴的な要
素(特徴量)の抽出を行う。最後に、追加・修正処理
(ステップS6)によって、ユーザからの指示に従っ
て、データを編集し、最終的にフォーマット情報を作成
して、フォーマット情報記録部4に登録する(ステップ
S7)。
FIG. 2 is a flowchart for explaining the processing operation in the form registration mode. First, the image of the registration form input by the scanner is displayed on the display device 6 (step S1). Then, the form registration unit 2 performs a color separation process on the input image to extract a background image, ruled lines, and a pre-printing unit (step S2). Next, a color analysis process (step S3) and a binarization process (step S4) are performed on the data obtained as the ruled line / preprint portion. Further, an element extraction process (step S5) is performed to extract a characteristic element (feature amount) used for identifying a form type such as a ruled line, a character frame, and a character code. Finally, the data is edited by the addition / correction processing (step S6) according to the instruction from the user, and finally the format information is created and registered in the format information recording unit 4 (step S7).

【0023】次に、ステップS2のカラー分離処理にお
ける背景画像検出およびその除去処理について説明す
る。
Next, the background image detection and its removal processing in the color separation processing in step S2 will be described.

【0024】入力画像に対して、画素ごとにRGBの値
をHSV(色相、彩度、明度)に変換する。この値か
ら、ヒストグラムをとって、もっとも値の多い値を背景
色値とする。背景色が決定されたら、背景部分を全体画
像から除去する。もちろん、背景色の検出は他の方法を
用いてもよい。
For the input image, the RGB values are converted into HSV (hue, saturation, lightness) for each pixel. From this value, a histogram is taken, and the value with the largest value is set as the background color value. After the background color is determined, the background portion is removed from the entire image. Of course, other methods may be used to detect the background color.

【0025】入力画像は、背景部分、罫線部分、文字部
分が存在すると考えることができるので、背景画像が除
去された時点で残された画像は、罫線・プレ印字文字部
と考えられる。したがって、これらの画像について2値
化した後(ステップS4)、また、色解析を行い、色特
徴の抽出を行った後(ステップS3)、画像から図形特
徴や文字コード等の各種要素を抽出する(ステップS
4)。
Since the input image can be considered to have a background portion, a ruled line portion, and a character portion, the image left when the background image is removed is considered to be a ruled line / pre-printed character portion. Therefore, after binarizing these images (step S4), performing color analysis and extracting color features (step S3), various elements such as graphic features and character codes are extracted from the images. (Step S
4).

【0026】ステップS4の2値化処理では、たとえ
ば、ステップS2のカラー分離処理によって背景部分が
削除されているので、残った画像は、罫線、プレ印字文
字、手書き文字などの要素になると考えてよいので、背
景以外のデータが黒になるように2値化できればよい。
In the binarization process in step S4, for example, since the background portion has been deleted by the color separation process in step S2, the remaining image is considered to be elements such as ruled lines, preprinted characters, and handwritten characters. Therefore, it is only necessary that binarization can be performed so that data other than the background becomes black.

【0027】ステップS3の色解析はたとえば以下の方
法で行う。すでに、入力画像の中から、背景部分が削除
されているので、色部分についてのみ処理を行う。色部
分についてのみ、RGB空間もしくはH(色相)−S
(彩度)空間に投票し、クラスタリングにより帳票に存
在する色を判定する。たとえば、図3に示したように、
あらかじめ、帳票に使われるような罫線の色成分に相当
する投票箱をH−Sの色空間に配置しておいて、抽出さ
れた画素に対して色成分を計算して、投票箱に投票して
いく方法をとる。たとえば、赤に相当する投票箱(領
域)R1、青に相当する投票箱(領域)R5を設けて、
各画素の色成分で投票を行い、最終的に投票数や投票画
素全体に対して占める割合を算出して、当選か落選かを
決定する。この方法によって対象帳票の代表色を記録す
る。色種だけではなく、帳票内で用いられている色の割
合も保存しておいてもよい。色の特徴を解析する方法
は、従来より提唱されているほかの手法をもちいてもか
まわない。
The color analysis in step S3 is performed by, for example, the following method. Since the background portion has already been deleted from the input image, only the color portion is processed. RGB space or H (hue) -S only for color part
(Saturation) Voting in the space, and determining the colors present in the form by clustering. For example, as shown in FIG.
A ballot box corresponding to a color component of a ruled line used in a form is previously arranged in an HS color space, a color component is calculated for the extracted pixels, and a vote is cast in the ballot box. Take the way to go. For example, a ballot box (region) R1 corresponding to red and a ballot box (region) R5 corresponding to blue are provided.
Voting is performed using the color component of each pixel, and finally, the number of votes and the ratio of the voting pixels to the total number of pixels are calculated to determine whether a winning or a failure has occurred. With this method, the representative color of the target form is recorded. Not only the color type but also the ratio of the color used in the form may be stored. The method of analyzing the color feature may use other methods that have been proposed.

【0028】ステップS5の要素抽出では、罫線枠(罫
線、文字枠)、文字コードなどを抽出する。罫線の抽出
はたとえば以下の方法で行う。すなわち、ここでは、罫
線は4点から構成される枠情報であると考え、抽出を行
う。まず、入力データをラスタスキャンしてその追跡開
始点を検出した後、その追跡開始点から時計周りあるい
は反時計周りに図形境界がつくる閉曲線を追跡すること
によって輪郭線抽出が行なわれる。このような閉曲線追
跡により抽出された輪郭の情報は座標点列、あるいは方
向コードの列であるチェインコードとして保存される。
この輪郭抽出処理については、従来より種々提唱されて
いる他の輪郭抽出の手法を用いても良いことは言うまで
もない。
In the element extraction in step S5, a ruled line frame (ruled line, character frame), a character code, and the like are extracted. The ruled line is extracted by, for example, the following method. That is, here, the ruled line is considered as frame information composed of four points, and extraction is performed. First, after input data is raster-scanned and its tracking start point is detected, a contour is extracted by tracing a closed curve having a figure boundary clockwise or counterclockwise from the tracking start point. The information on the contour extracted by such closed curve tracking is stored as a coordinate point sequence or a chain code which is a sequence of direction codes.
It goes without saying that other outline extraction methods conventionally proposed variously may be used for the outline extraction processing.

【0029】次に、輪郭線データをもとに、画像の交差
部や角点という特徴点を抽出する。これは、例えば輪郭
点列から凸点列を検出し、それに対応付く凹点列を抽出
する。この特徴点抽出は例えば曲率算出処理によって求
められた曲率kを所定の閾値K0、K1と比較し、k≦
K0 なる点列を凹点列、k≧K1 となる点を凸点列
とすることにより実現される。
Next, feature points such as intersections and corner points of the image are extracted based on the contour data. In this method, for example, a sequence of convex points is detected from a sequence of contour points, and a sequence of concave points corresponding to the sequence is extracted. In this feature point extraction, for example, the curvature k obtained by the curvature calculation processing is compared with predetermined thresholds K0 and K1, and k ≦
This is realized by setting the point sequence K0 as a concave point sequence and the point satisfying k ≧ K1 as a convex point sequence.

【0030】尚、この特徴点抽出処理を、図形の細線化
処理や芯線化処理によって実現してもよい。例えば、細
線化データでは線分の端点には凸部が存在し、細線の交
差点には凹点が存在することから、特徴抽出が可能とな
る。
The feature point extraction processing may be realized by a graphic thinning processing or a core line processing. For example, in the thinned data, since a convex portion exists at an end point of a line segment and a concave point exists at an intersection of the thin line, feature extraction becomes possible.

【0031】次に、これらの点列の組合せから枠を抽出
する。枠の抽出は、例えば注目点近郊にある4点の座標
の組合せから、図形が長方形または平行四辺形をなすか
どうかを判断することにより容易に枠領域が抽出可能で
ある。このとき、枠抽出は他の手法を用いてもよいこと
はいうまでもない。
Next, a frame is extracted from the combination of these point sequences. The frame can be extracted easily by judging whether or not the figure forms a rectangle or a parallelogram from a combination of coordinates of four points near the point of interest, for example. At this time, it goes without saying that other methods may be used for frame extraction.

【0032】文字枠抽出はたとえば以下の方法で行な
う。画像を連結領域ごとにラベル付けし、外接図形を求
める。次に隣接する外接図形がある閾値内の距離にある
場合には併合してみる。併合を行なった場合に再度外接
図形を計算し、下線の方向(傾き)の変動がある閾値以
内の場合には同一文字列であるとする。なお、文字枠抽
出方法は従来より種々提唱されている手法など他の方法
を用いてもよい。
The character frame extraction is performed, for example, by the following method. The image is labeled for each connected region, and a circumscribed figure is obtained. Next, when adjacent circumscribed figures are within a certain threshold distance, they are merged. When the merging is performed, the circumscribed figure is calculated again. If the change in the direction of the underline (inclination) is within a certain threshold, it is determined that the character strings are the same. Note that the character frame extraction method may use another method such as a conventionally proposed method.

【0033】文字抽出はたとえば以下の方法で行なう。
画像を連結領域ごとにラベル付けし、外接図形を求め
る。外接図形の大きさがある閾値内である場合には文字
候補として文字認識を行なう。なお、文字抽出方法は従
来より種々提唱されている手法など他の方法を用いても
よい。
The character extraction is performed, for example, by the following method.
The image is labeled for each connected region, and a circumscribed figure is obtained. If the size of the circumscribed figure is within a certain threshold, character recognition is performed as a character candidate. It should be noted that the character extraction method may use another method such as a conventionally proposed method.

【0034】以上のように抽出された要素に対しては、
ステップS6において、追加・修正が行われる。
For the elements extracted as described above,
In step S6, addition and correction are performed.

【0035】ディスプレイ装置6に表示された入力画像
から抽出された各種要素は、例えば、ステップS1で入
力された登録帳票の画像の上に重畳表示されて、ユーザ
によりデータ修正が行なわれるようになっている。修正
方法は、従来利用している図形作成ツールなどと同様に
行うことが可能である。
Various elements extracted from the input image displayed on the display device 6 are displayed, for example, superimposed on the image of the registration form input in step S1, so that the user can correct the data. ing. The correction method can be performed in the same manner as a conventionally used graphic creation tool or the like.

【0036】最後にユーザによる修正により最終的に作
成されたフォーマット情報がフォーマット情報記憶部4
に登録される(ステップS7)。その際、フォーマット
情報にはキーワードまたはファイル名を付与し、保存す
る。
Finally, the format information finally created by the correction by the user is stored in the format information storage unit 4.
(Step S7). At this time, a keyword or a file name is given to the format information and stored.

【0037】ここで、図4を参照して、カラー帳票の特
徴を説明する。帳票には、その構成要素として、罫線
枠、罫線色、予め印字されている文字列(プレ印字文字
列)領域R1、R2があげられる。
Here, the features of the color form will be described with reference to FIG. The form includes ruled line frames, ruled line colors, and preprinted character string (pre-printed character string) regions R1 and R2 as its constituent elements.

【0038】図5は登録された登録帳票のフォーマット
情報(ここでは、そのイメージを示している)の4つの
例であり、各登録帳票からは、色情報の違いも含めて特
徴量となる構成要素(罫線枠、文字列(プレ印字文
字))が抽出されている。
FIG. 5 shows four examples of the format information (here, the image is shown) of the registered registration form, and each registration form has a feature amount including a difference in color information. Elements (ruled line frames, character strings (pre-printed characters)) have been extracted.

【0039】これらの帳票は、色情報のみ共通のもの、
プレ印字の一部が共通のもの、罫線枠の一部が共通のも
の等が存在する。
These forms are common only to color information.
Some of the preprinting are common, some of the ruled line frames are common, and the like.

【0040】例えば、後述する帳票識別モードにおいて
は、登録帳票と識別対象の帳票とで最初に照合すべきも
の(第1の特徴量)を色情報とする。すなわち、図6に
示すように、第1の特徴量として罫線色とすると、登録
帳票AとB、CとDは、同じフォーマット群として分類
される。また、帳票の先頭にあるプレ印字#1を第2の
特徴量として、これを基に分類すると、帳票見本CとD
とが同じフォーマット郡として分類される。さらに、帳
票の右下にあるプレ印字#2を第3の特徴量として、こ
れを基に分類すると帳票見本A〜Cが同じフォーマット
として分類される。
For example, in a form identification mode to be described later, a registration form and a form to be identified first (a first feature amount) are color information. That is, as shown in FIG. 6, when the ruled line color is used as the first feature amount, the registered forms A and B, and C and D are classified as the same format group. When the preprint # 1 at the head of the form is classified as a second feature amount based on this, form samples C and D
And are classified as the same format county. Further, when the preprint # 2 at the lower right of the form is used as the third feature amount and classified based on this, the form samples A to C are classified as the same format.

【0041】図6に示した分類方法に限らず、複数の登
録帳票のフォーマット情報には、罫線枠の構造のみが一
致していて、プレ印字のある場所やその文字列(文字コ
ード)、罫線色のみが違うものなど、多種存在すること
から、できるだけ登録帳票を分離しやすい観点から分類
することが望ましい。
Not only the classification method shown in FIG. 6, but also the format information of a plurality of registration forms, only the structure of the ruled line frame matches, the place where the pre-print is made, its character string (character code), the ruled line Since there are many types such as ones that differ only in color, it is desirable to classify registration forms from the viewpoint of being as easy to separate as possible.

【0042】次に、帳票識別モードについて詳細に説明
する。
Next, the form identification mode will be described in detail.

【0043】図7は帳票識別モードにおける処理動作を
説明するためのフローチャートである。まず、スキャナ
によって入力された識別対象の帳票の画像がディスプレ
イ装置6上に表示される(ステップS11)。そして、
この入力画像に対し、帳票識別部5は画像分離処理を施
し(ステップS12)、背景画像、黒領域(文字列部
分)、罫線およびプレ印字部を抽出する。
FIG. 7 is a flowchart for explaining the processing operation in the form identification mode. First, the image of the form to be identified input by the scanner is displayed on the display device 6 (step S11). And
The form identification unit 5 performs an image separation process on this input image (step S12), and extracts a background image, a black area (character string portion), a ruled line, and a preprinting unit.

【0044】罫線・プレ印字部として得られたデータに
対しては、色解析処理(ステップS13)、2値化処理
(ステップS14)が施される。さらに、要素抽出処理
(ステップS15)が施され、罫線、文字枠、文字コー
ドなどの要素抽出を行う。
The data obtained as the ruled line / preprint portion is subjected to color analysis processing (step S13) and binarization processing (step S14). Further, an element extraction process (step S15) is performed to extract elements such as ruled lines, character frames, and character codes.

【0045】ここでの背景画像検出処理、色解析処理、
罫線、文字枠、文字コードなどの要素抽出処理、2値化
処理については、帳票登録時と同様であるので説明を省
く。なお、ここでは、必ずしも文字認識処理を行う必要
はない。文字認識処理は、必要に応じて、後述するステ
ップS19にて行うようにしてもよい。
The background image detection processing, the color analysis processing,
The process of extracting elements such as ruled lines, character frames, and character codes, and the binarization process are the same as those at the time of registering a form, and therefore will not be described. Here, it is not always necessary to perform the character recognition processing. The character recognition processing may be performed in step S19 described below, if necessary.

【0046】ステップS12における黒領域抽出処理
は、たとえば以下の方法で行う。黒領域は、画素ごとに
RGBの値をHSV(色相、彩度、明度)に変換した場
合、明度Vや彩度Sが小さくなる。したがって、しきい
値処理によって黒画素部分を抽出することが可能にな
る。もちろん、黒画素領域の抽出は他の方法を用いても
よい。もちろん、帳票の罫線やプレ印字文字に黒が用い
られている場合は、黒領域も罫線・プレ印字部と同様に
取り扱ってもよい。
The black area extraction processing in step S12 is performed, for example, by the following method. In the black region, when RGB values are converted into HSV (hue, saturation, lightness) for each pixel, lightness V and saturation S are reduced. Therefore, the black pixel portion can be extracted by the threshold processing. Of course, other methods may be used to extract the black pixel region. Of course, when black is used for the ruled lines and pre-printed characters of the form, the black area may be handled in the same manner as the ruled line / pre-printed portion.

【0047】次に、ステップS15の要素抽出処理で得
られたデータから、登録帳票と識別対象の帳票とで最初
に照合すべきもの(第1の特徴量)を選択する(ステッ
プS16)。そして、帳票識別を行う(ステップS1
7)。
Next, from the data obtained by the element extraction processing in step S15, a registration form and a form to be identified which are to be first identified (first feature amount) are selected (step S16). Then, form identification is performed (step S1).
7).

【0048】ここで、帳票識別処理の一例として、ハッ
シュテーブルを用いて帳票識別を行う場合について説明
する。なお、この手法について特開平08−25523
6号に開示されており、登録帳票から抽出された特徴量
からハッシュテーブルを作成する前処理と、入力画像か
ら特徴を抽出し、投票を行い認識する認識処理とに分け
ることができる。
Here, as an example of the form identification processing, a case where form identification is performed using a hash table will be described. This method is disclosed in Japanese Patent Application Laid-Open No. 08-25523.
No. 6, which can be divided into pre-processing for creating a hash table from feature amounts extracted from a registration form, and recognition processing for extracting features from an input image and voting and recognizing them.

【0049】また、ここでハッシュテーブルを作成する
際には、複数の登録帳票を分類した結果を1つの登録帳
票として扱っていてもよい。この場合も以下の説明がそ
のまま当てはまる。
When a hash table is created here, a result obtained by classifying a plurality of registration forms may be treated as one registration form. In this case as well, the following description is directly applicable.

【0050】まず、図8を参照してハッシュテーブルの
作成処理について説明する。図2を参照して説明したよ
うに、帳票を登録する際には、その帳票の画像の入力
(ステップS31)、帳票の各構成要素の抽出(ステッ
プS32)を行う。そこで、ハッシュテーブルを作成す
るために、既にフォーマット情報記憶部4に記憶されて
いるフォーマット情報を基に、罫線枠の中心座標、文字
列枠の中心座標、連結枠情報などの特徴量を抽出し、こ
れらの値を規格化する。例えば、最大値を「1」とした
場合の相対的な値を算出する(ステップS33)。
First, a process of creating a hash table will be described with reference to FIG. As described with reference to FIG. 2, when registering a form, an image of the form is input (step S31), and each component of the form is extracted (step S32). Therefore, in order to create a hash table, based on the format information already stored in the format information storage unit 4, feature amounts such as the center coordinates of the ruled line frame, the center coordinates of the character string frame, and the connection frame information are extracted. , These values are normalized. For example, a relative value when the maximum value is “1” is calculated (step S33).

【0051】この規格化された値を用いて、例えば、罫
線枠の中心座標、文字列枠の中心座標といった各特徴量
毎にハッシュテーブルテーブルを作成する。
Using the standardized values, a hash table is created for each feature amount such as the center coordinates of the ruled line frame and the center coordinates of the character string frame.

【0052】図9に、特徴量として、罫線枠の中心座標
を用いた場合のハッシュテーブルの一例を示す。全ての
登録帳票(A〜F)の罫線枠の中心座標をハッシュテー
ブル上に埋め込んだ場合を示している。傾きに関しては
直線データをもとに傾き補正してあることを前提として
いるので、罫線枠は水平・垂直線分のみから構成されて
いると考えてよい。ここでは、ハッシュテーブルを作成
するときの基底(規格化する特徴量のパラメータ)のと
り方は、水平・垂直線分上に位置する点で表現する。特
に、帳票の場合には連結する長方形枠が多く存在するこ
とから、基底には、連結長方形枠の外接図形の幅と高さ
情報を用いる。規定には、帳票そのものののサイズを用
いてもよいし、基準になるものが統一されていればよ
い。
FIG. 9 shows an example of a hash table when the center coordinates of the ruled line frame are used as the feature values. This shows a case where the center coordinates of the ruled line frames of all the registered forms (A to F) are embedded in the hash table. Since it is assumed that the inclination has been corrected based on the straight line data, the ruled line frame may be considered to be composed of only horizontal and vertical line segments. Here, how to take a base (a parameter of a feature amount to be normalized) when creating a hash table is represented by a point located on a horizontal / vertical line segment. In particular, in the case of a form, since there are many connected rectangular frames, the width and height information of the circumscribed figure of the connected rectangular frame is used as the base. For the rule, the size of the form itself may be used, or the standard may be unified.

【0053】次に、図10に示すフローチャートを参照
して、ハッシュテーブルを用いた帳票識別処理動作につ
いて説明する。図7を参照して説明したように、帳票の
識別を行う際には、識別対象の帳票の画像の入力(ステ
ップS41)、罫線、文字枠などの特徴量の抽出を行う
(ステップS42)。
Next, a form identification processing operation using a hash table will be described with reference to a flowchart shown in FIG. As described with reference to FIG. 7, when identifying a form, an image of the form to be identified is input (step S41), and features such as ruled lines and character frames are extracted (step S42).

【0054】抽出された特徴量からさらに、罫線枠の中
心座標、文字列枠の中心座標、連結枠情報などの特徴量
を抽出し、これらの値を規格化する(ステップS4
3)。
Further, from the extracted feature values, feature values such as the center coordinates of the ruled line frame, the center coordinates of the character string frame, and the connection frame information are extracted, and these values are normalized (step S4).
3).

【0055】そして、この規格化されてた特徴量を用い
てハッシュテーブル上の当該特徴量に該当する特徴点の
エリアを検索する(ステップS44)。このエリアは予
め定められた範囲の検索エリアで、そのエリア内に登録
帳票の特徴点があれば、その登録帳票に投票する(ステ
ップS45)。具体的には、登録された登録帳票名(フ
ォーマット番号)ごとにヒストグラムを作成しておい
て、検索したエリア内の登録帳票名(フォーマット番
号)ごとに投票を行う。これらの処理を識別対象の帳票
の有する特徴点の数だけ繰り返し(ステップS46)、
ヒストグラムの最も大きい登録帳票との類似度を計算
し、識別結果として出力する(ステップS47、ステッ
プS48)。
Then, the area of the feature point corresponding to the feature amount on the hash table is searched using the standardized feature amount (step S44). This area is a search area of a predetermined range, and if there is a characteristic point of the registered form in that area, the registered form is voted for (step S45). Specifically, a histogram is created for each registered form name (format number), and voting is performed for each registered form name (format number) in the searched area. These processes are repeated by the number of feature points of the form to be identified (step S46).
The similarity with the registered form having the largest histogram is calculated and output as an identification result (step S47, step S48).

【0056】例えば、図11に示すような罫線枠の中心
座標にるハッシュテーブルにおいて、登録帳票が6枚あ
るとして、識別対象の帳票として、フォーマット番号
「A」の帳票(サンプル帳票)を識別する場合について
説明する。当該サンプル帳票には特徴点が9点あり、図
11のハッシュテーブル上のハッチング部分は各特徴点
に対応する予め定めれた範囲の検索エリアである。この
場合、図12に示すように、サンプル帳票の特徴点に対
応する各検索エリアに存在する登録帳票の特徴点を基に
各登録帳票に投票した結果、フォーマット番号「A」の
登録帳票の投票数は「8」と最も大きく、次に、フォー
マット番号「D」の登録帳票の投票数「2」、フォーマ
ット番号「E」の登録帳票の投票数「1」、フォーマッ
ト番号「F」の登録帳票の投票数「1」と続いている。
For example, in a hash table having the center coordinates of a ruled line frame as shown in FIG. 11, it is assumed that there are six registered forms, and a form (sample form) having a format number "A" is identified as a form to be identified. The case will be described. The sample form has nine feature points, and the hatched portion on the hash table in FIG. 11 is a search area of a predetermined range corresponding to each feature point. In this case, as shown in FIG. 12, as a result of voting for each registered form based on the characteristic points of the registered form existing in each search area corresponding to the characteristic point of the sample form, the voting of the registered form of format number "A" is performed. The number is the largest, "8", followed by the number of votes of the registration form of format number "D""2", the number of votes of registration form of format number "E""1", and the registration form of format number "F""1".

【0057】そこで、上記4つの登録帳票との類似度を
求めることにする。類似度は、例えば次式(1)で定義
されるものであるとする。すなわち、各登録帳票tの投
票数をNt、識別対象の帳票の長方形枠数をk、登録帳
票tの長方形枠数をRtとすると、類似度Sは、 S = (Nt×2×100)/(k+Rt) …(1) と表すことができる。
Therefore, the similarity with the above four registration forms is determined. The similarity is assumed to be defined by the following equation (1), for example. That is, assuming that the number of votes of each registered form t is Nt, the number of rectangular frames of the form to be identified is k, and the number of rectangular frames of the registered form t is Rt, the similarity S is S = (Nt × 2 × 100) / (K + Rt) (1)

【0058】式(1)を用いて類似度を算出した結果を
図12に示す。
FIG. 12 shows the result of calculating the similarity using the equation (1).

【0059】よって、サンプル帳票にもっとも類似して
いるのは、類似度が最も高いフォーマット番号「A」の
登録帳票であることが分かる。
Therefore, it can be seen that the most similar to the sample form is the registered form with the format number “A” having the highest similarity.

【0060】以上、ハッシュテーブルを用いた帳票の識
別方法について説明したが、この場合に限らず、他の識
別方法を用いてもよい。
Although the method of identifying a form using a hash table has been described above, the present invention is not limited to this case, and another identification method may be used.

【0061】次に、識別対象の帳票(サンプル帳票)に
ついて第2の特徴量を用いた詳細調査を行うことを考え
る。この時点で、フォーマット番号「A」の登録帳票が
1つの登録帳票のみであれば、それを識別結果として出
力すればよく(ステップS26)、第2の特徴量を用い
た詳細調査は省略できる。
Next, it is considered that a detailed check is performed on the form to be identified (sample form) using the second feature value. At this point, if there is only one registered form with the format number "A", it is sufficient to output the registered form as an identification result (step S26), and the detailed investigation using the second feature amount can be omitted.

【0062】例えば、図13に示すように、フォーマッ
ト番号「A」という登録帳票には、(a)図、(b)図
に示すような2種類の登録帳票が含まれているとする。
これらの2つの登録帳票は、罫線枠、罫線枠の色がとも
に同一であり、異なる部分は、プレ印字されている文字
列である。したがって、この2つの登録帳票のフォーマ
ット情報には、識別に必要な文字枠(文字領域)と文字
列とが含まれている。
For example, as shown in FIG. 13, it is assumed that a registration form having a format number "A" includes two types of registration forms as shown in FIGS.
These two registration forms have the same ruled line frame and the same color of the ruled line frame, and the different portions are character strings preprinted. Therefore, the format information of these two registration forms includes a character frame (character area) and a character string necessary for identification.

【0063】例えば、図14に示すように、図13
(a)、(b)に示した各登録帳票のフォーマット情報
は、文字識別すべき2カ所のプレ印字領域R1、R2が
登録されている。詳細調査が必要な場合は、識別対象の
帳票(サンプル帳票)に対し、この2カ所に記載されて
いる文字列を順次抽出し、文字認識を行う(ステップS
18〜ステップS19)。1カ所の文字認識で1つの登
録帳票に確定できなかったときは、確定できるまで文字
認識を繰り返す(ステップS18〜ステップS19)。
For example, as shown in FIG.
In the format information of each registration form shown in (a) and (b), two pre-print areas R1 and R2 for character identification are registered. If a detailed investigation is required, the character strings described in these two places are sequentially extracted from the form to be identified (sample form) and character recognition is performed (step S).
18 to Step S19). If it is not possible to determine one registered form by character recognition in one place, character recognition is repeated until it can be determined (steps S18 to S19).

【0064】文字列抽出、文字認識については、既存の
方法を用いればよい。ここで認識された文字列が図13
(a)、(b)のどちらか一方の帳票に一致するか、ま
たは、一致度が高いかによって、詳細識別結果とする。
An existing method may be used for character string extraction and character recognition. The character string recognized here is shown in FIG.
The detailed identification result is determined based on whether the form matches one of the forms (a) and (b) or the degree of match is high.

【0065】文字認識を繰り返し、識別対象の帳票に詳
細調査が必要なくなれば、識別対象の帳票がある1つの
登録帳票に一致したことになり(ステップS18)、そ
の識別結果を出力または保存する(ステップS26)。
When the character recognition is repeated and the detailed check of the form to be identified becomes unnecessary, the form to be identified matches one registered form (step S18), and the identification result is output or stored (step S18). Step S26).

【0066】図13の例では、プレ印字領域R1のみ文
字認識すれば、どちらの帳票であるか確定できるが、こ
こで確定できない場合は、さらに、プレ印字領域R2を
文字認識する、他の特徴量を用いて、さらに詳細調査を
繰り返す。ここでは、帳票が確定できるまで特徴量をか
えて識別を行うか、またはもっとも類似しているものを
提示してもよい。該当帳票がない場合には新しく登録追
加することも可能である。
In the example shown in FIG. 13, if the character is recognized only in the pre-printing area R1, it is possible to determine which form it is. However, if it cannot be determined here, the character is further recognized in the pre-printing area R2. The detailed investigation is repeated using the amount. Here, the identification may be performed by changing the feature amount until the form is determined, or the most similar one may be presented. If there is no corresponding form, it is possible to newly register and add.

【0067】(第2の実施形態)次に、帳票登録におけ
る登録帳票の分類について、より詳細に説明する。
(Second Embodiment) Next, the classification of registered forms in form registration will be described in more detail.

【0068】図15は、登録された登録帳票(A〜E)
のフォーマット情報をイメージ的に示してものである。
図15において、登録帳票AとBとC、DとEは、それ
ぞれ罫線構造としては共通のものを持ち登録帳票AとB
とE、CとDは、用いられる色としては共通である。こ
のように、各特徴(色、罫線、プレ印字#1、プレ印字
#2)による分類を行うと、図16のように、それぞれ
の特徴について2つのグループに分類できる。
FIG. 15 shows the registered registration forms (A to E).
The format information is shown as an image.
In FIG. 15, registration forms A, B and C, and D and E have a common ruled line structure, and have registration forms A and B respectively.
And E, C and D are common as colors used. In this way, by performing classification based on each feature (color, ruled line, preprint # 1, preprint # 2), each feature can be classified into two groups as shown in FIG.

【0069】ここで、帳票識別モードにおいて、図7の
ステップS16で選定される第1の特徴量が色情報であ
るとすると、この段階で絞り込まれた登録帳票に対し、
さらに第2の特徴量として罫線を用いて、前述したよう
に、ハッシュテーブルを用いて帳票の識別を行う。この
様に、帳票登録時に識別に用いられる特徴量を想定し、
登録帳票を分類しておくことによって、識別作業の効率
化および識別誤りの削減ができる。
Here, in the form identification mode, assuming that the first feature amount selected in step S16 of FIG. 7 is color information, the registered form narrowed down at this stage is
Further, using the ruled line as the second feature amount, the form is identified using the hash table as described above. In this way, assuming the feature amount used for identification at the time of form registration,
By classifying the registration forms, the identification work can be made more efficient and identification errors can be reduced.

【0070】(第3の実施形態)次に、識別対象の帳票
の画像のタイプによって識別に用いる特徴量を選択する
場合について、図17に示すフローチャートを参照して
説明する。
(Third Embodiment) Next, a case where a feature amount used for identification is selected according to the type of an image of a form to be identified will be described with reference to a flowchart shown in FIG.

【0071】まず、スキャナによって入力された識別対
象の帳票の画像がディスプレイ装置6上に表示される
(ステップS51)。そして、この入力画像がどの画像
タイプ(2値画像、濃淡画像、カラー画像)に属するか
を判断する(ステップS52)。画像タイプの判断に
は、ユーザがいずれの画像タイプであるかを指示するこ
とにより判断するようにしてもよい。
First, the image of the form to be identified input by the scanner is displayed on the display device 6 (step S51). Then, it is determined which image type (binary image, grayscale image, color image) this input image belongs to (step S52). The image type may be determined by instructing which image type the user has.

【0072】画像タイプにより帳票の識別に用いる特徴
量が異なる。すなわち、例えば、2値画像の場合は、罫
線枠、プレ印字文字(ステップS54)、濃淡画像の場
合は、濃淡の濃度分布、罫線枠、プレ印字文字(ステッ
プS55)、カラー画像の場合は、罫線色、罫線枠、プ
レ印字文字(ステップS56)が特徴量としてあげられ
る。最後に各特徴量のうちで、第1の特徴量を選定する
(ステップS57)。
The feature amount used for identifying the form differs depending on the image type. That is, for example, in the case of a binary image, a ruled line frame and a pre-printed character (step S54), in the case of a grayscale image, the density distribution of shades, the ruled line frame, a preprinted character (step S55), and in the case of a color image, A ruled line color, a ruled line frame, and a pre-printed character (step S56) can be given as the feature amount. Finally, a first feature value is selected from the feature values (step S57).

【0073】例えば、2値画像の場合には、第1の特徴
量として罫線枠を選定する。同様に、濃淡画像の場合に
は濃度分布、カラー画像の場合には罫線色を第1の特徴
量として選定する。その後は、各画像タイプに対応した
特徴量の抽出処理のみを行って、前述したようなハッシ
ュテーブルを用いた帳票識別、プレ印字文字の照合等を
行えばよい。
For example, in the case of a binary image, a ruled line frame is selected as the first feature amount. Similarly, a density distribution is selected as a first feature amount for a grayscale image, and a ruled line color is selected for a color image. After that, only the feature amount extraction processing corresponding to each image type is performed, and the form identification using the hash table, the collation of the pre-printed characters, and the like may be performed.

【0074】この場合、画像タイプに応じて予め抽出す
べき特徴量が限定されるので、帳票識別結果を得るまで
の時間が短縮できる。
In this case, since the amount of features to be extracted in advance is limited according to the image type, the time required to obtain a form identification result can be reduced.

【0075】なお、識別に用いる特徴量は、上記特徴量
に限らず、他の特徴量を用いてもよい。同様に、画像タ
イプによって、識別に用いる特徴量は、第1の特徴量に
限らず、第2、第3の特徴量を併用してもよい。
The feature values used for identification are not limited to the above feature values, and other feature values may be used. Similarly, the feature amount used for identification is not limited to the first feature amount, and the second and third feature amounts may be used together depending on the image type.

【0076】(第4の実施形態)次に、帳票識別の結
果、該当する帳票が得られなかった場合、すなわち、未
登録の帳票の識別を行ってしまった場合の処理動作につ
いて、図18に示すフローチャートを参照して説明す
る。
(Fourth Embodiment) Next, FIG. 18 shows a processing operation when a corresponding form is not obtained as a result of form identification, that is, when an unregistered form is identified. This will be described with reference to the flowchart shown.

【0077】図7に示す処理を行った結果(ステップS
61、ステップS62)、識別対象の帳票と同一の登録
帳票が存在したときは、それを帳票識別結果として出力
する(ステップS63、ステップS64)。以上の詳細
な処理は、図7に示したフローチャートと同様である。
一方、識別対象の帳票と同一の登録帳票が存在しなかっ
たとき(ステップS63)、類似帳票があるかどうかを
判断する(ステップS65)。類似帳票であるかどうか
は、検索時に用いた類似度など帳票の類似性を評価でき
るものを用いて、評価する。そして、類似度が所定の閾
値以上のものを提示してもよいし、もっとも類似度が高
いものを提示してもよい。ここで類似する帳票が存在し
ない場合は、現在識別しようとしている入力された帳票
を図2に示したように新規登録する(ステップS6
6)。
The result of performing the processing shown in FIG. 7 (step S
61, step S62), if there is a registered form identical to the form to be identified, it is output as a form identification result (step S63, step S64). The above detailed processing is the same as the flowchart shown in FIG.
On the other hand, when there is no registered form identical to the form to be identified (step S63), it is determined whether there is a similar form (step S65). Whether or not the form is similar is evaluated using a form that can evaluate the similarity of the form, such as the similarity used at the time of the search. Then, those having a similarity higher than a predetermined threshold may be presented, or those having the highest similarity may be presented. If there is no similar form, the entered form to be identified is newly registered as shown in FIG. 2 (step S6).
6).

【0078】もし、類似帳票があれば、その類似帳票の
フォーマット情報を流用して、現在識別しようとしてい
る帳票の追加登録を行う(ステップS67)。
If there is a similar form, the form information to be identified is additionally registered using the format information of the similar form (step S67).

【0079】例えば、図19(a)に示すようなフォー
マット情報の登録帳票が既に登録されていて、現在識別
しようとしている入力された帳票が図19(b)である
とする。そして、この入力帳票に最も類似するものが図
19(a)に示した登録帳票であるとする。
For example, it is assumed that a registration form of format information as shown in FIG. 19A has already been registered, and the input form to be identified is shown in FIG. 19B. Then, it is assumed that the one most similar to the input form is the registration form shown in FIG.

【0080】図19(a)に示す帳票と図19(b)に
示す帳票とは、プレ印字文字のみしか違わないので、改
めて登録するには、登録の手間がかかる他、フォーマッ
ト情報記憶部4における登録帳票のフォーマット情報の
容量も必要になるので、ここでは、図19(a)に示す
登録帳票の変形として、図19(b)に示す帳票中の異
なる部分、すなわち、プレ印字文字のみを追加登録し
て、新たな登録帳票の登録を行うものである。
The form shown in FIG. 19A and the form shown in FIG. 19B differ only in the pre-printed characters. In this case, as a modification of the registration form shown in FIG. 19A, a different part in the form shown in FIG. Additional registration is performed to register a new registration form.

【0081】このような他の登録帳票のフォーマット情
報を流用した登録帳票の登録方法としては、例えば、図
20に示したように、罫線タイプと色、プレ印字文字を
別々に部品登録し、各登録帳票は、そのフォーマット番
号に対応させて、例えば、図21に示すように、図20
に示した部品の組み合わせで表現する。
As a registration form registration method using the format information of another registration form as described above, for example, as shown in FIG. 20, the ruled line type, the color, and the pre-printed character are separately registered as parts, and The registration form is associated with the format number, for example, as shown in FIG.
It is expressed by the combination of parts shown in.

【0082】このように、登録帳票の要素を部品化し
て、それらを組み合わせて1つの登録帳票のフォーマッ
ト情報を作成することにより、部分的に一致する複数の
登録帳票を登録する場合、登録の手間を最小限にし、ま
た、登録データ容量も減らすことが可能になる。
As described above, the elements of the registration form are made into components, and by combining them, the format information of one registration form is created. And the amount of registered data can be reduced.

【0083】また、この場合、帳票識別を行う際も前述
同様に行える。
In this case, form identification can be performed in the same manner as described above.

【0084】(第5の実施形態)帳票登録モード、帳票
識別モードに共通して言えることだが、例えば、図2の
ステップS3における色解析処理、図7のステップS1
3における色解析処理において、入力された帳票画像の
各画素に対して、その画素の持つ色の情報が抽出すべき
色であるかどうかを判断する過程における処理について
説明する。すなわち、抽出すべき色とそれ以外の取り除
くべき色または背景色が存在する状態から、抽出すべき
色を抽出するか、または、不要なものを取り除く操作を
行う時に、抽出すべきものと、それ以外の両者の中間的
な状態である中間色であると判断された画素の周囲の画
素の色の判定状態を調べ、これによって、その画素が抽
出すべき色を持つかどうかを判断する。
(Fifth Embodiment) The same can be said for the form registration mode and the form identification mode. For example, the color analysis processing in step S3 in FIG. 2 and the step S1 in FIG.
In the color analysis process in No. 3, a process in a process of determining, for each pixel of the input form image, whether or not the color information of the pixel is a color to be extracted will be described. That is, when the color to be extracted is extracted from the state where the color to be extracted and the color to be removed or the background color exists, or when the operation to remove unnecessary ones is performed, Then, the state of the color of the pixels surrounding the pixel determined to be an intermediate color, which is an intermediate state between the two, is checked to determine whether or not the pixel has a color to be extracted.

【0085】図22に示すフローチャートを参照して、
以上述べたような色判断処理動作について説明する。
Referring to the flowchart shown in FIG.
The above-described color determination processing operation will be described.

【0086】まず、黒領域に抽出処理について説明す
る。図23(a)は、原画像である。ここで、領域x1
は黒線、領域x2、x3は色付きの線である。図23
(a)に示した原図ををスキャンした直後の画像データ
を図23(b)に示す。図23(b)において、領域x
5は、黒と判断される部分、領域x4、x6は、色付き
と判断される部分である。スキャナでは、このように、
黒の領域における色付きの領域との境界上が色付きとな
ることがある。 そこで、まず、図23(b)に示した
ようなデータから黒の領域x5のみを抽出する(ステッ
プS71)。次に、図23(c)に示すように、この黒
の領域x5の周辺領域はx4、x6であるが、この領域
x4、x6の色を調べる(ステップS72)。領域x
4、x6の色が白でない、すなわち、中間色であるとき
は、この領域を黒と判定する(ステップS73、ステッ
プS74)。そして、このとき黒と判定された領域x
4、x6と、もともと黒と判定されている領域x5とを
合わせて図23(d)に示すように、黒領域と定める。
First, the process of extracting a black area will be described. FIG. 23A shows an original image. Here, the area x1
Is a black line, and the regions x2 and x3 are colored lines. FIG.
FIG. 23B shows image data immediately after scanning the original drawing shown in FIG. In FIG. 23B, the region x
5 is a portion determined to be black, and regions x4 and x6 are portions determined to be colored. In the scanner, like this,
In some cases, the black region may be colored on the boundary with the colored region. Therefore, first, only the black region x5 is extracted from the data as shown in FIG. 23B (step S71). Next, as shown in FIG. 23C, the peripheral areas of the black area x5 are x4 and x6, and the colors of the areas x4 and x6 are checked (step S72). Region x
If the color of 4, x6 is not white, that is, if it is an intermediate color, this area is determined to be black (steps S73 and S74). Then, the area x determined to be black at this time
4, x6 and an area x5 originally determined to be black are defined as a black area as shown in FIG.

【0087】一方、色付き領域の抽出処理の場合は、こ
の逆を行う。まず、色付きと判断される領域x4、x6
を抽出し、これと接しているとともに、黒領域と判断さ
れる領域x5に接していない領域、すなわち領域x2、
x3に相当する部分を抽出し、これを色付き領域と判定
する。
On the other hand, in the case of the colored area extraction processing, the reverse is performed. First, regions x4 and x6 determined to be colored
Is extracted, and a region that is in contact with the region and is not in contact with the region x5 determined to be a black region, that is, the region x2,
A portion corresponding to x3 is extracted, and this is determined as a colored region.

【0088】しかしながら、図24に示すように、黒領
域x13の左側境界部分x12が色付きになっていない
場合には、上記の方法では、領域x12が色付きとは見
なされずに抽出からもれてしまう。そこで、次のような
処理を行う。
However, as shown in FIG. 24, when the left boundary portion x12 of the black region x13 is not colored, the above-described method causes the region x12 to be omitted from extraction without being regarded as colored. . Therefore, the following processing is performed.

【0089】まず、色付きと判断され、かつ、黒領域と
判断される領域x13に接していない領域、すなわち、
領域x11を抽出し、それとは別の黒領域x13と接し
ている色付きの領域x12、x14を抽出する。領域x
12、x14のうち、色付きと判断された領域、すなわ
ち、領域x11に接している部分を色付きと判断する。
こうすることによって、領域x11、x12を色付きと
して抽出される。
First, an area that is determined to be colored and is not in contact with the area x13 determined to be a black area, that is,
An area x11 is extracted, and colored areas x12 and x14 that are in contact with another black area x13 are extracted. Region x
12, x14, the area determined to be colored, that is, the portion in contact with the area x11 is determined to be colored.
By doing so, the regions x11 and x12 are extracted as colored.

【0090】以上の説明は、白、黒、色付きという分類
で説明しているが、色については何を対象にしてもよ
い。一般に抽出すべき色(複数の色でもよく、以下同様
に「色」といった場合に必ずしも単色を意味するもので
はない。また、色には、白や黒、灰色なども含めて考え
る)に対して、それ以外の色または背景色が存在する状
態から、抽出すべき色を抽出するか、または不要なもの
を取り除く操作を行うときに、両者の中間色の考え方を
導入し、この中間色であると判断された画素の周囲の画
素の状態、すなわち、抽出すべき色かそうでないか、ま
た、中間色であるなどの状態によって、最終的にその画
素を抽出すべきか否かを判断する。
Although the above description has been made on the basis of the classification of white, black, and colored, any color may be used. In general, for the color to be extracted (a plurality of colors may be used, similarly in the following, "color" does not necessarily mean a single color. Also, the color includes white, black, gray, etc.) , When extracting the color to be extracted or removing unnecessary ones from the state where other colors or background colors exist, introduce the concept of the intermediate color of the two and judge that it is this intermediate color It is determined whether or not the pixel should be finally extracted based on the state of the pixels around the pixel thus selected, that is, whether or not the pixel should be extracted or not, and whether or not the pixel is an intermediate color.

【0091】なお、中間色は、例えば、抽出すべき色と
背景になる色の平均として定義される色と定義してもよ
い。
The intermediate color may be defined as, for example, a color defined as an average of a color to be extracted and a background color.

【0092】(効果)以上説明したように、上記実施形
態によれば、色情報または罫線情報またはプレ印字文字
の認識結果など、複数の特徴を有する登録帳票を共通の
特徴で予め分類しておくことにより、検索範囲を絞りな
がら、大量・多品種の帳票の識別を可能にし、性能のよ
い帳票識別結果を得ることができる。
(Effects) As described above, according to the above embodiment, registration forms having a plurality of characteristics such as color information, ruled line information, and recognition results of preprinted characters are classified in advance by common characteristics. As a result, it is possible to identify a large number and variety of forms while narrowing the search range, and to obtain a form identification result with good performance.

【0093】また、共通要素をもつ帳票を、その共通要
素の組み合わせとして管理することによって、効率よい
帳票登録が可能になる。
By managing a form having a common element as a combination of the common elements, a form can be registered efficiently.

【0094】[0094]

【発明の効果】以上説明したように、本発明によれば、
複数の特徴を有する大量・多品種の帳票の識別を可能に
し、性能のよい帳票識別結果を得ることができる。
As described above, according to the present invention,
It is possible to identify a large number and variety of forms having a plurality of characteristics, and obtain a form identification result with good performance.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施形態にかかる帳票識別装置
の構成例を示した図。
FIG. 1 is a diagram showing a configuration example of a form identification device according to a first embodiment of the present invention.

【図2】投票登録処理動作について説明するためのフロ
ーチャート。
FIG. 2 is a flowchart for explaining a vote registration processing operation.

【図3】色判定のための投票空間の一例を示した図。FIG. 3 is a diagram showing an example of a voting space for color determination.

【図4】帳票の特徴を説明するための図。FIG. 4 is a view for explaining features of a form.

【図5】登録帳票のフォーマット情報の具体例を示した
図。
FIG. 5 is a diagram showing a specific example of format information of a registration form.

【図6】登録帳票の分類例を示した図。FIG. 6 is a diagram showing a classification example of a registration form.

【図7】投票識別処理動作について説明するためのフロ
ーチャート。
FIG. 7 is a flowchart for explaining a vote identification processing operation;

【図8】ハッシュテーブル作成処理動作を説明するため
のフローチャート。
FIG. 8 is a flowchart for explaining a hash table creation processing operation.

【図9】罫線枠の中心座標によるハッシュテーブルの一
具体例を示した図。
FIG. 9 is a diagram showing a specific example of a hash table based on the center coordinates of a ruled line frame.

【図10】ハッシュテーブルを用いた帳票識別処理動作
を説明するためのフローチャート。
FIG. 10 is a flowchart for explaining a form identification processing operation using a hash table.

【図11】ハッシュテーブル上の検索エリアを具体的に
示した図。
FIG. 11 is a diagram specifically showing a search area on a hash table.

【図12】ハッシュテーブルを用いた登録帳票の検索結
果の一例を示した図。
FIG. 12 is a diagram showing an example of a registration form search result using a hash table.

【図13】特徴の一部分が異なる類似する帳票の一例を
示した図。
FIG. 13 is a view showing an example of a similar form in which a part of the feature is different.

【図14】帳票中の文字認識すべき領域を示した図。FIG. 14 is a diagram showing an area in a document to be recognized by a character.

【図15】登録帳票のフォーマット情報をイメージ的に
示した図。
FIG. 15 is a view schematically showing format information of a registration form.

【図16】登録帳票を色、罫線、プレ印字文字で分類し
た結果の一例を示した図。
FIG. 16 is a diagram showing an example of a result of classifying registered forms by color, ruled lines, and preprinted characters.

【図17】識別対象の帳票の画像のタイプによって識別
に用いる特徴量を選択する場合の処理動作を説明するた
めのフローチャート。
FIG. 17 is a flowchart for explaining a processing operation when selecting a feature amount used for identification according to the type of an image of a form to be identified;

【図18】未登録帳票の登録処理動作の一例を示したフ
ローチャート。
FIG. 18 is a flowchart illustrating an example of an unregistered form registration processing operation.

【図19】未登録帳票と、それに類似する登録帳票の一
例を示した図。
FIG. 19 is a diagram showing an example of an unregistered form and a registered form similar thereto.

【図20】帳票の特徴的な要素を部品化した場合の、部
品の登録例を示した図。
FIG. 20 is a diagram showing an example of component registration when characteristic elements of a form are converted into components.

【図21】図20に示した部品を用いて帳票の特徴量を
表現した場合の帳票の登録例を示した図。
FIG. 21 is a diagram showing an example of registration of a form when the feature amount of the form is represented using the parts shown in FIG. 20;

【図22】色判断処理動作を説明するためのフローチャ
ート。
FIG. 22 is a flowchart illustrating a color determination processing operation.

【図23】色判断処理を説明するための図。FIG. 23 is a diagram illustrating a color determination process.

【図24】色判断処理を説明するための図。FIG. 24 is a diagram illustrating a color determination process.

【符号の説明】[Explanation of symbols]

1…画像入力部 2…帳票登録部 3…入力データメモリ 4…フォーマット情報記憶部 5…帳票識別部 6…ディスプレイ装置 7…指示デバイス 8…保存部 REFERENCE SIGNS LIST 1 image input unit 2 form registration unit 3 input data memory 4 format information storage unit 5 form identification unit 6 display device 7 instruction device 8 storage unit

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 入力された識別対象の帳票の画像から複
数の特徴量を抽出し、そのうちの1つと登録帳票の特徴
量とを比較して該識別対象の帳票の種別が識別できなか
ったとき、前記複数の特徴量のうちの他の特徴量と前記
登録帳票の特徴量とを比較して該識別対象の帳票の種別
を識別することを特徴とする帳票識別方法。
When a plurality of features are extracted from an input image of a form to be identified and one of them is compared with a feature of a registered form, the type of the form to be identified cannot be identified. And a feature amount of the registered form by comparing another feature amount of the plurality of feature amounts with a feature amount of the registered form.
【請求項2】 入力された帳票の画像から帳票の種別を
特定するための色および罫線および文字列のうちの少な
くとも1つを特徴量として抽出し、複数の登録帳票をこ
れらに共通する前記特徴量で予め分類しておき、入力さ
れた識別対象の帳票の画像から抽出された前記特徴量の
うち、該識別対象の帳票の種別を識別する際に用いる特
徴量を選択し、この選択された特徴量で分類された登録
帳票の特徴量に基づき該識別対象の帳票の種別を識別す
ることを特徴とする帳票識別方法。
2. A method for extracting at least one of a color, a ruled line, and a character string for specifying a type of a form from an input form image as a feature amount, and a plurality of registered forms common to the extracted forms. Of the forms to be identified, and among the feature quantities extracted from the input image of the form to be identified, a feature quantity used to identify the type of the form to be identified is selected. A form identification method characterized by identifying a type of a form to be identified based on a feature amount of a registered form classified by a feature amount.
【請求項3】 入力された識別対象の帳票の画像の種別
に応じて、該帳票の画像から抽出する特徴量を選択する
ことを特徴とする請求項2記載の帳票識別方法。
3. The form identification method according to claim 2, wherein a feature amount to be extracted from the form image is selected according to the type of the input form image of the form to be identified.
【請求項4】 前記識別対象の帳票の画像から抽出され
た特徴量に一致する帳票が登録されていないとき、該特
徴量に最も類似する登録帳票の特徴量を用いて該帳票を
登録することを特徴とする請求項2記載の帳票識別方
法。
4. When a form matching a feature amount extracted from an image of the form to be identified is not registered, the form is registered using a feature amount of a registered form most similar to the feature amount. 3. The form identification method according to claim 2, wherein:
【請求項5】 帳票の特徴量として色を抽出する際、各
画素の色を周辺画素の色を基に判定することを特徴とす
る請求項2記載の帳票識別方法。
5. The form identification method according to claim 2, wherein the color of each pixel is determined based on the color of peripheral pixels when extracting a color as the feature amount of the form.
【請求項6】 入力された識別対象の帳票の画像から複
数の特徴量を抽出する抽出手段と、 この抽出手段で抽出された複数の特徴量のうちの1つと
登録帳票の特徴量とを比較して該識別対象の帳票の種別
を識別する第1の識別手段と、 この第1の識別手段で前記識別対象の帳票の種別が識別
できなかったとき、前記複数の特徴量のうちの他の特徴
量と前記登録帳票の特徴量とを比較して該識別対象の帳
票の種別を識別する第2の識別手段と、 を具備したことを特徴とする帳票識別装置。
6. An extracting means for extracting a plurality of feature amounts from an input image of a form to be identified, and comparing one of the plurality of feature amounts extracted by the extracting means with a feature amount of a registered form. First identifying means for identifying the type of the form to be identified; and when the type of the form to be identified cannot be identified by the first identifying means, A second identification means for comparing the characteristic amount with the characteristic amount of the registered form to identify the type of the form to be identified.
【請求項7】 入力された帳票の画像から帳票の種別を
特定するための色および罫線および文字列のうちの少な
くとも1つを特徴量として抽出する抽出手段と、 複数の登録帳票をこれらに共通する前記特徴量で分類す
る分類手段と、 入力された識別対象の帳票の画像から抽出された前記特
徴量のうち、該識別対象の帳票の種別を識別する際に用
いる特徴量を選択し、この選択された特徴量で分類され
た登録帳票の特徴量に基づき該識別対象の帳票の種別を
識別する識別手段と、 を具備することを特徴とする帳票識別装置。
7. An extracting means for extracting at least one of a color, a ruled line, and a character string for specifying a type of a form from an input form image as a feature amount, and a plurality of registered forms are commonly used for these. Classifying means for classifying based on the feature amount to be selected; and a feature amount used when identifying the type of the form to be identified among the feature amounts extracted from the input image of the form to be identified. A form identification device, comprising: identification means for identifying the type of the form to be identified based on the characteristic amount of the registered form classified by the selected characteristic amount.
【請求項8】 入力された識別対象の帳票の画像の種別
に応じて、該帳票の画像から抽出する特徴量を選択する
ことを特徴とする請求項7記載の帳票識別装置。
8. The form identification apparatus according to claim 7, wherein a feature amount extracted from the form image is selected according to the type of the input form image of the form to be identified.
【請求項9】 前記識別対象の帳票の画像から抽出され
た特徴量に一致する帳票が登録されていないとき、該特
徴量に最も類似する登録帳票の特徴量を用いて該帳票を
登録することを特徴とする請求項7記載の帳票識別装
置。
9. When a form matching a feature amount extracted from an image of the form to be identified is not registered, the form is registered using a feature amount of a registered form most similar to the feature amount. 8. The form identification device according to claim 7, wherein:
【請求項10】 入力された帳票の画像から帳票の種別
を特定するための色および罫線および文字列のうちの少
なくとも1つを特徴量として抽出させる抽出手段と、 複数の登録帳票をこれらに共通する前記特徴量で分類さ
せる分類手段と、 入力された識別対象の帳票の画像から抽出された前記特
徴量のうち、該識別対象の帳票の種別を識別する際に用
いる特徴量を選択し、この選択された特徴量で分類され
た登録帳票の特徴量に基づき該識別対象の帳票の種別を
識別させる識別手段と、 を実行するプログラムを記録した機械読み取り可能な記
憶媒体。
10. An extracting means for extracting at least one of a color, a ruled line, and a character string for identifying a type of a form from an input form image as a feature amount, and a plurality of registered forms are commonly used for these. Classifying means for classifying by the feature amount to be selected; and a feature amount used for identifying the type of the form to be identified among the feature amounts extracted from the input image of the form to be identified. An identification means for identifying the type of the form to be identified based on the characteristic amount of the registered form classified by the selected characteristic amount; and a machine-readable storage medium recording a program for executing the following.
JP09376299A 1999-03-31 1999-03-31 Form processing method and apparatus Expired - Fee Related JP3851742B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP09376299A JP3851742B2 (en) 1999-03-31 1999-03-31 Form processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP09376299A JP3851742B2 (en) 1999-03-31 1999-03-31 Form processing method and apparatus

Publications (2)

Publication Number Publication Date
JP2000285190A true JP2000285190A (en) 2000-10-13
JP3851742B2 JP3851742B2 (en) 2006-11-29

Family

ID=14091455

Family Applications (1)

Application Number Title Priority Date Filing Date
JP09376299A Expired - Fee Related JP3851742B2 (en) 1999-03-31 1999-03-31 Form processing method and apparatus

Country Status (1)

Country Link
JP (1) JP3851742B2 (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008026414A1 (en) * 2006-08-31 2008-03-06 Osaka Prefecture University Public Corporation Image recognition method, image recognition device, and image recognition program
WO2008107997A1 (en) * 2007-03-08 2008-09-12 Fujitsu Limited Slip category identifying program, slip category identifying method and slip category identifying device
US7508986B2 (en) 2003-11-28 2009-03-24 Canon Kabushiki Kaisha Document recognition device, document recognition method and program, and storage medium
JP2009069991A (en) * 2007-09-11 2009-04-02 Ricoh Co Ltd Information processor, program, and recording medium
JP2011123598A (en) * 2009-12-09 2011-06-23 Canon Inc Image discriminating apparatus and method, and program
US8045229B2 (en) 2007-08-21 2011-10-25 Canon Kabushiki Kaisha Image processing apparatus, image processing method and medium
WO2012035789A1 (en) * 2010-09-13 2012-03-22 三菱電機株式会社 Air conditioning control device, air conditioning control method and program
JP2012198684A (en) * 2011-03-18 2012-10-18 Pfu Ltd Information processing device, business form type estimation method, and business form type estimation program
US8418050B2 (en) 2007-11-09 2013-04-09 Fujitsu Limited Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
US8589416B2 (en) 2010-01-20 2013-11-19 Fuji Xerox Co., Ltd. System and method of performing data processing on similar forms
JP2017175524A (en) * 2016-03-25 2017-09-28 株式会社日立ドキュメントソリューションズ Document management system and image data management method
JP2017199086A (en) * 2016-04-25 2017-11-02 富士通株式会社 Method, device, program, and dictionary data for recognizing business form
JP2019169025A (en) * 2018-03-26 2019-10-03 株式会社Pfu Information processing device, character recognition engine selection method, and program
JP2021033743A (en) * 2019-08-27 2021-03-01 株式会社日立製作所 Information processing apparatus, document identification method, and information processing system
JP2021131659A (en) * 2020-02-19 2021-09-09 キヤノンマーケティングジャパン株式会社 Information processor, control method and program
US11354496B2 (en) 2020-02-28 2022-06-07 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program
JP2022543052A (en) * 2020-06-29 2022-10-07 北京市商▲湯▼科技▲開▼▲發▼有限公司 Document processing method, document processing device, document processing equipment, computer-readable storage medium and computer program

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7508986B2 (en) 2003-11-28 2009-03-24 Canon Kabushiki Kaisha Document recognition device, document recognition method and program, and storage medium
WO2008026414A1 (en) * 2006-08-31 2008-03-06 Osaka Prefecture University Public Corporation Image recognition method, image recognition device, and image recognition program
JP4883649B2 (en) * 2006-08-31 2012-02-22 公立大学法人大阪府立大学 Image recognition method, image recognition apparatus, and image recognition program
US8199973B2 (en) 2006-08-31 2012-06-12 Osaka Prefecture University Public Corporation Image recognition method, image recognition device, and image recognition program
JPWO2008107997A1 (en) * 2007-03-08 2010-06-10 富士通株式会社 Form type identification program, form type identification method, and form type identification device
CN101622632B (en) * 2007-03-08 2011-12-21 富士通株式会社 Document type identifying program, method and document type identifying apparatus
US8275792B2 (en) 2007-03-08 2012-09-25 Fujitsu Limited Document type identifying method and document type identifying apparatus
WO2008107997A1 (en) * 2007-03-08 2008-09-12 Fujitsu Limited Slip category identifying program, slip category identifying method and slip category identifying device
US8045229B2 (en) 2007-08-21 2011-10-25 Canon Kabushiki Kaisha Image processing apparatus, image processing method and medium
JP2009069991A (en) * 2007-09-11 2009-04-02 Ricoh Co Ltd Information processor, program, and recording medium
US8418050B2 (en) 2007-11-09 2013-04-09 Fujitsu Limited Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
JP2011123598A (en) * 2009-12-09 2011-06-23 Canon Inc Image discriminating apparatus and method, and program
US8589416B2 (en) 2010-01-20 2013-11-19 Fuji Xerox Co., Ltd. System and method of performing data processing on similar forms
EP2618069A4 (en) * 2010-09-13 2018-03-21 Mitsubishi Electric Corporation Air conditioning control device, air conditioning control method and program
WO2012035789A1 (en) * 2010-09-13 2012-03-22 三菱電機株式会社 Air conditioning control device, air conditioning control method and program
CN103097826A (en) * 2010-09-13 2013-05-08 三菱电机株式会社 Air conditioning control device, air conditioning control method and program
JP5595507B2 (en) * 2010-09-13 2014-09-24 三菱電機株式会社 Air conditioning control device, air conditioning control method, and program
US9194601B2 (en) 2010-09-13 2015-11-24 Mitsubishi Electric Corporation Air conditioning control device, air conditioning control method and program
JP2012198684A (en) * 2011-03-18 2012-10-18 Pfu Ltd Information processing device, business form type estimation method, and business form type estimation program
JP2017175524A (en) * 2016-03-25 2017-09-28 株式会社日立ドキュメントソリューションズ Document management system and image data management method
JP2017199086A (en) * 2016-04-25 2017-11-02 富士通株式会社 Method, device, program, and dictionary data for recognizing business form
JP2019169025A (en) * 2018-03-26 2019-10-03 株式会社Pfu Information processing device, character recognition engine selection method, and program
JP2021033743A (en) * 2019-08-27 2021-03-01 株式会社日立製作所 Information processing apparatus, document identification method, and information processing system
JP7312646B2 (en) 2019-08-27 2023-07-21 株式会社日立製作所 Information processing device, document identification method, and information processing system
JP2021131659A (en) * 2020-02-19 2021-09-09 キヤノンマーケティングジャパン株式会社 Information processor, control method and program
US11354496B2 (en) 2020-02-28 2022-06-07 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing program
JP2022543052A (en) * 2020-06-29 2022-10-07 北京市商▲湯▼科技▲開▼▲發▼有限公司 Document processing method, document processing device, document processing equipment, computer-readable storage medium and computer program

Also Published As

Publication number Publication date
JP3851742B2 (en) 2006-11-29

Similar Documents

Publication Publication Date Title
US7120318B2 (en) Automatic document reading system for technical drawings
US8059868B2 (en) License plate recognition apparatus, license plate recognition method, and computer-readable storage medium
US6335986B1 (en) Pattern recognizing apparatus and method
JP3851742B2 (en) Form processing method and apparatus
JP4208918B2 (en) Method and apparatus for extracting text from document image, computer program and storage medium thereof
US8059896B2 (en) Character recognition processing system and computer readable medium storing program for character recognition processing
JP2951814B2 (en) Image extraction method
US20070168382A1 (en) Document analysis system for integration of paper records into a searchable electronic database
US20050238257A1 (en) Form search apparatus and method
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
JP2001297303A (en) Method and device for recognizing document image and computer readable recording medium
JPH1011531A (en) Slip reader
KR101937398B1 (en) System and method for extracting character in image data of old document
WO2000062243A1 (en) Character string extracting device and method based on basic component in document image
US20070047815A1 (en) Image recognition apparatus, image recognition method, and image recognition program
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
US20060194187A1 (en) Material processing apparatus, material processing method, and program product
Van Phan et al. Collecting handwritten nom character patterns from historical document pages
JP2001126010A (en) Document processor, document definition generation method and area extraction method and storage medium
US7865130B2 (en) Material processing apparatus, material processing method, and material processing program product
JP3476595B2 (en) Image area division method and image binarization method
JP3730073B2 (en) Template creation method, apparatus, and recording medium recording template creation program
JP3090070B2 (en) Form identification method and device
JP2005250786A (en) Image recognition method
JP4194309B2 (en) Document direction estimation method and document direction estimation program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060829

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060904

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090908

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100908

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100908

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110908

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120908

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120908

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130908

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees