JP2000293625A - Slip processor and program recording medium therefor - Google Patents

Slip processor and program recording medium therefor

Info

Publication number
JP2000293625A
JP2000293625A JP11100706A JP10070699A JP2000293625A JP 2000293625 A JP2000293625 A JP 2000293625A JP 11100706 A JP11100706 A JP 11100706A JP 10070699 A JP10070699 A JP 10070699A JP 2000293625 A JP2000293625 A JP 2000293625A
Authority
JP
Japan
Prior art keywords
classification
recognizing
density
determined
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP11100706A
Other languages
Japanese (ja)
Inventor
Yukihiro Shinto
幸博 新堂
Masaki Tsutsumi
勝紀 筒見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP11100706A priority Critical patent/JP2000293625A/en
Publication of JP2000293625A publication Critical patent/JP2000293625A/en
Abandoned legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

PROBLEM TO BE SOLVED: To surely specify the classification of plural kinds of slips by recognizing the features of the shapes of the slips by plural methods even at the time of character recognizing the plural kinds of slips by slip formats corresponding to the classification at once. SOLUTION: A CPU 1 recognizes the shapes of slip images read by an image scanner 7 for each kind based on preliminarily decided plural kinds of shape recognizing methods(slip size classification, corner cut classification, and hole classification), and decides the classification of the slips according to the combination of each recognized result. Then, the CPU 1 character-recognizes the slip images based on slip formats corresponding to the decided classification.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、帳票イメージを
読み取って文字認識する帳票処理装置およびそのプログ
ラム記録媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a form processing apparatus for reading a form image and recognizing characters, and a program recording medium therefor.

【0002】[0002]

【従来の技術】従来、この種の帳票処理装置は、作業効
率を向上させるために処理速度、認識率が要求されるた
め、処理対象となる帳票毎に、文字認識領域を定義する
帳票フォーマットを登録しておき、この帳票フォーマッ
トに基づいて文字認識を行うようにしている。ここで、
多種多様の帳票を自動的に給紙して文字認識を行う場
合、帳票の種類(分類)を自動的に特定するようにして
いるが、この分類特定を行う技術としては、従来、以下
に示すものが知られている。すなわち、帳票サイズを認
識することによってサイズ毎に分類する方法、帳票ID
を帳票上に予め印刷形成しておき、この帳票IDを読み
取って認識することにより帳票ID毎に分類する方法、
文字認識率を評価することによって分類する方法が知ら
れている。
2. Description of the Related Art Conventionally, this type of form processing apparatus requires a processing speed and a recognition rate in order to improve work efficiency. Therefore, a form format for defining a character recognition area for each form to be processed is required. It is registered and character recognition is performed based on this form format. here,
In the case where various forms are automatically fed and character recognition is performed, the type (classification) of the form is automatically specified. Things are known. That is, a method of classifying each form by recognizing the form size, form ID
Is printed on a form in advance, and the form ID is read and recognized to classify each form ID.
A method of classifying by evaluating a character recognition rate is known.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、帳票サ
イズによる分類方法は、同一サイズで異なる帳票が存在
していれば、分類不能となり、また帳票IDによる分類
方法は、予め帳票IDが印刷されている帳票のみが処理
対象となり、帳票IDが付加されていなければ、それを
分類することができない。更に、認識率による分類方法
は、処理速度の問題で一度に分類可能な数が限られるた
め、分類数が多くなる場合には不適当なものであった。
第1の発明の課題は、一度に複数種の帳票をその分類に
応じた帳票フォーマットで文字認識する場合であって
も、帳票の形状的な特徴を複数の方法で認識すること
で、その分類を確実に特定できるようにすることであ
る。第2の発明の課題は、一度に複数種の帳票をその分
類に応じた帳票フォーマットで文字認識する場合であっ
ても、帳票の特定領域の濃度を認識することで、その分
類を確実に特定できるようにすることである。
However, the classification method based on the form size cannot be classified if different forms of the same size exist, and the classification method based on the form ID has the form ID printed in advance. Only the form is to be processed, and unless the form ID is added, it cannot be classified. Further, the classification method based on the recognition rate is unsuitable when the number of classifications is large because the number that can be classified at one time is limited due to the problem of processing speed.
An object of the first invention is to recognize a shape characteristic of a form by a plurality of methods even when characters of a plurality of forms are recognized at once in a form format corresponding to the classification. Is to be surely identified. A second object of the present invention is to identify a class by reliably recognizing the density of a specific area of a form even when performing character recognition of a plurality of forms at once in a form format corresponding to the classification. Is to be able to do it.

【0004】[0004]

【課題を解決するための手段】この発明の手段は次の通
りである。請求項1記載の発明は、帳票イメージを読み
取る読取手段と、この読取手段によって読み取られた帳
票イメージの形状を予め決められた複数種の形状認識方
法に基づいて種類別に認識する形状認識手段と、この形
状認識手段によって認識された各認識結果の組み合せに
よって当該帳票の分類を決定する分類決定手段と、この
分類決定手段によって決定された分類に対応する帳票フ
ォーマットに基づいて帳票イメージを文字認識する文字
認識手段とを具備するものである。なお、前記形状認識
手段は複数種の形状認識方法として、帳票全体の大きさ
を認識する方法、帳票上のコーナカット部を認識する方
法、帳票の特定位置に形成した穴部を認識する方法のう
ち少なくてもその2以上の方法を組み合せることによっ
て帳票の形状を認識するようにしてもよい。請求項1記
載の発明においては、帳票イメージが読み取られると、
この帳票イメージの形状を予め決められた複数種の形状
認識方法に基づいて種類別に認識し、その各認識結果の
組み合せによって当該帳票の分類を決定し、決定された
分類に対応する帳票フォーマットに基づいて帳票イメー
ジを文字認識する。したがって、一度に複数種の帳票を
その分類に応じた帳票フォーマットで文字認識する場合
であっても、帳票の形状的な特徴を複数の方法で認識す
ることで、その分類を確実に特定することができる。
The means of the present invention are as follows. The invention according to claim 1 is a reading means for reading a form image, a shape recognizing means for recognizing the form of the form image read by the reading means for each type based on a plurality of predetermined shape recognition methods, Classification determining means for determining the classification of the form based on a combination of the respective recognition results recognized by the shape recognition means, and a character for recognizing a form image based on a form format corresponding to the classification determined by the classification determining means And recognition means. The shape recognizing means includes a plurality of types of shape recognizing methods, a method of recognizing the size of the entire form, a method of recognizing a corner cut portion on the form, and a method of recognizing a hole formed at a specific position of the form. The shape of the form may be recognized by combining at least two of the methods. In the invention according to claim 1, when the form image is read,
The shape of this form image is recognized for each type based on a plurality of predetermined shape recognition methods, and the classification of the form is determined based on a combination of the respective recognition results, and the form is determined based on a form format corresponding to the determined classification. To recognize characters in the form image. Therefore, even when character recognition is performed on multiple forms at once in a form format corresponding to the classification, it is necessary to recognize the form characteristics of the form in multiple ways to identify the classification reliably. Can be.

【0005】請求項3記載の発明は、帳票イメージを読
み取る読取手段と、この読取手段によって読み取られた
帳票イメージに基づいてその特定領域の濃度を認識する
濃度認識手段と、この濃度認識手段によって認識された
濃度に基づいて当該帳票の分類を決定する分類決定手段
と、この分類決定手段によって決定された分類に対応す
る帳票フォーマットに基づいて帳票イメージを文字認識
する文字認識手段とを具備するものである。なお、前記
読取手段によって読み取られた帳票イメージに基づいて
帳票の形状を認識する形状認識手段を設け、前記分類決
定手段は前記形状認識手段によって認識された形状と前
記濃度認識手段によって認識された濃度との組み合せに
よって当該帳票の分類を決定するようにしてもよい。請
求項3記載の発明は、帳票データが読み取られると、こ
の帳票イメージに基づいてその特定領域の濃度を認識
し、認識された濃度に基づいて当該帳票の分類を決定
し、決定された分類に対応する帳票フォーマットに基づ
いて帳票イメージを文字認識する。したがって、一度に
複数種の帳票をその分類に応じた帳票フォーマットで文
字認識する場合であっても、帳票の特定領域の濃度を認
識することで、その分類を確実に特定することができ
る。
According to a third aspect of the present invention, there is provided a reading means for reading a form image, a density recognizing means for recognizing the density of a specific area based on the form image read by the reading means, and a recognizing means for recognizing the density by the density recognizing means. Classification determining means for determining the classification of the form based on the determined density, and character recognition means for character recognizing a form image based on a form format corresponding to the classification determined by the classification determination means. is there. It is to be noted that a shape recognizing means for recognizing the form of the form based on the form image read by the reading means is provided, and the classification deciding means comprises a shape recognized by the shape recognizing means and a density recognized by the density recognizing means. The classification of the form may be determined by a combination of the above. According to the invention of claim 3, when the form data is read, the density of the specific area is recognized based on the form image, the classification of the form is determined based on the recognized density, and the determined classification is determined. The form image is recognized as a character based on the corresponding form format. Therefore, even when characters of a plurality of forms are recognized at once in a form format corresponding to the classification, the classification can be reliably specified by recognizing the density of a specific area of the form.

【0006】[0006]

【発明の実施の形態】(第1実施形態)以下、図1〜図
12を参照してこの発明の第1実施形態を説明する。図
1はイメージスキャナ付き帳票処理装置の全体構成を示
したブロック図である。CPU1は各種プログラムにし
たがってこの帳票処理装置の全体動作を制御する中央演
算処理装置である。記憶装置2はオペレーティングシス
テムや各種アプリケーションプログラム、データベー
ス、文字フォントデータ等が予め格納されている記憶媒
体3やその駆動系を有している。この記憶媒体3は固定
的に設けたもの、もしくは着脱自在に装着可能なもので
あり、フロッピーディスク、ハードディスク、光ディス
ク、RAMカード等の磁気的・光学的記憶媒体、半導体
メモリによって構成されている。また、記憶媒体3内の
プログラムやデータは、必要に応じてCPU1の制御に
より、RAM4にロードされる。更に、CPU1は通信
回線等を介して他の機器側から送信されて来たプログラ
ム、データを受信して記憶媒体3に格納したり、他の機
器側に設けられている記憶媒体に格納されているプログ
ラム、データを通信回線等を介して使用することもでき
る。また、CPU1にはその入出力周辺デバイスである
入力装置5、表示装置6、イメージスキャナ7がバスラ
インを介して接続されており、入出力プログラムにした
がってCPU1はそれらの動作を制御する。入力装置5
は文字列データ等を入力したり、各種コマンドを入力す
るキーボード、マウス等のポインティングデバイスを有
している。表示装置6は液晶表示装置やCRT表示装置
あるいはプラズマ表示装置等である。イメージスキャナ
7は帳票上を走査することによって帳票イメージを読み
取る定置式スキャナである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS (First Embodiment) A first embodiment of the present invention will be described below with reference to FIGS. FIG. 1 is a block diagram showing the overall configuration of a form processing apparatus with an image scanner. The CPU 1 is a central processing unit that controls the overall operation of the form processing device according to various programs. The storage device 2 includes a storage medium 3 in which an operating system, various application programs, a database, character font data, and the like are stored in advance, and a drive system thereof. The storage medium 3 is fixedly provided or removably mountable, and includes a magnetic / optical storage medium such as a floppy disk, a hard disk, an optical disk, and a RAM card, and a semiconductor memory. The programs and data in the storage medium 3 are loaded into the RAM 4 under the control of the CPU 1 as needed. Further, the CPU 1 receives programs and data transmitted from other devices via a communication line or the like and stores them in the storage medium 3 or stored in a storage medium provided in other devices. Existing programs and data can be used via a communication line or the like. An input device 5, a display device 6, and an image scanner 7, which are input / output peripheral devices, are connected to the CPU 1 via a bus line, and the CPU 1 controls these operations according to an input / output program. Input device 5
Has a pointing device such as a keyboard and a mouse for inputting character string data and the like and for inputting various commands. The display device 6 is a liquid crystal display device, a CRT display device, a plasma display device, or the like. The image scanner 7 is a stationary scanner that reads a form image by scanning the form.

【0007】図2は記憶装置2の一部構成図で、画像メ
モリ2−1はイメージスキャナ7によって読み取られた
帳票イメージを記憶保持するもので、CPU1はこの画
像メモリ2−1内の帳票イメージを解析することによっ
て当該帳票の分類を決定する。その際、CPU1は帳票
の形状を予め決められている複数種の形状認識方法によ
って認識したり、その他の認識方法を併用することによ
り帳票分類を決定する。図3はこの実施形態において使
用可能な帳票を例示したもので、図示の例では9種類の
帳票を示している。図4は図3で示した9種類の帳票を
その特徴に応じて分類するための分類定義情報を記憶す
る異種帳票分類定義ファイル2−2の内容を示したもの
で、CPU1はこの異種帳票分類定義ファイル2−2を
参照して帳票分類を決定する。ここで、異種帳票分類定
義ファイル2−2は帳票種類に対応して「帳票サイズ分
類」、「帳票形状分類」、「矩形領域濃度分類」、「認
識率分類」を定義する定義情報を記憶する構成で、CP
U1は帳票分類を決定する際に、異種帳票分類定義ファ
イル2−2内の各分類項目をその並び順にしたがって順
次検索することにより分類を階層的に特定してゆく。す
なわち、9種類の帳票は、そのサイズ「210×297
mm」、「210×148.5mm」、「180×150m
m」に応じて3つのグループに分けられており、帳票0
01、002、003は「210×297mm略A4サイ
ズ」のグループに属し、また帳票011、012、01
3は「210×148.5mm略A5サイズ」のグループ
に属し、更に帳票021、022、023は「180×
150mm略B6サイズ」のグループに属する。このよう
に9種類の帳票は「帳票サイズ分類」によって3つのグ
ループに分けられる他、同一サイズの帳票は「帳票形状
分類」、「矩形領域濃度分類」、「認識率分類」によっ
て分けられる。
FIG. 2 is a partial block diagram of the storage device 2. The image memory 2-1 stores and holds a form image read by the image scanner 7, and the CPU 1 stores the form image in the image memory 2-1. Is analyzed to determine the classification of the form. At this time, the CPU 1 determines the form classification by recognizing the form shape using a plurality of predetermined shape recognition methods or using other recognition methods together. FIG. 3 exemplifies a form that can be used in this embodiment. In the illustrated example, nine forms are shown. FIG. 4 shows the contents of a heterogeneous form classification definition file 2-2 storing classification definition information for classifying the nine types of forms shown in FIG. 3 according to their characteristics. The form classification is determined with reference to the definition file 2-2. Here, the heterogeneous form classification definition file 2-2 stores definition information defining “form size classification”, “form shape classification”, “rectangular area density classification”, and “recognition rate classification” corresponding to the form type. In the configuration, CP
When determining the form classification, U1 specifies the classification hierarchically by sequentially searching each classification item in the heterogeneous form classification definition file 2-2 according to the arrangement order. That is, the nine types of forms have a size of “210 × 297”.
mm "," 210 x 148.5 mm "," 180 x 150 m
m), and is divided into three groups.
01, 002, and 003 belong to the group of “210 × 297 mm approximately A4 size”, and the forms 011, 012, 01
3 belongs to the group of “210 × 148.5 mm approximately A5 size”, and the forms 211, 022, and 023 are “180 ×
150mm substantially B6 size ". As described above, the nine types of forms are divided into three groups by "form size classification", and forms of the same size are classified by "form shape classification", "rectangular area density classification", and "recognition rate classification".

【0008】また、「帳票形状分類」とは帳票上のコー
ナ部がカットされているか、所定位置に止め穴が有るか
によって分類することを意味するもので、図3、図4の
例では帳票の右上コーナ部にカットが有るか、右上に止
め穴が有るかに応じて分類するようにしている。また、
「矩形領域濃度分類」とは、帳票上の特定領域(右下の
矩形領域)の濃度に応じて分類することを意味するもの
で、この例では矩形領域濃度が「しきい値より小さ
い」、「しきい値以上」かに応じて分類するようにして
いる。「認識率分類」とは、帳票全体を文字認識した際
の認識率を評価することによって分類することを意味す
るもので、この例では認識率分類を使用するか否かによ
って分類するようにしている。図3の例において、帳票
サイズ「210×297mm」に属する3種類の帳票は、
その帳票形状に差異がないため、「帳票形状分類」は使
用せず、「矩形領域濃度分類」、「認識率分類」によっ
て分けられ、また、帳票サイズ「210×148.5m
m」に属する3種類の帳票は、「帳票形状分類(左上コ
ーナカット有無)」、「矩形領域濃度分類」によって分
けられ、更に帳票サイズ「180×150mm」に属する
3種類の帳票は、「帳票形状分類(左上止め穴有
無)」、「矩形領域濃度分類」によって分けられる。
[0008] The "form form classification" means that the form is classified according to whether a corner portion on the form is cut or whether there is a stop hole at a predetermined position, and in the examples of FIGS. Are classified according to whether there is a cut in the upper right corner or a stop hole in the upper right. Also,
“Rectangular area density classification” means that classification is performed according to the density of a specific area (lower right rectangular area) on a form. In this example, the rectangular area density is “smaller than threshold”, Classification is made according to whether the value is “above the threshold”. "Recognition rate classification" means that the entire form is classified by evaluating the recognition rate when character recognition is performed. In this example, the classification is made according to whether or not to use the recognition rate classification. I have. In the example of FIG. 3, three types of forms belonging to the form size “210 × 297 mm” are:
Since there is no difference in the form shapes, the "form form classification" is not used, but is divided by the "rectangular area density classification" and the "recognition rate classification", and the form size is "210 x 148.5 m".
The three types of forms belonging to the form size “180 × 150 mm” are further divided into “forms”, “form shape classification (upper left corner cut presence / absence)” and “rectangular area density classification”. Shape classification (presence or absence of upper left stop hole) "and" rectangular region density classification ".

【0009】矩形領域濃度定義ファイル2−3は帳票上
の矩形領域および濃度しきい値を定義する定義情報を記
憶するもので、図5はこの矩形領域濃度定義ファイル2
−5のデータ構造を説明するための図である。ここで、
図5(A)に示す帳票上の各領域のうち、支払先名等が
印刷されている印刷部分を含む領域を濃度判定用の矩形
領域と定義するために、矩形領域濃度定義ファイル2−
3には矩形の左上位置を開始位置とする位置情報(横、
縦情報)と、幅情報、高さ情報が記憶されている。な
お、位置情報、幅情報、高さ情報はmm単位であり、位置
情報は基準点からの横方向、縦方向の距離である。ま
た、矩形領域濃度定義ファイル2−3には濃度しきい値
として「30%」が設定されている。帳票フォーマット
ファイル2−4は帳票の種類毎にその帳票フォーマット
を記憶するもので、CPU1は異種帳票分類定義ファイ
ル2−2を参照することによって決定した帳票分類に基
づいて帳票フォーマットファイル2−4をアクセスし、
その分類に対応する種類の帳票フォーマットを読み出
し、この帳票フォーマットに基づいて帳票イメージを文
字認識する。なお、帳票フォーマットは帳票上に定義さ
れている文字認識領域(図5(A)参照)を矩形領域と
してその位置および大きさを定義するもので、各種帳票
に対応して予め任意に登録されたものである。
The rectangular area density definition file 2-3 stores definition information for defining a rectangular area on a form and a density threshold, and FIG.
It is a figure for explaining the data structure of -5. here,
In order to define a region including a printed portion on which a payee name or the like is printed among the regions on the form shown in FIG. 5A as a rectangular region for density determination, a rectangular region density definition file 2-
3 includes position information (horizontal,
Vertical information), width information, and height information. The position information, the width information, and the height information are in units of mm, and the position information is the distance in the horizontal and vertical directions from the reference point. In the rectangular area density definition file 2-3, "30%" is set as a density threshold. The form format file 2-4 stores the form format for each form type, and the CPU 1 stores the form format file 2-4 based on the form classification determined by referring to the heterogeneous form classification definition file 2-2. Access
A form format corresponding to the classification is read out, and the form image is recognized based on the form format. The form format defines the position and size of a character recognition area (see FIG. 5A) defined on the form as a rectangular area, and is arbitrarily registered in advance corresponding to various forms. Things.

【0010】次に、この帳票処理装置の動作を図6〜図
10に示すフローチャートにしたがって説明する。ここ
で、これらのフローチャートに記述されている各機能を
実現するためのプログラムは、読み取り可能なプログラ
ムコードの形態で記憶媒体3に格納されており、CPU
1はこのプログラムコードにしたがった動作を逐次実行
する。なお、このことは後述する他の実施形態において
も同様である。図6は帳票イメージを読み取って文字認
識する際の動作を示したフローチャートである。先ず、
イメージスキャナ7によって帳票イメージが読み取られ
ると、CPU1は帳票イメージを取り込んで画像メモリ
2−1に格納する(ステップA1)。そして、この画像
メモリ2−1内の帳票イメージのサイズを解析するが
(ステップA2)、その際、帳票の四隅を特定してその
横サイズおよび縦サイズを計測する。これによって帳票
サイズが得られると、異種帳票分類定義ファイル2−2
を参照し、そのサイズに該当する「帳票サイズ分類」を
検索し(ステップA3)、該当する分類が有るかを調べ
る(ステップA4)。ここで、該当分類が無ければ、使
用不可な帳票と判断し、図8のステップA31に進み、
エラー終了となるが、該当するサイズ分類が有れば、そ
れを分類候補として決定し、RAM4内のワーク域に格
納しておく(ステップA5)。次に、異種帳票分類定義
ファイル2−2を参照し、決定サイズグループ内に「コ
ーナカットに関する帳票形状分類(コーナカット分
類)」が設定されているかを調べる(ステップA6)。
いま、帳票サイズが「210×297mm」であるサイズ
グループG1内には、図4に示すように「コーナカット
分類」は設定されていないので、図7のステップA12
に進み、「止め穴に関する帳票形状分類(止め穴分
類)」の設定有無を調べる。この場合、決定サイズグル
ープに基づいて異種帳票分類定義ファイル2−2を検索
し、止め穴分類の設定有無を調べるが、いま、サイズグ
ループG1には「止め穴分類」も設定されていないの
で、ステップA18に進み、決定サイズグループ内に
「矩形領域濃度分類」が設定されているかを調べる。
Next, the operation of the form processing apparatus will be described with reference to the flow charts shown in FIGS. Here, a program for realizing each function described in these flowcharts is stored in the storage medium 3 in the form of a readable program code.
1 sequentially executes operations according to the program code. This is the same in other embodiments described later. FIG. 6 is a flowchart showing an operation when reading a form image and recognizing characters. First,
When the form image is read by the image scanner 7, the CPU 1 takes in the form image and stores it in the image memory 2-1 (step A1). Then, the size of the form image in the image memory 2-1 is analyzed (step A2). At this time, the four corners of the form are specified and the horizontal and vertical sizes are measured. When the form size is obtained by this, the heterogeneous form classification definition file 2-2
, A "form size classification" corresponding to the size is searched (step A3), and it is checked whether there is a corresponding classification (step A4). Here, if there is no corresponding classification, it is determined that the form is unusable, and the process proceeds to step A31 in FIG.
Although the process ends with an error, if there is a corresponding size classification, it is determined as a classification candidate and stored in the work area in the RAM 4 (step A5). Next, referring to the heterogeneous form classification definition file 2-2, it is checked whether "form form classification regarding corner cut (corner cut classification)" is set in the determined size group (step A6).
Since the “corner cut classification” is not set in the size group G1 having the form size of “210 × 297 mm” as shown in FIG. 4, the step A12 in FIG.
Then, it is checked whether or not the “form shape classification regarding stop holes (stop hole classification)” is set. In this case, the heterogeneous form classification definition file 2-2 is searched based on the determined size group to check whether or not the stop hole classification has been set. Proceeding to step A18, it is checked whether "rectangular area density classification" is set in the determined size group.

【0011】ここで、サイズグループG1には「矩形領
域分類」が設定されているので、矩形領域濃度定義ファ
イル2−3を参照し、帳票イメージ上の特定領域を特定
すると共に(ステップA19)、その領域内の濃度を計
測する(ステップA20)。この場合、矩形領域濃度定
義ファイル2−3内の開始位置情報、幅情報、高さ情報
を基に特定領域を特定すると、この領域内の濃度を検出
するが、その際、領域内のビットマップイメージにおい
て、黒ドットの占有率を計測することによって濃度検出
を行う。そして、計測濃度と矩形領域濃度定義ファイル
2−3内に設定されている「濃度しきい値」とを比較
し、その比較結果(しきい値以下、しきい値より小さ
い)に応じて異種帳票分類定義ファイル2−2を参照
し、その濃度分類に該当する帳票の種類を検索する(ス
テップA21)。その結果、該当する帳票が複数有るか
を調べるが(ステップA22)、計測濃度が「しきい値
以上」であれば、サイズグループG1内には該当する帳
票が1種類「帳票001」しか存在しないため、その分
類を確定分類として決定するが、計測濃度が「しきい値
より小さい」であれば、サイズグループG1内には、該
当する帳票が2種類「帳票002、003」が存在し、
この時点では分類を確定することができないため、該当
する帳票の種類を分類候補として決定し、RAM4内の
ワーク域に記憶保持しておく(ステップA23)。
Here, since "rectangular area classification" is set for the size group G1, the specific area on the form image is specified by referring to the rectangular area density definition file 2-3 (step A19). The density in the area is measured (step A20). In this case, if a specific area is specified based on the start position information, the width information, and the height information in the rectangular area density definition file 2-3, the density in this area is detected. In the image, density detection is performed by measuring the occupation rate of black dots. Then, the measured density is compared with the “density threshold” set in the rectangular area density definition file 2-3, and according to the comparison result (less than or equal to the threshold and smaller than the threshold), different forms are used. With reference to the classification definition file 2-2, the type of form corresponding to the density classification is searched (step A21). As a result, it is checked whether there are a plurality of corresponding forms (step A22). If the measured density is “above the threshold value”, only one type of corresponding form “form 001” exists in the size group G1. Therefore, the classification is determined as the definitive classification. If the measured density is “smaller than the threshold”, there are two corresponding forms “form 002, 003” in the size group G1,
At this point, the classification cannot be determined, so the corresponding form type is determined as a classification candidate and stored in the work area in the RAM 4 (step A23).

【0012】このようにサイズグループG1において
「矩形領域濃度分類」によって該当分類を確定すること
ができた場合(帳票001の場合)には、図8のステッ
プA28に進み、確定分類に基づいて帳票フォーマット
ファイル2−4を検索し、該当する帳票フォーマットを
読み出す。そして、この帳票フォーマットにしたがって
帳票イメージを文字認識し(ステップA29)、その認
識結果を1帳票分、候補画面に表示出力させる(ステッ
プA30)。一方、サイズグループG1において「矩形
領域濃度分類」では複数の帳票が存在し、その分類を確
定することができなかった場合(帳票002、003の
場合)には、図7のステップA24に進み、決定グルー
プサイズ/候補分類内に「認識率分類」が設定されてい
るかを調べる。この場合、RAM4のワーク域内に記憶
保持されている帳票の種類「帳票002、003」に対
応して異種帳票分類定義ファイル2−2内に「認識率分
類使用する」が設定されているかを調べる。いま、図4
に示すように、それらに対応付けて「使用する」が設定
されているので、ステップA25に進み、「認識率分類
使用する」が設定されている帳票の種類を異種帳票分類
定義ファイル2−2から取得し、その種類に基づいて帳
票フォーマットファイル2−4をアクセスし、対応する
帳票フォーマットを全て読み出す。そして、各帳票フォ
ーマットにしたがって帳票イメージを文字認識すると共
に(ステップA26)、各認識結果のうち認識率が最も
高い帳票の種類を確定分類として決定する(ステップA
27)。これによってサイズグループG1内における
「帳票002、003」はこの「認識率分類」によって
そのいずれかが確定分類として決定される。そして、確
定分類に対応する帳票フォーマットにしたがって文字認
識し、その認識結果を候補表示する(ステップA28〜
A30)。
If the corresponding classification can be determined by the “rectangular area density classification” in the size group G1 (in the case of the form 001), the process proceeds to step A28 in FIG. The format file 2-4 is searched, and the corresponding form format is read. Then, the form image is character-recognized according to this form format (step A29), and the recognition result is displayed and output on the candidate screen for one form (step A30). On the other hand, when there are a plurality of forms in the “rectangular area density classification” in the size group G1 and the classification cannot be determined (in the case of the forms 002 and 003), the process proceeds to step A24 in FIG. It is checked whether “recognition rate classification” is set in the determined group size / candidate classification. In this case, it is checked whether "use recognition rate classification" is set in the heterogeneous form classification definition file 2-2 corresponding to the form type "form 002, 003" stored and held in the work area of the RAM 4. . Now, FIG.
As shown in (2), since "use" is set in association with them, the process proceeds to step A25, and the type of the form for which "use recognition rate classification is used" is set to the heterogeneous form classification definition file 2-2. And accesses the form format file 2-4 based on the type, and reads out all the corresponding form formats. Then, the form image is character-recognized according to each form format (step A26), and the type of the form having the highest recognition rate among the recognition results is determined as the definitive classification (step A).
27). As a result, one of the “forms 002, 003” in the size group G1 is determined as the definitive classification by the “recognition rate classification”. Then, characters are recognized in accordance with the form format corresponding to the finalized classification, and the recognition results are displayed as candidates (steps A28 to A28).
A30).

【0013】次に、他の帳票が読み取られた場合にその
帳票サイズが「210×148.5mm」に該当するサイ
ズグループG2に属する帳票であれば(ステップA1〜
A5)、図4に示すようにこのサイズグループG2内に
「コーナカット分類」が設定されているので、ステップ
A6でそのことが検出されてステップA7に進み、帳票
イメージの四隅(コーナ部)を解析し、コーナカットが
有るかを調べ(ステップA8)、有れば、異種帳票分類
定義ファイル2−2を参照し、コーナカット分類に該当
する帳票の種類を検索する(ステップA9)。図9はこ
の場合の検索処理を示したフローチャートである。先
ず、異種帳票分類定義ファイル2−2から決定サイズグ
ループ内の「コーナカット分類」を1項目分抽出する
(ステップB1)。そして、上述のステップA7で得ら
れた帳票イメージの解析結果と異種帳票分類定義ファイ
ル2−2から抽出した「コーナカット分類」とを比較し
(ステップB2)、そのカット位置は一致するかを調べ
(ステップB3)、不一致であればステップB5に進む
が、一致が検出された場合には、該当する帳票の種類を
異種帳票分類定義ファイル2−2から取得する(ステッ
プB4)。この場合、異種帳票分類定義ファイル2−2
には「帳票011」に対応するコーナカット分類として
「左上コーナカット」が設定されているので、その帳票
分類として「帳票011」を取得する。次に、決定サイ
ズグループ内に他の「コーナカット分類」が設定されて
いるかを調べ(ステップB5)、有ればステップB1に
戻り上述の動作を繰り返す。図11はコーナカット有無
およびコーナカット位置に応じた帳票の種類を示し、
(A)は横長用紙で横方向印字の帳票の左上位置にコー
ナカットが有る場合、(B)はカット無しの場合、
(C)は横長用紙で縦方向印字の帳票の右上位置にコー
ナカットが有る場合である。なお、図3で示した9種類
の帳票の中には、図11(A)に示した左上カットの帳
票のみを例示したが、コーナカットの有無およびコーナ
カット位置に応じて帳票を5種類に分類可能である。
Next, when another form is read, if the form size belongs to the size group G2 corresponding to "210.times.148.5 mm" (steps A1 to A4).
A5) As shown in FIG. 4, since "corner cut classification" is set in this size group G2, this is detected in step A6 and the process proceeds to step A7, where the four corners (corner portions) of the form image are deleted. It is analyzed to determine whether there is a corner cut (step A8). If there is, the type of the form corresponding to the corner cut classification is searched by referring to the different form classification definition file 2-2 (step A9). FIG. 9 is a flowchart showing the search processing in this case. First, "corner cut classification" in the determined size group for one item is extracted from the heterogeneous form classification definition file 2-2 (step B1). Then, the analysis result of the form image obtained in step A7 described above is compared with the "corner cut classification" extracted from the heterogeneous form classification definition file 2-2 (step B2), and it is determined whether the cut positions match. (Step B3) If not, the process proceeds to Step B5. If a match is detected, the corresponding form type is acquired from the heterogeneous form classification definition file 2-2 (Step B4). In this case, the heterogeneous form classification definition file 2-2
Since “upper left corner cut” is set as the corner cut classification corresponding to “form 011”, “form 011” is acquired as the form classification. Next, it is checked whether another “corner cut classification” is set in the determined size group (step B5). If there is, the process returns to step B1 and repeats the above operation. FIG. 11 shows types of forms according to the presence or absence of a corner cut and a corner cut position,
(A) is a case where there is a corner cut at the upper left position of a horizontally printed form on a landscape paper, (B) is a case where there is no cut,
(C) is a case where there is a corner cut at the upper right position of a vertically printed form on landscape paper. Note that among the nine types of forms shown in FIG. 3, only the form of the upper left cut shown in FIG. 11A is illustrated, but the forms are divided into five types according to the presence or absence of the corner cut and the corner cut position. Classification is possible.

【0014】いま、サイズグループG2には他の「コー
ナカット分類」は設定されていないので、この時点で図
9の処理は終了し、図6のステップA10に進む。ここ
では、上述のように「コーナカット分類」に該当する帳
票の種類を検索した結果、該当帳票が複数存在するか、
つまり分類候補を確定することができたかを調べるが、
いまサイズグループG2においては、分類候補は「帳票
011」の1つに絞られるため、それを確定分類として
決定し、図8のステップA28〜A30に移る。また、
複数の帳票が検索された場合には、各帳票の種類を分類
候補として決定し、RAM4内のワーク域に記憶保持し
ておく(ステップA11)。この場合、サイズグループ
G2内の「帳票012、013」が分類候補として決定
される。そして、図7のステップA12に進むが、分類
候補である「帳票012、013」には「止め穴分類」
は設定されていないが、「矩形領域濃度分類」が設定さ
れているので(ステップA18)、濃度分類に応じた分
類決定処理(ステップA19〜A22)が実行される。
この場合、計測濃度が「しきい値より小さい」、「しき
い値以上」のいずれであっても該当する帳票の種類は1
種類しか存在しないため、この時点で分類候補が確定さ
れる。すなわち、濃度しきい値以上であれば、「帳票0
12」、しきい値より小さければ、「帳票013」が確
定分類として決定され、図8のステップA28〜A30
に移る。
Since no other "corner cut classification" has been set for the size group G2, the process of FIG. 9 ends at this point, and the process proceeds to step A10 of FIG. Here, as described above, as a result of searching for the type of form corresponding to “corner cut classification”, whether there is a plurality of applicable forms,
In other words, check whether the classification candidate was confirmed,
Now, in the size group G2, the classification candidates are narrowed down to one of the “form 011”, so that it is determined as the definitive classification, and the process proceeds to steps A28 to A30 in FIG. Also,
When a plurality of forms are searched, the type of each form is determined as a classification candidate, and stored in the work area in the RAM 4 (step A11). In this case, “forms 012 and 013” in the size group G2 are determined as classification candidates. Then, the process proceeds to step A12 in FIG. 7, but the classification candidates “forms 012 and 013” include “stop hole classification”.
Is not set, but since “rectangular area density classification” is set (step A18), a classification determination process (steps A19 to A22) corresponding to the density classification is executed.
In this case, regardless of whether the measured density is “smaller than the threshold” or “above the threshold”, the applicable form type is 1
Since there are only types, classification candidates are determined at this point. That is, if the density is equal to or higher than the density threshold value, “Form 0
12 ", if it is smaller than the threshold value," Form 013 "is determined as a definitive classification, and steps A28 to A30 in FIG.
Move on to

【0015】次に、他の帳票が読み取られた場合にその
帳票サイズが「180×150mm」に該当するサイズグ
ループG3に属する帳票であれば(ステップA1〜A
5)、図4に示すように、このサイズグループG3には
「コーナカット分類」の代わりに「止め穴分類」が帳票
形状分類として設定されているので、図7のステップA
12でそのことが検出されて止め穴分類に応じた分類決
定処理が行われる(ステップA13〜A17)。すなわ
ち、帳票イメージの所定部分(止め穴が形成される部
分)を解析し(ステップA13)、止め穴有無を調べ
(ステップA14)、無ければ、ステップA18に進む
が、この場合、止め穴有りが検出されるので、異種帳票
分類定義ファイル2−2を参照し、止め穴分類に該当す
る帳票の種類を検索する(ステップA15)。図10は
この場合の検索処理を示したフローチャートである。先
ず、異種帳票分類定義ファイル2−2から決定サイズグ
ループ内の「止め穴分類」を1項目抽出(ステップC
1)、帳票イメージの解析結果と抽出した「止め穴分
類」とを比較し(ステップC2)、その穴位置は一致す
るかを調べる(ステップC3)。ここで、不一致であれ
ばステップC5に進むが、一致が検出された場合には該
当する帳票の種類を異種帳票分類定義ファイル2−2か
ら取得する(ステップC4)。そして、決定サイズグル
ープ内に他の「止め穴分類」が設定されているかを調べ
(ステップC5)、有ればステップC1に戻り、上述の
動作を繰り返す。図12は止め穴有無およびその位置に
応じた帳票の種類を示し、(A)は止め穴無しの場合、
(B)は横長用紙で横方向印字の帳票の右上位置に止め
穴が有る場合、(C)は縦長用紙で縦方向印字の帳票の
右上位置(印字方向を問わない場合には右下位置)に止
め穴が有る場合である。なお、図3で示した9種類の帳
票の中には、左上位置に止め穴がある場合のみを例示し
たが、止め穴有無および止め穴位置に応じて帳票を5種
類に分類可能である。
Next, when another form is read, if the form size belongs to the size group G3 corresponding to "180.times.150 mm" (steps A1 to A3).
5), as shown in FIG. 4, "size of cut hole" is set as the form shape classification instead of "corner cut classification" in this size group G3, so that step A in FIG.
At 12, this is detected, and classification determination processing according to the blind hole classification is performed (steps A13 to A17). That is, a predetermined portion (portion where a stop hole is formed) of the form image is analyzed (step A13), and the presence or absence of the stop hole is checked (step A14). If there is no stop hole, the process proceeds to step A18. Since it is detected, the type of the form corresponding to the stop hole classification is searched by referring to the heterogeneous form classification definition file 2-2 (step A15). FIG. 10 is a flowchart showing the search processing in this case. First, one item of “stop hole classification” in the determined size group is extracted from the heterogeneous form classification definition file 2-2 (step C).
1) Compare the analysis result of the form image with the extracted "stop hole classification" (step C2), and check whether the hole positions match (step C3). Here, if they do not match, the process proceeds to step C5, but if a match is detected, the corresponding form type is acquired from the heterogeneous form classification definition file 2-2 (step C4). Then, it is checked whether or not another “stop hole classification” is set in the determined size group (step C5). If there is, the process returns to step C1, and the above operation is repeated. FIG. 12 shows the types of forms according to the presence / absence of a stop hole and the position thereof.
(B) is the upper right position of the vertically printed form on the portrait paper when the stop hole is at the upper right position of the horizontally printed form on the landscape paper (lower right position if the printing direction is not concerned) In this case, there is a stop hole. Although only the case where there is a stop hole at the upper left position is exemplified in the nine types of forms shown in FIG. 3, the forms can be classified into five types according to the presence or absence of the stop hole and the position of the stop hole.

【0016】いま、異種帳票分類定義ファイル2−2に
は「帳票022、023」に対応する止め穴分類として
「左上止め穴有り」が指定されているので、帳票の右上
部分に止め穴があれば、その帳票分類として「帳票02
2、023」を取得する。そして、図7のステップA1
6に進み、該当帳票が複数存在するか、つまり分類候補
を確定することができたかを調べ、分類候補が1つであ
れば、それを確定分類として決定し、図8のステップA
28〜A30に移る。いま、2種類の「帳票022、0
23」が検索された場合であるから、各帳票の種類を分
類候補として確定し、RAM4内のワーク域に記憶保持
しておく(ステップA17)。そして、ステップA18
に進むが、この分類候補である「帳票022、023」
には矩形領域濃度分類が設定されているので、濃度分類
に応じた分類決定処理(ステップA19〜A22)が実
行される。この場合、計測濃度が「しきい値より小さ
い」、「しきい値以上」のいずれであっても該当する帳
票の種類は1種類しか存在しないため、この時点で分類
候補が確定される。すなわち、濃度しきい値以上であれ
ば「帳票022」、しきい値より小さければ、「帳票0
23」が確定分類として決定され、図8のステップA2
8〜A30に移る。
Now, in the heterogeneous form classification definition file 2-2, "top left stop hole" is specified as the stop hole classification corresponding to "form 022, 023", so there is a stop hole in the upper right part of the form. If the form classification is “form 02
2,023 ". Then, step A1 in FIG.
Then, it is checked whether there are a plurality of corresponding forms, that is, whether or not the classification candidate has been determined. If there is only one classification candidate, the classification candidate is determined as the finalized classification, and step A in FIG.
Move to 28-A30. Now, there are two types of “forms 022, 0
Since "23" is retrieved, the type of each form is determined as a classification candidate, and stored in the work area in the RAM 4 (step A17). Then, Step A18
, But this classification candidate “form 022, 023”
Since the rectangular area density classification is set in the, the classification determination processing (steps A19 to A22) according to the density classification is executed. In this case, regardless of whether the measured density is “smaller than the threshold” or “above the threshold”, there is only one applicable form type, and thus the classification candidate is determined at this time. That is, if the density is equal to or more than the density threshold value, “form 022”;
23 ”is determined as the definitive classification, and the step A2 in FIG.
It moves to 8-A30.

【0017】以上のようにこの一実施形態においては、
帳票イメージが読み取られると、異種帳票分類定義ファ
イル2−2を参照し、この帳票イメージの形状を予め決
められた複数種の形状認識方法(帳票サイズ分類、コー
ナカット分類、止め穴分類による認識方法)基づいて種
類別に認識し、その認識結果の組合せによって当該帳票
の分類を決定し、決定された分類に対応する帳票フォー
マットに基づいて帳票イメージを文字認識するようにし
たから、一度に複数種の帳票をその分類に応じた帳票フ
ォーマットで文字認識する場合であっても、帳票サイズ
に限らず、その他の帳票の形状的な特徴を複数の方法で
認識することで、その分類を確実に特定することがで
き、作業効率の大幅な向上を期待することが可能とな
る。この場合、複数の形状的な認識方法を階層的に順次
実行してゆくことによって分類候補の絞り込みが可能と
なると共に、その絞り込み途中で分類を確定することも
可能となる。
As described above, in this embodiment,
When the form image is read, referring to the heterogeneous form classification definition file 2-2, the shape of the form image is determined by a plurality of predetermined shape recognition methods (a form size classification, a corner cut classification, a recognition method by a blind hole classification). ), The classification of the form is determined based on a combination of the recognition results, and the form image is character-recognized based on the form format corresponding to the determined classification. Even when a form is character-recognized in a form format according to its classification, the classification is reliably specified by recognizing not only the form size but also other form characteristics in multiple forms. It is possible to expect a significant improvement in work efficiency. In this case, by sequentially executing a plurality of geometric recognition methods in a hierarchical manner, it becomes possible to narrow down the classification candidates, and it is also possible to determine the classification during the narrowing down.

【0018】なお、上述した第1実施形態においては、
コーナカット分類としてコーナカット有無、その位置を
検出することにより5種類の帳票に分類するようにした
が、帳票にコーナカットが何個形成されているかを判定
するようにすれば、コーナカットの位置およびその数の
組み合せによって認識可能な分類数を大幅に増やすこと
ができる。このことは、止め穴についても同様である。
更に、帳票サイズとしては4種類以上であってもよく、
しかもコーナカットの形状、大きさ、止め穴の形状、大
きさを認識するようにすれば、分類数を更に増やすこと
ができる。
In the first embodiment described above,
As the corner cut classification, the presence or absence of the corner cut and its position are detected so that the form is classified into five types of forms. However, if it is determined how many corner cuts are formed in the form, the position of the corner cut can be determined. And the number of recognizable classifications can be greatly increased by a combination of the numbers. This is the same for the stop holes.
Furthermore, the form size may be four or more,
Moreover, if the shape and size of the corner cut and the shape and size of the stop hole are recognized, the number of classifications can be further increased.

【0019】(第2実施形態)以下、図13〜図15を
参照してこの発明の第2実施形態を説明する。この第2
実施形態においては、矩形領域濃度分類のみで帳票の種
類を決定するようにしたものである。なお、上述した第
1実施形態においては、分類判定対象の帳票として1つ
の矩形領域のみを示したが、この第2実施形態は2つの
矩形領域についてその濃度を判定し、それらの判定結果
の組み合せによって分類を決定するようにしたものであ
る。図13(A)はこの第2実施形態における矩形領域
濃度定義ファイル2−5を示した図である。この矩形領
域濃度定義ファイル2−3には図14(A)に示すよう
に帳票上の所定位置に設けた2種類の矩形領域No1、No
2に対応してその領域を定義する「領域定義情報」と
「濃度しきい値」を記憶する構成となっている。なお、
各領域定義情報は、上述した第1実施形態と同様に開始
位置、幅・高さ情報とから成る。図13(B)は矩形領
域No1、No2に対応する濃度しきい値に応じた条件が帳
票の種類(A、B、C)毎に定義されている矩形領域濃
度分類定義ファイル2−6を示したもので、矩形領域毎
の条件定義として矩形領域濃度定義ファイル2−5の設
定値に対し「濃度しきい値より小さい」、「濃度しきい
値以上」が定義されている。
(Second Embodiment) Hereinafter, a second embodiment of the present invention will be described with reference to FIGS. This second
In the embodiment, the form type is determined only by the rectangular area density classification. In the above-described first embodiment, only one rectangular area is shown as a form to be classified and determined. However, in the second embodiment, the densities of two rectangular areas are determined, and a combination of the determination results is performed. The classification is determined by the following. FIG. 13A is a diagram showing a rectangular area density definition file 2-5 according to the second embodiment. The rectangular area density definition file 2-3 includes two types of rectangular areas No. 1 and No. 2 provided at predetermined positions on the form as shown in FIG.
2, the "area definition information" and the "density threshold value" for defining the area are stored. In addition,
Each area definition information includes a start position and width / height information as in the first embodiment. FIG. 13B shows a rectangular area density classification definition file 2-6 in which conditions according to the density threshold values corresponding to the rectangular areas No1 and No2 are defined for each form type (A, B, C). As a condition definition for each rectangular area, “smaller than the density threshold” and “above the density threshold” are defined for the set values in the rectangular area density definition file 2-5.

【0020】図15はこの第2実施形態の動作を示した
フローチャートである。先ず、矩形領域濃度定義ファイ
ル2−5から矩形領域No1に対応する領域定義情報を読
み出して帳票イメージ上の該当領域を濃度判定領域とし
て特定する(ステップD1)。そして、特定した矩形領
域の濃度を上述した第1実施形態と同様に計測し、この
計測濃度と矩形領域濃度定義ファイル2−5内に設定さ
れている領域No1に対応する「濃度しきい値」とを比較
し、設定値以上かを判定し、その判定結果をRAM4の
ワーク域に記憶保持しておく(ステップD2)。そし
て、矩形領域濃度定義ファイル2−5内に次の矩形領域
が有るかを調べるが(ステップD3)、いま、矩形領域
No2に対応する領域定義情報が有るので、ステップD1
に戻り、その領域定義情報を読み出して帳票イメージ上
に該当領域を特定する。そして、この領域No2の濃度を
計測し、その設定値と比較して設定値以上かを判定し、
その判定結果を記憶保持しておく(ステップD2、D
3)。このようにして領域No1、No2の濃度を判定し終
ると、ステップD5に進み、矩形領域濃度分類定義ファ
イル2−6をアクセスしてその内容を読み出す。すなわ
ち、矩形領域濃度分類定義ファイル2−6内に各帳票毎
に設定されている条件定義のうち先頭帳票Aに対応する
矩形領域No1、No2の条件定義を読み出し、この条件定
義と領域No1、No2の判定結果とを比較し、それらが合
致するかを調べる(ステップD6)。ここで、いずれか
の不一致が検出されると、矩形領域濃度分類定義ファイ
ル2−6内に次の帳票が有るかを調べるが、この場合、
有りが検出されるので、矩形領域濃度分類定義ファイル
2−6から帳票Bの条件定義を読み出し、判定結果と比
較する(ステップD6)。このようにして帳票A、B、
Cを順次指定しながら上述の動作を繰り返す。この結
果、該当する帳票が無ければ、その旨が報知されるが
(ステップD7)、有ればその帳票の種類を確定分類と
して決定する(ステップD8)。図14(A)、
(B)、(C)は矩形領域No1、No2に印字データが有
るか否かによって分類される3種類の帳票を示し、
(A)は両方の領域に印字が有る場合、(B)は矩形領
域No1に印字が無い場合、(C)は両方の領域に印字が
無い場合を示している。なお、この例は3種類を示した
が、印字が有るか無いかを判定するだけでも4種類の分
類を判定することが可能となる。なお、このようにして
帳票分類が確定されると、その分類に対応する帳票フォ
ーマットが読み出され、この帳票フォーマットにしたが
って帳票イメージが文字認識されることは上述した第1
実施形態と同様である。
FIG. 15 is a flowchart showing the operation of the second embodiment. First, the area definition information corresponding to the rectangular area No. 1 is read from the rectangular area density definition file 2-5, and the corresponding area on the form image is specified as the density determination area (step D1). Then, the density of the specified rectangular area is measured in the same manner as in the first embodiment described above, and the “density threshold” corresponding to the measured density and the area No. 1 set in the rectangular area density definition file 2-5 is set. Are compared with each other to determine whether they are equal to or greater than the set value, and the determination result is stored and held in the work area of the RAM 4 (step D2). Then, it is checked whether or not the next rectangular area exists in the rectangular area density definition file 2-5 (step D3).
Since there is area definition information corresponding to No2, step D1
Then, the area definition information is read and the corresponding area is specified on the form image. Then, the density of this area No. 2 is measured and compared with the set value to determine whether the density is equal to or more than the set value.
The determination result is stored and stored (steps D2 and D2).
3). When the densities of the areas No. 1 and No. 2 have been determined in this way, the process proceeds to step D5, where the rectangular area density classification definition file 2-6 is accessed and its contents are read. That is, the condition definitions of the rectangular areas No. 1 and No. 2 corresponding to the first form A are read out of the condition definitions set for each form in the rectangular area density classification definition file 2-6, and the condition definitions and the areas No. 1 and No. 2 are read. Are compared with each other to check whether they match (step D6). Here, if any mismatch is detected, it is checked whether the next form exists in the rectangular area density classification definition file 2-6. In this case,
Since the presence is detected, the condition definition of the form B is read from the rectangular area density classification definition file 2-6 and compared with the determination result (step D6). In this way, the forms A, B,
The above operation is repeated while sequentially specifying C. As a result, if there is no corresponding form, the fact is notified (step D7), but if there is, the type of the form is determined as the fixed classification (step D8). FIG. 14 (A),
(B) and (C) show three types of forms classified according to whether or not there is print data in the rectangular areas No1 and No2.
(A) shows the case where there is printing in both areas, (B) shows the case where there is no printing in the rectangular area No1, and (C) shows the case where there is no printing in both areas. Although this example shows three types, it is possible to determine four types of classification simply by determining whether or not there is printing. When the form classification is determined in this way, the form format corresponding to the classification is read out, and the form image is recognized as a character in accordance with this form format.
This is the same as the embodiment.

【0021】以上のようにこの第2実施形態において
は、帳票イメージに基づいてその特定領域の濃度を認識
し、認識された濃度に基づいて当該帳票の分類を決定
し、決定された分類に対応する帳票フォーマットに基づ
いて帳票イメージを文字認識するようにしたから、一度
に複数種の帳票をその分類に応じた帳票フォーマットで
文字認識する場合であっても、その分類を確実に特定す
ることができ、作業効率の大幅な向上を期待することが
可能となる。
As described above, in the second embodiment, the density of the specific area is recognized based on the form image, and the classification of the form is determined based on the recognized density. Since the form image is recognized by characters based on the form format to be used, even if multiple types of forms are recognized at a time in the form format corresponding to the classification, the classification can be specified reliably. It is possible to expect a significant improvement in work efficiency.

【0022】なお、上述した第2実施形態においては、
矩形領域No1、No2の濃度を計測するようにしたが、濃
度判定領域は3以上あるいは帳票全体であってもよい。
更に、「濃度しきい値以下」、「濃度しきい値より小さ
い」の2種類を判定するようにしたが、3種類以上の濃
度レベルを設定し、計測濃度がどの範囲内にあるかを判
定するようにすれば、濃度判定領域が1種類であって
も、判定可能な分類数を増やすことができる。
In the second embodiment described above,
Although the densities of the rectangular areas No1 and No2 are measured, the density determination area may be three or more or the entire form.
Furthermore, two types of “lower than the density threshold” and “smaller than the density threshold” are determined. However, three or more types of density levels are set, and a range within which the measured density is determined is determined. By doing so, the number of classes that can be determined can be increased even if there is only one type of density determination area.

【0023】[0023]

【発明の効果】第1の発明によれば、一度に複数種の帳
票をその分類に応じた帳票フォーマットで文字認識する
場合であっても、帳票の形状的な特徴を複数の方法で認
識することで、その分類を確実に特定することができ
る。第2の発明によれば、一度に複数種の帳票をその分
類に応じた帳票フォーマットで文字認識する場合であっ
ても、帳票の特定領域の濃度を認識することで、その分
類を確実に特定することができる。
According to the first aspect of the invention, even when characters of a plurality of forms are recognized at a time in a form format corresponding to the classification, the form characteristic of the forms is recognized by a plurality of methods. Thus, the classification can be specified with certainty. According to the second aspect, even when characters of a plurality of forms are recognized at once in a form format corresponding to the classification, the classification is reliably specified by recognizing the density of a specific area of the form. can do.

【図面の簡単な説明】[Brief description of the drawings]

【図1】帳票処理装置の全体構成を示したブロック図。FIG. 1 is a block diagram showing an overall configuration of a form processing apparatus.

【図2】記憶装置2内の一部を示した図。FIG. 2 is a diagram showing a part of a storage device 2;

【図3】帳票の種類を例示した図。FIG. 3 is a diagram exemplifying types of forms;

【図4】異種帳票分類定義ファイル2−2のデータ構造
を説明するための図。
FIG. 4 is a view for explaining the data structure of a heterogeneous form classification definition file 2-2.

【図5】(A)は帳票上の特定領域を濃度判定領域とし
たことを示した図、(B)は矩形領域濃度定義ファイル
2−3のデータ構造を示した図。
5A is a diagram showing that a specific region on a form is set as a density determination region, and FIG. 5B is a diagram showing a data structure of a rectangular region density definition file 2-3.

【図6】帳票イメージを処理して文字認識する際の動作
を示したフローチャート。
FIG. 6 is a flowchart showing an operation when processing a form image to recognize characters.

【図7】図6に続く帳票イメージ処理を示したフローチ
ャート。
FIG. 7 is a flowchart showing a form image process following FIG. 6;

【図8】図7に続く帳票イメージ処理を示したフローチ
ャート。
FIG. 8 is a flowchart showing a form image process following FIG. 7;

【図9】図6のステップA9(コーナカット分類に該当
する帳票の種類を検索する際の検索処理)を詳述したフ
ローチャート。
9 is a flowchart detailing step A9 (search processing for searching for a form type corresponding to a corner cut classification) in FIG. 6;

【図10】図7のステップA15(止め穴分類に該当す
る帳票の種類を検索する際の検索処理)を詳述したフロ
ーチャート。
FIG. 10 is a flowchart detailing step A15 (search processing for searching for a form type corresponding to a blind hole classification) in FIG. 7;

【図11】(A)、(B)、(C)はコーナカットに応
じた帳票の種類を示した図。
FIGS. 11A, 11B, and 11C are diagrams showing types of forms according to corner cuts.

【図12】(A)、(B)、(C)は止め穴に応じた帳
票の種類を示した図。
FIGS. 12A, 12B, and 12C are diagrams showing types of forms according to stop holes.

【図13】第2実施形態において、(A)は矩形領域濃
度定義ファイル2−5、(B)は矩形領域濃度分類定義
ファイル2−6のデータ構造を説明するための図。
13A is a diagram for explaining a data structure of a rectangular area density definition file 2-5, and FIG. 13B is a diagram for explaining a data structure of a rectangular area density classification definition file 2-6 in the second embodiment.

【図14】第2実施形態において、(A)(B)、
(C)は矩形領域の濃度に応じた帳票の種類を示した
図。
FIG. 14 shows (A), (B),
FIG. 4C is a diagram showing types of forms according to the density of a rectangular area.

【図15】第2実施形態における特徴的な濃度を示した
フローチャート。
FIG. 15 is a flowchart showing characteristic densities in the second embodiment.

【符号の説明】[Explanation of symbols]

1 CPU 2 記憶装置 2−1 画像メモリ 2−2 異種帳票分類定義ファイル 2−3、2−5 矩形領域濃度定義ファイル 2−4 帳票フォーマットファイル 2−6 矩形領域濃度分類定義ファイル 3 記憶媒体 4 RAM 5 入力装置 6 表示装置 7 イメージスキャナ 1 CPU 2 Storage device 2-1 Image memory 2-2 Heterogeneous form classification definition file 2-3, 2-5 Rectangular area density definition file 2-4 Form format file 2-6 Rectangular area density classification definition file 3 Storage medium 4 RAM 5 input device 6 display device 7 image scanner

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】帳票イメージを読み取る読取手段と、 この読取手段によって読み取られた帳票イメージの形状
を予め決められた複数種の形状認識方法に基づいて種類
別に認識する形状認識手段と、 この形状認識手段によって認識された各認識結果の組み
合せによって当該帳票の分類を決定する分類決定手段
と、 この分類決定手段によって決定された分類に対応する帳
票フォーマットに基づいて帳票イメージを文字認識する
文字認識手段とを具備したことを特徴とする帳票処理装
置。
1. A reading means for reading a form image, a shape recognizing means for recognizing a form of the form image read by the reading means for each type based on a plurality of predetermined shape recognizing methods, Classification determining means for determining the classification of the form based on a combination of the recognition results recognized by the means; character recognition means for character recognizing a form image based on a form format corresponding to the classification determined by the classification determining means; A form processing device comprising:
【請求項2】前記形状認識手段は複数種の形状認識方法
として、帳票全体の大きさを認識する方法、帳票上のコ
ーナカット部を認識する方法、帳票の特定位置に形成し
た穴部を認識する方法のうち少なくてもその2以上の方
法を組み合せることによって帳票の形状を認識するよう
にしたことを特徴とする請求項1記載の帳票処理装置。
2. The form recognizing means includes a plurality of types of shape recognizing methods, a method for recognizing the size of the entire form, a method for recognizing a corner cut portion on the form, and a method for recognizing a hole formed at a specific position of the form. 2. The form processing apparatus according to claim 1, wherein the form is recognized by combining at least two of the methods.
【請求項3】帳票イメージを読み取る読取手段と、 この読取手段によって読み取られた帳票イメージに基づ
いてその特定領域の濃度を認識する濃度認識手段と、 この濃度認識手段によって認識された濃度に基づいて当
該帳票の分類を決定する分類決定手段と、 この分類決定手段によって決定された分類に対応する帳
票フォーマットに基づいて帳票イメージを文字認識する
文字認識手段とを具備したことを特徴とする帳票処理装
置。
3. A reading means for reading a form image, a density recognizing means for recognizing the density of the specific area based on the form image read by the reading means, and a density recognizing means based on the density recognized by the density recognizing means. A form processing apparatus comprising: a classification determining unit that determines a classification of the form; and a character recognizing unit that recognizes characters of the form image based on a form format corresponding to the classification determined by the classification determining unit. .
【請求項4】前記読取手段によって読み取られた帳票イ
メージに基づいて帳票の形状を認識する形状認識手段を
設け、 前記分類決定手段は前記形状認識手段によって認識され
た形状と前記濃度認識手段によって認識された濃度との
組み合せによって当該帳票の分類を決定するようにした
ことを特徴とする請求項3記載の帳票処理装置。
4. A form recognizing means for recognizing a form of the form based on the form image read by the reading means, wherein the classification determining means recognizes the shape recognized by the shape recognizing means and the density recognizing means. 4. The form processing apparatus according to claim 3, wherein the classification of the form is determined based on a combination with the determined density.
【請求項5】コンピュータによって読み取られるプログ
ラムコードを有する記録媒体であって、 読み取られた帳票イメージの形状を予め決められた複数
種の形状認識方法に基づいて種類別に形状認識する機能
と、 各認識結果の組み合せによって当該帳票の分類を決定す
る機能と、 決定された分類に該当する帳票フォーマットにしたがっ
て帳票イメージを文字認識する機能を実現するためのプ
ログラムコードを有する記録媒体。
5. A recording medium having a program code read by a computer, comprising: a function of recognizing a shape of a read form image by type based on a plurality of predetermined shape recognition methods; A recording medium having a program code for realizing a function of determining a classification of a form based on a combination of results and a function of character recognizing a form image according to a form format corresponding to the determined classification.
【請求項6】コンピュータによって読み取られるプログ
ラムコードを有する記録媒体であって、 読み取られた帳票イメージに基づいてその特定領域の濃
度を認識する機能と、 認識された濃度に基づいて当該帳票の分類を決定する機
能と、 決定された分類に対応する帳票フォーマットに基づいて
帳票イメージを文字認識する機能を実現するためのプロ
グラムコードを有する記録媒体。
6. A recording medium having a program code read by a computer, the function of recognizing the density of a specific area based on the read form image, and the classification of the form based on the recognized density. A recording medium having a program code for realizing a function of determining and a function of character recognition of a form image based on a form format corresponding to the determined classification.
JP11100706A 1999-04-08 1999-04-08 Slip processor and program recording medium therefor Abandoned JP2000293625A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11100706A JP2000293625A (en) 1999-04-08 1999-04-08 Slip processor and program recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11100706A JP2000293625A (en) 1999-04-08 1999-04-08 Slip processor and program recording medium therefor

Publications (1)

Publication Number Publication Date
JP2000293625A true JP2000293625A (en) 2000-10-20

Family

ID=14281144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11100706A Abandoned JP2000293625A (en) 1999-04-08 1999-04-08 Slip processor and program recording medium therefor

Country Status (1)

Country Link
JP (1) JP2000293625A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099508B2 (en) 2001-11-29 2006-08-29 Kabushiki Kaisha Toshiba Document identification device, document definition method and document identification method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7099508B2 (en) 2001-11-29 2006-08-29 Kabushiki Kaisha Toshiba Document identification device, document definition method and document identification method

Similar Documents

Publication Publication Date Title
US10866997B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
US6009196A (en) Method for classifying non-running text in an image
US6735335B1 (en) Method and apparatus for discriminating between documents in batch scanned document files
US5784487A (en) System for document layout analysis
US5889886A (en) Method and apparatus for detecting running text in an image
JP3805005B2 (en) Image processing apparatus, optical character recognition apparatus, and methods thereof
Yanikoglu et al. Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation
US6466694B2 (en) Document image processing device and method thereof
US5335290A (en) Segmentation of text, picture and lines of a document image
US6173073B1 (en) System for analyzing table images
JP3640972B2 (en) A device that decodes or interprets documents
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
US5856877A (en) Apparatus and method for processing and reproducing image information
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
US7528986B2 (en) Image forming apparatus, image forming method, program therefor, and storage medium
EP1679613A2 (en) Method and apparatus for detecting pagination constructs including a header and a footer in legacy documents
JP4733577B2 (en) Form recognition device and form recognition program
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
JPWO2021084702A1 (en) Document image analyzer, document image analysis method and program
JP2005100416A (en) System and method for detecting list in ink input
US9189459B2 (en) Document image layout apparatus
US20220172501A1 (en) Asides detection in documents
Dori et al. Segmentation and recognition of dimensioning text from engineering drawings
WO2007070010A1 (en) Improvements in electronic document analysis
EP2477122B1 (en) Ordering document content

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060203

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060815

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20060929