JP3383491B2 - Form recognition and classification system - Google Patents

Form recognition and classification system

Info

Publication number
JP3383491B2
JP3383491B2 JP25457795A JP25457795A JP3383491B2 JP 3383491 B2 JP3383491 B2 JP 3383491B2 JP 25457795 A JP25457795 A JP 25457795A JP 25457795 A JP25457795 A JP 25457795A JP 3383491 B2 JP3383491 B2 JP 3383491B2
Authority
JP
Japan
Prior art keywords
recognition
unit
format information
format
forms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP25457795A
Other languages
Japanese (ja)
Other versions
JPH0973500A (en
Inventor
忠男 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP25457795A priority Critical patent/JP3383491B2/en
Publication of JPH0973500A publication Critical patent/JPH0973500A/en
Application granted granted Critical
Publication of JP3383491B2 publication Critical patent/JP3383491B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、伝票等の帳票を受
け入れてそこに記載された文字を認識して読み取り、多
数のポケットに分類し仕分け収納する場合の認識処理用
情報を自動生成する帳票認識分類システムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention is a form for accepting a form such as a voucher, recognizing and reading characters written therein, and automatically generating recognition processing information when sorting and storing in a large number of pockets. Recognizing classification system.

【0002】[0002]

【従来の技術】例えば、全国に店舗のあるスーパーマー
ケットやコンビニエンスストアの伝票処理、通信販売の
請求書処理、商品配達業務や郵便物の配達処理等におい
ては、大量の伝票を分類し配布し集計したりする業務が
要求される。具体的には、一定の事項を記載した帳票を
発行し、これを集積して宛先別に仕分けし、その帳票の
宛先に送付する。伝票等であればこの場合に、中に記載
された金額その他を集計したりする作業が伴う。このよ
うな作業は、通常大量の人員を要求し、処理のために極
めて多くの時間が費やされる。このため、一般に伝票処
理業務等に専門の要員を多数配置するようにしていた。
また、この種の処理の自動化のために、伝票自体を無く
し、コンピュータの端末を用いて直接データを入力し交
換するといったシステムも広く利用されている。
2. Description of the Related Art For example, in slip processing at supermarkets and convenience stores with stores nationwide, invoice processing for mail order, merchandise delivery and mail delivery processing, a large number of slips are classified, distributed and aggregated. Some work is required. Specifically, a form in which certain items are described is issued, the forms are collected, sorted by destination, and sent to the destination of the form. In the case of a slip or the like, in this case, the work of totaling the amount of money and the like described therein is involved. Such operations typically require large numbers of personnel and are extremely time consuming for processing. Therefore, in general, a large number of specialized personnel have been assigned to the slip processing work.
Further, in order to automate this kind of processing, a system in which a slip itself is eliminated and data is directly input and exchanged using a computer terminal is also widely used.

【0003】[0003]

【発明が解決しようとする課題】ところで、上記のよう
な従来の帳票認識分類システムには次のような解決すべ
き課題があった。本発明者等は、大量の帳票を自動的に
仕分け処理するために、帳票上の文字を認識し、その内
容に従って帳票を多数のポケットに仕分けする装置を開
発した。この装置では、多数の帳票の識別コードをまず
読み取る。この帳票識別コードに対応させて格納したフ
ォーマット情報を元にイメージを切り出し、文字認識す
る。帳票の種類は多数あるが、これらに対応する多数の
フォーマット情報が予め登録される。
The conventional form recognition and classification system as described above has the following problems to be solved. The present inventors have developed a device that recognizes characters on a form and sorts the form into a large number of pockets according to the contents thereof in order to automatically sort a large amount of forms. In this device, the identification codes of many forms are first read. An image is cut out based on the format information stored corresponding to this form identification code, and characters are recognized. Although there are many types of forms, many format information corresponding to these are registered in advance.

【0004】しかしながら、この帳票の送付元がその帳
票のフォーマットを一方的に一部変更するような場合が
ある。この場合には、多数の帳票が認識不能としてリジ
ェクト処理され、これらは改めてオペレータによる手作
業のデータ入力処理に付される。この場合には、送付元
にそのフォーマット変更内容を問い合わせ、原本を入手
して改めてフォーマット情報を作成し登録するといった
作業が必要となる。しかしながら、リジェクトされた多
数の帳票について手入力による処理を行うのはコストが
高くなり、また自動化を行った利益が半減する。一方、
帳票の送付元に対しフォーマットの変更内容を問い合わ
せ、原本を入手する作業は時間がかかり非常に煩雑な作
業となる。
However, the sender of this form may unilaterally partially change the format of the form. In this case, a large number of forms are rejected as unrecognizable, and these are again subjected to manual data input processing by the operator. In this case, it is necessary to inquire the sender of the content of the format change, obtain the original, and create and register the format information again. However, the cost of manually processing a large number of rejected forms is high, and the profit of automation is halved. on the other hand,
Inquiring the sender of the form about the contents of the format change and obtaining the original is time-consuming and extremely complicated.

【0005】[0005]

【課題を解決するための手段】本発明は上記の点を解決
するため次の構成を採用する。 〈構成1〉本発明は、送付元毎に識別コードが付されている帳票を
分類するシステムであって、各識別コードに対応させて
各帳票のフォーマットを示すフォーマット情報が格納さ
れているフォーマット情報記憶部と、帳票のイメージデ
ータから識別コードを判定し、フォーマット情報記憶部
から対応するフォーマット情報を取り込んでイメージデ
ータから文字を認識する文字認識部とを備え、正常に文
字認識した帳票を認識結果に基づいて分類すると共に文
字認識不能の帳票をリジェクトする帳票認識分類システ
ムにおいて、識別コード毎に文字認識部の正常認識した
帳票数と認識不能な帳票数とを計数し、正常認識した帳
票数に対する認識不能な帳票数が設定閾値より大きくな
るとフォーマット生成を指示する認識統計部と、フォー
マット生成の指示を受けると、認識不能な帳票のイメー
ジデータからフォーマット情報を生成し、フォーマット
情報をフォーマット情報記憶部に記憶させるフォーマッ
ト情報生成部とを含むことを特徴とする。
The present invention adopts the following constitution in order to solve the above problems. <Structure 1> The present invention provides a form in which an identification code is attached to each sender.
It is a classification system, and it corresponds to each identification code
Format information indicating the format of each form is stored.
The format information storage section and the form image
The identification code is determined from the data, and the format information storage unit
Import the corresponding format information from
Equipped with a character recognition unit that recognizes characters from the
Character-recognized forms are classified based on the recognition results and
A form recognition classification system that rejects forms that cannot be recognized.
The normal recognition of the character recognition part for each identification code
The number of forms and unrecognizable forms are counted, and
The number of unrecognizable forms for the number of votes exceeds the set threshold.
And the recognition statistics section that instructs the format generation,
When you receive an instruction to generate a matte, you can
Format information from the data
Format that stores information in the format information storage unit
And an information generation unit.

【0006】〈説明〉 帳票上の文字をイメージデータとして読み込み、その文
字を切り出して認識処理するには、文字切り出し位置等
を表示するフォーマット情報が必要になる。送付元毎に
フォーマットが相違しているので帳票識別コードに対応
させてフォーマット情報を登録する。しかし、予めフォ
ーマット情報が用意されていても送付元がフォーマット
の一部を変更すると、文字認識が不能となるので、この
場合には認識不能な帳票のイメージデータを用いてフォ
ーマット情報を生成する。従って、送付元によりフォー
マット変更が知らない間になされていてもそれに対応
きる。
<Description> In order to read a character on a form as image data and cut out the character for recognition processing, format information for displaying a character cut-out position and the like is required. For each sender
Since the formats are different , the format information is registered in correspondence with the form identification code. However, sending source format be pre-formatted information is available
If you change a part of
In this case, the format information is generated using the image data of the unrecognizable form. Therefore, even if the sender changes the format without knowing it, he / she can respond to it.
Wear.

【0007】即ち、同一の識別コードの帳票について、
認識枚数と、認識不能な枚数とを統計処理する認識統計
部を備え、フォーマット情報生成部は、認識不能な帳票
枚数が閾値を越えたとき、その帳票のイメージデータを
使用してフォーマット情報を生成し、フォーマット情報
記憶部に登録する。 閾値は、各識別コード毎に予め設定
され、認識枚数と不能枚数との比に基づいて予め閾値と
して設定されている。従って、認識不能率が異常に高い
ものは送付元でフォーマット変更がされたものと判断
し、そのイメージデータを利用してフォーマット情報の
生成を行う。
That is, regarding the form of the same identification code,
Equipped with a recognition statistics unit that statistically processes the number of recognized sheets and the number of unrecognizable sheets, the format information generation unit uses the image data of the sheets to generate format information when the number of unrecognizable sheets exceeds a threshold value. And format information
Register in the memory . Threshold set in advance for each identification code
The threshold value is set in advance based on the ratio between the number of recognized sheets and the number of impossible sheets . Accordingly, those unrecognizable rate is abnormally high is determined to have been the format change at sender, and generates the format information by utilizing the image data.

【0008】〈構成2〉 本発明において、認識統計部の少なくとも前回の計数値
を格納する統計用データ格納部を更に備え、認識統計部
は、今回の計数値と前回の計数値との累積又は今回の計
数値との計数値との比較に基づいて閾値を設定すること
を特徴とする。 〈説明〉例えば 前回、該当する識別コードの帳票がほぼ正常に認
識処理できたにもかかわらず、今回は認識不能率が高い
場合には、今回及び前回の計数値の累積に基づき、著し
く今回及び前回の計数値の比較に基づいて閾値を設定す
る。
<Structure 2> In the present invention, at least the previous count value of the recognition statistics part
Is further provided with a statistical data storage unit for storing
Is the cumulative value of the current count value and the previous count value or the current count value.
Setting a threshold based on the comparison of the numerical value with the count value
Is characterized by. <Explanation> For example , if the unrecognizable rate is high this time , even though the form of the corresponding identification code was processed normally almost the last time, the author will write the data based on the accumulated count values of this time and the previous time.
Set the threshold value based on the comparison of the current and previous count values.
It

【0009】〈構成3〉 更に本発明において、文字認識部が文字認識するための
フォント情報が格納されているフォント情報格納部と、
フォント情報格納部のフォント情報を変更させるための
フォント情報再登録部とを更に備え、文字認識部がイメ
ージデータに対し格納されているフォント情報による認
識不能が生じると認識統計部に認識不能を通知し、認識
統計部が通知を受けるとフォント情報再登録部にフォン
ト変更を指示することを特徴とする。 〈説明〉送付元で文字のフォントを変更した 場合には、フォーマ
ット情報の自動登録でなくフォント辞書の再登録が行わ
れる。
<Structure 3> Furthermore, in the present invention, a character recognition unit for character recognition
A font information storage unit that stores font information,
For changing the font information in the font information storage
It also has a font information re-registration unit, and the character recognition unit
Image data based on the font information stored
Recognize the inability to recognize when disagreement occurs and recognize it
When the statistics department receives a notification, the font information
It is characterized by instructing a change. <Explanation> When the font of a character is changed at the sender, the font dictionary is re-registered instead of automatically registering the format information.

【0010】[0010]

【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。 〈具体例の構成〉図1は、本発明のシステム具体例を示
すブロック図である。図のシステムは、帳票1を分類す
る前に、その帳票上に記載された文字を読み取って認識
するための文字認識部12を備えている。その認識結果
に従って後で説明する要領で帳票1が分類仕分けされ
る。なお、このような認識処理のためにフォント情報2
1とフォーマット情報22が、それぞれ記憶部に格納さ
れている。また、この他に認識結果を統計処理するため
の認識統計部23、イメージデータ格納部26、統計用
データ格納部27及びフォーマット情報生成部28、フ
ォント情報再登録部等が設けられている。なお、認識処
理の結果、帳票の分類が可能なものは、図に示す該当分
類ポケット24に帳票が搬送され、認識処理が不可能な
ものはリジェクト分用ポケット25にその帳票が搬送さ
れる。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to specific examples. <Structure of Specific Example> FIG. 1 is a block diagram showing a specific example of the system of the present invention. The system shown in the figure includes a character recognition unit 12 for reading and recognizing the characters written on the form 1 before classifying the form 1. According to the recognition result, the form 1 is classified and sorted in a manner described later. The font information 2 is used for such recognition processing.
1 and format information 22 are stored in the storage unit. In addition to this, a recognition statistics unit 23 for statistically processing the recognition result, an image data storage unit 26, a statistical data storage unit 27, a format information generation unit 28, a font information re-registration unit, and the like are provided. Note that as a result of the recognition processing, the documents that can be classified are transported to the corresponding classification pocket 24 shown in the figure, and if the recognition processing is impossible, the documents are transported to the reject sharing pocket 25.

【0011】フォント情報21は、帳票に記載された文
字フォントを意識して生成された文字認識のための辞書
である。フォーマット情報22は、帳票のどの位置に認
識すべき文字が記載されているか等を表示する情報であ
る。認識統計部23は、文字認識部12が認識処理でき
た帳票と認識処理できなかった帳票の数をカウントし、
所定の統計をとる部分である。なお、この統計は必要に
応じて過去の分まで含めて統計用データ格納部27に格
納される。また、イメージデータ格納部26には、リジ
ェクト処理され、更に一定の判断の結果フォーマット情
報の生成が必要があると判断された帳票のイメージデー
タが格納される。
The font information 21 is a dictionary for character recognition generated in consideration of the character font described in the form. The format information 22 is information for displaying at which position on the form the character to be recognized is written. The recognition statistic unit 23 counts the number of forms that the character recognition unit 12 has performed recognition processing and the number of forms that cannot be recognized,
This is the part that takes predetermined statistics. It should be noted that this statistic is stored in the statistic data storage unit 27, including past statistics as necessary. Further, the image data storage unit 26 stores the image data of the form which has been rejected and which has been determined to be required to generate format information as a result of a certain determination.

【0012】フォーマット情報生成部28は、イメージ
データ格納部26から読み出されたイメージデータに基
づいてフォーマット情報を生成する部分である。なお、
この生成方法は、例えば帳票上のイメージを縦横に走査
し、その黒ドット数をカウントする。これによって、帳
票上に記載された罫線と文字が記入された領域を検出す
る。この黒ドット数の変化から、一定の枠あるいは領域
上に文字が記入されていると判断した場合には、その部
分を文字認識のためのイメージ切り出し領域に設定す
る。このような処理は演算によって自動的に行われる。
そして、その結果は必要に応じてディスプレイに表示さ
れる。オペレータはその表示内容を確認し、イメージ切
り出し領域として設定された部分の可否を判断する。ま
た、その領域の大きさ等に問題があれば修正する。これ
によって、フォーマット情報が確定し登録される。
[0012] format information generating unit 28, based on image data read from the image data storage unit 26
Based on this, it is the part that generates the format information. In addition,
In this generating method, for example, an image on a form is scanned vertically and horizontally and the number of black dots is counted. As a result, the area in which the ruled lines and the characters written on the form are written is detected. If it is determined from the change in the number of black dots that a character is written on a certain frame or area, that portion is set as an image cutout area for character recognition. Such processing is automatically performed by calculation.
Then, the result is displayed on the display as needed. The operator confirms the displayed contents and judges whether or not the portion set as the image cutout area is acceptable. If there is a problem with the size of the area, correct it. As a result, the format information is confirmed and registered.

【0013】以上は本発明のシステムの概略構成である
が、具体的な本発明のシステムの動作を説明する前に、
帳票分類処理の具体的な方法や装置等の説明を行う。図
2には、本発明のシステムに適する帳票処理説明図を示
す。このシステムでは、全体として帳票をこのような手
順で処理する。まず、送付元A1が多数の帳票1に送付
先と請求金額、その他の項目を記入する。この帳票1は
各種の送付先に対して作成されており、これはこの送付
元A1から一括して仕分けセンターに送られる。仕分け
センターには、帳票分類処理システムが設備されてい
る。そして、まずステップS1で、帳票1を1枚ずつ読
み取り、そのデータの認識等を行う。そして、ステップ
S2において、帳票を送付先別に分類する。この例で
は、送付先B1、B2、B3という順に送付元A1の作
成した帳票を分類する。これらの帳票は最終的にそのま
ま送付先に送られるが、この際、送付先毎に請求金額の
集計等を行う。請求金額も帳票に記載されており、文字
認識部によって認識処理される。従って、その認識結果
を集計したり結果の確認を行うために、次のような手順
を採用する。
The above is a schematic configuration of the system of the present invention. Before explaining the specific operation of the system of the present invention,
A specific method and device of the form classification process will be described. FIG. 2 shows a form processing explanatory diagram suitable for the system of the present invention. In this system, the form is processed as a whole in such a procedure. First, the sender A1 fills in a large number of forms 1 with a destination, a billing amount, and other items. This form 1 is created for various destinations, and this form A is collectively sent from the source A1 to the sorting center. The sorting center is equipped with a form classification processing system. Then, first, in step S1, the form 1 is read one by one, and the data is recognized. Then, in step S2, the forms are classified by destination. In this example, the forms created by the sender A1 are sorted in the order of destinations B1, B2, and B3. These forms are finally sent to the destination as they are, but at this time, the billing amount is calculated for each destination. The billing amount is also written on the form and is recognized by the character recognition unit. Therefore, the following procedure is adopted to collect the recognition results and confirm the results.

【0014】まず、ステップS3において、送付先B1
宛の帳票を50枚ずつに分割する。そして、50枚を取
り出してその読取り結果の集計を行う(ステップS3,
ステップS4)。これらはコンピュータが自動的に実行
し、50枚毎に請求金額の小計を印刷する(ステップS
5)。
First, in step S3, the destination B1
Divide the addressed form into 50 sheets. Then, 50 sheets are taken out and the reading results are totaled (step S3).
Step S4). These are automatically executed by the computer, and the subtotal of the charged amount is printed every 50 sheets (step S).
5).

【0015】一方、50枚の帳票はこれとは別に、読み
取られた文字の部分がイメージデータ化される。そし
て、そのまま必要な部分を用紙に印刷する(ステップS
6)。即ち、帳票の集計に必要な請求金額等をイメージ
データのまま用紙に並べて印刷する。これは、ステップ
S7において、オペレータによって集計される。オペレ
ータによる集計は、実際には50枚の帳票そのものを用
いて行ってもよい。しかしながら、例えば50枚の帳票
が個人データ等、プライバシーに関わるデータを含む場
合がある。このような場合に、そういった集計に不要な
部分は除外し、必要な部分のみを一旦用紙に印刷して集
計に回す。これによって、プライバシー保護が可能とな
る。
On the other hand, in addition to the 50 sheets, the read character portions are converted into image data. Then, the necessary portion is printed on the paper as it is (step S
6). That is, the billing amount and the like required for tabulating the form are printed side by side on paper as image data. This is totaled by the operator in step S7. The totaling by the operator may be actually performed using the 50 sheets themselves. However, for example, 50 sheets may include data related to privacy such as personal data. In such a case, a portion unnecessary for such totaling is excluded, and only a necessary portion is once printed on a sheet and used for totaling. This enables privacy protection.

【0016】また、多数の帳票を手元に置いて集計する
作業は比較的煩雑で誤りも生じ易い。従って、その各帳
票の必要な部分のみをイメージデータとして集計し易い
ように編集し印刷すれば、その処理が効率的になる。こ
のような各種の利点からこの例では、一旦読取りイメー
ジの主要部分を用紙に印刷し、オペレータによる集計を
実行している。そして、その集計結果と、ステップS5
において集計した結果とをステップS8で突き合わせ
る。両者が一致すれば、帳票の文字を認識して処理しデ
ータ化した結果と、実際に帳票を見てオペレータが計算
した結果が等しいことから、その計算や認識結果に誤り
がないことが分かる。この場合、ステップS9に移り、
50枚分の請求金額が確定する。一方、突合せ結果が一
致しなければ、オペレータが、読取り認識したデータと
イメージとの比較を行い、認識誤り等をチェックし、デ
ータの修正が行われる。
Further, the work of collecting a large number of forms at hand and compiling them is relatively complicated and error-prone. Therefore, if only necessary portions of the respective forms are edited and printed so as to be easily aggregated as image data, the processing becomes efficient. Due to these various advantages, in this example, the main part of the read image is once printed on paper, and the totalization is performed by the operator. Then, the totalization result and step S5
In step S8, the result of totaling is compared. If the two match, the result of recognizing and processing the characters of the form and the data conversion is the same as the result calculated by the operator by actually seeing the form, and it can be seen that there is no error in the calculation or recognition result. In this case, move to step S9,
The billing amount for 50 sheets is fixed. On the other hand, if the matching results do not match, the operator compares the read and recognized data with the image, checks the recognition error, etc., and corrects the data.

【0017】図3は、帳票分類処理システム概略ブロッ
ク図である。図に示すように、このシステムは、帳票1
をホッパ2に受け入れて、本体部3で帳票のイメージを
読み取って帳票上に記載された文字を認識し、その結果
に基づいて仕分けを行う。この仕分けのために、帳票を
分類別に収納する多数のポケット4が設けられている。
また、この装置の制御のためにコンソール5が設けら
れ、更に必要なデータを印刷出力するためにプリンタ6
が設けられている。
FIG. 3 is a schematic block diagram of the form classification processing system. As shown in the figure, this system
Is received by the hopper 2, the image of the form is read by the main body 3, the characters written on the form are recognized, and the sorting is performed based on the result. For this sorting, a large number of pockets 4 for storing the forms according to classification are provided.
Further, a console 5 is provided for controlling this device, and a printer 6 is provided for printing out necessary data.
Is provided.

【0018】本体部3に設けられたいくつかの機能ブロ
ックをこの図の下側に示した。図に示すように、本体部
3には、帳票1のイメージを読み取って文字を認識する
読取り部11と、文字認識部12とが設けられている。
また、このシステムでは、一旦このような文字認識を行
った結果をバーコード化し、これを帳票1の余白に印刷
するために、バーコード化部13及びバーコード印刷部
14が設けられている。この装置では、帳票1に記載さ
れた文字を認識して、その認識結果に従って帳票を該当
するポケット4に仕分けすることができる。しかしなが
ら、ポケット4の数は具体的には例えば36個設けら
れ、帳票1の分類が300程度の場合に、何回か帳票1
をこのシステムにセットして分類と仕分けを繰り返す必
要がある。
Some functional blocks provided in the main body 3 are shown on the lower side of this figure. As shown in the figure, the main body section 3 is provided with a reading section 11 for recognizing characters by reading the image of the form 1, and a character recognizing section 12.
Further, in this system, a bar code conversion unit 13 and a bar code printing unit 14 are provided in order to convert the result of such character recognition into a bar code and print the bar code in the margin of the form 1. With this device, the characters written on the form 1 can be recognized and the form can be sorted into the corresponding pockets 4 according to the recognition result. However, the number of pockets 4 is specifically 36, for example, and when the form 1 is classified into about 300, the form 1 may be repeated several times.
It is necessary to set to this system and repeat classification and sorting.

【0019】このような場合に、その都度、文字の認識
等を行っていると、認識処理に時間がかかることもあ
り、しかも認識誤りも発生し易い。そこで、本発明で
は、確実に読取りができ、読取り誤りも発生しにくいバ
ーコードを利用する。従って、2回目以降の分類仕分け
処理には図に示すバーコード読取り部15によりバーコ
ードを読み取り、その結果を利用する。なお、1回目は
文字認識の結果を使用して仕分けを行い、2回目以降は
バーコード読取り部の出力を用いることから、両方の出
力信号が仕分け収納制御部16に入力するよう構成され
ている。
In such a case, if character recognition or the like is performed each time, the recognition process may take a long time and a recognition error is likely to occur. Therefore, in the present invention, a bar code that can be surely read and is less likely to cause a reading error is used. Therefore, for the second and subsequent classification / sorting processing, the barcode is read by the barcode reading unit 15 shown in the figure and the result is used. It should be noted that since the result of character recognition is used for the first time sorting and the output of the bar code reading unit is used for the second and subsequent times, both output signals are input to the sorting storage control unit 16. .

【0020】図4には、帳票の外観説明図を示す。この
図に示すように、帳票1には、例えばその表面に送付
元、送付先が、それぞれの住所、請求金額、その他の事
項と共に手書きあるいはタイプにより記入される。これ
は、文字認識部12によって認識処理される。この裏面
は、例えば白紙であるとする。この場合に、帳票を繰り
返し分類処理するために必要な情報を一旦バーコード化
してこの裏面に印刷する。図に示す2本のバーコード1
8には、それぞれ送付元やその住所等を表す都道府県コ
ード、送付先等が符号化されて記入される。
FIG. 4 shows an external view of the form. As shown in this figure, the form 1 is, for example, handwritten or typed on the front side of the form 1, together with the address, the amount charged, and other items. This is recognized by the character recognition unit 12. This back surface is, for example, blank. In this case, the information necessary for repeatedly classifying the form is once bar-coded and printed on the back side. Two barcodes 1 shown
In 8, the prefecture code representing the sender and the address thereof, the recipient, etc. are coded and entered.

【0021】また、帳票を取り扱うオペレータが確認し
易いように、付加情報印刷部17によりバーコードの他
に整理番号やバッチ通番が印刷される。バッチ通番とい
うのは、先に説明した50枚毎に帳票をまとめて一まと
まりにし、集計等の対象にする場合に、その一まとまり
のグループ毎に付ける番号のことである。なお、このよ
うな集計の単位(これをバッチと呼ぶ)を50枚とした
のは、何らかのミス等が発見された場合に、人手により
チェックできる分量は50枚程度が適当だからである。
従って、帳票の種類、形状あるいはその内容に従って、
このバッチの枚数は任意に選定して差し支えない。
In addition to the bar code, the additional information printing unit 17 prints a reference number and a batch serial number so that the operator who handles the form can easily confirm the form. The batch serial number is a number that is assigned to each group when the forms are collected into groups of 50 sheets as described above and are to be aggregated. Note that the reason for setting such a unit of aggregation (which is referred to as a batch) to 50 sheets is that the appropriate amount that can be manually checked is approximately 50 sheets if any mistake is discovered.
Therefore, according to the type, shape or contents of the form,
The number of batches may be arbitrarily selected.

【0022】〈動作〉 図5には、帳票読取り動作フローチャートを示す。ここ
で図1に示したシステムの具体的な動作を説明する。ま
ず、上記のシステムでは、ステップS1において、フォ
ント情報21やフォーマット情報22の記憶装置へのダ
ウンロードが行われる。これは装置の動作開始前の初期
設定のための処理である。そして、ステップS2におい
て、帳票が1枚読み込まれ、その識別コードが読み取ら
れる。フォーマット情報22は識別コードに対応して登
録されている。そこで、ステップS3において、その識
別コードに対応するフォーマット情報の登録があるかな
いかを判断する。もし、登録がなければフォーマット情
報の生成が必要なため、ステップS4において、その帳
票のイメージデータを格納する。更に、ステップS5で
は、フォーマット情報が存在しないことから、その分類
不能な帳票の通常のリジェクト処理が行われる。
<Operation> FIG. 5 shows a form reading operation flowchart. Here, the specific operation of the system shown in FIG. 1 will be described. First, in the above system, the font information 21 and the format information 22 are downloaded to the storage device in step S1. This is a process for initial setting before the operation of the device is started. Then, in step S2, one form is read and its identification code is read. The format information 22 is registered corresponding to the identification code. Therefore, in step S3, it is determined whether or not the format information corresponding to the identification code is registered. If there is no registration, it is necessary to generate format information, so in step S4, the image data of the form is stored. Further, in step S5, since there is no format information, normal reject processing of the unclassifiable form is performed.

【0023】具体的には、図1に示すリジェクト分用ポ
ケット25にその帳票が搬送され、必要な記録が行われ
る。そして、ステップS8に移り、全ての分類処理が終
了したかどうかを判断する。処理が終了していればこの
動作を抜けるが、残りの帳票があれば再びステップS2
に移って別の帳票の読込みが行われる。一方、ステップ
S3において、フォーマット情報の登録があると判断さ
れた場合には、ステップS6に移り、本発明によるリジ
ェクト統計処理に移行する。これは図6を用いて後で詳
しく説明する。このような統計処理が終了した後、ステ
ップS7において必要な分類処理が行われる。そして、
ステップS8に進む。
Specifically, the form is conveyed to the reject-use pocket 25 shown in FIG. 1 and necessary recording is performed. Then, the process proceeds to step S8, and it is determined whether all the classification processes have been completed. If the processing has been completed, this operation is exited, but if there are remaining forms, step S2 is executed again.
Then, another form is read. On the other hand, when it is determined in step S3 that the format information is registered, the process proceeds to step S6 and the reject statistical processing according to the present invention is performed. This will be described later in detail with reference to FIG. After such statistical processing is completed, necessary classification processing is performed in step S7. And
Go to step S8.

【0024】図6には、リジェクト統計処理動作フロー
チャートを示す。まず、ステップS1では、前回読んだ
帳票識別コードと今回の帳票の識別コードとが同一かど
うかを判断する。もし、同一でなければステップS2に
おいて、統計情報のリセットが行われる。即ち、統計情
報は同一の識別コードを持つ一群の帳票について一まと
まりで記録される。次に、ステップS3において、その
帳票の認識処理が可能かどうか、即ちリジェクトされる
ものかどうかを判断する。認識処理ができれば以下の処
理は全て通過し、図5に示したステップS7の分類処理
に移る。
FIG. 6 shows a reject statistical processing operation flowchart. First, in step S1, it is determined whether the form identification code read last time and the form identification code of this time are the same. If they are not the same, the statistical information is reset in step S2. That is, the statistical information is recorded as a group for a group of forms having the same identification code. Next, in step S3, it is determined whether the form recognition process is possible, that is, whether the form is rejected. If the recognition process is completed, all the following processes are passed, and the process proceeds to the classification process of step S7 shown in FIG.

【0025】一方、リジェクト処理された帳票の場合に
は、ステップS4において、1枚ずつリジェクト枚数を
カウントアップするカウンタ等を用いてリジェクト枚数
を更新する。ステップS5では、帳票識別コードに対応
する閾値のテーブルを参照する。即ち、その帳票はどの
送付元により発行されたかどうかを判断し、送付元に応
じた閾値を選定する。この選定方法は後で説明するが、
例えば毎回1000枚程度の帳票が同一の送付元から発
行される場合に、リジェクト枚数が10枚や20枚なら
ば、送付元の記入ミスと判定でき、フォーマット情報の
登録が必要のないものである。
On the other hand, in the case of the rejected form, in step S4, the reject number is updated by using a counter or the like which counts up the reject number one by one. In step S5, the threshold table corresponding to the form identification code is referred to. That is, it is determined which sender has issued the form, and a threshold value corresponding to the sender is selected. This selection method will be explained later,
For example, in the case where the form of every time about 1000 is issued from the same sender, if the reject number is 10 sheets and 20 sheets, it can be determined that the sender of the entry mistakes, but do not need to register the format information .

【0026】一方、毎回100枚程度しか処理しない送
付元の帳票が50枚リジェクトされたとすれば、何らか
のフォーマット変更等が行われているのではないかと判
断できる。この場合には、閾値を過去の統計から例えば
20枚に設定しておき、次のステップS6の判断に移
る。即ち、ここで閾値以上かという判断をし、閾値以上
であればフォーマット情報の登録が必要とし、ステップ
S7に移り、イメージデータの格納をする。次にステッ
プS8において、フォーマット情報の生成処理を図1に
示すフォーマット情報生成部28に要求する。一方、閾
以下と判断された場合には、ステップS9に移り、単
なるリジェクト処理を行う。即ち、この場合には、この
帳票がリジェクトされたという記録を残し、リジェクト
分用ポケットに帳票を搬送する。
On the other hand, if 50 sheets of the form of the sending source, which processes only about 100 sheets each time, are rejected, it can be determined that some format change or the like is performed. In this case, the threshold value is set to, for example, 20 sheets based on the past statistics, and the process proceeds to the determination of the next step S6. That is, it is judged here whether it is the threshold value or more, and if it is the threshold value or more, it is necessary to register the format information, and the process moves to step S7 to store the image data. Next, in step S8, the format information generating unit 28 shown in FIG. 1 is requested to generate the format information. On the other hand, if it is determined that the threshold value is equal to or less than the threshold value, the process proceeds to step S9 and a simple reject process is performed. That is, in this case, a record that this form has been rejected is left, and the form is conveyed to the reject distribution pocket.

【0027】図7には、図6のステップS5で説明した
ような閾値を設定するための、リジェクトログの例説明
図を示す。この例では、帳票の分類処理を行う度に、図
1に示す認識統計部23が実際の帳票の読取り枚数とリ
ジェクト枚数等をその送付元毎に記録しておく。例え
ば、送付元Aについては、このケースでは5000枚の
読取りを行い、15枚がリジェクトされている。一方、
例えば送付元Cについて見ると、2000枚の読取り枚
数に対し40枚がリジェクトされている。この場合、送
付元Aの記入ミスが原因であり、フォーマット情報の生
成が不要である。一方、リジェクト枚数が多いのは送付
元Cで記入文字や記入方法等のフォーマットを変更した
原因によるものといえる。従って、どの程度の枚数リジ
ェクトされた場合にフォーマット変更があって、フォ
マット情報の生成の対象になるかの閾値は、送付元
票の認識及び認識不能データに基づいて決定されること
になる。図1に示した認識統計部23はこのようなリジ
ェクトログ等を統計用データ格納部27に格納し帳票ご
とに適切な閾値を設定する。
FIG. 7 shows an example of a reject log for setting the threshold value described in step S5 of FIG. In this example, every time the form classification process is performed, the recognition statistics unit 23 shown in FIG. 1 records the actual number of read sheets and the number of rejected sheets for each sender. For example, with respect to the sender A, in this case, 5000 sheets are read and 15 sheets are rejected. on the other hand,
For example, looking at the sender C, 40 sheets are rejected for every 2000 sheets read. In this case, send
Fill mistake Tsukemoto A is the cause, the raw format information
No need for composition. On the other hand, the one with the largest number of rejects is sent.
It is said to be due <br/> cause changing fill characters and format filling out such a former C. I slave, there is a format change when it is the number rejected what extent do the threshold is subject to generation of follower over <br/> mat information, the sender of the book <br/> form recognition and Be determined based on unrecognizable data
become. The recognition statistic unit 23 shown in FIG. 1 stores such a reject log in the statistic data storage unit 27 and sets an appropriate threshold value for each form.

【0028】上記の例では、全てリジェクトの原因は帳
票のフォーマット変更という前提で説明を行った。とこ
ろが、例えば帳票上の文字記入領域は同一でも送付元で
記入する文字フォントを変更したため文字認識不能
が異常に増えたという場合もある。このような場合に
は、その文字フォントに対応した適切な辞書を用いて認
識を行うと、認識率が向上する。従って、フォーマット
情報でなくフォント情報の再登録を行う必要がある。そ
こで、図1に示すように、フォーマット情報生成部28
の他にフォント情報再登録部29を設ける。文字認識部
12の出力するリジェクト理由や認識統計部23の過去
の認識結果等を考慮し、フォーマット情報生成部28か
フォント情報再登録部29が起動する構成になってい
る。
In the above examples, all the explanations have been made on the premise that the cause of the reject is the format change of the form. However, for example, even if the character entry areas on the form are the same, there is a case where the character recognition failure rate has increased abnormally because the font of the characters to be entered was changed by the sender . In such a case, if the recognition is performed using an appropriate dictionary corresponding to the character font, the recognition rate is improved. Therefore, it is necessary to re-register the font information instead of the format information. Therefore, as shown in FIG. 1, the format information generation unit 28
Besides, a font information re-registration unit 29 is provided. The format information generation unit 28 or the font information re-registration unit 29 is configured to be activated in consideration of the rejection reason output from the character recognition unit 12 and the past recognition result of the recognition statistics unit 23.

【0029】図8には、リジェクト理由に応じた対応の
説明図を示す。図8の左側には、例えば文字認識部12
等が出力するリジェクト理由をリストした。それに対応
する処置が右側に記入されている。即ち、処置の種類と
しては、フォーマット情報の登録、送付元の指導、認識
ロジックの見直し、登録フォント情報の変更等がある。
即ち、送付元での帳票のデザイン変更の場合には、フォ
ーマット情報の登録によって対処すれば、リジェクトが
解消される。また、送付元の記入ミス等はシステムの側
には何ら責任がないため、送付元にその通知を行って正
しい記入方法等を指導する。送付元でフォントが突然変
更されていたような場合には、システム側で登録フォン
ト情報を変更することによって対応する。
FIG. 8 shows an explanatory diagram of the correspondence according to the reason for rejection. On the left side of FIG. 8, for example, the character recognition unit 12
Listed the reasons for rejects output by etc. The corresponding action is marked on the right. That is, the types of treatment include registration of format information, guidance of the sender, review of recognition logic, and change of registered font information.
That is, in the case of the design change of the form at the sender, the rejection can be eliminated by coping with the registration of the format information. In addition, since the system is not responsible for any entry mistakes made by the sender, the sender is notified of this and the correct entry method is instructed. If the font is suddenly changed at the sender , the registered font information is changed on the system side.

【0030】以上のようにして、文字認識不能率が異常
に高い送付元の帳票については自動的にフォーマット情
報の生成やフォント情報の再登録等を行うことにより速
やかに対応する。これによって、一旦リジェクトされた
帳票を再度認識処理し分類することも可能になる。ま
た、帳票の送付元に対し原本の要求をしたり、変更内容
を問い合わせるといった煩雑な作業も不要で、迅速な対
応ができる。
As described above, the form of the sender having an abnormally high character unrecognizable rate is promptly dealt with by automatically generating the format information and re-registering the font information. As a result, it is possible to perform recognition processing and classify the rejected form again. In addition, it is possible to promptly respond without requiring complicated operations such as requesting the original of the form sender and inquiring about the changed contents.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明のシステム具体例を示すブロック図であ
る。
FIG. 1 is a block diagram showing a specific example of a system of the present invention.

【図2】本発明のシステムに適する帳票処理説明図であ
る。
FIG. 2 is an explanatory diagram of a form process suitable for the system of the present invention.

【図3】本発明のシステム概略ブロック図である。FIG. 3 is a schematic block diagram of the system of the present invention.

【図4】帳票の外観説明図である。FIG. 4 is an external view explanatory diagram of a form.

【図5】帳票読取り動作フローチャートである。FIG. 5 is a flowchart of a form reading operation.

【図6】リジェクト統計処理フローチャートである。FIG. 6 is a reject statistical processing flowchart.

【図7】リジェクトログの例説明図である。FIG. 7 is a diagram illustrating an example of a reject log.

【図8】リジェクト理由に応じた対応内容説明図であ
る。
FIG. 8 is an explanatory diagram of content of correspondence according to a reason for rejection.

【符号の説明】[Explanation of symbols]

1 帳票 12 文字認識部 21 フォント情報 22 フォーマット情報 23 認識統計部 26 イメージデータ格納部 27 統計用データ格納部 28 フォーマット情報生成部 29 フォント情報再登録部 1 form 12 Character recognition part 21 Font information 22 Format information 23 Recognition Statistics Department 26 Image data storage 27 Statistical data storage 28 Format information generator 29 Font information re-registration section

フロントページの続き (56)参考文献 特開 平7−114616(JP,A) 特開 平4−237390(JP,A) 特開 平7−160807(JP,A) 特開 平6−162254(JP,A) 特開 平6−236460(JP,A) 吉田義昭・東城初和・佐々木信,FA X−OCRシステム,沖電気研究開発, 日本,沖電気工業株式会社,1993年4月 1日,Vol.60,No.2,p.25− p.28 (58)調査した分野(Int.Cl.7,DB名) G06F 17/60 G06F 19/00 G06K 9/00 H04N 1/00 Continuation of the front page (56) Reference JP-A-7-114616 (JP, A) JP-A-4-237390 (JP, A) JP-A-7-160807 (JP, A) JP-A-6-162254 (JP , A) JP-A-6-236460 (JP, A) Yoshiaki Yoshida / Hatsukazu Tojo / Shin Sasaki, FAX-OCR system, Oki Electric R & D, Japan, Oki Electric Industry Co., Ltd., April 1, 1993, Vol. 60, No. 2, p. 25-p. 28 (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 17/60 G06F 19/00 G06K 9/00 H04N 1/00

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 送付元毎に識別コードが付されている帳
票を分類するシステムであって、前記各識別コードに対
応させて前記各帳票のフォーマットを示すフォーマット
情報が格納されているフォーマット情報記憶部と、前記
帳票のイメージデータから識別コードを判定し、前記フ
ォーマット情報記憶部から対応するフォーマット情報を
取り込んで前記イメージデータから文字を認識する文字
認識部とを備え、正常に文字認識した帳票を認識結果に
基づいて分類すると共に文字認識不能の帳票をリジェク
トする帳票認識分類システムにおいて、 前記識別コード毎に前記文字認識部の正常認識した帳票
数と認識不能な帳票数とを計数し、正常認識した帳票数
に対する認識不能な帳票数が設定閾値より大きくなると
フォーマット生成を指示する認識統計部と、 前記フォーマット生成の指示を受けると、前記認識不能
な帳票のイメージデータからフォーマット情報を生成
し、該フォーマット情報を前記フォーマット情報記憶部
に記憶させるフォーマット情報生成部とを含むことを特
徴とする帳票認識分類システム。
1. A system for classifying forms to which an identification code is attached for each sender, and format information storage in which format information indicating the format of each form is stored in association with each identification code. Section, and a character recognition section that determines an identification code from the image data of the form, recognizes characters from the image data by capturing the corresponding format information from the format information storage section, and In a form recognition and classification system that rejects forms that are not character recognizable while classifying based on the recognition result, the number of forms normally recognized by the character recognition unit and the number of unrecognizable forms are counted for each identification code, and normal recognition is performed. If the number of unrecognizable forms with respect to the number of forms And a format information generation unit for generating format information from the image data of the unrecognizable form and storing the format information in the format information storage unit when receiving the format generation instruction. Form recognition and classification system.
【請求項2】 前記認識統計部の少なくとも前回の計数
値を格納する統計用データ格納部を更に備え、 該認識統計部は、今回の計数値と前回の計数値との累積
又は今回の計数値と前記の計数値との比較に基づいて前
記閾値を設定することを特徴とする請求項1記載の帳票
認識分類システム。
2. A statistical data storage unit for storing at least a previous count value of the recognition statistic unit, wherein the recognition statistic unit accumulates a present count value and a previous count value or a present count value. The form recognition and classification system according to claim 1, wherein the threshold value is set based on a comparison between the count value and the count value.
【請求項3】 前記文字認識部が文字認識するためのフ
ォント情報が格納されているフォント情報格納部と、該
フォント情報格納部のフォント情報を変更させるための
フォント情報再登録部とを更に備え、前記文字認識部が
前記イメージデータに対し前記格納されているフォント
情報による認識不能が生じると前記認識統計部に認識不
能を通知し、該認識統計部が該通知を受けると前記フォ
ント情報再登録部にフォント変更を指示することを特徴
とする請求項1記載の帳票認識分類システム。
3. A font information storage unit storing font information for character recognition by the character recognition unit, and a font information re-registration unit for changing font information in the font information storage unit. When the character recognition unit fails to recognize the image data due to the stored font information, the character recognition unit notifies the recognition statistics unit of the recognition failure, and when the recognition statistics unit receives the notification, the font information is re-registered. 2. The form recognition and classification system according to claim 1, wherein a part is instructed to change the font.
JP25457795A 1995-09-06 1995-09-06 Form recognition and classification system Expired - Fee Related JP3383491B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25457795A JP3383491B2 (en) 1995-09-06 1995-09-06 Form recognition and classification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25457795A JP3383491B2 (en) 1995-09-06 1995-09-06 Form recognition and classification system

Publications (2)

Publication Number Publication Date
JPH0973500A JPH0973500A (en) 1997-03-18
JP3383491B2 true JP3383491B2 (en) 2003-03-04

Family

ID=17266977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25457795A Expired - Fee Related JP3383491B2 (en) 1995-09-06 1995-09-06 Form recognition and classification system

Country Status (1)

Country Link
JP (1) JP3383491B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4416890B2 (en) 1999-12-20 2010-02-17 富士通株式会社 Form identification device
JP2006085554A (en) * 2004-09-17 2006-03-30 Oki Electric Ind Co Ltd Form classification system, and method for creation and delivery of electronic medium form
JP4842872B2 (en) * 2007-03-29 2011-12-21 株式会社沖データ Form processing device
JP6755926B2 (en) * 2018-11-28 2020-09-16 株式会社東芝 Form information recognition device and form information recognition method
JP2020119195A (en) * 2019-01-23 2020-08-06 グローリー株式会社 Prescription reading system, prescription reading method, and prescription reading program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉田義昭・東城初和・佐々木信,FAX−OCRシステム,沖電気研究開発,日本,沖電気工業株式会社,1993年4月1日,Vol.60,No.2,p.25−p.28

Also Published As

Publication number Publication date
JPH0973500A (en) 1997-03-18

Similar Documents

Publication Publication Date Title
CA1118108A (en) System for processing documents having written indicia thereon
US5317654A (en) Selective collating and inserting apparatus
EP0969407B1 (en) A method and apparatus for processing documents in an image-based document processing system
US6487302B2 (en) Method for reading and sorting documents
US3988571A (en) Document reject reentry
US4813077A (en) Sales transaction record processing system and method
DE69926280T2 (en) Method for recognizing addresses and letter processing device
JP3383491B2 (en) Form recognition and classification system
JP4354021B2 (en) Image processing apparatus and sorting method and method using the image processing apparatus
EP1045335A2 (en) Financial document processing system and method of operating a financial document processing system with verification of zone coordinates
JPH0962758A (en) Business form recognition processing system
JP3872923B2 (en) Information processing mail sorting system
US6438433B1 (en) Financial document processing system and method of operating a financial document processing system
JPH09282388A (en) Document processing system
JPH08272883A (en) Form classifying and processing method and system
JP3947240B2 (en) Form classification processing system
AU767314B2 (en) Method of operating a financial document processing system during exception recovery
JP3167578B2 (en) Form classification processing method and system
JP2001009382A (en) Address correcting apparatus
JPH08272884A (en) Form classifying and processing method and system
JPH07271880A (en) System and method for centralized processing of securities
JPH0973501A (en) Slip classification processing method
JPH0962757A (en) Business form sorting/processing method
JP2005148905A (en) Form processing system
WO2003032266A1 (en) Voucher processing

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091220

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101220

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111220

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees