JP5003051B2 - Automatic mail sorting machine and automatic mail sorting method - Google Patents
Automatic mail sorting machine and automatic mail sorting method Download PDFInfo
- Publication number
- JP5003051B2 JP5003051B2 JP2006209364A JP2006209364A JP5003051B2 JP 5003051 B2 JP5003051 B2 JP 5003051B2 JP 2006209364 A JP2006209364 A JP 2006209364A JP 2006209364 A JP2006209364 A JP 2006209364A JP 5003051 B2 JP5003051 B2 JP 5003051B2
- Authority
- JP
- Japan
- Prior art keywords
- address information
- information reading
- reading unit
- correct
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Sorting Of Articles (AREA)
- Character Discrimination (AREA)
Description
本発明は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機及び郵便自動区分方法に関し、特に、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機及び郵便自動区分方法に関する。 The present invention collects images of postal items to be classified, reads addresses from the collected postal images, and automatically classifies postal items based on classification specifying information derived from the read addresses In particular, the present invention relates to an automatic mail sorting machine and a mail automatic sorting method for reading addresses in parallel from one mail image using a plurality of address information reading units having different recognition algorithms.
区分すべき郵便物から宛名(郵便番号、都道府県、市町名、丁目、番地、会社名、宛先氏名等)を読み取り、読み取った宛名から導出される区分特定情報(例えば、区分コード)にもとづいて、郵便物を自動的に区分する郵便自動区分機が知られている。この種の郵便自動区分機は、通常、郵便区分機本体部で区分すべき郵便物の画像を収集し、収集した郵便物画像を宛名情報読み取り部(OCR:Optical Character Reader)に送り、ここで宛名の読み取りを行っている。 Read the address (postal code, prefecture, city, street name, street address, company name, destination name, etc.) from the postal items to be classified, and based on the category identification information (for example, category code) derived from the read address An automatic mail sorting machine for automatically sorting mail items is known. This type of postal mail sorting machine usually collects images of postal items to be sorted by the postal sorting machine body, and sends the collected postal images to an address information reading unit (OCR: Optical Character Reader). The address is being read.
また、宛名情報読み取り部が宛名の読み取りに失敗した場合、その郵便物画像をオペレータ入力部に送り、オペレータに正解値の入力を要求する郵便自動区分機もある。このようなオペレータによる補完入力機能は、一般にビデオコーディングディスクと呼ばれており、ディスプレイに表示した郵便物画像に含まれる宛名(郵便番号又は住所文字列)をオペレータが視認してキー入力すると、その入力情報にもとづいて区分特定情報が導き出される。 There is also an automatic mail sorting machine that sends an image of a mail piece to an operator input unit when the address information reading unit fails to read the address and requests the operator to input a correct value. Such a complementary input function by an operator is generally called a video coding disc. When an operator visually recognizes and inputs a name (postal code or address string) included in a postal image displayed on a display, The category specifying information is derived based on the input information.
近年、文字認識の技術分野では、様々な認識アルゴリズムが開発されており、認識率も向上してきている。しかしながら、郵便物に宛名として記載される文字には、手書き文字や印刷文字が含まれるだけでなく、その書体も様々であるため、一つの認識アルゴリズムでは対応が困難であり、認識性能に限界があった。 In recent years, various recognition algorithms have been developed in the technical field of character recognition, and the recognition rate has been improved. However, characters written as mail addresses include not only handwritten characters and printed characters, but also various types of fonts, so it is difficult to handle with one recognition algorithm, and the recognition performance is limited. there were.
そこで、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取ることが提案されている。例えば、特許文献1に記載される文字認識装置は、郵便物画像より得られる文字パターンと参照用の基準パターンとを第1認識部により複合類似度抽出処理にて照合し、読取文字に対する認識結果として第1文字候補を求めるとともに、読取りにより得られる文字パターンの形状と参照用の形状データとを第2認識部により輪郭特徴マッチング処理にて照合し、読取文字に対する認識結果として第2文字候補が求め、これら認識結果をマトリックステーブルに当て嵌めて文字候補選択指標を読出し、この読出した文字候補選択指標に応じて上記2つの認識結果のいずれか一方を選択するようになっている。
しかしながら、特許文献1に記載される文字認識装置では、いくつかの問題点がある。
第一の問題点は、認識結果に不具合や偏りがあっても、それを容易に改善できないことである。その理由は、認識結果を選択するための判別テーブル(マトリクステーブル)が固定データであり、2つの認識結果のいずれか一方が一義的に選択されてしまうからである。このような認識結果の不具合や偏りは、判別テーブルの更新により改善することが可能であるが、特許文献1に記載される文字認識装置では、ユーザによる判別テーブルの更新を考慮していない。
However, the character recognition device described in
The first problem is that even if there is a defect or bias in the recognition result, it cannot be easily improved. The reason is that the discrimination table (matrix table) for selecting the recognition result is fixed data, and one of the two recognition results is uniquely selected. Such inconveniences and biases in the recognition result can be improved by updating the discrimination table. However, the character recognition device described in
第二の問題点は、判別テーブルの容量が大きく、判別テーブルの参照に時間がかかることである。その理由は、特許文献1に記載される文字認識装置の判別テーブルが、文字候補ごとの選択指標を定めたマトリックステーブルだからである。具体的には、第1認識部における第1文字候補の認識要素となる類似度の信頼値を文字候補ごとにX方向に配列し、かつ第2認識部における第2文字候補の認識要素となる形状特徴を文字候補ごとにY方向に配列し、両配列の対照に基づく文字候補選択指標を表欄にあらかじめ登録したものであり、その容量は膨大なものとなる。
The second problem is that the capacity of the discrimination table is large and it takes time to refer to the discrimination table. The reason is that the discrimination table of the character recognition device described in
本発明は、上記の事情にかんがみなされたものであり、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るものでありながら、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる郵便自動区分機及び郵便自動区分方法の提供を目的とする。 The present invention has been considered in view of the above circumstances, and uses a plurality of address information reading units with different recognition algorithms to read addresses in parallel from a single mail image, while providing operator input information. The feature quantity of each address information reading unit is stored in the database, and the discrimination table is updated based on the stored information in the database, thereby improving the recognition result defects and bias voluntarily and increasing the classification completion rate of postal items. An object is to provide an automatic mail sorting machine and an automatic mail sorting method that can be improved.
上記目的を達成するため本発明の郵便自動区分機は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機であって、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る並列読み取り部と、判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出する認識結果統合部と、正解と思われる区分特定情報の導出に失敗したとき、正解宛名情報読み取り部又は正解区分特定情報の入力をオペレータに要求するオペレータ入力部と、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量を蓄積するデータベースと、データベースの蓄積情報にもとづいて、判別テーブルを更新する学習部と、を備える構成としてある。 In order to achieve the above object, the automatic mail sorting machine of the present invention collects images of mail pieces to be sorted, reads addresses from the collected mail images, and based on the classification specifying information derived from the read addresses, A mail sorting machine that automatically sorts mail items, using a plurality of address information reading units with different recognition algorithms, a parallel reading unit that reads addresses in parallel from one mail image, and a discrimination table While referring to the recognition result integration unit that derives the category identification information that seems to be correct by comparing the recognition results and feature quantities from each address information reading unit, and when it fails to derive the category identification information that seems to be correct The correct address information reading unit or the operator input unit that requests the operator to input correct answer category specifying information, and the input information by the operator and each address information reading unit A database for storing a symptom amount, based on the stored information in the database, it is constituted; and a learning unit for updating the determination table.
このようにすると、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機において、郵便物の区分完了率を向上させることができる。その理由は、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積するとともに、データベースの蓄積情報にもとづいて判別テーブルを更新し、認識結果の不具合や偏りを自主的に改善できるからである。 In this way, in the automatic mail sorting machine that reads addresses from a single mail image in parallel using a plurality of address information reading units with different recognition algorithms, it is possible to improve the mail mail sorting completion rate. The reason is that the input information by the operator and the feature quantity from each address information reading unit are accumulated in the database, and the discrimination table is updated based on the accumulated information in the database, so that the defect and the bias of the recognition result can be independently improved. Because.
また、本発明の郵便自動区分機は、前記データベースを、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、前記学習部を、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーする構成とすることができる。
このようにすると、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。その理由は、判別テーブルに書き込まれるデータが、文字候補ごとの選択指標を定めたマトリックスデータではなく、各宛名情報読み取り部を特徴空間のクラスとする特徴量のプロトタイプデータだからである。
Further, the automatic mail sorting machine according to the present invention accumulates the correct address information reading unit information that is input information by the operator, the address area detection information that is the feature amount from each address information reading unit, and the likelihood in the database. The learning unit learns the prototype of each class using the correct address information reading unit as the feature space class, address area detection information and likelihood as the feature space feature vector, based on the accumulated data in the database, The prototype can be copied to the determination table.
In this way, not only the capacity of the discrimination table can be reduced, but also the reference time for the discrimination table can be shortened. The reason is that the data written in the discrimination table is not matrix data in which a selection index for each character candidate is defined, but is prototype data of feature quantities having each address information reading unit as a feature space class.
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とする構成とすることができる。
このようにすると、各宛名情報読み取り部(認識アルゴリズム)の特徴を捉え、認識文字に最も適合した宛名情報読み取り部の認識結果を選択することができる。また、宛名情報読み取り部の数の増減にも容易に対応することができる。
In the automatic mail sorting machine according to the present invention, the recognition result integration unit obtains the Euclidean distance from the prototype determined by the discrimination table using the feature quantity from each address information reading unit as an input vector, and the Euclidean distance is the smallest. It can be set as the structure which makes the recognition result of an address information reading part the correct answer.
In this way, it is possible to capture the characteristics of each address information reading unit (recognition algorithm) and select the recognition result of the address information reading unit most suitable for the recognized character. Further, it is possible to easily cope with an increase or decrease in the number of address information reading units.
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とする構成とすることができる。
このようにすると、誤った区分特定情報の導出を回避し、オペレータに正解宛名情報読み取り部又は正解値の入力を要求することができる。
Further, the automatic mail sorting machine of the present invention compares the Euclidean distance of each address information reading unit with the rejection threshold when the recognition result integration unit compares all of the address information when all the Euclidean distances are larger than the rejection threshold. It can be set as the structure which makes the recognition result of a reading part incorrect.
In this way, it is possible to avoid erroneous categorization information derivation and request the operator to input the correct address information reading unit or correct value.
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とする構成とすることができる。
このようにすると、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分特定情報の導出処理を高速化することができる。
Further, in the automatic mail sorting machine of the present invention, the recognition result integration unit compares the recognition result from each address information reading unit, and when all the recognition results are the same, the recognition result of all the address information reading units Can be set as a correct answer.
In this way, it is possible to speed up the process of deriving the category specifying information by omitting the reference table reference process and the Euclidean distance calculation process.
また、本発明の郵便自動区分方法は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分方法であって、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取り、判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出し、正解と思われる区分特定情報の導出に失敗したときは、正解宛名情報読み取り部又は正解区分特定情報の入力をオペレータに要求し、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて、判別テーブルを更新する方法としてある。
このようにすると、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るにあたり、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。
Further, the mail automatic classification method of the present invention collects images of mail pieces to be classified, reads addresses from the collected mail images, and automatically sorts mail items based on classification specifying information derived from the read addresses. Automatic postal sorting method, which uses a plurality of address information reading units with different recognition algorithms, reads addresses in parallel from one postal image, and reads each address information while referring to the discrimination table Compare the recognition results and feature quantities from the part to derive the category identification information that seems to be correct, and if the derivation of category identification information that seems to be correct fails, the correct addressee information reading unit or the correct category identification information Requests input from the operator, accumulates information input by the operator and feature amounts from each address information reading unit in the database, and based on the stored information in the database There a way to update the determination table.
In this way, when reading addresses from a single mail image in parallel using a plurality of address information reading units with different recognition algorithms, the operator's input information and feature values of each address information reading unit are stored in the database. In addition, by updating the determination table based on the stored information in the database, it is possible to voluntarily improve defects and bias in recognition results, and improve the postal matter classification completion rate.
また、本発明の郵便自動区分方法は、前記データベースに、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーするようにできる。
このようにすると、文字候補ごとの選択指標を定めたマトリックスデータを用いる場合に比べ、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。
The automatic mail classification method of the present invention accumulates in the database the correct address information reading unit information that is input information by the operator, the address area detection information that is the feature amount from each address information reading unit, and the likelihood. Based on the data stored in the database, the correct address information reading unit is used as a feature space class, address area detection information and likelihood as feature space feature vectors, and prototypes of each class are learned. Can be copied.
This makes it possible not only to reduce the capacity of the discrimination table, but also to shorten the reference time of the discrimination table, compared to the case where matrix data that defines selection indexes for each character candidate is used.
また、本発明の郵便自動区分方法は、各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とするようにできる。
このようにすると、各宛名情報読み取り部(認識アルゴリズム)の特徴を捉え、認識文字に最も適合した宛名情報読み取り部の認識結果を選択することができる。また、宛名情報読み取り部の数の増減にも容易に対応することができる。
The automatic mail classification method of the present invention obtains the Euclidean distance from the prototype determined by the discrimination table using the feature quantity from each address information reading unit as an input vector, and the recognition result of the address information reading unit having the smallest Euclidean distance. Can be made correct.
In this way, it is possible to capture the characteristics of each address information reading unit (recognition algorithm) and select the recognition result of the address information reading unit most suitable for the recognized character. Further, it is possible to easily cope with an increase or decrease in the number of address information reading units.
また、本発明の郵便自動区分方法は、各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とするようにできる。
このようにすると、誤った区分特定情報の導出を回避し、オペレータに正解宛名情報読み取り部又は正解値の入力を要求することができる。
The automatic mail classification method of the present invention compares the Euclidean distance of each address information reading unit with the reject threshold, and if all the Euclidean distances are larger than the reject threshold, the recognition results of all the address information reading units are rejected. The answer can be correct.
In this way, it is possible to avoid erroneous categorization information derivation and request the operator to input the correct address information reading unit or correct value.
また、本発明の郵便自動区分方法は、各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とするようにできる。
このようにすると、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分特定情報の導出処理を高速化することができる。
Further, the automatic mail sorting method of the present invention compares the recognition results from the respective address information reading units, and when all the recognition results are the same, the recognition results of all the address information reading units can be made correct. .
In this way, it is possible to speed up the process of deriving the category specifying information by omitting the reference table reference process and the Euclidean distance calculation process.
以上のように、本発明によれば、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るものでありながら、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。 As described above, according to the present invention, a plurality of address information reading units having different recognition algorithms are used to read addresses in parallel from a single mail image, while the operator input information and each address information By storing the feature values of the reading unit in the database and updating the discrimination table based on the stored information in the database, it is possible to voluntarily improve defects and bias in recognition results and improve the completion rate of mail classification it can.
以下、本発明の実施形態について、図面を参照して説明する。ただし、図面においては、適宜、宛名情報読み取り部をOCR、データベースをDBと表す。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, in the drawings, the address information reading unit is appropriately expressed as OCR and the database as DB.
[郵便自動区分装置]
図1は、本発明の実施形態に係る郵便自動区分機の構成を示すブロック図である。
この図に示される本発明の実施形態に係る郵便自動区分機は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機であって、郵便区分機本体部1と、並列読み取り部2と、認識結果統合部3と、認識結果出力部4と、オペレータ入力部5と、データベース6と、学習部7とを備えて構成されている。
[Automatic mail sorting device]
FIG. 1 is a block diagram showing a configuration of an automatic mail sorting machine according to an embodiment of the present invention.
The automatic mail sorting machine according to the embodiment of the present invention shown in this figure collects images of mail pieces to be sorted, reads addresses from the collected mail images, and creates classification specifying information derived from the read addresses. An automatic mail sorting machine that automatically sorts mail pieces based on a mail sorting
郵便区分機本体部1は、スキャナ等を用いて、区分すべき郵便物の画像を収集するとともに、収集した郵便物画像を並列読み取り部2に送り、認識結果出力部4から返される区分特定情報にもとづいて郵便物の区分処理を行う。区分特定情報は、郵便物の区分が特定し得るものであれば、特に制限はない。本実施形態では、予め定められた区分コードを用いる。
The postal
並列読み取り部2は、認識アルゴリズムが異なる複数の宛名情報読み取り部2a、2bを用いて、一つの郵便物画像から並列的に宛名を読み取る。一つの郵便物画像の読み取り処理が終わると、並列読み取り部2からは、その認識結果、特徴量及び処理画像が出力される。本実施形態では、認識結果として区分コードを出力し、特徴量としてABFエリア情報(Address Block Finding情報:住所領域検知情報)及び尤値を出力する。
なお、本実施形態では、二つの宛名情報読み取り部2a、2bで宛名の読み取りを行うが、3以上の宛名情報読み取り部で宛名の読み取りを行うようにしてもよい。
The
In this embodiment, the address is read by the two address
認識結果統合部3は、判別テーブルを参照しつつ、各宛名情報読み取り部2a、2bからの認識結果及び特徴量を比較して、正解と思われる区分コードを導き出す。
認識結果出力部4は、認識結果統合部3が正解と思われる区分コードの導出に成功したとき、郵便区分機本体部1に区分コードを返し、また、認識結果統合部3が正解と思われる区分コードの導出に失敗したとき(以下、適宜リジェクト)、各宛名情報読み取り部2a、2bの認識結果、特徴量及び処理画像をオペレータ入力部5に送る。
The recognition
The recognition
オペレータ入力部5は、各宛名情報読み取り部2a、2bの認識結果及び処理画像を表示し、正解宛名情報読み取り部(正解OCR番号)又は正解値(郵便番号又は住所文字列)の入力をオペレータに要求する。ここで、正解宛名情報読み取り部が入力された場合は、その宛名情報読み取り部の認識結果である区分コードを郵便区分機本体部1に送り、正解値が入力された場合は、それを区分コードに変換して郵便区分機本体部1に送る。
The
データベース6は、オペレータによる入力情報及び各宛名情報読み取り部2a、2bからの特徴量を蓄積する。例えば、オペレータによる入力情報として正解OCR番号を蓄積し、各宛名情報読み取り部2a、2bからの特徴量としてABFエリア情報及び尤度を蓄積する。
The
学習部7は、データベース6の蓄積情報にもとづいて学習し、判別テーブルを更新する。例えば、データベース6の蓄積データをもとに、正解OCR番号を特徴空間のクラス、ADFエリア情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーする。
The
郵便自動区分機をこのように構成すると、認識アルゴリズムが異なる複数の宛名情報読み取り部2a、2bを用いて、一つの郵便物画像から並列的に宛名を読み取るにあたり、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。
しかも、判別テーブルに書き込まれるデータは、文字候補ごとの選択指標を定めたマトリックスデータではなく、各宛名情報読み取り部2a、2bを特徴空間のクラスとする特徴量のプロトタイプデータであるため、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。
When the automatic mail sorting machine is configured in this way, the use of a plurality of address
In addition, since the data written in the discrimination table is not matrix data in which a selection index for each character candidate is defined, but is prototype data of feature quantities having each address
そして、認識結果統合部3では、各宛名情報読み取り部2a、2bからの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部2a、2bの認識結果を正解とすることができる。これにより、各宛名情報読み取り部2a、2bの特徴を捉え、認識文字に最も適合した宛名情報読み取り部2a、2bの認識結果を選択することができる。
Then, the recognition
また、認識結果統合部3は、各宛名情報読み取り部2a、2bのユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部2a、2bの認識結果を不正解とすることができる。このようにすると、誤った区分コードの導出を回避し、オペレータ入力部5において正解宛名情報読み取り部又は正解値の入力を要求できる。
Further, the recognition
また、認識結果統合部3は、各宛名情報読み取り部2a、2bからの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部2a、2bの認識結果を正解とすることができる。これにより、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分コードの導出処理を高速化することができる。
Further, the recognition
つぎに、本発明の実施形態に係る郵便自動区分方法について、図2を参照して説明する。 Next, an automatic mail sorting method according to an embodiment of the present invention will be described with reference to FIG.
[郵便自動区分方法]
図2は、本発明の実施形態に係る郵便自動区分機の区分処理手順を示すフローチャートである。
この図に示すように、郵便区分処理がスタートすると、郵便区分機本体部1では、供給された郵便物の画像をスキャナ等で収集し、その画像を並列読み取り部2に送る(S11)。
並列読み取り部2では、郵便区分機本体部1から送られてきた郵便物画像中の宛名を複数の宛名情報読み取り部2a、2bで並列に読み取り、区分コードを導き出す(S12)。
[Automatic mail sorting method]
FIG. 2 is a flowchart showing the sorting process procedure of the automatic mail sorting machine according to the embodiment of the present invention.
As shown in this figure, when the mail sorting process starts, the mail sorting machine
The
認識結果統合部3では、並列読み取り部2から各宛名情報読み取り部2a、2bの認識結果、特徴量及び処理画像を受け取るとともに、判定テーブルを参照しつつ、各宛名情報読み取り部2a、2bの認識結果及び特徴量を比較して、正解と思われる区分コードを導き出す(S13)。
認識結果出力部4では、認識結果統合部3が区分コードの導出に成功したか否かを判断し(S14)、該判断結果がYESのときは、郵便区分機本体部1に区分コードを送り(S15)、NOのときは、オペレータ入力部5に認識結果、特徴量及び処理画像を送る。
The recognition
The recognition
オペレータ入力部5では、各宛名情報読み取り部2a、2bの認識結果及び処理画像を表示し、正解宛名情報読み取り部(正解OCR番号)又は正解値(郵便番号又は住所文字列)の入力をオペレータに要求する(S16)。
オペレータによる入力が完了したら(S17)、区分コードを郵便区分機本体部1に送るとともに(S18)、データベース6にオペレータが入力したOCR番号及び各宛名情報読み取り部2a、2bの特徴量であるABFエリア情報及び尤度を蓄積する(S19)。
そして、一万件のデータがデータベース6に蓄積されたところで(S20)、これらのデータを学習関数にかけて前述したプロトタイプを算出し(S21)、このプロトタイプをコピーすることにより判別テーブルの更新を行う(S22)。
The
When the input by the operator is completed (S17), the classification code is sent to the postal sorting machine main unit 1 (S18), and the OCR number input by the operator to the
When 10,000 data items are accumulated in the database 6 (S20), the above-described prototype is calculated by applying these data to the learning function (S21), and the discrimination table is updated by copying this prototype (S21). S22).
つぎに、本発明の具体的な実施例について、図3〜図6を参照して説明する。
図3は、本発明の実施例1に係る郵便自動区分機のオペレータ入力部が表示する画面の例を示す説明図、図4は、本発明の実施例1に係る郵便自動区分機のデータベースに蓄積されるデータの例を示す説明図、図5は、本発明の実施例1に係る郵便自動区分機の判別テーブルに設定されるプロトタイプの例を示す説明図、図6は、本発明の実施例1に係る郵便自動区分機の各宛名情報読み取り部から送られる特徴情報の例を示す説明図である。
Next, specific examples of the present invention will be described with reference to FIGS.
FIG. 3 is an explanatory diagram illustrating an example of a screen displayed by the operator input unit of the automatic mail sorting machine according to the first embodiment of the present invention, and FIG. 4 is a database of the automatic mail sorting machine according to the first embodiment of the present invention. FIG. 5 is an explanatory diagram showing an example of stored data, FIG. 5 is an explanatory diagram showing an example of a prototype set in the discrimination table of the automatic mail sorting machine according to the first embodiment of the present invention, and FIG. 6 is an embodiment of the present invention. It is explanatory drawing which shows the example of the characteristic information sent from each address information reading part of the mail automatic sorting machine which concerns on Example 1. FIG.
郵便区分機本体部1において、供給された郵便物の256階調グレースケール画像をスキャナ等により収集し、その画像を並列読み取り部2に送る。本実施例では、並列読み取り部2に二台の宛名情報読み取り部2a、2bが連結された場合を記載する。
In the postal sorting machine
並列読み取り部2において、郵便区分機本体部1から送られてきた郵便物画像中の宛名を並列に連結した宛名情報読み取り部2a、2bを用いて読み取る。宛名の読み取りの際には、256階調のグレースール画像を適当な閾値を用いて二値化し、ニ値化画像に対して認識処理を行う。宛名の読み取り対象となるのは、各住所階層(郵便番号、都道府県、支町名、丁目、番地、会社名、宛先氏名等)であり、最終結果として区分コードを導き出すには、区分コードを一意に決定できるだけの各階層の読み取り情報が必要となる。
並列読み取り部2の各宛名情報読み取り部2a、2bからは、区分コード、ABF座標情報(x座標,y座標)、尤度及び処理画像を認識結果統合部3に出力する。
The
Each address
認識結果統合部3では、各宛名情報読み取り部2a、2bから入力された情報のうち、ABF座標情報が、郵便物画像を9分割した時にどの分割エリアに当てはまるかを判定し、ABF座標情報を9分割画面情報(ABFエリア情報)に変換する。つぎに、並列読み取り部2からの入力された各宛名情報読み取り部2a、2bの認識結果(区分コード)を比較し、全ての区分コードが同一の場合は、その区分コードを認識結果出力部4に出力する。また、各宛名情報読み取り部2a、2bが認識した区分コードが異なる場合は、リジェクト判定とし、認識結果出力部4にABFエリア情報、尤度及び処理画像を送る。
The recognition
認識結果出力部4に入力された正解の区分コードは、郵便区分機本体部1に送り、区分コードを基に、供給された郵便物が指定の区分箱に区分され区分完了となる。リジェクトの場合は、各宛名情報読み取り部2a、2bのABFエリア情報、尤度及び処理画像がオペレータ入力部5に送られる。
The correct classification code input to the recognition
オペレータ入力部5では、オペレータによる郵便物画像の目視確認が行われる。オペレータ入力部5は、郵便物画像表示用のディスプレイ、情報入力用のマウス及びキーボードを備えている。図3にオペレータ入力部5における画像表示例を示す。図3に示す表示画面の左側が一方の宛名情報読み取り部2aが処理した二値化画像を表示する領域5a、右側が他方の宛名情報読み取り部2aが処理した二値化画像を表示する領域5bである。その上段には、オペレータが正解のOCR番号(本実施例では1又は2)を入力する欄5cと、正解値(区分コード、郵便番号、住所等)を入力する欄5dがある。また、宛名情報読み取り部2a、2bがいくつかの住所階層を読み取れている場合は、各宛名情報読み取り部2a、2bの処理画像を表示する領域5a、5bの下側にある領域5e、5fに、区分コードの読み取り結果が表示される。
そして、オペレータは、正解OCR番号又は正解値を打鍵する。打鍵された正解区分コードは、郵便区分機本体部1に送られ、正解値を打鍵した郵便物は、打鍵された正解値を基に区分され区分完了となる。
In the
Then, the operator types the correct OCR number or correct value. The keyed correct answer classification code is sent to the postal sorting machine
オペレータ入力部5で入力された正解OCR番号は、各宛名情報読み取り部2a、2bのABFエリア情報、尤度と共に、図4に示すようにデータベース6に送られ、蓄積される。
データベース6に蓄えられたデータは、1万通蓄積したところで、学習部7の学習関数にかけられる。
The correct OCR number input by the
The data stored in the
本実施例では、図4に示すように、2つの宛名情報読み取り部2a、2bがそれぞれ特徴量であるABFエリア情報及び尤度を持っているので、4次元の特徴ベクトルでその時選択した宛名情報読み取り部2a、2bの特徴を表すことができる。この特徴ベクトルが張る特徴空間には、各宛名情報読み取り部2a、2bに対応する2つのクラスが存在することになり、クラスの代表的なパターンとしてプロトタイプを設定する。プロトタイプは、例えば、広く知られているk−means法を用いて容易に求めることができる。また、特徴量のスケールで特徴空間におけるパターン分布の様相が変わらないように、各特徴量を標準化する。得られたプロトタイプを図5に示す。各クラスを一つのプロトタイプで線形分離不可能な場合は、プロトタイプを増やし、各クラスを分離する。
In this embodiment, as shown in FIG. 4, since the two address
学習で得られたプロトタイプは、判定テーブルに反映される。学習によって得られた判別テーブルは、認識結果統合部3の既存の判別テーブルに、プロトタイプをコピーすることにより更新される。
更新後は、更新した判別テーブルを参照しつつ、各宛名情報読み取り部2a、2bの出力値を比較して、区分コードを導き出す。判別テーブルの参照は、各宛名情報読み取り部2a、2bからの4次元の特徴量を標準化し、標準化した値を入力ベクトルとして、判別テーブルに設定された各宛名情報読み取り部2a、2bのプロトタイプとのユークリッド距離を求めることにより行うことができる。例えば、図6のような入力ベクトルの場合、宛名情報読み取り部2aのプロトタイプとのユークリッド距離は2.24、宛名情報読み取り部2bのプロトタイプとのユークリッド距離は2.48であり、宛名情報読み取り部2aのユークリッド距離が最も値が小さいので、出力する認識結果は、宛名情報読み取り部2aのものとなる。また、ユークリッド距離のリジェクト閾値を決定し、その値より全てのユークリッド距離が大きい場合は、リジェクトとする。また、各宛名情報読み取り部2a、2bのユークリッド距離が等しい場合も、リジェクトとすることが好ましい。
The prototype obtained by learning is reflected in the determination table. The discrimination table obtained by learning is updated by copying the prototype to the existing discrimination table of the recognition
After the update, referring to the updated discrimination table, the output values of the address
また、更新した判別テーブルで運用しても、所望の認識精度が得られない場合は、各宛名情報読み取り部2a、2bのABFエリア情報及び尤度をさらに蓄積して再び学習を行い、判別テーブルを更新する。
Further, if the desired recognition accuracy cannot be obtained even if the updated discrimination table is used, the ABF area information and the likelihood of each address
本発明は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機及び郵便自動区分方法に適用できる。特に、本発明は、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機及び郵便自動区分方法において有用である。 The present invention collects images of postal items to be classified, reads addresses from the collected postal images, and automatically classifies postal items based on classification specifying information derived from the read addresses Applicable to machine and postal mail sorting method. In particular, the present invention is useful in an automatic postal sorting machine and an automatic postal sorting method that read addresses in parallel from one postal matter image using a plurality of address information reading units having different recognition algorithms.
1 郵便区分機本体部
2 並列読み取り部
2a 宛名情報読み取り部
2b 宛名情報読み取り部
3 認識結果統合部
4 認識結果出力部
5 オペレータ入力部
6 データベース
7 学習部
DESCRIPTION OF
Claims (8)
認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る並列読み取り部と、
判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出する認識結果統合部と、
正解と思われる区分特定情報の導出に失敗したとき、正解宛名情報読み取り部又は正解値の入力をオペレータに要求するオペレータ入力部と、
オペレータによる入力情報及び各宛名情報読み取り部からの特徴量を蓄積するデータベースと、
データベースの蓄積情報にもとづいて、判別テーブルを更新する学習部と、
を備え、
前記データベースが、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、
前記学習部が、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判別テーブルにコピーすることを特徴とする郵便自動区分機。 An automatic mail sorting machine that collects images of postal items to be classified, reads addresses from the collected mail images, and automatically classifies mails based on the classification specific information derived from the read addresses ,
A parallel reading unit that reads addresses in parallel from one mail image using a plurality of address information reading units with different recognition algorithms;
While referring to the discrimination table, the recognition result integration unit for deriving the category identification information that seems to be correct by comparing the recognition result and the feature amount from each address information reading unit,
An operator input unit for requesting the operator to input a correct answer address information reading unit or a correct value when derivation of the category specific information that seems to be correct has failed;
A database for storing information input by the operator and feature amounts from each address information reading unit;
A learning unit for updating the discrimination table based on the accumulated information in the database;
Equipped with a,
The database stores correct address information reading unit information that is input information by an operator, address area detection information and likelihood that is a feature amount from each address information reading unit,
The learning unit learns a prototype of each class using the correct address information reading unit as a feature space class, address area detection information and likelihood as a feature space feature vector based on the accumulated data in the database. automatic mail sorting machine, wherein the copy it to the determination table.
認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取り、
判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出し、
正解と思われる区分特定情報の導出に失敗したときは、正解宛名情報読み取り部又は正解値の入力をオペレータに要求し、
オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積し、
データベースの蓄積情報にもとづいて、判別テーブルを更新するとともに、
前記データベースに、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、
データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判別テーブルにコピーする
ことを特徴とする郵便自動区分方法。 An automatic postal classification method that collects images of postal items to be classified, reads addresses from the collected postal images, and automatically classifies postal items based on classification specific information derived from the read addresses ,
Using multiple address information reading units with different recognition algorithms, the address is read in parallel from one postal image,
While referring to the discrimination table, compare the recognition results and feature quantities from each address information reading unit to derive the category specific information that seems to be correct,
If derivation of the category specific information that seems to be correct fails, request the operator to input the correct addressee information reading part or correct value,
Accumulate information input by the operator and feature values from each address information reading unit in the database,
Based on the accumulated information in the database, update the discrimination table ,
In the database, correct address information reading part information that is input information by the operator, address area detection information and likelihood that is a feature amount from each address information reading part,
Based on the data stored in the database, the correct addressee information reading unit is used as the feature space class, address area detection information and likelihood as the feature space feature vector, and the prototype of each class is learned, and this prototype is copied to the discrimination table. An automatic mail sorting method characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209364A JP5003051B2 (en) | 2006-08-01 | 2006-08-01 | Automatic mail sorting machine and automatic mail sorting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006209364A JP5003051B2 (en) | 2006-08-01 | 2006-08-01 | Automatic mail sorting machine and automatic mail sorting method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008033851A JP2008033851A (en) | 2008-02-14 |
JP5003051B2 true JP5003051B2 (en) | 2012-08-15 |
Family
ID=39123157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006209364A Expired - Fee Related JP5003051B2 (en) | 2006-08-01 | 2006-08-01 | Automatic mail sorting machine and automatic mail sorting method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5003051B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2456216A (en) * | 2008-01-11 | 2009-07-15 | Lockheed Martin Uk Ltd | Block analyser in mail sorting system |
JP6203084B2 (en) * | 2014-03-06 | 2017-09-27 | 株式会社東芝 | Delivery classification processing system and delivery classification processing method |
JP6730143B2 (en) * | 2016-09-08 | 2020-07-29 | 株式会社東芝 | Delivery processing system, delivery processing device, and delivery processing program |
JP6783671B2 (en) * | 2017-01-13 | 2020-11-11 | 株式会社東芝 | Classification system, recognition support device, recognition support method, and recognition support program |
JP6976158B2 (en) * | 2017-12-19 | 2021-12-08 | 株式会社東芝 | Sorting device and sorting system |
CN111275011B (en) | 2020-02-25 | 2023-12-19 | 阿波罗智能技术(北京)有限公司 | Mobile traffic light detection method and device, electronic equipment and storage medium |
JP2023045981A (en) * | 2021-09-22 | 2023-04-03 | ローレルバンクマシン株式会社 | Information processing device and program |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05307639A (en) * | 1992-04-30 | 1993-11-19 | Toshiba Corp | Device for detecting address area of postal matter |
JP2894111B2 (en) * | 1992-10-15 | 1999-05-24 | 日本電気株式会社 | Comprehensive judgment method of recognition result in optical type character recognition device |
JPH07271899A (en) * | 1994-03-31 | 1995-10-20 | Toshiba Corp | Character recognition device |
JP2827960B2 (en) * | 1995-04-28 | 1998-11-25 | 日本電気株式会社 | Address line extraction device |
JP3095069B2 (en) * | 1998-03-26 | 2000-10-03 | 日本電気株式会社 | Character recognition device, learning method, and recording medium storing character recognition program |
JP3485020B2 (en) * | 1999-04-09 | 2004-01-13 | 日本電気株式会社 | Character recognition method and apparatus, and storage medium |
JP2002086072A (en) * | 2000-09-20 | 2002-03-26 | Toshiba Corp | Address reading apparatus, sorter system, method and apparatus for reading address |
JP2001314820A (en) * | 2001-03-23 | 2001-11-13 | Nec Corp | Device for detecting address region |
-
2006
- 2006-08-01 JP JP2006209364A patent/JP5003051B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008033851A (en) | 2008-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7120318B2 (en) | Automatic document reading system for technical drawings | |
US5787194A (en) | System and method for image processing using segmentation of images and classification and merging of image segments using a cost function | |
US5159667A (en) | Document identification by characteristics matching | |
US7092561B2 (en) | Character recognition, including method and system for processing checks with invalidated MICR lines | |
US6104833A (en) | Pattern recognizing apparatus and method | |
JP5003051B2 (en) | Automatic mail sorting machine and automatic mail sorting method | |
JP5217127B2 (en) | Collective place name recognition program, collective place name recognition apparatus, and collective place name recognition method | |
US20090041361A1 (en) | Character recognition apparatus, character recognition method, and computer product | |
CN101925905A (en) | Identification and verification of unknown document according to eigen image process | |
JP3485020B2 (en) | Character recognition method and apparatus, and storage medium | |
CN113657354B (en) | Answer sheet identification method and system based on deep learning | |
US11023720B1 (en) | Document parsing using multistage machine learning | |
JP4802176B2 (en) | Pattern recognition apparatus, pattern recognition program, and pattern recognition method | |
JP5433470B2 (en) | Address database construction device and address database construction method | |
JP3095069B2 (en) | Character recognition device, learning method, and recording medium storing character recognition program | |
JP2004171316A (en) | Ocr device, document retrieval system and document retrieval program | |
JP4176175B2 (en) | Pattern recognition device | |
JPH1173472A (en) | Format information registering method and ocr system | |
EP0684576A2 (en) | Improvements in image processing | |
CN114495135A (en) | Bill identification method and device | |
JPH04111085A (en) | Pattern recognizing device | |
JP7404625B2 (en) | Information processing device and program | |
CN1235319A (en) | Process and equipment for recognition of pattern on item presented | |
JP2000207491A (en) | Reading method and device for character string | |
JP3657565B2 (en) | Image pattern identification and recognition method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090717 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120424 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120507 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150601 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5003051 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |