JP2008033851A - 郵便自動区分機及び郵便自動区分方法 - Google Patents

郵便自動区分機及び郵便自動区分方法 Download PDF

Info

Publication number
JP2008033851A
JP2008033851A JP2006209364A JP2006209364A JP2008033851A JP 2008033851 A JP2008033851 A JP 2008033851A JP 2006209364 A JP2006209364 A JP 2006209364A JP 2006209364 A JP2006209364 A JP 2006209364A JP 2008033851 A JP2008033851 A JP 2008033851A
Authority
JP
Japan
Prior art keywords
address information
information reading
correct
address
reading unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006209364A
Other languages
English (en)
Other versions
JP5003051B2 (ja
Inventor
Hiromitsu Mori
寛光 森
Katsuhiko Kondo
克彦 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006209364A priority Critical patent/JP5003051B2/ja
Publication of JP2008033851A publication Critical patent/JP2008033851A/ja
Application granted granted Critical
Publication of JP5003051B2 publication Critical patent/JP5003051B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るものでありながら、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させる。
【解決手段】認識アルゴリズムが異なる複数の宛名情報読み取り部2a、2bを用いて、一つの郵便物画像から並列的に宛名を読み取る並列読み取り部2と、判別テーブルを参照しつつ、各宛名情報読み取り部2a、2bからの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出する認識結果統合部3と、正解と思われる区分特定情報の導出に失敗したとき、正解宛名情報読み取り部又は正解区分特定情報の入力をオペレータに要求するオペレータ入力部5と、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量を蓄積するデータベース6と、データベース6の蓄積情報にもとづいて、判別テーブルを更新する学習部7とを備える。
【選択図】図1

Description

本発明は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機及び郵便自動区分方法に関し、特に、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機及び郵便自動区分方法に関する。
区分すべき郵便物から宛名(郵便番号、都道府県、市町名、丁目、番地、会社名、宛先氏名等)を読み取り、読み取った宛名から導出される区分特定情報(例えば、区分コード)にもとづいて、郵便物を自動的に区分する郵便自動区分機が知られている。この種の郵便自動区分機は、通常、郵便区分機本体部で区分すべき郵便物の画像を収集し、収集した郵便物画像を宛名情報読み取り部(OCR:Optical Character Reader)に送り、ここで宛名の読み取りを行っている。
また、宛名情報読み取り部が宛名の読み取りに失敗した場合、その郵便物画像をオペレータ入力部に送り、オペレータに正解値の入力を要求する郵便自動区分機もある。このようなオペレータによる補完入力機能は、一般にビデオコーディングディスクと呼ばれており、ディスプレイに表示した郵便物画像に含まれる宛名(郵便番号又は住所文字列)をオペレータが視認してキー入力すると、その入力情報にもとづいて区分特定情報が導き出される。
近年、文字認識の技術分野では、様々な認識アルゴリズムが開発されており、認識率も向上してきている。しかしながら、郵便物に宛名として記載される文字には、手書き文字や印刷文字が含まれるだけでなく、その書体も様々であるため、一つの認識アルゴリズムでは対応が困難であり、認識性能に限界があった。
そこで、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取ることが提案されている。例えば、特許文献1に記載される文字認識装置は、郵便物画像より得られる文字パターンと参照用の基準パターンとを第1認識部により複合類似度抽出処理にて照合し、読取文字に対する認識結果として第1文字候補を求めるとともに、読取りにより得られる文字パターンの形状と参照用の形状データとを第2認識部により輪郭特徴マッチング処理にて照合し、読取文字に対する認識結果として第2文字候補が求め、これら認識結果をマトリックステーブルに当て嵌めて文字候補選択指標を読出し、この読出した文字候補選択指標に応じて上記2つの認識結果のいずれか一方を選択するようになっている。
特開平7−271899号公報
しかしながら、特許文献1に記載される文字認識装置では、いくつかの問題点がある。
第一の問題点は、認識結果に不具合や偏りがあっても、それを容易に改善できないことである。その理由は、認識結果を選択するための判別テーブル(マトリクステーブル)が固定データであり、2つの認識結果のいずれか一方が一義的に選択されてしまうからである。このような認識結果の不具合や偏りは、判別テーブルの更新により改善することが可能であるが、特許文献1に記載される文字認識装置では、ユーザによる判別テーブルの更新を考慮していない。
第二の問題点は、判別テーブルの容量が大きく、判別テーブルの参照に時間がかかることである。その理由は、特許文献1に記載される文字認識装置の判別テーブルが、文字候補ごとの選択指標を定めたマトリックステーブルだからである。具体的には、第1認識部における第1文字候補の認識要素となる類似度の信頼値を文字候補ごとにX方向に配列し、かつ第2認識部における第2文字候補の認識要素となる形状特徴を文字候補ごとにY方向に配列し、両配列の対照に基づく文字候補選択指標を表欄にあらかじめ登録したものであり、その容量は膨大なものとなる。
本発明は、上記の事情にかんがみなされたものであり、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るものでありながら、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる郵便自動区分機及び郵便自動区分方法の提供を目的とする。
上記目的を達成するため本発明の郵便自動区分機は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機であって、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る並列読み取り部と、判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出する認識結果統合部と、正解と思われる区分特定情報の導出に失敗したとき、正解宛名情報読み取り部又は正解区分特定情報の入力をオペレータに要求するオペレータ入力部と、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量を蓄積するデータベースと、データベースの蓄積情報にもとづいて、判別テーブルを更新する学習部と、を備える構成としてある。
このようにすると、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機において、郵便物の区分完了率を向上させることができる。その理由は、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積するとともに、データベースの蓄積情報にもとづいて判別テーブルを更新し、認識結果の不具合や偏りを自主的に改善できるからである。
また、本発明の郵便自動区分機は、前記データベースを、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、前記学習部を、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーする構成とすることができる。
このようにすると、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。その理由は、判別テーブルに書き込まれるデータが、文字候補ごとの選択指標を定めたマトリックスデータではなく、各宛名情報読み取り部を特徴空間のクラスとする特徴量のプロトタイプデータだからである。
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とする構成とすることができる。
このようにすると、各宛名情報読み取り部(認識アルゴリズム)の特徴を捉え、認識文字に最も適合した宛名情報読み取り部の認識結果を選択することができる。また、宛名情報読み取り部の数の増減にも容易に対応することができる。
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とする構成とすることができる。
このようにすると、誤った区分特定情報の導出を回避し、オペレータに正解宛名情報読み取り部又は正解値の入力を要求することができる。
また、本発明の郵便自動区分機は、前記認識結果統合部を、各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とする構成とすることができる。
このようにすると、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分特定情報の導出処理を高速化することができる。
また、本発明の郵便自動区分方法は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分方法であって、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取り、判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出し、正解と思われる区分特定情報の導出に失敗したときは、正解宛名情報読み取り部又は正解区分特定情報の入力をオペレータに要求し、オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて、判別テーブルを更新する方法としてある。
このようにすると、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るにあたり、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。
また、本発明の郵便自動区分方法は、前記データベースに、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーするようにできる。
このようにすると、文字候補ごとの選択指標を定めたマトリックスデータを用いる場合に比べ、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。
また、本発明の郵便自動区分方法は、各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とするようにできる。
このようにすると、各宛名情報読み取り部(認識アルゴリズム)の特徴を捉え、認識文字に最も適合した宛名情報読み取り部の認識結果を選択することができる。また、宛名情報読み取り部の数の増減にも容易に対応することができる。
また、本発明の郵便自動区分方法は、各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とするようにできる。
このようにすると、誤った区分特定情報の導出を回避し、オペレータに正解宛名情報読み取り部又は正解値の入力を要求することができる。
また、本発明の郵便自動区分方法は、各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とするようにできる。
このようにすると、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分特定情報の導出処理を高速化することができる。
以上のように、本発明によれば、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取るものでありながら、オペレータの入力情報や各宛名情報読み取り部の特徴量をデータベースに蓄積し、データベースの蓄積情報にもとづいて判別テーブルを更新することにより、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。
以下、本発明の実施形態について、図面を参照して説明する。ただし、図面においては、適宜、宛名情報読み取り部をOCR、データベースをDBと表す。
[郵便自動区分装置]
図1は、本発明の実施形態に係る郵便自動区分機の構成を示すブロック図である。
この図に示される本発明の実施形態に係る郵便自動区分機は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機であって、郵便区分機本体部1と、並列読み取り部2と、認識結果統合部3と、認識結果出力部4と、オペレータ入力部5と、データベース6と、学習部7とを備えて構成されている。
郵便区分機本体部1は、スキャナ等を用いて、区分すべき郵便物の画像を収集するとともに、収集した郵便物画像を並列読み取り部2に送り、認識結果出力部4から返される区分特定情報にもとづいて郵便物の区分処理を行う。区分特定情報は、郵便物の区分が特定し得るものであれば、特に制限はない。本実施形態では、予め定められた区分コードを用いる。
並列読み取り部2は、認識アルゴリズムが異なる複数の宛名情報読み取り部2a、2bを用いて、一つの郵便物画像から並列的に宛名を読み取る。一つの郵便物画像の読み取り処理が終わると、並列読み取り部2からは、その認識結果、特徴量及び処理画像が出力される。本実施形態では、認識結果として区分コードを出力し、特徴量としてABFエリア情報(Address Block Finding情報:住所領域検知情報)及び尤値を出力する。
なお、本実施形態では、二つの宛名情報読み取り部2a、2bで宛名の読み取りを行うが、3以上の宛名情報読み取り部で宛名の読み取りを行うようにしてもよい。
認識結果統合部3は、判別テーブルを参照しつつ、各宛名情報読み取り部2a、2bからの認識結果及び特徴量を比較して、正解と思われる区分コードを導き出す。
認識結果出力部4は、認識結果統合部3が正解と思われる区分コードの導出に成功したとき、郵便区分機本体部1に区分コードを返し、また、認識結果統合部3が正解と思われる区分コードの導出に失敗したとき(以下、適宜リジェクト)、各宛名情報読み取り部2a、2bの認識結果、特徴量及び処理画像をオペレータ入力部5に送る。
オペレータ入力部5は、各宛名情報読み取り部2a、2bの認識結果及び処理画像を表示し、正解宛名情報読み取り部(正解OCR番号)又は正解値(郵便番号又は住所文字列)の入力をオペレータに要求する。ここで、正解宛名情報読み取り部が入力された場合は、その宛名情報読み取り部の認識結果である区分コードを郵便区分機本体部1に送り、正解値が入力された場合は、それを区分コードに変換して郵便区分機本体部1に送る。
データベース6は、オペレータによる入力情報及び各宛名情報読み取り部2a、2bからの特徴量を蓄積する。例えば、オペレータによる入力情報として正解OCR番号を蓄積し、各宛名情報読み取り部2a、2bからの特徴量としてABFエリア情報及び尤度を蓄積する。
学習部7は、データベース6の蓄積情報にもとづいて学習し、判別テーブルを更新する。例えば、データベース6の蓄積データをもとに、正解OCR番号を特徴空間のクラス、ADFエリア情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判定テーブルにコピーする。
郵便自動区分機をこのように構成すると、認識アルゴリズムが異なる複数の宛名情報読み取り部2a、2bを用いて、一つの郵便物画像から並列的に宛名を読み取るにあたり、認識結果の不具合や偏りを自主的に改善し、郵便物の区分完了率を向上させることができる。
しかも、判別テーブルに書き込まれるデータは、文字候補ごとの選択指標を定めたマトリックスデータではなく、各宛名情報読み取り部2a、2bを特徴空間のクラスとする特徴量のプロトタイプデータであるため、判別テーブルの容量を小さくできるだけでなく、判別テーブルの参照時間を短縮することができる。
そして、認識結果統合部3では、各宛名情報読み取り部2a、2bからの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部2a、2bの認識結果を正解とすることができる。これにより、各宛名情報読み取り部2a、2bの特徴を捉え、認識文字に最も適合した宛名情報読み取り部2a、2bの認識結果を選択することができる。
また、認識結果統合部3は、各宛名情報読み取り部2a、2bのユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部2a、2bの認識結果を不正解とすることができる。このようにすると、誤った区分コードの導出を回避し、オペレータ入力部5において正解宛名情報読み取り部又は正解値の入力を要求できる。
また、認識結果統合部3は、各宛名情報読み取り部2a、2bからの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部2a、2bの認識結果を正解とすることができる。これにより、判別テーブルの参照処理や、ユークリッド距離の演算処理を省き、区分コードの導出処理を高速化することができる。
つぎに、本発明の実施形態に係る郵便自動区分方法について、図2を参照して説明する。
[郵便自動区分方法]
図2は、本発明の実施形態に係る郵便自動区分機の区分処理手順を示すフローチャートである。
この図に示すように、郵便区分処理がスタートすると、郵便区分機本体部1では、供給された郵便物の画像をスキャナ等で収集し、その画像を並列読み取り部2に送る(S11)。
並列読み取り部2では、郵便区分機本体部1から送られてきた郵便物画像中の宛名を複数の宛名情報読み取り部2a、2bで並列に読み取り、区分コードを導き出す(S12)。
認識結果統合部3では、並列読み取り部2から各宛名情報読み取り部2a、2bの認識結果、特徴量及び処理画像を受け取るとともに、判定テーブルを参照しつつ、各宛名情報読み取り部2a、2bの認識結果及び特徴量を比較して、正解と思われる区分コードを導き出す(S13)。
認識結果出力部4では、認識結果統合部3が区分コードの導出に成功したか否かを判断し(S14)、該判断結果がYESのときは、郵便区分機本体部1に区分コードを送り(S15)、NOのときは、オペレータ入力部5に認識結果、特徴量及び処理画像を送る。
オペレータ入力部5では、各宛名情報読み取り部2a、2bの認識結果及び処理画像を表示し、正解宛名情報読み取り部(正解OCR番号)又は正解値(郵便番号又は住所文字列)の入力をオペレータに要求する(S16)。
オペレータによる入力が完了したら(S17)、区分コードを郵便区分機本体部1に送るとともに(S18)、データベース6にオペレータが入力したOCR番号及び各宛名情報読み取り部2a、2bの特徴量であるABFエリア情報及び尤度を蓄積する(S19)。
そして、一万件のデータがデータベース6に蓄積されたところで(S20)、これらのデータを学習関数にかけて前述したプロトタイプを算出し(S21)、このプロトタイプをコピーすることにより判別テーブルの更新を行う(S22)。
つぎに、本発明の具体的な実施例について、図3〜図6を参照して説明する。
図3は、本発明の実施例1に係る郵便自動区分機のオペレータ入力部が表示する画面の例を示す説明図、図4は、本発明の実施例1に係る郵便自動区分機のデータベースに蓄積されるデータの例を示す説明図、図5は、本発明の実施例1に係る郵便自動区分機の判別テーブルに設定されるプロトタイプの例を示す説明図、図6は、本発明の実施例1に係る郵便自動区分機の各宛名情報読み取り部から送られる特徴情報の例を示す説明図である。
郵便区分機本体部1において、供給された郵便物の256階調グレースケール画像をスキャナ等により収集し、その画像を並列読み取り部2に送る。本実施例では、並列読み取り部2に二台の宛名情報読み取り部2a、2bが連結された場合を記載する。
並列読み取り部2において、郵便区分機本体部1から送られてきた郵便物画像中の宛名を並列に連結した宛名情報読み取り部2a、2bを用いて読み取る。宛名の読み取りの際には、256階調のグレースール画像を適当な閾値を用いて二値化し、ニ値化画像に対して認識処理を行う。宛名の読み取り対象となるのは、各住所階層(郵便番号、都道府県、支町名、丁目、番地、会社名、宛先氏名等)であり、最終結果として区分コードを導き出すには、区分コードを一意に決定できるだけの各階層の読み取り情報が必要となる。
並列読み取り部2の各宛名情報読み取り部2a、2bからは、区分コード、ABF座標情報(x座標,y座標)、尤度及び処理画像を認識結果統合部3に出力する。
認識結果統合部3では、各宛名情報読み取り部2a、2bから入力された情報のうち、ABF座標情報が、郵便物画像を9分割した時にどの分割エリアに当てはまるかを判定し、ABF座標情報を9分割画面情報(ABFエリア情報)に変換する。つぎに、並列読み取り部2からの入力された各宛名情報読み取り部2a、2bの認識結果(区分コード)を比較し、全ての区分コードが同一の場合は、その区分コードを認識結果出力部4に出力する。また、各宛名情報読み取り部2a、2bが認識した区分コードが異なる場合は、リジェクト判定とし、認識結果出力部4にABFエリア情報、尤度及び処理画像を送る。
認識結果出力部4に入力された正解の区分コードは、郵便区分機本体部1に送り、区分コードを基に、供給された郵便物が指定の区分箱に区分され区分完了となる。リジェクトの場合は、各宛名情報読み取り部2a、2bのABFエリア情報、尤度及び処理画像がオペレータ入力部5に送られる。
オペレータ入力部5では、オペレータによる郵便物画像の目視確認が行われる。オペレータ入力部5は、郵便物画像表示用のディスプレイ、情報入力用のマウス及びキーボードを備えている。図3にオペレータ入力部5における画像表示例を示す。図3に示す表示画面の左側が一方の宛名情報読み取り部2aが処理した二値化画像を表示する領域5a、右側が他方の宛名情報読み取り部2aが処理した二値化画像を表示する領域5bである。その上段には、オペレータが正解のOCR番号(本実施例では1又は2)を入力する欄5cと、正解値(区分コード、郵便番号、住所等)を入力する欄5dがある。また、宛名情報読み取り部2a、2bがいくつかの住所階層を読み取れている場合は、各宛名情報読み取り部2a、2bの処理画像を表示する領域5a、5bの下側にある領域5e、5fに、区分コードの読み取り結果が表示される。
そして、オペレータは、正解OCR番号又は正解値を打鍵する。打鍵された正解区分コードは、郵便区分機本体部1に送られ、正解値を打鍵した郵便物は、打鍵された正解値を基に区分され区分完了となる。
オペレータ入力部5で入力された正解OCR番号は、各宛名情報読み取り部2a、2bのABFエリア情報、尤度と共に、図4に示すようにデータベース6に送られ、蓄積される。
データベース6に蓄えられたデータは、1万通蓄積したところで、学習部7の学習関数にかけられる。
本実施例では、図4に示すように、2つの宛名情報読み取り部2a、2bがそれぞれ特徴量であるABFエリア情報及び尤度を持っているので、4次元の特徴ベクトルでその時選択した宛名情報読み取り部2a、2bの特徴を表すことができる。この特徴ベクトルが張る特徴空間には、各宛名情報読み取り部2a、2bに対応する2つのクラスが存在することになり、クラスの代表的なパターンとしてプロトタイプを設定する。プロトタイプは、例えば、広く知られているk−means法を用いて容易に求めることができる。また、特徴量のスケールで特徴空間におけるパターン分布の様相が変わらないように、各特徴量を標準化する。得られたプロトタイプを図5に示す。各クラスを一つのプロトタイプで線形分離不可能な場合は、プロトタイプを増やし、各クラスを分離する。
学習で得られたプロトタイプは、判定テーブルに反映される。学習によって得られた判別テーブルは、認識結果統合部3の既存の判別テーブルに、プロトタイプをコピーすることにより更新される。
更新後は、更新した判別テーブルを参照しつつ、各宛名情報読み取り部2a、2bの出力値を比較して、区分コードを導き出す。判別テーブルの参照は、各宛名情報読み取り部2a、2bからの4次元の特徴量を標準化し、標準化した値を入力ベクトルとして、判別テーブルに設定された各宛名情報読み取り部2a、2bのプロトタイプとのユークリッド距離を求めることにより行うことができる。例えば、図6のような入力ベクトルの場合、宛名情報読み取り部2aのプロトタイプとのユークリッド距離は2.24、宛名情報読み取り部2bのプロトタイプとのユークリッド距離は2.48であり、宛名情報読み取り部2aのユークリッド距離が最も値が小さいので、出力する認識結果は、宛名情報読み取り部2aのものとなる。また、ユークリッド距離のリジェクト閾値を決定し、その値より全てのユークリッド距離が大きい場合は、リジェクトとする。また、各宛名情報読み取り部2a、2bのユークリッド距離が等しい場合も、リジェクトとすることが好ましい。
また、更新した判別テーブルで運用しても、所望の認識精度が得られない場合は、各宛名情報読み取り部2a、2bのABFエリア情報及び尤度をさらに蓄積して再び学習を行い、判別テーブルを更新する。
本発明は、区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機及び郵便自動区分方法に適用できる。特に、本発明は、認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る郵便自動区分機及び郵便自動区分方法において有用である。
本発明の実施形態に係る郵便自動区分機の構成を示すブロック図である。 本発明の実施形態に係る郵便自動区分機の区分処理手順を示すフローチャートである。 本発明の実施例1に係る郵便自動区分機のオペレータ入力部が表示する画面の例を示す説明図である。 本発明の実施例1に係る郵便自動区分機のデータベースに蓄積されるデータの例を示す説明図である。 本発明の実施例1に係る郵便自動区分機の判別テーブルに設定されるプロトタイプの例を示す説明図である。 本発明の実施例1に係る郵便自動区分機の各宛名情報読み取り部から送られる特徴情報の例を示す説明図である。
符号の説明
1 郵便区分機本体部
2 並列読み取り部
2a 宛名情報読み取り部
2b 宛名情報読み取り部
3 認識結果統合部
4 認識結果出力部
5 オペレータ入力部
6 データベース
7 学習部

Claims (10)

  1. 区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分機であって、
    認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取る並列読み取り部と、
    判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出する認識結果統合部と、
    正解と思われる区分特定情報の導出に失敗したとき、正解宛名情報読み取り部又は正解値の入力をオペレータに要求するオペレータ入力部と、
    オペレータによる入力情報及び各宛名情報読み取り部からの特徴量を蓄積するデータベースと、
    データベースの蓄積情報にもとづいて、判別テーブルを更新する学習部と、
    を備えることを特徴とする郵便自動区分機。
  2. 前記データベースが、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、
    前記学習部が、データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判別テーブルにコピーする請求項1記載の郵便自動区分機。
  3. 前記認識結果統合部が、各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とする請求項1又は2記載の郵便自動区分機。
  4. 前記認識結果統合部が、各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とする請求項3記載の郵便自動区分機。
  5. 前記認識結果統合部が、各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とする請求項1〜4のいずれかに記載の郵便自動区分機。
  6. 区分すべき郵便物の画像を収集し、収集した郵便物画像から宛名を読み取り、読み取った宛名から導出される区分特定情報にもとづいて、郵便物を自動的に区分する郵便自動区分方法であって、
    認識アルゴリズムが異なる複数の宛名情報読み取り部を用いて、一つの郵便物画像から並列的に宛名を読み取り、
    判別テーブルを参照しつつ、各宛名情報読み取り部からの認識結果及び特徴量を比較して、正解と思われる区分特定情報を導出し、
    正解と思われる区分特定情報の導出に失敗したときは、正解宛名情報読み取り部又は正解値の入力をオペレータに要求し、
    オペレータによる入力情報及び各宛名情報読み取り部からの特徴量をデータベースに蓄積し、
    データベースの蓄積情報にもとづいて、判別テーブルを更新する
    ことを特徴とする郵便自動区分方法。
  7. 前記データベースに、オペレータによる入力情報である正解宛名情報読み取り部情報と、各宛名情報読み取り部からの特徴量である住所領域検知情報及び尤度を蓄積し、
    データベースの蓄積データをもとに、正解宛名情報読み取り部を特徴空間のクラス、住所領域検知情報及び尤度を特徴空間の特徴ベクトルとして、各クラスのプロトタイプを学習し、このプロトタイプを判別テーブルにコピーする
    請求項6記載の郵便自動区分方法。
  8. 各宛名情報読み取り部からの特徴量を入力ベクトルとして、判別テーブルが定めるプロトタイプとのユークリッド距離を求め、このユークリッド距離が最も小さい宛名情報読み取り部の認識結果を正解とする請求項6又は7記載の郵便自動区分方法。
  9. 各宛名情報読み取り部のユークリッド距離をリジェクト閾値と比較し、全てのユークリッド距離がリジェクト閾値よりも大きい場合は、全ての宛名情報読み取り部の認識結果を不正解とする請求項8記載の郵便自動区分方法。
  10. 各宛名情報読み取り部からの認識結果を比較し、全ての認識結果が同一の場合は、全ての宛名情報読み取り部の認識結果を正解とする請求項6〜9のいずれかに記載の郵便自動区分方法。
JP2006209364A 2006-08-01 2006-08-01 郵便自動区分機及び郵便自動区分方法 Expired - Fee Related JP5003051B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006209364A JP5003051B2 (ja) 2006-08-01 2006-08-01 郵便自動区分機及び郵便自動区分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006209364A JP5003051B2 (ja) 2006-08-01 2006-08-01 郵便自動区分機及び郵便自動区分方法

Publications (2)

Publication Number Publication Date
JP2008033851A true JP2008033851A (ja) 2008-02-14
JP5003051B2 JP5003051B2 (ja) 2012-08-15

Family

ID=39123157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006209364A Expired - Fee Related JP5003051B2 (ja) 2006-08-01 2006-08-01 郵便自動区分機及び郵便自動区分方法

Country Status (1)

Country Link
JP (1) JP5003051B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2456216A (en) * 2008-01-11 2009-07-15 Lockheed Martin Uk Ltd Block analyser in mail sorting system
JP2015167905A (ja) * 2014-03-06 2015-09-28 株式会社東芝 配達物区分処理システム、および配達物区分処理方法
JP2018041325A (ja) * 2016-09-08 2018-03-15 株式会社東芝 配達物処理システム、配達物処理装置、および配達物処理プログラム
EP3349144A1 (en) * 2017-01-13 2018-07-18 Kabushiki Kaisha Toshiba Sorting system, recognition support apparatus, recognition support method, and recognition support program
JP2019109729A (ja) * 2017-12-19 2019-07-04 株式会社東芝 区分装置および区分システム
CN111275011A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
WO2023047858A1 (ja) * 2021-09-22 2023-03-30 ローレルバンクマシン株式会社 情報処理装置及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JPH06131498A (ja) * 1992-10-15 1994-05-13 Nec Corp 光学式活字文字認識装置における認識結果の総合判定方式
JPH07271899A (ja) * 1994-03-31 1995-10-20 Toshiba Corp 文字認識装置
JPH08305794A (ja) * 1995-04-28 1996-11-22 Nec Corp 宛名行抽出装置
JPH11282964A (ja) * 1998-03-26 1999-10-15 Nec Corp 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JP2000293626A (ja) * 1999-04-09 2000-10-20 Nec Corp 文字認識方法及び装置ならびに記憶媒体
JP2001314820A (ja) * 2001-03-23 2001-11-13 Nec Corp 宛名領域検出装置
JP2002086072A (ja) * 2000-09-20 2002-03-26 Toshiba Corp 宛先読取装置、区分機システム、宛先読取方法及び区分方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05307639A (ja) * 1992-04-30 1993-11-19 Toshiba Corp 郵便物の宛名領域検出装置
JPH06131498A (ja) * 1992-10-15 1994-05-13 Nec Corp 光学式活字文字認識装置における認識結果の総合判定方式
JPH07271899A (ja) * 1994-03-31 1995-10-20 Toshiba Corp 文字認識装置
JPH08305794A (ja) * 1995-04-28 1996-11-22 Nec Corp 宛名行抽出装置
JPH11282964A (ja) * 1998-03-26 1999-10-15 Nec Corp 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JP2000293626A (ja) * 1999-04-09 2000-10-20 Nec Corp 文字認識方法及び装置ならびに記憶媒体
JP2002086072A (ja) * 2000-09-20 2002-03-26 Toshiba Corp 宛先読取装置、区分機システム、宛先読取方法及び区分方法
JP2001314820A (ja) * 2001-03-23 2001-11-13 Nec Corp 宛名領域検出装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2456216A (en) * 2008-01-11 2009-07-15 Lockheed Martin Uk Ltd Block analyser in mail sorting system
JP2015167905A (ja) * 2014-03-06 2015-09-28 株式会社東芝 配達物区分処理システム、および配達物区分処理方法
JP2018041325A (ja) * 2016-09-08 2018-03-15 株式会社東芝 配達物処理システム、配達物処理装置、および配達物処理プログラム
US11097316B2 (en) 2017-01-13 2021-08-24 Kabushiki Kaisha Toshiba Sorting system, recognition support apparatus, recognition support method, and recognition support program
EP3349144A1 (en) * 2017-01-13 2018-07-18 Kabushiki Kaisha Toshiba Sorting system, recognition support apparatus, recognition support method, and recognition support program
US20180200760A1 (en) * 2017-01-13 2018-07-19 Kabushiki Kaisha Toshiba Sorting system, recognition support apparatus, recognition support method, and recognition support program
JP2019109729A (ja) * 2017-12-19 2019-07-04 株式会社東芝 区分装置および区分システム
CN111275011A (zh) * 2020-02-25 2020-06-12 北京百度网讯科技有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
KR20210108324A (ko) * 2020-02-25 2021-09-02 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이동식 신호등을 검출하는 방법, 장치, 전자 기기 및 저장 매체
JP2021136032A (ja) * 2020-02-25 2021-09-13 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 移動式信号機の検出方法、装置、電子機器及び記憶媒体
JP7164644B2 (ja) 2020-02-25 2022-11-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 移動式信号機の検出方法、装置、電子機器及び記憶媒体
US11508162B2 (en) 2020-02-25 2022-11-22 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for detecting mobile traffic light
CN111275011B (zh) * 2020-02-25 2023-12-19 阿波罗智能技术(北京)有限公司 移动红绿灯检测方法、装置、电子设备和存储介质
KR102616470B1 (ko) * 2020-02-25 2023-12-21 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이동식 신호등을 검출하는 방법, 장치, 전자 기기 및 저장 매체
WO2023047858A1 (ja) * 2021-09-22 2023-03-30 ローレルバンクマシン株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JP5003051B2 (ja) 2012-08-15

Similar Documents

Publication Publication Date Title
US7120318B2 (en) Automatic document reading system for technical drawings
US5787194A (en) System and method for image processing using segmentation of images and classification and merging of image segments using a cost function
KR100248917B1 (ko) 패턴인식장치및방법
US5943443A (en) Method and apparatus for image based document processing
JP5003051B2 (ja) 郵便自動区分機及び郵便自動区分方法
US5159667A (en) Document identification by characteristics matching
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
JP5217127B2 (ja) 一括地名認識プログラム、一括地名認識装置および一括地名認識方法
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
CN108334805B (zh) 检测文档阅读顺序的方法和装置
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
US11023720B1 (en) Document parsing using multistage machine learning
US20040146200A1 (en) Segmenting touching characters in an optical character recognition system to provide multiple segmentations
JP2015069256A (ja) 文字識別システム
JP4802176B2 (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
JP2011197823A (ja) 住所データベース構築装置および住所データベース構築方法
JPH10240958A (ja) 画像から管理情報を抽出する管理情報抽出装置および方法
JP3095069B2 (ja) 文字認識装置、学習方法および文字認識プログラムを記録した記録媒体
JP2004171316A (ja) Ocr装置及び文書検索システム及び文書検索プログラム
JPH1173472A (ja) フォーマット情報登録方法及びocrシステム
JP4176175B2 (ja) パターン認識装置
EP0684576A2 (en) Improvements in image processing
JP2007052808A (ja) フォーム識別方法
CN114495135A (zh) 票据识别方法及装置
JP2005056432A (ja) フォーム識別装置および方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090717

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120424

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120507

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150601

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5003051

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees