JPH0957204A - 郵便物の宛先自動読取システム - Google Patents

郵便物の宛先自動読取システム

Info

Publication number
JPH0957204A
JPH0957204A JP7216341A JP21634195A JPH0957204A JP H0957204 A JPH0957204 A JP H0957204A JP 7216341 A JP7216341 A JP 7216341A JP 21634195 A JP21634195 A JP 21634195A JP H0957204 A JPH0957204 A JP H0957204A
Authority
JP
Japan
Prior art keywords
address
character
knowledge database
character pattern
automatically
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7216341A
Other languages
English (en)
Inventor
Makoto Nishizono
誠 西園
Tsutomu Sano
力 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7216341A priority Critical patent/JPH0957204A/ja
Publication of JPH0957204A publication Critical patent/JPH0957204A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】同じような住所記載文字パターンが何度も繰り
返しリジェクトされないようにした郵便物の宛先自動読
取システムを提供する。 【解決手段】ビデオコーディングでの入力情報(正解宛
名コード)および認識情報(リジェクトされた郵便物の
文字パターン画像データ)を収集する(ステップST1
0)。こうして収集された情報に基づいて、宛名の認識
に用いる辞書(宛名知識データベース)の内容を補充・
更新する(ステップST12〜ステップST22)。こ
の内容補充・更新(つまり学習)された宛名知識データ
ベースを参照することにより、郵便物に記載された宛名
が高い正答率で自動的に認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、郵便物の宛名/
郵便番号を読み取り、読み取った宛名/郵便番号の区分
情報に基づき郵便物を区分処理する郵便物処理装置にお
いて、郵便物の宛先の自動判読に利用される知識データ
ベース(住所辞書など)の改良に関する。
【0002】
【従来の技術】ビデオコーディング端末を併用する郵便
物処理装置が開発されている。この種の郵便物処理装置
は、はがきや封書等の郵便物上に記載された宛名あるい
は郵便番号を光学式文字読取装置(OCR)の認識部に
よって読み取り、この読み取った宛名あるいは郵便番号
に対応する区分情報によって郵便物を郵便番号毎にある
いは配達区域毎に区分処理する読取区分機を有してい
る。この読み取り(光学的に読み取った文字パターンを
対応する文字コードに自動変換する作業)は、所定の辞
書を参照(パターンマッチング)することにより行われ
る。
【0003】読取区分機が宛名あるいは郵便番号を読み
取れなかった郵便物(宛名認識に失敗した郵便物)は、
認識部でリジェクトされる。リジェクト郵便物の全体画
像は、リジェクトされた順番にビデオコーディング端末
の表示部に表示される。オペレータは、ビデオコーディ
ング端末の表示部に表示されたリジェクト郵便物の宛名
画像(OCRで読み取った原画像)を目視しながら、読
取区分機で読み取れなかった宛名あるいは郵便番号をす
べて手入力(コーディング処理)する。オペレータが入
力した宛名あるいは郵便番号に対応する区分情報によっ
て、読取区分機は郵便物を機械区分処理する。このコー
ディング処理によって、光学式文字読取装置による機械
区分の限界を補うことができる。
【0004】
【発明が解決しようとする課題】従来は、OCRのスキ
ャナ取込文字パターンを収集し、収集文字パターンに答
(該当文字コード)を与えている。その際、所定の宛名
文字列パターンを用いてシミュレーションを行い、「候
補文字群の中から該当する宛名」を取り出すときに用い
る知識データベース(辞書類)内のパラメータを調整し
ていた。
【0005】ところで、郵便物読取区分機が使われる場
所によって、出現する文字の種類および量は異なる。通
常、シミュレーションで使用した文字データでは現地の
状況を十分に把握できないため、宛名知識データベース
(住所辞書)を現実に合わせて適切に修正・更新しない
と、同じような書状(郵便物)が繰り返しリジェクトさ
れ絶えずビデオコーディングに回されるようになる。す
るとビデオコーディングのオペレータの負担が増え、ま
た郵便物の自動区分処理の効率も落ちる。
【0006】この発明の目的は、リジェクトされた郵便
物(書状)に記載された文字パターンに対する文字入力
をビデオコーディングシステムのオペレータが行なった
あと、このオペレータ入力の結果に基づき宛名の知識デ
ータベースを更新(知識データベースの学習)すること
により、同じような文字パターンで宛名が表記された郵
便物が何度も繰り返しリジェクトされないようにした宛
先自動読取システムを提供することである。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、郵便物(P)に記載された宛名を読み取って得た文
字パターンを所定の宛名知識データベース(155)を
参照することにより対応する宛名文字コード(宛先住所
単語)に自動変換するとともに、自動変換できなかった
文字パターンについてはオペレータにより対応する宛名
文字コードに変換する郵便物の宛先自動読取装置におい
て、この発明では、まず、ビデオコーディングでの入力
情報(正解宛名コード)および認識情報(リジェクトさ
れた郵便物の文字パターン画像データ)を収集する。こ
うして収集した情報に基づいて、宛名の認識に用いる宛
名知識データベース(155)の内容を補充・更新する
(ステップST12〜ステップST22)。こうして内
容補充・更新(つまり学習)された宛名知識データベー
スを参照することにより、郵便物に記載された宛名が高
い正答率で認識される。
【0008】
【発明の実施の形態】以下、図面を参照して、この発明
の一実施の形態に係る郵便物の宛先自動読取システムを
説明する。なお、重複説明を避けるために、複数の図面
に渡り機能上共通する部分には共通の参照符号が用いら
れている。
【0009】図1〜図8は、この発明の一実施の形態に
係る郵便物の宛先自動読取システムを説明するための図
である。図1は、この発明の一実施例に係る、ビデオコ
ーディングシステムを備えた郵便物処理装置の全体構成
を示す。この装置は、大きく分けて読取区分機本体1お
よびビデオコーディングシステム2によって構成されて
おり、ビデオコーディングシステム2は画像分配サーバ
3と複数のビデオコーディング端末4を含んでいる。
【0010】読取区分機本体1は、封書等の郵便物P上
に記載された宛名/郵便番号を読取り、その読取内容か
ら宛名/郵便番号を認識し、この宛名/郵便番号の認識
結果あるいはビデオコーディングシステム2にてコーデ
ィングされた宛名/郵便番号によって郵便物Pを自動区
分する部分である。
【0011】読取区分機本体1は、宛名が手書きあるい
は活字印刷された郵便物Pが混在した状態でセットさ
れ、セットされた郵便物Pを一通ずつ供給する郵便物供
給部10と、この供給部10から供給される郵便物P上
の全体画像を一通ずつ撮影してその濃淡画像(多値画
像)を出力するスキャナ部11と、このスキャナ部11
を通過した郵便物Pに予め印刷されている郵便物管理番
号(ID番号)を読み取るIDコード読取部110と、
IDコード読取部110を通過した郵便物P上に、その
宛名/郵便番号に対応するバーコードまたはそのIDコ
ードを印刷するバーコードプリンタ部13と、このバー
コードプリンタ部13を通過した郵便物Pを、宛名/郵
便番号の認識結果あるいはビデオコーディングシステム
2で入力された宛名/郵便番号のコーディング結果に対
応した所定の区分情報(区分箱番号)に基づき区分する
区分部14と、前記スキャナ部11で撮影された郵便物
Pの多値画像から宛名/郵便番号を認識する認識部15
と、この認識部15において認識が完全にはできなかっ
た郵便物P(リジェクト郵便物)についての認識処理デ
ータ(手書き文字と印刷活字との区別、リジェクト文字
情報、読取できた文字または単語の認識結果、その他の
リジェクト属性)とともに、リジェクト郵便物Pのスキ
ャナ読取原画像(多値画像)を画像分配サーバ3へ転送
するリジェクトデータ制御部27と、上記各部(10〜
15)の動作を制御する制御部16とによって構成され
ている。
【0012】なお、郵便物供給部10、スキャナ部1
1、IDコード読取部110、バーコードプリンタ部1
3、および区分部14は搬送区分部本体1aを構成して
いる。読取区分機本体1では、供給部10から供給され
る郵便物P上の宛名/郵便番号がスキャナ部11により
撮像され、その撮像画像内容から宛名/郵便番号が認識
部15により認識される。この認識部15において宛名
あるいは郵便番号の少なくとも一部が認識できなかった
リジェクト郵便物Pについては、その原画像データがそ
の管理番号(ID番号)とともに画像分配サーバ3中の
メモリ制御部31を介して大容量データ記憶装置36に
送られ、そこに一旦記憶される。そして、バーコードプ
リンタ部13において、各リジェクト郵便物Pにはその
管理番号(ID番号)が印刷され、これらのリジェクト
郵便物Pは区分部14の特定の区分箱に順番に集積され
る。
【0013】区分部14の特定区分箱に集積されたリジ
ェクト郵便物Pに対する宛名情報入力がビデオコーディ
ングシステム2で完了すると、これらのリジェクト郵便
物Pは供給部10から搬送区分部本体1a内部に再度供
給される。この再供給されたリジェクト郵便物Pの郵便
物管理番号(ID番号)がIDコード読取部110で読
み取られると、制御部16は、読み取られたID番号に
該当する処理済みリジェクト郵便物Pのビデオコーディ
ング入力情報を、画像分配サーバ3の記憶装置36から
取り出してきて、その情報をバーコードプリンタ部13
にて郵便物P上に印刷する。
【0014】画像分配サーバ3は、リジェクトデータ制
御部27から供給される認識処理データ(郵便物管理番
号;手書きか印刷活字かの区別;リジェクト文字情報;
読めた文字/単語の認識結果;認識部15における認識
処理過程で使った2値化しきい値あるいは使用辞書類を
特定するパラメータ、その他)を複数のビデオコーディ
ング端末4に分配/配信するものであり、メモリ制御部
31、画像メモリ32、ビデオ分配制御部33、タイミ
ング制御部34、入出力制御部35、大容量データ記憶
装置36および画像再認識処理部37によって構成され
ている。
【0015】複数のビデオコーディング端末4それぞれ
には、担当する属性が決まっているオペレータがついて
おり、その担当する属性の画像が画像分配サーバ3から
分配/配信されるようになっている。たとえば、第1の
ビデオコーディング端末4には宛名あるいは郵便番号が
手書きである画像が配信され、第2のビデオコーディン
グ端末4には宛名あるいは郵便番号が印刷活字である画
像が配信され、第3のビデオコーディング端末4には9
0度回転された画像が配信され、第4のビデオコーディ
ング端末4には認識できない宛名あるいは郵便番号の桁
数が所定桁数である画像が配信され、第5のビデオコー
ディング端末4には認識できない宛名あるいは郵便番号
の桁数が1桁である画像が配信されるようになってい
る。
【0016】複数のビデオコーディング端末4は、それ
ぞれCRT等の画像表示部4aおよびキーボード/マウ
ス等の入力部4bで構成されている。画像メモリ32か
ら配信されてくるリジェクト郵便物Pの画像は、宛名/
郵便番号の認識されている部分と認識されていない部分
とが区別できる状態で画像表示部4aで表示され、この
画像の認識されていない宛名/郵便番号の部分をオペレ
ータが入力部4bから補填入力するようになっている。
このオペレータの入力により完成した完全な宛名/郵便
番号情報は、各入力部4bから入出力制御部35に転送
される。
【0017】タイミング制御部34は、入出力制御部3
5からの画像出力要求をビデオ分配制御部33に出力し
たり、入出力制御部35からのコーディング済み宛名/
郵便番号情報を読取区分機本体1内の制御部16へ出力
したり、入力部4bからの画像出力の要求をビデオ分配
制御部33へ出力したりする際の動作を制御する。
【0018】メモリ制御部31には、リジェクトデータ
制御部27から、認識処理データ(認識部15において
部分的に認識された宛名/郵便番号)および郵便物Pを
スキャナ部11で撮影した原画像(濃淡/階調を含む多
値画像)が供給される。これらの認識処理データ/原画
像データは大容量記憶装置36に一旦格納される。大容
量記憶積装置36に蓄積されたリジェクト郵便物データ
の合計容量が所定容量以上になると、ビデオコーディン
グシステム2におけるコーディング処理が開始される。
(このコーディング処理は、読取区分機本体1における
宛名読取/宛先区分処理とは独立して行なわれるオフラ
イン処理である。) ビデオコーディングシステム2のコーディング処理で
は、まず大容量記憶装置36に記憶されているリジェク
ト郵便物Pの原画像データおよび認識処理データが読み
出される。読み出されたデータのうち、リジェクト属性
のデータはビデオ分配制御部33に供給され、原画像デ
ータは画像メモリ32に供給される。分配制御部33
は、供給されたリジェクト属性の内容に基づき、リジェ
クト郵便物データをどのビデオコーディング端末4に分
配するかを決定する。このビデオ分配制御部33からの
分配指示内容に応じて、画像メモリ32に記憶されてい
る画像データがその内容に適応するビデオコーディング
端末4に配信される。
【0019】すなわち、画像メモリ32は、メモリ制御
部31から供給されるリジェクト郵便物画像を順次記憶
するとともに、タイミング制御部34からの画像分配/
配信要求に応じて、記憶された画像データを、ビデオ分
配制御部33からの分配指示内容に基づく所定のビデオ
コーディング端末4へ、分配/配信するように機能す
る。
【0020】図2は、読取区分機本体1の認識部15が
どのように構成されているかを説明するブロック図であ
る。この認識部15は、スキャナ部11に内装された光
電変換部11aから得られる多値画像から郵便物P上の
記載領域の形/位置等を検出し、宛名あるいは郵便番号
が記載されていると思われる候補領域を検出する宛名領
域検出部151と、この宛名領域検出部151により検
出された領域内の宛名あるいは郵便番号が記載されてい
る文字行(多値画像)を検出する文字行検出部152
と、この文字行検出部152により検出された文字行中
の文字(多値画像)を1文字ずつ切り出し、所定のしき
い値THを用いて2値化した文字画像を検出する文字検
出部153を有している。検出部151〜153は、文
字切出部150を構成する。
【0021】認識部15はさらに、文字検出部153で
検出された2値化文字画像を文字辞書155a内の文字
基準パターンと照合(パターンマッチング)することに
よって認識し、認識した文字の配列に基づき住所辞書1
55bを引いて住所を認識するとともに、認識処理デー
タ(手書きか印刷活字かの区別;リジェクト文字情報;
読めた文字あるいは単語の認識結果;認識処理過程で使
った2値化しきい値等のパラメータ、その他のリジェク
ト属性)を生成する文字/住所認識部154と、光電変
更部11aから供給されるリジェクト郵便物全面の多値
画像(原画像データ)が記憶される画像メモリ156と
を備えている。
【0022】文字辞書155aおよび住所辞書155b
は、認識部154が宛名認識を行なう際に参照する知識
データベース155を構成している。後述するが、この
知識データベース155の内容は、データベース学習再
構築部158により、適宜修正・変更(つまり学習)さ
れるようになっている。
【0023】なお、認識部154における文字認識は、
公知のパターン認識理論に基づく「複合類似度法」によ
り行うことができる。このパターン認識理論を詳細に説
明したものとして、以下の文献を紹介しておく:森北出
版(株)刊、基礎情報工学シリーズ6、飯島泰蔵著、
「パターン認識理論」(初版は1989年5月20日) このパターン認識において使用される辞書(文字辞書1
55aなど)については、同書のP95〜P102に、
「固有値および固有関数を算出することによる新たな文
字辞書」の作成の基本理論が解説されている。
【0024】図2の宛名知識データベース155(辞書
155a、155b)の内容は、データベース学習再構
築部158で作成された学習データにより、適宜更新
(学習)される。この学習データは図1のビデオコーデ
ィングシステム2の実際の稼働結果に基づき得られたも
のであり、宛名知識データベース155は学習データに
より学習しその内容(知識)を増やして行けるようにな
っている。
【0025】具体的にいうと、当該稼働日における全て
の郵便物(書状)Pの処理が終了したときに、ビデオコ
ーディングシステム2で収集したリジェクト郵便物の文
字パターン画像(記憶装置36に格納されている)と認
識情報(ビデオコーディングシステムのオペレータが入
力した文字コードで、対応するリジェクト郵便物の文字
パターン画像とともに記憶装置36に格納されている)
とが、データベース学習再構築部158に送られる。送
られてきたリジェクト郵便物の文字パターンは辞書15
5aに予め記憶されていた文字パターンに加えられる。
こうして辞書155aの内容(文字パターンの種類・
量)が更新される。
【0026】データベース学習再構築部158では、更
新された文字パターン画像および認識情報の対応関係を
ベースに上記文献「パターン認識理論」のP97に記載
された固有値・固有関数を計算して、新たな文字辞書1
55aを作成する(辞書の再設計)。これにより、辞書
155aは、ビデオコーディングシステム2の実際の稼
働結果を学習したことになる。それ以降は、学習後の辞
書155aが、郵便物記載の宛名の文字認識に使用され
るようになる。
【0027】また、文字認識には成功したが住所(宛
先)認識に失敗してリジェクトされた郵便物に関するビ
デオコーディングデータに基づいて、新たな住所辞書1
55bが作成される。これにより、辞書155bは、ビ
デオコーディングシステム2の実際の稼働結果を学習し
たことになる。それ以降は、学習後の辞書155bが、
郵便物の住所認識に使用されるようになる。この住所辞
書155bの学習については後で詳しく述べる。
【0028】文字/住所認識部154において宛名認識
に成功した認識結果データは、読取区分機本体1の制御
部16に送られる。一方、文字/住所認識部154での
宛名認識が失敗に終わった場合は、画像メモリ156に
記憶されたリジェクト郵便物Pの原画像データおよび文
字/住所認識部154での認識処理データが、リジェク
トデータ制御部27に出力される。リジェクトデータ制
御部27に出力されたリジェクト郵便物Pのデータは、
後に画像分配サーバ3の画像認識再処理部37に送られ
る。
【0029】画像再認識処理部37は、ビデオ分配制御
部33からの指示に基づき、大容量記憶装置36から画
像メモリ32に読み出されたリジェクト郵便物画像およ
びそのリジェクト属性データを使って、宛名認識処理
(宛名読取処理)を再度実行(リトライ)するものであ
る。
【0030】図3は、データベース学習再構築部158
により行われる辞書類の更新あるいは再設計(知識デー
タベースの学習)の手順を説明するフローチャートであ
る。このフローチャートの処理は、通常は図1の郵便物
処理装置がその日の稼働を終えたあと、ルーチンワーク
の一環として、自動的に(あるいはオペレータのマニュ
アル操作により)スタートするようになっている。
【0031】まず、図2のデータベース学習再構築部1
58内部のCPU(図示せず)は、図1の大容量記憶装
置36から、ビデオコーディングシステム2での入力情
報(正しい宛名の文字コード列など)および認識情報
(リジェクト郵便物に関する読取区分機本体1からの情
報)を読み出す(ステップST10)。ここでは、読み
出した入力情報とそれに対応する認識情報が、1文字単
位で読み込まれる。
【0032】最初の文字に対して(ステップST12ノ
ー)、収集パターン(リジェクト郵便物から光学的に読
み取った宛名の文字パターンをビデオコーディングシス
テム2で収集したもの)と認識情報が同一文字種である
かどうかがチェックされる(ステップST13)。
【0033】収集パターンと認識情報が同一文字種であ
れば(ステップST14イエス)、辞書採用の正当性が
チェックされる(ステップST18)。これは、「辞書
(155a、155b)を参照して得られる認識候補の
上位にビデオコーディング入力コードが存在し、かつブ
ロック数・ループ数が所定のしきい値を超えていないか
?」という点、あるいは「ビデオコーディング入力コー
ドが辞書(155a、155b)に無く、かつブロック
数・ループ数が所定のしきい値を超えていないか?」と
いう点をチェックすることにより、行われる。
【0034】このチェックをクリアした文字パターン
(類似度が十分ある)について(ステップST18イエ
ス)、文字単位の類似度分布表、単語単位の類似度分布
表(文字単位の類似度を単語単位にまとめて作成した類
似度分布表で、単語長分の類似度を加算しそれを単語長
で割ることにより求められる)、および住所単語度数分
布表(ビデオコーディングシステムで入力された住所単
語がOCR読取住所単語と異なる場合にその異なった住
所単語に対して作成される度数分布表)が、算出される
(ステップST20)。これら分布表の算出方法につい
ては、後述する。
【0035】収集パターンと認識情報が同一文字種でな
ければ(ステップST14ノー)、その文字パターンに
ついて文字単位の判別しきい値および単語単位の判別し
きい値が算出され、別名の単語登録がなされる(ステッ
プST16)。ここで、別名単語登録とは、住所単語度
数分布表において、ある一定以上のしきい値を越えた住
所単語が宛名知識データベース155(あるいは住所辞
書155b)にないとき、その住所単語を宛名知識デー
タベース155(あるいは住所辞書155b)に登録す
ることをいう。たとえば、スキャナ部11のOCRが山
田町を川田町と読み違える確率が高いという統計データ
が得られたときは、川田町を山田町に読み替えるよう
に、住所単語の別名単語登録が行われる。
【0036】以上の処理(ステップST10〜ステップ
ST20)が全ての文字に対して実行されたあと(ステ
ップST12イエス)、ステップST16およびステッ
プST20で得られたデータに基づき宛名知識データベ
ース155の内容が更新される。
【0037】なお、前述した単語単位の判別しきい値が
高すぎる(判定条件が厳しすぎる)と、たとえば「柳
町」という宛名単語が実は読めているのにリジェクトさ
れてしまうことが起きる。一方、この判別しきい値が低
すぎる(判定条件が甘すぎる)と、違う宛名単語を「幸
区」と誤読してしまうことが起きる。この場合は判別し
きい値を上げることにより、「幸区」の誤読率を下げる
ことができる。宛名知識データベース155の内容更新
(学習)とは、このような実際の誤読の発生率を下げる
ように、読取判定パラメータ(ここでは単語判別しきい
値)を変更させることをいう。
【0038】図1の郵便物処理装置がその後稼働すると
きは、以上のようにして更新された(学習済みの)宛名
知識データベース155が、郵便物の文字認識および住
所認識に使用される。すると、以前よりも同じ文字パタ
ーンに関するリジェクト郵便物の数は激減するから、そ
の分ビデオコーディングシステム2のオペレータの負担
が軽減される。またビデオコーディングシステム2に回
されるリジェクト郵便物の数も減るので、郵便物の自動
区分処理の効率も上がることになる。
【0039】図4は、図3の宛名知識データベースの更
新(学習)ステップST22で行われる処理の概要を説
明するフローチャートである。すなわち、図2のデータ
ベース学習構築部158では、郵便物区分時に蓄積した
読取結果記録(図1の記憶装置36の内容)から統計的
な情報を構築する処理(ステップST30)と、構築さ
れた統計的情報から新パラメータを算出する処理(ステ
ップST40)との2段階処理が行なわれる。
【0040】図5は、図4の統計情報構築部(ステップ
ST30)での処理内容を説明するフローチャートであ
る。ここでは、統計的情報として、正読類似度分布表
(ステップST306;図7参照)および誤読類似度分
布表(ステップST308;図8参照)を、宛名単語辞
書内の全単語にそれぞれ設けている。
【0041】まず、図1の記憶装置36から、最初のリ
ジェクト郵便物の認識結果が獲得される(ステップST
300ノー)。獲得した認識結果の最初の単語について
(ステップST302ノー)、それが正解単語であるか
どうか判定される(ビデオコーディングシステム2のオ
ペレータの入力結果によりそれが正解単語であったかど
うかが分かる)。
【0042】正解であれば(ステップST304イエ
ス)正読類似度分布表が更新され(ステップST30
6)、不正解であれば(ステップST304ノー)誤読
類似度分布表が更新される(ステップST308)。
【0043】いま、ある郵便物(書状)の宛名認識結果
が「川崎区 大川町」で、各々の単語の類似度が「川崎
区:85」、「大川町:53」であり、また同書状に対
するビデオコーディングシステム2からの宛名正解が
「川崎区 大師町」であったとする。この場合は、「川
崎区」の正読類似度分布表の類似度85の頻度が「1」
増やされ(ステップST306)、「大川町」の誤読類
似度分布表の類似度53の頻度が「1」減らされる(ス
テップST308)。
【0044】以上のような正読・誤読類似度分布表の更
新処理が、各認識結果内の全単語に対して実行される
(ステップST302イエス)。同様の処理を全通数分
の全単語に対して行うことにより、各単語の類似度分布
が蓄積され、その時点でのリジェクト郵便物に関する統
計情報の構築が終了する(ステップST300イエ
ス)。
【0045】図6は、図4の新パラメータ算出・更新部
(ステップST40)での処理内容を説明するフローチ
ャートである。この新パラメータ算出・更新段階では、
各単語について(ステップST400ノー)、図5の統
計情報構築処理で得られた各単語の類似度分布が統計的
情報として十分な数を満たしているかどうかがチェック
される(ステップST402;たとえば統計サンプル数
が100以上であったかどうかがチェックされる)。
【0046】統計的情報として十分である場合(ステッ
プST404イエス)、正読類似度分布表と誤読類似度
分布表の双方から新たなしきい値が算出され(ステップ
ST406)、宛名知識データベース155中のその単
語のしきい値が更新される(ステップST408)。
【0047】このようにデータベース155のしきい値
が更新されると、比較的高い類似度で認識される単語は
しきい値が高くなり、比較的低い類似度で認識される単
語はしきい値が低くなる。
【0048】たとえば、データベース再構築前の単語し
きい値が「川崎区:60」、「大川町:60」で、再構
築後のしきい値が「川崎区:75」、「大川町:50」
である場合、「川崎区」は比較的高い類似度で認識され
る単語とみなされ、判定条件を厳しくすることによっ
て、別の単語が「川崎市」であると誤認される割合を減
らすことができる(誤読率減少)。
【0049】また、「大川町」は比較的低い類似度で認
識される単語とみなされ、「大川町」と認識できている
のに類似度がしきい値に満たないためにリジェクトされ
る割合が減る(正読率向上)。
【0050】次に、単語の認識しきい値を再構築するス
テップST408の具体例を説明する。宛名知識データ
ベース155(宛名/住所辞書155b)内の各単語の
属性として、類似度のしきい値がある。単語処理では、
検出した単語の類似度がその単語のしきい値に満たない
場合は照合に失敗したとみなされ、リジェクトとなる。
【0051】ここで、単語の類似度とは、単語を照合
(パターンマッチング)するときの、単語を構成する個
々の文字の類似度の和を、単語文字列長で割った値をい
う。たとえば、「川崎区」という単語が照合された場合
にそれぞれの文字の類似度が「川:90」、「崎:9
3」、「区:72」であったとすると、「川崎区」の単
語としての類似度は(90+93+72)/3=85と
なる(類似度の文字数平均)。
【0052】なお、個々の文字の類似度の算出方法につ
いては説明を省略するが、その一例として、パターン認
識理論における複合類似度法がある。図7は認識部15
の稼働の結果得られる正読類似度分布の一例を示し、図
8は認識部15の稼働の結果得られる誤読類似度分布の
一例を示している。
【0053】図7において、ビデオコーディングにおい
て第一候補と教えられた答に正しい宛名が一致するとき
は、正読の類似度が示す値に「度数」が加算される。一
方図8において、ビデオコーディングにおいて第一候補
と教えられた答が正しい宛名と一致しないときは、誤読
の類似度が示す値に「度数」が加算される。
【0054】このようにして文字単位・単語単位の類似
度分布表が作成される(図3のステップST20)。判
別しきい値については、誤読の割合が正読の数%以下と
なるところを算出する(図7、8中の垂直破線)。この
しきい値(何%に設定するかはケースバイケース)以下
がリジェクトとなり、宛名文字候補からはずされるよう
になる。
【0055】上記と同じことを文字単位のみならず単語
単位の類似度分布表についても行なう。これにより文字
単位・単語単位のしきい値が算出される(図3のステッ
プST16)。
【0056】以上のようにして、郵便物の自動読取区分
機(宛先自動読取システム)が導入された現場におい
て、その地域の宛名文字列の特性(類似度分布など)を
分析する。そして、その分析結果を宛名知識データベー
スに自動的に学習させることにより、その地域の特性に
沿った最善の宛名知識データベース(最新の読取パラメ
ータを含む)を構築できるようになる。
【0057】なお、データベース学習再構成は単語しき
い値更新への適用のみにとどまらない。個々の文字種に
対してもしきい値を設定し、上記と同様に文字種毎の類
似度分布表を構築することにより、文字単位での誤読率
を減少させ、認識率を向上させることができる。つま
り、図2のデータベース学習再構築部158により、宛
名知識データベース155の住所辞書155bのみなら
ず文字辞書155aにも、学習結果を反映させることが
できる。
【0058】上述の実施の形態では文字認識の手法とし
て「複合類似度法」を想定したが、この発明はこれに限
定されない。文字認識手法として「単純類似度法」その
他の文字認識手法を用いることも可能である。
【0059】また、データベース学習再構築用にワーク
ステーションまたはパーソナルコンピュータが別途用意
されていれば、データベース学習再構築はいつでもでき
る。一方、図1の読取区分機の稼働時間外では、区分機
内部のコンピュータハードウエア資源を利用して宛名知
識データベース155に対する学習再構築を行なうこと
もでき、この場合は専用のワークステーションを別途用
意する必要はない。
【0060】
【発明の効果】この発明では、ビデオコーディングシス
テムの現実の運用結果に基づき内容補充(学習)された
宛名知識データベースを参照することにより、郵便物に
記載された宛名の読み取りを行なうようにしている。換
言すれば、宛名知識データベース内の読み取りパラメー
タ(しきい値など)をリジェクト郵便物の宛名読み取り
情報で更新することで、文字/住所認識部での読み取り
性能を向上させている。このようにすると、以前は頻繁
にリジェクトされていた宛名記載文字パターンを含む郵
便物がリジェクトされる頻度が大幅に減少し、その分ビ
デオコーディングオペレータの負担が軽減される。
【図面の簡単な説明】
【図1】この発明の一実施形態に係る郵便物宛先自動読
取システムの全体構成を説明するブロック図。
【図2】図1の認識部15の内部構成を例示するブロッ
ク図。
【図3】図2のデータベース学習再構築部158により
行われる宛名知識データベースの学習処理(辞書類の更
新あるいは再設計)の手順を説明するフローチャート。
【図4】図3の宛名知識データベースの更新(学習)で
行われる処理の概要を説明するフローチャート。
【図5】図4の統計情報構築部で行われる処理の内容を
説明するフローチャート。
【図6】図4の新パラメータ算出・更新部で行われる処
理の内容を説明するフローチャート。
【図7】認識部15の稼働の結果得られる正読類似度分
布の一例を示すグラフ図。
【図8】認識部15の稼働の結果得られる誤読類似度分
布の一例を示すグラフ図。
【符号の説明】
1…読取区分機本体、1a…搬送区分部本体、2…ビデ
オコーディングシステム、3…画像分配サーバ、4…ビ
デオコーディング端末、4a…画像表示部、4b…入力
部、10…供給部、11…スキャナ部(読取OCR装
置)、11a…光電変換部、110…IDコード読取
部、13…バーコードプリンタ部(機械コード印字装
置)、14…区分機、15…宛名認識部(認識手段)、
150…文字切出部、151…宛名領域検出部、152
…文字行検出部、153…文字検出部、154…文字/
住所認識部(文字認識手段/住所認識手段)、155a
…文字辞書、155b…住所辞書、155…宛名知識デ
ータベース、156…画像メモリ、158…データベー
ス学習再構築部、16…制御部、27…リジェクトデー
タ制御部、31…メモリ制御部、32…画像メモリ、3
3…ビデオ分配制御部、34…タイミング制御部、35
…入出力制御部、36…大容量記憶装置(ハードディス
クあるいは光ディスク)、37…画像認識再処理部、P
…郵便物(はがき等)、TH…正誤読判別しきい値(所
定のパラメータ)、11a、151〜153…2値化手
段。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換するものにおいて、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードとの対応関係を用いて、前記自動変換でき
    なかった文字パターンがそれ以降は自動変換できるよう
    に、前記宛名知識データベースの内容を修正するように
    構成したことを特徴とする郵便物の宛先自動読取システ
    ム。
  2. 【請求項2】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換する郵便物の宛先自動読取装置において、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードの情報を収集し;前記収集した情報に基づ
    いて前記宛名知識データベースの内容を更新し;前記更
    新された宛名知識データベースを参照することにより、
    郵便物に記載された宛名の文字パターンを対応する宛名
    文字コードに自動変換するように構成したことを特徴と
    する郵便物の宛先自動読取方法。
  3. 【請求項3】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換する郵便物の宛先自動読取装置において、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードの情報を収集し;前記収集した情報に基づ
    いて、宛名記載に用いられた文字単位の類似度分布を作
    成し;前記作成した類似度分布に基づいて前記宛名知識
    データベースの内容を更新し;前記更新された宛名知識
    データベースを参照することにより、郵便物に記載され
    た宛名の文字パターンを対応する宛名文字コードに自動
    変換するように構成したことを特徴とする郵便物の宛先
    自動読取方法。
  4. 【請求項4】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換する郵便物の宛先自動読取装置において、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードの情報を収集し;前記収集した情報に基づ
    いて、宛名記載に用いられた文字単位および単語単位の
    類似度分布を作成し;前記作成した類似度分布に基づい
    て前記宛名知識データベースの内容を更新し;前記更新
    された宛名知識データベースを参照することにより、郵
    便物に記載された宛名の文字パターンを対応する宛名文
    字コードに自動変換するように構成したことを特徴とす
    る郵便物の宛先自動読取方法。
  5. 【請求項5】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換する郵便物の宛先自動読取装置において、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードの情報を収集し;前記収集した情報に基づ
    いて、宛名記載に用いられた文字パターンを判別するし
    きい値を文字単位に作成し;前記作成したしきい値に基
    づいて前記宛名知識データベースの内容を更新し;前記
    更新された宛名知識データベースを参照することによ
    り、郵便物に記載された宛名の文字パターンを対応する
    宛名文字コードに自動変換するように構成したことを特
    徴とする郵便物の宛先自動読取方法。
  6. 【請求項6】郵便物に記載された宛名を光学的に読み取
    って得た文字パターンを、宛名知識データベースを参照
    することにより対応する宛名文字コードに自動変換する
    とともに、自動変換できなかった文字パターンについて
    はオペレータの手作業により対応する宛名文字コードに
    変換する郵便物の宛先自動読取装置において、 前記オペレータにより操作された文字パターンおよび宛
    名文字コードの情報を収集し;前記収集した情報に基づ
    いて、宛名記載に用いられた文字パターンを判別するし
    きい値を文字単位および単語単位に作成し;前記作成し
    たしきい値に基づいて前記宛名知識データベースの内容
    を更新し;前記更新された宛名知識データベースを参照
    することにより、郵便物に記載された宛名の文字パター
    ンを対応する宛名文字コードに自動変換するように構成
    したことを特徴とする郵便物の宛先自動読取方法。
  7. 【請求項7】所定のしきい値を越えた宛名記載の住所単
    語が前記宛名知識データベースにないとき、その住所単
    語を前記宛名知識データベースに登録することで、前記
    宛名知識データベースの内容を更新することを特徴とす
    る請求項5または請求項6に記載の宛先自動読取方法。
JP7216341A 1995-08-24 1995-08-24 郵便物の宛先自動読取システム Pending JPH0957204A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7216341A JPH0957204A (ja) 1995-08-24 1995-08-24 郵便物の宛先自動読取システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7216341A JPH0957204A (ja) 1995-08-24 1995-08-24 郵便物の宛先自動読取システム

Publications (1)

Publication Number Publication Date
JPH0957204A true JPH0957204A (ja) 1997-03-04

Family

ID=16687037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7216341A Pending JPH0957204A (ja) 1995-08-24 1995-08-24 郵便物の宛先自動読取システム

Country Status (1)

Country Link
JP (1) JPH0957204A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002523844A (ja) * 1998-08-26 2002-07-30 デクマ アクチボラゲット 文字認識
JP2002307019A (ja) * 2001-04-17 2002-10-22 Toshiba Corp 配達物処理装置
US6954729B2 (en) * 2000-01-27 2005-10-11 Bowe Bell & Howell Postal Systems Company Address learning system and method for using same
JP2005284634A (ja) * 2004-03-29 2005-10-13 Japan Research Institute Ltd 文字判定方法、文字判定装置及びコンピュータプログラム
JP2008226066A (ja) * 2007-03-15 2008-09-25 Nec Corp 郵便物自動区分システム
WO2009110538A1 (ja) * 2008-03-05 2009-09-11 日本電気株式会社 発送物区分装置、発送物区分方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN102189080A (zh) * 2010-03-17 2011-09-21 株式会社东芝 集中信息处理装置以及集中信息处理系统
JP2011197823A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 住所データベース構築装置および住所データベース構築方法
JP2013246677A (ja) * 2012-05-28 2013-12-09 Toshiba Corp パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
JP2017225969A (ja) * 2016-06-16 2017-12-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002523844A (ja) * 1998-08-26 2002-07-30 デクマ アクチボラゲット 文字認識
US6954729B2 (en) * 2000-01-27 2005-10-11 Bowe Bell & Howell Postal Systems Company Address learning system and method for using same
JP2002307019A (ja) * 2001-04-17 2002-10-22 Toshiba Corp 配達物処理装置
JP4737861B2 (ja) * 2001-04-17 2011-08-03 株式会社東芝 配達物処理装置
JP4543190B2 (ja) * 2004-03-29 2010-09-15 株式会社日本統計事務センター 文字判定方法、文字判定装置及びコンピュータプログラム
JP2005284634A (ja) * 2004-03-29 2005-10-13 Japan Research Institute Ltd 文字判定方法、文字判定装置及びコンピュータプログラム
JP2008226066A (ja) * 2007-03-15 2008-09-25 Nec Corp 郵便物自動区分システム
WO2009110538A1 (ja) * 2008-03-05 2009-09-11 日本電気株式会社 発送物区分装置、発送物区分方法、プログラムおよびコンピュータ読み取り可能な記録媒体
JP5447366B2 (ja) * 2008-03-05 2014-03-19 日本電気株式会社 発送物区分装置、発送物区分方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN102189080A (zh) * 2010-03-17 2011-09-21 株式会社东芝 集中信息处理装置以及集中信息处理系统
JP2011194287A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 集中情報処理装置及び集中情報処理システム
JP2011197823A (ja) * 2010-03-17 2011-10-06 Toshiba Corp 住所データベース構築装置および住所データベース構築方法
JP2013246677A (ja) * 2012-05-28 2013-12-09 Toshiba Corp パターン認識用辞書の学習装置、パターン認識装置、コーディング装置、区分装置、および、パターン認識用辞書の学習方法
JP2017225969A (ja) * 2016-06-16 2017-12-28 株式会社東芝 配達物処理装置、配達物処理方法、及び配達物処理プログラム

Similar Documents

Publication Publication Date Title
CA1118108A (en) System for processing documents having written indicia thereon
US6587572B1 (en) Mail distribution information recognition method and device
JP3740168B2 (ja) 郵便物の処理方法
CN100540156C (zh) 利用改进的条码读取处理邮件项目的方法
US7145093B2 (en) Method and system for image processing
JPH04338271A (ja) 郵便物の自動区分処理のための郵便物エンコード方法及び装置
JP4661921B2 (ja) 文書処理装置およびプログラム
US20100014706A1 (en) Method and apparatus for video coding by validation matrix
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
US7181045B2 (en) Method and device for reading the addresses of items of mail
JP2003510166A (ja) 郵便物の配達情報の認識のための方法及び装置
JPH11238097A (ja) 郵便物宛先読取装置及び宛先読取方法
JPH0957204A (ja) 郵便物の宛先自動読取システム
JPH08101879A (ja) 郵便物処理装置
KR100571080B1 (ko) 문서 인식 장치 및 우편 구분기
JPH11207266A (ja) 住所読取装置及び方法
JPH08101890A (ja) ビデオコーディングシステム
US6993155B1 (en) Method for reading document entries and addresses
JP3710866B2 (ja) 郵便物区分装置、郵便物処理システム及び郵便物処理方法
CN1235319A (zh) 对被显示的一个项目上的模式进行识别的设备和方法
Palumbo et al. Postal address reading in real time
Alginaih et al. Multistage hybrid Arabic/Indian numeral OCR system
Madhvanath et al. Empirical design of a multi-classifier thresholding/control strategy for recognition of handwritten street names
JP3162552B2 (ja) 郵便物あて名認識装置及びあて名認識方法
JPH0957203A (ja) 郵便物の宛先自動読取システム