JPH0929179A - 宛名読取装置 - Google Patents

宛名読取装置

Info

Publication number
JPH0929179A
JPH0929179A JP7179928A JP17992895A JPH0929179A JP H0929179 A JPH0929179 A JP H0929179A JP 7179928 A JP7179928 A JP 7179928A JP 17992895 A JP17992895 A JP 17992895A JP H0929179 A JPH0929179 A JP H0929179A
Authority
JP
Japan
Prior art keywords
line
postal code
evaluation value
address
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7179928A
Other languages
English (en)
Inventor
Toru Shijo
徹 四條
Koji Yura
浩司 由良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP7179928A priority Critical patent/JPH0929179A/ja
Publication of JPH0929179A publication Critical patent/JPH0929179A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】郵便物上に記載された郵便番号、特に、郵便物
上にあらかじめ定められた郵便番号枠の外に印刷活字で
記載された郵便番号を含む住所等の宛名情報の認識精度
の向上が図れる宛名読取装置を提供する。 【解決手段】郵便物Pの宛名情報の記載面の画像をもと
に、画像処理部3において、2値画像、ラベルデータを
作成し、さらに、それらをもとに複数の行候補を検出
し、その検出された複数の行候補の分布をもとに郵便番
号、住所等の記載された宛名領域候補を検出し、その宛
名領域候補内の行候補について、郵便番号に対応するラ
ベルが存在する可能性の高さを示す評価値を算出し、そ
の評価値と行候補の分布等をもとに、郵便番号の記載さ
れている可能性の高い行候補を検出し、その検出された
行候補について、その位置情報、評価値に基づく優先順
位に従って、認識部4、知識処理部6で宛名情報の認識
を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、郵便物の宛名記載
面の画像を読取って、その画像をもとに郵便物の郵便番
号を認識する宛名読取装置に関する。
【0002】
【従来の技術】郵便物の処理分野においては、連日大量
に送られてくる郵便物を限られた時間内に処理しなけれ
ばならない。そこで、郵便物の機械化が進められ、郵便
局員の負担の軽減が図られている。その一例として、近
年普及している、大量の郵便物をそれぞれの宛先に応じ
て自動的に各配達区分毎に区分する郵便物処理装置は、
主に、郵便物上から郵便番号、住所等の宛名情報を読取
る宛名読取装置と、読取られた宛名情報をもとに、その
郵便物を宛先毎に区分する区分機とから構成される。
【0003】このような郵便物処理装置は、まず、宛名
読取装置で、郵便物上の全面画像を光学的に読取り、そ
の読み取った画像に対し、所定の画像処理を施し宛名の
記載領域を抽出して、その抽出された宛名記載領域の郵
便番号および宛名文字の認識を行い、その認識結果をも
とに、区分機で郵便物を複数の配達区分毎に区分するよ
うになっている。
【0004】郵便物上に記載された郵便番号、住所等を
光学的に読み取って、その文字認識をする際、特に、郵
便番号枠外に書かれた印活郵便番号を検出して認識する
のは難しい。
【0005】従来の宛名読取装置では、郵便物上にあら
かじめ定められた郵便番号枠の外に印刷活字で記載され
た郵便番号(以下、印活郵便番号と呼ぶことがある)
は、宛名情報記載領域の検出処理及び住所記載行の検出
処理の過程で、その大きさや位置的特徴をもとに仮定さ
れ、文字認識の識別結果によって決定されるようになっ
ている。
【0006】また、従来の宛名情報記載領域の検出処理
は、高速化の要求やハードウエアの制限から、郵便物上
の宛名情報の記載面に対し2mm間隔に走査された結果
得られた粗い画像情報にもとづき、宛名情報記載領域を
確定してから、その内部にあるはずの郵便番号行や住所
行を検出して認識するようになっている。
【0007】
【発明が解決しようとする課題】このように、従来の宛
名読取装置は、郵便物処理の高速化が要求される中で、
最低限必要な処理を実現するために用いられてきたわけ
であるが、広告や様々な背景を含んだ郵便物上の郵便番
号や住所を正しく認識することは容易ではない。一度、
粗い画像に落した情報だけで宛名情報記載領域を捜し、
その領域内だけを処理して郵便番号、住所等の宛名情報
を認識処理を行うため、最初の領域検出を失敗すると取
り返しがつかない。従って、印活郵便番号行の検出の検
出をあるレベル以上は上げることができなかった。
【0008】そこで、本発明は、郵便物上に記載された
郵便番号、特に、郵便物上にあらかじめ定められた郵便
番号枠の外に印刷活字で記載された郵便番号の認識精度
の向上が図れる宛名読取装置を提供することを目的とす
る。
【0009】
【課題を解決する手段】本発明の宛名読取装置は、郵便
物上の所定の枠外に記載された郵便番号を含む宛名情報
の画像を読取る読取手段と、この読取手段で読取られた
宛名情報の画像を2値化して2値画像に変換する2値画
像変換手段と、この2値画像変換手段で変換された2値
画像から、その画素の連結成分をもとに外接矩形領域を
抽出して、その外接矩形領域の分布をもとに、複数の行
を検出する行検出手段と、この行検出手段で検出された
複数の行のそれぞれについて、その行内に含まれる前記
外接矩形領域の特徴に基づき、前記行を解析して、その
行に郵便番号が記載されている可能性の高さを示す評価
値を算出する評価値算出手段と、この評価値算出手段で
算出された評価値に基づき、前記行検出手段で検出され
た複数の行から前記郵便番号情報の記載されている可能
性の高い郵便番号記載行候補を抽出する行抽出手段と、
この行抽出手段で抽出された郵便番号記載行候補につい
て、前記評価値算出手段で算出された評価値および前記
郵便番号記載行候補の分布に基づく優先順位に従って、
前記郵便番号情報の認識を行う認識手段とを具備してい
る。
【0010】また、本発明の宛名読取装置は、郵便物上
の所定の枠外に記載された郵便番号を含む宛名情報の画
像を読取る読取手段と、この読取手段で読取られた宛名
情報の画像を2値化して2値画像に変換する2値画像変
換手段と、この2値画像変換手段で変換された2値画像
から、その画素の連結成分をもとに外接矩形領域を抽出
して、その外接矩形領域の分布をもとに、複数の行を検
出する行検出手段と、この行検出手段で検出された複数
の行の分布をもとに前記宛名情報の記載されている宛名
記載領域を検出する宛名記載領域検出手段と、この宛名
記載領域検出手段で検出された宛名記載領域内に含まれ
る複数の行のそれぞれについて、その行内に含まれる前
記外接矩形領域を、その行の方向に垂直な方向に統合す
る統合手段と、この統合手段で統合された前記各行内の
外接矩形領域の特徴に基づき、前記行を解析して、その
行に前記郵便番号が記載されている可能性の高さを示す
評価値を算出する評価値算出手段と、この評価値算出手
段で算出された評価値に基づき、前記行検出手段で検出
された複数の行から前記郵便番号の記載されている可能
性の高い郵便番号記載行候補を抽出する抽出手段と、こ
の抽出手段で前記宛名記載領域内のそれぞれから抽出さ
れた郵便番号記載行候補について、前記評価値算出手段
で算出された評価値に基づく優先順位に従って、前記宛
名情報の認識を行う認識手段とを具備している。
【0011】さらに、本発明の宛名読取装置は、郵便物
上の所定の枠外に記載された郵便番号を含む宛名情報の
画像を読取る読取手段と、この読取手段で読取られた宛
名情報の画像を2値化して2値画像に変換する2値画像
変換手段と、この2値画像変換手段で変換された2値画
像から、その画素の連結成分をもとに外接矩形領域を抽
出して、その外接矩形領域の分布をもとに、複数の行を
検出する行検出手段と、この行検出手段で検出された複
数の行の分布をもとに前記宛名情報の記載されている宛
名記載領域を検出する宛名記載領域検出手段と、この宛
名記載領域検出手段で検出された宛名記載領域内のそれ
ぞれの行について、その行内に含まれる前記外接矩形領
域を行頭からの距離の順に行方向に沿って、前記行の垂
直方向に存在する前記外接矩形領域を統合する統合手段
と、前記宛名記載領域検出手段で検出された宛名記載領
域内の複数の行のうち、その行に含まれる前記統合手段
で統合された外接矩形領域の総数があらかじめ定められ
た値以上のものを解析対象行として抽出する第1の抽出
手段と、この第1の抽出手段で抽出された解析対象行
に、前記郵便番号とその他の宛名情報との境界とみなさ
れる空白部分が存在するとき、前記行の行方向に沿って
前記空白部分の両側に存在する前記統合手段で統合され
た外接矩形領域から、それぞれ解析対象の外接矩形領域
を決定する第1の決定手段と、前記第1の抽出手段で抽
出された解析対象行に、前記空白部分が存在しないと
き、前記行の行方向およびその反対方向のそれぞれにつ
いて、前記統合手段で統合された外接矩形領域から解析
対象の外接矩形領域を決定する第2の決定手段と、前記
第1の抽出手段で抽出された解析対象行のうち、前記統
合手段で統合された外接矩形領域の総数があらかじめ定
めされた範囲内であるとき、前記行内に存在する全ての
外接矩形領域を解析対象の外接矩形領域として決定する
第3の決定手段と、前記第1の抽出手段で抽出された解
析対象行のそれぞれについて、前記第1、第2、第3の
決定手段のいずれかで決定された解析対象の外接矩形領
域、および、その外接矩形領域に対応する前記2値画像
の特徴に基づき、その解析対象行を解析する行解析手段
と、この行解析手段で前記解析対象行を解析した結果を
もとに、前記特徴が前記郵便番号が記載されている可能
性の高さを判断する際に重要な要素であるか否かに基づ
く重みを加味して、前記解析対象行に前記郵便番号が記
載されている可能性の高さを示す評価値を算出する評価
値算出手段と、この評価値算出手段で算出された評価値
に基づき、前記第1の抽出手段で抽出された行から前記
郵便番号が記載されている可能性の高い郵便番号記載行
候補を抽出する第2の抽出手段と、この第2の抽出手段
で前記宛名記載領域から抽出された郵便番号記載行候補
について、前記評価値算出手段で算出された評価値およ
び各郵便番号記載ぎょ候補の位置情報に基づく優先順位
に従って、前記宛名情報の認識を行う認識手段とを具備
している。
【0012】このように、本発明の宛名読取装置は、郵
便物上の所定の枠外に記載された郵便番号を含む宛名情
報の画像を読取り、この読取られた宛名情報の画像を2
値化して2値画像に変換し、その2値画像から画素の連
結成分をもとに外接矩形領域を抽出して、その分布をも
とに、複数の行を検出し、この検出された複数の行の分
布をもとに前記宛名情報の記載されている宛名記載領域
を検出し、この検出された宛名記載領域に含まれる宛名
記載行候補について、その行内に含まれる前記外接矩形
領域を、その行に垂直な方向に統合し、この統合された
前記各行内の外接矩形領域の特徴に基づき、前記行を解
析して、その行に郵便番号が記載されている可能性の高
さを示す評価値を算出し、この算出された評価値に基づ
き、前記検出された複数の行から前記郵便番号の記載さ
れている可能性の高い郵便番号記載行候補を抽出し、こ
の抽出された郵便番号記載行候補に対して前記算出され
た評価値に基づく優先順位に従って、前記郵便番号の認
識を行うことにより、前記郵便物上に記載された郵便番
号、特に、郵便物上にあらかじめ定められた郵便番号枠
の外に印刷活字で記載された郵便番号の認識精度の向上
が図れる。
【0013】
【発明の実施形態】以下、本発明の一実施形態について
図面を参照して説明する。尚、本実施形態の宛名読取装
置では、郵便番号がその郵便物にあらかじめ定められた
郵便番号枠の外に宛先住所、氏名等とともに活字印刷さ
れた郵便物を、処理対象の郵便物とする。また、郵便物
にあらかじめ定められた郵便番号枠の外に活字印刷され
た郵便番号を、以下、簡単に印活郵便番号と呼ぶことも
ある。
【0014】図1は、本実施形態に係る宛名読取装置の
構成を概略的に示したもので、主に、宛名読取装置は、
光電変換回路2、画像処理部3、認識部4、文字辞書
5、知識処理部6、知識辞書7から構成される。
【0015】図1において、郵便物Pの宛名情報の記載
面の画像は、スキャナ等により光学的に読み取られた
後、CCDセンサ等を用いた光電変換回路2によって電
気信号に変換される。電気信号に変換された入力画像
は、画像処理部3によって処理される。
【0016】画像処理部3では、入力画像に対し、微分
処理等を施し、2値化画像、微分2値化画像に変換さ
れ、さらにラベリング、射影を行って、郵便物P上の画
像全体における行の候補領域を複数検出する。そして、
その検出された行の候補領域に対し、後述の評価処理を
行い、その結果、各行候補に与えられた優先順位に従っ
て文字検出切出し処理を行い、1文字づつ認識部4に送
られる。
【0017】認識部4では、画像処理部3から送られて
くる1文字づつの領域に対して、文字辞書5を参照しな
がら対応の文字候補を挙げる。知識処理部6では、新認
識部4からの文字候補を配達対象地域についてあらかじ
め郵便番号や住所が登録された知識辞書3の内容と照合
して、郵便物P上に記載された郵便番号の情報を認識
し、その郵便番号情報の認識結果を読取結果処理部8に
出力する。
【0018】尚、認識部4、知識処理部6での処理結果
は、必要に応じて画像処理部3にフィードバックされる
ようになっている。読取結果処理部8では、知識処理部
6での宛名情報の認識結果をもとに、郵便物Pを各宛先
毎に分けられた区分口に郵便物を搬送する処理を行う。
【0019】次に、図2に示すフローチャート、およ
び、図3を参照して、図1の宛名読取装置の処理動作に
ついて説明する。尚、図3は、図2のフローチャートに
示した要部の処理の流れを説明するためのものである。
【0020】まず、ステップS1に進み、スキャナ、光
電変換回路2を介して処理対象の郵便物Pの宛名情報の
記載面の画像が取り込まれる(図3(a)参照)。次
に、ステップS2に進み、画像処理部3では、まず、そ
の取り込まれた画像に対し、まず、2値画像及び微分2
値画像に変換する処理を行う。
【0021】さらに、ステップS3に進み、2値画像あ
るいは微分2値画像に対して、ラベリング処理を行なう
ことによって、ラベルデータを作成する。また、郵便物
Pの画像上全体において、2値画像あるいは微分2値画
像を用いた射影情報の作成も行なう。
【0022】ラベルデータとは、2値または微分2値画
像において黒画素の連結領域を1つのまとまりとした矩
形領域のデータで、例えば、理想的には、1つの文字、
1つの記号について、その外接矩形領域がそれぞれ1つ
のラベルデータとして抽出される。尚、1つの矩形領域
をラベル領域、あるいは、簡単にラベルとも呼ぶ。
【0023】ステップS4では、このラベルデータや射
影データを基に行領域の検出を行なう。すなわち、ラベ
ルが連続して存在していたり、射影データの値が閾値を
越えている場合に、それらの情報をもとに行らしい領域
を行候補として検出する(図3(b)参照)。
【0024】図4は、郵便物Pの画像から得られた微分
2値画像をもとにした行に対する射影データを概念的に
示したものである。図4より、射影値がある値以上で、
しかも、連続している領域に行が存在することが理解で
きる。
【0025】以上の処理から郵便物Pの画像全体から行
の候補領域が複数得られる。次に、ステップS5に進
み、ステップS4の処理で作成した行候補の分布から、
郵便番号、住所等の宛名情報がまとまって書かれている
と思われる領域の候補(宛名領域候補)を検出する(図
3(c)参照)。
【0026】各宛名領域内の行候補は、この時点ではそ
れぞれ何が書かれているか分からない。行の中になにが
書かれているかは、本来は識別や住所認識を行なって初
めて確定されるが、その前にできるだけ候補を絞り込め
れば、以後の処理量を減少させることができる。本発明
の要旨は、この行候補の絞り込み処理を各行内のラベル
データ及び二値画像を用いて行なうことであり、ステッ
プS6における行の評価処理、および、ステップS7に
おける行候補の絞り込みがこれに相当する。
【0027】行候補自体の形状、郵便物上における位
置、行候補同士の相対位置等も印活郵便番号行や住所行
を見つけるための重要な情報として用いることができ
る。ステップS5、ステップS6では、これらの情報、
すなわち評価値をもとに郵便番号、住所等が記載されて
いる可能性の高い行以外を候補行から削除している。
【0028】このようにして絞り込んだ行候補につい
て、ステップS8では、検出された宛名領域候補に含ま
れる行のうち、行分布、評価値をもとにした優先順位に
従って、各候補行に対して文字検出切り出し処理を行な
い、1文字ずつの領域に分離する(図3(d)参照)。
【0029】次に、この1文字ずつの領域に対して、ス
テップS9では、認識部4において、文字辞書5をもと
に文字識別処理を行なって、各文字領域に対する文字候
補を挙げ、ステップS10では、さらに、知識処理部6
において、知識辞書7をもとに郵便番号を認識し、その
認識結果をステップ11で、読取結果処理部8に出力す
る。
【0030】ステップS9、S10における文字識別処
理、郵便番号認識処理の結果、適当な認識結果が得られ
ないときは、次の優先順位の行について、ステップS8
〜ステップS11の処理を繰り返す。
【0031】次に、本発明の要旨であるステップS6の
行評価処理について、さらに詳しく説明する。ここでの
評価処理は、検出によって複数の行候補のうち、印活郵
便番号を含んでいる可能性が高いものに高い得点を与え
ることで、正解行を削除することなく候補を絞り込み、
性能を落とさずに処理量を軽減して高速化を図ることを
目的としている。高速化が目的であるから、絞り込み処
理自体が重い処理となってはいけない。
【0032】まず、図5に示すフローチャートを参照し
て、行評価処理の概略を説明する。すなわち、ステップ
S5で検出された宛名領域内の行候補それぞれに対して
この処理を行なって印活郵便番号を含む行らしさの評価
値を計算する。
【0033】ステップS20に進み、1行分のラベルデ
ータと2値画像を読み込む。次に、ステップS21に進
み、読み込んだ行の縦(行幅の長い方)、横(行幅の短
い方)の大きさが郵便番号を含む行として適当であるか
どうかを判断し、適当でないと判断されれば、直ちにス
テップS32に進み、その行の評価値として最低点
「0」が与えられ、ステップS33で出力される。
【0034】一方、ステップS21の条件判断で行大き
さが適当とみなされた場合は、ステップS22に進み、
行内に存在するラベル数が適当であるかどうかを判定す
る。例えば、行内にラベルが2つしかない場合、郵便番
号は存在しないと考えられるため、ステップS32に進
み、その行の評価値として最低点「0」が与えられ、ス
テップS33で出力される。
【0035】ステップS22で行内ラベル数が不適当で
ないとされた場合は、ステップS23に進み、ラベルの
座標の行内局所座標(ローカル座標)への変換処理を行
なう。ラベルの座標値はもともと郵便物P上の座標(グ
ローバル座標)で表されているもので、これをそれぞれ
の行内で、扱いやすい行内の座標(ローカル座標)に変
換する。この場合、ローカル座標の原点は、郵便物P内
グローバル座標における行左上端とする。図3(b)に
おいて、郵便物Pの画像から検出された10個の行候補
のそれぞれの左上端に与えられた黒丸点がそれに相当す
る。
【0036】さらに、ここでは、印活郵便番号行が検出
対象であるので、ステップS24では行候補が必ず横長
になるようにラベルデータの座標の回転を行なう。同時
に、行候補内の2値画像も回転させる。この回転は、単
に行を横長にするための処理である。尚、ここでの行候
補絞り込みは、両方向からの評価値がどちらも閾値より
低い場合に行候補を削除するから、正立と倒立の違いは
ほとんど影響しないはずである。行方向を指定してから
片方の行端を評価し、その値のみで候補を絞る方法もあ
る。但し、もともと横長の行領域であれば回転を行なう
必要はない。
【0037】次に、ステップS25に進み、ノイズラベ
ル除去処理を行なう。これは、背景の濃い郵便物によく
現れるゴミラベルや、下線等の巨大ラベル、広告や模様
等がもとになって発生する微小ラベル等を除去し、文字
に関する情報のみを評価するための前処理である。
【0038】ステップS25のノイズラベル除去処理
後、再び、ステップS26において、行内ラベル数が適
当であるかどうかを判定する。もともと行内にノイズラ
ベルばかりであったとしたら、それは評価に値しないか
らである。不適当となれば、やはり、ステップS32に
進み、その行の評価値として最低点「0」が与えられ、
ステップS33で進み出力される。
【0039】ステップS26で行内ラベル数が適当であ
ると判定された場合は、ステップS27に進み、行内ラ
ベル座標順にソート処理を行なう。この処理は、行内に
存在する全てのラベルの座標値を調べて、各ラベルの左
端を仮の行頭として回転した際の対象行画像の左端に近
い順に並べ換える。
【0040】ステップS27のソート処理について図6
を参照して具体的に説明する。図6(a)に示すよう
に、ステップS24で横長に回転処理まで終了した1行
分のラベルデータがあったとする。回転処理を行ったた
めに、各ラベルデータの回転前の座標順は、回転後のロ
ーカル座標の原点(図6(a)に示した行候補の左上端
に与えられた黒丸点)からの座標順に対応していない。
【0041】そこで、図6(b)に示すように、行内に
存在する全てのラベルの座標値をもとに、各ラベルの左
端が、仮の行頭とした回転後対象行画像左端(回転後の
ローカル座標の原点)に近い順に並べ換える。その際、
各ラベルには、そのラベルのインデックスとして「0」
「1」「2」…と番号が付されているものとする。
【0042】これは、図5の次のステップS28の縦
(行に垂直)方向ラベル統合処理のために必要な処理で
ある。図5のステップS28では、縦(行に垂直)方向
に分離しているが接近しているラベル同士、あるいは包
含関係にあるラベル同士を、その両者を含む最小のラベ
ルで置き換える処理である。これは、かすれで文字が細
かく分かれてしまった場合や、分離文字が行内に含まれ
る場合に、縦方向の分離ラベルを1つのラベルとして扱
うための補正処理である。
【0043】図7を参照して、縦方向ラベル統合処理の
原理について説明する。図7(a)において、「三」と
いう文字からは、統合前では縦(行に垂直)に3つに並
んだラベルで構成されている。統合後では、図7(b)
に示すように、3つの横長ラベルが、大きな一つのラベ
ルとなり1文字文のラベルが得られる。
【0044】ステップS28では、このような処理を行
内全てのラベルに対して行なう。次に、ステップS29
に進み、再び行内ラベルの数をチェックして、不適当な
らば、ステップS32によりその行の評価値として最低
点「0」が与えられて、ステップS33で直ちに出力さ
れる。
【0045】ステップS29でラベル数に問題がなかっ
た場合は、次に、ステップS30に進み、ここで、後述
の行内情報解析により、残ったラベルデータの様々な特
徴(例えば、ラベルデータの大きさの平均値や分散、2
値画像のクリップ数など)を解析する。
【0046】次に、ステップS31に進み、ステップS
29で解析した行内ラベルデータの特徴及び行内2値画
像の特徴をもとに、対象行の郵便番号行らしさの評価値
を計算する。
【0047】ステップS33では、ステップS31、ス
テップS32で各候補に与えられた評価値が出力され
る。次に、図8、図9を参照して、縦(行に垂直)方向
ラベル統合処理の具体例について説明する。
【0048】図5のステップS27でソート処理が施さ
れた結果得られた図8(a)に示すラベルデータに対
し、ラベル統合処理を行う。まず、図8(a)におい
て、行頭にあるラベルインデックス「0」(i=0)のラベ
ルが基準ラベルとなり、統合対象ラベルは、ラベルイン
デックス「1」(j=1)のラベルである(図8(a)の左
図参照)。ラベルインデックス「1」の重心の行方向の
位置は、ラベルインデックス「0」の行方向範囲に含ま
れるから、それらは、互いに統合条件を満たすので、両
者を統合して、新たなラベルインデックス「0」のラベ
ルとする(図8(a)の右図参照)。
【0049】次に、図8(b)に示すように、先ほど更
新された新たなインデックス「0」のラベルを基準ラベ
ルとする。統合対象ラベルは、インデックス「2」のラ
ベルである(図8(b)の左図参照)。これらは、統合
条件を満たさないため統合はされない(図8(b)の右
図参照)。
【0050】基準ラベルに対して統合処理が行われなか
ったので、次に、図8(c)に示すように、基準ラベル
をインデックス「2」のラベルに移動し、統合対象ラベ
ルもインデックス「3」のラベルに移動する(図8
(c)の左図参照)。この両者も統合条件を満たさない
ので、統合はされない(図8(c)の右図参照)。
【0051】従って、図8(d)に示すように、再び基
準ラベルがインデックス「3」のラベルに移動し、統合
対象ラベルはインデックス「4」のラベルに移動する
(図8(d)の左図参照)。この両者は統合条件を満た
すので、インデックス「4」のラベルがインデックス
「3」のラベルに統合されて、新たなインデックス
「3」のラベルが生成される(図8(d)の右図参
照)。
【0052】次に、図9(a)に示すように、基準ラベ
ルは更新されたばかりのインデックス「3」のラベルで
あるが、統合対象ラベルはインデックス「5」のラベル
に移動する(図9(a)の左図参照)。インデックス
「5」のラベルの重心はインデックス「3」の新たなラ
ベルに含まれるので、明らかに統合条件を満たす。従っ
て、両者は統合されて、インデックス「3」の新たなラ
ベルが生成される。
【0053】次に、図9(b)に示すように、再びイン
デックス「3」の新たなラベルを基準にして、さらなる
統合を試みる。インデックス「6」のラベルは統合条件
を満たさないので、図9(c)に示すように、基準ラベ
ルがインデックス「6」のラベルに移動する。このよう
に、基準ラベルか統合対象ラベルのどちらかが移動しな
がら統合処理はなされるが、インデックス「6」のラベ
ルには、図9(c)の左図からも明らかなように統合す
るべきラベルを持たないため、図9(c)の右図に示し
たように統合は行なわれない。
【0054】また、図9(d)に示すように、基準ラベ
ルがインデックス「7」のラベルに移動すると、インデ
ックス「7」は行内の最終ラベルインデックスであるの
で統合候補ラベルがもともと存在しない。従って、直ち
に統合処理は終了される。
【0055】図9(d)の右図が、統合処理を完了した
ラベルデータとなる。次に、図5のステップS28にお
ける縦方向ラベル統合処理について、図10に示すフロ
ーチャートを参照して、さらに詳しく説明する。
【0056】まず、ステップS40に進み、ラベル統合
処理を残すのみとなった1行分のラベルデータを読み込
む。ステップS41では、ラベル統合フラグ(以下、統
合フラグと略す)flagを「1」に初期化する。統合フラ
グは、後述のステップS49〜ステップS55のループ
内で実際に統合処理が行なわれたか否かを表すものであ
る。
【0057】ステップS42〜S43のループは、各ラ
ベルが基準とされた場合の他ラベル統合回数を表す変数
connect[i]を初期化するためのものである。connect[i]
の値は、統合処理基準ラベルを移動する(iを増加させ
る)際にステップS56で用いられる。すなわち、基準
ラベルに既に統合されたラベルをスキップするためのも
のである。
【0058】行内のラベルは、行先端と仮定された端に
近い順番にインデックスを並べ直してあるので、その順
番に統合処理を行なっていく。ステップS44でインデ
ックスiを「0」とセットする。これは、処理対象の統
合基準ラベルをインデックス0のラベルとすることを意
味する(ステップS45)。
【0059】一般に、i番目のラベルを基準ラベルとし
て、統合処理が行なわれる場合は次のように処理が進
む。まず、ステップS46に進み、iが(lab_ma
x−1)以上の値を持たないか、すなわち現在の基準ラ
ベルが最後(行末)のラベルでないかどうかを調べる。
ここで、lab_maxは、処理対象行内に含まれるラ
ベルの総数を表す。
【0060】統合基準ラベルが行末のラベルであるな
ら、もう後ろに統合されうるラベルが存在しないので、
ステップS57に進み、統合処理を終了して、一度でも
基準ラベルとなったラベルのみを残す。なぜなら、基準
とならなかったラベルは基準ラベルに統合されたラベル
であるからである。
【0061】ステップS46の判定においてiが(la
b_max−1)未満なら、現在の基準ラベルは行末の
ラベルでないから、後続のラベルを統合できる限り統合
し続ける。
【0062】まず、ステップS47で統合候補ラベルイ
ンデックスjを(i+1)、すなわちラベルiの次のラベル
にセットする。処理対象となる注目ラベルは一般にi番
目とj番目の2つのラベルである。
【0063】次に、統合フラグflagを「0」とおく。fl
agがこの値のまま統合ループを抜けてステップS55の
判定部に達すると、基準ラベルに対して統合処理が行な
われなかったこととなり、connect[i]の値は更新され
ず、さらに、ステップS56に進み、iを更新して次の
インデックスに基準ラベルが移動する。
【0064】ステップS49では、j番目のラベルがi
番目のラベルに統合できるかどうかを調べる。統合条件
はいろいろ考えられるが、例えば注目しているi番目の
ラベルの行長方向の重心がj番目のラベルに含まれる
か、あるいは逆にj番目のラベルの行長手方向の重心が
i番目のラベルに含まれる場合に統合条件を満たすとす
る。
【0065】統合できない場合は、ステップS55に進
み、ここで前述の判定条件を満たすこととなり、connec
t[i]の値は更新されず、さらに、ステップS56に進
み、変数iを更新して次のインデックスに基準ラベルが
移動する。
【0066】ステップS49の判定において、統合条件
を満たす場合は、ステップS50に進み、j番目のラベ
ルをi番目のラベルに統合する。統合処理とは、両ラベ
ルを含む最小のラベルを新たなi番目ラベルとすること
を意味する(後述)。
【0067】さらに、ステップS51に進み、統合処理
が為されたことを示す統合フラグflagを「1」にする。
次に、ステップS52に進み、統合候補ラベルインデッ
クスjのみを1つ増加させて統合候補ラベルを移動し、
ステップS53では、基準ラベルiに対して統合された
被統合ラベルの数を示すconnect[i]を1だけインクリメ
ントさせる。これは前述のように、基準ラベル移動(i
の増加)の際に使用される。
【0068】ステップS54では、次の統合候補ラベル
となるインデックスjの値を調べる。もし、次の統合候
補ラベルインデックスjが最終ラベルのインデックスよ
り大きかったら、そのようなラベルは実際には存在しな
いので、基準ラベルiに対する統合処理を中止して、ス
テップS56に進み、基準ラベルの移動処理を行う。
【0069】一方、ステップS54で、次の統合候補ラ
ベルインデックスjが最終ラベルのインデックスより大
きくないと判断されたときは、ステップS55に進み、
統合フラグflagの値をチェックする。
【0070】統合フラグflagが「1」のとき、ステップ
S48を通してステップS49に戻り、さきほど統合処
理によって更新されたばかりの新たな基準ラベルiに対
して次の統合候補ラベルの統合を試みる。
【0071】このように、統合できるラベルが存在する
限り基準ラベルを移動することはなく統合処理を続け、
1度でも統合条件が満たされない場合には必ず基準ラベ
ルが移動する。
【0072】ステップS46において、基準ラベルiの
値が最終ラベルインデックス以上になったら統合処理を
終了してステップS57に進む。ステップS57では、
最低1回は基準ラベルとなったラベルのみを残して、ラ
ベルデータを前に詰める。基準ラベル以外は消滅するた
め、行内ラベル総数は基準ラベルの個数で置き換えられ
る。
【0073】ステップS58では、こうして作成された
統合処理済みの1行分ラベルデータが出力され、図4の
ステップS29では、このラベルデータをもとに、行内
ラベルの数をチェックを行いう。すなわち、図4のステ
ップS28の統合処理の結果得られたラベルデータをも
とに、行内ラベル数があらかじめ定められた閾値を越え
るものについてのみ、図4のステップS30以下の処理
を行う。
【0074】次に、図4のステップS30における行内
情報解析処理につて説明する。行内情報解析処理は、正
立方向と倒立方向の両方向についての評価値2つを独立
に算出する。できるだけ行内に含まれる郵便番号のラベ
ルのみを評価するため、解析時には次の2つの処理が交
互に2回(2方向分)行なわれる。 (1)評価対象ラベル決定処理 (2)評価対象ラベルとして決定されたラベルデータ、
及びそれらの内部の2値画像特徴解析(後述の図11の
ステップS67、S70、S74、S79、S82の処
理) 但し、行内のラベル総数があらかじめ定められた閾値P
ROC_MAX以下であれば、行内全てのラベルが評価
対象となるので、その場合は正立・倒立両方向の行内特
徴量が同一になるため、両方向の評価値は一致する。こ
の場合、処理も1回しか行なわれない。尚、ラベル数の
閾値PROC_MAX、PROC_MINは、郵便番号
に対応するラベルを判断するために適当に定められた値
で、例えば、閾値PROC_MAXは「7」、閾値PR
OC_MINは「3」という値が用いられる。
【0075】次に、図5のステップS30における行内
情報解析処理の具体例について、図11に示すフローチ
ャートを参照して説明する。まず、ステップS60で
は、図5のステップS28でラベル統合処理を完了し、
さらに、図5のステップS30でのチェックの結果、ラ
ベル数が適当であると判断された1行分ラベルデータ及
び1行分の2値化画像を読み込む。
【0076】ステップS62では、対象行内のラベル間
隔を調べて、郵便番号と住所の境界を示す空白がないか
どうかを調べる。これは、郵便物上に記載された宛名情
報について、1行の中に郵便番号と住所が続けて書かれ
ていて、1行として候補となっている場合があり、この
ような場合に評価対象ラベルを限定して、できるだけ郵
便番号部分の特徴を的確に捉えるためである。
【0077】相当する空白がただ1つだけ見つかった場
合は、ステップS62に進み、それを境界スペースと呼
び、境界スペースが見つかったことを示すフラグspc-fl
agを「1」とする。
【0078】境界スペースがみつからなかった場合は、
ステップS63に進み、行内のラベル総数を調べ、閾値
PROC_MAXよりも大きな場合は、ステップS64
に進み、フラグspc-flagを「0」にする。
【0079】ステップS63で、行内ラベル総数が、閾
値PROC_MAX以下である場合は、ステップS65
に進み、評価対象ラベル数procに、その行内のラベル総
数を設定し、ステップS66では、行内の全ラベルを評
価対象ラベルとして、ステップS67でそれらの特徴と
なる、ラベルの縦横それぞれの大きさ、ラベル縦横比、
ラベル重心高さ、ラベル間距離、行方向ラベル重心間距
離等の平均及び分散、または平均及び標準偏差、さらに
対象ラベル内の二値画像の特徴(クリップ数の平均値)
を求めて、ステップS100で、その解析結果を出力す
る。
【0080】ステップS66で、評価対象ラベルが決定
される行は、例えば、図12(g)に示すものである。
ステップS63で行内ラベル総数が閾値PROC_MA
Xを越えていて、ステップS64でフラグspc-flagを
「0」にした場合、ステップS68に進み、評価対象ラ
ベル数procに閾値PROC_MAXを設定し、ステップ
S69で、その対象行の左側から閾値PROC_MAX
個のラベルを評価対象に指定して、ステップS70でそ
れらの特徴を解析する。
【0081】ステップS69で、評価対象ラベルが決定
される行は、例えば、図12(e)に示すものである。
ステップS61で、境界スペースが見つかって、ステッ
プS62でフラグspc-flagを「1」にした場合は、次
に、ステップS71に進み、まず、その境界スペースの
左側にあるラベルの個数left-lab を調べ、郵便番号に
対応するラベルが存在するか否かが判断される。すなわ
ち、ラベル数left-lab が、閾値PROC_MAXより
少ない場合、郵便番号ラベルが、境界スペースの左側に
存在すると考えられ、その場合、ステップS72に進
み、評価対象ラベル数procに、境界スペースの左側のラ
ベル数left-lad を設定し、ステップS73で、境界ス
ペースの左側に存在するラベル数left-lad 個全てのラ
ベルを評価対象に指定し、ステップS74でそれらの特
徴を解析する。
【0082】ステップS73で評価対象ラベルが決定さ
れる行は、例えば、図12(a)に示すものである。ス
テップS71の条件を満たさない、つまり境界スペース
左側にはラベルが少なくて郵便番号ラベルが存在しない
と考えられる場合、あるいはラベルが多すぎて郵便番号
以外のものが記載されているか郵便番号以外のラベルが
多く含まれると考えられる場合は、ステップS68、S
69に進み、行の左端から閾値PROC_MAX個のラ
ベルを評価対象ラベルとして、ステップS70で対象ラ
ベル及び対象各ラベル内の2値画像の特徴を解析する。
【0083】この場合、ステップS69で評価対象ラベ
ルが決定される行は、例えば、図12(c)に示すもの
である。ステップS74の処理終了後、及びステップS
70の処理終了後、ステップS75の条件を満たさない
(境界スペースは見つかっている)場合は、いずれもス
テップS76に進み、検出した境界スペースの右側に存
在する行内ラベル総数right _lab を調べ、郵便番号に
対応するラベルが存在するか否かが判断される。
【0084】ステップS71の判定条件の場合と同様
に、right _lab の値が閾値PROC_MAXより少な
い場合、郵便番号ラベルが、境界スペースの右側に存在
する確率が高いと考えられ、ステップS77に進み、評
価対象ラベル数procに、境界スペースの右側のラベル数
right _lab を設定し、ステップS78で境界スペース
右側に存在するラベル数right _lab 全部のラベルを評
価対象にして、ステップS79でラベル及び内部の2値
画像の特徴を解析する。
【0085】ステップS78で評価対象ラベルが決定さ
れる行は、例えば、図12(d)に示すものである。ス
テップS76の条件を満たさない場合は、境界ラベル右
側には郵便番号ラベルのみが存在するとは限らないとみ
なされ、ステップS80に進み、評価対象ラベル数proc
に閾値PROC_MAXを設定し、ステップS81で、
行の右端から閾値PROC_MAX個のラベルを評価対
象として、ステップS82でそれらの特徴を解析する。
【0086】ステップS81で評価対象ラベルが決定さ
れる行は、例えば図12(b)に示すものである。ステ
ップS60で境界スペースが検出されず、ステップS6
3の行内ラベル総数が閾値PROC_MAXを越えると
判断された場合は、前述したように、ステップS70で
特徴解析が行われるが、さらに、2回目の特徴解析(前
述のステップS80〜ステップS82の処理)も行う。
すなわち、ステップS81では、対象行右端から閾値P
ROC_MAX個のラベルが評価対象となり、それは、
例えば図12(f)に示すような行である。
【0087】ステップS100では、ある1行文のラベ
ルデータおよび2値化画像に対し、ステップS74とス
テップS79の特徴解析、ステップS74とステップS
82の特徴解析、ステップS67の特徴解析といった5
種類の組合せのうち、いづれかの解析処理が施され、そ
の結果得られたラベル及び2値画像の解析データ(行内
情報解析データ)が対象行の特徴として出力される。
【0088】この行内情報解析データをもとに、図5の
ステップS31における評価値を算出する。次に、図1
1のステップS67、S70、S74、S79、S82
における、評価対象ラベルデータおよびその2値化画像
の特徴解析処理について説明する。
【0089】ラベルデータの特徴量として、図13に示
したような、ラベルの縦方向の長さe、横方向の長さ
c、行方向ラベル間距離b、行方向ラベル重心間距離
a、ラベル重心(中心)の位置g、ラベル重心高さh、
行幅d、行の高さf、ラベルの縦方向の長さeと横方向
の長さcとの比(縦横比)等の値の評価対象ラベルにつ
いての平均及び分散(または標準偏差)等がある。
【0090】また、それぞれのラベル形状から、ハイフ
ンラベル(例えば、横長さcが行高さfの0.1 倍〜0.2
倍の範囲で、縦横比が0.5 よりも小さいもの)数、数字
ラベル(例えば、縦横比が小さ過ぎず、ある程度の大き
さをもつもの)数、評価対象ラベル総数等をカウント
し、異常な場合には後述の評価値計算の際に減点要素と
して用いる。
【0091】ハイフンラベルであるとみなされたラベル
は、ラベル縦長さeの平均値・分散の計算および縦横比
の平均・分散の計算からは除外する(但し、横長さcの
平均・分散の計算には用いる)。
【0092】行の特徴解析は、行内に存在するラベルデ
ータだけでも有効であるが、できればそれ以外の特徴で
も行候補を絞り込めると、以後の処理対象をさらに削減
することができる。そのために候補行の評価対象ラベル
内の2値画像の特徴解析を行なう。
【0093】2値画像の特徴量には、例えば、対象ラベ
ル内のクリップ数の平均を用いる。クリップ数とは、2
値画像を1方向にスキャンしていった時に白黒が反転す
る回数である。
【0094】クリップ数の計算は、例えば文字幅が30
ピクセル(pixel )であった場合、通常は30回縦方向
にスキャンし、総反転回数を文字幅「30」で割ること
で計算する。しかし、画像の文字部分を全部スキャンす
ることは、処理量の増大を招く。そのため、例えば、文
字幅が5ピクセル(pixel )を越える場合は、中心に近
い5ラインのみを、あるいは、図14に示すように、全
体を等間隔で間引いて5ラインのみスキャンして、その
時の反転回数の平均をとることで計算量を軽減すること
ができる。
【0095】次に、図5のステップS31における行評
価値計算処理について、図15に示すフローチャートを
参照して説明する。ここでは、図5のステップS30に
おける行内情報解析結果にもとづき、各候補行に対して
評価値を与える。
【0096】基本的には、特徴量が郵便番号らしい範囲
に入っている場合には、得点を与え、そうでない場合は
減点を与える。但し、必ず満たさなければならないよう
な重要な特徴の場合は、特徴を満たしても得点は与え
ず、満たさない場合に減点のみを与える場合がある。ま
た、その重要度によって減点幅も変えている。加点幅、
減点幅は一定(例えば、「10」)であるので、候補行
はさまざまな特徴量において地道に得点を重ねなけれ
ば、高得点は得られない。
【0097】図15において、まず、特徴量の平均値に
基づく評価値の加点、減点処理を行う。まず、ステップ
S200では、行内のラベルの特徴量に基づく、評価値
pointを初期化(初期値「0」を設定)する。
【0098】ステップS201〜S202では、ラベル
横幅cの平均値について、その値が、あらかじめ定めら
れたラベルの横幅平均の許容最小値XL_MINより大
きく、許容最大値XL_MAXより小さい場合にのみ、
評価値pointに一定値POINTを加算する。
【0099】ステップS203〜S205では、ラベル
縦幅eの平均値について、その値が、あらかじめ定めら
れたラベルの縦幅平均の許容最小値YL_MINより大
きく、許容最大値YL_MAXより小さい場合にのみ、
評価値pointに一定値POINTを加算し、そうで
ない場合には評価値pointから一定値POINTを
減算する。
【0100】ステップS206〜S208では、ラベル
縦横比の平均値について、その値が、あらかじめ定めら
れたラベルの縦横比平均の許容最小値RATIO_MI
Nより大きく、許容最大値RATIO_MAXより小さ
い場合にのみ、評価値pointに一定値POINTを
加算する。そうでない場合、ラベル縦横比は、少し重要
度が高い特徴であるとあらかじめ設定されているため、
減点幅を大きくして(例えば、「30」)、評価値po
intを減点する。
【0101】ステップS209〜S211では、ラベル
重心高さhの平均値について、その値が、行高さfの0.
3 倍〜0.7 倍の範囲であるときのみ、評価値point
に一定値POINTを加算し、そうでない場合には評価
値pointから一定値POINTを減算する。
【0102】ステップS212〜S214では、ラベル
重心間距離aの平均値について、その値が、あらかじめ
定められたラベル重心間距離aの許容最小値G_STP
_MINより大きく、許容最大値G_STP_MAXよ
り小さい場合にのみ、評価値pointに一定値POI
NTを加算し、そうでない場合には評価値pointか
ら一定値POINTを減点する。
【0103】ステップS215〜S217では、ラベル
間距離bの平均値について、その値が、あらかじめ定め
られたラベル間距離bの許容最小値STEP_MINよ
り大きく、許容最大値STEP_MAXより小さい場合
にのみ、評価値pointに一定値POINTを加算
し、そうでない場合には評価値pointから一定値P
OINTを減算する。
【0104】次に、各特徴量の平均値以外の拘束条件に
基づく評価値の加点、減点処理を行う。ここでは、各特
徴量の平均値以外の拘束条件とは、例えば、評価対象ラ
ベル数、ハイフンの行端からの位置、ハイフンラベル
数、数字ラベルの個数、クリップ数平均等がある。
【0105】クリップ数の平均値が大きすぎる場合や数
字ラベルが少なすぎる場合は減点する。但し、数字ラベ
ルとは、例えば、ラベルの縦長さeが行高さfの0.5 〜
1.0倍で縦/横比が0.8 〜10というように、数字であり
得る大きさ及び形状を持ったラベルを指す。
【0106】ステップS218〜S220行内の評価対
象のラベル数について、その値が、あらかじめ定められ
たラベル数の許容最大値PROC_MAXより小さい場
合にのみ、評価値pointに一定値POINTを加点
する。そうでない場合、行内のラベル数は、少し重要度
が高い特徴であるとあらかじめ設定されているため、減
点幅を大きくして(例えば、「30」)、評価値poi
ntを減点する。
【0107】さらに、ステップS218におけるチェッ
クの際、ラベル数が一定範囲内に入っている場合のみ、
ステップS221で、各特徴量の分散、標準偏差に基づ
く評価値の加点、減点処理を行う。これは、特に、対象
ラベル数が「3」より小さい場合は対象ラベルには郵便
番号が含まれないはずであること、ばらつきが意味をな
さないと考えられることからである。
【0108】標準偏差に基づく評価値の加点、減点処理
の具体例については後述する。ステップS222〜ステ
ップS226では、ハイフンラベルに基づく評価値の加
点、減点処理である。すなわち、ハイフンラベルが数が
「1」で、しかも、そのラベルの行端からの位置(行端
から何番目のラベルであるか)が、許容最小値MIN_
HYPH(例えば、「4」)以上で、許容最大値MAX
_HYPH(例えば「5」)以下の場合、評価値poi
ntに一定値POINTを加算する。また、ハイフンラ
ベル数が「3」以上のときは、評価値pointから一
定値POINTを減算する。
【0109】ステップS227〜ステップS230で
は、クリップ数の平均値に基づく評価値の加点、減点処
理である。すなわち、クリップ数の平均値が、大きすぎ
る場合(例えば「32」以上)、そのラベルは、数字で
有り得る可能性が小さいので減点幅を大きくして(例え
ば、「50」)、評価値pointを減点する。また、
クリップ数の平均値がそれほど大きくはないが、しか
し、数字で有り得る可能性が小さい場合(例えば「2
7」以上「32」未満)、減点幅を通常よりもやや大き
くして(例えば「30」)、評価値pointを減点す
る。
【0110】ステップS231〜ステップS232で
は、数字ラベル数に基づく評価値の加点、減点処理であ
る。すなわち、数字ラベル数が郵便番号のラベルである
として許容される最小ラベル数よりも小さい場合に、そ
のラベルは、郵便番号のラベルである可能性が小さいの
で減点幅を大きくして(例えば、「50」)、評価値p
ointを減点する。
【0111】ステップS233〜ステップS234で
は、評価値pointがマイナスになっている場合、そ
れを「0」とする。すなわち、評価値pointの基準
(最低点)を「0」とするようにしている。
【0112】次に、図16に示すフローチャートを参照
して、図15のステップS221における標準偏差に基
づく評価値の加点、減点処理について説明する。尚、図
16において、各標準偏差値に乗算されている整数値D
YNA(例えば「10」)は、浮動小数点演算を避ける
ために、値が1未満になる可能性があると考えられるも
のに対して、計算過程において乗算して整数値に直して
評価するためのものである。
【0113】ステップS250〜ステップS252で
は、ラベル横幅cの標準偏差に基づく評価値の加点、減
点処理である。ステップS253〜ステップS255で
は、ラベル縦幅eの標準偏差に基づく評価値の加点、減
点処理である。
【0114】ステップS256〜ステップS258で
は、ラベル縦横比の標準偏差に基づく評価値の加点、減
点処理である。ステップS259〜ステップS261で
は、ラベル重心高さhの標準偏差に基づく評価値の加
点、減点処理である。
【0115】ステップS262〜ステップS264で
は、ラベル重心間距離aの標準偏差に基づく評価値の加
点、減点処理である。ステップS265〜ステップS2
67では、ラベル間距離bの標準偏差に基づく評価値の
加点、減点処理である。
【0116】いずれにおいても、各特徴量の標準偏差
は、郵便番号のラベルとして可能性のある範囲内に含ま
れるか否かが判断され、その範囲内であるときは、評価
値pointは加点され、範囲外のときは、評価値po
intは減点される。
【0117】その際、ステップS253のラベルの縦長
さeの標準偏差に対しての条件を満たさない場合は大き
な減点幅(例えば、「50」)となるようにしてある
(ステップS255)。その他の特徴に関しては一定値
の加点、減点である。
【0118】このようにして、各行毎にその行内のラベ
ルの評価値pointを算出した結果は、その値が最も
高い行に郵便番号行が存在する可能性が最も高いことに
なる。
【0119】さて、図1の画像処理部3では、図5〜図
10を参照して説明したように、検出された各行候補に
ついて、郵便番号行が存在する可能性の高さを示す評価
値pointを算出すると、その評価値pointが低
い行を郵便番号あるいは住所等が記載されている行の候
補から削除して、行の絞り込みを行い、その結果抽出さ
れた宛名記載行候補の分布から、郵便番号、住所等の宛
名情報がまとまって書かれていると思われる宛名領域候
補を検出して、その検出された宛名領域候補のうち、例
えば、評価値の最も高い行候補が存在するものから、宛
名記載行候補の分布および各行の評価値に基づく優先順
位に従って、その優先順位の高い候補行から順に認識部
4、知識処理部6で2値画像をもとに文字認識を行っ
て、宛名情報の認識を行う(図2のステップS8〜ステ
ップS11)。適当な宛名情報の認識ができるまで、宛
名領域候補、行候補の分布、評価値に基づく優先順位に
従って、認識部4、知識処理部6で宛名情報の認識処理
を繰り返す。
【0120】郵便物処理部8では、画像処理部3で最終
的にその郵便物P上の画像から認識された宛名情報をも
とに、郵便物Pを各宛先毎に分けられた区分口に郵便物
を搬送する。
【0121】以上、説明したように、上記実施形態によ
れば、郵便物Pの宛名情報の記載面の画像を取込み、そ
の取り込んだ画像をもとに、画像処理部3において、2
値画像、ラベルデータを作成し、さらに、それらをもと
に複数の行候補を検出し、その検出された複数の行候補
にのそれぞれについて、その行内のラベルのうち、1文
字として統合され得るラベルについては統合して、その
後、各行内のラベルデータおよび2値画像の特徴を解析
して、郵便番号に対応するラベルが存在する可能性の高
さを示す評価値pointを算出し、その評価値poi
ntをもとに行候補を絞り込み、さらに、その絞り込ま
れた行候補の分布をもとに、郵便番号、住所等の記載さ
れた宛名領域候補を検出し、その検出された宛名領域候
補、行候補の分布、評価値に基づく優先順位に従って、
順次、行候補の2値画像をもとに文字認識を行って、宛
名情報の認識を行うことにより、印活字郵便番号や、住
所等の宛名情報の認識精度の向上が図れる。
【0122】また、検出された各行候補内のラベルの特
徴を解析して評価する際、郵便番号と住所が1行内に記
載されている場合でも、その間の空白(境界スペース)
を検出することにより、その検出された空白を境に行方
向に沿って両側に存在するラベルをそれぞれ正立方向の
評価対象ラベル、倒立方向の評価対象ラベルとして、評
価対象ラベルを調節できるので評価値の算出精度が上
り、郵便番号行の検出精度が向上する。
【0123】また、枠外郵便番号と住所は近い位置に書
かれていることが多いので、本実施形態の行内情報解析
による評価値を用いることによって宛名住所領域の検出
精度も、処置量をそれほど増大させることなく効果的に
向上させることができる。従って、宛名情報の認識精度
も向上する。
【0124】さらに、各行毎に行内情報の解析を行うこ
とにより、ノイズ行の削除に有効に働き、正解行を漏ら
すことなく候補数を大幅に削減することができ、処理の
高速化が図れる。
【0125】
【発明の効果】以上説明したように、本発明によれば、
郵便物上に記載された郵便番号、特に、郵便物上にあら
かじめ定められた郵便番号枠の外に印刷活字で記載され
た郵便番号を含む住所等の宛名情報の認識精度の向上が
図れる宛名読取装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る宛名読取装置の構成
を概略的に示した図。
【図2】郵便物処理装置の全体の処理動作を説明するた
めのフローチャート。
【図3】図2のフローチャートに示した要部の処理の流
れを説明するための図。
【図4】郵便物の画像から得られた微分2値画像をもと
にした行に対する射影データを概念的に示した図。
【図5】図2の行評価処理の概略を説明するためのフロ
ーチャート。
【図6】図5のソート処理を説明するための図で、
(a)図は行の回転前のラベルデータの様子を示し、
(b)図は行の回転後のラベルデータの様子を示したも
のである。
【図7】縦方向ラベル統合処理の原理について説明する
ための図。
【図8】縦方向ラベル統合処理の具体例について説明す
るための図。
【図9】縦方向ラベル統合処理の具体例について説明す
るための図。
【図10】縦方向ラベル統合処理の具体的な処理手順に
ついて説明するためのフローチャート。
【図11】図5の行内情報解析処理の具体的な処理手順
について説明するためのフローチャート
【図12】図11の行内情報解析処理により評価対象ラ
ベルが決定される行の具体例を示した図。
【図13】評価対象ラベルの特徴量を説明するための
図。
【図14】評価対象ラベル内の2値画像の特徴量を説明
するための図。
【図15】図5の行評価値計算処理の具体的な処理手順
について説明するためのフローチャート。
【図16】図15の標準偏差に基づく評価値の加点、減
点処理の具体的な処理手順について説明するためのフロ
ーチャート。
【符号の説明】
2…光電変換回路、3…画像処理部、4…認識部、5…
文字辞書、6…知識処理部、7…知識辞書、8…読取結
果処理部、P…郵便物。

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 郵便物上の所定の枠外に記載された郵便
    番号を含む宛名情報の画像を読取る読取手段と、 この読取手段で読取られた宛名情報の画像を2値化して
    2値画像に変換する2値画像変換手段と、 この2値画像変換手段で変換された2値画像から、その
    画素の連結成分をもとに外接矩形領域を抽出して、その
    外接矩形領域の分布をもとに、複数の行を検出する行検
    出手段と、 この行検出手段で検出された複数の行のそれぞれについ
    て、その行内に含まれる前記外接矩形領域の特徴に基づ
    き、前記行を解析して、その行に郵便番号が記載されて
    いる可能性の高さを示す評価値を算出する評価値算出手
    段と、 この評価値算出手段で算出された評価値に基づき、前記
    行検出手段で検出された複数の行から前記郵便番号情報
    の記載されている可能性の高い郵便番号記載行候補を抽
    出する行抽出手段と、 この行抽出手段で抽出された郵便番号記載行候補につい
    て、前記評価値算出手段で算出された評価値および前記
    郵便番号記載行候補の分布に基づく優先順位に従って、
    前記郵便番号情報の認識を行う認識手段と、 を具備したことを特徴とする宛名読取装置。
  2. 【請求項2】 郵便物上の所定の枠外に記載された郵便
    番号を含む宛名情報の画像を読取る読取手段と、 この読取手段で読取られた宛名情報の画像を2値化して
    2値画像に変換する2値画像変換手段と、 この2値画像変換手段で変換された2値画像から、その
    画素の連結成分をもとに外接矩形領域を抽出して、その
    外接矩形領域の分布をもとに、複数の行を検出する行検
    出手段と、 この行検出手段で検出された複数の行の分布をもとに前
    記宛名情報の記載されている宛名記載領域を検出する宛
    名記載領域検出手段と、 この宛名記載領域検出手段で検出された宛名記載領域内
    に含まれる複数の行のそれぞれについて、その行内に含
    まれる前記外接矩形領域を、その行の方向に垂直な方向
    に統合する統合手段と、 この統合手段で統合された前記各行内の外接矩形領域の
    特徴に基づき、前記行を解析して、その行に前記郵便番
    号が記載されている可能性の高さを示す評価値を算出す
    る評価値算出手段と、 この評価値算出手段で算出された評価値に基づき、前記
    行検出手段で検出された複数の行から前記郵便番号の記
    載されている可能性の高い郵便番号記載行候補を抽出す
    る抽出手段と、 この抽出手段で前記宛名記載領域内のそれぞれから抽出
    された郵便番号記載行候補について、前記評価値算出手
    段で算出された評価値に基づく優先順位に従って、前記
    宛名情報の認識を行う認識手段と、 を具備したことを特徴とする宛名読取装置。
  3. 【請求項3】 前記統合手段は、前記行検出手段で検出
    された複数の行のそれぞれについて、その行に含まれる
    前記外接矩形領域を行頭からの距離の順に行方向に沿っ
    て、前記行の垂直方向に存在する前記外接矩形領域を統
    合することを特徴とする請求項2記載の宛名読取装置。
  4. 【請求項4】 前記評価値算出手段は、前記行の行方向
    およびその反対方向のそれぞれについて、前記統合手段
    で統合された外接矩形領域から解析対象の外接矩形領域
    を決定し、その外接矩形領域の特徴に基づき、前記行の
    解析を行って、その行に前記郵便番号が記載されている
    可能性の高さを示す評価値を算出することを特徴とする
    請求項2記載の宛名読取装置。
  5. 【請求項5】 前記評価値算出手段は、前記行検出手段
    で検出された複数の行のうち、前記統合手段で統合され
    た外接矩形領域の総数があらかじめ定められた値以上の
    ものを解析対象行として抽出し、その抽出された解析対
    象行のそれぞれについて、前記郵便番号とその他の宛名
    情報との境界とみなされる空白部分を検出して、前記行
    の行方向に沿って前記空白部分の両側に存在する前記外
    接矩形領域から、それぞれ解析対象の外接矩形領域を決
    定し、その解析対象の外接矩形領域の特徴に基づき、前
    記解析対象行の解析を行って、前記解析対象行に前記郵
    便番号が記載されている可能性の高さを示す評価値を算
    出することを特徴とする請求項2記載の宛名読取装置。
  6. 【請求項6】 前記評価値算出手段は、前記行検出手段
    で検出された複数の行のうち、前記統合手段で統合され
    た外接矩形領域の総数があらかじめ定めされた範囲内で
    あるとき、前記行内に存在する全ての外接矩形領域を解
    析対象の外接矩形領域として決定して、その解析対象の
    外接矩形領域の特徴に基づき、前記行の解析を行い、前
    記行に前記郵便番号が記載されている可能性の高さを示
    す評価値を算出することを特徴とする請求項2記載の宛
    名読取装置。
  7. 【請求項7】 前記評価値算出手段は、前記行内の外接
    矩形領域の大きさに基づく統計値に基づき、前記行を解
    析して、その行に前記郵便番号が記載されている可能性
    の高さを示す評価値を算出することを特徴とする請求項
    2記載の宛名読取装置。
  8. 【請求項8】 前記評価値算出手段は、前記行内の隣り
    合う前記外接矩形領域の位置関係に基づく統計値に基づ
    き、前記行を解析して、その行に前記郵便番号が記載さ
    れている可能性の高さを示す評価値を算出することを特
    徴とする請求項2記載の宛名読取装置。
  9. 【請求項9】 前記評価値算出手段は、前記行内の外接
    矩形領域に対応する前記2値画像について、1方向に複
    数箇所走査した際に白黒が反転する回数に基づく前記2
    値画像の特徴量に基づき、前記行を解析して、その行に
    前記郵便番号が記載されている可能性の高さを示す評価
    値を算出することを特徴とする請求項2記載の宛名読取
    装置。
  10. 【請求項10】 前記評価値算出手段は、前記行内の外
    接矩形領域の特徴に基づき、前記行を解析して、その行
    に前記郵便番号が記載されている可能性の高さを示す評
    価値を算出する際に、前記特徴が前記郵便番号が記載さ
    れている可能性の高さを判断する際に重要な要素である
    か否かに基づく重みを加味して評価値を算出することを
    特徴とする請求項2記載の宛名読取装置。
  11. 【請求項11】 郵便物上の所定の枠外に記載された郵
    便番号を含む宛名情報の画像を読取る読取手段と、 この読取手段で読取られた宛名情報の画像を2値化して
    2値画像に変換する2値画像変換手段と、 この2値画像変換手段で変換された2値画像から、その
    画素の連結成分をもとに外接矩形領域を抽出して、その
    外接矩形領域の分布をもとに、複数の行を検出する行検
    出手段と、 この行検出手段で検出された複数の行の分布をもとに前
    記宛名情報の記載されている宛名記載領域を検出する宛
    名記載領域検出手段と、 この宛名記載領域検出手段で検出された宛名記載領域内
    のそれぞれの行について、その行内に含まれる前記外接
    矩形領域を行頭からの距離の順に行方向に沿って、前記
    行の垂直方向に存在する前記外接矩形領域を統合する統
    合手段と、 前記宛名記載領域検出手段で検出された宛名記載領域内
    の複数の行のうち、その行に含まれる前記統合手段で統
    合された外接矩形領域の総数があらかじめ定められた値
    以上のものを解析対象行として抽出する第1の抽出手段
    と、 この第1の抽出手段で抽出された解析対象行に、前記郵
    便番号とその他の宛名情報との境界とみなされる空白部
    分が存在するとき、前記行の行方向に沿って前記空白部
    分の両側に存在する前記統合手段で統合された外接矩形
    領域から、それぞれ解析対象の外接矩形領域を決定する
    第1の決定手段と、 前記第1の抽出手段で抽出された解析対象行に、前記空
    白部分が存在しないとき、前記行の行方向およびその反
    対方向のそれぞれについて、前記統合手段で統合された
    外接矩形領域から解析対象の外接矩形領域を決定する第
    2の決定手段と、 前記第1の抽出手段で抽出された解析対象行のうち、前
    記統合手段で統合された外接矩形領域の総数があらかじ
    め定めされた範囲内であるとき、前記行内に存在する全
    ての外接矩形領域を解析対象の外接矩形領域として決定
    する第3の決定手段と、 前記第1の抽出手段で抽出された解析対象行のそれぞれ
    について、前記第1、第2、第3の決定手段のいずれか
    で決定された解析対象の外接矩形領域、および、その外
    接矩形領域に対応する前記2値画像の特徴に基づき、そ
    の解析対象行を解析する行解析手段と、 この行解析手段で前記解析対象行を解析した結果をもと
    に、前記特徴が前記郵便番号が記載されている可能性の
    高さを判断する際に重要な要素であるか否かに基づく重
    みを加味して、前記解析対象行に前記郵便番号が記載さ
    れている可能性の高さを示す評価値を算出する評価値算
    出手段と、 この評価値算出手段で算出された評価値に基づき、前記
    第1の抽出手段で抽出された行から前記郵便番号が記載
    されている可能性の高い郵便番号記載行候補を抽出する
    第2の抽出手段と、 この第2の抽出手段で前記宛名記載領域から抽出された
    郵便番号記載行候補について、前記評価値算出手段で算
    出された評価値および各郵便番号記載ぎょ候補の位置情
    報に基づく優先順位に従って、前記宛名情報の認識を行
    う認識手段と、 を具備したことを特徴とする宛名読取装置。
JP7179928A 1995-07-17 1995-07-17 宛名読取装置 Pending JPH0929179A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7179928A JPH0929179A (ja) 1995-07-17 1995-07-17 宛名読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7179928A JPH0929179A (ja) 1995-07-17 1995-07-17 宛名読取装置

Publications (1)

Publication Number Publication Date
JPH0929179A true JPH0929179A (ja) 1997-02-04

Family

ID=16074385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7179928A Pending JPH0929179A (ja) 1995-07-17 1995-07-17 宛名読取装置

Country Status (1)

Country Link
JP (1) JPH0929179A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300740C (zh) * 2005-01-25 2007-02-14 邮政科学上海研究所 邮政编码数字串识别方法
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1300740C (zh) * 2005-01-25 2007-02-14 邮政科学上海研究所 邮政编码数字串识别方法
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体

Similar Documents

Publication Publication Date Title
JP4323328B2 (ja) 取り込み画像データから文字列を識別して抜出するシステムおよび方法
JP2951814B2 (ja) 画像抽出方式
US5583949A (en) Apparatus and method for use in image processing
US5787194A (en) System and method for image processing using segmentation of images and classification and merging of image segments using a cost function
LeBourgeois Robust multifont OCR system from gray level images
EP0965943A2 (en) Optical character reading method and system for a document with ruled lines and their application
Palumbo et al. Postal address block location in real time
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
US5841905A (en) Business form image identification using projected profiles of graphical lines and text string lines
JP3388867B2 (ja) 宛名領域検出装置および宛名領域検出方法
Boukerma et al. A novel Arabic baseline estimation algorithm based on sub-words treatment
JP4011646B2 (ja) 行検出方法および文字認識装置
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JP2001014421A (ja) バーコード読み取り装置
KR100503724B1 (ko) 화상에서의 객체 탐색 방법
JP3370934B2 (ja) 光学的文字読み取り方法とその装置
JPH0929179A (ja) 宛名読取装置
Velu et al. Automatic letter sorting for Indian postal address recognition system based on pin codes
JP2827960B2 (ja) 宛名行抽出装置
JP2861860B2 (ja) 宛名行抽出装置
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP3957471B2 (ja) 分離文字列統合装置
RIANTO et al. MIN-COST FLOW NETWORK TO DETECT TEXT LINE ON CERTIFICATE
JP3705216B2 (ja) 文字記入枠検出方法、文字記入枠検出装置及びプログラム
JPS6379193A (ja) 文字読取装置