JPH08243504A - 住所読取り方法 - Google Patents

住所読取り方法

Info

Publication number
JPH08243504A
JPH08243504A JP7053944A JP5394495A JPH08243504A JP H08243504 A JPH08243504 A JP H08243504A JP 7053944 A JP7053944 A JP 7053944A JP 5394495 A JP5394495 A JP 5394495A JP H08243504 A JPH08243504 A JP H08243504A
Authority
JP
Japan
Prior art keywords
character
chome
place name
address
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7053944A
Other languages
English (en)
Inventor
Masashi Koga
昌史 古賀
Hisao Ogata
日佐男 緒方
Yoshihiro Shima
好博 嶋
Tatsuhiko Kagehiro
達彦 影広
Katsumi Marukawa
勝美 丸川
Masato Teramoto
正人 寺本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7053944A priority Critical patent/JPH08243504A/ja
Publication of JPH08243504A publication Critical patent/JPH08243504A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文書に記載された住所の地名から丁目・街区
までを,メモリや計算量を増加させることなく,高い精
度で認識する。 【構成】 住所中の地名と丁目・街区で各々異なる文字
種限定を行い,文字パターン候補を評価して,正しい文
字パターンを見いだす。 【効果】 文字認識の回数を増加させることなく,高い
精度で地名と丁目・街区の文字を切出して認識できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,郵便物等の文書上に記
載された住所を読取り,文書を区分する住所読取り区分
装置に係り,特にその住所読取り方法に関する。
【0002】
【従来の技術】従来より,郵便物上に記載された住所を
読取り,郵便物を区分する住所読取り区分装置が実用化
されている。住所中の都道府県名から町名までの部分
(地名)の読取り方式は,情報処理学会論文誌第35巻
第6号「手書き漢字住所認識のためのエラー修正アルゴ
リズム」などで知られている。丁目・街区部分には,数
字や記号など切出しが困難な文字が使用されており,住
所と同じ方式で文字を切出し,認識するのでは,十分な
認識精度が得られない。例えば,図1に示す住所文字列
102中の横書きの丁目・街区中の「111」の様な連
続したアラビア数字は,「川」などの漢字と紛らわし
く,地名部分と同じ手法で文字を正しく切出すのが困難
である。高い精度で丁目・街区を認識するための,文字
の切出し,認識および後処理方式としては,信学技報PR
U92-40「住所読取りにおける丁目・街区認識方式」が知
られている。これは,複数の文字切出しの候補を求め,
文字認識結果および丁目・街区の文字列としての妥当性
によってこれらの候補を評価する方式である。
【0003】
【発明が解決しようとする課題】一般に,住所中の文字
を認識し,地名に関する知識と照合を行なった後でなく
ては,住所文字行のどこからどこまでの部分が地名であ
るかはわからない。このため,地名を読取る際に,丁目
・街区等の地名以外の文字を認識することは避けられな
い。一方,従来の技術に述べた理由により,丁目・街区
を高い精度で認識するためには,地名と異なる手法で丁
目・街区部分の文字を切出し,認識する必要がある。し
たがって,従来の技術では,地名の認識と丁目・街区の
認識の両方のステップで,丁目・街区部分の文字の一部
を重複して認識することを避けられなかった。このた
め,住所を読取るために必要な全体の処理量は大きくな
っている。また,地名用と丁目・街区用で異なる文字認
識の手段を設けるために,文字認識の標準パターンを格
納するための多くのメモリが必要とされていた。
【0004】本発明の目的は,住所中の地名および丁目
・街区の認識の高精度化である。また,本発明のもう一
つの目的は,住所中の地名および丁目・街区を異なる方
式で認識するために必要な計算量の削減である。また,
本発明の更にもう一つの目的は,必要なメモリ量を,従
来技術を用いる場合よりも削減することである。本発明
のその他の目的は,明細書の記載から自ずと明らかにな
ろう。
【0005】
【課題を解決するための手段】上記の課題を解決するた
め,本発明では,昭和59年度電子通信学会総合全国大
会1558「接触した手書き文字の自動分離を行う文字
切り出し方式」にあるような多重仮説検定方式による文
字切出・認識処理と,新たに発明した文字種限定処理と
を組み合わせる。多重仮説検定方式は,文字の切出し方
に複数の仮説をたてて文字パターンの候補を抽出し,こ
れら仮説を文字認識結果を用いて検定する方式である。
例えば,図1に示す住所文字列の文字切出しに対して
は,図2(A)に示すような仮説が立てられる。図2
(A)の中では,パターンとパターンの境界を節,パタ
ーンを弧とするグラフで切出しの仮説が表現されてい
る。このように仮説を表わすと,文字パターンの切出し
は,このグラフの始点から終点へ至る最適な経路を見い
だす問題に置き換えられる。文字種限定処理は,多重仮
説検定方式における仮説の検定に先立ち,文字認識結果
の候補文字から特定の文字種のみを選択する処理であ
る。文字種限定処理により,図2(A)のようなグラフ
から孤を減らし,ひいては切出しの仮説の仮説を絞り込
むことができる。例えば,図2(B)は,地名部分で用
いられる文字種に文字種を限定した際に得られる切出し
の仮説,図2(C)は,地名部分で用いられる文字種に
文字種を限定した際に得られる切出しの仮説を示してい
る。
【0006】
【作用】各文字パターンの候補の文字認識結果の候補文
字を,地名にありえる文字種に限定して評価することに
より,地名部分の切り出しや認識誤りを減少できる。例
えば,地名中に「川」という文字があった場合,これを
「川」1文字とみなす仮説(1)と「1」3文字とみな
す仮説(2)の両方が立てられる。しかし,文字認識結
果の候補文字を地名にありえる文字種に限定し,候補文
字からアラビア数字の「1」や縦ハイフン等を破棄する
と,仮説(2)は不適切であることが分かる。
【0007】また,各文字パターンの候補の文字認識結
果の候補文字を,丁目・街区にありえる文字種に限定し
て評価することにより,丁目・街区の切り出しや認識誤
りを減少できる。例えば,丁目・街区中に「111」と
いう文字列があった場合,これを「川」1文字とみなす
仮説(3)と「1」3文字とみなす仮説(4)の両方が
立てられる。しかし,文字認識結果の候補文字を丁目・
街区にありえる文字種に限定し,候補文字から漢字の
「川」を破棄すると,仮説(3)は不適切であることが
分かる。
【0008】本発明では,各文字パターンの候補に対
し,1回だけ文字認識を行う。このため,全体の処理量
は小さくなる。また,複数の文字認識手段を設ける必要
がなくなり,文字認識に必要なメモリ量が小さくなる。
【0009】
【実施例】図3は,本発明の第1の実施例の住所読み取
り処理の構成図である。以下で,図3を用いて,本実施
例の概略を説明する。住所読み取り処理は,住所の記載
された面を光電変換して得られた文書画像301を入力
とする。次に,住所文字行抽出処理302により,文書
画像301より,住所文字行を抽出する。次に,文字パ
ターン候補抽出処理303は,住所文字行中より文字パ
ターンの候補を切出す。文字パターン候補の切出しは連
結成分の位置,大きさの情報に基づいて行う。一意に文
字のパターンの境界を決定できない場合には,複数の仮
説に基づき文字パターンの候補を切出す。文字パターン
候補抽出処理303の出力である各文字パターン候補の
輪郭,および前後のパターンとの境界に関する情報は,
パターンテーブル313に格納する。次に,文字認識処
理304によりパターンテーブル313に格納されてい
る文字パターン候補を認識する。文字認識結果は,複数
の候補文字のコードと各候補文字の類似度からなる。各
文字パターン候補の文字認識結果は,パターンテーブル
313に格納する。次に,地名照合用文字種限定処理3
05により,パターンテーブル313に格納した各文字
パターン候補中の文字認識結果の候補文字から,地名
(住所中の都道府県名から町名までの部分)で用いられ
る文字のみを選び出して,地名照合用パターンテーブル
314に複写する。318は,地名で使用される文字種
をあらかじめ記憶しておく地名単語字種限定テーブルで
ある。次に,地名照合用ラティス生成処理306によ
り,地名照合用パターンテーブル314に格納された文
字パターンの候補を,類似度に基づいて評価し,文字行
中の文字パターンの並びを確定する。確定した文字パタ
ーンの並びに基づき,地名照合用ラティス生成処理30
6は地名照合用候補文字ラティス315を生成する。次
に,地名照合処理307により,地名照合用ラティスに
格納した候補文字を評価して地名を認識する。次に,丁
目・街区開始位置検出処理308により,地名照合結果
に基づいて住所文字行中で丁目・街区が開始している位
置を検出する。次に,丁目・街区照合用文字種限定処理
309により,パターンテーブル313に格納した各文
字パターン候補の内の丁目・街区開始位置以降にあるも
のを地名照合用パターンテーブル316へ複写する。こ
の際,文字認識結果の候補文字および類似度は,丁目・
街区で用いられる文字のみを選び出して複写する。31
9は,丁目・街区で使用される文字種をあらかじめ記憶
しておくための,丁目・街区字種限定テーブルである。
次に,丁目・街区照合用ラティス生成処理310によ
り,丁目・街区照合用パターンテーブル316に格納さ
れた文字パターンの候補を,類似度に基づいて評価し,
丁目・街区部分の文字パターンの並びを確定する。確定
した文字パターンの並びに基づき,丁目・街区照合用ラ
ティス生成処理310は丁目・街区照合用候補文字ラテ
ィス317を生成する。次に,丁目・街区照合処理31
1により,丁目・街区照合用ラティスに格納した候補文
字を評価して丁目・街区を認識する。最後に,地名認識
結果および丁目・街区認識結果に基づいて,区分情報変
換処理312が文書の区分に必要な区分情報の生成を行
う。
【0010】図4は,本実施例におけるハードウエア構
成を示す。図中の太線は,郵便物の流れを示す。401
は,画像入力をつかさどるスキャナである。402は,
住所読取り時間を確保するために郵便物搬送路上に設け
るディレイラインである。403は,住所読取り結果の
区分情報に基づき郵便物を区分するソータである。40
4は,住所読取り,即ち図3における302から312
の処理をつかさどる認識装置である。スキャナ401と
認識装置404は,入出力用ケーブル412で接続す
る。ソータ403と認識装置404は,入出力用ケーブ
ル413で接続する。認識装置404には,認識装置内
部の各部分を接続するためのバス407,スキャナ40
1との通信をつかさどる入出力用インタフェース40
5,認識装置全体の制御および住所認識処理をつかさど
る演算処理装置406,ソータ403との通信をつかさ
どる入出力用インタフェース407,起動等の操作を行
うためのキーボード408,実行状況を必要に応じ表示
するためのCRT409,住所認識に必要なテーブル,プ
ログラム,辞書などを格納するためのメモリ410を備
える。
【0011】次に,住所文字行抽出から文字認識に至る
処理を説明する。
【0012】まず,住所文字行抽出処理302の入力お
よび出力を,図1を用いて説明する。101は,画像中
の郵便物の像を示す。図中102に示すように,住所文
字行とは,宛名の住所すなわち都道府県名,市名から,
丁目・番地までを含む矩形の領域のことである。このよ
うに住所文字行を抽出する方法としては,例えば,東芝
レビュー1993 Vol. 48 No. 7「郵便機械における画像処
理技術」3章3節にある様な方法を用いることもでき
る。
【0013】図5は,文字パターン候補抽出処理303
の原理を示す。まず,住所文字行より,文字の境界の候
補を抽出する。図中で0から14までの番号を付与して
いる縦棒が,境界の候補である。境界の候補は,信学技
報IE88-138「不定ピッチ文字列を含む印刷文書における
印刷文書における文字切出手法」に記載があるような統
合矩形の同士の間隙とする。次に,境界間の距離が,文
字行の高さから推定した文字サイズを越えない組み合わ
せを調べ,それら境界に挾まれるパターンの輪郭,境界
等の情報を文字パターンの候補としてパターンテーブル
313に格納する。図5の例では,境界間の距離501
と502は推定した文字サイズを越えず,境界間の距離
503は越える。このため,境界0と1に挟まれたパタ
ーンと境界0と2に挟まれたパターンはパターンテーブ
ルへ格納されるが,境界0と3に挟まれたパターンは格
納されない。
【0014】文字認識処理304は,例えば,ISBN4-885
52-075-4 C3055「パターン認識」pp. 32 - 109 に記載
のあるような既知の方式を用いて実現することも可能で
ある。文字認識のカテゴリーは,漢字,平仮名,片仮
名,アラビア数字および記号のうち,地名もしくは丁目
・街区で用いられるものとする。文字認識の出力として
は,複数の候補文字および各候補文字の標準パターンに
対する入力パターンの類似度が得られるものとする。
【0015】図6は,パターンテーブルの形式を示す。
地名照合用パターンテーブル314,丁目・番地照合用
パターンテーブル316の形式も,パターンテーブル3
13と同様である。601は,パターンの輪郭を格納す
るフィールドである。パターンの輪郭は,チェーンコー
ド等で記述する。602はパターンの右側の境界の番
号,603は左側の境界の番号を格納するフィールドで
ある。境界の番号は,図5に示すように,文字行の左端
を0番とし,左から右へ順に1刻みに増えるよう定め
る。604は,候補文字を格納するフィールドである。
本実施例では,類似度が高い順に最大3文字の候補文字
を格納する。605は,604に格納した候補文字の類
似度を格納するフィールドである。候補文字,類似度は
左詰めとし,候補文字数が3以下の場合には,候補文字
のフィールドの余白にはヌルコードを,類似度のフィー
ルドの余白には0を埋める。
【0016】図6におけるパターンと境界の関係の例を
グラフで表現したものを,図2(A)に示す。図2
(A)のように,境界を節,パターンを弧とするグラフ
を用いると,文字パターンの切出しは,このグラフの始
点から終点へ至る最適な経路を見いだす問題に置き換え
られる。文字パターンの切出し方をこのようにグラフ上
の経路で表現したものを,以下では切出経路と呼ぶ。ま
た,弧に対応するパターン候補の1位候補文字の類似度
に(右境界の番号)−(左境界の番号)の値をかけたも
のを,弧の重みと定義する。本実施例では,切出経路上
の各弧の重みの総和を経路の信頼度とし,信頼度が大き
いものから順に経路の上位の候補とする。しかし,図6
に示すパターンテーブルより方式を用いて文字パターン
を切出すと,境界9から境界12の間の「111」が誤
って,「川」と切出されてしまう。本発明は,この問題
を,以下に述べる地名照合用文字種限定305および丁
目・街区用文字種限定309で,パターンテーブルの内
容を補正し,図2(B),図2(C)に示すような切出
しの仮説より正解の仮説を探索することにより解決す
る。
【0017】次に,住所中の地名を切出・認識する処理
について説明する。地名部分の切出・認識は,パターン
テーブル313を入力とし,地名照合用文字種限定処理
305,地名照合用ラティス生成処理306,地名照合
処理307の各処理によって行う。
【0018】地名照合用文字種限定処理305では,パ
ターンテーブル313中の候補文字より,地名で用いる
可能性のある漢字,平仮名,片仮名のみを選び出し,地
名照合用パターンテーブル314へ格納する。図7は,
図6に示すパターンテーブルの内容に対応する地名照合
用パターンテーブル314の内容の示す。本テーブル中
の類似度は,パターンテーブル313より地名照合用文
字種限定処理305によって選ばれた候補文字に対応す
るものをパターンテーブル313より複写したものであ
る。候補文字,類似度は左詰めとし,候補文字のフィー
ルドの余白にはヌルコードを,類似度のフィールドの余
白には0を埋める。輪郭,左境界,右境界の内容はその
まま複写する。
【0019】図8中の(A)(B)(C)(D)は,地
名照合用パターンテーブル314に基づいて求めた切出
経路の候補のうちで,最も確信度の高い4候補である。
図中の各経路の右下に記したのが経路の確信度である。
切出経路の候補は図2をもって説明した方式で求める。
地名照合用候補文字ラティス生成処理306は,これら
の切出経路の候補の上位候補に基づいて,地名照合用候
補文字ラティス315を生成する。本実施例では,最も
確信度の高い切出経路1つを選び,この切出経路上の各
弧に対応するパターンの候補文字から,一つの地名照合
用候補文字ラティス315を生成する。別の実施例とし
て,上位の複数の切出し経路に基づいて複数のラティス
を生成し,各々のラティスに対し地名照合を行い,得ら
れた複数の結果から最も良好なものを採用してもよい。
【0020】図9は,地名照合用候補文字ラティスの形
式315を示す。地名照合用候補文字ラティス315
は,切り出された文字パターンの候補文字を図に示すよ
うに格子状に配列したものである。図中で,横方向は文
字の並び,縦方向は候補文字の順位を示している。例え
ば,1文字目の第1候補は「秋」,第2候補は「秒」と
なっている。
【0021】地名照合処理307は,地名照合用候補文
字ラティス315から,住所文字行中にいかなる地名が
記載されていたかを認識する。地名照合処理307は,
例えば,情報処理学会論文誌第35巻6号「手書き漢字
住所認識のためのエラー修正アルゴリズム」の様な方法
により実現することも可能である。例えば,「秋川市住
田」という地名が予め登録されている場合には,地名照
合処理307は図9に示すようなラティスを入力から,
「秋川市住田」という地名を認識する。
【0022】次に,丁目・街区部分を切出・認識する処
理について説明する。丁目・街区部分の切出・認識は,
パターンテーブル313および地名照合処理307の結
果を入力とし,丁目・街区開始位置検出処理308,丁
目・街区照合用文字種限定処理309,丁目・街区照合
用ラティス生成処理310,丁目・街区照合処理311
の各処理によって行う。
【0023】丁目・街区開始位置検出処理308では,
地名照合処理307の結果より,丁目・街区開始位置,
すなわち地名部分の最後の文字と丁目・街区の部分の最
初の文字の境界(図5中の境界9番)を検出する。地名
照合処理307は,処理の途上で,ラティス上の候補文
字と予め記憶してある地名中の文字の対応をとる。した
がって,地名照合処理307の結果を用いて,図9に示
すようなラティス上での住所終了位置901を検出でき
る。さらに,ラティス上での住所終了位置901に基づ
いて,丁目・街区開始位置が検出できることは,自明で
ある。
【0024】丁目・街区照合用文字種限定処理309で
は,パターンテーブル313中の候補文字より,丁目・
街区で用いる可能性のある「丁」「目」「番」「地」等
の漢字,漢数字,「の」などの平仮名,「ノ」などの片
仮名,ハイフンなどの記号,アラビア数字のみを選び出
し,丁目・街区照合用パターンテーブル316へ格納す
る。図10は,図6に示すパターンテーブルの内容に対
応する丁目・街区照合用パターンテーブル316の内容
の例を示す。
【0025】図11の(A)(B)(C)(D)は,丁
目・街区照合用パターンテーブル316に基づいて求め
た丁目・街区開始位置以降の切出経路の候補のうちで,
最も確信度の高い4候補を示す。切出経路候補の求め方
は,地名照合用ラティス生成処理306と同様である。
図中の各経路の右下に記したのが経路の確信度である。
丁目・街区照合用候補文字ラティス生成処理310は,
これらの切出経路の候補の上位候補に基づいて,丁目・
街区照合用候補文字ラティス317を生成する。本実施
例では,最も確信度の高い切出経路1つを選び,この切
出経路上の各弧に対応するパターンの候補文字から,一
つの丁目・街区照合用候補文字ラティス317を生成す
る。地名の切出・認識における上位の候補では誤って
「川」と切出されていた「111」の部分が,ここでは
1位の候補で正しく切出されている。別の実施例とし
て,上位の複数の切出し経路に基づいて複数のラティス
を生成し,各々のラティスに対し丁目・街区照合を行
い,得られた複数の結果から最も良好なものを採用して
もよい。
【0026】図12は,図10の丁目・街区照合用パタ
ーンテーブルの例に対応する丁目・街区照合用ラティス
317の内容を示す。ラティスの形式は,地名照合用候
補文字ラティス315と同様である。この丁目・街区照
合用ラティス317の1位候補の文字列を入力として,
例えば,信学技報PRU92-40「住所読み取りにおける丁目
・街区認識方式」に記載のあるような方法により,丁目
・街区を認識することができる。
【0027】次に,字種限定処理の詳細を説明する。地
名照合用文字種限定処理305と丁目・街区照合用文字
種限定309の処理内容および入出力のテーブルの形式
は同じである。以下では,両者を「字種限定」と呼び,
一括して説明する。
【0028】図13は,字種限定テーブルの形式を示
す。字種限定テーブルは,フィールド長1バイトであ
る。各文字に関する情報は,テーブルの先頭アドレスか
らシフトJIS コードの値だけ進んだアドレスに格納す
る。該当するフィールドに値0が格納されている場合に
はその文字が字種限定により除去されることを,値1が
格納されている場合には字種限定により文字が残される
ことを表わす。1301に示す地名照合用の字種限定テ
ーブルの先頭のアドレスがAであるとすると,アラビア
数字「1」(シフトJISコード0x2331)に関する情報
は,A+0x2331に格納する。アラビア数字「1」は,地名
照合用字種限定では除去する対象なので,アドレスA+0x
2331のフィールド1303には値0を格納する。これに
対し漢数字「一」および漢字「秋」は残される文字であ
り,各々に対応するフィールド1304および1305
には1を格納する。同様に,1302に示す丁目・街区
照合用字種限定テーブルでは,残す文字であるアラビア
数字「1」のフィールド1306および漢数字「一」の
フィールド1307には1を格納し,除去する文字
「秋」のフィールド1308には0を格納する。
【0029】図14に,字種限定の処理手順を示す。1
401はパターン数に関する制御ループであり,Np回す
なわちパターンテーブルに格納されたパターンの数だけ
ステップ1402およびステップ1407を繰り返す。
1402は読み込み元のパターンテーブルでの候補順位
に関する 制御ループであり,Nc回すなわちあるパター
ンに対応する候補文字数だけステップ1403およびス
テップ1404を繰り返す。1403は,候補文字の書
き込み先順位tを初期化するステップであり,t=1にセッ
トする。1404は当該認識候補を除去するか残すか判
定する分岐である。分岐は,候補文字のコードを字種限
定テーブルで照会することにより制御する。1405
は,当該認識候補を残す場合の処理のステップであり,
読み込み元のパターンテーブル中の候補文字と類似度を
する出力先のt位のフィールドへコピーする。1406
は候補文字の書き込み先順位を更新するステップであ
り,候補文字をコピーした場合にのみtに1を加算する。
1407は,候補文字数を越える分のフィールドをクリ
アするための制御ループで,コピーした候補文字の数,
すなわちコピー後のtから最大の候補数すなわち3まで
ステップ1408およびステップ1409を繰り返す。
1408は,類似度を格納するフィールドの余白に0を
格納するステップである。1409は,候補文字を格納
するフィールドの余白にNULLを格納するステップであ
る。
【0030】図15に,従来の構成を示す。入力である
文書画像1501は,本実施例と同様である。住所文字
行抽出処理1502,文字行抽出処理1503も,本実
施例と同様である。地名文字切出・文字認識処理150
4では,認識対象の文字種を地名で使われる文字に絞っ
て文字を読取り,地名照合用パターンテーブルへ格納す
る。地名照合用ラティス生成1506処理,地名照合用
候補文字ラティス1515,地名照合処理1507,丁
目・街区開始位置検出処理1508は本実施例と同様で
ある。従来の方法では,丁目・街区開始位置検出後,文
字行の丁目・街区開始位置以降より再度文字パターンを
切り出して認識する。丁目・街区文字切出・認識処理1
509は認識対象の文字種類を丁目・街区で用いられる
文字に絞って文字を読取り,丁目・街区照合用パターン
テーブル1516へ格納する。丁目・街区照合用ラティ
ス生成1510,丁目・街区照合用候補文字ラティス1
517,丁目・街区照合処理1511,区分情報生成処
理1512は本実施例と同様である。従来方法には,本
発明のような字種限定処理がなく,丁目・街区部分で再
度文字を認識必要があり,全体の処理量が増えるという
欠点があった。
【0031】図16に,本発明の第2の実施例の構成を
示す。本実施例では,丁目・街区照合のための字種限定
を,人手による丁目・街区先頭位置の入力後に行う。本
実施例では,文書画像1601は,住所文字行抽出処理
1602と画像データ記憶部1615の両方へ出力す
る。住所文字行抽出処理1602,文字切出・文字認識
処理1604は第1の実施例と同様である。文字切出・
文字認識処理の結果はラティス生成1605処理に出力
すると共に,パターンテーブル記憶部1616へ格納す
る。ラティス生成処理1605は第1の実施例と同様で
ある。地名照合処理1606は,処理内容は第1の実施
例と同様であるが,字種限定を施されていないパターン
テーブルを入力とする点が第1の実施例と異なる。丁目
・街区先頭検出処理1607は第1の実施例と同様であ
る。丁目・街区照合処理1608は,処理内容は第1の
実施例と同様であるが,字種限定を施していないパター
ンテーブルを入力とする点が第1の実施例と異なる。地
名照合および丁目・街区照合の結果得られる住所文字列
は,住所認識結果記憶部1617に格納する。住所認識
結果表示1609では,画像データ記憶部1615およ
び住所認識結果記憶部1617に格納されている情報を
オペレータへ表示する。丁目・街区先頭位置入力161
0では,オペレータが丁目・街区の先頭位置を入力す
る。丁目・街区照合用文字種限定処理1611は,第1
の実施例と同様であるが,入力となる丁目・街区の先頭
位置を丁目・街区先頭位置入力1610より受ける点,
パターンテーブル記憶部1616に格納されているパタ
ーンテーブルを参照する点が第1の実施例と異なる。丁
目・街区照合用ラティス生成1612,丁目・街区照合
処理1613,区分情報生成1614は第1の実施例と
同様である。住所修正結果表示1618は,丁目・街区
照合処理1613の結果によって修正した住所認識結果
をオペレータに表示する。
【0032】図17は,住所認識結果を修正するための
画面の例を示す。郵便物の画像,認識結果,修正結果
は,CRT1701に表示する。画面は画像表示用のウイ
ンドウ1702,住所認識結果表示用ウインドウ170
3,修正用ウインドウ1704からなる。丁目・街区先
頭位置の入力は,オペレータが,画面上のマウスカーソ
ル1705で住所認識結果表示用ウインドウ1704上
をクリックすることで行う。マウスクリックのイベント
を受けると,丁目・街区先頭位置入力処理が起動され,
1610クリック位置を元に丁目・街区先頭位置を算出
し,丁目・街区用文字種限定1611以下の処理を起動
する。町名・街区照合1613終了後,得られた丁目・
街区認識結果と予め認識されている地名は修正用ウイン
ドウ1704に表示する。
【0033】図18は,本発明の第2の実施例における
ハードウエア構成を示す。図中の太線は,郵便物の流れ
を示す。本実施例におけるハードウエアは,画像入力を
つかさどるスキャナ1801,住所読取り時間を確保す
るために郵便物搬送路上に設けるディレイライン180
2,住所読取り結果に基づき郵便物を区分するソータ1
803,住所読取り,即ち図16における1602から
1608をつかさどる認識装置1804,ファイルサー
バ1816,修正処理,すなわち1609から1614
をつかさどる少なくとも一つ以上の修正用端末1821
からなる。スキャナ1801と認識装置1804は,入
出力用ケーブル1812で接続する。ソータ1803と
認識装置1804は,入出力用ケーブル1813で接続
する。認識装置1804,ファイルサーバ1816およ
び修正用端末1821は,LAN1815で接続する。認
識装置1804には,認識装置内部の各部分を接続する
ためのバス1811,スキャナ1801との通信をつか
さどる入出力用インタフェース1805,認識装置全体
の制御および住所認識処理をつかさどる演算処理装置1
806,ソータ1803との通信をつかさどる入出力用
インタフェース1807,起動等の操作を行うためのキ
ーボード1808,実行状況を必要に応じ表示するため
のCRT1809,住所認識に必要なテーブル,プログラ
ム,辞書などを格納するためのメモリ1810を備え
る。ファイルサーバ1816は,ファイルサーバ内部の
各部を接続するバス1820,演算処理装置1817,
LANを介した通信をつかさどるLANインタフェース181
8,画像データ,住所認識結果,パターンテーブルを格
納するハードディスク1819を備える。修正用端末1
821は,修正に用いるマウス1822およびキーボー
ド1826,画像,住所認識結果および修正結果を表示
するCRT1827,演算処理装置1823,メモリ18
28,LANを介した通信をつかさどるLANインタフェース
1824を備える。修正用端末1821を介して,オペ
レータ1829が住所認識結果の確認および修正を行
う。第2の実施例には,修正用端末に高価な認識機能を
搭載することなく,容易に丁目・街区部分の修正が可能
になるという利点がある。
【0034】
【発明の効果】本発明により,地名部分と丁目・街区部
分で異なる方式で文字切出し・認識を行なったのと同等
の精度で住所を読取ることができる。また,字種限定に
要する計算量は,文字認識に比べはるかに小さい。この
ため,全体の計算量は大幅に削減できる。また,パター
ンテーブルのサイズは文字認識に必要な標準パターンの
辞書よりはるかに小さい。このため,本発明を用いると
複数の文字認識手段を設ける必要がなくなり,文字認識
に必要なメモリ量が小さくなる。
【図面の簡単な説明】
【図1】入力となる住所文字列の例を示す。
【図2】切り出し経路の例を示す。
【図3】本発明の一実施例の構成を示す。
【図4】本発明の一実施例におけるハードウエア構成を
示す。
【図5】パターンと境界の関係を示す。
【図6】パターンテーブルの形式を示す。
【図7】地名照合用パターンテーブルの内容の例を示す
【図8】地名照合用候補文字ラティス生成の概略を示
す。
【図9】地名照合用候補文字ラティスの形式および地名
照合の概略を示す。
【図10】丁目・街区照合用パターンテーブルの内容の
例を示す。
【図11】丁目・街区照合用候補文字ラティス生成の概
略を示す。
【図12】丁目・街区照合用ラティスの内容の例を示
す。
【図13】字種限定テーブルの形式を示す。
【図14】字種限定の処理手順を示す。
【図15】従来の方法の構成を示す。
【図16】本発明の第2の実施例の構成を示す。
【図17】住所認識結果を修正するための画面の例を示
す。
【図18】本発明の第2の実施例におけるハードウエア
構成を示す。
【符号の説明】
101……文書画像,102……住所文字行抽出処理,
103……文字パターン候補抽出処理,104……文字
認識処理,105……地名照合用文字種限定処理,10
6……地名照合用ラティス生成処理,107……地名照
合処理,108……丁目・街区開始位置検出処理,10
9……丁目・街区照合用文字種限定処理,110……丁
目・街区照合用ラティス生成処理,111……丁目・街
区照合処理,112……区分情報生成処理,113……
パターンテーブル,114……地名照合用パターンテー
ブル,115……地名照合用候補文字ラティス,116
……丁目・街区照合用パターンテーブル,117…丁目
・街区照合用候補文字ラティス,118……地名字種限
定テーブル,119……丁目・街区字種限定テーブル,
120……区分情報。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 影広 達彦 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 丸川 勝美 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 寺本 正人 愛知県尾張旭市晴丘町池上1番地 株式会 社日立製作所オフィスシステム事業部内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文書上に記載された画像情報を電気信号に
    変換して入力する画像入力手段と,画像上より住所の記
    載されている文字行を抽出する手段と,記載されている
    住所中の地名および丁目・番地を読取る手段と,住所の
    読取り結果に応じて文書を区分する手段とを有する住所
    読取区分装置の住所読取り方法において,文字パターン
    の切出し方を一意に定められない場合に,複数の文字パ
    ターンの候補を切出すパターン切出処理と,切出された
    文字パターンを文字認識する文字認識処理と,文字パタ
    ーンの認識結果をパターンテーブルに格納するパターン
    テーブル格納処理と,パターンテーブルに格納された文
    字パターンの認識結果を,地名中の文字として評価する
    地名文字パターン候補評価処理と,地名文字パターン候
    補評価処理の出力に基づき,文字パターンを確定する地
    名文字パターン候補選択処理と,地名文字パターン候補
    選択処理の出力より地名を認識する地名認識処理と,地
    名認識処理の結果に基づき丁目・番地の開始位置を検出
    する丁目・番地開始位置検出処理と,パターンテーブル
    中の丁目・番地開始位置以降に格納された認識結果の候
    補を,丁目・番地中の文字として評価する丁目・街区文
    字パターン候補評価処理と,丁目・街区文字パターン候
    補評価処理の出力に基づき,文字パターンを確定する丁
    目・街区文字パターン候補選択処理と,丁目・街区文字
    パターン候補選択処理の出力より丁目・街区を認識する
    丁目・街区認識処理と,を有することを特徴とする住所
    読取方法。
  2. 【請求項2】請求項1記載において,地名文字パターン
    候補評価処理は,各々の候補文字パターンを文字認識し
    た結果の上位の候補文字中より,あらかじめ記憶してい
    る地名で用いられる文字に該当するものを選び出し,選
    択された候補文字の類似度の最大値に基づき文字パター
    ンの評価値を決定する処理であることを特徴とする住所
    読取り方法。
  3. 【請求項3】請求項1記載において,丁目・街区文字パ
    ターン候補評価処理は,各々の候補文字パターンを文字
    認識した結果の上位の候補文字中より,あらかじめ記憶
    している丁目・番地で用いられる文字に該当するものを
    選び出し,選択された候補文字の類似度の最大値に基づ
    き文字パターンの評価値を決定する処理であることを特
    徴とする住所読取り方法。
JP7053944A 1995-03-14 1995-03-14 住所読取り方法 Pending JPH08243504A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7053944A JPH08243504A (ja) 1995-03-14 1995-03-14 住所読取り方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7053944A JPH08243504A (ja) 1995-03-14 1995-03-14 住所読取り方法

Publications (1)

Publication Number Publication Date
JPH08243504A true JPH08243504A (ja) 1996-09-24

Family

ID=12956846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7053944A Pending JPH08243504A (ja) 1995-03-14 1995-03-14 住所読取り方法

Country Status (1)

Country Link
JP (1) JPH08243504A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145308A (ja) * 1997-07-29 1999-02-16 Omron Corp ナンバープレート認識方法およびナンバープレート認識装置
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体
JP2013097590A (ja) * 2011-11-01 2013-05-20 Fujitsu Ltd 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145308A (ja) * 1997-07-29 1999-02-16 Omron Corp ナンバープレート認識方法およびナンバープレート認識装置
JP2010020421A (ja) * 2008-07-08 2010-01-28 Canon Inc 文字認識装置、文字認識方法、コンピュータプログラム、記憶媒体
JP2013097590A (ja) * 2011-11-01 2013-05-20 Fujitsu Ltd 文字認識用コンピュータプログラム、文字認識装置及び文字認識方法

Similar Documents

Publication Publication Date Title
US6470091B2 (en) Address reader, sorting machine such as a mail thing and character string recognition method
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP2734386B2 (ja) 文字列読み取り装置
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JP4661921B2 (ja) 文書処理装置およびプログラム
CN1243462A (zh) 识别分配信息的方法和装置
US5265171A (en) Optical character reading apparatus for performing spelling check
US20040117192A1 (en) System and method for reading addresses in more than one language
JP3313272B2 (ja) 住所読み取り方法および識別関数重みベクトル生成方法
US4887301A (en) Proportional spaced text recognition apparatus and method
US20010043742A1 (en) Communication document detector
JP3232991B2 (ja) 文字読取り方法及び住所読取り方法
JPH08243504A (ja) 住所読取り方法
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기
JPH1078997A (ja) 文字認識装置及びその方法並びにその方法を記録した記録媒体
JP3468668B2 (ja) 住所認識方法及び郵便区分機
JPH09245120A (ja) 文字切出し方法
JPH07271921A (ja) 文字認識装置および文字認識方法
JP2000207491A (ja) 文字列読取方法及び装置
KR930012142B1 (ko) 문서인식장치의 개별문자 절출방법
JP3149859B2 (ja) ビデオコーディングシステム及び方法
Schäfer et al. How postal address readers are made adaptive
JP2851102B2 (ja) 文字切出し方法
JPH11312219A (ja) 宛名読取り装置および郵便物等区分機および文字列認識方法