JP3788262B2 - 住所認識システム、及びその住所識別方法 - Google Patents

住所認識システム、及びその住所識別方法 Download PDF

Info

Publication number
JP3788262B2
JP3788262B2 JP2001128298A JP2001128298A JP3788262B2 JP 3788262 B2 JP3788262 B2 JP 3788262B2 JP 2001128298 A JP2001128298 A JP 2001128298A JP 2001128298 A JP2001128298 A JP 2001128298A JP 3788262 B2 JP3788262 B2 JP 3788262B2
Authority
JP
Japan
Prior art keywords
address
missing
information
word
address word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001128298A
Other languages
English (en)
Other versions
JP2002324212A (ja
Inventor
博史 黒田
宏基 高木
克彦 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001128298A priority Critical patent/JP3788262B2/ja
Publication of JP2002324212A publication Critical patent/JP2002324212A/ja
Application granted granted Critical
Publication of JP3788262B2 publication Critical patent/JP3788262B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は住所認識システム、及びその住所識別方法に関し、特に単語単位で認識された誤りを含む可能性のある一連の住所単語を入力し、あらかじめ正しい住所を登録した住所辞書と照合し、最良の尤度を示す住所を認識結果として出力する住所認識システムと、その住所識別方法とに関する。
【0002】
【従来の技術】
郵便物の宛先振り分けを行う場合など、画像表現された住所情報(文字、単語)から住所を認識する処理が行われている。従来の住所認識方法では、認識尤度が最良(最大)となる住所が住所認識結果となる最尤推定法が既知の技術として知られている。この従来の認識方法を行う住所認識システムを図6に示す。
【0003】
図6において、住所認識システムは、既に住所単語認識された入力データ1と、住所認識装置2と、住所認識結果3から構成されている。住所認識装置2は、住所作成手段21と、住所辞書23とを有している。
【0004】
このような構成を有する従来の住所認識システムにおいて、住所認識方法はつぎのように動作する。まず、図5の住所情報の画像から、単語矩形を切り出し、それぞれの単語矩形に対する住所単語認識結果がそれぞれ“ANTONIO”、“ALVES”、“DOS”、“SANTOS”となった場合、これらは図6の入力データ1となる。
【0005】
なお、各単語矩形での住所単語認識結果は一意である必要はなく、複数候補存在する場合でもかまわない。また、それぞれの住所単語認識結果には「らしさ」の尺度として認識尤度が付与される。
【0006】
住所作成手段21では、住所辞書23に登録されている住所と整合が取れた入力住所単語の組み合わせから住所候補が作成される。また、住所作成手段21で作成された候補についても組み合わせた住所単語の単語認識尤度から住所の認識尤度を求めることができる。この認識尤度が最良のものを住所認識結果3へ出力する(最尤推定法)。
【0007】
【発明が解決しようとする課題】
しかし、この従来技術では、最良の尤度を持つ住所候補が必ずしも正解とは限らないという問題点があった。つまり、入力データ1から出力される住所単語が正しく読み取れない場合、または読み取り不能となった場合には、正解となる住所に住所単語の欠落が生じる。そのため、正解住所の一部と同一または類似した住所が最良の住所尤度となる場合がある。
【0008】
例えば、“ANTONIO ALVES”と記載された入力データ1の住所単語認識結果が“ANTONIO”、“A???S”となり、住所辞書23に登録されている住所が“ANTONIO ALVES”と“ANTONIO”であった場合、“ANTONIO ALVES”の“ALVES”が非常に悪い尤度の住所単語となるため、“ANTONIO ALVES”よりも“ANTONIO”の方が最尤住所となり、住所認識結果3へ出力される。
【0009】
本発明の目的は、複数の領域で認識された住所単語から住所を認識する際、類似住所への誤認識を低減可能とした住所認識システム、及びその住所識別方法を提供することにある。
【0010】
【課題を解決するための手段】
本発明の請求項1記載の住所認識システムは、単語単位で認識された誤りを含む可能性のある一連の住所単語を入力し、あらかじめ正しい住所を登録した住所辞書と照合し、最良の尤度を示す住所を認識結果として出力する住所認識システムにおいて、前記入力された一連の住所単語に対応して前記住所辞書から複数の類似住所を住所候補として探し出すとともに、各住所候補における住所単語の欠落が生じた部分についての情報として欠落発生位置を含む欠落住所単語情報を生成し、前記各欠落住所単語情報に含まれる欠落発生位置に基づいて、各住所候補が住所を一意に決定するための特徴となる住所単語を有するか否かを判断し、前記特徴となる住所単語を有しないと判断した住所候補に対し出力抑制情報を付与し、前記出力抑制情報の付与された住所候補を認識結果として出力させない手段を有する。
【0011】
本発明の請求項2記載の住所認識システムは、請求項1記載の住所認識システムにおいて、与えられた住所単語がどの住所の何単語中の何単語目に存在するといった情報を有する住所辞書と、入力された住所単語から前記住所辞書を用いて複数の住所候補を選択し、出力抑制情報の付与されていない住所候補のうち最良の尤度を示す住所を認識結果として出力する住所作成手段と、前記住所作成手段で選択された複数の住所候補から類似住所を探し出すとともに、各住所候補における住所単語の欠落が生じた部分についての情報として欠落発生位置を含む欠落住所単語情報を生成し、前記各欠落住所単語情報に含まれる欠落発生位置に基づいて、各住所候補が住所を一意に決定するための特徴となる住所単語を有するか否かを判断し、前記特徴となる住所単語を有しないと判断した住所候補に対し前記出力抑制情報を付与する住所識別手段とを有する。
【0012】
本発明の請求項3記載の住所認識システムは、請求項2記載の住所認識システムにおいて、前記住所識別手段が、前記住所作成手段で得られた住所候補に対し、住所単語の欠落が生じた部分についての開始位置、終了位置、長さ、住所情報の各情報を作成し、前記開始位置をキーとして並べ替えを行い、開始位置及び終了位置が同一な住所単語欠落住所単語情報を1つのグループとし、グループ化された欠落住所単語情報全てに対して認識誤り識別処理を行い、誤りがあると判定した住所候補に対し前記出力抑制情報を付与する構成を有する。
【0013】
本発明の請求項4記載の住所認識システムは、請求項3記載の住所認識システムにおいて、前記住所識別手段が前記認識誤り識別処理を行う際、グループ化された欠落住所単語情報の単語数に違いが生じた場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の前方で生じた欠落住所単語情報の欠落住所単語終了位置がグループ化された欠落住所単語情報の同様の欠落住所単語終了位置よりも後ろに存在した場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の後方で生じた欠落住所単語情報の欠落住所単語開始位置がグループ化された欠落住所単語情報の同様の欠落住所単語開始位置よりも前に存在した場合、その住所候補に前記出力抑制情報を付与する構成を有する。
【0014】
本発明の住所識別方法は、単語単位で認識された誤りを含む可能性のある一連の住所単語を入力し、あらかじめ正しい住所を登録した住所辞書と照合し、最良の尤度を示す住所を認識結果として出力する住所認識システムの住所識別方法において、前記入力された一連の住所単語に対応して前記住所辞書から複数の類似住所を住所候補として探し出し、前記住所候補に対し、住所単語の欠落が生じた部分についての開始位置、終了位置、長さ、住所情報の各情報を作成し、これら住所単語欠落住所単語情報の開始位置をキーとして並べ替えを行い、開始位置及び終了位置が同一な住所単語欠落住所単語情報を探索しそれらを1つのグループとし、グループ化された欠落住所単語情報全てに対して、住所を一意に決定するための特徴となる住所単語の認識誤り識別処理を行い、誤りがあると判定した住所候補に対し出力抑制情報を付与し、前記出力抑制情報の付与されていない住所候補のうち最良の尤度を示す住所を認識結果として出力する工程を有する。
【0015】
本発明の請求項6記載の住所識別方法は、請求項5記載の住所識別方法において、前記認識誤り識別処理を行う際、グループ化された欠落住所単語情報の単語数に違いが生じた場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の前方で生じた欠落住所単語情報の欠落住所単語終了位置がグループ化された欠落住所単語情報の同様の欠落住所単語終了位置よりも後ろに存在した場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の後方で生じた欠落住所単語情報の欠落住所単語開始位置がグループ化された欠落住所単語情報の同様の欠落住所単語開始位置よりも前に存在した場合、その住所候補に前記出力抑制情報を付与する工程を有する。
【0016】
【発明の実施の形態】
まず本発明の概要を説明する。本発明は、複数の領域で認識された住所単語から住所を認識する際、類似住所への誤認識を低減できる構成を提供する。
【0017】
住所認識システムの入力データとして、単語矩形ごとに認識された住所単語が入力される。住所作成手段では、入力データの住所単語列を最適な住所として認識する。しかしながら、入力データで住所単語が適切でない場合、住所作成手段では住所単語の欠落が生じたまま住所作成される。このような場合、住所の一部が同一または類似する住所(“ANTONIO ALVES”と“ANTONIO DOS NABCO”など)への認識誤りのおそれがある。
【0018】
このような、類似する住所への認識誤りが発生する際、住所作成手段で欠落した住所単語は、正解の住所を一意に決定するための特徴となる住所単語(“ANTONIO ALVES”の“ ALVES”、 “ANTONIO DOS NABCO”の“DOS NABCO”)である。
【0019】
そこで、住所識別手段では、この特徴単語欠落の有無を判断することにより、住所認識結果へ出力可能な住所を住所作成手段へ通知する。このようにして、認識誤りの発生し易い住所の一部が同一または類似する住所の認識誤りの低減を可能にする。
【0020】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0021】
図1は本発明の一実施の形態のシステム構成図である。図1において本例の住所認識システムは、既に住所単語認識された入力データ1と、住所認識装置2と、住所認識結果3とから構成されている。住所認識装置2は、住所作成手段21と、住所識別手段22と、住所辞書23とを含み、情報(データ)の処理、記憶機能を有する。
【0022】
入力データ1は、郵便物の宛先住所(欧文系住所)などのような、複数の単語で構成された住所情報の画像等から、単語矩形ごとに読み取られ認識された住所単語である。
【0023】
住所作成手段21は、入力された住所単語から住所辞書23を用いて住所を作成する(複数の住所候補を選択可能)。住所辞書23には、与えられた住所単語がどの住所の何単語中の何単語目に存在するといった情報を有する。
【0024】
住所識別手段22は、住所作成手段21で選択された複数の住所候補から類似住所を探し出し、各住所を一意に決定するための特徴となる住所単語を有するか否かを判断し、住所認識結果3への出力を抑制するための情報を住所作成手段21に通知する。
【0025】
次に、図1と共に、動作フローを示す図2、図3と、画像情報を示す図5とを参照して、本発明の動作について詳細に説明する。
【0026】
まず、図5の画像から、単語矩形を切り出し、それぞれの単語矩形に対する住所単語認識結果がそれぞれ“ANTONIO”、“ALVES”、“DOS”、“SANTOS”となった場合、これらは図1の入力データ1となる。なお、各単語矩形での住所単語認識結果は一意である必要はなく、複数候補存在する場合でもかまわない。また、それぞれの住所単語認識結果には「らしさ」の尺度として認識尤度が付与される。
【0027】
住所作成手段21では、住所辞書23に登録されている住所と整合が取れた入力住所単語の組み合わせから住所候補が作成される。また、住所作成手段21で作成された候補についても組み合わせた住所単語の単語認識尤度から住所の認識尤度を求めることができる。この認識尤度が最良のものを住所認識結果3へ出力しようとする(最尤推定法)。
【0028】
しかしながら従来の技術欄で説明したように、最良の尤度を持つ住所候補が必ずしも正解とは限らない。なぜなら、入力データ1から出力される住所単語が正しく読み取れない場合または、読み取り不能となった場合には、正解となる住所に住所単語の欠落が生じる。そのため、正解住所の一部と同一または類似した住所が最良の住所尤度となる場合があるためである。例えば、“ANTONIO ALVES”と記載された入力データ1の住所単語認識結果が“ANTONIO”、“A???S”となり、住所辞書23に登録されている住所が“ANTONIO ALVES”と“ANTONIO”であった場合、“ANTONIO ALVES”の“ALVES”が非常に悪い尤度の住所単語となるため、“ANTONIO ALVES”よりも“ANTONIO”の方が最尤住所となり、住所認識結果3へ出力される。
【0029】
本発明では、この従来技術の問題を解決するため、住所識別手段22で図2の処理フローを用い、認識誤り恐れのある住所へ出力抑制情報(フラグ)を付与し、住所作成手段21が出力抑制情報の付与された住所を認識結果として出力しないことを特徴としている。
【0030】
図2において、ステップA1では、住所作成手段21で得られた住所候補に対し、住所単語の欠落が生じた部分についての情報を作成する。作成する情報の種類は、開始位置、終了位置、長さ、住所情報である。開始位置は、欠落住所単語が発生した開始位置とし、終了位置は欠落住所単語が発生した終了位置とし、長さは欠落住所単語長とし、住所情報はそれら欠落住所単語が発生した住所を表すものである。さらに、各住所候補の先頭または末尾に欠落住所単語が存在しない場合にも欠落住所単語長が0の情報を作成するものとする。
【0031】
ステップA2では、これら住所単語欠落住所単語情報の開始位置をキーとして並べ替えを行う。
【0032】
ステップA3では、開始位置及び終了位置が同一な住所単語欠落住所単語情報を探索しそれらを1つのグループとする。
【0033】
ステップA4では、同一位置欠落住所単語情報が複数以上存在する場合続いて処理を行い、単一のみの場合ステップA3へ戻り、次の同一位置欠落住所単語情報の探索に移る。
【0034】
ステップA5では、ここでグループ化された欠落住所単語情報全てに対して認識誤り識別処理を行う。処理終了後には再度ステップA3へ戻り、次の同一位置欠落住所単語情報の探索に移る。
【0035】
図3において、図2のステップA5の詳細について説明する。
【0036】
ステップB1では、グループ化された欠落住所単語情報の単語数に違いが生じた場合、その住所には出力抑制情報が付与され(ステップB5)、次の欠落住所単語情報のチェックに移る。欠落住所単語情報の単語数に違いがない場合、ステップB2へ移る。
【0037】
ステップB2では、現在の欠落住所単語情報の前方で生じた欠落住所単語情報の欠落住所単語終了位置がグループ化された欠落住所単語情報の同様の欠落住所単語終了位置よりも後ろに存在した場合、その住所には出力抑制情報が付与され(ステップB5)、次の欠落住所単語情報のチェックに移る。なお、前方で生じた欠落住所単語情報が存在しない場合は、ステップB3へ移る。
【0038】
ステップB3では、現在の欠落住所単語情報の後方で生じた欠落住所単語情報の欠落住所単語開始位置がグループ化された欠落住所単語情報の同様の欠落住所単語開始位置よりも前に存在した場合、その住所には出力抑制情報が付与され(ステップB5)、次の欠落住所単語情報のチェックに移る。なお、後方で生じた欠落住所単語情報が存在しない場合も同様に次の欠落住所単語情報のチェックに移る。
【0039】
次に、図4に示すような具体例を用いて説明する。本例は、入力データ1作成時に、住所単語の完全な読取り誤り(誤認識)がある場合の例である。
【0040】
例えば、住所辞書23に登録されている住所が“ANTONIO”、“ANTONIO ALVES”、“ANTONIO ALVES DE SOUZA”である場合に、入力データ1が図4の分図(A)に示すような“ANTONIO”、“ALVES”、“DOS”、“SANTOS”である場合の動作を説明する。この場合、与えられた入力データからは登録されている住所との一致が見られないので、住所認識結果3へ誤出力してはならない。
【0041】
本例の場合、ステップA1、A2及びA3終了後の欠落住所単語情報の状態は、それぞれ図4の分図(B)、(C)に示すようになる。以下に、各ステップにおける動作を詳細に説明する。
【0042】
まずステップA1により、各住所に対し住所単語の欠落情報を作成する。“ANTONIO”では、住所単語の欠落はないが、住所の先頭および末尾に関する欠落単語長0の情報を作成するので、住所単語欠落情報を[シリアル番号、開始位置、終了位置、長さ(単語長)、単語情報、住所情報]として表した場合(図4中、シリアル番号は表示していない)、それぞれの情報は[1、0、0、0、なし、ANTONIO]、[2、2、4、0、なし、ANTONIO]となる。“ANTONIO ALVES”では、“ANTONIO”同様、住所単語の欠落がないので、住所の先頭および末尾に関する欠落単語長0の情報を作成し[3、0、0、0、なし、ANTONIO ALVES]、[4、3、4、0、なし、ANTONIO ALVES]となる。“ANTONIO ALVES DESOUZA”では、住所の先頭に関する欠落単語長0の情報[5、0、0、0、なし、ANTONIO ALVES DE SOUZA]を作成するが、住所の末尾に関する欠落単語“DE SOUZA”が存在するので、住所単語欠落情報は[6、3、4、2、DE SOUZA、ANTONIO ALVES DE
SOUZA]となる(図4の分図(B))。
【0043】
ステップA2により、住所単語欠落情報の開始位置をキーにして並べ替えるので、[1、0、0、0、なし、ANTONIO]、[3、0、0、0、なし、ANTONIO ALVES]、[5、0、0、0、なし、ANTONIO ALVES DE SOUZA]、[2、2、4、0、なし、ANTONIO]、[4、3、4、0、なし、ANTONIO ALVES]、[6、3、4、2、DE SOUZA、ANTONIO ALVES DE SOUZA]の順番となる。
【0044】
ステップA3により、シリアル番号1と3と5が開始位置および終了位置が同一となるのでグループ化され、これをグループ1とする。シリアル番号2と同一の開始位置および終了位置を持つ情報は存在しないのでシリアル番号2をグループ2とする。残りのシリアル番号4と6は開始位置および終了位置は全て同一となるのでグループ化されこれをグループ3とする(図4の分図(C))。
【0045】
次にステップA4において、欠落住所単語情報開始位置0(グループ1)の情報数が3であることから、ステップA4の判定結果はYesとなり、認識誤り識別処理ステップA5(B1〜B5)に移る。
【0046】
このグループ1での欠落住所単語情報単語長は全て0であることからステップB1はNoとなる。また、ここで出現した欠落住所単語情報は住所先頭の欠落住所単語情報であることから、ステップB2もNoとなる。しかしながら、ステップB3では“ANTONIO”のみ後方の欠落住所単語情報開始位置が2であることから、他の欠落住所単語情報開始位置3よりも前に存在する。このことから、欠落住所単語情報開始位置2の“ANTONIO”は特徴単語“ALVES”を唯一読み取っていない住所であり、出力抑制情報が付与される。
【0047】
次の欠落住所単語情報開始位置2(グループ2)の情報数は1であることから、ステップA4はNoとなり、次の欠落住所単語情報へ移る。
【0048】
次の欠落住所単語情報開始位置3(グループ3)の情報数は2であることから、ステップA4はYesとなり、ステップA5(B1〜B5)に移る。
【0049】
このグループ3での欠落住所単語情報単語長は“ANTONIO ALVES”が0で“ANTONIO ALVES DE SOUZA”が2であることから、ステップB1はYesとなり、これらの住所全てに出力抑制情報が付与される。
【0050】
以上説明したように、与えられた入力データ1に対する全ての住所候補に誤りがあるとして出力抑制情報が付与される。住所作成手段21は、出力抑制情報が付与された住所を出力しないため、住所認識結果3へは一切の住所認識結果、すなわち誤った住所認識結果は出力されないことになる。
【0051】
なお、郵便物の住所を自動的に読取り宛先別に仕分けるシステムなどに本発明を適用した場合、上述したように住所認識結果が得られないときは、該当する郵便物をリジェクトし、人がその画像を見ながら正しい住所を判読するように指示することができる。
【0052】
次に、入力データ1作成時の住所単語の読取り(認識)に完全な誤りはないが、認識尤度が悪い場合、誤った住所認識結果の出力を抑制する例を説明する。
【0053】
入力データ1の住所単語認識結果が“ANTONIO”、“A???S”であり、“A???S”の認識結果は“ALVES”ではあるが非常に悪い尤度であったとする。これにより入力単語1が“ANTONIO”、入力単語2が“ALVES”となる。また、住所辞書23に登録されている住所は“ANTONIOALVES”と“ANTONIO”のみとする。このような場合、従来技術のように単に認識尤度だけをみると、“ANTONIO”が最尤住所となり認識誤りを起こしてしまう。以下、本発明における認識誤り防止処理を説明する。
【0054】
住所単語欠落情報を[シリアル番号、開始位置、終了位置、長さ、単語情報、住所情報]として表した場合、ステップA1での“ANTONIO”の住所欠落情報は[1、0、0、0、なし、ANTONIO]、[2、、2、0、なし、ANTONIO]となり、“ANTONIO ALVES”の住所欠落情報は[3、0、0、0、なし、ANTONIO ALVES]、[4、、0、なし、ANTONIO ALVES]となる。
【0055】
ステップA2の並べ替え後は、[1、0、0、0、なし、ANTONIO]、[3、0、0、0、なし、ANTONIO ALVES]、[2、、2、0、なし、ANTONIO]、[4、、0、なし、ANTONIO ALVES]となる。
【0056】
ステップA3でのグループ化では、グループ1にシリアル番号1と3が、グループ2にシリアル番号2が、グループ3にシリアル番号4がそれぞれグループ化される。
【0057】
ステップA4では、グループ2とグループ3は単一情報なのでステップA5の処理は行わないが、グループ1は2つの住所単語欠落情報があるため、ステップA5の処理を行う。
【0058】
グループ1に対して、ステップB1では単語長の違いがないので、Noとなる。
【0059】
ステップB2では、欠落単語情報の前方、すなわちグループ1の場合、開始位置0より以前の情報ということになるが、当然情報は存在しないので、Noとなる。
【0060】
ステップB3では、欠落単語情報の後方、すなわちグループ1の場合、終了位置0より以降の情報ということになり、シリアル番号1と3のそれぞれの後方の住所欠落情報は2と4となる。シリアル番号2と4のそれぞれの欠落単語情報の開始位置は開始位置と開始位置と異なる。ここでは、欠落住所単語開始位置よりも前に存在した場合、その住所には出力抑制情報が付与されるので、シリアル番号2の住所すなわち“ANTONIO”に出力抑制情報が付与される。
【0061】
このため、“ANTONIO ALVES”が認識結果として出力されるようになる。すなわち、“ALVES”の認識尤度が悪くても、正しい住所認識結果が得られる。
【0062】
次に、入力データ1作成時の住所単語の読取りが完全に正常に行われ、認識尤度も悪くない場合の動作について説明する。
【0063】
入力データ1の入力単語がそれぞれ、“ANTONIO”、“ALVES”、“DE”、“SOUZA”だとする。これから得られる住所辞書は、“ANTONIO”、“ANTONIO ALVES”、“ANTONIO ALVES DE SOUZA”の3つとする。一般的に考えても出力は、“ANTONIOALVES DE SOUZA”となるが、本発明を用いることで、“ANTONIO ALVES DE SOUZA”が正解として出力されるだけでなく、他の2つの住所に出力抑制情報が付与され、出力されなくなる。
【0064】
ステップA1での、“ANTONIO”、“ANTONIO ALVES”に関する住所単語欠落情報の付与は上述した他の例と同様である。それぞれ、“ANTONIO”は、[1、0、0、0、なし、ANTONIO]、[2、2、5、0、なし、ANTONIO]で、“ANTONIO ALVES”は、[3、0、0、0、なし、ANTONIO ALVES]、[4、3、5、0、なし、ANTONIO ALVES]となる。
【0065】
この場合の“ANTONIO ALVES DE SOUZA”では、住所単語の欠落はないが、住所の先頭および末尾に関する欠落単語長0の情報を作成するので、それぞれの情報は[5、0、0、0、なし、ANTONIO ALVES DE SOUZA]、[6、5、5、0、なし、ANTONIO ALVES DE SOUZA]となる。
【0066】
ステップA2により、住所単語欠落情報の開始位置をキーにして並べ替えるので、[1、0、0、0、なし、ANTONIO]、[3、0、0、0、なし、ANTONIO ALVES]、[5、0、0、0、なし、ANTONIO ALVES DE SOUZA]、[2、2、5、0、なし、ANTONIO][4、3、5、0、なし、ANTONIO ALVES]、[6、5、5、0、なし、ANTONIO ALVES DE SOUZA]の順番となる。
【0067】
ステップA3により、シリアル番号1と3と5が、開始位置および終了位置が同一となるのでグループ化され、これをグループ1とする。残りのシリアル番号2と4と6は開始位置および終了位置が全て異なるので、それぞれグループ2、グループ3、グループ4とする。
【0068】
グループ2と3と4に関しては、住所単語欠落情報が単一なので、以降の処理は行わない。
【0069】
グループ1に関しては、ステップA5の処理を行う。このグループでは欠落単語長が全て0なので、ステップB1はNoとなる。また、このグループでは住所単語欠落情報開始位置が0なので、ステップB2はNoとなる。ステップB3では、それぞれの住所単語欠落情報の後方に対応するシリアル番号はそれぞれ、シリアル番号1は2、シリアル番号3は4、シリアル番号5は6であり、住所単語欠落情報開始位置はそれぞれ、シリアル番号2は開始位置2、シリアル番号4は開始位置3、シリアル番号6は開始位置5となる。よって、シリアル番号6以外のシリアル番号2の住所“ANTONIO”と、シリアル番号4の住所“ANTONIO ALVES”には出力抑制情報が付与される。
【0070】
このことから、正解住所“ANTONIO ALVES DE SOUZA”のみが住所認識結果として出力され、それ以外の住所に関しては、住所認識尤度とは無関係に出力抑制情報により住所認識結果として出力されなくなる。
【0071】
次に、本発明の他の実施の形態について説明する。上述の実施形態例では住所単語を用いた欧文系住所対する住所識別を行ったが、住所単語の部分を住所文字に置き換えた場合でも同様の動作を行い、同様の効果が得られる。
【0072】
【発明の効果】
本発明によれば、入力データの住所単語読取結果の有無により生じる、正解住所の一部と同一または類似した住所の住所単語長の違いによる住所認識尤度の逆転現象(住所認識誤り)に左右されることなく、出力対象住所を一意に決定するための特徴単語読み取りの有無を、類似住所間で生じる欠落住所単語発生位置から検索するので、入力データの住所単語読取結果の有無に左右されることなく、住所辞書に登録のある類似住所全てに対し一律の条件での認識誤り識別効果が発揮できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示すシステム構成図である。
【図2】本発明の動作を示す流れ図である。
【図3】図2に示す認識誤り識別処理の詳細動作を示す流れ図である。
【図4】本発明の住所識別手段での情報処理の具体例を示す図である。
【図5】入力データを作成するための住所情報の画像を示す図である。
【図6】従来技術を示すシステム構成図である。
【符号の説明】
1 入力データ
2 住所認識装置
3 住所認識結果
21 住所作成手段
22 住所識別手段
23 住所辞書

Claims (6)

  1. 単語単位で認識された誤りを含む可能性のある一連の住所単語を入力し、あらかじめ正しい住所を登録した住所辞書と照合し、最良の尤度を示す住所を認識結果として出力する住所認識システムにおいて、
    前記入力された一連の住所単語に対応して前記住所辞書から複数の類似住所を住所候補として探し出すとともに、各住所候補における住所単語の欠落が生じた部分についての情報として欠落発生位置を含む欠落住所単語情報を生成し、前記各欠落住所単語情報に含まれる欠落発生位置に基づいて、各住所候補が住所を一意に決定するための特徴となる住所単語を有するか否かを判断し、前記特徴となる住所単語を有しないと判断した住所候補に対し出力抑制情報を付与し、前記出力抑制情報の付与された住所候補を認識結果として出力させない手段を有することを特徴とする住所認識システム。
  2. 与えられた住所単語がどの住所の何単語中の何単語目に存在するといった情報を有する住所辞書と、
    入力された住所単語から前記住所辞書を用いて複数の住所候補を選択し、出力抑制情報の付与されていない住所候補のうち最良の尤度を示す住所を認識結果として出力する住所作成手段と、
    前記住所作成手段で選択された複数の住所候補から類似住所を探し出すとともに、各住所候補における住所単語の欠落が生じた部分についての情報として欠落発生位置を含む欠落住所単語情報を生成し、前記各欠落住所単語情報に含まれる欠落発生位置に基づいて、各住所候補が住所を一意に決定するための特徴となる住所単語を有するか否かを判断し、前記特徴となる住所単語を有しないと判断した住所候補に対し前記出力抑制情報を付与する住所識別手段とを有することを特徴とする請求項1記載の住所認識システム。
  3. 前記住所識別手段が、前記住所作成手段で得られた住所候補に対し、住所単語の欠落が生じた部分についての開始位置、終了位置、長さ、住所情報の各情報を作成し、前記開始位置をキーとして並べ替えを行い、開始位置及び終了位置が同一な住所単語欠落住所単語情報を1つのグループとし、グループ化された欠落住所単語情報全てに対して認識誤り識別処理を行い、誤りがあると判定した住所候補に対し前記出力抑制情報を付与することを特徴とする請求項2記載の住所認識システム。
  4. 前記住所識別手段が前記認識誤り識別処理を行う際、グループ化された欠落住所単語情報の単語数に違いが生じた場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の前方で生じた欠落住所単語情報の欠落住所単語終了位置がグループ化された欠落住所単語情報の同様の欠落住所単語終了位置よりも後ろに存在した場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の後方で生じた欠落住所単語情報の欠落住所単語開始位置がグループ化された欠落住所単語情報の同様の欠落住所単語開始位置よりも前に存在した場合、その住所候補に前記出力抑制情報を付与することを特徴とする請求項3記載の住所認識システム。
  5. 単語単位で認識された誤りを含む可能性のある一連の住所単語を入力し、あらかじめ正しい住所を登録した住所辞書と照合し、最良の尤度を示す住所を認識結果として出力する住所認識システムの住所識別方法において、
    前記入力された一連の住所単語に対応して前記住所辞書から複数の類似住所を住所候補として探し出し、前記住所候補に対し、住所単語の欠落が生じた部分についての開始位置、終了位置、長さ、住所情報の各情報を作成し、
    これら住所単語欠落住所単語情報の開始位置をキーとして並べ替えを行い、開始位置及び終了位置が同一な住所単語欠落住所単語情報を探索しそれらを1つのグループとし
    グループ化された欠落住所単語情報全てに対して、住所を一意に決定するための特徴となる住所単語の認識誤り識別処理を行い、誤りがあると判定した住所候補に対し出力抑制情報を付与し、
    前記出力抑制情報の付与されていない住所候補のうち最良の尤度を示す住所を認識結果として出力することを特徴とする住所識別方法。
  6. 前記認識誤り識別処理を行う際、グループ化された欠落住所単語情報の単語数に違いが生じた場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の前方で生じた欠落住所単語情報の欠落住所単語終了位置がグループ化された欠落住所単語情報の同様の欠落住所単語終了位置よりも後ろに存在した場合、その住所候補に前記出力抑制情報を付与し、現在の欠落住所単語情報の後方で生じた欠落住所単語情報の欠落住所単語開始位置がグループ化された欠落住所単語情報の同様の欠落住所単語開始位置よりも前に存在した場合、その住所候補に前記出力抑制情報を付与することを特徴とする請求項5記載の住所識別方法。
JP2001128298A 2001-04-25 2001-04-25 住所認識システム、及びその住所識別方法 Expired - Lifetime JP3788262B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001128298A JP3788262B2 (ja) 2001-04-25 2001-04-25 住所認識システム、及びその住所識別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001128298A JP3788262B2 (ja) 2001-04-25 2001-04-25 住所認識システム、及びその住所識別方法

Publications (2)

Publication Number Publication Date
JP2002324212A JP2002324212A (ja) 2002-11-08
JP3788262B2 true JP3788262B2 (ja) 2006-06-21

Family

ID=18977018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001128298A Expired - Lifetime JP3788262B2 (ja) 2001-04-25 2001-04-25 住所認識システム、及びその住所識別方法

Country Status (1)

Country Link
JP (1) JP3788262B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102622577B1 (ko) * 2018-12-27 2024-01-09 현대오토에버 주식회사 주소데이터 보정 장치 및 방법

Also Published As

Publication number Publication date
JP2002324212A (ja) 2002-11-08

Similar Documents

Publication Publication Date Title
JP2734386B2 (ja) 文字列読み取り装置
KR100324847B1 (ko) 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법
WO2001067378A1 (en) System and method for creating a searchable word index of a scanned document including multiple interpretations of a word at a given document location
JPS6262387B2 (ja)
JP2001052116A (ja) パターン列マッチング装置とパターン列マッチング方法と文字列マッチング装置と文字列マッチング方法
JPH10230226A (ja) 住所読み取り装置
JP3599180B2 (ja) 検索方法、検索装置および記録媒体
JP3788262B2 (ja) 住所認識システム、及びその住所識別方法
JPS6262388B2 (ja)
JPH1078997A (ja) 文字認識装置及びその方法並びにその方法を記録した記録媒体
JP3188154B2 (ja) 文字認識処理方法
JPH11296619A (ja) 文字認識装置
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH09245120A (ja) 文字切出し方法
JP2000207491A (ja) 文字列読取方法及び装置
JP2918380B2 (ja) 文字認識結果の後処理方法
JPS646514B2 (ja)
JPH07116606A (ja) 郵便物あて名認識装置及びあて名認識方法
JPH08180142A (ja) 住所読み取り装置
JP2947832B2 (ja) 単語照合方法
JPH1185909A (ja) 住所認識方法
JP2001043318A (ja) 住所読取装置
JPH10174935A (ja) 宛名読取装置および文字情報読取装置
JPH08243506A (ja) 住所読取り装置及び方法
JP2000288478A (ja) 宛先特定装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050310

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050603

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060320

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 3788262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100407

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110407

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120407

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130407

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140407

Year of fee payment: 8

EXPY Cancellation because of completion of term