JP2001283156A - 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2001283156A
JP2001283156A JP2000099544A JP2000099544A JP2001283156A JP 2001283156 A JP2001283156 A JP 2001283156A JP 2000099544 A JP2000099544 A JP 2000099544A JP 2000099544 A JP2000099544 A JP 2000099544A JP 2001283156 A JP2001283156 A JP 2001283156A
Authority
JP
Japan
Prior art keywords
address
candidate
character
hierarchy
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000099544A
Other languages
English (en)
Inventor
Yoshihiro Irie
佳洋 入江
Masatoshi Onishi
昌利 大西
Hiroshi Kameyama
博史 亀山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glory Ltd
Original Assignee
Glory Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glory Ltd filed Critical Glory Ltd
Priority to JP2000099544A priority Critical patent/JP2001283156A/ja
Publication of JP2001283156A publication Critical patent/JP2001283156A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Sorting Of Articles (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文字の記入枠などがない帳票などに記入され
た住所を認識する際に、住所表記上の階層の一部が省略
されていたとしても、その住所を正しく認識すること。 【解決手段】 文字切り出し部101が入力画像から住
所を形成する文字列の一部をなす文字候補セグメントを
切り出し、文字認識部103が各文字候補セグメントに
対応する複数の候補文字を検出し、住所検索部105が
候補文字に基づいて住所を形成する各階層に該当し得る
候補文字列を抽出し、抽出した各階層の候補文字列を結
合した複数の住所候補を検索し、詳細判定部106が複
数の住所候補の中から類似度が最も高い住所候補を検出
結果として出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文字の記入枠が
ない帳票などに記入された住所の画像を光学的に読み取
り、該読み取った画像に含まれる住所を示す文字列を住
所の階層構造を利用して認識する住所認識装置、住所認
識方法、およびその方法をコンピュータに実行させるプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体に関し、特に、住所表記上の階層の一部が省略されて
いたとしても、その住所を正しく認識することができる
住所認識装置、住所認識方法、および記録媒体に関す
る。
【0002】
【従来の技術】従来、郵便物や帳票などに書き込まれた
住所を認識する場合には、文字の切り出し誤りや文字の
認識誤りが生ずるため、住所の単語辞書を用いた知識処
理をおこなって、かかる誤りを補正することが多い。
【0003】たとえば、特開平8−167007号公報
(従来技術1)には、単語内および上下の階層間の文字
の接続関係から単語テーブルおよび文字インデックスを
作成しておき、個別文字認識の結果について文字インデ
ックスから連結可能な文字を連結し、連結コスト(動的
計画法による最良の組み合わせでの累積コスト値)が最
良となる連結文字連鎖を認識結果として出力するよう構
成した記号列読み取り装置が開示されている。
【0004】また、特開平7−93467号公報(従来
技術2)には、個別文字認識結果の初めの数文字の組合
せに対して、対象を都道府県に絞って該当する都道府県
名を検索し、該当する都道府県が見つかれば、対象をそ
の下位階層に限定して検索する処理を繰り返すよう構成
した住所読取システムが開示されている。
【0005】
【発明が解決しようとする課題】しかしながら、かかる
従来技術1および2は、都道府県名、市名、町名および
番地などからなる正式な住所が記載された場合を前提と
するため、都道府県名や市名などが省略された場合に対
応できないという問題がある。
【0006】すなわち、上記従来技術1では、階層間の
文字の接続関係を文字インデックスに保持することとし
ているので、階層が省略されてしまうと、その階層間の
文字の接続関係は存在しないことになり、結果的に文字
を連結することができない。なお、最上位および最下位
の階層の省略表記には連結コストを補正することで対応
することができるが、市名などの途中の階層の省略はな
んら考慮されていない。
【0007】ここで、この従来技術1において、省略さ
れた階層の上下階層間の文字の接続関係についても文字
インデックスに保持することとすれば、途中の階層の省
略に対応することができる。しかしながら、この従来技
術1では、文字インデックスが、認識対象文字数、全階
層単語数、単語長(文字数)の積の規模になるので、そ
の組み合わせの多さゆえに必要なメモリ容量が膨大とな
ってしまい、現実的でない。
【0008】一方、上記従来技術2では、上位階層から
順に処理することを前提としているので、階層の省略に
対応する場合には、省略された階層のすべての下位階層
を認識する必要がある。
【0009】しかしながら、この従来技術2のものは、
下位階層を限定することで文字認識対象を絞って認識精
度を向上させているため、すべての下位階層を対象とし
てしまうと文字認識対象が増加するため、単語認識精度
の低下を招く結果となる。また、上位階層の認識結果が
間違ってしまうと、その階層以下の認識ができなくな
る。
【0010】なお、住所表記の一部の省略に対応する技
術として、特開平5−62022号公報に開示される光
学式文字読取装置における住所単語照合方法が知られて
いるが、この従来技術は、文字の記入枠や記入制限を用
いて、階層ごとの単語照合を階層をずらしながらおこな
うものであるので、記入制限のない住所表記の場合にま
で適用することはできない。
【0011】この発明は、上述した従来技術による問題
点を解消するためになされたものであり、文字の記入枠
などがない帳票などに記入された住所を認識する際に、
住所表記上の階層の一部が省略されていたとしても、そ
の住所を正しく認識することができる住所認識装置、住
所認識方法、およびその方法をコンピュータに実行させ
るプログラムを記録したコンピュータ読み取り可能な記
録媒体を提供することを目的とする。
【0012】
【課題を解決するための手段】上述した課題を解決し、
目的を達成するため、請求項1の発明に係る住所認識装
置は、文字の記入枠がない帳票などに記入された住所の
画像を光学的に読み取り、該読み取った画像に含まれる
住所を示す文字列を住所の階層構造を利用して認識する
住所認識装置において、前記画像から前記住所を形成す
る文字列の一部をなす文字候補セグメントを切り出す切
出手段と、前記切出手段により切り出された各文字候補
セグメントに対応する複数の候補文字を出力する文字認
識手段と、前記文字認識手段により出力された候補文字
に基づいて前記住所を形成する各階層に該当し得る候補
文字列を抽出し、抽出した各階層の候補文字列を結合し
た複数の住所候補を検索する検索手段と、前記検索手段
により検索された複数の住所候補の中から類似度が最も
高い住所候補を検出結果として出力する出力手段と、を
備えたことを特徴とする。
【0013】また、請求項2の発明に係る住所認識装置
は、請求項1の発明において、前記検索手段は、2分木
の一方に同一階層の住所要素を順次配設し、他方に下位
階層の住所要素を配設した階層構造を有する住所辞書を
備え、前記住所辞書を辿りつつ前記住所を形成する各階
層に該当し得る候補文字列を抽出することを特徴とす
る。
【0014】また、請求項3の発明に係る住所認識装置
は、請求項1または2の発明において、前記検索手段
は、各階層に所在する住所要素を形成する文字の多くが
前記候補文字と一致する場合に、該住所要素を前記候補
文字列とすることを特徴とする。
【0015】また、請求項4の発明に係る住所認識装置
は、請求項1、2または3の発明において、前記検索手
段は、前記候補文字と文字の多くが一致する住所要素が
所定の階層に存在しない場合には、該階層が省略されて
いるものとみなして各階層の候補文字列を結合すること
を特徴とする。
【0016】また、請求項5の発明に係る住所認識方法
は、文字の記入枠がない帳票などに記入された住所の画
像を光学的に読み取り、該読み取った画像に含まれる住
所を示す文字列を住所の階層構造を利用して認識する住
所認識方法において、前記画像から前記住所を形成する
文字列の一部をなす文字候補セグメントを切り出す切出
工程と、前記切出工程により切り出された各文字候補セ
グメントに対応する複数の候補文字を出力する文字認識
工程と、前記文字認識工程により出力された候補文字に
基づいて前記住所を形成する各階層に該当し得る候補文
字列を抽出し、抽出した各階層の候補文字列を結合した
複数の住所候補を検索する検索工程と、前記検索工程に
より検索された複数の住所候補の中から類似度が最も高
い住所候補を検出結果として出力する出力工程と、を含
んだことを特徴とする。
【0017】また、請求項6の発明に係る住所認識方法
は、請求項6の発明において、前記検索工程は、2分木
の一方に同一階層の住所要素を順次配設し、他方に下位
階層の住所要素を配設した階層構造を有する住所辞書を
辿りつつ前記住所を形成する各階層に該当し得る候補文
字列を抽出することを特徴とする。
【0018】また、請求項7の発明に係る住所認識方法
は、請求項5または6の発明において、前記検索工程
は、各階層に所在する住所要素を形成する文字の多くが
前記候補文字と一致する場合に、該住所要素を前記候補
文字列とすることを特徴とする。
【0019】また、請求項8の発明に係る住所認識方法
は、請求項5、6または7の発明において、前記検索工
程は、前記候補文字と文字の多くが一致する住所要素が
所定の階層に存在しない場合には、該階層が省略されて
いるものとみなして各階層の候補文字列を結合すること
を特徴とする。
【0020】また、請求項9の発明に係る記録媒体は、
請求項5〜8のいずれか一つに記載された方法をコンピ
ュータに実行させるプログラムを記録したことで、その
プログラムを機械読み取り可能となり、これによって、
請求項5〜8のいずれか一つの動作をコンピュータによ
って実現することができる。
【0021】
【発明の実施の形態】以下に添付図面を参照して、この
発明に係る住所認識装置、住所認識方法、およびその方
法をコンピュータに実行させるプログラムを記録したコ
ンピュータ読み取り可能な記録媒体の好適な実施の形態
を詳細に説明する。なお、本実施の形態では、文字の記
入枠などがない帳票に記入された住所を認識する場合を
示すこととする。
【0022】図1は、本実施の形態に係る住所認識装置
の構成を示す機能ブロック図である。同図に示す住所認
識装置10は、たとえば「兵庫県宍粟郡山崎町」が「兵
庫県山崎町」と記載された場合のように住所の一部が省
略記載されている場合であっても、該住所を精度良く認
識することができる住所認識装置である。
【0023】ここで、この住所認識装置10では、都道
府県名、郡名、町名のいずれの階層が省略記載されてい
る場合であっても住所を精度良く抽出できるようにして
おり、具体的には、各階層で認識結果を固定せずに可能
性がある階層をすべて残しておき、それらの階層から作
られる単語列を取り出し、取り出した単語列からもとの
画像に戻って、各候補セグメントごとに距離値と順位か
らスコアを算出し、その結果得点の高い単語列を出力し
て住所を特定するようにしている。
【0024】また、階層を残すか否かに際しては、個々
の文字候補セグメントに対して文字を認識してその結果
を全て求めておき、その後住所辞書104に基づいて住
所の単語がその中に入っているかどうかを検索し、可能
性のある階層をすべて残すこととしている。この際、上
位の階層での誤認識も考慮して一旦上位へ戻って再度認
識をおこなうことにより、高い認識率が得られるように
している。
【0025】図1に示すように、この住所認識装置10
は、画像入力部101と、文字切り出し部102と、文
字認識部103と、住所辞書104と、住所検索部10
5と、詳細判定部106とからなる。なお、この文字切
り出し部102は請求項1の切出手段に対応し、文字認
識部103は請求項1の文字認識手段に対応し、住所検
索部105は請求項1の検索手段に対応し、詳細判定部
106は請求項1の出力手段に対応する。
【0026】画像入力部101は、帳票に記入された住
所を光学的に読み取るスキャナなどで構成される画像の
入力デバイスであり、入力した画像データを文字切り出
し部102に出力する。
【0027】文字切り出し部102は、入力画像に含ま
れる住所の一部をなす文字候補セグメントを切り出す処
理部であり、切り出した文字候補セグメントを文字認識
部103に出力する。
【0028】文字認識部103は、文字切り出し部10
2から受け付けた文字候補セグメントごとに該文字候補
セグメントに近い複数の候補文字を抽出する処理部であ
り、たとえば、ユーザが「兵」と記載した場合であって
も、手書き文字の場合には、必ずしもこれを「兵」と認
識できるとは限らないので、「兵、交、宍、反、英、
点、臭、突、乗、灸」といった該文字セグメントに近い
候補文字を抽出している。なお、この文字認識部103
では、各文字セグメントごとに10個の候補文字を抽出
することとするが、この個数は任意である。
【0029】住所検索部105は、住所辞書104に基
づいて文字認識部103が認識した候補文字が存在する
住所を検索する処理部である。すなわち、この住所検索
部105では、住所辞書104に載っている全ての住所
を各階層毎に全部検索して、その中で可能性のある階層
(その階層の文字列の過半数が認識できた階層)を残す
処理をおこない、たとえば、「上手野」のうちの2文字
「手」と「野」が検出されたならば、この階層にはフラ
グを立てて残すことになる。
【0030】具体的には、文字認識部103の認識結果
の中から住所辞書104の最上位階層を構成する文字の
並びを検出し、検出された場合には、その階層の終了位
置から下位階層の並びを検出し、検出されない場合は、
上位階層と同じ位置から下位階層を検出する処理を階層
の末端まで繰り返して、検出された階層の単語列を候補
として選出することとなる。
【0031】詳細判定部106は、各住所候補ごとに各
文字に対応する文字候補セグメントを検出し、各セグメ
ントの文字認識結果から文字列全体の類似度を計算し、
類似度が最大となる候補文字列を認識結果として出力す
る処理部である。
【0032】具体的には、住所検索部105で検索され
たフラグの立っている階層(検出された階層)を検出
し、その階層の接続状況から有効なものを見つけだし、
もとの候補セグメントに戻って距離値・順位からスコア
を出して詳細判定をおこなうことになる。
【0033】上記構成を有する住所認識装置10を用い
ることにより、たとえば「兵庫県宍粟郡山崎町」が「兵
庫県山崎町」と記載された場合のように住所の一部が省
略記載されている場合であっても、該住所を精度良く認
識することができる。
【0034】次に、図1に示した住所認識装置10によ
る住所認識手順について説明する。図2は、図1に示し
た住所認識装置10による住所認識手順を示すフローチ
ャートである。なお、ここでは各文字候補セグメントご
とにたとえば10個の候補文字を抽出することとする。
【0035】同図に示すように、この住所認識装置10
では、まず最初に帳票に記入された住所の画像を画像入
力部101から読み込み(ステップS201)、読み込
んだ画像に含まれる住所の一部をなす各文字候補セグメ
ントを文字切り出し部102が切り出す(ステップS2
02)。
【0036】その後、文字認識部103が、各文字候補
セグメントごとに複数の文字認識結果を出力し(たとえ
ば10個)(ステップS203)、住所検索部105で
は、住所辞書104を辿りつつ住所を形成する各階層に
該当し得る候補文字列を抽出するとともに(ステップS
204)、該抽出した各階層の候補文字列を結合して複
数の住所候補を生成する(ステップS205)。
【0037】そして、詳細判定部106では、住所検索
部105で生成された各住所候補の中から類似度が最も
高い住所候補を求め、求めた住所候補を認識結果として
出力する(ステップS206)。
【0038】次に、図1に示した文字切り出し部102
による切り出し概念および文字候補セグメントについて
具体的に説明する。図3は、図1に示した文字切り出し
部102による切り出し概念および文字候補セグメント
を説明するための説明図である。なおここでは、「兵庫
県姫路市下手野」という手書き文字の画像から文字候補
セグメントを切り出す場合を示している。
【0039】同図に示すような入力画像がある場合に、
文字と文字の間隔や文字を形成する偏と旁の位置関係な
どから、本来住所を形成する「兵」、「庫」、「県」な
どの文字のみを切り出すのは容易ではない。このため、
この文字切り出し部102では、一つの文字をなす蓋然
性の高いセグメントを文字候補セグメントとしてもれな
く抽出することとしている。
【0040】このため、この文字切り出し部102が切
り出した文字候補セグメントの中には、「兵」、
「庫」、「県」、「姫」、「路」、「市」、「下」、
「手」、「野」以外に、「庫県」、「女」、「臣」など
も含まれることになる。
【0041】次に、図1に示した住所辞書104を用い
た住所検索部105による住所検索の概念について説明
する。図4は、図1に示した住所辞書104を用いた住
所検索部105による住所検索の概念を説明するための
説明図である。
【0042】同図に示すように、この住所辞書104
は、都道府県名(第1レベル)、市名(第2のレベ
ル)、町名(第3レベル)に各住所を階層化した辞書で
あり、具体的には、この階層を2分木で構成し、右へ右
へといくほど階層が下位レベルとなるようにしている。
【0043】そして、住所検索部105では、この住所
辞書104に基づいて住所の単語がその中に入っている
かどうかを検索して可能性のある階層をすべて残すわけ
であるが、この住所辞書104の分岐点では、右へ右へ
どんどん下位の階層へ進み、連続して2つの階層で候補
が見つからなかった場合には、その下位層は検索せず、
一つ戻ってその分岐点から左へ進み、その後右へ右へ進
む検索をおこなう。また、最終階層まで進んだ後は、一
つ戻ってその分岐点から左へ進み次の分岐点を右へ進む
検索をおこなう。
【0044】このようにして、住所検索部105は、住
所辞書104に載っている全ての住所を各階層ごとに全
部検索し、その中で可能性のある階層(その階層の文字
列の過半数が認識できた階層)を検索することになる。
【0045】次に、図1に示した住所検索部105の処
理手順について説明する。図5は、図1に示した住所検
索部105の処理手順を示すフローチャートである。同
図に示すように、この住所検索部105では、まず最初
に階層N=1とし、検出開始位置S0=1とし、検出終
了位置E0=1とする初期化処理をおこなった後に(ス
テップS501)、最上位階層である第1階層(都道府
県名)のポインタを指定する(ステップS502)。
【0046】その後、開始位置をEN-1としてN階層単
語検出をおこない(ステップS503)、検出文字数L
Nと所定のしきい値とを比較し(ステップS504)、
所定のしきい値よりも大きい場合には(ステップS50
4肯定)、N階層を有効であるとして、検出開始位置を
Nとし、検出終了位置をENとする(ステップS50
5)。
【0047】そして、未単語検出の下位階層が存在する
か否かを確認し(ステップS506)、該下位階層が存
在する場合には(ステップS506肯定)、下位階層の
ポインタを指定し(ステップS507)、変数Nをイン
クリメントした後に(ステップS508)、ステップS
503に移行する。
【0048】これに対して、未単語検出の下位階層が存
在しない場合には(ステップS506否定)、未単語検
出の同一階層が存在するか否かを確認し(ステップS5
09)、該同一階層が存在する場合には(ステップS5
09肯定)、同一階層の次ノードポインタを設定した後
(ステップS510)、ステップS503に移行する。
【0049】一方、ステップS509において未単語検
出の同一階層が存在しない場合には(ステップS509
否定)、上位階層のポインタを指定し(ステップS51
1)、変数Nをデクリメントした後に(ステップS51
2)、最上位階層であるか否かを確認し(ステップS5
13)、最上位階層であれば処理を終了し(ステップS
513肯定)、最上位階層でなければ(ステップS51
3否定)、ステップS506に移行する。
【0050】なお、ステップS504において、検出文
字数LNがしきい値以下である場合には(ステップS5
04否定)、上位階層があり且つ有効であるか否かを確
認し(ステップS514)、かかる上位階層が存在しな
い場合には(ステップS514否定)、ステップS50
6に移行する。
【0051】これに対して、かかる上位階層が存在し、
その階層が有効である場合には(ステップS514肯
定)、開始位置をSN-1としてN階層再単語検出をおこ
ない(ステップS515)、検出文字数LN’が所定の
しきい値と比較する(ステップS516)。
【0052】その結果、検出文字数LN’が所定のしき
い値以下の場合には(ステップS516否定)ステップ
S506に移行し、検出文字数LN’が所定のしきい値
よりも大きい場合には(ステップS516肯定)、検出
文字数LN’をLN-1とさらに比較する(ステップS51
7)。
【0053】そして、検出文字数LN’がLN-1以下であ
る場合には(ステップS517否定)ステップS506
に移行し、検出文字数LN’がLN-1よりも大きい場合に
は(ステップS517肯定)、(N−1)階層を無効と
した後に(ステップS518)ステップS505に移行
する。
【0054】このように、この住所検索部105では、
まず、最上位の階層の単語について、その単語を構成す
る文字を文字認識結果から検出し、文字の検出順序が正
しい場合にはその階層を有効と判断する。ただし、文字
認識結果の中には正解が含まれない場合もあるので、あ
るしきい値以上の文字が検出された場合はその階層を有
効と判断する。このしきい値は「過半数」などとするこ
とができる。
【0055】次に、図1に示した住所検索部105によ
る住所検索の具体例について説明する。図6は、図1に
示した住所検索部105による住所検索の具体例を示す
図である。なおここでは、「兵庫県姫路市下手野」と表
記された住所についての住所検索をおこなうものとし、
また各文字候補セグメントごとの図示した候補文字が認
識済みとする。
【0056】同図に示すように、この住所検索部105
では、まず最初に、都道府県レベルの単語である“北海
道”、“兵庫県”などの検出処理をおこなう。ここで
は、都道府県レベルで“兵○県”が検出されるが、検出
文字数のしきい値を過半数とすれば、“兵庫県”が検出
されたものとして有効となる。また、この検出結果か
ら、検出開始位置S1、検出終了位置E1、検出文字数L
1=2となる。
【0057】なお、しきい値以上の文字が検出できなか
った都道府県は省略されたものと判断して無効とし、次
の市区郡レベルの検出処理に進む。ここでは、S2(上
位階層の検出終了位置E1)から“姫路市”が検出され
有効となる。
【0058】もし“姫路市”が検出できなかった場合に
は、上位階層が誤って検出されている可能性がある
(“兵庫県”が省略されているのに“姫路市”の部分に
対して“兵庫県”が検出された可能性がある)ので、上
位階層の検出開始位置S1から“姫路市”の再検出処理
をおこなう。
【0059】その結果、“姫路市”が検出されなけれ
ば、この“姫路市”は省略されているものとして無効と
するが、検出された場合には、検出文字数L2’と上位
階層のL1とを比較し、L2’>L1の場合には、“兵庫
県”が誤って検出されたものと推測して“姫路市”を有
効とする。
【0060】さらに、“姫路市”の下位階層では、“下
手野”の他に“上手野”などが有効となる。この検出操
作を全階層の単語についておこなうが、各階層では単語
を確定せず、可能性のある階層を有効として設定し、有
効となった階層から生成される単語列全体から認識候補
を決定するため、各階層での高い認識精度を必要としな
い。
【0061】次に、図1に示した住所検索部105によ
る検索結果について説明する。図7は、図1に示した住
所検索部105による検索結果の一例を示す図である。
同図に示すように、この住所検索部105では、検出さ
れた有効階層のみの単語列からなる“兵庫県姫路市下手
野”、“兵庫県姫路市上手野”などが検索される。
【0062】このため、この文字認識結果から検出され
た文字数を単語列の類似度として計算し、類似度の大き
い上位候補の単語列を住所候補として、詳細判定部10
6に出力する。なお、かかる類似度は、(検出された文
字数/全体文字数)とし、たとえば“兵庫県姫路市下手
野”の場合には「8/9」となり、“兵庫県姫路市上手
野”の場合には「7/9」となる。
【0063】そして、詳細判定部106では、各住所候
補ごとに各文字に対応する文字候補セグメントを検出
し、各セグメントの文字認識結果から文字列全体の類似
度を計算し、類似度が最大となる候補文字列を認識結果
として出力する。
【0064】次に、住所の一部の記載が省略された場合
における住所検索部105による住所検索の一例につい
て説明する。図8は、住所の一部の記載が省略された場
合における住所検索部105による住所検索を説明する
ための説明図である。なおここでは、正式には「兵庫県
宍粟郡山崎町」と表記されるべき住所が「兵庫県山崎
町」と記載されているものとする。
【0065】図6の場合と同様にして、まず都道府県レ
ベルで“兵庫県”が検出されるが、その下位階層では市
区郡レベルが省略されているために検出は失敗する。す
なわち、ここでは“姫路市”や“宍粟郡”が検出できて
いない。
【0066】したがって、かかる場合には、市区郡レベ
ルのさらに下位階層について検出処理をおこなうことに
なる。同図では“宍粟郡”の下位階層である“山崎町”
が検出されている。
【0067】このように、ある階層で単語が検出されな
かった場合には、「省略されている」かまたは「上位階
層が誤検出されている」可能性がある。“宍粟郡”など
が省略されている場合には、その階層を無効として下位
階層の処理に進めば良い。
【0068】これに対して、上位階層が誤検出され、た
とえば、“宍粟郡”が省略して表記されているにもかか
わらず、“山崎町”以降の表記に対して“宍粟郡”が誤
って検出されてしまうと、“宍粟郡”の検出終了位置E
N以降で“山崎町”が検出できなくなる。
【0069】このため、かかる場合には“宍粟郡”の検
出開始位置SNで“山崎町”の再検出処理をおこない、
検出文字数LN’が上位階層の検出文字数LN-1を上回れ
ば、上位階層(“宍粟郡”)の誤検出と推定してその階
層(“山崎町”)を有効として下位階層の処理に進むよ
うにしている。
【0070】上述してきたように、本実施の形態では、
文字切り出し部101が入力画像から住所を形成する文
字列の一部をなす文字候補セグメントを切り出し、文字
認識部103が各文字候補セグメントに対応する複数の
候補文字を検出し、住所検索部105が候補文字に基づ
いて住所を形成する各階層に該当し得る候補文字列を抽
出し、抽出した各階層の候補文字列を結合した複数の住
所候補を検索し、詳細判定部106が複数の住所候補の
中から類似度が最も高い住所候補を検出結果として出力
するよう構成したので、住所表記上の階層の一部が省略
されていたとしても、その住所を正しく認識することが
できる。
【0071】
【発明の効果】以上説明したように、請求項1の発明に
よれば、画像から住所を形成する文字列の一部をなす文
字候補セグメントを切り出し、切り出した各文字候補セ
グメントに対応する複数の候補文字を出力し、出力した
候補文字に基づいて住所を形成する各階層に該当し得る
候補文字列を抽出し、抽出した各階層の候補文字列を結
合した複数の住所候補を検索し、検索した複数の住所候
補の中から類似度が最も高い住所候補を検出結果として
出力するよう構成したので、住所表記上の階層の一部が
省略されていたとしても、その住所を正しく認識するこ
とが可能な住所認識装置が得られるという効果を奏す
る。
【0072】また、請求項2の発明によれば、2分木の
一方に同一階層の住所要素を順次配設し、他方に下位階
層の住所要素を配設した階層構造を有する住所辞書を辿
りつつ住所を形成する各階層に該当し得る候補文字列を
抽出するよう構成したので、この住所辞書を利用して迅
速かつ効率良く候補文字列を抽出することが可能な住所
認識装置が得られるという効果を奏する。
【0073】また、請求項3の発明によれば、各階層に
所在する住所要素を形成する文字の多くが候補文字と一
致する場合に、該住所要素を候補文字列とするよう構成
したので、階層ごとに候補文字列を限定することなく可
能性のあるあらゆる候補文字列を抽出し、もって誤認識
する確率を低減することが可能な住所認識装置が得られ
るという効果を奏する。
【0074】また、請求項4の発明によれば、候補文字
と文字の多くが一致する住所要素が所定の階層に存在し
ない場合には、該階層が省略されているものとみなして
各階層の候補文字列を結合するよう構成したので、都道
府県名、市区郡、町村、字などのある階層が省略された
住所であっても効率良く認識することが可能な住所認識
装置が得られるという効果を奏する。
【0075】また、請求項5の発明によれば、画像から
住所を形成する文字列の一部をなす文字候補セグメント
を切り出し、切り出した各文字候補セグメントに対応す
る複数の候補文字を出力し、出力した候補文字に基づい
て住所を形成する各階層に該当し得る候補文字列を抽出
し、抽出した各階層の候補文字列を結合した複数の住所
候補を検索し、検索した複数の住所候補の中から類似度
が最も高い住所候補を検出結果として出力するよう構成
したので、住所表記上の階層の一部が省略されていたと
しても、その住所を正しく認識することが可能な住所認
識方法が得られるという効果を奏する。
【0076】また、請求項6の発明によれば、2分木の
一方に同一階層の住所要素を順次配設し、他方に下位階
層の住所要素を配設した階層構造を有する住所辞書を辿
りつつ住所を形成する各階層に該当し得る候補文字列を
抽出するよう構成したので、この住所辞書を利用して迅
速かつ効率良く候補文字列を抽出することが可能な住所
認識方法が得られるという効果を奏する。
【0077】また、請求項7の発明によれば、各階層に
所在する住所要素を形成する文字の多くが候補文字と一
致する場合に、該住所要素を候補文字列とするよう構成
したので、階層ごとに候補文字列を限定することなく可
能性のあるあらゆる候補文字列を抽出し、もって誤認識
する確率を低減することが可能な住所認識方法が得られ
るという効果を奏する。
【0078】また、請求項8の発明によれば、候補文字
と文字の多くが一致する住所要素が所定の階層に存在し
ない場合には、該階層が省略されているものとみなして
各階層の候補文字列を結合するよう構成したので、都道
府県名、市区郡、町村、字などのある階層が省略された
住所であっても効率良く認識することが可能な住所認識
方法が得られるという効果を奏する。
【0079】また、請求項9の発明によれば、請求項5
〜8のいずれか一つに記載された方法をコンピュータに
実行させるプログラムを記録したことで、そのプログラ
ムを機械読み取り可能となり、これによって、請求項5
〜8のいずれか一つの動作をコンピュータによって実現
することが可能な記録媒体が得られるという効果を奏す
る。
【図面の簡単な説明】
【図1】この発明の実施の形態に係る住所認識装置の構
成を示す機能ブロック図である。
【図2】図1に示した住所認識装置の住所認識手順を示
すフローチャートである。
【図3】図1に示した文字切り出し部による切り出し概
念および文字候補セグメントを説明するための説明図で
ある。
【図4】図1に示した住所辞書を用いた住所検索部によ
る住所検索の概念を説明するための説明図である。
【図5】図1に示した住所検索部の処理手順を示すフロ
ーチャートである。
【図6】図1に示した住所検索部による住所検索の具体
例を示す図である。
【図7】図1に示した住所検索部による検索結果の一例
を示す図である。
【図8】住所の一部の記載が省略された場合における住
所検索部による住所検索を説明するための説明図であ
る。
【符号の説明】
10 住所認識装置 101 画像入力部 102 文字切り出し部 103 文字認識部 104 住所辞書 105 住所検索部 106 詳細判定部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 亀山 博史 兵庫県姫路市下手野一丁目3番1号 グロ ーリー工業株式会社内 Fターム(参考) 3F079 AA01 CA02 CB08 CB29 CB35 5B064 AA01 AA04 CA08 DA05 DA13 EA08 EA19 EA36

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文字の記入枠がない帳票などに記入され
    た住所の画像を光学的に読み取り、該読み取った画像に
    含まれる住所を示す文字列を住所の階層構造を利用して
    認識する住所認識装置において、 前記画像から前記住所を形成する文字列の一部をなす文
    字候補セグメントを切り出す切出手段と、 前記切出手段により切り出された各文字候補セグメント
    に対応する複数の候補文字を出力する文字認識手段と、 前記文字認識手段により出力された候補文字に基づいて
    前記住所を形成する各階層に該当し得る候補文字列を抽
    出し、抽出した各階層の候補文字列を結合した複数の住
    所候補を検索する検索手段と、 前記検索手段により検索された複数の住所候補の中から
    類似度が最も高い住所候補を検出結果として出力する出
    力手段と、 を備えたことを特徴とする住所認識装置。
  2. 【請求項2】 前記検索手段は、2分木の一方に同一階
    層の住所要素を順次配設し、他方に下位階層の住所要素
    を配設した階層構造を有する住所辞書を備え、前記住所
    辞書を辿りつつ前記住所を形成する各階層に該当し得る
    候補文字列を抽出することを特徴とする請求項1に記載
    の住所認識装置。
  3. 【請求項3】 前記検索手段は、各階層に所在する住所
    要素を形成する文字の多くが前記候補文字と一致する場
    合に、該住所要素を前記候補文字列とすることを特徴と
    する請求項1または2に記載の住所認識装置。
  4. 【請求項4】 前記検索手段は、前記候補文字と文字の
    多くが一致する住所要素が所定の階層に存在しない場合
    には、該階層が省略されているものとみなして各階層の
    候補文字列を結合することを特徴とする請求項1、2ま
    たは3に記載の住所認識装置。
  5. 【請求項5】 文字の記入枠がない帳票などに記入され
    た住所の画像を光学的に読み取り、該読み取った画像に
    含まれる住所を示す文字列を住所の階層構造を利用して
    認識する住所認識方法において、 前記画像から前記住所を形成する文字列の一部をなす文
    字候補セグメントを切り出す切出工程と、 前記切出工程により切り出された各文字候補セグメント
    に対応する複数の候補文字を出力する文字認識工程と、 前記文字認識工程により出力された候補文字に基づいて
    前記住所を形成する各階層に該当し得る候補文字列を抽
    出し、抽出した各階層の候補文字列を結合した複数の住
    所候補を検索する検索工程と、 前記検索工程により検索された複数の住所候補の中から
    類似度が最も高い住所候補を検出結果として出力する出
    力工程と、 を含んだことを特徴とする住所認識方法。
  6. 【請求項6】 前記検索工程は、2分木の一方に同一階
    層の住所要素を順次配設し、他方に下位階層の住所要素
    を配設した階層構造を有する住所辞書を辿りつつ前記住
    所を形成する各階層に該当し得る候補文字列を抽出する
    ことを特徴とする請求項5に記載の住所認識方法。
  7. 【請求項7】 前記検索工程は、各階層に所在する住所
    要素を形成する文字の多くが前記候補文字と一致する場
    合に、該住所要素を前記候補文字列とすることを特徴と
    する請求項5または6に記載の住所認識方法。
  8. 【請求項8】 前記検索工程は、前記候補文字と文字の
    多くが一致する住所要素が所定の階層に存在しない場合
    には、該階層が省略されているものとみなして各階層の
    候補文字列を結合することを特徴とする請求項5、6ま
    たは7に記載の住所認識方法。
  9. 【請求項9】 前記請求項5〜8のいずれか一つに記載
    された方法をコンピュータに実行させるプログラムを記
    録したことを特徴とするコンピュータ読み取り可能な記
    録媒体。
JP2000099544A 2000-03-31 2000-03-31 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JP2001283156A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000099544A JP2001283156A (ja) 2000-03-31 2000-03-31 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099544A JP2001283156A (ja) 2000-03-31 2000-03-31 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2001283156A true JP2001283156A (ja) 2001-10-12

Family

ID=18613884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099544A Pending JP2001283156A (ja) 2000-03-31 2000-03-31 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2001283156A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243208A (ja) * 2007-03-27 2008-10-09 Fujitsu Ltd 住所認識装置
EP2093700A2 (en) 2008-02-20 2009-08-26 Kabushiki Kaisha Toshiba Pattern recognition method, and storage medium which stores pattern recognition program
JP2009199256A (ja) * 2008-02-20 2009-09-03 Toshiba Corp パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム
JP7487532B2 (ja) 2019-04-11 2024-05-21 富士通株式会社 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008243208A (ja) * 2007-03-27 2008-10-09 Fujitsu Ltd 住所認識装置
EP2093700A2 (en) 2008-02-20 2009-08-26 Kabushiki Kaisha Toshiba Pattern recognition method, and storage medium which stores pattern recognition program
JP2009199256A (ja) * 2008-02-20 2009-09-03 Toshiba Corp パターン認識方法、文字認識方法、パターン認識プログラムおよび文字認識プログラム
KR101109329B1 (ko) * 2008-02-20 2012-01-31 가부시끼가이샤 도시바 패턴 인식 방법, 및 패턴 인식 프로그램을 기억하는 기억 매체
JP7487532B2 (ja) 2019-04-11 2024-05-21 富士通株式会社 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体

Similar Documents

Publication Publication Date Title
US7769778B2 (en) Systems and methods for validating an address
US8468167B2 (en) Automatic data validation and correction
JP2734386B2 (ja) 文字列読み取り装置
CN110674396B (zh) 文本信息处理方法、装置、电子设备及可读存储介质
US9658989B2 (en) Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis
JP2001283156A (ja) 住所認識装置、住所認識方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5091549B2 (ja) 文書データ処理装置
US20210374189A1 (en) Document search device, document search program, and document search method
JP2010128774A (ja) 固有表現抽出装置、その方法およびプログラム
US20120265520A1 (en) Text processor and method of text processing
CN110427541B (zh) 一种网页内容提取方法、系统、电子设备及介质
JP5752073B2 (ja) データ修正装置
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JPH06215184A (ja) 抽出領域のラベリング装置
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
US11868726B2 (en) Named-entity extraction apparatus, method, and non-transitory computer readable storage medium
JPH06223121A (ja) 情報検索装置
US8019158B2 (en) Method and computer program product for recognition error correction data
WO2022059556A1 (ja) 文書検索装置
JP3548372B2 (ja) 文字認識装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JP2003296354A (ja) 辞書作成装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109