JP2007042097A

JP2007042097A - キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法

Info

Publication number: JP2007042097A
Application number: JP2006207066A
Authority: JP
Inventors: Shochiku Ko; ▲升▼竹黄; Shun Son; 俊孫; Yoshinobu Hotta; 悦伸堀田; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-07-29
Filing date: 2006-07-28
Publication date: 2007-02-15
Anticipated expiration: 2026-07-28
Also published as: CN100555308C; CN1904906A; JP5217127B2

Abstract

【課題】効率よく、高い精度で、信頼性ある住所認識を行うこと。
【解決手段】住所認識装置、住所認識方法および住所認識プログラムである。当該住所認識処理は、文字分離処理と、キー文字抽出処理と、一括地名認識処理と、住所決定処理とを含む。キー文字抽出処理は、複数の単一文字領域からキー文字を抽出する。単一文字領域の各々に対するキー文字抽出処理は、単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出処理と、特徴ベクトル抽出処理により抽出された特徴ベクトルと、すべてのあり得るキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、すべてのあり得るキー文字候補を検索する照合処理と、照合処理により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定処理と、を含む。
【選択図】図１４

Description

本発明は、キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法に関し、特に、枠のない領域内に手書きされた文字から住所を読み取って認識するキー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法に関する。

従来、二つの手書き住所認識方法が提案されている。

第１の従来方法においては、まず、入力された住所画像から複数の単一文字領域（すなわち、文字を一つだけ含む領域）を抽出する。次に、当該複数の単一文字領域からキー文字を抽出する（手書き住所認識においては、キー文字とは、省、区、州、市、町、郡、丁、村等の、行政区域を表すことができる一文字を指す。）。そして、連続したキー文字二つで区切られる地名領域を検出した後、地名領域内の文字を一つ一つ切り出し、切り出した文字を一つずつ認識する。これによって、地名領域内の地名が認識される。

しかし、上記第１の従来方法では、手書きされた住所の文字を一つ一つ分離する際、しばしばエラーが発生するという問題があった。特に、枠のない領域内に、文字が互いに接触した状態で住所が書かれている場合、この方法では認識ができない可能性があった。手書き文字は形が整えられておらず、また、ばらつきも大きいため、かかる不都合がしばしば発生していた。

第２の従来方法においても、まず切り出し文字を抽出し、連続したキー文字二つで区切られる地名領域を検出する。第２の従来方法が第１の従来方法と異なるのは、地名領域内の地名を一括認識する点である。

図１は、第２の従来方法の処理を詳細に示すブロック図である。図１に示すように、文字切り出し手段６０１は、入力された住所画像からすべてのあり得る単一文字領域を切り出す。キー文字抽出手段６０２は、キー文字辞書６０３を参照して、あり得る単一文字領域の各々を認識し、当該単一文字領域内の文字がキー文字（例えば、「省」、「市」、
［文字１］

、「路」など）であるか否かを決定する。当該単一文字領域の文字に対する認識候補文字（すなわち、予備的にその領域の文字である可能性があると判断された文字）として、複数のキー文字があった場合、照合距離が最小のキー文字のみを選択して当該単一文字領域を認識する。なお、照合距離とは、入力文字の画像から文字の特徴を抽出した特徴ベクトル（数値列）とあらかじめ特徴辞書に持つ各文字の特徴ベクトルとを比較して得られる距離値を言う。完全一致すれば０になるので、小さいほど両者が近い。照合距離が小さいほど、キー文字と当該文字領域内の画像との類似性が高い。

キー文字組決定手段６０４は、住所階層構造知識部６０５に基づいて、すべての可能性のあるキー文字候補をキー文字パスとして組み合わせる。各キー文字パスにおいては、前にあるキー文字は後ろにあるどのキー文字よりも法的に上位にある行政単位である、という要件が満たされねばならない。例えば、
［文字２］

はキー文字パスである。他方、
［文字１］

は「市」の上位行政単位ではなく、逆に、行政的な意味では「市」が
［文字１］

の上位にあるため、
［文字３］

はキー文字パスではない。地名語領域候補切り出し手段６０６は、キー文字パスにおける二つのキー文字によって区切られる地名語領域を抽出する。地名語一括認識手段６０７は、地名語認識辞書６０８を参照して、地名語を一括認識する。一文字認識手段６０９は、まず、一文字認識辞書６１０を参照して、地名でもキー文字でもない部分を入力画像から抽出する。例えば、
［文字４］

という住所からは、建物の名称と建物内での番号、つまり
［文字５］

を抽出する。そして、抽出した部分から複数の文字を切り出し、切り出した文字一つ一つを認識する。住所決定手段６１１は、住所知識部６１２内に入力された住所知識を使用し、認識結果と実際の住所とを比較して両者が一致するか否かを調べ、住所の全照合距離が所定の閾値よりも大きいか否かを調べる。所定の閾値よりも大きい場合、この住所の認識結果は信頼できないと判断され、システムはこの認識をリジェクトする。所定の閾値以下の場合、実際の住所と一致した認識結果が最終的に出力される。

図２は、地名語一括認識処理を示す。第１レベル地名照合処理１０５において、まず、第１のキー文字により区切られた地名領域を切り出し、地名語認識辞書６０８を使用して切り出された地名領域の地名を一括認識する。次に、第２レベル地名照合処理１０６で、第１のキー文字および（もし第２のキー文字があれば）第２のキー文字によって区切られた地名領域を切り出し、第１レベルの地名照合結果と図１に示す地名語認識辞書６０８とを参照して切り出された地名領域を認識する。例えば、実際に入力された住所が
［文字６］

であれば、キー文字パスは、「市−区−路」である。この場合、第１のキー文字「市」によって区切られる第１レベル地名領域は「北京」と認識される。次に、第１および第２のキー文字「市−区」によって区切られる地名領域が抽出される。そして、抽出された地名領域全体と、地名語認識辞書６０８中に記憶されている北京市内の全ての「区」とを照合することで地名領域が認識される。さらに、第３レベル地名照合処理１０７において、まず、（もし第２および第３のキー文字があれば）第２および第３のキー文字によって区切られる地名領域を切り出す。次に、第２レベルの地名照合結果と地名語認識辞書６０８とを参照して、切り出された地名領域を認識する。そして、最後のレベルになるまで同様の処理を繰り返す。第Ｎレベルの地名照合処理１０８においては、（もし第Ｎ−１のキー文字および第Ｎのキー文字があれば）第Ｎ−１のキー文字と第Ｎのキー文字とによって区切られる地名領域を抽出し、第Ｎ−１レベルの地名照合結果と地名語認識辞書６０８とを参照して、抽出した地名領域を認識する。

米国特許第６５３５６１９（Ｂ１）号明細書 Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart, "Hypermedia Image Processing Reference",[online], Department of Artificial Intelligence, University of Edinburgh, UK, インターネット＜URL: http://www.cee.hw.ac.uk/hipr/html/label.html＞ Qiuqi RUAN, "Mathematical ImageProcessing", the Publishing House of the Electronics Industry, page 325 E. Ukkonen, "On approximate atring matching", Proc. Int. Conf. on Foundations ofComp. Theory, Springer-Verlag, LNCS 158 p 487-495,1983 S.B.Needleman and C.D.Wunsch,"A general method applicable to the search for similarities in the aminoacid sequence of two proteins", Journal Molec.Biol. 48 p 443-453, 1970 Christopher J.C. Burges, "A Tutorialon Support Vector Machines for Pattern Recognition, Data Mining and KnowledgeDiscovery", volume 2, No 2, pages 121-167, 1998.

上に説明した従来方法の問題点の一つは、正しいキー文字が全く抽出されなかった場合には認識も失敗するため、システムの精度が低下するという点である。具体的には、キー文字抽出においては、上記従来方法には二つの問題点が存在する。まず、（１）図１の一文字認識手段６０９は、全ての単一文字領域と一文字認識辞書中の全ての文字（中国語の単語に関する限り、使用される漢字は数千個存在する）とを照合するため、キー文字認識において不可避的にエラーが発生し、それによってシステムの認識精度が低下する。次に、（２）キー文字抽出手段６０２は、認識候補中に出現した照合距離が最小の切り出し文字をキー文字として認識するにすぎないため、一定の状況下ではキー文字認識において不可避的にエラーが発生する。例えば、ある単一文字領域内の画像が実際には「市」に対応するものの、照合距離に従って単語を並べると認識候補列が
［文字７］

となるような状況下では、上記従来方法では、「市」ではなく、
［文字８］

の方が当該単一文字領域のキー文字であると認識される可能性が高いため、システムの精度を低下させる。

さらに、従来方法には次のような問題点もある。従来方法のような順次処理構造は、先行するいずれかの地名認識が失敗している場合には機能しない。より具体的には、後続のモジュールは先行するモジュールに大幅に依存する。先行するレベルでの地名認識が失敗すると、それに続く地名認識は常に誤りとなる。例えば、第１レベル地名照合１０５で正しい結果が出力されなかった場合、仮に、
［文字６］

という住所文字列が入力されたときに、「市」で区切られた第１レベルの地名が誤って
［文字９］

と照合されてしまうと、第１のキー文字「市」と第２のキー文字「区」とで区切られる実際の地名
［文字１０］

は、誤った第１レベルの地名
［文字９］

に含まれる行政単位ではないため、第２レベルの照合結果は常に誤りとなってしまう。さらに、住所が手書き入力された場合、地名の字体は様々に変形し、大きさもまちまちであるため、認識された単語が実際の住所と常に一致するとは限らない。このため、システムの精度が著しく低下してしまう。

さらに、上記従来方法には次のような問題点もある。手書き入力住所の質がまちまちであるという特異な性質のために、固定された閾値を用いて認識結果をリジェクトすると、住所の読み取りエラーが発生する。具体的には、閾値として小さな値を設定すると、上記従来方法では、質が低い住所に対する認識結果の大部分が拒絶されてしまう一方、閾値として大きな値を設定すると、質が高い住所に対する認識結果の大部分が承認されてしまう。このためシステムの信頼性が著しく損なわれる。

本発明の第１の目的は、効率よく住所認識を行うことができる住所認識装置を提供することである。

本発明の第２の目的は、高い精度で住所認識を行うことができる住所認識装置を提供することである。

本発明の第３の目的は、信頼性のある住所認識を行うことができる住所認識装置を提供することである。

上記の目的を達成するため、本発明は、複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出プログラムであって、前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手順と、前記特徴ベクトル抽出手順により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手順と、前記照合手順により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手順と、をコンピュータに実行させることを特徴とする。

また、本発明は、複数の単一文字領域からキー文字を抽出するキー文字抽出装置であって、前記単一文字領域の各々に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、あり得るすべてのキー文字のみを記憶するキー文字辞書部と、前記特徴ベクトル抽出手段により抽出された特徴ベクトルと、前記キー文字辞書部に記憶されたあり得るキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手段と、前記照合手段により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手段と、を備えたことを特徴とする。

また、本発明は、複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出方法であって、前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出工程と、前記特徴ベクトル抽出工程により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合工程と、前記照合工程により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定工程と、を含んだことを特徴とする。

また、本発明は、ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識手順をコンピュータに実行させる一括地名認識プログラムであって、前記一括地名認識手順は、前記地名画像から特徴ベクトルを抽出する抽出手順と、前記抽出手順により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合手順と、をコンピュータに実行させ、前記地名辞書に記憶された地名のうち、前記抽出手順により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識手順と、前記個別文字認識手順により得られた認識結果に基づいて、前記一括地名認識手順により決定された地名候補のフィルタリングをおこなう地名検証手順と、をコンピュータに実行させることを特徴とする。

前記一括地名認識手順は、個別文字認識手順と、地名検証手順とを含むことが望ましい。

また、本発明は、ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識工程を含む一括地名認識方法であって、前記一括地名認識工程は、前記地名画像から特徴ベクトルを抽出する抽出工程と、前記抽出工程により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合工程と、を含み、前記地名辞書に記憶された地名のうち、前記抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識工程と、前記個別文字認識工程により得られた認識結果に基づいて、前記一括地名認識工程により決定された地名候補のフィルタリングをおこなう地名検証工程と、を含んだことを特徴とする。

前記一括地名認識方法は、個別文字認識工程と、地名検証工程とを含むことが望ましい。

また、本発明は、一括地名認識装置であって、入力された地名画像から特徴ベクトルを抽出する抽出手段と、地名を記憶する地名辞書部と、前記地名辞書部に記憶された地名の特徴ベクトルと前記抽出手段により抽出された特徴ベクトルとを照合し、あり得るすべての地名候補および照合距離を求め、地名辞書に記憶された地名のうち、前記抽出手段により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定する照合手段と、降順に並んだ行政レベルの地名を含む複数の地名画像が入力され、当該地名画像の認識により行政レベルの地名を降順に含む複数の住所パスが形成される場合に、複数の住所パス候補の評価および決定をおこなう照合評価手段と、をさらに備えたことを特徴とする。

また、本発明は、単一文字領域を分離する文字分離工程、前記文字分離工程により分離された単一文字領域の各々に対してキー文字を抽出するキー文字抽出工程、前記キー文字抽出工程によるキー文字の抽出結果に基づいて地名を一括して認識する一括地名認識工程、前記一括地名認識工程による地名認識結果に基づいて住所を決定する住所決定工程、を含んだ住所認識方法であって、前記キー文字抽出工程は、前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出工程と、前記特徴ベクトル抽出工程により抽出された特徴ベクトルと、すべてのあり得るキー文字を記憶したキー文字辞書におけるあり得るキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合工程と、前記照合工程により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定工程と、を含んだことを特徴とする。

本発明の特徴の一つによれば、キー文字認識において、本発明は（Ｍ個のキー文字のみを含む）キー文字辞書とのみ比較を行う。これにより処理量が減り、認識精度が高まる。さらに、キー文字認識時に、結合パターンの評価結果の候補リストに一つだけキー文字がある場合には、あり得るキー文字候補の１つとして当該結合パターンを出力する。さらに、結合パターンがＬ（Ｌ<=Ｍ）個のあり得るキー文字候補を含んでいる場合には、Ｌ個のあり得るキー文字候補が出力される。したがって、例えば、結合パターンに二つのキー文字候補（「省」および「市」）が含まれている場合、当該結合パターンについては、「省」および「市」という二つの可能性のあるキー文字が出力される。これによって、正しいキー文字が失われる危険性が減り、住所認識の正確性が高まる。また、１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するので、従来の方法のように全てのキー文字パスを評価する必要はなく、平均照合距離が最小である高順位のＫ個のキー文字パスを選択するのみでよいため、住所認識の効率および正確性を高めることができる。

本発明の他の特徴によれば、地名検証方法が提供され、この地名検証方法では、一括地名認識による地名領域の認識結果と、当該地名から単一文字を切り出して一つ一つを認識した結果とが組み合わされ、一括地名認識の結果がフィルタリングされる。この方法では、個別文字認識の結果と実際の地名との間の編集距離を定義することにより、一括地名認識結果と個別文字認識結果とを効率的に組み合わせて検証をおこなう。一括地名認識が多数の同様の地名を区別できない場合に通常の認識では両者を別々に扱っており、住所認識の正確性が高まる。

本発明のさらに他の特徴によれば、あるレベルの地名認識を行う場合、第１の候補から第Ｍの候補にいたる候補が生成され得る。当該レベルの認識結果が実際の地名と一致しなかった場合、後続のレベルの地名認識もエラーとなり、照合距離の大きいＭ個の候補を出力してしまう。したがって、地名認識によって照合距離の大きい候補が生成された場合、その前のレベルの地名認識が誤っている可能性が極めて高い。よって、最終レベルから第１レベルへのフィードバック処理がおこなわれる。すなわち、後のレベルの認識結果を前のレベルで発生したエラーを訂正するために使用する。これにより、住所認識の精度が高まる。本発明のさらに他の特徴によれば、全ての候補を評価しなくとも、フィードバック処理を伴う地名認識を行うことができるため、地名認識の効率および正確性が著しく高まる。また、降順に並んだ行政レベルの地名を含む複数の地名画像が入力され、当該地名画像の認識により行政レベルの地名を降順に含む複数の住所パスが形成される場合に、複数の住所パス候補の評価および決定をおこなうので、住所認識の信頼性を高めることができる。

以下に、図面を参照して、本発明の住所認識方法および住所認識装置を詳細に説明する。図面中、同一または類似の構成要素には同一の参照番号を付す。

図３は、本発明の実施例に係る住所認識装置を示すブロック図である。図３において、単一文字領域検出手段１は、入力された住所画像から単一文字を１つずつ切り出す。単一文字の各画像領域を、単一文字領域と呼ぶ。キー文字抽出手段２は、単一文字領域検出手段１の結果に従い、キー文字を抽出する。次に、地名領域抽出手段３は、キー文字抽出手段２により抽出されたキー文字にもとづき、地名領域を抽出する。一括地名認識手段４は、地名領域抽出手段３が抽出した地名領域を再帰的に一括認識する。単一文字地名認識手段Ｅ１は、単一文字領域検出手段１から出力された文字を、地名領域抽出手段３が抽出した地名領域内の地名と対応付けて認識する。地名検証手段５は、一括地名認識手段４および単一文字地名認識手段Ｅ１が出力した地名認識結果を検証し決定する。リジェクト手段６は、地名認識結果をリジェクトするか承認するかを決定する。

具体的には、認識対象である住所画像が入力されると、まず、単一文字領域検出手段１が、入力された住所画像から複数の単一文字領域を切り出す。単一文字領域を切り出した後、キー文字抽出手段２が単一文字領域の各々を認識し、キー文字を抽出する。キー文字を抽出した後、地名領域抽出手段３が、キー文字によって区切られた領域を入力画像から分離し、次に、一括地名認識手段４が、キー文字によって区切られた領域の特徴ベクトルと、地名辞書中の地名の特徴ベクトルとを照合し、照合距離が所定の閾値よりも小さい地名候補を地名候補列としてそれぞれ取得する。ここで、照合距離とは、キー文字により区切られた画像と、地名候補との非類似度を示すものである。照合距離の値が小さいほど、その時点で決定されている画像と地名候補との相違が少ないことになる。すなわち、両者はより類似していることになる。照合距離の計算については後述する。同時に、地名候補列中の各地名候補の照合距離と地名候補の最小の照合距離との間の差の、地名候補の最小の照合距離に対する比を順次見積もる。見積もった比が所定の閾値よりも大きい場合、その地名候補は当該画像と著しく相違すると判断され、その地名候補は除外される。したがって、本発明では、すべての地名候補を評価する必要がない。すなわち、決定されている画像と地名候補とが著しく異なっていれば、さらに比較を行う必要はないため（詳しくは図５および図６の説明を参照）、認識時間が短縮される。この時、単一文字地名認識手段Ｅ１および地名検証手段５を使用し、個別文字認識結果と一括地名認識結果とを組み合わせることにより、一括認識された地名をフィルタリングすることができる。同様に、異なったレベルの地名領域が一つずつ認識される。多くの場合、地名認識における第１地名候補は通常誤りであり、他の地名候補が正しい結果となる。したがって、対応する各パスの照合距離を順次計算し、平均照合距離が最も小さいパスを見つけ、当該パスを最終的な地名パスと決定する。このように、本発明において用いられる多候補再帰認識によって、認識の正確さが向上する。加えて、平均照合距離が最も小さいパスに近いパスが複数ある場合には、単一文字地名認識手段Ｅ１と地名検証手段５とを使用し、個別文字認識結果と一括地名認識結果とを組み合わせることにより、当該地名画像に対して一括認識された地名候補のうち当該複数のパスと食い違う地名候補をフィルタリングすることができる。

単一文字地名認識手段Ｅ１は、キー文字により区切られた領域内に存在し、かつ、単一文字領域検出手段１により得られた単一文字領域の特徴を抽出し、抽出した特徴と単一文字辞書内の文字の特徴とを順次比較して認識する。地名が認識された後、地名検証手段５は、一括地名認識結果と個別文字認識結果とを組み合わせ、認識結果を最終的にチェックする。これによって、単一文字領域認識結果と再帰的一括認識結果とが組み合わされ、認識の正確さが向上する。

図３の各手段を以下順番に説明する。

図４は、図３の単一文字領域検出手段１を示すブロック図である。

図４において、結合要素ラベリング手段３４は、結合要素検出アルゴリズムによって、入力画像中の結合要素をすべてラベリングする（非特許文献１を参照）。結合要素とは、画像中の（通常、黒である）文字表示色の画素ポイントの集合である。当該集合中の画素によって、当該集合中の任意の２つの画素ポイントを結合することができる。

単一文字領域候補決定手段３５は、ラベリングされた結合要素のサイズ、ラベリングされた結合要素の位置、および隣接する要素からの距離等に基づいて、対応する結合要素を統合して、新しい結合要素にする。新しい結合要素は、単一文字領域候補である。例えば、入力された住所画像が横向きに書かれていた場合、結合要素Ａが結合要素Ｂの上に位置していれば、ＢとＡとは同一の文字に属するはずであるので、ＢとＡとは新しい結合要素に統合されねばならない。結合要素の統合の詳細については、特許文献１の図１１Ａ、図１１Ｂ、および図１１Ｃならびに特許文献１の記述を参照されたい。

平均文字サイズ計算手段３６は、単一文字領域候補決定手段３５により得られた新しい結合要素中、明らかに異常なサイズの結合要素を除去し、残りの結合要素および文字の平均サイズを計算する。ここで、ＣＣ_i（ｉ＝１，２，．．．，ｍ_cc）が、単一文字領域候補決定手段３５により得られたｍ_cc個の結合要素のすべてを表し、Ｗｉｄｔｈ（ＣＣ_i）が、結合要素ＣＣ_iの幅を表し、Ｈｅｉｇｈｔ（ＣＣ_i）がその高さを表すとすれば、以下の条件（１）〜（４）のいずれか一つを満たすＣＣ_kはすべて除去される。

（１）Width(CC_k) < WCC_median− Th_{width_low}
（２）Width(CC_k) > WCC_median+ Th_{width_low}
（３）Height(CC_k) < HCC_median− Th_{height_low}
（４）Height(CC_k) > HCC_median+ Th_{height_low}
ここで、ＷＣＣ_medianは、全てのＷｉｄｔｈ（ＣＣ_i）（ｉ＝１，２，．．．，ｍ_cc）から得られる中央値であり、ＨＣＣ_medianは、全てのＨｅｉｇｈｔ（ＣＣ_i）（ｉ＝１，２，．．．，Ｍ_cc）から得られる中央値であり、Ｔｈ_{width_low}およびＴｈ_{height_low}は、予め定められた２つの正の閾値である。中央値の計算の詳細については、非特許文献２を参照されたい。

画素投影手段３７は、（画像が横方向に書かれている場合は）入力された住所画像を縦方向に投影し、（画像が縦方向に書かれている場合は）入力された住所画像を横方向に投影する。縦方向（または横方向）画像投影によって、横方向（または縦方向）の画像の各ポイントの黒い画素の数が得られる。

一時的分離ポイント候補抽出手段３８および一時的分離ポイント候補決定手段３９は、単一文字領域候補決定手段３５から出力された新しい結合要素を実際の文字領域に分離するために使用される。すなわち、結合文字を個々の単一文字に分離するために使用される。

画素投影手段３７により得られる黒い画素の数にしたがって、一時的分離ポイント候補抽出手段３８は、以下の二つの条件を満たす位置ポイントを一時的分離ポイント候補として抽出する。これらの位置ポイントは、結合文字の分離ポイントとなる可能性のあるポイントである。

（条件１）位置ポイントは、投影によって得られた黒い画素の数のヒストグラムにおいて最小値をとるポイントである。
（条件２）当該位置ポイント上の黒い画素の数は、所定の閾値Ｔｈ_segよりも少ない。

分離ポイント候補の抽出は、例えば、特許文献１に記載の方法を用いて行うことができる。

一時的分離ポイント候補決定手段３９は、一時的分離ポイント候補抽出手段３８から得られる一時的分離ポイントが隣りあった文字領域の真の分離ポイントであるか否かを決定する。

入力された文字パターンが横向きに書かれている場合は、分離される結合要素のいずれについても、当該結合要素の開始位置から平均文字幅の２分の１の倍数に相当する位置に隣接する領域内に位置する一時的分離ポイント候補が、分離ポイントとして決定される。具体的には、Ｐ_i（０＜ｉ＜ｓ：ｉは正の整数）を当該結合要素の開始位置から平均文字幅の２分の１の倍数に相当する地点にある位置ポイントとした場合に、
P_i - Th_delta < C <= Th_delta + P_i
を満足する分離ポイントＣおよびｉが存在すれば、Ｃが分離ポイントであると決定される。そして、当該結合要素は、ポイントＣにおいて、二つの新しい結合要素に縦方向に切断される。

入力された文字パターンが縦向きに書かれている場合は、分離される結合要素のいずれについても、当該結合要素の開始位置から平均文字幅の２分の１の倍数に相当する位置に隣接する領域内に位置する一時的分離ポイント候補が、分離ポイントとして決定される。具体的には、Ｐ_i（０＜ｉ＜ｓ：ｉは正の整数）を当該結合要素の開始位置から平均文字幅の２分の１の倍数に相当する地点にある位置ポイントとした場合に、
P_i - Th_delta < C <= Th_delta + P_i
を満足する分離ポイントＣおよびｉが存在すれば、Ｃが分離ポイントであると決定される。そして、当該結合要素は、ポイントＣにおいて、二つの新しい結合要素に横方向に切断される。

図５は、本発明の実施の形態に係るキー文字抽出手段２を示すブロック図である。

図５において、キー文字候補抽出手段２０は、単一文字領域検出手段１から入力された単一文字領域（または結合要素）からキー文字候補を抽出する。キー文字パス決定手段２１は、住所階層構造知識部２４を参照し、妥当なキー文字パスを決定する。ここで、住所階層構造知識部２４とは、地名の階層知識を提供することができるデータベースまたはプログラム等である。キー文字パスフィルタ手段２２は、複数のキー文字パスを記憶し、各パス中のキー文字の平均照合距離（すなわち、様々なレベルの地名の照合距離の合計と住所レベルの数との比）を計算し、全てのパスを昇順に（小さいものから大きいものの順に）並べ、最後に、より高順位のＫ個のキー文字パスを最終キー文字パスとして選択する。ここで、Ｋはあらかじめ定められた正の整数である。

具体的には、認識のために住所画像が入力されたとき、まず入力された住所画像から結合要素が抽出され、次にキー文字候補抽出手段２０が、当該結合要素からキー文字を抽出する（詳細については、以下の図６の説明を参照）。キー文字を抽出した後、キー文字パス決定手段２１が、地名階層知識と適合するキー文字パスを決定する。決定されたキー文字パスは、キー文字の順序を記述するもので、先行するキー文字は後続のキー文字の上位の行政単位となっている。例えば、
［文字２］

はキー文字パスであるが、
［文字１］

は「市」の上位行政単位ではなく、「市」は行政上の意味で
［文字１］

を包含するものであるから、
［文字３］

はキー文字パスではない。次に、キー文字パスフィルタ手段２２が、認識結果中の各キー文字の平均照合距離を抽出する。各キー文字パスは、順次順位付けられる。地名領域抽出および認識においては、平均照合距離が最も小さいＫ個の文字パスのみについて評価を行う。ここで、Ｋは、あらかじめ定められた正の整数である。例えば、入力された住所が
［文字１１］

である場合、”京”および”市”に対応する画像領域について、「市」がキー文字と認識され、かつ、”区”に対応する画像領域について、「区」がキー文字と認識された場合、キー文字パスは、「市」（”京”）−「区」（”区”）、「市」（”市”）−「区」（”区”）となる。この場合、「市」（”京”）−「区」（”区”）において”京”および”区”が「市」および「区」として認識された場合の平均照合距離と、「市」（”市”）−「区」（”区”）において”市”および”区”が「市」および「区」として認識された場合の平均照合距離とが計算される。キー文字の平均照合距離が大きいほど、それが正しいキー文字パスである可能性は低いため、可能な限り除去せねばならない。このように、本発明の地名領域抽出・認識においては、従来の方法のように全てのキー文字パスを評価する必要はなく、平均照合距離が最小である高順位のＫ個のキー文字パスを選択するのみでよいため、住所認識の効率および正確性を高めることができる（ただし、Ｋはあらかじめ定められた正の整数である）。

図６は、本発明の実施の形態に係るキー文字候補抽出手段２０のブロック図である。

特徴抽出手段４２は、単一文字領域検出手段１から入力された結合要素（すなわち、単一文字領域）に対応する画像から特徴ベクトルを抽出する。辞書照合手段４３は、キー文字辞書部４１を参照して、特徴抽出手段４２から出力された特徴ベクトルと、キー文字辞書部４１中のキー文字の特徴ベクトルとを照合し、可能性のあるキー文字を候補として出力する。キー文字候補決定手段４４は、これら選択されたキー文字候補が真のキー文字であるか否かを決定する。

具体的には、単一文字領域検出手段１から結合要素が入力されると、まず、特徴抽出手段４２が、結合要素の特徴を抽出する。次に、辞書照合手段４３が、これらの結合要素の画像から抽出された（ｆＣＣ_iとラベリングされた）特徴ベクトルと、キー文字辞書部４１中の全てのキー文字の特徴ベクトルとを照合する。キー文字辞書部４１中のキー文字は、ｆｋｅｙ_kとラベリングされており（ただし、ｋ＝１，２，３，．．．，２２）、中国の住所における全２２のキー文字に対応する。すなわち、
［文字１２］

である。結合要素との照合距離Ｄｉｓ（ＣＣ_i，Ｋｃ）が所定の閾値Ｔｈ_keyよりも小さいキー文字Ｋｃが存在する場合、当該結合要素は、キー文字の可能性がある候補Ｋｃであると決定される。照合距離Ｄｉｓ（ＣＣ_i，Ｋｃ）は、ｆＣＣ_iとｆｋｅｙ_Kcとの間のユークリッド距離と定義される。すなわち、

である。

上記のように、ｆＣＣ_iおよびｆｋｅｙ_Kcの次元はｍである。

このように、キー文字候補抽出手段２０は、単一文字領域と限られた数（中国語の場合は２２個）のキー文字のみとを照合し、従来方法の場合のように数千の漢字すべてとの照合を行う必要がない。これによって、システムの効率性が高められ、同時に、キー文字の認識精度が上がる。

加えて、結合要素の認識において、Ｌ個（Ｌ<=２２）の候補との照合距離が所定の閾値Ｔｈ_keyよりも小さい場合には、当該結合要素は、Ｌ個のキー文字の可能性があるものと認識される。したがって、例えば、結合要素の可能性があるキー文字が「省」および「市」であれば、当該結合要素は二つのキー文字「省」および「市」であると認識される。これによって、正しい文字が失われる危険性が減るとともに、住所認識の正確性が高まる。

さらに、結合要素ＣＣ_iのキー文字候補がＬ個のキー文字（Ｋ₁，Ｋ₂，・・・，Ｋ_L）（ただし、Ｋ₁，Ｋ₂，・・・，Ｋ_Lは、照合距離にしたがって昇順に並べられている）を含む場合、キー文字候補決定手段４４は、当該結合要素を、次式を満たすキー文字のみを含むものとして認識する。
[Dis(CC_i, K_n) − Dis(CC_i, K₁)] / Dis(CC_i, K₁) < Th_{dis_k}
ここで、Ｄｉｓ（ＣＣ_i，Ｋ_n）は、キー文字Ｋ_nと結合要素ＣＣ_iとの間の照合距離を表し、Ｔｈ_{dis_k}は、正の定数であり、あらかじめ定められた閾値を表す。このようなキー文字除去方法を用いることにより、第１の文字候補に近いキー文字が保持され、その後のキー文字パス決定および地名照合において評価がなされる。上記の条件を満たさないキー文字がある場合、かかるキー文字の照合距離は第１候補の照合距離とはかなり遠いことを示しているので、当該キー文字が正しいキー文字である可能性は低く、そのようなキー文字は除去される。これにより、キー文字抽出の後は、可能性のある全てのキー文字について評価を行うために地名領域抽出および認識を行う必要はなく、住所認識の効率性および正確性が高められる。

図７は、本発明の実施の形態に係る一括地名認識手段４を示すブロック図である。図７に示すように、地名照合手段２７は、地名領域抽出手段３から入力された様々なレベルの地名に対応する画像から特徴を抽出し、（地名データベースおよび地名辞書等を記憶する）地名辞書部５４に記憶された地名特徴と照合し、それによって、１からＮｃ番目までの候補を出力する。地名候補評価手段２８は、１からＮｃ番目までの候補を評価し、それによって数個の候補を下位の住所に対する上位の行政単位として決定する。再帰的照合評価手段２９は、すべての住所候補の平均照合距離を計算し、そこから平均照合距離が最も小さい住所を選択する。地名照合手段２７は、地名画像中の特徴ベクトルを抽出するための特徴抽出手段（図示せず）と、抽出された特徴ベクトルと地名辞書中の地名の特徴ベクトルとを照合して可能性のある地名候補全てを見つけるための照合手段とを備える。

地名認識においては第１候補は通常正しい地名ではないため、本発明の多候補再帰的認識方法によって、システムの認識精度が著しく向上する。さらに、地名の評価において、全ての候補を調べる必要がなく、システムの認識効率が向上する。

図８に、本発明の実施の形態に係る一括地名認識手段４がおこなう処理のフローチャートを例として示す。

入力された住所画像中にＮレベルのキー文字が存在すると仮定する。ステップＳＦ１において、住所認識はレベル１（ｉ＝１）から始まる。ステップＳＦ２において、ｉレベルの地名照合が行われる。地名照合において、上位の住所が存在する場合、当該ｉレベルの地名に対応する地名画像から抽出された特徴が、当該ｉレベルの地名のキー文字によって区切られ、かつ、地名辞書中にある上位の住所に包含される地名と照合される。１からＮｃ番目までの地名候補が生成され、照合距離に基づいて昇順に並べられる。ステップＳＦ３において、候補連続番号カウンタｋを２からカウントが始まるように設定する。ステップＳＦ４において、ｋ番目の地名候補の照合距離と第１の候補の照合距離との差の第１の候補の照合距離に対する比を計算する。ステップＳＦ５で、当該比が、所定の閾値Ｔｈ_disよりも大きいか否か、または、当該候補が最後の候補であるか否かを判定する。具体的には、
[Dis(cand1_k) − Dis(cand1₁)]/ Dis(cand1₁) < Th_dis
が成立するか、または、その時点での候補が最後の候補であると判定された場合には、ステップＳＦ７に進み、次のレベルの地名認識で使用するために１からｋ番目の候補を上位の行政単位として保持する。ここで、Ｄｉｓ（Ｃａｎｄ１_k）は、第１レベルの地名認識におけるｋ番目の候補の照合距離を表し、照合距離は、キー文字によって区切られた画像と候補との間の非類似度を表す。照合距離の値が小さいほど、その時点で確定されている画像と候補との間の相違は小さい。すなわち、両者はより近い。照合距離の計算については後述する。Ｔｈ_disは正の定数であり、あらかじめ定められた閾値である。照合距離の値がこの閾値を上回る場合は、すべてその時点で確定されている画像が候補とは著しく異なっていることを示しており、さらに比較する必要はない。さらに、地名候補は照合距離に基づいて並べられているため、その時点の候補について計算された比がＴｈ_disを上回れば、続く候補の比も必然的に当該閾値を上回ることになるため、それ以上評価する必要はない。他方、ステップＳＦ５において比が所定の閾値Ｔｈ_disを上回らないと決定され、かつ、当該候補が最後の候補ではないと判定されれば、ステップＳＦ６においてｋの値を増分し、ステップＳＦ４に戻る。

全ての地名候補について評価を行った後、１からｋ番目までの地名候補を下位の地名とマッチする上位住所として保持する。各レベルの住所照合において保持される地名候補の数ｋは動的に変化し、各レベルにおいて異なる数となりうることがわかる。当該地名候補の照合距離が第１候補の照合距離と著しく異なっている場合、当該地名候補が正しい地名である可能性は低く、最終的なｋは比較的小さな数となる。それ以外の場合には、比較的大きい数となる。

ステップＳＦ８においては、Ｎ個の地名レベル全てが認識されたか否かを決定する。全てのレベルが認識されていない場合には、ステップＳＦ９でｉの値を増分した後、次のレベルの地名照合を行う。例えば、第２レベルの地名照合においては、第１レベルの地名候補から出力された上位行政単位の範囲内で、第１および第２のキー文字間のパターンを、上位の地名により包含され、かつ、第２のキー文字によって区切られる行政単位の地名と照合する必要がある。例えば、第１レベルの地名候補が、「北京」と
［文字９］

であり、第１のキー文字が「市」、第２のキー文字が「区」である場合、第１のキー文字および第２のキー文字の間の画像と、「北京」市に包含される全ての名前とが可能性のある住所の一つとして照合される。さらに、他の可能性のある住所として、第１のキー文字および第２のキー文字の間の画像と、
［文字９］

市に包含される全ての名前とが照合される。そして、１からＮｃ番目までの可能性のある候補が出力される。

さまざまなレベルでの地名の照合が終わると、つまり、ＳＦ８において「はい」であると判定されると（最後のレベルの地名については、それより下位の地名がないため、地名候補の評価を行う必要はなく、地名候補を他の地名を包含する上位地名として出力する必要はない）、ＳＦ１０において、各住所候補におけるすべての地名の照合距離を累積的に加算する。ＳＦ１１で、ＳＦ１０で得られた累積的に加算された照合距離にしたがって住所候補を順位付けし、累積的に加算された照合距離が最も小さい住所を認識結果として出力する。

上述した処理は再帰的処理である。すなわち、ｉレベルの地名照合は、ｉ−１レベルから上位住所として得られたｋ個の候補すべてについてそれぞれ行わねばならない。同様に、ステップＳＦ７の後にｉレベルの地名照合から得られたｋ個の地名候補は、次のレベルの地名照合において上位住所としてすべて処理されねばならない。

照合距離Ｄｉｓ(Ｃａｎｄ_i)は、ｉ番目の地名候補の特徴ベクトルｆ_iと、地名画像から抽出されたそれに対応する特徴ベクトルｖ_iとの間のユークリッド距離と定義される。すなわち、次式が成立する。

上記のとおり、特徴ベクトルｆ_iおよび特徴ベクトルｖ_iの次元はｍである。

図８は、一括地名認識の動作フローの一例を示しているに過ぎない。一括地名認識処理においては、ステップＳＦ２における照合結果はさらに単一文字地名認識結果と組み合わされ、得られた住所候補を地名検証手段を用いてフィルタリングすることができる。その後、ステップＳＦ３以降の処理を行うことで、地名認識の精度が高められる。同様に、ステップＳＦ７の認識結果を単一文字地名認証結果と組み合わせ、得られた住所候補を地名検証手段を用いてフィルタリングすることができる。地名検証手段５および単一文字地名認証手段Ｅ１については後述する。

図９に、本発明の実施の形態にかかる再帰的一括住所認識方法を例示的に示す。

図９では、はじめに入力された手書き文字画像が
［文字１１］

であると仮定する。この場合、キー文字パスは、「市−区」となる。そして、キー文字抽出手段２を用いて、入力された画像から「市−区」パスに含まれるキー文字を抽出する。

次に、第１のキー文字によって区切られた画像を抽出することにより、地名領域Ｒ１およびＲ２を切り出す。図８に示すように、ステップＳＦ２において地名領域Ｒ１が一括認識され、Ｎｃ個（この例では３個）の候補ＳＲ１が出力される。さらに、各候補について、照合距離が出力される。照合距離は、地名領域Ｒ１と地名辞書中の地名との非類似度を示す。地名領域Ｒ１は、
［文字９］

、「北京」、
［文字１３］

のそれぞれと比較され、それぞれ照合距離は、２３０、２４０、３１０となる。したがって、Ｒ１は、「北京」および
［文字１３］

よりも
［文字９］

である可能性が高く、かつ、
［文字１３］

よりも「北京」である可能性が高いことになる。

次に、Ｎｃ個の候補すべてについて、次のレベルの地名（たとえば、第２レベルの地名）に対して上位の行政単位とみなしうるか否かを評価する。
［文字１３］

と
［文字９］

との照合距離の間の差の
［文字９］

の照合距離に対する比は、（３１０−２３０）／２３０であり、比較的大きい。他方、「北京」と
［文字９］

との照合距離の間の差の
［文字９］

の照合距離に対する比は、（２４０−２３０）／２３０であり、比較的小さい。この場合、
［文字１３］

が、Ｒ１の実際の地名である可能性は低いため、ＳＲ２で除外される。具体的には、あらかじめ定められた閾値が０．２５であるとすれば、（３１０−２３０）／２３０＞０．２５、かつ、（２４０−２３０）／２３０＜０．２５であるため、
［文字１３］

は除外され、
［文字９］

および「北京」はそのまま上位行政単位として使用される。

次に、上記のステップを繰り返して、第２レベルの地名認識を行う。前のレベルが
［文字９］

であれば、地名辞書にもとづいて
［文字９］

に包含されるすべての地区の実際の地名パターンを地名領域Ｒ２中の地名と比較し、Ｎｃ個の候補を出力する。これらの候補およびその照合距離をＳＲ３に示す。前のレベルが「北京」であれば、地名辞書にもとづいて「北京」に包含されるすべての地区の実際の地名パターンを地名領域Ｒ２中の地名と比較し、Ｎｃ個の候補を出力する。これらの候補およびその照合距離をＳＲ４に示す。

結果として、ＳＲ５に示すように、すべての候補パス（たとえば、
［文字９］

＋
［文字１４］

）をそれ以外の他の候補パスと比較した場合、平均照合距離の平均値が最短となるのは「北京」＋
［文字１０］

であり、その平均照合距離は（２４０＋１６０）／２＝２００となる。したがって、
［文字１１］

が認識結果として出力される。

図１０は、本発明の実施の形態に係る単一文字地名認識手段を示すブロック図である。

上述のとおり、単一文字地名認識手段および地名検証手段は、一括地名認識により取得された、可能性のある複数の地名候補をフィルタリングすることができる。加えて、単一文字地名認識手段および地名検証手段は、一括地名認識手段４の照合評価手段の評価結果（すなわち地名パス）における最短の平均照合距離により近い結果（もしあれば）をフィルタリングして決定することができる。

図１０に示すように、単一文字地名認識手段Ｅ１は、特徴抽出手段６１、辞書照合手段６２、および単一文字辞書部５９を備える。

特徴抽出手段６１は、地名領域抽出手段３により抽出された地名領域内に含まれ、かつ、単一文字領域検出手段１によって出力された単一の文字領域の特徴をひとつずつ抽出する。次に、辞書照合手段６２が、特徴抽出手段６１により得られた単一文字領域の各々の特徴を、単一文字辞書部５９内に記憶された単一文字の中国語単語の特徴と照合する。そして、各単一文字領域の１からＮ番目までの候補が出力される。

図１１は、本発明の実施の形態に係る地名検証手段５を示すブロック図である。

単一文字地名認識手段Ｅ１の地名認識結果、および、一括地名認識手段４により得られた地名認識結果に基づいて、地名検証手段５は、これらの検証および組み合わせを行う。図１１は、本発明の実施の形態に係る地名検証手段５を示すブロック図である。図１１に示すように、地名検証手段５は、編集距離計算手段５５と、一括認識・個別文字認識組み合わせ手段５８とを備える。

編集距離計算手段５５は、単一文字地名認識手段Ｅ１により得られた地名結果と、キー文字の定義に合致し、かつ、前レベルの地名から認識された住所に包含されるすべての地名との編集距離を計算する。一括認識・個別文字認識組み合わせ手段５８は、一括地名認識手段４により得られた結果と、単一文字地名認識手段Ｅ１により得られた結果とを、編集距離計算手段５５を用いて組み合わせる。一括地名認識手段４により得られた候補シーケンスまたは候補列に従い、一括認識・個別文字認識組み合わせ手段５８は、各地名の全体的順位を計算し、最終的に第１位の地名を出力する。なお、編集距離とは、２つの文字列間がどの程度異なっているかを表わす数値であり、例えば「東京都」と「東束都」の間の編集距離は「京」を「束」の違いのみなので「１」となる。編集距離はレーベンシュタイン距離とも呼ばれる。この場合も小さいほど両者が近いことになる。

地名検証の具体的処理は以下のとおりである。

まず、編集距離計算手段５５は、ダイナミック・プログラミングを用いて（非特許文献３および４を参照）、キー文字により区切られた合理的な地名であり、かつ、上位レベルにおいて得られた地名領域に包含される地名と、単一文字地名認識手段Ｅ１により得られた結果Ｗとの間の（以下に定義する）式（１）により定義される編集距離を計算する。編集距離とは、挿入、置換、削除等の操作による単一文字部の認識結果から合理的な地名のオペランドへの変換を意味する（オペランドについては後述する）。したがって、合理的な地名の編集距離が小さい場合、地名と個別文字認識結果との差はきわめて小さく、他方、合理的な地名の編集距離が大きい場合、地名と個別文字認識結果との差は大きい。

本発明では、編集距離を以下のように定義する。

Ｓはｎ次元ベクトルであり、ｎ個の文字を含む地名を指し、ＷはＮ×ｍの行列であり、Ｗ_ijは入力された地名画像中のｉ番目の単一文字領域または結合要素のｊ番目の認識候補を指し、Ｗ_iはｉ番目の単一文字領域または結合要素の認識結果、すなわち、ｍ次元の認識候補リストを指すものとする。ＳとＷとの間の編集距離は、挿入、削除、置換等によって候補を調整することを考慮すれば、ＷをＳに変換した場合に、もっとも小さいコストとなる。Ｓ_kとＷ_iとの間のコストは、以下のように計算される。

式（１）において、ｋは入力された地名画像中の単一文字領域の総数であり、ｗは当該地名画像中の各単一文字領域の認識候補の数である。

したがって、結合要素の認識候補Ｗ_i中に照合すべき地名Ｓの文字Ｓ_kが存在する場合、候補列Ｗ_i中においてその文字が位置づけられる順位が高ければ高いほど（すなわち、照合距離がＷ_ij=Ｓ_kを満たす小さなｊが存在すれば）、照合コストは小さくなり、Ｗ_iがＳ_kである可能性が高くなる。逆に、候補列Ｗ_i中においてその文字が位置づけられる順位が低ければ低いほど（すなわち、照合距離がＷ_ij=Ｓ_kを満たす大きなｊが存在すれば）、照合コストは大きくなり、Ｗ_iがＳ_kである可能性が低くなる。

一括認識・個別文字認識組み合わせ手段５８は、編集距離計算手段５５を利用して、一括認識結果と、単一文字地名認識結果とを以下のステップによって組み合わせる。

（１）上位レベルの地名に包含され、かつ、現時点でのキー文字によって区切られる、各地名Ａ_iの重み付け値を計算する。重み付け値は、以下の式（２）によって計算される。
Weight(A_i) = (1 − t1) × Rank_ED(A_i)＋ t1 × i （２）
式（２）において、Ａ_iは一括地名認識手段４により取得されたｉ番目の地名候補であり、ＥＤ(Ａ_i)はＡ_iの編集距離であり、Ｒａｎｋ＿ＥＤ(Ａ_i)はＡ_iと個別文字認識候補行列との間の編集距離の順位であり、ｔ１はｒｏｕｎｄ(ＥＤ(Ａ_i))／ｋに等しく、ｒｏｕｎｄ(ＥＤ(Ａ_i))はＥＤ(Ａ_i)を四捨五入することを示す。

（２）上位レベルの地名に包含され、かつ、現時点でのキー文字によって区切られるすべての地名Ａ_iの重み付け値を昇順で順位付けし、重み付け値が最小のＡ_iを現時点で認識された地名とする。

Ａ_iの編集距離が著しく小さい場合には、個別文字認識結果の信頼性が高いこととなり、より大きな重み付け値(１−ｔ１)がＲａｎｋ＿ＥＤ(Ａ_i)に割り当てられる。Ａ_iの編集距離が著しく大きい場合には、ｔ１が著しく大きくなり、一括認識部から得られた候補順位ｉが重み付け計算において重要な役割を果たすようになる。つまり、Ａ_iの編集距離が十分に小さければ個別文字認識の結果は信頼でき、他方、すべての合理的な住所の編集距離が十分大きければ個別文字認識結果はあまり信頼できない。この場合には、一括地名認識手段から得られた認識結果を組み合わされた地名として出力する必要がある。このように、一括地名認識手段から得られる認識結果と、個別文字認識の結果とが組み合わされるため、システムの正確性が著しく向上する。

図１２に、本発明に係る住所検証の一例を示す。

図１２において、（Ａ）および（Ｂ）に示される入力された住所画像の実際の住所は、
［文字１５］

である。ここで、第１レベルの地名
［文字１６］

がすでに認識され、キー文字
［文字１７］

もすでに認識されていると仮定する。（Ａ）に、「二盛一」の画像領域から単一文字領域検出手段１により得られた単一文字領域の個別文字認識結果の例を示す。Ｗ₁、Ｗ₂、およびＷ₃は、それぞれ、単一文字領域「二」、「盛」、「一」に対応する認識候補列を示す。候補の数は３と仮定する。（Ｂ）に、「二盛一」の画像領域を一括認識することによって得られた地名候補の例を示す。ここで、
［文字１６］

市には、
［文字１７］

がつく地名は３つしかなく、それらはそれぞれ「二盛」、「二盛一」、「二旺一」であると仮定する。

地名検証によって、（Ａ）における行列Ｗ＝｛Ｗ₁,Ｗ₂,Ｗ₃｝と、
［文字１６］

市の領域に包含され、かつ、
［文字１７］

によって区切られるすべての地名（すなわち、「二盛」、「二盛一」、「二旺一」）との間の編集距離を計算する。たとえば、「二盛」とＷとの間の最小編集距離は、ダイナミック・プログラミングによって、「二」をＷ₁と照合し、「盛」をＷ₂と照合し、無効文字（ＮＵＬＬとラベリングする）を追加してこれをＷ₃と照合することで計算される。この場合の照合コストは以下のようになる。

Cost("二", W₁) = (2 − 1) / (3 × 3) = 1 / 9;
Cost("盛", W₂) = (1 − 1) / (3 × 3) = 0;
Cost(NULL, W₃) = 1.

したがって、Ｗと「二盛」との間の編集距離は、１／９＋０＋１＝１０／９となる。

同様に、Ｗと「二盛一」との間の編集距離は以下のように計算される。
Cost("二", W₁) = (2 − 1) / (3 × 3) = 1 / 9;
Cost("盛", W₂) = (1 − 1) / (3 × 3) = 0;
Cost("一", W₃) = (2 − 1) / (3 × 3) = 1 / 9.
したがって、Ｗと「二盛一」との間の編集距離は、１／９＋０＋１／９＝２／９となる。

同様に、Ｗと「二旺一」との間の編集距離は以下のように計算される。
Cost("二", W₁) = (2 − 1) / (3 × 3) = 1 / 9;
Cost("旺", W₂) = 1;
Cost("一", W₃) = (2 − 1) / (3 × 3) = 1 / 9.
したがって、Ｗと「二旺一」との間の編集距離は、１／９＋１＋１／９＝１１／９となる。

したがって、
［文字１６］

市に包含されるすべての地名
［文字１７］

の編集距離の順位付けシーケンスは、「二盛一」、「二盛」、「二旺一」となる。

このとき「二盛一」の編集距離１／９が最も小さいため、検証ルール（１）により「二盛一」が正しい地名であると検証される。

図１３は、本発明の実施の形態に係るリジェクト手段を示すブロック図である。

図１３に示すように、リジェクト手段６は、特徴抽出手段６３と、リジェクト決定手段６４と、リジェクト学習手段６５とを備える。

具体的には、特徴抽出手段６３は、地名画像領域のさまざまなレベルから特徴｛ｖ₁,ｖ₂,ｖ₃,…,ｖ_N｝を抽出する。ここで、ｖ_i（０＜ｉ＜Ｎ＋１）は、ｉレベルの地名から抽出された特徴であり、Ｎは地名レベルの総数である。リジェクト決定手段６４は、特徴抽出手段６３により得られた特徴を、リジェクト学習手段６５により得られたマッピング関数ｆに代入し、関数ｆ（ｖ₁,ｖ₂,ｖ₃,…,ｖ_N）の関数値を計算する。この値がゼロより大きければ、認識結果は正しい住所とされる。この値がゼロ以下の場合は、認識結果はリジェクトされる。

リジェクト学習手段６５は、実際の住所画像から集められた学習セットを用いて学習を行う。各住所サンプルに対する各レベルの地名認識の照合距離が特徴として集められる。住所サンプルが正しく認識される場合、住所画像には承認のラベリングがされるか、＋１のラベリングがされる。それ以外の場合には、住所画像にはリジェクトのラベリングがされるか、−１のラベリングがされる。

上記の処理は、非特許文献５に基づく。マッピング関数（以下、分類子と呼ぶ）を構築するのは、学習データにおける特徴に基づいて自動的に分類を実行するためである。この分類子は、新しい住所を評価し、関数出力が正である（＞０）か負である（＜０）かによって認識結果をリジェクトするか承認するかを決定するためのリジェクトルールとして用いられる。この関数は、住所の質に適応的に適合するリジェクトルールを自動的に構築できるため、住所認識の信頼性が高まる。

図１４は、本発明の実施の形態に係る住所認識装置を示す詳細なブロック図である。

図１４に示すように、本発明に係る住所認識装置は、単一文字領域検出手段１と、キー文字候補抽出手段２０と、キー文字パス選択手段１５と、地名領域抽出手段３と、単一文字地名認識手段Ｅ１と、一括地名認識手段４と、地名検証手段５と、個別文字認識手段６９と、リジェクト手段６とを備える。単一文字領域検出手段１は、結合要素ラベリング手段３４と、単一文字領域候補決定手段３５と、平均文字サイズ計算手段３６と、画素投影手段３７と、一時的分離ポイント候補抽出手段３８と、一時的分離ポイント候補決定手段３９とを備えてなる。

結合要素ラベリング手段３４は、入力された二値画像から結合要素をラベリングする。単一文字領域候補決定手段３５は、ラベリングされた要素のサイズ、ラベリングされた要素の位置、隣りあう要素からの距離等に基づいて結合要素各々を統合し、最終的に単一文字領域候補を決定する。

平均文字サイズ計算手段３６は、他の結合要素とサイズが合致しないパターンを除去し、文字の平均サイズを計算する。

画素投影手段３７は、入力された住所画像を（画像が横向きに書かれている場合は）縦向きに、または、（画像が縦向きに書かれている場合は）横向きに投影する。縦向き（または横向き）の画像投影によって、横（または縦）方向における画像の各ポイントにある黒画素数が得られる。

一時的分離ポイント候補抽出手段３８および一時的分離ポイント候補決定手段３９は、単一文字領域決定手段３５によって出力された新しい結合要素を、実際の文字領域へと分離するために使用される。すなわち、両者は、結合された文字を個々の単一文字へと分離するために用いられる。

一時的分離ポイント候補決定手段３９は、一時的分離ポイント候補抽出手段３８によって得られた一時的分離ポイントが隣りあう文字領域の真の分離ポイントであるか否かを決定する。

キー文字辞書４１は、すべてのキー文字の特徴を記録および記憶する。

キー文字候補抽出手段２０は、特徴抽出手段４２、辞書照合手段４３、およびキー文字候補決定手段４４を備える。

特徴抽出手段４２は、単一文字領域検出手段１により分離された領域の特徴を抽出する。辞書照合手段４３は、特徴抽出手段４２により抽出された特徴と、キー文字辞書４１に記憶された特徴とを照合し、１からＮ番目の文字候補を出力する。次に、キー文字候補決定手段４４は、キー文字候補が真のキー文字であるか否かを決定する。当該キー文字候補の照合距離の第１文字候補の照合距離に対する比が所定の閾値よりも小さい場合、当該キー文字候補は真のキー文字である。

住所階層構造知識部２４は、住所階層構造の知識を記憶する。たとえば、キー文字「省」はキー文字「市」を包含し得るが、キー文字「市」はキー文字「省」を包含し得ない。

キー文字パス選択手段１５は、キー文字パス決定手段２１とキー文字パスフィルタ手段２２とを備える。

キー文字パス決定手段２１は、住所階層構造知識部２４を参照して、合理的なキー文字パスを決定する。キー文字パスフィルタ手段２２は、複数のキー文字パスを記憶し、各パスにおけるキー文字間の平均照合距離を計算し、最終的にＫ個の主要パスを出力する。ここで、Ｋは所定の正の定数である。

地名領域抽出手段３は、特定のキー文字パス内のキー文字によって区切られた地名領域を抽出する。

地名辞書部５４は、住所中の各地名の特徴ベクトルを記憶する。

一括地名認識手段４は、地名抽出手段３により抽出された地名を順次一括認識する。一括地名認識手段４は、地名照合手段２７と、地名候補評価手段２８と、再帰的照合評価手段２９とを備える。

地名照合手段２７は、さまざまなレベルの地名に対応する画像から特徴を抽出し、地名辞書部５４に記憶された地名特徴と照合し、それによって１からＮｃ番目の候補を出力する。地名候補評価手段２８は、１からＮｃ番目の候補を評価し、下位の住所に対して上位の行政単位となるいくつかの候補を決定する。再帰的照合評価手段２９は、すべての住所候補の平均距離を計算し、そこから平均照合距離が最小である住所を最終的な認識結果として選択する。

単一文字辞書部５９は、住所内の各文字の特徴ベクトルを記憶する。

単一文字地名認識手段Ｅ１は、単一文字領域検出手段１から出力された単一文字領域を順次認識する。これらの単一文字領域は、地名領域抽出手段３により抽出された地名領域内に含まれるものである。単一文字地名認識手段Ｅ１は、特徴抽出手段６１と辞書照合手段６２とを備える。

特徴抽出手段６１は、単一文字領域検出手段１により得られた単一文字領域の特徴ベクトルを抽出する。これらの単一文字領域は、地名領域抽出手段３により抽出された地名領域内に含まれるものである。辞書照合手段６２は、次に、特徴抽出手段６１により得られた特徴ベクトルと単一文字辞書部５９に記憶された特徴ベクトルとを照合し、各単一文字領域の１からＮ番目の候補を出力する。

地名検証手段５は、単一文字地名認識手段Ｅ１により得られた地名認識結果と、一括地名認識手段４により取得された地名認識結果とを検証し、組み合わせる。地名検証手段６８は、編集距離計算手段５５と一括認識・個別文字認識組み合わせ手段５８とを備える。

編集距離計算手段５５は、単一文字地名認識手段Ｅ１により得られた地名結果と、キー文字の定義に合致し、かつ、前のレベルの地名から認識された住所に包含されるすべての地名との間の編集距離を計算する。一括認識・個別文字認識組み合わせ手段５８は、一括地名認識手段４により得られた結果と、単一文字地名認識手段Ｅ１により得られた結果とを組み合わせる。一括認識・個別文字認識組み合わせ手段５８は、計算した各地名を順位付けし、最終的に第１位の地名を出力する。

個別文字認識手段６９は、地名でもキー文字でもないパターンを認識する。個別文字認識手段６９は、特徴抽出手段６１と辞書照合手段６２とを備える。

リジェクト学習手段６５は、ひとまとまりの住所に基づいてサポートベクターマシーン分類子の学習を行う。なお、サポートベクターマシーンとは、２クラスの分類に優れた方式であり、住所が４階層（省−市−区−街）あるときは、全部で４単語あるので、正しい４単語の距離値の並びとそうでないものの距離値の並びをあらかじめ学習しておく。次に入力された４階層の文字列から４単語の距離の並びを算出し、それが学習したうちの正しい側かそうでない側のどちらに属するかを判定する、というものである。

リジェクト手段６は、認識結果を承認するか否かを決定するものであり、特徴抽出手段６３と、リジェクト決定手段６４とを備える。特徴抽出手段６３は特徴ベクトルを抽出する。リジェクト決定手段６４は、リジェクト学習手段６５から出力されるサポートベクターマシーン分類子に基づき、認識結果を承認するか否かを決定し出力する。

最後に、結果がリジェクトされなかった場合、リジェクト手段６は認識結果を出力する。結果がリジェクトされた場合は、リジェクト手段６はエラーを出力する。

これまでの本発明の実施の形態の説明は例示的なものであり、本質的に他の例を排除するものではなく本願を明確化するものであり、開示される特定の形態に本発明を限定するものではない。多くの変更および変形が可能であることはこの分野の通常の技術を有する者には明らかであろう。実施の形態の選択および説明は、本発明の実際の原理および応用例をよりよく説明することを意図するものであり、それによってこの分野の技術を有する他の者が、本発明のさまざまな実施例への応用および特殊な応用のための本発明の変更を理解できるようにすること意図するものである。たとえば、本発明は、日本語または韓国語で書かれた手書きの地名の認識にも適用できる。さらに、本発明は、類似度の決定に照合距離を利用しているが、類似度は照合距離以外の方法を用いて決定することもできる。たとえば、特徴ベクトル間のコサイン傾斜、特徴ベクトル間のブロック距離等を用いることができる。したがって、本発明における照合距離は、この分野の技術を有する者が想起できる類似度の明確な量の表現として広義に捉えられねばならない。

（付記１）複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出プログラムであって、
前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手順と、
前記特徴ベクトル抽出手順により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手順と、
前記照合手順により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手順と、
をコンピュータに実行させることを特徴とするキー文字抽出プログラム。

（付記２）前記キー文字辞書は、行政区域レベルを表す文字の組を記憶したことを特徴とする付記１に記載のキー文字抽出プログラム。

（付記３）前記照合手順は、前記キー文字辞書に含まれるあり得るキー文字であって、前記特徴ベクトル抽出手順により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応するあり得るキー文字をキー文字候補として決定することを特徴とする付記１に記載のキー文字抽出プログラム。

（付記４）複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出方法であって、
前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出工程と、
前記特徴ベクトル抽出工程により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合工程と、
前記照合工程により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定工程と、
を含んだことを特徴とするキー文字抽出方法。

（付記５）前記キー文字辞書は、行政区域レベルを表す文字の組を記憶したことを特徴とする付記４に記載のキー文字抽出方法。

（付記６）前記照合工程は、前記キー文字辞書に含まれるあり得るキー文字であって、前記特徴ベクトル抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応するあり得るキー文字をキー文字候補として決定することを特徴とする付記４に記載のキー文字抽出方法。

（付記７）前記照合工程により単一文字領域に対するあり得るキー文字候補が決定され、照合距離に基づいてキー文字候補の順位付けをおこなうことにより第１位となったあり得るキー文字候補が第１キー文字候補とされた場合に、キー文字候補の照合距離と第１キー文字候補の照合距離との間の差の第１キー文字の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離であるキー文字候補をキー文字候補結果として決定するキー文字候補決定工程をさらに含んだことを特徴とする付記６に記載のキー文字抽出方法。

（付記８）前記キー文字パス決定工程により正当なキー文字パスが複数決定された場合に、所定のルールに従って複数の正当なキー文字パスから一部の正当なキー文字パスをフィルタリングするキー文字パスフィルタリング工程をさらに含んだことを特徴とする付記４〜７のいずれか１つに記載のキー文字抽出方法。

（付記９）前記所定のルールは、妥当なキー文字パスに含まれるキー文字候補の平均照合距離を算出し、すべてのキー文字パスを平均照合距離が昇順となるように順位付けし、第１の所定数のキー文字パスのみを選択するルールであることを特徴とする付記８に記載のキー文字抽出方法。

（付記１０）複数の単一文字領域からキー文字を抽出するキー文字抽出装置であって、
前記単一文字領域の各々に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
あり得るすべてのキー文字のみを記憶するキー文字辞書部と、
前記特徴ベクトル抽出手段により抽出された特徴ベクトルと、前記キー文字辞書部に記憶されたあり得るキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手段と、
前記照合手段により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手段と、
を備えたことを特徴とするキー文字抽出装置。

（付記１１）前記キー文字辞書部に記憶されるあり得るキー文字は、行政区域レベルを表す文字であることを特徴とする付記１０に記載のキー文字抽出装置。

（付記１２）前記照合手段は、前記キー文字辞書部に記憶されたあり得るキー文字であって、前記特徴ベクトル抽出手段により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応するあり得るキー文字をキー文字候補として決定することを特徴とする付記１０に記載のキー文字抽出装置。

（付記１３）前記照合手段により単一文字領域に対するあり得るキー文字候補が決定され、照合距離に基づいてキー文字候補の順位付けをおこなうことにより第１位となったあり得るキー文字候補が第１キー文字候補とされた場合に、キー文字候補の照合距離と第１キー文字候補との間の差の第１キー文字の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離であるキー文字候補をキー文字候補結果として決定するキー文字候補決定手段をさらに備えたことを特徴とする付記１２に記載のキー文字抽出装置。

（付記１４）前記キー文字パス決定手段により正当なキー文字パスが複数決定された場合に、所定のルールに従って複数の正当なキー文字パスから一部の正当なキー文字パスをフィルタリングするキー文字パスフィルタリング手段をさらに備えたことを特徴とする付記１０〜１３のいずれか１つに記載のキー文字抽出装置。

（付記１５）前記所定のルールは、妥当なキー文字パスに含まれるキー文字候補の平均照合距離を算出し、すべてのキー文字パスを平均照合距離が昇順となるように順位付けし、第１の所定数のキー文字パスのみを選択するルールであることを特徴とする付記１４に記載のキー文字抽出装置。

（付記１６）ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識手順をコンピュータに実行させる一括地名認識プログラムであって、
前記一括地名認識手順は、
前記地名画像から特徴ベクトルを抽出する抽出手順と、
前記抽出手順により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合手順と、
をコンピュータに実行させ、
前記地名辞書に記憶された地名のうち、前記抽出手順により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、
さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識手順と、
前記個別文字認識手順により得られた認識結果に基づいて、前記一括地名認識手順により決定された地名候補のフィルタリングをおこなう地名検証手順と、
をコンピュータに実行させることを特徴とする一括地名認識プログラム。

（付記１７）前記一括地名認識手順は、前記照合手順によりあり得る地名候補が複数得られた場合に、所定のルールに従って複数のあり得る地名候補をフィルタリングする地名候補評価手順をさらにコンピュータに実行させることを特徴とする付記１６に記載の一括地名認識プログラム。

（付記１８）前記所定のルールは、複数のあり得る地名候補を照合距離に基づいて順位付けし、順位付けにより第１位となったあり得る地名候補を第１地名候補とした場合に、地名候補の照合距離と第１地名候補の照合距離との間の差の第１地名候補の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離である地名候補のみを選択するルールであることを特徴とする付記１７に記載の一括地名認識プログラム。

（付記１９）ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識工程を含む一括地名認識方法であって、
前記一括地名認識工程は、
前記地名画像から特徴ベクトルを抽出する抽出工程と、
前記抽出工程により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合工程と、
を含み、
前記地名辞書に記憶された地名のうち、前記抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、
さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識工程と、
前記個別文字認識工程により得られた認識結果に基づいて、前記一括地名認識工程により決定された地名候補のフィルタリングをおこなう地名検証工程と、
を含んだことを特徴とする一括地名認識方法。

（付記２０）前記一括地名認識工程は、前記照合工程によりあり得る地名候補が複数得られた場合に、所定のルールに従って複数のあり得る地名候補をフィルタリングする地名候補評価工程を含んだことを特徴とする付記１９に記載の一括地名認識方法。

（付記２１）前記所定のルールは、複数のあり得る地名候補を照合距離に基づいて順位付けし、順位付けにより第１位となったあり得る地名候補を第１地名候補とした場合に、地名候補の照合距離と第１地名候補の照合距離との間の差の第１地名候補の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離である地名候補のみを選択するルールであることを特徴とする付記２０に記載の一括地名認識方法。

（付記２２）前記地名検証工程は、前記一括地名認識工程により決定された地名候補の各々と、前記個別文字認識工程により得られた認識結果との間の編集距離を算出する工程と、各編集距離の順位を算出する工程と、前記編集距離の順位に基づいて、重みを算出する工程と、算出された重みに基づいて前記一括地名認識工程により得られた地名候補をフィルタリングする工程とを含むことを特徴とする付記１９、２０または２１に記載の一括地名認識方法。

（付記２３）前記一括地名認識工程は、地名の行政レベルが降順となっている複数の地名画像のそれぞれについて１つ以上の地名候補を認識した場合に、最上位レベルから最下位レベルまでの住所候補により形成されるパスの各々の平均照合距離を算出し、平均照合距離が最小のパスのみを住所パス候補として選択する照合評価工程をさらに含んだことを特徴とする付記１９、２０または２１に記載の一括地名認識方法。

（付記２４）前記一括地名認識工程は、地名の行政レベルが降順となっている複数の地名画像のそれぞれについて１つ以上の地名候補を認識した場合に、最上位レベルから最下位レベルまでの住所候補により形成されるパスの各々の平均照合距離を算出し、平均照合距離が最小のパスのみを住所パス候補として選択する照合評価工程をさらに含んだことを特徴とする付記１９に記載の一括地名認識方法。

（付記２５）最小平均照合距離に近い平均照合距離を有するパスが複数ある場合に、複数のパスにおいて複数のあり得る地名候補を有する地名画像について個別文字認識を実行するパス個別文字認識工程と、前記パス個別文字認識工程において得られた認識結果に基づいて、地名画像のあり得る地名候補をフィルタリングするパス地名検証工程と、をさらに含み、前記地名検証工程は、地名画像のあり得る地名候補の各々と、前記個別文字認識工程により得られた認識結果との間の編集距離を算出する工程と、各編集距離の順位を算出する工程と、前記編集距離の順位に基づいて、重みを算出する工程と、算出された重みに基づいて地名を決定する工程とを含むことを特徴とする付記２４に記載の一括地名認識方法。

（付記２６）前記照合評価工程により選択された住所パス候補を承認あるいはリジェクトする地名リジェクト工程をさらに含み、前記地名リジェクト工程は、各レベルの地名領域から特徴を抽出する工程と、各レベルの地名領域から抽出された特徴をリジェクト学習により得られたマッピング関数を用いて分析する工程と、分析の結果に基づいて住所パス候補を承認あるいはリジェクトする工程とを含んだことを特徴とする付記２５に記載の一括地名認識方法。

（付記２７）一括地名認識装置であって、
入力された地名画像から特徴ベクトルを抽出する抽出手段と、
地名を記憶する地名辞書部と、
前記地名辞書部に記憶された地名の特徴ベクトルと前記抽出手段により抽出された特徴ベクトルとを照合し、あり得るすべての地名候補および照合距離を求め、地名辞書に記憶された地名のうち、前記抽出手段により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定する照合手段と、
降順に並んだ行政レベルの地名を含む複数の地名画像が入力され、当該地名画像の認識により行政レベルの地名を降順に含む複数の住所パスが形成される場合に、複数の住所パス候補の評価および決定をおこなう照合評価手段と、
をさらに備えたことを特徴とする一括地名認識装置。

（付記２８）前記照合手段によりあり得る地名候補が複数得られた場合に、所定のルールに従って複数のあり得る地名候補をフィルタリングする地名候補評価手段をさらに備えたことを特徴とする付記２７に記載の一括地名認識装置。

（付記２９）前記所定のルールは、複数のあり得る地名候補を照合距離に基づいて順位付けし、順位付けにより第１位となったあり得る地名候補を第１地名候補とした場合に、地名候補の照合距離と第１地名候補の照合距離との間の差の第１地名候補の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離である地名候補のみを選択するルールであることを特徴とする付記２８に記載の一括地名認識装置。

（付記３０）前記照合評価手段は、住所パスの各々について平均照合距離を計算し、平均照合距離が最小の住所パスを住所パス候補として決定することを特徴とする付記２７、２８または２９に記載の一括地名認識装置。

（付記３１）前記照合評価手段により決定された住所パス候補を承認あるいはリジェクトするリジェクト手段をさらに備えたことを特徴とする付記３０に記載の一括地名認識装置。

（付記３２）前記リジェクト手段は、各地名領域から特徴を抽出する特徴抽出手段と、リジェクト学習を実行してマッピング関数を得るリジェクト学習手段と、前記マッピング関数を用い、各レベルの地名領域の抽出された特徴に基づいて前記住所パス候補を承認するかまたはリジェクトするかを決定するリジェクト決定手段とを備えたことを特徴とする付記３１に記載の一括地名認識装置。

（付記３３）最小平均照合距離に近い平均照合距離を有する住所パスが複数存在する場合に、複数の住所パス中に複数のあり得る地名候補を有する地名画像に対して個別文字認識を実行し、または、前記照合手段が地名画像に対して複数のあり得る地名候補を決定した場合に、あり得る地名候補を複数有する地名画像に対して個別文字認識を実行する個別文字認識手段と、前記個別文字認識手段により得られた認識結果、および、前記照合評価手段による決定結果に基づいて、複数のあり得る地名候補を有する地名画像の地名候補をフィルタリングする地名検証手段と、をさらに備えたことを特徴とする付記２７〜３２のいずれか１つに記載の一括地名認識装置。

（付記３４）前記地名検証手段は、複数のあり得る地名候補を有する地名画像の地名候補の各々と、前記個別文字認識手段による認識結果との間の編集距離を計算する編集距離計算手段と、前記編集距離計算手段により計算された編集距離に基づいて複数のあり得る地名候補を有する地名画像の住所を決定する一括認識・個別文字認識組み合わせ手段と、を備えたことを特徴とする付記３３に記載の一括地名認識装置。

（付記３５）単一文字領域を分離する文字分離工程、前記文字分離工程により分離された単一文字領域の各々に対してキー文字を抽出するキー文字抽出工程、前記キー文字抽出工程によるキー文字の抽出結果に基づいて地名を一括して認識する一括地名認識工程、前記一括地名認識工程による地名認識結果に基づいて住所を決定する住所決定工程、を含んだ住所認識方法であって、
前記キー文字抽出工程は、
前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出工程と、
前記特徴ベクトル抽出工程により抽出された特徴ベクトルと、すべてのあり得るキー文字を記憶したキー文字辞書におけるあり得るキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合工程と、
前記照合工程により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定工程と、
を含んだことを特徴とする住所認識方法。

（付記３６）前記キー文字抽出工程は、前記キー文字辞書に含まれるあり得るキー文字であって、前記特徴ベクトル抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応するあり得るキー文字をキー文字候補として決定することを特徴とする付記３５に記載の住所認識方法。

（付記３７）前記照合工程により単一文字領域に対するあり得るキー文字候補が決定され、照合距離に基づいてキー文字候補の順位付けをおこなうことにより第１位となったあり得るキー文字候補が第１キー文字候補とされた場合に、キー文字候補の照合距離と第１キー文字候補の照合距離との間の差の第１キー文字の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離であるキー文字候補をキー文字候補結果として決定するキー文字候補決定工程をさらに含んだことを特徴とする付記３５に記載の住所認識方法。

（付記３８）前記キー文字抽出工程は、前記キー文字パス決定工程により正当なキー文字パスが複数決定された場合に、所定のルールに従って複数の正当なキー文字パスから一部の正当なキー文字パスをフィルタリングするキー文字パスフィルタリング工程をさらに含んだことを特徴とする付記３５、３６または３７に記載の住所認識方法。

（付記３９）前記一括地名認識工程は、ある行政レベルの地名を含む地名画像の地名を認識する一括認識工程を含み、前記一括認識工程は、前記地名画像から特徴ベクトルを抽出する抽出工程と、前記抽出工程により抽出された特徴ベクトルと地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合工程とを含み、前記地名辞書に記憶された地名のうち、前記抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定することを特徴とする付記３８に記載の住所認識方法。

（付記４０）前記一括認識工程は、前記照合工程によりあり得る地名候補が複数得られた場合に、所定のルールに従って複数のあり得る地名候補をフィルタリングする地名候補評価工程をさらに含み、前記所定のルールは、複数のあり得る地名候補を照合距離に基づいて順位付けし、順位付けにより第１位となったあり得る地名候補を第１地名候補とした場合に、地名候補の照合距離と第１地名候補の照合距離との間の差の第１地名候補の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離である地名候補のみを選択するルールであることを特徴とする付記３９に記載の住所認識方法。

（付記４１）前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識工程と、前記個別文字認識工程により得られた認識結果に基づいて、前記一括地名認識工程により決定された地名候補のフィルタリングをおこなう地名検証工程とをさらに含み、前記地名検証工程は、前記一括地名認識工程により決定された地名候補の各々と、前記個別文字認識工程により得られた認識結果との間の編集距離を算出する工程と、各編集距離の順位を算出する工程と、前記編集距離の順位に基づいて、式
Weight(A_i) = (1 − t1) × Rank_ED(A_i)＋ t1 × i
を用いることにより重みを算出する工程と、算出された重みに基づいて前記一括地名認識工程により得られた地名候補をフィルタリングする工程とを含み、Ａ_iは前記一括地名認識工程により得られたｉ番目の地名候補であり、ＥＤ(Ａ_i)はＡ_iの編集距離であり、Ｒａｎｋ＿ＥＤ(Ａ_i)は編集距離の順位であり、ｔ１はｒｏｕｎｄ(ＥＤ(Ａ_i))／ｋに等しく、ｒｏｕｎｄ(ＥＤ(Ａ_i))はＥＤ(Ａ_i)の四捨五入演算を意味し、ｋは前記地名画像における単一文字領域の総数であり、ｗｅｉｇｈｔ(Ａ_i)はｉ番目の地名候補の重みを意味することを特徴とする付記４０に記載の住所認識方法。

（付記４２）前記一括地名認識工程により地名の行政レベルが降順となっている複数の地名画像のそれぞれについて１つ以上の地名候補が認識された場合に、最上位レベルから最下位レベルまでの住所候補により形成されるパスの各々の平均照合距離を算出し、平均照合距離が最小のパスのみを住所パス候補として選択する照合評価工程を含んだことを特徴とする付記４１に記載の住所認識方法。

（付記４３）前記照合評価工程により選択された住所パス候補を承認あるいはリジェクトする地名リジェクト工程をさらに含み、前記地名リジェクト工程は、各レベルの地名領域から特徴を抽出する工程と、各レベルの地名領域から抽出された特徴をリジェクト学習により得られたマッピング関数を用いて分析する工程と、分析の結果に基づいて住所パス候補を承認あるいはリジェクトする工程とを含んだことを特徴とする付記４２に記載の住所認識方法。

以上のように、本発明は、キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法に関し、特に、枠のない領域内に手書きされた文字から住所を読み取り認識するキー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法に有用である。

図１は、従来の住所認識装置を示すブロック図である。図２は、図１の従来の住所認識装置に備えられ、一括地名認識を行う一括地名認識手段の処理を示す概略図である。図３は、本発明の実施例に係る住所認識装置を示すブロック図である。図４は、単一文字領域検出手段の一例を示すブロック図である。図５は、本発明の実施例に係るキー文字抽出手段を示すブロック図である。図６は、本発明の実施例に係るキー文字候補抽出手段を示すブロック図である。図７は、本発明の実施例に係る一括住所認識手段を示すブロック図である。図８は、本発明の実施例に係る一括地名認識手段を示すフローチャートである。図９は、本発明の実施例に係る一括住所認識方法を例示的に示す図である。図１０は、本発明の実施例に係る単一文字地名認識手段を示すブロック図である。図１１は、本発明の実施例に係る地名検証手段を示すブロック図である。図１２は、本発明に係る地名検証方法を例示的に示す図である。図１３は、本発明の実施例に係るリジェクト手段を示すブロック図である。図１４は、本発明の実施例に係る住所認識装置を示す詳細なブロック図である。

符号の説明

１単一文字領域検出手段
２キー文字抽出手段
３地名領域抽出手段
４一括地名認識手段
５地名検証手段
６リジェクト手段
１６キー文字パス選択手段
２０キー文字候補抽出手段
２１キー文字パス決定手段
２２キー文字パスフィルタ手段
２４住所階層構造知識部
２７地名照合手段
２８地名候補評価手段
２９再帰的照合評価手段
３４結合要素ラベリング手段
３５単一文字領域候補決定手段
３６平均文字サイズ計算手段
３７画素投影手段
３８一時的分離ポイント候補抽出手段
３９一時的分離ポイント候補決定手段
４１キー文字辞書部
４２特徴抽出手段
４３辞書照合手段
４４キー文字候補決定手段
５４地名辞書部
５５編集距離計算手段
５８一括認識・個別文字認識組み合わせ手段
５９単一文字辞書部
６１特徴抽出手段
６２辞書照合手段
６３特徴抽出手段
６４リジェクト決定手段
６５リジェクト学習手段
６９個別文字認識手段
Ｅ１単一文字地名認識手段

Claims

複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出プログラムであって、
前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手順と、
前記特徴ベクトル抽出手順により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手順と、
前記照合手順により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手順と、
をコンピュータに実行させることを特徴とするキー文字抽出プログラム。
前記キー文字辞書は、行政区域レベルを表す文字の組を記憶したことを特徴とする請求項１に記載のキー文字抽出プログラム。
前記照合手順は、前記キー文字辞書に含まれるあり得るキー文字であって、前記特徴ベクトル抽出手順により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応するあり得るキー文字をキー文字候補として決定することを特徴とする請求項１に記載のキー文字抽出プログラム。
複数の単一文字領域からキー文字を抽出するキー文字抽出装置であって、
前記単一文字領域の各々に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出手段と、
あり得るすべてのキー文字のみを記憶するキー文字辞書部と、
前記特徴ベクトル抽出手段により抽出された特徴ベクトルと、前記キー文字辞書部に記憶されたあり得るキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合手段と、
前記照合手段により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定手段と、
を備えたことを特徴とするキー文字抽出装置。
複数の単一文字領域からのキー文字の抽出を複数の単一文字領域の各々について実行するキー文字抽出方法であって、
前記単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出工程と、
前記特徴ベクトル抽出工程により抽出された特徴ベクトルと、あり得るすべてのキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、あり得るすべてのキー文字候補を検索する照合工程と、
前記照合工程により検索された１つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定工程と、
を含んだことを特徴とするキー文字抽出方法。
ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識手順をコンピュータに実行させる一括地名認識プログラムであって、
前記一括地名認識手順は、
前記地名画像から特徴ベクトルを抽出する抽出手順と、
前記抽出手順により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合手順と、
をコンピュータに実行させ、
前記地名辞書に記憶された地名のうち、前記抽出手順により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、
さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識手順と、
前記個別文字認識手順により得られた認識結果に基づいて、前記一括地名認識手順により決定された地名候補のフィルタリングをおこなう地名検証手順と、
をコンピュータに実行させることを特徴とする一括地名認識プログラム。
前記一括地名認識手順は、前記照合手順によりあり得る地名候補が複数得られた場合に、所定のルールに従って複数のあり得る地名候補をフィルタリングする地名候補評価手順をさらにコンピュータに実行させることを特徴とする請求項６に記載の一括地名認識プログラム。
前記所定のルールは、複数のあり得る地名候補を照合距離に基づいて順位付けし、順位付けにより第１位となったあり得る地名候補を第１地名候補とした場合に、地名候補の照合距離と第１地名候補の照合距離との間の差の第１地名候補の照合距離に対する比を算出し、当該比が所定の閾値よりも小さくなる照合距離である地名候補のみを選択するルールであることを特徴とする請求項７に記載の一括地名認識プログラム。
一括地名認識装置であって、
入力された地名画像から特徴ベクトルを抽出する抽出手段と、
地名を記憶する地名辞書部と、
前記地名辞書部に記憶された地名の特徴ベクトルと前記抽出手段により抽出された特徴ベクトルとを照合し、あり得るすべての地名候補および照合距離を求め、地名辞書に記憶された地名のうち、前記抽出手段により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定する照合手段と、
降順に並んだ行政レベルの地名を含む複数の地名画像が入力され、当該地名画像の認識により行政レベルの地名を降順に含む複数の住所パスが形成される場合に、複数の住所パス候補の評価および決定をおこなう照合評価手段と、
をさらに備えたことを特徴とする一括地名認識装置。
ある行政レベルの地名を含む地名画像の地名を認識する一括地名認識工程を含む一括地名認識方法であって、
前記一括地名認識工程は、
前記地名画像から特徴ベクトルを抽出する抽出工程と、
前記抽出工程により抽出された特徴ベクトルと、地名辞書に記憶された地名の特徴ベクトルとを照合し、あり得るすべての地名候補を検索する照合工程と、
を含み、
前記地名辞書に記憶された地名のうち、前記抽出工程により抽出された特徴ベクトルとの間の照合距離が所定の閾値よりも小さい特徴ベクトルに対応する地名をあり得る地名候補として決定し、
さらに前記地名画像の単一文字領域の各々に含まれる文字の文字候補を認識する個別文字認識工程と、
前記個別文字認識工程により得られた認識結果に基づいて、前記一括地名認識工程により決定された地名候補のフィルタリングをおこなう地名検証工程と、
を含んだことを特徴とする一括地名認識方法。