JPH11272803A

JPH11272803A - 住所認識装置及び住所認識方法

Info

Publication number: JPH11272803A
Application number: JP10279931A
Authority: JP
Inventors: Misako Suwa; 美佐子諏訪; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-01-22
Filing date: 1998-10-01
Publication date: 1999-10-08
Anticipated expiration: 2018-10-01
Also published as: JP3639126B2; KR19990068054A; KR100339446B1; CN1225484A; CN100483450C; US6535619B1

Abstract

(57)【要約】【課題】文字同士が接触している場合においても、住
所認識を精度良く行う。【解決手段】住所の認識対象となるパターンが入力さ
れると、接触文字の接触位置を判定してから、接触文字
の切断を行い、切断された文字ごとに文字認識を行うこ
とにより、キー文字を抽出する。キー文字が抽出される
と、キー文字で区切られるパターンを一体的に取り出
し、キー文字によって区切られるパターン全体の特徴ベ
クトルを、地名単語の特徴ベクトルと照合することによ
り、地名単語の認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は住所認識装置に関
し、特に、フリーピッチ領域に書かれた手書き文字から
住所を読み取る場合などに適用して好適なものである。

【０００２】

【従来の技術】従来の光学的文字認識装置（ＯＣＲ）で
は、一文字ごとの認識結果から地名階層の区切りとなる
文字（以下、キー文字と称す。）を抽出することによ
り、地名領域を特定し、住所を読み取るものがあった。

【０００３】図２８は、従来の住所認識装置の構成を示
すブロック図である。図２８において、文字切り出し部
５０１では、入力画像の可能な切り出し方の全てを切り
出し候補として、一文字の切り出しが行われる。文字認
識部５０２では、一文字として切り出し可能な全ての候
補について、第１位の候補から第Ｎ位の候補までの認識
結果が出力される。キー文字抽出部５０３では、第１位
の候補から第Ｎ位の候補の中に、「都」、「道」、
「府」、「県」、「市」、「郡」、「区」、「町」、
「村」、「字」等のキー文字が１つでも含まれる場合、
その切り出し候補がキー文字として抽出される。

【０００４】地名領域候補検索部５０４では、キー文字
とキー文字との間に挟まれる領域が地名領域候補として
検索される。地名検索部５０６では、文字認識部５０２
で得られた第１位の候補から第Ｍ位（Ｍ≦Ｎ）の候補ま
での文字と地名辞書５０５とのマッチングを一文字ごと
に行い、地名辞書５０５と一文字でもマッチングする地
名が地名候補として検索される。地名候補評価値演算部
５０７では、地名候補の評価値を計算することにより、
地名検索部５０６で検索された地名候補の中から、最も
確からしい地名候補が求められる。地名候補選択部５０
９では、地名階層辞書５０８を参照することにより、地
名検索部５０６で検索された地名候補が、前後に接続す
る地名候補と矛盾が生じていないかどうかを調べ、矛盾
が生じていない地名候補が得られたら、この地名候補を
住所として出力する。

【０００５】この従来の住所認識装置は、例えば、特開
平７−２６２３２０号公報に記載されている。

【０００６】

【発明が解決しようとする課題】しかしながら、従来の
住所認識装置では、フリーピッチ領域に書かれた手書き
文字列から住所を読み取る場合、読み取り対象となる文
字同士が接触していると、接触している複数の文字が一
文字として扱われるため、誤読が生じるという問題があ
った。

【０００７】また、フリーピッチ領域から切り出し可能
な候補の全てに対して認識が行われるため、認識の対象
となるパターンの数が増加し、処理が膨大になるという
問題があった。。

【０００８】また、第１位の候補から第Ｎ位の候補の中
にキー文字が１つでも含まれる場合、その切り出し候補
の全てがキー文字として抽出される。このため、キー文
字でないものがキー文字として抽出され、地名領域を区
切るためのキー文字の組み合わせが多数出現し、処理が
膨大になるという問題があった。。

【０００９】また、第１位の候補から第Ｍ位の候補の中
に、地名辞書５０５に登録されている地名と一文字でも
マッチングする地名がある場合、それらの地名は全て地
名候補として検索されるので、地名候補が多数出現し、
住所を特定するための処理が膨大になるという問題があ
った。。

【００１０】そこで、本発明の第１の目的は、文字同士
が接触している場合においても、住所認識を精度良く行
うことが可能な住所認識装置を提供することである。ま
た、本発明の第２の目的は、住所認識を効率よく行うこ
とが可能な住所認識装置を提供することである。

【００１１】

【課題を解決するための手段】上述した課題を解決する
ために、本発明によれば、接触文字の切断結果に基づい
て、キー文字の抽出を行うキー文字抽出手段と、前記キ
ー文字の位置に基づいて、地名領域を抽出する地名領域
抽出手段と、前記接触文字の切断前の状態に基づいて、
前記地名領域の地名の認識を行う地名認識手段とを備え
ている。

【００１２】このことにより、住所を表す文字列が接触
している場合においても、キー文字を抽出することが可
能となり、地名を表す文字列を一体的に抽出することが
可能となるとともに、地名を表す文字列を一体的に処理
して地名の認識を行うことが可能となることから、地名
を表す文字列を一文字ごとに切り分ける際の処理を省略
して、住所の認識を効率的に行うことが可能となる。ま
た、地名を表す文字列を切り分ける必要がなくなること
から、地名を表す文字列が間違った位置で切断されるこ
とをなくすことができ、住所認識の正確性を向上させる
ことが可能となる。

【００１３】また、本発明の一態様によれば、キー文字
によって区切られるパターン全体の特徴ベクトルを、地
名登録辞書に登録された地名の特徴ベクトルと照合する
ことにより、地名の認識を行うようにしている。

【００１４】このことにより、地名を表す文字列を一文
字ごとに切り分けることなく、認識処理を一体的に行う
ことが可能となり、住所認識の効率性及び正確性を向上
させることが可能となる。

【００１５】また、本発明の一態様によれば、キー文字
で特定される属性ごとに地名を登録しておき、キー文字
によって区切られるパターンの特徴ベクトルを、キー文
字で特定される属性を有する地名と照合するようにして
いる。

【００１６】このことにより、例えば、キー文字によっ
て区切られるパターンの属性が「県」ならば、「県」に
関する地名を登録した辞書を用いて照合を行うことが可
能となり、キー文字で特定される属性に対応した照合が
可能となるため、認識精度を向上させることが可能とな
る。

【００１７】また、本発明の一態様によれば、入力パタ
ーンから抽出された連結パターンを切断する際に、入力
パターンのサイズに基づいて、切断位置の評価を行うよ
うにしている。

【００１８】このことにより、入力パターンからキー文
字を抽出する際に、キー文字を抽出するのに適した大き
さに連結パターンを分離することが可能となり、連結パ
ターンの切断位置の数を減らして、認識処理の回数を減
らすことが可能となることから、住所の認識を効率的に
行うことが可能となる。

【００１９】また、本発明の一態様によれば、連結パタ
ーンのサイズに基づいて、切断位置の検出を行う連結パ
ターンを選択するようにしている。このことにより、接
触文字の可能性のある比較的大きな連結パターンについ
てだけ切断位置の検出を行い、接触文字とは認められな
い小さな連結パターンについては、切断位置の検出を省
略することが可能となり、住所認識の効率性を向上させ
ることが可能となる。

【００２０】また、本発明の一態様によれば、入力パタ
ーンについての黒画素数ヒストグラムの極小点の値が所
定値以下の点を切断点候補としている。このことによ
り、文字自体のくびれ部分と他の文字との接触部分とを
識別することが可能となり、文字同士の接触点のみを精
度良く検出することが可能となることから、連結パター
ンを文字同士の接触点で切断することが可能となる。

【００２１】また、本発明の一態様によれば、連結パタ
ーンを切断した時の縦横比が所定の範囲外の領域にある
切断位置を、切断点候補から除外するようにしている。
このことにより、連結パターンがキー文字を抽出するの
に不適当な大きさに切断されることを防止して、キー文
字の対象とならないパターンが生成されることを防止す
ることが可能となり、キー文字の対象とならないパター
ンについて無駄な処理が行われることを防止することが
可能となることから、住所認識を効率的に行うことが可
能となる。

【００２２】また、本発明の一態様によれば、横書きな
ら、平均文字サイズの文字幅の１／２の大きさの倍数の
位置、縦書きなら、平均文字サイズの文字高の１／２の
大きさの倍数の位置を算出し、黒画素数ヒストグラムの
極小点のうち、算出された位置の前後一定範囲内にある
極小点だけを仮切断点候補とする。

【００２３】このことにより、横書きなら、キー文字の
「偏」または「旁」のみ、縦書きなら、キー文字の
「冠」、「連火」または「脚」のみが他の文字と接触す
る場合においても、これらのキー文字の一部分を接触文
字から効率的に抽出することが可能となり、元のキー文
字を効率的に復元することが可能となる。

【００２４】また、本発明の一態様によれば、仮切断候
補点は、平均文字サイズの１／２の大きさの倍数の位置
から一定範囲内の点のうち、黒画素数ヒストグラムの値
が最も小さい極小点である。

【００２５】このことにより、平均文字サイズの１／２
の大きさの倍数の位置から一定範囲内の中に、黒画素数
ヒストグラムの極小点が複数存在している場合において
も、仮切断候補点を１つだけに絞り込むことができ、連
結パターンが文字の切れ目でないところで細かく切断さ
れて、処理が複雑になることを防止することが可能とな
る。

【００２６】また、本発明の一態様によれば、仮切断候
補点は、黒画素数ヒストグラムの値が最も小さい極小点
のうち、平均文字サイズの１／２の大きさの倍数の位置
に最も近い点である。

【００２７】このことにより、平均文字サイズの１／２
の大きさの倍数の位置から一定範囲内の中に、黒画素数
ヒストグラムの値が最も小さい極小点が複数存在してい
る場合においても、仮切断候補点を１つだけに絞り込む
ことができ、連結パターンが文字の切れ目でないところ
で細かく切断されて、処理が複雑になることを防止する
ことが可能となる。

【００２８】また、本発明の一態様によれば、切断され
たパターンについての統合結果に基づいて、キー文字を
抽出するようにしている。このことにより、文字の一部
分のみが他の文字と接触している場合においても、文字
の一部分を他の文字と切り離し、切り離された文字の一
部分を本来の文字の残りの部分と合体させることが可能
となり、キー文字の誤認識を防止することが可能とな
る。

【００２９】また、本発明の一態様によれば、入力パタ
ーンから抽出されたキー文字候補のうち、上位にランク
されたキー文字候補を優先的に使用することにより、地
名領域を抽出するようにしている。

【００３０】このことにより、キー文字候補として誤っ
て抽出された文字が、地名領域の抽出に使用されること
を減らすことが可能となり、地名領域として抽出される
候補の数を減らして、地名の認識処理の回数を減らすこ
とが可能となることから、住所認識の効率性を向上させ
ることが可能となる。

【００３１】また、本発明の一態様によれば、キー文字
候補のキー文字らしさ、キー文字種、階層レベル、位置
座標、隣接するパターンと統合するか否かの情報を記述
したパターン情報テーブルを生成する。

【００３２】このことにより、パターン情報テーブルを
参照して、処理を迅速に行うことが可能となり、住所認
識の効率性を向上させることが可能となる。また、本発
明の一態様によれば、キー文字の配置順序及び配置位
置、またはキー文字同士の組み合わせが住所の表示に用
いられるものとして適当であるかどうかを判定するよう
にしている。

【００３３】このことにより、地名を表す文字の中に住
所のキー文字が含まれている場合においても、地名を表
す文字の中に含まれているキー文字をキー文字の抽出対
象から除去し、地名の階層を表すために用いられている
文字のみをキー文字として抽出することが可能となり、
地名領域の誤抽出を防止して、住所認識を効率的に行う
ことが可能となる。

【００３４】また、本発明の一態様によれば、一部選択
項目により指定されたキー文字が存在する場合、そのキ
ー文字の階層レベルより下の階層レベルから、キー文字
候補の組の決定を行うようにしている。

【００３５】このことにより、アンケート葉書などのよ
うに、住所の一部選択項目が設けられている場合におい
ても、キー文字抽出の精度を向上させることが可能とな
る。また、本発明の一態様によれば、上位にランクされ
たキー文字候補を用いただけでは、住所の表示として適
当なキー文字同士の組み合わせが得られない場合、下位
にランクされたキー文字候補を追加するようにしてい
る。

【００３６】このことにより、地名領域を抽出する際の
正確性を損なうことなく、キー文字候補の数を必要最小
限に抑えることが可能となる。また、本発明の一態様に
よれば、下位にランクされたキー文字候補のうち、住所
の表示に使用されるキー文字の組に欠けているものだけ
を追加するようにしている。

【００３７】このことにより、下位にランクされたキー
文字候補の中から必要なものだけを選択して、キー文字
候補とすることができ、キー文字抽出を効率的に行うこ
とが可能となる。

【００３８】また、本発明の一態様によれば、住所の文
字列から抽出されたキー文字候補のキー文字らしさを算
出し、キー文字らしさの大きいキー文字候補を優先的に
用いてキー文字候補の組を決定するようにしている。

【００３９】このことにより、抽出されたキー文字候補
の組み合わせの中から、住所階層構造知識及び住所中キ
ー文字位置知識に矛盾しないキー文字候補の組を決定す
る場合、キー文字候補の組み合わせの数を減らして処理
時間を短縮することが可能となり、住所認識を効率よく
行うことが可能となる。

【００４０】また、本発明の一態様によれば、住所表示
に用いられる地名同士の組み合わせ、または住所表示に
用いられる地名の配列順序が適当であるかどうかを判定
するようにしている。

【００４１】このことにより、地名領域のパターンに対
して複数の地名候補が提示され、それらの地名候補を組
み合わせることにより複数の住所候補が得られる場合に
おいても、住所の表示として現存しない地名の組み合わ
せを除去して、実在する住所のだけを識別することが可
能となり、住所認識の精度を向上させることが可能とな
る。

【００４２】また、本発明の一態様によれば、住所の文
字列から抽出されたパターンを一文字ずつ照合した住所
の認識結果も出力するようにしている。このことによ
り、キー文字抽出に失敗した場合においても、住所の認
識を行うことが可能となり、住所認識の信頼性を向上さ
せることが可能となる。

【００４３】また、本発明の一態様によれば、キー文字
認識用辞書に登録される文字種がキー文字種及び前記キ
ー文字種の類似文字種のみに字種限定されている。この
ことにより、入力画像から切り出されたパターンの中か
らキー文字を抽出する場合、キー文字認識用辞書に全て
の文字種が登録されている場合に比べて、入力画像から
切り出されたパターンとキー文字認識用辞書に登録され
ている文字種との比較回数を低減させることが可能とな
り、住所認識の処理時間を短縮することが可能となる。

【００４４】一方、キー文字認識用辞書にキー文字種の
みが登録されている場合には、どのようなパターンを認
識させた場合においても、キー文字種の出現順位が常に
第１位となり、認識対象のパターンがキー文字と類似し
ていると、キー文字でないパターンがキー文字として誤
って抽出されることがある。これに対し、キー文字種の
類似文字種を登録しておくことにより、キー文字に類似
しているが、キー文字でないパターンについては、キー
文字種の類似文字種の出現順位が第１位となり、キー文
字種の出現順位が下がることから、キー文字種の出現順
位を調べることにより、キー文字に類似しているキー文
字でないパターンがキー文字種かどうかを判別すること
が可能となり、キー文字に類似しているキー文字でない
パターンがキー文字として誤って抽出されることを防止
することが可能となる。

【００４５】また、本発明の一態様によれば、ある文字
種についての文字認識を行ったサンプルパターンの個数
Ｍに対し、前記文字認識の結果のＮ位以内にキー文字種
を含むサンプルパターンの個数Ｋの割合が一定値以上の
場合、前記文字種を前記キー文字種の類似文字種とする
ようにしている。

【００４６】このことにより、様々な手書き文字につい
て、キー文字として誤って抽出される頻度の大きいキー
文字でないパターンを特定することが可能となり、キー
文字種の類似文字種を精度よく判別することが可能とな
る。

【００４７】

【発明の実施の形態】以下、本発明の一実施例に係わる
住所認識装置について図面を参照しながら説明する。

【００４８】図１は、本発明の第１実施例に係わる住所
認識装置の構成を示すブロック図である。図１におい
て、キー文字抽出手段１０１は、入力画像からキー文字
の抽出を行う。一括認識手段１０は、キー文字抽出手段
１０１により抽出されたキー文字で区切られるパターン
の認識を一括して行う。この一括認識は、例えば、キー
文字で区切られるパターンをそれぞれひとまとまりとし
て、そのパターンから抽出された特徴ベクトルと、地名
単語を表す文字または文字列をひとまとまりとした特徴
ベクトルとを比較することにより行うことができる。

【００４９】このように、入力画像からキー文字を抽出
し、入力画像のパターンをキー文字の位置で区切ること
により、１つの地名単語に対応するパターンを入力画像
から一括して切り出すことが可能となり、さらに、一括
して切り出されたパターンを一括して認識するようにし
たので、住所の認識を効率よく行うことが可能となる。

【００５０】図２は、本発明の一実施例に係わる住所認
識方法を示す図である。図２において、手書き文字で
「栃木県下都賀郡壬生町」と書かれた原画像が入力され
たものとすると、「栃木県下都賀郡壬生町」という原画
像のパターンの中から、キー文字候補を抽出する。この
結果、「県」、「都」、「郡」、「町」というキー文字
候補が抽出される。

【００５１】なお、キー文字候補の抽出は、「栃木県下
都賀郡壬生町」という原画像のパターンから一文字切り
出しを行い、切り出したパターンを一文字づつ認識させ
ることにより行うことができる。

【００５２】次に、「県」、「都」、「郡」、「町」と
いうキー文字候補を組み合わせた場合、実際の住所に使
用される組み合わせだけを取り出す。この結果、
「県」、「都」、「郡」、「町」というキー文字候補の
組み合わせとして、｛県、郡、町｝というキー文字組候
補、｛都、郡、町｝というキー文字組候補、及び｛郡、
町｝というキー文字組候補が得られる。

【００５３】次に、「栃木県下都賀郡壬生町」という原
画像のパターンを、キー文字組候補の各キー文字の位置
で区切り、キー文字の位置で区切られたパターンを原画
像から切り出す。

【００５４】この結果、｛県、郡、町｝というキー文字
組候補については、「栃木」という原画像のパターンを
含む切り出し領域Ｒ１、「下都賀」という原画像のパタ
ーンを含む切り出し領域Ｒ２、及び「壬生」という原画
像のパターンを含む切り出し領域Ｒ３が得られる。

【００５５】また、｛都、郡、町｝というキー文字組候
補については、「栃木県下」という原画像のパターンを
含む切り出し領域Ｒ４、「賀」という原画像のパターン
を含む切り出し領域Ｒ５、及び「壬生」という原画像の
パターンを含む切り出し領域Ｒ６が得られる。

【００５６】また、｛郡、町｝というキー文字組候補に
ついては、「栃木県下都賀」という原画像のパターンを
含む切り出し領域Ｒ７、及び「壬生」という原画像のパ
ターンを含む切り出し領域Ｒ８が得られる。

【００５７】次に、｛県、郡、町｝というキー文字組候
補について、原画像から切り出された切り出し領域Ｒ１
〜Ｒ３に含まれるパターンの認識処理をそれぞれ一括し
て行う。この一括認識処理では、地名単語を表す文字ま
たは文字列をひとまとまりとした特徴ベクトルを地名単
語辞書１０３に登録しておく。そして、原画像の各切り
出し領域Ｒ１〜Ｒ３のパターンをそれぞれひとまとまり
として、そのパターンから抽出された特徴ベクトルと、
地名単語辞書１０３に登録されている特徴ベクトルとが
比較される。

【００５８】例えば、地名単語辞書１０３には、「栃
木」という地名単語に対応する特徴ベクトル、「下都
賀」という地名単語に対応する特徴ベクトル、「壬生」
という地名単語に対応する特徴ベクトルが登録されてい
るものとすると、切り出し領域Ｒ１〜Ｒ３に含まれる原
画像のパターンの特徴ベクトルが、地名単語辞書１０３
に登録されている特徴ベクトルと比較される。この結
果、切り出し領域Ｒ１に含まれる原画像のパターンの特
徴ベクトルと距離が近いものとして、「栃木」という地
名単語が地名単語辞書１０３から検索され、切り出し領
域Ｒ１に含まれる原画像のパターンの認識結果として、
「栃木」という地名単語が出力される。また、切り出し
領域Ｒ２に含まれる原画像のパターンの特徴ベクトルと
距離が近いものとして、「下都賀」という地名単語が地
名単語辞書１０３から検索され、切り出し領域Ｒ２に含
まれる原画像のパターンの認識結果として、「下都賀」
という地名単語が出力される。また、切り出し領域Ｒ３
に含まれる原画像のパターンの特徴ベクトルと距離が近
いものとして、「壬生」という地名単語が地名単語辞書
１０３から検索され、切り出し領域Ｒ３に含まれる原画
像のパターンの認識結果として、「壬生」という地名単
語が出力される。

【００５９】また、｛都、郡、町｝というキー文字組候
補について、原画像から切り出された切り出し領域Ｒ４
〜Ｒ６に含まれるパターンの認識処理がそれぞれ一括し
て行われる。すなわち、切り出し領域Ｒ４〜Ｒ６に含ま
れる原画像のパターンの特徴ベクトルが、地名単語辞書
１０３に登録されている特徴ベクトルと比較される。こ
こで、切り出し領域Ｒ４に含まれる「栃木県下」という
地名は、実際には存在しないため、地名単語辞書１０３
には、「栃木県下」という地名単語に対応する特徴ベク
トルは登録されていない。この結果、切り出し領域Ｒ４
に含まれる原画像のパターンの特徴ベクトルと距離が近
いものは、地名単語辞書１０３から検索されないため、
認識不能という結果が出力される。

【００６０】また、切り出し領域Ｒ５に含まれる「賀」
という地名は、実際には存在しないため、地名単語辞書
１０３には、「賀」という地名単語に対応する特徴ベク
トルは登録されていない。この結果、切り出し領域Ｒ５
に含まれる原画像のパターンの特徴ベクトルと距離が近
いものは、地名単語辞書１０３から検索されないため、
認識不能という結果が出力される。

【００６１】また、切り出し領域Ｒ６に含まれる原画像
のパターンの特徴ベクトルと距離が近いものとして、
「壬生」という地名単語が地名単語辞書１０３から検索
され、切り出し領域Ｒ６に含まれる原画像のパターンの
認識結果として、「壬生」という地名単語が出力され
る。

【００６２】また、｛郡、町｝というキー文字組候補に
ついて、原画像から切り出された切り出し領域Ｒ７、Ｒ
８に含まれるパターンの認識処理がそれぞれ一括して行
われる。すなわち、切り出し領域Ｒ７、Ｒ８に含まれる
原画像のパターンの特徴ベクトルが、地名単語辞書１０
３に登録されている特徴ベクトルと比較される。ここ
で、切り出し領域Ｒ７に含まれる「栃木県下都賀」とい
う地名は、実際には存在しないため、地名単語辞書１０
３には、「栃木県下都賀」という地名単語に対応する特
徴ベクトルは登録されていない。この結果、切り出し領
域Ｒ７に含まれる原画像のパターンの特徴ベクトルと距
離が近いものは、地名単語辞書１０３から検索されない
ため、認識不能という結果が出力される。

【００６３】また、切り出し領域Ｒ８に含まれる原画像
のパターンの特徴ベクトルと距離が近いものとして、
「壬生」という地名単語が地名単語辞書１０３から検索
され、切り出し領域Ｒ８に含まれる原画像のパターンの
認識結果として、「壬生」という地名単語が出力され
る。

【００６４】地名単語の一括認識処理を行った結果、
｛都、郡、町｝というキー文字組候補、及び｛郡、町｝
というキー文字組候補については、地名単語の認識不能
という結果が出力されたので、これらのキー文字組候補
を却下し、｛県、郡、町｝というキー文字組候補を選択
する。この結果、手書き文字で書かれた「栃木県下都賀
郡壬生町」という原画像のパターンについて、「栃木県
下都賀郡壬生町」という住所の認識結果を出力すること
が可能となる。図３は、本発明の第２実施例に係わる住
所認識装置の構成を示すブロック図である。図３におい
て、接触位置判定手段１は、接触文字の接触位置を判定
する。接触文字切断手段２は、接触位置判定手段１で判
定された接触位置で接触文字を切断する。キー文字抽出
手段３は、接触文字切断手段２による接触文字の切断結
果に基づいて、キー文字の抽出を行う。地名領域抽出手
段４は、キー文字抽出手段３で抽出されたキー文字の位
置に基づいて、地名領域を抽出する。地名認識手段５
は、接触文字の切断前の状態に基づいて、地名領域抽出
手段４で抽出された地名領域の地名の認識を行う。

【００６５】住所の認識対象となるパターンが入力され
ると、接触文字の接触位置が判定され、接触文字の切断
が行われる。接触文字が切断されると、切断された文字
ごとに文字認識が行われ、キー文字が抽出される。キー
文字が抽出されると、キー文字で区切られるパターンを
一体的に取り出し、キー文字によって区切られるパター
ン全体の特徴ベクトルを、地名の特徴ベクトルと照合す
ることにより、地名の認識を行う。

【００６６】このように、接触文字のパターンの切断処
理をキー文字抽出処理に用いることにより、キー文字領
域以外の領域で入力パターンが細切れにされることを防
止することが可能となり、認識処理の対象となるパター
ンが多数生成されることを防止して、認識処理の回数を
減らし、キー文字の抽出を効率的に行うことが可能とな
る。

【００６７】また、キー文字によって区切られるパター
ン全体を一体的に認識することにより、キー文字によっ
て区切られるパターンを一文字ごとに切り分ける必要が
なくなり、処理を簡略化できるとともに、パターンの切
断位置を間違えることによる誤認識をなくすことが可能
となり、住所認識の正確性を向上させることが可能とな
る。

【００６８】さらに、キー文字によって区切られるパタ
ーン全体が一体的に処理されるので、キー文字によって
区切られるパターンの中の一文字でも一致する地名を全
て検索する場合に比べて、地名候補の数を減らすことが
可能となり、処理の効率化を図ることが可能となる。

【００６９】図４は、本発明の第３実施例に係わる住所
認識装置の構成を示すブロック図である。図４におい
て、切断位置検出手段１１は、連結パターンの切断位置
を検出する。切断位置評価手段１２は、入力パターンの
サイズに基づいて、切断位置検出手段１１で検出された
切断位置の評価を行う。連結パターン切断手段１３は、
切断位置評価手段１２での評価結果に基づいて、連結パ
ターンを切断する。キー文字抽出手段１４は、連結パタ
ーン切断手段１３による連結パターンの切断結果に基づ
いて、キー文字を抽出する。地名領域抽出手段１５は、
キー文字抽出手段１４で抽出されたキー文字の位置に基
づいて、地名領域を抽出する。地名認識手段１６は、地
名領域抽出手段１５で抽出された地名領域の地名の認識
を行う。

【００７０】住所の認識対象となるパターンが入力され
ると、切断対象となるパターンを特定する。そして、切
断対象となるパターンについて、黒画素数ヒストグラム
を算出し、黒画素数ヒストグラムの極小点のうち、極小
点での値が所定値以下の点を切断点候補とする。ここ
で、これらの切断点候補の全ての位置でパターンを切断
すると、キー文字抽出に関係のない位置でパターンが細
切れにされ、その後の処理が増加する。このため、これ
らの切断点候補の中から、キー文字抽出と関係のある点
を選別する。具体的には、パターンを切断した時の縦横
比が所定の範囲内にある領域を検出し、この領域外にあ
る切断点候補を切断位置から除外する。この結果、キー
文字のサイズに対応した領域を一文字領域として切り出
すことができ、処理の効率化を図ることが可能となる。

【００７１】図５は、本発明の第４実施例に係わる住所
認識装置の構成を示すブロック図である。図５におい
て、キー文字候補抽出手段２１は、入力パターンからキ
ー文字候補を抽出する。ランク付け手段２２は、キー文
字候補抽出手段２１で抽出されたキー文字候補の認識結
果に基づいて、キー文字候補のランク付けを行う。地名
領域抽出手段２３は、ランク付け手段２２により上位に
ランクされたキー文字候補の位置に基づいて、地名領域
を抽出する。地名認識手段２４は、地名領域抽出手段２
３で抽出された地名領域の地名の認識を行う。

【００７２】住所の認識対象となるパターンが入力され
ると、入力されたパターンからキー文字候補を抽出す
る。このキー文字候補の抽出では、手書き文字が誤認識
された結果、キー文字でないものがキー文字候補として
抽出される場合があり、このような誤認識があると、キ
ー文字候補として抽出されるパターンの数が増加し、処
理時間が増加する。このため、認識結果の距離や順位な
どに基づいて、キー文字らしさを定義し、キー文字らし
さが大きいものを優先的にキー文字候補として使用す
る。この結果、キー文字候補として誤って抽出されたパ
ターンをキー文字候補から除外し、地名領域の候補に挙
がる数を減らすことができるので、処理を効率よく行う
ことが可能となる。

【００７３】図６は、本発明の第５実施例に係わる住所
認識装置の構成を示すブロック図である。この住所認識
装置は、光学的文字認識装置（ＯＣＲ）により、アンケ
ート葉書やユーザ登録葉書、通信販売等の発注用葉書な
どの横書きの一文字枠のない自由手書き文字の住所を読
み取る場合などに使用することができる。

【００７４】図６において、ラベリング部３１は、スキ
ャナ等で読み込まれた二値化された画像から住所領域を
抽出して切り出しを行ったパターンに対し、各連結成分
ごとにラベル付けを行う。

【００７５】一文字領域決定部３２は、ラベル付けされ
た連結パターンのサイズや隣接するパターンとの距離な
どから、連結パターンの統合を行い、一文字領域を求め
る。平均文字サイズ計算部３３は、接触文字などの他の
パターンと比べて大きなパターン、及び他のパターンと
比べて小さなパターンを除くなどして平均文字サイズを
計算する。

【００７６】接触箇所判定・切断部３４は、ヒストグラ
ム作成部３５、仮切断点候補抽出部３６及び仮切断点候
補決定部３７を備えている。ヒストグラム作成部３５
は、横書きなら、平均文字幅に対するパターンの幅の
比、縦書きなら、平均文字高に対するパターンの高さの
比、及び、パターンの外接矩形の縦横比等を用いてパタ
ーンの接触の可能性を判定する。そして、接触文字と判
定されたパターンに対して、文字列と垂直方向に黒画素
数をカウントし、移動平均を用いて平滑化した黒画素数
ヒストグラムを作成する。

【００７７】仮切断点候補抽出部３６は、ヒストグラム
作成部３５により作成された黒画素数ヒストグラムから
極小点を検出し、黒画素数ヒストグラムの極小点の値が
しきい値以下の点を仮切断点候補とする。

【００７８】仮切断点候補決定部３７は、対象パターン
において、横書きなら、パターンの外接矩形の端点から
水平方向に平均文字幅の１／２の整数倍の点が最も接触
個所である可能性の高い点として、これらの点から一定
の範囲内にある仮切断点候補を、仮切断点として決定す
る。平均文字幅の１／２の整数倍の点から一定の範囲内
に仮切断点候補が複数あった場合、黒画素数ヒストグラ
ムの値が最も小さい点を、仮切断点として決定する。黒
画素数ヒストグラムの値が最も小さい点が複数あった場
合、平均文字幅の１／２の整数倍の点からの距離が最も
小さい点を、仮切断点として決定する。

【００７９】また、対象パターンにおいて、縦書きな
ら、パターンの外接矩形の端点から垂直方向に平均文字
高の１／２の整数倍の点が最も接触個所である可能性の
高い点として、これらの点から一定の範囲内にある仮切
断点候補を、仮切断点として決定する。平均文字高の１
／２の整数倍の点から一定の範囲内に仮切断点候補が複
数あった場合、黒画素数ヒストグラムの値が最も小さい
点を、仮切断点として決定する。黒画素数ヒストグラム
の値が最も小さい点が複数あった場合、平均文字高の１
／２の整数倍の点からの距離が最も小さい点を、仮切断
点として決定する。

【００８０】仮切断点が得られたら、仮切断点を通る直
線または曲線でパターンを仮切断する。キー文字認識用
辞書３８は、住所に関係している文字の特徴ベクトルを
格納する。

【００８１】キー文字候補抽出部３９は、パターン統合
判定・統合部４０、特徴抽出部４１、辞書照合部４２及
びパターン情報テーブル作成部４３を備えている。パタ
ーン統合判定・統合部４０は、文字列の端のパターンか
ら順に、互いに隣接するパターンを統合した場合、統合
パターンが文字である可能性があるか否かを、統合後の
パターンの幅と高さに基づいて判定する。そして、文字
である可能性があると判定された統合パターンが得られ
た場合、統合可能なパターンを隣接するパターンと仮統
合することにより、仮統合パターンを生成する。

【００８２】特徴抽出部４１は、統合不可のパターンに
対しては、単独パターンのみについて特徴抽出を行い、
統合可能なパターンに対しては、単独パターンと統合パ
ターンの双方について特徴抽出を行う。

【００８３】辞書照合部４２は、統合不可のパターンに
対しては、単独パターンの特徴ベクトルとキー文字認識
用辞書３８に登録されている文字の特徴ベクトルとを照
合することにより、第１位〜第Ｎ位までの候補文字種を
出力する。また、統合可能なパターンに対しては、単独
パターンと統合パターンのそれぞれの特徴ベクトルとキ
ー文字認識用辞書３８に登録されている文字の特徴ベク
トルとを照合することにより、単独パターンと統合パタ
ーンのそれぞれについて、第１位〜第Ｎ位までの候補文
字種を出力する。

【００８４】パターン情報テーブル作成部４３は、第１
位〜第Ｎ位までの候補文字種の距離を求め、第Ｎ位まで
の候補文字種内にキー文字が含まれている場合、キー文
字に対応する候補文字種の距離または出現順位などによ
って、キー文字らしさを計算する。

【００８５】例えば、このキー文字らしさは、パターン
を認識させた時の相違度または類似度で定義することが
できる。キー文字らしさの度合いを相違度を使って定義
すると、以下のような関数で表現することができる。

【００８６】認識対象のパターンの特徴ベクトルと辞書
に登録されている文字種の特徴ベクトルとの間の距離の
ように、一般に値が大きくなると、辞書に登録されてい
る文字種である可能性が低くなる尺度を、相違度とい
う。あるパターンのキー文字種ｋに対するキー文字らし
さの度合いをｆｋとする。ｆｋは、あるパターンとキー
文字種ｋとの相違度ｄの関数である。ｆｋに期待される
性質は以下の通りである。

【００８７】ａ．あるパターンがキー文字種ｋに対し
て、最もキー文字らしい時１、最もキー文字らしくない
時０の値をとる。すなわち、ｆｋは、あるパターンとキ
ー文字種ｋとの相違度ｄが最小値ｄｍｉｎの時１、最大
値ｄｍａｘの時１をとることから、以下の条件を満た
す。

【００８８】ｆｋ（ｄｍｉｎ）＝１ｆｋ（ｄｍａｘ）＝００≦ｆｋ（ｄ）≦１ただし、ｄｍｉｎ≦ｄ≦ｄｍａｘである。

【００８９】ｂ．相違度ｄが一定の場合、対象とするキ
ー文字種の認識候補中の出現順位が低いほど、そのキー
文字らしさの度合いは低くなる。ｃ．相違度と認識候補
中の出現順位が同一の場合で、かつ、対象とするキー文
字種の認識候補中の出現順位が第１位でない場合、第１
位文字種との相違度と、キー文字種との相違度との差が
大きいほど、キー文字らしさの度合いは低くなる。

【００９０】以上の３つの性質を満たす関数は、例え
ば、次式のように実現できる。ｆｋ（ｄｉ）＝１／｛１＋ｉ×（（ｄ１−ｄｉ）／ｄ
ｃ）×（ｄｉ／ｄｃ）｝ただし、０≦ｄｉ＜∞である。

【００９１】ここで、ｉは、あるパターンを認識させた
時、認識結果候補文字種にキー文字種ｋが出現した順位
であり、ｄｉはその時の相違度、ｄｃは実験によって適
切に決定される定数である。

【００９２】また、キー文字らしさの度合いを類似度を
使って定義すると、以下のような関数で表現することが
できる。一般に、値が小さくなると、あるパターンが文
字種ｋである可能性が低くなる尺度を、類似度という。
類似度を使った場合、ｆｋは、あるパターンとキー文字
種ｋとの類似度ｓの関数となり、以下の性質を持つ。

【００９３】ａ．あるパターンがキー文字種ｋに対して
最もキー文字らしい時１、最もキー文字らしくない時０
の値をとる。すなわち、あるパターンのキー文字種ｋと
の類似度ｓが最大値の時ｓｍａｘ１、最小値ｓｍｉｎの
時０となることから、ｆｋは、以下の条件を満足する。

【００９４】ｆｋ（ｓｍａｘ）＝１ｆｋ（ｓｍｉｎ）＝００≦ｆｋ（ｓ）≦１ｂ．類似度が一定の場合、対象とするキー文字種の認識
候補中の出現順位が低いほど、そのキー文字らしさの度
合いは低くなる。

【００９５】ｃ．類似度と候補順位が同一の場合で、か
つ、対象とするキー文字種の認識候補中の出現順位が第
１位でない場合、第１位文字種との類似度と、キー文字
種との類似度との差が大きいほど、キー文字らしさの度
合いは低くなる。

【００９６】以上の３つの性質を満たす関数は、例え
ば、次式のように実現できる。ｆｋ（ｄｉ）＝（ｓｉ／ｓｃ）／｛１＋ｉ×（（ｓｉ−
ｓ１）／ｓｃ）｝ただし、０≦ｆｋ≦１，０≦ｓｉ＜１である。

【００９７】ここで、ｉは、あるパターンを認識させた
時、認識結果候補文字種にキー文字種ｋが出現した順位
であり、ｓｉはその時の類似度、ｓｃは実験によって適
切に決定される定数である。

【００９８】キー文字らしさが計算されると、キー文字
らしさがしきい値以上のものをキー文字候補とし、しき
い値より小さく、０でないものを準キー文字候補とす
る。以上のようにして求めたキー文字らしさ、キー文字
らしさが０でないキー文字種、仮切断・仮統合の有無、
画像中の外接矩形座標等の情報をパターン情報テーブル
に登録する。

【００９９】住所知識部４４は、住所階層構造知識部４
５及び住所中キー文字位置知識部４６を備えている。住
所階層構造知識部４５は、「都」、「道」、「府」、
「県」、「市」、「町」、「村」及び「郡」等のキー文
字の階層構造に関する住所階層構造知識を登録する。例
えば、キー文字の「群」の後の住所の中には、キー文字
の「町」、「村」のみが存在し、キー文字の「区」、
「市」などが存在することはないという情報などが登録
される。なお、住所階層構造知識では、最上階層の
「都」、「道」、「府」または「県」が省略された場合
も考慮される。

【０１００】住所中キー文字位置知識部４６は、キー文
字の住所中での可能な配置位置に関する住所中キー文字
位置知識を登録する。例えば、キー文字は住所の先頭に
配置されることはないという情報や、キー文字が隣接し
て出現することはないという情報、キー文字として
「県」が最後にくる地名の文字数は、３文字または４文
字であるという情報などが登録される。

【０１０１】キー文字組候補決定部４７は、住所階層構
造知識部４５及び住所中キー文字位置知識部４６から、
住所階層構造知識と住所中キー文字位置知識とを呼び出
す。そして、抽出したキー文字の全ての組み合わせにつ
いて、住所階層構造知識及び住所中キー文字位置知識に
矛盾しないものを、キー文字候補の組として決定する。
キー文字候補の組が決定されなかった場合は、不足キー
文字再抽出部４８に対し、不足するキー文字の階層及び
文字種の情報を送り、キー文字候補の再抽出を要求す
る。キー文字候補の再抽出が成功した場合は、再抽出さ
れたキー文字候補も含めて、キー文字候補の組を決定す
る。キー文字候補の組が決定されると、仮切断・仮統合
していたものを切断・統合することに決定する。

【０１０２】不足キー文字再抽出部４８は、パターン情
報テーブルに登録されているキー文字候補を用いただけ
では、住所階層構造知識及び住所中キー文字位置知識と
矛盾しないキー文字候補の組み合わせが見つからず、キ
ー文字候補の組を決定できなかった場合、パターン情報
テーブルに登録されている準キー文字候補のうち、不足
する階層のキー文字種を認識結果の第Ｎ位までに含むパ
ターンを、キー文字候補として再抽出する。

【０１０３】地名単語領域切り出し部４９は、キー文字
組候補決定部４７により決定されたキー文字候補の組を
用いることにより、住所の最初の文字から最初のキー文
字の直前の全パターン、及び２番目以降のキー文字の間
に挟まれれている全パターンのそれぞれを、１つの地名
単語として切り出す。

【０１０４】地名単語認識用辞書５０は、日本全国の地
名の特徴ベクトルを登録する。ここで、地名単語認識用
辞書５０に登録される地名の特徴ベクトルは、地名を表
す文字または文字列を１つの地名ごとにひとまとまりに
表現したものである。なお、地名の特徴ベクトルは、学
習パターンから抽出することができる。

【０１０５】地名単語一括認識部５１は、特徴抽出部５
２及び辞書照合部５３を備えている。特徴抽出部５２
は、行頭からキー文字までの間に存在する地名単語パタ
ーン、及びキー文字の間に存在する地名単語パターンを
それぞれから特徴ベクトルを抽出する。

【０１０６】辞書照合部５３は、特徴抽出部５２で抽出
された地名単語パターンの特徴ベクトルと、地名単語認
識用辞書５０に登録されている地名の特徴ベクトルとを
照合することにより、地名候補を出力する。

【０１０７】一文字認識用辞書５４は、文字の特徴ベク
トルを一文字ごとに登録する。一文字認識部５５は、一
文字切り出し部５６、特徴抽出部５７及び辞書照合部５
８を備えている。なお、「丁目」、「番地」、「方書」
などの地名でもなく、キー文字でもないパターンを読み
取る場合、これらのパターンを一文字ずつ切り離して、
一文字認識を行う。

【０１０８】一文字切り出し部５６は、入力パターンか
ら一文字ずつ切り出しを行う。特徴抽出部５７は、一文
字切り出し部５６で切り出されたパターンの特徴ベクト
ルを抽出する。

【０１０９】辞書照合部５８は、特徴抽出部５７で抽出
された特徴ベクトルと、一文字認識用辞書部５４に登録
されている文字の特徴ベクトルとを照合することによ
り、文字認識を行う。

【０１１０】住所知識部５９は、住所表示に用いられる
地名同士の組み合わせの可否、または住所表示に用いら
れる地名の配列順序が適当であるかどうかの地名知識を
登録する。なお、住所知識部５９には、実存する地名を
コード化して格納することができる。

【０１１１】住所決定部６０は、住所知識部５９を参照
することにより、地名単語一括認識部５１から出力され
た地名候補が、前後に接続する地名候補と矛盾しないか
どうかを調べ、矛盾しない地名候補の組を住所読取り結
果として出力する。

【０１１２】このように、第１位〜第Ｎ位までの間にキ
ー文字種を含む全てのパターンを、キー文字候補として
考慮するのではなく、認識結果の距離とキー文字の順位
の双方から「キー文字らしさ」を定義する。そして、キ
ー文字らしさが高いものだけを対象として、住所階層構
造知識及び住所中キー文字位置知識に矛盾しないキー文
字候補の組を求める。そして、キー文字が不足するた
め、住所階層構造知識及び住所中キー文字位置知識に矛
盾しないキー文字候補の組を求めることができなかった
場合にのみ、キー文字らしさのより低いパターンの中か
ら、不足している階層のキー文字種を認識結果に持つパ
ターンを再抽出することにより、候補数を少なくして誤
マッチングの可能性を低減させ、効率の良い処理を行う
ことが可能となる。

【０１１３】また、接触処理、切断処理及び統合処理を
キー文字抽出処理だけに適用し、地名単語パターンを認
識する場合には、地名単語パターンを一体的に扱って処
理を行うことにより、キー文字が他の文字と接触してい
る場合でも、キー文字を正確に抽出することが可能とな
るとともに、地名単語パターンについては接触処理、切
断処理及び統合処理を省略して、認識処理を行うことが
可能となり、処理を効率よく行うことが可能となる。

【０１１４】また、地名単語パターンを認識する場合、
一文字ごとに切り離して認識するのでなく、地名単語パ
ターンを一体的に扱って特徴抽出及び辞書照合を行うこ
とにより、地名単語パターンを切り離すことによる誤切
り出し及び誤認識を避けることが可能となり、認識率を
向上させることが可能となる。例えば、住所の中に
「川」などの分離文字が使用されている場合において
も、誤切り出しによる誤認識を避けることができる。こ
の結果、ユーザ登録カードやアンケート葉書などのよう
に、フリーピッチ手書きの住所画像に文字間接触がある
場合においても、住所読取りの精度を向上させることが
可能となる。

【０１１５】また、キー文字が癖字で読み取れなかった
場合、一文字認識部５５を作動させて素読みの結果を出
力させることにより、住所認識の信頼性を向上させるこ
とができる。

【０１１６】図７は、本発明の一実施例に係わる切断箇
所判定・切断処理を示すフローチャートである。図７に
おいて、切断箇所判定・切断部３４は、一文字領域決定
部３２で決定された一文字領域のパターンについて、縦
横比の計算を行う（ステップＳ１）。そして、パターン
の縦横比がしきい値より小さい場合、そのパターンにつ
いては他の文字との接触の可能性がないものとみなし
て、パターンの切断対象の候補から除外する（ステップ
Ｓ２）。

【０１１７】一方、パターンの縦横比がしきい値以上の
場合、ヒストグラム作成部３５は、パターンの縦横比に
基づいて接触文字数の推定を行い（ステップＳ３）、そ
のパターンについての黒画素数ヒストグラムを作成する
（ステップＳ４）。

【０１１８】次に、仮切断点候補抽出部３６は、ヒスト
グラム作成部３５により作成された黒画素数ヒストグラ
ムの極小点を検出し（ステップＳ５）、黒画素数ヒスト
グラムの極小点の値がしきい値以下の点を仮切断点候補
とする。

【０１１９】次に、仮切断点候補決定部３７は、仮切断
点候補が検出されたパターンについて、横書きなら、パ
ターンの外接矩形の端点から水平方向に平均文字幅の１
／２の整数倍の点、縦書きなら、パターンの外接矩形の
端点から垂直方向に平均文字高の１／２の整数倍の点を
抽出する。そして、これらの点から一定の範囲内にある
仮切断点候補を、仮切断点として決定する（ステップＳ
６）。

【０１２０】次に、切断箇所判定・切断部３４は、仮切
断点候補決定部３７で決定された仮切断点の数が０より
大きい場合（ステップＳ７）、仮切断点を通る直線また
は曲線でパターンを仮切断し（ステップＳ８）、仮切断
点候補決定部３７で決定された仮切断点の数が０の場
合、仮切断を行わない。

【０１２１】図８は、本発明の一実施例に係わるキー文
字候補抽出処理を示すフローチャートである。図８にお
いて、キー文字候補抽出部３９は、仮切断により得られ
たパターンを個々に処理することにより、単独パターン
の認識を行う（ステップＳ１１）。単独パターンの認識
では、キー文字認識用辞書３８が参照され、仮切断によ
り得られたパターンと、キー文字認識用辞書３８に登録
されているパターンとを照合することにより、第１位〜
第Ｎ位までの候補文字種を出力する。

【０１２２】次に、単独パターンについての認識結果を
用いることにより、単独パターンのキー文字らしさを計
算する（ステップＳ１２）。次に、単独パターンのキー
文字らしさに基づいて、単独パターンがキー文字候補、
準キー文字候補、及び非キー文字のいずれに属するかを
判定する（ステップＳ１３）。

【０１２３】次に、パターン統合判定・統合部４０は、
隣接するパターンを単独パターンに統合した場合、統合
パターンが文字である可能性があるか否かを、統合後の
パターンの幅と高さに基づいて判定する（ステップＳ１
４）。そして、統合パターンが文字である可能性がある
場合、単独パターンを隣接するパターンと仮統合するこ
とにより、統合パターンを生成する（ステップＳ１
５）。

【０１２４】次に、統合パターンとキー文字認識用辞書
３８に登録されているパターンとを照合することによ
り、統合パターンについて、第１位〜第Ｎ位までの候補
文字種を出力する（ステップＳ１６）。

【０１２５】次に、統合パターンについての認識結果を
用いることにより、統合パターンのキー文字らしさを計
算する（ステップＳ１７）。次に、統合パターンのキー
文字らしさに基づいて、統合パターンがキー文字候補、
準キー文字候補、及び非キー文字のいずれに属するかを
判定する（ステップＳ１８）。

【０１２６】次に、パターン情報テーブル作成部４３
は、単独パターンと統合パターンのそれぞれについて、
キー文字らしさ、キー文字らしさが０でないキー文字
種、仮切断・仮統合の有無、画像中の外接矩形座標等の
情報をパターン情報テーブルに登録する（ステップＳ１
９）。

【０１２７】以上の処理が、仮切断後の全てのパターン
について行われたかどうかを判断し、全てのパターンの
処理が終了していない場合は、ステップＳ１１に戻って
処理を繰り返す（ステップＳ２０）。

【０１２８】図９は、本発明の一実施例に係わるキー文
字組候補決定処理及びキー文字再抽出処理を示すフロー
チャートである。図９において、キー文字組候補決定部
４７は、住所階層構造知識部４５の住所階層構造知識６
１及び住所中キー文字位置知識部４６の住所中キー文字
位置知識６２を参照する。そして、キー文字候補抽出部
３９で抽出されたキー文字候補の全ての組み合わせにつ
いて、住所階層構造知識６１及び住所中キー文字位置知
識６２に矛盾しないものキー文字セットとして抽出する
（ステップＳ２１）。

【０１２９】次に、キー文字セットの候補数が０より大
きい場合（ステップＳ２２）、抽出成功とする。一方、
キー文字セットが抽出されなかった場合、住所階層構造
知識６１及び住所中キー文字位置知識６２を参照するこ
とにより、不足するキー文字の階層及び文字種を推定し
（ステップＳ２３）、不足キー文字再抽出部４８に送
る。

【０１３０】次に、不足キー文字再抽出部４８は、パタ
ーン情報テーブル６３を参照し、パターン情報テーブル
６３に登録されている準キー文字候補のうち、不足する
階層のキー文字種を認識結果の第Ｎ位までに含むパター
ンを、キー文字候補として再抽出する（ステップＳ２
４）。

【０１３１】次に、不足キー文字再抽出部４８で再抽出
された準キー文字候補を含めたキー文字候補の全ての組
み合わせについて、住所階層構造知識６１及び住所中キ
ー文字位置知識６２に矛盾しないものキー文字セットと
して抽出する。

【０１３２】次に、キー文字セットの候補数が０より大
きい場合（ステップＳ２５）、再抽出成功とする。一
方、キー文字セットが抽出されなかった場合、キー文字
抽出失敗として、エラーコードを出力する。ただし、キ
ー文字セットが抽出されなかった場合でも、一文字認識
部５５を起動することにより、一文字ごとの認識結果を
出力することができる。このため、キー文字抽出の失敗
によって住所の読み取りが不可能になることが救済でき
る。

【０１３３】以下、本発明の実施例に係わる住所認識装
置について、実際の手書き文字列を例にとってより具体
的に説明する。図１０（ａ）は、文字間接触を有する手
書き住所文字列の第１の例を示す図である。

【０１３４】図１０（ａ）において、アンケート葉書等
のフリーピッチ欄に「余市郡余市町」という住所が手書
きにより記入されているものする。この手書きされた住
所の文字列はスキャナ等で読み取られ、二値化された画
像データから行抽出が行われる。この文字列画像に対
し、ラベリング部３１によるラベル付けが異なる連結成
分ごとに行われる。

【０１３５】この結果、最初の「余」の一部と最初の
「市」と「郡」の左半分は互いに接触しているため、こ
れらのパターンは１つの連結成分として、ラベル１が付
される。最初の「余」の残りの部分にはラベル２及びラ
ベル３が付され、「群」の右半分にはラベル４が付され
る。２番目の「余」は３つの分離パターンを含んでいる
ため、ラベル５〜ラベル７が付され、２番目の「市」は
２つの分離パターンを含んでいるため、ラベル８及びラ
ベル９が付され、「町」にはラベル１０が付される。ラ
ベル１〜１０が付された連結成分が抽出されると、各連
結成分を囲む外接矩形が生成される。

【０１３６】図１０（ｂ）は、外接矩形で囲まれたラベ
ル画像を示す図である。図１０（ｂ）において、ラベル
１〜１０が付された連結成分のそれぞれに対応して、各
連結成分を囲む外接矩形Ｋ１〜Ｋ１０が生成されてい
る。外接矩形Ｋ１〜Ｋ１０が生成されると、外接矩形Ｋ
１〜Ｋ１０の重なり度を判定し、重なり度が大きいもの
は、統合する。

【０１３７】図１０（ｃ）は、外接矩形の統合結果を示
す図である。図１０（ｃ）において、外接矩形Ｋ２、Ｋ
３は、外接矩形Ｋ１の中に含まれているので、外接矩形
Ｋ２、Ｋ３は外接矩形Ｋ１と統合する。また、外接矩形
Ｋ６、Ｋ７は、外接矩形Ｋ５の中に含まれているので、
外接矩形Ｋ６、Ｋ７は外接矩形Ｋ５と統合する。

【０１３８】このように、重なり度が大きい外接矩形同
士を統合することにより、文字の構成部分が分離してい
るために、同一の文字の各部分パターンに異なるラベル
が付された場合においても、同一の文字の構成部分とし
て一緒に処理することが可能となる。

【０１３９】一文字領域抽出部３２は、統合により得ら
れた外接矩形Ｋ１、Ｋ４、Ｋ５、Ｋ８、Ｋ１０の位置に
基づいて、一文字領域を求める。一文字領域が求まる
と、平均文字サイズ計算部３３は、極端に大きいかまた
は小さいサイズの外接矩形を一文字領域から除くなどし
て、平均文字幅Ｗｅと平均文字高Ｗｈを計算する。例え
ば、外接矩形Ｋ１、Ｋ４を除外し、外接矩形Ｋ５、Ｋ
８、Ｋ１０だけを用いることにより、平均文字幅Ｗｅと
平均文字高Ｗｈを計算する。

【０１４０】接触文字判定・切断部３４は、外接矩形Ｋ
１、Ｋ４、Ｋ５、Ｋ８、Ｋ１０内のパターンのそれぞれ
について、接触文字か否かの判定を行い、接触文字と判
定されたパターンの切断を行う。すなわち、外接矩形Ｋ
１、Ｋ４、Ｋ５、Ｋ８、Ｋ１０のそれぞれについて幅Ｗ
及び高さＨを求める。そして、幅／高さのしきい値をＲ
ｔｈ、横書きならば、幅のしきい値をＷｔｈ、縦書きな
らば、高さのしきい値をＨｔｈとした時、Ｗ＞Ｗｔｈ、かつ、Ｗ／Ｈ＞Ｒｔｈ（横書きの場合）Ｈ＞Ｈｔｈ、かつ、Ｗ／Ｈ＜Ｒｔｈ（縦書きの場合）を満たす外接矩形が存在する場合、その外接矩形内のパ
ターンを接触文字とみなす。

【０１４１】図１０（ｃ）の例において、外接矩形Ｋ
１、Ｋ４、Ｋ５、Ｋ８、Ｋ１０のうち、外接矩形Ｋ１が
上記の条件を満たしているものとし、外接矩形Ｋ１内の
パターンが接触文字とみなされたものとして、以下の説
明を行う。

【０１４２】図１１（ａ）は、接触文字列の抽出結果を
示す図である。図１１（ａ）において、接触文字の候補
として、外接矩形Ｋ１内のパターンが示されている。接
触文字の候補が抽出されると、横書きなら、Ｗｅ／２、
縦書きなら、Ｈｅ／２をもとに、接触文字数を計算す
る。すなわち、接触文字数は、１．５個、２．０個、
２．５個・・・というように、０．５文字ごとに誤差を
丸めて計算する。この結果、図１１（ａ）の接触文字で
は、接触文字数＝２．５と計算される。

【０１４３】このように、接触文字数を半文字単位で計
算することにより、横書きなら、文字の「偏」または
「旁」のみ、縦書きなら、文字の「冠」、「連火」また
は「脚」のみが接触していても、接触文字を効率よく切
断することができる。接触文字数が計算されると、接触
文字列の黒画素数ヒストグラム上における仮切断点候補
の位置を求める。

【０１４４】図１１（ｂ）は、接触文字列の黒画素数ヒ
ストグラム上における仮切断点候補の位置を示す図であ
る。図１１（ｂ）において、ヒストグラム作成部３５
は、図１１（ａ）のパターンを垂直方向に走査すること
により、黒画素数ヒストグラムを求め、移動平均等で平
滑化する。

【０１４５】仮切断点候補抽出部３６は、黒画素数ヒス
トグラムの極小点のうち、黒画素数ヒストグラム値のし
きい値Ｈｔｈより小さい点を全て求め、この点を仮切断
点候補とする。図１０（ｂ）の例では、黒画素数ヒスト
グラムのしきい値Ｈｔｈ＝１３に設定され、仮切断点候
補として点Ｐ１〜Ｐ６が求まる。なお、黒画素数ヒスト
グラムのしきい値Ｈｔｈは、入力画像の解像度に基づい
て設定してもよく、解像度が大きい画像では、黒画素数
ヒストグラムのしきい値Ｈｔｈを大きく設定するように
してもよい。

【０１４６】仮切断点候補決定部３７は、黒画素数ヒス
トグラムの横軸上において、横書きなら、文字幅Ｗ、縦
書きなら、文字高Ｈを、半文字ごとに分割した点Ｃｉ
（ｉ＝１，２，・・・）を求める。図１１（ｂ）の例で
は、接触文字数が２．５と計算されているので、Ｃ１〜
Ｃ４の４個の分割点が得られる。

【０１４７】次に、各分割点Ｃｉに対して、黒画素数ヒ
ストグラムの横軸方向の距離Ｄｔｈの範囲内にある仮切
断点候補から、最大でも１つとなるように仮切断点を決
定する。すなわち、分割点Ｃｉから距離Ｄｔｈの範囲内
にある仮切断点候補の数が１つだけの場合は、その点を
仮切断点として決定する。分割点Ｃｉから距離Ｄｔｈの
範囲内にある仮切断点候補の数が複数ある場合は、黒画
素数ヒストグラム値が最小の点を仮切断点として決定す
る。すなわち、分割点Ｃｉから距離Ｄｔｈの範囲内にあ
る仮切断点候補がｍ（ｍ＞１）個だけあるとし、それぞ
れの点における黒画素数ヒストグラム値がｈｋ（ｋ＝
１，・・・，ｍ）とすると、ｍｉｎ（ｈｋ）（ｋ＝１，・・・，ｍ）となる仮切断点候補Ｐｋを仮切断点とする。

【０１４８】ただし、この条件を満たす仮切断点候補Ｐ
ｋも複数ある場合には、分割点Ｃｉからの横軸方向にお
ける距離Ｄｔｈが最小の点を、仮切断点とする。図１１
（ｂ）の例では、仮切断点候補Ｐ１は、分割点Ｃ２から
距離Ｄｔｈの範囲内に存在し、仮切断点候補Ｐ１〜Ｐ６
のうち、分割点Ｃ２から距離Ｄｔｈの範囲内にあるの
は、仮切断点候補Ｐ１のみである。従って、仮切断点候
補Ｐ１は、仮切断点として決定される。

【０１４９】仮切断点候補Ｐ２は、分割点Ｃ１、Ｃ２、
Ｃ３、Ｃ４から距離Ｄｔｈのいずれの範囲内にも存在し
ないため、仮切断点とはされない。仮切断点候補Ｐ３、
Ｐ４は、分割点Ｃ３からの距離Ｄｔｈの範囲内に存在
し、分割点Ｃ３から距離Ｄｔｈの範囲内にある仮切断点
候補は複数ある。このため、仮切断点候補Ｐ３、Ｐ４の
黒画素数ヒストグラム値ｈｋを調べ、黒画素数ヒストグ
ラム値ｈｋの小さい方の点を仮切断点として決定する。
ところが、仮切断点候補Ｐ３、Ｐ４の黒画素数ヒストグ
ラム値ｈｋは同じである。このため、仮切断点候補Ｐ
３、Ｐ４のそれぞれについて、分割点Ｃ３からの距離Ｄ
ｔｈを調べ、分割点Ｃ３からの距離Ｄｔｈが小さい方を
仮切断点として決定する。この結果、仮切断点候補Ｐ４
よりも仮切断点候補Ｐ３の方が、分割点Ｃ３からの距離
Ｄｔｈが小さいため、仮切断点候補Ｐ４が仮切断点とし
て決定される。

【０１５０】仮切断点候補Ｐ５は、分割点Ｃ１、Ｃ２、
Ｃ３、Ｃ４から距離Ｄｔｈのいずれの範囲内にも存在し
ないため、仮切断点とはされない。仮切断点候補Ｐ６
は、分割点Ｃ４から距離Ｄｔｈの範囲内に存在し、仮切
断点候補Ｐ１〜Ｐ６のうち、分割点Ｃ４から距離Ｄｔｈ
の範囲内にあるのは、仮切断点候補Ｐ４のみである。従
って、仮切断点候補Ｐ４は、仮切断点として決定され
る。

【０１５１】図１１（ｃ）は、接触文字列の黒画素数ヒ
ストグラム上における仮切断点の位置を示す図である。
図１１（ｃ）において、仮切断点Ｐ１，Ｐ４，Ｐ６が決
定すると、この点で、図１１（ａ）のパターンが仮切断
される。

【０１５２】このように、半文字単位で仮切断箇所を判
定することにより、誤った箇所でパターンが切断されて
も、１文字が高々半分になる程度で済み、誤切断を低減
することが可能となるとともに、後の隣接する矩形との
統合を考えることにより誤切断を救済することが可能と
なる。

【０１５３】図１２（ａ）は、図１１（ａ）の文字列の
仮切断結果を示す図である。図１２（ａ）において、図
１１（ｃ）の仮切断点Ｐ１，Ｐ４，Ｐ６で図１１（ａ）
のパターンが切断されると、この切断により得られた各
パターンが、外接矩形Ｋ１１〜Ｋ１４で囲まれる。

【０１５４】図１２（ｂ）は仮切断により得られた単独
パターンの統合可否の判定結果を示す図である。図１２
（ｂ）において、パターン統合判定・統合部４０は、仮
切断後の文字列パターンについて、先頭のパターンから
順に隣の外接矩形Ｋ１１〜Ｋ１４、Ｋ４、Ｋ５、Ｋ８、
Ｋ１０内のパターンとの統合可能性の判定を行う。そし
て、統合可能と判定されたものは、仮統合パターンを生
成する。統合判定では、対象パターンをそのすぐ隣のパ
ターン（横書きなら右隣、縦書きなら下）と統合をする
ものと仮定した場合、以下の条件を満たすかどうかを調
べる。

【０１５５】ＷＩ＜ＷＩｔｈ，ＷＩ／ＨＩ＜ＲＩｔｈ（横書きの場合）ＨＩ＜ＨＩｔｈ，ＷＩ／ＨＩ＞ＲＩｔｈ（縦書きの場合）そして、上記の条件を満たす場合を統合可能と判定す
る。

【０１５６】ただし、ＨＩは統合後のパターンの高さ、
ＷＩは統合後のパターンの幅、ＲＩｔｈは高さに対する
幅の比のしきい値、ＷＩｔｈは横書きでの幅のしきい
値、ＨＩｔｈは縦書きでの高さのしきい値である。図１
２（ｂ）の例では、外接矩形Ｋ１１内のパターンと外接
矩形Ｋ１２内のパターンとを統合すると、統合後のパタ
ーンの高さに対する幅の比がしきい値ＲＩｔｈより大き
くなるため、外接矩形Ｋ１１内のパターンは外接矩形Ｋ
１２内のパターンと統合不可と判定されている。また、
外接矩形Ｋ１２内のパターンと外接矩形Ｋ１３内のパタ
ーンとを統合すると、統合後のパターンの高さに対する
幅の比がしきい値ＲＩｔｈより小さく、かつ、統合後の
パターンの幅もしきい値ＷＩｔｈより小さいため、外接
矩形Ｋ１２内のパターンは外接矩形Ｋ１３内のパターン
と統合可と判定されている。

【０１５７】同様に、外接矩形Ｋ１３内のパターンは外
接矩形Ｋ１４内のパターンと統合可と判定され、外接矩
形Ｋ１４内のパターンは外接矩形Ｋ４内のパターンと統
合可と判定され、外接矩形Ｋ４内のパターンは外接矩形
Ｋ５内のパターンと統合不可と判定され、外接矩形Ｋ５
内のパターンは外接矩形Ｋ８内のパターンと統合不可と
判定され、外接矩形Ｋ８内のパターンは外接矩形Ｋ１０
内のパターンと統合不可と判定されている。

【０１５８】キー文字候補抽出部３９は、統合可能と判
定されたものについては、単独パターンと仮統合パター
ンのそれぞれに対して特徴抽出及び辞書照合を行うこと
により、第１位〜第Ｎ位までの文字種を認識結果として
出力する。また、統合不可と判定されたものについて
は、単独パターンのみに対して特徴抽出及び辞書照合を
行うことにより、第１位〜第Ｎ位までの文字種を認識結
果として出力する。

【０１５９】図１３（ａ）は、仮切断により得られた単
独パターンの認識結果を示す図である。なお、図１３の
例では、第１位〜第１０位までの文字種が認識結果とし
て出力された場合を示されている。

【０１６０】図１３（ａ）において、図１２（ｂ）の外
接矩形Ｋ１２内のパターンを単独パターンとして処理し
た場合の認識結果が示されている。この単独パターンの
認識結果では、第１位〜第１０位までの文字種の候補と
して、「付」、「竹」、「甘」、「対」、「行」、
「所」、「氏」、「科」、「杵」、「同」が提示されて
いる。また、外接矩形Ｋ１２内の単独パターンと各文字
種の候補との距離として、５０６、５１８、５３６、５
３８、５５１、５５４、５５９、５６１、５７２、５７
４と算出されている。

【０１６１】図１３（ｂ）は、仮切断により得られた単
独パターンを仮統合した統合パターンの認識結果を示す
図である。図１３（ｂ）において、図１２（ｂ）の外接
矩形Ｋ１２内のパターンに外接矩形Ｋ１３内のパターン
を統合した結果、仮統合パターンが生成され、この仮統
合パターンについて、外接矩形Ｋ１５が生成されてい
る。この外接矩形Ｋ１５内の仮統合パターンの認識結果
では、第１位〜第１０位までの文字種の候補として、
「市」、「布」、「府」、「弟」、「巾」、「右」、
「虎」、「防」、「古」、「街」が提示されている。ま
た、外接矩形Ｋ１５内の仮統合パターンと各文字種の候
補との距離として、２５３、３５１、３９８、４０６、
４１３、４３２、４３５、４３６、４４６、４５１と算
出されている。

【０１６２】この仮統合パターンの第１位〜第１０位ま
での文字種の候補の中で、「市」というキー文字が第１
位の文字種として提示されている。第１位〜第１０位ま
での文字種の候補の中にキー文字が存在したとき、キー
文字らしさを計算して、キー文字候補及び準キー文字候
補を求める。

【０１６３】キー文字らしさは、例えば、着目パターン
の第ｉ位にキー文字が出現した場合、その時の距離をｄ
ｉとすると、キー文字らしさ＝１／｛１＋ｄｉ×［１＋（ｉ−１）×
ｗｉ］／ｄｔｈ｝（ｉ＝１，２，・・・，Ｎ）と定義することができる。ここで、ｗｉは１より小さい
正の数で、候補順位の重みである。この重みｗｉは、距
離ｄｉが無限大の時、キー文字らしさが０、距離ｄｉが
０の時、キー文字らしさが１、距離ｄｉがｄｔｈ程度の
時、キー文字らしさが０．５となるよう定義される。キ
ー文字らしさが、０．５以上のパターンをキー文字候
補、０．５より小さく０でないものを準キー文字候補、
キー文字らしさが０のものをキー文字以外の文字種とす
る。

【０１６４】図１３の例では、ｗｉ＝０．２、ｄｔｈ＝
４８０とすると、単独パターンはキー文字らしさが０と
なるため、キー文字以外の文字種とされる。一方、仮統
合パターンはキー文字らしさが０．６５となるため、文
字種が「市」のキー文字候補とされる。

【０１６５】このように、各パターンに対する隣接パタ
ーンとの統合可否、キー文字らしさ、キー文字である場
合はその文字種や階層等の情報が求まると、これらの情
報をパターン情報テーブルに格納する。

【０１６６】図１４は、図１０（ａ）の文字列について
作成されたパターン情報テーブルの例を示す図である。
図１４において、パターン情報テーブルには、図１２
（ｂ）の外接矩形Ｋ１１〜Ｋ１４、Ｋ４、Ｋ５、Ｋ８、
Ｋ１０内の単独パターン、及び外接矩形Ｋ１１〜Ｋ１
４、Ｋ４、Ｋ５、Ｋ８、Ｋ１０内の単独パターンを右隣
の単独パターンと統合した時の仮統合パターンのそれぞ
れについて、フラグ情報、階層情報、文字種、キー文字
らしさ、所属行、行内通番を記入する欄が設けられてい
る。なお、フラグ１はキー文字候補、フラグ２は準キー
文字候補、フラグ０はキー文字以外のその他の文字種を
表している。また、図１３の例では、キー文字らしさ
は、百分率で示されている。階層情報には、住所に使用
されるキー文字の階層レベルが記入される。

【０１６７】図１５は、住所に使用されるキー文字の階
層レベルを示す表である。図１５において、「都」、
「道」、「府」及び「県」というキー文字の階層レベル
は１、「市」及び「郡」というキー文字の階層レベルは
２、「区」というキー文字の階層レベルは３、「町」及
び「村」というキー文字の階層レベルは４であることが
示されている。

【０１６８】図１４のパターン情報テーブルにおいて、
外接矩形Ｋ１１、Ｋ４、Ｋ５、Ｋ８、Ｋ１０における仮
統合パターンについては、パターン統合判定・統合部４
０により統合不可と判定されたため、これらの欄は空欄
とされている。

【０１６９】また、外接矩形Ｋ１２、Ｋ１４、Ｋ５にお
ける単独パターン、外接矩形Ｋ１３における単独パター
ン及び仮統合パターンについてはフラグが０となってお
り、これらのパターンがキー文字以外の文字種であるこ
とが示されるとともに、キー文字らしさが０．０％とな
っている。

【０１７０】外接矩形Ｋ１１内の単独パターンについて
はフラグが２となっており、このパターンは準キー文字
候補であることが示されている。また、準キー文字候補
の文字種として「村」という文字が示され、「村」とい
う文字の階層レベルは４で、キー文字らしさが２５．４
％であることが示されている。

【０１７１】外接矩形Ｋ１２における仮統合パターンに
ついてはフラグが１となっており、このパターンはキー
文字候補であることが示されている。また、キー文字候
補の文字種として「市」という文字が示され、「市」と
いう文字の階層レベルは２で、キー文字らしさが６５．
５％であることが示されている。

【０１７２】外接矩形Ｋ１４における仮統合パターンに
ついてはフラグが１となっており、このパターンはキー
文字候補であることが示されている。また、キー文字候
補の文字種として「郡」という文字が示され、「郡」と
いう文字の階層レベルは２で、キー文字らしさが６３．
４％であることが示されている。

【０１７３】外接矩形Ｋ４内の単独パターンについては
フラグが２となっており、このパターンは準キー文字候
補であることが示されている。また、準キー文字候補の
文字種として「区」という文字が示され、「区」という
文字の階層レベルは３で、キー文字らしさが４５．８％
であることが示されている。

【０１７４】外接矩形Ｋ８内の単独パターンについては
フラグが１となっており、このパターンはキー文字候補
であることが示されている。また、キー文字候補の文字
種として「市」という文字が示され、「市」という文字
の階層レベルは２で、キー文字らしさが６０．０％であ
ることが示されている。

【０１７５】外接矩形Ｋ１０内の単独パターンについて
はフラグが１となっており、このパターンはキー文字候
補であることが示されている。また、キー文字候補の文
字種として「町」という文字が示され、「町」という文
字の階層レベルは４で、キー文字らしさが６７．９％で
あることが示されている。

【０１７６】図１４のパターン情報テーブルが作成され
ると、フラグ１が付与された単独パターン及び仮統合パ
ターンをキー文字候補として抽出する。そして、パター
ン情報テーブルで示されるキー文字候補についての組み
合わせを考え、これらの組み合わせの中に住所階層構造
知識及び住所中キー文字位置知識に矛盾しないものがあ
るかどうかを判別する。図１６は、図１０（ａ）の文字
列から抽出されたキー文字候補を示す図である。

【０１７７】図１６において、図１２の外接矩形Ｋ１２
内のパターンと外接矩形Ｋ１３内のパターンとを仮統合
した仮統合パターンが、１つのキー文字候補として抽出
され、外接矩形Ｋ１５で囲まれている。この外接矩形Ｋ
１５で囲まれている「市」というパターンは、図６の切
断箇所判定・切断部３４で半分づつに仮切断されたもの
だが、キー文字候補抽出部３９での統合・認識処理によ
って１つに統合され、「市」であると判定されたもので
ある。

【０１７８】このように、連結パターンを切断する際に
キー文字が２つの部分パターンに切断された場合におい
ても、互いに隣接するパターンの統合して認識処理を行
うことにより、キー文字を正しく抽出することが可能と
なる。

【０１７９】また、図１２の外接矩形Ｋ１４内のパター
ンと外接矩形Ｋ４内のパターンとを仮統合した仮統合パ
ターンが、１つのキー文字候補として抽出され、外接矩
形Ｋ１６で囲まれている。この外接矩形Ｋ１６で囲まれ
ている「郡」というパターンは、元々２つの分離したパ
ターンで構成されており、「郡」というパターンの左半
分と右半分とは、別々のパターンとして抽出されてい
る。しかも、図１０（ａ）に示すように、「郡」という
パターンの左半分は、「郡」というパターンの左に隣接
する「市」という文字と接触している。この結果、図１
０（ｃ）に示すように、「郡」というパターンの左半分
は、外接矩形Ｋ１内のパターンとみなされ、「郡」とい
うパターンの右半分は、外接矩形Ｋ４内のパターンとみ
なされている。

【０１８０】ここで、「郡」というパターンの左半分
は、図６の切断箇所判定・切断部３４で外接矩形Ｋ１内
のパターンから切断され、切断により切り出された
「郡」というパターンの左半分は、キー文字候補抽出部
３９での統合・認識処理によって外接矩形Ｋ４内のパタ
ーンと１つに統合されて、「郡」というパターンがキー
文字候補として抽出されている。

【０１８１】また、図１６において、図１２の外接矩形
Ｋ８内のパターンが、「市」というキー文字候補として
抽出され、図１２の外接矩形Ｋ１０内のパターンが、
「町」というキー文字候補として抽出されている。

【０１８２】キー文字候決定部４７は、キー文字候補が
抽出されると、住所階層構造知識部４５及び住所中キー
文字位置知識部４６から、住所階層構造知識及び住所中
キー文字位置知識を取り出し、キー文字候補の組み合わ
せの中に住所階層構造知識及び住所中キー文字位置知識
に矛盾しないものがあるかどうかを調べる。

【０１８３】図１７（ａ）は、住所に使用されるキー文
字の階層構造を示す図である。図１７（ａ）において、
住所階層構造は、｛都｝と、｛道｝、｛府｝及び｛県｝
とで異なっている。｛都｝については、｛都｝の後に続
くことができるキー文字は、｛区｝、｛区、町｝、
｛市｝、｛市、町｝、｛郡、町｝、｛郡、村｝、
｛町｝、または｛村｝であることが示されている。
｛道｝、｛府｝及び｛県｝については、｛道｝、
｛府｝、または｛県｝の後に続くことができるキー文字
は、｛市｝、｛市、区｝、｛市、区、町｝、｛市、
町｝、｛郡、町｝、または｛郡、村｝であることが示さ
れている。

【０１８４】また、住所中キー文字位置知識は、「行頭
にキー文字は来ない」、「キー文字が連続して出現する
ことはない」などのキー文字が出現する位置に関する知
識である。

【０１８５】住所階層構造知識及び住所中キー文字位置
知識を参照することにより、これらのルールを満たさな
いキー文字候補は、地名中のキー文字種又は切り出しミ
スパターンによる誤認識として除去できる。なお、住所
階層構造知識及び住所中キー文字位置知識のみでは判断
できない紛らわしい地名中のキー文字がある場合は、複
数のキー文字の組をキー文字セット候補とし、後の地名
単語一括認識部５１における処理により、正しいキー文
字の組を決定することができる。

【０１８６】図１７（ｂ）は、図１６のキー文字候補に
ついて使用可能なキー文字セットを示す図である。図１
７（ｂ）において、図１６のキー文字候補の組み合わせ
のうち、住所階層構造知識及び住所中キー文字位置知識
の矛盾しないキー文字セット候補は以下の３つある。

【０１８７】第一セット｛市、町｝ ○市○○○町第二セット｛群、町｝ ○○郡○○町第三セット｛市｝ ○○○○市○ 住所階層構造知識及び住所中キー文字位置知識の矛盾し
ないキー文字セット候補が見つかった場合、キー文字セ
ット候補に対応するパターンの仮切断位置及び仮統合結
果を、入力パターンについての切断位置及び統合結果と
して決定する。

【０１８８】キー文字セット候補が決定されると、各キ
ー文字群候補についての情報が地名単語切り出し部４９
に送られる。地名単語切り出し部４９は、キー文字の位
置情報に基づいて、各々のキー文字セット候補に対し、
地名単語候補の切り出しを行う。

【０１８９】例えば、図１７（ｂ）の｛市、町｝をキー
文字セット候補として使用した場合、図１２のパターン
から、｛市｝の前のパターンと、｛市｝と｛町｝との間
に挟まれるパターンとがそれぞれ１つの地名単語として
一括して抽出される。この結果、「余」に対応するパタ
ーン及び「郡余市」に対応するパターンがそれぞれ１つ
の地名単語パターンとして抽出される。

【０１９０】また、図１７（ｂ）の｛郡、町｝をキー文
字セット候補として使用した場合、図１２のパターンか
ら、｛郡｝の前のパターンと、｛郡｝と｛町｝との間に
挟まれるパターンとがそれぞれ１つの地名単語として一
括して抽出される。この結果、最初の「余市」に対応す
るパターン及び２番目の「余市」に対応するパターンが
それぞれ１つの地名単語パターンとして抽出される。

【０１９１】また、図１７（ｂ）の｛市｝をキー文字セ
ット候補として使用した場合、図１２のパターンから、
｛市｝の前のパターンと、｛市｝の後のパターンとがそ
れぞれ１つの地名単語として一括して抽出される。この
結果、「余市郡余」に対応するパターン及び「町」に対
応するパターンがそれぞれ１つの地名単語パターンとし
て抽出される。

【０１９２】特徴抽出部５２は、地名単語切り出し部４
９で切り出された地名単語パターンに対し、画像特徴の
抽出を行う。例えば、図１７（ｂ）の｛市、町｝をキー
文字セット候補として使用した場合、地名単語として抽
出された「余」に対応するパターン及び「郡余市」に対
応するパターンのそれぞれの特徴ベクトルを抽出する。
ここで、「郡余市」というパターンの特徴ベクトルを抽
出する場合、「郡余市」を一文字ごとに切り離し、
「郡」、「余」及び「市」の特徴ベクトルを個別に抽出
するのではなく、「郡余市」というパターンを一体的に
扱って、「郡余市」という文字列全体の特徴ベクトルを
抽出する。

【０１９３】また、図１７（ｂ）の｛郡、町｝をキー文
字セット候補として使用した場合、地名単語として抽出
された最初の「余市」に対応するパターン及び２番目の
「余市」に対応するパターンのそれぞれの特徴ベクトル
を抽出する。ここで、「余市」というパターンの特徴ベ
クトルを抽出する場合、「余市」を一文字ごとに切り離
し、「余」及び「市」の特徴ベクトルを個別に抽出する
のではなく、「余市」というパターンを一体的に扱っ
て、「余市」という文字列全体の特徴ベクトルを抽出す
る。

【０１９４】また、図１７（ｂ）の｛市｝をキー文字セ
ット候補として使用した場合、地名単語として抽出され
た「余市郡余」に対応するパターン及び「町」に対応す
るパターンのそれぞれの特徴ベクトルを抽出する。ここ
で、「余市郡余」というパターンの特徴ベクトルを抽出
する場合、「余市郡余」を一文字ごとに切り離し、
「余」、「市」、「郡」及び「余」の特徴ベクトルを個
別に抽出するのではなく、「余市郡余」というパターン
を一体的に扱って、「余市郡余」という文字列全体の特
徴ベクトルを抽出する。

【０１９５】地名単語認識用辞書５０には、地名の属性
ごとに、日本全国の地名を表すパターンの特徴ベクトル
を登録しておくことができる。例えば、地名の属性が
「県」ならば、「千葉」、「神奈川」、「埼玉」などの
地名を表すパターンの特徴ベクトルを「県」という属性
に対応させて登録し、地名の属性が「区」ならば、「世
田谷」、「千代田」、「中央」などの地名を表すパター
ンの特徴ベクトルを「区」という属性に対応させて登録
しておく。

【０１９６】そして、例えば、「県」というキー文字の
直前のパターンを認識する場合、「県」という属性に対
応する地名を表すパターンとだけ照合を行うようにす
る。このことにより、地名を認識する際の照合回数を減
らすことが可能となり、処理を高速化することが可能と
なる。

【０１９７】辞書照合部５３は、キー文字に基づいて、
そのキー文字の直前の地名単語の属性を調べる。そし
て、地名単語認識用辞書５０に登録されている地名の特
徴ベクトルのうち、地名の属性に対応した地名単語パタ
ーンの特徴ベクトルと、特徴抽出部５２で抽出された地
名単語パターンの特徴ベクトルとを照合する。

【０１９８】例えば、図１７（ｂ）の｛市、町｝をキー
文字セット候補として使用した場合、地名単語パターン
として抽出された「余」及び「郡余市」の各特徴ベクト
ルが、地名単語認識用辞書５０に登録されている地名の
特徴ベクトルと照合される。ここで、地名単語パターン
として抽出された「余」の属性は｛市｝であるので、地
名単語認識用辞書５０に登録されている地名の特徴ベク
トルのうち、｛市｝の属性を有する地名の特徴ベクトル
と照合される。また、地名単語パターンとして抽出され
た「郡余市」の属性は｛町｝であるので、地名単語認識
用辞書５０に登録されている地名の特徴ベクトルのう
ち、｛町｝の属性を有する地名の特徴ベクトルと照合さ
れる。

【０１９９】「余」という地名の｛市｝や「郡余市」と
いう地名の｛町｝が、日本の地名の中に存在しないもの
とすると、「余」というパターンに対応する特徴ベクト
ルや「郡余市」というパターンに対応する特徴ベクトル
が地名単語認識用辞書５０に登録されていないため、
「余」という地名単語パターンや「郡余市」という地名
単語パターンの認識結果が出力されないか、または認識
率が非常に低くなり、｛市、町｝をキー文字セット候補
から除外することができる。

【０２００】また、図１７（ｂ）の｛郡、町｝をキー文
字セット候補として使用した場合、地名単語パターンと
して抽出された最初の「余市」及び２番目の「余市」の
各特徴ベクトルが、地名単語認識用辞書５０に登録され
ている地名の特徴ベクトルと照合される。ここで、地名
単語パターンとして抽出された最初の「余市」の属性は
｛郡｝であるので、地名単語認識用辞書５０に登録され
ている地名の特徴ベクトルのうち、｛郡｝の属性を有す
る地名の特徴ベクトルと照合される。また、地名単語パ
ターンとして抽出された２番目の「余市」の属性は
｛町｝であるので、地名単語認識用辞書５０に登録され
ている地名の特徴ベクトルのうち、｛町｝の属性を有す
る地名の特徴ベクトルと照合される。

【０２０１】「余市」という地名の｛郡｝や「余市」と
いう地名の｛町｝が、日本の地名の中に存在しているも
のとすると、「余市」という地名単語パターンの認識結
果として、地名単語認識用辞書５０に登録されている地
名が地名候補として出力される。なお、１つの地名単語
パターンに対して複数の地名候補が出力された場合、地
名知識部５９の地名知識を参照することにより、正しい
地名候補を選択することができる。

【０２０２】また、図１７（ｂ）の｛市｝をキー文字セ
ット候補として使用した場合、地名単語パターンとして
抽出された「余市郡余」及び「町」の各特徴ベクトル
が、地名単語辞書部５０に登録されている地名の特徴ベ
クトルと照合される。ここで、地名単語パターンとして
抽出された「余市郡余」の属性は｛市｝であるので、地
名単語辞書部５０に登録されている地名の特徴ベクトル
のうち、｛市｝の属性を有する地名の特徴ベクトルと照
合される。

【０２０３】「余市郡余」という地名の｛市｝や「町」
という地名が、日本の地名の中に存在しないものとする
と、「余市郡余」というパターンに対応する特徴ベクト
ルや「町」というパターンに対応する特徴ベクトルが地
名単語認識用辞書５０に登録されていないため、「余市
郡余」という地名単語パターンや「町」という地名単語
パターンの認識結果が出力されないか、または認識率が
非常に低くなり、｛市｝をキー文字セット候補から除外
することができる。

【０２０４】住所知識部５９は、地名同士の接続関係に
関する住所知識を格納している。例えば、「余市郡」と
いう地名の後に「余市町」という地名がくる場所が日本
に存在しているかどうかという知識や、「横浜市」とい
う地名の後にくることができる｛区｝の地名などに関す
る知識などである。

【０２０５】住所決定部６０は、住所知識部５９から住
所知識を取り出し、住所一括認識部５１から出力された
地名候補の中から、住所知識に矛盾しないものを住所読
取り結果として出力する。

【０２０６】例えば、「余市」という名称の｛郡｝の後
に「余市」という名称の｛町｝がくることが、住所知識
に矛盾しないと判断されると、住所読取り結果として
「余市郡余市町」と出力される。

【０２０７】なお、住所知識に矛盾しない地名の組が存
在しなかった場合は、住所読取り結果は出力されず、エ
ラーコードが出力される。図１８は、文字間接触を有す
る手書き住所文字列の第２の例を示す図である。

【０２０８】図１８において、アンケート葉書等のフリ
ーピッチ欄に「北葛城郡王寺町明神」という住所が手書
きにより記入されているものする。この手書きされた住
所の文字列はスキャナ等で読み取られ、二値化された画
像データから行抽出が行われる。この文字列画像に対
し、ラベリング部３１によるラベル付けが異なる連結成
分ごとに行われる。

【０２０９】そして、各連結成分ごとに外接矩形が生成
され、重なり度が大きい外接矩形同士を統合することに
より、外接矩形Ｋ２１〜Ｋ３３が生成される。外接矩形
Ｋ２１〜Ｋ３３が生成されると、切断対象となるパター
ンがあるかどうかが判定され、切断対象となるパターン
がないものとすると、先頭のパターンから順に隣の外接
矩形内のパターンとの統合可能性の判定を行う。そし
て、統合可能と判定されたものは、仮統合パターンが生
成される。

【０２１０】次に、外接矩形Ｋ２１〜Ｋ３３内の単独パ
ターン及び統合可能と判定された仮統合パターンについ
て認識処理を行い、この認識処理結果に基づいてキー文
字らしさを計算する。

【０２１１】そして、各パターンに対する隣接パターン
との統合可否、キー文字らしさ、キー文字である場合は
その文字種や階層等の情報が求まると、これらの情報を
パターン情報テーブルに格納する。

【０２１２】図１９は、図１８（ａ）の文字列について
作成されたパターン情報テーブルの例を示す図である。
図１９において、パターン情報テーブルには、図１８の
外接矩形Ｋ２１〜Ｋ３３内の単独パターン、及び外接矩
形Ｋ２１〜Ｋ３３内の単独パターンを右隣の単独パター
ンと統合した時の仮統合パターンのそれぞれについて、
フラグ情報、階層情報、文字種、キー文字らしさ、所属
行、行内通番を記入する欄が設けられている。なお、フ
ラグ１はキー文字候補、フラグ２は準キー文字候補、フ
ラグ０はー文字以外のその他の文字種を表している。ま
た、キー文字らしさは、百分率で示されている。階層情
報には、住所に使用されるキー文字の階層レベルが記入
される。

【０２１３】外接矩形Ｋ２４、Ｋ２６〜、Ｋ２９におけ
る仮統合パターンについては、パターン統合判定・統合
部４０により統合不可と判定され、これらの欄は空欄と
なっている。

【０２１４】また、外接矩形Ｋ２１〜Ｋ２３、Ｋ３０〜
Ｋ３３における単独パターン及び仮統合パターン、外接
矩形Ｋ２４、Ｋ２５、Ｋ２８における単独パターンにつ
いてはフラグが０となっており、これらのパターンがキ
ー文字以外の文字種であることが示されているととも
に、キー文字らしさが０．０％となっている。

【０２１５】外接矩形Ｋ２５における仮統合パターンに
ついてはフラグが１となっており、このパターンはキー
文字候補であることが示されている。また、キー文字候
補の文字種として「郡」という文字が示され、「郡」と
いう文字の階層レベルは２で、キー文字らしさが６７．
６％であることが示されている。

【０２１６】外接矩形Ｋ２６内の単独パターンについて
はフラグが２となっており、このパターンは準キー文字
候補であることが示されている。また、準キー文字候補
の文字種として「市」という文字が示され、「市」とい
う文字の階層レベルは２で、キー文字らしさが２１．８
％であることが示されている。

【０２１７】外接矩形Ｋ２７内の単独パターンについて
はフラグが２となっており、このパターンは準キー文字
候補であることが示されている。また、準キー文字候補
の文字種として「区」という文字が示され、「区」とい
う文字の階層レベルは３で、キー文字らしさが２９．６
％であることが示されている。

【０２１８】外接矩形Ｋ２９内の単独パターンについて
はフラグが２となっており、このパターンは準キー文字
候補であることが示されている。また、準キー文字候補
の文字種として「町」という文字が示され、「町」とい
う文字の階層レベルは４で、キー文字らしさが４７．９
％であることが示されている。

【０２１９】パターン情報テーブルが作成されると、フ
ラグ１が付与された単独パターン及び仮統合パターンを
キー文字候補として抽出する。そして、パターン情報テ
ーブルで示されるキー文字候補についての組み合わせを
考え、これらの組み合わせの中に住所階層構造知識及び
住所中キー文字位置知識に矛盾しないものがあるかどう
かを判別する。

【０２２０】図２０（ａ）は、図１８の文字列から抽出
されたキー文字候補を示す図である。図２０（ａ）にお
いて、図１８の外接矩形Ｋ２５内のパターンと外接矩形
Ｋ２６内のパターンとを仮統合した仮統合パターンが、
１つのキー文字候補として抽出され、外接矩形Ｋ３４で
囲まれている。この外接矩形Ｋ３４で囲まれている
「郡」というパターンは、元々２つの分離したパターン
で構成されており、２つの部分パターンが別々のパター
ンとして抽出されたものが、キー文字候補抽出部３９で
の統合・認識処理によって１つに統合され、「郡」であ
ると判定されたものである。

【０２２１】「郡」というキー文字が抽出されると、住
所階層構造知識及び住所中キー文字位置知識が参照され
るが、図１７（ａ）に示すように、「郡」だけが単独で
キー文字として使用されることはなく、「郡」の後には
必ず「町」というキー文字または「村」というキー文字
が存在することがわかる。

【０２２２】このため、キー文字候補決定部４７は、パ
ターン情報テーブルに登録されているフラグ１のキー文
字候補を用いただけでは住所を表すのに必要なキー文字
が不足するため、キー文字セット候補が１つも抽出でき
なかった場合には、不足キー文字再抽出部４８に足りな
いキー文字を再抽出するよう要請し、再抽出すべきキー
文字の情報を送る。

【０２２３】例えば、キー文字候補決定部４７は、
「郡」のキー文字候補だけしか抽出できなかった場合、
「郡」の後には、「町」か「村」の文字が存在している
ことを、不足キー文字再抽出部４８に伝える。そして、
「郡」の後の文字列の中から、「町」か「村」のキー文
字を再抽出するように要請する。

【０２２４】不足キー文字再抽出部４８は、キー文字の
再抽出の要請があると、パターン情報テーブルを呼ん
で、準キー文字候補の中から、要請されたキー文字を再
抽出する。この場合、住所中キー文字位置知識を参照
し、これに矛盾しないようにする。

【０２２５】例えば、図１９のパターン情報テーブルに
は、準キー文字候補として、外接矩形Ｋ２６内の単独パ
ターン、外接矩形Ｋ２７内の単独パターン及び外接矩形
Ｋ２９内の単独パターンが登録されているが、文字種が
「町」か「村」に一致しているのは、外接矩形Ｋ２９内
の単独パターンだけであるので、外接矩形Ｋ２９内の単
独パターンが、キー文字候補として再抽出される。

【０２２６】図２０（ｂ）は、図１８の文字列から再抽
出されたキー文字候補を示す図である。図２０（ｂ）に
おいて、キー文字候補の再抽出が行われた結果、図１８
の外接矩形Ｋ３４内のパターンが「郡」というキー文字
候補として抽出され、図１８の外接矩形Ｋ２９内のパタ
ーンが「町」というキー文字候補として抽出されてい
る。

【０２２７】キー文字候補が抽出されると、キー文字候
補の組み合わせのうち、住所階層構造知識及び住所中キ
ー文字位置知識に矛盾しないものを選択する。図２０
（ｃ）は、図１８の文字列について使用可能なキー文字
セットを示す図である。

【０２２８】図２０（ｃ）において、図１８のパターン
から抽出されたキー文字候補の組み合わせのうち、住所
階層構造知識及び住所中キー文字位置知識の矛盾しない
キー文字セット候補は以下の１つだけである。

【０２２９】第一セット｛郡、町｝住所階層構造知識及び住所中キー文字位置知識の矛盾し
ないキー文字セット候補が見つかった場合、各キー文字
セット候補についての情報が地名単語切り出し部４９に
送られる。地名単語切り出し部４９は、キー文字の位置
情報に基づいて、各々のキー文字セット候補に対し、地
名単語候補の切り出しを行う。例えば、図２０（ｃ）
の｛郡、町｝をキー文字セット候補として使用した場
合、図１８のパターンから、｛郡｝の前のパターンと、
｛郡｝と｛町｝との間に挟まれるパターンと、｛町｝の
後のパターンとが地名単語パターンとして抽出される。
この結果、「北葛城」に対応するパターン、「王寺」に
対応するパターン及び「明神」に対応するパターンが地
名単語パターンとしてそれぞれ抽出される。

【０２３０】地名単語パターンとして、「北葛城」に対
応するパターン、「王寺」に対応するパターン及び「明
神」に対応するパターンが抽出されると、「北葛城」に
対応するパターン、「王寺」に対応するパターン及び
「明神」に対応するパターンのそれぞれの特徴ベクトル
が抽出される。ここで、「北葛城」に対応するパターン
の特徴ベクトルを抽出する場合、「北葛城」に対応する
パターンを一文字ごとに切り離し、「北」に対応するパ
ターン、「葛」に対応するパターン及び「城」に対応す
るパターンの特徴ベクトルを個別に抽出するのではな
く、「北葛城」に対応するパターンを一体的に扱って、
「北葛城」という文字列全体の特徴ベクトルを抽出す
る。

【０２３１】また、「王寺」に対応するパターンの特徴
ベクトルを抽出する場合、「王寺」に対応するパターン
を一文字ごとに切り離し、「王」に対応するパターン及
び「寺」に対応するパターンの特徴ベクトルを個別に抽
出するのではなく、「王寺」に対応するパターンを一体
的に扱って、「王寺」という文字列全体の特徴ベクトル
を抽出する。

【０２３２】また、「明神」に対応するパターンの特徴
ベクトルを抽出する場合、「明神」に対応するパターン
を一文字ごとに切り離し、「明」に対応するパターン及
び「神」に対応するパターンの特徴ベクトルを個別に抽
出するのではなく、「明神」に対応するパターンを一体
的に扱って、「明神」という文字列全体の特徴ベクトル
を抽出する。

【０２３３】「北葛城」に対応するパターン、「王寺」
に対応するパターン及び「明神」に対応するパターンの
特徴ベクトルが抽出されると、「北葛城」に対応するパ
ターン、「王寺」に対応するパターン及び「明神」に対
応するパターンの各特徴ベクトルが、地名単語辞書部５
０に登録されている地名の特徴ベクトルと照合される。
ここで、地名単語パターンとして抽出された「北葛城」
に対応するパターンの属性は｛郡｝であるので、地名単
語辞書部５０に登録されている地名の特徴ベクトルのう
ち、｛郡｝の属性を有する地名の特徴ベクトルと照合さ
れる。また、地名単語パターンとして抽出された「王
寺」に対応するパターンの属性は｛町｝であるので、地
名単語辞書部５０に登録されている地名の特徴ベクトル
のうち、｛町｝の属性を有する地名の特徴ベクトルと照
合される。

【０２３４】「北葛城」という地名の｛郡｝や「王寺」
という地名の｛町｝や「明神」という地名が、日本の地
名の中に存在しているものとすると、「北葛城」という
地名単語パターン、「王寺」という地名単語パターン及
び「明神」という地名単語パターンの認識結果として、
地名単語辞書部５０に登録されている地名が地名候補と
して出力される。なお、１つの地名単語パターンに対し
て複数の地名候補が出力された場合、住所知識部５９の
住所知識を参照することにより、正しい地名候補を選択
することができる。

【０２３５】「北葛城」という地名の｛郡｝と「王寺」
という地名の｛町｝と「明神」という地名とが、住所知
識に矛盾しないと判断されると、住所読取り結果とし
て、「北葛城郡王寺町明神」の文字コードなどが出力さ
れる。

【０２３６】次に、本発明の一実施例に係わるキー文字
認識用辞書について説明する。図６において、キー文字
候補抽出部３９は、原画像のパターンからキー文字候補
を抽出するため、キー文字認識辞書３８を参照し、各ラ
ベルパターン及び統合ラベルパターンの文字認識を実行
している。ここで、キー文字認識辞書３８に登録する文
字種の限定を行わないようにすると、ＪＩＳ第１水準漢
字文字種で約３０００、地名漢字でも約１０００あるた
め、照合回数が膨大となり、多くの処理時間が必要とな
る。

【０２３７】一方、キー文字認識辞書３８に登録する文
字種を限定し、例えば、キー文字認識辞書３８に、
「都」、「道」、「府」、「県」、「市」、「郡」、
「区」、「町」、「村」などのキー文字のみを登録して
おくと、キー文字だけでなくキー文字に類似しているパ
ターンもキー文字候補として抽出される場合が増え、キ
ー文字候補が抽出過多となる。

【０２３８】図２１は、本発明の一実施例に係わるキー
文字認識用辞書を使い分けた場合のキー文字種の認識結
果を示す図である。図２１において、文字種が「見」の
サンプルパターン６１及び文字種が「県」のサンプルパ
ターン６２のそれぞれについて、全文字種が登録されて
いるキー文字認識辞書３８を用いた認識結果（第Ｎ位ま
で候補文字種と距離）と、「都」、「道」、「府」、
「県」、「市」、「群」、「区」、「町」、「村」の９
つのキー文字種のみが登録されているキー文字認識辞書
３８を用いた認識結果（第Ｎ位まで候補文字種と距離）
とが示されている。

【０２３９】サンプルパターン６１の認識結果として、
全文字種が登録されているキー文字認識辞書３８を用い
た場合、第１位候補の文字種として「見」、第２位候補
の文字種として「貝」、第３位候補の文字種として
「県」が出力されている。また、サンプルパターン６１
と各文字種の距離として、それぞれ２１０、２５０、３
２０と出力されている。キー文字種のみが登録されてい
るキー文字認識辞書３８を用いた場合、第１位候補の文
字種として「県」、第２位候補の文字種として「道」が
出力されている。また、サンプルパターン６１と各文字
種の距離として、それぞれ３２０、６４０と出力されて
いる。

【０２４０】また、サンプルパターン６２の認識結果と
して、全文字種が登録されているキー文字認識辞書３８
を用いた場合、第１位候補の文字種として「県」、第２
位候補の文字種として「見」、第３位候補の文字種とし
て「貝」が出力されている。また、サンプルパターン６
１と各文字種の距離として、それぞれ３２０、４８０、
５９０と出力されている。キー文字種のみが登録されて
いるキー文字認識辞書３８を用いた場合、第１位候補の
文字種として「県」、第２位候補の文字種として「道」
が出力されている。また、サンプルパターン６２と各文
字種の距離として、それぞれ３２０、６４０と出力され
ている。

【０２４１】ここで、全文字種が登録されているキー文
字認識辞書３８を用いた場合、サンプルパターン６１に
ついても、サンプルパターン６２についても、キー文字
種「県」との距離は、３２０で同一である。従って、キ
ー文字種「県」との距離を評価しただけでは、キー文字
でないサンプルパターン６１をキー文字でないと判別
し、かつ、キー文字であるサンプルパターン６２をキー
文字であると判別することはできない。ところが、キー
文字種「県」の出現順位は、サンプルパターン６１につ
いては第３位であるのに対し、サンプルパターン６２に
ついては第１位であることから、キー文字種「県」の出
現順位を評価することにより、キー文字でないサンプル
パターン６１をキー文字でないと判別し、かつ、キー文
字であるサンプルパターン６２をキー文字であると判別
することが可能となる。

【０２４２】一方、キー文字種のみが登録されているキ
ー文字認識辞書３８を用いた場合、サンプルパターン６
１についても、サンプルパターン６２についても、キー
文字種「県」との距離は、３２０で同一である。また、
キー文字種「県」の出現順位も、サンプルパターン６１
についても、サンプルパターン６２についても、第１位
であり同一である。従って、キー文字種のみが登録され
ているキー文字認識辞書３８を用いた場合には、キー文
字種「県」との距離を評価しても、キー文字種「県」の
出現順位を評価しても、キー文字でないサンプルパター
ン６１をキー文字でないと判別し、かつ、キー文字であ
るサンプルパターン６２をキー文字であると判別するこ
とはできない。

【０２４３】この例から、キー文字認識辞書３８の文字
種を限定しすぎると、キー文字候補が過抽出されること
が予測される。キー文字候補の過抽出が起きると、住所
の読み取り誤りを生じる可能性が高くなる。

【０２４４】一方、キー文字認識辞書３８の文字種が多
すぎると、処理時間がかかりすぎて実用的でない。よっ
て、キー文字認識辞書３８の文字種を適切に限定する必
要がある。

【０２４５】図２２は、本発明の一実施例に係わるキー
文字認識用辞書の構成を示すブロック図である。図２２
において、キー文字認識用辞書２０１は、キー文字種格
納部２０２及び類似文字種格納部２０３を備え、キー文
字認識用辞書２０１に登録される文字種を、キー文字字
種とその類似文字種に字種限定する。

【０２４６】この結果、キー文字認識用辞書に全ての文
字種が登録されている場合に比べて、認識対象となるパ
ターンとキー文字認識用辞書に登録されている文字種と
の比較回数を低減させることが可能となることから、住
所認識の処理時間を短縮することが可能となる。また、
キー文字認識用辞書にキー文字種のみが登録されている
場合に比べて、認識対象となるパターンに対するキー文
字種の出現順位を考慮して、認識対象となるパターンが
キー文字かどうかを判別することが可能となることか
ら、認識対象となるパターンとキー文字種との距離を評
価しただけでは、キー文字なのかキー文字でないのかが
判別できないようなパターンに対しても、キー文字かど
うかを精度よく判別することが可能となる。

【０２４７】図２３は、キー文字認識用辞書２０１に登
録されるキー文字種及びその類似文字種の一例を示す図
である。図２３において、キー文字種「都」に対し、そ
の類似文字種として、例えば、「郡」、「部」、
「祁」、「郎」がキー文字認識用辞書に登録され、キー
文字種「道」に対し、その類似文字種として、例えば、
「追」、「造」、「迫」、「通」がキー文字認識用辞書
に登録され、キー文字種「府」に対し、その類似文字種
として、例えば、「麻」、「狩」、「有」、「碕」がキ
ー文字認識用辞書に登録され、キー文字種「県」に対
し、その類似文字種として、例えば、「呉」、「具」、
「貝」、「見」がキー文字認識用辞書に登録され、キー
文字種「市」に対し、その類似文字種として、例えば、
「布」、「巾」、「希」、「帝」がキー文字認識用辞書
に登録され、キー文字種「郡」に対し、その類似文字種
として、例えば、「都」、「邦」、「部」、「郎」がキ
ー文字認識用辞書に登録され、キー文字種「区」に対
し、その類似文字種として、例えば、「匹」、「巨」、
「匠」、「医」がキー文字認識用辞書に登録され、キー
文字種「町」に対し、その類似文字種として、例えば、
「野」、「財」、「時」、「肝」がキー文字認識用辞書
に登録され、キー文字種「村」に対し、その類似文字種
として、例えば、「付」、「対」、「杖」、「打」がキ
ー文字認識用辞書に登録されている。

【０２４８】図２４は、図２３のキー文字種及びその類
似文字種に字種限定されたキー文字認識用辞書を用いた
場合のキー文字認識結果を示す図である。図２４におい
て、文字種が「見」のサンプルパターン６１について、
第１位の文字種の候補として「見」が出力され、第２位
の文字種の候補として「貝」が出力され、第３位の文字
種の候補として「県」が出力されている。また、文字種
が「県」のサンプルパターン６２について、第１位の文
字種の候補として「県」が出力され、第２位の文字種の
候補として「見」が出力され、第３位の文字種の候補と
して「貝」が出力されている。

【０２４９】ここで、サンプルパターン６１の特徴ベク
トルとキー文字種「県」の特徴ベクトルとの距離は、サ
ンプルパターン６２の特徴ベクトルとキー文字種「県」
の特徴ベクトルとの距離と同じであり、距離のみを用い
たのではサンプルパターン６１はキー文字ではないと判
定できない。ところが、サンプルパターン６２について
は、キー文字種「県」の出現順位は第１位であるにもか
かわらず、サンプルパターン６１については、キー文字
種「県」の出現順位は第３位となっている。このため、
例えば、キー文字種の出現順位が第１位のパターンのみ
をキー文字候補として抽出し、キー文字種の出現順位が
第２位以下のパターンはキー文字ではないとすることに
より、サンプルパターン６２はキー文字候補として抽出
することが可能となるとともに、サンプルパターン６１
はキー文字候補として抽出されないようにすることが可
能となる。

【０２５０】この結果、キー文字であるサンプルパター
ン６２をキー文字として正しく抽出することが可能とな
るとともに、キー文字でないサンプルパターン６１をキ
ー文字として誤って抽出することを防止することが可能
となる。また、照合回数についても、ＪＩＳ第１水準漢
字文字種が全て登録されている辞書を用いると、サンプ
ルパターン６１、６２のそれぞれに対して約３０００回
づつ必要になるの比べ、図２３の文字種が登録されてい
る辞書を用いると、サンプルパターン６１、６２のそれ
ぞれに対して４５回で済ませることが可能となり、処理
時間を短縮することが可能となる。

【０２５１】図２５は、本発明の第６実施例に係わる住
所認識装置の構成を示すブロック図である。図２５にお
いて、３０１は住所認識装置全体である。観測部３０３
では、スキャナやＣＣＤなどによって帳票３０２から住
所画像が読み込まれ、電子データ化されて、白黒の二値
化データに変換される。文字列切出部３０４では、住所
画像を一文字列ごとに切り出す。ラベリング部３０５で
は、各行画像に対して連結成分ごとにラベリングを行
い、横書き文字に対しては、上下方向の重なりラベル統
合を行う。接触箇所判定・切断部３０６では、文字間接
触のある箇所を判定し、これらの文字の分離を行う。

【０２５２】キー文字候補抽出部３０８では、キー文字
用辞書３０７及びキー文字らしさの度合いを用いて、文
字列中のキー文字候補を抽出する。ここで、キー文字候
補を抽出する場合、隣接するラベル画像との統合可能性
を判定しながら、自分自身と統合後のラベル画像に文字
認識を実行し、Ｎ位まで認識結果を求める。そして、認
識結果の上位Ｎ位中に、キー文字種を含むものをキー文
字候補として決定、あるいは、キー文字らしさがしきい
値以上のものをキー文字候補として決定する。キー文字
用辞書３０７に登録されている文字種は、キー文字種及
びその類似文字種のみに字種限定されており、キー文字
の抽出精度を損なうことなく、キー文字抽出を高速化す
ることが可能となる。

【０２５３】キー文字組候補決定部３１０では、キー文
字候補抽出部３０８で抽出されたキー文字候補の中か
ら、住所階層構造知識部３０９に登録されている住所階
層構造知識に矛盾しないキー文字の組の候補を決定す
る。地名単語領域切出部３１１では、キー文字に挟まれ
た地名単語領域を切り出す。地名単語一括認識部３１３
では、地名単語認識用辞書３１２を参照することによ
り、各地名単語の認識を一括して行い、各キー文字組候
補の中から、正しいものを１つ決定する。一文字認識部
３１５では、丁目・番地・方書き部などを、一文字づつ
切り出して文字認識を実行する。住所決定部３１７で
は、住所知識部３１６に登録されている住所知識を使っ
て、読み取った結果が現実の住所に合致するかを調べ、
現実の住所に合致するものを出力する。

【０２５４】図２６は、本発明の一実施例に係わるキー
文字認識用辞書の作成方法を示すフローチャートであ
る。図２６において、十分多くのサンプルパターンの各
文字種の組に対し、全文字種が登録されている辞書で文
字認識を実行し（ステップＳ３１）、第Ｎ位まで候補文
字種を求める。この第Ｎ位まで候補文字種の中に、キー
文字種のいずれかが含まれていた場合（ステップＳ３
２）、そのキー文字種の含有数を１だけ加算する（ステ
ップＳ３３）。文字認識を実行した文字種のサンプルパ
ターン数をＮｓ、ｋ番目のキー文字を第Ｎ位までに含む
サンプルパターン数をＮｋとした時、ｋ番目のキー文字
種の含有率としてＮｋ／Ｎｓを計算し（ステップＳ３
４）、Ｎｋ／Ｎｓ＞Ｒｔｈの条件を満たすかどうかを調べる（ステップＳ３５）。
そして、この条件を満たす文字種を、そのキー文字の類
似文字種と判定し（ステップＳ３６）、全文字種の辞書
から、キー文字に類似する文字種に対応する部分を取り
出す（ステップＳ３７）。ここで、Ｒｔｈは比のしきい
値で、実験によって適切な値を設定する。

【０２５５】例えば、「見」という文字種のサンプルパ
ターン数が２０００で、この各サンプルパターンについ
て文字認識を実行した結果、第Ｎ位までにキー文字種
「県」を含むサンプルパターン数が１５００だけあった
ものとし、Ｒｔｈ＝０．５と仮定すると、Ｎｋ＝１５０
０、Ｎｓ＝２０００であるので、Ｎｋ／Ｎｓ＝０．７５＞０．５となり、「見」という文字種をキー文字種「県」の類似
文字種として判定することができる。

【０２５６】図２７は、本発明の一実施例に係わる住所
認識装置のシステム構成を示すブロック図である。図２
７において、４０１は全体的な処理を行う中央演算処理
ユニット（ＣＰＵ）、４０２はリードオンリメモリ（Ｒ
ＯＭ）、４０３はランダムアクセスメモリ（ＲＡＭ）、
４０４は通信インターフェイス、４０５は通信ネットワ
ーク、４０６は入出力インターフェイス、４０７は住所
の認識結果などを表示するディスプレイ、４０８は住所
の認識結果などを印刷するプリンタ、４０９はスキャナ
４１０により読み取られたデータを一時的に格納するメ
モリ、４１０は入力画像などを読み取るスキャナ、４１
１はキーボード、４１２は記憶媒体を駆動するドライ
バ、４１３はハードディスク、４１４はＩＣメモリカー
ド、４１５は磁気テープ、４１６はフロッピーディス
ク、４１７はＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの光デ
ィスク、４１８はバスである。

【０２５７】住所認識処理を行うプログラム、キー文字
認識用辞書の内容、地名辞書の内容、住所階層構造知
識、住所中キー文字位置知識、及び地名知識などは、ハ
ードディスク４１３、ＩＣメモリカード４１４、磁気テ
ープ４１５、フロッピーディスク４１６、光ディスク４
１７などの記憶媒体に格納される。そして、住所認識処
理を行うプログラム、キー文字認識用辞書の内容、地名
辞書の内容、住所階層構造知識、住所中キー文字位置知
識、及び地名知識などを、これらの記憶媒体からＲＡＭ
４０３に読み出すことにより、住所認識処理を行うこと
ができる。また、住所認識処理を行うプログラム、キー
文字認識用辞書の内容、地名辞書の内容、住所階層構造
知識、住所中キー文字位置知識、及び地名知識などを、
ＲＯＭ４０２に格納しておくこともできる。

【０２５８】さらに、住所認識処理を行うプログラム、
キー文字認識用辞書の内容、地名辞書の内容、住所階層
構造知識、住所中キー文字位置知識、及び地名知識など
を、通信インターフェイス４０４を介して通信ネットワ
ーク４０５から取り出すこともできる。通信インターフ
ェイス４０４に接続される通信ネットワーク４０５とし
て、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗ
ｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒ
ｋ）、インターネット、アナログ電話網、デジタル電話
網（ＩＳＤＮ：ＩｎｔｅｇｒａｌＳｅｒｖｉｃｅＤ
ｉｇｉｔａｌＮｅｔｗｏｒｋ）、ＰＨＳ（パーソナル
ハンディシステム）や衛星通信などの無線通信網を用い
ることができる。

【０２５９】ＣＰＵ４０１は、住所認識処理を行うプロ
グラムが起動されると、スキャナ４１０により読み取ら
れた入力画像から住所領域を抽出し、住所領域のパター
ンからキー文字を抽出する。そして、抽出されたキー文
字が、住所階層構造知識及び住所中キー文字位置知識に
矛盾しないかどうかを調べ、住所階層構造知識及び住所
中キー文字位置知識に矛盾しないキー文字を用いること
により、地名領域を抽出する。地名領域が抽出される
と、地名領域のパターンを一体的に照合して地名を抽出
する。そして、抽出された地名が、住所知識に矛盾しな
いかどうかを調べ、住所知識に矛盾しない地名を、住所
の読み取り結果としてディスプレイ４０７やプリンタ４
０８に出力する。

【０２６０】以上、本発明の一実施例について説明した
が、本発明は上述した実施例に限定されることなく、本
発明の技術的思想の範囲内で他の様々の変更が可能であ
る。例えば、上述した実施例では、「県」、「市」、
「町」、「村」などの地名の区切りとなる文字をキー文
字として抽出して、住所を認識する場合について説明し
たが、「部」、「課」、「係」などの部署の区切りとな
る文字をキー文字として抽出して、会社での所属名を認
識する場合に適用してもよい。

【０２６１】

【発明の効果】以上説明したように、本発明によれば、
接触文字の切断前の状態に基づいて、キー文字の位置で
区切られる地名領域の地名の認識を行うことにより、住
所を表す文字列が接触している場合においても、地名を
表す文字列を一体的に抽出し、その文字列を一体的に処
理して地名の認識を行うことが可能となることから、地
名を表す文字列を一文字ごとに切り分ける際の処理を省
略して、住所の認識を効率的に行うことが可能となると
ともに、地名を表す文字列が間違った位置で切断される
ことを防止して、住所認識の正確性を向上させることが
可能となる。

【０２６２】また、本発明の一態様によれば、キー文字
によって区切られるパターン全体の特徴ベクトルを、地
名登録辞書に登録された地名の特徴ベクトルと照合する
ことにより、地名を表す文字列を一文字ごとに切り分け
ることなく、認識処理を一体的に行うことが可能とな
り、住所認識の効率性及び正確性を向上させることが可
能となる。

【０２６３】また、本発明の一態様によれば、キー文字
によって区切られるパターンの属性が「県」ならば、
「県」に関する地名を登録した辞書を用いて照合を行う
ことにより、キー文字で特定される属性に対応した照合
が可能となるため、認識精度を向上させることが可能と
なる。

【０２６４】また、本発明の一態様によれば、入力パタ
ーンのサイズに基づいて、切断位置の評価を行うことに
より、入力パターンからキー文字を抽出する際に、キー
文字を抽出するのに適した大きさに連結パターンを分離
することが可能となり、連結パターンの切断位置の数を
減らして、認識処理の回数を減らすことが可能となるこ
とから、住所の認識を効率的に行うことが可能となる。

【０２６５】また、本発明の一態様によれば、連結パタ
ーンのサイズに基づいて、切断位置の検出を行う連結パ
ターンを選択することにより、接触文字の可能性のある
比較的大きな連結パターンについてだけ切断位置の検出
を行い、接触文字とは認められない小さな連結パターン
については、切断位置の検出を省略することが可能とな
り、住所認識の効率性を向上させることが可能となる。

【０２６６】また、本発明の一態様によれば、入力パタ
ーンについての黒画素数ヒストグラムの極小点の値が所
定値以下の点を切断点候補とすることにより、文字同士
の接触点を検出することが可能となり、連結パターンを
文字同士の接触点で切断することが可能となる。

【０２６７】また、本発明の一態様によれば、連結パタ
ーンを切断した時の縦横比が所定の範囲内の領域で切断
することにより、連結パターンがキー文字を抽出するの
に不適当な大きさに切断されることを防止して、キー文
字の対象とならないパターンが生成されることを防止す
ることが可能となり、キー文字の対象とならないパター
ンについて無駄な処理が行われることを防止して、住所
認識を効率的に行うことが可能となる。

【０２６８】また、本発明の一態様によれば、半文字単
位で仮切断点候補を設定可能とすることにより、横書き
なら、キー文字の「偏」または「旁」のみ、縦書きな
ら、キー文字の「冠」、「連火」または「脚」のみが他
の文字と接触する場合においても、パターンを必要以上
に細切れに切断することなく、これらのキー文字の一部
分を接触文字から効率的に抽出することが可能となり、
元のキー文字を効率的に復元することが可能となる。

【０２６９】また、本発明の一態様によれば、平均文字
サイズの１／２の大きさの倍数の位置から一定範囲内の
中に、黒画素数ヒストグラムの極小点が複数存在してい
る場合、黒画素数ヒストグラムの値が最も小さい極小点
を選択することにより、仮切断候補点を１つだけに絞り
込むことができ、連結パターンが文字の切れ目でないと
ころで細かく切断されて、処理が複雑になることを防止
することが可能となる。

【０２７０】また、本発明の一態様によれば、平均文字
サイズの１／２の大きさの倍数の位置から一定範囲内の
中に、黒画素数ヒストグラムの値が最も小さい極小点が
複数存在している場合、平均文字サイズの１／２の大き
さの倍数の位置に最も近い点を選択することにより、仮
切断候補点を１つだけに絞り込むことができ、連結パタ
ーンが文字の切れ目でないところで細かく切断されて、
処理が複雑になることを防止することが可能となる。

【０２７１】また、本発明の一態様によれば、切断され
たパターンについての統合結果に基づいて、キー文字を
抽出することにより文字の一部分のみが他の文字と接触
している場合においても、文字の一部分を他の文字と切
り離し、切り離された文字の一部分を本来の文字の残り
の部分と合体させることが可能となり、キー文字の誤認
識を防止することが可能となる。

【０２７２】また、本発明の一態様によれば、上位にラ
ンクされたキー文字候補を優先的に使用することによ
り、キー文字候補として誤って抽出された文字が、地名
領域の抽出に使用されることを減らすことが可能とな
り、地名領域として抽出される候補の数を減らして、地
名の認識処理の回数を減らすことが可能となることか
ら、住所認識の効率性を向上させることが可能となる。

【０２７３】また、本発明の一態様によれば、キー文字
候補のキー文字らしさを登録しておくことにより、キー
文字らしさが大きいキー文字候補を優先的に使用するこ
とが可能となるとともに、優先的に使用したキー文字候
補を用いただけでは、住所の表示に用いることが可能な
キー文字同士の組み合わせが得られない場合は、追加す
るキー文字候補を容易に選ぶことが可能となり、処理を
迅速に行うことが可能となりる。

【０２７４】また、本発明の一態様によれば、キー文字
の配置順序及び配置位置、またはキー文字同士の組み合
わせが住所の表示に用いられるものとして適当であるか
どうかを判定することにより、地名の中に住所のキー文
字が含まれている場合においても、地名の中に含まれて
いるキー文字を除去し、地名の階層を表すために用いら
れている文字をキー文字と特定することが可能となり、
地名領域の誤抽出を防止して、住所認識を効率的に行う
ことが可能となる。

【０２７５】また、本発明の一態様によれば、一部選択
項目により指定されたキー文字が存在する場合、そのキ
ー文字の階層レベルより下の階層レベルから、キー文字
候補の組の決定を行うことにより、アンケート葉書など
のように、住所の一部選択項目が設けられている場合に
おいても、キー文字抽出の精度を向上させることが可能
となる。

【０２７６】また、本発明の一態様によれば、上位にラ
ンクされたキー文字候補を用いただけでは、住所の表示
として適当なキー文字同士の組み合わせが得られない場
合、下位にランクされたキー文字候補を追加することに
より、地名領域を抽出する際の正確性を損なうことな
く、キー文字候補の数を必要最小限に抑えることが可能
となる。

【０２７７】また、本発明の一態様によれば、下位にラ
ンクされたキー文字候補のうち、住所の表示に使用され
るキー文字の組に欠けているものだけを追加することに
より、下位にランクされたキー文字候補の中から必要な
ものだけを選択して、キー文字候補とすることができ、
キー文字抽出を効率的に行うことが可能となる。

【０２７８】また、本発明の一態様によれば、キー文字
らしさの大きいキー文字候補を優先的に用いてキー文字
候補の組を決定することにより、抽出されたキー文字候
補の組み合わせの中から、住所階層構造知識及び住所中
キー文字位置知識に矛盾しないキー文字候補の組を決定
する場合、キー文字候補の組み合わせの数を減らして処
理時間を短縮することが可能となり、住所認識を効率よ
く行うことが可能となる。

【０２７９】また、本発明の一態様によれば、住所表示
に用いられる地名同士の組み合わせ、または住所表示に
用いられる地名の配列順序が適当であるかどうかを判定
することにより、地名領域のパターンに対して複数の地
名候補が提示され、それらの地名候補を組み合わせるこ
とにより複数の住所候補が得られる場合においても、住
所の表示として現存しない地名の組み合わせを除去し
て、実在する住所のだけを識別することが可能となり、
住所認識の精度を向上させることが可能となる。

【０２８０】また、本発明の一態様によれば、一文字ず
つ照合した住所の認識結果も出力することにより、キー
文字抽出に失敗した場合においても、住所の認識を行う
ことが可能となり、住所認識の信頼性を向上させること
が可能となる。

【０２８１】また、本発明の一態様によれば、キー文字
認識用辞書に登録される文字種をキー文字種及びキー文
字種の類似文字種のみに字種限定することにより、入力
画像から切り出されたパターンの中からキー文字を抽出
する場合、キー文字認識用辞書に全ての文字種が登録さ
れている場合に比べて、入力画像から切り出されたパタ
ーンとキー文字認識用辞書に登録されている文字種との
比較回数を低減させることが可能となることから、住所
認識の処理時間を短縮することが可能となる。また、キ
ー文字認識用辞書にキー文字種のみが登録されている場
合に比べて、認識対象となるパターンに対するキー文字
種の出現順位を考慮して、認識対象となるパターンがキ
ー文字かどうかを判別することが可能となることから、
キー文字でないパターンがキー文字に類似している場合
でも、キー文字かどうかを精度よく判別することが可能
となり、キー文字に類似しているキー文字でないパター
ンがキー文字として誤って抽出され、住所の認識精度が
悪化することを防止することが可能となる。

【０２８２】また、本発明の一態様によれば、ある文字
種についての文字認識を行ったサンプルパターンの個数
Ｍに対し、前記文字認識の結果のＮ位以内にキー文字種
を含むサンプルパターンの個数Ｋの割合が一定値以上の
場合、前記文字種を前記キー文字種の類似文字種とする
ようにしている。

【０２８３】このことにより、キー文字種の類似文字種
を精度よく判別することが可能となる。

【図面の簡単な説明】

【図１】本発明の第１実施例に係わる住所認識装置の構
成を示すブロック図である。

【図２】本発明の一実施例に係わる住所認方法を説明す
る図である。

【図３】本発明の第２実施例に係わる住所認識装置の構
成を示すブロック図である。

【図４】本発明の第３実施例に係わる住所認識装置の構
成を示すブロック図である。

【図５】本発明の第４実施例に係わる住所認識装置の構
成を示すブロック図である。

【図６】本発明の第５実施例に係わる住所認識装置の構
成を示すブロック図である。

【図７】本発明の一実施例に係わる切断箇所判定・切断
処理を示すフローチャートである。

【図８】本発明の一実施例に係わるキー文字候補抽出処
理を示すフローチャートである。

【図９】本発明の一実施例に係わるキー文字候補決定処
理及びキー文字再抽出処理を示すフローチャートであ
る。

【図１０】（ａ）は、文字間接触を有する手書き住所文
字列の第１の例を示す図、（ｂ）は、外接矩形で囲まれ
たラベル画像を示す図、（ｃ）は、外接矩形の統合結果
を示す図である。

【図１１】（ａ）は、接触文字列の抽出結果を示す図、
（ｂ）は、接触文字列の黒画素数ヒストグラム上におけ
る切断点候補の位置を示す図、（ｃ）は、接触文字列の
黒画素数ヒストグラム上における仮切断点の位置を示す
図である。

【図１２】（ａ）は、図９（ａ）の文字列の仮切断結果
を示す図、（ｂ）は仮切断により得られた単独パターン
の統合可否の判定結果を示す図である。

【図１３】（ａ）は、仮切断により得られた単独パター
ンの認識結果を示す図、（ｂ）は、仮切断により得られ
た単独パターンを仮統合したパターンの認識結果を示す
図である。

【図１４】図９（ａ）の文字列について作成されたパタ
ーン情報テーブルの例を示す図である。

【図１５】住所に使用されるキー文字の階層レベルを示
す表である。

【図１６】図９（ａ）の文字列から抽出されたキー文字
候補を示す図である。

【図１７】（ａ）は、住所に使用されるキー文字の階層
構造を示す図、（ｂ）は、図１５のキー文字候補につい
て使用可能なキー文字セットを示す図である。

【図１８】文字間接触を有する手書き住所文字列の第２
の例を示す図である。

【図１９】図１７（ａ）の文字列について作成されたパ
ターン情報テーブルの例を示す図である。

【図２０】（ａ）は、図１７（ａ）の文字列から抽出さ
れたキー文字候補を示す図、（ｂ）は、図１７（ａ）の
文字列から再抽出されたキー文字候補を示す図、（ｃ）
は、図１７（ａ）の文字列について使用可能なキー文字
セットを示す図である。

【図２１】本発明の一実施例に係わるキー文字認識用辞
書を使い分けた場合のキー文字種の認識結果を示す図で
ある。

【図２２】本発明の一実施例に係わるキー文字認識用辞
書の構成を示すブロック図である。

【図２３】本発明の一実施例に係わるキー文字種及び類
似文字種を示す図である。

【図２４】本発明の一実施例に係わるキー文字種及びそ
の類似文字種に字種限定されたキー文字認識用辞書を用
いた場合のキー文字認識結果を示す図である。

【図２５】本発明の第６実施例に係わる住所認識装置の
構成を示すブロック図である。

【図２６】本発明の一実施例に係わるキー文字認識用辞
書の作成方法を示すフローチャートである。

【図２７】本発明の一実施例に係わる住所認識装置のシ
ステム構成を示すブロック図である。

【図２８】従来の住所認識装置の構成を示すブロック図
である。

【符号の説明】

１接触位置判定手段２接触文字切断手段３、１４キー文字抽出手段４、１５、２３地名領域抽出手段５、１６、２４地名認識手段１１切断位置検出手段１２切断位置評価手段１３連結パターン切断手段２１キー文字候補抽出手段２２ランク付け手段３１、３０５ラベリング部３２一文字領域決定部３３平均文字サイズ計算部３４、３０６切断箇所判定・切断部３５ヒストグラム作成部３６仮切断点候補抽出部３７仮切断点候補決定部３８、３０７キー文字認識用辞書３９、３０８キー文字候補抽出部４０パターン統合判定・統合部４１、５２、５７特徴抽出部４２、５３、５８辞書照合部４３パターン情報テーブル作成部４４キー文字知識部４５、３０９住所階層構造知識部４６住所中キー文字位置知識部４７、３１０キー文字組候補決定部４８不足キー文字再抽出部４９、３１１地名単語領域切り出し部５０、３１２地名単語認識用辞書５１、３１３地名単語一括認識部５４、３１４一文字認識用辞書５５、３１５一文字認識部５９、３１６住所知識部６０、３１７住所決定部６１住所階層構造知識６２住所中キー文字位置知識６３パターン情報テーブル１０１キー文字抽出手段１０２一括認識手段１０３地名単語辞書２０１キー文字認識用辞書２０２キー文字書格納部２０３類似文字書格納部３０１住所認識装置３０２帳票３０３観測部３０３文字列切り出し部４０１ＣＰＵ４０２ＲＯＭ４０３ＲＡＭ４０４通信インターフェイス４０５通信ネットワーク４０６入出力インターフェイス４０７ディスプレイ４０８プリンタ４０９メモリ４１０スキャナ４１１キーボード４１２ドライバ４１３ハードディスク４１４ＩＣメモリカード４１５磁気テープ４１６フロッピーディスク４１７光ディスク４１８バス

Claims

【特許請求の範囲】

【請求項１】接触文字の切断結果に基づいて、キー文
字の抽出を行うキー文字抽出手段と、前記キー文字の位置に基づいて、地名単語領域を抽出す
る地名単語領域抽出手段と、前記接触文字の切断前の状態に基づいて、前記地名単語
領域の地名単語の認識を行う地名単語認識手段とを備え
ることを特徴とする住所認識装置。
【請求項２】前記地名単語認識手段は、地名単語パターンの代表的特徴ベクトルを登録した地名
単語辞書と、前記キー文字によって区切られるパターンの特徴ベクト
ルと前記地名単語辞書に登録された地名単語の特徴ベク
トルとを照合する照合手段と、前記照合結果に基づいて、地名単語の認識結果を出力す
る出力手段とを備えることを特徴とする請求項１に記載
の住所認識装置。
【請求項３】前記地名単語辞書は、前記キー文字で特
定される属性ごとに前記地名単語パターンの代表的特徴
ベクトルが登録され、前記照合手段は、前記キー文字によって区切られるパタ
ーンの特徴ベクトルを、前記キー文字で特定される属性
を有する地名単語と照合することを特徴とする請求項２
に記載の住所認識装置。
【請求項４】入力パターンから連結パターンを抽出す
る連結パターン抽出手段と、前記連結パターンの切断位置を検出する切断位置検出手
段と、前記入力パターンのサイズに基づいて、前記切断位置の
評価を行う切断位置評価手段と、前記評価結果に基づいて、前記連結パターンを切断する
連結パターン切断手段と、連結パターンの切断結果に基づいて、キー文字を抽出す
るキー文字抽出手段と、前記キー文字の位置に基づいて、地名単語領域を抽出す
る地名単語領域抽出手段と、前記地名単語領域の地名単語の認識を行う地名単語認識
手段とを備えることを特徴とする住所認識装置。
【請求項５】前記切断位置検出手段は、前記連結パターンのサイズに基づいて、切断位置の検出
を行う連結パターンを選択する選択手段を備えることを
特徴とする請求項４に記載の住所認識装置。
【請求項６】前記切断位置検出手段は、前記入力パターンについての黒画素数ヒストグラムを算
出するヒストグラム算出手段と、前記黒画素数ヒストグラムの極小点を検出する極小点検
出手段と、前記極小点での黒画素数ヒストグラムの値が所定値以下
の点を切断点候補とする切断点候補検出手段とを備える
ことを特徴とする請求項４または５に記載の住所認識装
置。
【請求項７】前記切断位置評価手段は、前記連結パターンを切断した時の縦横比が所定の範囲内
にある領域を検出する領域検出手段と、前記切断位置検出手段により検出された切断位置のう
ち、前記領域検出手段により検出された領域外にある切
断位置を除外する除外手段とを備えることを特徴とする
請求項４〜６のいずれか１項に記載の住所認識装置。
【請求項８】統合後のパターンのサイズに基づいて、
統合前のパターンの統合判定を行う統合判定手段と、前記統合判定結果に基づいて、統合前のパターンの統合
を行う統合手段とをさらに備え、前記キー文字抽出手段は、前記統合手段による統合後の
パターンに基づいて、キー文字を抽出することを特徴と
する請求項４〜７のいずれか１項に記載の住所認識装
置。
【請求項９】入力パターンからキー文字候補を抽出す
るキー文字候補抽出手段と、前記キー文字候補の認識結果に基づいて、前記キー文字
候補のランク付けを行うランク付け手段と、前記ラン
ク付け手段により上位にランクされたキー文字候補の位
置に基づいて、地名単語領域を抽出する地名単語領域抽
出手段と、前記地名単語領域の地名単語の認識を行う地名単語認識
手段とを備えることを特徴とする住所認識装置。
【請求項１０】前記地名単語領域抽出手段は、キー文字の配置順序及び配置位置、またはキー文字同士
の組み合わせが、住所の表示に使用可能であるかを判定
する判定手段と、前記上位にランクされたキー文字候補を用いただけで
は、住所の表示に使用可能なものを得ることができない
場合、下位にランクされたキー文字候補を追加する追加
手段とを備えることを特徴とする請求項９に記載の住所
認識装置。
【請求項１１】前記追加手段は、下位にランクされた
キー文字候補のうち、住所の表示に使用されるキー文字
の組に欠けているものだけを追加することを特徴とする
請求項１０に記載の住所認識装置。
【請求項１２】入力パターンの各連結成分にラベル付
けを行うラベリング部と、連結成分を囲む外接矩形の重なり度が所定値以上の連結
パターンを統合した結果に基づいて、一文字領域を決定
する一文字領域決定部と、前記一文字領域のサイズに基づいて、平均文字サイズを
計算する平均文字サイズ計算部と、前記平均文字サイズに基づいて、前記連結パターン内に
おける文字同士の接触箇所を判定する接触個所判定部
と、文字の接触箇所の判定結果に基づいて、前記連結パター
ンを切断する切断部と、前記連結パターンの切断結果に基づいて、照合単位とな
る矩形領域を生成する矩形領域生成手段と、住所の表
示に用いられる文字を登録したキー文字認識用辞書部
と、前記矩形領域で囲まれるパターンを前記キー文字認識用
辞書部に登録されている文字と照合することにより、キ
ー文字候補を抽出するキー文字候補抽出部と、キー文字の住所中での可能な組み合わせと配置順序に関
する住所階層構造知識を登録した住所階層構造知識部
と、キー文字の住所中での可能な配置位置に関する住所中キ
ー文字位置知識を登録した住所中キー文字位置知識部
と、前記住所階層構造知識及び前記住所中キー文字位置知識
を参照することにより、前記キー文字候補の中から住所
に用いられる可能な組み合わせを決定するキー文字候補
決定部と、前記キー文字候補決定部で決定されたキー文字候補で区
切られる領域から地名単語を切り出す地名単語切り出し
部と、前記地名単語の特徴ベクトルを抽出する住所単語特徴抽
出部と、地名単語の特徴ベクトルを登録した地名単語辞書部と、前記地名単語特徴抽出部で抽出された地名単語の特徴ベ
クトルと、前記地名単語辞書部に登録された地名単語の
特徴ベクトルを照合することにより、前記地名単語の認
識を行う地名単語一括認識部と、住所表示に用いられる地名同士の組み合わせの可否、ま
たは住所表示に用いられる地名の配列順序が適当である
かどうかの地名知識を登録した地名知識部と、前記地名単語の認識結果が前記地名知識に矛盾しないか
どうかを調べることにより、住所の決定を行う住所決定
部とを備えることを特徴とする住所認識装置。
【請求項１３】前記キー文字候補決定部は、前記キー
文字候補抽出部で抽出されたキー文字候補の組み合わせ
が前記住所階層構造知識に矛盾せず、かつ、前記キー文
字候補の配置位置及び配置順序が住所中キー文字位置知
識と矛盾しないものを、キー文字候補の組として決定す
ることを特徴とする請求項１２に記載の住所認識装置。
【請求項１４】前記キー文字候補決定部は、一部選択
項目により指定されたキー文字が存在する場合、前記キ
ー文字の階層レベルより下の階層レベルから、キー文字
候補の組の決定を行うことを特徴とする請求項１３に記
載の住所認識装置。
【請求項１５】前記接触個所判定部は、前記一文字領域のパターンの外接矩形の縦横比を算出す
る縦横比算出部と、前記外接矩形の縦横比に基づいて、前記連結パターンに
接触文字が含まれるかどうかをを判定する接触文字判定
部と、接触文字が含まれると判定された連結パターンについ
て、文字列と垂直方向の黒画素数を計数した黒画素数ヒ
ストグラムを生成する黒画素数ヒストグラム生成部と、前記黒画素数ヒストグラムに対して移動平均を施すこと
により、前記黒画素数ヒストグラムを平滑化する平滑化
部と、平滑化された黒画素数ヒストグラムに基づいて、前記連
結パターンについての仮切断候補点を算出する仮切断候
補点算出部とを備えることを特徴とする請求項１２〜１
４のいずれか１項に記載の住所認識装置。
【請求項１６】前記仮切断候補点は、前記黒画素数ヒ
ストグラムの極小点のうち、所定のしきい値以下の値の
点であることを特徴とする請求項１５に記載の住所認識
装置。
【請求項１７】前記仮切断候補点は、横書きなら、前
記平均文字サイズの文字幅の１／２の大きさの倍数の位
置、縦書きなら、前記平均文字サイズの文字高の１／２
の大きさの倍数の位置から、前後一定範囲内の点である
ことを特徴とする請求項１５または１６に記載の住所認
識装置。
【請求項１８】前記仮切断候補点は、前記一定範囲内
の点のうち、前記黒画素数ヒストグラムの値が最も小さ
い極小点であることを特徴とする請求項１７に記載の住
所認識装置。
【請求項１９】前記仮切断候補点は、前記黒画素数ヒ
ストグラムの値が最も小さい極小点のうち、前記１／２
の大きさの倍数の位置に最も近い点であることを特徴と
する請求項１８に記載の住所認識装置。
【請求項２０】前記キー文字候補抽出部は、互いに隣接する連結パターンの統合結果についての幅、
高さ、または縦横比に基づいて、連結パターンについて
の統合判定を行う統合判定部と、前記統合判定結果に基づいて、前記連結パターンの仮統
合を行う仮統合部とを備えることを特徴とする請求項１
２〜１９のいずれか１項に記載の住所認識装置。
【請求項２１】仮統合した仮統合パターンについて、
キー文字認識を行う統合パターン認識部と、仮統合前の単独パターンについて、キー文字認識を行う
単独パターン認識部とを備えることを特徴とする請求項
２０に記載の住所認識装置。
【請求項２２】前記統合パターン認識部は、前記仮統合パターンの特徴ベクトルと前記キー文字認識
用辞書に登録されているキー文字種の特徴ベクトルとの
距離、及び前記キー文字種が出現する順位に基づいて、
キー文字らしさを算出する第１のキー文字らしさ算出部
を備えることを特徴とする請求項２１に記載の住所認識
装置。
【請求項２３】前記単独パターン認識部は、前記単独
パターンの特徴ベクトルと前記キー文字認識用辞書に登
録されているキー文字種の特徴ベクトルとの距離、及び
前記キー文字種が出現する順位に基づいて、キー文字ら
しさを算出する第２のキー文字らしさ算出部を備えるこ
とを特徴とする請求項２１または２２に記載の住所認識
装置。
【請求項２４】前記キー文字候補抽出部は、キー文字候補のキー文字らしさ、キー文字種、階層レベ
ル、位置座標、隣接するパターンと統合するか否かの情
報を記述したパターン情報テーブルを生成するパターン
情報テーブル生成部を備えることを特徴とする請求項２
２または２３に記載の住所認識装置。
【請求項２５】前記キー文字候補抽出部は、前記キー文字らしさがしきい値以上のパターンをキー文
字候補として検出するキー文字候補検出部と、前記キー文字らしさが前記しきい値より小さく０でない
パターンを準キー文字候補として検出する準キー文字候
補検出部とを備えることを特徴とする請求項２２〜２４
のいずれか１項に記載の住所認識装置。
【請求項２６】前記住所階層構造知識及び前記住所中
キー文字位置知識に矛盾しないキー文字候補の組が存在
しない場合、必要な階層レベルまたは必要な文字種のキ
ー文字を、前記準キー文字候補の中から抽出する不足キ
ー文字再抽出部を備えることを特徴とする請求項２５に
記載の住所認識装置。
【請求項２７】前記住所階層構造知識及び前記住所中
キー文字位置知識に矛盾しないキー文字候補の組が決定
した場合、前記キー文字候補を生成する仮切断候補点を
切断点として決定することを特徴とする請求項１２〜２
６のいずれか１項に記載の住所認識装置。
【請求項２８】前記住所階層構造知識及び前記住所中
キー文字位置知識に矛盾しないキー文字候補の組が決定
した場合、前記キー文字候補を生成する仮統合結果を統
合結果として決定することを特徴とする請求項１９〜２
７のいずれか１項に記載の住所認識装置。
【請求項２９】前記地名単語切り出し部は、住所の最
初の文字から最初のキー文字の直前の全パターン、及び
２番目以降のキー文字の間に挟まれれている全パターン
のそれぞれを、１つの地名単語として切り出すことを特
徴とする請求項１２〜２８のいずれか１項に記載の住所
認識装置。
【請求項３０】前記住所決定部は、地名単語一括認識
部で得られた複数の地名候補の組み合わせのうち、地名
知識部に登録されている地名の組み合わせを住所の読取
り結果として出力することを特徴とする請求項１２〜２
９のいずれか１項に記載の住所認識装置。
【請求項３１】前記住所階層構造知識及び前記住所中
キー文字位置知識に矛盾しないキー文字候補の組が決定
されなかった場合、または地名知識に矛盾しない住所が
得られなかった場合、エラーコードを出力することを特
徴とする請求項１２〜３０のいずれか１項に記載の住所
認識装置。
【請求項３２】一文字ごとの特徴ベクトルを登録した
一文字認識用辞書と、前記一文字領域のパターンの特徴ベクトルと前記一文字
認識用辞書に登録された特徴ベクトルとを照合すること
により、一文字認識を行う一文字認識部をさらに備える
ことを特徴とする請求項１２〜３１のいずれか１項に記
載の住所認識装置。
【請求項３３】入力画像からキー文字の抽出を行うキ
ー文字抽出手段と、前記キー文字で区切られるパターン
の認識を一括して行う一括認識手段とを備えることを特
徴とする住所認識装置。
【請求項３４】登録される文字種がキー文字種及び前
記キー文字種の類似文字種のみに字種限定されたキー文
字認識用辞書をさらに備えることを特徴とする請求項３
３に記載の住所認識装置。
【請求項３５】文字認識を行ったある文字種のサンプ
ルパターンの個数Ｍに対し、前記文字認識の結果のＮ位
以内にキー文字種を含むサンプルパターンの個数Ｋの割
合が一定値以上の場合、前記文字種を前記キー文字種の
類似文字種とすることを特徴とする請求項３４に記載の
住所認識装置。
【請求項３６】前記キー文字抽出手段は、前記入力画像から切り出されたパターンと前記キー文字
認識用辞書に登録されている文字種とを比較する比較手
段と、前記入力画像から切り出されたパターンのうち、前記比
較手段で得られたキー文字種の出現順位が上位のものを
キー文字候補として決定するキー文字候補決定手段とを
備えることを特徴とする請求項３４または３５に記載の
住所認識装置。
【請求項３７】前記比較手段は、前記入力画像から切
り出されたパターンと前記キー文字認識用辞書に登録さ
れている文字種との相違度または類似度に基づいて、前
記キー文字種の出現順位を定義することを特徴とする請
求項３６に記載の住所認識装置。
【請求項３８】前記キー文字候補決定手段は、キー文
字種との相違度または類似度が等しく、前記キー文字種
の出現順位が等しい２つのパターンが存在する場合、前
記２つのパターンのそれぞれについて第１位候補との相
違度または類似度との差を検出し、前記第１位候補との
相違度または類似度との差の小さい方のパターンのキー
文字としての優先順位を上げることを特徴とする請求項
３７に記載の住所認識装置。
【請求項３９】登録される文字種がキー文字種及び前
記キー文字種の類似文字種のみに字種限定されているこ
とを特徴とするキー文字認識用辞書。
【請求項４０】キー文字の位置に基づいて地名単語領
域を抽出するステップと、前記地名単語領域に含まれるパターン全体を一体的に照
合することにより、地名単語の認識を行うステップと、前記地名単語の認識結果に基づいて、住所の認識を行う
ステップとを備えることを特徴とする住所認識方法。
【請求項４１】キー文字のサイズに基づいて、連結パ
ターンから矩形領域を切り出すステップと、前記矩形領域に含まれるパターンに基づいて、キー文字
の抽出を行うステップと、前記キー文字の抽出結果に基づいて、住所の認識を行う
ステップとを備えることを特徴とする住所認識方法。
【請求項４２】入力パターンからキー文字領域を抽出
するステップと、前記キー文字領域に含まれるパターンの認識結果に基づ
いて、キー文字領域の選別を行うステップと、選別されたキー文字領域の位置に基づいて、地名単語領
域を抽出するステップと、前記地名単語領域の抽出結果に基づいて、住所の認識を
行うステップとを備えることを特徴とする住所認識方
法。
【請求項４３】キー文字を抽出することにより、住所
の認識を行う住所認識方法において、前記キー文字によって区切られる地名単語の認識を、前
記地名単語を構成する文字ごとに分離することなく、前
記地名単語を構成する文字列を一体的に処理して行うこ
とを特徴とする住所認識方法。
【請求項４４】入力画像からキー文字を抽出すること
により住所の認識を行う住所認識方法において、前記入力画像から切り出されたパターンをキー文字種及
び前記キー文字種の類似文字種に字種限定して照合する
ことにより、前記キー文字の抽出を行うことを特徴とす
る住所認識方法。
【請求項４５】キー文字の位置に基づいて地名単語領
域を抽出する機能と、前記地名単語領域に含まれるパターン全体を一体的に照
合することにより、地名単語の認識を行う機能と、前記地名単語の認識結果に基づいて、住所の認識を行う
機能とをコンピュータに実行させるプログラムを格納し
たコンピュータ読み取り可能な記憶媒体。
【請求項４６】キー文字のサイズに基づいて、連結パ
ターンから矩形領域を切り出す機能と、前記矩形領域に含まれるパターンに基づいて、キー文字
の抽出を行う機能と、前記キー文字の抽出結果に基づいて、住所の認識を行う
機能とをコンピュータに実行させるプログラムを格納し
たコンピュータ読み取り可能な記憶媒体。
【請求項４７】入力パターンからキー文字領域を抽出
する機能と、前記キー文字領域に含まれるパターンの認識結果に基づ
いて、キー文字領域の選別を行う機能と、選別されたキー文字領域の位置に基づいて、地名単語領
域を抽出する機能と、前記地名単語領域の抽出結果に基づいて、住所の認識を
行う機能とをコンピュータに実行させるプログラムを格
納したコンピュータ読み取り可能な記憶媒体。
【請求項４８】入力画像から切り出されたパターンを
キー文字種及びキー文字の類似文字種に字種限定して照
合する機能と、キー文字で区切られるパターンの認識を一括して行う機
能とをコンピュータに実行させるプログラムを格納した
コンピュータ読み取り可能な記憶媒体。