JP4945593B2

JP4945593B2 - 文字列照合装置、文字列照合プログラム及び文字列照合方法

Info

Publication number: JP4945593B2
Application number: JP2009062034A
Authority: JP
Inventors: 彰夫古畑
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2009-03-13
Filing date: 2009-03-13
Publication date: 2012-06-06
Anticipated expiration: 2029-03-13
Also published as: JP2010218057A

Description

本発明は、文字列どうしを照合する際に用いる文字列照合装置、文字列照合プログラム及び文字列照合方法に関する。

例えばクレジットカードの入会申込書から読み取ったイメージデータを文字認識し、文字認識の結果得られたテキストデータを所定形式のデータファイルに登録するためのイメージ処理システムが提案されている（例えば特許文献１参照）。

さらに例えば、ユーザ側から提示される手書きの申込書と実印などの登録を行った印鑑登録カードとを基に印鑑証明の発行手続きを行う場合の処理や、また、クレジットカードと手書きの申込書とに基づいて店頭窓口で現金を貸し出しする場合の処理などにおいても、文字イメージの読み取りを併用したデータ処理システムが利用されている。

ここで、上記のデータ処理システムは、例えばカードから読み出したＩＤ番号などを基にデータベースから検索される住所名や氏名などを表すテキストデータの内容と、申込書の紙面上の文字イメージを文字認識して得た住所名や氏名などを表すテキストデータの内容と、を照合して例えば本人認証を行う。

特開２００５−５６０９９号公報

しかしながら、上述したデータ処理システムは、データどうしの照合において次のような課題を抱えている。すなわち、ユーザが申込書に記入する住所名は、住所末尾の例えば「１丁目１番地１号」などが、「１‐１‐１」や「１ノ１ノ１」などの異なる表記の形態で記入される場合がある。このように、申込書に実際に記入された住所の表記の形態と、データベースに予め登録された住所の表記の形態と、が一部分でも異なる場合、住所名全体として同じ住所を表しているか否かを判定することが難しくなる。

さらに、このデータ処理システムは、申込書に記入された住所名や氏名などの文字列が、一部分でも粗雑に記入された場合（例えば記入された文字の濃度が薄い場合や極端に太い書体で文字が記入された場合など）には、文字列中のその部分の文字認識精度が低下し、これに伴い正しい認識結果を得ることが困難となる。また、文字認識処理は、一般に、その処理自体が複雑であるため、処理全体の効率化を図る上で、文字認識処理を極力省いたかたちで文字列の照合処理を行いたいところである。

本発明は、このような事情を考慮してなされたものであり、文字列どうしの照合を効率的に行うことができる文字列照合装置、文字列照合プログラム及び文字列照合方法の提供を目的とする。

上記目的を達成するために、本発明に係る例えば文字列照合装置は、文字列どうしの同一性を判定する上での指標となる判定ルールを記憶する記憶部と、第１の文字列を表す画像パターンと第２の文字列を表す画像パターンとを照合する画像パターン照合部と、前記画像パターン照合部により照合された個々の前記画像パターンから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターンを抽出する差分抽出部と、前記差分抽出部により抽出された前記第１及び／又は第２の差分パターンを基に、互いに比較可能な第１及び第２の差分比較情報を生成する差分比較情報生成部と、前記差分比較情報生成部により生成された前記第１及び第２の差分比較情報どうしを照合する差分照合部と、前記記憶部に記憶された前記判定ルールと前記差分照合部による照合結果とに基づいて、前記第１及び第２の文字列の同一性を判定する判定部と、を具備することを特徴とする。

すなわち、本発明では、第１、第２の文字列を各々表す画像パターンどうしを照合して、それぞれの差分パターンを抽出した後、この差分パターンを基に生成した差分比較情報どうしの照合結果と判定ルールとに基づき、第１、第２の各文字列の同一性を判定するものである。したがって、本発明では、照合対象の各文字列中の相違部分に特化して互いの同一性を判定するので、照合処理の効率化を図ることができる。

本発明によれば、文字列どうしの照合を効率的に行うことができる文字列照合装置、文字列照合プログラム及び文字列照合方法を提供することが可能である。

本発明の第１の実施形態に係る文字列照合装置を示す機能ブロック図。図１の文字列照合装置が備える画像パターン生成部及び画像パターン照合部が行う処理の概要を示す図。図２の画像パターン照合部による照合処理を概念的に示す図。図２の画像パターン照合部による照合処理時の規則を説明するための図。図１の文字列照合装置が備える画像パターン照合部、差分抽出部、差分比較情報生成部及び差分照合部がそれぞれ行う処理の概要を示す図。図１の文字列照合装置が実現する文字列照合方法を示すフローチャート。本発明の第２の実施形態に係る文字列照合装置を示す機能ブロック図。図７の文字列照合装置が実現する文字列照合方法を概念的に示す図。図７の文字列照合装置が実現する文字列照合方法を示すフローチャート。

以下、本発明を実施するための形態を図面に基づき説明する。
［第１の実施の形態］
この実施形態に係る文字列照合装置１は、例えば、ユーザ側から提示された手書きの申込書と実印などの登録を行った印鑑登録カードとを基に印鑑証明の発行手続きを行う場合の処理や、また、例えば、クレジットカードと手書きの申込書とに基づいて店頭窓口で現金を貸し出しする際の処理などにおいて利用可能である。

より具体的には、この文字列照合装置１は、例えば、上記カードから読み出したＩＤ番号などを基にデータベースから検索される住所名や氏名などを表すテキストデータの内容と、ユーザが必要事項を記入した申込書をイメージスキャナなどで読み取って得た住所名や氏名などの文字列を表す画像パターン（文字イメージ）の内容と、を照合するものであって、その照合結果が例えば本人認証などに利用される。

すなわち、本実施形態の文字列照合装置１は、図１に示すように、画像パターン取得部３、テキストデータ取得部５、画像パターン生成部（第１の画像パターン生成部）７、画像パターン照合部８、記憶部１４、差分抽出部１０、差分比較情報生成部１２、差分照合部１７及び判定部１８を備える。

ここで、文字列照合装置１は、主要なハードウェア部分が例えばＰＣ（パーソナルコンピュータ）などで構成されており、このＰＣ内のＨＤＤなどの外部記憶装置に格納された例えば文字列照合プログラムがＣＰＵによりメインメモリ上にロードされることによって、上記した画像パターン生成部７や差分抽出部１０を含む各構成要素が、ソフトウェアなどで実現される。なお、文字列照合装置１のソフトウェアで実現される上記各構成要素を、各種の電子部品を組み合わせてハードウェアにより実現してもよい。また、本実施形態の文字列照合装置１には、例えば、液晶ディスプレイやＣＲＴモニタなどの表示装置、マウスやキーボードなどの入力装置、及びイメージスキャナなどが接続されている。

画像パターン（文字パターン）取得部３は、ユーザが例えば手書きで必要事項を記入した申込書の紙面を上記イメージスキャナで読み取って得た例えばラスタ形式の画像イメージ中から、選択的に文字列のイメージデータを切り出し、切り出したこのイメージデータを図２に示すように第１の文字列を表す画像パターン２ａとして取得する。詳細には、画像パターン取得部３は、申込書の例えばレイアウトを定めたフォーマット情報などに基づいて、申込書全体の画像イメージ中から、文字記入枠などのイメージを取り除くことにより、文字列のイメージをその属性情報（住所名、氏名、電話番号などを差別化するための情報）などと共に取り出す。

テキストデータ取得部（テキスト取得部）５は、前述したように、例えばＩＤ番号と住所名や氏名などとを予め対応付けて登録しておいた所定のデータベースから、上記カードのＩＤ番号などを基に検索される住所名や氏名などを表すテキストデータ２ｂを図２に示すように取得する。ここで、この第１の実施形態及び後述する第２の実施形態では、本発明の技術思想をより把握し易くするために、図２などに示すように、照合対象として、それぞれ住所名を表した画像パターン及びテキストデータを取得する場合を例示する。

記憶部１４には、図１に示すように、照合対象の文字列どうしの同一性を判定する上での指標（判定基準）となる判定ルール１５が記憶されている。この実施形態の判定ルール１５には、照合対象の各文字列がそれぞれ持つ意味内容が一致するか否かで、文字列どうしの同一性の有無を判定すべき旨が規定されている。つまり、判定ルール１５には、照合対象の各文字列が表す意味内容が一致しない場合、同一性無しと判定し、一方、各文字列が表す意味内容が一致する場合、同一性有りと判定する旨が規定されている。また、勿論、照合対象の各文字列自体が互いに同一の文字列である場合にも、同一性有りと判定することが判定ルール１５に規定されている。

したがって、このような判定ルール１５は、図１に示すように、互いに同一の意味内容を表すものと解釈すべき複数の表記の形態を体系的に登録した表記知識情報１６を適用して規定されている。後に詳述するこの表記知識情報１６は、表記ゆれ規定知識１６ａや名称ＤＢ（名称データベース）１６ｂといった表記ゆれに関する情報を含んで構成されている。

画像パターン生成部７は、図１、図２に示すように、テキストデータ取得部５により取得されたテキストデータ２ｂと上述した表記知識情報１６とに基づいて、当該テキストデータ２ｂで表された文字列（第３の文字列）と各々同一の意味内容を表しかつ表記の形態が互いに異なる複数の種類の文字列（第４の文字列）をそれぞれ表す複数の画像パターン２ｃを生成する。また、図１に示すように、画像パターン生成部７は、文字列解析部７ａを備えている。文字列解析部７ａは、表記知識情報１６を参照しつつ、図２に示すように上記テキストデータ２ｂで表された文字列の解析を行う。

画像パターン照合部８は、図１〜図４に示すように、画像パターン取得部３により取得された第１の文字列を表す画像パターン２ａと第２の文字列を表す画像パターン２ｄ（及び複数の画像パターン２ｃ）とを照合する。また、図１に示すように、画像パターン照合部８は、画像パターン選出部８ａを備えている。画像パターン選出部８ａは、図２〜図４に示すように、第１の文字列を表す画像パターン２ａを、画像パターン生成部７により生成された複数の画像パターン２ｃそれぞれと照合することによって、当該生成された複数の画像パターン２ｃのうちで第１の文字列を表す画像パターン２ａと最も類似する画像パターンを、図２に示すように、第２の文字列を表す画像パターン２ｄとして選出する。

差分抽出部１０は、図１、図５に示すように、画像パターン照合部８により照合された個々の画像パターン２ａ、２ｄから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターン２ｇ、２ｈを抽出する。

差分比較情報生成部１２は、図１、図５に示すように、差分抽出部１０により抽出された第１及び第２の差分パターン２ｇ、２ｈから、互いに比較可能な第１及び第２の差分比較情報２ｊ、２ｋを生成する。具体的には、図１に示すように、差分比較情報生成部１２は、文字認識部（第１の文字認識部）１２ａを備える。文字認識部１２ａは、第１及び第２の差分パターン２ｇ、２ｈをそれぞれ文字認識し、この文字認識結果となるテキストデータを第１及び第２の差分比較情報２ｊ、２ｋとして得る。なお、文字認識部１２ａが行う文字認識処理には、部分空間法などの既知のＯＣＲ技術を利用することが可能である。

差分照合部１７は、図１、図５に示すように、差分比較情報生成部１２により生成された第１及び第２の差分比較情報２ｊ、２ｋどうしを照合する。つまり、差分照合部１７は、第１及び第２の差分比較情報２ｊ、２ｋとして得られた画像パターン２ａ、２ｄ中の相違部分を比較照合する。

判定部１８は、図１、図２、図５に示すように、記憶部１４に記憶された判定ルール１５と差分照合部１７による照合結果とに基づいて、画像パターン取得部３により取得された画像パターン２ａで表される第１の文字列と画像パターン選出部８ａにより選出された画像パターン２ｄで表される第２の文字列との同一性（同一性の有無）を判定する。

ここで、上述したように、画像パターン選出部８ａは、図２に示すように、テキストデータ２ｂで表される第３の文字列とそれぞれ同一の意味内容を持つ複数の第４の文字列を各々表した複数の画像パターン２ｃの中から、第２の文字列を表す画像パターン２ｄを選出している。したがって、第３の文字列と第２の文字列とは、互いに同一の意味内容を持つ文字列となる。これにより、本実施形態の判定部１８は、図２及び図５に示すように、テキストデータ２ｂで表される第３の文字列と、画像パターン２ａで表される第１の文字列と、の同一性を実質的に判定する。

次に、本実施形態の文字列照合装置１が備える各部の機能を上述した図１、図２に加え、図３〜図５に基づきより詳細に説明する。本実施形態では、図２、図５に示すように、画像パターン取得部３が、第１の文字列として「東京都府中市武蔵台1‐1‐15東芝荘307号室」を表す画像パターン２ａを取得する一方で、テキストデータ取得部５が、第３の文字列として「府中市武蔵台1‐1‐15‐307」を表すテキストデータ２ｂを取得し、これらを照合した結果、同一性有りと判定されるまでの一連の処理を例示する。また、画像パターン２ａは、例えば２５６階調のグレースケール画像として与えられ、一方、テキストデータ２ｂは、文字コードをＳＪＩＳコードで記述したデータが与えられるものとする。

図１に示すように、表記知識情報１６を構成する表記ゆれ規定知識１６ａは、例えば「檜山町」と「桧山町」、「クローバー」と「クローバ」など、同じ意味を持つ語句の表記のゆれを体系的に登録している。また、表記ゆれ規定知識１６ａには、住所末尾の「丁目」、「番地」、「号」、アパートやマンションなどの集合住宅の「棟」、「階」、集合住宅の「建物名」などを、「‐」（ハイフン）やカタカナの「ノ」に置き換えた表記の形態が登録されている。さらに、表記ゆれ規定知識１６ａは、住所末尾の「１」丁目、「１」番地…などの算用数字を「一」丁目、「一」番地…などの漢数字に置き換えた表記の形態も登録されている。

さらに、上記の表記ゆれ規定知識１６ａを含む表記知識情報１６には、図２に示すように、例えば集合住宅名における住所最末尾の「号室」、住所先頭の「都道府県名」などを表記上、省略可能である旨が規定されている。また、表記知識情報１６を構成する名称ＤＢ１６ｂとしては、本実施形態では、いわゆる住所データベースが適用されている。したがって、この名称ＤＢ（住所データベース）１６ｂを、文字列解析部７ａが参照することで、データ「府中市武蔵台1‐1‐15‐307」を基に、例えば「東京都」や「東芝荘」などの省略された住所データを補完することが可能となる。つまり、このような表記知識情報１６は、表記の形態としては互いに異なるものの、同じ意味内容を表す文字列どうしとして許容される表記のバリエーションを規定する。

文字列解析部７ａは、図２に示すように、テキストデータ取得部５で取得されたテキストデータ２ｂの内容を、上記の表記知識情報１６を参照しつつ解析することによって、テキストデータ２ｂで表される文字列と各々同一の意味内容を表しかつ表記の形態が互いに異なる複数の種類の文字列を特定する。ここで、文字列解析部７ａは、文字列を複数特定できない場合、単一の文字列のみを適用してもよいし、また、文字列を複数特定できた場合でも、そのうちの幾つかだけを選択的に適用してもよい。さらに、照合対象となる画像パターン２ａで表された文字列の表記の形態が予め判っている場合、例えば上記の「都道府県名」や「号室」などを省略していることが予め判っている場合には、これを利用して、文字列解析部７ａが文字列の特定を行うようにしてもよい。

ここで、図２では、文字列解析部７ａが、テキストデータ２ｂとしての「府中市武蔵台1‐1‐15‐307」を解析した結果、互いに表記の形態が異なる「府中市武蔵台1‐1‐15‐307」、「府中市武蔵台1丁目1番地15号307」、「府中市武蔵台一丁目一番地十五号三〇七」、「府中市武蔵台一ノ一ノ十五ノ三〇七」…が特定された例を示している。

また、本実施形態では、上記カードのＩＤ番号を基にテキストデータ取得部５がデータベースからテキストデータ２ｂを住所名として取得する場合を例示しており、文字列解析部７ａは、テキストデータ２ｂが住所名を表すデータであることを認識した上で、テキストデータ２ｂの1-1…(1丁目1番地…)以降の異なる表記の形態を求めている。なお、このような例示に代えて、文字列解析部７ａが、例えば都道府県名や市区町村名などの住所名に一定の規則を持って含まれる特定のキーワードなどに基づいて、テキストデータ２ｂが住所名を表すものであるか否かを判定するようにしてもよい。

また、本実施形態では、住所名の照合について例示しているが、これに代えて、氏名、電話番号、ＦＡＸ番号、Ｅメールアドレス、ＵＲＬで表現されるアドレス、契約番号などを文字列照合装置１が照合するものであってもよい。例えば氏名などを照合対象とする場合、表記知識情報１６中の名称ＤＢ１６ｂを住所データベースから名前辞書（姓名データベース）に変更することで、この対応が可能となる。

画像パターン生成部７は、自身が備える文字列解析部７ａにより特定された複数の種類の文字列を表す画像パターン２ｃを生成する。具体的には、画像パターン生成部７は、文字列照合装置１本体を構成するＰＣ内にＯＳやアプリケーションなどと共に予め登録された標準フォントを使用し、画素毎に１バイトの情報を持つ２５６階調のグレースケール画像を生成する。なお、文字列照合装置１が例えばインターネットなどに接続可能な環境にある場合、インターネット上から取得した文字フォントを画像パターン２ｃに適用することなども可能である。

なお、画像パターン生成部７は、文字列解析部７ａが特定（適用）する文字列毎に、一つずつ画像パターン２ｃを生成してもよいし、また、例えば文字フォントの種類などを変えて、文字列解析部７ａが特定する文字列毎に、複数個ずつの画像パターン２ｃを生成してもよい。さらに、これに代えて、画像パターン生成部７は、文字列の例えば横書き／縦書きの変更、横書き／縦書きの混在、さらには、市区町村名などの文字列中の一部だけのフォントサイズの変更などを行って画像パターン２ｃを生成してもよい。また、影付き文字、太字、斜体文字、下線などを適用して画像パターン２ｃを生成してもよい。

さらに、図２に示すように、照合対象となる画像パターン２ａに適用された文字フォントや文字列中の各部位ごとのフォントサイズなどの情報を取得できる場合には、これらの文字の書体やサイズに対応させて画像パターン生成部７が画像パターン２ｃを生成してもよい。また例えば、文字列中の英数字が半角で表記されることが予め決められている場合などにも、この情報に基づいた画像パターン２ｃを画像パターン生成部７が生成するものであってもよい。

画像パターン照合部８は、図３に示すように、画像パターン取得部３により取得された第１の文字列を表す画像パターン２ａと、画像パターン生成部７により生成された複数の画像パターン２ｃと、のそれぞれを、高さｈ、幅ｗで各々構成される同一サイズの複数の部分画像Ｒに分割（スライス）する。さらに、画像パターン照合部８は、図３に示すように、この部分画像Ｒの単位で、画像パターン２ａを、複数の画像パターン２ｃそれぞれと照合することによって、部分画像毎に下記の式（１）で与えられる評価値Ｓ1を求める。

ここで、上記式（１）中のＸ_i,jは、２５６階調のグレースケールで表現される画像パターン２ａ側の部分画像Ｒの画素値である。一方、Ｙ_i,jは、同様に２５６階調のグレースケールで表現される画像パターン２ｃ側の部分画像Ｒの画素値である。つまり、式（１）で与えられる評価値Ｓ1は、照合対象の画素値どうしの最小２乗誤差から得られる。より具体的には、この評価値Ｓ1は、部分画像Ｒの高さ方向を１、２…ｈとし、その幅方向を１、２…ｗとして、当該部分画像Ｒをさらに細分化した細分化画素領域毎の画素値の差分を２乗した値の総和によって得られる。

さらに、画像パターン照合部８は、評価値Ｓ1が最小となる画像パターン２ｃ中の部分画像Ｒを、画像パターン２ａ側の部分画像Ｒとマッチ（一致）する画像領域として検出する。ここで、画像パターン照合部８は、評価値Ｓ1が予め定めた閾値Ｔを超える部分画像に関しては、マッチする部分画像が存在しないものとして処理を行う。

このように、画像パターン照合部８は、評価値Ｓ1の計算に画素値を適用しているので、画像自体の持つ情報のみから照合結果を得ることができ、これにより、照合処理の高速化を図ることができる。また、画像パターン照合部８では、画像パターン２ａや画像パターン２ｃの画質が低品質な場合であっても、これら画像パターン中の文字部分と背景部分とに、ある程度の画素値の差があれば、これに伴う評価値Ｓ1の変化を捉えることができるので、低品質な画像パターンが照合対象の場合でも頑健な処理を行うことができる。

ここで、画像パターン照合部８は、２５６階調のグレースケール画像として取得された画像パターン２ａと複数の画像パターン２ｃ（２ｄ）とをそのまま照合するものであるが、これに代えて、照合対象の画像パターン２ａ、２ｃを、部分画像Ｒの画素値の最大値と最小値との間を２５６階調にリスケールしたり、また、エッジ強調や鮮鋭化などのフィルタ処理を行った後、照合処理を行うものであってもよい。さらに、画像パターン照合部８は、２値画像やカラー画像などの照合処理を行うものであってもよい。また、画像パターン２ａ、２ｃにおいて行の高さなどが異なる場合、前処理として例えば小さいほうの行を大きさが同じになるまで拡大するなどの正規化処理を行ってもよい。

また、画像パターン照合部８は、図４に示すように、比較対象の一方の画像パターン２ｆを基準として、比較対象の他方の画像パターン２ｅとの照合処理を行う場合において、一方及び他方の画像パターン２ｆ、２ｅにおける各部分画像Ｒどうしを図４中の左側から右側へ向けて順に照合する。ここで、画像パターン照合部８には、照合処理時の照合規則として、図４に示すように、一方の画像パターン２ｆの部分画像Ｒと既にマッチした他方の画像パターン２ｆの部分画像Ｒの左側の領域（及び既にマッチした領域）は、再度照合処理を行わない、という規則が定義されている。これにより、画像パターン照合部８は、照合処理のさらなる効率化を図っている。

また、画像パターン照合部８の備える画像パターン選出部８ａは、図２に示すように、画像パターン２ａに対する複数の画像パターン２ｃそれぞれの一致度Ｆ1を求める。具体的には、画像パターン選出部８ａは、部分画像Ｒ毎に上記式（１）で求まる評価値Ｓ1の最小値と評価値Ｓ1の平均値とを平均して一致度Ｆ1を得る。つまり、画像パターン選出部８ａは、一致度Ｆ1の値が最も小さい画像パターン２ｃを画像パターン２ａと最も類似する画像パターンとして認識し、この最も類似する画像パターンを、図２に示すように、第２の文字列を表す画像パターン２ｄとして選出する。ここで、画像パターン選出部８ａは、図３、図４に例示した照合処理でマッチしない部分画像Ｒが閾値Ｐ以上存在する画像パターン２ｃについては、一致度Ｆ1の値を無限大とする。なお、本実施形態では、画像パターン選出部８ａは、閾値Ｐとして例えば値「２」を採用する。

また、画像パターン照合部８は、一致度を評価するための評価値を得る場合に式（１）で求まる評価値Ｓ1に代えて、例えば下記の式（２）で求まる評価値Ｓ2を適用するものであってもよい。

ここで、式（２）では、“Ｘ_k”は、画像パターン２ａ側の部分画像Ｒ中の上述した細分化画素領域毎の画素値を特徴量化した特徴ベクトル、“Ｙ_k”は、画像パターン２ｃ側の部分画像Ｒ中の細分化画素領域毎の画素値を特徴量化した特徴ベクトル、“・”は、内積、“|| ||”は、ノルムを表している。つまり、式（２）で求まる評価値（ｃｏｓθ）Ｓ2は、値「１」に近付く程、特徴ベクトルどうしが類似していることになる。

画像パターン照合部８が、式（２）から得られる評価値Ｓ2を適用している場合、例えば各部分画像Ｒの評価値Ｓ2の平均値や、各部分画像Ｒの評価値Ｓ2の中間値（例えば評価値Ｓ2の最大値と最小値との中間の値）を一致度Ｆ2として求めることなどが例示される。この場合、画像パターン選出部８ａは、画像パターン２ａと最も類似する画像パターン２ｄの選出基準として、一致度Ｆ2が最大となる画像パターンを選出する。

また、例えばニューラルネットワークなどを用いて、前記した特徴ベクトルＸ_k、Ｙ_kから評価値を計算するための関数を学習させるようにしてもよい。さらに、画像パターン照合部８は、画像パターン２ａ、２ｃどうしの照合の単位であった部分画像の幅ｗを、画像パターン全体の幅として、照合処理を行うものであってもよい。また、第１、第２の差分比較情報としてテキストデータで各々得られた文字数の差や、互いにマッチしなかった各部分画像Ｒのその総面積の差などを、評価値を求めるための要素として適用してもよい。

図１、図５に示すように、差分抽出部１０は、画像パターン２ａと選出された画像パターン２ｄとの部分画像Ｒどうしの照合結果に基づいて、画像パターン２ａ中において画像パターン２ｄとマッチしない部分画像Ｒを差分パターン２ｇとして抽出し、一方、画像パターン２ｄ中において画像パターン２ａとマッチしない部分画像Ｒを差分パターン２ｈとして抽出する。また、差分抽出部１０は、マッチしない部分画像Ｒが連続する場合、それらを連結させて差分パターンを抽出する。

ここで、上述した判定ルール１５には、各画像パターンの個々の部分画像Ｒどうしの照合結果を基に行われる差分抽出部１０の抽出処理により、差分パターンが得られなかった場合、この時点で第１、第３（及び第２）の各文字列を同一性有りと解釈する旨が規定されている。つまりこの場合、判定部１８は、第１、第３（及び第２）の各文字列を同一性有りと判定する。

なお、図５では、画像パターン２ａ、２ｄどうしの差分が明らかになるように、画像パターン２ｄ側に部分的にブランクを空けて図示を行っている。また、図５では、差分抽出部１０が、「東京都」、「東芝荘」、「号室」をそれぞれ表す差分パターン２ｇと、「‐」（ハイフン）を表す差分パターン２ｈと、を抽出した例を示している。さらに、上記の「東芝荘」と「‐」とは、差のあったパターン部分の配置関係が互いに対応しており、差分抽出部１０は、このような対応関係と共に差分パターン２ｇ、２ｈを抽出する。

図５に示すように、差分比較情報生成部１２の備える文字認識部１２ａは、上述した第１及び第２の差分パターン２ｇ、２ｈをそれぞれ文字認識し、この文字認識結果となるテキストデータを第１、第２の差分比較情報２ｊ、２ｋとして得る。これにより、図５に示すように、差分比較情報生成部１２は、「東京都」、「東芝荘」、「号室」をテキストデータでそれぞれ表す第１の差分比較情報２ｊを生成すると共に、テキストデータで「‐」を表す第２の差分比較情報２ｋを生成する。

さらに、差分比較情報１２は、図５に示すように、画像パターン中の、あるパターン部分の一方の差分比較情報にのみ、文字列を表すデータ（テキストデータ）が得られる場合、このテキストデータに対応する他方の差分比較情報として「“空白”」を表す情報を生成する。ここで、「“空白”」を表す情報としては、例えば予め定めておいた文字コードなどを割り当てたテキストデータなどを用いるようにしてもよい。図５の例では、第１の差分比較情報２ｊ側の「東京都」及び「号室」にそれぞれ対応させるように、二つの「“空白”」を表す第２の差分比較情報２ｋが補完される。

差分照合部１７は、図１、図５に示すように、第１の文字列を表す画像パターン２ａと第２の文字列を表す画像パターン２ｄとの相違部分の比較照合、すなわち、第１及び第２の差分比較情報２ｊ、２ｋどうしの比較照合を行う。図５に示す例では、差分照合部１７は、「東京都」と「“空白”」、「東芝荘」と「‐」、「号室」と「“空白”」を照合する。

判定部１８は、図１、図２、図５に示すように、記憶部１４に記憶された判定ルール１５と差分照合部１７による照合結果とに基づいて、画像パターン取得部３により取得された画像パターン２ａで表される第１の文字列と、画像パターン選出部８ａにより選出された画像パターン２ｄで表される第２の文字列と、がそれぞれ持つ意味内容が互いに一致するか否かを判定する。

ここで、図１、図２、図５に示すように、判定ルール１５を構成する表記知識情報１６には、「算用数字は漢数字と置換可能」、「文字列の全角／半角は置換可能」、「名称ＤＢ１６ｂに含まれるマンション名やアパート名などの建物名は“‐”と置換可能」、「“丁目”、“番地”、“号”は“‐”と置換可能」、「“‐”は“ノ”と置換可能」、「都道府県名は省略可能（“空白”と置換可能）」、「建物の部屋名末尾の“号室”は省略可能（“空白”と置換可能）」といった情報が登録されている。

したがって、判定部１８は、図５に示すように、例えば、省略可能な「東京都」と「“空白”」は一致、名称ＤＢ１６ｂに登録のある「東芝荘」と「‐」は一致、省略可能な「号室」と「“空白”」は一致、していると判断する。これにより、判定部１８は、画像パターン２ａで表される第１の文字列と、画像パターン２ｄで表される第２の文字列と、が互いに同一の意味内容を持つ文字列であると判定する。つまり、判定部１８は、画像パターン２ａで表された「東京都府中市武蔵台1‐1‐15東芝荘307号室」と、テキストデータ２ｂで表された第３の文字列（第２の文字列と同じ意味内容を持つ文字列）である「府中市武蔵台1‐1‐15‐307」と、が互いに同一の意味内容を表していると判定する。

さらに、図１、図５に示すように、判定部１８は、画像パターン２ａとテキストデータ２ｂとを同一性有りと判定した最終の判定結果を、例えば文字列照合装置１本体に接続された表示装置に対して表示出力する。なお、上記例示では、判定部１８が全て自動で文字列どうしの同一性を判定しているが、これに代えて、同一性の判定処理の例えば一部分をオペレータに委ねるようにしてもよい。つまり、図５に示す差分パターン２ｇ、２ｈなどを表示装置を介して可視的に表示させ、この表示内容を確認したオペレータが、上記入力装置を通じての入力操作により、最終の判定結果を確定させるようにしてもよい。

次に、文字列照合装置１により実現される文字列照合方法を、上記した図１〜図５に加え、図６に示すフローチャートに基づき説明する。図１、図６に示すように、まず、文字列照合装置１の記憶部１４は、表記知識情報１６を含む判定ルール１５を記憶する（Ｓ［ステップ］１）。また、画像パターン取得部３は、図２、図６に示すように、第１の文字列を表す画像パターン２ａを取得し（Ｓ２）、一方、テキストデータ取得部５は、第１の文字列の比較対象となる文字列（第３の文字列）を表すテキストデータ２ｂを取得する（Ｓ３）。

次いで、画像パターン生成部７の備える文字列解析部７ａは、図１、図２、図６に示すように、表記知識情報１６を参照しつつテキストデータ２ｂを解析する（Ｓ４）。文字列解析部７ａの解析結果に基づき画像パターン生成部７は、当該テキストデータ２ｂ（第３の文字列）と各々同一の意味内容を表しかつ表記の形態が互いに異なる複数の種類の文字列（第４の文字列）をそれぞれ表す複数の画像パターン２ｃを生成する（Ｓ５）。

次に、画像パターン照合部８は、図１〜図４及び図６に示すように、第１の文字列を表す画像パターン２ａを、画像パターン生成部７により生成された（第２の文字列を表す画像パターン２ｄを含む）複数の画像パターン２ｃそれぞれと照合する（Ｓ６）。ここで、画像パターン照合部８が備える画像パターン選出部８ａは、図２に示すように、複数の画像パターン２ｃのうちで第１の文字列を表す画像パターン２ａと最も類似する画像パターンを、第２の文字列を表す画像パターン２ｄとして選出する（Ｓ７）。

次いで、図６に示すように、選出された画像パターン２ｄと画像パターン２ａとの照合結果に基づく差分抽出部１０の抽出処理により差分パターンが得られなかった（画像パターン２ａ、２ｄが一致していた）場合（Ｓ８のＹＥＳ）、判定部１８は、第１、第３（及び第２）の各文字列（画像パターン２ａ、２ｄ［及び２ｂ］）を同一性有りと判定する（Ｓ１３）。

一方、画像パターン２ａ、２ｄどうしが一致していない場合には（Ｓ８のＮＯ）、差分抽出部１０は、図５、図６に示すように、画像パターン照合部８により照合された個々の画像パターン２ａ、２ｄから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターン２ｇ、２ｈを抽出する（Ｓ９）。差分比較情報生成部１２は、抽出された第１、第２の差分パターンを文字認識し、この文字認識の結果得られるテキストデータを第１、第２の差分比較情報２ｊ、２ｋとして生成する（Ｓ１０）。さらに、差分照合部１７は、互いに対応する第１、第２の差分比較情報２ｊ、２ｋどうしを照合する（Ｓ１１）。

図５、図６に示すように、判定部１８は、対応する第１及び第２の差分比較情報（テキストデータ）２ｊ、２ｋどうしが互いに置換可能又は一方の差分比較情報が省略可能な表記であると判断した場合（Ｓ１２のＹＥＳ）、第１、第３（及び第２）の各文字列を同一性有りと判定する（Ｓ１３）。さらに、判定部１８は、対応する第１、第２の差分比較情報２ｊ、２ｋどうしが互いに置換可能でなく、また一方の差分比較情報が省略可能な表記でもないと判断した場合、（Ｓ１２のＮＯ）、第１、第３（及び第２）の各文字列を同一性無しと判定する（Ｓ１４）。

既述したように、本実施形態の文字列照合装置１によれば、照合対象の文字列を各々含む画像パターンどうしを互いの差分に絞り込んで照合することができるので、文字認識処理などを極力省きつつ照合処理を効率的に行うことができる。詳細には、この文字列照合装置１によれば、一連の処理の流れの中で、差分パターンから差分比較情報を得る処理の前段の処理では、主に、画像を構成する画素毎の値を基にパターン照合の結果を得ることができ、これにより、照合処理の高速化を図ることができる。また、本実施形態の文字列照合装置１によれば、種々の表記の形態が許容される住所を表す情報どうしの照合であっても、的確な照合結果を得ることができる。

［第２の実施の形態］
次に、本発明の第２の実施形態を図７〜図９に基づき説明する。なお、図７、図８中において、図１〜図５に示した第１の実施形態中の構成要素と同一の構成要素については、同一の符号を付与しその説明を省略する。図７に示すように、この実施形態の文字列照合装置３１は、文字認識処理の効率化及び文字認識精度の向上を図ることのできる装置である。

すなわち、文字列照合装置３１は、図７に示すように、第１の実施形態の文字列照合装置１が備えていた画像パターン生成部７、画像パターン照合部８、差分比較情報生成部１２、差分照合部１７及び判定部１８に代えて、画像パターン生成部（第２の画像パターン生成部）３３、画像パターン照合部３４、差分比較情報生成部３５、差分照合部３７及び判定部３８を備える。また、本実施形態の文字列照合装置３１は、第１の実施形態と同様の画像パターン取得部３、差分抽出部１０及び記憶部１４に加え、さらに文字認識部（第２の文字認識部）３２を備えている。

図７、図８に示すように、画像パターン取得部３は、第１の文字列を表す画像パターン２２ａを取得する。文字認識部３２は、部分空間法などの周知の文字認識技術を利用して画像パターン２２ａの文字認識を行い、この文字認識結果としてテキストデータ２２ｂを得る。画像パターン生成部３３は、文字認識部３２により得られたテキストデータ２２ｂを文字イメージ化して、第２の文字列を表す画像パターン２２ｃを生成する。

画像パターン照合部３４は、図１、図７に示すように、第１の実施形態の画像パターン照合部８が備えていた画像パターン選出部８ａの機能を除き、画像パターン照合部８と同様の機能を有しており、図８に示すように、画像パターン２２ａと画像パターン２２ｃとを照合する。

差分抽出部１０は、図７、図８に示すように、画像パターン照合部３４による画像パターン２２ａと画像パターン２２ｃとの各部分画像どうしの照合結果に基づいて、画像パターン２２ａ中において画像パターン２２ｃとマッチしない部分画像Ｒを差分パターン２２ｅとして抽出し、一方、画像パターン２２ｃ中において画像パターン２２ａとマッチしない部分画像Ｒを差分パターン２２ｄとして抽出する。また、差分抽出部１０は、マッチしない部分画像が連続する場合、それらを連結させて差分パターンを抽出する。

差分比較情報生成部３５は、図７、図８に示すように、差分抽出部１０により抽出された第１の差分パターン２２ｅを基に、互いに比較可能な第１及び第２の差分比較情報となる第１及び第２の補正パターンを生成する。具体的には、差分比較情報生成部３５は、図７に示すように、第１の補正パターン生成部３５ａ、文字認識部（第３の文字認識部）３５ｃ及び第２の補正パターン生成部３５ｂを備えている。

第１の補正パターン生成部３５ａは、図８に示すように、第１の差分パターン２２ｅに例えばエッジ強調や鮮鋭化、輝度のリスケーリングなどの画像処理を施すことによって、第１の差分比較情報となる第１の補正パターン（２２ｆ、２２ｇ、２２ｈ）を生成する。文字認識部３５ｃは、生成された第１の補正パターンの文字認識を行い、この文字認識結果となるテキストデータ（２２ｊ、２２ｋ、２２ｍ）を得る。ここで、文字認識部３５ｃは、文字認識部３２と異なる認識条件で文字認識を行うことが可能である。第２の補正パターン生成部３５ｂは、図８に示すように、文字認識の結果得られたテキストデータを文字イメージ化することによって、第２の差分比較情報となる第２の補正パターン（２２ｒ、２２ｐ、２２ｎ）を生成する。

差分照合部３７は、図７、図８に示すように、第１の文字列を表す画像パターン２２ａと第２の文字列を表す画像パターン２２ｃとの間での差分を基に得られた第１及び第２の補正パターンどうしを比較照合する。この差分照合部３７は、画像パターン照合部８、３４と同様に、図３、図４に例示した部分画像Ｒの単位で各補正パターンを照合する。

また、図７に示すように、記憶部１４に記憶された判定ルール３６には、第１及び第２の補正パターンどうしを差分照合部３７により照合した結果、マッチングが認められた場合、画像パターン２２ａ、２２ｃとして各々表されていた第１及び第２の各文字列を同一性有りと解釈する旨が規定されている。また、判定ルール３６には、差分照合部３７による照合の結果、マッチングが認められなかった場合、第１及び第２の各文字列を同一性無しと解釈する旨が規定されている。なお、判定ルール３６は、画像パターン２２ａ、２２ｃの上記各部分画像Ｒどうしの照合結果を基に行われる差分抽出部１０の抽出処理により、差分パターンが得られなかった場合、この時点で第１及び第２の各文字列を同一性有りと解釈すべきことを規定している。つまりこの場合、判定部３８は、第１、第２の各文字列を同一性有りと判定する。

ここで、本実施形態の例示では、図８に示すように、第１の補正パターン生成部３５ａは、第１の差分パターン２２ｅに対し、それぞれ異なる画像処理を施すことによって、複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈを生成する。また、文字認識部３５ｃは、生成された複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈそれぞれの文字認識を行い、複数のテキストデータ２２ｊ、２２ｋ、２２ｍを得る。第２の補正パターン生成部３５ｂは、文字認識の結果得られた個々のテキストデータ２２ｊ、２２ｋ、２２ｍをそれぞれ文字イメージ化することによって、上記第１の補正パターン２２ｆ、２２ｇ、２２ｈと各々対応する複数の第２の補正パターン２２ｒ、２２ｐ、２２ｎを生成する。

さらに、本実施形態では、判定ルール３６は、複数組生成されたうちの互いに対応する第１及び第２の補正パターンどうしを差分照合部３７により照合した結果、少なくともいずれかの補正パターンの組にマッチングが認められた場合、第１及び第２の各文字列を同一性有りと解釈する旨を規定している。

判定部３８は、図７、図８に示すように、上記判定ルール３６と差分照合部３７による照合結果とに基づいて、画像パターン２２ａで表される第１の文字列と、画像パターン２２ｃで表される第２の文字列と、の同一性の有無を判定し、この判定結果を出力する。ここで、判定部３８は、第１、第２の各文字列の同一性を有りと判定した場合、マッチングが認められた補正パターンに対応するテキストデータ（図８の例では“東芝荘307号室”）と、画像パターン照合部３４により画像パターン２２ａ、２２ｃ中の予めマッチしていたパターン要素（予め差分のなかったパターン要素）に対応するテキストデータ（図８の例では“東京都府中市武蔵台1‐1‐15”）と、を互い連結した全テキストデータを最終的な文字認識結果として取得する。

つまり、判定部３８は、図８に示すように、第１の文字列を表す画像パターン２２ａの文字認識結果を最終確定させる。さらに、判定部１８は、例えば、上記した同一性の判定結果や最終確定させた文字認識結果（全テキストデータ）を、文字列照合装置３１本体に例えば接続された表示装置に対して表示出力する。

次に、本実施形態の文字列照合装置１が備える各部の機能を主に図８に基づきより詳細に説明する。本実施形態では、図８に示すように、画像パターン取得部３が、第１の文字列として「東京都府中市武蔵台1‐1‐15東芝荘307号室」を表す画像パターン２２ａを取得する一方で、文字認識部３２による文字認識結果の影響を受けて、画像パターン生成部３３が、第２の文字列として「東京都府中市武蔵台１−１−１５◆」を表す画像パターン２２ｃを生成し、これらを照合した結果、同一性有りと判定されるまでの一連の処理を例示する。

換言すると、本実施形態では、画像パターン２２ａが、「東京都府中市武蔵台1‐1‐15東芝荘307号室」として正しく文字認識されるまでの一連の処理を例示する。ここで、図８に示すように、画像パターン２２ａは、「東芝荘307号室」に対応するパターン要素の濃度が他の部位よりも高い場合を想定している。

すなわち、差分抽出部１０は、図７、図８に示すように、画像パターン照合部３４による画像パターン２２ａと画像パターン２２ｃとの各部分画像どうしの照合結果に基づいて、画像パターン２２ａ中において画像パターン２２ｃとマッチしない部分画像Ｒを差分パターン２２ｅとして抽出し、一方、画像パターン２２ｃ中において画像パターン２２ａとマッチしない部分画像Ｒを差分パターン２２ｄとして抽出する。これにより、差分抽出部１０は、図８に示すように、第１の差分パターン２２ｅとして「東芝荘３０７号室」を抽出し、第２の差分パターン２２ｄとして「◆」を抽出する。

上記のように差分パターンが抽出されたことに伴い、差分比較情報生成部３５の第１の補正パターン生成部３５ａは、図８に示すように、第１の差分パターン２２ｅに対し、それぞれ異なる画像処理を施すことによって、「東芝荘３０７号室」をそれぞれ表す複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈを生成する。

具体的には、第１の補正パターン生成部３５ａは、文字認識部３５ｃによる文字認識処理の前処理となるフィルタ処理のパラメータや、２値化閾値などを変更することにより画像処理を行う。第１の補正パターン生成部３５ａが変更する２値化閾値としては、予め取り決めておいた固定的な閾値に変更してもよいし、例えば大津の方法やＫｉｔｔｌｅｒの方法などの閾値決定法を利用して閾値を変更してもよい。

つまり、第１の補正パターン生成部３５ａは、上記の２値化閾値やフィルタ処理を含むパラメータの変更方法として、予め設定しておいた修正パラメータをそのまま割り当ててもよいし、これに代えて、第２の差分パターン２２ｄの内容を解析し、その解析結果に応じてパラメータを変更するものであってもよい。例えば、第２の差分パターン２２ｄに対応する文字認識結果「◆」が「文字の潰ぶれ」であるという解析結果に基づき、第１の補正パターン生成部３５ａが、第１の差分パターン２２ｅの濃度を薄くする方向に２値化閾値を変更して第１の補正パターンを生成することなどが後者の例に該当する。

また、文字認識部３５ｃは、このようにして生成された複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈそれぞれの文字認識を行い、テキストデータ（束之王307吊安）２２ｊ、テキストデータ（東芝荘307号室）２２ｋ、テキストデータ（◆）２２ｍを得る。

ここで、図７に示すように、文字認識部３５ｃは、文字認識部３２と同一の認識条件で文字認識を行える一方で、文字認識部３２と異なる認識条件で文字認識を行うことも可能である。つまり、文字認識部３５ｃは、文字の大きさの推定値などを含む文字認識の条件を、文字認識部３２と異なる条件に変更可能である。また、例えば、文字認識部３２が、文字認識方法として上記の部分空間法を適用している場合、文字認識部３５ｃは、これに代えて、最近傍法や、サポートベクターマシン、隠れマルコフモデルなどを利用した文字認識方法に変更することが可能である。

また、文字認識部３５ｃは、文字認識条件の変更方法として、予め設定しておいた変更用の文字認識条件をそのまま適用してもよいし、これに代えて、第２の差分パターン２２ｄの内容を解析し、その解析結果に応じて文字認識条件を変更するようにしてもよい。

ここで、図７に示す差分比較情報生成部３５は、第１の補正パターン生成部３５ａによる２値化閾値やフィルタ処理などのパラメータの変更と、文字認識部３５ｃによる認識条件の変更と、のうちの、いずれか一方だけを変更するものであってもよいし、両方を変更するものであってもよい。なお、第１の補正パターン生成部３５ａによる上記パラメータの変更を行わない場合（差分パターン２２ｅを画像処理しない場合）には、文字認識部３５ｃは、文字認識部３２と異なる認識条件で、画像処理していない差分パターン２２ｅを文字認識してテキストデータを得る。

また、第２の補正パターン生成部３５ｂは、図８に示すように、差分比較情報生成部３５により文字認識されたテキストデータ２２ｊ、２２ｋ、２２ｍを、文字イメージ化して生成した第２の補正パターン（束之王307吊安）２２ｒ、（東芝荘307号室）２２ｐ、（◆）２２ｎを生成する。ここで、第２の補正パターン生成部３５ｂは、例えば算用数字やアルファベットなど、全角、半角の双方で表現可能な文字を含むテキストデータについては、単一のテキストデータについて少なくとも２種類以上の補正パターンを生成してもよい。

差分照合部３７は、図８に示すように、第１、２の補正パターン生成部３５ａ、３５ｂによりそれぞれ補正パターンとして生成された「東芝荘３０７号室」２２ｆと「束之王307吊安」２２ｒ、「東芝荘３０７号室」２２ｇと「東芝荘３０７号室」２２ｐ、「東芝荘３０７号室」２２ｈと（◆）２２ｎ、を互いに比較照合する。

判定部３８は、図８に示すように、判定ルール３６と差分照合部３７による照合結果とに基づき、「東芝荘３０７号室」２２ｇと「東芝荘３０７号室」２２ｐとがマッチしていると判断し、第１、第２の各文字列（画像パターン２２ａ、２２ｃ）を同一性有りと判定する。さらに、判定部３８は、図８に示すように、画像パターン２２ａ、２２ｃ中の予めマッチしていたパターン要素（予め差分のなかったパターン要素）に対応するテキストデータ「東京都府中市武蔵台1‐1‐15」と、新たにマッチングが認められた第１、第２の補正パターン２２ｇ、２２ｐに対応するテキストデータ「東芝荘307号室」と、を互い連結して最終的な文字認識結果となる全テキストデータ「東京都府中市武蔵台1‐1‐15東芝荘307号室」を得る。

ここで、第１及び第２の補正パターンどうしのマッチングが全く認められなかった場合、図７中の二点鎖線の矢印で示すように、２値化閾値やフィルタ処理などのパラメータの再変更や、文字認識部３５ｃによる認識条件の再変更を行うと共に、新たに生成した第１、第２の補正パターンどうしの再照合、再判定を行うように、差分比較情報生成部３５、差分照合部３７及び判定部３８が、繰り返しの制御を行うものであってもよい。この場合、繰り返しの制御の回数に制限をかけてもよい。

次に、文字列照合装置３１により実現される文字列照合方法を、上記した図７、図８に加え、図９に示すフローチャートに基づき説明する。図７、図９に示すように、記憶部１４は判定ルール３６を予め記憶する（Ｓ２１）。図７〜図９に示すように、画像パターン取得部３は、第１の文字列を表す画像パターン２２ａを取得する（Ｓ２２）。文字認識部３２は、第１の文字列を表す画像パターン２２ａを文字認識し（Ｓ２３）、画像パターン生成部３３は、文字認識部３２により得られたテキストデータ２２ｂを文字イメージ化して、第２の文字列を表す画像パターン２２ｃを生成する（Ｓ２４）。

次に、図７〜図９に示すように、画像パターン照合部３４は、画像パターン２２ａ、２２ｃどうしを照合する（Ｓ２５）。この照合結果に基づく差分抽出部１０の抽出処理により差分パターンが得られなかった（画像パターン２２ａ、２２ｃが一致していた）場合、（Ｓ２６のＹＥＳ）、判定部３８は、第１、第２の各文字列（画像パターン２２ａ、２２ｃ）を同一性有りと判定する（Ｓ３３）。

一方、画像パターン２２ａ、２２ｃどうしが一致せず（Ｓ２６のＮＯ）、差分抽出部１０により第１、第２の差分パターン２２ｅ、２２ｄが抽出されると（Ｓ２７）、第１の補正パターン生成部３５ａは、図８、図９に示すように、第１の差分パターン２２ｅに対し、各々異なる画像処理を施して複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈを生成する（Ｓ２８）。次いで、文字認識部３５ｃは、生成された複数の第１の補正パターン２２ｆ、２２ｇ、２２ｈをそれぞれ文字認識して、複数のテキストデータ２２ｊ、２２ｋ、２２ｍを得る（Ｓ２９）。

続いて、第２の補正パターン生成部３３は、文字認識の結果得られた各テキストデータ２２ｊ、２２ｋ、２２ｍをそれぞれ文字イメージ化して、複数の第２の補正パターン２２ｒ、２２ｐ、２２ｎを生成する（Ｓ３０）。差分照合部３７は、複数組生成されたうちの互いに対応する第１、第２の補正パターンどうしを照合する（Ｓ３１）。判定部３８は、少なくともいずれかの組の第１、第２の補正パターンどうしが一致するか否かを判定する（Ｓ３２）。判定部３８は、第１、第２の補正パターンどうしの少なくとも一組が一致した場合（Ｓ３２のＹＥＳ）、第１、第２の各文字列（画像パターン２２ａ、２２ｃ）を同一性有りと判定する（Ｓ３３）。補正パターンどうしのいずれの組も一致しなかった場合（Ｓ３２のＮＯ）、第１、第２の文字列を同一性無しと判定する（Ｓ３４）。

このように、本実施形態の文字列照合装置３１によれば、照合対象の文字列を各々含む画像パターンどうしを互いの差分に絞り込んだかたちで照合できるので、効率的に照合処理を行うことができ、またこの結果、文字認識処理の認識精度を高めることもできる。

以上、本発明を第１、第２の実施の形態により具体的に説明したが、本発明はこれらの実施形態にのみ限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。例えば、第１及び第２の実施形態の文字列照合装置１、３１の両機能を併せ持った単一の文字列照合装置を構成してもよいし、文字列照合装置１、３１の個々の構成要素を適宜組み合わせて、他の文字列照合装置を構成してもよい。

１，３１…文字列照合装置、３…画像パターン取得部、５…テキストデータ取得部、７，３３…画像パターン生成部、７ａ…文字列解析部、８，３４…画像パターン照合部、８ａ…画像パターン選出部、１０…差分抽出部、１２，３５…差分比較情報生成部、１２ａ，３２，３５ｃ…文字認識部、１５，３６…判定ルール、１６…表記知識情報、１６ａ…表記ゆれ規定知識、１６ｂ…名称ＤＢ、１７，３７…差分照合部、１８，３８…判定部、３５ａ…第１の補正パターン生成部、３５ｂ…第２の補正パターン生成部。

Claims

文字列どうしの同一性を判定する上での指標となる判定ルールを記憶する記憶部と、
第１の文字列を表す画像パターンと第２の文字列を表す画像パターンとを照合する画像パターン照合部と、
前記画像パターン照合部により照合された個々の前記画像パターンから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターンを抽出する差分抽出部と、
前記差分抽出部により抽出された前記第１及び／又は第２の差分パターンを基に、互いに比較可能な第１及び第２の差分比較情報を生成する差分比較情報生成部と、
前記差分比較情報生成部により生成された前記第１及び第２の差分比較情報どうしを照合する差分照合部と、
前記記憶部に記憶された前記判定ルールと前記差分照合部による照合結果とに基づいて、前記第１及び第２の文字列の同一性を判定する判定部と、
を具備することを特徴とする文字列照合装置。
前記判定部は、前記第１及び第２の文字列がそれぞれ持つ意味内容が一致するか否かで同一性の有無を判定する、
ことを特徴とする請求項１記載の文字列照合装置。
前記差分比較情報生成部は、前記第１及び第２の差分パターンを文字認識することによって前記第１及び第２の差分比較情報を生成する文字認識部、
を備えることを特徴とする請求項１又は２記載の文字列照合装置。
前記判定ルールは、互いに同一の意味内容を表すものと解釈すべき複数の表記の形態を体系的に登録した少なくとも表記ゆれに関する情報を含む表記知識情報を適用して規定されている、
ことを特徴とする請求項１ないし３のいずれか１項に記載の文字列照合装置。
第３の文字列を表すテキストデータを取得するテキスト取得部と、
前記テキスト取得部により取得された前記テキストデータと前記表記知識情報とに基づいて、前記第３の文字列と各々同一の意味内容を表しかつ表記の形態が互いに異なる複数の第４の文字列をそれぞれ表す複数の画像パターンを生成する画像パターン生成部と、
をさらに具備し、
前記画像パターン照合部は、
前記第１の文字列を表す画像パターンを、前記画像パターン生成部により生成された複数の画像パターンそれぞれと照合することによって、当該生成された複数の画像パターンのうちで前記第１の文字列を表す画像パターンと最も類似する画像パターンを、前記第２の文字列を表す画像パターンとして選出する画像パターン選出部、
を備えることを特徴とする請求項４記載の文字列照合装置。
前記第１の文字列を表す画像パターンの文字認識を行う第２の文字認識部と、
前記第２の文字認識部により文字認識の結果得られたテキストデータを文字イメージ化して、前記第２の文字列を表す画像パターンを生成する第２の画像パターン生成部と、
をさらに具備することを特徴とする請求項１記載の文字列照合装置。
前記差分比較情報生成部は、
前記第１の差分パターンに画像処理を施すことによって、前記第１の差分比較情報となる第１の補正パターンを生成する第１の補正パターン生成部と、
前記第１の補正パターン生成部により生成された前記第１の補正パターンの文字認識を行う第３の文字認識部と、
前記第３の文字認識部により文字認識の結果得られたテキストデータを文字イメージ化することによって、前記第２の差分比較情報となる第２の補正パターンを生成する第２の補正パターン生成部と、
を備え、
さらに、前記判定ルールは、前記第１及び第２の補正パターンどうしを前記差分照合部により照合した結果、マッチングが認められた場合、前記第１及び第２の各文字列を同一性有りと解釈する旨を規定している、
ことを特徴とする請求項１又は６記載の文字列照合装置。
前記第３の文字認識部は、前記第２の文字認識部と異なる認識条件で文字認識を行う、
ことを特徴とする請求項７記載の文字列照合装置。
前記第１の補正パターン生成部は、前記第１の差分パターンに対し、それぞれ異なる画像処理を施すことによって、複数の第１の補正パターンを生成し、
前記第３の文字認識部は、前記第１の補正パターン生成部により生成された前記複数の第１の補正パターンそれぞれの文字認識を行い、
前記第２の補正パターン生成部は、前記第３の文字認識部により文字認識の結果得られた個々のテキストデータをそれぞれ文字イメージ化することによって、複数の第２の補正パターンを生成し、
さらに、前記判定ルールは、複数組生成されたうちの互いに対応する前記第１及び第２の補正パターンどうしを前記差分照合部により照合した結果、少なくともいずれかの補正パターンの組にマッチングが認められた場合、前記第１及び第２の各文字列を同一性有りと解釈する旨を規定している、
ことを特徴とする請求項７又は８記載の文字列照合装置。
文字列どうしの同一性を判定する上での指標となる判定ルールを記憶する記憶部と、
第１の文字列を表す画像パターンと第２の文字列を表す画像パターンとを照合する画像パターン照合部と、
前記画像パターン照合部により照合された個々の前記画像パターンから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターンを抽出する差分抽出部と、
前記差分抽出部により抽出された前記第１及び／又は第２の差分パターンを基に、互いに比較可能な第１及び第２の差分比較情報を生成する差分比較情報生成部と、
前記差分比較情報生成部により生成された前記第１及び第２の差分比較情報どうしを照合する差分照合部と、
前記記憶部に記憶された前記判定ルールと前記差分照合部による照合結果とに基づいて、前記第１及び第２の文字列の同一性を判定する判定部、
としてコンピュータを機能させることを特徴とする文字列照合プログラム。
文字列どうしの同一性を判定する上での指標となる判定ルールを記憶部が記憶するステップと、
第１の文字列を表す画像パターンと第２の文字列を表す画像パターンとを照合するステップと、
前記照合された個々の前記画像パターンから、互いの表記の差分にそれぞれ対応する第１及び第２の差分パターンを抽出するステップと、
前記抽出された第１及び／又は第２の差分パターンを基に、互いに比較可能な第１及び第２の差分比較情報を生成するステップと、
前記生成された第１及び第２の差分比較情報どうしを照合するステップと、
前記記憶部が記憶した前記判定ルールと前記第１及び第２の差分比較情報どうしの照合結果とに基づいて、前記第１及び第２の文字列の同一性を判定部が判定するステップと、
を有することを特徴とする文字列照合方法。