JPH11505052A

JPH11505052A - 語彙辞書の検索範囲を削減するシステム及び方法

Info

Publication number: JPH11505052A
Application number: JP9501676A
Authority: JP
Inventors: リ，リアン
Original assignee: ユナイテッドパーセルサービスオブアメリカ，インコーポレイテッド
Priority date: 1995-06-07
Filing date: 1996-06-05
Publication date: 1999-05-11
Anticipated expiration: 2016-06-05
Also published as: JP3077765B2; ATE180072T1; CA2222590C; US5774588A; EP0834138B1; EP0834138A1; WO1996041280A1; DE69602444T2; DE69602444D1; CA2222590A1

Abstract

(57)【要約】複数のステップを経て語彙辞書を透過することにより、未検証の文字列を直接比較するエントリーの数を削減する、未検証の文字列をより効率的に語彙辞書と比較するシステム及び方法。この方法は、ｎグラムの符号化、分割及び細分化を行うプロセスで語彙辞書を作成して開始し、このプロセスは未検証の文字列の処理を行う前に完了することができる。未知なものは、文字列を削減するのと同じ方法で、計算上安価な手法で分割及び細分化により最初に比較する。次に、符号化されたベクトルの比較ステップを行い、最後に最も計算上高価な手法である直接的な文字列比較ステップを行う。語彙辞書の削減は、関連候補語を含むことがある語彙辞書の大部分を任意に削除することなく完了する。同時に、この方法により、未検証の文字列を語彙辞書への全てのエントリーと直接または間接に比較する必要性を回避する。最終候補語のリストは、未検証の文字列について可能性が高くて分類された候補語のみを含み、最終リストのサイズは調節可能である。

Description

【発明の詳細な説明】語彙辞書の検索範囲を削減するシステム及び方法技術分野本発明は未検証の一連の文字について有効な候補語と思われる、語彙辞書または辞書のエントリー数を削減すること、特に光学文字認識（ＯＣＲ）分析を経た文字列を、語彙辞書への有効なエントリーと比較するシステム及び方法に関する。背景技術光学文字認識（ＯＣＲ）は改良を続けてきているが、かかるシステムは有効な単語や単語の組み合わせを用いて、入力された一連の文字を完全に識別することは必ずしもできない。かかるシステムは、システムが利用可能な辞書にない文字列の識別につながりうる入力の誤りや文字の誤った識別のために、入力された文字列を正しく識別できないことがある。あるいは、このシステムは文字列中の文字全てを識別できないことがある。ＯＣＲシステムが文字間または文字列の単語間の分割点の決定において誤りを犯した場合に、別の困難が生ずる。従って、ＯＣＲ分析の結果の検証が望ましい。先行技術においては、未検証または未知の文字列を類似の文字列の辞書または語彙辞書と比較して、最も近い有効な辞書のエントリーを発見するように試みることが知られている。しかし、都市名の辞書の場合のように、この辞書は非常に大きい。辞書が大きい場合には、未検証の文字列を辞書への全てのエントリーと比較するのに要する処理時間が極端に長いことがある。従って、他の場合にはエントリーを未検証の文字列と比較する前に、辞書のサイズを削減することを試みた。かかる辞書の制限は、システムが読み取ったいくつかの情報に基づくことができる。例えば、道路名の辞書は、システムによって検出可能な郵便番号にある道路に限定することができる。このアプローチに固有の問題は、依拠する情報（例では郵便番号）が誤って識別された場合に、辞書の全く関連しない部分が比較に用いられてしまうことである。辞書を制限するもうひとつのアプローチは、文字列の最初の３文字を検索キーとして使うことであった。つまり、未検証の文字列の最初の３文字を共有する辞書へのエントリーのみが考慮されるのである。文字列のこの部分に識別の誤りがある場合は、このアプローチには問題が生ずる。更に、光学文字認識方法においては、異なった文字の形状の類似性のために、形状を混同する傾向が固有である。これは、検索キーによるアプローチでは考慮されず、従って、辞書の関連する部分を排除する危険がある。辞書を制限する先行した試みのもうひとつの例は、未検証の文字列の長さを検索キーとして使うことである。この方法によると、所定の数値で未検証の文字列よりも短いか長い辞書のエントリーは考慮されない。このアプローチは、文字列の内容を使って類似の辞書のエントリーを発見しないという点で不利である。その結果、大きすぎるリストを提供し、その後のステップにおいて処理時間を適切に削減することができないことがある。代替的アプローチは、未検証の文字列と辞書のエントリーを符号化して、次に符号化したバージョンを比較するというものである。ｎグラムの符号化技術は、未検証の文字列及び個々の辞書のエントリーを表すｎグラムのベクトルを比較するのに適用されてきた。非位置的なｎグラムのベクトルは、文字列におけるｎ個の隣接する文字それぞれを考慮し、その文字の組み合わせに対応するベクトルのビットに０または１を割り当てることにより形成される。例えば、英語のアルファベットに基づいたバイ・グラムのベクトルは、合計で６７６のエントリーについて、ＡＡ、ＡＢ、ＡＣ、ＡＤ．．．ＺＷ、ＺＸ、ＺＹ、ＺＺの文字の組み合わせを表すビットを有するであろう。ｎグラムの符号化技術は、参照することで本明細書に含めたCavnar，W and Vayda，A.，「効率的不精密なマッチング用にｎグラムのリストの上書きされた符号を使用すること」USPS Advanced Tech．Conf ．(5)，Vol.1.，pp.253-67及びRiseman，E．and Hanson,A,「バイナリーｎグラムを用いた誤り修正用の文脈後処理システム」IEEE Trans．on Computers．Vol ．C 23，No．5，May 1994，pp．480-93に記載されている。入力された文字列を多数の辞書のエントリーと直接的に比較する場合と同様に、ｎグラムの表示の比較も多くの計算時間を消費することがある。また、システムが非位置的ｎグラムの符号化を用いて語彙辞書全体を符号化する場合には、整合しても文字列が辞書の単語であることを意味しない。辞書全体と共通の特性があるかどうかを判断するだけであるので、この曖昧さが生ずる。一方、ｎグラムの比較は単純なバイナリーの不精密なマッチングという利点を有し、他の多くの比較スキームよりも速く、文字列や辞書のエントリーが可能なｎグラムの組に細分化される場合には、スペースを節減することができる。しかし、先行するシステムにおいては、全ての公知の符号化方法が未検証のベクトルを符号化された辞書のエントリー全てと比較するので、計算上の損失の問題が残る。先行するシステムは、文字列やそのベクトル表示の直接的な比較を行う前に、検索スペースを削減する効果的な方法を欠いている。このように、先行技術においては、未検証の文字列について可能性のある正しい整合として考慮される有効な辞書の候補語を削減するために、未検証の文字列を辞書または語彙辞書のエントリーと比較する効率的なシステムと方法が必要である。また、語彙辞書の関連部分を除外せず、正確な整合を含む可能性が高い候補語のショートリストを生成することができるような方法も必要である。発明の概要本発明は、語彙辞書のエントリーを用いて文字列を比較するための語彙辞書を作成して、残りのエントリーが未検証の文字列について整合を含む可能性が高くなるように、未検証の文字列と比較される語彙辞書の部分を削減するために、計算上効率的であり語彙辞書を少数の候補語に正確に限定する、未検証の文字列を辞書または語彙辞書のエントリーと比較する改善された方法及びシステムを提供するものである。本発明によれば、上記の目的は、辞書または語彙辞書を未検証の文字列と整合する可能性が高い候補語に削減する、効率的なシステム及び方法を提供することにより達成される。本システム及び方法は、語彙辞書を削減するために最大３個のステップを利用することができ、各ステップはその前のステップの操作から生ずる語彙辞書のより小さい部分で操作される。一般的に表現すると、本発明は、エントリーのひとつ以上の特性に基づいて文字列のエントリーの表示をグループに分割し、グループのひとつ以上の特性に基づいてエントリーを語彙辞書にマップしたバケットを含むインデックスにインデックス化し、語彙辞書のエントリーを分割するのに使ったのと同じ特性に基づいて、未検証の文字列の表示をグループに分割し、語彙辞書のエントリーをインデックスにインデックス化するのに使ったのと同じ特性に基づいて、未検証の文字列をインデックスにインデックス化し、未検証の文字列の表示を、未検証の文字列がインデックス化されたバケットの選択に一般的にインデックス化されている語彙辞書のエントリーのみの表示と比較することにより、文字列を語彙辞書のエントリーと比較するシステム及び方法を提供する。発明の好適な実施例においては、例えば語彙辞書において選択された特性が発生する頻度によって、表示が分割されるグループが分類される。発明の好適な実施例においては、エントリーの表示を分割するステップは、エントリーを表示するｎグラムのベクトルを形成し、ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、シグネチュア・ベクトルをそれぞれ所定のビット数を有するグループに分割することを含む。グループのビットは、語彙辞書における各ビットの出現頻度の降順で配置されるのが望ましい。エントリーをインデックス化するステップは、一組のグループのビット値に基づいて、エントリーのシグネチュア・ベクトルの各グループにひとつずつの、一組のグループ数値を決定し、グループの数値に等しいバケット・アドレスを有するシグネチュア・ベクトルの各グループ用のバケットを確立し、グループ数値のひとつに等しいバケット・アドレスを有する全てのバケットにエントリーをマップすることを含むのが望ましい。分割されたシグネチュア・ベクトルの何れかのグループが同じグループ数値を有している場合には、重複するグループは無視される。エントリーをインデックス化するステップは更に、語彙辞書の残りのシグネチュア・ベクトルのグループのグループ数値を決定し、決定された全てのグループ数値のバケット及びバケット・アドレスを確立し、語彙辞書の残りのエントリーをそれぞれ、エントリーの分割されたシグネチュア・ベクトルのグループのグループ数値のひとつに等しいバケット・アドレスを有する全てのバケットにマップすることを含むのが望ましい。語彙辞書のエントリーの分割及びインデックス化により、所与の語彙辞書に固定された結果が生ずる。従って、それは何れかの未検証の文字列を分析することが必要になる前に生じうるし、各未検証の文字列について繰り返される必要はない。これにより、文字列の同一物が素速く発見されなければならない場合に、未検証の文字列を分析するのに要する時間が削減される。文字列の速やかな識別は重要なことになりうる。例えば、未検証の文字列は速く動く小包のラベル上で読み取られることがある。小包が自動選別ステーションに達する前にラベル上の全てのアドレス情報を識別するのにかけられる時間は、ほんの数秒であろう。未検証の文字列を分割しインデックス化するステップは、未検証の文字列を表すｎグラムのベクトルを形成し、ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、シグネチュア・ベクトルをそれぞれ所定のビット数を有するグループに分割し、グループのビット値に基づいて、未検証の文字列のシグネチュア・ベクトルの各グループにひとつずつの、一組のグループ数値を決定し、少なくとも未検証の文字列のシグネチュア・ベクトルの最初のグループについてのグループ数値に等しいバケット・アドレスを有するバケットに、未検証の文字列をマップすることを含むのが望ましい。最初のグループは、語彙辞書に出現する頻度が最も高いビットを含むのが望ましい。ビット値は１と０を含んでもよく、グループ数値は、グループのビット値によって形成された二進法の数に対応する十進法の数を含んでもよい。分割及びインデックス化に続く比較ステップに言及すると、未検証の文字列と語彙辞書のエントリーの表示は、フォールドされたｎグラムのシグネチュア・ベクトルを含むことが望ましく、比較ステップは、未検証の文字列のｎグラムのシグネチュア・ベクトルの対応するビットと、未検証の文字列と同じバケットにインデックス化された語彙辞書のエントリーのｎグラムの各シグネチュア・ベクトルの一致を判定することを含むのが望ましい。そうすれば、ｎグラムのシグネチュア・ベクトルが、所定の一致限界値よりも高い対応するビットの標準化された一致を有するエントリーに限定された語彙辞書の削減された部分を定義することが可能である。最後に、本発明は原形の未検証の文字列と原形の語彙辞書の削減された部分のエントリーを選択的に比較できる。これは、原形の未検証の文字列と原形の語彙辞書の削減された部分のエントリーとの間の変形損失分析を行うステップと、所定の損失限界値を下回る通常化された変形損失スコアを有するエントリーを含む候補エントリーの最終リストを定義するステップとを含むのが望ましい。当業者は、分割及びインデックス化を含む語彙辞書の削減の第一ステップはアプリケーションから独立し、一方、それに続くベクトルと文字列の比較ステップは、未検証の文字列を生成するＯＣＲなどのアプリケーションに合わせることにより更に効率化できることを理解するであろう。しかし、第一ステップはアプリケーションに従属するように作ることができることも理解すべきである。本発明の別の態様によれば、エントリーの特性に基づいて語彙辞書のエントリーの表示をグループに分割するステップと、グループの特性に基づいてエントリーを語彙辞書にマップされたバケットからなるインデックスにインデックス化するステップとを含む、文字列を語彙辞書のエントリーと比較するための語彙辞書を作成する方法を提供する。本発明の更に別の態様によれば、語彙辞書のサイズを削減するための好適な３ステップのプロセスは、符号化された表示が未検証の文字列の符号化された表示と特性を共有する語彙辞書のエントリーを選択することにより、語彙辞書の第一の部分を定義し、未検証の文字列の符号化された表示を語彙辞書の第一の部分のエントリーの符号化された表示と直接に比較することにより、第一の部分のいくつかのエントリーを含む語彙辞書の第二の部分を定義し、原形の未検証の文字列と原形の語彙辞書の第二の部分のエントリーとを直接に比較することにより、第二の部分のエントリーの少なくともひとつを含む語彙辞書の第三の部分を定義することとして、一般的に説明されうる。本発明の他の目的、特徴及び利点は、発明の好適な実施例に関する以下の説明を、図面及び添付の請求の範囲と共に検討することで明らかになるであろう。図面の簡単な説明図１Ａは語彙辞書をインデックス化する本発明の技術のステップを概説したシステム・フローチャートである。図１Ｂは、未検証の文字列を処理するステップを概説したシステム・フローチャートである。図２は図１の分割及び細分化サブルーチンのフローチャートである。図３は図１の編集距離サブルーチンのフローチャートである。図４Ａはフォールドされたシグネチュア・ベクトルを形成する図２のプロセスを図示している。図４Ｂは図２の分割及び細分化ステップのプロセスを図示している。図５は特定の語彙辞書のエントリーを処理する例を図示している。図６は本発明を例示した画像化システムの線図である。詳細な説明まず、明細書の用語については、以下の詳細な説明は、中央演算装置（ＣＰＵ）、ＣＰＵ用のメモリ記憶装置及び接続された画素指向表示装置などの従来のコンピュータ部品によって履行されるプロセスや操作の象徴的表現で主に記載している。これらの操作は、ＣＰＵによるデータ・ビットの操作や、ひとつ以上のメモリ記憶装置に常駐するデータ構造内のこれらのビットの維持を含む。かかるデータ構造は、コンピュータのメモリ内に記憶されたデータ・ビットの収集に物理的構成を課し、特定の電気的または磁気的要素を表す。これらの象徴的表現は、コンピュータ・プログラミングやコンピュータ製造の当業者が、教示や発見を他の当業者に最も効率的に伝えるために使用する手段である。この議論を目的としては、プロセスは一般的に、所望の結果につながる一連のコンピュータで実行されるステップであるものと表現される。これらのステップは、一般的に物理的量の物理的操作を要する。通常は、必ずしもそうではないが、これらの量は記憶、転送、結合、比較またはその他の方法で操作されうる電気的、磁気的または光学的信号の形態を取る。当業者にとっては、これらの信号をビット、値、要素、シンボル、文字、用語、対象、数値、記録、ファイルなどと呼ぶのが通常である。しかし、これら及び類似の用語はコンピュータ操作用の適切な物理的量と関連づけられるべきであり、かつこれらの用語はコンピュータの操作の範囲内及び操作中に存在する物理的量に適用される通常のラベルに過ぎないことに注意すべきである。また、コンピュータ内での操作は、人間のオペレータが行う手動の操作としばしば関連する、加える、比較する、動かすなどの用語でしばしば言及されることも理解されるべきである。かかる人間のオペレータの関与は本発明には必要ではないか望ましくさえないことが理解されなければならない。本明細書中で説明している操作は、コンピュータとやり取りする人間のオペレータやユーザと連携して行われる機械操作である。本発明の操作を行うのに使われる機械は、汎用的なデジタル・コンピュータまたは他の類似の計算装置を含む。更に、本明細書中で説明しているプログラム、プロセス、方法などは、如何なる特定のコンピュータまたは装置にも関連せずまたは限定されないことを理解すべきである。むしろ、様々の種類の汎用的機械を、本明細書中で説明している教示に従って作られたプログラムと共に使うことができる。同様に、密結合された論理または読み出し専用メモリなどの非揮発性メモリに記憶されたプログラムを用いて、専用コンピュータ・システムにより本明細書中で説明している方法ステップを行うための専用化された装置を作ることが有利であると分かるであろう。ここで図面をより詳細に参照すると、図面中ではいくつかの図をとおして同様の番号は同様の部分に言及しているが、図１Ａ及び１Ｂは本発明のシステムによって実行される語彙辞書削減の方法のシステム・フローチャートを示している。この方法は、例えば、文字認識システムによる処理の後に、アドレス・ラベルなどの画像から文字列を有効化または識別するのに使うことができる。この方法の目的は、辞書または語彙辞書を用いて、未検証の文字列について最も整合する候補語として取り上げられる、その語彙辞書からの名称の数を狭めることである。かかる語彙辞書の例は米国の都市名のリストであり、これは約４５，０００の有効なエントリーを含むことができるようである。未検証の文字列は、関連フィールド（住所における都市名など）から、集中的なＯＣＲ処理によって生成されるようである。未検証の文字列には誤りや問題が生ずることがあり、それで識別が困難になる。「文字列」という用語は、個々の単語あるいは一連の単語またはその他の文字に言及するのに本明細書中で広く用いている。例えば、「１３２ＦｒｏｎｔＳｔ．，ＥｌｍＷｏｏｄ，ＩＮ４５５０９」という一連の語において、全体は文字列でもあり、個々の構成部分またはそれらの組み合わせでもありうる。この例では、都市名のフィールドは「ＥｌｍＷｏｏｄ」を含む。以下に詳細に説明するように、この方法には次の２つの段階がある。（１）語彙辞書自体の固定的操作（図１Ａ）と（２）語彙辞書を動的に操作して候補の止しい文字列のショートリストに到達するための未検証の文字列の使用（図１Ｂ）。第一段階は、実時間の処理時間を削減するための語彙辞書の計算前特性を含む。第二段階は、順に３つまでのステップを有する。第一のステップは、未検証の文字列と特性を共有して最初の候補語のリストを形成する、ひとつ以上のリンクした語彙辞書の文字列のリストを発見する多重の細分化アプローチを用いる。第二のステップは次に、フォールドされたバイ・グラムのマッチングに基づいた方法を使い、リストを透過して第二の候補語リストを生成する。第三のステップは、編集距離に基づいた方法を、更にリストを透過して最終の候補語リストを生成するのに適用する。「内部」語彙辞書処理上述のように、この方法の第一段階は有効な語彙辞書の文字列（法律上の及び正しい都市名など）のみを含む。図１Ａを参照すると、語彙辞書はフローチャートのステップ１００でメモリにロードされる。全ての下位の格の文字は上位の格の文字にマップされ、全ての文字間スペースは取り払われ、全ての非英数字は選択された特定の非英数字（例えば「？」）にマップされる。処理を始めるには、語彙辞書のエントリーをステップ１０５で選択し、ステップ１１０で図２、４及び５で詳細に示した分割及び細分化サブルーチンを、図４に２０で表された選択されたエントリーについて行う。図２を参照すると、語彙辞書のエントリー文字列２０についての非位置的バイ・グラムのベクトルがステップ２０５で形成される。図４Ａに示したバイ・グラムのベクトル２２は、長さ２６×２６＝６７６ビットで、そのエレメントはそれぞれの可能性のあるバイ・グラムの英語のアルファベットが文字列で生ずるかどうかに対応して１及び０である。ｎグラムの符号化は、バイ・グラムの符号化がその例であるが、当業者には公知である。トリ・グラムなどの他のｎグラムが用いることもできるが、バイ・グラムの符号化が好適である。ベクトル２２は、各連続した８ビットのグループを吟味し、グループの何れかのバイ・グラムが以前に「設定」された（値１を有していた）かどうかによって１または０を割り当てられることにより、ステップ２１０でフォールドされる。図４Ａに示したように、フォールドされたベクトルの最初のビットは、バイ・グラムのベクトルのＡＡからＡＨまでのビットに基づいており、第二のグループはＡＩからＡＰなどのビットに基づいている。吟味される最終グループは４ビットのみを有している。これは文字列のシグネチュア・ベクトルと呼ばれる８５ビットのベクトル２５に帰結する。語彙辞書についての全てのシグネチュア・ベクトルは、予め計算できる。元の語彙辞書のエントリーは、元の文字列及びそれに対応するシグネチュア・ベクトルを含む各ラインを用いてステップ２１５で再フォーマットされる。バイ・グラムの同じシーケンス（ＡＡ−ＡＨ、ＡＩ−ＡＰ）は各語彙辞書のエントリーのシグネチュア・ベクトルで生ずる。語彙辞書の固定的処理の前に、これらのシグネチュア・ベクトルが分類されることがある。カウンタは、各ビット（各ビットにつき８バイ・グラムを考慮）が語彙辞書で生ずる頻度をカウントして、８５ビットのそれぞれについて集積される。８５ビットは次に、最大のカウンタ値（語彙辞書で最も頻繁に発見されるバイ・グラムの組）から始めて、それに対応する頻度によって降順でソートされる。ソート・プロセスはビット頻度表となり、それは次に以下に説明する手法で使用されて、語彙辞書のエントリー並びに未検証の文字列のシグネチュア・ベクトルを分割する。図４Ｂを参照すると、シグネチュア・ベクトル２５はステップ２３０で分割されて、それぞれ１２ビット（ｇ_i.t・・ｇ_i.12、ここでｉ＝１〜７）の７個のグループ３０〜３６となる。シグネチュア・ベクトルの最後の（８５番目の）ビットは捨てられる。分割プロセスでは、最初のグループ（ｉ＝１）は語彙辞書のビット頻度表を使って集められる。ビット・マスクは、１２個の最も頻繁に生ずるビットに対応する１２のビット位置を持って、つまり、これらのビットがビット頻度表の最上部にあるように作られる。特定の語彙辞書のエントリーのシグネチュア・ベクトルを分割するには、同じビットがビット・マスクと比較される。エントリーのシグネチュア・ベクトルでビットが「１」に設定される場合にのみ、最初のグループの対応するビットは「１」にセットされる。例えば、ビット番号２（ＡＩ〜ＡＰ）が語彙辞書で最も高い発生頻度を有しているバイ・グラムを含むのであれば、ビットｇ_1.1はエントリーのシグネチュア・ベクトルのビット２に対応する値を与えられるであろう。つまり、バイ・グラムＡＩ〜ＡＰの何れかがバイ・グラムのベクトルに設定されるのであれば、エントリーのシグネチュア・ベクトルのビット２がセットされており、エントリーの分割されたシグネチュア・ベタトルの最初のグループのビットｇ_1.1がセットされるであろう。同じプロセスは最初のグループの他のビットを集めるのに使われ、次に他の６個のグループのビットにも使われる。このように、最初のグループは、所与の語彙辞書の統計に基づいて最良の特徴のサブセット（シグネチュア・ベクトルにおけるビット位置）を与え、次のグループは２番目によいサブセットを与える、などとなる。上記の分割プロセスはアプリケーションに従属する。しかし、シグネチュア・ベクトルの分割はアプリケーションに従属した方法で行われてもよい。例えば、アプリケーションがＯＣＲエンジンである場合には、分割プロセスは同じ形状のバイ・グラムを同じビットに、別個の形状のバイ・グラムを異なったビットに、より「相反する」バイ・グラムを異なったビットにフォールドするなどにより、アプリケーションに関連づけることができる。１２ビットの各グループは１２ビットの二進数とみなされることがあり、それはステップ２３５で０から４０９５の間の十進数に翻訳される（例えば、グループのビット・パターンが００００００００００１１であれば、十進数は３であろう）。これらの数を使用して、バケット・アドレス表４０が作成される。各バケット・アドレスは、そのアドレスに索引される複数のシグネチュア・ベクトルを収容する必要があるのであれば、アドレス０に示したように最終的には２つ以上のバケットを有することができる。各バケットの容量は例えば１００ポインタとすることができる。バケット・アドレスを共有する全てのバケットはリンクしたリストを形成する。都市名の語彙辞書の例においては、あるアドレスは使われず、最大のリンクされたリストは７３ものバケットを有することがある。語彙辞書のエントリー処理については、方法はステップ２４０に進み、そこで分割されたシグネチュア・ベクトル３０〜３６の７個のグループそれぞれの十進数は、最大７個のリンクされたリストにシグネチュア・ベクトルを「細分化」するのに使われる。図４に示したように、アドレス番号０から４０９５からなるバケット・アドレス表４０が提供される。各グループ３０〜３６について、語彙辞書のシグネチュア・ベクトルのエントリー４５へのポインタ４２は、そのグループの十進数（同じシグネチュア・ベクトルの複写された十進数グループは考慮されない）に等しいバケット・アドレスに関連したバケット４３に記憶される。ポインタは語彙辞書の文字列のアドレスを指す。細分化ステップは、シグネチュア・ベクトル２５のグループ３０〜３６全てについて行われる。シグネチュア・ベクトル２５の全ての非複写グループがバケット・アドレス表に細分化されている場合には、シグネチュア・ベクトル２５に関連した語彙辞書アドレスを指すポインタ４２はいくつかのバケット・アドレスに記憶されている。この冗長が最初の候補語リストを素速く構成する機構を提供する。また、エラー公差も提供する。この時点で、方法は図１Ａの主ルーチンに戻り、ステップ１１５で語彙辞書の全てのエントリーが処理されたかどうかが判断される。処理されていなければ、方法はステップ１０５に戻り、次の語彙辞書のエントリーが選択される。このように、図２の分割及び細分化サブルーチンが語彙辞書の各エントリーについて行われる。インデックス化あるいは細分化ステップ２４０は、語彙辞書の全てのエントリーについて実行される。語彙辞書全体が処理されると、個々のバケット・アドレスの多くは語彙辞書のエントリーの変数に関連する。上記全てのステップは、何れかの未検証の文字列に対する実際の整合に先だって完了される。グループの分割及びリンクされたリスト表４０は特定の語彙辞書について固定される。図５は、都市名の文字列「ＡＤＡＭＳ」と仮定された、有効な語彙辞書のエントリー２０’における図２のサブルーチンの操作の短縮化した例を示す。この文字列は語彙辞書の４５番目のエントリーであると推測される。バイ・グラムのベクトル２２’は「１」に設定されたビットＡＤとＡＭを含み、この文字列で発見されるバイ・グラムに対応する全てのビットは「１」に設定され、その他のビットは「０」にセットされることが理解されるであろう。バイ・グラムのベクトル２２’がフォールドされると、ビットＡＤは最初の８ビットに入り、従ってシグネチュア・ベクトル２５’の最初のビットは「１」にセットされる。ビットＡＭはバイグラム・ベクトル２２’の２番目の８ビットに入るので、これはシグネチュア・ベクトルの２番目のビットについても当てはまる。当業者は、シグネチュア・ベクトルの残りのビットは同様の手法で決定されることを理解するであろう。シグネチュア・ベクトルが分割されると、最初のグループ３０’は語彙辞書で最も頻繁に生ずるシグネチュア・ベクトルのビットを含む。図示のためにｇ_1.0 及びｇ_1.11が「１」に設定されたビットであると仮定すると、グループ３０’のビットの値によって形成される二進数は０００００１００００１０であり、これは十進数６６に対応する。従って、４５番目の語彙辞書のエントリーは、バケット・アドレス表のバケット・アドレス番号６６にリンクされる。未検証の文字列に基づいた語彙辞書の削減ここでの目的は、未検証の文字列と特性を共有する語彙辞書の小さなサブセットを発見することである。この語彙辞書のサブセットにある正しい整合の確立は高いはずである。まず、図１Ｂのステップ１２０では、以下で説明するように、未検証の文字列２０が、細分化されるそのシグネチュア・ベクトルのグループ数と共に入力される。ステップ１２５では、未検証の文字列は図２及び４の分割及び細分化サブルーチンによって処理される。このサブルーチンが各有効な語彙辞書のエントリーを処理したのと基本的に同じ方法で、ステップ２０５〜２３５で処理を行い、未検証の文字列に関するシグネチュア・ベクトルを形成し、シグネチュア・ベクトルを７個のグループに分割する。グループ要素によって形成された二進数から翻訳される十進数は、次に、ステップ２４５で語彙辞書のバケット・アドレス表４０におけるアドレスにマップされることがある。ユーザはステップ１２０で、（最初のグループが語彙辞書で最も頻繁に発見されるフォールドされたバイ・グラムを含んでいることを覚えており、）未検証の文字列のシグネチュア・ベクトルのグループ何個がマップされるべきかを選択している。バケット・アドレス表に「細分化」されるグループ数は、未検証の文字列に関する候補語エントリーの最初のリストのサイズを決定し、従って、それに続くステップに要する処理時間を決定する。正しい語彙辞書のエントリーを含める速度と確実性の間には取り決めがある。最初の候補語リストの各語は、候補語のシグネチュア・ベクトルにおける少なくともひとつのグループのビット・パターンが、未検証の文字列のシグネチュア・ベクトルのグループのビット・パターンと同じであるという意味で、未検証の文字列と共通のある特徴を共有している。２つ以上のグループが細分化されると、各グループについて任意にリンクされたリストは共に速い処理にリンクされうる。未検証の文字列と関連するバケット・アドレスを指すポインタのリストが記憶される。このポインタのリストの内容及び長さは、選択されて細分化されるグループの数に左右される。処理は次に、図２のサブルーチンから図１Ｂの主ルーチンに戻る。ステップ１３０では、未検証の文字列の選択されたグループによってアドレスされたバケットにポインタを有する、有効な語彙辞書のエントリー全てが最初の候補語リストとみなされる。これらのエントリーは未検証の文字列と特性を共有するので、未検証の文字列の真の値が候補語リストで発見される可能性が高い。未検証の文字列のシグネチュア・ベクトルの最初のグループ３０を、都市名の語彙辞書用の表に細分化するのは、例えば可能性のある候補語名の数を元の４５，０００から約１４５に削減することであると分かっている。この数は、バケットは１００ポインタの容量を有するものと仮定して、専有されるバケット・アドレスについてリンクされたリスト当たり平均１．４５のバケット数に基づいている。ベクトルを比較することによる語彙辞書の更なる削減ステップ１３０で識別された最初の候補語の組のみを考慮して、ステップ１３５のプロセスは未検証の文字列のシグネチュア・ベクトルと最初の候補語の各エントリーのシグネチュア・ベクトルとを比較して、比較されたベクトルにおける整合した対応する「ＯＮ」（値１）ビットの数を計算する。例えば、００１１と１０１１の間の整合した「ＯＮ」ビットの数は２である。スコアはステップ１４０で標準化され限界値化される。標準化は語彙辞書のエントリーにおいて設定されたフォールドされたビットの数に基づいている。つまり、標準化されたスコアは（整合したビット／エントリーの設定されたビット）である。標準化されたスコアはこのように、０と１の間にある。限界値を超える標準化されたスコアを有するこれらのエントリーのみが、候補語のエントリーの組に保持される。限界値は、この削減ステップを経て何個の候補語が残るかを制御するように設定できる。都市名の語彙辞書を例に挙げると、ひとつのグループが細分化された場合の限界値は０．４５で、それを超えた数のグループが細分化された場合には０．３５となるようである。限界値は、次のステップが誤りから回復できるのに十分な候補語を明らかにするように選択されるが、次のステップで過度の処理時間を要するほど低くはないようにするべきである。文字列を比較することによる語彙辞書の更なる削減ステップ１４５では、図３に示したように、プロセスは編集距離サブルーチンを呼び出す。このサブルーチンの目的は、文字列自体（未知である残りの候補語）を比較して、残りの候補語のどれが未検証の文字列に最も近いかを判断することである。このサブルーチンは、未検証の文字列を候補語の文字列に変換したりその逆を行うのに必要な一連の操作を加重する新規な方法を使う。変換の最少総加重「損失」は、「編集距離」と呼ばれる。候補語の最終リストで限界値未満の標準化された編集距離を有する候補語の文字列のみを残して、限界値を超える標準化された編集距離を有する候補語の文字列が除外される。限界値は、望ましくは１０個の候補語以下の候補語の設定数に最終リストを制限するように設定できる。この最終ステップは、ＯＣＲなどの特定のアプリケーション用に最適化されることが望ましい。これは、変換操作の損失がどれくらい類似した文字が現れるかに左右されるためである。例えば、ある文字は類似の形状を有し、ＯＣＲエンジンによく混同される。従って、これらの文字を交互に置き換えることは損失を低くする。本発明は、参照することで本明細書に含めたLowrance，R．and Wagner，R.,” An Extension of the String-to-String Correction Problem,”J．of the Asso c．for Computing Machinery，Vol.22，No．2．April 1975，pp．177-83; Wagne r，R．and Fischer，M.，”The String-to-String Corrcction Problem,”J．of the Assoc．for Computing Machinery，Vol．21，No．1，January，1974，pp． 168-73; 及びMasek．W.,”A Faster Algorithm Computing StringEdit Distance s,”J．Computer & Systems Sciences，Vol．20，pp．18-31(1980)において説明されている種類の変換の損失を決定するための方法を使っている。この種の方法は、「動的プログラミング」を使ってひとつの文字列から他の文字列に変換する損失を計算し、編集距離（最少損失）を求める。ひとつの文字列の文字に対して行って、それを他の文字列に変換する操作は、挿入、削除、置換、及び２つの隣接した文字の入れ替えを含む。ＯＣＲのアプリケーションについては、次の損失をこれらの操作のうちの３つに割り当てることができる。挿入損失＝１削除損失＝１入れ替え損失＝１．５置換損失は、ひとつの文字が他の文字として誤って識別される可能性によるべきである。「５」と「Ｓ」などの類似の形状を有する文字は、互いに間違われることがしばしばあり、従って、置換には小さい損失が割り当てられる。通常は、考慮されるのは３６文字である（２６英文字及び１０数字）。下位の格の文字は、損失を計算する前にその上位の格の対応文字にマップされる。可能性のある全ての置換に関する置換損失を含む、３６×３６の参照表を作成し記憶させるのが望ましい。異なったＯＣＲエンジンには異なった表を作成することができる。ＯＣＲエンジンが訓練セットの段階でひとつの文字を他の文字と誤って識別しようとするパーセンテージを求めることにより、表を作成してもよい。その場合には、補数パーセンテージを置換の損失として割り当てることができる。例えば、訓練セットにおいて時間の７０％でエンジンが「６」を「Ｇ」と認識するのであれば、「６のＧに対する」置換損失は１−０．７＝０．３である。この情報は、各文字とその３６個の関連する損失値を、次の４つのグループに分けるのに使うことができる。（ａ）同じ形状（割り当てられる損失＝０）（ｂ）類似の形状（割り当てられる損失＝０．６５）（ｃ）それほど類似しない形状（割り当てられる損失＝０．８）（ｄ）異なった形状（割り当てられる損失＝１）ユーザは、実験結果及び形状の類似性に基づいて、表の値のいくつかを、訓練セット及びＯＣＲエンジンの両方からの偏向の効果を勘案するように調整したいと望むであろう。表は補数置換の損失を等しく、つまり損失（ｘ，ｙ）＝損失（ｙ，ｘ）とするように調節することも望ましい。表１は、ひとつのＯＣＲエンジンについて決定された３６×３６の表の値にするーである。例として、参照表の「Ｆ」列と「Ｐ」行との交点においては、損失値０．６５が記憶される。参照表の「Ｆ」列と「Ｔ」行との交点においては、損失値０．８が記憶される。参照表の「Ｆ」列と「Ｆ」行との交点においては、損失値０が記憶される。参照表の「Ｆ」列と「Ｆ」以外の全ての行、「Ｅ」、「Ｐ」、「７」または「Ｔ」との交点においては、損失値１が記憶される。当業者は、置換損失を決定するのに他の技術が使えることを理解されるであろう。例えば、置換損失をタイピストのタイプの誤りの頻度に基づかせることができる。しかし、このアプローチは、誤った分類などＯＣＲ分析に特定の誤りを扱うものではない。次に図３を参照すると、ステップ３０５で、長さ｜Ａ｜を有する文字列Ａの文字を表す列と、長さ｜Ｂ｜を有する文字列Ｂの文字を表す行を用いて、表またはマトリックスＤを確立する。このように、Ｄは｜Ａ｜×｜Ｂ｜マトリックスである。マトリックスの各セルにおいて、Ｄ（ｉ，ｊ）は最初のｉ文字を文字列Ａから文字列Ｂの最初のｊ文字に変換する最少損失である。Ｄ（｜Ａ｜，｜Ｂ｜）はマトリックスの最終セルであり、文字列Ａ全体を文字列Ｂ全体に変換する最少損失を含む（両文字列の間の編集距離）。マトリックスＤのテンプレートを以下の表２に示す。Ｄ（｜Ａ｜，｜Ｂ｜）を決定するためには、ステップ３１０で動的プログラミング方法が次のセルに進み、セル（１，１）で始まる。この方法はまずＤ（１，１）を決定して、次に最初の列の他のセルを左から右に埋め、そして残りの列のセルを各列の行ごとに埋める。各セルでは、先行する隣接セルのひとつについて既に計算した損失値と、行位置ｊ全体で文字列Ｂの副文字列を得るのに必要な追加的変換操作の漸増最少損失とに基づいて値が計算される。先行する隣接セルでの損失値は、Ｄ（ｉ，ｊ−１）、Ｄ（ｉ−１，ｊ）及びＤ（ｉ−１，ｊ−１）である。Lowrence及びWangerの論文で説明された方法に従って、これらのセルのひとつは、最少損失Ｄ（ｉ，ｊ）について開始損失値を提供する。各セル（ｉ，ｊ）について、次の４つの変換全てが比較される。（１）新たな文字を挿入する損失：Ｄ（ｉ，ｊ−１）＋挿入損失Ｂ（ｊ）（２）古い文字を削除する損失：Ｄ（ｉ−１，ｊ）＋Ａ（ｉ）の削除損失（３）文字を置換する損失：Ｄ（ｉ−１，ｊ−１）＋置換損失Ａ（ｉ）→Ｂ（ｊ）（４）文字を入れ替える損失：Lowrance及びWagnerの論文、「ALGORITHMS」の１８２ページ、１９行並びに附属の説明を参照。論文では、Ｈ［ｉ，ｊ］が最少損失のファンクションである。１８１ページの論文のパート５．（４）を参照して一般的に説明すると、この入れ替えのステップは位置（ｘ，ｙ）で始まるが、ここではｘとｊの間にタッチライン（論文で説明されている）があり、ｉとｙの間にもう１本のタッチラインがある。総損失はＤ（ｘ−１，ｙ−１）＋Ｔであり、ここでＴは漸増入れ替え損失である。損失Ｔは、削除、挿入及び置換損失の組み合わせである。最初の文字列は位置１，．．．，ｘ，．．．，ｉを有し、（ａ）まず、位置ｘ＋１からｉ−１で文字を削除して、１，．．．，ｘ，ｉを残し、（ｂ）次に、ｘ位置とｉ位置の間に、位置ｙ＋１からｊ−１から２番目の文字列の文字を挿入して、１，．．．，ｘ，ｙ＋１，．．．，ｊ−１，ｉを残し、（ｃ）最後に、ｊをｉと置換して、１，．．．，ｘ，ｙ＋１，．．．，ｊ−１，ｊとする。損失Ｔは、ステップ（ａ）、（ｂ）及び（ｃ）の削除、挿入及び置換損失の合計である。Ｄ（ｘ−１，ｙ−１）は位置１，．．．，ｘを変換する損失であるので、損失Ｔを加えることで、入れ替えを用いる総損失が算出される。ステップ３１５では、これらの計算は最少漸増変換損失を求めるために行われて比較される。ステップ３２０では、Ｄ（ｉ，ｊ）は上記（１）〜（４）の結果の最小値となるように設定される。セルが埋められたままであるのならば、ステップ３２５で方法はステップ３１０に戻り、次のセルに進む。ステップ３１５及び３２０はこのセルについて繰り返される。ステップ３２５で最終セル（｜Ａ｜，｜Ｂ｜）が埋められていると判断されれば、変換損失計算は完了する。ステップ３３０では、Ｄ（｜Ａ｜，｜Ｂ｜）の値は文字列の長さの平均（｜Ａ｜＋｜Ｂ｜）／２によって標準化され、編集距離は標準化されたＤ（｜Ａ｜，｜Ｂ｜）に設定されて記憶される。ステップ３３５では、プログラムは試験を行って、未検証の文字列が、削減された語彙辞書の第二レベルの候補語エントリーの全てと比較されたかどうかを判断する。比較されていなければ、方法はステップ３０５に戻り、次の候補語エントリーについてのマトリックスを確立する。ステップ３０５から３３０は、編集距離が決定されて第二レベル候補語エントリーの全てについて記憶されるまで繰り返される。この時点で、方法は図１の主ルーチンに戻り、ステップ１５０で限界値試験を編集距離値に適用して、最終候補語リストを選択する。限界値は（１）未検証の文字列からの標準化された編集距離が最も低い候補語の特定の番号または、（２）その下では最終リストにおけるのと同様に、未決定の候補語番号が受け入れられる特定の標準化された編集距離または、（３）特定の標準化された編集距離を超えない候補語の特定の番号までで設定できる。また、限界値は、バケット・アドレス表に細分化されたグループ数に伴って変化することがある。都市名の語彙辞書の例では、最終限界値は次のようになることがある。最終候補語リストはステップ１５５で出力される。図６を参照すると、本発明は小包１１に添付したラベル１２の画像を得るための画像化システム１０に具象化できる。カメラ１４（ＣＣＤ検出器を内蔵することが望ましい）は、小包１１のパス上に配置される。カメラ１４は公知の方法で操作され、ラベル１２の画像を得る。画像の英数字は、例えばＳＰＡＲＣ２ワークステーションであるプロセッサ１６で分析される。プロセッサはＯＣＲエンジンを含むが、これは当該技術分野で公知のもののひとつであろう。ＯＣＲエンジンは文字を識別し、それを単語に分けようと試みる。プロセッサ１６も、本発明の方法を実施するように編成されている。当該方法への入力は、プロセッサ１６と関連したメモリ装置に記憶された語彙辞書のエントリーと、画像化された未検証の文字列を含む。出力装置（図示せず）は、プロセッサに接続されて、候補語の最終リスト並びにユーザが見直すことを望む中間データを表示、転送または印刷することができる。文字の画像を得るのに適した画像化システムのひとつは、参照することにより本明細書に含めた米国特許第５，３０８，９６０号で開示されている。本システム及び方法の実施は次の例示から理解できる。実施例上記の方法は、ＳＰＡＲＣ２ワークステーションを使って約４５，０００の都市名の語彙辞書並びに、未検証の入力として、実際の世界の住所の画像及びその真の値（視覚的に決定されキー入力された）からＯＣＲエンジンによって生成した約６７０の都市名に適用される。各「未検証の」シグネチュア・ベクトルの最初のグループを、バケット・アドレス表に細分化することは、約５６％の正解率（真の文字列が上位１０の最終候補語にある）と１．３％の不正解率（有効な文字列が最終リストにない）を生ずる。未検証の文字列の残りの４２．７％は拒否された、つまり、語彙辞書では候補語が発見されなかった。平均速度は入力当たり約５３ミリセカンドである。上位５つのグループが細分化されると、入力当たり約６９１ｍｓの平均速度で正解率は約８５％に上昇し、不正解率は２．４％である（１２％が拒否される）。上記の説明から、本発明は、未検証の文字列を語彙辞書とより効率的に比較するシステム及び方法を提供し、語彙辞書を複数のステップを介して透過して未検証の文字列と直接に比較されるエントリー数を削減することが理解されるであろう。本方法は、計算上最も費用がかからない分割及び細分化ステップで始まる。次に、符号化されたベクトル比較ステップに進み、最後に、最も計算上費用がかかる編集距離の直接文字列比較に進む。先行するステップで未検証の文字列について整合が提供されていれば、より費用がかかるステップは省略することができる。語彙辞書の削減は、未検証の文字列の性質を考慮しており、従って、関連する候補語を含むであろう語彙辞書の大部分を任意に削除せずに達成できる。同時に、本方法は、未検証の文字列を語彙辞書の全てのエントリーと直接または間接に比較する必要を回避する。比較されるエントリーのサブセットは、未検証の文字列の内容次第で、未検証の文字列ごとに異なる。最終候補語リストは、未検証の文字列について可能性が高くて分類された候補語のみを含み、最終リストのサイズは調節できる。本発明の性質を説明するために記述し図示した部品やパラメータの詳細、材料及び配列の様々の変更は、以下の請求の範囲に記載した本発明の原理及び範囲から逸脱することなく、当業者が行うことができることを更に理解されるであろう。

【手続補正書】【提出日】１９９８年７月３１日【補正内容】 (１)請求の範囲を別紙の通り補正する。 (２)明細書の第７頁第１６行目に記載された「この議論を目的としては、」とあるを「この議論の目的としては、」と補正する。 (３)明細書の第１６頁第２５行目に記載された「３６×３６の表の値にするーである。」とあるのを「３６×３６の表の値に対するキーである。」と補正する。 (４)明細書の第１９頁第６行目に記載された「Lowrance及びWagner」とあるのを「Lowrence及びWagner」と補正する。請求の範囲１．語彙辞書の各エントリーについて、エントリーを表すｎグラムのベクトルを形成し、前記ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトル（２５）にフォールドし、前記シグネチュア・ベクトルのビットにインデックスされた語彙辞書のエントリーのバケット（４３）を形成し、語彙辞書のエントリー（４５）をその個々のバケットにマップし、所定の基準に適合する前記バケットのサブセットを選択し、前記未検証の文字列の表示を前記バケットの前記サブセットのバケットにマップされた語彙辞書のエントリーのみの表示と比較することからなる文字列（２０）を語彙辞書のエントリー（２２）と比較する方法において、（１）前記シグネチュア・ベクトルのビットにインデックスされた語彙辞書のエントリーのバケットを形成する前記ステップは、前記語彙辞書の各エントリーの各シグネチュア・ベクトルのビットを、語彙辞書において各ビットの発生頻度の降順に配置された所定数のビット（ｇ）をそれぞれ有するグループ（３０〜３６）に分割し、次に、数値はそれぞれグループの全てのビットにより形成されており、ひとつ以上のグループ（３０〜３６）と関連した数値によって識別されたバケット（４３）へのエントリーをインデックスすることによりエントリーの前記バケット（４３）を形成することを含み、（２）前記未検証の文字列の表示を、前記バケットの前記サブセットのバケットにマップされた語彙辞書のエントリーのみの表示と比較する前記ステップは、前記未検証の文字列のシグネチュア・ベクトルのビットを、語彙辞書において各ビットの発生頻度の降順に配置された所定数のビット（ｇ）をそれぞれ有するグループ（３０〜３６）に分割し、次に、前記未検証の文字列を、未検証の文字列の分割されたシグネチュア・ベクトルのひとつ以上のグループ（３０〜３６）のビットによって形成された数値に基づいて前記バケットにインデックスし、前記未検証の文字列の前記表示を、前記未検証の文字列と同じバケットにインデックスされた語彙辞書のエントリーのみの表示と比較すること、を含むことを特徴とする、文字列（２０）を語彙辞書のエントリー（２２）と比較する方法。２．前記数値はグループのビットによって形成された二進数であることをさらに特徴とする、請求の範囲第１項に記載の方法。３．所定の基準に適合するエントリーの前記バケットのサブセットを選択する前記ステップは、前記未検証の文字列またはその表示と語彙辞書の全てのエントリーとの間の類似性の比較を含まない、請求の範囲第２項に記載の方法。４．請求項１の方法において前記ステップは、各エントリーについて、（ａ）語彙辞書のエントリーを表すｎグラムのベクトル（２２）を形成することと、（ｂ）複数のｎグラムをビットに結合することにより前記ｎグラムのベクトルをシグネチュア・ベクトル（２５）にフォールドすることと、（ｃ）語彙辞書において出現頻度が最も高いビットで始め、降順で継続して、シグネチュア・ベクトルのビットと同じｎグラムを有するビットのリストを作ることと、（ｄ）二進数を形成するデジットのグループに分割されており、デジットは同じｎグラムを有するシグネチュア・ベクトルのビットが設定されているかどうかによって設定されたりされなかったりする、ビット値はデジットがビットリストのビットを表す二進数である分割されたベクトル（３０〜３６）を作ることと、（ｅ）分割されたベクトルの全ての可能性のあるビット値に対応するアドレスを有する複数のバケット（４３）を確立することと、（ｆ）前記語彙辞書のエントリーを、前記語彙辞書のエントリーの分割されたベクトルのビット値に対応するアドレスを有する前記ひとつ以上のバケットにインデックスすることにより、語彙辞書のエントリーを編成することと、ステップ（ａ）〜（ｄ）に従って前記未検証の文字列について分割されたベクトル（３０〜３６）を作ることと、前記未検証の文字列を、アドレスが前記未検証の文字列の分割されたベクトルのビット値に対応するバケット（４３）にインデックスすることにより、特定の未検証の文字列と比較される語彙辞書のエントリーの数を削減することと、前記未検証の文字列の表示を、前記未検証の文字列がインデックスされたバケット・アドレスにインデックスされている語彙辞書のエントリーのみの表示と比較すること、とを特徴とする、請求の範囲第１項に記載の方法。５．前記バケット・アドレスは、分割されたベクトルのビット値によって形成された二進数に対応する十進数を含む、請求の範囲第４項に記載の方法。６．比較される語彙辞書のエントリーの数を削減する前記ステップはさらに、アドレスが分割されたベクトル（３０〜３６）の選択されたグループに対応するバケット（４３）にインデックスされた、語彙辞書のエントリーに限定された語彙辞書の削減された部分を定義することを含む、請求の範囲第５項に記載の方法。７．前記比較ステップにおける前記未検証の文字列と前記語彙辞書のエントリーの表示は、フォールドされたｎグラムのシグネチュア・ベクトル（２５）を含む、請求の範囲第６項に記載の方法。８．フォールドされたｎグラムのシグネチュア・ベクトル（２５）は、未検証の文字列のフォールドされたｎグラムのシグネチュア・ベクトルと比較して、所定の一致限界値よりも高い対応するビットの標準化された一致を有するエントリーに語彙辞書を、さらに削減するステップを含む、請求の範囲第７項に記載の方法。９．原形の未検証の文字列と、原形の語彙辞書の更に削減されたエントリーとを比較するステップをさらに含む、請求の範囲第８項に記載の方法。１０．原形の未検証の文字列と、原形の語彙辞書のさらに削減されたエントリーのエントリーとを比較する前記ステップは、原形の未検証の文字列と原形の語彙辞書の削減された部分のエントリーとの間の、変形損失分析を行い、前記変形損失分析において決定された標準化された変形損失スコアに基づいて、候補語のエントリーの最終リストを定義することを含む、請求の範囲第９項に記載の方法。１１．前記ｎグラムのベクトル（２２）をシグネチュア・ベクトル（２５）にフォールドする前記ステップは、前記ｎグラムのベクトルの８ビットを前記シグネチュア・ベクトルの１ビットに結合することを含む、請求の範囲第４項に記載の方法。１２．分割されたベクトル（３０〜３６）を作る前記ステップは、前記シグネチュア・ベクトルを１２ビットのグループに分割することを含む、請求の範囲第１１項に記載の方法。１３．文字列（２０）の画像を得て記憶するために操作されるイメージャー（１４）と、語彙辞書の各エントリーについて、エントリーを表すｎグラムのベクトル（２２）を形成し、前記ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトル（２５）にフォールドし、前記シグネチュア・ベクトルのビットにインデックスされた語彙辞書のエントリーのバケット（４３）を形成し、語彙辞書のエントリー（４５）をその個々のバケットにマップし、所定の基準に適合する前記バケットのサブセットを選択し、前記未検証の文字列の表示を、前記バケットの前記サブセットのバケットにマップされた語彙辞書のエントリーのみの表示と比較するように構成されたプロセッサ（１６）とを備えた語彙辞書のエントリーを画像における未検証の文字列にリンクするシステムにおいて、（１）前記シグネチュア・ベクトルのビットにインデックスされた語彙辞書のエントリーのバケットを形成する前記プロセッサ・ステップは、前記語彙辞書の各エントリーの各シグネチュア・ベクトルのビットを、語彙辞書において各ビットの発生頻度の降順に配置された所定数のビット（ｇ）をそれぞれ有するグループ（３０〜３６）に分割し、次に、数値はそれぞれグループの全てのビットにより形成されており、ひとつ以上のグループ（３０〜３６）と関連した数値によって識別されたバケット（４３）へのエントリーをインデックスすることによりエントリーの前記バケット（４３）を形成することを含み、（２）前記未検証の文字列の表示を、前記バケットの前記サブセットのバケットにマップされた語彙辞書のエントリーのみの表示と比較する前記プロセッサ・ステップは、前記未検証の文字列のシグネチュア・ベクトルのビットを、語彙辞書において各ビットの発生頻度の降順に配置された所定数のビット（ｇ）をそれぞれ有するグループ（３０〜３６）に分割し、次に、前記未検証の文字列を、未検証の文字列の分割されたシグネチュア・ベクトルのひとつ以上のグループ（３０〜３６）のビットによって形成された数値に基づいて前記バケットにインデックスし、前記未検証の文字列の前記表示を、前記未検証の文字列と同じバケットにインデックスされた語彙辞書のエントリーのみの表示と比較すること、を含むことを特徴とする、語彙辞書のエントリーを画像における未検証の文字列にリンクするシステム。

Claims

【特許請求の範囲】１．語彙辞書のエントリーの表示を、前記エントリーの少なくともひとつの特性に基づいてグループに分割するステップと、前記エントリーを、前記グループの少なくともひとつの特性に基づいて、語彙辞書にマップされたバケットの複数のアドレスを含むインデックスにインデックス化するステップと、未検証の文字列の表示を、前記語彙辞書のエントリーを分割するのに使用したのと同じ特性に基づいて、グループに分割するステップと、前記未検証の文字列を、前記語彙辞書のエントリーをインデックス化するのに使用したのと同じ特性に基づいて、前記インデックスにインデックス化するステップと、前記未検証の文字列の表示を、前記未検証の文字列がインデックスされたバケット・アドレスの選択に共通してインデックスされた語彙辞書のエントリーのみの表示と比較するステップとを含む、文字列を語彙辞書のエントリーと比較する方法。２．エントリーの表示を分割する前記ステップは、エントリーを表すｎグラムのベクトルを形成し、前記ｎグラムのベクトルを、削減されたビット長のシグネチュア・ベクトルにフォールドし、前記シグネチュア・ベクトルを、語彙辞書において各ビットの出現する頻度の降順で配置された所定数のビットをそれぞれ有するグループに分割することを含む、請求の範囲第１項に記載の方法。３．各エントリーについて、前記エントリーをインデックス化する前記ステップは、前記グループのビットのビット値に基づいて、前記エントリーの分割されたシグネチュア・ベクトルの各グループについてひとつ、一組のグループ数値を決定し、それぞれグループ数値に等しい複数の独自のバケット・アドレスを確率し、前記エントリーを、前記エントリーの分割されたシグネチュア・ベクトルのグループについて、グループ数値の少なくともひとつに等しい前記バケット・アドレスのひとつ以上と関連したバケットにマップすることを含む、請求の範囲第２項に記載の方法。４．エントリーをインデックス化する前記ステップは更に、前記語彙辞書の残りの分割されたシグネチュア・ベクトルのグループについて、グループ数値を決定し、少なくとも全ての決定された非複写グループ数値についてバケット・アドレスを確立し、前記語彙辞書の各残りのエントリーを、前記エントリーの分割されたシグネチュア・ベクトルのグループについて、グループ数値の少なくともひとつに等しいバケット・アドレスを有するバケットにマップするが、各エントリーは特定のバケット・アドレスに一回を超えてはマップされないことを含む、請求の範囲第３項に記載の方法。５．未検証の文字列を分割しインデックス化する前記ステップは、未検証の文字列を表すｎグラムのベクトルを形成し、前記ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、前記シグネチュア・ベクトルを、語彙辞書において各ビットの出現する頻度の降順で配置された所定数のビットをそれぞれ有するグループに分割し、前記グループのビットのビット値に基づいて、前記未検証の文字列の分割されたシグネチュア・ベクトルの各グループについてひとつ、一組のグループ値を決定し、前記未検証の文字列を、前記未検証の文字列の分割されたシグネチュア・ベクトルの最初のグループに関するグループ数値に等しい少なくとも前記バケット・アドレスのバケットにマップすることを含む、請求の範囲第４項に記載の方法。６．前記最初のグループは、前記語彙辞書において出現する頻度が最も高いビットを含む請求の範囲第５項に記載の方法。７．前記比較ステップにおける前記未検証の文字列と前記語彙辞書のエントリーの表示は、フォールドされたｎグラムのベクトルを含み、前記比較ステップは、前記未検証の文字列のフォールドされたｎグラムのベクトルの対応するビットと、バケット・アドレスの前記選択と関連した前記語彙辞書のエントリーのフォールドされたｎグラムのベクトルとの一致を決定することを含む、請求の範囲第１項に記載の方法。８．フォールドされたｎグラムのベクトルはさらに、所定の一致限界値よりも高い対応するビットの標準化された一致を有するエントリーに限定された語彙辞書の削減された部分を定義するステップを含む、請求の範囲第７項に記載の方法。９．元の形状にある未検証の文字列と元の形状にある語彙辞書の削減された部分のエントリーとを比較するステップをさらに含む、請求の範囲第７項に記載の方法。１０．元の形状にある未検証の文字列と元の形状にある語彙辞書の削減された部分のエントリーとを比較する前記ステップは、元の形状にある未検証の文字列と元の形状にある語彙辞書削減された部分のエントリーの間の変形損失分析を行い、前記変形損失分析において決定された標準化された変形損失スコアに基づいて、候補語のエントリーの最終リストを定義することを含む、請求の範囲第７項に記載の方法。１１．前記比較ステップにおける前記未検証の文字列及び前記語彙辞書のエントリーの表示は、フォールドされたｎグラムのシグネチュア・ベクトルを含む、請求の範囲第１項に記載の方法。１２．前記語彙辞書のエントリーを分割するのに使用した特性の、語彙辞書における発生頻度によって前記グループを形成するステップをさらに含む、請求の範囲第１項に記載の方法。１３．文字列の画像を得て記憶するのに操作するイメージャーと、前記エントリーの少なくともひとつの特性に基づいて、語彙辞書のエントリーの表示をグループに分割し、前記グループの少なくともひとつの特性に基づいて、前記エントリーを語彙辞書にマップされたバケットの複数のアドレスを含むインデックスにインデックス化し、前記語彙辞書のエントリーを分割するのに使用したのと同じ特性に基づいて、未知の画像化された文字列の表示をグループに分割し、前記語彙辞書のエントリーを前記インデックスにインデックス化するのに使ったのと同じ特性に基づいて、前記未検証の文字列を前記インデックスにインデックス化し、前記未検証の文字列の表示を、前記未検証の文字列がインデックスされたバケット・アドレスの選択に一般的にインデックスされている語彙辞書のエントリーのみの表示と比較するように構成されたプロセッサとを含む、語彙辞書のエントリーを画像における未検証の文字列にリンクするシステム。１４．前記プロセッサは、エントリーを表すｎグラムのベクトルを形成し、ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、前記シグネチュア・ベクトルを、語彙辞書における各ビットの出現頻度の降順で配置された所定数のビットをそれぞれ有するグループに分割することにより、エントリーの表示を分割するように構成されている、請求の範囲第１３項に記載のシステム。１５．前記プロセッサは各エントリーについて、グループのビットのビット値に基づいて、前記エントリーの分割されたシグネチュア・ベクトルの各グループについてひとつ、一組のグループ数値を決定し、それぞれグループ数値に等しい複数の独自のバケット・アドレスを確立し、前記エントリーを、前記エントリーの分割されたシグネチュア・ベクトルのグループについて、少なくともひとつのグループ数値に等しいひとつ以上の前記バケット・アドレスに関連したバケットにマップすることにより、前記エントリーをインデックスするように構成されている、請求の範囲第１４項に記載のシステム。１６．前記プロセッサは、未検証の文字列を表すｎグラムのベクトルを形成し、前記ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、前記シグネチュア・ベクトルを、語彙辞書において各ビットの出現頻度の降順で配置された所定数のビットをそれぞれ有するグループに分割し、前記グループのビットのビット値に基づいて、前記未検証の文字列の分割されたシグネチュア・ベクトルの各グループについてひとつ、一組のグループ数値を決定し、前記未検証の文字列を、前記未検証の文字列の分割されたシグネチュア・ベクトルの最初のグループについて、グループ数値に等しい少なくとも前記バケット・アドレスのバケットにマップすることにより、前記未検証の文字列を分割しインデックスするように構成されている、請求の範囲第１５項に記載のシステム。１７．前記最初のグループは前記語彙辞書において出現頻度の最も高いビットを含んでおり、前記ビット値は１及び０を含み、前記グループ値はグループのビット値によって形成された二進数に対応する十進数を含み、前記比較ステップにおける前記未検証の文字列及び前記語彙辞書のエントリーの表示は、ｎグラムのベクトルを含み、前記プロセッサは前記未検証の文字列の表示を、前記未検証の文字列のｎグラムのベクトルの対応するビットと、バケット・アドレスの前記選択に関連した前記語彙辞書のエントリーのｎグラムのベクトルとの一致を決定することにより、前記未検証の文字列がインデックスされたバケット・アドレスの選択に一般的にインデックスされた語彙辞書のエントリーのみの表示と比較するように構成されている、請求の範囲第１５項に記載のシステム。１８．前記プロセッサはさらに、元の形状にある未検証の文字列と、元の形状にある語彙辞書の削減された部分のエントリーとの間の変形損失分析を行い、前記変形損失分析において決定された標準化された変形損失スコアに基づいて、候補語エントリーの最終リストを定義することにより、元の形状にある未検証の文字列と、元の形状にある語彙辞書の削減された部分のエントリーとを比較するように構成されている、請求の範囲第１７項に記載のシステム。１９．語彙辞書のエントリーの表示を、前記エントリーの少なくともひとつの特性に基づいてグループに分割するステップと、前記グループの少なくともひとつの特性に基づいて、前記エントリーを語彙辞書にマップされたバケットの複数のアドレスを含むインデックスにインデックス化するステップとを含む、文字列を語彙辞書のエントリーと比較するための語彙辞書を作成する方法。２０．エントリーの表示を分割する前記ステップは、エントリーを表すｎグラムのベクトルを形成し、前記ｎグラムのベクトルを削減されたビット長のシグネチュア・ベクトルにフォールドし、前記シグネチュア・ベクトルを、語彙辞書において各ビットの出現頻度の降順で配置された所定数のビットをそれぞれ有するグループに分割することを含む、請求の範囲第１９項に記載の方法。２１．各エントリーについて、前記エントリーをインデックスする前記ステップは、前記グループのビットのビット値に基づいて、前記エントリーのシグネチュア・ベクトルの各グループについてひとつ、一組のグループ数値を決定し、グループ数値にそれぞれ等しい複数の独自のバケット・アドレスを確立し、前記エントリーを、前記エントリーの分割されたシグネチュア・ベクトルのグループについて、少なくともひとつのグループ数値に等しいひとつ以上の前記バケット・アドレスに関連したバケットにマップすることを含む、請求の範囲第２０項に記載の方法。２２．符号化された表示が未検証の文字列の符号化された表示と少なくともひとつの特性を共有する、前記語彙辞書のエントリーを選択することにより前記語彙辞書の最初の部分を定義するステップと、前記未検証の文字列の符号化された表示を、前記語彙辞書の前記最初の部分のエントリーの符号化された表示と直接に比較することにより、前記最初の部分のエントリーのいくつかを含む前記語彙辞書の２番目の部分を定義するステップと、元の形状にある未検証の文字列と元の形状にある語彙辞書の２番目の部分のエントリーとを直接比較することにより、前記２番目の部分のエントリーの少なくともひとつを含む前記語彙辞書の３番面の部分を定義するステップとを含む、文字列を語彙辞書のエントリーと比較する方法。２３．前記符号化された表示は、前記ｎグラムのベクトルをフォールドするのに使った特性の、語彙辞書における出現頻度によってグループに分割されたｎグラムのベクトルを含む、請求の範囲第２２項に記載の方法。