JPH05505270A

JPH05505270A - 多重エラースペリング修正のための高速近似ストリングマッチング法

Info

Publication number: JPH05505270A
Application number: JP92504399A
Authority: JP
Inventors: ドゥー，ミンウェン; チャン，シーチオ
Original assignee: ジーティーイー　ラボラトリーズ　インコーポレイテッド
Priority date: 1990-12-31
Filing date: 1991-12-30
Publication date: 1993-08-05
Also published as: EP0519062A1; CA2076526A1; WO1992012493A1; EP0519062A4

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】多重エラースペリング修正のための貰′斤以ストリングマツチング去本発明は、一般的にいうと、データ処理の分野に関しし、特定すると、−組の可能なワードストリングを含む場合もあり含まない場合もある一組の可能なワードから、所与の文字ストリングにもっとも近似するワードについて探索が行われる近似ストリングマツチングの問題に関する。本発明は、プログラムエラー修正、ワードプロセッシングにおけるテキスト編集、およびデータベースからの情報検索に利用される。

近似ストリングマツチングの問題および種々の状況においてその解明のために提案ないし使用されたアルゴリズムが従来周知であり、少なくとも１９７０年頃には早くも文献に論述されている。

近似ストリングマツチング（ＡＳＭ）の問題は、−組の可能なワード（辞書）から所与の文字ストリングにもっとも「近似する」ワードを探索するものとして定義できょう。所与のストリングは、辞書にある場合もあるしない場合もある。ワードの近似性は、一般に、はぼ２つのストリング間で定義される距離関数によって測定される。

例λば、一つのストリングを他のストリングに変更するためになされる文字の挿入、消去、変更や、２つの隣接する文字の交換などを含む最少数の編集操作が、２つのストリング間の自然の一般に使用される距離基準である、それゆえ、この問題はまた、−組の可能なワード間において所与の文字ストリングに最も近い近傍のもの（近傍物）隣接ストリングを見出すことと定義され得る。

プログラムエラー修正において、辞書は、普通、−組の逆転キーワード、および使用者により定義される一組の変数および機能名より成る。テキスト編集において、辞書は、言語の中の一組の容認されたワードである。情報検索において、辞書はデータベース内の一組の探索用キーである。この問題に対する優れた概説は、ＡＣＭ　Ｃａｍｐｕｔｉｎｇ　５ｕｒｖａｙｓ、　１２．４．　ｐｐ、　３１＋１−４０２．１９８０年１２月発行のＰ、ＡＪ、　ＨａｌｌおよびＧ、Ｒ，ＤｏｗｌｉｎＨの「＾ｐｐｒｏｘｉｍａｔｅ　Ｓｔｒｉｎｇ　Ｍａｔｃｈｉｎｇ」なる論文に記述されている。

近似ストリングマツチングは、データベース内のエラーはよくあることであるから、たいていの情報処理シス　″テムにきわめて望ましい、観察によると、ある場合には、データベースのインデックス語句の２２％以上が間違って綴られている。したがって、近似ストリングマツチングは、このような部分的に悪化されたデータを検索するための唯一の手段となる。

エラーは、情報処理の種々の段階で導入され得る０例えば、航空会社予約システムにおいては、旅行者の名前は非常に容易に綴を間違えられる。この種の情報は電話の会話により伝搬されることが多く、また国際的な名は、標準的な綴を欠くことが多いから、エラーは不可避である。エラーは、探索用のキー（名前）にもデータベースにも存在しえる。近似ストリングマツチング技術は、部分的に間違った記録を部分的に間違った探索用キーで検索することを可能にする。

近似ストリングマツチング技術は、今日の対話型コンピュータの環境下でマン− マシンインターフェースの設計を著しく改善し得る。もしも、使用者により挿入される文字ストリングが正しくなければ、システムはワードを推測し、使用者にそれを確認せしめるのが望ましいであろう０代わりに、システムが数種の可能性を提示し、使用者に正しいものを選択せしめるのが望ましいであろう、このオプションにより、装置を使用者により親密にすることができる。

Ｃｏｍｍ、　ＡＣＭ　７．３．　ｐｐ、１７１−１７６、１９６４年３月発行のＦ、ＪＤａｍｅｒａｕのｒＡ　Ｔｅｃｈｎｉｑｕｅ　ｆｏｒ　Ｃｏｍｐｕｔｅｒ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄＣｏｒｒｅｃｔｉｏｎ　ｏｆ　Ｓｐｅｌｌｉｎｇ　Ｅｒｒｏｒｓ」なる論文、およびＣ０ｍｍ、　ＡＣＭ　１３．２．　ｐｐ、　９０−９４．１９７０年２月、の　Ｈ，Ｌ、　Ｍｏｒｇａｎのｒ　Ｓｐｅｌｌｉｎｇ　Ｃｏｒｒｅｃｔｉｏｎ　ｉｎ　Ｓｙｓｔｅｍｓ　Ｐｒｏｇｒａｍｓ　Ｊなる論文に報告されるように、４種の線間違いがもつとも一般的である。すなわち、挿入、削除、文字の変更、および２つの隣接する文字の交換、はとんどすべての従来の手法においては、フォルトモデルは単一のエラーのみを仮定している。

しかしながら、このような仮定は一般に適切でない０例えば、現在のプログラミングの慣行は、プログラムの解読性および維持性を増すためにより長い変数および機能名を奨励している。長い名前は複数のエラーを招来する。

ある応用においては、多重エラーの考慮のみで、誤ったワードから正しいワードを導くことができる０例えば、綴の誤った”Ｊｅｐｒｏｄｉｓｅ−から正しい綴の−Ｊｅｏｐａｒｄｉｚｅ−を得るには、少なくとも４つの挿入、抹消および変更の操作を必要とする。スペリングエラーの数は、２つのストリング間の簡単で自然なエラー距離の定義を与＾る。

次の応用を考察する。大きなソフトウェアプロジェクトにおいて、数千のファイルが創成されたと仮定する。

利用者がファイルの探索を希望するが、正しいファイル名を思い出すことができないことはしばしば起こる。　ＡＳＭ技術を使用すると、システムにより、利用者に、ファイル名が見つかるまで、部分的に正しい名前をそのすぐ近傍において展開させることができる。これは、所与の規則的表現を一組の既知のストリングに整合させる一般に普及しているワイルドカードマツチング法に取って代わるものである。ワイルドカード手法はこの状況においては有用性が低い、何故ならば、エラー距離の概念がその公式かにおいて当然に実施されなかったからである。

他方、２つの長いストリングを比較するに際しては、多重エラーフォルトモデルが長く使用されてきた。多重エラーは、近似ストリングマツチングにおいては考慮されることはあまりない、何故ならば、多重エラーは、前掲のＨａｌｌおよびＤｏｗｌｉｎｇの論文において論述されるように、取り扱うのが難しいからである。

次の３つの手法は困難性を示している。筆者等は、ここでの論述を、辞書における所与のストリングとそのもっとも近い近傍のもの間のエラー距離が小さい場合に限定しよう、これらのケースは実際の応用においてもつともしばしば起こる。

そこで、２６文字のアルファベットを仮定し、さらに、近似マツチングのための所与の文字ストリングが長さｍより成り、辞書における平均ワード長がｎであり、そして辞書にｐのワードがあると仮定する、また、辞書内のワードがランダムアクセスメモリ内に記憶されているものと仮定する。

１）辞書における所与のストリングと各ワードとの間の距離を計算し、ついで最小の距離内にあるこれらのワードを見つけることができる。２つのワード間の距離計算のための時間は、種々のフォルトモデルにおける２つのストリングの長さの積に比例する。それゆえ、もつとも近い近傍のものを見つけるのに、ｋｘ　ｐ　ｘ　ｍ　ｘ　ｎ時間を要する。ここで、ｋは定数である。　ｋ　＝　ｌｏｏｍｓ、ｐ　＝１０’、ｍ　＝　ｎ　＝　１０とおくと、もつとも近い近傍のものを見つける時間は１０００秒である。この手法は、実時間の応用にとっては長時間を要し過ぎる。

２）正確なマツチングのため辞書に対して索引付は機構を実施することができる。辞書内のｐのワードをアルファベット類に分類し、二進探索を採用する。所与のストリングのもっとも近い近傍のものを見出すため、所与のストリングの小エラー距離（半径）ｒ内にあるすべてのストリングを生成し、それらの各々が辞書内にあるか否かをチェックする。もっとも近い近傍のものが辞書内に見つけられるまで、半径ｒは、ゼロで始めて各時に１だけ増す、　Ｋ　（ｍ、　ｒ）で、所与のストリングの距離ｒ内にあるストリングの数を指示させる。そのとき、Ｋ（ｍ、１）は、概２６ｘ　（２ｘｍ＋１）＋ｍ−１に概等しく、Ｋ　（ＩＯ，り＝５６５である。また、Ｋ　（ｍ、　ｒｌは、小さいｒに対しては概Ｋ　（ｍ、　Ｉ）ゝに等しい、もしももっとも近傍のものが所与のストリングから距離ｒより成れば、計算に必要な時間はｋ　Ｘ　ｌｏｇ２（ｐ）　Ｘ　Ｋ（＋ｎ、ｒｌに等しい、に＝２０μｓとすると（この場合の演算はケース１の演算よりも簡単である）、ｐ＝ＩＯ’、そしてｍ　＝　ｎ　＝　１０である。計算に必要な時間は、ｒ＝２のとき１０６秒に等しく、ｒ＝３のとき９９８分に等しい。

３）辞書にある全ワードから小距離ｒの近傍にある全ストリングを予め生成し、記憶することができる。しかるときは、対数的探索が可能となる。しかしながら、文字を記憶するのに１バイトを使用すると仮定すると、必要とされるメモリは、に（ｍ、ｒ）Ｘ　ｐ　Ｘ　ｎバイトに等しい。再びｐ　＝　１０’　とすると、ｍ　＝　ｎ　＝　１０である。ｒ＝２のとき、必要とされるメモリは３２Ｘ　１０”バイトであり、これは巨大であり、予見される将来における１接アクセス可能コンピュータメモリには適合しない。

前述の３つの手法は、メモリに関しては効率的であるが、もっとも近い近傍のものをを見出すのにあまりに長い時間を必要とするか、時間に関して効率的であるが、索引付は機構を実施するのに過大のメモリを必要とする、実際の手法は、２つの極限間に適合されるべきであり、もっとも近い近傍のものが数秒間で見つけることができるように索引づけ機構を構成するのに十分であるが大きすぎないメモリを使用すべきである。

したがって、本発明は、大データベースを記憶するためのシーケンシャルディジタル記憶媒体を有するデータプロセッシングシステムにおける多重エラースペリング修正のためのシステムにおいて、ディジタルデータプロセッシングシステム内に一領域に記憶される１組の許容し得るワードを含む辞書であって、その各ワードが文字ストリングより成り、該文字ストリングの長さにしたがって区分された辞書と、ストリング２を受け入れて、該ストリングが前記辞書内にあるか、あるいは前記辞書内の間違って綴られたワードであるかを決定する手段と、２のもっとも近い近傍のものを見つけるため前記ストリング２を前記辞書内のストリングと整列させるためのマツチング手段を備λるものであって、前記ストリング２を前記ワードに変換するために左から右へ操作する最短の逐次編集シーケンスである、前記ストリング２と前記辞書内の全ワードの間の距離を計算する手段と、最小の距離をもつワードを記録する手段と、前記計算がなされるワード長に上限を決定することによって、エラー距離を計算を制限する手段と、ストリング長の区分を使用して、前記のエラー距離の計算を制限するための手段と、カットオフ規準を使用して、前記のエラー距離の計算を制限する手段と、近傍のニラ−距離よりも大きいエラー距離にあるワードを除去することによって、探索範囲をさらに制限する手段とより成る多重ニラ−スペリング修正システムを提供するものである。

［図面の簡単な説明コ図１は、本発明が実施されたハードウェアおよびオペレーティングシステムを示すブロック図である。

図２は、本発明の実施例において使用される全テキストデータベース入力を索引付けするための情報プロセッシングフローチャートである。

図３は、図２の全テキストデータベースからの情報検索のための間合せプロセスを示す情報プロセッシングフローチャートである。

図４は、所与のレベルにおける記録重み決定を示す本発明の適応ランキングシステムの１実施例のフローチャートである。

ス５は、編集シーケンスの長さおよびｓ−トレースのコストを例示する線図である。

ズ６：よ、３つの辞書におけるワード長の分布を示すグラフである。

ｊ１７ａ、７ｂおよび７ｃは、３つの辞書におけるワード、間の距離の分布を示すグラフである。

図８は、エラー距離マトリックスの計算の順序を例示する線図である。

図９は、もっとも近い近傍のものの限定された１組をを構成するマツピング線図である。

図１０は、試験半径内にある全ストリングに対する誘導ツリーを示す線図である。

図１１は、ハツシュ関数をを見つけるための被覆の問題を例示する線図である。

図１２は、有限数のダミー文字に対するハツシュ関数選択を示す線図である。

図１３は、偏差ベクトルの被覆を構成する被覆テーブルを示す線図である。

図１４は、本発明の弾性的なストリングマツチングアルゴリズムの具体例を示すフローチャートである。

図１５ａ〜１５ｅは、Ｏ〜５の範囲で変わるエラー距離に対する５つのアルゴリズムの性能を測定した実験的結果のプロットである。

図１６ａ〜１６ｅは、図１５ａ〜１５ｂの５つのアルゴリズムの実行時間を測定した実験的結果のプロットである。

〔実施例の説明］本発明は、辞書における近似ストリングマツチングのための高速アルゴリズムに関する０文字ストリング上における挿入、抹消、変更および変換操作の多重スペリングエラーは、開示されたフォルトモデルで考察される。

アルゴリズムについて記述する前に、これらのアルゴリズムが実施された情報検索システムについてあらましを述べる。

図１は、ＦＡＩＲＳ　（頭辞語）により設計された実験的情報検索システムに対するハードウェアおよびオペレーティングシステム環境のブロック図である。この情報検索システムは、一部ＰＲＣ，ＡＳＩＳ　Ａｎｎｕａｌ　Ｍｅｅｔｉｎｇ、　１９８７年１０月、　ｐｐ、３０−３５のＳ、　Ｃ，ＣｈａｎｇおよびＷ、　Ｃ，Ｃｈｅｎの”Ａｎｄ−１ｅｓｓＲｅｔｒｉｅｖａｌ：丁ｏｗａｒｄ　Ｐｅｒｆｅｃｔ　Ｒａｎｋｉｎｇ−と題する論文に部分的に、またＰｒｏｃ、　ＲＩＡＯ８８，１９８８年３月、　ｐｐ、１７２−１８２にも部分的に開示されている。これらの文献には、実験的情報検索システムＦＡＩＩＩＳ内においてテキストエディタを使用する体系が、一般的に記述されている。　ＦＡＩＲＳは、それ自身のオペレーティングシステムを各々使用する　一種々のコンピュータシステム上で動作する。全システムの主たる特徴は、参照番号１２により指示される大型のデータ記憶デバイスである。

図２は、ＦＡＩＲＳを使用する大型システムにおいて全テキストデータベースを入力し、データベースに索引付けるするための情報処理の流れを示すフローチャートである。原テキストファイル２１は、利用者がレコードマーカーを任意的に指定して、そのままメモリ１２に読み込まれる。しかして、各ファイルは、名前を付され、そのファイル名に対する拡張子として、　ＴＸＴを有する。利用者：よまたシステム２２にそのファイルを書き入れ、拡張子として、５ＩＩＳを有する彼のファイル、拡張しとして、　ＧＦｕを有する彼のファイルの形態、および拡張子としてＮＥＷを有する追加の新ファイルのリストを提供する。利用者はまた、索引付けされるべきでないワードのネガティブ辞書２３　（、ＮＥＣ）を提供する。入力２１．２２．２３は、ＦＡＩＲＳプログラム下で適応情報リーダー／バルサ−２４によって処理される。プロセスの一部として、ＩＮＤＥＸビルダー２５が、検索に必要なインデックスファイル２６を生成する。インデックスファイルの主たる要素は、反転ファイル、ＩＮＶ２７であり、そしてこれはテキストファイル２１における各ワードの全発生の位置に対するインデックスである。

残りのインデックスファイル（２８ａ。

２８ｂ、２８ｃ、２８ｄ）は、各ワードを有するレコードの位置（、ＲＥＣ）、そのワードの発生位置（、ＬＯＧ）、各レコードのアドレス（、ＡＤＲ）およびユーティリティファイル（。

ＣＮＴｌを含む０図３は、間合せによりシステムに入力されるファイルから情報を検索するための情報処理フローチャートである。利用者の間合せ３１は、スペリングの変動３３および同義語定義３４についてそれをチェックすることによって改善される（３２）、利用者が問合せを確認した後、間合せ語句を含むレコードを探索する（３５）のにインデックスファイル２６が使用される。探索において見出されるレコードは、ランク付は規則３７に従ってランク付けされる（３６）、Ｒファイル２１は、利用者へのフィードバックのために表示される（３８）、この点にて、利用者は、適合情報３９ａをフィードバックして、探索を純化し、あるいは検索されたテキストレコード３９ｂを受け入れ、それをさらに使用のため他の媒体に転送することができる。

図４は、関連する特許出画に記述されているが、本発明には直接関係ない２本発明は、問合せのスペリングチェック、およびこの情報の流れにおけるこれらの問合せの改善に直接関係する０本発明はまた、他の領域において広い応用を有するものである。詳述すると、辞書における近似ストリングマツチングのための高速アルゴリズムに関係する０文字ストリングにおける挿入、消去、変更および交換操作による多重スペリングエラーは、開示されたフォルトモデルで考察する。

以下の記述においては、まず本発明のアルゴリズムを公式化する際に使用されるＬ−トレースフォルトモデルを提示する。ついで、近似ストリングマツチングアルゴリズムの効率を改善するための４段階低減手続きについて記述する０手続きにおいて第４段階を達成する設計が、本発明の主たる貢献である。この段階においては、所与のストリングを大きな距離を有するワードと比較するのを避けるために、ハツシング体系を開発した。かくして、辞書内のワードの数に対して準直線的なアルゴリズムが得られる。ハツシング機構の動作および設計の詳細について記述する。ついで、探索用アルゴリズムの効率に普通影響を及ぼすような使用下にある辞書の属性について論述し、代表的応用において遭遇する辞書の属性について若干の考察をなす、ついで、上述のＦＡＩＲＳシステムを使用する図書館情報検索データベースに展開されたアルゴリズムの応用について記述して終結し、実験結果について論述する。実験結果は、普通の逐次コンピュータにおいて実時間で大型の辞書に対する近似ストリングマツチングを遂行することが可能であることを示している。

［Ｌ−トレースフォルトモデル］スペリングエラー検出および修正におけるたいていの従来手法は、単一のエラーのみを仮定している。　ＷｌｇｎｅｒおよびＦｉｓｈｅｒは、文字ストリング上における多重挿入、抹消、および変更操作を処理するための最初の正式なストリング編集モデルを提案した。　Ｊ、ＡＣＭ　２１．１．　ｐｐ、１６８−１７３、１９７３年１月発行のＲ，Ａ、　ＷａｇｎｅｒおよびＭ、Ｊ、　Ｆｉｓｈｅｒの’Ｔｈｅ　Ｓｔｒｉｎｇ−ｔｏ−５ｔｒｒｎｇ　Ｃｏｒｒｅｃｔｉｏｎ　ＰｒｏｂｌｅｍＪなる論文参照、彼らは、距離計算のため問題のダイナミックプログラミングによる公式化を開発した。このモデルは、後でＬｏｗｒａｎｃｅおよびＷａｇｎｅｒにより交換操作を含むように拡張された。　Ｊ、ＡＣＭ　２２．９ ρ、１７７−１８３．１９７５年４月発行のＲ，ＬｏｗａｎｃｅおよびＲ，Ａ、　Ｗａｇｎｅｒの’Ａｎ　Ｅｘｔｅｎｓｉｏｎ　ｏｆ　ｔｈｅＳｔｒｉｎｇ−ｔｏ−Ｓｔｒｉｎｇ　Ｃｏｒｒｅｃｔｉｏｎ　Ｐｒｏｂｌｅｍ」なる論文参照。

Ｌｏｗｒａｎｃｅ−Ｗａｇｎｅｒの拡張モデルに基づいて、本発明者らは、リニヤ−トレース（Ｌ−トレース）と名づけるフ才ルトモデルを開発した。Ｌ−トレースモデルは、多重の挿入、消去、変更および変換エラーを処理する。このモデルは、共通のエラーを表わすために、可能な編集シーケンス上に自然の制約を課する０本発明はＬ−トレースモデルを利用するが、ここに開示される技術は、他のフォルトモデルにも同様に使用できる。以下の節において、Ｌ−トレースについて定義する。

この記述において、辞書は、文字セットΣから構成された一組の文字ストリングである。辞書内の文字ストリングは、ワードと称せられる。

以下の表記法および約束が以下のすべての論述において使用される。

Ｘ＝Ｘ［ｌ］、　Ｘ［２］、　、、、、　Ｘ［ｍｌ：Σからの文字ストリンク。

Ｙ＝Ｙ［ｌ］、　Ｙ［２］、　、、、、　Ｙ［ｍｌ　Σからの第２の文字ストリング上グ［ｉ：ｊｌ・Ｚ［ｉｌ、　Ｈｉ◆１］、−、Ｚ［ｊｌ　：　ｉないしｊのインデックスをもつアレイ。

Ｈ［１１・１２．　ｊ＋：ｊ２］：　Ｌないし１２およびｊｌないしＪ２のインデックスをもつアレイ、　Ｈ［ｉ、ｊｌは、Ｘ　［１：　ｊｌおよびＹ［１：ｊｌ間の距離を表わすのに使用される。ＨはＸおよび７間の距離マトリックスを表わす距離マトリックスと呼ばれる。

ａ−ｂ−ｃ−、、、−ｒ一連の要素、シーケンスに１つの要素しかないとき、− ａ−と書く。

ｎｊ：セットＳのサイズ。

ｈ−１（Ｒ）　：マッピング関数り下における範囲Ｒの逆像、すなわちｈ−’　（Ｒ）ｌｘｌｈ（ｘ）　ｔ　Ｒ）。

Ｓｏ：文字セットＳのクリーネ包閉。

ストリング領域（ユニバース）：Σ°に等しい。

Ｚ　（Ｚ、　ｒ）　距離（半径）ｒ内におけるストリング２の近傍のもの。

文字ストリング上における下記の編集操作が考察される。

１（ｉ、ｓｌ　：ストリングの　（ｉ−１）　（番目）およびｉ　（番目）の文字間にＳを挿入。

Ｄ（ｉ）＋　ｉ番メモリ位置の文字を抹消。

Ｃ（ｉ、ｓ）：　ｉ番目の文字をＳに変更。

Ｔ（ｉ）：　ｉおよび１＋１にある文字を交換。

ここに説明される変更編集操作は、文字をそれ自体に変更してよい、これは、文字が具なる文字に変更されるべきである従来の変更操作の定義から逸脱している。この新しい方法で変更動作を定義すると、後の論述は非常に簡単化される。しかしながら、本発明において得られる結果のすべては、従来の変更操作を本フォルトモデルに適用した場合にもなお当て嵌ることを示すことができる。

［定義１］　挿入、消去、変更および変換の編集操作は、それが実施され得るならば適正である０文字ストリング上における編集シーケンスＥ［ｌ・ｋｌは、適正な編集操作より成るシーケンスである。各編集操作Ｅ［ｊｌは、１数Ｅ［」］、すなわちＥ［ｊｌが作用している場合のストリング上の位置と関連する。インデックスＥ［１・ｋｌは、編集シーケンスＥ［ｌ・ｋｌと関連する位置インデックスのシーケンスである。

例えば、編集シーケンスＤ　（３）　Ｄ　（４）　Ｉ　（５，ｏ）　Ｃ（Ｌ　ｓ）　ハ、ワードＪｅｏｐａｒｄｉｚｅ」を正しくないスペリング「Ｊｅｐｒｏｄｉｓｅ」に変換し、Ｔ（２）は’ｄｅｕｃｅ」を’ｄｕｅｃｅ）に変換する。前者の編集シーケンスのインデックスシーケンスは、３−４−５−８であるが、インデックスＴ、□、は−２−である。Ｔ（５）は、実行できないから、’　ｄｅｕｃｅ）に関する編集シーケンスではない。

［定義２］　２つのストリングＸおよびＹ開の編集距離は、ＸをＹに変換するための最短の編集シーケンスである。上掲のＷａｇｎｅｒおよびＦｉｓｈｅｒおよび上掲のＬｏｗｒａｎｃｅおよびＷａｇｎｅｒにより、トレースと称される簡潔な表記法が開発され、ストリング編集の問題の論述を容易にした。

［定義３コ　ストリングＸからストリングＹへのトレースＴは、数の対（ｉ、ｊｌ　、ここでｌ≦ｉ≦／−Ｘ、　ｌ≦ｊ≦／−Ｙ、の２セツト、すなわち一致セットエと変更セットＣの合併である。次のように合併される。すなわち、ａ）もしも（１，ｊ）が１にあれば、Ｘ　［ｉｌ　＝　Ｙ　［ｊｌ、ｂ）もしも（ｉ、　ｌがＣにあれば、Ｘ［ｉｌ＋’Ｙ［ｊｌ、Ｃ）もしも（ｉｔ、Ｊ＋）および（ｌｚ、ｊｚ）がＴにあれば、もしもｊ＋”Ｊｚならば１．・１２゜Ｔ内の各対は、文字Ｘと文字Ｙとを接続する線と呼ばれる。Ｔ内の２本の線（ｉｔ、ｊ＋）、（ｉｚ、ｊｚ）は、もしも１１＜１まただしｊ＋＞ｊ２．またはｉｔ＜ｉｔただしｊ２＞ｊ＋ならば、互いに交叉する。もしも（ｉ、　ｊ）がＴ内にあればＸ　［ｉｌおよびＹ［ｊｌは、その線に付随するといわれる。各編集シーケンスはトレースを生じ、そして各トレースが少なくとも１つの編集シーケンスに対応していることを理解することは容易である９例えば、’ｔｅｓｔｉｎｇ」を’ｓｔｒｉｎｇ」に変換する編集シーケンスＤ　（２）　Ｔ　（１）　Ｃ（３，ｒ）は、一致セットＩ−（（１，２）、　（３，ｌ）、　（５，４）、　（６，５）、　（７，６））および変更セットＣ・（（４ｊｌ）でのトレース（（１，２）、　（３，１）、　（５，４）、　（５，５）、　（７，６））に対応する。

上述の文献における論述は、ｍｓ操作のために重み付けされたコストを使用している。ここで、各編集操作への１の割当てに等しい編集シーケンスの長さの問題を考察する。トレースのコストは下記のように定義できる。

［定義４コ　２つの文字ストリングＸおよび７間のトレースＴ＝Ｉ［ｌＣのコストは、（／−Ｘ＋／−Ｙ）−（２Ｘ　（ｎｊ−ｎ−Ｃ）＋Ｔにおける線交叉の数。

［定！ａ５］　ＸからＹへのトレースＴ・ｌｌＩＣは限定されたトレース（Ｒ− トレース）であり、ａ）もしも（！＋、ｊ＋）および（１２，ｊｚ）がＴ内にり、ｉ、＜ｉ、。

ｊｚ＜ｊ＋ならば、（ｉｔ、Ｊ＋）および（ｊｚ、ｊｚ）は両方ともＴ内にある。ｂ）もしも（ｉｔ、ｊ＋］、　（ｉｚ、ｊｚ）およびｌｓ、ｒ３）がＴ内の３本のラインで、ｆｌ＋、Ｊ＋）が（ｊｚ、ｊｚ）および（五、。

ｊｓ）と交叉すれば、ｌｚ”ｌｓ　％モしてｊａ”Ｊｓ、Ｃ）もしも（Ｌ、ｊｌ）および（Ｌ、　Ｊｚ）が交叉するＴのラインであり、Ｌ＜Ｌならば、整数ｉ　（またはｊ）はなく、その結果（１）　Ｌ＜ｉ＜ｉｓおよびＸ［Ｌ］−Ｘ［ｉｌ、まタハ（２）　ｊｌ＜ｊ＜ｊａおよびＹ［ｉｚｌ・Ｙ［ｊｌとなる。

定義５における条件ａ）は、Ｔ内のラインのみが限定トレース内において交叉し得ることを示す０条件ｂ）は、さらに１以上のラインと交叉するラインはないことを示している０条件Ｃ）は、ｉ＋（Ｊｚ）はＸ［１，ｉｉ　（Ｙ［１，ｊ＋］）なイノ際　右端位置にあり、Ｘ［ｉ＋］−Ｙ［ｊ＋］　（Ｙ［ｊａ］”Ｘ［ｉｚｌ　テあることを示している。拘束（限定）トレースにおける交叉は、一連の交換、挿入および抹消操作の湊合と考久−ることができる。

［定Ｉｆ　６］　Ｅ［ｌ：ｎｌは、もしもそれが編集シーケンスであり、１ｎｄｅｘｔが非減少であれば、文字ストリング上における線形編集シーケンスであり、そしてａ）もしも１ｎｄｅｘｚ＋＋１−ｉｎｄｅｘｔ＋＋−ｎならば、Ｅ　［ｉｉは抹消操作であり、ｂ）もしもＥ　［ｉｌが変換操作ならば、１ｎｄｅｘｔｕ＊ｎ＞１ｎｄｅｘｉ【五＋＋ｌである・定義６は、ストリング上で左から右に操作するために線形編集シーケンスを必要とし、各挿入および変更操作は１つの文字を固定し、各交換操作は２つの連続的文字を固定する。

例えば、’ｔａｓｔｉｎｇ」を’ｓｔｒｉｎｇ」に変換するシーケンスＤ　（２）Ｔ　（＋）　Ｃ（３，ｒ）は、編集シーケンスであるが、線形編集シーケンスではない、何故ならば、インデックスシーケンス２−１−３は非減少でないからである。この変換は、非減少インデックスシーケンス１−１−３をもつ線形編集シーケンスＤ　ｆｌ）　、　Ｄ　（１）　、　Ｉ　（３，ｒ）により遂行できる。

線形編集シーケンスにおいて、後の編集操作は、前の操作の結果を消去しない０例えば、挿入された文字は、後の消去動作で消去されない、かくして、ワードを綴る際にエラーを生ずるシーケンスとして１からＹまでの線形編集シーケンスを考慮し、スペリングプロセス中に起こったエラーの数として編集シーケンスの長さを考慮することができる。もちろん、ストリングＹから他のストリングＹに至るエラー距離を下記のように定義することもできる。

［定義７コ　文字ストリングＸから文字ストリームＹに至るエラーの距離、すなわちスペリングエラーの数は、ＸをＹに変換する線形編集シーケンスの最小長さであるＲ−トレース（定義５）と並列に、各線形編集シーケンスと対応して線形トレース（Ｌトレース）が定義された。

［定義８］　ＸからＹへのトレースＴ・ＩＯＣが、下記が真ならば線形トレース（Ｌ−トレース）である、すなわちもしも（ｉ＋、ｊｌ）および（ＪＩ　Ｊｚ）がＴ内にあり、！＋＜＋２゜＋２〈ｊＩならば、両（ｊｌ、ｊｌ）はＴ内にあり、ｉ、・ｉ、−１，Ｊｚ・定義８に従えば、（（３，１）、　（４，２）、　（５，４１，（６，５）、　（７，６）　）は、’ｔｅｓｔｉｎｇ」から’ｓｔｒｉｎｇ」へのＬトレースであり、（（１，１）、　（４，４）、　（５，５））および（（＋、　＋１．　（４，４）、　（５，５））（［２，３）、（３，２））は両者とも’ｄｅｕｃＨから’ｄｕｅｃｅ」へのＬ−ル−スである。

［Ｌ−トレースフォルトモデルの性質］この節は、Ｌトレースフォルトモデルのある種の基本的性質を誘導する。前述の定義から下記が成り立つ、すなわち、［定理１］　２つのストリングＸおよび７間のＴトレースの最小のコストは、Ｘおよび７間のエラー距離に等しい。これは、ＸからＹまでのスペリングエラーの数である。　１例として、線形編集シーケンスの長さと対応するし一トレース間の関係を示す、第５図において、Ｌトレースの線形編集シーケンス次のごとくである。すなわち、Ｃ［１申）［１＋４）Ｄ　（４）Ｉ　（４，＊）Ｔ　（５，ネ）　Ｓ　（６）　Ｄ　（８）　Ｄ　（８）　Ｉ　（８，傘）ここで、傘はある文字を表す、シーケンスの長さ、９−／−Ｘ＋／−Ｙ−２Ｘ　ｎ−１−ｎ−Ｃ＋　トレース内のラインの交叉数＝　９＋８−２ｘ４−１＋１ｌＬＬトレースのコストである。

定理１により、Ｘおよび７間のエラー距離を見つけるために、Ｘおよび７間の最小のコストのＬ−トレースしか必要としない。

Ｈは、２つの文字ストリングＸおよび７間のエラー距離マトリクスを表すもとする。すなわち、Ｈ［；、ｊｌは、Ｘ［１、ｉｉおよびＹ［ｌ：ｊｌ間のエラー距離である。下記の理論によりエラー距離マトリクスＨが計算される。

［定理２コ　２つのストリングＸ　［１：ｍ］およびＹ［ｌ：ｎｌが与えられる。限界□ｍａｘ（ｍ、ｎ）とする、　Ｈ［−１＋ｍ、−１：ｎｌの限界値を次のように定義する。　Ｈ［ｉ、−１］−１≦ｉ≦ｍに対する限界値、）１［−１，ｊｌ＝−１≦ｊ≦に対する限界値、）ｌ［ｉ、ｏ］−Ｑ≦ｉ≦に対する１、そしてＨ［０，ｊ］Ｊ≦ｊ≦ｎに対するｊのごとく定義、Ｘおよび７間の距離マトリクスＨ［１−ｍ、　ｉ・ｎｌのエントリＨ［ｉ、ｊｌは、下記のように反復的に計算され得る。

Ｈ［ｉ＋１．　ｊｌ１］・Ｈ［ｉ、　ｊｌ、もしもＸ［ｉ◆１１・Ｙ［ｊｌ　式ＩＨ［ｉ＋ｌ、　ｊ＋ｌトｍ１ｎ（Ｈ［ｉ、　ｊｌ、　Ｈ［ｉ＋１．　ｊｌ、　Ｈ（ｉ、　ｊｌ１］、　Ｈ［ｉ−１，ｊ−１］）＋１もしもＸ［１ｌ＝Ｙ［ｉ＋１］おヨヒＸ［＋＋１］冨Ｙ［ｉｌ　ナラｉｆ、Ｈ［ｉ＋１．　ｊ＋ｌ］＊ｍ１ｎ（Ｈ［ｉ、　ｊｌ、　Ｈ［ｉ＋１．　ｊｌ、　Ｈ（ｉ、　ｊｌ１］）＋１、全ケースにおいて。

値Ｈ［ｉ＋ｌ、　ｊ＋ｌ］を得るために式１には５つの代替的ケースがある。各々、括弧内の文字により指示される、５つの編集操作の１つに対応する。

ａ）無変化、すなわちＸ［ｉ＋１］＝Ｙ［ｊｌ１］；　（Ｈ［ｉ、ｊｌ）ｂ　）　Ｘ［ｉ＋１１をＹ［ｊ＋ｌ］ニ変更；　０１　［ｉ＋１．　ｊｌ＋１）Ｃ）　Ｙ［ｊ＋ｌｌを挿入；　（Ｈ［ｉ＋１．　ｊｌ　；１１ｄ　）　Ｘ［ｉ＋ｌ］を抹消　（ｌ（［ｉ、ｊ÷１１◆１）ｅ）交換　（Ｈ［ｉ−１，ｊ−１］◆］）［定理３］　式１により定義されるマトリクスＨ［Ｏ・ｍ、Ｏｎｌは、下記の式を満足する。

ａ　）　Ｈ［ｉ、　ｊｌ−１≦Ｈ［ｉ＋１．ｊ］≦Ｈ［ｉ、ｊｌ＋１゜全０≦ｉ＜ｍ、　Ｏ≦ｊ≦ｎに対してｂ　）　Ｈ［ｉ、ｊｌ−１≦Ｈ［ｉ、　ｊ＋ｌ］≦Ｈ［ｉ、ｊｌ◆ｌ。

全０≦ｉ＜ｍ、　Ｏ≦ｊ≦ｎに対してａ　）　Ｈ［ｉ、ｊ］≦Ｈ［ｉ＋ｌ、　ｊ＋１］≦）ｌ［ｉ、ｊｌ＋１゜全０≦ ｉ＜ｍ、　０≦」≦ｎに対して［推論ｌ］　かくして、定理２での式１は次のように簡単化される。

Ｈ［ｉ＋１．ｊ＋１１・Ｈ−Ｈ，ｊｌ、もしもＸ［ｉ◆１］−Ｙ［ｊ÷１１　ならば６式２％式％］）［１、ｊｌ、　Ｈ（ｉ、　ｊ＋ｌｌ）”］、全全一−において。

〔定義９　］　Ｘ、＜Ｘ、およびｙｌ＜ｙ２とする。もしも、ｉ。

」１・ｙ＋、　ｌｙ・ｙｚ、　ｊ、・ｙ２そして０≦（ｉ、。ビｉ、）≦１および０≦（」、ビＪ、）≦１であるが、（１１，ビ１．）または（Ｊ５゜＋　−ｊ −）のいずれかがｌ≦ｓｉｒに対して○より大きければ、シメンジョン［０：ｍ、　ｏ：ｎｌのマトリクス上におけるシーケンス（ｉ＋、Ｊ＋）−（ｉｚ、ｊａ）−（ｊｒ、ｊｒ）は、（ｘ＋、ｙ＋）から（Ｘｚ、Ｖｘ）に至る派生経路である。

［定理４］　Ｈ［Ｏ：ｍ、　Ｏｗｎ］を、定理２により定義されるＸ［ｌ：ｍ］およびＹ［１：ｎ１間のエラー距離マトリクスとする。

ｍ≧ｎであると仮定し、ｄｍ−ｎとする。そのとき、派生経路は（１，１）−（２，１１−、、、−（ｄ＋１．１）−（ｄ＋２．２）−、、、−（ｍ−ｎ）は、Ｈに関して非減少であるにれは単一の派生経路であり、カットオフ規準を提供することが分かる。

［推論２］　ｄを２つの文字ストリング間のエラー距離であるとする。そのとき、ｄ≦ｍａｘ（／−Ｘ、　／ｃ２Ｙ１．これは、２つのストリング間のエラー距離の単純な上部限界である。

［推論３］　ｄを２つの文字ストリングＸおよびＹ間のエラー距離であるとする。そのとき、／−Ｘ−ｄ≦／−Ｙ≦／−Ｘ＋ｄ推論２は、２つのストリング間のエラー距離に関する単純な上部限界を与久る。推論３は、従来技術において、文字ストリングのもっとも近い近傍のものの探索における計算を節約するのに普通使用されるストリング長区分規準である。

アルゴリズムをさらに進める前に、辞書のある性質について考察する。

１）辞書内のワード長は、第６図に示されるように一般に小さい、それゆλ、複雑なアルゴリズムに変人で簡単なアルゴリズムが距離計算において使用されるべきである。技巧を凝らした距離計算アルゴリズムは、一般に、大きな時間定数を有し、長いストリングに対してのみ良好である。

２）本発明者らが研究した３つの辞書におけるワード長の分布の形状は、ベル型である。すなわち、中間のワード長を有するワードに比べ短いまたは長いワード長を有する単語：＝ずつと少ない、これは、短または長ワード長を有するワードは、ＡＳＭ　（近似ストリングマツチング）の平均性能に非常に影響を及ぼすことなく、あるいは最悪のケースの性能に影響を及ぼすことなく別個に処理できる。長いワードは、上述のように巨大な近傍物を有するから、これを別個に処理することは特に有用である。

３）辞書内のワードはランダムでないが、第７ａ、７ｂおよび７ｃは、それらが密生もしないことを示している、この現象は、使用下にあるアルファベット長さが辞書内の平均ワードの長さよりも一般にずっと大きいという事実に一部起因しよう１図７ａ、７ｂおよび７Ｃから、近い近傍にあるワードは非常に少なく、はとんどすべてのワードは、各ワードの遠い距離にあるという意味において、ワードは実際に非群生化されていることが分かる、これにより、もっとも近い近傍物の探索をなすのに効率的な索引付は機構を設計することができる７文字ストリング２および辞書が与えられると、辞書内における２と各ワード間の距離を計算することによって、２のもっとも近い近傍物を見つけることができ、最小の距離をもつワードを記録することができる。下記の論述においては、辞書のワードがその長さにしたがって区分されていると仮定する。推論２に論述される単純上部限界は、　２ｘ　ｍａｘｉｍｕｍ（／−ｊ、辞書におけるワードの最小長）、普通こねは２Ｘ／ｊに等しい、より長い長さを有するワードを考慮する必要がないことを示している。かくして、推論２により定義されるこの上部限界は、比較されるべきワードの数を減するのに直ちに使用できる。

この数は、推論３において論述したストリング長区分によりさらに低減できる。

なぜならば、数ｄ、現在見つけられている最小距離、を動的に記録することによって、／ｊ−ｄよつ小さいまたは／−Ｚ＋ｄより大きいワードを比較することは不必要であるからである、この性質を使用するための最良の戟略は、近傍物が見つかるまで、それらのワード長および／ｊ間の距離が０．１等に等しいワード群を探索することである。

もっとも近い近傍物の探索をもっとも効率的になす上述の理論４に従う他の単純なルールは、距離計算のためのカットオフ規准である。この規準は、計算中、距離が予め特定された量より大きいかどうかを告知できるからである。この性質は、辞書内の所与のストリングとその近傍物量のエラー距離が小さいとき（これは普通そうである）、辞書内の所与のストリングとワード間のエラー距離マトリクスのエントリのほとんどの計算を避けることができるから有用である。

［効率的なＡＳＭアルゴリズムを構成するための４段階低減手続き］カットオフ規準を使用するために、エラー距離マトリクス上のエントリが、図８に示されるように特定の順で計算されねばならぬ、ここで、／−Ｘ≧／−Ｙであると仮定する。定理の派生経路（カットオフ経路）に沿ってエントリを屡ごとに調べる。ある屡の計算の終了時に、カットオフ経路上のＨ値が得られ、現在の近傍のエラー距離ｒと比較される。もしもＨ値がｒより小さければ、他の屡を計算する６層が最後のものであり、もっとも近い近傍のものが見出されれば、ワードを記録し、現在距離ｒに等しい距離を有する全ワードを見つけ続ける。Ｈ値がかっとオフ経路上のｒより大きければ、現在ワードの計算を中止し、次のワードに行く、距離ｒ内にワードが見いだせなければ、ｒをｒ÷１に緩め、探索を継続する。つねに、辞書のワードの最大長の距離内に最も近い近傍物を見つけることができ、そして、普通、もっとも近い近傍物は、このような大きな距離に達する前に見いだされるということを注意されたい。

推論２の上部限界、推論３のストリング長区分規準および定理４のカットオフ規準を使用する３つの手法は、基本的な徹底比較の手法からの３つの改良を表わすものである。各ステップは、以下のアルゴリズム０，１．２、および３に示されるように、当然に次の段階に合体できる。これらのアルゴリズムは、徹底比較法、上部限界、ストリング長規準、およびカットオフ規準をそれぞれ実施する。すべてのアルゴリズムにおいて、発明者等は、辞書内のワードをその長さに従って群分けする。記述において、ｍａＸ−ＤＩＣＴを辞書内における最大ワード長とし、　ｍ１ｎ−ＤＩＣＴを最小ワード長とし、ｎ−ｗｏｒｄ−ＤＩにＴ［ｉｌを長さ１のワードの数とする。エラー距離（Ｘ、Ｚ）は、式２を使用することによりＸおよび２間のエラー距離を計算するサブルーチンである。

［アルゴリズム０（徹底的比較法）コ０、ストリング２賦与。

１　、　ｍｉｎｉｍｕｍ−ｆｏｕｎｄ　寡９９９９とする／傘最小距離を大きな数に設定＊／Ｓ−φを設定２　、（Ｘ　ｉｎ　Ｄｉｃｔｉｏｎａｒｙ）に対して、ｄｉｓｔｍｅｒｒｏｒ− ｄｉｓｔａｎｃｅ　（Ｘ、Ｚｌ；ｉｆ　（ｄｉｓｔ≦ｍｉｎｉｍｕｍ−ｆｏｕｎｄ）ｉｆ　（ｄｉｓｔ　＜　ｍｉｎｉｍｕｍ−ｆｏｕｎｄ）ｍｉｎｉｍｕｍｊｏｕｎｄ　＊　ｄｉｓｔ；Ｓを（Ｘ）にリセット他に５＝ＳＩＩ（Ｘｌ：３　終了、　／ＩＳは、見出されたもつとも近い近傍物のセ・ソトである零／［アルゴリズム１　（距離の上部限界により低減・推論２）］０　ストリング２賦与。

１　、　ｍｉｎｉｍｕｍ−ｆｏｕｎｄ　！　９９９９とする／＊最小距離を大きな数に設定＊／Ｓ＝φを設定ｕｐｐｅｒ−ｂｏｕｎｄ＝　２Ｘ　ｍａｘｉｍｕｍ（ｍｉｎＤＩｃＴ、／−Ｚ）２　、（Ｘ　ｉｎ　Ｄｉｃｔｉｏｎａｒｙ　ａｎｄ　／−Ｘ≦ｕｐｐｅｒ−ｂｏｕｎｄｌに対してｄｉｓｔ−ｅｒｒｏｒ−ｄｉｓｔａｎｃｅ　（Ｘ、Ｚ）；ｉｆ　（ｄｊｓｔ≦ｍｉｎｉｍｕｍ−ｆｏｕｎｄ）ｉｆ　（ｄｉｓｔ　＜　ｍｉｎｉｍｕｍｊｏｕｎｄｌｍｉｎｉｍｕｆｆｌ−ｆｏｕｎｄ　ｓ　ｄｉｓｔ；Ｓを（Ｘ）にリセット他に５＝ＳＬＩ（Ｘ）；３　終了、ハＳは、見出されたもつとも近い近傍物のセセットである＊／［アルゴリズム２（距離の現在の上部限界により低減。

推論３）コＯストリング２賦与１　、　Ｓ＋ｔｐ　、ｒａｄｉｕｓ＊−１を設定；２、（Ｓ・φ）の間ステップ３および４をなす。

３、ｒａｄｉｕｓ＊ｒａｄｉｕｓ＋ｌ；４、（１１−／ｊｌ≦ｒａｄｉｕｓｌ　に対して／＊ｌはループ制御変数＄／（Ｘ　ｉｎ　ＤＴＣＴＩＯＮＡＲＹ　ａｎｄ　／−Ｘ−１）に対してｄｉｓｔｍｅｒｒｏｒ−ｄｉｓｔａｎｃｅ　（Ｘ、Ｚ）；ｉｆ　（ｄｉｓｔ　＊ｒａｄｉｕｓ）Ｓ　＝　ＳＵ　（Ｘ）：５　終了、ハＳは見出されたもっとも近い近傍物のセットである＊／アルゴリズム３はアルゴリズム２を変更する。これは、サブルーチンｅｒｒｏｒ −ｄｉｓｔ　（Ｘ、Ｙ、ｒ）を呼び、これにより、もしも距離がｒより大きいものがなければ、２つの文字ストリングＸおよびＹ間のエラー距離を見出す、もしも計算中距離がｒより大きいことが分かると、ｅｒｒｏｒｊｉｓｔは中止され、 −ｔに戻り（ここでｔは計算された層の数である）、定理４のカットオフ規準を適用する。

［アルゴリズム３（カットオフ規準により低減、定理４）］Ｏストリング２賦与１　、Ｓ　：６．　ｒａｄｉｕｓ＊−１を設定：２　（Ｓ・φ）の間ステップ３および４をなす。

３、ｒａｄｉｕｓ＝ｒａｄｉｕｓ＋１；４、（１１−／ｊｌ≦ｒａｄｉｕｓ）に対して７本１はループ制御変数本／（Ｘ　ｉｎ　ＤＩＣＴＩＯＮＡＲＹ　ａｎｄ　／−Ｘ＝ｌｌ）に対してｄｉｓｔ＝ｅｒｒｏｒ−ｄｉｓｔａｎｃｅ　（Ｘ、Ｚ、　ｒａｄｉｕｓ）：ｉｆ　（ｄｉｓｔ　ｘ　ｒａｄｉｕｓ）ｓ　−ｓｕ　（ｘ）。

５　終了、　／ＩＳは見出されたもっとも近い近傍物のセットであるネ／［定１ｉ１１０　］　Ｖ、１．（Ｚ）を、２のもっとも近い近傍物の探索においてアルゴリズムａ１ｇにより調べられたエラー距離マトリクス（Ｈ［ｉ、ｊｌ）のセットであると定義する。また、Ｅａｌｇ（Ｚ）を２のもっとも近い近傍物の探索においてアルゴリズムａ１ｇにより計算されるエラー距離マトリクス（）ｌ［ｉ、ｊｌ）エントリの総回数であると定義する。

次の式が成立する。

ここで、ｖ（ｗ、）は、辞書内の所与のストリングＺおよびフードＷ、を比較するときアルゴリズムａ１ｇにより調べられたＨ［ｉ、ｊｌエントリのセットである。

また、次の式が成立する。

Ｅ、Ｉｊ（ｚ）　”　Ｕ　ｅ　（ｗ、）ここで、ト工ないしρ、モしてｅ（ｗ、）は、辞書内のワードＷ１に対してアルゴリズム　ａｌｇにより計算されるＨ　［ｉ、　ｊｌｌシントリ回数である。アルゴリズムａ１ｇの計算時間は、概略的にＥ、１．に比例することは明らかである。以下に論述される試験の実験において、Ｅａｌｌは、ここに記述されるアルゴリズムの効率の測定基準として使用される。

また、上述のアルゴリズム１．２および３は、各々、その先行のものにより調べられるＨ　［ｉ、　ｊ］エントリの数を逐次低減していることを示すことも容易である。Ｈ［ｉ、　ｊｌエントリのこの数は、アルゴリズムが加速され得るようにさらに低減し得る。

Ｅ　ａｌｊ６ｒ　１ｔｈ１１−２”Ｖ１１１１６ｒｉｔｆｉｌｌ−２＋を観察することもできる。しかしながら、アルボｌ）ズム３は、辞書内のワードの計算を中止する度に中間計算結果を記憶しないから、距離マトリクス上のエントリー値は、数置計算されよう。

それゆえ、Ｅ　ａ＋ｇｏｒ＋ｔｈｍ−ｓは、Ｖ　ｓ＋ｘａｒ＋ｔｈｍ−ｓより大きくなろう。しかしながら、所与のワード２が辞書内のあるワードの近傍の距離にあると、Ｅ　ａｌｉａｒｌｔｈｓ−３はＶ　ａ＋ｇａｒ＋ｔｈｍそれゆ久、アルゴリズムの効率は、うまく改善された。

そこで、アルゴリズムはさらに加速することができるかを質問する。答はイエスである。

筆者等は、小距離の近傍において探索しているとき、大きな距離にあるワードを比較する機構を提供することができると解釈した。詳述すると、近傍Ｎ　（Ｚ、　ｒ）を画定するワードＺおよび小距ｆｉｒを付与して、下式で、Ｒ（Ｚ、　ｒ）、すなわち辞書の小サブ領域を計算する機構を見つけた。すなわち、（＼ＩＸｔ　ＤＩＣＴＩＯＮＡＲＹＩ／−ｘ−−ｚｌ≦ｒ）−Ｎ（Ｚ、ｒ）　ｎＤＩＣＴＩＯＮＡＲＹＺから距離ｒ内にある辞書内のワードを見つけるために、２をＲ（Ｚ、　ｒ）内にあるワードとのみ比較することが必要であることは明らかである。下記のテキストにおいて、アルゴリズム４に到達するために、アルゴリズム３を変更する。Ｒ（Ｚ、　ｒ）を計算する機構の設計については後で説明する。

［アルゴリズム４（定理４のカットオフ基準および探索領域を制限することにより低減）コ ○、ストリング２賦与１、Ｓ−φ、　ｒａｄｉｕｓ＊−１を設定：２　（Ｓ−φ）の間ステップ３および（４）をなす、　（３「δｄ　ｒｕｓｍｒａｄ　ｊｕｇ◆ｌ；４　、（Ｘ　ｉｎ　Ｒ（Ｚ、　ｒａｄｉｕｓ）に対してｄｉｓｔ！ｅｒｒｏｒ−ｄｉｓｔａｎｃｅ　（Ｘ、Ｚ、　ｒａｄｉｕｓｌ；ｉｆ　（ｄｉｓｔ　ｓ　ｒａｄｉｕｓ）Ｓ　 −ＳＯ（Ｘ）：５、終了、／＊Ｓは見出されたもっとも近い近傍物のセット＊／。

そこで、この節を下記のステーとメントにより結論する［定理５］　任意のストリングＺに対して、下記の関係が存在する。すなわち、〔ダミーＸを有するストリング、偏差ベクトルおよび近傍被覆〕Ｒ（２，ｒｌを構成するために開発した機構は、図９のマツピング図により記述することができる。ストリング領域Ｕに任意の２を、そして小さな整数ｒを与え、近傍をＮ（Ｚ、ｒ）＝ＩＩＮ＋とする、ここで、Ｎ１゛は必ずしも素のストリングセットではないとする。各Ｎ１に対応して、Ｕから有限（整数）範囲Ｈ１にマツプされるマツピング関数り、を有すると仮定する。このマツピングの目的のために設計された関数は、ｈｌ（ハツシュ）関数と称される。

下記のステーメントが明らかに成立する。すなわち、もしもストリングＸが任意のり、（Ｎ、）の反転像になければ、ＸはＮ　（１，ｒ）でない、それゆλ、距離ｒのもっとも近い近傍物が存在するかどうかを見いだすために、２をり。

（Ｎ、）の反転像にある辞書内のワードと比較しさえすればよい、上述の観察は、下記の定理により正式に記述することができる。

［定理６］　ＤＩＣＴをストリング領域Ｕから抽出された一組のワードとし、ｈｉをＵから整数領域Ｈ＋、　ｌ≦ｉ≦Ｓにマツプする。所与のストリング２および整数に対して、もり、　モＮ（Ｚ、ｒｌ”ｌＪＮ＋なう＋ｆ、Ｎ（Ｚ、　ｒ）　Ｃｈト’　（ｈｌ　（Ｎ１Ｊｌ、そしてＤＩＣＴ内のワードＸは、ＸがＲ（Ｚ、ｒ）言ＤＩＣＴ　ｎ（Ｏｈ、−’（ｈｌ（Ｎ、）））にあるときのみ、すなわち等価的にＲ（Ｚ、ｒ）”　ｎ　（ＤＩＣＴ　Ｕ　ｂ＋−Ｍｈｌ（Ｎｌ）））　（２）にあるときのみ、Ｎ　（Ｚ、　ｒ）にある。

そのとき、下記の表現が成り立つ。

［推論４〕　上述のようにＲ（Ｚ、ｒ）＝　ｎ　（ＤＩＣＴ　Ｕ　ｈ、−’（ｈｌ（Ｎｌ）））とする。ｚに対するエラー距離がｒに等しくてＲ（Ｚ、　ｒ）内にＸが存在するように、ｒが最小整数ならば、Ｘは２のもっとも近い近傍物である。

これから、アルゴリズム４は上記のステーメント（２）および（３）を実施することが明らかである。

問題の下記の２つの側面が論述されるべきである。

ｍ　ｈ、関数が構成されたと仮定して、所与のストリング２および所与のエラー距離から如何にしてＲ（Ｚ、　ｒｌを生成するか。

（２）辞書が与えられて、Ｒ（Ｚ、　ｒ）を生成するのに使用できる一組のり、関数を如何に構成するかを考察する。これらの関数は、すべての可能な２ストリングに対して小さい一組のｈ１関数のみが提供されるように十分に一般的でなければならない、ｈｌおよびその反転とも、時間およびメモリスペースに関して効率的に実施できなければならな直感的に、最適長の２および小さいｒに対してさへ、近ｆｆ１Ｎ（Ｚ、ｒ）は巨大であるが、特定のストリングの近い近傍にあるすべてのストリングは相互に類似であるはずであるから、上述の２つの問題に対する十分の解決がなお存在しよう、以下の節においては、このＲ（Ｚ、　ｒ１機構、ならびにそれがいかに働くかについて説明する。まず、Ｎ（Ｚ、　ｒ）にあるストリングの表示法から始める。

表記Ｎ（Ｚ、ｒ）それ自体は、エラー距離ｒをもっＺの近傍の単純な表示であるが、余りに抽象的過ぎてここでは有用でない０文字を選ぶための多数の可能性をもたらす２つの操作、すなわち、挿入および変更により、Ｎ　（２，ｒ）の巨大化が実際に引き起こされるということを観察したことによって、近傍表示が、下記の定義により定義されるように、ダミー符号Ｘを有するストリングの導入によって単純化される得ることを見出した。

［定義１１］　符号Ｘそれ自体はΣ内にないと仮定する、（ダミー）符号Ｘをもつストリングは（Σ　Ｕ　Ｘｌないの任意のストリングである。ダミー符号Ｘを有するストリングを、ストリング内のＸをΣ内の任意の文字で置き代えることにより発生される一組のストリングであると考えることができる。ダミーＸを有するストリングが近傍を表す際にどのように働くかを見るために、図１０に示されるように、ストリング’ｔｅｓｔ」の半径内にあるすべてのストリングに対する誘導ツリーを構成する。誘導ツリーは、’ｔｅｓｔＪに関するすべての可能なシーケンスの列挙であり、編集操作は、ストリングの左から右へと遂行される０図面において、各ノードは、５つの出口ブランチを有し得る、すなわち５つの編集操作、挿入、抹消、変更、交換および確認に対応する５つの出口ブランチェ、Ｄ、Ｃ，Ｔ、ｉを有し得ることに注目されたい、ｉ出口ブランチは、根からノードに至るエラーの数が１を越えるときのみ存在する。ｔＲ線は、編集操作が適用できないことを支持するのに使用される。下記のように書くことができる。

Ｎ（ｔｅｓｔ−，ＩｌｇＸｔｅｓｔ　Ｕ　ｅｓｔ　Ｕ　Ｘｅ５ｔ　Ｕ　ｅｓｔｓ　Ｕ　ｔＸｅｓｔｌｌ　ｔｓｔ　Ｕ　ｔＸｓｔ　Ｕｔｓｅｔ　Ｕ　ｔｅＸｓｔ　Ｕ　ｔｅｔ　ＩＩ　ｔａＸｔ　Ｕ　ｔｅｔｓＬｌ　ｔｅｓＸｔ　ＩＩ　ｔｅｓ　ｔｌ　ｔｅｓＸ　Ｕ　ｔｅｓｔＸ。

１より大きいｒに対するＮ　（Ｚ、　ｒｌに対する誘導ツリーは、ツリーの根から任意の端末ノードに至るエラーの数を正確にＰに等しくすることによって同様に構成される。

変更編集操作は、ｒより小さいエラー距離を持つ如何なるストリングをも列挙内に包含させないことに留意されたい、かくして、如何なるＮ　（Ｚ、　ｒ）も、誘導ツリー上の端末ノートにより表すことができる。誘導ツリー上におけるこれらのノードの数は、近傍のサイズＮ　（Ｚ、　ｒ）よりずストリングが長く、ｒが１より大きい場合、誘導ツリー上における端末ノードの数はなお非常に大きいかもしれない、誘導ツリーの端末ノード上のダミーＸを有するストリングが、なお非常に「類似Ｊしており、定理６において必要とされるＮ１に関する拘束が、Ｎ　（Ｚ、　ｒ）　ｃＯＮ、ということのみであるということを認めることによって、性能を改善し得る。進行するために下記の定理を必要とする。

［定義１２］　Σからの２１に関して、トＺ１．Ｚ２．。

ｚ／−ｚとする。ベクトル”［Ｖｌ＋■ｌ−、、、ｖ／−ｖ］　は、ある１≦１ ≦／ＩＺに対して、もしもＶ　Ｊ　ＲｌまたはＸであればダミーＸ（Ｚの）をもつ偏差ベクトルであるといわれる。

■Ｊ１１ｘであれば、ＳＪ　”　ＶｊまたはＸで、対応するストリングＳ”３１．Ｓｚ、、、、、Ｓｚ−ｖは、■から誘導されたダミーＸ（Ｚの）をもつストリングであるといわれる。

例として、５ｘＸｅｓｔは、偏差ベクトル［Ｘ、　２．　、３．４］で、２＝ｔｅｓｔから誘導できる。Ｓは他の偏差ベクトル［Ｘ、　２．３．１１からも誘導できることを認められたい。

Ｅ足ｍｌ　３］　ダミーＸを有する一組の偏差ベク）・ル（Ｖ、）は、もしもＮ内の各ストリングがｖＩから誘導されるダミーＸをもつストリングの少なくとも１つのストリングのメンバであれば、−組のストリングＮの被覆系である。また、（ｖｉ）がＮの被覆系であれば、Ｎを被覆するとも言う。

近傍誘導ツリーの端末ノード上におけるダミーＸを有する各ストリングは、近傍における一組のストリングを表す、ダミーＸを有する数個のかかるストリングは、偏差ベクトルから誘導されるダミーＸをもつ（より多きな）ストリングによりカバーすることができる０例久ば、［Ｘ、　Ｘ、　３．４］Ｘから誘導されるＸＸ５ｔは、Ｎ　（”ｔｅｓｔ−１）のＸｅ５ｔ。

ｅｔｅｔおよびｔＸｓｔを被覆する。それφえ、ストリング２の偏差ベクトルは、２に近傍におけるストリングの超被覆と考λることができる。どのような近傍も、−組の偏差ベクトルまたは超被覆により被覆できる０例えば、Ｎ（“ｔｅｓｔ−、Ｉ）は、下記の一組の偏差ベクトルにより被覆できる。

＋［＋、２．Ｘ１．　［＋、３．Ｘ１．　［２，３，Ｘｌ、［＋、２．Ｘ、Ｘ］、［１，３，Ｘ、ＸＩ。

［２，１，Ｘ、Ｘｌ、［ｌ、Ｘ、３．Ｘｌ、［Ｘ、２．３．Ｘｌ、［１，Ｘ、Ｘ、Ｘ、４］。

（Ｘ、１．２．Ｘ、Ｘ、］、ＩＩ　Ｘ、２．３．Ｘ、Ｘｌ）、これはダミーをもつ下記の一組のストリングを誘導する。すなわち、Ｘ　：　（ｅｓＸ、ｔｓＸ、　ｔｅＸ、　ｔｅｘｘ、　ｔｓＸＸ、　ｅｔＸＸ、　ｔＸｓＸ、　Ｘｅ５Ｘ、　ＸｔｅＸＸ。

ｔＸＸＸｔ、　Ｘｅ５ＸＸ）偏差ベクトルは、ストリング２から文字を抽出すべき位置、したがって（暗黙的に）これらの文字を入れるベクトル内の位置のみをを特定するというよい特徴を有する。換言すると、−組の偏差ベクトルが近傍Ｎ　（Ｚ、　ｒ）の被覆系であれば、それは、／ｊ’が／−Ｚに等しい限り、他の如何なるＮ（Ｚ’、ｒ）をも被覆する。これにより、偏差ベクトルに基づいてＲ（Ｚ、　ｒ）を構成することができる。

Ｎ　（Ｚ、　ｒ）を−組の偏差ベクトル（Ｖ、）によりカバーされるものとし、各ｖｌはＳいすなわちダミーＸをもつストＩノングを誘導するものとする。しかるとき、Ｎ（Ｚ、ｒ）　ＣＬｌ（Ｓ、）、＋ｈゆ、ｔ、（Ｓ＋）ハ、定理６ないの条件をＮ　（Ｚ−ｒ）　ＣＩＩＮ　ｌに緩和した場合、定理６における被覆（Ｎ１）と同様に十分いまや、本発明者等が提案するＲ　（Ｚ、　ｒ）体系について記述し得る。これは２つの構造、すなわち、近傍をカバーするための複数組の偏差ベクトルと、マツピングおよび逆マツピングを計算するための一組のｈ＋関数より成る。

偏差ベクトルに対して次のｈ１関数を選ぶ、偏差ベクトルなＶ”　ＩＶＩ　、　Ｖｚ、　、　１．　、　Ｖｙ−ｖ）であるとし、ストリングをＳ＝［ｓｌ、Ｎ２．、、、、Ｓｚ−Ｖ］であるとし、そして左から右にＣｉ、、、、、Ｃ４が、■ における非−Ｘ　ｖ、に対応するＳの文字コードであるとすると、ｔｌ＋＋ｍ＋　−ｃ＋（ｍｏｄ　ｌΣｌ）＋ｃｔ　（ｍａｄ　１　Σ１）×１Σ１＋、、、＋にｊ（ａ＋ｏｄｌΣ１）×１ΣＮ−１となる。このり、関数は、辞書内の長さ／ −Ｖの一組のワードを　１ΣＩＪのブロックに区分する。しかしてこれらのブロックのあるものはおそらく空である。　ｈ＋関数のこの選択で、辞書上のｈｌに対して逆ファイルが構成されていれば、ｈ＋（ｓ）およびＤＴＣＴ口ｈｉ−’　（ｈ＋　（Ｓ））の両者を計算することは容易である。

ｈｌは、ダミーＸを有するすストリングのすべてのストリングを単一の値にマツプする。下記の例は、所与のストリング２および小距離ｒに対して如何にＲ（Ｚ、　ｒ）を計算するかを例示するものである。この計算手続きは、先に提示された問題２を解くことができる。

Ｒ（Ｚ、　ｒ）の計算に対する例を記述する。

関係のある辞書はＤＩＣＴ＝（ｔｅｓｔ、　ｔｈｅ、　ｂｅｓｔ、　ｍｅｓｓ、　ｅｘａｍｐｌｅ）であるとし、そして我々は辞書にないストリング「ｒｅｓＪのもっとも近い近傍物を見つけたいと仮定する。

まず、０の距離をもつ近傍を試験する。Ｎ（“ｒｅｓｔ”、０）・じｒｅｓｔ” ）および”ｒｅｓｔ−は辞書にない、そこで、次の最小の近傍Ｎ　（”ｒｅｓｔ −、ｌ）を試験する。　Ｎ　（−ｔｅｓｔ−、ｌ）を覆うのに使用された偏差ベクトルの同じ一組が、Ｎじｒｅｓｔ”、　りを覆うのに使用できる。これは、（［＋、２．Ｘ］、　［＋、３．Ｘ］、　［２，３゜Ｘ］、［１，２，Ｘ、Ｘ］、［１，３，Ｘ、Ｘ］、［２，１，Ｘ、Ｘ］、［１，Ｘ、３．Ｘ］。

［Ｘ、２．３．Ｘ］、［１，Ｘ、Ｘ、Ｘ、４］、［Ｘ、１．２．Ｘ、Ｘ、］、［Ｘ、２．３．Ｘ、Ｘ、］）であり、これが、ダミーＸを有するストリングの下記の一組を発生する。

Ｓ＊　（ｅｓＸ、　ｒｓＸ、　「ｅＸ、　ｒｅＸＸ、　ｒｓＸＸ、　ｅｒＸＸ、　ＸｓＸ、　、　Ｘｅ５Ｘ、　ＸｔｅＸＸ、　ｒＸＸＸ、Ｘｅ５ＸＸ）。

Σが下の場合の一組の文字であり、これらの文字を表すのにＡＳＣＣＩＩが使用されると仮定する−　（ＸｅｓＸ）のみをり。

によりマツプし、ついでｈ−１を辞書内のワードにマツプできることを理解するのは容易である。計算は下記のように実施される。すなわち、ｈｌ（ＸｅｓＸ１９１（ｍｏｄ２６１＋１０５（ｍｏ１０５（Ｘ２６亀３９Ｒ（ ”ｒｅｓｔ、　１）＝ＤＩＣＴｎ　ｂ＋−’　（３９１１１＜−ｔｅｓｔ“、　 −ｂｅｓｔ”、　−ｍｅｓｓ−）。

’ｔｅｓｔ」、　’ｂｅｓｔ」、　’ｍｅｓｓ」および所与のストリング’ｒｅｓｔｊ間のエラー距離は、それぞれ１、ｌおよび２である。したがって、’ｒｅｓｔ」のもっとも近い近傍物は、’ｔｅｓｔ」および’ｂｅｓｔ」である。

「ｈｌ関数の選択」本Ｒ（Ｚ、　ｒ）機構において、辞書上の各り、関数の逆ファイルが、予め構成されねばならない、ストリング内の位置のすべての可能な組合せに対して逆ファイルを構成し、莫大な数のｈ＋関数を創成することは確かに望むところではない、この節においては、Ｒ（Ｚ、　ｒ）を計算するために、十分な数のｈ＋関数のみを如何に選択するかについて示す論述を簡単にするために、ストリング２の長さが５に等しく、エラー距離ｒが２に等しい場合に限定する。また、ｈ、関数の選択を、関数値を計算するために２内に２つの別個の位置のみを使用するものに制限する。これらの結果は容易に一般化され得る。

ここでの目的は、任意のストリング２に対してＮ　（２，２）をカバーする一組の偏差ベクトルから誘導されて、ダミ。

−Ｘを有する任意のストリングに対する値を計算できる少数のハツシュ関数を見つけることである。　Ｎ（Ｚ、２）における任意のストリングのエラー距離は多くて２であるから、下記の簡単でしかも有用な観察をなした。　Ｎ（Ｚ、２）は、多くても２つのＸ符号を各々含む偏差ベクトルによつ、　てカバーできる。

もしも、Ｓ内の各ストリングＳに対して、Ｈ内にＳに対する値を計算できる少なくとも１つの関数があれば、−ｍのハツシュ関数Ｈが、ダミーＸを有する一組のストリングＳをカバーするということにする。

論述をより簡単にする他の観察は、−組のハツシュ関数が正確に２つのダミーＸ符号を有する一組のストリングをカバーすれば、この関数はまた、２つ以下のダミー符号をもつ一組のストリングをもカバーするということである。

それゆえ、問題は下記に還元できる。正確に２つのダミー符号を有する偏差ベクトルから誘導して、ダミーＸを有する一組のストリングに対する値を計算できる最少数のｈ１関数を見つけることである０図１１は、５に等しい偏差ベクトル長での被覆の問題としてこの問題を解釈する。この図は被覆テーブルを描くもので、各行は、ストリングマツピングにおける２つの位置を選択する候補ｈ１関数を表わし、各列は、正確に２つのＸ符号を有する偏差ベクトルから誘導されるダミーＸをもつ可能なストリングを表わす０行は、その行により選択される位置が列の非Ｘ位置であれば、列をカバーする。被覆の関係は、行および列の交叉点にあるＸ符号により指示される。

ここで、下記の従来の被覆の問題に遭遇する。すなわち、テーブル内のすべての列をカバーする最少数の行を見つけるという問題である。

一般の被覆の問題は、ＮＰ−完成の問題である。これは、問題はテーブルのサイズが大きいとき解くことが困難であることを意味する。しかしながら、図１１に示されるように、テーブルのサイズが小さいときには、従来の方法により最小の解を得ることができる０図１１におけるテーブルに対するこのような最小の被覆は、（［１，２］、　［１，３］　、　［２，３］、　［４，５］）である。

バーするための被覆テーブルにおける列の数は、ｒに等しい０ｍが大きく、ｒが１より大きいと、被覆テーブルは非常に大きくなり、最小被覆は見つけるのが困難である。実際のおうようにおいては、最小でないかもしれないテーブルの十分の被覆で本願発明の目的に十分である、以下においては、一般的に大きなサイズのテーブルに対して十分の被覆を得る有用なヒユーリスチックな方法を示すために一つの例を示す。

ここでは、多くとも３つのダミー符号を有する長さ７の全偏差ベクトルに対する値を計算するために各々２つのストリング文字を使用する多数のｈ１関数を見つけたいものと仮定する。７つのバーテックスきを描き、各々２つのバーテックスきを包囲する閉鎖曲線を描き、３つのバーテックスきの任意の選択に対して、３つのバーテックスきのいずれの１つをも包囲しない少なくとも１つの曲線があるようにする。解は、思考錯誤により容易に見つけることができる。ヒユーリスティックなルールは、包囲されていないバーテックスきを先ず包囲する、すなわち包囲されているセットをできるだけ素にすることである。７つのバーテックスきを（１，２，３，４，５，６，７）とする、次の選択（［１，２］、　［３，４］、　［５，６］、　［６，７］、　［５，７］）が有効な解を構成することを容易に見出すことができる０図１２は、よい被覆選択のより沢山の例を示している。

一般の被覆の問題は、ＮＰ−完成の問題であるが、上述の被覆の問題は、ＮＰ− 完成の問題でなくてよい、その理由は、本ケースにおいては被覆テーブルは任意的でないからである。簡単で効率的な手続きをこの特別の被覆の問題に対する最小の解を見つけるため発見することができると推測される。

ｈｉ関数を設計するに際しての他の考察は、関数値計算のためストリングから如何に多くの文字を選択すべきかである０本発明者等は、この問題に答える理論的もしくは実験的結果を得ていない。次のジレンマを考えることは困難ではない、　ｈ＋関数を計算するために選ばれる文字が多くなればなるほど、逆のサブ領域は小さくなるだろう、かくして、各り、関数に対する誤灯の数は低減されるであろうが、この場合、より多くの組の偏差ベクトルが近傍を被覆するために使用される必要がある。また、ｈ＋関数を計算するために選ばれる文字が多くなればなるほど、より多くのり、関数が全マツピング機構に提供される必要がある。これは、代表的な時間とスペースとの取引を要する問題である。実際の設計においては、ある調整が必要とされよう。

［偏差ベクトルの被覆の構成］十分な組のｈ１関数を選択したと仮定する。ここで、近傍を被覆すための複数組のベクトルを見つけることに進む、やはり、問題の本質を示すために簡単な例を示すことにする。

Ｚ＝”１２３４”およびｒ＝１とすル、ツイテ、Ｎ　（Ｚ、　ｒｌ　ｌＩＸ］２３４１１２３４　ｔｌＸ２３４ｔＪ２１３４１１　ｌＸ２３４１１１３４ＬＩ　ｌＸ３４Ｕ　１３２４０１２Ｘ３４１１１２４Ｕ１２Ｘ４Ｕ　ｌ　２４３［１１２３Ｘ４１１］２３ｕ１２３Ｘｔｌ１２３４Ｘ。

本方式におけるｈ＋関数は、ストリング長に従って定義されるから、Ｎ　（２，ｒ）内のダミーＸをもつストリングを長さにより群別することが必要である。長さ５のストリングに対するマツピング計算のため、ｈ＋関数（［１，２］、　［１，３］、　［２，３］、　［４，５］　）が選択されたと仮定する。そこで、Ｎ（”１２３４−、　ｌ）　（７）　（Ｘ１２３４．１ｘ２３４．　＋２Ｘ３４．　＋２３Ｘ４．　＋２３４Ｘ）をカバーする一組の偏差ベクトルを如何に構成するかを示す、やはり、図１３に示されるように被覆テーブルを使用できる０図において、ストリング内の第１番目および第ｊ番目が非Ｘであれば、行［ｉ、　ｊ］はダミーＸをもつストリングの列をカバーする。偏差ベクトルは、行およびそれをカバーする列から容易に得ることができる。例えば、［ｌ、３１は、ｌＸ２３４をカバーし、それゆえ、偏差ベクトル［１、Ｘ、２．Ｘ、Ｘ］　を１Ｘ２３４をカバーするために使用することができる。

ここでの目的は、テーブル内の全列をカバーする多数の数を見つけることであり、それにより最小数の偏差ベクトルを創成することができる。目的の関数は、被覆における行の数の直接の計数値でないから、この問題は一般の被覆の問題よりさらに難しいように思われる。筆者等は、前列をカバーする最小数の行を見つけることで満足する。何故ならば、経験によれば、最小数のカバーは偏差ベクトルの小さな一組のカバーをもたらすことが多いからである０図１３のテーブルに対する最小の被覆は、　（［１，２］、［４，５］）である、これは、−組の偏差ベクトルｆ［１，２，Ｘ、Ｘ、Ｘ］、　［Ｘ、Ｘ、Ｘ、３．４］１　を生ずる。

長いストリングおよび１より大きいｒの場合、偏差ベクトルの被覆を構成する被覆テーブルは巨大となる。下記の簡単な例は、本目的に対する十分な被覆であると事実上前＾ることができることが分かった。

これは欲深なアルゴリズムと称される。何故ならば、列が現在選択されつつある列により未だカバーされていなければ、列をカバーする任意の行が構成プロセス中に被覆に追加されるからである。

「偏差ベクトルの被覆を構成するための欲深なアルゴリ距！ｒを与久る６本／／ＩＳをＮ　（Ｚ、　ｒ）をカバーするためにダミーＸを有する一組のストリングとする。＊１０■＝ψを設定。

１、（Ｓが排出されるまで）ステップ２ないし５をなせ２Ｓの新しい要素Ｓを生成：３　もしも（ＳがＶにより　カバーされないならば）４ｓをカバーするｈｉを児っける：５　、　Ｖ□ＶＵ　（（Ｈ＋、ｓｌの偏差ベクトル）。

゛　）６、終了、／＊ＶはＮ　（Ｚ、　ｒ）に対する偏差ベクトルの被覆である。ネ／ｈｌ関数の選択および偏差ベクトルの被覆の構成は、相俟って上述の問題１に対する解答を与える。

［共通の応用における辞書の性質］辞書におけるワードの分布は、一般に、ワード探索のアルゴリズムの効率に大きく影響を及ぼす、アルゴリズムを設計するに先立ち、アルゴリズムが作用しているデータベースの性質を検討するのが良い。この研究の目的のため、式１を使用することにより、辞書にあるワードの各対間の距離を徹底的に計算するプログラムを書く。

異なる応用領域をもつ下記の３種の辞書をこのプログラムにより試験した。

１　）　ＤＩＣ’ｊｐｇｍ：長いプロローグプログラムの一組の変数および機能名。

２　）　ＤＩＣＴ−Ｕｎｉｘ＋Ｌｌｎｉｘシステムにより提供される辞書における一組の英語ワード。

３　）　ＤＩＣＴ−ＩＲ：マサチューセッツ州所在のＧＴＥ　Ｌａｂｏｒａｔｏｒｉｅｓの図書館の情報検索システムで使用される一組のインデックスワード、これは本、雑誌および技術レポートの著者名、タイトル、および要約の混合体で、２５１６７の別個のワードを含んでおり、平均ワード長は８．３２０である３つの辞書のワード長の標準化分布は図６に示されている。

辞書内のワードの各対が同じ発生確率を有すると仮定すると、辞書ＤＩＣｊｐｇｍ、ＤＩＣＴ−１１ｎｉｘおよびＤＩＣＴ−ＩＲにおける１対のワードの最大長に関して、ワード間距離の条件付き確率分布を得る。これらは、図７ａ、７ｂ　および７Ｃに図示されている。

本発明者等は、本明細書に記述されるアルゴリズムを実施し、それを辞書ＤＩＣＴｊＲに応用した。アルゴリズム４に対して、２ないし１５のワード長をもつワードに対する逆ファイルを構成した。　ｈｒ関数はすべて、長さ２のワードの場合を除いて、値を計算するためにストリング内に正確に２つの位置を選択する。

長さ２のワードの場合には、一つの位置しか逆ファイルを構成するのに使用されない、スピードアップ機構が提供される中で生成されたり、関数の数およびエラーの最大数（異なるワード長に対する）は、表１に掲載されている。近傍Ｎ　（Ｚ、　ｒ）をカバーするために使用される偏差ベクトルの数は、表２に掲載されている０表２内の一つのエントリを例として取る。／−Ｚが９に等しいＮ　（Ｚ、　２）に対する被覆内に４串の偏差ベクトルがある。これらの中に、それぞれ長さ７．９、ｌ○および１１の６．９．１２．１１、および１０の偏差ベクトルがある。これらの数に対して、Ｒ（Ｚ、　ｒ）マツピング機構において逆ファイルを提供する効率を示すため、Ｒ［Ｚ、　ｒ）のサイズを概略的に計算できる。

辞書内に、ワード長フないし１１の各群に４０００のワードが存在すると仮定する。また、各ｈ＋関数は、各ブロックを１０ワードとして、４０００のワードを４００のブロックに区分する。

そのとき、Ｒ（Ｚ、　ｒ）のサイズは、ＩＯｘ　（６＋９＋１２＋ｔ１＋１０）　＝４８０に等しいかまたはそれ以下である。それゆえ、文字ストリングのもっとも近い近傍物の探索における計算を節約するために最初に使用されたストリング長区分（推理３）により与λられた２００００ワードでなく、所与の２を４８０ワードのみと比較しさえすればよい。

アルゴリズム４の実際のプログラムの実施は、下記の方法で変更された。すなわち、プログラムの実行中、近。

傍Ｎ　（Ｚ、　ｒ）の特定の部分に対してＲ（Ｚ、　ｒ）機構が提供されていなければ、プログラムは、その部分を処理するためにアルゴリズム３に切り替わる。

５つのＡＳＭプログラムの効率を比較するために実験を行った。各ワード長／（２ないし２８）および各距離ｒ〜　（工ないし４）に対して、各々が長さ／のワードから距離ｒのもっとも近い近傍物であるという性質を用いて、概略的に１００の文字ストリングを生成する。各／およびｒ、に対する１００のトリングに関するアルゴリズムの平均性能を記録する。

本実験においては、２種類の性能測定を使用した。第１のものは、アルゴリズムにより調べられるＨ　［ｉ、　ｊ］エントリの数である（定ｌ１ｉｌ　Ｏ）　、この測定は、システムおよび実施法に依存しない、アルゴリズム３およびあるご４においては計算オーバーヘッドは無視し得ないから、それらの全効率を比較するために、実施される全アルゴリズムにより使用される実時間も測定した。

５つの全アルゴリズムは、Ｃ言語で実施した。実験は、　Ｃｏ！１ｌＰＡＱ　ＤＥＳＫＰＲＯ３８６パーソナルコンピユータで行った。辞書データおよびアルゴリズム４で使用されるり、関数の逆ファイルをを含む大テーブルを、コンピュータの拡張メモリに記憶した。システムのオーバーヘッドのため、コンピュータの拡張メモリは、直接アクセスメモリよりの数倍緩速であるのが有効である。

実験結果は、図１５ａ〜１５ｅおよび図１６ａ〜１６ｅに掲載されている。

実験結果から下記のことが観察された。

１）アルゴリズム０．１．２および３はすべて実施容易である。アルゴリズムは、すべて少しの過剰メモリしか使用しない８所与の文字ストリングの長さが小さいときのみ、アルゴリズム１はアルゴリズム０より高速である。フルボ１ノズム２およびアルゴリズム３は、アルゴリズムＯおよびアルゴリズム１よつずっと高速である。

２）小さいｒに対して、εｇ＋＠６ｒ＋ｔｈｓ−ｓ（Ｚ）は、Ｅａｌｚａｒｌｔ＋、−２（２）　よりずっと小さい。しかし、アルゴリズム２は簡単なループ構造を有するから、アルゴリズム３に対して実施されたプログラムは、アルゴリズム２に対するブロムよりはるかに高速ではない、ずっと少量の）ｉ［ｉ、ｊ］二シントリ調べるという利点を活用するようにアルゴリズム３を実施するためには、より技巧を凝らしたより低レベルのプログラム技術を使用すべきである。

３）アルゴリズム４は、５つの間でもつとも高速のアルゴリズムである０図１６ａ〜１６ｅは、異なる／およびＦでの５つのアルゴリズムの相対速度を示している。結果をもっと綿密に試験するために、ＴＩ　（／、　ｒ）を、本実験におけるストリング長／およびエラー距ｉ１ｒに対応してアルゴリズム１により消費された時間とする−　ＴＩ　（２８，４）は、それぞれ０．１，２．３および４に対する１に対して、２５３．２５３．　Ｏ，ｉ５．０．１５．０．０７および０．０８に等しい、Ｔ１（９，１）は、それぞれ０，１．２．３および４に等しい１に対して、１２＋、　１２１．３４．２３および０．３３秒に等しい、すべての実験的ケースにおいて、アルゴリズム４は、数秒内にもっとも近い近傍物を見つけた。これらの結果は、本フォルトモデル下で、普通の逐次コンピュータ上において実時間で大きな辞書について近似ストリングマツチングを遂行することが可能であることを示している。

４）アルゴリズム４における逆ファイルを記憶するに必要なメモリスペースは大きいが、現在のハードウェア技術でこれを与久ることかできる。ここに例示される実施例において、辞書データは１７２　Ｋバイトを占め、逆ファイルは３８９にバイトを占めた。

要約すると、本発明によると、近似ストリングマツチングのためのアルゴリズムを設計する方法が提供される、上述の５つのアルゴリズムのうち、アルゴリズム０゜１．２および３は、簡単で、スペースに関して効率的である。アルゴリズム２およびアルゴリズム３は比較的高速である。アルゴリズム４は、非常に高速であるが相当のメモリを必要とする。応用辞書のサイズが小さい場合、アルゴリズム２およびアルゴリズム３はよい選択である。辞書が多数のワードを有する場合、アルゴリズム４は、実時間の性能をよくするためにはこれに限る。

ＦＩＧ、２ＦＩＧ、３ＦＩＧ、４ＦＩＧ、　５＋　３　５　７　９　１１　１３　１５　１７　１９２１　２３２５２７２９０２４６８１０１２１４１６旧２０２２２４２６２８ＦＩＧ、　６ＦＩＧ、　７ｃ × 日０８ＦＩＧ、　９ｅｇｆ３４５６７Ｂ９＋２２３　３３４ＦＩＧ、１３ｌｏｇ２（ＥＧ’９） ”ｑ２　（Ｅａｌｇ）ｌｏｇ２ｔ（ｓ）要　約　書辞書２３における近似ストリングマツチング用高速アルゴリズムを使用するデータ処理システムを提供する。

文字ストリング上における挿入、抹消、変更および変換操作の多重スペリングエラーが、開示されるフォルトモデルで考察される。アルゴリズムの公式化においてＳトレース、フォルトモデルが使用され４段階低減手続きで近似ストリングマツチングアルゴリズムの効率を改善する。上部限界、ストリング長区分基準およびカットオフを使用するスペリング修正のための本手法は、従来の基本的な徹底的比較法から３つの改善をもたらす、各段階は自然に次の段階に合体される。第４段階においては、−ハツシング方式で、所与のストリングを大距離のワードと比較することを避け、小距離の近傍において探索を行う、かくして、辞書２３内のワード数に準直線的なアルゴリズムが得られる。アルゴリズムの図書館情報システムへの適用に当たっては、ディスク１２に使用される原テキストファイル２１、情報記述ファイル２２、およびネガティブ辞書２３を使用する。

国際調査報告

Claims

【特許請求の範囲】

（１）大データベースを記憶するためのシーケンシャルディジタル記憶媒体を有するデータプロセッシングシステムにおける多重エラースペリング修正システムであってデータプロセッシングシステムに記憶される−領域の一組の容認され得るワードを含み、その各ワードが文字のストリングより成り、文字のストリングの長さにしたがって区分されている辞書と、ストリングＺを受け入れて、前記辞書内のストリングＺが前記辞書内の誤綴りワードか否かを決定する手段と前記ストリングＺを前記辞書内のストリングと整列させ、Ｚのもっとも近い近傍のものを見つけるためのマッチング手段とを備え、該マッチング手段が、左から右に操作してＺを前記ワードに変換する最短の逐次編集シーケンスである、辞書内におけるストリングＺとすべてのワード間のエラー距離を計算する手段と、最小距離を有するワードを記録する手段と、前記計算がなされたワードの長さに上部限界を決定することによってエラー距離の計算を制限する手段と、ストリング長区分を使用して前記のエラー距離の計算を制限する手段と、カットオフ規準を使用して、前記のエラー距離の計算を制限する手段と、近傍におけるエラー距離より大きいエラー距離にあるワードを除去することによって探索領域をさらに制限する手段とを備えることを特徴とする多重エラースペリング修正システム。
（２）各ワードＸに対して前記辞書内のＺと全ワード間のエラー距離を計算する前記手段が、挿入、抹消、変更および交換操作より成る編集操作シーケンスからストリングＺをストリングＸに変換する手段と、前記編集操作をストリングＺの各文字位置に逐次適用する手段と、前記変換を行うために前記編集操作の最短のシーケンスを選択する手段とを含み、エラー距離が、前記最短シーケンスにおける前記編集操作の数である請求の範囲第１項記載の多重エラースペリング修正システム。
（３）前記の上部限界を決定することによりエラー距離の計算を制限する手段が、前記辞書内における、ストリングＺと、最大長のＺの２倍のワード、すなわち最小長のワード間のエラー距離の計算を除去する手段を備える請求の範囲第１項記載の多重エラースペリング修正システム。
（４）前記ストリング長区分手段が、探索において現在見出されている最小エラー距離を表わす数ｄを動的に記録し、Ｚ−ｄの長さより小さい、またはＺ＋ｄより大きい長さを有するワードに対してエラー距離の計算を除去する手段を備える請求の範囲第１項記載の多重エラースペリング修正システム。
（５）前記の探索範囲をさらに制限する手段が、前記辞書内の全ワードのエラー距離マトリックスを構成する手段と、Ｚの所与のエラー距離ｒ内の全ワードを含む前記辞書内におけるＺの近傍を構成する手段と、前記近傍内におけるＺと任意のワード間のストリング長の絶対差がいずれも前記エラー距離ｒに等しいかそれ以下であるように前記近傍の領域を構成する手段を備える請求の範囲第１項記載の多重エラースペリング修正システム。
（６）前記の近傍のものの前記領域を構成する手段が、ハッシュ関数を使用して前記エラー距離マトリックスの反転像を構成する手段を備える請求の範囲第５項記載の多重エラースペリング修正システム。
（７）各ワードが文字の直線的結合である−領域のワードで辞書を形成する一組の可能なワード間から文字ストリングのもっとも近い近傍のものを見つける方法において（ｉ）一組のワードを記憶する記憶領域を形成し、かつ該領域を零値にイニシャライズし、（ｉｉ）エラー距離測定変数の初値を画定し、（ｉｉｉ）前記ストリングから所定距離内にある全ワードを含む全ストリングの近傍を計算し、（ｉｖ）前記ストリングの前記近傍および前記辞書におけるワードを含む前記辞書のサブ領域を計算し、（ｖ）該サブ領域の各ワードに対して、エラー距離測定値を計算し、前記変数に等しいエラー距離測定値を有するワードのみを前記記憶領域に記憶し、（ｖｉ）前記変数をインクリメントし、前記記憶領域がもっとも近い近傍のものを表わす少なくとも１つのワードを含む迄ステップ（ｉｉｉ），（ｉｖ）および（ｖ）を操り返す諸段階を含むことを特徴とするもっとも近い近傍のものを見つける方法。
（８）前記のサブ領域を計算する段階が、前記近傍を、個々の細分近傍の一群を連合体として画定し、各細分近傍領域にあるワードをそれぞれの整数領域にマップするマッピング関数を各細分近傍に割り当て、それぞれの逆像近傍を創成するため、各整数領域を前記−領域に逆マップし、前記逆像近傍にある全ワードを含む連合セットを形成し、そして該連合セットと前記辞書間の共通ワードで前記サブ領域を形成する請求の範囲第７項記載のもっとも近い近傍のものを見出す方法。