JP2010092490A

JP2010092490A - データ整理のための方法及びシステム

Info

Publication number: JP2010092490A
Application number: JP2009251330A
Authority: JP
Inventors: Bjorn J Gruenwald; ブジョーン・ジェイ・グルンワルド
Original assignee: PriMentia Inc
Current assignee: PriMentia Inc
Priority date: 1999-07-20
Filing date: 2009-10-30
Publication date: 2010-04-22
Also published as: US20030037051A1; US20130297568A1; US20020194176A1; US20030046285A1; US6751610B2; IL147736A; US7698283B2; US6424969B1; US20140207788A1; US6457006B1; JP2011175648A; US20110010398A1; RU2268488C2; AU2008203532A1

Abstract

【課題】データベースシステムでデータを整理するためのシステム及び方法を提供する。
【解決手段】一つ若しくはそれ以上のソースからの生データを整理するシステム及び方法は、データベースのフィールド（すなわちコラム）間で複製したデータを認識するための改善された装置を使用する。そのフィールドは、一つのデータベース内で似たフィールド、又は、２つのデータベース内で似た若しくは同一のフィールドでもよく、アレイ若しくはフィールド・ベクトルと同じ位に整理されている。必要であればそれぞれのフィールド・ベクトルをソートし、共通の値によって分割する。フィールド・ベクトル間の複製したデータを認識するのに必要とされる多くの比較は、比較された値の違いをフィードバックすることによって減少する。この違いは、続いてなされる比較のためのフィールド・ベクトルの中でインデックスを調節するのに使用される。
【選択図】図２

Description

本発明はデータベースシステムに関し、特に、データベースシステムでデータを整理し及び／又は見いだすためのシステム及び方法に関する。

コンピュータ化されたデータベースシステムは長い間使用されており、それらの基本的なコンセプトはよく知られている。データベースシステムの良い紹介はC.J.DATE, INTRODUCTION TO DATABASE SYSTEMS（AddisonWesley,6thed.1994）に見いだすことができる。

一般に、データベースシステムは、データベース中のデータが有用であるような方法でデータを整理し、記憶し、そして読み出すために設計される。例えば、データ、あるいはデータの分割されたセットは、検索され、ソートされ、整理され、及び／又は他のデータと組み合わされることができる。かなりの範囲で、特定のデータベースシステムの有用性は、データベースシステムにおけるデータの完全性（すなわち、正確さ及び／又は正当性）に依存している。データの完全性は、記憶されたデータの「乱雑」の程度に影響される。乱雑は、複製データ、未完成なデータ、不正確なデータなどの誤ったあるいは不完全なデータのかたちで起こるかもしれない。多くのデータベースシステムにおいて、時折、現存するデータが編集されそして処理されるかもしれず、その結果として、追加のエラーが導かれるかもしれない。いくつかのデータベースシステムにおいて、新しいデータが導かれるかもしれない。さらに、データベースシステムが新しいハードウェア及び／又はソフトウェアでアップグレードされるとき、データ変換が必要とされるかもしれず、あるいは追加のフィールドが必要となるかもしれない。

さらに、いくつかのアプリケーションにおいて、データは時間とともに簡単に古くなってしまうかもしれない。

予防ステップが講じられても、結局はある程度の乱雑が従来のデータベースシステムに導かれる。ついには、従来のデータベースのデータが完全に無用になるまで、この乱雑の程度が長い間に幾何級数的に増加する。結果として、乱雑の小さい程度でさえ結局はデータベースシステムの完全性に影響を与える。

あいにく、データの乱雑を識別し修正することは不可能ではないとしても、大きなデータベースシステムにおいて特にしばしば難しい作業である。従来的に、これらの作業は時間がかかり、高価であり、そして人為的ミスの問題があるので、このような作業はマニュアルで行われる。さらに、タスクのまさにその本質のために、乱雑の多くを見つけられないかもしれない。必要とされるのは、これら及び他の関連づけられた問題を克服するデータベースシステム中でデータを整理するためのシステム及び方法である。

本発明は、データベースシステムでデータを整理するためのシステム及び方法を提供する。本発明は、１個あるいはそれ以上の生データソースより抽出された生データから正確なデータの純化データベースを得る。生データはそのオリジナルのフォーマットから数値のフォーマットに変換される。

本発明の１つの実施例によれば、生データは数値の要素を持つベクトルとして表される。一旦生データが数値的に表されれば、特有のベクトルが「純化された」若しくは参照のデータベースにおける他のベクトルとどのように内容が一致するのかを決定するために、相関性機能、パターン認識方法、又は他の類似した数値的方法のような数学的処理が実行されることができる。純化データベースは、他のセットに関して独特であると信じられる１個あるいはそれ以上の関連したベクトルのセット（例えば、直交の）から構成される。

これらのセットは、生データから利用可能な最良の情報を表す。すべての生データが純化データベースに取り入れられた後、新しいデータは新しいエラーが純化データベースに導入されないことを保証するために選別すことができる。新しいデータはまた、それが独特であるかどうか、あるいはそれが純化データベースに既に存在しているデータよりも良い情報を含んでいるかどうかを決定するために評価することができる。それに従って、新しいデータは、純化データベースに付け加えられる。

本発明の１つの実施例によれば、生データは適切な基数を持つ数体系に基づいて数値のフォーマットに変換される。適切な基数は、生データに含められた情報のタイプに基づいて決定される。例えば、一般に英数文字で構成された生データのために、適切な基数は、生データ中に存在している異なった英数文字の数に等しいかそれ以上であることができる。このような数体系を使うことは、生データが数値的に表されることを可能にし、種々のよく知られている数学的な処理による操作を可能にする。

本発明の１つの実施例によれば、数自身がそれが表す生データに対して意味の重要性を保持するように、数体系は選択されることができる。換言すれば、数字が生データに対応するように、数体系で数字は選ばれる。例えば、英数文字で構成された生データの場合に、数字はそれらが表する英数文字に対応するよう選ばれる。数体系での数字が続いて表されるとき、それらはそれらが表す英数文字として現われる。

本発明の１つの実施例によれば、一旦生データが適切な数体系においてベクトルとして表されれば、表されたデータは効率的に種々のよく知られているテクニックを使ってデータベースで操作（例えば、ソートなど）されることができる。さらに、種々のよく知られている数学的な処理が、データ内容を分析するためにベクトル上で行われることができる。明白であろうように、これらの数学的な処理は相関性機能、固有ベクトル分析、パターン認識方法及び他のものを含むことができる。

本発明の１つの実施例によれば、生データは純化データベースに取り入れられる。純化データベースは、いかなるデータ乱雑をも持たずに、生データから抽出された最良の情報を表す。

本発明の１つの実施例によれば、新しいデータは、実際に新しい情報あるいは純化データベースに未だ存在していない内容を含むかどうかを決定するために純化データベースと比較することができる。すでに純化データベースの中のどんな新しい情報も、いかなる乱雑をも加えることなく、純化データベースに加えられることはない。この方法で、純化データベースの完全性を維持することができる。

発明によれば、情報処理のための方法は、情報に含められたデータ要素の可能な値の範囲に基づき適切な数体系を選択し、その数体系で数字としてデータ要素を表すステップを含む；そして情報を処理するために数体系で表された前記データ要素に作用する。

本発明の１つの実施例によれば、適切な数体系を選択するステップは、英数文字「０」から「９」及び「Ａ」から「Ｚ」のオーダーと少なくとも等しくそしておよそ同じである基数を持つ数体系を選択するステップを含む。

本発明の１つの実施例によれば、適切な数体系を選択するステップは、英数文字「０」から「９」及び「Ａ」から「Ｚ」のオーダーより大きい基数を持つ数体系を選択するステップを含む。

本発明の１つの実施例によれば、適切な数体系を選択するステップは、英数文字「０」から「９」、「Ａ」から「Ｚ」、及び「ａ」から「ｚ」のオーダーと少なくとも等しい基数を持つ数体系を選択するステップを含む。

本発明の１つの実施例によれば、適切な数体系を選択するステップは、ベース４０数体系の一つを選択するステップを含む。

本発明の１つの実施例によれば、情報は、財政の情報、科学的な情報、産業的な情報あるいは化学的な情報を含む。

数字を付与するステップが、数体系で英数文字「ａ」から「ｚ」にそれぞれ数字A-Zを付与することを更に含む、クレーム１６の方法。

本発明の１つの実施例によれば、前記ベクトルと純化マトリクスを比較する前記ステップは、固有ベクトル分析の実行又はパターン認識分析の実行又は前記ベクトルと純化マトリクス中のベクトルの間のドット・プロダクトを決定すること又は前記ベクトルと純化して得た前記マトリクス中のベクトルの間のクロス・プロダクトを決定すること又は前記ベクトルと純化マトリクス中のベクトルの間の違いを決定すること又は前記ベクトルと純化マトリクス中のベクトルの和を決定すること又は前記純化マトリクスの行列式を決定すること又は前記ベクトルの大きさを決定すること又は前記ベクトルの方向を決定することからなることを特徴とする。

発明は、一般に、独立クレームで述べられたように特徴づけられるのに対し、従属クレームは発明の望ましい実施例を含んでいる。

発明の望ましい実施例は、後の参照図面で説明される。図面において、同じ参照番号は、同一かあるいは機能上類似の要素を示す。さらに、参照番号の左端の数字は参照番号が最初に現われる図面を示す。

本発明は、データベースシステムでデータを整理するためのシステム及び方法に向けられる。本発明は種々の模範的な実施例について、特に種々のデータベース・アプリケーションについて以下に記述される。しかしながら、外見上明白であるように、本発明の種々の特徴は他のエリアに拡張されることができる。一般に、本発明は、データによって表された内容に様々な関係が存在することを明らかにするために、潜在的に無関係なデータの大部分がコンパイルされ、記憶され、操作され、及び／又は分析されなければならない多くのデータベース・アプリケーションに適用することができる。より詳しくは、本発明は、データが初めに高度の乱雑を持っているときでさえ、本発明はデータベースシステムでデータの完全性（すなわち、正確さと正当性）を達成し維持するための方法を提供する。ここで使われるように、乱雑は、複製した、エラーのある、不完全な、不正確な、偽りあるいはさもなければ正しくないか、あるいは不必要なデータに関係する。乱雑は、明白であろう多くの方法でデータベースシステムの中にそれ自体を与えることができる。

本発明の１つの実施例は、受取可能アカウントと結び付けられたデータベースを保守するために使われる。この実施例において、会社は、種々の人々、ビジネス、及び／又は一つ或いはそれ以上のソースからのアカウントに関連するデータを集めることができる。

これらのソースは、例えば、クレジットカード会社、金融機関、銀行、小売りと卸売りのビジネス、及び他のそのようなソースを含むことができる。これらのソースのそれぞれが種々のアカウントに関連しているデータを提供できる間に、それぞれのソースはそれ自身の必要性に基づいて異なった情報を表すデータを提供することができる。さらに、このデータは完全に異なった方法で整理することができる。例えば、卸売業者は、ビジネスアカウントに対応した受取可能アカウントに対応したデータを持つことができる。このようなデータは、それぞれのデータ・レコードがアカウント番号、そのアカウント番号と結び付けられたビジネス、そのビジネスの住所、及びそのアカウントに借りがある額を認識するデータ・フィールドを持った状態で、アカウント番号によって整理されることができる。小売りの会社は、類似の情報を表すデータ・レコードを持つことができるが、ビジネスと同様、個人に対応するアカウントに基づくことができる。

本発明の他の実施例において、他のタイプのソースが異なったタイプのデータを提供してもよい。例えば、科学的な団体は、研究の種々の分野に関して科学的なデータを提供することができる。工業的な会社は、原材料、製造、生産高、及び／又は供給に関して産業的なデータを提供することができる。裁判所あるいは他のタイプの法曹界の団体は、法律上の地位、判決、破産、及び／又は先取特権に関して法律上のデータを提供することができる。外見上明白であろうように、本発明は多種多様なソースからデータを使うことができる。

本発明の他の１つの実施例においては、データベースを、統合化された請求処理を実行しそしてコントロールシステムに命令するために保守することができる。請求のタイプの情報のほかに上に記述されたそれらに類似しているソースから、この実施例は在庫に対応しているデータ・レコード、在庫の供給元に対応しているデータ・レコードと在庫の買い手に対応しているデータ・レコードを含むことができる。在庫データは、内部部品番号、外部部品番号（すなわち、供給元の部品番号）、手元の数量、出荷が予想される量、受け取りが予想される量、卸売り価格と小売り価格とを識別するデータ・フィールドを有するそれぞれのデータ・レコードが持つ部品番号によって整理することができる。供給元データは、供給元数によって整理されることができる；そして顧客データは顧客数によって整理されることができる。これらの記録のそれぞれに対応しているデータ・レコードは、パート数、パート価格、注文された量、出荷データ、及び他のそのような情報を識別しているデータ・フィールドを含むことができる。

もう１つの本発明の実施例は、データのタイプ、データを生成したコンピュータのタイプ、データを要求したコンピュータのタイプにかかわらず、多数の似ていないソースからの企業情報を強固にし、そして企業のネットワーク上でその情報をユーザーにとって入手可能であるようにする企業記憶装置システムを含むことができる。更にもう１つの本発明の実施例は、情報を格納しそして市場に出しそしてその情報が処理されオンラインで分析されることを可能にするビジネス情報システムを含む。

本発明は、分析すべき異なるソースから集めかつ正確なデータの集合の中に純化した生データを特定のアプリケーションに有用な方法に構成することを可能とする。下記により完全に説明するが、統合した請求処理及びオーダー制御システムの上記の例を使用するとき、本発明は、特定のサプライヤー又は顧客に関係するデータを同様に識別することができるような、関連したデータの純化データベースを作ることができる。この例において、同じサプライヤー又は顧客に対応する複製データは、識別され及び／又は廃棄することができ、サプライヤー又は顧客に関連した誤ったデータは識別され、分析され、あるいは修正することができる。

図１は本発明を実行することができる処理システムを示す。図２は本発明の１つの実施例によって処理されるデータのステージを示す。図３は本発明の１実施例に従い、生データをオリジナルフォーマットから数的フォーマットへ変換するためのフローチャートを示す。図４は本発明の使用に適したデータ・レコードを示す。図５は本発明の使用に適した生データ表示を示す。図６は本発明の１実施例に従い、フォーマットされたデータを表す参照データ表を示す。図７は本発明の実施例と一致する参照データの分析のためのフローチャーである。図８は本発明の実施例と一致する関連する相関値を表示する、純化データの表を示す。図９は二次元空間におけるデータ・クラスターの例を示す。図１０は一組のフィールド・ベクトルの間の複製データを識別するためのフローチャートである。図１１は一組のフィールド・ベクトルの間の複製データを識別するための、さらに詳細なフローチャートである。図１２は一組のフィールド・ベクトルの間の複製データの識別の例を示す。

一般に、本発明は、ハードウェア又はソフトウェア、あるいは両方の組み合わせの中で実行することができる。好ましくは、本発明は、プロセッサー、データ記憶システム及び入力および出力装置を含むプログラム可能な処理システム上で実行するソフトウェアプログラムとして実施される。システム１００のような例は、図１の中に示す。システム１００はプロセッサー・バス１５０で互いに連結されたプロセッサー１１０、メモリ１２０、記憶装置１３０およびＩ／Ｏコントローラー１４０を含むことができる。Ｉ／Ｏコントローラー１４０は、キーボード１７０、マウス１８０及びディスプレイ１９０のような、様々な入力および出力装置にＩ／Ｏバス１６０を介してつながれる。他のコンポーネントもシステム１００に含むことができる。

図２は、本発明によって処理されたデータの様々な形式を図示する。生データ２１０は、生データ２１０Ａ及び生データ２１０Ｂのような１つ又はそれ以上のソースから集めることができる。ここにおいて使用するように、「生データ」は、単に特定のソースから受け取るものとしてのデータを参照する。生データ２１０の追加のソースを明らかなものとして含むことができる。下に説明するように、様々なソースからの生データ２１０は好ましくは、数値のフォーマットに変換され、参照データベース２２０に記憶される。ここにおいて、「データ透析」とされるプロセスを使用するとき、本発明は、参照データベース２２０中の参照データを形成するために、生データ２１０を「浄化する」。参照データベース２２０は、複製、不完全、一貫しない、及び誤ったデータを含む生データ２１０で見つかった情報をすべて含む。

純化データベース２３０に記憶された純化データは、参照データベース２２０の参照データから得られる。純化データは生データ２１０から利用できる「正確な」データを表わす。純化データベース２３０は、生データ２１０で見つかった独特の情報を含む。純化データはこのように生データ２１０から利用可能な最良の情報を表わす。

さらに下で説明するように、本発明はさらに新しいデータ２４０を分析し確認するために純化データベース２３０の使用を提供し、参照データベース２２０及び純化データベース２３０を更新するのにも用いることができる。

本発明は多数の実施例を持つが、説明を明らかにするため、好適な実施例を統合した請求処理及びオーダー制御システムの情況において中の図３から図８を参照しつつ説明する。この実施例では、生データ２１０は、支払い可能なアカウント及び受取り可能なアカウント等のオーダー処理、発送、受取りのような様々なソースから集められたデータの集合である。この生データ２１０は、関連づけられるが、異なるデータ・フィールド、複製のデータ・レコード、１つ又はそれ以上の誤ったデータ・フィールド等を持ち、それに関係するデータ・レコードを含むことができる。そのようなエラーに取り組むために、本発明は、生データ２１０を（ソースによって異なってもよい）データ構造およびオリジナルのフォーマットから数値のフォーマットに変換し、参照データベース２２０にこの参照データを記憶する。

本発明によれば、その後、利用可能な最良の情報を純化するために参照データを比較し分析する。本発明の一実施例では、この最良の情報を純化データとして純化データベース２３０に記憶することができる。このプロセスを以下、説明する。

（生データの収集）
図３は本発明の一つの実施例による参照データベース２２０の参照データに変換される生データ２１０によるプロセスを例示する。ステップ３１０において、生データ２１０は生データソースから収集される。図２に例示されるように、生データ２１０は生データ２１０Ａや生データ２１０Ｂのような１又はそれ以上のソースからのデータを含むことができる。ここで使用されるように、「データ」は情報の物理的デジタル表示を示し、データ「内容」はそのデータによって表わされる意味を示す。生データ２１０中の異なった記録は、類似したタイプのデータ内容を含むことができる。例えば、請求処理において、生データ２１０中の異なった記録は特定のアカウントに関するデータ内容を全て含むことができる。

生データ２１０は図４に例示するように、データ・レコード４００の形で一般的に受信されるだろう。各データ・レコード４００は一般に、特定の個人、会社、又はアカウントのための情報のような関連した情報を含む。各データ・レコード４００は１又はそれ以上のデータ・フィールド４１０にこの情報を記憶する。例えば、ふさわしいデータ・フィールド４１０の例は、アカウント番号、ラストネーム、ファーストネーム、会社名、アカウントバランスなどを含む。その結果、各データ・フィールド４１０は特定の記録や特定のフィールドのための情報を表わすための１又はそれ以上のデータ要素４２０を含むことができる。データ要素４２０は、明らかなように、英数字、数字、ASCIIやBECDIC、あるいは他の表示のようなさまざまなフォーマットに存在することができる。異なったソースから収集された生データ２１０は、別々にフォーマットされる。データ・レコード４００は異なったデータ・フィールド４１０を含み、データ・フィールド４１０に含まれる情報は、明らかなように、異なったフォーマットのデータ要素４２０を使って表される。

生データ２１０の例は、図５の生データ表５１０、５２０及び５３０に例示される。データ・フィールド５１０−Ａやデータ・フィールド５１０−Ｂのようなデータ・フィールドが生データ表５１０、５２０や５３０の列として例示されるのに対して、データ・レコード５１０−１やデータ・レコード５１０−２のようなデータ・レコードは、生データ表５１０、５２０や５３０の行として例示される。データ・フィールドやデータ・レコードのいずれかを通常の数学的なベクトルあるいはテンソルと見なすことができ、従って処理することができる。図５に例示される表は本発明に係るさまざまな実施例に見られるデータの例である。他の実施例において、データが多くのソースから来るかもしれないし、明らかなように、非常に多くのデータ・レコード及び／又はデータ・フィールドを持つデータベースとしてフォーマットされるかもしれない。

（数値フォーマットへの転換）
図３を参照して、ステップ３２０において、本発明はそのオリジナルの表示（それは、英数字、数字、ASCII、EBCDICあるいは他の同様のフォーマットである）から数字の表示に生データ２１０を変換する。これは、参照データが同じ方法で表わされることを確実にする。したがって、異なるソースからのデータを含む参照データは同様に処理される。

本発明に従い、生データ２１０はそのオリジナル表示から適切な数字表示に変換される。適切な数字表示はデータ要素４２０の各々のふさわしい量が数体系の独特のアラビア数字や値によって表わされる数体系を使用する。言い換えれば、数体系のための基数は、その基数が特定のデータ要素のための可能な値の数と少なくとも同じであるように選ばれる。例えば、核酸のアデニン（Ａ）、グアニン（Ｇ）、シトシン（Ｃ）及びチミン（Ｔ）ヌクレオチド配列を検索するバイオテクノロジーアプリケーションにおいて、各データ要素はただ４つの値の一つ：Ａ、Ｇ、Ｃ及びＴとなる。そのようなアプリケーションにおいて、数体系の４つの基数は独特の数として各データ要素を表わすために十分である。そのような数体系の一つは数Ａ、Ｇ、Ｃ及びＴを含むことができる。本発明にかかるいくつかの実施例において、空のフィールドを表す数を与えるために、データ要素４２０の少なくとも異なった可能な値の数より大きい１つの基数を使うことが望ましい。この場合、数体系のように数Ａ、Ｇ、Ｃ、Ｔと^含むことができ、そしてそこで^は空のフィールド値である。

本発明における好ましい実施例に従い、生データ２１０中のデータ要素４２０は英数文字のような文字で構成される。この好ましい実施例において、４０の基数が下記の表に例示されるように英数文字を表わすために選択される。（３６の最小基数が要求されることに注意）この基数は、いくつかの付加文字を備えると同様に、１０の数文字「０」〜「９」と２６のアルファベット文字「Ａ」〜「Ｚ」を提供するために選択される。この実施例において、大文字と小文字は互いに区別されない。

表１に例示されるように、ベース４０数体系は数字０〜９、さらにＡ〜Ｚ、さらに４つの追加の数を含む。これらの数の一つは空のフィールドを表すために使用することができる。この数は空であるか、あるいは値を持たない（ゼロ値と対応する）データ・フィールド４１０を表すために使われる。例えば、他の数はスペースとしての情報やコントロール情報として用いられる他のタイプの情報を表すために使われる。

ベース４０フォーマットにおいて生データ２１０の表示は、多数の利点を持つ。一つの利点は生データ２１０が確実的な数学的操作を促進する数方式に表されることである。他の利点は、数体系の基数と数の両方の好ましい選択が、数値フォーマットの表示の生データ２１０の内容の認識を促進する意味の重要性を継続するための表示内容を許可することである。例えば、４つのアルファベット文字「Ｊ」「Ｏ」「Ｈ」「Ｎ」によって表される単語「ＪＯＨＮ」はさまざまな数体系において表される。そのような数体系の一つはベース４０数体系である。図１を使用して、ベース４０数字としての英数文字「ＪＯＨＮ」を表すことは、「４進法」値「ＪＯＨＮ」となる。そしてそれは小数値１,２５５,１０３（ベース４０「Ｊ」が小数１９に匹敵する１９^＊４０^３＋２４^＊４０^２＋１７^＊４０^１＋２３^＊４０^０等）と等しい。番号「ＪＯＨＮ」が内容「ＪＯＨＮ」として認識できるようにベース４０番号が意味の重要性を持続するのに対して、ベース１０番号は生データ２１０の内容から意味の重要性を失うことに注意を要する。意味の重要性は意味の内容を伝達するための能力を保持する間、数字表示の利点をもたらす。

本発明に係るいくつかの実施例において、基数の選択とその類似の数体系はプロセッサー１１０によって使用されるビット数に依存する。プロセッサー１１０によって使用されるビット数及び数体系のために選ばれる基数はプロセッサー１１０のデータ単語によって表わすことができる番号文字を明確にする。この関係は以下の方程式により決定される。

Ｎ＝Ｂ^＊ｌｎ（２）／ｌｎ（Ｒ）
ここでＮはプロセッサー１１０のデータ文字によって表される全体の文字の数であり、Ｂはデータ単語に対するビット数であり、Ｒは選択された基数である。この関係は１データ文字に適合する生データ２１０のデータ要素４２０の数を制限する。例えば、３２ビット機においてベース４０数体系を使用するデータ文字に適合する文字の最大数は６（３２^＊ｌｎ（２）／ｌｎ（４０）＝６．０１３）である。ベース４１数体系を使用するデータ文字に適合する文字の最大数は５だけ（３２^＊ｌｎ（２）／ｌｎ（４１）＝５．９７３）である。それゆえ、本発明のいくつかの実施例において、意味の重要性を維持するために十分に大きい基数を持つことに加えて、基数は単一データ文字によって表示される文字数を最大限に利用するため、及び／又はさまざまなプロセッサーの利点又は特定のデザインに基づく迅速な数学的演算を促進するために選択される。英数文字で構成される生データの実施例において、適切な基数は３６から４０の範囲をとることができる。

この範囲は３２ビットデータ文字によって表わされる文字数を最大にする間、意味の重要性を維持する。生データのほかのタイプとデータ単語の別のサイズは本発明のほかの実施例中の他の適切な基数範囲に影響するかもしれない。

上述された本発明の実施例は大文字と小文字を区別しない。しかしながら、本発明の別の実施例はこれらの文字のタイプを区別する。従って、ベース６４表示（「０」〜「９」、「Ａ」〜「Ｚ」、「ａ」〜「ｚ」、および２つの他の値）は明らかなようにこれらの文字の間で識別するのに適している。

各データ・フィールド４１０でのデータ要素４２０の数は、さらに、プロセッサー１１０の中で表わされるような数によって要求された精度を書き取らせる。

上述したように、各データ・フィールド４１０は単に、３２ビット機中の単精度オペレーションのための６文字又はデータ要素４２０幅となることができる。本発明のいくつかの実施例において、これは不十分かもしれない。これらの実施例では、２倍、３倍、又は４倍の精度が単一の値として全体のデータ・フィールド４１０を表すために要求される。２倍精度数は、１２文字データ・フィールド４１０まで十分であり、３倍の精度数は１８文字まで十分であり、そして４倍の精度数は２４文字まで十分である。

本発明の互いの実施例は、１又はそれ以上のより小さなデータ・フィールドへ大きなデータ・フィールドを分けることにより、大きなデータ・フィールドを収容できる。大きなデータ・フィールドは、スペースによって定義されたもののような自然的境界で分けられる。例えば、「１２３ West Main Street」のような住所を表わすデータ・フィールドは４つの小さなデータ・フィールド、すなわち「１２３」「West」「Main」及び「Street」に分けられる。大きなデータ・フィールドはまたデータ単語境界で分けられる。上記の住所例において、より小さなデータ・フィールドは次のとおりかもしれない：「１２３We」、「st＼Mai」、「n＼Stre」、及び「et」、そしてここで番号「＼」はスペースを表わすために使用される。本発明の他の実施例は明らかなように他の方法において大きなデータ・フィールドを提供する。

（データ構成変換）
図３に例示されるように、ステップ３３０において、数字として表わされる生データ２１０はあらかじめ定められたデータ構造に記憶さる。本発明の１つの実施例において、このデータ構造は図６の表６１０〜６７０によって例示されるような単一フィールドの表である。このデータ構造は変化することができる。例えば、本発明の他の実施例において、データ構造は単一フィールドの表の代わりに複合フィールドの表となることができる。これらの実施例では、データ構造が表ヘッダーや索引のような標準特性を満たし、また下記により詳しく説明されるように、各記録に対する確率値を含むことができる。これらの確率値は、その記録のデータが完全であるという可能性を表わす。より高い確率値は、完成度のより高い可能性を示し、より低い確率値は完成度のより低い可能性を示すことができる。これは、下記により詳細に記述されている。最初に、確率値は０にセットされる。他の実施例は、データ・レコードの関係のソートおよび維持を援助するためにさらに重要な数字あるいは識別番号を含むことができる。

本発明の好ましい実施例において、図５に例示されている生データ２１０は３つの表５１０、５２０および５３０を含んでいる。表５１０は、例えば会社の売掛金勘定システムからの生データ２１０を表わすことができる。表５１０の列は、アカウント番号、ラストネーム、ファーストイニシャル、及び特定の個人のために処理された様々な注文をリストするための追加のフィールドのためのデータ・フィールドを表わす。５１０−１と５１０−２のような表５１０の行は、異なる個人のためのデータ・レコードを表わす。表５２０と表５３０は、クレジットカード会社によって維持された生データ２１０を表わすことができる。表５２０と表５３０の列は、アカウント番号、ラストネーム、ファーストネーム及び住所のためのデータ・フィールドを表わす。表５２０と表５３０の行は、特定のアカウントのためのデータ・レコードを表わす。

好ましい実施例において、ステップ３３０は、生データ２１０を図５に例示されるフォーマットから図６に例示されるフォーマットに変換する。図６は、ベース４０数体系において番号として表わされ、またともに参照データベース２２０を含む新しい表（表６１０〜６７０）としてフォーマットされる図５の様々な生データ表５１０、５２０、５３０から組み合わせられた生データ２１０を例示する。

各参照データベース表６１０〜６７０は、図５の生データ表５１０、５２０及び５３０からの個々のフィールドに相当する。より明確に、参照データ表６１０〜６７０のデータ・レコードは生データ表５１０のデータ・レコードに相当し、さらに生データ表５２０のデータ・レコードに相当し、さらに生データ表５３０のデータ・レコードに相当する。生データ表レコードが参照表６１０〜６７０の中で表わされた特定のデータ・フィールド４１０のための情報を持たない本発明の１つの実施例において、空のフィールド値は参照表のそのフィールドに入力される。例えば、表５１０の第１データ・レコード５１０−１は、住所に関する情報を持たない。したがって、空のフィールド値は表６７０の第１位置に配置される。

データは、生データ表の単一データ・レコードに対応する全てのデータが、容易に識別されるのと同じ方法で参照データベース２２０に好ましく記憶される。例えば、図５と図６に表示された実施例において、生データ表（表５１０、５２０、５３０）の任意の特定のデータ・レコードに対応するデータは、参照表６１０〜６７０を超えてインデックスiに記憶された番号のデータの「ベクトル」として参照表６１０〜６７０に好ましく表わされる。例えば、（「５１ Fourth Street」に居住する「Jennifer Brown」に属している、アカウント番号「Ａ６０」として例示される）生データ表５２０の第６のレコード５２０−６に対応するデータは、表６１０〜６７０の第１０番目のレコード６１０−１０、６２０−１０、６３０−１０、６４０−１０、６５０−１０、６６０−１０および６７０−１０から形成される係数を持つベクトルとして、参照データベース表６１０〜６７０に表わされる。

図６に例示されるように、参照データベース２２０は、図５に例示される生データ２１０中の任意のデータ・フィールド４１０に相当しない新しい表６１０を含む。この表はこれらのデータベクトル中の関連データを識別する「見出し表」である。後述されるように、図６に例示される表で構成される参照データベース２２０は、データ・フィールドのための追加の見出し表を含むことができる。これらは個人の識別番号（「ＰＩＤＮ」）、アカウント識別番号（「ＡＩＤＮ」)、あるいは他のタイプの識別番号を含むことができる。これらの見出し表又は識別番号は参照データベース２２０の関連データベクトルのセットを識別するために使用される。

この例において、見出し表６１０は個人の識別番号を表わす単一フィールド「ＰＩＤＮ」を持っている。見出し表６１０は、特定のＰＩＤＮ番号が生データ２１０において表わされた１人以上を決して示さないような独特の確認を与える。言いかえれば、ＰＩＤＮ番号は、生データ２１０中の多くの倍数レコードが同一人物を示すことができるという事実を反映する。

むしろ、見出し表６１０中の各データ・レコードは最初に、生データ表５１０、５２０及び５３０に表わされた異なるデータ・レコードに相当する。例えば、図６において、見出し表６１０のデータ・レコード６１０−１０は生データ表５２０中の単一レコード５２０−６にともに相当する参照表６２０〜６７０のデータを対応させるための（ポインターやインデックスのような）確認を含むように実行される。

最初に、単一ＰＩＤＮが多数の個人を示さないが、単一個人は多数のＰＩＤＮに相当することができる。例えば、図６において、（ＰＩＤＮ４によって定義される）ベクトル４、及び（ＰＩＤＮ９によって定義される）ベクトル９は、同一人物を示すようだが、例示されるように、この人は２つのＰＩＤＮ番号、ＰＩＤＮ４とＰＩＤＮ９を最初に割り当てられる。後述するように、実際に、本発明はＰＩＤＮ４とＰＩＤＮ９が同じ個人を示すかどうかの決定を可能にし、そうならば、この個人に単一のＰＩＤＮを割り当てる。あるいはまた、いくつかの実施例は、決定した個人に新しいＰＩＤＮ番号を割り当てることができ、そして、古いＰＩＤＮ番号への参照は維持することができる。

上述したように、この実施例において、レコードは８つの１フィールド表を超えるベース４０番号の係数を持つベクトルとして参照データベース表６１０〜６７０に表示される。この数字表示は、例えば、相互関係を作り出して、固有ベクトルを計算して、さまざまな座標の変換を行い、そしてさまざまなパターン認識分析を利用するために使われる簡単な数学的処理を使ってデータが分析されることを可能にする。これらの処理は、順番に、レコードや互いへのそれらの関係についての情報を提供するか、あるいは導くために使われる。小さい、１フィールド表を使うことによって、これらのオペレーションは速く行われる。加えて、例示されるように、英数文字を含む生データ２１０を持つベース４０番号の表示がその意味の重要性を維持するための生データ２１０の内容を可能にする。

（データ解析）
図２に戻って参照すると、図６の中で示されるように、一旦参照データベース２２０が作成されれば、データ解析プロセス７００は純化データベース２３０への包含のために最も正確なデータを純化するために適用される。データ解析７００は、図７に関して記述されている。

（参照データの分割）
ステップ７１０では、参照データベース２２０が、いくつかの基準に基づいたセットへむしろ分割されるかソートされる。ソートする基準は変化することができる。例えば、図８の表８１０の中で示されるように、この実施例では、数値のオーダー（生データの内容が参照データベース２２０の中でベース４０番号として表わされることを呼び出す）を増加させる際に整えられた値と共に、データ・レコードはラストネームに基づいたセットへソートすることができる。独特なラストネームによって定義され、そのラストネームと一致する表６２０のレコードの対応するセットを有する表８１０の各エントリーと共に、表８１０は図６で示される表６２０の参照データベースに由来する。示された表現では、セット（索引、ポインターあるいは他の充当された参照のような（この場合ＰＩＤＮ））の部材を確認する者と同様に、表８１０はセット（この場合ラストネーム）を定義するために、フィールドを含んでいる。

この発明のいくつかの実施例では、参照データベース２２０中の全てのベクトルがセットに基づくフィールド用データを持つとは限らない。そのようなベクトルは様々な方法で扱うことができる。例えば、そのデータ・フィールド用のデータを有しない参照データベース２２０中の全てのベクトルは、単一で付加的なセットの部材と見なすことができる。

換わりに、そのデータ・フィールド用データを有しない参照データベース２２０中の各ベクトルは、それ自身のセットの単一の部材と見なすことができる。

（複製データの識別）
図７に戻って、ステップ７２０では、分割されたセット内の複製であると識別されたそれらのデータ・レコードはマークされる。この発明のいくつかの実施例では、複製データは不必要とすることができ、或いは廃棄することができる。他の実施例では、全ての情報は全ての情報として参照データベース２２０に残り、誤っている，不完全な，或いは複製された情報は、情報が無いよりかはましであり、このような不完全な情報であっても、不正行為や窃盗の識別のようなある目的に役立つことができる。

この発明のいくつかの実施例では、一組のベクトルの比較が複製を識別することができる。明白なものとして、様々な操作が使用されても構わない。単純な例では、真直ぐなベクトルの減法は、２つのレコード間の類似点の程度を測定するために実行することができる。共通の名前、愛称、略語などを確認するための「検査」テーブルを使用するような複製のベクトルを識別するために、他の技術を使用することもできる。

図８の表８１０は、図６で以下のように示された参照データベースの表６１０〜６７０のエントリー２、４、８、９および１１から形成されたベクトルを表わして、ＰＩＤＮ２、４、８、９および１１にラストネーム「ＳＭＩＴＨ」が相当することを示している：
ＰＩＤＮ２：［ＳＭＩＴＨ，Ｊ，９８−００２，Ａ４０，Ａ６０，^］
ＰＩＤＮ４：［ＳＭＩＴＨ，Ｊ，９８−００４，Ａ５０，Ｂ１０，^］
ＰＩＤＮ８：［ＳＭＩＴＨ，Ｊｅｎｎｉｆｅｒ，^，Ａ４０，^，３００ＰｉｎｅＳｔ．］ＰＩＤＮ９：［ＳＭＩＴＨ，Ｊｏｈｎ，^，Ａ５０，^，３７ＨｕｎｔＤｒ．］ＰＩＤＮ１１：［ＳＭＩＴＨ，Ｊｈｏｎ，^，Ｂ１０，^，８５ＢｅｌｍｏｎｔＡｖｅ．］ベクトルと、いつ２つのエントリーが複製と見なされるのに十分に類似しているのか決定するための閾値とを比較するベクトル（あるいはマトリクス）処理は、様々な実施例のために適切であると定義することができる。単純な例において、一組のベクトルの対応する係数間の絶対値の差の合計は、対応する組のレコード間の類似点を示すことができる。

第一のベクトルが第二のベクトルの任意のフィールドと一致せず、追加のデータを提供しない場合、この組のベクトルは複製と考えることができる。この実施例では、例えば、異なる長さ（例えば、数に対応した右に整列した文字列、および文字に対応した左に整列した文字列）のエントリーの比較のために、一般にミススペルや綴りの変化の認識のために、および言葉の転換された文字の認識のために、付則が定義されるであろう。明白ではあるが、この処理は様々なメカニズムによって実行することができる。図８の表８１０の例では、データ・レコードのどれも正確な複製ではない。したがって、いずれもステップ７２０でマークされない。

（データの関連付け）
図７に戻り参照すると、ステップ７３０では、本発明の好適な実施例は、各セット内でかつテップ７４０内に残るデータ・レコードを関連付け、さらにデータ・レコードの独立したサブセットの中へとデータ・レコード分配する。一般に、２つのベクトル間の「相関性」は、１つが他方とどれくらい密接に関係があるかの測定であり、関連付けの具体的な方法は意図したアプリケーションに依存して変化することができる。相関性機能の一般的な議論および例は、ウィリアムＨプレス（William H. Press）らによるNUMERICALRECIPES IN C: THE ART OF SCIENTIFIC COMPUTING （Cambridge University Press, 2nd ed. 1992）で見ることができる。他の技術および例は、ドナルドE.ヌース（Donald E. Knuth）によるTHE ART OF COMPUTER PROGRAMMING （Addison-Wesley Pub., 1998）で見ることができる。

例として、ベクトル間の相関性の単純な測定は、好ましくは、重みを加えることができるそれらのドット・プロダクトである。アプリケーションによって、ドット・プロダクトは、ベクトル係数のサブセットにのみに関して計算することができ、又は対応する係数だけでなく関連するフィールドで決定された他の計数のペアも比較するために決めることができる。（すなわち、第１ベクトルの「ファーストネーム」係数と第２ベクトルの「ミドルネーム」係数との比較）。複製データを識別するための作用として、相関性機能は、その意図したアプリケーションのために好ましくあつらえることができる。例えば、相関性機能は、異なる長さの情報入力を好ましく比較し、かつ大きな違いと僅かな違いを好ましく区別することができる。

図５、６及び８の表に関して説明した実施例において、相関機能の例は、独立したベクトルのサブセットを識別するために同じラストネームを共有するセットのメンバーに対応するベクトルを比較する。又、この決定は、アプリケーション特定基準に基づくことができる。この例において、独立のベクトルは、異なる個人を表わすベクトルであると定義することができる。

相関性機能のアプリケーションの結果として、１ペアのベクトルの独立の度合いを反映する相関パラメーターが割り当てられる。例えば、高い値は高い程度の類似性を示すために割り当てることができ、低い値は類似性の制限のある程度を示すために割り当てることができる。その後、それらのベクトルに対応する２つの記録が独立かどうか決めるために、相関値を予定されたしきい値（異なるアプリケーションにおいて異なってもよい）と比較する。

ステップ７４０で相関値に基づいて、好適な実施例は、データ・レコードを各セット内の独立したデータ・レコードのサブセットに分配する。図５、６の例および図８の表８１０において、独立したサブセットのメンバーは、（スペル間違え及びスペルのバリエーションの考慮の結果として）同じラストネーム、（スペル間違え、スペルのバリエーション、ニックネーム、ファーストネームとミドルネームの組み合わせ、及びイニシャルの考慮の結果として）相対的に似たファーストネームを持ち、１つ又はそれ以上の一致するアカウント番号を持っていること、及び（仕事および自宅住所、およびアドレスの１つの変更を考慮に入れ）３つを超える住所を持たないこと、を有するメンバーであると識別することができる。

かような機能のアプリケーションの結果は、図８の表８２０に示される。識別された個人は次のとおりである
Jennifer Brown（ジェニファー・ブラウン）、ＰＩＤＮ１０、
Howard Lee（ハワード・リー）、ＰＩＤＮ３および６、
Carole Lee（キャロル・リー）、ＰＩＤＮ７、
Jennifer Smith（ジェニファー・スミス）、ＰＩＤＮ２および８、
John Smith（ジョン・スミス）、ＰＩＤＮ４および１１、
John Smith（ジョン・スミス）、ＰＩＤＮ９、
Ann Zane（アン・ゼーン）、ＰＩＤＮ１、５および１２、及び
Molly Zane（モリー・ゼーン）、ＰＩＤＮ１３。

ベクトルを関連付けるための他の作用も利用可能である。これらには、ドット・プロダクト、クロス・プロダクト、長さ、方向ベクトル、及び大量の他の機能およびよく知られた技術に従った評価のために使用されるアルゴリズムを計算することを含んでもよい。

図９は、本発明のいくつかの一般的な様相について記述するために概念的に使用されるクラスターに関する概念の二次元の例を示す。図９では、４個のクラスターが二次元のポイントの集合として存在する。これらのクラスターは、（a、b）、（c、d）（e、f）、そして（g、h）として識別される。図示するように、各クラスターは、二次元空間の１つ又はそれ以上のポイントから形成される。各ポイントは、その空間でクラスターの「真の」値を（多かれ少なかれ正確に）表わすデータ・レコードに相当する。図示するように、クラスター（a、b）及び（c、d）を、お互い及びクラスター（e、f）から区別することはかなり容易である。しかし、この単純な例において、クラスター（e、f）及び（g、h）をお互いに区別することは容易ではない。空間の拡張（すなわち、ベクトルへの追加のデータ・フィールドの追加）は、（e、f）及び（g、h）などのクラスター間の分離を増加させるこができ、それらは、互いにより容易に区別されるようになる。代わりに、空間の拡張は、（g、h）がクラスター（e、f）又はクラスター（c、d）に属するポイントであること示すことができる。理論上、空間は無限に拡張し、結果として様々な有名な特性を持つヒルベルト空間となる。これらの特性は、無限ではないが大きなベクトルのために本発明によって利用することができることは明らかである。

さらにベクトルに対する追加のデータ・フィールドの追加（すなわち、空間を拡張すること）は、それらの相互関係における支援のためにお互いからクラスターを分離することができ、ベクトルからのデータ・フィールドの削除（すなわち、空間を縮小）することは、いくつかの相関性を識別することもできる。本発明のいくつかの実施例では、空間の縮小が、実際上、同じ個人または他の特異な実体を表わす一定のクラスターを識別することができる。例えば、データベース中の１つの記録は、データベース中の第２の記録での同じ１０個のデータ・フィールドと全く同一の１０個のデータ・フィールドを持つことができる。これらのデータ・フィールドは、ファーストネーム、生年月日、住所、母親の旧姓などに対応する。しかしながら、これらの２つの記録は、異なる２つのフィールドを持つことができる。これらの２つのフィールドは、ラストネーム及び社会保障番号に対応することができる。ある場合には、これらの記録は、同じ個人に対応することができる。本発明は、不可能でないにしても従来方式の使用によっては検知すること困難であろうこれらのタイプの記録を識別する過程を単純化する。

したがって、ベクトルから１つ又はそれ以上の特定のデータ・フィールドの除去および対応する空間の縮小は、そうでなければあきらかにされないであろうクラスターを明らかにすることができる。伝統的に識別目的（例えばラストネーム、社会保障番号など）のために使用されるデータ・フィールドのためにこれを行うことは、データベース中の複製の記録を明らかにすることができる。これは、特に不正を識別するのに有用である。データ・フィールドのための空のフィールド値を含むベクトルのところでのデータ・フィールドの除去は、さらにそうでなければ明らかにされないクラスターを明らかにすることができる。

さらに、一旦クラスターが同じ個人または実体を表わすものとして識別したならば、個人か実体のための最良の情報を、各記録又は「黒いドット」によって提供される情報から抽出することができる。

本発明の法則は単純なベクトル及びデータ・フィールドを越えて拡張することができる。例えば、本発明は、多次元空間での目的物を表わすテンソルの使用を通じて拡張することができる。この方法では、本発明をそれらの作用および効力への追加的洞察力を得るために様々な物理的な現象のパラメーターを表わすために使用してもよい。そのようなアプリケーションは、人間の遺伝子を判読すること、及びヒトゲノム計画のようなプログラムの努力での補助に、特に有用である。

（標準データの取り扱い）
再び図７を参照すれば、ステップ７５０において、本発明の好適な実施例は「標準」データ・レコードを評価する。標準データ・レコードは、ステップ７１０でいずれのセット内にも分配されなかった参照データベース２２０からの記録である。いくつかの実施例において、参照データベース２２０は、データ・フィールドに対応する多くの表およびフィールドの様々な組み合わせのためのデータを持つ多くのベクトルを含んでもよい。例えば、異なるデータ・フィールドのための２０の表および各表のための関連するデータ・レコードによって明確にされた１０００のベクトルを含む参照データベース２２０をもつ実施例において、その１０００のベクトルのうちの８００だけが、セットがステップ７１０で作成された「ラストネーム」のフィールドのためのデータを持つと仮定する。ステップ７１０は、いずれかのセット内へ「ラストネーム」データのない２００のベクトルを分配することができないし、或いは、それ自体のセットへの２００のベクトルの各々を分配もしない。いずれの場合も、結果として、これら２００のベクトルがステップ７２０、７３０及び７４０における他のものとは関連しないということである。ステップ７５０は、これらのベクトルを評価することができる。

評価の方法は変更することができる。例えば、一実施例では、各々の放置されたエントリーをステップ７４０で識別された各サブセットの１人のメンバーと関連させることができる。生じた相関値により、そのベクトルは、それが最も高度に関連付けられているものを持つサブセットに追加されるか又は新しいサブセットを作る。或いは、ある実施例において、そのような評価が時間を消費しすぎ及び／又は高価であることを決めることができ、ステップ７５０は完全に省略することができる。

（相関性プロセスの繰り返し）
特定の実施例に必要なように、ステップ７１０から７５０を繰り返すことができる。上で触れたように、いくつかの実施例は、フィールドのサブセットだけのためのデータをもつ多くのエントリーと共に、多数のフィールド及び多数のエントリーを持つ参照データ２２０を有する。そのような場合において、一つのフィールド上のステップ７１０から７５０の実行は、恐らくすべて関連情報を引き出さない。図５、６及び８に関して説明された単純な例においても、単一のフィールド「ラストネーム」の関連付けは、それらのエントリー間の相関性に関する部分的な情報のみを提供する。例えば、ＰＩＤＮ２と１０は共通のアカウント番号を共有するかもしれないから、図６の中のＰＩＤＮ２及び８に対応するジェニファー・スミスは、ＰＩＤＮ１０に対応するジェニファー・ブラウンと同じ個人であるかもしれない。ラストネーム・フィールド上での相関付けの実行は、同じラストネームを共有する他のＰＩＤＮに対してのみ評価されることから、同じ個人に対応するこれらＰＩＤＮを識別することができない。アカウント番号フィールド上での相関付けの実行は、これらのＰＩＤＮが関連付けられるかどうかに関する追加情報を提供することができる。

従って、様々なデータ・フィールドわたる相関性は、参照データベース２２０中でのデータの関連性の程度を完全に評価するのに必要であろう。

（参照データを更新するための相関結果の使用）
一旦ステップ７１０から７６０が完了すれば、図２で示されるように、参照データベース２２０は純化データベース２３０内に純化される。本発明のいくつかの実施例において、これらの２つのデータベースは別々に扱われ、互いに共存する。本発明の他の実施例において、単一のデータベースは、参照データベース２２０又は純化データベース２３０に属するものとしてマーク又は識別された記録と共に存在する。これは、２つのデータベース中での記録のためにＰＩＤＮの異なる範囲を使用することによる割り当てによりなすことができる。さらに、２つのデータベース中の記録間の関係は、純化データベース２３０中の記録のためのＰＩＤＮを発生するため、参照データベース２２０中の記録のためのＰＩＤＮに一定値を加えることにより維持することができる。例えば、参照データベース２２０中の１２３４５のＰＩＤＮを持つ記録は、純化データベース２３０内に９０１２３４５のＰＩＤＮを持つことができる。この方法では、２つのデータベースを単一のデータベースの別個の部分として扱うことができる。

（純化データの使用）
一旦データ透析プロセス７００が完了すれば、純化データベース２３０は、関連する記録として参照データベース２２０からのデータ・レコードのサブセットを識別し、また、上に触れるように、完成度の質的測定を提供するために、参照データベース２２０中のフィールドのための確率を決定することができる。これは、完成度の確率を個々のデータ・フィールドに割り当て、その後にデータ・レコードのための完成度の全体的な確率を計算するためのそれらフィールドを使用することによりなすことができる。例えば、ファーストネームを表すデータ・フィールドについては、「J」の値は低い確率（例えば０又は０.１）に割り当てられ、「JOHN」の値はより高い確率（例えば０.７又は０.８）に割り当てられ、そして、「JONATHAN」の値には最も高い確率（例えば０.９または１.０）を割り当てることができる。これらの値はある程度任意に又は構成のある仮説に従って割り当てることができる。しかしながら、これらの値は、最も完全な情報、言いかえれば、最も蓋然的なデータを含めるためにセット中のどのデータ・フィールドが最もありそうかを識別することを助ける。

本発明の使用は、記録についての膨大量の情報およびお互いのそれらの関係を決定することができ、特に特別のアプリケーションにあつらえることができる。さらに、標準のデータベース操作を使用して、参照データベース２２０の記録を参照する純化データベース２３０を、必要とされるフォーマットされたレポートを提供するのに操作することができる。例えば、実施例は、特定の個人か実体に関する情報を提供するサブセットの記録によって、関連する記録のサブセットをリストするレポートを作るために、あつられることができる。そのようなサブセット内の記録は、情報の異なるフィールドに関する例として、個人によって使用される別名及び／又は名前、アドレス、社会保障番号など、及び１つを越えるエントリーを持つ個人のための居所、住所およびアカウント番号のようなフィールドなどの、情報を提供することができる。

数的なベース４０フォーマット内で表わされるすべてのデータを再考すると、サブセットはレポートの中で数的に命じることができる。ベース４０フォーマットには、上の換算表の中で図示するようにそれぞれの文字としてのアルファベットの文字を表わすという追加的な長所がある。

したがって、レポートが数的な表現でエントリーを示す一方で、その表現はデータの意味的な重要性を保持し、データをマニュアルで読むこと及び分析することを可能にする。

例えば、レポートがＪＳＭＩＴＨ、ＪＯＨＮＳＭＩＴＨ、ＪＯＨＮＧＳＭＩＴＨ、ＧＳＭＩＴＨおよびＧＥＲＡＬＤＳＭＩＴＨを含む名前のエントリーを持つ個人のための記録を示す場合、そのレポートを読むある人は、この個人が彼のファーストネーム又は頭文字、彼のミドルネーム又は頭文字、又はそれらの組み合わせを含む様々なファーストネームを使用していると、理解するであろう。

（新しいデータの追加）
従来のデータベース・アプリケーションでのように、新しいデータを時々加えられることができる。図２の中で示すように、本発明は、参照データベース２２０及び純化データベース２３０に影響するであろう新しい（又は変更した）データ２４０の追加を説明する。

一般に、図３に関して記述したように、新しいデータ・レコード２４０をフォーマットすることができるし、既存の参照データベース２２０に入ることもできる。それに加えて、新しい情報または内容が新しいデータにおいて利用可能かどうか決めるために、純化データベース２３０に対して、新しいデータ・レコード２４０が測定される。例えば、純化データベース２３０の中に既に存在するいずれかのデータ・レコードに関係があるかどうか決めるために、新しいデータ・レコード２４０を純化データベース２３０からのデータ・レコードと関連付けることができる。もしそうであり、かつ新しいデータ・レコード２４０が純化データベース２３０の中に未だ存在しない情報または内容を含むなら、新しいデータ・レコード２４０が純化データベース２３０を更新するために使用することができる。例えば、新しいデータ・レコード２４０がデータベース２３０の中に既にあるデータ・レコードに対応するジョン・スミスという名の個人の情報を含んでいるが、スミス氏のミドルネームがグレッグであるという追加情報を提供した場合、その追加情報は純化データベース２３０に好ましく加えることができる。

参照データベース２２０及び純化データベース２３０中のデータ・レコードへの変更は、標準のデータベース保護作用を使用して、C.J.DATE、INTRODUCTION TO DATABASE SYSTEMS（Addison Wesley, 6th ed. 1994）（特にPart IV参照）等に記述されるように扱うことができる。例えば、許可されたデータベースの管理者によって参照データベース２２０に変更が加えられる場合、参照データベース２２０の関連したデータ・レコードは、データベース２３０の中で明確にされた関係に合わせて標準の関係定義によって決定されるように及び適切なところで、更新される。

（フィールド・ベクトルの間の複製データを確認する）
従来のデータベースと関連していた１つの問題は、生データ２１０Ａのような第１データベースを、生データ２１０Ｂのような第２データベースと記録を結合することの困難さである。その中に含まれている内容が参照データベース２２０あるいは純化データベース２３０のようなデータベースで１つの記録として結合するように共有あるいは重複データを持つこれらデータベースの記録は認識される必要がある。例えば、両方のデータベース２１０は、ジョン・スミス（JOHN SMITH）のために１つもしくはそれ以上のエントリーを含むこともできる。もしデータベース２１０におけるそれぞれの記録が同じ個々のジョン・スミスを表すならば、各々の記録の内容は、例えば、純化データベース２３０における１つの記録として結合されるべきである。

これらのデータベースにおいてそのような複製データを認識するための従来のブルート・フォース方法は、第１データベースからのデータ記録と第２データベースにおける全てのデータ・レコードの比較を含み、第１データベースにおいて各記録のためのこの工程を繰り返す。この工程は時間を消費し、数多くの計算を行い、労働集約的であり、従ってコストがかかる。実際、計算の数は、２つのデータベースの各々における記録の数に幾何学的に関係する。

データベース２１０における複製データを確認するために必要とされる計算の時間及び数を減少させるための１つの工程は、図１０から図１２を参照して以下に示される。以下に示された工程において、例えば、名前フィールド又は住所フィールドのように、データベースの間で共通もしくは類似した特定のフィールドは、選択される。このフィールドは、テーブル又は各々の記録のために選択されたフィールドの値を含む各々のデータベースのための配列として配列される。例えば、上記されたように、各テーブル６１０−６７０は、データベースにおける各々のデータ・レコードの特定のフィールドを表す。この検討の目的のため、これらのテーブルはフィールド・ベクトルとして参照される。

本発明によれば、各々のフィールド・ベクトルは、番号順にソートされ、そして、もし必要ならば、上記されたように図７及び図８で同じデータのセットに分割される。例えば、JOHN SMITH（ジョン・スミス）と関連する多重の記録は、フィールド・ベクトルの中で共に分割されるだろう。好ましくは、セット間の分割の配置に関する情報は、格納される。

いったん、フィールド・ベクトルが分類されて、分割されれば、第１フィールド・ベクトルの第１要素の価値は、第２フィールド・ベクトルの第１要素の値と比較される。本質的に、第１フィールド・ベクトルにおける値が第２フィールド・ベクトルにおける値より大きいならば、第２フィールド・ベクトルへのインデックスは上回り、もしそうでなければ、第２フィールドで次の値をもたらすために次に分割されたセットの中の位置へ調節される。第２フィールド・ベクトルにおけるこの次の値は、第１フィールド・ベクトルにおける値と比較される。これは、第１フィールド・ベクトルにおける値が第２フィールド・ベクトルにおける値より大きい限り続く。

一方、第１フィールド・ベクトルの値が第２フィールド・ベクトルの値より少ないならば、第１フィールド・ベクトルへのインデックスは上回り、もしそうでなければ、第１フィールドで次の値を得るために次に分割されたセットの中の位置へ調節される。この第１フィールド・ベクトルにおける次の値は、第２フィールド・ベクトルにおける値と比較される。これは、第１フィールド・ベクトルにおける値が第２フィールド・ベクトルにおける値より小さい限り続く。

第１フィールド・ベクトルの値が第２フィールド・ベクトルの値と同じであるとき、工程は、好ましくは共通のフィールド・ベクトルに格納される複製データを認識する。認識された複製データを格納した後で、第１フィールド・ベクトルへのインデックス及び第２フィールド・ベクトルへのインデックスは両方共上回り、もしそうでなけなければ、それぞれのフィールド・ベクトルの次に分割されたセットの中の位置に調節される。

このように示された工程は、フィールド・ベクトルにおける値の間の差異に基づく配列のどちらにでも、インデックスを調整するフィードバック制御機構として見ることができる。上記された実施例において、正の差異は、第２フィールド・ベクトルのインデックスに調整を提供し、一方、負の差異は、第１フィールド・ベクトルのインデックスに調整を提供する。この工程は、フィールド・ベクトルにおける値の数と従来の方法と関連していた幾何学の関係と対照して必要とされる計算（すなわち、比較）の数の直線の関係を生じる。

本発明は、ソート構造にまで拡大することもできる。特定の値が、ベクトル（例えば、アルファベット順、数量的等）における値の命令に基づくフィールド・ベクトル（すなわち、記録はデータベースに挿入されなければならない）に挿入されなければならない場合、特定の値及びベクトルにおける要素のうちの１つの値の差異は計算される。この差異は、ベクトルから次の値を生み出すために、インデックスをベクトルに調整するための、「フィードバック」である。コントロール理論の確立した方法を使って、インデックス調整は、挿入されるための値の適切な位置を測定するために、統合することもできる。インテグレータに加え、釣り合った増加は明らかに、所望のシステムの実行を確立をするための差異に適用することもできる。

本発明は、図１０−１２を参照して記述される。図１０は１対のフィールド・ベクトル内の重複データを認識するためのフローチャートである。フィールド・ベクトルは（例えば、１つのデータベースで住所フィールドをメーリング・アドレスと比較するとき）生データ２１０Aのような単一ソース、あるいは（例えば、２つのデータベースの間で名前フィールドを比較するとき）生データ２１０Aと生データ２１０Bのような多数のソースからであることもできる。

この記述の目的のために、各々、１対のフィールド・ベクトルは、第１フィールド・ベクトル（“ＦＶ１”）、及び、第２フィールド・ベクトル（“ＦＶ２”）とされる。好ましくは、これらのフィールド・ベクトルにおけるデータは、上記されたように、英数字両用のデータを表すベース―４０数である。しかしながら、本発明のいくつかの実施例において、データは同様に他のフォームにも存在することができる。

ステップ１０１０で、第１フィールド・ベクトルは、番号順にソートされる。

ステップ１０２０で、第２フィールド・ベクトルは、同じく番号順にソートされる。本発明の実施例の１つにおいて、ベクトルは、番号順の指令が増加する際ソートされるが、本発明の他の実施例は、明らかとなっているように指令が減少する際ベクトルをソートすることもできる。

ステップ１０３０で、普通値を持っている第１フィールド・ベクトルの中の分割されたセットが認識される。同じく、ステップ１０４０で、普通値を持っている第２フィールドベクトルの中の分割されたセットが同じく認識される。ステップ１０１０−１０４０が図７及び図８の参照で上記された参照データベース２２０の分割のステップと類似した機能を実行する。本発明のいくつかの実施例において、フィールド・ベクトルは分割されたセットを含まないことができるように、それぞれのフィールド・ベクトル内の普通値を削除することもできる。しかしながら、本発明の好ましい実施例において、特定のフィールド・ベクトルの中の普通値は維持される。

ステップ１０５０で、第１及び第２フィールド・ベクトルの間で普通値を認識する普通値のベクトルは、好ましくはソートされたセットを用いて決定される。

ステップ１０５０は図１１を参照してより詳細に記述される。

図１１は１組のフィールド・ベクトルの間で普通値を確認するためのフローチャートである。ステップ１１１０において、３つのベクトル・インデックスが初期化される。最初のベクトル・インデックスＩが第１フィールド・ベクトルＦＶ１へのインデックスであり、２番目のベクトル・インデックスＪが第２フィールド・ベクトルＦＶ２へのインデックスであり、そして３番目のベクトル・インデックスＫが普通値のベクトル（“ＣＶ”）へのインデックスである。上記されたように、普通値のベクトルは、第１及び第２フィールド・ベクトルの両方によって共有された値を含む。第１位置を第１及び第２フィールド・ベクトルの各々に設置するため、インデックスＩ及びＪは初期化される。インデックスＫは次の普通値が普通値ベクトルに含められるための位置を定めるために初期化される。

決定ステップ１１２０で、本発明は第１フィールドベクトルの「Ｉ」番目の位置での値が第２フィールドベクトルの「Ｊ」番目の位置の値もしくはそれ以上であるかどうか決定する。もしそうであるなら、処理が決定ステップ１１３０において継続する、もしそうでなければ処理はステップ１１７０において継続する。ステップ１１７０は、第１フィールドベクトルの「Ｉ」番目の位置での値が第２フィールド・ベクトルの「Ｊ」番目の位置の値以下のとき、効果的に実行される。ステップ１１７０において、第１インデックスＩは次に分割されたセットの始まりの位置を第１フィールド・ベクトルに設置するために調節される。ステップ１１７０の後で、処理は決定ステップ１１６０において続く。

決定ステップ１１３０において、本発明は第１フィールド・ベクトルの「Ｉ」番目の位置における値が第２フィールド・ベクトルの「Ｊ」番目の位置の値と等しいかどうかを決定する。もしそうであるなら、処理が決定ステップ１１４０において継続し、さもなければ処理がステップ１１８０において継続する。ステップ１１８０は、第１フィールド・ベクトルの「Ｉ」番目の位置での値が第２フィールド・ベクトルの「Ｊ」番目の位置の値より大きいとき、効果的に実行される。ステップ１１８０で、第２インデックスＪは第２フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるように調整される。ステップ１１８０の後、処理は決定ステップ１１６０において継続する。

ステップ１１４０は、第１フィールド・ベクトルの「Ｉ」番目の位置での値が第２フィールド・ベクトルの「Ｊ」番目の位置の値と等しいとき、効果的に実行される。ステップ１１４０で、第１及び第２の両方のフィールド・ベクトルに含められた値は普通の値のベクトルに置かれる。

ステップ１１５０で、３番目のインデックスＫは認識される次の普通値の普通値ベクトルにおける配置ために増加する。最初のインデックスＩは第１フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるために調整される。２番目のインデックスＪは第２フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるように調整される。

決定ステップ１１６０で、本発明は追加の分割をされたセットが第１フィールド・ベクトルと第２フィールド・ベクトルの両方で存在するかどうかを決定する。もしそうであるなら、処理はステップ１１２０において継続する。もし分割されたセットが第１フィールド・ベクトルあるいは第２フィールドベクトルで残らないなら、処理は終わる。処理が終わるとき、普通値のベクトルは第１及び第２フィールドベクトルの間で認識したすべての複製データを含む。

図１２は本発明に基づいたフィールド・ベクトルの間で複製データを確認する例を示す。ステップ１０１０及び１０３０は、フィールド・ベクトル１（“ＦＶ１”）をソートし、分割し、ステップ１０２０及び１０４０は、フィールド・ベクトル２（“ＦＶ２”）をソートして、分割する。ステップ１０５０の操作は、ステップ１１２０からステップ１１６０を通し、そしてステップ１１２０に戻る通過は「ループ」とされるステップ１１１０−１１８０を参照して示される。

最初のループで、ＦＶ１の第１要素（すなわち、「０」番目の位置）はＦＶ２の第１要素と比較される。（これはＦＶ１とＦＶ２の間の両方の端及び注釈された１で矢印で示される線として図１２に示される）。この例において、ＦＶ１の値「８」は、ＦＶ２の値「８」と比較される。決定ステップ１１２０と１１３０がこれらの値が等しい、そして、ステップ１１４０で、値「８」が普通値ベクトルに置かれることを決定する。（これは両方の端及び注釈１’で矢印を持ち、ＦＶ２と普通値ベクトルの間の線として図１２で示される。）ステップ１１５０は、次に分割されたセットを指し示すために、両方のフィールド・ベクトルのインデックスを調整する。決定ステップ１１６０は、更に分割されたセットが双方のフィールド・ベクトルに存在すること及び第２のループの開始を決定する。

第２ループで、ＦＶ１の次の要素はＦＶ２の次の要素と比較される。この例において、ＦＶ１の値「９」はＦＶ２の値「９」と比較される。これらの値は等しくなるように再び決定され、値「９」は普通値ベクトルに置かれる。前と同様に、ステップ１１５０は、それぞれのフィールド・ベクトルにおける次に分割されたセットを指し示すために、両方のインデックスを調整する。決定ステップ１１６０は、更に分割されたセットが両方のフィールド・ベクトルに存在すること及び第３ループを開始することを決定する。

第３ループで、ＦＶ１の次の要素はＦＶ２の次の要素と比較される。

この例において、ＦＶ１の値「１０」は、ＦＶ２の値「１２」と比較される。決定ステップ１１２０は、ＦＶ１における値がＦＶ２における値より大きくなく又は等しくないことを決定し、そしてステップ１１７０において、その中で次に分割されたセットを指し示すためにＦＶ１へのインデックスが調整される。決定ステップ１１６０は、更に分割されたセットが両方のフィールド・ベクトルに存在し、そして、第４のループが開始されることを決定する。

第４のループにおいて、ＦＶ１の次の要素は、ＦＶ２の前の値と比較される。

この例において、ＦＶ１の値「１２」は、ＦＶ２の「１２」の以前に比較された値と比較される。決定ステップ１１２０及び１１３０は、それらの値が等しいことを決定し、そしてステップ１１４０において、値「１２」は、普通値ベクトルに配置される。ステップ１１５０は、それぞれのフィールド・ベクトルにおける次に分割されたセットを指し示すために、両方のインデックスを調整する。決定ステップ１１６０は、更に分割されたセットが両方のフィールド・ベクトルに存在すること及び第５ループを開始することを決定する。

第５ループにおいて、ＦＶ１の次の要素はＦＶ２の次の値と比較される。この例において、ＦＶ１の値「１５」は、ＦＶ２の値「１８」と比較される。決定ステップ１１２０は、ＦＶ１における値がＦＶ２における値より大きくなく又は等しくないことを決定し、そしてステップ１１７０において、その中で次に分割されたセットを指し示すためにＦＶ１へのインデックスが調整される。分割されたセットがＦＶ１に存在しないので、処理は終わる。

この例において、ループ毎に最大２つの比較を行う５つのループは２つのフィールド・ベクトルの間で３つの普通の値を認識することを必要とする。ブルート・フォース方法で、１３２の比較（１２*１１）が必要とされる。

（情報を前もってコード化する）
本発明の様々な実施例において、同時にそれを用いて、そのオリジナルのフォーマットから数値フォーマットへデータを変換している若干の実施例より前、あるいは実施例で、データは媒介でコードされたフォーマットの中に前もってコード化される。この前もったコード化は、更にオリジナルのフォーマットにおいてコード化されたフォーマットに情報を縮小、もしくは圧縮する。いったんコード化されたフォーマットに移ると、上記されたように、データは適切な数値のフォーマットで表すことができる。本発明のこれらの実施例は、例を通して最もよく示される。

本発明の１つの実施例において、音素がコード化されたフォーマットとして、そのオリジナルのフォーマットでデータを表すために使われる。
この実施例において、音素を単語、単語（例えば、音節）、あるいは単語の句の部分をコード化するために用いることもできる。それゆえに、同じ、もしくは、同様の音を出す単語、または、音節は、同じ音素を用いて表される。例えば、名前「John（ジョン）」、または、「Jon（ジョン）」は、同じ音素を用いて表される。いくつかの実施例においては、名前「Joan（ジョーン）」は、名前「John（ジョン）」、及び、「Jon（ジョン）」のために使われるそれらと同じ音素を用いて同様に表されるかもしれない。本発明によれば、各音素を一部利用した音素に基づいた適切な数体系で数字として続いて表明される。

例えば、特定の言語が、「音」、または、音素として有限数に分析され、そして、適切な数体系の中の数字として表すこともできる。この方法において、テキストは例えば、検索エンジンの使用において、特定のつづりよりも、音声学に基づいてコード化することによってつづりのエラーの影響を最小にすることもできる。

本発明のこれらの実施例はスピーチ、音声認識と人工的なスピーチ表現装置に展開することもできる。適切な数体系として上記されるように、特に、聴覚のスピーチ音素（対応するテキスト音素と対照した場合）が同様に表され、上記されるように、音声認識とスピーチ表現を単純化するために用いることもできる。

本発明の他の実施例において、単語、句、慣用句、文及び／又はアイデアが前もってコード化されて、そして次に、上記された適切な数体系で数として表されることもできる。これら実施例は、例えば、自動化された言語翻訳システムを改善するために用いることもできる。これら実施例は同じく検索エンジンを改善するために用いることもできる。１つあるいはそれ以上のアイデアあるいはコンセプトに関係するテキストの大きい部分がアイデアあるいは伝えられたコンセプトのそれぞれに基づいて前もってコード化されるかもしれない。これら実施例は同じぐらいそうしてもよいか、あるいは節で現われない特定の単語あるいは句を認識及び／又は反対に見つけることに概念的な探索することを供給する。

本発明の他の実施例において、生のアドレス情報が例えば、ベース６０システムのように、経度と緯度、適切な数体系として座標の中に前もってコード化される。そのようなシステムは、オペレーション、ナビゲーションシステム、または、トラッキングシステムを作るのに特に有益であるかもしれない。

本発明の他の実施例において、生の指紋データは、様々なパラメータ、登録ポイント又は適切なナンバー・システムにおける一致する数字として続いて表明される指紋を分類することに適した、証印を認識する他の方法で前もってコード化される。各指紋は、フィールドにおける値によってこのように表すこともでき又は各指紋は、フィールドのベクトルとして表すこともできる。この結果として生じるデータは整理され、そして様々な目的のために個人から集められた指紋に基づいてこのような情報のデータベースで維持することもできる（すなわち、犯罪者と非犯罪者の両方）。これらには、法廷の科学者、保安要員、バックグラウンド調査者等によって集められた指紋を含むこともできる。本発明は、理想的に既存の指紋データベースをクリーニングして、参照データベースの中にそれらのデータベースを結合して、利用可能になるように、新しい指紋情報を加えて、そして参照データベースで指紋情報を合わせることに適している。

多くの場合、基礎をなしているオリジナルのデータを前もってコード化する実施例を使用することで中間のフォーマットの中で前もって処理されなくてはならない、ということは理解されるべきである。このように、本発明が検索文脈で用いられるために、検索される情報は前もってコード化されるか、あるいは「前もって処理」されなくてはならない。ある場合には、本発明の他の実施例に関して上記されるように、この前もっての処理は意
味の重要性の損失をもたらすかもしれない。

（典型的な実施例）
本発明の様々な実施例は、その若干が上記され、及び／又は言及された多くの異なったアプリケーションのために用いることができる。例えば、上記されたアプリケーションで、本発明は関連したデータ記録が認識され、そして重複、誤ったデータ記録が削除される純化されたデータベースを得るために多数のソースから集められた序列情報を結合するために用いることもできる。示唆されるように、これは例えば、詐欺のようなケースで特に有用であるかもしれない。通常、クレジットカードあるいは小売り詐欺の他のフォームを使っている人々は個人的な情報のある特定の部分をわずかに変更し、ほとんどの情報を変えないようにしておく。例えば、しばしば、社会保障番号の数字が置き換えられるかもしれない、あるいは別名が使われるかもしれない。しかしながら、しばしば個人の住所、生年月日、母親の旧性等のような他の住所が、認識に用いられる。これらのタイプの詐欺は、たとえ、それらが人間の分析によって確認しにくいとしても、本発明によって容易に確認される。

他の可能な適用は、電話で販売することにおいては目標を定められた個人のリストあるいはアドレスを編集するため、メール・オーダー・カタログにおいては、同じ個人、または、家族に送られたカタログを減らすため、類似のデータベースを売っている種々のベンダーから記録を結合するために用いることを含む。まだ可能性のある適用が医学の研究あるいは診断フィールドにあり、ヌクレオチドでアデニン（Ａ）、グアニン（Ｇ）、サイトシン（Ｃ）、そしてチミン（Ｔ）の配列が核酸で認識されるかもしれない。別の適用は、国税庁、政府そして地方自治体などのような課税のための組織が正確な徴収と税金の基礎情報を組織化して、そして維持するために用いる。

他の実施例において、本発明は、後日データベースで完全性を達成するよりむしろ、最初から、データベースの完全性を持続するために発端においてゲート・キーパーとして特定のデータベースのために用いることもできる。これらの実施例において、生データ２１０は存在せず、新しいデータ２４０のみが、存在する。新しいデータ２４０がデータベースに加えられる前に、新しいデータ２４０が追加の情報あるいは内容を含むかどうかを決定することが、純化されたデータベース２３０に対して測定される。もしそうであるなら、明白であるであるように、ただその新しい情報あるいは内容だけが新しい情報あるいは内容を反映するためにアップデートされたデータベース２３０で既存の記録を更新することによって、アップデートされたデータベース２３０に加えられる。

本発明の他の実施例において、ユナイテッド・ポスタル・サービスのような郵送サービス又は、エアボーン・エクスプレス、フェデラル・エクスプレス、ユナイテッド・パーセルサービス等のような宅配便において有効な住所のリストを維持するために本発明を使う。配達される荷物に関する住所がどのような誤りでも認識するために住所の参照データベースと照合される。不正確なアドレスは（例えば、変更された番号などのために）訂正されるかもしれないし、あるいは送り主は住所を確かめるために連絡を取られるかもしれない。例えば、荷物が首尾よく届けられるので、利用可能な状態になるにつれ、参照データベースに新しい住所を加えることができる。更に、ある特定の送り主が荷物の届け先を書き間違えするか、あるいは正しくないアドレスを提供する傾向があると判断することもできる。もし適切であるなら、これらの送り主にそれに応じて通知することもできる。

上記されたように、ＤＮＡの配列の断片に合うように本発明を用いることに加えて、遺伝子の研究者（例えば、薬品会社、種の会社、動物の飼育家など）が同じく本発明をセットで個人の特徴を明白に、触知可能な、及び／又は目的を表すため、この情報を個別の遺伝子あるいはこれらの特徴に関して原因となる遺伝子の連続配列を認識するために用いることもできる。

他の実施例において、本発明は、インターネットのようなネットワークに関する信号（パケット）切り替え、及び、データの発送ために用いられる。入って来るパケットは、宛先アドレス及び連続した情報のために調査され、そして、適切な命令における適切な出力待ち行列に分類される。この実施例において、数をソートする本発明の能力は、従来のシステムに対する明白な利点を提供する。これは、代わりの数体系（現在使われる従来の数システムに対照して）を使う結果拡張されたアドレス空間と結合し、ネットワークアドレス指定、及び、通信プロトコルの改良された方法を供給する
他の実施例において、本発明は、３次元の環境で対象物をレンダリングし、表すために使われる。これらの活動は対象物のそれぞれに、照明の特徴を決定する（すなわち陰影等）こと同様、前景でどの対象物を示すべきか、どの対処物が背景で相応して不明瞭にされるかを決定するためにソートの膨大な量を必要とする。

本発明は好ましい実施例において示されたが、他の実施例及びバリエーションは、以下の請求項の範囲内にある。例えば、フォーマット化工程３００が、異なった基数を用いるデータあるいは他の文字セットをフォーマットすることもでき、そして種々のデータ構造を使うこともできる。データ構造は多数のフィールドを表すこともでき、そしてアプリケーションによって、様々なフィールドを表すこともできる。例えば、預金への適用で、フィールドが口座の使用者についての個人的な情報の他に口座の地位、口座番号と法律上の地位を含むこともできる。医療診断への適用において、フィールドは、組織サンプルにおいて検出された様々な対立遺伝子、または、他の遺伝子の特性を含むこともできる。

Claims

情報に含められたデータ要素の可能な値の範囲に基づく適切な数体系を選択するステップ、
数体系における数字として前記データ要素を表すステップ、及び
情報を処理するために数体系中で表された前記データ要素を操作するステップ、
からなることを特徴とする情報処理のための方法。
適切な前記数体系を選択する前記ステップが、情報に含まれたデータ要素の可能な値の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項１の方法。
情報中の前記データ要素が英数文字を含むことを特徴とし、適切な数体系を選択するステップが前記データ要素のための可能な英数文字の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項１の方法。
情報が化学の情報を含むことを特徴とし、適切な数体系を選択するステップが情報中の可能な化学の組成の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項１の方法。
数体系における数字として情報中の前記データ要素を表すステップが、数体系中のそれぞれの数字を前記データ要素として認識可能な値に割り当てるステップからなることを特徴とする請求項２の方法。
数体系における数字として情報中の前記データ要素を表すステップが、数体系中のそれぞれの数字を前記データ要素として認識可能な値に割り当てるステップからなることを特徴とする請求項１の方法。
適切な数体系を選択する前記ステップが、適合した処理システムのデータ単語に適するデータ要素の数を最大にする前記基数を持つ前記数体系を選択するステップを更に含むことを特徴とする請求項２の方法。
適切な数体系を選択する前記ステップが、適合した処理システムのデータ単語に適するデータ要素の数を最大にする前記基数を持つ前記数体系を選択するステップを更に含むことを特徴とする請求項４の方法。
生データベース中の非数的データ・フィールドを数的ベクトルに変換するステップ、
前記ベクトルが純化マトリクスに含まれるかどうかを決定するために前記ベクトルを純化マトリクスと比較するステップ、
前記ベクトルが前記純化マトリクスに含まれなければ前記ベクトルを前記純化マトリクスに含めるステップ、及び
前記純化マトリクスを使用する純化データベースを形成するステップ、からなり、生データベースが大多数の記録を含み、この大多数の記録のそれぞれがデータ・フィールドを含み、それぞれのデータ・フィールドがデータ要素を含む、
情報を少なくとも一つの生データから純化データベースに変換するための方法。
前記ベクトルが生データ・ベース中でその始点を表した状態で情報を保持するステップを更に含むことを特徴とする請求項９の方法。
参照データベース中に前記ベクトルを含めるステップ、及び
前記参照データベース中の前記ベクトルの適切な位置を認識するステップ、
を更に含むことを特徴とする請求項９の方法。
前記ベクトルの適切な位置を認識するステップが、前記ベクトルと似た別のベクトルを設けるステップからなることを特徴とする請求項１１の方法。
前記ベクトルと類似した他のベクトルを設ける前記ステップが前記ベクトルと前記他のベクトルを数値的に比較するステップからなることを特徴とする請求項１２の方法。
前記参照データベースの第２データベースと類似している前記参照データベースの第１データベースを設けるステップを更に含む請求項１１の方法。
第１ベクトルを設けるステップが、前記参照デーダベース中の前記第２ベクトルと同一のものと確認できる前記参照データベース中の前記ベクトルを設けるステップからなることを特徴とする請求項１４の方法。
前記第１ベクトルを設ける前記ステップが、前記参照データベース中の前記第２ベクトルの複製である、前記参照データベース中の前記第１ベクトルを設けるステップからなることを特徴とする請求項１５の方法。
前記第１ベクトル及び第２ベクトルからの最良情報を含む前記第１ベクトル及び第２ベクトルから純化ベクトルを形成するステップを更に含む請求項１４の方法。
前記ベクトルと純化したマトリックスを比較する前記ステップが、前記ベクトルが前記純化マトリックスに含まれるかどうかを決定するために前記ベクトルと前記純化マトリックスを比較するステップからなることを特徴とする請求項１７の方法。
前記参照データベースの全ての他のベクトルと異なる前記参照データベースの第１データベースを設けるステップを更に含む請求項１１の方法。
前記第１ベクトルから純化ベクトルを形成するステップを更に含む請求項１１の方法。
純化マトリックスと前記ベクトルを比較する前記ステップが、前記ベクトルが前記の純化マトリックスに含まれるかどうかを決めるために、前記の純化マトリックスと前記ベクトルを比較するステップからなることを特徴とする請求項２０の方法。
データ・フィールドを変換する前記ステップが、前記データ・フィールドでのデータ要素の少なくとも同じ数の可能な値において、
基数をもつ適切な数値システムの選択、
数値システムで数字として前記データ要素の表示、及び
前記ベクトルへの前記数字の記憶、
のステップからなることを特徴とする請求項９の方法。
特定のオーダーでの第１フィールド・ベクトルのソート、
特定のオーダーでの第２フィールド・ベクトルのソート、
第１フィールド・ベクトル中の第１インデックスでの第１値と第２フィールド・ベクトル中の第２インデックスでの第２値の比較、
前記第１値が前記第２値と同じでない場合、前記第１値と前記第２値との間の差異に基づく前記第１インデックスと前記第２インデックスの一つの調節、
のステップからなる第１フィールド・ベクトル及び第２フィールド・ベクトルのデータを整理するための方法。
前記第１値が前記第２値と同じ場合に前記第１および第２値が複製のデータとして決定されることを特徴とする請求項２３の方法。
特定のオーダーにおける第１フィールド・ベクトルをソートする前記ステップが増加するオーダーにおける第１のフィールド・ベクトルをソートするステップからなることを特徴とし、特定のオーダーにおける第２フィールド・ベクトルをソートする前記ステップが増加するオーダーにおける第２のフィールド・ベクトルをソートするステップからなることを特徴とする請求項２３の方法。
特定のオーダーにおける第１フィールド・ベクトルをソートする前記ステップが減少するオーダーにおける第１のフィールド・ベクトルをソートするステップからなることを特徴とし、特定のオーダーにおける第２フィールド・ベクトルをソートする前記ステップが減少するオーダーにおける第２のフィールド・ベクトルをソートするステップからなることを特徴とする請求項２３の方法。
前記第１インデックスと前記第２インデックスの一つを調節する前記ステップが、前記第１値が前記第２値より小さいときに前記第１インデックスを調節するステップからなることを特徴とする請求項２３の方法。
前記第１インデックスと前記第２インデックスの一つを調節する前記ステップが、前記第２値が前記第１値より小さいときに前記第２インデックスを調節するステップからなることを特徴とする請求項２３の方法。
前記第１インデックスと前記第２インデックスの一つを調節する前記ステップが、
前記第１値が前記第２値より小さいときの前記第１インデックスの調節、及び
前記第２値が前記第１値より小さいときの前記第２インデックスの調節、
のステップからなることを特徴とする請求項２３の方法。
前記第１インデックスと前記第２インデックスの一つを調節する前記ステップが、第１値が第２値より大きいかどうかに基づき前記第１インデックスと前記第２インデックスの一つを増加させるステップからなることを特徴とする請求項２３の方法。
前記第１インデックスと前記第２インデックスの一つを調節する前記ステップが、第１値が第２値より大きいかどうかに基づき前記第１インデックスと前記第２インデックスの一つを減少させるステップからなることを特徴とする請求項２３の方法。
前記第１値が数値であることを特徴とし、前記第２値が数値であることを特徴とする請求項２３の方法。
前記第１値は英数値を表す数値で、そして前記第２値が英数値を表す数値であることを特徴とする請求項３２の方法。
少なくとも１セットの普通値の中に前記第１フィールド・ベクトルを分割し；
少なくとも１セットの普通値の中に前記第２フィールド・ベクトルを分割する；
ステップをさらに含む請求項２３の方法。
前記第１インデックスと前記第２インデックスの１つを調節する前記ステップが前記第１フィールドと前記第２フィールド・ベクトルのそれぞれで次に分割されたセットに前記第１インデックスと前記第２インデックスの１つを調節するステップからなる請求項３４の方法。
前記第１フィールド・ベクトルを普通値のセットに分割する；
前記第２フィールド・ベクトルを普通値のセットに分割する；
第１フィールド・ベクトルにおける第１位置の第１値と第２フィールド・ベクトルにおける第２位置の第２値を比較する；
もし前記第１値が前記第２値と等しくないなら、前記第１値と前記第２値の間の相違に基づいて前記第１位置と前記第２位置の内の１つを調節するステップの方法であり、特定のオーダーで、ソートされた第１フィールド・ベクトル及び第２フィールド・ベクトルを第１フィールド・ベクトルと第２フィールド・ベクトルのデータを整理するための方法。
もし前記第１値が前記第２値と等しいなら、前記第１及び第２値が複製データとして決定されることを特徴とする請求項３６の方法。
前記第１位置と前記第２位置の１つを調節する前記ステップが前記第１フィールド・ベクトルと前記第２フィールド・ベクトルのそれぞれの、次に分割されたセットに前記第１位置と前記第２位置の１つを調節するステップからなることを特徴とする請求項３６の方法。
第１及び第２フィールド・ベクトルが増加する番号順にソートされ、前記第１位置と前記第２位置の１つを調節する前記ステップが、
もし前記第１値が前記第２値より少ないならば、前記第１フィールド・ベクトルで次の分割をされたセットに前記第１位置を調節し；
もし前記第２値が前記第１値より少ないならば、前記第２フィールド・ベクトルで次の分割をされたセットに前記第２位置を調節する、
ことからなる請求項３８の方法。
第１及び第２フィールド・ベクトルが、数値が減少する順にソートされ、前記第１位置及び第２位置の内の１つの調節する前記ステップが、
もし前記第１値が前記第２値より大きいならば、前記第１フィールド・ベクトルで次の分割をされたセットに前記第１位置を調節し；
もし前記第２値が前記第１値より大きいならば、前記第２フィールド・ベクトルで次の分割をされたセットに前記第２位置を調節する、
ことからなる請求項３８の方法。
ソートされる値を受け取り；
前記値が含まれるベクトルにおける第１位置を決定し；
前記位置で前記ベクトルからベクトル値を回収し；
前記値と前記ベクトル値の間の相違を決定するために前記ベクトル値をフィードバックし；かつ
前記相違の少なくとも一部に基づいた前記ベクトルにおける新しい位置を決定する、
ステップからなるデータをソートする方法。
新しい位置を決定する前記ステップが、前記ベクトルにおいて、前記第１位置の少なくとも一部に基づいた新しい位置を決定するステップからなる請求項４１の方法。
請求項１乃至４２のいずれかの方法によって実施するために記憶されたプログラムからなる、データを整理するためのコンピュータシステム。
請求項１乃至４２のいずれかの方法によって実施するためにコード化され整理されたデータのためのコンピューター・プログラムを持つ、
媒体を読み込むことが可能なコンピューター。