JP2010092490A - データ整理のための方法及びシステム - Google Patents

データ整理のための方法及びシステム Download PDF

Info

Publication number
JP2010092490A
JP2010092490A JP2009251330A JP2009251330A JP2010092490A JP 2010092490 A JP2010092490 A JP 2010092490A JP 2009251330 A JP2009251330 A JP 2009251330A JP 2009251330 A JP2009251330 A JP 2009251330A JP 2010092490 A JP2010092490 A JP 2010092490A
Authority
JP
Japan
Prior art keywords
vector
value
data
field
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009251330A
Other languages
English (en)
Inventor
Bjorn J Gruenwald
ブジョーン・ジェイ・グルンワルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PriMentia Inc
Original Assignee
PriMentia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/617,047 external-priority patent/US6542896B1/en
Application filed by PriMentia Inc filed Critical PriMentia Inc
Publication of JP2010092490A publication Critical patent/JP2010092490A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データベースシステムでデータを整理するためのシステム及び方法を提供する。
【解決手段】一つ若しくはそれ以上のソースからの生データを整理するシステム及び方法は、データベースのフィールド(すなわちコラム)間で複製したデータを認識するための改善された装置を使用する。そのフィールドは、一つのデータベース内で似たフィールド、又は、2つのデータベース内で似た若しくは同一のフィールドでもよく、アレイ若しくはフィールド・ベクトルと同じ位に整理されている。必要であればそれぞれのフィールド・ベクトルをソートし、共通の値によって分割する。フィールド・ベクトル間の複製したデータを認識するのに必要とされる多くの比較は、比較された値の違いをフィードバックすることによって減少する。この違いは、続いてなされる比較のためのフィールド・ベクトルの中でインデックスを調節するのに使用される。
【選択図】図2

Description

本発明はデータベースシステムに関し、特に、データベースシステムでデータを整理し及び/又は見いだすためのシステム及び方法に関する。
コンピュータ化されたデータベースシステムは長い間使用されており、それらの基本的なコンセプトはよく知られている。データベースシステムの良い紹介はC.J.DATE, INTRODUCTION TO DATABASE SYSTEMS(AddisonWesley,6thed.1994)に見いだすことができる。
一般に、データベースシステムは、データベース中のデータが有用であるような方法でデータを整理し、記憶し、そして読み出すために設計される。例えば、データ、あるいはデータの分割されたセットは、検索され、ソートされ、整理され、及び/又は他のデータと組み合わされることができる。かなりの範囲で、特定のデータベースシステムの有用性は、データベースシステムにおけるデータの完全性(すなわち、正確さ及び/又は正当性)に依存している。データの完全性は、記憶されたデータの「乱雑」の程度に影響される。乱雑は、複製データ、未完成なデータ、不正確なデータなどの誤ったあるいは不完全なデータのかたちで起こるかもしれない。多くのデータベースシステムにおいて、時折、現存するデータが編集されそして処理されるかもしれず、その結果として、追加のエラーが導かれるかもしれない。いくつかのデータベースシステムにおいて、新しいデータが導かれるかもしれない。さらに、データベースシステムが新しいハードウェア及び/又はソフトウェアでアップグレードされるとき、データ変換が必要とされるかもしれず、あるいは追加のフィールドが必要となるかもしれない。
さらに、いくつかのアプリケーションにおいて、データは時間とともに簡単に古くなってしまうかもしれない。
予防ステップが講じられても、結局はある程度の乱雑が従来のデータベースシステムに導かれる。ついには、従来のデータベースのデータが完全に無用になるまで、この乱雑の程度が長い間に幾何級数的に増加する。結果として、乱雑の小さい程度でさえ結局はデータベースシステムの完全性に影響を与える。
あいにく、データの乱雑を識別し修正することは不可能ではないとしても、大きなデータベースシステムにおいて特にしばしば難しい作業である。従来的に、これらの作業は時間がかかり、高価であり、そして人為的ミスの問題があるので、このような作業はマニュアルで行われる。さらに、タスクのまさにその本質のために、乱雑の多くを見つけられないかもしれない。必要とされるのは、これら及び他の関連づけられた問題を克服するデータベースシステム中でデータを整理するためのシステム及び方法である。
本発明は、データベースシステムでデータを整理するためのシステム及び方法を提供する。本発明は、1個あるいはそれ以上の生データソースより抽出された生データから正確なデータの純化データベースを得る。生データはそのオリジナルのフォーマットから数値のフォーマットに変換される。
本発明の1つの実施例によれば、生データは数値の要素を持つベクトルとして表される。一旦生データが数値的に表されれば、特有のベクトルが「純化された」若しくは参照のデータベースにおける他のベクトルとどのように内容が一致するのかを決定するために、相関性機能、パターン認識方法、又は他の類似した数値的方法のような数学的処理が実行されることができる。純化データベースは、他のセットに関して独特であると信じられる1個あるいはそれ以上の関連したベクトルのセット(例えば、直交の)から構成される。
これらのセットは、生データから利用可能な最良の情報を表す。すべての生データが純化データベースに取り入れられた後、新しいデータは新しいエラーが純化データベースに導入されないことを保証するために選別すことができる。新しいデータはまた、それが独特であるかどうか、あるいはそれが純化データベースに既に存在しているデータよりも良い情報を含んでいるかどうかを決定するために評価することができる。それに従って、新しいデータは、純化データベースに付け加えられる。
本発明の1つの実施例によれば、生データは適切な基数を持つ数体系に基づいて数値のフォーマットに変換される。適切な基数は、生データに含められた情報のタイプに基づいて決定される。例えば、一般に英数文字で構成された生データのために、適切な基数は、生データ中に存在している異なった英数文字の数に等しいかそれ以上であることができる。このような数体系を使うことは、生データが数値的に表されることを可能にし、種々のよく知られている数学的な処理による操作を可能にする。
本発明の1つの実施例によれば、数自身がそれが表す生データに対して意味の重要性を保持するように、数体系は選択されることができる。換言すれば、数字が生データに対応するように、数体系で数字は選ばれる。例えば、英数文字で構成された生データの場合に、数字はそれらが表する英数文字に対応するよう選ばれる。数体系での数字が続いて表されるとき、それらはそれらが表す英数文字として現われる。
本発明の1つの実施例によれば、一旦生データが適切な数体系においてベクトルとして表されれば、表されたデータは効率的に種々のよく知られているテクニックを使ってデータベースで操作(例えば、ソートなど)されることができる。さらに、種々のよく知られている数学的な処理が、データ内容を分析するためにベクトル上で行われることができる。明白であろうように、これらの数学的な処理は相関性機能、固有ベクトル分析、パターン認識方法及び他のものを含むことができる。
本発明の1つの実施例によれば、生データは純化データベースに取り入れられる。純化データベースは、いかなるデータ乱雑をも持たずに、生データから抽出された最良の情報を表す。
本発明の1つの実施例によれば、新しいデータは、実際に新しい情報あるいは純化データベースに未だ存在していない内容を含むかどうかを決定するために純化データベースと比較することができる。すでに純化データベースの中のどんな新しい情報も、いかなる乱雑をも加えることなく、純化データベースに加えられることはない。この方法で、純化データベースの完全性を維持することができる。
発明によれば、情報処理のための方法は、情報に含められたデータ要素の可能な値の範囲に基づき適切な数体系を選択し、その数体系で数字としてデータ要素を表すステップを含む;そして情報を処理するために数体系で表された前記データ要素に作用する。
本発明の1つの実施例によれば、適切な数体系を選択するステップは、英数文字「0」から「9」及び「A」から「Z」のオーダーと少なくとも等しくそしておよそ同じである基数を持つ数体系を選択するステップを含む。
本発明の1つの実施例によれば、適切な数体系を選択するステップは、英数文字「0」から「9」及び「A」から「Z」のオーダーより大きい基数を持つ数体系を選択するステップを含む。
本発明の1つの実施例によれば、適切な数体系を選択するステップは、英数文字「0」から「9」、「A」から「Z」、及び「a」から「z」のオーダーと少なくとも等しい基数を持つ数体系を選択するステップを含む。
本発明の1つの実施例によれば、適切な数体系を選択するステップは、ベース40数体系の一つを選択するステップを含む。
本発明の1つの実施例によれば、情報は、財政の情報、科学的な情報、産業的な情報あるいは化学的な情報を含む。
数字を付与するステップが、数体系で英数文字「a」から「z」にそれぞれ数字A-Zを付与することを更に含む、クレーム16の方法。
本発明の1つの実施例によれば、前記ベクトルと純化マトリクスを比較する前記ステップは、固有ベクトル分析の実行又はパターン認識分析の実行又は前記ベクトルと純化マトリクス中のベクトルの間のドット・プロダクトを決定すること又は前記ベクトルと純化して得た前記マトリクス中のベクトルの間のクロス・プロダクトを決定すること又は前記ベクトルと純化マトリクス中のベクトルの間の違いを決定すること又は前記ベクトルと純化マトリクス中のベクトルの和を決定すること又は前記純化マトリクスの行列式を決定すること又は前記ベクトルの大きさを決定すること又は前記ベクトルの方向を決定することからなることを特徴とする。
発明は、一般に、独立クレームで述べられたように特徴づけられるのに対し、従属クレームは発明の望ましい実施例を含んでいる。
発明の望ましい実施例は、後の参照図面で説明される。図面において、同じ参照番号は、同一かあるいは機能上類似の要素を示す。さらに、参照番号の左端の数字は参照番号が最初に現われる図面を示す。
本発明は、データベースシステムでデータを整理するためのシステム及び方法に向けられる。本発明は種々の模範的な実施例について、特に種々のデータベース・アプリケーションについて以下に記述される。しかしながら、外見上明白であるように、本発明の種々の特徴は他のエリアに拡張されることができる。一般に、本発明は、データによって表された内容に様々な関係が存在することを明らかにするために、潜在的に無関係なデータの大部分がコンパイルされ、記憶され、操作され、及び/又は分析されなければならない多くのデータベース・アプリケーションに適用することができる。より詳しくは、本発明は、データが初めに高度の乱雑を持っているときでさえ、本発明はデータベースシステムでデータの完全性(すなわち、正確さと正当性)を達成し維持するための方法を提供する。ここで使われるように、乱雑は、複製した、エラーのある、不完全な、不正確な、偽りあるいはさもなければ正しくないか、あるいは不必要なデータに関係する。乱雑は、明白であろう多くの方法でデータベースシステムの中にそれ自体を与えることができる。
本発明の1つの実施例は、受取可能アカウントと結び付けられたデータベースを保守するために使われる。この実施例において、会社は、種々の人々、ビジネス、及び/又は一つ或いはそれ以上のソースからのアカウントに関連するデータを集めることができる。
これらのソースは、例えば、クレジットカード会社、金融機関、銀行、小売りと卸売りのビジネス、及び他のそのようなソースを含むことができる。これらのソースのそれぞれが種々のアカウントに関連しているデータを提供できる間に、それぞれのソースはそれ自身の必要性に基づいて異なった情報を表すデータを提供することができる。さらに、このデータは完全に異なった方法で整理することができる。例えば、卸売業者は、ビジネスアカウントに対応した受取可能アカウントに対応したデータを持つことができる。このようなデータは、それぞれのデータ・レコードがアカウント番号、そのアカウント番号と結び付けられたビジネス、そのビジネスの住所、及びそのアカウントに借りがある額を認識するデータ・フィールドを持った状態で、アカウント番号によって整理されることができる。小売りの会社は、類似の情報を表すデータ・レコードを持つことができるが、ビジネスと同様、個人に対応するアカウントに基づくことができる。
本発明の他の実施例において、他のタイプのソースが異なったタイプのデータを提供してもよい。例えば、科学的な団体は、研究の種々の分野に関して科学的なデータを提供することができる。工業的な会社は、原材料、製造、生産高、及び/又は供給に関して産業的なデータを提供することができる。裁判所あるいは他のタイプの法曹界の団体は、法律上の地位、判決、破産、及び/又は先取特権に関して法律上のデータを提供することができる。外見上明白であろうように、本発明は多種多様なソースからデータを使うことができる。
本発明の他の1つの実施例においては、データベースを、統合化された請求処理を実行しそしてコントロールシステムに命令するために保守することができる。請求のタイプの情報のほかに上に記述されたそれらに類似しているソースから、この実施例は在庫に対応しているデータ・レコード、在庫の供給元に対応しているデータ・レコードと在庫の買い手に対応しているデータ・レコードを含むことができる。在庫データは、内部部品番号、外部部品番号(すなわち、供給元の部品番号)、手元の数量、出荷が予想される量、受け取りが予想される量、卸売り価格と小売り価格とを識別するデータ・フィールドを有するそれぞれのデータ・レコードが持つ部品番号によって整理することができる。供給元データは、供給元数によって整理されることができる;そして顧客データは顧客数によって整理されることができる。これらの記録のそれぞれに対応しているデータ・レコードは、パート数、パート価格、注文された量、出荷データ、及び他のそのような情報を識別しているデータ・フィールドを含むことができる。
もう1つの本発明の実施例は、データのタイプ、データを生成したコンピュータのタイプ、データを要求したコンピュータのタイプにかかわらず、多数の似ていないソースからの企業情報を強固にし、そして企業のネットワーク上でその情報をユーザーにとって入手可能であるようにする企業記憶装置システムを含むことができる。更にもう1つの本発明の実施例は、情報を格納しそして市場に出しそしてその情報が処理されオンラインで分析されることを可能にするビジネス情報システムを含む。
本発明は、分析すべき異なるソースから集めかつ正確なデータの集合の中に純化した生データを特定のアプリケーションに有用な方法に構成することを可能とする。下記により完全に説明するが、統合した請求処理及びオーダー制御システムの上記の例を使用するとき、本発明は、特定のサプライヤー又は顧客に関係するデータを同様に識別することができるような、関連したデータの純化データベースを作ることができる。この例において、同じサプライヤー又は顧客に対応する複製データは、識別され及び/又は廃棄することができ、サプライヤー又は顧客に関連した誤ったデータは識別され、分析され、あるいは修正することができる。
図1は本発明を実行することができる処理システムを示す。 図2は本発明の1つの実施例によって処理されるデータのステージを示す。 図3は本発明の1実施例に従い、生データをオリジナルフォーマットから数的フォーマットへ変換するためのフローチャートを示す。 図4は本発明の使用に適したデータ・レコードを示す。 図5は本発明の使用に適した生データ表示を示す。 図6は本発明の1実施例に従い、フォーマットされたデータを表す参照データ表を示す。 図7は本発明の実施例と一致する参照データの分析のためのフローチャーである。 図8は本発明の実施例と一致する関連する相関値を表示する、純化データの表を示す。 図9は二次元空間におけるデータ・クラスターの例を示す。 図10は一組のフィールド・ベクトルの間の複製データを識別するためのフローチャートである。 図11は一組のフィールド・ベクトルの間の複製データを識別するための、さらに詳細なフローチャートである。 図12は一組のフィールド・ベクトルの間の複製データの識別の例を示す。
一般に、本発明は、ハードウェア又はソフトウェア、あるいは両方の組み合わせの中で実行することができる。好ましくは、本発明は、プロセッサー、データ記憶システム及び入力および出力装置を含むプログラム可能な処理システム上で実行するソフトウェアプログラムとして実施される。システム100のような例は、図1の中に示す。システム100はプロセッサー・バス150で互いに連結されたプロセッサー110、メモリ120、記憶装置130およびI/Oコントローラー140を含むことができる。I/Oコントローラー140は、キーボード170、マウス180及びディスプレイ190のような、様々な入力および出力装置にI/Oバス160を介してつながれる。他のコンポーネントもシステム100に含むことができる。
図2は、本発明によって処理されたデータの様々な形式を図示する。生データ210は、生データ210A及び生データ210Bのような1つ又はそれ以上のソースから集めることができる。ここにおいて使用するように、「生データ」は、単に特定のソースから受け取るものとしてのデータを参照する。生データ210の追加のソースを明らかなものとして含むことができる。下に説明するように、様々なソースからの生データ210は好ましくは、数値のフォーマットに変換され、参照データベース220に記憶される。ここにおいて、「データ透析」とされるプロセスを使用するとき、本発明は、参照データベース220中の参照データを形成するために、生データ210を「浄化する」。参照データベース220は、複製、不完全、一貫しない、及び誤ったデータを含む生データ210で見つかった情報をすべて含む。
純化データベース230に記憶された純化データは、参照データベース220の参照データから得られる。純化データは生データ210から利用できる「正確な」データを表わす。純化データベース230は、生データ210で見つかった独特の情報を含む。純化データはこのように生データ210から利用可能な最良の情報を表わす。
さらに下で説明するように、本発明はさらに新しいデータ240を分析し確認するために純化データベース230の使用を提供し、参照データベース220及び純化データベース230を更新するのにも用いることができる。
本発明は多数の実施例を持つが、説明を明らかにするため、好適な実施例を統合した請求処理及びオーダー制御システムの情況において中の図3から図8を参照しつつ説明する。この実施例では、生データ210は、支払い可能なアカウント及び受取り可能なアカウント等のオーダー処理、発送、受取りのような様々なソースから集められたデータの集合である。この生データ210は、関連づけられるが、異なるデータ・フィールド、複製のデータ・レコード、1つ又はそれ以上の誤ったデータ・フィールド等を持ち、それに関係するデータ・レコードを含むことができる。そのようなエラーに取り組むために、本発明は、生データ210を(ソースによって異なってもよい)データ構造およびオリジナルのフォーマットから数値のフォーマットに変換し、参照データベース220にこの参照データを記憶する。
本発明によれば、その後、利用可能な最良の情報を純化するために参照データを比較し分析する。本発明の一実施例では、この最良の情報を純化データとして純化データベース230に記憶することができる。このプロセスを以下、説明する。
(生データの収集)
図3は本発明の一つの実施例による参照データベース220の参照データに変換される生データ210によるプロセスを例示する。ステップ310において、生データ210は生データソースから収集される。図2に例示されるように、生データ210は生データ210Aや生データ210Bのような1又はそれ以上のソースからのデータを含むことができる。ここで使用されるように、「データ」は情報の物理的デジタル表示を示し、データ「内容」はそのデータによって表わされる意味を示す。生データ210中の異なった記録は、類似したタイプのデータ内容を含むことができる。例えば、請求処理において、生データ210中の異なった記録は特定のアカウントに関するデータ内容を全て含むことができる。
生データ210は図4に例示するように、データ・レコード400の形で一般的に受信されるだろう。各データ・レコード400は一般に、特定の個人、会社、又はアカウントのための情報のような関連した情報を含む。各データ・レコード400は1又はそれ以上のデータ・フィールド410にこの情報を記憶する。例えば、ふさわしいデータ・フィールド410の例は、アカウント番号、ラストネーム、ファーストネーム、会社名、アカウントバランスなどを含む。その結果、各データ・フィールド410は特定の記録や特定のフィールドのための情報を表わすための1又はそれ以上のデータ要素420を含むことができる。データ要素420は、明らかなように、英数字、数字、ASCIIやBECDIC、あるいは他の表示のようなさまざまなフォーマットに存在することができる。異なったソースから収集された生データ210は、別々にフォーマットされる。データ・レコード400は異なったデータ・フィールド410を含み、データ・フィールド410に含まれる情報は、明らかなように、異なったフォーマットのデータ要素420を使って表される。
生データ210の例は、図5の生データ表510、520及び530に例示される。データ・フィールド510−Aやデータ・フィールド510−Bのようなデータ・フィールドが生データ表510、520や530の列として例示されるのに対して、データ・レコード510−1やデータ・レコード510−2のようなデータ・レコードは、生データ表510、520や530の行として例示される。データ・フィールドやデータ・レコードのいずれかを通常の数学的なベクトルあるいはテンソルと見なすことができ、従って処理することができる。図5に例示される表は本発明に係るさまざまな実施例に見られるデータの例である。他の実施例において、データが多くのソースから来るかもしれないし、明らかなように、非常に多くのデータ・レコード及び/又はデータ・フィールドを持つデータベースとしてフォーマットされるかもしれない。
(数値フォーマットへの転換)
図3を参照して、ステップ320において、本発明はそのオリジナルの表示(それは、英数字、数字、ASCII、EBCDICあるいは他の同様のフォーマットである)から数字の表示に生データ210を変換する。これは、参照データが同じ方法で表わされることを確実にする。したがって、異なるソースからのデータを含む参照データは同様に処理される。
本発明に従い、生データ210はそのオリジナル表示から適切な数字表示に変換される。適切な数字表示はデータ要素420の各々のふさわしい量が数体系の独特のアラビア数字や値によって表わされる数体系を使用する。言い換えれば、数体系のための基数は、その基数が特定のデータ要素のための可能な値の数と少なくとも同じであるように選ばれる。例えば、核酸のアデニン(A)、グアニン(G)、シトシン(C)及びチミン(T)ヌクレオチド配列を検索するバイオテクノロジーアプリケーションにおいて、各データ要素はただ4つの値の一つ:A、G、C及びTとなる。そのようなアプリケーションにおいて、数体系の4つの基数は独特の数として各データ要素を表わすために十分である。そのような数体系の一つは数A、G、C及びTを含むことができる。本発明にかかるいくつかの実施例において、空のフィールドを表す数を与えるために、データ要素420の少なくとも異なった可能な値の数より大きい1つの基数を使うことが望ましい。この場合、数体系のように数A、G、C、Tと^含むことができ、そしてそこで^は空のフィールド値である。
本発明における好ましい実施例に従い、生データ210中のデータ要素420は英数文字のような文字で構成される。この好ましい実施例において、40の基数が下記の表に例示されるように英数文字を表わすために選択される。(36の最小基数が要求されることに注意)この基数は、いくつかの付加文字を備えると同様に、10の数文字「0」〜「9」と26のアルファベット文字「A」〜「Z」を提供するために選択される。この実施例において、大文字と小文字は互いに区別されない。
表1に例示されるように、ベース40数体系は数字0〜9、さらにA〜Z、さらに4つの追加の数を含む。これらの数の一つは空のフィールドを表すために使用することができる。この数は空であるか、あるいは値を持たない(ゼロ値と対応する)データ・フィールド410を表すために使われる。例えば、他の数はスペースとしての情報やコントロール情報として用いられる他のタイプの情報を表すために使われる。
Figure 2010092490
ベース40フォーマットにおいて生データ210の表示は、多数の利点を持つ。一つの利点は生データ210が確実的な数学的操作を促進する数方式に表されることである。他の利点は、数体系の基数と数の両方の好ましい選択が、数値フォーマットの表示の生データ210の内容の認識を促進する意味の重要性を継続するための表示内容を許可することである。例えば、4つのアルファベット文字「J」「O」「H」「N」によって表される単語「JOHN」はさまざまな数体系において表される。そのような数体系の一つはベース40数体系である。図1を使用して、ベース40数字としての英数文字「JOHN」を表すことは、「4進法」値「JOHN」となる。そしてそれは小数値1,255,103(ベース40「J」が小数19に匹敵する1940+2440+1740+2340等)と等しい。番号「JOHN」が内容「JOHN」として認識できるようにベース40番号が意味の重要性を持続するのに対して、ベース10番号は生データ210の内容から意味の重要性を失うことに注意を要する。意味の重要性は意味の内容を伝達するための能力を保持する間、数字表示の利点をもたらす。
本発明に係るいくつかの実施例において、基数の選択とその類似の数体系はプロセッサー110によって使用されるビット数に依存する。プロセッサー110によって使用されるビット数及び数体系のために選ばれる基数はプロセッサー110のデータ単語によって表わすことができる番号文字を明確にする。この関係は以下の方程式により決定される。
N=Bln(2)/ln(R)
ここでNはプロセッサー110のデータ文字によって表される全体の文字の数であり、Bはデータ単語に対するビット数であり、Rは選択された基数である。この関係は1データ文字に適合する生データ210のデータ要素420の数を制限する。例えば、32ビット機においてベース40数体系を使用するデータ文字に適合する文字の最大数は6(32ln(2)/ln(40)=6.013)である。ベース41数体系を使用するデータ文字に適合する文字の最大数は5だけ(32ln(2)/ln(41)=5.973)である。それゆえ、本発明のいくつかの実施例において、意味の重要性を維持するために十分に大きい基数を持つことに加えて、基数は単一データ文字によって表示される文字数を最大限に利用するため、及び/又はさまざまなプロセッサーの利点又は特定のデザインに基づく迅速な数学的演算を促進するために選択される。英数文字で構成される生データの実施例において、適切な基数は36から40の範囲をとることができる。
この範囲は32ビットデータ文字によって表わされる文字数を最大にする間、意味の重要性を維持する。生データのほかのタイプとデータ単語の別のサイズは本発明のほかの実施例中の他の適切な基数範囲に影響するかもしれない。
上述された本発明の実施例は大文字と小文字を区別しない。しかしながら、本発明の別の実施例はこれらの文字のタイプを区別する。従って、ベース64表示(「0」〜「9」、「A」〜「Z」、「a」〜「z」、および2つの他の値)は明らかなようにこれらの文字の間で識別するのに適している。
各データ・フィールド410でのデータ要素420の数は、さらに、プロセッサー110の中で表わされるような数によって要求された精度を書き取らせる。
上述したように、各データ・フィールド410は単に、32ビット機中の単精度オペレーションのための6文字又はデータ要素420幅となることができる。本発明のいくつかの実施例において、これは不十分かもしれない。これらの実施例では、2倍、3倍、又は4倍の精度が単一の値として全体のデータ・フィールド410を表すために要求される。2倍精度数は、12文字データ・フィールド410まで十分であり、3倍の精度数は18文字まで十分であり、そして4倍の精度数は24文字まで十分である。
本発明の互いの実施例は、1又はそれ以上のより小さなデータ・フィールドへ大きなデータ・フィールドを分けることにより、大きなデータ・フィールドを収容できる。大きなデータ・フィールドは、スペースによって定義されたもののような自然的境界で分けられる。例えば、「123 West Main Street」のような住所を表わすデータ・フィールドは4つの小さなデータ・フィールド、すなわち「123」「West」「Main」及び「Street」に分けられる。大きなデータ・フィールドはまたデータ単語境界で分けられる。上記の住所例において、より小さなデータ・フィールドは次のとおりかもしれない:「123We」、「st\Mai」、「n\Stre」、及び「et」、そしてここで番号「\」はスペースを表わすために使用される。本発明の他の実施例は明らかなように他の方法において大きなデータ・フィールドを提供する。
(データ構成変換)
図3に例示されるように、ステップ330において、数字として表わされる生データ210はあらかじめ定められたデータ構造に記憶さる。本発明の1つの実施例において、このデータ構造は図6の表610〜670によって例示されるような単一フィールドの表である。このデータ構造は変化することができる。例えば、本発明の他の実施例において、データ構造は単一フィールドの表の代わりに複合フィールドの表となることができる。これらの実施例では、データ構造が表ヘッダーや索引のような標準特性を満たし、また下記により詳しく説明されるように、各記録に対する確率値を含むことができる。これらの確率値は、その記録のデータが完全であるという可能性を表わす。より高い確率値は、完成度のより高い可能性を示し、より低い確率値は完成度のより低い可能性を示すことができる。これは、下記により詳細に記述されている。最初に、確率値は0にセットされる。他の実施例は、データ・レコードの関係のソートおよび維持を援助するためにさらに重要な数字あるいは識別番号を含むことができる。
本発明の好ましい実施例において、図5に例示されている生データ210は3つの表510、520および530を含んでいる。表510は、例えば会社の売掛金勘定システムからの生データ210を表わすことができる。表510の列は、アカウント番号、ラストネーム、ファーストイニシャル、及び特定の個人のために処理された様々な注文をリストするための追加のフィールドのためのデータ・フィールドを表わす。510−1と510−2のような表510の行は、異なる個人のためのデータ・レコードを表わす。表520と表530は、クレジットカード会社によって維持された生データ210を表わすことができる。表520と表530の列は、アカウント番号、ラストネーム、ファーストネーム及び住所のためのデータ・フィールドを表わす。表520と表530の行は、特定のアカウントのためのデータ・レコードを表わす。
好ましい実施例において、ステップ330は、生データ210を図5に例示されるフォーマットから図6に例示されるフォーマットに変換する。図6は、ベース40数体系において番号として表わされ、またともに参照データベース220を含む新しい表(表610〜670)としてフォーマットされる図5の様々な生データ表510、520、530から組み合わせられた生データ210を例示する。
各参照データベース表610〜670は、図5の生データ表510、520及び530からの個々のフィールドに相当する。より明確に、参照データ表610〜670のデータ・レコードは生データ表510のデータ・レコードに相当し、さらに生データ表520のデータ・レコードに相当し、さらに生データ表530のデータ・レコードに相当する。生データ表レコードが参照表610〜670の中で表わされた特定のデータ・フィールド410のための情報を持たない本発明の1つの実施例において、空のフィールド値は参照表のそのフィールドに入力される。例えば、表510の第1データ・レコード510−1は、住所に関する情報を持たない。したがって、空のフィールド値は表670の第1位置に配置される。
データは、生データ表の単一データ・レコードに対応する全てのデータが、容易に識別されるのと同じ方法で参照データベース220に好ましく記憶される。例えば、図5と図6に表示された実施例において、生データ表(表510、520、530)の任意の特定のデータ・レコードに対応するデータは、参照表610〜670を超えてインデックスiに記憶された番号のデータの「ベクトル」として参照表610〜670に好ましく表わされる。例えば、(「51 Fourth Street」に居住する「Jennifer Brown」に属している、アカウント番号「A60」として例示される)生データ表520の第6のレコード520−6に対応するデータは、表610〜670の第10番目のレコード610−10、620−10、630−10、640−10、650−10、660−10および670−10から形成される係数を持つベクトルとして、参照データベース表610〜670に表わされる。
図6に例示されるように、参照データベース220は、図5に例示される生データ210中の任意のデータ・フィールド410に相当しない新しい表610を含む。この表はこれらのデータベクトル中の関連データを識別する「見出し表」である。後述されるように、図6に例示される表で構成される参照データベース220は、データ・フィールドのための追加の見出し表を含むことができる。これらは個人の識別番号(「PIDN」)、アカウント識別番号(「AIDN」)、あるいは他のタイプの識別番号を含むことができる。これらの見出し表又は識別番号は参照データベース220の関連データベクトルのセットを識別するために使用される。
この例において、見出し表610は個人の識別番号を表わす単一フィールド「PIDN」を持っている。見出し表610は、特定のPIDN番号が生データ210において表わされた1人以上を決して示さないような独特の確認を与える。言いかえれば、PIDN番号は、生データ210中の多くの倍数レコードが同一人物を示すことができるという事実を反映する。
むしろ、見出し表610中の各データ・レコードは最初に、生データ表510、520及び530に表わされた異なるデータ・レコードに相当する。例えば、図6において、見出し表610のデータ・レコード610−10は生データ表520中の単一レコード520−6にともに相当する参照表620〜670のデータを対応させるための(ポインターやインデックスのような)確認を含むように実行される。
最初に、単一PIDNが多数の個人を示さないが、単一個人は多数のPIDNに相当することができる。例えば、図6において、(PIDN4によって定義される)ベクトル4、及び(PIDN9によって定義される)ベクトル9は、同一人物を示すようだが、例示されるように、この人は2つのPIDN番号、PIDN4とPIDN9を最初に割り当てられる。後述するように、実際に、本発明はPIDN4とPIDN9が同じ個人を示すかどうかの決定を可能にし、そうならば、この個人に単一のPIDNを割り当てる。あるいはまた、いくつかの実施例は、決定した個人に新しいPIDN番号を割り当てることができ、そして、古いPIDN番号への参照は維持することができる。
上述したように、この実施例において、レコードは8つの1フィールド表を超えるベース40番号の係数を持つベクトルとして参照データベース表610〜670に表示される。この数字表示は、例えば、相互関係を作り出して、固有ベクトルを計算して、さまざまな座標の変換を行い、そしてさまざまなパターン認識分析を利用するために使われる簡単な数学的処理を使ってデータが分析されることを可能にする。これらの処理は、順番に、レコードや互いへのそれらの関係についての情報を提供するか、あるいは導くために使われる。 小さい、1フィールド表を使うことによって、これらのオペレーションは速く行われる。加えて、例示されるように、英数文字を含む生データ210を持つベース40番号の表示がその意味の重要性を維持するための生データ210の内容を可能にする。
(データ解析)
図2に戻って参照すると、図6の中で示されるように、一旦参照データベース220が作成されれば、データ解析プロセス700は純化データベース230への包含のために最も正確なデータを純化するために適用される。データ解析700は、図7に関して記述されている。
(参照データの分割)
ステップ710では、参照データベース220が、いくつかの基準に基づいたセットへむしろ分割されるかソートされる。ソートする基準は変化することができる。例えば、図8の表810の中で示されるように、この実施例では、数値のオーダー(生データの内容が参照データベース220の中でベース40番号として表わされることを呼び出す)を増加させる際に整えられた値と共に、データ・レコードはラストネームに基づいたセットへソートすることができる。独特なラストネームによって定義され、そのラストネームと一致する表620のレコードの対応するセットを有する表810の各エントリーと共に、表810は図6で示される表620の参照データベースに由来する。示された表現では、セット(索引、ポインターあるいは他の充当された参照のような(この場合PIDN))の部材を確認する者と同様に、表810はセット(この場合ラストネーム)を定義するために、フィールドを含んでいる。
この発明のいくつかの実施例では、参照データベース220中の全てのベクトルがセットに基づくフィールド用データを持つとは限らない。そのようなベクトルは様々な方法で扱うことができる。例えば、そのデータ・フィールド用のデータを有しない参照データベース220中の全てのベクトルは、単一で付加的なセットの部材と見なすことができる。
換わりに、そのデータ・フィールド用データを有しない参照データベース220中の各ベクトルは、それ自身のセットの単一の部材と見なすことができる。
(複製データの識別)
図7に戻って、ステップ720では、分割されたセット内の複製であると識別されたそれらのデータ・レコードはマークされる。この発明のいくつかの実施例では、複製データは不必要とすることができ、或いは廃棄することができる。他の実施例では、全ての情報は全ての情報として参照データベース220に残り、誤っている,不完全な,或いは複製された情報は、情報が無いよりかはましであり、このような不完全な情報であっても、不正行為や窃盗の識別のようなある目的に役立つことができる。
この発明のいくつかの実施例では、一組のベクトルの比較が複製を識別することができる。明白なものとして、様々な操作が使用されても構わない。単純な例では、真直ぐなベクトルの減法は、2つのレコード間の類似点の程度を測定するために実行することができる。共通の名前、愛称、略語などを確認するための「検査」テーブルを使用するような複製のベクトルを識別するために、他の技術を使用することもできる。
図8の表810は、図6で以下のように示された参照データベースの表610〜670のエントリー2、4、8、9および11から形成されたベクトルを表わして、PIDN2、4、8、9および11にラストネーム「SMITH」が相当することを示している:
PIDN2:[SMITH,J,98−002,A40,A60,^]
PIDN4:[SMITH,J,98−004,A50,B10,^]
PIDN8:[SMITH,Jennifer,^,A40,^,300Pine St.]PIDN9:[SMITH,John,^,A50,^,37Hunt Dr.]PIDN11:[SMITH,Jhon,^,B10,^,85Belmont Ave.] ベクトルと、いつ2つのエントリーが複製と見なされるのに十分に類似しているのか決定するための閾値とを比較するベクトル(あるいはマトリクス)処理は、様々な実施例のために適切であると定義することができる。単純な例において、一組のベクトルの対応する係数間の絶対値の差の合計は、対応する組のレコード間の類似点を示すことができる。
第一のベクトルが第二のベクトルの任意のフィールドと一致せず、追加のデータを提供しない場合、この組のベクトルは複製と考えることができる。この実施例では、例えば、異なる長さ(例えば、数に対応した右に整列した文字列、および文字に対応した左に整列した文字列)のエントリーの比較のために、一般にミススペルや綴りの変化の認識のために、および言葉の転換された文字の認識のために、付則が定義されるであろう。明白ではあるが、この処理は様々なメカニズムによって実行することができる。図8の表810の例では、データ・レコードのどれも正確な複製ではない。したがって、いずれもステップ720でマークされない。
(データの関連付け)
図7に戻り参照すると、ステップ730では、本発明の好適な実施例は、各セット内でかつテップ740内に残るデータ・レコードを関連付け、さらにデータ・レコードの独立したサブセットの中へとデータ・レコード分配する。一般に、2つのベクトル間の「相関性」は、1つが他方とどれくらい密接に関係があるかの測定であり、関連付けの具体的な方法は意図したアプリケーションに依存して変化することができる。相関性機能の一般的な議論および例は、ウィリアムHプレス (William H. Press)らによるNUMERICALRECIPES IN C: THE ART OF SCIENTIFIC COMPUTING (Cambridge University Press, 2nd ed. 1992)で見ることができる。他の技術および例は、ドナルドE.ヌース(Donald E. Knuth)によるTHE ART OF COMPUTER PROGRAMMING (Addison-Wesley Pub., 1998)で見ることができる。
例として、ベクトル間の相関性の単純な測定は、好ましくは、重みを加えることができるそれらのドット・プロダクトである。アプリケーションによって、ドット・プロダクトは、ベクトル係数のサブセットにのみに関して計算することができ、又は対応する係数だけでなく関連するフィールドで決定された他の計数のペアも比較するために決めることができる。(すなわち、第1ベクトルの「ファーストネーム」係数と第2ベクトルの「ミドルネーム」係数との比較)。複製データを識別するための作用として、相関性機能は、その意図したアプリケーションのために好ましくあつらえることができる。例えば、相関性機能は、異なる長さの情報入力を好ましく比較し、かつ大きな違いと僅かな違いを好ましく区別することができる。
図5、6及び8の表に関して説明した実施例において、相関機能の例は、独立したベクトルのサブセットを識別するために同じラストネームを共有するセットのメンバーに対応するベクトルを比較する。又、この決定は、アプリケーション特定基準に基づくことができる。この例において、独立のベクトルは、異なる個人を表わすベクトルであると定義することができる。
相関性機能のアプリケーションの結果として、1ペアのベクトルの独立の度合いを反映する相関パラメーターが割り当てられる。例えば、高い値は高い程度の類似性を示すために割り当てることができ、低い値は類似性の制限のある程度を示すために割り当てることができる。その後、それらのベクトルに対応する2つの記録が独立かどうか決めるために、相関値を予定されたしきい値(異なるアプリケーションにおいて異なってもよい)と比較する。
ステップ740で相関値に基づいて、好適な実施例は、データ・レコードを各セット内の独立したデータ・レコードのサブセットに分配する。図5、6の例および図8の表810において、独立したサブセットのメンバーは、(スペル間違え及びスペルのバリエーションの考慮の結果として)同じラストネーム、(スペル間違え、スペルのバリエーション、ニックネーム、ファーストネームとミドルネームの組み合わせ、及びイニシャルの考慮の結果として)相対的に似たファーストネームを持ち、1つ又はそれ以上の一致するアカウント番号を持っていること、及び(仕事および自宅住所、およびアドレスの1つの変更を考慮に入れ)3つを超える住所を持たないこと、を有するメンバーであると識別することができる。
かような機能のアプリケーションの結果は、図8の表820に示される。識別された個人は次のとおりである
Jennifer Brown(ジェニファー・ブラウン)、PIDN10、
Howard Lee(ハワード・リー)、PIDN3および6、
Carole Lee(キャロル・リー)、PIDN7、
Jennifer Smith(ジェニファー・スミス)、PIDN2および8、
John Smith(ジョン・スミス)、PIDN4および11、
John Smith(ジョン・スミス)、PIDN9、
Ann Zane(アン・ゼーン)、PIDN1、5および12、及び
Molly Zane(モリー・ゼーン)、PIDN13。
ベクトルを関連付けるための他の作用も利用可能である。これらには、ドット・プロダクト、クロス・プロダクト、長さ、方向ベクトル、及び大量の他の機能およびよく知られた技術に従った評価のために使用されるアルゴリズムを計算することを含んでもよい。
図9は、本発明のいくつかの一般的な様相について記述するために概念的に使用されるクラスターに関する概念の二次元の例を示す。図9では、4個のクラスターが二次元のポイントの集合として存在する。これらのクラスターは、(a、b)、(c、d)(e、f)、そして(g、h)として識別される。図示するように、各クラスターは、二次元空間の1つ又はそれ以上のポイントから形成される。各ポイントは、その空間でクラスターの「真の」値を(多かれ少なかれ正確に)表わすデータ・レコードに相当する。図示するように、クラスター(a、b)及び(c、d)を、お互い及びクラスター(e、f)から区別することはかなり容易である。しかし、この単純な例において、クラスター(e、f)及び(g、h)をお互いに区別することは容易ではない。空間の拡張(すなわち、ベクトルへの追加のデータ・フィールドの追加)は、(e、f)及び(g、h)などのクラスター間の分離を増加させるこができ、それらは、互いにより容易に区別されるようになる。代わりに、空間の拡張は、(g、h)がクラスター(e、f)又はクラスター(c、d)に属するポイントであること示すことができる。理論上、空間は無限に拡張し、結果として様々な有名な特性を持つヒルベルト空間となる。これらの特性は、無限ではないが大きなベクトルのために本発明によって利用することができることは明らかである。
さらにベクトルに対する追加のデータ・フィールドの追加(すなわち、空間を拡張すること)は、それらの相互関係における支援のためにお互いからクラスターを分離することができ、ベクトルからのデータ・フィールドの削除(すなわち、空間を縮小)することは、いくつかの相関性を識別することもできる。本発明のいくつかの実施例では、空間の縮小が、実際上、同じ個人または他の特異な実体を表わす一定のクラスターを識別することができる。例えば、データベース中の1つの記録は、データベース中の第2の記録での同じ10個のデータ・フィールドと全く同一の10個のデータ・フィールドを持つことができる。これらのデータ・フィールドは、ファーストネーム、生年月日、住所、母親の旧姓などに対応する。しかしながら、これらの2つの記録は、異なる2つのフィールドを持つことができる。これらの2つのフィールドは、ラストネーム及び社会保障番号に対応することができる。ある場合には、これらの記録は、同じ個人に対応することができる。本発明は、不可能でないにしても従来方式の使用によっては検知すること困難であろうこれらのタイプの記録を識別する過程を単純化する。
したがって、ベクトルから1つ又はそれ以上の特定のデータ・フィールドの除去および対応する空間の縮小は、そうでなければあきらかにされないであろうクラスターを明らかにすることができる。伝統的に識別目的(例えばラストネーム、社会保障番号など)のために使用されるデータ・フィールドのためにこれを行うことは、データベース中の複製の記録を明らかにすることができる。これは、特に不正を識別するのに有用である。データ・フィールドのための空のフィールド値を含むベクトルのところでのデータ・フィールドの除去は、さらにそうでなければ明らかにされないクラスターを明らかにすることができる。
さらに、一旦クラスターが同じ個人または実体を表わすものとして識別したならば、個人か実体のための最良の情報を、各記録又は「黒いドット」によって提供される情報から抽出することができる。
本発明の法則は単純なベクトル及びデータ・フィールドを越えて拡張することができる。例えば、本発明は、多次元空間での目的物を表わすテンソルの使用を通じて拡張することができる。この方法では、本発明をそれらの作用および効力への追加的洞察力を得るために様々な物理的な現象のパラメーターを表わすために使用してもよい。そのようなアプリケーションは、人間の遺伝子を判読すること、及びヒトゲノム計画のようなプログラムの努力での補助に、特に有用である。
(標準データの取り扱い)
再び図7を参照すれば、ステップ750において、本発明の好適な実施例は「標準」データ・レコードを評価する。標準データ・レコードは、ステップ710でいずれのセット内にも分配されなかった参照データベース220からの記録である。いくつかの実施例において、参照データベース220は、データ・フィールドに対応する多くの表およびフィールドの様々な組み合わせのためのデータを持つ多くのベクトルを含んでもよい。例えば、異なるデータ・フィールドのための20の表および各表のための関連するデータ・レコードによって明確にされた1000のベクトルを含む参照データベース220をもつ実施例において、その1000のベクトルのうちの800だけが、セットがステップ710で作成された「ラストネーム」のフィールドのためのデータを持つと仮定する。ステップ710は、いずれかのセット内へ「ラストネーム」データのない200のベクトルを分配することができないし、或いは、それ自体のセットへの200のベクトルの各々を分配もしない。いずれの場合も、結果として、これら200のベクトルがステップ720、730及び740における他のものとは関連しないということである。ステップ750は、これらのベクトルを評価することができる。
評価の方法は変更することができる。例えば、一実施例では、各々の放置されたエントリーをステップ740で識別された各サブセットの1人のメンバーと関連させることができる。生じた相関値により、そのベクトルは、それが最も高度に関連付けられているものを持つサブセットに追加されるか又は新しいサブセットを作る。或いは、ある実施例において、そのような評価が時間を消費しすぎ及び/又は高価であることを決めることができ、ステップ750は完全に省略することができる。
(相関性プロセスの繰り返し)
特定の実施例に必要なように、ステップ710から750を繰り返すことができる。上で触れたように、いくつかの実施例は、フィールドのサブセットだけのためのデータをもつ多くのエントリーと共に、多数のフィールド及び多数のエントリーを持つ参照データ220を有する。そのような場合において、一つのフィールド上のステップ710から750の実行は、恐らくすべて関連情報を引き出さない。図5、6及び8に関して説明された単純な例においても、単一のフィールド「ラストネーム」の関連付けは、それらのエントリー間の相関性に関する部分的な情報のみを提供する。例えば、PIDN2と10は共通のアカウント番号を共有するかもしれないから、図6の中のPIDN2及び8に対応するジェニファー・スミスは、PIDN10に対応するジェニファー・ブラウンと同じ個人であるかもしれない。ラストネーム・フィールド上での相関付けの実行は、同じラストネームを共有する他のPIDNに対してのみ評価されることから、同じ個人に対応するこれらPIDNを識別することができない。アカウント番号フィールド上での相関付けの実行は、これらのPIDNが関連付けられるかどうかに関する追加情報を提供することができる。
従って、様々なデータ・フィールドわたる相関性は、参照データベース220中でのデータの関連性の程度を完全に評価するのに必要であろう。
(参照データを更新するための相関結果の使用)
一旦ステップ710から760が完了すれば、図2で示されるように、参照データベース220は純化データベース230内に純化される。本発明のいくつかの実施例において、これらの2つのデータベースは別々に扱われ、互いに共存する。本発明の他の実施例において、単一のデータベースは、参照データベース220又は純化データベース230に属するものとしてマーク又は識別された記録と共に存在する。これは、2つのデータベース中での記録のためにPIDNの異なる範囲を使用することによる割り当てによりなすことができる。さらに、2つのデータベース中の記録間の関係は、純化データベース230中の記録のためのPIDNを発生するため、参照データベース220中の記録のためのPIDNに一定値を加えることにより維持することができる。例えば、参照データベース220中の12345のPIDNを持つ記録は、純化データベース230内に9012345のPIDNを持つことができる。この方法では、2つのデータベースを単一のデータベースの別個の部分として扱うことができる。
(純化データの使用)
一旦データ透析プロセス700が完了すれば、純化データベース230は、関連する記録として参照データベース220からのデータ・レコードのサブセットを識別し、また、上に触れるように、完成度の質的測定を提供するために、参照データベース220中のフィールドのための確率を決定することができる。これは、完成度の確率を個々のデータ・フィールドに割り当て、その後にデータ・レコードのための完成度の全体的な確率を計算するためのそれらフィールドを使用することによりなすことができる。例えば、ファーストネームを表すデータ・フィールドについては、「J」の値は低い確率(例えば0又は0.1)に割り当てられ、「JOHN」の値はより高い確率(例えば0.7又は0.8)に割り当てられ、そして、「JONATHAN」の値には最も高い確率(例えば0.9または1.0)を割り当てることができる。これらの値はある程度任意に又は構成のある仮説に従って割り当てることができる。しかしながら、これらの値は、最も完全な情報、言いかえれば、最も蓋然的なデータを含めるためにセット中のどのデータ・フィールドが最もありそうかを識別することを助ける。
本発明の使用は、記録についての膨大量の情報およびお互いのそれらの関係を決定することができ、特に特別のアプリケーションにあつらえることができる。さらに、標準のデータベース操作を使用して、参照データベース220の記録を参照する純化データベース230を、必要とされるフォーマットされたレポートを提供するのに操作することができる。例えば、実施例は、特定の個人か実体に関する情報を提供するサブセットの記録によって、関連する記録のサブセットをリストするレポートを作るために、あつられることができる。そのようなサブセット内の記録は、情報の異なるフィールドに関する例として、個人によって使用される別名及び/又は名前、アドレス、社会保障番号など、及び1つを越えるエントリーを持つ個人のための居所、住所およびアカウント番号のようなフィールドなどの、情報を提供することができる。
数的なベース40フォーマット内で表わされるすべてのデータを再考すると、サブセットはレポートの中で数的に命じることができる。ベース40フォーマットには、上の換算表の中で図示するようにそれぞれの文字としてのアルファベットの文字を表わすという追加的な長所がある。
したがって、レポートが数的な表現でエントリーを示す一方で、その表現はデータの意味的な重要性を保持し、データをマニュアルで読むこと及び分析することを可能にする。
例えば、レポートがJ SMITH、JOHN SMITH、JOHN G SMITH、G SMITHおよびGERALD SMITHを含む名前のエントリーを持つ個人のための記録を示す場合、そのレポートを読むある人は、この個人が彼のファーストネーム又は頭文字、彼のミドルネーム又は頭文字、又はそれらの組み合わせを含む様々なファーストネームを使用していると、理解するであろう。
(新しいデータの追加)
従来のデータベース・アプリケーションでのように、新しいデータを時々加えられることができる。図2の中で示すように、本発明は、参照データベース220及び純化データベース230に影響するであろう新しい(又は変更した)データ240の追加を説明する。
一般に、図3に関して記述したように、新しいデータ・レコード240をフォーマットすることができるし、既存の参照データベース220に入ることもできる。それに加えて、新しい情報または内容が新しいデータにおいて利用可能かどうか決めるために、純化データベース230に対して、新しいデータ・レコード240が測定される。例えば、純化データベース230の中に既に存在するいずれかのデータ・レコードに関係があるかどうか決めるために、新しいデータ・レコード240を純化データベース230からのデータ・レコードと関連付けることができる。もしそうであり、かつ新しいデータ・レコード240が純化データベース230の中に未だ存在しない情報または内容を含むなら、新しいデータ・レコード240が純化データベース230を更新するために使用することができる。例えば、新しいデータ・レコード240がデータベース230の中に既にあるデータ・レコードに対応するジョン・スミスという名の個人の情報を含んでいるが、スミス氏のミドルネームがグレッグであるという追加情報を提供した場合、その追加情報は純化データベース230に好ましく加えることができる。
参照データベース220及び純化データベース230中のデータ・レコードへの変更は、標準のデータベース保護作用を使用して、C.J.DATE、INTRODUCTION TO DATABASE SYSTEMS(Addison Wesley, 6th ed. 1994)(特にPart IV参照)等に記述されるように扱うことができる。例えば、許可されたデータベースの管理者によって参照データベース220に変更が加えられる場合、参照データベース220の関連したデータ・レコードは、データベース230の中で明確にされた関係に合わせて標準の関係定義によって決定されるように及び適切なところで、更新される。
(フィールド・ベクトルの間の複製データを確認する)
従来のデータベースと関連していた1つの問題は、生データ210Aのような第1データベースを、生データ210Bのような第2データベースと記録を結合することの困難さである。その中に含まれている内容が参照データベース220あるいは純化データベース230のようなデータベースで1つの記録として結合するように共有あるいは重複データを持つこれらデータベースの記録は認識される必要がある。例えば、両方のデータベース 210は、ジョン・スミス(JOHN SMITH)のために1つもしくはそれ以上のエントリーを含むこともできる。もしデータベース210におけるそれぞれの記録が同じ個々のジョン・スミスを表すならば、各々の記録の内容は、例えば、純化データベース230における1つの記録として結合されるべきである。
これらのデータベースにおいてそのような複製データを認識するための従来のブルート・フォース方法は、第1データベースからのデータ記録と第2データベースにおける全てのデータ・レコードの比較を含み、第1データベースにおいて各記録のためのこの工程を繰り返す。この工程は時間を消費し、数多くの計算を行い、労働集約的であり、従ってコストがかかる。実際、計算の数は、2つのデータベースの各々における記録の数に幾何学的に関係する。
データベース210における複製データを確認するために必要とされる計算の時間及び数を減少させるための1つの工程は、図10から図12を参照して以下に示される。以下に示された工程において、例えば、名前フィールド又は住所フィールドのように、データベースの間で共通もしくは類似した特定のフィールドは、選択される。このフィールドは、テーブル又は各々の記録のために選択されたフィールドの値を含む各々のデータベースのための配列として配列される。例えば、上記されたように、各テーブル610−670は、データベースにおける各々のデータ・レコードの特定のフィールドを表す。この検討の目的のため、これらのテーブルはフィールド・ベクトルとして参照される。
本発明によれば、各々のフィールド・ベクトルは、番号順にソートされ、そして、もし必要ならば、上記されたように図7及び図8で同じデータのセットに分割される。例えば、JOHN SMITH(ジョン・スミス)と関連する多重の記録は、フィールド・ベクトルの中で共に分割されるだろう。好ましくは、セット間の分割の配置に関する情報は、格納される。
いったん、フィールド・ベクトルが分類されて、分割されれば、第1フィールド・ベクトルの第1要素の価値は、第2フィールド・ベクトルの第1要素の値と比較される。本質的に、第1フィールド・ベクトルにおける値が第2フィールド・ベクトルにおける値より大きいならば、第2フィールド・ベクトルへのインデックスは上回り、もしそうでなければ、第2フィールドで次の値をもたらすために次に分割されたセットの中の位置へ調節される。第2フィールド・ベクトルにおけるこの次の値は、第1フィールド・ベクトルにおける値と比較される。これは、第1フィールド・ベクトルにおける値が第2フィールド・ベクトルにおける値より大きい限り続く。
一方、第1フィールド・ベクトルの値が第2フィールド・ベクトルの値より少ないならば、第1フィールド・ベクトルへのインデックスは上回り、もしそうでなければ、第1フィールドで次の値を得るために次に分割されたセットの中の位置へ調節される。この第1フィールド・ベクトルにおける次の値は、第2フィールド・ベクトルにおける値と比較される。これは、第1フィールド・ベクトルにおける値が第2フィールド・ベクトルにおける値より小さい限り続く。
第1フィールド・ベクトルの値が第2フィールド・ベクトルの値と同じであるとき、工程は、好ましくは共通のフィールド・ベクトルに格納される複製データを認識する。認識された複製データを格納した後で、第1フィールド・ベクトルへのインデックス及び第2フィールド・ベクトルへのインデックスは両方共上回り、もしそうでなけなければ、それぞれのフィールド・ベクトルの次に分割されたセットの中の位置に調節される。
このように示された工程は、フィールド・ベクトルにおける値の間の差異に基づく配列のどちらにでも、インデックスを調整するフィードバック制御機構として見ることができる。上記された実施例において、正の差異は、第2フィールド・ベクトルのインデックスに調整を提供し、一方、負の差異は、第1フィールド・ベクトルのインデックスに調整を提供する。この工程は、フィールド・ベクトルにおける値の数と従来の方法と関連していた幾何学の関係と対照して必要とされる計算(すなわち、比較)の数の直線の関係を生じる。
本発明は、ソート構造にまで拡大することもできる。特定の値が、ベクトル(例えば、アルファベット順、数量的等)における値の命令に基づくフィールド・ベクトル(すなわち、記録はデータベースに挿入されなければならない)に挿入されなければならない場合、特定の値及びベクトルにおける要素のうちの1つの値の差異は計算される。この差異は、ベクトルから次の値を生み出すために、インデックスをベクトルに調整するための、「フィードバック」である。コントロール理論の確立した方法を使って、インデックス調整は、挿入されるための値の適切な位置を測定するために、統合することもできる。インテグレータに加え、釣り合った増加は明らかに、所望のシステムの実行を確立をするための差異に適用することもできる。
本発明は、図10−12を参照して記述される。図10は1対のフィールド・ベクトル内の重複データを認識するためのフローチャートである。フィールド・ベクトルは(例えば、1つのデータベースで住所フィールドをメーリング・アドレスと比較するとき)生データ 210Aのような単一ソース、あるいは(例えば、2つのデータベースの間で名前フィールドを比較するとき)生データ210Aと生データ210Bのような多数のソースからであることもできる。
この記述の目的のために、各々、1対のフィールド・ベクトルは、第1フィールド・ベクトル(“FV1”)、及び、第2フィールド・ベクトル(“FV2”)とされる。好ましくは、これらのフィールド・ベクトルにおけるデータは、上記されたように、英数字両用のデータを表すベース―40数である。しかしながら、本発明のいくつかの実施例において、データは同様に他のフォームにも存在することができる。
ステップ1010で、第1フィールド・ベクトルは、番号順にソートされる。
ステップ1020で、第2フィールド・ベクトルは、同じく番号順にソートされる。本発明の実施例の1つにおいて、ベクトルは、番号順の指令が増加する際ソートされるが、本発明の他の実施例は、明らかとなっているように指令が減少する際ベクトルをソートすることもできる。
ステップ1030で、普通値を持っている第1フィールド・ベクトルの中の分割されたセットが認識される。同じく、ステップ1040で、普通値を持っている第2フィールドベクトルの中の分割されたセットが同じく認識される。ステップ1010−1040が図7及び図8の参照で上記された参照データベース220の分割のステップと類似した機能を実行する。本発明のいくつかの実施例において、フィールド・ベクトルは分割されたセットを含まないことができるように、それぞれのフィールド・ベクトル内の普通値を削除することもできる。しかしながら、本発明の好ましい実施例において、特定のフィールド・ベクトルの中の普通値は維持される。
ステップ1050で、第1及び第2フィールド・ベクトルの間で普通値を認識する普通値のベクトルは、好ましくはソートされたセットを用いて決定される。
ステップ1050は図11を参照してより詳細に記述される。
図11は1組のフィールド・ベクトルの間で普通値を確認するためのフローチャートである。ステップ1110において、3つのベクトル・インデックスが初期化される。最初のベクトル・インデックスIが第1フィールド・ベクトルFV1へのインデックスであり、2番目のベクトル・インデックスJが第2フィールド・ベクトルFV2へのインデックスであり、そして3番目のベクトル・インデックスKが普通値のベクトル(“CV”)へのインデックスである。上記されたように、普通値のベクトルは、第1及び第2フィールド・ベクトルの両方によって共有された値を含む。第1位置を第1及び第2フィールド・ベクトルの各々に設置するため、インデックスI及びJは初期化される。インデックスKは次の普通値が普通値ベクトルに含められるための位置を定めるために初期化される。
決定ステップ1120で、本発明は第1フィールドベクトルの「I」番目の位置での値が第2フィールドベクトルの「J」番目の位置の値もしくはそれ以上であるかどうか決定する。もしそうであるなら、処理が決定ステップ1130において継続する、もしそうでなければ処理はステップ1170において継続する。ステップ1170は、第1フィールドベクトルの「I」番目の位置での値が第2フィールド・ベクトルの「J」番目の位置の値以下のとき、効果的に実行される。ステップ1170において、第1インデックスIは次に分割されたセットの始まりの位置を第1フィールド・ベクトルに設置するために調節される。ステップ1170の後で、処理は決定ステップ1160において続く。
決定ステップ1130において、本発明は第1フィールド・ベクトルの「I」番目の位置における値が第2フィールド・ベクトルの「J」番目の位置の値と等しいかどうかを決定する。もしそうであるなら、処理が決定ステップ1140において継続し、さもなければ処理がステップ1180において継続する。ステップ1180は、第1フィールド・ベクトルの「I」番目の位置での値が第2フィールド・ベクトルの「J」番目の位置の値より大きいとき、効果的に実行される。ステップ1180で、第2インデックスJは第2フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるように調整される。ステップ1180の後、処理は決定ステップ1160において継続する。
ステップ1140は、第1フィールド・ベクトルの「I」番目の位置での値が第2フィールド・ベクトルの「J」番目の位置の値と等しいとき、効果的に実行される。ステップ1140で、第1及び第2の両方のフィールド・ベクトルに含められた値は普通の値のベクトルに置かれる。
ステップ1150で、3番目のインデックスKは認識される次の普通値の普通値ベクトルにおける配置ために増加する。最初のインデックスIは第1フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるために調整される。2番目のインデックスJは第2フィールド・ベクトルで次の分割をされたセットの始まりの位置を定めるように調整される。
決定ステップ1160で、本発明は追加の分割をされたセットが第1フィールド・ベクトルと第2フィールド・ベクトルの両方で存在するかどうかを決定する。もしそうであるなら、処理はステップ1120において継続する。もし分割されたセットが第1フィールド・ベクトルあるいは第2フィールドベクトルで残らないなら、処理は終わる。処理が終わるとき、普通値のベクトルは第1及び第2フィールドベクトルの間で認識したすべての複製データを含む。
図12は本発明に基づいたフィールド・ベクトルの間で複製データを確認する例を示す。ステップ1010及び1030は、フィールド・ベクトル1(“FV1”)をソートし、分割し、ステップ1020及び1040は、フィールド・ベクトル2(“FV2”)をソートして、分割する。ステップ1050の操作は、ステップ1120からステップ1160を通し、そしてステップ1120に戻る通過は「ループ」とされるステップ1110−1180を参照して示される。
最初のループで、FV1の第1要素(すなわち、「0」番目の位置)はFV2の第1要素と比較される。(これはFV1とFV2の間の両方の端及び注釈された1で矢印で示される線として図12に示される)。この例において、FV1の値「8」は、FV2の値「8」と比較される。決定ステップ1120と1130がこれらの値が等しい、そして、ステップ1140で、値「8」が普通値ベクトルに置かれることを決定する。(これは 両方の端及び注釈1’で矢印を持ち、FV2と普通値ベクトルの間の線として図12で示される。)ステップ1150は、次に分割されたセットを指し示すために、両方のフィールド・ベクトルのインデックスを調整する。決定ステップ1160は、更に分割されたセットが双方のフィールド・ベクトルに存在すること及び第2のループの開始を決定する。
第2ループで、FV1の次の要素はFV2の次の要素と比較される。 この例において、FV1の値「9」はFV2の値「9」と比較される。これらの値は等しくなるように再び決定され、値「9」は普通値ベクトルに置かれる。前と同様に、ステップ1150は、それぞれのフィールド・ベクトルにおける次に分割されたセットを指し示すために、両方のインデックスを調整する。決定ステップ1160は、更に分割されたセットが両方のフィールド・ベクトルに存在すること及び第3ループを開始することを決定する。
第3ループで、FV1の次の要素はFV2の次の要素と比較される。
この例において、FV1の値「10」は、FV2の値「12」と比較される。決定ステップ1120は、FV1における値がFV2における値より大きくなく又は等しくないことを決定し、そしてステップ1170において、その中で次に分割されたセットを指し示すためにFV1へのインデックスが調整される。決定ステップ1160は、更に分割されたセットが両方のフィールド・ベクトルに存在し、そして、第4のループが開始されることを決定する。
第4のループにおいて、FV1の次の要素は、FV2の前の値と比較される。
この例において、FV1の値「12」は、FV2の「12」の以前に比較された値と比較される。決定ステップ1120及び1130は、それらの値が等しいことを決定し、そしてステップ1140において、値「12」は、普通値ベクトルに配置される。ステップ1150は、それぞれのフィールド・ベクトルにおける次に分割されたセットを指し示すために、両方のインデックスを調整する。決定ステップ1160は、更に分割されたセットが両方のフィールド・ベクトルに存在すること及び第5ループを開始することを決定する。
第5ループにおいて、FV1の次の要素はFV2の次の値と比較される。この例において、FV1の値「15」は、FV2の値「18」と比較される。決定ステップ1120は、FV1における値がFV2における値より大きくなく又は等しくないことを決定し、そしてステップ1170において、その中で次に分割されたセットを指し示すためにFV1へのインデックスが調整される。分割されたセットがFV1に存在しないので、処理は終わる。
この例において、ループ毎に最大2つの比較を行う5つのループは2つのフィールド・ベクトルの間で3つの普通の値を認識することを必要とする。ブルート・フォース方法で、132の比較(12*11)が必要とされる。
(情報を前もってコード化する)
本発明の様々な実施例において、同時にそれを用いて、そのオリジナルのフォーマットから数値フォーマットへデータを変換している若干の実施例より前、あるいは実施例で、データは媒介でコードされたフォーマットの中に前もってコード化される。この前もったコード化は、更にオリジナルのフォーマットにおいてコード化されたフォーマットに情報を縮小、もしくは圧縮する。いったんコード化されたフォーマットに移ると、上記されたように、データは適切な数値のフォーマットで表すことができる。本発明のこれらの実施例は、例を通して最もよく示される。
本発明の1つの実施例において、音素がコード化されたフォーマットとして、そのオリジナルのフォーマットでデータを表すために使われる。
この実施例において、音素を単語、単語(例えば、音節)、あるいは単語の句の部分をコード化するために用いることもできる。それゆえに、同じ、もしくは、同様の音を出す単語、または、音節は、同じ音素を用いて表される。例えば、名前「John(ジョン)」、または、「Jon(ジョン)」は、同じ音素を用いて表される。いくつかの実施例においては、名前「Joan(ジョーン)」は、名前「John(ジョン)」、及び、「Jon(ジョン)」のために使われるそれらと同じ音素を用いて同様に表されるかもしれない。本発明によれば、各音素を一部利用した音素に基づいた適切な数体系で数字として続いて表明される。
例えば、特定の言語が、「音」、または、音素として有限数に分析され、そして、適切な数体系の中の数字として表すこともできる。この方法において、テキストは例えば、検索エンジンの使用において、特定のつづりよりも、音声学に基づいてコード化することによってつづりのエラーの影響を最小にすることもできる。
本発明のこれらの実施例はスピーチ、音声認識と人工的なスピーチ表現装置に展開することもできる。適切な数体系として上記されるように、特に、聴覚のスピーチ音素(対応するテキスト音素と対照した場合)が同様に表され、上記されるように、音声認識とスピーチ表現を単純化するために用いることもできる。
本発明の他の実施例において、単語、句、慣用句、文及び/又はアイデアが前もってコード化されて、そして次に、上記された適切な数体系で数として表されることもできる。これら実施例は、例えば、自動化された言語翻訳システムを改善するために用いることもできる。これら実施例は同じく検索エンジンを改善するために用いることもできる。1つあるいはそれ以上のアイデアあるいはコンセプトに関係するテキストの大きい部分がアイデアあるいは伝えられたコンセプトのそれぞれに基づいて前もってコード化されるかもしれない。これら実施例は同じぐらいそうしてもよいか、あるいは節で現われない特定の単語あるいは句を認識及び/又は反対に見つけることに概念的な探索することを供給する。
本発明の他の実施例において、生のアドレス情報が例えば、ベース60システムのように、経度と緯度、適切な数体系として座標の中に前もってコード化される。そのようなシステムは、オペレーション、ナビゲーションシステム、または、トラッキングシステムを作るのに特に有益であるかもしれない。
本発明の他の実施例において、生の指紋データは、様々なパラメータ、登録ポイント又は適切なナンバー・システムにおける一致する数字として続いて表明される指紋を分類することに適した、証印を認識する他の方法で前もってコード化される。各指紋は、フィールドにおける値によってこのように表すこともでき又は各指紋は、フィールドのベクトルとして表すこともできる。この結果として生じるデータは整理され、そして様々な目的のために個人から集められた指紋に基づいてこのような情報のデータベースで維持することもできる(すなわち、犯罪者と非犯罪者の両方)。これらには、法廷の科学者、保安要員、バックグラウンド調査者等によって集められた指紋を含むこともできる。本発明は、理想的に既存の指紋データベースをクリーニングして、参照データベースの中にそれらのデータベースを結合して、利用可能になるように、新しい指紋情報を加えて、そして参照データベースで指紋情報を合わせることに適している。
多くの場合、基礎をなしているオリジナルのデータを前もってコード化する実施例を使用することで中間のフォーマットの中で前もって処理されなくてはならない、ということは理解されるべきである。このように、本発明が検索文脈で用いられるために、検索される情報は前もってコード化されるか、あるいは「前もって処理」されなくてはならない。ある場合には、本発明の他の実施例に関して上記されるように、この前もっての処理は意
味の重要性の損失をもたらすかもしれない。
(典型的な実施例)
本発明の様々な実施例は、その若干が上記され、及び/又は言及された多くの異なったアプリケーションのために用いることができる。例えば、上記されたアプリケーションで、本発明は関連したデータ記録が認識され、そして重複、誤ったデータ記録が削除される純化されたデータベースを得るために多数のソースから集められた序列情報を結合するために用いることもできる。示唆されるように、これは例えば、詐欺のようなケースで特に有用であるかもしれない。通常、クレジットカードあるいは小売り詐欺の他のフォームを使っている人々は個人的な情報のある特定の部分をわずかに変更し、ほとんどの情報を変えないようにしておく。例えば、しばしば、社会保障番号の数字が置き換えられるかもしれない、あるいは別名が使われるかもしれない。しかしながら、しばしば個人の住所、生年月日、母親の旧性等のような他の住所が、認識に用いられる。これらのタイプの詐欺は、たとえ、それらが人間の分析によって確認しにくいとしても、本発明によって容易に確認される。
他の可能な適用は、電話で販売することにおいては目標を定められた個人のリストあるいはアドレスを編集するため、メール・オーダー・カタログにおいては、同じ個人、または、家族に送られたカタログを減らすため、類似のデータベースを売っている種々のベンダーから記録を結合するために用いることを含む。まだ可能性のある適用が医学の研究あるいは診断フィールドにあり、ヌクレオチドでアデニン(A)、グアニン(G)、サイトシン(C)、そしてチミン(T)の配列が核酸で認識されるかもしれない。別の適用は、国税庁、政府そして地方自治体などのような課税のための組織が正確な徴収と税金の基礎情報を組織化して、そして維持するために用いる。
他の実施例において、本発明は、後日データベースで完全性を達成するよりむしろ、最初から、データベースの完全性を持続するために発端においてゲート・キーパーとして特定のデータベースのために用いることもできる。これらの実施例において、生データ210は存在せず、新しいデータ240のみが、存在する。新しいデータ240がデータベースに加えられる前に、新しいデータ240が追加の情報あるいは内容を含むかどうかを決定することが、純化されたデータベース230に対して測定される。もしそうであるなら、明白であるであるように、ただその新しい情報あるいは内容だけが新しい情報あるいは内容を反映するためにアップデートされたデータベース230で既存の記録を更新することによって、アップデートされたデータベース230に加えられる。
本発明の他の実施例において、ユナイテッド・ポスタル・サービスのような郵送サービス又は、エアボーン・エクスプレス、フェデラル・エクスプレス、ユナイテッド・パーセルサービス等のような宅配便において有効な住所のリストを維持するために本発明を使う。配達される荷物に関する住所がどのような誤りでも認識するために住所の参照データベースと照合される。不正確なアドレスは(例えば、変更された番号などのために)訂正されるかもしれないし、あるいは送り主は住所を確かめるために連絡を取られるかもしれない。例えば、荷物が首尾よく届けられるので、利用可能な状態になるにつれ、参照データベースに新しい住所を加えることができる。更に、ある特定の送り主が荷物の届け先を 書き間違えするか、あるいは正しくないアドレスを提供する傾向があると判断することもできる。もし適切であるなら、これらの送り主にそれに応じて通知することもできる。
上記されたように、DNAの配列の断片に合うように本発明を用いることに加えて、遺伝子の研究者(例えば、薬品会社、種の会社、動物の飼育家など)が同じく本発明をセットで個人の特徴を明白に、触知可能な、及び/又は目的を表すため、この情報を個別の遺伝子あるいはこれらの特徴に関して原因となる遺伝子の連続配列を認識するために用いることもできる。
他の実施例において、本発明は、インターネットのようなネットワークに関する信号(パケット)切り替え、及び、データの発送ために用いられる。入って来るパケットは、宛先アドレス及び連続した情報のために調査され、そして、適切な命令における適切な出力待ち行列に分類される。この実施例において、数をソートする本発明の能力は、従来のシステムに対する明白な利点を提供する。これは、代わりの数体系(現在使われる従来の数システムに対照して)を使う結果拡張されたアドレス空間と結合し、ネットワークアドレス指定、及び、通信プロトコルの改良された方法を供給する
他の実施例において、本発明は、3次元の環境で対象物をレンダリングし、表すために使われる。これらの活動は対象物のそれぞれに、照明の特徴を決定する(すなわち陰影等)こと同様、前景でどの対象物を示すべきか、どの対処物が背景で相応して不明瞭にされるかを決定するためにソートの膨大な量を必要とする。
本発明は好ましい実施例において示されたが、他の実施例及びバリエーションは、以下の請求項の範囲内にある。例えば、フォーマット化工程300が、異なった基数を用いるデータあるいは他の文字セットをフォーマットすることもでき、そして種々のデータ構造を使うこともできる。データ構造は多数のフィールドを表すこともでき、そしてアプリケーションによって、様々なフィールドを表すこともできる。例えば、預金への適用で、フィールドが口座の使用者についての個人的な情報の他に口座の地位、口座番号と法律上の地位を含むこともできる。医療診断への適用において、フィールドは、組織サンプルにおいて検出された様々な対立遺伝子、または、他の遺伝子の特性を含むこともできる。

Claims (44)

  1. 情報に含められたデータ要素の可能な値の範囲に基づく適切な数体系を選択するステップ、
    数体系における数字として前記データ要素を表すステップ、及び
    情報を処理するために数体系中で表された前記データ要素を操作するステップ、
    からなることを特徴とする情報処理のための方法。
  2. 適切な前記数体系を選択する前記ステップが、情報に含まれたデータ要素の可能な値の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項1の方法。
  3. 情報中の前記データ要素が英数文字を含むことを特徴とし、適切な数体系を選択するステップが前記データ要素のための可能な英数文字の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項1の方法。
  4. 情報が化学の情報を含むことを特徴とし、適切な数体系を選択するステップが情報中の可能な化学の組成の数と少なくとも等しい基数を持つ数体系を選択するステップからなることを特徴とする請求項1の方法。
  5. 数体系における数字として情報中の前記データ要素を表すステップが、数体系中のそれぞれの数字を前記データ要素として認識可能な値に割り当てるステップからなることを特徴とする請求項2の方法。
  6. 数体系における数字として情報中の前記データ要素を表すステップが、数体系中のそれぞれの数字を前記データ要素として認識可能な値に割り当てるステップからなることを特徴とする請求項1の方法。
  7. 適切な数体系を選択する前記ステップが、適合した処理システムのデータ単語に適するデータ要素の数を最大にする前記基数を持つ前記数体系を選択するステップを更に含むことを特徴とする請求項2の方法。
  8. 適切な数体系を選択する前記ステップが、適合した処理システムのデータ単語に適するデータ要素の数を最大にする前記基数を持つ前記数体系を選択するステップを更に含むことを特徴とする請求項4の方法。
  9. 生データベース中の非数的データ・フィールドを数的ベクトルに変換するステップ、
    前記ベクトルが純化マトリクスに含まれるかどうかを決定するために前記ベクトルを純化マトリクスと比較するステップ、
    前記ベクトルが前記純化マトリクスに含まれなければ前記ベクトルを前記純化マトリクスに含めるステップ、及び
    前記純化マトリクスを使用する純化データベースを形成するステップ、からなり、生データベースが大多数の記録を含み、この大多数の記録のそれぞれがデータ・フィールドを含み、それぞれのデータ・フィールドがデータ要素を含む、
    情報を少なくとも一つの生データから純化データベースに変換するための方法。
  10. 前記ベクトルが生データ・ベース中でその始点を表した状態で情報を保持するステップを更に含むことを特徴とする請求項9の方法。
  11. 参照データベース中に前記ベクトルを含めるステップ、及び
    前記参照データベース中の前記ベクトルの適切な位置を認識するステップ、
    を更に含むことを特徴とする請求項9の方法。
  12. 前記ベクトルの適切な位置を認識するステップが、前記ベクトルと似た別のベクトルを設けるステップからなることを特徴とする請求項11の方法。
  13. 前記ベクトルと類似した他のベクトルを設ける前記ステップが前記ベクトルと前記他のベクトルを数値的に比較するステップからなることを特徴とする請求項12の方法。
  14. 前記参照データベースの第2データベースと類似している前記参照データベースの第1データベースを設けるステップを更に含む請求項11の方法。
  15. 第1ベクトルを設けるステップが、前記参照デーダベース中の前記第2ベクトルと同一のものと確認できる前記参照データベース中の前記ベクトルを設けるステップからなることを特徴とする請求項14の方法。
  16. 前記第1ベクトルを設ける前記ステップが、前記参照データベース中の前記第2ベクトルの複製である、前記参照データベース中の前記第1ベクトルを設けるステップからなることを特徴とする請求項15の方法。
  17. 前記第1ベクトル及び第2ベクトルからの最良情報を含む前記第1ベクトル及び第2ベクトルから純化ベクトルを形成するステップを更に含む請求項14の方法。
  18. 前記ベクトルと純化したマトリックスを比較する前記ステップが、前記ベクトルが前記純化マトリックスに含まれるかどうかを決定するために前記ベクトルと前記純化マトリックスを比較するステップからなることを特徴とする請求項17の方法。
  19. 前記参照データベースの全ての他のベクトルと異なる前記参照データベースの第1データベースを設けるステップを更に含む請求項11の方法。
  20. 前記第1ベクトルから純化ベクトルを形成するステップを更に含む請求項11の方法。
  21. 純化マトリックスと前記ベクトルを比較する前記ステップが、前記ベクトルが前記の純化マトリックスに含まれるかどうかを決めるために、前記の純化マトリックスと前記ベクトルを比較するステップからなることを特徴とする請求項20の方法。
  22. データ・フィールドを変換する前記ステップが、前記データ・フィールドでのデータ要素の少なくとも同じ数の可能な値において、
    基数をもつ適切な数値システムの選択、
    数値システムで数字として前記データ要素の表示、及び
    前記ベクトルへの前記数字の記憶、
    のステップからなることを特徴とする請求項9の方法。
  23. 特定のオーダーでの第1フィールド・ベクトルのソート、
    特定のオーダーでの第2フィールド・ベクトルのソート、
    第1フィールド・ベクトル中の第1インデックスでの第1値と第2フィールド・ベクトル中の第2インデックスでの第2値の比較、
    前記第1値が前記第2値と同じでない場合、前記第1値と前記第2値との間の差異に基づく前記第1インデックスと前記第2インデックスの一つの調節、
    のステップからなる第1フィールド・ベクトル及び第2フィールド・ベクトルのデータを整理するための方法。
  24. 前記第1値が前記第2値と同じ場合に前記第1および第2値が複製のデータとして決定されることを特徴とする請求項23の方法。
  25. 特定のオーダーにおける第1フィールド・ベクトルをソートする前記ステップが増加するオーダーにおける第1のフィールド・ベクトルをソートするステップからなることを特徴とし、特定のオーダーにおける第2フィールド・ベクトルをソートする前記ステップが増加するオーダーにおける第2のフィールド・ベクトルをソートするステップからなることを特徴とする請求項23の方法。
  26. 特定のオーダーにおける第1フィールド・ベクトルをソートする前記ステップが減少するオーダーにおける第1のフィールド・ベクトルをソートするステップからなることを特徴とし、特定のオーダーにおける第2フィールド・ベクトルをソートする前記ステップが減少するオーダーにおける第2のフィールド・ベクトルをソートするステップからなることを特徴とする請求項23の方法。
  27. 前記第1インデックスと前記第2インデックスの一つを調節する前記ステップが、前記第1値が前記第2値より小さいときに前記第1インデックスを調節するステップからなることを特徴とする請求項23の方法。
  28. 前記第1インデックスと前記第2インデックスの一つを調節する前記ステップが、前記第2値が前記第1値より小さいときに前記第2インデックスを調節するステップからなることを特徴とする請求項23の方法。
  29. 前記第1インデックスと前記第2インデックスの一つを調節する前記ステップが、
    前記第1値が前記第2値より小さいときの前記第1インデックスの調節、及び
    前記第2値が前記第1値より小さいときの前記第2インデックスの調節、
    のステップからなることを特徴とする請求項23の方法。
  30. 前記第1インデックスと前記第2インデックスの一つを調節する前記ステップが、第1値が第2値より大きいかどうかに基づき前記第1インデックスと前記第2インデックスの一つを増加させるステップからなることを特徴とする請求項23の方法。
  31. 前記第1インデックスと前記第2インデックスの一つを調節する前記ステップが、第1値が第2値より大きいかどうかに基づき前記第1インデックスと前記第2インデックスの一つを減少させるステップからなることを特徴とする請求項23の方法。
  32. 前記第1値が数値であることを特徴とし、前記第2値が数値であることを特徴とする請求項23の方法。
  33. 前記第1値は英数値を表す数値で、そして前記第2値が英数値を表す数値であることを特徴とする請求項32の方法。
  34. 少なくとも1セットの普通値の中に前記第1フィールド・ベクトルを分割し;
    少なくとも1セットの普通値の中に前記第2フィールド・ベクトルを分割する;
    ステップをさらに含む請求項23の方法。
  35. 前記第1インデックスと前記第2インデックスの1つを調節する前記ステップが前記第1フィールドと前記第2フィールド・ベクトルのそれぞれで次に分割されたセットに前記第1インデックスと前記第2インデックスの1つを調節するステップからなる請求項34の方法。
  36. 前記第1フィールド・ベクトルを普通値のセットに分割する;
    前記第2フィールド・ベクトルを普通値のセットに分割する;
    第1フィールド・ベクトルにおける第1位置の第1値と第2フィールド・ベクトルにおける第2位置の第2値を比較する;
    もし前記第1値が前記第2値と等しくないなら、前記第1値と前記第2値の間の相違に基づいて前記第1位置と前記第2位置の内の1つを調節するステップの方法であり、特定のオーダーで、ソートされた第1フィールド・ベクトル及び第2フィールド・ベクトルを第1フィールド・ベクトルと第2フィールド・ベクトルのデータを整理するための方法。
  37. もし前記第1値が前記第2値と等しいなら、前記第1及び第2値が複製データとして決定されることを特徴とする請求項36の方法。
  38. 前記第1位置と前記第2位置の1つを調節する前記ステップが前記第1フィールド・ベクトルと前記第2フィールド・ベクトルのそれぞれの、次に分割されたセットに前記第1位置と前記第2位置の1つを調節するステップからなることを特徴とする請求項36の方法。
  39. 第1及び第2フィールド・ベクトルが増加する番号順にソートされ、前記第1位置と前記第2位置の1つを調節する前記ステップが、
    もし前記第1値が前記第2値より少ないならば、前記第1フィールド・ベクトルで次の分割をされたセットに前記第1位置を調節し;
    もし前記第2値が前記第1値より少ないならば、前記第2フィールド・ベクトルで次の分割をされたセットに前記第2位置を調節する、
    ことからなる請求項38の方法。
  40. 第1及び第2フィールド・ベクトルが、数値が減少する順にソートされ、前記第1位置及び第2位置の内の1つの調節する前記ステップが、
    もし前記第1値が前記第2値より大きいならば、前記第1フィールド・ベクトルで次の分割をされたセットに前記第1位置を調節し;
    もし前記第2値が前記第1値より大きいならば、前記第2フィールド・ベクトルで次の分割をされたセットに前記第2位置を調節する、
    ことからなる請求項38の方法。
  41. ソートされる値を受け取り;
    前記値が含まれるベクトルにおける第1位置を決定し;
    前記位置で前記ベクトルからベクトル値を回収し;
    前記値と前記ベクトル値の間の相違を決定するために前記ベクトル値をフィードバックし;かつ
    前記相違の少なくとも一部に基づいた前記ベクトルにおける新しい位置を決定する、
    ステップからなるデータをソートする方法。
  42. 新しい位置を決定する前記ステップが、前記ベクトルにおいて、前記第1位置の少なくとも一部に基づいた新しい位置を決定するステップからなる請求項41の方法。
  43. 請求項1乃至42のいずれかの方法によって実施するために記憶されたプログラムからなる、データを整理するためのコンピュータシステム。
  44. 請求項1乃至42のいずれかの方法によって実施するためにコード化され整理されたデータのためのコンピューター・プログラムを持つ、
    媒体を読み込むことが可能なコンピューター。
JP2009251330A 1999-07-20 2009-10-30 データ整理のための方法及びシステム Pending JP2010092490A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/357,301 US6424969B1 (en) 1999-07-20 1999-07-20 System and method for organizing data
US09/412,970 US6457006B1 (en) 1999-07-20 1999-10-06 System and method for organizing data
US09/617,047 US6542896B1 (en) 1999-07-20 2000-07-14 System and method for organizing data

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005353828A Division JP2006172452A (ja) 1999-07-20 2005-12-07 データ整理のための方法及びシステム

Related Child Applications (2)

Application Number Title Priority Date Filing Date
JP2011055861A Division JP2011175648A (ja) 1999-07-20 2011-03-14 データ整理のための方法及びシステム
JP2012113513A Division JP2012212437A (ja) 1999-07-20 2012-05-17 データ整理のための方法及びシステム

Publications (1)

Publication Number Publication Date
JP2010092490A true JP2010092490A (ja) 2010-04-22

Family

ID=23405051

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009251330A Pending JP2010092490A (ja) 1999-07-20 2009-10-30 データ整理のための方法及びシステム
JP2011055861A Ceased JP2011175648A (ja) 1999-07-20 2011-03-14 データ整理のための方法及びシステム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011055861A Ceased JP2011175648A (ja) 1999-07-20 2011-03-14 データ整理のための方法及びシステム

Country Status (5)

Country Link
US (8) US6424969B1 (ja)
JP (2) JP2010092490A (ja)
AU (1) AU2008203532A1 (ja)
IL (1) IL147736A (ja)
RU (1) RU2268488C2 (ja)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4046893B2 (ja) * 1999-05-28 2008-02-13 富士通株式会社 データベース複写装置及びデータベース複写方法並びにデータベース複写プログラムを記録したコンピュータ読み取り可能な記録媒体
US6829743B1 (en) * 1999-09-28 2004-12-07 Kabushiki Kaisha Toshiba Method of acquiring environment consideration condition information
US20020013551A1 (en) * 2000-05-26 2002-01-31 Akinori Zaitsu Medical pump monitoring system
US7584125B2 (en) * 2000-06-26 2009-09-01 Jpmorgan Chase Bank, N.A. Electronic check presentment system and method having an item sequence capability
US20020072953A1 (en) * 2000-12-08 2002-06-13 Michlowitz Eric S. Process, a method, a system and software architecture for evaluating supplier performance
CA2387277C (en) 2001-05-25 2015-03-03 Hitachi, Ltd. Information processing system using nucleotide sequence-related information
US8294552B2 (en) * 2001-07-10 2012-10-23 Xatra Fund Mx, Llc Facial scan biometrics on a payment device
US20030050830A1 (en) * 2001-09-13 2003-03-13 William Troyer Method and apparatus for evaluating relative performance of a business in an association of the same or similar businesses
US7606819B2 (en) 2001-10-15 2009-10-20 Maya-Systems Inc. Multi-dimensional locating system and method
US7680817B2 (en) * 2001-10-15 2010-03-16 Maya-Systems Inc. Multi-dimensional locating system and method
US7092956B2 (en) * 2001-11-02 2006-08-15 General Electric Capital Corporation Deduplication system
US7624067B2 (en) * 2001-12-21 2009-11-24 Glynntech, Inc. Bankruptcy creditor manager internet system
US7334003B2 (en) * 2002-01-11 2008-02-19 First Data Corporation Methods and systems for extracting related information from flat files
US6961721B2 (en) * 2002-06-28 2005-11-01 Microsoft Corporation Detecting duplicate records in database
GB0217201D0 (en) * 2002-07-24 2002-09-04 Beach Solutions Ltd XML database differencing engine
US8131471B2 (en) * 2002-08-08 2012-03-06 Agilent Technologies, Inc. Methods and system for simultaneous visualization and manipulation of multiple data types
US20080058106A1 (en) 2002-10-07 2008-03-06 Maya-Systems Inc. Multi-dimensional locating game system and method
US20040158816A1 (en) * 2003-01-07 2004-08-12 Pandipati Radha K.C. Personal data organizer software
US8166033B2 (en) * 2003-02-27 2012-04-24 Parity Computing, Inc. System and method for matching and assembling records
US7225194B2 (en) * 2003-10-24 2007-05-29 Sap Ag Composite record identifier generator
US7739309B2 (en) * 2004-09-30 2010-06-15 Microsoft Corporation Method, system, and computer-readable medium for merging data from multiple data sources for use in an electronic document
US7293022B2 (en) * 2005-04-14 2007-11-06 International Business Machines Corporation List update employing neutral sort keys
US8630996B2 (en) * 2005-05-05 2014-01-14 At&T Intellectual Property I, L.P. Identifying duplicate entries in a historical database
US20060271582A1 (en) * 2005-05-25 2006-11-30 Caterpillar Inc. System and method for analyzing raw data files
US8645313B1 (en) * 2005-05-27 2014-02-04 Microstrategy, Inc. Systems and methods for enhanced SQL indices for duplicate row entries
US7788651B2 (en) * 2005-09-02 2010-08-31 Microsoft Corporation Anonymous types
US7590624B2 (en) * 2005-09-12 2009-09-15 Lsi Corporation Process for identifying duplicate values in very large data sets
US8346725B2 (en) * 2006-09-15 2013-01-01 Oracle International Corporation Evolution of XML schemas involving partial data copy
US7870163B2 (en) * 2006-09-28 2011-01-11 Oracle International Corporation Implementation of backward compatible XML schema evolution in a relational database system
US20080120319A1 (en) 2006-11-21 2008-05-22 International Business Machines Corporation System and method for identifying computer users having files with common attributes
US7574446B2 (en) * 2006-12-06 2009-08-11 Catalyst Repository Systems, Inc. Converting arbitrary strings into numeric representations to facilitate complex comparisons
US8601392B2 (en) 2007-08-22 2013-12-03 9224-5489 Quebec Inc. Timeline for presenting information
US8069404B2 (en) 2007-08-22 2011-11-29 Maya-Systems Inc. Method of managing expected documents and system providing same
US20090150451A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method and system for selective merging of patient data
CA2657835C (en) 2008-03-07 2017-09-19 Mathieu Audet Documents discrimination system and method thereof
CN101359330B (zh) * 2008-05-04 2015-05-06 索意互动(北京)信息技术有限公司 内容扩展的方法和系统
CA2677921C (en) 2008-09-12 2017-06-13 Mathieu Ma Audet Method of managing groups of arrays of documents
EP2259210A2 (de) * 2009-06-05 2010-12-08 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Analyse einer Datenbank
US8719240B2 (en) * 2009-06-19 2014-05-06 International Business Machines Corporation Apparatus and method to sequentially deduplicate groups of files comprising the same file name but different file version numbers
EP2534587B1 (en) * 2010-02-11 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Data management at a directory database
US8650209B1 (en) * 2010-10-27 2014-02-11 Amdocs Software Systems Limited System, method, and computer program for determining most of the non duplicate records in high performance environments in an economical and fault-tolerant manner
US9189129B2 (en) 2011-02-01 2015-11-17 9224-5489 Quebec Inc. Non-homogeneous objects magnification and reduction
US9020830B2 (en) 2011-03-08 2015-04-28 Apptio, Inc. Hierarchy based dependent object relationships
US9600808B1 (en) 2011-06-24 2017-03-21 Epic One Texas, Llc Secure payment card, method and system
CN102841906B (zh) * 2011-06-24 2016-12-07 阿里巴巴集团控股有限公司 一种整合的交易处理系统及交易处理方法
CA2790799C (en) 2011-09-25 2023-03-21 Mathieu Audet Method and apparatus of navigating information element axes
US9275050B2 (en) * 2011-10-24 2016-03-01 Apptio, Inc. Global dictionaries using universal primitives
WO2013082473A1 (en) * 2011-12-02 2013-06-06 Avex, Llc Spring-driven foot compression system
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
US9460200B2 (en) 2012-07-02 2016-10-04 International Business Machines Corporation Activity recommendation based on a context-based electronic files search
US9262499B2 (en) 2012-08-08 2016-02-16 International Business Machines Corporation Context-based graphical database
US9619580B2 (en) 2012-09-11 2017-04-11 International Business Machines Corporation Generation of synthetic context objects
US9251237B2 (en) 2012-09-11 2016-02-02 International Business Machines Corporation User-specific synthetic context object matching
US8620958B1 (en) 2012-09-11 2013-12-31 International Business Machines Corporation Dimensionally constrained synthetic context objects database
US9223846B2 (en) 2012-09-18 2015-12-29 International Business Machines Corporation Context-based navigation through a database
US9741138B2 (en) 2012-10-10 2017-08-22 International Business Machines Corporation Node cluster relationships in a graph database
US20140136295A1 (en) 2012-11-13 2014-05-15 Apptio, Inc. Dynamic recommendations taken over time for reservations of information technology resources
US8931109B2 (en) 2012-11-19 2015-01-06 International Business Machines Corporation Context-based security screening for accessing data
US8983981B2 (en) 2013-01-02 2015-03-17 International Business Machines Corporation Conformed dimensional and context-based data gravity wells
US9229932B2 (en) 2013-01-02 2016-01-05 International Business Machines Corporation Conformed dimensional data gravity wells
US9069752B2 (en) 2013-01-31 2015-06-30 International Business Machines Corporation Measuring and displaying facets in context-based conformed dimensional data gravity wells
US9053102B2 (en) 2013-01-31 2015-06-09 International Business Machines Corporation Generation of synthetic context frameworks for dimensionally constrained hierarchical synthetic context-based objects
US9292506B2 (en) 2013-02-28 2016-03-22 International Business Machines Corporation Dynamic generation of demonstrative aids for a meeting
US10152526B2 (en) 2013-04-11 2018-12-11 International Business Machines Corporation Generation of synthetic context objects using bounded context objects
US9348794B2 (en) 2013-05-17 2016-05-24 International Business Machines Corporation Population of context-based data gravity wells
US9195608B2 (en) * 2013-05-17 2015-11-24 International Business Machines Corporation Stored data analysis
US10417591B2 (en) 2013-07-03 2019-09-17 Apptio, Inc. Recursive processing of object allocation rules
US20150032729A1 (en) * 2013-07-23 2015-01-29 Salesforce.Com, Inc. Matching snippets of search results to clusters of objects
CA2919886A1 (en) * 2013-08-02 2015-02-05 Lufkin Industries, Llc Improved stator assembly for progressive cavity pumping systems
US10325232B2 (en) 2013-09-20 2019-06-18 Apptio, Inc. Allocating heritage information in data models
US11244364B2 (en) 2014-02-13 2022-02-08 Apptio, Inc. Unified modeling of technology towers
RU2556425C1 (ru) * 2014-02-14 2015-07-10 Закрытое акционерное общество "Эвентос" (ЗАО "Эвентос") Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители
US10380253B2 (en) * 2014-03-04 2019-08-13 International Business Machines Corporation Natural language processing with dynamic pipelines
US9946771B2 (en) 2014-05-30 2018-04-17 Apple Inc. User interface for searching
US10387389B2 (en) 2014-09-30 2019-08-20 International Business Machines Corporation Data de-duplication
US9785698B2 (en) * 2014-12-31 2017-10-10 Business Objects Software Ltd. Behaviorally consistent cluster-wide data wrangling based on locally processed sampled data
US10369075B2 (en) 2015-03-03 2019-08-06 Avex, Llc Insole foot compression system and methods
US20160267172A1 (en) * 2015-03-09 2016-09-15 DonRiver, Inc. Constraint free model
US20160335294A1 (en) * 2015-05-15 2016-11-17 Bjorn J. Gruenwald System and Method for Organizing Data
US9350561B1 (en) 2015-05-27 2016-05-24 Apptio, Inc. Visualizing the flow of resources in an allocation model
US11151493B2 (en) 2015-06-30 2021-10-19 Apptio, Inc. Infrastructure benchmarking based on dynamic cost modeling
US10089358B2 (en) 2015-09-21 2018-10-02 The Nielsen Company (Us), Llc Methods and apparatus to partition data
US10268979B2 (en) 2015-09-28 2019-04-23 Apptio, Inc. Intermediate resource allocation tracking in data models
US10387815B2 (en) 2015-09-29 2019-08-20 Apptio, Inc. Continuously variable resolution of resource allocation
US9384511B1 (en) 2015-12-16 2016-07-05 Apptio, Inc. Version control for resource allocation modeling
MX2018007269A (es) * 2015-12-19 2019-05-16 Swvl Inc Metodo y dispositivo para correlacionar multiples tablas en un entorno de base de datos.
US9529863B1 (en) 2015-12-21 2016-12-27 Apptio, Inc. Normalizing ingested data sets based on fuzzy comparisons to known data sets
US10726367B2 (en) 2015-12-28 2020-07-28 Apptio, Inc. Resource allocation forecasting
US10474974B2 (en) 2016-09-08 2019-11-12 Apptio, Inc. Reciprocal models for resource allocation
US10936978B2 (en) 2016-09-20 2021-03-02 Apptio, Inc. Models for visualizing resource allocation
US10482407B2 (en) 2016-11-14 2019-11-19 Apptio, Inc. Identifying resource allocation discrepancies
US10157356B2 (en) 2016-12-14 2018-12-18 Apptio, Inc. Activity based resource allocation modeling
US10671266B2 (en) 2017-06-05 2020-06-02 9224-5489 Quebec Inc. Method and apparatus of aligning information element axes
RU2667608C1 (ru) * 2017-08-14 2018-09-21 Иван Александрович Баранов Способ обеспечения целостности данных
US10324951B1 (en) 2017-12-29 2019-06-18 Apptio, Inc. Tracking and viewing model changes based on time
US10268980B1 (en) 2017-12-29 2019-04-23 Apptio, Inc. Report generation based on user responsibility
US11775552B2 (en) 2017-12-29 2023-10-03 Apptio, Inc. Binding annotations to data objects
EP3785133A4 (en) 2018-04-24 2022-01-19 Von Drakk, Viktor IMPROVED METHOD AND APPARATUS FOR CORRELING MULTIPLE TABLES IN A DATABASE ENVIRONMENT
US11354093B1 (en) * 2020-10-19 2022-06-07 Khalid Omar Thabit Integer and characters prefix based methodologies combined with parallel data sort methodology enhance the execution performance of any string sorting algorithm
US11620271B2 (en) * 2021-08-11 2023-04-04 Sap Se Relationship analysis using vector representations of database tables
US11995733B2 (en) 2021-09-17 2024-05-28 Motorola Solutions, Inc. Method and system for linking unsolicited electronic tips to public-safety data
US20230111816A1 (en) * 2021-10-12 2023-04-13 At&T Intellectual Property I, L.P. Storing data at edges or cloud storage with high security
US12045672B2 (en) * 2022-01-11 2024-07-23 Workday, Inc. System and method for mapping data from one organization's computer application to another organization's computer application

Family Cites Families (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US617835A (en) * 1899-01-17 Frank patak
US3775753A (en) 1971-01-04 1973-11-27 Texas Instruments Inc Vector order computing system
FR111574A (ja) * 1973-12-13 1900-01-01
US4281391A (en) * 1979-01-15 1981-07-28 Leland Stanford Junior University Number theoretic processor
US4414629A (en) * 1979-04-02 1983-11-08 Waite John H Method and apparatus for making correlations and predictions using a finite field of data of unorganized and/or partially structured elements
EP0079465A3 (en) 1981-11-13 1985-01-23 International Business Machines Corporation Method for storing and accessing a relational data base
US4635199A (en) * 1983-04-28 1987-01-06 Nec Corporation Pivot-type machine translating system comprising a pragmatic table for checking semantic structures, a pivot representation, and a result of translation
JPH077385B2 (ja) 1983-12-23 1995-01-30 株式会社日立製作所 データ処理装置
JPS61210477A (ja) * 1984-05-25 1986-09-18 Hitachi Ltd ベクトル型連想メモリシステム
US5225981A (en) * 1986-10-03 1993-07-06 Ricoh Company, Ltd. Language analyzer for morphemically and syntactically analyzing natural languages by using block analysis and composite morphemes
US4864503A (en) * 1987-02-05 1989-09-05 Toltran, Ltd. Method of using a created international language as an intermediate pathway in translation between two national languages
US4792793A (en) * 1987-05-28 1988-12-20 Amdahl Corporation Converting numbers between binary and another base
CA1280215C (en) * 1987-09-28 1991-02-12 Eddy Lee Multilingual ordered data retrieval system
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5226158A (en) 1989-05-24 1993-07-06 International Business Machines Corporation Method and apparatus for maintaining referential integrity within a relational database
US5111395A (en) * 1989-11-03 1992-05-05 Smith Rodney A Automated fund collection system including means to eliminate duplicate entries from a mailing list
US5241648A (en) * 1990-02-13 1993-08-31 International Business Machines Corporation Hybrid technique for joining tables
CA2012139C (en) * 1990-03-08 2004-01-13 Michael P. Teter Apparatus and method for predicting physical and chemical properties of materials
JPH07104784B2 (ja) * 1990-04-03 1995-11-13 富士ゼロックス株式会社 デジタルデータ処理装置
US5212639A (en) * 1990-04-05 1993-05-18 Sampson Wesley C Method and electronic apparatus for the classification of combinatorial data for the summarization and/or tabulation thereof
US5197001A (en) 1990-05-14 1993-03-23 International Business Machines Corp. Bill of material and project network processing
US5287494A (en) * 1990-10-18 1994-02-15 International Business Machines Corporation Sorting/merging tree for determining a next tournament champion in each cycle by simultaneously comparing records in a path of the previous tournament champion
US5559940A (en) * 1990-12-14 1996-09-24 Hutson; William H. Method and system for real-time information analysis of textual material
US5680627A (en) * 1991-02-15 1997-10-21 Texas Instruments Incorporated Method and apparatus for character preprocessing which translates textual description into numeric form for input to a neural network
US5481704A (en) * 1991-09-27 1996-01-02 Computer Concepts Corp. Indexing/compression scheme for supporting graphics and data selection
JP3202074B2 (ja) * 1992-10-21 2001-08-27 富士通株式会社 並列ソート方式
US5675815A (en) * 1992-11-09 1997-10-07 Ricoh Company, Ltd. Language conversion system and text creating system using such
US5418947A (en) * 1992-12-23 1995-05-23 At&T Corp. Locating information in an unsorted database utilizing a B-tree
US5533051A (en) * 1993-03-12 1996-07-02 The James Group Method for data compression
US5508538A (en) * 1993-04-19 1996-04-16 California Institute Of Technology Signal processing applications of massively parallel charge domain computing devices
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JP3185167B2 (ja) 1993-12-24 2001-07-09 株式会社日立製作所 データ加工システム
US5802509A (en) * 1993-09-21 1998-09-01 Hitachi, Ltd. Rule generation system and method of generating rule
US5542087A (en) 1993-10-15 1996-07-30 Hewlett-Packard Company Linear hashing for distributed records
US5499359A (en) 1994-01-18 1996-03-12 Borland International, Inc. Methods for improved referential integrity in a relational database management system
US5471612A (en) * 1994-03-03 1995-11-28 Borland International, Inc. Electronic spreadsheet system and methods for compiling a formula stored in a spreadsheet into native machine code for execution by a floating-point unit upon spreadsheet recalculation
WO1995030981A1 (en) 1994-05-05 1995-11-16 Hutson William H A method and system for real-time information analysis of textual material
AUPM616994A0 (en) * 1994-06-09 1994-07-07 Reilly, Chris Security system for eft using magnetic strip cards
JP3457061B2 (ja) * 1994-06-28 2003-10-14 富士通株式会社 属性混在文字列のソート装置及び属性混在文字列のソート方法
US5603022A (en) * 1994-09-23 1997-02-11 The Regents Of The University Of Michigan Data compression system and method representing records as differences between sorted domain ordinals representing field values
US5678043A (en) * 1994-09-23 1997-10-14 The Regents Of The University Of Michigan Data compression and encryption system and method representing records as differences between sorted domain ordinals that represent field values
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system
US5628004A (en) 1994-11-04 1997-05-06 Optima Direct, Inc. System for managing database of communication of recipients
US6128386A (en) * 1994-11-09 2000-10-03 Channel One Communications, Inc. Multiple number base encoder/decoder using a corresponding exclusive or function
JP3152868B2 (ja) 1994-11-16 2001-04-03 富士通株式会社 検索装置および辞書/テキスト検索方法
US6029195A (en) * 1994-11-29 2000-02-22 Herz; Frederick S. M. System for customized electronic identification of desirable objects
JP3201945B2 (ja) * 1995-01-10 2001-08-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのテーブルを比較する方法
JPH0981569A (ja) * 1995-09-12 1997-03-28 Hitachi Ltd 多カ国対応サービス提供システム
JP3734051B2 (ja) * 1995-09-28 2006-01-11 日立ソフトウエアエンジニアリング株式会社 ネットワーク管理システム
US5809501A (en) * 1996-01-30 1998-09-15 Telefonaktiebolaget L M Ericsson (Publ) Method and system of database management in an asynchronous transfer mode (ATM) environment
US5819251A (en) * 1996-02-06 1998-10-06 Oracle Corporation System and apparatus for storage retrieval and analysis of relational and non-relational data
SE509645C2 (sv) * 1996-02-08 1999-02-15 Ericsson Telefon Ab L M En metod för att samtidigt med protokollbaserad funktionsändring i en databas utföra verifiering av konverterad data
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5668989A (en) * 1996-09-18 1997-09-16 Mao; Decao Two-digit hybrid radix year numbers for year 2000 and beyond
US6026397A (en) * 1996-05-22 2000-02-15 Electronic Data Systems Corporation Data analysis system and method
US6208993B1 (en) * 1996-07-26 2001-03-27 Ori Software Development Ltd. Method for organizing directories
US6175835B1 (en) * 1996-07-26 2001-01-16 Ori Software Development, Ltd. Layered index with a basic unbalanced partitioned index that allows a balanced structure of blocks
JP3916007B2 (ja) * 1996-08-01 2007-05-16 高嗣 北川 意味情報処理方法及びその装置
US5924091A (en) 1996-08-28 1999-07-13 Sybase, Inc. Database system with improved methods for radix sorting
US6253188B1 (en) * 1996-09-20 2001-06-26 Thomson Newspapers, Inc. Automated interactive classified ad system for the internet
US5970490A (en) * 1996-11-05 1999-10-19 Xerox Corporation Integration platform for heterogeneous databases
US5963642A (en) * 1996-12-30 1999-10-05 Goldstein; Benjamin D. Method and apparatus for secure storage of data
US5892470A (en) * 1997-01-08 1999-04-06 Microsoft Corporation Method and system for mnemonic encoding of numbers
JP3195752B2 (ja) * 1997-02-28 2001-08-06 シャープ株式会社 検索装置
US5822743A (en) 1997-04-08 1998-10-13 1215627 Ontario Inc. Knowledge-based information retrieval system
US5895470A (en) * 1997-04-09 1999-04-20 Xerox Corporation System for categorizing documents in a linked collection of documents
US5978788A (en) * 1997-04-14 1999-11-02 International Business Machines Corporation System and method for generating multi-representations of a data cube
US6233546B1 (en) * 1998-11-19 2001-05-15 William E. Datig Method and system for machine translation using epistemic moments and stored dictionary entries
US6154213A (en) 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6073140A (en) * 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US6463404B1 (en) * 1997-08-08 2002-10-08 British Telecommunications Public Limited Company Translation
US6236974B1 (en) * 1997-08-08 2001-05-22 Parasoft Corporation Method and apparatus for automated selection and organization of products including menus
US6370513B1 (en) * 1997-08-08 2002-04-09 Parasoft Corporation Method and apparatus for automated selection, organization, and recommendation of items
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US5974412A (en) * 1997-09-24 1999-10-26 Sapient Health Network Intelligent query system for automatically indexing information in a database and automatically categorizing users
US5974407A (en) 1997-09-29 1999-10-26 Sacks; Jerome E. Method and apparatus for implementing a hierarchical database management system (HDBMS) using a relational database management system (RDBMS) as the implementing apparatus
US5987456A (en) * 1997-10-28 1999-11-16 University Of Masschusetts Image retrieval by syntactic characterization of appearance
US6122628A (en) * 1997-10-31 2000-09-19 International Business Machines Corporation Multidimensional data clustering and dimension reduction for indexing and searching
US6134541A (en) * 1997-10-31 2000-10-17 International Business Machines Corporation Searching multidimensional indexes using associated clustering and dimension reduction information
US6108670A (en) * 1997-11-24 2000-08-22 International Business Machines Corporation Checking and enabling database updates with a dynamic, multi-modal, rule based system
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US6138109A (en) * 1997-12-23 2000-10-24 Caterpillar Inc. Neural network diagnostic classification of complex binary systems
AU762283B2 (en) 1998-01-23 2003-06-19 Emc Corporation Content addressable information encapsulation, representation, and transfer
US6493662B1 (en) * 1998-02-11 2002-12-10 International Business Machines Corporation Rule-based number parser
EP0943990A3 (en) * 1998-02-27 2004-12-22 Texas Instruments Incorporated Method and system of providing dynamic optimization information in a code interpretive runtime environment
US5985470A (en) * 1998-03-16 1999-11-16 General Electric Company Thermal/environmental barrier coating system for silicon-based materials
US6343375B1 (en) * 1998-04-24 2002-01-29 International Business Machines Corporation Method for optimizing array bounds checks in programs
US6070164A (en) * 1998-05-09 2000-05-30 Information Systems Corporation Database method and apparatus using hierarchical bit vector index structure
US6212530B1 (en) * 1998-05-12 2001-04-03 Compaq Computer Corporation Method and apparatus based on relational database design techniques supporting modeling, analysis and automatic hypertext generation for structured document collections
US6185567B1 (en) * 1998-05-29 2001-02-06 The Trustees Of The University Of Pennsylvania Authenticated access to internet based research and data services
US6196466B1 (en) * 1998-06-09 2001-03-06 Symbol Technologies, Inc. Data compression method using multiple base number systems
US6202141B1 (en) * 1998-06-16 2001-03-13 International Business Machines Corporation Method and apparatus for performing vector operation using separate multiplication on odd and even data elements of source vectors
US6185673B1 (en) * 1998-06-30 2001-02-06 Sun Microsystems, Inc. Apparatus and method for array bounds checking with a shadow register file
US6327574B1 (en) * 1998-07-07 2001-12-04 Encirq Corporation Hierarchical models of consumer attributes for targeting content in a privacy-preserving manner
JP3280332B2 (ja) * 1998-07-10 2002-05-13 インターナショナル・ビジネス・マシーンズ・コーポレーション ループに対するバージョニングを実行する方法及び装置、配列レンジ・チェックに関する情報をベーシック・ブロック内において収集する方法及び装置、配列レンジ・チェックに関する情報を変更する方法、配列レンジ・チェック最適化方法、配列レンジ・チェックのためのコードを生成する方法、不要配列レンジ・チェック除去方法及び装置、配列レンジ・チェックを選択する方法、配列レンジ・チェック変更方法、配列レンジ・チェック収集方法、及び配列レンジ・チェック取扱判断方法
US6256664B1 (en) * 1998-09-01 2001-07-03 Bigfix, Inc. Method and apparatus for computed relevance messaging
US6301579B1 (en) * 1998-10-20 2001-10-09 Silicon Graphics, Inc. Method, system, and computer program product for visualizing a data structure
US6212532B1 (en) * 1998-10-22 2001-04-03 International Business Machines Corporation Text categorization toolkit
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6523172B1 (en) * 1998-12-17 2003-02-18 Evolutionary Technologies International, Inc. Parser translator system and method
US6275789B1 (en) * 1998-12-18 2001-08-14 Leo Moser Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language
US6249784B1 (en) * 1999-05-19 2001-06-19 Nanogen, Inc. System and method for searching and processing databases comprising named annotated text strings
US6349309B1 (en) * 1999-05-24 2002-02-19 International Business Machines Corporation System and method for detecting clusters of information with application to e-commerce
US6578025B1 (en) * 1999-06-11 2003-06-10 Abuzz Technologies, Inc. Method and apparatus for distributing information to users
US7020647B1 (en) * 1999-06-18 2006-03-28 International Business Machines Corporation Utilize encoded vector indexing for database grouping
US6542896B1 (en) 1999-07-20 2003-04-01 Primentia, Inc. System and method for organizing data
US6754666B1 (en) * 1999-08-19 2004-06-22 A2I, Inc. Efficient storage and access in a database management system
WO2001039035A1 (fr) * 1999-11-17 2001-05-31 United Nations Systeme de traduction
US6675166B2 (en) * 2000-02-09 2004-01-06 The John Hopkins University Integrated multidimensional database
DE10101346B4 (de) * 2000-03-08 2009-12-24 International Business Machines Corp. Verfahren zum automatischen Umsetzen von Daten, die in einem bestimmten Laufzeitcodierungssystem erzeugt wurden, für die Verarbeitung in einem anderen Laufzeitcodierungssystem
US6408383B1 (en) * 2000-05-04 2002-06-18 Sun Microsystems, Inc. Array access boundary check by executing BNDCHK instruction with comparison specifiers
US20020022953A1 (en) 2000-05-24 2002-02-21 Bertolus Phillip Andre Indexing and searching ideographic characters on the internet
US6695461B2 (en) * 2000-12-25 2004-02-24 Seiko Epson Corporation Lamp unit, projector, and fixing method of light source lamp and reflector
US20020165707A1 (en) * 2001-02-26 2002-11-07 Call Charles G. Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
US20030023958A1 (en) * 2001-07-17 2003-01-30 Patel Mukesh K. Intermediate language accelerator chip
WO2003049594A2 (en) * 2001-12-10 2003-06-19 The Board Of Trustees Of The University Of Arkansas Minimally invasive treatment for breast cancer
US20030135788A1 (en) * 2002-01-11 2003-07-17 Raj Prakash Profile feedback assisted null check removal
US20030163595A1 (en) * 2002-02-26 2003-08-28 John Ta Task manager - method of forwarding messages among task blocks
CA2638965A1 (en) * 2003-05-15 2004-11-15 Ibm Canada Limited - Ibm Canada Limitee Accessing a platform independent input method editor from an underlying operating system
US7359850B2 (en) 2003-09-26 2008-04-15 Chai David T Spelling and encoding method for ideographic symbols
US7447665B2 (en) * 2004-05-10 2008-11-04 Kinetx, Inc. System and method of self-learning conceptual mapping to organize and interpret data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNB199700381001, D.E.ジョンソン、外2名, マイクロコンピュータの基礎, 19820504, 第1版, p.163−175, 東海大学出版会 *
JPN6008060636, D.E.ジョンソン、外2名, マイクロコンピュータの基礎, 19820504, 第1版, p.163−175, 東海大学出版会 *

Also Published As

Publication number Publication date
US20030037051A1 (en) 2003-02-20
US20130297568A1 (en) 2013-11-07
US20020194176A1 (en) 2002-12-19
US20030046285A1 (en) 2003-03-06
US6751610B2 (en) 2004-06-15
IL147736A (en) 2008-08-07
US7698283B2 (en) 2010-04-13
US6424969B1 (en) 2002-07-23
US20140207788A1 (en) 2014-07-24
US6457006B1 (en) 2002-09-24
JP2011175648A (ja) 2011-09-08
US20110010398A1 (en) 2011-01-13
RU2268488C2 (ru) 2006-01-20
AU2008203532A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
JP2012212437A (ja) データ整理のための方法及びシステム
JP2010092490A (ja) データ整理のための方法及びシステム
US7769778B2 (en) Systems and methods for validating an address
US6018735A (en) Non-literal textual search using fuzzy finite-state linear non-deterministic automata
US20040107189A1 (en) System for identifying similarities in record fields
CA2473446A1 (en) Identifier vocabulary data access method and system
WO2008137086A2 (en) Method and system for disambiguating informational objects
WO2003071450A2 (en) System and method for identifying relationships between database records
JPH09134363A (ja) データベース検索方法及び装置
CN112687364B (zh) 一种基于Hbase的医疗数据管理方法及其系统
WO2009005492A1 (en) Systems and methods for validating an address
Shrestha et al. Schema matching and data integration with consistent naming on protein crystallization screens
Herbert et al. Biological data cleaning: a case study
JP4259889B2 (ja) データベース管理システム、データベース管理装置、データベース管理方法、及びデータベース管理プログラム
US8516004B2 (en) Method for processing K node count fields using an intensity variable
Kanavos et al. Apache spark implementations for string patterns in dna sequences
US7676330B1 (en) Method for processing a particle using a sensor structure
US20110314022A9 (en) K engine - process count after build in threads
JPH1153435A (ja) エンティティの一覧中に発見された所与のエンティティにマッチするものを等級分けする方法
WO1999041652A2 (en) System and method for high speed, high volume tabulation of data
SE518744C2 (sv) Förfarande för att utvinna önskad data ur källdata

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101210

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110817

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110822

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120117