JP4814570B2 - あいまいな重複に強い検出器 - Google Patents
あいまいな重複に強い検出器 Download PDFInfo
- Publication number
- JP4814570B2 JP4814570B2 JP2005221802A JP2005221802A JP4814570B2 JP 4814570 B2 JP4814570 B2 JP 4814570B2 JP 2005221802 A JP2005221802 A JP 2005221802A JP 2005221802 A JP2005221802 A JP 2005221802A JP 4814570 B2 JP4814570 B2 JP 4814570B2
- Authority
- JP
- Japan
- Prior art keywords
- tuples
- tuple
- ambiguous
- data set
- vicinity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stereo-Broadcasting Methods (AREA)
- Circuits Of Receivers In General (AREA)
Description
あいまいな重複を検出する際に、例示的あいまいな重複の検出器は、従来技術の手法では使用されない少なくとも2つの新しい制約を用いる。特に、これらの2つの基準は、コンパクト集合(CS:compact set)および離散的な近傍(SN:sparse neighborhood)と呼ばれる。これらの2つ基準は、重複のタプルのグループを特徴付けるための、データの局所的な構造的な特性を明示的に獲得する。
コンパクト集合(CS)の基準は、重複の集合が、相互に最近隣(nearest neighbor)のコンパクト集合であることである。この基準の前提は、重複のタプルが、他の別個のタプルに対してよりも相互により近接することである。したがって、重複のタプルは通常、相互に最も近い近隣である。表1の例では、タプル1は、タプル2の最近隣であり、逆の場合も同様である。対照的に、タプル8は、タプル7の最近隣とすることができ、タプル9は、タプル8の最近隣とすることができる。
離散的な近傍(SN)の基準の前提は、重複のグループの局所近傍が離散的であることである。例えば、この基準は、表1の一意的なタプル7〜14の周辺では満たさず、重複の集合よりも大きい(この例では、4つの)グループで生じる。
以下の定義では、Rをリレーション(すなわち、データ集合)とし、またd:R x R→[0,1]をR内のタプルに関する対称の距離関数とする。分かりやすく説明するために、以下、(i)2つのタプル間の距離は、タプルがまったく同一である場合にだけ0であり、および(ii)R内にある2つのタプルは、相互に同一ではないと仮定する。この仮定の妥当性を、タプルが完全に同一である場合には0を返すように、およびそうではない場合には、小さいε>0に対して、d(v1,v2)+εを返すように、dを修正することによって確保する。
一般に、例示的あいまいな重複の検出器は、入力されたリレーションR(例えば、データベースのデータ集合など)を最小数の「妥当」なグループに分割し、ただし、グループは、最小数が小さく、ならびにCSおよびSNの基準を満たす場合に、妥当である。
・ |Gi|≦K
・ Giはコンパクト集合である
・ GiはSN(AGG,c)のグループである。
次に、最近隣計算サブシステム120の動作に関する追加の詳細を説明する。特に、ここでは、索引をアクセスする順序についてが中心である。
図2に、FDDEシステム100の手順の実行を示す。この手順の実行を、ソフトウェア、ハードウェア、またはその両方の組合せで実行することができる。理解しやすいように、方法のステップを、別個のステップとして概説するが、しかし、これらの別個のステップは、実行において必ずしも順序に依存するとして解釈しない。
・ |Gi|≦K
・ Giはコンパクト集合である
・ GiはSN(AGG,c)のグループである。
例示的あいまいな重複の検出器によって提供されるあいまいな重複の削除の問題へのソリューションは、既存の従来技術の手法よりも、より正確およびより効率的である。このソリューションは、距離関数の尺度がタプルの局所的な構造的な特性に強い影響を与えるよう尺度に関し不変である。このソリューションは、重複のグループのタプル間の距離の縮小、および限られた方法においてグループをわたるタプル間の距離の拡大によってのみ、分割を変更することができるという点で、分割/結合に関し不変である。このソリューションは、重複の削除の関数の範囲によって実際に有用であろう、グループにすることのすべてを行うような、制約の多い豊かさを有する。
図3に、本明細書で説明する、例示的あいまいな重複の検出器を(全体か部分的にか)実装することができる適切なコンピューティング環境300の一例を例示する。コンピューティング環境300を、本明細書で説明するコンピュータおよびネットワークアーキテクチャにおいて使用することができる。
例示的あいまいな重複の検出器の実装は、1つまたは複数のコンピュータまたは他の装置によって実行される、プログラムモジュールなどのプロセッサ実行可能な命令の一般的な文脈で説明することができる。プログラムモジュールには、一般に、特定のタスクを実行または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造体などを含む。プログラムモジュールの機能は、通常、種々の実装において所望のとおりに組み合わせまたは分散させることができる。
図3に、例示的あいまいな重複の検出器を実装することができる適切なオペレーティング環境300の一例を例示する。具体的には、本明細書で説明する例示的あいまいな重複の検出器を、図3のあらゆるプログラムモジュール328〜330および/もしくはオペレーティングシステム326、またはその一部によって(全体または部分的に)実装することができる。
例示的あいまいな重複の検出器の一実装を、何らかの形式のプロセッサ読取可能な媒体に対して格納するまたは送信することができる。プロセッサ読取可能な媒体は、コンピュータによってアクセスすることができるあらゆる使用可能な媒体とすることができる。例として、プロセッサ読取可能な媒体には、限定はしないが、「コンピュータ記憶媒体」および「通信媒体」を含むことができる。
上述の1つまたは複数の実装について、構造上の特徴および/または手順のステップに特有の言語で説明したが、説明した具体的な特徴またはステップなしに、他の実装が実践されることがあることを理解されたい。むしろ、具体的な特徴およびステップを、好ましい形式の1つまたは複数の実装として開示する。
306 システムメモリ
308 システムバス
325 データメディアインターフェース
326 オペレーティングシステム
328 アプリケーションプログラム
330 プログラムモジュール
332 プログラムデータ
334 キーボード
336 マウス
338 他の装置
340 I/Oインターフェース
342 モニタ
344 ビデオアダプタ
346 プリンタ
348 リモートコンピューティング装置
352 インターネット
354 ネットワークアダプタ
356 モデム
358 リモートアプリケーションプログラム
Claims (14)
- プロセッサに、
データベースから複数のタプルを含むデータ集合を取得する動作(212)と、
前記データ集合の前記複数のタプルの各々について、前記データ集合内の前記タプルに対して定義された距離関数を使用して前記データ集合内の定義された数の最近隣のタプルを計算する動作(214)と、
各タプルについて最近隣のタプルの定義された数の組を近傍と定義する動作と、
各近傍について近傍の拡張比を計算する動作であって、前記近傍の拡張比は前記近傍が定義されたタプルの周囲のスフェア中のタプル数であり、前記スフェアの半径は前記近傍が定義された前記タプルと最近隣の近傍との間の距離よりも大きい、動作と、
複数のタプルの複数の分離した分割を、各分割がコンパクトの組及び離散的な近傍であることに基づいて、定義する動作(216)であって、
ここで、もしタプルの組中の各タプルに対して、前記タプルの組中のタプルと前記タプルの組中のその他のいずれのタプルとの間の距離が前記タプルの組中のタプルと前記タプルの組中の外のデータ集合内のその他のいずれのタプルとの間の距離よりも短ければ、前記データ集合内の前記タプルの組はコンパクトな組であり、
もし前記タプルの組中の全てのタプルの近傍の拡張比の集合された値が閾値よりも小さければ、前記タプルの組は離散的な近傍のグループであり、
各分割内のタプルが相互のあいまいな重複を含み、分割内の各あいまいな重複のタプルが共通の実世界の実体または現象を表す、動作と、
前記分割の各々によって1つの重複しないタプルが残るよう、前記複数のあいまいな重複のタプルの複数の分割内の重複を削除する動作(218)と
を備えた動作群を実行させるプロセッサ実行可能な命令を有する1つまたは複数のプロセッサ読取可能な記録媒体。 - もしタプルの組のカーディナリティが1に等しければ前記タプルの組は離散的な近傍のグループであることを特徴とする請求項1に記載の1つまたは複数のプロセッサ読取可能な記録媒体。
- 前記計算する動作は、前記データ集合内の前記タプルの索引によって最近隣の近傍を検索する動作を含むことを特徴とする請求項1に記載の1つまたは複数のプロセッサ読取可能な記録媒体。
- 前記定義動作は、複数のタプルの複数の分割を、各分割が「コンパクトな組」、「離散的な近傍」および「小さいカーディナリティ」であることに基づいて、定義する動作を含み、もし前記分割中のあいまいな重複のグループのカーディナリティが予め定義された定数と等しいか小さい場合に分割のカーディナリティが小さいことを特徴とする請求項1に記載の1つまたは複数のプロセッサ読取可能な記録媒体。
- 各分割内の前記タプルは、互いに完全な重複をさらに含むことを特徴とする請求項1に記載の1つまたは複数のプロセッサ読取可能な記録媒体。
- あいまいな重複を削除するシステム(100)であって、
データベース(170)からの複数のタプルを含むデータ集合を取得するデータ集合取得手段(110)と、
前記データ集合の前記複数のタプルの各々について、前記データ集合内の前記タプルに対して定義された距離関数を使用して前記データ集合内の定義された数の最近隣のタプルを計算し、
各タプルについて定義された数の最近接のタプルの組を近傍として定義し、
各近傍について近傍の拡張比を計算する計算手段(120)であって、前記近傍の拡張比は前記近傍が定義されたタプルの周囲のスフェア中のタプル数であり、前記スフェアの半径は前記近傍が定義された前記タプルと最近隣の近傍との間の距離よりも大きい、計算手段と、
複数のタプルの複数の分離した分割を、各分割がコンパクトの組及び離散的な近傍であることに基づいて、定義するための分割手段(130)であって、
ここで、もしタプルの組中の各タプルに対して、前記タプルの組中のタプルと前記タプルの組中のその他のいずれのタプルとの間の距離が前記タプルの組中のタプルと前記タプルの組中の外のデータ集合内のその他のいずれのタプルとの間の距離よりも短ければ、前記データ集合内の前記タプルの組はコンパクトな組であり、
もし前記タプルの組中の全てのタプルの近傍の拡張比の集合された値が閾値よりも小さければ、前記タプルの組は離散的な近傍のグループであり、
各分割内の外観上別個のタプルが互いにあいまいな重複を含み、分割内の各あいまいな重複のタプルが共通の実世界の実体または現象を表す、分割手段と、
前記分割の各々によって1つの重複しないタプルが残るよう、前記複数の分割内の複数のあいまいな重複のタプルの重複を削除する重複削除手段(140)と
を備えたことを特徴とするシステム。 - もしタプルの組のカーディナリティが1に等しければ前記タプルの組は離散的な近傍のグループであることを特徴とする請求項6に記載のシステム。
- 前記各分割内のタプルは、相互の完全な重複をさらに含むことを特徴とする請求項6に記載のシステム。
- 前記計算手段は、前記データ集合内の前記タプルの索引によって最近隣を検索することを特徴とする請求項6に記載のシステム。
- 前記分割手段は複数のタプルの複数の分割を、各分割が「コンパクトな組」、「離散的な近傍」および「小さいカーディナリティ」であることに基づいて、定義し、もし前記分割中のあいまいな重複のグループのカーディナリティが予め定義された定数と等しいか小さい場合は、分割のカーディナリティが小さいことを特徴とする請求項6に記載のシステム。
- データ集合内のあいまいな重複タプルを除去するためのコンピュータによって実行される方法であって、
前記データ集合の前記複数のタプルの各々について、前記データ集合内の前記タプルに対して定義された距離関数を使用して前記データ集合内の定義された数の最近隣のタプルを計算するステップ(214)と、
各タプルについて最近隣のタプルの定義された数の組を近傍と定義するステップと、
各近傍について近傍の拡張比を計算するステップであって、前記近傍の拡張比は前記近傍が定義されたタプルの周囲のスフェア中のタプル数であり、前記スフェアの半径は前記近傍が定義された前記タプルと最近隣の近傍との間の距離よりも大きい、計算ステップと、
複数のタプルの複数の分離した分割を、各分割がコンパクトの組及び離散的な近傍であることに基づいて、定義するステップ(216)であって、
ここで、もしタプルの組中の各タプルに対して、前記タプルの組中のタプルと前記タプルの組中のその他のいずれのタプルとの間の距離が前記タプルの組中のタプルと前記タプルの組中の外のデータ集合内のその他のいずれのタプルとの間の距離よりも短ければ、前記データ集合内の前記タプルの組はコンパクトな組であり、
もし前記タプルの組中の全てのタプルの近傍の拡張比の集合された値が閾値よりも小さければ、前記タプルの組は離散的な近傍のグループであり、
各分割内のタプルが相互のあいまいな重複を含み、分割内の各あいまいな重複のタプルが共通の実世界の実体または現象を表す、定義ステップと、
前記分割の各々によって1つの重複しないタプルが残るよう、前記複数のあいまいな重複のタプルの複数の分割内の重複を削除するステップ(218)と
を備えた方法。 - もしタプルの組のカーディナリティが1に等しければ前記タプルの組は離散的な近傍のグループであることを特徴とする請求項11に記載の方法。
- 前記計算ステップは、前記データ集合内の前記タプルの索引によって最近隣を検索することを特徴とする請求項11に記載の方法。
- 前記定義ステップは複数のタプルの複数の分割を、各分割が「コンパクトな組」、「離散的な近傍」および「小さいカーディナリティ」であるに基づいてと定義し、もし前記分割中のあいまいな重複のグループのカーディナリティが予め定義された定数と等しいか小さい場合は、分割のカーディナリティが小さいことを特徴とする請求項11に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/929,514 | 2004-08-30 | ||
US10/929,514 US7516149B2 (en) | 2004-08-30 | 2004-08-30 | Robust detector of fuzzy duplicates |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006072985A JP2006072985A (ja) | 2006-03-16 |
JP2006072985A5 JP2006072985A5 (ja) | 2008-09-11 |
JP4814570B2 true JP4814570B2 (ja) | 2011-11-16 |
Family
ID=35219700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005221802A Active JP4814570B2 (ja) | 2004-08-30 | 2005-07-29 | あいまいな重複に強い検出器 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7516149B2 (ja) |
EP (1) | EP1630698B1 (ja) |
JP (1) | JP4814570B2 (ja) |
KR (1) | KR101153113B1 (ja) |
CN (1) | CN100520776C (ja) |
AT (1) | ATE420406T1 (ja) |
DE (1) | DE602005012192D1 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8732004B1 (en) | 2004-09-22 | 2014-05-20 | Experian Information Solutions, Inc. | Automated analysis of data to generate prospect notifications based on trigger events |
US7840484B2 (en) | 2004-10-29 | 2010-11-23 | American Express Travel Related Services Company, Inc. | Credit score and scorecard development |
US8630929B2 (en) | 2004-10-29 | 2014-01-14 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet to make lending decisions |
US7788147B2 (en) | 2004-10-29 | 2010-08-31 | American Express Travel Related Services Company, Inc. | Method and apparatus for estimating the spend capacity of consumers |
US8131614B2 (en) | 2004-10-29 | 2012-03-06 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet to compile marketing company lists |
US8543499B2 (en) | 2004-10-29 | 2013-09-24 | American Express Travel Related Services Company, Inc. | Reducing risks related to check verification |
US7792732B2 (en) | 2004-10-29 | 2010-09-07 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet to rate investments |
US20070244732A1 (en) | 2004-10-29 | 2007-10-18 | American Express Travel Related Services Co., Inc., A New York Corporation | Using commercial share of wallet to manage vendors |
US8326671B2 (en) | 2004-10-29 | 2012-12-04 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet to analyze vendors in online marketplaces |
US7822665B2 (en) | 2004-10-29 | 2010-10-26 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet in private equity investments |
US8204774B2 (en) * | 2004-10-29 | 2012-06-19 | American Express Travel Related Services Company, Inc. | Estimating the spend capacity of consumer households |
US8086509B2 (en) | 2004-10-29 | 2011-12-27 | American Express Travel Related Services Company, Inc. | Determining commercial share of wallet |
US20070016501A1 (en) | 2004-10-29 | 2007-01-18 | American Express Travel Related Services Co., Inc., A New York Corporation | Using commercial share of wallet to rate business prospects |
US8326672B2 (en) | 2004-10-29 | 2012-12-04 | American Express Travel Related Services Company, Inc. | Using commercial share of wallet in financial databases |
US7912770B2 (en) * | 2004-10-29 | 2011-03-22 | American Express Travel Related Services Company, Inc. | Method and apparatus for consumer interaction based on spend capacity |
US20080243680A1 (en) * | 2005-10-24 | 2008-10-02 | Megdal Myles G | Method and apparatus for rating asset-backed securities |
US20080033852A1 (en) * | 2005-10-24 | 2008-02-07 | Megdal Myles G | Computer-based modeling of spending behaviors of entities |
US8036979B1 (en) | 2006-10-05 | 2011-10-11 | Experian Information Solutions, Inc. | System and method for generating a finance attribute from tradeline data |
US8239250B2 (en) | 2006-12-01 | 2012-08-07 | American Express Travel Related Services Company, Inc. | Industry size of wallet |
US8606626B1 (en) | 2007-01-31 | 2013-12-10 | Experian Information Solutions, Inc. | Systems and methods for providing a direct marketing campaign planning environment |
US8606666B1 (en) | 2007-01-31 | 2013-12-10 | Experian Information Solutions, Inc. | System and method for providing an aggregation tool |
US7827153B2 (en) * | 2007-12-19 | 2010-11-02 | Sap Ag | System and method to perform bulk operation database cleanup |
US20110004578A1 (en) * | 2008-02-22 | 2011-01-06 | Michinari Momma | Active metric learning device, active metric learning method, and program |
US9910875B2 (en) | 2008-12-22 | 2018-03-06 | International Business Machines Corporation | Best-value determination rules for an entity resolution system |
US20100161542A1 (en) * | 2008-12-22 | 2010-06-24 | International Business Machines Corporation | Detecting entity relevance due to a multiplicity of distinct values for an attribute type |
US8200640B2 (en) | 2009-06-15 | 2012-06-12 | Microsoft Corporation | Declarative framework for deduplication |
US8176407B2 (en) * | 2010-03-02 | 2012-05-08 | Microsoft Corporation | Comparing values of a bounded domain |
US9652802B1 (en) | 2010-03-24 | 2017-05-16 | Consumerinfo.Com, Inc. | Indirect monitoring and reporting of a user's credit data |
US9361008B2 (en) * | 2010-05-12 | 2016-06-07 | Moog Inc. | Result-oriented configuration of performance parameters |
US8781954B2 (en) | 2012-02-23 | 2014-07-15 | American Express Travel Related Services Company, Inc. | Systems and methods for identifying financial relationships |
US8473410B1 (en) | 2012-02-23 | 2013-06-25 | American Express Travel Related Services Company, Inc. | Systems and methods for identifying financial relationships |
US9477988B2 (en) | 2012-02-23 | 2016-10-25 | American Express Travel Related Services Company, Inc. | Systems and methods for identifying financial relationships |
US8538869B1 (en) | 2012-02-23 | 2013-09-17 | American Express Travel Related Services Company, Inc. | Systems and methods for identifying financial relationships |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
CN104516900A (zh) * | 2013-09-29 | 2015-04-15 | 国际商业机器公司 | 用于多个序列数据的聚类方法及其装置 |
US9892158B2 (en) * | 2014-01-31 | 2018-02-13 | International Business Machines Corporation | Dynamically adjust duplicate skipping method for increased performance |
US10262362B1 (en) | 2014-02-14 | 2019-04-16 | Experian Information Solutions, Inc. | Automatic generation of code for attributes |
US10387389B2 (en) * | 2014-09-30 | 2019-08-20 | International Business Machines Corporation | Data de-duplication |
US10445152B1 (en) | 2014-12-19 | 2019-10-15 | Experian Information Solutions, Inc. | Systems and methods for dynamic report generation based on automatic modeling of complex data structures |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11055327B2 (en) | 2018-07-01 | 2021-07-06 | Quadient Technologies France | Unstructured data parsing for structured information |
US11301440B2 (en) | 2020-06-18 | 2022-04-12 | Lexisnexis Risk Solutions, Inc. | Fuzzy search using field-level deletion neighborhoods |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924090A (en) | 1997-05-01 | 1999-07-13 | Northern Light Technology Llc | Method and apparatus for searching a database of records |
US5940821A (en) | 1997-05-21 | 1999-08-17 | Oracle Corporation | Information presentation in a knowledge base search and retrieval system |
US5913207A (en) | 1997-08-15 | 1999-06-15 | Microsoft Corporation | Database system index selection using index configuration enumeration for a workload |
US5950186A (en) | 1997-08-15 | 1999-09-07 | Microsoft Corporation | Database system index selection using cost evaluation of a workload for multiple candidate index configurations |
US5926813A (en) | 1997-08-15 | 1999-07-20 | Microsoft Corporation | Database system index selection using cost evaluation of a workload for multiple candidate index configurations |
US5913206A (en) | 1997-08-15 | 1999-06-15 | Microsoft Corporation | Database system multi-column index selection for a workload |
US5960423A (en) | 1997-08-15 | 1999-09-28 | Microsoft Corporation | Database system index selection using candidate index selection for a workload |
US5966702A (en) | 1997-10-31 | 1999-10-12 | Sun Microsystems, Inc. | Method and apparatus for pre-processing and packaging class files |
US6182066B1 (en) | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6169983B1 (en) | 1998-05-30 | 2001-01-02 | Microsoft Corporation | Index merging for database systems |
US6223171B1 (en) | 1998-08-25 | 2001-04-24 | Microsoft Corporation | What-if index analysis utility for database systems |
US6460045B1 (en) | 1999-03-15 | 2002-10-01 | Microsoft Corporation | Self-tuning histogram and database modeling |
US6374241B1 (en) | 1999-03-31 | 2002-04-16 | Verizon Laboratories Inc. | Data merging techniques |
US6363371B1 (en) | 1999-06-29 | 2002-03-26 | Microsoft Corporation | Identifying essential statistics for query optimization for databases |
US6529901B1 (en) | 1999-06-29 | 2003-03-04 | Microsoft Corporation | Automating statistics management for query optimizers |
US6691108B2 (en) | 1999-12-14 | 2004-02-10 | Nec Corporation | Focused search engine and method |
US6366903B1 (en) | 2000-04-20 | 2002-04-02 | Microsoft Corporation | Index and materialized view selection for a given workload |
US6266658B1 (en) | 2000-04-20 | 2001-07-24 | Microsoft Corporation | Index tuner for given workload |
US6513029B1 (en) | 2000-04-20 | 2003-01-28 | Microsoft Corporation | Interesting table-subset selection for database workload materialized view selection |
US6356890B1 (en) | 2000-04-20 | 2002-03-12 | Microsoft Corporation | Merging materialized view pairs for database workload materialized view selection |
US6356891B1 (en) | 2000-04-20 | 2002-03-12 | Microsoft Corporation | Identifying indexes on materialized views for database workload |
US7007008B2 (en) | 2000-08-08 | 2006-02-28 | America Online, Inc. | Category searching |
GB0029159D0 (en) | 2000-11-29 | 2001-01-17 | Calaba Ltd | Data storage and retrieval system |
US20020124214A1 (en) | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | Method and system for eliminating duplicate reported errors in a logically partitioned multiprocessing system |
US20040128282A1 (en) | 2001-03-07 | 2004-07-01 | Paul Kleinberger | System and method for computer searching |
WO2002077640A2 (en) | 2001-03-25 | 2002-10-03 | Exiqon A/S | Systems for analysis of biological materials |
US6912549B2 (en) * | 2001-09-05 | 2005-06-28 | Siemens Medical Solutions Health Services Corporation | System for processing and consolidating records |
JP3803961B2 (ja) * | 2001-12-05 | 2006-08-02 | 日本電信電話株式会社 | データベース生成装置、データベース生成処理方法及びデータベース生成プログラム |
JP3812818B2 (ja) * | 2001-12-05 | 2006-08-23 | 日本電信電話株式会社 | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム |
US7523127B2 (en) * | 2002-01-14 | 2009-04-21 | Testout Corporation | System and method for a hierarchical database management system for educational training and competency testing simulations |
US7139749B2 (en) | 2002-03-19 | 2006-11-21 | International Business Machines Corporation | Method, system, and program for performance tuning a database query |
US7152060B2 (en) * | 2002-04-11 | 2006-12-19 | Choicemaker Technologies, Inc. | Automated database blocking and record matching |
US6961721B2 (en) * | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US7953694B2 (en) | 2003-01-13 | 2011-05-31 | International Business Machines Corporation | Method, system, and program for specifying multidimensional calculations for a relational OLAP engine |
CA2464927A1 (en) * | 2003-04-21 | 2004-10-21 | At&T Corp. | Text joins for data cleansing and integration in a relational database management system |
US7774312B2 (en) | 2003-09-04 | 2010-08-10 | Oracle International Corporation | Self-managing performance statistics repository for databases |
US20050125401A1 (en) * | 2003-12-05 | 2005-06-09 | Hewlett-Packard Development Company, L. P. | Wizard for usage in real-time aggregation and scoring in an information handling system |
WO2005057365A2 (en) | 2003-12-08 | 2005-06-23 | Ebay Inc. | System to automatically regenerate software code |
US7281004B2 (en) | 2004-02-27 | 2007-10-09 | International Business Machines Corporation | Method, system and program for optimizing compression of a workload processed by a database management system |
-
2004
- 2004-08-30 US US10/929,514 patent/US7516149B2/en active Active
-
2005
- 2005-07-12 KR KR1020050062656A patent/KR101153113B1/ko active IP Right Grant
- 2005-07-29 JP JP2005221802A patent/JP4814570B2/ja active Active
- 2005-07-29 CN CNB2005100885171A patent/CN100520776C/zh active Active
- 2005-08-24 AT AT05107743T patent/ATE420406T1/de not_active IP Right Cessation
- 2005-08-24 DE DE602005012192T patent/DE602005012192D1/de active Active
- 2005-08-24 EP EP05107743A patent/EP1630698B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2006072985A (ja) | 2006-03-16 |
CN1744083A (zh) | 2006-03-08 |
CN100520776C (zh) | 2009-07-29 |
EP1630698B1 (en) | 2009-01-07 |
US20060053129A1 (en) | 2006-03-09 |
KR20060050069A (ko) | 2006-05-19 |
US7516149B2 (en) | 2009-04-07 |
KR101153113B1 (ko) | 2012-06-04 |
EP1630698A1 (en) | 2006-03-01 |
DE602005012192D1 (de) | 2009-02-26 |
ATE420406T1 (de) | 2009-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4814570B2 (ja) | あいまいな重複に強い検出器 | |
US7287019B2 (en) | Duplicate data elimination system | |
Gravano et al. | Text joins in an RDBMS for web data integration | |
US7567962B2 (en) | Generating a labeled hierarchy of mutually disjoint categories from a set of query results | |
US9201903B2 (en) | Query by image | |
Mueller | Fast sequential and parallel algorithms for association rule mining: A comparison | |
Aggarwal et al. | A survey of uncertain data algorithms and applications | |
US8032532B2 (en) | Efficient multifaceted search in information retrieval systems | |
US6470333B1 (en) | Knowledge extraction system and method | |
JP4141460B2 (ja) | 自動分類生成 | |
US8396884B2 (en) | Graph querying, graph motif mining and the discovery of clusters | |
CN106991141B (zh) | 一种基于深度剪枝策略的关联规则挖掘方法 | |
US8046339B2 (en) | Example-driven design of efficient record matching queries | |
Dalvi et al. | Optimal hashing schemes for entity matching | |
WO2019056569A1 (zh) | 滑动窗口下基于位置top-k关键词查询的优先查询算法及系统 | |
CN111666468A (zh) | 一种基于团簇属性在社交网络中搜索个性化影响力社区的方法 | |
Lin et al. | BigIN4: Instant, interactive insight identification for multi-dimensional big data | |
Epasto et al. | Massively parallel and dynamic algorithms for minimum size clustering | |
Li et al. | Answering why-not questions on top-k augmented spatial keyword queries | |
Kang et al. | Semantic indexes for machine learning-based queries over unstructured data | |
US20230004977A1 (en) | Exploiting graph structure to improve results of entity resolution | |
Wen et al. | Computing k-cores in large uncertain graphs: An index-based optimal approach | |
Friedman et al. | Box queries over multi-dimensional streams | |
Zhou et al. | Benchmark of DNN Model Search at Deployment Time | |
WO2022141655A1 (zh) | 一种分布式计算SimRank单源节点相似度的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080729 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110823 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110826 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4814570 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |