JP6301516B2 - ファジーなデータ操作 - Google Patents
ファジーなデータ操作 Download PDFInfo
- Publication number
- JP6301516B2 JP6301516B2 JP2017022624A JP2017022624A JP6301516B2 JP 6301516 B2 JP6301516 B2 JP 6301516B2 JP 2017022624 A JP2017022624 A JP 2017022624A JP 2017022624 A JP2017022624 A JP 2017022624A JP 6301516 B2 JP6301516 B2 JP 6301516B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- data set
- match
- elements
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 52
- 238000013500 data storage Methods 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000036961 partial effect Effects 0.000 description 71
- 230000006870 function Effects 0.000 description 26
- 238000012217 deletion Methods 0.000 description 25
- 230000037430 deletion Effects 0.000 description 25
- 230000008520 organization Effects 0.000 description 24
- 238000005192 partition Methods 0.000 description 24
- 238000003780 insertion Methods 0.000 description 16
- 230000037431 insertion Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 14
- 239000000047 product Substances 0.000 description 13
- 238000013459 approach Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013479 data entry Methods 0.000 description 6
- 238000010200 validation analysis Methods 0.000 description 6
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 5
- 238000006467 substitution reaction Methods 0.000 description 5
- 239000011701 zinc Substances 0.000 description 5
- 229910052725 zinc Inorganic materials 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012558 master data management Methods 0.000 description 3
- 238000012502 risk assessment Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012357 Gap analysis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013068 supply chain management Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24542—Plan optimisation
- G06F16/24544—Join order optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/40—Data acquisition and logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
- G06N7/023—Learning or tuning the parameters of a fuzzy system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Molecular Biology (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願は、「ファジーなデータ操作(FUZZY DATA OPERATIONS)」と題された米国特許出願第61/107,971号(2008年10月23日出願。引用により本明細書に組み込まれる)に基づく優先権を主張する。
データ要素の複数のスーパークラスタを形成するステップ、及び、
各スーパークラスタについて、上記スーパークラスタ内にデータ要素のクラスタを形成するステップ、
を含んでもよい。
異なるデータ要素におけるオブジェクトの間での変形関係(variant relation)に基づいて、上記異なるデータ要素におけるオブジェクト間での整合を特定するステップ、
を含んでもよい。
上記データ記憶システムからデータ要素を読み取る手段、
データ要素のクラスタを形成する手段であって、各データ要素が少なくとも1つのクラスタのメンバである、手段、
少なくとも1つのデータ要素を2つ以上のクラスタと関連付ける手段であって、上記2つ以上のクラスタのそれぞれに属するデータ要素のメンバシップが、曖昧さの尺度によって表現される、手段、及び
上記データ記憶システムに情報を格納して、上記形成されたクラスタを表現する手段、
を備える。
上記データ記憶システムからデータ要素を読み取るステップ、
データ要素のクラスタを形成するステップであって、各データ要素が少なくとも1つのクラスタのメンバである、ステップ、
少なくとも1つのデータ要素を2つ以上のクラスタと関連付けるステップであって、上記2つ以上のクラスタのそれぞれに属するデータ要素のメンバシップが、曖昧さの尺度によって表現される、ステップ、及び
上記データ記憶システムに情報を格納して、上記形成されたクラスタを表現するステップ、
をコンピュータに実行させるための命令を含む。
データ要素のクラスタを形成するステップであって、各データ要素が少なくとも1つのクラスタのメンバである、ステップ、
を含んでもよい。
上記キーと上記データ要素の1つ以上の検索フィールドの値との間での候補整合に基づいて、複数の候補データ要素を特定する手段、及び
上記検索フィールドとは異なる上記候補データ要素の1つ以上の比較フィールドの値に基づいて、上記候補整合を確証する手段、
を備える。
上記キーと上記データ要素の1つ以上の検索フィールドの値との間での候補整合に基づいて、複数の候補データ要素を特定するステップ、及び
上記検索フィールドとは異なる上記候補データ要素の1つ以上の比較フィールドの値に基づいて、上記候補整合を確証するステップ、
をコンピュータに実行させるための命令を含む。
上記データ記憶システムからデータ要素を読み取る手段、
上記データ要素の1つ以上のフィールドにおける1つ以上の入力の各々について、上記入力についての曖昧さの尺度の値を演算する手段、及び
上記曖昧さの尺度の値に基づいて、上記データ記憶システムにおけるデータ要素のデータ品質の表現を出力する手段、
を備える。
上記データ記憶システムからデータ要素を読み取るステップ、
上記データ要素の1つ以上のフィールドにおける1つ以上の入力の各々について、上記入力についての曖昧さの尺度の値を演算するステップ、及び
上記曖昧さの尺度の値に基づいて、上記データ記憶システムにおけるデータ要素のデータ品質の表現を出力するステップ、
をコンピュータに実行させるための命令を含む。
上記変形関係が上記第1のデータ要素におけるオブジェクトと上記第2のデータ要素におけるオブジェクトとの間に当てはまることを特定するステップ、
を含んでもよい。
上記変形関係が上記第1のデータ要素におけるオブジェクトと上記第1のデータセットにおける第3のデータ要素におけるオブジェクトとの間に当てはまること、及び上記変形関係が上記第3のデータ要素におけるオブジェクトと上記第2のデータ要素におけるオブジェクトとの間に当てはまること、を特定するステップ、
を含んでもよい。
上記それぞれのデータ要素において整合として特定されたそれぞれのオブジェクト以外のオブジェクトを比較するステップ、
を含んでもよい。
第1のデータセットからのデータ要素におけるオブジェクトと第2のデータセットからのデータ要素におけるオブジェクトとの間の変形関係に基づいて、上記第1のデータセットからのデータ要素におけるオブジェクトと上記第2のデータセットからのデータ要素におけるオブジェクトとの間の整合を特定する手段、
それぞれのオブジェクトが整合として特定されたそれぞれのデータ要素を評価する手段、及び
データ要素の上記評価に基づいて、上記第1のデータセットからのデータ要素を上記第2のデータセットからのデータ要素と結合する手段、
を備える。
第1のデータセットからのデータ要素におけるオブジェクトと第2のデータセットからのデータ要素におけるオブジェクトとの間の変形関係に基づいて、上記第1のデータセットからのデータ要素におけるオブジェクトと上記第2のデータセットからのデータ要素におけるオブジェクトとの間の整合を特定するステップ、
それぞれのオブジェクトが整合として特定されたそれぞれのデータ要素を評価するステップ、及び
データ要素の上記評価に基づいて、上記第1のデータセットからのデータ要素を上記第2のデータセットからのデータ要素と結合するステップ、
をコンピュータに実行させるための命令を含む。
2つのデータの間の差異は直感的に単純であることが多い。例えば、Leslieという名前とLesleyという名前との間の差異は明らかであり、フル・タイムの従業員とパート・タイムの従業員との間の違いは明白である。しかしながら、2つのデータの間の差異を定量化又は測定するのは必ずしも単純ではない。ここで、2つのデータの間の距離を測定するのに使用することができる2つの方法について簡潔に検討する。データ間の差異を定量化する他の方法を下述する原理に基づいて容易に開発することができることが理解されるべきである。ファジーな整合手法及び距離測定の更なる例は、例えば、米国特許出願公開第2009/0182728号に記載されている(引用により、本明細書に組み込まれる)。
(例えば、所定の文字集合から形成される)2つの単語の間の距離を測定する方法(「編集距離」と称されることが多い)には、一方の単語から他方の単語になるのに何回の文字操作がかかるかをカウントすることが含まれる。この例においては、1回の文字操作には単一の文字が含まれる。文字は、様々な方法の何れでコード化されていてもよい。例えば、文字は、シングル−バイト若しくはマルチ−バイトのコード化又は文字集合における文字を表現するのに使用されるコード−ポイントの何れを使用しても、コード化することができる。レーベンシュタイン(Levenshtein)編集距離は、一方の文字を他方の文字に変えるのに必要とされる文字の挿入、削除及び置換の数をカウントする。
ファジーな整合が有用なもう1つの用途は、同じ所帯について重複レコードを含む会社の顧客住所データベースで役に立つ。同じ所帯についての複数の入力は、当該所帯に関連する郵便番号における誤植又は当該所帯に関連する名前のミススペルによって起こる場合がある。
2つのデータの間の距離は、2つのデータの間の定量化された差異の一例である。2つのデータの間の差異を違う方法で定量化することもできる。
結合操作においてペアとなるデータ要素と比較されるべき、それぞれのデータセットにおけるそれぞれのデータ要素からのオブジェクトは、1つのデータ又は複数のデータの組み合わせとして定義することができる。リレーショナル・データベースにおけるテーブルの行において、オブジェクトは、列における値、値の一部(例えば、サブストリング)、又は2つ以上の列からの値の組み合わせであってもよい。フィールドを含んでなる一連のレコードからなる、単層ファイル・データセットにおいては、オブジェクトは、1つのフィールドにおける値、1つのフィールドの一部又は2つ以上のフィールドの組み合わせであってもよい。文書において、これは、テキストの断片又はテキストのバラバラの断片の組み合わせであってもよい。
多くの厳密なキーに基づく操作は、共通キー値を共有する集合にレコードをグループ化することを必要とする。これらの集合は、時として、「キーグループ」と呼ばれる。例えば、ロールアップ操作は、あるキーグループにおけるレコードに亘ってデータを組み合わせたり、統合したりする。カウント、総計、最大値又は最小値、値のベクトル、一意的な値への重複等は全て、ロールアップ操作によって演算することができる。レコードのグループを単一のレコードに集約する操作は何れも、ロールアップ操作として解釈することができる。
訴訟の予想結果の知見の現状を反映する部分的メンバシップを用いて当該資産を各所有者に割り付けることは、現行の知見と一致した最も公平で有益な当該資産の処分を生ずる。
クラスタ化は、クラスタ・メンバシップ基準に基づいて、レコードをクラスタにグループ化する行為である。厳密な場合、各レコードからのオブジェクト(キー)が、他のレコードにおける対応するオブジェクトと厳密に整合され、クラスタ(又は「キーグループ」)は共通キーを共有するレコードの集合である。ファジーな場合、クラスタ・メンバシップを、各レコードにおけるオブジェクト間の変形関係によって特定してもよい。(より一般的には、クラスタ・メンバシップ基準があり得る。)データセットにおける全てのレコードを互いに比較しなければならないことを回避するために、スーパークラスタ・キーを使用して、全体集合を部分集合に分割して、1つのスーパークラスタ内のレコードに対して相互比較を制限する。
データ入力オペレータが、新しい顧客をデータベースに追加するために、アプリケーションにおけるフォームに記入していると仮定する。名前をフォームに入力する際に、アプリケーションは、名前の参照リストと対照して、入力を確認する。上述のような削除アルゴリズムによるファジー検索を使用して、アプリケーションは名前の変形スペルを検出し、上記参照リストから他の可能性のリストを返すことができる。オペレータがファースト・ネームのフィールドに「Jame」を入力すると仮定する。アプリケーションは、アルファベット順の他の可能性の以下のリストを(その名前を含むデータベースにおけるレコードのカウントと一緒に)返すことができる。
曖昧さの尺度は、データ品質を測定する、より広い情況においても適用可能である。企業及び組織は、それらのデータ、特にそれらのマスタ・データの品質について懸念するけれども、現在のところ、最も明らかなデータ品質問題以外のものを定量化することは困難である。上記に示したデータ品質問題の短いリストの中で、幾つかのデータ品質測定システム(例えば、米国特許出願公開第2005/0114369号を参照。引用により、本明細書に組み込まれる)は、主に、1つ(データ妥当性)に直接的に取り組む。データは網羅的に目録に載せられ、そのデータ型及びユーザが定義する妥当性の様々な尺度(有効値のリストを含む)に照らして、妥当性がチェックされる。
(1)ファジーなクラスタの創作
前に述べたように、如何にして要素を纏めてグループ化するかについての先験的助言が存在しない場合、原理又はアルゴリズムを使用してグループを識別する。実際の場合は、どの要素が他の要素を引きつけてグループを形成する中核的要素として役に立つかは明らかではないことが多いので、このことは実用的見地から重要である。例えば、顧客住所データベースにおける重複レコードの上記例において、どのレコードが真正のレコードであるかを会社が見分けるのは時として不可能である。以下の考察により、それらの中で幾つかのデータが互いの仲間であるとみなされる、レコードのファジーなクラスタを形成するのに使用することができる幾つかのアルゴリズムが提案される。
前のセクションにおける最初の例において、レコードA及びFは、クラスタC及びEの両方に属する。クラスタにおけるレコードの全ての出現が1とカウントされる場合、6つのレコードしか存在しないにもかかわらず、クラスタC及びEにおけるレコードの総カウントは8である(グループC(C、A、B、D、F)に5、及びグループE(E、A、F)に3)。この場合、部分的メンバシップを使用して、総カウントを維持することができる。1つのデータが2つ以上のグループに属する場合、そのデータの出現は1未満、即ち分数としてカウントされる。しかしながら、そのデータの全ての出現の合計は、やはり1となって、総カウントを保つべきである。
(1)部分的メンバシップの存在下でのフィルタリング
選択基準を適用して、共通の性質を共有するレコードの部分集合を分離することが有用であることが多い。例えば、国際的なレコードのデータセットにおいて、特定の国からのレコードを選択することができる。当該選択操作(時として、「フィルタリング」と称される)は、選択を特定する表現において使用されるフィールドがキーである必要は無いので、キーに基づくものとはみなされない。レコードが複数のクラスタにおいて部分的メンバシップを有することが許される場合、フィルタリングは、部分的メンバの幾つかを失わせる場合がある。その結果は、1未満であるかもしれない選択された部分集合に亘るレコードに関連付けられた総メンバシップ割り当てである。これについての説明は、総割り当ては、選ばれた部分集合におけるメンバシップを、当該選ばれた部分集合の外にある選択肢に照らして測定するということである。
並列処理において、キーの値に基づいて、異なる処理パーティションにレコードを割り当てることができる(時として、「キーによる分割」と称される)。レコードが曖昧なクラスタ・メンバシップを有することが許される場合、各クラスタに関連付けられたキーに基づいて分割を行ってもよい。この分割スキーム下では、所定のレコードに関連付けられたパーティション内での総割り当てが1未満であってもよい。このことの解釈は、フィルタリングについてのそれと似ている。それは、そのパーティションには無い選択肢に照らして、そのパーティションへのレコードの割り付けを測定する。
ロールアップ操作は、個々のレコードのレベルからグループのレベルへとデータを統合又は要約する。厳密なキーの場合、キーグループは、共通キー(値)を共有するレコードの集合として定義される。クラスタの場合、グループは、1つ以上のレコードが1つ以上のグループのメンバである可能性を伴う、メンバが比較によって特定されるレコードの集合として定義される。
厳密なデータ操作においては、厳密なキーが使用される。例えば、検索操作において、キーが使用され、そのキーに厳密に整合する全てのレコードが取り出される。ファジーなデータ操作においては、ファジーなキーが使用される。
レコードを取り出すのにルックアップを使用する代わりに、参照用データセット全体が読み込まれ、問合せデータセットに照らして処理される結合が行われることを除き、ファジーな結合はファジー検索に類似している。このことは、性能及び制御の両方について有用である場合がある。参照用データセットが、通常のルックアップとしてメモリに納めるには大き過ぎる場合、代わりに、ディスク上に保持されている(ことによると、ブロック圧縮された)ロード可能なルックアップとしてアクセスしてもよい(Ab Initioのロード可能なルックアップを参照)。各検索語が処理される際に、ルックアップ・テーブルの適切なページがディスクからアクセスされる。参照用データセットの十分に大きい断片(例えば、10%)にアクセスする必要がある場合は、ランダム−アクセス検索を始めるのではなく、単一のパスにおいてソートされた順序で参照用データセット全体を読み込む方が、結局、より効率的となる。これにより、検索プロセスによって繰り返し実行されるディスク・アクセスが減少する。
メンバシップが部分的である場合にレコードを順序付ける(ファジーな)ソートは定義が容易である。曖昧な関連性を有するレコードについては、その割り当て(曖昧さの尺度)と一緒に、各選択肢についてのレコードが作り出される。前の例における参照用レコードが、問合せレコードに照らして、結合の結果でソートされると仮定する。ルールは、部分的メンバシップは、完全なメンバシップ後に、メンバシップの降順でソートされるというものである。他のフィールドについての下位ソート(subsort)は、部分的メンバシップが適用された後に適用される。従って、1つのフィールドに対する部分的メンバシップは、後のキーに対して上位にある。これにより、追加のソート・フィールドの適用は、より高いレベルにある順序を変更すること無く、確率された順序でレコードをソートする。
Claims (19)
- 少なくとも1つのデータ記憶システムに格納された2つ以上のデータセットからのデータ要素を結合する方法であって、前記方法は1つ以上のプロセッサによって実行されるものであり、
第1のデータセットからの第1のデータ要素におけるオブジェクトの1つ以上の変形と第2のデータセットからの第2のデータ要素におけるオブジェクトの1つ以上の変形との間の整合を特定するステップであって、変形が、前記第1のデータセットからの前記第1のデータ要素における前記オブジェクトの1つ以上と前記第2のデータセットからの前記第2のデータ要素における前記オブジェクトの1つ以上との間の変形関係に応じて規定されている、ステップと、
それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップと、
前記第1のデータセットからの前記第1のデータ要素の少なくとも1つを前記第2のデータセットからの前記第2のデータ要素の少なくとも1つと結合して第3のデータ要素を生成するステップであって、前記結合が、前記それぞれの第2のデータ要素の前記評価に基づく、ステップと、
前記第2のデータセットの少なくとも1部分と組み合わされている前記第1のデータセットの少なくとも1部分を含む第3のデータセットを出力するステップであって、前記第3のデータセットが、前記結合によって生成された1つ以上の第3のデータ要素を含む、ステップと、
を含む方法。 - 第1のオブジェクトと第2のオブジェクトとの間の前記変形関係が、予め定められた閾値未満である前記第1のオブジェクトと前記第2のオブジェクトとの間の距離を表現する関数の値に対応する、請求項1に記載の方法。
- 前記変形関係が、同値関係ではない、請求項2に記載の方法。
- 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまることを特定することにより前記整合を特定するステップ、
をさらに含む、請求項2に記載の方法。 - 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第1のデータセットにおける第3のデータ要素におけるオブジェクトとの間に当てはまること、及び前記変形関係が前記第3のデータ要素における前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまること、を特定することにより前記整合を特定するステップ、
をさらに含む、請求項2に記載の方法。 - それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップが、前記それぞれの第2のデータ要素において、整合として特定された前記それぞれのオブジェクト以外のオブジェクトを比較するステップを含む、請求項2に記載の方法。
- 少なくとも1つのデータ記憶システムに格納された2つ以上のデータセットからのデータ要素を結合するシステムであって、
第1のデータセットからの第1のデータ要素におけるオブジェクトの1つ以上の変形と第2のデータセットからの第2のデータ要素におけるオブジェクトの1つ以上の変形との間の整合を特定する手段であって、変形が、前記第1のデータセットからの前記第1のデータ要素における前記オブジェクトの1つ以上と前記第2のデータセットからの前記第2のデータ要素における前記オブジェクトの1つ以上との間の変形関係に応じて規定されている、手段と、
それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価する手段と、
前記第1のデータセットからの前記第1のデータ要素の少なくとも1つを前記第2のデータセットからの前記第2のデータ要素の少なくとも1つと結合して第3のデータ要素を生成する手段であって、前記結合が、前記それぞれの第2のデータ要素の前記評価に基づく、手段と、
前記第2のデータセットの少なくとも1部分と組み合わされている前記第1のデータセットの少なくとも1部分を含む第3のデータセットを出力する手段であって、前記第3のデータセットが、前記結合によって生成された1つ以上の第3のデータ要素を含む、手段と、
を含むシステム。 - 少なくとも1つのデータ記憶システムに格納された2つ以上のデータセットからのデータ要素を結合するためのコンピュータ・プログラムを格納するコンピュータ可読ハードウェア記憶装置であって、前記コンピュータ・プログラムが、
第1のデータセットからの第1のデータ要素におけるオブジェクトの1つ以上の変形と第2のデータセットからの第2のデータ要素におけるオブジェクトの1つ以上の変形との間の整合を特定するステップであって、変形が、前記第1のデータセットからの前記第1のデータ要素における前記オブジェクトの1つ以上と前記第2のデータセットからの前記第2のデータ要素における前記オブジェクトの1つ以上との間の変形関係に応じて規定されている、ステップと、
それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップと、
前記第1のデータセットからの前記第1のデータ要素の少なくとも1つを前記第2のデータセットからの前記第2のデータ要素の少なくとも1つと結合して第3のデータ要素を生成するステップであって、前記結合が、前記それぞれの第2のデータ要素の前記評価に基づく、ステップと、
前記第2のデータセットの少なくとも1部分と組み合わされている前記第1のデータセットの少なくとも1部分を含む第3のデータセットを出力するステップであって、前記第3のデータセットが、前記結合によって生成された1つ以上の第3のデータ要素を含む、ステップと、
をコンピュータに実行させるための命令を含む、コンピュータ可読ハードウェア記憶装置。 - 第1のオブジェクトと第2のオブジェクトとの間の前記変形関係が、予め定められた閾値未満にある前記第1のオブジェクトと前記第2のオブジェクトとの間の距離を表現する関数の値に対応する、請求項8に記載のコンピュータ可読ハードウェア記憶装置。
- 前記変形関係が、同値関係ではない、請求項8又は9に記載のコンピュータ可読ハードウェア記憶装置。
- 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまることを特定することにより前記整合を特定するステップ、
を前記コンピュータに実行させるための命令をさらに含む、請求項9に記載のコンピュータ可読ハードウェア記憶装置。 - 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第1のデータセットにおける第3のデータ要素におけるオブジェクトとの間に当てはまること、及び前記変形関係が前記第3のデータ要素における前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまること、を特定することにより前記整合を特定するステップ、
を前記コンピュータに実行させるための命令をさらに含む、請求項9に記載のコンピュータ可読ハードウェア記憶装置。 - それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップを前記コンピュータに実行させるための前記命令が、前記それぞれの第2のデータ要素において、整合として特定された前記それぞれのオブジェクト以外のオブジェクトを比較するステップを含む、請求項8に記載のコンピュータ可読ハードウェア記憶装置。
- コンピュータと、
少なくとも1つのデータ記憶システムに格納された2つ以上のデータセットからのデータ要素を結合するためのコンピュータ・プログラムを格納するコンピュータ可読ハードウェア記憶装置と、
を含むシステムであって、前記コンピュータ・プログラムが、
第1のデータセットからの第1のデータ要素におけるオブジェクトの1つ以上の変形と第2のデータセットからの第2のデータ要素におけるオブジェクトの1つ以上の変形との間の整合を特定するステップであって、変形が、前記第1のデータセットからの前記第1のデータ要素における前記オブジェクトの1つ以上と前記第2のデータセットからの前記第2のデータ要素における前記オブジェクトの1つ以上との間の変形関係に応じて規定されている、ステップと、
それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップと、
前記第1のデータセットからの前記第1のデータ要素の少なくとも1つを前記第2のデータセットからの前記第2のデータ要素の少なくとも1つと結合して第3のデータ要素を生成するステップであって、前記結合が、前記それぞれの第2のデータ要素の前記評価に基づく、ステップと、
前記第2のデータセットの少なくとも1部分と組み合わされている前記第1のデータセットの少なくとも1部分を含む第3のデータセットを出力するステップであって、前記第3のデータセットが、前記結合によって生成された1つ以上の第3のデータ要素を含む、ステップと、
を前記コンピュータに実行させるための命令を含む、システム。 - 第1のオブジェクトと第2のオブジェクトとの間の前記変形関係が、予め定められた閾値未満にある前記第1のオブジェクトと前記第2のオブジェクトとの間の距離を表現する関数の値に対応する、請求項14に記載のシステム。
- 前記変形関係が、同値関係ではない、請求項15に記載のシステム。
- 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまることを特定することにより前記整合を特定するステップ、
を前記コンピュータに実行させるための命令をさらに含む、請求項15に記載のシステム。 - 前記第1のデータセットからの前記第1のデータ要素の1つにおけるオブジェクトと前記第2のデータセットにおける前記第2のデータ要素の1つにおけるオブジェクトとの間の整合を特定するステップであって、前記変形関係が前記第1のデータ要素の前記1つにおける前記オブジェクトと前記第1のデータセットにおける第3のデータ要素におけるオブジェクトとの間に当てはまること、及び前記変形関係が前記第3のデータ要素における前記オブジェクトと前記第2のデータ要素の前記1つにおける前記オブジェクトとの間に当てはまること、を特定することにより前記整合を特定するステップ、
を前記コンピュータに実行させるための命令をさらに含む、請求項15に記載のシステム。 - それぞれのオブジェクトが整合として特定されたそれぞれの第2のデータ要素を評価するステップを前記コンピュータに実行させるための前記命令が、前記それぞれの第2のデータ要素において、整合として特定された前記それぞれのオブジェクト以外のオブジェクトを比較するステップを含む、請求項14に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10797108P | 2008-10-23 | 2008-10-23 | |
US61/107,971 | 2008-10-23 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015122394A Division JP6092948B2 (ja) | 2008-10-23 | 2015-06-17 | グラフベース計算におけるデータ記録 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017107588A JP2017107588A (ja) | 2017-06-15 |
JP6301516B2 true JP6301516B2 (ja) | 2018-03-28 |
Family
ID=42118497
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011533380A Active JP5535230B2 (ja) | 2008-10-23 | 2009-10-23 | ファジーなデータ操作 |
JP2014023108A Active JP5824084B2 (ja) | 2008-10-23 | 2014-02-10 | グラフベース計算におけるデータ記録 |
JP2015122394A Active JP6092948B2 (ja) | 2008-10-23 | 2015-06-17 | グラフベース計算におけるデータ記録 |
JP2017022624A Active JP6301516B2 (ja) | 2008-10-23 | 2017-02-09 | ファジーなデータ操作 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011533380A Active JP5535230B2 (ja) | 2008-10-23 | 2009-10-23 | ファジーなデータ操作 |
JP2014023108A Active JP5824084B2 (ja) | 2008-10-23 | 2014-02-10 | グラフベース計算におけるデータ記録 |
JP2015122394A Active JP6092948B2 (ja) | 2008-10-23 | 2015-06-17 | グラフベース計算におけるデータ記録 |
Country Status (8)
Country | Link |
---|---|
US (3) | US8484215B2 (ja) |
EP (1) | EP2342684B1 (ja) |
JP (4) | JP5535230B2 (ja) |
KR (3) | KR101607178B1 (ja) |
CN (3) | CN107273977A (ja) |
AU (1) | AU2009308206B2 (ja) |
CA (3) | CA3024642C (ja) |
WO (1) | WO2010048538A1 (ja) |
Families Citing this family (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8131759B2 (en) | 2007-10-18 | 2012-03-06 | Asurion Corporation | Method and apparatus for identifying and resolving conflicting data records |
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
KR101607178B1 (ko) | 2008-10-23 | 2016-03-29 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 조작 수행, 데이터 품질 측정, 또는 데이터 요소 결합을 위한 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체 |
US9135396B1 (en) | 2008-12-22 | 2015-09-15 | Amazon Technologies, Inc. | Method and system for determining sets of variant items |
US8463743B2 (en) * | 2009-02-17 | 2013-06-11 | Microsoft Corporation | Shared composite data representations and interfaces |
US8738584B2 (en) * | 2009-02-17 | 2014-05-27 | Microsoft Corporation | Context-aware management of shared composite data |
US20110153737A1 (en) * | 2009-12-17 | 2011-06-23 | Chu Thomas P | Method and apparatus for decomposing a peer-to-peer network and using a decomposed peer-to-peer network |
US10084856B2 (en) * | 2009-12-17 | 2018-09-25 | Wsou Investments, Llc | Method and apparatus for locating services within peer-to-peer networks |
US9026552B2 (en) * | 2010-01-18 | 2015-05-05 | Salesforce.Com, Inc. | System and method for linking contact records to company locations |
US8484243B2 (en) * | 2010-05-05 | 2013-07-09 | Cisco Technology, Inc. | Order-independent stream query processing |
US20110314075A1 (en) * | 2010-06-18 | 2011-12-22 | Nokia Corporation | Method and apparatus for managing distributed computations within a computation space |
US20120089604A1 (en) * | 2010-10-08 | 2012-04-12 | Jocelyn Siu Luan Hamilton | Computer-Implemented Systems And Methods For Matching Records Using Matchcodes With Scores |
US20120089614A1 (en) * | 2010-10-08 | 2012-04-12 | Jocelyn Siu Luan Hamilton | Computer-Implemented Systems And Methods For Matching Records Using Matchcodes With Scores |
US8504299B2 (en) * | 2010-12-01 | 2013-08-06 | The United States Of America, As Represented By The Secretary Of The Navy | Fuzzy clustering of oceanic profiles |
US20120150825A1 (en) | 2010-12-13 | 2012-06-14 | International Business Machines Corporation | Cleansing a Database System to Improve Data Quality |
KR101889120B1 (ko) | 2011-01-28 | 2018-08-16 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 패턴 정보 생성 |
EP2506540B1 (en) * | 2011-03-28 | 2014-09-17 | TeliaSonera AB | Enhanced contact information |
US9129010B2 (en) | 2011-05-16 | 2015-09-08 | Argo Data Resource Corporation | System and method of partitioned lexicographic search |
CN102855259B (zh) * | 2011-06-30 | 2015-05-13 | Sap欧洲公司 | 大规模数据聚类分析的并行化 |
US10636083B1 (en) * | 2011-07-27 | 2020-04-28 | Intuit Inc. | Systems methods and articles of manufacture for analyzing on-line banking account data using hybrid edit distance |
US9317544B2 (en) * | 2011-10-05 | 2016-04-19 | Microsoft Corporation | Integrated fuzzy joins in database management systems |
CN102393303B (zh) * | 2011-10-14 | 2014-05-14 | 哈尔滨工业大学 | 一种燃气轮机的排序异常检测方法 |
US9558274B2 (en) | 2011-11-02 | 2017-01-31 | Microsoft Technology Licensing, Llc | Routing query results |
US9177022B2 (en) | 2011-11-02 | 2015-11-03 | Microsoft Technology Licensing, Llc | User pipeline configuration for rule-based query transformation, generation and result display |
US9189563B2 (en) | 2011-11-02 | 2015-11-17 | Microsoft Technology Licensing, Llc | Inheritance of rules across hierarchical levels |
CN104040544B (zh) | 2011-11-15 | 2018-06-26 | 起元科技有限公司 | 基于变体标记网络的数据分群 |
US8914353B2 (en) * | 2011-12-20 | 2014-12-16 | Sap Se | Many-core algorithms for in-memory column store databases |
CN103336770B (zh) * | 2012-02-28 | 2017-03-01 | 国际商业机器公司 | 用于标识互补数据对象的方法和系统 |
WO2013139379A1 (en) * | 2012-03-20 | 2013-09-26 | Universität des Saarlandes | Replicated data storage system and methods |
US8983954B2 (en) * | 2012-04-10 | 2015-03-17 | Microsoft Technology Licensing, Llc | Finding data in connected corpuses using examples |
US8661004B2 (en) * | 2012-05-21 | 2014-02-25 | International Business Machines Corporation | Representing incomplete and uncertain information in graph data |
CN103593799B (zh) | 2012-08-16 | 2016-10-26 | 腾讯科技(深圳)有限公司 | 自然人信息设置方法、系统及相应的好友推荐方法、系统 |
US9222777B2 (en) | 2012-09-07 | 2015-12-29 | The United States Post Office | Methods and systems for creating and using a location identification grid |
US8612213B1 (en) | 2012-10-16 | 2013-12-17 | Google Inc. | Correction of errors in character strings that include a word delimiter |
US8713433B1 (en) | 2012-10-16 | 2014-04-29 | Google Inc. | Feature-based autocorrection |
US20140164376A1 (en) * | 2012-12-06 | 2014-06-12 | Microsoft Corporation | Hierarchical string clustering on diagnostic logs |
US20140244641A1 (en) * | 2013-02-27 | 2014-08-28 | Wal-Mart Stores, Inc. | Holistic customer record linkage via profile fingerprints |
US10803102B1 (en) * | 2013-04-30 | 2020-10-13 | Walmart Apollo, Llc | Methods and systems for comparing customer records |
US9619204B2 (en) * | 2013-06-14 | 2017-04-11 | Nvidia Corporation | Method and system for bin coalescing for parallel divide-and-conquer sorting algorithms |
US9607036B2 (en) * | 2013-08-21 | 2017-03-28 | International Business Machines Corporation | Managing a data set |
CN104424613A (zh) * | 2013-09-04 | 2015-03-18 | 航天信息股份有限公司 | 一种增值税发票的监控方法及其系统 |
US20150095349A1 (en) * | 2013-09-27 | 2015-04-02 | Microsoft Corporation | Automatically identifying matching records from multiple data sources |
CN103825930B (zh) * | 2013-11-12 | 2017-03-29 | 浙江省水文局 | 一种分布式环境下的实时数据同步方法 |
US10026114B2 (en) * | 2014-01-10 | 2018-07-17 | Betterdoctor, Inc. | System for clustering and aggregating data from multiple sources |
US9607073B2 (en) * | 2014-04-17 | 2017-03-28 | Ab Initio Technology Llc | Processing data from multiple sources |
GB201409214D0 (en) * | 2014-05-23 | 2014-07-09 | Ibm | A method and system for processing a data set |
CN105447609A (zh) | 2014-08-29 | 2016-03-30 | 国际商业机器公司 | 用于处理案例管理模型的方法、装置和系统 |
US10764265B2 (en) * | 2014-09-24 | 2020-09-01 | Ent. Services Development Corporation Lp | Assigning a document to partial membership in communities |
US11562040B2 (en) * | 2014-09-25 | 2023-01-24 | United States Postal Service | Methods and systems for creating and using a location identification grid |
US10318527B2 (en) | 2015-01-27 | 2019-06-11 | International Business Machines Corporation | Search-based detection, link, and acquisition of data |
US10261945B1 (en) * | 2015-02-04 | 2019-04-16 | Quest Software Inc. | Systems and methods for storing and accessing monitoring data |
KR101644740B1 (ko) * | 2015-02-27 | 2016-08-01 | 충북대학교 산학협력단 | 데이터 품질 평가 방법 및 시스템 |
KR101632073B1 (ko) * | 2015-06-04 | 2016-06-20 | 장원중 | 통계 분석 기반의 데이터 프로파일링을 제공하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체 |
US11762989B2 (en) | 2015-06-05 | 2023-09-19 | Bottomline Technologies Inc. | Securing electronic data by automatically destroying misdirected transmissions |
US10007786B1 (en) * | 2015-11-28 | 2018-06-26 | Symantec Corporation | Systems and methods for detecting malware |
US20170163664A1 (en) | 2015-12-04 | 2017-06-08 | Bottomline Technologies (De) Inc. | Method to secure protected content on a mobile device |
US11010391B2 (en) * | 2015-12-30 | 2021-05-18 | Sap Se | Domain agnostic similarity detection |
US10901996B2 (en) | 2016-02-24 | 2021-01-26 | Salesforce.Com, Inc. | Optimized subset processing for de-duplication |
US10482074B2 (en) * | 2016-03-23 | 2019-11-19 | Wipro Limited | System and method for classifying data with respect to a small dataset |
US10956450B2 (en) | 2016-03-28 | 2021-03-23 | Salesforce.Com, Inc. | Dense subset clustering |
US10949395B2 (en) * | 2016-03-30 | 2021-03-16 | Salesforce.Com, Inc. | Cross objects de-duplication |
JP7024709B2 (ja) * | 2016-06-02 | 2022-02-24 | 日本電気株式会社 | 暗号化情報照合装置、暗号化情報照合方法、及び、暗号化情報照合プログラム |
US11163955B2 (en) | 2016-06-03 | 2021-11-02 | Bottomline Technologies, Inc. | Identifying non-exactly matching text |
US11243987B2 (en) * | 2016-06-16 | 2022-02-08 | Microsoft Technology Licensing, Llc | Efficient merging and filtering of high-volume metrics |
CN106372668A (zh) * | 2016-08-31 | 2017-02-01 | 新浪网技术(中国)有限公司 | 一种数据匹配方法及装置 |
US9934287B1 (en) * | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
CN107944866B (zh) * | 2017-10-17 | 2021-08-31 | 厦门市美亚柏科信息股份有限公司 | 交易记录排重方法及计算机可读存储介质 |
US11429642B2 (en) | 2017-11-01 | 2022-08-30 | Walmart Apollo, Llc | Systems and methods for dynamic hierarchical metadata storage and retrieval |
US10445422B2 (en) * | 2018-02-09 | 2019-10-15 | Microsoft Technology Licensing, Llc | Identification of sets and manipulation of set data in productivity applications |
CN108717662A (zh) * | 2018-05-11 | 2018-10-30 | 广州天维信息技术股份有限公司 | 一种人工智能化的存量清理方法和系统 |
US11474978B2 (en) * | 2018-07-06 | 2022-10-18 | Capital One Services, Llc | Systems and methods for a data search engine based on data profiles |
US10635939B2 (en) | 2018-07-06 | 2020-04-28 | Capital One Services, Llc | System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis |
US20210272121A1 (en) * | 2018-07-11 | 2021-09-02 | Visa International Service Association | Privacy-preserving graph compression with automated fuzzy variable detection |
US11687491B2 (en) | 2018-07-17 | 2023-06-27 | International Business Machines Corporation, Armonk, Ny | Generating weights for finding duplicate records |
JP6857635B2 (ja) * | 2018-08-22 | 2021-04-14 | オムロン株式会社 | 利用予約情報管理システム、利用予約情報管理方法、及びプログラム |
KR102149831B1 (ko) | 2018-11-12 | 2020-09-01 | 한국과학기술연구원 | 그래핀 패턴의 합성 방법 및 이를 이용한 전광 모듈레이터의 제조 방법 |
US11681691B2 (en) | 2018-11-19 | 2023-06-20 | Numetric, Inc. | Presenting updated data using persisting views |
US11263588B2 (en) * | 2018-12-20 | 2022-03-01 | Microsoft Technology Licensing, Llc | Intelligent document management in computing systems |
US11416713B1 (en) | 2019-03-18 | 2022-08-16 | Bottomline Technologies, Inc. | Distributed predictive analytics data set |
CN110059142A (zh) * | 2019-04-24 | 2019-07-26 | 重庆邮电大学 | 一种高效的并行不确定性数据聚类方法 |
US11315177B2 (en) * | 2019-06-03 | 2022-04-26 | Intuit Inc. | Bias prediction and categorization in financial tools |
US11042555B1 (en) | 2019-06-28 | 2021-06-22 | Bottomline Technologies, Inc. | Two step algorithm for non-exact matching of large datasets |
WO2021021614A1 (en) * | 2019-07-26 | 2021-02-04 | Io-Tahoe Llc | Techniques for database entries de-duplication |
US11386101B2 (en) | 2019-08-08 | 2022-07-12 | Cisco Technology, Inc. | Systems and methods for fuzzy search without full text |
US11977535B2 (en) | 2019-09-11 | 2024-05-07 | Workday, Inc. | Computation system with time based probabilities |
US11269841B1 (en) | 2019-10-17 | 2022-03-08 | Bottomline Technologies, Inc. | Method and apparatus for non-exact matching of addresses |
KR102365910B1 (ko) * | 2019-12-31 | 2022-02-22 | 가톨릭관동대학교산학협력단 | 속성 값 품질 지수를 이용한 데이터 프로파일링 방법 및 데이터 프로파일링 시스템 |
US11243954B2 (en) * | 2020-02-07 | 2022-02-08 | International Business Machines Corporation | Method to automatically join datasets with different geographic location naming conventions |
CA3179205A1 (en) * | 2020-04-03 | 2021-10-07 | Insurance Services Office, Inc. | Systems and methods for computer modeling using incomplete data |
US11966372B1 (en) * | 2020-05-01 | 2024-04-23 | Bottomline Technologies, Inc. | Database record combination |
US11593435B2 (en) * | 2020-05-26 | 2023-02-28 | Rovi Guides, Inc. | Automated metadata asset creation using machine learning models |
CN111753840A (zh) * | 2020-06-18 | 2020-10-09 | 北京同城必应科技有限公司 | 一种同城物流配送名片下单技术 |
CN112000707B (zh) * | 2020-07-06 | 2021-08-24 | 中科驭数(北京)科技有限公司 | 可变长序列匹配方法、数据库访问方法及装置 |
US11449870B2 (en) | 2020-08-05 | 2022-09-20 | Bottomline Technologies Ltd. | Fraud detection rule optimization |
CN111984776B (zh) * | 2020-08-20 | 2023-08-11 | 中国农业科学院农业信息研究所 | 一种基于词向量模型的机构名称规范方法 |
US11748354B2 (en) * | 2020-09-27 | 2023-09-05 | International Business Machines Corporation | Data shape confidence |
CN112561357A (zh) * | 2020-12-22 | 2021-03-26 | 济南中科成水质净化有限公司 | 一种基于有向无环图的污水处理工艺系统模糊评估方法 |
US20220350792A1 (en) * | 2021-04-29 | 2022-11-03 | Microsoft Technology Licensing, Llc | Incremental updates of conflated data records |
US11544798B1 (en) | 2021-08-27 | 2023-01-03 | Bottomline Technologies, Inc. | Interactive animated user interface of a step-wise visual path of circles across a line for invoice management |
US11694276B1 (en) | 2021-08-27 | 2023-07-04 | Bottomline Technologies, Inc. | Process for automatically matching datasets |
US20230350903A1 (en) * | 2022-04-29 | 2023-11-02 | Oracle International Corporation | Address matching from single string to address matching score |
Family Cites Families (117)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02129756A (ja) | 1988-11-10 | 1990-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 単語照合装置 |
US5179643A (en) * | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
US5202986A (en) * | 1989-09-28 | 1993-04-13 | Bull Hn Information Systems Inc. | Prefix search tree partial key branching |
US5388259A (en) * | 1992-05-15 | 1995-02-07 | Bell Communications Research, Inc. | System for accessing a database with an iterated fuzzy query notified by retrieval response |
JP2795058B2 (ja) * | 1992-06-03 | 1998-09-10 | 松下電器産業株式会社 | 時系列信号処理装置 |
JPH0644309A (ja) * | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
US7082426B2 (en) * | 1993-06-18 | 2006-07-25 | Cnet Networks, Inc. | Content aggregation method and apparatus for an on-line product catalog |
JPH0944518A (ja) * | 1995-08-02 | 1997-02-14 | Adoin Kenkyusho:Kk | 画像データベースの構築方法と、画像データベースの検索方法及び検索装置 |
US5632182A (en) * | 1995-08-29 | 1997-05-27 | Teleflex Incorporated | Serviceable clip core coupling |
US5832182A (en) * | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
US5966072A (en) | 1996-07-02 | 1999-10-12 | Ab Initio Software Corporation | Executing computations expressed as graphs |
JPH10275159A (ja) | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JP3466054B2 (ja) | 1997-04-18 | 2003-11-10 | 富士通株式会社 | グループ化と集計演算処理方式 |
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
JPH11184884A (ja) | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
JPH11232303A (ja) * | 1998-02-19 | 1999-08-27 | Fuji Xerox Co Ltd | テキスト検索装置 |
US6581058B1 (en) * | 1998-05-22 | 2003-06-17 | Microsoft Corporation | Scalable system for clustering of large databases having mixed data attributes |
US6285995B1 (en) | 1998-06-22 | 2001-09-04 | U.S. Philips Corporation | Image retrieval system using a query image |
US6742003B2 (en) * | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2000029899A (ja) | 1998-07-14 | 2000-01-28 | Hitachi Software Eng Co Ltd | 建物と地図とのマッチング方法および記録媒体 |
US6493709B1 (en) * | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6658626B1 (en) * | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US6317707B1 (en) | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US7356462B2 (en) | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6456995B1 (en) * | 1998-12-31 | 2002-09-24 | International Business Machines Corporation | System, method and computer program products for ordering objects corresponding to database operations that are performed on a relational database upon completion of a transaction by an object-oriented transaction system |
JP3955410B2 (ja) * | 1999-03-23 | 2007-08-08 | 株式会社アドイン研究所 | 類似情報照合装置、類似情報照合方法、及び、類似情報照合プログラムを記録した記録媒体 |
AU780926B2 (en) * | 1999-08-03 | 2005-04-28 | Bally Technologies, Inc. | Method and system for matching data sets |
AU1051101A (en) | 1999-10-27 | 2001-05-08 | Zapper Technologies Inc. | Context-driven information retrieval |
JP2001147930A (ja) | 1999-11-19 | 2001-05-29 | Mitsubishi Electric Corp | 文字列比較方法および文字列比較を用いた情報検索装置 |
KR100426382B1 (ko) * | 2000-08-23 | 2004-04-08 | 학교법인 김포대학 | 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법 |
US7328211B2 (en) * | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
DE10048478C2 (de) * | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
US7389265B2 (en) * | 2001-01-30 | 2008-06-17 | Goldman Sachs & Co. | Systems and methods for automated political risk management |
US6931390B1 (en) * | 2001-02-27 | 2005-08-16 | Oracle International Corporation | Method and mechanism for database partitioning |
JP3605052B2 (ja) * | 2001-06-20 | 2004-12-22 | 本田技研工業株式会社 | あいまい検索機能を備える図面管理システム |
US20030033138A1 (en) | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US20030041047A1 (en) * | 2001-08-09 | 2003-02-27 | International Business Machines Corporation | Concept-based system for representing and processing multimedia objects with arbitrary constraints |
US7043647B2 (en) | 2001-09-28 | 2006-05-09 | Hewlett-Packard Development Company, L.P. | Intelligent power management for a rack of servers |
US7213025B2 (en) | 2001-10-16 | 2007-05-01 | Ncr Corporation | Partitioned database system |
JP3812818B2 (ja) * | 2001-12-05 | 2006-08-23 | 日本電信電話株式会社 | データベース生成装置、データベース生成方法及びデータベース生成処理プログラム |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
AU2003210803A1 (en) | 2002-02-01 | 2003-09-02 | John Fairweather | A system and method for real time interface translation |
EP1485825A4 (en) | 2002-02-04 | 2008-03-19 | Cataphora Inc | DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS |
EP1552501A4 (en) * | 2002-06-12 | 2009-07-01 | Jena Jordahl | TOOLS FOR STORAGE, EXTRACTION, HANDLING AND VISUALIZATION OF DATA, PROVIDING MULTIPLE VIEWPOINTS OF HIERARCHICAL PERCEIVES |
US7010522B1 (en) * | 2002-06-17 | 2006-03-07 | At&T Corp. | Method of performing approximate substring indexing |
US6961721B2 (en) | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US20050226511A1 (en) | 2002-08-26 | 2005-10-13 | Short Gordon K | Apparatus and method for organizing and presenting content |
CN1701343A (zh) * | 2002-09-20 | 2005-11-23 | 德克萨斯大学董事会 | 用于信息发现以及关联分析的计算机程序产品、系统以及方法 |
US7043476B2 (en) * | 2002-10-11 | 2006-05-09 | International Business Machines Corporation | Method and apparatus for data mining to discover associations and covariances associated with data |
AU2003294245A1 (en) | 2002-11-08 | 2004-06-03 | Dun And Bradstreet, Inc. | System and method for searching and matching databases |
US7392247B2 (en) | 2002-12-06 | 2008-06-24 | International Business Machines Corporation | Method and apparatus for fusing context data |
US20040139072A1 (en) * | 2003-01-13 | 2004-07-15 | Broder Andrei Z. | System and method for locating similar records in a database |
US7912842B1 (en) * | 2003-02-04 | 2011-03-22 | Lexisnexis Risk Data Management Inc. | Method and system for processing and linking data records |
US7720846B1 (en) * | 2003-02-04 | 2010-05-18 | Lexisnexis Risk Data Management, Inc. | System and method of using ghost identifiers in a database |
US7287019B2 (en) | 2003-06-04 | 2007-10-23 | Microsoft Corporation | Duplicate data elimination system |
CN102982065B (zh) | 2003-09-15 | 2016-09-21 | 起元科技有限公司 | 数据处理方法、数据处理装置及计算机可读存储介质 |
CN100437573C (zh) * | 2003-09-17 | 2008-11-26 | 国际商业机器公司 | 标识相关姓名的系统及方法 |
US20050120011A1 (en) * | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
US7493294B2 (en) * | 2003-11-28 | 2009-02-17 | Manyworlds Inc. | Mutually adaptive systems |
US7283999B1 (en) * | 2003-12-19 | 2007-10-16 | Ncr Corp. | Similarity string filtering |
US7472113B1 (en) * | 2004-01-26 | 2008-12-30 | Microsoft Corporation | Query preprocessing and pipelining |
GB0413743D0 (en) * | 2004-06-19 | 2004-07-21 | Ibm | Method and system for approximate string matching |
US7542854B2 (en) | 2004-07-22 | 2009-06-02 | International Business Machines Corporation | Method for discovering gene regulatory models and genetic networks using relational fuzzy models |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US7917480B2 (en) | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US20080040342A1 (en) | 2004-09-07 | 2008-02-14 | Hust Robert M | Data processing apparatus and methods |
US7523098B2 (en) * | 2004-09-15 | 2009-04-21 | International Business Machines Corporation | Systems and methods for efficient data searching, storage and reduction |
US8725705B2 (en) | 2004-09-15 | 2014-05-13 | International Business Machines Corporation | Systems and methods for searching of storage data with reduced bandwidth requirements |
US8719779B2 (en) | 2004-12-28 | 2014-05-06 | Sap Ag | Data object association based on graph theory techniques |
WO2006102227A2 (en) * | 2005-03-19 | 2006-09-28 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
JP2006268545A (ja) * | 2005-03-24 | 2006-10-05 | Mitsubishi Electric Corp | ファイル結合装置及びファイル結合方法及びプログラム |
EP1708099A1 (en) * | 2005-03-29 | 2006-10-04 | BRITISH TELECOMMUNICATIONS public limited company | Schema matching |
US9208229B2 (en) | 2005-03-31 | 2015-12-08 | Google Inc. | Anchor text summarization for corroboration |
US9110985B2 (en) | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
US7584205B2 (en) * | 2005-06-27 | 2009-09-01 | Ab Initio Technology Llc | Aggregating data with complex operations |
US7658880B2 (en) * | 2005-07-29 | 2010-02-09 | Advanced Cardiovascular Systems, Inc. | Polymeric stent polishing method and apparatus |
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
JP2007206787A (ja) * | 2006-01-31 | 2007-08-16 | Hitachi Information Systems Ltd | 重複可能性者の検出表示システム、同検出表示方法及び同検出プログラム |
US7890533B2 (en) | 2006-05-17 | 2011-02-15 | Noblis, Inc. | Method and system for information extraction and modeling |
US8175875B1 (en) | 2006-05-19 | 2012-05-08 | Google Inc. | Efficient indexing of documents with similar content |
US7634464B2 (en) * | 2006-06-14 | 2009-12-15 | Microsoft Corporation | Designing record matching queries utilizing examples |
US20080140653A1 (en) | 2006-12-08 | 2008-06-12 | Matzke Douglas J | Identifying Relationships Among Database Records |
US7630972B2 (en) | 2007-01-05 | 2009-12-08 | Yahoo! Inc. | Clustered search processing |
US7739247B2 (en) * | 2006-12-28 | 2010-06-15 | Ebay Inc. | Multi-pass data organization and automatic naming |
EP2122506A4 (en) | 2007-01-10 | 2011-11-30 | Sysomos Inc | METHOD AND SYSTEM FOR INFORMATION DISCOVERY AND TEXT ANALYSIS |
US7865505B2 (en) * | 2007-01-30 | 2011-01-04 | Microsoft Corporation | Efficient exact set similarity joins |
US7870151B2 (en) | 2007-02-07 | 2011-01-11 | Fair Issac Corporation | Fast accurate fuzzy matching |
US8694472B2 (en) | 2007-03-14 | 2014-04-08 | Ca, Inc. | System and method for rebuilding indices for partitioned databases |
US7711747B2 (en) | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
US8099418B2 (en) | 2007-05-28 | 2012-01-17 | Panasonic Corporation | Information search support method and information search support device |
US7769778B2 (en) | 2007-06-29 | 2010-08-03 | United States Postal Service | Systems and methods for validating an address |
US7788276B2 (en) * | 2007-08-22 | 2010-08-31 | Yahoo! Inc. | Predictive stemming for web search with statistical machine translation models |
JP5306359B2 (ja) * | 2007-09-28 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 複数言語によるデータ記録を関連付ける方法およびシステム |
US7925652B2 (en) * | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8032546B2 (en) * | 2008-02-15 | 2011-10-04 | Microsoft Corp. | Transformation-based framework for record matching |
US8266168B2 (en) | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US7958125B2 (en) | 2008-06-26 | 2011-06-07 | Microsoft Corporation | Clustering aggregator for RSS feeds |
WO2010028437A1 (en) | 2008-09-10 | 2010-03-18 | National Ict Australia Limited | Identifying relationships between users of a communications domain |
US8150169B2 (en) | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
KR101607178B1 (ko) | 2008-10-23 | 2016-03-29 | 아브 이니티오 테크놀로지 엘엘시 | 데이터 조작 수행, 데이터 품질 측정, 또는 데이터 요소 결합을 위한 방법, 시스템, 및 컴퓨터 프로그램을 저장하는 컴퓨터 판독 가능한 매체 |
CN101751400A (zh) | 2008-12-09 | 2010-06-23 | 财团法人工业技术研究院 | 技术数据分析的系统与方法以及专利分析的系统 |
US20100169311A1 (en) | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
JP5173898B2 (ja) | 2009-03-11 | 2013-04-03 | キヤノン株式会社 | 画像処理方法、画像処理装置、及びプログラム |
US20100274770A1 (en) | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
US8161048B2 (en) * | 2009-04-24 | 2012-04-17 | At&T Intellectual Property I, L.P. | Database analysis using clusters |
JP5647602B2 (ja) | 2009-04-27 | 2015-01-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | データ処理装置、データ処理方法、プログラム、及び集積回路 |
US8195626B1 (en) | 2009-06-18 | 2012-06-05 | Amazon Technologies, Inc. | Compressing token-based files for transfer and reconstruction |
US20100332401A1 (en) | 2009-06-30 | 2010-12-30 | Anand Prahlad | Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites |
US8515957B2 (en) | 2009-07-28 | 2013-08-20 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via injection |
US8433715B1 (en) | 2009-12-16 | 2013-04-30 | Board Of Regents, The University Of Texas System | Method and system for text understanding in an ontology driven platform |
US8375061B2 (en) | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8346772B2 (en) | 2010-09-16 | 2013-01-01 | International Business Machines Corporation | Systems and methods for interactive clustering |
US8463742B1 (en) | 2010-09-17 | 2013-06-11 | Permabit Technology Corp. | Managing deduplication of stored data |
US8606771B2 (en) | 2010-12-21 | 2013-12-10 | Microsoft Corporation | Efficient indexing of error tolerant set containment |
US8612386B2 (en) | 2011-02-11 | 2013-12-17 | Alcatel Lucent | Method and apparatus for peer-to-peer database synchronization in dynamic networks |
CN104040544B (zh) | 2011-11-15 | 2018-06-26 | 起元科技有限公司 | 基于变体标记网络的数据分群 |
-
2009
- 2009-10-23 KR KR1020147037118A patent/KR101607178B1/ko active IP Right Grant
- 2009-10-23 KR KR1020167007570A patent/KR101789608B1/ko active IP Right Grant
- 2009-10-23 CN CN201710254250.1A patent/CN107273977A/zh active Pending
- 2009-10-23 US US12/605,007 patent/US8484215B2/en active Active
- 2009-10-23 CA CA3024642A patent/CA3024642C/en active Active
- 2009-10-23 CN CN201310671951.7A patent/CN103810527B/zh active Active
- 2009-10-23 KR KR1020117011510A patent/KR101514756B1/ko active IP Right Grant
- 2009-10-23 EP EP09822793.7A patent/EP2342684B1/en active Active
- 2009-10-23 AU AU2009308206A patent/AU2009308206B2/en active Active
- 2009-10-23 JP JP2011533380A patent/JP5535230B2/ja active Active
- 2009-10-23 CN CN200980142344.3A patent/CN102197406B/zh active Active
- 2009-10-23 CA CA3014839A patent/CA3014839C/en active Active
- 2009-10-23 CA CA2738961A patent/CA2738961A1/en not_active Abandoned
- 2009-10-23 WO PCT/US2009/061899 patent/WO2010048538A1/en active Application Filing
-
2013
- 2013-01-23 US US13/747,669 patent/US9607103B2/en active Active
-
2014
- 2014-02-10 JP JP2014023108A patent/JP5824084B2/ja active Active
-
2015
- 2015-06-17 JP JP2015122394A patent/JP6092948B2/ja active Active
-
2017
- 2017-02-09 JP JP2017022624A patent/JP6301516B2/ja active Active
- 2017-02-16 US US15/434,777 patent/US11615093B2/en active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6301516B2 (ja) | ファジーなデータ操作 | |
RU2487394C2 (ru) | Способы и системы для реализации приближенного сравнения строк в базе данных | |
US7398227B2 (en) | Methods, systems, and computer for managing purchasing data | |
Potin et al. | Foppa: A database of french open public procurement award notices | |
AU2017201787B2 (en) | Fuzzy data operations | |
TWM569465U (zh) | 利於稽核之合規處理裝置 | |
Gabor-Toth et al. | Linking Deutsche Bundesbank Company Data | |
Mahony et al. | Matching UK Business Microdata–A Study Using ONS and CBI Business Surveys | |
Coletti et al. | Design and Construction of a Historical Financial Database of the Italian Stock Market 1973--2011 | |
Zieger | Self-adaptive data quality: automating duplicate detection | |
Mohammed | Evaluation of Automation Techniques for Data Quality Assessment for Party and Product Master Data | |
Doll et al. | Linking Deutsche Bundesbank Company Data Technical Report 2021-05 | |
Potin et al. | FOPPA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180123 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6301516 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |