JP6113740B2 - 変数トークンネットワークに基づくデータクラスタ化 - Google Patents
変数トークンネットワークに基づくデータクラスタ化 Download PDFInfo
- Publication number
- JP6113740B2 JP6113740B2 JP2014541427A JP2014541427A JP6113740B2 JP 6113740 B2 JP6113740 B2 JP 6113740B2 JP 2014541427 A JP2014541427 A JP 2014541427A JP 2014541427 A JP2014541427 A JP 2014541427A JP 6113740 B2 JP6113740 B2 JP 6113740B2
- Authority
- JP
- Japan
- Prior art keywords
- cluster
- record
- token
- data record
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 222
- 230000008569 process Effects 0.000 claims description 119
- 238000012545 processing Methods 0.000 claims description 57
- 230000008859 change Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 2
- 239000013598 vector Substances 0.000 description 32
- 238000012217 deletion Methods 0.000 description 30
- 238000005192 partition Methods 0.000 description 30
- 230000011218 segmentation Effects 0.000 description 28
- 230000037430 deletion Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000006467 substitution reaction Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000003012 network analysis Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000011524 similarity measure Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 241001522296 Erithacus rubecula Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 101100456896 Drosophila melanogaster metl gene Proteins 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011842 forensic investigation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、参照によりそれぞれ本明細書に組み込まれている、2011年11月15日に出願した米国特許出願第61/560,257号、及び2012年6月15日に出願した米国特許出願第61/660,259号の優先権を主張するものである。
1.1 検索ベースのクラスタプロセス概略
図1Aを参照すると、データ処理システム10が、データソース100からのデータをクラスタ化するのに使用される。一部の実施例において、データ処理システム10によって実行されるクラスタ化プロセスが、場合により、無効な値を含め、それぞれのフィールド(「属性」又は「カラム」とも呼ばれる)に関する値を有するレコードとして編成されたデータ内で出現するトークンを解析する。トークンは、フィールド又はフィールドの組み合わせの少なくとも1つの値、又は値の少なくとも1つのフラグメントである。ユーザ102が、ユーザインターフェース104を使用して、データソース100、及びデータソース100の変数関係のネットワークにおける選択されたフィールド(又はフィールドの組み合わせ)における値、トークン、並びに値及びトークンの変数のコレクションに関して、場合により、表とグラフの両方として、レポートを受信すること、変数トークン、類似した句(すなわち、マルチトークン単位)、及び類似したレコードを識別し、トークン、句、又はレコードのあいまいな一致又は偽陽性の一致を見つけ出して、解決し、さらにクラスタメンバシップ判定を行って、各レコードを1又は2以上のクラスタに割り当てるビジネス規則を作成し、保持すること、並びに変数ネットワーク接続及びクラスタメンバシップ判定を点検し、変更し、承認することを含む、クラスタ化プロセスの様々な態様を監視して、制御する。
図1Cは、クラスタ化エンジン130の実施例の要素を図示する。一部の実施例において、データソースレコード100又はトークン化されたレコード118が、セグメント化エンジン132によって読み取られて、セグメントに分離され、及び/又は並列パーティショナ134によって並列処理のために複数のプロセスの間に分割される。
図1Dは、候補検索エンジン140の実施例の要素の概略を示す。クエリレコードが、データソースレコード100P又はトークン化されたレコード118Pのセットから読み取られる。このクエリレコードは、オリジナルレコード又はトークン化されたレコードが、並列に処理されるようにセグメント化され、及び/又は分割されている場合、セグメントの中に、及び/又は並列パーティションの中に入っていることが可能である。クエリは、クエリレコードの1若しくは2以上のフィールド、又はフィールドの組み合わせから1若しくは2以上のトークンを選択する事前定義された、又はユーザによって指定された手順に基づき、クエリ構築手順142によって、選択されたトークン、又は選択されたトークンの組み合わせから生成される。一部の実施例において、生成されたクエリは、クエリ展開エンジン143によって、1又は2以上の特定のクエリを含む展開されたクエリに展開される。
図1Eは、変数プロファイラ110の実施例の要素の概略を示す。変数プロファイラ110は、参照により本明細書に組み込まれている、「Managing an Archive for Approximate String Matching」という名称の米国特許出願公開第2009/0182728号明細書において説明されるようなアーカイブを生成するためのプロセスを含む、変数トークンのペアリングを識別するアーカイブを生成するための様々な技法のいずれかを使用することが可能である。レコードが、データソース100から読み取られる。それらのレコードが、スタンダダイザ112及びトークナイザ113によって処理されることを含め、データ準備モジュール111におけるプロファイリングのために準備される。スタンダダイザ112が、選択されたフィールド(又はフィールドの指定された組み合わせ)の性質及び意味に基づいて、入ってくるデータを標準化するように事前定義された規則及び/又はユーザによって指定された規則を適用する。例えば、ストリング値が、小文字に変換されることが可能であり、特定の句読文字が、削除される、スペース文字で置換される、又は削除されることと、スペース文字で置換されることの両方が行われる(場合により、複数のレコードをもたらして)ことが可能である。トークナイザ113が、フィールドの性質及び意義に応じて、フィールドの値に適用される事前定義された規則及び/又はユーザによって指定された規則に基づいて、トークンのリストを識別する。例えば、アドレスのストリートの行が、スペース文字で分割されて、語のリストになることが可能である一方で、場合により、「New York」のような意味単位を表す値を包含する都市フィールドは、語に分割されない。トークナイザ113が、クラスタ化エンジン130によるさらなる処理のためにトークン化されたレコード118のデータセット又はデータストリームを生成する。
図1Fは、変数ネットワークアナライザ120の実施例の要素の概略を示す。変数ネットワーク116が読み取られ、ネットワーク解析エンジン122がネットワーク解析を行う。一部の実施例において、このネットワーク解析は、変数ネットワーク116内の変数トークンの接続された構成要素のセットを識別し、後段でいくつかが説明されるさらなる解析を実行することが可能である。ユーザ102が、各トークンがノードとして表示され、トークンの各変数ペアリングがエッジによって示される変数ネットワーク116のグラフ表示を、ユーザインターフェース104において閲覧することが可能である。このグラフ表示は、後段で列挙される例における情報などの、ノード及びエッジを特徴付ける情報で飾られることが可能である。ユーザ102は、ユーザインターフェース104を使用して、ノード若しくはエッジを追加して、若しくは削除して、又は飾られた情報を編集して、変数ネットワーク116を繰り返し変更することができる。
多様度=<nk>=Σk in variantsnkpk=Σk in variantsnk 2/N、
ただし、
N=Σk in variantsnk
は、変数の合計カウントであり、さらに
pk=nk/N
は、ランダムに選択された出現が第k番の変数に関連する確率である。示される多様度を正規化するのに、Σk in variantsnkで割って、0〜1までの範囲内の量を得る。この多様度は、トークンの相互関係が低い多様度を暗示するため、互いに関係するトークンの間の結び付きを識別するために役立ち得る。このことは、陽性のトークンを識別するのに使用される測定と類似するが、異なる測定を与える。
図1Gは、クラスタ承認エンジン190の実施例の要素の概略を示す。クラスタメンバシップ判定が、ユーザインターフェース104を使用してユーザ102によって点検されることが可能である。1つのレコードが、メンバであり得るように2つ以上のクラスタに十分に近い、あいまいなクラスタメンバシップ判定が、クラスタ化エンジン130によって合図され、ユーザ102によって解決されることが可能である。エンジン190の図示される要素は、ユーザ入力によって開始され得るアクションに対応する。
2.1 変数プロファイラ及び削除−結合手順
変数プロファイラ110が、変数のペアを識別し、それらのペアの類似性を測定し、さらに変数トークンのペア、及びそれらのペアの類似性スコアを変数プロファイラストア126の中に格納する。一部の実施例において、変数プロファイラ110が、トークンのすべてのペアの間の編集距離を計算し、編集距離(「類似性スコア」)が所定の閾値を下回るトークンのペアを格納する。レーベンシュタイン編集距離が、1つのトークンを別のトークンに変えるのに要求される最低限の数の挿入、削除、及び/又は代入をカウントし、タイプ入力上の類似性の広く使用されている測度である。残念ながら、トークンのすべてのペアを比較するアプローチは、大多数のトークンペアは、類似性を全く有さず、したがって、多量の計算労力がほとんど利益なしに費やされるため、非効率である。
変数−検索動作が、候補検索エンジン140の一部の実施例の動作の基礎をなす。図2A〜図2Dは、変数−検索動作の例を示す。図2Aを参照すると、生のクエリ200が処理のために読み取られる。この例において、生のクエリ200は、値「82536」を有する、政府idなどの数値フィールドである。要件は、データセット220の中で政府idと一致する変数を見出すことであり、政府idは、1つ以下の代入だけ生のクエリと異なる。このことは、一致する2つの政府idが1以下のハミング距離を有することを要求するのと均等である。ハミング距離は、等しい長さの整列された2つの文字シーケンス(ときとして、長さの差を足すことによって、等しくない長さの整列されたシーケンスにまで拡張される)の間の一致しない文字の数をカウントする。
2.3.1 変数近隣
変数近隣は、同義語、省略形、文化的変数などの、外部データ106によって指定される変数ペアリングを場合により、含む、変数ペアリング(変数関係とも呼ばれる)のシーケンスによって関係するトークンのセットである。1つの実施例において、変数プロファイラ110が、多くとも1つの挿入及び1つの削除だけ異なるタイプ入力上の変数を検出し、識別するように削除−結合手順を使用してクラスタ化されるようにデータソース100をプロファイリングする。このことは、単一の挿入、単一の削除、及び単一の代入、並びに入れ換え及び離隔した挿入/削除を範囲に含む(例えば、「hello」と「hllio」は、削除−結合1変数である)。変数プロファイラストア115の中で、すべてのトークンは、より多くのレコードが処理されるにつれてオンラインで更新され得る1又は2以上の変数の関連するリストを有する。しかし、すべての変数は、その変数自らの変数を有するトークンでもある。削除−結合手順、又は他の類似性測定によって形成された変数ペアリングのシーケンスを追うことによって得られるトークンのセットが、近隣を規定する。このセットの閉包は、閉包近隣と呼ばれ、トークンがノードであり、変数ペアリングがエッジであるグラフの変数ネットワークにおける接続された構成要素を形成する。類似性変数ペアを、外部データ106又はユーザによって供給された入力、例えば、同義語、代替のつづり、文化的変数などから得られる変数トークンペアで補足することが、関係するトークンのより大きい近隣につながる。
トークン代表は、接続された近隣の選択されたトークンである。一部の実施例において、近隣におけるすべてのトークンが、その近隣を代表するトークンによって置き換えられることが可能である。このことは、トークン代表の検索が、その近隣における任意の変数に関連するすべてのレコードを返すという効果を有する。このことは、変数を対象に繰り返される変数検索中の作業負荷を低減するので、望ましい。単純な変数検索は、各トークンを検索し、その後、そのトークンの変数のそれぞれを検索することである。変数を対象とした繰り返しは、トークンに遭遇するたびに行われる必要がある。近隣におけるすべての変数トークンがトークン代表で置き換えられた場合、変数トークンのいずれかに遭遇するたびに、すべての変数一致を返すのにトークン代表を1回、探すだけで十分である。
図1Bの例において、データソース100から、又はトークン化されたレコード118から読み取られたデータレコードが、処理のためにクラスタ化エンジン130に供給される。一部の実施例において、データレコードは、セグメント化エンジン132に送信されることが可能である。セグメント化エンジンが、セグメント値と呼ばれる値に基づいて、データレコードにセグメント識別子を割り当てる。次に、レコードが、それらのセグメント識別子に基づいて並列パーティショナ134によって分割されて、様々な受信側処理エンティティに送信されることが可能であり、ただし、同一のセグメント識別子を有するすべてのレコードは、同一の処理エンティティに送信される。処理エンティティは、例えば、CPU(例えば、マルチコアプロセッサにおけるコア)若しくはコンピュータなど処理ノード、又はCPU上で実行される計算プロセス若しくは計算スレッドを含むことが可能である。
データソースの互いに素なセグメント化が存在しない状態での並列化が、データソース100をレプリケートすること、及び任意の2つの変数ペアレコードが少なくとも1つのセグメント値を共有しなければならないことを確実にするセグメント化の適切な選択を使用することによって実現され得る。セグメント値は、フィールド値又はフィールド値の組み合わせの1又は2以上のフラグメントから構成され得る。セグメント値のセットは、少なくとも1つのセグメント値が、2つのレコードの間の許されるすべての変数に関して2つのレコードによって共有される場合、網羅的であると言われる。図4で、網羅的なレプリケートされたセグメント化のプロセスが図示される。データソース400が読み取られ、すべてのデータレコード401に一意のレコードキーが、そのようなレコードキーが既に存在するのでない場合、割り当てられる。すべてのデータレコードが、十分な回数、レプリケートされて、網羅的なセットのセグメント値からの各セグメント値が、1つのレプリカントデータレコードに割り当てられる(402)。(レプリケートされるレコードの数は、各レコードのデータに依存することが可能である。)もたらされたデータレコードが、レプリカントに関連するセグメント値で分割される(404)。レプリカントの結び付けられたペアのセットに関して各処理エンティティにおいて代替クラスタキーが生成される(406)。構造上、許容可能なすべての変数は、セグメントキーが網羅的であるため、何らかのセグメントキーのパーティションの中で検出されることになる。クラスタキーのスーパーセットは、複数一致調整手順の後に、各クラスタに関する一意のcluster_keyに解決される(408)。
代替キー生成は、生成された値を、1又は2以上のフィールドから構成される自然キーの値とペアにすることである。自然キーのそれぞれの個別の値は、一意の代替キー値を有する。代替キーを生成するための一方法は、ときとして、キー相互参照ファイル(略して、キーxrefストア)と呼ばれる代替キー/自然キーペアのストアを保持することである。それぞれの新たなデータレコードが処理されるにつれ、自然キー値がこのストアの中で探され、自然キー値が見つかった場合、代替キーが返され、自然キー値が見つからなかった場合、新たな代替キーが生成される。キーxrefストアは、現在の実行において生成された代替キーのレコードを保持するようにメモリの中で部分的に作成されることが可能であり、以前に生成された値を保持するようにディスク上に部分的に着地させられ(さらに処理の開始時にメモリに読み込まれる)ことが可能である。キーが生成された後、新たに生成された代替キーを含むキーペアが、着地させられたキーxrefストアに追加される。ときとして、生成された最大の代替キー値は、便宜上、別に格納されて、次の実行時に、前に生成された最高のキーが、重複なしにさらなるキーを生成するための開始点として利用可能であるようにする。
セグメント化(及び並列化)の後、一部の実施例において、データソース100、又はトークン化されたデータレコードのセット118Pからのレコードが、採点フィールド重複排除エンジン144に送られる。一部の実施例において、前述したとおり、クラスタメンバシップを判定する採点の際に使用されるフィールド、いわゆる採点フィールドが、ランタイムに特定されることが可能である。採点フィールド重複排除エンジン144が、採点フィールド上で同一の値を有するレコードのセットから1つのレコードを選択して、クラスタ化プロセスを続け、もたらされるクラスタidが、そのセットのその他のレコードの間で共有されるようにする。これらのレコードは、クラスタメンバシップ判定プロセスの見地から同一であるので、これらのレコードのすべてに関して同一のクラスタ化判定に必然的に到達しなければならない。
2.6.1 2つのモード
データレコードセットのすべてが一緒に処理されるか、又はレコードが、到着するにつれ、それまでにクラスタ化されたレコードに照らして処理されるかに依存して、検索ベースのクラスタ化プロセスのわずかに異なる2つのアプローチが可能である。そのようなレコードのすべてが一緒に処理されることは、バッチモードを説明するのに対して、レコードが、到着するにつれてそのように処理されることは、オンラインモードとして使用され得るインクリメンタルモードであるが、データのすべてが最初から利用可能である場合に適用されることも可能である。この2つのモードの間の1つの違いは、バッチモードでクラスタ化エンジンによって使用される、変数プロファイラストア115、変数ネットワークストア126及び検索ストア146を含む様々なストアが、前処理ステップ中に計算されるのに対して、インクリメンタルモードでは、一部のストアは、データが到着するにつれインクリメンタルで入力され得ることである。詳細には、1つのインクリメンタルモードアプローチは、データの完全なセットで変数プロファイラストア115及び変数ネットワークストア126を事前計算することである一方で、検索ストア146は、インクリメンタルで入力される。インクリメンタルモードで、クラスタ化結果は、レコードが処理される順序に依存することが可能である。
インクリメンタルクラスタ化プロセスにおいて、クエリレコードと呼ばれる、入ってくるレコードが、既存のクラスタのレコードと比較されて、そのクエリレコードがいずれのクラスタに属すべきかが判定されることが可能である。直接のアプローチにおいて、各クエリレコードが、最も近い一致を見つけ出すようにそれまでのすべてのレコードと比較されることが可能である。近い一致が全く存在しない場合、クエリレコードは、新たなクラスタの最初のメンバであり、存在する場合、クエリレコードは、そのクエリレコードが最も近く一致したレコードを包含するクラスタに追加される。このことは、単純明快であるが、潜在的に計算リソースを大量に使用する。ほとんどの比較は、否定的な結論(「このクラスタではない」)をもたらし、最悪ケースは、そのクエリレコードが新たなクラスタのメンバである場合である。このアプローチは、各クラスタから代表的なメンバを選択し、そのクエリレコードをクラスタ代表と比較することによって改良され得る。このことは、レコードの変数類似性が少なくとも部分的に推移的であるという所見を活用し、つまり、クエリレコードがクラスタ代表と十分に類似していない場合、そのクエリレコードは、クラスタの他のいずれのメンバとも十分に類似している可能性は低い(それらのメンバはすべて、そのクラスタ代表と類似しているので)。
検索ストア330Gは、検索エントリ334Gをペアリングキー333Gで重複排除すること、及びロケーションキー335Gを、特定の検索キー333Gを有するデータレコードに関するすべてのロケーションキーを保持するロケーション情報にロールアップすることによって改良され得る。一部の実施例において、このロケーション情報は、関連するレコードの数が少ない場合、キーの単純なベクトルであることも可能である。他の実施例において、このロケーション情報は、各ビットセットが、データセット320Gのデータレコードを明示的に、又は暗黙に示す、ビットベクトルであることが可能である。ビットベクトルは、圧縮されてもよい。
クエリ構築手順142において、データソース100から、又はトークン化されたレコード118から読み取られたレコードの1若しくは2以上のフィールド又はランタイムパラメータのフラグメント又は全体から選ばれたコンテンツから生のクエリを構築する、場合により、クエリ構築規則セットが関与するクエリ構築式をユーザが与える。生のクエリは、いくつかがベクトルであり得る、1又は2以上のクエリフィールドの値からなることが可能である。例えば、ユーザが、個人名をクエリとして使用することを所望することが可能であり、ファーストネームフィールド、ミドルネームフィールド、及びラストネームフィールドのコンテンツを、各フィールド値の間のスペースで、又はカンマとスペースで連結することによって、そのクエリを構築する規則を指定する。1又は2以上のネームフィールドが無効である、又は入力されていない場合、その名前の構築を指定するさらなる割り当て(「大文字小文字」)が与えられることが可能である。代替として、場合により、ファーストネームとミドルネームの頭文字だけが保たれ、ラストネームと連結される。生のクエリは、複数の部分から形成された構造化されたレコードであることが可能であり、例えば、個人名に関する生のクエリは、別々のファーストネームクエリフィールド、ミドルネームクエリフィールド、及びラストネームクエリフィールドからなることも可能である。単一のfull_nameフィールドだけがデータレコード上に存在する場合、ユーザクエリ構築式は、生のクエリの構成フィールドを入力するのにそのfull_name値をどのように構文解析すべきかを指定することが可能である。クエリ構築式は、クエリレコードのデータを特徴付ける1又は2以上のデータパターンコード、例えば、生のクエリの他の要素を構築するのに使用される各フィールドの入力の状態(例えば、入力されている、空白、又は無効)を示す入力パターンコードを入力することが可能である。
生のクエリが、クエリ展開エンジン143によって処理されて、展開されたクエリが生成されることが可能である。一部の実施例において、変数プロファイラ110のデータ準備モジュール111におけるトークナイザ113のようなトークナイザが、クエリ展開中に生のクエリの要素に適用されて、クエリが、クエリ語句と呼ばれるトークンに分割されることが可能である。
クエリデータレコードと、既存のデータクラスタのデータレコード(インクリメンタルモードにおいて)又はデータソースにおける他のデータレコード(バッチモードにおいて)の間の類似性の測度が、採点エンジン150によって計算されるスコアとして表されることが可能である。採点エンジン150は、1若しくは2以上のフィールドの、又はフィールドの組み合わせの、例えば、名前及び/又はアドレスを個々に、又は共同で構成するフィールドのコンテンツ全体又は部分的コンテンツを比較することによって、2つのレコードを比較することが可能である。これらのコンテンツは、これらのコンテンツがレコードのフィールドの値から導き出されるので、「フィールド−値」と呼ばれることが可能である。
クラスタ化プロセス全体が、クラスタメンバシップ判定において一体となる。図9が、クラスタメンバシップを判定するためのプロセスの実施例の概略を示す。データソース100が読み取られる。生のクエリが形成され展開される前に、レコードはセグメント化され並列に分割される(図示せず)(910)。一部の実施例において、前述したクエリ構築手順及びクエリ展開手順は、変数プロファイラストア115及び変数ネットワークストア126から読み取る。一部の実施例において、クエリレコードは、より区別しやすいレコードを先に置くように識別性の基準136で並べ替えられることが可能である。生の候補レコードが、検索ストア146にアクセスすることによって、前述した候補検索エンジンを使用して見出される(920)。事前定義された条件、又はユーザによって指定された条件が関与する候補選択手順930が、それらの生の候補レコードに適用されて、候補レコードのセットがもたらされる。
クラスタ化プロセスは、バッチモードにおいて、インクリメンタルモードにおけるのとは多少異なったように進められる。図11A〜図11Dは、このクラスタ化プロセスを図示する。図11Aで、このクラスタ化プロセスの高レベルの概略が与えられる。変数プロファイラストア115及び変数ネットワークストア126が、検索−エントリ展開手順を介して読み取られ、処理されて、検索ストア146の中に検索−エントリ145が入力されることが可能である。このことは、前処理ステップとして行われる。データソース100が読み取られる。生のクエリが、一部の実施例において、変数プロファイラストア115及び変数ネットワークストア126のデータを使用して、各レコードに関して生成され、展開される(1110)。展開されたクエリは、クラスタメンバシップ基準を満足させない可能性があるレコードを除外するようにクラスタメンバシップ基準を近似するように作成されることが可能である。展開されたクエリは、検索ストア146から生の候補レコードを取り出す候補検索エンジン1120に送られることが可能である。生の候補レコードが、候補セレクタ1130によってフィルタリングされて、プロクシ一致基準を満たす候補レコードが選択されることが可能である。一部の実施例において、プロクシ一致基準は、各レコードに関して行われた複数の検索の結果を符号化する、検索コードを使用して部分的に実現され得る。プロクシ一致基準を満たすすべての候補レコードが、クエリレコードに照らして詳細な採点を受けることが可能であり(1140)、もたらされるスコアが、変数−ペアスコアストアの中に保存されることが可能である(1150)。
候補レコードが、クラスタidが検索結果によって参照されて出現する、異なるクエリの数に基づいてランク付けされることが可能である。例えば、クラスタ1が、3つのクエリに関する検索結果によって参照されることが可能であり、クラスタ10が、2つのクエリに関する検索結果によって参照されることが可能であり、クラスタ15が、4つのクエリに関する検索結果によって参照されることが可能であるといった具合である。一部の実施例において、候補レコードには、それらの候補レコードを参照する検索結果を生成したトークン−ペアクエリ語句の数対トークン−ペアクエリ語句の数の比に基づくスコアが与えられる。このスコアは、以下の式を使用して算出され得る。すなわち、
scorecandidate=QueryPairscandidate/QueryPairs
ただし、scorecandidateは、クラスタのスコアである。QueryPairscandidateは、そのクラスタを識別する検索結果を含むクエリの数である。さらに、QueryPairsは、検索ストアの展開されたクエリから探し出されたトークン−ペアクエリ語句の数である。
一部の実施例において、あまりにも多くの別々のレコードを参照する検索結果が、十分に区別する役割をしないとして破棄されることが可能である。例えば、トークン−ペアクエリ語句によって返されるレコードの最大数に関する閾値が100であることが可能であり、このことが、トークン−ペアクエリ語句が役に立たなかった場合、時間を浪費せずに適当な数の個々のレコードが採点されることを可能にする。クラスタメンバシップは、通常、2つ以上のフィールド類似性スコアによって判定される。トークン−ペアクエリ語句が、大量のクラスタを返す場合、このことは、候補のセットにわたって、トークン−ペアクエリ語句が大きく変わらない一方で、他の何らかの値が大きく変わることを意味する可能性がある。取り出されたレコードの数が閾値に達した後、トークン−ペアクエリ語句は、他の区別に役立つ情報が効果的であるほどには効果的でない可能性があるため、ドロップされることも可能である。
図12で、複数一致調整ステップ手順が図示される。クラスタがベクトル化された形態で保持される場合、つまり、複数クラスタメンバが、単一のレコードの中で一緒に保持される場合、それらのクラスタメンバが、個々のレコードに正規化される(1200)。これらのレコードが、一意のレコードキーで分割される(1202)。このことが、それぞれのオリジナルデータレコードのすべてのレプリカントが同一のパーティションの中に入っていることを確実にする。それらのデータレコードが、レコードキーでロールアップされて、レコードに関連する別々のクラスタキーのベクトルが得られる(1204)。1つのクラスタキー、例えば、最小のクラスタキーが、選好されるものとして選択される。次に、このベクトルが、選好される(この場合は、最小の)クラスタキーを他のそれぞれの別個のクラスタキーとペアにする、クラスタキーペアに正規化される(1206)。次に、推移閉包が、すべてのクラスタキーペアのセットに適用される。このことは、接続されたクラスタキーペアの各ネットワークに対する、つまり、各クラスタに対する1つのクラスタキーの割り当てをもたらし(1208)、次に、このクラスタキーが、各一意のデータレコードに割り当てられる(1210)。
一部の実施例において、マスタレコードが、クラスタ化の後に行われるクラスタ承認プロセスの一環として、クラスタのメンバの中からユーザによって指定されることが可能である。クラスタは、2つ以上のマスタレコードを有し得る。同一のクラスタidを有する複数のマスタレコードが、クラスタシーケンス番号で区別される。
孤立した遠隔クラスタ化システム、詳細には、データを全くエクスポートしない遠隔クラスタ化システムにおいて保持されるデータクラスタに照らしてレコードをクラスタ化することが、インクリメンタルモードにおけるクラスタメンバシップ手順の変更によって扱われることが可能である。必須の要件は、クエリに加えて、起点システム上のクラスタ化プロセス中に見出されたいくらかのさらなるデータが、遠隔クラスタ化システムに送られなければならないことである。このさらなるデータは、起点システム上の変数の範囲を代表する、トークンのレベルと候補レコードの両方のレベルで変数である。これらの変数が、遠隔システム上で包括的検索及びクラスタ一致を行うことを要求される。
前述したクラスタ化技法、セグメント化技法、及び並列化技法は、コンピュータ上で実行されるソフトウェアを使用して実施され得る。例えば、このソフトウェアが、少なくとも1つのプロセッサと、少なくとも1つのデータストレージシステム(揮発性メモリ及び不揮発性メモリ、及び/又は記憶素子を含む)と、少なくとも1つの入力デバイス又は入力ポートと、少なくとも1つの出力デバイス又は出力ポートとをそれぞれが含む、1又は2以上のプログラミングされた、又はプログラマブルなコンピュータシステム(分散型、クライアント/サーバ型、又はグリッド型などの様々なアーキテクチャのものであり得る)上で実行される1又は2以上のコンピュータプログラムにおける手順を形成する。このソフトウェアは、例えば、データフローグラフのデザイン及び構成と関係する他のサービスを提供するより大きいプログラムの1又は2以上のモジュールを形成することが可能である。そのグラフのノード及び要素は、コンピュータ可読媒体の中に格納されたデータ構造として、又はデータリポジトリの中に格納されたデータモデルに準拠する他の編成されたデータとして実装され得る。
Claims (41)
- 1又は2以上のフィールドの1又は2以上の値をそれぞれが含むデータレコードをコンピューティングシステムが受信すること、及び
2又は3以上のデータレコードの1又は2以上のデータクラスタを識別するために、少なくとも一つのプロセッサによる、前記受信したデータレコードを処理することであって、前記データクラスタが、識別されたトークンを表すネットワークに基づいて識別される候補データレコードに基づいて識別される、前記処理することを含む、方法であって、
前記処理することが、
前記受信したデータレコードのフィールド又はフィールドの組み合わせの少なくとも1つの値又は値のフラグメントをそれぞれが含むトークンを識別すること、
前記識別されたトークンを表す前記ネットワークを生成し、前記ネットワークのノードが、個々のトークンを表し、さらに前記ネットワークのエッジがそれぞれ、トークンの間の変数関係を表すこと、
それぞれの受信したデータレコードをデータクラスタに関連付けるために、同じセットにある候補データレコードがそれぞれ、前記生成されたネットワークにおける接続されたノードのサブセットによって表されるトークンの同じグループからの1又は2以上のトークンを含むように、候補データレコードの対応するセットを識別すること、及び
受信したデータレコードに対応する候補データレコードのセットのうちの少なくとも1つの候補データレコードについて、前記受信したデータレコードが、前記候補データレコードが属する候補データクラスタのクラスタ関連性基準を満たすか否かを決定すること、
を含む、前記方法。 - 2つのトークンが、前記トークンの間の距離が閾値を下回る場合、変数関係を有する、請求項1に記載の方法。
- 処理することが、ノードの異なるサブセットが、ノードに関連する値に少なくとも部分的に基づいて区別されるネットワークのグラフ表現を生成し、特定のノードに関連する値が、受信したデータレコード内に出現するその特定のノードによって表されるトークンのインスタンスの数のカウントを定量化することをさらに含む、請求項1に記載の方法。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項3に記載の方法。
- 閾値より大きい値に関連するノードが、前記閾値より大きい値を有さないノードとはグラフ上で区別される、請求項3に記載の方法。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項1に記載の方法。
- 距離が、共有される文字のシーケンスに基づいて測定される、請求項2に記載の方法。
- 少なくとも1つのサブセットが、第1ノードと、前記第1ノードに関連する値以下の値に関連するノードを接続するエッジをトラバースすることによって得られるノードとを含む、請求項3に記載の方法。
- 少なくとも第1サブセットが、前記第1サブセットの中の他のノードによって表されるトークンの代表であるトークンに関連する少なくとも1つのノードを含む、請求項4に記載の方法。
- 第1の受信したデータレコードに関連付けるデータクラスタを識別することが、前記第1の受信したデータレコードの少なくとも1つのトークンをそのトークンの代表的トークンで置き換えることを含む、請求項9に記載の方法。
- 第1セットの他のノードに関連する値の平均値より閾値を超えて大きい値に関連する少なくとも1つのノードを識別することをさらに含む、請求項1に記載の方法。
- エッジで互いに直列に接続された、識別されたノードのうちの任意の2つを特定することをさらに含む、請求項11に記載の方法。
- 2つのノードの間にエッジを追加することによって、又は2つのノードの間のエッジを取り外すことによってネットワークを変更するように前記ネットワークに適用されるユーザからのインプット又は所定の規則を受け取ることをさらに含む、請求項1に記載の方法。
- ユーザインターフェースにおいて、ネットワークの視覚的表現を表示すること、及びノードに関連する値を視覚的に示すことをさらに含む、請求項13に記載の方法。
- ユーザインターフェースを介してインプットを受け取ることをさらに含む、請求項14に記載の方法。
- コンピュータ可読記憶媒体上に格納されたコンピュータプログラムであって、
コンピューティングシステムに、
1又は2以上のフィールドの1又は2以上の値をそれぞれが含むデータレコードを受信させること、さらに
2又は3以上のデータレコードの1又は2以上のデータクラスタを識別させるために前記受信したデータレコードを処理することであって、前記データクラスタが、識別されたトークンを表すネットワークに基づいて識別される候補データレコードに基づいて識別される、前記処理すること、を行わせるための命令を含み、前記処理することが、
前記受信したデータレコードのフィールド又はフィールドの組み合わせの少なくとも1つの値又は値のフラグメントをそれぞれが含むトークンを識別すること、
前記識別されたトークンを表す前記ネットワークを生成し、前記ネットワークのノードが、個々のトークンを表し、さらに前記ネットワークのエッジがそれぞれ、トークンの間の変数関係を表すこと、
それぞれの受信したデータレコードをデータクラスタに関連付けるために、同じセットにある候補データレコードがそれぞれ、前記生成されたネットワークにおける接続されたノードのサブセットによって表されるトークンの同じグループからの1又は2以上のトークンを含むように、候補データレコードの対応するセットを識別すること、及び
受信したデータレコードに対応する候補データレコードのセットのうちの少なくとも1つの候補データレコードについて、前記受信したデータレコードが、前記候補データレコードが属する候補データクラスタのクラスタ関連性基準を満たすか否かを決定すること、
を含む、前記コンピュータプログラム。 - 1又は2以上のフィールドの1又は2以上の値をそれぞれが含むデータレコードを受信するように構成された入力デバイス又は入力ポートと、
2又は3以上のデータレコードの1又は2以上のデータクラスタを識別するために前記受信したデータレコードを処理するように構成された少なくとも1つのプロセッサであって、前記データクラスタが、識別されたトークンを表すネットワークに基づいて識別される候補データレコードに基づいて識別される、前記プロセッサとを含む、コンピューティングシステムであって、
前記処理が、
前記受信したデータレコードのフィールド又はフィールドの組み合わせの少なくとも1つの値又は値のフラグメントをそれぞれが含むトークンを識別すること、
前記識別されたトークンを表す前記ネットワークを生成し、前記ネットワークのノードが、個々のトークンを表し、さらに前記ネットワークのエッジがそれぞれ、トークンの間の変数関係を表すこと、
それぞれの受信したデータレコードをデータクラスタに関連付けるために、同じセットにある候補データレコードがそれぞれ、前記生成されたネットワークにおける接続されたノードのサブセットによって表されるトークンの同じグループからの1又は2以上のトークンを含むように、候補データレコードの対応するセットを識別すること、及び
受信したデータレコードに対応する候補データレコードのセットのうちの少なくとも1つの候補データレコードについて、前記受信したデータレコードが、前記候補データレコードが属する候補データクラスタのクラスタ関連性基準を満たすか否かを決定すること、
を含む、前記コンピューティングシステム。 - 1又は2以上のフィールドの1又は2以上の値をそれぞれが含むデータレコードを受信するための手段と、
2又は3以上のデータレコードの1又は2以上のデータクラスタを識別するために前記受信したデータレコードを処理するための手段であって、前記データクラスタが、識別されたトークンを表すネットワークに基づいて識別される候補データレコードに基づいて識別される、前記手段とを含む、コンピューティングシステムであって、
前記処理が、
前記受信したデータレコードのフィールド又はフィールドの組み合わせの少なくとも1つの値又は値のフラグメントをそれぞれが含むトークンを識別すること、
前記識別されたトークンを表す前記ネットワークを生成し、前記ネットワークのノードが、個々のトークンを表し、さらに前記ネットワークのエッジがそれぞれ、トークンの間の変数関係を表すこと、
それぞれの受信したデータレコードをデータクラスタに関連付けるために、同じセットにある候補データレコードがそれぞれ、前記生成されたネットワークにおける接続されたノードのサブセットによって表されるトークンの同じグループからの1又は2以上のトークンを含むように、候補データレコードの対応するセットを識別すること、及び
受信したデータレコードに対応する候補データレコードのセットのうちの少なくとも1つの候補データレコードについて、前記受信したデータレコードが、前記候補データレコードが属する候補データクラスタのクラスタ関連性基準を満たすか否かを決定すること、
を含む、前記コンピューティングシステム。 - 処理が、ノードの異なるサブセットが、ノードに関連する値に少なくとも部分的に基づいて区別されるネットワークのグラフ表現を生成することをさらに含み、特定のノードに関連する値が、受信したデータレコード内に出現するその特定のノードによって表されるトークンのインスタンスの数のカウントを定量化する、請求項16に記載のコンピュータプログラム。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項19に記載のコンピュータプログラム。
- 少なくとも第1のサブセットが、前記第1のサブセットの中の他のノードによって表されるトークンの代表であるトークンに関連する少なくとも1つのノードを含む、請求項20に記載のコンピュータプログラム。
- 第1の受信したデータレコードに関連付けるべきデータクラスタを識別することが、前記第1の受信したデータレコードの中の少なくとも1つのトークンをそのトークンの代表的トークンで置き換えることを含む、請求項21に記載のコンピュータプログラム。
- 閾値より大きい値に関連するノードが、前記閾値より大きい値を有さないノードとはグラフ上で区別される、請求項20に記載のコンピュータプログラム。
- 少なくとも1つのサブセットが、第1のノードと、前記第1のノードに関連する値以下の値に関連するノードを接続するエッジをトラバースすることによって得られるノードとを含む、請求項20に記載のコンピュータプログラム。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項16に記載のコンピュータプログラム。
- 2つのトークンが、それらのトークンの間の距離が閾値を下回る場合、変数関係を有する、請求項16に記載のコンピュータプログラム。
- 距離が、共有される文字のシーケンスに基づいて測定される、請求項26に記載のコンピュータプログラム。
- 処理が、第1のセットの中の他のノードに関連する値の平均値より閾値を超えて大きい値に関連する少なくとも1つのノードを識別することをさらに含む、請求項16に記載のコンピュータプログラム。
- 処理が、エッジで互いに直列に接続された、識別されたノードのうちの任意の2つを特定することをさらに含む、請求項28に記載のコンピュータプログラム。
- 2つのノードの間にエッジを追加することによって、又は2つのノードの間のエッジを取り外すことによってネットワークを変更するように前記ネットワークに適用されるユーザからのインプット又は所定の規則を受け取ることを、コンピューティングシステムに行わせる命令をさらに含む、請求項16に記載のコンピュータプログラム。
- 処理が、ノードの異なるサブセットが、ノードに関連する値に少なくとも部分的に基づいて区別されるネットワークのグラフ表現を生成することをさらに含み、特定のノードに関連する値が、受信したデータレコード内に出現するその特定のノードによって表されるトークンのインスタンスの数のカウントを定量化する、請求項17に記載のコンピューティングシステム。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項31に記載のコンピューティングシステム。
- 少なくとも第1のサブセットが、前記第1のサブセットの中の他のノードによって表されるトークンの代表であるトークンに関連する少なくとも1つのノードを含む、請求項32に記載のコンピューティングシステム。
- 第1の受信したデータレコードに関連付けるデータクラスタを識別することが、前記第1の受信したデータレコードの中の少なくとも1つのトークンをそのトークンの代表的トークンで置き換えることを含む、請求項33に記載のコンピューティングシステム。
- 閾値より大きい値に関連するノードが、前記閾値より大きい値を有さないノードとはグラフ上で区別される、請求項32に記載のコンピューティングシステム。
- 少なくとも1つのサブセットが、第1のノードと、前記第1のノードに関連する値以下の値に関連するノードを接続するエッジをトラバースすることによって得られるノードとを含む、請求項32に記載のコンピューティングシステム。
- 受信したデータレコードが、候補データレコードが属する候補データクラスタに関するクラスタ関連性基準を満たすか否かを決定することが、前記候補データレコードが属する前記候補データクラスタの少なくとも1つの代表データレコードを取り出すこと、及び前記受信したデータレコードを前記代表データレコードと比較することを含む、請求項17に記載のコンピューティングシステム。
- 2つのトークンが、それらのトークンの間の距離が閾値を下回る場合、変数関係を有する、請求項17に記載のコンピューティングシステム。
- 距離が、共有される文字のシーケンスに基づいて測定される、請求項38に記載のコンピューティングシステム。
- 処理が、第1のセットの中の他のノードに関連する値の平均値より閾値を超えて大きい値に関連する少なくとも1つのノードを識別することをさらに含む、請求項17に記載のコンピューティングシステム。
- 処理が、エッジで互いに直列に接続された、識別されたノードのうちの任意の2つを特定することをさらに含む、請求項40に記載のコンピューティングシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161560257P | 2011-11-15 | 2011-11-15 | |
US61/560,257 | 2011-11-15 | ||
US201261660259P | 2012-06-15 | 2012-06-15 | |
US61/660,259 | 2012-06-15 | ||
PCT/US2012/065255 WO2013074774A1 (en) | 2011-11-15 | 2012-11-15 | Data clustering based on variant token networks |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014533409A JP2014533409A (ja) | 2014-12-11 |
JP6113740B2 true JP6113740B2 (ja) | 2017-04-12 |
Family
ID=47258118
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014541427A Active JP6113740B2 (ja) | 2011-11-15 | 2012-11-15 | 変数トークンネットワークに基づくデータクラスタ化 |
JP2014542461A Active JP6125520B2 (ja) | 2011-11-15 | 2012-11-15 | 候補クエリに基づくデータクラスタ化 |
JP2014541426A Active JP6190817B2 (ja) | 2011-11-15 | 2012-11-15 | データクラスタ化、データセグメント化、及びデータ並列化 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014542461A Active JP6125520B2 (ja) | 2011-11-15 | 2012-11-15 | 候補クエリに基づくデータクラスタ化 |
JP2014541426A Active JP6190817B2 (ja) | 2011-11-15 | 2012-11-15 | データクラスタ化、データセグメント化、及びデータ並列化 |
Country Status (9)
Country | Link |
---|---|
US (6) | US9037589B2 (ja) |
EP (6) | EP3591538B1 (ja) |
JP (3) | JP6113740B2 (ja) |
KR (3) | KR102029514B1 (ja) |
CN (4) | CN104054073B (ja) |
AU (3) | AU2012340418C1 (ja) |
CA (4) | CA2855710C (ja) |
HK (4) | HK1200942A1 (ja) |
WO (3) | WO2013074770A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232200B2 (en) * | 2020-06-26 | 2022-01-25 | Estsecurity Corp. | Apparatus for selecting representative token from detection names of multiple vaccines, method therefor, and computer readable recording medium storing program for performing the method |
Families Citing this family (177)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
CA3014839C (en) | 2008-10-23 | 2019-01-08 | Arlen Anderson | Fuzzy data operations |
US20110153737A1 (en) * | 2009-12-17 | 2011-06-23 | Chu Thomas P | Method and apparatus for decomposing a peer-to-peer network and using a decomposed peer-to-peer network |
US10084856B2 (en) * | 2009-12-17 | 2018-09-25 | Wsou Investments, Llc | Method and apparatus for locating services within peer-to-peer networks |
US8468119B2 (en) * | 2010-07-14 | 2013-06-18 | Business Objects Software Ltd. | Matching data from disparate sources |
EP2727247B1 (en) * | 2011-06-30 | 2017-04-05 | Openwave Mobility, Inc. | Database compression system and method |
WO2013074770A1 (en) | 2011-11-15 | 2013-05-23 | Ab Initio Technology Llc | Data clustering, segmentation, and parallelization |
US8949199B2 (en) * | 2011-12-29 | 2015-02-03 | Dell Products L.P. | Systems and methods for de-duplication in storage systems |
WO2013123097A1 (en) * | 2012-02-13 | 2013-08-22 | SkyKick, Inc. | Migration project automation, e.g., automated selling, planning, migration and configuration of email systems |
US10467322B1 (en) * | 2012-03-28 | 2019-11-05 | Amazon Technologies, Inc. | System and method for highly scalable data clustering |
US20130268526A1 (en) * | 2012-04-06 | 2013-10-10 | Mark E. Johns | Discovery engine |
US9684395B2 (en) * | 2012-06-02 | 2017-06-20 | Tara Chand Singhal | System and method for context driven voice interface in handheld wireless mobile devices |
EP3654200A1 (en) * | 2012-08-17 | 2020-05-20 | Twitter, Inc. | Search infrastructure |
US10223697B2 (en) | 2012-08-30 | 2019-03-05 | Oracle International Corporation | Method and system for implementing a CRM quote and order capture context service |
US9251133B2 (en) | 2012-12-12 | 2016-02-02 | International Business Machines Corporation | Approximate named-entity extraction |
US10949752B1 (en) * | 2013-01-30 | 2021-03-16 | Applied Predictive Technologies, Inc. | System and method of portfolio matching |
US9830353B1 (en) * | 2013-02-27 | 2017-11-28 | Google Inc. | Determining match type for query tokens |
US20140282396A1 (en) * | 2013-03-14 | 2014-09-18 | Syntel, Inc. | Computerized system and method for extracting business rules from source code |
US20140280239A1 (en) * | 2013-03-15 | 2014-09-18 | Sas Institute Inc. | Similarity determination between anonymized data items |
US8844050B1 (en) | 2013-03-15 | 2014-09-23 | Athoc, Inc. | Personnel crisis communications management and personnel status tracking system |
US10803102B1 (en) * | 2013-04-30 | 2020-10-13 | Walmart Apollo, Llc | Methods and systems for comparing customer records |
US9411632B2 (en) * | 2013-05-30 | 2016-08-09 | Qualcomm Incorporated | Parallel method for agglomerative clustering of non-stationary data |
US11093521B2 (en) * | 2013-06-27 | 2021-08-17 | Sap Se | Just-in-time data quality assessment for best record creation |
KR20150020385A (ko) * | 2013-08-13 | 2015-02-26 | 에스케이하이닉스 주식회사 | 데이터 저장 장치, 그것의 동작 방법 및 그것을 포함하는 데이터 처리 시스템 |
CA2921245C (en) | 2013-09-20 | 2023-08-22 | Fulcrum Management Solutions Ltd. | Processing qualitative responses |
CN103455641B (zh) * | 2013-09-29 | 2017-02-22 | 北大医疗信息技术有限公司 | 交叉多次检索的系统和方法 |
US8831969B1 (en) * | 2013-10-02 | 2014-09-09 | Linkedin Corporation | System and method for determining users working for the same employers in a social network |
US10043182B1 (en) * | 2013-10-22 | 2018-08-07 | Ondot System, Inc. | System and method for using cardholder context and preferences in transaction authorization |
US10423890B1 (en) | 2013-12-12 | 2019-09-24 | Cigna Intellectual Property, Inc. | System and method for synthesizing data |
US10685037B2 (en) | 2013-12-18 | 2020-06-16 | Amazon Technology, Inc. | Volume cohorts in object-redundant storage systems |
CA2934041C (en) * | 2013-12-18 | 2021-04-13 | Amazon Technologies, Inc. | Reconciling volumelets in volume cohorts |
US10620830B2 (en) | 2013-12-18 | 2020-04-14 | Amazon Technologies, Inc. | Reconciling volumelets in volume cohorts |
US10026114B2 (en) * | 2014-01-10 | 2018-07-17 | Betterdoctor, Inc. | System for clustering and aggregating data from multiple sources |
US10055747B1 (en) * | 2014-01-20 | 2018-08-21 | Acxiom Corporation | Consumer Portal |
US9690844B2 (en) * | 2014-01-24 | 2017-06-27 | Samsung Electronics Co., Ltd. | Methods and systems for customizable clustering of sub-networks for bioinformatics and health care applications |
US9779146B2 (en) * | 2014-02-07 | 2017-10-03 | Sap Se | Graphical user interface for a data record matching application |
US20150269700A1 (en) | 2014-03-24 | 2015-09-24 | Athoc, Inc. | Exchange of crisis-related information amongst multiple individuals and multiple organizations |
US9268597B2 (en) * | 2014-04-01 | 2016-02-23 | Google Inc. | Incremental parallel processing of data |
US10482490B2 (en) | 2014-04-09 | 2019-11-19 | Sailthru, Inc. | Behavioral tracking system and method in support of high-engagement communications |
US20150348052A1 (en) * | 2014-05-30 | 2015-12-03 | Sachin Rekhi | Crm-based discovery of contacts and accounts |
WO2015192106A1 (en) * | 2014-06-12 | 2015-12-17 | Shpanya Arie | Real-time dynamic pricing system |
US20150379033A1 (en) * | 2014-06-27 | 2015-12-31 | International Business Machines Corporation | Parallel matching of hierarchical records |
US10318983B2 (en) * | 2014-07-18 | 2019-06-11 | Facebook, Inc. | Expansion of targeting criteria based on advertisement performance |
US10528981B2 (en) | 2014-07-18 | 2020-01-07 | Facebook, Inc. | Expansion of targeting criteria using an advertisement performance metric to maintain revenue |
US20160019284A1 (en) * | 2014-07-18 | 2016-01-21 | Linkedln Corporation | Search engine using name clustering |
US10296616B2 (en) | 2014-07-31 | 2019-05-21 | Splunk Inc. | Generation of a search query to approximate replication of a cluster of events |
US9922290B2 (en) * | 2014-08-12 | 2018-03-20 | Microsoft Technology Licensing, Llc | Entity resolution incorporating data from various data sources which uses tokens and normalizes records |
US10614912B2 (en) * | 2014-08-17 | 2020-04-07 | Hyperfine, Llc | Systems and methods for comparing networks, determining underlying forces between the networks, and forming new metaclusters when saturation is met |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
WO2016048295A1 (en) * | 2014-09-24 | 2016-03-31 | Hewlett Packard Enterprise Development Lp | Assigning a document to partial membership in communities |
US11461319B2 (en) * | 2014-10-06 | 2022-10-04 | Business Objects Software, Ltd. | Dynamic database query efficiency improvement |
US9600548B2 (en) * | 2014-10-10 | 2017-03-21 | Salesforce.Com | Row level security integration of analytical data store with cloud architecture |
JP6050800B2 (ja) * | 2014-10-28 | 2016-12-21 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
CN105701118B (zh) | 2014-11-28 | 2019-05-28 | 国际商业机器公司 | 用于归一化文件的非数值特征的方法和装置 |
US9483546B2 (en) * | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US9727906B1 (en) * | 2014-12-15 | 2017-08-08 | Amazon Technologies, Inc. | Generating item clusters based on aggregated search history data |
JP6129815B2 (ja) * | 2014-12-24 | 2017-05-17 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
US20160239499A1 (en) * | 2015-02-12 | 2016-08-18 | Red Hat, Inc. | Object Creation Based on Copying Objects Corresponding to Similar Entities |
US10339502B2 (en) * | 2015-04-06 | 2019-07-02 | Adp, Llc | Skill analyzer |
US10742731B2 (en) | 2015-06-10 | 2020-08-11 | International Business Machines Corporation | Maintaining service configuration consistency across nodes of a clustered file system |
US9940213B2 (en) | 2015-06-10 | 2018-04-10 | International Business Machines Corporation | Integrating external services with a clustered file system |
WO2017015751A1 (en) * | 2015-07-24 | 2017-02-02 | Fulcrum Management Solutions Ltd. | Processing qualitative responses and visualization generation |
US10140327B2 (en) | 2015-08-24 | 2018-11-27 | Palantir Technologies Inc. | Feature clustering of users, user correlation database access, and user interface generation system |
US10417337B2 (en) | 2015-09-02 | 2019-09-17 | Canon Kabushiki Kaisha | Devices, systems, and methods for resolving named entities |
US11392582B2 (en) * | 2015-10-15 | 2022-07-19 | Sumo Logic, Inc. | Automatic partitioning |
US10783268B2 (en) | 2015-11-10 | 2020-09-22 | Hewlett Packard Enterprise Development Lp | Data allocation based on secure information retrieval |
US10242021B2 (en) * | 2016-01-12 | 2019-03-26 | International Business Machines Corporation | Storing data deduplication metadata in a grid of processors |
US10261946B2 (en) | 2016-01-12 | 2019-04-16 | International Business Machines Corporation | Rebalancing distributed metadata |
US10255288B2 (en) * | 2016-01-12 | 2019-04-09 | International Business Machines Corporation | Distributed data deduplication in a grid of processors |
WO2017197526A1 (en) | 2016-05-20 | 2017-11-23 | Roman Czeslaw Kordasiewicz | Systems and methods for graphical exploration of forensic data |
US10740409B2 (en) | 2016-05-20 | 2020-08-11 | Magnet Forensics Inc. | Systems and methods for graphical exploration of forensic data |
JP6072334B1 (ja) * | 2016-06-09 | 2017-02-01 | 株式会社Cygames | 情報処理システム及び方法、並びにプログラム |
US20180025093A1 (en) * | 2016-07-21 | 2018-01-25 | Ayasdi, Inc. | Query capabilities of topological data analysis graphs |
US11023475B2 (en) * | 2016-07-22 | 2021-06-01 | International Business Machines Corporation | Testing pairings to determine whether they are publically known |
US10558669B2 (en) * | 2016-07-22 | 2020-02-11 | National Student Clearinghouse | Record matching system |
US11106692B1 (en) * | 2016-08-04 | 2021-08-31 | Palantir Technologies Inc. | Data record resolution and correlation system |
CN106875167B (zh) * | 2016-08-18 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 电子支付过程中资金交易路径的检测方法和装置 |
US10650008B2 (en) * | 2016-08-26 | 2020-05-12 | International Business Machines Corporation | Parallel scoring of an ensemble model |
US10817540B2 (en) | 2016-09-02 | 2020-10-27 | Snowflake Inc. | Incremental clustering maintenance of a table |
US11080301B2 (en) * | 2016-09-28 | 2021-08-03 | Hewlett Packard Enterprise Development Lp | Storage allocation based on secure data comparisons via multiple intermediaries |
US20180096018A1 (en) * | 2016-09-30 | 2018-04-05 | Microsoft Technology Licensing, Llc | Reducing processing for comparing large metadata sets |
WO2018067467A1 (en) | 2016-10-03 | 2018-04-12 | Ocient Llc | Infrastructure improvements for use in a massively parallel database management system |
US10127268B2 (en) * | 2016-10-07 | 2018-11-13 | Microsoft Technology Licensing, Llc | Repairing data through domain knowledge |
US10713316B2 (en) | 2016-10-20 | 2020-07-14 | Microsoft Technology Licensing, Llc | Search engine using name clustering |
US10585864B2 (en) | 2016-11-11 | 2020-03-10 | International Business Machines Corporation | Computing the need for standardization of a set of values |
US10353928B2 (en) * | 2016-11-30 | 2019-07-16 | International Business Machines Corporation | Real-time clustering using multiple representatives from a cluster |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
EP3336691B1 (en) | 2016-12-13 | 2022-04-06 | ARM Limited | Replicate elements instruction |
EP3336692B1 (en) | 2016-12-13 | 2020-04-29 | Arm Ltd | Replicate partition instruction |
US10902070B2 (en) | 2016-12-15 | 2021-01-26 | Microsoft Technology Licensing, Llc | Job search based on member transitions from educational institution to company |
US10671757B1 (en) * | 2016-12-22 | 2020-06-02 | Allscripts Software, Llc | Converting an alphanumerical character string into a signature |
US20180181646A1 (en) * | 2016-12-26 | 2018-06-28 | Infosys Limited | System and method for determining identity relationships among enterprise data entities |
US20180203917A1 (en) * | 2017-01-19 | 2018-07-19 | Acquire Media Ventures Inc. | Discovering data similarity groups in linear time for data science applications |
US10679187B2 (en) | 2017-01-30 | 2020-06-09 | Microsoft Technology Licensing, Llc | Job search with categorized results |
US10783497B2 (en) | 2017-02-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Job posting data search based on intercompany worker migration |
US11138269B1 (en) | 2017-03-14 | 2021-10-05 | Wells Fargo Bank, N.A. | Optimizing database query processes with supervised independent autonomy through a dynamically scaling matching and priority engine |
US10803064B1 (en) * | 2017-03-14 | 2020-10-13 | Wells Fargo Bank, N.A. | System and method for dynamic scaling and modification of a rule-based matching and prioritization engine |
US11010675B1 (en) | 2017-03-14 | 2021-05-18 | Wells Fargo Bank, N.A. | Machine learning integration for a dynamically scaling matching and prioritization engine |
KR102594625B1 (ko) * | 2017-03-19 | 2023-10-25 | 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 | K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법 |
US10607189B2 (en) | 2017-04-04 | 2020-03-31 | Microsoft Technology Licensing, Llc | Ranking job offerings based on growth potential within a company |
US20180315019A1 (en) * | 2017-04-27 | 2018-11-01 | Linkedin Corporation | Multinodal job-search control system |
US11640436B2 (en) * | 2017-05-15 | 2023-05-02 | Ebay Inc. | Methods and systems for query segmentation |
US10740338B2 (en) * | 2017-07-23 | 2020-08-11 | International Business Machines Corporation | Systems and methods for query performance prediction using reference lists |
US9934287B1 (en) * | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
US20190034475A1 (en) * | 2017-07-28 | 2019-01-31 | Enigma Technologies, Inc. | System and method for detecting duplicate data records |
EP3460808A1 (en) * | 2017-09-21 | 2019-03-27 | Koninklijke Philips N.V. | Determining patient status based on measurable medical characteristics |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
WO2019077405A1 (en) * | 2017-10-17 | 2019-04-25 | Handycontract, LLC | METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES |
US11250040B2 (en) * | 2017-10-19 | 2022-02-15 | Capital One Services, Llc | Systems and methods for extracting information from a text string generated in a distributed computing operation |
US11429642B2 (en) | 2017-11-01 | 2022-08-30 | Walmart Apollo, Llc | Systems and methods for dynamic hierarchical metadata storage and retrieval |
US10839018B2 (en) * | 2017-11-15 | 2020-11-17 | International Business Machines Corporation | Evaluation of plural expressions corresponding to input data |
US10910112B2 (en) | 2017-12-04 | 2021-02-02 | Koninklijke Philips N.V. | Apparatus for patient record identification |
US11061811B2 (en) * | 2017-12-15 | 2021-07-13 | International Business Machines Corporation | Optimizing software testing via group testing |
CN110019274B (zh) | 2017-12-29 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 一种数据库系统以及查询数据库的方法和装置 |
US10579707B2 (en) * | 2017-12-29 | 2020-03-03 | Konica Minolta Laboratory U.S.A., Inc. | Method for inferring blocks of text in electronic documents |
US10817542B2 (en) | 2018-02-28 | 2020-10-27 | Acronis International Gmbh | User clustering based on metadata analysis |
US10956610B2 (en) * | 2018-03-06 | 2021-03-23 | Micro Focus Llc | Cycle walking-based tokenization |
US10719375B2 (en) * | 2018-03-13 | 2020-07-21 | Servicenow, Inc. | Systems and method for event parsing |
US11182395B2 (en) * | 2018-05-15 | 2021-11-23 | International Business Machines Corporation | Similarity matching systems and methods for record linkage |
US11244013B2 (en) * | 2018-06-01 | 2022-02-08 | International Business Machines Corporation | Tracking the evolution of topic rankings from contextual data |
US11106675B2 (en) * | 2018-06-12 | 2021-08-31 | Atos Syntel Inc. | System and method for identifying optimal test cases for software development |
US11263202B2 (en) | 2018-11-30 | 2022-03-01 | Microsoft Technology Licensing, Llc | Scalable implementations of exact distinct counts and multiple exact distinct counts in distributed query processing systems |
US11321359B2 (en) * | 2019-02-20 | 2022-05-03 | Tamr, Inc. | Review and curation of record clustering changes at large scale |
US10740347B1 (en) * | 2019-03-04 | 2020-08-11 | Capital One Services, Llc | Methods and systems for determining sets and subsets of parametric data |
US10922337B2 (en) * | 2019-04-30 | 2021-02-16 | Amperity, Inc. | Clustering of data records with hierarchical cluster IDs |
US11003643B2 (en) * | 2019-04-30 | 2021-05-11 | Amperity, Inc. | Multi-level conflict-free entity clusterings |
US11586659B2 (en) * | 2019-05-03 | 2023-02-21 | Servicenow, Inc. | Clustering and dynamic re-clustering of similar textual documents |
US11651032B2 (en) | 2019-05-03 | 2023-05-16 | Servicenow, Inc. | Determining semantic content of textual clusters |
CN110162672B (zh) * | 2019-05-10 | 2021-07-27 | 上海赜睿信息科技有限公司 | 数据处理方法及装置、电子设备和可读存储介质 |
US11321771B1 (en) * | 2019-06-03 | 2022-05-03 | Intuit Inc. | System and method for detecting unseen overdraft transaction events |
US11042555B1 (en) * | 2019-06-28 | 2021-06-22 | Bottomline Technologies, Inc. | Two step algorithm for non-exact matching of large datasets |
WO2021079230A1 (ja) * | 2019-10-25 | 2021-04-29 | 株式会社半導体エネルギー研究所 | 文書検索システム |
EP4057585A4 (en) * | 2019-12-06 | 2022-12-28 | Huawei Cloud Computing Technologies Co., Ltd. | EDGE SYSTEM AND PROCEDURES FOR PROCESSING DATA OPERATION REQUESTS |
JP2021097353A (ja) * | 2019-12-18 | 2021-06-24 | キヤノン株式会社 | データ送信装置、データ送信装置の制御方法、及びプログラム |
CN111064796B (zh) * | 2019-12-19 | 2023-03-24 | 北京明略软件系统有限公司 | 伴随关系的分析方法及装置、分析模型的训练方法 |
US11405482B2 (en) * | 2020-02-15 | 2022-08-02 | Near Intelligence Holdings, Inc. | Method for linking identifiers to generate a unique entity identifier for deduplicating high-speed data streams in real time |
US11176137B2 (en) * | 2020-02-19 | 2021-11-16 | Bank Of America Corporation | Query processing platform for performing dynamic cluster compaction and expansion |
US11768824B2 (en) | 2020-03-31 | 2023-09-26 | Wipro Limited | Method and system for performing real-time data validation |
TWI722859B (zh) * | 2020-04-07 | 2021-03-21 | 中華誠信資產管理顧問股份有限公司 | 不動產估價比較案例篩選方法及其系統 |
US11442990B2 (en) | 2020-04-08 | 2022-09-13 | Liveramp, Inc. | Asserted relationship data structure |
EP4088217A4 (en) * | 2020-05-18 | 2023-09-06 | Google LLC | INFERENCE PROCESSES FOR SEGMENTATION INTO WORDS OR PARTS OF WORDS |
US11201737B1 (en) * | 2020-05-19 | 2021-12-14 | Acronis International Gmbh | Systems and methods for generating tokens using secure multiparty computation engines |
US20230230707A1 (en) * | 2020-06-10 | 2023-07-20 | Koninklijke Philips N.V. | Methods and systems for searching an ecg database |
WO2022006151A1 (en) * | 2020-06-29 | 2022-01-06 | 6Sense Insights, Inc. | Aggregation of noisy datasets into master firmographic database |
US11720601B2 (en) * | 2020-07-02 | 2023-08-08 | Sap Se | Active entity resolution model recommendation system |
US11615094B2 (en) | 2020-08-12 | 2023-03-28 | Hcl Technologies Limited | System and method for joining skewed datasets in a distributed computing environment |
EP4204979A4 (en) * | 2020-09-30 | 2024-10-02 | Liveramp Inc | SYSTEM AND METHOD FOR MATCHING IN A COMPLEX DATA SET |
US20220114624A1 (en) * | 2020-10-09 | 2022-04-14 | Adobe Inc. | Digital Content Text Processing and Review Techniques |
CN112990654B (zh) * | 2021-02-03 | 2021-11-02 | 北京大学 | 基于人口流动数据的城乡基础设施系统协同规划方法 |
US11783269B1 (en) | 2021-02-05 | 2023-10-10 | Palantir Technologies Inc. | Systems and methods for rule management |
EP4054145B1 (en) * | 2021-03-05 | 2024-01-10 | Cédric Iggiotti | Document-based access control system |
CN112948943B (zh) * | 2021-03-22 | 2022-11-18 | 西南交通大学 | 格栅式地下连续墙基础的OpenSees软件的前、后处理方法 |
CN113064870B (zh) * | 2021-03-22 | 2021-11-30 | 中国人民大学 | 一种基于压缩数据直接计算的大数据处理方法 |
KR20220134328A (ko) | 2021-03-26 | 2022-10-05 | 주식회사 팬스컴스 | 콘텐츠 저작권을 생성하는 사이니지 장치 |
US20220335075A1 (en) * | 2021-04-14 | 2022-10-20 | International Business Machines Corporation | Finding expressions in texts |
US20220342909A1 (en) * | 2021-04-22 | 2022-10-27 | Salesforce.Com, Inc. | Evaluating clustering in case of data stewardship actions |
US12020170B2 (en) * | 2021-05-24 | 2024-06-25 | Liveperson, Inc. | Systems and methods for intent discovery and process execution |
US11687559B1 (en) * | 2021-06-09 | 2023-06-27 | Morgan Stanley Services Group, Inc. | Computer systems and methods for reconciling data across data sources |
US20220414171A1 (en) * | 2021-06-28 | 2022-12-29 | Flipkart Internet Private Limited | System and method for generating a user query based on a target context aware token |
US11693821B2 (en) * | 2021-07-07 | 2023-07-04 | Collibra Belgium Bv | Systems and methods for performant data matching |
US11848824B2 (en) * | 2021-07-23 | 2023-12-19 | Vmware, Inc. | Distributed auto discovery service |
US20230034741A1 (en) * | 2021-07-28 | 2023-02-02 | Palo Alto Networks, Inc. | Token frequency based data matching |
US11630855B2 (en) * | 2021-08-04 | 2023-04-18 | Capital One Services, Llc | Variable density-based clustering on data streams |
US20230052619A1 (en) * | 2021-08-10 | 2023-02-16 | Intuit Inc. | Real-time error prevention during invoice creation |
US11841965B2 (en) * | 2021-08-12 | 2023-12-12 | EMC IP Holding Company LLC | Automatically assigning data protection policies using anonymized analytics |
US20240070321A1 (en) * | 2021-08-12 | 2024-02-29 | EMC IP Holding Company LLC | Automatically creating data protection roles using anonymized analytics |
US11841769B2 (en) * | 2021-08-12 | 2023-12-12 | EMC IP Holding Company LLC | Leveraging asset metadata for policy assignment |
US11704312B2 (en) * | 2021-08-19 | 2023-07-18 | Microsoft Technology Licensing, Llc | Conjunctive filtering with embedding models |
US11934468B2 (en) | 2021-09-16 | 2024-03-19 | Microsoft Tech nology Licensing, LLC | Content distribution control |
US11803569B2 (en) * | 2021-10-05 | 2023-10-31 | Procore Technologies, Inc. | Computer system and method for accessing user data that is distributed within a multi-zone computing platform |
AU2022396138A1 (en) * | 2021-11-24 | 2024-06-06 | Visa International Service Association | Method, system, and computer program product for community detection |
JP2023086507A (ja) * | 2021-12-10 | 2023-06-22 | キオクシア株式会社 | 情報処理装置および方法 |
US20230297623A1 (en) * | 2022-03-17 | 2023-09-21 | Yext, Inc. | Multi-record projection search platform |
USD1032628S1 (en) * | 2022-03-18 | 2024-06-25 | Ab Initio Technology Llc | Display panel portion with an animated computer icon |
US11983162B2 (en) | 2022-04-26 | 2024-05-14 | Truist Bank | Change management process for identifying potential regulatory violations for improved processing efficiency |
US20240121154A1 (en) * | 2022-09-30 | 2024-04-11 | Intuit Inc. | Modeling and managing affinity networks |
US12026140B1 (en) | 2023-02-21 | 2024-07-02 | Snowflake Inc. | Performance indexing of production databases |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02129756A (ja) | 1988-11-10 | 1990-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 単語照合装置 |
US5179643A (en) | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
US5388259A (en) | 1992-05-15 | 1995-02-07 | Bell Communications Research, Inc. | System for accessing a database with an iterated fuzzy query notified by retrieval response |
JPH0644309A (ja) | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
JPH0944518A (ja) | 1995-08-02 | 1997-02-14 | Adoin Kenkyusho:Kk | 画像データベースの構築方法と、画像データベースの検索方法及び検索装置 |
US5832182A (en) | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
JPH10275159A (ja) | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
JPH11184884A (ja) | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
US6581058B1 (en) | 1998-05-22 | 2003-06-17 | Microsoft Corporation | Scalable system for clustering of large databases having mixed data attributes |
US6285995B1 (en) * | 1998-06-22 | 2001-09-04 | U.S. Philips Corporation | Image retrieval system using a query image |
US6742003B2 (en) | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2000029899A (ja) | 1998-07-14 | 2000-01-28 | Hitachi Software Eng Co Ltd | 建物と地図とのマッチング方法および記録媒体 |
US6493709B1 (en) | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6658626B1 (en) | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US7356462B2 (en) | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6317707B1 (en) * | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6456995B1 (en) | 1998-12-31 | 2002-09-24 | International Business Machines Corporation | System, method and computer program products for ordering objects corresponding to database operations that are performed on a relational database upon completion of a transaction by an object-oriented transaction system |
AU780926B2 (en) | 1999-08-03 | 2005-04-28 | Bally Technologies, Inc. | Method and system for matching data sets |
AU1051101A (en) | 1999-10-27 | 2001-05-08 | Zapper Technologies Inc. | Context-driven information retrieval |
US7328211B2 (en) | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
DE10048478C2 (de) | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
US6931390B1 (en) | 2001-02-27 | 2005-08-16 | Oracle International Corporation | Method and mechanism for database partitioning |
JP3605052B2 (ja) | 2001-06-20 | 2004-12-22 | 本田技研工業株式会社 | あいまい検索機能を備える図面管理システム |
US20030033138A1 (en) | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US20030041047A1 (en) | 2001-08-09 | 2003-02-27 | International Business Machines Corporation | Concept-based system for representing and processing multimedia objects with arbitrary constraints |
US7043647B2 (en) * | 2001-09-28 | 2006-05-09 | Hewlett-Packard Development Company, L.P. | Intelligent power management for a rack of servers |
US7213025B2 (en) | 2001-10-16 | 2007-05-01 | Ncr Corporation | Partitioned database system |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
AU2003210795A1 (en) * | 2002-02-01 | 2003-09-02 | John Fairweather | System and method for analyzing data |
CA2475319A1 (en) | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
WO2003107321A1 (en) | 2002-06-12 | 2003-12-24 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US6961721B2 (en) * | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US20050226511A1 (en) * | 2002-08-26 | 2005-10-13 | Short Gordon K | Apparatus and method for organizing and presenting content |
US7043476B2 (en) | 2002-10-11 | 2006-05-09 | International Business Machines Corporation | Method and apparatus for data mining to discover associations and covariances associated with data |
US20040139072A1 (en) | 2003-01-13 | 2004-07-15 | Broder Andrei Z. | System and method for locating similar records in a database |
US7912842B1 (en) | 2003-02-04 | 2011-03-22 | Lexisnexis Risk Data Management Inc. | Method and system for processing and linking data records |
US7287019B2 (en) * | 2003-06-04 | 2007-10-23 | Microsoft Corporation | Duplicate data elimination system |
US20050120011A1 (en) | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
US7526464B2 (en) | 2003-11-28 | 2009-04-28 | Manyworlds, Inc. | Adaptive fuzzy network system and method |
US7283999B1 (en) | 2003-12-19 | 2007-10-16 | Ncr Corp. | Similarity string filtering |
US7472113B1 (en) * | 2004-01-26 | 2008-12-30 | Microsoft Corporation | Query preprocessing and pipelining |
GB0413743D0 (en) * | 2004-06-19 | 2004-07-21 | Ibm | Method and system for approximate string matching |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US7917480B2 (en) * | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US20080040342A1 (en) * | 2004-09-07 | 2008-02-14 | Hust Robert M | Data processing apparatus and methods |
US7523098B2 (en) | 2004-09-15 | 2009-04-21 | International Business Machines Corporation | Systems and methods for efficient data searching, storage and reduction |
US8725705B2 (en) | 2004-09-15 | 2014-05-13 | International Business Machines Corporation | Systems and methods for searching of storage data with reduced bandwidth requirements |
US8224830B2 (en) | 2005-03-19 | 2012-07-17 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
US9110985B2 (en) | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
JP2007012039A (ja) * | 2005-05-31 | 2007-01-18 | Itochu Techno-Science Corp | 検索システムおよびコンピュータプログラム |
US7584205B2 (en) | 2005-06-27 | 2009-09-01 | Ab Initio Technology Llc | Aggregating data with complex operations |
US7672833B2 (en) | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US7454449B2 (en) * | 2005-12-20 | 2008-11-18 | International Business Machines Corporation | Method for reorganizing a set of database partitions |
US20070162506A1 (en) * | 2006-01-12 | 2007-07-12 | International Business Machines Corporation | Method and system for performing a redistribute transparently in a multi-node system |
US7516279B2 (en) * | 2006-02-28 | 2009-04-07 | International Business Machines Corporation | Method using stream prefetching history to improve data prefetching performance. |
US20070244925A1 (en) | 2006-04-12 | 2007-10-18 | Jean-Francois Albouze | Intelligent image searching |
US7890533B2 (en) | 2006-05-17 | 2011-02-15 | Noblis, Inc. | Method and system for information extraction and modeling |
US7809769B2 (en) * | 2006-05-18 | 2010-10-05 | Google Inc. | Database partitioning by virtual partitions |
US8175875B1 (en) | 2006-05-19 | 2012-05-08 | Google Inc. | Efficient indexing of documents with similar content |
US7634464B2 (en) | 2006-06-14 | 2009-12-15 | Microsoft Corporation | Designing record matching queries utilizing examples |
US20080140653A1 (en) | 2006-12-08 | 2008-06-12 | Matzke Douglas J | Identifying Relationships Among Database Records |
US7630972B2 (en) | 2007-01-05 | 2009-12-08 | Yahoo! Inc. | Clustered search processing |
US7739247B2 (en) * | 2006-12-28 | 2010-06-15 | Ebay Inc. | Multi-pass data organization and automatic naming |
WO2008083504A1 (en) * | 2007-01-10 | 2008-07-17 | Nick Koudas | Method and system for information discovery and text analysis |
US8694472B2 (en) * | 2007-03-14 | 2014-04-08 | Ca, Inc. | System and method for rebuilding indices for partitioned databases |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
US8069129B2 (en) | 2007-04-10 | 2011-11-29 | Ab Initio Technology Llc | Editing and compiling business rules |
WO2008146456A1 (ja) | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
CN101079896B (zh) * | 2007-06-22 | 2010-05-19 | 西安交通大学 | 一种构建并行存储系统多可用性机制并存架构的方法 |
US7769778B2 (en) | 2007-06-29 | 2010-08-03 | United States Postal Service | Systems and methods for validating an address |
US7788276B2 (en) | 2007-08-22 | 2010-08-31 | Yahoo! Inc. | Predictive stemming for web search with statistical machine translation models |
US7925652B2 (en) | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8775441B2 (en) * | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8032546B2 (en) | 2008-02-15 | 2011-10-04 | Microsoft Corp. | Transformation-based framework for record matching |
US8266168B2 (en) * | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US7958125B2 (en) * | 2008-06-26 | 2011-06-07 | Microsoft Corporation | Clustering aggregator for RSS feeds |
US20120191973A1 (en) | 2008-09-10 | 2012-07-26 | National Ict Australia Limited | Online presence of users |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
CA3014839C (en) | 2008-10-23 | 2019-01-08 | Arlen Anderson | Fuzzy data operations |
CN101751400A (zh) * | 2008-12-09 | 2010-06-23 | 财团法人工业技术研究院 | 技术数据分析的系统与方法以及专利分析的系统 |
US20100169311A1 (en) | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
JP5173898B2 (ja) | 2009-03-11 | 2013-04-03 | キヤノン株式会社 | 画像処理方法、画像処理装置、及びプログラム |
US8161048B2 (en) | 2009-04-24 | 2012-04-17 | At&T Intellectual Property I, L.P. | Database analysis using clusters |
US20100274770A1 (en) | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
CN102067128A (zh) * | 2009-04-27 | 2011-05-18 | 松下电器产业株式会社 | 数据处理装置、数据处理方法、程序及集成电路 |
US8195626B1 (en) * | 2009-06-18 | 2012-06-05 | Amazon Technologies, Inc. | Compressing token-based files for transfer and reconstruction |
US8285681B2 (en) * | 2009-06-30 | 2012-10-09 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
CN101727502A (zh) * | 2010-01-25 | 2010-06-09 | 中兴通讯股份有限公司 | 一种数据查询方法及装置、系统 |
US8375061B2 (en) | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8346772B2 (en) * | 2010-09-16 | 2013-01-01 | International Business Machines Corporation | Systems and methods for interactive clustering |
US8463742B1 (en) * | 2010-09-17 | 2013-06-11 | Permabit Technology Corp. | Managing deduplication of stored data |
US8606771B2 (en) | 2010-12-21 | 2013-12-10 | Microsoft Corporation | Efficient indexing of error tolerant set containment |
US9535954B2 (en) | 2011-02-02 | 2017-01-03 | Nec Corporation | Join processing device, data management device, and string similarity join system |
US8612386B2 (en) | 2011-02-11 | 2013-12-17 | Alcatel Lucent | Method and apparatus for peer-to-peer database synchronization in dynamic networks |
WO2013074770A1 (en) * | 2011-11-15 | 2013-05-23 | Ab Initio Technology Llc | Data clustering, segmentation, and parallelization |
-
2012
- 2012-11-15 WO PCT/US2012/065249 patent/WO2013074770A1/en active Application Filing
- 2012-11-15 EP EP19190154.5A patent/EP3591538B1/en active Active
- 2012-11-15 WO PCT/US2012/065265 patent/WO2013074781A1/en active Application Filing
- 2012-11-15 CA CA2855710A patent/CA2855710C/en active Active
- 2012-11-15 KR KR1020147016338A patent/KR102029514B1/ko active IP Right Grant
- 2012-11-15 CN CN201280067076.5A patent/CN104054073B/zh active Active
- 2012-11-15 CN CN201280067136.3A patent/CN104054074B/zh active Active
- 2012-11-15 AU AU2012340418A patent/AU2012340418C1/en active Active
- 2012-11-15 KR KR1020147016343A patent/KR102031392B1/ko active IP Right Grant
- 2012-11-15 AU AU2012340423A patent/AU2012340423B2/en active Active
- 2012-11-15 CA CA3098038A patent/CA3098038C/en active Active
- 2012-11-15 US US13/678,038 patent/US9037589B2/en active Active
- 2012-11-15 CA CA2855701A patent/CA2855701C/en active Active
- 2012-11-15 JP JP2014541427A patent/JP6113740B2/ja active Active
- 2012-11-15 EP EP21158660.7A patent/EP3855321A1/en active Pending
- 2012-11-15 EP EP18193199.9A patent/EP3432169B1/en active Active
- 2012-11-15 US US13/677,991 patent/US10503755B2/en active Active
- 2012-11-15 JP JP2014542461A patent/JP6125520B2/ja active Active
- 2012-11-15 EP EP12795221.6A patent/EP2780836A1/en not_active Ceased
- 2012-11-15 JP JP2014541426A patent/JP6190817B2/ja active Active
- 2012-11-15 KR KR1020147016331A patent/KR102048597B1/ko active IP Right Grant
- 2012-11-15 AU AU2012340429A patent/AU2012340429B2/en active Active
- 2012-11-15 WO PCT/US2012/065255 patent/WO2013074774A1/en active Application Filing
- 2012-11-15 CA CA2855715A patent/CA2855715C/en active Active
- 2012-11-15 CN CN201810151609.7A patent/CN108388632B/zh active Active
- 2012-11-15 EP EP12791931.4A patent/EP2780833A1/en not_active Ceased
- 2012-11-15 EP EP12795220.8A patent/EP2780835B1/en active Active
- 2012-11-15 US US13/678,078 patent/US9361355B2/en active Active
- 2012-11-15 CN CN201280067094.3A patent/CN104040544B/zh active Active
-
2015
- 2015-02-10 HK HK15101462.0A patent/HK1200942A1/xx unknown
- 2015-02-10 HK HK15101463.9A patent/HK1200943A1/xx unknown
- 2015-02-10 HK HK19101853.3A patent/HK1259448A1/zh unknown
- 2015-02-11 HK HK15101522.8A patent/HK1201096A1/xx unknown
-
2016
- 2016-06-02 US US15/171,168 patent/US10572511B2/en active Active
-
2019
- 2019-11-07 US US16/676,704 patent/US20200320102A1/en not_active Abandoned
-
2020
- 2020-02-03 US US16/779,743 patent/US20200356579A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232200B2 (en) * | 2020-06-26 | 2022-01-25 | Estsecurity Corp. | Apparatus for selecting representative token from detection names of multiple vaccines, method therefor, and computer readable recording medium storing program for performing the method |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6113740B2 (ja) | 変数トークンネットワークに基づくデータクラスタ化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160801 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20161031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6113740 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |