JP2014533408A - データクラスタ化、データセグメント化、及びデータ並列化 - Google Patents
データクラスタ化、データセグメント化、及びデータ並列化 Download PDFInfo
- Publication number
- JP2014533408A JP2014533408A JP2014541426A JP2014541426A JP2014533408A JP 2014533408 A JP2014533408 A JP 2014533408A JP 2014541426 A JP2014541426 A JP 2014541426A JP 2014541426 A JP2014541426 A JP 2014541426A JP 2014533408 A JP2014533408 A JP 2014533408A
- Authority
- JP
- Japan
- Prior art keywords
- record
- records
- data
- cluster
- processing entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title description 30
- 238000000034 method Methods 0.000 claims abstract description 238
- 238000012545 processing Methods 0.000 claims abstract description 203
- 230000008569 process Effects 0.000 claims description 115
- 230000008859 change Effects 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 22
- 238000013500 data storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 32
- 238000005192 partition Methods 0.000 description 30
- 238000012217 deletion Methods 0.000 description 29
- 230000037430 deletion Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 238000012795 verification Methods 0.000 description 14
- 238000013459 approach Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 230000008901 benefit Effects 0.000 description 11
- 238000006467 substitution reaction Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 238000003780 insertion Methods 0.000 description 9
- 230000037431 insertion Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 8
- 230000009471 action Effects 0.000 description 7
- 238000009826 distribution Methods 0.000 description 7
- 238000003012 network analysis Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 238000011524 similarity measure Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 239000002184 metal Substances 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 101100456896 Drosophila melanogaster metl gene Proteins 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011842 forensic investigation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
- G06F16/278—Data partitioning, e.g. horizontal or vertical partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本出願は、参照によりそれぞれ本明細書に組み込まれている、2011年11月15日に出願した米国特許出願第61/560,257号、及び2012年6月15日に出願した米国特許出願第61/660,259号の優先権を主張するものである。
1.1 検索ベースのクラスタプロセス概略
図1Aを参照すると、データ処理システム10が、データソース100からのデータをクラスタ化するのに使用される。一部の実施例において、データ処理システム10によって実行されるクラスタ化プロセスが、場合により、無効な値を含め、それぞれのフィールド(「属性」又は「カラム」とも呼ばれる)に関する値を有するレコードとして編成されたデータ内で出現するトークンを解析する。トークンは、フィールド又はフィールドの組み合わせの中の少なくとも1つの値、又は値の少なくとも1つの断片である。ユーザ102が、ユーザインターフェース104を使用して、データソース100、及びデータソース100の変数関係のネットワークにおける選択されたフィールド(又はフィールドの組み合わせ)における値、トークン、並びに値及びトークンの変数のコレクションに関して、場合により、表とグラフの両方として、レポートを受信すること、変数トークン、類似した句(すなわち、マルチトークン単位)、及び類似したレコードを識別し、トークン、句、又はレコードのあいまいな照合又は偽陽性の照合を見つけ出して、解決し、さらにクラスタメンバシップ判定を行って、各レコードを1又は2以上のクラスタに割り当てるビジネス規則を作成し、保持すること、並びに変数ネットワーク接続及びクラスタメンバシップ判定を点検し、変更し、承認することを含む、クラスタ化プロセスの様々な態様を監視して、制御する。
図1Cは、クラスタ化エンジン130の実施例の要素を図示する。一部の実施例において、データソースレコード100又はトークン化されたレコード118が、セグメント化エンジン132によって読み取られて、セグメントに分離され、及び/又は並列パーティショナ134によって並列処理のために複数のプロセスの間に分割される。
図1Dは、候補検索エンジン140の実施例の要素の概略を示す。クエリレコードが、データソースレコード100P又はトークン化されたレコード118Pのセットから読み取られる。このクエリレコードは、オリジナルレコード又はトークン化されたレコードが、並列に処理されるようにセグメント化され、及び/又は分割されている場合、セグメントの中に、及び/又は並列パーティションの中に入っていることが可能である。クエリは、クエリレコードの1若しくは2以上のフィールド、又はフィールドの組み合わせから1若しくは2以上のトークンを選択する事前定義された、又はユーザによって指定された手順に基づき、クエリ構築手順142によって、選択されたトークン、又は選択されたトークンの組み合わせから生成される。一部の実施例において、生成されたクエリは、クエリ展開エンジン143によって、1又は2以上の特定のクエリを含む展開されたクエリに展開される。
図1Eは、変数プロファイラ110の実施例の要素の概略を示す。変数プロファイラ110は、参照により本明細書に組み込まれている、「Managing an Archive for Approximate String Matching」という名称の米国特許出願公開第2009/0182728号明細書において説明されるようなアーカイブを生成するためのプロセスを含む、変数トークンのペアリングを識別するアーカイブを生成するための様々な技法のいずれかを使用することが可能である。レコードが、データソース100から読み取られる。それらのレコードが、スタンダダイザ112及びトークナイザ113によって処理されることを含め、データ準備モジュール111におけるプロファイリングのために準備される。スタンダダイザ112が、選択されたフィールド(又はフィールドの指定された組み合わせ)の性質及び意味に基づいて、入ってくるデータを標準化するように事前定義された規則及び/又はユーザによって指定された規則を適用する。例えば、ストリング値が、小文字に変換されることが可能であり、特定の句読文字が、削除される、スペース文字で置換される、又は削除されることと、スペース文字で置換されることの両方が行われる(場合により、複数のレコードをもたらして)ことが可能である。トークナイザ113が、フィールドの性質及び意義に応じて、フィールドの中の値に適用される事前定義された規則及び/又はユーザによって指定された規則に基づいて、トークンのリストを識別する。例えば、アドレスのストリートの行が、スペース文字で分割されて、語のリストになることが可能である一方で、場合により、「New York」のような意味単位を表す値を包含する都市フィールドは、語に分割されない。トークナイザ113が、クラスタ化エンジン130によるさらなる処理のためにトークン化されたレコード118のデータセット又はデータストリームを生成する。
図1Fは、変数ネットワークアナライザ120の実施例の要素の概略を示す。変数ネットワーク116が読み取られ、ネットワーク解析エンジン122がネットワーク解析を行う。一部の実施例において、このネットワーク解析は、変数ネットワーク116内の変数トークンの接続された構成要素のセットを識別し、後段でいくつかが説明されるさらなる解析を実行することが可能である。ユーザ102が、各トークンがノードとして表示され、トークンの各変数ペアリングがエッジによって示される変数ネットワーク116のグラフ表示を、ユーザインターフェース104において閲覧することが可能である。このグラフ表示は、後段で列挙される例における情報などの、ノード及びエッジを特徴付ける情報で飾られることが可能である。ユーザ102は、ユーザインターフェース104を使用して、ノード若しくはエッジを追加して、若しくは削除して、又は飾られた情報を編集して、変数ネットワーク116を繰り返し変更することができる。
多様度=<nk>=Σk in variantsnkpk=Σk in variantsnk 2/N、
ただし、
N=Σk in variantsnk
は、変数の合計カウントであり、さらに
pk=nk/N
は、ランダムに選択された出現が第k番の変数に関連付けられる確率である。示される多様度を正規化するのに、Σk in variantsnkで割って、0〜1までの範囲内の量を得る。この多様度は、トークンの相互関係が低い多様度を暗示するため、互いに関係するトークンの間の結び付きを識別するために役立ち得る。このことは、陽性のトークンを識別するのに使用される測定と類似するが、異なる測定を与える。
図1Gは、クラスタ承認エンジン190の実施例の要素の概略を示す。クラスタメンバシップ判定が、ユーザインターフェース104を使用してユーザ102によって点検されることが可能である。1つのレコードが、メンバであり得るように2つ以上のクラスタに十分に近い、あいまいなクラスタメンバシップ判定が、クラスタ化エンジン130によって合図され、ユーザ102によって解決されることが可能である。エンジン190の図示される要素は、ユーザ入力によって開始され得るアクションに対応する。
2.1 変数プロファイラ及び削除−結合手順
変数プロファイラ110が、変数のペアを識別し、それらのペアの類似性を測定し、さらに変数トークンのペア、及びそれらのペアの類似性スコアを変数プロファイラストア126の中に格納する。一部の実施例において、変数プロファイラ110が、トークンのすべてのペアの間の編集距離を計算し、編集距離(「類似性スコア」)が所定の閾値を下回るトークンのペアを格納する。レーベンシュタイン編集距離が、1つのトークンを別のトークンに変えるのに要求される最低限の数の挿入、削除、及び/又は代入をカウントし、タイプ入力上の類似性の広く使用されている測度である。残念ながら、トークンのすべてのペアを比較するアプローチは、大多数のトークンペアは、類似性を全く有さず、したがって、多量の計算労力がほとんど利益なしに費やされるため、非効率である。
変数−検索動作が、候補検索エンジン140の一部の実施例の動作の基礎をなす。図2A〜図2Dは、変数−検索動作の例を示す。図2Aを参照すると、生のクエリ200が処理のために読み取られる。この例において、生のクエリ200は、値「82536」を有する、政府idなどの数値フィールドである。要件は、データセット220の中で政府idと照合する変数を見出すことであり、政府idは、最大で1つの代入だけ生のクエリと異なる。このことは、照合する2つの政府idが1以下のハミング距離を有することを要求するのと均等である。ハミング距離は、等しい長さの整列された2つの文字シーケンス(ときとして、長さの差を足すことによって、等しくない長さの整列されたシーケンスにまで拡張される)の間の照合しない文字の数をカウントする。
2.3.1 変数近隣
変数近隣は、同義語、省略形、文化的変数などの、外部データ106によって指定される変数ペアリングを場合により、含む、変数ペアリング(変数関係とも呼ばれる)のシーケンスによって関係するトークンのセットである。1つの実施例において、変数プロファイラ110が、多くとも1つの挿入及び1つの削除だけ異なるタイプ入力上の変数を検出し、識別するように削除−結合手順を使用してクラスタ化されるようにデータソース100をプロファイリングする。このことは、単一の挿入、単一の削除、及び単一の代入、並びに入れ換え及び離隔した挿入/削除を範囲に含む(例えば、「hello」と「hllio」は、削除−結合1変数である)。変数プロファイラストア115の中で、すべてのトークンは、より多くのレコードが処理されるにつれてオンラインで更新され得る1又は2以上の変数の関連付けられるリストを有する。しかし、すべての変数は、その変数自らの変数を有するトークンでもある。削除−結合手順、又は他の類似性測定によって形成された変数ペアリングのシーケンスを追うことによって得られるトークンのセットが、近隣を規定する。このセットの閉包は、閉包近隣と呼ばれ、トークンがノードであり、変数ペアリングがエッジであるグラフの変数ネットワークにおける接続された構成要素を形成する。類似性変数ペアを、外部データ106又はユーザによって供給された入力、例えば、同義語、代替のつづり、文化的変数などから得られる変数トークンペアで補足することが、関係するトークンのより大きい近隣につながる。
トークン代表は、接続された近隣の選択されたトークンである。一部の実施例において、近隣におけるすべてのトークンが、その近隣を代表するトークンによって置き換えられることが可能である。このことは、トークン代表の検索が、その近隣における任意の変数に関連付けられるすべてのレコードを返すという効果を有する。このことは、変数を対象に繰り返される変数検索中の作業負荷を低減するので、望ましい。単純な変数検索は、各トークンを検索し、その後、そのトークンの変数それぞれを検索することである。変数を対象とした繰り返しは、トークンに遭遇するたびに行われる必要がある。近隣におけるすべての変数トークンがトークン代表で置き換えられた場合、変数トークンのいずれかに遭遇するたびに、すべての変数照合を返すのにトークン代表を1回、探すだけで十分である。
図1Bの例において、データソース100から、又はトークン化されたレコード118から読み取られたデータレコードが、処理のためにクラスタ化エンジン130に供給される。一部の実施例において、データレコードは、セグメント化エンジン132に送信されることが可能である。セグメント化エンジンが、セグメント値と呼ばれる値に基づいて、データレコードにセグメント識別子を割り当てる。次に、レコードが、それらのセグメント識別子に基づいて並列パーティショナ134によって分割されて、様々な受信側処理エンティティに送信されることが可能であり、ただし、同一のセグメント識別子を有するすべてのレコードは、同一の処理エンティティに送信される。処理エンティティは、例えば、CPU(例えば、マルチコアプロセッサにおけるコア)若しくはコンピュータなど処理ノード、又はCPU上で実行される計算プロセス若しくは計算スレッドを含むことが可能である。
データソースの互いに素なセグメント化が存在しない状態での並列化が、データソース100をレプリケートすること、及び任意の2つの変数ペアレコードが少なくとも1つのセグメント値を共有しなければならないことを確実にするセグメント化の適切な選択を使用することによって実現され得る。セグメント値は、フィールド値又はフィールド値の組み合わせの1又は2以上の断片から構成され得る。セグメント値のセットは、少なくとも1つのセグメント値が、2つのレコードの間の許されるすべての変数に関して2つのレコードによって共有される場合、網羅的であると言われる。図4で、網羅的なレプリケートされたセグメント化のプロセスが図示される。データソース400が読み取られ、すべてのデータレコード401に一意のレコードキーが、そのようなレコードキーが既に存在するのでない場合、割り当てられる。すべてのデータレコードが、十分な回数、レプリケートされて、網羅的なセットのセグメント値からの各セグメント値が、1つのレプリカントデータレコードに割り当てられる(402)。(レプリケートされるレコードの数は、各レコードの中のデータに依存することが可能である。)もたらされたデータレコードが、レプリカントに関連付けられるセグメント値で分割される(404)。レプリカントの結び付けられたペアのセットに関して各処理エンティティにおいて代理クラスタキーが生成される(406)。構造上、許容可能なすべての変数は、セグメントキーが網羅的であるため、何らかのセグメントキーのパーティションの中で検出されることになる。クラスタキーのスーパーセットは、複数照合調整手順の後に、各クラスタに関する一意のcluster_keyに解決される(408)。
代替キー生成は、生成された値を、1又は2以上のフィールドから構成される自然キーの値とペアにすることである。自然キーそれぞれの個別の値は、一意の代替キー値を有する。代替キーを生成するための一方法は、ときとして、キー相互参照ファイル(略して、キーxrefストア)と呼ばれる代替キー/自然キーペアのストアを保持することである。それぞれの新たなデータレコードが処理されるにつれ、自然キー値がこのストアの中で探され、自然キー値が見つかった場合、代替キーが返され、自然キー値が見つからなかった場合、新たな代替キーが生成される。キーxrefストアは、現在の実行において生成された代替キーのレコードを保持するようにメモリの中で部分的に作成されることが可能であり、以前に生成された値を保持するようにディスク上に部分的に着地させられ(さらに処理の開始時にメモリに読み込まれる)ことが可能である。キーが生成された後、新たに生成された代替キーを含むキーペアが、着地させられたキーxrefストアに追加される。ときとして、生成された最大の代替キー値は、便宜上、別に格納されて、次の実行時に、前に生成された最高のキーが、重複なしにさらなるキーを生成するための開始点として利用可能であるようにする。
セグメント化(及び並列化)の後、一部の実施例において、データソース100、又はトークン化されたデータレコードのセット118Pからのレコードが、採点フィールド重複排除エンジン144に送られる。一部の実施例において、前述したとおり、クラスタメンバシップを判定する採点の際に使用されるフィールド、いわゆる採点フィールドが、ランタイムに特定されることが可能である。採点フィールド重複排除エンジン144が、採点フィールド上で同一の値を有するレコードのセットから1つのレコードを選択して、クラスタ化プロセスを続け、もたらされるクラスタidが、そのセットの中のその他のレコードの間で共有されるようにする。これらのレコードは、クラスタメンバシップ判定プロセスの見地から同一であるので、これらのレコードのすべてに関して同一のクラスタ化判定に必然的に到達しなければならない。
2.6.1 2つのモード
データセットの中のレコードのすべてが一緒に処理されるか、又はレコードが、到着するにつれ、それまでにクラスタ化されたレコードに照らして処理されるかに依存して、検索ベースのクラスタ化プロセスのわずかに異なる2つのアプローチが可能である。そのようなレコードのすべてが一緒に処理されることは、バッチモードを説明するのに対して、レコードが、到着するにつれてそのように処理されることは、オンラインモードとして使用され得るインクリメンタルモードであるが、データのすべてが最初から利用可能である場合に適用されることも可能である。この2つのモードの間の1つの違いは、バッチモードでクラスタ化エンジンによって使用される、変数プロファイラストア115、変数ネットワークストア126及び検索ストア146を含む様々なストアが、前処理ステップ中に計算されるのに対して、インクリメンタルモードでは、一部のストアは、データが到着するにつれインクリメンタルで入力され得ることである。詳細には、1つのインクリメンタルモードアプローチは、データの完全なセットで変数プロファイラストア115及び変数ネットワークストア126を事前計算することである一方で、検索ストア146は、インクリメンタルで入力される。インクリメンタルモードで、クラスタ化結果は、レコードが処理される順序に依存することが可能である。
インクリメンタルクラスタ化プロセスにおいて、クエリレコードと呼ばれる、入ってくるレコードが、既存のクラスタの中のレコードと比較されて、そのクエリレコードがいずれのクラスタに属すべきかが判定されることが可能である。直接のアプローチにおいて、各クエリレコードが、最も近い照合を見つけ出すようにそれまでのすべてのレコードと比較されることが可能である。近い照合が全く存在しない場合、クエリレコードは、新たなクラスタの最初のメンバであり、存在する場合、クエリレコードは、そのクエリレコードが最も近く照合したレコードを包含するクラスタに追加される。このことは、単純明快であるが、潜在的に計算リソースを大量に使用する。ほとんどの比較は、否定的な結論(「このクラスタではない」)をもたらし、最悪ケースは、そのクエリレコードが新たなクラスタのメンバである場合である。このアプローチは、各クラスタから代表的なメンバを選択し、そのクエリレコードをクラスタ代表と比較することによって改良され得る。このことは、レコードの変数類似性が少なくとも部分的に推移的であるという所見を活用し、つまり、クエリレコードがクラスタ代表と十分に類似していない場合、そのクエリレコードは、クラスタの他のいずれのメンバとも十分に類似している可能性は低い(それらのメンバはすべて、そのクラスタ代表と類似しているので)。
検索ストア330Gは、検索エントリ334Gをペアリングキー333Gで重複排除すること、及びロケーションキー335Gを、特定の検索キー333Gを有するデータレコードに関するすべてのロケーションキーを保持するロケーション情報にロールアップすることによって改良され得る。一部の実施例において、このロケーション情報は、関連付けられるレコードの数が少ない場合、キーの単純なベクトルであることも可能である。他の実施例において、このロケーション情報は、各ビットセットが、データセット320Gの中のデータレコードを明示的に、又は暗黙に示す、ビットベクトルであることが可能である。ビットベクトルは、圧縮されてもよい。
クエリ構築手順142において、データソース100から、又はトークン化されたレコード118から読み取られたレコードの中の1若しくは2以上のフィールド又はランタイムパラメータの断片又は全体から選ばれたコンテンツから生のクエリを構築する、場合により、クエリ構築規則セットが関与するクエリ構築式をユーザが与える。生のクエリは、いくつかがベクトルであり得る、1又は2以上のクエリフィールドの値からなることが可能である。例えば、ユーザが、個人名をクエリとして使用することを所望することが可能であり、ファーストネームフィールド、ミドルネームフィールド、及びラストネームフィールドのコンテンツを、各フィールド値の間のスペースで、又はカンマとスペースで連結することによって、そのクエリを構築する規則を指定する。1又は2以上のネームフィールドが無効である、又は入力されていない場合、その名前の構築を指定するさらなる割り当て(「大文字小文字」)が与えられることが可能である。代替として、場合により、ファーストネームとミドルネームの頭文字だけが保たれ、ラストネームと連結される。生のクエリは、複数の部分から形成された構造化されたレコードであることが可能であり、例えば、個人名に関する生のクエリは、別々のファーストネームクエリフィールド、ミドルネームクエリフィールド、及びラストネームクエリフィールドからなることも可能である。単一のfull_nameフィールドだけがデータレコード上に存在する場合、ユーザクエリ構築式は、生のクエリの構成フィールドを入力するのにそのfull_name値をどのように構文解析すべきかを指定することが可能である。クエリ構築式は、クエリレコードの中のデータを特徴付ける1又は2以上のデータパターンコード、例えば、生のクエリの他の要素を構築するのに使用される各フィールドの入力の状態(例えば、入力されている、空白、又は無効)を示す入力パターンコードを入力することが可能である。
生のクエリが、クエリ展開エンジン143によって処理されて、展開されたクエリが生成されることが可能である。一部の実施例において、変数プロファイラ110のデータ準備モジュール111におけるトークナイザ113のようなトークナイザが、クエリ展開中に生のクエリの要素に適用されて、クエリが、クエリ語句と呼ばれるトークンに分割されることが可能である。
クエリデータレコードと、既存のデータクラスタの中のデータレコード(インクリメンタルモードにおいて)又はデータソースにおける他のデータレコード(バッチモードにおいて)の間の類似性の測度が、採点エンジン150によって計算されるスコアとして表されることが可能である。採点エンジン150は、1若しくは2以上のフィールドの、又はフィールドの組み合わせの、例えば、名前及び/又はアドレスを個々に、又は共同で構成するフィールドのコンテンツ全体又は部分的コンテンツを比較することによって、2つのレコードを比較することが可能である。これらのコンテンツは、これらのコンテンツがレコードのフィールドの値から導き出されるので、「フィールド−値」と呼ばれることが可能である。
クラスタ化プロセス全体が、クラスタメンバシップ判定において一体となる。図9が、クラスタメンバシップを判定するためのプロセスの実施例の概略を示す。データソース100が読み取られる。生のクエリが形成され展開される前に、レコードはセグメント化され並列に分割される(図示せず)(910)。一部の実施例において、前述したクエリ構築手順及びクエリ展開手順は、変数プロファイラストア115及び変数ネットワークストア126から読み取る。一部の実施例において、クエリレコードは、より区別しやすいレコードを先に置くように識別性の基準136で並べ替えられることが可能である。生の候補レコードが、検索ストア146にアクセスすることによって、前述した候補検索エンジンを使用して見出される(920)。事前定義された条件、又はユーザによって指定された条件が関与する候補選択手順930が、それらの生の候補レコードに適用されて、候補レコードのセットがもたらされる。
クラスタ化プロセスは、バッチモードにおいて、インクリメンタルモードにおけるのとは多少異なったように進められる。図11A〜図11Dは、このクラスタ化プロセスを図示する。図11Aで、このクラスタ化プロセスの高レベルの概略が与えられる。変数プロファイラストア115及び変数ネットワークストア126が、検索−エントリ展開手順を介して読み取られ、処理されて、検索ストア146の中に検索−エントリ145が入力されることが可能である。このことは、前処理ステップとして行われる。データソース100が読み取られる。生のクエリが、一部の実施例において、変数プロファイラストア115及び変数ネットワークストア126の中のデータを使用して、各レコードに関して生成され、展開される(1110)。展開されたクエリは、クラスタメンバシップ基準を満足させない可能性があるレコードを除外するようにクラスタメンバシップ基準を近似するように作成されることが可能である。展開されたクエリは、検索ストア146から生の候補レコードを取り出す候補検索エンジン1120に送られることが可能である。生の候補レコードが、候補セレクタ1130によってフィルタリングされて、プロクシ照合基準を満たす候補レコードが選択されることが可能である。一部の実施例において、プロクシ照合基準は、各レコードに関して行われた複数の検索の結果を符号化する、検索コードを使用して部分的に実現され得る。プロクシ照合基準を満たすすべての候補レコードが、クエリレコードに照らして詳細な採点を受けることが可能であり(1140)、もたらされるスコアが、変数−ペアスコアストアの中に保存されることが可能である(1150)。
候補レコードが、クラスタidが検索結果によって参照されて出現する、異なるクエリの数に基づいてランク付けされることが可能である。例えば、クラスタ1が、3つのクエリに関する検索結果によって参照されることが可能であり、クラスタ10が、2つのクエリに関する検索結果によって参照されることが可能であり、クラスタ15が、4つのクエリに関する検索結果によって参照されることが可能であるといった具合である。一部の実施例において、候補レコードには、それらの候補レコードを参照する検索結果を生成したトークン−ペアクエリ語句の数対トークン−ペアクエリ語句の数の比に基づくスコアが与えられる。このスコアは、以下の式を使用して算出され得る。すなわち、
scorecandidate=QueryPairscandidate/QueryPairs
ただし、scorecandidateは、クラスタのスコアである。QueryPairscandidateは、そのクラスタを識別する検索結果を含むクエリの数である。さらに、QueryPairsは、検索ストアの中の展開されたクエリから探し出されたトークン−ペアクエリ語句の数である。
一部の実施例において、あまりにも多くの別々のレコードを参照する検索結果が、十分に区別する役割をしないとして破棄されることが可能である。例えば、トークン−ペアクエリ語句によって返されるレコードの最大数に関する閾値が100であることが可能であり、このことが、トークン−ペアクエリ語句が役に立たなかった場合、時間を浪費せずに適当な数の個々のレコードが採点されることを可能にする。クラスタメンバシップは、通常、2つ以上のフィールド類似性スコアによって判定される。トークン−ペアクエリ語句が、大量のクラスタを返す場合、このことは、候補のセットにわたって、トークン−ペアクエリ語句が大きく変わらない一方で、他の何らかの値が大きく変わることを意味する可能性がある。取り出されたレコードの数が閾値に達した後、トークン−ペアクエリ語句は、他の区別に役立つ情報が効果的であるほどには効果的でない可能性があるため、ドロップされることも可能である。
図12で、複数照合調整ステップ手順が図示される。クラスタがベクトル化された形態で保持される場合、つまり、複数クラスタメンバが、単一のレコードの中で一緒に保持される場合、それらのクラスタメンバが、個々のレコードに正規化される(1200)。これらのレコードが、一意のレコードキーで分割される(1202)。このことが、それぞれのオリジナルデータレコードのすべてのレプリカントが同一のパーティションの中に入っていることを確実にする。それらのデータレコードが、レコードキーでロールアップされて、レコードに関連付けられる別々のクラスタキーのベクトルが得られる(1204)。1つのクラスタキー、例えば、最小のクラスタキーが、選好されるものとして選択される。次に、このベクトルが、選好される(この場合は、最小の)クラスタキーを他それぞれの別個のクラスタキーとペアにする、クラスタキーペアに正規化される(1206)。次に、推移閉包が、すべてのクラスタキーペアのセットに適用される。このことは、接続されたクラスタキーペアの各ネットワークに対する、つまり、各クラスタに対する1つのクラスタキーの割り当てをもたらし(1208)、次に、このクラスタキーが、各一意のデータレコードに割り当てられる(1210)。
一部の実施例において、マスタレコードが、クラスタ化の後に行われるクラスタ承認プロセスの一環として、クラスタのメンバの中からユーザによって指定されることが可能である。クラスタは、2つ以上のマスタレコードを有し得る。同一のクラスタidを有する複数のマスタレコードが、クラスタシーケンス番号で区別される。
孤立した遠隔クラスタ化システム、詳細には、データを全くエクスポートしない遠隔クラスタ化システムにおいて保持されるデータクラスタに照らしてレコードをクラスタ化することが、インクリメンタルモードにおけるクラスタメンバシップ手順の変更によって扱われることが可能である。必須の要件は、クエリに加えて、起点システム上のクラスタ化プロセス中に見出されたいくらかのさらなるデータが、遠隔クラスタ化システムに送られなければならないことである。このさらなるデータは、起点システム上の変数の範囲を代表する、トークンのレベルと候補レコードの両方のレベルで変数である。これらの変数が、遠隔システム上で包括的検索及びクラスタ照合を行うことを要求される。
前述したクラスタ化技法、セグメント化技法、及び並列化技法は、コンピュータ上で実行されるソフトウェアを使用して実施され得る。例えば、このソフトウェアが、少なくとも1つのプロセッサと、少なくとも1つのデータストレージシステム(揮発性メモリ及び不揮発性メモリ、及び/又は記憶素子を含む)と、少なくとも1つの入力デバイス又は入力ポートと、少なくとも1つの出力デバイス又は出力ポートとをそれぞれが含む、1又は2以上のプログラミングされた、又はプログラマブルなコンピュータシステム(分散型、クライアント/サーバ型、又はグリッド型などの様々なアーキテクチャのものであり得る)上で実行される1又は2以上のコンピュータプログラムにおける手順を形成する。このソフトウェアは、例えば、データフローグラフのデザイン及び構成と関係する他のサービスを提供するより大きいプログラムの1又は2以上のモジュールを形成することが可能である。そのグラフのノード及び要素は、コンピュータ可読媒体の中に格納されたデータ構造として、又はデータリポジトリの中に格納されたデータモデルに準拠する他の編成されたデータとして実装され得る。
Claims (40)
- 第1処理エンティティによって第1オリジナルレコードセットを処理して、前記オリジナルレコードと該オリジナルレコードそれぞれの1又は2以上のコピーとを含む第2レコードセットを生成することであって、それぞれのオリジナルレコードが1又は2以上のフィールドを含み、前記オリジナルレコードの少なくともいくつかの各レコードを処理することが、
前記オリジナルレコードの少なくとも1つのコピーを生成すること、及び
前記オリジナルレコードに第1セグメント値を関連付けるとともに、前記コピーに第2セグメント値を関連付け、前記第1セグメント値が、前記オリジナルレコードそれぞれのフィールドの1又は2以上のデータ値の第1ポーションに対応し、前記第2セグメント値が、前記第1ポーションとは異なる前記オリジナルレコードの前記それぞれのフィールドの1又は2以上のデータ値の第2ポーションに対応することを含み、
前記第2セットの中の前記レコードに関連付けられる前記セグメント値に基づいて、複数の受信側処理エンティティの間で前記第2レコードセットを分割し、各受信側処理エンティティにおいて、前記受信側処理エンティティにおいて受信した前記レコードの1又は2以上のデータ値に基づいて結果を生成する操作を実行することを含む方法。 - 第1セグメント値が、第1データ値の中の文字の第1位置セットから取り出した第1フィールドの前記第1データ値からの第1シーケンスの文字に対応し、第2セグメント値が、前記第1データ値の中の前記文字の第2位置セットから取り出した前記第1データ値からの第2シーケンスの文字に対応する、請求項1に記載の方法。
- 第1位置セットが、第2位置セットとは重なり合わない、請求項2に記載の方法。
- 第1位置セットが、データ値の最初の文字に対する偶数位置であり、第2位置セットが、前記データ値の前記最初の文字に対する奇数位置である、請求項3に記載の方法。
- セグメント値をレコードに関連付けることが、前記関連付けられたセグメント値を前記レコードの新たなフィールドに書き込むことを含む、請求項1に記載の方法。
- 受信側処理エンティティにおいて受信したレコードの1又は2以上のデータ値に基づいて操作を実行することが、第1レコードの1又は2以上のデータ値の中で出現する文字ストリングと、少なくとも第2レコードの1又は2以上のデータ値の中で出現する文字ストリングとを照合し、一致を判定することを含む、請求項1に記載の方法。
- 照合が、近似照合である、請求項6に記載の方法。
- 近似照合が、照合されるストリングが、指定された編集距離まで異なることを許容する、請求項7に記載の方法。
- 近似照合が、第1レコードのデータ値と第2レコードのデータ値の間の許容される差分を定義する照合基準に基づき、それぞれのオリジナルレコードに関して、1又は2以上のデータ値の第1ポーション、及び前記1又は2以上のデータ値の第2ポーションが、前記許容される差分のいずれかによる前記1又は2以上のデータ値の変更に応答して、第1セグメント値又は第2セグメント値の少なくとも1つは変化しないように選択される、請求項7に記載の方法。
- 許容される差分が、第1レコードのデータ値の中で出現する第1文字ストリングと第2レコードのデータ値の中で出現する第2文字ストリングの間の差分を含む、請求項9に記載の方法。
- 許容される差分が、第1レコードのデータ値の中で出現する第1バイナリ値と第2レコードのデータ値の中で出現する第2バイナリ値の間の差分を含む、請求項9に記載の方法。
- 受信側処理エンティティにおいて受信したレコードの1又は2以上のデータ値に基づいて操作を実行することが、代替キー割り当てを含む、請求項1に記載の方法。
- 受信側処理エンティティで生成される結果が、前記受信側処理エンティティにおいて受信した各レコードに関して、前記レコードの1又は2以上のデータ値に基づく割り当てられた代替キーで拡張された前記レコードを含む、請求項12に記載の方法。
- 受信側処理エンティティにおいて受信したレコードの1又は2以上のデータ値に基づいて操作を実行することが、前記受信したレコードを1又は2以上のクラスタにクラスタ化することを含む、請求項1に記載の方法。
- 受信側処理エンティティにおいて生成される結果が、前記受信側処理エンティティにおいて受信した各レコードに関して、前記レコードの1又は2以上のデータ値、及び前記受信側処理エンティティにおいて受信したその他のレコードの少なくともいくつかのレコードの1又は2以上のデータ値に基づく割り当てられたクラスタで拡張された前記レコードを含む、請求項14に記載の方法。
- 操作が、代替キー割り当て、クラスタ化、ロールアップ、又は結合の少なくとも1つを含む、請求項1に記載の方法。
- 第1セグメント値が、オリジナルレコードそれぞれのフィールドの複数データ値の第1ポーションに対応し、第2セグメント値が、前記第1ポーションとは異なる前記オリジナルレコードそれぞれのフィールドの複数データ値の第2ポーションに対応する、請求項1に記載の方法。
- 第2処理エンティティにおいて各受信側処理エンティティからの結果を受信すること、及び冗長な結果を削除するように前記受信した結果を処理することをさらに含む、請求項1に記載の方法。
- 第2レコードセットが、オリジナルレコードとオリジナルレコードそれぞれの少なくとも1つのコピーとを含む、請求項18に記載の方法。
- 冗長な結果を削除するように受信した結果を処理することが、オリジナルレコードに関連付けられる第1結果、又は前記オリジナルレコードのコピーに関連付けられる第2結果の最大で1つを選択することを含む、請求項19に記載の方法。
- 第1処理エンティティにおいて各受信側処理エンティティからの結果を受信すること、及び冗長な結果を削除するように前記受信した結果を処理することをさらに含む、請求項1に記載の方法。
- 各受信側処理エンティティが、それぞれ操作を独立に実行する、請求項1に記載の方法。
- 受信側処理エンティティの数が、それぞれのオリジナルレコード、及び前記オリジナルレコードのコピーに関連付けられる異なるセグメント値の最小値と少なくとも等しい、請求項1に記載の方法。
- 処理エンティティが、マルチコアプロセッサにおけるコアであり、さらに第1処理エンティティが、第2レコードセットから分割されたレコードを、前記マルチコアプロセッサにおける相互接続ネットワークを介して受信側処理エンティティに送信する、請求項1に記載の方法。
- 処理エンティティが、マルチプロセッサコンピュータシステムにおけるプロセッサであり、さらに第1処理エンティティが、第2レコードセットから分割されたレコードを、前記マルチプロセッサコンピュータシステムにおける相互接続ネットワークを介して受信側処理エンティティに送信する、請求項1に記載の方法。
- 処理エンティティが、ラックマウント型サーバシステムにおけるサーバコンピュータであり、さらに第1処理エンティティが、第2レコードセットから分割されたレコードを、前記ラックマウント型サーバシステムにおける相互接続ネットワークを介して受信側処理エンティティに送信する、請求項1に記載の方法。
- 処理エンティティが、ネットワークを介して通信状態にあるコンピュータシステムであり、さらに第1処理エンティティが、第2レコードセットから分割されたレコードを、前記ネットワークを介して受信側処理エンティティに送信する、請求項1に記載の方法。
- コンピュータ可読記憶媒体上に格納されたコンピュータプログラムであって、
コンピューティングシステムに、
第1処理エンティティによって第1オリジナルレコードセットを処理して、前記オリジナルレコードと該オリジナルレコードそれぞれの1又は2以上のコピーとを含む第2レコードセットを生成させ、それぞれのオリジナルレコードが1又は2以上のフィールドを含み、前記オリジナルレコードの少なくともいくつかの各レコードを処理することが、
前記オリジナルレコードの少なくとも1つのコピーを生成すること、及び
前記オリジナルレコードに第1セグメント値を関連付けるとともに、前記コピーに第2セグメント値を関連付け、前記第1セグメント値が、前記オリジナルレコードそれぞれのフィールドの1又は2以上のデータ値の第1ポーションに対応し、さらに前記第2セグメント値が、前記第1ポーションとは異なる前記オリジナルレコードの前記それぞれのフィールドの1又は2以上のデータ値の第2ポーションに対応することを含み、さらに、
前記第2セットの中の前記レコードに関連付けられる前記セグメント値に基づいて、複数の受信側処理エンティティの間で前記第2レコードセットを分割させ、各受信側処理エンティティにおいて、前記受信側処理エンティティにおいて受信した前記レコードの1又は2以上のデータ値に基づいて結果を生成する操作を実行させるための命令を含む、コンピュータプログラム。 - 第1オリジナルレコードセットを処理して、前記オリジナルレコードと該オリジナルレコードそれぞれの1又は2以上のコピーとを含む第2レコードセットを生成するように構成された第1処理エンティティであって、それぞれのオリジナルレコードが1又は2以上のフィールドを含み、
前記オリジナルレコードの少なくともいくつかの各レコードを処理することが、
前記オリジナルレコードの少なくとも1つのコピーを生成すること、及び
前記オリジナルレコードに第1セグメント値を関連付けるとともに、前記コピーに第2セグメント値を関連付け、前記第1セグメント値が、前記オリジナルレコードそれぞれのフィールドの1又は2以上のデータ値の第1ポーションに対応し、さらに前記第2セグメント値が、前記第1ポーションとは異なる前記オリジナルレコードそれぞれのフィールドの1又は2以上のデータ値の第2ポーションに対応することを含む、第1処理エンティティと、
前記第2セットの中の前記レコードに関連付けられる前記セグメント値に基づいて分割された前記第2レコードセットそれぞれのサブセットを受信する複数の受信側処理エンティティとを含み、各受信側処理エンティティが、前記受信側処理エンティティにおいて受信した前記レコードの1又は2以上のデータ値に基づいて結果を生成する操作を実行するように構成される、コンピューティングシステム。 - 第1処理エンティティによってレコードセットを複数のレコードサブセットに分割すること、及び
それぞれの異なる受信側処理エンティティによって前記レコードセットの異なるサブセットを処理して、結果を、前記受信側処理エンティティそれぞれがアクセスできるデータストレージの中に格納することを含み、各受信側処理エンティティによって処理することが、
前記レコードの1又は2以上のフィールドの1又は2以上の値と、前記受信側処理エンティティによって保持されるローカル参照情報内のエントリ又はその他の受信側処理エンティティのいずれかによって供給された前記データストレージ内のエントリとを近似照合し、おおよそ一致しているか否か判定することに基づいて、前記サブセットの中の各レコードに対して操作を実行すること、及び
前記受信側処理エンティティによって保持される前記ローカル参照情報に基づいて前記データストレージを更新することを含む、方法。 - 受信側処理エンティティそれぞれがアクセスできるデータストレージが、不揮発性記憶媒体を含む請求項30に記載の方法。
- 各受信側処理エンティティによって保持されるローカル参照情報が、揮発性記憶媒体の中に格納される請求項31に記載の方法。
- 近似照合が、照合する値が指定された編集距離まで異なることを許容する請求項30に記載の方法。
- サブセットの中の各レコードに対して操作を実行することが、代替キー割り当てを含む、請求項30に記載の方法。
- 受信側処理エンティティにおいて生成される結果が、前記受信側処理エンティティにおいて受信した各レコードに関して、前記レコードの1又は2以上の値に基づく割り当てられた代替キーで拡張されたレコードを含む、請求項34に記載の方法。
- サブセットの中の各レコードに対して操作を実行することが、レコードを1又は2以上のクラスタにクラスタ化することを含む、請求項30に記載の方法。
- 受信側処理エンティティにおいて生成される結果が、前記受信側処理エンティティにおいて受信した各レコードに関して、前記レコードの1又は2以上の値、及び前記受信側処理エンティティにおいて受信したその他のレコードの少なくともいくつかのレコードの1又は2以上の値に基づく割り当てられたクラスタで拡張されたレコードを含む、請求項36に記載の方法。
- 操作が、代替キー割り当て、クラスタ化、ロールアップ、又は結合の少なくとも1つを含む、請求項30に記載の方法。
- コンピュータ可読記憶媒体上に格納されたコンピュータプログラムであって、
コンピューティングシステムに、
第1処理エンティティによってレコードセットを複数のレコードサブセットに分割し、さらに
それぞれの異なる受信側処理エンティティによって前記レコードセットの異なるサブセットを処理させて、結果を、前記受信側処理エンティティそれぞれがアクセスできるデータストレージの中に格納させるための命令を含み、各受信側処理エンティティによって処理することが、
前記レコードの1又は2以上のフィールドの1又は2以上の値と、前記受信側処理エンティティによって保持されるローカル参照情報内のエントリ又はその他の受信側処理エンティティのいずれかによって供給された前記データストレージ内のエントリを近似照合し、おおよそ一致しているか否か判定することに基づいて、前記サブセットの中の各レコードに対して操作を実行すること、及び
前記受信側処理エンティティによって保持される前記ローカル参照情報に基づいて前記データストレージを更新することを含む、コンピュータプログラム。 - レコードセットを複数のレコードサブセットに分割するように構成された第1処理エンティティと、
前記レコードセットの異なるそれぞれのサブセットを処理して、結果を、受信側処理エンティティそれぞれがアクセスできるデータストレージの中に格納するようにそれぞれが構成された複数の受信側処理エンティティとを含むコンピューティングシステムであって、
各受信側処理エンティティによって処理することが、
前記レコードの1又は2以上のフィールドの1又は2以上の値と、前記受信側処理エンティティによって保持されるローカル参照情報内のエントリ又はその他の受信側処理エンティティのいずれかによって供給された前記データストレージ内のエントリを近似照合し、おおよそ一致しているか否か判定することに基づいて、前記サブセットの中の各レコードに対して操作を実行すること、及び
前記受信側処理エンティティによって保持される前記ローカル参照情報に基づいて前記データストレージを更新することを含む、コンピューティングシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161560257P | 2011-11-15 | 2011-11-15 | |
US61/560,257 | 2011-11-15 | ||
US201261660259P | 2012-06-15 | 2012-06-15 | |
US61/660,259 | 2012-06-15 | ||
PCT/US2012/065249 WO2013074770A1 (en) | 2011-11-15 | 2012-11-15 | Data clustering, segmentation, and parallelization |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014533408A true JP2014533408A (ja) | 2014-12-11 |
JP6190817B2 JP6190817B2 (ja) | 2017-08-30 |
Family
ID=47258118
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014541427A Active JP6113740B2 (ja) | 2011-11-15 | 2012-11-15 | 変数トークンネットワークに基づくデータクラスタ化 |
JP2014542461A Active JP6125520B2 (ja) | 2011-11-15 | 2012-11-15 | 候補クエリに基づくデータクラスタ化 |
JP2014541426A Active JP6190817B2 (ja) | 2011-11-15 | 2012-11-15 | データクラスタ化、データセグメント化、及びデータ並列化 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014541427A Active JP6113740B2 (ja) | 2011-11-15 | 2012-11-15 | 変数トークンネットワークに基づくデータクラスタ化 |
JP2014542461A Active JP6125520B2 (ja) | 2011-11-15 | 2012-11-15 | 候補クエリに基づくデータクラスタ化 |
Country Status (9)
Country | Link |
---|---|
US (6) | US9037589B2 (ja) |
EP (6) | EP3591538B1 (ja) |
JP (3) | JP6113740B2 (ja) |
KR (3) | KR102029514B1 (ja) |
CN (4) | CN104054073B (ja) |
AU (3) | AU2012340418C1 (ja) |
CA (4) | CA2855710C (ja) |
HK (4) | HK1200942A1 (ja) |
WO (3) | WO2013074770A1 (ja) |
Families Citing this family (178)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8775441B2 (en) | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
CA3014839C (en) | 2008-10-23 | 2019-01-08 | Arlen Anderson | Fuzzy data operations |
US20110153737A1 (en) * | 2009-12-17 | 2011-06-23 | Chu Thomas P | Method and apparatus for decomposing a peer-to-peer network and using a decomposed peer-to-peer network |
US10084856B2 (en) * | 2009-12-17 | 2018-09-25 | Wsou Investments, Llc | Method and apparatus for locating services within peer-to-peer networks |
US8468119B2 (en) * | 2010-07-14 | 2013-06-18 | Business Objects Software Ltd. | Matching data from disparate sources |
EP2727247B1 (en) * | 2011-06-30 | 2017-04-05 | Openwave Mobility, Inc. | Database compression system and method |
WO2013074770A1 (en) | 2011-11-15 | 2013-05-23 | Ab Initio Technology Llc | Data clustering, segmentation, and parallelization |
US8949199B2 (en) * | 2011-12-29 | 2015-02-03 | Dell Products L.P. | Systems and methods for de-duplication in storage systems |
WO2013123097A1 (en) * | 2012-02-13 | 2013-08-22 | SkyKick, Inc. | Migration project automation, e.g., automated selling, planning, migration and configuration of email systems |
US10467322B1 (en) * | 2012-03-28 | 2019-11-05 | Amazon Technologies, Inc. | System and method for highly scalable data clustering |
US20130268526A1 (en) * | 2012-04-06 | 2013-10-10 | Mark E. Johns | Discovery engine |
US9684395B2 (en) * | 2012-06-02 | 2017-06-20 | Tara Chand Singhal | System and method for context driven voice interface in handheld wireless mobile devices |
EP3654200A1 (en) * | 2012-08-17 | 2020-05-20 | Twitter, Inc. | Search infrastructure |
US10223697B2 (en) | 2012-08-30 | 2019-03-05 | Oracle International Corporation | Method and system for implementing a CRM quote and order capture context service |
US9251133B2 (en) | 2012-12-12 | 2016-02-02 | International Business Machines Corporation | Approximate named-entity extraction |
US10949752B1 (en) * | 2013-01-30 | 2021-03-16 | Applied Predictive Technologies, Inc. | System and method of portfolio matching |
US9830353B1 (en) * | 2013-02-27 | 2017-11-28 | Google Inc. | Determining match type for query tokens |
US20140282396A1 (en) * | 2013-03-14 | 2014-09-18 | Syntel, Inc. | Computerized system and method for extracting business rules from source code |
US20140280239A1 (en) * | 2013-03-15 | 2014-09-18 | Sas Institute Inc. | Similarity determination between anonymized data items |
US8844050B1 (en) | 2013-03-15 | 2014-09-23 | Athoc, Inc. | Personnel crisis communications management and personnel status tracking system |
US10803102B1 (en) * | 2013-04-30 | 2020-10-13 | Walmart Apollo, Llc | Methods and systems for comparing customer records |
US9411632B2 (en) * | 2013-05-30 | 2016-08-09 | Qualcomm Incorporated | Parallel method for agglomerative clustering of non-stationary data |
US11093521B2 (en) * | 2013-06-27 | 2021-08-17 | Sap Se | Just-in-time data quality assessment for best record creation |
KR20150020385A (ko) * | 2013-08-13 | 2015-02-26 | 에스케이하이닉스 주식회사 | 데이터 저장 장치, 그것의 동작 방법 및 그것을 포함하는 데이터 처리 시스템 |
CA2921245C (en) | 2013-09-20 | 2023-08-22 | Fulcrum Management Solutions Ltd. | Processing qualitative responses |
CN103455641B (zh) * | 2013-09-29 | 2017-02-22 | 北大医疗信息技术有限公司 | 交叉多次检索的系统和方法 |
US8831969B1 (en) * | 2013-10-02 | 2014-09-09 | Linkedin Corporation | System and method for determining users working for the same employers in a social network |
US10043182B1 (en) * | 2013-10-22 | 2018-08-07 | Ondot System, Inc. | System and method for using cardholder context and preferences in transaction authorization |
US10423890B1 (en) | 2013-12-12 | 2019-09-24 | Cigna Intellectual Property, Inc. | System and method for synthesizing data |
US10685037B2 (en) | 2013-12-18 | 2020-06-16 | Amazon Technology, Inc. | Volume cohorts in object-redundant storage systems |
CA2934041C (en) * | 2013-12-18 | 2021-04-13 | Amazon Technologies, Inc. | Reconciling volumelets in volume cohorts |
US10620830B2 (en) | 2013-12-18 | 2020-04-14 | Amazon Technologies, Inc. | Reconciling volumelets in volume cohorts |
US10026114B2 (en) * | 2014-01-10 | 2018-07-17 | Betterdoctor, Inc. | System for clustering and aggregating data from multiple sources |
US10055747B1 (en) * | 2014-01-20 | 2018-08-21 | Acxiom Corporation | Consumer Portal |
US9690844B2 (en) * | 2014-01-24 | 2017-06-27 | Samsung Electronics Co., Ltd. | Methods and systems for customizable clustering of sub-networks for bioinformatics and health care applications |
US9779146B2 (en) * | 2014-02-07 | 2017-10-03 | Sap Se | Graphical user interface for a data record matching application |
US20150269700A1 (en) | 2014-03-24 | 2015-09-24 | Athoc, Inc. | Exchange of crisis-related information amongst multiple individuals and multiple organizations |
US9268597B2 (en) * | 2014-04-01 | 2016-02-23 | Google Inc. | Incremental parallel processing of data |
US10482490B2 (en) | 2014-04-09 | 2019-11-19 | Sailthru, Inc. | Behavioral tracking system and method in support of high-engagement communications |
US20150348052A1 (en) * | 2014-05-30 | 2015-12-03 | Sachin Rekhi | Crm-based discovery of contacts and accounts |
WO2015192106A1 (en) * | 2014-06-12 | 2015-12-17 | Shpanya Arie | Real-time dynamic pricing system |
US20150379033A1 (en) * | 2014-06-27 | 2015-12-31 | International Business Machines Corporation | Parallel matching of hierarchical records |
US10318983B2 (en) * | 2014-07-18 | 2019-06-11 | Facebook, Inc. | Expansion of targeting criteria based on advertisement performance |
US10528981B2 (en) | 2014-07-18 | 2020-01-07 | Facebook, Inc. | Expansion of targeting criteria using an advertisement performance metric to maintain revenue |
US20160019284A1 (en) * | 2014-07-18 | 2016-01-21 | Linkedln Corporation | Search engine using name clustering |
US10296616B2 (en) | 2014-07-31 | 2019-05-21 | Splunk Inc. | Generation of a search query to approximate replication of a cluster of events |
US9922290B2 (en) * | 2014-08-12 | 2018-03-20 | Microsoft Technology Licensing, Llc | Entity resolution incorporating data from various data sources which uses tokens and normalizes records |
US10614912B2 (en) * | 2014-08-17 | 2020-04-07 | Hyperfine, Llc | Systems and methods for comparing networks, determining underlying forces between the networks, and forming new metaclusters when saturation is met |
US20160062979A1 (en) * | 2014-08-27 | 2016-03-03 | Google Inc. | Word classification based on phonetic features |
WO2016048295A1 (en) * | 2014-09-24 | 2016-03-31 | Hewlett Packard Enterprise Development Lp | Assigning a document to partial membership in communities |
US11461319B2 (en) * | 2014-10-06 | 2022-10-04 | Business Objects Software, Ltd. | Dynamic database query efficiency improvement |
US9600548B2 (en) * | 2014-10-10 | 2017-03-21 | Salesforce.Com | Row level security integration of analytical data store with cloud architecture |
JP6050800B2 (ja) * | 2014-10-28 | 2016-12-21 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
CN105701118B (zh) | 2014-11-28 | 2019-05-28 | 国际商业机器公司 | 用于归一化文件的非数值特征的方法和装置 |
US9483546B2 (en) * | 2014-12-15 | 2016-11-01 | Palantir Technologies Inc. | System and method for associating related records to common entities across multiple lists |
US9727906B1 (en) * | 2014-12-15 | 2017-08-08 | Amazon Technologies, Inc. | Generating item clusters based on aggregated search history data |
JP6129815B2 (ja) * | 2014-12-24 | 2017-05-17 | Necパーソナルコンピュータ株式会社 | 情報処理装置、方法及びプログラム |
US20160239499A1 (en) * | 2015-02-12 | 2016-08-18 | Red Hat, Inc. | Object Creation Based on Copying Objects Corresponding to Similar Entities |
US10339502B2 (en) * | 2015-04-06 | 2019-07-02 | Adp, Llc | Skill analyzer |
US10742731B2 (en) | 2015-06-10 | 2020-08-11 | International Business Machines Corporation | Maintaining service configuration consistency across nodes of a clustered file system |
US9940213B2 (en) | 2015-06-10 | 2018-04-10 | International Business Machines Corporation | Integrating external services with a clustered file system |
WO2017015751A1 (en) * | 2015-07-24 | 2017-02-02 | Fulcrum Management Solutions Ltd. | Processing qualitative responses and visualization generation |
US10140327B2 (en) | 2015-08-24 | 2018-11-27 | Palantir Technologies Inc. | Feature clustering of users, user correlation database access, and user interface generation system |
US10417337B2 (en) | 2015-09-02 | 2019-09-17 | Canon Kabushiki Kaisha | Devices, systems, and methods for resolving named entities |
US11392582B2 (en) * | 2015-10-15 | 2022-07-19 | Sumo Logic, Inc. | Automatic partitioning |
US10783268B2 (en) | 2015-11-10 | 2020-09-22 | Hewlett Packard Enterprise Development Lp | Data allocation based on secure information retrieval |
US10242021B2 (en) * | 2016-01-12 | 2019-03-26 | International Business Machines Corporation | Storing data deduplication metadata in a grid of processors |
US10261946B2 (en) | 2016-01-12 | 2019-04-16 | International Business Machines Corporation | Rebalancing distributed metadata |
US10255288B2 (en) * | 2016-01-12 | 2019-04-09 | International Business Machines Corporation | Distributed data deduplication in a grid of processors |
WO2017197526A1 (en) | 2016-05-20 | 2017-11-23 | Roman Czeslaw Kordasiewicz | Systems and methods for graphical exploration of forensic data |
US10740409B2 (en) | 2016-05-20 | 2020-08-11 | Magnet Forensics Inc. | Systems and methods for graphical exploration of forensic data |
JP6072334B1 (ja) * | 2016-06-09 | 2017-02-01 | 株式会社Cygames | 情報処理システム及び方法、並びにプログラム |
US20180025093A1 (en) * | 2016-07-21 | 2018-01-25 | Ayasdi, Inc. | Query capabilities of topological data analysis graphs |
US11023475B2 (en) * | 2016-07-22 | 2021-06-01 | International Business Machines Corporation | Testing pairings to determine whether they are publically known |
US10558669B2 (en) * | 2016-07-22 | 2020-02-11 | National Student Clearinghouse | Record matching system |
US11106692B1 (en) * | 2016-08-04 | 2021-08-31 | Palantir Technologies Inc. | Data record resolution and correlation system |
CN106875167B (zh) * | 2016-08-18 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 电子支付过程中资金交易路径的检测方法和装置 |
US10650008B2 (en) * | 2016-08-26 | 2020-05-12 | International Business Machines Corporation | Parallel scoring of an ensemble model |
US10817540B2 (en) | 2016-09-02 | 2020-10-27 | Snowflake Inc. | Incremental clustering maintenance of a table |
US11080301B2 (en) * | 2016-09-28 | 2021-08-03 | Hewlett Packard Enterprise Development Lp | Storage allocation based on secure data comparisons via multiple intermediaries |
US20180096018A1 (en) * | 2016-09-30 | 2018-04-05 | Microsoft Technology Licensing, Llc | Reducing processing for comparing large metadata sets |
WO2018067467A1 (en) | 2016-10-03 | 2018-04-12 | Ocient Llc | Infrastructure improvements for use in a massively parallel database management system |
US10127268B2 (en) * | 2016-10-07 | 2018-11-13 | Microsoft Technology Licensing, Llc | Repairing data through domain knowledge |
US10713316B2 (en) | 2016-10-20 | 2020-07-14 | Microsoft Technology Licensing, Llc | Search engine using name clustering |
US10585864B2 (en) | 2016-11-11 | 2020-03-10 | International Business Machines Corporation | Computing the need for standardization of a set of values |
US10353928B2 (en) * | 2016-11-30 | 2019-07-16 | International Business Machines Corporation | Real-time clustering using multiple representatives from a cluster |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
EP3336691B1 (en) | 2016-12-13 | 2022-04-06 | ARM Limited | Replicate elements instruction |
EP3336692B1 (en) | 2016-12-13 | 2020-04-29 | Arm Ltd | Replicate partition instruction |
US10902070B2 (en) | 2016-12-15 | 2021-01-26 | Microsoft Technology Licensing, Llc | Job search based on member transitions from educational institution to company |
US10671757B1 (en) * | 2016-12-22 | 2020-06-02 | Allscripts Software, Llc | Converting an alphanumerical character string into a signature |
US20180181646A1 (en) * | 2016-12-26 | 2018-06-28 | Infosys Limited | System and method for determining identity relationships among enterprise data entities |
US20180203917A1 (en) * | 2017-01-19 | 2018-07-19 | Acquire Media Ventures Inc. | Discovering data similarity groups in linear time for data science applications |
US10679187B2 (en) | 2017-01-30 | 2020-06-09 | Microsoft Technology Licensing, Llc | Job search with categorized results |
US10783497B2 (en) | 2017-02-21 | 2020-09-22 | Microsoft Technology Licensing, Llc | Job posting data search based on intercompany worker migration |
US11138269B1 (en) | 2017-03-14 | 2021-10-05 | Wells Fargo Bank, N.A. | Optimizing database query processes with supervised independent autonomy through a dynamically scaling matching and priority engine |
US10803064B1 (en) * | 2017-03-14 | 2020-10-13 | Wells Fargo Bank, N.A. | System and method for dynamic scaling and modification of a rule-based matching and prioritization engine |
US11010675B1 (en) | 2017-03-14 | 2021-05-18 | Wells Fargo Bank, N.A. | Machine learning integration for a dynamically scaling matching and prioritization engine |
KR102594625B1 (ko) * | 2017-03-19 | 2023-10-25 | 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 | K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법 |
US10607189B2 (en) | 2017-04-04 | 2020-03-31 | Microsoft Technology Licensing, Llc | Ranking job offerings based on growth potential within a company |
US20180315019A1 (en) * | 2017-04-27 | 2018-11-01 | Linkedin Corporation | Multinodal job-search control system |
US11640436B2 (en) * | 2017-05-15 | 2023-05-02 | Ebay Inc. | Methods and systems for query segmentation |
US10740338B2 (en) * | 2017-07-23 | 2020-08-11 | International Business Machines Corporation | Systems and methods for query performance prediction using reference lists |
US9934287B1 (en) * | 2017-07-25 | 2018-04-03 | Capital One Services, Llc | Systems and methods for expedited large file processing |
US20190034475A1 (en) * | 2017-07-28 | 2019-01-31 | Enigma Technologies, Inc. | System and method for detecting duplicate data records |
EP3460808A1 (en) * | 2017-09-21 | 2019-03-27 | Koninklijke Philips N.V. | Determining patient status based on measurable medical characteristics |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
WO2019077405A1 (en) * | 2017-10-17 | 2019-04-25 | Handycontract, LLC | METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES |
US11250040B2 (en) * | 2017-10-19 | 2022-02-15 | Capital One Services, Llc | Systems and methods for extracting information from a text string generated in a distributed computing operation |
US11429642B2 (en) | 2017-11-01 | 2022-08-30 | Walmart Apollo, Llc | Systems and methods for dynamic hierarchical metadata storage and retrieval |
US10839018B2 (en) * | 2017-11-15 | 2020-11-17 | International Business Machines Corporation | Evaluation of plural expressions corresponding to input data |
US10910112B2 (en) | 2017-12-04 | 2021-02-02 | Koninklijke Philips N.V. | Apparatus for patient record identification |
US11061811B2 (en) * | 2017-12-15 | 2021-07-13 | International Business Machines Corporation | Optimizing software testing via group testing |
CN110019274B (zh) | 2017-12-29 | 2023-09-26 | 阿里巴巴集团控股有限公司 | 一种数据库系统以及查询数据库的方法和装置 |
US10579707B2 (en) * | 2017-12-29 | 2020-03-03 | Konica Minolta Laboratory U.S.A., Inc. | Method for inferring blocks of text in electronic documents |
US10817542B2 (en) | 2018-02-28 | 2020-10-27 | Acronis International Gmbh | User clustering based on metadata analysis |
US10956610B2 (en) * | 2018-03-06 | 2021-03-23 | Micro Focus Llc | Cycle walking-based tokenization |
US10719375B2 (en) * | 2018-03-13 | 2020-07-21 | Servicenow, Inc. | Systems and method for event parsing |
US11182395B2 (en) * | 2018-05-15 | 2021-11-23 | International Business Machines Corporation | Similarity matching systems and methods for record linkage |
US11244013B2 (en) * | 2018-06-01 | 2022-02-08 | International Business Machines Corporation | Tracking the evolution of topic rankings from contextual data |
US11106675B2 (en) * | 2018-06-12 | 2021-08-31 | Atos Syntel Inc. | System and method for identifying optimal test cases for software development |
US11263202B2 (en) | 2018-11-30 | 2022-03-01 | Microsoft Technology Licensing, Llc | Scalable implementations of exact distinct counts and multiple exact distinct counts in distributed query processing systems |
US11321359B2 (en) * | 2019-02-20 | 2022-05-03 | Tamr, Inc. | Review and curation of record clustering changes at large scale |
US10740347B1 (en) * | 2019-03-04 | 2020-08-11 | Capital One Services, Llc | Methods and systems for determining sets and subsets of parametric data |
US10922337B2 (en) * | 2019-04-30 | 2021-02-16 | Amperity, Inc. | Clustering of data records with hierarchical cluster IDs |
US11003643B2 (en) * | 2019-04-30 | 2021-05-11 | Amperity, Inc. | Multi-level conflict-free entity clusterings |
US11586659B2 (en) * | 2019-05-03 | 2023-02-21 | Servicenow, Inc. | Clustering and dynamic re-clustering of similar textual documents |
US11651032B2 (en) | 2019-05-03 | 2023-05-16 | Servicenow, Inc. | Determining semantic content of textual clusters |
CN110162672B (zh) * | 2019-05-10 | 2021-07-27 | 上海赜睿信息科技有限公司 | 数据处理方法及装置、电子设备和可读存储介质 |
US11321771B1 (en) * | 2019-06-03 | 2022-05-03 | Intuit Inc. | System and method for detecting unseen overdraft transaction events |
US11042555B1 (en) * | 2019-06-28 | 2021-06-22 | Bottomline Technologies, Inc. | Two step algorithm for non-exact matching of large datasets |
WO2021079230A1 (ja) * | 2019-10-25 | 2021-04-29 | 株式会社半導体エネルギー研究所 | 文書検索システム |
EP4057585A4 (en) * | 2019-12-06 | 2022-12-28 | Huawei Cloud Computing Technologies Co., Ltd. | EDGE SYSTEM AND PROCEDURES FOR PROCESSING DATA OPERATION REQUESTS |
JP2021097353A (ja) * | 2019-12-18 | 2021-06-24 | キヤノン株式会社 | データ送信装置、データ送信装置の制御方法、及びプログラム |
CN111064796B (zh) * | 2019-12-19 | 2023-03-24 | 北京明略软件系统有限公司 | 伴随关系的分析方法及装置、分析模型的训练方法 |
US11405482B2 (en) * | 2020-02-15 | 2022-08-02 | Near Intelligence Holdings, Inc. | Method for linking identifiers to generate a unique entity identifier for deduplicating high-speed data streams in real time |
US11176137B2 (en) * | 2020-02-19 | 2021-11-16 | Bank Of America Corporation | Query processing platform for performing dynamic cluster compaction and expansion |
US11768824B2 (en) | 2020-03-31 | 2023-09-26 | Wipro Limited | Method and system for performing real-time data validation |
TWI722859B (zh) * | 2020-04-07 | 2021-03-21 | 中華誠信資產管理顧問股份有限公司 | 不動產估價比較案例篩選方法及其系統 |
US11442990B2 (en) | 2020-04-08 | 2022-09-13 | Liveramp, Inc. | Asserted relationship data structure |
EP4088217A4 (en) * | 2020-05-18 | 2023-09-06 | Google LLC | INFERENCE PROCESSES FOR SEGMENTATION INTO WORDS OR PARTS OF WORDS |
US11201737B1 (en) * | 2020-05-19 | 2021-12-14 | Acronis International Gmbh | Systems and methods for generating tokens using secure multiparty computation engines |
US20230230707A1 (en) * | 2020-06-10 | 2023-07-20 | Koninklijke Philips N.V. | Methods and systems for searching an ecg database |
KR102199704B1 (ko) * | 2020-06-26 | 2021-01-08 | 주식회사 이스트시큐리티 | 다중 백신의 탐지명으로부터 대표 토큰을 선정하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 |
WO2022006151A1 (en) * | 2020-06-29 | 2022-01-06 | 6Sense Insights, Inc. | Aggregation of noisy datasets into master firmographic database |
US11720601B2 (en) * | 2020-07-02 | 2023-08-08 | Sap Se | Active entity resolution model recommendation system |
US11615094B2 (en) | 2020-08-12 | 2023-03-28 | Hcl Technologies Limited | System and method for joining skewed datasets in a distributed computing environment |
EP4204979A4 (en) * | 2020-09-30 | 2024-10-02 | Liveramp Inc | SYSTEM AND METHOD FOR MATCHING IN A COMPLEX DATA SET |
US20220114624A1 (en) * | 2020-10-09 | 2022-04-14 | Adobe Inc. | Digital Content Text Processing and Review Techniques |
CN112990654B (zh) * | 2021-02-03 | 2021-11-02 | 北京大学 | 基于人口流动数据的城乡基础设施系统协同规划方法 |
US11783269B1 (en) | 2021-02-05 | 2023-10-10 | Palantir Technologies Inc. | Systems and methods for rule management |
EP4054145B1 (en) * | 2021-03-05 | 2024-01-10 | Cédric Iggiotti | Document-based access control system |
CN112948943B (zh) * | 2021-03-22 | 2022-11-18 | 西南交通大学 | 格栅式地下连续墙基础的OpenSees软件的前、后处理方法 |
CN113064870B (zh) * | 2021-03-22 | 2021-11-30 | 中国人民大学 | 一种基于压缩数据直接计算的大数据处理方法 |
KR20220134328A (ko) | 2021-03-26 | 2022-10-05 | 주식회사 팬스컴스 | 콘텐츠 저작권을 생성하는 사이니지 장치 |
US20220335075A1 (en) * | 2021-04-14 | 2022-10-20 | International Business Machines Corporation | Finding expressions in texts |
US20220342909A1 (en) * | 2021-04-22 | 2022-10-27 | Salesforce.Com, Inc. | Evaluating clustering in case of data stewardship actions |
US12020170B2 (en) * | 2021-05-24 | 2024-06-25 | Liveperson, Inc. | Systems and methods for intent discovery and process execution |
US11687559B1 (en) * | 2021-06-09 | 2023-06-27 | Morgan Stanley Services Group, Inc. | Computer systems and methods for reconciling data across data sources |
US20220414171A1 (en) * | 2021-06-28 | 2022-12-29 | Flipkart Internet Private Limited | System and method for generating a user query based on a target context aware token |
US11693821B2 (en) * | 2021-07-07 | 2023-07-04 | Collibra Belgium Bv | Systems and methods for performant data matching |
US11848824B2 (en) * | 2021-07-23 | 2023-12-19 | Vmware, Inc. | Distributed auto discovery service |
US20230034741A1 (en) * | 2021-07-28 | 2023-02-02 | Palo Alto Networks, Inc. | Token frequency based data matching |
US11630855B2 (en) * | 2021-08-04 | 2023-04-18 | Capital One Services, Llc | Variable density-based clustering on data streams |
US20230052619A1 (en) * | 2021-08-10 | 2023-02-16 | Intuit Inc. | Real-time error prevention during invoice creation |
US11841965B2 (en) * | 2021-08-12 | 2023-12-12 | EMC IP Holding Company LLC | Automatically assigning data protection policies using anonymized analytics |
US20240070321A1 (en) * | 2021-08-12 | 2024-02-29 | EMC IP Holding Company LLC | Automatically creating data protection roles using anonymized analytics |
US11841769B2 (en) * | 2021-08-12 | 2023-12-12 | EMC IP Holding Company LLC | Leveraging asset metadata for policy assignment |
US11704312B2 (en) * | 2021-08-19 | 2023-07-18 | Microsoft Technology Licensing, Llc | Conjunctive filtering with embedding models |
US11934468B2 (en) | 2021-09-16 | 2024-03-19 | Microsoft Tech nology Licensing, LLC | Content distribution control |
US11803569B2 (en) * | 2021-10-05 | 2023-10-31 | Procore Technologies, Inc. | Computer system and method for accessing user data that is distributed within a multi-zone computing platform |
AU2022396138A1 (en) * | 2021-11-24 | 2024-06-06 | Visa International Service Association | Method, system, and computer program product for community detection |
JP2023086507A (ja) * | 2021-12-10 | 2023-06-22 | キオクシア株式会社 | 情報処理装置および方法 |
US20230297623A1 (en) * | 2022-03-17 | 2023-09-21 | Yext, Inc. | Multi-record projection search platform |
USD1032628S1 (en) * | 2022-03-18 | 2024-06-25 | Ab Initio Technology Llc | Display panel portion with an animated computer icon |
US11983162B2 (en) | 2022-04-26 | 2024-05-14 | Truist Bank | Change management process for identifying potential regulatory violations for improved processing efficiency |
US20240121154A1 (en) * | 2022-09-30 | 2024-04-11 | Intuit Inc. | Modeling and managing affinity networks |
US12026140B1 (en) | 2023-02-21 | 2024-07-02 | Snowflake Inc. | Performance indexing of production databases |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012104943A1 (ja) * | 2011-02-02 | 2012-08-09 | 日本電気株式会社 | 結合処理装置、データ管理装置及び文字列類似結合システム |
Family Cites Families (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02129756A (ja) | 1988-11-10 | 1990-05-17 | Nippon Telegr & Teleph Corp <Ntt> | 単語照合装置 |
US5179643A (en) | 1988-12-23 | 1993-01-12 | Hitachi, Ltd. | Method of multi-dimensional analysis and display for a large volume of record information items and a system therefor |
US5388259A (en) | 1992-05-15 | 1995-02-07 | Bell Communications Research, Inc. | System for accessing a database with an iterated fuzzy query notified by retrieval response |
JPH0644309A (ja) | 1992-07-01 | 1994-02-18 | Nec Corp | データベース管理方式 |
JPH0944518A (ja) | 1995-08-02 | 1997-02-14 | Adoin Kenkyusho:Kk | 画像データベースの構築方法と、画像データベースの検索方法及び検索装置 |
US5832182A (en) | 1996-04-24 | 1998-11-03 | Wisconsin Alumni Research Foundation | Method and system for data clustering for very large databases |
JPH10275159A (ja) | 1997-03-31 | 1998-10-13 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
US6026398A (en) | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
JPH11184884A (ja) | 1997-12-24 | 1999-07-09 | Ntt Data Corp | 同一人判定システムおよび方法 |
US6581058B1 (en) | 1998-05-22 | 2003-06-17 | Microsoft Corporation | Scalable system for clustering of large databases having mixed data attributes |
US6285995B1 (en) * | 1998-06-22 | 2001-09-04 | U.S. Philips Corporation | Image retrieval system using a query image |
US6742003B2 (en) | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2000029899A (ja) | 1998-07-14 | 2000-01-28 | Hitachi Software Eng Co Ltd | 建物と地図とのマッチング方法および記録媒体 |
US6493709B1 (en) | 1998-07-31 | 2002-12-10 | The Regents Of The University Of California | Method and apparatus for digitally shredding similar documents within large document sets in a data processing environment |
US6658626B1 (en) | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US7356462B2 (en) | 2001-07-26 | 2008-04-08 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6317707B1 (en) * | 1998-12-07 | 2001-11-13 | At&T Corp. | Automatic clustering of tokens from a corpus for grammar acquisition |
US6456995B1 (en) | 1998-12-31 | 2002-09-24 | International Business Machines Corporation | System, method and computer program products for ordering objects corresponding to database operations that are performed on a relational database upon completion of a transaction by an object-oriented transaction system |
AU780926B2 (en) | 1999-08-03 | 2005-04-28 | Bally Technologies, Inc. | Method and system for matching data sets |
AU1051101A (en) | 1999-10-27 | 2001-05-08 | Zapper Technologies Inc. | Context-driven information retrieval |
US7328211B2 (en) | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
DE10048478C2 (de) | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
US6931390B1 (en) | 2001-02-27 | 2005-08-16 | Oracle International Corporation | Method and mechanism for database partitioning |
JP3605052B2 (ja) | 2001-06-20 | 2004-12-22 | 本田技研工業株式会社 | あいまい検索機能を備える図面管理システム |
US20030033138A1 (en) | 2001-07-26 | 2003-02-13 | Srinivas Bangalore | Method for partitioning a data set into frequency vectors for clustering |
US20030041047A1 (en) | 2001-08-09 | 2003-02-27 | International Business Machines Corporation | Concept-based system for representing and processing multimedia objects with arbitrary constraints |
US7043647B2 (en) * | 2001-09-28 | 2006-05-09 | Hewlett-Packard Development Company, L.P. | Intelligent power management for a rack of servers |
US7213025B2 (en) | 2001-10-16 | 2007-05-01 | Ncr Corporation | Partitioned database system |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
AU2003210795A1 (en) * | 2002-02-01 | 2003-09-02 | John Fairweather | System and method for analyzing data |
CA2475319A1 (en) | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
WO2003107321A1 (en) | 2002-06-12 | 2003-12-24 | Jena Jordahl | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US6961721B2 (en) * | 2002-06-28 | 2005-11-01 | Microsoft Corporation | Detecting duplicate records in database |
US20050226511A1 (en) * | 2002-08-26 | 2005-10-13 | Short Gordon K | Apparatus and method for organizing and presenting content |
US7043476B2 (en) | 2002-10-11 | 2006-05-09 | International Business Machines Corporation | Method and apparatus for data mining to discover associations and covariances associated with data |
US20040139072A1 (en) | 2003-01-13 | 2004-07-15 | Broder Andrei Z. | System and method for locating similar records in a database |
US7912842B1 (en) | 2003-02-04 | 2011-03-22 | Lexisnexis Risk Data Management Inc. | Method and system for processing and linking data records |
US7287019B2 (en) * | 2003-06-04 | 2007-10-23 | Microsoft Corporation | Duplicate data elimination system |
US20050120011A1 (en) | 2003-11-26 | 2005-06-02 | Word Data Corp. | Code, method, and system for manipulating texts |
US7526464B2 (en) | 2003-11-28 | 2009-04-28 | Manyworlds, Inc. | Adaptive fuzzy network system and method |
US7283999B1 (en) | 2003-12-19 | 2007-10-16 | Ncr Corp. | Similarity string filtering |
US7472113B1 (en) * | 2004-01-26 | 2008-12-30 | Microsoft Corporation | Query preprocessing and pipelining |
GB0413743D0 (en) * | 2004-06-19 | 2004-07-21 | Ibm | Method and system for approximate string matching |
US8407239B2 (en) | 2004-08-13 | 2013-03-26 | Google Inc. | Multi-stage query processing system and method for use with tokenspace repository |
US7917480B2 (en) * | 2004-08-13 | 2011-03-29 | Google Inc. | Document compression system and method for use with tokenspace repository |
US20080040342A1 (en) * | 2004-09-07 | 2008-02-14 | Hust Robert M | Data processing apparatus and methods |
US7523098B2 (en) | 2004-09-15 | 2009-04-21 | International Business Machines Corporation | Systems and methods for efficient data searching, storage and reduction |
US8725705B2 (en) | 2004-09-15 | 2014-05-13 | International Business Machines Corporation | Systems and methods for searching of storage data with reduced bandwidth requirements |
US8224830B2 (en) | 2005-03-19 | 2012-07-17 | Activeprime, Inc. | Systems and methods for manipulation of inexact semi-structured data |
US9110985B2 (en) | 2005-05-10 | 2015-08-18 | Neetseer, Inc. | Generating a conceptual association graph from large-scale loosely-grouped content |
JP2007012039A (ja) * | 2005-05-31 | 2007-01-18 | Itochu Techno-Science Corp | 検索システムおよびコンピュータプログラム |
US7584205B2 (en) | 2005-06-27 | 2009-09-01 | Ab Initio Technology Llc | Aggregating data with complex operations |
US7672833B2 (en) | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US7454449B2 (en) * | 2005-12-20 | 2008-11-18 | International Business Machines Corporation | Method for reorganizing a set of database partitions |
US20070162506A1 (en) * | 2006-01-12 | 2007-07-12 | International Business Machines Corporation | Method and system for performing a redistribute transparently in a multi-node system |
US7516279B2 (en) * | 2006-02-28 | 2009-04-07 | International Business Machines Corporation | Method using stream prefetching history to improve data prefetching performance. |
US20070244925A1 (en) | 2006-04-12 | 2007-10-18 | Jean-Francois Albouze | Intelligent image searching |
US7890533B2 (en) | 2006-05-17 | 2011-02-15 | Noblis, Inc. | Method and system for information extraction and modeling |
US7809769B2 (en) * | 2006-05-18 | 2010-10-05 | Google Inc. | Database partitioning by virtual partitions |
US8175875B1 (en) | 2006-05-19 | 2012-05-08 | Google Inc. | Efficient indexing of documents with similar content |
US7634464B2 (en) | 2006-06-14 | 2009-12-15 | Microsoft Corporation | Designing record matching queries utilizing examples |
US20080140653A1 (en) | 2006-12-08 | 2008-06-12 | Matzke Douglas J | Identifying Relationships Among Database Records |
US7630972B2 (en) | 2007-01-05 | 2009-12-08 | Yahoo! Inc. | Clustered search processing |
US7739247B2 (en) * | 2006-12-28 | 2010-06-15 | Ebay Inc. | Multi-pass data organization and automatic naming |
WO2008083504A1 (en) * | 2007-01-10 | 2008-07-17 | Nick Koudas | Method and system for information discovery and text analysis |
US8694472B2 (en) * | 2007-03-14 | 2014-04-08 | Ca, Inc. | System and method for rebuilding indices for partitioned databases |
US7711747B2 (en) * | 2007-04-06 | 2010-05-04 | Xerox Corporation | Interactive cleaning for automatic document clustering and categorization |
US8069129B2 (en) | 2007-04-10 | 2011-11-29 | Ab Initio Technology Llc | Editing and compiling business rules |
WO2008146456A1 (ja) | 2007-05-28 | 2008-12-04 | Panasonic Corporation | 情報探索支援方法および情報探索支援装置 |
CN101079896B (zh) * | 2007-06-22 | 2010-05-19 | 西安交通大学 | 一种构建并行存储系统多可用性机制并存架构的方法 |
US7769778B2 (en) | 2007-06-29 | 2010-08-03 | United States Postal Service | Systems and methods for validating an address |
US7788276B2 (en) | 2007-08-22 | 2010-08-31 | Yahoo! Inc. | Predictive stemming for web search with statistical machine translation models |
US7925652B2 (en) | 2007-12-31 | 2011-04-12 | Mastercard International Incorporated | Methods and systems for implementing approximate string matching within a database |
US8775441B2 (en) * | 2008-01-16 | 2014-07-08 | Ab Initio Technology Llc | Managing an archive for approximate string matching |
US8032546B2 (en) | 2008-02-15 | 2011-10-04 | Microsoft Corp. | Transformation-based framework for record matching |
US8266168B2 (en) * | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US7958125B2 (en) * | 2008-06-26 | 2011-06-07 | Microsoft Corporation | Clustering aggregator for RSS feeds |
US20120191973A1 (en) | 2008-09-10 | 2012-07-26 | National Ict Australia Limited | Online presence of users |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
CA3014839C (en) | 2008-10-23 | 2019-01-08 | Arlen Anderson | Fuzzy data operations |
CN101751400A (zh) * | 2008-12-09 | 2010-06-23 | 财团法人工业技术研究院 | 技术数据分析的系统与方法以及专利分析的系统 |
US20100169311A1 (en) | 2008-12-30 | 2010-07-01 | Ashwin Tengli | Approaches for the unsupervised creation of structural templates for electronic documents |
JP5173898B2 (ja) | 2009-03-11 | 2013-04-03 | キヤノン株式会社 | 画像処理方法、画像処理装置、及びプログラム |
US8161048B2 (en) | 2009-04-24 | 2012-04-17 | At&T Intellectual Property I, L.P. | Database analysis using clusters |
US20100274770A1 (en) | 2009-04-24 | 2010-10-28 | Yahoo! Inc. | Transductive approach to category-specific record attribute extraction |
CN102067128A (zh) * | 2009-04-27 | 2011-05-18 | 松下电器产业株式会社 | 数据处理装置、数据处理方法、程序及集成电路 |
US8195626B1 (en) * | 2009-06-18 | 2012-06-05 | Amazon Technologies, Inc. | Compressing token-based files for transfer and reconstruction |
US8285681B2 (en) * | 2009-06-30 | 2012-10-09 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
US8572084B2 (en) * | 2009-07-28 | 2013-10-29 | Fti Consulting, Inc. | System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor |
US8429179B1 (en) * | 2009-12-16 | 2013-04-23 | Board Of Regents, The University Of Texas System | Method and system for ontology driven data collection and processing |
CN101727502A (zh) * | 2010-01-25 | 2010-06-09 | 中兴通讯股份有限公司 | 一种数据查询方法及装置、系统 |
US8375061B2 (en) | 2010-06-08 | 2013-02-12 | International Business Machines Corporation | Graphical models for representing text documents for computer analysis |
US8346772B2 (en) * | 2010-09-16 | 2013-01-01 | International Business Machines Corporation | Systems and methods for interactive clustering |
US8463742B1 (en) * | 2010-09-17 | 2013-06-11 | Permabit Technology Corp. | Managing deduplication of stored data |
US8606771B2 (en) | 2010-12-21 | 2013-12-10 | Microsoft Corporation | Efficient indexing of error tolerant set containment |
US8612386B2 (en) | 2011-02-11 | 2013-12-17 | Alcatel Lucent | Method and apparatus for peer-to-peer database synchronization in dynamic networks |
WO2013074770A1 (en) * | 2011-11-15 | 2013-05-23 | Ab Initio Technology Llc | Data clustering, segmentation, and parallelization |
-
2012
- 2012-11-15 WO PCT/US2012/065249 patent/WO2013074770A1/en active Application Filing
- 2012-11-15 EP EP19190154.5A patent/EP3591538B1/en active Active
- 2012-11-15 WO PCT/US2012/065265 patent/WO2013074781A1/en active Application Filing
- 2012-11-15 CA CA2855710A patent/CA2855710C/en active Active
- 2012-11-15 KR KR1020147016338A patent/KR102029514B1/ko active IP Right Grant
- 2012-11-15 CN CN201280067076.5A patent/CN104054073B/zh active Active
- 2012-11-15 CN CN201280067136.3A patent/CN104054074B/zh active Active
- 2012-11-15 AU AU2012340418A patent/AU2012340418C1/en active Active
- 2012-11-15 KR KR1020147016343A patent/KR102031392B1/ko active IP Right Grant
- 2012-11-15 AU AU2012340423A patent/AU2012340423B2/en active Active
- 2012-11-15 CA CA3098038A patent/CA3098038C/en active Active
- 2012-11-15 US US13/678,038 patent/US9037589B2/en active Active
- 2012-11-15 CA CA2855701A patent/CA2855701C/en active Active
- 2012-11-15 JP JP2014541427A patent/JP6113740B2/ja active Active
- 2012-11-15 EP EP21158660.7A patent/EP3855321A1/en active Pending
- 2012-11-15 EP EP18193199.9A patent/EP3432169B1/en active Active
- 2012-11-15 US US13/677,991 patent/US10503755B2/en active Active
- 2012-11-15 JP JP2014542461A patent/JP6125520B2/ja active Active
- 2012-11-15 EP EP12795221.6A patent/EP2780836A1/en not_active Ceased
- 2012-11-15 JP JP2014541426A patent/JP6190817B2/ja active Active
- 2012-11-15 KR KR1020147016331A patent/KR102048597B1/ko active IP Right Grant
- 2012-11-15 AU AU2012340429A patent/AU2012340429B2/en active Active
- 2012-11-15 WO PCT/US2012/065255 patent/WO2013074774A1/en active Application Filing
- 2012-11-15 CA CA2855715A patent/CA2855715C/en active Active
- 2012-11-15 CN CN201810151609.7A patent/CN108388632B/zh active Active
- 2012-11-15 EP EP12791931.4A patent/EP2780833A1/en not_active Ceased
- 2012-11-15 EP EP12795220.8A patent/EP2780835B1/en active Active
- 2012-11-15 US US13/678,078 patent/US9361355B2/en active Active
- 2012-11-15 CN CN201280067094.3A patent/CN104040544B/zh active Active
-
2015
- 2015-02-10 HK HK15101462.0A patent/HK1200942A1/xx unknown
- 2015-02-10 HK HK15101463.9A patent/HK1200943A1/xx unknown
- 2015-02-10 HK HK19101853.3A patent/HK1259448A1/zh unknown
- 2015-02-11 HK HK15101522.8A patent/HK1201096A1/xx unknown
-
2016
- 2016-06-02 US US15/171,168 patent/US10572511B2/en active Active
-
2019
- 2019-11-07 US US16/676,704 patent/US20200320102A1/en not_active Abandoned
-
2020
- 2020-02-03 US US16/779,743 patent/US20200356579A1/en not_active Abandoned
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012104943A1 (ja) * | 2011-02-02 | 2012-08-09 | 日本電気株式会社 | 結合処理装置、データ管理装置及び文字列類似結合システム |
Non-Patent Citations (2)
Title |
---|
VERNICA, RARES ET AL.: "Efficient Parallel Set-Similarity Joins Using MapReduce", PROCEEDINGS OF THE 2010 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, JPN7016002242, 6 June 2010 (2010-06-06), pages 495 - 506, XP058754068, ISSN: 0003372206, DOI: 10.1145/1807167.1807222 * |
成田和世、外1名: "編集距離制約下におけるトライを用いた高速並列類似結合", 第3回データ工学と情報マネジメントに関するフォーラム 論文集 [ONLINE], JPN6016029690, 4 August 2011 (2011-08-04), ISSN: 0003372207 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6190817B2 (ja) | データクラスタ化、データセグメント化、及びデータ並列化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151019 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160804 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20161031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161219 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170522 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20170607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6190817 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |