JP2007538304A - ブロッキング・キー選択のためのシステムおよび方法 - Google Patents

ブロッキング・キー選択のためのシステムおよび方法 Download PDF

Info

Publication number
JP2007538304A
JP2007538304A JP2007501973A JP2007501973A JP2007538304A JP 2007538304 A JP2007538304 A JP 2007538304A JP 2007501973 A JP2007501973 A JP 2007501973A JP 2007501973 A JP2007501973 A JP 2007501973A JP 2007538304 A JP2007538304 A JP 2007538304A
Authority
JP
Japan
Prior art keywords
records
pair
pairs
record
binary vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2007501973A
Other languages
English (en)
Inventor
エッチ ジャン、ファン
サンディルヤ、サスヤカマ
エー ランディ、ウィリアム
バラート ラオ、アール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Medical Solutions USA Inc
Original Assignee
Siemens Medical Solutions USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Medical Solutions USA Inc filed Critical Siemens Medical Solutions USA Inc
Publication of JP2007538304A publication Critical patent/JP2007538304A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Storage Device Security (AREA)

Abstract

ブロッキング・キーを決定するための方法が、複数のレコードのペアを、データベースの複数のレコードから形成することのできるペア空間からランダムに選択すること、これらの複数のレコードのペアにスコアを付けること、および複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定することを包含する。さらにこの方法は、複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、それにおいてこの比較の結果がバイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであること、およびこのバイナリ・ベクトル行列を基礎としてブロッキング・キーを決定することを包含する。
【選択図】 図1

Description

本件出願は、2004年3月5日に出願された米国特許仮出願第60/550,876号の優先権を主張するものであり、当該出願は、その全体が参照によりこれに援用される。
本発明はレコードのリンキングに関し、より詳細に述べれば、レコードのリンキング問題のためのブロッキング・キーを見つけるためのシステムおよび方法に関する。
レコードのリンクは、同一のエンティティを表すデータベース内の複数のエントリを識別するプロセスである。これは、レコードのペアを比較し、各ペアが同一のエンティティに符合するか否かを決定することによって達成される。実世界のデータベースにおいてレコードのすべての可能ペアを比較することは極端に負担が重く、たとえば200万のレコードのデータベースのための比較は2兆に達する。この問題を演算的により扱いやすいものとするために、データベースが『ブロック』と呼ばれるより小さなデータベースに、『ブロッキング・キー』を使用して、同一エンティティを表すと見られるレコードのペアのほとんどが同一ブロック内に入るように分割される。
ブロッキング・キーは、レコード内の文字ポジションのセットとして選択される。ブロッキング・キーの質は、結果として重複の検出をもたらした比較の数、およびもたらさなかった比較の数によって測定される。概して言えば、ブロッキング・キーは、蓄積されたドメインの知識の補助を伴うドメイン・エキスパートによって選択される。
ブロッキングは、ペアの比較の数を縮小するためにレコードのリンクに使用されるメカニズムである。データベース(レコードのセット)は、ブロッキング・キーの値によってより小さなブロックに分割される。データベース内のレコードによって形成することのできるすべての可能ペアを比較することに代えて、レコードが同一ブロックに属するペアを比較することだけが必要になる。
ブロッキング・キーは、あらかじめ定義済みのポジションのセットである。良好なブロッキング・キーは、重複レコードが同一ブロック内となる尤度を増加させる。ブロッキング・キーを選択するための現行方法は、直観および統計的分析を基礎としたマニュアル選択を含む。可能ブロッキング・キーのセットが大きいことからこれらの方法は遅く、複雑であり、負担が重い。これらの方法は、良好なブロッキング・キーを見つけ出すことを保証しない。
したがって、ブロッキング・キーの自動選択のためのシステムおよび方法が求められている。
この開示の実施態様によれば、ブロッキング・キーを決定するための方法が、複数のレコードのペアを、データベースの複数のレコードから形成することのできるペア空間からランダムに選択すること、これらの複数のレコードのペアにスコアを付けること、および複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定することを包含する。さらにこの方法は、複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、それにおいてこの比較の結果がバイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであること、およびこのバイナリ・ベクトル行列を基礎としてブロッキング・キーを決定することを包含する。
選択されるレコードのペアは、データベースの複数のレコードの約1/1,000を構成する。
スレッショルドを超えるスコアを伴うレコードのペアに第1のラベルが与えられ、スレッショルドより低いスコアを伴うレコードのペアに第2のラベルが与えられるが、それにおいてスレッショルドは、データベースのフィールドのサブセットの組み合わせの数値的表現である。スコアは、グラウンド・トゥルースの代用となる。
上記の一文字ずつの比較は、各フィールドについて行われ、バイナリ・ベクトルは長さを有し、それにおいてこの長さは、フィールド長の合計である。バイナリ・ベクトル行列は、各フィールド内のポジションに対応する行を包含し、各行は、レコードのペアの比較に対応する。
この開示の実施態様によれば、ブロッキング・キーを決定するための方法ステップを実行するべくマシンによって実行可能なインストラクションのプログラムを有体として具体化するマシン可読プログラム・ストレージ・デバイスが提供される。この方法は、複数のレコードのペアを、データベースの複数のレコードから形成することのできるペア空間からランダムに選択すること、これらの複数のレコードのペアにスコアを付けること、複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定すること、複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、それにおいてこの比較の結果がバイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであること、およびこのバイナリ・ベクトル行列を基礎としてブロッキング・キーを決定することを包含する。
この開示の実施態様によれば、レコードのリンク方法が、データベースのレコードのペアのプールのサブセットから少なくとも1つのブロッキング・キーを自動的に決定すること、この自動的に決定したブロッキング・キーを使用してレコードのペアのプールをフィルタリングすること、ブロッキング・キーによってフィルタリングされた複数のレコードのペアにスコアを付けること、およびフィルタリング後の所望のスコアを有するレコードのペアをレポートすることを包含する。
以下、添付図面を参照して本発明の好ましい実施態様を更に詳細に説明する。
本発明の実施態様によれば、レコードのリンクのための方法は、レコードのペアのプール(たとえば2×1012のペア)を用意することを含む(101)。少なくとも1つのブロッキング・キーが自動的に決定され、レコードのペアのプールをフィルタして(102)、レコードのペアのサブセット(たとえば109のペア)103とする。レコードのペアのサブセットは、スコア104が付けられる。スレッショルドより高いスコアが付けられたレコードのペアがレポートされる(105)。ブロッキング・キーは、レコードのリンクに先行して決定される(106)。
この例は2×1012のレコードのペアから109のレコードのペアへの縮小を提案しているが、異なる初期プール・サーズを用意してもよい。縮小比(たとえば約1/1,000)が期待されている。仮定上の初期の2×1012のレコードのペアは、約200万のレコードのデータベースに対応する。レコードのペアのサブセットのサイズは、処理速度(たとえばコンピュータの能力)およびレコードのリンクのタスクに許容されている時間制限(たとえば8時間、1日、3日)に依存する。
この開示の実施態様によれば、与えられたスコア付け方法に関してブロッキング・キーの選択(図2参照)を自動化/最適化することが可能である。したがって、スコア付け方法とブロッキング・キーは関連している。
この開示の実施態様によれば、図2を参照すると、ブロッキング・キーを選択する方法が、データベース201の多数のレコード(N)から形成することができるペア空間(たとえば、用意されたペア空間;図1、101)から、多数(n)のペアをランダムに選択することを含む。数nは、評価が信頼できることを保証する公式によって決定され、たとえば初期プールの5%とする。n個のペアは、スコア付け方法を使用してスコアが付けられ、スレッショルド202に従ってラベルが付けられる(たとえば、整合/非整合)。
スコア付け方法は、初期プールからランダムに選択された多数(たとえば『n』)のレコードのペアにスコアを付ける。このスコア付け方法は、データのプールを生成する。スコアが付けられたレコードの各ペアは、対応するポジションにおける整合状態(たとえば、整合または非整合)およびスコアまたはラベルを表すブール・ベクトルを作る。このデータのプールに基づいて、種々の最適化テクニック(たとえば、機械学習、ブール最適化、線形/整数計画法)をブロッキング・キーの導出に使用することができる。
スレッショルドを超えるスコアを伴うペアには1のラベルが付けられる。スレッショルドに満たないスコアを伴うペアには0のラベルが付けられる。スレッショルドは、たとえば整合すると決定されたフィールドのサブセットの組み合わせとすることができる。たとえば、2つのレコードが複数のフィールドにわたって比較され、それら2つのレコードの類似性が、規則のセットの適用および各フィールドに関連付けされた対応する重みの関数として評価され、結果として類似性スコア、たとえば0〜100の割り当てをもたらす。このスコアがスレッショルド、たとえば65より大きい場合には、そのペアが整合していると見なされ、たとえば1がラベル付けされる。
スコア付け方法によって与えられたスコアは、グラウンド・トゥルース(重複/非重複)の代用として扱われる。標本内のレコードの各ペア(R1、R2)ごとに、たとえば名前フィールドのペア内の各文字を比較する一文字ずつの比較が各フィールド203について行われる。結果は、長さmのバイナリ・ベクトルVとなり、それにおいてmはフィールドの長さの合計である。レコードR1のk番目の文字が、レコードR2のk番目の文字と異なる場合には、値V[k]=0になる。レコードR1のk番目の文字が、レコードR2のk番目の文字と同じであれば、値V[k]=1になる。ポジションは、左から、または右から指定することができる。結果は、サイズn×(m+1)の0/1行列Mであり、それにおいて行の数は標本サイズnであり、列の数は、ラベル204について標準化されたレコードの長さに1を加えた値である。行列Mが与えられると、ブロッキング・キーの決定205が可能になる。行列Mの行はフィールド・ポジションに対応する;各行は、一文字ずつのベースで対応するフィールド・ポジションを比較することによってペアから得られる。
決定されたブロッキング・キーは、レコード・リンク方法の中で実装される(たとえば図1参照)。ブロッキング・キーは、たとえば機械学習方法、論理回路設計方法、または最適化方法によって決定できる。決定されたブロッキング・キーは、マニュアルで修正することができる。
図3を参照すると、機械学習方法は、標本のサイズ(n)301としてデータ・ポイントの数を決定することを含む。各データ・ポイントはm個のバイナリ特徴を有し、それにおいてmは、標準化されたベクトル302の長さである。各データ・ポイントのためのラベルが、スコア付け方法303によって与えられる分類(たとえば0/1)として決定される。いわゆるfalse positiveのコストに対するfalse negativeのコストの比は大きい(304)。分類の陽関数的な形式を決定する際、分類の引数は、ブロッキング・キーである(305)。このほかの、最大尤度方法等の機械学習方法を実装することもできることに注意を要する。
機械学習は、最適化の特殊ケースである。たとえば最適化の観点から、長さ『k』の所望のブロッキング・キーが決定される。『所望』は、キーによって正しくブロック化されるペアの最大数として定義してもよい。キーは、ラベル1を有するペアについて真であり、ラベル0を有するペアについて偽である。
図4を参照すると、論理回路設計は、行列401の最初のm列に対応するm個の引数を取る論理(ブール)関数を指定する行列Mの決定を含む。関数の値は、行列M 402の最後の列内に与えられる。ブール関数は単純化403され、結果として得られる関数は、選言標準形(DNF)404の論理表現Eである。各ブロッキング・キーは、E 405の項に対応する。
論理回路設計については、ブール行列Mをブール関数として見ることができる。もっとも単純なDNF形式の等価ブール関数が求められる。この関数は、ブロッキング・キーのセットを与える。
図5を参照すると、最適化方法は、以前に決定された分類器501の精度測定の決定を含む。精度測定は、ブロッキング・キーの質に対応する。ブロッキング・キーの質は、線形/混合整数計画法502を使用する可能選択肢の空間にわたって明示的に最適化される。
ここで理解する必要があるが、この開示の実施態様に従ったブロッキング・キーの選択のための方法は、種々の形式のハードウエア、ソフトウエア、ファームウエア、専用プロセッサ、またはそれらの組み合わせにおいて実装することができる。一実施態様においては、ブロッキング・キーの選択のための方法を、プログラム・ストレージ・デバイス上において有体として具体化されるアプリケーション・プログラムとしてソフトウエア的に実装することができる。このアプリケーション・プログラムを、任意の適切なアーキテクチャを構成するマシンにアップロードし、それによって実行することができる。
図6を参照すると、この開示の実施態様によれば、ブロッキング・キーの選択のための方法を実装するためのコンピュータ・システム601は、特に、中央処理ユニット(CPU)602、メモリ603、および入力/出力(I/O)インターフェース604を包含することができる。コンピュータ・システム601は、概してI/Oインターフェース604を介してディスプレイ605および種々の入力デバイス606、たとえばマウスおよびキーボード等に結合される。サポート回路は、キャッシュ、電源、クロック回路、および通信バス等の回路を含むことができる。メモリ603は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、ディスク・ドライブ、テープ・ドライブ等、あるいはそれらの組み合わせを含むことができる。ブロッキング・キーの選択のための方法は、メモリ603内にストアされ、CPU 602によって実行される、信号ソース608からの信号を処理するルーチン607として実装することが可能である。したがって、コンピュータ・システム601は汎用コンピュータ・システムであり、この開示のルーチン607の実行時に専用コンピュータとなる。
コンピュータ・プラットフォーム601は、オペレーティング・システムおよびマイクロインストラクション・コードも含む。ここで述べている種々のプロセスおよび関数は、これらのマイクロインストラクション・コードの部品もしくは、オペレーティング・システムを介して実行されるアプリケーション・プログラムの部品のうちのいずれか(またはこれらの組み合わせ)とすることができる。それに加えて、追加のデータ・ストレージ・デバイスおよびプリント・デバイスといった、このほかの種々の周辺デバイスをこのコンピュータ・プラットフォームに接続することもできる。
さらにここで理解が必要であるが、添付図面に図示されている構成システム・コンポーネントならびに方法ステップのいくつかがソフトウエアにおいて実装できることから、システム・コンポーネント(またはプロセス・ステップ)の間の実際の接続が、本発明がプログラムされる態様に応じて異なることがある。ここに提供されているこの開示の教示が与えられれば、本発明のそれらの、および類似の実装もしくは構成を当業者が企図することは可能となろう。
レコードのリンクの問題についてブロッキング・キーを決定するためのシステムおよび方法に関する実施態様を説明してきたが、注意を要することは、以上の教示に照らせば、当業者による修正および変形は可能であるということである。したがって、付随する特許請求の範囲によって定義されるとおりの本発明の精神ならびに範囲内となる開示された本発明の特定の実施態様において変更を行い得ることを理解するべきである。このように本発明を特に特許法によって求められる詳細を用いて説明してきたが、請求されており、かつ特許によって保護されることが望ましいとする本発明は付随する特許請求の範囲に示されるとおりである。
この開示の実施態様に従ったレコードのリンクのための方法のフローチャートである。 この開示の実施態様に従った自動的なブロッキング・キーの選択のための方法のフローチャートである。 この開示の実施態様に従った機械学習方法のフローチャートである。 この開示の実施態様に従った論理回路設計方法のフローチャートである。 この開示の実施態様に従った最適化方法のフローチャートである。 この開示の実施態様に従ったシステムの概略図である。
符号の説明
601 コンピュータ・システム;コンピュータ・プラットフォーム
602 中央処理ユニット(CPU)
603 メモリ
604 入力/出力(I/O)インターフェース
605 ディスプレイ
606 入力デバイス
607 ルーチン
608 信号ソース

Claims (19)

  1. ブロッキング・キーを決定するための方法であって:
    複数のレコードのペアを、データベースの複数のレコードから形成することのできるペア空間からランダムに選択すること;
    前記複数のレコードのペアにスコアを付けること;
    前記複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定すること;
    前記複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、およびそれにおいて前記比較の結果が、バイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであること;および、
    前記バイナリ・ベクトル行列を基礎としてブロッキング・キーを決定すること
    を包含する方法。
  2. 前記選択されるレコードのペアは、前記データベースの前記複数のレコードの約1/1,000を構成する、請求項1に記載の方法。
  3. スレッショルドを超えるスコアを伴うレコードのペアに第1のラベルが与えられ、スレッショルドより低いスコアを伴うレコードのペアに第2のラベルが与えられ、それにおいて前記スレッショルドは、データベースのフィールドのサブセットの組み合わせの数値的表現である、請求項1に記載の方法。
  4. 前記スコアは、グラウンド・トゥルースの代用となる請求項3に記載の方法。
  5. 前記一文字ずつの比較は、各フィールドについて行われ、前記バイナリ・ベクトルは長さを有し、それにおいて前記長さは、フィールド長の合計である、請求項1に記載の方法。
  6. 前記バイナリ・ベクトル行列は、各フィールド内のポジションに対応する行を包含し、各行は、レコードのペアの比較に対応する、請求項1に記載の方法。
  7. ブロッキング・キーを決定するための方法ステップを実行するべくマシンによって実行可能なインストラクションのプログラムを有体として具体化するマシン可読プログラム・ストレージ・デバイスであって、前記方法ステップが:
    複数のレコードのペアを、データベースの複数のレコードから形成することのできるペア空間からランダムに選択すること;
    前記複数のレコードのペアにスコアを付けること;
    前記複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定すること;
    前記複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、およびそれにおいて前記比較の結果が、バイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであること;および、
    前記バイナリ・ベクトル行列を基礎としてブロッキング・キーを決定すること
    を包含する、マシン可読プログラム・ストレージ・デバイス。
  8. 前記選択されるレコードのペアは、前記データベースの前記複数のレコードの約1/1,000を構成する、請求項7に記載のマシン可読プログラム・ストレージ・デバイス。
  9. スレッショルドを超えるスコアを伴うレコードのペアに第1のラベルが与えられ、スレッショルドより低いスコアを伴うレコードのペアに第2のラベルが与えられ、それにおいて前記スレッショルドは、データベースのフィールドのサブセットの組み合わせの数値的表現である、請求項7に記載のマシン可読プログラム・ストレージ・デバイス。
  10. 前記スコアは、グラウンド・トゥルースの代用となる、請求項9に記載のマシン可読プログラム・ストレージ・デバイス。
  11. 前記一文字ずつの比較は、各フィールドについて行われ、前記バイナリ・ベクトルは長さを有し、それにおいて前記長さは、フィールド長の合計である、請求項7に記載のマシン可読プログラム・ストレージ・デバイス。
  12. 前記バイナリ・ベクトル行列は、各フィールド内のポジションに対応する行を包含し、各行は、レコードのペアの比較に対応する、請求項7に記載のマシン可読プログラム・ストレージ・デバイス。
  13. レコードのリンク方法であって:
    データベースのレコードのペアのプールのサブセットから、少なくとも1つのブロッキング・キーを自動的に決定すること;
    前記レコードのペアのプールを、前記自動的に決定したブロッキング・キーを使用してフィルタリングすること;
    前記ブロッキング・キーによってフィルタリングされた複数のレコードのペアにスコアを付けること;および、
    フィルタリング後の所望のスコアを有するレコードのペアをレポートすること
    を包含する方法。
  14. 少なくとも1つのブロッキング・キーを自動的に決定することは、前記データベースのレコードのペアのプールから複数のレコードのペアをランダムに選択することを包含する、請求項13に記載の方法。
  15. さらに、前記ランダムに選択した複数のレコードのペアにスコアを付けることを包含する、請求項14に記載の方法。
  16. さらに、前記ランダムに選択した複数のレコードのペアのそれぞれのスコアとスレッショルドを比較して各レコードのペアのためのラベルを決定することを包含する、請求項15に記載の方法。
  17. さらに、前記ランダムに選択した複数のレコードのペアのそれぞれの各フィールドを一文字ずつ比較すること、およびそれにおいて前記比較の結果が、バイナリ・ベクトル行列内に入れられるバイナリ・ベクトルであることを包含する、請求項16に記載の方法。
  18. さらに、前記バイナリ・ベクトル行列を基礎としてブロッキング・キーを決定することを包含する、請求項17に記載の方法。
  19. 前記決定が、機械学習方法、論理回路方法、および現行のブロッキング・キーの最適化のうちの少なくとも1つに従って行われる、請求項18に記載の方法。
JP2007501973A 2004-03-05 2005-03-03 ブロッキング・キー選択のためのシステムおよび方法 Abandoned JP2007538304A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US55087604P 2004-03-05 2004-03-05
US11/070,463 US20050246330A1 (en) 2004-03-05 2005-03-02 System and method for blocking key selection
PCT/US2005/006900 WO2005093554A2 (en) 2004-03-05 2005-03-03 System and method for blocking key selection

Publications (1)

Publication Number Publication Date
JP2007538304A true JP2007538304A (ja) 2007-12-27

Family

ID=34961728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007501973A Abandoned JP2007538304A (ja) 2004-03-05 2005-03-03 ブロッキング・キー選択のためのシステムおよび方法

Country Status (6)

Country Link
US (1) US20050246330A1 (ja)
EP (1) EP1721242A2 (ja)
JP (1) JP2007538304A (ja)
AU (1) AU2005226042B2 (ja)
CA (1) CA2564618A1 (ja)
WO (1) WO2005093554A2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070174277A1 (en) * 2006-01-09 2007-07-26 Siemens Medical Solutions Usa, Inc. System and Method for Generating Automatic Blocking Filters for Record Linkage
US8560505B2 (en) 2011-12-07 2013-10-15 International Business Machines Corporation Automatic selection of blocking column for de-duplication
US9542412B2 (en) * 2014-03-28 2017-01-10 Tamr, Inc. Method and system for large scale data curation
US10242106B2 (en) * 2014-12-17 2019-03-26 Excalibur Ip, Llc Enhance search assist system's freshness by extracting phrases from news articles

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3294326B2 (ja) * 1992-07-09 2002-06-24 株式会社日立製作所 データ処理方法および装置
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5560005A (en) * 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US5819291A (en) * 1996-08-23 1998-10-06 General Electric Company Matching new customer records to existing customer records in a large business database using hash key
US6014733A (en) * 1997-06-05 2000-01-11 Microsoft Corporation Method and system for creating a perfect hash using an offset table
US6374241B1 (en) * 1999-03-31 2002-04-16 Verizon Laboratories Inc. Data merging techniques
US6523019B1 (en) * 1999-09-21 2003-02-18 Choicemaker Technologies, Inc. Probabilistic record linkage model derived from training data
US7219056B2 (en) * 2000-04-20 2007-05-15 International Business Machines Corporation Determining and using acoustic confusability, acoustic perplexity and synthetic acoustic word error rate
US6751628B2 (en) * 2001-01-11 2004-06-15 Dolphin Search Process and system for sparse vector and matrix representation of document indexing and retrieval
US6785684B2 (en) * 2001-03-27 2004-08-31 International Business Machines Corporation Apparatus and method for determining clustering factor in a database using block level sampling
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JP3870043B2 (ja) * 2001-07-05 2007-01-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 大規模データベースにおける主要クラスタおよびアウトライア・クラスタの検索、検出および同定のためのシステム、コンピュータ・プログラム、およびサーバ
IES20020647A2 (en) * 2001-08-03 2003-03-19 Tristlam Ltd A data quality system
US6826566B2 (en) * 2002-01-14 2004-11-30 Speedtrack, Inc. Identifier vocabulary data access method and system
US7120623B2 (en) * 2002-08-29 2006-10-10 Microsoft Corporation Optimizing multi-predicate selections on a relation using indexes

Also Published As

Publication number Publication date
AU2005226042A1 (en) 2005-10-06
US20050246330A1 (en) 2005-11-03
WO2005093554A3 (en) 2008-10-30
WO2005093554A2 (en) 2005-10-06
EP1721242A2 (en) 2006-11-15
CA2564618A1 (en) 2005-10-06
AU2005226042B2 (en) 2009-01-15

Similar Documents

Publication Publication Date Title
US8230259B2 (en) Automatic analysis of log entries through use of clustering
US7840553B2 (en) Recommending materialized views for queries with multiple instances of same table
US10504035B2 (en) Reasoning classification based on feature pertubation
US20180067973A1 (en) Column weight calculation for data deduplication
GB2513472A (en) Resolving similar entities from a database
CN110209790B (zh) 问答匹配方法和装置
AU2017251771B2 (en) Statistical self learning archival system
US11829848B2 (en) Adding negative classes for training classifier
US20230205755A1 (en) Methods and systems for improved search for data loss prevention
US20220229854A1 (en) Constructing ground truth when classifying data
GB2493587A (en) Entity resolution system identifying non-distinct names in a set of names
US11941502B2 (en) Manifold-anomaly detection with axis parallel
US11341547B1 (en) Real-time detection of duplicate data records
JP2007538304A (ja) ブロッキング・キー選択のためのシステムおよび方法
Makri et al. Towards a more accurate and fair SVM-based record linkage
JP5049965B2 (ja) データ処理装置及び方法
US11347718B2 (en) Manifold-anomaly detection with axis parallel explanations
US20220382891A1 (en) Detecting sensitive information in records using context and decoys
US20220351068A1 (en) Model bias detection
US20220351071A1 (en) Meta-learning data augmentation framework
de Bruin Record Linkage Toolkit Documentation
CN111738358B (zh) 一种数据识别方法、装置、设备和可读介质
US9846739B2 (en) Fast database matching
WO2013071953A1 (en) Fast database matching
CN109063702B (zh) 车牌识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20090602