JP2011503681A - データ記録を一致させるシステムの分析のための方法およびシステム - Google Patents
データ記録を一致させるシステムの分析のための方法およびシステム Download PDFInfo
- Publication number
- JP2011503681A JP2011503681A JP2010527211A JP2010527211A JP2011503681A JP 2011503681 A JP2011503681 A JP 2011503681A JP 2010527211 A JP2010527211 A JP 2010527211A JP 2010527211 A JP2010527211 A JP 2010527211A JP 2011503681 A JP2011503681 A JP 2011503681A
- Authority
- JP
- Japan
- Prior art keywords
- bucket
- analyzing
- entity
- data
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000007405 data analysis Methods 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 34
- 238000012552 review Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 19
- 239000000203 mixture Substances 0.000 claims description 16
- 230000000694 effects Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000012986 modification Methods 0.000 abstract description 6
- 230000004048 modification Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 239000012491 analyte Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 230000008676 import Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- DWHCYDWXLJOFFO-UHFFFAOYSA-N 4-(5-phenylthiophen-2-yl)aniline Chemical compound C1=CC(N)=CC=C1C1=CC=C(C=2C=CC=CC=2)S1 DWHCYDWXLJOFFO-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 235000012791 bagels Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0769—Readable error formats, e.g. cross-platform generic formats, human understandable formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
Abstract
Description
本願は、米国仮特許出願第60/997,038号(名称「METHOD AND SYSTEM FOR ANALYSIS OF A SYSTEM FOR MATCHING DATA RECORDS」、2007年9月28日出願、代理人整理番号)の優先権を主張し、この出願は、その全体が本明細書に参考として援用される。
本開示は、概して、データ記録を関連付けることに関し、より具体的には、これらのデータ記録が関連付けられ得るように、同じ実体に関する情報を含有し得るデータ記録を識別することに関する。さらに具体的には、本明細書で開示される実施形態は、データ記録の識別および関連付けのためのシステムの分析に関し得、そのようなシステムの性能および構成に関係付けられた分析を含む。
今日および現在の時代では、事業の圧倒的多数が、在庫、顧客、製品等の、運営の種々の側面に関する甚大な量のデータを保持している。人、製品、部品、または他のもの等の実体に関するデータは、コンピュータデータベース等のデータ蓄積にデジタル形式で記憶され得る。これらのコンピュータデータベースは、実体に関するデータが迅速にアクセスされることを可能にし、データが同じ実体に関するデータの他の関連部分と相互参照されることを可能にする。データベースはまた、同じ実体に関する種々のデータ蓄積からのデータ記録が相互と関連付けられ得るように、個人がデータベースに問い合せを行い、特定の実体に関するデータ記録を見出すことも可能にする。
種々のソースからのデータ記録は、形式およびそれらが含有するデータの両方で異なる場合があるため、データ処理システムの構成は、非常に困難な作業を提示する場合がある。部分的には、構成過程が、データ記録の関連付けに利用されているシステムのアーキテクチャおよび能力の多大な専門知識、加えて、データ記録を関連付けるために使用されるアルゴリズムの結果として生じる構成が所望の結果をもたらすことを確実にするように、大規模な分析および細部への細心の注意を必要とする、手動集中作業となる場合があるため、これらの困難が引き起こされる。
ナビゲータ表示は、ワークベンチアーチファクトをブラウズするためのツリー構造を提供する。ナビゲータ表示から、以下の機能にアクセスすることができる。
・プロジェクトディレクトリを詳しく検討する
・プロジェクトファイルを開き、閲覧する
・プロジェクトファイルをコピーし、貼り付け、削除し、名前を変更する
・リソースをインポートする
・インポートしたリソースを更新する
・ファイルの作業集合を選択する(および作業集合において使用されないファイルを隠す)
・ファイルの作業集合を非選択状態にする
プロパティ表示は、ユーザによって作成された任意の構成要素のプロパティ値をユーザが編集できるようにする。
問題表示は、ワークベンチにおける構成および有効化の問題の一覧を提供する。ほとんどの有効化は、プロジェクトにおけるファイルリソースが保存された時に行われるため、エラーを即座に表示することができる。
コンソール表示は、広範なバックグラウンドタスク中に進捗メッセージおよびエラーを示す。
ジョブ表示は、ジョブまたはジョブ集合の進捗または完了(実行済み)状態を示す。ジョブ表示についてのさらなる詳細を、図8Aおよび8Bを参照して以下で説明する。
分析物表示は、分析的クエリの結果を表示する。この表示でデータを見るためには、ワークベンチは、ハブがクエリを表示するためにハブに接続される必要がある。
検索表示は、既存の構成に対する検索の結果を表示する。ユーザは、検索表示中の行をダブルクリックすることによって、構成オブジェクトを開くことができる。
・フロー―フローファイル(.iflow)を含有する
・機能―あらゆるカスタム機能を含有する
・lib―配備のために必要とされる、あらゆる付加的なJava(登録商標)コードライブラリファイル(.jar)を含有する
・サービス―プロジェクトにインポートされる全てのデータソースWSDLファイル(.wsdl)を含有する
・src―必要とされる、あらゆる付加的なJava(登録商標)ソースファイル(.java(登録商標))を含有する
・anonutil―サンプルデフォルト値ファイルおよびフィルタファイルを含有する
・ハンドラ―Java(登録商標)ハンドラをパッケージングするためのスクリプティングサポートを含有する
・ジョブ―ハブとプロジェクトとの登録と関係付けられた情報を含有する
・構成をハブに配備する
・重みを生成する
・閾値分析ペアを作成する
・ハブからファイルを検索する
このユーティリティは、構成プロジェクトをハブに配備する。このジョブは、(上記で説明される「initiate」メニューオプションの代わりに)別のジョブと併せて配備を行うために使用することができる。このジョブが実行されると、ハブは自動的に停止され、再起動される。「Initiate」メニュー62から実行する時に、以下のオプションが利用可能である。
・重みテーブルを配備する。このオプションは、選択されると、選択されたワークベンチプロジェクトディレクトリにおける重みテーブルがハブに配備されることを可能にする。
・必要であれば、データベーステーブルを作成および/またはドロップする。このオプションは、選択されると、構成を支援するように、データベーステーブル操作が必要に応じて行われることを可能にする。
・グループ同期化をチェックする。このオプションは、選択されると、ローカルで一覧化されたジョブグループが、ハブにおいて定義されたグループとともに最新であることをチェックする。一実施形態では、このオプションが選択され、グループが一致しない場合は、配備が中止されてもよい。
このユーティリティは、重み生成タスクを行う。このジョブは、入力として導出データ(比較データおよびバケッティングデータ)を必要とする。いくつかの実施形態では、導出データファイルは、上記で説明される標準化ならびにバケッティングステップ320および330中に、mpxdata、mpxprep、mpxfsdvd、またはmpxredvd等のユーティリティによって、生成されてもよい。一例として、図8Aは、構成エディタ401の一実施形態を通して、このジョブをどのように構成することができるかを示す、スクリーンショット80aを図示する。具体的には、実体型式id84について、構成エディタ401の一実施形態は、ステップ、入力および出力、性能調整、オプション、およびログオプションを含む、複数のタブを示してもよい。いくつかの実施形態では、ステップタブは、ユーザが、実行する重み生成ステップを選択し、過程の終わりまで後続ステップを実行するかどうかを示すことを可能にしてもよい。重み生成ステップの例は、以下を含んでもよい。
・以前の実行からアーチファクトを削除する
・全ての属性値のカウントを生成する
・メンバーのランダムペアを生成する
・ランダムメンバーを比較することによってランダムデータを導出する
・一致した候補ペアの換算を行う
・一致した集合、一致した統計値、および初期重みを生成する
・属性が少なすぎるため、最後のステップを飛ばして進む
・以前のステップを反復し、重みの収束についてチェックする
・過程の終わりまで残りの全てのステップを実行する
・BXM入力ディレクトリ:そこからバルク交差一致結果が読み出される、入力ディレクトリを特定する。このディレクトリは、導出データを生成したmpxユーティリティによって使用される、出力ディレクトリを一致させなければならない。
・作業ディレクトリ:重みテーブルがワークベンチプロジェクト内に保存されるものである、ディレクトリを特定する。一実施形態では、デフォルトは重みディレクトリである。全てのファイルは、実体型式に対して名前を付けられた、特定された作業ディレクトリ内のサブディレクトリに保存される。
・FRQ出力ディレクトリ:生成された属性頻度データが書き込まれる、出力ディレクトリを特定する。
・UPAIRS出力ディレクトリ:生成されたランダムペアデータが書き込まれる、出力ディレクトリを特定する。
・USAMPS出力ディレクトリ:生成された不一致サンプルペアデータが書き込まれる、出力ディレクトリを特定する。
・MPAIRS出力ディレクトリ:生成された一致ペアデータが書き込まれる、出力ディレクトリを特定する。
・MSAMPS出力ディレクトリ:生成された一致ペアサンプルデータが書き込まれる、出力ディレクトリを特定する。
・RUN出力ディレクトリ:生成された重みが書き込まれる、出力ディレクトリを特定する。このディレクトリには、各反復の増分数が付加される。
・スレッドの数
・最後のステップにおける反復の最大数
・比較バケットパーティションの数
・ランダムペアバケットパーティションの数
・一致ペアバケットパーティションの数
・頻度パーティションの数
・入力/出力パーティションの最大数
・監査に使用されるAudrecno
・生成するランダムペアの数
・処理された記録を報告するための間隔
・最大バケット集合サイズ
・アイテム記録を書き込むための最小重み
・コード化。いくつかの実施形態では、ワークベンチ20は、LATIN1、UTF8、およびUTF16コード化を支援する。他のコード化方法論も利用されてもよい。異なる言語によるデータ記録を構文解析するステップに対するさらなる教示については、参照することにより本明細書に組み込まれる、「METHOD AND SYSTEM FOR PARSING LANGUAGES」と題された2007年12月31日出願の米国特許出願第11/967,588号が読者に指示される。
・監査。いくつかの実施形態では、ワークベンチ20は、データ記録の集合の監査を支援する。
・比較モード。いくつかの実施形態では、このオプションは、比較機能を制限するために使用することができる。例えば、一致およびリンクのみに対する重みを生成する、検索のみに対する重みを生成する、または、一致、リンク、および検索に対する重みを生成する。
・属性一致ペア率閾値(wgtNRM)―比較で使用される第3のフィルタの閾値を定義する。
・属性一致ペア閾値(wgtABS)―属性比較で使用される第2のフィルタの閾値を定義する。
・収束閾値(wgtCNV)―重み生成変換の許容値を定義する。
・初期重み推定値のデータ品質率(wgtQOD)―一致集合エラー率を定義する。
・検出漏れ率(wgtFNR)―事務的レビューおよび自動リンク閾値を計算するために使用される、検出漏れ率を定義する。
・誤検出率(wgtFPR)―事務的レビューおよび自動リンク閾値を計算するために使用される、誤検出率を定義する。
・一致ペア閾値(wgtMAT)―比較で使用される第1のフィルタの閾値を定義する。
・最小属性数(wgtFLR)―属性値頻度数に対する下限を定義する。
・トレースロギング
・デバッグログ
・タイマロギング
・SQLロギング
候補自動リンク閾値は、ファイルサイズおよび許容誤検出率に依存する。fprを許容誤検出率(デフォルト値10∧(−5))にし、numをデータ集合の中の記録の数にする。すると、候補自動リンク閾値は、thresh_al=−ln[−ln(1−fpr)/num]/ln(10)であり、式中、lnは、自然(ベースe)対数である。
候補の事務的レビュー閾値は、所望の検出漏れ率(fnr)に基づいて設定される。例えば、重複の95%が上記の我々の事務的レビュー閾値を採点することが所望される場合、デフォルトは0.05で設定される。実際のfnr値は、一致のために計算される重み、各属性が有効値を有する時間の分率、およびこれらの値の分布に依存してもよい。一致集合スコアの実験的分布を判定し、この分布から事務的レビュー閾値を計算するために、ブートストラップ手順が使用されてもよい。このブートストラップのために、以下のように、ランダムメンバーの一覧を生成し、各メンバーの情報を計算し、このサンプルから実験的分布を形成する。
f_1+f_2+...+f_j>fnr
となるように、jを第1の指数とし、
次いで、候補の事務的レビュー閾値は、
thresh_cl=s_min+(j−1)*0.1である。
このクエリは、サイズ(実体におけるメンバーの数)の特定した範囲に一致する実体について問い合せを行う能力を提供する。最小または最大サイズのいずれかに対して0という値を特定することにより、制限がない(最小値がない、または最大値がない)ことを示す。
このクエリは、特定した実体の内容を示す。図12Aが例示するように、結果として生じるテーブルは、特定した実体の中にあるメンバー記録IDおよびソースID、ならびに各メンバーの比較データを一覧化する。比較データは、比較役割によって、テーブルの個々の列に分割することができる。
このクエリは、サイズに関する際のハブにおける全ての実体の総合的表示を提供する。表示は、チェックされたソースのみから実体を示すように、フィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。
このクエリは、メンバー記録を、特定した実施形態における全てのメンバーに対して(図12B参照)、または特定したメンバーの集合と比較する機構を提供する。
このクエリは、メンバーが実体において出現する頻度、つまり、1つの実体の中にいるメンバーの数、2つの実体の中にいる数、3つの実体の中にいる数等を示す。
このクエリは、メンバーが所属する実体を示す。
このクエリは、実体の特定した範囲内にいるメンバー(例えば、3つ以上の実体の中にいる全てのメンバー)の一覧を示す。最大数が特定されなければ、0という値が「実体の最大数」フィールドに示される。そうでなければ、実体値の最大数は、実体の最小数以上でなければならない。
このクエリは、システムにおける全ての記録ペアに対するスコアの分布を示す。いくつかの実施形態では、単一のメンバー実体、または3つ以上のメンバー実体を伴う記録が、結果に含まれなくてもよい。いくつかの実施形態では、各スコアに対するペアの数は、所与のスコア範囲内の全カウントの合計であってもよい。例えば、27というx軸のスコア値は、26.1から27.0の間で採点する全てのペアを表してもよい。表示は、チェックされたソースのみから実体を示すようにフィルタにかけられてもよい。実体がチェックされたソースならびにチェックされていないソースにおけるメンバーから成る場合には、実体に対して示されたサイズが、チェックされたソースのみにおけるメンバー記録のカウントとなる。特定の連鎖型式に対して結果が示されなければ、その連鎖型式および/または選択されたソースの集合に対する基準を満たす実体がない場合がある。
このクエリは、全てのソースおよび個々のソースからの記録がメンバー型式の属性に対する値を有する、時間の割合を示す。高い割合で存在する値は、アルゴリズムで使用するための潜在的候補と見なされるべきである。いくつかの実施形態では、初期設定で、結果は、属性名でソートされてもよい。いくつかの実施形態では、結果は、列でソートされてもよい。いくつかの実施形態では、ソートは、結果として生じるテーブルが、特定したソースに含有されるメンバー型式の記録の割合を一覧化してもよいように、フィルタにかけられてもよい。
このクエリは、ハブのバケッティング戦略の健全性について何らかの一般情報を提供する。図14で例示されるように、一実施形態では、表示の上半分は、大型バケット、バケットされていないメンバー等の数等の情報で満たされてもよい。大型バケットおよび/またはバケットされていないメンバーの特定の範囲は、適切なボタンをクリックすることによって閲覧することができる。より具体的には、「バケットを閲覧する」ボタンをクリックすることにより、「サイズ別のバケット」表示を選択し、所望の範囲のバケットサイズでクエリを実行する。「メンバーを閲覧する」ボタンをクリックすることにより、「バケット別のメンバー」表示を選択し、バケットがないメンバーを示すようにクエリを実行する。この実施例では、図14で図示された表示の底部領域は、10個の最大バケットを、それらのバケットのハッシュ値、バケットを生成したバケット役割、ならびにそれらのバケットにおけるメンバーのうちの1つからのバケット値とともに示す。バケット値は、同じバケットにおける全てのメンバーに対して同一であってもよい。バケットハッシュを選択し、「バケットを閲覧する」ボタンをクリックすることにより、バケット組成クエリを実行し、そのハッシュコードに対して、選択バケットのメンバーおよびそれらのメンバーのバケット値で、表示にデータ投入する。
このクエリは、特定したバケットの内容を示す。結果として生じるテーブルは、特定したバケットの中にあるmemrecnos、ならびにそのバケットにおける各メンバーに対するバケット役割およびバケット値を一覧化する。示されたバケット値は、データベース中のメンバーデータから新たに計算された、実際のバケット値である。異なるバケット値が同じバケットハッシュに対して現れた場合には、それはバケットハッシュ衝突を示す。これは、異常と見なされ、通常は相互に対して比較しない、あるメンバーが、なぜ相互に対して比較されているのかを説明する場合がある。しかしながら、そのような状態は一般に、システムの健全性にとって有害であると見なされない。いくつかの実施形態では、結果として生じるテーブルで行を選択し、「メンバーを閲覧する」ボタンをクリックすることにより、メンバーバケット値クエリを実行して、選択されたメンバーのバケットの全てを示し、「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ420を開き、特定したバケットを作成したバケット役割を選択する(図9A参照)ように、このクエリに対する表示は、「メンバーを閲覧する」ボタンおよび「アルゴリズムを閲覧する」ボタンを含んでもよい。
このクエリは、サイズに関する際のハブにおける全てのバケットの総合的表示を提供する。いくつかの実施形態では、大型バケットは、表示の右側に示され、緑(より小さいバケット)から黄色(中間サイズのバケット)になり、赤(大型バケット)になる、色インジケータによって示される。バケットサイズ分布を描画するグラフ中のデータ点は、左(より小さいバケット)から右(より大きいバケット)へと下向きの曲線を辿ってもよい。したがって、バケットサイズ分布グラフの右側の広範なデータ点が、関心の領域となってもよく、見逃した匿名値、誤った閾値、およびデータの問題等を示し得る。いくつかの実施形態では、データ点をクリックすることにより、「サイズ別のバケット」表示を選択し、そのサイズのバケットにクエリを実行する。いくつかの実施形態では、データ点をクリックする前にコントロールキーを押すことによって、クエリが、そのサイズ以上のバケットを示してもよい。
このクエリは、サイズ(バケットにおけるメンバーの数)の特定した範囲に一致するバケットについて問い合せを行う能力を提供する。例えば、最小または最大サイズのいずれかに対して0という値を特定することにより、制限がない(最小値がない、または最大値がない)ことを示す。いくつかの実施形態では、結果として生じるテーブルは、メンバーカウント、バケットハッシュ、バケット役割、およびバケットのメンバーのうちの1つからのサンプルバケット値を示してもよい。再度、バケット値は、所与のバケットにおける全てのメンバーに対して同じであってもよい。これの1つの例外は、同じバケットハッシュを有する異なるバケット値をもたらした、ハッシュ衝突があった場合である。この状態をチェックするために、ユーザは、バケットを選択し、「バケットを閲覧する」ボタンをクリックして、所与のバケットに対するメンバーの全て、およびそれらのバケット値を閲覧することができる。特定のバケット役割に問題が存在する(頻度ベースのバケッティングの不足等)と判定された場合、テーブルの行を選択し、「アルゴリズムを閲覧する」ボタンをクリックすることによって、アルゴリズムエディタ420を開くことができる。このことは、アルゴリズムエディタ420を提示し、選択されたバケットを作成した特定のバケット役割を選択する(図9A参照)。
このクエリは、mpxcompジョブ上で特定される最大バケット集合サイズパラメータ(バケットサイズ制限)に関する際にバルク交差一致に必要とされる比較の数を計算する。次いで、この比較の数は、バルク交差一致の近似完了時間を判定するために、スレッドの数および毎秒の1スレッドあたりの比較の数とともに使用することができる。
この表示は、棒グラフまたは同等物の形で、「1つのバケット、2つのバケット、3つのバケット等の中に、いくつメンバーがいるか」という質問に答える。0というx軸データ点は、バケットされていないメンバーの数を示し、いくつかの実施形態では、グラフの棒をクリックすることにより、「バケットカウント別のメンバー」表示を選択し、クエリを実行して、その多くのバケットを伴うメンバーを示す。
この表示は、特定したメンバーがどのようなバッケットの中にいるかを示す。結果テーブルは、バケットハッシュ、バケット値、および各バケットを生成したバケット役割を示す。いくつかの実施形態では、バケットを選択し、「バケットを閲覧する」ボタンをクリックすることにより、「バケット組成」表示を選択し、クエリを実行して、選択されたバケットハッシュに対するバケット組成を示す。「アルゴリズムを閲覧する」ボタンをクリックすることにより、アルゴリズムエディタ420を開き、そのバケットの作成に関与したバケット役割を選択する(図9A参照)。
この表示は、行われている比較の数に関する際のシステムの推定性能を示す。つまり、検索が行われる時に、実際の比較がいくつ行われるか、ということである。一例として、メンバー比較分布図は、平均で3つの比較が行われることを示してもよい。より具体的には、いくつかの実施形態では、10に1つの比較が約6個の比較をもたらし、100に1つが7.5となり、1000に1つの比較が8個の比較をもたらす。このデータは、システムからの20,000のランダムにサンプリングされたメンバーに基づく。20,000未満のメンバーがシステムにいる場合は、全てのメンバーが使用される。平均で、標的メンバーは、その標的メンバーとバケットを共有する全てのメンバーに対して比較される。
この表示は、メンバーが含有されるバケットの数に基づいて、メンバーに対するクエリを提供する。いくつかの実施形態では、0という最小値および最大値を特定することにより、バケットされていないメンバーを返す。0より大きい最小値については、0という最大値は制限を示さない。いくつかの実施形態では、結果として生じるテーブルは、memrecno、メンバーがいるバケットの数、ならびにそのメンバーに対するcmpd文字列を示す。いくつかの実施形態では、メンバーを選択し、「メンバーを閲覧する」ボタンをクリックすることにより、「メンバーバケット値」表示を閲覧して、メンバーが現れる全てのバケットを示す。
このクエリは、重複メンバー(同じ実体に結び付く同じソースからのメンバー記録)についての種々のエラー率を示す。図15で例示されるように、一実施形態では、結果として生じるテーブルの最初の4列は、メンバーの数、実体の数、重複集合の数、およびそれらの重複集合の中のメンバーの数といった、ハブデータベースからの未加工データ(ソース別に分類される)を示してもよい。最後の3列は、これらの値から計算することができる、種々のエラー率を一覧化してもよい。
・記録エラー率―重複を解決するために、いくつの記録を見なければいけないか、またはいくつの記録がメンバーの不完全像を有するかを示す。
・実体重複率―いくつのメンバーが重複記録を有するか、またはランダムなメンバーが重複記録を有する確率を示す。
・記録重複率―いくつの記録が重複しているか、またはあるいは、排除することができる記録の割合を示す。
このクエリは、ハブにおける重畳の数についての情報を提供する。重畳は、実体が複数のソースからの記録を有する時に存在する場合がある。例えば、3つの記録を伴う実体が存在し、各記録が別個のソースシステムの中にある場合には、各ソースは、その中に2つの重畳を有すると言われる(AとB、AとC等)。いくつかの実施形態では、結果として生じるテーブルは、特定したソースにおいて表される一意の実体の数、ならびにそのソースの中の記録によって表される全ての実体の割合を示してもよい。いくつかの実施形態では、結果として生じるテーブルはまた、少なくとも1つの他のソースにおいて重畳する実体(これらの実体は、別のソースにおいて少なくとも1つの記録を有する)のカウントおよび割合を示してもよい。複数の他のソースにおける重畳を伴う実体は、いったん結果として生じるテーブルに入ると、数えられるのみであってもよい。いくつかの実施形態では、結果として生じるテーブルはまた、ソースの組み合わせ別に各ソースを示してもよい。例えば、行および列ソースが同じである時に、カウントの割合は100%である。しかしながら、行および列ソースが一意である時、カウントは、行ソースシステムと列ソースシステムとの間に存在する重畳の数を表す。したがって、パーセント値は、列ソースにおいて重畳を有する行ソースにおける実体の割合を表す。
採点するために尤度比を使用することの1つの利点は、固定閾値に対する統計的誤検出率を概算するために使用することができる、理論的な式が存在することである。このことはまた、適正に行われると、誤一致である一致の確率が、実データではなくスコアのみに依存することも意味する。
いったんサンプルペア(サンプリングが均一であると仮定する)が採点されると、新規自動リンク(AL)閾値を計算することができる。このために必要な情報は、以下を含んでもよい。
・採点されたペアを含有するファイル。ファイルは、各ペアに対するスコアと、ペアにおける2つの記録が同じ個人を表してもよい(SP)、同じ個人を表さない(NSP)、または判定を行うのに十分な情報がない(NEI)という指標とを含有してもよい。それに応じて、採点手順から値が割り当てられてもよい。例えば、1はSPを意味し、0はNSPを意味し、−1はNEIを意味する。
・BXMによって生成されたペアの総数のスコア別のカウント(ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、両方のメンバーがフィルタにかけられたソースの中にある、ペアのカウントである)。
・データベース中の記録の数(ランダムペアが生成された時にソースがフィルタにかけられた場合、これは、これらのソースの中の記録のカウントである)。
いったん適切な自動リンク閾値が判定されると、事務的レビュー(CR)閾値の関数として、タスクの数の推定値を判定することができる。これは、自動リンクに合計することによって、スコア別のペアカウントから得ることができる。ユーザは、固定数のタスクをもたらすようにCR閾値を調整してもよい。図17は、システム性能と、アイデンティティハブにおける連鎖メンバー記録と関連付けられた誤検出および検出漏れ率に対する許容値との間の関係を図示する。図17の実施例では、ALおよびCR閾値が、12の事務的レビュータスクをもたらす。
Claims (20)
- データ記録を一致させるためのシステムを分析するための方法であって、
最初のデータ記録の集合を利用して、該システムの構成を生成することと、
該システムの該構成と関連付けられたバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づいて作成されたバケットを分析することと、
該システムの性能に対する該バケットの効果を分析することと、
それに応じて該バケッティング戦略を変更することと
を含む、方法。 - 前記バケッティング戦略を前記変更することはさらに、前記バケットを作成する際に利用されるアルゴリズムを編集すること、または該アルゴリズムと関連付けられた1つ以上のパラメータ値を変更することを含む、請求項1に記載の方法。
- 前記アルゴリズムは、実体型式と関連付けられる、請求項2に記載の方法。
- 前記システムにおいて前記実体型式を有するものとして分類される実体を分析するステップをさらに含む、請求項3に記載の方法。
- 前記実体を前記分析することはさらに、実体サイズ分布を分析すること、該実体をサイズで分析すること、該実体を組成で分析すること、該実体と関連付けられたスコア分布を分析すること、該実体と関連付けられたメンバー比較を分析すること、またはそれらの組み合わせを含む、請求項4に記載の方法。
- 前記最初のデータ記録の集合を分析することをさらに含む、請求項1に記載の方法。
- 前記最初のデータ記録の集合を前記分析することは、さらに、該最初のデータ記録の集合の属性の有効性を分析することを含む、請求項6に記載の方法。
- 前記バケットを前記分析することは、さらに、該バケットと関連付けられた統計値を分析すること、バケットサイズ分布を分析すること、該バケットをサイズで分析すること、該バケットを組成で分析すること、バルク交差一致比較分布を分析すること、メンバーをバケットカウントで分析すること、メンバーバケット値を分析すること、メンバーバケット頻度を分析すること、メンバー比較分布を分析すること、またはそれらの組み合わせを含む、請求項1に記載の方法。
- 前記最初のデータ記録の集合と関連付けられたエラー率を分析することをさらに含み、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項1に記載の方法。
- 前記システムの前記構成は、事務的レビュー閾値と、自動リンク閾値とを備え、該事務的レビュー閾値および該自動リンク閾値は、前記最初のデータ記録の集合を一致させる際に、誤検出および検出漏れ率に対する該システムの許容値を示し、該事務的レビュー閾値および該自動リンク閾値を分析することをさらに含む、請求項1に記載の方法。
- プロセッサによって実行可能であるコンピュータ命令を記憶する、コンピュータ可読記憶媒体であって、該プロセッサによって実行されると、該コンピュータ命令は、コンピュータに、
最初のデータ記録の集合を利用して、システムの構成を生成することと、
該システムの該構成と関連付けられるバケッティング戦略に従って、該最初のデータ記録の集合またはそれの部分集合に基づくバケットを作成することと、
該バケット、および該システムの性能に対する該バケットの効果を分析することと、
ユーザが該バケッティング戦略を変更することを可能にすることと
を実行させる、コンピュータ可読記憶媒体。 - 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにアルゴリズムエディタを表示させ、それを介して、前記バケットを作成する際に利用されるアルゴリズムは、前記ユーザによって編集可能である、請求項11に記載のコンピュータ可読記憶媒体。
- 前記バケッティング戦略は、実体型式と関連付けられ、前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに実体分析ツールを表示させ、それを介して、前記システムにおいて該実体型式を有するものとして分類される実体は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記実体分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、実体サイズ分布を分析し、前記実体をサイズで分析し、該実体を組成で分析し、該実体と関連付けられたスコア分布を分析し、そして、該実体と関連付けられたメンバー比較を分析することをできるようにする、請求項11に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにデータ分析ツールを表示させ、それを介して、前記最初のデータ記録の集合は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記データ分析ツールを介して少なくとも1つの機能を提供させ、該少なくとも1つの機能は、前記ユーザが、前記最初のデータ記録の集合の属性の有効性を分析できるようにする、請求項15に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータにバケット分析ツールを表示させ、それを介して、前記バケットおよび該バケットと関連付けられた統計値は、前記ユーザによって分析可能である、請求項11に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに、前記バケット分析ツールを介して複数の機能を提供させ、該複数の機能は、前記ユーザが、バケットサイズ分布を分析し、前記バケットをサイズで分析し、該バケットを組成で分析し、バルク交差一致比較分布を分析し、メンバーをバケットカウントで分析し、メンバーバケット値を分析し、メンバーバケット頻度を分析し、そして、メンバー比較分布を分析できるようにする、請求項17に記載のコンピュータ可読記憶媒体。
- 前記プロセッサによって実行されると、前記コンピュータ命令はさらに、前記コンピュータに連鎖分析ツールを表示させ、それを介して、前記最初のデータ記録の集合と関連付けられた前記エラー率は、前記ユーザによって分析可能であり、該エラー率は、記録エラー率と、個人エラー率とを含む、請求項11に記載のコンピュータ可読記憶媒体。
- アイデンティティハブを分析するためのコンピュータシステムであって、
少なくとも1つのプロセッサと、
該少なくとも1つのプロセッサによってアクセス可能であり、該少なくとも1つのプロセッサによって実行可能なコンピュータ命令を記憶する、少なくとも1つのコンピュータ可読記憶媒体と
を備え、
該少なくとも1つのプロセッサによって実行されると、該コンピュータ命令は、該コンピュータシステムに、構成エディタ、アルゴリズムエディタ、データ分析ツール、実体分析ツール、バケット分析ツール、および連鎖分析ツールを備える複数のツールに、インターフェース接続するグラフィカルユーザインターフェースを表示させ、該構成エディタは、該アイデンティティハブに連結される情報源からの最初のデータ記録の集合を利用して、ユーザが該アイデンティティハブの構成をローカルで作成するか、または取り込むことを可能にし、該アルゴリズムエディタは、該ユーザが、該最初のデータ記録の集合に基づいてバケットを作成する際に利用されるアルゴリズムを編集できるようにし、該データ分析ツールは、該ユーザが、該最初のデータ記録の集合の属性の有効性を分析できるようにし、該実体分析ツールは、該ユーザが、該最初のデータ記録の集合と関連付けられる実体を分析できるようにし、該バケット分析ツールは、該ユーザが、該バケット、および該アイデンティティハブに対する該バケットの効果を分析できるようにし、該連鎖分析ツールは、該ユーザが、該最初のデータ記録の集合からの連鎖メンバー記録と、該最初のデータ記録の集合の派生物を採点する際に利用される閾値とに関連付けられるエラー率を分析できるようにする、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US99703807P | 2007-09-28 | 2007-09-28 | |
US60/997,038 | 2007-09-28 | ||
PCT/US2008/077985 WO2009042941A1 (en) | 2007-09-28 | 2008-09-26 | Method and system for analysis of a system for matching data records |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011503681A true JP2011503681A (ja) | 2011-01-27 |
JP5306360B2 JP5306360B2 (ja) | 2013-10-02 |
Family
ID=40509776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010527211A Expired - Fee Related JP5306360B2 (ja) | 2007-09-28 | 2008-09-26 | データ記録を一致させるシステムの分析のための方法およびシステム |
Country Status (8)
Country | Link |
---|---|
US (2) | US8799282B2 (ja) |
EP (1) | EP2193415A4 (ja) |
JP (1) | JP5306360B2 (ja) |
CN (1) | CN101878461B (ja) |
AU (1) | AU2008304265B2 (ja) |
BR (1) | BRPI0817507B1 (ja) |
CA (1) | CA2701046C (ja) |
WO (1) | WO2009042941A1 (ja) |
Families Citing this family (74)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7657540B1 (en) | 2003-02-04 | 2010-02-02 | Seisint, Inc. | Method and system for linking and delinking data records |
US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
AU2007254820B2 (en) | 2006-06-02 | 2012-04-05 | International Business Machines Corporation | Automatic weight generation for probabilistic matching |
US8356009B2 (en) | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US7698268B1 (en) | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US8359339B2 (en) | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
WO2008121824A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for data exchange among data sources |
WO2008121170A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for parsing languages |
US8423514B2 (en) | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
CN101652775B (zh) * | 2007-04-13 | 2012-09-19 | Gvbb控股股份有限公司 | 在用户界面中映射逻辑资产和物理资产的系统和方法 |
US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
WO2009042931A1 (en) | 2007-09-28 | 2009-04-02 | Initiate Systems, Inc. | Method and system for associating data records in multiple languages |
CN101878461B (zh) | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
US8266168B2 (en) | 2008-04-24 | 2012-09-11 | Lexisnexis Risk & Information Analytics Group Inc. | Database systems and methods for linking records and entity representations with sufficiently high confidence |
US9009358B1 (en) * | 2008-09-23 | 2015-04-14 | Western Digital Technologies, Inc. | Configuring a data storage device with a parameter file interlocked with configuration code |
US8082228B2 (en) | 2008-10-31 | 2011-12-20 | Netapp, Inc. | Remote office duplication |
EP2370892B1 (en) * | 2008-12-02 | 2020-11-04 | Ab Initio Technology LLC | Mapping instances of a dataset within a data management system |
US9411859B2 (en) | 2009-12-14 | 2016-08-09 | Lexisnexis Risk Solutions Fl Inc | External linking based on hierarchical level weightings |
US8352460B2 (en) * | 2010-03-29 | 2013-01-08 | International Business Machines Corporation | Multiple candidate selection in an entity resolution system |
US8918393B2 (en) | 2010-09-29 | 2014-12-23 | International Business Machines Corporation | Identifying a set of candidate entities for an identity record |
US8843501B2 (en) | 2011-02-18 | 2014-09-23 | International Business Machines Corporation | Typed relevance scores in an identity resolution system |
US20120324236A1 (en) * | 2011-06-16 | 2012-12-20 | Microsoft Corporation | Trusted Snapshot Generation |
WO2013023302A1 (en) * | 2011-08-16 | 2013-02-21 | Cirba Inc. | System and method for determining and visualizing efficiencies and risks in computing environments |
US10810218B2 (en) | 2011-10-14 | 2020-10-20 | Transunion, Llc | System and method for matching of database records based on similarities to search queries |
US9171158B2 (en) * | 2011-12-12 | 2015-10-27 | International Business Machines Corporation | Dynamic anomaly, association and clustering detection |
US9104678B1 (en) | 2011-12-31 | 2015-08-11 | Richard Michael Nemes | Methods and apparatus for information storage and retrieval using a caching technique with probe-limited open-address hashing |
US9262469B1 (en) * | 2012-04-23 | 2016-02-16 | Monsanto Technology Llc | Intelligent data integration system |
US9372903B1 (en) | 2012-06-05 | 2016-06-21 | Monsanto Technology Llc | Data lineage in an intelligent data integration system |
US20140129615A1 (en) * | 2012-11-05 | 2014-05-08 | Timest Ltd. | System for automated data measurement and analysis |
US9251133B2 (en) | 2012-12-12 | 2016-02-02 | International Business Machines Corporation | Approximate named-entity extraction |
JP5971115B2 (ja) * | 2012-12-26 | 2016-08-17 | 富士通株式会社 | 情報処理プログラム、情報処理方法及び装置 |
US9336234B2 (en) * | 2013-02-22 | 2016-05-10 | Adobe Systems Incorporated | Online content management system with undo and redo operations |
US9485309B2 (en) * | 2013-03-14 | 2016-11-01 | Red Hat, Inc. | Optimal fair distribution among buckets of different capacities |
US10671629B1 (en) | 2013-03-14 | 2020-06-02 | Monsanto Technology Llc | Intelligent data integration system with data lineage and visual rendering |
US10593003B2 (en) * | 2013-03-14 | 2020-03-17 | Securiport Llc | Systems, methods and apparatuses for identifying person of interest |
US10803102B1 (en) * | 2013-04-30 | 2020-10-13 | Walmart Apollo, Llc | Methods and systems for comparing customer records |
US9767127B2 (en) | 2013-05-02 | 2017-09-19 | Outseeker Corp. | Method for record linkage from multiple sources |
US20130311233A1 (en) * | 2013-05-13 | 2013-11-21 | Twenga SA | Method for predicting revenue to be generated by a webpage comprising a list of items having common properties |
US9792658B1 (en) * | 2013-06-27 | 2017-10-17 | EMC IP Holding Company LLC | HEALTHBOOK analysis |
US9477934B2 (en) | 2013-07-16 | 2016-10-25 | Sap Portals Israel Ltd. | Enterprise collaboration content governance framework |
US10026114B2 (en) * | 2014-01-10 | 2018-07-17 | Betterdoctor, Inc. | System for clustering and aggregating data from multiple sources |
US9852049B2 (en) * | 2014-05-27 | 2017-12-26 | International Business Machines Corporation | Screenshot validation testing |
US10410225B1 (en) * | 2014-06-30 | 2019-09-10 | Groupon, Inc. | Systems, apparatus, and methods of programmatically determining unique contacts based on crowdsourced error correction |
US11593405B2 (en) * | 2015-04-21 | 2023-02-28 | International Business Machines Corporation | Custodian disambiguation and data matching |
US10474724B1 (en) * | 2015-09-18 | 2019-11-12 | Mpulse Mobile, Inc. | Mobile content attribute recommendation engine |
US10585893B2 (en) * | 2016-03-30 | 2020-03-10 | International Business Machines Corporation | Data processing |
EP3446245A1 (en) * | 2016-04-19 | 2019-02-27 | Koninklijke Philips N.V. | Hospital matching of de-identified healthcare databases without obvious quasi-identifiers |
US10452627B2 (en) | 2016-06-02 | 2019-10-22 | International Business Machines Corporation | Column weight calculation for data deduplication |
US10558669B2 (en) | 2016-07-22 | 2020-02-11 | National Student Clearinghouse | Record matching system |
US10671626B2 (en) * | 2016-09-27 | 2020-06-02 | Salesforce.Com, Inc. | Identity consolidation in heterogeneous data environment |
US10621492B2 (en) | 2016-10-21 | 2020-04-14 | International Business Machines Corporation | Multiple record linkage algorithm selector |
US10061939B1 (en) * | 2017-03-03 | 2018-08-28 | Microsoft Technology Licensing, Llc | Computing confidential data insight histograms and combining with smoothed posterior distribution based histograms |
RU2667608C1 (ru) * | 2017-08-14 | 2018-09-21 | Иван Александрович Баранов | Способ обеспечения целостности данных |
US11182394B2 (en) | 2017-10-30 | 2021-11-23 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
US11341138B2 (en) * | 2017-12-06 | 2022-05-24 | International Business Machines Corporation | Method and system for query performance prediction |
CN108491460A (zh) * | 2018-03-05 | 2018-09-04 | 北京市肿瘤防治研究所 | 个人身份信息匹配方法、装置、存储介质及计算机设备 |
US11556710B2 (en) * | 2018-05-11 | 2023-01-17 | International Business Machines Corporation | Processing entity groups to generate analytics |
US10936665B2 (en) | 2018-08-09 | 2021-03-02 | Sap Se | Graphical match policy for identifying duplicative data |
US11036479B2 (en) * | 2018-08-27 | 2021-06-15 | Georgia Tech Research Corporation | Devices, systems, and methods of program identification, isolation, and profile attachment |
US10901979B2 (en) * | 2018-08-29 | 2021-01-26 | International Business Machines Corporation | Generating responses to queries based on selected value assignments |
US11157528B2 (en) | 2019-04-17 | 2021-10-26 | International Business Machines Corporation | Dependency-driven workflow management |
US11256770B2 (en) * | 2019-05-01 | 2022-02-22 | Go Daddy Operating Company, LLC | Data-driven online business name generator |
US11397715B2 (en) | 2019-07-31 | 2022-07-26 | International Business Machines Corporation | Defining indexing fields for matching data entities |
US11663275B2 (en) | 2019-08-05 | 2023-05-30 | International Business Machines Corporation | Method for dynamic data blocking in a database system |
US11409772B2 (en) | 2019-08-05 | 2022-08-09 | International Business Machines Corporation | Active learning for data matching |
US11687828B2 (en) | 2019-10-11 | 2023-06-27 | International Business Machines Corporation | Auto-tuning of comparison functions |
US20220035777A1 (en) * | 2020-07-29 | 2022-02-03 | International Business Machines Corporation | Pair selection for entity resolution analysis |
US20220374401A1 (en) * | 2021-05-18 | 2022-11-24 | International Business Machines Corporation | Determining domain and matching algorithms for data systems |
US11860909B2 (en) | 2021-08-23 | 2024-01-02 | U.S. Bancorp, National Association | Entity household generation based on attribute-pair matching |
US20230418877A1 (en) * | 2022-06-24 | 2023-12-28 | International Business Machines Corporation | Dynamic Threshold-Based Records Linking |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000348042A (ja) * | 1999-06-03 | 2000-12-15 | Fujitsu Ltd | 統合シソーラス作成装置、修正シソーラス作成装置、情報収集型シソーラス作成装置、統合シソーラス作成プログラム記憶媒体、修正シソーラス作成プログラム記憶媒体、および情報収集型シソーラス作成プログラム記憶媒体 |
JP2001236358A (ja) * | 2000-02-23 | 2001-08-31 | Ricoh Co Ltd | 文書検索方法および装置 |
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
JP2006163941A (ja) * | 2004-12-08 | 2006-06-22 | Nec Corp | 重複レコード検出システム、および重複レコード検出プログラム |
JP2006277413A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 文書分類装置および文書分類方法 |
Family Cites Families (248)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3568155A (en) * | 1967-04-10 | 1971-03-02 | Ibm | Method of storing and retrieving records |
US4531186A (en) | 1983-01-21 | 1985-07-23 | International Business Machines Corporation | User friendly data base access |
US5020019A (en) | 1989-05-29 | 1991-05-28 | Ricoh Company, Ltd. | Document retrieval system |
JPH03129472A (ja) | 1989-07-31 | 1991-06-03 | Ricoh Co Ltd | 文書検索装置における処理方法 |
US5134564A (en) | 1989-10-19 | 1992-07-28 | Dunn Eric C W | Computer aided reconfiliation method and apparatus |
AU631276B2 (en) | 1989-12-22 | 1992-11-19 | Bull Hn Information Systems Inc. | Name resolution in a directory database |
US5321833A (en) | 1990-08-29 | 1994-06-14 | Gte Laboratories Incorporated | Adaptive ranking system for information retrieval |
JPH04111121A (ja) * | 1990-08-31 | 1992-04-13 | Fujitsu Ltd | 分野別辞書生成装置、機械翻訳装置、及びそれら装置を用いた機械翻訳システム |
US5247437A (en) | 1990-10-01 | 1993-09-21 | Xerox Corporation | Method of managing index entries during creation revision and assembly of documents |
US5555409A (en) | 1990-12-04 | 1996-09-10 | Applied Technical Sysytem, Inc. | Data management systems and methods including creation of composite views of data |
US5455903A (en) * | 1991-05-31 | 1995-10-03 | Edify Corp. | Object oriented customer information exchange system and method |
US5381332A (en) * | 1991-12-09 | 1995-01-10 | Motorola, Inc. | Project management system with automated schedule and cost integration |
FR2688611A1 (fr) * | 1992-03-12 | 1993-09-17 | Bull Sa | Utilisation d'un langage dont le typage porte sur le contenu des variables et permettant de manipuler des constructions complexes. |
US5535322A (en) | 1992-10-27 | 1996-07-09 | International Business Machines Corporation | Data processing system with improved work flow system and method |
US5774887A (en) * | 1992-11-18 | 1998-06-30 | U S West Advanced Technologies, Inc. | Customer service electronic form generating system |
US5721850A (en) * | 1993-01-15 | 1998-02-24 | Quotron Systems, Inc. | Method and means for navigating user interfaces which support a plurality of executing applications |
US6496793B1 (en) | 1993-04-21 | 2002-12-17 | Borland Software Corporation | System and methods for national language support with embedded locale-specific language driver identifiers |
US5615367A (en) * | 1993-05-25 | 1997-03-25 | Borland International, Inc. | System and methods including automatic linking of tables for improved relational database modeling with interface |
US5537590A (en) | 1993-08-05 | 1996-07-16 | Amado; Armando | Apparatus for applying analysis rules to data sets in a relational database to generate a database of diagnostic records linked to the data sets |
US5442782A (en) | 1993-08-13 | 1995-08-15 | Peoplesoft, Inc. | Providing information from a multilingual database of language-independent and language-dependent items |
US5606690A (en) | 1993-08-20 | 1997-02-25 | Canon Inc. | Non-literal textual search using fuzzy finite non-deterministic automata |
DE69424902T2 (de) | 1993-08-20 | 2000-11-09 | Canon Kk | Gerät und Verfahren zur anpassungsfähigen nicht-buchstäblichen Textsuche |
US5583763A (en) | 1993-09-09 | 1996-12-10 | Mni Interactive | Method and apparatus for recommending selections based on preferences in a multi-user system |
US5487141A (en) | 1994-01-21 | 1996-01-23 | Borland International, Inc. | Development system with methods for visual inheritance and improved object reusability |
US5862322A (en) * | 1994-03-14 | 1999-01-19 | Dun & Bradstreet Software Services, Inc. | Method and apparatus for facilitating customer service communications in a computing environment |
US5848271A (en) | 1994-03-14 | 1998-12-08 | Dun & Bradstreet Software Services, Inc. | Process and apparatus for controlling the work flow in a multi-user computing system |
US5497486A (en) * | 1994-03-15 | 1996-03-05 | Salvatore J. Stolfo | Method of merging large databases in parallel |
US5561794A (en) | 1994-04-28 | 1996-10-01 | The United States Of America As Represented By The Secretary Of The Navy | Early commit optimistic projection-based computer database protocol |
US5704018A (en) * | 1994-05-09 | 1997-12-30 | Microsoft Corporation | Generating improved belief networks |
US5710916A (en) * | 1994-05-24 | 1998-01-20 | Panasonic Technologies, Inc. | Method and apparatus for similarity matching of handwritten data objects |
US5675752A (en) | 1994-09-15 | 1997-10-07 | Sony Corporation | Interactive applications generator for an interactive presentation environment |
US5694593A (en) | 1994-10-05 | 1997-12-02 | Northeastern University | Distributed computer database system and method |
US5694594A (en) | 1994-11-14 | 1997-12-02 | Chang; Daniel | System for linking hypermedia data objects in accordance with associations of source and destination data objects and similarity threshold without using keywords or link-difining terms |
US5819264A (en) | 1995-04-03 | 1998-10-06 | Dtl Data Technologies Ltd. | Associative search method with navigation for heterogeneous databases including an integration mechanism configured to combine schema-free data models such as a hyperbase |
US5774661A (en) * | 1995-04-18 | 1998-06-30 | Network Imaging Corporation | Rule engine interface for a visual workflow builder |
US5675753A (en) | 1995-04-24 | 1997-10-07 | U.S. West Technologies, Inc. | Method and system for presenting an electronic user-interface specification |
US5774883A (en) * | 1995-05-25 | 1998-06-30 | Andersen; Lloyd R. | Method for selecting a seller's most profitable financing program |
US5790173A (en) | 1995-07-20 | 1998-08-04 | Bell Atlantic Network Services, Inc. | Advanced intelligent network having digital entertainment terminal or the like interacting with integrated service control point |
US5778370A (en) | 1995-08-25 | 1998-07-07 | Emerson; Mark L. | Data village system |
US5640553A (en) | 1995-09-15 | 1997-06-17 | Infonautics Corporation | Relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5805702A (en) | 1995-09-29 | 1998-09-08 | Dallas Semiconductor Corporation | Method, apparatus, and system for transferring units of value |
US5809499A (en) | 1995-10-20 | 1998-09-15 | Pattern Discovery Software Systems, Ltd. | Computational method for discovering patterns in data sets |
US5893074A (en) * | 1996-01-29 | 1999-04-06 | California Institute Of Technology | Network based task management |
US5930768A (en) | 1996-02-06 | 1999-07-27 | Supersonic Boom, Inc. | Method and system for remote user controlled manufacturing |
US5963915A (en) | 1996-02-21 | 1999-10-05 | Infoseek Corporation | Secure, convenient and efficient system and method of performing trans-internet purchase transactions |
US5862325A (en) * | 1996-02-29 | 1999-01-19 | Intermind Corporation | Computer-based communication system and method using metadata defining a control structure |
US5835712A (en) | 1996-05-03 | 1998-11-10 | Webmate Technologies, Inc. | Client-server system using embedded hypertext tags for application and database development |
US5878043A (en) | 1996-05-09 | 1999-03-02 | Northern Telecom Limited | ATM LAN emulation |
US5859972A (en) * | 1996-05-10 | 1999-01-12 | The Board Of Trustees Of The University Of Illinois | Multiple server repository and multiple server remote application virtual client computer |
US5905496A (en) * | 1996-07-03 | 1999-05-18 | Sun Microsystems, Inc. | Workflow product navigation system |
US5765150A (en) * | 1996-08-09 | 1998-06-09 | Digital Equipment Corporation | Method for statistically projecting the ranking of information |
US5893110A (en) * | 1996-08-16 | 1999-04-06 | Silicon Graphics, Inc. | Browser driven user interface to a media asset database |
US6049847A (en) * | 1996-09-16 | 2000-04-11 | Corollary, Inc. | System and method for maintaining memory coherency in a computer system having multiple system buses |
US5787470A (en) | 1996-10-18 | 1998-07-28 | At&T Corp | Inter-cache protocol for improved WEB performance |
US5796393A (en) | 1996-11-08 | 1998-08-18 | Compuserve Incorporated | System for intergrating an on-line service community with a foreign service |
US5787431A (en) | 1996-12-16 | 1998-07-28 | Borland International, Inc. | Database development system with methods for java-string reference lookups of column names |
US5835912A (en) | 1997-03-13 | 1998-11-10 | The United States Of America As Represented By The National Security Agency | Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation |
US6026433A (en) * | 1997-03-17 | 2000-02-15 | Silicon Graphics, Inc. | Method of creating and editing a web site in a client-server environment using customizable web site templates |
US6385600B1 (en) * | 1997-04-03 | 2002-05-07 | At&T Corp. | System and method for searching on a computer using an evidence set |
US5987422A (en) | 1997-05-29 | 1999-11-16 | Oracle Corporation | Method for executing a procedure that requires input from a role |
US5991758A (en) * | 1997-06-06 | 1999-11-23 | Madison Information Technologies, Inc. | System and method for indexing information about entities from different information sources |
US5999937A (en) | 1997-06-06 | 1999-12-07 | Madison Information Technologies, Inc. | System and method for converting data between data sets |
CN1135857C (zh) | 1997-06-16 | 2004-01-21 | 艾利森电话股份有限公司 | 电信性能管理系统 |
US6014664A (en) | 1997-08-29 | 2000-01-11 | International Business Machines Corporation | Method and apparatus for incorporating weights into data combinational rules |
US5960411A (en) | 1997-09-12 | 1999-09-28 | Amazon.Com, Inc. | Method and system for placing a purchase order via a communications network |
US6018733A (en) * | 1997-09-12 | 2000-01-25 | Infoseek Corporation | Methods for iteratively and interactively performing collection selection in full text searches |
US6621505B1 (en) | 1997-09-30 | 2003-09-16 | Journee Software Corp. | Dynamic process-based enterprise computing system and method |
US6134581A (en) | 1997-10-06 | 2000-10-17 | Sun Microsystems, Inc. | Method and system for remotely browsing objects |
US6356931B2 (en) * | 1997-10-06 | 2002-03-12 | Sun Microsystems, Inc. | Method and system for remotely browsing objects |
US6108004A (en) | 1997-10-21 | 2000-08-22 | International Business Machines Corporation | GUI guide for data mining |
US6327611B1 (en) | 1997-11-12 | 2001-12-04 | Netscape Communications Corporation | Electronic document routing system |
US6223145B1 (en) * | 1997-11-26 | 2001-04-24 | Zerox Corporation | Interactive interface for specifying searches |
US6297824B1 (en) | 1997-11-26 | 2001-10-02 | Xerox Corporation | Interactive interface for viewing retrieval results |
US6807537B1 (en) | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US6016489A (en) * | 1997-12-18 | 2000-01-18 | Sun Microsystems, Inc. | Method and apparatus for constructing stable iterators in a shared data collection |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US6185608B1 (en) * | 1998-06-12 | 2001-02-06 | International Business Machines Corporation | Caching dynamic web pages |
US6742003B2 (en) | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6018742A (en) * | 1998-07-07 | 2000-01-25 | Perigis Corporation | Constructing a bifurcated database of context-dependent and context-independent data items |
US6470436B1 (en) | 1998-12-01 | 2002-10-22 | Fast-Chip, Inc. | Eliminating memory fragmentation and garbage collection from the process of managing dynamically allocated memory |
US6067549A (en) * | 1998-12-11 | 2000-05-23 | American Management Systems, Inc. | System for managing regulated entities |
US6298478B1 (en) | 1998-12-31 | 2001-10-02 | International Business Machines Corporation | Technique for managing enterprise JavaBeans (™) which are the target of multiple concurrent and/or nested transactions |
US6457065B1 (en) | 1999-01-05 | 2002-09-24 | International Business Machines Corporation | Transaction-scoped replication for distributed object systems |
US6311190B1 (en) | 1999-02-02 | 2001-10-30 | Harris Interactive Inc. | System for conducting surveys in different languages over a network with survey voter registration |
US6269373B1 (en) | 1999-02-26 | 2001-07-31 | International Business Machines Corporation | Method and system for persisting beans as container-managed fields |
US6460045B1 (en) * | 1999-03-15 | 2002-10-01 | Microsoft Corporation | Self-tuning histogram and database modeling |
US6374241B1 (en) * | 1999-03-31 | 2002-04-16 | Verizon Laboratories Inc. | Data merging techniques |
US7181459B2 (en) * | 1999-05-04 | 2007-02-20 | Iconfind, Inc. | Method of coding, categorizing, and retrieving network pages and sites |
US6662180B1 (en) | 1999-05-12 | 2003-12-09 | Matsushita Electric Industrial Co., Ltd. | Method for searching in large databases of automatically recognized text |
US6957186B1 (en) | 1999-05-27 | 2005-10-18 | Accenture Llp | System method and article of manufacture for building, managing, and supporting various components of a system |
US6330569B1 (en) | 1999-06-30 | 2001-12-11 | Unisys Corp. | Method for versioning a UML model in a repository in accordance with an updated XML representation of the UML model |
US6389429B1 (en) * | 1999-07-30 | 2002-05-14 | Aprimo, Inc. | System and method for generating a target database from one or more source databases |
US6633878B1 (en) | 1999-07-30 | 2003-10-14 | Accenture Llp | Initializing an ecommerce database framework |
US6718535B1 (en) | 1999-07-30 | 2004-04-06 | Accenture Llp | System, method and article of manufacture for an activity framework design in an e-commerce based environment |
US6529892B1 (en) | 1999-08-04 | 2003-03-04 | Illinois, University Of | Apparatus, method and product for multi-attribute drug comparison |
US6842906B1 (en) | 1999-08-31 | 2005-01-11 | Accenture Llp | System and method for a refreshable proxy pool in a communication services patterns environment |
US6523019B1 (en) * | 1999-09-21 | 2003-02-18 | Choicemaker Technologies, Inc. | Probabilistic record linkage model derived from training data |
US6557100B1 (en) * | 1999-10-21 | 2003-04-29 | International Business Machines Corporation | Fastpath redeployment of EJBs |
US20020007284A1 (en) | 1999-12-01 | 2002-01-17 | Schurenberg Kurt B. | System and method for implementing a global master patient index |
US6502099B1 (en) | 1999-12-16 | 2002-12-31 | International Business Machines Corporation | Method and system for extending the functionality of an application |
US6633992B1 (en) | 1999-12-30 | 2003-10-14 | Intel Corporation | Generalized pre-charge clock circuit for pulsed domino gates |
US20040220926A1 (en) | 2000-01-03 | 2004-11-04 | Interactual Technologies, Inc., A California Cpr[P | Personalization services for entities from multiple sources |
US6556983B1 (en) * | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
AU2001228201A1 (en) | 2000-02-10 | 2001-08-20 | Dwl Incorporated | Work-flow system for web-based applications |
US7330845B2 (en) * | 2000-02-17 | 2008-02-12 | International Business Machines Corporation | System, method and program product for providing navigational information for facilitating navigation and user socialization at web sites |
US6449620B1 (en) | 2000-03-02 | 2002-09-10 | Nimble Technology, Inc. | Method and apparatus for generating information pages using semi-structured data stored in a structured manner |
US6757708B1 (en) * | 2000-03-03 | 2004-06-29 | International Business Machines Corporation | Caching dynamic content |
US6879944B1 (en) * | 2000-03-07 | 2005-04-12 | Microsoft Corporation | Variational relevance vector machine |
WO2001075679A1 (en) | 2000-04-04 | 2001-10-11 | Metamatrix, Inc. | A system and method for accessing data in disparate information sources |
US6704805B1 (en) * | 2000-04-13 | 2004-03-09 | International Business Machines Corporation | EJB adaption of MQ integration in componetbroker |
AU6263101A (en) | 2000-05-26 | 2001-12-03 | Tzunami Inc. | Method and system for organizing objects according to information categories |
US6633882B1 (en) | 2000-06-29 | 2003-10-14 | Microsoft Corporation | Multi-dimensional database record compression utilizing optimized cluster models |
US20020178360A1 (en) | 2001-02-25 | 2002-11-28 | Storymail, Inc. | System and method for communicating a secure unidirectional response message |
US6647383B1 (en) | 2000-09-01 | 2003-11-11 | Lucent Technologies Inc. | System and method for providing interactive dialogue and iterative search functions to find information |
US20020080187A1 (en) * | 2000-10-02 | 2002-06-27 | Lawton Scott S. | Enhanced method and system for category selection |
US7287089B1 (en) * | 2000-10-25 | 2007-10-23 | Thomson Financial Inc. | Electronic commerce infrastructure system |
US6842761B2 (en) * | 2000-11-21 | 2005-01-11 | America Online, Inc. | Full-text relevancy ranking |
EP1211610A1 (en) | 2000-11-29 | 2002-06-05 | Lafayette Software Inc. | Methods of organising data and processing queries in a database system |
US20020073099A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
US7406443B1 (en) | 2000-12-18 | 2008-07-29 | Powerloom | Method and system for multi-dimensional trading |
US7685224B2 (en) | 2001-01-11 | 2010-03-23 | Truelocal Inc. | Method for providing an attribute bounded network of computers |
US7487182B2 (en) | 2001-01-23 | 2009-02-03 | Conformia Software, Inc. | Systems and methods for managing the development and manufacturing of a drug |
SE520533C2 (sv) | 2001-03-13 | 2003-07-22 | Picsearch Ab | Metod, datorprogram och system för indexering av digitaliserade enheter |
US6877111B2 (en) | 2001-03-26 | 2005-04-05 | Sun Microsystems, Inc. | Method and apparatus for managing replicated and migration capable session state for a Java platform |
US20030105825A1 (en) * | 2001-05-01 | 2003-06-05 | Profluent, Inc. | Method and system for policy based management of messages for mobile data networks |
US7089193B2 (en) | 2001-05-09 | 2006-08-08 | Prochain Solutions, Inc. | Multiple project scheduling system |
US6510505B1 (en) * | 2001-05-09 | 2003-01-21 | International Business Machines Corporation | System and method for allocating storage space using bit-parallel search of bitmap |
US7865427B2 (en) | 2001-05-30 | 2011-01-04 | Cybersource Corporation | Method and apparatus for evaluating fraud risk in an electronic commerce transaction |
US7007039B2 (en) * | 2001-06-14 | 2006-02-28 | Microsoft Corporation | Method of building multidimensional workload-aware histograms |
US6687702B2 (en) * | 2001-06-15 | 2004-02-03 | Sybass, Inc. | Methodology providing high-speed shared memory access between database middle tier and database server |
US7069536B2 (en) * | 2001-06-28 | 2006-06-27 | International Business Machines Corporation | Method, system, and program for executing a workflow |
US7100147B2 (en) * | 2001-06-28 | 2006-08-29 | International Business Machines Corporation | Method, system, and program for generating a workflow |
US7047535B2 (en) * | 2001-07-30 | 2006-05-16 | International Business Machines Corporation | Method, system, and program for performing workflow related operations using an application programming interface |
US20050015381A1 (en) * | 2001-09-04 | 2005-01-20 | Clifford Paul Ian | Database management system |
US6912549B2 (en) * | 2001-09-05 | 2005-06-28 | Siemens Medical Solutions Health Services Corporation | System for processing and consolidating records |
US6996565B2 (en) * | 2001-09-06 | 2006-02-07 | Initiate Systems, Inc. | System and method for dynamically mapping dynamic multi-sourced persisted EJBs |
US7249131B2 (en) * | 2001-09-06 | 2007-07-24 | Initiate Systems, Inc. | System and method for dynamically caching dynamic multi-sourced persisted EJBs |
US6922695B2 (en) * | 2001-09-06 | 2005-07-26 | Initiate Systems, Inc. | System and method for dynamically securing dynamic-multi-sourced persisted EJBS |
US7035809B2 (en) * | 2001-12-07 | 2006-04-25 | Accenture Global Services Gmbh | Accelerated process improvement framework |
US6907422B1 (en) * | 2001-12-18 | 2005-06-14 | Siebel Systems, Inc. | Method and system for access and display of data from large data sets |
US20030120630A1 (en) * | 2001-12-20 | 2003-06-26 | Daniel Tunkelang | Method and system for similarity search and clustering |
US20030149631A1 (en) * | 2001-12-27 | 2003-08-07 | Manugistics, Inc. | System and method for order planning with attribute based planning |
EP1481346B1 (en) | 2002-02-04 | 2012-10-10 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
US6829606B2 (en) * | 2002-02-14 | 2004-12-07 | Infoglide Software Corporation | Similarity search engine for use with relational databases |
US7031969B2 (en) | 2002-02-20 | 2006-04-18 | Lawrence Technologies, Llc | System and method for identifying relationships between database records |
US20030174179A1 (en) | 2002-03-12 | 2003-09-18 | Suermondt Henri Jacques | Tool for visualizing data patterns of a hierarchical classification structure |
US6970882B2 (en) | 2002-04-04 | 2005-11-29 | International Business Machines Corporation | Unified relational database model for data mining selected model scoring results, model training results where selection is based on metadata included in mining model control table |
US7287026B2 (en) | 2002-04-05 | 2007-10-23 | Oommen John B | Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing |
US7149730B2 (en) * | 2002-05-03 | 2006-12-12 | Ward Mullins | Dynamic class inheritance and distributed caching with object relational mapping and cartesian model support in a database manipulation and mapping system |
US20030220858A1 (en) | 2002-05-24 | 2003-11-27 | Duc Lam | Method and system for collaborative vendor reconciliation |
US7231395B2 (en) | 2002-05-24 | 2007-06-12 | Overture Services, Inc. | Method and apparatus for categorizing and presenting documents of a distributed database |
US20030227487A1 (en) | 2002-06-01 | 2003-12-11 | Hugh Harlan M. | Method and apparatus for creating and accessing associative data structures under a shared model of categories, rules, triggers and data relationship permissions |
US20040006500A1 (en) | 2002-07-08 | 2004-01-08 | Diego Guicciardi | Method and apparatus for solution design, implementation, and support |
US20040143477A1 (en) | 2002-07-08 | 2004-07-22 | Wolff Maryann Walsh | Apparatus and methods for assisting with development management and/or deployment of products and services |
US6795793B2 (en) | 2002-07-19 | 2004-09-21 | Med-Ed Innovations, Inc. | Method and apparatus for evaluating data and implementing training based on the evaluation of the data |
AU2002332912A1 (en) | 2002-09-04 | 2004-03-29 | Journee Software Corporation | System and method for dynamically mapping dynamic multi-sourced persisted ejbs |
WO2004023311A1 (en) | 2002-09-05 | 2004-03-18 | Journee Software Corporation | System and method for dynamically caching dynamic multi-sourced persisted ejbs |
AU2002332913A1 (en) | 2002-09-05 | 2004-03-29 | Journee Software Corporation | System and method for dynamically securing dynamic multi-sourced persisted ejbs |
US7043476B2 (en) * | 2002-10-11 | 2006-05-09 | International Business Machines Corporation | Method and apparatus for data mining to discover associations and covariances associated with data |
US7155427B1 (en) | 2002-10-30 | 2006-12-26 | Oracle International Corporation | Configurable search tool for finding and scoring non-exact matches in a relational database |
US20040107205A1 (en) * | 2002-12-03 | 2004-06-03 | Lockheed Martin Corporation | Boolean rule-based system for clustering similar records |
US20040107189A1 (en) * | 2002-12-03 | 2004-06-03 | Lockheed Martin Corporation | System for identifying similarities in record fields |
US7490085B2 (en) * | 2002-12-18 | 2009-02-10 | Ge Medical Systems Global Technology Company, Llc | Computer-assisted data processing system and method incorporating automated learning |
US8280894B2 (en) | 2003-01-22 | 2012-10-02 | Amazon Technologies, Inc. | Method and system for maintaining item authority |
US20040181526A1 (en) | 2003-03-11 | 2004-09-16 | Lockheed Martin Corporation | Robust system for interactively learning a record similarity measurement |
US7487173B2 (en) * | 2003-05-22 | 2009-02-03 | International Business Machines Corporation | Self-generation of a data warehouse from an enterprise data model of an EAI/BPI infrastructure |
US7296011B2 (en) | 2003-06-20 | 2007-11-13 | Microsoft Corporation | Efficient fuzzy match for evaluating data records |
US20070168135A1 (en) * | 2003-06-25 | 2007-07-19 | Pankaj Agarwal | Biological data set comparison method |
US7596778B2 (en) * | 2003-07-03 | 2009-09-29 | Parasoft Corporation | Method and system for automatic error prevention for computer software |
US20050228808A1 (en) | 2003-08-27 | 2005-10-13 | Ascential Software Corporation | Real time data integration services for health care information data integration |
US7739223B2 (en) * | 2003-08-29 | 2010-06-15 | Microsoft Corporation | Mapping architecture for arbitrary data models |
CA2655731C (en) * | 2003-09-15 | 2012-04-10 | Ab Initio Software Corporation | Functional dependency data profiling |
US20050060286A1 (en) * | 2003-09-15 | 2005-03-17 | Microsoft Corporation | Free text search within a relational database |
US8825502B2 (en) * | 2003-09-30 | 2014-09-02 | Epic Systems Corporation | System and method for providing patient record synchronization in a healthcare setting |
US7685016B2 (en) * | 2003-10-07 | 2010-03-23 | International Business Machines Corporation | Method and system for analyzing relationships between persons |
US7249129B2 (en) | 2003-12-29 | 2007-07-24 | The Generations Network, Inc. | Correlating genealogy records systems and methods |
US7324998B2 (en) | 2004-03-18 | 2008-01-29 | Zd Acquisition, Llc | Document search methods and systems |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
CA2564307C (en) | 2004-05-05 | 2015-04-28 | Ims Health Incorporated | Data record matching algorithms for longitudinal patient level databases |
WO2005114381A2 (en) | 2004-05-14 | 2005-12-01 | Gt Software, Inc. | Systems and methods for web service function, definition implementation and/or execution |
US20050273452A1 (en) | 2004-06-04 | 2005-12-08 | Microsoft Corporation | Matching database records |
US7788274B1 (en) | 2004-06-30 | 2010-08-31 | Google Inc. | Systems and methods for category-based search |
US7567962B2 (en) | 2004-08-13 | 2009-07-28 | Microsoft Corporation | Generating a labeled hierarchy of mutually disjoint categories from a set of query results |
US7970639B2 (en) | 2004-08-20 | 2011-06-28 | Mark A Vucina | Project management systems and methods |
US20060044307A1 (en) | 2004-08-24 | 2006-03-02 | Kyuman Song | System and method for visually representing project metrics on 3-dimensional building models |
US8615731B2 (en) | 2004-08-25 | 2013-12-24 | Mohit Doshi | System and method for automating the development of web services that incorporate business rules |
US7496593B2 (en) | 2004-09-03 | 2009-02-24 | Biowisdom Limited | Creating a multi-relational ontology having a predetermined structure |
US20060053172A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for creating, editing, and using multi-relational ontologies |
US20060053173A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for support of chemical data within multi-relational ontologies |
US20060053382A1 (en) * | 2004-09-03 | 2006-03-09 | Biowisdom Limited | System and method for facilitating user interaction with multi-relational ontologies |
US20060074832A1 (en) | 2004-09-03 | 2006-04-06 | Biowisdom Limited | System and method for utilizing an upper ontology in the creation of one or more multi-relational ontologies |
US20060074836A1 (en) | 2004-09-03 | 2006-04-06 | Biowisdom Limited | System and method for graphically displaying ontology data |
US20060064429A1 (en) * | 2004-09-18 | 2006-03-23 | Chi Yao | Method and apparatus for providing assets reports categorized by attribute |
US8892571B2 (en) * | 2004-10-12 | 2014-11-18 | International Business Machines Corporation | Systems for associating records in healthcare database with individuals |
US20060179050A1 (en) | 2004-10-22 | 2006-08-10 | Giang Phan H | Probabilistic model for record linkage |
US7844956B2 (en) | 2004-11-24 | 2010-11-30 | Rojer Alan S | Object-oriented processing of markup |
US7539668B2 (en) * | 2004-11-30 | 2009-05-26 | International Business Machines Corporation | System and method for sorting data records contained in a query result based on suitability score |
US20060116983A1 (en) * | 2004-11-30 | 2006-06-01 | International Business Machines Corporation | System and method for ordering query results |
WO2006062868A2 (en) | 2004-12-06 | 2006-06-15 | Yahoo! Inc. | Systems and methods for managing and using multiple concept networks for assisted search processing |
US7509259B2 (en) | 2004-12-21 | 2009-03-24 | Motorola, Inc. | Method of refining statistical pattern recognition models and statistical pattern recognizers |
US7672971B2 (en) * | 2006-02-17 | 2010-03-02 | Google Inc. | Modular architecture for entity normalization |
US7689555B2 (en) | 2005-01-14 | 2010-03-30 | International Business Machines Corporation | Context insensitive model entity searching |
US20070073678A1 (en) | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Semantic document profiling |
US7739687B2 (en) | 2005-02-28 | 2010-06-15 | International Business Machines Corporation | Application of attribute-set policies to managed resources in a distributed computing system |
US20060195460A1 (en) | 2005-02-28 | 2006-08-31 | Microsoft Corporation | Data model for object-relational data |
US8095386B2 (en) | 2005-05-03 | 2012-01-10 | Medicity, Inc. | System and method for using and maintaining a master matching index |
US20060271549A1 (en) | 2005-05-27 | 2006-11-30 | Rayback Geoffrey P | Method and apparatus for central master indexing |
US20060287890A1 (en) | 2005-06-15 | 2006-12-21 | Vanderbilt University | Method and apparatus for organizing and integrating structured and non-structured data across heterogeneous systems |
US20070016450A1 (en) * | 2005-07-14 | 2007-01-18 | Krora, Llc | Global health information system |
US7672833B2 (en) * | 2005-09-22 | 2010-03-02 | Fair Isaac Corporation | Method and apparatus for automatic entity disambiguation |
US20070073745A1 (en) | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
WO2007048229A1 (en) * | 2005-10-25 | 2007-05-03 | Angoss Software Corporation | Strategy trees for data mining |
US20070150279A1 (en) | 2005-12-27 | 2007-06-28 | Oracle International Corporation | Word matching with context sensitive character to sound correlating |
US20070214179A1 (en) | 2006-03-10 | 2007-09-13 | Khanh Hoang | Searching, filtering, creating, displaying, and managing entity relationships across multiple data hierarchies through a user interface |
US8260785B2 (en) | 2006-02-17 | 2012-09-04 | Google Inc. | Automatic object reference identification and linking in a browseable fact repository |
US8700568B2 (en) | 2006-02-17 | 2014-04-15 | Google Inc. | Entity normalization via name normalization |
US7558737B2 (en) | 2006-02-28 | 2009-07-07 | Sap Ag | Entity validation framework |
US20070214129A1 (en) | 2006-03-01 | 2007-09-13 | Oracle International Corporation | Flexible Authorization Model for Secure Search |
US20070260492A1 (en) | 2006-03-09 | 2007-11-08 | Microsoft Corporation | Master patient index |
US7949186B2 (en) | 2006-03-15 | 2011-05-24 | Massachusetts Institute Of Technology | Pyramid match kernel and related techniques |
US7974984B2 (en) | 2006-04-19 | 2011-07-05 | Mobile Content Networks, Inc. | Method and system for managing single and multiple taxonomies |
US7542973B2 (en) | 2006-05-01 | 2009-06-02 | Sap, Aktiengesellschaft | System and method for performing configurable matching of similar data in a data repository |
US7526486B2 (en) * | 2006-05-22 | 2009-04-28 | Initiate Systems, Inc. | Method and system for indexing information about entities with respect to hierarchies |
AU2007254820B2 (en) | 2006-06-02 | 2012-04-05 | International Business Machines Corporation | Automatic weight generation for probabilistic matching |
US7548906B2 (en) * | 2006-06-23 | 2009-06-16 | Microsoft Corporation | Bucket-based searching |
US7792967B2 (en) * | 2006-07-14 | 2010-09-07 | Chacha Search, Inc. | Method and system for sharing and accessing resources |
US8010396B2 (en) | 2006-08-10 | 2011-08-30 | International Business Machines Corporation | Method and system for validating tasks |
JP4405500B2 (ja) * | 2006-12-08 | 2010-01-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 傾向分析システムの評価方法および装置 |
US8356009B2 (en) * | 2006-09-15 | 2013-01-15 | International Business Machines Corporation | Implementation defined segments for relational database systems |
US7698268B1 (en) * | 2006-09-15 | 2010-04-13 | Initiate Systems, Inc. | Method and system for filtering false positives |
US7685093B1 (en) | 2006-09-15 | 2010-03-23 | Initiate Systems, Inc. | Method and system for comparing attributes such as business names |
US7620647B2 (en) | 2006-09-15 | 2009-11-17 | Initiate Systems, Inc. | Hierarchy global management system and user interface |
US7627550B1 (en) | 2006-09-15 | 2009-12-01 | Initiate Systems, Inc. | Method and system for comparing attributes such as personal names |
US8359339B2 (en) * | 2007-02-05 | 2013-01-22 | International Business Machines Corporation | Graphical user interface for configuration of an algorithm for the matching of data records |
US20080201713A1 (en) | 2007-02-16 | 2008-08-21 | Pivotal Labs, Inc. | Project Management System |
US8515926B2 (en) * | 2007-03-22 | 2013-08-20 | International Business Machines Corporation | Processing related data from information sources |
US8423514B2 (en) * | 2007-03-29 | 2013-04-16 | International Business Machines Corporation | Service provisioning |
WO2008121824A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for data exchange among data sources |
WO2008121170A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for parsing languages |
WO2008121700A1 (en) | 2007-03-29 | 2008-10-09 | Initiate Systems, Inc. | Method and system for managing entities |
US20080276221A1 (en) | 2007-05-02 | 2008-11-06 | Sap Ag. | Method and apparatus for relations planning and validation |
US20110010214A1 (en) * | 2007-06-29 | 2011-01-13 | Carruth J Scott | Method and system for project management |
US8713434B2 (en) | 2007-09-28 | 2014-04-29 | International Business Machines Corporation | Indexing, relating and managing information about entities |
WO2009042931A1 (en) | 2007-09-28 | 2009-04-02 | Initiate Systems, Inc. | Method and system for associating data records in multiple languages |
CN101878461B (zh) | 2007-09-28 | 2014-03-12 | 国际商业机器公司 | 分析用于匹配数据记录的系统的方法和系统 |
US9058380B2 (en) | 2012-02-06 | 2015-06-16 | Fis Financial Compliance Solutions, Llc | Methods and systems for list filtering based on known entity matching |
US20140280274A1 (en) | 2013-03-15 | 2014-09-18 | Teradata Us, Inc. | Probabilistic record linking |
US9805081B2 (en) | 2014-03-10 | 2017-10-31 | Zephyr Health, Inc. | Record linkage algorithm for multi-structured data |
-
2008
- 2008-09-26 CN CN200880117086.9A patent/CN101878461B/zh active Active
- 2008-09-26 AU AU2008304265A patent/AU2008304265B2/en active Active
- 2008-09-26 EP EP20080833215 patent/EP2193415A4/en not_active Withdrawn
- 2008-09-26 WO PCT/US2008/077985 patent/WO2009042941A1/en active Application Filing
- 2008-09-26 JP JP2010527211A patent/JP5306360B2/ja not_active Expired - Fee Related
- 2008-09-26 CA CA2701046A patent/CA2701046C/en active Active
- 2008-09-26 BR BRPI0817507-1A patent/BRPI0817507B1/pt active IP Right Grant
- 2008-09-26 US US12/239,448 patent/US8799282B2/en not_active Expired - Fee Related
-
2014
- 2014-05-29 US US14/290,030 patent/US10698755B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000348042A (ja) * | 1999-06-03 | 2000-12-15 | Fujitsu Ltd | 統合シソーラス作成装置、修正シソーラス作成装置、情報収集型シソーラス作成装置、統合シソーラス作成プログラム記憶媒体、修正シソーラス作成プログラム記憶媒体、および情報収集型シソーラス作成プログラム記憶媒体 |
JP2001236358A (ja) * | 2000-02-23 | 2001-08-31 | Ricoh Co Ltd | 文書検索方法および装置 |
JP2005063332A (ja) * | 2003-08-19 | 2005-03-10 | Fujitsu Ltd | 情報体系対応付け装置および対応付け方法。 |
JP2006163941A (ja) * | 2004-12-08 | 2006-06-22 | Nec Corp | 重複レコード検出システム、および重複レコード検出プログラム |
JP2006277413A (ja) * | 2005-03-29 | 2006-10-12 | Toshiba Corp | 文書分類装置および文書分類方法 |
Also Published As
Publication number | Publication date |
---|---|
BRPI0817507B1 (pt) | 2021-03-23 |
CA2701046A1 (en) | 2009-04-02 |
US20140281729A1 (en) | 2014-09-18 |
CN101878461B (zh) | 2014-03-12 |
EP2193415A4 (en) | 2013-08-28 |
CA2701046C (en) | 2016-07-19 |
AU2008304265A1 (en) | 2009-04-02 |
WO2009042941A1 (en) | 2009-04-02 |
CN101878461A (zh) | 2010-11-03 |
BRPI0817507A2 (pt) | 2015-09-29 |
AU2008304265B2 (en) | 2013-03-14 |
US10698755B2 (en) | 2020-06-30 |
JP5306360B2 (ja) | 2013-10-02 |
EP2193415A1 (en) | 2010-06-09 |
US20090089630A1 (en) | 2009-04-02 |
US8799282B2 (en) | 2014-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5306360B2 (ja) | データ記録を一致させるシステムの分析のための方法およびシステム | |
US8296311B2 (en) | Solution search for software support | |
US9031873B2 (en) | Methods and apparatus for analysing and/or pre-processing financial accounting data | |
US8176002B2 (en) | Method and system for user alteration of the configuration of a data warehouse | |
US7725501B1 (en) | System and method for rapid database application deployment and use | |
US8645332B1 (en) | Systems and methods for capturing data refinement actions based on visualized search of information | |
US11341116B2 (en) | Techniques for automated data analysis | |
AU2013202010B2 (en) | Data selection and identification | |
US9495282B2 (en) | Method and systems for a dashboard testing framework in an online demand service environment | |
CN107077413A (zh) | 数据驱动的测试框架 | |
US11947567B2 (en) | System and method for computing and managing datasets using hierarchical analytics | |
US7827153B2 (en) | System and method to perform bulk operation database cleanup | |
US7685146B2 (en) | Apparatus and method for a collaborative semantic domain and data set based on combining data | |
EP2019362A2 (en) | Spatial data validation systems | |
US20100070893A1 (en) | Data quality administration framework | |
Dakrory et al. | Automated ETL testing on the data quality of a data warehouse | |
US20080208528A1 (en) | Apparatus and method for quantitatively measuring the balance within a balanced scorecard | |
US20100306199A1 (en) | User-defined hierarchical categorization system and method for generating operational metrics | |
US20210200833A1 (en) | Health diagnostics and analytics for object repositories | |
KR20210036613A (ko) | 데이터 표준화 관리 시스템 | |
WO2005124586A1 (en) | Database interactions and applications | |
Wolff | Design and implementation of a workflow for quality improvement of the metadata of scientific publications | |
Cotik et al. | A Swiss army knife approach to DQ assessments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110817 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130501 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130501 |
|
RD12 | Notification of acceptance of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7432 Effective date: 20130501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130502 |
|
TRDD | Decision of grant or rejection written | ||
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130607 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130625 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5306360 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |