JP2023534239A - 修飾された関係スコアを用いたマスタデータの改善されたエンティティ解決 - Google Patents
修飾された関係スコアを用いたマスタデータの改善されたエンティティ解決 Download PDFInfo
- Publication number
- JP2023534239A JP2023534239A JP2023501875A JP2023501875A JP2023534239A JP 2023534239 A JP2023534239 A JP 2023534239A JP 2023501875 A JP2023501875 A JP 2023501875A JP 2023501875 A JP2023501875 A JP 2023501875A JP 2023534239 A JP2023534239 A JP 2023534239A
- Authority
- JP
- Japan
- Prior art keywords
- entity
- score
- entity records
- unresolved
- records
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012558 master data management Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims 6
- 238000012545 processing Methods 0.000 description 18
- 230000015654 memory Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000012552 review Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000002085 persistent effect Effects 0.000 description 10
- 230000008520 organization Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 239000004744 fabric Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
MDMシステムのマスタデータの複数のエンティティのエンティティレコード間のマッチングに関連付けられた第1のスコアが受信される。下限閾値スコア超かつ上限閾値スコア未満の第1のスコアを有するエンティティレコードのセットは、一致しているとも、一致していないとも確認されず、未解決と識別される。エンティティレコード間の関係に関連付けられた第2のスコアが生成される。第1のマッチングスコアを第2の関係スコアと組み合わせることにより、エンティティレコードのセットのペアリングの総スコアが決定される。エンティティのセットのそれぞれのペアリングの総スコアは、上限閾値と比較され、上限閾値を超えている場合、エンティティレコードのセットのエンティティレコードのペアの情報は、単一のレコードへと組み合わされ、冗長なエンティティレコードがMDMシステムから削除される。
Description
本発明は、概して、マスタデータ管理の分野に関し、より具体的には、修飾された関係スコアを用いた、マスタデータ管理システムにおけるエンティティデータの解決の改善に関する。
マスタデータ管理(MDM)は、企業の販売、マーケティングおよび営業戦略の事業ルールに従ってマスタデータを管理、集中化、編成、分類、位置特定、同期および強化するために用いられるコアプロセスである。MDMでは、包括的手法を使用して、組織のクリティカルデータを定義および管理する。MDMは、組織の構成要素、相互作用および関心にわたる、データについての単一の信頼できる概観を提供する。
マスタデータは、顧客、クライアント、従業員、請負業者、患者、医療提供者、サービスプロバイダ(人々)、特異な識別属性を有する他の組織、位置、製品またはオブジェクトなど、組織が機能、サポートまたは相互作用するエンティティに関連付けられたデータおよび情報を含む。
データの品質および精度は、マスタデータセットの重要な属性であり、MDMシステムは、2つのエンティティレコードを同じエンティティとして解決する際に偽陽性および偽陰性を回避するための技術を含む。
本発明の実施形態は、方法、コンピュータプログラム製品およびシステムを開示する。実施形態は、マスタデータ管理(MDM)システムのエンティティレコードを解決する方法を含む。この方法は、MDMシステムのマスタデータの複数のエンティティのエンティティレコード間のマッチングに関連付けられた第1のスコアを受信するための1つまたは複数のプロセッサを提供する。1つまたは複数のプロセッサは、下限閾値マッチングスコア超かつ上限閾値マッチングスコア未満である、エンティティレコードのセットの第1のスコアをそれぞれ識別し、エンティティレコードのセットの未解決のマッチングを示す。1つまたは複数のプロセッサは、エンティティレコードのセットに関連付けられた関係データの分析に基づき、エンティティレコード間の関係に関連付けられた第2のスコアを生成する。1つまたは複数のプロセッサは、マッチングに関連付けられた第1のスコアと関係に関連付けられた第2のスコアとを組み合わせることにより、エンティティレコードのセットの総スコアを生成する。1つまたは複数のプロセッサは、エンティティのセットの総スコアが上限閾値を超えているかどうかを判定し、エンティティレコードのセットのエンティティレコードのペアリングの総スコアが上限閾値を超えていることに応答して、1つまたは複数のプロセッサは、エンティティレコードのセットのエンティティレコードのペアの情報を単一のレコードへと組み合わせ、MDMシステムから冗長なエンティティレコードを削除する。
本発明の実施形態は、マスタデータ管理(MDM)システムが多くの場合に確率的マッチングエンジン(PME)を利用してエンティティのデータレコードを評価すると共に、データレコードがエンティティの複製であるかどうか、またはデータレコードが別個のエンティティのものであるかどうかを判定することを認識する。実施形態は、PMEソリューションが各マスタデータレコードと他のマスタデータレコードとのペアリングにおいてマッチングスコアを作成して、それぞれのエンティティレコードの属性に基づきマッチングスコアを決定することも、認識する。実施形態は、偽マッチが非常に問題のある動作および判定につながり得るので、エンティティレコードの偽陽性および偽陰性のマッチを最小化するためにPMEのマッチングアルゴリズムが慎重に較正されていることを認識する。
本発明の実施形態において、「エンティティ」という用語は、オブジェクトを指すために用いられ、「エンティティレコード」は、オブジェクトに関連付けられたデータおよび情報の集合を指す。エンティティは、例えば、個人、家族、人々のグループ、事業、組織、位置エリア、製品、サービス、または、任意のオブジェクトであって、そのオブジェクトについてのデータおよび情報の集合による識別もしくは説明を提供する属性もしくは特性を有する、任意のオブジェクトであってよい。個々の人々のエンティティは、例えば、顧客、患者、連絡先、従業員、メンバおよびプロバイダであってよい。実施形態は、エンティティレコードがエンティティの属性についての限定的であったり、変更されていたり、誤りがあったりするデータおよび情報を含んでいることで、複製のまたは冗長なエンティティレコードがマスタデータ内に存在し得る条件が生じる得ることも認識する。
本発明の実施形態は、MDMシステムエンティティレコードに適用されるPMEソリューションがエンティティレコードスコアをもたらすことを認識する。エンティティレコードは、例えば名前またはラベル、アドレス、電話番号、性別および他の属性および特性を含み得るエンティティの属性に関連付けられたデータおよび情報を含む。PMEエンティティレコードマッチングは、エンティティレコードペア間の利用可能なエンティティ属性を比較し、属性のマッチには高いスコアを付け、属性の非マッチには低いまたは負の値のスコアを付けることにより、確率スコアを生成する。総スコアは、ソート閾値のペアに適用される。これら2つの閾値は、レコードのペアが同じエンティティのものである(上限閾値スコア超)か、別個のエンティティからのものである(下限閾値スコア未満)かを自動的に判定する限界を定める。下限閾値以上または上限閾値以下のマッチングスコアをPMEソリューションが生成する、レコードの比較には、レコードが同じエンティティものであるかそうではないかを判定するために追加の解決が必要とされる。
マスタデータレポジトリのユーザは、データの高品質性および精度に依存し、多くの場合、データスチュワードにより実行される手動レビュー技術を利用して、エンティティレコードの区別を解決する。実施形態は、保守的なPMEソリューションアルゴリズムをエンティティレコードに適用すると、多くの場合には解決に手動レビューが必要とされる未解決のエンティティレコードのセットがもたらされることを認識する。いくつかの場合においては、クレリカルレビューによる手動解決に関連付けられたコストを回避するために、未解決のレコードは無視され、不正確なデータが受け入れられる。
本発明の実施形態は、マスタデータの潜在的な複製のまたは冗長なエンティティレコードを解決するための方法、コンピュータプログラム製品およびコンピュータシステムを提供する。本発明の実施形態において、マスタデータのエンティティレコードのペア間の関係レコードデータ、グループ化レコードデータおよび階層レコードデータの評価が実行される。この評価により、PMEアルゴリズムのマッチングスコアに追加される関係スコアが生成され、レコードペアが同じエンティティのものであるか別個のエンティティのものであるかをより正確に判定するための総スコアがもたらされる。いくつかの実施形態において、エンティティ間で比較される関係属性は、事業内または組織内の報告構造または機能的相互作用など、共通のグループ化関係および階層関係を含む。本発明の実施形態は、本明細書において、エンティティ間のグループ化および階層の属性も含むものとして、関係のエンティティレコード属性に言及している。
本発明の実施形態は、PMEアルゴリズムソリューションを利用するMDMシステムがエンティティのマッチングおよび解決のためのカテゴリおよび人口統計データのみを含むことを認識する。本発明の実施形態は、MDMシステムの既存のカテゴリおよび人口統計マッチングデータに追加される関係データの追加を含む。いくつかの実施形態において、マスタデータのエンティティに関連付けられ関係情報、グループ化情報および階層情報を反映した第2のスコアが生成される。第2の「関係」スコアは、初回「マッチングスコア」と組み合わされ、エンティティのペアリングのための総スコアがもたらされる。次に、総スコアを上限閾値および下限閾値と比較することで、エンティティのペアが一致しているか、一致していないか、著しく低減された未解決のカテゴリの一部であるかが判定される。
ここで、図を参照して、本発明を詳細に説明する。図1は、本発明の一実施形態による、概して100で示される分散型データ処理環境を示す機能ブロック図である。図1は、1つの実装の図示のみを提供しており、異なる実施形態が実装され得る環境に関していかなる限定も示唆していない。当業者であれば、特許請求の範囲に記載されるような本発明の範囲から逸脱することなく、図示されている環境に対する多くの修正を行い得る。
分散型データ処理環境100は、マスタデータ管理(MDM)システム110、サーバ120、カテゴリおよび人口統計(C&D)情報130、関係情報140、リンクエンティティレコード160ならびに未解決のエンティティレコード170を含み、これらは全て、ネットワーク150を介して相互接続されている。ネットワーク150は、例えば、ローカルエリアネットワーク(LAN)、インターネット、仮想ローカルエリアネットワーク(VLAN)のようなワイドエリアネットワーク(WAN)、または有線接続、無線接続、もしくは光接続を含み得る任意の組み合わせであり得る。概して、ネットワーク150は、サポートする接続およびプロトコルの任意の組み合わせであり得る。
MDMシステム110は、マスタデータ115および確率的マッチングエンジン(PME)117を含む。MDMシステム110は、マスタデータ115を受信、格納、処理および更新する。MDMシステム110は、計算デバイス、処理デバイス、ストレージデバイス、編集デバイスと、マスタデータ115を維持するためのアプリケーションとの組み合わせを含み得る。MDMシステム110は、各エンティティレコードをマスタデータ115の全ての他のエンティティレコードと比較してレコードが同じエンティティのものであるか別個のエンティティのものであるかを判定するPME117を介して、マッチング動作を実行する。MDMシステム110により実行されるマッチング動作は、2つのエンティティレコードの属性が同じエンティティのものである確率に基づき、本明細書においてマッチングスコアと称される第1のスコアを生成することを含む。
マスタデータ115は、MDMシステム110のコンポーネントとして示されている。いくつかの実施形態において、マスタデータ115は、検索可能なデータベースまたはレポジトリ内に含まれてよく、MDMシステム110の統合された部分であってよい。他の実施形態において、マスタデータ115は、MDMシステム110がアクセス可能な別個のデータレポジトリ(不図示)である。マスタデータ115は、マスタデータ115のエンティティの属性についての情報を含む。いくつかの実施形態において、マスタデータ115は、マスタデータ115のそれぞれのエンティティに関連付けられた属性、例えば、当該エンティティ(例えば、顧客、組織等)に関連付けられた名前またはラベル、位置、主題ならびに他のカテゴリデータもしくは人口統計データまたはその両方を含む。PME117は、マスタデータ115を利用して、エンティティレコードのペア間の第1のスコア(マッチングスコア)を生成できる。本願の実施形態において、マスタデータ115は、C&D情報130などのカテゴリおよび人口統計ソースからの情報およびデータに加え、関係情報140に含まれる情報など、関係データの追加のセットを含む。
C&D情報130は、カテゴリおよび人口統計エンティティデータおよび情報の1つまたは複数のソースを含む。いくつかの実施形態において、C&D情報130は、エンティティまたはエンティティのサポートサービスにより提供されるデータおよび情報を含む。他の実施形態において、C&D情報130は、エンティティの動作またはトランザクションからもたらされる。本発明の実施形態は、カテゴリの記載(年齢層、身長、位置および記述情報)により説明され得るデータをカテゴリ情報とみなす。実施形態は、人口統計データが名前またはラベル、(人々または組織の)位置、電話番号、識別番号等を含んでいるとみなす。C&D情報130は、MDMシステム110のPME117により、マスタデータ115のエンティティ間でマッチングした第1のスコアを生成するために利用される。
関係情報140は、マスタデータ115のあるエンティティと他の複数のエンティティとの関係、複数のエンティティの複数のグループおよび他のエンティティとの階層関係に関する情報の1つまたは複数のソースを含む。例えば、関係情報140は、同じ名を有する、兄および妹という2人の兄弟ならびに親を有する第1のエンティティ(個人)についての情報を含み得る。別の例では、関係情報140は、第1のユーザがメンバであるレクリエーション組織、第1のユーザが働いている事業体ならびに当該事業体内での第1のユーザの職位についての情報を含む。本発明の実施形態は、PME117により実行されるマッチングスコアである第1のスコアと組み合わされたマスタデータ115のエンティティの各ペアリングの関係情報140を利用した第2のスコアを生成して、マスタデータ115のエンティティレコードのペアリングが同じであるか別個であるかを判定するための総スコアを生成する。
本発明の様々な実施形態において、C&D情報130に含まれるカテゴリおよび人口統計エンティティデータおよび情報ならびに関係情報140に含まれる関係データおよび情報は、「オプトイン」または「オプトアウト」するオプションを有するエンティティにより収集または提供される。本発明の実施形態は、収集または提供された情報がどのように利用されるかについての説明をエンティティに提供すると共に、収集または提供された情報の記載された目的での使用をエンティティが許可または拒否することを可能にする。
一致しているエンティティレコード160は、関係スコアをマッチングスコアと組み合わせることにより総スコアを取得した後に、一致していると解決された、PME117によるマッチングの第1のスコアの後に元々は未解決のエンティティレコードとして分類されている全てのレコードを含む。一致しているエンティティレコード160は、エンティティレコードの複製を解決し、判定された単一のエンティティの下で以前は別個であったエンティティレコードを組み合わせるために、識別されてMDMシステム110へ送信される。いくつかの実施形態において、エンティティレコードのペアのデータが組み合わされ、検証済みの矛盾しているデータと、複製レコードとが、マスタデータから削除される。
未解決のエンティティレコード170は、一致しているスコアを関係スコアと組み合わせた後の総スコアが下限閾値スコア超かつ上限閾値スコア未満のままであるエンティティレコードを含む。未解決のエンティティレコード170は、未解決のままであり、いくつかの実施形態において、データスチュワードが割り当てられ、数が著しく低減した未解決のエンティティレコードの解決が完了する。
サーバ120は、レコードリンクプログラム300を含むものとして示されている。サーバ120は、ネットワーク150を介して、MDMシステム110と通信し、PME117からの未解決のエンティティレコードの出力をレコードリンクプログラム300へ転送する。いくつかの実施形態において、サーバ120は、ウェブサーバ、ブレードサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、またはネットワーク150を介して分散型データ処理環境100内で処理データを受信、送信、処理することおよびMDMシステム110と通信することが可能な任意の他のプログラマブル電子コンピューティングデバイスであり得る。別の実施形態において、サーバ120は、分散型データ処理環境100内でアクセスされた場合にシームレスなリソースの単一のプールとして動作するクラスタ化されたコンピュータおよびコンポーネント(例えば、データベースサーバコンピュータ、アプリケーションサーバコンピュータ等)を利用したコンピューティングシステムを表す。図4においてより詳細に示され説明されるように、サーバ120は、内部ハードウェアコンポーネントおよび外部ハードウェアコンポーネントを含み得る。
レコードリンクプログラム300は、サーバ120上で動作し、かつ、ネットワーク150を介してMDMシステム110に通信可能に接続されているように示されている。いくつかの実施形態において、レコードリンクプログラム300は、MDMシステム110を含むコンピュータサーバシステム(不図示)内で動作し得る。レコードリンクプログラム300は、関係情報140などの関係情報を除いた、マッチングスコアがマスタデータ115のカテゴリおよび人口統計データに基づいて判定される未解決のエンティティレコードのペアリング間の初回マッチングスコア(第1のスコア)を受信する。レコードリンクプログラム300は、未解決のエンティティレコードのセットを識別した後に、未解決のエンティティレコードの各々が他の未解決のエンティティレコードの各々とペアにされるペアリング間の関係を判定する。レコードリンクプログラム300は、関係のタイプに基づいて関係スコア(第2のスコア)を生成し、ペアにされたエンティティ間の関係および他のエンティティレコードとの関係を含む。レコードリンクプログラム300は、MDMシステム110のPME117により実行される以前に判定されたマッチングスコアを関係スコアと組み合わせて、総スコアを生成する。
下限閾値スコアおよび上限閾値スコアは、PME117内で定義され、エンティティレコードを一致していない、未解決および一致していると示すために用いられる。レコードリンクプログラム300は、未解決のエンティティレコードに対応する、下限閾値スコアを超えるが上限閾値スコアよりも低いエンティティレコードのそれぞれのペアリングのマッチングスコアを受信する。複数のエンティティならびに複数のエンティティの対応するカテゴリおよび人口統計データおよび情報の初回ロードの後に、レコードリンクプログラム300は、MDMシステム110のマスタデータ115に追加された関係データに基づいて、それぞれの未解決のエンティティレコードの各ペアリングのための第2のスコアを生成する。
いくつかの実施形態において、第2のスコアは、ペアにされたエンティティレコードが同じエンティティのものである(より高い正のスコア)か別個のエンティティのものである(より低いか負のスコア)ことをより決定的に示す関係データに基づいて重み付けされる。レコードリンクプログラム300は、それぞれの未解決のエンティティレコードのペアリングの各々の第1のスコアと第2のスコアとを組み合わせて、総スコアを生成する。レコードリンクプログラム300は、エンティティレコードの各ペアリングの総スコアを上限スコア閾値および下限スコア閾値と比較する。エンティティレコードのペアリングの総スコアが上限スコア閾値を超えている場合、レコードリンクプログラム300は、レコードのペアをマッチとみなし、これら2つの別個のレコードの情報を単一のレコードへと組み合わせるか取り込み、マスタデータ115から冗長なレコードおよび情報を削除する。考慮中のエンティティレコードのペアリングの総スコアが下限閾値スコアを下回っている場合レコードリンクプログラム300は、ペアまたはエンティティレコードを一致していない、かつ別個のレコードとみなす。考慮中のエンティティレコードのペアリングの総スコアが下限閾値スコアおよび上限閾値スコアに該当するか、下限閾値スコアと上限閾値スコアとの間である場合、レコードリンクプログラム300は、考慮中のペアまたはエンティティレコードを未解決とみなし、多くの場合にはデータスチュワードにより手動で実行される追加の調査を必要とする。
本発明のいくつかの実施形態において、レコードリンクプログラム300は、複数のエンティティ間の関係と、複数のエンティティの複数のグループと、複数のエンティティ間の階層構造とに基づいて、第2のスコアを生成する。例えば、個人は、兄弟、子孫、親もしくはそれよりも広い家族関係またはその組み合わせを有していることがあり、他のエンティティを有する組織のメンバであることがあり、他のエンティティと共通のエリア内に存在することがあり、他のエンティティと共通の事業組織で働いていることがあり、他のエンティティに関連する階層構造を有する役職を保持していることがある。未解決のエンティティレコードの別のエンティティとの1つまたは複数の関係の存在または不存在により、ある関係の特定の状態に対して与えられる予め決定された重みに基づいて、それぞれの未解決のエンティティレコードのペアリングの第2のスコアが上がってもよく、下がってもよく、第2のスコアに何らの影響を及ぼさなくてもよい。
別の例示的な実施形態において、単一の兄弟を有することを2つのエンティティレコードが示しており、各エンティティレコードが、両方のエンティティレコードに共通の親関係を含む場合、2つのエンティティは、別個である可能性が最も高く、関係の重みは、第2のスコアに対して値がより低く、負である可能性があり、その結果、総スコアが下限閾値スコアを下回り、エンティティレコードが一致していないことを示す。2つのエンティティが配偶者の共通の組織メンバーシップおよび共通の名前を有する場合、2つのエンティティレコードは、同じエンティティである可能性が最も高く、これらの関係のスコアは、2つのエンティティレコードと一致して正のより高いものになる。
本発明のいくつかの実施形態において、レコードリンクプログラム300は、初回マッチングスコア付けの後に未解決のエンティティレコードが適用される機械学習モデルである。いくつかの実施形態において、機械学習モデルは、データスチュワードにより手動で解決されたマスタデータの未解決のエンティティレコードのそれぞれのペアの関係タイプ、階層条件および共通のグルーピング属性に対応する重み付け係数を決定することにより訓練され、したがって、機械学習モデルの教師あり学習として機能する。機械学習モデルとしてのレコードリンクプログラム300の展開の後に、レコードリンクプログラム300は、データスチュワードにより解決される低減されているが残っている未解決のエンティティレコードからの結果を取得し、したがって、機械学習モデルを継続的に改善する。
図2Aは、本発明の実施形態による、エンティティレコード確率的マッチングのカテゴリ化を示す。図2Aは、一致していないレコード210、未解決のレコード215、一致しているレコード220、下限閾値スコア225および上限閾値スコア230を含む。本発明の実施形態において、マスタデータのエンティティレコードのペアリング間の第1のスコアの後に、エンティティレコードが、エンティティレコードマッチングの3つの条件へ分類される。エンティティレコードペアの第1のスコアは、PME117(図1)により実行される。マスタデータのエンティティレコードのカテゴリ化は、他のエンティティレコードの各々との各エンティティレコードペアリングの第1のスコアに基づいており、レビュー中の2つのエンティティレコードと称される場合がある。下限閾値スコア225および上限閾値スコア230は、MDMシステム110により定義され、MDMシステム110のスコア付けスキームおよび保守的目的と調整されることで、未解決のレコード215において分類される著しいエンティティレコードを典型的にはもたらす偽陰性および偽陽性が回避される。
マスタデータ管理システム110上で動作するPME117は、エンティティレコードの比較を実行して、第1のスコアを決定する。PME117は、エンティティレコードを別のエンティティレコードと比較し、エンティティレコードの属性が一致しているかほぼ一致しているかに基づき、属性のマッチにより第1のスコアが上がり、マッチングがない場合には第1のスコアに影響を及ぼさないか第1のスコアを下げるようにスコアを与えられる。PME117は、複数のエンティティレコードの組み合わせについて、比較を反復的に実行する。PME117は、第1のスコアを下限閾値スコア225および上限閾値スコア230と比較して、エンティティレコードペアのカテゴリ化を判定する。PME117は、エンティティレコードの第1のスコアが下限閾値スコア225を下回っていると判定した場合、エンティティレコードを一致していないレコード210に分類する。PME117は、第1のスコアが上限閾値スコア230を超えているとPME117が判定した場合、エンティティレコードペアを一致しているレコード220に分類し、第1のスコアが下限閾値スコア225および上限閾値スコア230であるか、それらの間である場合、エンティティレコードペアを未解決のレコード215に分類する。
図2Bは、本発明の実施形態による、エンティティ関係タイプの例示的な重み付けされたスコアを含むテーブルを示す。図2Bは、関係スコアテーブル270のそれぞれの列として、兄弟関係タイプ240、親関係タイプ242、配偶者関係タイプ244および雇用主関係タイプ246を含む。関係スコアテーブル270は、レビュー中の未解決のマスタデータの2つのエンティティレコードの関係スコア(第2のスコア)の例を「a、b」というフォーマットで含む行250を含む。「a」は、レビュー中の2つのエンティティレコード間の関係の重みであり、「b」は、関係がない場合の重みである。図2Bは、レビュー中の2つのエンティティレコードの関係のスコアの例を「x、y、z」というフォーマットで表す行260を含む。「x」は、別の共通のエンティティとのエンティティレコードのペアの関係の重み値であり、「y」は、異なる他のエンティティとのエンティティレコードのペアの関係の重み値であり、「z」は、他のエンティティとの関係がないことを示す重み値である。
行250および兄弟関係タイプ240は、レビュー中のエンティティレコードのペア間の兄弟関係の関係スコアの重みを示す。したがって、大きい負の重みが割り当てられている(位置「a」)。なぜなら、2つのエンティティレコードが別個である可能性が低いからである。関係「b」がないことを示す重みは、レビュー中のペアのエンティティレコードが兄弟関係を確認しているときにゼロ値で維持される。
行250および親関係タイプ242は、エンティティレコードのペア間の親-子関係の関係スコアの例示的な重みを示し、行250および配偶者関係タイプ244は、配偶者-配偶者関係を有する2つのエンティティレコードの関係スコアの例示的な重みを示す。レビュー中の2つのエンティティレコードが親関係または配偶者関係を含む場合、これらのエンティティレコードは、同じエンティティではない可能性が最も高く、下限閾値スコア未満の総スコアに影響を与えるために、関係スコア(第2のスコア)に対する大きい負の重みが割り当てられる。行250および雇用主関係タイプ246は、エンティティレコードのペア間の関係を、共通の雇用主を有するものとして示す。関係スコアの例に割り当てられた重みは、ゼロであり、関係スコアに対する重み付けされた影響がない。なぜなら、別個のエンティティが同じ雇用主のために働いているかもしれない可能性が幾分あるからである。
行260は、兄弟関係、親関係、配偶者関係および雇用主関係に基づく第2のスコア(関係スコア)の例示的な重みを示す。行260および兄弟関係タイプ240は、別のエンティティとのエンティティレコードのペアの共通の兄弟関係を示し(位置「x」)、より低い重みである10を受信する。なぜなら、これら2つのレコードが同じエンティティのものであり得るか、両方に関連する3番目の兄弟が存在し得るからである。行260および親関係タイプ242は、別のエンティティとのエンティティレコードのペアの共通の親関係を示し(位置「y」)、15という重みを受信する。なぜなら、レコードのペアが同じエンティティのものであり得るか、兄弟が存在し得るからである。行260および配偶者関係タイプ244は、共通の配偶者関係を示し、より高い重みである50を受信する。なぜなら、エンティティレコードのペアが同じエンティティであることが最も確実だからである。行260および雇用主関係タイプ246は、レビュー中のエンティティレコードと雇用主との関係に基づく第2のスコアの例示的な重みを示す。
図2Aおよび図2Bの例示的な重みは、ペアにされたエンティティレコードが同じエンティティである可能性がありマッチとしてのレコードをもたらすか、これらのエンティティレコードが別個であるかの判定において関係の考慮事項を反映するように意図されている。重みの大きさは例であり、本発明の実施形態の実装は、特定のマスタデータの管理の考慮事項を含む。
図3は、本発明の実施形態による、図1の分散型データ処理環境において動作するレコードリンクプログラム300の動作段階を示すフローチャートである。
レコードリンクプログラム300が、マスタデータのそれぞれのエンティティレコード間のマッチングに関連付けられた第1のスコアを受信する(段階310)。本発明のいくつかの実施形態において、共通または同様の属性を有するマスタデータのエンティティレコードが確率的マッチングエンジンによりペアにされてスコア付け(第1のスコア)されることで、エンティティレコードのペアが同じエンティティからのものであるか、別個のエンティティからのものであるか、エンティティレコードが同じエンティティからのものであるか異なるエンティティからのものであるかに関して不明確である(未解決とみなされる)かが判定される。
例えば、同じ名字属性を有するマスタデータのエンティティレコードのペアは、MDMシステム110の確率的マッチングエンジン117により処理され、エンティティレコードのペア間のマッチングの第1のスコアをもたらす。
レコードリンクプログラム300が、未解決のエンティティレコードのセットを識別する(段階320)。本発明の実施形態において、レコードリンクプログラム300は、レコードのマッチまたは別個のレコードとみなされなかったエンティティレコードペアに第1のスコアが一致した後に「未解決」と分類されたエンティティレコードを受信する。いくつかの実施形態において、上限閾値スコアおよび下限閾値スコアが確立され、確率的マッチングエンジンが、閾値スコアを適用して、一致しているエンティティレコードペアおよび一致していないエンティティレコードペアを判定する。エンティティレコードの偽陽性マッチングおよび偽陰性マッチングを回避するために、上限閾値スコアおよび下限閾値スコアは、保守的に決定される。保守的な閾値は、初回マッチングスコア判定の後に「未解決」と分類される著しい量のエンティティレコードをもたらす。レコードリンクプログラム300は、未解決のエンティティレコードを追加のマッチング解決のセットと判定する。
例えば、複数のエンティティに対応するマスタデータ115の複数のデータおよび情報レコードが、MDMシステム110のPME117により処理される。PME117は、エンティティレコードのペアのレコードマッチングの確率スコア(第1のスコア)を生成し、これらのレコードを、上限閾値スコアを超えるエンティティレコードのペアのマッチングスコアに基づき、「一致している」と分類する。PME117は、エンティティレコードの外観を、下限閾値スコア未満に該当するマッチングスコアに基づき、「一致していない」と分類でき、下限閾値スコアおよび上限閾値スコアであるかそれらの間である初回マッチングスコアを有するエンティティレコードのペアは、「未解決」と分類される。レコードリンクプログラム300は、下限閾値スコアおよび上限閾値スコアであるかそれらの間である初回マッチングスコアを有するエンティティレコードを未解決のエンティティレコードのセットとして識別する。
レコードリンクプログラム300が、未解決のエンティティレコードのペアリングの関係に関連付けられた第2のスコアを生成する(段階330)。マスタデータ管理(MDM)システムは、例えば、名前、アドレス/位置、電話番号、アカウント、日付等、エンティティレコードの解決のための基本的なカテゴリおよび識別情報を考慮する。本発明の実施形態において、MDMシステムは、修飾された関係情報を含み、この関係情報は、エンティティレコード間の、およびマスタデータのエンティティレコードのペアと他のエンティティレコードとの間の関係に関連付けられた第2のスコアを生成するために用いられる。本発明の実施形態は、マスタデータのエンティティレコード内に示されるようなエンティティの階層およびグループに関連付けられた既知の修飾された情報を関係スコアに含める。
レコードリンクプログラム300は、未解決のエンティティレコードのペアのマッチングスコアに重み付けを適用する。いくつかの実施形態において、エンティティレコードが同じエンティティからのものである可能性があり、かつマッチである可能性があることを裏付ける関係情報、階層情報およびグループ化情報に、正の重み付けが適用される。いくつかの実施形態において、関係情報は、エンティティレコードの一致しているセットを強く裏付けていることがあり、したがって、重み付けが著しく高くなる。他の実施形態において、関係情報は、レコードが別個のエンティティからのものである可能性が最も高いことを示し、ゼロまたは負の重み値を割り当てられる。いくつかの実施形態において、レコードリンクプログラム300は、関係スコア(第2のスコア)の決定に際し、レビュー中の未解決のエンティティレコードのペアの関係情報、階層情報およびグループ化情報(本明細書において「関係情報」と総称される)を1つまたは複数の他のエンティティレコードと共に考慮する。
例えば、レコードリンクプログラム300は、エンティティレコードのペアの各エンティティレコードが異なる雇用主にリンクされており、異なる配偶者との関係を有していると判定する。これらのレコードが別個なので、レコードリンクプログラム300は、レコードのペアリングに大きい負の重み(例えば、-100)を適用する。エンティティレコードの別のペアは、共通のエンティティとの兄弟関係を有し、共通の親関係を有する。これらのレコードが同じエンティティからのものである可能性があるので、レコードリンクプログラム300は、10という正の重みをこれらのレコードに割り当てる。しかしながら、エンティティレコードのうちの2つのエンティティが関連する3番目の兄弟が存在し得るので、割り当てられた重みは、値が幾分小さい。いくつかの実施形態において、関係のより高速な判定および選択のために、関係情報は、「IDからのエンティティ(entity-from-id)」、「IDへのエンティティ(entity-to-id)」および「関係タイプ」に基づき、インデックス化またはバケット化され得る。
レコードリンクプログラム300が、第1のスコアと第2のスコアとを組み合わせることにより、総スコアを生成する(段階340)。レコードリンクプログラム300は、初回確率マッチングエンジンにより生成される第1のスコアを、関係情報から生成された第2のスコアと組み合わせて、レビュー中の未解決のエンティティレコードのペアリングの総スコアを生成する。いくつかの実施形態において、総スコアは、マッチングスコアおよび関係スコアの算術的合計である。他の実施形態において、関係スコアは、第1のスコアを25%低減する-1.25という係数など、第1のスコアマッチング結果で乗算された正または負の係数を含み得る。
レコードリンクプログラム300が、エンティティレコードの総スコアマッチングペアが上限閾値スコアを超えているかどうかを判定する(判定段階350)。レコードリンクプログラム300は、エンティティレコードのペアの総マッチングスコアを以前に確立された上限閾値スコアと比較して、総スコアが上限閾値を超えているかどうかを判定する。本発明のいくつかの実施形態において、関係スコアにより、上限閾値スコアを超えるエンティティレコードのペアの総マッチングスコアが上がる。一方、他の実施形態において、関係スコアは、著しく負であり、総マッチングスコアは、下限閾値スコアを下回る。
総スコアが上限閾値スコアを超えていない(段階350、「いいえ」分岐)場合、レコードリンクプログラム300は、総スコアが下限閾値スコアを下回っているかどうかの判定(判定段階370)に進む。レコードリンクプログラム300は、段階370において、未解決のエンティティレコードのペアと一致する総スコアを下限閾値スコアに対して比較し、総スコアが下限閾値スコアを下回っているかどうかを判定する。
総スコアが下限閾値スコアを下回っている(段階370、「はい」分岐)場合、レコードリンクプログラム300は、エンティティレコードのペアを「一致していない」と分類する(段階380)。レコードリンクプログラム300は、未解決のエンティティレコードのペアと一致する総スコアが下限閾値スコアを下回っていると判定すると、エンティティレコードのペアを「一致していない」と分類し、これらのレコードが別個のエンティティからのものであると結論付ける。
総スコアが下限閾値スコア以上であるが、前の段階350において、総スコアが上限閾値スコア以下であると判定された(段階370、「いいえ」分岐)場合、レコードリンクプログラム300は、エンティティレコードのペアを「未解決」のままに分類し(段階390)、総スコアからの残りの未解決のエンティティレコードの解決には、解決のための追加の調査が必要とされる。エンティティレコードペアリングの総スコアを比較し、エンティティレコードのマッチングカテゴリを判定すると、レコードリンクプログラム300は終了する。
段階350に戻り、総スコアが上限閾値スコアを超えている(段階350、「はい」分岐)とレコードリンクプログラム300が判定する場合を考慮すると、レコードリンクプログラム300は、エンティティレコードのペアの各々の情報を単一のエンティティレコードへと組み合わせる(段階360)。レコードリンクプログラム300は、レビュー中のエンティティレコードからの情報を単一のレコードへと組み合わせ、マスタデータから冗長な情報および複製レコードを削除する。
例えば、レコードリンクプログラム300は、より最近のエンティティレコードの電話番号およびアドレスにより古いエンティティレコードの電話番号およびアドレスが置換されていると判定する。レコードリンクプログラム300は、より最近のエンティティレコードにおいて見つかった、エンティティのグループメンバーシップおよび生年月日に関する新しい情報を、更新されたエンティティレコードに追加し、組み合わされ更新されたレコード属性を有するエンティティの単一のレコードをそのままにして複製のレコード属性およびエンティティレコードを破棄する。
いくつかの実施形態において、未解決のエンティティレコードの追加の解決が、データスチュワードにより手動で実行される。本発明の実施形態において、エンティティレコードがレビュー中であるエンティティの既知の修飾された関係情報に基づく第2のスコアを含むことにより、「未解決」として残るエンティティレコードの量が大幅に低減し、データスチュワードによる手動解決の時間およびコストが著しく低減し、未解決のエンティティレコードを無視することによりマスタデータレコードの精度および品質の損失が回避される。
図4は、本発明の一実施形態による、図1に示されるコンポーネントを含むかこのコンポーネントに動作上接続するように構成されており、かつ、図3のレコードリンクプログラム300を動作上実行する能力を有するコンピューティングデバイス405を含むコンピューティングシステムのコンポーネントのブロック図を示す。
本発明の例示的な実施形態によれば、コンピューティングデバイス405は、サーバ120(図1)のコンポーネントと同様のコンポーネントおよび機能を含む。図4は、1つの実装の図示のみを提供しており、異なる実施形態が実装され得る環境に関していかなる限定も示唆していないことを理解されたい。図示された環境に対する多くの修正が行われ得る。
コンピューティングデバイス405は、通信ファブリック402を含み、通信ファブリック402は、コンピュータプロセッサ404と、メモリ406と、永続的ストレージ408と、通信ユニット410と、入力/出力(I/O)インタフェース412との間の通信を提供する。通信ファブリック402は、プロセッサ(例えば、マイクロプロセッサ、通信プロセッサおよびネットワークプロセッサ等)と、システムメモリと、周辺デバイスと、システム内の任意の他のハードウェアコンポーネントとの間でデータもしくは制御情報またはその両方を渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック402は、1つまたは複数のバスを用いて実装され得る。
メモリ406、キャッシュメモリ416および永続的ストレージ408は、コンピュータ可読記憶媒体である。本実施形態において、メモリ406は、ランダムアクセスメモリ(RAM)414を含む。概して、メモリ406は、任意の適切な揮発性または不揮発性のコンピュータ可読記憶媒体を含み得る。
一実施形態において、レコードリンクプログラム300は、メモリ406のうちの1つまたは複数のメモリを介したそれぞれのコンピュータプロセッサ404のうちの1つまたは複数による実行のために、永続的ストレージ408に格納されている。本実施形態において、永続的ストレージ408は、磁気ハードディスクドライブを含む。磁気ハードディスクドライブに替えて、または磁気ハードディスクドライブに加え、永続的ストレージ408は、ソリッドステートハードドライブ、半導体ストレージデバイス、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM)、フラッシュメモリ、または、プログラム命令もしくはデジタル情報の格納が可能な任意の他のコンピュータ可読記憶媒体を含み得る。
永続的ストレージ408により用いられる媒体は、取り外し可能であってもよい。例えば、リムーバブルハードドライブが、永続的ストレージ408のために用いられてよい。他の例は、光学ディスクおよび磁気ディスク、サムドライブ、ならびに、永続的ストレージ408の一部でもある別のコンピュータ可読記憶媒体への転送のためにドライブ内に挿入されるスマートカードを含む。
通信ユニット410は、これらの例において、分散型データ処理環境100のリソースを含む、他のデータ処理システムまたはデータ処理デバイスとの通信を提供する。これらの例において、通信ユニット410は1つまたは複数のネットワークインタフェースカードを含む。通信ユニット410は、物理通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通じて、通信を提供し得る。レコードリンクプログラム300は、通信ユニット410を通じて永続的ストレージ308へダウンロードされ得る。
I/Oインタフェース412により、コンピューティングシステム400に接続され得る他のデバイスとの間でのデータの入力および出力が可能になる。例えば、I/Oインタフェース412は、キーボード、キーパッド、タッチスクリーンもしくは何らかの他の適切な入力デバイスまたはその組み合わせなどの外部デバイス418への接続を提供し得る。また、外部デバイス418は、例えば、サムドライブ、ポータブル光学ディスクまたはポータブル磁気ディスクおよびメモリカードなどのポータブルコンピュータ可読記憶媒体を含み得る。例えばレコードリンクプログラム300といった、本発明の実施形態を実施するために用いられるソフトウェアおよびデータは、そのようなポータブルコンピュータ可読記憶媒体に格納されてよく、I/Oインタフェース412を介して永続的ストレージ408にロードされてよい。また、I/Oインタフェース412は、ディスプレイ420に接続している。
ディスプレイ420は、ユーザにデータを表示するための機構を提供し、例えば、コンピュータモニタであってよい。
本明細書において説明されるプログラムは、本発明の特定の実施形態においてそれらが実装される用途に基づいて識別される。しかしながら、本明細書におけるいずれの特定のプログラム名称も、便宜上用いられているに過ぎず、したがって、本発明は、そのような名称により識別もしくは示唆され、またはその組み合わせが行われる任意の特定の用途でのみ用いることに限定されるべきではないことを理解されたい。
本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはその組み合わせであってよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるための1つの(または複数の)コンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体を含み得る。
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持および格納できる有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光学ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、または前述のものの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、記録された命令を有するパンチカードまたは溝内隆起構造などの機械的にエンコードされたデバイス、および前述のものの任意の適切な組み合わせを含む。本明細書において用いられるようなコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを通じて伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスへダウンロードされてもよく、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワークもしくは無線ネットワークまたはその組み合わせを介して、外部コンピュータまたは外部ストレージデバイスへダウンロードされてもよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータもしくはエッジサーバまたはその組み合わせを備え得る。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路用構成データ、または、例えばSmalltalk(登録商標)もしくはC++等のオブジェクト指向プログラミング言語、「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で、または全体的にリモートコンピュータもしくはサーバ上で実行され得る。後者のシナリオにおいて、リモートコンピュータが、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続されてもよく、接続が、(例えば、インターネットサービスプロバイダを用いてインターネットを通じて)外部コンピュータに対して行われてもよい。いくつかの実施形態において、本発明の態様を実行すべく、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して当該電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行し得る。
本発明の態様は、本明細書において、本発明の実施形態による方法、装置(システム)およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して、説明されている。フローチャート図もしくはブロック図またはその組み合わせの各ブロックと、フローチャート図もしくはブロック図またはその組み合わせにおける各ブロックの組み合わせとは、コンピュータ可読プログラム命令により実装され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータのプロセッサ、または機械を生成する他のプログラマブルデータ処理装置に提供されてよく、その結果、コンピュータのプロセッサまたは他のプログラマブルデータ処理装置を介して実行される命令は、フローチャートもしくはブロック図またはその両方の1つのブロックもしくは複数のブロックにおいて指定される機能/動作を実装するための手段を作成する。また、これらのコンピュータ可読プログラム命令は、特定の方式で機能するようコンピュータ、プログラマブルデータ処理装置もしくは他のデバイスまたはその組み合わせに指示できるコンピュータ可読記憶媒体に格納されてよく、その結果、格納された命令を有するコンピュータ可読記憶媒体は、フローチャートもしくはブロック図またはその両方の1つのブロックもしくは複数のブロックにおいて指定される機能/動作の態様を実装する命令を含む製造品を備える。
また、コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または、一連の動作段階がコンピュータ、他のプログラマブル装置、もしくはコンピュータ実装処理を生成するための他のデバイス上で実行されるようにするための他のデバイスにロードされてよく、その結果、コンピュータ、他のプログラマブル装置または他のデバイス上で実行される命令は、フローチャートもしくはブロック図またはその両方の1つのブロックまたは複数のブロックにおいて指定される機能/動作を実装する。
図面におけるフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法およびコンピュータプログラム製品の可能な実装のアーキテクチャ、機能および動作を示している。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実装する1つまたは複数の実行可能命令を含む命令のモジュール、セグメントまたは部分を表し得る。いくつかの代替的な実装において、ブロックに記載された機能は、図に記載された順序から外れて行われ得る。例えば、連続して示される2つのブロックは、実際には、1つの段階として実現され、部分的または全体的に時間的に重複する方式で、同時に、または実質的に同時に実行されてもよく、場合によっては、これらのブロックは、関連する機能に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックと、ブロック図もしくはフローチャート図またはその両方におけるブロックの組み合わせとは、指定された機能または動作を実行するか、専用ハードウェアとコンピュータ命令との組み合わせを実行する専用ハードウェアベースシステムにより実装され得ることにも留意されたい。
Claims (20)
- マスタデータ管理(MDM)システムのエンティティレコードを解決する方法であって、
1つまたは複数のプロセッサが、MDMシステムのマスタデータの複数のエンティティのそれぞれのエンティティレコードの間のマッチングに関連付けられた第1のスコアを受信する段階と、
前記1つまたは複数のプロセッサが未解決のエンティティレコードのセットを識別する段階であって、前記未解決のエンティティレコードのセットのそれぞれのエンティティレコードのペアリング間の前記第1のスコアは、下限閾値スコア超かつ上限閾値スコア未満である、識別する段階と、
前記1つまたは複数のプロセッサが、前記MDMシステムの前記マスタデータに追加された前記複数のエンティティの関係データに基づいて、前記未解決のエンティティレコードの前記それぞれのエンティティレコードの前記ペアリング間の関係に関連付けられた第2のスコアを生成する段階と、
前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングのために前記第1のスコアと前記第2のスコアとを組み合わせることにより総スコアを生成する段階と、
前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングに関連付けられた前記総スコアが前記上限閾値スコアを超えているかどうかを判定する段階と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの前記総スコアが前記上限閾値スコアを超えていることに応答して、前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードの前記セットの前記それぞれのエンティティレコードの前記ペアリングの情報を単一のエンティティレコードへと組み合わせる段階と
を備える、方法。 - 前記第1のスコアは、前記MDMシステムの前記マスタデータの前記複数のエンティティの前記それぞれのエンティティレコードの関係情報、階層情報およびグループ化情報を除いて生成される、請求項1に記載の方法。
- 前記第2のスコアは、前記MDMシステムのエンティティに関連付けられた追加の関係の情報、グループ化および階層情報に基づいている、請求項1または2に記載の方法。
- 前記1つまたは複数のプロセッサが、前記複数のエンティティの各エンティティについて、前記MDMシステムの前記複数のエンティティの第1のエンティティと前記複数のエンティティの第2のエンティティとのマッチング評価を実行する段階と、
前記1つまたは複数のプロセッサが、前記複数のエンティティの前記第1のエンティティと前記複数のエンティティの前記第2のエンティティとのマッチングに関連付けられた前記第1のスコアを生成する段階と
をさらに備える、請求項1から3のいずれか一項に記載の方法。 - 前記第2のスコアは、前記未解決のエンティティレコードのそれぞれの前記ペアリングに関連付けられた関係情報、階層情報およびグループ化情報の修飾されたデータに基づいており、第3のエンティティとの前記未解決のエンティティレコードのそれぞれの前記ペアリングの関係が存在しているという判定のための重み付け係数と、関係が存在しないという判定のための重み付け係数とを含む、請求項1から4のいずれか一項に記載の方法。
- 前記1つまたは複数のプロセッサが、前記単一のエンティティレコードへの前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの情報の組み合わせに応答して、前記MDMシステムの前記マスタデータから冗長なエンティティレコードを削除する段階
をさらに備える、請求項1から5のいずれか一項に記載の方法。 - 前記1つまたは複数のプロセッサが、前記複数のエンティティの前記関係データに基づいて、前記未解決のエンティティレコードのセットのそれぞれの前記ペアリング間の前記関係に関連付けられた前記第2のスコアを生成する機械学習モデルを作成する段階と、
前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードのセットの関係タイプ、階層条件および共通のグルーピング属性に対応する第2のスコアおよび重み付け係数を受信する段階と、
前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードのセットの前記関係タイプ、階層条件および共通のグルーピング属性に対応する前記第2のスコアおよび前記重み付け係数を教師あり学習として適用することにより、前記機械学習モデルを訓練する段階と、
前記1つまたは複数のプロセッサが、前記未解決のエンティティレコードのセットの前記第2のスコアおよび前記重み付け係数により訓練された機械学習モデルを未解決のエンティティレコードの新しいセットへ適用する段階と
をさらに備える、請求項1から6のいずれか一項に記載の方法。 - マスタデータ管理(MDM)システムのエンティティレコードを解決するためのコンピュータプログラムであって、プロセッサに、
MDMシステムのマスタデータの複数のエンティティのそれぞれのエンティティレコードの間のマッチングに関連付けられた第1のスコアを受信する手順と、
未解決のエンティティレコードのセットを識別する手順であって、前記未解決のエンティティレコードのセットのそれぞれのエンティティレコードのペアリング間の前記第1のスコアは、下限閾値スコア超かつ上限閾値スコア未満である、識別する手順と、
前記MDMシステムの前記マスタデータに追加された前記複数のエンティティの関係データに基づいて、前記未解決のエンティティレコードの前記それぞれのエンティティレコードの前記ペアリング間の関係に関連付けられた第2のスコアを生成する手順と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングのために前記第1のスコアと前記第2のスコアとを組み合わせることにより総スコアを生成する手順と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングに関連付けられた前記総スコアが前記上限閾値スコアを超えているかどうかを判定する手順と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの前記総スコアが前記上限閾値スコアを超えていることに応答して、前記未解決のエンティティレコードの前記セットの前記それぞれのエンティティレコードの前記ペアリングの情報を単一のエンティティレコードへと組み合わせる手順と
を有する、
コンピュータプログラム。 - 前記第1のスコアは、前記MDMシステムの前記マスタデータの前記複数のエンティティの前記それぞれのエンティティレコードの関係情報、階層情報およびグループ化情報を除いて生成される、請求項8に記載のコンピュータプログラム。
- 前記第2のスコアは、前記MDMシステムのエンティティに関連付けられた追加の関係の情報、グループ化および階層情報に基づいている、請求項8または9に記載のコンピュータプログラム。
- 前記プロセッサに、
前記複数のエンティティの各エンティティについて、前記MDMシステムの前記複数のエンティティの第1のエンティティと前記複数のエンティティの第2のエンティティとのマッチング評価を実行する手順と、
前記複数のエンティティの前記第1のエンティティと前記複数のエンティティの前記第2のエンティティとのマッチングに関連付けられた前記第1のスコアを生成する手順と
をさらに実行させる、請求項8から10のいずれか一項に記載のコンピュータプログラム。 - 前記第2のスコアは、前記未解決のエンティティレコードのそれぞれの前記ペアリングに関連付けられた関係情報、階層情報およびグループ化情報に基づいており、第3のエンティティとの前記未解決のエンティティレコードのそれぞれの前記ペアリングの関係が存在しているという判定のための重み付け係数と、関係が存在しないという判定のための重み付け係数とを含む、請求項8から11のいずれか一項に記載のコンピュータプログラム。
- 前記プロセッサに、
前記単一のエンティティレコードへの前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの情報の組み合わせに応答して、前記MDMシステムの前記マスタデータから冗長なエンティティレコードを削除する手順
をさらに実行させる、請求項8から12のいずれか一項に記載のコンピュータプログラム。 - 前記プロセッサに、
前記複数のエンティティの前記関係データに基づいて、前記未解決のエンティティレコードのセットのそれぞれの前記ペアリング間の前記関係に関連付けられた前記第2のスコアを生成する機械学習モデルを作成する手順と、
前記未解決のエンティティレコードのセットの関係タイプ、階層条件および共通のグルーピング属性に対応する第2のスコアおよび重み付け係数を受信する手順と、
前記未解決のエンティティレコードのセットの前記関係タイプ、階層条件および共通のグルーピング属性に対応する前記第2のスコアおよび前記重み付け係数を教師あり学習として適用することにより、前記機械学習モデルを訓練する手順と、
前記未解決のエンティティレコードのセットの前記第2のスコアおよび前記重み付け係数により訓練された機械学習モデルを未解決のエンティティレコードの新しいセットへ適用する手順と
をさらに備える、請求項8から13のいずれか一項に記載のコンピュータプログラム。 - マスタデータ管理(MDM)システムのエンティティレコードを解決するためのコンピュータシステムであって、
1つまたは複数のコンピュータプロセッサと、
1つまたは複数のコンピュータ可読記憶媒体と、
前記1つまたは複数のコンピュータ可読記憶媒体に格納されたプログラム命令と
を備え、
前記プログラム命令は、
MDMシステムのマスタデータの複数のエンティティのそれぞれのエンティティレコードの間のマッチングに関連付けられた第1のスコアを受信するためのプログラム命令と、
未解決のエンティティレコードのセットを識別するためのプログラム命令であって、前記未解決のエンティティレコードのセットのそれぞれのエンティティレコードのペアリング間の前記第1のスコアは、下限閾値スコア超かつ上限閾値スコア未満である、識別するためのプログラム命令と、
前記MDMシステムの前記マスタデータに追加された前記複数のエンティティの関係データに基づいて、前記未解決のエンティティレコードの前記それぞれのエンティティレコードの前記ペアリング間の関係に関連付けられた第2のスコアを生成するためのプログラム命令と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングのために前記第1のスコアと前記第2のスコアとを組み合わせることにより総スコアを生成するためのプログラム命令と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングに関連付けられた前記総スコアが前記上限閾値スコアを超えているかどうかを判定するためのプログラム命令と、
前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの前記総スコアが前記上限閾値スコアを超えていることに応答して、前記未解決のエンティティレコードの前記セットの前記それぞれのエンティティレコードの前記ペアリングの情報を単一のエンティティレコードへと組み合わせるためのプログラム命令と
を有する、
コンピュータシステム。 - 前記第1のスコアは、前記MDMシステムの前記マスタデータの前記複数のエンティティの前記それぞれのエンティティレコードの関係情報、階層情報およびグループ化情報を除いて生成され、前記第2のスコアは、前記MDMシステムの前記マスタデータの前記複数のエンティティの前記それぞれのエンティティレコードに関連付けられた追加の関係情報、階層情報およびグループ化情報に基づいている、請求項15に記載のコンピュータシステム。
- 前記複数のエンティティの各エンティティについて、前記MDMシステムの前記複数のエンティティの第1のエンティティと前記複数のエンティティの第2のエンティティとのマッチング評価を実行するためのプログラム命令と、
前記複数のエンティティの前記第1のエンティティと前記複数のエンティティの前記第2のエンティティとのマッチングに関連付けられた前記第1のスコアを生成するためのプログラム命令と
をさらに備える、請求項15または16に記載のコンピュータシステム。 - 前記第2のスコアは、前記未解決のエンティティレコードのそれぞれの前記ペアリングに関連付けられた関係情報、階層情報およびグループ化情報に基づいており、第3のエンティティとの前記未解決のエンティティレコードのそれぞれの前記ペアリングの関係が存在しているという判定のための重み付け係数と、関係が存在しないという判定のための重み付け係数とを含む、請求項15から17のいずれか一項に記載のコンピュータシステム。
- 前記単一のエンティティレコードへの前記未解決のエンティティレコードのセットの前記それぞれのエンティティレコードの前記ペアリングの情報の組み合わせに応答して、前記MDMシステムの前記マスタデータから冗長なエンティティレコードを削除するためのプログラム命令
をさらに備える、請求項15から18のいずれか一項に記載のコンピュータシステム。 - 前記複数のエンティティの前記関係データに基づいて、前記未解決のエンティティレコードのセットのそれぞれの前記ペアリング間の前記関係に関連付けられた前記第2のスコアを生成する機械学習モデルを作成するためのプログラム命令と、
前記未解決のエンティティレコードのセットの関係タイプ、階層条件および共通のグルーピング属性に対応する第2のスコアおよび重み付け係数を受信するためのプログラム命令と、
前記未解決のエンティティレコードのセットの前記関係タイプ、前記階層条件および前記共通のグルーピング属性に対応する前記第2のスコアおよび前記重み付け係数を教師あり学習として適用することにより、前記機械学習モデルを訓練するためのプログラム命令と、
前記未解決のエンティティレコードのセットの前記第2のスコアおよび前記重み付け係数により訓練された機械学習モデルを未解決のエンティティレコードの新しいセットへ適用するためのプログラム命令と
をさらに備える、請求項15から19のいずれか一項に記載のコンピュータシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/927,258 US11474983B2 (en) | 2020-07-13 | 2020-07-13 | Entity resolution of master data using qualified relationship score |
US16/927,258 | 2020-07-13 | ||
PCT/CN2021/104769 WO2022012380A1 (en) | 2020-07-13 | 2021-07-06 | Improved entity resolution of master data using qualified relationship score |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023534239A true JP2023534239A (ja) | 2023-08-08 |
Family
ID=79172567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023501875A Pending JP2023534239A (ja) | 2020-07-13 | 2021-07-06 | 修飾された関係スコアを用いたマスタデータの改善されたエンティティ解決 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11474983B2 (ja) |
JP (1) | JP2023534239A (ja) |
CN (1) | CN115803726A (ja) |
DE (1) | DE112021003058T5 (ja) |
GB (1) | GB2611982A (ja) |
WO (1) | WO2022012380A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230418877A1 (en) * | 2022-06-24 | 2023-12-28 | International Business Machines Corporation | Dynamic Threshold-Based Records Linking |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020073138A1 (en) * | 2000-12-08 | 2002-06-13 | Gilbert Eric S. | De-identification and linkage of data records |
US8250065B1 (en) * | 2004-05-28 | 2012-08-21 | Adobe Systems Incorporated | System and method for ranking information based on clickthroughs |
CA2710427C (en) | 2007-12-21 | 2018-04-24 | Thomson Reuters Global Resources | Systems, methods, and software for entity relationship resolution |
US9727842B2 (en) | 2009-08-21 | 2017-08-08 | International Business Machines Corporation | Determining entity relevance by relationships to other relevant entities |
US8250008B1 (en) | 2009-09-22 | 2012-08-21 | Google Inc. | Decision tree refinement |
US8965848B2 (en) | 2011-08-24 | 2015-02-24 | International Business Machines Corporation | Entity resolution based on relationships to a common entity |
US9922290B2 (en) | 2014-08-12 | 2018-03-20 | Microsoft Technology Licensing, Llc | Entity resolution incorporating data from various data sources which uses tokens and normalizes records |
CN104317801B (zh) | 2014-09-19 | 2017-07-18 | 东北大学 | 一种面向大数据的数据清洗系统及方法 |
US10268735B1 (en) | 2015-12-29 | 2019-04-23 | Palantir Technologies Inc. | Graph based resolution of matching items in data sources |
US10832186B2 (en) | 2016-03-21 | 2020-11-10 | International Business Machines Corporation | Task handling in a master data management system |
US10621492B2 (en) * | 2016-10-21 | 2020-04-14 | International Business Machines Corporation | Multiple record linkage algorithm selector |
US10262042B2 (en) | 2017-05-12 | 2019-04-16 | Ancestry.Com Operations Inc. | System and method for determining that two data records relate to the same subject |
US10733212B2 (en) | 2017-10-16 | 2020-08-04 | Salesforce.Com, Inc. | Entity identifier clustering based on context scores |
US20190362271A1 (en) | 2018-05-24 | 2019-11-28 | Wipro Limited | Method and system of managing data of an entity |
CN108920601B (zh) | 2018-06-27 | 2020-12-01 | 中国联合网络通信集团有限公司 | 一种数据匹配方法及装置 |
US10992703B2 (en) * | 2019-03-04 | 2021-04-27 | Malwarebytes Inc. | Facet whitelisting in anomaly detection |
US11705226B2 (en) * | 2019-09-19 | 2023-07-18 | Tempus Labs, Inc. | Data based cancer research and treatment systems and methods |
-
2020
- 2020-07-13 US US16/927,258 patent/US11474983B2/en active Active
-
2021
- 2021-07-06 GB GB2301707.2A patent/GB2611982A/en active Pending
- 2021-07-06 WO PCT/CN2021/104769 patent/WO2022012380A1/en active Application Filing
- 2021-07-06 DE DE112021003058.2T patent/DE112021003058T5/de active Pending
- 2021-07-06 CN CN202180048046.9A patent/CN115803726A/zh active Pending
- 2021-07-06 JP JP2023501875A patent/JP2023534239A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE112021003058T5 (de) | 2023-06-07 |
CN115803726A (zh) | 2023-03-14 |
US11474983B2 (en) | 2022-10-18 |
US20220012219A1 (en) | 2022-01-13 |
WO2022012380A1 (en) | 2022-01-20 |
GB2611982A (en) | 2023-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168523B (zh) | 改变监测跨图查询 | |
US9894076B2 (en) | Data protection and sharing | |
US9129046B2 (en) | Systems and methods for managing a master patient index including duplicate record detection | |
US20150242856A1 (en) | System and Method for Identifying Procurement Fraud/Risk | |
US20100077301A1 (en) | Systems and methods for electronic document review | |
US11500876B2 (en) | Method for duplicate determination in a graph | |
US11436446B2 (en) | Image analysis enhanced related item decision | |
US20160162507A1 (en) | Automated data duplicate identification | |
US11531656B1 (en) | Duplicate determination in a graph | |
US20180018365A1 (en) | Mapping database structure to software | |
JP2023534239A (ja) | 修飾された関係スコアを用いたマスタデータの改善されたエンティティ解決 | |
GB2601888A (en) | Measuring data quality of data in a graph database | |
US11783088B2 (en) | Processing electronic documents | |
US12001456B2 (en) | Mutual exclusion data class analysis in data governance | |
US20210166016A1 (en) | Product baseline information extraction | |
JP2022153339A (ja) | データベースシステムにおけるレコードマッチング(データベースシステムにおけるレコードマッチングのコンピュータ実装方法、コンピュータプログラム、コンピュータシステム) | |
US11762896B2 (en) | Relationship discovery and quantification | |
US20220222265A1 (en) | Insight expansion in smart data retention systems | |
US20200210480A1 (en) | Data association using complete lists | |
CN113868438B (zh) | 信息可信度的校准方法、装置、计算机设备及存储介质 | |
US12013827B2 (en) | Duplicate determination in a graph using different versions of the graph | |
US11941056B2 (en) | Method for weighting a graph | |
US9262471B2 (en) | Weight adjustment in a probabilistic matching system based on external demographic data | |
US20220092064A1 (en) | Sample pair selection in entity matching analysis | |
US20220035777A1 (en) | Pair selection for entity resolution analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231212 |