CN115803726A

CN115803726A - 使用合格关系得分的主数据的改进的实体解析

Info

Publication number: CN115803726A
Application number: CN202180048046.9A
Authority: CN
Inventors: G.S.普利帕蒂; C.A.伊耶; P.拉玛林加姆; S.帕卡拉斯里尼瓦斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-07-13
Filing date: 2021-07-06
Publication date: 2023-03-14
Also published as: DE112021003058T5; JP2023534239A; US20220012219A1; GB2611982A; WO2022012380A1; US11474983B2

Abstract

接收与MDM系统的主数据的多个实体的实体记录之间的匹配相关联的第一得分。具有高于下阈值得分和低于上阈值得分的第一得分的一组实体记录被识别为未解析；未被确认为匹配或未匹配。生成与实体记录之间的关系相关联的第二得分。通过组合第一匹配得分与第二关系得分来确定该组实体记录的配对的总得分。将所述一组实体中的相应配对的总得分与所述上阈值进行比较，并且如果超过所述上阈值，则将所述一组实体记录中的所述实体记录对的信息组合到单个记录中，并且从MDM系统移除冗余实体记录。

Description

使用合格关系得分的主数据的改进的实体解析

技术领域

本发明总体上涉及主数据管理领域，并且更具体地涉及使用合格关系得分来改进主数据管理系统中的实体数据的解析。

背景技术

主数据管理(Master data management,MDM)是用于根据公司的销售、市场和运行策略的业务规则管理、集中、组织、分类、本地化、同步和丰富主数据的核心过程。MDM采用综合方法来定义和管理组织的关键数据。它跨组织的组件、交互和兴趣提供数据的单个可信视图。

主数据包括与组织服务、支持或交互的实体相关联的数据和信息，所述实体诸如是顾客、客户、雇员、承包商、患者、保健提供者、服务提供者(人)、具有区别标识属性的其他组织、位置、产品或对象。

数据质量和准确性是主数据集的重要属性，并且MDM系统包括在将两个实体记录解析为相同实体时避免假阳性和假阴性的技术。

发明内容

本发明实施例公开了一种方法、计算机程序产品和系统。所述实施例包括一种用于解析主数据管理(MDM)系统的实体记录的方法。所述方法提供一个或多个处理器，以接收与MDM系统的主数据的多个实体的实体记录之间的匹配相关联的第一得分。所述一个或多个处理器分别标识一组实体记录的第一得分，所述第一得分高于下阈值匹配得分且低于上阈值匹配得分，从而指示对所述一组实体记录的未解析的匹配。所述一个或多个处理器基于对与所述一组实体记录相关联的关系数据的分析来生成与实体记录之间的关系相关联的第二得分。所述一个或多个处理器通过组合与所述匹配相关联的所述第一得分和与所述关系相关联的所述第二得分来生成所述一组实体记录的总得分。所述一个或多个处理器确定所述一组实体记录的总得分是否超过所述上阈值，并且响应于所述一组实体记录中的一对实体记录的总得分超过所述上阈值，所述一个或多个处理器将所述一组实体记录中的所述一对实体记录的信息组合成单个记录，以及从所述MDM系统移除冗余实体记录。

附图说明

图1是示出根据本发明的实施例的分布式数据处理环境的功能框图。

图2A示出了根据本发明的实施例的实体记录概率匹配的分类。

图2B示出了根据本发明的实施例的实体关系类型的加权评分的示例。

图3是示出根据本发明的实施例的在图1的分布式数据处理环境中操作的记录链接程序的操作步骤的流程图。

图4描绘了根据本发明的实施例的计算系统的组件的框图，该计算系统包括被配置成操作性地执行图3的记录链接程序的计算设备。

具体实施方式

本发明的各实施例认识到，主数据管理(MDM)系统通常利用概率匹配引擎(PME)来评估实体的数据记录并确定数据记录是否是一个实体的副本或数据记录是否是不同实体的。实施例还认识到，PME解决方案基于相应实体记录的属性在使每一主数据记录与其他主数据记录配对以确定匹配得分时创建匹配得分。实施例认识到，小心地校准PME的匹配算法，以最小化实体记录的假阳性和假阴性匹配，因为假匹配可能导致非常有问题的动作和决策。

在本发明的实施例中，术语“实体”用于指对象，“实体记录”指与对象相关联的数据和信息的集合。实体可以是例如人、家庭、人群、企业、组织、位置区域、产品、服务或具有通过关于对象的数据和信息的集合提供标识或描述的属性或特性的任何对象。个体人员实体可以是例如客户、患者、联系人、雇员、成员和提供者。实施例还认识到，实体记录可以包括实体的属性的有限的、改变的或错误的数据和信息，从而创建其中重复或冗余实体记录可以存在于主数据内的条件。

本发明的实施例认识到，应用于MDM系统实体记录的PME解决方案导致实体记录得分。实体记录包括与实体的属性相关联的数据和信息，所述属性例如可以包括姓名或标签、地址、电话号码、性别和其他属性和特性。PME实体记录匹配通过比较实体记录对之间的可用实体属性且对于属性匹配评分较高、且对于不匹配属性评分较低或负值而产生概率得分。总得分被应用于一对排序阈值。这两个阈值区分自动确定该对记录是同一实体的(高于上阈值得分)还是来自不同实体的(低于下阈值得分)的限制。其中PME解决方案产生处于或高于下阈值、或处于或低于上阈值的匹配得分的记录的比较需要额外解析来确定记录是否属于相同实体。

主数据存储库的用户依赖于数据的高质量和精确性，并且经常利用由数据管理员执行的人工审核技术来解析实体记录的区分。实施例认识到将保守PME解决方案算法应用于实体记录导致一组未解析的实体记录，其经常需要人工审核来解析。在一些情况下，忽略未解析的记录，并且接受不准确的数据，以避免与通过人员审核手动解析相关联的成本。

本发明的实施例提供用于解析主数据的潜在重复或冗余实体记录的方法、计算机程序产品和计算机系统。在本发明的实施例中，对主数据的实体记录对之间的关系、分组和层级记录数据进行评估。所述评估产生关系得分，所述关系得分被加到PME算法的匹配得分，从而产生用以更精确地确定记录对是同一实体还是不同实体的总得分。在一些实施例中，在实体之间比较的关系属性包括公共分组和层级关系，诸如企业或组织内的报告结构或功能交互。在此，本发明的实施例将关系的实体记录属性称为还包括实体之间的分组和层级的属性。

本发明的实施例认识到，利用PME算法解决方案的MDM系统仅包括用于实体匹配和解析的分类和人口统计数据。本发明的实施例包括添加到MDM系统的现有分类和人口统计匹配数据中的关系数据的添加。在一些实施例中，生成反映与主数据的实体相关联的关系、分组和层级信息的第二得分，并且将第二“关系”得分与初始“匹配得分”组合以产生用于实体配对的总得分。然后将总得分与上阈值和下阈值进行比较，以确定这对实体是匹配的、未匹配的还是显著减小的未解析类别的一部分。

现在将参考附图详细描述本发明。图1是示出根据本发明的实施例的通常由100表示的分布式数据处理环境的功能框图。图1仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。本领域技术人员可对所描述的环境作出许多修改，而不脱离权利要求书所述的本发明的范围。

分布式数据处理环境100包括主数据管理(MDM)系统110、服务器120、分类和人口统计(C&D)信息130、关系信息140、链接的实体记录160和未解析的实体记录170，所有这些都经由网络150互连。网络150可以是例如局域网(LAN)、广域网(WAN)(如互联网)、虚拟局域网(VLAN)、或可以包括有线、无线或光学连接的任何组合。一般而言，网络150可以是将支持的连接和协议的任何组合。

MDM系统110包括主数据115和概率匹配引擎(PME)117。MDM系统110接收、存储、处理和更新主数据115。MDM系统110可包括计算、处理、存储、编辑设备和应用的组合以维护主数据115。MDM系统110经由PME117执行匹配操作，其中将每个实体记录与主数据115的所有其他实体记录相比较以确定记录是同一实体的还是不同实体的。由MDM系统110执行的匹配操作包括基于两个实体记录的属性是同一实体的概率产生第一得分，在本文中称为匹配得分。

主数据115被描绘为MDM系统110的组件。在一些实施例中，主数据115可包含在可搜索数据库或储存库内，并且可以是MDM系统110的集成部分。在其他实施例中，主数据115是MDM系统110可访问的单独的数据储存库(未示出)。主数据115包括关于主数据115的实体的属性的信息。在一些实施例中，主数据115包括与主数据115的相应实体相关联的属性，诸如姓名或标签、位置、与实体相关联的主题(诸如顾客、组织等)、以及其他类别和/或人口统计数据。PME117可利用主数据115产生实体记录对之间的第一得分(匹配得分)。在本信息的实施例中，除了来自类别和人口统计来源的信息和数据(如C&D信息130)之外，主数据115包括关系数据的附加集合(如包括在关系信息140中的信息)。

C&D信息130包括分类和人口统计实体数据和信息的一个或多个源。在一些实施例中，C&D信息130包括由实体或实体的支持服务提供的数据和信息。在其他实施例中，C&D信息130产生于实体的动作或交易。本发明的实施例考虑可以由类别描述(年龄组、身高、位置和描述信息)描述的数据作为分类信息。实施例考虑人口统计数据以包括姓名或标签、位置、(对于人或组织、电话号码)、标识号等。MDM系统110的PME117利用C&D信息130以生成主数据115的实体之间的第一匹配得分。

关系信息140包括关于主数据115的实体与其他实体的关系、实体的分组以及与其他实体的层级关系的一个或多个信息源。例如，关系信息140可包括关于具有两个同辈(哥哥和妹妹)的第一实体(人)以及具有相同名字的父/母的信息。在另一示例中，关系信息140包括关于第一用户是其成员的娱乐组织和第一用户工作的企业、以及第一用户在企业内的层级位置的信息。本发明的实施例利用主数据115的每对实体的关系信息140产生第二得分，其与第一得分(由PME117执行的匹配得分)组合以产生用于确定主数据115的一对实体记录是相同还是相异的总得分。

在本发明的不同实施例中，包括在C&D信息130中的分类和人口统计实体数据和信息以及包括在关系信息140中的关系数据和信息由实体收集或提供，实体具有用于“选择加入”或“选择退出”的选项。本发明的实施例向实体提供如何利用所收集或提供的信息的描述，并且使得实体能够出于所述目的授权或拒绝使用所收集或提供的信息。

匹配的实体记录160包括在通过PME117的匹配的第一得分之后最初归类为未解析实体记录、在通过将关系得分与匹配得分组合来获得总得分之后已解析为匹配的所有记录。匹配的实体记录160被识别并发送到MDM系统110以解析实体记录的重复并在所确定的单个实体下组合先前分离的实体记录。在一些实施例中，组合实体记录对的数据，验证冲突数据，并且从主数据移除重复记录。

未解析的实体记录170包括在将匹配得分与关系得分组合之后其总得分保持在下阈值得分以上和上阈值得分以下的实体记录。未解析的实体记录170保持未解析，并且在一些实施例中，分配数据管理员以完成显著减少数量的未解析实体记录的解析。

服务器120被描绘为包括记录链接程序300。服务器120与MDM系统110通信，并且经由网络150将来自PME117的未解析的实体记录的输出转发到记录链接程序300。在一些实施例中，服务器120可以是web服务器、刀片服务器、台式计算机、膝上型计算机、平板计算机、上网本计算机、或能够接收、发送和处理数据并经由网络150与MDM系统110通信的任何其他可编程电子计算设备。在另一实施例中，服务器120表示利用当在分布式数据处理环境100内被访问时充当单个无缝资源池的集群计算机和组件(例如，数据库服务器计算机、应用服务器计算机等)的计算系统。服务器120可以包括内部和外部硬件组件，如图4中更详细地描述和描述的。

记录链接程序300被描绘为在服务器120上操作并且经由网络150通信地连接至MDM系统110。在一些实施例中，记录链接程序300可在包括MDM系统110(未示出)的计算机服务器系统内操作。记录链接程序300接收未解析实体记录的配对之间的初始匹配得分(第一得分)，所述未解析实体记录的匹配得分基于主数据115的分类和人口统计数据来确定；排除关系信息，诸如关系信息140。在标识一组未解析实体记录之后，记录链接程序300确定每个未解析实体记录与每个其他未解析实体记录配对的配对之间的关系。记录链接程序300基于关系的类型来生成关系得分(第二得分)，并且包括配对实体之间和与其他实体记录之间的关系。记录链接程序300将由MDM系统110的PME117执行的先前确定的匹配得分与关系得分组合以产生总得分。

下阈值得分和上阈值得分在PME 117内定义，并用于将实体记录描绘为不匹配、未解析和匹配的。记录链接程序300接收实体记录的相应配对的匹配得分，所述匹配得分超过下阈值得分但小于上阈值得分，对应于未解析的实体记录。记录链接程序300基于在所述多个实体的初始加载之后添加到MDM系统110的主数据115的关系数据以及所述多个实体的相应的分类和人口统计数据和信息，为相应的未解析实体记录的每个配对生成第二得分。

在一些实施例中，基于更确定地指示配对的实体记录是同一实体的(较高正得分)还是不同实体的(较低或负得分)的关系数据来对第二得分进行加权。记录链接程序300将针对相应未解析的实体记录的每个配对的第一得分和第二得分组合以产生总得分。记录链接程序300将实体记录的每一配对的总得分与上得分阈值和下得分阈值进行比较。如果一对实体记录的总得分超过上得分阈值，则记录链接程序300将该对记录视为匹配，并且将两个单独记录的信息组合或同化成单个记录，并从主数据115中移除冗余记录和信息。如果所考虑的实体记录对的总得分低于下阈值得分，则记录链接程序300认为实体记录对为不匹配且不同的记录。如果所考虑的实体记录对的总得分落在下阈值得分和上阈值得分上或介于两者之间，则记录链接程序300认为所考虑的实体记录对是未解析的并且需要通常由数据管理员手动执行的附加审核。

在本发明的一些实施例中，记录链接程序300基于实体之间的关系、实体的分组和实体之间的层级结构生成第二得分。例如，人可以具有同辈、后代、父母和/或扩展的家庭关系，并且可以是与其他实体的组织的成员，可以驻留在与其他实体相同的区域中，可以在与其他实体相同的商业组织处工作，可以保持具有与其他实体相关的层级结构的位置。基于针对关系的某些条件给出的预定权重，与未解析实体记录的另一实体存在或不存在一个或多个关系可增加、减少或对相应未解析实体记录的配对的第二得分没有影响。

在另一举例实施例中，如果两个实体记录指示具有单个同辈，并且每个实体记录包括对两个实体记录共同的父关系，则这两个实体最可能不同，并且关系权重将更低并且在朝向第二得分的值上可能是负的，使得总得分下降到低于下阈值得分，从而指示实体记录是不匹配的。如果两个实体具有共同的组织成员关系和共同的配偶姓名，则这两个实体记录最可能是相同的实体，并且这些关系的评分将是正的和更高的，从而匹配这两个实体记录。

在本发明的一些实施例中，记录链接程序300是在初始匹配评分之后对其应用未解析的实体记录的机器学习模型。在一些实施例中，通过确定对应于主数据的相应未解析实体记录对的关系类型、层级条件和共同分组属性的加权因子来训练机器学习模型，所述主数据的相应未解析实体记录对已经由数据管理员手动解析，并且因此充当机器学习模型的受监督训练。在将记录链接程序300部署为机器学习模型之后，记录链接程序300从由数据管理员解析的减少的但剩余的未解析的实体记录获得结果，从而连续地改进机器学习模型。

图2A示出了根据本发明实施例的实体记录概率匹配的分类。图2A包括未匹配记录210、未解析记录215、匹配记录220、下阈值得分225、以及上阈值得分230。在本发明的实施例中，在主数据的实体记录配对之间的第一得分之后，实体记录被分类为实体记录匹配的三个条件。实体记录对的第一得分由PME 117(图1)执行。主数据的实体记录的分类基于每个实体记录与每个其他实体记录配对(有时被称为审核下的两个实体记录)的第一得分。下阈值得分225和上阈值得分230由MDM系统110定义，并且与评分方案和MDM系统110的保守目标对齐，以避免假阴性和假阳性，这通常导致大量的实体记录被分类在未解析的记录215中。

在主数据管理系统110上操作的PME117执行实体记录比较以确定第一得分。PME117比较实体记录与另一实体记录，且基于实体记录的属性是否匹配或几乎匹配来给予得分，使得属性的匹配增加第一得分，而缺乏匹配没有效果或减少第一得分。PME117为多个实体记录的组合迭代地执行比较。PME117将第一得分与下阈值得分225和上阈值得分230进行比较以确定实体记录对的分类。如果PME117确定实体记录的第一得分下降到低于下阈值得分225，那么PME117将实体记录分类到未匹配记录210中。如果PME117确定第一得分超过上阈值得分230，那么PME117将实体记录对分类在匹配的记录220中，且如果第一得分在下阈值得分225和上阈值得分230上或两者之间，那么PME117将实体记录对分类到未解析的记录215中。

图2B示出了根据本发明的实施例的包括实体关系类型的示例加权评分的表格。图2B包括同辈关系类型240、父母关系类型242、配偶关系类型244和雇主关系类型246作为关系评分表270的相应列。关系评分表270包括行250，该行250包括“a，b”的格式的审核下的未解析的主数据的两个实体记录的关系评分(第二得分)示例，其中“a”是审核下的两个实体记录之间的关系的权重，并且“b”是无关系的权重。图2B包括行260，其以“x，y，z”的格式表示审核下的两个实体记录的关系的评分示例，其中“x”是该对实体记录与另一共同实体的关系的权重值，“y”是该对实体记录与不同的其他实体的关系的权重值，并且“z”是指示与其他实体没有关系的权重值。

行250和同辈关系类型240描绘了审核下的实体记录对之间的同辈关系的关系得分的权重，并且因此分配大的负权重(位置“a”)，因为这两个实体记录不太可能不同。指示没有关系“b”的权重被维持在零值，因为审核下的对的实体记录确认同辈关系。

行250和父母关系类型242描绘了该对实体记录之间的父子关系的关系得分的示例权重，并且行250和配偶关系类型244描绘了具有配偶-配偶关系的两个实体记录的关系得分的示例权重。如果审核下的两个实体记录包括父母或配偶关系，那么实体记录最可能不是相同的实体并且被分配大的负权重给关系得分(第二得分)以影响总得分低于下阈值得分。行250和雇主关系类型246将该对实体记录之间的关系描述为具有共同的雇主。分配给关系得分示例的权重是零，对关系得分没有加权影响，因为不同实体可以为相同的雇主工作是有可能的。

行260表示基于同辈、父母、配偶以及雇主关系的第二得分(关系得分)的示例性权重。行260和同辈关系类型240描绘了该实体记录对与另一实体(位置“x”)的共同同辈关系，并且接收较低的权重10，因为这两个记录可以是同一实体的，或者可以存在与两者相关的第三同辈。行260和父母关系类型242描绘了该实体记录对与另一实体(位置“y”)的共同父母关系，并且接收了15的权重，因为该记录对可以是同一实体的，或者他们可以是同辈。行260和配偶关系类型244描绘了共同的配偶关系并且接收了更高的权重50，因为该对实体记录最确定地是同一实体。行260和雇主关系类型246基于审核下的实体记录和雇主的关系来描述第二得分的示例权重。

图2A和2B的示例权重意在反映在确定配对的实体记录是否可能是相同的实体并且导致记录为匹配、或实体记录是不同时的关系考虑。权重的大小是示例，本发明的实施例的实现包括对特定主数据的管理的考虑。

图3是示出了根据本发明的实施例的在图1的分布式数据处理环境中操作的记录链接程序300的操作步骤的流程图。

记录链接程序300接收与主数据的相应实体记录之间的匹配相关联的第一得分(步骤310)。在本发明的一些实施例中，具有共同或相似属性的主数据的实体记录被概率匹配引擎配对和打分(第一得分)以确定该实体记录对是来自相同实体、来自不同实体，还是不清楚该实体记录是来自相同或不同实体，这些实体记录被视为未解析。

例如，MDM系统110的概率匹配引擎117处理具有相同姓氏属性的主数据的一对实体记录，并且导致该对实体记录之间的匹配的第一得分。

记录链接程序300识别一组未解析的实体记录(步骤320)。在本发明的实施例中，记录链接程序300接收在第一得分匹配实体记录对之后被分类为“未解析”的实体记录，该实体记录对不被认为是记录的匹配或不同记录。在一些实施例中，建立上阈值得分和下阈值得分，并且概率匹配引擎应用阈值得分来确定匹配和未匹配的实体记录对。上阈值得分和下阈值得分被保守地确定以避免实体记录的假阳性和假阴性匹配。保守的阈值导致在初始匹配得分确定之后被归类为“未解析”的大量实体记录。记录链接程序300将未解析的实体记录确定为用于附加匹配解析的集合。

例如，对应于多个实体的主数据115的多个数据和信息记录由MDM系统110的PME117处理。PME117生成实体记录对的记录匹配的概率得分(第一得分)，并基于实体记录对的匹配得分超过上阈值得分来将记录分类为“匹配的”。PME117可以基于匹配得分下降到低于下阈值得分，将实体记录对分类为“未匹配”，并且将具有下阈值得分和上阈值得分或处于两者之间的初始匹配得分的实体记录对分类为“未解析”。记录链接程序300将具有下阈值得分和上阈值得分或处于两者之间的初始匹配得分的实体记录识别为一组未解析的实体记录。

记录链接程序300生成与未解析的实体记录的配对的关系相关联的第二得分(步骤330)。主数据管理(MDM)系统考虑用于实体记录解析的基本类别和标识信息，诸如姓名、地址/位置、电话号码、账户、日期等。在本发明的实施例中，MDM系统包括合格关系信息，其用于生成与实体记录之间以及一对实体记录与主数据的其他实体记录之间的关系相关联的第二得分。本发明的实施例包括与如在主数据的实体记录内所指示的实体的层级和分组相关联的已知和合格信息，以及关系得分。

记录链接程序300对一对未解析的实体记录的匹配得分应用加权。在一些实施例中，对支持实体记录可能来自相同实体并且可能是匹配的关系、层级和分组信息应用正加权。在一些实施例中，关系信息可强烈地支持实体记录的匹配集合，因此加权显著更高。在其他实施例中，关系信息指示记录最可能来自不同实体，而被分配零或负权重值。在一些实施例中，记录链接程序300在确定关系得分(第二得分)时考虑审核下的一对未解析实体记录与一个或多个其他实体记录的关系、层级和分组信息(在此统称为“关系信息”)。

例如，记录链接程序300确定一对实体记录中的每个实体记录链接到不同的雇主，并且与不同的配偶有关系。记录链接程序300将大的负权重(例如，-100)应用于该记录配对，因为记录是不同的。另一对实体记录具有与共同实体的同辈关系并且具有共同父关系。记录链接程序300向记录分配正的权重10，因为记录可能来自相同实体，然而，可能存在实体记录的两个实体相关的第三同辈，所以所分配的权重在值上稍微更小。在一些实施例中，关系信息可基于“实体-来自-id”、“实体-到-id”和“关系类型”来索引或装桶以用于更快速的关系确定和选择。

记录链接程序300通过组合第一得分和第二得分生成总得分(步骤340)。记录链接程序300将由初始概率匹配引擎生成的第一得分与从关系信息中生成的第二得分组合，以生成审核下的未解析实体记录对的总得分。在一些实施例中，总得分是匹配得分和关系得分的算术和。在其他实施例中，关系得分可包含正或负因子乘以第一得分匹配结果，例如将使第一得分减少25％的因子-1.25。

记录链接程序300确定匹配实体记录对的总得分是否超过上阈值得分(判定步骤350)。记录链接程序300将该对实体记录的总匹配得分与先前建立的上阈值得分进行比较，以确定总得分是否超过上阈值。在本发明的一些实施例中，关系得分将该对实体记录的总匹配得分增加到高于上阈值得分，而在其他实施例中，关系得分是显著负的，并且总体匹配得分下降到低于下阈值得分。

对于其中总得分不超过上阈值得分的情况(步骤350，“否”分支)，记录链接程序300继续确定总得分是否低于下阈值得分(判定步骤370)。在步骤370中，记录链接程序300将匹配未解析的实体记录对的总得分与下阈值得分进行比较，并且确定总得分是否低于下阈值得分。

对于其中总得分低于下阈值得分的情况(步骤370，“是”分支)，记录链接程序300将该对实体记录分类为“未匹配”(步骤380)。已经确定匹配未解析的实体记录对的总得分下降到低于下阈值得分，记录链接程序300将该对实体记录分类为“未匹配”的结论：记录来自不同的实体。

对于其中总得分处于或高于下阈值得分、但是在之前的步骤350中已经确定总得分处于或低于上阈值得分的情况(步骤370，“否”分支)，记录链接程序300对该对实体记录进行分类以保持为“未解析”(步骤390)，并且从总分解析剩余的未被解析的实体记录需要额外的调查来解析。在比较了实体记录对的总得分并且确定实体记录的匹配类别之后，记录链接程序300结束。

返回至步骤350并且考虑记录链接程序300确定总得分确实超过上阈值得分的情况(步骤350，“是”分支)，记录链接程序300将该对实体记录中的每个的信息组合成单个实体记录(步骤360)。记录链接程序300将来自审核中的实体记录的信息组合成单个记录，并从主数据中移除冗余信息和重复记录。

例如，记录链接程序300确定较近的实体记录的电话号码和地址替换较旧的实体记录的电话号码和地址。记录链接程序300添加关于实体的组成员资格和生日的新信息，在更近的实体记录中找到，添加到更新的实体记录中，并且丢弃重复的记录属性和实体记录，为具有组合的和更新的记录属性的实体留下单个记录。

在一些实施例中，未解析的实体记录的附加解析由数据管理员手动执行。在本发明的实施例中，包括基于实体的已知和合格关系信息的第二评分大大减少了剩余为“未解析”的实体记录的数量，显著地减少了数据管理员手动解析的时间和成本，并且通过忽略未解析的实体记录避免了主数据记录的准确度和质量的损失。

图4描绘了根据本发明的实施例的计算系统的组件的框图，该计算系统包括计算设备405，该计算设备405被配置成包括或可操作地连接到图1中描绘的组件，并且具有在操作上执行图3的记录链接程序300的能力。

根据本发明的示例性实施例，计算装置405包括与服务器120(图1)的部件相似的部件和功能能力。应当理解，图4仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境做出许多修改。

计算装置405包括通信结构402，其提供计算机处理器404、存储器406、永久存储器408、通信单元410、输入/输出(I/O)接口412之间的通信。通信结构402可用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构402可用一个或多个总线来实现。

存储器406、高速缓存存储器416和永久性存储408是计算机可读存储介质。在该实施例中，存储器406包括随机存取存储器(RAM)414。一般而言，存储器406可包括任何合适的易失性或非易失性计算机可读存储介质。

在一个实施例中，将记录链接程序300存储在永久性存储408中，用于由相应的计算机处理器404中的一个或多个经由存储器406的一个或多个存储器执行。在该实施例中，永久性存储408包括磁性硬盘驱动器。可替代地，或除了磁性硬盘驱动之外，永久性存储408可以包括固态硬盘驱动、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存、或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

由永久性存储408使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久性存储408。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以便转移到也是永久性存储408的一部分的另一计算机可读存储介质上。

在这些示例中，通信单元410提供与其他数据处理系统或设备的通信，所述其他数据处理系统或设备包括分布式数据处理环境100的资源。在这些示例中，通信单元410包括一个或多个网络接口卡。通信单元410可通过使用物理和无线通信链路中的任一者或两者提供通信。记录链接程序300可以通过通信单元410被下载到永久性存储308。

I/O接口412允许与可连接到计算系统400的其他设备进行数据的输入和输出。例如，I/O接口412可以提供到外部设备418(诸如键盘、小键盘、触摸屏和/或一些其他合适的输入设备)的连接。外部设备418还可包括便携式计算机可读存储介质，诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实施本发明的实施例的软件和数据(例如，记录链接程序300)可存储在这种便携式计算机可读存储介质上并且可经由I/O接口412加载到永久性存储器408上。I/O接口412还连接到显示器420。

显示器420提供向用户显示数据的机制，并且可以是例如计算机监视器。

在此描述的程序是基于应用在本发明的具体实施例中实施的来识别的。然而，应当理解，本文中的任何特定程序术语仅为了方便而使用，并且因此本发明不应局限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。

计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非详尽列表包含以下各项：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或快闪存储器)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码装置(例如，穿孔卡或槽中的具有记录于其上的指令的凸起结构)，以及前述各项的任何合适组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，连续示出的两个方框实际上可以作为一个步骤完成，同时、基本上同时、以部分或完全时间上重叠的方式执行，或者方框有时可以以相反的顺序执行，这取决于所涉及的功能。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims

1.一种用于解析主数据管理(MDM)系统的实体记录的方法，所述方法包括：

由一个或多个处理器接收与MDM系统的主数据的多个实体的相应实体记录之间的匹配相关联的第一得分；

由所述一个或多个处理器识别一组未解析的实体记录，其中所述一组未解析的实体记录中的相应实体记录的配对之间的所述第一得分高于下阈值得分且低于上阈值得分；

由所述一个或多个处理器基于添加到所述MDM系统的所述主数据的所述多个实体的关系数据，生成与所述未解析的实体记录的所述相应实体记录的配对之间的关系相关联的第二得分；

由所述一个或多个处理器通过组合针对所述一组未解析的实体记录中的所述相应实体记录的配对的所述第一得分和所述第二得分来生成总得分；

由所述一个或多个处理器确定与所述一组未解析的实体记录中的所述相应实体记录的配对相关联的所述总得分是否超过所述上阈值；以及

响应于所述一组未解析的实体记录中的所述相应实体记录的配对的所述总得分超过所述上阈值，由所述一个或多个处理器将所述一组未解析的实体记录中的所述相应实体记录的配对的信息组合到单个实体记录中。

2.根据权利要求1所述的方法，其中不包括所述MDM系统的所述主数据的所述多个实体的所述相应实体记录的关系信息、层级信息和分组信息，生成所述第一得分。

3.根据权利要求1所述的方法，其中所述第二得分基于与所述MDM系统的实体相关联的关系、分组和层级信息的附加信息。

4.根据权利要求1所述的方法，进一步包括：

由所述一个或多个处理器，对于所述多个实体中的每个实体，执行所述MDM系统的所述多个实体中的第一实体与所述多个实体中的第二实体的匹配评估；以及

由所述一个或多个处理器生成与所述多个实体中的所述第一实体与所述多个实体中的所述第二实体的匹配相关联的所述第一得分。

5.根据权利要求1所述的方法，其中所述第二得分分别基于与所述未解析的实体记录的所述配对相关联的关系信息、层级信息和分组信息的合格数据，并且包括用于确定所述未解析的实体记录的所述配对分别与第三实体的关系的加权因子以及用于确定没有关系的加权因子。

6.根据权利要求1所述的方法，进一步包括：

由所述一个或多个处理器响应于将所述一组未解析的实体记录中的所述相应实体记录的配对的信息组合到所述单个实体记录中，从所述MDM系统的所述主数据中移除冗余实体记录。

7.根据权利要求1所述的方法，进一步包括：

由所述一个或多个处理器创建机器学习模型，所述机器学习模型基于所述多个实体的所述关系数据来生成分别与所述一组未解析的实体记录的所述配对之间的关系相关联的所述第二得分；

由所述一个或多个处理器接收与所述一组未解析的实体记录的关系类型、层级条件和共同分组属性相对应的第二得分和加权因子；

由所述一个或多个处理器通过应用与所述一组未解析的实体记录的所述关系类型、层级条件和共同分组属性相对应的所述第二得分和所述加权因子来训练所述机器学习模型作为受监督学习；以及

由所述一个或多个处理器将由所述一组未解析的实体记录的所述第二得分和所述加权因子训练的所述机器学习模型应用于新的一组未解析的实体记录。

8.一种用于解析主数据管理(MDM)系统的实体记录的计算机程序产品，所述计算机系统包括：

一个或多个计算机可读存储介质；

存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用于接收与MDM系统的主数据的多个实体的相应实体记录之间的匹配相关联的第一得分的程序指令；

用于识别一组未解析的实体记录的程序指令，其中在所述一组未解析的实体记录中的相应实体记录的配对之间的所述第一得分高于下阈值得分且低于上阈值得分；

基于添加到所述MDM系统的所述主数据的所述多个实体的关系数据，生成与所述未解析的实体记录的所述相应实体记录的配对之间的关系相关联的第二得分的程序指令；

用于通过组合针对所述一组未解析的实体记录中的所述相应实体记录的实体记录配对的所述第一得分和所述第二得分来生成总得分的程序指令；

确定与所述一组未解析的实体记录中的所述相应实体记录的所述配对相关联的所述总得分是否超过所述上阈值的程序指令；以及

响应于所述一组未解析的实体记录中的所述相应实体记录的配对的所述总得分超过所述上阈值，将所述一组未解析的实体记录中的所述相应实体记录的配对的信息组合到单个实体记录中的程序指令。

9.根据权利要求8所述的计算机程序产品，其中不包括所述MDM系统的所述主数据的所述多个实体的所述相应实体记录的关系信息、层级信息和分组信息，生成所述第一得分。

10.根据权利要求8所述的计算机程序产品，其中所述第二得分基于与所述MDM系统的实体相关联的关系、分组和层级信息的附加信息。

11.根据权利要求8所述的计算机程序产品，进一步包括：

对于所述多个实体中的每个实体，执行所述MDM系统的所述多个实体中的第一实体与所述多个实体中的第二实体的匹配评估的程序指令；以及

用于生成与所述多个实体中的所述第一实体与所述多个实体中的所述第二实体的匹配相关联的所述第一得分的程序指令。

12.根据权利要求8所述的计算机程序产品，其中所述第二得分分别基于与所述未解析的实体记录的所述配对相关联的关系信息、层级信息和分组信息，并且包括用于确定所述未解析的实体记录的所述配对分别与第三实体的关系的加权因子以及用于确定没有关系的加权因子。

13.根据权利要求8所述的计算机程序产品，进一步包括：

响应于将所述一组未解析的实体记录中的所述相应实体记录的配对的信息组合到所述单个实体记录中，从所述MDM系统的所述主数据中移除冗余实体记录的程序指令。

14.根据权利要求8所述的计算机程序产品，进一步包括：

用于创建机器学习模型的程序指令，所述机器学习模型基于所述多个实体的所述关系数据来生成分别与所述一组未解析的实体记录的所述配对之间的关系相关联的所述第二得分；

用于接收与所述一组未解析的实体记录的关系类型、层级条件和共同分组属性相对应的第二得分和加权因子的程序指令；

通过应用与所述一组未解析的实体记录的所述关系类型、层级条件和共同分组属性相对应的所述第二得分和所述加权因子来训练所述机器学习模型作为受监督学习的程序指令；以及

用于将由所述一组未解析的实体记录的所述第二得分和所述加权因子训练的所述机器学习模型应用于新的一组未解析的实体记录的程序指令。

15.一种用于解析主数据管理(MDM)系统的实体记录的计算机系统，所述计算机系统包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；

接收与MDM系统的主数据的多个实体的相应实体记录之间的匹配相关联的第一得分；

16.根据权利要求15所述的计算机系统，其中不包括所述实体记录的关系信息、层级信息和分组信息而生成所述第一得分，并且所述第二得分基于与所述MDM系统的所述主数据的所述多个实体的所述相应实体记录相关联的附加关系信息、层级信息和分组信息。

17.根据权利要求15所述的计算机系统，进一步包括：

18.根据权利要求15所述的计算机系统，其中所述第二得分分别基于与所述未解析的实体记录的所述配对相关联的关系信息、层级信息和分组信息，并且包括用于确定所述未解析的实体记录的所述配对分别与第三实体的关系的加权因子以及用于确定没有关系的加权因子。

19.根据权利要求15所述的计算机系统，进一步包括：

20.根据权利要求15所述的计算机系统，进一步包括：