CN116113963A

CN116113963A - 源于人工决策的机器学习模型训练

Info

Publication number: CN116113963A
Application number: CN202180061531.XA
Authority: CN
Inventors: L·布雷默; H·K·巴布; T·K·斯图尔特; M·奥伯霍菲尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-23
Filing date: 2021-07-20
Publication date: 2023-05-12
Also published as: US20220092469A1; WO2022062611A1; GB202305671D0; JP2023542404A; GB2614666A

Abstract

在用于源于人工决策来改进用于数据匹配的机器学习模型训练的方法中，一个或多个计算机处理器检测对两个数据记录做出的校正。一个或多个计算机处理器确定这两个数据记录之间的共同属性。一个或多个计算机处理器识别与共同属性相关联的第一机器学习模型。一个或多个计算机处理器将两个数据记录的比较数据添加至机器学习模型的训练数据，其中比较数据包括校正。

Description

源于人工决策的机器学习模型训练

背景技术

本发明总体上涉及主数据管理领域，并且更具体地涉及源于人工决策来改进用于数据匹配的机器学习模型训练。

主数据指的是公司内的多个计算机系统和应用所共有的信息类别，诸如产品或供应商。不同的计算机系统可属于同一公司或者可属于不同的公司，诸如供应商或承包商。主数据可被存储在多个不同位置、计算机系统和/或不兼容格式中。主数据管理(master datamanagement，MDM)是许多组织的最高优先级，因为它们旨在递送和利用可信业务信息。主要数据是高价值信息，诸如客户、供应商、合作伙伴、产品、材料和员工数据。主数据对于解决业务问题至关重要，并且对于多个业务交易、应用和决定是重要的。有效的MDM策略可帮助组织快速且容易地响应现有和改变的业务需要。MDM软件用于确保主数据实体保持一致和精确。

MDM依赖于干净的、无重复的数据来成为有效的商业工具。匹配在实现客户、零件、交易和几乎任何类型的数据的单个视图中起重要作用。匹配是将类似或相同的数据记录放在一起以便从数据中识别或移除重复的过程。匹配通常用于将具有某种关系的数据记录链接在一起。匹配技术的强度由算法建立匹配的强大程度来定义。当前市场上存在两种常见类型的匹配技术：确定性和概率性。确定性匹配是基于规则的，其中使用模糊算法来比较数据记录。概率匹配技术对数据进行统计分析，然后使用该分析对匹配进行加权。

当前，许多行业正趋向由大数据平台和机器学习模型赋能的认知模型。认知模型，也称为认知实体，被设计成记忆过去，与人交互，不断学习，并随着预测水平的增加而不断改善对于未来的反应。机器学习探索可以从数据学习并且基于数据做出预测的算法的学习和构造。这样的算法通过从示例输入构建模型来操作以便作出表达为输出的数据驱动预测或决策，而不是严格遵循静态程序指令。在数据分析领域内，机器学习是用于设计使其自身适于预测的复杂模型和算法的方法。这些分析模型允许研究人员、数据科学家、工程师和分析人员产生可靠的、可重复的决定和结果，并且通过从数据的历史关系和趋势中学习来揭示隐藏的见解。

预测MDM参考中的两个人是否是同一物理人是困难的问题。机器学习已被证明优于确定和概率匹配系统，这些系统是复杂的并且因此正确配置困难且耗时的。针对比较的不同属性(例如，姓名、出生日期)使用专门的机器学习模型有利于降低问题的复杂度。机器学习模型可以用工作得相当好的合成数据来预训练，但是当前如果收集了用户反馈，则反馈考虑整个记录相似性而不是属性相似性。用户反馈可能不能确定各个机器学习模型工作得多好。因此，没有使用有价值的用户反馈来改进模型。

发明内容

本发明实施例公开了一种用于源于人工决策来改进用于数据匹配的机器学习模型训练的方法、计算机程序产品和系统。该方法可以包括一个或多个计算机处理器检测对两个数据记录进行的校正。一个或多个计算机处理器确定这两个数据记录之间的共同属性。一个或多个计算机处理器识别与共同属性相关联的第一机器学习模型。一个或多个计算机处理器将两个数据记录的比较数据添加至机器学习模型的训练数据，其中比较数据包括校正。

附图简要说明

图1是示出根据本发明的实施例的分布式数据处理环境的功能框图；

图2是描绘根据本发明实施例的模型训练程序的操作步骤的流程图，模型训练程序在图1的分布式数据处理环境内的服务器计算机上，用于通过捕获人工决策来改进对用于数据匹配的机器学习模型的训练；

图3A示出根据本发明的实施例的在图1的分布式数据处理环境内的服务器计算机上的模型训练程序的操作步骤的示例；

图3B示出根据本发明的实施例的在图1的分布式数据处理环境内的服务器计算机上的模型训练程序的操作步骤的实例；以及

图4示出了根据本发明的实施例的在图1的分布式数据处理环境内执行模型训练程序的服务器计算机的组件的框图。

具体实施方式

本发明的实施例认识到，可以通过在模型的匹配决策之后捕获数据记录的人工链接或解链接(unlink)来在用于数据匹配的机器学习模型的训练中做出改进。本发明的实施例标识机器学习模型的训练数据并且改进作为匹配算法的一部分的属性特定的机器学习分类器。本发明的实施例还认识到，可以通过捕获关于与个体机器学习模型相关联的个体属性的级别的用户反馈来获得效率，而无需用户明确地提供反馈。本发明的实施例的实现方式可以采取多种形式，并且随后参照附图讨论示范性实现方式细节。

图1是示出根据本发明一个实施例的一般指定为100的分布式数据处理环境的功能框图。如本文所使用的术语“分布式”描述了包括多个物理上不同的设备的计算机系统，这些设备作为单个计算机系统一起操作。图1仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。本领域技术人员可对所描述的环境作出许多修改，而不脱离权利要求书所描述的本发明的范围。

分布式数据处理环境100包括通过网络102互连的服务器计算机104和客户端计算设备122。网络102可以是例如电信网络、局域网(LAN)、广域网(WAN)(诸如互联网)或三者的组合，并且可以包括有线、无线或光纤连接。网络102可以包括能够接收和传输数据、语音和/或视频信号(包括包含语音、数据和视频信息的多媒体信号)的一个或多个有线和/或无线网络。一般而言，网络102可以是将支持服务器计算机104、客户端计算设备122和分布式数据处理环境100内的其他计算设备(未示出)之间的通信的连接和协议的任何组合。

服务器计算机104可以是独立计算设备、管理服务器、web服务器、移动计算设备或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中，服务器计算机104可表示诸如在云计算环境中利用多个计算机作为服务器系统的服务器计算系统。在另一实施例中，服务器计算机104可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话、或能够经由网络102与客户端计算设备122和分布式数据处理环境100内的其他计算设备(未示出)通信的任何可编程电子设备。在另一实施例中，服务器计算机104表示利用当在分布式数据处理环境100内被访问时充当单个无缝资源池的集群计算机和组件(例如，数据库服务器计算机、应用服务器计算机等)的计算系统。服务器计算机104包括主数据管理系统106、匹配引擎108、模型训练程序110、机器学习模型112、模型114_1-N、模型训练数据库116_1-N、加权服务118和客户权重数据库120。如关于图4更详细描绘和描述的，服务器计算机104可包括内部和外部硬件组件。

主数据管理(MDM)系统106为多个软件工具中的一个或多个，软件工具可用于通过移除重复、标准化数据(大规模维护)、以及合并规则以消除不正确的数据进入系统以便创建主数据的权威源来支持主数据管理。MDM系统106包括匹配引擎108。

匹配引擎108是用于多种功能的多个软件工具中的一个或多个，包括在多个数据库之间匹配数据记录并检测重复的数据记录。匹配引擎108还可负责链接或解链接数据记录以用于匹配目的。匹配引擎108还可接收并执行来自用户的请求，以链接或解链接先前匹配的数据记录。在实施例中，匹配引擎108使用多个机器学习分类器，每个机器学习分类器专门用于预测某个属性与另一属性的相似程度。匹配引擎108根据匹配配置来对预测加权。匹配引擎108组合加权预测以创建相似性得分，该相似性得分是两个记录彼此有多相似的指示符。匹配引擎108使用相似性分数来自动处理潜在重复。匹配引擎108包括模型训练程序110、机器学习模型112和加权服务118。

模型训练程序110通过捕捉用户反馈并将标记的反馈添加到训练数据来改进作为匹配算法的一部分的属性特定的机器学习分类器。向机器学习训练数据添加用户反馈是有利的，因为它向合成数据添加现实生活数据并且提高匹配引擎的性能。模型训练程序110检测对两个数据记录的校正。模型训练程序110确定两个数据记录之间的共同属性的数量。如果模型训练程序110确定两个数据记录具有一个共同属性，则模型训练程序110识别机器学习模型112中的哪一个与共同属性相关联，并且将两个数据记录的比较添加到所识别的模型的训练数据。如果模型训练程序110确定两个数据记录具有多于一个共同的属性，则模型训练程序110识别哪个机器学习模型112与共同属性相关联。模型训练程序110检索与共同属性相关联的权重并应用权重。模型训练程序110将加权的数据记录的比较添加到所识别的模型的训练数据。结合图2更详细地描绘和描述模型训练程序110。

机器学习模型112是单独模型114_1-N的集合，这里模型114，其中模型114中的每个是用于作为匹配算法的一部分的属性特定机器学习分类器的属性特定模型。例如，模型114₁可用于姓名，模型114₂可用于地址，而模型114₃可用于生日。模型114中的每一个预测所比较的属性与另一个属性有多相似。此外，机器学习模型112包括与每个模型相关联的数据库，即，模型训练数据库116_1-N，这里模型训练数据库116，其中，例如，模型训练数据库116₁存储用于模型114₁的训练数据，并且模型训练数据库116_N存储用于模型114_N的训练数据。如本文所使用的，N表示正整数，并且因此在本发明的给定实施例中实现的多个场景不限于图1中所描绘的那些场景。

加权服务118是使得用户(诸如数据工程师)能够定义或指定用于数据记录匹配的加权配置的多个软件工具中的一个或多个。加权服务118包括客户加权数据库120。

模型训练数据库116和客户权重数据库120各自是由匹配引擎108和模型训练程序110使用的数据的存储库。模型训练数据库116和客户权重数据库120可以各自表示一个或多个数据库。在所描绘的实施例中，模型训练数据库116和客户重量数据库120驻留在服务器计算机104上。在另一实施例中，如果匹配引擎108和模型训练程序110可访问模型训练数据库116和客户权重数据库120，则模型训练数据库116和客户权重数据库120可各自驻留在分布式数据处理环境100内的其他地方。数据库是有组织的数据集合。模型训练数据库116和客户权重数据库120中每个都可以用能够存储数据和配置文件的任何类型的存储设备来实现，该数据和配置文件可以由匹配引擎108和模型训练程序110访问和利用，例如，数据库服务器、硬盘驱动器或闪存。模型训练数据库116存储用于模型114的训练数据。客户权重数据库120存储匹配引擎108用于属性比较的客户定义的权重。权重越大，该属性对匹配决策的影响就越大。模型训练程序110使用相同的权重应用于分类器以调整训练数据的重要性。客户权重数据库120还可存储与客户简档相关联的数据。

本发明可包含多样的可访问的数据源，例如模型训练数据库116和客户权重数据库120，其可包括用户希望不被处理的个人数据、内容或信息。个人数据包括个人识别信息或敏感个人信息以及用户信息，例如跟踪或地理位置信息。处理是指任何自动化或未自动化的操作，或一组操作，例如收集、记录、组织、结构化、存储、适配、更改、检索、咨询、使用、通过传输、传播公开、或以其他方式使得可用、组合、限制、擦除或销毁个人数据。模型训练程序110允许对个人数据的授权和安全处理。模型训练程序110提供具有收集个人数据的通知的知情同意，允许用户选择加入或选择退出处理个人数据。同意可以采取若干形式。选择加入同意可加于用户在个人数据被处理之前采取肯定动作。可替代地，选择退出同意可加于用户采取肯定动作以防止在个人数据被处理之前处理个人数据。模型训练程序110提供关于个人数据和处理的性质(例如，类型、范围、目的、持续时间等)的信息。模型训练程序110向用户提供所存储的个人数据的副本。模型训练程序110允许校正或完成不正确或不完整的个人数据。模型训练程序110允许立即删除个人数据。

客户端计算设备122可以是膝上型计算机、平板计算机、智能电话、智能手表、智能扬声器、或能够经由网络102与分布式数据处理环境100内的不同组件和设备通信的任何可编程电子设备中的一个或多个。客户端计算设备122可以是可穿戴计算机。可穿戴计算机是微型电子设备，其可以由携带者穿戴在衣服下面、衣服下面或衣服上面，以及在眼镜、帽子或其他附件中或连接到眼镜、帽子或其他附件。可穿戴计算机对于需要比仅硬件编码逻辑更复杂的计算支持的应用是尤其有用的。在一个实施例中，可穿戴计算机可以是头戴式显示器的形式。头戴式显示器可采取一副眼镜的形状因素。在实施例中，可穿戴计算机可以是智能手表或智能纹身的形式。在一实施例中，客户端计算设备122可被集成到用户的交通工具中。例如，客户端计算设备122可以包括在车辆的挡风玻璃中的平视显示器。通常，客户端计算设备122表示能够执行机器可读程序指令并且经由网络(例如网络102)与分布式数据处理环境100内的其他计算设备(未示出)通信的一个或多个可编程电子设备或可编程电子设备的组合。客户端计算设备122包括主数据管理用户界面124的实例。

主数据管理(MDM)用户界面124提供在服务器计算机104上的匹配引擎108和客户端计算设备122的用户之间的界面。在一个实施例中，MDM用户界面124是移动应用软件。移动应用软件或“app”是被设计为在智能电话、平板计算机和其他移动设备上运行的计算机程序。在一个实施例中，MDM用户界面124可为图形用户界面(GUI)或网络用户界面(WUI)，并且可显示文本、文档、网络浏览器窗口、用户选项、应用界面和操作指令，并且包括程序呈现给用户的信息(诸如图形、文本和声音)以及用户采用来控制程序的控制序列。MDM用户界面124使客户计算设备122的用户能够与加权服务118交互，以输入用于匹配的匹配属性的优选加权，以存储在客户权重数据库120中。MDM用户界面124还可使客户端计算设备122的用户输入用户配置文件信息，诸如姓名、账号、雇主等。

图2是描绘根据本发明实施例的模型训练程序110在图1的分布式数据处理环境100内的服务器计算机104上的操作步骤的流程图，用于通过捕捉人工决策来改进对用于数据匹配的机器学习模型112的训练。

模型训练程序110检测对两个数据记录的校正(步骤202)。如果匹配引擎108是完美的，则匹配引擎108自动地将引用同一物理人的所有记录链接在一起，并且将引用不同人的记录解除链接。然而，由于匹配引擎108不可能完美，数据管理员人工地链接和解链接匹配引擎108作出不正确决定的记录。在实施例中，模型训练程序110检测数据管理员经由MDM用户界面124做出的人工校正，以链接两个数据记录或解链接(即，分离)两个数据记录。

模型训练程序110确定两个数据记录之间的共同属性的数量(步骤204)。在实施例中，模型训练程序110确定两个记录之间的信息熵，即，多少信息模型训练程序110可从记录推导出关于两个记录彼此相似程度或不同程度。在实施例中，模型训练程序110比较两个数据记录并确定记录具有多少共同的属性。例如，如果记录A包括姓名和生日，并且记录B包括姓名和社会保障号，则存在一个共同属性，即，姓名。在另一示例中，如果记录X包括姓名、地址和社会保障号，而记录Y包括姓名、地址和生日，则存在两个共同属性，即，姓名和地址。

模型训练程序110确定共同属性的数量是否大于一(判定框206)。在一个实施例中，基于对两个数据记录中的属性的比较，模型训练程序110确定共同属性的数量是一还是大于一。

如果模型训练程序110确定共同属性的数量是一(“否”分支，判定框206)，则模型训练程序110识别共同属性的模型(步骤208)。在一个实施例中，模型训练程序110确定两个数据记录具有共同的一个属性，因此存在一个相关联的机器学习模型，即，模型114中的一个，对于机器学习模型，分类器是共同属性。继续上面的示例，如果记录A包括姓名和生日，并且记录B包括姓名和社会保障号，则共同属性是姓名，并且模型训练程序110识别姓名的属性特定模型。所识别的模型负责在人工校正之前没有检测到由数据管理员执行的链接/解链接。

模型训练程序110将记录的比较添加到用于所识别的模型的训练数据(步骤210)。在实施例中，模型训练程序110将两个记录属性的比较数据元素添加到对应于与共同属性相关联的模型114的模型的模型训练数据库116的模型训练数据库。因为数据管理员进行了人工校正，所以与共同属性相关联的模型没有充分地预测匹配。添加当前比较数据作为训练记录是有利的，因为它提高了与共同属性相关联的模型将来表现更好的概率。例如，如果共同属性是“姓名”并且模型114₁与属性“姓名”相关联，则模型训练程序110将模型114₁的训练数据(即，姓名的训练数据)添加到模型训练数据库116₁。

如果模型训练程序110确定共同属性的数量大于一(“是”分支，判定框206)，则模型训练程序110识别共同属性的模型(步骤212)。在一个实施例中，模型训练程序110确定两个数据记录具有两个或更多个共同的属性，因此模型训练程序110识别与每个共同属性相关联的机器学习模型，即，模型114中的一个。继续以上示例，如果记录X包括姓名、地址和社会保障号，而记录Y包括姓名、地址和生日，则共同属性是姓名和地址，并且模型训练程序110识别姓名的属性特定模型和地址的属性特定模型。如关于步骤208所讨论的，所识别的模型负责在人工校正之前没有检测到由数据管理员执行的链接/解链接。

模型训练程序110检索与共同属性相关联的权重(步骤214)。在一个实施例中，由于存在多于一个的共同属性，模型训练程序110通过从客户权重数据库120检索权重来确定个体属性的可能权重，该权重是匹配引擎108用于属性比较的权重。权重越大，该属性对匹配决策的影响就越大。在实施例中，模型训练程序110请求用户经由MDM用户界面124实时地为决策提供最重要的属性，以创建更精确的权重。

模型训练程序110将权重应用于属性(步骤216)。在实施例中，模型训练程序110将检索的权重应用于对应的属性。应用权重是有利的，因为权重与属性的组合指示训练数据中的属性的重要性。继续以上示例，在识别了共同属性是姓名和地址的情况下，模型训练程序110将从客户权重数据库120检索的权重应用于比较中的对应属性。

模型训练程序110将加权记录的比较添加到所识别的模型的训练数据(步骤218)。在实施例中，模型训练程序110将两个或更多个共同属性的比较数据元素添加到对应于与共同属性相关联的模型114的两个或更多个模型的模型训练数据库116的模型训练数据库。如关于步骤210所讨论的，添加当前比较数据作为训练记录是有利的，因为它提高了与共同属性相关联的模型在未来将表现更好的概率。在实施例中，模型训练程序110可将阈值准则应用于加权的属性。例如，记录X和记录Y两者都包括姓名和地址属性，并且所检索的权重对于姓名是0.5并且对于地址是0.2。模型训练程序110将加权概率计算为(0.5/(0.5+0.2)＝71％，即，“姓名”对匹配决策贡献71％。模型训练程序110还将加权概率计算为(0.2/(0.5+0.2)＝29％，即，“地址”为匹配决策贡献29％。如果阈值被设置为30％，则模型训练程序110向对应的模型训练数据库添加属性“姓名”的数据，但是模型训练程序110不添加(即，省略)属性“地址”的数据，因为贡献不满足(即，小于阈值)。将阈值应用于加权的属性是有利的，因为它微调训练数据的调整以仅包括显著的改变。在实施例中，客户经由MDM用户界面124提供阈值。在实施例中，阈值被存储在客户权重数据库120中。

图3A示出了根据本发明的实施例的在图1的分布式数据处理环境100内的服务器计算机104上的模型训练程序110的操作步骤的示例300。示例300包括框302，其指示模型训练程序110检测到人工链接。框302包括数据记录322，数据记录322包括具有对应的数据元素“Jane Doe”和“412932112”的属性“姓名”和“SSN”(即，社会保障号)。框302还包括数据记录324，其包括具有相应数据元素“J.Doe”和“01.02.1957”的属性“姓名”和“DOB”(即，出生日期)。

框304参考图2的步骤204，其中，模型训练程序110确定数据记录322和数据记录324具有一个共同的属性“姓名”，并且因此姓名属性可能是数据管理者为何做出人工链接的原因。

框306参考图2的步骤210，其中，模型训练程序110将“姓名”的数据元素的比较添加至模型训练数据库，由此改进与属性“姓名”相关联的机器学习模型的训练数据。

图3B示出根据本发明的实施例的在图1的分布式数据处理环境100内的服务器计算机104上的模型训练程序110的操作步骤的实例330。示例330包括框332，框332指示模型训练程序110检测到人工解除链接。框332包括数据记录342，数据记录342包括具有对应的数据元素“Jane Doe”和“412932112”的属性“Name”和“SSN”。框332还包括数据记录344，该数据记录也包括具有相应数据元素“J.Doe”和“412932112”的属性“姓名”和“SSN”。此外，框332包括与属性“姓名”(0.2)和“SSN”(0.8)相对应的权重。

框334参考图2的步骤204，其中，模型训练程序110确定数据记录322和数据记录324具有两个共同的属性“姓名”和“SSN”，并且因此这两个属性的机器学习模型需要新的训练数据。

框336参考图2的步骤216和218，其中，模型训练程序110应用与属性相对应的权重并且将“姓名”和“SSN”的加权数据元素的比较添加至相应的模型训练数据库，由此改进与属性“姓名”和“SSN”相关联的机器学习模型的训练数据，以指示数据管理员为何做出解除链接决定。

图4示出了根据本发明的实施例的图1的分布式数据处理环境100内的服务器计算机104的组件的框图。应当理解，图4仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所示出的环境做出许多修改。

服务器计算机104可以包括处理器404、高速缓存414、存储器406、永久存储408、通信单元410、输入/输出(I/O)接口412和通信结构402。通信结构402提供高速缓存414、存储器406、永久存储408、通信单元410和输入/输出(I/O)接口412之间的通信。通信结构402可用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构402可用一个或多个总线来实现。

存储器406和永久存储408是计算机可读存储介质。在该实施例中，存储器406包括随机存取存储器(RAM)。一般而言，存储器406可包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存414是快速存储器，其通过保存来自存储器406的最近访问的数据和最近访问的数据附近的数据来增强处理器404的性能。

用于实现本发明的实施例的程序指令和数据(例如，模型训练程序110、模型训练数据库116和客户权重数据库120)被存储在永久存储408中以供服务器计算机104的相应处理器404中的一个或多个经由高速缓存414执行和/或访问。在该实施例中，永久存储408包括磁性硬盘驱动器。可替代地，或除了磁性硬盘驱动之外，永久存储408可以包括固态硬盘驱动、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存、或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

由永久存储408使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久存储408。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以便转移到也是永久存储408的一部分的另一计算机可读存储介质上。

在这些示例中，通信单元410提供与其他数据处理系统或设备(包括客户端计算设备122的资源)的通信。在这些示例中，通信单元410包括一个或多个网络接口卡。通信单元410可通过使用物理和无线通信链路中的任一者或两者提供通信。模型训练程序110、模型训练数据库116、客户权重数据库120和用于实现本发明的其他程序和数据可以通过通信单元410下载到服务器计算机104的永久存储408。

I/O接口412允许与可连接到服务器计算机104的其他设备进行数据的输入和输出。例如，I/O接口412可以提供到外部设备416的连接，外部设备416例如键盘、小键盘、触摸屏、麦克风、数码相机和/或一些其他合适的输入设备。外部设备416还可包括便携式计算机可读存储介质，诸如例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实现本发明的实施例的软件和数据(例如，服务器计算机104上的模型训练程序110、模型训练数据库116和客户权重数据库120)可存储在这种便携式计算机可读存储介质上并且可经由I/O接口412加载到永久存储408上。I/O接口412还连接到显示器418。

显示器418提供用于向用户显示数据的机制，并且可以是例如计算机监视器。显示器418还可用作触摸屏，诸如平板计算机的显示器。

在此描述的程序是基于应用在本发明的具体实施例中实施的来识别的。然而，应当理解，本文中的任何特定程序术语仅为了方便而使用，并且因此本发明不应局限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的任何有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体的示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如具有记录在其上的指令的穿孔卡或者凹槽中的凸起结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码，这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和常规的过程式程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图的框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示包括用于实现指定的逻辑功能的一个或多个可执行指令的模块、片段或指令的一部分。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的呈现了本发明的各种实施方式的描述，但并不旨在是详尽的或者限于所公开的实施方式。在不背离本发明的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。在此所使用的术语被选择来最好地解释实施例的原理、实际应用、或优于市场中所发现的技术的技术改进、或使得本领域普通技术人员能够理解在此所披露的实施例。

Claims

1.一种方法，包括：

由一个或多个计算机处理器检测对两个数据记录进行的校正；

由一个或多个计算机处理器确定所述两个数据记录之间的共同属性；

由一个或多个计算机处理器识别与所述共同属性相关联的第一机器学习模型；以及

由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据，其中，所述比较数据包括所述校正。

2.根据权利要求1所述的方法，还包括：

由一个或多个计算机处理器确定所述两个数据记录之间的两个或多个共同属性；

由一个或多个计算机处理器识别两个或多个机器学习模型，每个机器学习模型与所述两个或多个共同属性中的一个相关联；

由一个或多个计算机处理器检索与所述两个或多个共同属性中的每一个相关联的权重；

由一个或多个计算机处理器应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重；以及

由一个或多个计算机处理器将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据，每个机器学习模型与所述两个或多个共同属性中的一个相关联，其中，所述比较数据包括两个或多个加权的属性。

3.根据权利要求2所述的方法，还包括：

由一个或多个计算机处理器确定所述加权的属性的阈值；

由一个或多个计算机处理器计算所述两个或多个共同属性中的每一个的加权的概率；

由一个或多个计算机处理器确定所述两个或多个共同属性中的每一个的加权的概率中的至少一个不满足所述阈值；以及

由一个或多个计算机处理器从与其加权的概率不满足所述阈值的属性相关联的所述机器学习模型的训练数据中省略所述加权的概率。

4.根据权利要求2所述的方法，还包括：由一个或多个计算机处理器从用户接收与所述两个或多个共同属性中的每一个相关联的权重。

5.根据权利要求1所述的方法，其中，所述校正是由数据管理员做出的。

6.根据权利要求1所述的方法，其中所述校正选自由链接所述两个数据记录和解链接所述两个数据记录构成的组。

7.根据权利要求1所述的方法，还包括：由一个或多个计算机处理器确定所述两个数据记录之间的共同属性的数量大于一。

8.一种计算机程序产品，包括：

一个或多个计算机可读存储介质以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所存储的程序指令包括：

用于检测对两个数据记录进行的校正的程序指令；

用于确定所述两个数据记录之间的共同属性的程序指令；

用于识别与所述共同属性相关联的第一机器学习模型的程序指令；以及

用于将所述两个数据记录的比较数据添加至用于所述机器学习模型的训练数据的程序指令，其中，所述比较数据包括所述校正。

9.根据权利要求8所述的计算机程序产品，所存储的程序指令还包括：

用于确定所述两个数据记录之间的两个或多个共同属性的程序指令；

用于识别两个或多个机器学习模型的程序指令，每个机器学习模型与两个或更多个共同属性中的一个相关联；

用以检索与所述两个或多个共同属性中的每一个相关联的权重的程序指令；

用于应用与对应于所述两个或多个共同属性的所述两个或多个共同属性中的每个共同属性相关联的权重的程序指令；以及

用于将所述两个数据记录的比较数据添加至用于所述两个或多个机器学习模型的训练数据的程序指令，每个机器学习模型与所述两个或多个共同属性中的一个相关联，其中，所述比较数据包括两个或多个加权的属性。

10.根据权利要求9所述的计算机程序产品，所存储的程序指令还包括：

用于确定所述加权的属性的阈值的程序指令；

用于计算所述两个或两个以上共同属性中的每一个的加权法概率的程序指令；

用于确定所述两个或多个共同属性中的每一个的加权的概率中的至少一个不满足所述阈值的程序指令；以及

用于从与其加权的概率不满足所述阈值的属性相关联的所述机器学习模型的训练数据中省略所述加权的概率的程序指令。

11.根据权利要求9所述的计算机程序产品，所存储的程序指令还包括：用于从用户接收与所述两个或多个共同属性中的每一个相关联的所述权重的程序指令。

12.根据权利要求8所述的计算机程序产品，其中，所述校正是由数据管理员做出的。

13.根据权利要求8所述的计算机程序产品，其中，所述校正选自由链接所述两个数据记录和解链接所述两个数据记录构成的组。

14.根据权利要求8所述的计算机程序产品，所存储的程序指令还包括用于确定所述两个数据记录之间的共同属性的数量大于一的程序指令。

15.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；

共同地存储在所述一个或多个计算机可读存储介质上的程序指令，用于由所述一个或多个计算机处理器中的至少一个执行，所存储的程序指令包括：

用于检测对两个数据记录进行的校正的程序指令；

用于确定所述两个数据记录之间的共同属性的程序指令；

16.根据权利要求15所述的计算机系统，所存储的程序指令还包括：

用于识别两个或多个机器学习模型的程序指令，每个机器学习模型与两个或多个共同属性中的一个相关联；

用以检索与所述两个或两个以上共同属性中的每一个相关联的权重的程序指令；

用于应用与对应于所述两个或多个共同属性的所述两个或更多个共同属性中的每个共同属性相关联的权重的程序指令；以及

用于将所述两个数据记录的比较数据添加至用于所述两个或更多个机器学习模型的训练数据的程序指令，每个机器学习模型与所述两个或更多个共同属性中的一个相关联，其中，所述比较数据包括两个或多个加权的属性。

17.根据权利要求16所述的计算机系统，所存储的程序指令还包括：

用于确定所述加权的属性的阈值的程序指令；

用于计算所述两个或两个以上共同属性中的每一个的加权的概率的程序指令；

用于确定所述两个或更多个共同属性中的每一个的加权的概率中的至少一个不满足所述阈值的程序指令；以及

18.根据权利要求16所述的计算机系统，所存储的程序指令还包括用于从用户接收与所述两个或多个共同属性中的每一个相关联的所述权重的程序指令。

19.根据权利要求15所述的计算机系统，其中，所述校正是由数据管理员做出的。

20.根据权利要求15所述的计算机系统，其中，所述校正选自由以下各项组成的组：

链接所述两个数据记录和解链接所述两个数据记录。