CN113886558A

CN113886558A - 主动实体解析模型推荐系统

Info

Publication number: CN113886558A
Application number: CN202110294500.0A
Authority: CN
Inventors: M.陶; V.庞贾比; D.赫尔曼
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2020-07-02
Filing date: 2021-03-19
Publication date: 2022-01-04
Also published as: EP3933613A1; US20220004567A1; US11720601B2

Abstract

提供了用于访问包括多个代表性数据记录的主数据的系统和方法，其中，每个代表性数据记录代表相似数据记录的一个集群，并且每个相似数据记录具有一个置信得分，该置信得分指示相似数据记录对应于该集群的置信度，并且使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较，以生成距离得分。该系统和方法还提供分析与选定的代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值，以及使用距离得分和置信得分来为候选值中的每一个生成候选得分，以在提供推荐的候选值中使用。

Description

主动实体解析模型推荐系统

技术领域

本发明构思涉及主动实体解析(Active Entity Resolution，AER)模型系统，具体地，涉及AER模型推荐系统。

背景技术

数据记录重复项或复制项存在于诸如采购系统和供应链系统的系统中的许多工作区中。例如，同一供应商的重复记录可能存在于同一系统中。当存在重复数据记录时，用户很难在这样的系统中搜索供应商，并且这会导致包含该数据的数据库中的数据混乱且不完整。此外，对于提供商品或服务的供应商，许多采购事件在项目和商品上是相似的，但是目前尚没有自动步骤来更容易地创建采购事件以为商品或服务找到供应商。

发明内容

根据本发明的示例实施例，提供了一种计算机实施的方法，包括：在计算系统接收新数据记录的请求数据字段；由计算系统访问包括多个代表性数据记录的主数据，每个代表性数据记录代表相似数据记录的一个集群，并且每个相似数据记录具有置信得分，置信得分指示相似数据记录对应于所述集群的置信度；使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较，以针对每个代表性数据记录生成距离得分，距离得分与新数据记录和每个代表性数据记录之间的距离相对应；选择具有在距离阈值内的生成的距离得分的代表性数据记录集合；分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值；使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分，来为候选值中的每一个生成候选得分；以及基于候选值的候选得分，针对请求数据字段提供推荐。

根据本发明的示例实施例，提供了一种系统，该系统包括：存储指令的存储器；和一个或多个处理器，被指令配置以执行操作，操作包括：接收新数据记录的请求数据字段；访问包括多个代表性数据记录的主数据，每个代表性数据记录代表相似数据记录的一个集群，并且每个相似数据记录具有置信得分，置信得分指示相似数据记录对应于集群的置信度；使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较，以针对每个代表性数据记录生成距离得分，距离得分与新数据记录和每个代表性数据记录之间的距离相对应；选择具有在距离阈值内的生成的距离得分的代表性数据记录集合；分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值；使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分，来为候选值中的每一个生成候选得分；以及基于所述候选值的候选得分，针对所述请求数据字段提供推荐。

根据本发明的示例实施例，提供了一种非瞬时性计算机可读介质，包括存储在其上的指令，指令可由至少一个处理器运行以使计算设备执行操作，操作包括：接收新数据记录的请求数据字段；访问包括多个代表性数据记录的主数据，每个代表性数据记录代表相似数据记录的一个集群，并且每个相似数据记录具有置信得分，置信得分指示相似数据记录对应于集群的置信度；使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较，以针对每个代表性数据记录生成距离得分，距离得分与新数据记录和每个代表性数据记录之间的距离相对应；选择具有在距离阈值内的生成的距离得分的代表性数据记录集合；分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值；使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分，来为候选值中的每一个生成候选得分；以及基于所述候选值的候选得分，针对所述请求数据字段提供推荐。

附图说明

附图中的各种图仅示出了本公开的示例实施例，并且不应被认为是对其范围的限制。

图1是示出根据一些示例实施例的联网系统的框图。

图2是示出根据一些示例实施例的主动实体解析(Active Entity Resolution，AER)模型系统的框图。

图3示出根据一些示例实施例的展示重复数据记录的示例图形用户界面(Graphical User Interface，GUI)。

图4是示出根据一些示例实施例的用于为新数据记录的请求字段生成推荐的方法的各方面的流程图。

图5示出根据一些示例实施例的用于输入新数据记录的示例GUI。

图6A和6B示出根据一些示例实施例的示例集群和代表性数据记录。

图7A和7B示出根据一些示例实施例的代表性数据记录的选定集合。

图8示出根据一些示例实施例的相似数据记录的列表。

图9示出根据一些示例实施例的针对供应商的示例推荐。

图10A至10C示出根据一些示例实施例的非目录项的匹配结果。

图11是示出根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。

图12示出了根据一个示例实施例的，形式为计算机系统的机器的图解表示，在其中可以运行指令集以使机器执行本文所讨论的方法中的任何一个或多个。

具体实施方式

本文描述的系统和方法涉及主动实体解析(Active Entity Resolution，AER)模型系统，具体地，涉及AER模型推荐系统。如上所述，数据记录重复项或复制项存在于诸如采购系统和供应链系统的系统中的许多工作空间中。例如，同一供应商的重复记录可能存在于同一系统中。当存在重复数据记录时，用户很难在这样的系统中搜索供应商，并且这会导致包含该数据的数据库中的数据混乱且不完整。此外，对于提供商品或服务的供应商，许多采购事件在项目和商品上是相似的，但是目前尚没有自动步骤来更容易地创建采购事件以为商品或服务找到供应商。

示例实施例提供了一种AER模型系统，该系统检测数据存储中的重复数据记录，并将重复数据记录聚类为相似数据记录的集群。该AER模型系统针对每个集群生成一个规范记录或代表性数据记录，并将代表性数据记录存储为主数据。该AER模型系统使用主数据，通过将新数据记录与主数据进行匹配来为新数据记录或请求数据字段提供推荐。

例如，本文描述的示例实施例提供了：在计算系统接收新数据记录的请求数据字段。该计算系统访问包括多个代表性数据记录的主数据。每个代表性数据记录代表相似数据记录的一个集群，并且每个相似数据记录具有一个对应的置信得分，该置信得分指示相似数据记录对应于该集群的置信度。该计算系统使用机器学习模型将新数据记录与多个代表性数据记录中的每个代表性数据记录进行比较，以针对每个代表性数据记录生成一个距离得分，其与新数据记录和每个代表性数据记录之间的距离相对应。该计算系统选择在距离阈值内具有生成的距离得分的代表性数据记录的集合，并分析与该代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值。计算设备使用与该候选值相对应的代表性数据记录的距离得分和与该候选值相对应的相似数据记录的置信得分，来为每个所述候选值生成一个候选得分，并基于该候选值的候选得分，提供针对请求数据字段的推荐。

图1是示出根据一些示例实施例的联网系统100的框图。该系统100可以包括一个或多个客户端设备，例如客户端设备110。客户端设备110可以包括，但不限于，移动电话、桌上型计算机、膝上型计算机、便携式数字助理(Portable Digital Assistants，PDA)、智能电话、平板、超级本、上网本、膝上型计算机、多处理器系统、基于微处理器的或可编程的消费电子、游戏机、机顶盒、车辆中的计算机、或用户可用于访问该联网系统100的其他任何计算或通信设备。在一些实施例中，客户端设备110可以包括显示模块(未示出)，其(例如，以用户界面的形式)显示信息。在进一步的实施例中，客户端设备110可以包括触摸屏、加速度计、陀螺仪、照相机、麦克风、全球定位系统(Global Positioning System，GPS)设备等中的一个或多个。客户端设备110可以是用户106的设备，其用于访问和使用云服务，以及其他应用。

一个或多个用户106可以是与客户端设备110进行交互的人、机器或其他方式。在示例实施例中，用户106可以不是系统100的一部分，但是可以经由客户端设备110或其他方式与系统100进行交互。例如，用户106可以向客户端设备110提供输入(例如，触摸屏输入或字母数字输入)，并且该输入可以经由网络104被通信传达给系统100(例如，第三方服务器系统130、服务器系统102)中的其他实体。在这种情况下，系统100中的其他实体响应于从用户106接收到该输入，可以经由网络104将信息通信传达给客户端设备110，以呈现给用户106。这样，用户106可以使用客户端设备110与系统100中的各种实体进行交互。在一个示例中，用户是一个或多个应用(例如，移动和桌面web应用)的开发人员或质量保证工程师。

系统100还可以包括网络104。网络104的一个或多个部分可以是ad hoc网络、内联网、外联网、虚拟专用网(Virtual Private Network，VPN)、局域网(Local Area Network，LAN)、无线LAN(Wireless LAN，WLAN)、广域网(Wide Area Network，WAN)、无线WAN(Wireless WAN，WWAN)、城域网(Metropolitan Area Network，MAN)、互联网的一部分、公共交换电话网络(Public Switched Telephone Network，PSTN)的一部分、蜂窝电话网络、无线网络、WiFi网络，WiMax网络、另一类型的网络、或两个或更多个这样的网络的组合。

客户端设备110可以经由web客户端112(例如，浏览器，诸如由华盛顿州雷德蒙德市的微软公司开发的Internet

浏览器)或一个或多个客户端应用114访问由系统100中的其他实体提供的各种数据和应用。客户端设备110可以包括一个或多个客户端应用114(也称为“apps”)，诸如，但不限于，web浏览器、搜索引擎、消息应用、电子邮件(email)应用、电子商务站点应用、地图或定位应用、企业资源计划(Enterprise ResourcePlanning，ERP)应用、客户关系管理(Customer Relationship Management，CRM)应用、采购、支出管理和供应链服务应用，等等。

在一些实施例中，一个或多个客户端应用114可以被包括在一个给定的客户端设备110中，并且被配置为在本地提供用户界面和至少一些功能，其中(多个)客户端应用114被配置为与系统100(例如，第三方服务器系统130、服务器系统102等)中的其他实体进行通信，根据需要，用于本地不可用的数据和/或处理功能(例如，访问位置信息、访问软件版本信息、访问ERP系统、访问CRM系统、访问机器学习模型、访问采购、支出管理和供应链服务、对用户106进行身份验证、验证付款方式、访问测试数据等)，以搜索供应商、目录或非目录请求，等等。相反，一个或多个应用114可以不包括于客户端设备110中，那么客户端设备110可以使用其web浏览器访问系统100(例如，第三方服务器系统130，服务器系统102)中的其他实体上托管的一个或多个应用。

服务器系统102可以经由网络104(例如，互联网或广域网(WAN))向一个或多个第三方服务器系统130和/或一个或多个客户端设备110提供服务器侧功能。该服务器系统102可以包括应用程序接口(Application Program Interface，API)服务器120、web服务器122和AER模型系统124，AER模型系统124可以与一个或多个数据库126通信连接。

一个或多个数据库126可以是存储设备，其存储与系统100的用户、与系统100相关联的应用、云服务、机器学习模型等有关的数据。该一个或多个数据库126可以进一步存储与第三方服务器系统130、第三方应用132、客户端设备110、客户端应用114、用户106等有关的信息。在一个示例中，该一个或多个数据库126是基于云的存储。

根据一些示例实施例，服务器系统102可以是云计算环境。在一个示例实施例中，服务器系统102以及与服务器系统102相关联的任何服务器可以与基于云的应用相关联。

AER模型系统124可以为第三方应用132和客户端应用114提供后端支持，第三方应用132和客户端应用114可以包括基于云的应用。AER模型系统124可以提供用于采购事件的推荐供应商的生成，确认在目录中ad hoc请求不可用，等等，如以下将进一步详细描述。AER模型系统124可以包括一个或多个服务器或其他计算设备或系统。

系统100还包括一个或多个第三方服务器系统130。该一个或多个第三方服务器系统130可以包括一个或多个第三方应用。在第三方服务器130上运行的一个或多个第三方应用132可以经由API服务器120提供的编程接口经由API服务器120与服务器系统102进行交互。例如，第三方应用132中的一个或多个可以经由API服务器120请求并利用来自服务器系统102的信息，以支持由第三方托管的网站或由第三方托管的应用上的一个或多个特征或功能。

第三方网站或应用132例如可以提供对第三方服务器系统130所支持的功能和数据的访问。在一个示例实施例中，第三方网站或应用132可以提供对第三方服务器系统130中的相关功能和数据所支持的功能的访问。在一个示例中，第三方服务器系统130是与实体相关联的系统，该实体经由服务器系统102访问云服务。

图2是示出根据一些示例实施例的AER模型系统的进一步细节的框图。AER模型系统124使用高级机器学习和统计，并且学习识别任何数据集中的相似记录的最佳方法。AER模型系统124将相似项聚类在数据库中并创建规范数据或主数据以维持健康的系统。此外，AER模型系统124将新记录与主数据进行匹配以做出推荐(例如，供应商推荐)。受重复项影响或可受益于聚类和推荐模型的不同应用可以采用AER模型系统124。AER模型系统124可以用于不同的应用中，例如货源供应商推荐、目录和目录外匹配，等等。

图3示出了示例图形用户界面(Graphical User Interface，GUI)300，该示例图形用户界面300示出“CD软件”的搜索结果，由于供应商简档中具有稀疏信息的管理不善的账户导致许多重复记录。这些重复记录会引起搜索混乱。

AER模型系统124包括聚类系统202，该聚类系统202检测数据集或数据库中的重复数据记录并将它们聚类在一起，如以下将进一步详细描述。例如，在诸如SAP Ariba的采购、支出管理和供应链服务系统中，AER模型系统124可以将相似数据记录聚类在现有的AribaNetwork数据库中。

聚类系统202将相似数据聚类在一起之后，主数据生成系统204针对每个集群创建一个规范记录或代表性数据记录。例如，主数据生成系统204针对若干重复数据记录(例如，Ariba Network中的供应商账户)创建一个主记录或代表性数据记录，以确保数据集清晰干净。该代表性数据记录组成了下面将进一步讨论的主数据，其中该代表性数据记录的每个对应于一个集群。

匹配系统206将新数据记录与现有的主数据进行匹配。这允许AER模型系统124在创建重复项时能够捕获重复项，并且还能找到包含与新记录相似的数据记录的一个或多个集群，以根据相同集群中的相似数据记录(例如，针对新数据记录中丢失或请求的数据字段)提供推荐。

推荐系统208检索匹配系统206发现的一个或多个集群的相似数据记录，从而包括与新记录相似的数据记录，并对相似数据记录进行分析以基于集群中数据的置信度以及与集群匹配的新数据的置信得分，通过置信得分(或候选值得分)对它们进行排序。为了推荐特定字段，推荐系统208在相似数据记录中针对该特定字段检索所有可能值，并基于该值的频率和具有相同值的所有记录的置信得分对它们进行排序，如以下将进一步详细描述。推荐系统208可以根据置信得分提供推荐，诸如前n(例如，前1、3、5)个推荐，或返回所有结果。

因此，AER模型系统124可以从一个将大量重复数据记录和块数据包含在一起的混乱数据集开始，使用诸如逻辑回归的机器学习建模，以找到数据记录中标识字段的最佳权重。在一个示例实施例中，AER模型系统124可以通过主动学习应用标签。在一个示例实施例中，AER模型系统124以字符串指标计算相似度，并使用网格搜索来找到用于聚类的最佳阈值。应当理解，在示例实施例中可以使用其他聚类方法。对于每个集群，AER模型系统124提取规范信息，以为每个集群生成一个代表性数据记录。然后，AER模型系统124可以使用包括代表性数据记录的主数据以将新数据与规范数据集进行匹配，根据类似的数据点生成推荐，以及其他用例和应用。

在一个示例实施例中，聚类系统202包括(由聚类生成的)重复数据删除模型和(由匹配生成的)匹配模型。可以基于Python重复数据删除库或其他类似技术提供的功能来创建这两个模型。在一个示例实施例中，推荐系统208被构建为使用来自这两个模型的结果。

例如，当聚类或匹配的过程启动时，AER模型系统124将根据聚类或匹配启动时提供的条件来启动重复数据删除模型和/或匹配模型。例如，如果用户提供将要聚类的输入数据(例如，杂乱数据)，则AER模型系统124将首先创建重复数据删除模型并通过执行聚类来生成主数据。如果用户没有提供待匹配的新数据，则AER模型系统124还将使用输入数据来创建匹配模型。在已经生成了主数据的情况下，用户可以提供将要与主数据匹配的新输入数据，并且AER模型系统124仅需要创建匹配模型。以下是包含两个过程的示例伪代码。第一个过程是聚类过程(cluster_process)，其将在用户提供待聚类的输入数据的场景下运行。第二个过程是匹配过程(match_process)，其将在已经生成主数据且用户已提供待与主数据匹配的新输入数据的场景下运行。“deduper.main”是指重复数据删除模型，“gazetteer.main”是指匹配模型。

继续该示例，这两个模型(重复数据删除模型和匹配模型)一旦创建，则可以创建推荐系统208的推荐模型。使用该推荐系统生成推荐的一些示例伪代码包括：recommendation＝model.predict(data,match_field)，其中，data是一个字典，该字典具有待推荐的新数据点的字段和值，而match_field是请求推荐的字段。如果match_field为“空”，则推荐结果将包括同一集群中的所有记录，如以下将进一步详细描述。

如上所述，AER模型系统124可以用于各种用例和应用。一个示例用例是搜索现有供应商。当用户输入搜索词以搜索数据集中的现有供应商时，AER模型系统124使用字符串指标(诸如，仿射间隙距离(例如，街道对st，以及道路对ave))来识别现有供应商的匹配。此外，AER模型系统124能够定义不同字段的重要性，诸如，通过向电子邮件地址域字段分配比供应商名称字段更高的权重。AER模型系统124还能够匹配其他新记录，诸如，在客户注册过程中将新客户记录匹配至现有客户记录。

另一个示例用例是识别重复账户。例如，AER模型系统124可以使用匹配逻辑，诸如针对字段的精确匹配或针对字段的部分匹配。对于针对字段的精确匹配，AER模型系统124可以基于仅名称匹配、VAT/TAX DUNS匹配、精确电子邮件匹配等来匹配数据记录，如果给定值和匹配值完全不同，或其中一个或两者都充满空白，为空，或为null字段，则AER模型系统124返回0，如果给定值和匹配值是精确匹配，则AER模型系统124能够返回100。如上所述，AER模型系统124能够聚类重复账户。

AER模型系统124也可以用于发票。例如，AER模型系统124能够用于地址重复数据删除，诸如地址重复数据删除。例如，上载的发票中有很多地址，它们之间有些小差别但都指向同一地址。传统的发票系统无法检测到这些差异，因此会在系统中创建新记录。AER模型系统124能够聚类这些相似的地址并且为这些地址创建主数据集。

AER模型系统124也可以用于客户服务系统中，例如客户服务票证系统。在这些类型的系统中，供应商在有疑问或问题时提交票证，并且许多提交的票证彼此相似。单是票证庞大的数量就使得手动审核和分类十分困难。AER模型系统124可以聚类相似的票证并根据同一集群中票证的数目和重要性对票证进行优先级排序，以便支持代理知道首先要处理哪张票证。

另一个示例用例用于供应商或其他指定的或丢失的数据字段推荐。例如，当用户输入新记录，该新纪录已经保留数据字段空白或已经针对指定数据字段请求推荐时，AER模型系统124可以针对指定的丢失数据字段提供推荐，对此以下将关于图4进一步详细描述。在一个示例实施例中，AER模型系统124可以聚类相似的采购事件。当用户输入关于采购事件的新记录时，AER模型系统124可以向买家推荐集群中最相关的一个或多个供应商。推荐可以基于采购事件信息，例如项目标题、事件标题和商品名称，还可以基于供应商交易历史。AER模型系统124可以聚类重复项并将新记录匹配至现有集群，然后使用推荐系统208根据同一集群中的数据记录来为该字段推荐一个或多个值。

AER模型系统124可以进一步用于目录请求与非目录请求比较，以确认对于商品的特别请求在目录中不可用，如以下将进一步详细描述。

如上所述，AER模型系统124的推荐系统208可以用于针对采购事件推荐供应商。图4是示出根据一些示例实施例的用于针对指定的或丢失的数据字段(例如，供应商)生成推荐的方法400的各方面的流程图。为了说明的目的，针对图1和图2的框图描述方法400。应当理解，在其他实施例中，方法400可以与其他系统配置一起实践。

在生成推荐之前，基于在数据记录的指定字段上的历史采购事件数据记录，例如商品名称、事件标题、收货地点、供应商名称等，训练推荐系统208的模型。然后，如上所述，生成集群结果和主数据并将其保存到一个或多个数据存储中。对于在没有供应商的情况下创建的新采购事件，推荐系统128的模型将使用新记录中的现有数据来匹配至主数据，并找到与新数据记录匹配的集群。

在操作402中，计算系统(例如，服务器系统102或AER模型系统124)接收新数据记录的请求数据字段。新数据记录的请求数据字段可以是指定的数据字段或丢失的数据字段。例如，用户可以在计算设备(例如，客户端设备110)上的用户界面中输入关于新数据记录的信息。用户可以指定用户想要推荐的数据字段，或者可以提交新记录，其具有未输入信息的数据字段(例如，丢失的数据字段)，以针对该指定或丢失的数据字段请求或接收推荐。该指定或丢失的数据字段在本文中称为请求数据字段。

图5示出了示例GUI 500，其允许用户输入针对新数据记录504的各种字段502(例如，商品名称、事件标题、项目标题、供应商名称等)。提交该新数据记录504时，用户可以简单地将字段保留为空白(例如，供应商记录506)，或者用户可以在单独的输入区域508中指定一个待推荐字段。在一个示例中，请求数据字段是供应商名称。应当理解，在示例实施例中，请求数据字段可以是其他数据字段。用户可以针对请求的字段提交推荐请求，并且计算设备将向该计算系统发送新数据记录和请求字段。

返回图4，在操作404中，计算系统访问包括代表性数据记录的主数据。例如，计算系统访问一个或多个数据存储(例如，(多个)数据库126)以访问主数据。主数据包括多个代表性数据记录。每个代表性数据记录代表相似数据记录的一个集群。每个相似数据记录具有一个对应的置信得分，该置信得分指示相似数据记录对应于集群的置信度。

如上所述，可以针对图2和主数据生成系统204生成主数据。为了生成主数据，计算系统访问包括多个数据记录的数据源(例如，数据库126、与第三方服务器系统130相关联的数据库和/或其他数据源)。计算系统将数据记录分组为包括相似数据记录的集群。在一个示例实施例中，计算系统计算成对的数据记录为重复项(例如，相似数据记录)的概率，然后将成对的重复记录转换为重复记录的集群(例如，相似数据记录的集群)。

在一个示例实施例中，将重复记录分组为集群时，计算系统使用定义的阈值，该阈值指示点到质心的距离。该定义的阈值是通过权衡准确率和召回率来确定的。例如，可以分析重复项已知的数据记录的子集的准确率和召回率，来定义该阈值。标记的示例子集数据记录应代表计算系统试图分类的数据记录。使用主动学习训练模型对集群进行分类时的一个技术问题是，通过设计，在主动学习步骤中，系统不会尝试查找最具代表性的数据记录示例，而是尝试查找将要给予模型最多教导的数据记录。因此，对块式数据记录进行随机采样以计算数据记录在每个块内重复的成对概率。根据这些概率，计算系统可以计算出重复项和不同对的预期的数目，从而可以计算出预期的准确率和召回率。

计算系统针对相似数据记录的每个集群生成一个代表性数据记录。例如，针对每个集群，计算系统从集群中所有相似数据记录中提取信息至最能代表该集群的一个规范记录(代表性数据记录)中。该规范记录是由相似数据记录逐字段生成的。从集群中提取规范记录的一些示例方法包括质心、模式、最长。应当理解，这些方法和/或其他方法中的任何一种都可以用于示例实施例。

计算系统针对每个相似数据记录生成置信得分，该置信得分指示该相似数据记录对应于该集群的置信度(例如，数据记录指代同一实体的估计概率)。在示例实施例中，可以使用Python重复数据删除库(例如，dedup.io)或其他方法来生成置信得分。根据置信得分，每个数据记录都与零个、一个或多于一个规范记录进行匹配。如果数据记录未匹配至用于聚类的任何规范记录，则仅针对该数据记录创建一个集群。

图6A和6B(为了可读性而分成两个图)示出了示例600，该示例600在供应商简档用例中包括相似数据记录的集群602。每个相似数据记录包含多个字段，诸如行标识符、集群编号、置信得分、供应商地址、供应商名称等。图6A和6B进一步示出了集群602的代表性数据记录604。在该示例中，代表性数据记录604包括若干字段，诸如集群标识符、公司分类法、供应商地址、供应商名称，等等。

该计算系统将包括多个代表性数据记录的主数据存储在一个或多个数据存储(例如，(多个)数据库126)中。

返回图4，在操作406中，计算系统针对每个与新数据记录比较的代表性数据记录生成距离得分，以确定新数据记录是否与一个或多个代表性数据记录匹配。例如，计算系统使用机器学习模型将新数据记录与每个代表性数据记录进行比较，以针对每个代表性数据记录生成一个距离得分，其与新数据记录和每个代表性数据记录之间的距离相对应。用于生成距离得分的一些示例方法包括仿射间隙距离、共形距离等。

在操作408中，计算系统选择一个代表性数据记录的集合，该代表性数据记录集合具有在距离阈值内的生成的距离得分。例如，距离阈值可以是指定的阈值。例如，置信得分可以在0到1之间。距离阈值可以是特定值，例如.9、.95、.8等。如果使用0.9的示例距离阈值，则计算系统将选择具有0.9或更高的距离得分的代表性数据记录。这可能只是一个代表性数据记录；还可能有3个代表性数据记录，或其他数目的代表性数据记录。在一个示例中，可能有最大数目n个可被选择的代表性记录(例如1、2、3、5)，并且在此示例中，前n个(例如，具有最高距离得分的)记录将被选择作为代表性数据记录的集合。在一个示例中，仅选择一个代表性数据记录(例如，具有最高距离得分的数据记录)。

图7A和7B(为了可读性分成两个图)示出了示例GUI 700，其具有匹配至图5的新数据记录504的代表性数据记录的列表。在该示例中，三个代表性数据记录702、704和706匹配至新数据记录504，并且每个与相应的距离得分708相关联。例如，代表性数据记录702对应于集群43并且具有距离得分.913028121，代表性数据记录704对应于集群252，并且具有距离得分0.7738834441以及代表性数据记录706对应于集群109，并且具有距离得分.678548217。

返回图4，在操作410中，计算系统分析与代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对新数据记录的请求数据字段生成候选值(例如，供应商名称或其他字段)。例如，如果请求供应商名称的推荐，则计算系统针对每个代表性数据记录，将相似数据记录集群中相似数据记录的每个中的供应商名称确定为候选值。虽然将供应商名称用作示例用例，但是应当理解，在示例实施例中，可以请求不同的字段，并且可以生成与该不同的字段相关的候选值。

在操作412中，计算系统使用候选值所对应的代表性数据记录的距离得分和候选值所对应的相似数据记录的置信得分，针对候选值中的每一个生成候选得分。例如，对于每个类似的记录，计算系统将距离得分(cf1)乘以置信得分(cf2)以生成乘积值。对于每个候选值，计算系统组合包括候选值的每个相似记录的乘积值以生成组合乘积值。计算设备确定每个候选值出现于其中的相似记录数目的计数，并基于该组合乘积值和候选值计数来生成候选值中的每一个的候选得分(例如，使用组合乘积值和候选值计数来计算平均值)：candidate_score＝avg(cf1*cf2)。

为了使用特定示例，图8示出了示例800，其包括图7A和7B所示的三个集群43、252和109中的相似数据记录802的列表，该列表被匹配至图5的新数据记录504。图8的表格中仅示出了相似数据记录802的第一页810。可以看出，有一百多页的相似数据记录802。第一页810包括十个相似数据记录802，其对应于如集群编号列804中指示的集群43。在该示例中，候选值是供应商名称，列在供应商名称列808中。例如，“hawkes fire”是第一候选值，“tycofire&integrated solutions(uk)ltd”是第二候选值，等等。

对于(所有页面中的)每个相似数据记录802，计算系统将距离得分乘以置信得分以生成乘积值。以第一相似数据记录812为例，将置信得分.928170296092578乘以(图7A和7B中所示)集群43的置信得分.913028121，得到乘积值0.8474455814094201。计算系统针对所有页面中的每个相似数据记录802执行此操作，然后针对相同的候选值组合每个相似数据记录的乘积值。例如，存在多个具有候选值“hawkes fire”的相似数据记录。计算系统针对每个“hawkes fire”相似数据记录取乘积值，并将它们组合(相加)在一起。

计算设备确定“hawkes fire”相似数据记录的数目的计数，并使用组合乘积值和“hawkes fire”计数生成“hawkes fire”的候选得分(例如，针对每个“hawkes fire”的乘积值或组合乘积值/计数的均值)。

图9示出了示例900，该示例900包括在该示例中的排序最高的候选值或供应商名称的列表902。该列表包括供应商名称910、候选得分904、集群计数906、以及每个候选值出现于其中的相似记录数目的计数记录908。例如，对于供应商名称“hawkes fire”，候选得分为.928618589902934，并且其出现于两个集群(每个集群计数906)和330个相似数据记录中。

新数据记录中请求字段的推荐的示例伪代码如下：

数据:

返回图4，在操作414中，计算系统基于候选值的候选得分提供针对请求数据字段的推荐。例如，计算系统可以提供所有推荐或前n(例如，前1、3、6)个推荐。例如，计算系统可以提供具有最高候选得分或基于待提供的推荐的预定数目的最高候选得分的候选值。图9显示了前六个推荐。计算系统可以将(多个)推荐提供给计算设备以显示在计算设备上。

在一个示例实施例中，计算系统基于候选得分对候选值进行排序，并基于排序靠前的候选值(例如，排序第一的候选值，排序为前3的候选值等)针对推荐字段提供推荐。在一个示例实施例中，仅通过候选得分来完成排序。在另一示例实施例中，使用包括候选得分、指示候选值出现于其中的集群数目的集群计数，或指示候选值出现于其中的相似记录数目的记录计数的一个或多个标准来进行排序。在一个示例实施例中，首先基于候选得分，其次基于指示候选值出现于其中的集群数目的集群计数，第三基于指示候选值出现于其中的相似记录数目的记录计数对候选值进行排序。

如上所述，另一用例是AER模型系统124可用于针对目录外请求用例推荐目录。与针对采购中供应商(或针对新数据记录中的其他字段的)推荐相似，针对目录外请求的目录推荐也遵循类似的过程。例如，对于在项目不在目录中的情况下输入的用于请求的新数据记录，AER模型系统124可以将用于请求的新数据记录与目录进行匹配，并推荐用于该请求的目录。AER模型系统124可以实时运行以处理大量交易和其中正在发生请求的请求复杂性。

图10A至10C(为了可读性分成三个图)示出了将非目录项匹配至目录项的主数据的示例1000。例如，针对非目录项(例如，笔记本计算机)输入若干新数据记录1002。这些可被匹配至包括代表性数据记录1004的目录项的主数据。在该示例中，这些新数据记录1002被匹配至目录项223(代表性数据记录1006)。例如，将新数据记录1002的每个新数据记录与每个代表性数据记录1004进行比较，以生成新数据记录1002与代表性数据记录1004匹配的置信得分1008。然后，计算系统可以提供基于代表性数据记录1004(或最高推荐列表)的目录项推荐。计算系统可以将(多个)推荐提供至计算设备以显示在计算设备上。

在一个示例实施例中，AER模型系统124可以以字典格式提供推荐，其中集群标识符被匹配至同一集群中的所有相似数据记录，例如：

数据:

AER模型系统124进一步提供了：评估结果推荐的精确度。例如，当返回针对新数据记录的一个推荐时，AER模型系统124可以将该场景视为多类别分类并且使用为这种模型设计的指标。但是，对于针对新数据记录返回前n个推荐的用例，为了评估模型的推荐结果，可以通过评估真实值和前n个推荐中返回的值来定义前n个指标。

例如，首先，计算系统创建一个m*m混淆矩阵，其中，m等于出现在前n个推荐中的字段的可能值的数目。值n是将会被考虑并且可以自定义的排序靠前的推荐的数目。例如，n可以是1或3或5甚至所有推荐。

其次，计算系统从矩阵计算真正例、真负例、假正例和假负例数组。例如，真正例是混淆矩阵的对角线。

第三，计算系统将精确度指标计算为具有长度m(例如，针对每个可能字段值一个精确度得分)的数组。在一个示例中，使用了四个精确度指标：准确率(precision)、召回率(recall)、精确度(accuracy)和F得分(Fscore)。这四个精确度指标从真正例(tp)、真负例(tn)、假正例(fp)和假负例(fn)数组计算。一个高级公式示例包括以下内容：

Precision＝tp/(tp+fp)

Recall＝tp/(tp+fn)

Accuracy＝(tn+tp)/(tn+tp+fn+fp)

Fscore＝(1+recall_weight**2)*recall*precision/(recall+recall_weight**2*precision)

在计算F-score时，计算系统通过训练模型时实施recall_weight来调整F-score。recall_weight定义了模型的训练方式，是对准确率和召回率的度量。较高的recall_weight表示较高的召回率和较低的准确率，反之亦然。

最后，计算系统通过对数组求平均值来计算指标。在一个示例实施例中，计算系统使用不同的权重对数组求平均值。例如，如果一个可能字段值比其他字段更可能发生，那么其将获得更高的权重。

图11是示出软件架构1102的框图1100，其中软件架构1102可以被安装在上述设备中的任何一个或多个上。例如，在各种实施例中，可以使用软件架构1102的一些或全部元件来实施客户端设备110以及服务器和系统130、102、120、122和124。图11仅是软件架构的非限制性示例，将会理解，许多其他架构可以被实施以促进本文描述的功能。在各种实施例中，软件架构1102由诸如图12的机器1200的硬件实施，其中硬件包括处理器1210、存储器1230和I/O组件1250。在该示例中，软件架构1102可以被概念化为层的堆栈，其中每个层可以提供特定的功能。例如，软件架构1102包括诸如操作系统1104、库1106、框架1108和应用1110的层。在操作上，应用1110通过软件堆栈激活应用编程接口(ApplicationProgramming Interface，API)调用1112，并响应于API调用1112接收消息1114，这与一些实施例一致。

在各种实施中，操作系统1104管理硬件资源并提供公共服务。操作系统1104包括例如内核1120、服务1122和驱动器1124。内核1120充当硬件和其他软件层之间的抽象层，这与一些实施例一致。例如，内核1120提供存储器管理、处理器管理(例如，调度)、组件管理、联网、安全设置、以及其他功能。服务1122可以为其他软件层提供其他公共服务。根据一些实施例，驱动器1124负责控制底层硬件或与底层硬件对接。例如，驱动器1124可包括显示驱动器、照相机驱动器、

或

低能耗驱动器、闪存驱动器、串行通信驱动器(例如，通用串行总线(Universal Serial Bus，USB)驱动器)、

驱动器、音频驱动器、电源管理驱动器等。

在一些实施例中，库1106提供应用1110使用的低级通用基础结构。库1106可以包括系统库1130(例如，C标准库)，该系统库1130可以提供诸如存储器分配功能、字符串操纵功能、数学功能等功能。此外，库1106可以包括API库1132，例如媒体库(例如，用于支持各种媒体格式的呈现和操纵的库(诸如运动图像专家组-4(Moving Picture Experts Group-4，MPEG4)、高级视频编码(H.264或Advanced Video Coding，AVC)、运动图像专家组层-3(Moving Picture Experts Group Layer-3，MP3)、高级音频编码(Advanced AudioCoding，AAC)、自适应多速率(Adaptive Multi-Rate，AMR)音频编解码器、联合图像专家组(Joint Photographic Experts Group，JPEG或JPG)、或便携式网络图形(PortableNetwork Graphics，PNG)))、图形库(例如，用于在显示器上以二维(2D)和三维(3D)呈现图形内容的OpenGL框架)、数据库(例如提供各种关系数据库功能的SQLite)、web库(例如，提供web浏览功能的WebKit)等等。库1106还可以包括各种各样的其他库1134，以向应用1110提供许多其他API。

根据一些实施例，框架1108提供可以由应用1110使用的高级通用基础设施。例如，框架1108提供各种图形用户界面(Graphic User Interface，GUI)功能、高级资源管理、高级位置服务等。框架1108可以提供可由应用1110使用的广泛的其他API，其中一些可以专用于特定操作系统1104或平台。

在示例实施例中，应用1110包括家庭应用1150、联系人应用1152、浏览器应用1154、读书器应用1156、位置应用1158、媒体应用1160、消息应用1162、游戏应用1164、以及诸如第三方应用1166和1167的种类繁多的其他应用。根据一些实施例，应用1110是运行程序中定义的功能的程序。可以采用各种编程语言来创建以多种方式构造应用1110中的一个或多个，诸如面向对象的编程语言(例如，Objective-C、Java、或C++)或过程编程语言(例如，C或汇编语言)。在特定示例中，第三方应用1166(例如，由特定平台的卖方以外的实体使用ANDROID^TM或IOS^TM软件开发工具包(Software Development Kit，SDK)开发的应用)可以是在诸如IOS^TM、ANDROID^TM、

Phone或另一移动操作系统的移动操作系统上运行的移动软件。在该示例中，第三方应用1166可以激活操作系统1104提供的API调用1112，以促进本文描述的功能。

图12是示出根据一些实施例的机器1200的组件的框图，机器1200能够从机器可读介质(例如，机器可读存储介质)读取指令并执行本文讨论的方法中的任何一个或多个。具体地，图12以计算机系统的示例形式示出了机器1200的图示，在该计算机系统内，可以运行用于使机器1200执行本文讨论的方法中的任何一个或多个的指令1216(例如，软件、程序、应用1110、小程序、app或其他可运行代码)。在替代实施例中，机器1200作为独立设备进行操作，或者可以被耦合(例如，联网)至其他机器。在联网部署中，机器1200可以以服务器机器或系统130、102、120、122、124等、或服务器-客户端网络环境中的客户端设备110的身份运行，或作为对等(或分布式)网络环境中的对等机器。机器1200可以包括，但不限于，服务器计算机、客户端计算机、个人计算机(Personal Computer，PC)、平板计算机、膝上型计算机、上网本、个人数字助理(Personal Digital Assistant，PDA)，娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能家电)、其他智能设备、web电器、网络路由器、网络交换机、网桥或能够依次或以其他方式运行指令1216的任何机器，这些指令指定了机器1200要采取的动作。此外，尽管仅示出了单个机器1200，术语“机器”还应被认为包括机器1200的集合，其中的机器1200单独地或共同地运行指令1216以执行本文讨论的方法中的任何一个或多个。

在各种实施例中，机器1200包括处理器1210、存储器1230和I/O组件1250，这些组件可以被配置为经由总线1202彼此通信。在示例实施例中，处理器1210(例如，中央处理单元(Central Processing Unit，CPU)、精简指令集计算(Reduced Instruction SetComputing，RISC)处理器、复杂指令集计算(Complex Instruction Set Computing，CISC)处理器、图形处理单元(Graphics Processing Unit，GPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、射频集成电路(Radio-Frequency Integrated Circuit，RFIC)、另一个处理器或它们的任意合适的组合)包括，例如，可以运行指令1216的处理器1212和处理器1214。术语“处理器”旨在包括多核处理器1210，多核处理器1210可以包括能够同时运行指令1216的两个或更多个独立处理器1212、1214(也称为“核”)。虽然图12示出了多个处理器1210，机器1200可以包括具有单个核的单个处理器1210、具有多个核的单个处理器1210(例如，多核处理器1210)、具有单个核的多个处理器1212、1214、具有多个核的多个处理器1212、1214，或其任意组合。

根据一些实施例，存储器1230包括主存储器1232、静态存储器1234和经由总线1202可由处理器1210访问的存储单元1236。存储单元1236可包括机器可读介质1238，在其上存储具体实现本文描述的方法或功能中的任何一个或多个的指令1216。在被机器1200执行的过程中，指令1216还可以全部或至少部分地驻留在主存储器1232内，静态存储器1234内，处理器1210中的至少一个处理器内(例如，处理器的高速缓冲存储器内)，或其任何合适的组合内。因此，在各种实施例中，主存储器1232、静态存储器1234和处理器1210被认为是机器可读介质1238。

如本文所使用的，术语“存储器”是指能够临时或永久地存储数据的机器可读介质1238，并且可以被认为包括，但不限于，随机存取存储器(Random-Access Memory，RAM)，只读存储器(Read-Only Memory，ROM)，缓冲存储器，闪存和高速缓存。尽管在示例实施例中将机器可读介质1238示为单个介质，但是术语“机器可读介质”应被认为包括能够存储指令1216的单个介质或多个介质(例如，集中式或分布式数据库，或关联的高速缓存和服务器)。术语“机器可读介质”还应被认为包括能够存储用于由机器(例如机器1200)运行的指令(例如，指令1216)的任何介质，或多种介质的组合，以使得指令1216在被机器1200的一个或多个处理器(例如处理器1210)运行时，使得机器1200执行本文所述方法中的任何一个或多个。因此，“机器可读介质”是指单个存储装置或设备，以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。因此，术语“机器可读介质”应被认为包括，但不限于，以固态存储器(例如，闪存)、光学介质、磁性介质、其他非易失性存储器(例如，可擦可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM))、或其任何合适的组合的形式的一个或多个数据储存库。术语“机器可读介质”具体地排除了非法定信号本身。

I/O组件1250包括各种各样的组件，以接收输入，提供输出，产生输出，传输信息，交换信息，捕获测量，等等。通常，将会理解，I/O组件1250可以包括于图12中未示出的许多其他组件。仅仅为了简化以下的讨论，根据功能对I/O组件1250进行了分组，并且该分组绝不是限制性的。在各种示例实施例中，I/O组件1250包括输出组件1252和输入组件1254。输出组件1252包括视觉组件(例如，诸如等离子体显示面板(Plasma Display Panel，PDP)的显示器)、发光二极管(Light Emitting Diode，LED)显示器、液晶显示器(Liquid CrystalDisplay，LCD)、投影仪或阴极射线管(Cathode Ray Tube，CRT))、声学组件(例如，扬声器)、触觉组件(例如、振动马达)、其他信号发生器，等等。输入组件1254包括字母数字输入组件(例如，键盘、配置为接收字母数字输入的触摸屏、光电键盘、或其他字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器、或其他定点仪器)、触觉输入组件(例如，物理按钮、提供触摸或触摸手势的位置和力度的触摸屏、或其他触觉输入组件)、音频输入组件(例如，麦克风)等。

在一些进一步的示例实施例中，I/O组件1250包括生物测定组件1256、运动组件1258、环境组件1260、或位置组件1262、以及其他各种各样的组件。例如，生物测定组件1256包括用于检测表情(例如，手部表达、面部表情，声音表达、身体姿势、或眼睛跟踪)、测量生物信号(例如血压、心率、体温，汗液、或大脑)、身份识别(例如，语音识别、视网膜识别、面部识别、指纹识别、或基于脑电图识别)等的组件。运动组件1258包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件1260包括，例如，照明传感器组件(例如，光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如，气压计)、声学传感器组件(例如，检测背景噪音的一个或多个麦克风)、接近传感器组件(例如，检测附近物体的红外传感器)、气体传感器组件(例如，机器嗅觉检测传感器、用于针对安全性检测危险气体浓度或测量大气污染物的气体检测传感器)、或可提供与周围物理环境相对应的指示、测量或信号的其他组件。位置组件1262包括位置传感器组件(例如，全球定位系统(Global Positioning System，GPS)接收器组件)、高度传感器组件(例如，高度计或检测可从中得出高度的气压的气压计)、方向传感器组件(例如，磁力计)，等等。

可以使用多种技术来实施通信。I/O组件1250可以包括通信组件1264，其可操作以分别经由耦合1282和耦合1272将机器1200耦合至网络1280或设备1270。例如，通信组件1264包括网络接口组件或与网络1280对接的另一合适的设备。在进一步的示例中，通信组件1264包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(Near FieldCommunication，NFC)组件、

组件(例如，

低能耗)，

组件、以及经由其他形式提供通信的其他通信组件。设备1270可以是另一台机器1200或各种外围设备中的任何一个(例如，经由通用串行总线(Universal Serial Bus，USB)耦合的外围设备)。

此外，在一些实施例中，通信组件1264检测标识符或包括可操作以检测标识符的组件。例如，通信组件1264包括射频识别(Radio Frequency Identification，RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如，用于检测诸如通用产品代码(Universal Product Code，UPC)条形码的一维条形码、诸如快速响应(Quick Response，QR)码、Aztec码、数据矩阵、Dataglyph、MaxiCode、PDF417、Ultra码、统一商业代码缩减空间符号(Uniform Commercial Code Reduced Space Symbology，UCC RSS)-2D条形码的多维条形码、及其他光学代码的光学传感器)、声学检测组件(例如，用于识别标记的音频信号的麦克风)、或其任何合适的组合。此外，可以经由通信组件1264得出各种信息，诸如，经由互联网协议(Internet Protocol，IP)地理位置的位置，经由

信号三角测量的位置，经由检测可以指示特定位置的

或近场通信信标信号的位置，等等。

在各种示例实施例中，网络1280的一个或多个部分可以是ad hoc网络、内联网、外联网、虚拟专用网(Virtual Private Network，VPN)、局域网(Local Area Network，LAN)、无线LAN(Wireless LAN，WLAN)、广域网(Wide Area Network，WAN)、无线WAN(WirelessWAN，WWAN)、城域网(Metropolitan Area Network，MAN)、互联网、互联网的一部分、公共交换电话网络(Public Switched Telephone Network，PSTN)的一部分、普通的旧电话服务(Plain Old Telephone Service，POTS)网络、蜂窝电话网络、无线网络、

网络，另一类型的网络、或两个或更多个此类网络的组合。例如，网络1280或网络1280的一部分可以包括无线或蜂窝网络，并且耦合1282可以是码分多址(Code Division Multiple Access，CDMA)连接、全球移动通信系统(Global System for Mobile communications，GSM)连接、或其他类型的蜂窝或无线耦合。在该示例中，耦合1282可以实施各种类型的数据传输技术中的任何一种，诸如单载波无线电传输技术(Single Carrier Radio TransmissionTechnology，1xRTT)、演进数据优化(Evolution-Data Optimized，EVDO)技术、通用分组无线电服务(General Packet Radio Service，GPRS)技术、增强型数据速率GSM演进(Enhanced Data rates for GSM Evolution，EDGE)技术、包括3G的第三代合作伙伴计划(Third Generation Partnership Project，3GPP)、第四代无线(4G)网络、通用移动电信系统(Universal Mobile Telecommunications System，UMTS)、高速分组接入(High SpeedPacket Access，HSPA)、全球互通微波存取(Worldwide Interoperability for MicrowaveAccess，WiMAX)、长期演进(Long Term Evolution，LTE)标准、由各种标准制定组织定义的其他标准、其他远程协议、或其他数据传输技术。

在示例实施例中，使用传输介质经由网络接口设备(例如，包括在通信组件1264中的网络接口组件)并利用多种众所周知的传输协议(例如，超文本传输协议(HypertextTransfer Protocol，HTTP))中的任何一种，在网络1280上发送或接收指令1216。类似地，在其他示例实施例中，使用传输介质经由耦合1272(例如，对等耦合)向设备1270发送或接收指令1216。术语“传输介质”应被认为包括能够存储、编码或携带由机器1200运行的指令1216的任何无形介质，并且包括用以促进这种软件通信的数字或模拟通信信号或其他无形介质。

此外，机器可读介质1238是非瞬时性的(换言之，不具有任何暂时性信号)，因为其没有具体实现传播信号。然而，将机器可读介质1238标记为“非瞬时性”不应被解释为该介质不能移动；介质1238应被认为可从一个物理位置运输到另一物理位置。此外，由于机器可读介质1238是有形的，所以介质1238可被认为是机器可读设备。

在整个本说明书中，多个实例可以实施被描述为单个实例的组件、操作或结构。虽然一个或多个方法的单独操作被示出和描述为分离的操作，但是单独操作中的一个或多个可被同时执行，并且不要求操作以示出的顺序执行。在示例配置中被呈现为分离的组件的结构和功能可被实施为组合结构或组件。类似地，被呈现为单个组件的结构和功能可被实施为分离的组件。这些和其它变化、修改、添加和改进落入本文的主题的范围内。

尽管已经参考特定示例实施例描述了本发明主题的概述，但是在不脱离本公开的实施例的较宽范围的情况下，可以对这些实施例进行各种修改和改变。

本文示出的实施例被足够详细地描述，以使得本领域技术人员能够实践在此所公开的教导。可利用并从其导出其它实施例，以使得可以进行结构和逻辑替换和改变而不脱离本公开的范围。因此该详细的说明不应当被理解为限制性的意义，并且各种实施例的范围仅仅由所附权利要求连同被这样的权利要求赋予权利的等同物的完全范围来定义。

如本文所使用的，术语“或”可以以包括性或排他性的意义来解释。此外，可以为在本文中被描述为单个实例的资源、操作或结构提供多个实例。此外，各种资源、操作、模块、引擎和数据存储之间的边界是一定程度任意的，并且在特定说明性配置的上下文中示出了特定的操作。功能的其他分配被设想，并且可以落入本公开的各种实施例的范围内。通常，作为示例配置中的单独资源呈现的结构和功能可以被实施为组合的结构或资源。类似地，作为单个资源呈现的结构和功能可以被实施为单独的资源。这些和其它变化、修改、添加和改进落入由所附权利要求所表示的本公开的实施例的范围内。因此，说明书和附图被认为是说明性的而不是限制性的。

Claims

1.一种计算机实施的方法，包括：

在计算系统接收新数据记录的请求数据字段；

由所述计算系统访问包括多个代表性数据记录的主数据，每个代表性数据记录代表相似数据记录的集群，并且每个相似数据记录具有置信得分，所述置信得分指示所述相似数据记录对应于所述集群的置信度；

使用机器学习模型将所述新数据记录与所述多个代表性数据记录中的每个代表性数据记录进行比较，以针对每个代表性数据记录生成距离得分，所述距离得分与所述新数据记录和每个代表性数据记录之间的距离相对应；

选择具有在距离阈值内的生成的距离得分的代表性数据记录集合；

分析与所述代表性数据记录集合中的每个代表性数据记录相对应的相似数据记录的集群，以针对所述新数据记录的请求数据字段生成候选值；

使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分，来为所述候选值中的每一个生成候选得分；以及

基于所述候选值的候选得分，针对所述请求数据字段提供推荐。

2.根据权利要求1所述的计算机实施的方法，其中，所述请求数据字段是供应商名称或目录。

3.根据权利要求1所述的计算机实施的方法，其中，通过执行操作生成所述主数据，所述操作包括：

访问包括多个数据记录的数据源；

将所述数据记录分组到包括相似数据记录的集群中；

生成代表性数据记录以代表相似数据记录的每个集群；

针对每个相似数据记录生成置信得分，所述置信得分指示所述相似数据记录对应于所述集群的置信度；以及

将包括多个代表性数据记录的主数据存储在一个或多个数据存储中。

4.根据权利要求1所述的计算机实施的方法，其中，所述距离阈值是指定值，并且基于所述代表性数据记录集合中的每个代表性记录具有大于所述距离阈值的指定值的距离得分，来选择所述代表性数据记录集合。

5.根据权利要求1所述的计算机实施的方法，其中，使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分，来为所述候选值中的每一个生成所述候选得分，包括：

对于每个相似数据记录，将所述距离得分乘以所述置信得分以生成乘积值；

对于每个候选值，组合包括所述候选值的每个相似数据记录的乘积值以生成组合乘积值；

确定每个候选值出现于其中的相似数据记录的数目的计数；以及

基于所述组合乘积值和所述候选值的计数，为所述候选值中的每一个生成所述候选得分。

6.根据权利要求1所述的计算机实施的方法，还包括：

基于所述候选得分对所述候选值进行排序；以及

其中，基于所述排序的候选值，提供针对所述请求数据字段的推荐。

7.根据权利要求6所述的计算机实施的方法，其中，基于所述候选得分对所述候选值进行排序包括：首先基于候选得分，其次基于指示所述候选值出现于其中的集群的数目的集群计数，并且第三基于指示所述候选值出现于其中的相似记录的数目的记录计数对所述候选值进行排序。

8.根据权利要求1所述的计算机实施的方法，其中，基于所述候选值的候选得分，提供针对所述请求数据字段的推荐包括：提供具有最高候选得分的候选值作为针对所述请求数据字段的推荐。

9.根据权利要求7所述的计算机实施的方法，其中，基于所述排序的候选值，提供针对所述请求数据字段的推荐包括：基于待提供的推荐的预定数目，提供具有最高候选得分的候选值的子集。

10.一种系统，包括：

存储器，存储指令；和

一个或多个处理器，被所述指令配置以执行操作，所述操作包括：

接收新数据记录的请求数据字段；

访问包括多个代表性数据记录的主数据，每个代表性数据记录代表相似数据记录的集群，并且每个相似数据记录具有置信得分，所述置信得分指示所述相似数据记录对应于所述集群的置信度；

11.根据权利要求10所述的系统，其中，所述请求数据字段是供应商名称或目录。

12.根据权利要求10所述的系统，其中，通过执行操作生成所述主数据，所述操作包括：

访问包括多个数据记录的数据源；

将所述数据记录分组到包括相似数据记录的集群中；

生成代表性数据记录以代表相似数据记录的每个集群；

13.根据权利要求10所述的系统，其中，所述距离阈值是指定值，并且基于所述代表性数据记录集合中的每个代表性记录具有大于所述距离阈值的指定值的距离得分，来选择所述代表性数据记录集合。

14.根据权利要求10所述的系统，其中，使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分，来为所述候选值中的每一个生成所述候选得分，包括：

15.根据权利要求10所述的系统，所述操作还包括：

基于所述候选得分对所述候选值进行排序；以及

16.根据权利要求15所述的系统，其中，基于所述候选得分对所述候选值进行排序包括：首先基于候选得分，其次基于指示所述候选值出现于其中的集群的数目的集群计数，并且第三基于指示所述候选值出现于其中的相似记录的数目的记录计数对所述候选值进行排序。

17.根据权利要求15所述的系统，其中，基于所述排序的候选值，提供针对所述请求数据字段的推荐包括：基于待提供的推荐的预定数目，提供具有最高候选得分的候选值的子集。

18.根据权利要求10所述的系统，其中，基于所述候选值的候选得分，提供针对所述请求数据字段的推荐包括：提供具有最高候选得分的候选值作为针对所述请求数据字段的推荐。

19.一种非瞬时性计算机可读介质，包括存储在其上的指令，所述指令可由至少一个处理器运行以使计算设备执行操作，所述操作包括：

接收新数据记录的请求数据字段；

20.根据权利要求19所述的非瞬时性计算机可读介质，其中，使用所述候选值所对应的代表性数据记录的距离得分和所述候选值所对应的相似数据记录的置信得分，来为所述候选值中的每一个生成所述候选得分，包括：