CN114281867A

CN114281867A - 数据关联方法、设备、存储介质及程序产品

Info

Publication number: CN114281867A
Application number: CN202111633770.6A
Authority: CN
Inventors: 李锟; 孙琳; 刘春波; 李谨秀; 王令则; 狄晓帆
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-05

Abstract

本申请提供一种数据关联方法、设备、存储介质及程序产品，通过从第一数据集和第二数据集中确定多个待关联字段；分别根据每一待关联字段关联第一数据集的主键和第二数据集的主键得到各待关联字段对应的主键关联关系集合；将各待关联字段对应的主键关联关系集合进行合并和去重得到第一主键关联关系合集；获取第一主键关联关系合集中每一条主键关联关系的评价指标，基于评价指标确定第一数据集和第二数据集唯一对应的主键关联关系。本申请依据多个待关联字段匹配确定所有可能的主键关联关系，并获取每一可能的主键关联关系的评价指标，基于评价指标来选择唯一对应的主键关联关系，在数据质量参差不齐的情况下也能保证主键关联关系的准确性和全面性。

Description

数据关联方法、设备、存储介质及程序产品

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据关联方法、设备、存储介质及程序产品。

背景技术

在处理不同数据提供方提供的数据时，通常需要将属于同一对象的数据进行关联或合并，例如对于银行系统，其自身会产生一些企业主体数据，为了满足业务需要，通常也会从第三方公司采购企业主体数据，需要将银行系统内部的企业主体数据与外部采购的企业主体数据进行关联或合并。

由于不同数据提供方提供的数据质量参差不齐，可能没有统一主键来唯一标识同一对象，通常需要使用一个或多个指定字段作为外键来对不同数据提供方提供的数据进行关联，例如，对于企业而言，可采用统一社会信用代码、组织机构代码、工商注册号中的至少一项作为外键来关联同一企业的数据。

但是，由于数据质量参差不齐的问题可能存在漏关联或错关联，数据关联的准确度不高。

发明内容

本申请提供一种数据关联方法、设备、存储介质及程序产品，用以提高数据关联的准确度。

第一方面，本申请提供一种数据关联方法，包括：

从第一数据集和第二数据集中确定多个待关联字段；

分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；

将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；

获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

可选的，所述分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合，包括：

针对任一待关联字段，对所述第一数据集和所述第二数据集的待关联字段进行匹配，获取同一待关联字段取值对应的第一数据集的主键和第二数据集的主键；

将同一待关联字段取值对应的一对第一数据集的主键和第二数据集的主键进行关联，得到所述待关联字段对应的一条主键关联关系，加入所述待关联字段对应的主键关联关系集合。

可选的，所述获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，包括：

对于任一条主键关联关系，获取对应的各待关联字段分别在所述第一数据集和所述第二数据集中的取值，生成所述主键关联关系对应的待关联字段数据；

基于所述主键关联关系对应的待关联字段数据，判断每一待关联字段在所述第一数据集和所述第二数据集中的取值是否相等；并根据判断结果确定每一待关联字段的权重值；

对每一待关联字段的权重值求和，获取所述主键关联关系的评价指标。

可选的，所述根据判断结果确定每一待关联字段的权重值，包括：

对于任一待关联字段，若基于所述主键关联关系对应的待关联字段数据，确定该待关联字段在所述第一数据集和所述第二数据集中的取值相等，则将该待关联字段的权重值设置为该待关联字段的预设重要性指标值；

若确定该待关联字段在所述第一数据集和所述第二数据集中的取值不相等，则将该待关联字段的权重值设置为0。

可选的，所述将该待关联字段的权重值设置为该待关联字段的预设重要性指标值前，还包括：

统计每一待关联字段对应的主键关联关系集合中主键关联关系的数量，并获取数量总和；

针对任一待关联字段，获取该待关联字段对应的主键关联关系集合中主键关联关系的数量与所述数量总和的比值，将所述比值确定为该待关联字段的预设重要性指标值。

可选的，所述基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系，包括：

按照所述第一数据集的主键对所述第一主键关联关系合集中的各主键关联关系进行分组和排序，其中，同一第一数据集的主键相关的各主键关联关系处于一个分组内，且按照评价指标进行排序；从各分组中取出评价指标最大的主键关联关系，构成第二主键关联关系合集；

按照所述第二数据集的主键对所述第二主键关联关系合集中的各主键关联关系进行分组和排序，其中，同一第二数据集的主键相关的各主键关联关系处于一个分组内，且按照评价指标进行排序；从各分组中取出评价指标最大的主键关联关系，构成第三主键关联关系合集；

将所述第三主键关联关系合集中的主键关联关系确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

可选的，所述从各分组中取出评价指标最大的主键关联关系，包括：

若任一分组中评价指标最大的主键关联关系存在两个以上，则根据备选字段获取评价指标最大的主键关联关系的辅助评价指标；

从评价指标最大的主键关联关系中选择辅助评价指标最大的主键关联关系，确定为最终的评价指标最大的主键关联关系。

第二方面，本申请提供一种数据关联装置，包括：

字段确定模块，用于从第一数据集和第二数据集中确定多个待关联字段；

单字段关联模块，用于分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；

合并模块，用于将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；

评价模块，用于获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

可选的，所述单字段关联模块在分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合时，用于：

可选的，所述评价模块在获取所述第一主键关联关系合集中每一条主键关联关系的评价指标时，用于：

可选的，所述评价模块在根据判断结果确定每一待关联字段的权重值时，用于：

可选的，所述评价模块在将该待关联字段的权重值设置为该待关联字段的预设重要性指标值前，还用于：

可选的，所述评价模块在基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系时，用于：

可选的，所述评价模块在从各分组中取出评价指标最大的主键关联关系时，用于：

本申请实施例的数据关联装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的方法。

本申请提供的数据关联方法、设备、存储介质及程序产品，通过从第一数据集和第二数据集中确定多个待关联字段；分别根据每一待关联字段对第一数据集的主键和第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；获取第一主键关联关系合集中每一条主键关联关系的评价指标，基于每一条主键关联关系的评价指标确定第一数据集和第二数据集唯一对应的主键关联关系。本实施例依据多个待关联字段匹配确定所有可能的主键关联关系，并获取每一条可能的主键关联关系的评价指标，基于评价指标来选择唯一对应的主键关联关系，在数据质量参差不齐的情况下也能保证主键关联关系的准确性和全面性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请一实施例提供的数据关联方法的应用场景示意图；

图2为本申请一实施例提供的数据关联方法的流程图；

图3为本申请另一实施例提供的数据关联方法的流程图；

图4为本申请另一实施例提供的数据关联方法的流程图；

图5为本申请另一实施例提供的数据关联方法的流程图；

图6为本申请一实施例提供的数据关联装置的结构图；

图7为本申请一实施例提供的电子设备的结构图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

首先对本申请所涉及的名词进行解释：

企业主体数据：与企业经营活动相关的数据，如工商数据、证照信息、司法数据等。

银行内部企业主体数据：银行系统中会产生以企业为主体的信息，并通常以结构化数据的形式保存于数据库中。

银行外部企业主体数据：银行向外部第三方公司采购企业主体数据。

统一社会信用代码：是一组长度为18位的用于法人和其他组织身份识别的代码。

组织机构代码：是对已发注册登记的机关、企事业单位、社会团体以及其他组织机构颁发一个在全国范围内唯一的、始终不变的代码标识。

下面先对现有技术进行介绍：

在处理不同数据提供方提供的数据时，通常需要将属于同一对象的数据进行关联或合并，例如对于银行系统，其自身会产生一些企业主体数据，为了满足业务需要，通常也会从第三方公司采购企业主体数据，需要将银行系统内部企业主体数据与外部企业主体数据进行关联或合并。

由于不同数据提供方提供的数据质量参差不齐，可能没有统一主键来唯一标识同一对象，例如银行系统内部企业主体数据的主键为客户号，为企业在银行内的唯一标识，而外部企业主体数据的主键为企业ID，是第三方公司制定的企业唯一标识，因此采用内部企业主体数据的主键以及外部企业主体数据的主键是无法直接将内部企业主体数据和外部企业主体数据直接关联。

通常需要使用一个或多个指定字段作为外键来对不同数据提供方提供的数据进行关联，例如，对于企业而言，可采用统一社会信用代码、组织机构代码、工商注册号中的至少一项作为外键来关联同一企业的数据。

但是，由于数据质量参差不齐的问题可能存在漏关联或错关联，数据关联的准确度不高。其中若以单一指定字段作为外键来对不同数据提供方提供的数据进行关联，很可能存在漏关联或错关联(一对多)；若以多个关联字段作为外键来对不同数据提供方提供的数据进行关联，虽然关联精度提高，但是很可能同时能关联上的数据过少，产生漏关联的情况。此外，若存在一对多的错关联的情况，通常按照某一字段进行排序，选择排序最前的一条来实现去重操作，但这种排序通常按照取值由大到小或者有小到大的顺序来排序，或者按照长度来排序，这种排序无实际业务含义，去重得到的结果准确性不高。

为了解决上述技术问题，本申请实施例中通过从第一数据集和第二数据集中确定多个待关联字段；分别根据每一待关联字段对第一数据集的主键和第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；获取第一主键关联关系合集中每一条主键关联关系的评价指标，基于每一条主键关联关系的评价指标确定第一数据集和第二数据集唯一对应的主键关联关系。本申请实施例依据多个待关联字段匹配确定所有可能的主键关联关系，并获取每一条可能的主键关联关系的评价指标，基于评价指标来选择唯一对应的主键关联关系，尤其是对于一对多或多对一的情况，可基于评价指标来选择可信度最高的主键关联关系，在数据质量参差不齐的情况下也能保证主键关联关系的准确性和全面性。

本申请具体的应用场景可如图1所示，包括不同的数据提供方101和102、以及处理设备103，处理设备103可从数据提供方101和102分别获取到第一数据集和第二数据集，进而从第一数据集和第二数据集中确定多个待关联字段；分别根据每一待关联字段对第一数据集的主键和第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；获取第一主键关联关系合集中每一条主键关联关系的评价指标，基于每一条主键关联关系的评价指标确定第一数据集和第二数据集唯一对应的主键关联关系。在确定了第一数据集和第二数据集唯一对应的主键关联关系后，可将第一数据集和第二数据集按照主键关联关系进行合并或关联。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图2为本申请实施例提供的数据关联方法流程图。本实施例提供了一种数据关联方法，其执行主体为服务器等电子设备，该数据关联方法具体步骤如下：

S201、从第一数据集和第二数据集中确定多个待关联字段。

在本实施例中，先从第一数据集和第二数据集中获取多个共有的字段，字段名称可相同，也可不同，但字段内容是同一内容，举例来讲，待关联字段可以包括企业名称、组织机构代码、统一社会信用代码、工商注册号等。当然也可对第一数据集和第二数据集中共用的字段进行分级，例如包括核心字段(第一级)、关键字段(第二级)、次重要字段(第三级)等，其中核心字段具有明确业务含义且容易识别，如上述的企业名称；而关键字段可以为标识类信息，理论上可以唯一标识一个对象，但通常数据质量不能满足非空且准确的要求，例如组织机构代码、统一社会信用代码、工商注册号，而次重要字段则如法定代表人、电话号码等，可能并不能唯一标识一个对象，但可以作为辅助的字段。

在选择待关联字段时，优先选择核心字段、再选择关键字段。举例来讲可以选择核心字段A、以及关键字段B1、B2、B3……。需要说明的是，待关联字段越多，关联精度越高，但处理量增加、效率降低，因此需要控制待关联字段数量以达到精度和效率的平衡点。

S202、分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合。

在本实施例中，主键是唯一标识数据集中的一条数据，该条数据中包括各待关联字段的值，因此可根据每一待关联字段对第一数据集的主键和第二数据集的主键进行关联，分别得到每一待关联字段对应的主键关联关系集合。

具体的，如图3所示，S202可包括如下步骤：

S2021、针对任一待关联字段，对所述第一数据集和所述第二数据集的待关联字段进行匹配，获取同一待关联字段取值对应的第一数据集的主键和第二数据集的主键；

S2022、将同一待关联字段取值对应的一对第一数据集的主键和第二数据集的主键进行关联，得到所述待关联字段对应的一条主键关联关系，加入所述待关联字段对应的主键关联关系集合。

在本实施例中，假设第一数据集的主键为客户号，第二数据集的主键为企业ID，针对于企业名称这个待关联字段，可以查找第一数据集中和第二数据集中具有相同企业名称的数据，例如第一数据集中某一条数据为：“客户号：001，企业名称：A公司，……”，第二数据集中某一条数据为：“企业ID：abc，企业名称：A公司，……”，由于企业名称相同，因此这两条数据基于企业名称这个待关联字段相互匹配，从而确定第一数据集的主键“客户号：001”与第二数据集的主键“企业ID：abc”存在关联关系，也即得到一条主键关联关系，以此类推，可以得到第一数据集和第二数据集中企业名称这个待关联字段相同的所有主键关联关系，构成该待关联字段对应的主键关联关系集合。对于其他的待关联字段同理，此处不再赘述。

S203、将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集。

在本实施例中，在获取到各待关联字段对应的主键关联关系集合后，可对各待关联字段对应的主键关联关系集合取并集，也即将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到一个主键关联关系合集，记为第一主键关联关系合集，第一主键关联关系合集中包括基于各待关联字段匹配的所有可能的主键关联关系。可选的，各待关联字段对应的主键关联关系集合以及第一主键关联关系合集均以表格的形式存储主键关联关系，表格中包括的字段有第一数据集的主键和第二数据集的主键。

在本实施例中，在合并时，可首先创建一个空表，然后将一个待关联字段对应的主键关联关系集合加入到空表中，然后将下一个待关联字段对应的主键关联关系集合加入到该表中，在加入过程中，依次判断要加入的主键关联关系是否在表中已经存在，若存在则删除，若不存在，则加入到表中，以此类推，将所有的待关联字段对应的主键关联关系集合加入到表中后结束。

S204、获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

在本实施例中，第一主键关联关系合集中可能存在第一数据集的主键和第二数据集的主键一对一、一对多或多对一的情况，其中对于一对多或多对一的情况则需要进行筛选和判断，才能唯一确定出一个主键关联关系。因此，本实施例中可多对第一主键关联关系合集中每一条主键关联关系获取评价指标，对于一对多或多对一的情况优先选择评价指标最好的一条主键关联关系，作为最终唯一的主键关联关系。而对于一对一的情况，是否获取主键关联关系的评价指标对最终结果不产生影响，当然也可不去获取。

其中，可选的，每一条主键关联关系的评价指标可采根据待关联字段匹配的情况进行确定，例如，某一条主键关联关系，存在越多种类待关联字段相互匹配，则其评价指标越高；再如，仅核心字段相互匹配的主键关联关系的评价指标较高，而仅关键字段相互匹配的主键关联关系的评价指标越低。基于上述规则可采用任意的算法来计算每一条主键关联关系的评价指标，此处可不做限制。

本实施例提供的数据关联方法，通过从第一数据集和第二数据集中确定多个待关联字段；分别根据每一待关联字段对第一数据集的主键和第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；获取第一主键关联关系合集中每一条主键关联关系的评价指标，基于每一条主键关联关系的评价指标确定第一数据集和第二数据集唯一对应的主键关联关系。本实施例依据多个待关联字段匹配确定所有可能的主键关联关系，并获取每一条可能的主键关联关系的评价指标，基于评价指标来选择唯一对应的主键关联关系，在数据质量参差不齐的情况下也能保证主键关联关系的准确性和全面性。

在上述任一实施例的基础上，如图4所示，S204所述的获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，具体可包括：

S301、对于任一条主键关联关系，获取对应的各待关联字段分别在所述第一数据集和所述第二数据集中的取值，生成所述主键关联关系对应的待关联字段数据。

在本实施例中，对于第一主键关联关系合集中任一条主键关联关系，其中只包括第一数据集的主键和第二数据集的主键，而要获取该条主键关联关系的评价指标，只有第一数据集的主键和第二数据集的主键是远远不够的，需要获取更多的信息，因此本实施例中，获取了各待关联字段在第一数据集和第二数据集中的取值，也即可根据主键关联关系中第一数据集的主键的值从第一数据集中查询各待关联字段的值，根据第二数据集的主键的值从第二数据集中查询各待关联字段的值。可选的，可生成表N，在表N中记录每一条主键关联关系对应的第一数据集的主键和第二数据集的主键、各待关联字段在第一数据集和第二数据集中的取值。

S302、基于所述主键关联关系对应的待关联字段数据，判断每一待关联字段在所述第一数据集和所述第二数据集中的取值是否相等；并根据判断结果确定每一待关联字段的权重值。

在本实施例中，基于主键关联关系对应的待关联字段数据，可判断每一待关联字段在第一数据集和第二数据集中的取值是否相等，若相等的待关联字段越多，则说明主键关联关系的可信度更高，因此对于相等的待关联字段赋予一个权重值(大于0)，不相等的待关联字段赋予权重值为0，进而可基于各待关联字段的权重值确定主键关联关系的评价指标。其中对于不同的待关联字段可以赋予不同的权重值，尤其是核心字段的权重值可以更大，而关键字段的权重值可以相对较小。

可选的，在将该待关联字段的权重值设置为该待关联字段的预设重要性指标值前，还可包括：

统计每一待关联字段对应的主键关联关系集合中主键关联关系的数量，并获取数量总和；针对任一待关联字段，获取该待关联字段对应的主键关联关系集合中主键关联关系的数量与所述数量总和的比值，将所述比值确定为该待关联字段的预设重要性指标值。

在本实施例中，以核心字段A、以及关键字段B1、B2、B3……进行举例，可以统计核心字段A、以及关键字段B1、B2、B3……对应的主键关联关系集合中主键关联关系的条数，分别记为ToA、ToB1、ToB2、ToB3……其中主键关联关系的条数越多说明该待关联字段的数据质量越高，进一步的，对于每一待关联字段的预设重要性指标值QuA、QuB1、QuB2、QuB3……可通过如下公式进行计算：以核心字段A作为示例，QuA＝ToA/(ToA+ToB1+ToB2+ToB3+……)。

进一步的，在S302所述的根据判断结果确定每一待关联字段的权重值时，可包括：

对于任一待关联字段，若基于所述主键关联关系对应的待关联字段数据，确定该待关联字段在所述第一数据集和所述第二数据集中的取值相等，则将该待关联字段的权重值设置为该待关联字段的预设重要性指标值；若确定该待关联字段在所述第一数据集和所述第二数据集中的取值不相等，则将该待关联字段的权重值设置为0。

在本实施例中，对于某一条主键关联关系对应的待关联字段数据中，若核心字段A在第一数据集和第二数据集中的取值相等，则令核心字段A的权重值YzA＝QuA，若核心字段A在第一数据集和第二数据集中的取值不相等，则令核心字段A的权重值YzA＝0；同理，若关键字段B1在第一数据集和第二数据集中的取值相等，则令关键字段B1的权重值YzB1＝QuB1，若关键字段B1在第一数据集和第二数据集中的取值不相等，则令关键字段B1的权重值YzB1＝0；以此类推，可得到该条主键关联关系对应核心字段A、以及关键字段B1、B2、B3……的权重值YzA、YzB1、YzB2、YzB3……，可选的，可将权重值YzA、YzB1、YzB2、YzB3……也记录在表N中。

S303、对每一待关联字段的权重值求和，获取所述主键关联关系的评价指标。

在本实施例中，对于某一条主键关联关系，在确定每一待关联字段的权重值后，可对每一待关联字段的权重值求和，获取主键关联关系的评价指标。举例来讲，在获取了某一条主键关联关系对应的YzA、YzB1、YzB2、YzB3……后，可得到该条主键关联关系的评价指标Yz＝(YzA+YzB1+YzB2+YzB3……)。通过主键关联关系的评价指标即可评价该条主键关联关系的可信度，也可作为取舍优先级。

在上述任一实施例的基础上，如图5所示，S204所述的基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系，包括：

S401、按照所述第一数据集的主键对所述第一主键关联关系合集中的各主键关联关系进行分组和排序，其中，同一第一数据集的主键相关的各主键关联关系处于一个分组内，且按照评价指标进行排序；从各分组中取出评价指标最大的主键关联关系，构成第二主键关联关系合集。

在本实施例中，考虑到第一主键关联关系合集中可能存在第一数据集的主键和第二数据集的主键一对一、一对多或多对一的情况，因此，可首先基于第一数据集的主键对第一主键关联关系合集中的各主键关联关系进行分组和排序，具有相同第一数据集的主键的主键关联关系聚集在一起，分别看作为一个一个的分组，有的分组中可能只有一个主键关联关系，也即可能是一对一的情况，有的分组中可能包括多个主键关联关系，也即为一对多的情况。

本实施例中可基于主键关联关系的评价指标对各分组中的主键关联关系进行排序，取其中评价指标最高的主键关联关系，将各分组中取出评价指标最大的主键关联关系构成第二主键关联关系合集。

S402、按照所述第二数据集的主键对所述第二主键关联关系合集中的各主键关联关系进行分组和排序，其中，同一第二数据集的主键相关的各主键关联关系处于一个分组内，且按照评价指标进行排序；从各分组中取出评价指标最大的主键关联关系，构成第三主键关联关系合集。

在本实施例中，考虑到第二主键关联关系集合仅仅是从第一数据集的主键的角度筛选的主键关联关系，保证每一第一数据集的主键仅对应一个第二数据集的主键，但并不能保证每一第一数据集的主键唯一对应一个第二数据集的主键，可能存在两个不同的第一数据集的主键对应同一个第二数据集的主键的情况，也即多对一的情况，因此还需要从第二数据集的主键的角度再次筛选的主键关联关系。

具体的，本实施例中可基于第二数据集的主键对第二主键关联关系合集中的各主键关联关系进行分组和排序，具有相同第二数据集的主键的主键关联关系聚集在一起，分别看作为一个一个的分组，有的分组中可能只有一个主键关联关系，也即为一对一的情况，有的分组中可能包括多个主键关联关系，也即为多对一的情况。

本实施例中可基于主键关联关系的评价指标对各分组中的主键关联关系进行排序，取其中评价指标最高的主键关联关系，将各分组中取出评价指标最大的主键关联关系构成第三主键关联关系合集。

S402、将所述第三主键关联关系合集中的主键关联关系确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

在本实施例中，通过上述两次从第一数据集的主键以及第二数据集的主键不同角度对主键关联关系进行筛选后，得到的第三主键关联关系合集中的主键关联关系，即为第一数据集的主键和第二数据集的主键唯一对应的主键关联关系，也即一对一的主键关联关系。

需要说明的是，本实施例中也可优先按照第二数据集的主键对第一主键关联关系合集中的各主键关联关系进行分组和排序，从各分组中取出评价指标最大的主键关联关系，构成第四主键关联关系合集；再按照第一数据集的主键对第四主键关联关系合集中的各主键关联关系进行分组和排序，从各分组中取出评价指标最大的主键关联关系，构成第五主键关联关系合集；将第五主键关联关系合集中的主键关联关系确定第一数据集和第二数据集唯一对应的主键关联关系。

在上述实施例的基础上，所述从各分组中取出评价指标最大的主键关联关系，包括：

若任一分组中评价指标最大的主键关联关系存在两个以上，则根据备选字段获取评价指标最大的主键关联关系的辅助评价指标；从评价指标最大的主键关联关系中选择辅助评价指标最大的主键关联关系，确定为最终的评价指标最大的主键关联关系。

在本实施例中，考虑到上述实施例中从各分组中取出评价指标最大的主键关联关系时，可能存在某一个分组中评价指标最大的主键关联关系存在两个以上，仅仅以评价指标无法从该分组确定选出一个主键关联关系，可以随机选取一条，但准确性不能保证，为了保证准确性，本实施例中根据备选字段来获取主键关联关系的辅助评价指标，其中备选字段可以为第一数据集和第二数据集中共有的字段中未被选择为待关联字段的其他字段，如法定代表人、电话号码等，同样的，可根据备选字段在第一数据集和第二数据集中的取值是否相等来确定备选字段的权重值，并将备选字段的权重值求和，获得辅助评价指标。

其中备选字段的权重值也可采用上述获取YzA、YzB1等的方法进行计算，例如对于备选字段C1，同样可以先基于该备选字段C1对第一数据集的主键和第二数据集的主键进行关联，得到备选字段C1对应的主键关联关系集合，并统计备选字段C1对应的主键关联关系集合中主键关联关系的条数ToC1，以此类推，可以得到其他备选字段C2、C3……对应的主键关联关系集合中主键关联关系的条数ToC2、ToC3、……，进一步的，对于每一备选字段的重要性指标值QuC1、QuC2、QuC3……可通过如下公式进行计算：以备选字段C1作为示例，QuC1＝ToC1/(ToC1+ToC2+ToC3+……)。

需要说明的是，理论上，待关联字段选择的足够多，某一个分组中评价指标最大的主键关联关系存在两个以上的可能性降低。因此可控制待关联字段的数量，从而有效的提高关联准确性。

图6为本申请实施例提供点的数据关联装置的结构图。本实施例提供的数据关联装置可以执行数据关联方法实施例提供的处理流程，如图6所示，所述数据关联装置600包括：字段确定模块601、单字段关联模块602、合并模块603、评价模块604。

字段确定模块601，用于从第一数据集和第二数据集中确定多个待关联字段；

单字段关联模块602，用于分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合；

合并模块603，用于将各待关联字段对应的主键关联关系集合进行合并，并对相同的主键关联关系进行去重，得到第一主键关联关系合集；

评价模块604，用于获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系。

在本申请的一个或多个实施例中，所述单字段关联模块602在分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合时，用于：

在本申请的一个或多个实施例中，所述评价模块604在获取所述第一主键关联关系合集中每一条主键关联关系的评价指标时，用于：

在本申请的一个或多个实施例中，所述评价模块604在根据判断结果确定每一待关联字段的权重值时，用于：

在本申请的一个或多个实施例中，所述评价模块604在将该待关联字段的权重值设置为该待关联字段的预设重要性指标值前，还用于：

在本申请的一个或多个实施例中，所述评价模块604在基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系时，用于：

在本申请的一个或多个实施例中，所述评价模块604在从各分组中取出评价指标最大的主键关联关系时，用于：

图7示出了本申请实施例提供的一种电子设备的硬件结构示意图。如图7所示，该电子设备700，用于实现上述任一方法实施例中对应于电子设备的操作，本实施例的电子设备700可以包括：存储器701，处理器702和通讯接口703。

存储器701，用于存储计算机程序。该存储器701可能包含高速随机存取存储器(Random Access Memory，RAM)，也可能还包括非易失性存储(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

处理器702，用于执行存储器存储的计算机程序，以实现上述实施例中的方法，具体可以参见前述方法实施例中的相关描述。该处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

可选的，存储器701既可以是独立的，也可以跟处理器702集成在一起。当存储器701是独立于处理器702之外的器件时，电子设备700还可以包括总线。该总线用于连接存储器701和处理器702。该总线可以是工业标准体系结构(IndustryStandard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

通讯接口703，用于传输第一数据集和/或第二数据集，以及其他指令或数据。

本实施例提供的电子设备可用于执行上述实施例中的数据关联方法，其实现方式和技术效果类似，本实施例此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的方法。

另外，本实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的方法。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请实施例各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上各实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述各实施例对本申请实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请实施例各实施例技术方案的范围。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种数据关联方法，其特征在于，包括：

从第一数据集和第二数据集中确定多个待关联字段；

2.根据权利要求1所述的方法，其特征在于，所述分别根据每一待关联字段对所述第一数据集的主键和所述第二数据集的主键进行关联，得到各待关联字段对应的主键关联关系集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述第一主键关联关系合集中每一条主键关联关系的评价指标，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据判断结果确定每一待关联字段的权重值，包括：

5.根据权利要求4所述的方法，其特征在于，所述将该待关联字段的权重值设置为该待关联字段的预设重要性指标值前，还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述基于所述每一条主键关联关系的评价指标确定所述第一数据集和所述第二数据集唯一对应的主键关联关系，包括：

7.根据权利要求6所述的方法，其特征在于，所述从各分组中取出评价指标最大的主键关联关系，包括：

8.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-7任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。