CN113297213A

CN113297213A - 一种实体对象的动态多属性匹配方法

Info

Publication number: CN113297213A
Application number: CN202110475662.4A
Authority: CN
Inventors: 杨雄军; 田群; 宁希; 吴元立; 崔子腾; 戴永恒
Original assignee: Diankeyun Beijing Technology Co ltd; Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Current assignee: Diankeyun Beijing Technology Co ltd; Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-24
Anticipated expiration: 2041-04-29
Also published as: CN113297213B

Abstract

本发明属于计算机领域，特别是一种实体对象的动态多属性匹配方法。本发明在预处理阶段即实现字段类型的标记，利用字段标记进行相似性计算函数的选择，差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。本发明使用动态熵权法进行权重调整，实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一，不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差，并保留主要的属性特征。本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间，减少不必要的匹配过程，从而大幅度提高大规模数据场景下的实体对齐过程。

Description

一种实体对象的动态多属性匹配方法

技术领域

本发明属于计算机领域，特别是一种实体对象的动态多属性匹配方法、平台和计算机可读存储介质，可应用于从大数据中进行实体对象的挖掘与提取过程,以及实现知识融合过程，实现知识图谱领域中的实体对象匹配对齐。

背景技术

传统的实体对齐需把来源不同的数据中相同实体实现一一映射，其中映射的依据主要依靠实体的多种不同的属性。实体对齐主要有两种技术路线，基于分库索引与相似度计算的传统路线，以及采用表示学习模型的图嵌入方法。

其中，采用传统的实体对齐方法关键在于分区索引技术与相似度计算函数，高效的分区索引技术是大规模知识库进行实体对齐的必要条件，而相似性计算函数则是对齐精度的保证。在属性对齐过程，不同的特征属性通常采用不同的相似性计算函数，这与自然语言处理领域相似性的判断截然不同，如物资规格的相似性计算通常需要涉及更为精确的业务规则。

采用表示学习模型的图嵌入实体对齐，在计算效率上通常具有更好的表现。知识表示学习通过将实体和关系映射到向量空间，简化了计算过程，同时相似性也可以通过损失函数等形式进行表示。但表示学习模型的实体对齐计算在大规模数据集以及高精度的实体对齐场景仍然面临巨大的挑战，如年龄、性别、喜好等具有特定领域特征的属性时，表示学习模型仍难以有效表达。

发明内容

本发明的目的在于从传统的实体对齐方法出发实现动态多属性匹配，以及在分区索引的基础上利用三角不等式关系减少实体对齐过程中的搜索空间，从相似性计算精度和分区索引效率两方面改进了现有的实体对齐方法，通过动态多属性匹配过程，使得实体对齐方法可以适应属性缺失、属性动态变化等复杂的应用场景。

为实现上述目的，本发明提供了一种实体对象的动态多属性匹配方法，包括步骤：

S1，对第一实体对象数据集进行归一化处理；

该步骤中，针对第一实体对象数据集，根据实体属性的类型进行归一化处理，所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型，所述归一化处理的规则具体是：

(1)如果实体属性的类型是枚举类型的数据，那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理；

(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据，那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值和缺失值补全处理；

(3)对实体对象数据集中的实体属性打上标记，根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S_(a,b),k，其中，S_(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度；

S2,计算第一实体对象数据集中每个实体属性的信息熵，包括：

S2.1，估计第一实体对象数据集中实体属性指标的发生概率，其中，所述实体属性指标是实体属性的取值或取值区间，若在第一实体对象数据集中，实体属性指标为离散型变量时，第j个实体属性的第i个指标的发生概率p_ij是相应取值的发生概率；若在第一实体对象数据集中，实体属性为连续型变量时，将连续性变量离散化为多个取值区间，用相应的概率密度函数计算该取值区间的发生概率，第j个实体属性的第i个指标的发生概率p_ij是相应取值区间的发生概率；

S2.2计算第一实体对象数据集每个实体属性的信息熵，第一实体对象数据集中第j个实体属性的信息熵H_j计算公式为

其中，n为第一实体对象数据集第j个实体属性的实体属性指标个数；

S3，选择第一实体对象数据集进行实体对象匹配所需的实体属性和实体属性组合；

S3.1，若某个实体属性中的每个指标能够作为键值区分各个实体，即每条记录都不重复，H_j＝1，则可使用该实体属性直接进行匹配，那么将该实体属性作为只有一个实体属性的备选实体属性组合方案加入备选实体属性方案库；

S3.2，若实体属性的相对信息熵H_j＜1,则选取多个实体属性进行组合，将实体属性组合的每条实体信息作为离散信息，即将实体属性组合的指标作为离散信息，第j个实体属性组合的第i个指标的发生概率p_组ij是相应地在第一实体对象数据集中实体属性组合取值和/或取值范围的发生概率，第一实体对象数据集中第j个实体属性组合的信息熵H_组j计算公式为

其中，n_组为第一实体对象数据集第j个实体属性组合的实体属性指标个数；

遍历第一实体对象数据集中的实体属性组合进行计算和删选，当实体属性组合中的每条记录都是唯一记录，即H_组j＝1时，将该实体属性组合作为备选实体属性组合方案加入备选实体属性方案库；

S3.3,按照实体属性数量的多少对备选实体属性方案库中备选实体属性组合方案进行排序，备选实体属性组合方案按照实体属性从少到多的顺序优先级逐渐降低；

S4，针对第一实体对象数据集每个备选实体属性组合方案，计算其中的每个属性的权重值，权重值

其中，H_k和H_j分别为备选实体属性组合方案中第k个和第j个实体属性的信息熵，m表示备选实体属性组合中实体属性的数量，当m＝1时，W_k＝1；

S5，为提高数据遍历效率，对第一实体对象数据集进行分区索引，分区索引方法依据备选实体属性组合方案进行选择，设置阈值τ，只针对备选实体组合方案中的实体属性数量最少的前τ种实体属性组合方案进行分区索引；分区索引的步骤如下：

S5.1若被索引的备选实体属性组合方案的实体属性数量等于1，直接采用Hash索引方法进行分区索引；

S5.2若被索引的备选实体属性组合方案中的实体属性数量大于1，则

(a)当被索引的备选实体属性组合方案中的实体属性全是整型或浮点型时，采用K-Mean聚类索引方法进行分区索引；

(b)当被索引的备选实体属性组合方案中的实体属性全部为字符串类型时，采用分区倒排索引方法进行分区索引；

(c)当被索引的备选实体属性组合方案中的实体属性中有枚举型、日期型或者布尔型时，采用列表分区索引法，利用实体属性自身的离散信息进行分区索引；

(d)除a、b、c列举的情况外，对备选实体数据组合方案采用Hash索引方法进行分区索引；

每个备选实体属性组合方案进行分区索引后，实体对象数据集将被分成对多个子集，每个子集的规模基本相等，记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y¹，Y²，……，Y^N，共N个；

S6，遍历第一实体对象数据集的实体属性数量大于1的备选实体属性组合方案，采用基于三角不等式加速方法分别对与备选实体属性组合方案对应的分区索引结果进行优化；每个实体属性组合方案对应的分区索引优化的步骤包括：

S6.1，对依据备选实体属性组合方案分区索引后得到的实体对象数据集子集Yⁱ，i＝1,2,…,N，采用该备选实体属性组合方案中的实体属性，计算中每个实体对象与其最相似的实体对象距离，用

表示待匹配实体对象数据集子集Yⁱ中实体对象

的最相似的实体对象为

之间的最短距离，那么

其中，

实体属性的相似性计算函数S_(a,b),k由所述步骤S1对实体属性打的标记查询得到，权重W_k由步骤S4确定；

S6.2保存第一实体对象数据集每个实体对象的距离

表示了第一实体对象数据集的子集Yⁱ中实体对象

的最相似的实体对象为

S7，遍历第二实体对象数据集X中的每个实体对象X_c，与第一实体对象数据集进行相似度匹配，若X_c匹配到第一实体对象数据集某个子集Yⁱ中实体对象

则X_c匹配成功，否则为X_c匹配失败，实体对象X_c的匹配过程如下：

S7.1,选取第二实体对象数据集X中的实体对象X_c；

S7.2,选择匹配用实体属性组合方案的步骤，在该步骤中，从所述备选实体属性方案库的前τ种备选实体属性组合方案中，先选择与实体对象X_c的实体属性类型一致且优先级最高的实体属性组合方案；然后判断，采用该实体属性组合方案，实体对象X_c的实体属性的取值是否出现无效值或者空值，如果为否，则选定该实体属性组合方案进行步骤S7.2，如是，则从备选实体属性方案库的前τ种备选实体属性组合方案中，按优先级顺序选择与实体对象X_c的实体属性类型一致的、下一级备选实体属性组合方案，再次判断X_c的实体属性的取值是否出现无效值或者空值，如是，则选定实体属性组合方案后进行步骤S7.2，如否，进行下一轮备选实体属性组合方案的选择；若从备选实体属性方案库的前τ种备选实体属性组合方案中没有选定的实体属性组合方案，停止该实体对象X_c的匹配；

S7.3，选定实体属性组合方案后，若实体属性组合中实体属性数量等于1，则直接通过该实体属性作为实体对象X_c的键值完成匹配；否则进入步骤S7.4；

S7.4，遍历与选定实体属性组合方案对应的实体对象数据集的每个子集Yⁱ，计算实体对象X_c与分区索引后的实体对象数据集子集Yⁱ中实体对象

的距离

并进行比较，距离

采用步骤S6.1中相同计算公式，如果

则将相应的

作为实体对象X_c的匹配实体对象，X_c∈X，停止匹配；否则继续遍历进行匹配；

S7.6，如果遍历后无匹配选项，选择与

最小值对应的

作为实体对象X_c的匹配实体对象。

进一步的，还包括步骤：

S8，当匹配结果出现冲突时，进行冲突消解处理；所述冲突的类型包括实体冲突与属性冲突，实体冲突是指出现多个匹配实体对象，属性冲突，表现为匹配成功的实体对象，同一实体属性出现不同取值；

S8.1，出现实体冲突时，匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列，并选取距离最小的匹配对象作为匹配结果；

S8.2，出现属性冲突时，先统计该实体属性取值的出现频率，选择出现频率最高的取值作为匹配结果，若频率相同，则从频率相同的属性值中选择一个属性值作为匹配结果。

进一步的，步骤S2.1中，实体属性为连续型变量时，利用等宽法将连续型变量离散化为宽度相等的多个取值区间，取每个取值区间的中值作为该实体属性的指标，并利用连续性变量的概率密度函数计算该取值区间内的发生概率，作为该取值区间实体属性指标的发生概率，第j个实体属性的第i个指标的发生概率p_ij是相应取值区间的发生概率。

进一步的，步骤S1中，打标记的方式是给实体属性的名称加上前缀或者后缀。

进一步的，步骤S1中，如果实体属性类型为姓名、年龄、籍贯、学校、专业或距离时，那么相应的打上“-name”、“-age”、“-native”、“-school”、“-major”、“-distance”的标记，根据这些标记通过查询下表就能找到相应的相似度计算函数，

实体属性类型	标记	相似性计算函数S<sub>(a,b),k</sub>
			姓名	-name	余弦相似度
年龄	-age	欧几里得距离
			籍贯	-native	曼哈顿距离
学校	-school	海明距离
			专业	-major	海明距离

进一步的，步骤S6.2中用Hash表保存第一实体对象数据集每个实体对象的距离

进一步的，第一实体对象数据集为两个或两个以上，第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。

本发明还提供了一种实体对象的动态多属性匹配平台，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的实体对象的动态多属性匹配方法。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述的实体对象的动态多属性匹配方法。

有益效果

本发明在预处理阶段即实现字段类型的标记，利用字段标记进行相似性计算函数的选择，差异化、针对性的相似性计算函数能够大幅提升相似性计算过程的精度。

本发明使用动态熵权法进行权重调整，实现复杂实体在属性缺失、属性增加变化的场景下的权重衡量的统一，不会因为实体属性的缺失、增加变化导致相似性计算函数出现较大范围的波动和偏差，并保留主要的属性特征。

本发明采用三角形不等式进行二级分区索引。双索引结构能够在原有的分区索引结构上优化实体匹配的搜索空间，减少不必要的匹配过程，从而大幅度提高大规模数据场景下的实体对齐过程。

附图说明

图1为本发明实体对象的动态多属性匹配方法的原理示意图。

图2为本发明对第一实体对象数据集进行归一化处理的原理示意图。

图3为本发明实体对象的动态多属性匹配方法中匹配过程的流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的说明。

图1给出了本发明实体对象的动态多属性匹配方法的原理示意图。如图1所示，本发明第一具体实施方式中的实体对象的动态多属性匹配方法，包括：

S1，对第一实体对象数据集进行归一化处理，

该步骤中，针对第一实体对象数据集，根据实体属性的类型进行归一化处理，所述实体属性的类型包括整型、浮点数型、布尔型、字符串型、日期型以及枚举型，参照图2，所述归一化处理的规则具体是：

(1)如果实体属性的类型是枚举类型的数据，那么对第一实体对象数据集中包含该实体属性的实体对象进行一致性检查和校正处理，例如实体对象的性别属性，取值记录有男、女、男性、女性，检查发现不一致后校正处理后统一为男或女；

(2)如果实体属性的类型是整型、浮点数型、布尔型、字符串型或日期型的数据，那么对第一实体对象数据集中包含该实体属性的实体对象进行剔除无效值、缺失值补全及标准化处理，例如年龄的数据为null，剔除并补充0，若年龄的数据为空，补充为0，若年龄的数据记录为汉字的十八，标准化为阿拉伯数字的18；

(3)对实体对象数据集中的实体属性打上标记，根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数S_(a,b),k，其中，S_(a,b),k表示实体对象a与实体对象b在第k个实体属性上的相似度；如图2所示，本发明第一具体实施方式中打标记的方法是在相应的属性名称后面加上全局唯一的后缀，后缀与相似性计算函数相对应，根据后缀就能查询到相应的相似性计算函数，如下表所示，

实体属性类型	后缀	相似性计算函数S<sub>(a,b),k</sub>
			姓名	-name	余弦相似度
年龄	-age	欧几里得距离
			籍贯	-native	曼哈顿距离
学校	-school	海明距离
			专业	-major	海明距离
距离	-distance	曼哈顿距离

在本发明的另一具体实施方式中，打标记方法可以采用在相应的属性名称前面加上全局唯一的前缀，前缀与相似性计算函数相对应，根据后缀查询相应的相似性计算函数，如下表所示，

实体属性名称	前缀	相似性计算函数S<sub>(a,b),k</sub>
			姓名	Name-	余弦相似度
年龄	Age-	欧几里得距离
			籍贯	Native-	曼哈顿距离
学校	School-	海明距离
			专业	Major-	海明距离
距离	Distance-	曼哈顿距离

在上述两种方式中，是以实体属性名称的英文作为标记，在本发明的其他实施方式中，还可以用相似性计算函数的英文名称作为前缀或后缀作为标记，只要是对实体属性打上标记，根据该标记查询就能找到该实体属性对应的预先设定的相似度计算函数的打标记方式均可用于本发明。

本发明第一具体实施方式中，取值区间的划分可以利用等宽法，将连续型变量离散化为宽度相等的多个取值区间，取每个取值区间的中值作为该实体属性的指标，并利用函数的概率密度函数计算该取值区间内的发生概率。

本发明其他具体实施方式中，取值区间的划分也可以是任意的宽度，只要能够离散化并利用连续性变量的概率密度函数计算该取值区间内的发生概率即可。

每个备选实体属性组合方案进行分区索引后，实体对象数据集将被分成对多个子集，每个子集的规模基本相等，记采用某个备案属性组合方案时实体对象数据集Y分区索引后的子集为Y¹，Y²，……，Y^N，共N个；进行S5分区后，每个子分区的规模仍然较大，这会影响相似度计算的精度和效率；可以通过三角不等式加速进行索引优化。如图3所示，

表示待匹配实体对象数据集子集Yⁱ中实体对象

的最相似的实体对象为

之间的最短距离，那么

其中，

S6.2保存第一实体对象数据集每个实体对象的距离

表示了第一实体对象数据集的子集Yⁱ中实体对象

的最相似的实体对象为

本发明第一具体实施方式采用Hash表保存第一实体对象数据集每个实体对象的距离

在本发明的其他具体实施方式中，还可以在实体对象增加一个最短距离属性保存，无论那种保存方式，只要能被后续匹配时调用即可。

S7，遍历第二实体对象数据集X中的每个实体对象X_c，与第一实体对象数据集进行匹配，若X_c匹配到第一实体对象数据集某个子集Yⁱ中实体对象

S7.1,选取第二实体对象数据集X中的实体对象X_c；

的距离

并进行比较，距离

采用步骤S6.1中相同计算公式，如果

则将相应的

S7.6，如果遍历后无匹配选项，选择与

最小值对应的

作为实体对象X_c的匹配实体对象。

本发明第二具体实施方式针对第一实体对象数据集为多个或者第一实体对象数据集中同一实体对象的有多条重复记录，在执行步骤S1-S7之后出现冲突的情况，冲突类型可以分为两种类型，实体冲突与属性冲突，实体冲突是指出现多个匹配实体对象，属性冲突，表现为匹配成功的实体对象，同一实体属性出现不同取值。在第二具体实施方式中，本发明的实体对象的动态多属性匹配方法，还包括冲突消解的步骤：

S8，当匹配结果出现冲突时，进行冲突消解处理；；

S8.1，出现实体冲突时，匹配成功的多个实体对象按照匹配过程中得到的距离进行降序排列，并选取距离最小的匹配对象作为匹配结果，即每次匹配成功后都得到一个实体对象X_c与匹配实体对象

之间的距离

用距离

的大小来衡量相似性，距离最小的最相似；

本发明第三实施方式涉及一种实体对象的动态多属性匹配平台，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实体对象的动态多属性匹配方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第四实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为发明的优选实施例而已，并不用以限制本发明，凡在本发明的思想原则内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实体对象的动态多属性匹配方法，其特征在于包括步骤：

S1，对第一实体对象数据集进行归一化处理；

表示待匹配实体对象数据集子集Yⁱ中实体对象

的最相似的实体对象为

之间的最短距离，那么

其中，

S6.2保存第一实体对象数据集每个实体对象的距离

表示了第一实体对象数据集的子集Yⁱ中实体对象

的最相似的实体对象为

S7.1,选取第二实体对象数据集X中的实体对象X_c；

的距离

并进行比较，距离

采用步骤S6.1中相同计算公式，如果

则将相应的

S7.6，如果遍历后无匹配选项，选择与

最小值对应的

作为实体对象X_c的匹配实体对象。

2.如权利要求1所述的实体对象的动态多属性匹配方法，其特征在于还包括步骤：

3.如权利要求1所述的实体对象的动态多属性匹配方法，其特征在于步骤S2.1中，实体属性为连续型变量时，利用等宽法将连续型变量离散化为宽度相等的多个取值区间，取每个取值区间的中值作为该实体属性的指标，并利用连续性变量的概率密度函数计算该取值区间内的发生概率，作为该取值区间实体属性指标的发生概率，第j个实体属性的第i个指标的发生概率p_ij是相应取值区间的发生概率。

4.如权利要求1所述的实体对象的动态多属性匹配方法，其特征在于步骤S1中，打标记的方式是给实体属性的名称加上前缀或者后缀。

5.如权利要求4所述的实体对象的动态多属性匹配方法，其特征在于，步骤S1中，如果实体属性类型为姓名、年龄、籍贯、学校、专业或距离时，前缀或后缀分别加上“name”、“age”、“native”、“school”、“major”、“distance”的标记，根据这些标记通过查询下表就能找到相应的相似度计算函数，

6.如权利要求1所述的实体对象的动态多属性匹配方法，其特征在于步骤S6.2中用Hash表保存第一实体对象数据集每个实体对象的距离

7.如权利要求1所述的实体对象的动态多属性匹配方法，其特征在于第一实体对象数据集为两个或两个以上，第二实体对象数据集与两个或两个以上第一实体对象数据集进行匹配。

8.一种实体对象的动态多属性匹配平台，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的实体对象的动态多属性匹配方法。