CN112131404B

CN112131404B - 一种四险一金领域知识图谱中实体对齐方法

Info

Publication number: CN112131404B
Application number: CN202010990634.1A
Authority: CN
Inventors: 黄少滨; 何荣博; 申林山; 李熔盛
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-09-19
Filing date: 2020-09-19
Publication date: 2022-09-27
Anticipated expiration: 2040-09-19
Also published as: CN112131404A

Abstract

本发明属于知识图谱技术领域，具体涉及一种四险一金领域知识图谱中实体对齐方法。本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略，通过增加嵌入层优化不同属性和关系条件下的TransE损失函数，将LSTM网络和Bert对属性值的嵌入结果进行融合，在属性值的嵌入中考虑了属性值的语义信息，并将结构嵌入和属性嵌入联合训练，最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合，将实体嵌入距离与LCS相似度进行组合，并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

Description

一种四险一金领域知识图谱中实体对齐方法

技术领域

本发明属于知识图谱技术领域，具体涉及一种四险一金领域知识图谱中实体对齐方法。

背景技术

自Google在2012年提出知识图谱的概念开始，知识图谱发展迅速，出现了一批以DBpedia，Freebase，Wikidata，YAGO等为代表的大型知识图谱；但知识图谱的数据来源广泛、数据质量参差不齐，导致不同的知识图谱存在着多样性和异构性，不同知识图谱中存在着多个指向同一真实世界对象的不同实体，因此知识融合成为知识图谱研究中的一个重要环节。实体对齐作为知识融合中的关键技术，又被称为实体匹配，是推断来自不同知识图谱中不同实体是否映射到现实世界中同一个对象的技术。

实体对齐主要包含数据预处理、分块、记录链接、结果评估、结果输出几个步骤。早期的实体对齐方法主要通过属性的字符相似度计算实体的属性相似度，并通过机器学习方法判断实体是否相似；属性相似度的计算方法主要包括编辑距离(LevenshteinDistance)、Wagnerand Fisher、Jaccard系数、TF-IDF等。基于字符相似度的实体对齐方法将实体对齐看作二分类问题，即根据属性三元组信息选择一对实体并根据属性相似性判断实体之间是否对齐。

成对实体匹配方法通过实体属性相似性生成属性相似度向量，并通过机器学习方法进行判断；因此实体对齐任务需要标记对齐的实体作为分类器的训练集，实体对齐的性能依赖于对齐种子的数量。为了提高模型在少量对齐种子时的对齐效果，Ursin等人[1]在2019年提出了一种用于非结构化数据匹配的主动学习方法，该方法首先通过SoftTF-IDF算法计算属性之间的相似度，结合非确定性抽样的主动学习(ALWUS)，在每个弱分类器上使用独立的训练集进行训练，并将未标记的数据输入到分类器上计算bootstrap方差，根据bootstrap方差每次选出不确定强的少量样本进行标记。在Abt-Buy数据集上的测试结果表明，该方法在支持向量机(SVM)学习器上获得了81.65％的F-值，与传统的方法相比需要的标签数量低1-2个数量级。不过该方法仅利用了属性三元组中的信息，不能对实体间的关系进行捕获，同时需要根据每个批量的预测结果增量的标记数据，操作较为复杂。

近年来知识图谱的向量表示取得了很多进展，知识表示学习的代表模型包括张量模型、翻译模型和神经网络模型。知识表示学习可以捕获实体在知识图谱中的语义信息，将实体和关系映射为稠密向量。在基于翻译的知识表示模型中，Bordes等人[2]在2013年提出了TransE模型，该模型关注关系三元组中实体与实体之间的关系，将尾实体向量t看作是头实体向量h加关系向量r的翻译，并将评分函数定义为||h+r-t||。TransE模型在减小黄金三元组得分的同时增大无效三元组的得分，通过对黄金三元组的头尾实体随机替换的方式生成无效的三元组用于负采样的训练，并使用梯度下降算法进行训练，TransE在FB15k数据集上的链接预测实验中获得了43％的hits@10准确率。TransE模型虽然能够捕获三元组之间的语义关系，但是它不能很好的处理实体之间存在1-N，N-1，N-N等复杂关系，因此Wang等人[3]在2014年提出了TransH模型使每一个实体在不同的关系下拥有不同的表示，该模型为每一个关系引入了一个投影超平面，将头实体h与尾实体t在超平面上的投影与关系向量进行评估，并使用基于距离的函数进行打分，TransH模型在FB15k数据集的链接预测任务中，获得了66.8％的hits@10准确率，TransH模型解决了实体嵌入中一对多关系的问题。类似的，Lin等人[4]在2015年提出了TransR模型，TransR模型假设实体和关系存在于不同的向量空间中，将实体向量映射到对应的关系空间中，再对映射后的向量进行对齐；由于知识图谱中的关系广泛存在多义性，进一步提出了CTransR模型，该模型先通过训练TransE嵌入，从TransE嵌入的头尾实体之差中获取关系的表示向量，再对关系进行聚类，能够很好的解决关系的多义性问题，TransR、CTransR模型在FB15K的链接预测任务中分别达到了76.9％和81.5％的hits@10准确率。不过，TransR/CTransR模型都没有考虑实体的类型信息、并且TransR模型由于引入了映射矩阵存在参数计算复杂的问题。Ji等人[5]在2016年提出TransD模型使用动态映射矩阵可以将不同类型的实体进行区别，TransD与TransH的区别在于，TransH中的投影向量仅由关系确定，而TransD中的投影向量由实体和关系确定，对于TransR/CTransR模型，TransR/CTransR模型直接为每个关系定义了一个映射矩阵，TransD通过为每个实体和关系设置投影向量为每个三元组设置两个映射矩阵，同时由于TransD模型只涉及向量相乘，具有更小的计算复杂度。

在单知识图谱上的嵌入方法在链接预测和知识图谱补全等方面取得了很好的效果，但是这些方法只能在一个知识图谱中进行单独的训练，无法捕获多个知识图谱之间的关联关系，因此不能直接用于实体对齐任务。受到知识表示学习的启发，研究人员提出了一系列基于知识嵌入的实体对齐方法，Hao等人[6]在2016年首先提出了一种联合嵌入知识库的方法JE，该方法同时考虑了实体嵌入损失和对齐向量的损失，实体嵌入的损失采用TransE的损失函数，对齐向量的损失分别采用对齐实体的距离作为对齐的损失函数||e_i-e′_i||以及通过转换矩阵M进行投影，损失函数为||M_de_i-e′_i||₂，并约束所有嵌入向量的长度为1，基准方法采用预训练TransE向量，并根据TransE嵌入训练转换矩阵，基准方法的hits@1准确率达到了23.96％,，JE模型达到了29.73％的准确率，通过投影矩阵对齐的JEWP方法达到了29.88％。JE模型比较简单，Chen等人[7]在2017年提出了一种用于跨语言整合的知识嵌入模型MTransE，与JE模型相比，MTransE提出了多种知识图谱对准模型：基于距离的轴校准模型和翻译向量模型，基于距离的轴校准模型将损失函数定义为链接实体的对应头实体距离和对应尾实体距离之和，翻译向量模型分别通过翻译矢量和投影转换的方法链接两个知识图谱中的实体，并计算对应头实体距离与尾实体距离之和，最后将对齐损失和嵌入损失同时优化，实现了更好的性能；但是MTransE没有使用负采样三元组进行训练，因此可能导致非等价关系的实体彼此靠近。

然而知识图谱中不仅包含关系三元组，还包含属性三元组；MTransE系列的方法仅利用关系三元组进行对齐的效果有限，同时利用关系三元组和属性三元组对齐是目前的研究热点。Sun等人[8]在2017年提出了一种融合了属性信息的JAPE模型，JAPE模型在处理跨语言实体对齐的任务中不依赖机器翻译，JAPE模型由结构嵌入SE和属性嵌入AE两部分组成，结构嵌入SE专注于对两个知识图谱的关系结构进行建模，属性嵌入AE捕获属性的相关性。JAPE考虑属性的类型而不是具体值，将属性三元组中的信息抽象为数字、浮点数、日期、字符串四种类型。AE借鉴了skip-gram算法，skip-gram通过给定的词语预测下文，而AE通过给定的属性类型预测相关的属性类型，从而为属性值产生向量表示，最后共同优化结构嵌入和属性嵌入的损失。JAPE在处理跨语言实体对齐的研究中提出了一种新的思路，但是在处理同语言多知识图谱对齐的研究中，属性类型的信息有限。Bayu等人[9]在2019年提出了一种使用属性三元组的建模方法AttrE，与JAPE不同的是AttrE不使用属性类型的信息而是直接将属性三元组中的属性值进行编码，AttrE的损失函数由三部分组成：使用TransE损失函数计算的结构嵌入损失J_SE，对齐实体的余弦距离作为对齐的损失函数J_sim，属性三元组的嵌入损失J_AE，并提出了三种计算属性对齐的方法，分别通过求和、LSTM组合函数和n-gram组合函数的方式根据字符的嵌入生成属性的嵌入，并进行联合学习；同时该论文还提出了一种通过传递规则丰富三元组的方法，进一步丰富知识图谱中的链接数量，与基准模型相比，hits@1准确率提高了50％。

在多语言知识图谱对齐任务中，由于实体的属性信息不能直接用于计算实体相似度，因此多语言实体对齐依赖机器翻译技术。Cai等人[10]在2017年提出了一种引入实体描述信息用于跨语言实体对齐的模型cross-KG，该模型优化嵌入条件下三元组的条件概率，同时约束源KG和目标KG的对应实体的条件概率。cross-KG模型通过Jaro-Winker距离计算对应实体的相似性，对于不同语言的实体，通过Google翻译api将目标知识图谱的语言进行翻译，同时还使用知识图谱结构信息来定义入站相似性和出站相似性，由于大多数知识图谱相对稀疏，因此该模型选择其中较大的作为连接相似性计算实体的相似度。cross-KG在稀疏的知识图谱上可以实现更好的嵌入，但未将属性信息用于知识图谱嵌入优化，同时在处理多语言知识图谱对齐中受翻译质量的影响。2018年Chen等人[11]认为不同语言的实体图谱的质量存在差异，提出了一种基于单词翻译的方法改进多语言实体对齐的模型KDCoE。KDCoE采用TransE方法训练每种语言实体的嵌入，并在跨语言平行语料库上预训练多语言的单词嵌入，并将实体的描述信息通过GRU神经单元进行编码，用于跨语言实体对齐的协同训练。KDCoE模型借助机器翻译技术在多语言实体对齐任务上取得了一定的改进，但该模型不适用于处理单语言多知识图谱对齐问题。

此外，也有一些学者尝试利用实体的属性信息生成对齐种子。He等人[12]在2019年提出了一种交互式无监督实体对齐方法，交互式算法首先通过计算不同实体在相同属性下的属性值相似程度发现对齐实体，再根据对齐实体对的属性值发现等价的属性，迭代此过程生成高质量的实体对用于结构嵌入的训练，最后将实体的属性相似度与结构嵌入相似度进行加权发现更多的对齐实体。该方法有效的解决了基于知识嵌入表示的方法需要对齐种子用于训练的问题，并同时考虑了知识嵌入的语义相似度和字符相似度，但是该模型在迭代初期仅有少量的相同属性，如何利用少量的相同属性寻找对齐实体还存在一定的困难。Guan等人[13]在2019年也提出了一种无监督的自学习的知识图谱对齐方法SEEA，与其他模型不同的是，SEEA中仅定义了等价关系，不包含其他类型的关系。SEEA在属性三元组上直接嵌入，通过相同的属性和属性值建立跨知识图谱的链接，并根据属性三元组的嵌入结果筛选出候选实体对。特别的，SEEA考虑了实体对齐的双向关系，仅在KG1中实体e1在KG2中最近邻实体为e2,且e2在KG1中最近邻实体为e1时判断实体等价，并将对齐的实体用于迭代训练；在初次迭代时，关系三元组集合为空，随着迭代的进行，模型依次优化属性嵌入和关系嵌入。SEEA模型提出的双向匹配和一对一匹配策略是一种更加严格的约束，同时该方法不需要提供对齐种子，但是SEEA模型要求多个知识图谱中存在相同的属性和属性值，因此在使用中具有一定的局限性。

Huang等人[14]认为基于TransE的对齐算法忽略了实体对齐过程中实体属性语义聚合的重要性，在2020年提出了语义聚合的实体对齐算法，对于一个实体h1，计算所有以h1为头实体的三元组中关系与尾实体之和计算语义聚合向量，并约束实体h1的向量与语义聚合向量靠近；该算法还注意到不同的属性在语义聚合中的权重存在差异，引入了权重矩阵用于学习不同属性的权重。与AttrE相比，该算法在Hits@1、Hits@10指标上具有更好的性能，但该方法参数复杂，也不适用处理链接预测问题。

目前也有一些研究通过迭代对齐和参数共享的方法改进少量对齐种子时的对齐效果。Zhu等人[15]在2017年提出基于迭代实体对齐的IPTransE方法，IPTransE认为基于TransE的编码方法在知识图谱中忽略了路径信息，因此考虑了关系路径嵌入以提高嵌入性能，并考虑了基于翻译的对齐模型、线性变换模型和参数共享模型，其中参数共享模型可以用于迭代训练，通过对已知实体种子和训练中发现的等价实体分别采用硬对齐、软对齐的策略解决迭代中的错误传播问题。Sun等人[16]在2018年也提出了基于迭代的方法BootEA，作者认为TransE的损失函数不能保证正三元组的得分降低，因此提出了一个新的目标函数，并结合参数交换测策略将两个知识图谱嵌入到同一空间中，为了解决对齐种子不足的问题，BootEA模型提出迭代学习的策略，从嵌入空间中寻找对齐实体并指导下一轮的训练，该模型遵循一对一约束的目标，以增量的方式加入新对齐的实体，如果对齐过程中产生冲突，则选择似然度更高的实体保留，与MTransE和JAPE方法相比hits@1准确率提高了10％以上。但是迭代算法普遍存在错误传播的问题，IPTransE通过软对齐策略改善此问题，而BootEA通过让已经发现的匹配实体对可编辑缓解了错误传播。

由于实体对齐问题的复杂性，单一的模型嵌入能力往往不足以对齐两个网络，因此从多种视角来处理实体对齐效果会更好。Zhang等人[17]认为现有的方法没有将属性和关系同等对待，而是利用属性嵌入完善基于关系的嵌入，在2019年提出了一种多视图的实体对齐方法MultiKE，该方法将知识图谱表示为由实体、关系、属性、文字、名称视图、关系视图、以及属性视图构成的七元组，MultiKE使用词级别的嵌入生成实体的名称视图嵌入，使用TransE方法生成关系视图嵌入，使用卷积神经网络生成属性视图嵌入，并通过实体和属性的交换对齐进行跨知识图谱的对齐，最后通过视图加权平均、共享空间学习、多视图联合训练对多个实体的嵌入进行组合，该方法表明实体名称嵌入对于捕获实体相似性有很大的潜力。Matthias[18]等人则提出将知识图谱的实体和描述的文本进行对齐，首先将文本和知识图谱都通过表示学习映射到向量空间，学习到文本和实体的向量表示，在学习过程中加入正则约束使表示同一实体的实体向量和描述文本在向量空间中尽可能接近，知识图谱和文本的表示学习模型交替进行训练，从而在不影响文本和知识图谱各自的表示学习的效果的情况下实现对齐，该方法依赖描述实体的文本信息，通用性较差。Fan等人[19]在2017年提出了DKRL模型建模三元组，该模型不仅考虑基于关系表示的能量函数，还考虑基于描述信息的能量函数，提出两种对实体的描述信息进行编码的方法：连续词袋模型将描述信息的前k个关键词进行累加，但是这种方法忽略了词序信息，因此又提出一种通过卷积神经网络进行编码的方法。

在大规模实体匹配的任务中，由于知识图谱数据的不均衡性，自动化的实体对齐方法的实体对齐质量有限，因此Zhuang等人[20]在2017年提出借助众包平台提升对齐的效果，首先对知识图谱进行分区并进行粗略的实体对齐，然后分别将已对齐实体对和未对齐实体对放入众包平台，最后建立实体之间的偏序关系排除潜在的错误，优化了借助众包对齐实体的效果，但该方法仍然需要大量的人工操作。

最近，还有一些研究致力于通过图神经网络节点特征和图特征来学习节点的表示向量，Wang等人[21]提出的GCN-Align模型使用GCN将来自不同语言的实体嵌入到同一的向量空间中，并约束对齐的实体尽可能的接近；Cao等人[22]在2019年提出的MuGNN模型关注结构异构性和有限的对齐种子，通过补全缺失的关系来调和结构差异，并提出KG self-attention和cross-KG attention，将两个知识图谱嵌入到统一的向量空间，与基于翻译模型的方法相比图卷积的实体对齐方法具有更多的运算量。

发明内容

本发明的目的在于提供一种四险一金领域知识图谱中实体对齐方法。

本发明的目的通过如下技术方案来实现：包括以下步骤：

步骤1：输入源知识图谱S的关系三元组集合S₁和属性三元组集合S₂，输入目标知识图谱T的关系三元组集合T₁和属性三元组集合T₂；

步骤2：标记源知识图谱S和目标知识图谱T间具有等价关系的实体，构建等价实体集合S_γ；所述的等价实体为：若源知识图谱S与目标知识图谱T中含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体，则将这一对实体视为等价实体；

步骤3：设定属性相似度阈值θ，运行属性筛选算法对源知识图谱S的属性三元组集合S₂和目标知识图谱T的属性三元组集合T₂进行筛选，得到筛选后的源知识图谱属性三元组集合S_set和目标知识图谱属性三元组集合T_set；

步骤4：为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据，得到源知识图谱S的负采样关系三元组集合S′₁、源知识图谱S的负采样属性三元组集合S′₂、目标知识图谱T的负采样关系三元组集合T₁′、目标知识图谱T的负采样属性三元组集合T′₂；

步骤5：利用TransE模型、LSTM网络、预训练BERT模型训练知识图谱实体的嵌入表示，生成实体嵌入向量；

步骤5.1：字嵌入向量训练；

将原始语料进行分句处理，并将每个句子分成字符序列；通过Word2Vec模型和Skip-Gram算法在四险一金领域语料上训练字符级的Word2Vec嵌入，为每一个字符训练长度为N1维度的向量表示；

步骤5.2：属性值编码生成；

对于属性三元组中的属性值，选取前N2个字符并保留，对于长度不足N2的属性值，使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示，获得属性值的嵌入矩阵，属性嵌入向量形状为N2*N1；

步骤5.3：知识图谱结构嵌入；

结构嵌入在待对齐的两个知识图谱的关系三元组上分别进行训练，结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化，并通过TransE模型和动态margin调节策略进行训练，模型的目标函数为：

f(s_r)＝||h_r+r_r-t_r||

S_r'＝{〈h_r',r_r,t_r>|h_r'∈G_r}∪{<h_r,r_r,t_r'>|t_r'∈G_r}

其中[x]₊表示max(0,x)，γ为边距超参数，S_r为知识图谱中存在的正例三元组，S_r'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组，G_r为S_r中的实体构成的集合，当输入为源知识图谱S的关系三元组时，S_r＝S₁，S_r'＝S′₁；当输入为目标知识图谱T的关系三元组时，S_r＝T₁，S_r'＝T₁′。γ_r为根据负三元组中关系动态学习的margin参数，随着模型的训练，γ_r将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系，从而更好的捕获知识图谱的结构信息；

步骤5.4基于LSTM编码器的知识图谱属性嵌入：

属性嵌入部分由Embedding层和编码器两部分组成；属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中，并将最后一个时刻的隐状态作为属性值的嵌入表示；

步骤5.5：基于预训练BERT模型的知识图谱属性嵌入：

将属性值字符序列依次输入到预训练的BERT模型中，并将‘[CLS]’位置对应的输入作为属性值的嵌入表示，BERT模型作为实体对齐算法的特征提取层；将LSTM的隐状态和BERT嵌入向量进行加和平均，获得实体属性的嵌入表示；目标函数如下：

f(s_a)＝||h_a+r_a-Mf_encoder(t_a)||

S_a'＝{<h_a,r_a,t_a'>|t_a'∈G_a}

其中[x]₊表示max(0,x)，γ为边距超参数，S_a为知识图谱中存在的正例属性三元组，S_a'为通过对三元组的属性值进行随机替换生成用于训练的负三元组，G_a为S_a中的属性值构成的集合，当输入为源知识图谱S的属性三元组时，S_a＝S₂，S_a'＝S₂'；当输入为目标知识图谱T的属性三元组时，S_r＝T₂，S_r'＝T₂'。γ_a为根据负三元组中属性动态学习的margin参数；f_encoder为LSTM隐状态输出和BERT输出向量经加和平均后的向量，M为维度转换矩阵；

步骤5.6：等价关系学习：

通过等价的实体建立跨知识图谱的链接，从而使其他具有相近语义信息的实体在空间中具有相近的向量表示；给定一对具有等价关系的实体

等价实体

和

具有一种特殊的关系sameas，即(

sameas，

)，

和

在两个知识图谱的嵌入的空间中产生相似的向量表示，约束具有等价关系的实体在空间中产生相近的嵌入向量，对齐实体的损失定义为：

模型的联合学习目标是J_SE、J_AE、J_SIM三种损失函数的加权组合，总体目标函数为：

J＝J_SIM+[w]₊J_SE+[1-w]₊J_AE

其中，w为结构嵌入和属性嵌入的权重参数，通过模型的输入进行训练；

步骤6：获取源知识图谱S的候选实体集合；

对于源知识图谱S中的一个实体对应的属性三元组

计算目标知识图谱T中每一个实体对应的属性三元组

与源知识图谱S中该实体对应的属性三元组

的空间距离distance及LCS相似度，对空间距离distance及LCS相似度进行加权组合，得到加权相似度；选择对应加权相似度最小的目标知识图谱T中的属性三元组加入到候选实体集合中；

和

的LCS相似度为：

步骤7：查询目标知识图谱T中是否存在与候选实体同名的实体；若不存在与候选实体同名的实体，则输出候选实体作为对齐实体；若存在与候选实体同名的实体，则获取候选实体及与候选实体具有相同名称的其他实体的描述信息，通过TF-IDF方法对实体的描述信息进行嵌入，生成描述信息表示向量；再将源实体的描述信息进行嵌入，将嵌入向量最为接近的实体作为最终的候选实体输出。

本发明还可以包括：

所述的步骤3中获取筛选后的源知识图谱属性三元组集合S_set和目标知识图谱属性三元组集合T_set的方法具体为：

步骤3.1：初始化源三元组相似度集合

和目标三元组相似度集合

初始化筛选后的源三元组集合

和筛选后的目标三元组集合

步骤3.2：从源知识图谱S的属性三元组集合S₂中随机抽取一组属性三元组

从目标知识图谱T的属性三元组集合T₂中随机抽取一组属性三元组

计算

其中，在三元组(h,r,t)中，h表示头实体，r表示属性，t为属性值；

步骤3.3：若d＞θ，则执行步骤3.4；否则，返回步骤3.2，选择下一对属性三元组；

步骤3.4：若

不在集合S_{sim_set}中，则将

设为d，

设为

否则，判断

是否小于d；若

则将

设为d，将

设为

步骤3.5：若

不在集合T_{sim_set}中，则将

设为d，

设为

否则，判断

是否小于d；若

则将

设为d，将

设为

步骤3.6：判断是否完成源知识图谱S和目标知识图谱T中所有属性三元组的遍历；若未完成，则返回步骤3.2，选择下一对属性三元组；否则，迭代结束，输出筛选后的源知识图谱属性三元组集合S_set和目标知识图谱属性三元组集合T_set。

所述的步骤4中为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据的方法具体为：

对于源知识图谱S的关系三元组集合S₁，遍历集合S₁中的每一个三元组

初始化负采样关系三元组集合

随机替换尾实体生成一个负三元组

若

不在S中，且S中存在以

为关系和尾实体的三元组，则将

加入到S′₁中；若不满足，则随机替换三元组中的头尾实体加入到S′₁中；

对于目标知识图谱T的关系三元组集合T₁，遍历集合T₁中的每一个三元组

初始化负采样关系三元组集合

随机替换尾实体生成一个负三元组

若

不在T中，且T中存在以

为关系和尾实体的三元组，则将

加入到T₁′中；若不满足，则随机替换三元组中的头尾实体加入到T₁′中；

对于源知识图谱S的属性三元组集合S₂，遍历集合S₂中的每一个三元组

初始化负采样属性三元组集合

随机替换三元组中的属性值加入到S′₂中；

对于目标知识图谱T的属性三元组集合T₂，遍历集合T₂中的每一个三元组

初始化负采样属性三元组集合

随机替换三元组中的属性值加入到T′₂中；

对于等价实体集合S_γ，遍历等价实体集合S_γ中每一对等价实体

初始化负采样等价实体集合

将每一对等价实体

中

随机替换为目标知识图谱T中的一个实体并加入到中S′_γ。

本发明的有益效果在于：

本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略，通过增加嵌入层优化不同属性和关系条件下的TransE损失函数，将LSTM网络和Bert对属性值的嵌入结果进行融合，在属性值的嵌入中考虑了属性值的语义信息，并将结构嵌入和属性嵌入联合训练，最终获得知识图谱的联合嵌入表示。本发明将实体嵌入的语义信息与字符信息进行组合，将实体嵌入距离与LCS相似度进行组合，并在考虑两种相似度的条件下选择候选实体对。本发明可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

附图说明

图1为本发明的整体流程图。

图2为属性三元组嵌入结构示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

本发明涉及一种四险一金领域中知识图谱的实体对齐方法，属于知识图谱技术领域。本发明的可以有效的解决由于中文知识图谱中链接数量不足、实体在不同知识图谱中名称不一致导致对齐困难的问题。

1.一种四险一金领域知识图谱中实体对齐方法，其特征在于，包括以下步骤：

步骤3.1：初始化源三元组相似度集合

和目标三元组相似度集合

初始化筛选后的源三元组集合

和筛选后的目标三元组集合

计算

步骤3.4：若

不在集合S_{sim_set}中，则将

设为d，

设为

否则，判断

是否小于d；若

则将

设为d，将

设为

步骤3.5：若

不在集合T_{sim_set}中，则将

设为d，

设为

否则，判断

是否小于d；若

则将

设为d，将

设为

步骤3.6：判断是否完成源知识图谱S和目标知识图谱T中所有属性三元组的遍历；若未完成，则返回步骤3.2，选择下一对属性三元组；否则，迭代结束，输出筛选后的源知识图谱属性三元组集合S_set和目标知识图谱属性三元组集合T_set；

初始化负采样关系三元组集合

随机替换尾实体生成一个负三元组

若

不在S中，且S中存在以

为关系和尾实体的三元组，则将

初始化负采样关系三元组集合

随机替换尾实体生成一个负三元组

若

不在T中，且T中存在以

为关系和尾实体的三元组，则将

初始化负采样属性三元组集合

随机替换三元组中的属性值加入到S′₂中；

初始化负采样属性三元组集合

随机替换三元组中的属性值加入到T′₂中；

初始化负采样等价实体集合

将每一对等价实体

中

随机替换为目标知识图谱T中的一个实体并加入到中S′_γ；

步骤5.1：字嵌入向量训练；

步骤5.2：属性值编码生成；

步骤5.3：知识图谱结构嵌入；

f(s_r)＝||h_r+r_r-t_r||

S_r'＝{〈h_r',r_r,t_r>|h_r'∈G_r}∪{<h_r,r_r,t_r'>|t_r'∈G_r}

步骤5.4基于LSTM编码器的知识图谱属性嵌入：

步骤5.5：基于预训练BERT模型的知识图谱属性嵌入：

f(s_a)＝||h_a+r_a-Mf_encoder(t_a)||

S_a'＝{<h_a,r_a,t_a'>|t_a'∈G_a}

步骤5.6：等价关系学习：

等价实体

和

具有一种特殊的关系sameas，即

和

J＝J_SIM+[w]₊J_SE+[1-w]₊J_AE

步骤6：获取源知识图谱S的候选实体集合；

对于源知识图谱S中的一个实体对应的属性三元组

计算目标知识图谱T中每一个实体对应的属性三元组

与源知识图谱S中该实体对应的属性三元组

和

的LCS相似度为：

实施例1：

本发明提供了一种适用于四险一金领域的知识图谱实体对齐方法，该方法可以有效的解决由于实体名称不一致导致现有方法无法从全称和简称中捕获等价信息的问题。本发明包括(1)构建用于对齐的知识图谱(2)将原始数据分为关系三元组和属性三元组(3)根据实体名称自动标记等价实体用于训练(4)设定属性阈值对属性三元组进行筛选(5)训练知识图谱联合嵌入表示(6)计算实体的LCS相似度(7)选择候选实体对，并对需要消歧的实体对进行消歧；具体包括以下步骤：

步骤1：输入待对齐的知识图谱S和T的关系三元组和属性三元组，将数据转换为n-triple格式；

步骤2：根据名称自动标记部分实体作为训练集；人工标记其余的等价实体，用于模型的验证和测试；

步骤3：设定属性相似度阈值θ，运行属性筛选算法对属性三元组进行筛选；

步骤3.1：源三元组相似度集合S_{sim_set}＝{}，目标三元组相似度集合T_{sim_set}＝{}；

步骤3.2：遍历attr_triples_1、attr_triples_2中的每一对属性三元组(h₁,r₁,t₁)和(h₂,r₂,t₂)；

步骤3.3：计算sim＝edit_distance(t₁,t₂)，若sim大于阈值θ，且相似度集合中不存在相似度更高的key＝h₁+r₁的三元组，则将S_{sim_set}[key]更新为sim，并保留该属性三元组(h₁,r₁,t₁)，若在迭代中发现相似度更高的三元组，则进行替换；

步骤3.4：将相似度最高的属性三元组保存到文件；

步骤4：输入两个知识图谱的关系三元组、筛选后的属性三元组及等价关系集合；

步骤5：为关系三元组、属性三元组、等价实体集合生成负采样数据；

步骤6：利用TransE模型、LSTM网络、预训练Bert模型训练知识图谱实体的嵌入表示，生成实体嵌入向量；

步骤6.1：字嵌入向量训练：

将原始语料进行分句处理，并将每个句子分成字符序列；通过Word2Vec模型和Skip-Gram算法在四险一金期刊论文和政策法规语料上训练字符级的Word2Vec嵌入，为每一个字符训练长度为64维度的向量表示；

步骤6.2：属性值编码生成：

对于属性三元组中的属性值，选取前20个字符保留，对于长度不足20的属性值，使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示，获得属性值的嵌入矩阵；

步骤6.3：知识图谱结构嵌入：

结构嵌入在待对齐两个知识图谱的关系三元组上分别进行训练，结构嵌入中实体的嵌入向量和关系的嵌入向量由Embedding层产生并随机初始化，通过TransE模型和动态margin调节策略进行训练，模型的目标函数为：

f(s_r)＝||h+r-t||

S_r'＝{<h',r,t>|h'∈G}∪{<h,r,t'>|t'∈G}

其中[x]₊表示max(0,x)，γ为边距超参数，S_r为知识图谱中存在的正例三元组，S_r'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组。γ为基准边距超参数，γ_r即为根据负三元组中关系动态学习的参数，随着模型的训练，γ_r将在不同的关系下学习到不同的结果使嵌入模型能够关注不同的关系，从而更好的捕获知识图谱的结构信息。

步骤6.4：基于LSTM编码器的知识图谱属性嵌入：

构建784个神经元的LSTM网络，将word2Vec嵌入后的属性值依次输入到LSTM网络中，并将最后一个时刻的隐状态作为属性值的嵌入表示。

步骤6.5：基于预训练Bert向量的知识图谱属性嵌入：

将属性值输入到预训练Bert模型提取属性值特征，产生784维的属性值的嵌入向量；

步骤6.6：属性嵌入向量融合：

将LSTM的隐状态和Bert嵌入向量进行加和平均，获得实体属性的嵌入表示，目标函数如下：

f(s_r)＝||h+r-M_rf_encoder(t)||

步骤6.7：等价关系学习：

通过等价的实体建立跨知识图谱的链接，从而使其他具有相近语义信息的实体在空间中具有相近的向量表示。给定一对具有等价关系的实体e1和e2，等价实体e1和e2具有一种特殊的关系sameas，即(e1，sameas，e2)，e1和e2在两个知识图谱的嵌入空间中产生相似的向量表示，约束具有等价关系的实体在空间中产生相近的嵌入向量，对齐实体的损失定义为：J_SIM＝d(e₁,e₂)

J＝J_SIM+[w]₊J_SE+[1-w]₊J_AE

其中w为结构嵌入和属性嵌入的权重参数，通过输入数据训练；

步骤7：选择源知识图谱中的一个实体e，计算目标知识图谱中所有实体与e的空间距离及名称的LCS相似度；

步骤8：将实体距离及LCS相似度组合成实体相似度向量，将相似度最高的实体作为候选实体；

步骤9：查询目标知识图谱中，是否存在与候选实体同名的实体，若存在则通过TF-IDF方法嵌入实体的描述信息进行消歧，否则输出候选实体作为对齐实体；

实施例2：

本发明是从两个异构的知识图谱中发现等价的实体，具体流程如图1所示，所用的语料为从政策法规文本中应用实体识别和关系分类技术构建的四险一金知识图谱及中文知识图谱cn-dbpedia，本发明将以此为例子，介绍实体对齐的具体实施方式。

步骤1：知识图谱数据获取及规范化：

步骤1.1：输入待对齐的知识图谱S和T的关系三元组和属性三元组，将源数据转换为n-triple格式，其中每行包含一个三元组，头实体、关系、尾实体间使用’\t’符号分隔。保存到rel_triples_1、rel_triples_2、attr_triples_1、attr_triples_2四个文件；

步骤1.2：标记两个知识图谱间具有等价关系的实体，构建训练集、验证集、测试集保存到train_links、valid_links、test_links三个文件，其中训练集可以通过无监督方式构建，即源知识图谱S与目标知识图谱T中若含有一对名称相同的实体且两个知识图中均不含有其他名称相同的实体，则将它们视为等价实体并加入训练集；

步骤2：属性三元组筛选方法

属性筛选方法用于筛选有助于实体对齐的三元组，其基本思想是通过相似的属性产生相似的嵌入表示从而提高模型的性能：

步骤2.1：设定属性相似度阈值θ，初始化源三元组相似度集合

和目标三元组相似度集合

初始化筛选后的源三元组集合

和筛选后的目标三元组集合

步骤2.2：遍历attr_triples_1、attr_triples_2中的每一对属性三元组(h_S,r_S,t_S)和(h_T,r_T,t_T)；

步骤2.3：计算d＝edit_distance(t₁,t₂)，若d大于阈值θ，则继续，否则选择下一对三元组；

步骤2.4：若(h_S,r_S)不在集合S_{sim_set}中，将S_{sim_set}[(h_S,r_S)]设为d，S_set[(h_S,r_S)]设为

步骤2.5：若S_{sim_set}[(h_S,r_S)]<d，将S_{sim_set}[(h_S,r_S)]设为d，S_set[(h_S,r_S)]设为

步骤2.6：若(h_T,r_T)不在集合T_{sim_set}中，将T_{sim_set}[(h_T,r_T)]设为d，T_set[(h_T,r_T)]设为

步骤2.7：若T_{sim_set}[(h_T,r_T)]<d，将T_{sim_set}[(h_T,r_T)]设为d，S_set[(h_T,r_T)]设为

步骤2.8：迭代结束后将S_set＝{}，T_set＝{}输入到属性三元组文件；

步骤3：负采样数据生成

该步骤需要生成用于结构嵌入模型训练的负采样关系三元组、用于属性嵌入的负采样属性三元组以及用于对齐关系学习的负采样对齐实体对；

步骤3.1：输入关系三元组、筛选后的属性三元组及等价关系集合；

步骤3.2：负采样三元组生成策略：

若S中存在一组h_S',r_S,t_S'，且h_S,r_S,t_S'不在S中，则将h_S,r_S,t_S'加入到S'中，若同时存在多组h_S',r_S,t_S'，则随机选择一组h_S,r_S,t_S'加入S'中；若不满足，则随机替换三元组中的头尾实体加入到S'中；

步骤3.3：负采样等价实体生成策略：

对于知识图谱S，T中一对具有等价关系的实体(e₁,e₂)，将e₂随机替换为T中的一个实体；

步骤4：属性值编码生成；

步骤4.1：字嵌入向量训练：

将原始语料进行分句处理，通过Word2Vec模型和Skip-Gram算法在四险一金期刊论文和政策法规语料上训练字符级的Word2Vec嵌入，为每一个字符训练长度为100维度的向量表示；窗口大小为10；

步骤4.2：属性值编码生成：

对于属性三元组中的属性值，选取前20个字符并保留，对于长度不足20的属性值，使用空格符进行填充。并将属性值中的每个字符替换为该字符的word2vec向量表示，获得属性值的嵌入矩阵，属性嵌入向量形状为20*100；

步骤5：知识图谱联合嵌入表示：

步骤5.1：知识图谱结构嵌入：

f(s_r)＝||h+r-t||

S_r'＝{<h',r,t>|h'∈G}∪{<h,r,t'>|t'∈G}

其中[x]₊表示max(0,x)，γ为边距超参数，S_r为知识图谱中存在的正例三元组，S_r'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组。γ为边距超参数，γ_r即为根据负三元组中关系动态学习的参数，随着模型的训练，γ_r将在不同的关系下学习到不同的结果使嵌入模型能够关注不同的关系，从而更好的捕获知识图谱的结构信息；

步骤5.2基于LSTM编码器的知识图谱属性嵌入：

属性三元组中包含的属性值包含用于实体对齐的信息，但直接使用Embedding层嵌入进行嵌入无法对属性值的信息加以利用，因此属性嵌入部分由Embedding层和编码器两部分组成；属性值的编码过程为将word2Vec嵌入后的属性值依次输入到LSTM网络中，并将最后一个时刻的隐状态作为属性值的嵌入表示；

步骤5.3：基于预训练Bert模型的知识图谱属性嵌入：

属性值编码的最大长度设置为25，将属性值字符序列依次输入到预训练bert模型中，并将‘[CLS]’位置对应的输入作为属性值的嵌入表示，产生长度为784维的向量，bert模型作为实体对齐算法的特征提取层；

将LSTM的隐状态和Bert嵌入向量进行加和平均，获得实体属性的嵌入表示，过程如图2所示，目标函数如下：

f(s_r)＝||h+r-M_rf_encoder(t)||

步骤5.4：等价关系学习：

通过等价的实体建立跨知识图谱的链接，从而使其他具有相近语义信息的实体在空间中具有相近的向量表示。给定一对具有等价关系的实体e1和e2，等价实体e1和e2具有一种特殊的关系sameas，即(e1，sameas，e2)，e1和e2在两个知识图谱的嵌入的空间中产生相似的向量表示，约束具有等价关系的实体在空间中产生相近的嵌入向量，对齐实体的损失定义为：J_SIM＝d(e₁,e₂)

J＝J_SIM+[w]₊J_SE+[1-w]₊J_AE

其中w为结构嵌入和属性嵌入的权重参数，通过模型的输入进行训练；

步骤6：计算实体的名称的字符相似性：

步骤6.1名称相似度计算：

对于源知识图谱S中的一个实体，选择一个属性三元组(h1,r1,t1)，在目标知识图谱T中选择一个属性三元组(h2,r2,t2)，LCS相似度得分定义为：

相似的实体获得的LCS得分更低；

步骤6.2:实体相似性特征组合：

将实体对的相似度组合成向量d＝[distance,sim],其中distance为实体嵌入的空间距离，sim表示实体LCS相似度，对两种相似度进行加权组合，并将距离最近的实体作为候选实体；

步骤7：同名实体消歧：

本方法在进行实体对齐时主要考虑了实体间的关系和实体的名称信息；目标知识图谱中可能存在与候选实体具有相同名称的实体，因此需要进行消歧处理；若目标知识图谱中不含有与候选实体具有相同名称的其他实体，则将候选实体作为对齐实体；

步骤7.1实体消歧的步骤如下：

中文知识图谱通过百度百科构建，因此每个实体都能映射到一个百科网页；获取候选实体及与候选实体具有相同名称的其他实体在百科网站上的描述信息，通过TF-IDF方法对实体的描述信息进行嵌入，生成描述信息表示向量；再将源实体的描述信息进行嵌入，将描述信息最接近的实体作为最终的候选实体；

本发明的有益效果在于：

1、提出了一种属性值嵌入方法，本发明提出了在TransE模型中根据关系类型动态调整嵌入损失函数的策略，通过增加嵌入层优化不同属性和关系条件下的TransE损失函数。将LSTM网络和Bert对属性值的嵌入结果进行融合，在属性值的嵌入中考虑了属性值的语义信息，并将结构嵌入和属性嵌入联合训练，最终获得知识图谱的联合嵌入表示。

2、将实体嵌入的语义信息与字符信息进行组合，本发明将实体嵌入距离与LCS相似度进行组合，并在考虑两种相似度的条件下选择候选实体对。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

步骤4：为两个知识图谱的关系三元组、筛选后的属性三元组及等价实体集合生成负采样数据，得到源知识图谱S的负采样关系三元组集合S′₁、源知识图谱S的负采样属性三元组集合S′₂、目标知识图谱T的负采样关系三元组集合T₁′、目标知识图谱T的负采样属性三元组集合T₂′；

步骤5.1：字嵌入向量训练；

步骤5.2：属性值编码生成；

对于属性三元组中的属性值，选取前N2个字符并保留，对于长度不足N2的属性值，使用空格符进行填充；并将属性值中的每个字符替换为该字符的word2vec向量表示，获得属性值的嵌入矩阵，属性嵌入向量形状为N2*N1；

步骤5.3：知识图谱结构嵌入；

f(s_r)＝||h_r+r_r-t_r||

S_r'＝{<h_r',r_r,t_r>|h_r'∈G_r}∪{<h_r,r_r,t_r'>|t_r'∈G_r}

其中[x]₊表示max(0,x)，γ为边距超参数，S_r为知识图谱中存在的正例三元组，S_r'为通过对三元组的头尾实体进行随机替换生成用于训练的负三元组，G_r为S_r中的实体构成的集合，当输入为源知识图谱S的关系三元组时，S_r＝S₁，S_r'＝S′₁；当输入为目标知识图谱T的关系三元组时，S_r＝T₁，S_r'＝T₁′；γ_r为根据负三元组中关系动态学习的margin参数，随着模型的训练，γ_r将在不同的关系下进行自适应的调节使嵌入模型能够关注不同的关系，从而更好的捕获知识图谱的结构信息；

步骤5.4基于LSTM编码器的知识图谱属性嵌入：

步骤5.5：基于预训练BERT模型的知识图谱属性嵌入：

f(s_a)＝||h_a+r_a-Mf_encoder(t_a)||

S_a'＝{<h_a,r_a,t_a'>|t_a'∈G_a}

其中[x]₊表示max(0,x)，γ为边距超参数，S_a为知识图谱中存在的正例属性三元组，S_a'为通过对三元组的属性值进行随机替换生成用于训练的负三元组，G_a为S_a中的属性值构成的集合，当输入为源知识图谱S的属性三元组时，S_a＝S₂，S_a'＝S₂'；当输入为目标知识图谱T的属性三元组时，S_r＝T₂，S_r'＝T₂'；γ_a为根据负三元组中属性动态学习的margin参数；f_encoder为LSTM隐状态输出和BERT输出向量经加和平均后的向量，M为维度转换矩阵；

步骤5.6：等价关系学习：