CN114942998A

CN114942998A - 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

Info

Publication number: CN114942998A
Application number: CN202210439962.1A
Authority: CN
Inventors: 王柱; 刘囡囡; 刘慧�; 康天雨; 郭斌; 於志文
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-08-26
Anticipated expiration: 2042-04-25
Also published as: CN114942998B

Abstract

本发明公开了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法，根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱，将原始数据中的关键部分转换为知识图谱中所需的三元组信息；然后构建实体在结构特征上的相似度矩阵；接下来构建实体在语义特征上的相似度矩阵；再构建实体在字符串特征上的相似度矩阵；最终根据邻域结构感知的注意力网络动态融合三个维度的特征，融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善，使得实体对齐结果更加精准。

Description

融合多源数据的知识图谱邻域结构稀疏的实体对齐方法

技术领域

本发明属于机器学习技术领域，具体涉及一种知识图谱邻域结构稀疏的实体对齐方法。

背景技术

在线社交媒体平台近年来越来越受欢迎，由社交媒体平台上用户的历史行为数据构成的知识图谱通常表示为包含了多种不同时间、地点、人物、事件、内容等信息的异构网络。不同的社交媒体平台可能具有不同的功能，所以同一个用户可以因不同目使用多个不同的社交媒体平台。例如，某用户可以使用Facebook与其朋友分享有趣的帖子，使用Twiteer了解最新的新闻和事件。然而，同一用户在不同社交媒体平台上的拥有的账户以及发表的言论大多数的孤立的，彼此没有任何对应关系。

判断不同社交媒体平台构建的知识图谱中的用户实体是否指向真实世界同一用户的过程称为用户实体对齐，将不同社交媒体平台构建的知识图谱中的用户实体对齐对于许多现实世界的跨平台应用具有很大的价值。例如，在将Facebook和Twitter中的用户实体对齐后，可以对某用户在Facebook上对应的用户实体的社交关系或者个人兴趣信息进行分析，然后根据分析结果在Twitter上向其用户实体推荐新朋友或新话题。

目前的对齐算法的解决方案主要依赖于知识图谱的图结构，它们认为等价实体拥有相似的邻域结构。在从大规模知识图谱中提取的一些合成数据集上这些方法取得了一流的性能，然而合成数据集比现实数据集密度大很多，目前的对齐算法在具有现实分布的数据集上不能产生令人满意的结果。

现实生活中的知识图谱只有很少的实体被频繁的访问，并且具有详细的属性和丰富的联系，而大多数实体并没有被开发利用，并且只有少量的结构信息。

因此，目前的实体对齐算法仅依赖结构信息在现实数据上的表现不好，需要考虑知识图谱上的其他维度的信息。

发明内容

为了克服现有技术的不足，本发明提供了一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法，根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱，将原始数据中的关键部分转换为知识图谱中所需的三元组信息；然后构建实体在结构特征上的相似度矩阵；接下来构建实体在语义特征上的相似度矩阵；再构建实体在字符串特征上的相似度矩阵；最终根据邻域结构感知的注意力网络动态融合三个维度的特征，融合后的实体相似度矩阵即为实体对齐结果。本发明使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善，使得实体对齐结果更加精准。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：根据用户在多个社交媒体平台上的交互以及交互主题内容构建知识图谱，将交互以及交互主题内容的原始数据转换为知识图谱中所需的三元组信息，分为两个部分：一是在正文数据中话题由“#”号开头，使用正则表达式提取主题实体，构架<用户，评论，主题>的三元组；二是在评论数据中根据依存句法分析的方法抽取出<主题，动词，主题>类型的三元组；按照三元组<h,r,t>的方式构成知识图谱，其中，h表示头实体，r表示关系，t表示尾实体；

步骤2：依据步骤1构建的知识图谱，构建实体在结构特征上的相似度矩阵；

步骤2-1：构造原始图；

将步骤1构建的知识图谱表示为G＝(E,R,T)，分别代表实体集合、关系集合、三元组集合，令G₁＝(E₁,R₁,T₁)和G₂＝(E₂,R₂,T₂)分别表示两个将要对齐的异构知识图谱；将图谱G₁和G₂合并为原始图g^e＝(v^e,ε^e)，v^e＝E₁∪E₂表示原始图g^e中所有顶点的集合为两个知识图谱中实体的集合，ε^e为

的集合，

表示知识图谱中实体e_i与e_j之间的关系；

步骤2-2：根据原始图构造对偶关系图；

原始图g^e的对偶关系图为g^r＝(v^r,ε^r)，v^r＝R₁∪R₂表示对偶关系图g^r中顶点的集合为两个知识图谱中所有关系的集合，ε^r为

的集合,

表示如果两个关系r_j和r_j共享相同的头实体或尾实体，则

连接

分别表示对偶关系图中的节点；

步骤2-3：根据原始图与对偶关系图的注意力交互获得融合了边特征的实体表示；

定义

表示对偶注意力层生成的顶点表示矩阵，其中每行对应对偶关系图g^r中的一个顶点；定义X^e表示原始注意力层生成的顶点表示矩阵，其中每行对应原始图g^e中的一个顶点；

步骤2-3-1：对偶注意力层；

步骤2-3-1-1：按照

计算顶点

的初始表示c_i，其中H_i表示使用关系

连接三元组的头实体集合；T_i表示使用关系

连接三元组的尾实体；

表示由原始注意力层输出，代表关系

连接的第k个头实体表示；

表示由原始注意力层输出，代表关系

连接的第l个尾实体表示；

步骤2-3-1-2：按照

计算顶点

与其邻居

之间的相关系数

其中

表示顶点

在对偶关系图中的邻居集合；

表示共享参数，是对顶点的特征进行增维；[·||·]表示对变换后的顶点特征进行拼接；a^r表示全连接层将输入的二维向量映射到一个实数上得到相关系数；

步骤2-3-1-3：按照

将相关系数

归一化得到

LeakyReLU(.)表示LeakyReLU激活函数；

步骤2-3-1-4：按照

加权求和得到对偶关系图的顶点表示

其中

是对偶注意力层的输出，代表对偶关系图中第i个节点的表示；σ^r表示激活函数；E_j表示对偶关系图g^r顶点

的对偶表示，第一层的对偶注意力层不存在E_j，所以使用原始图的初始化顶点表示X^e_init，通过步骤2-3-1-1计算顶点

的初始表示c_j来代表E_j；

步骤2-3-2：原始注意力层；

步骤2-3-2-1：将对偶注意力层的输出作为原始图中边的初始特征，记为

按照

对边特征进行归一化，其中，

表示原始图中第i个节点和第j个节点之间的边特征向量，E_ij表示原始图中归一化后的边特征向量；

步骤2-3-2-2：按照

计算原始图中顶点

与其邻居节点

的相似系数

其中L表示LeakyReLU激活函数；a^e表示全连接层将输入的二维向量映射到实数；W^e表示权重矩阵；

步骤2-3-2-3：按照

与

对步骤2-3-2-2得到的

进行归一化表示得到α^e；

步骤2-3-2-4：按照

将节点特征从输入空间映射到输出空间的变换；

步骤2-3-2-5：根据步骤2-3-2-3得到α^e，步骤2-3-2-4得到g(·)，按照

获得原始图顶点表示；其中σ^e表示非线性的激活函数；α^e表示原始图注意层的注意力系数；

步骤2-3-3：将步骤2-3迭代N₁轮得到了原始图融合边特征的实体表示

步骤2-4：使用带有highway gate的双层GCN对原始图的实体结构特征进行量化；

步骤2-4-1：将步骤2-3得到的

作为GCN的初始输入；

步骤2-4-2：在GCN的第q层输入为实体表示X^(q)，输出为X^(q+1)；按照

计算X^(q+1)，其中，

A表示原始图g^e的邻接矩阵，I表示单位矩阵，如果直接使用邻接矩阵A，其对角线元素为0，乘以特征矩阵会导致最终结果忽略掉实体本身的特征；

表示对邻接矩阵进行归一化，避免在乘以特征矩阵之后改变自身的分布导致不可预测的问题；W^(q)表示第q层的可训练权重矩阵；ξ表示激活函数ReLU；

步骤2-4-3：按照

X^(q+1)＝T(X^(q))·X^(q+1)+(1-T(X^(q)))·(X^(q))防止噪声在传播过程中累积；其中σ表示sigmoid激活函数；·表示张量之间对应元素逐个相乘；

步骤2-4-4：将步骤2-4-1到步骤2-4-3迭代N₂轮得到最终的实体结构特征表示X；按照

度量e_i与e_j之间的结构表示距离，其中X(e_i)表示实体e_i的结构特征表示；最终得到G₁和G₂之间的结构特征相似度矩阵Sim_s，矩阵第i行第j列代表来自于G₁的实体e_i与来自于G₂的实体e_j之间的相似度；

步骤3：依据步骤1构建的知识图谱，构建实体在语义特征上的相似度矩阵；

步骤3-1：使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove，得到预训练词向量生成模型；以上三种中的每一种预训练词向量生成模型给定一个语义嵌入空间

实体名称在

中的语义嵌入表示为

表明实体名称是由一系列的单词嵌入序列组合而成；

步骤3-2：按照

获得Wⁱ的幂平均词嵌入H_p(Wⁱ)，其中，

表示单词的个数；d表示单词嵌入的维度；p表示不同的幂值，当p＝1表示算术平均值，当p＝0表示几何平均值，当p＝-1表示调和平均值，当p＝+∞表示最大平均值，当p＝-∞表示最小平均值；

步骤3-3：按照

将实体名称不同幂平均值连接起来获得实体名称在

空间下的语义表示

其中

表示将不同幂平均值按行连接；p₁,..,p_k表示K种幂值；

步骤3-4：按照

将不同

空间下的语义表示连接起来，最终获得实体名称语义特征表示

步骤3-5：按照

度量e_i与e_j之间的语义表示距离，最终得到G₁和G₂之间的语义特征相似度矩阵Sim_t；

步骤4：依据步骤1构建的知识图谱，构建实体在字符串特征上的相似度矩阵；

步骤4-1：采用Levenshtein距离得到

表示实体e_i的名称字符串前m个字符与实体e_j的名称字符串前n个字符之间的距离；

步骤4-2：按照

度量实体名称字符串的距离，其中|e_i|表示实体e_i的字符串长度；最终根据实体名称之间的字符串的相似度构成G₁和G₂之间的字符串特征相似度矩阵Sim_m；

步骤5：根据邻域结构感知的注意力网络动态融合三个维度的特征，融合后的实体相似度矩阵即为实体对齐结果；

步骤5-1：构建融合特征矩阵；

步骤5-1-1：按照

计算实体的度表示，其中

表示实体度值的one-hot编码表示；M表示全连接层的权重表示；d_g为度表示的维度；

步骤5-1-2：按照

和

将结构表示和语义表示分别与度表示结合，其中X(e₁)表示结构特征矩阵、N(e₁)表示实体名称语义特征矩阵；⊙表示哈达玛积，在不改变原始维度特征矩阵维度的同时将度表示融入其中；

步骤5-1-3：按照

将步骤5-1-2得到的向量

按列连接起来，使用0填充缺失的值；d_m＝max{d_s,d_t}，d_s,d_t分别表示

与

的维度；

步骤5-2：注意力权重计算；

步骤5-2-1：按照

计算实体e₁与e₂的共同注意相似度，其中

表示

中第i行的向量，

表示

中第i行的向量，且i＝1,2；

表示映射函数，w表示可训练的权重矩阵。最终可以得到一个2×N的共同注意相似度矩阵S，第一行表示G₁与G₂中N个节点的融合度表示的结构特征相似度，第二行表示N个节点融合度表示的语义特征相似度；

步骤5-2-2：使用步骤5-2-1得到的共同注意相似度矩阵计算注意力权重，首先按行通过softmax层归一化，再按列通过average层压缩获得最终的结构特征注意力权重att^s，之后再将共同注意相似度矩阵按列通过softmax层归一化，再按行通过average层压缩获得最终语义特征注意力权重att^t；

步骤5-2-3：按照Sim(e₁,e₂)＝Sim_s(e₁,e₂)·att^s+Sim_t(e₁,e₂)·att^t+Sim_m(e₁,e₂)·att^t得到融合实体结构、语义和字符串特征的相似度矩阵，即为最终实体对齐结果。

优选地，所述N₁＝200，N₂＝300。

本发明的有益效果如下：

本发明利用不同维度的实体特征，从结构、语义、字符串三个维度刻画实体，使得目前实体对齐方法只关注图结构信息对于具有邻域结构稀疏的实体对齐效果不好的问题得到改善，使得实体对齐结果更加精准。在训练时不需要人工提取特征，模型将不会引进人为偏见，同时减少了人工设计流程。

附图说明

图1为本发明方法的示意图。

图2为本发明方法知识图谱架构图。

图3为本发明的模型框架图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明针对融合多社交媒体平台数据的知识图谱邻域结构稀疏的实体对齐结果不够精准，提出了一种融合多维度知识图谱信息的模型，在消息传递中加入结构特征、语义特征，除此之外考虑实体的字符串特征。该方法可以充分利用知识图谱各维度的信息，精准的表示节点的特征，提升对齐结果的精准性。

如图1到图3所示，一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法，包括如下步骤：

步骤2-1：构造原始图；

的集合，

表示知识图谱中实体e_i与e_j之间的关系；

步骤2-2：根据原始图构造对偶关系图；

的集合,

表示如果两个关系r_i和r_j共享相同的头实体或尾实体，则

连接

定义

步骤2-3-1：对偶注意力层；

步骤2-3-1-1：按照

计算顶点

的初始表示c_i，其中H_i表示使用关系

连接三元组的头实体集合；T_i表示使用关系

连接三元组的尾实体；

表示由原始注意力层输出，代表关系

连接的第k个头实体表示；

表示由原始注意力层输出，代表关系

连接的第l个尾实体表示；

步骤2-3-1-2：按照

计算顶点

与其邻居

之间的相关系数

其中

表示顶点

在对偶关系图中的邻居集合；

表示共享参数；[·||·]表示对变换后的顶点特征进行拼接；a^r表示全连接层将输入的二维向量映射到一个实数上得到相关系数；

步骤2-3-1-3：按照

将相关系数

归一化得到

LeakyReLU(.)表示LeakyReLU激活函数；

步骤2-3-1-4：按照

加权求和得到对偶关系图的顶点表示

其中

的对偶表示，第一层的对偶注意力层不存在E_j，所以使用原始图的初始化顶点表示X^e_init通过步骤2-3-1-1计算E_j。

步骤2-3-2：原始注意力层；

按照

对边特征进行归一化，其中，

步骤2-3-2-2：按照

计算原始图中顶点

与其邻居节点

的相似系数

步骤2-3-2-3：按照

与

对步骤2-3-2-2得到的

进行归一化表示；

步骤2-3-2-4：按照

将节点特征从输入空间映射到输出空间的变换；

步骤2-3-3：将上述步骤迭代200轮得到了原始图融合边特征的实体表示

步骤2-4-1：将步骤2-3得到的

作为GCN的初始输入；

计算X^(q+1)，其中，

步骤2-4-3：按照

步骤2-4-4：将步骤2-4-1到步骤2-4-3迭代300轮得到最终的实体结构特征表示X；按照

步骤3-1：使用社交媒体平台原始的分词数据训练词向量生成模型Word2Vec、FastText和Glove，得到训练好的词向量生成模型；每一种预训练词向量模型给定一个语义嵌入空间

实体名称在

中的语义嵌入表示为

表明实体名称是由一系列的单词嵌入序列组合而成；

步骤3-2：按照

获得Wⁱ的幂平均词嵌入H_p(Wⁱ)，其中，

步骤3-3：按照

将实体名称不同幂平均值连接起来获得实体名称在

空间下的语义表示

其中

表示将不同幂平均值按行连接；p₁,..,p_k表示K种幂值；

步骤3-4：按照

将不同

步骤3-5：按照

步骤4-1：采用Levenshtein距离得到

步骤4-2：按照

步骤5-1：构建融合特征矩阵；

步骤5-1-1：按照

计算实体的度表示，其中

步骤5-1-2：按照

和

将结构表示和语义表示分别与度表示结合，其中X(e₁)表示结构特征矩阵、N(e₁)表示实体名称语义特征矩阵；⊙表示哈达玛积；

步骤5-1-3：按照

将步骤5-1-2得到的向量

按列连接起来，使用0填充缺失的值；d_m＝max{d_s,d_t}；

步骤5-2：注意力权重计算；

步骤5-2-1：按照

计算实体e₁与e₂的共同注意相似度，其中

表示

中第i行的向量，

表示

中第i行的向量，且i＝1,2；

Claims

1.一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法，其特征在于，包括如下步骤：

步骤2-1：构造原始图；

的集合，

表示知识图谱中实体e_i与e_j之间的关系；

步骤2-2：根据原始图构造对偶关系图；

的集合,

表示如果两个关系r_i和r_j共享相同的头实体或尾实体，则

连接

分别表示对偶关系图中的节点；

定义

步骤2-3-1：对偶注意力层；

步骤2-3-1-1：按照

计算顶点

的初始表示c_i，其中H_i表示使用关系

连接三元组的头实体集合；T_i表示使用关系

连接三元组的尾实体；

表示由原始注意力层输出，代表关系

连接的第k个头实体表示；

表示由原始注意力层输出，代表关系

连接的第l个尾实体表示；

步骤2-3-1-2：按照

计算顶点

与其邻居

之间的相关系数

其中

表示顶点

在对偶关系图中的邻居集合；

步骤2-3-1-3：按照

将相关系数

归一化得到

LeakyReLU(.)表示LeakyReLU激活函数；

步骤2-3-1-4：按照

加权求和得到对偶关系图的顶点表示

其中

的初始表示c_j来代表E_j；

步骤2-3-2：原始注意力层；

按照

对边特征进行归一化，其中，

步骤2-3-2-2：按照

计算原始图中顶点

与其邻居节点

的相似系数

步骤2-3-2-3：按照

与

对步骤2-3-2-2得到的

进行归一化表示得到α^e；

步骤2-3-2-4：按照

将节点特征从输入空间映射到输出空间的变换；

步骤2-4-1：将步骤2-3得到的

作为GCN的初始输入；

计算X^(q+1)，其中，

步骤2-4-3：按照

实体名称在

中的语义嵌入表示为

表明实体名称是由一系列的单词嵌入序列组合而成；

步骤3-2：按照

获得Wⁱ的幂平均词嵌入H_p(Wⁱ)，其中，θ表示单词的个数；d表示单词嵌入的维度；p表示不同的幂值，当p＝1表示算术平均值，当p＝0表示几何平均值，当p＝-1表示调和平均值，当p＝+∞表示最大平均值，当p＝-∞表示最小平均值；

步骤3-3：按照

将实体名称不同幂平均值连接起来获得实体名称在

空间下的语义表示

其中

表示将不同幂平均值按行连接；p₁,..,p_k表示K种幂值；

步骤3-4：按照

将不同

步骤3-5：按照

步骤4-1：采用Levenshtein距离得到

步骤4-2：按照

步骤5-1：构建融合特征矩阵；

步骤5-1-1：按照

计算实体的度表示，其中

步骤5-1-2：按照

和

步骤5-1-3：按照

将步骤5-1-2得到的向量

与

的维度；

步骤5-2：注意力权重计算；

步骤5-2-1：按照

计算实体e₁与e₂的共同注意相似度，其中

表示

中第i行的向量，

表示

中第i行的向量，且i＝1,2；

表示映射函数，w表示可训练的权重矩阵；最终可以得到一个2×N的共同注意相似度矩阵S，第一行表示G₁与G₂中N个节点的融合度表示的结构特征相似度，第二行表示N个节点融合度表示的语义特征相似度；

2.根据权利要求1所述的一种融合多源数据的知识图谱邻域结构稀疏的实体对齐方法，其特征在于，所述N₁＝200，N₂＝300。