CN116737956A

CN116737956A - 一种面向多模态知识图谱的实体对齐方法及装置

Info

Publication number: CN116737956A
Application number: CN202310713623.2A
Authority: CN
Inventors: 包铁; 邵斐; 彭涛; 毕海嘉; 刘露
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-09-12

Abstract

本发明适用于知识图谱技术领域，提供了一种面向多模态知识图谱的实体对齐方法及装置，该方法包括以下步骤：将两个待对齐的多模态知识图谱作为模型的输入；使用GCN对知识图谱结构进行建模，生成知识图谱的结构嵌入；还生成语义嵌入；根据结构嵌入计算余弦相似度得到结构相似性矩阵，通过计算语义嵌入的余弦相似度得到语义相似性矩阵；通过可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵，根据实体相似性矩阵得到对齐结果；在得到的对齐结果中挑选可靠的对齐实体，重复迭代过程直至模型收敛，本发明解决了目前知识图谱实体对齐任务缺乏训练数据的问题。

Description

一种面向多模态知识图谱的实体对齐方法及装置

技术领域

本发明涉及知识图谱技术领域，具体是一种面向多模态知识图谱的实体对齐方法及装置。

背景技术

当今世界随着互联网的蓬勃发展，网络中的数据内容正在爆炸式的增长。由于互联网内容具有规模大、异质多元及组织结构松散的特点，所以人们无法高效地获取信息和知识。随着知识图谱(Knowledge Graph,KG)的提出，其凭借着强大的语义处理能力和开放组织能力，为当今互联网时代的知识化组织和智能应用做出了重大贡献。知识图谱的概念最初是由Google于2012年5月16日正式提出。目的是凭借知识图谱去挖掘用户需求的语义信息并消除歧义，从而提升搜索引擎返回信息的精准度和用户的检索效率。知识图谱更偏重于描述实体与实体之间的关联，知识图谱的出现更符合计算机语义学的发展趋势。随着人工智能技术的快速发展，知识图谱现在已经不仅仅是作为检索系统的数据库来使用。随着对知识图谱技术的研究不断深入，知识图谱已经被应用到更多的领域，如语义匹配、搜索推荐、问答对话、推理决策及区块链协作等等。正是由于知识图谱的广泛应用范围，不同的机构和组织一般都会根据自身的业务需求去构建知识图谱，由于缺乏一个统一的行业标准，这就导致了不同的知识图谱之间存在着严重的异构和冗余问题。通常来说两个不同的知识图谱对同一个客观实体的描述往往存在着互补的情况，所以将多个知识图谱融合成一个规模更大、信息覆盖程度更广的知识图谱是必要的，而知识图谱融合的首要任务就是实体对齐。实体对齐的目标是匹配两个不同知识图谱中引用相同真实世界对象的实体。多模态知识图谱实体对齐是一个比较新的研究问题，现有研究主要集中在单模态知识图谱上进行对齐，在多模态知识图谱上进行实体对齐的研究工作还比较少。但是多模态知识图谱实体对齐任务可以看做是单模态知识图谱实体对齐任务的延伸，单模态知识图谱实体对齐任务的研究方法仍然用在多模态知识图谱实体对齐任务中。多模态知识图谱实体对齐任务的难点在于如何处理不同模态信息之间的异质性并将多个模态的信息有效融合。

目前流行的面向多模态知识图谱的实体对齐方法虽然取得了一定的效果，但仍存在以下几个问题：

对除结构信息以外的其它方面信息利用不足，通常认为不同知识图谱间的等价实体应该具有相似的连接结构，所以基于这个假设，无论是多模态知识图谱实体对齐任务还是传统的纯文本形式的知识图谱实体对齐任务都主要依靠知识图谱的结构信息来对齐实体，但是仅仅利用结构信息可能会导致错误的对齐结果；

通常以固定的权重来融合不同模态间的信息，这种方式认为不同模态信息对实体对齐的贡献是不变的，并且结构信息所占比重较大，这就忽视了其他方面信息对结构信息的补充作用，事实上知识图谱中存在大量的长尾实体，这些长尾实体的结构信息比较匮乏，所以此时结构信息并不十分有效，而诸如实体名称、图像这类信息不受图谱结构影响，它们可以作为结构信息的补充，因此这类信息此时应该被赋予更高的权重；

目前基于图表示学习的实体对齐方法需要大量的预对齐实体作为标记数据，对齐性能的好坏很大程度上依赖于标记数据的数量和质量，然而标记数据是十分缺乏的，人工标注的成本又很高。

因此，针对以上现状，迫切需要提供一种面向多模态知识图谱的实体对齐方法，以克服当前实际应用中的不足。

发明内容

本发明的目的在于提供一种面向多模态知识图谱的实体对齐方法及装置，旨在解决上述背景技术中的问题。

本发明是这样实现的，一种面向多模态知识图谱的实体对齐方法，该方法包括以下步骤：

步骤1：将两个待对齐的多模态知识图谱作为模型的输入；

步骤2：使用GCN对知识图谱结构进行建模，生成知识图谱的结构嵌入；还生成语义嵌入；

步骤3：根据结构嵌入计算余弦相似度得到结构相似性矩阵，通过计算语义嵌入的余弦相似度得到语义相似性矩阵；

步骤4：通过可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵，根据实体相似性矩阵得到对齐结果；

步骤5：在得到的对齐结果中挑选可靠的对齐实体对加入种子集作为训练数据继续指导下一次对齐，重复迭代过程直至模型收敛。

作为本发明进一步的方案：在步骤2中，生成语义嵌入的步骤包括：

获取词袋特征，并将其输入到前馈神经网络以获得相应的嵌入；

获取视觉特征，将视觉特征输入到前馈神经网络获得视觉信息的嵌入；

将词袋特征和视觉信息的嵌入进行融合生成语义嵌入。

作为本发明进一步的方案：所述词袋特征包括关系、属性和实体名称信息。

作为本发明进一步的方案：获取视觉特征的步骤为：

将实体的图像输入到ResNet-152模型，并使用logits层前的最后一层输出作为实体的视觉特征。

作为本发明进一步的方案：在步骤2中，GCN的层数为两层。

作为本发明进一步的方案：在步骤4中，从相似性矩阵层面进行特征融合，先计算具体模态下实体之间的相似度，得到该模态下的实体相似性矩阵，然后对不同模态下的实体相似性矩阵进行融合得到最终的实体相似性矩阵。

作为本发明进一步的方案：在步骤5中，迭代过程包括：

获得实体的相似性矩阵，根据相似性矩阵筛选出相似度高于设定相似度阈值的实体对，并视为可靠对齐实体，然后将筛选出的可靠实体对加入到种子集中，使用新生成的种子集开启下一次训练，重复这一过程，直至新生成的实体对数量低于设定的值S时，停止迭代。

一种面向多模态知识图谱的实体对齐装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述的方法。

与现有技术相比，本发明的有益效果：

使用GCN对知识图谱结构进行建模，根据结构嵌入计算余弦相似度得到结构相似性矩阵，然后将关系、属性和实体名称信息视为词袋特征，并分别将其输入到一个简单的前馈神经网络以获得相应的嵌入，对于视觉信息本发明采用预训练的视觉模型ResNet-152来获取视觉特征，同样也将视觉特征输入到前馈神经网络获得视觉信息的嵌入；将得到的关系、属性、实体名称和视觉信息的嵌入进行融合生成语义嵌入，同样通过计算余弦相似度得到融合后的语义相似性矩阵；通过一种可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵，根据实体相似性矩阵得到对齐结果；最后在得到的对齐结果中挑选可靠的对齐实体对加入种子集继续指导下一次对齐，重复迭代过程直至模型收敛，初始的种子集可由无监督的方式获取，本发明还实现了相应的无监督版本；

本发明解决了目前知识图谱实体对齐模型大多依赖知识图谱的结构信息，对其它方面信息的利用较少，尤其是缺乏对多模态信息的利用的问题，解决了目前多模态知识图谱实体对齐模型在融合不同模态信息时，通常以固定的权重融合各个模态的信息，从而忽略了不同场景下不同模态信息重要程度动态变化的问题，解决了目前知识图谱实体对齐任务缺乏训练数据的问题。

附图说明

图1为本发明实施例的框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。以下结合具体实施例对本发明的具体实现进行详细描述。

请参阅图1，本发明实施例提供的一种面向多模态知识图谱的实体对齐方法，该方法包括以下步骤：

步骤1：将两个待对齐的多模态知识图谱作为模型的输入；

步骤2：使用GCN对知识图谱结构进行建模，生成知识图谱的结构嵌入；将关系、属性、和实体名称信息视为词袋特征，并分别将其输入到一个简单的前馈神经网络以获得相应的嵌入；采用预训练的视觉模型ResNet-152来获取视觉特征，同样也将视觉特征输入到前馈神经网络获得视觉信息的嵌入。将得到的关系、属性、实体名称和视觉信息的嵌入进行融合生成语义嵌入。

步骤3：根据结构嵌入计算余弦相似度得到结构相似性矩阵，同样通过计算语义嵌入的余弦相似度得到语义相似性矩阵。

步骤4：通过一种可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵，根据实体相似性矩阵得到对齐结果。

另一方面，由于知识图谱实体对齐任务，需要预先对齐的实体对作为训练数据，本发明已经实现了通过迭代的方式去自动生成预对齐实体对从而扩充训练数据的规模，但是这仍然需要少量的预先对齐实体对作为初始训练数据去开启迭代过程，所以本发明在迭代的基础上，进一步实现了两种利用无监督的方式获取初始训练数据的无监督版本的面向多模态知识图谱的实体对齐方法。

在本发明的实施例中，使用GCN对知识图谱结构进行建模，根据结构嵌入计算余弦相似度得到结构相似性矩阵，然后将关系、属性和实体名称信息视为词袋特征，并分别将其输入到一个简单的前馈神经网络以获得相应的嵌入，对于视觉信息本发明采用预训练的视觉模型ResNet-152来获取视觉特征，同样也将视觉特征输入到前馈神经网络获得视觉信息的嵌入；将得到的关系、属性、实体名称和视觉信息的嵌入进行融合生成语义嵌入，同样通过计算余弦相似度得到融合后的语义相似性矩阵；通过一种可以动态调整权重的自适应特征融合策略将结构相似性矩阵和语义相似性矩阵融合成最终的实体相似性矩阵，根据实体相似性矩阵得到对齐结果；最后在得到的对齐结果中挑选可靠的对齐实体对加入种子集继续指导下一次对齐，重复迭代过程直至模型收敛，初始的种子集可由无监督的方式获取，本发明还实现了相应的无监督版本；相比于现有技术，本发明解决了目前知识图谱实体对齐模型大多依赖知识图谱的结构信息，对其它方面信息的利用较少，尤其是缺乏对多模态信息的利用的问题，解决了目前多模态知识图谱实体对齐模型在融合不同模态信息时，通常以固定的权重融合各个模态的信息，从而忽略了不同场景下不同模态信息重要程度动态变化的问题，解决了目前知识图谱实体对齐任务缺乏训练数据的问题。

在本发明的一个实施例中，请参阅图1，在步骤2中，GCN是一种擅长处理图结构数据的卷积网络，所以本发明采用GCN来对知识图谱结构信息进行建模；GCN模型由多层GCN堆叠而成，但是并不是GCN的层数越多学习效果越好，对于使用GCN来嵌入知识图谱结构，如果层数过多会导致每个节点学习到相似的特征，不利于区分节点。大量实验证明两层GCN的效果是最好的，所以也使用两层的GCN模型来建模知识图谱结构信息；

虽然知识图谱的结构特征是对齐实体最重要的信息，但是仅仅利用结构信息很有可能导致错误的对齐；通常，等价实体通过相同的关系类型与等价实体相连，等价实体往往具有相似甚至相同的属性；而对于等价实体的实体名称，虽然在表现形式上可能会有所不同，但是其蕴含的语义信息是相近的，并且实体名称不受知识图谱结构的影响；所以基于以上事实，本发明利用关系、属性和实体名称三者蕴含的丰富语义信息来辅助实体对齐，弥补仅利用结构信息带来的不足；

将关系和属性视为词袋特征来显示地对二者进行建模；具体来说本发明为关系和属性构造了两个基于计数的N-hot向量l_r和l_a；一个l_r或l_a向量的第i维上的数字表示该实体的第i个关系或属性的数量；通俗地说，基于计数的N-hot向量能够反应一个实体邻接了哪些关系或属性并反应关系或属性的数量；同时，为了避免因关系和属性数量众多导致N-hot向量维度过高，只选取在知识图谱中出现最频繁的前K个关系和属性来构建词典；所以，每个实体的关系和属性特征都是K维向量；

在使用GCN模型建模关系和属性时，不仅考虑了实体自身的关系和属性，还考虑了其邻居实体的关系和属性，这将不可避免地引入噪声，因为在实体对齐时本发明只需要利用实体自身的关系和属性即可，不必去关注实体邻居的关系和属性。所以本发明没有像获得结构嵌入那样使用GCN模型，而是将通过词袋模型得到的关系和属性的特征向量输入到一个简单的前馈神经网络(该前馈神经网络只有一个输入层和一个输出层，不含有隐藏层)，以此来获得关系和属性的嵌入；

同样是通过上述的简单前馈神经网络来获得实体名称嵌入，与嵌入关系和属性不同的是，实体名称的初始特征向量l_n是通过预训练的词向量模型GloVe获得的。具体来说就是使用预训练的词向量模型GloVe对名称字符串进行平均处理，以得到实体名称特征。同时为了避免因存在大量专有名词(如人名)和词向量表示的词语有限而导致词汇不足的问题，本发明将实体名称的字符二元组作为实体名称嵌入的辅助特征；

本发明使用预训练的视觉模型ResNet-152来学习视觉信息的嵌入，将实体的图像输入到ResNet-152模型，并使用logits层前的最后一层输出作为实体的视觉特征，也就是ResNet-152模型的倒数第二层的输出，这一层也被称为特征提取器。之所以使用这一层的输出，是因为这一层已经在大规模图像数据集上进行了训练，具有很好的特征提取能力。然后将通过ResNet-152得到的视觉特征输入到前文所用的简单前馈神经网络中，得到视觉嵌入。

在本发明的一个实施例中，请参阅图1，在步骤4中，多模态知识图谱除了包括传统知识图谱的文本信息外，还至少要包含一个除文本信息外的其他模态的信息，所以要完成多模态实体对齐任务就需要将各个模态的信息进行融合。目前大多数的多模态实体对齐方法都是在嵌入表示层面对多模态信息进行融合，直接将多个模态的特征嵌入融合在一起，为每个实体生成一个聚合嵌入，然后基于这个聚合嵌入去计算实体之间的相似度。然而这种嵌入层面的融合方法可能无法保持模态的原始特征，两个实体可能在具体的某个模态的嵌入空间内离得很近，但在融合的嵌入空间内离的很远。所以，本发明采用一种从相似性矩阵层面进行特征融合的方法，具体来说，先计算具体模态下实体之间的相似度，得到该模态下的实体相似性矩阵，然后对不同模态下的实体相似性矩阵进行融合得到最终的实体相似性矩阵；

以固定权重融合结构相似性矩阵和语义相似性矩阵的方式忽略了一个事实，这种方式认为结构信息和语义信息对实体对齐的贡献在任何时候都是一个固定值，这就会导致当一个实体缺少结构信息时其语义信息也不会得到更好的利用。现实情况是知识图谱中存在大量的长尾实体，这些实体的结构信息十分匮乏，所以长尾实体在进行实体对齐时需要加大语义信息的权重。现有的工作证明：实体的邻居越多，即实体的度数越大，实体的结构信息就越有效，同时等价实体通常具有等价的邻居；同时实体与种子实体的关联越密切，实体的结构信息也越有效。所以受此启发，本发明基于实体的度数以及实体与种子实体的关联程度，设计了一种可以动态分配权重的融合方法。

在本发明的一个实施例中，请参阅图1，在步骤5中，由于种子集(预对齐实体对的集合)的规模直接影响着实体对齐的效果，种子集的规模越大，实体对齐取得的效果就越好。但是一般来说，预对齐的实体对是少量的，并且人工获取的难度也较高。所以本发明采用一种迭代策略来自动扩充种子集，以克服种子实体对不足的问题。整个迭代的过程：首先获得实体的相似性矩阵，根据相似性矩阵筛选出相似度高于设定阈值的实体对，并视为可靠对齐实体对，然后将筛选出的可靠实体对加入到种子集中，使用新生成的种子集开启下一次训练，重复这一过程，直至新生成的实体对数量低于设定的值S时，停止迭代；

迭代对齐过程不可避免的会产生错误的对齐实体对，这些错误的实体对加入种子集后还会继续影响到后续的训练，这将导致越来越多的错误实体对出现，出现严重的错误累积问题。所以，迭代对齐过程最重要的是筛选出足够可靠的对齐实体对，为此本发明引用了几点策略尽可能地筛选出正确的对齐实体对；

双向最相似实体，实体对齐在方向上具有不对称性，对于源知识图谱中的实体e_i，根据相似性计算，e_i在目标知识图谱中的等价实体为e_j。同样计算e_j在源知识图谱中的等价实体，得到的结果未必就是e_i，但真实情况是实体之间的对齐关系是满足一对一的约束的。所以为了尽可能的减少这类错误的出现，本发明只把那些从两个方向上都互相为最相似实体的实体对视为可靠实体对；

设置相似度阈值θ。本发明设置了相似度阈值θ，即实体e_i和实体e_j在满足互为最相似实体的前提下，同时它们之间的相似度要高于给定阈值θ，此时(e_i,e_j)才被视为可靠实体对；

试用期策略是这样的，对于同时满足互为最相似实体策略且实体间相似度高于相似度阈值θ的实体对，先将其放入候选实体对集合，而不是直接加入种子集。具体来说，每经过m个epoch，进行一轮新的提议，将同时满足互为最相似实体策略且实体间相似度高于相似度阈值θ的实体对加入到候选实体对集合。如果被加入到候选实体对集合中的实体对(e_i,e_j)在接下来的n轮提议中仍然互为最相似实体且满足实体间相似度高于相似度阈值θ(即试用期)，那么就将实体对(e_i,e_j)永久性的加入到种子集中。

在本发明的一个实施例中，上述的迭代对齐实际上是一种半监督的实体对齐方法，无监督实体对齐方法与半监督实体对齐方法的思路类似，都是通过迭代的方式不断产生新的实体对，并筛选出可靠实体对加入种子集，从而扩大种子集规模；不同之处在于半监督的实体对齐方法会事先给定少量的预对齐实体，而无监督的实体对齐方法则要自动获取这部分预对齐实体；本发明利用视觉特征的相似性去推断不同知识图谱间的等价实体，从中选取那些在视觉特征上最为相似的实体对作为迭代过程所需的少量预对齐实体；

具体来说，首先计算源知识图谱与目标知识图谱中实体视觉特征的余弦相似度，然后按余弦相似度值的大小从高到底进行排序，依次选取最相似的实体对；每选取一对实体，就将与这对实体关联的所有其它连接丢弃；最后，可以得到一个根据实体视觉特征相似性获得的实体对列表，该列表包含了源知识图谱和目标知识图谱中视觉特征最相似的前k个实体对，并且没有重复实体；接下来，就可以利用这些自动生成的实体对去开启迭代过程，扩充种子集。以同样的方式，本发明还实现了利用实体名称特征获取少量预对齐实体的无监督实体对齐方法。

在本发明中，相关名词解释如下：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向多模态知识图谱的实体对齐方法，其特征在于，该方法包括以下步骤：

步骤1：将两个待对齐的多模态知识图谱作为模型的输入；

2.根据权利要求1所述的面向多模态知识图谱的实体对齐方法，其特征在于，在步骤2中，生成语义嵌入的步骤包括：

将词袋特征和视觉信息的嵌入进行融合生成语义嵌入。

3.根据权利要求2所述的面向多模态知识图谱的实体对齐方法，其特征在于，所述词袋特征包括关系、属性和实体名称信息。

4.根据权利要求2所述的面向多模态知识图谱的实体对齐方法，其特征在于，获取视觉特征的步骤为：

5.根据权利要求1所述的面向多模态知识图谱的实体对齐方法，其特征在于，在步骤2中，GCN的层数为两层。

6.根据权利要求1所述的面向多模态知识图谱的实体对齐方法，其特征在于，在步骤4中，从相似性矩阵层面进行特征融合，先计算具体模态下实体之间的相似度，得到该模态下的实体相似性矩阵，然后对不同模态下的实体相似性矩阵进行融合得到最终的实体相似性矩阵。

7.根据权利要求1所述的面向多模态知识图谱的实体对齐方法，其特征在于，在步骤5中，迭代过程包括：

获得实体的相似性矩阵，根据相似性矩阵筛选出相似度高于设定相似度阈值的实体对，并视为可靠对齐实体，然后将筛选出的可靠实体对加入到种子集中，使用新生成的种子集开启下一次训练，重复这一过程，直至新生成的实体对数量低于设定的值时，停止迭代。

8.一种面向多模态知识图谱的实体对齐装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。