CN115186110A

CN115186110A - 基于关系增强负采样的多模态知识图谱补全方法与系统

Info

Publication number: CN115186110A
Application number: CN202211093805.6A
Authority: CN
Inventors: 徐童; 陈恩红; 许德容; 吴世伟
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-08-04
Filing date: 2022-09-08
Publication date: 2022-10-14
Anticipated expiration: 2042-09-08
Also published as: CN115048538A; CN115186110B

Abstract

本发明公开了一种基于关系增强负采样的多模态知识图谱补全方法与系统，提出了一种新的知识指导跨模态注意力机制，该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重，并通过相互力注意对关系无关特征进行总结，进而通过嵌入关系指导特征对多模态注意进行双向推理，同时，引入对比损失来训练对比语义采样器，从而得到更合适的采样分布。并且，将masked操作与gumbel‑softmax相结合，以确保有效的梯度反向传播。通过本发明公开的方案，可以采样出多模态知识图谱补全任务所需的高质量负样本，从而有效保障多模态知识图谱的应用质量。

Description

基于关系增强负采样的多模态知识图谱补全方法与系统

技术领域

本发明涉及多模态知识图谱技术领域，尤其涉及一种基于关系增强负采样的多模态知识图谱补全方法与系统。

背景技术

近年来，多模态知识图谱蓬勃发展，它通过补充多模态数据（如视觉和音频属性）来扩展传统知识图谱（KG），为传统知识图谱的符号提供物理世界意义。各种下游应用，例如多模态命名体识别、视觉问答和推荐系统等都有一些相关研究。然而，由于多模态语料库的累积不足，现有的多模态知识图谱可能会比传统知识图谱遭受更严重的不完整性，这会严重影响其可用性和有效性。在这种情况下，以自动推断缺失事实为目标的多模态场景知识图补全（KGC）解决方案引起了广泛关注。与此同时，以前的KGC方法主要尝试通过均匀采样来构造负样本，在训练的后期会遇到消失梯度问题。因此，迫切需要针对多模态知识图谱专门设计的负采样策略。

目前为止，已有少许相关的技术方案与研究成果，部分代表性的公开技术方法涉及以下三种类型：

一、传统的知识图谱补全方法。

传统的知识图谱补全方法最具有代表性的是基于翻译的模型，最早的TransE模型假设实体和关系的向量满足“头实体+关系=尾实体”，据此来学习每个实体和关系的向量表示。后续在翻译模型上的方法，如TransD模型，TransH模型和TransR模型则是对TransE模型的优化和改进，进一步考虑到了不同关系的一对多、多对一的特性。另一种技术是基于语义匹配的方法，包括RESCAL（一种双线性模型），DistMult（一种简化的双线性模型），ComplEx（Distmul的改进模型）等等。然而这些方法只注重于构建一个更好的评分函数，而忽略了负采样策略的重要性。

二、针对知识图谱补全的负采样策略.

近年来，一些有效的抽样策略被提出来。例如，TransH模型定义了一个伯努利分布来代替头部或尾部以考虑复杂的关系，如1对多关系等，但它仍然是一个固定的抽样分布，因此缺乏灵活性。此外，IGAN模型和KBGAN模型都引入了生成对抗网络（GAN），以获得高质量的负样本，其中生成器接收正三元组作为输入并生成负采样分布，而鉴别器从生成器接收负三元组以产生回报，并通过策略梯度优化生成器。然而，这种基于GAN的方法更难训练，而且鉴别器产生的回报在训练过程中总是会发生变化，导致性能不稳定。为了解决这些问题，NScaching模型提出了一种高效的采样方案，使用额外的内存来缓存得分较大的负样本，并按权重对负三元组进行采样。此外，RotatE模型提出了一种自我对抗的负抽样，它使用每个负样本的得分函数来产生概率，作为相应负样本的损失权重。SAN考虑在KG中使用结构知识，并认为彼此邻域内的实体更有可能相互关联，因此使用仅限于实体k-hop邻域（k-邻）的实体子集作为困难样本。

总的来说，前面的方法已经证明了它们的有效性。核心点是利用KG的结构知识或利用负样本分数的信息来判断困难样本。然而，它们仍然存在两个问题：1）由于KG的不完全性，用结构知识训练的模型只能提供有限的得分信息；2）需要一种更有效的参数优化策略以利用KGC模型的负样本loss（损失）。尽管这些技术在传统知识图谱上取得了不错的性能，但它们还无法应用于多模态知识图谱。

三、多模态知识图谱。

近年来，与多模态知识图谱相关的任务越来越多。例如，IKRL模型和RSME模型试图将图像与结构化知识结合起来进行知识嵌入学习。此外，TransAE模型，以及MoussellySergieh等人提出的模型均将TransE扩展到多模态评分函数以整合视觉和文本信息。KBLRN模型还从潜在的、关系的和数字的特征中学习了知识库的表示。尽管它们都具有不错的性能，但仍然缺乏专门设计的针对多模态知识图谱补全的负采样策略，这会导致在训练后期梯度消失的问题。

发明内容

本发明的目的是提供一种基于关系增强负采样的多模态知识图谱补全方法与系统，可以采样出多模态知识图谱补全任务所需的高质量负样本，从而有效保障多模态知识图谱的应用质量。

本发明的目的是通过以下技术方案实现的：

一种基于关系增强负采样的多模态知识图谱补全方法，包括：

构建多模态关系增强的负采样模型，包括：对比语义采样器与基于掩码的耿贝尔分布采样计算单元；

训练阶段：对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征，并利用尾实体与关系的结构知识获得样本尾实体的结构特征，每一个样本为包含头尾实体及其关系的三元组；使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模，再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算，获得样本尾实体的知识指导的视觉表征与知识指导的文本表征；给定当前正样本，利用实体集合构造多个正样本与多个负样本，所有正样本与负样本的头实体及关系相同，尾实体不同；并且，通过知识图谱补全模型采样出多个负样本，根据构造出的负样本是否属于采样出的负样本，为每一构造出的负样本配置相应的权重，为构造出的所有正样本配置相同的权重；对于当前正样本，分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度，知识指导的文本表征之间的相似度，以及结构特征之间的相似度；基于三类相似度与相应正负样本的权重构建对比损失函数，目标是缩小正样本之间的差距，同时扩大正样本和负样本之间的差距；基于掩码的耿贝尔分布采样计算单元的输入为三类相似度，通过集成masked操作的gumbel-softmax重参数化技巧，计算出每一负样本的采样分布，根据采样分布采样出相应的负样本，并结合正样本计算出知识图谱补全模型的损失函数；利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失，对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练，获得训练后的知识图谱补全模型；其中，masked操作表示二值化的掩码操作，用于移除正样本，gumbel-softmax表示耿贝尔softmax；

测试阶段，利用给定的正样本与实体集合构造多个样本，并利用训练后的知识图谱补全模型输出每一样本的得分，将所有样本按照得分大小做降序排列，选出排序靠前的若干样本。

一种基于关系增强负采样的多模态知识图谱补全系统，包括：

模型构建单元，用于构建多模态关系增强的负采样模型，包括：对比语义采样器与基于掩码的耿贝尔分布采样计算单元；

训练单元，应用于训练阶段；所述训练阶段包括：对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征，并利用尾实体与关系的结构知识获得样本尾实体的结构特征，每一个样本为包含头尾实体及其关系的三元组；使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模，再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算，获得样本尾实体的知识指导的视觉表征与知识指导的文本表征；给定当前正样本，利用实体集合构造多个正样本与多个负样本，所有正样本与负样本的头实体及关系相同，尾实体不同；并且，通过知识图谱补全模型采样出多个负样本，根据构造出的负样本是否属于采样出的负样本，为每一构造出的负样本配置相应的权重，为构造出的所有正样本配置相同的权重；对于当前正样本，分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度，知识指导的文本表征之间的相似度，以及结构特征之间的相似度；基于三类相似度与相应样本的权重构建对比损失函数，目标是缩小正样本之间的差距，同时扩大正样本和负样本之间的差距；基于掩码的耿贝尔分布采样计算单元的输入为三类相似度，通过集成masked操作的gumbel-softmax重参数化技巧，计算出每一负样本的采样分布，根据采样分布采样出相应的负样本，并结合正样本计算出知识图谱补全模型的损失函数；利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失，对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练，获得训练后的知识图谱补全模型；其中，masked操作表示二值化的掩码操作，用于移除正样本，gumbel-softmax表示耿贝尔softmax；

测试单元，应用于测试阶段；所述测试阶段包括：利用给定的正样本与实体集合构造多个样本，并利用训练后的知识图谱补全模型输出每一样本的得分，将所有样本按照得分大小做降序排列，选出排序靠前的若干样本。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，提出了一种新的知识指导跨模态注意力机制，该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重，并通过相互力注意力对关系无关特征进行总结，进而通过嵌入关系指导特征对多模态注意进行双向推理，同时，引入对比损失来训练对比语义采样器，从而得到更合适的采样分布。并且，将masked操作与gumbel-softmax相结合，以确保有效的梯度反向传播。通过本发明公开的方案，可以采样出多模态知识图谱补全任务所需的高质量负样本，从而有效保障多模态知识图谱的应用质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于关系增强负采样的多模态知识图谱补全方法的流程图；

图2为本发明实施例提供的多模态知识图谱中的不同关系对应的负样本的示意图；

图3为本发明实施例提供的一种多模态关系增强的负采样模型的示意图；

图4为本发明实施例提供的知识指导跨模态注意力机制的原理图；

图5为本发明实施例提供的一种基于关系增强负采样的多模态知识图谱补全系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的基于关系增强负采样的多模态知识图谱补全方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于关系增强负采样的多模态知识图谱补全方法，如图1所示，主要包括：

步骤1、构建多模态关系增强的负采样模型，包括：对比语义采样器与基于掩码的耿贝尔分布采样计算单元。

步骤2、训练阶段。

对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征，并利用尾实体与关系的结构知识获得样本尾实体的结构特征，每一个样本为包含头尾实体及其关系的三元组；使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模，再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算，获得样本尾实体的知识指导的视觉表征与知识指导的文本表征；给定当前正样本，利用实体集合构造多个正样本与多个负样本，所有正样本与负样本的头实体及关系相同，尾实体不同；并且，通过知识图谱补全模型采样出多个负样本，根据构造出的负样本是否属于采样出的负样本，为每一构造出的负样本配置相应的权重，为构造出的所有正样本配置相同的权重；对于当前正样本，分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度，知识指导的文本表征之间的相似度，以及结构特征之间的相似度；基于三类相似度与相应正负样本的权重构建对比损失函数，目标是缩小正样本之间的差距，同时扩大正样本和负样本之间的差距；基于掩码的耿贝尔分布采样计算单元的输入为三类相似度，通过集成masked操作的gumbel-softmax重参数化技巧，计算出每一负样本的采样分布，根据采样分布采样出相应的负样本，并结合正样本计算出知识图谱补全模型的损失函数；利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失，对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练，获得训练后的知识图谱补全模型；其中，masked操作表示二值化的掩码操作，用于移除正样本。

需要说明的是，知识图谱是目前已有的数据结构，是人类对于世界知识的表达和存储的一种方式，其中的实体（包含头尾实体）、实体之间的关系，以及头尾实体及关系构成的三元组均为本领域通用术语。实体可以表示自然界中任何一类客观存在的对象或任何一种约定俗成的概念，关系则用于描述不同对象之间的相互作用、依赖关系。

本发明实施例中，对于每一正样本都可以通过知识图谱补全模型采样出多个负样本，具体数目可以由用户进行设定（例如，20个）。考虑到，知识图谱补全模型采样负样本的流程可通过常规技术实现，因此，不做赘述。本发明实施例中，正负样本都通过对比语义采样器计算出相应尾实体的结构特征、知识指导的视觉表征与知识指导的文本表征。正负样本中的头实体与关系是相同的，仅有尾实体不同，此外，正样本是指头尾实体及其关系正确，反之头尾实体及其关系不正确则为负样本，示例性的：（手机，用途，打电话），（手机，用途，发短信）均为正样本，（手机，用途，做饭）为负样本。

步骤3、测试阶段，利用给定的正样本与实体集合构造多个样本，并利用训练后的知识图谱补全模型输出每一样本的得分，将所有样本按照得分大小做降序排列，选出排序靠前的若干样本。

具体的，将给定的正样本中的尾实体替换成知识图谱实体集合中其它所有实体得到的所有样本，所有样本均输入至训练后的知识图谱补全模型，由知识图谱补全模型对每一样本进行评分，获得每一样本的得分，并选出得分最高的若干样本作为困难负样本，选出的具体数目可以由用户根据实际情况或者经验进行设定。

根据选出的样本结果，可以对训练后的知识图谱补全模型的性能进行评估，性能指标可以选择MRR（Mean Reciprocal Rank，平均倒数排名）指标或者其他现有指标，评估过程可参照常规技术，本发明不做赘述。

本发明实施例提供的上述方案主要包括两个核心部分：

（1）提出了一种新的知识指导跨模态注意力机制（KCA），该机制集成了同一实体的多个关系来估计多模态语义特征的双向注意力权重。具体来说，设计了两个部分，其中一部分通过相互注意力对关系无关特征进行总结，另一部分通过嵌入关系指导特征（例如，歌手、音乐和相关视觉因素）对多模态注意进行双向推理。此外，考虑到KG中广泛存在的一对多关系，例如，关系‘获奖’可能会将某奖项和相当多的著名歌手联系起来作为该奖项的获奖者，这自然会在KG中产生一些正三元组，即两个相似的实体可能都是正样本。这一现象促使学习正样本之间更相似的语义特征表示，以及1对多关系下正负样本之间差异更大的语义特征表示。因此，基于知识指导跨模态注意力机制，进一步引入对比损失来训练对比语义采样器，其目的是学习正样本和负样本之间的多模态语义相似/差异表示，以得到更合适的采样分布。

（2）设计了一个多模态关系增强的负采样（MMRNS）模型，通过联合利用多模态数据和复杂的知识图谱关系来增强实体的语义表示，从而计算出困难负样本（模型难以学习的样本）。具体来说，通过对比语义采样器增强知识指导跨模态注意力机制，可以学习正样本之间更相似的语义特征表示，以及不同关系下困难样本之间更差异化的语义特征表示。与此同时，考虑到不可微采样过程可能导致难以通过优化KGC模型（知识图谱补全模型）来端到端地更新采样网络参数，进一步引入maskedgumbel-softmax技术，以实现负采样模型的可微分。具体而言，在gumbel-softmax的基础上集成了masked操作，以确保前向传播的采样过程中过滤掉某些样本，反向传播过程中可以返回梯度。此外，引入随迭代次数变化的因子，动态处理早期和后期训练阶段的探索-开发的权衡。

本领域技术人员可以理解，gumbel-softmax为专有名称，它是一种重参数化技巧，可以称为耿贝尔softmax。

本领域技术人员可以理解，困难负样本为专有名称，属于模型难以学习的样本，困难负样本为与正样本具有相似属性和语义信息的负样本。

为了便于理解，下面针对本发明上述方案做详细的介绍。

一、负采样问题定义。

如图2所示，为多模态知识图谱中的不同关系对应的负样本案例。经研究发现，当联合学习多模态属性时，知识图谱中的关系可能起到重要作用，因为它们可以作为额外的上下文指导多模态之间互补语义的学习。通过图2所示的示例可以说明知识图谱中关系的影响。通常，具有相似属性和语义信息的负样本与正样本更可能是困难负样本。因此，在为实体“女歌手”（具体为一个女歌手的人名）选择困难负样本时，考虑到女性和歌手的属性，应该尝试突出在视觉和文本信息中反映这些属性的特征。然而，不同的属性应该通过考虑不同的关系来强调。例如，关于“获奖”的关系，希望注重与歌手和音乐相关的多模态属性，比如在音乐会上弹吉他的歌手（无论男女）。相应地，对于关系“女朋友”来说，具有女性属性的例子可能是更好的选择。在这种情况下，需要一个更全面的解决方案，以学习与知识图谱关系紧密耦合的多模态属性特征。

给定一个知识图谱

，其中，

表示实体集合，

表示关系集合。

表示一个三元组（一个样本），头实体

和尾部实体

通过一个有向的关系

连接。KGC任务可以建模为一个排序问题，即给定一个正三元组

和多个负三元组

，KGC模型通过有效的评分函数来提高正三元组的分数，降低负三元组的分数。而本发明的负采样策略的目标是利用三元组和相应的多模态数据来最大化困难负样本的采样概率，困难负样本在语义上与正三元组的实体具有高的相似度。

二、特征预处理。

本发明实施例中，对比语义采样器中使用预训练模型从样本的图像与文本对中分别提取出视觉特征与文本特征。

如图3所示，为多模态关系增强的负采样模型的示意图，提供了两种预训练模型的示例。其中，通过BEiT模型提取初步的视觉特征，BEiT模型是一种用来学习语义区域和对象边界的预训练模型，将平均池化应用于视觉特征，以降低计算复杂度。通过SBERT模型提取了初步的文本特征，SBERT模型是一个对语义-文本相似性任务有显著的改进的预训练模型，由于不同长度单词的文本特征长度是不同的，因此还使用切割和填充来得到相同维数的文本特征。

由于尾实体t和关系r一样是结构知识表示，只需将它们拼接并输入到一个全连接网络中，以集成关系信息，获得结构特征：

其中，

表示结构特征，concat表示拼接操作，

表示激活函数；本发明实施例中，所有W与b都分别表示可训练的权重和偏置参数，具体的，此处的

与

表示上一公式中所涉及的全连接网络的权重和偏置参数。

图3中，Pos表示正样本，Neg表示负样本，e _i表示尾实体的视觉特征，e _t表示尾实体的文本特征。

三、知识指导跨模态注意力机制（KCA）。

本发明实施例提出的知识指导跨模态注意力机制，通过整合复杂关系来学习跨模态双向注意力权重（涵盖了四个分支部分，具体在后文进行介绍）。

具体来说，知识指导跨模态注意力机制首先尝试捕捉不同模态之间的交互，即视觉特征和文本特征的交互，其目的是同时突出跨模态数据之间的相同语义特征，以学习关系无关的特征。本发明实施例中，定义关系无关的特征为在不同关系下对识别困难样本都很重要的特征。例如，在图2中，无论关系是什么，女歌手的负样本预计是一个与人相关的实体，其中包含更多与人体或面部相关的属性，而不是其他不相关的实体，如位置、区域等信息。

同时，知识指导跨模态注意力机制在捕捉多模态交互后进一步整合关系信息，以指导模型应该突出哪些多模态语义特征。例如，当关系是“获奖”时，KCA旨在增强歌手和音乐等属性的跨模态注意力权重。当关系是“女朋友”时，KCA旨在增强女性相关属性的跨模态注意力权重。值得注意的是，关系作为一种分类数据，包含粗粒度标签信息，通常与图像和文本没有语义相似性或相关性。因此，在引入关系指导时，首先对文本和视觉特征的交互进行建模，然后引入关系嵌入来分别指导图像和文本的跨模态注意权重，主要流程包括：

（1）对文本特征和视觉特征的交互进行建模，获得跨模态矩阵。具体的：将文本特征和视觉特征分别输入至全连接网络，进行处理非线性映射和维度统一；将全连接网络针对文本特征的输出进行转置后与全连接网络针对视觉特征的输出相乘，获得跨模态矩阵。

（2）跨模态矩阵输入至四个支路：第一支路中利用跨模态矩阵生成视觉特征的第一注意力权重，结合视觉特征的第一注意力权重与视觉特征生成关系无关的视觉表征，第二支路中使用知识图谱中的关系指导跨模态矩阵生成视觉特征的第二注意力权重，结合视觉特征的第二注意力权重与视觉特征生成关系指导的视觉表征，结合第一支路与第二支路生成的视觉表征，获得知识指导的视觉表征；第三支路中使用知识图谱中的关系指导跨模态矩阵生成文本特征的第一注意力权重，结合文本特征的第一注意力权重与文本特征生成关系指导的文本表征，第四支路中利用跨模态矩阵生成文本特征的第二注意力权重，结合文本特征的第二注意力权重与文本特征生成关系无关的文本表征，结合第三支路与第四支路生成的文本表征，获得知识指导的文本表征。

具体的：在第一支路与第二支路中，输入的是转置后的跨模态矩阵；第一支路中，转置后的跨模态矩阵通过softmax函数生成视觉特征的第一注意力权重，第二支路中，将知识图谱中的关系与转置后的跨模态矩阵逐元素相乘生成视觉特征的第二注意力权重；第三支路中，将知识图谱中的关系与跨模态矩阵逐元素相乘生成文本特征的第一注意力权重；第四支路中，跨模态矩阵通过softmax函数生成文本特征的第二注意力权重；其中，应用于第二支路与四支路的知识图谱中的关系是通过两个全连接网络针对同一个关系进行处理，获得的两个不同的关系表征。

图4展示了上述知识指导跨模态注意力机制的主要原理，下面结合图4提供以上（1）~（2）两个流程中所涉及的计算过程。

如图4左侧部分，视觉特征与文本特征分别输入至全连接网络（FC），用于非线性映射和维度统一，表示为：

其中，d _i为特征数目，d _t为单词数目，d _att为特征向量的长度，R为实数集符号；R(.)表示激活函数LeakyRELU，

与

分别表示视觉特征与文本特征，

与

分别表示全连接网络输出的视觉特征与文本特征；

与

表示处理视觉特征的全连接网络中的权重与偏置参数，

与

表示处理文本特征的全连接网络中的权重与偏置参数。

跨模态矩阵M通过下面公式计算可得：

其中，T为转置符号。

跨模态矩阵M旨在捕捉并突出图像和文本中相同的语义特征，输入至分为四个分支。

在分支①中，利用softmax函数规范化跨模态矩阵M以生成受文本每个句子指导的视觉区域的注意力权重（视觉特征的第一注意力权重），再乘以全连接网络输出的视觉特征

以生成关系无关的视觉表征

，视觉表征

包含的信息对于任何关系类型都是通用的，相关计算过程表示为：

其中，参数dim表示维度索引。

在分支②中，旨在进一步将关系嵌入与跨模态指导语义信息相结合。分支②与分支①的区别在于，分支②使用了知识图谱中的关系来引导标准化的注意力权重。在这种情况下，注意力权重与全连接网络输出的视觉特征

相乘，以生成有关系指导的视觉表征

：

其中，

为利用知识图谱中的关系计算出的关系表征，如图4中间虚线部分所示，利用知识图谱中的关系r被输入至上下两个全连接网络，计算出两个关系表征分别应用于分支②与分支③，计算方式如下：

其中，

表示激活函数；

与

表示上方全连接网络的权重与偏置参数，上方全连接网络输出的关系表征应用于分支②；

与

表示下方全连接网络的权重与偏置参数，下方全连接网络输出的关系表征应用于分支③。

分支③与分支②类似，跨模态矩阵M与相应的关系表征

逐元素相乘，再与全连接网络输出的文本特征

相乘生成关系指导的文本表征，表示为：

。

分支④与分支①类似，跨模态矩阵M经过softmax函数，得到文本特征的第二注意力权重，再与全连接网络输出的文本特征

相乘以生成关系无关的文本表征

。

分支①与分支②获得的表征

与

送入至一个层规范化来统一分布，然后求和以获得知识指导的视觉表征

，分支③与分支④获得的表征

与

送入至一个层规范化来统一分布，然后求和以获得知识指导的文本表征

，表示为：

其中，

表示层规范化操作。

对于每一正负样本中的尾实体都通过上述方式进行处理，获得对应的知识指导的视觉表征以及获得知识指导的文本表征。

四、对比损失函数。

本发明实施例中计算的对比损失函数是以相似度作为输入，因此，先介绍相似度的计算方式，本发明主要涉及三类相似度：知识指导的视觉表征之间的相似度，知识指导的文本表征之间的相似度，以及结构特征之间的相似度，三类相似度都是有预先相似性来衡量，区别主要在于衡量的对象不同。

本发明实施例中，所有样本的视觉特征与文本特征都通过前文介绍的知识指导跨模态注意力机制进行处理（所有样本均共享图4所示知识指导跨模态注意力机制中的所有参数），获得相应的知识指导的视觉表征与知识指导的文本表征，结构特征也通过前文介绍的方式计算。

相似度

计算公式表示为：

其中，

为一个设定值，

与

表示两个样本（当前正样本与其他样本）中尾实体的知识指导的视觉表征、知识指导的文本表征或者结构特征（都通过前面介绍的方式计算），即带入不同类别的

与

获得不同类别的相似度，令

，

为知识指导的视觉表征之间的相似度，

为知识指导的文本表征之间的相似度，

为结构特征之间的相似度。

基于计算出的三类相似度，构建对比损失函数，用以缩小正样本之间的差距，扩大正样本和负样本之间的差距，并且，集成了一种自我对抗技术，以进一步提高模型性能。

所述对比损失函数表示为：

其中，

表示对比损失函数，

表示视觉表征相似度的对比损失函数，

表示文本表征相似度的对比损失函数，

表示结构表征相似度的对比损失函数。

令相似度的对比损失函数

，计算公式表示为：

其中，P是正样本集合，N是负样本集合；

表示相似度，当

时，

表示知识指导的视觉表征之间的相似度，z表示当前正样本尾实体的知识指导的视觉表征，

表示正样本j尾实体的知识指导的视觉表征，

表示负样本n尾实体的知识指导的视觉表征；当

时，

表示知识指导的文本表征之间的相似度，z表示当前正样本尾实体的知识指导的文本表征，

表示正样本j尾实体的知识指导的文本表征，

表示负样本n尾实体的知识指导的文本表征；当

时，

表示结构特征之间的相似度，z表示当前正样本尾实体的结构特征，

表示正样本j尾实体的结构特征，

表示负样本n尾实体的结构特征；、

与

分别表示正样本j与负样本n的权重。

样本的权重通过如下公式计算：

其中，S表示采样的负样本集合，它属于负样本集合N的子集，

与

表示均表示采样的负样本集合中的样本，i与l表示相应样本的序号；KGC(.)表示多模态场景知识图谱补全模型输出样本的得分；

表示样本i的权重，

是采样温度，

表示知识图谱中实体数目。

五、masked Gumbel-Softmax重参数化技巧。

本发明实施例中，masked Gumbel-Softmax是指集成有masked操作的Gumbel-Softmax重参数化技巧。

此部分主要解释如何使用本发明提供的可微采样方法，即：将masked操作与Gumbel-Softmax相结合，以确保有效的梯度反向传播。masked操作旨在克服将Gumbel-Softmax引入KG采样过程的问题。

1、Gumbel-Softmax。

由于分类分布的采样过程独立于优化过程，KGC模型的梯度不能反向传播到采样网络。因此，对比语义采样器的可训练参数不能与KGC模型的训练阶段以端到端的方式进行优化。为了实现梯度反向传播，引入了gumbel-softmax重参数化技巧，它通过使用softmax函数作为argmax的可微近似，产生了一个连续分布，可以从离散概率分布中逼近样本p的概率分布：

，其中，向量

中的每个元素都服从标准的Gumbel（耿贝尔）分布，

为一个伸缩因子，用于调整softmax的尺度。

2、masked向量。

考虑到图像、文本和结构中正样本和负样本的语义相似性，利用softmax将相似性转化为抽样概率，分别计算概率分布再求平均：

其中，sim ⁱ、sim ^t、sim ^s分别表示知识指导的视觉表征之间的相似度、知识指导的文本表征之间的相似度、结构特征之间的相似度；

为平衡因子。

然而p不是最终的抽样概率分布。由于1对多关系在知识图谱中十分常见，因此并非所有实体都可以被视为负样本。大多数方法都会过滤掉非训练样本的正样本。实现这一点的办法是设置采样概率分布p中正样本的位置为零。但这将使gumbel-softmax不可微，这与本发明目的相矛盾。因此，本发明引入masked向量（长度等于实体数目

），masked向量中负样本尾实体位置的值被设置为1.0，正样本尾实体位置的值被设置为趋近于零的数值；将概率分布p逐元素乘以masked向量，并将log函数中的乘法替换为加法，masked Gumbel-Softmax的计算公式如下：

其中，向量

中的每一个元素都服从Gumbel分布，

表示单个负样本的采样分布。

根据计算出的负样本的采样分布采样出相应的负样本，将采样出的负样本与所有正样本输入至KGC模型，可以计算出KGC模型的损失

，此部分计算过程可参照常规技术，KGC模型可根据需要选择目前已有的模型，例如，TransE模型或者DistMult模型等，此部分与常规技术的主要区别是：常规技术使用的负样本是随机得到的，而本发明是通过计算采样分布采样出的。

六、总的训练损失。

本发明实施例中，结合前述第四~第五两个部分计算出的损失，构造总的训练损失L，表示为：

其中，

为设定的权重系数。

通过上述损失函数训练多模态关系增强的负采样模型与KGC模型，直至收敛。

本发明实施例中，所述多模态关系增强的负采样模型可以理解为一种辅助工具，用于KGC模型的辅助训练，训练完毕后，直接使用KGC模型对构造的所有样本进行评分，根据得分大小选出困难负样本。

实施例二

本发明还提供一种基于关系增强负采样的多模态知识图谱补全系统，其主要基于前述实施例提供的方法实现，如图5所示，该系统主要包括：

训练单元，应用于训练阶段；所述训练阶段包括：对比语义采样器中使用预训练模型从样本尾实体对应的图像与文本对中分别提取出视觉特征与文本特征，并利用尾实体与关系的结构知识获得样本尾实体的结构特征，每一个样本为包含头尾实体及其关系的三元组；使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模，再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算，获得样本尾实体的知识指导的视觉表征与知识指导的文本表征；给定当前正样本，利用实体集合构造多个正样本与多个负样本，所有正样本与负样本的头实体及关系相同，尾实体不同；并且，通过知识图谱补全模型采样出多个负样本，根据构造出的负样本是否属于采样出的负样本，为每一构造出的负样本配置相应的权重，为构造出的所有正样本配置相同的权重；对于当前正样本，分别计算与其他每一正样本及每一负样本的尾实体的知识指导的视觉表征之间的相似度，知识指导的文本表征之间的相似度，以及结构特征之间的相似度；基于三类相似度与相应正负样本的权重构建对比损失函数，目标是缩小正样本之间的差距，同时扩大正样本和负样本之间的差距；基于掩码的耿贝尔分布采样计算单元的输入为三类相似度，通过集成masked操作的gumbel-softmax重参数化技巧，计算出每一负样本的采样分布，根据采样分布采样出相应的负样本，并结合正样本计算出知识图谱补全模型的损失函数；利用对比损失函数与知识图谱补全模型的损失函数构造总的训练损失，对所述多模态关系增强的负采样模型与知识图谱补全模型进行训练，获得训练后的知识图谱补全模型；其中，masked操作表示二值化的掩码操作，用于移除正样本，gumbel-softmax表示耿贝尔softmax；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于关系增强负采样的多模态知识图谱补全方法，其特征在于，包括：

2.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法，其特征在于，所述利用尾实体与关系的结构知识获得样本尾实体的结构特征包括：

将尾实体t和关系r拼接后，输入至全连接网络，再结合尾实体t获得结构特征，表示为：

其中，

表示结构特征，concat表示拼接操作，

表示激活函数，

与

表示全连接网络的权重和偏置参数。

3.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法，其特征在于，所述使用知识指导跨模态注意力机制对文本特征和视觉特征的交互进行建模，再引入关系嵌入来分别指导视觉特征与文本特征的跨模态注意权重计算，获得样本尾实体的知识指导的视觉表征与知识指导的文本表征包括：

对文本特征和视觉特征的交互进行建模，获得跨模态矩阵；

跨模态矩阵输入至四个支路：第一支路中利用跨模态矩阵生成视觉特征的第一注意力权重，结合视觉特征的第一注意力权重与视觉特征生成关系无关的视觉表征，第二支路中使用知识图谱中的关系指导跨模态矩阵生成视觉特征的第二注意力权重，结合视觉特征的第二注意力权重与视觉特征生成关系指导的视觉表征，结合第一支路与第二支路生成的视觉表征，获得知识指导的视觉表征；第三支路中使用知识图谱中的关系指导跨模态矩阵生成文本特征的第一注意力权重，结合文本特征的第一注意力权重与文本特征生成关系指导的文本表征，第四支路中利用跨模态矩阵生成文本特征的第二注意力权重，结合文本特征的第二注意力权重与文本特征生成关系无关的文本表征，结合第三支路与第四支路生成的文本表征，获得知识指导的文本表征。

4.根据权利要求3所述的一种基于关系增强负采样的多模态知识图谱补全方法，其特征在于，

在第一支路与第二支路中，输入的是转置后的跨模态矩阵；第一支路中，转置后的跨模态矩阵通过softmax函数生成视觉特征的第一注意力权重，第二支路中，将知识图谱中的关系与转置后的跨模态矩阵逐元素相乘生成视觉特征的第二注意力权重；

第三支路中，将知识图谱中的关系与跨模态矩阵逐元素相乘生成文本特征的第一注意力权重；第四支路中，跨模态矩阵通过softmax函数生成文本特征的第二注意力权重；

其中，应用于第二支路与四支路的知识图谱中的关系是通过两个全连接网络针对同一个关系进行处理，获得的两个不同的关系表征。

5.根据权利要求1所述的一种基于关系增强负采样的多模态知识图谱补全方法，其特征在于，所述对比损失函数表示为：