CN113486190A

CN113486190A - 一种融合实体图像信息和实体类别信息的多模态知识表示方法

Info

Publication number: CN113486190A
Application number: CN202110687397.6A
Authority: CN
Inventors: 刘建毅; 张茹; 李萌; 吕智帅
Original assignee: Beijing Huike Xinan Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Huike Xinan Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2021-10-08
Anticipated expiration: 2041-06-21
Also published as: CN113486190B

Abstract

本发明公开一种融合实体图像信息和实体类别信息的多模态知识表示方法，该模型将实体基于结构，基于图像以及基于类别的知识表示统一进行联合训练，完成多模态知识图谱表示。包括：实体图像信息的嵌入方法，负责实体图像特征信息的抽取以及从图像空间到知识空间的转换；实体类别信息的嵌入方法，对实体类别和对应三元组关系的语义联系进行建模，构建实体基于类别下的表示；融合实体图像信息和实体类别信息的多模态知识表示模型，负责融合实体图像信息和实体类别信息多模态的知识表示学习。本发明通过构造多模态知识表示方法，为解决知识图谱推理技术中的数据稀疏问题，高效计算实体和关系的语义联系，融合和推理的性能提供了新的思路。

Description

一种融合实体图像信息和实体类别信息的多模态知识表示方法

技术领域

本发明属于知识图谱推理技术，尤其涉及信息检索、问答系统和智能对话等人工智能相关领域。

背景技术

随着第五代移动通信(Fifth Generation,5G)时代的到来，互联网技术得到了快速发展，数据的体量和维度爆炸性增长，面对海量数据，用户对搜索的精准化和智能化的需求日益增长，为用户提供能够读懂用户需求的智能服务，这一问题亟待解决。知识图谱作为一种直观的发现、管理和利用知识的知识表达方式应运而生。要理解知识图谱，首先要对知识库做出说明。知识库(knowledge base,KB)是将人类知识结构化形成的知识系统，其中包含了基本事实、通用规则和其它有关信息，在知识库中，将世界上的具象事物与抽象概念等表示为实体(entity)，将实体之间的联系表示为关系(relation)。

在知识库中，知识通常是以三元组的形式对实体与实体之间的关系进行表示。不同实体之间根据不同的关系连接在一起，通过众多三元组的链接，知识库中储存的知识最终构成错综复杂的知识图谱 (Knowledge graph,KG)，其中实体用知识图谱中的节点表示，而关系则用连接节点的边来表示。

为了提高搜索速度和准确性、改善用户搜索体验，知识图谱这一概念最早于2012年被美国GOOGLE公司提出。GOOGLE公司从多来源进行信息收集，并进行数据整合完成知识抽取，再经过知识融合等步骤最终完成知识图谱的构建。知识图谱在GOOGLE搜索上的成功应用激起了很多国内外互联网公司对于知识图谱的研究兴趣，越来越多的公司开始尝试将知识图谱应用到具体业务上，例如微软开发的用于智能搜索和广告业务的Probase，Facebook用于智能搜索和个性化推荐的社交图谱，阿里巴巴用于智能导购、智能搜索、个性化推荐以及智能问答的电商知识图谱，美团用于多种生活场景智能搜索和个性化推荐的AI大脑知识图谱等等，知识图谱已经在多个领域展现出了良好的应用前景。

在信息爆炸的时代，越来越多的大型知识图谱被构建出来用来存储知识，如Freebase、DBpedia、WordNet和Wikidata等，一方面知识库中已经存在了海量的数据，另一方面，每天又会有大量的新知识产生，如何有效地将新知识与已有知识融合，更好地利用海量知识中存在的有价值信息，是我们如今亟待解决的问题。基于网络形式的知识表示在大规模的知识图谱下存在着计算效率低下和数据稀疏等问题。目前大部分开放的知识图谱主要是由人工或者半自动化的方式构建，导致这些图谱面临着严重的知识缺失问题，同时由于知识图谱本身图结构的存储方式，导致计算效率低下。

为解决这些问题，知识推理方法应运而生，作为知识图谱的研究热点之一，可以应对上述问题，完成知识图谱的补全。知识表示学习的目的是希望通过一定的方法实现知识图谱中实体和关系的分布式表示，完成知识图谱中实体和关系低维连续向量空间的转换。知识表示学习方法旨在解决计算效率低下和数据稀疏的问题，捕获实体和关系之间的语义联系时可以采用计算低维稠密向量之间相似度的方法，使得知识表示学习各项任务的性能得到了显著提升，因此在知识图谱补全、智能搜索等任务中得到了广泛应用。

随着深度学习技术的不断发展，深度学习算法逐渐被应用到知识表示学习领域，在很多场景下都取得了很好的效果。知识推理技术已在信息检索、推荐系统、电子商务等应用领域发挥了重要的作用，知识推理能够更好地理解用户搜索意图，提供更精准的搜索答案，回答复杂的推理问题。同时知识推理也在疾病诊断、金融反欺诈、数据异常分析等诸多不同的领域已展示出良好的应用前景。基于知识表示的知识推理能够显著提升计算效率，有效缓解数据稀疏，实现异质信息融合，应用前景十分广阔，但目前仍然面临一些挑战，因此，对于基于知识表示的知识推理方法研究是十分有必要的。

发明内容

本发明提出一种融合实体图像信息和实体类别信息的多模态知识表示方法，将多模态信息的知识表示与改进的GAT模型相结合。该模型不仅仅关注三元组结构特点，同时将知识图谱中实体类别信息和知识图谱外部丰富的视觉信息考虑进去，将实体基于结构的知识表示、基于图像的知识表示以及基于类别的知识表示统一进行联合训练，完成多模态知识图谱表示。包括以下步骤：

1.在融合实体图像时，我们通过设计图编码器来完成实体图像特征信息的抽取以及从图像空间到知识空间的转换，并使用注意力机制进行实体的多图像学习模型，构建实体基于图像的表示；

2.在融合实体类别信息时，我们通过注意力机制对实体类别和对应三元组关系的语义联系进行建模，构建实体基于类别下的表示；

3.在对模型进行训练时，我们采用改进的图注意力网络更深层次地挖掘实体特征，得到稳定的知识表达，用于后续相关任务的使用。

对于实体图像视觉信息的抽取我们设计了一种基于神经网络的实体图像编码器，我们首先会使用图像方面经典的神经网络模型抽取实体图像中蕴含的丰富知识细节，由于图像特征和知识图谱知识处于不同的语义空间，存在空间异质性，我们还需要通过映射矩阵来完成实体基于图像的知识表示。实体图像信息的嵌入旨在充分挖掘实体图像当中的知识细节，从多方面丰富实体特征信息，构建实体基于图像信息的知识表示，以此来提升知识表示学习模型的性能。

实体图像信息的融合存在两个主要问题：一是图像与知识图谱当中知识存储结构不同，如何构建合理的模型完成两种不同表达形式知识的融合，实现异质信息的融合，二是描述实体信息的图像往往又成千上百张，图像本身的质量也良莠不齐，描述图像特征的角度和粒度也多种多样，如何从这些海量图片中挑选出合适的图像来进行训练也是很大的挑战。

针对上述提到的难点问题，我们设计了一种融合实体图像信息的方法，将实体图像信息通过一系列操作转化为实体基于图像的知识表示，完成知识从图像空间到知识空间的映射。对于实体图像，我们使用实体图像编码器从实体图像当中抽取特征信息，形成一个实体对应的基于图像的表示。我们首先使用了神经网络完成图像特征的抽取，这些特征中包含了丰富的实体视觉信息，接下来我们使用映射矩阵将处于图像空间的特征表示映射到知识空间中，建立实体基于图像的表示。最后引入注意力机制为实体的一系列图像表示赋予权重，经过加权求和操作得到实体基于图像信息的知识表示。

附图说明

图1实体图像编码器流程图。

图2注意力机制构建实体基于图像的表示流程示意图。

图3注意力机制构建实体基于类别的表示流程示意图。

图4融合实体图像信息和实体类别信息多模态的知识表示模型示意图。

具体实施方式

为使本发明的上述特点和优点更明显易懂，下面结合具体实施方式和附图对本发明作进一步详细说明。

本发明设计的实体图像信息的嵌入方法，其中实体图像编码器流程如图1所示，图2为注意力机制构建实体基于图像的表示流程示意图，其主要步骤包括：

步骤101、图像特征提取。对于视觉知识，我们使用在ImageNet 上预先训练的VGG16 Net模型，我们使用来自最后一个全连接层的向量作为我们所需的图像特征向量。对于图像输入img_i，我们使用f_i表示实体图像的特征向量。

步骤102、图像特征映射。为将实体图像特征表示向量从图像空间映射到知识空间。我们构造了一个图像映射模块，使用映射矩阵完成实体图像特征表示向量从图像空间到知识空间的转换，得到图像在知识空间中的表示。图像映射模块具体定义为p_i＝tanh(W·f_i+b)。实体图像通过图像特征提取模块得到实体在图像空间的特征表示f_i，再通过图像映射模块完成实体图像特征向量从图像空间到知识空间的转换，得到实体图像在知识空间的表示p_i。

步骤103、图像特征选择。首先通过TransE模型训练得到知识图谱中实体基于结构的实体表示向量和关系表示向量。对于第k个实体的第i个图像的注意力权值计算公式如下：

对于注意力打分函数，我们采用了缩放点积模型，来计算每个实体对应的多个图像表示向量的注意力分数。注意力打分函数具体计算公式如下：

缩放点积模型引入了除以

的操作，可以避免当输入向量维度较高时结果方差过大的问题。

最后，我们将计算出的注意力分数为实体的不同图像表示表示向量赋予权重，做加权求和操作，得到最终的实体基于图像的表示向量。

通过以上方式，我们可以看出，当实体的图像表示向量与实体本身的结构表示向量以及对应的关系表示向量越相似时，该图像对应的注意力分数就会越高，该图像在最后的实体基于图像的表示向量中占比重就越大，也说明该图像所包含的信息更加丰富。

本发明设计的实体类别信息的嵌入方法，注意力机制构建实体基于类别的表示流程如图3所示，其主要步骤包括：

步骤201、实体类别编码器。首先根据实体的freebaseID找到对应的WikiDataID，然后将实体类别信息与当前WikiDataID对应页面中的语句进行匹配，通过计算实体类别信息与当前实体对应页面中语句的莱文斯坦距离得到相似度最高的语句作为实体类别信息的文本说明语句，再通过卷积神经网络CNN对类别说明文本进行特征提取，最终得到实体类别特征向量。使用对于类别输入c_i，我们使用q_i表示实体类别的特征向量。

步骤202、多类别的注意力机制。为了更好地丰富知识表示的语义信息，我们通过注意力机制来计算实体类别与实体关系之间的相关性大小，最终形成实体基于类别信息的知识表示。

我们给出具体的多类别注意力模型定义，对于实体的第i个类别的注意力权值计算公式如下：

其中，α_ic代表实体的第i个类别的注意力权值，q_i代表实体的第i 个类别的表示向量，r_s代表和当前实体的第i个类别出现在同一个三元组中的关系表示向量。

最后，我们将计算出的注意力分数为实体的不同类别表示向量赋予权重，做加权求和操作，得到最终的实体基于类别的表示向量。

通过以上方式，我们可以看出，当实体的类别表示向量与对应三元组中关系表示向量越相似时，该类别对应的注意力分数就会越高，该类别表示向量在最后的实体基于类别的表示中所占比重就越大，也说明该类别所包含的信息更接近当前实体以及对应的关系信息。

本发明设计的融合实体图像信息和实体类别信息的多模态图注意力网络知识表示模型，其中融合实体图像信息和实体类别信息多模态的知识表示模型如图4所示，其主要步骤包括：

步骤301、知识图谱注意力层。首先对知识图谱中的三元组(h,r,t) 构建对应的向量表示，具体定义为：

c_ijk＝W₁·concat(h_M,r_s,t_M)

其中，c_ijk是三元组(h,r,t)的特征表示向量，由对应的实体和关系特征向量经过拼接和线性变换得到，W₁是线性变换矩阵。

在该模型中，对于知识图谱中的节点e_i，邻居节点定义为N_i，连接实体e_i和邻居e_j的一组关系用

来表示，我们引入了注意力机制来对计算节点e_i的邻居节点对其影响权重，具体定义为：

score_(h,r,t)＝a(c_ijk)

其中score_(h,r,t)表示的邻居节点e_j对于e_i的注意力分数，也就是重要程度，a是选择的注意力计算函数。

接下来使用LeakyReLU作为激活函数，注意力机制表示为：

b_ijk＝Leaky Re L U(W₂c_ijk)

该模型利用注意力机制为当前节点的邻居节点赋予不同的权值，为了更好地利用得到的注意力值进行后续操作，对注意力值采用了归一化操作，这一操作通过softmax函数来实现，使得最后的注意力值满足概率分布，得到的注意力分数表示为:

从而，实体的新嵌入通过由邻居节点通过注意力机制分数进行加权求和汇总得出，具体定义如下：

最后，为了能够使得模型能够学习到丰富稳定的邻居特征，增强模型的表达效果，此模型引入了多头注意力机制，同时也在一定程度上缓解了随机初始化可能带来的影响。多头注意力的公式定义如下：

步骤302、模型损失函数设计。我们借鉴平移模型的思想来构建此模型的损失函数，对于给定有效三元组(h,r,t)，通过此模型学习到的实体和关系的嵌入使得实体t是实体h通过关系r连接的最近邻居，得分函数定义为：

f_r(h,t)＝||h+r-t||

对于给定有效三元组(h,r,t)，模型的损失函数定义如下：

L(Ω)＝∑_(h,r,t)∈G∑_{(h,r,t)′∈G′}[f_r′(h,t)-f_r(h,t)+γ]₊

其中，[x]₊表示x的正部分，γ表示边缘超参数。

步骤303、模型解码器设计。为了得到知识表示的平移特征，在对学习到的特征向量进行解码时，我们采用了基于卷积神经网络 ConvKB模型作为解码器网络，同时也可以挖掘到三元组(h,r,t)更深层次更多方面的特征，通过获取此模型训练收敛后节点和关系向量，在ConvKB模型中，每个三元组的元素由一个列向量表示，因此，每个3列矩阵组成一个三元组。随后向卷积层输入由3列矩阵表示的三元组，为了得到更深层次的知识表示，采用多个过滤器操作生成不同的特征图。在此之后，输入三元组的单个特征向量就可以通过这些特征图的串联操作得到。将权重向量和特征向量进行点乘之后得到一个分数结果，以此结果对三元组的有效性进行预测。

本发明FB55K-C数据集上进行了训练和验证，实验选取TransE， IKRL，ConvKB，ConvE和KBGAT模型作为基线模型，为保证公平，均采用任务中的最佳参数进行训练，并保证所有模型的知识向量维数一致。实验结果表明该模型在性能上较之前的算法都有较好的表现，主要原因体现在两个方面：一方面，此模型融合了丰富的实体特征，增强了模型的知识表示性能，不仅仅包括三元组结构信息，还根据实体视觉信息和类别信息构建了实体基于图像的表示和实体基于类别的表示；另一方面，我们改进了知识表示学习模型，在融合实体视觉信息时，我们设计了图像编码器实现对实体图像特征的抽取；在融合实体类别信息时，我们利用了类别信息和对应三元组关系之间的语义联系，利用注意力机制来抽取实体类别信息；图注意力网络层利用注意力机制动态地为当前节点的邻居节点赋予不同的权重，同时引入多头注意力机制来挖掘更深层次的特征表示；最后利用ConvKB模型对图注意力层输出的知识表示进行解码，从而应用到更多的任务当中。

本发明在知识图谱的框架下提出一种融合实体图像信息和实体类别信息的多模态知识表示方法，将多模态信息的知识表示与改进的 GAT模型相结合。该模型不仅仅关注三元组结构特点，同时将知识图谱中实体类别信息和知识图谱外部丰富的视觉信息考虑进去，将实体基于结构的知识表示、基于图像的知识表示以及基于类别的知识表示统一进行联合训练，完成多模态知识图谱表示。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种融合实体图像信息和实体类别信息的多模态知识表示方法，其特征在于，包括：

A、实体图像信息的嵌入方法：通过设计图编码器来完成实体图像特征信息的抽取以及从图像空间到知识空间的转换，利用注意力机制来对图像信息进行筛选组合，使用图像特征和实体以及对应关系特征的相关性大小作为注意力分数计算依据，构建实体基于图像的表示；

B、实体类别信息的嵌入方法：通过注意力机制对实体类别和对应三元组关系的语义联系进行建模，构建实体基于类别下的表示；

C、融合实体图像信息和实体类别信息的多模态图注意力网络知识表示：将实体类别信息，将实体结构特征、实体图像特征和实体类别特征结合起来，使用GAT模型进行训练，实现多模态知识表示模型的构建。

2.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法，其特征在于，步骤A进一步包括以下步骤：

A1、实体图像编码器：使用VGG16 Net模型从实体图像中抽取图像特征，并使用图像映射矩阵完成实体图像特征表示向量从图像空间到知识空间的转换，图像映射矩阵定义如下：

p_i＝tanh(W·f_i+b)

其中，p_i表示实体图像在知识空间中的表示，

表示映射矩阵，d_i表示图像特征向量的维度，而d_s则表示知识空间向量的维度,b表示一个偏置向量；

A2、多图像的注意力机制：通过TransE模型训练得到实体基于结构的实体表示向量和关系表示向量，采用缩放点积模型来计算每个实体对应的多个图像表示向量的注意力分数，并在缩放点积模型引入了除以

的操作，可以避免当输入向量维度较高时结果方差过大的问题；注意力打分函数具体计算公式如下：

其中，p_i代表实体的第i个图像的表示向量，v_s代表实体基于结构的实体表示向量和该实体对应的关系表示向量的拼接向量。

3.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法，其特征在于，步骤B进一步包括以下步骤：

B1、实体类别编码器：首先确定实体类别对应的说明文本语句，然后使用卷积神经网络完成对实体类别说明文本语句特征的抽取，最终得到实体类别特征向量；

B2、多类别的注意力机制：通过注意力机制来计算实体类别与实体关系之间的相关性大小，最终形成实体基于类别信息的知识表示；将计算出的注意力分数为实体的不同类别表示向量赋予权重，做加权求和操作，得到最终的实体基于类别的表示向量：

其中，α_ic代表实体的第i个类别的注意力权值，q_i代表实体的第i个类别的表示向量，r_s代表和当前实体的第i个类别出现在同一个三元组中的关系表示向量。

4.根据权利要求1所述的一种融合实体图像信息和实体类别信息的多模态知识表示方法，其特征在于，步骤C进一步包括以下步骤：

C1、多头注意力神经网络层：将无向图中的边进行扩展，表示为知识图谱中的有向关系路径；然后对关系路径进行知识表示，并对当前实体节点的n跳邻居的语义信息进行挖掘；最后，在每个图注意力层之后标准化当前得到的实体表示向量；

C2、损失函数设计：对于给定有效三元组(h,r,t)，通过学习到的实体和关系的嵌入使得实体t是实体h通过关系r连接的最近邻居，得分函数定义为：f_r(h,t)＝‖h+r-t‖对于给定有效三元组，模型的损失函数定义如下：

L(Ω)＝∑_(h,r,t)∈G∑_{(h,r,t)′∈G′}[f_r′(h,t)-f_r(h,t)+γ]₊

其中，[x]₊表示x的正部分，γ表示边缘超参数；

C3、解码器设计：将卷积神经网络ConvKB模型作为解码器网络，获取训练收敛后节点和关系向量，每个三元组的元素由一个列向量表示，每个3列矩阵组成一个三元组；为了得到更深层次的知识表示，采用多个过滤器操作生成不同的特征图，通过特征图的串联得到单个特征向量。