CN117435744A

CN117435744A - 基于跨模态语义对齐的多模态知识图谱表示学习方法

Info

Publication number: CN117435744A
Application number: CN202311435877.9A
Authority: CN
Inventors: 乔学明; 汤耀; 乔琳霏; 张东宁; 来晓帅; 许明; 郭腾炫; 张祥坤; 仝庆跃; 周君民; 李童心; 张轲舜; 孔令稷; 李玉文; 刘子姣; 宿毛毛
Original assignee: Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Weihai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-01-23

Abstract

本发明提出一种基于跨模态语义对齐的多模态知识图谱表示学习方法，包括步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示；步骤2、基于改进的跨模态的对比学习算法，实现对多模态特征提取的语义信息的整合；步骤3、基于改进的Transformer架构，根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合；步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构，提出多种跨模态预训练任务，得到基于多模态知识图谱表示学习模型。上述方法解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题，提高了模型的稳定性和鲁棒性。

Description

基于跨模态语义对齐的多模态知识图谱表示学习方法

技术领域

本发明涉及知识图谱表示学习技术领域，尤其涉及一种基于跨模态语义对齐的多模态知识图谱表示学习方法。

背景技术

高效表达和扩展人类知识是人工智能研究与发展的核心领域之一。近些年来，能够高效实现知识表示及应用过程的知识图谱技术受到了领域内的广泛关注。知识图谱利用三元组描述知识事实，每个三元组由两个实体及实体间的关系构成。为了进一步丰富知识图谱包含的语义信息，越来越多的研究致力于构建多模态的知识图谱，向知识图谱中引入的节点关联的图像及文本描述数据是实体的具象化表示，能够丰富知识图谱包含的语义信息。此外，随着多模态融合技术的迅速发展，跨模态任务已经成为人工智能应用中的热点需求，多模态知识图谱能够提供丰富且准确的多模态知识语义信息，现已经被广泛应用于信息检索、知识问答、推荐系统等任务中。其中，多模态知识图谱的表示学习是实现上述应用的基础，并已经成为当前热门且前沿的研究方向。

现阶段主流的多模态知识图谱表示和应用方法首先从不同模态数据中提取特征，然后通过向量拼接等计算融合不同模态特征中的语义信息，再根据目标任务内容设计神经网络架构，实现知识的表示及应用。然而，由于多模态知识图谱数据集大多通过互联网收集，且数据规模巨大，多模态知识图谱实体的图像和文本描述中不可避免的含有与对应实体不符合的语义信息，上述非关联信息将作为噪音干扰多模态知识图谱的知识表示过程，降低特征提取的准确程度，同时影响模型的鲁棒性。多模态知识图谱的表示过程中需要进行跨模态语义对齐，即将不同模态数据中语义内容相似的特征彼此对应，以此减轻噪音对模型性能的影响。现存的多模态知识图谱表示学习方法在特征融合过程中无法实现精准的跨模态语义对齐，导致现存表示方法在知识检索和知识推理任务应用中的模型准确度和稳定程度有待提高。

发明内容

为了解决现有技术中存在的问题，本申请提出了一种基于跨模态语义对齐的多模态知识图谱表示学习方法，解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题，提高了模型的稳定性和鲁棒性。

为了实现上述目的，本申请提出了一种基于跨模态语义对齐的多模态知识图谱表示学习方法，包括以下步骤：

步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示；

步骤2、基于改进的跨模态的对比学习算法，实现对多模态特征提取的语义信息的整合；

步骤3、基于改进的Transformer架构，根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合；

步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构，提出多种跨模态预训练任务，得到基于多模态知识图谱表示学习模型，其中预训练任务包括掩码图像预测任务、掩码文本预测任务、三元组连接预测任务和掩码实体预测任务。

在一些实施例中，在所述步骤1中，利用Bert模型提取文本特征向量，获得t_CLS代表文本模态的[CLS]token对应向量；利用Vit模型提取图像特征向量，获得v_CLS代表图像模态的[CLS]token对应向量；利用HittER模型提取知识图谱中的结构化模态特征向量，获得s_CLS代表结构化数据模态的[CLS]token对应向量；所述步骤1中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量，并作为后续步骤中多模态特征对齐以及融合的特征向量输入。

在一些实施例中，在所述步骤2中，跨模态的对比学习算法改进如下：通过在结构化特征与图像特征，即SIC，以及结构化特征与文本特征，即STC，两个对比学习训练任务，利用正、负样本之间的比对判断，以自监督的方式实现对多模态特征中语义内容的对齐和整合；

使用步骤1中提取的文本模态、图像模态以及结构化模态特征，针对SIC任务，使用两个队列分别用于存储M个图像特征向量[CLS]token，表示为v_CLS，和M个结构化特征向量[CLS]token，表示为s_CLS，在队列中包含当前输入的匹配的图像特征和结构化特征对，即对比学习中的正样本，其余的M-1个为对比学习中的负样本；

SIC对比学习损失函数的计算过程如下：

s(I，S)＝(v_CLS)^Ts_CLS (1)

s(S，I)＝(s_CLS)^Tv_CLS (2)

其中，I和S分别表示图像特征和结构化特征的集合，s(I，S)表示图像特征到结构化特征的相似度得分，s(S，I)表示结构化特征到图像特征的相似度得分；

其中，表示对于当前输入的图像特征，队列中的第m个结构化特征与其相匹配的可能性，S_m表示第m个结构化特征，θ为该步骤中的超参数；同理/>表示对于当前输入的结构化特征，队列中的第m个图像特征与其相匹配的可能性，I_m表示第m个图像特征；最终可以得出，SIC任务损失函数构成如下：

其中y^i2s(I)表示与图像特征匹配对应的结构化特征标签，y^s2i(S)表示与结构化特征匹配对应的图像特征标签，p^i2s(I)表示当前输入图像特征与队列中所有结构化特征的匹配可能性，p^s2i(S)表示当前输入结构化特征与队列中所有图像特征的匹配可能性；

同理，针对STC任务，使用两个队列分别用于存储M个文本特征向量[CLS]token，表示为t_CLS，和M个结构化特征向量[CLS]token，表示为s_CLS，在队列中包含当前输入的匹配的文本特征和结构化特征对，即对比学习中的正样本，其余M-1个[CLS]token构成对比学习中的负样本；

STC对比学习损失函数的计算过程如下：

s(T，S)＝(t_CLS)^Ts_CLS (6)

s(S，T)＝(s_CLS)^Tt_CLS (7)

其中，T和S分别表示文本特征和结构化特征的集合，s(T，S)表示文本特征到结构化特征的相似度得分，s(S，T)表示结构化特征到文本特征的相似度得分；

其中，表示对于当前输入的文本特征，队列中的第m个结构化特征与其相匹配的可能性；同理/>表示对于当前输入的结构化特征，队列中的第m个文本特征与其相匹配的可能性，T_m表示第m个文本特征；最终可以得出，STC任务损失函数构成如下：

y^t2s(T)表示与文本特征匹配对应的结构化特征标签，y^s2t(S)表示与结构化特征匹配对应的文本特征标签，p^t2s(T)表示当前输入文本特征与队列中所有结构化特征的匹配可能性，p^s2t(S)表示当前输入结构化特征与队列中所有文本特征的匹配可能性；

综上所述，对比学习的损失函数如下：

在一些实施例中，在所述步骤3中，多头自注意力机制是实现所述多模态特征融合的基础，用Q、K和V分别表示该过程中的查询、关键词和数值对应的转换矩阵，d_k表示特征维度，其中，单头注意力机制的计算过程表示为：

所述步骤3中，Transformer架构的改进如下：使用Multi_Attn表示多头自注意力计算，用和/>分别表示多模态特征融合的多层神经网络中第l层中的图像特征、结构化特征和文本特征；对于图像特征，在特征融合过程中需要同时考虑结构化特征以及图像特征自身包含的语义信息，将提取的跨模态特征的权重表示为超参数λ_v；将经过注意力计算的图像特征表示为/>和/>分别表示针对图像特征自注意力和跨模态注意力提取得到的特征，具体计算方法过程如下：

经过多头自注意力的特征提取计算之后，利用层归一化Layer Normal和残差结构使图像特征规范化，得到多头注意力模块的输出向量图像特征需要经过前馈神经网络FFN进一步提取特征，得到图像特征在第l层的输出向量/>过程如下：

同理，得到文本模态特征经过第l层的多模态特征融合计算后得到的特征向量

其中，对于文本特征，在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息，将提取的跨模态特征的权重表示为超参数λ_T；将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征，经过多头自注意力的特征提取计算之后，利用层归一化LayerNormal和残差结构使文本特征规范化，得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络FFN进一步提取特征，得到文本特征在第l层的输出向量/>

结构化模态特征的多模态融合实现在前馈网络中，在多头注意力计算中不需要使用跨模态特征，输出结构化特征其中超参数α_V和α_T分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重：

其中，表示针对结构化特征自注意力提取得到的特征，经过多头自注意力的特征提取计算之后，利用层归一化Layer Normal和残差结构使结构化特征规范化，得到多头注意力模块的输出向量/>结构化特征需要经过前馈神经网络FFN进一步提取特征，得到结构化特征在第l层的输出向量/>

本申请的该方案的有益效果在于上述基于跨模态语义对齐的多模态知识图谱表示学习方法，解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题，提高了模型的稳定性和鲁棒性。本申请所涉及的方法可以用于多模态数据表示学习以及后续的知识检索及推理任务。

附图说明

图1示出了实施例中基于跨模态语义对齐的多模态知识图谱表示学习方法的流程图。

图2示出了实施例中基于图谱结构的多模态特征融合的总体架构图。

具体实施方式

下面结合附图对本申请的具体实施方式作进一步的说明。

如图1所示，本申请所涉及的基于跨模态语义对齐的多模态知识图谱表示学习方法，包括以下步骤：

步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示，并作为后续步骤中多模态特征对齐以及融合的特征向量输入。

Transformer是在不同研究领域内被广泛应用的模型架构，本申请所涉及的方法中应用的提取不同模态数据特征的Bert模型、Vit模型以及HittER模型均以Transformer为基础实现。Transformer将输入数据编码成表征(token)的序列，并在序列的头部添加一个特定的[CLS]token，经过模型运算后，Transformer输出序列中的[CLS]token能够汇总输入数据全局语义内容。具体来说，本步骤中利用Bert模型提取文本特征向量，获得t_CLS代表文本模态的[CLS]token对应向量；利用Vit模型提取图像特征向量，获得v_CLS代表图像模态的[CLS]token对应向量；利用HittER模型提取知识图谱中的结构化模态特征向量，获得s_CLS代表结构化数据模态的[CLS]token对应向量。本步骤中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量，并作为后续步骤中多模态特征对齐以及融合的特征向量输入。

步骤2、基于改进的跨模态的对比学习算法，实现对多模态特征提取的语义信息的整合。

现有的跨模态对比学习方法主要实现图像和文本之间的语义对齐，无法直接适用于包含丰富结构化知识内容的多模态知识图谱。因此，本申请所涉及的方法提出多模态知识图谱表示学习中的跨模态的对比学习算法，通过在结构化特征与图像特征(Structure-Image Contrastive Learning，简称为SIC)、以及结构化特征与文本特征(Structure-TextContrastive Learning，简称为STC)两个对比学习训练任务，利用正、负样本之间的比对判断，以自监督的方式实现对多模态特征中语义内容的对齐和整合。

使用步骤1中提取的文本模态、图像模态以及结构化模态特征，针对SIC任务，本申请所涉及的方法使用两个队列分别用于存储M个图像特征向量[CLS]token(表示为v_CLS)和M个结构化特征向量[CLS]token(表示为s_CLS)，在队列中包含当前输入的匹配的图像特征和结构化特征对，即对比学习中的正样本，其余的M-1个为对比学习中的负样本。

SIC对比学习损失函数的计算过程如下：

s(I，S)＝(v_CLS)^Ts_CLS (1)

s(S，I)＝(s_CLS)^Tv_CLS (2)

其中，I和S分别表示图像特征和结构化特征的集合，s(I，S)表示图像特征到结构化特征的相似度得分，s(S，I)表示结构化特征到图像特征的相似度得分。

其中y^i2s(I)表示与图像特征匹配对应的结构化特征标签，y^s2i(s)表示与结构化特征匹配对应的图像特征标签，p^i2s(I)表示当前输入图像特征与队列中所有结构化特征的匹配可能性，p^s2i(s)表示当前输入结构化特征与队列中所有图像特征的匹配可能性。

同理，针对STC任务，使用两个队列分别用于存储M个文本特征向量[CLS]token(表示为t_CLS)和M个结构化特征向量[CLS]token(表示为s_CLS)，在队列中包含当前输入的匹配的文本特征和结构化特征对，即对比学习中的正样本，其余M-1个[CLS]token构成对比学习中的负样本。

STC对比学习损失函数的计算过程如下：

s(T，S)＝(t_CLS)^Ts_CLS (6)

s(S，T)＝(s_CLS)^Tt_CLS (7)

其中，T和S分别表示文本特征和结构化特征的集合，s(T，S)表示文本特征到结构化特征的相似度得分，s(S，T)表示结构化特征到文本特征的相似度得分。

y^t2s(T)表示与文本特征匹配对应的结构化特征标签，y^s2t(S)表示与结构化特征匹配对应的文本特征标签，p^t2s(T)表示当前输入文本特征与队列中所有结构化特征的匹配可能性，p^s2t(s)表示当前输入结构化特征与队列中所有文本特征的匹配可能性。

综上所述，对比学习的损失函数如下：

步骤3、基于改进的Transformer架构，根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合。将多模态知识图谱中的图像特征、结构化特征以及文本特征进行向量拼接，作为改进的Transformer架构的模型输入，步骤3的具体实施原理示意图如图2所示。

多头自注意力机制是实现上述多模态特征融合的基础，用Q、K和V分别表示该过程中的查询(Query)、关键词(Key)和数值(Value)对应的转换矩阵，d_k表示特征维度，其中，单头注意力机制的计算过程可以表示为：

本步骤中，Transformer架构的改进如下：使用Multi_Attn表示多头自注意力计算。用和/>分别表示多模态特征融合的多层神经网络中第l层中的图像特征、结构化特征和文本特征；对于图像特征，在特征融合过程中需要同时考虑结构化特征以及图像特征自身包含的语义信息，将提取的跨模态特征的权重表示为超参数λ_v；将经过注意力计算的图像特征表示为/>和/>分别表示针对图像特征自注意力和跨模态注意力提取得到的特征，具体计算方法过程如下：

经过多头自注意力的特征提取计算之后，利用层归一化(LayerNormal)和残差结构使图像特征规范化，得到多头注意力模块的输出向量图像特征需要经过前馈神经网络(FFN)进一步提取特征，得到图像特征在第l层的输出向量/>过程如下：

同理，可以得到文本模态特征经过第l层的多模态特征融合计算后得到的特征向量/>

其中，对于文本特征，在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息，将提取的跨模态特征的权重表示为超参数λ_T；将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征，经过多头自注意力的特征提取计算之后，利用层归一化(LayerNormal)和残差结构使文本特征规范化，得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络(FFN)进一步提取特征，得到文本特征在第l层的输出向量

结构化模态特征的多模态融合实现在前馈网络中，在多头注意力计算中不需要使用跨模态特征，突出结构化特征在知识表示中的主导作用，输出结构化特征其中超参数α_V和α_T分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重：

其中，表示针对结构化特征自注意力提取得到的特征，经过多头自注意力的特征提取计算之后，利用层归一化(LayerNormal)和残差结构使结构化特征规范化，得到多头注意力模块的输出向量/>结构化特征需要经过前馈神经网络(FFN)进一步提取特征，得到结构化特征在第l层的输出向量/>

步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构，提出多种跨模态预训练任务，得到基于多模态知识图谱表示学习模型，其中预训练任务包括掩码图像预测任务(Masked Image Prediction Model，简称为MIM)、掩码文本预测任务(Masked Text Prediction Model，简称为MTM)、三元组连接预测任务(Link Prediction Model，简称为LPM)和掩码实体预测任务(Masked Entity Model，简称为MEM)。

MIM、MTM和MEM预测任务基于多模态特征拼接向量，分别对输入序列中图像模态、文本模态以及结构化模态特征的部分token进行掩码操作，并使步骤4得到的模型根据输入序列中上下文的特征预测掩码内容，以此实现多模态特征的语义融合。LPM预测任务的内容是在结构化模态中根据给定知识图谱三元组的两者预测另一者，以此实现基于图谱结构的知识表示。步骤4得到的模型能够进一步应用于知识检索以及知识推理等下游任务中。

本申请所涉及的基于跨模态语义对齐的多模态知识图谱表示学习方法，解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题，提高了模型的稳定性和鲁棒性。本申请所涉及的方法可以用于多模态数据表示学习以及后续的知识检索及推理任务。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，根据本申请的技术方案及其构思加以等同替换或改变，都应涵盖在本申请的保护范围之内。

Claims

1.一种基于跨模态语义对齐的多模态知识图谱表示学习方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于跨模态语义对齐的多模态知识图谱表示学习方法，其特征在于：在所述步骤1中，利用Bert模型提取文本特征向量，获得t_CLS代表文本模态的[CLS]token对应向量；利用Vit模型提取图像特征向量，获得v_CLS代表图像模态的[CLS]token对应向量；利用HittER模型提取知识图谱中的结构化模态特征向量，获得s_CLS代表结构化数据模态的[CLS]token对应向量；所述步骤1中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量，并作为后续步骤中多模态特征对齐以及融合的特征向量输入。

3.根据权利要求2所述的基于跨模态语义对齐的多模态知识图谱表示学习方法，其特征在于：在所述步骤2中，跨模态的对比学习算法改进如下：通过在结构化特征与图像特征，即SIC，以及结构化特征与文本特征，即STC，两个对比学习训练任务，利用正、负样本之间的比对判断，以自监督的方式实现对多模态特征中语义内容的对齐和整合；

SIC对比学习损失函数的计算过程如下：

s(I，S)＝(v_CLS)^Ts_CLS (1)

s(S，I)＝(s_CLS)^Tv_CLS (2)

STC对比学习损失函数的计算过程如下：

s(T，S)＝(t_CLS)^Ts_CLS (6)

s(S，T)＝(s_CLS)^Tt_CLS (7)

综上所述，对比学习的损失函数如下：

4.根据权利要求3所述的基于跨模态语义对齐的多模态知识图谱表示学习方法，其特征在于：在所述步骤3中，多头自注意力机制是实现所述多模态特征融合的基础，用Q、K和V分别表示该过程中的查询、关键词和数值对应的转换矩阵，d_k表示特征维度，其中，单头注意力机制的计算过程表示为：

其中，对于文本特征，在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息，将提取的跨模态特征的权重表示为超参数λ_T；将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征，经过多头自注意力的特征提取计算之后，利用层归一化Layer Normal和残差结构使文本特征规范化，得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络FFN进一步提取特征，得到文本特征在第l层的输出向量/>

结构化模态特征的多模态融合实现在前馈网络中，在多头注意力计算中不需要使用跨模态特征，输出结构化特征其中超参数α_V和a_T分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重：