CN117435744A - 基于跨模态语义对齐的多模态知识图谱表示学习方法 - Google Patents
基于跨模态语义对齐的多模态知识图谱表示学习方法 Download PDFInfo
- Publication number
- CN117435744A CN117435744A CN202311435877.9A CN202311435877A CN117435744A CN 117435744 A CN117435744 A CN 117435744A CN 202311435877 A CN202311435877 A CN 202311435877A CN 117435744 A CN117435744 A CN 117435744A
- Authority
- CN
- China
- Prior art keywords
- feature
- modal
- features
- structured
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 69
- 230000004927 fusion Effects 0.000 claims abstract description 23
- 238000007499 fusion processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000010354 integration Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于跨模态语义对齐的多模态知识图谱表示学习方法,包括步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示;步骤2、基于改进的跨模态的对比学习算法,实现对多模态特征提取的语义信息的整合;步骤3、基于改进的Transformer架构,根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合;步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构,提出多种跨模态预训练任务,得到基于多模态知识图谱表示学习模型。上述方法解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题,提高了模型的稳定性和鲁棒性。
Description
技术领域
本发明涉及知识图谱表示学习技术领域,尤其涉及一种基于跨模态语义对齐的多模态知识图谱表示学习方法。
背景技术
高效表达和扩展人类知识是人工智能研究与发展的核心领域之一。近些年来,能够高效实现知识表示及应用过程的知识图谱技术受到了领域内的广泛关注。知识图谱利用三元组描述知识事实,每个三元组由两个实体及实体间的关系构成。为了进一步丰富知识图谱包含的语义信息,越来越多的研究致力于构建多模态的知识图谱,向知识图谱中引入的节点关联的图像及文本描述数据是实体的具象化表示,能够丰富知识图谱包含的语义信息。此外,随着多模态融合技术的迅速发展,跨模态任务已经成为人工智能应用中的热点需求,多模态知识图谱能够提供丰富且准确的多模态知识语义信息,现已经被广泛应用于信息检索、知识问答、推荐系统等任务中。其中,多模态知识图谱的表示学习是实现上述应用的基础,并已经成为当前热门且前沿的研究方向。
现阶段主流的多模态知识图谱表示和应用方法首先从不同模态数据中提取特征,然后通过向量拼接等计算融合不同模态特征中的语义信息,再根据目标任务内容设计神经网络架构,实现知识的表示及应用。然而,由于多模态知识图谱数据集大多通过互联网收集,且数据规模巨大,多模态知识图谱实体的图像和文本描述中不可避免的含有与对应实体不符合的语义信息,上述非关联信息将作为噪音干扰多模态知识图谱的知识表示过程,降低特征提取的准确程度,同时影响模型的鲁棒性。多模态知识图谱的表示过程中需要进行跨模态语义对齐,即将不同模态数据中语义内容相似的特征彼此对应,以此减轻噪音对模型性能的影响。现存的多模态知识图谱表示学习方法在特征融合过程中无法实现精准的跨模态语义对齐,导致现存表示方法在知识检索和知识推理任务应用中的模型准确度和稳定程度有待提高。
发明内容
为了解决现有技术中存在的问题,本申请提出了一种基于跨模态语义对齐的多模态知识图谱表示学习方法,解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题,提高了模型的稳定性和鲁棒性。
为了实现上述目的,本申请提出了一种基于跨模态语义对齐的多模态知识图谱表示学习方法,包括以下步骤:
步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示;
步骤2、基于改进的跨模态的对比学习算法,实现对多模态特征提取的语义信息的整合;
步骤3、基于改进的Transformer架构,根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合;
步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构,提出多种跨模态预训练任务,得到基于多模态知识图谱表示学习模型,其中预训练任务包括掩码图像预测任务、掩码文本预测任务、三元组连接预测任务和掩码实体预测任务。
在一些实施例中,在所述步骤1中,利用Bert模型提取文本特征向量,获得tCLS代表文本模态的[CLS]token对应向量;利用Vit模型提取图像特征向量,获得vCLS代表图像模态的[CLS]token对应向量;利用HittER模型提取知识图谱中的结构化模态特征向量,获得sCLS代表结构化数据模态的[CLS]token对应向量;所述步骤1中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量,并作为后续步骤中多模态特征对齐以及融合的特征向量输入。
在一些实施例中,在所述步骤2中,跨模态的对比学习算法改进如下:通过在结构化特征与图像特征,即SIC,以及结构化特征与文本特征,即STC,两个对比学习训练任务,利用正、负样本之间的比对判断,以自监督的方式实现对多模态特征中语义内容的对齐和整合;
使用步骤1中提取的文本模态、图像模态以及结构化模态特征,针对SIC任务,使用两个队列分别用于存储M个图像特征向量[CLS]token,表示为vCLS,和M个结构化特征向量[CLS]token,表示为sCLS,在队列中包含当前输入的匹配的图像特征和结构化特征对,即对比学习中的正样本,其余的M-1个为对比学习中的负样本;
SIC对比学习损失函数的计算过程如下:
s(I,S)=(vCLS)TsCLS (1)
s(S,I)=(sCLS)TvCLS (2)
其中,I和S分别表示图像特征和结构化特征的集合,s(I,S)表示图像特征到结构化特征的相似度得分,s(S,I)表示结构化特征到图像特征的相似度得分;
其中,表示对于当前输入的图像特征,队列中的第m个结构化特征与其相匹配的可能性,Sm表示第m个结构化特征,θ为该步骤中的超参数;同理/>表示对于当前输入的结构化特征,队列中的第m个图像特征与其相匹配的可能性,Im表示第m个图像特征;最终可以得出,SIC任务损失函数构成如下:
其中yi2s(I)表示与图像特征匹配对应的结构化特征标签,ys2i(S)表示与结构化特征匹配对应的图像特征标签,pi2s(I)表示当前输入图像特征与队列中所有结构化特征的匹配可能性,ps2i(S)表示当前输入结构化特征与队列中所有图像特征的匹配可能性;
同理,针对STC任务,使用两个队列分别用于存储M个文本特征向量[CLS]token,表示为tCLS,和M个结构化特征向量[CLS]token,表示为sCLS,在队列中包含当前输入的匹配的文本特征和结构化特征对,即对比学习中的正样本,其余M-1个[CLS]token构成对比学习中的负样本;
STC对比学习损失函数的计算过程如下:
s(T,S)=(tCLS)TsCLS (6)
s(S,T)=(sCLS)TtCLS (7)
其中,T和S分别表示文本特征和结构化特征的集合,s(T,S)表示文本特征到结构化特征的相似度得分,s(S,T)表示结构化特征到文本特征的相似度得分;
其中,表示对于当前输入的文本特征,队列中的第m个结构化特征与其相匹配的可能性;同理/>表示对于当前输入的结构化特征,队列中的第m个文本特征与其相匹配的可能性,Tm表示第m个文本特征;最终可以得出,STC任务损失函数构成如下:
yt2s(T)表示与文本特征匹配对应的结构化特征标签,ys2t(S)表示与结构化特征匹配对应的文本特征标签,pt2s(T)表示当前输入文本特征与队列中所有结构化特征的匹配可能性,ps2t(S)表示当前输入结构化特征与队列中所有文本特征的匹配可能性;
综上所述,对比学习的损失函数如下:
在一些实施例中,在所述步骤3中,多头自注意力机制是实现所述多模态特征融合的基础,用Q、K和V分别表示该过程中的查询、关键词和数值对应的转换矩阵,dk表示特征维度,其中,单头注意力机制的计算过程表示为:
所述步骤3中,Transformer架构的改进如下:使用MultiAttn表示多头自注意力计算,用和/>分别表示多模态特征融合的多层神经网络中第l层中的图像特征、结构化特征和文本特征;对于图像特征,在特征融合过程中需要同时考虑结构化特征以及图像特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λv;将经过注意力计算的图像特征表示为/>和/>分别表示针对图像特征自注意力和跨模态注意力提取得到的特征,具体计算方法过程如下:
经过多头自注意力的特征提取计算之后,利用层归一化Layer Normal和残差结构使图像特征规范化,得到多头注意力模块的输出向量图像特征需要经过前馈神经网络FFN进一步提取特征,得到图像特征在第l层的输出向量/>过程如下:
同理,得到文本模态特征经过第l层的多模态特征融合计算后得到的特征向量
其中,对于文本特征,在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λT;将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化LayerNormal和残差结构使文本特征规范化,得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络FFN进一步提取特征,得到文本特征在第l层的输出向量/>
结构化模态特征的多模态融合实现在前馈网络中,在多头注意力计算中不需要使用跨模态特征,输出结构化特征其中超参数αV和αT分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重:
其中,表示针对结构化特征自注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化Layer Normal和残差结构使结构化特征规范化,得到多头注意力模块的输出向量/>结构化特征需要经过前馈神经网络FFN进一步提取特征,得到结构化特征在第l层的输出向量/>
本申请的该方案的有益效果在于上述基于跨模态语义对齐的多模态知识图谱表示学习方法,解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题,提高了模型的稳定性和鲁棒性。本申请所涉及的方法可以用于多模态数据表示学习以及后续的知识检索及推理任务。
附图说明
图1示出了实施例中基于跨模态语义对齐的多模态知识图谱表示学习方法的流程图。
图2示出了实施例中基于图谱结构的多模态特征融合的总体架构图。
具体实施方式
下面结合附图对本申请的具体实施方式作进一步的说明。
如图1所示,本申请所涉及的基于跨模态语义对齐的多模态知识图谱表示学习方法,包括以下步骤:
步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示,并作为后续步骤中多模态特征对齐以及融合的特征向量输入。
Transformer是在不同研究领域内被广泛应用的模型架构,本申请所涉及的方法中应用的提取不同模态数据特征的Bert模型、Vit模型以及HittER模型均以Transformer为基础实现。Transformer将输入数据编码成表征(token)的序列,并在序列的头部添加一个特定的[CLS]token,经过模型运算后,Transformer输出序列中的[CLS]token能够汇总输入数据全局语义内容。具体来说,本步骤中利用Bert模型提取文本特征向量,获得tCLS代表文本模态的[CLS]token对应向量;利用Vit模型提取图像特征向量,获得vCLS代表图像模态的[CLS]token对应向量;利用HittER模型提取知识图谱中的结构化模态特征向量,获得sCLS代表结构化数据模态的[CLS]token对应向量。本步骤中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量,并作为后续步骤中多模态特征对齐以及融合的特征向量输入。
步骤2、基于改进的跨模态的对比学习算法,实现对多模态特征提取的语义信息的整合。
现有的跨模态对比学习方法主要实现图像和文本之间的语义对齐,无法直接适用于包含丰富结构化知识内容的多模态知识图谱。因此,本申请所涉及的方法提出多模态知识图谱表示学习中的跨模态的对比学习算法,通过在结构化特征与图像特征(Structure-Image Contrastive Learning,简称为SIC)、以及结构化特征与文本特征(Structure-TextContrastive Learning,简称为STC)两个对比学习训练任务,利用正、负样本之间的比对判断,以自监督的方式实现对多模态特征中语义内容的对齐和整合。
使用步骤1中提取的文本模态、图像模态以及结构化模态特征,针对SIC任务,本申请所涉及的方法使用两个队列分别用于存储M个图像特征向量[CLS]token(表示为vCLS)和M个结构化特征向量[CLS]token(表示为sCLS),在队列中包含当前输入的匹配的图像特征和结构化特征对,即对比学习中的正样本,其余的M-1个为对比学习中的负样本。
SIC对比学习损失函数的计算过程如下:
s(I,S)=(vCLS)TsCLS (1)
s(S,I)=(sCLS)TvCLS (2)
其中,I和S分别表示图像特征和结构化特征的集合,s(I,S)表示图像特征到结构化特征的相似度得分,s(S,I)表示结构化特征到图像特征的相似度得分。
其中,表示对于当前输入的图像特征,队列中的第m个结构化特征与其相匹配的可能性,sm表示第m个结构化特征,θ为该步骤中的超参数;同理/>表示对于当前输入的结构化特征,队列中的第m个图像特征与其相匹配的可能性,Im表示第m个图像特征;最终可以得出,SIC任务损失函数构成如下:
其中yi2s(I)表示与图像特征匹配对应的结构化特征标签,ys2i(s)表示与结构化特征匹配对应的图像特征标签,pi2s(I)表示当前输入图像特征与队列中所有结构化特征的匹配可能性,ps2i(s)表示当前输入结构化特征与队列中所有图像特征的匹配可能性。
同理,针对STC任务,使用两个队列分别用于存储M个文本特征向量[CLS]token(表示为tCLS)和M个结构化特征向量[CLS]token(表示为sCLS),在队列中包含当前输入的匹配的文本特征和结构化特征对,即对比学习中的正样本,其余M-1个[CLS]token构成对比学习中的负样本。
STC对比学习损失函数的计算过程如下:
s(T,S)=(tCLS)TsCLS (6)
s(S,T)=(sCLS)TtCLS (7)
其中,T和S分别表示文本特征和结构化特征的集合,s(T,S)表示文本特征到结构化特征的相似度得分,s(S,T)表示结构化特征到文本特征的相似度得分。
其中,表示对于当前输入的文本特征,队列中的第m个结构化特征与其相匹配的可能性;同理/>表示对于当前输入的结构化特征,队列中的第m个文本特征与其相匹配的可能性,Tm表示第m个文本特征;最终可以得出,STC任务损失函数构成如下:
yt2s(T)表示与文本特征匹配对应的结构化特征标签,ys2t(S)表示与结构化特征匹配对应的文本特征标签,pt2s(T)表示当前输入文本特征与队列中所有结构化特征的匹配可能性,ps2t(s)表示当前输入结构化特征与队列中所有文本特征的匹配可能性。
综上所述,对比学习的损失函数如下:
步骤3、基于改进的Transformer架构,根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合。将多模态知识图谱中的图像特征、结构化特征以及文本特征进行向量拼接,作为改进的Transformer架构的模型输入,步骤3的具体实施原理示意图如图2所示。
多头自注意力机制是实现上述多模态特征融合的基础,用Q、K和V分别表示该过程中的查询(Query)、关键词(Key)和数值(Value)对应的转换矩阵,dk表示特征维度,其中,单头注意力机制的计算过程可以表示为:
本步骤中,Transformer架构的改进如下:使用MultiAttn表示多头自注意力计算。用和/>分别表示多模态特征融合的多层神经网络中第l层中的图像特征、结构化特征和文本特征;对于图像特征,在特征融合过程中需要同时考虑结构化特征以及图像特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λv;将经过注意力计算的图像特征表示为/>和/>分别表示针对图像特征自注意力和跨模态注意力提取得到的特征,具体计算方法过程如下:
经过多头自注意力的特征提取计算之后,利用层归一化(LayerNormal)和残差结构使图像特征规范化,得到多头注意力模块的输出向量图像特征需要经过前馈神经网络(FFN)进一步提取特征,得到图像特征在第l层的输出向量/>过程如下:
同理,可以得到文本模态特征经过第l层的多模态特征融合计算后得到的特征向量/>
其中,对于文本特征,在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λT;将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化(LayerNormal)和残差结构使文本特征规范化,得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络(FFN)进一步提取特征,得到文本特征在第l层的输出向量
结构化模态特征的多模态融合实现在前馈网络中,在多头注意力计算中不需要使用跨模态特征,突出结构化特征在知识表示中的主导作用,输出结构化特征其中超参数αV和αT分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重:
其中,表示针对结构化特征自注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化(LayerNormal)和残差结构使结构化特征规范化,得到多头注意力模块的输出向量/>结构化特征需要经过前馈神经网络(FFN)进一步提取特征,得到结构化特征在第l层的输出向量/>
步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构,提出多种跨模态预训练任务,得到基于多模态知识图谱表示学习模型,其中预训练任务包括掩码图像预测任务(Masked Image Prediction Model,简称为MIM)、掩码文本预测任务(Masked Text Prediction Model,简称为MTM)、三元组连接预测任务(Link Prediction Model,简称为LPM)和掩码实体预测任务(Masked Entity Model,简称为MEM)。
MIM、MTM和MEM预测任务基于多模态特征拼接向量,分别对输入序列中图像模态、文本模态以及结构化模态特征的部分token进行掩码操作,并使步骤4得到的模型根据输入序列中上下文的特征预测掩码内容,以此实现多模态特征的语义融合。LPM预测任务的内容是在结构化模态中根据给定知识图谱三元组的两者预测另一者,以此实现基于图谱结构的知识表示。步骤4得到的模型能够进一步应用于知识检索以及知识推理等下游任务中。
本申请所涉及的基于跨模态语义对齐的多模态知识图谱表示学习方法,解决了现有多模态知识图谱表示学习方法在多模态特征融合过程中的噪音干扰问题,提高了模型的稳定性和鲁棒性。本申请所涉及的方法可以用于多模态数据表示学习以及后续的知识检索及推理任务。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其构思加以等同替换或改变,都应涵盖在本申请的保护范围之内。
Claims (4)
1.一种基于跨模态语义对齐的多模态知识图谱表示学习方法,其特征在于:包括以下步骤:
步骤1、利用Bert模型、Vit模型以及HittER模型分别提取多模态知识图谱的文本模态、图像模态、结构化模态数据的特征向量表示;
步骤2、基于改进的跨模态的对比学习算法,实现对多模态特征提取的语义信息的整合;
步骤3、基于改进的Transformer架构,根据不同模态特征间的语义关联实现基于图谱结构的多模态特征融合;
步骤4、基于步骤2中改进的跨模态的对比学习算法以及步骤3中改进的Transformer架构,提出多种跨模态预训练任务,得到基于多模态知识图谱表示学习模型,其中预训练任务包括掩码图像预测任务、掩码文本预测任务、三元组连接预测任务和掩码实体预测任务。
2.根据权利要求1所述的基于跨模态语义对齐的多模态知识图谱表示学习方法,其特征在于:在所述步骤1中,利用Bert模型提取文本特征向量,获得tCLS代表文本模态的[CLS]token对应向量;利用Vit模型提取图像特征向量,获得vCLS代表图像模态的[CLS]token对应向量;利用HittER模型提取知识图谱中的结构化模态特征向量,获得sCLS代表结构化数据模态的[CLS]token对应向量;所述步骤1中Bert模型、Vit模型以及HittER模型的输出将分别作为多模态知识图谱的初始文本特征向量、图像特征向量以及结构化特征向量,并作为后续步骤中多模态特征对齐以及融合的特征向量输入。
3.根据权利要求2所述的基于跨模态语义对齐的多模态知识图谱表示学习方法,其特征在于:在所述步骤2中,跨模态的对比学习算法改进如下:通过在结构化特征与图像特征,即SIC,以及结构化特征与文本特征,即STC,两个对比学习训练任务,利用正、负样本之间的比对判断,以自监督的方式实现对多模态特征中语义内容的对齐和整合;
使用步骤1中提取的文本模态、图像模态以及结构化模态特征,针对SIC任务,使用两个队列分别用于存储M个图像特征向量[CLS]token,表示为vCLS,和M个结构化特征向量[CLS]token,表示为sCLS,在队列中包含当前输入的匹配的图像特征和结构化特征对,即对比学习中的正样本,其余的M-1个为对比学习中的负样本;
SIC对比学习损失函数的计算过程如下:
s(I,S)=(vCLS)TsCLS (1)
s(S,I)=(sCLS)TvCLS (2)
其中,I和S分别表示图像特征和结构化特征的集合,s(I,S)表示图像特征到结构化特征的相似度得分,s(S,I)表示结构化特征到图像特征的相似度得分;
其中,表示对于当前输入的图像特征,队列中的第m个结构化特征与其相匹配的可能性,Sm表示第m个结构化特征,θ为该步骤中的超参数;同理/>表示对于当前输入的结构化特征,队列中的第m个图像特征与其相匹配的可能性,Im表示第m个图像特征;最终可以得出,SIC任务损失函数构成如下:
其中yi2s(I)表示与图像特征匹配对应的结构化特征标签,ys2i(S)表示与结构化特征匹配对应的图像特征标签,pi2s(I)表示当前输入图像特征与队列中所有结构化特征的匹配可能性,ps2i(S)表示当前输入结构化特征与队列中所有图像特征的匹配可能性;
同理,针对STC任务,使用两个队列分别用于存储M个文本特征向量[CLS]token,表示为tCLS,和M个结构化特征向量[CLS]token,表示为sCLS,在队列中包含当前输入的匹配的文本特征和结构化特征对,即对比学习中的正样本,其余M-1个[CLS]token构成对比学习中的负样本;
STC对比学习损失函数的计算过程如下:
s(T,S)=(tCLS)TsCLS (6)
s(S,T)=(sCLS)TtCLS (7)
其中,T和S分别表示文本特征和结构化特征的集合,s(T,S)表示文本特征到结构化特征的相似度得分,s(S,T)表示结构化特征到文本特征的相似度得分;
其中,表示对于当前输入的文本特征,队列中的第m个结构化特征与其相匹配的可能性;同理/>表示对于当前输入的结构化特征,队列中的第m个文本特征与其相匹配的可能性,Tm表示第m个文本特征;最终可以得出,STC任务损失函数构成如下:
yt2s(T)表示与文本特征匹配对应的结构化特征标签,ys2t(S)表示与结构化特征匹配对应的文本特征标签,pt2s(T)表示当前输入文本特征与队列中所有结构化特征的匹配可能性,ps2t(S)表示当前输入结构化特征与队列中所有文本特征的匹配可能性;
综上所述,对比学习的损失函数如下:
4.根据权利要求3所述的基于跨模态语义对齐的多模态知识图谱表示学习方法,其特征在于:在所述步骤3中,多头自注意力机制是实现所述多模态特征融合的基础,用Q、K和V分别表示该过程中的查询、关键词和数值对应的转换矩阵,dk表示特征维度,其中,单头注意力机制的计算过程表示为:
所述步骤3中,Transformer架构的改进如下:使用MultiAttn表示多头自注意力计算,用和/>分别表示多模态特征融合的多层神经网络中第l层中的图像特征、结构化特征和文本特征;对于图像特征,在特征融合过程中需要同时考虑结构化特征以及图像特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λv;将经过注意力计算的图像特征表示为/>和/>分别表示针对图像特征自注意力和跨模态注意力提取得到的特征,具体计算方法过程如下:
经过多头自注意力的特征提取计算之后,利用层归一化Layer Normal和残差结构使图像特征规范化,得到多头注意力模块的输出向量图像特征需要经过前馈神经网络FFN进一步提取特征,得到图像特征在第l层的输出向量/>过程如下:
同理,得到文本模态特征经过第l层的多模态特征融合计算后得到的特征向量
其中,对于文本特征,在特征融合过程中需要同时考虑结构化特征以及文本特征自身包含的语义信息,将提取的跨模态特征的权重表示为超参数λT;将经过注意力计算的文本特征表示为和/>分别表示针对文本特征自注意力和跨模态注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化Layer Normal和残差结构使文本特征规范化,得到多头注意力模块的输出向量/>文本特征需要经过前馈神经网络FFN进一步提取特征,得到文本特征在第l层的输出向量/>
结构化模态特征的多模态融合实现在前馈网络中,在多头注意力计算中不需要使用跨模态特征,输出结构化特征其中超参数αV和aT分别表示结构化特征在前馈神经网络中引入图像特征和文本特征的权重:
其中,表示针对结构化特征自注意力提取得到的特征,经过多头自注意力的特征提取计算之后,利用层归一化Layer Normal和残差结构使结构化特征规范化,得到多头注意力模块的输出向量/>结构化特征需要经过前馈神经网络FFN进一步提取特征,得到结构化特征在第l层的输出向量/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435877.9A CN117435744A (zh) | 2023-11-01 | 2023-11-01 | 基于跨模态语义对齐的多模态知识图谱表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311435877.9A CN117435744A (zh) | 2023-11-01 | 2023-11-01 | 基于跨模态语义对齐的多模态知识图谱表示学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117435744A true CN117435744A (zh) | 2024-01-23 |
Family
ID=89554940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311435877.9A Pending CN117435744A (zh) | 2023-11-01 | 2023-11-01 | 基于跨模态语义对齐的多模态知识图谱表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117435744A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
-
2023
- 2023-11-01 CN CN202311435877.9A patent/CN117435744A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117874706A (zh) * | 2024-03-12 | 2024-04-12 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
CN117874706B (zh) * | 2024-03-12 | 2024-05-31 | 之江实验室 | 一种多模态知识蒸馏学习方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN113836992B (zh) | 识别标签的方法、训练标签识别模型的方法、装置及设备 | |
CN112216307B (zh) | 语音情感识别方法以及装置 | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN113688878B (zh) | 一种基于记忆力机制和图神经网络的小样本图像分类方法 | |
CN117435744A (zh) | 基于跨模态语义对齐的多模态知识图谱表示学习方法 | |
Mittal et al. | Deep graph-long short-term memory: a deep learning based approach for text classification | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及系统 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN116432019A (zh) | 一种数据处理方法及相关设备 | |
CN118194238B (zh) | 一种多语种多模态情感识别方法、系统及设备 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN117197569A (zh) | 图像审核方法、图像审核模型训练方法、装置和设备 | |
CN117648469A (zh) | 一种基于对比学习的交叉双塔结构答案选择方法 | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
Luo et al. | Improving neural language models by segmenting, attending, and predicting the future | |
CN117371481A (zh) | 一种基于元学习的神经网络模型检索方法 | |
US20240126993A1 (en) | Transformer-based text encoder for passage retrieval | |
CN116911252A (zh) | 基于关系注意力增强和词性掩码的实体关系联合抽取方法 | |
CN116975403A (zh) | 内容检索模型及内容检索处理方法、装置和计算机设备 | |
KR102408042B1 (ko) | 그룹 기반 얼굴 인식 방법 및 장치 | |
Li et al. | Continuous learning for large-scale personalized domain classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |