CN113065012B - 一种基于多模态动态交互机制的图文解析方法 - Google Patents

一种基于多模态动态交互机制的图文解析方法 Download PDF

Info

Publication number
CN113065012B
CN113065012B CN202110288644.5A CN202110288644A CN113065012B CN 113065012 B CN113065012 B CN 113065012B CN 202110288644 A CN202110288644 A CN 202110288644A CN 113065012 B CN113065012 B CN 113065012B
Authority
CN
China
Prior art keywords
text
module
image
model
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110288644.5A
Other languages
English (en)
Other versions
CN113065012A (zh
Inventor
曲磊钢
刘萌
胡宇鹏
高赞
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong University
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University, Shandong Institute of Artificial Intelligence filed Critical Shandong University
Priority to CN202110288644.5A priority Critical patent/CN113065012B/zh
Publication of CN113065012A publication Critical patent/CN113065012A/zh
Application granted granted Critical
Publication of CN113065012B publication Critical patent/CN113065012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多模态动态交互机制的图文解析方法,提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。

Description

一种基于多模态动态交互机制的图文解析方法
技术领域
本发明涉及图文检索技术领域,具体涉及一种基于多模态动态交互机制的图文解析方法。
背景技术
视觉和语言作为信息表示、存储和传播的两大重要媒介,在日常生产和生活中扮演着重要的角色。近年来,随着计算机技术和人工智能的发展,人们对机器感知和推理的需求与日俱增,特别是对于图像和文本两种数据的理解与匹配,故图文检索吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,其不仅能有效地打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展(如:跨模态检索、图像标注、视觉问答),因而具有广泛的、深刻的研究意义。
图文检索任务聚焦于图像和文本之间的相互检索,它的发展面临着诸多挑战,其中的两个最具代表性的挑战为:模态内关系的推理和模态间语义的对齐。前者要求准确地识别和理解模态内部实体间的关系,如“小男孩旁边有一个红色的雪橇”;后者则要求在语义层面精确地对不同模态间的实体进行对齐。近年来,针对以上两大挑战,图文检索领域涌现了众多研究工作,其大致可以分为三个类别:基于模态内交互的方法、基于模态间交互的方法、基于混合模态交互的方法。这三类方法主要存在两个问题:首先,这些方法的模态交互模式是手工设计的,严重依赖于专家性经验和大量的实验反馈,这很有可能导致最优的模态交互模式未被探索到;另外,这些方法无一例外都属于静态方法,即所有的数据样本都经过相同且固定的计算流。即使简单的样本也不得不经过复杂的交互计算,这将导致计算资源的浪费。
发明内容
本发明为了克服以上技术的不足,提供了一种实现图像数据库和文本数据库之间的双向语义配对和检索的基于多模态动态交互机制的图文解析方法。
本发明克服其技术问题所采用的技术方案是:
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索。
进一步的,步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure GDA0003544704010000021
vi为第i个区域的特征,i∈{1,...,R},
Figure GDA0003544704010000022
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure GDA0003544704010000023
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure GDA0003544704010000024
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure GDA0003544704010000025
进一步的,步骤b)包括如下步骤:
b-1)通过公式
Figure GDA0003544704010000026
得到第l层第i个基础交互模块输出的特征矩阵
Figure GDA0003544704010000027
式中Fi (l)为第l层第i个基础交互模块的交互函数,
Figure GDA0003544704010000028
为第l层第i个基础交互模块的输入,使用矩阵
Figure GDA0003544704010000029
表示局部查询特征,使用矩阵
Figure GDA0003544704010000031
表示全局查询特征,使用矩阵
Figure GDA0003544704010000032
表示局部候选特征,使用矩阵
Figure GDA0003544704010000033
表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-2)通过公式
Figure GDA0003544704010000034
建立修正恒等模块,ReLU(·)为修正线性映射;
b-3)通过公式
Figure GDA0003544704010000035
建立模态内推理模块,式中
Figure GDA0003544704010000036
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure GDA0003544704010000037
Figure GDA0003544704010000038
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
b-4)通过公式
Figure GDA0003544704010000039
建立整体-局部引导模块,dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为矩阵X的第r个行向量,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M};
b-5)通过公式
Figure GDA00035447040100000310
计算注意力权重ark,式中λ为温度因子的倒数,srk=cos(xr,yk),yk为矩阵Y的第k个行向量,通过公式
Figure GDA0003544704010000041
计算上下文向量cr
b-6)通过公式
Figure GDA0003544704010000042
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure GDA0003544704010000043
为当前模块的输出,跨模态精炼模块表示为
Figure GDA0003544704010000044
γr为缩放因子,βr为平移因子。
进一步的,步骤c)包括如下步骤:
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式
Figure GDA0003544704010000045
表示路径空间的路由过程,式中C为每层的模块总数,
Figure GDA0003544704010000046
表示第(l-1)层第j个模块的输出,
Figure GDA0003544704010000047
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure GDA0003544704010000048
为第l层第i个cell的路由函数,
Figure GDA0003544704010000049
Figure GDA00035447040100000410
的第r个行向量;
c-3)通过公式
Figure GDA00035447040100000411
得到精炼特征矩阵X*
Figure GDA00035447040100000412
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
进一步的,步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
进一步的,步骤d)包括如下特征:步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure GDA0003544704010000051
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure GDA0003544704010000052
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure GDA0003544704010000053
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure GDA0003544704010000054
Figure GDA0003544704010000055
进一步的,步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure GDA0003544704010000056
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure GDA0003544704010000057
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure GDA0003544704010000058
Figure GDA0003544704010000059
为相应的BERT输出特征,gy为临时变量。
进一步的,步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
本发明的有益效果是:提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入。
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作。
c)。为每个基础交互模块配置一个路由器,路由器能够根据数据自动学习交互路径。在图像-文本版本的模型中,把图像的视觉区域特征作为计算的主体,文本的词嵌入作为交互的辅助模态,两者作为输入通过多层的由四种交互模块稠密连接形成的模态交互路由模型中。文本-图像版本同理,也进行与此对称的操作过程对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度。
d)基于所计算的余弦相似度,利用在线负样本挖掘方法计算三元组损失项。
e)以BERT提取的文本特征之间的相似度为监督信号,对所收集的交互路径之间的相似度进行约束,得到路径损失项,该项可使语义空间和路径空间在一定程度上能够保持一致。
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化。
g)在测试阶段,使用优化的模型提取图像和文本的特征,计算余弦相似度,以此进行双向跨模态检索。
提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。这是第一个利用动态机制对模态交互模式进行探索的工作。为了赋予模型充分的模态交互能力,本发明从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,本发明在每个交互模块中整合了一个动态路由器。此外,本发明提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。通过使用本发明进行图像和文本之间的相互检索,准确度大幅度提高。
实施例1:
步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure GDA0003544704010000071
vi为第i个区域的特征,i∈{1,...,R},
Figure GDA0003544704010000072
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure GDA0003544704010000073
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure GDA0003544704010000074
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure GDA0003544704010000075
实施例2:
步骤b)包括如下步骤:
b-1)通过公式
Figure GDA0003544704010000076
得到第l层第i个基础交互模块输出的特征矩阵
Figure GDA0003544704010000077
式中Fi (l)为第l层第i个基础交互模块的交互函数,
Figure GDA0003544704010000078
为第l层第i个基础交互模块的输入,使用矩阵
Figure GDA0003544704010000079
表示局部查询特征,使用矩阵
Figure GDA00035447040100000710
表示全局查询特征,使用矩阵
Figure GDA00035447040100000711
表示局部候选特征,使用矩阵
Figure GDA00035447040100000712
表示全局候选特征,M和N分别为两个矩阵的行数。本发明共设计了两种版本的模型:对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R)。
b-2)为了能够使模型能够灵活地跳过非必要的复杂交互,本发明首先设计了一个简单的修正恒等模块,其操作定义为:
Figure GDA00035447040100000713
ReLU(·)为修正线性映射。
b-3)通过公式
Figure GDA0003544704010000081
建立模态内推理模块,本发明使用多头注意力机制设计模态内推理模块,赋予模型模态内关系推理的能力,该机制表示如下:
Figure GDA0003544704010000082
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure GDA0003544704010000083
Figure GDA0003544704010000084
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重。
b-4)管局部表征可以编码细节线索,但全局特征中包含了丰富的上下文和高层次语义信息,仍然值得关注。为此,本发明设计了整体-局部引导模块,该模块表示如下:
Figure GDA0003544704010000085
dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为矩阵X的第r个行向量,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M}。
b-5)为了进一步桥接跨模态数据间的语义鸿沟,本发明设计了跨模态精炼模块对局部特征进行局部-局部跨模态交互。首先,计算注意力权重:
Figure GDA0003544704010000086
式中λ为温度因子的倒数,srk=cos(xr,yk),yk为矩阵Y的第k个行向量,通过公式
Figure GDA0003544704010000087
计算上下文向量cr。b-6)通过公式
Figure GDA0003544704010000088
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure GDA0003544704010000091
为当前模块的输出,跨模态精炼模块表示为
Figure GDA0003544704010000092
γr为缩放因子,βr为平移因子。
实施例3:
步骤c)包括如下步骤:
c-1)为了使以上四种基础交互模块更好地协同合作,本发明在深度和宽度两个维度对对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间。
c-2)通过公式
Figure GDA0003544704010000093
表示路径空间的路由过程,式中C为每层的模块总数,
Figure GDA0003544704010000094
表示第(l-1)层第j个模块的输出,
Figure GDA0003544704010000095
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure GDA0003544704010000096
为第l层第i个cell的路由函数,
Figure GDA0003544704010000097
Figure GDA0003544704010000098
的第r个行向量。
c-3)路由过程结束后,我们可以从模型的最后一层得到最终的精炼特征矩阵:
Figure GDA0003544704010000099
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
实施例4:
步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
实施例5:
步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure GDA0003544704010000101
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure GDA0003544704010000102
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure GDA0003544704010000103
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure GDA0003544704010000104
Figure GDA0003544704010000105
实施例6:
步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure GDA0003544704010000106
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure GDA0003544704010000107
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure GDA0003544704010000108
Figure GDA0003544704010000109
为相应的BERT输出特征,gy为临时变量。
实施例7:
步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于多模态动态交互机制的图文解析方法,其特征在于,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索;
步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure FDA0003544704000000011
vi为第i个区域的特征,i∈{1,...,R},
Figure FDA0003544704000000012
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure FDA0003544704000000013
Figure FDA0003544704000000014
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure FDA0003544704000000015
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure FDA0003544704000000016
Figure FDA0003544704000000017
步骤b)包括如下步骤:
b-1)通过公式
Figure FDA0003544704000000018
得到第l层第i个基础交互模块输出的特征矩阵
Figure FDA0003544704000000019
式中
Figure FDA00035447040000000110
为第l层第i个基础交互模块的交互函数,
Figure FDA00035447040000000111
为第l层第i个基础交互模块的输入,使用矩阵
Figure FDA0003544704000000021
表示局部查询特征,使用矩阵
Figure FDA0003544704000000022
表示全局查询特征,使用矩阵
Figure FDA0003544704000000023
表示局部候选特征,使用矩阵
Figure FDA0003544704000000024
表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-2)通过公式
Figure FDA0003544704000000025
建立修正恒等模块,ReLU(·)为修正线性映射;
b-3)通过公式
Figure FDA0003544704000000026
建立模态内推理模块,式中
Figure FDA0003544704000000027
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure FDA0003544704000000028
i∈{1,...,H},
Figure FDA0003544704000000029
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
b-4)通过公式
Figure FDA00035447040000000210
建立整体-局部引导模块,dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为矩阵X的第r个行向量,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M};
b-5)通过公式
Figure FDA00035447040000000211
计算注意力权重ark,式中λ为温度因子的倒数,srk=cos(xr,yk),yk为矩阵Y的第k个行向量,通过公式
Figure FDA0003544704000000031
计算上下文向量cr
b-6)通过公式
Figure FDA0003544704000000032
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure FDA0003544704000000033
为当前模块的输出,跨模态精炼模块表示为
Figure FDA0003544704000000034
γr为缩放因子,βr为平移因子;
步骤c)包括如下步骤:
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式
Figure FDA0003544704000000035
表示路径空间的路由过程,式中C为每层的模块总数,
Figure FDA0003544704000000036
表示第(l-1)层第j个模块的输出,
Figure FDA0003544704000000037
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure FDA0003544704000000038
Figure FDA0003544704000000039
为第l层第i个cell的路由函数,
Figure FDA00035447040000000310
Figure FDA00035447040000000311
Figure FDA00035447040000000312
的第r个行向量;
c-3)通过公式
Figure FDA00035447040000000313
得到精炼特征矩阵X*
Figure FDA00035447040000000314
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到;
步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure FDA0003544704000000041
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure FDA0003544704000000042
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure FDA0003544704000000043
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure FDA0003544704000000044
Figure FDA0003544704000000045
步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure FDA0003544704000000046
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure FDA0003544704000000047
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure FDA0003544704000000048
Figure FDA0003544704000000049
为相应的BERT输出特征,gy为临时变量。
2.根据权利要求1所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
CN202110288644.5A 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法 Active CN113065012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288644.5A CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288644.5A CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Publications (2)

Publication Number Publication Date
CN113065012A CN113065012A (zh) 2021-07-02
CN113065012B true CN113065012B (zh) 2022-04-22

Family

ID=76561192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288644.5A Active CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Country Status (1)

Country Link
CN (1) CN113065012B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297473B (zh) * 2021-11-25 2024-10-15 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN114254618B (zh) * 2021-12-14 2024-09-20 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN116150418B (zh) * 2023-04-20 2023-07-07 南京邮电大学 一种基于混合聚焦注意力机制的图文匹配方法及系统
CN116342343A (zh) * 2023-05-31 2023-06-27 创而新(北京)教育科技有限公司 一种数据驱动可扩展的在线教育平台处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103391594A (zh) * 2012-05-09 2013-11-13 电信科学技术研究院 一种无线体域网路由优化的方法及装置
CN109063732A (zh) * 2018-06-26 2018-12-21 山东大学 基于特征交互和多任务学习的图像排序方法及系统
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198635B2 (en) * 2016-01-19 2019-02-05 Fuji Xerox Co., Ltd. Systems and methods for associating an image with a business venue by using visually-relevant and business-aware semantics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103391594A (zh) * 2012-05-09 2013-11-13 电信科学技术研究院 一种无线体域网路由优化的方法及装置
CN109063732A (zh) * 2018-06-26 2018-12-21 山东大学 基于特征交互和多任务学习的图像排序方法及系统
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Context-Aware Multi-View Summarization Network for Image-Text Matching;Leigang Qu,Meng Liu等;《MM "20: The 28th ACM International Conference on Multimedia》;20201012;全文 *
Dynamic Context-guided Capsule Network for Multimodal Machine Translation;Huan Lin, Fandong Meng等;《MM "20: The 28th ACM International Conference on Multimedia》;20201012;全文 *
Dynamic Interaction Networks for Image-Text Multimodal Learning;Wenshan Wang等;《Neurocomputing 》;20200228;第379卷;全文 *
跨媒体相关性推理与检索研究;张鸿等;《计算机研究与发展》;20080515(第05期);全文 *

Also Published As

Publication number Publication date
CN113065012A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN113065012B (zh) 一种基于多模态动态交互机制的图文解析方法
CN115033670B (zh) 多粒度特征融合的跨模态图文检索方法
Waheed et al. CNN deep learning-based image to vector depiction
CN113779220B (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN114912423A (zh) 一种基于迁移学习的方面级别情感分析方法及装置
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN116975776B (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN116127090B (zh) 基于融合和半监督信息抽取的航空系统知识图谱构建方法
CN111832293A (zh) 基于头实体预测的实体和关系联合抽取方法
CN113255321A (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN113468291B (zh) 基于专利网络表示学习的专利自动分类方法
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN116245107A (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN117540035B (zh) 一种基于实体类型信息融合的rpa知识图谱构建方法
Guo Art teaching interaction based on multimodal information fusion under the background of deep learning
CN117236374A (zh) 一种基于充分展开的材料图神经网络的分层解释方法
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
Huang et al. Modeling multiple aesthetic views for series photo selection
CN115344735A (zh) 一种层次化对齐的图像文本检索方法
Luo et al. ESGNet: A multimodal network model incorporating entity semantic graphs for information extraction from Chinese resumes
Yu et al. Workflow recommendation based on graph embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant