CN113065012A - 一种基于多模态动态交互机制的图文解析方法 - Google Patents

一种基于多模态动态交互机制的图文解析方法 Download PDF

Info

Publication number
CN113065012A
CN113065012A CN202110288644.5A CN202110288644A CN113065012A CN 113065012 A CN113065012 A CN 113065012A CN 202110288644 A CN202110288644 A CN 202110288644A CN 113065012 A CN113065012 A CN 113065012A
Authority
CN
China
Prior art keywords
text
module
image
model
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110288644.5A
Other languages
English (en)
Other versions
CN113065012B (zh
Inventor
曲磊钢
刘萌
胡宇鹏
高赞
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Shandong Institute of Artificial Intelligence
Original Assignee
Shandong University
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University, Shandong Institute of Artificial Intelligence filed Critical Shandong University
Priority to CN202110288644.5A priority Critical patent/CN113065012B/zh
Publication of CN113065012A publication Critical patent/CN113065012A/zh
Application granted granted Critical
Publication of CN113065012B publication Critical patent/CN113065012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多模态动态交互机制的图文解析方法,提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。

Description

一种基于多模态动态交互机制的图文解析方法
技术领域
本发明涉及图文检索技术领域,具体涉及一种基于多模态动态交互机制的图文解析方法。
背景技术
视觉和语言作为信息表示、存储和传播的两大重要媒介,在日常生产和生活中扮演着重要的角色。近年来,随着计算机技术和人工智能的发展,人们对机器感知和推理的需求与日俱增,特别是对于图像和文本两种数据的理解与匹配,故图文检索吸引了国内外众多研究者的研究兴趣。作为信息检索和多媒体计算领域的基础性和关键性任务,其不仅能有效地打破视觉和语言之间的语义鸿沟和分布壁垒,还能促进许多上层应用的发展(如:跨模态检索、图像标注、视觉问答),因而具有广泛的、深刻的研究意义。
图文检索任务聚焦于图像和文本之间的相互检索,它的发展面临着诸多挑战,其中的两个最具代表性的挑战为:模态内关系的推理和模态间语义的对齐。前者要求准确地识别和理解模态内部实体间的关系,如“小男孩旁边有一个红色的雪橇”;后者则要求在语义层面精确地对不同模态间的实体进行对齐。近年来,针对以上两大挑战,图文检索领域涌现了众多研究工作,其大致可以分为三个类别:基于模态内交互的方法、基于模态间交互的方法、基于混合模态交互的方法。这三类方法主要存在两个问题:首先,这些方法的模态交互模式是手工设计的,严重依赖于专家性经验和大量的实验反馈,这很有可能导致最优的模态交互模式未被探索到;另外,这些方法无一例外都属于静态方法,即所有的数据样本都经过相同且固定的计算流。即使简单的样本也不得不经过复杂的交互计算,这将导致计算资源的浪费。
发明内容
本发明为了克服以上技术的不足,提供了一种实现图像数据库和文本数据库之间的双向语义配对和检索的基于多模态动态交互机制的图文解析方法。
本发明克服其技术问题所采用的技术方案是:
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索。
进一步的,步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure BDA0002979860160000021
vi为第i个区域的特征,i∈{1,...,R},
Figure BDA0002979860160000022
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure BDA0002979860160000023
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure BDA0002979860160000024
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure BDA0002979860160000025
进一步的,步骤b)包括如下步骤:
b-1)通过公式
Figure BDA0002979860160000026
得到第l层第i个基础交互模块输出的特征矩阵
Figure BDA0002979860160000027
式中
Figure BDA0002979860160000028
为第l层第i个基础交互模块的交互函数,
Figure BDA0002979860160000029
为第l层第i个基础交互模块的输入,使用矩阵
Figure BDA00029798601600000210
表示局部查询特征,使用矩阵
Figure BDA0002979860160000031
表示全局查询特征,使用矩阵
Figure BDA0002979860160000032
表示局部候选特征,使用矩阵
Figure BDA0002979860160000033
表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-2)通过公式
Figure BDA0002979860160000034
建立修正恒等模块,ReLU(·)为修正线性映射;
b-3)通过公式
Figure BDA0002979860160000035
建立模态内推理模块,式中
Figure BDA0002979860160000036
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure BDA0002979860160000037
i∈{1,...,H},
Figure BDA0002979860160000038
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
b-4)通过公式
Figure BDA0002979860160000039
建立整体-局部引导模块,dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M};
b-5)通过公式
Figure BDA00029798601600000310
计算注意力权重ark,式中λ为温度因子的倒数,srk=cos(xr,yk),xr为矩阵X的第r个行向量,yk为矩阵Y的第k个行向量,通过公式
Figure BDA00029798601600000311
计算上下文向量cr
b-6)通过公式
Figure BDA0002979860160000041
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure BDA0002979860160000042
为当前模块的输出,跨模态精炼模块表示为
Figure BDA0002979860160000043
进一步的,步骤c)包括如下步骤:
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式
Figure BDA0002979860160000044
表示路径空间的路由过程,式中C为每层的模块总数,
Figure BDA0002979860160000045
表示第(l-1)层第j个模块的输出,
Figure BDA0002979860160000046
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure BDA0002979860160000047
Figure BDA0002979860160000048
为第l层第i个cell的路由函数,
Figure BDA0002979860160000049
Figure BDA00029798601600000410
Figure BDA00029798601600000411
的第r个行向量;
c-3)通过公式
Figure BDA00029798601600000412
得到精炼特征矩阵X*
Figure BDA00029798601600000413
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
进一步的,步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
进一步的,步骤d)包括如下特征:步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure BDA00029798601600000414
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure BDA0002979860160000051
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure BDA0002979860160000052
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure BDA0002979860160000053
Figure BDA0002979860160000054
进一步的,步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure BDA0002979860160000055
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure BDA0002979860160000056
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure BDA0002979860160000057
Figure BDA0002979860160000058
为相应的BERT输出特征,gy为临时变量。
进一步的,步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
本发明的有益效果是:提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。为了赋予模型充分的模态交互能力,从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,在每个交互模块中整合了一个动态路由器。通过提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。在进行图像和文本之间的相互检索时准确度大幅度提高。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于多模态动态交互机制的图文解析方法,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入。
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作。
c)。为每个基础交互模块配置一个路由器,路由器能够根据数据自动学习交互路径。在图像-文本版本的模型中,把图像的视觉区域特征作为计算的主体,文本的词嵌入作为交互的辅助模态,两者作为输入通过多层的由四种交互模块稠密连接形成的模态交互路由模型中。文本-图像版本同理,也进行与此对称的操作过程对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度。
d)基于所计算的余弦相似度,利用在线负样本挖掘方法计算三元组损失项。
e)以BERT提取的文本特征之间的相似度为监督信号,对所收集的交互路径之间的相似度进行约束,得到路径损失项,该项可使语义空间和路径空间在一定程度上能够保持一致。
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化。
g)在测试阶段,使用优化的模型提取图像和文本的特征,计算余弦相似度,以此进行双向跨模态检索。
提出了一个动态模态交互建模框架用于解决图文检索问题,该框架不仅能够涵盖现有方法的交互模式,还能够自动学习其他未被探索到的模式。这是第一个利用动态机制对模态交互模式进行探索的工作。为了赋予模型充分的模态交互能力,本发明从不同角度、不同粒度设计了四种基础的交互模块,其有效解决了模态内推理和模态间对齐两大图文检索中的核心挑战。为了动态地学习模态交互模式,本发明在每个交互模块中整合了一个动态路由器。此外,本发明提出的语义一致性正则化技术对路径决策过程进行了合理的、强有力的约束,确保了模型路径学习的高效性。通过使用本发明进行图像和文本之间的相互检索,准确度大幅度提高。
实施例1:
步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure BDA0002979860160000071
vi为第i个区域的特征,i∈{1,...,R},
Figure BDA0002979860160000072
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure BDA0002979860160000073
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure BDA0002979860160000074
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure BDA0002979860160000075
实施例2:
步骤b)包括如下步骤:
b-1)通过公式
Figure BDA0002979860160000076
得到第l层第i个基础交互模块输出的特征矩阵
Figure BDA0002979860160000077
式中
Figure BDA0002979860160000078
为第l层第i个基础交互模块的交互函数,
Figure BDA0002979860160000079
为第l层第i个基础交互模块的输入,使用矩阵
Figure BDA00029798601600000710
表示局部查询特征,使用矩阵
Figure BDA00029798601600000711
表示全局查询特征,使用矩阵
Figure BDA00029798601600000712
表示局部候选特征,使用矩阵
Figure BDA00029798601600000713
表示全局候选特征,M和N分别为两个矩阵的行数。本发明共设计了两种版本的模型:对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R)。
b-2)为了能够使模型能够灵活地跳过非必要的复杂交互,本发明首先设计了一个简单的修正恒等模块,其操作定义为:
Figure BDA00029798601600000714
ReLU(·)为修正线性映射。
b-3)通过公式
Figure BDA00029798601600000715
建立模态内推理模块,本发明使用多头注意力机制设计模态内推理模块,赋予模型模态内关系推理的能力,该机制表示如下:
Figure BDA0002979860160000081
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure BDA0002979860160000082
i∈{1,...,H},
Figure BDA0002979860160000083
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重。
b-4)管局部表征可以编码细节线索,但全局特征中包含了丰富的上下文和高层次语义信息,仍然值得关注。为此,本发明设计了整体-局部引导模块,该模块表示如下:
Figure BDA0002979860160000084
dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M}。
b-5)为了进一步桥接跨模态数据间的语义鸿沟,本发明设计了跨模态精炼模块对局部特征进行局部-局部跨模态交互。首先,计算注意力权重:
Figure BDA0002979860160000085
式中λ为温度因子的倒数,srk=cos(xr,yk),xr为矩阵X的第r个行向量,yk为矩阵Y的第k个行向量,通过公式
Figure BDA0002979860160000086
计算上下文向量cr
b-6)通过公式
Figure BDA0002979860160000087
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure BDA0002979860160000091
为当前模块的输出,跨模态精炼模块表示为
Figure BDA0002979860160000092
实施例3:
步骤c)包括如下步骤:
c-1)为了使以上四种基础交互模块更好地协同合作,本发明在深度和宽度两个维度对对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间。
c-2)通过公式
Figure BDA0002979860160000093
表示路径空间的路由过程,式中C为每层的模块总数,
Figure BDA0002979860160000094
表示第(l-1)层第j个模块的输出,
Figure BDA0002979860160000095
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure BDA0002979860160000096
Figure BDA0002979860160000097
为第l层第i个cell的路由函数,
Figure BDA0002979860160000098
Figure BDA0002979860160000099
Figure BDA00029798601600000910
的第r个行向量。
c-3)路由过程结束后,我们可以从模型的最后一层得到最终的精炼特征矩阵:
Figure BDA00029798601600000911
Figure BDA00029798601600000912
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
实施例4:
步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
实施例5:
步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure BDA0002979860160000101
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure BDA0002979860160000102
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure BDA0002979860160000103
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure BDA0002979860160000104
Figure BDA0002979860160000105
实施例6:
步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure BDA0002979860160000106
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure BDA0002979860160000107
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure BDA0002979860160000108
Figure BDA0002979860160000109
为相应的BERT输出特征,gy为临时变量。
实施例7:
步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多模态动态交互机制的图文解析方法,其特征在于,包括如下步骤:
a)利用Bottom-up Attention网络和BERT模型分别提取图像的视觉区域特征和文本的上下文感知的词嵌入;
b)定义四种类型的基础交互模块用于完成不同层面及不同粒度的交互操作;
c)对经过多层动态路由精炼的特征与另一模态的特征计算余弦相似度;
d)利用在线负样本挖掘方法计算三元组损失项;
e)以BERT提取的文本特征之间的相似度为监督信号,对收集的交互路径之间的相似度进行约束,得到路径损失项;
f)结合三元组损失项和路径损失项,利用PyTorch中的Adam优化器对模型进行端到端的优化;
g)使用优化的模型提取图像和文本的特征,计算余弦相似度,进行双向跨模态检索。
2.根据权利要求1所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤a)中选择Bottom-up Attention网络提取的按照置信度排序的前R个区域特征,使用全连接变换得到矩阵V,
Figure FDA0002979860150000011
vi为第i个区域的特征,i∈{1,...,R},
Figure FDA0002979860150000016
为实数空间,D为特征的维度,对矩阵V利用平均池化得到全局图像特征
Figure FDA0002979860150000017
Figure FDA0002979860150000012
利用预训练的BERT模型提取文本词嵌入,使用一维卷积网络对提取的文本词嵌入进行局部关系增强,得到矩阵W,
Figure FDA0002979860150000013
wi为第i个单词的特征,i∈{1,...,K},对矩阵W利用最大池化得到全局文本特征
Figure FDA0002979860150000018
Figure FDA0002979860150000014
3.根据权利要求2所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤b)包括如下步骤:
b-1)通过公式
Figure FDA0002979860150000015
得到第l层第i个基础交互模块输出的特征矩阵
Figure FDA0002979860150000021
式中Fi (l)为第l层第i个基础交互模块的交互函数,
Figure FDA0002979860150000022
为第l层第i个基础交互模块的输入,使用矩阵
Figure FDA0002979860150000023
表示局部查询特征,使用矩阵
Figure FDA0002979860150000024
表示全局查询特征,使用矩阵
Figure FDA0002979860150000025
表示局部候选特征,使用矩阵
Figure FDA0002979860150000026
表示全局候选特征,M和N分别为两个矩阵的行数,对于图像-文本模型版本,赋值X:=V(M:=R)和Y:=W(N:=K),对于文本-图像模型版本,赋值X:=W(M:=K)和Y:=V(N:=R);
b-2)通过公式
Figure FDA0002979860150000027
建立修正恒等模块,ReLU(·)为修正线性映射;
b-3)通过公式
Figure FDA0002979860150000028
建立模态内推理模块,式中
Figure FDA0002979860150000029
Concat(·)为拼接操作,H为头的数目,FFN(·)为由两层感知机所实现的前馈网络,
Figure FDA00029798601500000210
Figure FDA00029798601500000211
Softmax(·)为Softmax函数,T为转置,dk为Q′和K′的维度,Wi Q′、Wi K′、Wi V′为模型的权重;
b-4)通过公式
Figure FDA00029798601500000212
建立整体-局部引导模块,dr为引导方向,Norm(·)为L2归一化操作,FC为全连接层,xr为整体-局部引导模块的输入,xr′为整体-局部引导模块的输出,r∈{1,...,M};
b-5)通过公式
Figure FDA00029798601500000213
计算注意力权重ark,式中λ为温度因子的倒数,srk=cos(xr,yk),xr为矩阵X的第r个行向量,yk为矩阵Y的第k个行向量,通过公式
Figure FDA0002979860150000031
计算上下文向量cr
b-6)通过公式
Figure FDA0002979860150000032
建立跨模态精炼模块,式中FC(·)为全连接层的映射,Tanh(·)为双曲正切函数,MLP(·)为多层感知机,
Figure FDA0002979860150000033
为当前模块的输出,跨模态精炼模块表示为
Figure FDA0002979860150000034
4.根据权利要求3所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤c)包括如下步骤:
c-1)对修正恒等模块、模态内推理模块、整体-局部引导模块及跨模态精炼模块在深度和宽度两个维度进行稠密连接操作,连接后形成路径空间;
c-2)通过公式
Figure FDA0002979860150000035
表示路径空间的路由过程,式中C为每层的模块总数,
Figure FDA0002979860150000036
表示第(l-1)层第j个模块的输出,
Figure FDA0002979860150000037
为第(l-1)层第j个cell到第1层第i个cell的路由概率,
Figure FDA0002979860150000038
Figure FDA0002979860150000039
为第l层第i个cell的路由函数,
Figure FDA00029798601500000310
Figure FDA00029798601500000311
Figure FDA00029798601500000312
的第r个行向量;
c-3)通过公式
Figure FDA00029798601500000313
得到精炼特征矩阵X*
Figure FDA00029798601500000314
为矩阵X第L层第0个cell,L为总层数,对精炼特征矩阵X*所有行向量进行平均池化和最大池化操作得到精炼的全局特征x*
5.根据权利要求1所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤c-2)中的第l层第i个cell的路由函数依次由平均池化、多层感知机和非线性映射计算得到。
6.根据权利要求1所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤d)包括如下特征:
d-1)给定图像I和文本T,通过
Figure FDA0002979860150000041
计算图像-文本版本的模型的相似度s(I,T),通过公式
Figure FDA0002979860150000042
计算文本-图像版本的模型的相似度s(I,T),对于图像-文本模型版本,赋值X:=V,模型输出为v*=x*,对于文本-图像模型版本,赋值X:=W,模型输出为w*=x*
d-2)通过公式
Figure FDA0002979860150000043
计算得到三元组损失项LA,式中a为间隔系数,[·]+=max(·,0),
Figure FDA0002979860150000044
Figure FDA0002979860150000045
7.根据权利要求6所述的基于多模态动态交互机制的图文解析方法,其特征在于,步骤e)包括如下步骤:
e-1)收集并拼接路由概率得到路由向量
Figure FDA0002979860150000046
e-2)以BERT提取的文本嵌入作为监督信号,使用语义-路径一致性损失对路由向量的学习进修越是,通过公式
Figure FDA0002979860150000047
计算路径损失项LP,式中B为与x处于相同模态的数据实例集合,
Figure FDA0002979860150000048
Figure FDA0002979860150000049
为相应的BERT输出特征,gy为临时变量。
8.根据权利要求7所述的基于多模态动态交互机制的图文解析方法,其特征在于:步骤f)中通过公式L=LAPLP结合三元组损失项和路径损失项得到最终的损失L,λP为权衡参数。
CN202110288644.5A 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法 Active CN113065012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110288644.5A CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110288644.5A CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Publications (2)

Publication Number Publication Date
CN113065012A true CN113065012A (zh) 2021-07-02
CN113065012B CN113065012B (zh) 2022-04-22

Family

ID=76561192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110288644.5A Active CN113065012B (zh) 2021-03-17 2021-03-17 一种基于多模态动态交互机制的图文解析方法

Country Status (1)

Country Link
CN (1) CN113065012B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114254618A (zh) * 2021-12-14 2022-03-29 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN116150418A (zh) * 2023-04-20 2023-05-23 南京邮电大学 一种基于混合聚焦注意力机制的图文匹配方法及系统
CN116342343A (zh) * 2023-05-31 2023-06-27 创而新(北京)教育科技有限公司 一种数据驱动可扩展的在线教育平台处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103391594A (zh) * 2012-05-09 2013-11-13 电信科学技术研究院 一种无线体域网路由优化的方法及装置
US20170206416A1 (en) * 2016-01-19 2017-07-20 Fuji Xerox Co., Ltd. Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics
CN109063732A (zh) * 2018-06-26 2018-12-21 山东大学 基于特征交互和多任务学习的图像排序方法及系统
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103391594A (zh) * 2012-05-09 2013-11-13 电信科学技术研究院 一种无线体域网路由优化的方法及装置
US20170206416A1 (en) * 2016-01-19 2017-07-20 Fuji Xerox Co., Ltd. Systems and Methods for Associating an Image with a Business Venue by using Visually-Relevant and Business-Aware Semantics
CN109063732A (zh) * 2018-06-26 2018-12-21 山东大学 基于特征交互和多任务学习的图像排序方法及系统
CN110597878A (zh) * 2019-09-16 2019-12-20 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112201228A (zh) * 2020-09-28 2021-01-08 苏州贝果智能科技有限公司 一种基于人工智能的多模态语义识别服务接入方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HUAN LIN, FANDONG MENG等: "Dynamic Context-guided Capsule Network for Multimodal Machine Translation", 《MM "20: THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
LEIGANG QU,MENG LIU等: "Context-Aware Multi-View Summarization Network for Image-Text Matching", 《MM "20: THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
WENSHAN WANG等: "Dynamic Interaction Networks for Image-Text Multimodal Learning", 《NEUROCOMPUTING 》 *
张鸿等: "跨媒体相关性推理与检索研究", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN114254618A (zh) * 2021-12-14 2022-03-29 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN114254618B (zh) * 2021-12-14 2024-09-20 哈尔滨工程大学 基于动态路由注意力机制的视觉问答方法、存储介质及设备
CN116150418A (zh) * 2023-04-20 2023-05-23 南京邮电大学 一种基于混合聚焦注意力机制的图文匹配方法及系统
CN116342343A (zh) * 2023-05-31 2023-06-27 创而新(北京)教育科技有限公司 一种数据驱动可扩展的在线教育平台处理方法

Also Published As

Publication number Publication date
CN113065012B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN113065012B (zh) 一种基于多模态动态交互机制的图文解析方法
CN115033670B (zh) 多粒度特征融合的跨模态图文检索方法
Waheed et al. CNN deep learning-based image to vector depiction
CN116975776B (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN115145551A (zh) 一种面向机器学习应用低代码开发的智能辅助系统
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN114912423A (zh) 一种基于迁移学习的方面级别情感分析方法及装置
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN113468291B (zh) 基于专利网络表示学习的专利自动分类方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN117391051B (zh) 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN117151222B (zh) 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
CN115048511A (zh) 一种基于Bert的护照版面分析方法
CN117540035B (zh) 一种基于实体类型信息融合的rpa知识图谱构建方法
CN111309849B (zh) 一种基于联合学习模型的细粒度数值信息抽取方法
CN117236374A (zh) 一种基于充分展开的材料图神经网络的分层解释方法
CN112950414A (zh) 一种基于解耦法律要素的法律文本表示方法
CN117371481A (zh) 一种基于元学习的神经网络模型检索方法
CN113988083B (zh) 一种用于航运新闻摘要生成的事实性信息编码与评估方法
CN115600602A (zh) 一种长文本的关键要素抽取方法、系统及终端设备
Luo et al. ESGNet: A multimodal network model incorporating entity semantic graphs for information extraction from Chinese resumes
Yu et al. Workflow recommendation based on graph embedding
Zeng et al. DIC-Transformer: interpretation of plant disease classification results using image caption generation technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant