CN114241191A - 一种基于跨模态自注意力的无候选框指代表达理解方法 - Google Patents

一种基于跨模态自注意力的无候选框指代表达理解方法 Download PDF

Info

Publication number
CN114241191A
CN114241191A CN202111557573.0A CN202111557573A CN114241191A CN 114241191 A CN114241191 A CN 114241191A CN 202111557573 A CN202111557573 A CN 202111557573A CN 114241191 A CN114241191 A CN 114241191A
Authority
CN
China
Prior art keywords
attention
language
image
target
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111557573.0A
Other languages
English (en)
Inventor
王鹏
索伟
孙梦阳
马瑞阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111557573.0A priority Critical patent/CN114241191A/zh
Publication of CN114241191A publication Critical patent/CN114241191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。

Description

一种基于跨模态自注意力的无候选框指代表达理解方法
技术领域
本发明属于模式识别技术领域,具体涉及一种无候选框指代表达理解方法。
背景技术
指代表达理解(Referring expression comprehension,REC)是计算机视觉领域中一项富有挑战性和具有重要意义的任务。该任务要求计算机根据给定的图像和自然语言描述,推理分析得到描述对应的目标区域,是人机交互、视觉问答、图像检索等多个领域的基础任务。然而,这项任务需要全面理解复杂的自然语言和多种类型的视觉信息,这对指代表达理解有效方法的提出带来了巨大困难。
目前解决该任务的主流思路是两阶段方法,这类方法将指代表达理解转化为候选区域的选择过程。它们依赖Faster R-CNN等成熟的目标检测器,来提取一组候选区域(proposals),并从中挑选评分最高的区域作为最终答案。尽管现有的两阶段方法已经获得了相当好的性能,但这些框架在第一阶段受到了不可避免的错误积累(如果目标对象不能在第一阶段被捕获,框架最终将无法得到正确答案)。另一方面,使用两阶段方法付出的计算成本相当巨大。在提出候选区域时,每一个候选区域都必须进行特征提取和跨模态的相似度计算。
发明内容
为了克服现有技术的不足,本发明提供了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为
Figure BDA0003419531550000021
Figure BDA0003419531550000022
G∈Rw×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征
Figure BDA0003419531550000023
E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征
Figure BDA0003419531550000024
G1表示图像特征
Figure BDA0003419531550000025
在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征
Figure BDA0003419531550000026
Gn表示经过n-1层语言注意力引导得到的图像特征
Figure BDA0003419531550000027
n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征
Figure BDA0003419531550000028
和图像特征
Figure BDA0003419531550000029
构成;对于每一个et和gi计算点积,并除以系数
Figure BDA00034195315500000210
Figure BDA00034195315500000211
之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
Figure BDA00034195315500000212
Figure BDA00034195315500000213
Figure BDA00034195315500000214
其中
Figure BDA00034195315500000215
是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,
Figure BDA0003419531550000031
分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;
Figure BDA0003419531550000032
为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,
Figure BDA0003419531550000033
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
Figure BDA0003419531550000034
Figure BDA0003419531550000035
Figure BDA0003419531550000036
其中
Figure BDA0003419531550000037
是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,
Figure BDA0003419531550000038
分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;
Figure BDA0003419531550000039
为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,
Figure BDA00034195315500000310
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
对语言特征和图像特征进行拼接,作为多头自注意力模块的输入
Figure BDA00034195315500000311
Figure BDA00034195315500000312
经过多头跨模态融合之后,提取视觉部分的输出得到HF∈R(w×h)×d
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为
Figure BDA00034195315500000313
tx、ty、tw、th
Figure BDA00034195315500000314
为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用
Figure BDA0003419531550000041
作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Figure BDA0003419531550000042
Loff=(Δx-tx)2+(Δy-ty)2, (8)
Figure BDA0003419531550000043
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;
Figure BDA0003419531550000044
表示真值目标的中心点对于该格中心的偏移,i、j分别指
Figure BDA0003419531550000045
int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;
Figure BDA0003419531550000046
表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=LclsoffLoffrgrLrgr+Lgiou (10)
式中,λoff为Loff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
Figure BDA0003419531550000047
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
优选地,所述T=20。
本发明的有益效果如下:
本发明利用一种创新和有效的一阶段方法来进行指代表达理解。与以往的两阶段模型不同,该模型直接利用图像和语言信息预测边界框,而不需要对图片进行一系列候选框的生成,以此获得了更高的准确率及运行速度。同时,在跨模态注意力模块中引入了密集网格的图像特征和语句的各单词特征,以此学习单到词与图像部分区域特征的对应关系。实验结果表明,新的模型架构在精度和速度方面都较之前的模型有了突出的进步。
附图说明
图1为本发明方法的框架图。
图2为本发明实施例的指称表达理解结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种基于跨模态自注意力的无候选框指代表达理解方法,包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为
Figure BDA0003419531550000051
Figure BDA0003419531550000052
G∈Rw×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征
Figure BDA0003419531550000053
E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征
Figure BDA0003419531550000054
G1表示图像特征
Figure BDA0003419531550000055
在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征
Figure BDA0003419531550000056
Gn表示经过n-1层语言注意力引导得到的图像特征
Figure BDA0003419531550000057
n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征
Figure BDA0003419531550000061
和图像特征
Figure BDA0003419531550000062
构成;对于每一个et和gi计算点积,并除以系数
Figure BDA0003419531550000063
Figure BDA0003419531550000064
之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
Figure BDA0003419531550000065
Figure BDA0003419531550000066
Figure BDA0003419531550000067
其中
Figure BDA0003419531550000068
是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,
Figure BDA0003419531550000069
分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;
Figure BDA00034195315500000610
为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,
Figure BDA00034195315500000611
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
Figure BDA00034195315500000612
Figure BDA00034195315500000613
Figure BDA00034195315500000614
其中
Figure BDA00034195315500000615
是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,
Figure BDA00034195315500000616
分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;
Figure BDA00034195315500000617
为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,
Figure BDA00034195315500000618
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
对语言特征和图像特征进行拼接,作为多头自注意力模块的输入
Figure BDA00034195315500000619
Figure BDA00034195315500000620
经过多头跨模态融合之后,提取视觉部分的输出得到HF∈R(w×h)×d
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为
Figure BDA0003419531550000071
tx、ty、tw、th
Figure BDA0003419531550000072
为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用
Figure BDA0003419531550000073
作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Figure BDA0003419531550000074
Loff=(Δx-tx)2+(Δy-ty)2, (8)
Figure BDA0003419531550000075
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;
Figure BDA0003419531550000076
表示真值目标的中心点对于该格中心的偏移,i、j分别指
Figure BDA0003419531550000077
int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;
Figure BDA0003419531550000078
表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=LclsoffLoffrgrLrgr+Lgiou (10)
式中,λoff为λoff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
Figure BDA0003419531550000079
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
具体实施例:
1、图像特征的提取
给定自然场景中一张图片,将整张图片调整为256×256输入进特征提取网络进行前向传播,采用YOLOv3对图像特征进行提取。
2、语言特征的提取
语句信息分解为词,通过词嵌入后得到各个词对应的特征向量。规定最长的语句词数为20。然后将经过位置编码后的词向量输入进BERT网络,得到融合语句信息的各个词汇的特征向量E,E∈R20×512
3、利用跨模态注意力的特征加强
将图像特征(16×16×512)展开成(256×512)维的向量,并与语言特征(20×512)一起输入到跨模态注意力模块中。由于注意力模块中没有位置信息的表征,所以对于输入的图像、语言特征进行了位置编码的添加。该模块由两部分组成,语言引导的视觉注意力模块和视觉引导的语言注意力模块。在语言引导的视觉注意力模块中,语言特征作为Q的输入,图像特征作为K、V的输入。在视觉引导的语言注意力模块,图像特征作为Q的输入,语言特征作为K、V的输入。每个模块都有2个相同自注意力层构成,注意力头的数量为8。经过该模块后,我们分别得到了融合了语言注意力的图像特征和融合了图像注意力的语言特征。
4、基于自注意力模块的特征融合
把经过前一阶段特征加强后的图像特征和语言特征进行拼接,得到(276x512)的输入向量,输入到多头自注意力层中。多头自注意力的层数为4层,注意力头的数量为8。经过该模型后,融合特征向量形状仍为(276×512)。
5、目标定位
在得到融合特征(276×512)的情况下,选取其中的视觉特征部分(256×512),并将其重新转化为原图像的形状(16×16×512)。我们对于16×16的每一个格子中的特征向量(1×1×512)进行回归,得到该格子中含有预测框中心的概率和框的长宽、相对于中心偏移的预测量。
6、模型训练
整个训练过程为端到端的训练。采用RefCOCO、RefCOCO+、RefCOCOg、ReferItGame四个训练集作为模型训练和评价的指标。对于模型的损失进使用Adam方法进行梯度下降。批处理大小设置为8,初始学习率设置为5e-5。在1080Ti GPU上对模型进行100轮的训练,且每过10轮训练的学习率减半。
8、模型应用
在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(测试集上测试效果最佳)用于应用,对于输入的图像及语句,只需要把图像调整到256×256大小,并且归一化,语句进行分词操作,即可作为模型的输入。整个的网络模型的参数固定不动,只要输入图像数据及语言数据并向前传播即可。依次得到图像及语言特征向量E∈R16×16×512和M∈R20×512,再自动传入注意力加强模块、特征融合模块及定位模块,可以直接得到预测结果。实际实验图如图2所示,基于一阶段无候选框跨模态注意力机制能够高效的给出有关语句描述信息在图像中的准确位置。

Claims (2)

1.一种基于跨模态自注意力的无候选框指代表达理解方法,其特征在于,包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为
Figure FDA0003419531540000011
Figure FDA0003419531540000012
G∈Rw ×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征
Figure FDA0003419531540000013
E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征
Figure FDA0003419531540000014
G1表示图像特征
Figure FDA0003419531540000015
在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征
Figure FDA0003419531540000016
Gn表示经过n-1层语言注意力引导得到的图像特征
Figure FDA0003419531540000017
n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征
Figure FDA0003419531540000018
和图像特征
Figure FDA0003419531540000019
构成;对于每一个et和gi计算点积,并除以系数
Figure FDA00034195315400000110
Figure FDA00034195315400000111
之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
Figure FDA00034195315400000112
Figure FDA0003419531540000021
Figure FDA0003419531540000022
其中
Figure FDA0003419531540000023
是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,
Figure FDA0003419531540000024
分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;
Figure FDA0003419531540000025
为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,
Figure FDA0003419531540000026
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
Figure FDA0003419531540000027
Figure FDA0003419531540000028
Figure FDA0003419531540000029
其中
Figure FDA00034195315400000210
是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,
Figure FDA00034195315400000211
分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;
Figure FDA00034195315400000212
为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,
Figure FDA00034195315400000213
为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
对语言特征和图像特征进行拼接,作为多头自注意力模块的输入
Figure FDA00034195315400000214
Figure FDA00034195315400000215
经过多头跨模态融合之后,提取视觉部分的输出得到HF∈R(w×h)×d
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为
Figure FDA00034195315400000218
tx、ty、tw、th
Figure FDA00034195315400000217
为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用
Figure FDA0003419531540000031
作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Figure FDA0003419531540000032
Loff=(Δx-tx)2+(Δy-ty)2, (8)
Figure FDA0003419531540000033
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;
Figure FDA0003419531540000034
表示真值目标的中心点对于该格中心的偏移,i、j分别指
Figure FDA0003419531540000035
int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;
Figure FDA0003419531540000036
表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=LclsoffLoffrgrLrgr+Lgiou (10)
式中,λoff为Loff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
Figure FDA0003419531540000037
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
2.根据权利要求1所述的一种基于跨模态自注意力的无候选框指代表达理解方法,其特征在于,所述T=20。
CN202111557573.0A 2021-12-19 2021-12-19 一种基于跨模态自注意力的无候选框指代表达理解方法 Pending CN114241191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557573.0A CN114241191A (zh) 2021-12-19 2021-12-19 一种基于跨模态自注意力的无候选框指代表达理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557573.0A CN114241191A (zh) 2021-12-19 2021-12-19 一种基于跨模态自注意力的无候选框指代表达理解方法

Publications (1)

Publication Number Publication Date
CN114241191A true CN114241191A (zh) 2022-03-25

Family

ID=80758743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557573.0A Pending CN114241191A (zh) 2021-12-19 2021-12-19 一种基于跨模态自注意力的无候选框指代表达理解方法

Country Status (1)

Country Link
CN (1) CN114241191A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546489A (zh) * 2022-11-23 2022-12-30 南京理工大学 基于跨模态特征强化与交互的多模态图像语义分割方法
CN116258931A (zh) * 2022-12-14 2023-06-13 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
WO2024037664A1 (zh) * 2022-10-20 2024-02-22 西北工业大学 一种基于动态自适应推理的指称目标检测定位方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
US20210081673A1 (en) * 2019-09-12 2021-03-18 Nec Laboratories America, Inc Action recognition with high-order interaction through spatial-temporal object tracking
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法
US20210390700A1 (en) * 2020-06-12 2021-12-16 Adobe Inc. Referring image segmentation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210081673A1 (en) * 2019-09-12 2021-03-18 Nec Laboratories America, Inc Action recognition with high-order interaction through spatial-temporal object tracking
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111259768A (zh) * 2020-01-13 2020-06-09 清华大学 基于注意力机制的结合自然语言的图像目标定位方法
US20210390700A1 (en) * 2020-06-12 2021-12-16 Adobe Inc. Referring image segmentation
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
CN113657124A (zh) * 2021-07-14 2021-11-16 内蒙古工业大学 基于循环共同注意力Transformer的多模态蒙汉翻译方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WEI SUO等: "Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention", 《HTTPS://ARXIV.ORG/ABS/2105.02061》, 5 May 2021 (2021-05-05), pages 3 - 5 *
秦淑婧;杨关;: "增强视觉特征的视觉问答任务研究", 中原工学院学报, no. 01, 25 February 2020 (2020-02-25) *
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12) *
韦人予;蒙祖强;: "基于注意力特征自适应校正的图像描述模型", 计算机应用, no. 1, 10 July 2020 (2020-07-10) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037664A1 (zh) * 2022-10-20 2024-02-22 西北工业大学 一种基于动态自适应推理的指称目标检测定位方法
CN115546489A (zh) * 2022-11-23 2022-12-30 南京理工大学 基于跨模态特征强化与交互的多模态图像语义分割方法
CN116258931A (zh) * 2022-12-14 2023-06-13 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统
CN116258931B (zh) * 2022-12-14 2023-09-15 之江实验室 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统

Similar Documents

Publication Publication Date Title
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN114241191A (zh) 一种基于跨模态自注意力的无候选框指代表达理解方法
CN112990296B (zh) 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN113010656B (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN112487949B (zh) 一种基于多模态数据融合的学习者行为识别方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN112733866A (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111612051A (zh) 一种基于图卷积神经网络的弱监督目标检测方法
CN113297370A (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN114239935A (zh) 一种针对非均匀轨迹序列的预测方法
CN116796810A (zh) 一种基于知识蒸馏的深度神经网络模型压缩方法及装置
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN116485839A (zh) 一种基于注意力自适应选择Transformer的视觉跟踪方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN115080715A (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
CN114612748A (zh) 一种基于特征解耦的跨模态视频片段检索方法
CN114840649A (zh) 一种基于跨模态互注意力神经网络的学生认知诊断方法
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN113609326A (zh) 基于外部知识和目标间关系的图像描述生成方法
CN110717068B (zh) 一种基于深度学习的视频检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination