CN114241191A - 一种基于跨模态自注意力的无候选框指代表达理解方法 - Google Patents
一种基于跨模态自注意力的无候选框指代表达理解方法 Download PDFInfo
- Publication number
- CN114241191A CN114241191A CN202111557573.0A CN202111557573A CN114241191A CN 114241191 A CN114241191 A CN 114241191A CN 202111557573 A CN202111557573 A CN 202111557573A CN 114241191 A CN114241191 A CN 114241191A
- Authority
- CN
- China
- Prior art keywords
- attention
- language
- image
- target
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000014509 gene expression Effects 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 33
- 230000000007 visual effect Effects 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 15
- 230000003993 interaction Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005728 strengthening Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 abstract description 9
- 238000007499 fusion processing Methods 0.000 abstract description 2
- 230000002452 interceptive effect Effects 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种无候选框指代表达理解方法。
背景技术
指代表达理解(Referring expression comprehension,REC)是计算机视觉领域中一项富有挑战性和具有重要意义的任务。该任务要求计算机根据给定的图像和自然语言描述,推理分析得到描述对应的目标区域,是人机交互、视觉问答、图像检索等多个领域的基础任务。然而,这项任务需要全面理解复杂的自然语言和多种类型的视觉信息,这对指代表达理解有效方法的提出带来了巨大困难。
目前解决该任务的主流思路是两阶段方法,这类方法将指代表达理解转化为候选区域的选择过程。它们依赖Faster R-CNN等成熟的目标检测器,来提取一组候选区域(proposals),并从中挑选评分最高的区域作为最终答案。尽管现有的两阶段方法已经获得了相当好的性能,但这些框架在第一阶段受到了不可避免的错误积累(如果目标对象不能在第一阶段被捕获,框架最终将无法得到正确答案)。另一方面,使用两阶段方法付出的计算成本相当巨大。在提出候选区域时,每一个候选区域都必须进行特征提取和跨模态的相似度计算。
发明内容
为了克服现有技术的不足,本发明提供了一种基于跨模态自注意力的无候选框指代表达理解方法,该方法无需预先提取候选区域,能够更加高效准确的完成指代表达理解任务。本发明的技术方案如下:第一部分为对语言及图像信息的提取和编码过程,采用YOLOv3卷积神经网络对图片信息进行特征提取,采用BERT预训练模型对语言信息进行特征提取;第二部分为基于多头注意力机制的跨模态特征加强过程,采用两个并行的多头交互注意力模块分别实现语言对图像及图像对语言的特征强化;第三部分为基于多头自注意力机制的跨模态特征融合过程,利用一个多头自注意力模块对上一部分中获取的两模态的特征进行融合;第四部分为目标的定位过程,采用无锚方法,实现对目标的定位。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为 G∈Rw×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征G1表示图像特征在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征Gn表示经过n-1层语言注意力引导得到的图像特征n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征和图像特征构成;对于每一个et和gi计算点积,并除以系数 之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为tx、ty、tw、th,为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Loff=(Δx-tx)2+(Δy-ty)2, (8)
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;表示真值目标的中心点对于该格中心的偏移,i、j分别指int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=Lcls+λoffLoff+λrgrLrgr+Lgiou (10)
式中,λoff为Loff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
优选地,所述T=20。
本发明的有益效果如下:
本发明利用一种创新和有效的一阶段方法来进行指代表达理解。与以往的两阶段模型不同,该模型直接利用图像和语言信息预测边界框,而不需要对图片进行一系列候选框的生成,以此获得了更高的准确率及运行速度。同时,在跨模态注意力模块中引入了密集网格的图像特征和语句的各单词特征,以此学习单到词与图像部分区域特征的对应关系。实验结果表明,新的模型架构在精度和速度方面都较之前的模型有了突出的进步。
附图说明
图1为本发明方法的框架图。
图2为本发明实施例的指称表达理解结果。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
一种基于跨模态自注意力的无候选框指代表达理解方法,包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为 G∈Rw×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征G1表示图像特征在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征Gn表示经过n-1层语言注意力引导得到的图像特征n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征和图像特征构成;对于每一个et和gi计算点积,并除以系数 之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为tx、ty、tw、th,为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Loff=(Δx-tx)2+(Δy-ty)2, (8)
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;表示真值目标的中心点对于该格中心的偏移,i、j分别指int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=Lcls+λoffLoff+λrgrLrgr+Lgiou (10)
式中,λoff为λoff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
具体实施例:
1、图像特征的提取
给定自然场景中一张图片,将整张图片调整为256×256输入进特征提取网络进行前向传播,采用YOLOv3对图像特征进行提取。
2、语言特征的提取
语句信息分解为词,通过词嵌入后得到各个词对应的特征向量。规定最长的语句词数为20。然后将经过位置编码后的词向量输入进BERT网络,得到融合语句信息的各个词汇的特征向量E,E∈R20×512。
3、利用跨模态注意力的特征加强
将图像特征(16×16×512)展开成(256×512)维的向量,并与语言特征(20×512)一起输入到跨模态注意力模块中。由于注意力模块中没有位置信息的表征,所以对于输入的图像、语言特征进行了位置编码的添加。该模块由两部分组成,语言引导的视觉注意力模块和视觉引导的语言注意力模块。在语言引导的视觉注意力模块中,语言特征作为Q的输入,图像特征作为K、V的输入。在视觉引导的语言注意力模块,图像特征作为Q的输入,语言特征作为K、V的输入。每个模块都有2个相同自注意力层构成,注意力头的数量为8。经过该模块后,我们分别得到了融合了语言注意力的图像特征和融合了图像注意力的语言特征。
4、基于自注意力模块的特征融合
把经过前一阶段特征加强后的图像特征和语言特征进行拼接,得到(276x512)的输入向量,输入到多头自注意力层中。多头自注意力的层数为4层,注意力头的数量为8。经过该模型后,融合特征向量形状仍为(276×512)。
5、目标定位
在得到融合特征(276×512)的情况下,选取其中的视觉特征部分(256×512),并将其重新转化为原图像的形状(16×16×512)。我们对于16×16的每一个格子中的特征向量(1×1×512)进行回归,得到该格子中含有预测框中心的概率和框的长宽、相对于中心偏移的预测量。
6、模型训练
整个训练过程为端到端的训练。采用RefCOCO、RefCOCO+、RefCOCOg、ReferItGame四个训练集作为模型训练和评价的指标。对于模型的损失进使用Adam方法进行梯度下降。批处理大小设置为8,初始学习率设置为5e-5。在1080Ti GPU上对模型进行100轮的训练,且每过10轮训练的学习率减半。
8、模型应用
在通过上面的训练过程后可以得到多个模型,选取其中最优的模型(测试集上测试效果最佳)用于应用,对于输入的图像及语句,只需要把图像调整到256×256大小,并且归一化,语句进行分词操作,即可作为模型的输入。整个的网络模型的参数固定不动,只要输入图像数据及语言数据并向前传播即可。依次得到图像及语言特征向量E∈R16×16×512和M∈R20×512,再自动传入注意力加强模块、特征融合模块及定位模块,可以直接得到预测结果。实际实验图如图2所示,基于一阶段无候选框跨模态注意力机制能够高效的给出有关语句描述信息在图像中的准确位置。
Claims (2)
1.一种基于跨模态自注意力的无候选框指代表达理解方法,其特征在于,包括如下步骤:
步骤1:图像及语言信息的提取和编码;
步骤1-1:将图像经过YOLOv3卷积神经网络提取得到一个特征图;将图像分为多个区域,在特征图中加入图像各个区域的位置信息,将得到的图像特征记为 G∈Rw ×h×d,w、h、d分别表示特征图的宽、高以及特征的维度,gi表示特征图中第i个特征向量;
步骤1-2:设定最长的语句词数为T,词数不足T的语句空白处用PAD标识填充,语句开始位置添加CLS标识,语句结尾添加SEP标识;将语句分解为词,通过词嵌入后得到各个词对应的特征向量;再对词的特征向量进行位置编码,将经过位置编码后的词向量输入进BERT网络,得到语言特征E∈RT×dim,dim表示表达每个单词特征向量的维度,et表示第t个词汇的特征向量;
步骤2:基于多头注意力机制的跨模态特征加强;
步骤2-1:将语句特征E和图像特征G输入到跨模态交互注意力模块中;所述跨模态交互注意力模块包括语言引导的视觉注意力模块和视觉引导的语言注意力模块;语言引导的视觉注意力模块和视觉引导的语言注意力模块都分别由N个相同注意力层构成;
在语言引导的视觉注意力模块和视觉引导的语言注意力模块的第一个注意力层中,E1表示语言特征G1表示图像特征在之后的N-1个注意力层中,En表示经过n-1层图像注意力引导得到的语言特征Gn表示经过n-1层语言注意力引导得到的图像特征n为当前层数;
步骤2-2:在语言引导的视觉注意力模块中,语言特征作为查询矩阵Q的输入,图像特征作为键矩阵K和值矩阵V的输入;语言引导的视觉注意力模块的输入由语言特征和图像特征构成;对于每一个et和gi计算点积,并除以系数 之后再利用softmax函数计算注意力权重,其中m为多头注意力的头数,d为输入的特征向量的维度;
每一层语言引导的视觉注意力模块用公式(1)-(3)表示:
其中是经过n层语言引导的视觉注意力层后第i个注意力头得到的图像特征,分别表示语言引导的视觉注意力模块第n层中第i个注意力头针对Q、K、V的参数;为将m个注意力头得到的图像特征融合后得到融合了语言注意力含义的的图像特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数,Qi、Ki、Vi分别为第i个注意力头的查询矩阵、键矩阵和值矩阵;
每一层图像引导的语言注意力模块中用公式(4)-(6)表示:
其中是经过n层图像引导的语言注意力层后第i个注意力头得到的语言特征,分别表示图像引导的语言注意力模块第n层中第i个头针对Q、K、V的参数;为将m个注意力头得到的语言特征融合后得到融合了图像注意力含义的的语言特征,Concat为拼接操作,为将多头注意力得到的多个维度的特征进行拼接后进行降维融合所用的参数;
经过跨模态交互注意力模块的迭代后,得到经过注意力加强后的图像特征和语言特征;
步骤3:基于多头自注意力机制的跨模态特征融合;
步骤4:目标定位;
将HF输入含有5个卷积核、步长为1的卷积层,得到形状为w×h×5的预测结果向量,对图像进行等长等宽的区域的划分,按照位置关系将w×h个预测结果分别对应于图像的w×h个区域,每个区域称为一个格子;其中的5指5个预测值,分别为tx、ty、tw、th,为预测框中心点的置信度即当前格子含有检测目标的可能性,tx、ty分别为预测目标中心点相对当前格子中心点的横坐标、纵坐标的偏移量,tw、th分别为预测目标长宽相对于实际目标长宽的偏移量;
设定目标框真值为bbox=Xb,Yb,Wb,Hb,(Xb,Yb)为目标框的中心点坐标,Wb、Hb分别为目标框的宽和高的真值;采用作为在计算损失时用到的目标框相对宽高,W、H分别为输入图像长和宽的大小;网络训练损失函数定义如下:
Loff=(Δx-tx)2+(Δy-ty)2, (8)
式中,Cij=1表示当前格子中含有真值目标的中心点,Cij=0表示当前格子中不含有真值目标的中心点;表示真值目标的中心点对于该格中心的偏移,i、j分别指int(·)表示该操作将分数舍入到最接近的整数,用来表示目标中心点真值所在的格子的实际位置;表示在第i行第j列目标中心点真值所在的格子中预测含有目标中心点的可信度;
只对真值目标的中心点所在的格子进行Loff、Lrgr的计算;增加了GIoU损失作为辅助;总损失函数如下:
Loss=Lcls+λoffLoff+λrgrLrgr+Lgiou (10)
式中,λoff为Loff的权重参数,λrgr为Lrgr的权重参数;
步骤5:训练完成后,对网络进行测试,最终选择置信度最高的格子中心点作为预测位置中心,以此为基础产生预测框,最终预测的目标边界框如下:
其中,(Xt、Yt)表示预测框中心点的横纵坐标,Wt、Ht分别表示预测框的长、宽。
2.根据权利要求1所述的一种基于跨模态自注意力的无候选框指代表达理解方法,其特征在于,所述T=20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557573.0A CN114241191A (zh) | 2021-12-19 | 2021-12-19 | 一种基于跨模态自注意力的无候选框指代表达理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557573.0A CN114241191A (zh) | 2021-12-19 | 2021-12-19 | 一种基于跨模态自注意力的无候选框指代表达理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241191A true CN114241191A (zh) | 2022-03-25 |
Family
ID=80758743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111557573.0A Pending CN114241191A (zh) | 2021-12-19 | 2021-12-19 | 一种基于跨模态自注意力的无候选框指代表达理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241191A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115546489A (zh) * | 2022-11-23 | 2022-12-30 | 南京理工大学 | 基于跨模态特征强化与交互的多模态图像语义分割方法 |
CN116258931A (zh) * | 2022-12-14 | 2023-06-13 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
WO2024037664A1 (zh) * | 2022-10-20 | 2024-02-22 | 西北工业大学 | 一种基于动态自适应推理的指称目标检测定位方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
US20210081673A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Action recognition with high-order interaction through spatial-temporal object tracking |
CN112905827A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN113657124A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 |
US20210390700A1 (en) * | 2020-06-12 | 2021-12-16 | Adobe Inc. | Referring image segmentation |
-
2021
- 2021-12-19 CN CN202111557573.0A patent/CN114241191A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210081673A1 (en) * | 2019-09-12 | 2021-03-18 | Nec Laboratories America, Inc | Action recognition with high-order interaction through spatial-temporal object tracking |
WO2021139069A1 (zh) * | 2020-01-09 | 2021-07-15 | 南京信息工程大学 | 自适应注意力指导机制的一般性目标检测方法 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
US20210390700A1 (en) * | 2020-06-12 | 2021-12-16 | Adobe Inc. | Referring image segmentation |
CN112489635A (zh) * | 2020-12-03 | 2021-03-12 | 杭州电子科技大学 | 一种基于增强注意力机制的多模态情感识别方法 |
CN112905827A (zh) * | 2021-02-08 | 2021-06-04 | 中国科学技术大学 | 跨模态图文匹配的方法、装置及计算机可读存储介质 |
CN113657124A (zh) * | 2021-07-14 | 2021-11-16 | 内蒙古工业大学 | 基于循环共同注意力Transformer的多模态蒙汉翻译方法 |
Non-Patent Citations (4)
Title |
---|
WEI SUO等: "Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention", 《HTTPS://ARXIV.ORG/ABS/2105.02061》, 5 May 2021 (2021-05-05), pages 3 - 5 * |
秦淑婧;杨关;: "增强视觉特征的视觉问答任务研究", 中原工学院学报, no. 01, 25 February 2020 (2020-02-25) * |
罗会兰;岳亮亮;: "跨层多模型特征融合与因果卷积解码的图像描述", 中国图象图形学报, no. 08, 12 August 2020 (2020-08-12) * |
韦人予;蒙祖强;: "基于注意力特征自适应校正的图像描述模型", 计算机应用, no. 1, 10 July 2020 (2020-07-10) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024037664A1 (zh) * | 2022-10-20 | 2024-02-22 | 西北工业大学 | 一种基于动态自适应推理的指称目标检测定位方法 |
CN115546489A (zh) * | 2022-11-23 | 2022-12-30 | 南京理工大学 | 基于跨模态特征强化与交互的多模态图像语义分割方法 |
CN116258931A (zh) * | 2022-12-14 | 2023-06-13 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
CN116258931B (zh) * | 2022-12-14 | 2023-09-15 | 之江实验室 | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN114241191A (zh) | 一种基于跨模态自注意力的无候选框指代表达理解方法 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN113010656B (zh) | 一种基于多模态融合和结构性控制的视觉问答方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN112487949B (zh) | 一种基于多模态数据融合的学习者行为识别方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN111612051A (zh) | 一种基于图卷积神经网络的弱监督目标检测方法 | |
CN113297370A (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN114239935A (zh) | 一种针对非均匀轨迹序列的预测方法 | |
CN116796810A (zh) | 一种基于知识蒸馏的深度神经网络模型压缩方法及装置 | |
CN115690549A (zh) | 一种基于并联交互架构模型实现多维度特征融合的目标检测方法 | |
CN115471771A (zh) | 一种基于语义级时序关联建模的视频时序动作定位方法 | |
CN116485839A (zh) | 一种基于注意力自适应选择Transformer的视觉跟踪方法 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN115080715A (zh) | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 | |
CN114612748A (zh) | 一种基于特征解耦的跨模态视频片段检索方法 | |
CN114840649A (zh) | 一种基于跨模态互注意力神经网络的学生认知诊断方法 | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
CN113609326A (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN110717068B (zh) | 一种基于深度学习的视频检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |