CN116152265A - 一种基于多尺度特征选择性融合的指代分割方法 - Google Patents

一种基于多尺度特征选择性融合的指代分割方法 Download PDF

Info

Publication number
CN116152265A
CN116152265A CN202310012997.1A CN202310012997A CN116152265A CN 116152265 A CN116152265 A CN 116152265A CN 202310012997 A CN202310012997 A CN 202310012997A CN 116152265 A CN116152265 A CN 116152265A
Authority
CN
China
Prior art keywords
text
segmentation
module
features
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310012997.1A
Other languages
English (en)
Inventor
李智勇
戴贤文
林家丞
李庆鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310012997.1A priority Critical patent/CN116152265A/zh
Publication of CN116152265A publication Critical patent/CN116152265A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度特征选择性融合的指代分割方法,考虑到在指代分割的实际应用中,多模态特征之间的难对齐、难充分交互以及背景特征难抑制的问题没有得到有效解决,造成定位不准和模型精度降低的问题,本发明设计了基于文本引导的融合模块,对解码器的浅层到深层进行多尺度特征选择,初步选择出符合文本内容的特征,通过二次选择机制进一步筛选出只包含目标的视觉特征,并且在此基础上我们设计了注意力对比损失函数,它可以有效地抑制背景特征,提高模型精度,通过后处理分割模块,根据图像分割特性,使用不同的采样率对模型进行全局建模,分割得到最终结果,通过基准数据集的验证,本发明能够较大程度提高分割精度。

Description

一种基于多尺度特征选择性融合的指代分割方法
技术领域
本发明涉及基于深度学习的端到端指代分割领域,具体涉及一种基于多尺度特征选择性融合的指代分割方法。
背景技术
近些年来,指代分割(Referring Image Segmentation)引起了学术界的极大兴趣并被广泛研究。指代分割的定义是:给定一个图像和一个符合图像情景的文本表达式,将文本所指代的实例目标从图像中分割出来。与传统图像分割不同,指代分割是结合了文本表达式的图像分割,是一种多模态任务。由于多模态数据更符合人类感知世界的方式,因此该任务在现实生活中更具有广泛的工程意义。比如机器人感知与控制领域,人类通过跟机器对话,机器人根据对话的文本信息和对应的视觉图像信息,分割并抓取对应的目标对象,完成人机交互的闭环。还有图像抠图领域,通过一段文字或者语音的形式就可以很方便快速的完成对应目标抠图。
以往的研究方法都是利用卷积神经网络CNN和循环神经网络RNN分别提取出视觉特征和文本特征,然后将这两种特征在通道上进行拼接,紧接着设计一个融合模块提取多模态特征,最后再送入分割模块进行分割,得到目标的分割结果。这些方法都取得了显著的效果,但是有两个主要问题没有得到有效解决。
首先,视觉特征和文本特征是两种不同的表征形式,在融合两种模态数据的时候,需要考虑模态之间的对齐问题,让文本中对应的单词与图像中对应的目标视觉特征进行对齐,才能保证分割效果的准确性。而多模态特征的难对齐问题在之前的方法中一直没有得到有效解决,这个问题会使得视觉特征和文本特征之间交互不充分,导致模型定位不准,准确性降低。其次,由于文本的表达方式具有高度随机性,不同的人表达同一种意思的语言有着很大的差别。而文本中可能会包含与目标不相关的单词,按照之前方法的处理方式,并不能有效抑制掉这些不相关的特征,这些特征会被视作前景分割到结果当中去,使得结果不准确。
发明内容
为了解决现有技术中,多模态特征之间的难对齐、难充分交互以及背景特征难抑制造成定位不准和模型精度降低的问题,本发明的目的在于提供一种基于多尺度特征选择性融合的指代分割方法,旨在较大程度提高分割精度。
根据本发明的第一方面,提供一种基于多尺度特征选择性融合的指代分割方法,其特征在于,分割模型包括DarkNet53主干网络(Redmon J,Farhadi A.YOLOv3:AnIncremental Improvement[J].arXiv e-prints,2018)、双向GRU(双向循环神经网络GateRecurrent Unit)、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块。方法包括:
步骤10:视觉特征提取,对于给定的RGB图像,先进行裁剪缩放,通过DarkNet53的编码器得到三种不同尺度的视觉特征Fv1、Fv2、Fv3
步骤20:文本特征提取,对于给定的文本,先对进行分词并转换成向量的形式,然后使用双向GRU提取初步文本特征,最后基于文本注意力机制根据各个单词的重要性进行加权求和,得到文本特征Fl
步骤30:通过基于语言主导的特征选择性跳转模块的融合部分先对Fv1、Fv2、Fv3进行选择,得到只与文本描述相关的视觉特征,然后通过基于语言主导的特征选择性跳转模块的跳转部分将选择后的特征进行跳转连接。
步骤30包括步骤31至步骤34。
步骤31:将Fv1、Fv2、Fv3输入至基于语言主导的特征选择性跳转模块的融合部分中,与Fl进行点积运算得到点积融合之后的特征
Figure BDA00040388826400000214
其中,Wl表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,/>
Figure BDA0004038882640000021
表示1×1卷积层操作,Θ表示矩阵点乘运算,g表示Leaky-Relu激活函数。
步骤32:将
Figure BDA0004038882640000022
输入至空间融合分支得到空间注意力图/>
Figure BDA0004038882640000023
Figure BDA0004038882640000024
将/>
Figure BDA0004038882640000025
输入至通道融合分支得到通道注意力图/>
Figure BDA0004038882640000026
Figure BDA0004038882640000027
Wv、Wq、Wz表示1×1卷积层操作,FSG表示Sigmoid操作,Wq表示Softmax操作,FGP表示全局池化操作。
步骤33:根据注意力图与视觉特征相乘得到经过通道注意力选择的视觉特征
Figure BDA0004038882640000028
Figure BDA0004038882640000029
和经过空间注意力选择的视觉特征/>
Figure BDA00040388826400000210
然后得到只与文本描述相关的视觉特征/>
Figure BDA00040388826400000211
步骤34:通过基于语言主导的特征选择性跳转模块的跳转部分将
Figure BDA00040388826400000212
进行跳转连接,与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征
Figure BDA00040388826400000213
Figure BDA0004038882640000031
其中一层视觉特征上采样后的特征/>
Figure BDA0004038882640000032
Figure BDA0004038882640000033
concat表示在通道上进行拼接特征,/>
Figure BDA0004038882640000034
表示对/>
Figure BDA0004038882640000035
进行卷积操作,/>
Figure BDA0004038882640000036
表示对进行/>
Figure BDA0004038882640000037
卷积操作,Up表示上采样操作。
步骤40:通过二次选择模块对目标特征进行筛选定位,得到只包含目标的视觉特征
Figure BDA0004038882640000038
其中,再一次对视觉特征和文本特征进行点积运算之后的融合特征/>
Figure BDA0004038882640000039
其中,Wl′表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,W′v表示1×1卷积层操作。
步骤50:通过图像后处理分割模块得到分割预测值。
步骤60:使用训练数据对分割模型中的双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块和图像后处理分割模块进行训练,其中,训练使用的分割预测损失为
Figure BDA00040388826400000310
表示预测的值,训练使用的注意力对比损失为/>
Figure BDA00040388826400000311
yi表示真实的分割图,Pn表示yi中的正样本,训练使用的总损失函数为L=αLseg+βLacl,α和β是超参,表示分割预测损失和注意力对比损失各自占比。
进一步的,本发明所提供的基于多尺度特征选择性融合的指代分割方法,其特征在于,步骤10还包括:步骤11:将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去;步骤12:提取出最后一层的视觉特征Fv1、第152层的视觉特征Fv2以及第69层的视觉特征Fv3
Darknet53主干网络包括CBL模块和ResX模块,其中CBL模块包括卷积层、数据标准化层和Leaky-Relu激活层,ResX模块包括一个Res1模块、一个Res2模块、两个Res8模块和一个Res4模块。
进一步的,本发明所提供的基于多尺度特征选择性融合的指代分割方法,其特征在于,步骤20还包括:步骤21:对给定的文本进行分词得到T∈[w1,w2,…,wn],n表示文本的长度;步骤22:根据GloVe模型(Global Vectors for Word Representation模型)将分词向量化,得到长度为n的文本向量,将文本向量入到双向GRU网络,得到初步文本特征
Figure BDA00040388826400000312
t∈[1,2,3,...,n],其中,/>
Figure BDA00040388826400000313
Figure BDA00040388826400000314
表示正向GRU操作,/>
Figure BDA00040388826400000315
表示反向GRU操作;步骤23:根据文本注意力机制得到文本特征/>
Figure BDA00040388826400000316
进一步的,本发明所提供的基于多尺度特征选择性融合的指代分割方法,其特征在于,步骤50还包括:
步骤51:对Ftwice并行进行第一至第五并行操作,其中:第一并行操作为1×1卷积操作;第二并行操作为3×3卷积操作,空洞卷积率为6,填充为6;第三并行操作为3×3卷积操作,空洞卷积率为12,填充为12;第四并行操作为3×3卷积,空洞卷积率为18,填充为18;第五并行操作为池化操作,先进行全局平均池化操作,然后进行1×1卷积操作,最后进行上采样恢复到输入的尺寸。
步骤52:第一至第五并行操作结果在通道上进行拼接,最后进行1×1卷积操作降维。
步骤53:对降维结果迭代执行上采样两倍后再进行卷积处理的操作,直到尺寸与真实的分割图尺寸相当,得到分割预测结果。
根据本发明的第二方面,提供一种计算机设备,其特征在于,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的基于多尺度特征选择性融合的指代分割方法。
根据本发明的第三方面,提供一种计算机可读存储介质,其特征在于,存储有指令,指令被处理器执行时,执行执行第一方面的基于多尺度特征选择性融合的指代分割方法。
与现有技术相比,本发明所构思的上述技术方案至少具有以下有益效果:
1、设计了一个基于语言主导的特征融合模块,该模块同时在通道和空间两个层面上对视觉特征和文本特征进行融合,让模态之间进行充分的信息交互;
2、基于上述融合模块,提出了二次选择机制并设计了注意力对比损失函数,他们加强了文本对视觉特征的引导并能够准确定位出目标在图像中的位置。这使得不相关的背景特征得到抑制,提高了模型的精度;
3、设计了一个基于多尺度选择性融合的指代分割框架,设计思想是两次选择,第一次选择出与文本相关的视觉特征,第二次选择选择只包含目标的视觉特征。通过这种逐步选择的思想,降低了多模态特征直接分割的难度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法示意图。
图2是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法与在先技术对比示意图。
图3是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法网络结构示意图。
图4是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法语言主导特征融合模块示意图。
图5是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法消融实验示意图。
图6是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法分割结果示意图。
图7是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法IoU结果对比示意图。
图8是根据一示例性实施例示出的基于多尺度特征选择性融合的指代分割方法Prec@X结果对比示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明涉及的一种基于多尺度特征选择性融合的指代分割方法,其特征在于,本发明的分割模型MDSFNet包括DarkNet53主干网络(Redmon J,Farhadi A.YOLOv3:AnIncremental Improvement[J].arXiv e-prints,2018)、双向GRU(双向循环神经网络GateRecurrent Unit)、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块;
如图1所示,方法包括步骤10至步骤50。
步骤10:视觉特征提取,对于给定的RGB图像,先进行裁剪缩放,通过DarkNet53的编码器得到三种不同尺度的视觉特征Fv1、Fv2、Fv3
该步骤使用DarkNet53作为骨干网络来提取丰富的多尺度视觉特征。
在一些实施例中,步骤10还包括:步骤11:将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去;步骤12:提取出最后一层的视觉特征Fv1、第152层的视觉特征Fv2以及第69层的视觉特征Fv3
Darknet53主干网络包括CBL模块和ResX模块,其中CBL模块包括卷积层、数据标准化层和Leaky-Relu激活层,ResX模块包括一个Res1模块、一个Res2模块、两个Res8模块和一个Res4模块。
步骤20:文本特征提取,对于给定的文本,先对进行分词并转换成向量的形式,然后使用双向GRU提取初步文本特征,最后基于文本注意力机制根据各个单词的重要性进行加权求和,得到文本特征Fl
在一些实施例中,步骤20还包括:步骤21:对给定的文本进行分词得到T∈[w1,w2,…,wn],n表示文本的长度;步骤22:根据GloVe模型(Global Vectors for WordRepresentation模型)将分词向量化,得到长度为n的文本向量,将文本向量入到双向GRU网络,得到初步文本特征
Figure BDA0004038882640000061
t∈[1,2,3,...,n],其中,/>
Figure BDA0004038882640000062
Figure BDA0004038882640000063
表示正向GRU操作,/>
Figure BDA0004038882640000064
表示反向GRU操作;步骤23:根据文本注意力机制得到文本特征/>
Figure BDA0004038882640000065
我们将ht输入到文本注意力机制当中,让每一种单词都得到不同的关注度,符合分割目标的单词权重更大一点,以减小不相关词汇对分割的影响。
步骤30:通过基于语言主导的特征选择性跳转模块的融合部分先对Fv1、Fv2、Fv3进行选择,得到只与文本描述相关的视觉特征,然后通过基于语言主导的特征选择性跳转模块的跳转部分将选择后的特征进行跳转连接。
步骤10的三个视觉特征包含着大量丰富的图像特征,我们通过设计的基于语言主导的特征融合模块对其进行选择,使得文本特征和视觉特征能够进行充分地融合,并得到只与文本描述相关的视觉特征,然后将其跳转连接到模型的解码器部分。
具体地,步骤30包括步骤31至步骤34。
步骤31:将Fv1、Fv2、Fv3输入至基于语言主导的特征选择性跳转模块的融合部分中,与Fl进行点积运算得到点积融合之后的特征
Figure BDA0004038882640000066
这种点积运算类似于做了一种初步的相似性度量,能够获得更为充分的细节信息。
其中,Wl表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,
Figure BDA0004038882640000067
表示1×1卷积层操作,⊙表示矩阵点乘运算,g表示Leaky-Relu激活函数。
融合部分有两个分支,一个分支关注空间,一个分支关注通道,两个分支最后都会生成一个注意力图。
步骤32:将
Figure BDA0004038882640000071
输入至空间融合分支得到空间注意力图/>
Figure BDA0004038882640000072
Figure BDA00040388826400000721
将/>
Figure BDA0004038882640000073
输入至通道融合分支得到通道注意力图/>
Figure BDA0004038882640000074
/>
Figure BDA0004038882640000075
Wv、Wq、Wz表示1×1卷积层操作,FSG表示Sigmoid操作,Wq表示Softmax操作,FGP表示全局池化操作。
步骤33:根据注意力图与视觉特征相乘得到经过通道注意力选择的视觉特征
Figure BDA0004038882640000076
Figure BDA0004038882640000077
和经过空间注意力选择的视觉特征/>
Figure BDA0004038882640000078
然后得到只与文本描述相关的视觉特征/>
Figure BDA0004038882640000079
步骤34:通过基于语言主导的特征选择性跳转模块的跳转部分将
Figure BDA00040388826400000710
进行跳转连接,与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征/>
Figure BDA00040388826400000711
Figure BDA00040388826400000712
其中一层视觉特征上采样后的特征/>
Figure BDA00040388826400000713
Figure BDA00040388826400000714
concat表示在通道上进行拼接特征,/>
Figure BDA00040388826400000715
表示对/>
Figure BDA00040388826400000716
进行卷积操作,/>
Figure BDA00040388826400000717
表示对进行/>
Figure BDA00040388826400000718
卷积操作,Up表示上采样操作。
步骤40:通过二次选择模块对目标特征进行筛选定位,得到只包含目标的视觉特征
Figure BDA00040388826400000719
其中,再一次对视觉特征和文本特征进行点积运算之后的融合特征/>
Figure BDA00040388826400000720
其中,W′l表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,W′v表示1×1卷积层操作。
在步骤30中,我们从浅层到深层多尺度提取了语义信息十分丰富的视觉特征,他们是只与文本相关的特征。为了能够选择出只包含目标的视觉特征,我们需要进行二次选择。并且,为了抑制不相关的背景特征,我们设计了一个注意力对比损失用于步骤60的训练,从而使得分割精度更高。
步骤50:通过图像后处理分割模块得到分割预测值。
由于视觉特征非常深,而深度越深,CNN卷积操作丢失掉的细节信息就越多。因此,我们使用多尺度特征提取和空洞卷积来获取丰富的像素信息并扩大感受野,使得模型分割效果更好。
具体的,在一些实施例中,步骤50还包括步骤51至步骤53。
步骤51:对Ftwice并行进行第一至第五并行操作,其中:第一并行操作为1×1卷积操作;第二并行操作为3×3卷积操作,空洞卷积率为6,填充为6;第三并行操作为3×3卷积操作,空洞卷积率为12,填充为12;第四并行操作为3×3卷积,空洞卷积率为18,填充为18;第五并行操作为池化操作,先进行全局平均池化操作,然后进行1×1卷积操作,最后进行上采样恢复到输入的尺寸。
步骤52:第一至第五并行操作结果在通道上进行拼接,最后进行1×1卷积操作降维。
步骤53:对降维结果迭代执行上采样两倍后再进行卷积处理的操作,直到尺寸与真实的分割图尺寸相当,得到分割预测结果。
步骤60:使用训练数据对分割模型中的双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块和图像后处理分割模块进行训练,其中,训练使用的分割预测损失为
Figure BDA0004038882640000081
表示预测的值,训练使用的注意力对比损失为/>
Figure BDA0004038882640000082
yi表示真实的分割图,Pn表示yi中的正样本,训练使用的总损失函数为L=αLseg+βLacl,α和β是超参,表示分割预测损失和注意力对比损失各自占比。
步骤60包括针对二次选择机制设计的一个注意力对比损失函数。注意力对比损失函数可以对正负样本进行对比学习,让正样本与正样本、负样本与负样本之间靠近,正样本与负样本之间远离,以达到对不相关背景特征进行抑制,提升模型分割效果的作用
我们对本发明提供的基于多尺度特征选择性融合的指代分割方法的检测精度进行验证,具体如下:
我们在三个基准数据集上对我们的结果进行了测试,分别是RefCOCO,RefCOCO+和G-Ref。其中,RefCOCO数据集包含19,994张图像,包含50,000个对象和142,210个对应的文本表达式。图像和文本表达式采集自MSCOCO和双人互动游戏,每个表达式的平均长度为3.61个单词,每张图像包含多个对象,对象类别相同。它分为训练、验证、测试A和测试B,分别有120,624、10,834、5,657和5,095个样本;RefCOCO+包含19,992张图像,包含49,856个对象和141,564个对应的文本表达式。与RefCOCO类似,这些数据从MSCOCO收集并分为训练、验证、测试A和测试B,分别使用120,191、10,758、5,726和4,889个样本。与RefCOCO不同的是,RefCOCO+中的表达式包含更多的外观而不是绝对位置。与RefCOCO不同的是,RefCOCO+禁止玩家从计算机的角度使用位置词来描述目标;G-Ref数据集也是从MSCOCO收集的,包含26,711张图像,54,822个对象的104,560个文本表达式。与基于互动游戏收集的RefCOCO和RefCOCO+不同,G-Ref数据集是以Amazon Mechanical Turk上发布的任务的形式收集的,每个图像包含2到4个具有相同对象类的对象。由于没有时间限制,G-Ref有一个更复杂和完整的文本表达式。
为了更好地评估模型性能,我们使用mIoU和Prec@X这两个指标来评价我们的模型。mIoU表示预测的结果和mask图像的交并比,Prec@X通过测量测试图像中高于阈值X的比例,对模型进行更精确的比较。我们设X∈{0.5,0.6,0.7,0.8,0.9}。这个指标关注的是模型的定位能力。我们设置图像大小为416×416,RefCOCO、RefCOCO+和G-Ref各自文本长度为15,15和20,训练采用Adam作为优化器,初始化学习率设置为0.001,设置30轮之后衰减权重系数为0.1,总共训练50轮,得到最终的指代分割模型。
我们对融合模块、二次选择机制和对比注意损失进行了消融实验,结果如图5所示。可以看到融合模块和二次选择机制相比于baseline都提高了大约5%的精度,二次选择机制提高的更多,而我们提出的对比注意损失也优化了模型的训练精度。
在图6中,1-3行分别对应RefCOCO、RefCOCO+和G-Ref的测试图。由图(a)和(b)文本描述和分割结果可以知道,我们的模型关注到了物体的颜色、纹理等特征。由图(c)和(d)可以知道,模型关注到了文本当中的比较级单词,可以对各个物体的位置关系进行判断。而由图(e)和(f)可以知道,对于较为复杂的文本表达式,我们的模型也能分割出较好的效果,说明对文本鲁棒性较强。
图7和图8则从IoU和Prec@X两个指标层面表明了我们模型的精度,是超越了之前的方法,达到了一个最好的效果。
综上所述,在指代分割的实际应用中,多模态特征之间的难对齐难充分交互以及背景特征难抑制的问题没有得到有效解决。因此本实施设计了一种基于文本引导的融合模块和二次选择机制,得到基于多尺度特征选择性融合的指代分割方法,为指代分割应用领域如机器人交互控制和智能抠图等方向提供了一种精度较高的解决方案。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (6)

1.一种基于多尺度特征选择性融合的指代分割方法,其特征在于,
分割模型包括DarkNet53主干网络、双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块、图像后处理分割模块;
所述方法包括:
步骤10:视觉特征提取,对于给定的RGB图像,先进行裁剪缩放,通过DarkNet53的编码器得到三种不同尺度的视觉特征Fv1、Fv2、Fv3
步骤20:文本特征提取,对于给定的文本,先对进行分词并转换成向量的形式,然后使用双向GRU提取初步文本特征,最后基于文本注意力机制根据各个单词的重要性进行加权求和,得到文本特征Fl
步骤30:通过基于语言主导的特征选择性跳转模块的融合部分先对Fv1、Fv2、Fv3进行选择,得到只与文本描述相关的视觉特征,然后通过基于语言主导的特征选择性跳转模块的跳转部分将选择后的特征进行跳转连接;
所述步骤30包括步骤31至步骤34:
步骤31:将Fv1、Fv2、Fv3输入至基于语言主导的特征选择性跳转模块的融合部分中,与Fl进行点积运算得到点积融合之后的特征
Figure FDA0004038882630000011
其中,Wl表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,/>
Figure FDA00040388826300000119
表示1×1卷积层操作,⊙表示矩阵点乘运算,g表示Leaky-Relu激活函数;
步骤32:将
Figure FDA0004038882630000012
输入至空间融合分支得到空间注意力图/>
Figure FDA0004038882630000013
Figure FDA0004038882630000014
将/>
Figure FDA0004038882630000015
输入至通道融合分支得到通道注意力图/>
Figure FDA0004038882630000016
Figure FDA0004038882630000017
Wv、Wq、Wz表示1×1卷积层操作,FSG表示Sigmoid操作,Wq表示Softmax操作,FGP表示全局池化操作;
步骤33:根据注意力图与视觉特征相乘得到经过通道注意力选择的视觉特征
Figure FDA0004038882630000018
Figure FDA0004038882630000019
和经过空间注意力选择的视觉特征/>
Figure FDA00040388826300000110
然后得到只与文本描述相关的视觉特征/>
Figure FDA00040388826300000111
步骤34:通过基于语言主导的特征选择性跳转模块的跳转部分将
Figure FDA00040388826300000112
进行跳转连接,与上一层视觉特征上采样后的特征进行拼接融合得到多尺度融合的视觉特征/>
Figure FDA00040388826300000113
Figure FDA00040388826300000114
其中一层视觉特征上采样后的特征/>
Figure FDA00040388826300000115
Figure FDA00040388826300000116
concat表示在通道上进行拼接特征,/>
Figure FDA00040388826300000117
表示对/>
Figure FDA00040388826300000118
进行卷积操作,/>
Figure FDA0004038882630000021
表示对进行/>
Figure FDA0004038882630000022
卷积操作,Up表示上采样操作;
步骤40:通过二次选择模块对目标特征进行筛选定位,得到只包含目标的视觉特征
Figure FDA0004038882630000023
其中,再一次对视觉特征和文本特征进行点积运算之后的融合特征/>
Figure FDA0004038882630000024
其中,Wl′表示进行将Fl堆叠到跟视觉特征一样的宽度和高度,Wv′表示1×1卷积层操作;
步骤50:通过图像后处理分割模块得到分割预测值;
步骤60:使用训练数据对分割模型中的双向GRU、基于语言主导的特征选择性跳转模块、二次选择模块和图像后处理分割模块进行训练,其中,训练使用的分割预测损失为
Figure FDA0004038882630000025
表示预测的值,训练使用的注意力对比损失为/>
Figure FDA0004038882630000026
yi表示真实的分割图,Pn表示yi中的正样本,训练使用的总损失函数为L=αLseg+βLacl,α和β是超参,表示分割预测损失和注意力对比损失各自占比。
2.根据权利要求1所述的基于多尺度特征选择性融合的指代分割方法,其特征在于,所述步骤10还包括:
步骤11:将给定的RGB图像裁剪为416×416的大小再输入到DarkNet53主干网络中去;
步骤12:提取出最后一层的视觉特征Fv1、第152层的视觉特征Fv2以及第69层的视觉特征Fv3
所述Darknet53主干网络包括CBL模块和ResX模块,其中CBL模块包括卷积层、数据标准化层和Leaky-Relu激活层,ResX模块包括一个Res1模块、一个Res2模块、两个Res8模块和一个Res4模块。
3.根据权利要求1所述的基于多尺度特征选择性融合的指代分割方法,其特征在于,所述步骤20还包括:
步骤21:对给定的文本进行分词得到T∈[w1,w2,…,wn],n表示文本的长度;
步骤22:根据GloVe模型将分词向量化,得到长度为n的文本向量,将文本向量入到双向GRU网络,得到初步文本特征
Figure FDA0004038882630000027
其中,/>
Figure FDA0004038882630000028
Figure FDA0004038882630000029
表示正向GRU操作,/>
Figure FDA00040388826300000210
表示反向GRU操作;
步骤23:根据文本注意力机制得到文本特征
Figure FDA0004038882630000031
4.根据权利要求1所述的基于多尺度特征选择性融合的指代分割方法,其特征在于,所述步骤50还包括:
步骤51:对Ftwice并行进行第一至第五并行操作,其中:
第一并行操作为1×1卷积操作;
第二并行操作为3×3卷积操作,空洞卷积率为6,填充为6;
第三并行操作为3×3卷积操作,空洞卷积率为12,填充为12;
第四并行操作为3×3卷积,空洞卷积率为18,填充为18;
第五并行操作为池化操作,先进行全局平均池化操作,然后进行1×1卷积操作,最后进行上采样恢复到输入的尺寸;
步骤52:第一至第五并行操作结果在通道上进行拼接,最后进行1×1卷积操作降维;
步骤53:对降维结果迭代执行上采样两倍后再进行卷积处理的操作,直到尺寸与真实的分割图尺寸相当,得到分割预测结果。
5.一种计算机设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1-3中任一项所述的基于多尺度特征选择性融合的指代分割方法。
6.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1-3所述的基于多尺度特征选择性融合的指代分割方法。
CN202310012997.1A 2023-01-05 2023-01-05 一种基于多尺度特征选择性融合的指代分割方法 Pending CN116152265A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310012997.1A CN116152265A (zh) 2023-01-05 2023-01-05 一种基于多尺度特征选择性融合的指代分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310012997.1A CN116152265A (zh) 2023-01-05 2023-01-05 一种基于多尺度特征选择性融合的指代分割方法

Publications (1)

Publication Number Publication Date
CN116152265A true CN116152265A (zh) 2023-05-23

Family

ID=86338304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310012997.1A Pending CN116152265A (zh) 2023-01-05 2023-01-05 一种基于多尺度特征选择性融合的指代分割方法

Country Status (1)

Country Link
CN (1) CN116152265A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809028A (zh) * 2023-11-22 2024-04-02 山东大学 基于跨模态交互推理的图像指代物体分割方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809028A (zh) * 2023-11-22 2024-04-02 山东大学 基于跨模态交互推理的图像指代物体分割方法及系统

Similar Documents

Publication Publication Date Title
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN107945204B (zh) 一种基于生成对抗网络的像素级人像抠图方法
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
US11823443B2 (en) Segmenting objects by refining shape priors
CN110622177B (zh) 实例分割
CN112418032B (zh) 一种人体行为识别方法、装置、电子设备及存储介质
CN116229056A (zh) 基于双分支特征融合的语义分割方法、装置、设备
CN115512103A (zh) 多尺度融合遥感图像语义分割方法及系统
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN114926835A (zh) 文本生成、模型训练方法和装置
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN115438215A (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114913339B (zh) 特征图提取模型的训练方法和装置
CN113569855A (zh) 一种舌象分割方法、设备及存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114781499A (zh) 一种构建基于ViT模型的密集预测任务适配器的方法
CN117078942A (zh) 上下文感知的指称图像分割方法、系统、设备及存储介质
CN116912579A (zh) 基于多层级注意力机制的场景图生成方法
CN113538278B (zh) 基于可变形卷积的深度图补全方法
CN116152265A (zh) 一种基于多尺度特征选择性融合的指代分割方法
CN113283241B (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN113822275A (zh) 一种图像语种识别方法及其相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination