CN115841603A

CN115841603A - 一种语言引导的多粒度特征融合目标分割方法及系统

Info

Publication number: CN115841603A
Application number: CN202211565906.9A
Authority: CN
Inventors: 王蓉; 谭荃戈; 李冲
Original assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Current assignee: PEOPLE'S PUBLIC SECURITY UNIVERSITY OF CHINA
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-24

Abstract

本发明提供的一种语言引导的多粒度特征融合目标分割方法及系统，方法包括：步骤100：采用SWINTransformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；步骤200：进行视觉与文本特征的特征融合；步骤300：采用卷积长短期记忆网络进行特征优化。通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力，得到更精细化的分割结果，是对传统的目标跟踪方法的一种有效补充。

Description

一种语言引导的多粒度特征融合目标分割方法及系统

技术领域

本发明涉及目标分割领域，尤其涉及一种语言引导的多粒度特征融合目标分割方法及系统。

背景技术

目标分割是对图像中关注区域或具有特有属性的某类、某个目标进行分割定位的任务，主要包括语义分割、实例分割、语言引导的目标分割等具体技术。语义分割是对图像中的各类目标进行分割。实例分割是对图像中的各个目标进行分割。语言引导的目标分割，是对语言描述的特定目标进行分割，该任务需要同时对视觉模态和语言模态进行学习，在人物定位、人机交互、智能图像编辑等方面有良好的应用前景。

语言引导的目标分割既需要关注整体特征，通过语言引导正确的目标，又需要关注局部特征，达到精确分割的目的。以往的模型大多使用卷积神经网络及其变体提取视觉特征，循环神经网络提取文本特征，并在特征融合阶段进行了手段不一的优化来进行语言引导的目标分割，欠缺对图像全局特征与空间位置特征的表达，分割精度有待提高。

发明内容

鉴于上述问题，提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种语言引导的多粒度特征融合目标分割方法及系统。

根据本发明的一个方面，提供了一种语言引导的多粒度特征融合目标分割方法包括：

步骤100：采用SWIN Transformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；

步骤200：进行视觉与文本特征的特征融合；

步骤300：采用卷积长短期记忆网络进行特征优化。

可选的，所述步骤100：采用SWIN Transformer网络提取多粒度的视觉特征具体包括：

高为H宽为W的三维RGB输入图像经过窗口分割模块分为4×4个像素一组的窗口区域，得到了尺寸为

维度的48维特征图，随后线性映射模块将特征图维度转化为C，再经过两层窗口变换自注意力模块得到尺寸为/>

的C维特征图；

窗口变换自注意力在阶段一对图像中最小粒度的特征进行了提取；

阶段二三四中，首先将特征图进行窗口合并，将2×2的4个窗口合并为1个窗口，用于减小窗口数量并扩大特征的粒度，再分别经过2、18、2个窗口变换自注意力模块提取粒度越来越大的视觉特征，分别得到尺寸维度为

的视觉特征；/>

利用1×1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化，得到尺寸

的256维视觉特征V'_an。

可选的，所述采用Bert网络提取文本特征具体包括：

利用Bert提取输入语言L的词向量L_e∈R^l，进行特征归一化得到文本特征

可选的，所述进行视觉与文本特征的特征融合具体包括：

将归一化后的不同粒度视觉特征分别与文本特征进行矩阵相乘融合，得到多粒度的融合特征；

多粒度融合特征计算过程如下公式所示

V'_an＝Bi(conv(Tran(V)))

L″_e＝Bi(conv(Bert(L)))

其中，n＝1,2,3,4,Tran表示SWIN Transformer第n阶段计算，conv表示1×1卷积计算，Bi表示双线性插值法，

表示矩阵相乘计算。

可选的，所述采用卷积长短期记忆网络进行特征优化具体包括：

从粒度最大的融合特征F₄作为输入开始优化计算，经过首个卷积长短期网络得到输出H₁和记忆信息C₁，第二层卷积长短期记忆网络由融合特征F₃、H₁、C₁作为输入，以此类推，最后得到第四层网络的输出H₄作为跨模态优化特征；

其中，F_n，n＝1,2,3,4表示输入的融合特征，H_n表示经过卷积长短期记忆网络计算得到的各层输出，C_n表示卷积长短期记忆网络的记忆信息；

将跨模态优化特征进行双线性插值上采样为尺寸H×W的二分类，作为分割结果。

本发明还提供了一种语言引导的多粒度特征融合目标分割系统，所述分割系统包括：

特征提取模块，用于采用SWIN Transformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；

特征融合模块，用于进行视觉与文本特征的特征融合；

特征优化模块，用于采用卷积长短期记忆网络进行特征优化。

本发明提供的一种语言引导的多粒度特征融合目标分割方法及系统，方法包括：步骤100：采用SWIN Transformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；步骤200：进行视觉与文本特征的特征融合；步骤300：采用卷积长短期记忆网络进行特征优化。通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力，得到更精细化的分割结果，是对传统的目标跟踪方法的一种有效补充。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明模型总体框架图；

图2是SWIN Transformer结构示意图；

图3是窗口变换自注意力模块结构示意图；

图4是视觉特征提取流程示意图；

图5是文本特征提取流程示意图；

图6多粒度特征优化计算流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。

下面结合附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明提出了一种语言引导的目标分割方法。针对卷积神经网络对于位置信息与整体信息关注不充分的特点，提出利用SWIN Transformer提取多粒度的图像特征增强整体与细节的表达。为解决特定目标的关注问题，利用Bert网络提取语言特征并与多粒度的视觉特征进行融合，增强特定的目标特征表达；为解决多粒度特征统一的问题，对融合特征进行优化统一，最终得到较为精确的分割结果。

本发明解决其技术问题所采用的技术方案是：

利用SWIN Transformer和Bert网络，分别提取多粒度的视觉特征和文本特征，提高对整体与细节的表征能力。

将文本特征分别与不同粒度视觉特征进行融合，通过语言引导增强特定目标表达。

通过卷积长短期记忆网络对多粒度融合特征进行优化，在不同粒度特征间进行信息交流，得到更精细化的分割结果。

本发明在两个流行数据集Refcoco和Refcoco+数据集上进行实验，表现出良好的分割效果，与流行的语言引导的目标分割方法相比有所改善，达到了同类任务的前沿水平。

步骤1：特征提取。视觉特征提取。高为H宽为W的三维RGB输入图像V，经过窗口分割模块分为4×4个像素一组的窗口区域，得到了尺寸为

的C维特征图。窗口变换自注意力在阶段一对图像中最小粒度的特征进行了提取。阶段二三四中，首先将特征图进行窗口合并，将2×2的4个窗口合并为1个窗口，从而减小窗口数量并扩大特征的粒度，再分别经过2、18、2个窗口变换自注意力模块提取粒度越来越大的视觉特征，分别得到尺寸维度为/>

的窗口自注意力特征，四个阶段得到的窗口自注意力特征记为V_an(n＝1,2,3,4)。随后利用1×1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化，得到尺寸/>

的256维视觉特征V'_an。

文本特征提取利用Bert获取输入语言L的词向量L_e∈R^l，R表示向量的定义域，l表示词向量的长度。进行特征归一化得到文本特征

步骤2：特征融合。语言引导的目标分割方法需要将视觉特征和文本特征进行合理地对齐融合，进而实现对关注目标的准确分割。为使文本信息对图像整体和细节都具有引导作用，本方法将归一化后的不同粒度视觉特征分别与文本特征进行矩阵相乘融合，得到多粒度的融合特征。多粒度融合特征计算过程如下公式所示。

V'_an＝Bi(conv(Tran(V)))

L″_e＝Bi(conv(Bert(L)))

表示矩阵相乘计算。

步骤3：多粒度特征优化。F_n，n＝1,2,3,4表示输入的融合特征，H_n表示经过卷积长短期记忆网络计算得到的各层输出，C_n表示卷积长短期记忆网络的记忆信息。从粒度最大的融合特征F₄作为输入开始优化计算，经过首个卷积长短期网络得到输出H₁和记忆信息C₁，第二层卷积长短期记忆网络由融合特征F₃、H₁、C₁作为输入，以此类推，最后得到第四层网络的输出H₄作为跨模态优化特征。最后，将跨模态优化特征进行双线性插值上采样得到分割结果。

如上述为一种语言引导的多粒度特征融合目标分割方法，其特征在于将语言特征与多粒度的视觉特征进行融合并进行多粒度融合特征优化。本发明在Refcoco与Refcoco+数据集上进行训练并测试。实验结果表明，本发明能够有效对语言描述的目标进行分割，且分割精度在同类方法中达到了前沿水平，证明了本方法的有效性与先进性。

本发明提出了一种语言引导的多粒度特征融合目标分割改进方法，能够对特定目标精准定位。首先，利用SWIN Transformer和Bert网络，分别提取多粒度的视觉特征和文本特征，提高对整体与细节的表征能力；然后，将文本特征分别与不同粒度视觉特征进行融合，通过语言引导增强特定目标表达；最后，通过卷积长短期记忆网络对多粒度融合特征进行优化，在不同粒度特征间进行信息交流，得到更精细化的分割结果。在Refcoco与Refcoco+数据集上进行训练并测试，分割精度达到前沿水平，实验IoU结果数据如表1所示。

表1语言引导目标分割实验IoU结果对比

本发明总体框架如图1所示，主要分为特征提取、特征融合、特征优化三个部分。

特征提取，为得到表达局部与整体的多粒度视觉特征，将输入图像顺序进行SWINTransformer的四阶段计算，每个阶段进行注意力计算提取特征以及窗口合并扩大感受野，逐渐得到粒度从小到大的视觉特征。输入描述语言经过Bert网络提取文本特征。

特征融合，进行多粒度的视觉文本特征融合，获取语言引导下的包含整体与细节信息的融合特征。

特征优化，利用经过卷积长短期记忆网络，对多粒度融合特征进行优化，逐步得到精细化的跨模态优化特征，最终上采样得出语言引导的图像分割结果。

特征提取：视觉特征提取。语言引导的目标分割任务往往要从多个特征相似的实体中准确分割语言描述的对象，如分割出“左下角的水瓶”、“骑着自行车的人等等”，需要从多个“水瓶”与“人”中准确定位语言描述的特殊个体，因此更好地对图像中全局信息和位置信息进行提取能够有效提升语言引导目标分割的效果。为弥补卷积神经网络关注局部信息和视觉Transformer计算量大的缺陷，本文采用的视觉特征提取模型根据SWINTransformer进行改进。SWIN Transformer分为四个阶段提取不同粒度的视觉特征，每个阶段首先对图像中局部窗口内部的像素进行自注意力计算，然后通过窗口移动计算不同窗口之间的视觉特征的相关性，从而在保证视觉特征全局相关的前提下，降低了计算的复杂度。SWIN Transformer结构如图2所示。高为H宽为W的三维RGB输入图像经过窗口分割模块分为4×4个像素一组的窗口区域，得到了尺寸为

的视觉特征。每个阶段的窗口变换自注意力模块数都为偶数，两种不同结构的模块交替运算，如图3所示。上层计算的到的视觉特征图f^l-1经过残差结构的线性归一化层和窗口注意力层得到/>

再经过残差结构的线性归一化层与多层感知机得到视觉特征f^l，此时，模型已经对窗口内的特征进行自注意力计算，类似卷积神经网络中与利用卷积核的卷积运算，提取了局部的特征。接着视觉特征f^l经过第二个窗口变换自注意力模块，该模块中使用了窗口变换自注意力层。窗口变换自注意力层首先对窗口进行拆分与再结合，使得此前不同窗口的特征可以进行相互之间的自注意力计算，最后经过残差结构的线性归一化层和多层感知机得到输出视觉特征图f^l+1，堆叠多层窗口变换自注意力模块，即可达到提取视觉特征全局相关性的目的。

图4所示为视觉特征提取过程，高和宽分别为H、W的三维输入图像V通过SWINTransformer提取窗口注意力特征

四个阶段计算得到的V_an的维度分别为/>

随后利用1×1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化，得到尺寸/>

的256维视觉特征V'_an。

文本特征提取。图5所示为文本特征提取过程，利用Bert提取输入语言L的词向量L_e∈R^l，进行特征归一化得到文本特征

特征融合：语言引导的目标分割方法需要将视觉特征和文本特征进行合理地对齐融合，进而实现对关注目标的准确分割。为使文本信息对图像整体和细节都具有引导作用，本方法将归一化后的不同粒度视觉特征分别与文本特征进行矩阵相乘融合，得到多粒度的融合特征。多粒度融合特征计算过程如下公式所示。

V'_an＝Bi(conv(Tran(V)))

L″_e＝Bi(conv(Bert(L)))

表示矩阵相乘计算。

特征优化：不同粒度的融合特征表达了语言与不同粒度视觉特征的对应关系，如果进行生硬的拼接，则会出现数据冗余，分割边界不清等情况。采用卷积长短期记忆网络可以有效对多粒度融合特征进行优化。如表1所示，以粒度最大到最小的融合特征顺序输入进行卷积长短期记忆网络计算，经过四个长短期记忆网络层，逐渐获取更加精细的特征图，最后经过上采样得到分割结果，多粒度特征优化具体计算流程图6所示。F_n，n＝1,2,3,4表示输入的融合特征，H_n表示经过卷积长短期记忆网络计算得到的各层输出，C_n表示卷积长短期记忆网络的记忆信息。从粒度最大的融合特征F₄作为输入开始优化计算，经过首个卷积长短期网络得到输出H₁和记忆信息C₁，第二层卷积长短期记忆网络由融合特征F₃、H₁、C₁作为输入，以此类推，最后得到第四层网络的输出H₄作为跨模态优化特征。最后将跨模态优化特征进行双线性插值上采样为H×W的二分类图像作为分割结果。

有益效果：本发明通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力，得到更精细化的分割结果，是对传统的目标跟踪方法的一种有效补充。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。