CN115131556A

CN115131556A - 一种基于深度学习的图像实例分割方法

Info

Publication number: CN115131556A
Application number: CN202210590951.3A
Authority: CN
Inventors: 卢奕南; 徐博文
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-30

Abstract

本发明公开了一种基于深度学习的图像实例分割方法，其方法为：第一步、获取图像样本，构建训练集；第二步、图像实例分割模型的构建，具体过程为：步骤1、将待训练的图像集中每个图像划分为S*S小网格，根据实际应用进行选取；步骤2、通过ResNet‑101网络提取图像特征；步骤3、通过基于加权BiFPN构建的特征网络层，将图像特征进行多尺度融合提取；步骤4、构建联合注意力筛选模块；步骤5、得到实例的掩码信息；步骤6、得到图像实例分割模型；第三步、将待分割的图像，利用上述第二步中得到的图像实例分割模型实现实例分割。有益效果：使模型在处理多尺度特征融合方面表现更好；提高模型对细节信息的把握能力，保证模型的高效性能。

Description

一种基于深度学习的图像实例分割方法

技术领域

本发明涉及一种图像实例分割方法，特别涉及一种基于深度学习的图像实例分割方法。

背景技术

目前，深度学习技术在计算机视觉领域取得了长足的进步。图像实例分割对输入图像的所有实例对象分配类别标签，并区分同一类别的不同实例对象，相较于语义分割，实例分割需要分割同类的实例对象，它的分割粒度要高于语义分割，由于实例个数的不确定性导致视觉任务变得复杂。它在机器人、自动驾驶和智能编辑等需要精准分析图像物体的应用中具有重要意义。基于深度学习的实例分割方法采用自顶向下的基于目标检测的方法和自底向上基于语义分割的方法。作为一种深度学习模型，SOLOv2利用网格划分将其核心任务转化为如何区分不同实例的分割问题，在对图像进行特征提取后，分别通过类别预测子网络和掩码子网络获取实例目标的类别和掩码，而掩码子网络又包含掩码特征分支和掩码卷积核分支。通过把特征图划分成若干小网格，每个网格只包含一个目标，采用特征金字塔网络(FPN)来区分实例目标，并用语义分割的方法预测实例的掩码和类别。一般使用VGGNet或ResNet等骨干网络提取图像特征。当前方法的特征表达能力仍不足以应对实例分割中出现的多尺度实例对象和不平衡对象类别问题，因此需要对不同层次的特征信息进行融合和提取，以便让深度学习模型更好地实现图像实例分割。

发明内容

本发明的主要目的是为了解决现有的图像实例分割方法中的特征表达能力不足以应对实例分割中出现的多尺度实例对象和不平衡对象类别的问题，而提供的一种基于深度学习的图像实例分割方法。

本发明提供的基于深度学习的图像实例分割方法，其方法包括如下步骤：

第一步、获取图像样本，构建训练集；

第二步、图像实例分割模型的构建，具体过程如下：

步骤1、将待训练的图像集中每个图像划分为S*S小网格，根据实际应用进行选取；

步骤2、通过ResNet-101网络提取图像特征，其中ResNet-101网络作为主干网络由一系列卷积层、池化层和激活层组成，提取图像特征；

步骤3、通过基于加权BiFPN构建的特征网络层，将图像特征进行多尺度融合提取，具体实现过程如下：

(1)在FPN的基础上取不同尺度的特征层，将第3层至第7层作为输入，通过增加相同层次的横向路径，删除掉只接受单一输入的层次节点，构造自顶向下和自底向上路径的BiFPN；

(2)计算不同层次输出节点的融合特征，用简单的注意力机制来学习不同尺度的输入特征对于输出特征的贡献，针对每个层次输出节点对应的输入节点特征的权重计算如下：

每个权重w_i使用ReLU激活函数，ε设置为0.0001，用来防止数值不稳定，使每个归一化权重的值落在0到1之间；

(3)重复加权BiFPN 3次得到多尺度融合特征网络层；

(4)将多尺度融合特征网络层处理图像特征提取多尺度融合特征F；

步骤4、通过基于联合注意力机制和动态卷积构建联合注意力筛选模块，作为掩码子网络中掩码特征分支的头部筛选多尺度融合特征，包括串联分支和并联分支，再分别经过动态卷积后把两者结合起来得到筛选特征，构建联合注意力筛选模块具体过程如下：

(1)联合注意力筛选模块中的串联分支是以串行模式对多尺度提取特征F 进行特征提取，先通过基于通道注意力模块计算通注意力特征，首先分别用全局平均池化和全局最大池化处理特征，对池化后的特征再分别使用2次1×1的卷积，第1次的卷积用于缩放通道维度，在这之后使用ReLU激活函数，第2次卷积还原通道数，最后进行求和，并使用sigmoid激活函数，得到通道注意力系数，将特征与通道注意力系数相乘得到通道注意力特征FC；再让FC通过空间注意力模块计算空间注意力特征，分别用平均池化和最大池化处理特征，将处理后的结果按通道维度进行拼接，使用一个3×3的卷积，使用sigmoid激活函数得到空间注意力系数，将特征FC与空间注意力系数相乘得到空间注意力特征 FS；并用残差结构将原始特征F与空间注意力特征FS串联相加得到串联的特征 F’；

(2)联合注意力筛选模块中的并联分支是以并行模式对多尺度提取特征F 进行特征提取，分别经过上述的基于通道注意力的特征提取模块得到通道注意力特征FC和上述的基于空间注意力的特征提取模块得到空间注意力特征FS，并利用残差结构与特征F相加得到并联的特征F”；

(3)对串联的特征和并联的特征分别使用动态卷积，通过自适应调整卷积核参数，增强特征的表达能力。动态卷积的生成过程：对特征使用全局平均池化，用两次1×1的卷积，压缩通道维度至N，N表示设定的组成动态卷积的卷积核的个数，在第一次卷积后使用ReLU激活函数，最后使用softmax函数得到N个和为1的权重参数，然后使用分组卷积对N个卷积核分配权重，群组大小与批量大小(batch_size)对应，最后进行线性求和，得到动态卷积；

(4)对经过动态卷积处理后的串联特征与并联特征求和，采用逐元素加法求和方式得到筛选特征；

步骤5、通过预测网络的掩码子网络处理筛选特征得到掩码特征图，将掩码核分支与掩码特征分支的预测结果进行一次卷积，得到实例的掩码信息；

步骤6、采用基于Dice和Focal的损失函数的网络训练方法，得到图像实例分割模型；

第三步、将待分割的图像，利用上述第二步中得到的图像实例分割模型实现实例分割，具体如下：

将待分割的图像进行网络划分，通过ResNet-101网络提取特征；通过基于加权双向FPN即加权BiFPN构造的特征网络层将提取的特征进行处理得到多尺度融合特征；通过预测网络的分类子网络处理多尺度融合特征预测出实例的类别；通过联合注意力机制和动态卷积构成联合注意力筛选模块，作为掩码子网络中掩码特征分支的头部处理多尺度融合特征得到筛选特征；经预测网络的掩码子网络处理筛选特征得到掩码特征图，将掩码核分支与掩码特征分支的预测结果进行一次卷积，预测出实例的掩码信息，由预测出来的实例类别和实例掩码信息获得图像的实例分割效果。

本发明的有益效果：

本发明提供的基于深度学习的图像实例分割方法预先利用公开的图像数据集对SOLOv2的改进模型进行训练得到用于预测的SOLOv2模型，其中SOLOv2模型包括ResNet-101网络、多尺度融合特征网络层、预测网络的分类子网络、基于联合注意力机制和动态卷积构成的联合注意力筛选模块、预测网络的掩码子网络。该方法改进加权BiFPN的特征融合的权重方式，使模型在处理多尺度特征融合方面表现更好；将通道注意力和空间注意力采用串联和并联方式提取特征，并分别应用动态卷积，再将提取的特征加以联合。通过使用联合注意力机制和动态卷积对多尺度融合特征进行自适应计算，可以更好地选择特征信息，提高模型对细节信息的把握能力，并在注意力模块中引入残差结构，保证模型的高效性能；使用了动态卷积进一步提高模型的表达能力。本发明可以更加精确地分割实例。

附图说明

图1为本发明所述的图像实例分割方法流程示意图。

图2为本发明所述的利用公开的实例分割数据集训练模型的流程图。

图3为本发明所述的BiFPN网络结构示意图。

图4为本发明所述的动态卷积结构示意图。

图5为本发明所述的串联分支结构示意图。

图6为本发明所述的并联分支结构示意图。

图7为本发明所述的串联特征与并联特征在动态卷积下的联合示意图。

具体实施方式

请参阅图1至图7所示：

所需条件：普通PC机，操作系统采用Ubuntu 20.04.1，显卡NVIDIA GeForce RTX2080Ti。Pytorch 1.7.1为深度学习框架，使用detectron2作为网络框架开发工具。

第一步、获取图像样本，构建训练集；

第二步、图像实例分割模型的构建，具体过程如下：

步骤1、将待训练的图像集，每个图像划分为S*S小网格。在本申请实施例中，实例分割数据集可以为COCO实例分割数据集。可以根据实际应用进行选取，本申请实施例不加以限定。

步骤2、通过ResNet-101网络提取图像特征，其中ResNet-101网络作为主干网络由一系列卷积层、池化层、激活层组成，提取图像特征；

步骤3、通过基于加权BiFPN构建的特征网络层，将图像特征进行多尺度融合提取，具体实现过程；

(1)在FPN的基础上取不同尺度的特征层，将第3层至第7层(P3-P7) 作为输入，通过增加相同层次的横向路径，删除掉只接受单一输入的层次节点，构造自顶向下和自底向上路径的BiFPN，如图3所示；

(2)计算不同层次输出节点的融合特征，用简单的注意力机制来学习不同尺度的输入特征对于输出特征的贡献。针对每个层次输出节点对应的输入节点特征的权重计算如下：

每个权重w_i使用ReLU激活函数，ε设置为0.0001，用来防止数值不稳定。这样就使得每个归一化权重的值也落在0到1之间。以第5层P5为例计算加权融合的特征

其中，

代表加权BiFPN中自顶向下路径上第5级的中间特征，

代表自底向上路径上第5级的输出特征，

分别代表第5级的输入特征、第6级的中间特征和第4级的输出特征。所有其他层级的特征融合都是按照同样的方式进行构建。resize代表采样(上采样或下采样)操作，这里的卷积conv 表示深度可分离卷积，先用分组卷积，群组大小按输入的通道数分配，再用一个1*1的卷积。

(3)重复加权BiFPN 3次得到多尺度融合特征网络层。

(4)将多尺度融合特征网络层处理图像特征提取多尺度融合特征F。

步骤4、通过基于联合注意力机制和动态卷积构建联合注意力筛选模块，作为掩码子网络中掩码特征分支的头部筛选多尺度融合特征，它包括了串联分支和并联分支，再分别经过动态卷积后把两者结合起来得到筛选特征，其中动态卷积的结构如图4所示。构建联合注意力筛选模块具体过程如下：

(1)联合注意力筛选模块中的串联分支是以串行模式对多尺度提取特征F 进行特征提取，先通过基于通道注意力模块(CAM)计算通注意力特征，首先分别用全局平均池化(GAP)和全局最大池化(GMP)处理特征，对池化后的特征再分别使用2次1×1的卷积，第1次的卷积用于缩放通道维度，在这之后使用 ReLU激活函数，第2次卷积还原通道数，最后进行求和，并使用sigmoid激活函数，得到通道注意力系数，将特征与通道注意力系数相乘得到通道注意力特征FC；再让FC通过空间注意力模块(SAM)计算空间注意力特征，分别用平均池化(AvgPool)和最大池化(MaxPool)处理特征，将处理后的结果按通道维度进行拼接，使用一个3×3的卷积，使用sigmoid激活函数得到空间注意力系数，将特征FC与空间注意力系数相乘得到空间注意力特征FS；并用残差结构将原始特征F与空间注意力特征FS串联相加得到串联的特征F’，如图5所示。

(2)联合注意力筛选模块中的并联分支是以并行模式对多尺度提取特征F 进行特征提取，分别经过上述的基于通道注意力的特征提取模块(CAM)得到通道注意力特征FC和上述的基于空间注意力的特征提取模块(SAM)得到空间注意力特征FS，并利用残差结构与特征F相加得到并联的特征F”，如图6所示。

(3)对串联的特征和并联的特征分别使用动态卷积，通过自适应调整卷积核参数，增强特征的表达能力。动态卷积的生成过程：对特征使用全局平均池化，用两次1×1的卷积，压缩通道维度至N，N表示设定的组成动态卷积的卷积核的个数。在第一次卷积后使用ReLU激活函数，最后使用softmax函数得到 N个和为1的权重参数，然后使用分组卷积对N个卷积核分配权重，群组大小与批量大小(batch_size)对应，最后进行线性求和，得到动态卷积。

(4)对经过动态卷积处理后的串联特征与并联特征求和。采用逐元素加法求和方式得到筛选特征，如图7所示。

步骤5、通过预测网络的掩码子网络处理筛选特征得到掩码特征图，将掩码核分支与掩码特征分支的预测结果进行一次卷积，得到实例的掩码信息。

步骤6、采用基于Dice和Focal的损失函数的网络训练方法，得到图像实例分割模型，具体实现过程如下：

(1)根据训练图像的真值掩码与预测掩码计算掩码损失；

(2)根据网格预测分类与真值分类计算Focal损失，Focal损失用于优化网络更倾向于难分类的样本，通过调制系数减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。

(3)将两者的损失按照比例相加设计损失函数，对深度网络进行多轮样本训练，对网络中训练的参数进行调整，直至模型达到收敛，得到图像实例分割模型。

第三步、将待分割的图像，利用上述第二步得到的图像实例分割模型实现实例分割，具体实现过程如下：

将待分割的图像进行网络划分，通过ResNet-101网络提取特征；通过基于加权双向FPN(加权BiFPN)构造的特征网络层将提取的特征进行处理得到多尺度融合特征；通过预测网络的分类子网络处理多尺度融合特征预测出实例的类别；通过联合注意力机制和动态卷积构成联合注意力筛选模块，作为掩码子网络中掩码特征分支的头部处理多尺度融合特征得到筛选特征；经预测网络的掩码子网络处理筛选特征得到掩码特征图，将掩码核分支与掩码特征分支的预测结果进行一次卷积，预测出实例的掩码信息。由预测出来的实例类别和实例掩码信息获得图像的实例分割效果。

Claims

1.一种基于深度学习的图像实例分割方法，其特征在于：其方法包括如下步骤：

第一步、获取图像样本，构建训练集；

第二步、图像实例分割模型的构建，具体过程如下：

步骤2、通过ResNet-101网络提取图像特征，其中ResNet-101网络作为主干网络由卷积层、池化层和激活层组成，提取图像特征；

(3)重复加权BiFPN 3次得到多尺度融合特征网络层；

(1)联合注意力筛选模块中的串联分支是以串行模式对多尺度提取特征F进行特征提取，先通过基于通道注意力模块计算通注意力特征，首先分别用全局平均池化和全局最大池化处理特征，对池化后的特征再分别使用2次1×1的卷积，第1次的卷积用于缩放通道维度，在这之后使用ReLU激活函数，第2次卷积还原通道数，最后进行求和，并使用sigmoid激活函数，得到通道注意力系数，将特征与通道注意力系数相乘得到通道注意力特征FC；再让FC通过空间注意力模块计算空间注意力特征，分别用平均池化和最大池化处理特征，将处理后的结果按通道维度进行拼接，使用一个3×3的卷积，使用sigmoid激活函数得到空间注意力系数，将特征FC与空间注意力系数相乘得到空间注意力特征FS；并用残差结构将原始特征F与空间注意力特征FS串联相加得到串联的特征F’；

(2)联合注意力筛选模块中的并联分支是以并行模式对多尺度提取特征F进行特征提取，分别经过上述的基于通道注意力的特征提取模块得到通道注意力特征FC和上述的基于空间注意力的特征提取模块得到空间注意力特征FS，并利用残差结构与特征F相加得到并联的特征F”；

(3)对串联的特征和并联的特征分别使用动态卷积，通过自适应调整卷积核参数，增强特征的表达能力；动态卷积的生成过程：对特征使用全局平均池化，用两次1×1的卷积，压缩通道维度至N，N表示设定的组成动态卷积的卷积核的个数，在第一次卷积后使用ReLU激活函数，最后使用softmax函数得到N个和为1的权重参数，然后使用分组卷积对N个卷积核分配权重，群组大小与批量大小对应，最后进行线性求和，得到动态卷积；