CN117011515A

CN117011515A - 基于注意力机制的交互式图像分割模型及其分割方法

Info

Publication number: CN117011515A
Application number: CN202310976823.7A
Authority: CN
Inventors: 刘建明; 李�浩
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-07

Abstract

本发明公开了基于注意力机制的交互式图像分割模型及其分割方法，分割模型由基础分割模块和注意力分割模块组成，基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器；注意力分割模块包括高斯变换模块和基于点击的注意力模块；分割方法应用于基于注意力机制的交互式图像分割模型上。本发明的有益效果是：本发明通过点击的交互方式，使用一个基础分割模块和一个注意力分割模块，完成图像的分割，减轻数据标注的负担，更快的完成数据标注；能够更有效的关注点击信息，交互方式更加简单，准确率提升大，设计的交互式分割系统，使用简单，操作方便，只需通过点击即可完成分割，可以大大减轻图片数据标注的负担，加快图片数据标注速度。

Description

基于注意力机制的交互式图像分割模型及其分割方法

技术领域

本发明涉及一种交互式图像分割领域，具体为一种基于注意力机制的交互式图像分割模型及其分割方法。

背景技术

交互式图像分割是指通过用户提供少量的交互信息，如点击、划线、画框等，来辅助计算机提取图像中具有高层语义的目标区域。交互式分割在数据标注，医学图像，抠图，人脸识别等领域都有广泛的应用，交互式分割涉及到多个领域和问题的融合与创新，也有着多种应用场景和潜在价值。

目前交互式分割方法仍然有很多难点和缺陷：

(1)交互方式：不同的交互方式，如点击、划线、画框等，对用户的操作习惯和分割效果都有影响，需要根据不同的场景和目标选择合适的交互方式。同时，交互方式还需要考虑用户的误操作和撤销操作，提供更灵活和自然的交互体验。

(2)交互过程：交互式分割是一个迭代的过程，用户需要多次提供交互信息，才能得到满意的分割结果。这个过程中，用户往往不知道在哪些区域需要提供更多的交互信息，也不知道什么时候可以停止交互。因此，交互式分割需要提供一些智能和友好的机制，如给出建议、反馈、提示等，来引导用户进行有效的交互。

(3)交互效果：交互式分割的最终目标是得到高质量的分割结果，但是现有的方法在一些复杂和多样的场景下，仍然存在一些问题，如分割不足、分割过度、边缘模糊等。因此，交互式分割需要提高模型的鲁棒性和泛化性，以适应不同的图像和目标。

发明内容

本发明的目的在于提供一种基于注意力机制的交互式图像分割模型及其分割方法，作为一种新的分割模型并给出完整的图像交互式分割操作流程，通过点击的交互方式，完成图像的分割，减轻数据标注的负担，更快的完成数据标注。

本发明的技术方案是：基于注意力机制的交互式图像分割模型，由基础分割模块和注意力分割模块组成，基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器；注意力分割模块包括高斯变换模块和基于点击的注意力模块。

本发明采用另外一组技术方案，基于注意力机制的交互式图像分割方法，应用于基于注意力机制的交互式图像分割模型上，具体步骤如下：

步骤S1，在基础分割模块中，输入一张原图像和这张原图像的点击交互，将点击交互分为正向点击和负向点击，将正向点击和负向点击通过欧氏距离计算得到两个高斯点图，两个高斯点图和原图像进行拼接，输入到基础分割模块中的主干网络，主干网络使用101层深度残差网络作为特征提取网络，进行初次分割并输出结果；

步骤S2，同时在注意力分割模块中，将正向点击和负向点击转化成两个高斯点图进行拼接，再和步骤S1的基础分割模块中的101层深度残差网络的输出结果进行拼接，接着输入到基于点击的注意力模块中的通道注意力中部分输出结果；

步骤S3，步骤S1初次分割的输出结果和步骤S2基于点击的注意力模块中的通道注意力中部分输出结果进行拼接，输入到基础分割模块的空洞空间卷积池化金字塔模块中，并输出结果；

步骤S4，在注意力分割模块中，基于点击的注意力模块中的通道注意力中部分输出结果，通过和原图像对比，得到注意力损失；

步骤S5，将步骤S3中空洞空间卷积池化金字塔模块的输出结果和步骤S1初次分割的输出结果共同输入到解码器中，得到一般分割结果，计算与原图像的一般损失；

步骤S6，结合步骤S4中注意力损失和步骤S5中一般损失，使用平衡交叉熵法平衡两个损失函数，通过反向传播计算最后的分割结果。

进一步的，主干网络的详细步骤为：

(1)主干网络的输入是原图像和这张原图像的点击交互，其中原图像为RGB色彩图像，这张原图像的点击交互为两个正向点击和负向点击转化的高斯点图进行拼接，高斯点图通过欧式距离计算得到，高斯点半径设置为10；

(2)101层深度残差网络分为五个阶段，每个阶段包含若干个残差块，第一个阶段为一个普通残差块，第二阶段到第五个阶段为一个瓶颈残差块和若干个普通残差块，第二阶段到第五个阶段的瓶颈残差块对输入图片特征图进行下采样(降低尺寸和增加通道数)，其他的残差块保持输入和输出的形状不变；

(3)图片特征图F1为第二个阶段的最后一个普通残差块，图片特征图F2为第三个阶段的最后一个普通残差块，图片特征图F3为第四个阶段的最后一个普通残差块，图片特征图F4为第五个阶段的最后一个普通残差块，即第二阶段到第五个阶段的图片特征图定义为{F₁,F₂,F₃,F₄}；

其中欧式距离计算公式如下：

其中，d(x,y)是真实标签x和真实标签y的欧式距离，x和y是两个n维的真实标签，x_i和y_i分别是x和y的第i个样本的真实标签。

进一步的，空洞空间卷积池化金字塔模块的详细步骤为：

(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F4，步骤S2基于点击的注意力模块中的通道注意力中部分输出结果即图片特征图F_attention(注意力分割模块中的基于点击的注意力模块)；

(2)图片特征图F4和图片特征图F_attention进行拼接，拼接后的特征输入到空洞空间卷积池化金字塔模块，并输出结果；

(3)空洞空间卷积池化金字塔模块主要分为四个尺寸为1、6、12、18的空洞卷积层以及一个全局池化层，从四个空洞卷积层和全局池化层输出的特征进行拼接，拼接后的特征再通过空洞空间卷积池化金字塔模块中的一个额外的1×1卷积层进行进一步的变换和降维，得到最终的输出特征，记作F_ASPP。其中额外的1×1卷积层用于融合多尺度的特征，并降低输出的通道数。

进一步的，解码器的详细步骤为：

(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F₁，步骤S3中空洞空间卷积池化金字塔模块的输出结果即图片特征图F_ASPP；

(2)图片特征图F₁和图片特征图F_ASPP共同输入到解码器中，使用解码器中的卷积层对解码器的输出进行分类，得到一般分割结果即每个像素的类别概率。

进一步的，高斯变换模块的详细步骤为：对正向点击和负向点击转化成两个高斯点图进行拼接即为高斯变换模块，高斯点半径设置为15。

进一步的，基于点击的注意力模块的详细步骤为：

(1)对输入的图片特征图进行全局平均池化和全局最大池化，得到两个通道描述向量，通道描述向量表示全局的信息；

(2)将两个通道描述向量分别送入一个共享的两层神经网络，第一层神经网络用于降低维度，第二层神经网络用于恢复维度，第一层神经网络和第二层神经网络中间有一个ReLU激活函数；

(3)将第一层神经网络和第二层神经网络的输出相加，通过一个Sigmoid激活函数，得到一个权重向量，权重向量表示每个通道的注意力系数；

(4)将权重向量与输入的图片特征图相乘，得到加权后的图片特征图F_attention；

(5)用得到的加权后的特征图F_attention和原图像计算注意力损失。

进一步的，所述平衡交叉熵法见公式(2)所示；

其中，L(y,p)表示损失函数，是真实标签y和预测概率p之间的差异的度量，真实标签y指的是原始图片，预测概率p是最终模块输出的图片为预测概率；N表示像素数量，β表示正样本的权重，根据两个分割结果中正负样本的比例来设置不同的β值，β设置为0.3；y_i表示第i个样本的真实标签，是一个0或1的数，表示正负样本(正样本为前景，负样本为背景)；p(y_i)是第i个样本的预测概率，它是一个0到1之间的数，表示预测为正样本的概率。

本发明的有益效果是：传统的交互式图像分割方法是将交互结果(点击，划线，画框)和图像作为输入，输入到一个全卷积网络中，得到分割结果，本发明作为一种新的分割模型并给出完整的图像交互式分割操作流程，通过点击的交互方式，使用一个基础分割模块和一个注意力分割模块，完成图像的分割，减轻数据标注的负担，更快的完成数据标注；本发明提出新的交互式分割结构，对比传统的交互式分割方法，多使用了一个基于点击的注意力模块，能够更有效的关注点击信息，交互方式更加简单(点击)，准确率提升大，设计的交互式分割系统，使用简单，操作方便，只需通过点击即可完成分割，可以大大减轻图片数据标注的负担，加快图片数据标注速度。

附图说明

图1为本发明交互式图像分割方法的结构流程图。

图2为本发明交互式图像分割方法的整体网络架构图。

具体实施方式

如图1-2所示，本发明是这样来工作和实施的，基于注意力机制的交互式图像分割模型，由基础分割模块和注意力分割模块组成，基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器；注意力分割模块包括高斯变换模块和基于点击的注意力模块。

基于注意力机制的交互式图像分割方法，应用于基于注意力机制的交互式图像分割模型上，具体步骤如下：

进一步的，主干网络的详细步骤为：

其中欧式距离计算公式如下：

进一步的，空洞空间卷积池化金字塔模块的详细步骤为：

进一步的，解码器的详细步骤为：

(2)图片特征图F₁和图片特征图F_ASPP共同输入到解码器中，使用解码器中的卷积层对解码器的输出进行分类，得到一般分割结果即每个像素的类别概率。其中解码器模块的作用是将特征图像恢复到原图像的尺寸，并提取更细致的信息。

进一步的，基础分割模块设置的高斯半径和注意力分割模块设置的高斯半径数值不同，基础分割模块设置的更小，注意力分割模块设置的更大，因为注意力分割模块可以在大的范围内找更加重要的信息，所以可以设置的大一点，可以根据不同的交互目的，调整点击的影响范围；一般来说，早期的交互更侧重于选择目标物体，所以可以设置较大的高斯半径，让点击覆盖更多的区域；后期的交互更侧重于微调分割结果，所以可以设置较小的高斯半径，让点击更精确地指示前景或背景。

进一步的，基于点击的注意力模块的详细步骤为：

(5)用得到的加权后的图片特征图F_attention和原图像计算注意力损失。

进一步的，使用基于点击的注意力模块的方法分配不同的注意力权重，基于点击的注意力模块中用到的通道注意力机制是一种在卷积神经网络中增强特征表示能力的方法，它可以自适应地调整每个特征通道的权重，使网络重点关注对当前任务有用的特征通道，抑制对当前任务无用的特征通道，使用通道注意力机制，重点关注哪些重要的点击，实现更好的分割效果。

进一步的，全局平均池化和全局最大池化为现有技术，具体做法：全局平均池化是对每个通道的特征图计算所有像素点的均值，全局最大池化是对每个通道的特征图计算所有像素点的最大值。

进一步的，所述平衡交叉熵法见公式(2)所示；

进一步的，所述反向传播计算即用于训练神经网络的监督学习算法，反向传播算法的基本步骤如下：

(1)前向传播：将输入数据从输入层经过隐藏层到输出层，得到网络的输出结果；

(2)计算误差：根据输出结果和期望结果之间的差异，定义一个损失函数，并计算其值；

(3)反向传播：根据损失函数对每个参数的偏导数，从输出层到输入层逐层计算误差项，并根据梯度下降法更新参数。

(4)重复迭代：重复上述步骤，直到损失函数收敛或达到预设的条件。

实施例1

见图1所示，输入一张图片，进行点击操作，根据用户的点击操作分离出前景和背景，完成图像分割。

具体流程如下:

(1)输入一组图像，用户对图像进行点击操作；

(2)将点击操作图的positive clicks(正向点击)和Negative clicks(负向点击)转化的两个高斯点图和原图像进行拼接，输入到基础分割模块中的(ResNet101)101层的残差网络主干网；

(3)将点击操作图的positive clicks(正向点击)和Negative clicks(负向点击)转化的两个高斯点图进行拼接，再和ResNet101(101层的残差网络)特征提取网络初次分割的结果拼接输入到注意力模块；

(4)注意力分割模块输出的结果和前面的结果进行拼接，输入ASPP模块；

(5)空洞空间卷积池化金字塔模块(ASPP)模块的输出和b步骤中的ResNet101(101层的残差网络)的特征提取结果的底层特征结果拼接后输入解码器，得到一般分割结果(result)，计算与原图像(ground truth)的一般损失(general loss)；

(6)注意力模块通过b的操作得到注意力分割结果(Supervision result)，与原图像(ground truth)计算注意力损失(attention click loss)；

(7)结合两个分支的一般损失(general loss)和注意力损失(attention clickloss)使用平衡交叉熵法最后的分割结果(mask)。

Claims

1.基于注意力机制的交互式图像分割模型，其特征在于：由基础分割模块和注意力分割模块组成，基础分割模块包括主干网络、空洞空间卷积池化金字塔模块和解码器；注意力分割模块包括高斯变换模块和基于点击的注意力模块。

2.基于注意力机制的交互式图像分割方法，其特征在于：应用于权利要求1所述的基于注意力机制的交互式图像分割模型上，具体步骤如下：

3.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：主干网络的详细步骤为：

其中欧式距离计算公式如下：

4.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：空洞空间卷积池化金字塔模块的详细步骤为：

(1)步骤S1初次分割的输出结果即101层深度残差网络中的图片特征图F4，步骤S2基于点击的注意力模块中的通道注意力中部分输出结果即图片特征图F_attention；

(3)空洞空间卷积池化金字塔模块主要分为四个尺寸为1、6、12、18的空洞卷积层以及一个全局池化层，从四个空洞卷积层和全局池化层输出的特征进行拼接，拼接后的特征再通过空洞空间卷积池化金字塔模块中的一个额外的1×1卷积层进行进一步的变换和降维，得到最终的输出特征，记作图片特征图F_ASPP。

5.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：解码器的详细步骤为：

6.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：高斯变换模块的详细步骤为：对正向点击和负向点击转化成两个高斯点图进行拼接即为高斯变换模块，高斯点半径设置为15。

7.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：基于点击的注意力模块的详细步骤为：

8.根据权利要求2所述的基于注意力机制的交互式图像分割方法，其特征在于：所述平衡交叉熵法见公式(2)所示；