CN116703947A

CN116703947A - 一种基于注意力机制和知识蒸馏的图像语义分割方法

Info

Publication number: CN116703947A
Application number: CN202310787383.0A
Authority: CN
Inventors: 谢新林; 谢刚; 罗臣彦; 王健安; 李林娟; 王银; 张浩雪
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-09-05

Abstract

本发明涉及机动车、飞机领域中的计算机视觉技术，具体是一种基于注意力机制和知识蒸馏的图像语义分割方法。本发明解决了现有图像语义分割方法难以权衡推理速度与分割精度的问题。一种基于注意力机制和知识蒸馏的图像语义分割方法，该方法是采用如下步骤实现的：步骤一：构建基于空洞卷积的多分支特征提取编码模块；步骤二：构建多尺度空洞空间金字塔池化模块；步骤三：构建嵌入通道注意力的空间注意力机制模块；步骤四：构建自适应多尺度特征融合模块；步骤五：分别构建教师网络和学生网络；步骤六：构建边缘信息知识蒸馏损失函数；步骤七：引导学生网络进行边缘知识蒸馏训练；步骤八：对学生网络进行评估。本发明适用于实时图像语义分割。

Description

一种基于注意力机制和知识蒸馏的图像语义分割方法

技术领域

本发明涉及机动车、飞机领域中的计算机视觉技术，具体是一种基于注意力机制和知识蒸馏的图像语义分割方法。

背景技术

图像语义分割作为一种像素级的分类任务，能够为场景理解提供细粒度和高层次的语义信息，广泛应用于机动车、飞机等领域的视觉感知与理解任务。为了实现应用场景的有效感知，推理速度、分割精度之间的权衡成为当前图像语义分割任务的重要挑战。

随着人工智能技术的发展，以深度学习为导向的图像语义分割技术逐渐成为当前研究的主流方法。目前，基于深度学习的图像语义分割方法可以分为高精度图像语义分割和轻量级图像语义分割。高精度图像语义分割基于深度卷积神经网络进行构建，能够实现准确率的有效提升，但该类模型的参数量过大，难以实现轻量级设备的部署，导致推理速度较慢；轻量级图像语义分割基于轻量级卷积或模型压缩技术进行构建，能够实现模型参数量的减小，但该类模型容易造成大量的准确率损失，导致分割精度较差。基于此，有必要发明一种基于注意力机制和知识蒸馏的图像语义分割方法，以解决现有图像语义分割方法难以权衡推理速度与分割精度的问题。

发明内容

本发明为了解决现有图像语义分割方法难以权衡推理速度与分割精度的问题，提供了一种基于注意力机制和知识蒸馏的图像语义分割方法。

本发明是采用如下技术方案实现的：

一种基于注意力机制和知识蒸馏的图像语义分割方法，该方法是采用如下步骤实现的：

步骤一：构建基于空洞卷积的多分支特征提取编码模块；将图像输入该模块，生成5个阶段的特征feature1-feature5；

步骤二：构建多尺度空洞空间金字塔池化模块；该模块以特征feature5作为输入，生成特征feature6；

步骤三：构建嵌入通道注意力的空间注意力机制模块；该模块以特征feature3、特征feature4、特征feature6作为输入，生成特征feature7、特征feature8、特征feature9；

步骤四：构建自适应多尺度特征融合模块；该模块以特征feature1、特征feature2、特征feature7、特征feature8、特征feature9作为输入，生成特征feature10；

步骤五：基于步骤一至步骤四中所构建的模块来分别构建教师网络和学生网络；

步骤六：构建边缘信息知识蒸馏损失函数；将教师网络和学生网络输出的特征feature10作为输入，确定学生网络的预测边界点的下一候选边界点，通过增大预测边界点与候选边界点之间的距离来进行边界信息的知识迁移；

步骤七：先利用图像语义分割数据集中的训练集来训练教师网络，再基于教师网络的预训练权重，利用边缘信息知识蒸馏损失函数来引导学生网络进行边缘知识蒸馏训练；

步骤八：利用图像语义分割数据集中的测试集来对学生网络进行评估。

所述步骤一中，基于空洞卷积的多分支特征提取编码模块的构建步骤具体如下：

首先，去除RepVGG的全连接层，基于RepVGG的前5个阶段构建主干网络，表示为stage1-stage5；

其次，分别将stage4和stage5中第一层分支结构的卷积参数stride设置为1；

最后，在stage3-stage5中引入非比例式串行空洞卷积，并将stage3-stage5的空洞率设置为(1, 2, 5)。

所述步骤二中，多尺度空洞空间金字塔池化模块的构建步骤具体如下：

首先，通过构建1×1卷积分支来减小输入特征的通道数，用以降低模型计算复杂度；

其次，在ASPP模块中增加一个并行3×3空洞卷积分支，并将4个并行3×3空洞卷积分支的空洞率设置为(8, 12, 24, 36)。

所述步骤三中，嵌入通道注意力的空间注意力机制模块的构建步骤具体如下：

首先，将基于自注意力机制的空间注意力机制Non-Local分解为行注意力机制和列注意力机制；

其次，分别基于行注意力机制和列注意力机制来计算通道注意力机制，并通过构建1×1卷积、批归一化层、激活函数LeakyReLu来将行注意力和列注意力编码到向量中，然后将该向量输入到包含一个隐藏层的多层感知机，而后设计Sigmoid函数用以生成具有通道和空间注意力权重的行、列矩阵；

最后，将具有通道和空间注意力权重的行、列矩阵进行融合。

所述步骤四中，自适应多尺度特征融合模块的构建步骤具体如下：

首先，对特征feature2进行逐像素分类，并取通道维度概率最高的类别对应的索引，然后通过判断某像素点与其邻域像素分类结果是否相等来判断该像素点是否为目标边缘，由此获得目标边缘矩阵；

其次，通过双线性插值上采样、最大池化下采样的方式来构建各阶段对应的目标主体矩阵和目标边缘矩阵，并通过设置可学习参数来分别对目标主体矩阵和目标边缘矩阵进行加权求和，由此获得各阶段特征权重矩阵；

然后，基于各阶段特征权重矩阵，对各阶段特征进行加权；

然后，对特征feature7、特征feature8、特征feature9构建相同的融合方式，即通过设计1×1卷积来逐阶段降低输出特征的通道数，使之与上一阶段输出特征的通道数相同，通过通道拼接的方式来融合两阶段的高层语义特征；

然后，对融合后的高层语义特征，依次通过双线性插值上采样的方式使之与特征feature1、特征feature2具有相同的分辨率，其余融合策略与特征feature7-feature9的融合策略相同；

最后，基于5个特征的融合结果，通过设计3×3卷积来细化特征，并通过1×1卷积将通道数减小为分割类别数，然后通过双线性插值上采样的方式将特征图恢复到与模型输入相同的空间维度，由此得到逐像素分类结果feature10。

所述步骤五中，教师网络具有深层的网络结构，且每层的通道数较大；学生网络具有浅层的网络结构，且每层的通道数较小。

所述步骤六中，边缘信息知识蒸馏损失函数的构建步骤具体如下：

首先，检测教师网络的预测边界点和学生网络的预测边界点；

其次，对于学生网络的预测边界点，以像素点i为中心的3×3区域内的像素点j作为下一候选边界点；其中，与3×3区域内其余像素点相比，像素点j到教师网络的预测边界点的距离最小；

然后，计算学生网络的预测边界点与以像素点i为中心的3×3区域内其余像素点的KL散度；

最后，以候选边界点为真值边界点，利用交叉熵损失函数进行反向传播以增加像素点i和像素点j的类概率之间的KL散度，同时减小像素点i与其余相邻像素点之间的KL散度。

与现有图像语义分割方法相比，本发明所述的一种基于注意力机制和知识蒸馏的图像语义分割方法具备了如下优点：其一，本发明提出的基于空洞卷积的多分支特征提取编码模块，通过避免特征的过度下采样，尽可能地改善了图像细节信息的丢失。此外，通过构建非比例式串行空洞卷积，可以增大感受野以提取丰富的上下文信息，且能够缓解网格效应。其二，本发明提出的多尺度空洞空间金字塔池化模块，通过设计多个尺度的空洞率来获取不同感受野大小的特征信息，有助于提高网络对于不同尺度大小目标的学习能力。其三，本发明提出的嵌入通道注意力的空间注意力机制模块，将自注意力机制分解为列注意力和行注意力，能够有效改善自注意力机制造成的模型参数量大的问题。此外，将通道注意力嵌入到行注意力和列注意力中，能够有效缓解不同维度注意力之间的冲突。其四，本发明提出的自适应多尺度特征融合模块，对每个阶段特征的目标主体和目标边缘进行自适应加权，能够充分利用不同阶段对于不同信息的学习优势。此外，多尺度特征融合的方式能够有效缓解编码模块下采样过程中的信息丢失。其五，本发明提出的边缘信息知识蒸馏损失函数，将教师网络学习到的丰富的边缘信息迁移至学生网络中，可以提高学生网络对于边缘信息的分割准确率，能够提高学生网络的整体分割精度。

本发明有效解决了现有图像语义分割方法难以权衡推理速度与分割精度的问题，适用于实时图像语义分割。

附图说明

图1是本发明的总体示意图。

图2是本发明中多尺度空洞空间金字塔池化模块的示意图。

图3是本发明中嵌入通道注意力的空间注意力机制模块的示意图。

图4是本发明中自适应多尺度特征融合模块的示意图。

图5是本发明中边缘信息知识蒸馏损失函数的示意图。

具体实施方式

然后，基于各阶段特征权重矩阵，对各阶段特征进行加权；

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式作出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：该方法是采用如下步骤实现的：

2.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤一中，基于空洞卷积的多分支特征提取编码模块的构建步骤具体如下：

3.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤二中，多尺度空洞空间金字塔池化模块的构建步骤具体如下：

4.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤三中，嵌入通道注意力的空间注意力机制模块的构建步骤具体如下：

5.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤四中，自适应多尺度特征融合模块的构建步骤具体如下：

然后，基于各阶段特征权重矩阵，对各阶段特征进行加权；

6.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤五中，教师网络具有深层的网络结构，且每层的通道数较大；学生网络具有浅层的网络结构，且每层的通道数较小。

7.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法，其特征在于：所述步骤六中，边缘信息知识蒸馏损失函数的构建步骤具体如下：