CN116703947A - 一种基于注意力机制和知识蒸馏的图像语义分割方法 - Google Patents
一种基于注意力机制和知识蒸馏的图像语义分割方法 Download PDFInfo
- Publication number
- CN116703947A CN116703947A CN202310787383.0A CN202310787383A CN116703947A CN 116703947 A CN116703947 A CN 116703947A CN 202310787383 A CN202310787383 A CN 202310787383A CN 116703947 A CN116703947 A CN 116703947A
- Authority
- CN
- China
- Prior art keywords
- constructing
- attention mechanism
- module
- network
- semantic segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 49
- 230000011218 segmentation Effects 0.000 title claims abstract description 49
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000010276 construction Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 238000012821 model calculation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000004438 eyesight Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及机动车、飞机领域中的计算机视觉技术,具体是一种基于注意力机制和知识蒸馏的图像语义分割方法。本发明解决了现有图像语义分割方法难以权衡推理速度与分割精度的问题。一种基于注意力机制和知识蒸馏的图像语义分割方法,该方法是采用如下步骤实现的:步骤一:构建基于空洞卷积的多分支特征提取编码模块;步骤二:构建多尺度空洞空间金字塔池化模块;步骤三:构建嵌入通道注意力的空间注意力机制模块;步骤四:构建自适应多尺度特征融合模块;步骤五:分别构建教师网络和学生网络;步骤六:构建边缘信息知识蒸馏损失函数;步骤七:引导学生网络进行边缘知识蒸馏训练;步骤八:对学生网络进行评估。本发明适用于实时图像语义分割。
Description
技术领域
本发明涉及机动车、飞机领域中的计算机视觉技术,具体是一种基于注意力机制和知识蒸馏的图像语义分割方法。
背景技术
图像语义分割作为一种像素级的分类任务,能够为场景理解提供细粒度和高层次的语义信息,广泛应用于机动车、飞机等领域的视觉感知与理解任务。为了实现应用场景的有效感知,推理速度、分割精度之间的权衡成为当前图像语义分割任务的重要挑战。
随着人工智能技术的发展,以深度学习为导向的图像语义分割技术逐渐成为当前研究的主流方法。目前,基于深度学习的图像语义分割方法可以分为高精度图像语义分割和轻量级图像语义分割。高精度图像语义分割基于深度卷积神经网络进行构建,能够实现准确率的有效提升,但该类模型的参数量过大,难以实现轻量级设备的部署,导致推理速度较慢;轻量级图像语义分割基于轻量级卷积或模型压缩技术进行构建,能够实现模型参数量的减小,但该类模型容易造成大量的准确率损失,导致分割精度较差。基于此,有必要发明一种基于注意力机制和知识蒸馏的图像语义分割方法,以解决现有图像语义分割方法难以权衡推理速度与分割精度的问题。
发明内容
本发明为了解决现有图像语义分割方法难以权衡推理速度与分割精度的问题,提供了一种基于注意力机制和知识蒸馏的图像语义分割方法。
本发明是采用如下技术方案实现的:
一种基于注意力机制和知识蒸馏的图像语义分割方法,该方法是采用如下步骤实现的:
步骤一:构建基于空洞卷积的多分支特征提取编码模块;将图像输入该模块,生成5个阶段的特征feature1-feature5;
步骤二:构建多尺度空洞空间金字塔池化模块;该模块以特征feature5作为输入,生成特征feature6;
步骤三:构建嵌入通道注意力的空间注意力机制模块;该模块以特征feature3、特征feature4、特征feature6作为输入,生成特征feature7、特征feature8、特征feature9;
步骤四:构建自适应多尺度特征融合模块;该模块以特征feature1、特征feature2、特征feature7、特征feature8、特征feature9作为输入,生成特征feature10;
步骤五:基于步骤一至步骤四中所构建的模块来分别构建教师网络和学生网络;
步骤六:构建边缘信息知识蒸馏损失函数;将教师网络和学生网络输出的特征feature10作为输入,确定学生网络的预测边界点的下一候选边界点,通过增大预测边界点与候选边界点之间的距离来进行边界信息的知识迁移;
步骤七:先利用图像语义分割数据集中的训练集来训练教师网络,再基于教师网络的预训练权重,利用边缘信息知识蒸馏损失函数来引导学生网络进行边缘知识蒸馏训练;
步骤八:利用图像语义分割数据集中的测试集来对学生网络进行评估。
所述步骤一中,基于空洞卷积的多分支特征提取编码模块的构建步骤具体如下:
首先,去除RepVGG的全连接层,基于RepVGG的前5个阶段构建主干网络,表示为stage1-stage5;
其次,分别将stage4和stage5中第一层分支结构的卷积参数stride设置为1;
最后,在stage3-stage5中引入非比例式串行空洞卷积,并将stage3-stage5的空洞率设置为(1, 2, 5)。
所述步骤二中,多尺度空洞空间金字塔池化模块的构建步骤具体如下:
首先,通过构建1×1卷积分支来减小输入特征的通道数,用以降低模型计算复杂度;
其次,在ASPP模块中增加一个并行3×3空洞卷积分支,并将4个并行3×3空洞卷积分支的空洞率设置为(8, 12, 24, 36)。
所述步骤三中,嵌入通道注意力的空间注意力机制模块的构建步骤具体如下:
首先,将基于自注意力机制的空间注意力机制Non-Local分解为行注意力机制和列注意力机制;
其次,分别基于行注意力机制和列注意力机制来计算通道注意力机制,并通过构建1×1卷积、批归一化层、激活函数LeakyReLu来将行注意力和列注意力编码到向量中,然后将该向量输入到包含一个隐藏层的多层感知机,而后设计Sigmoid函数用以生成具有通道和空间注意力权重的行、列矩阵;
最后,将具有通道和空间注意力权重的行、列矩阵进行融合。
所述步骤四中,自适应多尺度特征融合模块的构建步骤具体如下:
首先,对特征feature2进行逐像素分类,并取通道维度概率最高的类别对应的索引,然后通过判断某像素点与其邻域像素分类结果是否相等来判断该像素点是否为目标边缘,由此获得目标边缘矩阵;
其次,通过双线性插值上采样、最大池化下采样的方式来构建各阶段对应的目标主体矩阵和目标边缘矩阵,并通过设置可学习参数来分别对目标主体矩阵和目标边缘矩阵进行加权求和,由此获得各阶段特征权重矩阵;
然后,基于各阶段特征权重矩阵,对各阶段特征进行加权;
然后,对特征feature7、特征feature8、特征feature9构建相同的融合方式,即通过设计1×1卷积来逐阶段降低输出特征的通道数,使之与上一阶段输出特征的通道数相同,通过通道拼接的方式来融合两阶段的高层语义特征;
然后,对融合后的高层语义特征,依次通过双线性插值上采样的方式使之与特征feature1、特征feature2具有相同的分辨率,其余融合策略与特征feature7-feature9的融合策略相同;
最后,基于5个特征的融合结果,通过设计3×3卷积来细化特征,并通过1×1卷积将通道数减小为分割类别数,然后通过双线性插值上采样的方式将特征图恢复到与模型输入相同的空间维度,由此得到逐像素分类结果feature10。
所述步骤五中,教师网络具有深层的网络结构,且每层的通道数较大;学生网络具有浅层的网络结构,且每层的通道数较小。
所述步骤六中,边缘信息知识蒸馏损失函数的构建步骤具体如下:
首先,检测教师网络的预测边界点和学生网络的预测边界点;
其次,对于学生网络的预测边界点,以像素点i为中心的3×3区域内的像素点j作为下一候选边界点;其中,与3×3区域内其余像素点相比,像素点j到教师网络的预测边界点的距离最小;
然后,计算学生网络的预测边界点与以像素点i为中心的3×3区域内其余像素点的KL散度;
最后,以候选边界点为真值边界点,利用交叉熵损失函数进行反向传播以增加像素点i和像素点j的类概率之间的KL散度,同时减小像素点i与其余相邻像素点之间的KL散度。
与现有图像语义分割方法相比,本发明所述的一种基于注意力机制和知识蒸馏的图像语义分割方法具备了如下优点:其一,本发明提出的基于空洞卷积的多分支特征提取编码模块,通过避免特征的过度下采样,尽可能地改善了图像细节信息的丢失。此外,通过构建非比例式串行空洞卷积,可以增大感受野以提取丰富的上下文信息,且能够缓解网格效应。其二,本发明提出的多尺度空洞空间金字塔池化模块,通过设计多个尺度的空洞率来获取不同感受野大小的特征信息,有助于提高网络对于不同尺度大小目标的学习能力。其三,本发明提出的嵌入通道注意力的空间注意力机制模块,将自注意力机制分解为列注意力和行注意力,能够有效改善自注意力机制造成的模型参数量大的问题。此外,将通道注意力嵌入到行注意力和列注意力中,能够有效缓解不同维度注意力之间的冲突。其四,本发明提出的自适应多尺度特征融合模块,对每个阶段特征的目标主体和目标边缘进行自适应加权,能够充分利用不同阶段对于不同信息的学习优势。此外,多尺度特征融合的方式能够有效缓解编码模块下采样过程中的信息丢失。其五,本发明提出的边缘信息知识蒸馏损失函数,将教师网络学习到的丰富的边缘信息迁移至学生网络中,可以提高学生网络对于边缘信息的分割准确率,能够提高学生网络的整体分割精度。
本发明有效解决了现有图像语义分割方法难以权衡推理速度与分割精度的问题,适用于实时图像语义分割。
附图说明
图1是本发明的总体示意图。
图2是本发明中多尺度空洞空间金字塔池化模块的示意图。
图3是本发明中嵌入通道注意力的空间注意力机制模块的示意图。
图4是本发明中自适应多尺度特征融合模块的示意图。
图5是本发明中边缘信息知识蒸馏损失函数的示意图。
具体实施方式
一种基于注意力机制和知识蒸馏的图像语义分割方法,该方法是采用如下步骤实现的:
步骤一:构建基于空洞卷积的多分支特征提取编码模块;将图像输入该模块,生成5个阶段的特征feature1-feature5;
步骤二:构建多尺度空洞空间金字塔池化模块;该模块以特征feature5作为输入,生成特征feature6;
步骤三:构建嵌入通道注意力的空间注意力机制模块;该模块以特征feature3、特征feature4、特征feature6作为输入,生成特征feature7、特征feature8、特征feature9;
步骤四:构建自适应多尺度特征融合模块;该模块以特征feature1、特征feature2、特征feature7、特征feature8、特征feature9作为输入,生成特征feature10;
步骤五:基于步骤一至步骤四中所构建的模块来分别构建教师网络和学生网络;
步骤六:构建边缘信息知识蒸馏损失函数;将教师网络和学生网络输出的特征feature10作为输入,确定学生网络的预测边界点的下一候选边界点,通过增大预测边界点与候选边界点之间的距离来进行边界信息的知识迁移;
步骤七:先利用图像语义分割数据集中的训练集来训练教师网络,再基于教师网络的预训练权重,利用边缘信息知识蒸馏损失函数来引导学生网络进行边缘知识蒸馏训练;
步骤八:利用图像语义分割数据集中的测试集来对学生网络进行评估。
所述步骤一中,基于空洞卷积的多分支特征提取编码模块的构建步骤具体如下:
首先,去除RepVGG的全连接层,基于RepVGG的前5个阶段构建主干网络,表示为stage1-stage5;
其次,分别将stage4和stage5中第一层分支结构的卷积参数stride设置为1;
最后,在stage3-stage5中引入非比例式串行空洞卷积,并将stage3-stage5的空洞率设置为(1, 2, 5)。
所述步骤二中,多尺度空洞空间金字塔池化模块的构建步骤具体如下:
首先,通过构建1×1卷积分支来减小输入特征的通道数,用以降低模型计算复杂度;
其次,在ASPP模块中增加一个并行3×3空洞卷积分支,并将4个并行3×3空洞卷积分支的空洞率设置为(8, 12, 24, 36)。
所述步骤三中,嵌入通道注意力的空间注意力机制模块的构建步骤具体如下:
首先,将基于自注意力机制的空间注意力机制Non-Local分解为行注意力机制和列注意力机制;
其次,分别基于行注意力机制和列注意力机制来计算通道注意力机制,并通过构建1×1卷积、批归一化层、激活函数LeakyReLu来将行注意力和列注意力编码到向量中,然后将该向量输入到包含一个隐藏层的多层感知机,而后设计Sigmoid函数用以生成具有通道和空间注意力权重的行、列矩阵;
最后,将具有通道和空间注意力权重的行、列矩阵进行融合。
所述步骤四中,自适应多尺度特征融合模块的构建步骤具体如下:
首先,对特征feature2进行逐像素分类,并取通道维度概率最高的类别对应的索引,然后通过判断某像素点与其邻域像素分类结果是否相等来判断该像素点是否为目标边缘,由此获得目标边缘矩阵;
其次,通过双线性插值上采样、最大池化下采样的方式来构建各阶段对应的目标主体矩阵和目标边缘矩阵,并通过设置可学习参数来分别对目标主体矩阵和目标边缘矩阵进行加权求和,由此获得各阶段特征权重矩阵;
然后,基于各阶段特征权重矩阵,对各阶段特征进行加权;
然后,对特征feature7、特征feature8、特征feature9构建相同的融合方式,即通过设计1×1卷积来逐阶段降低输出特征的通道数,使之与上一阶段输出特征的通道数相同,通过通道拼接的方式来融合两阶段的高层语义特征;
然后,对融合后的高层语义特征,依次通过双线性插值上采样的方式使之与特征feature1、特征feature2具有相同的分辨率,其余融合策略与特征feature7-feature9的融合策略相同;
最后,基于5个特征的融合结果,通过设计3×3卷积来细化特征,并通过1×1卷积将通道数减小为分割类别数,然后通过双线性插值上采样的方式将特征图恢复到与模型输入相同的空间维度,由此得到逐像素分类结果feature10。
所述步骤五中,教师网络具有深层的网络结构,且每层的通道数较大;学生网络具有浅层的网络结构,且每层的通道数较小。
所述步骤六中,边缘信息知识蒸馏损失函数的构建步骤具体如下:
首先,检测教师网络的预测边界点和学生网络的预测边界点;
其次,对于学生网络的预测边界点,以像素点i为中心的3×3区域内的像素点j作为下一候选边界点;其中,与3×3区域内其余像素点相比,像素点j到教师网络的预测边界点的距离最小;
然后,计算学生网络的预测边界点与以像素点i为中心的3×3区域内其余像素点的KL散度;
最后,以候选边界点为真值边界点,利用交叉熵损失函数进行反向传播以增加像素点i和像素点j的类概率之间的KL散度,同时减小像素点i与其余相邻像素点之间的KL散度。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式作出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (7)
1.一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:该方法是采用如下步骤实现的:
步骤一:构建基于空洞卷积的多分支特征提取编码模块;将图像输入该模块,生成5个阶段的特征feature1-feature5;
步骤二:构建多尺度空洞空间金字塔池化模块;该模块以特征feature5作为输入,生成特征feature6;
步骤三:构建嵌入通道注意力的空间注意力机制模块;该模块以特征feature3、特征feature4、特征feature6作为输入,生成特征feature7、特征feature8、特征feature9;
步骤四:构建自适应多尺度特征融合模块;该模块以特征feature1、特征feature2、特征feature7、特征feature8、特征feature9作为输入,生成特征feature10;
步骤五:基于步骤一至步骤四中所构建的模块来分别构建教师网络和学生网络;
步骤六:构建边缘信息知识蒸馏损失函数;将教师网络和学生网络输出的特征feature10作为输入,确定学生网络的预测边界点的下一候选边界点,通过增大预测边界点与候选边界点之间的距离来进行边界信息的知识迁移;
步骤七:先利用图像语义分割数据集中的训练集来训练教师网络,再基于教师网络的预训练权重,利用边缘信息知识蒸馏损失函数来引导学生网络进行边缘知识蒸馏训练;
步骤八:利用图像语义分割数据集中的测试集来对学生网络进行评估。
2.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤一中,基于空洞卷积的多分支特征提取编码模块的构建步骤具体如下:
首先,去除RepVGG的全连接层,基于RepVGG的前5个阶段构建主干网络,表示为stage1-stage5;
其次,分别将stage4和stage5中第一层分支结构的卷积参数stride设置为1;
最后,在stage3-stage5中引入非比例式串行空洞卷积,并将stage3-stage5的空洞率设置为(1, 2, 5)。
3.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤二中,多尺度空洞空间金字塔池化模块的构建步骤具体如下:
首先,通过构建1×1卷积分支来减小输入特征的通道数,用以降低模型计算复杂度;
其次,在ASPP模块中增加一个并行3×3空洞卷积分支,并将4个并行3×3空洞卷积分支的空洞率设置为(8, 12, 24, 36)。
4.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤三中,嵌入通道注意力的空间注意力机制模块的构建步骤具体如下:
首先,将基于自注意力机制的空间注意力机制Non-Local分解为行注意力机制和列注意力机制;
其次,分别基于行注意力机制和列注意力机制来计算通道注意力机制,并通过构建1×1卷积、批归一化层、激活函数LeakyReLu来将行注意力和列注意力编码到向量中,然后将该向量输入到包含一个隐藏层的多层感知机,而后设计Sigmoid函数用以生成具有通道和空间注意力权重的行、列矩阵;
最后,将具有通道和空间注意力权重的行、列矩阵进行融合。
5.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤四中,自适应多尺度特征融合模块的构建步骤具体如下:
首先,对特征feature2进行逐像素分类,并取通道维度概率最高的类别对应的索引,然后通过判断某像素点与其邻域像素分类结果是否相等来判断该像素点是否为目标边缘,由此获得目标边缘矩阵;
其次,通过双线性插值上采样、最大池化下采样的方式来构建各阶段对应的目标主体矩阵和目标边缘矩阵,并通过设置可学习参数来分别对目标主体矩阵和目标边缘矩阵进行加权求和,由此获得各阶段特征权重矩阵;
然后,基于各阶段特征权重矩阵,对各阶段特征进行加权;
然后,对特征feature7、特征feature8、特征feature9构建相同的融合方式,即通过设计1×1卷积来逐阶段降低输出特征的通道数,使之与上一阶段输出特征的通道数相同,通过通道拼接的方式来融合两阶段的高层语义特征;
然后,对融合后的高层语义特征,依次通过双线性插值上采样的方式使之与特征feature1、特征feature2具有相同的分辨率,其余融合策略与特征feature7-feature9的融合策略相同;
最后,基于5个特征的融合结果,通过设计3×3卷积来细化特征,并通过1×1卷积将通道数减小为分割类别数,然后通过双线性插值上采样的方式将特征图恢复到与模型输入相同的空间维度,由此得到逐像素分类结果feature10。
6.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤五中,教师网络具有深层的网络结构,且每层的通道数较大;学生网络具有浅层的网络结构,且每层的通道数较小。
7.根据权利要求1所述的一种基于注意力机制和知识蒸馏的图像语义分割方法,其特征在于:所述步骤六中,边缘信息知识蒸馏损失函数的构建步骤具体如下:
首先,检测教师网络的预测边界点和学生网络的预测边界点;
其次,对于学生网络的预测边界点,以像素点i为中心的3×3区域内的像素点j作为下一候选边界点;其中,与3×3区域内其余像素点相比,像素点j到教师网络的预测边界点的距离最小;
然后,计算学生网络的预测边界点与以像素点i为中心的3×3区域内其余像素点的KL散度;
最后,以候选边界点为真值边界点,利用交叉熵损失函数进行反向传播以增加像素点i和像素点j的类概率之间的KL散度,同时减小像素点i与其余相邻像素点之间的KL散度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310787383.0A CN116703947A (zh) | 2023-06-30 | 2023-06-30 | 一种基于注意力机制和知识蒸馏的图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310787383.0A CN116703947A (zh) | 2023-06-30 | 2023-06-30 | 一种基于注意力机制和知识蒸馏的图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116703947A true CN116703947A (zh) | 2023-09-05 |
Family
ID=87841014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310787383.0A Pending CN116703947A (zh) | 2023-06-30 | 2023-06-30 | 一种基于注意力机制和知识蒸馏的图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116703947A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456480A (zh) * | 2023-12-21 | 2024-01-26 | 华侨大学 | 一种基于多源信息融合的轻量化车辆再辨识方法 |
CN117636403A (zh) * | 2024-01-26 | 2024-03-01 | 江苏源驶科技有限公司 | 一种基于知识蒸馏的人体姿态估计方法及系统 |
CN118154607A (zh) * | 2024-05-11 | 2024-06-07 | 湖南大学 | 一种基于混合多尺度知识蒸馏的轻量化缺陷检测方法 |
CN118690831A (zh) * | 2024-08-26 | 2024-09-24 | 国能大渡河大数据服务有限公司 | 基于阶段训练和注意力融合的多出口架构自蒸馏方法 |
-
2023
- 2023-06-30 CN CN202310787383.0A patent/CN116703947A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117456480A (zh) * | 2023-12-21 | 2024-01-26 | 华侨大学 | 一种基于多源信息融合的轻量化车辆再辨识方法 |
CN117456480B (zh) * | 2023-12-21 | 2024-03-29 | 华侨大学 | 一种基于多源信息融合的轻量化车辆再辨识方法 |
CN117636403A (zh) * | 2024-01-26 | 2024-03-01 | 江苏源驶科技有限公司 | 一种基于知识蒸馏的人体姿态估计方法及系统 |
CN117636403B (zh) * | 2024-01-26 | 2024-04-05 | 江苏源驶科技有限公司 | 一种基于知识蒸馏的人体姿态估计方法及系统 |
CN118154607A (zh) * | 2024-05-11 | 2024-06-07 | 湖南大学 | 一种基于混合多尺度知识蒸馏的轻量化缺陷检测方法 |
CN118690831A (zh) * | 2024-08-26 | 2024-09-24 | 国能大渡河大数据服务有限公司 | 基于阶段训练和注意力融合的多出口架构自蒸馏方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991354B (zh) | 一种基于深度学习的高分辨率遥感影像语义分割方法 | |
CN116703947A (zh) | 一种基于注意力机制和知识蒸馏的图像语义分割方法 | |
CN113033570B (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN113221969A (zh) | 一种基于物联网感知的双特征融合的语义分割系统及方法 | |
CN111626355A (zh) | 一种基于Unet++卷积神经网络的地震数据初至拾取方法 | |
CN113870335B (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN112307982B (zh) | 基于交错增强注意力网络的人体行为识别方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN114019467B (zh) | 一种基于MobileNet模型迁移学习的雷达信号识别与定位方法 | |
CN114283120B (zh) | 一种基于领域自适应的端到端多源异质遥感影像变化检测方法 | |
CN110738663A (zh) | 双域适应模块金字塔型网络及无监督域适应图像分割方法 | |
CN113674288A (zh) | 一种非小细胞肺癌数字病理图像组织自动分割方法 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN115294337B (zh) | 训练语义分割模型的方法、图像语义分割方法及相关装置 | |
CN114926636A (zh) | 一种点云语义分割方法、装置、设备及存储介质 | |
CN114638408A (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN113658189A (zh) | 一种跨尺度特征融合的实时语义分割方法和系统 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN110728186A (zh) | 一种基于多网融合的火灾检测方法 | |
CN114170519A (zh) | 基于深度学习与多维注意力的高分辨率遥感道路提取方法 | |
CN116704196B (zh) | 一种训练图像语义分割模型的方法 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
WO2023249821A1 (en) | Adapters for quantization | |
CN116311349A (zh) | 一种基于轻量神经网络的人体关键点检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |