CN116030257B

CN116030257B - 一种基于NesT模型的语义分割方法

Info

Publication number: CN116030257B
Application number: CN202310168857.3A
Authority: CN
Inventors: 任鑫; 周祥; 李俊; 朱必亮; 郝本明; 周雄
Original assignee: Speed China Technology Co Ltd
Current assignee: Speed China Technology Co Ltd
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-08-15
Anticipated expiration: 2043-02-27
Also published as: CN116030257A

Abstract

本发明公开了一种基于NesT模型的语义分割方法，包括步骤：S1选取和训练教师teacher模型：选取教师模型，并进行训练，完成教师模型的训练；S2设计和训练学生student模型：采用知识蒸馏方法使用教师模型引导训练学生模型，提高学生模型的泛化性能；S3利用学生模型进行分割处理：输入待分割的图像，经过学生模型进行图像分割得到输出，并构建损失函数，从而实现语义分割。将NesT模型作为高级特征编码器，进行图像特征的压缩编码，经过上采样解码映射操作后，实现图像分割，提高分割的准确性。

Description

一种基于NesT模型的语义分割方法

技术领域

本发明涉及图像分割领域，具体涉及一种基于NesT模型的语义分割方法。

背景技术

人们普遍认为，成功地训练一个深层网络往往需要大量的数据支撑，这样得到的模型精度等指标才符合实际生活的要求。而在现实生活中，往往有些任务无法获得大规模的训练样本，例如医学领域。这致使很多基于深度学习的方法在工程应用时，受到约束。

与之前的基于卷积神经网络CNN的方法不同，Transformer不仅在建模全局上下文方面很强大，而且在大规模的预训练下，对下游任务也表现出优越的可移植性。在机器翻译和自然语言处理(NLP)领域取得了广泛的成功。基于Vision Transformer (ViT)的方法由于其在许多核心视觉应用上的优越性能而受到了广泛关注。最近的工作表明，当在包含数千万或数亿标记数据的数据集上进行训练时，ViT模型可以比目前最先进的卷积网络获得更好的精度。然而，在小数据集上训练时，ViT的表现通常不如卷积网络。

NesT是一款模拟脉冲神经网络的框架，提供接口包括各类神经元模型、网络连接模型、以及监控设备模型等。NesT在最初的ViT模型上做了少量的更改，通过简单地堆叠基本的Transformer，以单独处理不重叠的图像块，通过对不重叠的图像块进行局部Transformer 操作，并通过提出的块聚合函数将覆盖Transformer层的图像块拼接，由上下层间的块拼接实现相邻块之间的信息交互。NesT收敛速度快，且只需较少的训练数据即可获得较好的泛化效果。

知识蒸馏（Knowledge Distillation，KD）是一种新的训练范式。通过知识蒸馏策略，可以将复杂模型的优异性能“迁移”到小规模的模型中，进而提高小规模模型的性能。经过蒸馏学习的网络模型，其对进行训练所需的数据集规模可以比复杂模型小的多。

针对现有的基于Transformer系列的模型，在实际应用中，通常需要较大的数据集进行训练才能取得较好的效果，因此，有必要开发一种基于NesT模型的语义分割方法。

发明内容

本发明要解决的技术问题是提供一种基于NesT模型的语义分割方法，将NesT模型作为特征编码器，结合KD训练方式，实现小数据集的图像分割任务。

为了解决上述技术问题，本发明采用的技术方案是：基于NesT模型的语义分割方法，具体包括以下步骤：

S1选取和训练教师teacher模型：选取教师模型，并进行训练，完成教师模型的训练；

S2设计和训练学生student模型：采用知识蒸馏方法使用教师模型引导训练学生模型，提高学生模型的泛化性能；

S3利用学生模型进行分割处理：输入待分割的图像，经过学生模型进行图像分割得到输出，并构建损失函数，从而实现语义分割。

采用上述技术方案，采用NesT模型作为特征编码器，结合知识蒸馏（KnowledgeDistillation，KD）的训练方式，实现图像的语义分割任务，尤其涉及小样本集的分割训练。其中采用NesT模型作为语义分割任务中的高级特征编码器，实现小样本集的分割任务；采用KD训练方式进行模型训练，提高了模型的性能。其中NesT模型源于论文Zhang Z, ZhangH, Zhao L, et al. Aggregating nested transformers[J]. arXiv preprint arXiv:2105.12723, 2021；ViT模型源于论文A. Dosovitskiy, L. Beyer, A. Kolesnikov, D.Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold,S. Gelly, et al. An image is worth 16x16 words: Transformers for imagerecognition at scale. ICLR, 2021。

优选地，所述步骤S3在利用学生模型进行分割处理时，学生模型完成训练后，将归一化指数函数softmax的温度参数E恢复到1，输入待分割图像，进行图像分割。

优选地，所述步骤S1中的选用resnet-101为教师模型，输入训练样本后，采用卷积神经网络模型训练流程进行模型训练，完成教师模型训练。

优选地，所述步骤S2设计并训练学生模型的具体步骤为：

S21：将温度参数E引入教师模型中，得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”，用来辅助原始数据标签ground truth训练学生模型；在输出数据进入softmax层之前，引入温度参数E，经过softmax层后，得到输出类别的概率：

；

其中，q _i是在温度参数E下教师模型的softmax输出在第i类上的值， exp为指数函数，z _i是教师模型进入softmax层之前的输出概率，N是总类别数量；其中E是温度参数；其中当温度参数E=1时，即为标准的softmax公式，输出概率为输出各个类别的概率；当温度参数E越接近于0时，则输出概率最大值会越近1，相应的，其它值会越接近0；E越大，则输出的结果的分布越平缓；

S22：引导并训练基于NesT的分割模型即学生模型；

S23：学生模型反向传播，更新参数；计算损失函数，梯度下降，更新参数，直到完成训练。

优选地，所述步骤S22引导并训练基于NesT的分割模型的具体步骤为：

S221：输入图像数据，即给定一帧输入图像，图像的形状大小为H×W×3，将每个大小为S×S的图像线性映射到词向量空间R ^d，d是映射的词向量空间维度；然后对所有的词向量进行分块和展开，生成输入，其中，b是批量大小，T _n是NesT结构最底部的块数，n是每个图像块里的序列长度，公式为：/>；

S222：NesT的每个块采用标准Transformer层独立的处理信息，在每个图像块内，多个Transformer层被堆叠在一起，每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成，将可训练的位置嵌入向量添加到R ^d中的所有序列向量中，对空间信息进行编码，然后输入块函数：

；

其中，multiple指多个Transformer层，MSA _Nest指多头注意力机制模块，x是输入序列，x’=LN(x)是经过层归一化映射处理的序列，y是残差输出；

给定输入，由于NesT层次结构中的所有块都共享参数，因此，利用MSA _Nest对所有块并行应用多头自注意力机制MSA层，上述公式则转换成并行形式，如下式所示：

；

其中，MSA _Nest(Q,K,V)是同层结构中多注意力机制的总输出，Stack()是堆叠函数，block是图像序列块，且，其中，W ^O是Transformer矩阵，block _i的尺寸为b×n×d；

S223：在图像层面执行块集成，以促进近邻块的信息交互；将l层的输出，转换全图像平面/>，其中，H’是转换后的图像平面的高，W’是转换后的图像平面的宽，d’是转换后的图像平面的维度，再在采样特征上进行空域操作；

S224：将空域操作后的特征转换为；判断l+1是否为总的结构层数；若是，则输出X _l+1，否则继续执行步骤S223；

S225：将特征编码进行上采样解码，从而完成学生模型的设计和训练。

优选地，在所述步骤S225中所述上采样解码包括1个2×2卷积，2个3×3卷积，最后一层是1个1×1卷积；最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。

优选地，所述步骤S3的具体步骤为：

S31：输入图像，在温度参数E下，由教师模型作softmax计算之后，得到预测类别概率；

S32：再在相同温度参数E下，经过学生模型得到输出；

S33：构建损失函数，一方面与教师模型预测类别概率soft target做交叉熵运算，得到第一部分损失函数；另一方面，与原始数据标签ground truth进行交叉熵运算，得到第二部分损失函数；再将第一部分损失函数和第二部分损失函数相加，得到总的损失函数，实现语义分割。

优选地，所述步骤S32具体为：

S321：输入待分割的图像，将图像进行投影和分块，生成输入序列；

S322：对输入块采用标准Transformer层独立的处理信息后，进行块集成操作，增加全局交流，循环块集成操作，输出最终特征编码；在特征编码进行上采样解码；

S323：在输出进入softmax层之前，将温度参数E引入学生模型中，得到学生模型的softmax层输出；

；

其中，p _i是在温度参数E下学生模型的softmax输出在第i类上的值，exp为指数函数，v _i是进入softmax层之前学生模型的输出概率。

优选地，所述步骤S33构建损失函数具体为：将q与p进行交叉熵运算，记为L _soft，

；

当学生模型在温度参数E=1时，得到的softmax输出和训练样本的原始数据标签做交叉熵运算，得到损失L _hard，

；

其中，c _j是第j类上的原始数据标签的值，正标签取1，负标签取0；可得损失函数L：

L=αL _soft +βL _hard；

其中，α、β为权重值，且α+β=1。

优选地，在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积，获得层归一化和一个3×3最大池化。

与现有技术相比，本发明具有的有益效果为：NesT模型在层次结构上对ViT模型进行了改进，在具有ViT优点的同时，使其更加适用于小样本的模型训练，本发明中将NesT模型作为高级特征编码器，进行图像特征的压缩编码，经过上采样解码映射操作后，实现图像分割；为了提高模型的性能，采用知识蒸馏方法KD作为模型的训练方式，选用一个成熟的复杂网络模型对基于Nest的分割模型进行引导训练，使其学习复杂网络学习方式，增强模型的泛化能力；本发明针对那些所能获取的数据不足，或数据有效利用不够的学习任务中，可以获得较好的效果。

附图说明

图1 是本发明基于NesT模型的语义分割方法的流程图；

图2是本发明基于NesT模型的语义分割方法的模型训练流程图。

具体实施方式

下面将结合本发明的实施例图中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。

实施例：如图1所示，该基于NesT模型的语义分割方法，具体包括以下步骤：

S1选取和训练教师teacher模型：选取教师模型，并进行训练，完成教师模型的训练；所述步骤S1中的选用resnet-101为教师模型，输入训练样本后，采用卷积神经网络CNN模型训练流程进行模型训练，完成教师模型训练；

所述步骤S2设计并训练学生模型的具体步骤为：

S21：将温度参数E引入教师r模型中，得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”，用来辅助原始数据标签ground truth训练学生模型；在输出数据进入softmax层之前，引入温度参数E，经过softmax层后，得到输出类别的概率：

；

其中，q _i是在温度参数E下教师模型的softmax输出在第i类上的值， exp为指数函数，z _i是教师模型进入softmax层之前的输出概率，N是总类别数量；E是温度参数；当温度参数E=1时，即为标准的softmax公式，输出概率logit为输出各个类别的概率；当温度参数E越接近于0时，则输出概率最大值会越近1，相应的，其它值会越接近0；E越大，则输出的结果的分布越平缓；

S22：引导并训练基于NesT的分割模型即学生student模型；

如图2所示，所述步骤S22引导并训练基于NesT的分割模型的具体步骤为：

；

S225：将特征编码进行上采样解码，从而完成学生模型的设计和训练；在所述步骤S225中所述上采样解码包括1个2×2卷积，2个3×3卷积，最后一层是1个1×1卷积；最后一层的1×1卷积将每个64分量特征向量映射到所需的类数；

S23：学生模型反向传播，更新参数；计算损失函数，梯度下降，更新参数，直到完成训练；

S3利用学生模型进行分割处理：输入待分割的图像，经过学生模型进行图像分割得到输出，并构建损失函数，从而实现语义分割；所述步骤S3在利用学生模型进行分割处理时，学生模型完成训练后，将归一化指数函数softmax的温度参数E恢复到1，输入待分割图像，进行图像分割；

所述步骤S3的具体步骤为：

S32：再在相同温度参数E下，经过学生模型得到输出；

所述步骤S32具体为：

S322：对输入块采用标准Transformer层独立的处理信息后，进行块集成操作，增加全局交流，循环块集成操作，输出最终特征编码；在特征编码进行上采样解码；在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积，获得层归一化和一个3×3最大池化；

；

其中，p _i是在温度参数E下学生模型的softmax输出在第i类上的值，exp为指数函数，v _i是进入softmax层之前学生模型的输出概率；

S33：构建损失函数，一方面与教师模型预测类别概率soft target做交叉熵运算，得到第一部分损失函数；另一方面，与原始数据标签ground truth进行交叉熵运算，得到第二部分损失函数；再将第一部分损失函数和第二部分损失函数相加，得到总的损失函数，实现语义分割；

所述步骤S33构建损失函数具体为：将q与p进行交叉熵运算，记为L _soft，

；

L=αL _soft +βL _hard；

其中，α、β为权重值，且α+β=1。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于NesT模型的语义分割方法，其特征在于，具体包括以下步骤：

S3利用学生模型进行分割处理：输入待分割的图像，经过学生模型进行图像分割得到输出，并构建损失函数，从而实现语义分割；

所述步骤S1中的选用resnet-101为教师模型，输入训练样本后，采用卷积神经网络CNN模型训练流程进行模型训练，完成教师模型训练；

所述步骤S2设计和训练学生模型的具体步骤为：

S21：将温度参数E引入教师模型中，得到教师模型的归一化指数函数softmax层输出类别的概率定义为“soft target”，用来辅助原始数据标签ground truth训练学生模型；即在输出数据进入softmax层之前，引入温度参数E，经过softmax层后，得到输出类别的概率：

其中，q_i是在温度参数E下教师模型的softmax输出在第i类上的值，exp为指数函数，z_i是教师模型进入softmax层之前的输出概率，N是总类别数量；其中

E是温度参数；

S22：引导并训练基于NesT的分割模型即学生模型；

所述步骤S22引导并训练基于NesT的分割模型的具体步骤为：

S221：输入图像数据，即给定一帧输入图像，图像的形状大小为H×W×3，将每个大小为S×S的图像线性映射到词向量空间R^d，d是映射的词向量空间维度；然后对所有的词向量进行分块和展开，生成输入X∈R^b×Tn×n×d，其中，b是批量大小，T_n是NesT结构最底部的块数，n是每个图像块里的序列长度，公式为：

S222：NesT的每个块采用标准Transformer层独立的处理信息，在每个图像块内，多个Transformer层被堆叠在一起，每个Transformer层由一个多头自注意力机制MSA层后接一个具有跳转连接和归一化层的前馈全连接网络组成，将可训练的位置嵌入向量添加到R^d中的所有序列向量中，对空间信息进行编码，然后输入块函数：

其中，multiple指多个Transformer层，MSA_Nest指多头注意力机制模块，x是输入序列，x’＝LN(x)是经过层归一化映射处理的序列，y是残差输出；给定输入X∈R^b×Tn×n×d，由于NesT层次结构中的所有块都共享参数，因此，利用MSA_Nest是对所有块并行应用MSA层，上述公式则转换成并行形式，如下式所示：

其中，MSA_Nest(Q,K,V)是同层结构中多注意力机制的总输出，Stack()是堆叠函数，block是图像序列块且block_i＝MSA_Nest(Q,K,V)W^O，W^O是Transformer矩阵，block_i的尺寸为b×n×d；

S223：在图像层面执行块集成，以促进近邻块的信息交互；将l层的输出X_l∈R^b ^{×block×n×d}，转换全图像平面A_l∈R^{b×H’×W‘×d’}，其中，H’是转换后的图像平面的高，W’是转换后的图像平面的宽，d’是转换后的图像平面的维度，在采样特征A_l’∈R^{b×H’/2×W‘/2×d}上进行空域操作；

S224：将空域操作后的特征转换为X_l+1∈R^{b×block/4×n×d}；判断l+1是否为总的结构层数；若是，则输出X_l+1，否则继续执行步骤S223；

2.根据权利要求1所述的基于NesT模型的语义分割方法，其特征在于，所述步骤S3在利用学生模型进行分割处理时，学生模型完成训练后，将归一化指数函数softmax的温度参数E恢复到1，输入待分割图像，进行图像分割。

3.根据权利要求1所述的基于NesT模型的语义分割方法，其特征在于，在所述步骤S225中所述上采样解码包括1个2×2卷积，2个3×3卷积，最后一层是1个1×1卷积；最后一层的1×1卷积将每个64分量特征向量映射到所需的类数。

4.根据权利要求1所述的基于NesT模型的语义分割方法，其特征在于，所述步骤S3的具体步骤为：

S32：再在相同温度参数E下，经过学生模型得到输出；

5.根据权利要求4所述的基于NesT模型的语义分割方法，其特征在于，所述步骤S32具体为：

其中，p_i是在温度参数E下学生模型的softmax输出在第i类上的值，exp为指数函数，v_i是进入softmax层之前学生模型的输出概率。

6.根据权利要求5所述的基于NesT模型的语义分割方法，其特征在于，所述步骤S33构建损失函数具体为：将q与p进行交叉熵运算，记为L_soft，

当学生模型在温度参数E＝1时，得到的softmax输出和训练样本的原始数据标签做交叉熵运算，得到损失L_hard；

其中，c_j是第j类上的原始数据标签的值，正标签取1，负标签取0；可得损失函数L：

L＝αL_soft+βL_hard；

其中，α、β为权重值，且α+β＝1。

7.根据权利要求5所述的基于NesT模型的语义分割方法，其特征在于，在所述步骤S322中的块集成具体为将处理后的输入块实例化为一个3×3卷积，获得层归一化和一个3×3最大池化。