CN116958548A

CN116958548A - 基于类别统计驱动的伪标签自蒸馏语义分割方法

Info

Publication number: CN116958548A
Application number: CN202310902217.0A
Authority: CN
Inventors: 王军; 王江玉; 申政文; 李玉莲
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-27
Anticipated expiration: 2043-07-21
Also published as: CN116958548B

Abstract

本发明公开了一种基于类别统计驱动的伪标签自蒸馏语义分割方法，属于计算机图像处理技术，在训练过程中对教师模型语义类别概率信息进行统计，并根据概率分布特性将类别标签进行平滑处理，将平滑标签与教师模型输出语义类别概率信息的加权均值作为学生模型的监督信息，有效地提升了类别统计驱动下的伪标签自蒸馏语义分割的效果。本发明公开的基于类别统计驱动的伪标签自蒸馏语义分割方法，将经过平滑处理的标签与教师模型输出语义类别概率信息加权均值作为学生模型的监督信息，改善了在训练过程中标签硬化难以拟合以及人为平滑操作引入标签噪声的问题，解决了蒸馏过程中因教师模型类别预测错误导致学生网络知识学习受到噪声标签影响的问题。

Description

基于类别统计驱动的伪标签自蒸馏语义分割方法

技术领域

本发明属于计算机图像处理技术，尤其涉及一种基于类别统计驱动的伪标签自蒸馏语义分割方法。

背景技术

在基于有监督学习的语义分割任务中，通常会将每个训练样本的标签设置为一个One-hot编码，即正确标签设置为1，其他设置为0。虽然这种方式使得模型在训练过程中能够根据权重大小硬性的去评判正确的类别，但也可能会导致模型在训练的时候出现过拟合现象。而另外一些研究为解决以上问题，在One-hot编码的基础上采用标签平滑的方法构建了语义分割模型训练方法，即将正确答案的标签位置设置为一个比1略小的数，其他位置则平均分配较小的权重，这样可以降低模型对正确答案预测的盲目自信，从而减轻过拟合现象，但同时引入了过多的噪声污染现象。

目前，在深度学习中，随着网络层数深度与复杂度的增加，模型参数量增大的同时容易产生过拟合现象，尤其是当训练数据有限时。随着知识蒸馏方法的提出，可以通过在教师-学生模型之间传递知识以减少模型的复杂度，避免出现过拟合现象。在这个过程中，教师模型的输出被视为一组概率分布引导的软标签，而不是0和1的二元向量，学生模型学习的目标是减少教师模型输出的软标签与学生模型输出之间的距离。虽然学生模型可以学习到更加平滑的决策边界以避免过拟合，但经过预训练的教师网络难以获得平滑的决策边界，而自蒸馏训练方法可以有效地解决这个问题。自蒸馏具备蒸馏的效果，同时不需要较大的教师模型，但仍然存在教师模型输出错误，导致学生模型学习错误知识的问题。

发明内容

本发明的目的在于提供一种基于类别统计驱动的伪标签自蒸馏语义分割方法，能够有效提升模型训练后识别精度，改善模型泛化能力。

实现本发明目的的技术解决方案为：一种基于自蒸馏语义分割模型训练方法，包括以下步骤：

步骤1、选择Cityscapes数据集中的N幅图像，1000<N<10000，进行归一化处理，将图像尺寸统一为H×W×C，以此作为训练样本集D_T，训练样本的类别数目为N_c，H表示图像高度，W表示图像宽度，C表示图像通道数，转入步骤2。

步骤2、采用有监督训练，以交叉熵为损失函数对图像语义分割模型进行训练，训练后的模型称之为教师模型，用教师模型对训练样本集D_T进行预测，统计教师模型的预测结果得到所有类别的统计概率分布，转入步骤3。

步骤3、利用步骤2中得到的每个类别的概率分布对训练样本集D_T中的原始标签进行软化，软化标签与对应的教师模型预测结果加权平均得到学生模型的训练标签，转入步骤4。

步骤4、利用步骤3中获取的学生模型的训练标签对学生模型进行监督训练，学生模型损失函数采用余弦相似度函数，转入步骤5。

步骤5、选择Cityscapes数据集中的其他M幅图像，100<M<1000，通过归一化处理，将图像分辨率统一为H×W×C，构成测试样本集D_S，转入步骤6。

步骤6、将测试样本集D_S中的图像输入学生模型，输出语义分割图。

本发明与现有技术相比，其显著优点在于：

(1)软化标签包含隐藏知识，相比于原始标签更有利于模型学习，提升模型预测精度。

(2)蒸馏过程中教师模型的预测结果与软化标签加权平均后保证每个像素标签的准确性，解决因教师模型预测结果错误导致学生模型学习错误知识的问题。

附图说明

图1为本发明所述的基于类别统计驱动的伪标签自蒸馏语义分割方法流程图。

图2为非蒸馏的常规训练方法、CIRKD方法以及本发明的方法实验对比结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步的详细描述。

结合图1，一种基于类别统计驱动的伪标签自蒸馏语义分割方法，步骤如下：

步骤1、选择Cityscapes数据集中的N幅图像作为训练图像，1000<N<10000，通过归一化处理将训练图像尺寸统一为H×W×C，得到训练样本图像，并构建训练样本集D_T，训练样本集D_T中训练样本的类别数目为N_c，H表示训练样本图像高度，W表示训练样本图像宽度，C表示训练样本图像通道数，转入步骤2。

步骤2、采用有监督训练，以交叉熵为损失函数对图像语义分割模型进行训练，训练后得到教师模型，利用教师模型对训练样本集D_T进行预测，统计教师模型的预测结果得到所有类别的统计概率分布，具体如下：

采用有监督训练，以交叉熵为损失函数对图像语义分割模型进行训练，训练后的模型称之为教师模型，用教师模型对训练样本集D_T进行预测，教师模型的预测结果为训练样本集D_T中的原始标签为L∈R^H×W，根据原始标签确定教师模型预测正确的像素点，计算单一图像中同一类别的预测正确像素的概率分布均值/>i∈{1,2,3,…,N_c}，计算方式如下：

式中，[]为艾佛森括号，满足括号内的条件则值为1，不满足条件则值为0。之后采用指数移动平均的方法计算出训练样本集中某一类别的概率分布教师模型预测一次，P_i更新一次，直至迭代完训练样本集中所有图像，迭代公式如下：

式中β为比例因子，设置为1-1/N，为上一次迭代的结果，初始值为第i类的独热码。创新性地采用统计方法获取教师模型对训练样本集D_T中所有类别像素的统计概率分布转入步骤3。

步骤3、利用步骤2中得到的每个类别的概率分布对训练样本集D_T中的原始标签分别进行软化，得到对应的软化标签，利用软化标签与对应的教师模型预测结果加权平均得到学生模型的训练标签，具体如下：

根据原始标签L可知，根据原始标签L得知每幅训练样本图像中第h行w列像素的类别L_h,w，L_h,w∈{1,2,3,…,N_c}，h∈{1,2,3,…,H}，w∈{1,2,3,…,W}，软化标签L^soft的第h行w列像素的概率分布将从对应类别概率分布获取，

式中，表示软化标签L^soft的第h行w列像素的概率分布，/>表示统计概率分布P中类别L_h,w的概率分布。

学生模型的训练标签L^s由教师模型的预测结果T^pre和软化标签L^soft加权平均获得，获得的学生模型的训练标签L^s中不仅保持了每个像素标签的独特性，而且具备与原始标签L的类别一致性，同时含有教师模型的隐藏知识，计算公式如下：

L^s＝α*L^soft+(1-α)*T^pre

式中，α为平衡因子，由于教师模型的预测结果存在预测错误的像素，为保证L^s与原始标签L的像素类别一致性，平衡因子α取值范围为0.5到1之间，转入步骤4。

步骤4、利用学生模型的训练标签对学生模型进行监督训练，学生模型损失函数采用余弦相似度函数，具体如下：

将训练样本集D_T输入学生模型中，得到输出结果S^pre，在学生模型预测结果S^pre与学生模型的训练标签L^s之间构建损失函数，通过反向传播训练学生模型的网络参数，损失函数计算公式如下：

式中Cosine_Similarity(·,·)为余弦相似度函数，表示学生模型的训练标签L^s的第h行w列像素的标签，/>表示学生模型相应图像的第h行w列像素的输出结果，转入步骤5。

步骤5、选择Cityscapes数据集中的其他M幅图像作为测试图像，100<M<1000，通过归一化处理将测试样本图像分辨率统一为H×W×C，得到测试样本图像，并构建测试样本集D_S，转入步骤6。

实施例1

结合图1，本发明所述的基于类别统计驱动的伪标签自蒸馏语义分割方法，步骤如下：

步骤1、选择Cityscapes数据集中的N幅图像，N＝2975，进行归一化处理，将图像尺寸统一为H×W×C，H＝512，W＝1024，C＝3，以此作为训练样本集D_T，训练样本的类别数目为N_c＝19，转入步骤2。

步骤2、采用有监督训练，以交叉熵为损失函数对图像语义分割模型进行训练，训练后得到教师模型，利用教师模型对训练样本集D_T进行预测，教师模型的预测结果为训练样本集的原始标签L∈R^H×W，根据原始标签确定预测正确的像素点，计算单一图像中同一类别的预测正确像素的概率分布均值/>计算方式如下：

式中β为比例因子，设置为1-1/N，最终训练样本集所有类别的统计概率分布转入步骤3。

步骤3、利用步骤2中得到的每个类别的概率分布对训练样本集D_T中的原始标签分别进行软化，软化标签与教师模型预测结果加权平均得到最终的学生模型训练标签，具体如下：

根据原始标签L可知每幅训练样本图像中第h行w列像素的类别L_h,w，L_h,w∈{1,2,3,…,N_c}，h∈{1,2,3,…,H}，w∈{1,2,3,…,W}，软化标签L^soft的第h行w列像素的概率分布将从对应类别概率分布获取，归纳为如下公式：

学生网络的训练标签L^s由教师模型的预测结果T^pre和软化标签L^soft加权平均获得，计算公式如下：

L^s＝α*L^soft+(1-α)*T^pre

式中，α为平衡因子，此处设置α为0.7，转入步骤4。

步骤4、学生模型预测结果S^pre与训练标签L^s之间构建损失函数，通过反向传播训练学生网络参数，损失函数计算公式如下：

步骤5、选择Cityscapes数据集中的其他M幅图像，M＝500，通过归一化处理，将图像分辨率统一为512×1024×3，构成测试样本集D_S，转入步骤6。

本发明在NVIDIA GEFORCE RTX 3090Ti GPU主机上采用python编程语言和Pytorch深度学习框架进行相关实验。在网络训练的过程中，输入图像的大小被归一化为512×1024，网络的学习率被设置为0.02，一批图像数目设置为12。选取ResNet18作为骨干网络，且加载在ImageNet数据集上训练好的权重。

为了更好地体现本发明提出的训练方法对于语义分割网络的分割效果，根据实施例1训练模型，并且可视化结果。选取非蒸馏的常规训练方法，CIRKD作为对比方法进行相关实验，在Cityscapes数据集上的实验结果如图2所示。从中可以看出，本发明有效地改善网络分割的性能，并且分割图像的局部细节较为突出。

Claims

1.一种基于类别统计驱动的伪标签自蒸馏语义分割方法，其特征在于，包括以下步骤：

步骤1、选择Cityscapes数据集中的N幅图像作为训练图像，1000<N<10000，通过归一化处理将训练图像尺寸统一为H×W×C，得到训练样本图像，并构建训练样本集D_T，训练样本集D_T中训练样本的类别数目为N_c，H表示训练样本图像高度，W表示训练样本图像宽度，C表示训练样本图像通道数，转入步骤2；

步骤2、采用有监督训练，以交叉熵为损失函数对图像语义分割模型进行训练，训练后得到教师模型，利用教师模型对训练样本集D_T进行预测，统计教师模型的预测结果得到所有类别的统计概率分布，转入步骤3；

步骤3、利用每个类别的概率分布对训练样本集D_T中的原始标签分别进行软化，得到对应的软化标签，利用软化标签与对应的教师模型预测结果加权平均得到学生模型的训练标签，转入步骤4；

步骤4、利用学生模型的训练标签对学生模型进行监督训练，学生模型损失函数采用余弦相似度函数，转入步骤5；

步骤5、选择Cityscapes数据集中的其他M幅图像作为测试图像，100<M<1000，通过归一化处理将测试样本图像分辨率统一为H×W×C，得到测试样本图像，并构建测试样本集D_S，转入步骤6；

2.根据权利要求1所述的一种基于类别统计驱动的伪标签自蒸馏语义分割方法，其特征在于，步骤2中利用教师模型对训练样本集D_T进行预测，统计教师模型的预测结果得到所有类别的统计概率分布，具体如下：

将训练样本集D_T逐一输入教师模型，得到单幅图像的预测结果根据对应的原始标签确定预测正确的像素点，计算单一训练样本图像中同一类别的预测正确像素的概率分布均值/>类别i∈{1,2,3,…,N_c}，采用指数移动平均的方法计算出训练样本集中某一类别的概率分布/>教师模型预测一次，P_i更新一次，直至迭代完训练样本集中所有的训练样本图像，迭代公式如下：

式中β为比例因子，设置为1-1/N，为上一次迭代的结果，初始值为第i类的独热码，最终训练样本集中所有类别的统计概率分布/>

3.根据权利要求1所述的一种基于类别统计驱动的伪标签自蒸馏语义分割方法，其特征在于，步骤3中，利用每个类别的概率分布对训练样本集D_T中的原始标签分别进行软化，得到对应的软化标签，利用软化标签与对应的教师模型预测结果加权平均得到学生模型的训练标签，具体如下：

训练样本集D_T中的原始标签L，L∈R^H×W，根据原始标签L得知每幅训练样本图像中第h行w列像素的类别为L_h,w，L_h,w∈{1,2,3,…,N_c}，h∈{1,2,3,…,H}，w∈{1,2,3,…,W}，软化标签L^soft的第h行w列像素的概率分布将从对应类别的统计概率分布P中获取，

式中，表示软化标签L^soft的第h行w列像素的概率分布，/>表示统计概率分布P中类别L_h,w的概率分布；

学生模型的训练标签L^s由教师模型的预测结果T^pre和软化标签L^soft加权平均获得，计算公式如下：

L^s＝α*L^soft+(1-α)*T^pre

式中，α为平衡因子，取值范围为0.5到1之间。

4.根据权利要求1所述的一种基于类别统计驱动的伪标签自蒸馏语义分割方法，其特征在于，步骤4中，利用学生模型的训练标签对学生模型进行监督训练，具体如下：

将训练样本集D_T输入学生模型中，得到输出结果S^pre，在学生模型输出结果S^pre与学生模型的训练标签L^s之间构建损失函数，通过反向传播训练学生模型的网络参数，损失函数loss计算公式如下：

式中Cosine_Similarity(·,·)为余弦相似度函数，表示学生模型的训练标签L^s的第h行w列像素的标签，/>表示学生模型相应图像的第h行w列像素的输出结果。