CN116977712A

CN116977712A - 基于知识蒸馏的道路场景分割方法、系统、设备及介质

Info

Publication number: CN116977712A
Application number: CN202310723283.1A
Authority: CN
Inventors: 苟建平; 陈开杰; 朱会娟; 欧卫华; 柯佳; 陈雯柏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-31
Anticipated expiration: 2043-06-16
Also published as: CN116977712B

Abstract

本发明公开了一种基于知识蒸馏的道路场景分割方法、系统、设备及介质，属于人工智能领域的道路场景分割，其目的在于解决现有技术中存在的因现有的易忽略像素之间的结构化依赖关系、模型不能够有效的提取样本间差异知识、模型对道路场景分割的效果较差的技术问题。其教师网络模型和学生网络模型中的主干网络输出稠密特征图，分类器输出类概率图，再基于稠密特征图、类概率图来确定蒸馏损失函数，最后基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型。通过知识蒸馏引导学生模型从像素和类别维度学习教师模型更具鉴别性的样本间差异知识，用于捕获更全面详细的空间依赖关系，显著提升模型对道路场景的分割能力。

Description

基于知识蒸馏的道路场景分割方法、系统、设备及介质

技术领域

本发明属于人工智能技术领域，涉及一种道路场景的分割，尤其涉及一种基于知识蒸馏的道路场景分割方法、系统、设备及介质。

背景技术

近年来，深度学习的快速发展与卷积神经网络的广泛应用，在计算机视觉领域展现了突出的优势，并且极大地提升了各项计算机视觉任务的性能，例如图像分类、图像分割、目标检测等。然而，良好的性能通常以更复杂的网络结构和更大的网络参数量作为代价，这使得这些性能良好的网络通常难以应用于资源有限或者具有实时要求的场景上。为了实现性能和效率的平衡，扩大复杂模型的应用场景，知识蒸馏被提出，用于在尽可能保持复杂模型的性能的同时，简化其网络结构和参数量。知识蒸馏是一种模型压缩技术，通过将复杂模型(教师)的知识传递给轻量化模型(学生)，使得学生模型获得和教师模型相当的性能。常见的知识蒸馏方法有三种，分别是基于特征的知识蒸馏、基于概率的知识蒸馏和基于关系的知识蒸馏，可以从多种角度转移来自教师模型的多样性知识。由于知识蒸馏方法可以在不改变原有网络的结构的情况下简化模型，且灵活性强，现在已经被广泛应用于各项计算机视觉任务。

伴随着人工智能技术的发展，道路场景分割技术已广泛应用于车辆的自动驾驶、无人机的智能导航、机器人移动等领域。然而由于城市交通的不断发展和机动车的广泛普及，道路场景的路况变得越来越复杂，如何利用知识蒸馏技术实现精确且高效的道路场景分割已经成为一个热门的科研问题。

申请号为202211608962.6的发明专利申请就公开了一种基于知识蒸馏的高速瓦楞纸箱印刷缺陷检测方法、系统、设备及存储介质，方法包括：获取瓦楞纸箱印刷缺的被测目标图像，基于被测目标图像构建样本数据集，构建知识蒸馏网络模型，所述知识蒸馏网络模型包括教师网络模型和学生网络模型；对所述教师网络模型和所述学生网络模型分别进行训练；利用训练好的知识蒸馏网络模型对高速瓦楞纸箱印刷缺陷进行检测。对所述教师网络模型和所述学生网络模型分别进行训练，所述教师网络模型的训练具体为：将样本数据集输入到主干网络中获取样本数据集的特征图，在特征图的每一点上面进行回归操作，进行网络训练获取教师网络模型；所述学生网络模型的训练具体为：通过训练后的教师网络模型进行诱导训练，将低分辨率图像输入到主干网络中获取输入图像的特征图，在特征图的每一点上面进行回归操作，将教师网络模型的预测输出作为标签，将学生网络模型的预测输出作为软标签，将真实标签作为硬标签，并计算学生网络模型的损失，更新网络参数，实际应用仅使用学生网络模型。本申请通过采用知识蒸馏的深度学习方法，将大容量教师模型中的知识转移到轻量级深层模型中，由此可提高轻量级深层模型性能；该方法提高了缺陷检测的准确性，同时保持了较高的实时性能；得到的轻量级深层模型有利于在工业缺陷检测的嵌入式设备等边缘设备部署中推广。

申请号为202211348871.3的发明专利申请就公开了一种轻量级多任务视频流实时推理方法及系统，其包括：获取包含驾驶场景的视频数据集，该视频数据集中包括多个视频流，视频流中视频帧具有标签文件，该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签；获取具有主干网络和特征金字塔网络的原目标检测模型，在该特征金字塔网络的目标检测头网络增加两个分支网络，分别作为分割行驶区域头网络和物体跟踪头网络，得到多任务检测模型；以该视频数据集作为训练数据输入该多任务检测模型，并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果，和该标签文件构建损失函数，以训练该多任务检测模型，得到教师模型，对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理，得到学生模型；将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型，得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果；根据该推理结果，控制该车辆执行辅助驾驶相关的控制任务。本申请通过采用推理效率更高的目标检测模型作为检测基准模型，在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务，通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余，通过级联知识蒸馏的端到端结构化迭代剪枝算法，进一步降低模型的计算量，有效提高了模型在边缘芯片硬件上的加速比，最终模型能够保证精度的同时在边缘端做到实时推理。

如上述专利文献一样，现有技术中，由于知识蒸馏方法的快速发展和广泛应用，其取得了较好的效果，但是也仍然存在着一些缺陷：第一，现有技术中知识蒸馏方法大多用于图像分类任务，但是，与图像级别的分类任务相比，道路场景分割涉及到结构化输出的密集预测，因此直接将知识蒸馏方法迁移到道路场景分割任务时极易忽略像素之间的结构化依赖关系；第二，现有的道路场景分割的知识蒸馏方法大多数只关注从单一图像上设计各种知识变体，忽略了不同图像之间的关系，尤其是语义差异知识。基于上述两点，造成现有技术中采用知识蒸馏方法的进行道路场景分割时，不能够有效的提取样本间差异知识，模型对道路场景分割的效果较差。

发明内容

为解决现有技术中存在的因现有的基于知识蒸馏的道路场景分割易忽略像素之间的结构化依赖关系、只关注从单一图像上设计各种知识变体而忽略了不同图像之间的关系致使模型不能够有效的提取样本间差异知识、模型对道路场景分割的效果较差的技术问题，本发明提供了一种基于知识蒸馏的道路场景分割方法、系统、设备及介质，拟通过知识蒸馏引导学生模型从像素和类别维度学习教师模型更具鉴别性的样本间差异知识，用于捕获更全面详细的空间依赖关系，提升模型对道路场景的分割能力。

为解决以上技术问题，本发明采用的技术方案如下：

一种基于知识蒸馏的道路场景分割方法，包括：

步骤S1，获取样本数据

获取道路场景图像样本数据，并对道路场景图像样本数据进行处理，得到标签数据；

步骤S2，构建知识蒸馏网络模型

知识蒸馏网络模型包括教师网络模型和学生网络模型，教师网络模型和学生网络模型均包括主干网络和分类器；

步骤S3，训练知识蒸馏网络模型

训练知识蒸馏网络模型时，包括教师网络模型预训练、教师网络模型和学生网络模型共同训练；

教师网络模型预训练，具体为：将部分道路场景图像样本数据输入为训练的教师网络模型中，并获得教师网络模型的输出；基于教师网络模型的输出与对应的标签数据确定交叉熵损失函数，并基于交叉熵损失函数对教师网络模型进行迭代训练，得到预训练的教师网络模型；

教师网络模型和学生网络模型共同训练，具体为：将剩余的道路场景图像样本数据分别输入预训练的教师网络模型以及未训练的学生网络模型，教师网络模型的主干网络输出教师稠密特征图，教师网络模型的分类器输出教师类概率图，学生网络模型的主干网络输出学生稠密特征图，学生网络模型的分类器输出学生类概率图；基于教师稠密特征图、教师类概率图、学生稠密特征图和学生类概率图确定蒸馏损失函数；基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型；

步骤S4，道路场景实时分割

获取道路场景实时图像数据，将道路场景实时图像数据输入步骤S3获得的训练成熟的学生网络模型中，学生网络模型输出分割结果。

进一步地，主干网络为ResNet残差网络，分类器包括池化层与卷积层。

进一步地，步骤S3中，在进行教师网络模型和学生网络模型共同训练时，具体为：

给定一个包含_n个训练数据的小批次道路场景图像样本数据X＝{x_1，x₂，...，x_R}、以及对应的真实标签为Y＝{y₁,y₂，...，y_R}，其中n为训练数据的个数；

将训练数据输入到知识蒸馏网络模型后，主干网络用于提取训练数据的特征并聚合高阶信息以产生稠密特征图F∈R^H×W×C，分类器用于将稠密特征图F∈R^Hx^W×C解码为包含类别信息的类概率图Z∈R^H×W×C，

教师网络模型的主干网络输出教师稠密特征图F_t，学生网络模型的主干网络输出学生稠密特征图F_s，教师网络模型的分类器输出教师类概率图Z_t，学生网络模型的分类器输出学生类概率图Z_s；

其中，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同，稠密特征图的宽度与类概率图的宽度相同；C表示稠密特征图的通道数，c表示类概率图的通道数，t和s分别表示教师网络模型和学生网络模型。

进一步地，步骤S3中，在基于教师稠密特征图F_t、教师类概率图Z_t、学生稠密特征图F_s和学生类概率图Z_s确定蒸馏损失函数时，具体步骤为：

步骤S3-1-1，根据教师稠密特征图F_t、学生稠密特征图F_s，分别计算教师网络模型和学生网络模型的空间注意力图，用于获取教师网络模型和学生网络模型在像素位置维度上最关注的信息；

教师网络模型的空间注意力图为：

学生网络模型的空间注意力图为：

其中，∑_c表示沿着通道维度相加，vec(·)代表向量化，表示图像i的学生稠密特征图，表示图像i的学生稠密特征图；

步骤S3-1-2，计算教师网络模型和学生网络模型的同一批次不同图像之间的空间注意力差异图；

教师网络模型的空间注意力差异图为：

学生网络模型的空间注意力差异图为：

其中，(i，j)为同一批次任意两个不同图像组成的样本对，分别表示图像i、图像j的教师网络模型的空间注意力图，分别表示图像i、图像j的学生网络模型的空间注意力图；表示学生网络图像i、图像j之间的空间注意力差异图，表示教师网络图像i、图像j之间的空间注意力差异图。

步骤S3-1-3，根据空间注意力差异图构建第一损失函数L_add，第一损失函数L_add表示为：

其中，MSE()表示均方差损失；

步骤S3-1-4，根据教师类概率图Z_t、学生类概率图Z_s，分别计算教师网络模型和学生网络模型的类概率差异图；

教师网络模型的类概率差异图为：

学生网络模型的类概率差异图为：

其中，(i，j)为同一批次任意两个不同图像组成的样本对，分别表示图像j、图像j的学生类概率图，分别表示图像i、图像j的教师类概率图；

步骤S3-1-5，根据类概率差异图，使用温度超参数T在类别维度对类概率差异图进行软化，计算出在类别维度上最具鉴别性的软概率差异图；

教师网络模型的软概率差异图为：

学生网络模型的软概率差异图为：

其中，∑_H×W表示沿着空间位置维度相加，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同；exp(·)代表指数化，T表示温度超参数；

步骤S3-1-6，根据软概率差异图构建第二损失函数L_sdd，第二损失函数L_sdd表示为：

其中，T表示温度超参数，KL()表示KL散度损失，C表示稠密特征图的通道数，c表示类概率图的通道数，k表示第k个类别，n为训练数据的个数；

步骤S3-1-7，根据教师类概率图Z_t、学生类概率图Z_s构建第三损失函数L_kd，第三损失函数L_kd表示为：

其中，log()表示取对数操作，表示归一化操作，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同，稠密特征图的宽度与类概率图的宽度相同；表示学生类概率图在第m个像素点的数值，表示教师类概率图在第m个像素点的数值；

步骤S3-1-8，将第一损失函数L_add、第二损失函数L_sdd以及第三损失函数L_kd进行求和，得到知识蒸馏网络模型的蒸馏损失函数L_total，蒸馏损失函数L_total为：

L_total＝aL_add+βL_add+γ_lad

其中，α、β、γ表示权重系数。

进一步地，步骤S3中，在基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型，具体为：

步骤S3-2-1，在学生网络模型训练过程中的每次迭代中，通过最小化损失函数调整蒸馏损失函数的值；

步骤S3-2-2，根据蒸馏损失函数的值，更新学生网络模型的参数；

步骤S3-2-3，通过对学生网络模型进行多次迭代训练，使学生网络模型的参数值趋向于拟合。

一种基于知识蒸馏的道路场景分割系统，包括：

样本数据获取模块，用于获取道路场景图像样本数据，并对道路场景图像样本数据进行处理，得到标签数据；

知识蒸馏网络模型构建模块，用于构建知识蒸馏网络模型，知识蒸馏网络模型包括教师网络模型和学生网络模型，教师网络模型和学生网络模型均包括主干网络和分类器；

知识蒸馏网络模型训练，用于训练知识蒸馏网络模型，训练知识蒸馏网络模型时，包括教师网络模型预训练、教师网络模型和学生网络模型共同训练；

道路场景实时分割模块，用于获取道路场景实时图像数据，将道路场景实时图像数据输入知识蒸馏网络模型训练获得的训练成熟的学生网络模型中，学生网络模型输出分割结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明中，主干网络输出稠密特征图，分类器输出类概率图，再基于稠密特征图、类概率图来确定蒸馏损失函数，最后基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型。通过知识蒸馏引导学生模型从像素和类别维度学习教师模型更具鉴别性的样本间差异知识，用于捕获更全面详细的空间依赖关系；学生模型通过学习教师模型的知识，在不增加自身模型大小的基础上，进一步的提升了对道路场景的分割能力，更好的实现了性能和效率的平衡，显著提升模型对道路场景的分割能力。

附图说明

图1是本发明的流程示意图；

图2是本发明中知识蒸馏网络模型的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

实施例1

本实施例提供一种基于知识蒸馏的道路场景分割方法，用于对道路场景进行分割，如图1所示，其包括以下步骤：

步骤S1,获取样本数据

获取道路场景图像样本数据，并对道路场景图像样本数据进行处理，得到标签数据。

道路场景图像样本数据及其标签数据，来自于Cityscapes道路场景数据集，可参考链接https://www.cityscapes-dataset.com/。Cityscapes道路场景数据集共包含了5000张精细注释的城市道路场景图片，共有19个类别；该数据集被分为三个部分：训练集，验证集和测试集，分别包含2975，500和1525张图片。每张图片的分辨率为2048×1024。

此外，还可以对获取的道路场景图像样本数据进行裁剪，缩放，灰度化等操作。

步骤S2,构建知识蒸馏网络模型

知识蒸馏网络模型包括教师网络模型和学生网络模型，教师网络模型和学生网络模型均包括主干网络和分类器。

主干网络为ResNet残差网络，分类器包括池化层与卷积层。

具体如图2所示。

步骤S3,训练知识蒸馏网络模型

训练知识蒸馏网络模型时，包括教师网络模型预训练、教师网络模型和学生网络模型共同训练。

教师网络模型预训练，具体为：将部分道路场景图像样本数据输入为训练的教师网络模型中，并获得教师网络模型的输出；基于教师网络模型的输出与对应的标签数据确定交叉熵损失函数，并基于交叉熵损失函数对教师网络模型进行迭代训练，得到预训练的教师网络模型。

教师网络模型和学生网络模型共同训练，具体为：将剩余的道路场景图像样本数据分别输入预训练的教师网络模型以及未训练的学生网络模型，教师网络模型的主干网络输出教师稠密特征图，教师网络模型的分类器输出教师类概率图，学生网络模型的主干网络输出学生稠密特征图，学生网络模型的分类器输出学生类概率图；基于教师稠密特征图、教师类概率图、学生稠密特征图和学生类概率图确定蒸馏损失函数；基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型。

给定一个包含n个训练数据的小批次道路场景图像样本数据X＝{x₁，x₂，...，x_R}、以及对应的真实标签为Y＝{y₁，y₂，...，y_R}，其中n为训练数据的个数；

将训练数据输入到知识蒸馏网络模型后，主干网络用于提取训练数据的特征并聚合高阶信息以产生稠密特征图F∈R^H×W×C，分类器用于将稠密特征图F∈R^H×W×C解码为包含类别信息的类概率图Z∈R^H×W×C，

其中，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同，稠密特征图的宽度与类概率图的宽度相同；C表示稠密特征图的通道数，c表示类概率图的通道数，_t和s分别表示教师网络模型和学生网络模型。

在基于教师稠密特征图F_t、教师类概率图Z_t、学生稠密特征图F_s和学生类概率图Z_s确定蒸馏损失函数时，具体步骤为：

教师网络模型的空间注意力图为：

学生网络模型的空间注意力图为：

其中，∑c表示沿着通道维度相加，vec(·)代表向量化，表示图像i的学生稠密特征图，表示图像i的学生稠密特征图；

教师网络模型的空间注意力差异图为：

学生网络模型的空间注意力差异图为：

其中，(i，j)为同一批次任意两个不同图像组成的样本对，分别表示图像i、图像j的教师网络模型的空间注意力图，分别表示图像i、图像j的学生网络模型的空间注意力图：表示学生网络图像i、图像j之间的空间注意力差异图，表示教师网络图像i、图像j之间的空间注意力差异图。

其中，MSE()表示均方差损失；

教师网络模型的类概率差异图为：

学生网络模型的类概率差异图为：

教师网络模型的软概率差异图为：

学生网络模型的软概率差异图为：

其中，∑_H×W表示沿着空间位置维度相加，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同，稠密特征图的宽度与类概率图的宽度相同；exp(·)代表指数化，T表示温度超参数；

其中，T表示温度超参数，KLO表示KL散度损失，C表示稠密特征图的通道数，c表示类概率图的通道数，k表示第k个类别，n为训练数据的个数；

步骤S3-1-7，根据教师类概率图Z_t、学生类概率图Z，构建第三损失函数L_kd，第三损失函数L_kd表示为：

其中，log0表示取对数操作，表示归一化操作，H，W分别表示稠密特征图或类概率图的高度、宽度，其中稠密特征图的高度与类概率图的高度相同，稠密特征图的宽度与类概率图的宽度相同；表示学生类概率图在第m个像素点的数值，表示教师类概率图在第m个像素点的数值；

步骤S3-1-8，将第一损失函数L_add、第二损失函数L_add以及第三损失函数L_kd进行求和，得到知识蒸馏网络模型的蒸馏损失函数L_total，蒸馏损失函数L_total为：

L_total＝αL_add+βL_sdd+γL_kd

其中，α、β、γ表示权重系数。

在基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型，具体为：

步骤S4,道路场景实时分割

试验情况：

同样是将Cityscapes道路场景数据集作为训练数据集，经试验，传统的知识蒸馏(KD)和结构化知识蒸馏方法(SKD)在Cityscapes数据集上的平均精度分别为70.86％和72.48％；而本实施例的方法在Cityscapes数据集上的精度为76.10％，相比于传统的知识蒸馏方法和结构化知识蒸馏方法，本实施例改进了道路场景分割的知识蒸馏方法，弥补了传统的知识蒸馏方法未考虑到图像间差异知识这一缺点，并从像素和类别两个维度设计了两种具有鉴别性的差异知识，进一步保证了来自教师的模型知识的有效性，改善了模型对道路场景分割任务的表现能力。通过这种方法，能够有效的提取样本间差异知识，得到更优异的道路场景分割能力。

实施例2

本实施例提供一种基于知识蒸馏的道路场景分割系统，用于对道路场景进行分割，如图1所示，其包括：

样本数据获取模块，用于获取道路场景图像样本数据，并对道路场景图像样本数据进行处理，得到标签数据。

知识蒸馏网络模型构建模块，用于构建知识蒸馏网络模型；知识蒸馏网络模型包括教师网络模型和学生网络模型，教师网络模型和学生网络模型均包括主干网络和分类器。

主干网络为ResNet残差网络，分类器包括池化层与卷积层。

知识蒸馏网络模型训练模块，用于训练知识蒸馏网络模型；训练知识蒸馏网络模型时，包括教师网络模型预训练、教师网络模型和学生网络模型共同训练。

给定一个包含n个训练数据的小批次道路场景图像样本数据X＝{x_1，x₂，...，x_R}、以及对应的真实标签为Y＝{y₁，y₂，...，y_R]，其中n为训练数据的个数；

教师网络模型的空间注意力图为：

学生网络模型的空间注意力图为：

教师网络模型的空间注意力差异图为：

学生网络模型的空间注意力差异图为：

其中，MSE()表示均方差损失；

教师网络模型的类概率差异图为：

学生网络模型的类概率差异图为：

教师网络模型的软概率差异图为：

学生网络模型的软概率差异图为：

步骤S3-1-8，将第一损失函数L_add、第二损失函数L_sdd以及第三损失函数L_kd进行求和，得到知识蒸馏网络模型的蒸馏损失函数L_total，蒸馏损失函数L_tatal为：

L_total＝αL_add+βL_add+γL_kd

其中，α、β、γ表示权重系数。

道路场景实时分割模块，用于获取道路场景实时图像数据，将道路场景实时图像数据输入知识蒸馏网络模型训练模块获得的训练成熟的学生网络模型中，学生网络模型输出分割结果。

实施例3

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行基于知识蒸馏的道路场景分割方法的步骤。

其中，所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件，例如所述基于知识蒸馏的道路场景分割方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述基于知识蒸馏的道路场景分割方法的程序代码。

实施例4

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行基于知识蒸馏的道路场景分割方法的步骤。

其中，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于知识蒸馏的道路场景分割方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器或者网络设备等)执行本申请实施例所述基于知识蒸馏的道路场景分割方法。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于知识蒸馏的道路场景分割方法，其特征在于，包括：

步骤S1,获取样本数据

步骤S2,构建知识蒸馏网络模型

步骤S3,训练知识蒸馏网络模型

步骤S4,道路场景实时分割

2.如权利要求1所述的基于知识蒸馏的道路场景分割方法，其特征在于：主干网络为ResNet残差网络，分类器包括池化层与卷积层。

3.如权利要求1所述的基于知识蒸馏的道路场景分割方法，其特征在于：步骤S3中，在进行教师网络模型和学生网络模型共同训练时，具体为：

给定一个包含n个训练数据的小批次道路场景图像样本数据X＝{x₁，x₂，...，x_n}、以及对应的真实标签为Y＝{y₁，y₂，...，y_n}，其中n为训练数据的个数；

4.如权利要求3所述的基于知识蒸馏的道路场景分割方法，其特征在于：步骤S3中，在基于教师稠密特征图F_t、教师类概率图Z_t、学生稠密特征图F_s和学生类概率图Z_s确定蒸馏损失函数时，具体步骤为：

教师网络模型的空间注意力图为：

学生网络模型的空间注意力图为：

教师网络模型的空间注意力差异图为：

学生网络模型的空间注意力差异图为：

其中，(i，j)为同一批次任意两个不同图像组成的样本对，分别表示图像i、图像j的教师网络模型的空间注意力图，分别表示图像i、图像j的学生网络模型的空间注意力图；表示学生网络图像i、图像j之间的空间注意力差异图，表示教师网络图像i、图像j之间的空间注意力差异图；

其中，MSE()表示均方差损失；

教师网络模型的类概率差异图为：

学生网络模型的类概率差异图为：

其中，(i，j)为同一批次任意两个不同图像组成的样本对，分别表示图像i、图像j的学生类概率图，分别表示图像i、图像j的教师类概率图；

教师网络模型的软概率差异图为：

学生网络模型的软概率差异图为：

L_total＝αL_add+βL_sdd+βL_bd

其中，α、β、γ表示权重系数。

5.如权利要求3所述的基于知识蒸馏的道路场景分割方法，其特征在于：步骤S3中，在基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型，具体为：

6.一种基于知识蒸馏的道路场景分割系统，其特征在于，包括：

教师网络模型预训练，具体为：将部分道路场景图像样本数据输入为训练的教师网络模型中，并获得教师网络模型的输出；基于教师网络模型的输出与对应的标签数据确定交叉熵损失函数，并基于交叉熵损失函数对教师网络模型进行迭代训练，得到预训练的教师网络模型；教师网络模型和学生网络模型共同训练，具体为：将剩余的道路场景图像样本数据分别输入预训练的教师网络模型以及未训练的学生网络模型，教师网络模型的主干网络输出教师稠密特征图，教师网络模型的分类器输出教师类概率图，学生网络模型的主干网络输出学生稠密特征图，学生网络模型的分类器输出学生类概率图；基于教师稠密特征图、教师类概率图、学生稠密特征图和学生类概率图确定蒸馏损失函数；基于蒸馏损失函数对学生网络模型进行迭代训练，获得训练成熟的学生网络模型；

7.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。

8.一种计算机可读存储介质，其特征在于：存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述方法的步骤。