CN116310328A

CN116310328A - 基于跨图像相似度关系的语义分割知识蒸馏方法及系统

Info

Publication number: CN116310328A
Application number: CN202310190417.8A
Authority: CN
Inventors: 杨传广; 安竹林; 于新强; 徐勇军
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2023-06-23

Abstract

本发明提出一种基于跨图像相似度关系的语义分割知识蒸馏方法，包括：统计该教师特征图集中两两特征图间像素的相似度，得到教师图像相似度矩阵，统计该学生特征图集中两两特征图间像素的相似度，得到学生图像相似度矩阵；统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差，作为该两两特征图的误差，集合该训练集中所有两两特征图的误差，得到总误差，以训练更新该学生模型，执行语义分割任务。通过迁移跨图像间的相似度关系，学生模型可以学习到教师模型全局像素特征关系依赖，从而提高语义分割准确度。

Description

基于跨图像相似度关系的语义分割知识蒸馏方法及系统

技术领域

本发明涉及图像语义分割技术以及图像分类技术领域，并特别涉及一种基于跨图像相似度关系的语义分割知识蒸馏方法及系统。

背景技术

图像语义分割是一个视觉上的基础任务，其目的是对图像上的每一个像素点进行分类，从而图像上的不同语义区域可以被分割出来。图像语义分割技术在自动驾驶，虚拟现实以及机器人领域具有广泛的应用价值。虽然现有的语义分割模型，可以在分割上获得很好的性能，但是也需要较大的计算代价。这个缺点限制了这些模型被部署在现实世界场景和资源限制的边缘设备。知识蒸馏作为一项模型压缩技术，可以利用教师教授学生的模式来提升学生网络的性能，这里教师模型通常是复杂度高但是性能优良的网络，学生模型通常是复杂度低但是性能不足的网络。通过知识蒸馏算法，可以使得部署的学生网络可以完成实际的任务性能需求同时需要极少的计算开销。

知识蒸馏算法的核心是定义一种有意义的知识形式，然后将该知识从教师模型传到学生模型，然后设计用于语义分割的知识形式是一个挑战性的问题。最早的特征蒸馏算法尝试直接利用原始特征进行教师-学生之间的对齐，但是没有考虑到结构化的相关度信息。后来的一些结构化知识蒸馏方法考虑建模样本之间的相似度信息作为有意义的知识形式，比如像素点到像素点之间的相似度分布和像素点到区域向量之间的相似度分布，其中区域向量代表了相同类别像素向量的聚类中心。除了在像素点维度上的关系抽取，通道蒸馏将特征通道级别的信息作为知识形式进行蒸馏。

现有方法能有效提升学生网络的性能，但是在一些复杂场景下分割质量不高。发明人发现现有技术中该项缺陷是由先前建模的知识形式导致的，该种知识形式仅仅是从单张图像中提取的，因此不能捕捉到整个数据集中更加广泛的关系依赖，造成不能对城市分割场景下的不同目标建立联系。

发明内容

发明人经过不同图像间的像素到像素关系型建模研究发现，解决该项缺陷可以通过跨图像像素建模全局的图像关系依赖的方法来实现。通过迁移跨图像间的相似度关系，学生模型可以学习到教师模型全局像素特征关系依赖，从而可以使得对语义分割的效果更好。

针对现有技术的不足，本发明提出一种基于跨图像相似度关系的语义分割知识蒸馏方法，包括：

步骤1、获取由多张图像构成的训练集，将训练集中图像分别输入教师模型和学生模型，得到该图像的教师特征图和学生特征图，分别集合所有图像的教师特征图和学生特征图，构成教师特征图集和学生特征图集；

步骤2、统计该教师特征图集中两两特征图间像素的相似度，得到教师图像相似度矩阵，统计该学生特征图集中两两特征图间像素的相似度，得到学生图像相似度矩阵；

步骤3、统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差，作为该两两特征图的误差，集合该训练集中所有两两特征图的误差，得到总误差；

步骤4、根据该总误差采用随机梯度下降训练更新该学生模型，直到该总误差收敛或达到预设迭代次数，保存当前学生网络作为最终语义分割模型，将待语义分割图像输入该最终语义分割模型，得到该待语义分割图像的语义分割结果。

所述的基于跨图像相似度关系的语义分割知识蒸馏方法，其中该步骤4包括：该最终语义分割模型提取该待语义分割图像的准确特征，通过分类器对该准确特征中每一个特征像素点进行分类，从而得到该语义分割结果。

所述的基于跨图像相似度关系的语义分割知识蒸馏方法，其中

该步骤1包括：给定训练集

中图像x，以及教师模型f^t和学生模型f^s，两者推理产生教师特征图/>

和学生特征图/>

F^t＝f^t(x),F^s＝f^s(x)

其中H、W和d分别是特征图高度、宽度和通道数；

教师模型f^t和学生模型f^s可以分别输出得到M个特征图，分别构成该教师特征图集

和该学生特征图集/>

该步骤2包括：对于该教师特征图集和该学生特征图集中第i张图像和第j张图像，计算两者对应像素特征

和/>

的相似度矩阵/>

其中T表示矩阵转置，分别得到该教师特征图集和该学生特征图集的像素相似度矩阵：

该步骤3中总误差L为：

式中a和b分别是矩阵的行索引和列索引。

所述的基于跨图像相似度关系的语义分割知识蒸馏方法，其中该教师模型的网络规模大于该学生模型的网络规模；该训练集为汽车自动驾驶任务所需图像。

本发明还提出了一种基于跨图像相似度关系的语义分割知识蒸馏系统，其中包括：

初始模块，用于获取由多张图像构成的训练集，将训练集中图像分别输入教师模型和学生模型，得到该图像的教师特征图和学生特征图，分别集合所有图像的教师特征图和学生特征图，构成教师特征图集和学生特征图集；

第一统计模块，用于统计该教师特征图集中两两特征图间像素的相似度，得到教师图像相似度矩阵，统计该学生特征图集中两两特征图间像素的相似度，得到学生图像相似度矩阵；

第二统计模块，用于统计该两两特征图的该教师图像相似度矩阵和该学生图像相似度矩阵的最小平方误差，作为该两两特征图的误差，集合该训练集中所有两两特征图的误差，得到总误差；

训练模块，用于根据该总误差采用随机梯度下降训练更新该学生模型，直到该总误差收敛或达到预设迭代次数，保存当前学生网络作为最终语义分割模型，将待语义分割图像输入该最终语义分割模型，得到该待语义分割图像的语义分割结果。

所述的基于跨图像相似度关系的语义分割知识蒸馏系统，其中该训练模块用于：该最终语义分割模型提取该待语义分割图像的准确特征，通过分类器对该准确特征中每一个特征像素点进行分类，从而得到该语义分割结果。

所述的基于跨图像相似度关系的语义分割知识蒸馏系统，其中

该初始模块用于：给定训练集

和学生特征图/>

F^t＝f^t(x),F^s＝f^s(x)

其中H、W和d分别是特征图高度、宽度和通道数；

和该学生特征图集/>

该第一统计模块用于：对于该教师特征图集和该学生特征图集中第i张图像和第j张图像，计算两者对应像素特征

和/>

的相似度矩阵/>

该第二统计模块中总误差L为：

式中a和b分别是矩阵的行索引和列索引。

所述的基于跨图像相似度关系的语义分割知识蒸馏系统，其中该教师模型的网络规模大于该学生模型的网络规模；该训练集为汽车自动驾驶任务所需图像。

本发明还提出了一种存储介质，用于存储执行所述任意一种基于跨图像相似度关系的语义分割知识蒸馏方法的程序。

本发明还提出了一种客户端，用于任意一种基于跨图像相似度关系的语义分割知识蒸馏系统。

由以上方案可知，本发明的优点在于：

与其他现有语义分割知识蒸馏方法相比，本发明优化得到的模型在城市场景分割上具有更高的性能，尤其是在复杂场景下具有更好的分割质量，同时在计算代价上低，能够满足实时推理的需求。

附图说明

图1为本发明整体流程图。

具体实施方式

本发明的目的是解决现有技术在复杂场景下分割质量不高的问题，提出了一种基于跨图像相似度关系的语义分割知识蒸馏方法。该方法从全局图像的角度出发，建模像素特征的相似度信息，从而捕捉到了例如城市分割场景下的不同目标依赖，在城市分割场景和自动驾驶任务下具有广泛的应用前景。为了实现上述技术效果，本发明包括如下关键技术点：

关键点1，本发明提出跨图像相似度关系作为知识形式；在技术效果上可以对城市分割场景下的不同目标建立联系，从而提升复杂场景下分割质量。

关键点2，本发明建模像素到像素的相似度分布，然后将该分布通过L2误差来完成教师到学生的逼近；在技术效果上可以使得学生模型可以学习到教师模型的全局像素特征向量的结构化关系，提升学生模型的语义分割效果。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

与其他现有方法相比，本发明在图像分类任务具有更高的性能，但是在参数量和计算量方面代价很低，且具有很小的冗余性。本发明整体的流程如附图1所示。

步骤1，推理产生像素特征向量。给定输入图像x，以及教师模型f^t和学生模型f^s，两者推理产生教师特征图

和学生特征图/>

F^t＝f^t(x),F^s＝f^s(x)

其中H，W，d分别是特征图高度，宽度和通道个数。这里，可以将特征图视为具有H×W个像素特征向量，每一个特征向量的长度为d。为了方便描述，令S＝H×W。教师网络可具体采用DeepLabV3-ResNet-101，学生网络可采用DeepLabV3-ResNet-18，教师网络的网络规模大于学生网络，教师网络的网络层数为101层，多于学生网络的18层。

给定一批数据包括个图像样本，表达为

教师模型f^t和学生模型f^s可以分别输出得到M个特征图，表达为/>

和/>

M个样本通常是同分布的，例如针对城市分割场景，M个样本是不同地方的街景图片，虽然是不同的街景图片，但是通常都包含了车辆行人和建筑等。

步骤2，对图像集合中所有两两图片进行相似度计算，建模图像间的相似度矩阵。对于第i张图像和第j张图像，本发明计算两者对应像素特征

和/>

的相似度矩阵，表达为/>

这里T表示矩阵转置。教师模型端和学生模型端进行相同的算法来计算，分别得到两者的像素相似度矩阵：

其中，B^t _ij和B^s _ij分别是教师和学生产生的跨图像像素相似度矩阵，产生自第i张图像和第j张图像。

步骤3，教师到学生跨图像像素相似度矩阵蒸馏。知识蒸馏的核心思想是学生端的知识去逼近教师端对应更好的知识，从提升学生模型的性能。基于这个思想，本发明引导学生网络产生的跨图像像素相似度矩阵B^s _ij去逼近教师网络产生的B^t _ij。这里采用了最小平方误差准则函数的形式，如下所示：

式中a和b分别是矩阵的行索引和列索引。通过误差函数，可以使得学生网络B^s _ij尽可能与B^t _ij接近，从而学习更好的相似度关系。对于M个图像样本

而言，本发明采用两两计算的原则来产生跨图像的相似度矩阵关系，从而推导出如下的总体误差：

以教师网络产生的相似度矩阵作为目标值，让学生网络的预测值去逼近差距，故本发明的目标进一步使用随机梯度下降来最小化误差以达到优化目的。优化后可使得学生网络学习到准确特征，根据准确特征，通过分类器对准确特征中每一个特征像素点进行分类，从而得到最终的图像语义分割结果。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

该初始模块用于：给定训练集

和学生特征图/>

F^t＝f^t(x),F^s＝f^s(x)

其中H、W和d分别是特征图高度、宽度和通道数；

和该学生特征图集/>

和/>

的相似度矩阵/>

该第二统计模块中总误差L为：

式中a和b分别是矩阵的行索引和列索引。