CN112381101A

CN112381101A - 一种基于类别原型回归的红外道路场景分割方法

Info

Publication number: CN112381101A
Application number: CN202110039580.5A
Authority: CN
Inventors: 韩静; 陈霄宇; 李端阳; 张权; 滕之杰; 魏驰恒; 李怡然
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-02-19
Anticipated expiration: 2041-01-13
Also published as: CN112381101B

Abstract

本发明涉及一种基于类别原型回归的红外道路场景分割方法，包括以下步骤：1.类别原型特征回归：利用大量的数据标签和深度特征，通过回归得到类别特征原型；2.构建关系矩阵：得到了类别特征原型后，通过深度特征和类别特征原型构建关系矩阵；3.注意力增强：通过关系矩阵构建不同的注意力图来实现特征增强；4.搭建注意力模块：建立类别注意力模块和空间注意力模块，聚合两个注意力模块的功能。本发明提出类别原型回归的策略来对整个数据集回归，得出具有代表性的类别原型特征，同时聚类网络深度特征，使全局类别特征更加紧密；同时放大各类别间的差异性，相应构建关系矩阵和注意力模块，使整体特征更加紧密，提升最终的图像分割精度。

Description

一种基于类别原型回归的红外道路场景分割方法

技术领域

本发明涉及一种基于类别原型回归的红外道路场景分割方法，属于图像处理技术领域。

背景技术

相较于其他场景而言，车载道路场景更为复杂，复杂的场景中可能会出现许多问题，例如复杂的背景会导致目标的识别更为困难，或者是目标间的相似性会干扰到视觉特征，出现不同目标被错分，特别是在红外的车载道路场景中，目标的边缘较弱，背景与前景的分界线不明显，这些都会导致视觉特征精度。因此，为了实现更高的识别精度，分割模型需要对弱边缘和相似目标具有更强的判别能力。目前，图像语义分割技术主要是针对像素级别的分类任务，最终的类别与测试通过卷积直接得到的，然而，通过卷积得到的类别预测的精度极大程度上区别于特征的判别能力，但像素级别的特征的判别能力会受到不明确的目标的影响。

红外车载场景平台是汽车搭载可移动平台，或相机等光感器件来对汽车前方道路场景来进行获取，该设备通常被用于辅助驾驶和智能驾驶当中，目前，有许多针对车载的数据集，例如KITTI，Cityscapes，CamVid等，都是通过车载采集到的视频图像，来进行标注。

目前，最为复杂的车载道路场景莫过于城市街景了，因为在街道中，场景复杂且多变，背景和目标混在一起，难以分辨，且道路上车流量大，有时会存在密集情况，一般算法难以达到较高精度，目前，智能驾驶的也难以实现零失误。图像算法，作为智能驾驶中辅助的功能，可以通过一系列高效率的场景识别网络，来对路况进行实时分析，减小失误率，提高精度。图像语义分割作为场景识别的工具之一，能够帮助识别驾驶中的目标细节，目标轮廓，车道线，以及指示标志等，因此，提升分割算法的精度尤为关键。

发明内容

为了解决上述技术问题，本发明提供一种基于类别原型回归的红外道路场景分割方法，其具体技术方案如下：

基于类别原型回归的红外道路场景分割方法，包括以下步骤：

步骤一：类别原型特征回归：利用大量的数据标签和深度特征，通过回归得到类别特征原型，如公式（1）所示，

（1）

式中，proto为类别特征原型，N代表类别数目，P为输入图像，将每个类别的特征原型进行随机初始化为

，

为尺度为

的特征原型，C代表类别数目，将图上的两个点分别记为

和

，通过特征提取器得到特征图上的每一个深度特征

，

，

为尺度为

的特征图，W和H分别为特征图的宽和长，通过每个点的已有标签，得到每个位置的特征向量的类别n，将每个特征打上标签记为

，以此计算类别特征原型与该类别特征的距离

，并通过迭代优化，得到最优的类别特征原型，因此损失函数如公式（2）和公式（3），

（2）

（3）

式中

是欧式距离的计算公式，M为像素个数，此时

为计算出的类别原型损失；

步骤二：构建关系矩阵：得到了类别特征原型后，通过深度特征和类别特征原型构建关系矩阵，如公式（4）所示，

（4）

式中，

代表关系矩阵，N为类别数目；该关系矩阵可以作为最终输出，通过关系矩阵构建不同的注意力图来实现特征增强；

步骤三：注意力增强：通过关系矩阵构建不同的注意力图来实现特征增强，注意力增强分为类别注意力增强和空间注意力增强，其中，

a.类别注意力增强

首先，将关系矩阵转置为

，其中

，利用softmax层对

计算类别维度上的注意力图，如公式（5）所示，

（5）

式中，s代表每个位置相较于每个类别的概率分布，

表示

矩阵中第

个像素的

值，N为类别数目，s即类别注意力图，尺寸为

，将每个像素特征与类别原型进行矩阵乘法后得到的注意力图，即将其与类别原型

进行矩阵乘法，获得新的注意力图

，代表

为尺度大小是

的特征图，新的注意力图通过类别特征增强并与原始特征进行逐点相加，获得通过类别特征增强的特征图，如公式（6）所示，

（6）

式中，

初始化为0并通过迭代学习分配权重，最终的特征图具有类别注意力增强的效果；

b.空间注意力增强

首先，将关系矩阵置换为

，其中

，利用softmax层对

计算空间维度上的注意力图，如公式（6）所示，

（6）

式中，s代表每个类别中空间上各点的概率分布，s即空间注意力图，M为像素个数，

为一个像素点，将空间注意力图与原始特征图

进行矩阵乘法后得

，

为通过运算得到的新的类别原型，再将

与关系矩阵

进行矩阵乘法，得到空间注意力图

，

，即

的尺度为

，将空间注意力图与原始特征图

逐点相加，获得通过空间特征增强的特征图，如公式（7）所示，

（7）

式中，

初始化为0并通过迭代学习分配权重，T为转置操作，最终的特征图具有上下文信息并有选择的根据空间注意力图聚合局部特征和全局信息；

步骤四：搭建注意力模块：建立类别注意力模块和空间注意力模块，聚合两个注意力模块的功能，即通过卷积转换两个注意力模块的输出，执行逐像素的求和以完成特征融合，最后在卷积层生成最终预测图，如公式（8）所示，

（8）

式中，

为最终输出，

和

作为计算损失函数的辅助损失。

进一步的，所述步骤一中迭代优化类别特征原型过程中，因同一类型的特征本身也会有差异性，所以对每一个特征得到的距离

进行了距离调整，给定一阈值

，当特征距离小于

时，该特征计算出的距离将不再参与训练，而高于该阈值的距离只训练高出的部分，如公式（9）所示，

（9）

式中

为调整后的特征距离。

进一步的，所述步骤一中为了得到最优化的类别特征原型，提出类别原型分隔策略，通过增加额外的辅助损失函数，增加类别原型的距离，提升类别原型相对于特征的判别能力，如公式（10）和公式（11）所示，

（10）

（11）

式中，

表示两两特征原型之间的距离，m和n分别代表两个不同的类别原型，将其作为损失函数的惩罚项，并取负对数得到辅助损失函数

，则最终的类别原型回归损失函数如公式（12）和公式（13）所示，

（12）

（13）

式中

为惩罚系数，此时

为最终的类别原型回归损失函数。

本发明的有益效果：

本发明提出了类别原型回归的策略来对整个数据集回归，得出具有代表性的类别原型特征，同时聚类网络深度特征，使全局类别特征更加紧密；同时放大各类别间的差异性，通过类别特征原型构建关系矩阵，通过关系矩阵和原始特征构建了类别注意力模块和空间互注意力模块，类别注意力模块通过类别特征间的特征信息来对特征进行类别加权，空间注意力模块通过特征全局空间信息，局部类别信息来对空间信息进行加权，使整体特征更加紧密，提升最终的图像分割精度。

附图说明

图1是本发明的框架结构示意图，

图2是本发明的类别注意力图，

图3是本发明的空间注意力图，

图4是本发明的夜间红外场景分割图像，

图5是本发明的交叉熵损失函数训练后的各类别特征分布图，

图6是本发明的加入了类别原型策略训练后的各类别特征分布，

图7是本发明的距离优化策略特征分布图，

图8是本发明的类别原型隔离策略特征分布图，

图9是本发明的距离优化策略和类别原型隔离策略共同作用的特征分布图，

图10是本发明的注意力模块效果图，

图11是本发明的可见光和红外测试效果图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

如图1所示，本发明的基于类别原型回归的红外道路场景分割方法，设输入图像为P经过由卷积组成的特征提取器后，得到了每个位置的深度特征

，

。得到特征后，利用类别特征原型proto与深度特征构建关系矩阵；得到关系矩阵后，再利用关系矩阵来计算出注意力图，并通过特征融合机制来得到最后的特征图。值得注意的是，采用两路分别计算空间注意力图和类别注意力图，并且与原始的特征图进行融合再输出，丰富了语义特征，并保留了原始特征的完整性。图中的特征提取器，我们采用了去掉输出层的BiseNet，BiseNet具有丰富全局上下文视觉特征，并根据两路的特征图进行选择性的聚合，同时收获空间特征和语义特征，改善了空间细节和语义的一致性的神经网络，更有利于像素级的语义分割。

种基于类别原型回归的红外道路场景分割方法。首先，进行类别原型特征回归，类别原型是构建关系矩阵的基础。利用大量的数据标签和深度特征，通过回归得到类别特征原型，如公式（1）所示，

（1）

，通过特征提取器得到特征图上的每一个深度特征

，

，通过每个点的已有标签，得到每个位置的特征向量的类别n，将每个特征打上标签记为

，以此计算类别特征原型与该类别特征的距离

（2）

（3）

式中

是欧式距离的计算公式，M为像素个数。其中，在迭代优化类别特征原型过程中，因同一类型的特征本身也会有差异性，所以对每一个特征得到的距离

进行了距离调整，给定一阈值

，当特征距离小于

（9）

式中

为调整后的特征距离。根据实验结果，我们将

设为0.05，通过阈值调整，降低了特征原型与部分特征之间的差距，避免了个别差距过大而导致的无法匹配的问题。同时，由于红外车载场景复杂，目标对比度低，导致目标边缘特征与背景差距不大，会使不同类别特征接近，从而导致不同类别原型过于靠近。为了解决这一问题，得到最优化的类别特征原型，提出类别原型分隔策略，通过增加额外的辅助损失函数，增加类别原型的距离，提升类别原型相对于特征的判别能力，如公式（10）和公式（11）所示，

（10）

（11）

式中，

表示两两特征原型之间的距离，将其作为损失函数的惩罚项，并取负对数得到辅助损失函数

（12）

（13）

式中

为惩罚系数，根据经验取值

=0.3。

然后，构建关系矩阵。得到了类别特征原型后，通过深度特征和类别特征原型构建关系矩阵，如公式（4）所示，

（4）

式中，

代表关系矩阵，N为类别数目；该关系矩阵可以作为最终输出，其具有较强的特征判别能力和特征距离特性。

紧接着，实现注意力增强。通过关系矩阵构建不同的注意力图来实现特征增强，注意力增强分为类别注意力增强和空间注意力增强，其中：

a.类别注意力增强

首先，将关系矩阵置换为

，其中M=H*W，利用softmax层对

计算类别维度上的注意力图，如公式（5）所示，

（5）

式中，s代表每个位置相较于每个类别的概率分布，N为类别数，s即类别注意力图，尺寸为

。如图2所示，将每个像素特征与类别原型进行矩阵乘法后得到的注意力图，即将其与类别原型

，

，进行矩阵乘法，获得新的注意力图

，

，新的注意力图通过类别特征增强并与原始特征进行逐点相加，获得通过类别特征增强的特征图，如公式（6）所示，

（6）

式中，

初始化为0并通过迭代学习分配权重，最终的特征图具有类别注意力增强的效果。因原始的关系矩阵具有类别信息，将类别信息作为距离让网络更加关注于同一类别像素特征间的类内相似性，同时聚合上下文本信息，使同一类别内的紧密型更加显著。

b.空间注意力增强

区分特征在空间上的表示对于场景理解非常重要，通过空间注意力机制增强对全局的理解。首先，将关系矩阵置换为

，其中M=H*W，利用softmax层对

计算空间维度上的注意力图，如公式（6）所示，

（6）

式中，s代表每个类别中空间上各点的概率分布，M为像素个数，s即为空间注意力图。如图3所示，将空间注意力图与原始特征图

进行矩阵乘法后得

，再将

与关系矩阵

进行矩阵乘法，得到空间注意力图

，

，将空间注意力图与原始特征图

（7）

式中，

初始化为0并通过迭代学习分配权重，最终的特征图具有上下文信息并有选择的根据空间注意力图聚合局部特征和全局信息，使网络更加关注空间和局部特征的联系，增大类间差异性，可分性，优化局部错分问题。

第四步是搭建注意力模块。根据以上所述，建立类别注意力模块和空间注意力模块，聚合两个注意力模块的功能，即通过卷积转换两个注意力模块的输出，执行逐像素的求和以完成特征融合，最后在卷积层生成最终预测图，如公式（8）所示，

（8）

式中，

为最终输出，

和

作为计算损失函数的辅助损失。如此操作，能够使得输出更加稳定，且注意力模块不仅能够添加到编码模型中，还能够添加进编码-解码模型中。

综上可知，一种基于类别原型回归的场景理解网络，即CPRNet的训练过程分为两个阶段，第一个阶段是对类别原型进行回归，第二个阶段是加入注意力模型进行训练。如下表1所示，

为了验证基于类别原型回归的场景理解网络的有效性，以及采用各种策略对最终结果的影响，采用ENet的编码部分为基准模型在MFNet上的夜间红外数据上进行消融实验。为了验证算法模块的场景通用性和网络通用性，采用BiseNet作为基准模型，采用了完整的带有白天和夜晚数据的MFNet训练出结果，并和同类型算法进行了比较。根据回归过程中的各训练策略，分阶段进行了训练，得到了不同的结果，且交并比呈显著提升。消融实验分为两个阶段，第一阶段我们验证类别回归原型策略的有效性，第二个阶段我们验证注意力模块的有效性。

类别回归原型实验。为了验证类别回归原型策略对于特征的聚类效果和对分割精度的提升，通过ENet的编码部分为基准模型进行训练和测试，验证了类别原型回归中每个策略的有效性，实验结果如下表2所示：

表中给出了四种训练策略所得到的结果，我们的目的是为了得到更有表征性的类别原型从而构建更好的关系矩阵，于是采用了将关系矩阵通过softmax直接输出的方式来挑选出最优的类别原型，从结果中可以看出，通过类别原型对网络特征进行聚类后，由于优化了特征类内距离，整合了结构相似性，准确率提高，相较于原始的算法提升了接近1%，在进行样本距离优化改进后，微调了损失函数，使损失分布符合数据集整体分布，提升了1.1%，最后，在加入了类别原型分隔策略后，由于拉远了类别原型特征，优化了各类别特征中心的距离，提升了整体的判别能力，精度上升了1.2%。最后，类别原型策略总共提升了1.3%。由此可以看出，提出的类别原型回归策略，对每个部分都对最终的精度提升做出了贡献。类别原型回归的提出，提高了特征类内相似性，增加了特征的判别能力，更有利于分类器进行分类，而距离调整，通过调整类别原型与特征的距离，优化了类别特征原型在数据集中的位置分布，使类别特征分布更接近真实的场景分布信息，进一步减小了对于整体数据集的类内差异性，最后的类别原型分隔策略，通过对各类别原型间的距离进行惩罚，增大了类间的差异性，优化了整体性能。因此，类别原型的提出，不仅优化了特征分布，也为构建关系矩阵打下了基础。

如图4所示，在红外场景中，相较于可见光而言，对比度更高了。就分割结果而言，如图中所示，通过类别原型聚类后，对于某些类别，例如，汽车的边缘轮廓，路锥，马路牙的分割效果好了许多，特别是马路牙，一定程度上解决了马路牙分割结果断裂的问题。在加入类别特征原型策略之前，基准网络中的分割任务是通过交叉熵损失函数来进行约束的，这类损失函数的目的是为了增大类间的差异性，来对不同类别像素进行概率上的分类，然而由于类似于图中的人与人靠的过近，导致两个人之间的细小背景区域也被划分为人，两个目标被划分为一个区域，影响了分割精度，但是由于类别原型策略的加入，使得背景特征也被作为一类特征进行聚类，使得类内更为紧凑。为了进一步验证类别原型回归策略的有效性，我们将各阶段的特征通过UMAP可视化，UMAP，即一致的流行逼近和投影以进行降维，是一种降维技术，可用于可视化，也可用于一般的非线性降维。如图所示，不同颜色的点代表的是不同类别的特征。图5为用过交叉熵损失函数来进行训练的特征，在区域中分布较为分散，且比较杂乱，类别的边界部分不明显，有很多交替部分，难以进行分类，图6为加入了类别原型策略后的特征降维分布，明显可以看出，相较于图5而言，类别特征分布更为集中，且特征分布的边缘更加清晰，很少存在类别分布交替部分，采用线性分类器就可以很好的讲不同的类别进行分类。图7为类别特征原型加入了类别距离优化策略后的特征分布图，可以看出，相较于图5而言，特征的分布更为集中，且相对应的杂散特征点也少了许多。图8为加入了类别原型隔离策略的特征分布图，与图5相比，优化了各类别中心的距离，增大了类间差异。图9为多种策略同时进行训练后的特征分布图，可以看出，图9和图6相比，不仅是类别特征的更为集中了，边界也更为清晰，并且减少了许多杂散的难样本特征点，整体上对特征分布进行了进一步的优化。由此可见，类别原型策略，改变了深度特征的整体分布情况，增大了类内相似性，并优化了类间差异，使分类边界更加清晰，从一定程度上减小了分类器的负担，提升了分割精度，同时，也为后面构建关系矩阵和注意力模块打下了基础。

注意力模块实验。在验证了类别回归原型的有效性之后，为了验证两路注意力模块的有效性，设计相应的消融实验，如下表3所示，

加入类别注意力模块后，提升了2.88 % ，加入了空间注意力模块后，提升了2.91 %，将两个模块融合输出后，测试集提升了3.04 %，测试集准确率为49.51%，相较于采用初始基准网络提升了4.37 %。由此可见，每一个注意力模块都对于最终的精度提升做出了贡献，类别注意力模块生成的注意力图主要关注的是深度特征中各类别之间的差异性和相似性，通过关系矩阵的加入，让网络关注了每个特征向量的类别特征，相当与通过类别原型，加入了特征先验，让网络提前认知该特征属于哪个类别的概率最大，因此类别注意力图是一张具有类别响应的特征图。空间注意力模块生成的注意力图主要关注的是深度特征中全局和局部之间的相关性，至于到像素特征的相关性，从而建立了局部和全局的联系，使特征在空间上相互响应，从而更好的区分目标在局部和全局上的差异，提升整体分割精度。如图10所示，红外图像分割相较于可见光而言，可见光到了夜间低照度条件下，难以分辨行人和车辆。然而在红外灰度图像中，车辆和行人的特征比较清晰，分割结果也表明，能够得到较好的像素分类精度。而我们设计的基于类别原型回归的场景理解网络相较于原始的基准网络而言，在容易被错分的位置，表现相对较好。

夜间红外可见光对比实验。在验证了本算法的有效性后，为了进一步验证夜间红外道路分割相对于可见光的优势和提升分割的精度，在相同的实验环境下采用同样的训练策略训练了同数据集夜间的可见光图像，并进行了测试，得到的结果如表4所示，

表4中，可见光条件下的平均交并比只达到了27.72%，但是红外图像的平均交并比有49.51%，由此可见，在夜间可视环境不好的条件下，红外图像的分割精度要比可见光图像要高很多。如图11所示，(a)列为可见光图像，(b)列为红外图像，明显的可以看出，图像的行人在可见光条件下几乎没有了轮廓，然而在红外条件下，却还有清晰的图像轮廓，因此，从人眼认知来看，红外图像下的可视度是要更高的。从分割结果来看，如（e）列所示，可见光输入条件下的测试结果，行人几乎识别不出，精度很低，只能分割出一些微弱照度下又明显轮廓的车辆和马路牙。而红外图像作为输入的分割结果，行人的分割效果更好，与真实标签的差距小，且分割出来的结果有较为完整的轮廓。总体来讲，夜间可视度较差的条件下，红外图像的分割性能是要比可见光要好很多的。

算法通用性验证和同类算法比较。为了验证提出的基于类别原型回归的场景理解网络算法的通用性，以及为了和其他同类算法进行比较，采用完整的具有白天和夜晚的MFNet数据集在3通道和4通道上进行了实验，并在测试集上得到了结果，如表5所示，

MFNet数据集上各算法的准确率比较

方法	汽车	行人	自行车	路牙	停车场	护栏	路锥	减速带	平均交并比
										ERFNet(3c)[93]	64.8	36.5	42.4	20.5	10.0	0.0	0.0	28.8	33.2
ERFNet(4c)	67.1	56.2	34.3	30.6	9.4	0.0	0.1	30.5	36.1
										UNet(3c)[94]	65.2	42.6	47.8	27.8	20.8	0.0	35.8	31.0	40.8
UNet(4c)	66.2	60.5	46.2	41.6	17.9	1.8	30.6	44.2	45.1
										PSPNet(3c)[21]	69.0	39.9	46.7	26.9	11.1	0.0	34.1	26.7	39.0
PSPNet(4c)	74.8	61.3	50.2	38.4	15.8	0.0	33.2	44.4	46.1
										SegNet(3c)[83]	57.3	27.1	49.9	16.8	0.0	0.0	0.0	37.7	31.7
SegNet(4c)	65.3	55.7	51.1	38.4	10.0	0.0	12.0	51.5	42.3
										MFNet[35]	65.9	58.9	42.9	29.9	9.9	0.0	25.2	27.7	39.7
FuseNet[35]	75.6	66.3	51.9	37.8	15.0	0.0	21.4	45.0	45.6
										BiSeNet(3c)[85]	80.9	57.4	55.6	31.8	28.7	7.3	43.7	41.3	49.4
BiSeNet(4c)	81.9	64.4	57.3	35.5	29.4	3.4	45.7	37.5	50.3
										RPNet(3c)[95]	68.5	48.5	52.7	29.5	22.2	0.0	38.0	32.0	43.1
RPNet(4c)	78.2	65.7	57.2	44.0	18.6	0.0	45.7	32.9	48.9
										CPRNet(3c)	83.0	61.5	57.3	32.8	32.6	8.0	46.3	43.4	51.4
CPRNet(4c)	82.4	65.3	58.5	33.9	32.4	6.2	48.3	43.1	51.9

其中CPRNet(3c)是将可见光三通道图像作为输入得到的测试集结果为51.4 %，CPRNet(4c)是将可见光三通道和红外红外融合为4通道图作为输入得到的测试集结果，达到了51.9 %，性能优于部分同类算法。由表5中可以看出，不仅在汽车这类大尺度物体上有所提升，在自行车，路锥这类对比度较弱的类别上，也有显著性的提升，在停车场这类难样本上，达到了32.6 %的指标，较同类算法高了许多。精度的提升，得益于类别原型回归策略和注意力模块对特征进行聚类，提升特征的可分性，其中，相比较红外图像下灰度对比度高的目标，对比度低的目标提升要更为明显，误检率明显下降，且显而易见的是，相较于原始的基准网络BiseNet，CPRNet在该数据上的表现要更为优越，提升明显。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。