CN113076842B

CN113076842B - 一种用于提升极端天气与环境下交通标志识别精度的方法

Info

Publication number: CN113076842B
Application number: CN202110325075.7A
Authority: CN
Inventors: 万海峰; 李娜; 曲淑英; 孙启润; 程浩; 黄磊; 王策
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2023-04-28
Anticipated expiration: 2041-03-26
Also published as: CN113076842A

Abstract

本发明公开了一种提升极端天气与环境下交通标志识别精度的方法，以YoloV5目标检测模型为基础，融入聚焦模块、跨阶段局部融合模块和空间金字塔池化结构，对于光线不好的交通标志图像，能够更好地从局部特征来提取特征图信息，特征图更精准地表达了图像。对于数量不多的训练数据，本发明使用高斯噪声、添加椒盐噪声、减少亮度、锐化图像、尺寸大小等比例缩小来模拟交通标志在不同环境下的表现，并使用复制‑粘贴的方法将交通标志复制到无目标的图片上，极大地丰富了数据集。使用本发明的方法更容易地捕捉不同分辨率下的不同图像模式，能够使得目标的特征得到最大程度的提取和融合；同时使得收敛更快速和准确，有更少的定位错误，产生更精确的预测。

Description

一种用于提升极端天气与环境下交通标志识别精度的方法

技术领域

本发明涉及交通和计算机视觉技术领域，尤其涉及一种用于提升极端天气与环境下交通标志识别精度的方法。

背景技术

部署在公路沿线的交通标志承载着公路交通特定的管理内容和行为规则，自动驾驶车辆目前主要是通过自身的传感设备来获取该类信息。由于技术局限性，在一些复杂路况和环境下，交通标志的图像检测与识别受到雪、雾、乌云、沙尘、雨等极端气候影响导致能见度低，以及受到太阳光和夜间路灯照明强光、夜晚光线不良等极端条件的影响，自动驾驶车辆容易遗漏或者难以辨识交通标志标线承载的交通信息，存在一定的安全隐患。为了更好的向自动驾驶车辆明示公路的交通禁止、限制、遵行状况，告知道路状况和交通状况信息，需采用信息化、数字化的技术手段，将现有交通标志标线所承载的信息，以及自动驾驶所需的专有信息通过信息化方式发布给自动驾驶车辆，提升识别率。

当前的目标检测方法中，特征提取经过多次下采样，对于极端天气的或者光线不好的交通标志目标，经过下采样后很多信息在特征图上丢失，语义信息也不够丰富。现有的方法对于极端天气与环境下的交通标志目标检测，由于光线所限或者部分遮挡，目标的局部信息可能会丢失，而YoloV5并没有对于全局的信息有特别的关注，而且，对于不同分辨率下的特征缺乏一定的融合和学习，更重要的是，由于缺乏足够的工程应用数据集，导致精度一直无法在工程上达到满意的效果，最终导致雪、雾、乌云、雨等极端天气或者光线不良、遮挡等情形下的交通标志检测结果精度不足且效果不明显，成为交通标志智能检测与识别的难题和关键技术问题所在。

发明内容

针对现有目标检测技术对于极端天气下交通标志的检测精度不够高的问题，深入分析当前目标检测方法的不足之处，结合数据集样本数据少的问题，采用增强数据集的方法，极大地丰富了训练样本数据量，同时，本发明基于Yolo V5模型进行改进，针对本发明的所要解决的问题，创造性的加入了混合卷积和注意力特征融合，使用了聚焦高效IOU损失函数，更好地对于雨、雪、雾、夜晚、背光等极端不利条件下的交通标志进行检测。

一种用于提升极端天气与环境下交通标志识别精度的方法，包含以下步骤：

S201：加载待检测的交通标志图像；

S202：图像预处理；

将输入图像的大小统一为512×512的尺寸；

S203：加载训练好的改进的YoloV5目标检测网络模型；

S204：检测交通标志图像；

图像数据送入到网络模型中进行预测，得到目标的分类和位置信息；

S205：获得交通标志目标检测结果。

在上述方案的基础上，所述的改进YoloV5目标检测网络模型由以下方法构建：

S101：准备训练图像数据集；

使用极端天气和不良光线下拍摄的包含交通标志的图片作为训练图像数据集；

S103:构建改进的YoloV5目标检测网络系统

该网络系统由骨干网络、颈网络和检测器三部分组成；

其中：

骨干网络由聚焦模块、卷积单元、混合卷积模块、跨阶段局部融合模块、空间金字塔池化模块组成；

颈网络由卷积单元、跨阶段局部融合模块、上采样模块和注意力特征融合模块组成，颈网络是从骨干网络的特征提取的输出作为输入，聚合输入特征，并输出三个不同维度，作为三个不同尺寸的先验框的检测器的输入；

检测器接收到来自颈网络的不同维度的特征层输出，分别经过一组卷积操作调整输出通道数，并得到相应特征层每个网格点对应的预测框的位置信息、置信度信息和目标类别信息；

S104:开始训练，初始化权值矩阵

可选地，使用正态分布初始化权值矩阵；优选地，采用从方差为0.01的截断正态分布中采样，得到权重初始化值，这样能使后面的训练过程中，模型更快地收敛。

S105:前向传播

输入信号在权重矩值的帮助下，得到每一层的输出，最终到达输出层的预测值；

S106:计算聚焦高效IOU损失函数

为了计算聚焦高效IOU(Focal-EIOU)损失，先计算高效IOU(EIOU)损失，高效IOU(EIOU)损失公式如下：

其中：C_w、C_h代表包围两个框的最小长方形框的宽度和高度；b和b^gt代表预测框B和目标框B^gt的中心点，ρ代表两个点的欧式距离，c则是两个框的最小包围框的对角线距离，w、h代表预测框的宽和高；w^gt、h^gt代表目标框的宽和高；

然后，使用IOU的值来重新对EIOU损失加权，得到如下的聚焦高效IOU损失公式：

L_Focal-EIOU＝IOU^ΥL_EIOU

这里

表示交并比，γ是调节参数，取值γ＝0.5；L_Focal-EIOU为聚焦高效IOU；

S107：反向传播

通过前向传播得到由任意一组随机参数计算出的网络预测结果后，利用损失函数相对于每个参数的梯度来对他们进行修正更新；

S108：更新权值矩阵

根据反向传播得到的参数的梯度来对权值矩阵进行更新，达到减小损失函数的效果；

S109：如果没有到达最大训练次数，则返回步骤S105，继续前向传播，否则就保存性能最好的模型。

在上述方案的基础上，针对目前数据集样本数据少的问题，本发明在步骤S101和步骤S103之间还有步骤：S102训练数据增强；具体为：

S1021：对于已有的交通标志图片进行扣图和增强，利用Python-OpenCV程序，将包含交通标志的图片中的交通标志部分图片扣出来，作为单独的一张图片，此图片仅包含一种类型的交通标志；然后对该图片添加高斯噪声、添加椒盐噪声、减少亮度、锐化图像、尺寸大小等比例缩小等，以此来模拟各种情况下(雨天、雾天、远处、夜晚等)的交通标志图片；

S1022：采用复制-粘贴的方法来生成多张包含交通标志的图片

选取不包含任何交通标志的图片，把从S1021中生成的单独交通标志图片随机挑选9张，复制并粘贴到不包含任何交通标志的图片上去，与S101的图像数据集合并作为训练图像数据集，增大数据集图像数量。

在上述方案的基础上，步骤S103：构建改进的YoloV5目标检测网络的具体方法如下：

(1)骨干网络处理

输入图片尺寸大小为512×512×3，其中512×512表示图片的宽度和高度像素数量，3表示通道数量，即图像的RGB值；

输入图片经过聚焦模块后，大小为256×256×64；

然后，一个卷积单元紧跟其后，使图片大小变为128×128×128；

后面接着一个混合卷积模块，大小不变，还是128×128×128；

紧接着的是CSP1_1模块，大小不变，还是128×128×128；

然后接一个卷积单元，大小变为64×64×256；

后面接着一个混合卷积模块，大小不变，还是64×64×256；

紧接着的是CSP1_3模块，大小不变，还是64×64×256，输出记作P1；

然后接一个卷积单元，大小变为32×32×512；

后面接着一个混合卷积模块，大小不变，还是32×32×512；

紧接着的是CSP1_3模块，大小不变，还是32×32×512，输出记作P2；

然后接一个卷积单元，大小变为16×16×1024；

后面接着一个混合卷积模块，输出大小不变，还是16×16×1024；

最后接一个空间金字塔池化结构模块，输出大小不变，还是16×16×1024，输出记作P3；

(2)颈网络处理

颈网络的输入为骨干网络的输出P1、P2和P3；

首先，来自P3的输入大小为16×16×1024，经过CSP2_1模块后，大小部件仍然为16×16×1024；

后面接着一个卷积单元，大小变为16×16×512，把这里的输出记作N1；

然后接一个上采样模块，大小变为32×32×512；上采样的输出和来自骨干网络的输出P2，大小同样为32×32×512，作为注意力特征融合模块的两个输入，然后，大小就变为32×32×1024；

紧接着的是CSP2_1模块，大小变为32×32×512；

然后接一个卷积单元，大小变为32×32×256，把这里的输出记作N2；

后面接着一个上采样模块，大小变为64×64×256；上采样的输出和来自骨干网络的输出P1大小同样为64×64×256，作为注意力特征融合模块的两个输入，然后，大小就变为64×64×512；

紧接着的是CSP2_1模块，大小变为64×64×256，把这里的输出记作D1；

后面接一个卷积单元，大小变为32×32×256；卷积的输出和前述输出N2，大小同样为32×32×256，作为注意力特征融合模块的两个输入，然后，大小就变为32×32×512；

紧接着的是CSP2_1模块，大小仍然是32×32×512，把这里的输出记作D2；

然后接一个卷积单元，大小就变为16×16×512；卷积的输出和前述输出N1，大小同样为16×16×512，作为注意力特征融合模块的两个输入，然后，大小就变为16×16×1024；

紧接着的是CSP2_1模块，大小同样为16×16×1024，把这里的输出记作D3；

(3)检测器接收颈网络的三个不同维度的特征层输出D1(64×64×256)、D2(32×32×512)、D3(16×16×1024)；每组输出分别经过一组卷积操作调整输出通道数，并得到相应特征层每个网格点对应的预测框的位置信息、置信度信息和目标类别信息。

在上述方案的基础上，聚焦模块接收输入图像，大小为512×512×3，并进行切片操作；所述切片操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这样就拿到了四张图片，四张图片互补，但是没有信息丢失，因此，将宽度、高度信息就集中到了通道空间，输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图。

结合上述的技术方案，本发明的另一个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的用于提升极端天气与环境下交通标志识别精度的方法的步骤。

结合上述的技术方案，本发明还提供了一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的用于提升极端天气与环境下交通标志识别精度的方法的步骤。

本发明达到的有益效果：

(1)本发明使用高斯噪声、添加椒盐噪声、减少亮度、锐化图像、尺寸大小等比例缩小来模拟交通标志在不同环境下的表现，同时，使用复制-粘贴的方法将交通标志复制到无目标的图片上，极大地丰富了测试数据集，极大地提高了模型的性能。

(2)本发明使用YoloV5目标检测模型为基础，其聚焦模块使图片在下采样的过程中，可以一定程度上减少了模型的计算量，并且不会带来信息丢失，为后续的特征提取保留了更完整的图片下采样信息；其跨阶段局部融合模块增强了卷积神经网络的学习能力，能够在轻量化的同时保持准确性，降低计算瓶颈，同时还降低内存成本；空间金字塔池化结构模块实现局部特征和全局特征级别的特征融合，丰富最终特征图的表达能力。对于光线不好的交通标志图像，能够更好地从局部特征来提取特征图信息，特征图更好地表达了图像。

(3)本发明在YoloV5的基础上还作了如下的改进和优化，使用混合卷积并使用不同卷积核大小，使其更容易地捕捉不同分辨率下的不同图像模式；使用注意力特征融合模块执行基于注意力的特征融合，融合了来自同一层的特征和跨层的特征，也包括短距离和长距离的连接，在内部还提供了初步特征融合，能够使得目标的特征得到最大程度的提取和融合；使用聚焦高效IOU损失使得收敛更加快速和准确，而且，由于对高质量的训练样本有一定权重重新计算，使得聚焦高效IOU有更少的定位错误，从而产生更精确的预测。对于极端天气或者有遮挡的交通标志图像，能够通过改进的模块在不同的分辨率下，融合各层注意力的特征，使得模糊的特征最大化地体现出来，而且高质量的样本有更大的权重，帮助目标定位更加精确。

附图说明

图1是本发明方法的整体流程图；

图2是本发明图像增强前后的效果图；

图3是部分典型交通标志分类图；

图4是本发明改进的YoloV5目标检测网络模型结构图；

图5是聚焦模块图；

图6是残差单元和跨阶段局部融合模块单元结构图；

图7是空间金字塔池化结构单元图；

图8是混合卷积结构原理图；

图9是多尺度通道注意力模块结构原理图；

图10是注意力特征融合模块结构原理图；

图11是检测器结构原理图；

图12是目标框和预测框损失计算原理图；

图13是模型训练的损失函数变化图；

图14是模型验证的损失函数变化图；

图15是模型训练中召回率和精确度变化图；

图16是实施例精确率、召回率、mAP图；

图17是乌云天气下原始街景与本发明的预测效果图；

图18是雾天下原始街景与本发明的预测效果图；

图19是雪天与积雪遮挡下原始街景与本发明的预测效果图；

图20是夜晚下原始街景与本发明的预测效果图；

图21是日光反光下原始街景与本发明的预测效果图；

图22是阴影遮挡下原始街景与本发明的预测效果图。

具体实施方式

为使本发明实例目的及优点更加清楚，下面结合技术方案和附图，对本发明实施过程进行清楚完整的描述。

实施例1

结合图1，本发明公开了一种用于提升极端天气与环境下交通标志识别精度的方法，具体方法步骤如下：

S101：准备训练图像数据集

本实施例采用如下方法获得上述的图片：

1-下载已有的公用数据集：

清华腾讯交通标志数据集(https://cg.cs.tsinghua.edu.cn/traffic-sign/)，该数据集包含220类交通标志，大约100000张极端天气和不良光线下交通标志图片，采集于中国各大中小城市的交通标志街景图。但是，不是所有的图片都包含有220类交通标志中的至少一种，如很大一部分图片(大约90000多张)未包含任何交通标志。所有的图片数据都是预先标记好的，如目标交通标志的位置坐标、类别都分别保存在一个单独的xml文件中。这里，选取了大约9000张包含有交通标志的图片数据集，对于其他没有包含任何交通标志的图片舍弃，因为其对于训练的作用有限。

2-为了进一步地体现极端天气下和其他不利条件时交通标志识别，使用车载摄像头、照相机、手机摄像头等方式，收集了山东省大约1000张各种条件下的包含交通标志的图片，如夜晚、雨天、雪天、雾天、阴天、异物遮挡、强光照射等极端又难以识别情况下的照片，然后，使用LabelImg软件进行标注。使用LabelImg步骤为，大概待标记的图片，在图上的交通标志处用一个长方形框刚好框住，用鼠标调整长方形框的位置，然后填入该标志的类别名称，并保存文件，于是就生成了一个包含目标交通标志的坐标和类型的xml文件，此即为标注好的训练集文件。

由于上述2个方面的数据集均来自中国的城市，交通标志比较类似，类型也高度一致，于是将两个方面的数据集合并，共计10000张图片，且均为已经标注好位置坐标和交通标志类型的数据。

S102：训练数据增强

从步骤S101，可以得到从数据集中选取的含有交通标志的大约10000张标注好的作为训练数据的图片，但是，考虑到有220种交通标志，而且会有各种极端天气条件下的交通标志的识别，训练数据还是不够的，需要采取数据增强的方面来丰富数据集。分为以下两个步骤：

S1021：对于已有的交通标志图片进行扣图和增强，利用Python-OpenCV程序，将包含交通标志的图片中的交通标志部分图片扣出来，作为单独的一张图片，此图片仅包含一种类型的交通标志。然后对该图片添加高斯噪声、添加椒盐噪声、减少亮度、锐化图像、尺寸大小等比例缩小等，以此来模拟各种情况下(雨天、雾天、远处、夜晚等)的交通标志图片。

S1022：采用复制-粘贴的方法来生成多张包含交通标志的图片。如上步骤S101所述，清华腾讯数据集有90000多张不包含任何交通标志的图片，我们从中任意挑选20000张图片，这些图片都是不包含任何交通标志的。然后，对于每张图片，把从S1021中生成的单独交通标志图片随机挑选9张，复制并粘贴到不包含任何交通标志的图片上去，生成如图2所示的训练图片数据。在粘贴交通标志图片时，确保粘贴的交通标志不同其他已经粘贴上去的交通标志图片重叠，这样确保了交通标志的位置信息的多样性；在粘贴交通标志图片时，对于粘贴的交通标志图像同时进行一些变形，如+20％的尺寸大小调整、旋转+150、边缘模糊化等，以进一步确保训练样本的多样化。最终，从20000张不含任何交通标志的图片，可以相应地转换成20000张包含各种各样的交通标志的20000张图片。交通标志共有220类，图3显示了部分典型的交通标志和编号。

通过步骤S101和步骤S102，可以得到30000张包含各式交通标志的数据集。进一步地，将所有的标注的数据，按照5：1的比例来划分为训练集(25000张)和测试集(5000张)，训练数据进一步按照9:1的比例划分为训练集(22500张)和验证集(2500张)。

S103:构建改进的YoloV5目标检测网络模型

该模型系统如图4所示，由骨干网络、颈网络和检测器组成。

1-骨干网络由聚焦模块、卷积单元、混合卷积模块、跨阶段局部融合模块(CSP)、空间金字塔池化模块组成。

输入图片尺寸大小为512×512×3，其中512×512表示图片的宽度和高度像素数量，3表示通道数量，即图像的RGB值，采用512×512大小的输入图片大小，既可以有效地保留图像信息，因为过小的尺寸(如200×200)会使信息丢失，过大的尺寸(如1024×1024)会使得训练的时候资源消耗过大。

输入图片经过聚焦模块后，大小为256×256×64。

然后，一个卷积单元紧跟其后，使得其大小变为128×128×128。

后面接着一个混合卷积模块，大小不变，还是128×128×128。

紧接着的是CSP1_1模块，大小不变，还是128×128×128。

然后接一个卷积单元，大小变为64×64×256。

后面接着一个混合卷积模块，大小不变，还是64×64×256。

紧接着的是CSP1_3模块，大小不变，还是64×64×256，把这里的输出记作P1。

这样的设计，使得输入图片经过聚焦后，尽管有下采样，但是并没有损失图片的信息；后续的卷积、混合卷积、跨阶段局部融合(CSP)能够对于特殊天气条件的交通标志图片，有效地提取和融合图像特征，对于局部缺少信息能起到全局视野的特征提取和弥补作用。

然后接一个卷积单元，大小变为32×32×512。

后面接着一个混合卷积模块，大小不变，还是32×32×512。

紧接着的是CSP1_3模块，大小不变，还是32×32×512，把这里的输出记作P2。

然后接一个卷积单元，大小变为16×16×1024。

后面接着一个混合卷积模块，输出大小不变，还是16×16×1024。

最后接一个空间金字塔池化结构模块，输出大小不变，还是16×16×1024，把这里的输出记作P3。

这里的更多的卷积、混合卷积、跨阶段局部融合(CSP)，进一步在分辨率更低的特征图上进行特征提取，为后面的低分辨率的目标检测输出有效特征。空间金字塔池化实现局部特征和全局特征级别的特征融合，丰富最终特征图的表达能力。能够对于特殊天气条件的交通标志图片，能够把局部特征和全局特征有效融合，而且能够提取全方位的各个分辨率的特征，提高分类的置信度和定位的精准度。

2-颈网络由卷积单元、跨阶段局部融合模块(CSP)、上采样模块和注意力特征融合模块组成，其输入为骨干网络的输出P1、P2和P3。

颈网络主要是从骨干网络的特征提取的输出作为输入，聚合输入特征，并输出三个不同维度，作为三个不同尺寸的先验框的检测器的输入。采用卷积单元、跨阶段局部融合模块可以更好地对特征进行聚合，上采样能够尺寸一致，采用注意力特征融合模块执行基于注意力的特征融合，融合了来自同一层的特征和跨层的特征，也包括短距离和长距离的连接，在内部还提供了初步特征融合，能够使得目标的特征得到最大程度的提取和融合。对于特殊天气条件的交通标志图片，能够提取多方面的特征并采取多方面的融合，为检测提供全方位而且有效的特征。

首先，来自P3的输入大小为16×16×1024，经过CSP2_1模块后，大小部件仍然为16×16×1024。

后面接着一个卷积单元，大小变为16×16×512，把这里的输出记作N1。

然后接一个上采样模块，大小变为32×32×512。上采样的输出和来自骨干网络的输出P2，大小同样为32×32×512，作为注意力特征融合模块的两个输入，然后，大小就变为32×32×1024。

紧接着的是CSP2_1模块，大小变为32×32×512。

然后接一个卷积单元，大小变为32×32×256，把这里的输出记作N2。

后面接着一个上采样模块，大小变为64×64×256。上采样的输出和来自骨干网络的输出P1大小同样为64×64×256，作为注意力特征融合模块的两个输入，然后，大小就变为64×64×512。

紧接着的是CSP2_1模块，大小变为64×64×256，把这里的输出记作D1。

后面接一个卷积单元，大小变为32×32×256。卷积的输出和前述输出N2，大小同样为32×32×256，作为注意力特征融合模块的两个输入，然后，大小就变为32×32×512。

紧接着的是CSP2_1模块，大小仍然是32×32×512，把这里的输出记作D2。

然后接一个卷积单元，大小就变为16×16×512。卷积的输出和前述输出N1，大小同样为16×16×512，作为注意力特征融合模块的两个输入，然后，大小就变为16×16×1024。

紧接着的是CSP2_1模块，大小同样为16×16×1024，把这里的输出记作D3。

进一步地，如图5所示，骨干网络中，聚焦模块接收输入图像，大小为512×512×3，并进行切片操作；

所述切片操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这样就拿到了四张图片，四张图片互补，但是没有信息丢失，这样一来，将宽度、高度信息就集中到了通道空间，输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图，本例中得到256×256×12的特征图。如图5右下图的切片示意图，4×4×3的图像切片后变成2×2×12的特征图。然后，经过一个通道为64的卷积单元，就可以得到256×256×64大小的输出。

所述聚焦模块的作用是使图片在下采样的过程中，可以一定程度上减少了模型的计算量，并且不会带来信息丢失，为后续的特征提取保留了更完整的图片下采样信息。

进一步地，如图6所示，卷积单元由卷积函数后面紧跟批归一化处理和激活函数组成。

进一步地，如图6所示，CSP1_x模块的原始输入首先通过一个卷积单元，后面连接x个残差单元，紧接着的是一个卷积函数，得到一条路径的临时输出；同时，原始输入会通过另一个卷积函数到另一条路径，和前面所述卷积函数的第一条路径的输出进行拼接，后面紧接着的是批归一化处理、激活函数和卷积单元，之后输出，作为紧接的卷积单元的输入。如图6所示，残差单元由两个卷积单元连接，其初始输入和后一个卷积单元的输出进行向量的相加，作为输出。

进一步地，如图6所示，CSP2_x模块的结构和CSP1_x模块略有不同，在CSP2_x模块中，主路径连接的是2*x个卷积单元，而不是x个残差单元。CSP2_x的原始输入首先通过一个卷积单元，后面连接2*x个卷积单元，紧接着的是一个卷积函数，得到一条路径的临时输出；同时，原始输入会通过另一个卷积函数到另一条路径，和前面所述卷积函数的第一条路径的输出进行拼接，后面紧接着的是批归一化处理、激活函数和卷积单元，之后输出，作为紧接的卷积单元的输入。

总体而言，跨阶段局部融合的思想是将同一输入进行两路操作，一路进行卷积操作，另一路和上一路卷积操作的结果进行拼接。这样可以缓解以前需要大量推理计算的问题。具体体现在，它增强了卷积神经网络的学习能力，能够在轻量化的同时保持准确性，降低计算瓶颈，同时还降低内存成本。跨阶段局部融合(CSP)通过将梯度的变化从头到尾地集成到特征图中，在减少了计算量的同时可以保证准确率。

进一步地，如图7所示，空间金字塔池化结构首先将来自前一混合卷积模块的输出作为输入通过一个卷积单元，然后在三条路径中，分别通过核大小为5、9、13的最大池化层，将其输出再进行拼接，还原为原来的大小，最后经过一个卷积单元，输出的尺寸大小和输入一样。但是，通过空间金字塔池化结构单元，实现局部特征和全局特征级别的特征融合，丰富最终特征图的表达能力。

进一步地，如图8所示，混合卷积模块会在一个卷积操作中，混合不同卷积核大小(3×3，5×5，7×7)，使其更容易地捕捉不同分辨率下的不同图像模式。假设X^(h，w，c)代表输入，其大小为(h，w，c)，其中h代表宽度，w代表高度，c代表通道大小。W^{(k，k，c，m)}代表卷积核，k×k代表卷积核大小，c代表输入通道大小，m代表通道相乘因子。混合卷积操作会将通道分成几个组，然后对每个组使用不同大小的卷积核。也就是说，输入会被分成g个不同的组的虚拟张量

这里所有的虚拟张量都有相同的宽度w和高度h，其所有的通道大小和为原输入张量：c₁+c₂+...+c_g＝c。类似地，将卷积核也分成g组不同的虚拟核

对于第t组虚拟输入张量和卷积核，相应的虚拟输出如下计算：

其中

代表输入的分组虚拟张量，

代表分组虚拟核，

代表虚拟输出；

最终的输出张量就是所有的虚拟输出的拼接:

这里z_o＝z₁+...+z_g＝m·c代表最终的输出通道大小。

一个实现混合卷积的伪代码如下:

将注意力特征融合模块引入到YoloV5,可以接受来自两个不同维度的特征输入，更好地同时兼顾不同分辨率下的目标细节分辨力。对于来自两个不同维度的特征输入，特别地对于特殊天气条件的交通标志图片，由于部分信息缺失(遮挡或者光线不好)，此设计能从小的感受野和大的感受野提取尽量多的特征，然后，充分利用多尺度通道注意力模块能在通道维度聚合多尺度的上下文信息的特点，让各个通道的信息得到放大和充分展示，提高最终的检测的分辨率。如图9所示，多尺度通道注意力模块是注意力特征融合模块的重要组成部分。多尺度通道注意力模块的主要思想是通道注意力能够通过改变空间池化核大小来在多尺度上实现，所以，将本地上下文信息加到全局上下文信息中，并选择点卷积作为本地通道上下文的聚合器。本地通道上下文可以计算如下：

PWConv₁的卷积核大小为

PWConv₂的卷积核大小为

表示批归一化处理，δ代表激活函数，C代表通道数，r代表通道减少率。

全局通道上下文可以计算如下：

其中，

表示全局平均池化(global averagepooling)，H代表高度，W代表宽度，X代表输入。

那么多尺度通道注意力模块可以通过如下计算：

这里X表示输入，M(X)表示注意力权重，

表示相加，

表示元素对应的相乘。L(X)表示本地通道上下文，g(X)表示全局通道上下文，δ表示激活函数。

多尺度通道注意力模块通过在通道维度聚合多尺度的上下文信息，能够强化在全局分布的大目标的特征，同时，也强化了在局部分布的小目标的特征，使得网络在检测不同尺度的目标更加精确。对于特殊天气条件的交通标志图片，如果目标处于比较远的位置，由于其上下文信息得到了聚合和强化，此网络能够帮助强化小目标的特征，更加精确地实现精确识别。

进一步地，如图10所示，对于来自不同输出的两个输入X和Y(如X是来自小的感受野的低维特征图，Y是来自大的感受野的高维特征图)，特别地对于特殊天气条件的交通标志图片，由于部分信息缺失(遮挡或者光线不好)，此设计能从小的感受野和大的感受野提取尽量多的特征，互相互补，弥补了部分缺失带来的问题。

注意力特征融合可以计算如下：

这里

代表融合的特征，

表示初步特征融合，在我们的实施例中，采用了元素对应相加的计算方法。

图10虚线箭头代表

融合的权重

是一个0和1之间的数值，

也是一个0和1之间的数值。这样，就使得网络对X和Y执行一个加权平均的计算。

注意力特征融合模块执行基于注意力的特征融合，融合了来自同一层的特征和跨层的特征，也包括短距离和长距离的连接，在内部还提供了初步特征融合，能够使得目标的特征得到最大程度的提取和融合。对于特殊天气条件的交通标志图片，在YoloV5原网络的基础上，加上注意力特征融合模块，可以通过注意力机制，将不同分辨率的特征进行有效融合，同时还有短距离和长距离的连接，使得原本不明显或者部分遮挡的目标，其一部分显露的信息得到加强，而且通过全局特征强化，将部分信息和全局信息有效结合进行识别和定位，极大地提高了分类和定位精确度。

3-检测器将颈网络的输出D1、D2和D3作为输入，得到输出的预测结果。

检测器会同时预测边界框和类别。例如对于本实例中的16×16特征图，在每个位置，有3个锚点(锚点是固定的初始边界框猜想值)，一个锚点对应一个特定位置。我们使用相同的锚点形状仔细地选择锚点和每个位置，并在每个位置做出k个预测，即总共有16×16×k个预测结果。使用卷积核来做k个参数的预测：4个参数对应某个锚点的预测边框(x_min，y_min，x_max，y_max表示预测框的左上点和右下点坐标)，1个参数对应物体的置信度(confidence)得分，卷积核还预测221个类别概率以执行分类(每个概率值对应一个类别，包含背景，此例子中有220种交通标志，加上背景总共有221个类别)，所以这里k＝221+1+4＝226。而且每个位置有3个锚点，因此应该使用卷积核将特征图从16×16×D(这里D表示原来输入通道数)转换为16×16×678(类别＝221，(x_min,y_min,x_max,y_max,confidence)4个边框参数，1个置信度(confidence))。

如图11所示，检测器接收到来自三个颈网络的三个不同维度的特征层输出，分别为D1(64×64×256)、D2(32×32×512)、D3(16×16×1024)，每组输出分别经过一组卷积操作调整输出通道数，并得到相应特征层每个网格点对应的预测框的位置信息、置信度信息和目标类别信息。其中，位置信息为x_min，y_min，x_max，y_max表示预测框的左上点和右下点坐标；置信度信息confidence表示每个网格点内是否存在待检测目标；分类信息cls表示网格点中的目标属于每个种类的概率。本实施例中，即为4+1+221(交通标志类别)＝226，每个位置有3个预测框，所以，输出通道数为226×3＝678。

S104:开始训练，初始化权值矩阵

S105:前向传播

S106:计算聚焦高效IOU损失函数

在目标检测中，边界框回归是确定对象定位性能的关键步骤。现有的边界框回归损失函数都有一些缺点：

1)现有损失函数都无法有效地描述边界框回归的目标，从而导致收敛缓慢且回归结果不准确。

2)大多数损失函数都忽略了边界框回归中的不平衡问题，即与目标框重叠较少的大量锚框对边界框回归的优化起了最大作用。

所以，本发明采用了聚焦高效IOU损失函数，能够有效地解决上述问题。首先，聚焦高效IOU损失公式如下，它明确地测量了边界框回归中三个几何因素的差异，即重叠面积，中心点和边长。

如图12所示，这里Cw、Ch代表包围两个框的最小长方形框的宽度和高度。b和b^gt代表预测框B和目标框B^gt的中心点，ρ函数计算代表两个点的欧式距离，c则是两个框的最小包围框的对角线距离。w、h代表预测框的宽和高；w^gt、h^gt代表目标框的宽和高。

L_Focal-EIOU＝IOU^ΥL_EIOU

这里

表示交并比，γ是调节参数，本实施例中取γ＝0.5。使用聚焦高效IOU损失使得收敛更加快速和准确，而且，由于对高质量的训练样本有一定权重重新计算，使得聚焦高效IOU有更少的定位错误，从而产生更精确的预测。

S107：反向传播

S108：更新权值矩阵

根据反向传播得到的参数的梯度来对权值矩阵进行更新，达到减小损失函数的效果。

S109：如果没有到达最大训练次数，则返回步骤S105，继续前向传播，否则就保存性能最好的二进制模型。

在本实施例中，使用如下评价指标Precision(精确度：P)、Recall(召回率：R)和mAP。

首先，IoU(intersection over union，交并比)是目标检测算法中用来评价2个矩形框之间相似度的指数，IoU＝两个矩形框相交的面积/两个矩形框相并的面积。TP、TN、FP、FN即true positive，true negative，false positive，false negative的缩写，positive和negative表示的是预测得到的结果，预测为正类则为positive，预测为负类则为negative；true和false则表示预测的结果和真实结果是否相同，相同则是true，不同则为false。

精确度-即查准率，公式为：

召回率-即查全率，公式为：

mAP是一个可以用来度量模型预测框类别和位置是否准确的指标。AP(averageprecision)是得出每个类的检测好坏的结果，假设IoU值大于预先设定的阈值(常设为0.5)，那就说明这个预测框是对的，此时这个框就是TP(true positive)；假设IoU值小于预先设定的阈值(常设为0.5)，那就说明这个预测框是错的，此时这个框就是FP(falsepositive)。取所有AP的平均值就得到mAP。

在本实施例中，经过600个代(epoch)的训练后，从图13可知，训练的损失(物体置信度损失(obj)、类别损失(cls)、边界框损失(box))一开始有极速下降，然后随着训练进行，稳步下降，意味着模型越来越趋于稳定。

从图14可知，验证的损失(物体置信度损失(obj)、类别损失(cls)、边界框损失(box))一开始有极速下降，然后随着训练的进行，验证的损失稳步下降，意味着模型在训练集上也有比较稳定的性能，而不仅仅是应对训练集。

图15显示了随着训练的进行，精度和召回率曲线图，训练开始的时候，精度和召回率都极速增长。但是很快，就进入了稳步增长期。当训练得到600代的时候，精度和召回率都基本达到最大值。

从图16可知，精确度Precision和召回率Recall都稳步上升，最终Precision大约在0.75，Recall大约在0.82。mAP@0.5即当IOU为0.5时候的mAP值，大约在0.85，mAP@0.5:0.95表示在不同IoU阈值(从0.5到0.95，步长0.05)上的平均mAP，大约在0.8。

表1不同模型的识别试验结果

模型	精确度(％)	召回率(％)	mAP_0.5(％)	mAP_0.5:0.95(％)
					SSD	70.41	76.05	75.11	71.6
RetinaNet	69.83	75.71	75.02	71.5
					YoloV3	70.16	77.4	76.92	72.97
YoloV4	69.71	78.5	78.05	73.93
					YoloV5	71.92	80.31	80.05	75.63
本发明模型	74.53	84.01	83.73	78.66

表1表明，经过600代训练验证后，本发明模型在增强后的清华-腾讯数据集上取得最好的性能结果，精度达74.53，召回率达84.01，mAP_0.5达83.73，mAP_0.5:0.9达到78.66,比起次好的模型YoloV5,在精度上有2.61的提升，召回率有3.7的提升，mAP_0.5有3.68的提升，mAP_0.5:0.95有3.03的提升，提升效果显著。

为了本发明方法中关键步骤对模型性能的影响，进行了对比试验，试验结果如下：

表2运用不同模型的交通标志检测对比实验结果

如表2所示，经过600代训练验证后，基础线采用YoloV5+清华腾讯数据集，没有采用本发明的数据增强，结果非常糟糕，精度只有37.36，mAP_0.5只有46.94。采用数据增强后，训练图片数量达30000张，经过600代训练验证后，精确度达到71.92，增加了34.56，mAP_0.5达到80.05，增加了33.11。随着混合卷积和注意力特征融合的加入，模型的精确度和mAP都有小幅提升，直到使用本发明的改进的YoloV5模型(YoloV5+数据增强+混合卷积+注意力特征融合+聚焦IOU损失)后，精度达74.53，比只有数据增强高2.61，mAP_0.5达83.73，比只有数据增强高3.68。

实施例2

为了利用训练好的模型对新的图片进行目标检测，检测出交通标志的位置和类型，步骤如下：

S201：加载待检测的交通标志图像

图像可以从已有的存储加载，或者通过相机拍摄，或者从视频中取得一帧一帧的图像。

S202：图像预处理

将输入图像的大小统一为512×512的尺寸。

S203：加载实施例1训练好的改进YoloV5目标检测网络模型

通过加载训练好的改进的YoloV5目标检测网络模型，将该模型的网络参数载入到目标检测系统中。

S204：检测交通标志图像

图像数据送入到网络模型进行预测，得到目标的分类和位置信息。

S205：获得交通标志目标检测结果

如图17～图22所示，实际应用中，本发明分别选取了乌云天气、雪天与积雪遮挡下、雾天、夜晚下、日光反光下、阴影遮挡等典型的不同极端天气与环境情况下的交通标志图片，将其作为本发明实施例2在实际应用是加载的待检测的交通标志图像，经过本发明的系统处理后，输出检测结果，目标检测的结果通过在原来的图像上标记目标的位置矩形框，然后文字描述该目标的类别以及置信度。可以看到，预测图能正确地显示交通标志的位置和类型，在驾驶员或者无人驾驶车辆视觉受阻或者光线不佳等极端不利的情况下，帮助作出正确的驾驶决策。

表3表明了不同交通标志的类型的试验结果，可以进一步看到大部分标志均表现出优良的精度、召回率、mAP_0.5、mAP_0.5:0.95结果。

表3不同交通标志类型的试验结果

需要说明的是，上述各技术特征继续相互组合，形成未在上面列举的各种实施例，均视为本发明说明书记载的范围；并且，对本领域技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种用于提升极端天气与环境下交通标志识别精度的方法，其特征在于，包含以下步骤：

S201：加载待检测的交通标志图像；

S202：图像预处理；

将输入图像的大小统一处理为512×512的尺寸；

S203：加载训练好的改进的YoloV5目标检测网络模型；

S204：检测交通标志图像；

S205：获得交通标志目标检测结果；

所述的改进YoloV5目标检测网络模型由以下方法构建：

S101：准备训练图像数据集

S103:构建改进的YoloV5目标检测网络系统

该网络系统由骨干网络、颈网络和检测器三部分组成；

其中：

S104:开始训练，初始化权值矩阵

使用正态分布初始化权值矩阵；

S105:前向传播

S106:计算聚焦高效IOU损失函数

这里，L_IOU表示IOU损失，L_dis表示距离损失，L_asp表示外表(aspect)损失；

然后，使用EIOU的值来重新对EIOU损失加权，得到如下的聚焦高效IOU损失公式：

L_Focal-EIOU＝IOU^γL_EIOU

这里表示交并比，γ是调节参数，取值γ＝0.5；L_Focal-EIOU为聚焦高效IOU；

S107：反向传播

S108：更新权值矩阵

S109：如果没有到达最大训练次数，则返回步骤S105，继续前向传播，否则就保存性能最好的模型；

步骤S103：构建改进的YoloV5目标检测网络的具体方法如下：

(1)骨干网络处理

输入图片经过聚焦模块后，大小为256×256×64；

然后，一个卷积单元紧跟其后，使图片大小变为128×128×128；

后面接着一个混合卷积模块，大小不变，还是128×128×128；

紧接着的是CSP1_1模块，大小不变，还是128×128×128；

然后接一个卷积单元，大小变为64×64×256；

后面接着一个混合卷积模块，大小不变，还是64×64×256；

然后接一个卷积单元，大小变为32×32×512；

后面接着一个混合卷积模块，大小不变，还是32×32×512；

然后接一个卷积单元，大小变为16×16×1024；

(2)颈网络处理

颈网络的输入为骨干网络的输出P1、P2和P3；

紧接着的是CSP2_1模块，大小变为32×32×512；

(3)检测器接收颈网络的三个不同维度的特征层输出D1(64×64×256)、D2(32×32×512)、D3(16×16×1024)；每组输出分别经过一组卷积操作调整输出通道数，并得到相应特征层每个网格点对应的预测框的位置信息、置信度信息和目标类别信息；

在步骤S101和步骤S103之间还有步骤：S102训练数据增强；具体为：

S1021：对于已有的交通标志图片进行扣图和增强，利用Python-OpenCV程序，将包含交通标志的图片中的交通标志部分图片扣出来，作为单独的一张图片，此图片仅包含一种类型的交通标志；然后对该图片添加高斯噪声、添加椒盐噪声、减少亮度、锐化图像、尺寸大小等比例缩小，以此来模拟各种情况下的交通标志图片；

S1022：采用复制-粘贴的方法来生成多张包含交通标志的图片

2.根据权利要求1所述的用于提升极端天气与环境下交通标志识别精度的方法，其特征在于，聚焦模块接收输入图像，大小为512×512×3，并进行切片操作；

所述切片操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这样就拿到了四张图片，四张图片互补，但是没有信息丢失，因此，将宽度、高度信息就集中到了通道空间，输入通道扩充了4倍，即拼接起来的图片相对于原先的RGB三通道模式变成了12个通道，最后将得到的新图片再经过卷积操作，最终得到了没有信息丢失情况下的二倍下采样特征图。

3.根据权利要求1所述的用于提升极端天气与环境下交通标志识别精度的方法，其特征在于，

CSP1_x模块的原始输入首先通过一个卷积单元，后面连接x个残差单元，紧接着的是一个卷积函数，得到一条路径的临时输出；同时，原始输入会通过另一个卷积函数到另一条路径，和前面所述卷积函数的第一条路径的输出进行拼接，后面紧接着的是批归一化处理、激活函数和卷积单元，之后输出，作为紧接的卷积单元的输入；

CSP2_x的原始输入首先通过一个卷积单元，后面连接2*x个卷积单元，紧接着的是一个卷积函数，得到一条路径的临时输出；同时，原始输入会通过另一个卷积函数到另一条路径，和前面所述卷积函数的第一条路径的输出进行拼接，后面紧接着的是批归一化处理、激活函数和卷积单元，之后输出，作为紧接的卷积单元的输入；

所述残差单元由两个卷积单元连接，其初始输入和后一个卷积单元的输出进行向量的相加，作为输出。

4.根据权利要求1所述的用于提升极端天气与环境下交通标志识别精度的方法，其特征在于，

所述空间金字塔池化结构首先将来自前一混合卷积模块的输出作为输入通过一个卷积单元，然后在三条路径中，分别通过核大小为5、9、13的最大池化层，将其输出再进行拼接，还原为原来的大小，最后经过一个卷积单元，输出的尺寸大小和输入一样；

所述混合卷积模块会在一个卷积操作中，混合不同卷积核大小(3×3，5×5，7×7)，使其更容易地捕捉不同分辨率下的不同图像模式，假设X^(h，w，c)代表输入，其大小为(h，w，c)，其中h代表宽度，w代表高度，c代表通道大小；W^{(k，k，c，m)}代表卷积核，k×k代表卷积核大小，c代表输入通道大小，m代表通道相乘因子，混合卷积操作会将通道分成几个组，然后对每个组使用不同大小的卷积核，即，输入会被分成g个不同的组的虚拟张量所有的虚拟张量都有相同的宽度w和高度h，其所有的通道大小和为原输入张量：c₁+c₂+...+c_g＝c；类似地，将卷积核也分成g组不同的虚拟核对于第t组虚拟输入张量和卷积核，相应的虚拟输出如下计算：

其中代表输入的分组虚拟张量，代表分组虚拟核，代表虚拟输出；

最终的输出张量就是所有的虚拟输出的拼接：

这里z_o＝z₁+...+z_g＝m·c代表最终的输出通道大小；代表虚拟输出张量，代表最终输出张量。

5.根据权利要求1所述的用于提升极端天气与环境下交通标志识别精度的方法，其特征在于，注意力特征融合模块包含多尺度通道注意力模块；

注意力特征融合计算方式如下：

X是来自小的感受野的低维特征图，Y是来自大的感受野的高维特征图，代表融合的特征，表示初步特征融合；

和都是一个0和1之间的数值，都表示融合的权重；

多尺度通道注意力模块将本地上下文信息加到全局上下文信息中，并选择点卷积作为本地通道上下文的聚合器；本地通道上下文可以计算如下：

PWConv₁的卷积核大小为PWConv₂的卷积核大小为表示批归一化处理，δ代表激活函数；C通道数，r为通道减少率；

全局通道上下文可以计算如下：

其中，表示全局平均池化；H代表高度，W代表宽度，X代表输入；

多尺度通道注意力模块可以通过如下计算：

X表示输入，M(X)表示注意力权重，表示相加，表示元素对应的相乘，L(X)表示本地通道上下文，g(X)表示全局通道上下文，δ表示激活函数。

6.一种服务器，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述用于提升极端天气与环境下交通标志识别精度的方法的步骤。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述用于提升极端天气与环境下交通标志识别精度的方法的步骤。