CN114419584A

CN114419584A - 一种改进的非极大值抑制YOLOv4交通标志识别定位方法

Info

Publication number: CN114419584A
Application number: CN202210007083.1A
Authority: CN
Inventors: 王立哲; 王兰美; 周琨; 王桂宝; 廖桂生; 孙长征
Original assignee: Xidian University; Shaanxi University of Technology
Current assignee: Xidian University; Shaanxi University of Technology
Priority date: 2022-01-05
Filing date: 2022-01-05
Publication date: 2022-04-29

Abstract

本发明提出了一种改进的非极大值抑制YOLOv4交通标志识别定位方法，解决标准YOLOv4算法非极大值抑制(NMS)人为设定阈值和遇到被检测物体在同一区域内高度重叠时无法区分的问题；首先下载通用数据集tt100k数据集与LISA数据集，并进行数据增强；其次使用标准YOLOv4网络对两个增强后的数据集进行训练，检测其性能；然后针对现有标准YOLOv4算法中NMS的缺点提出改进版NMS算法，并将其嵌入YOLOv4模型进行训练；最后对比标准YOLOv4算法，分析测试结果；本发明提出的基于NMS改进的YOLOv4算法，引入分数重置的思想，综合考虑重叠度与置信度得分后，得到了合适的函数作为NMS改进的核心；改进后的NMS算法更适合于检测区域中有多个检测目标重叠的情况，且鲁棒性较好，可用于多个数据集的性能提升。

Description

一种改进的非极大值抑制YOLOv4交通标志识别定位方法

技术领域

该发明属于图像识别领域，尤其涉及一种改进的非极大值抑制YOLOv4交通标志识别定位方法，该方法在通用标准数据集上表现出很好的检测性能。

背景技术

随着我国汽车保有量的上升，交通事故发生的频率也在不断攀升。研究表明，超过90％的事故由驾驶员操作不当产生，而这之中由于交通标志识别错误导致的事故占到40％以上，对交通标志的决策错误占33％左右。通过车载摄像头快速准确检测前方的交通标识，正确反馈给驾驶员，可避免意外发生，保障驾驶员与车辆安全。目标检测技术包括传统目标检测技术及基于深度学习的目标检测技术，而后者由于在性能与复杂度方面优于前者，已成为当前目标检测领域的主流算法。

基于深度学习的目标检测技术主要分为一阶段与二阶段两种方法，二阶段方法分为两个阶段，第一阶段对输入图像划定候选区域，第二阶段使用卷积神经网络对候选区域进行分类，典型算法有R-CNN、Fast-R-CNN，这种算法准确度较高，但由于使用了两个子网络完成单个目标检测任务，训练成本与检测成本较高，速度较慢；一阶段方法只有一个阶段，即将输入的图片分为固定数量的 patch，在每个patch中又有固定数量的Anchor box，同时输出Anchor box的位置与分类标签，典型的算法有SSD512、YOLOv4，一阶段方法虽然准确度略逊于二阶段方法，但其只使用一个网络完成检测工作，训练成本与检测成本较低，速度较快，适用于需要快速响应的场景。

非极大值抑制(Non Maximum Suppression，NMS)是基于深度学习的目标检测技术的重要组成部分，其作用是抑制非极大值，这种算法可以搜索一定范围内的局部最大值，可用于目标检测生成候选框后筛选剔除多余候选框。包括YOLOv4在内的目标检测过程中都会生成很多个物体候选框，若对全部候选框进行分类，会使检测效率低下，且因为候选框内该类目标概率较高，导致检测结果冗余。所以需要使用NMS将指向同一目标的多余候选框去除，以保证最佳检测效果。

NMS算法的思想是在模型检测的后处理阶段，对于某一目标物体选取该目标所有预测框中置信度得分最大的为基准预测框，设定一个阈值，对于与基准预测框有重叠的预测框，其重叠度大于阈值的删除，小于阈值的保留，对于无重叠的预测框全部保留。但NMS算法缺点明显，首先需要人为设定一个阈值，该阈值由经验而定，难以平衡；其次，当同类目标比较密集，被检测物体高度重叠时，预测框之间的重叠度较高，NMS算法容易将属于另一目标的预测框删除，导致漏检。针对NMS算法存在的问题，本发明提出了基于Soft-NMS的改进算法用于完成YOLOv4预测框的筛选任务。引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的。基于此方法，当待处理预测框与基准预测框有大部分重叠时，该框将有很低的置信度得分；相反，若仅有小部分重叠，则它原有置信度得分不会受到太大影响。将本发明设计的NMS算法嵌入到YOLOv4模型中，表现出优异的性能，也可将此改进的NMS算法嵌入到其他模型中，具有较好的泛化性。

发明内容

本发明提出了一种改进的非极大值抑制YOLOv4交通标志识别定位方法，通过嵌入改进的NMS算法筛选预测框，提升了YOLOv4算法的检测性能。

为了实现上述目的，本发明采取如下的技术解决方案：

步骤一、下载当前目标检测领域通用数据集tt100k数据集与LISA数据集，使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致，验证算法实际效果；对下载的数据进行增强，包括翻转、裁剪、加噪、旋转操作；增强后生成的数据不仅可以增加数据集包含的图片数量，且因为增强后的图像与数据集中的原始图像相比更复杂，在保留原始图像特征点的情况下对图片风格、大小进行了改变，增加图像的模糊程度，使增强后的图像更具多样性，与实际情况更接近，可以提升训练后网络的鲁棒性；tt100k数据集的下载地址是： http：//cg.cs.tsinghua.edu.cn/traffic-sign/；LISA数据集的下载地址是： http：//cvrr.ucsd.edu/LISA/lisa-traffic-sign-dataset.html；

tt100k的全称是Tsinghua-Tencent 100K，是清华-腾讯互联网创新技术联合实验室提供的一个可用来识别的道路交通标志通用数据集；TT100K数据集中图像的分辨率为2048×2048，共有221种标志类别，大体分为三类：警告标志、禁令标志和指示标志；该数据集覆盖了不同天气条件和不同光照下的交通标志图像，其中训练集包含6105张图像，测试集包含3071张图像；由于原始图像分辨率较大，因此在本文实验中对原图像进行了裁剪处理，裁剪后的图像尺度为 608×608；由于数据集中各个类别之间的数据量存在严重不平衡的问题，因此本发明实验只选择了标注数据量较多的45类交通标志进行识别，并将测试集、验证集与训练集按照6∶2∶2的比例划分，对每张图像进行翻转、裁剪、加噪、旋转操作；

LISA的全称是Laboratory for Intelligent&Safe Automobiles，是由美国LISA实验室提供的一个可用来识别的道路交通标志通用数据集；通过驾驶车辆拍摄视频，从视频中提取带有交通标志的某一片段，再依据此片段最多提取30帧，对每一帧的视频图片进行标注；每一个交通标志的标注包含Tag、Position、 Occluded、On side rode四部分信息；采集图片的过程是在视频中提取的，车辆行驶过程有一定速度而非静止，因此出现模糊，也使得基于该数据集的交通标志识别算法对真实场景的适用性更强；美国LISA数据集中包含了47个类别，但各类别之间标注数量严重失衡，因此为保证数据可用性，本发明实验将选取其中四类标注数量较多的类别进行训练测试；将测试集、验证集与训练集按照6∶2∶2 的比例划分，并对每张图像进行翻转、裁剪、加噪、旋转操作；

步骤二、使用标准YOLOv4网络训练与检测交通标志；使用标准YOLOv4网络对基于步骤一的两个数据集分别进行训练，下载标准YOLOv4网络并进行编译，标准YOLOv4网络下载地址：https：//github.com/AlexeyAB/darknet，为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址，并指定类别数量与类别名称；根据精度要求设定epoch＝20000，根据本次实验数据集加载tt100k.data或 LISA.data，同时加载yolov4.cfg，程序即可开始训练，训练过程中使用标准 YOLOv4网络的非极大值抑制；保存训练过程中各层的权重文件Q₁，作为训练结束后检测的权值输入文件；利用权重文件Q₁进行测试，得到mAP与Recall；对得到的mAP、Recall与检测结果进行分析，发现原版NMS在没有进行设置的情况下检测高度重叠的物体容易将属于另一目标的预测框删除，导致漏检错检的情况；

1)构建YOLOv4网络模型，使用Initialization函数进行神经网络各层权值参数的初始化；

YOLOv4由四个部分连接组成，分别是：(1)Input输入端：指输入网络原始样本数据；(2)BackBone主干网络：指进行特征提取操作的卷积神经网络结构；(3)Neck颈部：对主干网络提取的图像特征进行融合，并将融合后的特征传递到预测层；(4)Head头部：对图像中的感兴趣目标物体进行预测，并生成可视化的预测框与目标类别；

下载标准YOLOv4网络后，对YOLOv4网络使用make命令进行编译，形成可执行文件darknet；为两个交通标志数据集tt100k与LISA分别编辑cfg文件夹中 tt100k.data与LISA.data文件，将class、train、valid、names字符串改为对应数据集增强后的目录与参数，这样就编辑好了标准YOLOv4网络Input部分需要的参数，设定epoch后，根据本次实验数据集加载tt100k.data或LISA.data，同时加载yolov4.cfg，程序即可开始训练；程序在运行时会使用Initialization函数进行神经网络各层权值参数的初始化；

2)从Input部分输入图片数据，经过Backbone部分，最终输出三个尺度的特征图，并使用分类器输出预测框Pb₁与分类概率CP_x；

数据由Input进入BackBone即主干网络后，继续进行信息提取，YOLOv4网络结构中的主干网络拥有53个卷积层，输出三种不同尺度的特征图；将三种不同尺度的特征图送入SPP与PANet组成的Neck部分，对特征图进行融合与特征提取，并将融合后的特征传递到预测层中，YOLOv4是一种一阶段目标检测算法，故Head部分会同时完成预测框Pb₁与其对应的分类概率CP_x，其中x为每个分类的索引；

3)使用NMS删除同一个目标上的多余检测框，并将预测框Pb₂与数据集中的真实框Gtb进行对比；

YOLOv4是一种一阶段目标检测算法，Head部分会同时生成预测框Pb₁与其对应的分类概率CP_x；但此时生成的预测框数量Pb₁太大，对图片中同一物体有大量检测框存在，造成检测结果冗余，需要对多余检测框进行NMS非极大抑制，使图片上的每个物体保留一个预测框Pb₂与其对应的分类概率CP_x；

NMS对预测框检测的过程中需要用到交并比(Intersection over Union，IoU)，用来判断检测框重叠程度；假设图片中的某个物体有6个预测框，同时每个预测框都对应一个分类概率，标准NMS的步骤如下：

(1)对六个框按照分类概率从大到小排序，假设排序结果为F＞E＞D＞C＞B＞A；

(2)以最大的分类概率预测框F为基准，分别对A、B、C、D、E与F的重叠度IOU进行计算，并将计算结果与预先设定的阈值进行对比；

(3)假设A、C与F的IOU超过了预先设定的阈值，则将A、C的分类概率置为0，丢弃A、C预测框；并标记F为保留的预测框；

(4)从剩下的E、D、B三个预测框中，选择分类概率最大的E作为基准，对B、D进行IOU计算，并将计算结果与预先设定的阈值进行对比，假设B、D的IOU结构均大于阈值，则将B、D的分类概率置0，标记 E为保留的预测框；

(5)重复步骤(3)与(4)，直到找到所有保留的预测框；

经过NMS算法处理后，可以得到最终感兴趣目标的预测框信息；若框中分类概率大于0.5，则认为属于此类别，小于0.5则不属于此类别；将其与数据集中的标签进行对比，得到召回率与准确率，从而计算AP与mAP，评价网络性能；但NMS算法缺点明显，首先需要人为设定一个阈值，该阈值由经验而定，难以平衡；其次，当同类目标比较密集，被检测物体高度重叠时，预测框之间的重叠度较高，NMS算法容易将属于另一目标的预测框删除，导致漏检；

4)循环执行步骤2)和3)继续迭代至epoch值，停止训练，计算mAP 与Recall，输出记录每一层权重与偏移的文件Q₁；

本发明按照精度要求设置迭代阈值epoch＝20000，迭代次数小于阈值时，使用Adam算法进行网络各层权值更新，直到阈值epoch＝20000停止训练，计算mAP与Recall，输出记录每一层权重与偏移的文件Q₁；

最基础的评价指标分为四个分类，分别为TP(True Positives)：正样本被正确识别为正样本；TN(True Negatives)：负样本被正确识别为负样本；FP(False Positives)：负样本被错误识别为正样本；FN(False Negatives)：正样本被错误识别为负样本；准确率(Accuracy)代表预测正确的样本数量与总样本数量的比值，用来评价算法模型的整体准确性能，计算方法为

精确率(Precision)即查准率，指的是识别正确的样本数占总识别样本数的比例，计算方法为

而召回率(Recall)即查全率，是指正确识别为正例的样例占所有正例样例的比例，计算方法为

如果一个算法模型性能好，那么应该满足如下条件：在保证较高准确率的情况下，召回率也应维持在较高水平；为了更形象化表示该条件，使用 Precision-Recall(P-R)曲线，来展示算法模型在准确率与召回率之间的权衡； AP指的是在某一阈值下获得的准确率与召回率所绘制的P-R曲线图与横纵坐标轴围成的面积大小，衡量模型在每个类别上检测性能的好坏，即

mAP指的是多个目标类别的AP再取平均值，用来衡量算法模型在所有待测类别上检测性能的好坏；设有N个类别，则mAP的计算方法为

本发明主要使用模型总体评价指标mAP与可以直接反应NMS性能的Recall作为主要评价指标；

步骤三、针对当前NMS算法需要人为设定阈值，难以平衡、检测物体高度重叠时易将属于另一目标的预测框删除导致漏检的问题，提出基于Soft-NMS 的改进算法用于完成YOLOv4预测框的筛选任务；引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的；基于此方法，当待处理预测框与基准预测框有大部分重叠时，该框将有很低的置信度得分；相反，若仅有小部分重叠，则它原有置信度得分不会受到太大影响；将替换非极大值抑制改进算法的YOLOv4网络使用步骤一中的两个数据集进行训练，得到权重文件Q₂；利用权重文件Q₂进行测试，得到mAP与Recall；

在原置信度得分的基础上乘以一个系数，用来衰减与预测框M有重叠的相邻预测框的得分，该系数即为分数重置函数，以f(IoU(M，b_i))表示，且与预测框M 重叠度越大的预测框，分数衰减越严重，最后与预先设定的得分阈值比较，将得分s_i小于阈值的预测框删除；

分数重置函数有两种表达形式，一种为线性加权，计算公式为

其中b_i为待处理框，N_t代表NMS阈值；一种为高斯加权，计算公式为

其中D表示经过Soft-NMS抑制的预测框；

实验中多采用高斯加权的形式，本发明基于高斯加权函数，提出一种新型分数重置函数，计算公式为

其中A为人为设定的系数，当取σ＝0.5时，Soft-NMS具有更好的性能，此时高斯加权的分数重置函数y₁与A取不同值时的新型分数重置函数y₂、y₃、y₄的函数表达式为

将y₁、y₂、y₃、y₄的函数表达式绘图，可以看出当IoU(M，b_i)较小时，y值衰减幅度较小，当IoU(M，b_i)较大时，y₂、y₃、y₄比y₁的下降幅度更大，即分数重置函数的衰减幅度更大，说明当预测框b_i与基准预测框M之间的重叠度 IoU(M，b_i)较大时，预测框b_i的置信度分数衰减更严重，对于有高度重叠的预测框，有利于预测框b_i的置信度得分衰减至分数阈值之下，从而加快预测框的筛选过程；为保证当预测框b_i与基准预测框M之间的重叠度IoU(M，b_i)较小时，它原有置信度得分不会受到太大影响，取A＝2，即y₃；

将该改进后的NMS算法嵌入至YOLOv4中，替换原始的NMS算法，并按照步骤二重新训练步骤一中的两个数据集，计算mAP与Recall，并保存权重文件Q₂；

步骤四、将步骤三与步骤二得到的mAP与Recall进行对比，同时查看替换改进NMS算法的YOLOv4对数据集中图片的检测结果，与标准NMS检测的同一张图片进行对比，分析测试结果。

本发明提出了一种基于Soft-NMS的改进NMS算法用于完成YOLOv4预测框的筛选任务；改进的NMS算法引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的；将改进标准YOLOv4的NMS 算法，可以在不影响算法检测速度的基础上提高算法性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中需要使用的附图做简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明方法的流程图；

图2是YOLOv4网络模型结构图；

图3是IoU计算示意图；

图4是NMS算法检测时漏检目标示意图；

图5是使用YOLOv4进行训练的流程图；

图6是高斯加权的分数重置函数y₁与A取不同值时的新型分数重置函数 y₂、y₂、y₃示意图；

图7是不同后处理阶段算法的检测过程及效果图；

图8是改进实验模型在不同遮挡情况下的检测结果图；

图9是原YOLOv4与改进后YOLOv4模型在tt100k验证数据集上的总体性能；

图10是原YOLOv4与改进后YOLOv4模型在LISA验证数据集上的总体性能；

具体实施方式

为了让本发明的上述和其它目的、特征及优点能更明显，下面特举本发明实施例，并配合所附图示，做详细说明如下：

图1为本方法具体流程图，可分为四个步骤：

1)构建YOLOv4网络模型，使用使用Initialization函数进行神经网络各层权值参数的初始化；

参照图2：数据由Input进入BackBone即主干网络后，继续进行信息提取， YOLOv4网络结构中的主干网络拥有53个卷积层，输出三种不同尺度的特征图；将三种不同尺度的特征图送入SPP与PANet组成的Neck部分，对特征图进行融合与特征提取，并将融合后的特征传递到预测层中，YOLOv4是一种一阶段目标检测算法，故Head部分会同时完成预测框Pb₁与其对应的分类概率CP_x，其中 x为每个分类的索引；

3)使用NMS进行非极大抑制，删除同一个目标上的多余检测框，并将预测框Pb₂与数据集中的真实框Gtb进行对比；

(5)重复步骤(3)与(4)，直到找到所有保留的预测框；

参照图4：经过NMS算法处理后，可以得到最终感兴趣目标的预测框信息；若框中分类概率大于0.5，则认为属于此类别，小于0.5则不属于此类别；将其与数据集中的标签进行对比，得到召回率与准确率，从而计算AP与 mAP，评价网络性能；但NMS算法缺点明显，首先需要人为设定一个阈值，该阈值由经验而定，难以平衡；其次，当同类目标比较密集，被检测物体高度重叠时，预测框之间的重叠度较高，NMS算法容易将属于另一目标的预测框删除，导致漏检；

最基础的评价指标分为四个分类，分别为TP(True Positives)：正样本被正确识别为正样本，即狗被正确识别为狗；TN(True Negatives)：负样本被正确识别为负样本，即猫被正确识别为猫；FP(False Positives)：负样本被错误识别为正样本，即猫被错误识别为狗；FN(False Negatives)：正样本被错误识别为负样本，即狗被错误识别为猫；准确率(Accuracy)代表预测正确的样本数量与总样本数量的比值，用来评价算法模型的整体准确性能，计算方法为

如果一个算法模型性能好，那么应该满足如下条件：在保证较高准确率的情况下，召回率也应维持在较高水平；为了更形象化表示该条件，使用Precision-Recall(P-R)曲线，来展示算法模型在准确率与召回率之间的权衡；AP指的是在某一阈值下获得的准确率与召回率所绘制的P-R 曲线图与横纵坐标轴围成的面积大小，衡量模型在每个类别上检测性能的好坏，即

其中D表示经过Soft-NMS抑制的预测框；

其中A为人为设定的系数，根据Soft-NMS作者所做实验总结，当取σ＝0.5时，Soft-NMS具有更好的性能，此时高斯加权的分数重置函数y₁与A取不同值时的新型分数重置函数y₂、y₃、y₄的函数表达式为

参照图6：将y₁、y₂、y₃、y₄的函数表达式绘图，可以看出当IoU(M，b_i)较小时，y值衰减幅度较小，当IoU(M，b_i)较大时，y₂、y₃、y₄比y₁的下降幅度更大，即分数重置函数的衰减幅度更大，说明当预测框b_i与基准预测框M之间的重叠度IoU(M，b_i)较大时，预测框b_i的置信度分数衰减更严重，对于有高度重叠的预测框，有利于预测框b_i的置信度得分衰减至分数阈值之下，从而加快预测框的筛选过程；为保证当预测框b_i与基准预测框M之间的重叠度IoU(M，b_i)较小时，它原有置信度得分不会受到太大影响，取A＝2，即y₃；

将该改进后的NMS函数嵌入55YOLOv4中，替换原始的NMS函数，并按照步骤二重新训练步骤一中的两个数据集，计算mAP与Recall，并保存权重文件 Q₂；

本发明提出了一种基于Soft-NMS的改进NMS算法用于完成YOLOv4预测框的筛选任务；改进的NMS算法引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的；将标准YOLOv4中的NMS算法替换替换为改进NMS算法，mAP与Recall均有提升，且改进NMS算法不影响算法检测速度；改进NMS算法不需要人为设定阈值，且当同类目标比较密集，被检测物体高度重叠时，发生漏检与错检的概率小于标准YOLOv4中的NMS算法。

下面结合仿真实例对该发明做进一步的描述。

仿真实例：

本发明使用原始YOLOv4作为对比，训练数据集与测试数据集均来自通用数据集tt100k与LISA，以验证算法对不同数据集的普适性。

图7是采用NMS策略与采用改进NMS策略所得的不同检测效果图，由图 (a)可看出，类别pr40解除限速与类别i2非机动车行驶这两个交通标志在图像中处于高度重叠状态，经算法模型处理后出现多个预测框同时标出这两个目标，如图(b)所示；经原始NMS策略处理后将这两个目标识别为同一个，仅有一个预测框得以保留，如图(c)所示；但经改进Soft-NMS策略处理后，这两个目标均有各自标识的预测框保留，如图(d)所示，检测效果相比NMS策略更好，提升了目标物体的召回率。

图8是采用本发明的改进NMS策略对目标存在一定程度重叠情况下的交通标志图片做检测分析，其中(a)、(c)图为待测图片，可见(a)图中目标类别pn被目标类别pl40部分遮挡，(c)图中目标类别pl20被目标类别p26大部分遮挡；(b)、 (d)图分别为(a)、(c)图的检测结果图，在(b)图中被检目标与置信度分别为pl70： 100％、pl50：100％、pl40：99％、pn：99％，在(d)图中被检目标与置信度分别为p10： 100％、p26：99％、pl20：85％。由检测结果可知，即使待检目标被其他目标部分遮挡，本节实验算法模型仍能够准确识别并定位目标，且给出相应的置信度值，可以发现检测结果均正确，且召回率维持在100％，说明本发明算法模型具有较强的鲁棒性，对目标遮挡这一影响因素的克服度较高。

图9是原YOLOv4与使用本发明的改进NMS后YOLOv4模型在tt100k验证数据集上的总体性能，算法模型的性能得到进一步的提升，mAP值达到了89.14％，且Recall值达到了89.49％，比原YOLOv4模型的mAP值与Recall值分别提升了 1.03％和2.98％，这是因为改进NMS算法的引入，对不同尺寸的交通标志目标，尤其是小目标以及目标之间高度重叠情况下的检测出现的漏检问题予以解决，算法模型性能提升明显。

图10是原YOLOv4与使用本发明的改进NMS后YOLOv4模型在LISA验证数据集上的总体性能，实验结果表明，改进NMS后YOLOv4模型比原YOLOv4模型的mAP值与Recall值分别提升了0.29％和1.17％，mAP值提升效果并不明显，但是召回率Recall值持续提升，这是因为LISA数据集中的类别少，特殊情况比如目标高度重叠或者遮挡的情况较少，目标尺寸变化差异不大，原始 YOLOv4算法模型在这种情况下已经达到了很高的精度及召回率。

综上仿真结果表明，与原始YOLOv4模型相比，本发明改进NMS后YOLOv4 模型可以更好区分图中同一区域高度重叠的物体的情况，效果优于需要人为设定阈值的原始YOLOv4模型。同时，本发明改进NMS后YOLOv4模型拥有普适性，对tt100k与LISA数据集均有检测性能提升。

Claims

1.一种改进的非极大值抑制YOLOv4交通标志识别定位方法，其特征如下：

步骤一、下载当前目标检测领域通用数据集tt100k数据集与LISA数据集，使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致，验证算法实际效果；对下载的数据进行增强，包括翻转、裁剪、加噪、旋转操作；增强后生成的数据不仅可以增加数据集包含的图片数量，且因为增强后的图像与数据集中的原始图像相比更复杂，在保留原始图像特征点的情况下对图片风格、大小进行了改变，图像的模糊程度增加，使增强后的图像更具多样性，与实际情况更接近，可以提升训练后网络的鲁棒性；tt100k数据集的下载地址是：http：//cg.cs.tsinghua.edu.cn/traffic-sign/；LISA数据集的下载地址是：http：//cvrr.ucsd.edu/LISA/lisa-traffic-sign-dataset.html；

步骤二、使用标准YOLOv4网络训练与检测交通标志；使用标准YOLOv4网络对基于步骤一的两个数据集分别进行训练，下载标准YOLOv4网络并进行编译，标准YOLOv4网络下载地址：https：//github.com/AlexeyAB/darknet，为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址，并指定类别数量与类别名称；根据精度要求设定epoch＝20000，根据本次实验数据集加载tt100k.data或LISA.data，同时加载yolov4.cfg，程序即可开始训练，训练过程中使用标准YOLOv4网络的非极大值抑制(Non Maximum Suppression，NMS)；保存训练过程中各层的权重文件Q₁，作为训练结束后检测的权值输入文件；利用权重文件Q₁进行测试，得到mAP与Recall；对得到的mAP、Recall与检测结果进行分析，发现原版NMS在没有进行设置的情况下检测高度重叠的物体容易将属于另一目标的预测框删除，导致漏检错检的情况；

步骤三、针对当前NMS算法需要人为设定阈值，难以平衡、检测物体高度重叠时易将属于另一目标的预测框删除导致漏检的问题，提出基于Soft-NMS的改进算法用于完成YOLOv4预测框的筛选任务；引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的；基于此方法，当待处理预测框与基准预测框有大部分重叠时，该框将有很低的置信度得分；相反，若仅有小部分重叠，则它原有置信度得分不会受到太大影响；将替换非极大值抑制改进算法的YOLOv4网络使用步骤一中的两个数据集进行训练，得到权重文件Q₂；利用权重文件Q₂进行测试，得到mAP与Recall；

2.根据权利要求书1所述的一种基于NMS改进的YOLOv4算法，步骤一：下载当前目标检测领域通用数据集tt100k数据集与LISA数据集，使用这两个数据集可保证算法检测效果与该领域公开的通用数据集保持一致，验证算法实际效果；对下载的数据进行增强，包括翻转、裁剪、加噪、旋转操作；增强后生成的数据不仅可以增加数据集包含的图片数量，且因为增强后的图像与数据集中的原始图像相比更复杂，在保留原始图像特征点的情况下对图片风格、大小进行了改变、图像的模糊程度增加，使增强后的图像更具多样性，与实际情况更接近，可以提升训练后网络的鲁棒性；tt100k数据集的下载地址是：http：//cg.cs.tsinghua.edu.cn/traffic-sign/；LISA数据集的下载地址是：http：//cvrr.ucsd.edu/LISA/lisa-traffic-sign-dataset.html；

tt100k的全称是Tsinghua-Tencent 100K，是清华-腾讯互联网创新技术联合实验室提供的一个可用来识别的道路交通标志通用数据集；TT100K数据集中图像的分辨率为2048×2048，共有221种标志类别，大体分为三类：警告标志、禁令标志和指示标志；该数据集覆盖了不同天气条件和不同光照下的交通标志图像，其中训练集包含6105张图像，测试集包含3071张图像；由于原始图像分辨率较大，因此在本文实验中对原图像进行了裁剪处理，裁剪后的图像尺度为608×608；由于数据集中各个类别之间的数据量存在严重不平衡的问题，因此本文实验只选择了标注数据量较多的45类交通标志进行识别，并将测试集、验证集与训练集按照6∶2∶2的比例划分，对每张图像进行翻转、裁剪、加噪、旋转操作；

LISA的全称是Laboratory for Intelligent&Safe Automobiles，是由美国LISA实验室提供的一个可用来识别的道路交通标志通用数据集；通过驾驶车辆拍摄视频，从视频中提取带有交通标志的某一片段，再依据此片段最多提取30帧，对每一帧的视频图片进行标注；每一个交通标志的标注包含Tag、Position、Occluded、On side rode四部分信息；采集图片的过程是在视频中提取的，车辆行驶过程有一定速度而非静止，因此出现模糊，也使得基于该数据集的交通标志识别算法对真实场景的适用性更强；美国LISA数据集中包含了47个类别，但各类别之间标注数量严重失衡，因此为保证数据可用性，本文实验将选取其中四类标注数量较多的类别进行训练测试；将测试集、验证集与训练集按照6∶2∶2的比例划分，并对每张图像进行翻转、裁剪、加噪、旋转操作。

3.根据权利要求书1所述的一种基于NMS改进的YOLOv4算法，步骤二、使用标准YOLOv4网络训练与检测交通标志；使用标准YOLOv4网络对基于步骤一的两个数据集分别进行训练，下载标准YOLOv4网络并进行编译，标准YOLOv4网络下载地址：https：//github.com/AlexeyAB/darknet，为两个交通标志数据集tt100k与LISA分别更改cfg文件夹中tt100k.data与LISA.data文件中的训练集、验证集、测试集目录为下载数据集的地址，并指定类别数量与类别名称；根据精度要求设定epoch＝20000，根据本次实验数据集加载tt100k.data或LISA.data，同时加载yolov4.cfg，程序即可开始训练，训练过程中使用标准YOLOv4网络的非极大值抑制；保存训练过程中各层的权重文件Q₁，作为训练结束后检测的权值输入文件；利用权重文件Q₁进行测试，得到mAP与Recall；对得到的mAP、Recall与检测结果进行分析，发现原版NMS在没有进行设置的情况下检测高度重叠的物体容易将属于另一目标的预测框删除，导致漏检错检的情况；

下载标准YOLOv4网络后，对YOLOv4网络使用make命令进行编译，形成可执行文件darknet；为两个交通标志数据集tt100k与LISA分别编辑cfg文件夹中tt100k.data与LISA.data文件，将class、train、valid、names字符串改为对应数据集增强后的目录与参数，这样就编辑好了标准YOLOv4网络Input部分需要的参数，设定epoch后，根据本次实验数据集加载tt100k.data或LISA.data，同时加载yolov4.cfg，程序即可开始训练；程序在运行时会使用Initialization函数进行神经网络各层权值参数的初始化；

3)使用进行非极大抑制，删除同一个目标上的多余检测框，并将预测框Pb₂与数据集中的真实框Gtb进行对比；

YOLOv4是一种一阶段目标检测算法，Head部分会同时生成预测框Pb₁与其对应的分类概率CP_x；但此时生成的预测框数量Pb₁太大，对图片中同一物体有大量检测框存在，造成检测结果冗余，需要对多余检测框进行非极大抑制，使图片上的每个物体保留一个预测框Pb₂与其对应的分类概率CP_x；

(4)从剩下的E、D、B三个预测框中，选择分类概率最大的E作为基准，对B、D进行IOU计算，并将计算结果与预先设定的阈值进行对比，假设B、D的IOU结构均大于阈值，则将B、D的分类概率置0，标记E为保留的预测框；

(5)重复步骤(3)与(4)，直到找到所有保留的预测框；

4)循环执行步骤2)和3)继续迭代至epoch值，停止训练，计算mAP与Recall，输出记录每一层权重与偏移的文件Q₁；

本发明主要使用模型总体评价指标mAP与可以直接反应NMS性能的Recall作为主要评价指标。

4.根据权利要求书1所述的一种基于NMS改进的YOLOv4算法，步骤三、针对当前NMS算法需要人为设定阈值，难以平衡、检测物体高度重叠时易将属于另一目标的预测框删除导致漏检的问题，提出基于Soft-NMS的改进算法用于完成YOLOv4预测框的筛选任务；引入分数重置的思想，降低重叠度较大的预测框的置信度得分，达到抑制重复预测框输出的目的；基于此方法，当待处理预测框与基准预测框有大部分重叠时，该框将有很低的置信度得分；相反，若仅有小部分重叠，则它原有置信度得分不会受到太大影响；将替换非极大值抑制改进算法的YOLOv4网络使用步骤一中的两个数据集进行训练，得到权重文件Q₂；利用权重文件Q₂进行测试，得到mAP与Recall；

在原置信度得分的基础上乘以一个系数，用来衰减与预测框M有重叠的相邻预测框的得分，该系数即为分数重置函数，以f(IoU(M，b_i))表示，且与预测框M重叠度越大的预测框，分数衰减越严重，最后与预先设定的得分阈值比较，将得分s_i小于阈值的预测框删除；

其中D表示经过Soft-NMS抑制的预测框；

将y₁、y₂、y₃、y₄的函数表达式绘图，可以看出当IoU(M，b_i)较小时，y值衰减幅度较小，当IoU(M，b_i)较大时，y₂、y₃、y₄比y₁的下降幅度更大，即分数重置函数的衰减幅度更大，说明当预测框b_i与基准预测框M之间的重叠度IoU(M，b_i)较大时，预测框b_i的置信度分数衰减更严重，对于有高度重叠的预测框，有利于预测框b_i的置信度得分衰减至分数阈值之下，从而加快预测框的筛选过程；为保证当预测框b_i与基准预测框M之间的重叠度IoU(M，b_i)较小时，它原有置信度得分不会受到太大影响，取A＝2，即y₃；

将该改进后的NMS算法嵌入至YOLOv4中，替换原始的NMS算法，并按照步骤二重新训练步骤一中的两个数据集，计算mAP与Recall，并保存权重文件Q₂。

5.根据权利要求书1所述的一种基于NMS改进的YOLOv4算法，步骤四、将步骤三与步骤二得到的mAP与Recall进行对比，同时查看替换改进NMS算法的YOLOv4对数据集中图片的检测结果，与标准NMS检测的同一张图片进行对比，分析测试结果。