CN114782983A

CN114782983A - 基于改进特征金字塔和边界损失的道路场景行人检测方法

Info

Publication number: CN114782983A
Application number: CN202210295880.4A
Authority: CN
Inventors: 彭树生; 杨举魁; 吴礼; 张靖桢
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-07-22

Abstract

本发明公开了一种基于改进特征金字塔和边界损失的道路场景行人检测方法，可用于对包含行人的视频或者图像进行检测，主要解决现有检测技术中聚类结果差异性较大和无法训练优化的问题，实现步骤为：创建训练集和测试集；采用k‑means++算法对数据集进行聚类分析，筛选出标注数据中的无效信息，对有效信息进行聚类操作，得到精度更高的锚框尺寸；在原YOLOv3算法中特征金字塔结构的基础上引入PANet结构，并提出一种ResBlock结构代替原有的残差结构，提高模型对小目标物体的检测精度；采用GIoU作为边界框损失函数，解决IoU相等时产生的差异性问题，从而得到准确率更高的行人检测模型。

Description

基于改进特征金字塔和边界损失的道路场景行人检测方法

技术领域

本发明属于目标检测技术领域，具体涉及一种基于改进特征金字塔和边界损失的道路场景行人检测方法。

背景技术

目标检测是在图像和视频中扫描搜寻某个目标，如果发现目标就可探究其具体位置的方法。目标检测具体是在计算机或是其他硬件设备上实现的，目标检测的发展主要有两个阶段，早期的传统目标检测使用人工设计的方法提取特征并进行分类，随着算法研究的深入及硬件平台的计算能力提高，基于CNN深度学习的目标检测在现阶段的研究和应用中发展较快。

在2016年，Ross B.Girshick提出了算法Faster R-CNN，其在网络结构上作出较多调整，聚合了特征提取、边界回归任务和目标分类等步骤，有效提高了网络性能。Faster R-CNN放弃了遍历备选区域的方法，首次提出了一种名叫RPN的网络模块。在选择候选区域的过程中，首先使用3x3的滑动窗口对输入特征图进行卷积，并设定了9种尺寸的锚框来预测，将输出的低维特征传到全连接层，进行区域分类和边界框回归。由于采用了双阶段网络，Faster R-CNN算法比起之前的检测网络更加精准，对于多尺度、小目标问题能够更好的解决，但其检测速度依旧无法满足实际应用的要求，无法落实到实际应用中。

2018年，Redmon J推出了Yolov3算法。该算法将Darknet-53作为主干网络，其借鉴了Resnet的设计思想，引入了shortcut的网络结构，提高检测精度的同时大幅度减少检测所用的时间，是目前学术界最为流行的目标检测算法，广泛应用各种场景下的行人检测。但由于道路场景中行人目标一直存在目标遮挡、尺寸较小和分布密集等特点，原始 YOLOv3算法对其检测容易存在误检漏检等问题，对于目标密集场景下的定位准确度不高，对有着特殊宽高比的目标检测效果差。

发明内容

本发明的目的在于提出了一种基于改进特征金字塔和边界损失的道路场景行人检测方法，旨在解决现有检测方法检测精度低的问题。

实现本发明目的的技术方案为：一种基于改进特征金字塔和边界损失的道路场景行人检测方法，包括如下步骤：

S1:获取道路场景的行人视频，创建训练集和测试集；

S2：采用k-means++算法对数据集进行聚类分析，得到候选框尺寸；

S3：对输入图像进行预处理；

S4：将预处理后的图像输入改进的YOLOv3检测模型进行训练，得到行人检测模型。

优选地，采用k-means++算法对数据集进行聚类分析前筛选训练集中的有效坐标数据，具体方法为：

将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中，起始坐标数据从data_box中保存的第一组数据开始算起，初始化数组的索引值index＝0；

计算出标注框的宽度width及高度height，若width＝0或height＝0，则其对应的data_box中的坐标数据无效，删除这组数据，令lenth＝lenth-1，并进行下一组数据的判断；若width与height都不为0，则其对应的坐标数据有效，计算宽度width与高度height 的比值rate，若比值rate大于设定值，则该比值对应的坐标数据无效，令lenth＝lenth-1，从data_box数组中删除并进行下一组数据的判断；若比值rate小于或等于设定值，则该比值对应的坐标数据有效，令index＝index+1，重复执行之前步骤直至index＝lenth，筛选出全部有效坐标数据。

优选地，采用k-means++算法对数据集进行聚类分析，得到候选框尺寸的具体方法为：

设定9个聚类中心Z＝{z1,z2…,z9}，定义行数等于lenth，列数等于9的二维数组data_kmeans，数组的行表示data_box中的有效坐标数据，列表示聚类中心的距离值，初始化data_kmeans中的元素为0；

计算data_box数组的数据均值，作为第一个聚类中心z_1；计算data_box中lenth组有效坐标信息与聚类中心z_1的距离，选择距离最远的8个点作为剩下的聚类中心；

计算data_box中lenth组有效坐标信息与9个聚类中心的距离，将得到的距离值写进data_kmeans数组中对应的行数和列数的位置；将data_box中每行对应的有效坐标信息分配给该行中最小距离值对应的聚类中心；完成全部坐标信息的分配，计算出每个聚类中心里成员的宽高均值，作为该聚类中心新的数值；重复执行之前的步骤，直至9个聚类中心的数值不再变化。

优选地，采用的距离度量公式为：

d＝1-IOU(box，Z)

其中，box表示有效坐标信息，IOU表示预测框和真实框的交互比，A_P和A_G分别表示预测框和真实框的面积，A_I表示两种区域集合部分的面积，Z表示聚类中心。

优选地，对图像进行预处理具体包括行Mosaic数据增强、hsv数据增强、自适应图片缩放。

优选地，改进的YOLOv3检测模型具体为:

在YOLOv3检测模型特征金字塔层与检测层之间添加PANet结构，

采用ResBlock结构替代YOLOv3检测模型特征金字塔层中的残差结构；

所述PANet结构包括两个下采样层、两个Concat层和两个Resblock结构，将替代后的ResBlock结构输出的感受野尺度为52x52的特征图通过一个下采样层进行处理，输出尺寸为26x26的新特征图；经过一个Concat层，将下采样后的性特征图与替代后的ResBlock结构输出的感受野尺度为26x26的特征图融合在一起；将融合后的特征图通过一个Resblock结构进行特征提取，并使用ReLu激活函数对特征进行非线性化处理；将新的感受野尺度为26x26的特征图经过一个下采样层完成下采样操作，输出尺寸为 13x13的特征图；经过一个Concat层和Resblock结构实现与替代后的ResBlock结构输出的感受野尺度为13x13的特征图融合，完成尺度为26x26特征图与13x13特征图之间的下采样融合。

优选地，所述ResBlock结构包括2条支路，第一条支路通过三个CBL结构，提取输入特征图关键特征，并将第一个CBL结构的输出与输入特征图关键特征进行一次Add 操作，得到第一条支路的输出；第二条支路通过一个CBL结构处理，通过一个Concat 层将两条支路的输出特征进行通道叠加，将叠加后的特征图经过一个CBL结构获得相应感受野尺度的特征图。

优选地，改进后的YOLOv3检测模型的损失函数为：

L_total＝l_{box_giou}+l_obj+l_cls

式中，l_box表示边界回归损失，l_obj表示置信度损失，l_cls表示分类误差损失，λ_coord表示协调各种尺寸的预测框对误差函数贡献不一致设置的协调系数，

表示该预测框是否负责预测物体，如果负责则其值为1，否则等于0，l_box表示特征图里所有单元格内每一个预测框的宽高、中心坐标位置与标记框平方误差损失总和，

和

分别表示预测到目标和未预测到目标的权重值，

等于

表示如果该预测框不负责预测物体，值为1， s表示特征图的尺寸，

表示遍历特征图的每个格子且每个格子产生三个预测，c_i表示预测框内包含检测目标的概率得分，p_i(c)表示预测框内目标属于类别c的概率值，

表示标记框内物体真实类别概率值，如果属于类别c，则其值等于1，否则为0；GIOU 为边界框损失函数。

优选地，边界框损失函数的确定方法为：

对于任意的两个A、B框，找出一个能包住它们的最小方框C，将C的面积减去A、 B并集的面积与C的面积的比值，用A、B的IOU交互比减去该比值即为GIOU。

本发明与现有技术相比，其显著优点为：本发明采用k-means++算法对数据集进行聚类分析，获得更高平均交互比的候选框；本发明在原YOLOv3算法中特征金字塔结构的基础上引入PANet结构，并提出一种ResBlock结构代替原有的残差结构，提高模型的特征提取能力，提高了模型对小目标物体的检测精度；本发明采用GIoU作为边界框损失函数，解决IoU相等时产生的差异性问题，从而得到准确率更高的行人检测模型。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中一种基于改进特征金字塔和边界损失的道路场景行人检测方法的流程图。

图2为原始YOLOv3模型的网络结构示意图。

图3为原始YOLOv3模型的残差结构示意图。

图4为本发明实施例中改进后YOLOv3模型的网络结构示意图。

图5为本发明实施例中代替残差结构的ResBlock结构的示意图。

图6为相同IoU但重合度不同的候选框和真实框。

图7为本发明实施例中GIOU示意图。

图8为原始YOLOv3算法和改进后YOLOv3算法的损失函数值曲线图。

具体实施方式

容易理解，依据本发明的技术方案，在不变更本发明的实质精神的情况下，本领域的一般技术人员可以想象出本发明的多种实施方式。因此，以下具体实施方式和附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限制或限定。相反，提供这些实施例的目的是为了使本领域的技术人员更透彻地理解本发明。下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的创新构思。

本发明构思为，如图1所示，一种基于改进特征金字塔和边界损失的道路场景行人检测方法，该方法步骤如下：

S1:获取道路场景的行人视频，创建训练集和测试集；

S2：采用k-means++算法对数据集进行聚类分析，得到平均交互比更高的候选框尺寸；

S3：对输入图像进行预处理；

S4：将预处理后的图像输入改进后的YOLOv3检测模型进行训练，得到行人检测模型，利用训练好的行人检测模型进行行人检测。

为便于理解，下面对本发明实施例中对YOLOv3算法做出的改进做出具体说明：

(1)创建训练集和测试集：

通过摄像头采集得到道路场景下行人视频，使用ffmpeg软件对其进行关键帧提取处理，得到1862张包含行人目标的图片，保存在JPEGImages文件夹中。使用LabelImg 工具对上述图片进行标注，制作为PASCAL VOC数据集格式的数据。从开源数据集MS COCO中选取324张包含道路场景行人目标的图片，使用脚本converter.py将其转换为 VOC格式。

按照7:3的比例分成训练集和测试集，分别保存在images/train文件夹和images/test 文件夹中，将训练集中全部图片的名称写入ImageSets/Main/trainval.txt文件中，同时将测试集中全部图片的名称写入ImageSets/Main/test.txt文件中，并将Annotations文件夹中与训练集中图片名称对应的xml标注文件信息写入darknet文件夹下的train.txt文件中，与测试集中图片名称对应的xml标注文件信息写入darknet文件夹下的test.txt文件中，完成训练集、测试集及其标注文件的构建。

(2)采用k-means++算法对数据集进行聚类分析:

将训练集对应的xml文件中记录的坐标数据写入到长度为lenth的数组data_box中，起始坐标数据从data_box中保存的第一组数据开始算起，初始化数组的索引值index＝0。

计算出标注框的宽度width及高度height，若width＝0或height＝0，则其对应的data_box中的坐标数据无效，删除这组数据,令lenth＝lenth-1,并进行下一组数据的判断；若width与height都不为0，则其对应的坐标数据有效，计算宽度width与高度height 的比值rate，若比值rate大于3，则该比值对应的坐标数据无效，令lenth＝lenth-1，从 data_box数组中删除并进行下一组数据的判断；若比值rate小于或等于3，则该比值对应的坐标数据有效，令index＝index+1，重复执行之前步骤直至index＝lenth，筛选出全部有效坐标数据。

计算data_box数组的数据均值，作为第一个聚类中心z_1；计算data_box中lenth组有效坐标信息与聚类中心z_1的距离，选择距离最远的8个点作为剩下的聚类中心，本发明采用的距离度量公式如式(1)所示:

d＝1-IOU(box，Z) (1.a)

其中box表示有效坐标信息，IOU表示预测框和真实框的交互比，A_P和A_G分别表示预测框和真实框的面积，A_I表示两种区域集合部分的面积。

计算data_box中lenth组有效坐标信息与9个聚类中心的距离，将得到的距离值写进data_kmeans数组中对应的行数和列数的位置；将data_box中每行对应的有效坐标信息分配给该行中最小距离值对应的聚类中心；完成全部坐标信息的分配，计算出每个聚类中心里成员的宽高均值，作为该聚类中心新的数值；重复执行之前的步骤，直至9个聚类中心的数值不再变化，得出9种不同尺寸的候选框，写进初始化cfg文件中。

(3)对输入图像进行Mosaic数据增强、hsv数据增强、自适应图片缩放三种方法的预处理：

Mosaic数据增强：Mosaic数据增强方法首先在YOLOV4论文中被提出，主要思想是对四张图片采用随机裁剪、随机缩放等处理方式，再拼接到单张图片上进行训练，有利于丰富训练数据集。多张图片的拼接会间接地提高batch_size，增强对小目标物体的检测精度。

hsv数据增强：改变图像的三种属性：亮度，色度和饱和度，可提高图像的特征表达能力。其中色度变化为原值的0.1倍，亮度变化为原图亮度的0.31倍，饱和度变化为原值的0.57倍。

自适应图片缩放：对输入的原始图像自适应添加尽量少的黑边，使得图像高度上边缘处的黑边减少，有利于减少推理计算量，加快模型检测速度。

(4)改进后的YOLOv3检测模型

A)改进特征金字塔结构：

由于浅层网络特征包含较多边缘形状特征，信息重要程度高。针对该特点，本发明对模型的特征金字塔结构进行改进优化，在原特征金字塔结构的基础上引入PANet结构，即在原结构后面添加一个自底向上的特征金字塔，改进后的网络结构如图4所示。在特征金字塔层与检测层之间添加PANet结构，该结构包括两个下采样层、两个Concat 层和两个Resblock结构。首先，PANet将感受野尺度为52x52的特征图通过一个下采样层进行处理，在该层中使用步长为2、内部为3x3卷积核的卷积层与特征图进行卷积计算，实现下采样操作，输出尺寸为26x26、通道维度为256的新特征图；再经过一个Concat 层，通过单位加的方式将下采样后的特征图与原特征金字塔层输出的26x26特征图融合在一起，生成新的特征图；将融合后的特征图通过一个Resblock结构，使用3x3卷积核的卷积层对其进行特征提取，增强融合后特征的表征能力，再使用ReLu激活函数对特征进行非线性化处理，提高特征表达能力，这样就完成尺度为52x52特征图与26x26特征图之间的下采样融合。将新的感受野尺度为26x26的特征图经过一个下采样层完成下采样操作，输出尺寸为13x13、通道维度为512的特征图；再次经过一个Concat层和 Resblock结构，仍采用单位加等方式实现与原特征金字塔层输出的13x13特征图的融合，完成尺度为26x26特征图与13x13特征图之间的下采样融合，实现对PANet网络结构的引入。改进之处可以融合深层的小分辨率特征图和浅层的高分辨率特征图，具有自底向上传达强定位特征的特点，结合原结构的自顶向下传达强语义特征的作用，从相异的主干层对不同的检测层展开参数聚合，有效提高检测精度。

为进一步改良原始网络结构，本发明提出一种新的ResBlock结构来代替原有的残差结构，每个残差结构由残差块和CBL结构组成，CBL结构由3x3卷积核和1X1卷积核组成，残差块由CBL结构和Add操作组合而成，在模型中通常将5个连续的残差结构和CBL结构组合起来，进行特征提取。为提高特征表达能力，将残差结构、Concat 操作和Add操作进行重新组合，来代替连续的5个残差结构，如图5所示。ResBlock 结构的输入来自于从特征金字塔层中的Concat层及主干网络Darknet-53中的Res层输出的特征图。首先将输入特征图x分成两条支路，第一条支路通过三个CBL结构，提取关键特征；再将第一个CBL结构的输出与第三个CBL结构的输出进行一次Add操作，在不改变特征图维度的前提下增加描述图像的特征信息量，得到第一条支路的输出；接着对输入特征图x的第二条支路通过一个CBL结构处理，通过一个Concat层将两条支路的输出特征进行通道叠加，增加描述图像的特征数；将叠加后的特征图再经过一个 CBL结构，最终得到输出特征图y。

B)改进边界回归损失

对YOLOv3检测模型的损失函数中的边界框损失进行改进，损失函数用于评价模型的预测值与真实值之间的差异，对模型的表现效果极其重要。YOLOv3的损失函数采用误差平方和算法，由边界框回归损失、置信度损失和分类误差损失三个部分组成，如式 (2)所示，各部分损失具体表达式如式(3)所示。

L_total＝l_box+l_obj+l_cls (2)

其中l_box表示边界回归损失，l_obj表示置信度损失，l_cls表示分类误差损失。参数λ_coord表示协调各种尺寸的预测框对误差函数贡献不一致设置的协调系数，

表示该预测框是否负责预测物体，如果负责则其值为1，否则等于0。l_box计算了特征图里所有单元格内每一个预测框的宽高、中心坐标位置与标记框平方误差损失总和。

和

分别表示预测到目标和未预测到目标的权重值，

等于

表示如果该预测框不负责预测物体，值为1。c_i表示预测框内包含检测目标的概率得分。当确定单元格中包含检测目标时，对于目标类别较多的情况需要判断目标的种类，分类误差损失采用交叉熵损失，p_i(c)表示预测框内目标属于类别c的概率值，

表示标记框内物体真实类别概率值，如果属于类别c，则其值等于1，否则为0。

原边界框损失采用了均方差损失函数进行计算，但均方差函数将边界框宽高数据和中心点坐标进行独立处理，无法真实表现预测框与真实框的IOU值。如图6所示，在三组重叠方式中，IOU值都相等，但重合度并不一样，导致IOU无法有效反映预测框和真实框的重合程度。为解决上述问题，本发明引入GIOU边界框损失函数，GIOU示意图如图7所示，对于任意的两个A、B框，首先找出一个能包住它们的最小方框C，将 C的面积减去A、B并集的面积与C的面积的比值，之后用A、B的IOU减去该比值即为GIOU,具体表达式如式(4)所示，IOU表示A、B的交互比(全称为Intersection over Union，即交并比，用来衡量预测框与真实框之间的关联度，关联程度越高，IoU值越大。作为一种评价在指定数据集中检测对象准确程度的指标，IoU常用于非极大抑制比中的阈值设定)。

引入GIOU后，YOLOv3损失函数中边界框损失部分变为：

GIOU具有优秀的距离度量能力，将边界框距离、重叠率及目标尺度都考虑在内，使得目标框回归过程更加稳定，提高模型检测速度。

采用改进后的检测模型对制作的训练集进行网络训练，模型导入COCO数据集的预训练权重，输入样本大小为416x416x3，批次大小设置为16，使用SGD优化器，设置参数momentum为0.97，初始学习率为0.0001，采用warmup预热训练，训练迭代总次数为250轮，最终学习率下降至1e-6，最后使用测试集进行检测。

以下结合对比试验，对本发明的技术效果作进一步说明：

本发明的对比实验基于ubuntu16.04操作系统，工作站配置为Intel Core i7-7700HQ CPU@2.8GHz，NVIDIA GeForce GTX 1650显卡，16GB内存及200GB硬盘，使用PyTorch 1.10.0作为深度学习框架。实验中使用的道路场景行人视频数据来源于北京市区街道拍摄的道路视频。

具体地，使用基于改进特征金字塔和边界回归损失的道路场景行人检测方法与原始 YOLOv3检测方法做对比实验，首先对本发明创建的训练集分别进行k-means++聚类算法分析和k-means算法分析，将得到的两组聚类结果作为改本发明及现有技术中候选框的尺寸，写进初始化cfg文件中。然后使用本发明对训练集进行250次训练同时使用原始对训练集进行250次训练，最终得到两种行人检测模型。将着两种模型分别对测试集进行检测测试，统计并对比两者模型的检测精度。

评价标准：mAP全称为meanAverge Precision，是目标检测中衡量检测精度的重要指标。在目标检测中，每一类都可以根据召回率(recall)和精准率(precision)绘制P-R 曲线，AP就是该曲线下的面积。而mAP就是所有类AP的平均值。

精准率也叫查准率，表示预测为正样本中实际为正样本的比例，即公式(6)所示：

其中TP表示真实正样本被正确分类的个数，FP表示真实负样本被错位分类的个数。

召回率也叫查全率，表示正样本中被正确分类的比例，如式(7)所示,FN表示真实正样本被错误分类的个数。

仅使用召回率和精准率是无法作为物体检测的精度标准，而二者结合的mAP时可以准确衡量模型检测的精准程度。mAP的具体计算方法是以召回率和精准率为基础做出的P-R曲线与坐标轴围成的区域面积除以类的个数，其值处于0至1之间，数值越高代表模型检测性能越佳。

实验结果分析：

使用原YOLOv3算法和本发明改进后的YOLOv3算法对测试集进行检测测试，图8为两种算法的损失值曲线图，横坐标为epoch值，纵坐标为损失值。经过250个epoch 的训练，原YOLOv3模型的损失值收敛至0.43，改进后的YOLOv3模型的损失值收敛至0.22。由此可看出，改进后的模型的损失值收敛明显加快，提高了精准度。

为进一步分析各部分改进对原YOLOv3模型的影响，将本发明提出的算法分成4 组进行训练和测试。其中第一组为原始算法，第4组为改进后最终算法，第2-3组依次为添加各部分改进后的算法，实验结果如表1所示，其中测试时置信度阈值设置为0.5，Iou 阈值设置为0.5。

表1

从表1可知，第二组采用k-means++聚类算法得到的候选框具有更高的平均交互比， mAP比原算法略微提高；第三组添加改进的特征金字塔结构，mAP有明显提高，由于结构与参数的增加导致FPS降低了一些，但降低程度不大，仍能满足实时检测的需要；第四组在之前的基础上采用GIOU边界回归损失函数，mAP也有着明显提升，最终可达到81.21％，，比原算法提高了8.96％。

综上所述，本发明对于原YOLOv3算法的改进都是有效的，有效提高了模型的检测精度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

应当理解，为了精简本发明并帮助本领域的技术人员理解本发明的各个方面，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时在单个实施例中进行描述，或者参照单个图进行描述。但是，不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。

应当理解，可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件，也可以把它们分成多个子模块、子单元或子组件。

Claims

1.一种基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，包括如下步骤：

S1:获取道路场景的行人视频，创建训练集和测试集；

S3：对输入图像进行预处理；

2.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用k-means++算法对数据集进行聚类分析前筛选训练集中的有效坐标数据，具体方法为：

计算出标注框的宽度width及高度height，若width＝0或height＝0，则其对应的data_box中的坐标数据无效，删除这组数据，令lenth＝lenth-1，并进行下一组数据的判断；若width与height都不为0，则其对应的坐标数据有效，计算宽度width与高度height的比值rate，若比值rate大于设定值，则该比值对应的坐标数据无效，令lenth＝lenth-1，从data_box数组中删除并进行下一组数据的判断；若比值rate小于或等于设定值，则该比值对应的坐标数据有效，令index＝index+1，重复执行之前步骤直至index＝lenth，筛选出全部有效坐标数据。

3.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用k-means++算法对数据集进行聚类分析，得到候选框尺寸的具体方法为：

4.根据权利要求2所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，采用的距离度量公式为：

d＝1-IOU(box，Z)

5.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，对图像进行预处理具体包括行Mosaic数据增强、hsv数据增强、自适应图片缩放。

6.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，改进的YOLOv3检测模型具体为:

在YOLOv3检测模型特征金字塔层与检测层之间添加PANet结构，

所述PANet结构包括两个下采样层、两个Concat层和两个Resblock结构，将替代后的ResBlock结构输出的感受野尺度为52x52的特征图通过一个下采样层进行处理，输出尺寸为26x26的新特征图；经过一个Concat层，将下采样后的性特征图与替代后的ResBlock结构输出的感受野尺度为26x26的特征图融合在一起；将融合后的特征图通过一个Resblock结构进行特征提取，并使用ReLu激活函数对特征进行非线性化处理；将新的感受野尺度为26x26的特征图经过一个下采样层完成下采样操作，输出尺寸为13x13的特征图；经过一个Concat层和Resblock结构实现与替代后的ResBlock结构输出的感受野尺度为13x13的特征图融合，完成尺度为26x26特征图与13x13特征图之间的下采样融合。

7.根据权利要求6所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，所述ResBlock结构包括2条支路，第一条支路通过三个CBL结构，提取输入特征图关键特征，并将第一个CBL结构的输出与输入特征图关键特征进行一次Add操作，得到第一条支路的输出；第二条支路通过一个CBL结构处理，通过一个Concat层将两条支路的输出特征进行通道叠加，将叠加后的特征图经过一个CBL结构获得相应感受野尺度的特征图。

8.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，改进后的YOLOv3检测模型的损失函数为：

L_total＝l_{box_giou}+l_obj+l_cls

式中，l_box表示边界回归损失，l_obj表示置信度损失，l_clc表示分类误差损失，λ_coord表示协调各种尺寸的预测框对误差函数贡献不一致设置的协调系数，

表示该预测框是否负责预测物体，如果负责则其值为1，否则等于0，l_box表示特征图里所有单元格内每一个预测框的宽高、中心坐标位置与标记框平方误差损失总和，λ_obj和λ_noobj分别表示预测到目标和未预测到目标的权重值，

等于

表示如果该预测框不负责预测物体，值为1，s表示特征图的尺寸，

表示遍历特征图的每个格子且每个格子产生三个预测，c_i表示预测框内包含检测目标的概率得分，p_j(c)表示预测框内目标属于类别c的概率值，

表示标记框内物体真实类别概率值，如果属于类别c，则其值等于1，否则为0；GIOU为边界框损失函数。

9.根据权利要求1所述的基于改进特征金字塔和边界损失的道路场景行人检测方法，其特征在于，边界框损失函数的确定方法为：

对于任意的两个A、B框，找出一个能包住它们的最小方框C，将C的面积减去A、B并集的面积与C的面积的比值，用A、B的IOU交互比减去该比值即为GIOU。