CN111797795A

CN111797795A - 一种基于YOLOv3与SSR的行人检测算法

Info

Publication number: CN111797795A
Application number: CN202010667461.XA
Authority: CN
Inventors: 张翮翔; 呼子宇; 郝若欣; 马学敏; 高博; 高泽航
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-20

Abstract

本发明公开了一种基于YOLOv3与SSR的行人检测算法，具体步骤如下：首先利用图像采集设备采集到行人的图像，网络自动提取关键帧，将彩色的关键帧进行降维处理转化灰度图像，利用TrAdaBoost生成具有一定迁移学习能力的分类器，对灰度图像的进行分类，若达到预定值，则直接传输到YOLOv3网络中进行行人检测；若未达到预定值，则传输到SSR算法进行图像处理，再传输到YOLOv3算法中进行行人检测，本发明通过使用TrAdaBoost算法对关键帧进行选取分析，生成具有一定迁移学习能力的分类器，使系统整体网络更加智能化。

Description

一种基于YOLOv3与SSR的行人检测算法

技术领域

本发明涉及检测技术领域，具体是一种基于YOLOv3与SSR的行人检测算法。

背景技术

行人检测算法的发展可以分为两个阶段：第一个阶段为人工设计行人的空间特征然后进行全局空间的行人检测，通过HOG⁶特征、Hart¹⁴小波特征等来训练分类器进行行人的分类和检测。这些传统的检测算法在当时取得了令人瞩目的效果，其中著名的算法有Hoang等人提出的基于可变尺度梯度特征直方图的行人特征设计方法，并结合支持向量机对行人图像进行分类。Dollar等人将聚合通道特征与HOG特征进行融合，提高了模型在复杂背景环境下的行人检测。虽然这些传统的检测算法实现了行人检测功能，但是人工设计行人的特征难以全面有效的表达行人的信息，并且程序本身运算量大，难以实现实时检测。第二个阶段为基于深度卷积网络的行人检测算法，该类算法使用深度卷积网络提取行人的特征，从而摆脱了人工设计特征的束缚，得到的行人特征有效性和全面性均有所提升。深度卷积网络可以分为三类：第一类算法为基于区域框建议的目标检测算法，如；R-CNN，Fastert R-CNN^3，15，Mask R-CNN⁴等，该类算法检测精度是所有算法中最高的，但是算法计算量大，检测速度缓慢，对硬件要求较高。第二类算法为基于学习搜索的算法，如AttentionNet等，这类算法的检测精度低，且因为需要搜索全局所以检测速度更加缓慢。第三类为基于回归思想的检测算法，如SSD⁵，YOLO^[1-2]等算法。此类算法在一定程度上降低了检测精度，但提高检测速度，使实时检测成为了可能。

但是其精度较低的缺点阻碍了其技术的发展。

发明内容

本发明的目的在于提供一种基于YOLOv3与SSR的行人检测算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于YOLOv3与SSR的行人检测算法，具体步骤如下：首先利用图像采集设备采集到行人的图像，网络自动提取关键帧，将彩色的关键帧进行降维处理转化灰度图像，利用TrAdaBoost生成具有一定迁移学习能力的分类器，对灰度图像的进行分类，若达到预定值，则直接传输到YOLOv3网络中进行行人检测；若未达到预定值，则传输到SSR算法进行图像处理，再传输到YOLOv3算法中进行行人检测。

作为本发明的进一步技术方案：YOLOv3网络是经过改进后的YOLOv3算法，改进步骤如下：A、增加算法检测尺度；B、目标框维度聚类；C、改变损失函数。

作为本发明的进一步技术方案：所述YOLOv3算法使用的检测网络为DarkNet-53网络，并使用3种不同比例的特征图融合，包括一个下采样特征图，尺度大小为13×13，两个上采样特征图，尺度大小分别为26×26，52×52。

作为本发明的进一步技术方案：步骤B具体是：选用在COCO数据集中的高宽比大于2的先验框，然后采用K-means聚类重新分析行人数据集，从而得到了适合室内行人的最优anchor个数和高宽比。

作为本发明的进一步技术方案：所述YOLOv3算法采用重叠度交并比的计算方法计算bounding box与真实框之间的距离，具体公式为

d(box，centroid)＝1-IOU(box，centroid)，式中：B表示box，C表示centroid。box为样本聚类结果；centroid为所有簇的中心；IOU(box，centroid)为所有簇中心与所有聚类框的交并比。

作为本发明的进一步技术方案：所述YOLOV3算法采用交叉熵损失函数提升检测效果，函数的表达式定义为下式：

当公式中的y的值等于1时，x的值越接近1，则损失函数的值越小；相反，x的值越接近0，则损失函数的值越大，如果公式中y的值等于0，则x的值越接近0，网络的损失函数的值越小；否则，x的值越接近1，则损失函数的值越大。

作为本发明的进一步技术方案：采用算法TrAdaBoost作为样本迁移学习算法，具体实施方法如下，首先计算出图像亮度平均值与对比度平均值，并标记出是否需要SSR算法进行处理，不需要处理的标记为0，需要处理的标记为1，另制作未标注的测试数据集S沿用原算法中的基本分类算法Learner，迭代次数为M，接着使用TrAdaBoost算法对样本进行迁移学习，获得最终分类器，最后，将网络融合在一起，具体方式为提取关键帧，计算出关键帧的亮度平均值与对比度平均值，输入到分类器网络中，由分类器进行分类，若该关键帧被标记为1，则需要将图像输入到SSR算法中进行图像处理，若该关键帧被TrAdaBoost算法标记为0，则直接跳过图像处理算法，直接将图像输入到YOLOv3算法进行预测，分类器的函数表达式为

其中N为迭代次数，数值为

h_t(x)表示调用分类算法Learner。

与现有技术相比，本发明的有益效果是：本发明通过使用TrAdaBoost算法对关键帧进行选取分析，生成具有一定迁移学习能力的分类器，使系统整体网络更加智能化。SSR算法的运用加强了网络处理图像的能力，通过改变图像的亮度，对比度，从而将目标与特征空间分割开来，更有利于检测网络对行人目标进行检测。增加检测尺度后的YOLOv3算法对小目标更加敏感，平均检测精度得到了进一步的提高。

附图说明

图1是本发明的整体方框图。

图2为原网络多尺度检测结构图。

图3为多尺度检测图。

图4为K值与正确率曲线图。

图5为原始图像直方图。

图6为处理后图像直方图。

图7为灰度曲线对比图。

图8为算法正确率对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，实施例1：一种基于YOLOv3与SSR的行人检测算法，具体步骤如下：首先利用图像采集设备采集到行人的图像，网络自动提取关键帧，将彩色的关键帧进行降维处理转化灰度图像，利用TrAdaBoost生成具有一定迁移学习能力的分类器，对灰度图像的进行分类，若达到预定值，则直接传输到YOLOv3网络中进行行人检测；若未达到预定值，则传输到SSR算法进行图像处理，再传输到YOLOv3算法中进行行人检测。

YOLOv3网络是经过改进后的YOLOv3算法，改进步骤如下：

A、增加算法检测尺度；为了使模型对于行人目标更加敏感，我们增加了原有的YOLOv3算法的检测尺度，通过多尺度融合的方法，加强网络分析利用底层特征的高分辨率和高层特征的高语义信息的能力，从而达到提高检测精度的目的。YOLOv3算法使用的检测网络为DarkNet-53网络，并使用3种不同比例的特征图融合，包括一个下采样特征图，尺度大小为13×13，两个上采样特征图，尺度大小分别为26×26，52×52。YOLOv3在这三个尺度上进行不同尺度的目标检测如图2所示。本文将原来3个不同尺度特征提取增加到4个不同的尺度检测模块，尺度的具体大小为6×6选用上采样的方式进行连接具体如图3所示。原有的检测网络对图像使用卷积层进行上采样或者下采样，在图像输入为416×416的情况下，原有的尺度可以契合卷积层的运算。当我们增加一个尺度6×6大小后，通过上采样的方法，得到的检测框大小为12×12，所以我们修改了这一层的上采样公式，使得最终获得检测框的大小为13×13，从而可以与原有的网络进行信息融合连接到最终检测结果。虽然在一定程度上降低了检测的速度，但对于非刚性目标行人来讲，检测精度大大提升。

B、目标框维度聚类；本专利所提出的行人检测算法主要应用在大型室内公共场所的行人检测，为了使YOLOv3网络中的anchor boxes参数更加契合行人检测的需要，我们选用了在COCO数据集中的高宽比大于2的先验框，然后采用K-means聚类重新分析行人数据集，从而得到了适合室内行人的最优anchor个数和高宽比。传统上的K-means聚类算法是通过对样本间相似性进行聚类分析，使用欧式距离或曼哈顿距离作为距离测试公式，从而得到anchor的数量和高宽比等信息。这样的直接进行相似性聚类的方式会产生对于离群点和孤立点敏感，对集群的目标容易忽视的问题，这样对于行人检测这类检测密度大的目标来说，会产生极大的误差。为了解决聚类分析的误差问题，YOLOv3算法采用重叠度交并比(Intersection Over Union，IOU)的计算方法计算bounding box与真实框之间的距离，具体公式为：

d(box，centroid)＝1-IOU(box，centroid)，式中：B表示box，C表示centroid。box为样本聚类结果；centroid为所有簇的中心；IOU(box，centroid)为所有簇中心与所有聚类框的交并比。选取合适的IOU分数，可以在模型复杂度和召回率之间取得好的平衡。为了寻找更适合的参数，我们做了大量的对比实验，最后确定聚类个数K值(簇值)选择为10，即anchor个数为10。图5是K值与正确率曲线图，每个中心点的具体坐标为：X坐标[46.03 161.60 85.99 34.14 112.89 36.76 51.13 15.47 74.12 65.09]；Y坐标[288.82347.16 330.20 97.17 322.029 173.12 213.84 41.71 246.51 315.55]。从曲线图中可以观察到，聚类个数K逐渐增加，正确率逐渐提高。当K＞10的时候，增速减缓，为了兼顾正确率和运算速度，最终选择了K＝10。从图中还可以观察到，YOLOv3中的K-means聚类算法的分析效果要优于未改进的K-means聚类算法。

改变损失函数，通过改变损失函数也可以提升检测效果，YOLOV3算法利用了交叉熵损失函数，该类函数可以提高算法应对复杂环境的能力，赋予网络一定的迁移学习能力。函数的表达式定义为下式；

当公式中的y的值等于1时，x的值越接近1，则损失函数的值越小；相反，x的值越接近0，则损失函数的值越大。如果公式中y的值等于0，则x的值越接近0，网络的损失函数的值越小；否则，x的值越接近1，则损失函数的值越大，

在实际的目标检测中，候选框内的目标个数是随机的，有的时候可能出现没有任何目标落入情况，并且目标与目标之间可能出现相互遮挡的问题，因此需要对预测框的具体参数进行调整和平衡，并且需要差异化边界框和类别判断的损失因子。虽然这些因子在检测目标较大时影响细微，但对于检测目标比较小的时候，影响很大，而我们研究的行人就有这样的特点，距离摄像装备较远的行人，其个体在整张图像上来说，属于小目标边缘化范畴。为了提高这类特征的检测效果，我们首先沿用了原有YOLOv3¹⁶的交叉熵函数作为损失函数作为网络的损失函数，并且进行网络训练，在网络不断学习图像素材的同时，监测损失函数的拟合情况和模型正确率的数值，并不断的调整损失函数，使参数达到最优。

SSR图像处理算法(Single Scale Retinex)是Retinex经典算法之一，具有增强图像亮度，凸显图像细节，增强对比度的功能。Retinex算法的原理是：对于一张图片hn(x，y)，可以分成入射图像In(x，y)和反射图像R(x，y)，入射光照射到物体上经过反射作用到接受器最终生成图像。具体公式为：

其中，R(x，y)表示了物体的反射，该项数值与物体本身有关；而In(x，y)表示入射光图像，决定了像素的显像范围。r(x，y)＝logIm(x，y)-log[F(x，y)*Im(x，y)]，式中，r(x，y)是输出图像，*代表卷积运算。F(x，y)是中心环绕函数，表示为：

式中的C是高斯环绕尺度，λ是一个尺度，它的取值必须满足下式：∫∫F(x，y)dxdy＝1，上面的式中可以看出，SSR算法中的卷积是对入射图像的计算，通过计算像素点与周围区域在加权平均的作用下，估计图像中照度的变化，并将Im(x，y)去除，只保留In(x，y)属性。算法处理效果灰度直方图如图6所示。

为了客观的研究图像的亮度和对比度，我们将RGB图像转换成灰度图像进而测得图像的亮度和对比度，根据灰度值绘画出灰度值直方图。上方图为原图像，下方图像为SSR算法处理后的图像。观察直方图，原图像的灰度值范围要小于经过算法处理后的图像，图像整体对比度提升。原图像的平均灰度值小于算法处理后的图像，从而推断出经过SSR算法处理后的图像，在整体的亮度和对比度方面均有所提升。修饰后的图像将展示出更多的特征信息供检测网络进行检测，从图像层面提高了检测的精度。

实施例2，在实施例1的基础上，本设计提出的行人检测方法中，我们选用算法TrAdaBoost作为样本迁移学习算法，从而赋予了网络一定的迁移学习能力，使网络能够更加适应复杂的特征环境。具体实施方法如下，首先计算出图像亮度平均值与对比度平均值，并标记出是否需要SSR算法进行处理，不需要处理的标记为0，需要处理的标记为1，另制作未标注的测试数据集S沿用原算法中的基本分类算法Learner，迭代次数为M，接着使用TrAdaBoost算法对样本进行迁移学习，获得最终分类器，最后，将网络融合在一起，具体方式为提取关键帧，计算出关键帧的亮度平均值与对比度平均值，输入到分类器网络中，由分类器进行分类，若该关键帧被标记为1，则需要将图像输入到SSR算法中进行图像处理，若该关键帧被TrAdaBoost算法标记为0，则直接跳过图像处理算法，直接将图像输入到YOLOv3算法进行预测，分类器的函数表达式为

其中N为迭代次数，数值为

h_t(x)表示调用分类算法Learner。

实施例3，在实施例2的基础上，为了提升模型检测的精度，可以对图像先进行预处理，通过修改相关参数达到提升亮度，对比度，曝光度等参数的目的。通过对处理后的图像进行网络测试，我们发现其结果在一定程度上能够提升网络检测精度，从而证明了通过应用图像预处理算法来增强网络检测精度的可行性。为了进一步研究算法与网络的作用机理，我们设置了对比实验来进行验证，具体如下：选用SSR，MSRCR¹³，McCann99¹⁷三种方法进行比较。比较指标为图像整体亮度，区域对比度，网络预测效果三个方面进行。测量亮度的方法是图片原色乘以亮度系数_Brightness。对比度是图像黑与白的比值，代表了从黑到白的层次变化。比值越大，从黑到白的渐变层次越多，从而色彩表现越丰富，具体计算方法为创建一个对比度为0的颜色(rgb＝0.5)，然后每个颜色使用对比度系数(_Contrast)和对比度0进行差值。网络预测效果则是通过网络测试计算预测的正确率和IOU值。图7为图像灰度曲线，表格1为图像处理算法各项性能测试结果。

表1：各项算法性能表：

算法	Backbone	mAP％	Recall％	AP<sub>50</sub>
					SSR	Darknet	80.62	73.39	83.71
McCann99	Darknet	79.83	73.31	79.62
					MSRCR	Darknet	58.96	56.53	-
Image	Darknet	74.69	70.22	72.01

从以实验结果中可以观察到，经过图像处理算法运算后，图片的灰度值有了明显的变化。MSRCR算法对于图像的处理更加注重于黑化处理，降低图片亮度。SSR、McCann99两个算法则注重于提升图像整体亮度。二者经过比较后发现，SSR算法在提升彩色对比度和处理速度上要优于McCann99算法。根据我们需要的高亮度，高对比度的要求，我们选用了SSR算法作为图像处理的预算法。随后对该算法进行参数调整，使得算法本身对图像的亮度更加敏感，有利于将行人与背景环境分割出来。

目标检测算法对比实验具体为通过对比不同的检测网络模型，探究各个网络模型在解决行人检测问题上的优缺点，从而选取较为合适的检测算法来提升整体模型的性能。目标检测算法实验的评价指标为正确率P。选用作对比实验的模型为Faster R-CNN网络，SSD两个网络，这两个网络都是比较典型的目标检测网络。Faster R-CNN网络是R-CNN网络的改进版本，相较于原网络，该网络拥有更精准的检测效果，到目前为止，Faster R-CNN网络依然是所有检测网络中检测精度最高的一种，也正因为拥有高正确率，从而造成了检测流程复杂，网络计算量大，所以检测时间漫长，在小型计算机上无法实现实时检测。SSD检测网络可以说是吸收了Faster R-CNN网络和YOLO网络中的一些优点，在稍降检测正确率的同时大大加快了检测的速度，扩展了应用范围，使实时检测应用成为可能。具体实验步骤为在我们自主收集的数据集上，对这三种网络进行相同条件下的训练和测试。设置同样的训练参数，如学习率，batch，subdivisions等数值，每两千次保存训练权重，并应用该权重对检验网络性能和检测速度。统计、记录数据并绘制曲线图，通过比较曲线图来获取实验结果，具体结果如图8。从图中可以观察到，YOLOv3的准确率略高于SSD网络，比Faster R-CNN网络的检测精度低。随后对网络模型进行测速实验，具体结果如表2所示，得出YOLOv3的运算速度是三种网络中最快的，最高达到22fps左右。从而证明了基于YOLOv3算法的行人检测网络的可行性。

表2：算法检测速度对比表：

算法	视频格式	视频分辨率	Fps
				YOLOv3	Mp4	1080p	22.2
SSD	Mp4	1080p	20.5
				Faster R-CNN	Mp4	1080p	18.4

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于YOLOv3与SSR的行人检测算法，其特征在于，具体步骤如下：首先利用图像采集设备采集到行人的图像，网络自动提取关键帧，将彩色的关键帧进行降维处理转化灰度图像，利用TrAdaBoost生成具有一定迁移学习能力的分类器，对灰度图像的进行分类，若达到预定值，则直接传输到YOLOv3网络中进行行人检测；若未达到预定值，则传输到SSR算法进行图像处理，再传输到YOLOv3算法中进行行人检测。

2.根据权利要求1所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，YOLOv3网络是经过改进后的YOLOv3算法，改进步骤如下：A、增加算法检测尺度；B、目标框维度聚类；C、改变损失函数。

3.根据权利要求2所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，所述YOLOv3算法使用的检测网络为DarkNet-53网络，并使用3种不同比例的特征图融合，包括一个下采样特征图，尺度大小为13×13，两个上采样特征图，尺度大小分别为26×26，52×52。

4.根据权利要求3所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，步骤B具体是：选用在COCO数据集中的高宽比大于2的先验框，然后采用K-means聚类重新分析行人数据集，从而得到了适合室内行人的最优anchor个数和高宽比。

5.根据权利要求4所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，所述YOLOv3算法采用重叠度交并比的计算方法计算bounding box与真实框之间的距离，具体公式为

6.根据权利要求5所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，所述YOLOV3算法采用交叉熵损失函数提升检测效果，函数的表达式定义为下式：

7.根据权利要求1所述的一种基于YOLOv3与SSR的行人检测算法，其特征在于，采用算法TrAdaBoost作为样本迁移学习算法，具体实施方法如下，首先计算出图像亮度平均值与对比度平均值，并标记出是否需要SSR算法进行处理，不需要处理的标记为0，需要处理的标记为1，另制作未标注的测试数据集S沿用原算法中的基本分类算法Learner，迭代次数为M，接着使用TrAdaBoost算法对样本进行迁移学习，获得最终分类器，最后，将网络融合在一起，具体方式为提取关键帧，计算出关键帧的亮度平均值与对比度平均值，输入到分类器网络中，由分类器进行分类，若该关键帧被标记为1，则需要将图像输入到SSR算法中进行图像处理，若该关键帧被TrAdaBoost算法标记为0，则直接跳过图像处理算法，直接将图像输入到YOLOv3算法进行预测，分类器的函数表达式为

其中N为迭代次数，数值为

h_t(x)表示调用分类算法Learner。