CN111274894A

CN111274894A - 一种基于改进YOLOv3的人员在岗状态检测方法

Info

Publication number: CN111274894A
Application number: CN202010040949.XA
Authority: CN
Inventors: 谢斌红; 栗宁君; 张英俊; 潘理虎
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-12

Abstract

本发明公开了一种基于改进YOLOv3的人员在岗状态检测方法，ILF‑YOLOv3（Improve Loss and Feature‑YOLOv3）。首先，使用二分交叉熵损失函数和添加制衡权重参数的方式分别对YOLOv3算法的目标定位和置信度损失函数进行了改进，有效缓解了梯度的不稳定性，加快了模型的收敛速度，均衡了难、易分类样本权重的比重；此外，在YOLOv3网络的多尺度特征检测模块添加了一个卷积模块，增加了多尺度特征间的特征融合密度，增强了多尺度特征信息的完整性；最后，针对采样数据集单一性的问题，采用对抗网络对其进行定向增强来模拟现实中可能会出现的各种环境状况。实验结果表明，改进后的算法在测试集上的mAP（mean Average Precision）值提高了7.9%，召回率提高了14%。

Description

一种基于改进YOLOv3的人员在岗状态检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于改进YOLOv3 的人员在岗状态检测方法。

背景技术

服务型行业在岗人员工作状态严重影响着单位的对外形象，存在客户对员工异常工作状态不满意的问题。为了有效解决这一问题成为现有许多服务型单位的首要任务。但是现有的管理和监督手段还停留在人工监督阶段，而且由于人员检测存在背景坏境复杂、光照强度和监控角度变化等问题严重影响着目标检测算法的性能。

随着深度学习技术在计算机视觉领域的不断发展和应用，基于深度学习的目标检测算法已成为主流。该类算法主要分为两类：第一类是two-stage模型，首先预选出候选区域，再通过卷积神经网络提取目标特征。此类算法精度较高，发展成熟，但速度较慢，无法满足实时性检测要求。典型的特征提取网络有AlexNet、OverFeat、GoogleNet、 VGG和ResNet；2014年在ILSVRC上又提出了R-CNN算法，之后在该算法基础上，又提出了Fast R-CNN、DeepID-Net和Faster R-CNN 等目标检测算法。第二类算法为one-stage模型，该类方法是基于回归思想的端到端的模型算法，其网络结构简单，实时性更强。2016 年，Redmon等人相继了提出了YOLO和YOLOv2网络模型；2018 年，在YOLOv2的基础上Redmon等人又提出YOLO-v3算法，该算法是时下在检测的精度和训练的速度上最均衡的目标检测算法。

基于YOLOv3的优越性能，已经有很多的实践应用和相应的模型改进。如戴伟聪等人将YOLOv3网络应用于遥感图像飞机目标的识别，并提出了49层的网络模型，将3尺度特征检测增加至4尺度检测；鞠默然等人改进了网络加强了网络对小目标的检测；施辉等人将YOLO应用到安全帽佩戴的检测上都取得了非常优越的效果。

但是目前针对在岗人员状态检测，还存在的人力资源浪费、检测环境复杂和检测结果不客观等问题。

发明内容

本发明的目的在于避免现有技术的不足之处而提供一种基于改进YOLOv3的人员在岗状态检测方法。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于改进YOLOv3的人员在岗状态检测方法，包括：

基于YOLOv3网络模型构建改进YOLOv3网络模型，改进过程为：替换YOLOv3网络模型的损失函数；对YOLOv3网络模型的多尺度检测模块进行改进；

提取在岗状态监测视频，利用图像工具生成在岗状态特征图像，标注出全部在岗状态特征图像中的目标特征区域，并将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集；

将作为训练集的在岗状态特征图像输入改进YOLOv3网络模型进行训练，训练完成后将测试集和验证集作为输入，对训练结果进行验证；

训练完成后，利用实时在岗状态监控视频生成实时在岗状态特征图像，输入训练完成的改进YOLOv3网络模型，输出标注目标特征区域的实时在岗状态特征图像，通过查看输出的实时在岗状态特征图像中是否存在异常目标，判断在岗状态是否异常。

其中，在替换YOLOv3网络模型的损失函数的步骤中，包括对目标类别损失函数和目标定位损失函数的更换。

其中，对YOLOv3网络模型的多尺度检测模块进行改进的步骤中，通过添加YOLOv3网络模型中间层的卷积模块来到达更多层级间的特征融合，保证输出的特征包含更完整的特征信息。

其中，卷积模块包含3项卷积操作：首先，第一个1×1×N的卷积核会将特征图像的通道数卷积成目标特征图像的通道数，从而方便之后拼接操作，其中N表示目标特征图像的通道数；然后通过改变Stride参数，利用3×3的卷积核来倍化特征图像，将特征图像的大小卷积成目标特征图像的大小；最后，对拼接后获得的新特征图像进行 3×3卷积，该卷积是在与目标特征拼接之后执行，将减少拼接特征图像融合后出现的混叠效应，同时也减少了不必要的特征偏移。

其中，将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集的步骤中，将标注后的在岗状态特征图像根据6:4的比例生成训练集和交叉验证集，在交叉验证集中测试集和验证集又根据3:2 的比例划分。

其中，利用图像工具生成在岗状态特征图像，标注出全部在岗状态特征图像中的目标特征区域之后，还包括：利用对抗网络来处理在岗状态特征图像的样本集，模拟现实复杂环境中会出现的噪点信息，增强在岗状态特征图像数据集的多样性。

其中，利用对抗网络来处理在岗状态特征图像的样本集的步骤中，

通过对抗网络中的生成网络用随机的噪声点处理标注后的在岗状态特征图像，生成新的在岗状态特征图像；通过对抗网络中的判别网络用来判别生成的在岗状态特征图像的真实性。

其中，在训练之前，采用K-means聚类算法来获取改进YOLOv3 网络模型中合理的anchor框进行训练，包括步骤：

拟定适当的聚类个数，然后按参数间距离的方式来实现聚类的划分；计算参数间距离的方式包括欧式聚类或曼哈顿距离；

采用Elbow method方法获取k值；将误差平方和不会随k值变化而发生大幅度变化的k值作为合适的k值。

和现有技术相比，本发明的基于改进YOLOv3的人员在岗状态检测方法使用二分交叉熵损失函数和添加制衡参数的方式分别对 YOLOv3算法的目标定位损失函数和目标置信度损失函数作了替换和改进，有效缓解了梯度的不稳定性而且加快了模型的收敛速度，均衡了易分类与难分类样本权重；在YOLOv3的多尺度特征检测模块，添加一个卷积模块来增加不同尺度特征间的特征融合；针对数据集采样单一性的问题，采用对抗网络对采样的数据集进行增强来模拟现实中可能会出现的各种环境状况。通过本发明，不仅有效缓解随深度加深而出现的梯度不稳定情况，而且算法的检测精度也得到了显著提升，实现了智能化的人员在岗状态的实时检测。

附图说明

图1为本发明提供的一种基于改进YOLOv3的人员在岗状态检测方法的流程示意图；

图2为本发明提供的一种基于改进YOLOv3的人员在岗状态检测方法中改进后的多尺度检测模块的结构示意图；

图3为本发明提供的一种基于改进YOLOv3的人员在岗状态检测方法中改进后的多尺度检测模块增加的卷积模块的结构示意图；

图4为本发明提供的一种基于改进YOLOv3的人员在岗状态检测方法中人员在岗状态监测的流程示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图1，本发明提供了一种基于改进YOLOv3的人员在岗状态检测方法，包括：

S110：基于YOLOv3网络模型构建改进YOLOv3网络模型，改进过程为：替换YOLOv3网络模型的损失函数；对YOLOv3网络模型的多尺度检测模块进行改进。

YOLOv3网络在YOLOv2网络的基础上作了不小的改进，不但速度没有下降，并且提高了小目标检测和近距离物体检测的鲁棒性。主要改进点有：loss函数的不同，采用了logistic loss替换了原来的 softmax loss；anchor box prior由原来的5个增加成了现在的9个， Junction on Union；在最终的检测策略上，v3分别采用了13×13、 26×26、52×52三种的不同尺度来检测特征，对小目标的检测更加友好；前向传播网络由darknet-19加深到了v3的darknet-53。

YOLOv3网络以Darknet-53模型结构为基础的模型结构，并且在该模型的基础上加入了特征金字塔模型，将特征的输出增加到3个尺度。

YOLOv3是基于回归算法的one-stage模型，所以它提前用算法对候选框进行过滤，而是直接将一个416×416(32的倍数)的图像作为网络的输入，通过卷积网络分别卷积出13×13、26×26、52×52三个不同特征尺度的待检测图像。

根据YOLOv3网络的3层输出13×13×3×9、26×26×3×9、 52×52×3×9，可以分析出前3个数分别是特征图像的大小(例13*13) 及不同尺度特征图预设的边界框个数(默认取3个)，最后一位数是预测的结果集合，该数值的具体表示为：数据集包含的4个目标类别；其余5个参数为特征图预测框体的横纵坐标偏移值和宽高缩放比 (t_x，t_y，t_w，t_h)及预测的置信度。根据预测值，得到预测框体，如公式(1)所示。

b_x＝σ(t_x)+c_x

b_y＝σ(t_y)+c_y

最后，将预测出框体与真实的边界框进行IOU计算。剔除掉IOU 小于阈值(默认0.5)的预测框。最终，通过反向传播将得到的预测框体的相应参数进行损失计算。

本发明的方法基于现有YOLOv3网络模型进行改进，具体改进内容如下：

对目标类别损失函数和目标定位损失函数的更换；使用交叉熵损失函数作为目标定位损失函数，变更目标定位置信度损失函数。

在深度神经网络的训练中，由于梯度下降法的特性，随着网络层数的不断加深，梯度不稳的现象会更加明显。这会导致梯度的弥散或爆炸，从而影响神经网络整体的收敛性和检测精度。这一问题同样存在于YOLOv3目标检测算法中。

YOLOv3的损失函数由3部分组成：

目标置信度损失：

目标分类的损失：

目标定位的两个损失：

公式5是深度神经网络中损失函数对权重求导的通用公式，其中 L为损失函数；w_ij是网络中的权重参数；node_j是深度神经网络中神经元的部分；

是深度神经网络中输出值的导数；x_ij是深度神经网络中输入值。公式6是目标定位损失中x坐标定位部分损失函数链式求导后的权重更新公式，其中L_locx为YOLOv3中x坐标偏移损失函数；

是深度神经网络中输出值的导数。

YOLOv3中x坐标定位定位损失的输出值都经过sigmoid激活函数处理，如公式8-9所示，通过对该函数及其导函数分析可知，神经网络输出值的导函数

的值在0到0.25之间，在反向传播中会伴随层数加深呈指数级下降；且当

趋近于0或1时

的值趋近于0，直接导致梯度消失，从而造成梯度弥散。由公式5可知，目标定位损失函数中坐标定位与宽高缩放的损失函数都是用了同x坐标偏移相同的平方损失函数。所以，这不仅会影响模型的收敛速度，还会因为收敛效果不稳定而导致训练后模型的权重失衡，并最终影响算法的检测精度。

在本发明中，使用交叉熵损失函数来代替原损失函数。

将二分交叉熵函数运用到YOLOv3中x坐标偏移值的损失函数中，得到公式9，可以看出

和

两值相差越大，损失值同时增大。这种预测值与真实值之间关系符合损失函数的特性。

二分交叉函数不仅符合损失函数特性而且可以有效的缓解梯度弥散现象。根据链式求导法则可以得到公式(10)中x坐标偏移的权重更新公式(11)，其中

是网络输出的误差值；

为网络的目标值。可以看出梯度下降已与网络输出的导数值

无关，而是受误差值

的影响，因此当误差较大时下降速度也会随之变快，从而使梯度下降法更有效，也提高了模型训练速度，有效避免了梯度弥散现象。

综上所述，二分交叉函数不但符合预测输出值与实际样本之间的差距越大，损失函数值越大的特性，并且还能有效避免梯度消失，加速模型的收敛速度。所以，将二分交叉熵函数作为ILF-YOLOv3算法的目标定位损失函数，具体如公式式11所示：

YOLOv3检测算法是基于回归思想的one-stage模型，检测精度与two-stage模型有一定差距，主要原因是大量前景背景类别不均衡造成的。本文的检测中也出现了此种情况，因待检测目标的特征多以员工在岗状态特征信息为基础，如打手机、睡觉等状态的特征都以人员在岗特征为背景，所以导致在岗状态成为易检测目标，而打手机、睡觉样本的检测变的困难。从而造成在检测中经常出现打手机、睡觉等异常状态的漏检的现象。

针对上述问题，本文将置信度损失函数改进为新的损失函数(公式12)，即在没有增大参数的复杂度的条件下，在原函数的基础上添加由已有参数构成的制衡系数

(公式13)来实现样本类别均衡，其中

所以无论β的取值是多少都可保证

是一个正数，不会影响损失函数的梯度方向。

添加该制衡系数主要通过减少易分类样本的权重，使网络在训练时更专注于难分类样本，从而达到对于易分类和难分类样本权重的控制。例如，当预测输出的

值趋向于1时，该分类样本置信度高，为易分类样本，且系数

值趋向于0，这会降低该权重参在总损失函数中的贡献度，从而减少易分类样本的权重；当

趋向于0时，该样本被分类的置信度低，表示该样本为一个难分类的样本，

的值会趋向于1，与原损失函数变化不大，从而不会降低难分类样本的相关权重在总损失函数中的贡献。

另外，实验中还发现，在默认IOU阈值为0.5的情况下，改进损失函数后的检测效果并不理想。通过实验验证，当IOU阈值调整为 0.35时，使用改进后的损失函数达到理想效果，检测精度提升了1.3％，召回率提升了5％。

关于值β，针对自制数据集实验后，发现当β＝0.5时(β＝0时，参数值为1，损失函数为原函数)，达到最佳效果，召回率提高了5％。

综上所述，本文基于对目标类别损失和目标定位损失改进后，得到的ILF-YOLOv3模型的总损失函数如公式14所示：

YOLOv3同过上采样与张量拼接的手段来获取不同尺度的特征。本文在原多尺度融合的基础上，通过添加YOLOv3网络模型中间层的卷积模块来到达更多层级间的特征融合，保证输出的特征包含更完整的特征信息。

卷积模块包含3项卷积操作：首先，第一个1×1×N的卷积核会将特征图像的通道数卷积成目标特征图像的通道数，从而方便之后拼接操作，其中N表示目标特征图像的通道数；然后通过改变Stride 参数，利用3×3的卷积核来倍化特征图像，将特征图像的大小卷积成目标特征图像的大小；最后，对拼接后获得的新特征图像进行3×3 卷积，该卷积是在与目标特征拼接之后执行，将减少拼接特征图像融合后出现的混叠效应，同时也减少了不必要的特征偏移。改进后的多尺度检测模块及增加的卷积模块的结构如图2和图3所示。

改进后的多尺度检测模块提取的特征信息将会融合更多层级间的特征信息，相比原输出特征包含更加完整的特征信息，更值得信任。

S120：提取在岗状态监测视频，利用图像工具生成在岗状态特征图像，标注出全部在岗状态特征图像中的目标特征区域，并将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集。

将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集的步骤中，将标注后的在岗状态特征图像根据6:4的比例生成训练集和交叉验证集集，交叉验证集中测试集和验证集又根据3:2的比例划分。最终获得StaffAbData数据集，包含4700张的训练集、1900 张的测试集和1200张的验证集。

在训练之前，采用K-means聚类算法来获取改进YOLOv3网络模型中合理的anchor框进行训练，包括步骤：

本发明采用公式(15)的欧氏距离来实现：

在真实的检测中会发现错检漏检的现象。通过分析特征图像中的复杂环境的噪点(光照强度、视频角度等)对真实的检测结果影响很大。所以本文想到用对抗网络来处理样本集，模拟现实复杂环境中会出现的噪点信息，增强数据集的多样性。

本发明利用对抗网络来处理在岗状态特征图像的样本集，模拟现实复杂环境中会出现的噪点信息，增强在岗状态特征图像数据集的多样性。

对抗网络(GAN)是一种无监督的学习方法，它巧妙的利用生成网络Generator和判别网络Discriminator之间的“对抗”思想来学习生成式的模型，达到生成全新数据样本的目的。两种网络的功能分别是：

生成网络用随机的噪声点来生成一个新的噪声图像。

判别网络用来判别生成的新图像的“真实性”。

在训练过程中，生成网络的目标是尽量生成真实的图片去欺骗判别网络，而判别网络的目标是尽量把生成的图片和真实的图片区分开来。这样，生成网络和判别网络构成了一个动态的“博弈”，这就是 GAN的基本思想。

采用DCGAN(Deep Convolutional GAN)来增强样本数据集，最终得到针对在岗异常状态检测的样本数据集StaffAbData-Strong。数据集包含12300张图像，包含7300张训练集、2900张测试集和2100 张验证集。

S130：将作为训练集的在岗状态特征图像输入改进YOLOv3网络模型进行训练，训练完成后将测试集和验证集作为输入，对训练结果进行验证。

S140：训练完成后，利用实时在岗状态监控视频生成实时在岗状态特征图像，输入训练完成的改进YOLOv3网络模型，输出标注目标特征区域的实时在岗状态特征图像，通过查看输出的实时在岗状态特征图像中是否存在异常目标，判断在岗状态是否异常。

分别验证YOLOv3原模型和改进后的模型在数据集上的实验效果。mAP测试结果如表1所示：

表1mAP值精度对比

由表1看出，改进损失函数和多尺度检测后在采集的视频检测上， mAP值都有显著的提升，比原网络模型提高了5.2％。在加强后的数据样本集上mAP值几乎没有变化，但是召回率提升到了96％。这有效的减少了检测光照变化、人员变动等复杂场景时错检、漏检的情况。提高了模型算法在实际环境中的应用。

改进后的模型在收敛性上也有显著的提升。改进的YOLOv3网络模型相比原模型的损失值有更快的下降速度，而且最终收敛的损失值比原算法更低，说明本发明改进后的YOLOv3网络模型比原模型在数据集StaffAbData-Strong上不但具有更快的收敛速度，而且具备更好的收敛效果。

在检测到在岗状态的基础上，设计一套对检测结果分析、处理的后台逻辑处理代码块，并将处理后的结果存入数据库；同时会对实时检测中的漏检图像(错检需要人为标注，代价大)和部分随机抽取的检测图像进行保存，用来完善针对该类型检测的样本数据集。人员在岗状态监测的流程如图4所示。

和现有技术相比，本文发明的基于改进YOLOv3提出的 ILF-YOLOv3人员在岗状态检测方法使用二分交叉熵损失函数和添加制衡参数的方式分别对YOLOv3算法的目标定位损失函数和目标置信度损失函数作了替换和改进，有效缓解了梯度的不稳定性而且加快了模型的收敛速度，均衡了易分类与难分类样本权重；在YOLOv3 的多尺度特征检测模块，添加一个卷积模块来增加不同尺度特征间的特征融合；针对数据集采样单一性的问题，采用对抗网络对采样的数据集进行增强来模拟现实中可能会出现的各种环境状况。通过本发明，不仅有效缓解随深度加深而出现的梯度不稳定情况，而且算法的检测精度也得到了显著提升，实现了智能化的人员在岗状态的实时检测。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于改进YOLOv3的人员在岗状态检测方法，其特征在于，包括：

2.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，在替换YOLOv3网络模型的损失函数的步骤中，包括对目标置信度损失函数和损失函数的更换。

3.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，对YOLOv3网络模型的多尺度检测模块进行改进的步骤中，通过添加YOLOv3网络模型中间层的卷积模块来到达更多层级间的特征融合，保证输出的特征包含更完整的特征信息。

4.根据权利要求3所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，卷积模块包含3项卷积操作：首先，第一个1Í1ÍN的卷积核会将特征图像的通道数卷积成目标特征图像的通道数，从而方便之后拼接操作，其中N表示目标特征图像的通道数；然后通过改变Stride参数，利用3Í3的卷积核来倍化特征图像，将特征图像的大小卷积成目标特征图像的大小；最后，对拼接后获得的新特征图像进行3Í3卷积，该卷积是在与目标特征拼接之后执行，将减少拼接特征图像融合后出现的混叠效应，同时也减少了不必要的特征偏移。

5.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集的步骤中，将标注后的在岗状态特征图像根据6:4的比例生成训练集和交叉验证集，在交叉验证集中测试集和验证集又根据3:2的比例划分。

6.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，利用图像工具生成在岗状态特征图像，标注出全部在岗状态特征图像中的目标特征区域之后，还包括：利用对抗网络来处理在岗状态特征图像的样本集，模拟现实复杂环境中会出现的噪点信息，增强在岗状态特征图像数据集的多样性。

7.根据权利要求6所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，利用对抗网络来处理在岗状态特征图像的样本集的步骤中，

8.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法，其特征在于，在训练之前，采用K-means聚类算法来获取改进YOLOv3网络模型中合理的anchor框进行训练，包括步骤：