CN111274894A - 一种基于改进YOLOv3的人员在岗状态检测方法 - Google Patents
一种基于改进YOLOv3的人员在岗状态检测方法 Download PDFInfo
- Publication number
- CN111274894A CN111274894A CN202010040949.XA CN202010040949A CN111274894A CN 111274894 A CN111274894 A CN 111274894A CN 202010040949 A CN202010040949 A CN 202010040949A CN 111274894 A CN111274894 A CN 111274894A
- Authority
- CN
- China
- Prior art keywords
- improved
- feature
- yolov3
- duty
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv3的人员在岗状态检测方法,ILF‑YOLOv3(Improve Loss and Feature‑YOLOv3)。首先,使用二分交叉熵损失函数和添加制衡权重参数的方式分别对YOLOv3算法的目标定位和置信度损失函数进行了改进,有效缓解了梯度的不稳定性,加快了模型的收敛速度,均衡了难、易分类样本权重的比重;此外,在YOLOv3网络的多尺度特征检测模块添加了一个卷积模块,增加了多尺度特征间的特征融合密度,增强了多尺度特征信息的完整性;最后,针对采样数据集单一性的问题,采用对抗网络对其进行定向增强来模拟现实中可能会出现的各种环境状况。实验结果表明,改进后的算法在测试集上的mAP(mean Average Precision)值提高了7.9%,召回率提高了14%。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于改进YOLOv3 的人员在岗状态检测方法。
背景技术
服务型行业在岗人员工作状态严重影响着单位的对外形象,存在 客户对员工异常工作状态不满意的问题。为了有效解决这一问题成为 现有许多服务型单位的首要任务。但是现有的管理和监督手段还停留 在人工监督阶段,而且由于人员检测存在背景坏境复杂、光照强度和 监控角度变化等问题严重影响着目标检测算法的性能。
随着深度学习技术在计算机视觉领域的不断发展和应用,基于深 度学习的目标检测算法已成为主流。该类算法主要分为两类:第一类 是two-stage模型,首先预选出候选区域,再通过卷积神经网络提取 目标特征。此类算法精度较高,发展成熟,但速度较慢,无法满足实 时性检测要求。典型的特征提取网络有AlexNet、OverFeat、GoogleNet、 VGG和ResNet;2014年在ILSVRC上又提出了R-CNN算法,之后 在该算法基础上,又提出了Fast R-CNN、DeepID-Net和Faster R-CNN 等目标检测算法。第二类算法为one-stage模型,该类方法是基于回 归思想的端到端的模型算法,其网络结构简单,实时性更强。2016 年,Redmon等人相继了提出了YOLO和YOLOv2网络模型;2018 年,在YOLOv2的基础上Redmon等人又提出YOLO-v3算法,该算 法是时下在检测的精度和训练的速度上最均衡的目标检测算法。
基于YOLOv3的优越性能,已经有很多的实践应用和相应的模 型改进。如戴伟聪等人将YOLOv3网络应用于遥感图像飞机目标的 识别,并提出了49层的网络模型,将3尺度特征检测增加至4尺度 检测;鞠默然等人改进了网络加强了网络对小目标的检测;施辉等人将YOLO应用到安全帽佩戴的检测上都取得了非常优越的效果。
但是目前针对在岗人员状态检测,还存在的人力资源浪费、检测 环境复杂和检测结果不客观等问题。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种基于改 进YOLOv3的人员在岗状态检测方法。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种 基于改进YOLOv3的人员在岗状态检测方法,包括:
基于YOLOv3网络模型构建改进YOLOv3网络模型,改进过程 为:替换YOLOv3网络模型的损失函数;对YOLOv3网络模型的多 尺度检测模块进行改进;
提取在岗状态监测视频,利用图像工具生成在岗状态特征图像, 标注出全部在岗状态特征图像中的目标特征区域,并将标注后的在岗 状态特征图像按比例分为训练集、测试集和验证集;
将作为训练集的在岗状态特征图像输入改进YOLOv3网络模型 进行训练,训练完成后将测试集和验证集作为输入,对训练结果进行 验证;
训练完成后,利用实时在岗状态监控视频生成实时在岗状态特征 图像,输入训练完成的改进YOLOv3网络模型,输出标注目标特征 区域的实时在岗状态特征图像,通过查看输出的实时在岗状态特征图 像中是否存在异常目标,判断在岗状态是否异常。
其中,在替换YOLOv3网络模型的损失函数的步骤中,包括对目 标类别损失函数和目标定位损失函数的更换。
其中,对YOLOv3网络模型的多尺度检测模块进行改进的步骤中, 通过添加YOLOv3网络模型中间层的卷积模块来到达更多层级间的特 征融合,保证输出的特征包含更完整的特征信息。
其中,卷积模块包含3项卷积操作:首先,第一个1×1×N的卷 积核会将特征图像的通道数卷积成目标特征图像的通道数,从而方便 之后拼接操作,其中N表示目标特征图像的通道数;然后通过改变Stride参数,利用3×3的卷积核来倍化特征图像,将特征图像的大小 卷积成目标特征图像的大小;最后,对拼接后获得的新特征图像进行 3×3卷积,该卷积是在与目标特征拼接之后执行,将减少拼接特征图 像融合后出现的混叠效应,同时也减少了不必要的特征偏移。
其中,将标注后的在岗状态特征图像按比例分为训练集、测试集 和验证集的步骤中,将标注后的在岗状态特征图像根据6:4的比例生 成训练集和交叉验证集,在交叉验证集中测试集和验证集又根据3:2 的比例划分。
其中,利用图像工具生成在岗状态特征图像,标注出全部在岗状 态特征图像中的目标特征区域之后,还包括:利用对抗网络来处理在 岗状态特征图像的样本集,模拟现实复杂环境中会出现的噪点信息, 增强在岗状态特征图像数据集的多样性。
其中,利用对抗网络来处理在岗状态特征图像的样本集的步骤中,
通过对抗网络中的生成网络用随机的噪声点处理标注后的在岗 状态特征图像,生成新的在岗状态特征图像;通过对抗网络中的判别 网络用来判别生成的在岗状态特征图像的真实性。
其中,在训练之前,采用K-means聚类算法来获取改进YOLOv3 网络模型中合理的anchor框进行训练,包括步骤:
拟定适当的聚类个数,然后按参数间距离的方式来实现聚类的划 分;计算参数间距离的方式包括欧式聚类或曼哈顿距离;
采用Elbow method方法获取k值;将误差平方和不会随k值变 化而发生大幅度变化的k值作为合适的k值。
和现有技术相比,本发明的基于改进YOLOv3的人员在岗状态 检测方法使用二分交叉熵损失函数和添加制衡参数的方式分别对 YOLOv3算法的目标定位损失函数和目标置信度损失函数作了替换 和改进,有效缓解了梯度的不稳定性而且加快了模型的收敛速度,均 衡了易分类与难分类样本权重;在YOLOv3的多尺度特征检测模块, 添加一个卷积模块来增加不同尺度特征间的特征融合;针对数据集采 样单一性的问题,采用对抗网络对采样的数据集进行增强来模拟现实 中可能会出现的各种环境状况。通过本发明,不仅有效缓解随深度加 深而出现的梯度不稳定情况,而且算法的检测精度也得到了显著提升, 实现了智能化的人员在岗状态的实时检测。
附图说明
图1为本发明提供的一种基于改进YOLOv3的人员在岗状态检 测方法的流程示意图;
图2为本发明提供的一种基于改进YOLOv3的人员在岗状态检 测方法中改进后的多尺度检测模块的结构示意图;
图3为本发明提供的一种基于改进YOLOv3的人员在岗状态检 测方法中改进后的多尺度检测模块增加的卷积模块的结构示意图;
图4为本发明提供的一种基于改进YOLOv3的人员在岗状态检 测方法中人员在岗状态监测的流程示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的 描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明 保护的范围。
参阅图1,本发明提供了一种基于改进YOLOv3的人员在岗状态 检测方法,包括:
S110:基于YOLOv3网络模型构建改进YOLOv3网络模型,改 进过程为:替换YOLOv3网络模型的损失函数;对YOLOv3网络模 型的多尺度检测模块进行改进。
YOLOv3网络在YOLOv2网络的基础上作了不小的改进,不但 速度没有下降,并且提高了小目标检测和近距离物体检测的鲁棒性。 主要改进点有:loss函数的不同,采用了logistic loss替换了原来的 softmax loss;anchor box prior由原来的5个增加成了现在的9个, Junction on Union;在最终的检测策略上,v3分别采用了13×13、 26×26、52×52三种的不同尺度来检测特征,对小目标的检测更加 友好;前向传播网络由darknet-19加深到了v3的darknet-53。
YOLOv3网络以Darknet-53模型结构为基础的模型结构,并且在 该模型的基础上加入了特征金字塔模型,将特征的输出增加到3个尺 度。
YOLOv3是基于回归算法的one-stage模型,所以它提前用算法 对候选框进行过滤,而是直接将一个416×416(32的倍数)的图像作为 网络的输入,通过卷积网络分别卷积出13×13、26×26、52×52三 个不同特征尺度的待检测图像。
根据YOLOv3网络的3层输出13×13×3×9、26×26×3×9、 52×52×3×9,可以分析出前3个数分别是特征图像的大小(例13*13) 及不同尺度特征图预设的边界框个数(默认取3个),最后一位数是预 测的结果集合,该数值的具体表示为:数据集包含的4个目标类别; 其余5个参数为特征图预测框体的横纵坐标偏移值和宽高缩放比 (tx,ty,tw,th)及预测的置信度。根据预测值,得到预测框体,如 公式(1)所示。
bx=σ(tx)+cx
by=σ(ty)+cy
最后,将预测出框体与真实的边界框进行IOU计算。剔除掉IOU 小于阈值(默认0.5)的预测框。最终,通过反向传播将得到的预测框 体的相应参数进行损失计算。
本发明的方法基于现有YOLOv3网络模型进行改进,具体改进 内容如下:
对目标类别损失函数和目标定位损失函数的更换;使用交叉熵损 失函数作为目标定位损失函数,变更目标定位置信度损失函数。
在深度神经网络的训练中,由于梯度下降法的特性,随着网络层 数的不断加深,梯度不稳的现象会更加明显。这会导致梯度的弥散或 爆炸,从而影响神经网络整体的收敛性和检测精度。这一问题同样存 在于YOLOv3目标检测算法中。
YOLOv3的损失函数由3部分组成:
目标置信度损失:
目标分类的损失:
目标定位的两个损失:
公式5是深度神经网络中损失函数对权重求导的通用公式,其中 L为损失函数;wij是网络中的权重参数;nodej是深度神经网络中神经 元的部分;是深度神经网络中输出值的导数;xij是深度神经网络 中输入值。公式6是目标定位损失中x坐标定位部分损失函数链式求 导后的权重更新公式,其中Llocx为YOLOv3中x坐标偏移损失函 数;是深度神经网络中输出值的导数。
YOLOv3中x坐标定位定位损失的输出值都经过sigmoid激活函 数处理,如公式8-9所示,通过对该函数及其导函数分析可知,神经 网络输出值的导函数的值在0到0.25之间,在反向传播中会伴随 层数加深呈指数级下降;且当趋近于0或1时的值趋近于0, 直接导致梯度消失,从而造成梯度弥散。由公式5可知,目标定位损 失函数中坐标定位与宽高缩放的损失函数都是用了同x坐标偏移相 同的平方损失函数。所以,这不仅会影响模型的收敛速度,还会因为 收敛效果不稳定而导致训练后模型的权重失衡,并最终影响算法的检 测精度。
在本发明中,使用交叉熵损失函数来代替原损失函数。
二分交叉函数不仅符合损失函数特性而且可以有效的缓解梯度 弥散现象。根据链式求导法则可以得到公式(10)中x坐标偏移的权 重更新公式(11),其中是网络输出的误差值;为网络的 目标值。可以看出梯度下降已与网络输出的导数值无关,而是受 误差值的影响,因此当误差较大时下降速度也会随之变快, 从而使梯度下降法更有效,也提高了模型训练速度,有效避免了梯度 弥散现象。
综上所述,二分交叉函数不但符合预测输出值与实际样本之间的 差距越大,损失函数值越大的特性,并且还能有效避免梯度消失,加 速模型的收敛速度。所以,将二分交叉熵函数作为ILF-YOLOv3算法 的目标定位损失函数,具体如公式式11所示:
YOLOv3检测算法是基于回归思想的one-stage模型,检测精度 与two-stage模型有一定差距,主要原因是大量前景背景类别不均衡 造成的。本文的检测中也出现了此种情况,因待检测目标的特征多以 员工在岗状态特征信息为基础,如打手机、睡觉等状态的特征都以人 员在岗特征为背景,所以导致在岗状态成为易检测目标,而打手机、 睡觉样本的检测变的困难。从而造成在检测中经常出现打手机、睡觉 等异常状态的漏检的现象。
针对上述问题,本文将置信度损失函数改进为新的损失函数(公 式12),即在没有增大参数的复杂度的条件下,在原函数的基础上添 加由已有参数构成的制衡系数(公式13)来实现样本类别均衡, 其中所以无论β的取值是多少都可保证是一个正数,不 会影响损失函数的梯度方向。
添加该制衡系数主要通过减少易分类样本的权重,使网络在训练 时更专注于难分类样本,从而达到对于易分类和难分类样本权重的控 制。例如,当预测输出的值趋向于1时,该分类样本置信度高,为 易分类样本,且系数值趋向于0,这会降低该权重参在总损失函数 中的贡献度,从而减少易分类样本的权重;当趋向于0时,该样本 被分类的置信度低,表示该样本为一个难分类的样本,的值会趋向 于1,与原损失函数变化不大,从而不会降低难分类样本的相关权重 在总损失函数中的贡献。
另外,实验中还发现,在默认IOU阈值为0.5的情况下,改进损 失函数后的检测效果并不理想。通过实验验证,当IOU阈值调整为 0.35时,使用改进后的损失函数达到理想效果,检测精度提升了1.3%, 召回率提升了5%。
关于值β,针对自制数据集实验后,发现当β=0.5时(β=0时, 参数值为1,损失函数为原函数),达到最佳效果,召回率提高了5%。
综上所述,本文基于对目标类别损失和目标定位损失改进后,得 到的ILF-YOLOv3模型的总损失函数如公式14所示:
YOLOv3同过上采样与张量拼接的手段来获取不同尺度的特征。 本文在原多尺度融合的基础上,通过添加YOLOv3网络模型中间层的 卷积模块来到达更多层级间的特征融合,保证输出的特征包含更完整 的特征信息。
卷积模块包含3项卷积操作:首先,第一个1×1×N的卷积核会 将特征图像的通道数卷积成目标特征图像的通道数,从而方便之后拼 接操作,其中N表示目标特征图像的通道数;然后通过改变Stride 参数,利用3×3的卷积核来倍化特征图像,将特征图像的大小卷积 成目标特征图像的大小;最后,对拼接后获得的新特征图像进行3×3 卷积,该卷积是在与目标特征拼接之后执行,将减少拼接特征图像融 合后出现的混叠效应,同时也减少了不必要的特征偏移。改进后的多 尺度检测模块及增加的卷积模块的结构如图2和图3所示。
改进后的多尺度检测模块提取的特征信息将会融合更多层级间 的特征信息,相比原输出特征包含更加完整的特征信息,更值得信任。
S120:提取在岗状态监测视频,利用图像工具生成在岗状态特征 图像,标注出全部在岗状态特征图像中的目标特征区域,并将标注后 的在岗状态特征图像按比例分为训练集、测试集和验证集。
将标注后的在岗状态特征图像按比例分为训练集、测试集和验证 集的步骤中,将标注后的在岗状态特征图像根据6:4的比例生成训练 集和交叉验证集集,交叉验证集中测试集和验证集又根据3:2的比例 划分。最终获得StaffAbData数据集,包含4700张的训练集、1900 张的测试集和1200张的验证集。
在训练之前,采用K-means聚类算法来获取改进YOLOv3网络 模型中合理的anchor框进行训练,包括步骤:
拟定适当的聚类个数,然后按参数间距离的方式来实现聚类的划 分;计算参数间距离的方式包括欧式聚类或曼哈顿距离;
本发明采用公式(15)的欧氏距离来实现:
采用Elbow method方法获取k值;将误差平方和不会随k值变 化而发生大幅度变化的k值作为合适的k值。
在真实的检测中会发现错检漏检的现象。通过分析特征图像中的 复杂环境的噪点(光照强度、视频角度等)对真实的检测结果影响很 大。所以本文想到用对抗网络来处理样本集,模拟现实复杂环境中会 出现的噪点信息,增强数据集的多样性。
本发明利用对抗网络来处理在岗状态特征图像的样本集,模拟现 实复杂环境中会出现的噪点信息,增强在岗状态特征图像数据集的多 样性。
对抗网络(GAN)是一种无监督的学习方法,它巧妙的利用生成网 络Generator和判别网络Discriminator之间的“对抗”思想来学习生 成式的模型,达到生成全新数据样本的目的。两种网络的功能分别是:
生成网络用随机的噪声点来生成一个新的噪声图像。
判别网络用来判别生成的新图像的“真实性”。
在训练过程中,生成网络的目标是尽量生成真实的图片去欺骗判 别网络,而判别网络的目标是尽量把生成的图片和真实的图片区分开 来。这样,生成网络和判别网络构成了一个动态的“博弈”,这就是 GAN的基本思想。
采用DCGAN(Deep Convolutional GAN)来增强样本数据集,最终 得到针对在岗异常状态检测的样本数据集StaffAbData-Strong。数据 集包含12300张图像,包含7300张训练集、2900张测试集和2100 张验证集。
S130:将作为训练集的在岗状态特征图像输入改进YOLOv3网 络模型进行训练,训练完成后将测试集和验证集作为输入,对训练结 果进行验证。
S140:训练完成后,利用实时在岗状态监控视频生成实时在岗状 态特征图像,输入训练完成的改进YOLOv3网络模型,输出标注目 标特征区域的实时在岗状态特征图像,通过查看输出的实时在岗状态 特征图像中是否存在异常目标,判断在岗状态是否异常。
分别验证YOLOv3原模型和改进后的模型在数据集上的实验效 果。mAP测试结果如表1所示:
表1mAP值精度对比
由表1看出,改进损失函数和多尺度检测后在采集的视频检测上, mAP值都有显著的提升,比原网络模型提高了5.2%。在加强后的数 据样本集上mAP值几乎没有变化,但是召回率提升到了96%。这有 效的减少了检测光照变化、人员变动等复杂场景时错检、漏检的情况。 提高了模型算法在实际环境中的应用。
改进后的模型在收敛性上也有显著的提升。改进的YOLOv3网 络模型相比原模型的损失值有更快的下降速度,而且最终收敛的损失 值比原算法更低,说明本发明改进后的YOLOv3网络模型比原模型 在数据集StaffAbData-Strong上不但具有更快的收敛速度,而且具备 更好的收敛效果。
在检测到在岗状态的基础上,设计一套对检测结果分析、处理的 后台逻辑处理代码块,并将处理后的结果存入数据库;同时会对实时 检测中的漏检图像(错检需要人为标注,代价大)和部分随机抽取的检 测图像进行保存,用来完善针对该类型检测的样本数据集。人员在岗 状态监测的流程如图4所示。
和现有技术相比,本文发明的基于改进YOLOv3提出的 ILF-YOLOv3人员在岗状态检测方法使用二分交叉熵损失函数和添 加制衡参数的方式分别对YOLOv3算法的目标定位损失函数和目标 置信度损失函数作了替换和改进,有效缓解了梯度的不稳定性而且加 快了模型的收敛速度,均衡了易分类与难分类样本权重;在YOLOv3 的多尺度特征检测模块,添加一个卷积模块来增加不同尺度特征间的 特征融合;针对数据集采样单一性的问题,采用对抗网络对采样的数 据集进行增强来模拟现实中可能会出现的各种环境状况。通过本发明, 不仅有效缓解随深度加深而出现的梯度不稳定情况,而且算法的检测 精度也得到了显著提升,实现了智能化的人员在岗状态的实时检测。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范 围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变 换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明 的专利保护范围内。
Claims (8)
1.一种基于改进YOLOv3的人员在岗状态检测方法,其特征在于,包括:
基于YOLOv3网络模型构建改进YOLOv3网络模型,改进过程为:替换YOLOv3网络模型的损失函数;对YOLOv3网络模型的多尺度检测模块进行改进;
提取在岗状态监测视频,利用图像工具生成在岗状态特征图像,标注出全部在岗状态特征图像中的目标特征区域,并将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集;
将作为训练集的在岗状态特征图像输入改进YOLOv3网络模型进行训练,训练完成后将测试集和验证集作为输入,对训练结果进行验证;
训练完成后,利用实时在岗状态监控视频生成实时在岗状态特征图像,输入训练完成的改进YOLOv3网络模型,输出标注目标特征区域的实时在岗状态特征图像,通过查看输出的实时在岗状态特征图像中是否存在异常目标,判断在岗状态是否异常。
2.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,在替换YOLOv3网络模型的损失函数的步骤中,包括对目标置信度损失函数和损失函数的更换。
3.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,对YOLOv3网络模型的多尺度检测模块进行改进的步骤中,通过添加YOLOv3网络模型中间层的卷积模块来到达更多层级间的特征融合,保证输出的特征包含更完整的特征信息。
4.根据权利要求3所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,卷积模块包含3项卷积操作:首先,第一个1Í1ÍN的卷积核会将特征图像的通道数卷积成目标特征图像的通道数,从而方便之后拼接操作,其中N表示目标特征图像的通道数;然后通过改变Stride参数,利用3Í3的卷积核来倍化特征图像,将特征图像的大小卷积成目标特征图像的大小;最后,对拼接后获得的新特征图像进行3Í3卷积,该卷积是在与目标特征拼接之后执行,将减少拼接特征图像融合后出现的混叠效应,同时也减少了不必要的特征偏移。
5.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,将标注后的在岗状态特征图像按比例分为训练集、测试集和验证集的步骤中,将标注后的在岗状态特征图像根据6:4的比例生成训练集和交叉验证集,在交叉验证集中测试集和验证集又根据3:2的比例划分。
6.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,利用图像工具生成在岗状态特征图像,标注出全部在岗状态特征图像中的目标特征区域之后,还包括:利用对抗网络来处理在岗状态特征图像的样本集,模拟现实复杂环境中会出现的噪点信息,增强在岗状态特征图像数据集的多样性。
7.根据权利要求6所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,利用对抗网络来处理在岗状态特征图像的样本集的步骤中,
通过对抗网络中的生成网络用随机的噪声点处理标注后的在岗状态特征图像,生成新的在岗状态特征图像;通过对抗网络中的判别网络用来判别生成的在岗状态特征图像的真实性。
8.根据权利要求1所述的基于改进YOLOv3的人员在岗状态检测方法,其特征在于,在训练之前,采用K-means聚类算法来获取改进YOLOv3网络模型中合理的anchor框进行训练,包括步骤:
拟定适当的聚类个数,然后按参数间距离的方式来实现聚类的划分;计算参数间距离的方式包括欧式聚类或曼哈顿距离;
采用Elbow method方法获取k值;将误差平方和不会随k值变化而发生大幅度变化的k值作为合适的k值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040949.XA CN111274894A (zh) | 2020-01-15 | 2020-01-15 | 一种基于改进YOLOv3的人员在岗状态检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040949.XA CN111274894A (zh) | 2020-01-15 | 2020-01-15 | 一种基于改进YOLOv3的人员在岗状态检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274894A true CN111274894A (zh) | 2020-06-12 |
Family
ID=71002183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040949.XA Pending CN111274894A (zh) | 2020-01-15 | 2020-01-15 | 一种基于改进YOLOv3的人员在岗状态检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274894A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011405A (zh) * | 2021-05-25 | 2021-06-22 | 南京柠瑛智能科技有限公司 | 一种解决无人机地物目标识别多框重叠误差的方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325438A (zh) * | 2018-09-18 | 2019-02-12 | 桂林电子科技大学 | 实况全景交通标志的实时识别方法 |
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
CN109978035A (zh) * | 2019-03-18 | 2019-07-05 | 西安电子科技大学 | 基于改进的k-means和损失函数的行人检测方法 |
CN110135267A (zh) * | 2019-04-17 | 2019-08-16 | 电子科技大学 | 一种大场景sar图像细微目标检测方法 |
CN110163108A (zh) * | 2019-04-23 | 2019-08-23 | 杭州电子科技大学 | 基于双路径特征融合网络的鲁棒声呐目标检测方法 |
CN110163828A (zh) * | 2019-07-10 | 2019-08-23 | 复旦大学 | 基于超声射频信号的乳腺钙化点图像优化系统及方法 |
CN110309747A (zh) * | 2019-06-21 | 2019-10-08 | 大连理工大学 | 一种支持多尺度快速深度行人检测模型 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
CN110490155A (zh) * | 2019-08-23 | 2019-11-22 | 电子科技大学 | 一种禁飞空域无人机检测方法 |
CN110660052A (zh) * | 2019-09-23 | 2020-01-07 | 武汉科技大学 | 一种基于深度学习的热轧带钢表面缺陷检测方法 |
-
2020
- 2020-01-15 CN CN202010040949.XA patent/CN111274894A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019028725A1 (en) * | 2017-08-10 | 2019-02-14 | Intel Corporation | CONVOLUTIVE NEURAL NETWORK STRUCTURE USING INVERTED CONNECTIONS AND OBJECTIVITY ANTERIORITIES TO DETECT AN OBJECT |
CN109325438A (zh) * | 2018-09-18 | 2019-02-12 | 桂林电子科技大学 | 实况全景交通标志的实时识别方法 |
CN109886307A (zh) * | 2019-01-24 | 2019-06-14 | 西安交通大学 | 一种基于卷积神经网络的图像检测方法及系统 |
CN109934121A (zh) * | 2019-02-21 | 2019-06-25 | 江苏大学 | 一种基于YOLOv3算法的果园行人检测方法 |
CN109978035A (zh) * | 2019-03-18 | 2019-07-05 | 西安电子科技大学 | 基于改进的k-means和损失函数的行人检测方法 |
CN110135267A (zh) * | 2019-04-17 | 2019-08-16 | 电子科技大学 | 一种大场景sar图像细微目标检测方法 |
CN110163108A (zh) * | 2019-04-23 | 2019-08-23 | 杭州电子科技大学 | 基于双路径特征融合网络的鲁棒声呐目标检测方法 |
CN110309747A (zh) * | 2019-06-21 | 2019-10-08 | 大连理工大学 | 一种支持多尺度快速深度行人检测模型 |
CN110163828A (zh) * | 2019-07-10 | 2019-08-23 | 复旦大学 | 基于超声射频信号的乳腺钙化点图像优化系统及方法 |
CN110490155A (zh) * | 2019-08-23 | 2019-11-22 | 电子科技大学 | 一种禁飞空域无人机检测方法 |
CN110660052A (zh) * | 2019-09-23 | 2020-01-07 | 武汉科技大学 | 一种基于深度学习的热轧带钢表面缺陷检测方法 |
AU2019101142A4 (en) * | 2019-09-30 | 2019-10-31 | Dong, Qirui MR | A pedestrian detection method with lightweight backbone based on yolov3 network |
Non-Patent Citations (1)
Title |
---|
李云鹏等: ""基于YOLOv3的自动驾驶中运动目标检测"", 《计算机工程与设计》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011405A (zh) * | 2021-05-25 | 2021-06-22 | 南京柠瑛智能科技有限公司 | 一种解决无人机地物目标识别多框重叠误差的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626350B (zh) | 目标检测模型训练方法、目标检测方法及装置 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN110852316B (zh) | 一种采用密集结构卷积网络的图像篡改检测和定位方法 | |
CN111275688A (zh) | 基于注意力机制的上下文特征融合筛选的小目标检测方法 | |
CN110796186A (zh) | 基于改进的YOLOv3网络的干湿垃圾识别分类方法 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN110349136A (zh) | 一种基于深度学习的篡改图像检测方法 | |
CN108596053A (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
CN113569667B (zh) | 基于轻量级神经网络模型的内河船舶目标识别方法及系统 | |
CN111126202A (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN107133569A (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN105574550A (zh) | 一种车辆识别方法及装置 | |
CN107832835A (zh) | 一种卷积神经网络的轻量化方法及装置 | |
CN106778757A (zh) | 基于文本显著性的场景文本检测方法 | |
CN110348437B (zh) | 一种基于弱监督学习与遮挡感知的目标检测方法 | |
CN104992223A (zh) | 基于深度学习的密集人数估计方法 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN113378676A (zh) | 基于多特征融合的图像中人物交互检测方法 | |
CN110879881B (zh) | 基于特征组分层和半监督随机森林的鼠标轨迹识别方法 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN110263731B (zh) | 一种单步人脸检测系统 | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN110008853A (zh) | 行人检测网络及模型训练方法、检测方法、介质、设备 | |
CN109492596A (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200612 |
|
WD01 | Invention patent application deemed withdrawn after publication |