CN113807276A - 基于优化的YOLOv4模型的吸烟行为识别方法 - Google Patents
基于优化的YOLOv4模型的吸烟行为识别方法 Download PDFInfo
- Publication number
- CN113807276A CN113807276A CN202111113787.9A CN202111113787A CN113807276A CN 113807276 A CN113807276 A CN 113807276A CN 202111113787 A CN202111113787 A CN 202111113787A CN 113807276 A CN113807276 A CN 113807276A
- Authority
- CN
- China
- Prior art keywords
- module
- model
- smoking
- network
- cbl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000391 smoking effect Effects 0.000 title claims abstract description 94
- 230000006399 behavior Effects 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012544 monitoring process Methods 0.000 claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 7
- 101100222094 Arabidopsis thaliana CSP4 gene Proteins 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 101100441251 Arabidopsis thaliana CSP2 gene Proteins 0.000 claims description 3
- 102100027557 Calcipressin-1 Human genes 0.000 claims description 3
- 101100247605 Homo sapiens RCAN1 gene Proteins 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 101150064416 csp1 gene Proteins 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007790 scraping Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims 1
- 230000006872 improvement Effects 0.000 abstract description 2
- 235000019504 cigarettes Nutrition 0.000 description 10
- 239000000779 smoke Substances 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000007306 turnover Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000383 hazardous chemical Substances 0.000 description 1
- 231100000206 health hazard Toxicity 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于优化的YOLOv4模型的吸烟行为识别方法,涉及图像处理技术领域,该方法包括获取人员吸烟和人员未吸烟的图像,并对图像进行预处理得到训练集;对训练集中的每个图像进行标注,标签类别包括smoking和person;优化YOLOv4模型框架,在模型的骨干网络中加入小目标增强注意力机制,提升了检测算法对不同尺寸目标的检测能力,改进模型颈部网络的PANet结构,增加小目标特征为目标的特征网络的贡献,将优化的模型作为吸烟行为检测模型,采用训练集对吸烟行为检测模型进行模型训练;将实时监控视频图像输入吸烟行为检测模型,得到检测结果。通过对模型进行双重改进,提升了检测算法对小目标的检测能力。
Description
技术领域
本发明涉及图像处理技术领域,尤其是基于优化的YOLOv4模型的吸烟行为识别方法。
背景技术
吸烟行为已经成为全世界难以解决的公共卫生问题,吸烟对健康的危害已是众所周知,会间接或直接的导致很多疾病的发生甚至出现生命危险。2014年卫生计生委起草了《公共场所控制吸烟条例》,明确规定所有室内公共场所一律禁止吸烟。国家对控烟工作高度重视,积极制定各种条令,许多公共场所都有禁烟标识,但是全靠人们的自主意识,仅通过人为管理吸烟行为,吸烟行为很难做到合理管控。
针对吸烟行为识别的研究比较早,涌现出各种各样的吸烟行为检测方法。许多国内外研究人员在吸烟行为识别做出了大量的研究,总体上包括利用烟雾的检测、利用吸烟动作的检测等方法。随着计算机视觉技术和硬件技术的高速发展,目前经由视频图像的吸烟行为检测是主流研究方向。从目前的研究成果来看,基于图像利用深度学习算法实现吸烟行为识别也有很多不同的方法,对吸烟行为手势的识别会存在吸烟手势复杂、肤色多样、相机角度等问题使得识别的手势存在差异,导致误判率较大。对香烟烟雾的检测,会因为香烟的烟雾浓度比较低且易扩散、烟雾边缘不够明显等问题,使得香烟烟雾与室内的白色背景相融合,难以区分,准确率也很难提高。检测香烟或者基于人体关节点进行吸烟动作识别这两种方法对于大目标准确率较高,但是视频监控的图像不可避免地会面临着尺度问题的挑战:不同的视频监控图像里需要被检测出的目标的大小相对于整张图像的比例差异是非常大的,这种尺度差异带来的挑战性,严重限制了现有检测器的整体表现。
发明内容
本发明人针对上述问题及技术需求,提出了基于优化的YOLOv4模型的吸烟行为识别方法,本发明的技术方案如下:
一种基于优化的YOLOv4模型的吸烟行为识别方法,包括如下步骤:
获取人员吸烟和人员未吸烟的图像,并对图像进行预处理得到训练集;
对训练集中的每个图像进行标注,标签类别包括smoking和person;
优化YOLOv4模型框架,在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,改进YOLOv4模型颈部网络的PANet结构,得到吸烟行为检测模型,记为YOLO-Smoking模型,采用训练集对YOLO-Smoking模型进行模型训练;
将实时监控视频图像输入吸烟行为检测模型,得到检测结果。
其进一步的技术方案为,YOLOv4模型框架包括依次相连的输入端、骨架特征提取网络、颈部网络和检测头网络:
输入端,输入图像的大小为608×608,通道为3,并对每一输入图像进行马赛克数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络;
骨架特征提取网络,采用的骨干网络为CSPDarknet53,包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块,包含72个卷积层,输出特征图的变化规律是:608、304、152、76、38、19;其中,CBM模块包括依次相连的卷积层、批归一化层和Mish激活功能,CSPx模块中的x是指残差组件个数;
颈部网络用来收集不同特征图,颈部网络采用SPP-PANet结构,SPP模块采用1×1、5×5、9×9、13×13的最大池化的方式,进行多尺度融合;在FPN层的后面添加了一个自底向上的特征金字塔,FPN层自顶向下传达强语义特征,特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行参数聚合,最后得到用于预测的特征图;
检测头网络用来预测类别信息和目标物体的边界框。
其进一步的技术方案为,在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,包括:
在CSPx模块中加入LEA模块,优化后的CSPx模块包括两条支路,第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块,第二支路包含第三CBL模块,用来生成一个大的残差边,通过对两条支路进行跨级张量拼接与通道整合增强CNN的学习能力;其中,CBL模块均包括依次相连的第一卷积层、批归一化层和Leaky ReLu激活功能,Res Unit模块包括第二卷积层和批归一化层,输入至Res Unit模块的原通道特征值经过第二卷积层和批归一化层后得到新通道特征值,并与原通道特征值进行张量相加后输出;
LEA模块包括依次相连的全局平均池化层、第三卷积层、ReLu激活功能、第四卷积层和sigmoid激活功能,对输入至LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值,然后通过两个卷积得到权重值,将权重值扩展至与原通道特征值同一形状,并对原通道特征值每个元素乘以对应通道的权重值,得到新的特征值,其中C表示通道数。
其进一步的技术方案为,改进YOLOv4模型颈部网络的PANet结构,包括:
选取尺度分别为76、38和19的三个层级的输入特征图,层级分别记为C3、C4和C5,再增加尺度为152的输入特征图,层级记为C2,将C2与C3的特征融合、C3与C4的特征融合、C4与C5的特征融合,即将高分辨率的底层特征与高层特征分别融合,增加小目标特征为目标的特征网络的贡献,提升检测算法对小目标的检测能力。
其进一步的技术方案为,颈部网络包括:
由骨干网络中CSP4模块输出的通道特征值进入颈部网络,依次经过第四CBL模块、SPP模块、第五CBL模块、第六CBL模块后通过上采样与骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接后,一条支路为两层第八CBL模块经过通过上采样与骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接后,通过第十CBL模块输出至检测头网络的第一通道,另一条支路为与第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接后,通过第十二CBL模块输出至检测头网络的第二通道,第五CBL模块输出的通道特征值还与第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接后,通过第十四CBL模块输出至检测头网络的第三通道;其中,CBL模块均包括依次相连的卷积层、批归一化层和Leaky ReLu激活功能。
其进一步的技术方案为,获取人员吸烟和人员未吸烟的图像,并对图像进行预处理得到训练集,包括:
搭建摄像头或者使用现有视频监控系统,获得不同人员在不同场景下的吸烟行为视频,视频分辨率为1280(水平)×720(垂直),每个吸烟动作视频持续60秒以上;
提取关键帧图片,以预设间隔的视频帧进行视频帧提取,挑选第一预定数量的人员吸烟行为图像,以及第二预定数量的人员未吸烟图像;
将图像统一修改文件名,并修改分辨率为608(水平)×608(垂直);
将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作,增广数据集,并将数据集按照9:1划分为训练集和测试集。
其进一步的技术方案为,对训练集中的每个图像进行标注,包括:
确定标签类别包括把人员和吸烟行为作为一个整体的smoking类型、把不具有吸烟行为的人员作为person类型;
按照标签类别对训练集中的每个图像标注目标位置坐标以及标签类别,并将标注信息生成相应的xml文件;
将训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。
其进一步的技术方案为,采用训练集对YOLO-Smoking模型进行模型训练,包括:
首先在ImageNet和COCO数据集中选择person类型对YOLO-Smoking模型进行预训练,以所得训练参数作为初始权重训练网络;
设置类别classes=2,即smoking和person两个类型,输入图片尺寸width和height均为608,最大迭代次数max_batches=8000,学习率为0.001,优化器使用Adam;
将训练集输入至初始权重训练网络进行模型训练直至达到最大迭代次数;
采用测试集对训练后的模型进行验证测试,若达到期望识别要求则将训练后的模型作为吸烟行为检测模型,否则重新执行预训练的步骤。
其进一步的技术方案为,将实时监控视频图像输入吸烟行为检测模型,得到检测结果,包括:
访问监控系统视频实时数据,设置每分钟抓取2个视频帧,将待测图像进行标准化处理,缩放到608×608大小,并转换为RGB图片;将RGB图片输入至YOLO-Smoking模型进行预测,网络将会输出目标类别、类别置信度、预测框坐标和边框置信度。
本发明的有益技术效果是:
1)针对现有监控视频由于人离开摄像头距离远近的变化,导致人体在图像中占比变化很大,且普遍情况是偏小,可能出现误检测的情况,本方法把人员和吸烟行为作为一个整体定义为目标进行标注训练,特征不仅仅是手里的香烟,还有吸烟的动作等,以提高检测的准确率;通过优化YOLOv4网络模型,在CSPDarknet53的CSP模块中加入了LEA模块,克服了YOLOv4模型在识别小物体时准确率较低的缺陷,提升了检测算法对不同尺寸目标的检测能力,增强了检测模型的鲁棒性,使得基于监控视频的吸烟行为识别精度得到了明显提高;还改进了PANet结构,将高分辨率的底层特征与高层特征分别融合,增加小目标特征为目标的特征网络的贡献,双重改进提升了检测算法对小目标的检测能力;
2)本方法将目标识别和吸烟行为识别判定均放到YOLO-Smoking模型中,实现端到端的吸烟行为检测,降低网络训练难度,提高检测速度,识别速度达到每秒30帧,保证检测实时性的要求。
附图说明
图1是本申请提供的吸烟行为识别方法的流程图。
图2是本申请提供的YOLOv4模型框架图。
图3是本申请提供的优化的CSPx模块和LEA模块。
图4是本申请提供的改进的PANet结构。
图5是本申请提供的采用YOLO-Smoking模型的检测结果。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
一种基于优化的YOLOv4模型的吸烟行为识别方法,其流程图如图1所示,该方法包括具体如下步骤:
步骤1:获取人员吸烟和人员未吸烟的图像,并对图像进行预处理得到训练集。
步骤1.1:搭建摄像头或者使用现有视频监控系统,获得不同人员在不同场景下的吸烟行为视频,视频分辨率为1280(水平)×720(垂直),每个吸烟动作视频持续60秒以上。
步骤1.2:提取关键帧图片,以预设间隔的视频帧进行视频帧提取,挑选6000张的人员吸烟行为图像,以及5000张的人员未吸烟图像。
步骤1.3:将图像统一修改文件名,并修改分辨率为608(水平)×608(垂直)。
步骤1.4:将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作,增广数据集,并将数据集按照9:1划分为训练集和测试集。
步骤2:对训练集中的每个图像进行标注。
步骤2.1:确定标签类别包括:把人员和吸烟行为作为一个整体的smoking类型、把不具有吸烟行为的人员作为person类型。
与传统的把目标定义为烟头、夹有香烟的手指及烟雾,当输入模型的图片降低分辨率后,烟头只占整个图像几个像素,可能出现误检测甚至无法检测的情况,因此本方法把人员和吸烟行为作为一个整体定义为目标进行标注训练,特征不仅仅是手里的香烟,还有吸烟的动作等,以提高检测的准确率。
步骤2.2:按照标签类别对训练集中的每个图像标注目标位置坐标以及标签类别,并将标注信息生成相应的xml文件。
步骤2.3:将训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。
步骤3:优化YOLOv4模型框架,在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,改进YOLOv4模型颈部网络的PANet结构,得到吸烟行为检测模型,记为YOLO-Smoking模型,采用训练集对YOLO-Smoking模型进行模型训练。
如图2所示,YOLOv4模型框架包括依次相连的输入端(input)、骨架特征提取网络(Backbone)、颈部网络(neck)和检测头网络(Predection):
<1>输入端(input),输入图像的大小为608×608,通道为3,并对每一输入图像进行马赛克(Mosaic)数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络。
<2>骨架特征提取网络(Backbone),采用的骨干网络为CSPDarknet53,包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块,包含72个卷积层,输出特征图的变化规律是:608、304、152、76、38、19。其中,CBM模块包括依次相连的卷积层(Conv)、批归一化层(BN)和Mish激活功能;CSPx模块中的x是指残差组件个数。
<3>颈部网络(neck)用来收集不同特征图,颈部网络(neck)采用SPP-PANet结构,也即由空间金字塔池化层SPP模块与PANet组成。SPP模块使得任意大小的特征图都能够转换成固定大小的特征向量,SPP模块采用1×1、5×5、9×9、13×13的最大池化(MaxPool)的方式,进行多尺度融合。在FPN层的后面添加了一个自底向上的特征金字塔,FPN层自顶向下传达强语义特征,特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行参数聚合,最后得到用于预测的特征图。
具体的,由骨干网络中CSP4模块输出的通道特征值进入颈部网络(neck),依次经过第四CBL模块、SPP模块、第五CBL模块、第六BL模块后通过上采样与骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接(Conact)后,一条支路为两层第八CBL模块经过通过上采样与骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接(Conact)后,通过第十CBL模块输出至检测头网络(Predection)的第一通道,另一条支路为与第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接(Conact)后,通过第十二CBL模块输出至检测头网络(Predection)的第二通道,第五CBL模块输出的通道特征值还与第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接(Conact)后,通过第十四CBL模块输出至检测头网络(Predection)的第三通道。其中,CBL模块均包括依次相连的卷积层(Conv)、批归一化层(BN)和Leaky ReLu激活功能。
<4>检测头网络(Predection)用来预测类别信息和目标物体的边界框,其每个通道均包括CBL模块和卷积层(Conv),最后,第一通道输出76×76×255输出特征图,第二通道输出38×38×255输出特征图,第三通道输出19×19×255输出特征图。
在本申请中,对YOLOv4模型主要有两点优化:
其一:在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,包括:
如图3所示,在CSPx模块中加入LEA模块,优化后的CSPx模块包括两条支路,第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块,第二支路包含第三CBL模块,用来生成一个大的残差边,通过对两条支路进行跨级张量拼接(Conact)与通道整合增强CNN的学习能力。其中,CBL模块均包括依次相连的第一卷积层(Conv)、批归一化层(BN)和Leaky ReLu激活功能,Res Unit模块包括第二卷积层(Conv)和批归一化层(BN),输入至Res Unit模块的原通道特征值经过第二卷积层和批归一化层(BN)后得到新通道特征值,并与原通道特征值进行张量相加(add)后输出。
LEA模块包括依次相连的全局平均池化层(AVG Pool)、第三卷积层(Conv)、ReLu激活功能、第四卷积层(Conv)和sigmoid激活功能,对输入至LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值,然后通过两个卷积得到权重值,将权重值扩展至与原通道特征值同一形状,并对原通道特征值每个元素乘以(Mul)对应通道的权重值,得到新的特征值,其中C表示通道数。引入LEA模块使得小目标的特征权重增强,无效或背景信息的权重减弱,克服了YOLOv4模型在识别小物体时准确率较低的缺陷,提升了检测算法对不同尺寸目标的检测能力,增强了检测模型的鲁棒性,使得基于监控视频的吸烟行为识别精度得到了明显提高。
其二:改进YOLOv4模型颈部网络(neck)的PANet结构,包括:
如图4所示,选取尺度分别为76、38和19的三个层级的输入特征图,层级分别记为C3、C4和C5,再增加尺度为152的输入特征图,层级记为C2,将C2与C3的特征融合、C3与C4的特征融合、C4与C5的特征融合,即将高分辨率的底层特征与高层特征分别融合。原PANet结构对于高分辨率的底层特征没有再利用,而这些层对于检测小目标很重要,在不增加计算开销的同时融合高分辨率的底层特征,以实现更高级别的特征融合,增加小目标特征为目标的特征网络的贡献,提升检测算法对小目标的检测能力。
采用训练集对上述优化的YOLOv4模型进行模型训练的方法,包括:
(1)首先在ImageNet和COCO数据集中选择person类型对YOLO-Smoking模型进行预训练,以所得训练参数作为初始权重训练网络。
(2)设置类别classes=2,即smoking和person两个类型,输入图片尺寸width和height均为608,最大迭代次数max_batches=8000,学习率为0.001,优化器使用Adam。
(3)将训练集输入至初始权重训练网络进行模型训练直至达到最大迭代次数。
(4)采用测试集对训练后的模型进行验证测试,测试结果如表1所示,若达到期望识别要求则将训练后的模型作为吸烟行为检测模型,记为YOLO-Smoking模型;否则重新执行预训练的步骤(1)。
从表1可以看出YOLO-Smoking模型获得了高达93.6%的平均检测精度,同时在检测速度上与YOLOv4持平,达到了30f/s的快速识别检测速度,具有良好的检测实时性。对于小目标检测效果有明显提高,高达72.1%的平均检测精度,可满足监控视频图像中人员占整个图像的尺寸变化大的特点。
表1
算法 | FPS | AP | AP<sub>S</sub> | AP<sub>M</sub> | AP<sub>L</sub> |
YOLOv4 | 33(P) | 89.3% | 68.7% | 86.2% | 93.2% |
YOLO-Smoking | 30(P) | 93.6% | 72.1% | 90.2% | 96.8% |
其中,FPS是每秒检测帧数,AP是平均准确率,APS、APM、APL分别指小、中、大目标的平均准确率。
步骤4:将实时监控视频图像输入吸烟行为检测模型,得到检测结果。
访问监控系统视频实时数据,设置每分钟抓取2个视频帧,将待测图像进行标准化处理,缩放到608×608大小,并转换为RGB图片;将RGB图片输入至YOLO-Smoking模型进行预测,网络将会输出目标类别、类别置信度、预测框坐标(4个数值)和边框置信度(1个数值),如图5所示。
本实施例的实施环境为:
软件方面,基于Ubuntu16.04版本操作系统下实现的,机器上安装了GPU版本的TensorFlow深度学习框架tensorflow-2.4.0。
硬件方面,计算机CPU为i7-6700,显卡GeForce RTX 3090-24GB,内存32GB。摄像头采用海康威视DS-2CD3T47EWD,400万像素。
本方法基于深度学习、计算机视觉与图像处理技术,输入视频监控图像,通过吸烟行为检测模型计算输出结果,最终给出准确的识别结果,不仅降低了成本,还极大的提高禁烟场所禁烟的效率。
以上所述的仅是本申请的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。
Claims (9)
1.一种基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,方法包括:
获取人员吸烟和人员未吸烟的图像,并对所述图像进行预处理得到训练集;
对所述训练集中的每个图像进行标注,标签类别包括smoking和person;
优化YOLOv4模型框架,在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,改进YOLOv4模型颈部网络的PANet结构,得到吸烟行为检测模型,记为YOLO-Smoking模型,采用所述训练集对所述YOLO-Smoking模型进行模型训练;
将实时监控视频图像输入所述吸烟行为检测模型,得到检测结果。
2.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述YOLOv4模型框架包括依次相连的输入端、骨架特征提取网络、颈部网络和检测头网络:
所述输入端,输入图像的大小为608×608,通道为3,并对每一所述输入图像进行马赛克数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络;
所述骨架特征提取网络,采用的骨干网络为CSPDarknet53,包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块,包含72个卷积层,输出特征图的变化规律是:608、304、152、76、38、19;其中,所述CBM模块包括依次相连的卷积层、批归一化层和Mish激活功能,CSPx模块中的x是指残差组件个数;
所述颈部网络用来收集不同特征图,所述颈部网络采用SPP-PANet结构,SPP模块采用1×1、5×5、9×9、13×13的最大池化的方式,进行多尺度融合;在FPN层的后面添加了一个自底向上的特征金字塔,所述FPN层自顶向下传达强语义特征,所述特征金字塔则自底向上传达强定位特征,从不同的主干层对不同的检测层进行参数聚合,最后得到用于预测的特征图;
所述检测头网络用来预测类别信息和目标物体的边界框。
3.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述在YOLOv4模型的骨干网络中加入小目标增强注意力机制,记为LEA模块,包括:
在所述CSPx模块中加入所述LEA模块,优化后的CSPx模块包括两条支路,第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块,第二支路包含第三CBL模块,用来生成一个大的残差边,通过对两条支路进行跨级张量拼接与通道整合增强CNN的学习能力;其中,CBL模块均包括依次相连的第一卷积层、批归一化层和Leaky ReLu激活功能,所述Res Unit模块包括第二卷积层和批归一化层,输入至所述Res Unit模块的原通道特征值经过所述第二卷积层和批归一化层后得到新通道特征值,并与所述原通道特征值进行张量相加后输出;
所述LEA模块包括依次相连的全局平均池化层、第三卷积层、ReLu激活功能、第四卷积层和sigmoid激活功能,对输入至所述LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值,然后通过两个卷积得到权重值,将所述权重值扩展至与原通道特征值同一形状,并对所述原通道特征值每个元素乘以对应通道的权重值,得到新的特征值,其中C表示通道数。
4.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述改进YOLOv4模型颈部网络的PANet结构,包括:
选取尺度分别为76、38和19的三个层级的输入特征图,层级分别记为C3、C4和C5,再增加尺度为152的输入特征图,层级记为C2,将所述C2与C3的特征融合、所述C3与C4的特征融合、所述C4与C5的特征融合,即将高分辨率的底层特征与高层特征分别融合,增加小目标特征为目标的特征网络的贡献,提升检测算法对小目标的检测能力。
5.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述颈部网络包括:
由所述骨干网络中CSP4模块输出的通道特征值进入所述颈部网络,依次经过第四CBL模块、SPP模块、第五CBL模块、第六CBL模块后通过上采样与所述骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接后,一条支路为两层第八CBL模块经过通过上采样与所述骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接后,通过第十CBL模块输出至所述检测头网络的第一通道,另一条支路为与所述第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接后,通过第十二CBL模块输出至所述检测头网络的第二通道,所述第五CBL模块输出的通道特征值还与所述第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接后,通过第十四CBL模块输出至所述检测头网络的第三通道;其中,CBL模块均包括依次相连的卷积层、批归一化层和Leaky ReLu激活功能。
6.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述获取人员吸烟和人员未吸烟的图像,并对所述图像进行预处理得到训练集,包括:
搭建摄像头或者使用现有视频监控系统,获得不同人员在不同场景下的吸烟行为视频,视频分辨率为1280(水平)×720(垂直),每个吸烟动作视频持续60秒以上;
提取关键帧图片,以预设间隔的视频帧进行视频帧提取,挑选第一预定数量的人员吸烟行为图像,以及第二预定数量的人员未吸烟图像;
将图像统一修改文件名,并修改分辨率为608(水平)×608(垂直);
将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作,增广数据集,并将所述数据集按照9:1划分为训练集和测试集。
7.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述对所述训练集中的每个图像进行标注,包括:
确定标签类别包括把人员和吸烟行为作为一个整体的smoking类型、把不具有吸烟行为的人员作为person类型;
按照所述标签类别对所述训练集中的每个图像标注目标位置坐标以及标签类别,并将标注信息生成相应的xml文件;
将所述训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。
8.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述采用所述训练集对所述YOLO-Smoking模型进行模型训练,包括:
首先在ImageNet和COCO数据集中选择person类型对所述YOLO-Smoking模型进行预训练,以所得训练参数作为初始权重训练网络;
设置类别classes=2,即smoking和person两个类型,输入图片尺寸width和height均为608,最大迭代次数max_batches=8000,学习率为0.001,优化器使用Adam;
将所述训练集输入至所述初始权重训练网络进行模型训练直至达到所述最大迭代次数;
采用测试集对训练后的模型进行验证测试,若达到期望识别要求则将所述训练后的模型作为吸烟行为检测模型,否则重新执行预训练的步骤。
9.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法,其特征在于,所述将实时监控视频图像输入所述吸烟行为检测模型,得到检测结果,包括:
访问监控系统视频实时数据,设置每分钟抓取2个视频帧,将待测图像进行标准化处理,缩放到608×608大小,并转换为RGB图片;将所述RGB图片输入至所述YOLO-Smoking模型进行预测,网络将会输出目标类别、类别置信度、预测框坐标和边框置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113787.9A CN113807276B (zh) | 2021-09-23 | 2021-09-23 | 基于优化的YOLOv4模型的吸烟行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111113787.9A CN113807276B (zh) | 2021-09-23 | 2021-09-23 | 基于优化的YOLOv4模型的吸烟行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807276A true CN113807276A (zh) | 2021-12-17 |
CN113807276B CN113807276B (zh) | 2024-04-05 |
Family
ID=78940134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111113787.9A Active CN113807276B (zh) | 2021-09-23 | 2021-09-23 | 基于优化的YOLOv4模型的吸烟行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807276B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360064A (zh) * | 2022-01-06 | 2022-04-15 | 电子科技大学 | 基于深度学习的办公场所人员行为轻量级目标检测方法 |
CN114732975A (zh) * | 2022-05-17 | 2022-07-12 | 青岛农业大学 | 一种基于机器视觉的智能化动物采血装置及方法 |
CN114882222A (zh) * | 2022-05-27 | 2022-08-09 | 江苏大学 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
CN116311082A (zh) * | 2023-05-15 | 2023-06-23 | 广东电网有限责任公司湛江供电局 | 基于关键部位与图像匹配的穿戴检测方法及系统 |
WO2023202346A1 (zh) * | 2022-04-22 | 2023-10-26 | 中兴通讯股份有限公司 | 一种吸烟行为检测方法、装置及相关设备 |
CN117333808A (zh) * | 2023-09-13 | 2024-01-02 | 汕头市澄海区建筑设计院 | 一种面向轻量化部署的建筑物火灾识别方法及系统 |
WO2024077741A1 (en) * | 2022-10-13 | 2024-04-18 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Convolutional neural network filter for super-resolution with reference picture resampling functionality in versatile video coding |
CN118115928A (zh) * | 2024-04-30 | 2024-05-31 | 苏州视智冶科技有限公司 | 一种基于目标检测的高炉出铁见渣时间自动识别方法 |
CN118115928B (zh) * | 2024-04-30 | 2024-07-12 | 苏州视智冶科技有限公司 | 一种基于目标检测的高炉出铁见渣时间自动识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157331A (zh) * | 2016-07-05 | 2016-11-23 | 乐视控股(北京)有限公司 | 一种吸烟检测方法和装置 |
CN108629282A (zh) * | 2018-03-29 | 2018-10-09 | 福州海景科技开发有限公司 | 一种吸烟检测方法、存储介质及计算机 |
US20200151448A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Object Detection In Images |
CN111553275A (zh) * | 2020-04-28 | 2020-08-18 | 厦门博海中天信息科技有限公司 | 基于ai及热成像的吸烟监测方法、模块、设备及介质 |
CN112766149A (zh) * | 2021-01-18 | 2021-05-07 | 浙江智慧视频安防创新中心有限公司 | 吸烟检测方法、系统及计算机介质 |
-
2021
- 2021-09-23 CN CN202111113787.9A patent/CN113807276B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106157331A (zh) * | 2016-07-05 | 2016-11-23 | 乐视控股(北京)有限公司 | 一种吸烟检测方法和装置 |
CN108629282A (zh) * | 2018-03-29 | 2018-10-09 | 福州海景科技开发有限公司 | 一种吸烟检测方法、存储介质及计算机 |
US20200151448A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Object Detection In Images |
CN111553275A (zh) * | 2020-04-28 | 2020-08-18 | 厦门博海中天信息科技有限公司 | 基于ai及热成像的吸烟监测方法、模块、设备及介质 |
CN112766149A (zh) * | 2021-01-18 | 2021-05-07 | 浙江智慧视频安防创新中心有限公司 | 吸烟检测方法、系统及计算机介质 |
Non-Patent Citations (3)
Title |
---|
CE SHEN,ET AL: "LFNet:Lightweight fire smoke detection for uncertain surveillance environment", 2020 BIGDIA, 2 April 2021 (2021-04-02) * |
候瑞环 等: "一种基于YOLOv4-TIA的林业害虫实时检测方法", 计算机工程 * |
胡名鸿 等: "轻量级垃圾回收机器人的视觉跟踪系统研究", 微电子学与计算机, vol. 38, no. 11, pages 74 - 80 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114360064A (zh) * | 2022-01-06 | 2022-04-15 | 电子科技大学 | 基于深度学习的办公场所人员行为轻量级目标检测方法 |
CN114360064B (zh) * | 2022-01-06 | 2023-04-07 | 电子科技大学 | 基于深度学习的办公场所人员行为轻量级目标检测方法 |
WO2023202346A1 (zh) * | 2022-04-22 | 2023-10-26 | 中兴通讯股份有限公司 | 一种吸烟行为检测方法、装置及相关设备 |
CN114732975A (zh) * | 2022-05-17 | 2022-07-12 | 青岛农业大学 | 一种基于机器视觉的智能化动物采血装置及方法 |
CN114882222A (zh) * | 2022-05-27 | 2022-08-09 | 江苏大学 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
CN114882222B (zh) * | 2022-05-27 | 2024-06-07 | 江苏大学 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
WO2024077741A1 (en) * | 2022-10-13 | 2024-04-18 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Convolutional neural network filter for super-resolution with reference picture resampling functionality in versatile video coding |
CN115661614A (zh) * | 2022-12-09 | 2023-01-31 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
CN115661614B (zh) * | 2022-12-09 | 2024-05-24 | 江苏稻源科技集团有限公司 | 一种基于轻量化YOLO v1的目标检测方法 |
CN116311082B (zh) * | 2023-05-15 | 2023-08-01 | 广东电网有限责任公司湛江供电局 | 基于关键部位与图像匹配的穿戴检测方法及系统 |
CN116311082A (zh) * | 2023-05-15 | 2023-06-23 | 广东电网有限责任公司湛江供电局 | 基于关键部位与图像匹配的穿戴检测方法及系统 |
CN117333808A (zh) * | 2023-09-13 | 2024-01-02 | 汕头市澄海区建筑设计院 | 一种面向轻量化部署的建筑物火灾识别方法及系统 |
CN117333808B (zh) * | 2023-09-13 | 2024-04-30 | 汕头市澄海区建筑设计院 | 一种面向轻量化部署的建筑物火灾识别方法及系统 |
CN118115928A (zh) * | 2024-04-30 | 2024-05-31 | 苏州视智冶科技有限公司 | 一种基于目标检测的高炉出铁见渣时间自动识别方法 |
CN118115928B (zh) * | 2024-04-30 | 2024-07-12 | 苏州视智冶科技有限公司 | 一种基于目标检测的高炉出铁见渣时间自动识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113807276B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807276A (zh) | 基于优化的YOLOv4模型的吸烟行为识别方法 | |
CN110738101B (zh) | 行为识别方法、装置及计算机可读存储介质 | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
CN110532970B (zh) | 人脸2d图像的年龄性别属性分析方法、系统、设备和介质 | |
CN108388882B (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
CN102831439B (zh) | 手势跟踪方法及系统 | |
CN114241548A (zh) | 一种基于改进YOLOv5的小目标检测算法 | |
CN110458165B (zh) | 一种引入注意力机制的自然场景文本检测方法 | |
CN112784810B (zh) | 手势识别方法、装置、计算机设备和存储介质 | |
CN110796018B (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN112651292A (zh) | 基于视频的人体动作识别方法、装置、介质及电子设备 | |
CN110516536A (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
WO2022041830A1 (zh) | 行人重识别方法和装置 | |
CN111027481B (zh) | 基于人体关键点检测的行为分析方法及装置 | |
CN110532925B (zh) | 基于时空图卷积网络的驾驶员疲劳检测方法 | |
CN109903339B (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
WO2021077947A1 (zh) | 图像处理方法、装置、设备及存储介质 | |
EP4170605A1 (en) | Multi-level transferable region-based domain adaptive object detection apparatus and method | |
CN113239825B (zh) | 一种复杂场景下高精度烟草甲虫检测方法 | |
CN111401293A (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN116092179A (zh) | 一种改进的yolox跌倒检测系统 | |
CN113869276A (zh) | 基于微表情的谎言识别方法及系统 | |
CN110766645B (zh) | 基于人物识别与分割的目标人物复现图生成方法 | |
CN117036948A (zh) | 一种基于注意力机制的致敏植物识别方法 | |
CN111860253A (zh) | 一种驾驶场景的多任务属性识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |