CN113807276A

CN113807276A - 基于优化的YOLOv4模型的吸烟行为识别方法

Info

Publication number: CN113807276A
Application number: CN202111113787.9A
Authority: CN
Inventors: 平震宇; 匡亮
Original assignee: Jiangsu Vocational College of Information Technology
Current assignee: Jiangsu Vocational College of Information Technology
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-17
Anticipated expiration: 2041-09-23
Also published as: CN113807276B

Abstract

本发明公开了基于优化的YOLOv4模型的吸烟行为识别方法，涉及图像处理技术领域，该方法包括获取人员吸烟和人员未吸烟的图像，并对图像进行预处理得到训练集；对训练集中的每个图像进行标注，标签类别包括smoking和person；优化YOLOv4模型框架，在模型的骨干网络中加入小目标增强注意力机制，提升了检测算法对不同尺寸目标的检测能力，改进模型颈部网络的PANet结构，增加小目标特征为目标的特征网络的贡献，将优化的模型作为吸烟行为检测模型，采用训练集对吸烟行为检测模型进行模型训练；将实时监控视频图像输入吸烟行为检测模型，得到检测结果。通过对模型进行双重改进，提升了检测算法对小目标的检测能力。

Description

基于优化的YOLOv4模型的吸烟行为识别方法

技术领域

本发明涉及图像处理技术领域，尤其是基于优化的YOLOv4模型的吸烟行为识别方法。

背景技术

吸烟行为已经成为全世界难以解决的公共卫生问题，吸烟对健康的危害已是众所周知，会间接或直接的导致很多疾病的发生甚至出现生命危险。2014年卫生计生委起草了《公共场所控制吸烟条例》，明确规定所有室内公共场所一律禁止吸烟。国家对控烟工作高度重视，积极制定各种条令，许多公共场所都有禁烟标识，但是全靠人们的自主意识，仅通过人为管理吸烟行为,吸烟行为很难做到合理管控。

针对吸烟行为识别的研究比较早，涌现出各种各样的吸烟行为检测方法。许多国内外研究人员在吸烟行为识别做出了大量的研究，总体上包括利用烟雾的检测、利用吸烟动作的检测等方法。随着计算机视觉技术和硬件技术的高速发展，目前经由视频图像的吸烟行为检测是主流研究方向。从目前的研究成果来看，基于图像利用深度学习算法实现吸烟行为识别也有很多不同的方法，对吸烟行为手势的识别会存在吸烟手势复杂、肤色多样、相机角度等问题使得识别的手势存在差异，导致误判率较大。对香烟烟雾的检测，会因为香烟的烟雾浓度比较低且易扩散、烟雾边缘不够明显等问题，使得香烟烟雾与室内的白色背景相融合，难以区分，准确率也很难提高。检测香烟或者基于人体关节点进行吸烟动作识别这两种方法对于大目标准确率较高，但是视频监控的图像不可避免地会面临着尺度问题的挑战:不同的视频监控图像里需要被检测出的目标的大小相对于整张图像的比例差异是非常大的，这种尺度差异带来的挑战性，严重限制了现有检测器的整体表现。

发明内容

本发明人针对上述问题及技术需求，提出了基于优化的YOLOv4模型的吸烟行为识别方法，本发明的技术方案如下：

一种基于优化的YOLOv4模型的吸烟行为识别方法，包括如下步骤：

获取人员吸烟和人员未吸烟的图像，并对图像进行预处理得到训练集；

对训练集中的每个图像进行标注，标签类别包括smoking和person；

优化YOLOv4模型框架，在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，改进YOLOv4模型颈部网络的PANet结构，得到吸烟行为检测模型，记为YOLO-Smoking模型，采用训练集对YOLO-Smoking模型进行模型训练；

将实时监控视频图像输入吸烟行为检测模型，得到检测结果。

其进一步的技术方案为，YOLOv4模型框架包括依次相连的输入端、骨架特征提取网络、颈部网络和检测头网络：

输入端，输入图像的大小为608×608，通道为3，并对每一输入图像进行马赛克数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络；

骨架特征提取网络，采用的骨干网络为CSPDarknet53，包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块，包含72个卷积层，输出特征图的变化规律是：608、304、152、76、38、19；其中，CBM模块包括依次相连的卷积层、批归一化层和Mish激活功能，CSPx模块中的x是指残差组件个数；

颈部网络用来收集不同特征图，颈部网络采用SPP-PANet结构，SPP模块采用1×1、5×5、9×9、13×13的最大池化的方式，进行多尺度融合；在FPN层的后面添加了一个自底向上的特征金字塔，FPN层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，最后得到用于预测的特征图；

检测头网络用来预测类别信息和目标物体的边界框。

其进一步的技术方案为，在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，包括：

在CSPx模块中加入LEA模块，优化后的CSPx模块包括两条支路，第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块，第二支路包含第三CBL模块，用来生成一个大的残差边，通过对两条支路进行跨级张量拼接与通道整合增强CNN的学习能力；其中，CBL模块均包括依次相连的第一卷积层、批归一化层和Leaky ReLu激活功能，Res Unit模块包括第二卷积层和批归一化层，输入至Res Unit模块的原通道特征值经过第二卷积层和批归一化层后得到新通道特征值，并与原通道特征值进行张量相加后输出；

LEA模块包括依次相连的全局平均池化层、第三卷积层、ReLu激活功能、第四卷积层和sigmoid激活功能，对输入至LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值，然后通过两个卷积得到权重值，将权重值扩展至与原通道特征值同一形状，并对原通道特征值每个元素乘以对应通道的权重值，得到新的特征值，其中C表示通道数。

其进一步的技术方案为，改进YOLOv4模型颈部网络的PANet结构，包括：

选取尺度分别为76、38和19的三个层级的输入特征图，层级分别记为C3、C4和C5，再增加尺度为152的输入特征图，层级记为C2，将C2与C3的特征融合、C3与C4的特征融合、C4与C5的特征融合，即将高分辨率的底层特征与高层特征分别融合，增加小目标特征为目标的特征网络的贡献，提升检测算法对小目标的检测能力。

其进一步的技术方案为，颈部网络包括：

由骨干网络中CSP4模块输出的通道特征值进入颈部网络，依次经过第四CBL模块、SPP模块、第五CBL模块、第六CBL模块后通过上采样与骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接后，一条支路为两层第八CBL模块经过通过上采样与骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接后，通过第十CBL模块输出至检测头网络的第一通道，另一条支路为与第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接后，通过第十二CBL模块输出至检测头网络的第二通道，第五CBL模块输出的通道特征值还与第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接后，通过第十四CBL模块输出至检测头网络的第三通道；其中，CBL模块均包括依次相连的卷积层、批归一化层和Leaky ReLu激活功能。

其进一步的技术方案为，获取人员吸烟和人员未吸烟的图像，并对图像进行预处理得到训练集，包括：

搭建摄像头或者使用现有视频监控系统，获得不同人员在不同场景下的吸烟行为视频，视频分辨率为1280(水平)×720(垂直)，每个吸烟动作视频持续60秒以上；

提取关键帧图片，以预设间隔的视频帧进行视频帧提取，挑选第一预定数量的人员吸烟行为图像，以及第二预定数量的人员未吸烟图像；

将图像统一修改文件名，并修改分辨率为608(水平)×608(垂直)；

将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作，增广数据集，并将数据集按照9:1划分为训练集和测试集。

其进一步的技术方案为，对训练集中的每个图像进行标注，包括：

确定标签类别包括把人员和吸烟行为作为一个整体的smoking类型、把不具有吸烟行为的人员作为person类型；

按照标签类别对训练集中的每个图像标注目标位置坐标以及标签类别，并将标注信息生成相应的xml文件；

将训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。

其进一步的技术方案为，采用训练集对YOLO-Smoking模型进行模型训练，包括：

首先在ImageNet和COCO数据集中选择person类型对YOLO-Smoking模型进行预训练，以所得训练参数作为初始权重训练网络；

设置类别classes＝2，即smoking和person两个类型，输入图片尺寸width和height均为608，最大迭代次数max_batches＝8000，学习率为0.001，优化器使用Adam；

将训练集输入至初始权重训练网络进行模型训练直至达到最大迭代次数；

采用测试集对训练后的模型进行验证测试，若达到期望识别要求则将训练后的模型作为吸烟行为检测模型，否则重新执行预训练的步骤。

其进一步的技术方案为，将实时监控视频图像输入吸烟行为检测模型，得到检测结果，包括：

访问监控系统视频实时数据，设置每分钟抓取2个视频帧，将待测图像进行标准化处理，缩放到608×608大小，并转换为RGB图片；将RGB图片输入至YOLO-Smoking模型进行预测，网络将会输出目标类别、类别置信度、预测框坐标和边框置信度。

本发明的有益技术效果是：

1)针对现有监控视频由于人离开摄像头距离远近的变化，导致人体在图像中占比变化很大，且普遍情况是偏小，可能出现误检测的情况，本方法把人员和吸烟行为作为一个整体定义为目标进行标注训练，特征不仅仅是手里的香烟，还有吸烟的动作等，以提高检测的准确率；通过优化YOLOv4网络模型，在CSPDarknet53的CSP模块中加入了LEA模块，克服了YOLOv4模型在识别小物体时准确率较低的缺陷，提升了检测算法对不同尺寸目标的检测能力，增强了检测模型的鲁棒性，使得基于监控视频的吸烟行为识别精度得到了明显提高；还改进了PANet结构，将高分辨率的底层特征与高层特征分别融合，增加小目标特征为目标的特征网络的贡献，双重改进提升了检测算法对小目标的检测能力；

2)本方法将目标识别和吸烟行为识别判定均放到YOLO-Smoking模型中，实现端到端的吸烟行为检测，降低网络训练难度，提高检测速度，识别速度达到每秒30帧，保证检测实时性的要求。

附图说明

图1是本申请提供的吸烟行为识别方法的流程图。

图2是本申请提供的YOLOv4模型框架图。

图3是本申请提供的优化的CSPx模块和LEA模块。

图4是本申请提供的改进的PANet结构。

图5是本申请提供的采用YOLO-Smoking模型的检测结果。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

一种基于优化的YOLOv4模型的吸烟行为识别方法，其流程图如图1所示，该方法包括具体如下步骤：

步骤1：获取人员吸烟和人员未吸烟的图像，并对图像进行预处理得到训练集。

步骤1.1：搭建摄像头或者使用现有视频监控系统，获得不同人员在不同场景下的吸烟行为视频，视频分辨率为1280(水平)×720(垂直)，每个吸烟动作视频持续60秒以上。

步骤1.2：提取关键帧图片，以预设间隔的视频帧进行视频帧提取，挑选6000张的人员吸烟行为图像，以及5000张的人员未吸烟图像。

步骤1.3：将图像统一修改文件名，并修改分辨率为608(水平)×608(垂直)。

步骤1.4：将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作，增广数据集，并将数据集按照9:1划分为训练集和测试集。

步骤2：对训练集中的每个图像进行标注。

步骤2.1：确定标签类别包括：把人员和吸烟行为作为一个整体的smoking类型、把不具有吸烟行为的人员作为person类型。

与传统的把目标定义为烟头、夹有香烟的手指及烟雾，当输入模型的图片降低分辨率后，烟头只占整个图像几个像素，可能出现误检测甚至无法检测的情况，因此本方法把人员和吸烟行为作为一个整体定义为目标进行标注训练，特征不仅仅是手里的香烟，还有吸烟的动作等，以提高检测的准确率。

步骤2.2：按照标签类别对训练集中的每个图像标注目标位置坐标以及标签类别，并将标注信息生成相应的xml文件。

步骤2.3：将训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。

步骤3：优化YOLOv4模型框架，在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，改进YOLOv4模型颈部网络的PANet结构，得到吸烟行为检测模型，记为YOLO-Smoking模型，采用训练集对YOLO-Smoking模型进行模型训练。

如图2所示，YOLOv4模型框架包括依次相连的输入端(input)、骨架特征提取网络(Backbone)、颈部网络(neck)和检测头网络(Predection)：

<1>输入端(input)，输入图像的大小为608×608，通道为3，并对每一输入图像进行马赛克(Mosaic)数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络。

<2>骨架特征提取网络(Backbone)，采用的骨干网络为CSPDarknet53，包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块，包含72个卷积层，输出特征图的变化规律是：608、304、152、76、38、19。其中，CBM模块包括依次相连的卷积层(Conv)、批归一化层(BN)和Mish激活功能；CSPx模块中的x是指残差组件个数。

<3>颈部网络(neck)用来收集不同特征图，颈部网络(neck)采用SPP-PANet结构，也即由空间金字塔池化层SPP模块与PANet组成。SPP模块使得任意大小的特征图都能够转换成固定大小的特征向量，SPP模块采用1×1、5×5、9×9、13×13的最大池化(MaxPool)的方式，进行多尺度融合。在FPN层的后面添加了一个自底向上的特征金字塔，FPN层自顶向下传达强语义特征，特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，最后得到用于预测的特征图。

具体的，由骨干网络中CSP4模块输出的通道特征值进入颈部网络(neck)，依次经过第四CBL模块、SPP模块、第五CBL模块、第六BL模块后通过上采样与骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接(Conact)后，一条支路为两层第八CBL模块经过通过上采样与骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接(Conact)后，通过第十CBL模块输出至检测头网络(Predection)的第一通道，另一条支路为与第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接(Conact)后，通过第十二CBL模块输出至检测头网络(Predection)的第二通道，第五CBL模块输出的通道特征值还与第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接(Conact)后，通过第十四CBL模块输出至检测头网络(Predection)的第三通道。其中，CBL模块均包括依次相连的卷积层(Conv)、批归一化层(BN)和Leaky ReLu激活功能。

<4>检测头网络(Predection)用来预测类别信息和目标物体的边界框，其每个通道均包括CBL模块和卷积层(Conv)，最后，第一通道输出76×76×255输出特征图，第二通道输出38×38×255输出特征图，第三通道输出19×19×255输出特征图。

在本申请中，对YOLOv4模型主要有两点优化：

其一：在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，包括：

如图3所示，在CSPx模块中加入LEA模块，优化后的CSPx模块包括两条支路，第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块，第二支路包含第三CBL模块，用来生成一个大的残差边，通过对两条支路进行跨级张量拼接(Conact)与通道整合增强CNN的学习能力。其中，CBL模块均包括依次相连的第一卷积层(Conv)、批归一化层(BN)和Leaky ReLu激活功能，Res Unit模块包括第二卷积层(Conv)和批归一化层(BN)，输入至Res Unit模块的原通道特征值经过第二卷积层和批归一化层(BN)后得到新通道特征值，并与原通道特征值进行张量相加(add)后输出。

LEA模块包括依次相连的全局平均池化层(AVG Pool)、第三卷积层(Conv)、ReLu激活功能、第四卷积层(Conv)和sigmoid激活功能，对输入至LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值，然后通过两个卷积得到权重值，将权重值扩展至与原通道特征值同一形状，并对原通道特征值每个元素乘以(Mul)对应通道的权重值，得到新的特征值，其中C表示通道数。引入LEA模块使得小目标的特征权重增强，无效或背景信息的权重减弱，克服了YOLOv4模型在识别小物体时准确率较低的缺陷，提升了检测算法对不同尺寸目标的检测能力，增强了检测模型的鲁棒性，使得基于监控视频的吸烟行为识别精度得到了明显提高。

其二：改进YOLOv4模型颈部网络(neck)的PANet结构，包括：

如图4所示，选取尺度分别为76、38和19的三个层级的输入特征图，层级分别记为C3、C4和C5，再增加尺度为152的输入特征图，层级记为C2，将C2与C3的特征融合、C3与C4的特征融合、C4与C5的特征融合，即将高分辨率的底层特征与高层特征分别融合。原PANet结构对于高分辨率的底层特征没有再利用，而这些层对于检测小目标很重要，在不增加计算开销的同时融合高分辨率的底层特征，以实现更高级别的特征融合，增加小目标特征为目标的特征网络的贡献，提升检测算法对小目标的检测能力。

采用训练集对上述优化的YOLOv4模型进行模型训练的方法，包括：

(1)首先在ImageNet和COCO数据集中选择person类型对YOLO-Smoking模型进行预训练，以所得训练参数作为初始权重训练网络。

(2)设置类别classes＝2，即smoking和person两个类型，输入图片尺寸width和height均为608，最大迭代次数max_batches＝8000，学习率为0.001，优化器使用Adam。

(3)将训练集输入至初始权重训练网络进行模型训练直至达到最大迭代次数。

(4)采用测试集对训练后的模型进行验证测试，测试结果如表1所示，若达到期望识别要求则将训练后的模型作为吸烟行为检测模型，记为YOLO-Smoking模型；否则重新执行预训练的步骤(1)。

从表1可以看出YOLO-Smoking模型获得了高达93.6％的平均检测精度，同时在检测速度上与YOLOv4持平，达到了30f/s的快速识别检测速度，具有良好的检测实时性。对于小目标检测效果有明显提高，高达72.1％的平均检测精度，可满足监控视频图像中人员占整个图像的尺寸变化大的特点。

表1

算法	FPS	AP	AP<sub>S</sub>	AP<sub>M</sub>	AP<sub>L</sub>
						YOLOv4	33(P)	89.3％	68.7％	86.2％	93.2％
YOLO-Smoking	30(P)	93.6％	72.1％	90.2％	96.8％

其中，FPS是每秒检测帧数，AP是平均准确率，AP_S、AP_M、AP_L分别指小、中、大目标的平均准确率。

步骤4：将实时监控视频图像输入吸烟行为检测模型，得到检测结果。

访问监控系统视频实时数据，设置每分钟抓取2个视频帧，将待测图像进行标准化处理，缩放到608×608大小，并转换为RGB图片；将RGB图片输入至YOLO-Smoking模型进行预测，网络将会输出目标类别、类别置信度、预测框坐标(4个数值)和边框置信度(1个数值)，如图5所示。

本实施例的实施环境为：

软件方面，基于Ubuntu16.04版本操作系统下实现的，机器上安装了GPU版本的TensorFlow深度学习框架tensorflow-2.4.0。

硬件方面，计算机CPU为i7-6700，显卡GeForce RTX 3090-24GB，内存32GB。摄像头采用海康威视DS-2CD3T47EWD，400万像素。

本方法基于深度学习、计算机视觉与图像处理技术，输入视频监控图像，通过吸烟行为检测模型计算输出结果，最终给出准确的识别结果，不仅降低了成本，还极大的提高禁烟场所禁烟的效率。

以上所述的仅是本申请的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，方法包括：

获取人员吸烟和人员未吸烟的图像，并对所述图像进行预处理得到训练集；

对所述训练集中的每个图像进行标注，标签类别包括smoking和person；

优化YOLOv4模型框架，在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，改进YOLOv4模型颈部网络的PANet结构，得到吸烟行为检测模型，记为YOLO-Smoking模型，采用所述训练集对所述YOLO-Smoking模型进行模型训练；

将实时监控视频图像输入所述吸烟行为检测模型，得到检测结果。

2.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述YOLOv4模型框架包括依次相连的输入端、骨架特征提取网络、颈部网络和检测头网络：

所述输入端，输入图像的大小为608×608，通道为3，并对每一所述输入图像进行马赛克数据增强、自适应图片缩放以及自适应锚框计算处理后输入给骨干网络；

所述骨架特征提取网络，采用的骨干网络为CSPDarknet53，包括依次相连的CBM模块、CSP1模块、CSP2模块、第一CSP8模块、第二CSP8模块和CSP4模块，包含72个卷积层，输出特征图的变化规律是：608、304、152、76、38、19；其中，所述CBM模块包括依次相连的卷积层、批归一化层和Mish激活功能，CSPx模块中的x是指残差组件个数；

所述颈部网络用来收集不同特征图，所述颈部网络采用SPP-PANet结构，SPP模块采用1×1、5×5、9×9、13×13的最大池化的方式，进行多尺度融合；在FPN层的后面添加了一个自底向上的特征金字塔，所述FPN层自顶向下传达强语义特征，所述特征金字塔则自底向上传达强定位特征，从不同的主干层对不同的检测层进行参数聚合，最后得到用于预测的特征图；

所述检测头网络用来预测类别信息和目标物体的边界框。

3.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述在YOLOv4模型的骨干网络中加入小目标增强注意力机制，记为LEA模块，包括：

在所述CSPx模块中加入所述LEA模块，优化后的CSPx模块包括两条支路，第一支路包含依次相连的第一CBL模块、Res Unit模块、第二CBL模块和LEA模块，第二支路包含第三CBL模块，用来生成一个大的残差边，通过对两条支路进行跨级张量拼接与通道整合增强CNN的学习能力；其中，CBL模块均包括依次相连的第一卷积层、批归一化层和Leaky ReLu激活功能，所述Res Unit模块包括第二卷积层和批归一化层，输入至所述Res Unit模块的原通道特征值经过所述第二卷积层和批归一化层后得到新通道特征值，并与所述原通道特征值进行张量相加后输出；

所述LEA模块包括依次相连的全局平均池化层、第三卷积层、ReLu激活功能、第四卷积层和sigmoid激活功能，对输入至所述LEA模块中的特征图的每个原通道特征值进行全局平均池化后得到两个1×1×C的通道特性值，然后通过两个卷积得到权重值，将所述权重值扩展至与原通道特征值同一形状，并对所述原通道特征值每个元素乘以对应通道的权重值，得到新的特征值，其中C表示通道数。

4.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述改进YOLOv4模型颈部网络的PANet结构，包括：

选取尺度分别为76、38和19的三个层级的输入特征图，层级分别记为C3、C4和C5，再增加尺度为152的输入特征图，层级记为C2，将所述C2与C3的特征融合、所述C3与C4的特征融合、所述C4与C5的特征融合，即将高分辨率的底层特征与高层特征分别融合，增加小目标特征为目标的特征网络的贡献，提升检测算法对小目标的检测能力。

5.根据权利要求2所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述颈部网络包括：

由所述骨干网络中CSP4模块输出的通道特征值进入所述颈部网络，依次经过第四CBL模块、SPP模块、第五CBL模块、第六CBL模块后通过上采样与所述骨干网络中第二CSP8模块经过第七CBL模块输出的通道特征值进行第一次张量拼接后，一条支路为两层第八CBL模块经过通过上采样与所述骨干网络中第一CSP8模块经过第九CBL模块输出的通道特征值进行第二次张量拼接后，通过第十CBL模块输出至所述检测头网络的第一通道，另一条支路为与所述第十CBL模块输出的通道特征值通过第十一CBL模块进行第三次张量拼接后，通过第十二CBL模块输出至所述检测头网络的第二通道，所述第五CBL模块输出的通道特征值还与所述第十二CBL模块输出的通道特征值通过第十三CBL模块进行第四次张量拼接后，通过第十四CBL模块输出至所述检测头网络的第三通道；其中，CBL模块均包括依次相连的卷积层、批归一化层和Leaky ReLu激活功能。

6.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述获取人员吸烟和人员未吸烟的图像，并对所述图像进行预处理得到训练集，包括：

将图像进行裁剪、缩放、颜色增强、亮度调整、平移变化及垂直翻转操作，增广数据集，并将所述数据集按照9:1划分为训练集和测试集。

7.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述对所述训练集中的每个图像进行标注，包括：

按照所述标签类别对所述训练集中的每个图像标注目标位置坐标以及标签类别，并将标注信息生成相应的xml文件；

将所述训练集中的每个图像与相应的xml文件按照VOC数据文件结构进行存储。

8.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述采用所述训练集对所述YOLO-Smoking模型进行模型训练，包括：

首先在ImageNet和COCO数据集中选择person类型对所述YOLO-Smoking模型进行预训练，以所得训练参数作为初始权重训练网络；

将所述训练集输入至所述初始权重训练网络进行模型训练直至达到所述最大迭代次数；

采用测试集对训练后的模型进行验证测试，若达到期望识别要求则将所述训练后的模型作为吸烟行为检测模型，否则重新执行预训练的步骤。

9.根据权利要求1所述的基于优化的YOLOv4模型的吸烟行为识别方法，其特征在于，所述将实时监控视频图像输入所述吸烟行为检测模型，得到检测结果，包括：

访问监控系统视频实时数据，设置每分钟抓取2个视频帧，将待测图像进行标准化处理，缩放到608×608大小，并转换为RGB图片；将所述RGB图片输入至所述YOLO-Smoking模型进行预测，网络将会输出目标类别、类别置信度、预测框坐标和边框置信度。