CN116580452A

CN116580452A - 结合动作识别和目标检测的抽烟、打电话检测方法及系统

Info

Publication number: CN116580452A
Application number: CN202310438407.1A
Authority: CN
Inventors: 涂志刚; 古昊; 张正博; 张嘉旭; 谢伟; 李红艳
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-11

Abstract

本发明公开了一种结合动作识别和目标检测的抽烟、打电话检测方法及系统，通过监控摄像头采集监控场景的视频数据；对所述视频数据切割为短时间视频片段，对视频中的人员进行动作标注；将视频片段转成视频帧，对每张视频帧标注人体关键点坐标、烟坐标和手机坐标，得到模型训练数据集；建立YOLOv5‑S目标检测网络模型，然后利用构建好的数据集对2D人体关键点检测网络、3D人体姿态估计模型和YOLOv5‑S目标检测网络模型进行训练，得到训练好的各个网络模型的权重；最后将监控场所的监控视频输入训练好的网络模型，确定视频片段中是否发生抽烟、打电话的行为。本发明有效的提高抽烟、打电话事件检测的精确度，同时降低事件的漏检率。

Description

结合动作识别和目标检测的抽烟、打电话检测方法及系统

技术领域

本发明属于智能检测技术领域，特别涉及一结合人体姿态估计和目标检测的抽烟、打电话检测方案，能够准确的检测出室内场景下人员抽烟、打电话的行为。

背景技术

公共场所的抽烟现象一直是社会关注的焦点问题。在公共场所抽烟的危害主要体现在以下方面：1.易引发火灾：在大量的火灾中，吸烟是一个很重要的致灾原因。在一定条件下，未熄灭的烟头可以引起多种疏松纤维物质的燃烧，如碎布、棉花、锯末等。烟头掉在木屑压制的纤维板上，根据其压制情况、温度和通风条件等，也有可能会引燃。2.严重污染公共场所的空气：烟草烟雾是室内可吸入颗粒物最主要的来源，构成了室内可吸入颗粒物的90％以上。这些可吸入颗粒物是多数污染物和微生物吸附的载体，其中PM2.5以下的细颗粒物更容易吸入肺中，是烟草烟雾中危害健康的主要颗粒物。3.严重危害被动吸烟者的身体健康：二手烟雾已经被美国环保署和国际癌症研究署确定为人类A级致癌物，被动吸烟吸入的烟雾中含有多种有毒物质和致癌物。

此外，在一些特殊场所，如：矿洞、面粉、石灰制造场、化工场等易燃易爆的封闭场所，预防火灾的发生是安全工作的重中之重。抽烟和打电话事件的发生可能会在这些地方引发火灾，甚至是巨大的爆炸，造成巨大的人员伤亡和经济损失。存在侥幸心理的工作人员可能会躲避安全巡查，因此，在这些场所通常会安装全方位的、无死角的监控摄像头对人员的行为进行全方面的监控，避免可能发生的安全问题。

在较小的封闭空间，烟雾报警器是检测人员是否抽烟的选择之一，该装置同时可以进行火灾报警，具有很强的实用性。但在开放、较大的场所，由于抽烟产生的烟雾消散过快，烟雾报警器很难检测到抽烟行为并进行报警。现阶段，随着摄像头的广泛使用以及计算机视觉在工程领域中的应用，使用目标检测和动作识别的方法对抽烟、打电话事件进行检测成为这一领域的主流研究方向。

目标检测任务是计算机视觉中的核心问题之一，目标检测的任务是找出图像中所有感兴趣的目标，确定他们的类别和位置。由于各类目标有着不同的大小，类别和外观，加上图像背景光照、遮挡等各种因素，目标检测一直是计算机视觉领域最具有挑战性的问题。当前最主流的目标检测模型是R-CNN系列和YOLO系列，其中Faster-RCNN和YOLOv5是工业界目标检测任务中最常用的两个网络模型，它们在常规目标检测任务中都能取得较好的检测精度和较快的检测速度。但在小目标检测领域，小目标检测性能差的问题至今没有被完全解决。

目标检测中小目标通常有两种定义方式：在COCO[50]数据集中，小目标被定义为绝对尺度小于32×32像素；另一种是根据目标相对尺寸大小定义，国际光学工程学会定义，小目标为256×256像素的图像中成像面积小于80像素的目标，即小目标的尺寸小于原图的0.12％。小目标相比于常规尺寸目标，在图像中所占像素数较少，分辨率较低，特征的表达能力较弱。现阶段小目标检测主要通过特征增强、多尺度特征融合、学习具有大感受野的高分辨率特征、引入注意力机制、引入上下文信息、设计合适的锚点框等多种方式来增加小目标检测的精度。

人体关键点检测对于描述人体姿态、预测人体行为至关重要。因此人体关键点检测是诸多计算机视觉任务的基础。来自单眼观察的三维人体姿态估计是一项基本的视觉任务，它从输入的图像或视频重建三维身体关节位置。由于该任务可以获得有意义的身体几何和运动表达式，因此它具有广泛的应用范围。MixSTE是一种基于Transformer的seq2seq方法，用于单目视频的三维人体姿态估计。该模型可以更好地捕捉不同身体关节的整体序列相干性和时间运动轨迹，同时大大提高了三维人体姿态估计的效率，在各个3D人体姿态估计的数据集上都取得了最好的效果。该模型首先从单目视频序列中提取人的2D关键点序列，再通过2D关键点序列预测3D人体姿态序列，最终根据3D人体姿态序列进行人体动作识别。然而，由于当前人体姿态估计方法都只依赖人身体的运动变化来识别所做的动作，没有充分利用环境信息，这导致许多人体姿态估计方法在识别“人物交互”行为时效果不好。

可见，现有技术还缺乏实施效果满足需求的解决方案，本发明的提出具有重要实际意义。

发明内容

在使用目标检测方法进行抽烟、打电话检测时，模型需要对烟和手机进行检测。显然，烟和手机在监控视角下可以认为是一个小目标。在距离较近，目标完全暴露在监控视角的情况下，模型能够对抽烟和打电话事件起到很好的检测效果。但是，在烟和手机被遮挡，或是烟和手机距离监控摄像头过远的情况，漏检的情况十分严重。此外，如果监控视角内出现类似于烟和手机的物体，或是烟和手机不在手上或是嘴边，就会出现抽烟、打电话的误报情况。

在使用人体姿态估计和动作识别的方式对抽烟、打电话行为进行检测时，需要人体完全出现在监控视角的范围内，不论人体距离监控摄像头远还是近，都能较好的检测出人体姿态，并进行动作识别。然而，在人员做出类似于抽烟、打电话的动作时，该方法存在严重的误报情况，如正常的摸头动作，与抽烟、打电话行为十分接近。

为了解决上述问题，本发明结合人体姿态估计和目标检测设计了抽烟、打电话检测方法，包括：视频采集、视频切片和转帧处理、小目标检测模型的构建、小目标检测模型和人体姿态估计模型的训练和检测以及时序分析和结果输出。该方法能有效的提高抽烟、打电话事件检测的精确度，同时降低事件的漏检率，具有巨大的应用价值。

本发明技术方案提供一种结合动作识别和目标检测的抽烟、打电话检测方法，通过监控摄像头采集监控场景的视频数据；对所述视频数据切割为短时间视频片段，对视频中的人员进行动作标注；将视频片段转成视频帧，对每张视频帧标注人体关键点坐标、烟坐标和手机坐标，得到模型训练数据集；建立YOLOv5-S目标检测网络模型，所述YOLOv5-S目标检测网络模型是在YOLOv5模型基础上加入可变性卷积和注意力机制，使得更适合检测小目标；然后利用构建好的数据集对2D人体关键点检测网络、3D人体姿态估计模型和YOLOv5-S目标检测网络模型进行训练，得到训练好的各个网络模型的权重；最后将监控场所的监控视频输入训练好的网络模型，确定视频片段中是否发生抽烟、打电话的行为。

而且，实现过程包括以下步骤，

(1)在监控场所安装摄像头，实时传输摄像头获取的视频图像；

(2)对视频数据进行预处理，将存在抽烟、打电话行为的高像素长视频裁剪为短片段，并转为视频帧，对视频中的人体行为以及视频帧中的目标进行标注，构建数据集；

(3)建立YOLOv5-S目标检测网络模型，包括对YOLOv5模型改进，使其更加适用于小目标检测改进方式为将模型的Backbone模块中的卷积操作改为可变形卷积，池化操作改为可变形池化；加入空间注意力机制；根据训练数据中烟和手机的尺寸设置相应锚点框；

(4)利用视频训练数据和图片训练数据对2D人体关键点检测网络、3D人体姿态估计模型和YOLOv5-S小目标检测网络模型进行训练，分别得到三个模型的模型参数，最终获得训练好的检测模型；

(5)利用监控摄像头获取监控视频，裁剪视频片段，作为抽烟/打电话检测模型的输入，输入训练好的检测模型，得到2D人体关键点的坐标序列、人体姿态估计结果和置信度以及存在烟或者手机时的相应坐标和置信度；

(6)对检测模型的输出结果进行分析，结合时序信息、人体关键点和烟或者手机的相对位置进行综合分析，最终确定视频片段中是否发生抽烟、打电话的行为。

而且，数据集的标注与模型训练实现方式如下，

获取多种场景下的抽烟、打电话监控视频后，将视频裁剪为时间较短的视频片段，并将视频片段转为视频帧；

根据模型需要对获得的视频和图像数据进行多种形式的标注，包括进行人体关键点的标注，最终获得2D人体关键点序列数据集；对视频片段中出现的人员行为进行标注，最终获得人体姿态估计数据集；对图片中出现的烟和手机进行标注，最终获得目标检测数据集；

使用构建的数据集对模型进行训练，包括将图片作为输入，利用2D人体关键点序列数据集对2D人体关键点检测网络CPN进行训练，得到CPN网络模型参数；使用视频片段和2D人体关键点序列数据集作为输入，人体姿态估计数据集作为GT值，对MixSTE 3D人体姿态估计模型进行训练，得到MixSTE网络模型参数；以图片作为输入，利用目标检测数据集对YOLOv5-S网络模型进行训练，得到YOLOv5-S模型参数。

而且，将YOLOv5模型该进为专注于小目标检测的YOLOv5-S模型时，对YOLOv5模型的Backbone模块进行调整，调整后的Backbone模块中输入图片依次通过DBL、CSP1_1、空间注意力模块、DBL、CSP1_3、空间注意力模块得到特征图1，特征图1依次通过DBL、CSP1_3、空间注意力模块得到特征图2，特征图2依次通过DBL、SPP、CSP2_1、空间注意力模块、DBL得到特征图3，特征图1、2、3输入FPN+PAN特征金字塔结构后，输入到预测模块，最后根据训练数据中烟和手机的尺寸，设置相应锚点框，进行目标位置、类别的预测。

而且，对检测模型的输出结果进行综合分析时，当同时满足以下条件，认为视频中存在抽烟行为：

3D人体姿态估计模型输出得到的人体动作类别为“抽烟”；

视频片段中包含的图片帧经YOLOv5-S模型检测，有1/3及以上的图片帧检测到烟；

同一图片中，烟的坐标与2D人体关键点检测模型获得的人体关键点序列中“腕关节”的坐标相对距离小于预设阈值。

而且，对检测模型的输出结果进行综合分析时，当同时满足以下条件，认为视频中存在打电话行为：

3D人体姿态估计模型输出得到的人体动作类别为“打电话”；

视频片段中包含的图片帧经YOLOv5-S模型检测，有1/3及以上的图片帧检测到手机；

同一图片中，手机的坐标与2D人体关键点检测模型获得的人体关键点序列中“鼻尖”的坐标相对距离小于预设阈值。

另一方面，本发明还提供一种结合动作识别和目标检测的抽烟、打电话检测系统，用于实现如上所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

而且，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

总体而言，通过本发明所构思的以上技术方案与现有抽烟、打电话检测技术相比，能够取得下列有益效果：

(1)精确度高、漏检率低。本发明中的目标检测模型YOLOv5-S更专注于小目标的检测，提高了烟和手机的检测精度。此外，本发明充分结合了人体姿态估计和目标检测模型的优势，即对人体动作行为进行分析，又对烟和手机这两种小目标进行了检测，还结合了两者之间的位置关系和事件进行的时序信息，弥补了只使用目标检测模型和只使用人体姿态分析模型导致的缺陷，能够获得更高的精确度和更低的漏检率。

(2)成本更低、鲁棒性强。深度学习方法的训练与调试只需利用GPU，测试过程能耗低，且用于训练的图像比较容易获取，方法成本较低。本发明能够在多种场景下进行检测，如：

室内公共场所、矿洞、化工厂等。不需要安装多余的硬件设备，只要保证摄像头能够正常工作，该发明就能对监控视频进行分析，从而对抽烟、打电话行为进行检测。

由此，本发明结合人体姿态估计和目标检测设计了抽烟、打电话检测方案，该方案中模型训练速度快，收敛快。结合时序信息、人体关键点和烟或者手机的相对位置进行综合分析，模型检测精度高漏检率低，可推广性、鲁棒性强。可有效解决当前使用单一模型进行抽烟、打电话事件检测漏检率高、精确度低的问题。

附图说明

图1是本发明实施例的数据集的标注与模型训练流程图。

图2是本发明实施例改进的YOLOv5-S网络模型图。

图3是本发明实施例的抽烟、打电话方法流程图。

具体实施方式

以下结合附图和实施例详细说明本发明技术方案。

相比于一般的目标检测方法，该方法结合实时人体关键点检测、人体姿态估计、烟和手机相对于人体的位置以及抽烟和打电话行为的时序信息，有效解决了检测过程中因烟和手机被遮挡、人员离监控摄像头过远而导致抽烟和打电话行为检测精度低、漏检率高的难题。

本发明实施例中提出一种基于结合人体姿态估计和目标检测的抽烟、打电话检测方法，包括以下内容：

(1)在监控场所安装摄像头，通过网络以及rtsp协议实时传输摄像头获取的视频图像；

(2)对视频数据进行预处理，将存在抽烟、打电话行为的高像素长视频裁剪为一定时间长度(考虑到动作持续时间和模型处理能力，时间长度可设置为4秒到6秒，实施例优选采用4秒)的短片段，进行动作行为标注作为MixSTE 3D人体姿态估计模型的视频训练数据；同时将这些短视频每隔100毫秒抽取视频帧，将烟和电话进行标注，作为目标检测模型的图片训练数据；

(3)针对抽烟打电话检测任务，对YOLOv5模型进行改进，使其更加适用于小目标检测，具体的改进方案为：将YOLOv5模型的Backbone模块中的卷积操作改为可变形卷积，将Backbone中SPP模块中的池化操作(Maxpool)改为可变形池化；同时在每个CSP结构之间加入空间注意力模块(对应图2的注意力模块)；根据训练数据中烟和手机的尺寸，设计合适大小的锚点框(可变形卷积、可变形池化、空间注意力模块为现有技术方案，本发明不予赘述)。在本发明中将改进后的YOLOv5模型命名为YOLOv5-S。

(4)分别利用视频训练数据和图片训练数据对2D人体关键点检测网络、人体姿态估计模型和YOLOv5-S小目标检测网络模型进行训练，分别得到三个模型的模型参数，最终获得训练好的检测模型；2D人体关键点检测网络优先建议采用CPN、3D人体姿态估计模型优选建议采用MixSTE，CPN与MixSTE为现有网络模型，本发明不予赘述。

(5)利用监控摄像头获取监控视频，以4秒为一个视频片段，作为检测模型的输入。完整的抽烟、打电话行为检测模型分为两条路线，第一条路线：将得到的视频片段输入MixSTE 3D人体姿态估计模型，得到2D人体关键点的坐标序列(中间结果)和人体姿态估计结果以及结果置信度(最终结果)；第二条线路：将得到的视频片段转成图片帧，输入到YOLOv5-S目标检测模型，得到烟或者手机(如果存在)的坐标和置信度。

(6)根据检测模型的输出结果，结合时序信息、人体关键点和烟或者手机的相对位置进行综合分析，最终确定视频片段中是否发生抽烟、打电话的行为。

本发明进一步提出，所述步骤(2)(4)的数据集的标注与模型训练实现方式如下：

获取多种场景下的抽烟、打电话监控视频后，以4秒为一个单位对视频进行裁剪，将视频裁剪为时间较短的视频片段，并将视频片段转为视频帧；

根据模型需要对获得的视频和图像数据进行多种形式的标注：

a.进行人体关键点的标注，最终获得2D人体关键点序列数据集；

b.对视频片段中出现的人员行为进行标注，最终获得人体姿态估计数据集；

c.对图片中出现的烟和手机进行标注，最终获得目标检测数据集；

使用上述构建的数据集对本发明中涉及到的模型进行训练：

a.图片作为输入，利用2D人体关键点序列数据集对2D人体关键点检测网络CPN进行训练，得到CPN网络模型参数；

b.使用视频片段和2D人体关键点序列数据集作为输入，人体姿态估计数据集作为GT值，对MixSTE 3D人体姿态估计模型进行训练，得到MixSTE网络模型参数；

c.图片作为输入，利用目标检测数据集对YOLOv5-S网络模型进行训练，得到YOLOv5-S模型参数。

图1为实施例中数据集的标注与模型训练流程图，具体步骤详解如下：

(1-1)获取多种场景下的抽烟、打电话监控视频后，以4秒为一个单位对视频进行裁剪，将视频裁剪为时间较短的视频片段。

(1-2)将视频片段转换为视频帧，得到图像数据，对采集得到的图像进行裁剪、镜像翻转，调整色彩对比度、光照明暗度与图像角度等数据增强操作；添加线状条纹噪声点以增强数据集的鲁棒性。

(1-3)根据模型需要对获得的视频和图像数据进行多种形式的标注。

a.进行人体关键点的标注，具体的标注要求为：对图像中的每一个人体，按顺序标17个特征点：0鼻尖、1左眼、2右眼、3左耳、4右耳、5左肩关节、6右肩关节、7左肘关节、8右肘关节、9左腕关节、10右腕关节、11左髋关节、12右髋关节、13左膝关节、14右膝关节、15左踝关节、16右踝关节，最终获得2D人体关键点序列数据集；

b.对视频片段中出现的人员行为进行标注，针对抽烟、打电话这一检测任务，将人员动作标注为抽烟、打电话或者正常行为，最终获得人体姿态估计数据集；

c.对图片中出现的烟和手机进行标注：1烟、2手机，最终获得目标检测数据集；

(S1-4)使用(S1-3)中构建的数据集对发明中涉及到的模型进行训练。

本发明对YOLOv5模型进行改进的基本理论支持是：

在小目标检测领域，小目标检测性能差的问题至今没有被完全解决。小目标相比于常规尺寸目标，在图像中所占像素数较少，分辨率较低，特征的表达能力较弱。现阶段小目标检测主要通过特征增强、多尺度特征融合、学习具有大感受野的高分辨率特征、引入注意力机制、引入上下文信息、设计合适的锚点框等多种方式来增加小目标检测的精度。

在此理论基础上做出如下改进：

YOLOv5-S网络模型是在YOLOv5模型上进行改进，使其更专注于小目标的检测。该网络模型主要有四个模块：输入端、Backbone、Neck和预测模块，输入端、Neck和预测模块沿用YOLOv5网络模块，Neck采用FPN+PAN的特征金字塔结构，模型的改进主要集中在Backbone模块；

Backbone模块主要包含以下网络子模块：DBL、Res unit、CSP1_X、CSP2_X以及SPP，所有卷积层中卷积核的大小与原YOLOv5网络模型中的卷积核大小对齐，各网络子模块的结构实现介绍如下：

DBL：输入特征图经可变形卷积后，通过BN层，最后通过Leaky relu激活函数得到输出特征图；

Res unit：输入特征图通过2个DBL模块得到新特征图，新特征图与输入特征图相加得到输出特征图；

CSP1_X：输入特征图经DBL模块、X个Res unit模块和可变形卷积得到新特征图1，输入特征图经可变形卷积得到新特征图2，新特征图1和新特征图2拼接后，通过一个BN层和Leaky relu激活函数，最后通过一个DBL模块得到输出特征图；

CSP2_X：输入特征图经(2×X+1)个DBL模块和可变形卷积得到新特征图1，输入特征图经可变形卷积得到新特征图2，新特征图1和新特征图2拼接后，通过一个BN层和Leakyrelu激活函数，最后通过一个DBL模块得到输出特征图；

SPP：输入特征图分别经过3个Maxpool层得到新特征图1、新特征图2和新特征图3，将得到的新特征图1、2、3和输入特征图进行拼接，后经一个DBL模块得到输出特征图；

输入图片依次通过DBL、CSP1_1、空间注意力模块、DBL、CSP1_3、空间注意力模块得到特征图1，特征图1依次通过DBL、CSP1_3、空间注意力模块得到特征图2，特征图2依次通过DBL、SPP、CSP2_1、空间注意力模块、DBL得到特征图3，特征图1、2、3输入FPN+PAN特征金字塔结构后，输入到预测模块。最后根据训练数据中烟和手机的尺寸，设置合适大小的锚点框，进行目标位置、类别的预测。

综上所述，经改进后的YOLOv5-S小目标检测模型在检测小目标(任务中的烟和手机)时，能够使模型更加专注于小目标的特征表示，丰富小目标特征信息的表达，最终起到提高小目标检测精度的作用。

图2为本发明实施例改进的YOLOv5-S网络模型图，各部分的释义如下：

Backbone模块主要包含以下网络子模块：DBL、Res unit、CSP1_X、CSP2_X以及SPP，所有卷积层中卷积核的大小与原YOLOv5网络模型中的卷积核大小对齐，各部分的介绍如下：

DBL：输入特征图经可变形卷积DCN后，通过BN层，最后通过Leaky relu激活函数得到输出特征图；

输入图片依次通过DBL、CSP1_1、空间注意力模块、DBL、CSP1_3、空间注意力模块得到特征图1，特征图1依次通过DBL、CSP1_3、空间注意力模块得到特征图2，特征图2依次通过DBL、SPP、CSP2_1、空间注意力模块、DBL得到特征图3，特征图1、2、3输入FPN+PAN特征金字塔结构后，到预测模块进行目标位置、类别的预测。

图3为本发明实施例的检测方法流程图，各部分的释义如下(该流程图的数据增强、数据集构建和模型训练以图1为准)：

(3-1)通过网络以及rtsp协议实时传输摄像头获取监控场所的监控视频；

(3-2)将高分辨率长时间的视频分割为4秒一段的短视频片段；

(3-3)利用按照图1流程构建3种类型的数据集并对3种网络模型进行训练；

(3-4)将视频片段输入到CPN 2D人体关键点检测模型，获取模型输出的2D人体关键点坐标序列；

(3-5)将(3-4)获得的2D人体关键点坐标序列输入到MixSTE 3D人体姿态估计模型中，得到模型输出的视频中人体动作类别；

(3-6)将(3-2)获取的视频片段转化为图片帧，输入到YOLOv5-S目标检测模型中，得到YOLOv5-S模型检测出来的烟或者手机的坐标以及置信度

(3-7)结合(3-4)得到的2D人体关键点坐标序列、(3-5)得到的视频中人体动作类别和(3-6)得到的烟或者手机的坐标以及置信度，在时序上进行综合分析，具体是：

当同时满足以下条件时，认为视频中存在抽烟行为：(3-5)中得到的人体动作类别为“抽烟”；视频片段中包含的图片帧经(3-6)中YOLOv5-S模型检测，有1/3及以上的图片帧检测到烟(置信度为0.5以上判定为“检测到烟”)；同一图片中，烟的坐标与(3-4)中获得的人体关键点序列中“腕关节”的坐标相对距离小于100像素；

当同时满足以下条件时，认为视频中存在打电话行为：(3-5)中得到的人体动作类别为“打电话”；视频片段中包含的图片帧经(3-6)中YOLOv5-S模型检测，有1/3及以上的图片帧检测到手机(置信度为0.5以上判定为“检测到手机”)；同一图片中，手机的坐标与(3-4)中获得的人体关键点序列中“鼻尖”的坐标相对距离小于100像素；

(3-8)获取(3-7)中的分析结果，如果视频片段存在抽烟打电话行为，发出抽烟、打电话报警。

以上方法充分结合了人体姿态估计和目标检测模型的优势，弥补了单一模型检测的不足。同时结合时序信息、人体关键点和烟或者手机的相对位置，有效的提高抽烟、打电话事件检测的精确度，同时降低事件的漏检率，可推广性、鲁棒性强。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，运行方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种结合动作识别和目标检测的抽烟、打电话检测系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

在一些可能的实施例中，提供一种结合动作识别和目标检测的抽烟、打电话检测系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

以上所述仅为本发明的优选实施例而已，并不用以限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：通过监控摄像头采集监控场景的视频数据；对所述视频数据切割为短时间视频片段，对视频中的人员进行动作标注；将视频片段转成视频帧，对每张视频帧标注人体关键点坐标、烟坐标和手机坐标，得到模型训练数据集；建立YOLOv5-S目标检测网络模型，所述YOLOv5-S目标检测网络模型是在YOLOv5模型基础上加入可变性卷积和注意力机制，使得更适合检测小目标；然后利用构建好的数据集对2D人体关键点检测网络、3D人体姿态估计模型和YOLOv5-S目标检测网络模型进行训练，得到训练好的各个网络模型的权重；最后将监控场所的监控视频输入训练好的网络模型，确定视频片段中是否发生抽烟、打电话的行为。

2.根据权利要求1所述结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：实现过程包括以下步骤，

3.根据权利要求1所述的结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：数据集的标注与模型训练实现方式如下，

4.根据权利要求1所述的结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：将YOLOv5模型该进为专注于小目标检测的YOLOv5-S模型时，对YOLOv5模型的Backbone模块进行调整，调整后的Backbone模块中输入图片依次通过DBL、CSP1_1、空间注意力模块、DBL、CSP1_3、空间注意力模块得到特征图1，特征图1依次通过DBL、CSP1_3、空间注意力模块得到特征图2，特征图2依次通过DBL、SPP、CSP2_1、空间注意力模块、DBL得到特征图3，特征图1、2、3输入FPN+PAN特征金字塔结构后，输入到预测模块，最后根据训练数据中烟和手机的尺寸，设置相应锚点框，进行目标位置、类别的预测。

5.根据权利要求1或2或3或4所述的根据权利要求1所述的结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：对检测模型的输出结果进行综合分析时，当同时满足以下条件，认为视频中存在抽烟行为：

3D人体姿态估计模型输出得到的人体动作类别为“抽烟”；

6.根据权利要求1或2或3或4所述的根据权利要求1所述的结合动作识别和目标检测的抽烟、打电话检测方法，其特征在于：对检测模型的输出结果进行综合分析时，当同时满足以下条件，认为视频中存在打电话行为：

7.一种结合动作识别和目标检测的抽烟、打电话检测系统，其特征在于：用于实现如权利要求1-6任一项所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

8.根据权利要求6所述结合动作识别和目标检测的抽烟、打电话检测系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。

9.根据权利要求6所述结合动作识别和目标检测的抽烟、打电话检测系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-6任一项所述的一种结合动作识别和目标检测的抽烟、打电话检测方法。