CN115187497A

CN115187497A - 吸烟检测方法、系统、设备及介质

Info

Publication number: CN115187497A
Application number: CN202210803281.9A
Authority: CN
Inventors: 黄羽
Original assignee: Chongqing Unisinsight Technology Co Ltd
Current assignee: Chongqing Unisinsight Technology Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-14

Abstract

本申请提出了一种吸烟检测方法、系统、设备及介质，该方法包括：获取各个角度的人脸图像与待融合目标物图像，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像，将所述吸烟图像与非吸烟图像构成数据集；基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型；获取待测的目标检测视频，将所述目标检测视频的目标图像输入所述吸烟检测模型进行检测，得到预测概率；根据所述目标图像的预测概率确定所述目标检测视频的吸烟结果，通过以多个角度的人脸图像为基础将待融合目标物图像进行融合处理，得到丰富数据集，通过该数据集训练得到烟检测模型大大提高了吸烟检测的准确度、泛化能力、以及场景迁移的通用能力。

Description

吸烟检测方法、系统、设备及介质

技术领域

本申请涉及视频监控或图像处理领域，尤其涉及一种吸烟检测方法、系统、设备及介质。

背景技术

吸烟有害健康，尤其在公共环境下吸烟会造成的如下危害：污染公共场合的空气，造成他人被动吸烟；随意丢弃烟头，若碰到公共场合的易燃易爆物品，容易造成火灾。因现在还有很多公民没有主动遵守公共管理准则，还需要人力去巡检，进行吸烟检测，必然需要投入大量的人力物力。随着人工智能的快速发展，越来越多的深度学习算法应用在解决公共环境下的吸烟检测上。

现有的吸烟检测算法中，有的是基于图像直接进行吸烟检测判断，通过检测算法判断图片中是否有点燃的香烟，主要使用的检测算法有目标检测SSD(Single ShotMultiBox Detector) 算法、Faster RCNN(Regions with CNN features)算法以及YOLO(You Only Look Once)算法等，如果判断出有点燃的香烟，就进行吸烟提示报警。然而，现有的数据集在训练检测模型时，由于数据集单一，造成该检测模型在实际应用场景中检测精度较低，无法满足车辆行驶中对驾驶员抽烟行为准确检测。

申请内容

鉴于以上所述现有技术的缺点，本申请提供一种吸烟检测方法、系统、设备及介质，以解决上述技术问题。

本申请提供的一种吸烟检测方法，所述方法包括:

获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；

对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；

基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型；

获取待测的目标检测视频，将所述目标检测视频的目标图像输入所述吸烟检测模型进行检测，得到预测概率；根据所述目标图像的预测概率确定所述目标检测视频的吸烟结果，其中，所述目标图像为所述目标检测视频中目标人物的人脸图像。

在一种可能的实施方式中，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像，包括：

对所述人脸图像的角度进行计算，确定人脸姿态旋转角，其中，利用不同的所述人脸姿态旋转角来表征各个角度；

根据所述人脸图像的人脸姿态旋转角确定待融合目标物图像投影至所述人脸图像的投影位置、投影大小与投影角度；

按照所述投影大小与所述投影角度对所述待融合目标物图像进行仿射变换，确定变换后的待融合目标物图像；

根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理，得到吸烟图像；和，将所述人脸图像中不含待融合目标物的图像确定为非吸烟图像。

在一种可能的实施方式中，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理之前，还包括：

对所述人脸图像中嘴部区域的模糊度进行计算，得到嘴部像素值；

根据所述嘴部像素值调节所述待融合目标物图像的像素点，直到所述待融合目标物图像的模糊度与嘴部区域的模糊度相同为止。

在一种可能的实施方式中，根据所述人脸图像的人脸姿态旋转角确定待融合目标物图像投影至所述人脸图像的投影位置、投影大小与投影角度，还包括：

所述人脸姿态旋转角为三维旋转角，所述三维旋转角包括绕X轴旋转的导向角、绕Y轴旋转的俯视角、绕Z轴旋转的翻滚角；

利用所述人脸图像的三维旋转角确定待融合目标物图像投影至二维的目标图像中投影位置、投影大小与投影角度。

在一种可能的实施方式中，按照所述投影大小与所述投影角度对所述待融合目标物图像进行仿射变换，确定变换后的待融合目标物图像，还包括：

依据所述投影大小对所述待融合目标物图像进行缩放处理，得到缩放后的待融合目标物图像；

按照所述投影大小与所述投影角度对缩放后的所述待融合目标物图像进行仿射变换，得到变换后的待融合目标物图像。

在一种可能的实施方式中，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理，得到吸烟图像，还包括：

根据所述人脸图像的人脸关键点与嘴部区域关键点计算人脸图像与待融合目标物图像的融合区域；

以所述人脸图像为背景且所述待融合目标物图像为前景，在所述融合区域所对应的位置坐标进行加权融合，得到合并处理的吸烟图像；

对合并处理的所述吸烟图像中的目标物轮廓进行羽化处理，得到最终的吸烟图像。

在一种可能的实施方式中，基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型，包括：

将所述数据集按比例划分为训练集、测试集与验证集；

构建神经网络模型，所述神经网络模型为Yolov5网络模型；所述Yolov5网络模型基于 FPN+PAN结构来提取烟点特征；其中，利用FPN结构提取不同尺度的特征图，所述特征图至少包括第一特征图、第二特征图与第三特征图，将所述第一特征图的一次上采样至第二特征图的大小；将一次上采样的第二特征图与原有第二特征图融合后再进行二次上采样，与原有第三特征图进行融合，得到预测的第三特征图，从上至下依次进行上采样传递融合；利用PAN 结构将所述第三特征图的一次下采样至第二特征图的大小；将一次下采样的第二特征图与原有第二特征图融合后再进行二次下采样，与原有第一特征图进行融合，得到预测的第一特征图，从下至上传递定位特征。

利用所述训练集的样本数据提取的烟点特征对Yolov5网络模型进行训练，得到吸烟检测模型；

利用所述测试集与验证集的样本数据分别对吸烟检测模型进行测试与验证，得到最终的吸烟检测模型。

本申请还提供了一种吸烟检测系统，所述系统包括：

获取模块，获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；

数据集生成模块，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；

模型构建模块，基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型；

吸烟检测模块，用于获取待测的目标检测视频，将所述目标检测视频的目标图像输入所述吸烟检测模型进行检测，得到预测概率；根据所述目标图像的预测概率确定所述目标检测视频的吸烟结果，其中，所述目标图像为所述目标检测视频中目标人物的人脸图像。

本申请还提供了一种电子设备，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如上述中任一项实施例所述的方法。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序用于使计算机执行如上述任一项实施例所述的方法。

本申请的有益效果：本申请提出的一种吸烟检测方法、系统、设备及介质，该方法获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；通过以多个角度的人脸图像为基础将待融合目标物图像进行融合处理，得到丰富数据集，通过该数据集构建神经网络模型进行训练，得到烟检测模型，大大提高了吸烟检测的准确度、泛化能力、以及场景迁移的通用能力。

附图说明

图1是本申请一实施例中提供的一种吸烟检测方法实施环境应用示意图；

图2是本申请一实施例中提供的吸烟检测方法流程图；

图3是本申请一实施例中提供的吸烟检测方法中合成吸烟图像的流程图；

图4是本申请一实施例中提供的吸烟检测系统框架图；

图5是本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在下文描述中，探讨了大量细节，以提供对本申请实施例的更透彻的解释，然而，对本领域技术人员来说，可以在没有这些具体细节的情况下实施本申请的实施例是显而易见的，在其他实施例中，以方框图的形式而不是以细节的形式来示出公知的结构和设备，以避免使本申请的实施例难以理解。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化，区块链等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请提供的一种吸烟检测方法，涉及上述的人工智能、机器学习等技术领域。示例性的，可以利用人工智能技术中机器模拟、云计算等技术，以实现基于训练得到的模型对待检测图像进行检测，例如，在视频监控中，通过采集目标检测视频对截取该目标检测视频中的每帧目标图像进行检测，进而判断目标图像中的一个或多个目标是否在抽烟。

在相关技术中，现有的吸烟检测模型由于数据集的样本不够丰富，由于现实应用场景中，往往采集人脸角度不同，导致采集的数据缺乏多个角度人脸图像，对各个角度吸烟图像进行识别时，导致识别准确率不高，同时，泛化能力较差，无法适于大多数场景要求的高精度识别率，例如，驾驶员行驶过程中吸烟行为、公共场所的吸烟行为等场景，由于摄像头抓拍角度各式各样，导致吸烟行为的检测精度不达标。

请参见图1，为本申请一实施例中提供的一种吸烟检测方法实施环境应用示意图。如图1 所示，该实施环境应用网络架构可以包括服务器01(服务器集群)和用户终端集群。该用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，具体可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n。如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与上述服务器10进行网络连接，以便于每个用户终端可以通过该网络连接与服务器10进行数据交互。其中，这里不限定该网络连接的具体连接方式，比如，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接。

其中，该用户终端集群中的每个用户终端均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等具有图像数据处理功能的智能终端。应当理解，如图1所示的用户终端集群中的每个用户终端均可以安装有目标应用(即应用客户端)，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的服务器 01之间进行数据交互。其中，该应用客户端可以包括社交客户端、多媒体客户端(例如，视频客户端)、娱乐客户端(例如，游戏客户端)、教育客户端、直播客户端等应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的小程序，在此不做限定。

如图1所示，本申请实施例中的服务器01可以为该应用客户端对应的服务器。该服务器 01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如，本申请实施例可以将图1所示的用户终端100a作为目标用户终端，该目标用户终端中可以集成有目标应用(即应用客户端)。此时，该目标用户终端可以通过该应用客户端对应的业务数据平台与服务器01之间实现数据交互。其中，上述吸烟检测方法可以在服务器、终端、服务器集群或云计算服务集群等任意设备中进行。例如，服务器或终端可以兼具目标吸烟检测功能，例如，服务器将采集的待测图像，基于待测图像和目标模型进行吸烟检测。

请参阅图2，本申请一实施例中提供的吸烟检测方法流程示意图，详述如下：

步骤S210，获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；

具体地，人脸图像是二维图像或三维图像，二维图像可以是二维彩色图像。二维图像可以通过摄像头等图像采集装置获得。图像采集装置可以设置在电子设备的本体上，也可以设置在于电子设备通信连接的其他设备上，本实施方式不做限制。

在此，香烟图像为一只香烟的图像，烟雾图像为吸烟香烟吐出的烟气成像的图像，手持香烟图像为手指夹持香烟的图像。

例如，使用人头检测模型检测街景、监控、互联网等场景下的视频或者图片素材，将检测到的人头外扩一定范围后保存下来(一般外扩人头框的大小的1倍到4倍，根据人头密度调节外扩范围倍数)，并记录人头在这个图片中的坐标位置，进而确定各个角度的人脸图像。

步骤S220，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；

其中，按照所述大小与角度对待合并处理的所述香烟图像进行仿射变换，确定待融合的香烟图像；根据所述位置与角度将待融合的所述香烟图像添加到所述人脸图像的嘴部进行合并处理，得到吸烟图像；

需要说明的是，将所述人脸图像中嘴部区域被口罩遮挡的图像标记为非吸烟图像；或/ 和，将所述人脸图像中嘴部区域不含香烟的图像标记为非吸烟图像。

戴口罩的，白色口罩、口罩扎带与烟头的特征相似，最后会导致戴口罩的人脸出现大量的误检，所以，需要将戴口罩的人脸作为负样本，尤其是覆盖住嘴的人脸照片需要作为负样本。只是悬挂或者露出嘴的人脸或者没有戴口罩的图片可以做为素材，与待融合目标物图像进行融合，构建合成的吸烟图像的正样本。其中，口罩样本的筛选可以通过口罩坐标、形状、覆盖区域与人脸关键点的关系去判定。

将所述人脸图像嘴部区域存在烟雾的图像标记为吸烟图像；或/和，将手拿香烟靠近所述人脸图像嘴部区域的图像标记为吸烟图像；或/和，将所述人脸图像嘴部区域含着香烟的图像标记为吸烟图像。

步骤S230，基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型；

其中，神经网络模型为Yolov5网络模型，该模型为一款检测速度快的轻量化模型，同时具有优秀的检测准确度。通过训练该模型至收敛，满足测试结果与验证结果，即得到吸烟检测模型。

步骤S240，获取待测的目标检测视频，将所述目标检测视频的目标图像输入所述吸烟检测模型进行检测，得到预测概率；根据所述目标图像的预测概率确定所述目标检测视频的吸烟结果，其中，所述目标图像为所述目标检测视频中目标人物的人脸图像。

其中，目标检测视频至少要包括行人，通过确定行人当前动作的预测概率，确定是否发生吸烟行为。

在本实施例中，通过对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；通过以多个角度的人脸图像为基础将待融合目标物图像进行融合处理，得到丰富数据集，通过该数据集构建神经网络模型进行训练，得到烟检测模型，大大提高了吸烟检测的准确度、泛化能力、以及场景迁移的通用能力。

在一种实施例中，详见图3，为本申请一实施例中提供的吸烟检测方法中合成吸烟图像的流程图，为对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像，详述如下：

步骤S310，对所述人脸图像的角度进行计算，确定人脸姿态旋转角，其中，利用不同的所述人脸姿态旋转角来表征各个角度；

例如，用人脸关键点检测模型检测人脸关键点和人脸的姿态。如dlib、pfld等。如果只有一个人脸且该人脸面积太小，可以将作为负样本(非吸烟图像)。如果有多个人脸，较小的人脸框小于较大人脸框的边长1/4，可以将面积较小的人脸覆盖，也可以不覆盖。这些面积太小(一般取小于32像素)的人脸图片不检测人脸关键点，不合成吸烟样本。

步骤S320，根据所述人脸图像的人脸姿态旋转角确定待融合目标物图像投影至所述人脸图像的投影位置、投影大小与投影角度；

步骤S330，按照所述投影大小与所述投影角度对所述待融合目标物图像进行仿射变换，确定变换后的待融合目标物图像；

步骤S340，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理，得到吸烟图像；和，将所述人脸图像中不含待融合目标物的图像确定为非吸烟图像。

例如，选取一定量的人脸图片不与待融合目标物图像融合，作为负样本。

通过上述方式，能够合成用户在各种场景下不同角度的吸烟图像，使得吸烟图像构成的数据集更丰富，极大的扩充吸烟数据，而且可以合成各个角度人脸，可以合成人嘴叼着烟头的在人脸上的各个合理角度，而且比例合适，不再是粗糙的将烟头放在人脸/人嘴上，还可以减少人工标注数据的成本，比机器自动标注的准确度高。

在上述实施例的基础上，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理之前，还包括：

例如，图像模糊度与图像清晰度概念相反，图像越清晰，清晰度越高，同理，图像越模糊，模糊度越高。通过模糊度数值可以量化模糊度，其中，例如，常用的计算模糊度的方法包括但不限于灰度方差算法、灰度差分绝对值之和方差算法、灰度差分及评分和方差算法、Brenner函数、高斯算法、拉普拉斯梯度和等。在此，以像素值表达当前人脸图像中嘴部区域的模糊度。

例如，在已知嘴部区域的模糊度(像素值)的前提下，对所述待融合目标物图像的像素点进行调节，通过调节像素值，使得待融合目标物图像的模糊度与嘴部区域的模糊度相同，进而确保了后续融合的吸烟图像清晰质量，避免因图像局部清晰度相差较大降低识别精度的问题。

具体地，选择人脸图像中人嘴最小外接矩形或者人嘴关键点多边形区域。如果人脸图像比较模糊需要对香烟进行同级别的模糊处理，如，人脸图像的人嘴周围图片模糊度为B，则将香烟模糊度处理为(1-3)*B，可以用中值滤波、高斯滤波、均值滤波等模糊图片的算法，一般的可以选用模糊核大小为2-5。

具体地，计算香烟角度在图中的角度。设人脸姿态角度为三维旋转角描述，分别为导向角(yaw)、俯视角(pithch)、翻滚角(roll)，单位为角度；将角度转化为弧度的公式如下，

其中pi表示圆周率。在此，待融合目标物以香烟为例，那么该香烟的角度为cigar_rad＝arctan(-cos(y)*sin(p))±alpha,单位为弧度，alpha的取值一般为0-0.2。

通过确定待融合目标物的投影位置、投影大小与投影角度，一方面，使得两个图像快速融合，提高融合的效率；另一方面，提高融合的吸烟图像融合精度；还有一方面，能够生成各个不同角度、不同侧脸的吸烟图像。

具体地，常见人脸图像的人脸长度为18-22cm，取20cm；香烟分为烟头与滤嘴，烟头长度为84-120mm，取84mm；滤嘴长度为29-34mm，取34mm；直径为3-7.8mm。以香烟为例，对含有香烟的图的人头长度与燃烧的烟头长度之比约为2.4-5.9倍，记为N；人头长度与烟头直径之比约为28-70倍，记为M。将烟头长度缩放(放大或缩小)为人脸的N倍，烟头直径缩放为人脸宽度的M倍，通过历史均值的缩放倍数调整待融合目标物图像至投影大小，以便确定缩放后的最佳的待融合目标物图。

其中，仿射变换是指保持原来的线共点、点共线的关系不变，保持原有相互平行的线仍平行，原有中点仍为中点，保持原有在一直线上几段线段之间的比例关系不变。

具体地，进行仿射矩阵变换将原始图像转换成另一格式的图像。

例如，对含有香烟的图像进行仿射变化，旋转角度为cigar_rad，大小为0.95-1之间，然后，再通过滤波器进行平滑过滤和阈值过滤，平滑部分锯齿和噪声点(黑点、黑边)，一般的可以选用平滑核大小为2-3，可以选用较小的核，构造伪阴影的效果。

具体地，随机选取人嘴区域内点/附近点或者人嘴关键点/附近点，计算人脸图像和香烟中烟头图片融合的区域，将模糊后的烟头图片和人脸图片融合，并保存融合区域的坐标位置，作为烟头标注的位置。在融合区域内，烟头为前景，人脸为背景。在前景中，旋转后包含烟头像素权重为1，不包含烟头的像素权重为0。在背景中旋转后包含烟头像素权重为0，不包含烟头的像素权重为1。将背景像素和前景像素相加，就完成了吸烟图像的融合。

需要说明的是，对融合区域和/或和人脸接触边缘扩大一定倍数(一般为1.0-1.2倍)，进行羽化操作，让融合的边缘更加自然，一般的可以选用平滑核大小为2-3。保存图片，输出图片和融合区域坐标位置，作为吸烟的正样本。

通过上述方式，可以提高近10个点，可以一定程度上克服烟头这类小目标的数据标注、模型训练的问题。可以缓解人脸附近背景带来影响，如由于视角的关系，在人嘴的背景附近中容易出现一些亮斑点、亮条、栏杆，容易被模型误识别为烟头，如果不加大量的数据进行训练，很难达到理想的效果。

将所述数据集按比例划分为训练集、测试集与验证集；

例如，按比例8:1:1的方式将所述数据集划分为训练集、测试集与验证集。

构建神经网络模型，所述神经网络模型为Yolov5(You Only Look OnceVersion5)网络模型；所述Yolov5网络模型基于FPN+PAN结构来提取烟点特征；其中，利用FPN结构提取不同尺度的特征图，所述特征图至少包括第一特征图、第二特征图与第三特征图，将所述第一特征图的一次上采样至第二特征图的大小；将一次上采样的第二特征图与原有第二特征图融合后再进行二次上采样，与原有第三特征图进行融合，得到预测的第三特征图，从上至下依次进行上采样传递融合；利用PAN结构将所述第三特征图的一次下采样至第二特征图的大小；将一次下采样的第二特征图与原有第二特征图融合后再进行二次下采样，与原有第一特征图进行融合，得到预测的第一特征图，从下至上传递定位特征。

其中，需要说明的是，对数据集内的输入的样本进行Mosaic增强，先将样本通过随机排布、随机缩放、随机裁剪的方式进行拼接，使得吸烟样本的背景更丰富，提高小目标检测精度，并通过此方式使计算过程中一次完成四张图片的数据输入，降低计算代价，原始样本经过自适应图片缩放填充后，输入样本尺寸变为640×640×3，将其输入骨干网络，通过Focus 结构对样本切片得到320×320×12，再经过一次64个卷积核卷积操作得到特征图，通过骨干网络完成特征提取。

还需要说明的是，Yolov5采用FPN(Feature Pyramid Network)+PAN(PerceptualAdversarial Network)的结构来处理骨干网络提取得到的特征。例如，首先，训练集中样本数据通过FPN 结构提取得到80×80、40×40、20×20三种尺寸的特征图，将尺寸为20×20的特征图上采样至40×40，与原中尺寸特征图融合，然后，将融合后特征图再次二倍上采样，与原大尺寸特征图融合，得到进行预测的80×80的特征图，自顶向下，通过上采样的方式将高层的信息进行传递融合。然后，FPN提取得到的三个尺寸的特征图通过PAN，将融合后尺寸为80×80 的特征图下采样为40×40，与FPN结构中的中尺寸特征图进行融合，然后，将融合后特征图再次下采样为20×20，与FPN结构中的小尺寸特征图进行融合，自底向上的传达定位特征。

在本实施例中，通过FPN+PAN结构丰富样本语义特征和定位特征；使用图像自适应缩放填充降低计算代价，降低部署硬件要求，提高模型识别精度与实时性，有效实现不同场景下的吸烟识别与检测；形成一种可部署于工厂、车间等工作场地，进行有效、稳定的吸烟行为检测的吸烟行为检测。

通过上述方式，获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；通过以多个角度的人脸图像为基础将待融合目标物图像进行融合处理，得到丰富数据集，通过该数据集构建神经网络模型进行训练，得到烟检测模型，大大提高了吸烟检测的准确度、泛化能力、以及场景迁移的通用能力。

请参阅图4，本实施例提供了一种吸烟检测系统400，该系统包括：

获取模块401，获取各个角度的人脸图像与待融合目标物图像，所述待融合目标物图像包括香烟图像、烟雾图像、手持香烟图像中的至少之一；

数据集生成模块402，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像；将所述吸烟图像和非吸烟图像构成数据集；

模型构建模块403，基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型；

吸烟检测模块404，用于获取待测的目标检测视频，将所述目标检测视频的目标图像输入所述吸烟检测模型进行检测，得到预测概率；根据所述目标图像的预测概率确定所述目标检测视频的吸烟结果，其中，所述目标图像为所述目标检测视频中目标人物的人脸图像。

在本实施例中，该系统实质上是设置了多个模块用以执行上述实施例中的方法，具体功能和技术效果参照上述方法实施例即可，此处不再赘述。

参见图5，本申请实施例还提供了一种电子设备500，包括处理器501、存储器502和通信总线503；

通信总线503用于将处理器501和存储器连接502；

处理器501用于执行存储器502中存储的计算机程序，以实现如上述实施例一中的一个或多个的方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序用于使计算机执行如上述实施例一中的任一项的方法。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，依所涉及的功能而定。也要注意的是，框图和/ 或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种吸烟检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，对所述人脸图像与所述待融合目标物图像进行融合处理，得到吸烟图像，包括：

3.如权利要求2所述的方法，其特征在于，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理之前，还包括：

4.如权利要求3所述的方法，其特征在于，根据所述人脸图像的人脸姿态旋转角确定待融合目标物图像投影至所述人脸图像的投影位置、投影大小与投影角度，还包括：

5.如权利要求2至4任一所述的方法，其特征在于，按照所述投影大小与所述投影角度对所述待融合目标物图像进行仿射变换，确定变换后的待融合目标物图像，还包括：

6.如权利要求2至4任一所述的方法，其特征在于，根据所述投影位置与所述投影角度将所述待融合目标物图像添加到所述人脸图像进行合并处理，得到吸烟图像，还包括：

7.如权利要求1-4任一项所述的方法，其特征在于，基于所述数据集建立神经网络模型，进行训练，得到吸烟检测模型，包括：

将所述数据集按比例划分为训练集、测试集与验证集；

构建神经网络模型，所述神经网络模型为Yolov5网络模型；所述Yolov5网络模型基于FPN+PAN结构来提取烟点特征；其中，利用FPN结构提取不同尺度的特征图，所述特征图至少包括第一特征图、第二特征图与第三特征图，将所述第一特征图的一次上采样至第二特征图的大小；将一次上采样的第二特征图与原有第二特征图融合后再进行二次上采样，与原有第三特征图进行融合，得到预测的第三特征图，从上至下依次进行上采样传递融合；利用PAN结构将所述第三特征图的一次下采样至第二特征图的大小；将一次下采样的第二特征图与原有第二特征图融合后再进行二次下采样，与原有第一特征图进行融合，得到预测的第一特征图，从下至上传递定位特征。

8.一种吸烟检测系统，其特征在于，所述系统包括：

9.一种电子设备，其特征在于，包括处理器、存储器和通信总线；

所述通信总线用于将所述处理器和存储器连接；

所述处理器用于执行所述存储器中存储的计算机程序，以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序用于使计算机执行如权利要求1-7中任一项所述的方法。