CN113591662B

CN113591662B - 一种抽烟打电话行为的识别方法、系统及存储介质

Info

Publication number: CN113591662B
Application number: CN202110840178.7A
Authority: CN
Inventors: 宋梦
Original assignee: Shenzhen Teamway Electric Co ltd
Current assignee: Shenzhen Teamway Electric Co ltd
Priority date: 2021-07-24
Filing date: 2021-07-24
Publication date: 2024-07-09
Anticipated expiration: 2041-07-24
Also published as: CN113591662A

Abstract

本申请公开了一种抽烟打电话行为的识别方法、系统及存储介质，其涉及图像识别技术领域，该方法包括如下步骤：构建用于识别抽烟和/或打电话行为的行为识别模型，所述行为识别模型为YOLOv3模型；基于大数据获取训练数据集，所述行为识别模型根据所述训练数据集进行行为类别标注，所述行为类别包括抽烟和/或打电话行为的行为特征；优化所述行为识别模型的损失函数；基于所述损失函数对所述行为识别模型进行训练优化，得到最优行为识别模型，基于所述最优行为识别模型部署二阶模型；获取采样视频图像；根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别。

Description

一种抽烟打电话行为的识别方法、系统及存储介质

技术领域

本申请涉及图像识别技术领域，尤其是涉及一种抽烟打电话行为的识别方法、系统及存储介质。

背景技术

在一些特定的公共场合中，如加油站、图书馆等，是禁止人们进行抽烟或打电话的行为，以往需要工作人员时刻进行现场监督或通过摄像头进行实时监控，从而可以及时对抽烟或打电话的行为进行阻止。然而近年来，随着大数据、人工智能和深度学习技术的发展，逐渐出现利用新型卷积神经网络进行图像特征提取和分类的技术。

相关技术中基于VGG16模型并采用数据增强方法进行图像特征识别，可以智能识别出视频图像中人们抽烟或打电话的行为，从而代替了人工识别监督的方式，节省了人力。

针对上述中的相关技术，发明人认为存在有以下缺陷：由于VGG16模型卷积层较浅、特征提取较差，因此对于抽烟或打电话行为的识别判定经常会出现误差，导致行为识别错误。

发明内容

为了改善识别模型卷积层较浅且对特征的提取能力较差的缺陷，本申请提供一种抽烟打电话行为的识别方法、系统及存储介质。

第一方面，本申请提供一种抽烟打电话行为的识别方法，具体包括如下步骤：

构建用于识别抽烟和/或打电话行为的行为识别模型，所述行为识别模型为YOLOv3模型；

基于大数据获取训练数据集，通过所述行为识别模型并根据所述训练数据集进行行为类别标注，所述行为类别包括抽烟和/或打电话行为的行为特征；

优化所述行为识别模型的损失函数；

基于所述损失函数对所述行为识别模型进行训练优化，得到最优行为识别模型，基于所述最优行为识别模型部署二阶模型；

获取采样视频图像；

根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别。

通过采用上述技术方案，构建用于识别抽烟和/或打电话行为的行为识别模型，且行为识别模型为YOLOv3模型，通过大数据使得行为识别模型对抽烟和/或打电话行为的行为特征进行类别标注，优化损失函数，再通过损失函数对行为识别模型进行训练优化，基于优化有的最优行为识别模型部署二阶模型，再通过二阶模型的部署对采样视频图像中的抽烟和/或打电话行为进行识别。由于YOLOv3模型用于图像特征识别时，对位置的偏移增加了激活函数归一化，因此减少了偏移值的波动，而且YOLOv3模型中利用卷积代替池化，因此其卷积信息更加充分，再通过二阶模型的部署，使得YOLOv3模型对目标特征的识别能力更强，且对目标的识别分类更准确。

可选的，优化所述行为识别模型的损失函数包括如下步骤：

获取所述行为识别模型的所有损失函数；

根据专家法对所有损失函数进行评定，得到所有损失函数的权重值；

基于所有损失函数的权重值优化所有损失函数。

通过采用上述技术方案，由于行为识别模型包含多个损失函数，且每个损失函数对应不同的损失类别，在不同的应用场景中，可以为不同损失类别的损失函数分配不同的权重值，提高损失类别与应用场景相关度较高的损失函数的权重值，将更有利于后续根据损失函数对模型进行训练优化，而对于损失函数权重的分配，可以采用专家法的方式进行分配。

可选的，基于所述损失函数对所述行为识别模型进行训练优化，得到最优行为识别模型包括如下步骤：

基于所述损失函数设置训练参数；

根据所述训练参数对所述行为识别模型进行训练优化；

判断所述行为识别模型的训练损失曲线是否下降；

若所述行为识别模型的训练损失曲线继续下降，则继续对所述行为识别模型进行训练优化；

若所述行为识别模型的训练损失曲线停止下降，则所述行为识别模型为最优行为识别模型。

通过采用上述技术方案，根据优化好的损失函数设置合适的训练参数，再通过训练参数对行为识别模型进行训练优化，根据对训练损失曲线趋势变化的判断，来决定行为识别模型是否训练优化至最优行为识别模型。

可选的，基于所述最优行为识别模型部署二阶模型包括如下步骤：

基于所述大数据获取人像特征；

获取coco数据集，并基于所述人像特征和所述coco数据集训练YOLOv3模型，得到人像识别模型；

基于所述人像识别模型和所述最优行为识别模型进行二阶模型的部署。

通过采用上述技术方案，通过大数据获取人像特征，再基于人像特征将YOLOv3模型在coco数据集中进行训练，从而得到可以进行人像识别的人像识别模型，将人像识别模型与最优行为识别模型进行二阶模型的部署，有利于提升对采样视频图像识别的识别速度和识别精度。

可选的，根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别包括如下步骤：

对所述采样视频图像进行图像处理；

基于所述人像识别模型识别处理后的采样视频图像中的采样人像特征；

通过处理后的采样视频图像和所述采样人像特征确定目标层次，所述目标层次包括小目标、微小目标和极小目标；

基于所述目标层次确定所述最优行为识别模型的网络结构；

基于所述网络结构对所述采样视频图像中的抽烟和/或打电话行为进行识别。

通过采用上述技术方案，先对采样视频图像进行图像处理，有利于后续对采样视频图像的识别，根据二阶模型的部署，先通过人像识别模型识别出采样视频图像中的人像特征，再对人像特征进行目标层次的细分，基于细分的目标层次确定最优行为识别模型中的网络结构，再根据最优行为识别模型的不同网络结构，对采样视频图像中的抽烟和/或打电话行为进行识别，根据不同的目标层次采用不同的网络结构，有利于最优行为识别模型对行为特征的识别更为精确。

可选的，所述网络结构包括多个网络预测层，所述基于所述目标层次确定所述最优行为识别模型的网络结构包括如下步骤：

获取所述目标层次与所述网络预测层之间的映射公式；

根据所述映射公式分别计算得到所述目标层次所对应的各个网络预测层的网络层数；

基于所述目标层次所对应的各个网络预测层的网络层数得到所述目标层次对应的网络结构。

通过采用上述技术方案，通过获取的映射公式计算出不同的目标层次所对应的各个网络预测层的网络层数，并通过不同的网络层数构建不同的全卷积网络结构，从而使得行为识别模型可以针对不同目标层次进行灵活变化，以对任何目标层次中的行为特征进行较为精确的识别。

第二方面，本申请提供一种抽烟打电话行为的识别系统，包括：

采集模块，用于采集所述采样视频图像；

图像处理模块，用于对所述采样视频图像进行图像处理；

识别模块，用于构建并训练所述人像识别模型和所述行为识别模型，以识别图像处理后的采样视频图像中的抽烟和/或打电话行为。

通过采用上述技术方案，通过识别模块构建行为识别模型以用于识别抽烟和/或打电话行为，通过大数据使得行为识别模型对抽烟和/或打电话行为的行为特征进行类别标注，再通过识别模块对行为识别模型进行训练优化，并部署二阶模型，通过采集模块采集采样视频图像，并通过图像处理模块对采样视频图像进行处理，再通过二阶模型的部署对采样视频图像中的抽烟和/或打电话行为进行识别。

第三方面，本申请提供一种计算机可读存储介质，采用如下技术方案：

所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现前述的一种抽烟打电话行为的识别方法。

通过采用上述技术方案，通过程序的调取，构建用于识别抽烟和/或打电话行为的行为识别模型，且行为识别模型为YOLOv3模型，通过大数据使得行为识别模型对抽烟和/或打电话行为的行为特征进行类别标注，优化损失函数，再通过损失函数对行为识别模型进行训练优化，基于优化有的最优行为识别模型部署二阶模型，再通过二阶模型的部署对采样视频图像中的抽烟和/或打电话行为进行识别。

综上所述，本申请包括以下至少一种有益技术效果：

1.由于YOLOv3模型用于图像特征识别时，对位置的偏移增加了激活函数归一化，因此减少了偏移值的波动，而且YOLOv3模型中利用卷积代替池化，因此其卷积信息更加充分，再通过二阶模型的部署，使得YOLOv3模型对目标特征的识别能力更强，且对目标的识别分类更准确。

2.通过获取的映射公式计算出不同的目标层次所对应的各个网络预测层的网络层数，并通过不同的网络层数构建不同的全卷积网络结构，从而使得行为识别模型可以针对不同目标层次进行灵活变化，以对任何目标层次中的行为特征进行较为精确的识别。

附图说明

图1是本申请其中一实施例的抽烟打电话行为的识别方法的流程示意图。

图2是本申请其中一实施例的优化行为识别模型的损失函数的流程示意图。

图3是本申请其中一实施例的对行为识别模型进行训练优化的流程示意图。

图4是本申请其中一实施例的部署二阶模型的流程示意图。

图5是本申请其中一实施例的识别采样视频图像中抽烟和/或打电话行为的流程示意图。

图6是本申请其中一实施例的确定最优行为识别模型的网络结构的流程示意图。

图7是本申请其中一实施例的小目标像素对应的网络结构图。

图8是本申请其中一实施例的微小目标像素对应的网络结构图。

图9是本申请其中一实施例的极小目标像素对应的网络结构图。

具体实施方式

以下结合附图1-9对本申请作进一步详细说明。

本申请实施例公开了一种抽烟打电话行为的识别系统，包括采集模块、图像处理模块和识别模块，其中采集模块可以为摄像头，通过采集模块采集采样视频图像。图像处理模块可以为图像处理芯片，图像处理芯片通过图像处理算法可以对采集的采样视频图像进行锐化、边缘提取等处理，以便于后续对采样视频图像中的行为特征进行识别。识别模块可以为图像识别设备，识别模块用于构建并训练人像识别模型和行为识别模型，以识别图像处理后的采样视频图像中的抽烟和/或打电话行为。

本申请实施例还公开了一种抽烟打电话行为的识别方法。

参照图1，该方法的具体步骤如下：

101，构建用于识别抽烟和/或打电话行为的行为识别模型。

其中，所构建的行为识别模型为YOLOv3模型，YOLOv3模型的网络结构为Darknet网络结构，该网络结构借鉴了残差网络(Residual Network)的做法，在一些网络预测层之间设置了快捷链路。

102，基于大数据获取训练数据集，通过所述行为识别模型并根据所述训练数据集进行行为类别标注。

其中，基于大数据并通过采集模块获取训练视频图像，训练视频图像中包含各种不同的抽烟和/或打电话行为，并将多个训练视频图像整合为训练数据集，通过行为识别模型对行为类别进行标注，其中行为类别包括只抽烟的smoke类、只打电话的phone类和边抽烟边打电话的normal类。

103，优化所述行为识别模型的损失函数。

其中，损失函数包括边框损失函数、置信度损失函数和类别损失函数。

104，基于所述损失函数对所述行为识别模型进行训练优化，得到最优行为识别模型，基于所述最优行为识别模型部署二阶模型。

105，获取采样视频图像。

106，根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别。

其中，通过一阶模型部署获取采集视频图像中的人像特征，再通过二阶模型识别采集视频图像中的抽烟和/或打电话行为。

本实施例的实施原理为：

构建用于识别抽烟和/或打电话行为的行为识别模型，且行为识别模型为YOLOv3模型，通过大数据使得行为识别模型对抽烟和/或打电话行为的行为特征进行类别标注，优化损失函数，再通过损失函数对行为识别模型进行训练优化，基于优化有的最优行为识别模型部署二阶模型，再通过二阶模型的部署对采样视频图像中的抽烟和/或打电话行为进行识别。

在图1所示实施例的步骤103中，对不同的损失函数进行优化以合理分配不同损失函数的权重值，具体过程通过图2所示实施例进行详细说明。

参照图2，优化行为识别模型的损失函数具体包括如下步骤：

201，获取所述行为识别模型的所有损失函数。

其中，边框损失函数具体公式如下：

置信度损失函数具体公式如下：

类别损失函数具体公式如下：

其中，YOLOv3模型中，首先把输入图像划分成S×S的格子，然后对每个格子都预测个bounding boxes，表示第i个网格的第j个bounding boxes是否负责这个object，如果负责则为1，否则为0；

表示置信度，的取值是由grid cell的bounding box有没有负责预测某个对象决定，如果负责，则为1，若不负责则为0；

、、、表示真实的中心点坐标的x、y和宽高；

、、、表示预测的中心点坐标、和宽高。

202，根据专家法对所有损失函数进行评定，得到所有损失函数的权重值。

其中，由于损失函数包括边框损失函数、置信度损失函数和类别损失函数，而在识别抽烟和/或打电话行为中，抽烟行为具有较为明显的性别差别，因此类别损失函数的权重占比应较大。

假设边框损失函数的指标值为α，置信度损失函数的指标值为β，类别损失函数的指标值为μ，通过专家法获取三个不同专家对指标值的评定结果，得到表1，表1具体如下：

表1

指标值	专家1的评定	专家2的评定	专家3的评定	平均值
					μ	0.4	0.5	0.6	0.5
β	0.4	0.3	0.2	0.3
					α	0.3	0.2	0.1	0.2

通过上表可得，其中μ的平均值为0.5，β的平均值为0.3，α的平均值为0.2，因此类别损失函数的权重值为0.5，置信度损失函数的权重值为0.3，边框损失函数的权重值为0.2。

203，基于所有损失函数的权重值优化所有损失函数。

其中，根据权重值的分配可以计算总损失，计算公式如下：

本实施例的实施原理为：

由于行为识别模型包含多个损失函数，且每个损失函数对应不同的损失类别，在不同的应用场景中，可以为不同损失类别的损失函数分配不同的权重值，提高损失类别与应用场景相关度较高的损失函数的权重值，将更有利于后续根据损失函数对模型进行训练优化。

在图1所示实施例的步骤104中，在进行特征识别之前需要先对行为识别模型进行训练优化，具体过程通过图3所示实施例进行详细说明。

参照图3，对行为识别模型进行训练优化，具体包括如下步骤：

301，基于所述损失函数设置训练参数。

其中，根据各个损失函数的权重和模型的网络结构层设置训练参数。

302，根据所述训练参数对所述行为识别模型进行训练优化。

303，判断所述行为识别模型的训练损失曲线是否下降，若是，则执行步骤304；若否，则执行步骤305。

其中，根据训练优化过程绘制训练损失曲线，观察训练损失曲线的趋势变化，再基于曲线的趋势变化决定是否继续对模型进行训练优化。

304，继续对所述行为识别模型进行训练优化。

305，所述行为识别模型为最优行为识别模型。

本实施例的实施原理为：

根据损失函数的权重和模型的网络结构层设置合适的训练参数，再通过训练参数对行为识别模型进行训练优化，根据对训练损失曲线趋势变化的判断，来决定行为识别模型是否训练优化至最优行为识别模型。

在图1所示实施例的步骤104中，训练优化得到最优行为识别模型后，还需要进行二阶模型的部署，具体通过图4所示实施例进行详细说明。

参照图4，部署二阶模型，具体包括如下步骤：

401，基于所述大数据获取人像特征。

其中，基于大数据并通过采集模块采集样本图像，采集到样本图像后再通过识别模块识别获取出人像特征。

402，获取coco数据集，并基于所述人像特征和所述coco数据集训练YOLOv3模型，得到人像识别模型。

其中，coco数据集是一个大型的、丰富的物体检测，分割和字幕数据集。这个数据集以scene understanding为目标，主要从复杂的日常场景中截取，图像中的目标通过精确的segmentation进行位置的标定，coco数据集中的图像包括人像在内的80种类别。

403，基于所述人像识别模型和所述最优行为识别模型进行二阶模型的部署。

其中，将人像识别模型部署为一阶模型，最优行为识别模型部署为二阶模型。

本实施例的实施原理为：

通过大数据获取人像特征，再基于人像特征将YOLOv3模型在coco数据集中进行训练，从而得到可以进行人像识别的人像识别模型，将人像识别模型与最优行为识别模型进行二阶模型的部署，有利于提升对采样视频图像识别的识别速度和识别精度，并且可以减少算力的损耗。

在图1所示实施例的步骤106中，部署二阶模型后即可对采样视频图像中的行为进行识别，具体通过图5所示实施例进行详细说明。

参照图5，对采样视频图像中的抽烟和/或打电话行为进行识别，具体包括如下步骤：

501，对所述采样视频图像进行图像处理。

其中，通过图像处理模块可以对采样视频图像进行锐化、边缘提取等处理。

502，基于所述人像识别模型识别处理后的采样视频图像中的采样人像特征。

503，通过处理后的采样视频图像和所述采样人像特征确定目标层次。

其中，目标层次可细分为小目标像素为32*32，微小目标像素为24*24，极小目标像素为16*16，其中只抽烟的smoke类对应极小目标像素，只打电话的phone类对应微小目标像素，边抽烟边打电话的normal类对应小目标像素。

504，基于所述目标层次确定所述最优行为识别模型的网络结构。

其中，不同目标层次与不同网络结构中网络预测层之间具有线性关系。

505，基于所述网络结构对所述采样视频图像中的抽烟和/或打电话行为进行识别。

本实施例的实施原理为：

先对采样视频图像进行图像处理，有利于后续对采样视频图像的识别，根据二阶模型的部署，先通过人像识别模型识别出采样视频图像中的人像特征，再对人像特征进行目标层次的细分，基于细分的目标层次确定最优行为识别模型中的网络结构，再根据最优行为识别模型的不同网络结构，对采样视频图像中的抽烟和/或打电话行为进行识别，根据不同的目标层次采用不同的网络结构，有利于最优行为识别模型对行为特征的识别更为精确。

在图5所示实施例的步骤504中，由于网络结构包括多个网络预测层，根据目标层次与网络预测层之间的线性关系，确定不同的目标层次所对应的最优行为识别模型的网络结构，具体通过图6所示实施例进行详细说明。

参照图6，基于目标层次确定最优行为识别模型的网络结构，具体包括如下步骤：

601，获取所述目标层次与所述网络预测层之间的映射公式。

其中，网络预测层具有5层，第一层网络预测层的网络层数固定为1层；

第二层网络预测层满足以下映射公式：

y=2x+2

其中，y为第二层网络预测层的网络层数，x=0时为原始网络层数，x=1时为小目标像素范围所对应的网络层数，x=2时为微小目标像素范围所对应的网络层数，x=3时为极小目标像素范围所对应的网络层数。

第三层网络预测层满足以下映射公式：

y=2x+8

其中，y为第三层网络预测层的网络层数，x=0时为原始网络层数，x=1时为小目标像素范围所对应的网络层数，x=2时为微小目标像素范围所对应的网络层数，x=3时为极小目标像素范围所对应的网络层数。

第四层网络预测层满足以下映射公式：

y=8-2x，(x=0,1,2)；

y=0，(x=3)

其中，y为第四层网络预测层的网络层数，x=0时为原始网络层数，x=1时为小目标像素范围所对应的网络层数，x=2时为微小目标像素范围所对应的网络层数，x=3时为极小目标像素范围所对应的网络层数。

第五层网络预测层满足以下映射公式：

y=4-2x，（x=0,1,2）

y=0，（x=3）

其中，y为第五层网络预测层的网络层数，x=0时为原始网络层数，x=1时为小目标像素范围所对应的网络层数，x=2时为微小目标像素范围所对应的网络层数，x=3时为极小目标像素范围所对应的网络层数。

上述小目标像素范围为32*32~24*24，微小目标像素范围为24*24~16*16，极小目标像素范围为16*16~0*0。

602，根据所述映射公式分别计算得到所述目标层次所对应的各个网络预测层的网络层数。

其中，根据映射公式计算得到目标层次对应的各个网络预测层的网络层数。

根据步骤601详细所述的映射公式，计算得出小目标像素对应的网络预测层层数分别为1、4、10、6、2；

计算得出微小目标像素对应的网络预测层层数分别为1、6、12、4、0；

计算得出极小目标像素对应的网络预测层层数分别为1、8、14、0、0。

603，基于所述目标层次所对应的各个网络预测层的网络层数得到所述目标层次对应的网络结构。

其中，小目标像素对应的网络结构图如图7所示；微小目标像素对应的网络结构图如图8所示；极小目标像素对应的网络结构图如图9所示。

本实施例的实施原理为：

通过获取的映射公式计算出不同的目标层次所对应的各个网络预测层的网络层数，并通过不同的网络层数构建不同的全卷积网络结构，从而使得行为识别模型可以针对不同目标层次进行灵活变化，以对任何目标层次中的行为特征进行较为精确的识别。

本申请还公开一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时使处理器实现图1-图6中所示的一种抽烟打电话行为的识别方法。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的结构、形状、原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种抽烟打电话行为的识别方法，其特征在于，包括如下步骤：

优化所述行为识别模型的损失函数；

获取采样视频图像；

根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别；

其中，所述基于所述最优行为识别模型部署二阶模型包括如下步骤：

基于所述大数据获取人像特征；

基于所述人像识别模型和所述最优行为识别模型进行二阶模型的部署；

其中，所述根据所述二阶模型的部署对所述采样视频图像中的抽烟和/或打电话行为进行识别包括如下步骤：

对所述采样视频图像进行图像处理；

基于所述目标层次确定所述最优行为识别模型的网络结构；

基于所述网络结构对所述采样视频图像中的抽烟和/或打电话行为进行识别；

其中，所述网络结构包括多个网络预测层；

所述基于所述目标层次确定所述最优行为识别模型的网络结构包括如下步骤：

获取所述目标层次与所述网络预测层之间的映射公式；

2.根据权利要求1所述的一种抽烟打电话行为的识别方法，其特征在于，所述优化所述行为识别模型的损失函数包括如下步骤：

获取所述行为识别模型的所有损失函数；

基于所有损失函数的权重值优化所有损失函数。

3.根据权利要求1或2所述的一种抽烟打电话行为的识别方法，其特征在于，所述基于所述损失函数对所述行为识别模型进行训练优化，得到最优行为识别模型包括如下步骤：

基于所述损失函数设置训练参数；

根据所述训练参数对所述行为识别模型进行训练优化；

判断所述行为识别模型的训练损失曲线是否下降；

4.一种抽烟打电话行为的识别系统，采用权利要求3所述的一种抽烟打电话行为的识别方法，其特征在于，包括：

采集模块，用于采集所述采样视频图像；

图像处理模块，用于对所述采样视频图像进行图像处理；

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求3所述的一种抽烟打电话行为的识别方法。