CN114898140A

CN114898140A - 一种基于paa算法的行为检测方法、装置及可读介质

Info

Publication number: CN114898140A
Application number: CN202210325107.8A
Authority: CN
Inventors: 陈明木; 王汉超; 易安明; 袁嘉言; 贾宝芝; 何一凡
Original assignee: Xiamen Ruiwei Information Technology Co ltd
Current assignee: Xiamen Ruiwei Information Technology Co ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-08-12

Abstract

本发明公开了一种基于PAA算法的行为检测方法、装置及可读介质，通过获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域；将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配；根据检测框确定检测结果是否为误检；响应于确定检测结果不是误检，基于分类结果进行分析，得到行为类型。在训练过程中采用PAA算法，能提升行为检测模型的检测精度。本发明误检率低，计算量低，模型鲁棒性好。

Description

一种基于PAA算法的行为检测方法、装置及可读介质

技术领域

本发明涉及行为检测领域，具体涉及一种基于PAA算法的行为检测方法、装置及可读介质。

背景技术

随着国家经济越来越好，车辆普及度越来越高，交通事故也随之增加。因为交通事故涉及生命财产，所以会受到比较高的关注。酒驾、超速往往是造成交通事故的主要原因，但是驾驶员的一些主动的和被动的行为也会使驾驶过程中存在隐患，比如，驾驶过程中司机的抽烟行为导致注意力不集中和单手握方向盘使车辆不稳，进而可能导致交通事故的发生，还有其他疲劳驾驶、聊天和分神也是危险的驾驶行为。如果能在驾驶过程中实时的监视司机的驾驶行为，准确的判断驾驶员是否存在违规的行为，然后对相应的动作进行告警，这将会对降低交通事故的发生率产生积极的作用。

一般对于抽烟的检测都是采用烟雾传感器来进行检测的，对于需要进行大量生产的吸烟检测平台来说，烟雾传感器将会造成总成本上涨。但是如果采用机器视觉来判别驾驶员是否有抽烟行为，将能够控制总成本，因为很多车辆都装有监控摄像头，机器视觉可以采用这些图像直接检测驾驶员是否抽烟。

在一些现有方案中，申请号为CN201811535712.8，专利名称为基于二维曲面拟合的吸烟检测方法的专利提出将图像二值化后，进行连通域提取，然后建立二维高斯函数，利用最小二乘法进行曲线拟合，求得中心点和亮点的方法，进而根据阈值来判断驾驶员是否吸烟。该方法对于场景比较简单的场合效果可行，但是考虑到车辆运行过程中其成像相当复杂，使得利用这种方法会产生较多的误报和漏报问题。申请号为CN201910082457.4，专利名称为基于深度学习的抽烟检测分析系统的专利利用道路监控视频先提取车辆车窗位置，再根据此位置截取感兴趣区域，然后将感兴趣区域输入到网络，利用GPU模块来进行前向传播，进而分析驾驶员是否存在吸烟行为，如果有违规行为将会上报车辆状态信息。该方法是对事后的视频进行分析的，不能达到实时监测的要求，而且分析视频采用GPU模块来进行，也使得使用该方法的成本比较高。申请号为CN201810273976.4，专利名称为一种吸烟检测方法、存储介质及计算机的专利也是使用深度学习方法来分析驾驶员是否存在吸烟行为，具体的就是通过图像合成有吸烟的图像和没有吸烟的图像来训练模型。这种通过图像来合成训练样本的方法准确率是非常低，根本达不到实际使用的要求。

随着深度学习的发展，CNN网络的层数越来越深，计算量越来越大，在终端设备根本不能实时运行，甚至有的网络运行一帧需要几十秒，比如出现于2014年的VGG网络，其计算量为19.63GFLOPS，出现于2015的Resnet152，计算量为11.3GFLOPS。虽然近年来出现像MobileNet和SqueezeNet，其计算量分别为573MFLOPS和3.88GFLOPS，在嵌入式芯片运行一帧也要几秒，达不到实时要求。不适合嵌入式芯片的场景，需要提高网络推理速度。另外，现有的CNN网络往往需要大量真实场景的数据，虽然也存在一些方案通过图片合成的方法人为构造训练样本，但是与真实场景依然有差异，效果并不理想，缺少真实场景的数据会造成误报和漏报等问题，在实际复杂光线场景下算法的精度较差，需要改善和提高。

发明内容

针对上述提到的技术问题。本申请的实施例的目的在于提出了一种基于PAA算法的行为检测方法、装置及可读介质，来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供了一种基于PAA算法的行为检测方法，包括以下步骤：

S1，获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域；

S2，将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配；

S3，根据检测框确定检测结果是否为误检；

S4，响应于确定检测结果不是误检，基于分类结果进行分析，得到行为类型。

作为优选，跨级局部模块包括第一基层、第二基层、多个带有瓶颈层的残差模块和融合层。

作为优选，跨级局部模块的计算过程包括：

将基层特征图分为第一基层特征图和第二基层特征图，第一基层特征图经过第一基层得到第一特征，第二基层特征图经过第二基层和多个带有瓶颈层的残差模块得到第二特征；

将第一特征和第二特征输入融合层进行特征融合，得到经跨级局部模块处理后的特征。

作为优选，骨干网为Mobilenet，并且Mobilenet中的Conv1×1和Conv dw 3×3构成的可分离卷积采用跨级局部模块的结构。

作为优选，特征金字塔网络中的卷积层均采用跨级局部模块。

作为优选，步骤S4具体包括：

将分类结果与第一阈值相比较，得到第一比较结果，根据第一比较结果确定行为类型。

作为优选，行为包括抽烟行为，待检测图像为车辆运行过程中所拍摄的司机脸部图像，步骤S1具体包括：

将待检测图像输入人脸检测模型，获取人脸矩形框以及人脸矩形框内的多个关键点坐标；

根据人脸嘴角的两个关键点计算出嘴部中心点；

以嘴部中心点为正中心向外获得与人脸矩形框具有相同大小的目标检测框，目标检测框内的区域为感兴趣区域。

作为优选，步骤S3具体包括：

计算检测框的中心点与嘴部中心点之间的距离M；

计算目标检测框的对角线距离D；

根据距离M与对角线距离D计算出误检指数alpha：

alpha＝M/D；

将误检指数alpha与第二阈值相比较，得到第二比较结果，根据第二比较结果确定检测结果是否为误检。

作为优选，还包括：

重复步骤S1-S4，确定一定时间段内的所有待检测图像中的单帧图像所对应的行为类型，行为类型包括抽烟行为和未抽烟行为；

计算在一定时间段内的所有待检测图像中单帧图像被判定为抽烟行为的数量与总帧数的比值，响应于确定比值超过第三阈值，生成报警事件。

第二方面，本申请的实施例提供了一种基于PAA算法的行为检测装置，包括：

感兴趣区域获取模块，被配置为获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域；

检测模块，被配置为将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配；

误检判断模块，被配置为根据检测框确定检测结果是否为误检；

结果分析模块，被配置为响应于确定检测结果不是误检，基于分类结果进行分析，得到行为类型。

第三方面，本申请的实施例提供了一种电子设备，包括一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

相比于现有技术，本发明具有以下有益效果：

(1)本发明采用人脸关键点嘴部中心点来获取嘴部周围的感兴趣区域，利用嘴部中心点和检测框中心点的归一化距离来降低误检率，提高抽烟检测的准确性。

(2)本发明能够通过图像分析驾驶员抽烟行为，可以直接将抽烟行为建模为目标检测任务，对于各种不同的摄像头方案都能很好适应，算法鲁棒性高，相比以往的技术，准确率更高，适应性更好。并且在行为检测模型中的mobilenet网络结构和特征金字塔网络中引入跨级局部模块，能够降低计算量，加速网络推理速度和提升检测效果。

(3)本发明的行为检测模型在训练过程中采用PAA算法，能够自动分配网络训练的正负样本，使模型自动选择样本，提升行为检测模型的检测精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的基于PAA算法的行为检测方法的流程示意图；

图3为本发明的实施例的基于PAA算法的行为检测方法的人脸矩形框、目标检测框和检测框的示意图；

图4为本发明的实施例的基于PAA算法的行为检测方法的行为检测模型的示意图；

图5为本发明的实施例的基于PAA算法的行为检测方法的跨级局部模块的改进示意图；

图6为本发明的实施例的基于PAA算法的行为检测方法的抽烟检测模型的训练数据采集和标注阶段的流程图；

图7为本发明的实施例的基于PAA算法的行为检测方法的高斯混合模型得分概率的示意图；

图8为本发明的实施例的基于PAA算法的行为检测方法的抽烟检测模型的预测阶段的流程示意图；

图9为本发明的实施例的基于PAA算法的行为检测方法的误检判断时距离选取的示意图；

图10为本发明的实施例的基于PAA算法的行为检测装置的示意图；

图11是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的基于PAA算法的行为检测方法或基于PAA算法的行为检测装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的基于PAA算法的行为检测方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，基于PAA算法的行为检测装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

图2示出了本申请的实施例提供的一种基于PAA算法的行为检测方法，包括以下步骤：

S1，获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域。

在具体的实施例中，行为包括抽烟行为，在本申请的实施例中以车辆运行过程中的抽烟行为检测为例对本申请的具体实施例进行说明。相对应的，待检测图像为车辆运行过程中所拍摄的司机脸部图像。待检测图像可以为从车辆行驶过程中的监控录像中得到的每帧图像，每帧图像分别进行分析。

在具体的实施例中，步骤S1具体包括：

根据人脸嘴角的两个关键点计算出嘴部中心点；

参考图3，具体的关键点坐标的数量为7个，分别对应于人的三官，最终得到的人脸矩形框为A，目标检测框为B。

S2，将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配。

在具体的实施例中，图4为行为检测模型的具体网络结构，参考图5a，首先在骨干网和特征金字塔网络的网络结构中改进残差模块(ResBlock)的连接方式，使其成为多个带有瓶颈层的残差模块，进一步参考图5b，将基层分为两部分，跨级局部模块(Cross StagePartial Block，CSP模块)包括第一基层、第二基层、多个带有瓶颈层的残差模块和融合层。具体的，跨级局部模块的计算过程包括：

具体的，一般来说跨级局部模块中的第一基层和第二基层均属于普通卷积，骨干网为Mobilenet，骨干网中包括跨级局部模块的含义是将Mobilenet中的Conv1×1和Convdw 3×3替换成跨级局部模块的结构。具体的，将Mobilenet中的Conv1×1和Conv dw 3×3构成的分离卷积采用跨级局部模块的结构，然后将跨级局部模块里的普通卷积替换成Conv1×1和Conv dw 3×3可分离卷积，也就是说，将Mobilenet中的Conv1×1和Conv dw 3×3采用跨级局部模块的结构并替换融入到跨级局部模块里面，不仅保留跨级局部模块的结构，还保留Conv1×1和Conv dw 3×3可分离卷积的特性。在优选的实施例中，骨干网采用MobilenetV1。为了降低网络计算量和提升性能，特征金字塔网络中的卷积层均采用跨级局部模块。Mobilenet和特征金字塔网络均由普通卷积层堆叠构成，因此将Mobilenet中的原本的Conv1×1和Conv dw 3×3构成的可分离卷积采用跨级局部模块的结构，将特征金字塔网络中的Conv替换为跨级局部模块。因为基层特征图被切分后，通道数减半，所以整体计算量相比以前有所减少，然后又将两部分融合在一起，增加了顶层梯度的传播路径，使梯度利用更充分，所以能提升检测性能。由于抽烟检测中烟体一般占据图像的尺寸空间比较少，所以本申请的实施例中只采用1个检测头，该检测头主要连接到特征金字塔网络的下采样8倍处，因为这层对小目标检测效果较好，检测头包含分类和回归分支，分别对应输出分类结果和检测框，最终得到检测框为图3中的C。

参考图6，行为检测模型的训练过程如下：

首先，获取对应于抽烟检测行为的行为检测模型的训练数据和测试数据，该行为检测模型的训练数据和测试数据的获取有两种方式，一种是真实场景的数据获取，可以通过采集货车或者客车的真实录像数据进行获取；另一种是通过搭建模拟真实场景，组织人员来进行真实抽烟并录取相应的数据。并对已收集到的所有图像数据进行步骤S1的预处理，包括运行人脸检测模型获取人脸矩形框和人脸7个关键点坐标，在删除非常模糊的图片后，通过人脸矩形框和关键点将抽烟行为的感兴趣区域截取出来，获得训练数据和测试数据。

其次，对训练数据和测试数据进行标注，通过标注工具标出每张图像的烟的位置，具体采用的标注坐标为左上右下(x1,y1,x2,y2)，由于本申请的实施例中所使用的是PascalVOC标注标准，标注文件格式为XML，所以需要转换成训练时所用的COCO格式标准。最终标注了3.3万张图像，取其中3万张图像为训练集，取剩余的3千张图像为测试集。

从过去一些优秀检测算法中得知检测算法的其中一个重要的步骤就是正负样本的分配，比如yolo系列的正负样本分配是根据真实边界框(Ground Truth Bounding Box，GT BBox)的中心落入到特征图网格后，对应的锚框(Anchor Box)和真实边界框(GT BBox)的重叠度(Intersection Over Union，IOU)大于一定阈值，就判定对应的锚框为正样本，再如SSD算法，分配正负样本也是通过比较锚框和真实边界框的IOU值是否大于阈值，最后如ATSS算法，计算每层金字塔的锚框和真实边界框的IOU值的前9个(Top9)，然后再计算所有IOU的均值方差，最后均值加上方差作为阈值伪自动判定正负样本。鉴于之前的算法需要设计IOU阈值后者TopK各种参数，本申请的实施例引入基于概率的锚框分配(ProbablisticAnchor Assignment，PAA)来自动的分配正负样本，省去调整超参的麻烦，并提升抽烟检测算法的性能。

本申请的实施例的PAA算法是将抽烟行为检测的正负样本建模为2个模态的混合高斯概率分布，通过求解高斯混合模型(GMM)就可以取得每个样本归属于正负样本的概率，最后可以根据求出来的两个分布进行简单拆分后得到正负样本。

考虑到要建立高斯概率分布，必须有一个得分能够反应样本的正负属性，所以本申请的实施例通过结合图4的网络结构的三个输出分支，设计一个得分，作为高斯分布变量，得分函数具体公式如下：

S(f_θ(a,x),g)＝S_cls(f_θ(a,x),g)×S_loc(f_θ(a,x),g)^λ (1)

其中，S_cls为分类得分，S_loc为锚框a和真实框g的定位得分，λ控制着这两个得分的相对权重。x和f_θ分别是输入图像和模型参数。S_cls可以直接取分类头输出的分类结果，此处的定位得分比较模糊，但是定位输出是位置的偏移量而不是得分，所以本申请的实施例取IOU预测值为定位质量得分，公式如下：

取得分函数的负对数，能获得下式：

其中，L_cls和L_IOU分别表示交叉熵损失和IOU损失。本申请的实施例中，该得分可以直接取分类损失加上IOU损失的λ倍数。所以很明显的一点就是，损失函数和越小的越可能作为正样本。

接下来就是构建混合高斯模型，所构建的混合高斯模型为公式如下：

P(a|x,g,θ)＝N₁(a；m₁,v₁)+N₂(a；m₂,v₂) (4)

其中，m₁、m₂、v₁、v₂分别表示正负样本两个分布的均值和方差。公式(4)是通过EM算法来求解的，其中EM算法就是通过公式(1)的得分求解混合模型的均值和方差，进而求解出公式(4)，因为EM算法比较成熟，所以这里不再详述。最后获得两个分布：一个对应正样本、一个对应负样本，分布图例如图7，最终判断为正负样本的阈值就是正样本分布概率最高对应的得分，大于这个得分就是正样本，小于这个得分阈值就是负样本。

最后，有了对预设锚框的正负属性自动分配后，那么可以在损失层(Loss Layer)通过交叉熵损失函数(BCE)和IOU损失函数获得总体损失，然后反向传播来训练模型，在所有参数上用梯度下降，使行为检测模型在训练数据上的公式(3)中得到的总体损失最小。最终得到训练好的对应于抽烟行为检测的行为检测模型，即训练好的抽烟检测模型。

进一步的，在平台上进行神经网络模型的前向推理，所以本步骤就是将上个步骤训练好的抽烟检测模型部署到平台进行线上推理，软件框架为神经网络前向推理框架。利用神经网络前向框架读取训练好的抽烟检测模型来分析判断驾驶过程中驾驶员是否抽烟，具体过程参考图8。

S3，根据检测框确定检测结果是否为误检。

在具体的实施例中，检测头为单个检测头，步骤S3具体包括：

计算检测框的中心点与嘴部中心点之间的距离M；

计算目标检测框的对角线距离D；

根据距离M与对角线距离D计算出误检指数alpha：

alpha＝M/D；

具体的，目标检测过程中容易存在误检，针对抽烟行为检测，合格的检测框为完全包围烟体的外接矩形框，但是存在衣领、脸颊反光等因素造成的误检，所以本申请的实施例提出一种去误检策略，大概的思路就是，如果检测框的中心点偏离嘴部中心点太远，则认为这个检测框是个误检。参考图9，具体的思想就是，定义检测框的中心点到嘴部中心点的距离为M，感兴趣区域的对角线距离为D，定义归一化距离为：

alpha＝M/D；

其中，alpha为归一化距离，M和D分别为图9的短虚线和长虚线，本申请的实施例将归一化距离作为误检指数来判断误检，通过在测试集上统计alpha值最大为0.4，因此，第二阈值为0.4，当alpha值大于0.4，则认为是上面提到的衣领和脸颊反光等因素造成的误检。经过误检检测后过滤掉一些误检的结果，提高目标检测的准确度。

在具体的实施例中，步骤S4具体包括：

具体的，每帧待检测图像都对应得到一个分类结果和检测框，分类结果为分类检测头输出的分类得分S_cls，检测框为回归头输出的结果，在本申请的实施例中，检测框为完全包围烟体的外接矩形框。抽烟行为检测的行为类型有抽烟行为和未抽烟行为，将分类检测头输出的分类得分大于第一阈值的判别为抽烟行为，小于第一阈值的判别为未抽烟行为，在具体的实施例中，第一阈值一般设为0.5。

在具体的实施例中，还包括：

具体的，对于驾驶员抽烟行为检测，一般结合多帧待检测图像的检测结果会更加准确。在其中一个实施例中，第三阈值为0.8，比如在5秒内，驾驶员单帧被判定为抽烟行为的数量超过总帧数的0.8，就可以判定为驾驶员存在抽烟行为，平台终端会发出报警信号，提示危险驾驶。

进一步参考图10，作为对上述各图所示方法的实现，本申请提供了一种基于PAA算法的行为检测装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

本申请实施例提供了一种基于PAA算法的行为检测装置，包括：

感兴趣区域获取模块1，被配置为获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域；

检测模块2，被配置为将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配；

误检判断模块3，被配置为根据检测框确定检测结果是否为误检；

结果分析模块4，被配置为响应于确定检测结果不是误检，基于分类结果进行分析，得到行为类型。

下面参考图11，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1100的结构示意图。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机装置1100包括中央处理单元(CPU)1101和图形处理器(GPU)1102，其可以根据存储在只读存储器(ROM)1103中的程序或者从存储部分1109加载到随机访问存储器(RAM)1104中的程序而执行各种适当的动作和处理。在RAM 1104中，还存储有装置1100操作所需的各种程序和数据。CPU 1101、GPU1102、ROM 1103以及RAM 1104通过总线1105彼此相连。输入/输出(I/O)接口1106也连接至总线1105。

以下部件连接至I/O接口1106：包括键盘、鼠标等的输入部分1107；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分1108；包括硬盘等的存储部分1109；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1110。通信部分1110经由诸如因特网的网络执行通信处理。驱动器1111也可以根据需要连接至I/O接口1106。可拆卸介质1112，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1111上，以便于从其上读出的计算机程序根据需要被安装入存储部分1109。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1110从网络上被下载和安装，和/或从可拆卸介质1112被安装。在该计算机程序被中央处理单元(CPU)1101和图形处理器(GPU)1102执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待检测图像，基于待检测图像确定感兴趣区域，感兴趣区域包括行为发生区域；将感兴趣区域输入到经训练的行为检测模型，输出检测结果，检测结果包括分类结果和检测框，其中，行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，骨干网和特征金字塔网络中均包括跨级局部模块，检测头包括分类头和回归头，在行为检测模型的训练过程中采用PAA算法进行正负样本的分配；根据检测框确定检测结果是否为误检；响应于确定检测结果不是误检，基于分类结果进行分析，得到行为类型。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于PAA算法的行为检测方法，其特征在于，包括以下步骤：

S1，获取待检测图像，基于所述待检测图像确定感兴趣区域，所述感兴趣区域包括行为发生区域；

S2，将所述感兴趣区域输入到经训练的行为检测模型，输出检测结果，所述检测结果包括分类结果和检测框，其中，所述行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，所述骨干网和特征金字塔网络中均包括跨级局部模块，所述检测头包括分类头和回归头，在所述行为检测模型的训练过程中采用PAA算法进行正负样本的分配；

S3，根据所述检测框确定所述检测结果是否为误检；

S4，响应于确定所述检测结果不是误检，基于所述分类结果进行分析，得到行为类型。

2.根据权利要求1所述的基于PAA算法的行为检测方法，其特征在于，所述跨级局部模块包括第一基层、第二基层、多个带有瓶颈层的残差模块和融合层。

3.根据权利要求2所述的基于PAA算法的行为检测方法，其特征在于，所述跨级局部模块的计算过程包括：

将基层特征图分为第一基层特征图和第二基层特征图，所述第一基层特征图经过所述第一基层得到第一特征，所述第二基层特征图经过所述第二基层和多个带有瓶颈层的残差模块得到第二特征；

将所述第一特征和第二特征输入融合层进行特征融合，得到经所述跨级局部模块处理后的特征。

4.根据权利要求1所述的基于PAA算法的行为检测方法，其特征在于，所述骨干网为Mobilenet，并且Mobilenet中的Conv1×1和Conv dw 3×3构成的可分离卷积采用所述跨级局部模块的结构。

5.根据权利要求1所述的基于PAA算法的行为检测方法，其特征在于，所述特征金字塔网络中的卷积层均采用所述跨级局部模块。

6.根据权利要求1所述的基于PAA算法的行为检测方法，其特征在于，所述步骤S4具体包括：

将所述分类结果与第一阈值相比较，得到第一比较结果，根据第一比较结果确定行为类型。

7.根据权利要求1所述的基于PAA算法的行为检测方法，其特征在于，所述行为包括抽烟行为，所述待检测图像为车辆运行过程中所拍摄的司机脸部图像，所述步骤S1具体包括：

将所述待检测图像输入人脸检测模型，获取人脸矩形框以及所述人脸矩形框内的多个关键点坐标；

根据人脸嘴角的两个关键点计算出嘴部中心点；

以所述嘴部中心点为正中心向外获得与所述人脸矩形框具有相同大小的目标检测框，所述目标检测框内的区域为所述感兴趣区域。

8.根据权利要求7所述的基于PAA算法的行为检测方法，其特征在于，所述步骤S3具体包括：

计算所述检测框的中心点与所述嘴部中心点之间的距离M；

计算所述目标检测框的对角线距离D；

根据所述距离M与对角线距离D计算出误检指数alpha：

alpha＝M/D；

将所述误检指数alpha与第二阈值相比较，得到第二比较结果，根据第二比较结果确定所述检测结果是否为误检。

9.根据权利要求7所述的基于PAA算法的行为检测方法，其特征在于，还包括：

重复步骤S1-S4，确定一定时间段内的所有待检测图像中的单帧图像所对应的行为类型，所述行为类型包括抽烟行为和未抽烟行为；

计算在一定时间段内的所有待检测图像中单帧图像被判定为抽烟行为的数量与总帧数的比值，响应于确定所述比值超过第三阈值，生成报警事件。

10.一种基于PAA算法的行为检测装置，其特征在于，包括：

感兴趣区域获取模块，被配置为获取待检测图像，基于所述待检测图像确定感兴趣区域，所述感兴趣区域包括行为发生区域；

检测模块，被配置为将所述感兴趣区域输入到经训练的行为检测模型，输出检测结果，所述检测结果包括分类结果和检测框，其中，所述行为检测模型包括输入层、骨干网、特征金字塔网络和检测头，所述骨干网和特征金字塔网络中均包括跨级局部模块，所述检测头包括分类头和回归头，在所述行为检测模型的训练过程中采用PAA算法进行正负样本的分配；

误检判断模块，被配置为根据所述检测框确定所述检测结果是否为误检；

结果分析模块，被配置为响应于确定所述检测结果不是误检，基于所述分类结果进行分析，得到行为类型。

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。