CN112464810A

CN112464810A - 一种基于注意力图的吸烟行为检测方法及装置

Info

Publication number: CN112464810A
Application number: CN202011353420.XA
Authority: CN
Inventors: 黄泽; 胡太祥; 王梦秋
Original assignee: Ainnovation Hefei Technology Co ltd
Current assignee: Ainnovation Hefei Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09

Abstract

本申请提供一种基于注意力图的吸烟行为检测方法及装置，该方法包括：提取目标图像的人脸区域，得到人脸图像；利用特征提取网络获取该人脸图像的第一特征图；对第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于人脸图像上的一个注意力集中区域；将M个注意力图作用到第一特征图中，得到第二特征图；根据第二特征图确定人脸图像中人物是否存在吸烟行为。上述方法首先检测人脸区域，再基于人脸区域的图像特征进行分类，由于烟在人脸区域所占的比例较大，所以，可以有效提取到烟的特征，避免了由于烟过小而检测不到的问题，同时，基于注意力机制对烟出现概率大的位置进行特征增强，有利于提升吸烟行为检测的准确度。

Description

一种基于注意力图的吸烟行为检测方法及装置

技术领域

本发明涉及深度学习技术领域，具体而言，涉及一种基于注意力图的吸烟行为检测方法及装置。

背景技术

鉴于吸烟者的吸烟行为对吸烟者及周围人的身体健康以及环境安全会造成很大的安全隐患，目前，很多场所明令禁止人们吸烟。与此同时，基于视频监控的吸烟行为检测技术开始发展，可以利用视频监控智能识别画面中的人是否吸烟。

目前，检测吸烟行为的手段有：利用两个检测模型对一帧图像中的烟、人头分别进行检测，得到烟的矩形框以及人头的矩形框，若两个矩形框存在交集，则认为该帧图像中的人在吸烟。但是，烟属于非常小的目标，在分辨率较差的视频中很难检测到，同时，复杂场景下还会因为其他物体造成烟头的误检。

发明内容

本申请实施例的目的在于提供一种基于注意力图的吸烟行为检测方法及装置，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种基于注意力图的吸烟行为检测方法，包括：提取目标图像的人脸区域，得到人脸图像；利用特征提取网络获取所述人脸图像的第一特征图；对所述第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于所述人脸图像上的一个注意力集中区域；将所述M个注意力图作用到所述第一特征图中，得到第二特征图；根据所述第二特征图确定所述人脸图像中人物是否存在吸烟行为。

上述方案首先提取人脸区域，再基于人脸区域的图像特征进行分类，由于烟在人脸区域所占的比例较大，所以，可以有效提取到烟的特征，避免了由于烟过小而检测不到的问题，同时，基于注意力机制对烟出现概率大的位置进行特征增强，有利于提升吸烟行为检测的准确度。

在一种可选的实施方式中，所述第一特征图的通道数为C，所述将所述M个注意力图作用到所述第一特征图中，得到第二特征图，包括：将所述第一特征图分别与所述M个注意力图中的每一注意力图按元素相乘，得到M个C通道的第三特征图；对每一所述第三特征图进行全局池化，得到M个单通道的第四特征图；将M个第四特征图进行拼接，得到M通道的所述第二特征图。

注意力分布集中的区域，表明该区域内可能包含所需的关键信息，即该区域是烟出现概率较大的区域，第一特征图中这部分区域的特征值应当被重点关注。

在一种可选的实施方式中，所述提取目标图像的人脸区域，得到人脸图像，包括：提取所述目标图像中的人脸区域，将所述人脸区域的宽度按照预设比例向外扩展，得到新的人脸区域；根据所述新的人脸区域得到所述人脸图像。

通过将所提取的人脸区域向左右两边扩展，使人脸图像中尽可能的包含有“烟”这一目标，以解决由于人物侧站，烟未位于人脸区域内的问题。

在一种可选的实施方式中，在对所述第一特征图进行卷积运算，得到M个注意力图之前，所述方法还包括：构造第一神经网络，所述第一神经网络依次包括：卷积层、池化层以及拼接层；所述卷积层用于对输入的特征图进行卷积运算并输出M个注意力图，所述池化层用于对输入的M个特征图进行全局池化并输出M个单通道的特征图，所述拼接层用于对输入的M个单通道的特征图进行拼接；在训练所述第一神经网络的过程中，每次训练随机使所述卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效。

通过这种失效机制，每次仅随机对第一特征图中的一部分注意力集中区域进行特征增强，在本次训练时可以更加集中地学习这部分区域的特征，下次训练时，又随机对另一部分区域的特征进行特征增强，从而下次训练时又能集中学习到另一部分区域的特征。

在一种可选的实施方式中，所述每次训练随机使所述卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效，包括：每次训练随机将所述卷积层输出的M个注意力图中的至少一个注意力图中的注意力权值全部置零或者全部置为预设数值，所述预设数值小于对应注意力图中的最大注意力权值。

在一种可选的实施方式中，在对所述第一特征图进行卷积运算，得到M个注意力图之前，所述方法还包括：设置注意力集中区域的数量M，使得所述卷积层在对所述第一特征图进行卷积运算后得到相应数量的注意力图。

只需要设置注意力集中区域的数量M，神经网络将自动学习烟可能出现的位置，并使M个注意力图的注意力集中区域逐渐落在烟出现概率较大的关键区域。

第二方面，本申请实施例提供一种基于注意力图的吸烟行为检测装置，包括：人脸图像提取模块，用于提取目标图像的人脸区域，得到人脸图像；第一特征图获取模块，用于利用特征提取网络获取所述人脸图像的第一特征图；注意力图获取模块，用于对所述第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于所述人脸图像上的一个注意力集中区域；第二特征图获取模块，用于将所述M个注意力图作用到所述第一特征图中，得到第二特征图；吸烟行为检测模块，用于根据所述第二特征图确定所述人脸图像中人物是否存在吸烟行为。

在一种可选的实施方式中，所述第一特征图的通道数为C，所述第二特征图获取模块包括：相乘子模块，用于将所述第一特征图分别与所述M个注意力图中的每一注意力图按元素相乘，得到M个C通道的第三特征图；池化子模块，用于对每一所述第三特征图进行全局池化，得到M个单通道的第四特征图；拼接子模块，用于将M个第四特征图进行拼接，得到M通道的所述第二特征图。

第三方面，本申请实施例提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如第一方面、第一方面中任一可选实施方式所述的方法。

第四方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如第一方面、第一方面中任一可选实施方式所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的用于视频监控的吸烟行为检测方法的主流程图；

图2示出了本申请实施例提供的基于注意力图的吸烟行为检测方法的流程图；

图3示出了本申请实施例步骤240中将注意力图作用到第一特征图中的实施方式的流程图；

图4示出了本申请实施例提供的将注意力图作用到第一特征图中的实施方式的示意图；

图5示出了本申请实施例提供的目标神经网络的具体构造的示意图；

图6示出了本申请实施例提供的基于注意力图的吸烟行为检测装置的示意图；

图7示出了本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供一种基于注意力图的吸烟行为检测方法，使用注意力机制对烟可能出现的位置进行特征增强，能够极大程度地提高检测的效率和准确性。

请参照图1，在应用该吸烟行为检测方法于视频监控时，检测主流程如下：

步骤110，实时读取摄像头传来的视频。

其中，摄像头可以布置在厨房，那么本实施例可以检测厨房内出现的吸烟行为，摄像头也可以布置在车辆中，那么本实施例可以检测车内驾驶员出现的吸烟行为，当然，摄像头还可以布置在其他场所，如各种公众场所。

步骤120，对视频中的一帧图像检测是否存在人脸；若有人脸，跳转至步骤130，如没有人脸，跳转至步骤120。

检测图像中人脸的步骤可以采用人脸检测模型，包括但不限于YOLO系列、MTCNN、RetinaFace等模型。

若该帧图像中不存在人脸区域，则再次跳转至步骤120，继续对视频中的下一帧图像检测是否存在人脸。

步骤130，根据人脸区域，得到对应的人脸图像。

步骤140，将人脸图像输入到吸烟检测模型中。

步骤150，根据吸烟检测模型输出的结果确定是否有吸烟行为。

本申请实施例提供的吸烟行为检测方法用于对人脸图像进行检测，以判断对应的人是否有吸烟行为。请参照图2，本实施例提供的基于注意力图的吸烟行为检测方法包括如下步骤：

步骤210，提取目标图像的人脸区域，得到人脸图像。

其中，目标图像可以是一张单独的图像，也可以是某段视频中的其中一帧图像。若本实施例用于检测视频中的人物是否有吸烟行为，则目标图像是视频中的其中一帧图像，在进行检测时，可以对视频中的每一帧图像均进行检测，也可以根据需要来设定检测频率，例如，每隔30帧从视频中获取一帧目标图像、或者每隔60帧从视频中获取一帧目标图像等。

可选的，在步骤210中，可以根据识别出的人脸区域得到对应大小的人脸图像，也可以对人脸区域进行扩展后，基于扩展后的人脸区域得到对应的人脸图像。

例如，将人脸区域按照预设的像素或者预设的比例向外扩展，得到新的人脸区域，并根据新的人脸区域得到人脸图像。

在一种实施例中，将人脸区域的左、右各向外扩展n个像素点，当然，也可以对人脸区域的上、下、左、右均向外扩展n个像素点，得到新的人脸区域，根据新的人脸区域得到对应的人脸图像。

在另一实施例中，将人脸区域的宽度按照预设的比例向外扩展，当然，也可以将人脸区域整体按照预设的比例向外扩展，得到新的人脸区域，根据新的人脸区域得到对应的人脸图像。其中，预设的比例可以是10％。

对于吸烟者而言，在吸烟时可能是侧面朝向拍摄点，所以，为了保证人脸图像中尽可能的包含有“烟”这一目标，故将所提取的人脸区域向左右两边扩展，以解决由于人物侧站，烟未位于人脸区域内的问题。

步骤220，利用特征提取网络获取人脸图像的第一特征图。

人脸图像输入至特征提取网络后，经特征提取网络进行特征提取，获得第一特征图。第一特征图与人脸图像的大小相同，例如，人脸图像的维度为h*w，h为人脸图像的高，w为人脸图像的宽，第一特征图的维度为C*h*w，C为第一特征图的通道数。

特征提取网络可以是ResNet、VGG、Inception系列、MobileNet系列、ShuffleNet系列、SqueezeNet系列的网络。

步骤230，对第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于人脸图像上的一个注意力集中区域。

特征提取网络输出的第一特征图经卷积层进行卷积运算，卷积层运算后输出M个注意力图，每个注意力图对应于人脸图像上的一个注意力集中区域，每个注意力集中区域表征人脸上的一个烟可能出现的位置。注意力图反映对人脸图像的注意力分布情况，注意力图中有多个注意力权值，注意力权值越大，表示注意力越集中。注意力分布越集中的区域，表明该区域内越可能包含所需的关键信息，即该区域是烟出现概率较大的区域，第一特征图中这部分区域的特征值应当被重点关注。

例如，某个注意力图中鼻子的位置具有较高的注意力权值，而除鼻子位置外的其他位置的注意力权值较小，另一注意力图中嘴部的位置具有较高的注意力权值，而除嘴部位置外的其他位置的注意力权值较小。

步骤240，将M个注意力图作用到第一特征图中，得到第二特征图。

在得到M个注意力图后，将M个注意力图作用到第一特征图中，通过注意力机制对烟可能出现的位置进行特征增强，有利于强化这M个注意力集中区域的特征信息，进而改善检测结果。而注意力不集中的区域的特征对于吸烟行为的分类帮助不大，则不进行强化。

具体的，请参照图3，步骤240的实施方式包括：

步骤241，将第一特征图分别与M个注意力图中的每一注意力图按元素相乘，得到M个C通道的第三特征图。

步骤242，对每一第三特征图进行全局池化，得到M个单通道的第四特征图。

步骤243，将M个第四特征图进行拼接，得到M通道的第二特征图。

需说明的是，注意力图与第一特征图的大小相同，注意力图的维度为h*w。若第一特征图在与注意力图相乘前，经过了池化处理，则对每一注意力图进行同样的池化处理，以使两者的大小保持一致。

以图4所示的示例对上述步骤241-243进行说明。请参照图4，在得到维度为C*h*w的第一特征图和M个注意力图后，将M个注意力图中的每一个注意力图分别与第一特征图按元素相乘，公式为：

F_k＝A_k⊙F(k＝1,2,…,M)

⊙表示对应位置的元素相乘，F为第一特征图，A_k为M个注意力图中的第k个注意力图，F_k为对应的第k个第三特征图。

示例性的，在将第一个注意力图与第一特征图按元素相乘时，将第一个注意力图中的第一行第一个位置的注意力权值与第一特征图中每一个通道的对应位置的特征值相乘，然后，将第一行第二个位置的注意力权值与第一特征图中每一个通道的对应位置的特征值相乘，依此类推，得到一个第三特征图，第三特征图的维度为C*h*w。

如图4所示，在经步骤241后，共得到M个第三特征图，每个第三特征图具有与第一特征图相同的通道数。然后，分别对每一第三特征图进行全局池化，得到对应的一个第四特征图，共得到M个第四特征图，第四特征图的维度为1*h*w，即第四特征图中的通道数为1。

然后，将M个第四特征图进行拼接处理，得到最终的第二特征图，第二特征图的维度为M*h*w。

通过上述步骤将M个注意力图作用到第一特征图中，得到第二特征图，相较于第一特征图，在第二特征图中烟出现概率大的位置的特征得到增强，有利于步骤250中的分类。

步骤250，根据第二特征图确定人脸图像中人物是否存在吸烟行为。

将第二特征图经一定的处理(如池化、全连接等)后，输入到Softmax层中进行分类，Softmax层根据输入的特征信息输出该人脸图像中有吸烟行为或没有吸烟行为的概率，根据Softmax层的输出结果可以确定人脸图像中的人物是否存在吸烟行为。

本申请实施例的吸烟行为检测方法基于神经网络实施，在实施之前，首先构造所需的目标神经网络。在一种实施例中，目标神经网络包括：ResNet、第一神经网络和分类网络。ResNet用于提取人脸图像中的特征，得到第一特征图，当然，ResNet也可以替换为其他的特征提取网络，第一神经网络用于对第一特征图进行处理，输出第二特征图，第一神经网络依次包括：卷积层、池化层以及拼接层。分类网络用于对输入的第二特征图进行处理及分类。分类网络中包括Softmax层，在Softmax层之前还可能包括池化层、全连接层等，分类网络可以参照现有技术中对特征图进行分类的现有网络。

请参照图5所示的目标神经网络的一种具体构造示意图，目标神经网络在检测阶段的实施过程如下：

首先，人脸图像输入至ResNet网络中，经ResNet网络进行特征提取，得到第一特征图；

然后，在其中一条分支中，第一特征图输入至卷积层，卷积层用于对第一特征图进行卷积运算，得到M个注意力图；

然后，将M个注意力图与第一特征图按元素相乘，得到M个第三特征图，每个第三特征图的通道数与第一特征图的通道数相同，均为C；

然后，M个第三特征图输入至池化层中，对每一第三特征图进行全局池化，得到M个第四特征图，每个第四特征图的通道数为1；

然后，M个第四特征图输入至拼接层中，将M个单通道的第四特征图拼接形成一个M通道的第二特征图，第二特征图中的每个通道对应一个第四特征图；

然后，将第二特征图输入至分类网络中，以分类该人脸图像中是否有吸烟行为。

可以理解的，在检测阶段之前，先对构造完成的目标神经网络进行训练，在训练时，整个目标神经网络一起进行训练，包括其中的第一神经网络。

在训练目标神经网络的过程中，每次训练随机使第一神经网络中的卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效。

通过这种失效机制，每次仅随机对第一特征图中的一部分注意力集中区域进行特征增强，使目标神经网络在本次训练时可以更加集中地学习这部分区域的特征，下次训练时，又随机对另一部分区域的特征进行特征增强，使目标神经网络又能集中学习到另一部分区域的特征。失效的注意力图仍将与第一特征图进行元素相乘，但其无法起到注意力作用，即便与第一特征图相乘，也无法强化第一特征图中的对应区域内的特征。

在一些实施例中，可以在每次训练时随机将卷积层输出的M个注意力图中的至少一个注意力图中的注意力权值全部置零或者全部置为预设数值，该预设数值小于对应注意力图中的最大注意力权值。

当然，随机将M个注意力图中的部分注意力图的注意力作用失效的步骤仅在训练阶段执行。

可以理解的，注意力图自动定位烟可能出现的区域的这种能力通过对目标神经网络的不断训练而获得。在训练目标神经网络之前，设置注意力集中区域的数量M，使得卷积层在对输入的第一特征图进行卷积运算后能够自动输出相应数量的注意力图。目标神经网络在训练过程中会根据分类网络的结果不断进行参数调整，从而，可以使目标神经网络逐渐学习烟可能出现的位置，并使M个注意力图的注意力集中区域逐渐落在烟出现概率较大的关键区域，进而，在训练完成后，可以较为准确地对烟出现概率较大的关键区域进行特征增强。

综上所述，本申请实施例提供的基于注意力图的吸烟行为检测方法，首先检测人脸区域，再基于人脸区域的图像特征进行分类，由于烟在人脸区域所占的比例较大，所以，可以有效提取到烟的特征，避免了由于烟过小而检测不到的问题，同时，基于注意力机制对烟出现概率大的位置进行特征增强，有利于提升吸烟行为检测的准确度。

基于同一发明构思，本申请实施例提供一种基于注意力图的吸烟行为检测装置，请参照图6，该装置包括：

人脸图像提取模块310，用于提取目标图像的人脸区域，得到人脸图像；

第一特征图获取模块320，用于利用特征提取网络获取所述人脸图像的第一特征图；

注意力图获取模块330，用于对所述第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于所述人脸图像上的一个注意力集中区域；

第二特征图获取模块340，用于将所述M个注意力图作用到所述第一特征图中，得到第二特征图；

吸烟行为检测模块350，用于根据所述第二特征图确定所述人脸图像中人物是否存在吸烟行为。

可选的，第一特征图的通道数为C，第二特征图获取模块340包括：

相乘子模块，用于将所述第一特征图分别与所述M个注意力图中的每一注意力图按元素相乘，得到M个C通道的第三特征图；

池化子模块，用于对每一所述第三特征图进行全局池化，得到M个单通道的第四特征图；

拼接子模块，用于将M个第四特征图进行拼接，得到M通道的所述第二特征图。

可选的，人脸图像提取模块310具体用于：提取所述目标图像中的人脸区域，将所述人脸区域的宽度按照预设比例向外扩展，得到新的人脸区域；根据所述新的人脸区域得到所述人脸图像。

可选的，该装置还包括：神经网络构造模块，用于构造第一神经网络，所述第一神经网络依次包括：卷积层、池化层以及拼接层；所述卷积层用于对输入的特征图进行卷积运算并输出M个注意力图，所述池化层用于对输入的M个特征图进行全局池化并输出M个单通道的特征图，所述拼接层用于对输入的M个单通道的特征图进行拼接；注意力图失效模块，用于在训练所述第一神经网络的过程中，每次训练随机使所述卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效。

可选的，注意力图失效模块具体用于：每次训练随机将所述卷积层输出的M个注意力图中的至少一个注意力图中的注意力权值全部置零或者全部置为预设数值，所述预设数值小于对应注意力图中的最大注意力权值。

可选的，该装置还包括：注意力区域数量设置模块，用于设置注意力集中区域的数量M，使得所述卷积层在对所述第一特征图进行卷积运算后得到相应数量的注意力图。

本申请实施例提供的基于注意力图的吸烟行为检测装置，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图7示出了本申请实施例提供的电子设备400的一种可能的结构。参照图7，电子设备400包括：处理器410、存储器420以及通信接口430，这些组件通过通信总线440和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，存储器420包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random AccessMemory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。处理器410以及其他可能的组件可对存储器420进行访问，读和/或写其中的数据。

处理器410包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器410可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(NetworkProcessor，简称NP)或者其他常规处理器；还可以是专用处理器，包括图形处理器(Graphics Processing Unit，GPU)、数字信号处理器(DigitalSignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器410为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

通信接口430包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口430可以包括进行有线和/或无线通信的接口。

在存储器420中可以存储一个或多个计算机程序指令，处理器410可以读取并运行这些计算机程序指令，以实现本申请实施例提供的基于注意力图的吸烟行为检测方法以及其他期望的功能。

可以理解，图7所示的结构仅为示意，电子设备400还可以包括比图7中所示更多或者更少的组件，或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。电子设备400可能是实体设备，例如PC机、笔记本电脑、平板电脑、手机、服务器、嵌入式设备等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备400也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被计算机的处理器读取并运行时，执行本申请实施例提供的基于注意力图的吸烟行为检测方法。例如，计算机可读存储介质可以实现为图7中电子设备400中的存储器420。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于注意力图的吸烟行为检测方法，其特征在于，包括：

提取目标图像的人脸区域，得到人脸图像；

利用特征提取网络获取所述人脸图像的第一特征图；

对所述第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于所述人脸图像上的一个注意力集中区域；

将所述M个注意力图作用到所述第一特征图中，得到第二特征图；

根据所述第二特征图确定所述人脸图像中人物是否存在吸烟行为。

2.根据权利要求1所述的方法，其特征在于，所述第一特征图的通道数为C，所述将所述M个注意力图作用到所述第一特征图中，得到第二特征图，包括：

将所述第一特征图分别与所述M个注意力图中的每一注意力图按元素相乘，得到M个C通道的第三特征图；

对每一所述第三特征图进行全局池化，得到M个单通道的第四特征图；

将M个第四特征图进行拼接，得到M通道的所述第二特征图。

3.根据权利要求1所述的方法，其特征在于，所述提取目标图像的人脸区域，得到人脸图像，包括：

提取所述目标图像中的人脸区域，将所述人脸区域的宽度按照预设比例向外扩展，得到新的人脸区域；

根据所述新的人脸区域得到所述人脸图像。

4.根据权利要求2所述的方法，其特征在于，在对所述第一特征图进行卷积运算，得到M个注意力图之前，所述方法还包括：

构造第一神经网络，所述第一神经网络依次包括：卷积层、池化层以及拼接层；所述卷积层用于对输入的特征图进行卷积运算并输出M个注意力图，所述池化层用于对输入的M个特征图进行全局池化并输出M个单通道的特征图，所述拼接层用于对输入的M个单通道的特征图进行拼接；

在训练所述第一神经网络的过程中，每次训练随机使所述卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效。

5.根据权利要求4所述的方法，其特征在于，所述每次训练随机使所述卷积层输出的M个注意力图中的至少一个注意力图的注意力作用失效，包括：

每次训练随机将所述卷积层输出的M个注意力图中的至少一个注意力图中的注意力权值全部置零或者全部置为预设数值，所述预设数值小于对应注意力图中的最大注意力权值。

6.根据权利要求5所述的方法，其特征在于，在对所述第一特征图进行卷积运算，得到M个注意力图之前，所述方法还包括：

设置注意力集中区域的数量M，使得所述卷积层在对所述第一特征图进行卷积运算后得到相应数量的注意力图。

7.一种基于注意力图的吸烟行为检测装置，其特征在于，包括：

人脸图像提取模块，用于提取目标图像的人脸区域，得到人脸图像；

第一特征图获取模块，用于利用特征提取网络获取所述人脸图像的第一特征图；

注意力图获取模块，用于对所述第一特征图进行卷积运算，得到M个注意力图，每个注意力图对应于所述人脸图像上的一个注意力集中区域；

第二特征图获取模块，用于将所述M个注意力图作用到所述第一特征图中，得到第二特征图；

吸烟行为检测模块，用于根据所述第二特征图确定所述人脸图像中人物是否存在吸烟行为。

8.根据权利要求7所述的装置，其特征在于，所述第一特征图的通道数为C，所述第二特征图获取模块包括：

9.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。

10.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1-6任一项所述的方法。