CN116778214A

CN116778214A - 一种行为检测方法、装置、设备及其存储介质

Info

Publication number: CN116778214A
Application number: CN202211430130.XA
Authority: CN
Inventors: 管丽玲
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-09-19

Abstract

本公开实施例提供一种行为检测方法、装置、设备及其存储介质，所述方法包括：通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，所述模板图像是针对工作人员在工程实施前拍摄的图像，所述待搜索图像是针对所述工作人员的实时监控视频中的每一帧图像；通过目标追踪模块，基于所述融合特征信息，确定所述待搜索图像中所述工作人员的感兴趣区域；通过行为安全性分类模块，基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为。这样，本申请实施例提供的方法，一方面更有利于目标定位，从而可以对相应工作人员进行危险提醒；另一方面还可以提高检测的准确性和鲁棒性。

Description

一种行为检测方法、装置、设备及其存储介质

技术领域

本申请涉及图像目标检测领域，尤其涉及一种行为检测方法、装置、设备及其存储介质。

背景技术

安全性实时检测方法是通信工程安全性领域、图像目标检测领域的一大研究热点。为提高安全性实时检测的准确性，可以通过视频监控获取工作现场的信息，并对视频图像和模板图像进行特征融合，从而通过准确、实时的检测可以及时发现危险行为并发出警告，提高现场工作人员的安全性。

目前的安全性实时检测方法，因计算量较大而不能满足实时性需求，同时，检测结果的准确性也较低。

发明内容

有鉴于此，本申请实施例提供一种行为检测方法、装置、设备及其存储介质。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提供了一种行为检测方法，所述方法包括：通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，所述模板图像是针对工作人员在工程实施前拍摄的图像，所述待搜索图像是针对所述工作人员的实时监控视频中的每一帧图像；通过目标追踪模块，基于所述融合特征信息，确定所述待搜索图像中所述工作人员的感兴趣区域；通过行为安全性分类模块，基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为。

第二方面，本申请实施例还提供了一种行为检测装置，所述装置包括：

改进的特征提取融合模块，用于将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，所述模板图像是针对工作人员在工程实施前拍摄的图像，所述待搜索图像是针对所述工作人员的实时监控视频中的每一帧图像；

目标追踪模块，用于基于所述融合特征信息，确定所述待搜索图像中所述工作人员的感兴趣区域；

行为安全性分类模块，用于基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的步骤。

本申请实施例中，首先，通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，模板图像是针对工作人员在工程实施前拍摄的图像，待搜索图像是工作人员的实时监控视频中的每一帧图像；其次，通过目标追踪模块，基于融合特征信息，确定待搜索图像中工作人员的感兴趣区域；最后，通过行为安全性分类模块，基于工作人员的感兴趣区域，确定工作人员的行为是否包括危险行为。从上面可以看出，通过将实施前拍摄的图像作为模板图像和待检测图像的特征融合，一方面更有利于目标定位，从而可以对相应工作人员进行危险提醒；另一方面，还解决了目标与背景不平衡及网络对输入变化敏感的问题，这样在不影响实时性的前提下，可以提高检测的准确性和鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种行为检测方法的实现流程示意图；

图2为本申请实施例提供的一种行为检测方法的实现整体流程示意图；

图3为本申请实施例提供的一种改进的特征提取融合模块的实现流程示意图；

图4为本申请实施例提供的最大池化操作改进前后的对比示意图；

图5为本申请实施例提供的一种行为安全性分类模块的实现流程示意图；

图6为图5中改进的全局上下文模块的实现流程示意图；

图7为图6中通道注意力模块的实现流程示意图；

图8为本申请实施例提供的一种行为检测装置的组成结构示意图；

图9为本申请实施例提供的一种计算机设备的硬件实体示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。还需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

安全性实时检测方法是通信工程安全性领域、图像目标检测领域的一大研究热点。随着现代图像采集技术和数字视频技术的发展日趋完善，为提高安全性实时检测的准确性，可以通过视频监控获取工作现场的信息，并对视频图像和模板图像进行特征融合，从而通过准确、实时的检测可以及时发现危险行为并发出警告，极大提高勘察、验收环节现场工作人员的安全性。

近年来，基于深度学习的目标检测、目标跟踪算法的研究炙手可热，成熟的算法不仅能解放大量的人力、物力资源，更有着精确度、处理速度上的优势。目前的安全性实时检测方法大多基于OPENPOSE网络，虽然该网络的鲁棒性、准确性都较好，但是该网络的计算量较大，无法满足实时性需求。同时，现有的图像识别模型基于YoloV3物体检测算法，输入为逐帧图像，但是输出结果众多且复杂，由于模型的训练难度极大，从而导致检测结果的准确性较低。虽然现有的算法较为成熟，但是由针对视频序列中运动目标检测的鲁棒性、准确性和实时性还有待提高。

基于更快的采用候选区域(Region Proposals)的卷积神经网络(Faster R-CNN)算法对模板图像进行特征提取处理，该算法的整体流程包括：首先，使用共享卷积层对模板图像进行特征提取；其次，将提取的特征送入区域建议网络(Region Proposal Network，RPN)，RPN生成待检测框，指定感兴趣区域的位置，并对感兴趣区域的包围框进行第一次修正；然后，感兴趣区域池化层根据RPN的输出，在特征图上面选取每个感兴趣区域对应的特征，并将维度置为定值；最后，使用全连接层对检测框进行分类，并且进行目标包围框的第二次修正。

为此，本申请实施例提供一种行为检测方法，该方法可以由计算机设备的处理器执行。其中，计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、等具备数据处理能力的设备。该方法通过对模板图像和待搜索图像的特征信息进行融合，并通过目标追踪模块确定待搜索图像中工作人员的感兴趣区域，并将感兴趣区域输入到行为安全性分类模块中，从而确定工作人员的行为是否包括危险行为。通过将实施前拍摄的图像作为模板图像和待检测图像的特征融合，一方面更有利于目标定位，从而可以对相应工作人员进行危险提醒；另一方面，还解决了目标与背景不平衡及网络对输入变化敏感的问题，这样在不影响实时性的前提下，可以提高检测的准确性和鲁棒性。

下面将结合附图对本申请各实施例进行详细说明。

有鉴于此，本申请实施例提供了一种行为检测方法，参考图1，该方法可以包括步骤S101至步骤S103，其中：

步骤S101，通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，模板图像是针对工作人员在工程实施前拍摄的图像，待搜索图像是针对工作人员的实时监控视频中的每一帧图像。

这里，模板图像是在工程实施前，通过移动终端设备拍摄一张穿戴完个人防护用具的工作人员的图像；待搜索图像是工程实施中，通过摄像头拍摄工作人员实施过程中的每一帧视频图像。

步骤S102，通过目标追踪模块，基于融合特征信息，确定待搜索图像中工作人员的感兴趣区域。

这里，目标追踪模块在实施的过程中可以采用目标追踪算法，例如Yolov4算法。基于改进的特征融合模块得到的融合特征信息，采用Yolov4算法能够更加精确的回归出每帧图像上工作人员所在区域。

步骤S103，通过行为安全性分类模块，基于工作人员的感兴趣区域，确定工作人员的行为是否包括危险行为。

这里，通过行为安全性分类模块对回归出的每帧图像上工作人员的感兴趣区域做二分类，当行为安全性分类模块的输出结果大于设定的安全阈值时，则被判定为危险行为，否则，被判定为安全行为。

本申请实施例中，首先，通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，模板图像是针对工作人员在工程实施前拍摄的图像，待搜索图像是针对工作人员的实时监控视频中的每一帧图像；其次，通过目标追踪模块，基于融合特征信息，确定待搜索图像中工作人员的感兴趣区域；最后，通过行为安全性分类模块，基于工作人员的感兴趣区域，确定工作人员的行为是否包括危险行为。从上面可以看出，由于视频中的目标追踪对实时性的要求很高，所以在本申请实施例的目标追踪模块采用Yolov4算法，相比于Faster RCNN算法，Yolov4算法在实时目标检测算法中精度最高，能够实现了精度和速度的最佳平衡。

下面将参考图2至图7对本申请实施例提供一种行为检测方法进行详细说明。

基于步骤S101至步骤S103提供一种行为检测方法。为便于理解本申请的实施例，下面以一个具体的场景为例，结合图2介绍本申请实施例提供的一种行为检测方法的实现整体流程。

该整体实现流程包括实施前和实施中两部分，在实施前主要对安全用具佩戴是否合规做出判定，而在实施过程中主要对工作人员实时跟踪，并对工作人员的行为动作是否安全做出判定。如图2所示，该实现整体流程可以包括如下两个方面：

a)实施前，通过个人安全用具佩戴合理性检测模型201，对模板图像提取特征并输出结果；将输出结果与设定阈值的检测框进行比较，如果输出结果大于设定阈值的检测框，则判定为个人安全用具穿戴合规，可进行后续工作，否则，发出提醒且不能进行后续工作；其中，设定阈值的检测框可以包括：安全帽、安全衣、安全鞋，眼戴护目镜、佩戴防静电手环等安全用具。

b)实施中，首先通过工作人员目标跟踪模型202中的改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，模板图像是针对工作人员在工程实施前拍摄的图像，待搜索图像是针对工作人员的实时监控视频中的一帧图像；通过目标追踪模块，基于融合特征信息，确定待搜索图像中工作人员的感兴趣区域；通过行为安全性分类模块203，基于工作人员的感兴趣区域，确定工作人员的行为是否包括危险行为。

参考图3，改进的特征提取融合模块可以包括：共享卷积层301、抗混叠池化模块302、特征通道选择增强模块303和注意力模块304；通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息，可以通过步骤S201至步骤S204实现，其中：

步骤S201，通过共享卷积层分别对模板图像和待搜索图像进行特征提取，得到模板图像的全局特征图和待搜索图像的全局特征图；

这里，模板图像是在工程实施前，通过移动终端设备拍摄一张穿戴完个人防护用具的工作人员的图像；待搜索图像是工程实施中，通过固定设备上的摄像头拍摄工作人员实施过程中的每一帧视频图像。

步骤S202，通过抗混叠池化模块对目标图像的全局特征图进行下采样，得到目标图像下采样的特征图；

这里，目标图像可以包括：模板图像或者待搜索图像，即，通过抗混叠池化模块对模板图像执行的处理操作与对待搜索图像执行的处理操作相同，抗混叠池化模块可以改善因拍摄等原因造成图像目标偏移对网络输出的影响。

步骤S203，通过特征通道选择增强模块对目标图像下采样的特征图进行重新标定，得到目标图像的特征信息；

这里，特征通道选择增强模块可以解决目标图像中工作人员与背景的占比差距较大，检测难度较高等问题。特征通道选择增强的目的是为了给特征图不同通道的特征标定不同的权重，也就是提高网络对有用信息(也就是工作人员目标)的关注度。

步骤S204，通过注意力模块对模板图像的特征信息和待搜索图像的特征信息进行融合，得到融合特征信息；其中，融合特征信息包含了模板图像中的有用信息。

这里，融合特征信息能更有利于判别目标定位工作人员，提高后续目标追踪的准确性。

参考图4，通过抗混叠池化模块302对目标图像的全局特征图进行下采样，得到目标图像下采样的特征图，可以通过步骤S211和步骤S212实现，其中：

步骤S211，对目标图像的全局特征图进行像素最大值选择，得到目标图像像素最大值的特征图；

步骤S212，对目标图像最大值的特征图进行下采样，得到目标图像下采样的特征图。

这里，在对待搜索图像进行特征提取的过程中，由于工作人员在实施工程时要进行移动，而且待搜索图像和模板图像也都会因为拍摄方式等原因出现偏移，这些图像中目标的偏移会加重影响网络的输出，原因在于卷积神经网络在下采样的过程中不满足采样定理，忽略了信号混叠的情况，所以即使是很小的位移也会彻底改变网络的输出。

由于最大池化操作不具有抗锯齿能力，所以极小的输入变化对网络输出会产生极大的影响。为了减少目标偏移的影响，采用改进的最大池化操作(参考图4b)；其中，改进的最大池化操作就是在最大池化操作(参考图4a)的密集最大值选择和下采样两步中间引入一个低通滤波器；其中，低通滤波器是为了消除高频信号造成的不满足采样定理的情况。

继续参考图3，通过特征通道选择增强模块303对目标图像下采样的特征图进行重新标定，得到目标图像的特征信息，可以通过步骤S221至步骤S224实现，其中：

步骤S221，依次通过两个卷积层和一个第一全局池化层分别对目标图像下采样的特征图进行卷积和池化处理；

步骤S222，通过第一个全连接层将卷积和池化处理后的特征进行维度降低；

步骤S223，依次通过第一个激活层和第二个全连接层将维度降低后的特征恢复到原来的维度，得到目标图像的特征向量；

步骤S224，将目标图像的特征向量与目标图像通过两个卷积层后的特征相乘，并和下采样后的特征图进行叠加，得到目标图像的特征信息。

由于追踪的工作人员目标在整张图像中占比较小，所以特征通道选择增强模块是用于解决分割问题中前景(工作人员)与背景不平衡的问题。特征通道选择增强模块的结构如图3虚线框所示，该结构由两个卷积层、一个全局池化层和两个全连接层组成，共包含两条支路，第一个支路采用的是残差结构的直接连接，第二个支路用于在两次卷积之后对下采样的特征图进行重新标定。

依次通过两个卷积层对目标图像下采样的特征图进行卷积处理，可以增大特征图的感受野并且通过非线性激活层增加特征图的非线性特征，两次卷积处理后就开始对这个特征图进行特征重新标定。假设目标图像下采样的特征图的大小为c×w×h，经过全局池化层后，每个二维的目标图像下采样的特征图都变成了一个实数，而这个实数从某种程度上说具有全局感受野，所以目标图像下采样的特征图就变成了c×1×1，实现了特征图通道维度上响应的全局分布，同时可以使之后的全连接层获得全局感受野。其次，先通过第一个全连接层将卷积和池化处理后的特征维度降低到(c/8)×1×1，再经过第一个Sigmoid函数的激活层后通过第二个全连接层将维度降低后的特征恢复到原来的维度，得到目标图像的特征向量。其中，这里使用两个全连接层相比一个全连接层，可以增加更多的非线性特征，从而拟合通道间复杂的相关性，可以极大地减少连接数，提高计算速度。然后，将目标图像的特征向量与目标图像通过两个卷积层后的特征相乘，并对两个支路的特征图进行叠加，得到目标图像的特征信息。这样处理可以使网络一直处于最优状态，从而网络的性能也不会随深度的增加而降低。

继续参考图3，改进的特征提取融合模块依次包括：共享卷积层301、初始抗混叠池化模块302、特征通道选择增强模块303和三层重复处理模块，其中，每一层重复处理模块包括：抗混叠池化模块、特征通道选择增强模块和注意力模块；改进的特征提取融合模块还包括多尺度融合模块305；

通过多尺度融合模块对分辨率缩小的特征图依次进行卷积层、反卷积层和卷积层操作后，得到分辨率放大后的特征图；其中，分辨率缩小的特征图是通过第三层重复处理模块中的抗混叠池化模块和特征通道选择增强模块后得到的特征图；

分辨率放大后的特征图分别与第一层、第二层处理模块的特征图进行叠加，得到不同分辨率的特征图；对分辨率放大后的特征图进行两次多尺度融合后的结果输入到初始抗混叠池化模块。

需要说明的是，在对目标图像的特征提取过程中，如果使用相同大小的感受野则非常容易在网络加深后卷积神经网络模型丢失对目标感兴趣区域前景信息的关注度，所以在主干特征提取网络下方添加一个逐级还原特征图尺度的多尺度模块，从而实现多尺度融合。

多尺度融合模块由卷积层-反卷积层-卷积层进行连接，可以在还原原始特征图的同时增加非线性特性。每个分辨率的特征图经过多尺度融合模块后分辨率放大两倍，再与特征提取主干上对应分辨率的特征图叠加，就得到融合了不同分辨率的特征。通过这样的连接，每一层的特征图都融合了不同分辨率、包含高维语义信息与低维纹理信息等的特征，从而实现融合不同分辨率的特征，使得网络可以平衡对不同分辨率大小的关注度。

参考图5，行为安全性分类模块包括：残差网络501、改进的全局上下文模块502、第二全局池化层503、全连接层504和归一化层505；通过行为安全性分类模块，基于工作人员的感兴趣区域，确定工作人员的行为是否包括危险行为，可以通过步骤S301至步骤S303实现，其中：

步骤S301，通过残差网络对工作人员的感兴趣区域进行语义特征提取处理，得到输入特征图；

步骤S302，通过改进的全局上下文模块对输入特征图进行全局信息提取处理，得到输出特征图；

步骤S303，依次通过第二全局池化层对输出特征图进行池化处理、拼接和归一化处理，得到工作人员的行为是否包括危险行为的置信度。

由于视频中的目标追踪对实时性的要求很高，所以目标追踪模块可以采用Yolov4算法，该算法在实时目标检测算法中精度最高，实现了精度和速度的最佳平衡。通过目标追踪模块，基于改进的特征融合模块得到的融合特征信息，采用Yolov4算法能够更加精确的回归出每帧图像上工作人员所在区域，然后将每帧图像的感兴趣区域输入行为安全性分类模块做二分类，当行为安全性分类模块的输出结果大于设定的安全阈值时，则被判定为危险行为，此时就可以提醒工作人员，提高工程实施过程中的安全性。

参考图6，通过改进的全局上下文模块对输入特征图进行全局信息提取处理，得到输出特征图，可以通过步骤S401至步骤S405实现，其中：

步骤S401，通过通道注意力模块对输入特征图进行特征压缩处理；

这里，输入特征图的维度为C×H×W。

步骤S402，依次通过第一卷积操作和归一化操作对压缩后的输入特征图进行转置和归一化处理；

这里，输入特征经过转置和归一化处理后的维度为HW×1。

步骤S403，将输入特征图与归一化后得到的特征相乘，并通过第二卷积操作将特征维度进行降低；

这里，输入特征图与归一化后得到的特征相乘得到的特征维度为C×1×1，再通过第二卷积操作将特征维度降低到(C/r)×1×1。

步骤S404，依次通过一个激活层和第三卷积操作将维度降低后的特征恢复到原来的维度；

这里，依次通过一个激活层和第三卷积操作将维度降低后的特征恢复到原来的维度C×1×1。

步骤S405，将输入特征图与第三卷积操作将维度降低后的特征叠加，得到输出特征图。

这里，将输入特征图与第三卷积操作将维度降低后的特征叠加，得到输出特征图的维度为C×H×W。

由于，对于不同的查询位置，非局部模块模拟的全局上下文信息几乎是一样的，因此，在巨大注意力图中存在大量冗余信息。这里，采用改进的全局上下文模块就是为了简化注意力图的生成方式，直接用卷积生成与查询位置无关的全局注意力图，并对所有位置共享，从而简化的非局部模块在保持精度的同时降低了计算复杂度。

改进的全局上下文模块可以获得更加全局的信息，也就是得到的输出特征图参考了所有位置的特征，相比之下，输入特征图只计算卷积核覆盖的局部区域，也就是只考虑了感受野范围一小块图像像素的关联，少了对全局特征的把握。

参考图7，通过通道注意力模块对输入特征图进行压缩处理，得到输出特征，可以通过步骤S501至步骤S503实现，其中：

步骤S501，输入特征图与输入特征图转置后特征图相乘后，通过归一化处理，得到通道注意力图；

步骤S502，将通道注意力图与输入特征图相乘，得到强化特征表示后的特征图；

步骤S503，将强化特征表示后的特征图乘上系数，并和输入特征图叠加，得到输出特征。

在改进的全局上下文模块的第一个卷积前引入通道注意力模块，可以使全局注意力图获取更多的全局信息。通道注意力模块类似于自注意力机制来捕获任意两个通道的特征图之间的通道依赖关系，并使用所有通道的加权和来更新每个通道的值，所以强化后的特征图和输入相比，不同通道的权重重新标定，增强了相互依赖的特征通道，改进了特征语义的特征表达。

通道注意力模块的操作可以由以下公式(1)表示：

该公式表示第i个通道对第j个通道的影响，用于下面的输出特征的公式(2)。

其中，CA_ji表示第i个通道对第j个通道的影响，In和Out分别表示输入特征和输出特征，C为通道数。γ是一个在网络学习过程中会学习的参数，初始值为0。

在深层的卷积神经网络中，每个特征通道都被认为是特定类的响应，这些响应相互关联。通道注意力模块利用所有相关位置的空间信息构建特征通道相关性，能够优化特定语义的特征表示。这里将通道注意力模块置于全局上下文模块的第一个卷积操作前，并且用一个网络可学习的参数对通道权重进行加权，从而改进了全局上下文模块。

中国5G发展目前已经进入了全面加速阶段，也因此5G基站建设不断提速。勘察、验收工作的安全可谓重中之重，特别是该工作常涉及高空作业，并且通常只安排一名工程师进行，工程师的个人安全措施只能依靠自检，工作过程中的危险行为也无人提醒，为了杜绝安全隐患，加强工作过程中的安全性监督尤为重要。随着现代图像采集技术和数字视频技术的发展日趋完善，可以通过视频监控获取工作现场的信息，包括个人安全防护措施是否合规，或者捕获视频中否存在危险操作等信息，通过准确、实时的检测可以及时发现危险行并发出警告，极大提高勘察、验收环节现场工作人员的安全性。

近年来，基于深度学习的目标检测、目标跟踪算法的研究炙手可热，成熟的算法不仅能解放大量的人力、物力资源，更有着精确度、处理速度上的优势。虽然现有的算法较为成熟，但是由针对视频序列中运动目标检测的鲁棒性、准确性和实时性还有待提高。现有技术主要存在以下缺陷：相关技术1中只涉及到在实施过程中进行检测安全设备，缺少工程实施前安全检测流程。相关技术2中只涉及到安全帽、安全带的佩戴情况检测，缺少其他安全设备的佩戴情况。

综上所述，本申请实施例提供一种5G基站实施前及过程中的人员安全性检测和实时监督，通过改进的目标检测和分类网络实现，在保证算法实时性的前提下，提高模型检测的准确性和泛化性，使其能够适用于复杂多变的运用场景。

随着国家信息化战略的深入，全国各地城市网络建设不断推进，第五代通信技术(5G，5^th Generation)基站建设也加快了步伐，截止去年，我国5G基站就已经累计超40万个，为实现5G独立组网的商业应用更近一步。在加速5G网络建设的同时，建设过程中的安全保障尤为重要，由于5G基站勘察、验收等工作通常只由一名工程师进行，且高空作业危险系数极高。本申请实施例的目的在于提供一种基于深度学习的5G基站勘察验收人员安全性实时检测方法，以解决现有技术中的缺失和不足，从而保障工程师作业时的安全性。

为了解决上述问题，本申请实施例采用基于深度学习的方式实现对工作人员在勘察、验收5G基站时的安全性进行实时监督，设计了一整套流程对实施前及实施过程中合规性进行判定，获得判定结果后可及时对工作人员的危险行为发出告警和提醒，从而提高工程实施的安全性。根据实际应用场景的需求，在实施前对安全设备佩戴规范检测的准确性更为重要，而在实施过程中，需要对工作人员实时跟踪，并对安全用具佩戴是否合规、行为动作是否安全做出判定，对实时性的要求很高，所以本申请实施例针对实施前及实施过程中采取了不同的方法，从而能够更好的保障施工人员的安全。

参考图2，整体方法根据实施流程主要包括实施前和实施中两部分：

1.工程实施前，通过移动终端设备拍摄一张穿戴完个人防护用具的工作人员的照片并上传，拍摄图像通过个人安全用具佩戴合规性检测模型进行合规性判定，包括是否穿戴安全帽、安全衣、安全鞋，眼戴护目镜，佩戴防静电手环，并且穿戴正确，如果个人安全用具佩戴合规性检测模型的输出结果大于设定阈值的检测框包含以上所有的安全用具，则判定为个人安全用具穿戴合规，方可进行后续工作；否则，将输出穿戴不合规信息并对工作人员进行提醒。

2.工程实施中，通过摄像头拍摄工作人员实施过程，为了更好地实现对工作人员的目标跟踪，本申请实施例提出了改进的特征提取融合模块，基于Transformer注意力模块将提取的施工前拍摄的图像特征嵌入到待搜索的视频逐帧图像特征中去，并采用抗混叠池化模块、特征通道选择增强模块和多尺度模块在特征提取阶段进行改进。实施过程中的安全监测流程为先通过改进的特征提取融合模块提取特征并通过目标追踪模块确定工作人员的感兴趣区域，然后将感兴趣区域输入行为安全性分类模块进行安全行为和危险行为的分类，个人防护用具穿戴不合规、超出工作区工作、高空作业工具靠近边缘等被列入危险行为，当行为安全性分类模块的输出结果大于设定的安全阈值时则判定为危险行为，后将发出告警从而对有违规行为的工作人员进行提示。

接下来将对两部分设计的目标检测、追踪分类模块进行详细介绍。

第一部分：个人安全用具佩戴合规性检测：

针对工程实施前的个人安全用具佩戴合规性检测任务，相比于实施过程的安全检测来说，实施前的安全检测对结果的准确性要求更高，而对实时性的要求较低，考虑到这一点，本申请实施例基于Faster R-CNN算法实现，并在特征提取阶段进行改进，具体的改进方法可见特征提取融合模块中的特征提取支路，网络的输入部分通过增强(这里选用灰度拉伸)进行预处理。Faster R-CNN算法的整体流程包括：首先，使用共享卷积层为全图进行特征提取，得到全局特征图；其次，将提取的特征送入区域建议RPN网络，RPN生成待检测框，指定感兴趣区域的位置，并对感兴趣区域的包围框进行第一次修正；然后，感兴趣区域池化层根据RPN的输出，在特征图上面选取每个感兴趣区域对应的特征，并将维度置为定值；最后，使用全连接层对检测框进行分类，并且进行目标包围框的第二次修正。

Faster R-CNN算法引入的RPN网络，相比R-CNN系列中的其他算法，能够更快的进行区域候选。RPN网络也是一种卷积神经网络，之所以能够提升训练速度是因为该网络与它后面的检测网络进行了参数共享。该算法使用RPN网络更快、更好的进行候选区域的选取，然后根据提议的多个候选框，分别对目标进行分类和识别。

RPN网络结构如下图所示，对于通过共享卷积层提取的全局特征图上的每一个锚点(anchor point)，都生成具有不同尺度和宽高比的锚点框(anchor boxes)，这里的锚点框是事先设定好的，k为9，也就是共有9种矩形框，长度为128、256和512，长宽比为2:1、1:1、1:2。将这些锚点框经过滑动窗口(sliding window)处理(3x3的卷积)得到256维特征，然后分别输入到两个网络层(全连接层)中去，分别得到分类结果即锚点框的特征是否属于前景，以及坐标位置，由于得到的这些感兴趣区域具有不同的长度和尺度，因此还要通过感兴趣区域池化层获得统一的大小。使用共享卷积层提取的全图特征除了用于RPN网络生成待检测框之外，还会和后续的分类回归模块共享参数，因此Faster R-CNN在训练的速度得到了提升。

第二部分：勘察验收行为安全性实时监督：

为了实时监督工作人员在勘察、验收5G基站时的行为规范，保障工程实施的安全性，本申请实施例提出了一种改进的目标追踪模块，能够更加精准地回归出每帧图像上工作人员所在区域，然后将每帧图像的感兴趣区域输入行为安全性分类模块做二分类，当行为安全性分类模块的输出结果大于设定的安全阈值时，则被判定为危险行为，此时就可以提醒工作人员，提高工程实施过程中的安全性。

2.1，工作人员目标跟踪模块：

本申请实施例的目标追踪对实时性的要求很高，所以在本申请实施例中采用Yolov4算法，而不是采Faster RCNN方法，Yolov4算法在实时目标检测算法中精度最高，实现了精度和速度的最佳平衡，为了进一步提高目标追踪的准确性，本申请实施例提出了一种改进的特征提取融合模块用于更好地实现目标追踪的准确性。

参考图3，本申请实施例将针对工作人员在工程实施前拍摄的图像作为模板图像，同时将实时监控视频中每一帧的图像作为待搜索图像，将这两张图像送入改进的特征提取融合模块提取融合特征。为了将模板图像中的工作人员信息嵌入到待搜索图像中，本申请实施例采用Transformer的方式将模板特征的信息融入到待搜索特征中，该操作生成的融合特征能更有利于判别目标定位工作人员，提高后续目标追踪的准确性。除此之外，考虑到拍摄等原因造成图像目标偏移对网络输出的影响，本申请实施例在改进的特征提取融合模块中加入了抗混叠池化进行改善；又考虑到工作人员与背景的占比差距较大，检测难度较高，因此提出通过特征通道选择性增强和多尺度融合解决图像中目标与背景不平衡问题，进一步提高安全检测的准确性。下面将对改进部分做详细介绍。

2.1.1，Transformer注意力模块：按照本申请实施例中提出的工作人员勘察、验收5G基站时的安全性监督整体流程，需要在工程实施前拍摄一张图像对个人安全用具佩戴情况做合规性检测，该图像在后续工程实施过程的安全监测中还起到另一个关键的作用，就是将其作为模板图像。考虑到在对视频中的工作人员进行目标追踪时，存在视频拍摄角度、室外光线等各种因素干扰，将模板图像的特征和待搜索的视频图像特征融合后，可以大幅度提高目标定位的准确性，避免实际应用场景中很多不确定因素的干扰。

参考图3，本申请实施例利用Transformer注意力模块304将模板图像中工作人员的信息嵌入到待搜索图像中。Transformer在自然语言领域已经取得了很好的成就，目前也被广泛用于图像领域，关于Transformer的原理这里不做详细介绍。这里实现特征融合的具体的实现方式，以第一个Transformer模块为例，模板图像和待搜索图像分别会通过各自的分支提取特征，再通过各自分支上的特征选择增强模块后，特征图为维度H×W×C的张量，然后将特征图堆叠在一起形成大小为2×H×W×C的张量，将它放入到Transformer中进行信息融合，此时的输出已经考虑到模板图像中的有用信息，然后将融合后的特征分别送入两条特征提取主干，与多尺度融合后的特征图相加后作为下个阶段的输入。

2.1.2，抗混叠池化模块：在对视频中的帧图像进行特征提取的过程中，由于工作人员在实施工程时要进行移动，而且视频帧图像和实施前拍摄的图像也都会因为拍摄方式等原因出现偏移，这些图像中目标的偏移会加重影响网络的输出，原因在于卷积神经网络在下采样的过程中不满足采样定理，忽略了信号混叠的情况，所以即使是很小的位移也会彻底改变网络的输出。在信号处理中，解决该问题有两种方法，一是增大采样频率，在卷积神经网络的处理中将步长设为1，但步长为1已经是极限；另一种方式是在下采样之前采用低通滤波进行抗混叠处理。混叠是指当采样频率不满足采样定理时引起的信号锯齿效应，通过抗混叠滤波器消除这种现象，即先采用低通滤波，然后下采样，从而消除高频信号造成的不满足采样定理的情况。在卷积神经网络中，平均池化相当于在下采样之前进行盒式滤波器操作，可以减小高频影响，保持一定的平移不变性。通过研究发现最大池化在重大特征的提取上可以取得更好的效果，但是最大池化操作不具有抗锯齿能力，所以极小的输入变化对网络输出会产生极大的影响。为了减少目标偏移的影响，本申请实施例在改进的特征提取融合模块中使用抗混叠池化优化下采样操作。

参考图4(a)，最大池化操作可以看成两步：第一步为密集最大值选择，该操作利用步长为1的滑动窗口实现，具有平移不变性；第二步为下采样操作，由于采样频率相对较低，在采样过程中会保留高频部分，这破坏了平移不变性。为了使最大池化操作满足下采样定理，参考图4(b)，在密集最大值选择和下采样操作中间引入低通滤波器，使得平移不变性在下采样的时候可以最大限度地保留，该过程表示如式(3)所示：

式中，池化窗口为k×k、步长为s的最大池化层改进之后可以看作是池化窗口为k×k的密集最大值选择Max_k，加上核大小为m×m的低通滤波器Blur_m以及步长为s的下采样Subsampl_s组成，将后两步合并为核大小为m×m、步长为s的模糊低通滤波器Blurpool_m,s。

具体的参数和设置如下：将池化窗口为2×2、步长为2的最大池化层替换为抗混叠最大池化操作，具体的实现方式是首先经过一个池化窗口为2×2、步长为1的最大池化层，然后进行二维卷积，步长为2，卷积核设为将模糊低通滤波器通过这种方式集成到现有的卷积模块后，改进的最大池化操作在提取特征的过程中具有平移不变性，提高了后续目标追踪的准确性和鲁棒性。

2.1.3，特征通道选择增强模块：通常而言卷积操作是对特征维度上信息的聚合，特征图进行下一步操作时，不同通道的特征具有相同的权重，即网络对特征图的每一个维度具有相同的关注度。由于追踪的工作人员目标在整张图像中占比较小，随着网络的加深，显然是不合理的。故在改进的特征提取融合模块中加入特征通道选择增强模块，以解决分割问题中前景(工作人员)与背景不平衡的问题。

参考图3，特征通道选择增强模块303由两个卷积层、一个全局池化层与两个全连接层组成，共包含两条支路，第一个支路采用的是残差结构的直接连接，即“short cut”，第二个支路用于在卷积操作过程中对下采样的特征图进行重新标定。

目标图像下采样的特征图先依次送入两个卷积层，增大感受野并且通过非线性激活层增加特征图的非线性特征。两次卷积完后就开始对这个特征图进行特征重标定，假设目标图像下采样的特征图大小为c×w×h，经过全局池化层后，每个二维的特征图都变成了一个实数，而这个实数从某种程度上说具有全局感受野，这个特征图就变成了c×1×1，实现了特征图通道维度上响应的全局分布，同时可以使之后的全连接层获得全局感受野。其次是两个连续的全连接层，首先将特征维度降低到(c/8)×1×1，经过激活层后再通过一个全连接层升回到原来的维度，这里使用两个全连接层相比一个全连接层，可以增加更多的非线性特征，从而拟合通道间复杂的相关性，可以极大地减少连接数，提高计算速度。然后通过一个使用Sigmoid函数的激活层将权重归一化到[0，1]之间，从而得到对于目标图像下采样的特征图重标定的得分,这样一个结构可以看作类似于循环神经网络中门的机制，目标图像的特征向量可以量化出目标图像下采样的特征图特征通道间的相关性。然后将目标图像的特征向量乘回到两次卷积后的特征上来将重标定后的得分加权到每个通道的特征上。最后对两个支路的特征图进行叠加，这样网络就会一直处于最优状态，网络的性能也不会随深度的增加而降低。

2.1.4，多尺度融合模块：在特征提取过程中，如果使用相同大小的感受野则非常容易在网络加深后卷积神经网络模型丢失对目标感兴趣区域前景信息的关注度，所以在主干特征提取网络下方添加一个逐级还原特征图尺度的多尺度模块，从而实现多尺度融合。

传统的思路包括图像金字塔和特征分层，图像金字塔结构的计算量较大，特征分层则是直接让网络不同的层学习相同的信息，考虑到以上两点，本申请实施例中多尺度融合模块305由卷积层-反卷积层-卷积层进行连接，可以在还原原始特征图的同时增加非线性特性。每个分辨率的特征图经过多尺度融合模块后分辨率缩放两倍与特征提取主干上对应分辨率的特征图叠加。通过这样的连接，每一层的特征图都融合了不同分辨率、包含高维语义信息与低维纹理信息等的特征，从而实现融合不同分辨率的特征图使得网络可以平衡对不同分辨率大小的关注度。同时，由于此方法只是在原网络基础上加上了额外的跨层连接，在实际应用中几乎不增加额外的时间和计算量。

2.2，行为安全性分类模块：

通过目标跟踪模块回归出工作人员的感兴趣区域后，输入到改进的全局上下文模块，整体结构参考图5，工作人员的感兴趣区域经过残差网络得到的语义特征经过改进的全局上下文模块、全局池化层、全连接层和Softmax后会得到一个概率值，当概率值大于设定的阈值是将被判定为危险行为，否则被判定为安全行为。

对于不同的查询位置，非局部模块模拟的全局上下文信息几乎是一样，因此，在HW×HW的巨大注意力图中存在大量冗余信息，改进的全局上下文模块就是为了简化注意力图的生成方式，直接用1×1卷积生成与查询位置无关的全局注意力图，并对所有位置共享。简化的非局部模块在保持精度的同时降低了计算复杂度。

下面将详细介绍一下对全局上下文模块的改进。

参考图6，在改进的全局上下文模块的第一个卷积前引入通道注意力模块，其结构参考图7，从而使全局注意力图获取更多的全局信息，改方法借鉴了空间分组增强模块的思想。输入特征图与输入特征图转置后的特征图相乘，再经过Softmax操作得到C×C的通道注意力图。通道注意力图与输入特征图相乘，强化特征表示。强化的特征图乘上系数γ，再与原特征图相加，得到输出特征。

上述操作可由以下公式(1)表示：

从以上提供的实施例至少可以看出：

1)本申请实施例针对5G基站勘察、验收等环节，设计了一套工程实施前安全设备佩戴合规性检测及实施过程中对工作人员实时跟踪并进行行为安全监督的方法，通过准确、实时的检测可以及时发现危险并对违规工作人员发出告警，极大提高工作人员的安全性。

2)本申请实施例提出一个改进的两阶段勘察验收行为实时监督方法，第一阶段先追踪人员所在区域，提出了一种改进的特征提取融合模块用于目标跟踪模块，改进的特征提取融合模块包括：首先采用Transformer注意力模块将模板特征嵌入到待搜索特征中，有利于工作人员的定位；其次加入了抗混叠池化改善减少偏移对网络输出的影响；最后通过特征通道选择性增强和多尺度融合解决图像中目标与背景不平衡问题。通过以上几点在特征提取阶段的改进可以提高实时追踪的准确性和鲁棒性。第二阶段采用行为安全性分类模块(改进的分类网络)进行行为分类，通过在行为安全性分类模块加入改进的全局上下文模块提高了行为分类的准确性。

与相关技术相比，本申请实施例具有以下优点：

1)相关技术中只涉及到对工作人员的安全帽、安全带佩戴情况做检测。本申请实施例提出的个人安全用具佩戴合规性检测涉及是否穿戴安全帽、安全衣、安全鞋，眼戴护目镜，佩戴防静电手环，并且穿戴正确，由于5G基站勘察、验收场景包括但不限于高空作业场景，所以只对安全帽、安全带进行检测时不够的。

2)本申请实施例提出将安全检测分为实施前和实施过程，实施前只有当个人安全用具佩戴检测合规才可进行后续工作，从而可以对危险进行预防。

3)本申请实施例在改进的特征提取融合模块中采用Transformer注意力机制将模板图像特征融合到待搜索图像特征中，并采用特征通道选择增强模块、多尺度融合模块和抗混叠池化模块进行改进，从而解决了目标与背景不平衡及网络对输入变化敏感的问题，这样在不影响实时性的前提下，可以提高检测的准确性和鲁棒性。

4)相关技术中的行为的检测无法对视频中的施工人员进行目标跟踪，这样会导致若出现安全佩戴有问题的情况，只能对全体施工人员而不是对相应的施工人员做出提醒和告警。本申请实施例提出在目标追踪模块提出将实施前拍摄的图像作为模板图像和待检测图像的特征融合，更有利于目标定位，可以对相应工作人员进行危险提醒。

5)相关技术中只涉及在实施等过程中对人员安全设备做检测，缺少工程实施前的检测流程，在实施前及时发现个人防护不合规是非常关键的。本申请实施例将安全检测分为实施前和实施过程，实施前只有当个人安全用具佩戴检测合规才可进行后续工作，从而可以对危险进行预防。

基于前述的实施例，本申请实施例提供一种行为检测装置，该装置包括所包括的各模块，可以通过计算机设备中的处理器来实现；当然也可通过具体的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(Central Processing Unit，CPU)、微处理器(Microprocessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等。

图8为本申请实施例提供的一种行为检测装置的组成结构示意图，如图8所示，行为检测装置800包括：

改进的特征提取融合模块810，用于将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，所述模板图像是针对工作人员在工程实施前拍摄的图像，所述待搜索图像是针对所述工作人员的实时监控视频中的每一帧图像；

目标追踪模块820，用于基于所述融合特征信息，确定所述待搜索图像中所述工作人员的感兴趣区域；

行为安全性分类模块830，用于基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为。

在一些实施例中，所述改进的特征提取融合模块包括：共享卷积层、抗混叠池化模块、特征通道选择增强模块和注意力模块；

所述共享卷积层，用于分别对所述模板图像和所述待搜索图像进行特征提取，得到模板图像的全局特征图和待搜索图像的全局特征图；

所述抗混叠池化模块，用于对目标图像的全局特征图进行下采样，得到目标图像下采样的特征图；所述目标图像包括模板图像或待搜索图像；

所述特征通道选择增强模块，用于对所述目标图像下采样的特征图进行重新标定，得到目标图像的特征信息；

所述注意力模块，用于对模板图像的特征信息和待搜索图像的特征信息进行融合，得到所述融合特征信息；其中，所述融合特征信息包含了模板图像中的有用信息。

在一些实施例中，所述抗混叠池化模块，还用于对所述目标图像的全局特征图进行像素最大值选择，得到目标图像像素最大值的特征图；对目标图像最大值的特征图进行下采样，得到所述目标图像下采样的特征图。

在一些实施例中，所述特征通道选择增强模块，还用于：依次通过两个卷积层和一个第一全局池化层分别对所述目标图像下采样的特征图进行卷积和池化处理；通过第一个全连接层将卷积和池化处理后的特征进行维度降低；依次通过第一个激活层和第二个全连接层将维度降低后的特征恢复到原来的维度，得到所述目标图像的特征向量；将所述目标图像的特征向量与所述目标图像通过所述两个卷积层后的特征相乘，并和下采样后的特征图进行叠加，得到所述目标图像的特征信息。

在一些实施例中，所述改进的特征提取融合模块依次包括：共享卷积层、初始抗混叠池化模块、所述特征通道选择增强模块和三层重复处理模块，其中，每一层所述重复处理模块包括：抗混叠池化模块、所述特征通道选择增强模块和注意力模块；所述改进的特征提取融合模块还包括多尺度融合模块；

所述多尺度融合模块，用于对分辨率缩小的特征图依次进行卷积层、反卷积层和卷积层操作后，得到分辨率放大后的特征图；

其中，所述分辨率缩小的特征图是通过第三层重复处理模块中的所述抗混叠池化模块和所述特征通道选择增强模块后得到的特征图；

所述分辨率放大后的特征图分别与第一层、第二层处理模块的特征图进行叠加，得到不同分辨率的特征图；对所述分辨率放大后的特征图进行两次多尺度融合后的结果输入到初始抗混叠池化模块。

在一些实施例中，所述行为安全性分类模块包括：残差网络、改进的全局上下文模块、第二全局池化层、全连接层和归一化层；

残差网络，用于对所述工作人员的感兴趣区域进行语义特征提取处理，得到输入特征图；

改进的全局上下文模块，用于对所述输入特征图进行全局信息提取处理，得到输出特征图；

所述第二全局池化层，用于依次对所述输出特征图进行池化处理、拼接和归一化处理，得到所述工作人员的行为是否包括危险行为的置信度。

在一些实施例中，所述改进的全局上下文模块，还用于通过通道注意力模块对所述输入特征图进行特征压缩处理；依次通过第一卷积操作和归一化操作对压缩后的输入特征图进行转置和归一化处理；将所述输入特征图与所述归一化后得到的特征相乘，并通过第二卷积操作将特征维度进行降低；依次通过一个激活层和第三卷积操作将维度降低后的特征恢复到原来的维度；将所述输入特征图与所述第三卷积操作将维度降低后的特征叠加，得到所述输出特征图。

在一些实施例中，所述通道注意力模块，用于：将所述输入特征图与输入特征图转置后特征图相乘后，通过归一化处理，得到通道注意力图；将所述通道注意力图与所述输入特征图相乘，得到强化特征表示后的特征图；将所述强化特征表示后的特征图乘上系数，并和所述输入特征图叠加，得到所述输出特征。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的行为检测方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件、软件或固件，或者硬件、软件、固件三者之间的任意结合。

本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的，也可以是非瞬时性的。

本申请实施例提供一种计算机程序，包括计算机可读代码，在所述计算机可读代码在计算机设备中运行的情况下，所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。

本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一些实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里需要指出的是：上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，图9为本申请实施例中计算机设备的一种硬件实体示意图，如图9所示，该计算机设备900的硬件实体包括：处理器901、通信接口902和存储器903，其中：处理器901通常控制计算机设备900的总体操作。通信接口902可以使计算机设备通过网络与其他终端或服务器通信。

存储器903配置为存储由处理器901可执行的指令和应用，还可以缓存待处理器901以及计算机设备900中各模块待处理或已经处理的数据(例如，图像数据、音频数据、语音通信数据和视频通信数据)，可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory，RAM)实现。处理器901、通信接口902和存储器903之间可以通过总线904进行数据传输。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各步骤/过程的序号的大小并不意味着执行顺序的先后，各步骤/过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种行为检测方法，其特征在于，所述方法包括：

通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息；其中，所述模板图像是针对工作人员在工程实施前拍摄的图像，所述待搜索图像是针对所述工作人员的实时监控视频中的每一帧图像；

通过目标追踪模块，基于所述融合特征信息，确定所述待搜索图像中所述工作人员的感兴趣区域；

通过行为安全性分类模块，基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为。

2.根据权利要求1所述的方法，其特征在于，所述改进的特征提取融合模块包括：共享卷积层、抗混叠池化模块、特征通道选择增强模块和注意力模块；

通过改进的特征提取融合模块，将模板图像的特征信息嵌入到待搜索图像的特征信息中，得到融合特征信息，包括：

通过所述共享卷积层分别对所述模板图像和所述待搜索图像进行特征提取，得到模板图像的全局特征图和待搜索图像的全局特征图；

通过所述抗混叠池化模块对目标图像的全局特征图进行下采样，得到目标图像下采样的特征图；所述目标图像包括模板图像或待搜索图像；

通过所述特征通道选择增强模块对所述目标图像下采样的特征图进行重新标定，得到目标图像的特征信息；

通过所述注意力模块对模板图像的特征信息和待搜索图像的特征信息进行融合，得到所述融合特征信息；其中，所述融合特征信息包含了模板图像中的有用信息。

3.根据权利要求2所述的方法，其特征在于，通过所述抗混叠池化模块对所述目标图像的全局特征图进行下采样，得到目标图像下采样的特征图，包括：

对所述目标图像的全局特征图进行像素最大值选择，得到目标图像像素最大值的特征图；

对目标图像最大值的特征图进行下采样，得到所述目标图像下采样的特征图。

4.根据权利要求2所述的方法，其特征在于，通过所述特征通道选择增强模块对所述目标图像下采样的特征图进行重新标定，得到目标图像的特征信息，包括：

依次通过两个卷积层和一个第一全局池化层分别对所述目标图像下采样的特征图进行卷积和池化处理；

通过第一个全连接层将卷积和池化处理后的特征进行维度降低；

依次通过第一个激活层和第二个全连接层将维度降低后的特征恢复到原来的维度，得到所述目标图像的特征向量；

将所述目标图像的特征向量与所述目标图像通过所述两个卷积层后的特征相乘，并和下采样后的特征图进行叠加，得到所述目标图像的特征信息。

5.根据权利要求2所述的方法，其特征在于，所述改进的特征提取融合模块依次包括：共享卷积层、初始抗混叠池化模块、所述特征通道选择增强模块和三层重复处理模块，其中，每一层所述重复处理模块包括：抗混叠池化模块、所述特征通道选择增强模块和注意力模块；所述改进的特征提取融合模块还包括多尺度融合模块；

通过所述多尺度融合模块对分辨率缩小的特征图依次进行卷积层、反卷积层和卷积层操作后，得到分辨率放大后的特征图；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述行为安全性分类模块包括：残差网络、改进的全局上下文模块、第二全局池化层、全连接层和归一化层；

通过行为安全性分类模块，基于所述工作人员的感兴趣区域，确定所述工作人员的行为是否包括危险行为，包括：

通过残差网络对所述工作人员的感兴趣区域进行语义特征提取处理，得到输入特征图；

通过改进的全局上下文模块对所述输入特征图进行全局信息提取处理，得到输出特征图；

依次通过所述第二全局池化层对所述输出特征图进行池化处理、拼接和归一化处理，得到所述工作人员的行为是否包括危险行为的置信度。

7.根据权利要求6所述的方法，其特征在于，通过改进的全局上下文模块对所述输入特征图进行全局信息提取处理，得到输出特征图，包括：

通过通道注意力模块对所述输入特征图进行特征压缩处理；

依次通过第一卷积操作和归一化操作对压缩后的输入特征图进行转置和归一化处理；

将所述输入特征图与所述归一化后得到的特征相乘，并通过第二卷积操作将特征维度进行降低；

依次通过一个激活层和第三卷积操作将维度降低后的特征恢复到原来的维度；

将所述输入特征图与所述第三卷积操作将维度降低后的特征叠加，得到所述输出特征图。

8.根据权利要求7所述的方法，其特征在于，通过通道注意力模块对所述输入特征图进行压缩处理，得到输出特征，包括：

将所述输入特征图与输入特征图转置后特征图相乘后，通过归一化处理，得到通道注意力图；

将所述通道注意力图与所述输入特征图相乘，得到强化特征表示后的特征图；

将所述强化特征表示后的特征图乘上系数，并和所述输入特征图叠加，得到所述输出特征。

9.一种行为检测装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述方法中的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述方法中的步骤。