CN113239822A

CN113239822A - 基于时空双流卷积神经网络的危险行为检测方法及系统

Info

Publication number: CN113239822A
Application number: CN202110542324.8A
Authority: CN
Inventors: 余锋; 刘智贤; 姜明华; 周昌龙
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2020-12-28
Filing date: 2021-05-18
Publication date: 2021-08-10

Abstract

本发明涉及基于时空双流卷积神经网络的危险行为检测方法，包括：拍摄检测场所的实时视频图像；利用目标检测网络检测视频的图像帧中是否存在目标物；将实时视频分割成多个等长时间的时序段图像；对时序段图像进行稀疏采样；从图像帧序列中提取帧间光流，利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合；将融合特征输入到分类器，得到目标物行为的分类结果，输出危险行为检测结果。本发明还公开了相应的检测系统。本发明在目标行为检测前对检测场所的实时视频图像进行筛选，减少了运算量；本发明提取时间和空间的特征信息，进行多尺度融合后对目标行为进行检测，提高了行为动作识别的准确率，降低了误判率。

Description

基于时空双流卷积神经网络的危险行为检测方法及系统

技术领域

本发明属于计算机视觉领域，具体涉及一种基于时空双流卷积神经网络的危险行为检测方法及系统。

背景技术

不少工作环境都具备一定的危险性，由于缺乏必要的监督，工作人员在长期的工作当中偶尔会放松警惕，没有规范着装穿戴，或者按照严格的操作步骤进行工作，由此会发生一些对人生安全产生威胁的情况。

近年来，随着深度学习和计算机视觉技术的飞速发展，图像领域取得了越来越多的进展，比如在目标识别领域已经能做到实时、快速、高效、准确的检测，因此带有时序的人体动作检测也得到了更多的关注，也出现了许多行为识别的检测方法。公开号为CN108520237A的中国专利“一种风险行为识别方法”是通过获取任意一视频帧中目标人员的身体形态，再根据任一视频帧中目标人员的身体形态和所述任一视频帧的前序视频帧中目标人员的身体形态，获取所述任一视频帧中目标人员的运动信息。这个方法对于是否取得的关键帧的依赖度十分高，没有利用好视频中足够的时间特征信息，所以在检测效果上肯定会有较大的波动，不够稳定。公布号为CN109002808B的中国专利“一种人体行为识别方法及系统”切割了人体行为属性和背景视频，利用3D卷积神经网络训练能够利用时序特征，但是需要的存储成本较大，而且没办法进行实时的检测。

发明内容

本发明的技术问题是现有的采用神经网络的动作识别方法复杂度高，计算量大，误报率高，并且大部分方法都无法做到实时的检测，无法满足对危险动作的实时预警。

本发明的目的是解决上述问题，提供一种基于时空双流卷积神经网络的危险行为检测方法及系统，利用目标检测网络判断实时视频图像中有目标物后，对实时视频进行稀疏采样，提取帧间光流，利用注意力增强模块增强关键帧的空间特征，分别将帧间光流和增强空间特征的特征图输入到时间特征网络、空间特征网络并进行融合，再将融合的特征图输入分类器，得到目标行为分类结果。

本发明的技术方案是基于时空双流卷积神经网络的危险行为检测方法，包括以下步骤：

步骤1：利用多个相机从不同视角拍摄检测场所的实时视频图像；

步骤2：利用目标检测网络检测视频的图像帧中是否存在目标物，若有目标物，则执行步骤3，否则执行步骤1；

步骤3：将实时视频分割成多个等长时间的时序段图像，每个时序段图像包含多个图像帧；

步骤4：对时序段图像进行稀疏采样，得到图像帧序列；

步骤5：从图像帧序列中提取帧间光流，输入到时间特征网络，并将图像帧序列输入到空间特征网络，利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合；

步骤6：将步骤5得到的融合特征输入到分类器，得到目标物行为的分类结果，判断不同时刻或不同视角的视频图像的检测结果的一致性，输出危险行为检测结果。

所述时空双流卷积神经网络包括时间特征网络、空间特征网络和特征融合模块。

进一步地，步骤5包括以下子步骤：

步骤5.1：从图像帧序列中提取帧间光流，输入到时空双流卷积神经网络的时间特征网络；

步骤5.2：选取关键帧，利用注意力增强模块计算关键帧的通道的权重值后，计算得到特征图的空间权重值，将权重值逐项与特征图的通道值相乘，突出特征图的空间特征；

步骤5.3：将步骤5.2得到的特征图输入到时空双流卷积神经网络的空间特征网络，利用时空双流卷积神经网络的特征融合模块对步骤5.1得到的帧间光流和步骤5.2得到的特征图进行融合。

优选地，所述注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，再依次输入两个全连接层和激活函数层，根据输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图。

进一步地，步骤5中，所述特征融合模块对帧间光流的时间特征和关键帧的空间特征进行叠加融合，经激活函数层处理后，进行多维特征展开操作，对特征信息进行多刻度的深度融合。

进一步地，步骤6中，所述判断不同时刻或不同视角的视频图像的检测结果的一致性，若f个以上时序段图像的检测结果相同，则判断此检测结果为有效，输出检测结果，其中f为检测阈值。

优选地，所述目标检测网络采用YOLOv4神经网络。

优选地，步骤1的相机的数量为3-6。

优选地，检测阈值f的取值范围为{2、3、4}。

上述危险行为检测方法的系统，包括目标检测网络模块、稀疏采样模块、注意力增强模块、时空双流卷积神经网络模块、分类判断模块。

目标检测网络模块，利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物。

稀疏采样模块，将实时视频分割成多个等长时间的时序段图像，对时序段图像进行稀疏采样，输出图像帧序列。

注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，再依次输入两个全连接层和激活函数层，根据输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图。

时空双流卷积神经网络模块，包括时间特征网络、空间特征网络和特征融合模块。

分类判断模块，利用分类器根据时空双流卷积神经网络输出的融合特征，得到目标物行为的分类结果，判断不同时刻或不同视角的视频图像的检测结果的一致性，输出危险行为检测结果。

相比现有技术，本发明的有益效果包括：

(1)本发明的危险动作识别方法进行了潜在危险图像的筛选，减少了系统的计算量，满足了实时检测的需要，提高了检测效率，降低了误报率；

(2)本发明充分利用了时间和空间的图像特征信息，充分体现了视频动作检测中对动作连续性的重视程度，将特征信息融合后交给分类器得到输出，使得行为动作识别神经网络模型的检测更加准确、可靠；

(3)本发明使用了时间和空间融合多尺度的特征融合模块，在时空提取特征的不同深度的特征层进行了信息的融合，提高了检测的准确率；

(4)本发明的动作识别方法采用了光流加上扭曲光流的混合时间特征输入，增强了对时间特征的重视，提高了动作识别的准确率；

(5)本发明采用了稀疏采样的方法，忽略掉了大部分无用冗余的帧，提高了系统的利用率，提高了检测的性能；

(6)本发明采用了时效性高的目标检测方法和双流卷积的网络，能够进行实时的监测；

(7)本发明采用了基于关键帧时空的注意力增强机制，因为动作的识别主要依靠关键的几帧图像，对关键空间或者时间的特征进行增强后对于提升模型的识别准确率十分有效；

(8)本发明采用了多相机系统，排除了部分手部等精细化动作因为身体遮挡的干扰；

(9)本发明多阈值的判断系统，采用了多个视角的多个高评分的分类结果进行筛选，并且f个时序段满足相同类别输出结果保证了分类的准确率。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1为本发明实施例的危险行为检测方法的流程示意图。

图2为本发明实施例中存在目标物的视频图像帧的示意图。

图3为本发明实施例的时空双流卷积神经网络进行特征融合的示意图。

图4为本发明实施例的危险行为检测系统的框图。

具体实施方式

基于时空双流卷积神经网络的危险行为检测方法，利用目标检测网络判断实时视频图像中有目标物后，对实时视频进行稀疏采样，提取帧间光流，利用注意力增强模块增强关键帧的空间特征，分别将帧间光流和增强空间特征的特征图输入到时间特征网络、空间特征网络并进行融合，再将融合的特征图输入分类器，得到目标行为分类结果。

实施例的注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，得到1*1*c的图像特征，c表示通道数量，再把图像特征依次输入两个全连接层和激活函数层，根据激活函数层的输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到两个h*w*1的特征图，其中h、w分别表示特征图的高、宽，即得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图。

实施例的目标物为人员，实施例中对人员的高空抛物的危险行为进行识别、检测。

如图1所示，基于时空双流卷积神经网络的危险行为检测方法包括以下步骤：

步骤1：利用a个广角相机拍摄检测场所的实时视频图像，a表示检测场所布设的相机的数量，实施例中a的取值为3；

步骤2：利用YOLOv4神经网络检测视频的图像帧中是否存在目标物，若有目标物，如图2所示，则执行步骤3，否则执行步骤1；

步骤3：将实时视频分割成k个等长时间的时序段图像，得到a*k个时序段图像，每个时序段图像包含多个图像帧，k表示分割得到的时序段的数量；

步骤4：对时序段图像进行稀疏采样，每个时序段图像选取n个图像帧，得到a*k个图像帧序列，n表示采样的图像帧的数量；

步骤5.1：从每个图像帧序列的n个图像帧中提取n-1个帧间光流，经过变换得到扭曲光流，输入到时空双流卷积神经网络的时间特征网络；

步骤5.2：从每个图像帧序列选取关键帧，利用注意力增强模块计算关键帧的RGB图像的通道的权重值后，计算得到特征图的空间权重值，将权重值逐项与特征图的通道值相乘，突出特征图的空间特征；

步骤5.3：将步骤5.2得到的特征图输入到时空双流卷积神经网络的空间特征网络，利用时空双流卷积神经网络的特征融合模块对步骤5.1得到的帧间光流和步骤5.2得到的特征图进行叠加融合，经激活函数层处理后，进行多维特征展开操作，对特征信息进行多尺度的深度融合，如图3所示；

步骤6：将步骤5得到的融合特征输入到分类器，得到目标物行为的分类结果，若f个以上时序段图像的检测结果相同，则判断此检测结果为有效，输出检测结果，其中f为检测阈值，实施例中f取值为2。

稀疏采样，是指采取视频中的部分关键图像帧，忽略其他样本图像帧，实施例中采样的图像帧的数量n取值为5，减少了冗余信息，提高了系统的效率。

实施例的YOLOv4神经网络参照A Bochkovskiy等2020年发表的会议文章“YOLOv4:Optimal Speed and Accuracy of Object Detection”公开的YOLOv4神经网络模型。

本发明也可采用Faster R-CNN、Detectron、SSD网络代替YOLOv4，作为目标检测网络。

时空双流卷积神经网络的特征融合模块采用FPN(Feature Pyramid Network)网络。

如图4所示，实施例的危险行为检测系统，包括：目标检测网络模块，利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物；稀疏采样模块，将实时视频分割成多个等长时间的时序段图像，对时序段图像进行稀疏采样，输出图像帧序列；注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，再依次输入两个全连接层和激活函数层，根据输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图；时空双流卷积神经网络模块，包括时间特征网络、空间特征网络和特征融合模块；分类判断模块，利用分类器根据时空双流卷积神经网络输出的融合特征，得到目标物行为的分类结果，判断不同时刻或不同视角的视频图像的检测结果的一致性，输出危险行为检测结果。

本发明的危险行为检测系统也用于电力行业的作业场所未佩戴安全帽、未使用验电棒验电等危险行为的检测；也可用于公共场所的打架斗殴、翻越围栏等危险行为的检测。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于时空双流卷积神经网络的危险行为检测方法，其特征在于，时空双流卷积神经网络包括时间特征网络、空间特征网络和特征融合模块，所述危险行为检测方法包括以下步骤：

步骤4：对时序段图像进行稀疏采样，得到图像帧序列；

2.根据权利要求1所述的危险行为检测方法，其特征在于，步骤5包括以下子步骤：

3.根据权利要求2所述的危险行为检测方法，其特征在于，所述注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，再依次输入两个全连接层和激活函数层，根据输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图。

4.根据权利要求3所述的危险行为检测方法，其特征在于，步骤5中，所述特征融合模块对帧间光流的时间特征和关键帧的空间特征进行叠加融合，经激活函数层处理后，进行多维特征展开操作，对特征信息进行多刻度的深度融合。

5.根据权利要求1所述的危险行为检测方法，其特征在于，步骤6中，所述判断不同时刻或不同视角的视频图像的检测结果的一致性，若f个以上时序段图像的检测结果相同，则判断此检测结果为有效，输出检测结果，其中f为检测阈值。

6.根据权利要求1所述的危险行为检测方法，其特征在于，所述目标检测网络采用YOLOv4神经网络。

7.根据权利要求1所述的危险行为检测方法，其特征在于，步骤1的相机的数量为3-6。

8.根据权利要求1所述的危险行为检测方法，其特征在于，检测阈值f的取值范围为{2、3、4}。

9.一种危险行为检测系统，其特征在于，包括：

目标检测网络模块，利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物；

稀疏采样模块，将实时视频分割成多个等长时间的时序段图像，对时序段图像进行稀疏采样，输出图像帧序列；

注意力增强模块，包括通道增强单元和空间特征增强单元，通道增强单元对输入的特征图进行全局最大池化、平均池化操作，再依次输入两个全连接层和激活函数层，根据输出得到各个通道的权重值，将各个通道的权重值逐项与特征图的通道值相乘，完成通道维度上的原始特征重标定；空间特征增强单元，对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作，得到空间权重值，将空间权重值与特征图相乘，得到双重注意力调整的特征图；

时空双流卷积神经网络模块，包括时间特征网络、空间特征网络和特征融合模块；