CN113239822A - 基于时空双流卷积神经网络的危险行为检测方法及系统 - Google Patents
基于时空双流卷积神经网络的危险行为检测方法及系统 Download PDFInfo
- Publication number
- CN113239822A CN113239822A CN202110542324.8A CN202110542324A CN113239822A CN 113239822 A CN113239822 A CN 113239822A CN 202110542324 A CN202110542324 A CN 202110542324A CN 113239822 A CN113239822 A CN 113239822A
- Authority
- CN
- China
- Prior art keywords
- time
- space
- channel
- feature
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 77
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000006399 behavior Effects 0.000 claims description 39
- 238000011176 pooling Methods 0.000 claims description 24
- 230000003287 optical effect Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 2
- 231100001261 hazardous Toxicity 0.000 claims 4
- 230000009471 action Effects 0.000 abstract description 6
- 238000004364 calculation method Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000037237 body shape Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011897 real-time detection Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000135164 Timea Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于时空双流卷积神经网络的危险行为检测方法,包括:拍摄检测场所的实时视频图像;利用目标检测网络检测视频的图像帧中是否存在目标物;将实时视频分割成多个等长时间的时序段图像;对时序段图像进行稀疏采样;从图像帧序列中提取帧间光流,利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合;将融合特征输入到分类器,得到目标物行为的分类结果,输出危险行为检测结果。本发明还公开了相应的检测系统。本发明在目标行为检测前对检测场所的实时视频图像进行筛选,减少了运算量;本发明提取时间和空间的特征信息,进行多尺度融合后对目标行为进行检测,提高了行为动作识别的准确率,降低了误判率。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于时空双流卷积神经网络的危险行为检测方法及系统。
背景技术
不少工作环境都具备一定的危险性,由于缺乏必要的监督,工作人员在长期的工作当中偶尔会放松警惕,没有规范着装穿戴,或者按照严格的操作步骤进行工作,由此会发生一些对人生安全产生威胁的情况。
近年来,随着深度学习和计算机视觉技术的飞速发展,图像领域取得了越来越多的进展,比如在目标识别领域已经能做到实时、快速、高效、准确的检测,因此带有时序的人体动作检测也得到了更多的关注,也出现了许多行为识别的检测方法。公开号为CN108520237A的中国专利“一种风险行为识别方法”是通过获取任意一视频帧中目标人员的身体形态,再根据任一视频帧中目标人员的身体形态和所述任一视频帧的前序视频帧中目标人员的身体形态,获取所述任一视频帧中目标人员的运动信息。这个方法对于是否取得的关键帧的依赖度十分高,没有利用好视频中足够的时间特征信息,所以在检测效果上肯定会有较大的波动,不够稳定。公布号为CN109002808B的中国专利“一种人体行为识别方法及系统”切割了人体行为属性和背景视频,利用3D卷积神经网络训练能够利用时序特征,但是需要的存储成本较大,而且没办法进行实时的检测。
发明内容
本发明的技术问题是现有的采用神经网络的动作识别方法复杂度高,计算量大,误报率高,并且大部分方法都无法做到实时的检测,无法满足对危险动作的实时预警。
本发明的目的是解决上述问题,提供一种基于时空双流卷积神经网络的危险行为检测方法及系统,利用目标检测网络判断实时视频图像中有目标物后,对实时视频进行稀疏采样,提取帧间光流,利用注意力增强模块增强关键帧的空间特征,分别将帧间光流和增强空间特征的特征图输入到时间特征网络、空间特征网络并进行融合,再将融合的特征图输入分类器,得到目标行为分类结果。
本发明的技术方案是基于时空双流卷积神经网络的危险行为检测方法,包括以下步骤:
步骤1:利用多个相机从不同视角拍摄检测场所的实时视频图像;
步骤2:利用目标检测网络检测视频的图像帧中是否存在目标物,若有目标物,则执行步骤3,否则执行步骤1;
步骤3:将实时视频分割成多个等长时间的时序段图像,每个时序段图像包含多个图像帧;
步骤4:对时序段图像进行稀疏采样,得到图像帧序列;
步骤5:从图像帧序列中提取帧间光流,输入到时间特征网络,并将图像帧序列输入到空间特征网络,利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合;
步骤6:将步骤5得到的融合特征输入到分类器,得到目标物行为的分类结果,判断不同时刻或不同视角的视频图像的检测结果的一致性,输出危险行为检测结果。
所述时空双流卷积神经网络包括时间特征网络、空间特征网络和特征融合模块。
进一步地,步骤5包括以下子步骤:
步骤5.1:从图像帧序列中提取帧间光流,输入到时空双流卷积神经网络的时间特征网络;
步骤5.2:选取关键帧,利用注意力增强模块计算关键帧的通道的权重值后,计算得到特征图的空间权重值,将权重值逐项与特征图的通道值相乘,突出特征图的空间特征;
步骤5.3:将步骤5.2得到的特征图输入到时空双流卷积神经网络的空间特征网络,利用时空双流卷积神经网络的特征融合模块对步骤5.1得到的帧间光流和步骤5.2得到的特征图进行融合。
优选地,所述注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,再依次输入两个全连接层和激活函数层,根据输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图。
进一步地,步骤5中,所述特征融合模块对帧间光流的时间特征和关键帧的空间特征进行叠加融合,经激活函数层处理后,进行多维特征展开操作,对特征信息进行多刻度的深度融合。
进一步地,步骤6中,所述判断不同时刻或不同视角的视频图像的检测结果的一致性,若f个以上时序段图像的检测结果相同,则判断此检测结果为有效,输出检测结果,其中f为检测阈值。
优选地,所述目标检测网络采用YOLOv4神经网络。
优选地,步骤1的相机的数量为3-6。
优选地,检测阈值f的取值范围为{2、3、4}。
上述危险行为检测方法的系统,包括目标检测网络模块、稀疏采样模块、注意力增强模块、时空双流卷积神经网络模块、分类判断模块。
目标检测网络模块,利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物。
稀疏采样模块,将实时视频分割成多个等长时间的时序段图像,对时序段图像进行稀疏采样,输出图像帧序列。
注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,再依次输入两个全连接层和激活函数层,根据输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图。
时空双流卷积神经网络模块,包括时间特征网络、空间特征网络和特征融合模块。
分类判断模块,利用分类器根据时空双流卷积神经网络输出的融合特征,得到目标物行为的分类结果,判断不同时刻或不同视角的视频图像的检测结果的一致性,输出危险行为检测结果。
相比现有技术,本发明的有益效果包括:
(1)本发明的危险动作识别方法进行了潜在危险图像的筛选,减少了系统的计算量,满足了实时检测的需要,提高了检测效率,降低了误报率;
(2)本发明充分利用了时间和空间的图像特征信息,充分体现了视频动作检测中对动作连续性的重视程度,将特征信息融合后交给分类器得到输出,使得行为动作识别神经网络模型的检测更加准确、可靠;
(3)本发明使用了时间和空间融合多尺度的特征融合模块,在时空提取特征的不同深度的特征层进行了信息的融合,提高了检测的准确率;
(4)本发明的动作识别方法采用了光流加上扭曲光流的混合时间特征输入,增强了对时间特征的重视,提高了动作识别的准确率;
(5)本发明采用了稀疏采样的方法,忽略掉了大部分无用冗余的帧,提高了系统的利用率,提高了检测的性能;
(6)本发明采用了时效性高的目标检测方法和双流卷积的网络,能够进行实时的监测;
(7)本发明采用了基于关键帧时空的注意力增强机制,因为动作的识别主要依靠关键的几帧图像,对关键空间或者时间的特征进行增强后对于提升模型的识别准确率十分有效;
(8)本发明采用了多相机系统,排除了部分手部等精细化动作因为身体遮挡的干扰;
(9)本发明多阈值的判断系统,采用了多个视角的多个高评分的分类结果进行筛选,并且f个时序段满足相同类别输出结果保证了分类的准确率。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例的危险行为检测方法的流程示意图。
图2为本发明实施例中存在目标物的视频图像帧的示意图。
图3为本发明实施例的时空双流卷积神经网络进行特征融合的示意图。
图4为本发明实施例的危险行为检测系统的框图。
具体实施方式
基于时空双流卷积神经网络的危险行为检测方法,利用目标检测网络判断实时视频图像中有目标物后,对实时视频进行稀疏采样,提取帧间光流,利用注意力增强模块增强关键帧的空间特征,分别将帧间光流和增强空间特征的特征图输入到时间特征网络、空间特征网络并进行融合,再将融合的特征图输入分类器,得到目标行为分类结果。
实施例的注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,得到1*1*c的图像特征,c表示通道数量,再把图像特征依次输入两个全连接层和激活函数层,根据激活函数层的输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到两个h*w*1的特征图,其中h、w分别表示特征图的高、宽,即得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图。
实施例的目标物为人员,实施例中对人员的高空抛物的危险行为进行识别、检测。
如图1所示,基于时空双流卷积神经网络的危险行为检测方法包括以下步骤:
步骤1:利用a个广角相机拍摄检测场所的实时视频图像,a表示检测场所布设的相机的数量,实施例中a的取值为3;
步骤2:利用YOLOv4神经网络检测视频的图像帧中是否存在目标物,若有目标物,如图2所示,则执行步骤3,否则执行步骤1;
步骤3:将实时视频分割成k个等长时间的时序段图像,得到a*k个时序段图像,每个时序段图像包含多个图像帧,k表示分割得到的时序段的数量;
步骤4:对时序段图像进行稀疏采样,每个时序段图像选取n个图像帧,得到a*k个图像帧序列,n表示采样的图像帧的数量;
步骤5:从图像帧序列中提取帧间光流,输入到时间特征网络,并将图像帧序列输入到空间特征网络,利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合;
步骤5.1:从每个图像帧序列的n个图像帧中提取n-1个帧间光流,经过变换得到扭曲光流,输入到时空双流卷积神经网络的时间特征网络;
步骤5.2:从每个图像帧序列选取关键帧,利用注意力增强模块计算关键帧的RGB图像的通道的权重值后,计算得到特征图的空间权重值,将权重值逐项与特征图的通道值相乘,突出特征图的空间特征;
步骤5.3:将步骤5.2得到的特征图输入到时空双流卷积神经网络的空间特征网络,利用时空双流卷积神经网络的特征融合模块对步骤5.1得到的帧间光流和步骤5.2得到的特征图进行叠加融合,经激活函数层处理后,进行多维特征展开操作,对特征信息进行多尺度的深度融合,如图3所示;
步骤6:将步骤5得到的融合特征输入到分类器,得到目标物行为的分类结果,若f个以上时序段图像的检测结果相同,则判断此检测结果为有效,输出检测结果,其中f为检测阈值,实施例中f取值为2。
稀疏采样,是指采取视频中的部分关键图像帧,忽略其他样本图像帧,实施例中采样的图像帧的数量n取值为5,减少了冗余信息,提高了系统的效率。
实施例的YOLOv4神经网络参照A Bochkovskiy等2020年发表的会议文章“YOLOv4:Optimal Speed and Accuracy of Object Detection”公开的YOLOv4神经网络模型。
本发明也可采用Faster R-CNN、Detectron、SSD网络代替YOLOv4,作为目标检测网络。
时空双流卷积神经网络的特征融合模块采用FPN(Feature Pyramid Network)网络。
如图4所示,实施例的危险行为检测系统,包括:目标检测网络模块,利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物;稀疏采样模块,将实时视频分割成多个等长时间的时序段图像,对时序段图像进行稀疏采样,输出图像帧序列;注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,再依次输入两个全连接层和激活函数层,根据输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图;时空双流卷积神经网络模块,包括时间特征网络、空间特征网络和特征融合模块;分类判断模块,利用分类器根据时空双流卷积神经网络输出的融合特征,得到目标物行为的分类结果,判断不同时刻或不同视角的视频图像的检测结果的一致性,输出危险行为检测结果。
本发明的危险行为检测系统也用于电力行业的作业场所未佩戴安全帽、未使用验电棒验电等危险行为的检测;也可用于公共场所的打架斗殴、翻越围栏等危险行为的检测。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于时空双流卷积神经网络的危险行为检测方法,其特征在于,时空双流卷积神经网络包括时间特征网络、空间特征网络和特征融合模块,所述危险行为检测方法包括以下步骤:
步骤1:利用多个相机从不同视角拍摄检测场所的实时视频图像;
步骤2:利用目标检测网络检测视频的图像帧中是否存在目标物,若有目标物,则执行步骤3,否则执行步骤1;
步骤3:将实时视频分割成多个等长时间的时序段图像,每个时序段图像包含多个图像帧;
步骤4:对时序段图像进行稀疏采样,得到图像帧序列;
步骤5:从图像帧序列中提取帧间光流,输入到时间特征网络,并将图像帧序列输入到空间特征网络,利用时空双流卷积神经网络对视频图像的时间特征和空间特征进行融合;
步骤6:将步骤5得到的融合特征输入到分类器,得到目标物行为的分类结果,判断不同时刻或不同视角的视频图像的检测结果的一致性,输出危险行为检测结果。
2.根据权利要求1所述的危险行为检测方法,其特征在于,步骤5包括以下子步骤:
步骤5.1:从图像帧序列中提取帧间光流,输入到时空双流卷积神经网络的时间特征网络;
步骤5.2:选取关键帧,利用注意力增强模块计算关键帧的通道的权重值后,计算得到特征图的空间权重值,将权重值逐项与特征图的通道值相乘,突出特征图的空间特征;
步骤5.3:将步骤5.2得到的特征图输入到时空双流卷积神经网络的空间特征网络,利用时空双流卷积神经网络的特征融合模块对步骤5.1得到的帧间光流和步骤5.2得到的特征图进行融合。
3.根据权利要求2所述的危险行为检测方法,其特征在于,所述注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,再依次输入两个全连接层和激活函数层,根据输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图。
4.根据权利要求3所述的危险行为检测方法,其特征在于,步骤5中,所述特征融合模块对帧间光流的时间特征和关键帧的空间特征进行叠加融合,经激活函数层处理后,进行多维特征展开操作,对特征信息进行多刻度的深度融合。
5.根据权利要求1所述的危险行为检测方法,其特征在于,步骤6中,所述判断不同时刻或不同视角的视频图像的检测结果的一致性,若f个以上时序段图像的检测结果相同,则判断此检测结果为有效,输出检测结果,其中f为检测阈值。
6.根据权利要求1所述的危险行为检测方法,其特征在于,所述目标检测网络采用YOLOv4神经网络。
7.根据权利要求1所述的危险行为检测方法,其特征在于,步骤1的相机的数量为3-6。
8.根据权利要求1所述的危险行为检测方法,其特征在于,检测阈值f的取值范围为{2、3、4}。
9.一种危险行为检测系统,其特征在于,包括:
目标检测网络模块,利用目标检测网络检测输入的实时视频的图像帧中是否存在目标物;
稀疏采样模块,将实时视频分割成多个等长时间的时序段图像,对时序段图像进行稀疏采样,输出图像帧序列;
注意力增强模块,包括通道增强单元和空间特征增强单元,通道增强单元对输入的特征图进行全局最大池化、平均池化操作,再依次输入两个全连接层和激活函数层,根据输出得到各个通道的权重值,将各个通道的权重值逐项与特征图的通道值相乘,完成通道维度上的原始特征重标定;空间特征增强单元,对通道增强单元输出的特征图在通道维度上进行最大池化、平均池化操作,得到空间权重值,将空间权重值与特征图相乘,得到双重注意力调整的特征图;
时空双流卷积神经网络模块,包括时间特征网络、空间特征网络和特征融合模块;
分类判断模块,利用分类器根据时空双流卷积神经网络输出的融合特征,得到目标物行为的分类结果,判断不同时刻或不同视角的视频图像的检测结果的一致性,输出危险行为检测结果。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011573947 | 2020-12-28 | ||
CN2020115739473 | 2020-12-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239822A true CN113239822A (zh) | 2021-08-10 |
Family
ID=77135122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110542324.8A Pending CN113239822A (zh) | 2020-12-28 | 2021-05-18 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239822A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220169A (zh) * | 2021-12-16 | 2022-03-22 | 山东大学 | 一种基于Yolo-TSM的轻量级实时监控异常行为检测方法 |
CN114333049A (zh) * | 2021-12-10 | 2022-04-12 | 深圳职业技术学院 | 猪只攻击行为识别方法、系统、计算机设备和存储介质 |
CN114519831A (zh) * | 2022-02-17 | 2022-05-20 | 深圳集智数字科技有限公司 | 电梯场景识别方法、装置、电子设备及存储介质 |
CN114639172A (zh) * | 2022-05-18 | 2022-06-17 | 合肥的卢深视科技有限公司 | 高空抛物预警方法、系统、电子设备及存储介质 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
CN115331154A (zh) * | 2022-10-12 | 2022-11-11 | 成都西交智汇大数据科技有限公司 | 一种实验步骤评分方法、装置、设备及可读存储介质 |
CN115393779A (zh) * | 2022-10-31 | 2022-11-25 | 济宁九德半导体科技有限公司 | 用于激光熔覆金属球制造的控制系统及其控制方法 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
WO2023216721A1 (zh) * | 2022-05-11 | 2023-11-16 | 河海大学 | 一种混凝土大坝缺陷时序图像智能识别方法 |
CN117523669A (zh) * | 2023-11-17 | 2024-02-06 | 中国科学院自动化研究所 | 手势识别方法、装置、电子设备和存储介质 |
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
CN118155154A (zh) * | 2024-05-11 | 2024-06-07 | 东南大学 | 一种基于图像识别技术的恶劣天气下交通事故检测方法 |
CN118365971A (zh) * | 2024-06-19 | 2024-07-19 | 成都脉衡网络科技有限公司 | 一种建筑施工现场智能监测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110084228A (zh) * | 2019-06-25 | 2019-08-02 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络的危险行为自动识别方法 |
CN110287969A (zh) * | 2019-06-14 | 2019-09-27 | 大连理工大学 | 基于图残差注意力网络的摩尔文本图像二值化系统 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
-
2021
- 2021-05-18 CN CN202110542324.8A patent/CN113239822A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389055A (zh) * | 2018-09-21 | 2019-02-26 | 西安电子科技大学 | 基于混合卷积和注意力机制的视频分类方法 |
CN110287969A (zh) * | 2019-06-14 | 2019-09-27 | 大连理工大学 | 基于图残差注意力网络的摩尔文本图像二值化系统 |
CN110084228A (zh) * | 2019-06-25 | 2019-08-02 | 江苏德劭信息科技有限公司 | 一种基于双流卷积神经网络的危险行为自动识别方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN112131943A (zh) * | 2020-08-20 | 2020-12-25 | 深圳大学 | 一种基于双重注意力模型的视频行为识别方法及系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114333049A (zh) * | 2021-12-10 | 2022-04-12 | 深圳职业技术学院 | 猪只攻击行为识别方法、系统、计算机设备和存储介质 |
CN114220169A (zh) * | 2021-12-16 | 2022-03-22 | 山东大学 | 一种基于Yolo-TSM的轻量级实时监控异常行为检测方法 |
CN114519831A (zh) * | 2022-02-17 | 2022-05-20 | 深圳集智数字科技有限公司 | 电梯场景识别方法、装置、电子设备及存储介质 |
WO2023216721A1 (zh) * | 2022-05-11 | 2023-11-16 | 河海大学 | 一种混凝土大坝缺陷时序图像智能识别方法 |
CN114639172A (zh) * | 2022-05-18 | 2022-06-17 | 合肥的卢深视科技有限公司 | 高空抛物预警方法、系统、电子设备及存储介质 |
CN114818989A (zh) * | 2022-06-21 | 2022-07-29 | 中山大学深圳研究院 | 基于步态的行为识别方法、装置、终端设备及存储介质 |
CN115331154A (zh) * | 2022-10-12 | 2022-11-11 | 成都西交智汇大数据科技有限公司 | 一种实验步骤评分方法、装置、设备及可读存储介质 |
CN115331154B (zh) * | 2022-10-12 | 2023-01-24 | 成都西交智汇大数据科技有限公司 | 一种实验步骤评分方法、装置、设备及可读存储介质 |
CN115393779A (zh) * | 2022-10-31 | 2022-11-25 | 济宁九德半导体科技有限公司 | 用于激光熔覆金属球制造的控制系统及其控制方法 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
CN117523669A (zh) * | 2023-11-17 | 2024-02-06 | 中国科学院自动化研究所 | 手势识别方法、装置、电子设备和存储介质 |
CN118155154A (zh) * | 2024-05-11 | 2024-06-07 | 东南大学 | 一种基于图像识别技术的恶劣天气下交通事故检测方法 |
CN118365971A (zh) * | 2024-06-19 | 2024-07-19 | 成都脉衡网络科技有限公司 | 一种建筑施工现场智能监测方法 |
CN118365971B (zh) * | 2024-06-19 | 2024-08-16 | 成都脉衡网络科技有限公司 | 一种建筑施工现场智能监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239822A (zh) | 基于时空双流卷积神经网络的危险行为检测方法及系统 | |
CN111047818A (zh) | 一种基于视频图像的森林火灾预警系统 | |
CN108805015A (zh) | 加权卷积自编码长短期记忆网络人群异常检测方法 | |
CN109886241A (zh) | 基于长短期记忆网络的驾驶员疲劳检测 | |
Li et al. | Toward efficient safety helmet detection based on YoloV5 with hierarchical positive sample selection and box density filtering | |
CN105160313A (zh) | 视频监控中人群行为分析的方法及装置 | |
CN111222478A (zh) | 一种工地安全防护检测方法和系统 | |
CN104732236B (zh) | 一种基于分层处理的人群异常行为智能检测方法 | |
CN110378233A (zh) | 一种基于人群行为先验知识的双分支异常检测方法 | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
CN112163572A (zh) | 识别对象的方法和装置 | |
CN106127814A (zh) | 一种智慧金睛识别人员聚集打斗报警方法和装置 | |
Zhang et al. | MMFNet: Forest fire smoke detection using multiscale convergence coordinated pyramid network with mixed attention and fast-robust NMS | |
CN113408351B (zh) | 一种基于姿态引导生成对抗网络的行人重识别方法 | |
CN114202646A (zh) | 一种基于深度学习的红外图像吸烟检测方法与系统 | |
CN112084928A (zh) | 基于视觉注意力机制和ConvLSTM网络的道路交通事故检测方法 | |
CN111860457A (zh) | 一种斗殴行为识别预警方法及其识别预警系统 | |
CN109948474A (zh) | Ai热成像全天候智能监控方法 | |
CN116229347A (zh) | 一种人群安全异常事件识别方法 | |
Hussain et al. | Uav-based multi-scale features fusion attention for fire detection in smart city ecosystems | |
CN107729811B (zh) | 一种基于场景建模的夜间火焰检测方法 | |
CN111898440B (zh) | 一种基于三维卷积神经网络的山火检测方法 | |
CN112967335A (zh) | 气泡尺寸监测方法及装置 | |
CN116798117A (zh) | 一种基于视频理解的矿井下异常动作识别方法 | |
CN116052035A (zh) | 一种基于卷积神经网络的电厂人员周界入侵检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |
|
RJ01 | Rejection of invention patent application after publication |