CN111950444A - 一种基于时空特征融合深度学习网络的视频行为识别方法 - Google Patents
一种基于时空特征融合深度学习网络的视频行为识别方法 Download PDFInfo
- Publication number
- CN111950444A CN111950444A CN202010796456.9A CN202010796456A CN111950444A CN 111950444 A CN111950444 A CN 111950444A CN 202010796456 A CN202010796456 A CN 202010796456A CN 111950444 A CN111950444 A CN 111950444A
- Authority
- CN
- China
- Prior art keywords
- video
- network
- segment
- time
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 42
- 230000004927 fusion Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000013135 deep learning Methods 0.000 title claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000000007 visual effect Effects 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000003287 optical effect Effects 0.000 claims description 43
- 230000002123 temporal effect Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims description 3
- 230000000996 additive effect Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007774 longterm Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空特征融合深度学习网络的视频行为识别方法采用独立的两个网络分别提取视频的时间和空间信息,每个网络都在CNN的基础上加入了LSTM学习视频时间信息,并以一定的策略将时间、空间信息融合。FSTFN比Tran提出的不引入时空网络的网络模型在数据集上准确率提升了7.5%,比普通双流网络模型数据集上准确率提升了4.7%且对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络,通过覆盖整个视频的时间范围,解决了视频行为识别存在的长时依赖问题,在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高了视频图像帧中视觉主体的影响力,较好地利用了视频的空间特征。
Description
【技术领域】
本发明涉及视频行为识别方法,具体涉及一种基于时空特征融合深度学习网络的视频行为识别方法。
【背景技术】
视频内容行为识别旨在对视频片段进行分类以确定行为类型。目前视频内容行为识别技术主要分为两大方向:采用传统提取特征的方式和使用深度学习建立端到端预测网络模型的方式。
基于传统行为识别方法是先设计并提取相关视觉特征,然后对这些特征进行编码,最后采用统计机器学习中相关分类方法得到预测分类结果。
深度学习网络模型大多是端到端模型,用卷积神经网络(Convolutional NeuralNetworks,CNN)、长短期记忆网络(Long Short-Term Memory,LSTM)等对数据集进行学习,学习到网络参数后对视频进行预测分类。
现有的技术方案分别是C3D网络、双流网络模型和LRCN等;
其中C3D网络利用时空信息的直接解决方案是对视频执行3D卷积。3D卷积是通过将3D内核卷积应用到视频中来实现的,是一种对2D-CNN的扩展,称作C3D(3D-CNN)其卷积核得到的特征图也是3D的,并没有融合,给定视频数据是RGB三通道,高h宽w,分辨率为h×w,C3D的卷积核边长k深度为d,即规格为k×k×d。比起2D-CNN,C3D显然更适合学习带有时序信息的图像数据(视频),对视频进行处理得到的多帧特征图经融合的输出;
双流网络(Two-Stream Network)模型,是使用两个独立的时空CNN,通过后期融合将两个网络输出合并。空间网络从单视频RGB帧进行行为识别,而时间网络则从密集的光流中进行识别行为,双流网络中空间CNN结构类似Karpathy中的单帧结构,即给定一个行为视频,每个视频帧将分别通过空间网络,并为每个帧分配一个行为标签,对于同一个行为视频的所有帧,给定的行为标签是一样,即这个行为的标签,双流网络中时间CNN则对几个连续帧之间的光流位移场进行分析,以学习时间特征,对输出的时间特征和空间网络识别得到图像预测。
LRCN(Long-term Recurrent Convolutional Networks)与固定数量输入帧的堆栈式学习的网络不同,它不限于固定长度输入帧,可以学习识别更复杂的行为,视频有序帧图像进入网络模型,首先应用2D-CNN获取图像帧的特征图,之后把这些特征图按时序输入后面的LSTM并得到一组时序向量。这种网络模型有很好的适应性,因为可以看到该网络模型是对CNN和LSTM的结合,输入既可以是单帧图像,也可是时序视频,与之对应得到的输出是图像预测或序列预测。
以上方法均存在长时依赖问题和空间特征挖掘不充分的问题,由于行为有持续性,要想准确识别一个行为,往往依赖一个较长的时间片段,没有长时间范围的分析,容易把一种行为识别为其他行为,虽然长时的片段分析可以提高识别准确率,但过长的时间分析带来的是更复杂的网络结构和成倍的训练量;而且目前研究对视频动态时间特征的提取明显不足,仅通过C3D或循环神经网络从RGB(Red-Green-Blue)中获取,但单一特征还是不足以充分提取视频时间维度的动态特征,对空间特征的提取同样不够充分,现有网络模型容易混淆产生误判。
【发明内容】
为解决上述问题,提出通过两个网络分别提取时间、空间信息并加以融合,采用多片段输入的方式来处理较大范围视频帧信息,最后引入软注意力机制来减少由于背景高度相似带来的识别错误的一种基于时空特征融合深度学习网络的视频行为识别方法;
一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。
(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。
(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,
(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。
(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。
(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中
(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分
(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出
进一步地、所述视频采用分段的方式为先将视频平均划分成N+1段,编号0,1,…,N,在[1,N]段范围内对片段的前半部分进行连续采样,以此保留视频的时间特征。即除去视频的开头段,取剩下N段(对应编号1,2,…,N),对这N段区间的前1/2区间进行连续采样。设视频长度为T,每段起始时间为kT/(N+1),只对该段前1/2采样,采样的区间为:
进一步地、所述光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解,分解为T帧;
c)、对图片灰度化;
d)、求解水平与垂直方向梯度fw、fh;
e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;
for遍历图像区域:
for遍历图像的3×3子区域:
对九个像素联立方程,进行最小二乘拟合;
保存该帧光流场;
f)、输出视频所有光流帧特征;
g)、调用分段预处理算法,对光流场图像分段。
进一步地、所述RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t,对于宽高规格为w×h的图片有:
式中x∈[0,w),y∈[0,h),进而对连续5帧的P_diff叠加得到RGB色彩差异。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解分解为T帧;
c)、for i in[0,T-1]://遍历每一帧;
取第i帧和i+1帧图像;
for遍历图像每个像素点;
保存该帧RGB色彩差异;
d)、输出视频所有RGB色彩差异特征图像;
e)、调用分段预处理算法,对光流场图像分段。
进一步地、所述注意力机制是FSTFN在CNN和LSTM之间引入了的,注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1];后者要么是0或1,注意力机制中的掩码即权重的计算为设计函数G,对每个特征向量gi,计算其得分si。计算的根据是gi与注意力机制关注的视觉主体(用向量表征)的相关性,得分越高说明相关性越大。对于计算出的si经由softmax得到权重γi,即:γi=softmax(si)。
进一步地、所述融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合,在总分预测上采用全局融合。
进一步地、所述片段融合指先对每个片段的时间和空间网络做加法融合,并进行softmax分类,得到的每个片段的softmax分类结果后加权得到网络模型的预测。
进一步地、所述全局融合,是在每个片段的每个网络均先各自经过softmax得到分类得分,即得到两倍于片段数个分类得分:各个片段时间网络得分和空间网络得分。所有时间网络得分相加得到时间网络总分,空间网络总分同理,最后空间网络总分和时间网络总分相加融合。
本发明用独立的两个网络分别提取视频的时间和空间信息,每个网络都在CNN的基础上加入了LSTM学习视频时间信息,并以一定的策略将时间、空间信息融合。FSTFN比Tran提出的不引入时空网络的网络模型在数据集上准确率提升了7.5%,比普通双流网络模型数据集上准确率提升了4.7%。
本发明对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络,通过覆盖整个视频的时间范围,解决了视频行为识别存在的长时依赖问题。
本发明在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高了视频图像帧中视觉主体的影响力,较好地利用了视频的空间特征。
本发明提取光流作为动态特征输入到时间CNN中,进一步挖掘视频行为分析的动态特征,在数据集上引入这两个特征的FSTFN比不引入时识别准确率提升了13.7%。
【附图说明】
图1为FSTFN总体框架图;
图2为空间特征网络内部结构图;
图3为时间特征网络的内部结构图;
图4为视觉注意力机制流程图;
图5为本实施例的空间网络总分和时间网络总分相加融合的策略方式示意图;
图6为本实施例的融合光流特征和RGB色彩差异特征时段融合策略方式示意图。
【具体实施方式】
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅用于解释本发明,并不用于限定本发明。
一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。
(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络,其中视频采用分段的方式为先将视频平均划分成N+1段,编号0,1,…,N,在[1,N]段范围内对片段的前半部分进行连续采样,以此保留视频的时间特征。即除去视频的开头段,取剩下N段(对应编号1,2,…,N),对这N段区间的前1/2区间进行连续采样。设视频长度为T,每段起始时间为k T/(N+1),只对该段前1/2采样,采样的区间为:
(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,其中RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t,对于宽高规格为w×h的图片有:
式中x∈[0,w),y∈[0,h),进而对连续5帧的P_diff叠加得到RGB色彩差异。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解分解为T帧;
c)、for i in[0,T-1]://遍历每一帧;
取第i帧和i+1帧图像;
for遍历图像每个像素点;
保存该帧RGB色彩差异;
d)、输出视频所有RGB色彩差异特征图像;
e)、调用分段预处理算法,对光流场图像分段。
(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力,其中注意力机制是FSTFN在CNN和LSTM之间引入了的,注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1];后者要么是0或1,注意力机制中的掩码即权重的计算为设计函数G,对每个特征向量gi,计算其得分si。计算的根据是gi与注意力机制关注的视觉主体(用向量表征)的相关性,得分越高说明相关性越大。对于计算出的si经由softmax得到权重γi,即:γi=softmax(si)。
(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息,将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征,其中光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移;
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解,分解为T帧;
c)、对图片灰度化;
d)、求解水平与垂直方向梯度fw、fh;
e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;
for遍历图像区域:
for遍历图像的3×3子区域:
对九个像素联立方程,进行最小二乘拟合;
保存该帧光流场;
f)、输出视频所有光流帧特征;
g)、调用分段预处理算法,对光流场图像分段。
(6)时间特征网络学习了光流和RGB色彩差异两种特征,同时,将视频数据采样成多个片段分别输入到两个网络中。
(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分,融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合,其中片段融合指先对每个片段的时间和空间网络做加法融合,并进行softmax分类,得到的每个片段的softmax分类结果后加权得到网络模型的预测。
(8)在拿到空间和时间特征预测得分后,,在总分预测上采用全局融合,全局融合,是在每个片段的每个网络均先各自经过softmax得到分类得分,即得到两倍于片段数个分类得分,各个片段时间网络得分和空间网络得分,所有时间网络得分相加得到时间网络总分,空间网络总分同理,最后空间网络总分和时间网络总分相加融合,进行融合成为FSTFN最后的预测输出。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。
(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。
(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,
(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。
(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。
(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中
(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分
(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出。
3.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解,分解为T帧;
c)、对图片灰度化;
d)、求解水平与垂直方向梯度fw、fh;
e)、for i in T-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;
for遍历图像区域:
for遍历图像的3×3子区域:
对九个像素联立方程,进行最小二乘拟合;
保存该帧光流场;
f)、输出视频所有光流帧特征;
g)、调用分段预处理算法,对光流场图像分段。
4.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t,对于宽高规格为w×h的图片有:
式中x∈[0,w),y∈[0,h),进而对连续5帧的P_diff叠加得到RGB色彩差异。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解分解为T帧;
c)、for i in[0,T-1]://遍历每一帧;
取第i帧和i+1帧图像;
for遍历图像每个像素点;
保存该帧RGB色彩差异;
d)、输出视频所有RGB色彩差异特征图像;
e)、调用分段预处理算法,对光流场图像分段。
5.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述注意力机制是FSTFN在CNN和LSTM之间引入了的,注意力机制包含软注意力(Soft Attention)机制与硬注意力(Hard Attention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1];后者要么是0或1,注意力机制中的掩码即权重的计算为设计函数G,对每个特征向量gi,计算其得分si。计算的根据是gi与注意力机制关注的视觉主体(用向量表征)的相关性,得分越高说明相关性越大。对于计算出的si经由softmax得到权重γi,即:γi=softmax(si)。
6.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述融合成为FSTFN的策略的方式为在融合光流特征和RGB色彩差异特征时采用片段融合,在总分预测上采用全局融合。
7.根据权利要求6所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述片段融合指先对每个片段的时间和空间网络做加法融合,并进行softmax分类,得到的每个片段的softmax分类结果后加权得到网络模型的预测。
8.根据权利要求6所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述全局融合,是在每个片段的每个网络均先各自经过softmax得到分类得分,即得到两倍于片段数个分类得分:各个片段时间网络得分和空间网络得分,所有时间网络得分相加得到时间网络总分,空间网络总分同理,最后空间网络总分和时间网络总分相加融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010796456.9A CN111950444A (zh) | 2020-08-10 | 2020-08-10 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010796456.9A CN111950444A (zh) | 2020-08-10 | 2020-08-10 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950444A true CN111950444A (zh) | 2020-11-17 |
Family
ID=73332026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010796456.9A Pending CN111950444A (zh) | 2020-08-10 | 2020-08-10 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950444A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348125A (zh) * | 2021-01-06 | 2021-02-09 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
CN112733818A (zh) * | 2021-03-30 | 2021-04-30 | 深圳佑驾创新科技有限公司 | 基于注意力机制的车灯状态识别方法、装置、终端和介质 |
CN112800988A (zh) * | 2021-02-02 | 2021-05-14 | 安徽工业大学 | 一种基于特征融合的c3d行为识别方法 |
CN113080907A (zh) * | 2021-04-14 | 2021-07-09 | 贵州省人民医院 | 脉搏波信号处理方法及装置 |
CN114022454A (zh) * | 2021-11-08 | 2022-02-08 | 安徽师范大学 | 一种融入时间信息的图像处理方法 |
CN114155480A (zh) * | 2022-02-10 | 2022-03-08 | 北京智视数策科技发展有限公司 | 一种低俗动作识别方法 |
WO2022218215A1 (zh) * | 2021-04-13 | 2022-10-20 | 影石创新科技股份有限公司 | 视频精彩片段的检测方法、装置、计算机设备和存储介质 |
WO2023061102A1 (zh) * | 2021-10-15 | 2023-04-20 | 腾讯科技(深圳)有限公司 | 视频行为识别方法、装置、计算机设备和存储介质 |
CN117315552A (zh) * | 2023-11-30 | 2023-12-29 | 山东森普信息技术有限公司 | 一种大规模农作物巡检方法、装置及存储介质 |
CN118781652A (zh) * | 2024-07-04 | 2024-10-15 | 湖南中科助英智能科技研究院有限公司 | 一种基于tsn模型的群体-个体多人视频行为识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN111462183A (zh) * | 2020-03-31 | 2020-07-28 | 山东大学 | 一种基于注意力机制双流网络的行为识别方法及系统 |
-
2020
- 2020-08-10 CN CN202010796456.9A patent/CN111950444A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN111462183A (zh) * | 2020-03-31 | 2020-07-28 | 山东大学 | 一种基于注意力机制双流网络的行为识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
宦睿智: "基于注意力机制的长时程特征融合的视频行为识别研究与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
李成美等: "一种改进光流法的运动目标检测及跟踪算法", 《仪器仪表学报》 * |
杨军: "基于多模态特征融合的人体行为识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348125A (zh) * | 2021-01-06 | 2021-02-09 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
CN112800988A (zh) * | 2021-02-02 | 2021-05-14 | 安徽工业大学 | 一种基于特征融合的c3d行为识别方法 |
CN112733818A (zh) * | 2021-03-30 | 2021-04-30 | 深圳佑驾创新科技有限公司 | 基于注意力机制的车灯状态识别方法、装置、终端和介质 |
CN112733818B (zh) * | 2021-03-30 | 2021-08-13 | 深圳佑驾创新科技有限公司 | 基于注意力机制的车灯状态识别方法、装置、终端和介质 |
WO2022218215A1 (zh) * | 2021-04-13 | 2022-10-20 | 影石创新科技股份有限公司 | 视频精彩片段的检测方法、装置、计算机设备和存储介质 |
CN113080907A (zh) * | 2021-04-14 | 2021-07-09 | 贵州省人民医院 | 脉搏波信号处理方法及装置 |
CN113080907B (zh) * | 2021-04-14 | 2022-10-25 | 贵州省人民医院 | 脉搏波信号处理方法及装置 |
WO2023061102A1 (zh) * | 2021-10-15 | 2023-04-20 | 腾讯科技(深圳)有限公司 | 视频行为识别方法、装置、计算机设备和存储介质 |
CN114022454A (zh) * | 2021-11-08 | 2022-02-08 | 安徽师范大学 | 一种融入时间信息的图像处理方法 |
CN114022454B (zh) * | 2021-11-08 | 2025-01-03 | 安徽师范大学 | 一种融入时间信息的图像处理方法 |
CN114155480A (zh) * | 2022-02-10 | 2022-03-08 | 北京智视数策科技发展有限公司 | 一种低俗动作识别方法 |
CN117315552A (zh) * | 2023-11-30 | 2023-12-29 | 山东森普信息技术有限公司 | 一种大规模农作物巡检方法、装置及存储介质 |
CN117315552B (zh) * | 2023-11-30 | 2024-01-26 | 山东森普信息技术有限公司 | 一种大规模农作物巡检方法、装置及存储介质 |
CN118781652A (zh) * | 2024-07-04 | 2024-10-15 | 湖南中科助英智能科技研究院有限公司 | 一种基于tsn模型的群体-个体多人视频行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950444A (zh) | 一种基于时空特征融合深度学习网络的视频行为识别方法 | |
CN109670429B (zh) | 一种基于实例分割的监控视频多目标人脸检测方法及系统 | |
Ng et al. | Actionflownet: Learning motion representation for action recognition | |
CN108710865B (zh) | 一种基于神经网络的司机异常行为检测方法 | |
CN108280397B (zh) | 基于深度卷积神经网络的人体图像头发检测方法 | |
CN110298343A (zh) | 一种手写黑板板书识别方法 | |
CN108932500A (zh) | 一种基于深度神经网络的动态手势识别方法及系统 | |
CN109190561B (zh) | 一种视频播放中的人脸识别方法及系统 | |
CN111639577A (zh) | 一种监控视频多人人脸检测和表情识别方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN114333070A (zh) | 一种基于深度学习的考生异常行为检测方法 | |
CN110738160A (zh) | 一种结合人脸检测的人脸质量评估方法 | |
CN114820655B (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN110969171A (zh) | 基于改进卷积神经网络的图像分类模型、方法及应用 | |
CN112487981A (zh) | 基于双路分割的ma-yolo动态手势快速识别方法 | |
CN108053420A (zh) | 一种基于有限时空分辨率类无关属性动态场景的分割方法 | |
Gao et al. | Counting dense objects in remote sensing images | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111507275A (zh) | 一种基于深度学习的视频数据时序信息提取方法及装置 | |
CN112784841A (zh) | 文本识别方法及装置 | |
CN113297956B (zh) | 一种基于视觉的手势识别方法及系统 | |
US20240161461A1 (en) | Object detection method, object detection apparatus, and object detection system | |
CN117373058A (zh) | 一种用于小差异课堂行为的识别方法 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN112101344B (zh) | 一种视频文本跟踪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |