CN114550047A - 一种行为速率引导的视频行为识别方法 - Google Patents

一种行为速率引导的视频行为识别方法 Download PDF

Info

Publication number
CN114550047A
CN114550047A CN202210164283.8A CN202210164283A CN114550047A CN 114550047 A CN114550047 A CN 114550047A CN 202210164283 A CN202210164283 A CN 202210164283A CN 114550047 A CN114550047 A CN 114550047A
Authority
CN
China
Prior art keywords
behavior
feature
frame rate
rate
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210164283.8A
Other languages
English (en)
Other versions
CN114550047B (zh
Inventor
杨静
张坤
陈跃海
张栋
李�杰
杜少毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210164283.8A priority Critical patent/CN114550047B/zh
Publication of CN114550047A publication Critical patent/CN114550047A/zh
Application granted granted Critical
Publication of CN114550047B publication Critical patent/CN114550047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种行为速率引导的视频行为识别方法,包括:1)将视频拆分成图像帧,并按高低两个帧率采样;2)使用卷积神经网络对抽取的图片进行特征提取;3)将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;4)使用基于特征差分的动作感知对时间和通道维度加权;5)使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;6)基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;7)对UCF‑101数据集的行为识别数据进行训练建模,对测试集进行识别得到准确率结果。从实验结果可以看到,本发明针对行为识别在主流数据集上提高了测试结果的精度。

Description

一种行为速率引导的视频行为识别方法
技术领域
本发明属于计算机视觉、视频分类、深度学习领域,具体涉及一种行为速率引导的视频行为识别方法。
背景技术
行为识别是通过运用计算机等科学技术手段,对视频中人的仪表、手势、体态、动作、活动等行为模式进行分析归类,是借鉴并融合了认知科学、数据挖掘、机器学习、模式识别等诸多方面成果的综合性研究。
近年来,行为识别在智能视频监控、辅助医疗监护、智能人机交互、全息运动分析及虚拟现实等领域均具有广泛的应用需求。从应用场景来看,行为识别可以分为异常行为识别、单人行为识别、多人行为识别等。但是,行为定义模糊、类内和类间差异较大、计算代价等问题给视频行为识别带来了巨大的挑战。
传统的行为识别方法大部分都是基于图片提取的光流信息进行特征设计和分类。然而,基于手工特征的传统方法受限于光流提取,巨大的计算代价导致传统方法无法做到实时识别,难以进行实际的部署和推广。
随着深度学习的崛起,许多深度学习方法被用于行为识别领域。目前基于深度学习的行为识别研究方法有双流网络、循环神经网络、3D卷积等。
双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络。
考虑到光流是一种手工设计的特征,双流方法通常都无法实现端到端的学习。另外,随着行为识别领域数据集规模的不断扩大,由光流图的计算带来的巨大计算成本和存储空间消耗等问题使得基于光流的双流卷积神经网络不再适用于大规模数据集的训练和实时部署。另一方面,由于光流本身只使用于短时间的动作信息提取,所以此类网络无法解决长跨度动作的时间信息提取问题。
LSTM是循环神经网络中一种,该网络设计出来是为了解决某些动作的长依赖问题。在视频行为识别中很大一部分动作只需要空间特征就能够识别,但LSTM网络只能对短时的时间信息进行特征提取,无法很好地处理空间信息。相比于行为识别,LSTM更适合于动作定位任务,因此该类方法已逐渐被3D卷积等主流方法取代。在大规模数据集上较深的3D残差神经网络能够取得更好的效果。然而,由于视频信息在时空维度具有完全不同的分布方式和信息量,经典的3D卷积方法在时空维度并没有对此进行区分,计算了过多的冗余信息,从而带来了过高的计算代价以及部署成本。
当前已经存在很多基于双流网络架构的行为识别方法,但很多效果并不理想,主要是由于以下几个方面:由于时间维度信息与空间信息不平衡的问题,已有的行为识别方法受限于采样密度较低和时间跨度限制,对于一些变化缓慢或者变化较小动作如倾听,注视,打电话等,难以提取出有效的动作信息。对于部分需要依赖时间信息进行区分的动作,如讲话和唱歌,躺下和睡觉等,已有方法的效果不够理想。针对如何从冗余的视频信息中找到出含有动作信息的关键视频帧这一问题,目前的行为识别算法还未给出一个完善的解决方案。
发明内容
本发明的目的在于解决上述问题,提供一种行为速率引导的视频行为识别方法,旨在与解决视频中空间和时序信息的处理以及不同动作的时空倾向性问题。
为了实现上述的目的,本发明采用如下技术方案:
一种行为速率引导的视频行为识别方法,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并分别按高帧率和低帧率均匀的抽取所需数量的图片;
步骤二:使用低层卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量。为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。
步骤三:在Res3层后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;
步骤四:在3D卷积中提出基于特征差分的动作感知,对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权;
步骤五:使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;
步骤六:在两个路径的卷积网络提取完特征后,基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;
步骤七:对UCF-101数据集的行为识别数据进行训练建模,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
步骤三中,在残差网络的Res3层特征提取之后,将高帧率路径的时间特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息;
步骤四中,为了对动态信息进行加强,使用特征差分的方法。将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作。
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换。
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量。在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P。通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H]。使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E。为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
步骤五中,使用一个已经训练的卷积神经网络对训练集识别,可得到每帧图片的置信度,定义行为速率为置信度图中关键信息占总体信息的占比,即可求出每个类别动作的行为速率,行为速率计算公式为:
Figure BDA0003515529800000051
其中
Figure BDA0003515529800000052
是第m类的行为速率,Nm为第m类的样本数量,
Figure BDA0003515529800000053
为第m类的第n个样本的帧数,
Figure BDA0003515529800000054
为第m类的第n个样本中第t帧的置信度,ReLU为线性激活函数。
Figure BDA0003515529800000055
为第m类的第n个样本的行为周期,计算公式为:
Figure BDA0003515529800000056
其中sgn为符5函数,
Figure BDA0003515529800000057
为第m类的第n个样本中第t帧的相关系数,计算公式为:
Figure BDA0003515529800000058
步骤六中,用
Figure BDA0003515529800000059
对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大,说明该类别关键信息占总体占比较大,在时间维度分布较分散,这时应增大空间特征的权重,反之亦然,当行为速率较小,说明该类别关键信息较为集中,只有很小的时间窗口有有效信息,此时反映变化的时间特征就需要较大的权重。
与现有技术相比,本发明的优势如下:
本发明使用双路径架构,在不同的时间分辨率上对视频进行特征提取,相比于只使用固定帧率提取的网络,对长时动作能够更好地关注其时序信息;在时间和通道维度,使用基于特征差分的动作进行加权,能够通过特征变化对应的动态信息,相比于目前的双流网络模型,增强了网络对变化的时间和特征维度的感知能力,从而提高了识别的效率和准确率;在双路径特征融合部分,基于已训练模型在训练集上进行数据分析,提取出各类别的行为速率并用于双路径特征的倾向性融合,相比于现有模型的非倾向性方法,能够针对不同的动作类别使用不同的时空倾向性融合,使双路径的网络学习到更有针对性的特征信息,从而提高网络的识别准确率。
附图说明
图1为本发明的流程图;
图2为本发明的模型结构图。
具体实施方式
下面结合附图对本发明做进一步说明。
参见图1,本发明包括以下步骤:
步骤一:从摄像头或者本地获取视频数据,将输入的视频拆分成每秒32个图像帧,并按每秒T帧和T/8的帧率分别均匀地抽取的图片,在UCF-101数据集上,T=16。UCF101拥有来自101个动作类别的13320个视频,在动作方面具有多样性,并且在摄像机运动,人物外观和姿态,人体比例,视角,背景,照明条件等方面存在很大的差异,是行为识别领域十分具有挑战性的数据集;
步骤二:采用在Kinetics-400数据集上经过预训练的卷积神经网络ResNet3D对抽取的图片进行特征提取,获得对应的特征向量。ResNet采用了残差结构,很大程度上解决了随着网络的加深造成的梯度爆炸和梯度消失的问题。残差学习模块由主干的几个卷积层和分支的一条捷径(shortcut)组成。将残差学习模块的期望基础映射表示为:
Figure BDA0003515529800000071
其中
Figure BDA0003515529800000072
为叠加的非线性层拟合的映射,x为捷径上的恒等映射。
在前向传播过程中,当浅层网络的x代表的特征已经足够成熟,若任何对于特征x的改变都会让loss值变大,
Figure BDA0003515529800000073
会自动趋向于学习成为0,x则从恒等映射的路径继续传递。这样就在不增加计算成本的情况下解决了退化问题。即在网络的前向传播过程中,如果当浅层的输出已经足够成熟,则让其层数后面的层执行支路的映射,以此等效恒等映射。
在反向传播过程中,设第i层的残差结构的表达式为:
Figure BDA0003515529800000074
其中y为第i层反向传播输出,
Figure BDA0003515529800000075
为残差函数,x为捷径上的恒等映射,Wi代表第i层的参数矩阵。
那么残差网络最终迭代输出表达式为:
Figure BDA0003515529800000076
其中L代表网络总层数,x1为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。在反向传播的过程中,根据链式法则,有:
Figure BDA0003515529800000077
其中ε为损失函数,L代表网络总层数,x1为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。
可见,由于加入了捷径的恒等映射x,返回的梯度分为两部分,其中
Figure BDA0003515529800000081
保证了信息可以直接传递回任何浅层单元,而另一部分
Figure BDA0003515529800000082
中,无论Wi为何值,
Figure BDA0003515529800000083
不会持续为-1,因此返回的梯度值也就不会持续为0。这样就解决了梯度消失问题。
ResNet3D在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。
步骤三:在Res3层后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接。
步骤四:由于输入特征向量在时间和通道维度有较大差异,有的图片帧对识别任务有较大贡献,而有的通道贡献也较大,所以在3D卷积中提出基于特征差分的动作感知。对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权。将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作。
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换。
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量。在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P。通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H]。使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E。为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
步骤五:使用一个已经训练的卷积神经网络对训练集识别,可得到每帧图片的置信度,定义行为速率为置信度图中关键信息占总体信息的占比,即可求出每个类别动作的行为速率,行为速率计算公式为:
Figure BDA0003515529800000101
其中
Figure BDA0003515529800000102
是第m类的行为速率,Nm为第m类的样本数量,
Figure BDA0003515529800000103
为第m类的第n个样本的帧数,
Figure BDA0003515529800000104
为第m类的第n个样本中第t帧的置信度,ReLU为线性激活函数。
Figure BDA0003515529800000105
为第m类的第n个样本的行为周期,计算公式为:
Figure BDA0003515529800000106
其中sgn为符号函数,
Figure BDA0003515529800000107
为第m类的第n个样本中第t帧的相关系数,计算公式为:
Figure BDA0003515529800000108
步骤六:基于步骤四中计算出的各类的行为速率,可在两个路径的卷积网络提取完特征后,片
Figure BDA0003515529800000109
对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大,说明该类别关键信息占总体占比较大,在时间维度分布较分散,这时应增大空间特征的权重,反之亦然,当行为速率较小,说明该类别关键信息较为集中,只有很小的时间窗口有有效信息,此时反映变化的时间特征就需要较大的权重;
步骤七:使用若干已标记的视频数据对模型进行训练;训练过程中使用反向传播,当损失较大时,不断更新模型参数,直到损失收敛到较小的值,保存为模型;
参见图2,本发明的模型具体结构包括以下部分:
模型使用双路径结构,高帧率路径提取的图片数较多但通道数较少,低帧率路径提取的图片数较少但通道数较多。高帧率路径提取的图片数为低帧率路径的p倍,高帧率路径特征的通道数为低帧率路径的q倍,在UCF-101数据集上,p=16,
Figure BDA0003515529800000111
Resl、Res2、Res3、Res4是ResNet3D的残差结构。选择在Kinetics-400数据集预训练的ResNet3D-50用来作为特征提取的骨干网络。
侧向连接部分将将高帧率路径提取的时间特征变化维度后合并到低帧率路径的空间特征。
TP为基于特征差分的动作感知部分,对合并后的特征使用差分的方法提取动态信息从而对时间和通道维度加权。
倾向性特征融合部分,基于计算出的各类别的行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。
参见表1,使用在Kinetics-400上的预训练模型对UCF-101的行为识别数据进行训练建模,对UCF-101的split1分组进行测试,与同样使用3D卷积的C3D算法和同样使用了双流网络结构的TSN-RGB、Two-stream I3D以及TSN进行了准确率的对比,从实验结果可以看到,相比于主流的行为识别算法,本发明在同样的数据集上取得了更高的测试精度。
表1
Figure BDA0003515529800000112

Claims (6)

1.一种行为速率引导的视频行为识别方法,其特征在于,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并分别按高帧率每秒T帧和低帧率每秒T/8帧均匀抽取图片,其中T=16;
步骤二:使用低层卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量,为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高;
步骤三:在Res3层特征提取之后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;
步骤四:在3D卷积中提出基于特征差分的动作感知,对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权;
步骤五:使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;
步骤六:在两个路径的卷积网络提取完特征后,基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;
步骤七:对佛罗里达大学创建的公开数据集UCF-101的行为识别数据进行卷积神经网络模型训练,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
2.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
3.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤三中,在残差网络的Res3层特征提取之后,将高帧率路径的时间特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息。
4.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤四中,为了对动态信息进行加强,使用特征差分的方法,将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H],其中N为输入样本数,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高,动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作;
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换;
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量,在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P,通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H],使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E,为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
5.根据据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤五中,使用一个已经训练的卷积神经网络对训练集识别,可得到每帧图片的置信度,定义行为速率为置信度图中关键信息占总体信息的占比,即可求出每个类别动作的行为速率,行为速率计算公式为:
Figure FDA0003515529790000031
其中
Figure FDA0003515529790000032
是第m类的行为速率,Nm为第m类的样本数量,
Figure FDA0003515529790000033
为第m类的第n个样本的帧数,
Figure FDA0003515529790000038
为第m类的第n个样本中第t帧的置信度,ReLU为线性激活函数,
Figure FDA0003515529790000035
为第m类的第n个样本的行为周期,计算公式为:
Figure FDA0003515529790000036
其中sgn为符号函数,
Figure FDA0003515529790000037
为第m类的第n个样本中第t帧的相关系数,计算公式为:
Figure FDA0003515529790000041
其中
Figure FDA0003515529790000042
为第m类的第n个样本中第k帧的置信度。
6.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤六中,基于步骤四中计算出的各类的行为速率,在两个路径的卷积网络提取完特征后,用
Figure FDA0003515529790000043
对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合,若一个类别的行为速率较大,说明该类别关键信息占总体占比较大,在时间维度分布较分散,这时应增大空间特征的权重,反之亦然,当行为速率较小,说明该类别关键信息较为集中,只有很小的时间窗口有有效信息,此时反映变化的时间特征就需要较大的权重。
CN202210164283.8A 2022-02-22 2022-02-22 一种行为速率引导的视频行为识别方法 Active CN114550047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210164283.8A CN114550047B (zh) 2022-02-22 2022-02-22 一种行为速率引导的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210164283.8A CN114550047B (zh) 2022-02-22 2022-02-22 一种行为速率引导的视频行为识别方法

Publications (2)

Publication Number Publication Date
CN114550047A true CN114550047A (zh) 2022-05-27
CN114550047B CN114550047B (zh) 2024-04-05

Family

ID=81677299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210164283.8A Active CN114550047B (zh) 2022-02-22 2022-02-22 一种行为速率引导的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN114550047B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997228A (zh) * 2022-05-30 2022-09-02 平安科技(深圳)有限公司 基于人工智能的动作检测方法、装置、计算机设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2362636A1 (en) * 2010-02-26 2011-08-31 Research In Motion Limited Object detection and selection using gesture recognition
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
US20200237266A1 (en) * 2017-10-13 2020-07-30 Huawei Technologies Co., Ltd. Action recognition and pose estimation method and apparatus
CN111626245A (zh) * 2020-06-01 2020-09-04 安徽大学 一种基于视频关键帧的人体行为识别方法
CN113283298A (zh) * 2021-04-26 2021-08-20 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法
CN113743306A (zh) * 2021-09-06 2021-12-03 浙江广厦建设职业技术大学 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2362636A1 (en) * 2010-02-26 2011-08-31 Research In Motion Limited Object detection and selection using gesture recognition
US20200237266A1 (en) * 2017-10-13 2020-07-30 Huawei Technologies Co., Ltd. Action recognition and pose estimation method and apparatus
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110032942A (zh) * 2019-03-15 2019-07-19 中山大学 基于时域分段及特征差分的动作识别方法
CN111626245A (zh) * 2020-06-01 2020-09-04 安徽大学 一种基于视频关键帧的人体行为识别方法
CN113283298A (zh) * 2021-04-26 2021-08-20 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法
CN113743306A (zh) * 2021-09-06 2021-12-03 浙江广厦建设职业技术大学 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FREDRO HARJANTO等: "Investigating the impact of frame rate towards robust human action recognition", 《SIGNAL PROCESSING》, vol. 124, pages 220 - 232, XP029461145, DOI: 10.1016/j.sigpro.2015.08.006 *
YU ZHU等: "Fusing Spatiotemporal Features and Joints for 3D Action Recognition", 《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》, pages 486 - 491 *
张坤等: "MRTP:时间-动作感知的多尺度时间序列实时行为识别方法", 《西安交通大学学报》, pages 1 - 14 *
林玲: "多模态特征融合的Kinect动态手势识别技术研究", 《信息科技辑》, no. 01, pages 6 - 47 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997228A (zh) * 2022-05-30 2022-09-02 平安科技(深圳)有限公司 基于人工智能的动作检测方法、装置、计算机设备及介质
CN114997228B (zh) * 2022-05-30 2024-05-03 平安科技(深圳)有限公司 基于人工智能的动作检测方法、装置、计算机设备及介质

Also Published As

Publication number Publication date
CN114550047B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN110276316B (zh) 一种基于深度学习的人体关键点检测方法
CN110175596B (zh) 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN111091045B (zh) 一种基于时空注意力机制的手语识别方法
CN107784293B (zh) 一种基于全局特征和稀疏表示分类的人体行为识别方法
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
CN109409195A (zh) 一种基于神经网络的唇语识别方法及系统
Liu et al. The research of virtual face based on Deep Convolutional Generative Adversarial Networks using TensorFlow
Yilmaz et al. A novel action recognition framework based on deep-learning and genetic algorithms
Li et al. Sign language recognition based on computer vision
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN109389035A (zh) 基于多特征和帧置信分数的低延迟视频动作检测方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN114299559A (zh) 基于轻量级融合全局与局部特征网络的指静脉识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN116092190A (zh) 一种基于自注意力高分辨网络的人体姿态估计方法
Gu et al. Visual affordance detection using an efficient attention convolutional neural network
CN109086690A (zh) 图像特征提取方法、目标识别方法及对应装置
CN114550047A (zh) 一种行为速率引导的视频行为识别方法
CN112884062B (zh) 一种基于cnn分类模型和生成对抗网络的运动想象分类方法及系统
CN112800882A (zh) 一种基于加权双流残差网络的口罩人脸姿态分类方法
CN116665300A (zh) 基于时空自适应特征融合图卷积网络的骨架动作识别方法
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
Jin et al. Fusion of remote sensing images based on pyramid decomposition with Baldwinian Clonal Selection Optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant