CN113283298A - 基于时间注意力机制和双流网络的实时行为识别方法 - Google Patents

基于时间注意力机制和双流网络的实时行为识别方法 Download PDF

Info

Publication number
CN113283298A
CN113283298A CN202110454762.9A CN202110454762A CN113283298A CN 113283298 A CN113283298 A CN 113283298A CN 202110454762 A CN202110454762 A CN 202110454762A CN 113283298 A CN113283298 A CN 113283298A
Authority
CN
China
Prior art keywords
channel
weight
time
frame rate
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110454762.9A
Other languages
English (en)
Other versions
CN113283298B (zh
Inventor
杨静
张坤
张栋
陈跃海
李�杰
杜少毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110454762.9A priority Critical patent/CN113283298B/zh
Publication of CN113283298A publication Critical patent/CN113283298A/zh
Application granted granted Critical
Publication of CN113283298B publication Critical patent/CN113283298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于时间注意力机制和双流网络的实时行为识别方法,包括:1)将视频拆分成图像帧,并按高帧率采样;2)使用卷积神经网络对抽取的图片进行特征提取;3)使用通道注意力机制对通道数据加权;4)使用时间注意力机制对图片帧加权;5)按时间注意力加权结果在低帧率路径采样;6)在卷积层中通过多次侧向连接将高帧率路径特征融合到低帧率路径;7)融合两条路径最终的特征向量;8)对UCF‑101数据集的行为识别数据进行训练建模,对测试集进行识别得到准确率结果。从实验结果可以看到,本发明针对行为识别在主流数据集上提高了测试结果的精度。

Description

基于时间注意力机制和双流网络的实时行为识别方法
技术领域
本发明属于计算机视觉、视频分类、深度学习领域,具体涉及一种基于时间注意力机制和双流网络的实时行为识别方法。
背景技术
行为识别是通过运用计算机等科学技术手段,对视频中人的仪表、手势、体态、动作、活动等行为模式进行分析归类,是借鉴并融合了认知科学、数据挖掘、机器学习、模式识别等诸多方面成果的综合性研究。
目前基于深度学习的行为识别研究方法有双流网络、骨骼点提取、光流法、循环神经网络等。
双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络。
SlowFast网络方法是一种受生物机制启发的双流识别模型。其设计思想是通过“分解架构”,即分别处理空间结构和时间事件。视觉内容的类别空间语义(及其颜色、纹理、光照等)变化缓慢,因此识别可以相对缓慢地刷新。相比之下,正在执行的动作(拍手、挥手、摇晃、走路、跳跃等)比其主体识别变化速度快得多,因此应用快速刷新帧(高时间分辨率)来对快速变化的动作进行有效建模。
当前已经存在很多基于双流网络架构的行为识别方法,但很多效果并不理想,主要是由于以下几个方面:视频中的信息是较为冗余的,面向视频的行为识别一般所需的硬件要求很高。对于行为识别任务,对任务做出实际贡献的图片帧在视频中的分布十分稀疏,因此在行为识别中如何找出含有关键信息的图片帧和特征通道是亟待解决的问题。
发明内容
本发明的目的在于解决上述问题,提供一种基于时间注意力机制和双流网络的实时行为识别方法,旨在与解决视频中空间和时序信息的处理以及长时动作的关键帧选择问题。
为了实现上述的目的,本发明采用如下技术方案:
基于时间注意力机制和双流网络的实时行为识别方法,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并按高帧率均匀的抽取所需数量的图片;
步骤二:采用完成的卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量为了方便后续计算,将输入特征向量的维度表示为:
X=[C1,C2,ωT,W,H]
其中X为输入的特征向量维度,C1为输出的特征通道数,C2为输入的特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,W和H为特征的宽和高。
步骤三:利用提取特征向量作为输入,通过通道注意力机制计算通道权重对通道加权;
步骤四:对于通道加权后的特征向量,选取其中权值最大的通道作为时间注意力机制的输入计算权重对图片帧加权;
步骤五:基于高帧率路径生成的图片帧权重,按权值从大到小以低帧率在视频对应位置抽取图片;
步骤六:在多个卷积层中将高帧率路径提取的特征变换后通过侧向连接融合到低帧率路径;
步骤七:将两条路径经过卷积神经网络最终提取出的特征融合;
步骤八:对UCF-101数据集的行为识别数据进行训练建模,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
步骤三中,在3D卷积中引入通道注意力机制,将提取特征向量作为输入,通过计算通道权重对通道加权。通道注意力的计算公式为:
Figure BDA0003040087510000031
Figure BDA0003040087510000032
a=Sigmoid(Y2ReLU(Y1zC))
其中ω为一次3D卷积中所取的片段长度,T为序列长度,uC为时间维度的卷积结果,vC为卷积核,
Figure BDA0003040087510000033
为第i帧图片对应的卷积核,xi为第i帧图片对应的特征向量,通过第一步卷积操作,特征向量维度变化为X=[C1,C2,1,W,H]。zC为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,C2,1,1,1]。a为通道注意力计算出的权重值,Y1和Y2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
步骤四中,由于每帧图片的重要性不同,对于通道加权后的特征向量,选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权,时间注意力的计算公式为:
uT=x[C1,aMax,ωT,W,H]
Figure BDA0003040087510000041
s=Sigmoid(W2ReLU(W1zT))
其中aMax为上一步通道注意力机制中提取出的权重最大值对应的通道坐标。uT为通道注意力提取出的权重最大通道对应的特征向量。通过第一步提取操作,特征向量维度变化为X=[C1,1,ωT,W,H]。zT为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,1,ωT,1,1]。s为时间注意力计算出的权重值,W1和W2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
步骤五中,基于高帧率路径中通过时间注意力加权生成的图片帧权重,按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片。
步骤六中,在残差网络的Res1、Res2、Res3、Res4特征提取之后,将高帧率路径的特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息。
与现有技术相比,本发明的优势如下:
本发明使用双流架构,在不同的时间分辨率上对视频进行特征提取,相比于只使用固定帧率提取的网络,对长时动作能够更好地关注其时序信息;在通道维度上加入通道注意力加权,在时间维度上加入时间注意力加权,能够给不同的通道和图片帧赋予对应的权重,相比于目前的双流网络模型,对网络贡献率较大的通道和图片帧能够得到更大的权重,从而提高了识别的效率和准确率;在低帧率路径,基于时间注意力的生成图片帧权重进行采样,相比于现有模型的均匀抽取方法,能够提取到信息量更多,对识别贡献更大的图片帧,提高了网络的准确率。
附图说明
图1为本发明的流程图;
图2为本发明的模型结构图;
具体实施方式
下面结合附图对本发明做进一步说明。
参见图1,本发明包括以下步骤:
步骤一:从摄像头或者本地获取视频数据,将输入的视频拆分成每秒32个图像帧,并按每秒T帧的帧率均匀地抽取的图片,在UCF-101数据集上,T=16。UCF101拥有来自101个动作类别的13320个视频,在动作方面具有多样性,并且在摄像机运动,人物外观和姿态,人体比例,视角,背景,照明条件等方面存在很大的差异,是行为识别领域十分具有挑战性的数据集;
步骤二:采用在Kinetics-400数据集上经过预训练的卷积神经网络ResNet3D对抽取的图片进行特征提取,获得对应的特征向量。ResNet采用了残差结构,很大程度上解决了随着网络的加深造成的梯度爆炸和梯度消失的问题。残差学习模块由主干的几个卷积层和分支的一条捷径(shortcut)组成。将残差学习模块的期望基础映射表示为
Figure BDA0003040087510000051
其中
Figure BDA0003040087510000052
为叠加的非线性层拟合的映射,x为捷径上的恒等映射。
在前向传播过程中,当浅层网络的x代表的特征已经足够成熟,若任何对于特征x的改变都会让loss值变大,
Figure BDA0003040087510000053
会自动趋向于学习成为0,x则从恒等映射的路径继续传递。这样就在不增加计算成本的情况下解决了退化问题。即在网络的前向传播过程中,如果当浅层的输出已经足够成熟,则让其层数后面的层执行支路的映射,以此等效恒等映射。
在反向传播过程中,设第i层的残差结构的表达式为
Figure BDA0003040087510000054
其中y为第i层反向传播输出,
Figure BDA0003040087510000061
为残差函数,x为捷径上的恒等映射,Wi代表第i层的参数矩阵。
那么残差网络最终迭代输出表达式为:
Figure BDA0003040087510000062
其中L代表网络总层数,xl为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。在反向传播的过程中,根据链式法则,有
Figure BDA0003040087510000063
其中ε为损失函数,L代表网络总层数,xl为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。
可见,由于加入了捷径的恒等映射x,返回的梯度分为两部分,其中
Figure BDA0003040087510000064
保证了信息可以直接传递回任何浅层单元,而另一部分
Figure BDA0003040087510000065
中,无论Wi为何值,
Figure BDA0003040087510000066
不会持续为-1,因此返回的梯度值也就不会持续为0。这样就解决了梯度消失问题。
ResNet3D在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。为了方便后续计算,将输入特征向量的维度表示为:
X=[C1,C2,ωT,W,H]
其中X为输入的特征向量维度,C1为输出的特征通道数,C2为输入的特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,W和H为特征的宽和高。
步骤三:由于输入特征向量在通道维度有较大差异,有的通道对识别任务有较大贡献,而有的通道贡献较小,所以在3D卷积中引入通道注意力机制,将提取特征向量作为输入,通过计算通道权重对通道加权,通道注意力的计算公式为:
Figure BDA0003040087510000071
Figure BDA0003040087510000072
a=Sigmoid(Y2ReLU(Y1zC))
其中ω为一次3D卷积中所取的片段长度,T为序列长度,uC为时间维度的卷积结果,vC为卷积核,
Figure BDA0003040087510000073
为第i帧图片对应的卷积核,xi为第i帧图片对应的特征向量,通过第一步卷积操作,特征向量维度变化为X=[C1,C2,1,W,H]。zC为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,C2,1,1,1]。a为通道注意力计算出的权重值,Y1和Y2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
步骤四:由于每帧图片的重要性不同,对于通道加权后的特征向量,选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权,时间注意力的计算公式为:
uT=x[C1,aMax,ωT,W,H]
Figure BDA0003040087510000081
s=Sigmoid(W2ReLU(W1zT))
其中aMax为上一步通道注意力机制中提取出的权重最大值对应的通道坐标。uT为通道注意力提取出的权重最大通道对应的特征向量。通过第一步提取操作,特征向量维度变化为X=[C1,1,ωT,W,H]。zT为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,1,ωT,1,1]。s为时间注意力计算出的权重值,W1和W2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
步骤五:基于高帧率路径中通过时间注意力加权生成的图片帧权重,按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片,假设时间注意力计算出的权重值s中最大的两个值为sα和sβ,则在视频中按α和β所在位置抽取图片;
步骤六:在ResNet3D的Res2、Res3、Res4卷积层中将高帧率路径提取的特征变换后通过侧向连接融合到低帧率路径。
步骤七:将两条路径经过卷积神经网络最终提取出的特征融合。
步骤八:使用若干已标记的视频数据对模型进行训练;训练过程中使用反向传播,当损失较大时,不断更新模型参数,直到损失收敛到较小的值,保存为模型;
参见图2,本发明的模型具体结构包括以下部分:
模型使用双流结构,高帧率路径提取的图片数较多但通道数较少,低帧率路径提取的图片数较少但通道数较多。高帧率路径提取的图片数为低帧率路径的p倍,高帧率路径特征的通道数为低帧率路径的q倍,在UCF-101数据集上,p=16,
Figure BDA0003040087510000082
Res1、Res2、Res3、Res4是ResNet3D的残差结构。选择在Kinetics-400数据集预训练的ResNet3D-50用来作为特征提取的骨干网络。
SE为通道注意力加权部分,对图片的特征向量进行通道注意力加权。
TA为时间注意力加权部分,根据通道注意力筛选出的通道特征对图片帧加权,α和β为时间注意力筛选出的权重最大的两帧,输入到低帧率路径作为图片提取的位置坐标依据。
Fuse为特征融合部分,高帧率路径提取的特征通过维度变换后与低帧率路径连接。
softmax函数将融合后的特征向量转换为类别概率向量,并选取其中最大值对应的类别为输出结果。
参见表1,使用在Kinetics-400上的预训练模型对UCF-101的行为识别数据进行训练建模,对UCF-101的split1分组进行测试,与同样使用3D卷积的C3D算法和同样使用了双流网络结构的TSN-RGB、Two-stream I3D以及TSN进行了准确率的对比,从实验结果可以看到,相比于主流的行为识别算法,本发明在同样的数据集上取得了更高的测试精度。
表1
Figure BDA0003040087510000091

Claims (6)

1.基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并按高帧率均匀的抽取所需数量的图片;
步骤二:采用完成的卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量为了方便后续计算,将输入特征向量的维度表示为:
X=[C1,C2,ωT,W,H]
其中X为输入的特征向量维度,C1为输出的特征通道数,C2为输入的特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,W和H为特征的宽和高;
步骤三:利用提取特征向量作为输入,通过通道注意力机制计算通道权重对通道加权;
步骤四:对于通道加权后的特征向量,选取其中权值最大的通道作为时间注意力机制的输入计算权重对图片帧加权;
步骤五:基于高帧率路径生成的图片帧权重,按权值从大到小以低帧率在视频对应位置抽取图片;
步骤六:在多个卷积层中将高帧率路径提取的特征变换后通过侧向连接融合到低帧率路径;
步骤七:将两条路径经过卷积神经网络最终提取出的特征融合;
步骤八:对UCF-101数据集的行为识别数据进行训练建模,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
2.根据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
3.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,步骤三中,在3D卷积中引入通道注意力机制,将提取特征向量作为输入,通过计算通道权重对通道加权,通道注意力的计算公式为:
Figure FDA0003040087500000021
Figure FDA0003040087500000022
a=Sigmoid(Y2ReLU(Y1zC))
其中ω为一次3D卷积中所取的片段长度,T为序列长度,uC为时间维度的卷积结果,vC为卷积核,
Figure FDA0003040087500000023
为第i帧图片对应的卷积核,xi为第i帧图片对应的特征向量,通过第一步卷积操作,特征向量维度变化为X=[C1,C2,1,W,H],zC为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,C2,1,1,1],a为通道注意力计算出的权重值,Y1和Y2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
4.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,步骤四中,由于每帧图片的重要性不同,对于通道加权后的特征向量,选取其中权值最大的通道特征作为时间注意力机制的输入计算权重对图片帧加权,时间注意力的计算公式为:
uT=x[C1,aMax,ωT,W,H]
Figure FDA0003040087500000024
s=Sigmoid(W2ReLU(W1zT))
其中aMax为上一步通道注意力机制中提取出的权重最大值对应的通道坐标。uT为通道注意力提取出的权重最大通道对应的特征向量,通过第一步提取操作,特征向量维度变化为X=[C1,1,ωT,W,H],zT为池化操作的结果,W和H为特征的宽和高,通过在特征的宽和高进行池化,特征向量的维度变化为X=[C1,1,ωT,1,1],s为时间注意力计算出的权重值,W1和W2为权重参数,在训练中得到,Sigmoid为S型激活函数,ReLU为线性激活函数。
5.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,步骤五中,基于高帧率路径中通过时间注意力加权生成的图片帧权重,按权值从大到小以每秒2帧的帧率在视频对应位置抽取图片。
6.根据据权利要求1所述的基于时间注意力机制和双流网络的实时行为识别方法,其特征在于,步骤六中,在残差网络的Res1、Res2、Res3、Res4特征提取之后,将高帧率路径的特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息。
CN202110454762.9A 2021-04-26 2021-04-26 基于时间注意力机制和双流网络的实时行为识别方法 Active CN113283298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110454762.9A CN113283298B (zh) 2021-04-26 2021-04-26 基于时间注意力机制和双流网络的实时行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110454762.9A CN113283298B (zh) 2021-04-26 2021-04-26 基于时间注意力机制和双流网络的实时行为识别方法

Publications (2)

Publication Number Publication Date
CN113283298A true CN113283298A (zh) 2021-08-20
CN113283298B CN113283298B (zh) 2023-01-03

Family

ID=77275727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110454762.9A Active CN113283298B (zh) 2021-04-26 2021-04-26 基于时间注意力机制和双流网络的实时行为识别方法

Country Status (1)

Country Link
CN (1) CN113283298B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038059A (zh) * 2021-11-09 2022-02-11 燕山大学 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN114140654A (zh) * 2022-01-27 2022-03-04 苏州浪潮智能科技有限公司 图像动作识别方法、装置及电子设备
CN114550047A (zh) * 2022-02-22 2022-05-27 西安交通大学 一种行为速率引导的视频行为识别方法
CN115647819A (zh) * 2022-09-20 2023-01-31 玉环仪表机床制造厂 车磨一体复合机及其控制方法
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142613A1 (en) * 2014-11-18 2016-05-19 Elwha Llc Devices, methods, and systems for visual imaging arrays
CN106951064A (zh) * 2016-11-22 2017-07-14 西安交通大学 引入对象连续动作的稳态视觉诱发范式设计及辨识方法
KR101870700B1 (ko) * 2017-03-07 2018-06-25 광운대학교 산학협력단 3차원 복원을 위한 핸드헬드 비디오로부터 고속 키 프레임 추출 방법
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
CN109963495A (zh) * 2016-09-07 2019-07-02 发明科学基金Ii有限责任公司 具有边缘处理的视网膜成像器设备和系统
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111860188A (zh) * 2020-06-24 2020-10-30 南京师范大学 一种基于时间和通道双注意力的人体姿态识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法
US20210064931A1 (en) * 2019-08-27 2021-03-04 Nvidia Corporation Self-supervised hierarchical motion learning for video action recognition

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142613A1 (en) * 2014-11-18 2016-05-19 Elwha Llc Devices, methods, and systems for visual imaging arrays
CN109963495A (zh) * 2016-09-07 2019-07-02 发明科学基金Ii有限责任公司 具有边缘处理的视网膜成像器设备和系统
CN106951064A (zh) * 2016-11-22 2017-07-14 西安交通大学 引入对象连续动作的稳态视觉诱发范式设计及辨识方法
KR101870700B1 (ko) * 2017-03-07 2018-06-25 광운대학교 산학협력단 3차원 복원을 위한 핸드헬드 비디오로부터 고속 키 프레임 추출 방법
CN109389055A (zh) * 2018-09-21 2019-02-26 西安电子科技大学 基于混合卷积和注意力机制的视频分类方法
US20210064931A1 (en) * 2019-08-27 2021-03-04 Nvidia Corporation Self-supervised hierarchical motion learning for video action recognition
CN110569773A (zh) * 2019-08-30 2019-12-13 江南大学 基于时空显著性行为注意力的双流网络行为识别方法
CN111627052A (zh) * 2020-04-30 2020-09-04 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN111860188A (zh) * 2020-06-24 2020-10-30 南京师范大学 一种基于时间和通道双注意力的人体姿态识别方法
CN112307958A (zh) * 2020-10-30 2021-02-02 河北工业大学 基于时空外观运动注意力网络的微表情识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BASSEL S. CHAWKY ETAL.: "Multi-Temporal-Resolution Technique for Action recognition using C3D:Experimental Study", 《2018 13TH INTERNATIONAL CONFERENCE ON COMPUTER ENGINEERING AND SYSTEMS》 *
王华锋等: "面向特定场景的行为识别算法的研究", 《科技技术创新》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114038059A (zh) * 2021-11-09 2022-02-11 燕山大学 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN114038059B (zh) * 2021-11-09 2024-05-24 燕山大学 一种基于双帧速率分治行为识别网络的动态手势识别方法
CN114140654A (zh) * 2022-01-27 2022-03-04 苏州浪潮智能科技有限公司 图像动作识别方法、装置及电子设备
CN114550047A (zh) * 2022-02-22 2022-05-27 西安交通大学 一种行为速率引导的视频行为识别方法
CN114550047B (zh) * 2022-02-22 2024-04-05 西安交通大学 一种行为速率引导的视频行为识别方法
WO2023216721A1 (zh) * 2022-05-11 2023-11-16 河海大学 一种混凝土大坝缺陷时序图像智能识别方法
CN115647819A (zh) * 2022-09-20 2023-01-31 玉环仪表机床制造厂 车磨一体复合机及其控制方法

Also Published As

Publication number Publication date
CN113283298B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN113283298B (zh) 基于时间注意力机制和双流网络的实时行为识别方法
Choi et al. EmbraceNet: A robust deep learning architecture for multimodal classification
Zheng et al. Unsupervised representation learning with long-term dynamics for skeleton based action recognition
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
Kollias et al. Recognition of affect in the wild using deep neural networks
CN111091045A (zh) 一种基于时空注意力机制的手语识别方法
CN112507898A (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN111429885A (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN106503659B (zh) 基于稀疏编码张量分解的动作识别方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN113255602A (zh) 基于多模态数据的动态手势识别方法
JP2022511221A (ja) 画像処理方法、画像処理装置、プロセッサ、電子機器、記憶媒体及びコンピュータプログラム
Wang et al. Optimization-based post-training quantization with bit-split and stitching
CN111626152A (zh) 一种基于Few-shot的时空视线方向估计原型设计
Kwolek et al. Recognition of JSL fingerspelling using deep convolutional neural networks
CN112884062B (zh) 一种基于cnn分类模型和生成对抗网络的运动想象分类方法及系统
CN113420179B (zh) 基于时序高斯混合空洞卷积的语义重构视频描述方法
CN113419624B (zh) 一种基于头部时序信号校正的眼动交互方法及装置
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN117373116A (zh) 基于图神经网络的轻量级特征保留的人体动作检测方法
CN114550047B (zh) 一种行为速率引导的视频行为识别方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN114359785A (zh) 基于自适应矩阵特征融合网络的唇语识别方法、装置及电子设备
CN114463235A (zh) 一种红外与可见光图像融合方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant