CN111241996B - 一种用于识别视频中人物动作的方法 - Google Patents

一种用于识别视频中人物动作的方法 Download PDF

Info

Publication number
CN111241996B
CN111241996B CN202010021860.9A CN202010021860A CN111241996B CN 111241996 B CN111241996 B CN 111241996B CN 202010021860 A CN202010021860 A CN 202010021860A CN 111241996 B CN111241996 B CN 111241996B
Authority
CN
China
Prior art keywords
spatial
feature
attention
features
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010021860.9A
Other languages
English (en)
Other versions
CN111241996A (zh
Inventor
蔡国永
蔡雨萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010021860.9A priority Critical patent/CN111241996B/zh
Publication of CN111241996A publication Critical patent/CN111241996A/zh
Application granted granted Critical
Publication of CN111241996B publication Critical patent/CN111241996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于识别视频中人物动作的方法,该方法是先利用一个空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,对空间特征进行初步学习;然后利用运算模块对空间特征进行细粒度的学习,使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,用逐元素乘法生成的结果作为注意力特征向量,然后再以生成的结果作为空间特征向量,与时间特征作为输入,利用注意力继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,生成注意力特征向量,最后进行分类。该方法全部使用卷积核为1的空间和时间卷积,减少参数规模,实现降维,提高网络性能。与以往的网络相比,具有较高的准确率。

Description

一种用于识别视频中人物动作的方法
技术领域
本发明涉及计算机视觉与深度学习领域,具体是一种用于识别视频中人物动作的方法。
背景技术
视频学习是计算机视觉领域中一个基本且富有挑战性的方向,其目标是学习视频每一帧中的内容特征。目前的视频学习方向基本分为目标追踪、目标检测、时序动作定位、动作识别、异常检测几个领域。其中,动作识别主要是对视频中出现的人物进行特征提取,然后进行识别。但是视频中存在大量连续且冗余的时间和空间信息,如何设计一个网络模型对视频的时间维度和空间维度的特征进行细粒度的学习,是当前研究的热点。
在深度学习领域,对动作识别方法的研究主要分为以下三类:
基于无监督学习的动作识别(主要以自编码网络及其变体为代表),该识别方法主要通过独立子空间分析(ISA)的叠加,但是需要提前训练好ISA网络然后用较大的数据与其进行卷积的操作;
基于深度卷积神经网络的动作识别,该识别方法的使用范围比较广,总体上是在三维卷积的基础上添加时间维度;
基于时序神经网络及其扩展模型的动作识别,该识别方法是利用卷积神经网络先提取特征然后经过若干层长短时记忆网络,其中长短时记忆网络是一种特殊的递归神经网络,即能解决时间序列问题的预测。
目前,部分网络模块是以参数规模大的代价来提高网络性能,比较区域型3维卷积网络(C3D)大量使用三维卷积网络,而且卷积核的增大也使特征的维度大大增加。目前,尚未见有在网络模型在减少网络参数规模的基础上提高模型的性能的报道。
发明内容
本发明的目的是针对目前人物动作识别网络中参数规模大、性能低的问题,而提供一种用于识别视频中人物动作的方法。
一种用于识别视频中人物动作的方法,包括如下步骤:
(1)局部梯度空间特征学习:使用一种空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,然后对空间特征进行初步学习;
(2)细粒度空间特征学习:利用运算模块对空间特征进行细粒度学习,对步骤(1)生成的空间特征通过高斯函数进行学习,然后使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,最后用逐元素乘法生成的结果作为注意力特征向量;
(3)块内注意力网络:利用局部功能注意力模块,以步骤(2)生成的结果作为空间特征微量,并与步骤(1)的时间特征作为输入,利用注意力模块继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,得到注意力特征向量。
步骤(1)所述局部梯度空间特征学习的方法步骤如下:
1)使用空间卷积spatial提取特征,经过sigmoid函数后将特征分成2组空间特征b1,b2,然后用时间卷积temporal提取时间特征T:
b1=b2=sigmoid(spatial(x))在空间维度提取特征并分为b1,b2;
T=temporal(x)在时间维度提取特征T;
2组空间特征同时经过最大池化操作Fmax,其中1组通过全连接运算fc对空间特征进行学习:
b1 1=fc(Fmax(b1))使用最大池化和全连接运算处理空间特征;
2)将空间特征b1 1与原始空间特征x同时作为损失函数
Figure GDA0002418720860000021
的输入,即用于多分类的交叉熵损失函数,定义空间特征损失函数符号Lossspatial,使用权重矩阵为W的神经网络函数ψ对特征b1 1进行预测:
Lossspatial=lossCross(ψ(W,b1 1),x)//空间特征损失函数;
3)从空间特征损失函数Lossspatial的梯度
Figure GDA0002418720860000022
中学习权值Wnew,权值Wnew与空间特征b1 1同时作为偏差为bias的线性层linear的输入,学习率为μ,进而得到这个分支的空间特征b1 final
Figure GDA0002418720860000031
//梯度迭代计算;
Figure GDA0002418720860000032
//权重迭代学习;
b1 final=linear(W1 new*b1 1+bias)//线性层学习空间特征;
此时另1组空间特征经过最大池化Fmax的空间特征b2,通过全连接运算fc进行学习,得到这组空间特征b2 final
b2 final=fc(Fmax(b2))//使用最大池化和全连接运算处理特征;
4)由上下2组生成的特征向量做逐元素加法的运算,生成的结果作为卷积核为3的空间卷积的输入,增加空间特征的感受野以此来学习更大范围的局部信息,经过空间卷积后,分成2组同时使用非线性操作relu:
Figure GDA0002418720860000033
//特征向量逐元素加法;
x1=x2=relu(spatial(feature))//空间卷积和激活函数学习特征。
步骤(2)所述的细粒度空间特征学习方法步骤如下:
1)由步骤(1)生成的两个分支的特征向量x1,x2作为输入,首先用两个高斯函数g,h进行空间特征学习,同时为了防止高斯函数过饱和,即在接近0的位置,导数变化大,远离0的位置,函数值趋近于0或1,导数几乎不变;所以在这个范围内变量变化无法引起导数的有效改变,设置
Figure GDA0002418720860000034
避免饱和,d=max(1,c/b),c为输入特征向量的通道数,b为batch-size的大小;
Figure GDA0002418720860000035
//高斯函数学习特征;
2)定义函数Mat做矩阵乘法操作:
Figure GDA0002418720860000037
//特征向量乘法;/>
对于注意力,使用softmax进行归一化得到的结果作为注意力分数score:
score=softmax(φ(g(x1),h(x2)))//softmax归一化;
3)生成的注意力分数score经过神经网络函数f,以此生成注意力特征向量featurevec:
featurevec=f(∑score·x)//通过神经网络函数f得到注意力特征向量。
步骤(3)所述块内注意力网络的方法步骤如下:
1)将步骤(2)最后生成的注意力特征向量作为输入值,首先特征向量x的通道数用c表示,x被分为两组,每组的通道数c经过fscale操作分为c/2:
b1=b2=fscale(x)//对特征向量进行通道变换操作;
2)每组特征向量经过最大池化Fmax选取特征图感受野每个区域的最大值,然后经过全连接运算fc进行空间特征的学习,最后经过fscale操作将其通道数恢复至开始时的特征向量:
b1 final=b2 final=fscale(fc(Fmax(b1)))//表示对特征向量进行最大池化、全连接、通道变换操作;
由fscale操作生成的特征向量b1 final,b2 final和步骤(1)的时间特征T作为注意力网络的输入;首先由特征向量b1 final,b2 final做矩阵乘法,
Figure GDA0002418720860000041
由于softmax为会饱和的激活函数,为了避免进入饱和区域,用Mat(b1,b2)除以/>
Figure GDA0002418720860000042
b为batch-size,然后进行softmax归一化操作得到的结果作为注意力分数;
3)注意力分数与时间特征T做逐元素乘法,得到的结果作为注意力特征向量:
Figure GDA0002418720860000043
//通过softmax得到注意力特征向量。
本发明的有益效果是:该方法在HMDB51数据集中进行了训练,测试及验证试验,HMDB51数据集有51个动作类别,7000多种短视频。该方法全部使用卷积核为1的空间和时间卷积,以减少参数规模,实现降维,然后使用两阶段注意力进行细粒度的空间特征学习,提高网络性能。与以往的C3D,R3D,R2Plus1D网络相比,具有较高的准确率。
附图说明
图1为本发明的总体网络架构图。
图2为本发明第1阶段,局部梯度空间特征学习流程图。
图3为本发明第2阶段,细粒度空间特征学习流程图。
图4,图5分别为本发明第3阶段的局部功能块注意力网络的总体结构和块内注意力具体结构图。
具体实施方式
本发明提供了1种短视频人物动作识别模型。下面详细描述使用本发明方法做短视频人物动作识别的详细过程。
设向量X={x1,x2...,xn}为原始特征,spatial1x1,spatial3x3,temporal1x1分别表示卷积核为1和3的空间卷积和时间卷积,sigmoid,relu表示激活函数,fc,Fmax分别表示全连接运算,最大池化操作,b1,b2表示两个分支的空间特征,lossCross,ψ,W,b1 1分别表示损失函数、神经网络函数、权重矩阵和分支一的空间特征,
Figure GDA0002418720860000053
Wj new分别表示损失梯度、权重、b1 final,b2 final,feature分别表示2组空间特征和融合后的特征向量,g,h表示高斯函数,softmax表示归一化,score表示注意力分数,featurevec表示注意力特征向量,fscale表示深度学习框架pytorch中的reshape函数,对特征向量的维度及通道数进行操作,T表示时间特征,Mat表示矩阵乘法,,linear表示pytorch中的MLP前馈神经网络函数。
第一步:局部梯度空间特征学习:
1 b1=b2=sigmoid(spatial1x1(x))//表示进行1x1空间维度卷积网络提取特征
2 T=temporal1x1(x)//表示1x1时间维度卷积网络提取特征
3 b1 1=fc(Fmax(b1))//表示最大池化、全连接处理空间特征
4 Lossspatial=lossCross(ψ(W,b1 1),x)//表示空间特征损失函数,ψ为神经网络函数
5
Figure GDA0002418720860000051
//梯度迭代计算
6
Figure GDA0002418720860000052
//权重迭代学习
7 b1 final=linear(Wj new*b1 1+bias)//线性层学习空间特征
8 b2 final=fc(Fmax(b2))//最大池化、全连接处理空间特征
9
Figure GDA0002418720860000061
//逐元素加法
10 x1=x2=relu(spatial3x3(feature))//3x3空间维度卷积提取特征
第二步:细粒度空间特征学习:
1
Figure GDA0002418720860000062
//高斯函数学习特征
2
Figure GDA0002418720860000063
//矩阵乘法
3 score=softmax(φ(g(x1),h(x2)))//softmax归一化
4 featurevec=spatial1x1(∑score·x)//1x1空间维度卷积网络提取注意力特征向量
第三步:块内注意力网络:
1 b1=b2=reshape(featurevec)//对特征向量进行通道变换
2 b1 final=b2 final=reshape(fc(Fmax(b1)))//对特征向量进行最大池化,全连接,通道变换
3
Figure GDA0002418720860000064
//归一化得到注意力特征向量
表1为基线网络和本文网络结构对比
表1网络结构图对比
Figure GDA0002418720860000071
表1中的网络从左至右依次按照参数规模进行排序。四个网络都使用ResNet作为骨干网络,层数为4、6、6、3。其中C3D,R2Plus1D,R3D是基线模型,区域型3维卷积网络(C3D)和空间时间卷积(R2Plus1D)网络使用的参数步长为2,卷积核为3x3。R3D使用7x7的卷积,步长为2,然后经过最大池化。本发明的模型首先使用1x1的卷积核,sigmoid函数做预处理。表1Block-in transformer列中的注意力网络解释为三阶段计算流程,分别是:局部梯度空间特征学习,细粒度空间特征学习,块内注意力网络。最后,所有的模型都通过全局平均池化和全连接层,然后进行分类。
下面结合真实数据集详细描述试验结果。
试验数据集为HMDB51。其中HMDB51数据集包含51个动作类别,7000多个短视频。表2给出了各个网络模型的骨干网络,参数量以及精确度。从表中可以看出,本发明模型(Block-in transformer)在参数量上少于基线模型,在精确度上高于基线模型:
表2基线模型与本发明模型在HMDB51数据集下的对比试验
Figure GDA0002418720860000081
对每个试验数据集,把它拆分为训练集train,测试集test,验证集val。首先,分别应用三种不同的基线(baseline)模型分别在训练集上进行训练,三种网络模型分别为:区域型3维卷积网络(C3D),空间时间卷积(R2Plus1D),3维卷积网络(R3D)、本发明的Block-intransformer注意力网络。其中,设置训练周期epoch为100,学习率lr对于4中不同的网络有不同的设定:C3D网络当学习率lr设定为0.1时会出现loss NAN,故设定为0.0001,R2Plus1D和R3D的lr设定0.001,发明的Block-in transformer注意力网络lr设定0.01。每个50个epoch进行保存,骨干网络(backbone)使用ResNet-51。

Claims (1)

1.一种用于识别视频中人物动作的方法,其特征是:包括如下(1)-(3)步骤:
(1)局部梯度空间特征学习:使用一种空间卷积网络和时间卷积网络分别提取短视频中每一帧的空间特征和时间特征,然后对空间特征进行初步学习;具体步骤如下[1]-[4]:
[1]使用空间卷积spatial提取特征,经过sigmoid函数后将特征分成两组空间特征b1,b2,然后用时间卷积temporal提取时间特征T:
b1=b2=sigmoid(spatial(x)),即在空间维度提取特征并分为b1,b2;
T=temporal(x),在时间维度提取特征T;
两组空间特征同时经过最大池化操作Fmax,其中1组通过全连接运算fc对空间特征进行学习:
b1 1=fc(Fmax(b1))使用最大池化和全连接运算处理空间特征;
[2]将空间特征b1 1与原始空间特征x同时作为损失函数
Figure QLYQS_1
的输入,即用于多分类的交叉熵损失函数,定义空间特征损失函数符号Lossspatial,使用权重矩阵为W的神经网络函数ψ对特征b1 1进行预测:
Lossspatial=lossCross(ψ(W,b1 1),x)
[3]从空间特征损失函数Lossspatial的梯度▽Wnew中学习权值Wnew,权值Wnew与空间特征b1 1同时作为偏差为bias的线性层linear的输入,学习率为μ,进而得到这个分支的空间特征b1 final
▽Wj new=▽Wj old-μ▽WLossspatial
Wj new=Wj old+▽Wj new
b1 final=linear(W1 new*b1 1+bias)
此时另1组空间特征经过最大池化Fmax的空间特征b2,通过全连接运算fc进行学习,得到这组空间特征b2 final
b2 final=fc(Fmax(b2))
[4]由上下2组生成的特征向量做逐元素加法的运算,生成的结果作为卷积核为3的空间卷积的输入,增加空间特征的感受野以此来学习更大范围的局部信息,经过空间卷积后,分成2组同时使用非线性操作relu:
Figure QLYQS_2
x1=x2=relu(spatial(feature))
(2)细粒度空间特征学习:利用运算模块对空间特征进行细粒度学习,对步骤(1)生成的空间特征通过高斯函数进行学习,然后使用注意力机制选择空间特征中权重较大的特征向量生成注意力分数,最后用逐元素乘法生成的结果作为注意力特征向量;具体步骤如下[1]-[3]:
[1]由步骤(1)生成的两个分支的特征向量x1,x2作为输入,首先用两个高斯函数g,h进行空间特征学习,同时为了防止高斯函数过饱和,即在接近0的位置,导数变化大,远离0的位置,函数值趋近于0或1,导数几乎不变;所以在这个范围内变量变化无法引起导数的有效改变,设置
Figure QLYQS_3
避免饱和,d=max(1,c/b),c为输入特征向量的通道数,b为batch-size的大小;/>
Figure QLYQS_4
Figure QLYQS_5
[2]定义函数Mat做矩阵乘法操作:
Figure QLYQS_6
对于注意力,使用softmax进行归一化得到的结果作为注意力分数score:
score=softmax(φ(g(x1),h(x2)))
[3]生成的注意力分数score经过神经网络函数f,以此生成注意力特征向量featurevec:
featurevec=f(∑score·x)
(3)块内注意力网络:利用局部功能注意力模块,以步骤(2)生成的结果作为空间特征向量,并与步骤(1)的时间特征作为输入,利用注意力模块继续选择空间特征中权重较大的特征向量,与时间特征做逐元素乘法,得到注意力特征向量;具体步骤如下[1]-[4]:
[1]将步骤(2)最后生成的注意力特征向量作为输入值,首先输入特征向量x’的通道数用c’表示,x’被分为两组,每组的通道数c’经过fscale操作分为c’/2:
b1=b2=fscale(x')
[2]每组特征向量经过最大池化Fmax选取特征图感受野每个区域的最大值,然后经过全连接运算fc进行空间特征的学习,最后经过fscale操作将其通道数恢复至开始时的特征向量:
b1 final=b2 final=fscale(fc(Fmax(b1)))
由fscale操作生成的特征向量b1 final,b2 final和步骤(1)的时间特征T作为注意力网络的输入;首先由特征向量b1 final,b2 final做矩阵乘法,
Figure QLYQS_7
由于softmax为会饱和的激活函数,为了避免进入饱和区域,用/>
Figure QLYQS_8
除以/>
Figure QLYQS_9
b为batch-size,然后进行softmax归一化操作得到的结果作为注意力分数;
[3]注意力分数与时间特征T做逐元素乘法,得到的结果作为注意力特征向量:
Figure QLYQS_10
[4]最后,把上述结果通过全局平均池化和全连接层,然后进行动作分类。
CN202010021860.9A 2020-01-09 2020-01-09 一种用于识别视频中人物动作的方法 Active CN111241996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010021860.9A CN111241996B (zh) 2020-01-09 2020-01-09 一种用于识别视频中人物动作的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010021860.9A CN111241996B (zh) 2020-01-09 2020-01-09 一种用于识别视频中人物动作的方法

Publications (2)

Publication Number Publication Date
CN111241996A CN111241996A (zh) 2020-06-05
CN111241996B true CN111241996B (zh) 2023-06-02

Family

ID=70865294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010021860.9A Active CN111241996B (zh) 2020-01-09 2020-01-09 一种用于识别视频中人物动作的方法

Country Status (1)

Country Link
CN (1) CN111241996B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814562A (zh) * 2020-06-11 2020-10-23 浙江大华技术股份有限公司 车辆的识别方法、车辆识别模型的训练方法及相关装置
CN111753137B (zh) * 2020-06-29 2022-05-03 四川长虹电器股份有限公司 一种基于语音特征的视频搜索方法
CN111783699A (zh) * 2020-07-06 2020-10-16 周书田 一种基于高效分解卷积与时间金字塔网络的视频人脸识别方法
CN111897995A (zh) * 2020-08-04 2020-11-06 成都井之丽科技有限公司 视频特征提取方法及应用该方法的视频量化方法
CN112149568A (zh) * 2020-09-23 2020-12-29 创新奇智(合肥)科技有限公司 短视频定位方法、装置、电子设备及计算机可读存储介质
CN112231516B (zh) * 2020-09-29 2024-02-27 北京三快在线科技有限公司 视频摘要生成模型的训练方法、视频摘要生成方法及装置
CN112712117B (zh) * 2020-12-30 2024-03-26 银江技术股份有限公司 一种基于全卷积注意力的多元时间序列分类方法及系统
CN112990126B (zh) * 2021-04-27 2021-08-13 北京世纪好未来教育科技有限公司 视频分类方法、装置、计算机设备和介质
CN113468980B (zh) * 2021-06-11 2024-05-31 浙江大华技术股份有限公司 一种人体行为识别方法及相关装置
CN113869182B (zh) * 2021-09-24 2024-05-31 北京理工大学 一种视频异常检测网络及其训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110148138A (zh) * 2019-05-23 2019-08-20 南京信息工程大学 一种基于双重调制的视频目标分割方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11521044B2 (en) * 2018-05-17 2022-12-06 International Business Machines Corporation Action detection by exploiting motion in receptive fields

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597539A (zh) * 2018-02-09 2018-09-28 桂林电子科技大学 基于参数迁移和语谱图的语音情感识别方法
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN110110601A (zh) * 2019-04-04 2019-08-09 深圳久凌软件技术有限公司 基于多时空注意力模型的视频行人重识别算法及装置
CN110148138A (zh) * 2019-05-23 2019-08-20 南京信息工程大学 一种基于双重调制的视频目标分割方法
CN110533084A (zh) * 2019-08-12 2019-12-03 长安大学 一种基于自注意力机制的多尺度目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Closer Look at Spatiotemporal Convolutions for Action Recognition;Du Tran1等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;6450-6459 *
Sta:Spatial-temporal Attention for Large-scale Video-based Person Re-identification;Yang Fu等;《Proceedings of the AAAI Conference on Artificial Intelligence》;20190717;第33卷(第01期);8287-8294 *
基于时空注意力机制的行为识别方法;陈建宇等;《中国体视学与图像分析》;20191225;第24卷(第04期);325-333 *

Also Published As

Publication number Publication date
CN111241996A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241996B (zh) 一种用于识别视频中人物动作的方法
Gholamalinezhad et al. Pooling methods in deep neural networks, a review
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
Woo et al. Cbam: Convolutional block attention module
CN109472194B (zh) 一种基于cblstm算法模型的运动想象脑电信号特征识别方法
Cheng et al. Facial expression recognition method based on improved VGG convolutional neural network
Feng et al. Residual learning for salient object detection
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
CN113920581B (zh) 一种时空卷积注意力网络用于视频中动作识别的方法
Bae Object detection based on region decomposition and assembly
Zhang et al. Deep manifold-to-manifold transforming network for skeleton-based action recognition
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN108416780A (zh) 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法
CN112633180B (zh) 一种基于对偶记忆模块的视频异常检测方法及系统
CN113033452B (zh) 融合通道注意力和选择性特征融合机制的唇语识别方法
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
Shi et al. Remote sensing scene classification based on multibranch fusion attention network
Zhao et al. Cbph-net: A small object detector for behavior recognition in classroom scenarios
Singh et al. SVD-based redundancy removal in 1-D CNNs for acoustic scene classification
Ahmed et al. Evaluation of handwritten Urdu text by integration of MNIST dataset learning experience
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
CN114863572A (zh) 一种多通道异构传感器的肌电手势识别方法
Liu et al. CCH-YOLOX: Improved YOLOX for Challenging Vehicle Detection from UAV Images
Wu et al. Exponential information bottleneck theory against intra-attribute variations for pedestrian attribute recognition
Shah et al. Real-time facial emotion recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200605

Assignee: Guangxi wisdom Valley Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2023980045638

Denomination of invention: A Method for Identifying Character Actions in Videos

Granted publication date: 20230602

License type: Common License

Record date: 20231105