CN115546885A - 一种基于增强时空特征的动作识别方法及系统 - Google Patents

一种基于增强时空特征的动作识别方法及系统 Download PDF

Info

Publication number
CN115546885A
CN115546885A CN202110648022.9A CN202110648022A CN115546885A CN 115546885 A CN115546885 A CN 115546885A CN 202110648022 A CN202110648022 A CN 202110648022A CN 115546885 A CN115546885 A CN 115546885A
Authority
CN
China
Prior art keywords
channel
output
max
video
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110648022.9A
Other languages
English (en)
Inventor
徐超
刘晓超
孟昭鹏
胡静
肖健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110648022.9A priority Critical patent/CN115546885A/zh
Publication of CN115546885A publication Critical patent/CN115546885A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于增强时空特征的动作识别方法及系统,该方法包括以下步骤:确定数据集、获取输入数据、实现通道级的运动信息增强、实现时空特征聚合、多分支输出和设计模型训练细节。本发明通过采用对视频稀疏采样的策略,既可以去除冗余信息,还可以获取到不同时间跨度中的信息;通过通道级的运动信息增强为特征图的各个特征通道赋予权值,促进有益信息并抑制干扰信息,为后续特征提取打下基础;通过时空特征聚合以很低的计算成本对时空上下文信息建模,将相邻帧的特征以自适应的方式实现融合;通过多分支输出进一步对视频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补充。

Description

一种基于增强时空特征的动作识别方法及系统
发明领域
本发明属于计算机视觉与视频分类技术领域,尤其涉及一种基于 增强时空特征的动作识别方法及系统。
背景技术
视频中的动作识别是计算机视觉中最重要的问题之一,它能够从 视频中提取语义信息,这使得它有丰富的应用前景,如患者监测,运 动分析,智能视频监控和人机交互等。同时,动作识别提取到的语义 信息还能为其他计算机视觉任务(如动作检测和定位等)提供视频特 征。因为视频本质上就是由多张图像在时间维度上堆叠而形成,因此 视频与图像有着天然的联系,所以早期的动作识别方法通常是由图像 识别方法修改和扩展得到的,如基于局部时空特征的浅层高维编码, 包括HOG3D,SIFT-3D。
随着深度学习的飞速发展,CNN在图像识别领域取得了很好的 效果,但是将2DCNN直接应用到视频中的动作识别领域识别结果并 不佳,利用2D CNN直接进行视频识别时只能对输入视频的每一帧进 行分类并整合所有帧的分类结果,但忽略了时间信息,而时间维度上 帧与帧之间所包含的运动特征对于视频分类是至关重要的。
为了提取时间维度上的运动特征,2D网络通常采用双流结构, 两个流分别提取空间特征和时间特征,空间分支将RGB帧作为输入, 时间分支将光流作为输入,因为光流是由像素点的瞬时位移矢量定义 的,包含运动信息,最后将两个网络分支的分类分数进行融合得到最 终的分类结果,但是一旦使用光流就需要面临额外的离线计算和存储 空间的挑战,并且网络结构不能实现端到端,这也是双流结构的弊端。
为了实现端到端提取时间维度特征,有学者提出了3D卷积方法。 与2D卷积不同,3D卷积需要将堆叠的视频帧作为输入,然后利用 3D卷积核从该输入中直接提取时空特征。虽然利用3D卷积提取时 空特征是十分自然并且容易理解,但卷积核从2D到3D的扩展增加了很多计算量,对比2D卷积,对计算资源要求更高。
除了卷积,还可以利用运动信息提取模块获取运动特征。shift 操作在运动信息提取模块中运用较多,具体来说,该操作沿时间维度 移动特征图的部分通道,以达到在相邻帧之间交换信息,低成本的提 取时空特征的目的,但一些研究将shift操作视为一种卷积核参数固 定的通道级时间卷积,因为shift操作的参数是人为设置并且不会自 适应更新,所以灵活性不强。
发明内容
基于目前动作识别领域中主要算法的优缺点,本发明的主要目的 在于提供了一种基于增强时空特征的动作识别方法及系统,通过采用 对视频稀疏采样的策略,既可以去除冗余信息,还可以获取到不同时 间跨度中的信息;通过通道级的运动信息增强为特征图的各个特征通 道赋予权值,促进有益信息并抑制干扰信息,为后续特征提取打下基 础;通过时空特征聚合以很低的计算成本对时空上下文信息建模,将 相邻帧的特征以自适应的方式实现融合;通过多分支输出进一步对视 频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特 征进行补充。
为实现上述发明目的,本发明采用了如下技术方案:本发明公开 了一种基于增强时空特征的动作识别方法,包括以下步骤:
S1、确定数据集;动作识别的视频数据集主要分为两类:第一 类包含大量空间信息,这一类数据集有UCF101,HMDB51,Sports-1M 和Kinetics-400等。在这类数据集中,有些动作甚至只需要一帧就可 以识别出来,如“打高尔夫”,“剪头发”,“举重”等动作。因此 识别这类数据集主要依据的就是空间信息,并没有充分利用帧与帧之 间包含的运动信息。第二类外观信息十分有限,包括Jester,Something- SomethingV1&V2等数据集。这种情况下,只依赖单帧无法识别动作, 并且如果调整帧的顺序还会影响识别结果,例如对于动作“在某物的 前面放置某物”而言,如果将帧序列逆序,则会变为动作“移除某物 并露出后面的某物”。所以当使用第二类数据集时,提取帧与帧之间 的时序关系非常重要,此时必须将工作重点放在提取运动特征上。本 方法目标为有效地提取时间维度上的特征,着重识别运动本身的特 点,减少对背景中外观信息的依赖,因此选择Something-Something V1 数据集。
S2、获取输入数据,使用稀疏采样,将视频V分为T个片段, 在T个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由 一个视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其 中T为时间维度上的值,C为通道数,H和W分别为经过裁剪后帧 的高和宽;现有技术会在视频中采样连续帧作为输入数据,但是连续 帧之间会存在大量冗余,且密集采样会增加计算成本,因此本发明使 用系数采样代替密集采样,这样既可以去除冗余信息,还可以采样到 不同时间跨度中的帧。
S3、实现通道级的运动信息增强,具体步骤如下:
S31、将输入数据通过一个1*1的2D卷积层Convsp,得到特 征图X=Convsp(Xin),X∈RT*C/r*H*W,其中r=16;
S32、将X在T维度上分割,得到第t帧对应的特征图xt∈ R1*C/r*H*W
S33、将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算 相邻两帧特征图之间的差异作为t时刻的运动特征:Δxt= Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W,时间T对应的ΔxT由第T帧的 原始特征图xT直接复制得到,将所有Δxt(1≤t≤T)在T维度上拼接 后得到特征图M,M∈RT*C/r*H*W,这样时间维度可以与求差之前的 维度保持一致;
S34、能够求各个通道的权值,使用一个全局平均池化层压缩 全局空间信息为通道描述符:
Figure BDA0003110610180000041
其中MS∈ RT*C/r*1*1
S35、将MS特征通过另一个1*1的2D卷积层Convex,将通道 数恢复为C,并将sigmoid(δ)作为激活函数计算各通道的权值,此处 将原本权值的范围从[0,1]扩展到[-1,1];
S=2δ*Convex(MS)-1,S∈RT*C*1*1
S36、将权值与输入特征图按通道相乘,达到调整各通道特征 值响应值的作用,使用了一个残差结构,在加强运动信息的同时,不 将背景信息大量丢失,最终得到通道级运动信息增强模块的输出:
Figure BDA0003110610180000051
其中
Figure BDA0003110610180000052
为按通道相乘;
S4、实现时空特征聚合,通过通道级运动信息增强模块增强了 与运动相关的特征后,紧接着使用时空特征聚合模块,达到以很低的 计算成本对时空上下文信息建模的目的,具体步骤如下:
S41、改变特征图XO∈RT*C*H*W的形状为XO→Xre∈RHW*C*T
S42、在Xre的时间T维度上应用一个卷积核大小为3的通道级 的1D卷积:
Figure BDA0003110610180000053
其中
Figure BDA0003110610180000054
为属于通道c 的卷积核权重,i∈{-1,0,1},这意味着第帧的特征与第和帧的特征 进行交互。这样做有两个好处。首先,对比人工固定参数的shift操 作,采用通道级别的T方向的一维卷积,同样可以达到当前帧的特征 图包含相邻帧信息的效果,并且是自适应地学习如何融合特征可以达 到最佳效果,减少了人为设置参数的随机性。其次,对比采用光流法 或者3D卷积获取时空特征,采用1D卷积节约了大量的计算成本。 最后将改变的形状为常规特征图,得到时空特征聚合模块的最终输 出:
Figure BDA0003110610180000055
S5、进行多分支输出;
S6、设计模型训练细节,在模型训练阶段对训练集中的每个视 频都采样8帧,对于每一帧,首先将其较短边长度调整为256,然后 采用中心裁剪的方式得到最终的输入尺寸为224*224,对网络共训练 50个epoch,初始学习率设置为0.0025,在第30、40和45epoch将学习率更改为之前学习率的十分之一,使用动量为0.9且权重衰减为 1e-4的SGD在TeslaK80 GPU上使用16的最小批处理量来训练该网 络模型,且每训练完一个epoch就使用验证集验证一次。
进一步的,在S1中,选择Something-Something V1数据集,包 括与常见对象互动的日常动作,V1包括108499条视频剪辑,有174 个动作类别。
进一步的,在S5中,多分支输出采用3个分类分支输出,并将 3个分类分支输出共同训练得到最终分类结果。
进一步的,3个分类分支输出包括:
第一个输出为Outmean,是ResNet50网络中常见的输出层结构, 在全连接层前使用全局平均池化层,聚合各个视频所有输入帧的时空 信息,捕获该视频的全局信息,但同时也会限制了分类器对局部特征 的学习;
第二个输出为Outmax,由Fmax通过Output Layers(输出层)后得 到;
第三个输出为Outchannel,考虑到虽然细粒度特征提取器共捕获 到了N*C个局部特征,但是并不能保证每个类别都提取到了N个局 部特征,在全局最大池化层Max后另开分支,使用一个cross-channel 池化层,对每N个响应求均值之后自然地分为C类得到;Outmax和Outchannel的设计都是为了学习视频中包含关键信息的局部特征, 目的是和Outmean的信息进行互补,这两个输出在计算的前半部分共 享网络,这样做可以在网络训练的过程中使这N个卷积核更加关注 专属于此类别的局部特征;
其中,Fmax为一个全局最大池化层Max获取所有特征中响应最 大的部分,N为从每个类中提取局部特征的个数,C为视频的总类别, OutputLayers(输出层)由一个1*1的2D卷积层、一个全局平均池 化层、一个全连接层和损失函数层组成。
进一步的,Fmax=Max(ConvL(F)),Fmax的具体步骤如下:
S51、将网络中第四个ESTblock的输出特征图identityy4进行 双线性上采样,并与第三个ESTblock的输出特征图identityy3在通道 维度上进行拼接得到特征图F,这样做可以提供包含更加精细细节的 特征图,为后续进一步提取特征图局部信息提供条件;
S52、使用1*1的2D卷积层ConvL作为细粒度特征提取器,卷 积核个数设置为N*C,其中N为从每个类中提取局部特征的个数,C 为视频的总类别,因此细粒度特征提取器目的是对C个类别中的每 个类别检测N种特定的局部特征。
S53、采用一个全局最大池化层Max获取所有特征中响应最大 的部分作为网络提取到的局部特征Fmax
进一步的,对于Outmean、Outmax和Outchannel,都采用标准交叉 熵损失函数,分别定义为lossmean,lossmax和losschannel,以促使每个 输出都单独学习,最终用来训练的loss是由这三个loss直接求和得 到:loss=lossmean+lossmax+losschannel
本发明还公开了一种基于增强时空特征的动作识别系统,包括:
输入模块,用于处理视频数据,将视频数据进行稀疏采样,采样 不同时间跨度中的帧;
通道级的运动信息增强模块,用于计算特征图的运动特征,并且 利用注意力网络根据运动信息的丰富程度为各个通道赋予权值;
时空特征聚合模块,用于在运动信息进行增强后,对时空上下文 建模,将相邻帧的特征以自适应的方式实现融合;
多分支输出模块,对视频提取高级的局部特征,对原始骨干网络 单一输出层提取到的全局特征进行补充。
其中,现有技术会在视频中采样连续帧作为输入数据,但是连续 帧之间会存在大量冗余,且密集采样会增加计算成本,因此本发明在 输入模块使用系数采样代替密集采样,这样既可以去除冗余信息,还 可以采样到不同时间跨度中的帧;
本发明使用通道级的运动信息增强模块,首先可以将计算差异的 过程融入到网络建模中,实现网络端到端训练;同时,特征图相比 RGB帧传达了更多的语义信息,对特征图操作可以进一步提取高级 特征。一般来说,特征图的不同通道提取到的特征不同,为了有选择 性地加强有用特征并抑制无用特征,本发明将计算特征图级别的运动 特征并将其作为注意力模块的输入,自适应地调整各通道的特征响应 值;
本发明使用时空特征聚合模块,首先,相对于TSM采用人工设 定参数的shift操作,采用通道级别的时间维度的一维卷积,同样可 以达到当前帧的特征图包含相邻帧信息的效果,并且这是一个自适应 学习的过程,减少了人为设置参数的随机性。其次,相对于采用光流 法或者3D卷积获取时空特征,我们采用1D卷积节约了大量的计算 成本;
本发明的多分支输出模块中使用一个1*1的2D卷积核,作为细 粒度特征提取器,卷积核个数设置为N*C,用于在C个类别中各检 测N种特定的局部特征,接着再利用一个全局最大池化层获取所有 特征中响应最大的部分作为第二个输出,但这个输出并不能保证每N 个局部特征就属于同一类别,为了解决这个问题,在全局最大池化层 之后使用1*1卷积,将N*C个响应每N个特征求一个均值,结果就 自然地分为C类,同时得到第三个输出。
相对于现有技术而言,本发明至少包括以下有益效果:本发明采 用深度学习的方式对视频中的动作进行特征提取最终以达到对其分 类的目的。首先,通过采用对视频稀疏采样的策略,既可以去除冗余 信息,还可以获取到不同时间跨度中的信息;其次,通过通道级的运 动信息增强为特征图的各个特征通道赋予权值,促进有益信息并抑制 干扰信息,为后续特征提取打下基础;再次,通过时空特征聚合以很 低的计算成本对时空上下文信息建模,将相邻帧的特征以自适应的方 式实现融合;最后,通过多分支输出进一步对视频提取高级的局部特 征,对原始骨干网络单一输出层提取到的全局特征进行补充。
附图说明
图1为本发明的基于增强时空特征的动作识别方法的流程图;
图2为本发明的基于增强时空特征的动作识别方法的整体方法 框架图。
具体实施方式
为使本发明更加容易理解,下面结合附图对本发明作进一步说 明,但是,本发明可以以多种不同形式实现,并不限于本文所描述的 实施例,也不构成对本发明的任何限制。
如图1~2所示,本实施例以ResNet50网络作为基础骨干网络, 将通道级的运动信息增强模块和时空特征聚合模块插入到每个 ResNet-Block中,构成本方法的基本模块ESTblock。
步骤一:确定数据集。
动作识别的视频数据集主要分为两类:第一类包含大量空间信 息,这一类数据集有UCF101,HMDB51,Sports-1M和Kinetics-400 等。在这类数据集中,有些动作甚至只需要一帧就可以识别出来,如 “打高尔夫”,“剪头发”,“举重”等动作。因此识别这类数据集 主要依据的就是空间信息,并没有充分利用帧与帧之间包含的运动信 息。第二类外观信息十分有限,包括Jester,Something-Something V1&V2等数据集。这种情况下,只依赖单帧无法识别动作,并且如 果调整帧的顺序还会影响识别结果,例如对于动作“在某物的前面放 置某物”而言,如果将帧序列逆序,则会变为动作“移除某物并露出 后面的某物”。所以当使用第二类数据集时,提取帧与帧之间的时序 关系非常重要,此时必须将重点放在提取运动特征上。本实施例的目 标为有效地提取时间维度上的特征,着重识别运动本身的特点,减少对背景中外观信息的依赖,因此选择Something-Something V1数据 集。具体来说,Something-SomethingV1数据集包含与常见对象互动 的日常动作,着重于运动本身,而不区分被操纵的对象。V1包括 108499视频剪辑,有174个动作类别。
步骤二:输入数据的获取。
相对于现有技术中,会在视频中采样连续帧作为输入数据,但是 连续帧之间会存在大量冗余,且密集采样会增加计算成本,本实施例 使用稀疏采样代替密集采样,这样既可以去除冗余信息,还可以采样 到不同时间跨度中的帧。具体来说,将视频V分为T个片段,在T 个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由一个 视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其中T为 时间维度上的值,C为通道数,H和W分别为经过裁剪后帧的高和 宽。
步骤三:实现通道级的运动信息增强(CME)。
首先将输入数据通过一个1*1的2D卷积层COnvsp,初步进行空 间特征的提取并对特征图降维,得到特征图X=Convsp(Xin),X∈ RT*C/r*H*W,其中r=16。
然后将X在T维度上分割,得到第t帧对应的特征图xt∈ R1*C/r*H*W
接下来将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算 相邻两帧特征图之间的差异作为t时刻的运动特征:
Δxt=Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W
本实施例定义时间T对应的ΔxT由第T帧的原始特征图xT直接复 制得到。将所有Δxt(1≤t≤T)在T维度上拼接后得到特征图M,M∈ RT*C/r*H*W,这样时间维度可以与求差之前的维度保持一致。
为了求各个通道的权值,本实施例首先使用一个全局平均池化层 压缩全局空间信息为通道描述符:
Figure BDA0003110610180000111
其中MS∈RT*C/r*1*1。再将特征MS通过另一个1*1的2D卷积层 Convex,将通道数恢复为C,并将sigmoid(δ)作为激活函数计算各通 道的权值S,此处将原本权值的范围从[0,1]扩展到[-1,1]。
S=2δ*Convex(MS)-1,S∈RT*C*1*1
该模块的最后一步就是将权值与输入特征图按通道相乘,达到调 整各通道特征值响应值的作用。本方法使用了一个残差结构,在加强 运动信息的同时,不将背景信息大量丢失。最终得到通道级运动信息 增强模块的输出:
Figure BDA0003110610180000121
其中
Figure BDA0003110610180000122
定义为按通道相乘。
步骤四:实现时空特征聚合(STA)。
通过通道级运动信息增强模块增强了与运动相关的特征后,本方 法紧接着使用时空特征聚合模块,达到以很低的计算成本对时空上下 文信息建模的目的。
对于特征图XO∈RT*C*H*W,首先改变它的形状为XO→Xre∈ RHW*C*T,然后在Xre的时间T维度上应用一个卷积核大小为3的通道 级的1D卷积:
Figure BDA0003110610180000123
其中
Figure BDA0003110610180000124
表示属于通道c的卷积核权重,因为卷积核大小为3所以 i∈{-1,0,1},这意味着第t帧的特征与第t-1和t+1帧的特征进行 交互。上述方法有两个好处,首先,对比人工固定参数的shift操作, 采用通道级别的T方向的一维卷积,同样可以达到当前帧的特征图包 含相邻帧信息的效果,并且是自适应地学习如何融合特征可以达到最 佳效果,减少了人为设置参数的随机性。其次,对比采用光流法或者 3D卷积获取时空特征,采用1D卷积节约了大量的计算成本。最后 将改变
Figure BDA0003110610180000125
的形状为常规特征图,得到时空特征聚合模块的最终输出:
Figure BDA0003110610180000126
步骤五:多分支输出。本实施例在网络的最后分类阶段采用3个 分类分支,并将他们共同训练得到最终分类结果。本发明定义Output Layers由一个1*1的2D卷积层、一个全局平均池化层、一个全连接 层和损失函数层组成。
(1)第一个输出记为Outmean,是ResNet50网络中常见的输出 层结构,在全连接层前使用全局平均池化层,聚合各个视频所有输入 帧的时空信息,捕获该视频的全局信息,但同时也会限制了分类器对 局部特征的学习。
(2)第二个输出Outmax和第三个输出Outchannel的设计都是为了 学习视频中包含关键信息的局部特征,目的是和第一个输出的信息进 行互补。这两个输出在计算的前半部分共享网络。在本实施例中将网 络中第四个EST block的输出特征图identityy4进行双线性上采样,并 与第三个EST block的输出特征图identityy3在通道维度上进行拼接 得到特征图F,这样做可以提供包含更加精细细节的特征图,为后续 进一步提取特征图局部信息提供条件。接着本实施例使用1*1的2D 卷积层ConvL作为细粒度特征提取器,卷积核个数设置为N*C,其中 N代表将要从每个类中提取局部特征的个数,本实施例设置此超参数 的值为5,C代表视频的总类别,因此细粒度特征提取器目的是对C 个类别中的每个类别检测N种特定的局部特征。接着再采用一个全 局最大池化层Max获取所有特征中响应最大的部分作为网络提取到 的局部特征Fmax。以上这些步骤可以表示为:
Fmax=Max(ConvL(F))
第二个输出Outmax是将Fmax通过Output Layers(输出层)后得到 的。
(3)考虑到虽然细粒度特征提取器ConvL共捕获到了N*C个局 部特征,但是并不能保证每个类别都提取到了N个局部特征。为了 解决这个问题,本实施例在全局最大池化层Max后另开分支,使用 一个cross-channel池化层,对每N个响应求均值之后自然地分为C类,这样就得到第三个输出Outchannel。这样做可以在网络训练的过 程中使这N个卷积核更加关注专属于此类别的局部特征。
对于每个输出,本实施例都采用标准交叉熵损失函数,分别定义 为lossmean,lossmax和losschannel,以促使每个输出都单独学习。最终 用来训练的loss是由这三个loss直接求和得到:
loss=lossmean+lossmax+losschannel
步骤六:设计模型训练细节。将视频分为训练集与验证集,在模 型训练阶段对训练集中的每个视频都采样8帧,对于每一帧,首先将 其较短边长度调整为256,然后采用中心裁剪的方式得到最终的输入 尺寸为224*224。本实施例对网络共训练50个epoch,初始学习率设 置为0.0025,然后在第30、40和45epoch将学习率更改为之前学习 率的十分之一。本实施例使用动量为0.9且权重衰减为1e-4的SGD (随机梯度下降)在型号Tesla K80 GPU上使用16的最小批处理量 来训练该网络模型。本实施例采用每训练完一个epoch就使用验证集 验证一次的方式,最终实验结果中展示的的准确率为所有验证结果中 的最高值,其中,epoch为使用训练集的全部数据对模型进行一次完 整的训练。
本实施例采用深度学习的方式对视频中的动作进行特征提取最 终以达到对其分类的目的。首先采用对视频稀疏采样的策略,既可以 去除冗余信息,还可以获取到不同时间跨度中的信息;其次,通过通 道级的运动信息增强为特征图的各个特征通道赋予权值,促进有益信 息并抑制干扰信息,为后续特征提取打下基础;再次,通过时空特征 聚合以很低的计算成本对时空上下文信息建模,将相邻帧的特征以自 适应的方式实现融合;最后,通过多分支输出进一步对视频提取高级 的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补 充。
以上内容是结合具体的实施方式对本申请所作的进一步详细说 明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属 技术领域的普通技术人员来说,在不脱离本申请发明构思的前提下, 还可以做出若干简单推演或替换。

Claims (7)

1.一种基于增强时空特征的动作识别方法,其特征在于,包括以下步骤:
S1、确定数据集;
S2、获取输入数据,使用稀疏采样,将视频V分为T个片段,在T个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由一个视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其中T为时间维度上的值,C为通道数,H和W分别为经过裁剪后帧的高和宽;
S3、实现通道级的运动信息增强,具体步骤如下:
S31、将输入数据通过一个1*1的2D卷积层Convsp,得到特征图X=Convsp(Xin),X∈RT *C/r*H*W,其中r=16;
S32、将X在T维度上分割,得到第t帧对应的特征图xt∈R1*C/r*H*W
S33、将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算相邻两帧特征图之间的差异作为t时刻的运动特征:Δxt=Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W,时间T对应的ΔxT由第T帧的原始特征图xT直接复制得到,将所有Δxt(1≤t≤T)在T维度上拼接后得到特征图M,M∈RT *C/r*H*W
S34、使用一个全局平均池化层压缩全局空间信息为通道描述符:
Figure FDA0003110610170000011
其中MS∈RT*C/r*1*1
S35、将MS特征通过另一个1*1的2D卷积层Convex,将通道数恢复为C,并将sigmoid(δ)作为激活函数计算各通道的权值,此处将原本权值的范围从[0,1]扩展到[-1,1],S=2δ*Convex(MS)-1,S∈RT*C*1*1
S36、将权值与输入特征图按通道相乘得到通道级运动信息增强模块的输出:
Figure FDA0003110610170000021
XO∈RT*C*H*W,其中
Figure FDA0003110610170000022
为按通道相乘;
S4、实现时空特征聚合,具体步骤如下:
S41、改变特征图XO∈RT*C*H*W的形状为XO→Xre∈RHW*C*T
S42、在Xre的时间T维度上应用一个卷积核大小为3的通道级的1D卷积:
Figure FDA0003110610170000023
其中
Figure FDA0003110610170000024
为属于通道c的卷积核权重,i∈{-1,0,1};
S5、进行多分支输出;
S6、设计模型训练细节。
2.根据权利要求1所述的一种基于增强时空特征的动作识别方法,其特征在于,在S1中,选择Something-Something V1数据集,包括与常见对象互动的日常动作,V1包括108499条视频剪辑,有174个动作类别。
3.根据权利要求1所述的一种基于增强时空特征的动作识别方法,其特征在于,在S5中,多分支输出采用3个分类分支输出,并将3个分类分支输出共同训练得到最终分类结果。
4.根据权利要求3所述的一种基于增强时空特征的动作识别方法,其特征在于,3个分类分支输出包括:
第一个输出为Outmean,是残差神经网络中常见的输出层结构;
第二个输出为Outmax,由Fmax通过输出层后得到;
第三个输出为Outchannel,在全局最大池化层Max后另开分支,使用一个cross-channel池化层,对每N个响应求均值之后自然地分为C类得到;
其中,Fmax为一个全局最大池化层Max获取所有特征中响应最大的部分,N为从每个类中提取局部特征的个数,C为视频的总类别,输出层由一个1*1的2D卷积层、一个全局平均池化层、一个全连接层和损失函数层组成。
5.根据权利要求4所述的一种基于增强时空特征的动作识别方法,其特征在于,Fmax的具体步骤如下:
S51、将ResNet50网络中第四个EST block的输出特征图进行双线性上采样,并与第三个EST block的输出特征图在通道维度上进行拼接得到特征图F;
S52、使用1*1的2D卷积层ConvL作为细粒度特征提取器,卷积核个数设置为N*C,其中N为从每个类中提取局部特征的个数,C为视频的总类别;
S53、采用一个全局最大池化层Max获取所有特征中响应最大的部分作为网络提取到的局部特征Fmax,Fmax=Max(ConvL(F))。
6.根据权利要求4所述的一种基于增强时空特征的动作识别方法,其特征在于,对于Outmean、Outmax和Outchannel,都采用标准交叉熵损失函数,分别定义为lossmean,lossmax和losschannel,以促使每个输出都单独学习,最终用来训练的loss是由这三个loss直接求和得到:loss=lossmean+lossmax+losschannel
7.一种基于增强时空特征的动作识别系统,其特征在于,包括:
输入模块,用于处理视频数据,将视频数据进行稀疏采样,采样不同时间跨度中的帧;
通道级的运动信息增强模块,用于计算特征图的运动特征,并且利用注意力网络根据运动信息的丰富程度为各个通道赋予权值;
时空特征聚合模块,用于在运动信息进行增强后,对时空上下文建模,将相邻帧的特征以自适应的方式实现融合;
多分支输出模块,对视频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补充。
CN202110648022.9A 2021-06-10 2021-06-10 一种基于增强时空特征的动作识别方法及系统 Pending CN115546885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110648022.9A CN115546885A (zh) 2021-06-10 2021-06-10 一种基于增强时空特征的动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110648022.9A CN115546885A (zh) 2021-06-10 2021-06-10 一种基于增强时空特征的动作识别方法及系统

Publications (1)

Publication Number Publication Date
CN115546885A true CN115546885A (zh) 2022-12-30

Family

ID=84717149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110648022.9A Pending CN115546885A (zh) 2021-06-10 2021-06-10 一种基于增强时空特征的动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN115546885A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631050B (zh) * 2023-04-20 2024-02-13 北京电信易通信息技术股份有限公司 一种面向智能视频会议的用户行为识别方法及系统

Similar Documents

Publication Publication Date Title
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN106599883B (zh) 一种基于cnn的多层次图像语义的人脸识别方法
CN110032926B (zh) 一种基于深度学习的视频分类方法以及设备
Kim et al. Fully deep blind image quality predictor
Ahmed et al. Image splicing detection using mask-RCNN
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN112686331B (zh) 伪造图像识别模型训练方法及伪造图像识别方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN109815867A (zh) 一种人群密度估计和人流量统计方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN110276248B (zh) 一种基于样本权值分配和深度学习的人脸表情识别方法
CN113221639A (zh) 一种基于多任务学习的代表性au区域提取的微表情识别方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN111476133B (zh) 面向无人驾驶的前背景编解码器网络目标提取方法
Benkaddour et al. Human age and gender classification using convolutional neural network
CN113128360A (zh) 基于深度学习的司机驾驶行为检测与识别方法
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN114255474A (zh) 一种基于多尺度、多粒度行人重识别方法
Prabhu et al. Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism.
CN113033283B (zh) 一种改进的视频分类系统
CN111723600A (zh) 一种基于多任务学习的行人重识别特征描述子
CN115546885A (zh) 一种基于增强时空特征的动作识别方法及系统
Nguyen et al. Skeleton-based hand gesture recognition by learning SPD matrices with neural networks
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination