CN115546885A - 一种基于增强时空特征的动作识别方法及系统 - Google Patents
一种基于增强时空特征的动作识别方法及系统 Download PDFInfo
- Publication number
- CN115546885A CN115546885A CN202110648022.9A CN202110648022A CN115546885A CN 115546885 A CN115546885 A CN 115546885A CN 202110648022 A CN202110648022 A CN 202110648022A CN 115546885 A CN115546885 A CN 115546885A
- Authority
- CN
- China
- Prior art keywords
- channel
- output
- max
- video
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于增强时空特征的动作识别方法及系统,该方法包括以下步骤:确定数据集、获取输入数据、实现通道级的运动信息增强、实现时空特征聚合、多分支输出和设计模型训练细节。本发明通过采用对视频稀疏采样的策略,既可以去除冗余信息,还可以获取到不同时间跨度中的信息;通过通道级的运动信息增强为特征图的各个特征通道赋予权值,促进有益信息并抑制干扰信息,为后续特征提取打下基础;通过时空特征聚合以很低的计算成本对时空上下文信息建模,将相邻帧的特征以自适应的方式实现融合;通过多分支输出进一步对视频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补充。
Description
发明领域
本发明属于计算机视觉与视频分类技术领域,尤其涉及一种基于 增强时空特征的动作识别方法及系统。
背景技术
视频中的动作识别是计算机视觉中最重要的问题之一,它能够从 视频中提取语义信息,这使得它有丰富的应用前景,如患者监测,运 动分析,智能视频监控和人机交互等。同时,动作识别提取到的语义 信息还能为其他计算机视觉任务(如动作检测和定位等)提供视频特 征。因为视频本质上就是由多张图像在时间维度上堆叠而形成,因此 视频与图像有着天然的联系,所以早期的动作识别方法通常是由图像 识别方法修改和扩展得到的,如基于局部时空特征的浅层高维编码, 包括HOG3D,SIFT-3D。
随着深度学习的飞速发展,CNN在图像识别领域取得了很好的 效果,但是将2DCNN直接应用到视频中的动作识别领域识别结果并 不佳,利用2D CNN直接进行视频识别时只能对输入视频的每一帧进 行分类并整合所有帧的分类结果,但忽略了时间信息,而时间维度上 帧与帧之间所包含的运动特征对于视频分类是至关重要的。
为了提取时间维度上的运动特征,2D网络通常采用双流结构, 两个流分别提取空间特征和时间特征,空间分支将RGB帧作为输入, 时间分支将光流作为输入,因为光流是由像素点的瞬时位移矢量定义 的,包含运动信息,最后将两个网络分支的分类分数进行融合得到最 终的分类结果,但是一旦使用光流就需要面临额外的离线计算和存储 空间的挑战,并且网络结构不能实现端到端,这也是双流结构的弊端。
为了实现端到端提取时间维度特征,有学者提出了3D卷积方法。 与2D卷积不同,3D卷积需要将堆叠的视频帧作为输入,然后利用 3D卷积核从该输入中直接提取时空特征。虽然利用3D卷积提取时 空特征是十分自然并且容易理解,但卷积核从2D到3D的扩展增加了很多计算量,对比2D卷积,对计算资源要求更高。
除了卷积,还可以利用运动信息提取模块获取运动特征。shift 操作在运动信息提取模块中运用较多,具体来说,该操作沿时间维度 移动特征图的部分通道,以达到在相邻帧之间交换信息,低成本的提 取时空特征的目的,但一些研究将shift操作视为一种卷积核参数固 定的通道级时间卷积,因为shift操作的参数是人为设置并且不会自 适应更新,所以灵活性不强。
发明内容
基于目前动作识别领域中主要算法的优缺点,本发明的主要目的 在于提供了一种基于增强时空特征的动作识别方法及系统,通过采用 对视频稀疏采样的策略,既可以去除冗余信息,还可以获取到不同时 间跨度中的信息;通过通道级的运动信息增强为特征图的各个特征通 道赋予权值,促进有益信息并抑制干扰信息,为后续特征提取打下基 础;通过时空特征聚合以很低的计算成本对时空上下文信息建模,将 相邻帧的特征以自适应的方式实现融合;通过多分支输出进一步对视 频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特 征进行补充。
为实现上述发明目的,本发明采用了如下技术方案:本发明公开 了一种基于增强时空特征的动作识别方法,包括以下步骤:
S1、确定数据集;动作识别的视频数据集主要分为两类:第一 类包含大量空间信息,这一类数据集有UCF101,HMDB51,Sports-1M 和Kinetics-400等。在这类数据集中,有些动作甚至只需要一帧就可 以识别出来,如“打高尔夫”,“剪头发”,“举重”等动作。因此 识别这类数据集主要依据的就是空间信息,并没有充分利用帧与帧之 间包含的运动信息。第二类外观信息十分有限,包括Jester,Something- SomethingV1&V2等数据集。这种情况下,只依赖单帧无法识别动作, 并且如果调整帧的顺序还会影响识别结果,例如对于动作“在某物的 前面放置某物”而言,如果将帧序列逆序,则会变为动作“移除某物 并露出后面的某物”。所以当使用第二类数据集时,提取帧与帧之间 的时序关系非常重要,此时必须将工作重点放在提取运动特征上。本 方法目标为有效地提取时间维度上的特征,着重识别运动本身的特 点,减少对背景中外观信息的依赖,因此选择Something-Something V1 数据集。
S2、获取输入数据,使用稀疏采样,将视频V分为T个片段, 在T个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由 一个视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其 中T为时间维度上的值,C为通道数,H和W分别为经过裁剪后帧 的高和宽;现有技术会在视频中采样连续帧作为输入数据,但是连续 帧之间会存在大量冗余,且密集采样会增加计算成本,因此本发明使 用系数采样代替密集采样,这样既可以去除冗余信息,还可以采样到 不同时间跨度中的帧。
S3、实现通道级的运动信息增强,具体步骤如下:
S31、将输入数据通过一个1*1的2D卷积层Convsp,得到特 征图X=Convsp(Xin),X∈RT*C/r*H*W,其中r=16;
S32、将X在T维度上分割,得到第t帧对应的特征图xt∈ R1*C/r*H*W;
S33、将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算 相邻两帧特征图之间的差异作为t时刻的运动特征:Δxt= Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W,时间T对应的ΔxT由第T帧的 原始特征图xT直接复制得到,将所有Δxt(1≤t≤T)在T维度上拼接 后得到特征图M,M∈RT*C/r*H*W,这样时间维度可以与求差之前的 维度保持一致;
S35、将MS特征通过另一个1*1的2D卷积层Convex,将通道 数恢复为C,并将sigmoid(δ)作为激活函数计算各通道的权值,此处 将原本权值的范围从[0,1]扩展到[-1,1];
S=2δ*Convex(MS)-1,S∈RT*C*1*1
S4、实现时空特征聚合,通过通道级运动信息增强模块增强了 与运动相关的特征后,紧接着使用时空特征聚合模块,达到以很低的 计算成本对时空上下文信息建模的目的,具体步骤如下:
S41、改变特征图XO∈RT*C*H*W的形状为XO→Xre∈RHW*C*T;
S42、在Xre的时间T维度上应用一个卷积核大小为3的通道级 的1D卷积:其中为属于通道c 的卷积核权重,i∈{-1,0,1},这意味着第帧的特征与第和帧的特征 进行交互。这样做有两个好处。首先,对比人工固定参数的shift操 作,采用通道级别的T方向的一维卷积,同样可以达到当前帧的特征 图包含相邻帧信息的效果,并且是自适应地学习如何融合特征可以达 到最佳效果,减少了人为设置参数的随机性。其次,对比采用光流法 或者3D卷积获取时空特征,采用1D卷积节约了大量的计算成本。 最后将改变的形状为常规特征图,得到时空特征聚合模块的最终输 出:
S5、进行多分支输出;
S6、设计模型训练细节,在模型训练阶段对训练集中的每个视 频都采样8帧,对于每一帧,首先将其较短边长度调整为256,然后 采用中心裁剪的方式得到最终的输入尺寸为224*224,对网络共训练 50个epoch,初始学习率设置为0.0025,在第30、40和45epoch将学习率更改为之前学习率的十分之一,使用动量为0.9且权重衰减为 1e-4的SGD在TeslaK80 GPU上使用16的最小批处理量来训练该网 络模型,且每训练完一个epoch就使用验证集验证一次。
进一步的,在S1中,选择Something-Something V1数据集,包 括与常见对象互动的日常动作,V1包括108499条视频剪辑,有174 个动作类别。
进一步的,在S5中,多分支输出采用3个分类分支输出,并将 3个分类分支输出共同训练得到最终分类结果。
进一步的,3个分类分支输出包括:
第一个输出为Outmean,是ResNet50网络中常见的输出层结构, 在全连接层前使用全局平均池化层,聚合各个视频所有输入帧的时空 信息,捕获该视频的全局信息,但同时也会限制了分类器对局部特征 的学习;
第二个输出为Outmax,由Fmax通过Output Layers(输出层)后得 到;
第三个输出为Outchannel,考虑到虽然细粒度特征提取器共捕获 到了N*C个局部特征,但是并不能保证每个类别都提取到了N个局 部特征,在全局最大池化层Max后另开分支,使用一个cross-channel 池化层,对每N个响应求均值之后自然地分为C类得到;Outmax和Outchannel的设计都是为了学习视频中包含关键信息的局部特征, 目的是和Outmean的信息进行互补,这两个输出在计算的前半部分共 享网络,这样做可以在网络训练的过程中使这N个卷积核更加关注 专属于此类别的局部特征;
其中,Fmax为一个全局最大池化层Max获取所有特征中响应最 大的部分,N为从每个类中提取局部特征的个数,C为视频的总类别, OutputLayers(输出层)由一个1*1的2D卷积层、一个全局平均池 化层、一个全连接层和损失函数层组成。
进一步的,Fmax=Max(ConvL(F)),Fmax的具体步骤如下:
S51、将网络中第四个ESTblock的输出特征图identityy4进行 双线性上采样,并与第三个ESTblock的输出特征图identityy3在通道 维度上进行拼接得到特征图F,这样做可以提供包含更加精细细节的 特征图,为后续进一步提取特征图局部信息提供条件;
S52、使用1*1的2D卷积层ConvL作为细粒度特征提取器,卷 积核个数设置为N*C,其中N为从每个类中提取局部特征的个数,C 为视频的总类别,因此细粒度特征提取器目的是对C个类别中的每 个类别检测N种特定的局部特征。
S53、采用一个全局最大池化层Max获取所有特征中响应最大 的部分作为网络提取到的局部特征Fmax。
进一步的,对于Outmean、Outmax和Outchannel,都采用标准交叉 熵损失函数,分别定义为lossmean,lossmax和losschannel,以促使每个 输出都单独学习,最终用来训练的loss是由这三个loss直接求和得 到:loss=lossmean+lossmax+losschannel。
本发明还公开了一种基于增强时空特征的动作识别系统,包括:
输入模块,用于处理视频数据,将视频数据进行稀疏采样,采样 不同时间跨度中的帧;
通道级的运动信息增强模块,用于计算特征图的运动特征,并且 利用注意力网络根据运动信息的丰富程度为各个通道赋予权值;
时空特征聚合模块,用于在运动信息进行增强后,对时空上下文 建模,将相邻帧的特征以自适应的方式实现融合;
多分支输出模块,对视频提取高级的局部特征,对原始骨干网络 单一输出层提取到的全局特征进行补充。
其中,现有技术会在视频中采样连续帧作为输入数据,但是连续 帧之间会存在大量冗余,且密集采样会增加计算成本,因此本发明在 输入模块使用系数采样代替密集采样,这样既可以去除冗余信息,还 可以采样到不同时间跨度中的帧;
本发明使用通道级的运动信息增强模块,首先可以将计算差异的 过程融入到网络建模中,实现网络端到端训练;同时,特征图相比 RGB帧传达了更多的语义信息,对特征图操作可以进一步提取高级 特征。一般来说,特征图的不同通道提取到的特征不同,为了有选择 性地加强有用特征并抑制无用特征,本发明将计算特征图级别的运动 特征并将其作为注意力模块的输入,自适应地调整各通道的特征响应 值;
本发明使用时空特征聚合模块,首先,相对于TSM采用人工设 定参数的shift操作,采用通道级别的时间维度的一维卷积,同样可 以达到当前帧的特征图包含相邻帧信息的效果,并且这是一个自适应 学习的过程,减少了人为设置参数的随机性。其次,相对于采用光流 法或者3D卷积获取时空特征,我们采用1D卷积节约了大量的计算 成本;
本发明的多分支输出模块中使用一个1*1的2D卷积核,作为细 粒度特征提取器,卷积核个数设置为N*C,用于在C个类别中各检 测N种特定的局部特征,接着再利用一个全局最大池化层获取所有 特征中响应最大的部分作为第二个输出,但这个输出并不能保证每N 个局部特征就属于同一类别,为了解决这个问题,在全局最大池化层 之后使用1*1卷积,将N*C个响应每N个特征求一个均值,结果就 自然地分为C类,同时得到第三个输出。
相对于现有技术而言,本发明至少包括以下有益效果:本发明采 用深度学习的方式对视频中的动作进行特征提取最终以达到对其分 类的目的。首先,通过采用对视频稀疏采样的策略,既可以去除冗余 信息,还可以获取到不同时间跨度中的信息;其次,通过通道级的运 动信息增强为特征图的各个特征通道赋予权值,促进有益信息并抑制 干扰信息,为后续特征提取打下基础;再次,通过时空特征聚合以很 低的计算成本对时空上下文信息建模,将相邻帧的特征以自适应的方 式实现融合;最后,通过多分支输出进一步对视频提取高级的局部特 征,对原始骨干网络单一输出层提取到的全局特征进行补充。
附图说明
图1为本发明的基于增强时空特征的动作识别方法的流程图;
图2为本发明的基于增强时空特征的动作识别方法的整体方法 框架图。
具体实施方式
为使本发明更加容易理解,下面结合附图对本发明作进一步说 明,但是,本发明可以以多种不同形式实现,并不限于本文所描述的 实施例,也不构成对本发明的任何限制。
如图1~2所示,本实施例以ResNet50网络作为基础骨干网络, 将通道级的运动信息增强模块和时空特征聚合模块插入到每个 ResNet-Block中,构成本方法的基本模块ESTblock。
步骤一:确定数据集。
动作识别的视频数据集主要分为两类:第一类包含大量空间信 息,这一类数据集有UCF101,HMDB51,Sports-1M和Kinetics-400 等。在这类数据集中,有些动作甚至只需要一帧就可以识别出来,如 “打高尔夫”,“剪头发”,“举重”等动作。因此识别这类数据集 主要依据的就是空间信息,并没有充分利用帧与帧之间包含的运动信 息。第二类外观信息十分有限,包括Jester,Something-Something V1&V2等数据集。这种情况下,只依赖单帧无法识别动作,并且如 果调整帧的顺序还会影响识别结果,例如对于动作“在某物的前面放 置某物”而言,如果将帧序列逆序,则会变为动作“移除某物并露出 后面的某物”。所以当使用第二类数据集时,提取帧与帧之间的时序 关系非常重要,此时必须将重点放在提取运动特征上。本实施例的目 标为有效地提取时间维度上的特征,着重识别运动本身的特点,减少对背景中外观信息的依赖,因此选择Something-Something V1数据 集。具体来说,Something-SomethingV1数据集包含与常见对象互动 的日常动作,着重于运动本身,而不区分被操纵的对象。V1包括 108499视频剪辑,有174个动作类别。
步骤二:输入数据的获取。
相对于现有技术中,会在视频中采样连续帧作为输入数据,但是 连续帧之间会存在大量冗余,且密集采样会增加计算成本,本实施例 使用稀疏采样代替密集采样,这样既可以去除冗余信息,还可以采样 到不同时间跨度中的帧。具体来说,将视频V分为T个片段,在T 个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由一个 视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其中T为 时间维度上的值,C为通道数,H和W分别为经过裁剪后帧的高和 宽。
步骤三:实现通道级的运动信息增强(CME)。
首先将输入数据通过一个1*1的2D卷积层COnvsp,初步进行空 间特征的提取并对特征图降维,得到特征图X=Convsp(Xin),X∈ RT*C/r*H*W,其中r=16。
然后将X在T维度上分割,得到第t帧对应的特征图xt∈ R1*C/r*H*W。
接下来将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算 相邻两帧特征图之间的差异作为t时刻的运动特征:
Δxt=Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W
本实施例定义时间T对应的ΔxT由第T帧的原始特征图xT直接复 制得到。将所有Δxt(1≤t≤T)在T维度上拼接后得到特征图M,M∈ RT*C/r*H*W,这样时间维度可以与求差之前的维度保持一致。
为了求各个通道的权值,本实施例首先使用一个全局平均池化层 压缩全局空间信息为通道描述符:
其中MS∈RT*C/r*1*1。再将特征MS通过另一个1*1的2D卷积层 Convex,将通道数恢复为C,并将sigmoid(δ)作为激活函数计算各通 道的权值S,此处将原本权值的范围从[0,1]扩展到[-1,1]。
S=2δ*Convex(MS)-1,S∈RT*C*1*1
该模块的最后一步就是将权值与输入特征图按通道相乘,达到调 整各通道特征值响应值的作用。本方法使用了一个残差结构,在加强 运动信息的同时,不将背景信息大量丢失。最终得到通道级运动信息 增强模块的输出:
步骤四:实现时空特征聚合(STA)。
通过通道级运动信息增强模块增强了与运动相关的特征后,本方 法紧接着使用时空特征聚合模块,达到以很低的计算成本对时空上下 文信息建模的目的。
对于特征图XO∈RT*C*H*W,首先改变它的形状为XO→Xre∈ RHW*C*T,然后在Xre的时间T维度上应用一个卷积核大小为3的通道 级的1D卷积:
其中表示属于通道c的卷积核权重,因为卷积核大小为3所以 i∈{-1,0,1},这意味着第t帧的特征与第t-1和t+1帧的特征进行 交互。上述方法有两个好处,首先,对比人工固定参数的shift操作, 采用通道级别的T方向的一维卷积,同样可以达到当前帧的特征图包 含相邻帧信息的效果,并且是自适应地学习如何融合特征可以达到最 佳效果,减少了人为设置参数的随机性。其次,对比采用光流法或者 3D卷积获取时空特征,采用1D卷积节约了大量的计算成本。最后 将改变的形状为常规特征图,得到时空特征聚合模块的最终输出:
步骤五:多分支输出。本实施例在网络的最后分类阶段采用3个 分类分支,并将他们共同训练得到最终分类结果。本发明定义Output Layers由一个1*1的2D卷积层、一个全局平均池化层、一个全连接 层和损失函数层组成。
(1)第一个输出记为Outmean,是ResNet50网络中常见的输出 层结构,在全连接层前使用全局平均池化层,聚合各个视频所有输入 帧的时空信息,捕获该视频的全局信息,但同时也会限制了分类器对 局部特征的学习。
(2)第二个输出Outmax和第三个输出Outchannel的设计都是为了 学习视频中包含关键信息的局部特征,目的是和第一个输出的信息进 行互补。这两个输出在计算的前半部分共享网络。在本实施例中将网 络中第四个EST block的输出特征图identityy4进行双线性上采样,并 与第三个EST block的输出特征图identityy3在通道维度上进行拼接 得到特征图F,这样做可以提供包含更加精细细节的特征图,为后续 进一步提取特征图局部信息提供条件。接着本实施例使用1*1的2D 卷积层ConvL作为细粒度特征提取器,卷积核个数设置为N*C,其中 N代表将要从每个类中提取局部特征的个数,本实施例设置此超参数 的值为5,C代表视频的总类别,因此细粒度特征提取器目的是对C 个类别中的每个类别检测N种特定的局部特征。接着再采用一个全 局最大池化层Max获取所有特征中响应最大的部分作为网络提取到 的局部特征Fmax。以上这些步骤可以表示为:
Fmax=Max(ConvL(F))
第二个输出Outmax是将Fmax通过Output Layers(输出层)后得到 的。
(3)考虑到虽然细粒度特征提取器ConvL共捕获到了N*C个局 部特征,但是并不能保证每个类别都提取到了N个局部特征。为了 解决这个问题,本实施例在全局最大池化层Max后另开分支,使用 一个cross-channel池化层,对每N个响应求均值之后自然地分为C类,这样就得到第三个输出Outchannel。这样做可以在网络训练的过 程中使这N个卷积核更加关注专属于此类别的局部特征。
对于每个输出,本实施例都采用标准交叉熵损失函数,分别定义 为lossmean,lossmax和losschannel,以促使每个输出都单独学习。最终 用来训练的loss是由这三个loss直接求和得到:
loss=lossmean+lossmax+losschannel
步骤六:设计模型训练细节。将视频分为训练集与验证集,在模 型训练阶段对训练集中的每个视频都采样8帧,对于每一帧,首先将 其较短边长度调整为256,然后采用中心裁剪的方式得到最终的输入 尺寸为224*224。本实施例对网络共训练50个epoch,初始学习率设 置为0.0025,然后在第30、40和45epoch将学习率更改为之前学习 率的十分之一。本实施例使用动量为0.9且权重衰减为1e-4的SGD (随机梯度下降)在型号Tesla K80 GPU上使用16的最小批处理量 来训练该网络模型。本实施例采用每训练完一个epoch就使用验证集 验证一次的方式,最终实验结果中展示的的准确率为所有验证结果中 的最高值,其中,epoch为使用训练集的全部数据对模型进行一次完 整的训练。
本实施例采用深度学习的方式对视频中的动作进行特征提取最 终以达到对其分类的目的。首先采用对视频稀疏采样的策略,既可以 去除冗余信息,还可以获取到不同时间跨度中的信息;其次,通过通 道级的运动信息增强为特征图的各个特征通道赋予权值,促进有益信 息并抑制干扰信息,为后续特征提取打下基础;再次,通过时空特征 聚合以很低的计算成本对时空上下文信息建模,将相邻帧的特征以自 适应的方式实现融合;最后,通过多分支输出进一步对视频提取高级 的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补 充。
以上内容是结合具体的实施方式对本申请所作的进一步详细说 明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属 技术领域的普通技术人员来说,在不脱离本申请发明构思的前提下, 还可以做出若干简单推演或替换。
Claims (7)
1.一种基于增强时空特征的动作识别方法,其特征在于,包括以下步骤:
S1、确定数据集;
S2、获取输入数据,使用稀疏采样,将视频V分为T个片段,在T个片段中随机采样一帧并将其裁剪至统一尺寸,记为Tt,最终由一个视频得到的输入表示为Xin=[V1,V2,...VT],Xin∈RT*C*H*W,其中T为时间维度上的值,C为通道数,H和W分别为经过裁剪后帧的高和宽;
S3、实现通道级的运动信息增强,具体步骤如下:
S31、将输入数据通过一个1*1的2D卷积层Convsp,得到特征图X=Convsp(Xin),X∈RT *C/r*H*W,其中r=16;
S32、将X在T维度上分割,得到第t帧对应的特征图xt∈R1*C/r*H*W;
S33、将xt+1(t<T)馈入一个3*3的2D卷积层Conv1,并计算相邻两帧特征图之间的差异作为t时刻的运动特征:Δxt=Conv1(xt+1)-xt,Δxt∈R1*C/r*H*W,时间T对应的ΔxT由第T帧的原始特征图xT直接复制得到,将所有Δxt(1≤t≤T)在T维度上拼接后得到特征图M,M∈RT *C/r*H*W;
S35、将MS特征通过另一个1*1的2D卷积层Convex,将通道数恢复为C,并将sigmoid(δ)作为激活函数计算各通道的权值,此处将原本权值的范围从[0,1]扩展到[-1,1],S=2δ*Convex(MS)-1,S∈RT*C*1*1;
S4、实现时空特征聚合,具体步骤如下:
S41、改变特征图XO∈RT*C*H*W的形状为XO→Xre∈RHW*C*T;
S5、进行多分支输出;
S6、设计模型训练细节。
2.根据权利要求1所述的一种基于增强时空特征的动作识别方法,其特征在于,在S1中,选择Something-Something V1数据集,包括与常见对象互动的日常动作,V1包括108499条视频剪辑,有174个动作类别。
3.根据权利要求1所述的一种基于增强时空特征的动作识别方法,其特征在于,在S5中,多分支输出采用3个分类分支输出,并将3个分类分支输出共同训练得到最终分类结果。
4.根据权利要求3所述的一种基于增强时空特征的动作识别方法,其特征在于,3个分类分支输出包括:
第一个输出为Outmean,是残差神经网络中常见的输出层结构;
第二个输出为Outmax,由Fmax通过输出层后得到;
第三个输出为Outchannel,在全局最大池化层Max后另开分支,使用一个cross-channel池化层,对每N个响应求均值之后自然地分为C类得到;
其中,Fmax为一个全局最大池化层Max获取所有特征中响应最大的部分,N为从每个类中提取局部特征的个数,C为视频的总类别,输出层由一个1*1的2D卷积层、一个全局平均池化层、一个全连接层和损失函数层组成。
5.根据权利要求4所述的一种基于增强时空特征的动作识别方法,其特征在于,Fmax的具体步骤如下:
S51、将ResNet50网络中第四个EST block的输出特征图进行双线性上采样,并与第三个EST block的输出特征图在通道维度上进行拼接得到特征图F;
S52、使用1*1的2D卷积层ConvL作为细粒度特征提取器,卷积核个数设置为N*C,其中N为从每个类中提取局部特征的个数,C为视频的总类别;
S53、采用一个全局最大池化层Max获取所有特征中响应最大的部分作为网络提取到的局部特征Fmax,Fmax=Max(ConvL(F))。
6.根据权利要求4所述的一种基于增强时空特征的动作识别方法,其特征在于,对于Outmean、Outmax和Outchannel,都采用标准交叉熵损失函数,分别定义为lossmean,lossmax和losschannel,以促使每个输出都单独学习,最终用来训练的loss是由这三个loss直接求和得到:loss=lossmean+lossmax+losschannel。
7.一种基于增强时空特征的动作识别系统,其特征在于,包括:
输入模块,用于处理视频数据,将视频数据进行稀疏采样,采样不同时间跨度中的帧;
通道级的运动信息增强模块,用于计算特征图的运动特征,并且利用注意力网络根据运动信息的丰富程度为各个通道赋予权值;
时空特征聚合模块,用于在运动信息进行增强后,对时空上下文建模,将相邻帧的特征以自适应的方式实现融合;
多分支输出模块,对视频提取高级的局部特征,对原始骨干网络单一输出层提取到的全局特征进行补充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648022.9A CN115546885A (zh) | 2021-06-10 | 2021-06-10 | 一种基于增强时空特征的动作识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110648022.9A CN115546885A (zh) | 2021-06-10 | 2021-06-10 | 一种基于增强时空特征的动作识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115546885A true CN115546885A (zh) | 2022-12-30 |
Family
ID=84717149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110648022.9A Pending CN115546885A (zh) | 2021-06-10 | 2021-06-10 | 一种基于增强时空特征的动作识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115546885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
-
2021
- 2021-06-10 CN CN202110648022.9A patent/CN115546885A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN106599883B (zh) | 一种基于cnn的多层次图像语义的人脸识别方法 | |
CN110032926B (zh) | 一种基于深度学习的视频分类方法以及设备 | |
Kim et al. | Fully deep blind image quality predictor | |
Ahmed et al. | Image splicing detection using mask-RCNN | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN112686331B (zh) | 伪造图像识别模型训练方法及伪造图像识别方法 | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN109815867A (zh) | 一种人群密度估计和人流量统计方法 | |
CN110889375B (zh) | 用于行为识别的隐双流协作学习网络及方法 | |
CN110276248B (zh) | 一种基于样本权值分配和深度学习的人脸表情识别方法 | |
CN113221639A (zh) | 一种基于多任务学习的代表性au区域提取的微表情识别方法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
Benkaddour et al. | Human age and gender classification using convolutional neural network | |
CN113128360A (zh) | 基于深度学习的司机驾驶行为检测与识别方法 | |
CN113112416B (zh) | 一种语义引导的人脸图像修复方法 | |
CN114255474A (zh) | 一种基于多尺度、多粒度行人重识别方法 | |
Prabhu et al. | Facial Expression Recognition Using Enhanced Convolution Neural Network with Attention Mechanism. | |
CN113033283B (zh) | 一种改进的视频分类系统 | |
CN111723600A (zh) | 一种基于多任务学习的行人重识别特征描述子 | |
CN115546885A (zh) | 一种基于增强时空特征的动作识别方法及系统 | |
Nguyen et al. | Skeleton-based hand gesture recognition by learning SPD matrices with neural networks | |
KR20180092453A (ko) | Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |