CN115546885A

CN115546885A - 一种基于增强时空特征的动作识别方法及系统

Info

Publication number: CN115546885A
Application number: CN202110648022.9A
Authority: CN
Inventors: 徐超; 刘晓超; 孟昭鹏; 胡静; 肖健
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-30

Abstract

本发明公开了一种基于增强时空特征的动作识别方法及系统，该方法包括以下步骤：确定数据集、获取输入数据、实现通道级的运动信息增强、实现时空特征聚合、多分支输出和设计模型训练细节。本发明通过采用对视频稀疏采样的策略，既可以去除冗余信息，还可以获取到不同时间跨度中的信息；通过通道级的运动信息增强为特征图的各个特征通道赋予权值，促进有益信息并抑制干扰信息，为后续特征提取打下基础；通过时空特征聚合以很低的计算成本对时空上下文信息建模，将相邻帧的特征以自适应的方式实现融合；通过多分支输出进一步对视频提取高级的局部特征，对原始骨干网络单一输出层提取到的全局特征进行补充。

Description

一种基于增强时空特征的动作识别方法及系统

发明领域

本发明属于计算机视觉与视频分类技术领域，尤其涉及一种基于增强时空特征的动作识别方法及系统。

背景技术

视频中的动作识别是计算机视觉中最重要的问题之一，它能够从视频中提取语义信息，这使得它有丰富的应用前景，如患者监测，运动分析，智能视频监控和人机交互等。同时，动作识别提取到的语义信息还能为其他计算机视觉任务(如动作检测和定位等)提供视频特征。因为视频本质上就是由多张图像在时间维度上堆叠而形成，因此视频与图像有着天然的联系，所以早期的动作识别方法通常是由图像识别方法修改和扩展得到的，如基于局部时空特征的浅层高维编码，包括HOG3D，SIFT-3D。

随着深度学习的飞速发展，CNN在图像识别领域取得了很好的效果，但是将2DCNN直接应用到视频中的动作识别领域识别结果并不佳，利用2D CNN直接进行视频识别时只能对输入视频的每一帧进行分类并整合所有帧的分类结果，但忽略了时间信息，而时间维度上帧与帧之间所包含的运动特征对于视频分类是至关重要的。

为了提取时间维度上的运动特征，2D网络通常采用双流结构，两个流分别提取空间特征和时间特征，空间分支将RGB帧作为输入，时间分支将光流作为输入，因为光流是由像素点的瞬时位移矢量定义的，包含运动信息，最后将两个网络分支的分类分数进行融合得到最终的分类结果，但是一旦使用光流就需要面临额外的离线计算和存储空间的挑战，并且网络结构不能实现端到端，这也是双流结构的弊端。

为了实现端到端提取时间维度特征，有学者提出了3D卷积方法。与2D卷积不同，3D卷积需要将堆叠的视频帧作为输入，然后利用 3D卷积核从该输入中直接提取时空特征。虽然利用3D卷积提取时空特征是十分自然并且容易理解，但卷积核从2D到3D的扩展增加了很多计算量，对比2D卷积，对计算资源要求更高。

除了卷积，还可以利用运动信息提取模块获取运动特征。shift 操作在运动信息提取模块中运用较多，具体来说，该操作沿时间维度移动特征图的部分通道，以达到在相邻帧之间交换信息，低成本的提取时空特征的目的，但一些研究将shift操作视为一种卷积核参数固定的通道级时间卷积，因为shift操作的参数是人为设置并且不会自适应更新，所以灵活性不强。

发明内容

基于目前动作识别领域中主要算法的优缺点，本发明的主要目的在于提供了一种基于增强时空特征的动作识别方法及系统，通过采用对视频稀疏采样的策略，既可以去除冗余信息，还可以获取到不同时间跨度中的信息；通过通道级的运动信息增强为特征图的各个特征通道赋予权值，促进有益信息并抑制干扰信息，为后续特征提取打下基础；通过时空特征聚合以很低的计算成本对时空上下文信息建模，将相邻帧的特征以自适应的方式实现融合；通过多分支输出进一步对视频提取高级的局部特征，对原始骨干网络单一输出层提取到的全局特征进行补充。

为实现上述发明目的，本发明采用了如下技术方案：本发明公开了一种基于增强时空特征的动作识别方法，包括以下步骤：

S1、确定数据集；动作识别的视频数据集主要分为两类：第一类包含大量空间信息，这一类数据集有UCF101，HMDB51，Sports-1M 和Kinetics-400等。在这类数据集中，有些动作甚至只需要一帧就可以识别出来，如“打高尔夫”，“剪头发”，“举重”等动作。因此识别这类数据集主要依据的就是空间信息，并没有充分利用帧与帧之间包含的运动信息。第二类外观信息十分有限，包括Jester，Something- SomethingV1&V2等数据集。这种情况下，只依赖单帧无法识别动作，并且如果调整帧的顺序还会影响识别结果，例如对于动作“在某物的前面放置某物”而言，如果将帧序列逆序，则会变为动作“移除某物并露出后面的某物”。所以当使用第二类数据集时，提取帧与帧之间的时序关系非常重要，此时必须将工作重点放在提取运动特征上。本方法目标为有效地提取时间维度上的特征，着重识别运动本身的特点，减少对背景中外观信息的依赖，因此选择Something-Something V1 数据集。

S2、获取输入数据，使用稀疏采样，将视频V分为T个片段，在T个片段中随机采样一帧并将其裁剪至统一尺寸，记为T_t，最终由一个视频得到的输入表示为X_in＝[V₁,V₂,...V_T]，X_in∈R^T*C*H*W，其中T为时间维度上的值，C为通道数，H和W分别为经过裁剪后帧的高和宽；现有技术会在视频中采样连续帧作为输入数据，但是连续帧之间会存在大量冗余，且密集采样会增加计算成本，因此本发明使用系数采样代替密集采样，这样既可以去除冗余信息，还可以采样到不同时间跨度中的帧。

S3、实现通道级的运动信息增强，具体步骤如下：

S31、将输入数据通过一个1*1的2D卷积层Conv_sp，得到特征图X＝Conv_sp(X_in)，X∈R^T*C/r*H*W，其中r＝16；

S32、将X在T维度上分割，得到第t帧对应的特征图x_t∈ R^1*C/r*H*W；

S33、将x_t+1(t<T)馈入一个3*3的2D卷积层Conv₁，并计算相邻两帧特征图之间的差异作为t时刻的运动特征：Δx_t＝ Conv₁(x_t+1)-x_t，Δx_t∈R^1*C/r*H*W，时间T对应的Δx_T由第T帧的原始特征图x_T直接复制得到，将所有Δx_t(1≤t≤T)在T维度上拼接后得到特征图M，M∈R^T*C/r*H*W，这样时间维度可以与求差之前的维度保持一致；

S34、能够求各个通道的权值，使用一个全局平均池化层压缩全局空间信息为通道描述符：

其中M^S∈ R^T*C/r*1*1；

S35、将M^S特征通过另一个1*1的2D卷积层Conv_ex，将通道数恢复为C，并将sigmoid(δ)作为激活函数计算各通道的权值，此处将原本权值的范围从[0，1]扩展到[-1，1]；

S＝2δ*Conv_ex(M^S)-1，S∈R^T*C*1*1

S36、将权值与输入特征图按通道相乘，达到调整各通道特征值响应值的作用，使用了一个残差结构，在加强运动信息的同时，不将背景信息大量丢失，最终得到通道级运动信息增强模块的输出：

其中

为按通道相乘；

S4、实现时空特征聚合，通过通道级运动信息增强模块增强了与运动相关的特征后，紧接着使用时空特征聚合模块，达到以很低的计算成本对时空上下文信息建模的目的，具体步骤如下：

S41、改变特征图X_O∈R^T*C*H*W的形状为X_O→X^re∈R^HW*C*T；

S42、在X^re的时间T维度上应用一个卷积核大小为3的通道级的1D卷积：

其中

为属于通道c 的卷积核权重，i∈{-1,0,1}，这意味着第帧的特征与第和帧的特征进行交互。这样做有两个好处。首先，对比人工固定参数的shift操作，采用通道级别的T方向的一维卷积，同样可以达到当前帧的特征图包含相邻帧信息的效果，并且是自适应地学习如何融合特征可以达到最佳效果，减少了人为设置参数的随机性。其次，对比采用光流法或者3D卷积获取时空特征，采用1D卷积节约了大量的计算成本。最后将改变的形状为常规特征图，得到时空特征聚合模块的最终输出：

S5、进行多分支输出；

S6、设计模型训练细节，在模型训练阶段对训练集中的每个视频都采样8帧，对于每一帧，首先将其较短边长度调整为256，然后采用中心裁剪的方式得到最终的输入尺寸为224*224，对网络共训练 50个epoch，初始学习率设置为0.0025，在第30、40和45epoch将学习率更改为之前学习率的十分之一，使用动量为0.9且权重衰减为 1e-4的SGD在TeslaK80 GPU上使用16的最小批处理量来训练该网络模型，且每训练完一个epoch就使用验证集验证一次。

进一步的，在S1中，选择Something-Something V1数据集，包括与常见对象互动的日常动作，V1包括108499条视频剪辑，有174 个动作类别。

进一步的，在S5中，多分支输出采用3个分类分支输出，并将 3个分类分支输出共同训练得到最终分类结果。

进一步的，3个分类分支输出包括：

第一个输出为Out_mean，是ResNet50网络中常见的输出层结构，在全连接层前使用全局平均池化层，聚合各个视频所有输入帧的时空信息，捕获该视频的全局信息，但同时也会限制了分类器对局部特征的学习；

第二个输出为Out_max，由F_max通过Output Layers(输出层)后得到；

第三个输出为Out_channel，考虑到虽然细粒度特征提取器共捕获到了N*C个局部特征，但是并不能保证每个类别都提取到了N个局部特征，在全局最大池化层Max后另开分支，使用一个cross-channel 池化层，对每N个响应求均值之后自然地分为C类得到；Out_max和Out_channel的设计都是为了学习视频中包含关键信息的局部特征，目的是和Out_mean的信息进行互补，这两个输出在计算的前半部分共享网络，这样做可以在网络训练的过程中使这N个卷积核更加关注专属于此类别的局部特征；

其中，F_max为一个全局最大池化层Max获取所有特征中响应最大的部分，N为从每个类中提取局部特征的个数，C为视频的总类别， OutputLayers(输出层)由一个1*1的2D卷积层、一个全局平均池化层、一个全连接层和损失函数层组成。

进一步的，F_max＝Max(Conv_L(F))，F_max的具体步骤如下：

S51、将网络中第四个ESTblock的输出特征图identity_y4进行双线性上采样，并与第三个ESTblock的输出特征图identity_y3在通道维度上进行拼接得到特征图F，这样做可以提供包含更加精细细节的特征图，为后续进一步提取特征图局部信息提供条件；

S52、使用1*1的2D卷积层Conv_L作为细粒度特征提取器，卷积核个数设置为N*C，其中N为从每个类中提取局部特征的个数，C 为视频的总类别，因此细粒度特征提取器目的是对C个类别中的每个类别检测N种特定的局部特征。

S53、采用一个全局最大池化层Max获取所有特征中响应最大的部分作为网络提取到的局部特征F_max。

进一步的，对于Out_mean、Out_max和Out_channel，都采用标准交叉熵损失函数，分别定义为loss_mean，loss_max和loss_channel，以促使每个输出都单独学习，最终用来训练的loss是由这三个loss直接求和得到:loss＝loss_mean+loss_max+loss_channel。

本发明还公开了一种基于增强时空特征的动作识别系统，包括：

输入模块，用于处理视频数据，将视频数据进行稀疏采样，采样不同时间跨度中的帧；

通道级的运动信息增强模块，用于计算特征图的运动特征，并且利用注意力网络根据运动信息的丰富程度为各个通道赋予权值；

时空特征聚合模块，用于在运动信息进行增强后，对时空上下文建模，将相邻帧的特征以自适应的方式实现融合；

多分支输出模块，对视频提取高级的局部特征，对原始骨干网络单一输出层提取到的全局特征进行补充。

其中，现有技术会在视频中采样连续帧作为输入数据，但是连续帧之间会存在大量冗余，且密集采样会增加计算成本，因此本发明在输入模块使用系数采样代替密集采样，这样既可以去除冗余信息，还可以采样到不同时间跨度中的帧；

本发明使用通道级的运动信息增强模块，首先可以将计算差异的过程融入到网络建模中，实现网络端到端训练；同时，特征图相比 RGB帧传达了更多的语义信息，对特征图操作可以进一步提取高级特征。一般来说，特征图的不同通道提取到的特征不同，为了有选择性地加强有用特征并抑制无用特征，本发明将计算特征图级别的运动特征并将其作为注意力模块的输入，自适应地调整各通道的特征响应值；

本发明使用时空特征聚合模块，首先，相对于TSM采用人工设定参数的shift操作，采用通道级别的时间维度的一维卷积，同样可以达到当前帧的特征图包含相邻帧信息的效果，并且这是一个自适应学习的过程，减少了人为设置参数的随机性。其次，相对于采用光流法或者3D卷积获取时空特征，我们采用1D卷积节约了大量的计算成本；

本发明的多分支输出模块中使用一个1*1的2D卷积核，作为细粒度特征提取器，卷积核个数设置为N*C，用于在C个类别中各检测N种特定的局部特征，接着再利用一个全局最大池化层获取所有特征中响应最大的部分作为第二个输出，但这个输出并不能保证每N 个局部特征就属于同一类别，为了解决这个问题，在全局最大池化层之后使用1*1卷积，将N*C个响应每N个特征求一个均值，结果就自然地分为C类，同时得到第三个输出。

相对于现有技术而言，本发明至少包括以下有益效果：本发明采用深度学习的方式对视频中的动作进行特征提取最终以达到对其分类的目的。首先，通过采用对视频稀疏采样的策略，既可以去除冗余信息，还可以获取到不同时间跨度中的信息；其次，通过通道级的运动信息增强为特征图的各个特征通道赋予权值，促进有益信息并抑制干扰信息，为后续特征提取打下基础；再次，通过时空特征聚合以很低的计算成本对时空上下文信息建模，将相邻帧的特征以自适应的方式实现融合；最后，通过多分支输出进一步对视频提取高级的局部特征，对原始骨干网络单一输出层提取到的全局特征进行补充。

附图说明

图1为本发明的基于增强时空特征的动作识别方法的流程图；

图2为本发明的基于增强时空特征的动作识别方法的整体方法框架图。

具体实施方式

为使本发明更加容易理解，下面结合附图对本发明作进一步说明，但是，本发明可以以多种不同形式实现，并不限于本文所描述的实施例，也不构成对本发明的任何限制。

如图1～2所示，本实施例以ResNet50网络作为基础骨干网络，将通道级的运动信息增强模块和时空特征聚合模块插入到每个 ResNet-Block中，构成本方法的基本模块ESTblock。

步骤一：确定数据集。

动作识别的视频数据集主要分为两类：第一类包含大量空间信息，这一类数据集有UCF101，HMDB51，Sports-1M和Kinetics-400 等。在这类数据集中，有些动作甚至只需要一帧就可以识别出来，如 “打高尔夫”，“剪头发”，“举重”等动作。因此识别这类数据集主要依据的就是空间信息，并没有充分利用帧与帧之间包含的运动信息。第二类外观信息十分有限，包括Jester，Something-Something V1&V2等数据集。这种情况下，只依赖单帧无法识别动作，并且如果调整帧的顺序还会影响识别结果，例如对于动作“在某物的前面放置某物”而言，如果将帧序列逆序，则会变为动作“移除某物并露出后面的某物”。所以当使用第二类数据集时，提取帧与帧之间的时序关系非常重要，此时必须将重点放在提取运动特征上。本实施例的目标为有效地提取时间维度上的特征，着重识别运动本身的特点，减少对背景中外观信息的依赖，因此选择Something-Something V1数据集。具体来说，Something-SomethingV1数据集包含与常见对象互动的日常动作，着重于运动本身，而不区分被操纵的对象。V1包括 108499视频剪辑，有174个动作类别。

步骤二：输入数据的获取。

相对于现有技术中，会在视频中采样连续帧作为输入数据，但是连续帧之间会存在大量冗余，且密集采样会增加计算成本，本实施例使用稀疏采样代替密集采样，这样既可以去除冗余信息，还可以采样到不同时间跨度中的帧。具体来说，将视频V分为T个片段，在T 个片段中随机采样一帧并将其裁剪至统一尺寸，记为T_t，最终由一个视频得到的输入表示为X_in＝[V₁,V₂,...V_T],X_in∈R^T*C*H*W，其中T为时间维度上的值，C为通道数，H和W分别为经过裁剪后帧的高和宽。

步骤三：实现通道级的运动信息增强(CME)。

首先将输入数据通过一个1*1的2D卷积层COnv_sp，初步进行空间特征的提取并对特征图降维，得到特征图X＝Conv_sp(X_in),X∈ R^T*C/r*H*W，其中r＝16。

然后将X在T维度上分割，得到第t帧对应的特征图x_t∈ R^1*C/r*H*W。

接下来将x_t+1(t<T)馈入一个3*3的2D卷积层Conv₁，并计算相邻两帧特征图之间的差异作为t时刻的运动特征：

Δx_t＝Conv₁(x_t+1)-x_t,Δx_t∈R^1*C/r*H*W

本实施例定义时间T对应的Δx_T由第T帧的原始特征图x_T直接复制得到。将所有Δx_t(1≤t≤T)在T维度上拼接后得到特征图M,M∈ R^T*C/r*H*W，这样时间维度可以与求差之前的维度保持一致。

为了求各个通道的权值，本实施例首先使用一个全局平均池化层压缩全局空间信息为通道描述符：

其中M^S∈R^T*C/r*1*1。再将特征M^S通过另一个1*1的2D卷积层 Conv_ex，将通道数恢复为C，并将sigmoid(δ)作为激活函数计算各通道的权值S，此处将原本权值的范围从[0，1]扩展到[-1，1]。

S＝2δ*Conv_ex(M^S)-1,S∈R^T*C*1*1

该模块的最后一步就是将权值与输入特征图按通道相乘，达到调整各通道特征值响应值的作用。本方法使用了一个残差结构，在加强运动信息的同时，不将背景信息大量丢失。最终得到通道级运动信息增强模块的输出：

其中

定义为按通道相乘。

步骤四：实现时空特征聚合(STA)。

通过通道级运动信息增强模块增强了与运动相关的特征后，本方法紧接着使用时空特征聚合模块，达到以很低的计算成本对时空上下文信息建模的目的。

对于特征图X_O∈R^T*C*H*W，首先改变它的形状为X_O→X^re∈ R^HW*C*T，然后在X^re的时间T维度上应用一个卷积核大小为3的通道级的1D卷积：

其中

表示属于通道c的卷积核权重，因为卷积核大小为3所以 i∈{-1,0,1}，这意味着第t帧的特征与第t-1和t+1帧的特征进行交互。上述方法有两个好处，首先，对比人工固定参数的shift操作，采用通道级别的T方向的一维卷积，同样可以达到当前帧的特征图包含相邻帧信息的效果，并且是自适应地学习如何融合特征可以达到最佳效果，减少了人为设置参数的随机性。其次，对比采用光流法或者 3D卷积获取时空特征，采用1D卷积节约了大量的计算成本。最后将改变

的形状为常规特征图，得到时空特征聚合模块的最终输出：

步骤五：多分支输出。本实施例在网络的最后分类阶段采用3个分类分支，并将他们共同训练得到最终分类结果。本发明定义Output Layers由一个1*1的2D卷积层、一个全局平均池化层、一个全连接层和损失函数层组成。

(1)第一个输出记为Out_mean，是ResNet50网络中常见的输出层结构，在全连接层前使用全局平均池化层，聚合各个视频所有输入帧的时空信息，捕获该视频的全局信息，但同时也会限制了分类器对局部特征的学习。

(2)第二个输出Out_max和第三个输出Out_channel的设计都是为了学习视频中包含关键信息的局部特征，目的是和第一个输出的信息进行互补。这两个输出在计算的前半部分共享网络。在本实施例中将网络中第四个EST block的输出特征图identity_y4进行双线性上采样，并与第三个EST block的输出特征图identity_y3在通道维度上进行拼接得到特征图F，这样做可以提供包含更加精细细节的特征图，为后续进一步提取特征图局部信息提供条件。接着本实施例使用1*1的2D 卷积层Conv_L作为细粒度特征提取器，卷积核个数设置为N*C，其中 N代表将要从每个类中提取局部特征的个数，本实施例设置此超参数的值为5，C代表视频的总类别，因此细粒度特征提取器目的是对C 个类别中的每个类别检测N种特定的局部特征。接着再采用一个全局最大池化层Max获取所有特征中响应最大的部分作为网络提取到的局部特征F_max。以上这些步骤可以表示为：

F_max＝Max(Conv_L(F))

第二个输出Out_max是将F_max通过Output Layers(输出层)后得到的。

(3)考虑到虽然细粒度特征提取器Conv_L共捕获到了N*C个局部特征，但是并不能保证每个类别都提取到了N个局部特征。为了解决这个问题，本实施例在全局最大池化层Max后另开分支，使用一个cross-channel池化层，对每N个响应求均值之后自然地分为C类，这样就得到第三个输出Out_channel。这样做可以在网络训练的过程中使这N个卷积核更加关注专属于此类别的局部特征。

对于每个输出，本实施例都采用标准交叉熵损失函数，分别定义为loss_mean，loss_max和loss_channel，以促使每个输出都单独学习。最终用来训练的loss是由这三个loss直接求和得到：

loss＝loss_mean+loss_max+loss_channel

步骤六：设计模型训练细节。将视频分为训练集与验证集，在模型训练阶段对训练集中的每个视频都采样8帧，对于每一帧，首先将其较短边长度调整为256，然后采用中心裁剪的方式得到最终的输入尺寸为224*224。本实施例对网络共训练50个epoch，初始学习率设置为0.0025，然后在第30、40和45epoch将学习率更改为之前学习率的十分之一。本实施例使用动量为0.9且权重衰减为1e-4的SGD (随机梯度下降)在型号Tesla K80 GPU上使用16的最小批处理量来训练该网络模型。本实施例采用每训练完一个epoch就使用验证集验证一次的方式，最终实验结果中展示的的准确率为所有验证结果中的最高值，其中，epoch为使用训练集的全部数据对模型进行一次完整的训练。

本实施例采用深度学习的方式对视频中的动作进行特征提取最终以达到对其分类的目的。首先采用对视频稀疏采样的策略，既可以去除冗余信息，还可以获取到不同时间跨度中的信息；其次，通过通道级的运动信息增强为特征图的各个特征通道赋予权值，促进有益信息并抑制干扰信息，为后续特征提取打下基础；再次，通过时空特征聚合以很低的计算成本对时空上下文信息建模，将相邻帧的特征以自适应的方式实现融合；最后，通过多分支输出进一步对视频提取高级的局部特征，对原始骨干网络单一输出层提取到的全局特征进行补充。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请发明构思的前提下，还可以做出若干简单推演或替换。

Claims

1.一种基于增强时空特征的动作识别方法，其特征在于，包括以下步骤：

S1、确定数据集；

S2、获取输入数据，使用稀疏采样，将视频V分为T个片段，在T个片段中随机采样一帧并将其裁剪至统一尺寸，记为T_t，最终由一个视频得到的输入表示为X_in＝[V₁，V₂，...V_T]，X_in∈R^T*C*H*W，其中T为时间维度上的值，C为通道数，H和W分别为经过裁剪后帧的高和宽；

S3、实现通道级的运动信息增强，具体步骤如下：

S31、将输入数据通过一个1*1的2D卷积层Conv_sp，得到特征图X＝Conv_sp(X_in)，X∈R^T ^*C/r*H*W，其中r＝16；

S32、将X在T维度上分割，得到第t帧对应的特征图x_t∈R^1*C/r*H*W；

S33、将x_t+1(t＜T)馈入一个3*3的2D卷积层Conv₁，并计算相邻两帧特征图之间的差异作为t时刻的运动特征：Δx_t＝Conv₁(x_t+1)-x_t，Δx_t∈R^1*C/r*H*W，时间T对应的Δx_T由第T帧的原始特征图x_T直接复制得到，将所有Δx_t(1≤t≤T)在T维度上拼接后得到特征图M，M∈R^T ^*C/r*H*W；

S34、使用一个全局平均池化层压缩全局空间信息为通道描述符：

其中M^S∈R^T*C/r*1*1；

S35、将M^S特征通过另一个1*1的2D卷积层Conv_ex，将通道数恢复为C，并将sigmoid(δ)作为激活函数计算各通道的权值，此处将原本权值的范围从[0，1]扩展到[-1，1]，S＝2δ*Conv_ex(M^S)-1，S∈R^T*C*1*1；

S36、将权值与输入特征图按通道相乘得到通道级运动信息增强模块的输出：

X_O∈R^T*C*H*W，其中

为按通道相乘；

S4、实现时空特征聚合，具体步骤如下：

S41、改变特征图X_O∈R^T*C*H*W的形状为X_O→X^re∈R^HW*C*T；

其中

为属于通道c的卷积核权重，i∈{-1，0，1}；

S5、进行多分支输出；

S6、设计模型训练细节。

2.根据权利要求1所述的一种基于增强时空特征的动作识别方法，其特征在于，在S1中，选择Something-Something V1数据集，包括与常见对象互动的日常动作，V1包括108499条视频剪辑，有174个动作类别。

3.根据权利要求1所述的一种基于增强时空特征的动作识别方法，其特征在于，在S5中，多分支输出采用3个分类分支输出，并将3个分类分支输出共同训练得到最终分类结果。

4.根据权利要求3所述的一种基于增强时空特征的动作识别方法，其特征在于，3个分类分支输出包括：

第一个输出为Out_mean，是残差神经网络中常见的输出层结构；

第二个输出为Out_max，由F_max通过输出层后得到；

第三个输出为Out_channel，在全局最大池化层Max后另开分支，使用一个cross-channel池化层，对每N个响应求均值之后自然地分为C类得到；

其中，F_max为一个全局最大池化层Max获取所有特征中响应最大的部分，N为从每个类中提取局部特征的个数，C为视频的总类别，输出层由一个1*1的2D卷积层、一个全局平均池化层、一个全连接层和损失函数层组成。

5.根据权利要求4所述的一种基于增强时空特征的动作识别方法，其特征在于，F_max的具体步骤如下：

S51、将ResNet50网络中第四个EST block的输出特征图进行双线性上采样，并与第三个EST block的输出特征图在通道维度上进行拼接得到特征图F；

S52、使用1*1的2D卷积层Conv_L作为细粒度特征提取器，卷积核个数设置为N*C，其中N为从每个类中提取局部特征的个数，C为视频的总类别；

S53、采用一个全局最大池化层Max获取所有特征中响应最大的部分作为网络提取到的局部特征F_max，F_max＝Max(Conv_L(F))。

6.根据权利要求4所述的一种基于增强时空特征的动作识别方法，其特征在于，对于Out_mean、Out_max和Out_channel，都采用标准交叉熵损失函数，分别定义为loss_mean，loss_max和loss_channel，以促使每个输出都单独学习，最终用来训练的loss是由这三个loss直接求和得到：loss＝loss_mean+loss_max+loss_channel。

7.一种基于增强时空特征的动作识别系统，其特征在于，包括：