CN113221694A

CN113221694A - 一种动作识别方法

Info

Publication number: CN113221694A
Application number: CN202110473438.1A
Authority: CN
Inventors: 杨剑宇; 黄瑶
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06
Anticipated expiration: 2041-04-29
Also published as: CN113221694B; US20240046700A1; WO2022227292A1

Abstract

本发明提出一种动作识别方法，将动作视频样本分段，计算每个视频片段的动态图像；将每个视频片段的动、静态图像输入特征提取器；提取动态图像的运动特征向量；构建特征中心组，得到直方图表达；将直方图表达输入直方图连接层，得到动作视频样本的完整直方图表示；然后输入多层感知器，构成运动特征量化网络；训练其至收敛；将动态、静态图像输入训练好的运动特征量化网络中的特征提取器、增强器和软量化器，得到直方图表达；将直方图表达输入显著运动特征提取器，得到显著运动特征图；将显著运动特征图输入卷积神经网络，构成动作分类器；训练其至收敛；计算测试动作视频样本每个片段的动态、静态图像，并输入训练好的动作分类器，实现动作识别。

Description

一种动作识别方法

技术领域

本发明涉及一种动作识别方法，属于动作识别技术领域。

背景技术

动作识别是计算机视觉领域的重要课题，它在视频监控、行为分析、人机交互等领域有着广泛的应用。尽管由于廉价深度相机的发展，基于骨骼的动作识别受到越来越多的关注，但是这些方法受限于深度相机的精度，当存在遮挡情况或者动作较复杂时，预测的骨骼关节点的位置通常会出错。与深度相机相比，RGB设备发展得更为成熟，且更可靠，因此，很多学者研究基于RGB视频的动作识别。

大部分现有方法通过提取视频帧的图像层面的特征，进行动作识别，这些方法没有致力于提取视频中动作的运动特征，但是，对于视频分析而言，获取其中的动态信息十分重要，运动特征是区分不同动作的重要线索。

因此，针对上述动作识别算法的问题，提出一种动作识别方法。

发明内容

本发明是为解决现有技术中的问题而提出的，技术方案如下，

一种动作识别方法，包括以下步骤：

步骤一、将动作视频样本分段，计算每个视频片段的动态图像；

步骤二、将每个视频片段的动态图像、静态图像输入特征提取器，分别获取运动特征图和静态特征图；

步骤三、将获得的运动特征图和静态特征图输入运动特征增强器，提取动态图像的运动特征向量；

步骤四、构建特征中心组，对于每张动态图像，将该动态图像的运动特征向量输入至特征中心组中的特征中心，累加每个特征中心上的所有输出，得到该动态图像的直方图表达；

步骤五、将每个动作视频样本的所有动态图像的直方图表达输入直方图连接层，得到动作视频样本的完整直方图表示；

步骤六、将动作视频样本的完整直方图表示输入多层感知器，构成一个运动特征量化网络；

步骤七、将所有训练动作视频样本的动态图像、静态图像输入至运动特征量化网络，训练运动特征量化网络至收敛；

步骤八、将训练动作视频样本每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器、运动特征增强器和特征软量化器，得到直方图表达；

步骤九、将直方图表达输入显著运动特征提取器，得到显著运动特征图；

步骤十、将显著运动特征图输入卷积神经网络，构成动作分类器；

步骤十一、训练动作分类器至收敛；

步骤十二、计算测试动作视频样本每个视频片段的动态图像、静态图像，将动态图像、静态图像输入训练好的动作分类器，实现动作识别。

优选的，所述步骤一中，将动作视频样本分段的方法为：

每一个动作视频样本由该视频中的所有帧组成，对于任一动作视频样本A来说：

A＝{I_t|t∈[1,T]},

其中，t表示时间索引，T是动作视频样本A的总帧数；

为动作视频样本A的第t帧图像的矩阵表示，R、C、3分别对应第t帧图像的矩阵表示的行数、列数和通道数，

表示矩阵为实数矩阵；I_t中的每个元素表示第t帧图像的像素值；

使用长度为l₁的窗口，以步长为l₂将动作视频样本A分成Y个片段；第n₁个视频片段段

可表示为：

其中

表示视频片段

中的第t₁帧图像，也是动作视频样本A中的第t₁+(n₁-1)×l₂帧图像

对动作视频样本的每个视频片段计算动态图像，计算方式如下：

对于任一动作视频样本A的第n₁个视频片段

首先对视频片段中的每一帧图像

进行向量化，即将

三个通道的所有行向量连接成新的行向量

对行向量

中的每个元素求算术平方根，得到新的向量

即:

其中，

表示对行向量

中的每个元素求算术平方根；记

为视频片段

的第t₁帧图像的帧向量；

计算视频片段

第t₁帧图像的特征向量

计算方式如下：

其中，

表示对视频片段

的第1帧图像到第t₁帧图像的帧向量求和；

计算视频片段

第t₁帧图像的得分

计算公式如下：

其中，u为维度为f的向量，f＝R×C×3；u^T表示对向量u转置；

表示计算对向量u转置后得到的向量与特征向量

的点积；

计算u的值，使视频片段中越排在后面的帧图像，得分越高，即t₁越大，得分

越高；u的计算可以使用RankSVM计算，计算方法如下：

其中，

表示使E(u)的值最小的u，λ为常数，||u||²表示计算向量u中每个元素的平方之和；B_i、B_j分别表示视频片段

第i帧图像的得分、视频片段

第j帧图像的得分，max{0,1-B_i+B_j}表示选取0和1-B_i+B_j中较大的那个值；

使用RankSVM计算出向量u后，将向量u排列成与

相同尺寸的图像形式，得到

称

为动作视频样本A的第n₁个视频片段

的动态图像；动作视频样本A共Y个视频片段，可得到Y张动态图像。

进一步的，所述步骤二中，特征提取器由一系列卷积层和池化层组成；将每个动作视频样本的每个视频片段的动态图像输入特征提取器，特征提取器输出的特征图为

其中K₁、K₂、D分别表示输出特征图的高度、宽度和通道数，称F^M为运动特征图；

对于每个动作视频样本的每个视频片段，提取每个视频片段的中间帧，作为每个动作视频样本的视频片段的静态图像；将每个动作视频样本的每个视频片段的静态图像分别输入特征提取器，特征提取器输出的特征图为

称F^S为静态特征图。

进一步的，所述步骤三中，将获得的运动特征图和静态特征图输入运动特征增强器，提取动态图像的运动特征向量，具体步骤如下：

计算运动特征图F^M中每个通道的像素值之和，第d个通道的像素值之和μ_d的计算方式为：

其中，

表示运动特征图F^M的第d个通道在位置(a,b)处的值；

计算静态特征图F^S中每个通道的像素值之和，第d个通道的像素值之和s_d的计算方式为：

其中，

表示静态特征图F^S的第d个通道在位置(a,b)处的值；

分别计算运动特征图F^M、静态特征图F^S每个通道像素值之和的差值，第d个通道的像素之和的差值β_d的计算公式为：

β_d＝|s_d-μ_d|，

因为运动特征图和静态特征图是通过同一个特征提取器得到的输出，因此运动特征图和静态特征图第d个通道对应的卷积核相同；如果差值β_d很小，表明运动特征图和静态特征图第d个通道对应的卷积核提取的多是静态特征；如果差值β_d较大，说明运动特征图和静态特征图第d个通道对应的卷积核提取的多是运动特征；因此，差值β_d越大，对应卷积核提取的特征所占的权重更大，从而使得运动特征得到增强；

第d个通道对应的卷积核提取的特征所占的权重r_d的计算公式为：

其中，e为自然常数，其值约为2.718281828459045；

表示运动特征图和静态特征图第

个通道的像素之和的差值，

的取值范围为[1,D]，且

为整数；

将运动特征图F^M各个通道的值乘以该通道特征的权重，得到新的运动特征图

称该运动特征图为增强运动特征图F^M′；增强运动特征图F^M′第d个通道在位置(a,b)处的值

的计算公式为：

增强运动特征图F^M′一共有K₁×K₂个像素点，每个像素点的特征向量x_y的维度为D，即增强运动特征图的通道数，y＝1,2,...,K₁×K₂；最终动态图像中的运动特征向量可由特征向量集合X＝{x_y|y＝1,2,...,K₁×K₂}表示。

进一步的，所述步骤四中，特征中心组一共包含N_K个特征中心，每个特征中心对应有一个尺度缩放系数，每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到：

计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量，将所有的运动特征向量进行聚类，聚类的簇的个数与特征中心的个数一样，即聚类的簇的个数为N_K，每个簇有一个聚类中心，聚类得到的聚类中心的值作为特征中心的初始值；对于第k个簇来说，记该簇中的所有特征向量的集合为E_k，其中包含N_k个特征向量：

计算特征向量间的欧式距离d_q,τ：

其中，[e_q]_d表示特征向量e_q的第d维数据，q∈[1,N_k-1]，τ∈[q+1,N_k]；第k个特征中心的尺度缩放系数σ_k的初始值为：

对于动态图像的运动特征向量x_y，计算其与第k个特征中心c_k的距离，作为其在第k个特征中心c_k的输出，距离计算公式为：

W_k(x_y)＝exp(-||x_y-c_k||₂/σ_k)；

对运动特征向量x_y输入至第k个特征中心得到的输出进行归一化：

将每张动态图像的所有运动特征向量输入至特征中心组的各个特征中心，累加特征中心组的每个特征中心上的所有输出；第k个特征中心的累加输出

的计算方式如下：

所有的特征中心的累加值连接在一起，得到动作视频样本的第n₁个视频片段的动态图像的直方图表达

特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器；特征软量化器的输入为每个动作视频样本每个视频片段的动态图像的运动特征向量，输出为每个视频片段的动态图像的直方图表达。

进一步的，所述步骤五中，得到动作视频样本的完整直方图表示的具体方法为：

对于每个动作视频样本，它有多个视频片段，每个视频片段有一张动态图像，每张动态图像都有对应的直方图表达；将每张动态图像的直方图表达输入直方图连接层，将这些直方图表达连接起来，得到动作视频样本的完整直方图表示；对于任一动作视频样本A来说，它被分成Y个视频片段，它的完整直方图表示为H＝(H₁,H₂,...,H_Y)。

进一步的，所述步骤六中，将动作视频样本的完整直方图表示输入多层感知器，构成一个运动特征量化网络，运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器；

多层感知器包括输入层、隐层和输出层；输入层与直方图连接层的输出相连接，输入层的输出Input与直方图连接层的输出H相同，即Input＝H，输入层共m＝N_K×Y个神经元；隐层共有n个神经元，与输入层的所有输出单元全连接，多层感知器的输出层有z个神经元，每个神经元代表一个动作类别；输入层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出Q的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量；

运动特征量化网络的损失函数L₁为：

其中，

是第g个样本的多层感知器的输出向量，

是第g个样本期望的输出向量，其中l_g的第p维数据定义为：

其中，G是总样本数量，l_g是第g个样本的标签值。

进一步的，所述步骤八中，将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器，用以得到运动特征图和静态特征图；将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器，用以得到训练动作视频样本对应视频片段的增强运动特征图F^M′；增强运动特征图F^M′包含了运动特征向量

y＝1,2,...,K₁×K₂；将运动特征向量输入训练好的运动特征量化网络中的特征软量化器，得到对应的直方图表达

其中

表示训练好的运动特征量化网络中的特征软量化器中的第k个特征中心的累加输出，k＝1,2,...,N_K。

进一步的，所述步骤九中，将直方图表达输入显著运动特征提取器，得到显著运动特征图的具体步骤如下：

在

中选取最大的N_M个值，这N_M个值，有N_M个对应的特征中心；

对于这N_M个特征中心，计算增强运动特征图中每个像素的特征向量与每个特征中心的距离，特征向量x_y与第k个特征中心c_k的距离计算公式为：

W_k(x_y)＝exp(-||x_y-c_k||₂/σ_k)

以该距离作为每个像素的新像素值，每个特征中心都可以得到一张图像，称该图像为显著运动特征图像；显著运动特征图像的每个像素值为对应像素特征向量与该特征中心的距离；一共可以得到N_M张显著运动特征图像，将得到的N_M张显著运动特征图像按通道堆叠在一起，得到通道数为N_M的显著运动特征图。

进一步的，所述步骤十中，动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器，以及显著运动特征提取器、卷积神经网络构成；

动作分类器的损失函数L₂为：

其中，

是第g个样本的输出向量，

是第g个样本期望的输出向量，其中l_g的第p维数据定义为：

其中，l_g是第g个样本的标签值。

进一步的，所述步骤十二中，实现动作识别的具体方法为：

使用长度为l₁的窗口，以步长为l₂将测试动作视频样本分段，计算每个视频片段的动态图像、静态图像，然后将动态图像、静态图像输入训练好的动作分类器，得到对当前测试动作视频样本预测的属于各个动作类别的概率值，将每个视频片段输出的概率值相加，概率值最大的动作类别为最终预测的当前测试动作视频样本的所属动作类别。

本发明提出的运动特征量化网络能够提取运动视频中单纯的运动特征，忽略了背景和物体等静态信息，仅利用运动特征进行动作识别，使得学得的运动特征对于动作识别而言更具有区分度。

附图说明

图1是本发明一种动作识别方法的工作流程图。

图2是本发明具体实施例的动态图像示意图。

图3是本发明特征提取器的示意图。

图4是图3中分组卷积模块1的示意图。

图5是图3中分组卷积模块2或分组卷积模块3的示意图。

图6是本发明具体实施例的静态图像示意图。

图7是本发明运动特征量化网络示意图。

图8是本发明具体实施例的显著运特征图像示意图。

图9是本发明动作分类器的示意图。

图10是本发明卷积神经网络的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种动作识别方法，包括如下流程：

1.动作视频样本集总样本数为2000，共10个动作类别，每个动作类别有200个动作视频样本。每个动作类别中随机选取四分之三的样本划入训练集，剩下的四分之一划入测试集，得到共1500个训练动作视频样本，500个测试动作视频样本。每一个动作视频样本由该视频中的所有帧组成。以第一个动作视频样本A为例：

A＝{I_t|t∈[1,40]}，

其中，t表示时间索引，该动作视频样本共有40帧。

为动作视频样本A的第t帧图像的矩阵表示，该帧图像的行数为240，列数为320，通道数为3。

表示矩阵为实数矩阵。I_t中的每个元素表示第t帧图像的像素值。使用长度为10的窗口，以步长为6将动作样本A分成5个视频片段。第n₁个视频片段

可表示为：

其中

表示视频片段

中的第t₁帧图像，也是动作视频样本A中的第t₁+6×(n₁-1)帧图像

对动作视频样本A的5个视频片段A₁、A₂、A₃、A₄、A₅分别计算动态图像，以视频片段

为例，首先对视频片段A₂中的每一帧图像

进行向量化，即将

的每一个行向量连接成新的行向量

对行向量

中的每个元素求算术平方根，得到新的向量

即:

其中，

表示对行向量

中的每个元素求算术平方根。记

为视频片段A₂的第t₁帧图像的帧向量。

计算视频片段A₂第t₁帧图像的特征向量

计算方式如下：

其中，

表示对视频片段A₂的第1帧图像到第t₁帧图像的帧向量求和。

计算视频片段A₂第t₁帧图像的得分

计算公式如下：

其中，u为维度为230400的向量。u^T表示对向量u转置。

表示计算对向量u转置后得到的向量与特征向量

的点积。

越大。u的计算可以使用RankSVM计算，计算方法如下：

其中，

表示使E(u)的值最小的u，λ为常数，||u||²表示计算向量u中每个元素的平方之和。B_i、B_j分别表示视频片段

第i帧图像的得分、视频片段

第j帧图像的得分，max{0,1-B_i+B_j}表示选取0和1-B_i+B_j中较大的那个值。

使用RankSVM计算出向量u后，将向量u排列成与

相同尺寸的图像形式，得到

称u₂为动作视频样本A的第2个视频片段A₂的动态图像，如图2所示，为求得的动态图像示例。动作样本A共5个片段，可得到5张动态图像。

2.将动作视频样本的每张动态图像输入特征提取器，提取动态图像中的运动特征。特征提取器由一系列卷积层和池化层组成。特征提取器如图3所示，它由ResNext-50的前两个模块构成，分别为卷积模块1和卷积模块2。

卷积模块1包含一个卷积层，该卷积层有64个卷积核，每个卷积核的大小为7×7。卷积模块2包含一个最大池化层、三个分组卷积模块。最大池化层的池化核的大小为3×3。分组卷积模块1如图4所示。第一层为卷积层，第二层为分组卷积层，第三层为卷积层，第四层为残差相加层。第一层卷积层有128个卷积核，每个卷积核的大小为1×1。第二层分组卷积层有128个卷积核，每个卷积核的大小为3×3。该分组卷积层将输入的大小为W¹×H¹×128的特征图按通道分成32组大小为W¹×H¹×4的特征图，并将128个卷积核分成32组，每组有4个卷积核，将每组的特征图与每组的卷积核分别进行卷积，最后将每组卷积的结果按通道连接，得到分组卷积层的输出。第三层卷积层有256个卷积核，每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层，残差卷积层有256个卷积核，每个卷积核的大小为1×1，将该残差卷积层的输出与第三层卷积层的输出相加，作为第四层残差相加层的输出，也是第一个分组卷积模块的输出。分组卷积模块2、3与分组卷积模块1相似，如图5所示，唯一不同的是，第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加，没有残差卷积层。

特征提取器输出的特征图为

该特征图的高度、宽度、通道数分别为30、40、256，称该特征图F^M为运动特征图。

3.对于动作视频样本的每个视频片段，提取该视频片段的中间帧，作为该动作视频样本的视频片段的静态图像，如图6所示为动作视频样本A的第2个片段A₂的静态图像。将动作视频样本的每个视频片段的静态图像分别输入特征提取器，特征提取器输出的特征图为

称F^S为静态特征图。

4.将动作视频样本每个视频片段的运动特征图F^M和静态特征图F^S输入运动特征增强器，提取动态图像中的运动特征向量，具体步骤如下：

其中，

表示运动特征图F^M的第d个通道在位置(a,b)处的值。

其中，

表示静态特征图F^S的第d个通道在位置(a,b)处的值。

分别计算运动特征图F^M、静态特征图F^S每个通道像素值之和的差值，第d个通道的像素之和的差值β_i的计算公式为：

β_d＝|s_d-μ_d|，

因为运动特征图和静态特征图是通过同一个特征提取器得到的输出，因此运动特征图和静态特征图第d个通道对应的卷积核相同。如果差值β_d很小，表明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是静态特征，比如背景特征。如果差值β_d较大，说明运动特征图和静态特征图第d个通道对应的卷积核更多的提取的是运动特征。因此，差值β_d越大，对应卷积核提取的特征所占的权重应该更大，从而使得运动特征得到增强。

其中，e为自然常数，其值约为2.718281828459045。

表示运动特征图和静态特征图第

个通道的像素之和的差值，

的取值范围为[1,256]，且

为整数。

称该特征图为增强运动特征图。增强运动特征图F^M′第d个通道在位置(a,b)处的值

的计算公式为：

增强运动特征图F^M′一共有30×40＝1200个像素点，每个像素点的特征向量x_y的维度为256，即增强运动特征图的通道数，y＝1,2,...,1200。最终动态图像中的运动特征向量可由特征向量集合X＝{x_y|y＝1,2,...,1200}表示。

5.构建特征中心组，该特征中心组一共包含64个特征中心。每个特征中心对应有一个尺度缩放系数。以第一个特征中心为例，它的初始值及其尺度缩放系数的初始值通过以下方法计算得到：

计算所有训练动作视频样本的视频片段的动态图像中的运动特征向量，将所有的运动特征向量进行聚类，聚类的簇的个数设置为64，每个簇有一个聚类中心，将第一个簇的聚类中心的值作为第一个特征中心的初始值。记第一个簇中的所有特征向量的集合为E₁，其中包含500个向量：

E₁＝{e₁,e₂,…,e₅₀₀}，

计算向量间的欧式距离

其中，[e_q]_d表示向量e_q的第d维数据，q∈[1,499]，τ∈[q+1,500]。第一个特征中心的尺度缩放系数σ₁的初始值为：

按照上述方式可以得到64个特征中心的初始值和对应尺度缩放系数的初始值。

6.对于动态图像的运动特征向量x_y，计算其与第k个特征中心c_k的距离，作为其在第k个特征中心c_k的输出，距离计算公式为：

W_k(x_y)＝exp(-||x_y-c_k||₂/σ_k)，

7.将动作视频样本每张动态图像的所有运动特征向量分别输入至特征中心组的各个特征中心，累加特征中心组的每个特征中心上的所有输出。第k个特征中心的累加输出h_kn1的计算方式如下：

对于动作视频样本A的第2个视频片段A₂的动态图像u₂，计算得到的直方图表达为

特征中心组以及对特征中心组的输出进行累加的累加层构成了特征软量化器。特征软量化器的输入为每个动作样本每个视频片段的动态图像的运动特征向量，输出为每个视频片段的动态图像的直方图表达。

8.对于每个动作视频样本，它有多个视频片段，每个视频片段有一张动态图像，每张动态图像都有对应的直方图表达。将每张动态图像的直方图表达输入直方图连接层，将这些直方图表达连接起来，得到动作视频样本的完整直方图表示。对于动作视频样本A来说，它被分成5个视频片段，它的完整直方图表示为：

9.将动作视频样本的完整直方图表示输入多层感知器，构成运动特征量化网络，如图7所示。运动特征量化网络包括：特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器。

多层感知器包括输入层、隐层和输出层。输入层与直方图连接层的输出相连接，输入层的输出Input与直方图连接层的输出H相同，即Input＝H，输入层共320个神经元。隐层共有128个神经元，与输入层的所有输出单元全连接，多层感知器的输出层有10个神经元，每个神经元代表一个动作类别；输入层与隐层间的权重表示为

隐层与输出层间的权重表示为

隐层神经元的输出Q的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量。

运动特征量化网络的损失函数L₁为：

其中，

是第g个样本的多层感知器的输出向量，

是第g个样本期望的输出向量，其中l_g的第p维数据定义为：

其中，l_g是第g个样本的标签值。

10.将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器，分别得到运动特征图和静态特征图。将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器，得到训练动作视频样本对应视频片段的增强运动特征图。动作视频样本A的第二个视频片段A₂的增强运动特征图为F^M′，包含了运动特征向量

y＝1,2,...,1200。

将运动特征向量输入训练好的运动特征量化网络中的特征软量化器，得到对应的直方图表达

对于动作视频样本A的第2个片段A₂，得到的直方图表达为

11.得到的直方图表达

输入显著运动特征提取器，获取显著运动特征图。以对于动作视频样本A的第2个视频片段A₂为例，获取运动特征图像的具体步骤如下：

在

中选取最大的5个值，分别为

对应的特征中心为c₂、c₅、c₈、c₂₅、c₆₀。

对于这5个特征中心，计算增强运动特征图F^M′中每个像素的特征向量与每个特征中心的距离。特征向量x_y与特征中心c₂的距离计算公式为：

W₂(x_y)＝exp(-||x_y-c₂||₂/σ₂)

以该距离作为每个像素的新像素值，每个特征中心都可以得到一张图像，称该图像为显著运动特征图像。图像的每个像素值为对应像素特征向量与该特征中心的距离。图8为动作视频样本A的第2个视频片段A₂的增强运动特征图中像素的特征向量与特征中心c₂计算距离得到的显著运动特征图像。

一共5个特征中心，可以得到5张显著运动特征图像。将得到的5张显著运动特征图像按通道堆叠在一起，得到通道数为5的显著运动特征图。

12.将显著运动特征图输入卷积神经网络，构成动作分类器，如图9所示。动作分类器由训练好的运动特征量化网络中的特征提取器、运动特征增强器、特征软量化器，以及显著运动特征提取器、卷积神经网络构成。卷积神经网络使用ResNext-50剩下的模块，如图10所示，包含卷积模块3、4、5、一层全局池化层和一层全连接层。

卷积模块3包含四个分组卷积模块。分组卷积模块1第一层为卷积层，第二层为分组卷积层，第三层为卷积层，第四层为残差相加层。第一层卷积层有256个卷积核，每个卷积核的大小为1×1。第二层分组卷积层有256个卷积核，每个卷积核的大小为3×3。该分组卷积层将输入的大小为W²×H²×256的特征图按通道分成32组大小为W²×H²×8的特征图，并将256个卷积核分成32组，每组有8个卷积核，将每组的特征图与每组的卷积核分别进行卷积，最后将每组卷积的结果按通道连接，得到分组卷积层的输出。第三层卷积层有512个卷积核，每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层，残差卷积层有512个卷积核，每个卷积核的大小为1×1，将该残差卷积层的输出与第三层卷积层的输出相加，作为第四层残差相加层的输出，也是分组卷积模块1的输出。分组卷积模块2、3、4与分组卷积模块1相似，唯一不同的是，分组卷积模块2、3、4的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加，没有残差卷积层。

卷积模块4含六个分组卷积模块。分组卷积模块1第一层为卷积层，第二层为分组卷积层，第三层为卷积层，第四层为残差相加层。第一层卷积层有512个卷积核，每个卷积核的大小为1×1。第二层分组卷积层有512个卷积核，每个卷积核的大小为3×3。该分组卷积层将输入的大小为W³×H³×512的特征图按通道分成32组大小为W³×H³×16的特征图，并将512个卷积核分成32组，每组有16个卷积核，将每组的特征图与每组的卷积核分别进行卷积，最后将每组卷积的结果按通道连接，得到分组卷积层的输出。第三层卷积层有1024个卷积核，每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层，残差卷积层有1024个卷积核，每个卷积核的大小为1×1，将该残差卷积层的输出与第三层卷积层的输出相加，作为第四层残差相加层的输出，也是分组卷积模块1的输出。分组卷积模块2-6与分组卷积模块1相似，唯一不同的是，分组卷积模块2-6的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加，没有残差卷积层。

卷积模块5包含三个分组卷积模块。分组卷积模块1第一层为卷积层，第二层为分组卷积层，第三层为卷积层，第四层为残差相加层。第一层卷积层有1024个卷积核，每个卷积核的大小为1×1。第二层分组卷积层有1024个卷积核，每个卷积核的大小为3×3。该分组卷积层将输入的大小为W⁴×H⁴×1024的特征图按通道分成32组大小为W⁴×H⁴×32的特征图，并将1024个卷积核分成32组，每组有32个卷积核，将每组的特征图与每组的卷积核分别进行卷积，最后将每组卷积的结果按通道连接，得到分组卷积层的输出。第三层卷积层有2048个卷积核，每个卷积核的大小为1×1。第四层残差相加层将第一层卷积层的输入传进残差卷积层，残差卷积层有2048个卷积核，每个卷积核的大小为1×1，将该残差卷积层的输出与第三层卷积层的输出相加，作为第四层残差相加层的输出，也是第一个分组卷积模块的输出。第二、三个分组卷积模块与第一个分组卷积模块相似，唯一不同的是，第二、三个分组卷积模块的第四层残差相加层直接将第一层卷积层的输入与第三层卷积层的输出相加，没有残差卷积层。

全局平均池化层计算该层输入的特征图的每个通道的平均值，作为输出。全连接层的使用的激活函数为softmax。

动作分类器的损失函数L₂为：

其中，

是第g个视频样本的全连接层的输出向量，

是第g个视频样本期望的输出向量，其中第p维数据定义为：

其中，l_g是第g个视频样本的标签值。

动作分类器的输入为动作视频样本的每个视频片段的动态图像、静态图像，输出为当前动作视频样本属于各个动作类别的概率值。将每个视频片段输出的每个动作类别的概率值相加，概率值最大的动作类别为最终预测的当前动作视频样本所属动作类别。

13.训练动作分类器至收敛。使用长度为10的窗口，以步长为6将测试动作视频样本分段。计算每个视频片段的动态图像、静态图像，然后将动态图像、静态图像输入训练好的动作分类器，得到对当前测试动作视频样本预测的属于各个动作类别的概率值。将每个视频片段的输出概率值相加，概率值最大的动作类别为最终预测的当前测试动作视频样本所属动作类别。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动作识别方法，其特征在于：包括以下步骤：

步骤十一、训练动作分类器至收敛；

2.根据权利要求1所述的一种动作识别方法，其特征在于：所述步骤一中，将动作视频样本分段的方法为：

A＝{I_t|t∈[1,T]},

其中，t表示时间索引，T是动作视频样本A的总帧数；

可表示为：

其中

表示视频片段

对于任一动作视频样本A的第n₁个视频片段

首先对视频片段中的每一帧图像

进行向量化，即将

三个通道的所有行向量连接成新的行向量

对行向量

中的每个元素求算术平方根，得到新的向量

即:

其中，

表示对行向量

中的每个元素求算术平方根；记

为视频片段

的第t₁帧图像的帧向量；

计算视频片段

第t₁帧图像的特征向量

计算方式如下：

其中，

表示对视频片段

的第1帧图像到第t₁帧图像的帧向量求和；

计算视频片段

第t₁帧图像的得分

计算公式如下：

其中，u为维度为f的向量，f＝R×C×3；u^T表示对向量u转置；

表示计算对向量u转置后得到的向量与特征向量

的点积；

越高；u的计算可以使用RankSVM计算，计算方法如下：

其中，

第i帧图像的得分、视频片段

使用RankSVM计算出向量u后，将向量u排列成与

相同尺寸的图像形式，得到

称

为动作视频样本A的第n₁个视频片段

3.根据权利要求2所述的一种动作识别方法，其特征在于：所述步骤二中，特征提取器由一系列卷积层和池化层组成；将每个动作视频样本的每个视频片段的动态图像输入特征提取器，特征提取器输出的特征图为

称F^S为静态特征图。

4.根据权利要求3所述的一种动作识别方法，其特征在于：所述步骤三中，将获得的运动特征图和静态特征图输入运动特征增强器，提取动态图像的运动特征向量，具体步骤如下：

其中，

表示运动特征图F^M的第d个通道在位置(a,b)处的值；

其中，

表示静态特征图F^S的第d个通道在位置(a,b)处的值；

β_d＝|s_d-μ_d|，

其中，e为自然常数，其值约为2.718281828459045；

表示运动特征图和静态特征图第

个通道的像素之和的差值，

的取值范围为[1,D]，且

为整数；

的计算公式为：

5.根据权利要求4所述的一种动作识别方法，其特征在于：所述步骤四中，特征中心组一共包含N_K个特征中心，每个特征中心对应有一个尺度缩放系数，每个特征中心及其尺度缩放系数的初始值通过以下方法计算得到：

计算特征向量间的欧式距离d_q,τ：

W_k(x_y)＝exp(-||x_y-c_k||₂/σ_k)；

的计算方式如下：

6.根据权利要求5所述的一种动作识别方法，其特征在于：所述步骤五中，得到动作视频样本的完整直方图表示的具体方法为：

7.根据权利要求6所述的一种动作识别方法，其特征在于：所述步骤六中，运动特征量化网络包括特征提取器、运动特征增强器、特征软量化器、直方图连接层和多层感知器；

隐层与输出层间的权重表示为

隐层神经元的输出Q的计算方式如下：

其中，φ_elu是elu激活函数，

是隐层的偏置向量；

多层感知器的输出层输出O为：

其中，φ_softmax为softmax激活函数，

是输出层的偏置向量；

运动特征量化网络的损失函数L₁为：

其中，

是第g个样本的多层感知器的输出向量，

是第g个样本期望的输出向量，其中l_g的第p维数据定义为：

其中，G是总样本数量，l_g是第g个样本的标签值。

8.根据权利要求7所述的一种动作识别方法，其特征在于：所述步骤八中，将训练动作视频样本的每个视频片段的动态图像、静态图像输入训练好的运动特征量化网络中的特征提取器，用以得到运动特征图和静态特征图；将运动特征图和静态特征图输入训练好的运动特征量化网络中的运动特征增强器，用以得到训练动作视频样本对应视频片段的增强运动特征图F^M′；增强运动特征图F^M′包含了运动特征向量