CN114821669B

CN114821669B - 一种基于深度学习的细粒度行为识别方法

Info

Publication number: CN114821669B
Application number: CN202210597200.4A
Authority: CN
Inventors: 葛永新; 李自强; 陈忠明; 俞佳若; 徐玲; 洪明坚; 杨梦宁; 张小洪; 杨丹
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2024-05-31
Anticipated expiration: 2042-05-26
Also published as: CN114821669A

Abstract

本发明涉及一种基于深度学习的细粒度行为识别方法，包括如下步骤：选用公开数据集，构建细粒度行为识别模型M，该模型包括基础行为识别模型TSN/TSM和行为扩展模型DFLM两部分；通过M中的基础行为识别模型对公开数据集中的视频进行特征提取，然后根据特征及相应标签构建得到三条支流结构；通过行为扩展模型DFLM执行自底向上和自顶向下两个阶段得到元素级和集合级的新特征；构建损失函数并通过损失函数对模型M进行训练，得到训练好的细粒度行为识别模型；通过将元素级和集合级的新特征输入到现有的分类器模型中，得到最终的细粒度行为识别结果。本发明方法能够对实际中行为间的差异性引起的更为复杂多变的更细粒度行为进行准确的识别。

Description

一种基于深度学习的细粒度行为识别方法

技术领域

本发明涉及细粒度行为识别领域，特别涉及一种基于深度学习的细粒度行为识别方法。

背景技术

由于行为识别任务在安全监控、自动驾驶、自动视频标注等领域都有广泛的应用，该研究在计算机视觉领域中得到了极大的关注。迄今为止，许多行为识别的创新性工作在一些样本数量大的基准数据集(如Kineetics和ActivityNet)上都取得了显著性的进展，然而此类数据集专注于粗粒度类别的行为，如“奔跑”和“潜水”；基于该类数据集训练得到的识别模型会忽略行为主体本身，仅关注背景信息即可完成分类任务：如区分潜水与奔跑这两种行为，此类模型可以用水池和运动场这种背景信息进行判别，然而实际中的行为间的差异性更为复杂多变且更细粒度化，如竞走和跑步；两者行为差异较为细节且往往具有相似的背景信息，基于粗粒度数据集提出的方法并不适合用于此类行为识别任务。因此，对于细粒度行为识别的方法研究也必不可少。

细粒度行为识别的一大挑战在于不同行为间的差异微小且复杂，识别模型难以学习到判别性特征。基于细粒度识别任务的基准数据集提出后，相关研究工作也取得一定进展，如Rohrbach等人对行为发生部分进行空间部分标注，以更好地关注行为间判别性信息；除此技术，也有近期工作利用跨模态或多模态信息来丰富细粒度行为的表示，利用辅助模态信息区分行为间差异，然而，以上方法却忽略了粗粒度和细粒度标签之间的层次语义关系对细粒度行为分类的贡献。

实事上，不同的细粒度行为也会存在一个共同的粗粒度标签，即不同细粒度类别同属于一个共同的粗粒度类别，这种标签关系类似于父母和孩子的关系，即一种层次语义关系；而值得注意的是，同一个父类下的不同子动作往往容易被混淆成同一个动作，这是因为拥有同一粗粒度标签的不同细粒度行为的类间特有语义表征少，反而存在大量相似的共同语义信息；例如，“打开橱柜”和“打开冰箱”的动作具有一致打开过程的语义模式，而操作对象的具体语义信息却不一致；与此同时，在细粒度数据集中，不同粗粒度标签下的细粒度行为之间可以视为简单样本对，即类间差异大，而同一粗粒度标签下的不同细粒度行为是难样本对，且简单样本对的比例是大于难样本对的。因此，若只使用细粒度行为标签进行监督训练，识别模型偏向于简单样本间的特征差异，而少关注难样本间的弱判别性特征信息。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：目前现有技术对视频中的细粒度行为识别不够准确。

为解决上述技术问题，本发明采用如下技术方案：

一种基于深度学习的细粒度行为识别方法，包括如下步骤：

S100：选用包含N个视频数据的公开数据集其中V_i表示第i个视频，每个视频包含该视频的事件级语义标签/>集合级语义标签/>和元素级语义标签/>其中，C_eve、C_set和C_ele分别表示事件级、集合级和元素级对应的类别数目；

S200：构建细粒度行为识别模型M，该细粒度行为识别模型M包括基础行为识别模型TSN/TSM和行为扩展模型DFLM；

S300：令i＝1；

S310：将第i个视频输入到基础行为识别模型TSN/TSM中，TSN/TSM模型共包含四层结构，从TSN/TSM模型的第二层提取到相应的粗粒度特征x_eve∈R^c×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征x_set∈R^c×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征x_ele∈R^c×h×w，其中c表示特征通道数，h和w分别表示特征矩阵的高和宽，粗粒度特征x_eve对应事件级语义标签y_eve，中粒度特征x_set对应集合级语义标签y_set，细粒度特征x_ele对应元素级语义标签y_ele；

每种粒度特征与对应的级语义标签构建得到三条支流结构，分别为事件级支流，集合级支流和元素级支流，每条流的监督信息就为对应的级语义标签；

S320：扩展模型DFLM运算包括自底向上阶段和自顶向下阶段两个阶段；

S321：执行自底向上阶段：

S321-1：拼接细粒度特征x_ele和中粒度特征x_set，然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将/>与粗粒度特征x_eve进行拼接，然后将与粗粒度特征x_eve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征具体表达式如下：

其中，表示特征拼接操作，Φ_set和Φ_eve分别表示集合级支流和事件级支流中的conv1×1层；

S321-2：分别计算集合级分支特征存储向量和事件级分支特征存储向量完成特征存储库的更新过程，计算表达式如下：

其中，i和j分别表示对应共同特征所属较为粗粒度类别的真实标签，λ表示超参数；

S321-3：使用L₂均方损失优化对应粗粒度支流得到的共同语义特征，计算表达式如下：

S322：执行自顶向下阶段：

S322-1：计算元素级支流相似矩阵A_ele和集合级支流的相似矩阵A_set，计算表达式如下：

其中，W_ele和W_set是可学习的矩阵参数，Γ(·)是卷积核大小为1的2D卷积层；

S322-2：对A_ele和A_set进行归一化操作，表达式如下：

C_ele＝softmax(A_ele)，C_set＝softmax(A_set) (5)

其中，softmax(·)表示对变量在列维度进行操作，C_ele和C_set分别表示对应的元素级共同注意图和集合级共同注意图，且同时表示了对应的共同语义特征与相应的细粒度特征/>相似语义部分；

S322-3：根据共同注意力图C_ele和C_set，通过取反操作计算对应的图S_ele和S_set，表达式如下：

S_ele＝1-C_ele，S_set＝1-C_set； (6)

S322-4：通过图S_ele和S_set提取出细粒度特征中类特有特征，计算表达式如下：

其中，表示细粒度类特有特征，/>表示中粒度类特有特征，S_ele∈R^c×hw以及S_set∈R^c×hw；

S322-5：采用注意力机制对类特有特征进行激活且保存原始特征，计算表达式如下：

其中，和/>表示用于更新参数的矩阵，σ(·)是基于空间和通道维度的sigmoid激活函数，a_ele和a_set表示相应的类特有注意力权重值，R^c×h×w为R^c×hw的重转化结果；

S322-6：计算激活元素级支流细粒度特征中的类特定信息和集合级支流细粒度特征中的类特定信息，计算表达式如下：

其中，x′_ele表示元素级支流细粒度特征的类特定信息，即元素级新特征；x′_set表示集合级支流细粒度特征中的类特定信息，即集合级新特征；

S400：计算细粒度行为识别模型M模型的总损失函数，表达式如下：

L＝L_c+β·L_s+γ·L_r (10)

其中，β和γ是损失权重调节的超参数；

S500：根据S400中的总损失函数L对细粒度行为识别模型M进行参数更新；

S600：i＝i+1；

S700：如果i大于最大迭代次数，则得到训练好的模型M′，并执行下一步；否则返回S310；

S800：将待预测视频的视频数据输入到训练好的模型M′中，得到该待预测视频的元素级新特征x″_ele和集合级新特征x″_set；

S900：将元素级新特征x″_ele和集合级新特征x″_set输入到现有的分类器模型中，分类器模型的输出结果就是对待预测视频的细粒度行为识别结果。

作为优选，所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下：

S410：计算扩展模型DFLM三条支流预测的分类概率与真实的层次语义标签的损失函数，计算表达式如下：

L_c＝CCE(y_ele,ψ(x_ele))+CCE(y_set,ψ(x_set))+CCE(y_eve,ψ(x_ebe)) (11)

其中，CCE(·)表示交叉熵损失函数，ψ(·)表示为细粒度行为识别模型M；

S420：对和/>进行池化操作，然后利用交叉熵损失对池化操作后的/>和进行优化，计算表达式如下：

其中，FC(·)表示一个用于生成类别分数的全连接层；

S430：结合S321-3所述损失函数L_r、S410所述损失函数L_c和S420所述损失函数L_s得到模型总损失函数L。

相对于现有技术，本发明至少具有如下优点：

1.本发明呈现了一个新颖的基于层次语义标签的判别特征学习模型(DFLM)，以用于细粒度的行为识别。本方法的DFLM由事件级、集合级和元素级三种粒度的分支组成。在前项过程中，可分为自底向上和自顶向下两个子阶段。在自底向上模阶段，粗粒度支流会对细粒度支流中不同细粒度行为的共同语义特征进行捕捉。在自顶向下阶段中，捕捉到的共同语义特征将在较细粒度支流中用于挖掘较细粒度行为的类特有语义特征。而此类特有的语义特征有助于细粒度的动作识别。本方法在细粒度运动数据集Gym99和Gym288上取得了先进的结果，并且相应的消融实验结果亦显示了自底向上和自顶向下阶段的有效性。

2.本发明提出了一个基于层次语义标签的判别性特征学习模型用于细粒度行为识别。

3.本发明设计了自底向上和自顶向下的两个交互阶段，分别用于共同语义特征提取和特有语义特征解构。

4.本发明提出了一种新颖的判别特征学习模型(Discriminative featurelearning model,DFLM)，该模型利用粗粒度标签提取出不同细粒度行为的共同语义特征，然后利用共同语义特征对细粒度标签学习的行为特征进行过滤，挖掘出不同细粒度行为间细微的特有特征。所提出的DFLM是基于事件级(粗粒度)、集合级(中粗粒度)和元素级(细粒度)三个分支网络，且不同分支拥有不同粒度的类别标签作为监督信息。

附图说明

图1为DFLM模型的主要流程结构图。

图2为FineGym数据集的结构图。

图3为前三行显示了在元素级、集合级和事件级标签下训练得到的基线(TSN模型)可视化的类激活映射图CAM和CAM-grad。第四行内容则表示将DFLM扩展到TSN模型，通过元素级标签训练后，用于实现类激活映射图的可视化结果。红色圆圈内容表示基线TSN模型会关注支撑杆，而绿色圆圈则表示DFLM并未激活此类背景语义信息。

具体实施方式

下面对本发明作进一步详细说明。

细粒度行为可定义为同一粗粒度行为下的不同子行为，同一粗粒度行为下的子行为间的共同信息是非常多的，导致了子行为之间难以区分的；因此，对于细粒度视频行为识别而言，捕获同一分类下不同子类的判别性特征能有效提高细粒度行为识别精度。对此，本方法在已有的传统行为识别模型TSN\TSM的基础上进行改进，利用细粒度行为的共同语义信息来挖掘细粒度行为的判别性信息，以提高最终的识别性能。本方法改进的对象则是传统识别模型TSN\TSM建模的特征，在该特征的基础上基于层次语义标签提出自底向上和自顶向下两阶段算法过程，以增强该特征的判别性。

参见图1，一种基于深度学习的细粒度行为识别方法，包括如下步骤：

S300：令i＝1；

S310：将第i个视频输入到基础行为识别模型TSN/TSM中，TSN/TSM模型共包含四层结构，从TSN/TSM模型的第二层提取到相应的粗粒度特征x_eve∈R^c×h×w,从TSN/TSM模型的第三层提取到相应的中粒度特征x_set∈R^c×h×w,从TSN/TSM模型的第四层提取到相应的细粒度特征x_ele∈R^c×h×w，其中c表示特征通道数，h和w分别表示特征矩阵的高和宽，基础行为识别模型TSN/TSM为现有技术，粗粒度特征x_eve对应事件级语义标签y_eve，中粒度特征x_set对应集合级语义标签y_set，细粒度特征x_ele对应元素级语义标签y_ele；

每种粒度特征与对应的级语义标签构建得到三条支流结构，分别为事件级支流，集合级支流和元素级支流，每条流的监督信息就为对应的级语义标签；三种标签的介绍：集合级标签是事件级标签的子行为标签，元素级标签是集合级标签的子行为标签。

S321：执行自底向上阶段：

其中，i和j分别表示对应共同特征所属较为粗粒度类别的真实标签，λ表示超参数；超参数用于控制特征更新的平衡；

特征存储库更新完成后，对应的存储特征向量m_ele和m_set会用于约束对应粗粒度支流生成的不同细粒度行为共同特征，使对应的粗粒度支流关注更完整的共同语义特征；通过自底向上过程，提出的模型DFLM可以完备的过滤出对应不同的细粒度行为的共同语义特征。

S322：执行自顶向下阶段：

其中，W_ele和W_set是可学习的矩阵参数，Γ(·)是卷积核大小为1的2D卷积层，用于将共同语义特征映射到对应细粒度特征的相同分布上；

S322-2：对A_ele和A_set进行归一化操作，表达式如下：

C_ele＝softmax(A_ele)，C_set＝softmax(A_set) (5)

S322-3：根据共同注意力图C_ele和C_set，通过取反操作计算对应的图S_ele和S_set，图S_ele和S_set表示的为共同语义特征与相应的细粒度特征/>之间的差异部分，即特定语义特征信息；表达式如下：

S_ele＝1-C_ele，S_set＝1-C_set； (6)

其中，表示细粒度类特有特征，/>表示中粒度类特有特征，S_ele∈R^c×hw以及S_set∈R^c×hw；此处得到的类特有特征/>和/>表示的为同一粗粒度类别下不同细粒度行为的差异信息，因此其未含有充足的语义信息在整个数据集下进行行为分类；

L＝L_c+β·L_s+γ·L_r (10)

其中，β和γ是损失权重调节的超参数，根据实验此处对β和γ分别设置为0.2和0.6；

所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下：

L_c＝CCE(y_ele,ψ(x_ele))+CCE(y_set,ψ(x_set))+CCE(y_eve,ψ(x_eve)) (11)

其中，FC(·)表示一个用于生成类别分数的全连接层；

S600：i＝i+1；

S900：将元素级新特征x″_ele和集合级新特征x″_set输入到现有的分类器模型中，分类器模型的输出结果就是对待预测视频的细粒度行为识别结果，分类器模型为现有技术。

实验设计与结果分析

1.数据集介绍

本发明方法将在2020年所提出的行为识别数据集FineGym上进行验证评估，而该数据集被划分为两个子数据集Gym99和Gym288。图2展现了FineGym数据集的整体结构，其从粗粒度到细粒度过程的类别标签可以分为三个层次，即事件级(event)、集合级(set)和元素级(element)。其中事件级行为具有四个类别，分别是撑手跳、高低杠、平衡木和自由体操四个大的体育项目。集合级中的行为是在时间维度上从事件级行为中划分的子行为，如从平衡木视频中划分出的子动作跳柱旋转、冲跳单脚驻足等。而元素级中的行为类别则是从集合级行为中通过语义决策树更为细粒度地划分而得，其类别表示为更加详尽的语义信息，如三次旋转后立起。其中，每个细粒度类别行为只属于唯一的粗粒度类别，不存在子属类别交并的情景。

FineGym数据集是从体操运动视频中进行采集的，因此该数据集中的动作会更加快速和复杂，更适合应用到细粒度行为的研究工作中。FineGym数据集被划分为Gym99和Gym288，两个数据集的样本分布不一致且有着对应区别，但此两个数据集的标签依旧含有三层次级别。其中，Gym99数据集由20481个训练样本和8519个测试样本组成，其包含4个事件级类别、14个集合级类别和99个元素级类别。而Gym288数据集共有22,653个训练样本和9634个测试样本，其涵盖4个事件级类别、14个集合级类别、288个元素级类别。与Gym99相比，Gym288含有更多的细粒度(元素级)类别数目，且Gym288中训练样本的类别呈长尾分布。因此，Gym288更具有挑战性。

2.实验设置

1)数据预处理

与传统深度行为识别方法一致，本章方法训练过程中的视频数据输入模态为RGB和光流两种。光流模态的输入为单通道数据灰度图，其由原始RGB视频图像帧序列通过TVL1算法计算得到。RGB和光流模态数据会单独作为输入用于训练两个不同模态工作下的独立识别模型，且两种数据会采用随机裁剪、随机翻转等数据增强方式扩充数据多样性。

2)实现细节

DFLM的模型结构过程是端到端的，为了验证模型的有效性，提出的DFLM模型将扩展到两个经典的2D行为识别模型TSN和TSM中，在细粒度数据集中进行训练。其中TSN和TSM使用在ImageNet上预训练后的resnet50作为骨干网络。对于训练过程中的视频数据样本，本方法采用等段间隔随机采样方法选取8个行为帧作为训练数据。采样得到的8个行为帧首先重新调整大小为340×256，随后进行随机裁剪和翻转后，得到大小为224×224的图像序列作为模型最终的输入。DFLM模型是通过Pytorch框架进行实现，并在含有NVIDIA TITAN VGPU下的服务器进行训练。在训练过程中，训练迭代轮次设置为100，而输入样本的批次数目为20，学习率初始化为0.001，且每经过30次训练轮次学习率下降到0.1倍。此外，为防止模型训练过程过拟合，本方法对用于分类的最后全连接层的dropout率设置为0.8。最后，特征存储库的更新参数λ设置为0.001，而SGD优化器被用于对模型参数进行优化。

3)评估指标

依照传统深度行为识别精度评估标准，本方法亦对Gym99和Gym288数据集提供的测试视频样本进行类别分类精度统计，以用于与现有方法进行公正的对比。

3.结果比较

表1在细粒度数据集Gym99上对细粒度行为(元素级)精度与现有方法的比较

方法	模态	精度(％)	模态	精度(％)
					TSN	RGB	74.8	光流	84.7
TRN	RGB	79.9	光流	85.0
					TRNms	RGB	79.5	光流	85.5
TSM	RGB	80.4	光流	87.1
					I3D	RGB	74.8	光流	-
TSN(本实验实现)	RGB	80.12	光流	84.75
					TSM(本实验实现)	RGB	84.26	光流	87.25
TSN+DFLM(本发明方法)	RGB	82.33	光流	87.07
					TSM+DFLM(本发明方法)	RGB	86.27	光流	89.21

本方法提出的模型DFLM会扩展流行的2D行为识别模型TSN和TSM中以实现其对细粒度行为特有特征挖掘的功能，该方法分别在细粒度数据集Gym99和Gym288上进行测试并等到相应的分类精度结果。表1展现了相关方法在数据集Gym99上的结果，从表中可知本方法取得了最先进的结果。为对比公平，在本方法实验工作亦复现了TSN与TSM在Gym99上的结果。在DFLM扩展到TSN模型后，RGB模态和光流模态下的结果分别增加了2.21％和2.32％。而将DFLM扩展到TSM模型后，分类精度在RGB和光流模态下也得到了提高，这也验证了本方法提出的DFLM模型可扩展到其它的先进2D行为识别模型中，以提高细粒度行为的识别精度。在更具有挑战的数据集Gym288上，表3也表示了提出的模型DFLM的有效性。当DFLM扩展到TSN中，在RGB和光流模态下，其结果都至少提高了2％。而将DFLM扩展到TSM模型中后，分类精度也得到了不错的提升。总之，在Gym99和Gym288两个数据集上的结果都展现了本方法的优越性。

表2在细粒度数据集Gym99上对事件级和集合级行为分类精度进行方法比较

表3在细粒度数据集Gym288上对细粒度行为(元素级)精度与现有方法的比较

方法	模态	精度(％)	模态	精度(％)
					TSN	RGB	68.3	光流	78.3
TRN	RGB	73.7	光流	79.5
					TRNms	RGB	73.1	光流	79.7
TSM	RGB	73.5	光流	81.6
					I3D	RGB	66.7	光流	-
TSN(本实验实现)	RGB	74.56	光流	79.31
					TSM(本实验实现)	RGB	79.32	光流	82.15
TSN+DFLM(本发明方法)	RGB	77.12	光流	81.61
					TSM+DFLM(本发明方法)	RGB	81.55	光流	84.01

表4在细粒度数据集Gym288上对事件级和集合级行为分类精度进行方法比较

此外，在表2和表4中也展现了本发明方法和行为识别模型TSN与TSM在Gym99和Gym288数据集中对较为粗粒度的行为标签的分类结果，即集合级与事件级行为类别。在表2中，相比于本实验复现的TSN与TSM模型在Gym99上的结果，本方法对于集合级(中等粗粒度)的行为类别识别精度依旧有一定的提高，而对于事件级(粗粒度)的行为类别的分类精度未有提升且有一定结果波动。在表4中，本实验依旧复现TSN与TSM识别模型在Gym288上的识别结果，本方法与在Gym99上的情况一致。相比于TSN与TSM，DFLM在集合级的行为类别识别精度有一定提升，而在事件级行为类别上未有提高。对于此结果，本实验认定DFLM提取的细粒度类特定特征并不能促进粗粒度行为类别的识别，模型利用视频数据的全局表观信息即可完成类别识别，既符合引言中提及的人类识别行为的假设方式。为验证此结论，本部分对于表2与表4的结果进行分析，发现在粗粒度行为类别分类过程中，行为识别模型在RGB模态下的识别精度高于光流模态下的数据结果。而在表1和表3中，对应的识别模型在光流模态下的识别精度远高于RGB模态下细粒度行为类别分类的精度。由此可知，对于细粒度行为分类，模型更需要细节信息，如动作变化的动态轨迹(光流特征)。而在粗粒度行为类别中，RGB模态的粗粒度外观信息足以提供模型对类别的区分。以上分析内容即可支撑本实验上述得出的结论。

本方法提出的DFLM模型在自顶向下阶段利用注意力机制对细粒度行为中类特有语义特征进行激活，以提高细粒度行为识别精度。为更好验证本发明提出的方法对细粒度行为识别的有效性，本部分将常用的注意力机制自注意力机制(SelfAttention)和CBAM[90]同样扩展到行为识别模型TSN和TSM中，在RGB模态下对细粒度数据集Gym99和Gym288进行测试。表5显示了在两个细粒度数据集上，本发明提出的方法的分类精度比以上的注意力机制取得的结果至少高1％，这也验证了本方法的有效性。从功能上分析，自注意力机制是对单帧数据高信息表征出进行自我激活提升，未考虑帧间关系和层次语义关系，而CBAM也只是对特征进行通道上和空间上进行稀疏激活，亦未考虑层次语义关系。相比以上提出的注意力机制，DFLM构建了不同粒度特征间的层次语义联系，通过自底向上的共同特征聚合和自顶向下的类特有特征激活，达成对细粒度行为间判别性信息的挖掘而提升识别精度。

表5在细粒度数据集Gym99和Gym288与现有注意力机制进行结果比较

表6消融实验：在数据集Gym99RGB模态上，不同方法部分添加在模型上的结果

BU	FM	TD	SFC	精度(％)
					未有	未有	未有	未有	80.12
未有	未有	含有	未有	81.32
					未有	未有	含有	含有	81.68
含有	含有	含有	未有	81.72
					含有	未有	含有	含有	82.01
含有	含有	含有	含有	82.33

4.消融实验

为验证本方法中提及的每一个子方法部分对识别模型的贡献度，本部分展开了相应的消融实验，以识别模型TSN作为本方法的基础模型。表6展现了不同消融实验在细粒度数据集Gym99中RGB模态数据下的结果。BU表示自底向上阶段过程但不包含特征存储库；F-M表示构建特征存储库后，对较粗粒度得到的共同语义特征进行正则化约束；TD是自顶向下过程；SFC表示对提取到的类特有特征进行分类交叉熵损失约束。

表6的结果表明，每增加一个方法的子部分都会提升模型对细粒度行为识别的性能。与TSN模型得到的基线结果相比，添加本方法的自顶向下阶段(TD)能够实现1.4％的精度提升，这表明利用细粒度和粗粒度标签的层次语义关系可以很好地用于细粒度行为中的判别性特征的关注，以提高识别性能。同时结果也显示，对自顶向下过程提取到的类特有特征进行分类损失约束(SFC)，有助于促进识别模型对判别性特征的更好建模。另外，在此情况下加入自底向上阶段(BU)也提高了模型的识别精度，即0.33％的提升。此结果说明自顶向下阶段可提取到更多共同语义信息，以协助自顶向下阶段挖掘更具有判别性的特征以更好地识别行为。同时，在自底向上阶段构建特征存储库(FM)对细粒度行为的共同语义特征进行约束，也会对识别模型的性能进一步的改进。最后，将本方法的所有子部分结合在识别模型中，那么DFLM模型对细粒度行为识别的精度是最优的。

5.定性分析

本部分通过定性分析方式以更好显示本方法的有效性。在此，图3显示了不同行为帧在不同粒度标签下得到的类激活映射可视化图(CAM和CAM-grad)。在图3的左部分前三行内容显示出事件级、集合级和元素级标签下TSN模型得到的类激活映射图，可以得知类别标签更为细粒度，相应条件下训练得到的模型关注的部分更为细致且更偏向与行为主体本身。如第一行中事件级的CAM更多关注的为单杠部分，而元素级的CAM则更加关注与人体部分，这也验证了提出细粒度行为识别的必要性。同样，对比图3的右部分中的第三行和第四行内容可知，本章方法的类激活图更为聚焦于行为主体部分，这表示DFLM可以促进识别模型TSN更好关注行为信息以提高行为识别性能。同时，图3的右部分显示的类激活映射梯度图(CAM-grad)的第三行和第四行内容亦表现了本方法更为关注行为部分，而不会激活支撑杆类似的背景信息。简而言之，本章提出的DFLM模型在层次标签的引导下更好的挖掘了类特有的判别性特征，增强了细粒度行为间的判别性特征，以提高识别精度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于深度学习的细粒度行为识别方法，其特征在于：包括如下步骤：

S100：选用包含N个视频数据的公开数据集其中Vi表示第i个视频，每个视频包含该视频的事件级语义标签/>集合级语义标签/>和元素级语义标签其中，C_eve、C_set和C_ele分别表示事件级、集合级和元素级对应的类别数目；

S300：令i＝1；

S310：将第i个视频输入到基础行为识别模型TSN/TSM中，TSN/TSM模型共包含四层结构，从TSN/TSM模型的第二层提取到相应的粗粒度特征x_eve∈R^c×h×w，从TSN/TSM模型的第三层提取到相应的中粒度特征x_set∈R^c×h×w，从TSN/TSM模型的第四层提取到相应的细粒度特征x_ele∈R^c×h×w，其中c表示特征通道数，h和w分别表示特征矩阵的高和宽，粗粒度特征x_eve对应事件级语义标签y_eve，中粒度特征x_set对应集合级语义标签y_set，细粒度特征x_ele对应元素级语义标签y_ele；

S321：执行自底向上阶段：

S321-1：拼接细粒度特征x_ele和中粒度特征x_set，然后将拼接结果输入到集合级支流中计算元素级行为的共同语义特征通过将/>与粗粒度特征x_eve进行拼接，然后将/>与粗粒度特征x_eve的拼接结果输入到事件级支流中计算集合级行为的共同语义特征/>具体表达式如下：

S321-2：分别计算集合级分支特征存储向量和事件级分支特征存储向量/>完成特征存储库的更新过程，计算表达式如下：

S322：执行自顶向下阶段：

S322-2：对A_ele和A_set进行归一化操作，表达式如下：

C_ele＝softmax(A_ele)，C_set＝softmax(A_set) (5)

S_ele＝1-C_ele，S_set＝1-C_set； (6)

L＝L_c+β·L_s+γ·L_r (10)

其中，β和γ是损失权重调节的超参数；

S600：i＝i+1；

2.如权利要求1所述的一种基于深度学习的细粒度行为识别方法，其特征在于：所述S400中计算细粒度行为识别模型M的总损失函数L的具体步骤如下：

L_c＝CCE(y_ele，ψ(x_ele))+CCE(y_set，ψ(x_set))+CCE(y_eve，ψ(x_eve)) (11)

S420：对和/>进行池化操作，然后利用交叉熵损失对池化操作后的/>和/>进行优化，计算表达式如下：

其中，FC(·)表示一个用于生成类别分数的全连接层；