CN112364708B

CN112364708B - 基于知识蒸馏与对抗学习的多模态人体动作识别方法

Info

Publication number: CN112364708B
Application number: CN202011123560.8A
Authority: CN
Inventors: 陈万军; 陈亚军; 蔺广逢; 李维; 范凤梅
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2024-02-06
Anticipated expiration: 2040-10-20
Also published as: CN112364708A

Abstract

基于知识蒸馏与对抗学习的多模态人体动作识别方法，具体步骤是：输入多模态人体动作训练数据；针对各模态数据，分别训练单模态动作识别模型；多模态识别模型知识蒸馏集成；分类预测；利用知识蒸馏和对抗学习技术，将具有不同描述特性和分类能力的多模态识别模型集成迁移到一个新网络模型中；在测试阶段，该新模型能够在部分模态数据丢失的情况下仍然保持多模态的特征提取能力和判别力，提升了模型的分类效果和环境适应性。

Description

基于知识蒸馏与对抗学习的多模态人体动作识别方法

技术领域

本发明属于视频分析技术领域，具体涉及基于知识蒸馏与对抗学习的多模态人体动作识别方法，可用于将视频中的人体动作数据进行分类识别。

背景技术

视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析，学习并理解其中人的动作和行为，进而建立起视频内容和动作类型之间的映射关系，使得计算机能够像人类一样去“理解”视频，并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。基于多模态数据的人体动作识别是指综合利用不同模态下的数据特性，如RGB视觉模态和具有场景结构信息的Depth模态，来对人体动作的表观、结构和运动信息进行更加全面地建模，以信息互补的方式为人体动作识别提供更加全面的特征刻画和描述，进而提高动作识别的精度。

目前基于多模态数据的人体动作识别方法，在训练和测试预测过程中均需要多模态数据作为识别模型的输入。然而在实际情况中，测试数据所能够获得的模态类型往往不够全面，有可能由于采集条件所限而导致某一模态的数据缺失，从而致使这些识别模型的预测精度大幅下降或由于数据模态不足而无法正常工作。

发明内容

为克服上述现有技术的不足，本发明目的在于提供了基于知识蒸馏与对抗学习的多模态人体动作识别方法，解决了现有基于多模态数据的人体动作识别技术中，由于测试数据中存在模态丢失现象而导致模型识别性能显著下降、甚至无法正常工作的问题；具有在测试环境中抗模态丢失的能力和灵活的模态适应性的特点。

为实现上述目的，本发明采用的技术方案是：

基于知识蒸馏与对抗学习的多模态人体动作识别方法，包括以下步骤：

步骤1，输入多模态人体动作训练数据：

输入数据包括RGB模态和Depth模态，其训练样本分别表示为i＝1,2,…,N，训练样本数为N；

步骤2，针对各模态数据，分别训练单模态动作识别模型，本步骤具体包括:

S201，对每个模态的训练数据，分别构建深度神经网络识别模型和/>其中，μ和ν分别表示RGB模态和Depth模态下识别网络的参数集；

S202，以交叉熵作为网络预测与真实One-Hot编码标签的误差度量函数，采用随机梯度下降算法进行网络参数优化训练，获得最优参数集和/>

步骤3，多模态识别模型知识蒸馏集成，本步骤具体包括:

S301，构建多模态集成学生网络S_θ，其中θ为网络的参数集；

S302，将深度神经网络识别模型和/>做为教师网络，通过知识蒸馏与对抗学习方式来训练S_θ，获得最优参数集/>

步骤4，分类预测：

在测试阶段，仅需将RGB模态的测试样本输入到网络中，网络输出即为对未知类别样本的类别预测概率。

所述步骤S201中深度神经网络识别模型和/>的网络结构如下：

网络和/>采用相同的网络架构，其网络结构均为SlowFast网络；残差网络ResNet-50作为SlowFast的骨干网络；各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值。

所述步骤S301中的多模态集成学生网络S_θ的网络结构如下：

网络S_θ为SlowFast网络，残差网络ResNet-50作为SlowFast的骨干网络；网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值。

所述步骤S302中的知识蒸馏与对抗学习方式：

将教师网络和/>的预测概率的均值p_i∈R^|C|，作为软标签来引导学生网络的训练，使得学生网络S_θ的预测结果q_i∈R^|C|与教师网络的预测结果保持一致，其中|C|为类别数，具体过程如下：

首先，利用KL散度计算教师网络与学生网络的预测差异，记为然后，将p_i,q_i输入到判别器子网络D_γ中，计算集成判别损失其中，γ为判别器子网络的参数集；采用对抗训练优化目标函数获得最优参数/>和/> 其中，θ为步骤S301中所定义的多模态集成学生网络S_θ的参数集。

所述的判别器子网络D_γ由一个全连接层构成，输入特征维度为|C|，输出特征维度为2维。

本发明的有益效果：

本发明基于知识蒸馏与对抗学习的多模态人体动作识别方法，其优点在以下步骤中得以突出体现：步骤3将各单模态下识别模型的判别能力，通过知识蒸馏与对抗学习的方式迁移、集成到一个学生识别网络中，在充分利用了各模态信息互补性来提高模型识别性能的同时大幅降低了网络模型的规模与计算复杂度；步骤4的测试阶段，学生网络可以脱离多模态输入数据的环境，只需输入RGB单模态数据就可以接近或超过多模态数据下的识别性能，提升了模型的鲁棒性和抗模态数据丢失的能力，使得识别模型具有更广泛的实用性和适应性。

附图说明

图1是本发明的工作流程图。

图2是本发明的多模态集成网络训练流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征或特性可以以任何合适的方式结合在一个或更多实施方式中。

如图1所示，基于知识蒸馏与对抗学习的多模态人体动作识别方法，包括以下步骤：

步骤S1，输入多模态人体动作训练数据：

输入有标签的训练样本数据，包括RGB模态和Depth模态。训练样本分别表示为i＝1,2,…,N，训练样本数为N；

网络和/>采用相同的网络架构，其网络结构均为SlowFast网络。残差网络ResNet-50作为SlowFast的骨干网络。各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值。

如图2所示，步骤3，多模态识别模型知识蒸馏集成训练，本步骤具体包括:

S301，构建多模态集成学生网络S_θ，其中θ为网络的参数集；网络S_θ为SlowFast网络，残差网络ResNet-50作为SlowFast的骨干网络；网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值；

S302，将深度神经网络识别模型将和/>做为教师网络，其预测概率的均值p_i∈R^|C|作为软标签来引导学生网络的训练，使得学生网络S_θ的预测结果q_i∈R^|C|与教师网络的预测结果保持一致，其中|C|为类别数，具体过程如下：

首先，利用KL散度计算教师网络与学生网络的预测差异，记为然后，将p_i,q_i输入到判别器子网络D_γ中，计算集成判别损失其中，γ为判别器子网络的参数集。采用对抗训练优化目标函数获得最优参数/>和/> 其中，θ为步骤S301中所定义的多模态集成学生网络S_θ的参数集；

步骤4，分类预测：

本发明的效果可以通过以下仿真实验进一步说明：

一、仿真条件：

本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。

二、仿真内容：

本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集NTU RGB+D120("NTU RGB+D 120:A Large-Scale Benchmark for 3D Human ActivityUnderstanding,"in IEEE Transactions on Pattern Analysis and MachineIntelligence,doi:10.1109/TPAMI.2019.2916873)。该数据集提供了RGB、Depth等4个模态的样本数据。在仿真实验中，采用跨对象的实验方案，即将106名演员对象中的编号为1～53的对象所执行的动作样本作为训练集，剩余样本作为集。训练集包含RGB与Depth两种模态的数据，而本发明在测试阶段只需输入测试集的RGB单模态数据。将步骤2中训练好的网络和/>在测试集上预测概率的均值作为基准方法1“SlowFast多模态”的预测结果，将在测试集上的预测值作为基准方法2“SlowFast单模态”的预测结果。仿真方法得到的分类准确率对比结果如表1。

三、仿真效果分析：

表1是三种方法在仿真中得到的分类准确率对比，从表1可见，本发明能够有效融合多模态数据对动作类别的多角度刻画能力，同时有效集成多模型的判别能力，提升了传统单模态和多模态识别方法的性能。此外，本发明在测试阶段可以脱离多模态数据输入的环境限制，仅靠单一模态数据即完成未知样本的预测任务，进一步增强了模型的适应性和鲁棒性。

表1仿真中三种方法得到的分类准确率一览表

仿真方法	训练数据的模态类别	测试数据的模态类别	分类准确率
				本发明分类方法	RGB+Depth	RGB	66.8％
SlowFast多模态	RGB+Depth	RGB+Depth	65.2％
				SlowFast单模态	RGB	RGB	61.9％

综上所述，本发明利用知识蒸馏和对抗学习技术，将具有不同描述特性和分类能力的多模态识别模型集成迁移到一个网络模型中，使其在部分模态数据丢失的情况下仍然能够保持多模态的特征提取能力和判别力，提升了模型的分类效果和环境适应性。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。

Claims

1.基于知识蒸馏与对抗学习的多模态人体动作识别方法，其特征在于，包括以下步骤：

步骤S1，输入多模态人体动作训练数据：

输入数据包括RGB模态和Depth模态，其训练样本分别表示为训练样本数为N；

步骤S2，针对各模态数据，分别训练单模态动作识别模型，本步骤具体包括:

所述步骤S201中深度神经网络识别模型和/>的网络结构如下：

深度神经网络识别模型和/>采用相同的网络架构，其网络结构均为SlowFast网络；残差网络ResNet-50作为SlowFast的骨干网络；各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值；

步骤S3，多模态识别模型知识蒸馏集成，本步骤具体包括:

S301，构建多模态集成学生网络S_θ，其中θ为网络的参数集；

所述步骤S301中的多模态集成学生网络S_θ的网络结构如下：

网络S_θ为SlowFast网络，残差网络ResNet-50作为SlowFast的骨干网络；网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值；

所述步骤S302中的知识蒸馏与对抗学习方式：

首先，利用KL散度计算教师网络与学生网络的预测差异，记为然后，将p_i,q_i输入到判别器子网络D_γ中，计算集成判别损失/>其中，γ为判别器子网络的参数集；采用对抗训练优化目标函数获得最优参数/>和其中，θ为多模态集成学生网络S_θ的参数集；

步骤S4，分类预测

2.根据权利要求1所述的基于知识蒸馏与对抗学习的多模态人体动作识别方法，其特征在于，所述的判别器子网络D_γ由一个全连接层构成，输入特征维度为|C|，输出特征维度为2维。