CN112084891B

CN112084891B - 基于多模态特征与对抗学习的跨域人体动作识别方法

Info

Publication number: CN112084891B
Application number: CN202010849502.7A
Authority: CN
Inventors: 陈万军; 刘龙; 范风梅
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2023-04-28
Anticipated expiration: 2040-08-21
Also published as: CN112084891A

Abstract

本发明提供了基于多模态特征与对抗学习的跨域人体动作识别方法，具体步骤是：输入RGB和Depth帧序列；帧级特征提取；特征时‑空聚集；RGB域适配对抗学习模块；Depth域适配对抗学习模块；模态判别性选择融合；分类器；训练基于多模态特征与对抗学习的跨域人体动作识别模型；对目标域中的数据进行分类。本发明融合了多模态特征，结合领域适配的对抗学习技术，提升了特征的描述和表征能力，增强了模型的跨域分布偏移适应能力，提高了分类准确率。

Description

基于多模态特征与对抗学习的跨域人体动作识别方法

技术领域

本发明属于视频分析技术领域，具体涉及基于多模态特征与对抗学习的跨域人体动作识别方法，可用于将跨域视频中的人体动作数据进行分类识别。

背景技术

视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析，学习并理解其中人的动作和行为，进而建立起视频内容和动作类型之间的映射关系，使得计算机能够像人类一样去“理解”视频，并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。跨域人体动作识别是指在源域数据和目标域数据概率分布不一致但又相关的情况下，利用标记的源域数据来为目标域学习一个精确的分类预测模型。

目前的人体动作识别方法通常采用多模态数据来提高识别模型的精度，如用于描述表观信息的RGB视觉模态、用于刻画几何结构信息的Depth深度模态和用于捕捉运动信息的光流模态等。虽然这些方法能得到较好的分类结果，但仍然存在不足之处，即这些方法都基于如下前提假设：训练集(称为源域)和测试集(称为目标域)具有相同的分布。然而，现实情况往往不能够满足此条件，使得在源域上训练好的模型很难适应于目标域，进而导致模型性能在跨域情形下出现大幅下降的问题。

迁移学习中的领域适配技术虽然能够在一定程度上解决跨域动作识别问题，尤其是基于深度神经网络的领域对抗学习技术。但是，这些方法往往是基于单一模态的数据信息来进行人体动作识别，而忽略了其他模态的信息所能提供的强互补性，从而导致特征的刻画能力不够强、判别力较弱，影响分类结果。

需要注意的是，本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本发明目的在于提供了基于多模态特征与对抗学习的跨域人体动作识别方法，解决了现有技术中模型泛化能力弱、适应性不强等模型性能下降的问题。

为实现上述目的本发明采用如下技术方案：

基于多模态特征与对抗学习的跨域人体动作识别方法，包括以下步骤：

S1：输入RGB和Depth帧序列；

S101：从有标签的源域与无标签的目标域数据集中输入RGB视觉模态帧序列数据X_v,i，源域样本数为N_s，目标域样本数为N_T，i＝1,2,…,N_s∪T，源域数据对应的标签为y_j，j＝1,2,…,N_s；

S102：从源域与目标域中输入RGB模态对应的Depth模态帧序列数据X_d,i；

S2：帧级特征提取：

帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成，从输入的帧序列中提取RGB帧级特征G_v(X_v,i)，Depth帧级特征G_d(X_d,i)，其中，G_v(·)和G_d(·)分别表示RGB和Depth特征提取模块；

S3：特征时-空聚集：

沿时间维度对提取的空间帧级特征进行均值池化聚集，形成视频级RGB特征

和视频级Depth特征

为第i个视频样本所提取的帧级特征序列的第t个等间隔采样帧，τ＝5为对每个样本的等间隔采样帧数；

S4：RGB域适配对抗学习模块：

域适配对抗学习模块的输出来计算RGB域对抗损失

CE(·,·)为交叉熵损失函数，d_i为领域标签，当f_v,i来自源域时d_i＝0，当f_v,i来自目标域时d_i＝1；

S5：Depth域适配对抗学习模块：

域适配对抗学习模块的输出来计算Depth域对抗损失

S6：模态判别性选择融合：

S601：域适配对抗学习模块针对源域中的样本数据，对RGB特征和Depth特征分别学习一个模态判别性加权权值矩阵W_v和W_d；

S602：对两种模态的特征进行加权后串接，形成融合后的特征f_i＝[σ(W_v[f_v,i；f_d,i])⊙f_v,i；σ(W_d[f_v,i；f_d,i])⊙f_d,i]，σ(x)为Sigmoid函数，⊙为对应元素相乘；

S7：分类器：

从分类器的分类预测结果中计算有标签的源域样本数据的分类损失

S8：训练基于多模态特征与对抗学习的跨域人体动作识别模型：

S801：计算模型的训练损失L＝L_c-αL_v-βL_d，α,β的值均设置为0.75；

S802：利用随机梯度下降算法训练特征变换子网络、域适配对抗学习模块、模态判别性选择融合模块和分类器；

S9：对目标域中的数据进行分类：

S901：将目标域中的待分类样本X^T的RGB模态数据

和Depth模态数据

分别输入到各自的帧级特征提取器中，得到帧级特征

和

S902：对帧级特征分别进行时-空聚集，得到视频级特征

和

随后输入到模态判别性选择融合模块，形成融合后的特征

S903：将f^T输入到分类器中，得到最终的分类结果。

进一步地，上述步骤S2中帧级特征提取的网络结构及参数如下：

通用特征提取子网络为ResNet-101残差网络，并去掉平均池化层后的分类层，对每帧图像提取2048维特征向量；动作识别特定任务特征变换子网络由一个全连接层构成，输出特征维度为256维；其中，RGB模态分支与Depth模态分支均采用相同的网络结构及参数设置。

进一步地，上述域适配对抗学习模块包括梯度反转层、域判别层和批归一化层。

进一步地，上述域判别层由一个全连接层构成，输入特征维度为256维，输出特征维度为2维。

进一步地，上述步骤S7的分类器由一个全连接层构成，输入特征维度为512维，输出特征维度为C维，其中，C为类别数。

本发明的有益效果：

本发明基于多模态特征与对抗学习技术的跨域人体动作识别方法，充分融合多模态特征来提高特征对人体动作的描述能力和类别判别力，同时将融合后的特征嵌入到领域适配的对抗学习技术中来进一步增强模型的跨域动作识别性能，提升了特征的描述和表征能力，增强了模型的跨域分布偏移适应能力，提高了分类准确率，具有更广的实用性和适应性。

附图说明

图1是本发明的工作流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征或特性可以以任何合适的方式结合在一个或更多实施方式中。

如图1所示，对本发明的实现的步骤详细描述如下：

步骤1，输入RGB和Depth帧序列。

从有标签的源域与无标签的目标域数据集中输入RGB视觉模态帧序列数据X_v,i，源域样本数为N_s，目标域样本数为N_T，i＝1,2,…,N_s∪T，源域数据对应的标签为y_j，j＝1,2,…,N_s。

从源域与目标域中输入RGB模态对应的Depth模态帧序列数据X_d,i。

步骤2，帧级特征提取。

帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成，从输入的帧序列中提取RGB帧级特征G_v(X_v,i)，Depth帧级特征G_d(X_d,i)，其中G_v(·)和G_d(·)分别表示RGB和Depth特征提取模块。

通用特征提取子网络为ResNet-101残差网络，并去掉平均池化层后的分类层，对每帧图像提取2048维特征向量。

动作识别特定任务特征变换子网络由一个全连接层构成，输出特征维度为256维。

RGB模态分支与Depth模态分支均采用相同的网络结构及参数设置。

步骤3，特征时-空聚集。

和视频级Depth特征

为第i个视频样本所提取的帧级特征序列的第t个等间隔采样帧，τ＝5为对每个样本的等间隔采样帧数。

步骤4，RGB域适配对抗学习模块。

该模块由梯度反转层、域判别层和批归一化层组成，从该模块的输出来计算RGB域对抗损失

CE(·,·)为交叉熵损失函数，d_i为领域标签，当f_v,i来自源域时d_i＝0，当f_v,i来自目标域时d_i＝1。

域判别层由一个全连接层构成，输入特征维度为256维，输出特征维度为2维。

步骤5，Depth域适配对抗学习模块。

该模块由梯度反转层、域判别层和批归一化层组成，从该模块的输出来计算Depth域对抗损失

步骤6，模态判别性选择融合。

该模块仅针对源域中的样本数据，对RGB特征和Depth特征分别学习一个模态判别性加权权值矩阵W_v和W_d。

对两种模态的特征进行加权后串接，形成融合后的特征f_i＝[σ(W_v[f_v,i；f_d,i])⊙f_v,i；σ(W_d[f_v,i；f_d,i])⊙f_d,i]，σ(x)为Sigmoid函数，⊙为对应元素相乘。

步骤7，分类器。

分类器由一个全连接层构成，输入特征维度为512维，输出特征维度为C维。C为类别数。

步骤8，训练基于多模态特征与对抗学习的跨域人体动作识别模型。

计算模型的训练损失L＝L_c-αL_v-βL_d，α,β的值均设置为0.75。

利用随机梯度下降算法训练特征变换子网络、域适配对抗学习模块、模态判别性选择融合模块和分类器。

步骤9，对目标域中的数据进行分类。

将目标域中的待分类样本X^T的RGB模态数据

和Depth模态数据

分别输入到各自的帧级特征提取器中，得到帧级特征

和

对帧级特征分别进行时-空聚集，得到视频级特征

和

随后输入到模态判别性选择融合模块，形成融合后的特征

将f^T输入到分类器中，得到最终的分类结果。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。

2.仿真内容：

本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集MSR-DailyActivity3D("Mining actionlet ensemble for action recognition with depthcameras,"2012 IEEE Conference on Computer Vision and Pattern Recognition,Providence,RI,2012,pp.1290-1297,doi:10.1109/CVPR.2012.6247813)和NTU RGB+D 120("NTU RGB+D 120:A Large-Scale Benchmark for 3D Human Activity Understanding,"in IEEE Transactions on Pattern Analysis and Machine Intelligence,doi:10.1109/TPAMI.2019.2916873)。为了满足跨域动作识别的条件，首先将两个数据集中8个同类别动作的样本抽取出来构成源域与目标域。在本仿真实验中，源域带标签的数据由NTURGB+D 120数据集中的样本构成，无标签的目标域数据由MSR-DailyActivity3D中的样本构成，具体类别如表1。仿真方法得到的分类准确率对比结果如表2。

3.仿真效果分析：

表2是四种方法在仿真中得到的分类准确率对比，从表2可见，本发明将两个模态的信息进行了有效地互补融合，并嵌入到领域对抗学习技术中，相比单模态和无对抗学习领域适配的方法，有效提升了特征对动作的描述能力，增强了模型的跨域数据分布偏移适应能力，提高了分类精度。

表1源域与目标域动作类别一览表

源域(NTU RGB+D 120)	目标域(MSR-DailyActivity3D)
		drink water	drink
eat meal	eat
		reading	read book
phone call	call cellphone
		writing	write on a paper
cheer up	cheer up
		stand up	stand up
sit down	sit down

表2仿真中三种方法得到的分类准确率一览表

仿真方法	分类准确率
		本发明分类方法	72.16％
仅RGB模态+对抗学习	64.03％
		仅Depth模态+对抗学习	58.22％
多模态但无对抗学习	41.89％

综上所述，本发明融合了多模态特征，结合领域适配的对抗学习技术，增强了特征的描述能力和模型的跨域分布偏移适应能力，提升了分类效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由所附的权利要求指出。