CN113657172B

CN113657172B - 基于语义级领域不变特征的跨域人体动作识别方法

Info

Publication number: CN113657172B
Application number: CN202110818612.1A
Authority: CN
Inventors: 陈万军; 刘龙; 范凤梅
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2023-08-01
Anticipated expiration: 2041-07-20
Also published as: CN113657172A

Abstract

本发明公开了基于语义级领域不变特征的跨域人体动作识别方法，利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征，提高跨域人体动作识别模型的分类性能；充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征，同时结合对抗学习技术来学习具有领域不变性的特征，进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题，从而具有更广的实用性和适应性等优点。

Description

基于语义级领域不变特征的跨域人体动作识别方法

技术领域

本发明涉及视频分析技术领域，具体为基于语义级领域不变特征的跨域人体动作识别方法。本发明可用于将跨域视频中的人体动作数据进行分类识别。

背景技术

视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析，学习并理解其中人的动作和行为，进而建立起视频内容和动作类型之间的映射关系，使得计算机能够像人类一样去“理解”视频，并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。跨域人体动作识别是指在源域数据和目标域数据概率分布不一致但又相关的情况下，利用标记的源域数据来为目标域学习一个精确的分类预测模型。

目前的人体动作识别方法在解决跨域动作识别问题时主要依赖于传统的对抗学习网络，该网络主要由3部分构成：特征提取器、分类器和域判别器。由特征提取器和分类器构成的网络分支主要任务是从有标记的源域数据中蒸馏知识，以达到最小化源域数据分类误差的目的。由特征提取器和域判别器构成的网络分支主要任务是训练特征提取器提取出领域不变的特征来最大化判别器的误差。尽管对抗网络架构在跨域图像识别和动作识别中取得了较好的识别效果，但以这种方式所训练的特征提取器只能提取出领域不变的视觉级特征，仍不能从语义级别上刻画动作类别的本质属性，从而导致特征的描述能力不够强、判别力较弱，影响分类结果。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：基于语义级领域不变特征的跨域人体动作识别方法，利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征，提高跨域人体动作识别模型的分类性能；

具体步骤如下：

步骤1：输入RGB帧序列：

从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据X_i，源域样本数为N_s，目标域样本数为N_T，i＝1,2,…,N_s∪T，源域数据对应的标签为y_j，j＝1,2,…,N_s；

步骤2：帧级特征提取：

帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成，从输入的帧序列中提取帧级特征G(X_i)，G()表示特征提取模块；

步骤3：特征时空聚集：

沿时间维度对提取的空间帧级特征进行均值池化聚集，形成视频级特征为第i个视频样本的特征序列的第t个等间隔采样帧，τ＝5为对每个样本的等间隔采样帧数；

步骤4：领域适配对抗学习模块：

对抗学习模块表示为D()，该模块由梯度反转层、域判别层和批归一化层组成，从该模块的输出来计算域对抗损失：

CE(·,·)为交叉熵损失函数，d_i为领域标签，当f_i来自源域时d_i＝0，当f_i来自目标域时d_i＝1；

步骤5：分类器：

(5a)分类器由2个并行的分支构成：分类器1和分类器2，分别表示为C¹()和C²()；这2个分类器具有相同的网络结构；p⁽¹⁾、p⁽²⁾分别为分类器1和分类器2的输出结果，p＝(p⁽¹⁾+p⁽²⁾)/2为分类器对样本X_i的最终预测结果；从分类器的预测结果中计算有标签的源域样本数据的分类损失

(5b)对分类器1和分类器2的权值矩阵按列展开成向量，分别表示为w⁽¹⁾和w⁽²⁾，计算分类器差异化损失：

步骤6：训练基于语义级领域不变特征的跨域人体动作识别模型：

(6a)计算模型的训练损失L＝L_c+αL_diff-βL_adv，α,β的值分别设置为0.01和0.005；

(6b)利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2；

步骤7：对目标域中的数据进行分类：

(7a)将目标域中的待分类样本X^T输入到帧级特征提取器中，得到帧级特征G(X^T)；

(7b)对帧级特征进行时空聚集，得到视频级特征f^T；

(7c)将f^T分别输入到分类器1和分类器2中，将两个分类器的输出结果进行均值融合后得到最终的分类结果。

(三)有益效果

本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。具备以下有益效果：

本发明基于语义级领域不变特征的跨域人体动作识别方法，充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征，同时结合对抗学习技术来学习具有领域不变性的特征，进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题，从而具有更广的实用性和适应性等优点。

附图说明

图1是本发明一种基于语义级领域不变特征的跨域人体动作识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种技术方案：

参照附图1，对本发明的实现的步骤详细描述如下：

步骤1，输入RGB帧序列。

从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据X_i，源域样本数为N_s，目标域样本数为N_T，i＝1,2,…,N_s∪T，源域数据对应的标签为y_j，j＝1,2,…,N_s。

步骤2，帧级特征提取。

帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成，从输入的帧序列中提取帧级特征G(X_i)，G()表示特征提取模块。

通用特征提取子网络为ResNet-101残差网络，并去掉平均池化层后的分类层，对每帧图像提取2048维特征向量。

动作识别特定任务特征变换子网络由一个全连接层构成，输出特征维度为256维。

步骤3，特征时-空聚集。

沿时间维度对提取的空间帧级特征进行均值池化聚集，形成视频级特征为第i个视频样本的特征序列的第t个等间隔采样帧，τ＝5为对每个样本的等间隔采样帧数。

步骤4，领域适配对抗学习模块。

对抗学习模块表示为D()，该模块由梯度反转层、域判别层和批归一化层组成，从该模块的输出来计算域对抗损失CE(·,·)为交叉熵损失函数，d_i为领域标签，当f_i来自源域时d_i＝0，当f_i来自目标域时d_i＝1。

域判别层由一个全连接层构成，输入特征维度为256维，输出特征维度为2维。

步骤5，分类器。

分类器由2个并行的分支构成：分类器1和分类器2，分别表示为C¹()和C²()。这2个分类器具有相同的网络结构。p⁽¹⁾、p⁽²⁾分别为分类器1和分类器2的输出结果，p＝(p⁽¹⁾+p⁽²⁾)/2为分类器对样本X_i的最终预测结果。从分类器的预测结果中计算有标签的源域样本数据的分类损失

对分类器1和分类器2的权值矩阵按列展开成向量，分别表示为w⁽¹⁾和w⁽²⁾，计算分类器差异化损失：

分类器1和分类器2均由一个全连接层构成，输入特征维度为256维，输出特征维度为C维。C为动作类别数。

步骤6，训练基于语义级领域不变特征的跨域人体动作识别模型。

计算模型的训练损失L＝L_c+αL_diff-βL_adv，α,β的值分别设置为0.01和0.005。

利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2。

步骤7，对目标域中的数据进行分类。

将目标域中的待分类样本X^T输入到帧级特征提取器中，得到帧级特征G(X^T)。

对帧级特征进行时-空聚集，得到视频级特征f^T。

将f^T分别输入到分类器1和分类器2中，将2个分类器的输出结果进行均值融合后得到最终的分类结果。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。

2.仿真内容：

本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集MSR-DailyActivity3D，出自参考文献("Mining actionlet ensemble for actionrecognition with depth cameras,"2012IEEE Conference on ComputerVision andPattern Recognition,Providence,RI,2012,pp.1290-1297,doi:10.1109/CVPR.2012.6247813)和NTU RGB+D 120("NTU RGB+D 120:A Large-Scale Benchmark for3D Human Activity Understanding,"in IEEE Transactions on Pattern Analysis andMachine Intelligence,doi:10.1109/TPAMI.2019.2916873)。为了满足跨域动作识别的条件，首先将两个数据集中8个同类别动作的样本抽取出来构成源域与目标域。在本仿真实验中，源域带标签的数据由NTU RGB+D 120数据集中的样本构成，无标签的目标域数据由MSR-DailyActivity3D中的样本构成，具体类别如表1。仿真方法得到的分类准确率对比结果如表2。

3.仿真效果分析：

表2是两种方法在仿真中得到的分类准确率对比，从表2可见，本发明能够引导特征提取器从输入数据中提取更能刻画动作类别本质属性的语义级特征，并嵌入到领域对抗学习技术中，相比传统的对抗学习领域适配的方法，有效提升了特征对动作的描述能力，增强了模型的跨域数据分布偏移适应能力，提高了分类精度。

表1源域与目标域动作类别一览表

源域(NTU RGB+D 120)	目标域(MSR-DailyActivity3D)
		喝水	喝水
吃饭	吃东西
		阅读	读书
打电话	打电话
		写字	写字
鼓掌	鼓掌
		站起	站起
坐下	坐下

表2仿真中两种方法得到的分类准确率一览表

仿真方法	分类准确率
		本发明分类方法	71.66％
传统对抗学习	64.03％

综上所述，本发明设计了一种具有跨域不变性的语义级特征提取与动作识别网络架构，有效地增强了特征的描述能力和模型的跨域分布偏移适应能力，提升了分类性能。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于语义级领域不变特征的跨域人体动作识别方法，其特征在于，利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征，提高跨域人体动作识别模型的分类性能；