CN113657172B - 基于语义级领域不变特征的跨域人体动作识别方法 - Google Patents
基于语义级领域不变特征的跨域人体动作识别方法 Download PDFInfo
- Publication number
- CN113657172B CN113657172B CN202110818612.1A CN202110818612A CN113657172B CN 113657172 B CN113657172 B CN 113657172B CN 202110818612 A CN202110818612 A CN 202110818612A CN 113657172 B CN113657172 B CN 113657172B
- Authority
- CN
- China
- Prior art keywords
- domain
- classifier
- level
- frame
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
Abstract
本发明公开了基于语义级领域不变特征的跨域人体动作识别方法,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征,同时结合对抗学习技术来学习具有领域不变性的特征,进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题,从而具有更广的实用性和适应性等优点。
Description
技术领域
本发明涉及视频分析技术领域,具体为基于语义级领域不变特征的跨域人体动作识别方法。本发明可用于将跨域视频中的人体动作数据进行分类识别。
背景技术
视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析,学习并理解其中人的动作和行为,进而建立起视频内容和动作类型之间的映射关系,使得计算机能够像人类一样去“理解”视频,并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。跨域人体动作识别是指在源域数据和目标域数据概率分布不一致但又相关的情况下,利用标记的源域数据来为目标域学习一个精确的分类预测模型。
目前的人体动作识别方法在解决跨域动作识别问题时主要依赖于传统的对抗学习网络,该网络主要由3部分构成:特征提取器、分类器和域判别器。由特征提取器和分类器构成的网络分支主要任务是从有标记的源域数据中蒸馏知识,以达到最小化源域数据分类误差的目的。由特征提取器和域判别器构成的网络分支主要任务是训练特征提取器提取出领域不变的特征来最大化判别器的误差。尽管对抗网络架构在跨域图像识别和动作识别中取得了较好的识别效果,但以这种方式所训练的特征提取器只能提取出领域不变的视觉级特征,仍不能从语义级别上刻画动作类别的本质属性,从而导致特征的描述能力不够强、判别力较弱,影响分类结果。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:基于语义级领域不变特征的跨域人体动作识别方法,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;
具体步骤如下:
步骤1:输入RGB帧序列:
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns;
步骤2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块;
步骤3:特征时空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征 为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
步骤4:领域适配对抗学习模块:
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失:
CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1;
步骤5:分类器:
(5a)分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2();这2个分类器具有相同的网络结构;p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果;从分类器的预测结果中计算有标签的源域样本数据的分类损失
(5b)对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
步骤6:训练基于语义级领域不变特征的跨域人体动作识别模型:
(6a)计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005;
(6b)利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2;
步骤7:对目标域中的数据进行分类:
(7a)将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT);
(7b)对帧级特征进行时空聚集,得到视频级特征fT;
(7c)将fT分别输入到分类器1和分类器2中,将两个分类器的输出结果进行均值融合后得到最终的分类结果。
(三)有益效果
本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。具备以下有益效果:
本发明基于语义级领域不变特征的跨域人体动作识别方法,充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征,同时结合对抗学习技术来学习具有领域不变性的特征,进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题,从而具有更广的实用性和适应性等优点。
附图说明
图1是本发明一种基于语义级领域不变特征的跨域人体动作识别方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:
参照附图1,对本发明的实现的步骤详细描述如下:
步骤1,输入RGB帧序列。
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns。
步骤2,帧级特征提取。
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块。
通用特征提取子网络为ResNet-101残差网络,并去掉平均池化层后的分类层,对每帧图像提取2048维特征向量。
动作识别特定任务特征变换子网络由一个全连接层构成,输出特征维度为256维。
步骤3,特征时-空聚集。
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征 为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数。
步骤4,领域适配对抗学习模块。
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1。
域判别层由一个全连接层构成,输入特征维度为256维,输出特征维度为2维。
步骤5,分类器。
分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2()。这2个分类器具有相同的网络结构。p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果。从分类器的预测结果中计算有标签的源域样本数据的分类损失
对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
分类器1和分类器2均由一个全连接层构成,输入特征维度为256维,输出特征维度为C维。C为动作类别数。
步骤6,训练基于语义级领域不变特征的跨域人体动作识别模型。
计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005。
利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2。
步骤7,对目标域中的数据进行分类。
将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT)。
对帧级特征进行时-空聚集,得到视频级特征fT。
将fT分别输入到分类器1和分类器2中,将2个分类器的输出结果进行均值融合后得到最终的分类结果。
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真条件:
本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。
2.仿真内容:
本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集MSR-DailyActivity3D,出自参考文献("Mining actionlet ensemble for actionrecognition with depth cameras,"2012IEEE Conference on ComputerVision andPattern Recognition,Providence,RI,2012,pp.1290-1297,doi:10.1109/CVPR.2012.6247813)和NTU RGB+D 120("NTU RGB+D 120:A Large-Scale Benchmark for3D Human Activity Understanding,"in IEEE Transactions on Pattern Analysis andMachine Intelligence,doi:10.1109/TPAMI.2019.2916873)。为了满足跨域动作识别的条件,首先将两个数据集中8个同类别动作的样本抽取出来构成源域与目标域。在本仿真实验中,源域带标签的数据由NTU RGB+D 120数据集中的样本构成,无标签的目标域数据由MSR-DailyActivity3D中的样本构成,具体类别如表1。仿真方法得到的分类准确率对比结果如表2。
3.仿真效果分析:
表2是两种方法在仿真中得到的分类准确率对比,从表2可见,本发明能够引导特征提取器从输入数据中提取更能刻画动作类别本质属性的语义级特征,并嵌入到领域对抗学习技术中,相比传统的对抗学习领域适配的方法,有效提升了特征对动作的描述能力,增强了模型的跨域数据分布偏移适应能力,提高了分类精度。
表1源域与目标域动作类别一览表
源域(NTU RGB+D 120) | 目标域(MSR-DailyActivity3D) |
喝水 | 喝水 |
吃饭 | 吃东西 |
阅读 | 读书 |
打电话 | 打电话 |
写字 | 写字 |
鼓掌 | 鼓掌 |
站起 | 站起 |
坐下 | 坐下 |
表2仿真中两种方法得到的分类准确率一览表
仿真方法 | 分类准确率 |
本发明分类方法 | 71.66% |
传统对抗学习 | 64.03% |
综上所述,本发明设计了一种具有跨域不变性的语义级特征提取与动作识别网络架构,有效地增强了特征的描述能力和模型的跨域分布偏移适应能力,提升了分类性能。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (1)
1.基于语义级领域不变特征的跨域人体动作识别方法,其特征在于,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;
具体步骤如下:
步骤1:输入RGB帧序列:
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns;
步骤2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块;
步骤3:特征时空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征 为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
步骤4:领域适配对抗学习模块:
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失:
CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1;
步骤5:分类器:
(5a)分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2();这2个分类器具有相同的网络结构;p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果;从分类器的预测结果中计算有标签的源域样本数据的分类损失
(5b)对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
步骤6:训练基于语义级领域不变特征的跨域人体动作识别模型:
(6a)计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005;
(6b)利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2;
步骤7:对目标域中的数据进行分类:
(7a)将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT);
(7b)对帧级特征进行时空聚集,得到视频级特征fT;
(7c)将fT分别输入到分类器1和分类器2中,将两个分类器的输出结果进行均值融合后得到最终的分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818612.1A CN113657172B (zh) | 2021-07-20 | 2021-07-20 | 基于语义级领域不变特征的跨域人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818612.1A CN113657172B (zh) | 2021-07-20 | 2021-07-20 | 基于语义级领域不变特征的跨域人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657172A CN113657172A (zh) | 2021-11-16 |
CN113657172B true CN113657172B (zh) | 2023-08-01 |
Family
ID=78489611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110818612.1A Active CN113657172B (zh) | 2021-07-20 | 2021-07-20 | 基于语义级领域不变特征的跨域人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657172B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
CN111797814A (zh) * | 2020-07-21 | 2020-10-20 | 天津理工大学 | 基于通道融合和分类器对抗的无监督跨域动作识别方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
CN112084891A (zh) * | 2020-08-21 | 2020-12-15 | 西安理工大学 | 基于多模态特征与对抗学习的跨域人体动作识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11606389B2 (en) * | 2019-08-29 | 2023-03-14 | Nec Corporation | Anomaly detection with graph adversarial training in computer systems |
-
2021
- 2021-07-20 CN CN202110818612.1A patent/CN113657172B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492662A (zh) * | 2018-09-27 | 2019-03-19 | 天津大学 | 一种基于对抗自编码器模型的零样本分类方法 |
US10839269B1 (en) * | 2020-03-20 | 2020-11-17 | King Abdulaziz University | System for fast and accurate visual domain adaptation |
CN111797814A (zh) * | 2020-07-21 | 2020-10-20 | 天津理工大学 | 基于通道融合和分类器对抗的无监督跨域动作识别方法 |
CN112084891A (zh) * | 2020-08-21 | 2020-12-15 | 西安理工大学 | 基于多模态特征与对抗学习的跨域人体动作识别方法 |
Non-Patent Citations (2)
Title |
---|
基于跨域对抗学习的零样本分类;刘欢;郑庆华;罗敏楠;赵洪科;肖阳;吕彦章;;计算机研究与发展(第12期);全文 * |
深度学习的目标跟踪算法综述;李玺;查宇飞;张天柱;崔振;左旺孟;侯志强;卢湖川;王菡子;;中国图象图形学报(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657172A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679526B (zh) | 一种人脸微表情识别方法 | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN104866810B (zh) | 一种深度卷积神经网络的人脸识别方法 | |
CN106022343B (zh) | 一种基于傅里叶描述子和bp神经网络的服装款式识别方法 | |
CN111274921B (zh) | 一种利用姿态掩模进行人体行为识别的方法 | |
CN103854016B (zh) | 基于方向性共同发生特征的人体行为分类识别方法及系统 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN104063719A (zh) | 基于深度卷积网络的行人检测方法及装置 | |
CN111814611B (zh) | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 | |
CN112084891B (zh) | 基于多模态特征与对抗学习的跨域人体动作识别方法 | |
CN103955671B (zh) | 基于快速判别公共向量算法的人体行为识别方法 | |
CN112784763A (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN107330412B (zh) | 一种基于深度稀疏表示的人脸年龄估计方法 | |
CN106909946A (zh) | 一种多模态融合的商品分类系统 | |
CN108921019A (zh) | 一种基于GEI和TripletLoss-DenseNet的步态识别方法 | |
CN104063721A (zh) | 一种基于语义特征自动学习与筛选的人类行为识别方法 | |
CN104881852B (zh) | 基于免疫克隆和模糊核聚类的图像分割方法 | |
CN107392105B (zh) | 一种基于反向协同显著区域特征的表情识别方法 | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN110991554B (zh) | 一种基于改进pca的深度网络图像分类方法 | |
Vani et al. | Using the keras model for accurate and rapid gender identification through detection of facial features | |
CN114937298A (zh) | 一种基于特征解耦的微表情识别方法 | |
CN108388918B (zh) | 具有结构保持特性的数据特征选择方法 | |
Mermillod et al. | The coarse-to-fine hypothesis revisited: Evidence from neuro-computational modeling | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |