CN113657172A - 基于语义级领域不变特征的跨域人体动作识别方法 - Google Patents

基于语义级领域不变特征的跨域人体动作识别方法 Download PDF

Info

Publication number
CN113657172A
CN113657172A CN202110818612.1A CN202110818612A CN113657172A CN 113657172 A CN113657172 A CN 113657172A CN 202110818612 A CN202110818612 A CN 202110818612A CN 113657172 A CN113657172 A CN 113657172A
Authority
CN
China
Prior art keywords
domain
classifier
level
frame
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110818612.1A
Other languages
English (en)
Other versions
CN113657172B (zh
Inventor
陈万军
刘龙
范凤梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110818612.1A priority Critical patent/CN113657172B/zh
Publication of CN113657172A publication Critical patent/CN113657172A/zh
Application granted granted Critical
Publication of CN113657172B publication Critical patent/CN113657172B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Abstract

本发明公开了基于语义级领域不变特征的跨域人体动作识别方法,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征,同时结合对抗学习技术来学习具有领域不变性的特征,进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题,从而具有更广的实用性和适应性等优点。

Description

基于语义级领域不变特征的跨域人体动作识别方法
技术领域
本发明涉及视频分析技术领域,具体为基于语义级领域不变特征的跨域人体动作识别方法。本发明可用于将跨域视频中的人体动作数据进行分类识别。
背景技术
视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析,学习并理解其中人的动作和行为,进而建立起视频内容和动作类型之间的映射关系,使得计算机能够像人类一样去“理解”视频,并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。跨域人体动作识别是指在源域数据和目标域数据概率分布不一致但又相关的情况下,利用标记的源域数据来为目标域学习一个精确的分类预测模型。
目前的人体动作识别方法在解决跨域动作识别问题时主要依赖于传统的对抗学习网络,该网络主要由3部分构成:特征提取器、分类器和域判别器。由特征提取器和分类器构成的网络分支主要任务是从有标记的源域数据中蒸馏知识,以达到最小化源域数据分类误差的目的。由特征提取器和域判别器构成的网络分支主要任务是训练特征提取器提取出领域不变的特征来最大化判别器的误差。尽管对抗网络架构在跨域图像识别和动作识别中取得了较好的识别效果,但以这种方式所训练的特征提取器只能提取出领域不变的视觉级特征,仍不能从语义级别上刻画动作类别的本质属性,从而导致特征的描述能力不够强、判别力较弱,影响分类结果。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:基于语义级领域不变特征的跨域人体动作识别方法,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;
具体步骤如下:
步骤1:输入RGB帧序列:
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns
步骤2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块;
步骤3:特征时空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征
Figure BDA0003171066080000021
Figure BDA0003171066080000022
为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
步骤4:领域适配对抗学习模块:
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失:
Figure BDA0003171066080000031
CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1;
步骤5:分类器:
(5a)分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2();这2个分类器具有相同的网络结构;p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果;从分类器的预测结果中计算有标签的源域样本数据的分类损失
Figure BDA0003171066080000032
(5b)对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
Figure BDA0003171066080000033
步骤6:训练基于语义级领域不变特征的跨域人体动作识别模型:
(6a)计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005;
(6b)利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2;
步骤7:对目标域中的数据进行分类:
(7a)将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT);
(7b)对帧级特征进行时空聚集,得到视频级特征fT
(7c)将fT分别输入到分类器1和分类器2中,将两个分类器的输出结果进行均值融合后得到最终的分类结果。
(三)有益效果
本发明提供了基于语义级领域不变特征的跨域人体动作识别方法。具备以下有益效果:
本发明基于语义级领域不变特征的跨域人体动作识别方法,充分利用具有权值参数最大差异化的两个并行分类器来引导特征提取模块从两个不同的视角提取能刻画动作类别本质属性的语义级特征,同时结合对抗学习技术来学习具有领域不变性的特征,进一步增强模型的跨域动作识别性能。克服了现有技术仅从视觉级上提取领域不变特征而导致特征描述能差、模型泛化能力弱、适应性不强等模型性能下降的问题,从而具有更广的实用性和适应性等优点。
附图说明
图1是本发明一种基于语义级领域不变特征的跨域人体动作识别方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种技术方案:
参照附图1,对本发明的实现的步骤详细描述如下:
步骤1,输入RGB帧序列。
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns
步骤2,帧级特征提取。
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块。
通用特征提取子网络为ResNet-101残差网络,并去掉平均池化层后的分类层,对每帧图像提取2048维特征向量。
动作识别特定任务特征变换子网络由一个全连接层构成,输出特征维度为256维。
步骤3,特征时-空聚集。
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征
Figure BDA0003171066080000051
Figure BDA0003171066080000052
为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数。
步骤4,领域适配对抗学习模块。
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失
Figure BDA0003171066080000061
CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1。
域判别层由一个全连接层构成,输入特征维度为256维,输出特征维度为2维。
步骤5,分类器。
分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2()。这2个分类器具有相同的网络结构。p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果。从分类器的预测结果中计算有标签的源域样本数据的分类损失
Figure BDA0003171066080000062
对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
Figure BDA0003171066080000063
分类器1和分类器2均由一个全连接层构成,输入特征维度为256维,输出特征维度为C维。C为动作类别数。
步骤6,训练基于语义级领域不变特征的跨域人体动作识别模型。
计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005。
利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2。
步骤7,对目标域中的数据进行分类。
将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT)。
对帧级特征进行时-空聚集,得到视频级特征fT
将fT分别输入到分类器1和分类器2中,将2个分类器的输出结果进行均值融合后得到最终的分类结果。
本发明的效果可以通过以下仿真实验进一步说明:
1.仿真条件:
本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。
2.仿真内容:
本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集MSR-DailyActivity3D,出自参考文献("Mining actionlet ensemble for actionrecognition with depth cameras,"2012IEEE Conference on ComputerVision andPattern Recognition,Providence,RI,2012,pp.1290-1297,doi:10.1109/CVPR.2012.6247813)和NTU RGB+D 120("NTU RGB+D 120:A Large-Scale Benchmark for3D Human Activity Understanding,"in IEEE Transactions on Pattern Analysis andMachine Intelligence,doi:10.1109/TPAMI.2019.2916873)。为了满足跨域动作识别的条件,首先将两个数据集中8个同类别动作的样本抽取出来构成源域与目标域。在本仿真实验中,源域带标签的数据由NTU RGB+D 120数据集中的样本构成,无标签的目标域数据由MSR-DailyActivity3D中的样本构成,具体类别如表1。仿真方法得到的分类准确率对比结果如表2。
3.仿真效果分析:
表2是两种方法在仿真中得到的分类准确率对比,从表2可见,本发明能够引导特征提取器从输入数据中提取更能刻画动作类别本质属性的语义级特征,并嵌入到领域对抗学习技术中,相比传统的对抗学习领域适配的方法,有效提升了特征对动作的描述能力,增强了模型的跨域数据分布偏移适应能力,提高了分类精度。
表1源域与目标域动作类别一览表
源域(NTU RGB+D 120) 目标域(MSR-DailyActivity3D)
喝水 喝水
吃饭 吃东西
阅读 读书
打电话 打电话
写字 写字
鼓掌 鼓掌
站起 站起
坐下 坐下
表2仿真中两种方法得到的分类准确率一览表
仿真方法 分类准确率
本发明分类方法 71.66%
传统对抗学习 64.03%
综上所述,本发明设计了一种具有跨域不变性的语义级特征提取与动作识别网络架构,有效地增强了特征的描述能力和模型的跨域分布偏移适应能力,提升了分类性能。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (1)

1.基于语义级领域不变特征的跨域人体动作识别方法,其特征在于,利用由2个分类器构成的并行分类对抗学习网络架构来引导特征提取器从输入数据中提取具有领域不变性的语义级特征,提高跨域人体动作识别模型的分类性能;
具体步骤如下:
步骤1:输入RGB帧序列:
从有标签的源域与无标签的目标域数据集中输入RGB帧序列数据Xi,源域样本数为Ns,目标域样本数为NT,i=1,2,…,Ns∪T,源域数据对应的标签为yj,j=1,2,…,Ns
步骤2:帧级特征提取:
帧级特征提取模块由通用特征提取子网络和动作识别特定任务特征变换子网络组成,从输入的帧序列中提取帧级特征G(Xi),G()表示特征提取模块;
步骤3:特征时空聚集:
沿时间维度对提取的空间帧级特征进行均值池化聚集,形成视频级特征
Figure FDA0003171066070000011
Figure FDA0003171066070000012
为第i个视频样本的特征序列的第t个等间隔采样帧,τ=5为对每个样本的等间隔采样帧数;
步骤4:领域适配对抗学习模块:
对抗学习模块表示为D(),该模块由梯度反转层、域判别层和批归一化层组成,从该模块的输出来计算域对抗损失:
Figure FDA0003171066070000021
CE(·,·)为交叉熵损失函数,di为领域标签,当fi来自源域时di=0,当fi来自目标域时di=1;
步骤5:分类器:
(5a)分类器由2个并行的分支构成:分类器1和分类器2,分别表示为C1()和C2();这2个分类器具有相同的网络结构;p(1)、p(2)分别为分类器1和分类器2的输出结果,p=(p(1)+p(2))/2为分类器对样本Xi的最终预测结果;从分类器的预测结果中计算有标签的源域样本数据的分类损失
Figure FDA0003171066070000022
(5b)对分类器1和分类器2的权值矩阵按列展开成向量,分别表示为w(1)和w(2),计算分类器差异化损失:
Figure FDA0003171066070000023
步骤6:训练基于语义级领域不变特征的跨域人体动作识别模型:
(6a)计算模型的训练损失L=Lc+αLdiff-βLadv,α,β的值分别设置为0.01和0.005;
(6b)利用随机梯度下降算法训练特征变换子网络、领域适配对抗学习模块、分类器1和分类器2;
步骤7:对目标域中的数据进行分类:
(7a)将目标域中的待分类样本XT输入到帧级特征提取器中,得到帧级特征G(XT);
(7b)对帧级特征进行时空聚集,得到视频级特征fT
(7c)将fT分别输入到分类器1和分类器2中,将两个分类器的输出结果进行均值融合后得到最终的分类结果。
CN202110818612.1A 2021-07-20 2021-07-20 基于语义级领域不变特征的跨域人体动作识别方法 Active CN113657172B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110818612.1A CN113657172B (zh) 2021-07-20 2021-07-20 基于语义级领域不变特征的跨域人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110818612.1A CN113657172B (zh) 2021-07-20 2021-07-20 基于语义级领域不变特征的跨域人体动作识别方法

Publications (2)

Publication Number Publication Date
CN113657172A true CN113657172A (zh) 2021-11-16
CN113657172B CN113657172B (zh) 2023-08-01

Family

ID=78489611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110818612.1A Active CN113657172B (zh) 2021-07-20 2021-07-20 基于语义级领域不变特征的跨域人体动作识别方法

Country Status (1)

Country Link
CN (1) CN113657172B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
CN111797814A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于通道融合和分类器对抗的无监督跨域动作识别方法
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN112084891A (zh) * 2020-08-21 2020-12-15 西安理工大学 基于多模态特征与对抗学习的跨域人体动作识别方法
US20210067549A1 (en) * 2019-08-29 2021-03-04 Nec Laboratories America, Inc. Anomaly detection with graph adversarial training in computer systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492662A (zh) * 2018-09-27 2019-03-19 天津大学 一种基于对抗自编码器模型的零样本分类方法
US20210067549A1 (en) * 2019-08-29 2021-03-04 Nec Laboratories America, Inc. Anomaly detection with graph adversarial training in computer systems
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation
CN111797814A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于通道融合和分类器对抗的无监督跨域动作识别方法
CN112084891A (zh) * 2020-08-21 2020-12-15 西安理工大学 基于多模态特征与对抗学习的跨域人体动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘欢;郑庆华;罗敏楠;赵洪科;肖阳;吕彦章;: "基于跨域对抗学习的零样本分类", 计算机研究与发展, no. 12 *
李玺;查宇飞;张天柱;崔振;左旺孟;侯志强;卢湖川;王菡子;: "深度学习的目标跟踪算法综述", 中国图象图形学报, no. 12 *

Also Published As

Publication number Publication date
CN113657172B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN107679526B (zh) 一种人脸微表情识别方法
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108520226B (zh) 一种基于躯体分解和显著性检测的行人重识别方法
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN112560810B (zh) 基于多尺度时空特征神经网络的微表情识别方法
CN112084891B (zh) 基于多模态特征与对抗学习的跨域人体动作识别方法
CN103955671B (zh) 基于快速判别公共向量算法的人体行为识别方法
CN110298297A (zh) 火焰识别方法和装置
CN104021384B (zh) 一种人脸识别方法及装置
CN111967325A (zh) 一种基于增量优化的无监督跨域行人重识别方法
CN109886161A (zh) 一种基于可能性聚类和卷积神经网络的道路交通标识识别方法
CN111814611A (zh) 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统
Avila et al. A method to estimate Grape Phenolic Maturity based on seed images
CN113139501A (zh) 一种联合局部区域检测与多级特征抓取的行人多属性识别方法
CN107392105B (zh) 一种基于反向协同显著区域特征的表情识别方法
CN110889335B (zh) 基于多通道时空融合网络人体骨架双人交互行为识别方法
CN114937298A (zh) 一种基于特征解耦的微表情识别方法
CN113378981B (zh) 基于域适应的噪音场景图像分类方法及系统
Yao Application of higher education management in colleges and universities by deep learning
CN114596605A (zh) 一种多特征融合的表情识别方法
Shafik et al. Using a novel convolutional neural network for plant pests detection and disease classification
CN104050451A (zh) 一种基于多通道Haar-like特征的鲁棒目标跟踪方法
CN112052722A (zh) 行人身份再识别方法及存储介质
CN113657172A (zh) 基于语义级领域不变特征的跨域人体动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant