CN112364708B - 基于知识蒸馏与对抗学习的多模态人体动作识别方法 - Google Patents
基于知识蒸馏与对抗学习的多模态人体动作识别方法 Download PDFInfo
- Publication number
- CN112364708B CN112364708B CN202011123560.8A CN202011123560A CN112364708B CN 112364708 B CN112364708 B CN 112364708B CN 202011123560 A CN202011123560 A CN 202011123560A CN 112364708 B CN112364708 B CN 112364708B
- Authority
- CN
- China
- Prior art keywords
- network
- mode
- training
- knowledge distillation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 title claims abstract description 22
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 230000010354 integration Effects 0.000 claims abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 4
- 241000287196 Asthenes Species 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000007613 environmental effect Effects 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
基于知识蒸馏与对抗学习的多模态人体动作识别方法,具体步骤是:输入多模态人体动作训练数据;针对各模态数据,分别训练单模态动作识别模型;多模态识别模型知识蒸馏集成;分类预测;利用知识蒸馏和对抗学习技术,将具有不同描述特性和分类能力的多模态识别模型集成迁移到一个新网络模型中;在测试阶段,该新模型能够在部分模态数据丢失的情况下仍然保持多模态的特征提取能力和判别力,提升了模型的分类效果和环境适应性。
Description
技术领域
本发明属于视频分析技术领域,具体涉及基于知识蒸馏与对抗学习的多模态人体动作识别方法,可用于将视频中的人体动作数据进行分类识别。
背景技术
视频中的人体动作识别旨在对包含人体动作的图像序列进行处理分析,学习并理解其中人的动作和行为,进而建立起视频内容和动作类型之间的映射关系,使得计算机能够像人类一样去“理解”视频,并被广泛地应用于智能视频监控、公共安全与行为分析、人-机交互、人-机协作、医疗保健以及智能机器人等众多领域中。基于多模态数据的人体动作识别是指综合利用不同模态下的数据特性,如RGB视觉模态和具有场景结构信息的Depth模态,来对人体动作的表观、结构和运动信息进行更加全面地建模,以信息互补的方式为人体动作识别提供更加全面的特征刻画和描述,进而提高动作识别的精度。
目前基于多模态数据的人体动作识别方法,在训练和测试预测过程中均需要多模态数据作为识别模型的输入。然而在实际情况中,测试数据所能够获得的模态类型往往不够全面,有可能由于采集条件所限而导致某一模态的数据缺失,从而致使这些识别模型的预测精度大幅下降或由于数据模态不足而无法正常工作。
发明内容
为克服上述现有技术的不足,本发明目的在于提供了基于知识蒸馏与对抗学习的多模态人体动作识别方法,解决了现有基于多模态数据的人体动作识别技术中,由于测试数据中存在模态丢失现象而导致模型识别性能显著下降、甚至无法正常工作的问题;具有在测试环境中抗模态丢失的能力和灵活的模态适应性的特点。
为实现上述目的,本发明采用的技术方案是:
基于知识蒸馏与对抗学习的多模态人体动作识别方法,包括以下步骤:
步骤1,输入多模态人体动作训练数据:
输入数据包括RGB模态和Depth模态,其训练样本分别表示为i=1,2,…,N,训练样本数为N;
步骤2,针对各模态数据,分别训练单模态动作识别模型,本步骤具体包括:
S201,对每个模态的训练数据,分别构建深度神经网络识别模型和/>其中,μ和ν分别表示RGB模态和Depth模态下识别网络的参数集;
S202,以交叉熵作为网络预测与真实One-Hot编码标签的误差度量函数,采用随机梯度下降算法进行网络参数优化训练,获得最优参数集和/>
步骤3,多模态识别模型知识蒸馏集成,本步骤具体包括:
S301,构建多模态集成学生网络Sθ,其中θ为网络的参数集;
S302,将深度神经网络识别模型和/>做为教师网络,通过知识蒸馏与对抗学习方式来训练Sθ,获得最优参数集/>
步骤4,分类预测:
在测试阶段,仅需将RGB模态的测试样本输入到网络中,网络输出即为对未知类别样本的类别预测概率。
所述步骤S201中深度神经网络识别模型和/>的网络结构如下:
网络和/>采用相同的网络架构,其网络结构均为SlowFast网络;残差网络ResNet-50作为SlowFast的骨干网络;各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值。
所述步骤S301中的多模态集成学生网络Sθ的网络结构如下:
网络Sθ为SlowFast网络,残差网络ResNet-50作为SlowFast的骨干网络;网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值。
所述步骤S302中的知识蒸馏与对抗学习方式:
将教师网络和/>的预测概率的均值pi∈R|C|,作为软标签来引导学生网络的训练,使得学生网络Sθ的预测结果qi∈R|C|与教师网络的预测结果保持一致,其中|C|为类别数,具体过程如下:
首先,利用KL散度计算教师网络与学生网络的预测差异,记为然后,将pi,qi输入到判别器子网络Dγ中,计算集成判别损失其中,γ为判别器子网络的参数集;采用对抗训练优化目标函数获得最优参数/>和/> 其中,θ为步骤S301中所定义的多模态集成学生网络Sθ的参数集。
所述的判别器子网络Dγ由一个全连接层构成,输入特征维度为|C|,输出特征维度为2维。
本发明的有益效果:
本发明基于知识蒸馏与对抗学习的多模态人体动作识别方法,其优点在以下步骤中得以突出体现:步骤3将各单模态下识别模型的判别能力,通过知识蒸馏与对抗学习的方式迁移、集成到一个学生识别网络中,在充分利用了各模态信息互补性来提高模型识别性能的同时大幅降低了网络模型的规模与计算复杂度;步骤4的测试阶段,学生网络可以脱离多模态输入数据的环境,只需输入RGB单模态数据就可以接近或超过多模态数据下的识别性能,提升了模型的鲁棒性和抗模态数据丢失的能力,使得识别模型具有更广泛的实用性和适应性。
附图说明
图1是本发明的工作流程图。
图2是本发明的多模态集成网络训练流程图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征或特性可以以任何合适的方式结合在一个或更多实施方式中。
如图1所示,基于知识蒸馏与对抗学习的多模态人体动作识别方法,包括以下步骤:
步骤S1,输入多模态人体动作训练数据:
输入有标签的训练样本数据,包括RGB模态和Depth模态。训练样本分别表示为i=1,2,…,N,训练样本数为N;
步骤2,针对各模态数据,分别训练单模态动作识别模型,本步骤具体包括:
S201,对每个模态的训练数据,分别构建深度神经网络识别模型和/>其中,μ和ν分别表示RGB模态和Depth模态下识别网络的参数集;
网络和/>采用相同的网络架构,其网络结构均为SlowFast网络。残差网络ResNet-50作为SlowFast的骨干网络。各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值。
S202,以交叉熵作为网络预测与真实One-Hot编码标签的误差度量函数,采用随机梯度下降算法进行网络参数优化训练,获得最优参数集和/>
如图2所示,步骤3,多模态识别模型知识蒸馏集成训练,本步骤具体包括:
S301,构建多模态集成学生网络Sθ,其中θ为网络的参数集;网络Sθ为SlowFast网络,残差网络ResNet-50作为SlowFast的骨干网络;网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值;
S302,将深度神经网络识别模型将和/>做为教师网络,其预测概率的均值pi∈R|C|作为软标签来引导学生网络的训练,使得学生网络Sθ的预测结果qi∈R|C|与教师网络的预测结果保持一致,其中|C|为类别数,具体过程如下:
首先,利用KL散度计算教师网络与学生网络的预测差异,记为然后,将pi,qi输入到判别器子网络Dγ中,计算集成判别损失其中,γ为判别器子网络的参数集。采用对抗训练优化目标函数获得最优参数/>和/> 其中,θ为步骤S301中所定义的多模态集成学生网络Sθ的参数集;
步骤4,分类预测:
在测试阶段,仅需将RGB模态的测试样本输入到网络中,网络输出即为对未知类别样本的类别预测概率。
本发明的效果可以通过以下仿真实验进一步说明:
一、仿真条件:
本发明的仿真实验是在单张NVIDIA Titan X GPU硬件环境和PyTorch深度学习框架软件环境下进行的。
二、仿真内容:
本发明的仿真实验所采用的数据集是国际公开的人体动作识别基准集NTU RGB+D120("NTU RGB+D 120:A Large-Scale Benchmark for 3D Human ActivityUnderstanding,"in IEEE Transactions on Pattern Analysis and MachineIntelligence,doi:10.1109/TPAMI.2019.2916873)。该数据集提供了RGB、Depth等4个模态的样本数据。在仿真实验中,采用跨对象的实验方案,即将106名演员对象中的编号为1~53的对象所执行的动作样本作为训练集,剩余样本作为集。训练集包含RGB与Depth两种模态的数据,而本发明在测试阶段只需输入测试集的RGB单模态数据。将步骤2中训练好的网络和/>在测试集上预测概率的均值作为基准方法1“SlowFast多模态”的预测结果,将在测试集上的预测值作为基准方法2“SlowFast单模态”的预测结果。仿真方法得到的分类准确率对比结果如表1。
三、仿真效果分析:
表1是三种方法在仿真中得到的分类准确率对比,从表1可见,本发明能够有效融合多模态数据对动作类别的多角度刻画能力,同时有效集成多模型的判别能力,提升了传统单模态和多模态识别方法的性能。此外,本发明在测试阶段可以脱离多模态数据输入的环境限制,仅靠单一模态数据即完成未知样本的预测任务,进一步增强了模型的适应性和鲁棒性。
表1仿真中三种方法得到的分类准确率一览表
仿真方法 | 训练数据的模态类别 | 测试数据的模态类别 | 分类准确率 |
本发明分类方法 | RGB+Depth | RGB | 66.8% |
SlowFast多模态 | RGB+Depth | RGB+Depth | 65.2% |
SlowFast单模态 | RGB | RGB | 61.9% |
综上所述,本发明利用知识蒸馏和对抗学习技术,将具有不同描述特性和分类能力的多模态识别模型集成迁移到一个网络模型中,使其在部分模态数据丢失的情况下仍然能够保持多模态的特征提取能力和判别力,提升了模型的分类效果和环境适应性。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
Claims (2)
1.基于知识蒸馏与对抗学习的多模态人体动作识别方法,其特征在于,包括以下步骤:
步骤S1,输入多模态人体动作训练数据:
输入数据包括RGB模态和Depth模态,其训练样本分别表示为 训练样本数为N;
步骤S2,针对各模态数据,分别训练单模态动作识别模型,本步骤具体包括:
S201,对每个模态的训练数据,分别构建深度神经网络识别模型和/>其中,μ和ν分别表示RGB模态和Depth模态下识别网络的参数集;
所述步骤S201中深度神经网络识别模型和/>的网络结构如下:
深度神经网络识别模型和/>采用相同的网络架构,其网络结构均为SlowFast网络;残差网络ResNet-50作为SlowFast的骨干网络;各网络的初始参数值均为SlowFast网络在Kinetics-400数据集上的训练权值;
S202,以交叉熵作为网络预测与真实One-Hot编码标签的误差度量函数,采用随机梯度下降算法进行网络参数优化训练,获得最优参数集和/>
步骤S3,多模态识别模型知识蒸馏集成,本步骤具体包括:
S301,构建多模态集成学生网络Sθ,其中θ为网络的参数集;
所述步骤S301中的多模态集成学生网络Sθ的网络结构如下:
网络Sθ为SlowFast网络,残差网络ResNet-50作为SlowFast的骨干网络;网络的初始参数值为SlowFast网络在Kinetics-400数据集上的训练权值;
S302,将深度神经网络识别模型和/>做为教师网络,通过知识蒸馏与对抗学习方式来训练Sθ,获得最优参数集/>
所述步骤S302中的知识蒸馏与对抗学习方式:
将教师网络和/>的预测概率的均值pi∈R|C|,作为软标签来引导学生网络的训练,使得学生网络Sθ的预测结果qi∈R|C|与教师网络的预测结果保持一致,其中|C|为类别数,具体过程如下:
首先,利用KL散度计算教师网络与学生网络的预测差异,记为然后,将pi,qi输入到判别器子网络Dγ中,计算集成判别损失/>其中,γ为判别器子网络的参数集;采用对抗训练优化目标函数获得最优参数/>和其中,θ为多模态集成学生网络Sθ的参数集;
步骤S4,分类预测
在测试阶段,仅需将RGB模态的测试样本输入到网络中,网络输出即为对未知类别样本的类别预测概率。
2.根据权利要求1所述的基于知识蒸馏与对抗学习的多模态人体动作识别方法,其特征在于,所述的判别器子网络Dγ由一个全连接层构成,输入特征维度为|C|,输出特征维度为2维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123560.8A CN112364708B (zh) | 2020-10-20 | 2020-10-20 | 基于知识蒸馏与对抗学习的多模态人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011123560.8A CN112364708B (zh) | 2020-10-20 | 2020-10-20 | 基于知识蒸馏与对抗学习的多模态人体动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364708A CN112364708A (zh) | 2021-02-12 |
CN112364708B true CN112364708B (zh) | 2024-02-06 |
Family
ID=74507360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011123560.8A Active CN112364708B (zh) | 2020-10-20 | 2020-10-20 | 基于知识蒸馏与对抗学习的多模态人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364708B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269266B (zh) * | 2021-06-08 | 2023-09-19 | 清华大学 | 多故障模式下基于知识蒸馏的晶圆制造过程故障检测方法 |
CN113901931A (zh) * | 2021-10-13 | 2022-01-07 | 山东大学 | 一种基于知识蒸馏模型的红外和可见光视频的行为识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751260A (zh) * | 2018-07-24 | 2020-02-04 | 北京三星通信技术研究有限公司 | 电子设备、任务处理的方法以及训练神经网络的方法 |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
CA3076424A1 (en) * | 2019-03-22 | 2020-09-22 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
-
2020
- 2020-10-20 CN CN202011123560.8A patent/CN112364708B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751260A (zh) * | 2018-07-24 | 2020-02-04 | 北京三星通信技术研究有限公司 | 电子设备、任务处理的方法以及训练神经网络的方法 |
CA3076424A1 (en) * | 2019-03-22 | 2020-09-22 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
CN111027060A (zh) * | 2019-12-17 | 2020-04-17 | 电子科技大学 | 基于知识蒸馏的神经网络黑盒攻击型防御方法 |
Non-Patent Citations (2)
Title |
---|
3D多支路聚合轻量网络视频行为识别算法研究;胡正平;刁鹏成;张瑞雪;李淑芳;赵梦瑶;;电子学报(07);全文 * |
基于特征蒸馏的实时人体动作识别;高璇;饶鹏;刘高睿;;工业控制计算机(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364708A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN111767405B (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
EP3905126A2 (en) | Image clustering method and apparatus | |
CN104573669A (zh) | 图像物体检测方法 | |
CN113326835B (zh) | 一种动作检测方法、装置、终端设备和存储介质 | |
CN112364708B (zh) | 基于知识蒸馏与对抗学习的多模态人体动作识别方法 | |
CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
CN112084891B (zh) | 基于多模态特征与对抗学习的跨域人体动作识别方法 | |
CN113033622A (zh) | 跨模态检索模型的训练方法、装置、设备和存储介质 | |
CN112560985B (zh) | 神经网络的搜索方法、装置及电子设备 | |
KR20220002065A (ko) | 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 | |
CN104834918A (zh) | 一种基于高斯过程分类器的人体行为识别方法 | |
CN111523421A (zh) | 基于深度学习融合各种交互信息的多人行为检测方法及系统 | |
CN114155397B (zh) | 一种小样本图像分类方法及系统 | |
CN113722474A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
CN111046655A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
Coppola et al. | Applying a 3d qualitative trajectory calculus to human action recognition using depth cameras | |
CN115618884B (zh) | 基于多任务学习的言论分析方法、装置以及设备 | |
CN110879821A (zh) | 评分卡模型衍生标签生成方法、装置、设备及存储介质 | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
CN115359296A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111582404B (zh) | 内容分类方法、装置及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |