CN113989943B - 一种基于蒸馏损失的人体动作增量识别方法及装置 - Google Patents

一种基于蒸馏损失的人体动作增量识别方法及装置 Download PDF

Info

Publication number
CN113989943B
CN113989943B CN202111614473.7A CN202111614473A CN113989943B CN 113989943 B CN113989943 B CN 113989943B CN 202111614473 A CN202111614473 A CN 202111614473A CN 113989943 B CN113989943 B CN 113989943B
Authority
CN
China
Prior art keywords
model
human body
training
action
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111614473.7A
Other languages
English (en)
Other versions
CN113989943A (zh
Inventor
黄天羽
肖达
唐明湘
李弋豪
李鹏
丁刚毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111614473.7A priority Critical patent/CN113989943B/zh
Publication of CN113989943A publication Critical patent/CN113989943A/zh
Application granted granted Critical
Publication of CN113989943B publication Critical patent/CN113989943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于蒸馏损失的人体动作增量识别方法,包括:一、建立人体动作识别模型;二、使用所述人体动作识别模型对输入数据进行训练,得到模型参数;三、当需要对标注新动作类别的数据进行训练时,使用增量识别训练方法更新模型参数,具体步骤为:首先使用已经训练好的参数对新数据进行预测得到预测动作类别,称为旧知识的软标签;将旧知识的软标签与新数据和正确标签一同作为损失函数的输入,以损失函数最小化为目标,对新的模型参数进行训练;四、将待测试数据集输入训练后的动作识别模型,识别出人体动作。本发明在增加模型对新的动作类别的识别能力的同时,保留识别已有动作类别的记忆能力,降低模型训练的数据存储开销和时间复杂度。

Description

一种基于蒸馏损失的人体动作增量识别方法及装置
技术领域
本发明涉及一种人体动作增量识别方法及装置,特别涉及一种基于蒸馏损失的人体动作增量识别方法及装置。
背景技术
人体动作识别是一项富有挑战的任务。在机器学习和深度学习技术得到广泛发展应用之后,在人体动作识别领域也开始采取机器学习和深度学习的模型训练方法。在对输入的人体动作数据进行建模时需要关注两个关键因素:每一刻的人体姿态和人体姿态间的时间关联性。描述人体姿态不仅需要考虑描述的准确性,还需要考虑人体运动数据的复杂多样以及庞大的数据量对建模过程中数据存储和计算开销的影响。
目前人体动作识别的输入数据来源之一为人体动作捕捉技术,相较于从视频中采集数据的方式,使用运动捕捉方法获得的数据更为准确。人体运动捕捉数据作为一种时间序列,记录了人体在运动时各个节点的时空信息,其中每一时刻的各节点信息描述了一个人体姿态。
人体动作识别方法需要对人体运动数据中的时空信息进行建模,在现有的大多数动作识别方法中,动作识别模型可以分为深度神经网络模型和概率图模型两种。深度神经网络模型在行为识别和场景识别等领域都有不错的效果,但是不能很好的表示人体的骨架结构。概率图模型可以分为有向概率图模型和无向概率图模型。概率图模型适合对序列数据中的时间关联性进行建模,并且支持不同长度的序列数据输入。Gunawardana等人应用HCRF模型对电话接听动作进行分类(Gunawardana A, Mahajan M, Acero A, et al.2005. Hidden conditional random fields for phone classification[C]//NinthEuropean Conference on Speech Communication and Technology. 2005.),Wang等人也使用HCRF模型进行手势识别(Wang S B, Quattoni A, Morency L P, et al. 2006.Hidden conditional random fields for gesture recognition[C]//2006 IEEEComputer Society Conference on Computer Vision and Pattern Recognition (CVPR'06). IEEE, 2006, 2: 1521-1527.),他们需要多次训练来获得最好结果。但是HCRF模型在引入的中间层中需要考虑所有隐藏状态序列的情况,为模型训练带来了很高的时间复杂度。
现有的动作识别模型需要将标注好动作类别的数据作为训练集输入到模型中,对模型参数进行训练。对于训练好的模型,如果需要识别出新的动作类别,需要增加标注了新动作类别的新训练数据,并且使用所有的新数据和老数据重新对模型参数进行训练。这就带来了老数据的存储开销,以及重新训练新模型的时间开销。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于蒸馏损失的人体动作增量识别方法和装置,当需要在模型中增加新的动作类别时,只需要使用新数据对模型进行训练,在增加模型对新的动作类别的识别能力的同时,保留识别已有动作类别的记忆能力,降低模型训练的数据存储开销和时间复杂度。
为达到上述目的,本发明提供了一种基于蒸馏损失的人体动作增量识别方法,包括:
一、建立人体动作识别模型;
二、使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
三、当需要对标注新动作类别的数据进行训练时,使用增量识别训练方法更新模型参数,具体步骤为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 156223DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 546753DEST_PATH_IMAGE002
与新数据和正确标签
Figure 624431DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 391398DEST_PATH_IMAGE004
;其中
Figure 667659DEST_PATH_IMAGE005
为分类损失函数,
Figure 104457DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 528485DEST_PATH_IMAGE007
Figure 505668DEST_PATH_IMAGE008
Figure 574118DEST_PATH_IMAGE009
Figure 807916DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 656923DEST_PATH_IMAGE011
为自定义超参数,
Figure 109901DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练;
四、将待测试数据集输入训练后的动作识别模型,识别出人体动作。
根据本发明实施例所述的一种具体实现方式,所述人体动作识别模型训练参数的方法为:
模型通过拟合条件概率
Figure 360754DEST_PATH_IMAGE013
来获得对给定输入的分类概率,其中y为人体动作类型,H为具有明确语义信息的隐藏状态集,X为人体姿态序列,
Figure 998408DEST_PATH_IMAGE014
为模型的能量函数,
Figure 537974DEST_PATH_IMAGE015
为模型的参数,
设置能量函数为
Figure 856960DEST_PATH_IMAGE016
其中,
Figure 24636DEST_PATH_IMAGE017
Figure 770875DEST_PATH_IMAGE018
分别为从运动训练数据集中获得的人体姿态编码序列、姿态变化编码序列和隐藏状态编码序列,使用人体姿态编码序列作为输入,对应的隐藏状态编码序列作为输出,训练
Figure 266579DEST_PATH_IMAGE019
;使用姿态变化编码序列作为输入,对应的隐藏状态转换序列作为输出,训练
Figure 389256DEST_PATH_IMAGE020
;使用隐藏状态编码序列作为输入,人体动作类别作为输出,训练分类参数
Figure 411438DEST_PATH_IMAGE021
;使用隐藏状态转换序列作为输入,人体动作类别作为输出,训练分类参数
Figure 328579DEST_PATH_IMAGE022
,得到所述动作识别模型。
根据本发明实施例所述的一种具体实现方式,增加温度系数T,控制输出的概率分布平稳程度;将拟合条件概率公式修改为
Figure 577157DEST_PATH_IMAGE023
Figure 237946DEST_PATH_IMAGE024
Figure 613170DEST_PATH_IMAGE025
Figure 966791DEST_PATH_IMAGE026
Figure 702666DEST_PATH_IMAGE002
Figure 229462DEST_PATH_IMAGE010
计算中温度系数
Figure 898341DEST_PATH_IMAGE027
;
Figure 360546DEST_PATH_IMAGE028
的计算中温度系数
Figure 380455DEST_PATH_IMAGE029
根据本发明实施例所述的一种具体实现方式,在对新的模型参数进行训练时,将训练好的旧模型参数作为新模型参数的训练初始值,只对
Figure 445363DEST_PATH_IMAGE030
中新增的对应新类别的权重值进行初始化。
根据本发明实施例所述的一种具体实现方式,表示运动特征语义信息的隐藏状态编码使用8个二进制位,分别表示人体是否垂直于水平面、左右大臂与肩关节位置关系、左右大腿与髋关节位置关系、竖直平面内是否有位移、水平面内是否有位移、是否有前驱或后仰动作。
根据本发明实施例所述的一种具体实现方式,所述姿态变化编码序列的生成方法为:从每个时间点的运动训练数据中,提取每个关键关节点或肢体段在其父关节点局部坐标系中的旋转角度,并与前一个时间点的旋转角度进行比较,得到表示姿态变化趋势的姿态变化编码序列。
根据本发明实施例所述的一种具体实现方式,所述人体姿态编码序列的生成方法为:基于所述运动训练数据集获取每个训练采集时间点对应的姿态,选取人体骨骼关键关节点或肢体段,计算在其父关节点局部坐标系中绕每个坐标轴的旋转角度,计算得到所处子空间位置,并进行编码,转换成对应的人体姿态编码序列。
另一方面,本发明还提供了一种基于蒸馏损失的人体动作增量识别系统,包括:
人体动作识别模型;
模型训练模块,使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
增量识别模块,用于根据标注新动作类别的数据更新模型;
动作识别模块,用于将待测试数据集输入动作识别模型,识别出人体动作;
其中,增量识别模块更新模型的方法为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 234327DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 867434DEST_PATH_IMAGE002
与新数据和正确标签
Figure 436956DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 243237DEST_PATH_IMAGE004
;其中
Figure 89971DEST_PATH_IMAGE005
为分类损失函数,
Figure 690716DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 248999DEST_PATH_IMAGE007
Figure 593393DEST_PATH_IMAGE008
Figure 294632DEST_PATH_IMAGE009
Figure 66279DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 610393DEST_PATH_IMAGE011
为自定义超参数,
Figure 758478DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练。
另一方面,本发明还提供了一种终端,包括处理器、输入设备、输出设备和存储器,所述存储器用于存储程序代码,所述处理器被配置用于运行所述程序代码,执行前述的人体动作增量识别方法。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行前述的人体动作增量识别方法。
有益效果
本发明提出的基于蒸馏损失的人体动作增量识别方法和装置,当需要在模型中增加新的动作类别时,只需要使用新数据对模型进行训练,在增加模型对新的动作类别的识别能力的同时,保留识别已有动作类别的记忆能力,降低模型训练的数据存储开销和时间复杂度。
附图说明
图1为基于蒸馏损失的人体动作增量识别方法的流程图;
图2为以Hips关节为根节点的人体骨骼层次模型。
图3为实施例1选取的关键关节点和肢体段示意图。
图4为经典HCRF动作识别模型结构图。
图5为定义了明确语义信息的隐藏状态层的结构图。
图6 为引入共享参数的动作识别模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现有技术中的人体动作识别模型通常会输入人体姿态编码序列作为特征向量进行建模,而人体姿态包含骨骼、关节、肢体段的信息,非常繁复。如图2所示为以Hips关节为根节点的人体骨骼层次模型。图3所示为根据人体姿态的运动特点选取了人体骨骼架构模型中的12个关节点共构成了9个肢体段。图中的实心黑点为选取的12个关键关节点,12个关节点之间用虚线表示的9个肢体段是选取的表示人体姿态的关键肢体段,分别为左右大臂、小臂、大腿、小腿和躯干。节点之间存在着父子关系。
现有的动作识别模型需要将标注好动作类别的数据作为训练集输入到模型中,对模型参数进行训练。对于训练好的模型,如果需要识别出新的动作类别,需要增加标注了新动作类别的新训练数据,并且使用所有的新数据和老数据重新对模型参数进行训练。这就带来了老数据的存储开销,以及重新训练新模型的时间开销。
本发明实施例1提出了一种基于蒸馏损失的人体动作增量识别方法,如图1所示,包括:
一、建立人体动作识别模型;
二、使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
三、当需要对标注新动作类别的数据进行训练时,使用增量识别训练方法更新模型参数,具体步骤为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 314224DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 319089DEST_PATH_IMAGE002
与新数据和正确标签
Figure 350499DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 36695DEST_PATH_IMAGE004
;其中
Figure 712527DEST_PATH_IMAGE005
为分类损失函数,
Figure 825977DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 577639DEST_PATH_IMAGE007
Figure 67526DEST_PATH_IMAGE008
Figure 597864DEST_PATH_IMAGE009
Figure 147794DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 888217DEST_PATH_IMAGE011
为自定义超参数,
Figure 916216DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练;
四、将待测试数据集输入训练后的动作识别模型,识别出人体动作。
实施例1将损失函数划分为分类损失和蒸馏损失两部分,分类损失为新模型将新数据预测为新类别的概率与正确标签做交叉熵的结果;蒸馏损失为新模型将新数据预测为旧知识的软标签的概率与软标签做交叉熵的结果。蒸馏损失的引入,使得模型在对新数据进行训练的时候,保留了对旧知识的记忆能力。
实施例1中提供的人体动作增量识别方法可以应用于各种人体动作识别模型。进一步的,实施例2对人体动作识别领域经典的无向概率图模型HCRF进行了改进,提供了一种新的人体动作增量识别模型。
经典HCRF模型通过拟合条件概率
Figure 301061DEST_PATH_IMAGE031
来获得对给定输入的分类概率,其中X为输入长度为N的序列数据,Y为数据的类别。模型计算的条件概率公式如下:
Figure 21892DEST_PATH_IMAGE032
Figure 249611DEST_PATH_IMAGE033
Figure 81301DEST_PATH_IMAGE034
Figure 320653DEST_PATH_IMAGE035
其中
Figure 540281DEST_PATH_IMAGE036
为模型的特征函数;
Figure 192980DEST_PATH_IMAGE037
为模型引入的中间层——隐藏状态层,假设样本的隐藏状态编码序列H不确定,计算时考虑所有的隐藏状态排列;
Figure 500464DEST_PATH_IMAGE038
表示隐藏状态转移序列,用以表示两个隐藏状态之间是否存在状态转移;
Figure 922218DEST_PATH_IMAGE039
为模型的能量函数,
Figure 548634DEST_PATH_IMAGE040
为模型的参数,根据对应特征不同分为
Figure 423049DEST_PATH_IMAGE041
,其中
Figure 799804DEST_PATH_IMAGE042
表示观察节点和隐藏状态节点的相关程度,
Figure 76064DEST_PATH_IMAGE021
为对应隐藏状态在某类别所占权重,
Figure 371916DEST_PATH_IMAGE022
则是对应状态转移在某类别下发生的概率,模型结构如图4所示。
HCRF模型输入数据为输入长度为N的序列数据X。HCRF模型虽然引入了隐藏状态层,但是样本的隐藏状态编码序列H不确定,计算时需要考虑所有的隐藏状态排列,计算复杂度为
Figure 936890DEST_PATH_IMAGE043
,K为可能的隐藏状态数。本发明实施例1根据人体动作识别领域的特点,定义了具有明确语义信息的隐藏状态编码。为了减小模型训练的存储与计算开销,实施例1从每个时间点的运动训练数据中提取用于表示运动特征语义信息的隐藏状态编码作为训练动作识别模型的特征向量。隐藏状态编码用于表示运动特征语义信息,是对人体姿态的抽象,不同的人体姿态有可能对应同样的隐藏状态编码。由于隐藏状态具有明确的语义信息,基于确定的人体动作特征输入,输入的隐藏状态编码序列也是确定的。作为输入特征向量的隐藏状态编码序列只是所有可能编码序列的一个子集,可以降低模型训练的数据量。为增加识别准确性,定义隐藏状态编码方式时应该根据对区分人体动作类型所起的作用,选取最重要的关节点或区分因素进行编码,根据存储需要,可以采用8位、16位等多种编码方式。
定义了具有明确语义信息的隐藏状态编码的隐藏状态层的结构如图5所示。如图所示,每个列向量代表一个隐藏状态,对于不同的运动,其对应的隐藏状态集存在差异,只是所有可能编码序列的一个子集。
在HCRF模型中,为隐藏状态赋予明确的语义信息,可以对HCRF模型计算的条件概率公式进行简化:
Figure 648494DEST_PATH_IMAGE044
Figure 107157DEST_PATH_IMAGE045
此时的计算复杂度得到了降低,因为已经不需要对表示姿态节点和隐藏状态节点相关程度的参数
Figure 511594DEST_PATH_IMAGE042
进行训练。
改进后的能量函数未考虑人体姿态编码序列以及人体姿态变化序列,这两个特征序列携带有比隐藏状态编码序列更丰富的姿态信息,这些信息的缺少会使模型的效果降低。
引入了人体姿态编码序列之后,实施例2进一步改进了动作识别模型的结构,如图6所示,将训练的参数分为
Figure 298284DEST_PATH_IMAGE046
和分类参数
Figure 813579DEST_PATH_IMAGE030
本发明实施例2提供了一种人体动作增量识别模型,模型通过拟合条件概率
Figure 126749DEST_PATH_IMAGE013
来获得对给定输入的分类概率,其中y为人体动作类型,H为具有明确语义信息的隐藏状态集,X为人体姿态序列,
Figure 702087DEST_PATH_IMAGE014
为模型的能量函数,
Figure 241652DEST_PATH_IMAGE015
为模型的参数,
设置能量函数为
Figure 121490DEST_PATH_IMAGE016
其中,
Figure 226849DEST_PATH_IMAGE017
Figure 910772DEST_PATH_IMAGE018
分别为从运动训练数据集中获得的人体姿态编码序列、姿态变化编码序列和隐藏状态编码序列,使用人体姿态编码序列作为输入,对应的隐藏状态编码序列作为输出,训练
Figure 468792DEST_PATH_IMAGE019
;使用姿态变化编码序列作为输入,对应的隐藏状态转换序列作为输出,训练
Figure 653786DEST_PATH_IMAGE020
;使用隐藏状态编码序列作为输入,人体动作类别作为输出,训练分类参数
Figure 613651DEST_PATH_IMAGE021
;使用隐藏状态转换序列作为输入,人体动作类别作为输出,训练分类参数
Figure 468475DEST_PATH_IMAGE022
,得到所述动作识别模型。
Figure 779371DEST_PATH_IMAGE047
为共享参数,其作用是提取输入的人体动作序列的抽象表达并且压缩其大小;
Figure 502476DEST_PATH_IMAGE030
是分类参数,作为权重来判别姿态和动作所属类别。共享参数借鉴了卷积网络的“共享机制”,不仅有效减少了模型的参数量,还能提取人体动作序列在某一隐藏状态(或状态转移)下的对应信息。
根据本发明实施例3所述的一种具体实现方式,增加温度系数T,控制输出的概率分布平稳程度;将拟合条件概率公式修改为
Figure 316848DEST_PATH_IMAGE023
Figure 608152DEST_PATH_IMAGE024
Figure 468661DEST_PATH_IMAGE025
Figure 667561DEST_PATH_IMAGE026
Figure 539702DEST_PATH_IMAGE002
Figure 64224DEST_PATH_IMAGE010
计算中温度系数
Figure 382335DEST_PATH_IMAGE027
;
Figure 650506DEST_PATH_IMAGE028
的计算中温度系数
Figure 377153DEST_PATH_IMAGE029
Figure 806998DEST_PATH_IMAGE002
Figure 376519DEST_PATH_IMAGE010
计算中温度系数
Figure 182801DEST_PATH_IMAGE048
,可以控制输出的概率分布平稳程度,使得增加的新类别对已有类别识别的影响程度尽量均衡,不会对某一个类别造成特别大的影响。
根据本发明实施例所述的一种具体实现方式,在对新的模型参数进行训练时,将训练好的旧模型参数作为新模型参数的训练初始值,只对
Figure 763955DEST_PATH_IMAGE030
中新增的对应新类别的权重值进行初始化。
根据本发明实施例4所述的一种具体实现方式,表示运动特征语义信息的隐藏状态编码使用8个二进制位,分别表示人体是否垂直于水平面、左右大臂与肩关节位置关系、左右大腿与髋关节位置关系、竖直平面内是否有位移、水平面内是否有位移、是否有前驱或后仰动作。
人体运动数据中某一帧的隐藏状态代表的是当前帧人体姿态的基本特点,上述编码方式将运动特征语义信息抽象成256种隐藏状态,通过将姿态序列转换成隐藏状态编码序列,可以对大多数动作类型进行区分。
根据本发明实施例4所述的一种具体实现方式,所述姿态变化编码序列的生成方法为:从每个时间点的运动训练数据中,提取每个关键关节点或肢体段在其父关节点局部坐标系中的旋转角度,并与前一个时间点的旋转角度进行比较,得到表示姿态变化趋势的姿态变化编码序列。
根据本发明实施例4所述的一种具体实现方式,对每个关键关节点或肢体段提供一位二进制编码,分别表示旋转角度的增大或减小。以选取人体12个关键关节点为例,姿态变化编码为12位二进制编码。作为实施例4的一种优选实施方式,可以将12位二进制编码转换为一个十进制的数字,作为姿态变化的编码值输入到人体动作识别模型。
根据本发明实施例4所述的一种具体实现方式,所述人体姿态编码序列的生成方法为:基于所述运动训练数据集获取每个训练采集时间点对应的姿态,选取人体骨骼关键关节点或肢体段,计算在其父关节点局部坐标系中绕每个坐标轴的旋转角度,计算得到所处子空间位置,并进行编码,转换成对应的人体姿态编码序列。
现有技术中的人体姿态编码均可以应用于本发明所述方法中。如刘云根等在论文《基于人体姿态编码的运动数据检索》(计算机辅助设计与图形学学报,第23卷,第4期,第586-593页)提出了一种人体姿态的编码方式,中国专利申请201910799488.1《基于姿态基的运动特征数据库生成方法、检索方法及终端》提出了一种根据人体姿态基编码方式生成数据库以及进行检索的方法。由于姿态基与本发明实施例4所述姿态变化编码序列计算方法类似,均为选取关键关节点或肢体段进行角度计算,采用姿态基作为人体姿态编码方式可以简化模型输入数据的提取过程。
另一方面,本发明还提供了一种基于蒸馏损失的人体动作增量识别系统,包括:
人体动作识别模型;
模型训练模块,使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
增量识别模块,用于根据标注新动作类别的数据更新模型;
动作识别模块,用于将待测试数据集输入动作识别模型,识别出人体动作;
其中,增量识别模块更新模型的方法为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 958176DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 687098DEST_PATH_IMAGE002
与新数据和正确标签
Figure 234754DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 998311DEST_PATH_IMAGE004
;其中
Figure 832274DEST_PATH_IMAGE005
为分类损失函数,
Figure 314071DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 399839DEST_PATH_IMAGE007
Figure 17902DEST_PATH_IMAGE008
Figure 521302DEST_PATH_IMAGE009
Figure 224816DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 114275DEST_PATH_IMAGE011
为自定义超参数,
Figure 586844DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练。
另一方面,本发明还提供了一种终端,包括处理器、输入设备、输出设备和存储器,所述存储器用于存储程序代码,所述处理器被配置用于运行所述程序代码,执行前述的人体动作增量识别方法。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行前述的人体动作增量识别方法。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入本发明权利要求所限定的范围之内。

Claims (10)

1.一种基于蒸馏损失的人体动作增量识别方法,其特征在于,包括:
一、建立人体动作识别模型;
二、使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
三、当需要对标注新动作类别的数据进行训练时,使用增量识别训练方法更新模型参数,具体步骤为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 93685DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 604301DEST_PATH_IMAGE002
与新数据和正确标签
Figure 587301DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 248089DEST_PATH_IMAGE004
;其中
Figure 655937DEST_PATH_IMAGE005
为分类损失函数,
Figure 681661DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 214274DEST_PATH_IMAGE007
Figure 741070DEST_PATH_IMAGE008
Figure 675528DEST_PATH_IMAGE009
Figure 872154DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 892063DEST_PATH_IMAGE011
为自定义超参数,
Figure 478944DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练;
四、将待测试数据集输入训练后的动作识别模型,识别出人体动作。
2.基于权利要求1所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,所述人体动作识别模型训练参数的方法为:
模型通过拟合条件概率
Figure 267908DEST_PATH_IMAGE013
来获得对给定输入的分类概率,其中y为人体动作类型,H为具有明确语义信息的隐藏状态集,X为人体姿态序列,
Figure 166594DEST_PATH_IMAGE014
为模型的能量函数,
Figure 736116DEST_PATH_IMAGE015
为模型的参数,
设置能量函数为
Figure 276818DEST_PATH_IMAGE016
其中,
Figure 123552DEST_PATH_IMAGE017
Figure 724297DEST_PATH_IMAGE018
分别为从运动训练数据集中获得的人体姿态编码序列、姿态变化编码序列和隐藏状态编码序列,使用人体姿态编码序列作为输入,对应的隐藏状态编码序列作为输出,训练
Figure 781115DEST_PATH_IMAGE019
;使用姿态变化编码序列作为输入,对应的隐藏状态转换序列作为输出,训练
Figure 125509DEST_PATH_IMAGE020
;使用隐藏状态编码序列作为输入,人体动作类别作为输出,训练分类参数
Figure 826748DEST_PATH_IMAGE021
;使用隐藏状态转换序列作为输入,人体动作类别作为输出,训练分类参数
Figure 863974DEST_PATH_IMAGE022
,得到所述动作识别模型。
3.基于权利要求2所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,增加温度系数T,控制输出的概率分布平稳程度;将拟合条件概率公式修改为
Figure 142509DEST_PATH_IMAGE023
Figure 290594DEST_PATH_IMAGE024
Figure 846340DEST_PATH_IMAGE025
Figure 54467DEST_PATH_IMAGE026
Figure 321763DEST_PATH_IMAGE002
Figure 7959DEST_PATH_IMAGE010
计算中温度系数
Figure 683791DEST_PATH_IMAGE027
;
Figure 390716DEST_PATH_IMAGE028
的计算中温度系数
Figure 581526DEST_PATH_IMAGE029
4.基于权利要求3所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,在对新的模型参数进行训练时,将训练好的旧模型参数作为新模型参数的训练初始值,只对
Figure 9096DEST_PATH_IMAGE030
中新增的对应新类别的权重值进行初始化。
5.基于权利要求4所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,表示运动特征语义信息的隐藏状态编码使用8个二进制位,分别表示人体是否垂直于水平面、左右大臂与肩关节位置关系、左右大腿与髋关节位置关系、竖直平面内是否有位移、水平面内是否有位移、是否有前驱或后仰动作。
6.基于权利要求5所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,所述姿态变化编码序列的生成方法为:从每个时间点的运动训练数据中,提取每个关键关节点或肢体段在其父关节点局部坐标系中的旋转角度,并与前一个时间点的旋转角度进行比较,得到表示姿态变化趋势的姿态变化编码序列。
7.基于权利要求6所述的基于蒸馏损失的人体动作增量识别方法,其特征在于,所述人体姿态编码序列的生成方法为:基于所述运动训练数据集获取每个训练采集时间点对应的姿态,选取人体骨骼关键关节点或肢体段,计算在其父关节点局部坐标系中绕每个坐标轴的旋转角度,计算得到所处子空间位置,并进行编码,转换成对应的人体姿态编码序列。
8.一种基于蒸馏损失的人体动作增量识别系统,其特征在于,包括:
人体动作识别模型;
模型训练模块,使用所述人体动作识别模型对输入数据进行训练,得到模型参数;
增量识别模块,用于根据标注新动作类别的数据更新模型;
动作识别模块,用于将待测试数据集输入动作识别模型,识别出人体动作;
其中,增量识别模块更新模型的方法为:
首先使用已经训练好的参数对新数据进行预测得到预测动作类别
Figure 336172DEST_PATH_IMAGE001
,称为旧知识的软标签;
将旧知识的软标签
Figure 948419DEST_PATH_IMAGE002
与新数据和正确标签
Figure 626525DEST_PATH_IMAGE003
一同作为损失函数的输入,所述损失函数
Figure 857786DEST_PATH_IMAGE004
;其中
Figure 304948DEST_PATH_IMAGE005
为分类损失函数,
Figure 822517DEST_PATH_IMAGE006
为蒸馏损失函数,
Figure 987919DEST_PATH_IMAGE007
Figure 757292DEST_PATH_IMAGE008
Figure 150971DEST_PATH_IMAGE009
Figure 777125DEST_PATH_IMAGE010
分别为需要训练的模型对应正确标签和软标签的概率,
Figure 367506DEST_PATH_IMAGE011
为自定义超参数,
Figure 2887DEST_PATH_IMAGE012
是参数的正则项;
以损失函数最小化为目标,对新的模型参数进行训练。
9.一种终端,包括处理器、输入设备、输出设备和存储器,其特征在于,所述存储器用于存储程序代码,所述处理器被配置用于运行所述程序代码,执行如权利要求1-7任一项所述的人体动作增量识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的人体动作增量识别方法。
CN202111614473.7A 2021-12-27 2021-12-27 一种基于蒸馏损失的人体动作增量识别方法及装置 Active CN113989943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111614473.7A CN113989943B (zh) 2021-12-27 2021-12-27 一种基于蒸馏损失的人体动作增量识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111614473.7A CN113989943B (zh) 2021-12-27 2021-12-27 一种基于蒸馏损失的人体动作增量识别方法及装置

Publications (2)

Publication Number Publication Date
CN113989943A CN113989943A (zh) 2022-01-28
CN113989943B true CN113989943B (zh) 2022-03-11

Family

ID=79734544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111614473.7A Active CN113989943B (zh) 2021-12-27 2021-12-27 一种基于蒸馏损失的人体动作增量识别方法及装置

Country Status (1)

Country Link
CN (1) CN113989943B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189310B (zh) * 2022-11-16 2024-01-23 北京理工大学 一种提供人体运动数据集的方法及电子设备
CN117523665A (zh) * 2023-11-13 2024-02-06 书行科技(北京)有限公司 人体动作预测模型的训练方法、相关方法及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法
CN113614748A (zh) * 2019-03-21 2021-11-05 国际商业机器公司 用于对象检测的增量学习的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113614748A (zh) * 2019-03-21 2021-11-05 国际商业机器公司 用于对象检测的增量学习的系统和方法
CN111199242A (zh) * 2019-12-18 2020-05-26 浙江工业大学 一种基于动态修正向量的图像增量学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于动态特征蒸馏的水工隧洞缺陷识别方法;黄继爽 等;《计算机应用》;20210810;第2358-2369页 *

Also Published As

Publication number Publication date
CN113989943A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
Lin et al. Bsn: Boundary sensitive network for temporal action proposal generation
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
CN110472554B (zh) 基于姿态分割和关键点特征的乒乓球动作识别方法及系统
CN113989943B (zh) 一种基于蒸馏损失的人体动作增量识别方法及装置
Rosales et al. 3D hand pose reconstruction using specialized mappings
CN111652124A (zh) 一种基于图卷积网络的人体行为识别模型的构建方法
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
Wang et al. PVRED: A position-velocity recurrent encoder-decoder for human motion prediction
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN112200165A (zh) 模型训练方法、人体姿态估计方法、装置、设备及介质
CN110135237B (zh) 一种手势识别方法
CN113298186A (zh) 融合流模型对抗生成网络和聚类算法的网络异常流量检测方法
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN114926742A (zh) 一种基于二阶注意力机制的回环检测及优化方法
Xu et al. On learning semantic representations for large-scale abstract sketches
Jin et al. Human interaction recognition based on transformation of spatial semantics
Xu et al. Human motion prediction via pattern completion in latent representation space
CN110348395B (zh) 一种基于时空关系的骨架行为识别方法
Liu et al. Deepssm: Deep state-space model for 3d human motion prediction
CN116721468A (zh) 一种基于多人姿态估计动作幅度检测的智能导播切换方法
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
Takano et al. What do you expect from a robot that tells your future? The crystal ball
Tanke et al. Human motion anticipation with symbolic label
CN111178141A (zh) 一种基于注意力机制的lstm人体行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant