CN115019397A

CN115019397A - 一种基于时空信息聚合的对比自监督人体行为识别方法及系统

Info

Publication number: CN115019397A
Application number: CN202210680841.6A
Authority: CN
Inventors: 刘宏; 郭天宇; 丁润伟
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-09-06
Anticipated expiration: 2042-06-15
Also published as: CN115019397B

Abstract

本发明涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统。该方法对输入的骨架动作序列进行数据增强得到增强后的两个动作序列；利用第一编码器和第二编码器即动量更新编码器将其编码成特征向量；利用预测器得到另一组特征向量，通过损失函数构造有效的单个数据流的特征空间。进一步地，计算骨架序列的运动信息和骨骼信息，并同样作为上述步骤的输入，并在得到特征之后计算特征相似度，数据流内部的相似度矩阵做尖锐处理，并在不同数据流间投票融合，得到相似度伪标签，将时空信息有效聚合后约束单个数据流的分布，来训练更优的模型。本发明训练得到的模型可以在实际应用中取得很好的行为识别效果。

Description

一种基于时空信息聚合的对比自监督人体行为识别方法及系统

技术领域

本发明属于机器人视觉技术和智能监控领域，具体涉及一种基于时空信息聚合的对比自监督人体行为识别方法及系统；通过自监督学习范式分别针对关节点信息、骨骼信息以及运动信息进行训练，进一步地，在训练过程中将时空信息通过不断交互的方式有效聚合，来训练更优的模型，可以在实际应用中取得很好的行为识别效果。

背景技术

目前，行为识别在智能监控、人机交互、视频内容分析等领域有着广泛的应用前景，受到了越来越多的关注。特别的，骨架数据相比于图像数据对背景、外观、光照的变化具有较强的鲁棒性，且数据量小，近年来深度传感器和姿态估计算法的发展也使得骨架数据的获得变得容易，因此骨架行为识别逐渐成为行为识别领域一个研究热点。然而，现有的骨架行为识别方法通常需要大量标注好的“数据-标签”对，且行为识别性能有限。因此，自监督骨架行为识别的需求变得迫切，因为其可以在代理任务中利用大量的无标签数据，并在实际下游任务应用时能够实现很好的性能。

基于动作重建的自监督骨架行为识别方法致力于通过重建任务提取关键的时空特征，常见的解决方案是利用编码器-解码器框架实现端到端的序列重建(Nenggan Zheng,Jun Wen,Risheng Liu,Liangqu Long,Jianhua Dai,and Zhefeng Gong.Unsupervisedrepresentation learning with long-term dynamics for skeleton based actionrecognition.AAAI,2018.)，而编码器输出的特征向量则能够很好地表征该动作序列。有文献在此基础上提出了弱化解码器的方法来迫使编码器学习到更优的特征(Kun Su,XiulongLiu,and Eli Shlizerman.Predict&cluster:Unsupervised skeleton based actionrecognition.CVPR,2020:9631–9640.)。

基于对比学习的自监督骨架行为识别不专注于骨架行为序列的每一个细节，而是关注实例级别的特征，能够通过对比损失构造出更有判别力的特征空间。一种常见的解决方案(Linguo Li,Minsi Wang,Bingbing Ni,Hang Wang,Jiancheng Yang,WenjunZhang.3D human action representation learning via cross-view consistencypursuit.CVPR:4741–4750.)是利用图像领域常见的自监督对比学习框架，并将其扩展到自监督骨架行为识别领域。

对比来看，虽然这些方法推动了自监督骨架行为识别领域的发展，但仍存在诸多限制。例如，基于重建的自监督方法专注于重建出序列，对于运动模式的变化就相对较为敏感；基于对比学习的方法则需要精心设计相关的策略来维护负样本，并且时空数据之间的交互不够充分。

发明内容

针对现有技术存在的问题，本发明的目的是提供一种基于时空信息聚合的对比自监督人体行为识别方法及系统。通过单个数据流的无负样本对比学习和多个数据流时空信息的有效聚合实现了高效的自监督骨架行为识别。本发明既不需要采用显式的负样本，又能够有效地聚合时空信息，进而实现更准确的行为识别。

本发明采用的技术方案如下：

一种基于时空信息聚合的对比自监督人体行为识别方法，包括以下步骤：

1)输入一段骨架动作序列；

2)对输入的一段骨架动作序列进行数据增强得到两段增强后的骨架动作序列；

3)利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量，并将第一编码器输出的特征向量连接预测器，得到预测器输出的特征向量，并计算损失函数；

4)对于增强后的两段骨架动作序列，分别计算出运动信息和骨骼信息；

5)对步骤4)计算出的运动信息和骨骼信息，同样作为输入进行步骤3)的处理(即对运动信息和骨骼信息进行数据增强，并经过第一编码器、第二编码器、预测器的处理)，并最终得到相应的特征向量；

6)将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算，得到相似度矩阵；

7)将步骤6)得到的三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票，得到相似度矩阵伪标签，并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签；

8)实际部署阶段，利用步骤1)-步骤7)训练好的第一编码器实现最终的行为识别。

进一步地，步骤1)中提及的骨架数据，可以是深度传感器得到的数据，也可以是由姿态估计算法得到的数据。

进一步地，步骤2)所述数据增强为剪切和时序裁剪，一个输入的骨架动作序列最终增强得到两个骨架动作序列。

进一步地，步骤3)采用的第一编码器为骨架行为识别时空图卷积网络ST-GCN，采用L2损失函数约束特征相似，进而构造特征空间。

进一步地，步骤3)采用的第二编码器为动量更新编码器，不同于第一编码器依靠损失函数反传的梯度进行更新，第二编码器利用自己本身的参数和第一编码器的参数进行更新。

进一步地，步骤4)对于增强后的两段骨架动作序列，通过相邻帧对应相减计算出运动信息，通过相邻关节点对应相减计算出骨骼信息。

进一步地，步骤7)使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐，并执行“与”操作来获得单个数据流中的相似度矩阵伪标签，其中Sharpen(·)操作是将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1，将其他元素设置为0。

进一步地，步骤8)利用训练完成的第一编码器连接一个分类器来实现最终的人体行为识别。

一种基于时空信息聚合的对比自监督人体行为识别系统，包括以下步骤：

关节点信息数据流处理模块，用于对输入的一段骨架动作序列进行数据增强，得到增强后的两段骨架动作序列；利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量，并将第一编码器输出的特征向量连接预测器，得到预测器输出的特征向量，并计算损失函数；

运动信息数据流处理模块，用于对于增强后的两段骨架动作序列，计算出运动信息，对计算出的运动信息进行数据增强，并经过第一编码器、第二编码器、预测器的处理，得到相应的特征向量；

骨骼信息数据流处理模块，用于对于增强后的两段骨架动作序列，计算出骨骼信息，对计算出的骨骼信息进行数据增强，并经过第一编码器、第二编码器、预测器的处理，得到相应的特征向量；

时空信息聚合模块，用于将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算，得到相似度矩阵；将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票，得到相似度矩阵伪标签，并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签；

人体行为识别模块，用于利用训练完成的第一编码器实现最终的人体行为识别。

本发明的有益效果如下：

本发明提出了一种新的自监督骨架行为识别框架，可以无需负样本实现自监督骨架行为识别。本发明提出了一种高效的时空信息聚合方式，将时空信息有效地聚合，进而得到更加可靠的特征。该发明可被引入智能监控系统、行为识别系统中，实现更加完备的智能监控技术。

附图说明

图1.基于单个数据流的自监督模型训练示意图。

图2.基于多个数据流的自监督模型训练示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

如图1为本发明的单个数据流模型，包括步骤1)-步骤3)这几个步骤，图2为本发明在单个数据流模型的基础上构建的模型，包括步骤4)-步骤7)。

步骤1)，输入骨架动作序列。

骨架动作序列即图2中的关节点信息。设输入的原始骨架动作序列为s，在实际训练过程中，输入的骨架动作序列数据往往为一批数据，以保证在训练优化过程中能更稳定地优化模型参数。

步骤2)，利用时间域和空间域的数据增强方式对步骤1)输入的骨架数据进行数据增强。

空间域的增强方式为剪切(Shear)，剪切增强是在空间维度上的一个线性变换。身体关节的三维坐标形状呈随机角度倾斜，变换矩阵的定义为：

其中，a₁₂、a₁₃、a₂₁、a₂₃、a₃₁、a₃₂是从均匀分布[-β,β]中随机抽样的剪切因子，β是剪切振幅。在本发明一个实施例中，设置β＝0.5，然后将骨架序列s在通道维度上乘以变换矩阵A。

时间域的增强方式为时序裁剪，具体来说，对称地将一些帧填充到序列s上，然后将其随机裁剪到原始长度。填充长度定义为T/γ，其中γ是填充比，在本发明中我们设置γ＝6。

这样，通过时间域和空间域的增强，一个输入的骨架动作序列s可以得到随机增强的两个骨架动作序列x和x′。

步骤3，设第一编码器为f_θ(·)，其参数为θ，第二编码器为f_ξ(·)，其参数为ξ。其中，第一编码器是骨干网络和多层感知机的组合，第二编码器也称为动量更新编码器，和第一编码器有着一样的结构，但参数更新方式不同，第一编码器通过损失函数梯度反向传播更新参数，第二编码器即动量更新编码器的参数更新如下：

ξ←τξ+(1-τ)θ

其中，τ表示目标衰减率且τ∈[0,1]。第二编码器之所以称为动量更新编码器，是因为不同于第一编码器依靠损失函数反传的梯度进行更新，第二编码器的参数利用自己本身的参数和第一编码器的参数进行更新。

对于增强后的两个骨架动作序列x和x′，将其分别送入第一编码器和第二编码器，进而编码成特征向量：

z_θ＝f_θ(x),z′_θ＝f_θ(x′),z_ξ＝f_ξ(x),z′_ξ＝f_ξ(x′)

进一步地，利用预测器q_θ(·)(多层感知机结构)得到特征向量q_θ(z_θ)、q_θ(z′_θ)，并计算损失函数：

其中，sg(z_ξ)、sg(z′_ξ)表示将z_ξ和z′_ξ停止梯度传播得到的特征向量。

步骤4)，对于增强后的两段骨架动作序列，通过相邻帧对应相减计算出运动信息，通过相邻关节点对应相减计算出骨骼信息。

步骤5)，将骨骼信息和运动信息同样作为步骤3)的输入，即图2中的单个数据流框架，得到相应的特征向量。具体包括：

将骨骼信息进行数据增强，得到两段增强后的骨骼信息序列，然后将两段增强后的骨骼信息序列经过第一编码器、第二编码器、预测器的处理，得到骨骼信息的特征向量；

将运动信息进行数据增强，得到两段增强后的运动信息序列，然后将两段增强后的运动信息序列经过第一编码器、第二编码器、预测器的处理，得到运动信息的特征向量。

步骤6)，将三种不同数据流得到的特征向量进行批量内的相似度计算。以一个数据流(骨架动作序列数据流)为例，以批量的形式将q_θ(z_θ),q_θ(z′_θ),sg(z_ξ),sg(z′_ξ)进行L2正则化，分别得到Q,Q′,K,K′，接着计算骨架动作序列数据流的余弦相似度(即相似度矩阵)：

S_joint＝QK′^T,S′_joint＝Q′K^T

相应地，骨骼信息数据流的相似度矩阵S_bone,S′_bone、运动信息数据流的相似度矩阵S_motion,S′_motion也可以用类似的方式得到。

步骤7)，本发明希望得到一个更尖锐的相似度矩阵来获得一个更有区别的特征空间。因此，使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐，并执行“与”操作来获得单个数据流(骨架动作序列数据流)中的相似度矩阵伪标签：

其中，Sharpen(·)操作是指将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1，将其他元素设置为0，以得到更尖锐的相似度矩阵。同样地，也可以分别得到

其中

为骨骼信息数据流的相似度矩阵伪标签，

为运动信息数据流的相似度矩阵伪标签。

在此基础上，本发明提出融合三个数据流的相似度矩阵，得到更理想的相似矩阵

其中vote(·)表示对结果进行集成，确定每个元素的值为1或0。具体来说，当有两个以上的数据流认为该元素应该是1时，它将是1，否则，它将是0。

本发明提出使用

作为监督信号来优化每个数据流的相似度矩阵，然后优化后的每个数据流的相似矩阵可以更好地生成

这样，就可以有效地聚合不同流之间的信息，从而获得更好的特征表示。因此，相似度差异最小化损失可以这样计算：

其中S_i∈{S_joint,S′_joint,S_motion,S′_motion,S_bone,S′_bone}。

采用的相似度差异最小化损失函数能够有效地提升单个数据流和集成结果的相似性，进而增益模型表现。

步骤8)，实际部署阶段，利用步骤1)-步骤7)训练好的第一编码器连接一个分类器即可实现最终的行为识别。

实验数据：在不同的数据集上，采用本发明方法得到的人体行为识别的准确率如表1所示。

表1

数据集	本发明的准确率
		NTU-60跨受试者协议	78.6％
NTU-60跨视角协议	84.5％
		NTU-120跨受试者协议	68.5％
NTU-120跨视角协议	71.1％

基于同一发明构思，本发明的另一实施例提供一种基于时空信息聚合的对比自监督人体行为识别系统，包括以下步骤：

其中各模块的具体实施过程参见前文对本发明方法的描述。

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于时空信息聚合的对比自监督人体行为识别方法，包括以下步骤：

对输入的一段骨架动作序列进行数据增强，得到增强后的两段骨架动作序列；

利用第一编码器和第二编码器分别将数据增强后的两段骨架动作序列编码成特征向量，并将第一编码器输出的特征向量连接预测器，得到预测器输出的特征向量，并计算损失函数；

对于增强后的两段骨架动作序列，分别计算出运动信息和骨骼信息；

对计算出的运动信息和骨骼信息进行数据增强，并经过第一编码器、第二编码器、预测器的处理，得到相应的特征向量；

将骨架动作序列、运动信息和骨骼信息三种不同数据流得到的特征向量进行批量内的相似度计算，得到相似度矩阵；

将三种不同数据流的相似度矩阵进行数据流内部的融合及数据流间的投票，得到相似度矩阵伪标签，并利用相似度差异最小化损失函数约束单个数据流的相似度矩阵以使其能够靠近所得到的相似度矩阵伪标签；

利用训练完成的第一编码器实现最终的人体行为识别。

2.如权利要求1所述的方法，其特征在于，所述数据增强为剪切和时序裁剪，一个输入的骨架动作序列最终增强得到两个骨架动作序列。

3.如权利要求1所述的方法，其特征在于，所述第一编码器为骨架行为识别时空图卷积网络ST-GCN，采用L2损失函数约束特征相似，进而构造特征空间。

4.如权利要求1所述的方法，其特征在于，所述第二编码器为动量更新编码器，不同于第一编码器依靠损失函数反传的梯度进行更新，第二编码器利用自己本身的参数和第一编码器的参数进行更新。

5.如权利要求1所述的方法，其特征在于，所述对于增强后的两段骨架动作序列，分别计算出运动信息和骨骼信息，包括：对于增强后的两段骨架动作序列，通过相邻帧对应相减计算出运动信息，通过相邻关节点对应相减计算出骨骼信息。

6.如权利要求1所述的方法，其特征在于，所述得到相似度矩阵伪标签，是使用Sharpen(·)操作使单个数据流中的相似度矩阵更尖锐，并执行“与”操作来获得单个数据流中的相似度矩阵伪标签，其中Sharpen(·)操作是将相似度矩阵中的对角线元素和每一行的最大的k个元素设置为1，将其他元素设置为0。

7.如权利要求1所述的方法，其特征在于，所述利用训练完成的第一编码器实现最终的人体行为识别，是利用训练完成的第一编码器连接一个分类器来实现最终的人体行为识别。

8.一种基于时空信息聚合的对比自监督人体行为识别系统，包括以下步骤：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。