CN114373224A

CN114373224A - 基于自监督学习的模糊3d骨架动作识别方法及装置

Info

Publication number: CN114373224A
Application number: CN202111622518.5A
Authority: CN
Inventors: 吴庆耀; 苏宇堃; 郝运
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-19
Anticipated expiration: 2041-12-28
Also published as: CN114373224B

Abstract

本发明公开了一种基于自监督学习的模糊3D骨架动作识别方法，方法包括：从视频流中的人体目标图像中提取3D骨架动作集；在不同视角下构造3D骨架动作集的正负对；设计共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；通过蒙特卡罗采样逼近概率问题，将特征表示映射到基于多维高斯分布的概率嵌入空间中，学习3D骨架的潜在特征表示；将学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。本方法通过在不同视角下构造三维骨架动作的正负对，研究三维骨架动作中的不确定性，在基于多维高斯分布的概率嵌入空间中学习骨架动作的潜在特征表示，减少遇到模糊三维骨架输入时的不确定性，提高了识别性能。

Description

基于自监督学习的模糊3D骨架动作识别方法及装置

技术领域

本发明属于骨架动作识别的技术领域，具体涉及一种基于自监督学习的模糊3D骨架动作识别方法及装置。

背景技术

近年来，人工智能及相关产业正迅速发展壮大，成为学术界、工业界以及世界各国政府关注的焦点。自监督学习已被证明在语言和视觉领域从未标记数据学习表示非常有效，然而在骨架动作行为识别领域，很少有工具性的自我监督方法用于三维骨骼动作理解，直接应用其他领域的现有自监督学习方法进行骨骼动作学习可能会受到表示不一致和一些限制。由于不同视角的3D骨架姿态固有的模糊性或对比学习中的采样算法，骨架动作存在一些不确定性，因此，在确定性嵌入空间中区分动作特征是不合适的。如何减轻遇到模糊3D骨架输入时的不确定性也是诸如社区安防，大型公共场所监控下应用亟待解决的关键问题。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于自监督学习的模糊3D骨架动作识别方法及装置，通过在不同视角下构造三维骨架动作的正负对，考虑输入的特征表示距离，并研究三维骨架动作中的不确定性，提出了基于多维高斯分布的概率嵌入空间中的动作表示模型，以减少在遇到模糊三维骨架输入时的不确定性。

为了达到上述目的，本发明采用以下技术方案：

本发明一方面提供了基于自监督学习的模糊3D骨架动作识别方法，包括下述步骤：

从视频流中的人体目标图像中提取3D骨架动作集；

在不同视角下构造3D骨架动作集的正负对；

构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；

在模型中，通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习3D骨架的潜在特征表示；

将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。

作为优选的技术方案，所述从视频流中的人体目标图像中提取3D骨架动作集，具体为：

对视频流中的人体目标图像进行部署变换后，每T帧中生成两个具有不同视点的相同骨架动作片段x_i，进行N次获得3D骨架动作集，表示为：

其中，x_i表示第i个骨架动作片段，N表示骨架动作片段的数目。

作为优选的技术方案，所述在不同视角下构造3D骨架动作集的正负对，具体为：

对于3D骨架动作集中的某一骨架动作片段x_i，以及其在不同视角下对应的骨架动作片段

将同一骨架片段下的不同视角对

视为正对，其余的不同骨架片段

视为负对。

作为优选的技术方案，所述使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示，具体为：

将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练，采用自我监督学习方式训练得到共享权重编码器f(·,θ)，首先对输入数据进行归一化，接着对空间和时间维度进行变换，最后使用平均池化，全连接层对特征进行分类，最终将所述编码器将骨架动作片段x_i建模为其对应的潜在特征表示z_i，代表骨架动作片段在潜在空间中运动的时空特征。

作为优选的技术方案，所述学习3D骨架的潜在特征表示具体为：

利用模型中概率嵌入空间的匹配概率m，将嵌入距离放宽为D(z_i,z_n)：＝p(m|z_i,z_n)＝σ(W||z_i-z_n||₂+b)，其中σ(·)表示Sigmoid函数，W、b为可学习参数，z_n表示经过编码器后的其他骨架动作片段。

将概率嵌入分布改写为z_i～p(z_i|x_i)，将输入匹配概率扩展到概率嵌入：

其中，p(·|·)表示条件概率；

使用蒙特卡罗抽样，从每个分布中抽取K个样本，来近似概率嵌入：

其中，K表示抽取样本数，k₁、k₂分别表示抽取的样本个例；

使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模，并使用重新参数化在训练期间实现反向传播，最终得到：

其中，

表示第k个骨架片段和不同于第k个骨架片段的其他骨架片段。

作为优选的技术方案，所述将任务指定为度量学习问题，使用对比损失和约束损失对进行训练，具体为：

将任务指定为度量学习问题；

构建对比损失函数：

其中，M表示负对数量，

表示

经过共享权重编码器后的潜在特征表示，D(·,·)表示欧式距离计算函数，τ表示缩放距离超参数；

在训练过程中，在KL散度嵌入中引入约束损失和拿书：

其中，μ(·)表示均值，υ(·)表示对角协方差，

表示预设单位高斯分布；

采用随机抖动增强算法避免学习低级特征；

通过联合优化对比损失和约束损失，得到概率嵌入模型的最终训练损失：

其中，λ₁、λ₂分别表示权重超参数，用于平衡优化。

本发明另一方面提供了基于自监督学习的模糊3D骨架动作识别系统，包括数据提取模块、正负对构造模块、特征表示模块、训练模块以及识别模块；

所述数据提取模块，用于从视频流中的人体目标图像中提取3D骨架动作集；

所述正负对构造模块，用于在不同视角下构造3D骨架动作集的正负对；

所述特征表示模块，用于构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；

所述训练模块，用于在模型中，通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习3D骨架的潜在特征表示；

所述识别模块，用于将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。

本发明又一方面提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序

指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于自监督学习的模糊3D骨架动作识别方法。

本发明再一方面提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于自监督学习的模糊3D骨架动作识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

1.本发明提出了一种基于自监督学习的模糊3D骨架动作识别方法，将自监督3D骨骼表示学习转化为数据驱动的度量学习，并设计在不同视角下构建正样本和负样本对，并设计一个好的表示学习编码器可以区分不同动作的潜在特征，这可以使相似的运动更接近，同时将不同的运动推开。

2.本发明通过在不同视角下构造三维骨架动作的正负对，考虑输入的特征表示距离，并研究三维骨架动作中的不确定性，提出了基于多维高斯分布的概率嵌入空间中的动作表示模型，以减少在遇到模糊三维骨架输入时的不确定性，

3.本发明提升模型在遇到模糊三维骨架时的识别性能和鲁棒性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例基于自监督学习的模糊3D骨架动作识别方法的流程图；

图2为本发明实施例中更为具体的3D骨架动作识别方法的流程图；

图3为本发明实施例概率表示嵌入模块示意图；

图4是本发明实施例基于自监督学习的模糊3D骨架动作识别系统的结构图；图5是本发实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

实施例

请参阅图1，在本申请的一个实施例中提供了一种基于自监督学习的模糊3D骨架动作识别方法，包括下述步骤：

S1、从视频流中的人体目标图像中提取3D骨架动作集；

S2、在不同视角下构造3D骨架动作集的正负对；

S3、构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；

S4、通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习3D骨架的潜在特征表示；

S5、将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。

更具体的，步骤S1中，如图2所示，骨架动作集提取步骤为：

更具体的，步骤S2具体为：

将同一骨架片段下的不同视角对

视为正对，其余的不同骨架片段

视为负对；

更具体的，步骤S4具体为：

将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练，采用自我监督学习方式训练得到共享权重编码器f(·,θ)，首先对输入数据进行归一化，接着对空间和时间维度进行变换，最后使用平均池化，全连接层对特征进行分类，最终将所述编码器将骨架动作片段x_i建模为其对应的潜在特征表示z_i，代表骨架动作片段在潜在空间中运动的时空特征；这样一个共享权重的编码器可以使映射到的空间更稳定，使网络更容易将正对和负对区分开来。

如图3所示，步骤S5具体为：

S51、利用概率嵌入空间的匹配概率m，将嵌入距离放宽为D(z_i,z_n)：＝p(m|z_i,z_n)＝σ(W||z_i-z_n||₂+b)，其中σ(·)表示Sigmoid函数，W、b为可学习参数，z_n表示经过编码器后的其他骨架动作片段。

S52、为了在模糊输入x_i出现的情况下表示对应的特征z_i，将分布改写为z_i～p(z_i|x_i)，将输入匹配概率扩展到概率嵌入：

其中，p(·|·)表示条件概率；

S53、使用蒙特卡罗抽样，从每个分布中抽取K个样本，来近似上述积分：

S54、在实践中，通过使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模，并使用重新参数化技巧来在训练期间实现轻松的反向传播，最终得到

其中，

更具体的，步骤S6具体为：

S61、将概率嵌入模型的任务指定为度量学习问题；

S62、构建概率嵌入模型的对比损失：

其中，M表示负对数量，

表示

S63、在模型训练过程中，为了防止方差归零并规范嵌入的平均幅度，在KL散度嵌入中引入约束损失：

其中，μ(·)表示均值，υ(·)表示对角协方差，

表示预设单位高斯分布；

S64、采用随机抖动增强来避免模型通过学习琐碎的解决方案或低级特征来“走捷径”；

S65、通过联合优化对比损失和约束损失，概率嵌入模型最终训练损失定义为

其中，λ₁、λ₂分别表示权重超参数，用于平衡优化模型。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的基于自监督学习的模糊3D骨架动作识别方法相同的思想，本发明还提供了基于自监督学习的模糊3D骨架动作识别系统，该系统可用于执行上述基于自监督学习的模糊3D骨架动作识别方法。为了便于说明，基于自监督学习的模糊3D骨架动作识别系统实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

请参阅图4，在本申请的另一个实施例中，提供了一种基于自监督学习的模糊3D骨架动作识别系统100，该系统至少包括数据提取模块101、正负对构造模块102、特征表示模块103、训练模块104以及识别模块105；

所述数据提取模块101，用于从视频流中的人体目标图像中提取3D骨架动作集；

所述正负对构造模块102，用于在不同视角下构造3D骨架动作集的正负对；

所述特征表示模块103，用于构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；

所述训练模块104，用于在模型中，通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习3D骨架的潜在特征表示；

所述识别模块105，用于将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。

需要说明的是，本发明的基于自监督学习的模糊3D骨架动作识别系统与本发明的基于自监督学习的模糊3D骨架动作识别方法一一对应，在上述基于自监督学习的模糊3D骨架动作识别方法的实施例阐述的技术特征及其有益效果均适用于基于自监督学习的模糊3D骨架动作识别系统的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述实施例的基于自监督学习的模糊3D骨架动作识别系统的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述基于自监督学习的模糊3D骨架动作识别系统的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

请参阅图5，在一个实施例中，提供了一种实现基于自监督学习的模糊3D骨架动作识别方法的电子设备，所述电子设备200可以包括第一处理器201、第一存储器202和总线，还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序，如基于自监督学习的模糊3D骨架动作识别程序203。

其中，所述第一存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据，例如基于自监督学习的模糊3D骨架动作识别程序203的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述第一存储器202内的程序或者模块，以及调用存储在所述第一存储器202内的数据，以执行电子设备200的各种功能和处理数据。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述电子设备200中的所述第一存储器202存储的基于自监督学习的模糊3D骨架动作识别程序203是多个指令的组合，在所述第一处理器201中运行时，可以实现：

从视频流中的人体目标图像中提取3D骨架动作集；

在不同视角下构造3D骨架动作集的正负对；

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。