CN114724183B

CN114724183B - 人体关键点检测方法、系统、电子设备及可读存储介质

Info

Publication number: CN114724183B
Application number: CN202210367666.5A
Authority: CN
Inventors: 司世景; 王健宗; 吴建汉
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2024-05-24
Anticipated expiration: 2042-04-08
Also published as: CN114724183A

Abstract

本发明公开了一种人体关键点检测方法、系统、电子设备及可读存储介质，所述方法包括以下步骤：获取待检测图像；其中，所述待检测图像包括人体图像；将所述待检测图像输入预训练好的二维人体关键点检测模型中，输出获得二维人体关键点检测结果。本发明利用对比学习和无标签数据获取了低分辨率图片高层语义特征提取器，能够减少人工标注的依赖；利用非对称的多层感知机设计及梯度停止策略，增加了训练过程的稳定性，减少了坍缩解的产生；能够提高低分辨率二维人体关键点检测的准确率。

Description

人体关键点检测方法、系统、电子设备及可读存储介质

技术领域

本发明属于计算机视觉技术领域，涉及人体姿态估计领域，特别涉及一种人体关键点检测方法、系统、电子设备及可读存储介质。

背景技术

人体关键点检测(Human Keypoints Detection)又称为人体姿态估计，其是计算机视觉中人体动作识别、行为分析、人机交互等的前置任务；其中，二维人体关键点检测问题定义为单人全身图像中人体关节关键点的二维定位问题，二维人体关键点检测问题的主要挑战在于：1)抓取人体关节点间存在的强连接关系；2)存在部分小关节点乃至几乎不可见的关节点；3)环境遮挡。

现有主流方法主要受到上述挑战1)的推动，即需要在大空间中寻找所有可能的铰接姿态；近年来，随着深度学习的发展，基于深度学习的二维人体关键点检测方法取得了重大进步。

然而，基于深度学习的二维关键点检测方法对于低分辨率图像(具体示例性的，分辨率小于等于72×300)的检测效果是有限的，原因在于低分辨率图像在反映连接关系及定位小关节点等任务上存在天然信息不足的劣势，故亟需一种适用于低分辨率图像的人体关键点检测方法。

发明内容

本发明的目的在于提供一种人体关键点检测方法、系统、电子设备及可读存储介质，以解决上述存在的一个或多个技术问题。本发明中，基于对比学习提供了一种低分辨率二维人体关键点检测方法，该方法应用对比学习深层次地提取低分辨率图像的高层语义信息，能够实现适应低分辨率图像的人体关键点检测。

为达到上述目的，本发明采用以下技术方案：

本发明第一方面提供的一种人体关键点检测方法，包括以下步骤：

获取待检测图像；其中，所述待检测图像包括人体图像；

将所述待检测图像输入预训练好的二维人体关键点检测模型中，输出获得二维人体关键点检测结果；

其中，所述预训练好的二维人体关键点检测模型的获取步骤包括：

将预获取的无标签训练数据集中的每张原始图像，以降低分辨率作为数据增强的方式进行处理，获得每张原始图像对应的降低分辨率数据增强图片；

将每张原始图像及其对应的降低分辨率数据增强图片成对输入孪生网络，通过优化损失函数，反向梯度传播迭代更新编码器参数，获取低分辨率图像高层语义特征提取器；

保留所述低分辨率图像高层语义特征提取器中的编码器网络，结合L_norm-2损失函数将关键点检测作为一个回归问题，通过预获取的有标签的训练集对所述编码器网络进行调整，获得预训练好的二维人体关键点检测模型。

本发明方法的进一步改进在于，所述通过优化损失函数，反向梯度传播迭代更新编码器参数，获取低分辨率图像高层语义特征提取器中，

所述损失函数的表达式为，

式中，Z₁和Z₂是两种数据增广后样本经过编码器得到的特征，p₁和p₂分别是Z₁和Z₂经过投影器得到的高层特征；D(.,.)是向量之间的余弦相似度。

本发明方法的进一步改进在于，所述L_norm-2损失函数为，

式中，是真实值，/>是回归值，/>是网络的编码映射函数，v是单人全身图像，θ是网络参数，n是样本数，下标l指代是有标签数据，上标i指代第i个图片。

本发明方法的进一步改进在于，所述孪生网络为共享参数的孪生CNN网络。

本发明方法的进一步改进在于，所述以降低分辨率作为数据增强的方式进行处理的过程中，采用双线性插值算法进行处理。

本发明第二方面提供的一种人体关键点检测系统，包括：

获取模块，用于获取待检测图像；其中，所述待检测图像包括人体图像；

检测模块，用于将所述待检测图像输入预训练好的二维人体关键点检测模型中，输出获得二维人体关键点检测结果；

本发明系统的进一步改进在于，所述通过优化损失函数，反向梯度传播迭代更新编码器参数，获取低分辨率图像高层语义特征提取器中，

所述损失函数的表达式为，

本发明系统的进一步改进在于，所述L_norm-2损失函数为，

本发明第三方面提供的一种电子设备，包括：处理器；存储器，用于存储计算机程序指令；所述计算机程序指令由所述处理器加载并运行时，所述处理器执行本发明任一项上述的人体关键点检测方法。

本发明第四方面提供的一种可读存储介质，所述可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器加载并运行时，所述处理器执行本发明任一项上述的人体关键点检测方法。

与现有技术相比，本发明具有以下有益效果：

本发明的方法是一种应用对比学习的低分辨率二维人体关键点检测方法，其通过对大量无标签行人数据进行降低分辨率数据增强，利用对比学习和无标签数据获取了低分辨率图片高层语义特征提取器，能够减少人工标注的依赖，是一种弱监督训练过程；另外，利用非对称的多层感知机设计及梯度停止策略，增加了训练过程的稳定性，减少了坍缩解的产生；再有，将低分辨率图片高层语义特征提取器结合部分标签数据进行低分辨率二维人体关键点检测微调，能够提高低分辨率二维人体关键点检测的准确率，是一种高效、稳定的低分辨率二维人体关键点检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1的一种人体关键点检测方法的流程示意图；

图2是现有技术中，孪生网络的网络结构示意图；

图3是本发明实施例2中，基于对比学习的孪生网络的网络结构示意图；

图4是本发明实施例3的一种人体关键点检测方法的流程示意图；

图5是本发明实施例4的一种人体关键点检测系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

实施例1

请参阅图1，本发明实施例的一种人体关键点检测方法，具体是一种基于对比学习的低分辨率二维人体关键点检测方法，包括以下步骤：

获取待检测图像；其中，所述待检测图像包括人体图像；

将预获取的无标签训练数据集中的每张原始图像，以降低分辨率作为数据增强方式进行处理，获得对应的处理后的降低分辨率数据增强图片；

将预获取的无标签训练数据集中的每张原始图像及其对应的降低分辨率数据增强图片成对输入孪生网络，通过优化损失函数，反向梯度传播，迭代更新编码器参数获取低分辨率图像高层语义特征提取器；

其中，损失函数的表达式为

式中，z₁和z₂是两种数据增广后样本经过编码器得到的特征，p₁和p₂分别是z₁和z₂经过投影器得到的高层特征；D(.,.)是向量之间的余弦相似度，具体计算公式在下文。保留低分辨率图像高层语义特征提取器中的编码器网络，结合L_norm-2损失函数将关键点检测作为一个回归问题，通过预获取的有标签的训练集对所述编码器网络进行调整，获得预训练好的二维人体关键点检测模型。具体示例性解释的，本发明实施例提供的方法对主流的网络结构均适用，比如ResNet，Vision Transformer等。

其中，L_norm-2损失函数为

式中，是真实值，/>是回归值，/>是网络的编码映射函数，v是单人全身图像，θ是网络参数，n是样本数。下标l指代是有标签数据，上标i指代第i个图片。

本发明实施例1具体提出了一种应用对比学习的低分辨率二维人体关键点检测，利用对比学习得到提取不受低分辨率干扰的反映图像本质的高层语义表征的特征提取器；利用该特征提取器经过二维人体关键点检测微调，能够适应低分辨率图像的人体关键点检测。也即，应用对比学习深层次地提取低分辨率图像的高层语义信息，实现适应低分辨率图像的人体关键点检测。

实施例2

本发明实施例可基于实施例1公开的技术方案，所述孪生网络选用共享参数的孪生CNN网络。另外示例性可选的，以降低分辨率作为数据增强方式进行处理时，采用双线性插值算法。

本发明实施例中，针对低分辨率人体关键点检测，将对比学习的数据增强方式设为降低分辨率，适应低分辨率人体关键点检测的实际应用场景，从而获得能够提取低分辨率图片高层语义特征的特征提取器；利用该低分辨率图片高层语义特征提取器，针对具体低分辨率人体关键点检测任务进行微调，使得二维人体关键点检测既能提取低分辨率图片高层语义特征，同时仅需要在微调过程中利用标签数据，是一种弱监督训练过程。

请参阅图2，具体解释性的，孪生网络(Siamese networks)已成为近年来各种无监督视觉表示学习模型中的一种常见结构，孪生网络这种网络结构最大限度地提高了同一图像的两个数据增强图像之间的相似性，但要满足一定的条件，以避免网络出现坍缩解，其网络结构示例性的如图2所示。

本发明实施例可基于实施例1公开的技术方案，其中利用loss函数约束神经网络学习两个输入图像之间的共同信息。当输入分别为一个图像的两个数据增强图像时，可作为无监督学习方法，提取图像信息中不受数据增强干扰的鲁棒表征。

请参阅图3，对比学习在孪生网络的结构基础上进行了改进，利用对比学习可以学习到高层次表征而不需要满足以下条件：1、负例对；2、大批处理尺寸；3、momentum编码器；其基本结构如图3所示。通过实验证明了多层感知机的加入以及梯度停止的非对称设计可以减少网络的坍缩解的产生。

其中，对比学习的基本学习过程如下：

图像x的数据增强图像x₁(数据增强办法如噪声、模糊、旋转、切割)被共享网络参数的编码器网络处理后分别获得x、x₁的编码输出向量记为f(x)、f(x₁)，一个多层感知机模型单方面作用于f(x)记为h(f(x))，标记两个数据增强图像的编码输出向量为和定义它们间的负余弦相似度为D(p₁,z₂)为：

利用不对称结构增大输出向量的差异性，避免输出向量高度近似出现坍缩解，为了在不对称结构中训练而不受数据分布影响获取稳定的结果，定义对称的loss函数为：

此外，在该结构中加入了梯度停止算子，使得该式转换为：

本发明实施例公开的这种网络设计使得对比学习能够在数据增强的影响下提取图像具有抗干扰的鲁棒高层次特征，且其中的非对称结构设计及梯度停止算子，为网络训练过程中参数趋同产生坍缩解做了优化，增强了对比学习的稳定性及适用性。

实施例3

请参阅图4，本发明实施例结合一个利用CNN作为编码器网络的应用对比学习的低分辨率二维人体关键点检测实例进一步阐释本系统的实施方式；其中，无标签单人全身图像数据集X＝{x¹,x²,x³,...,x^N}(如LSP,FLIC.MPII单人全身图像数据集)，有标签行人图像数据集(如MSCOCO数据集)。

A、模型预训练阶段：利用简单CNN模型在数据集X上进行对比学习预训练。在这个过程中选择降低分辨率作为数据增强方式，得到原始图片降低分辨率的图像。将原始图像和低分辨率图像输入共享参数的孪生CNN网络，分别获取输出向量，输出向量的其中之一经过多层感知机输出后，与另一未经多层感知机输出向量间进行负余弦相似度loss运算：其中D为负余弦相似度计算公式。

利用该loss函数反向传播训练网络能够最大化降低分辨率数据增强后图像相似度，提取出不受低分辨率影响的反映图像本身信息的低分辨率图像高层语义特征。

本发明实施例示例性的，本发明实施例中训练步骤具体包括：

步骤一：无标签单人全身图像数据采集(如LSP,FLIC.MPII单人全身图像数据集)，在监控图像中按照一定的周期截取视频单帧得到原始数据，利用目标检测算法提取原始数据的单人全身图像。

步骤二：数据处理，对上述无标签单人全身图像数据集X分别进行降低分辨率数据增强操作。

具体可采用双线性插值算法：双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。

其原理是待插点像素值取原图像中与其相邻的4个点像素值的水平、垂直两个方向上的线性内插，即根据待采样点与周围4个邻点的距离确定相应的权重，从而计算出待采样点的像素值。其计算公式为：

其中，f(x,y)为插值后像素点(x,y)所赋像素值，Q₁₁(x₁,y₁)，Q₁₂(x₁,y₂)，Q₂₁(x₂,y₁)，Q₂₂(x₂,y₂)分别为其相邻四个像素点，其对应像素值分别以f()算子表示。

其算法流程如下：

1、读取原图数据，获取原图宽高a×b，设定内插数n；

2、根据原图宽高生成目标图像宽高，由于双线性内插必须在原图a和b方向内部都有值得地方进行，原图a方向边缘像素和b方向最边缘像素无法进行内插，目标图像宽和高是(a-1)*n，(b-1)*n；

3、采用双线性内插对目标图像像素进行赋值，目标图像任意像素(x,y)，是原图中四个像素值进行双线性内插计算结果。

步骤三：对比学习预训练，分别将X中原始数据与对应降低分辨率数据增强图片成对输入网络，通过优化损失函数反向梯度传播，不断更新编码器参数获取低分辨率图像高层语义特征提取器。

B、模型微调阶段：

保留高层语义特征提取器中的编码器网络，结合L₂-norm损失函数将关键点检测作为一个回归问题，针对有标签数据集(如MSCOCO数据集)进行微调，使低分辨率图像高层语义特征提取器融合入低分辨率人体关键点检测中。

L₂-norm损失函数:

其中是真实值，/>是回归值，/>是网络的编码映射函数，v是单人全身图像，θ是网络参数，n是样本数。指导低分辨率图像高层语义特征的回归训练。

利用微调后的低分辨率图像高层语义特征提取器，建立低分辨率人体关键点检测系统。

综上，本发明实施例公开方法是一种弱监督的学习方法，可以减少对人工标注的依赖，其通过对大量无标签行人数据进行降低分辨率数据增强，在对比学习的训练过程中获取了低分辨率图像高层语义特征提取器，由于孪生网络共享参数，该方法的参数量比较其他方法同级别，而提取特征更具有代表意义。本发明实施例的方法利用非对称的多层感知机设计及梯度停止策略，增加了训练过程的稳定性，减少了坍缩解的产生，是一种高效稳定的低分辨率人体关键点检测系统。示例性的，可以在低分辨率(像素低于100×100)的人体图片上提高5％的准确率。

实施例4

本发明实施例为本发明的装置实施例，可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节，请参照本发明方法实施例。

本发明实施例的一种人体关键点检测系统，包括：

实施例5

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于人体关键点检测方法的操作。

实施例6

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关人体关键点检测方法的相应步骤。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种人体关键点检测方法，其特征在于，包括以下步骤：

获取待检测图像；其中，所述待检测图像包括人体图像；

保留所述低分辨率图像高层语义特征提取器中的编码器网络，结合L_norm-2损失函数将关键点检测作为一个回归问题，通过预获取的有标签的训练集对所述编码器网络进行调整，获得预训练好的二维人体关键点检测模型；

所述通过优化损失函数，反向梯度传播迭代更新编码器参数，获取低分辨率图像高层语义特征提取器中，

所述损失函数的表达式为，

式中，Z₁和Z₂是两种数据增广后样本经过编码器得到的特征，p₁和p₂分别是Z₁和Z₂经过投影器得到的高层特征；D(.,.)是向量之间的余弦相似度；

所述L_norm-2损失函数为，

2.根据权利要求1所述的一种人体关键点检测方法，其特征在于，所述孪生网络为共享参数的孪生CNN网络。

3.根据权利要求1所述的一种人体关键点检测方法，其特征在于，所述以降低分辨率作为数据增强的方式进行处理的过程中，采用双线性插值算法进行处理。

4.一种人体关键点检测系统，其特征在于，包括：

所述损失函数的表达式为，

所述L_norm-2损失函数为，

5.一种电子设备，包括：处理器；存储器，用于存储计算机程序指令；其特征在于，

所述计算机程序指令由所述处理器加载并运行时，所述处理器执行权利要求1至3中任一项所述的人体关键点检测方法。

6.一种可读存储介质，所述可读存储介质存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器加载并运行时，所述处理器执行权利要求1至3中任一项所述的人体关键点检测方法。