CN113743177A

CN113743177A - 关键点检测方法、系统、智能终端和存储介质

Info

Publication number: CN113743177A
Application number: CN202110175751.7A
Authority: CN
Inventors: 张夏杰; 蔚栋; 史培元; 安山
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-12-03
Also published as: WO2022170896A1; WO2022170896A9

Abstract

本公开提出一种关键点检测方法、系统、智能终端和存储介质，涉及图像检测技术领域。本公开的一种关键点检测方法，包括：在待处理图像中检测目标的图像，获取目标的初检测框；根据当前图像帧中的初检测框和历史图像帧的初检测框，通过图像稳定获取稳定检测框；根据稳定检测框在待处理图像中提取目标区域图像；根据目标区域图像，通过深度学习网络获取热力图，其中，热力图的通道数量与目标关键点的数量相匹配；通过对热力图的峰值点获取确定目标关键点的位置信息。通过这样的方法，能够基于准确的检测框提取过程，在截取后的图像的基础上进行关键点检测，提高了检测效率和准确度。

Description

关键点检测方法、系统、智能终端和存储介质

技术领域

本公开涉及图像检测技术领域，特别是一种关键点检测方法、系统、智能终端和存储介质。

背景技术

关键点定位是指从输入数据中定位出目标位置，具体到手部关键点定位中，是指从输入数据中定位出手部每个关节点的位置，关节点的数量为21个。

输入数据因传感器的不同，形式多种多样。以单目RGB数据输入为例，如手机的前置相机拍摄的图像，由于单目RGB数据的采集应用十分广泛，从单目RGB图像中获取稳定、准确的人手关键点位置，能够应用于各类设备中，提升操作效率。

目前手部姿态估计等方法主要分两种思路：一，top-down(自上而下)，即先检测个体，再定位个体中的关键点位置；二，bottom-up(自下而上)，即先检测关键点，再将关键点聚类形成每一个个体。

top-down的方法有利于检测出个体，但会随着目标对象的增多，而重复运行关键点定位模型，整体耗时几何增长；bottom-up的方法从整图中检测局部关键点，端到端完成定位任务，因此在速度上有明显的优势，但对于人手这样的小目标、高自由度、局部特征高度相似的任务是很困难的。

发明内容

本公开的一个目的在于提出一种保证关键点检测的准确度的同时提高检测效率的方案。

根据本公开的一些实施例的一个方面，提出一种关键点检测方法，包括：在待处理图像中检测目标的图像，获取目标的初检测框；根据当前图像帧中的初检测框和历史图像帧的初检测框，通过图像稳定获取稳定检测框；根据稳定检测框在待处理图像中提取目标区域图像；根据目标区域图像，通过深度学习网络获取热力图，其中，热力图的通道数量与目标关键点的数量相匹配；通过对热力图的峰值点获取确定目标关键点的位置信息。

在一些实施例中，关键点检测方法还包括：根据目标关键点的位置信息，将目标关键点渲染在待处理图像中，获取关键点检测图像。

在一些实施例中，根据当前图像帧中的目标初检测框和历史图像帧中的目标初检测框，通过图像稳定获取手部稳定检测框包括：根据当前图像帧的初检测框，和从当前图像帧之前的第一帧到第预定数量帧的历史图像帧中的初检测框，通过加权平均获取稳定检测框；其中，当前图像帧对应的初检测框的权重最大，且距离当前图像帧的时间长度越短，历史图像帧中的初检测框的权重越大。

在一些实施例中，根据稳定检测框在待处理图像中提取目标区域图像包括：将稳定检测框进行预定比例的放大；截取放大后的稳定检测框内的图像作为目标区域图像。

在一些实施例中，根据目标区域图像，通过深度学习网络获取热力图包括：将目标区域图像处理为第一分辨率；将第一分辨率状态的目标区域图像输入深度学习算法的编码模块，获取高层特征；将编码模块的输出信息输入深度学习算法的解码模块以提升特征图的分辨率，获取第二分辨率状态的热力图，其中，第二分辨率小于第一分辨率。

在一些实施例中，将第一分辨率状态的目标区域图像输入深度学习算法的编码模块，获取高层特征包括：提取第一分辨率状态的目标区域图像的低层特征；基于低层特征进行特征融合；对融合后的特征执行连续下采样，获取高层特征。

在一些实施例中，将编码模块的输出信息输入解码模块以提升特征图的分辨率，获取第二分辨率状态的热力图包括：通过三层转置卷积操作将编码模块输出的特征图的分辨率提升至第二分辨率。

在一些实施例中，通过对热力图的峰值点提取获取目标关键点的位置信息包括：针对热力图的每个通道的图像，分别提取峰值点，确定对应的目标关键点；获取确定的目标关键点的位置信息。

在一些实施例中，关键点检测方法符合以下至少一项：第一分辨率为256*256；第二分辨率为64*64；或特征图的分辨率为8*8。

在一些实施例中，目标图像为人体的手部图像，目标关键点为手部的关键点。

通过这样的方法，能够采用自上而下的方式进行关键点检测，在待处理图像的基础上生成热力图，通过对热力图的处理定位关键点，保留较多的空间位置信息，从而提高了关键点定位的准确度；同时，基于准确的检测框提取过程，在截取后的图像的基础上进行关键点检测，提高了检测效率和准确度。

根据本公开的一些实施例的一个方面，提出一种关键点检测系统，包括：目标检测单元，被配置为在待处理图像中检测目标的图像，获取初检测框；框稳定单元，被配置为根据当前图像帧中的初检测框和历史图像帧中的初检测框，通过图像稳定获取稳定检测框；目标区域提取单元，被配置为根据稳定检测框在待处理图像中提取目标区域图像；热力图获取单元，被配置为根据目标区域图像，通过深度学习网络获取热力图，其中，热力图的通道数量与目标关键点的数量相匹配；关键点提取单元，被配置为通过对热力图的峰值点获取目标关键点的位置信息。

在一些实施例中，关键点检测系统还包括：渲染单元，被配置为根据目标关键点的位置信息，将目标关键点在待处理图像中，获取关键点检测图像。

根据本公开的一些实施例的一个方面，提出一种关键点检测系统，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行上文中任意一种关键点检测方法。

这样的关键点检测系统能够采用自上而下的方式进行关键点检测，在待处理图像的基础上生成热力图，通过对热力图的处理定位关键点，保留较多的空间位置信息，从而提高了关键点定位的准确度；同时，基于准确的检测框提取过程，在截取后的图像的基础上进行关键点检测，提高了检测效率和准确度。

根据本公开的一些实施例的一个方面，提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上文中任意一种关键点检测方法的步骤。

通过执行这样的存储介质上的指令，能够在待处理图像的基础上生成热力图，通过对热力图的处理定位关键点，由于保留较多的空间位置信息，从而提高了关键点定位的准确度。

根据本公开的一些实施例的一个方面，提出一种智能终端，包括：图像采集设备，被配置为采集图像；和上文中任意一种关键点检测系统。

这样的智能终端能够在采集的待处理图像的基础上，采用自上而下的方式进行关键点检测，在待处理图像的基础上生成热力图，通过对热力图的处理定位关键点，保留较多的空间位置信息，从而提高了关键点定位的准确度；同时，基于准确的检测框提取过程，在截取后的图像的基础上进行关键点检测，提高了检测效率和准确度。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本公开的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1A为本公开的关键点检测方法的一些实施例的流程图。

图1B为本公开的关键点检测方法的一些实施例的示意图。

图2为本公开的关键点检测方法的另一些实施例的流程图。

图3为本公开的关键点检测方法中获取热力图的一些实施例的示意图。

图4为本公开的关键点检测系统的一些实施例的示意图。

图5为本公开的关键点检测系统的另一些实施例的示意图。

图6为本公开的关键点检测系统的又一些实施例的示意图。

图7为本公开的智能终端的一些实施例的示意图。

具体实施方式

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

本公开的关键点检测方法的一些实施例的流程图如图1A所示。

在步骤101中，在待处理图像中检测目标的图像，获取目标的初检测框。在一些实施例中，可以采用相关技术中的目标检测算法提取目标；或可以基于相关技术中的目标检测模型，通过对与目标相同种类的物体图像提取训练，实现对目标的提取。

在一些实施例中，可以使用mobilenet-ssd模型。该模型以轻量级卷积神经网络mobilenetv2作为骨干backbone，之后采用SSD模型架构的检测头head。SSD检测架构是单阶段、端到端的方法，相比两阶段的方法，在速度上有优势；并且SSD利用了6个不同分辨率的特征图信息，有利于不同大小的目标检测，从而有利于提高检测类似于手部这样的距离摄像头位置会经常发生变化、动作形态也会发生变化(如握拳、舒展动作下图像会发生变化)的物体，能够提高检测准确度。

在步骤102中，根据当前图像帧中的初检测框和历史图像帧的初检测框，通过图像稳定获取稳定检测框。由于采用自上而下的方式进行关键点定位，引入了检测框抖动的问题，基于检测到的多帧图像中的初检测框得到稳定检测框能够减少抖动引起的定位误差，进一步提高准确度。

在步骤103中，根据稳定检测框在待处理图像中提取目标区域图像。在一些实施例中，可以将稳定检测框区域内的图像截取下来作为目标区域图像。

由于非刚体框的形状、尺寸会随动作变化，比如手掌与拳头的检测框在尺寸上变化很大，手掌在旋转过程中检测框的宽高比波动大，在一些实施例中，可以对检测框做预定比例的放大，如1.5倍的外扩，使得目标的图像能始终保持在图像的中心区域，提高检测的鲁棒性。

在步骤104中，根据目标区域图像，通过深度学习网络获取热力图，其中，热力图的通道数量与目标关键点的数量相匹配。在一些实施例中，heatmap(热力图)的形式代替regress(回归)的形式，保留了更多的空间位置信息，有利于保证对高自由度目标的关键点的准确定位的能力。

在步骤105中，通过对热力图的峰值点获取确定目标关键点的位置信息。在一些实施例中，例如对于21通道的手部图像的热力图，通过逐通道提取峰值点可得到21个手部关键点的位置信息。

在一些实施例中，关键点检测方法还包括步骤106，根据目标关键点的位置信息，将目标关键点渲染在待处理图像中，获取关键点检测图像。在一些实施例中，还可以将稳定检测框渲染在待处理图像中，使得关键点检测图像中包括目标关键点和稳定检测框。在一些实施中，目标关键点和稳定检测框可以采用不同颜色、形状的标识呈现，以提高两者的分辨度。

通过这样的方法，无论在测试过程中还是使用过程中，均能够提高目标关键点呈现的直观度，方便测试人员和用户识别。

本公开的关键点检测方法的一些实施例的示意图如图1B所示。将原图(RGB图像)经过检测预处理送入手部检测网络，得到手部的初检测框，将当前的初检测框与历史检测框送入框稳定模块，得到稳定检测框，并从原图中扣出ROI(Region of Interest，感兴趣区域)，经过定位预处理送入关键点定位网络，得到手部的heatmap图，从中提取21个手部关键点的2D信息，最终将关键点、检测框信息并渲染到原图上。

通过这样的方法，通过自上而下的手部关键点检测方式和采用热力图法定位关键点，提高了关键点定位的准确度；基于准确的检测框提取过程，在截取后的图像的基础上进行手部关键点检测，提高了检测效率和准确度。

本公开的关键点检测方法的另一些实施例的流程图如图2所示。

在步骤201中，在待处理图像中检测目标的图像，获取目标的初检测框。

在步骤202中，根据当前图像帧的初检测框，和从当前图像帧之前的第一帧到第预定数量帧的历史图像帧中的初检测框，通过加权平均获取稳定检测框；其中，当前图像帧对应的初检测框的权重最大，且距离当前图像帧的时间长度越短，历史图像帧中的初检测框的权重越大。

在一些实施例中，采用指数加权平均的方式稳定检测框，对于时间上由近到远的检测框，按照指数递减的权重进行加权平均。这样的方式能够利用并体现视频流中当前的框与过去的框相关性，并且时间上越近的相关性越高、权重越大，时间上越远的框相关性越低、权重越小。

在一些实施例中，检测框稳定公式可以为：

上式中，k指当前帧之前的帧索引，比如0指当前帧，1指当前帧的前一帧；n指共对多少帧图像中的初检测框进行计算(例如，可以设置为6)；P_k为当前帧之前第k帧的检测框坐标；

是指数衰减系数，e为常数；P_cur为经过稳定后的检测框位置，即稳定检测框的位置。

在步骤203中，将稳定检测框进行预定比例(如1.5倍)的放大，截取放大后的稳定检测框内的图像作为目标区域图像。

在步骤204中，将目标区域图像处理为第一分辨率。在一些实施例中，可以采用采样的方式，将抠图得到的目标区域图像处理至第一分辨率。在一些实施例中，考虑到分辨率过高会增加运算压力，分辨率低会降低准确度，可以选择256*256的分辨率作为第一分辨率。

在一些实施例中，在步骤205、206中，基于深度学习网络生成热力图。

在步骤205中，将第一分辨率状态的目标区域图像输入深度学习算法的编码模块Encoder，获取高层特征。

在一些实施例中，Encoder可采用多个1x1维度的卷积、残差连接、深度可分离卷积，使网络保持小参数量的同时具备较深的层，以学到更高层的信息。Encoder可以如图3的A部分所示，具备第一子模块(标识为Low部分)、第二子模块(标识为Middle部分)和第三子模块(标识为High部分)。Low部分提取底层特征；Middle部分进行特征融合以提升参数的利用率；High部分通过连续的下采样，得到更多的高层信息。图中输入Encoder的图像为RGB图像。

在一些实施例中，图3的B部分展示了A中的Encoder中用于降低分辨率的卷积模块，该模块由连续的残差块和融合卷积、池化的下采样模块组成。在一些实施例中，在Low、Middle部分，可以配置残差块重复2次；在High部分，可以配置残差块重复4次)；图3的C部分展示了A中的Middle部分实现上采样的卷积模块，该模块由残差块、卷积和图像resize(改变尺寸)操作组成。

在步骤206中，将编码模块的输出信息输入深度学习算法的解码模块Decoder以提升特征图的分辨率，获取第二分辨率状态的热力图，其中，第二分辨率小于第一分辨率。

在一些实施例中，Encoder部分的输出分辨率可以为8*8，通过Decoder部分将分辨率提升至64*64，以保留更多的位置相关信息。在一些实施例中，将heatmaps作为GT(GroundTruth，标注正确的数据)来预测关键点时，无需采用跳层连接、多分辨率融合等手段，仅使用3层转置卷积进行上采样，以恢复特征图的分辨率，降低了运算量，提高了处理效率。在一些实施例中，可以输出64*64*21的热力图，其中21为通道数量。

在步骤207中，针对热力图的每个通道的图像，分别提取峰值点，确定对应的目标关键点，获取确定的目标关键点的位置信息。

通过这样的方法，能够通过目标图像的提取、尺寸的改变降低运算量，同时提高关键点定位的准确度，达到准确度和效率双重优化的效果，有利于应用的场景和应用设备的扩展，有利于推广应用。

在一些实施例中，在实际使用之前，需要先对关键点检测系统进行训练，使执行目标的图像检测、heatmap生成的神经网络的均达到准确度需求。

在一些实施例中，可以基于通用的视频网站准备数据集，包括训练集和测试集。例如，训练集由YouTube2D和GANeratedHand构成，其中YouTube2D做了10倍的数据增强，包括尺寸缩放、随机抠图，达到471250张；GANeratedHand中使用了无object的数据，共141449张；训练集数据共计612699张，其中真实数据：生成数据保持10:3的比例。测试集只有YouTube2D构成，共1525张。

进一步的，配置训练参数。例如，设置批大小batch＝64，那么每个epoch(训练集中的全部样本训练一次)内迭代9574次；使用亚当Adam优化器训练，初始学习率为0.001，前3个epoch保持，之后每个epoch指数下降；最大epoch(即全部训练集中样本被训练的轮数)＝50。

最后，选择软件框架、硬件。使用TensorFlow2.0框架，在Tesla P40 GPU上4卡同时训练。

本公开的关键点检测系统的一些实施例的示意图如图4所示。

目标检测单元401能够在待处理图像中检测目标的图像，获取目标的初检测框。在一些实施例中，可以采用相关技术中的目标检测算法提取目标；或可以基于相关技术中的目标检测模型通过对与目标相同种类的物体图像提取训练，实现对目标的提取。

框稳定单元402能够根据当前图像帧中的初检测框和历史图像帧的初检测框，通过图像稳定获取稳定检测框。由于采用自上而下的方式进行关键点定位，会引入输入框抖动问题，基于检测到的多帧图像中的初检测框得到稳定检测框能够减少抖动引起的定位误差，进一步提高准确度。

目标区域提取单元403能够根据稳定检测框在待处理图像中提取目标区域图像。在一些实施例中，可以将稳定检测框区域内的图像截取下来作为目标区域图像。在一些实施例中，可以对检测框做预定比例的放大，如1.5的外扩，使得目标的图像能始终保持在图像的中心区域，提高检测的鲁棒性。

热力图获取单元404能够根据目标区域图像，通过深度学习网络获取热力图，其中，热力图的通道数量与目标关键点的数量相匹配。在一些实施例中，heatmap的形式代替regress的形式，保留了更多的空间位置信息，有利于保证对高自由度目标的关键点的准确定位的能力。

关键点提取单元405能够通过对热力图的峰值点获取确定目标关键点的位置信息。在一些实施例中，例如对于21通道的手部图像的热力图，通过逐通道提取峰值点可得到21个手部关键点的位置信息。

在一些实施例中，如图4所示，关键点检测系统还可以包括渲染单元406根据目标关键点的位置信息，将目标关键点渲染在待处理图像中，获取关键点检测图像。在一些实施例中，还可以将稳定检测框渲染在待处理图像中，使得关键点检测图像中包括目标关键点和稳定检测框。在一些实施中，目标关键点和稳定检测框可以采用不同颜色、形状的标识呈现，以提高两者的分辨度。

这样的关键点检测系统无论在测试过程中还是使用过程中，均能够提高目标关键点呈现的直观度，方便测试人员和用户识别。

在一些实施例中，热力图获取单元404的具体构成可以如图3中所示，基于上文中步骤204、205中的操作，降低运算量的同时提高关键点定位的准确度，达到准确度和效率双重优化的效果。

本公开关键点检测系统的一个实施例的结构示意图如图5所示。关键点检测系统包括存储器501和处理器502。其中：存储器501可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中关键点检测方法的对应实施例中的指令。处理器502耦接至存储器501，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器502用于执行存储器中存储的指令，能够提高关键点检测的效率和准确度。

在一个实施例中，还可以如图6所示，关键点检测系统600包括存储器601和处理器602。处理器602通过BUS总线603耦合至存储器601。该关键点检测系统600还可以通过存储接口604连接至外部存储装置605以便调用外部数据，还可以通过网络接口606连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，能够提高关键点检测的效率和准确度。

在另一个实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现关键点检测方法对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以下为对本公开的关键点检测方法和系统进行的测评，共使用了3个定量指标来展示算法的效果，分别是SSE(Sum Squared Error，误差平方和)、EPE(End Point Error，终点误差)、PCK(Percentage of Correct Keypoints，关键点正确估计的比例)。

SSE描述的是预测数据和GT数据对应关键点间误差的平方和，该结果越接近于0，说明模型拟合越好，数据预测也越成功。可以通过如下所示的公式计算：

上式中，y_si是GT，

是预测值，i是21个指节的索引，s是手部样本的索引，D是数据集中的样本数，w、h分别是原图的宽、高。

EPE描述的是在对齐根节点(即手腕点)后，预测的关键点与GT关键点间的平均欧式距离，该值越小，表示预测结果越成功。可以通过如下所示的公式计算：

上式中，y_si是GT，

PCK描述的是预测结果中定位正确的点数占所有点数的比例，越接近100％表示结果越好。所谓预测正确的点是指将预测关键点和GT关键点归一化后，如果其欧式距离小于某个阈值，则认为预测正确并将预测正确的点数加1，否则预测错误。可以通过如下所示的公式计算：

上式中，y_si是GT，

是预测值，i是21个指节的索引，s是手部样本的索引，D是数据集中的样本数，w、h分别是原图的宽、高；1(·)是指示函数，σ是阈值，当关键点的L2距离小于σ时置1，否则为0；

表示在σ阈值时，第i个关键点的PCK指标；PCK_σ表示在σ阈值时，所有关键点的平均PCK指标。

表1展示了在STB(Stereo Hand Pose Tracking Benchmark，立体手姿态跟踪基准)数据集上与相关技术中的三种手部关键点定位方法SRHand、NSRMHand、InterHand的运行指标的对比。在STB数据集上，本公开的运行效果指标仅次于在STB上训练的InterHand。

表1 STB数据集上的对比指标

表2展示了在RHD(Rendered Hand Dataset，渲染手势数据集)上与SRHand、NSRMHand、InterHand三种方法的运行指标的对比。在RHD数据集上，本公开的运行效果指标仅次于在RHD上训练的InterHand；展示了本公开在数据集上较好的泛化性。

表2 RHD数据集上的对比指标

本公开提出的关键点定位网络的参数量只有3.7MB，体积只有13MB，在PC端NVIDIAGeForce 940MX上运行速度达31.9134ms，即31fps。整个系统在PC端运行一次需要60ms左右，达到了准实时的效果。表3展示了本公开的方法对比SRHand、NSRMHand、InterHand在GeForce 940MX和Jeston TX2上的前向时间。

表3前向速度对比表

机器	SRHandNet	NSRMHand	InterHand	本公开
					NVIDIA GeForce 940MX GPU(FPS)	21.06	2.42	14.24	31.33
NVIDIA Jeston TX2 GPU(FPS)	19.16	3.65	7.77	25.05

表4展示了本发明的关键点定位网络的模型大小与SRHand、NSRMHand、InterHand等方法的对比结果。

表4模型尺寸对比表

Model	SRHandNet	NSRMHand	InterHand	本公开
					尺寸(MB)	71.9	139.7	541.7	13.0

上述两表展示了本公开的方案在前向速度、模型大小方面相比其他方法具有明显的优势。

另外，通过对本公开提出的方案在实拍环境下的可视化效果，包括从数字0～9、摇滚、爱、大拇指点赞、爪等手势在不同视角下的效果，既有舒展的手势，也有自遮挡的手势，均能够准确的定位；在公开数据集RHD上与SRHand、NSRMHand、InterHand的效果对比上，准确性明显高于SRHand、NSRMHand方法；本公开的方法没有在RHD上训练的基础上，达到了与在RHD上训练生成的InterHand几乎一致的更加准确的效果。

本公开的智能终端的一些实施例的示意图如图7所示。智能终端700包括一个或多个图像采集设备71。智能终端700还包括上文中提到的任意一种关键点检测系统，执行上文中提到的任意一种关键点检测方法。在一些实施例中，智能终端可以为手机、相机或电脑等设备。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法以及装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

最后应当说明的是：以上实施例仅用以说明本公开的技术方案而非对其限制；尽管参照较佳实施例对本公开进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本公开技术方案的精神，其均应涵盖在本公开请求保护的技术方案范围当中。

Claims

1.一种关键点检测方法，包括：

在待处理图像中检测目标的图像，获取目标的初检测框；

根据当前图像帧中的所述初检测框和历史图像帧的所述初检测框，通过图像稳定获取稳定检测框；

根据所述稳定检测框在所述待处理图像中提取目标区域图像；

根据所述目标区域图像，通过深度学习网络获取热力图，其中，所述热力图的通道数量与目标关键点的数量相匹配；

通过对所述热力图的峰值点获取确定目标关键点的位置信息。

2.根据权利要求1所述的方法，还包括：

根据所述目标关键点的位置信息，将所述目标关键点渲染在所述待处理图像中，获取关键点检测图像。

3.根据权利要求1或2所述的方法，其中，所述根据当前图像帧中的所述目标初检测框和历史图像帧中的目标初检测框，通过图像稳定获取手部稳定检测框包括：

根据当前图像帧的所述初检测框，和从当前图像帧之前的第一帧到第预定数量帧的历史图像帧中的所述初检测框，通过加权平均获取所述稳定检测框；

其中，所述当前图像帧对应的所述初检测框的权重最大，且距离当前图像帧的时间长度越短，所述历史图像帧中的所述初检测框的权重越大。

4.根据权利要求1或2所述的方法，其中，所述根据所述稳定检测框在所述待处理图像中提取目标区域图像包括：

将所述稳定检测框进行预定比例的放大；

截取放大后的所述稳定检测框内的图像作为所述目标区域图像。

5.根据权利要求1或2所述的方法，其中，所述根据所述目标区域图像，通过深度学习网络获取热力图包括：

将所述目标区域图像处理为第一分辨率；

将第一分辨率状态的所述目标区域图像输入深度学习算法的编码模块，获取高层特征；

将所述编码模块的输出信息输入深度学习算法的解码模块以提升特征图的分辨率，获取第二分辨率状态的热力图，其中，所述第二分辨率小于所述第一分辨率。

6.根据权利要求5所述的方法，其中，

所述将第一分辨率状态的所述目标区域图像输入深度学习算法的编码模块，获取高层特征包括：

提取所述第一分辨率状态的所述目标区域图像的低层特征；

基于所述低层特征进行特征融合；

对融合后的特征执行连续下采样，获取所述高层特征。

7.根据权利要求5所述的方法，其中，所述将所述编码模块的输出信息输入解码模块以提升特征图的分辨率，获取第二分辨率状态的热力图包括：

通过三层转置卷积操作将所述编码模块输出的特征图的分辨率提升至所述第二分辨率。

8.根据权利要求1所述的方法，其中，所述通过对所述热力图的峰值点提取获取目标关键点的位置信息包括：

针对所述热力图的每个通道的图像，分别提取峰值点，确定对应的目标关键点；

获取确定的目标关键点的位置信息。

9.根据权利要求5所述的方法，符合以下至少一项：

所述第一分辨率为256*256；

所述第二分辨率为64*64；或

所述特征图的分辨率为8*8。

10.根据权利要求1所述的方法，其中，

所述目标图像为人体的手部图像，所述目标关键点为手部的关键点。

11.一种关键点检测系统，包括：

目标检测单元，被配置为在待处理图像中检测目标的图像，获取初检测框；

框稳定单元，被配置为根据当前图像帧中的所述初检测框和历史图像帧中的所述初检测框，通过图像稳定获取稳定检测框；

目标区域提取单元，被配置为根据所述稳定检测框在所述待处理图像中提取目标区域图像；

热力图获取单元，被配置为根据所述目标区域图像，通过深度学习网络获取热力图，其中，所述热力图的通道数量与目标关键点的数量相匹配；

关键点提取单元，被配置为通过对所述热力图的峰值点获取目标关键点的位置信息。

12.根据权利要求11所述的系统，还包括：

渲染单元，被配置为根据所述目标关键点的位置信息，将所述目标关键点在所述待处理图像中，获取关键点检测图像。

13.一种关键点检测系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至10任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至10任意一项所述的方法的步骤。

15.一种智能终端，包括：

图像采集设备，被配置为采集图像；和

权利要求11～13任意一项所述的关键点检测系统。