CN108537156B

CN108537156B - 一种抗遮挡的手部关键节点追踪方法

Info

Publication number: CN108537156B
Application number: CN201810287295.3A
Authority: CN
Inventors: 李元龙; 黄昌正; 周言明; 陈曦
Original assignee: Guangzhou Huantek Co ltd
Current assignee: Fantasy Zhuhai Technology Co ltd; Guangzhou Huantek Co ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-12-21
Anticipated expiration: 2038-03-30
Also published as: CN108537156A

Abstract

本发明公开了一种抗遮挡的手部关键节点追踪方法，其包括以下步骤，先搭建并标定全景摄像头，并获取大量手部姿态图像样本，然后将图像样本导入到卷积神经网络中进行图像池化卷积处理，使得卷积神经网络得到训练并迭代优化；然后通过普通摄像头捕获被遮挡状态下的手部关键节点的实时图像信息，然后通过已训练迭代优化的卷积神经网络进行实时图像识别，并输出手部关键节点及手部骨骼的点线图像。本发明利用普通摄像头实时捕获被遮挡的图像，然后通过经迭代优化后的卷积神经网络，识别并追踪被遮挡的手部关键节点，克服了现有技术中无法识别追踪被遮挡手部关键节点的缺陷，使得手部关键节点在被遮挡状态下也能实现识别跟踪的目的。

Description

一种抗遮挡的手部关键节点追踪方法

技术领域

本发明涉及计算机视觉技术领域，更具体地说，涉及一种抗遮挡的手部关键节点追踪方法。

背景技术

现行利用深度神经网络处理图像数据的技术中，手部动作捕捉的方法比较少，而实现比较完整的手部动作捕捉的方法更加少。

中国专利CN201710471290.1公开了一种基于深度学习与大数据的体感游戏交互方法与系统，先收集动作视频样本数据集，然后建立并离线训练深度卷积神经网络模型，然后使用将深度卷积神经网络模型；其系统包括深度卷积网络离线训练模块，实时人机交互模块，基于大数据的深度网络模型在线优化模块；其主要是使用普通摄像头实时采集游戏玩家游戏操作视频，经过深度卷积神经网络提取动作高层语义特征，对肌体动作进行判别，并转换为对游戏目标的实际控制数据，从而实现由玩家肌体控制游戏目标做出与玩家运动相应的动作；该公开方案虽然解决了无遮挡状态下手部关键节点的判别；一旦待检测的关键动作节点被物体或自身遮挡，则失去追踪的效果。

发明内容

有鉴于此，本发明提供了一种抗遮挡的手部关键节点追踪方法，解决现有技术中手部关键节点被遮挡状态下无法追踪识别的缺陷。

一种抗遮挡的手部关键节点追踪方法，包括手部关键节点的训练和手部关键节点的识别；其中，所述手部关键节点的训练步骤包括有：S1、搭建获取手部姿态的全景摄像头陈列设备并标定摄像头的相关参数，获取大量手部姿态的立体图像样本；S2、建立初始化卷积神经网络；通过人工方法标记各个视角获取到的手部姿态图像样本中的没有遮挡的手部关键节点的坐标；把人工方法获取的手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像样本，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，得出初始卷积神经网络；S3、迭代优化卷积神经网络；把图像样本输入到卷积神经网络中，得到输出热度图，并把热度图最高点记为该手部关键节点的坐标；通过立体视觉的匹配方法，估计被遮挡的手部关键节点的坐标，更新匹配度从高到低的前10％的图像的手部关键节点的坐标；把手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，更新卷积神经网络；重复此过程直至达到使用者设定的最高迭代次数；

所述手部关键节点的识别步骤包括有：A1、通过普通摄像头实时获取遮挡状态下的手部姿态的图像并将实时图像输入到经过迭代优化处理的卷积神经网络中；然后利用卷积神经网络，估算出手部关键节点的热度图；A2、把热度图最高点记为该手部关键节点的坐标，并按次序连接成手部骨骼，并输出手部关键节点及手部骨骼的点线图像。

优选地，该步骤S1具体为：S1.1、将摄像头按照三维格局布置成立体全景监控摄像头；S1.2、根据各个摄像头所处的坐标位置，对各个摄像头的参数进行人工标定；S1.3、通过立体全景监控摄像头捕获大量手部姿态的图像样本，供后续步骤进行处理。

优选地，该卷积神经网络依次包括有输入层、预处理层、卷积池化层、全卷积层以及输出层，所述预处理层接收输入层的图像信息并进行归一化到区间[0-1]；所述卷积池化层对经预处理层归一化后的图像信息进行卷积池化；然后全卷积对经卷积池化层的卷积池化后的图像信息进一步卷积优化，最后通过输出层进行输出显示。

优选地，该卷积池化层依次包括有接收层、卷积层以及池化层，所述卷积层包括有第一卷积层、第二卷积层以及第三卷积层；其中，所述接收层接收经预处理层归一化后的图像信息；然后所述第一卷积层调取接收层的图像信息，并对经预处理层归一化后的图像信息进行初步卷积处理；然后池化层对初步处理后的图像信息进行池化处理；然后第二卷积层对池化后的图像信息进行二次卷积处理；最后第三卷积层对经二次卷积处理后的图像信息进行三次卷积处理，并将处理后的图像信息传输到全卷积层中。

优选地，该卷积层的传递函数为Relu函数f(x)＝max{0,x}。

优选地，该卷积层的计算方法为：对于尺寸为(M，N)的待卷积图像X，其卷积核W为尺寸为(p，p)，偏置值为b，卷积层计算的输出结果为：

。

优选地，该池化层采用采样核为2的最大池化层，其计算方法为：

y(m,n)＝max{X(2m:2m+2,2n:2n+2)},(0≤m≤M/2,0≤n≤N/2)。

优选地，该全卷积层依次包括有第一全卷积层、第二全卷积层、第三全卷积层、第四全卷积层以及第五全卷积层；所述第一全卷积层对经第三卷积层处理后的图像信息进行初次全卷积处理，所述第二全卷积层对经初次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行二次全卷积处理，然后第三全卷积层对经二次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行三次全卷积处理，然后第四全卷积层对经三次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行四次全卷积处理，最后第五全卷积层对经四次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行五次全卷积处理，并将五次结合全卷积处理结果输出显示。

优选地，在步骤S3中，把热度图最高点记为该手部关键节点的坐标的计算方法是对于尺寸为(M,N)的输入识别图片，神经网络计算结果为尺寸为(m,n)的热度图，记热度图的最大值在热度图的坐标为(i,j)，可以知道对应的手部关键节点坐标为(x,y)＝(i/m*M,j/n*N)。

优选地，在步骤S2中，把手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图的计算方法为：

y(m,n)＝Gauss(m,n)；Gauss～N(μ₁＝x,μ₂＝y)，其中，(x,y)为手部关键节点的坐标。

从上述的技术方案可以看出，本发明的有益效果为：

本发明先对卷积神经网络进行初始化训练，然后通过训练图像数据对卷积神经网络进行迭代优化；然后利用卷积神经网络的学习能力，通过训练自动感知手部关键节点的人体姿态约束，使之有良好的鲁棒性；通过对训练数据进行迭代标定关键节点，利用大数据的优势估计被遮挡的关键节点，并利用卷积神经网络来学习估计被遮挡的关键节点的能力，从而实现在手部关键节点被遮挡的状态下也可以比较清晰地还原手部姿态的目的。

附图说明

图1为本发明实施例提供的一种抗遮挡的手部关键节点追踪方法的步骤流程图。

图2为建立初始化卷积神经网络的具体步骤流程图。

图3为迭代优化卷积神经网络的具体步骤流程图。

图4为手部关键节点的训练步骤中立体全景监控摄像头的布置示意图。

图5为手部关键节点的训练步骤中的立体视觉的匹配方法的原理图。

图6为卷积神经网络的结构框图。

图示说明：1-输入层；2-预处理层；3-卷积池化层；4-第一全卷积层；5-第二全卷积层；6-第三全卷积层；7-第四全卷积层；8-第五全卷积层；9-输出层；31-接收层；32-第一卷积层；33-池化层；34-第二卷积层；35-第三卷积层。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所述的附图作简单地介绍，显而易见，下面的描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

具体实施方式

本发明实施例提供了一种抗遮挡的手部关键节点追踪方法。

如图1-6所示，本发明实施例所提供的一种抗遮挡的手部关键节点追踪方法，包括手部关键节点的训练和手部关键节点的识别；其中，所述手部关键节点的训练步骤包括有：

S1，将摄像头按照三维格局布置成立体全景监控摄像头；然后根据各个摄像头所处的坐标位置，对各个摄像头的参数进行人工标定；然后通过立体全景监控摄像头捕获大量手部姿态的图像样本，供后续步骤进行处理。

S2，建立初始化卷积神经网络；通过人工方法标记各个视角获取到的手部姿态图像样本中的没有遮挡的手部关键节点的坐标；把人工方法获取的手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像样本，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，得出初始卷积神经网络。

S3、迭代优化卷积神经网络；把图像样本输入到卷积神经网络中，得到输出热度图，并把热度图最高点记为该手部关键节点的坐标；通过立体视觉的匹配方法，估计被遮挡的手部关键节点的坐标，更新匹配度从高到低的前10％的图像的手部关键节点的坐标；把手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，更新卷积神经网络；重复此过程直至达到使用者设定的最高迭代次数。

在所述手部关键节点的训练步骤中，其主要是先通过立体全景监控摄像头，多角度拍摄手部姿态的图像样本；人工标定图像样本中的各个角度无遮挡关键节点的坐标；把人工方法获取的手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像样本，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，并将此时卷积神经网络中的识别参数储存到卷积神经网络中，从而得出初始卷积神经网络；然后根据使用者设定的最高迭代次数，首先通过上次优化过程的卷积神经网络，识别它所能被识别的节点，得到节点的热度图，把热度图转化为坐标，然后通过立体视觉的匹配方法，估算同一时刻其他角度被遮挡的图像样本中的被遮挡关键节点的坐标，选取匹配度从高到低的前10％的匹配图像更新标记其被遮挡的关键节点坐标，并把更新后的标记转化为热度图，然后以更新后的热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，重复这段过程直至达到使用者设定的最高迭代次数；当达到最高迭代次数后，卷积神经网络将储存此时的工作参数作为迭代优化参数；在所述手部关键节点的训练步骤中，卷积神经网络利用立体视觉的匹配方法，能够结合图像样本中人工标定的无遮挡关键节点坐标，自动识别出图像样本中未经人工标定的遮挡状态下的关键节点坐标，通过不断迭代优化训练，使得卷积神经网络中的识别参数不断优化，从而能够在手部关键节点被遮挡的状态下也能顺利识别追踪被遮挡的手部关键节点的坐标，达到全程识别追踪手部关键节点(包括遮挡关键节点和无遮挡关键节点)坐标的目的。

所述手部关键节点的识别步骤中，普通摄像头的数量可以是一个，也可以是多个；摄像头的类型可以是全景摄像头也可以是日常的手机摄像头，只要能实现拍摄功能即可；由于卷积神经网络经过前期的迭代优化训练，网络通过识别追踪没被遮挡的手部关键节点以及根据训练所感知到的手部姿态约束，来估计被遮挡的节点的位置，具备识别追踪被遮挡状态下的手部关键节点的能力；因此，当普通摄像头拍摄获取到实时手部姿态图像后，卷积神经网络对实时手部姿态图像进行池化卷积处理得到该实时手部姿态图像的关键节点的热度图，通过把热度图最高点记为该手部关键节点的坐标，从而得到该实时手部姿态图像的全部关键节点(包括遮挡关键节点和无遮挡关键节点)的坐标；然后把把得到的坐标点按次序连接成手部骨骼，并输出手部关键节点及手部骨骼的点线图像；从而实现了普通摄像头可随时识别跟踪被遮挡状态下手部关键节点的目的。由于卷积神经网络在正式运营前已经过统一专业化的全景摄像头的迭代优化训练，在手部关键节点的识别过程中，经过迭代优化训练好的卷积神经网络可以在任何摄像头拍摄被遮挡手部关键节点的状态下追踪识别被遮挡手部关键节点的坐标，克服了现有技术中需要使用特殊全景摄像头或需要特殊布局的摄像头才能识别追踪手部关键节点的缺陷，也克服了现有技术中无法做到随时识别追踪遮挡状态下的手部关键节点的缺陷。

具体地，在步骤S2中，所述卷积神经网络依次包括有输入层1、预处理层2、卷积池化层3、全卷积层以及输出层9，所述预处理层2接收输入层1的图像信息并进行归一化到区间[0-1]；所述卷积池化层3对经预处理层2归一化后的图像信息进行卷积池化；然后全卷积对经卷积池化层3的卷积池化后的图像信息进一步卷积优化，最后通过输出层9进行输出显示。

更具体地，该卷积池化层3依次包括有接收层31、卷积层以及池化层33，所述卷积层包括有第一卷积层32、第二卷积层34以及第三卷积层35；其中，所述接收层31接收经预处理层2归一化后的图像信息；然后所述第一卷积层32调取接收层31的图像信息，并对经预处理层2归一化后的图像信息进行初步卷积处理；然后池化层33对初步处理后的图像信息进行池化处理；然后第二卷积层34对池化后的图像信息进行二次卷积处理；最后第三卷积层35对经二次卷积处理后的图像信息进行三次卷积处理，并将处理后的图像信息传输到全卷积层中；该全卷积层依次包括有第一全卷积层4、第二全卷积层5、第三全卷积层6、第四全卷积层7以及第五全卷积层8；所述第一全卷积层4对经第三卷积层35处理后的图像信息进行初次全卷积处理，所述第二全卷积层5对经初次全卷积处理的图像信息与经第三卷积层35处理后的图像信息结合(采用初次全卷积处理的图像信息与经第三卷积层35处理后的图像信息的比例3:7)进行二次全卷积处理，然后第三全卷积层6对经二次全卷积处理的图像信息与经第三卷积层35处理后的图像信息结合(采用初次全卷积处理的图像信息与经第三卷积层35处理后的图像信息的比例3:7)进行三次全卷积处理，然后第四全卷积层7对经三次全卷积处理的图像信息与经第三卷积层35处理后的图像信息结合(采用初次全卷积处理的图像信息与经第三卷积层35处理后的图像信息的比例3:7)进行四次全卷积处理，最后第五全卷积层8对经四次全卷积处理的图像信息与经第三卷积层35处理后的图像信息结合(采用初次全卷积处理的图像信息与经第三卷积层35处理后的图像信息的比例3:7)进行五次全卷积处理，并将五次结合全卷积处理结果输出显示。

更具体地，该卷积层的传递函数为Relu函数f(x)＝max{0,x}，其计算方法为：对于尺寸为(M，N)的待卷积图像X，其卷积核W为尺寸为(p，p)，偏置值为b，卷积层计算的输出结果为：

。

且该池化层采用采样核为2的最大池化层，其计算方法为：

y(m,n)＝max{X(2m:2m+2,2n:2n+2)},(0≤m≤M/2,0≤n≤N/2)。

并且，该最小化损失函数为

Loss＝∑∑(goal-netoutput)²，该函数中，goal为手部关键节点的坐标对应的热度图，netoutput为卷积神经网络输出的图像。

并且，手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图的计算方法为：

在步骤S3中，把热度图最高点记为该手部关键节点的坐标的计算方法是对于尺寸为(M,N)的输入识别图片，神经网络计算结果为尺寸为(m,n)的热度图，记热度图的最大值在热度图的坐标为(i,j)，可以知道对应的手部关键节点坐标为(x,y)＝(i/m*M,j/n*N)。

卷积神经网络的初始化的具体过程为：全景摄像头采集图像信息并标记手部姿态图像样本中无遮挡的手部关键节点的坐标，然后将图像信息输入到卷积神经网络中，经过预处理层2的归一化处理、卷积池化层3的卷积池化处理以及全卷积层的多重卷积处理后得到图像卷积处理数据，然后该图像卷积处理数据经过坐标转化算法

y(m,n)＝Gauss(m,n)；Gauss～N(μ₁＝x,μ₂＝y)；

将手工标记的坐标转化为相应的高斯分布热度图坐标，最后利用最小化损失函数对高斯分布热度图进行整合优化，从而得到输出热度图。

立体视觉匹配方法估计被遮挡关键节点的原理如图5所示，对于摄像头c3，关键节点p2被障碍物所遮挡；利用摄像头c1和c2对关键节点p2进行定位；根据标定好的摄像头阵列的相对位置参数，估计出p2在摄像头c3图像的坐标位置。

本发明先对卷积神经网络进行初始化训练，然后通过训练图像数据对卷积神经网络进行迭代优化，使得卷积神经网络具有在普通条件下也能随时识别追踪在遮挡状态下的手部关键节点的能力；然后利用卷积神经网络的学习能力，通过训练自动感知手部关键节点的人体姿态约束，有良好的鲁棒性；通过对训练数据进行迭代标定关键节点，利用大数据的优势估计被遮挡的关键节点，并利用卷积神经网络来学习估计被遮挡的关键节点的能力，从而实现在手部关键节点被遮挡的状态下也可以比较清晰地还原手部姿态的目的。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种抗遮挡的手部关键节点追踪方法，其特征在于，包括手部关键节点的训练和手部关键节点的识别；其中，所述手部关键节点的训练步骤包括有：

S1、搭建获取手部姿态的全景摄像头陈列设备并标定摄像头的相关参数，获取大量手部姿态的立体图像样本；

S2、建立初始化卷积神经网络；通过人工方法标记各个视角获取到的手部姿态图像样本中的没有遮挡的手部关键节点的坐标；把人工方法获取的手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像样本，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，得出初始卷积神经网络；

S3、迭代优化卷积神经网络；把图像样本输入到卷积神经网络中，得到输出热度图，并把热度图最高点记为该手部关键节点的坐标；通过立体视觉的匹配方法，估计被遮挡的手部关键节点的坐标，更新匹配度从高到低的前10％的图像的手部关键节点的坐标；把手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图；输入图像，以热度图为输出目标，以最小化损失函数的原则训练卷积神经网络，更新卷积神经网络；重复此过程直至达到使用者设定的最高迭代次数；

所述手部关键节点的识别步骤包括有：

A1、通过普通摄像头实时获取遮挡状态下的手部姿态的图像并将实时图像输入到经过迭代优化处理的卷积神经网络中；然后利用卷积神经网络，估算出手部关键节点的热度图；

A2、把热度图最高点记为该手部关键节点的坐标，并按次序连接成手部骨骼，并输出手部关键节点及手部骨骼的点线图像。

2.如权利要求1所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述步骤S1具体为：

S1.1、将摄像头按照三维格局布置成立体全景监控摄像头；

S1.2、根据各个摄像头所处的坐标位置，对各个摄像头的参数进行人工标定；

S1.3、通过立体全景监控摄像头捕获大量手部姿态的图像样本，供后续步骤进行处理。

3.如权利要求1所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述卷积神经网络依次包括有输入层、预处理层、卷积池化层、全卷积层以及输出层，所述预处理层接收输入层的图像信息并进行归一化到区间[0,1]；所述卷积池化层对经预处理层归一化后的图像信息进行卷积池化；然后全卷积对经卷积池化层的卷积池化后的图像信息进一步卷积优化，最后通过输出层进行输出显示。

4.如权利要求3所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述卷积池化层包括有接收层、卷积层以及池化层，所述卷积层包括有第一卷积层、第二卷积层以及第三卷积层；其中，所述接收层接收经预处理层归一化后的图像信息；然后所述第一卷积层调取接收层的图像信息，并对经预处理层归一化后的图像信息进行初步卷积处理；然后池化层对初步处理后的图像信息进行池化处理；然后第二卷积层对池化后的图像信息进行二次卷积处理；最后第三卷积层对经二次卷积处理后的图像信息进行三次卷积处理，并将处理后的图像信息传输到全卷积层中。

5.如权利要求4所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述卷积层的传递函数为Relu函数f(x)＝max{0,x}。

6.如权利要求4所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述卷积层的计算方法为：对于尺寸为(M，N)的待卷积图像X，其卷积核W为尺寸为(P，P)，偏置值为b，卷积层计算的输出结果为：

。

7.如权利要求6所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述池化层采用采样核为2的最大池化层，其计算方法为：

y(m,n)＝max{X(2m:2m+2,2n:2n+2)},(0≤m≤M/2,0≤n≤N/2)。

8.如权利要求7所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，所述全卷积层依次包括有第一全卷积层、第二全卷积层、第三全卷积层、第四全卷积层以及第五全卷积层；所述第一全卷积层对经第三卷积层处理后的图像信息进行初次全卷积处理，所述第二全卷积层对经初次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行二次全卷积处理，然后第三全卷积层对经二次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行三次全卷积处理，然后第四全卷积层对经三次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行四次全卷积处理，最后第五全卷积层对经四次全卷积处理的图像信息与经第三卷积层处理后的图像信息结合进行五次全卷积处理，并将五次全卷积处理结果输出显示。

9.如权利要求1-8中任一项权利要求所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，在步骤S3中，把热度图最高点记为该手部关键节点的坐标的计算方法是对于尺寸为(M,N)的输入识别图片，神经网络计算结果为尺寸为(m,n)的热度图，记热度图的最大值在热度图的坐标为(i,j)，可以知道对应的手部关键节点坐标为(x,y)＝(i/m*M,j/n*N)。

10.如权利要求8所述的一种抗遮挡的手部关键节点追踪方法，其特征在于，在步骤S2中，把手部关键节点的坐标转化为以坐标为顶点的高斯分布热度图的计算方法为：

y(m,n)＝Gauss(m,n)；Gauss～N(μ₁＝x,μ₂＝y)，其中，

(x,y)为手部关键节点的坐标。