CN111368768A

CN111368768A - 一种基于人体关键点的员工手势指引检测方法

Info

Publication number: CN111368768A
Application number: CN202010160951.0A
Authority: CN
Inventors: 包晓安; 涂小妹; 钟乐海
Original assignee: Zhejiang University Of Science And Technology Tongxiang Research Institute Co ltd
Current assignee: Zhejiang University Of Science And Technology Tongxiang Research Institute Co ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-03

Abstract

本发明公开了一种基于人体关键点的员工手势指引检测方法。在Faster RCNN网络的损失函数中加入度量学习函数采样难样本训练网络；使用COCO数据集通过交叉验证法训练CPM网络；训练好的Faster RCNN模型根据输入的测试图像，得到员工的位置坐标，裁剪出员工图像；将员工图像输入CPM模型根据输入的员工图像，检测得到人体关键点，根据关键点连线的夹角判断员工是否有手势指引。本发明基于人体关键点检测来判断员工在服务顾客时是否有手势指引，与基于外观的表示方法不同，关键点特征是紧凑且强结构性的特征，带有丰富的语义信息，对人类动作与运动具有高度描述性，判断准确性更高。

Description

一种基于人体关键点的员工手势指引检测方法

技术领域

本发明涉及目标检测，人体关键点检测，深度学习等领域，尤其涉及一种基于人体关键点的员工手势指引检测方法。

背景技术

随着信息技术的发展，人们对人体姿态的分析需求越来越大，比如：企业希望知道员工在服务顾客时有没有做手势指引，学校需要及时的知道校园里有没有打架斗殴事件，影院领导需要知道电影院检票口有没有员工在倚靠趴扶等。想及时了解这些信息都要对人体姿态进行分析识别，这类人体姿态识别需要借助于人体关键点检测，人体关键点检测是指从一张含有人体图像中对人体骨架上的关键点进行建模估计。由于人体具有柔性，会出现各种姿态和形状，人体任何一个部位的微小变化都会产生一种新的姿态，同时其关键点的可见性受穿着、姿态、视角等影响。

现有解决人体关键点检测算法基本上是在几何先验的基础上基于模板匹配的思路来进行，核心就在于如何去用模板表示整个人体结构，包括关键点的表示，肢体结构的表示以及不同肢体结构之间的关系表示。一个好的模板匹配的思路，可模拟更多的姿态范围，以至于能够更好的匹配并检测出对应的人体姿态。但是也存在一定的缺陷，设计模板难度大。基于以上分析，有人提出了基于深度学习的方法，比如G-RMI、CFN、RMPE、Mask R-CNN。深度学习进行人体姿态识别的做法是将含有人体图像输入到网络结构中，进行一系列非线性处理得到人体骨架关键点姿态图像，将生成的人体关键点坐标与真实标注的人体关键点坐标进行比较得出差值，将此差值作为损失函数，通过求梯度来最小化这个损失值，并利用反向传播更新网络权重，多次迭代直到该损失函数不变为止。

目前亟待解决的问题有：两个网络级联，人体关键点检测网络的效果极大的受制于目标检测网络的结果，而目标检测网络对于相似度较大的人员检测和分类效果较好，对于外部特征相似的员工检测效果较差，同时人体关键点检测基于传统模板匹配思路鲁棒性不高，模板制作较难，匹配容易受环境影响。基于深度学习的方法能更好的提取人体特征，但是大部分网络模型是基于分类的思想，将不同的行为分为不同的类别。当行为较多时，需要分类的类别就增多，并且有些类别之间存在极大的相似，很难使用分类网络来进行区分。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种基于人体关键点的员工手势指引检测方法。使用Faster RCNN检测员工的具体位置坐标，根据坐标裁剪输入的图像；将裁剪后的员工图像使用CPM网络模型进行人体关键点检测；根据检测到的人体关键点，连接跟姿态相关联的关键点，计算连线之间的夹角判断员工是否有手势指引。

为了实现上述目的，本发明提供了一种基于人体关键点的员工手势指引检测方法，包括以下步骤：

S1、在应用场景下进行员工图像样本数据集的采集和标注，并对样本数据集进行预处理；

S2、在Faster RCNN网络训练过程中，引入度量函数筛选出样本数据集中的难样本，然后使用筛选出的难样本训练网络，生成训练好的Faster RCNN模型；

S3、使用公开的COCO数据集训练CPM人体关键点检测网络，生成训练好的CPM模型；

S4、视频采集员工的工作场景图像作为待测图像，将待测图像输入到步骤 S2生成的Faster RCNN模型中，输出员工的位置坐标；根据员工的位置坐标裁剪出员工图像；

S5、将步骤S4裁剪得到的员工图像输入到步骤S3生成的CPM模型中，输出人体关键点，根据人体关键点连线的夹角判断员工是否有手势指引，若检测到员工的手势指引不符合员工服务规范预设的标准，则发出提醒信号。

进一步的，所述的步骤S1具体为：

S11、在实际应用场景中使用监控摄像头采集1000张员工图像作为正例样本，再从COCO数据集中筛选出1000张行人图像作为负例样本，正例样本和负例样本构成样本数据集；

S12、对采集到的1000张员工图像使用labelImg工具进行标注，每张图像经过labelImg工具标注后自动生成与图像对应的.xml文件，文件中保存了员工在图像中的位置坐标；

S13、对样本数据集进行预处理，包括样本数据集的标准化、缩放、翻转。

进一步的，所述的步骤S2具体为：

所述的Faster RCNN目标检测网络包括卷积层、RPN网络、Roi Pooling层、分类回归网络；首先将图片输入到ZF的可共享的卷积层中，将最后一个共享卷积层的输出作为初始特征图；接下来使用得到的初始特征图进行两个检测阶段，第一阶段使用RPN网络对通过锚点框生成的预选框进行粗筛选，然后将粗筛选后的预选框映射到原图像上作为预测框；第二阶段将预测框和初始特征图输入到 Roi Pooling层形成固定大小的目标特征图并进行全连接操作，在分类回归网络中利用Softmax进行具体类别的分类以及边界框的回归，获得员工的精确位置坐标；

对Faster RCNN网络进行训练时，对于每一个训练batch，首先通过距离度量函数筛选出batch中每一幅图像a对应的一个距离最大的正样本p和一个距离最小的负样本n，a与p、a与n构成两对难识别样本；使用筛选出的难识别样本对网络进行训练，训练过程采用随机梯度下降法反向传播更新网络的参数，最后得到训练完成的Faster RCNN模型并保存为.pth文件；

网络训练中的分类损失函数公式为：

其中：N_clas表示类别数，

表示第i幅图像的类别标签；d_p,a表示图像p与图像a之间的欧式距离，d_n,a表示图像n与图像a之间的欧式距离；A表示与图像a具有相同类别标签的图像集； B表示与图像a具有不同类别标签的图像集；

网络训练中的回归损失函数公式为：

其中：N_reg，λ是超参数，为了平衡分类损失和回归损失的权重；

表示第 i幅图像的类别标签；

是一个向量，表示回归训练阶段预测的偏移量；

表示回归训练阶段实际的偏移量。

进一步的，所述的步骤S3具体为：

所述的CPM人体关键点检测网络包括四个阶段，将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢，得到中心约束；CPM人体关键点检测网络每个阶段均为有监督训练，响应图和特征图1起作为数据在网络中传递，四个阶段具体为：

阶段一：采用一个卷积网络对初始输入图像做处理，得到第一阶段各关键点响应空间特征；

阶段二：首先对初始输入图像做卷积操作得到阶段性的卷积结果纹理特征，然后将纹理特征、中心约束、以及阶段一得到的空间特征经串联层连接，再进行卷积得到第二阶段各关键点响应空间特征，与阶段一尺寸一致；

阶段三和阶段四：其输入为从阶段二的阶段性的卷积结果纹理特征中提取出的一个深度为128的特征图，同样使用串联层综合三种因素：本阶段的纹理特征、上一阶段的空间特征、中心约束，最后进行卷积得到本阶段各关键点响应空间特征，与阶段一尺寸一致；将最后一个阶段输出的响应特征图中响应最大的点作为人体关键点；

将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作，包括随机旋转、缩放、归一化；使用经过MPII数据集预训练过的权重来初始化 CPM人体关键点检测网络，然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练，设置初始学习率为0.01，学习率的值随训练次数成指数下降，设置batch size大小为32，当损失降到0.001时，停止训练网络模型，得到训练完成的CPM模型并保存为.pth文件。

进一步的，所述步骤S4具体为：

S41、加载步骤S2生成的Faster RCNN模型，将视频采集到的员工的工作场景图像输入到Faster RCNN模型中，得到员工在工作场景图像中的具体位置坐标；

S42、根据S41中得到的员工位置坐标，利用tf.image.crop_to_bounding_box 函数对员工的工作场景图像进行裁剪，得到员工图像。

进一步的，所述的步骤S5包括：

S51、加载步骤S3生成的CPM模型，将步骤S4得到的员工图像输入到CPM 模型中，检测得出人体关键点；所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵；

S52、连接右手腕关键点与右手肘关键点，右手肘关键点与右肩关键点，得到两条连线；

S53、计算步骤S52得到的两条连线间的夹角，若夹角大于90度且小于180 度，则判定此员工在服务顾客时有手势指引，否则，判定为员工在服务顾客时无手势指引，发出提醒信号。与现有技术相比，本发明具备的有益效果是：

本发明采用了自上而下的人体关键点定位算法，其主要包含两个部分，人体检测和单人人体关键点检测，即首先通过Faster RCNN进行目标检测，该检测网络在已有的损失函数基础上增加了度量学习函数进行难样本采样，该度量学习函数能自动的选择一些难训练的样本，网络经过不断的训练难样本而增强网络模型的识别能力。目标检测网络检测出员工位置之后，再针对单个人做人体关键点检测。对于关键点检测算法，本发明使用CPM人体关键点检测，该检测网络同时用卷积图层表达纹理信息和空间信息，提高了关键点的检测结果。

除此之外，为了使网络能更好的学习到样本的特征，本发明的两个级联网络均按照交叉验证法将数据集划分为10个大小相似的互斥子集，每次使用9个子集的并集作为训练集，余下的一个子集作为测试集，这样获得10组训练/测试集，取这10组测试集准确率的平均作为最后静脉识别准确率。经过数据验证，在同一验证集下，使用传统的分类识别方法，识别准确率为86.4％，使用本方法员工手势指引检测准确率为89.7％。提高了3.3个百分点。所以本发明对于传统的分类识别方法来说是一个技术的突破。

附图说明

图1是本发明的识别步骤图；

图2是Faster RCNN网络结构图；

图3是Faster RCNN网络中的RPN网络结构图；

图4是CPM网络结构图；

图5是CPM网络中的中继监督图；

图6是CPM网络中优化的中继监督图；

图7是Faster RCNN网络检测出的员工裁剪图；

图8是CPM网络检测出的人体骨架图；

图9是员工手势指引方法流程图。

具体实施方式

以下结合附图和具体实施对本发明进行详细描述，但不作为对本发明的限定。

如图1，本方法的实施步骤如下：

S1、在应用场景下进行员工图像样本数据集的采集和标注，并对样本数据集进行预处理

在实际应用场景中使用监控摄像头采集1000张员工图像作为正例样本，再从COCO数据集中筛选出1000张行人图像作为负例样本。对采集到的1000张员工图像使用labelImg工具进行标注，每张图像经过labelImg工具标注后会自动生成与图像对应的.xml文件，该文件中保存了员工在图像中的位置坐标。同时，对样本数据集进行预处理，包括样本数据集的标准化、缩放、翻转。

S2、使用预处理后的样本数据集训练Faster RCNN目标检测网络，生成训练好的Faster RCNN模型

目标检测网络Faster RCNN的结构示意图如图2所示，Faster RCNN是在 R-cnn基础上改进的two-stage算法，包括卷积层、RPN网络、Roi Pooling层、分类回归网络，其中分类回归网络为两个平行的全连接层。

首先将图片输入到ZF的可共享的卷积层中，将最后一个共享卷积层的输出作为初始特征图，接下来使用得到的初始特征图进行两个检测阶段。如图3所示， RPN网络把一个任意尺度的图片作为输入，输出一系列的矩形预测框，每个预测框都带一个score。由于RPN网络的输入为ZF的输出，ZF包含5个可共享的卷积层，最后一个共享卷积层的输出对应生成256张特征图，因此共有256张特征图输入到RPN网络中。在卷积得到的特征图上滑动一个n*n窗口(本发明使用n＝3)，每个滑动窗口都映射到一个低维特征(ZF是256维，后面跟一个ReLU 激活函数)，此结构是用一个3*3的卷积层来实现的；得到的256维特征被输入到两个1*1的平行的全连接层中，一个box-regression层(reg)，一个 box-classification层(cls)，假设每张特征图上有k个anchor，每个anchor需要区分前景和后景，所以每个点由256维的特征转化为cls＝2k scores，而每个anchor 都有[x,y,w,h]对应4个偏移量，所以reg＝4k coordinates，scores和coordinates 为RPN的最终输出。

网络训练中的分类损失函数公式为：

其中：N_clas表示类别数，

网络训练中的回归损失函数公式为：

表示第 i幅图像的类别标签；

是一个向量，表示回归训练阶段预测的偏移量；

表示回归训练阶段实际的偏移量。

所述的使用得到的初始特征图进行两个检测阶段，具体为：

第一阶段是使用如图3所示的RPN网络对通过anchor生成的预选框进行粗筛选，anchor指的是在特征图的每个像素点上由3种不同宽高比[1:1,1:2,2:1]和 3种尺寸面积[128,256,512]组成的3×3＝9种不同类型的方框，对于一个尺寸为 W×H的特征图总共可以生成W×H×9个anchor。再将这些方框映射到原图像上作为预测方框(bounding box)。

第二阶段是对经过第一阶段粗筛选出的bounding box进行微调，使预测出的框更加精确，同时进行多分类。首先，将使用S1预处理后的数据集训练Faster RCNN网络，其次，网络训练时将分类损失函数与回归损失函数相结合，并采用随机梯度下降法反向传播更新网络的参数，最后得到训练完成的Faster RCNN模型并保存为.pth文件。

S3、使用公开的COCO数据集训练CPM人体关键点检测网络，生成训练好的CPM模型

CPM人体关键点检测网络的结构示意图如图4所示，该检测网络用各关键点响应图来表达关键点之间的空间约束，响应图和特征图1起作为数据在网络中传递，此方法既能确保精度，又考虑了关键点之间的距离关系。此外，考虑到过深网络难以优化的问题，该网络还分为4个阶段，4阶段的网络不同于如图5所示的传统网络反向传播，该网络是每个阶段都有监督训练，如图6所示，在每一个阶段的输出都计算损失。

将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢，得到中心约束；第一阶段是一个基本的卷积网络，此处采用经典的VGG网络结构，从彩色图像直接预测各关键点的响应，人体上半身有9个关键点响应图，另外包含一个背景响应，共10层响应图。第二阶段也是从彩色图像预测各关键点响应，但是在卷积层中段多了一个串联层，该串联层是把阶段性的卷积结果纹理特征(46*46*32)、前一阶段各关键点响应空间特征 (46*46*10)、中心约束(46*46*1)三个数据进行联合，串联后的结果尺寸不变，深度变为32+10+1＝43。第三阶段不再使用原始图像输入，而是从第二阶段的网络中取出一个深度为128的特征图作为输入，同样使用串联层综合三种因素，纹理特征、空间特征、中心约束。第四阶段结构和第三阶段相同，在设计更复杂的网络时，只需调整关键点数量，并重复第三阶段结构即可。训练CPM人体关键点网络模型，将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作，包括随机旋转、缩放、归一化；使用经过MPII数据集预训练过的权重来初始化CPM人体关键点检测网络，然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练，设置初始学习率为 0.01，学习率的值随训练次数成指数下降，设置batch size大小为32，当损失降到0.001时，停止训练网络模型，得到训练完成的CPM模型并保存为.pth文件。

S4、视频采集员工的工作场景图像作为待测图像，将待测图像输入到步骤S2生成的Faster RCNN模型中，输出员工的位置坐标，根据员工的位置坐标裁剪出员工图像

具体员工手势指引检测方法实现如图9所示，首先加载步骤S2中训练的 FasterRCNN网络模型，将视频采集到的员工的工作场景图像输入到Faster RCNN模型中，得到员工在工作场景图像中的具体位置坐标。根据员工具体位置坐标并利用tf.image.crop_to_bounding_box()函数对测试图像进行裁剪，得到员工图像，如图7所示。

S5、将步骤S4裁剪得到的员工图像输入到步骤S3生成的CPM模型中，输出人体关键点，根据人体关键点连线的夹角判断员工是否有手势指引，若检测到员工的手势指引不符合员工服务规范预设的标准，则发出提醒信号

加载步骤S3中训练的CPM网络模型，将S4中得到的员工图像输入到网络模型中，检测得出人体关键点，如图8所示。所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵。连接右手腕关键点与右手肘关键点，右手肘关键点与右肩关键点，得到两条连线。计算这两条连线之间的夹角，若这两条连线间的夹角大于90度，小于180 度，则判定此员工在服务顾客时有手势指引，否则，则判定为员工在服务顾客时无手势指引，发出提醒信号。

经过数据验证，在同一验证集下，使用传统的分类识别方法，识别准确率为86.4％，使用本方法员工手势指引检测准确率为89.7％。提高了3.3个百分点。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于人体关键点的员工手势指引检测方法，其特征在于，包括以下步骤：

S4、视频采集员工的工作场景图像作为待测图像，将待测图像输入到步骤S2生成的Faster RCNN模型中，输出员工的位置坐标；根据员工的位置坐标裁剪出员工图像；

2.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法，其特征在于，所述的步骤S1具体为：

3.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法，其特征在于，所述的步骤S2具体为：

所述的Faster RCNN目标检测网络包括卷积层、RPN网络、Roi Pooling层、分类回归网络；首先将图片输入到ZF的可共享的卷积层中，将最后一个共享卷积层的输出作为初始特征图；接下来使用得到的初始特征图进行两个检测阶段，第一阶段使用RPN网络对通过锚点框生成的预选框进行粗筛选，然后将粗筛选后的预选框映射到原图像上作为预测框；第二阶段将预测框和初始特征图输入到RoiPooling层形成固定大小的目标特征图并进行全连接操作，在分类回归网络中利用Softmax进行具体类别的分类以及边界框的回归，获得员工的精确位置坐标；

网络训练中的分类损失函数公式为：

其中：N_clas表示类别数，

表示第i幅图像的类别标签；d_p,a表示图像p与图像a之间的欧式距离，d_n,a表示图像n与图像a之间的欧式距离；A表示与图像a具有相同类别标签的图像集；B表示与图像a具有不同类别标签的图像集；

网络训练中的回归损失函数公式为：

表示第i幅图像的类别标签；

t_i＝{t_x,t_y,t_w,t_h}是一个向量，表示回归训练阶段预测的偏移量；

表示回归训练阶段实际的偏移量。

4.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法，其特征在于，所述的步骤S3具体为：

所述的CPM人体关键点检测网络包括四个阶段，将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢，得到中心约束；CPM人体关键点检测网络每个阶段均为有监督训练，响应图和特征图一起作为数据在网络中传递，四个阶段具体为：

将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作，包括随机旋转、缩放、归一化；使用经过MPII数据集预训练过的权重来初始化CPM人体关键点检测网络，然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练，设置初始学习率为0.01，学习率的值随训练次数成指数下降，设置batch size大小为32，当损失降到0.001时，停止训练网络模型，得到训练完成的CPM模型并保存为.pth文件。

5.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法，其特征在于，所述步骤S4具体为：

S42、根据S41中得到的员工位置坐标，利用tf.image.crop_to_bounding_box函数对员工的工作场景图像进行裁剪，得到员工图像。

6.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法，其特征在于，所述的步骤S5包括：

S51、加载步骤S3生成的CPM模型，将步骤S4得到的员工图像输入到CPM模型中，检测得出人体关键点；所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵；

S53、计算步骤S52得到的两条连线间的夹角，若夹角大于90度且小于180度，则判定此员工在服务顾客时有手势指引，否则，判定为员工在服务顾客时无手势指引，发出提醒信号。