CN111368768A - 一种基于人体关键点的员工手势指引检测方法 - Google Patents
一种基于人体关键点的员工手势指引检测方法 Download PDFInfo
- Publication number
- CN111368768A CN111368768A CN202010160951.0A CN202010160951A CN111368768A CN 111368768 A CN111368768 A CN 111368768A CN 202010160951 A CN202010160951 A CN 202010160951A CN 111368768 A CN111368768 A CN 111368768A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- employee
- key point
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 24
- 238000002790 cross-validation Methods 0.000 claims abstract description 5
- 230000004044 response Effects 0.000 claims description 28
- 239000000523 sample Substances 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 210000000707 wrist Anatomy 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 claims description 3
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 claims description 3
- 210000000544 articulatio talocruralis Anatomy 0.000 claims description 3
- 210000001217 buttock Anatomy 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 3
- 210000000629 knee joint Anatomy 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 210000001331 nose Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000012468 concentrated sample Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 2
- 230000033001 locomotion Effects 0.000 abstract 1
- 238000003672 processing method Methods 0.000 abstract 1
- 230000036544 posture Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 210000003414 extremity Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种基于人体关键点的员工手势指引检测方法。在Faster RCNN网络的损失函数中加入度量学习函数采样难样本训练网络;使用COCO数据集通过交叉验证法训练CPM网络;训练好的Faster RCNN模型根据输入的测试图像,得到员工的位置坐标,裁剪出员工图像;将员工图像输入CPM模型根据输入的员工图像,检测得到人体关键点,根据关键点连线的夹角判断员工是否有手势指引。本发明基于人体关键点检测来判断员工在服务顾客时是否有手势指引,与基于外观的表示方法不同,关键点特征是紧凑且强结构性的特征,带有丰富的语义信息,对人类动作与运动具有高度描述性,判断准确性更高。
Description
技术领域
本发明涉及目标检测,人体关键点检测,深度学习等领域,尤其涉及一种基于人体关键点的员工手势指引检测方法。
背景技术
随着信息技术的发展,人们对人体姿态的分析需求越来越大,比如:企业希望知道员工在服务顾客时有没有做手势指引,学校需要及时的知道校园里有没有打架斗殴事件,影院领导需要知道电影院检票口有没有员工在倚靠趴扶等。想及时了解这些信息都要对人体姿态进行分析识别,这类人体姿态识别需要借助于人体关键点检测,人体关键点检测是指从一张含有人体图像中对人体骨架上的关键点进行建模估计。由于人体具有柔性,会出现各种姿态和形状,人体任何一个部位的微小变化都会产生一种新的姿态,同时其关键点的可见性受穿着、姿态、视角等影响。
现有解决人体关键点检测算法基本上是在几何先验的基础上基于模板匹配的思路来进行,核心就在于如何去用模板表示整个人体结构,包括关键点的表示,肢体结构的表示以及不同肢体结构之间的关系表示。一个好的模板匹配的思路,可模拟更多的姿态范围,以至于能够更好的匹配并检测出对应的人体姿态。但是也存在一定的缺陷,设计模板难度大。基于以上分析,有人提出了基于深度学习的方法,比如G-RMI、CFN、RMPE、Mask R-CNN。深度学习进行人体姿态识别的做法是将含有人体图像输入到网络结构中,进行一系列非线性处理得到人体骨架关键点姿态图像,将生成的人体关键点坐标与真实标注的人体关键点坐标进行比较得出差值,将此差值作为损失函数,通过求梯度来最小化这个损失值,并利用反向传播更新网络权重,多次迭代直到该损失函数不变为止。
目前亟待解决的问题有:两个网络级联,人体关键点检测网络的效果极大的受制于目标检测网络的结果,而目标检测网络对于相似度较大的人员检测和分类效果较好,对于外部特征相似的员工检测效果较差,同时人体关键点检测基于传统模板匹配思路鲁棒性不高,模板制作较难,匹配容易受环境影响。基于深度学习的方法能更好的提取人体特征,但是大部分网络模型是基于分类的思想,将不同的行为分为不同的类别。当行为较多时,需要分类的类别就增多,并且有些类别之间存在极大的相似,很难使用分类网络来进行区分。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于人体关键点的员工手势指引检测方法。使用Faster RCNN检测员工的具体位置坐标,根据坐标裁剪输入的图像;将裁剪后的员工图像使用CPM网络模型进行人体关键点检测;根据检测到的人体关键点,连接跟姿态相关联的关键点,计算连线之间的夹角判断员工是否有手势指引。
为了实现上述目的,本发明提供了一种基于人体关键点的员工手势指引检测方法,包括以下步骤:
S1、在应用场景下进行员工图像样本数据集的采集和标注,并对样本数据集进行预处理;
S2、在Faster RCNN网络训练过程中,引入度量函数筛选出样本数据集中的难样本,然后使用筛选出的难样本训练网络,生成训练好的Faster RCNN模型;
S3、使用公开的COCO数据集训练CPM人体关键点检测网络,生成训练好的CPM模型;
S4、视频采集员工的工作场景图像作为待测图像,将待测图像输入到步骤 S2生成的Faster RCNN模型中,输出员工的位置坐标;根据员工的位置坐标裁剪出员工图像;
S5、将步骤S4裁剪得到的员工图像输入到步骤S3生成的CPM模型中,输出人体关键点,根据人体关键点连线的夹角判断员工是否有手势指引,若检测到员工的手势指引不符合员工服务规范预设的标准,则发出提醒信号。
进一步的,所述的步骤S1具体为:
S11、在实际应用场景中使用监控摄像头采集1000张员工图像作为正例样本,再从COCO数据集中筛选出1000张行人图像作为负例样本,正例样本和负例样本构成样本数据集;
S12、对采集到的1000张员工图像使用labelImg工具进行标注,每张图像经过labelImg工具标注后自动生成与图像对应的.xml文件,文件中保存了员工在图像中的位置坐标;
S13、对样本数据集进行预处理,包括样本数据集的标准化、缩放、翻转。
进一步的,所述的步骤S2具体为:
所述的Faster RCNN目标检测网络包括卷积层、RPN网络、Roi Pooling层、分类回归网络;首先将图片输入到ZF的可共享的卷积层中,将最后一个共享卷积层的输出作为初始特征图;接下来使用得到的初始特征图进行两个检测阶段,第一阶段使用RPN网络对通过锚点框生成的预选框进行粗筛选,然后将粗筛选后的预选框映射到原图像上作为预测框;第二阶段将预测框和初始特征图输入到 Roi Pooling层形成固定大小的目标特征图并进行全连接操作,在分类回归网络中利用Softmax进行具体类别的分类以及边界框的回归,获得员工的精确位置坐标;
对Faster RCNN网络进行训练时,对于每一个训练batch,首先通过距离度量函数筛选出batch中每一幅图像a对应的一个距离最大的正样本p和一个距离最小的负样本n,a与p、a与n构成两对难识别样本;使用筛选出的难识别样本对网络进行训练,训练过程采用随机梯度下降法反向传播更新网络的参数,最后得到训练完成的Faster RCNN模型并保存为.pth文件;
网络训练中的分类损失函数公式为:
其中:Nclas表示类别数, 表示第i幅图像的类别标签;dp,a表示图像p与图像a之间的欧式距离,dn,a表示图像n与图像a之间的欧式距离;A表示与图像a具有相同类别标签的图像集; B表示与图像a具有不同类别标签的图像集;
网络训练中的回归损失函数公式为:
进一步的,所述的步骤S3具体为:
所述的CPM人体关键点检测网络包括四个阶段,将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢,得到中心约束;CPM人体关键点检测网络每个阶段均为有监督训练,响应图和特征图1起作为数据在网络中传递,四个阶段具体为:
阶段一:采用一个卷积网络对初始输入图像做处理,得到第一阶段各关键点响应空间特征;
阶段二:首先对初始输入图像做卷积操作得到阶段性的卷积结果纹理特征,然后将纹理特征、中心约束、以及阶段一得到的空间特征经串联层连接,再进行卷积得到第二阶段各关键点响应空间特征,与阶段一尺寸一致;
阶段三和阶段四:其输入为从阶段二的阶段性的卷积结果纹理特征中提取出的一个深度为128的特征图,同样使用串联层综合三种因素:本阶段的纹理特征、上一阶段的空间特征、中心约束,最后进行卷积得到本阶段各关键点响应空间特征,与阶段一尺寸一致;将最后一个阶段输出的响应特征图中响应最大的点作为人体关键点;
将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作,包括随机旋转、缩放、归一化;使用经过MPII数据集预训练过的权重来初始化 CPM人体关键点检测网络,然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练,设置初始学习率为0.01,学习率的值随训练次数成指数下降,设置batch size大小为32,当损失降到0.001时,停止训练网络模型,得到训练完成的CPM模型并保存为.pth文件。
进一步的,所述步骤S4具体为:
S41、加载步骤S2生成的Faster RCNN模型,将视频采集到的员工的工作场景图像输入到Faster RCNN模型中,得到员工在工作场景图像中的具体位置坐标;
S42、根据S41中得到的员工位置坐标,利用tf.image.crop_to_bounding_box 函数对员工的工作场景图像进行裁剪,得到员工图像。
进一步的,所述的步骤S5包括:
S51、加载步骤S3生成的CPM模型,将步骤S4得到的员工图像输入到CPM 模型中,检测得出人体关键点;所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵;
S52、连接右手腕关键点与右手肘关键点,右手肘关键点与右肩关键点,得到两条连线;
S53、计算步骤S52得到的两条连线间的夹角,若夹角大于90度且小于180 度,则判定此员工在服务顾客时有手势指引,否则,判定为员工在服务顾客时无手势指引,发出提醒信号。与现有技术相比,本发明具备的有益效果是:
本发明采用了自上而下的人体关键点定位算法,其主要包含两个部分,人体检测和单人人体关键点检测,即首先通过Faster RCNN进行目标检测,该检测网络在已有的损失函数基础上增加了度量学习函数进行难样本采样,该度量学习函数能自动的选择一些难训练的样本,网络经过不断的训练难样本而增强网络模型的识别能力。目标检测网络检测出员工位置之后,再针对单个人做人体关键点检测。对于关键点检测算法,本发明使用CPM人体关键点检测,该检测网络同时用卷积图层表达纹理信息和空间信息,提高了关键点的检测结果。
除此之外,为了使网络能更好的学习到样本的特征,本发明的两个级联网络均按照交叉验证法将数据集划分为10个大小相似的互斥子集,每次使用9个子集的并集作为训练集,余下的一个子集作为测试集,这样获得10组训练/测试集,取这10组测试集准确率的平均作为最后静脉识别准确率。经过数据验证,在同一验证集下,使用传统的分类识别方法,识别准确率为86.4%,使用本方法员工手势指引检测准确率为89.7%。提高了3.3个百分点。所以本发明对于传统的分类识别方法来说是一个技术的突破。
附图说明
图1是本发明的识别步骤图;
图2是Faster RCNN网络结构图;
图3是Faster RCNN网络中的RPN网络结构图;
图4是CPM网络结构图;
图5是CPM网络中的中继监督图;
图6是CPM网络中优化的中继监督图;
图7是Faster RCNN网络检测出的员工裁剪图;
图8是CPM网络检测出的人体骨架图;
图9是员工手势指引方法流程图。
具体实施方式
以下结合附图和具体实施对本发明进行详细描述,但不作为对本发明的限定。
如图1,本方法的实施步骤如下:
S1、在应用场景下进行员工图像样本数据集的采集和标注,并对样本数据集进行预处理
在实际应用场景中使用监控摄像头采集1000张员工图像作为正例样本,再从COCO数据集中筛选出1000张行人图像作为负例样本。对采集到的1000张员工图像使用labelImg工具进行标注,每张图像经过labelImg工具标注后会自动生成与图像对应的.xml文件,该文件中保存了员工在图像中的位置坐标。同时,对样本数据集进行预处理,包括样本数据集的标准化、缩放、翻转。
S2、使用预处理后的样本数据集训练Faster RCNN目标检测网络,生成训练好的Faster RCNN模型
目标检测网络Faster RCNN的结构示意图如图2所示,Faster RCNN是在 R-cnn基础上改进的two-stage算法,包括卷积层、RPN网络、Roi Pooling层、分类回归网络,其中分类回归网络为两个平行的全连接层。
首先将图片输入到ZF的可共享的卷积层中,将最后一个共享卷积层的输出作为初始特征图,接下来使用得到的初始特征图进行两个检测阶段。如图3所示, RPN网络把一个任意尺度的图片作为输入,输出一系列的矩形预测框,每个预测框都带一个score。由于RPN网络的输入为ZF的输出,ZF包含5个可共享的卷积层,最后一个共享卷积层的输出对应生成256张特征图,因此共有256张特征图输入到RPN网络中。在卷积得到的特征图上滑动一个n*n窗口(本发明使用n=3),每个滑动窗口都映射到一个低维特征(ZF是256维,后面跟一个ReLU 激活函数),此结构是用一个3*3的卷积层来实现的;得到的256维特征被输入到两个1*1的平行的全连接层中,一个box-regression层(reg),一个 box-classification层(cls),假设每张特征图上有k个anchor,每个anchor需要区分前景和后景,所以每个点由256维的特征转化为cls=2k scores,而每个anchor 都有[x,y,w,h]对应4个偏移量,所以reg=4k coordinates,scores和coordinates 为RPN的最终输出。
对Faster RCNN网络进行训练时,对于每一个训练batch,首先通过距离度量函数筛选出batch中每一幅图像a对应的一个距离最大的正样本p和一个距离最小的负样本n,a与p、a与n构成两对难识别样本;使用筛选出的难识别样本对网络进行训练,训练过程采用随机梯度下降法反向传播更新网络的参数,最后得到训练完成的Faster RCNN模型并保存为.pth文件;
网络训练中的分类损失函数公式为:
其中:Nclas表示类别数, 表示第i幅图像的类别标签;dp,a表示图像p与图像a之间的欧式距离,dn,a表示图像n与图像a之间的欧式距离;A表示与图像a具有相同类别标签的图像集; B表示与图像a具有不同类别标签的图像集;
网络训练中的回归损失函数公式为:
所述的使用得到的初始特征图进行两个检测阶段,具体为:
第一阶段是使用如图3所示的RPN网络对通过anchor生成的预选框进行粗筛选,anchor指的是在特征图的每个像素点上由3种不同宽高比[1:1,1:2,2:1]和 3种尺寸面积[128,256,512]组成的3×3=9种不同类型的方框,对于一个尺寸为 W×H的特征图总共可以生成W×H×9个anchor。再将这些方框映射到原图像上作为预测方框(bounding box)。
第二阶段是对经过第一阶段粗筛选出的bounding box进行微调,使预测出的框更加精确,同时进行多分类。首先,将使用S1预处理后的数据集训练Faster RCNN网络,其次,网络训练时将分类损失函数与回归损失函数相结合,并采用随机梯度下降法反向传播更新网络的参数,最后得到训练完成的Faster RCNN模型并保存为.pth文件。
S3、使用公开的COCO数据集训练CPM人体关键点检测网络,生成训练好的CPM模型
CPM人体关键点检测网络的结构示意图如图4所示,该检测网络用各关键点响应图来表达关键点之间的空间约束,响应图和特征图1起作为数据在网络中传递,此方法既能确保精度,又考虑了关键点之间的距离关系。此外,考虑到过深网络难以优化的问题,该网络还分为4个阶段,4阶段的网络不同于如图5所示的传统网络反向传播,该网络是每个阶段都有监督训练,如图6所示,在每一个阶段的输出都计算损失。
将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢,得到中心约束;第一阶段是一个基本的卷积网络,此处采用经典的VGG网络结构,从彩色图像直接预测各关键点的响应,人体上半身有9个关键点响应图,另外包含一个背景响应,共10层响应图。第二阶段也是从彩色图像预测各关键点响应,但是在卷积层中段多了一个串联层,该串联层是把阶段性的卷积结果纹理特征(46*46*32)、前一阶段各关键点响应空间特征 (46*46*10)、中心约束(46*46*1)三个数据进行联合,串联后的结果尺寸不变,深度变为32+10+1=43。第三阶段不再使用原始图像输入,而是从第二阶段的网络中取出一个深度为128的特征图作为输入,同样使用串联层综合三种因素,纹理特征、空间特征、中心约束。第四阶段结构和第三阶段相同,在设计更复杂的网络时,只需调整关键点数量,并重复第三阶段结构即可。训练CPM人体关键点网络模型,将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作,包括随机旋转、缩放、归一化;使用经过MPII数据集预训练过的权重来初始化CPM人体关键点检测网络,然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练,设置初始学习率为 0.01,学习率的值随训练次数成指数下降,设置batch size大小为32,当损失降到0.001时,停止训练网络模型,得到训练完成的CPM模型并保存为.pth文件。
S4、视频采集员工的工作场景图像作为待测图像,将待测图像输入到步骤S2生成的Faster RCNN模型中,输出员工的位置坐标,根据员工的位置坐标裁剪出员工图像
具体员工手势指引检测方法实现如图9所示,首先加载步骤S2中训练的 FasterRCNN网络模型,将视频采集到的员工的工作场景图像输入到Faster RCNN模型中,得到员工在工作场景图像中的具体位置坐标。根据员工具体位置坐标并利用tf.image.crop_to_bounding_box()函数对测试图像进行裁剪,得到员工图像,如图7所示。
S5、将步骤S4裁剪得到的员工图像输入到步骤S3生成的CPM模型中,输出人体关键点,根据人体关键点连线的夹角判断员工是否有手势指引,若检测到员工的手势指引不符合员工服务规范预设的标准,则发出提醒信号
加载步骤S3中训练的CPM网络模型,将S4中得到的员工图像输入到网络模型中,检测得出人体关键点,如图8所示。所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵。连接右手腕关键点与右手肘关键点,右手肘关键点与右肩关键点,得到两条连线。计算这两条连线之间的夹角,若这两条连线间的夹角大于90度,小于180 度,则判定此员工在服务顾客时有手势指引,否则,则判定为员工在服务顾客时无手势指引,发出提醒信号。
经过数据验证,在同一验证集下,使用传统的分类识别方法,识别准确率为86.4%,使用本方法员工手势指引检测准确率为89.7%。提高了3.3个百分点。
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (6)
1.一种基于人体关键点的员工手势指引检测方法,其特征在于,包括以下步骤:
S1、在应用场景下进行员工图像样本数据集的采集和标注,并对样本数据集进行预处理;
S2、在Faster RCNN网络训练过程中,引入度量函数筛选出样本数据集中的难样本,然后使用筛选出的难样本训练网络,生成训练好的Faster RCNN模型;
S3、使用公开的COCO数据集训练CPM人体关键点检测网络,生成训练好的CPM模型;
S4、视频采集员工的工作场景图像作为待测图像,将待测图像输入到步骤S2生成的Faster RCNN模型中,输出员工的位置坐标;根据员工的位置坐标裁剪出员工图像;
S5、将步骤S4裁剪得到的员工图像输入到步骤S3生成的CPM模型中,输出人体关键点,根据人体关键点连线的夹角判断员工是否有手势指引,若检测到员工的手势指引不符合员工服务规范预设的标准,则发出提醒信号。
2.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法,其特征在于,所述的步骤S1具体为:
S11、在实际应用场景中使用监控摄像头采集1000张员工图像作为正例样本,再从COCO数据集中筛选出1000张行人图像作为负例样本,正例样本和负例样本构成样本数据集;
S12、对采集到的1000张员工图像使用labelImg工具进行标注,每张图像经过labelImg工具标注后自动生成与图像对应的.xml文件,文件中保存了员工在图像中的位置坐标;
S13、对样本数据集进行预处理,包括样本数据集的标准化、缩放、翻转。
3.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法,其特征在于,所述的步骤S2具体为:
所述的Faster RCNN目标检测网络包括卷积层、RPN网络、Roi Pooling层、分类回归网络;首先将图片输入到ZF的可共享的卷积层中,将最后一个共享卷积层的输出作为初始特征图;接下来使用得到的初始特征图进行两个检测阶段,第一阶段使用RPN网络对通过锚点框生成的预选框进行粗筛选,然后将粗筛选后的预选框映射到原图像上作为预测框;第二阶段将预测框和初始特征图输入到RoiPooling层形成固定大小的目标特征图并进行全连接操作,在分类回归网络中利用Softmax进行具体类别的分类以及边界框的回归,获得员工的精确位置坐标;
对Faster RCNN网络进行训练时,对于每一个训练batch,首先通过距离度量函数筛选出batch中每一幅图像a对应的一个距离最大的正样本p和一个距离最小的负样本n,a与p、a与n构成两对难识别样本;使用筛选出的难识别样本对网络进行训练,训练过程采用随机梯度下降法反向传播更新网络的参数,最后得到训练完成的Faster RCNN模型并保存为.pth文件;
网络训练中的分类损失函数公式为:
其中:Nclas表示类别数, 表示第i幅图像的类别标签;dp,a表示图像p与图像a之间的欧式距离,dn,a表示图像n与图像a之间的欧式距离;A表示与图像a具有相同类别标签的图像集;B表示与图像a具有不同类别标签的图像集;
网络训练中的回归损失函数公式为:
4.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法,其特征在于,所述的步骤S3具体为:
所述的CPM人体关键点检测网络包括四个阶段,将CPM人体关键点检测网络初始输入图像中的人的周围加上一个高斯响应并经池化层聚拢,得到中心约束;CPM人体关键点检测网络每个阶段均为有监督训练,响应图和特征图一起作为数据在网络中传递,四个阶段具体为:
阶段一:采用一个卷积网络对初始输入图像做处理,得到第一阶段各关键点响应空间特征;
阶段二:首先对初始输入图像做卷积操作得到阶段性的卷积结果纹理特征,然后将纹理特征、中心约束、以及阶段一得到的空间特征经串联层连接,再进行卷积得到第二阶段各关键点响应空间特征,与阶段一尺寸一致;
阶段三和阶段四:其输入为从阶段二的阶段性的卷积结果纹理特征中提取出的一个深度为128的特征图,同样使用串联层综合三种因素:本阶段的纹理特征、上一阶段的空间特征、中心约束,最后进行卷积得到本阶段各关键点响应空间特征,与阶段一尺寸一致;将最后一个阶段输出的响应特征图中响应最大的点作为人体关键点;
将带有人体关键点标注的COCO数据集中的样本图像进行数据集增强操作,包括随机旋转、缩放、归一化;使用经过MPII数据集预训练过的权重来初始化CPM人体关键点检测网络,然后用数据集增强后的COCO数据集采用交叉验证法对CPM人体关键点检测网络进行训练,设置初始学习率为0.01,学习率的值随训练次数成指数下降,设置batch size大小为32,当损失降到0.001时,停止训练网络模型,得到训练完成的CPM模型并保存为.pth文件。
5.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法,其特征在于,所述步骤S4具体为:
S41、加载步骤S2生成的Faster RCNN模型,将视频采集到的员工的工作场景图像输入到Faster RCNN模型中,得到员工在工作场景图像中的具体位置坐标;
S42、根据S41中得到的员工位置坐标,利用tf.image.crop_to_bounding_box函数对员工的工作场景图像进行裁剪,得到员工图像。
6.根据权利要求1所述的一种基于人体关键点的员工手势指引检测方法,其特征在于,所述的步骤S5包括:
S51、加载步骤S3生成的CPM模型,将步骤S4得到的员工图像输入到CPM模型中,检测得出人体关键点;所述的人体关键点包括左右踝关节、左右膝关节、左右臀部、左右手腕、左右肘、左右肩、左右眼睛、鼻子、左右耳朵;
S52、连接右手腕关键点与右手肘关键点,右手肘关键点与右肩关键点,得到两条连线;
S53、计算步骤S52得到的两条连线间的夹角,若夹角大于90度且小于180度,则判定此员工在服务顾客时有手势指引,否则,判定为员工在服务顾客时无手势指引,发出提醒信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160951.0A CN111368768A (zh) | 2020-03-10 | 2020-03-10 | 一种基于人体关键点的员工手势指引检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010160951.0A CN111368768A (zh) | 2020-03-10 | 2020-03-10 | 一种基于人体关键点的员工手势指引检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368768A true CN111368768A (zh) | 2020-07-03 |
Family
ID=71212517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010160951.0A Pending CN111368768A (zh) | 2020-03-10 | 2020-03-10 | 一种基于人体关键点的员工手势指引检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368768A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084984A (zh) * | 2020-09-15 | 2020-12-15 | 山东鲁能软件技术有限公司 | 一种基于改进的Mask RCNN的扶梯动作检测方法 |
CN112487877A (zh) * | 2020-11-12 | 2021-03-12 | 广东芯盾微电子科技有限公司 | 一种厨余垃圾规范操作的监控方法、系统、装置及介质 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113486758A (zh) * | 2021-06-30 | 2021-10-08 | 浙江大学 | 一种手部穴位自动定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108939418A (zh) * | 2018-09-06 | 2018-12-07 | 西北工业大学 | 一种基于unity 3D的VR健身交互系统 |
CN110490125A (zh) * | 2019-08-15 | 2019-11-22 | 成都睿晓科技有限公司 | 一种基于手势自动检测的加油区服务质量检测系统 |
US20200035019A1 (en) * | 2018-07-25 | 2020-01-30 | Sony Interactive Entertainment Inc. | Method and system for generating an image |
-
2020
- 2020-03-10 CN CN202010160951.0A patent/CN111368768A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200035019A1 (en) * | 2018-07-25 | 2020-01-30 | Sony Interactive Entertainment Inc. | Method and system for generating an image |
CN108939418A (zh) * | 2018-09-06 | 2018-12-07 | 西北工业大学 | 一种基于unity 3D的VR健身交互系统 |
CN110490125A (zh) * | 2019-08-15 | 2019-11-22 | 成都睿晓科技有限公司 | 一种基于手势自动检测的加油区服务质量检测系统 |
Non-Patent Citations (2)
Title |
---|
包晓安 等: "《基于扩展卷积神经网络与度量学习的指静脉识别》", 《浙江理工大学学报(自然科学版)》 * |
唐晖 等: "《基于深度学习的体感交互方法》", 《计算机与现代化》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112084984A (zh) * | 2020-09-15 | 2020-12-15 | 山东鲁能软件技术有限公司 | 一种基于改进的Mask RCNN的扶梯动作检测方法 |
CN112487877A (zh) * | 2020-11-12 | 2021-03-12 | 广东芯盾微电子科技有限公司 | 一种厨余垃圾规范操作的监控方法、系统、装置及介质 |
CN113486718A (zh) * | 2021-06-08 | 2021-10-08 | 天津大学 | 一种基于深度多任务学习的指尖检测方法 |
CN113486758A (zh) * | 2021-06-30 | 2021-10-08 | 浙江大学 | 一种手部穴位自动定位方法 |
CN113486758B (zh) * | 2021-06-30 | 2024-03-08 | 浙江大学 | 一种手部穴位自动定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368768A (zh) | 一种基于人体关键点的员工手势指引检测方法 | |
CN107895160A (zh) | 人脸检测与识别装置及方法 | |
CN111898406B (zh) | 基于焦点损失和多任务级联的人脸检测方法 | |
CN109635727A (zh) | 一种人脸表情识别方法及装置 | |
CN111797791A (zh) | 人体姿态识别方法及装置 | |
WO2020078119A1 (zh) | 模拟用户穿戴服装饰品的方法、装置和系统 | |
CN101441717B (zh) | 一种色情视频检测方法及检测系统 | |
CN108921051A (zh) | 基于循环神经网络注意力模型的行人属性识别网络及技术 | |
CN110175504A (zh) | 一种基于多任务级联卷积网络的目标检测和对齐方法 | |
CN108647625A (zh) | 一种表情识别方法及装置 | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN107301376B (zh) | 一种基于深度学习多层刺激的行人检测方法 | |
CN106326857A (zh) | 基于人脸图像的性别识别方法及装置 | |
CN104915658B (zh) | 一种基于情感分布学习的情感成分分析方法及其系统 | |
CN109886356A (zh) | 一种基于三分支神经网络的目标追踪方法 | |
WO2021068781A1 (zh) | 一种疲劳状态识别方法、装置和设备 | |
Singh et al. | Human pose estimation using convolutional neural networks | |
US20230041943A1 (en) | Method for automatically producing map data, and related apparatus | |
CN108229432A (zh) | 人脸标定方法及装置 | |
CN110135327A (zh) | 一种基于多区域特征学习模型的驾驶员行为识别方法 | |
WO2021217937A1 (zh) | 姿态识别模型的训练方法及设备、姿态识别方法及其设备 | |
CN106548194A (zh) | 二维图像人体关节点定位模型的构建方法及定位方法 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 | |
Zhang et al. | Human motion tracking and 3D motion track detection technology based on visual information features and machine learning | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |