CN114842389A

CN114842389A - 一种实时的鲁棒的两阶段姿态预估方法

Info

Publication number: CN114842389A
Application number: CN202210506957.8A
Authority: CN
Inventors: 郑群; 王家彬
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-02
Anticipated expiration: 2042-05-11
Also published as: CN114842389B

Abstract

本发明公开了一种实时的鲁棒的两阶段姿态预估方法，属于深度学习计算机视觉技术领域，该方法的实现过程如下：采集装置捕获外界视频流中的目标人体图像；将上述目标人体图像输入至姿态预估模型中的YOLOV3目标检测模型，检测每一帧图像中的目标人体位置并标记检测框，得到目标人体的特征信息；将上述目标人体的特征信息传递给姿态检测模型Fast Pose,得到检测框内人体关键点的Heat Map数据信息；将上述得到的Heat Map数据信息通过仿射变换操作映射到原图像中，得到带有人体关键点标注信息的图像。本发明能够提升人体关键点定位的准确性、稳定性，提升了姿态检测模型的检测性能。

Description

一种实时的鲁棒的两阶段姿态预估方法

技术领域

本发明涉及深度学习计算机视觉技术领域，具体涉及一种实时的鲁棒的两阶段姿态预估方法。

背景技术

人体姿态预估是指对于场景中的人，通过人体姿态预估模型定位场景中人体的位置并检测人体姿态标注关键点位置，此处的场景包含一张图片或者视频流等。当场景中的人较多且有大量身体部位遮挡时，导致身体某些部位的信息损失，人体姿态预估模型很难区分遮挡的身体部位是否属于同一人，导致算法模型误检几率增加，人体姿态预估模型的抗干扰性、鲁棒性就会显著下降。

发明内容

本发明的技术任务是提供一种实时的鲁棒的两阶段姿态预估方法，能够提升人体关键点定位的准确性、稳定性，提升了姿态检测模型的检测性能。

本发明解决其技术问题所采用的技术方案是：

一种实时的鲁棒的两阶段姿态预估方法，该方法的实现过程如下：

1)、采集装置捕获外界视频流中的目标人体图像；

2)、将上述目标人体图像输入至姿态预估模型中的YOLOV3目标检测模型，检测每一帧图像中的目标人体位置并标记检测框，得到目标人体的特征信息；

3)、将上述目标人体的特征信息传递给姿态检测模型Fast Pose,得到检测框内人体关键点的Heat Map数据信息；

4)、将上述得到的Heat Map数据信息通过仿射变换操作映射到原图像中，得到带有人体关键点标注信息的图像；

其中，所述YOLOV3目标检测模型经过基于代价敏感学习的RFCS算法修改，即RFCS-YOLOV3目标检测模型。

采集装置选用的摄像头为单目2D摄像头，首先对单目摄像头进行标定，用于消除拍摄到的照片人物周围边缘处的畸变并得到内外参数矩阵。

视频流进入YOLOV3目标检测模型之前被切分成一帧一帧的单张图片，然后对每一帧图像中的人物进行检测。

进一步的，所述RFCS-YOLOV3目标检测模型，使用公开数据集MSCOCO 2017训练得到：

首先对MSCOCO 2017数据集使用图像增强技术进行图像预处理操作，使用DarkNet-53提取处理后的图像的特征；

将所得到的特征输送进YOLOV3检测器中进行检测，得到带有人体检测框标记信息的特征图；

由于数据集中存在正向类负向类样本不均衡的现象，就会导致目标检测模型性能下降，为了降低数据不同类之间不均衡带来的负面影响，本方法提出基于代价敏感学习的方法降低正负样本数量差异带来的负面影响。

进一步的，模型训练过程中数据不同类之间会出现不均衡的现象，负向类的数量大于正向类时就会导致模型的学习能力下降间接导致检测性能下降，所述基于代价敏感学习的方法为：不同的类赋予不同的权重，在模型训练反向传播的过程中为损失函数设置不同的敏感因子，使模型更加关注被分错的样本类，通过模型不断的迭代降低各个类的损失提升检测器性能。

进一步的，按照指定的比率在MSCOCO 2017数据集上进行不放回采样，对采样后的图像进行遮挡、旋转、扭曲变换操作，对处理后的图像进行拼接裁剪形成多样性数据集并将此数据集随机填充在MSCOCO 2017数据集中。

优选的，遮挡、旋转、扭曲所占MSCOCO2017数据集的比例分别设置为3％、3％、7％。

优选的，将采样后的图像按照指定比率再采样，得到的图像按照随机概率将图像的像素值置为0形成掩膜(Mask)；记录当前Mask的位置，下一次Mask填充继续使用随机概率将图像的像素值置为0，记录Mask位置；若Mask位置重复则不再进行Mask填充，若Mask位置有交叉则取差集；每次Mask填充形成一张新的图片；

对采样后的每张图像进行旋转，旋转角度为[0，45，90，135，180，225，270，315]，每次旋转形成一张新图片；

对采样后的图像进行弹性扭曲仿射变换，选取不同的弹性因子将图像进行不同程度的扭曲；不同程度的弹性因子对图像的扭曲程度不同，弹性因子的选择取决于所选择的高斯卷积函数的标准差σ，如果σ选择的值较小或者较大在归一化的过程中随机性大，则会导致生成的扭曲图像规律性差，处在中间的σ值具有不同程度的方向性和扭曲性；

将遮挡、旋转、扭曲变换后的图像按照旋转角度[0，45，90，135，180，225，270，315]进行拼接，拼接后的图像按照指定的比例进行裁剪成一张新图像，得到的新图像与原图像宽高一致。

进一步的，使用轻量级的姿态蒸馏算法模型提升算法的推理性能，在Fast Pose姿态检测模型中引入时空注意力机制，时空注意力机制对图像中的目标物体进行定位；

Fast Pose中的教师模型和学生模型提取图像特征之前首先使用1×1卷积对图像进行升维操作，然后接一个3×3卷积块，再接一个1×1卷积块平滑特征；使用沙漏网络(Hourglass Network)训练一个大型的教师(Teacher Network)人体预估模型，教师模型学到的知识用来训练目标学生模型，学生模型采用轻量级的沙漏网络；训练过程中，教师网络为学生网络提供软标签(soft label)，测试时去掉教师网络模型，直接使用学生网络模型进行姿态预估；

将Fast Pose姿态检测模型输出的Heat Map数据信息使用映射函数转化到原图像中，转化过程中出现的像素点偏移使用双线性插值进行纠正。

优选的，所述代价敏感学习方法为基于高斯惩罚的权重敏感学习方法，使用海林格距离计算空间中的两个连续分布(真值框P_t,预测框Q_z)之间的距离度量；

首先引入数据离散分布时的海林格距离公式，如公式1所示：

对公式1进一步化简，得到公式2：

接着对于两个连续性数据分布，引入第三个概率测度λ，它们之间是绝对连续的，海林格如公式3所示：

进一步化简得到公式4：

将公式3中的λ定义为Lebesgue度量，得到公式5：

根据Cauchy-Schwarz Inequality不等式可知公式5阈值为公式6：

0≤HD(P_t，Q_z)≤1 公式6

权重高斯惩罚函数如公式7所示：

进一步对传统YOLOV3检测框的回归损失进行改进，如公式8所示：

本发明还要求保护一种实时的鲁棒的两阶段姿态预估装置，至少一个512GB存储器、至少一个8核CPU处理器和至少一张型号为GTX1080TI以上的显卡；

所述至少一个512GB存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的实时的鲁棒的两阶段姿态预估方法；

所述至少一张型号为GTX1080TI以上的显卡，用于加速对每张图像提取特征和推理速度，执行上述的实时的鲁棒的两阶段姿态预估方法。

本发明还要求保护计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述的实时的鲁棒的两阶段姿态预估方法。

本发明的一种实时的鲁棒的两阶段姿态预估方法与现有技术相比，具有以下有益效果：

本方法提供了一种新的人体姿态预估算法，可以进一步提升人体关键点定位的准确性、稳定性；

本方法提供了一种新的权重调节方式，该方式能够降低模型后处理在样本类不均衡条件下带来的负面效果，提高模型的预测精度；

本方法还提供了一种新的检测框回归损失函数，提升YOLOv3目标检测模型的检测框定位性能。

附图说明

图1是本发明实施例提供的一种实时的鲁棒的两阶段姿态预估方法实现流程图；

图2是本发明实施例提供的姿态预估方法模型模块框架图；

图3是本发明实施例提供的MSCOCO 2017数据集预处理流程图；

图4是本发明实施例提供的数据增强人脸区域掩膜示例图；

图5是本发明实施例提供的数据增强身体区域掩膜示例图；

图6是本发明实施例提供的数据增强旋转示例图；

图7是本发明实施例提供的数据增强人体扭曲变形示例图；

图8是本发明实施例提供的RFCS-YOLOV3目标检测算法框架图；

图9是本发明实施例提供的Fast Pose姿态检测模型架构图；

图10是本发明实施例提供的试验结果对比图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

在训练姿态预估模型时，为了增强姿态模型的鲁棒性，通常使用数据增强的方法提升模型的抗干扰性，也可以避免模型在训练过程中出现过拟合现象。常用的数据增强的方法包含：单张图片的平移、水平翻转、裁剪，平滑降噪、明暗度调整等方式。但这些数据增强的方式不能很好的模拟现实场景中人物姿态的变化，即使加入这些数据增强方式人体姿态预估模型也无法检测出人体蜷缩，身体部位遮挡等条件下的身体关键点位置。

针对该问题，本发明实施例提供了一种实时的鲁棒的两阶段姿态预估方法，该方法的实现过程如下：

1)、采集装置捕获外界视频流中的目标人体图像；

其中，采集装置使用捕获外界视频流中的目标人体图像，摄像头选用的摄像头为单目2D摄像头，首先对单目摄像头进行标定，用于消除拍摄到的照片人物周围边缘处的畸变并得到内外参数矩阵。

视频流进入YOLOV3目标检测模型之前被切分成一帧一帧的单张图片，然后对每一帧图像中的人物进行检测。所述YOLOV3目标检测模型经过基于代价敏感学习的RFCS算法修改后的目标检测模型，成为RFCS-YOLOV3目标检测模型。

所述RFCS-YOLOV3目标检测模型，使用公开数据集MSCOCO 2017训练得到：

模型训练过程中数据不同类之间会出现不均衡的现象，负向类的数量大于正向类时就会导致模型的学习能力下降间接导致检测性能下降，所述基于代价敏感学习的方法为：不同的类赋予不同的权重，在模型训练反向传播的过程中为损失函数设置不同的敏感因子，使模型更加关注被分错的样本类，通过模型不断的迭代降低各个类的损失提升检测器性能。

按照一定的比率在MSCOCO 2017数据集上进行不放回采样，对采样后的图像进行遮挡、旋转、扭曲变换操作，对处理后的图像进行拼接裁剪形成多样性数据集并将此数据集随机填充在MSCOCO 2017数据集中。

将采样后的图像按照一定比率再采样，得到的图像按照随机概率将图像的像素值置为0形成掩膜(Mask)；记录当前Mask的位置，下一次Mask填充继续使用随机概率将图像的像素值置为0，记录Mask位置；若Mask位置重复则不再进行Mask填充，若Mask位置有交叉则取差集；每次Mask填充形成一张新的图片；

使用轻量级的姿态蒸馏算法模型提升算法的推理性能，在Fast Pose姿态检测模型中引入时空注意力机制，时空注意力机制对图像中的目标物体进行定位；

首先利用目标检测器得到图像中人所处位置并标记边界框，然后在每一个边界框中检测人体关键点；两阶段姿态预估算法对目标检测模型中边界框定位的准确性非常敏感，在本方法中目标检测模型采用YOLOV3(You Only Look Once)一阶段目标检测器，姿态检测模型采用轻量级的基于知识蒸馏的Fast Pose模型；针对目标检测模型后处理中容易出现的样本长尾分布现象，本方法提出的基于代价敏感学习的RFCS(Rethinking FeatureCost-Sensitive Learning)算法，降低样本分布不均造成的目标定位不准确的影响。

实验证明，本专利提出的RFCS算法提升了YOLOV3目标检测器对于小目标的检测性能，进一步提升了姿态检测模型的检测性能。

以下通过附图对本实施例进行详细说明：

图2展示的是人体姿态预计算法模型框架图，包括外接视频流的获取(或者是单张图片的输入)、目标检测模块、人体姿态预估模块。

外接视频流或者图片的获取在本方法中使用终端设备外接摄像头，但不限于外接摄像头，还可以是手机、平板电脑、相机等手持家用终端设备。外接摄像头可以选择有线接线式或无线连接数据远程传送给云端服务器的存储设备。获取的视频流中的人体图像即为待检测的人体姿态数据，此处的视频流中的人体可以是多张图片的拼接剪辑也可以是合成图像。

将获取到的视频流输入到检测模型前需要对视频流的宽、高，依据模型能处理的图像大小进行等比例放缩，处理后的图像进入人体姿态检测模型的目标检测模型中提取图像特征，检测图像中是否存在目标人体，若存在对目标人体标注检测框，若没有则不进行标注。

将目标检测模型输出的结果传递给人体姿态检测模型Fast Pose,人体姿态检测模型对目标检测模型传来的特征数据进行分析，提取特征数据中带有目标检测框的人体信息，人体信息包括目标人体的外轮廓信息，目标人体相对于整张图片的位置信息。目标人体轮廓信息具有较强的语义信息，当图像中的含有较多目标人体且存在身体部位遮挡时，使用目标人体的轮廓信息可以更加精确地定位每一个目标人体部位信息。人体姿态检测模型对检测框中的目标人体检测人体关键点，本方法中使用17个关键点标记目标人体，这17个关键点包括：目标人体的鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右腕、左胯、右胯、左膝、右膝、左踝、右踝，每个人体关节处标记一个关键点。

图3是MSCOCO 2017数据集的数据流程图，流程图中的α，β，γ所占MSCOCO2017数据集的比例分别设置为3％、3％、7％。

图4、图5和图6、图7分别展示的是MSCOCO 2017数据集经过掩膜和旋转、扭曲处理后的效果图。

图8展示的是RFCS-YOLOV3目标检测模型处理流程图，传统的YOLOV3目标检测模型推理速度快，对于中大型物体(中型目标尺度：(32x32,96x96),大型目标尺度：>96x96)目标的检测效果好，但是对于小物体(目标尺度：<32x32)的检测精度仍需要提升。我们提出了一种基于损失函数代价敏感学习的方法称为RFCS。

一张图像在神经元网络中处理时，浅层的神经网络中存在较好的物体实体信息，包含物体的轮廓，颜色等纹理信息。有利于检测小目标物体；深层次的神经元网络中包含的小物体信息相对较少，中大型物体的实体信息保留较多，因此深层次的神经元网络适合检测中大型物体，在深层的神经网络中具有较好的语义信息，但不利于小目标物体检测。因此目标检测模型对于小目标物体的检测精度就会下降损失就会加大。对于模型检测中的难例(Hard Example,指的是预测时与真值标签误差较大的样本)引入代价敏感学习方法，提升难例挖掘性能。针对目标检测网络中分错的样本给予更大的权重，对于正确检测的样本赋予小的权重。需要注意的是在神经网络反向传递的过程中权重值若果过大容易导致梯度爆炸，梯度爆炸会导致损失函数无法收敛，神经网络学习不到新知识，进一步导致检测性能差。常见测权重控制方法有裁剪法，权重裁剪会导致权重分布不均，权重会集中分布在裁剪阈值边缘，就会导致神经网络收敛性下降，容易出现网络模型训练困难的情况。为了解决上述问题引入了基于高斯惩罚的权重敏感学习方法，使用海林格距离(Hellinger Distance,简称HD)计算空间中的两个连续分布(P_t：真值框(Bounding Box),Q_z：预测框(PredictionBox))之间的距离度量。首先引入数据离散分布时的海林格距离公式，如公式1所示：

对公式1进一步化简，得到公式2：

接着对于两个连续性数据分布，引入第三个概率测度λ它们之间是绝对连续的，海林格如公式3所示：

进一步化简得到公式4：

将公式3中的λ定义为Lebesgue度量，得到公式5：

根据柯西-施瓦茨(Cauchy-Schwarz Inequality)不等式可知公式5阈值为公式6：

0≤HD(P_t，Q_z)≤1 公式6

权重高斯惩罚函数如公式7所示：

进一步对传统YOLOV3检测框的回归损失进行改进如公式8所示，其中λ为权重系数，在本实施例中λ的取值为2：

提出的RFCS-YOLOV3可以根据错误样本的波动情况自适应的调整分类错误样本的权重。对于传统YOLOV3目标检测器检测框的回归损失的改进，提升了YOLOV3检测阶段检测框定位的准确性和稳定性，进一步提升了人体姿态检测模型关键点标注的准确性。

图9展示的是人体姿态检测模型Fast Pose流程图，Fast Pose使用了知识蒸馏技术，数据使得模型更加轻量化，推理速度更快。Fast Pose中的教师模型和学生模型提取图像特征之前首先使用1×1卷积对图像进行升维操作，然后接一个3×3卷积块，再接一个1×1卷积块平滑特征。使用沙漏网络(Hourglass Network)训练一个大型的教师(TeacherNetwork)人体预估模型，教师模型学到的知识用来训练目标学生模型。学生模型采用轻量级的沙漏网络。训练过程中，教师网络为学生网络提供软标签(soft label)测试时去掉教师网络模型，直接使用学生网络模型进行姿态预估。

将上一步中的姿态预估结果通过仿射函数转化到原图像中，就得到了带有人体关键点标注的图像。在此转化过程中由于图像缩放导致的信息损失容易出现目标位置定位不准确的问题，使用双线性插值在原图像位置及其周围4个临近像素点值通过线性加权平均计算出一个新的位置，这个新位置即为转化映射位置。由于新位置距离原始图片中的目标位置误差是最小的，因此使用双线性插值可以进一步提升姿态预估模型的检测精确度。

模型部署：将上述训练好的模型进行量化，部署至国产AI加速卡上。传入人体图像或者视频流，使用模型进行预测，返回预测目标人物的关键点检测结果。

本发明实施例还提供了一种实时的鲁棒的两阶段姿态预估装置，包括：至少一个512GB存储器、至少一个8核CPU处理器和至少一张型号为GTX1080TI以上的显卡；

所述至少一个512GB存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述实施例中所述的的实时的鲁棒的两阶段姿态预估方法；

所述至少一张型号为GTX1080TI以上的显卡，用于加速对每张图像提取特征和推理速度，执行上述实施例中所述的实时的鲁棒的两阶段姿态预估方法。

本发明实施例还提供一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述实施例中所述的实时的鲁棒的两阶段姿态预估方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或GPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种实时的鲁棒的两阶段姿态预估方法，其特征在于该方法的实现过程如下：

1)、采集装置捕获外界视频流中的目标人体图像；

2.根据权利要求1所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于所述RFCS-YOLOV3目标检测模型，使用公开数据集MSCOCO 2017训练得到：

将所得到的特征输送进YOLOV3检测器中进行检测，得到带有人体检测框标注信息的特征图；

基于代价敏感学习的方法降低正负样本数量差异对模型的检测性能带来的负面影响。

3.根据权利要求2所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于所述基于代价敏感学习的方法为：不同的类赋予不同的权重，在模型训练反向传播的过程中为损失函数设置不同的敏感因子，使模型更加关注被分错的样本类，通过模型不断的迭代降低各个类的损失提升检测器性能。

4.根据权利要求2所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于按照指定的比率在MSCOCO 2017数据集上进行不放回采样，对采样后的图像进行遮挡、旋转、扭曲变换操作，对处理后的图像进行拼接裁剪形成多样性数据集并将此数据集随机填充在MSCOCO 2017数据集中。

5.根据权利要求4所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于遮挡、旋转、扭曲所占MSCOCO2017数据集的比例分别设置为3％、3％、7％。

6.根据权利要求4或5所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于将采样后的图像按照指定比率再采样，得到的图像按照随机概率将图像的像素值置为0形成掩膜；记录当前Mask的位置，下一次Mask填充继续使用随机概率将图像的像素值置为0，记录Mask位置；若Mask位置重复则不再进行Mask填充，若Mask位置有交叉则取差集；每次Mask填充形成一张新的图片；

对采样后的图像进行弹性扭曲仿射变换，选取不同的弹性因子将图像进行不同程度的扭曲；

7.根据权利要求6所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于使用轻量级的姿态蒸馏算法模型提升算法的推理性能，在Fast Pose姿态检测模型中引入时空注意力机制，时空注意力机制对图像中的目标物体进行定位；

Fast Pose中的教师模型和学生模型提取图像特征之前首先使用1×1卷积对图像进行升维操作，然后接一个3×3卷积块，再接一个1×1卷积块平滑特征；使用沙漏网络训练一个大型的教师人体预估模型，教师模型学到的知识用来训练目标学生模型，学生模型采用轻量级的沙漏网络；训练过程中，教师网络为学生网络提供软标签，测试时去掉教师网络模型，直接使用学生网络模型进行姿态预估；

8.根据权利要求3所述的一种实时的鲁棒的两阶段姿态预估方法，其特征在于所述代价敏感学习方法为基于高斯惩罚的权重敏感学习法，使用海林格距离计算空间中的两个连续分布(真值框P_t,预测框Q_z)之间的距离度量；

首先引入数据离散分布时的海林格距离公式，如公式1所示：