CN111881804A

CN111881804A - 基于联合训练的姿态估计模型训练方法、系统、介质及终端

Info

Publication number: CN111881804A
Application number: CN202010711735.0A
Authority: CN
Inventors: 袁德胜; 游浩泉; 马卫民; 成西锋; 林治强; 党毅飞; 崔龙; 李伟超
Original assignee: Winner Technology Co ltd
Current assignee: Winner Technology Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-11-03
Anticipated expiration: 2040-07-22
Also published as: CN111881804B

Abstract

本发明提供一种基于联合训练的姿态估计模型训练方法、系统、介质及终端，所述方法包括以下步骤：对人体RGB图像进行特征提取，产生第一特征图；对人体深度图像进行特征提取，产生第二特征图；获取关键点热度图和部位关联场；预测关键点热度图和部位关联场中每个像素的偏移值；将计算得到的热度图损失和偏移量损失叠加，产生联合损失；利用联合损失更新姿态估计模型的权重，实现对姿态估计模型的训练；本发明使用深度图片和RGB图片双流输入，在使用RGB图像预测得到的关键点基础上，有效地利用了深度数据进行关键点的预测修正，且可灵活实现是否使用深度图片进行关键点修正的能力，有效解决了在复杂场景中，关键点匹配容易出错的问题。

Description

基于联合训练的姿态估计模型训练方法、系统、介质及终端

技术领域

本发明属于人体检测领域，特别是涉及一种基于联合训练的姿态估计模型训练方法、系统、介质及终端。

背景技术

基于计算机视觉技术的人体检测技术，一直以来都是各个研究机构、企业的研究热点，它有着广泛的应用场景和极高的商业价值，特别是人体姿态估计技术，是近年来人体检测技术的细分领域中的热门。

人体姿态估计是一种对经由监控设备采集得到图像进行分析，确定图像中人体姿态的技术，它涉及到人体检测与定位、人体关键点检测，关键点连接最优化等技术，通常与人体跟踪技术相结合，进一步分析监控画面中人体的行为，因此，人体姿态估计技术有着广泛的应用场景；比如在安保领域，这项技术能检测监控区域中，是否有人在做违规行为，并且提供预警功能；在商业应用领域，这项技术能对顾客的行为进行分析，为构建顾客画像提供更多维度的信息；在零售行业中，能分析店员和顾客的互动，结合商品销售情况，能更准确高效地挖掘出优质店员，给经营者提供全面的考核依据；人体姿态估计技术能为大数据分析提供更多维度的数据，这些数据具有极高的商业价值。人体姿态估计技术的流程是：输入一张图像，计算出图像中人体的关键点，并且将属于同一个人的关键点连接起来，输出这张图像的人体结构化数据。

目前人体姿态估计主流技术已经与深度学习技术紧密结合，从处理方式去分类，主流方法有两种，自顶向下和自底向上；其中，自顶向下使用两步的方法，首先需要使用人体检测器检测出图像中的人体，然后对每一个人体目标单独进行人体姿态估计，即每次都只能输出一个人体的姿态；自底向上的方法是对整张图像进行分析，直接得出图像中所有人体的关键点，然后分析所有关键点，估算出这些关键点从属于哪些人体；从关键点类型去分类，能分成2D姿态估计和3D姿态估计两种类型，前者预测的是图像坐标系中的关键点，后者是预测世界坐标系的关键点。

目前主流方法在应对普通场景时，已达到相当的精度，但是，面对复杂场景，即人流密集，图像中各个人体互相挤兑，又或是穿着相似时，就会出现人体关键点关联出错的结果。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于联合训练的姿态估计模型训练方法、系统、介质及终端，用于解决现有人体姿态估计技术中，由于人体遮挡、相似服饰而造成的关键点匹配容易出错的问题。

为实现上述目的及其他相关目的，本发明提供一种基于联合训练的姿态估计模型训练方法，包括以下步骤：对人体RGB图像进行特征提取，产生第一特征图；对人体深度图像进行特征提取，产生第二特征图；基于所述第一特征图获取关键点热度图和部位关联场；根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量；根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失；利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

于本发明的一实施例中，基于所述第一特征图获取关键点热度图和部位关联场包括以下两种情况：当对所述第一特征图只进行一级处理时，包括：根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场；当对所述第一特征图进行至少两级处理时，包括以下步骤：根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场；对所述第一特征图及经前一级处理产生的关键点热度图和部位关联场进行拼接处理，产生第一拼接特征图；根据所述第一拼接特征图获取对应级处理产生的关键点热度图和部位关联场。

于本发明的一实施例中，所述偏移量的输出次数与对所述第一特征图进行的处理级数相等，所述偏移量的输出包括以下步骤：对所述第二特征图及经对应级处理产生的关键点热度图和部位关联场进行拼接，产生第二拼接特征图；根据所述第二拼接特征图预测对应级处理产生的关键点热度图和部位关联场中每个像素的偏移值，以输出偏移量。

于本发明的一实施例中，所述联合损失的产生包括以下步骤：根据所述关键点热度图和所述部位关联场，计算出热度图损失函数，以根据所述热度图损失函数计算出所述热度图损失；根据使用所述偏移量对所述关键点热度图和所述部位关联场进行修正后，产生的修正的关键点热度图和部位关联场，计算出偏移量损失函数，以根据所述偏移量损失函数计算出所述偏移量损失；将所述热度图损失和所述偏移量损失进行叠加，产生所述联合损失。

于本发明的一实施例中，所述热度图损失函数和所述偏移量损失函数均采用平方误差损失函数。

于本发明的一实施例中，还包括以下步骤：获取数据集；所述数据集的每一数据子元素中均包括所述人体RGB图像和所述人体深度图像，且每一所述数据子元素中的所述人体RGB图像与所述人体深度图像相对应；搭建所述姿态估计模型，并对所述姿态估计模型进行初始化。

于本发明的一实施例中，还包括：对所述人体RGB图像和所述人体深度图像进行图像增强处理。

本发明提供一种基于联合训练的姿态估计模型训练系统，包括：第一产生模块、第二产生模块、获取模块、输出模块、计算模块及权重更新模块；所述第一产生模块用于对人体RGB图像进行特征提取，产生第一特征图；所述第二产生模块用于对人体深度图像进行特征提取，产生第二特征图；所述获取模块用于基于所述第一特征图获取关键点热度图和部位关联场；所述输出模块用于根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量；所述计算模块用于根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失；所述权重更新模块用于利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

本发明提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于联合训练的姿态估计模型训练方法。

本发明提供一种终端，包括：处理器及存储器；所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行上述的基于联合训练的姿态估计模型训练方法。

如上所述，本发明所述的基于联合训练的姿态估计模型训练方法、系统、介质及终端，具有以下有益效果：

(1)与现有技术相比，使用深度图片和RGB图片双流输入，在使用RGB图像预测得到的关键点基础上，有效地利用了深度数据进行关键点的预测修正，且可灵活实现是否使用深度图片进行关键点修正的能力，有效解决了在复杂场景中，关键点匹配容易出错的问题；

(2)提出了一种联合训练方式，联合训练预测结果和修正偏移量，在训练阶段，联合热度图损失和偏移量损失，对姿态估计模型的权重进行更新，使得该姿态估计模型在面对复杂场景、人流密集场所，可以进行精确的人体姿态估计，不受拥挤情况和相似服饰的干扰；在安防领域、商业领域都有很高的价值；

(3)本发明提出的姿态估计模型有着特殊结构，可以分段输出预测结果和修正结果，这就允许在实际应用时，可以根据实际需求和设备限制，只运行模型部分模块，也可以得到人体姿态估计的输出结果，具有非常高的灵活性。

附图说明

图1显示为本发明的基于联合训练的姿态估计模型训练方法于一实施例中的流程图。

图2显示为本发明的热度图估算模块于一实施例中的结构示意图。

图3显示为本发明的获取关键点热度图和部位关联场于一实施例中的流程图。

图4显示为本发明的预测偏移模块于一实施例中的结构示意图。

图5显示为本发明的输出偏移量于一实施例中的流程图。

图6显示为本发明的产生联合损失于一实施例中的流程图。

图7显示为本发明的姿态估计模型于一实施例中的工作原理图。

图8显示为本发明的基于联合训练的姿态估计模型训练系统于一实施例中的结构示意图。

图9显示为本发明的终端于一实施例中的结构示意图。

标号说明

21 共享权值单元

22 第一输出单元

23 第二输出单元

24 第三输出单元

81 第一产生模块

82 第二产生模块

83 获取模块

84 输出模块

85 计算模块

86 权重更新模块

91 处理器

92 存储器

S1～S6 步骤

S31～S33 步骤

S41～S42 步骤

S51～S53 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图示中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的基于联合训练的姿态估计模型训练方法、系统、介质及终端，与现有技术相比，使用深度图片和RGB图片双流输入，在使用RGB图像预测得到的关键点基础上，有效地利用了深度数据进行关键点的预测修正，且可灵活实现是否使用深度图片进行关键点修正的能力，有效解决了在复杂场景中，关键点匹配容易出错的问题；提出了一种联合训练方式，联合训练预测结果和修正偏移量，在训练阶段，联合热度图损失和偏移量损失，对姿态估计模型的权重进行更新，使得该姿态估计模型在面对复杂场景、人流密集场所，可以进行精确的人体姿态估计，不受拥挤情况和相似服饰的干扰；在安防领域、商业领域都有很高的价值；本发明提出的姿态估计模型有着特殊结构，可以分段输出预测结果和修正结果，这就允许在实际应用时，可以根据实际需求和设备限制，只运行模型部分模块，也可以得到人体姿态估计的输出结果，具有非常高的灵活性。

如图1所示，于一实施例中，本发明的基于联合训练的姿态估计模型训练方法包括以下步骤：

步骤S1、对人体RGB图像进行特征提取，产生第一特征图。

具体地，通过第一特征提取模块对获取的人体RGB图像进行特征提取，以产生第一特征图。

步骤S2、对人体深度图像进行特征提取，产生第二特征图。

具体地，通过第二特征提取模块对获取的人体深度图像进行特征提取，以产生第二特征图。

需要说明的是，由于RGB图像与深度图像不属于同一模态(跨模态)的数据，所以对人体RGB图像进行特征提取的特征提取模块与对人体深度图像进行特征提取的特征提取模块不能是同一特征提取模块，两特征提取模块对应的权重不能共享。

需要说明的是，模态是指数据的存在形式，如果两个数据对同一种物体的描述的形式不一样，这两个数据就是不同模态，应用在不同模态的数据间的任务就是跨模态任务。

进一步地，上述的第一特征提取模块和第二特征提取模块均可以采用但不限于采用预训练模型(ResNet-50)、轻量级模型(MobileNetV2)、VGG模型(VGG16)中的任意一种。

其中，ResNet(Deep Residual Networks,He et al.2015)的基本思想是：通过将网络各模块的输出与对应输入相加，保证了信息在网络中的传递，并且降低了神经网络的学习难度，行人纹理图得到的图像作为模型主输入的话会因为部分坏数据降低网络效果，因此对网络结构进行创新，降低无用信息的影响；MobileNetV2是一轻量级卷积神经网络；ResNet、MobileNetV2和VGG16均是本技术领域内常见的神经网络结构。

需要说明的是，特征提取模块是深度学习神经网络中用于提取图片特征(包括图片的纹理、颜色等对应图片数据的语义信息和空间信息)的基本结构，能输出高维特征图；于本实施例中，选用ResNet-50作为对人体RGB图像和对人体深度图像进行特征提取的特征提取模块(对人体RGB图像进行特征提取的特征提取模块与对人体深度图像进行特征提取的特征提取模块的权重不同)。

需要说明的是，步骤S1和步骤S2的执行顺序没有要求，不作为限制本发明的条件，可以步骤S1在前执行，步骤S2在后执行，也可以步骤S2在前执行，步骤S1在后执行，亦或是步骤S1和步骤S2同时执行。

于一实施例中，在经步骤S1和步骤S2分别对人体RGB图像和人体深度图像进行特征提取之前，该基于联合训练的姿态估计模型训练方法还包括：获取数据集。

具体地，通过视频采集设备采集包含有人体的RGBD流视频，并对RGB流和Depth流做好帧同步，以获取人体RGB图像和人体深度图像，通过采集的人体RGB图像和人体深度图像，构建数据集。

需要说明的是，深度图像＝普通的RGB图像+Depth Map(深度图)；其中，Depth Map是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道，类似于灰度图像，只是它的每个像素值是传感器距离物体的实际距离。

需要说明的是，所述数据集是由数据子元素组成的集合，该数据集中的每一个数据子元素中均包括所述人体RGB图像和所述人体深度图像，且每一所述数据子元素中的所述人体RGB图像与所述人体深度图像相对应(两图像上的像素点之间是一一对应的关系)，对应的人体RGB图像和人体深度图像上的内容是同步的。

进一步地，在进行特征提取前，将该数据集按照一定比例划分为训练集和测试集，例如，随机抽取数据集的70％作为训练集，剩余30％作为测试集，而将作为训练集的人体RGB图像和人体深度图像分别输入至第一特征提取模块和第二特征提取模块中。

于一实施例中，还包括：对所述人体RGB图像和所述人体深度图像进行图像增强处理。

具体地，在将作为训练集的人体RGB图像和人体深度图像分别输入至第一特征提取模块和第二特征提取模块中之前，对作为训练集的人体RGB图像和人体深度图像进行图像增强处理，增强的方法包括但不限于旋转、镜像和随机剪切，以此来模拟现实输入。

于一实施例中，在经步骤S1和步骤S2分别对人体RGB图像和人体深度图像进行特征提取之前，该基于联合训练的姿态估计模型训练方法还包括：搭建所述姿态估计模型，并对所述姿态估计模型进行初始化。

具体地，在进行姿态估计模型训练之前，预先搭建好一包括第一特征模块、第二特征提取模块、至少一热度图估算模块、至少一拼接模块及至少一预测偏移模块的姿态估计模型，并对该搭建好的姿态估计模型进行初始化。

需要说明的是，对姿态估计模型的初始化操作是本领域内常规的技术手段，不作为限制本发明的条件，所以，在此也不详细赘述初始化的具体方法。

进一步地，该搭建姿态估计模型，并对其进行初始化的步骤与上述获取数据集的步骤没有先后的执行顺序。

步骤S3、基于所述第一特征图获取关键点热度图和部位关联场。

具体地，将经步骤S1获取的第一特征图输入至热度图估算模块中，以获取关键点热度图和部位关联场。

需要说明的是，关键点热度图是指人体关键点(包括但不限于人体肩膀、锁骨、身体和手臂)的分布热力图，这些关键点是无主的，只是用来表示在某个位置有很大概率有某个关键点，但不知道这个关键点属于哪一个人体；部位关联场是关键点对之间的关联图，每一张“部位关联场”都代表特定两个关键点存在的关联情况，诸如，如果一张图中，存在一个人体的右肩膀的关键点和右手臂的关键点，那么对应部位关联场在右肩膀的关键点和右手臂的关键点连线处就会特定的数值(单位向量)；关键点热度图和部位关联场也可以看作是更细粒度的特征图。

如图2所示，于一实施例中，热度图估算模块包括共享权值单元21、第一输出单元22、第二输出单元23及第三输出单元24。

于一实施例中，所述共享权值单元21从上至下包括依次连接的卷积层Conv、规则层Relu、卷积层Conv、规则层Relu、卷积层Conv及规则层Relu；其中，最下端的规则层Relu的输出端分别与第一输出单元22、第二输出单元23连接。

需要说明的是，共享权值单元21不限于上述结构，可以替换为任意结构。

所述第一输出单元22从上至下包括依次连接的卷积层Conv、规则层Relu及卷积层Conv；其中，最上端的卷积层Conv的输入端与共享权值单元21中最下端的规则层Relu的输出端连接，最下端的卷积层Conv的输出端用于输出关键点热度图，同时，还将该关键点热度图输入至第三输出单元24。

所述第二输出单元23从上至下包括依次连接的卷积层Conv、规则层Relu及卷积层Conv；其中，最上端的卷积层Conv的输入端与共享权值单元21中最下端的规则层Relu的输出端连接，最下端的卷积层Conv的输出端用于输出部位关联场，同时，还将该部位关联场输入至第三输出单元24。

所述第三输出单元24包括拼接层Concat；所述拼接层Concat的输入端分别与第一输出单元22最下端的卷积层Conv的输出端、第二输出单元23最下端的卷积层Conv的输出端及第一特征提取模块的输出端连接，用于将第一特征图、关键点热度图及部位关联场拼接形成拼接特征图。

需要说明的是，该热度图估算模块的数量不作为限制本发明的条件。

于一实施例中，基于所述第一特征图获取关键点热度图和部位关联场包括以下两种情况：

(1)当对所述第一特征图只进行一级处理，即上述的热度图估算模块的数量为一时，包括：根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场。

需要说明的是，将经步骤S1获取的第一特征图输入至该热度图估算模块中；具体地，该热度图估算模块的共享权值单元最上端的卷积层Conv与第一特征提取模块的输出端连接，用于接收步骤S1产生的第一特征图，该热度图估算模块输出关键点热度图和部位关联场。

(2)如图3所示，于一实施例中，当对所述第一特征图进行至少两级处理，即上述的热度图估算模块的数量至少为二时，包括以下步骤：

步骤S31、根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场。

需要说明的是，对第一特征图进行预设级处理，而预设多少级处理取决于热度图估算模块的数量，诸如，对第一特征图进行三级处理，即热度图估算模块的数量为三。

具体地，当热度图估算模块的数量至少为二时，至少两个热度图估算模块依次串联连接，且位于串联连接首端的热度图估算模块的共享权值单元最上端的卷积层Conv与第一特征提取模块的输出端连接，用于接收经步骤S1产生的第一特征图，串联连接首端的热度图估算模块通过对该第一特征图进行一级处理，产生对应一级处理的关键点热度图和部位关联场。

需要说明的是，此处所述的“串联连接首端”是指按照执行顺序位于最开始位置。

步骤S32、对所述第一特征图及经前一级处理产生的关键点热度图和部位关联场进行拼接处理，产生第一拼接特征图。

需要说明的是，除串联连接首端外的热度图估算模块，其共享权值单元最上端的卷积层Conv均与前一热度图估算模块的拼接层Concat的输出端连接，用于接收前一热度图估算模块的拼接层Concat输出的拼接特征图。

具体地，每一级处理对应的热度图估算模块的拼接层Concat均对第一特征图及此级对应产生的关键点热度图和部位关联场进行拼接，产生第一拼接特征图。

步骤S33、根据所述第一拼接特征图获取对应级处理产生的关键点热度图和部位关联场。

具体地，经步骤S32获取了前一级处理对应产生的第一拼接特征图后，将该第一拼接特征图作为对应级处理的输入，输入至对应级处理的热度图估算模块中，以使对应级处理的热度图估算模块输出此级处理产生的关键点热度图和部位关联场。

步骤S4、根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量。

需要说明的是，预测偏移模块根据经步骤S2获取的第二特征图及经步骤S3获取的关键点热度图和部位关联场，预测出了关键点热度图和部位关联场中每个像素的偏移值，输出偏移量。

具体地，预测偏移模块根据第二特征图、关键点热度图和部位关联场，会输出两个特征图，一个是与关键点热度图同样宽和高，但维度是其两倍的特征图；另一个是与部位关联场同样宽和高，但维度是其两倍的特征图，这两个特征图分别表示的是关键点热度图和部位关联场的所有像素点在该坐标中的偏移值。

如图4所示，于一实施例中，预测偏移模块包括卷积层Conv、规则层Relu、叠加层Add(Add操作是信息之间的叠加，经过Add操作后，描述图像的特征下的信息量增多了，但是描述图像的维度本身并没有增加，只是每一维下的信息量在增加)及标准化层BatchNormalization；具体地，在预测偏移模块中，层与层之间的连接如图4所示。

进一步地，上述热度图估算模块和预测偏移模块中的卷积层均可替换为其它卷积方式，比如深度可分离卷积等。

于一实施例中，所述偏移量的输出次数与对所述第一特征图进行的处理级数相等，即预测偏移模块的数量与热度图估算模块的数量相等。

如图5所示，于一实施例中，所述偏移量的输出包括以下步骤：

步骤S41、对所述第二特征图及经对应级处理产生的关键点热度图和部位关联场进行拼接，产生第二拼接特征图。

具体地，预测偏移模块与热度图估算模块一一对应，通过拼接模块将每一级热度图估算模块产生的关键点热度图和部位关联场与经步骤S2获取的第二特征图进行拼接，产生第二拼接特征图，将该第二拼接特征图作为对应此级的预测偏移模块的输入。

优选地，拼接模块包括拼接层Concat，通过拼接层Concat对第二特征图、关键点热度图和部位关联场进行拼接，以产生第二拼接特征图。

步骤S42、根据所述第二拼接特征图预测对应级处理产生的关键点热度图和部位关联场中每个像素的偏移值，以输出偏移量。

具体地，预测偏移模块根据经步骤S41获取的第二拼接特征图预测出热度图估算模块对应级处理产生的关键点热度图和部位关联场中每个像素的偏移值，输出偏移量。

需要说明的是，本发明提出的姿态估计模型结构具有双流输入(人体RGB图像和人体深度图像)、多段输出(取决于热度图估算模块和预测偏移模块的数量)的特性，因此，在预测阶段，可以根据需求使能不同的模块，获得不同的输出；具体输出情况包括以下几种。

(1)只是用人体RGB图片做输入(只使用热度图估算模块，而不使用预测偏移模块)，只会输出没有修正的预测结果；

(2)只使用一个热度图估算模块，只会输出第一次的预测结果；

(3)利用RGB、Depth图像做双流输入，能同时得到预测结果和修正结果。

步骤S5、根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失。

如图6所示，于一实施例中，所述联合损失的产生包括以下步骤：

步骤S51、根据所述关键点热度图和所述部位关联场，计算出热度图损失函数，以根据所述热度图损失函数计算出所述热度图损失。

需要说明的是，热度图损失函数计算的是关键点热度图和部位关联场中，真值(第一特征图)和预测值(热度图估算模块的输出)的误差。

于一实施例中，所述热度图损失函数采用平方误差损失函数(L2 Loss)，将关键点热度图和部位关联场堆叠起来，作为热度图估算模块的预测值输出，计算与真值之间的误差。

步骤S52、根据使用所述偏移量对所述关键点热度图和所述部位关联场进行修正后，产生的修正的关键点热度图和部位关联场，计算出偏移量损失函数，以根据所述偏移量损失函数计算出所述偏移量损失。

具体地，使用步骤S4获取的偏移量对经步骤S3获取的关键点热度图和部位关联场进行修正，产生修正后的关键点热度图和部位关联场；偏移量损失函数计算的是修正后的关键点热度图和部位关联场中真值(第一特征图)和预测值(修正后的关键点热度图和部位关联场)的误差。

于一实施例中，所述偏移量损失函数采用平方误差损失函数(L2 Loss)，将修正后的关键点热度图和部位关联场堆叠起来，作为预测值输出，计算与真值之间的误差。

需要说明的是，对热度图损失和偏移量损失的计算次数分别取决于热度图估算模块和预测偏移模块的数量。

进一步地，L2 Loss的计算公式定义为：

其中，y_i表示真值；f(x_i)表示预测值；n表示像素总数；Loss_L2表示损失值(对应热度图损失或偏移量损失)。

需要说明的是，步骤S51和步骤S52的执行顺序没有要求，不作为限制本发明的条件，可以步骤S51在前执行，步骤S52在后执行，也可以步骤S52在前执行，步骤S51在后执行，亦或是步骤S51和步骤S52同时执行。

步骤S53、将所述热度图损失和所述偏移量损失进行叠加，产生所述联合损失。

具体地，将经步骤S51计算出的热度图损失与经步骤S52计算出的偏移量损失叠加在一起，即产生最终的联合损失。

步骤S6、利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

具体地，利用步骤S5获取的联合损失对姿态估计模型的权重进行更新，实现对姿态估计模型的训练。

需要说明的是，在训练阶段，联合热度图损失和偏移量损失，对姿态估计模型的权重进行更新，使得该姿态估计模型在面对复杂场景、人流密集场所，可以进行精确的人体姿态估计，不受拥挤情况和相似服饰的干扰。

进一步地，在经过上述步骤训练好姿态估计模型后，通过将作为测试集的人体RGB图像和人体深度图像输入至训练好的姿态估计模型中，对姿态估计模型的精度进行评估，选择表现最好(精度最高)的模型作为最终的姿态估计模型。

下面通过具体实施例来进一步解释说明本发明的基于联合训练的姿态估计模型训练方法。

如图7所示，于一实施例中，姿态估计模型包括第一特征提取模块、第二特征提取模块、三个热度图估算模块(分别为一级热度图估算模块、二级热度图估算模块、三级热度图估算模块)、三个拼接模块(分别为第一拼接模块、第二拼接模块、第三拼接模块)及三个预测偏移模块(分别为一级预测偏移模块、二级预测偏移模块、三级预测偏移模块)。

需要说明的是，该姿态估计模型中各模块之间的连接关系及数据的传输方向如图7中所示，具体不再赘述。

该基于联合训练的姿态估计模型训练方法的工作原理如下：

将人体RGB图像输入至第一特征提取模块中，产生第一特征图；将该第一特征图输入至一级热度图估算模块中，一级热度图估算模块根据第一特征图产生第一关键点热度图、第一部位关联场及对第一特征图、第一关键点热度图、第一部位关联场进行拼接产生的拼接特征图；将人体深度图像输入至第二特征提取模块中，产生第二特征图；将第二特征图、第一关键点热度图及第一部位关联场输入至第一拼接模块中，第一拼接模块产生将第二特征图、第一关键点热度图及第一部位关联场进行拼接后的拼接特征图，并将该拼接特征图输入至一级预测偏移模块中，一级预测偏移模块根据此拼接特征图输出第一偏移量；根据第一关键点热度图和第一部位关联场，计算出第一热度图损失函数；根据第一偏移量、第一关键点热度图和第一部位关联场，计算出第一偏移量损失函数。

将一级热度图估算模块输出的拼接特征图输入至二级热度图估算模块中，二级热度图估算模块根据此拼接特征图，产生第二关键点热度图、第二部位关联场及对第一特征图、第二关键点热度图、第二部位关联场进行拼接产生的拼接特征图；将第二特征图、第二关键点热度图及第二部位关联场输入至第二拼接模块中，第二拼接模块产生将第二特征图、第二关键点热度图及第二部位关联场进行拼接后的拼接特征图，并将该拼接特征图输入至二级预测偏移模块中，二级预测偏移模块根据此拼接特征图输出第二偏移量；根据第二关键点热度图和第二部位关联场，计算出第二热度图损失函数；根据第二偏移量、第二关键点热度图和第二部位关联场，计算出第二偏移量损失函数。

将二级热度图估算模块输出的拼接特征图输入至三级热度图估算模块中，三级热度图估算模块根据此拼接特征图，产生第三关键点热度图、第三部位关联场及对第一特征图、第三关键点热度图、第三部位关联场进行拼接产生的拼接特征图；将第二特征图、第三关键点热度图及第三部位关联场输入至第三拼接模块中，第三拼接模块产生将第二特征图、第三关键点热度图及第三部位关联场进行拼接后的拼接特征图，并将该拼接特征图输入至三级预测偏移模块中，三级预测偏移模块根据此拼接特征图输出第三偏移量；根据第三关键点热度图和第三部位关联场，计算出第三热度图损失函数；根据第三偏移量、第三关键点热度图和第三部位关联场，计算出第三偏移量损失函数。

将第一热度图损失函数、第二热度图损失函数、第三热度图损失函数、第一偏移量损失函数、第二偏移量损失函数及第三偏移量损失函数加在一起，得到联合损失函数(将由第一热度图损失函数计算得到的第一热度图损失、由第二热度图损失函数计算得到的第二热度图损失、由第三热度图损失函数计算得到的第三热度图损失、由第一偏移量损失函数计算得到的第一偏移量损失、由第二偏移量损失函数计算得到的第二偏移量损失及由第三偏移量损失函数计算得到的第三偏移量损失加在一起，得到联合损失)。

利用联合损失更新该姿态估计模型的权重，实现对姿态估计模型的训练。

需要说明的是，本发明所述的基于联合训练的姿态估计模型训练方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

如图8所示，于一实施例中，本发明的基于联合训练的姿态估计模型训练系统包括第一产生模块81、第二产生模块82、获取模块83、输出模块84、计算模块85及权重更新模块86。

所述第一产生模块81用于对人体RGB图像进行特征提取，产生第一特征图。

所述第二产生模块82用于对人体深度图像进行特征提取，产生第二特征图。

所述获取模块83用于基于所述第一特征图获取关键点热度图和部位关联场。

所述输出模块84用于根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量。

所述计算模块85用于根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失。

所述权重更新模块86用于利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

需要说明的是，所述第一产生模块81、所述第二产生模块82、所述获取模块83、所述输出模块84、所述计算模块85及所述权重更新模块86的结构及原理与上述基于联合训练的姿态估计模型训练方法中的步骤一一对应，故在此不再赘述。

需要说明的是，应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述系统的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述系统的存储器中，由上述系统的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个数字信号处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本发明的存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于联合训练的姿态估计模型训练方法。所述存储介质包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

如图9所示，本发明的终端包括处理器91及存储器92。

所述存储器92用于存储计算机程序；优选地，所述存储器92包括：ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。

所述处理器91与所述存储器92相连，用于执行所述存储器92存储的计算机程序，以使所述终端执行上述的基于联合训练的姿态估计模型训练方法。

优选地，所述处理器91可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明的基于联合训练的姿态估计模型训练系统可以实现本发明的基于联合训练的姿态估计模型训练方法，但本发明的基于联合训练的姿态估计模型训练方法的实现装置包括但不限于本实施例列举的基于联合训练的姿态估计模型训练系统的结构，凡是根据本发明的原理所做的现有技术的结构变形和替换，都包括在本发明的保护范围内。

综上所述，本发明的基于联合训练的姿态估计模型训练方法、系统、介质及终端，与现有技术相比，使用深度图片和RGB图片双流输入，在使用RGB图像预测得到的关键点基础上，有效地利用了深度数据进行关键点的预测修正，且可灵活实现是否使用深度图片进行关键点修正的能力，有效解决了在复杂场景中，关键点匹配容易出错的问题；提出了一种联合训练方式，联合训练预测结果和修正偏移量，在训练阶段，联合热度图损失和偏移量损失，对姿态估计模型的权重进行更新，使得该姿态估计模型在面对复杂场景、人流密集场所，可以进行精确的人体姿态估计，不受拥挤情况和相似服饰的干扰；在安防领域、商业领域都有很高的价值；本发明提出的姿态估计模型有着特殊结构，可以分段输出预测结果和修正结果，这就允许在实际应用时，可以根据实际需求和设备限制，只运行模型部分模块，也可以得到人体姿态估计的输出结果，具有非常高的灵活性；所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于联合训练的姿态估计模型训练方法，其特征在于，包括以下步骤：

对人体RGB图像进行特征提取，产生第一特征图；

对人体深度图像进行特征提取，产生第二特征图；

基于所述第一特征图获取关键点热度图和部位关联场；

根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量；

根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失；

利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

2.根据权利要求1所述的基于联合训练的姿态估计模型训练方法，其特征在于，基于所述第一特征图获取关键点热度图和部位关联场包括以下两种情况：

当对所述第一特征图只进行一级处理时，包括：根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场；

当对所述第一特征图进行至少两级处理时，包括以下步骤：

根据所述第一特征图获取一级处理产生的关键点热度图和部位关联场；

对所述第一特征图及经前一级处理产生的关键点热度图和部位关联场进行拼接处理，产生第一拼接特征图；

根据所述第一拼接特征图获取对应级处理产生的关键点热度图和部位关联场。

3.根据权利要求2所述的基于联合训练的姿态估计模型训练方法，其特征在于，所述偏移量的输出次数与对所述第一特征图进行的处理级数相等，所述偏移量的输出包括以下步骤：

对所述第二特征图及经对应级处理产生的关键点热度图和部位关联场进行拼接，产生第二拼接特征图；

根据所述第二拼接特征图预测对应级处理产生的关键点热度图和部位关联场中每个像素的偏移值，以输出偏移量。

4.根据权利要求1所述的基于联合训练的姿态估计模型训练方法，其特征在于，所述联合损失的产生包括以下步骤：

根据所述关键点热度图和所述部位关联场，计算出热度图损失函数，以根据所述热度图损失函数计算出所述热度图损失；

根据使用所述偏移量对所述关键点热度图和所述部位关联场进行修正后，产生的修正的关键点热度图和部位关联场，计算出偏移量损失函数，以根据所述偏移量损失函数计算出所述偏移量损失；

将所述热度图损失和所述偏移量损失进行叠加，产生所述联合损失。

5.根据权利要求4所述的基于联合训练的姿态估计模型训练方法，其特征在于，所述热度图损失函数和所述偏移量损失函数均采用平方误差损失函数。

6.根据权利要求1所述的基于联合训练的姿态估计模型训练方法，其特征在于，还包括以下步骤：

获取数据集；所述数据集的每一数据子元素中均包括所述人体RGB图像和所述人体深度图像，且每一所述数据子元素中的所述人体RGB图像与所述人体深度图像相对应；

搭建所述姿态估计模型，并对所述姿态估计模型进行初始化。

7.根据权利要求1所述的基于联合训练的姿态估计模型训练方法，其特征在于，还包括：

对所述人体RGB图像和所述人体深度图像进行图像增强处理。

8.一种基于联合训练的姿态估计模型训练系统，其特征在于，包括：第一产生模块、第二产生模块、获取模块、输出模块、计算模块及权重更新模块；

所述第一产生模块用于对人体RGB图像进行特征提取，产生第一特征图；

所述第二产生模块用于对人体深度图像进行特征提取，产生第二特征图；

所述获取模块用于基于所述第一特征图获取关键点热度图和部位关联场；

所述输出模块用于根据所述第二特征图、所述关键点热度图和所述部位关联场，预测所述关键点热度图和所述部位关联场中每个像素的偏移值，以输出偏移量；

所述计算模块用于根据所述关键点热度图、所述部位关联场及所述偏移量，计算出热度图损失和偏移量损失，并将所述热度图损失和所述偏移量损失叠加，以产生联合损失；

所述权重更新模块用于利用所述联合损失更新姿态估计模型的权重，以实现对所述姿态估计模型的训练。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的基于联合训练的姿态估计模型训练方法。

10.一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行权利要求1至7中任一项所述的基于联合训练的姿态估计模型训练方法。