CN113408568B

CN113408568B - 对象关键点的检测模型训练的相关方法、装置、设备

Info

Publication number: CN113408568B
Application number: CN202110412938.4A
Authority: CN
Inventors: 谢宇; 贾若然; 谭昶; 汤进; 李成龙
Original assignee: iFlytek Co Ltd; Anhui University
Current assignee: iFlytek Co Ltd; Anhui University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2024-04-16
Anticipated expiration: 2041-04-16
Also published as: CN113408568A

Abstract

本申请公开了对象关键点的检测模型训练的相关方法、装置、设备，其中，对象关键点的检测模型训练方法包括：获取到样本图片，将样本图片输入到检测模型中，得到样本图片的初始特征图；其中，样本图片中包括样本对象；基于初始特征图生成样本图片对应的第一热图；基于标准检测结果与第一热图生成第二热图；基于标准检测结果以及第一热图和/或第二热图对检测模型进行训练，得到训练后的检测模型。上述方案，能够提高对象关键点的检测精度。

Description

对象关键点的检测模型训练的相关方法、装置、设备

技术领域

本申请涉及关键点检测的技术领域，特别是涉及对象关键点的检测模型训练的相关方法、装置、设备。

背景技术

随着科学技术的高速发展，智能识别技术在国民的日常生活中应用得越来越广泛。例如，人脸识别在安保防护场景中具备十分重大的意义，而车辆识别在交通道路领域中也逐步得到应用。

而各种智能识别技术基本都依赖于对目标对象的关键点进行检测，以作为智能识别技术的基础性技术。同时一个好的对象关键点检测算法也对各识别场景起着至关重要的作用。

但目前对象关键点的检测精度不高，难以支持各识别场景中的应用。

发明内容

本申请提供了对象关键点的检测模型训练的相关方法、装置、设备，以解决现有技术中存在的对象关键点的检测精度较低的问题。

本申请提供了一种对象关键点的检测模型训练方法，包括：获取到样本图片，将样本图片输入到检测模型中，得到样本图片的初始特征图；其中，样本图片中包括样本对象；基于初始特征图生成样本图片对应的第一热图；基于标准检测结果与第一热图生成第二热图；基于标准检测结果以及第一热图和/或第二热图对检测模型进行训练，得到训练后的检测模型。

其中，标准检测结果包括标准坐标结果以及标准分类结果；基于初始特征图生成样本图片对应的第一热图的步骤包括：将初始特征图输入到检测模型的第一沙漏网络中进行特征处理，得到包括多个通道的第一热图；其中，各通道对应包括各关键点的初始特征值；基于标准检测结果与第一热图生成第二热图的步骤包括：利用标准分类结果将第一热图的初始特征值进行融合；将融合后的第一热图输入到检测模型的第二沙漏网络中再次进行特征处理，得到包括多个通道的第二热图；其中，各通道对应包括各关键点的特征值。

其中，对象包括车辆，标准分类结果包括可见关键点、不可见关键点或遮挡关键点；利用标准分类结果将第一热图的初始特征值进行融合的步骤包括：基于标准分类结果增大第一热图中可见关键点的初始特征值，以及缩小不可见关键点以及遮挡关键点的初始特征值。

其中，基于标准检测结果以及第一热图和/或第二热图对检测模型进行训练，得到训练后的检测模型的步骤包括：将第一热图中各通道的特征值和/或第二热图中各通道的特征值与标准坐标结果对应的热图中的特征值进行逐像素多类交叉熵损失，以对检测模型进行训练。

其中，获取到样本图片的步骤还包括：接收人工对样本图片进行处理，得到标准检测结果；或接收检测模型对样本图片进行处理，得到标准检测结果的标准分类结果；以及接收人工对样本图片进行处理，得到标准检测结果的标准坐标结果。

其中，接收检测模型对样本图片的处理，得到标准检测结果的步骤包括：接收人工处理后的训练图片，获取训练图片的标准分类结果；通过检测模型的分类网络对训练图片上对象的各关键点进行分类，得到各关键点的分类结果；基于训练图片的标准分类结果以及分类结果对检测模型的分类网络进行训练，得到训练后的分类网络；通过训练后的分类网络对样本图片进行分类处理，得到样本图片的标准分类结果。

其中，将样本图片输入到检测模型中，得到样本图片的初始特征图的步骤包括：通过检测模型的特征提取网络对样本图片进行卷积处理以及池化处理，得到初始特征图。

其中，将样本图片输入到检测模型中，得到样本图片的初始特征图的步骤之前包括：基于样本对象在样本图片中的位置对样本图片进行裁剪；对裁剪后的样本图片进行尺寸调整，得到预处理后的样本图片。

其中，对象关键点的检测模型训练方法还包括：通过检测模型的输出网络获取到第二热图中各通道的最大特征值；响应于最大特征值超过预设阈值，将最大特征值确定为可见关键点，并将最大特征值对应的坐标进行输出。

为解决上述技术问题，本申请还提供了一种对象关键点的检测方法包括：将待检测图片输入到检测模型中，得到待检测图片的初始特征图；其中，待检测图片中包括待检测对象；通过检测模型基于初始特征图生成待检测图片对应的第一热图；基于第一热图生成第二热图；基于第二热图确定待检测对象的关键点；其中，检测模型为上述任一项的训练后的检测模型。

本申请还提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一项的对象关键点的检测模型训练方法或对象关键点的检测方法。

本申请还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一项的对象关键点的检测模型训练方法或对象关键点的检测方法。

上述方案，本申请通过在双重热图生成的过程中通过标准检测结果对第一热图进行调整，再进一步处理得到第二热图，从而能够使检测模型获取更准确、更高精度的对象关键点检测结果，进而提高了检测模型的训练效果，并提升了训练后的检测模型对对象关键点的检测精度。

附图说明

图1是本申请对象关键点的检测模型训练方法一实施例的流程示意图；

图2是本申请对象关键点的检测模型训练方法另一实施例的流程示意图；

图3是图2实施例中检测模型一实施例的结构示意图；

图4是本申请对象关键点的检测方法一实施例的流程示意图；

图5是图4实施例中检测模型一实施例的结构示意图；

图6是本申请电子设备一实施例的框架示意图；

图7为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，可以存在三种关系，例如，A和/或B，可以：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般前后关联对象是一种“或”的关系。此外，本文中的“多”两个或者多于两个。

请参阅图1，图1是本申请对象关键点的检测模型训练方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：获取到样本图片，将样本图片输入到检测模型中，得到样本图片的初始特征图；其中，样本图片中包括样本对象。

本实施例中，样本对象可以是车辆，也可以是人或者其它目标对象。对象关键点可以是认为规定的对象的一些点。例如，在本实施例中，以对象是车辆为例，车辆关键点一共包括20个，分别为：车辆的左前轮、右前轮、左后轮、右后轮、右雾灯、左雾灯、左大灯、右大灯、左后视镜、右后视镜、车顶左前角、车顶右前角、车顶左后角、车顶左前角、前车标、后车标、前车牌、后车牌、左车尾灯以及右车尾灯，对上述20个关键点进行检测训练。在其他应用场景中，车辆的关键点的数量与位置也可以基于检测需求或车辆类型重新进行设置，在此不做限定。

其中，本实施例的样本图片中包含完整的对象，以便于对所有关键点进行训练检测。其中，完整的对象是指样本对象的整体都在图片的拍摄范围内，包含对象的部分被遮挡的情况。而对象的部分不在图片的拍摄范围内的图片不做为样本图片进行处理。

实际中，样本对象一般为三维立体的物体，而样本图片为二维图片，因此，单个角度的样本图片上只能拍摄到样本对象的正面的部分关键点，剩下的关键点或处于样本对象的背面，无法进行拍摄；或处于样本对象正面，但被除样本对象以外的其他物体遮挡。各种类型的关键点对后续对象关键点应用的作用不同。因此，本实施例需要对检测模型进行训练以对各对象关键点进行识别定位。

在一个具体的应用场景中，各样本图片上对应的样本对象的各对象关键点的标准分类结果已由人工标注得出，例如：人工标注出样本对象上各关键点类别，以及对应的各关键点的位置信息等。因此，获得样本图片的同时可以获取到样本图片对应的标准检测结果。在另一个具体的应用场景中，也可以通过模型检测的方式对样本图片上样本对象的关键点信息进行标注，得到标准检测结果。具体地获取标准检测结果的方式在此不做限定。

在一个具体的应用场景中，本实施例的检测模型以标准检测结果为训练标准进行训练，以用于识别定位样本对象上各关键点的类别以及坐标。其中，各关键点的类别可以包括可见关键点、不可见关键点或遮挡关键点。其中，可见关键点是指图片上处于样本对象正面上，且直观展示出来的关键点，不可见关键点是指图片上处于样本对象背面，无法进行拍摄的关键点，而遮挡关键点是指处于样本对象正面，但被除样本对象以外的其他物体遮挡的关键点。

本步骤中，获取到多张样本图片，并将样本图片输入到检测模型中，通过检测模型对样本图片进行特征提取，以得到样本图片的初始特征图。在一个具体的应用场景中，可以通过检测模型利用深度神经网络对样本图片进行特征提取，从而得到样本图片的初始特征图。具体地，深度神经网络包括vgg16网络、ResNet50网络、ResNet101网络以及MobileNet网络等等，具体的深度神经网络类型可以基于实际情况进行设置，在此不做限定。

步骤S12：基于初始特征图生成样本图片对应的第一热图。

检测模型获得初始特征图后，基于初始特征图生成样本图片对应的第一热图，其中，热图是特征图的一种，其能展示图中各像素点的特征值与各像素点的坐标值。

在一个具体的应用场景中，检测模型也可以通过深度特征提取的方式生成样本图片对应的第一热图。

步骤S13：基于标准检测结果与第一热图生成第二热图。

在一个具体的应用场景中，检测模型可以基于标准检测结果对第一热图进行调整，使其与标准检测结果相对应，再基于调整后的第一热图生成第二热图，从而提高第二热图的准确性。

在一个具体的应用场景中，检测模型也可以基于标准检测结果对第一热图再次进行深度特征提取，从而生成第二热图。

步骤S14：基于标准检测结果以及第一热图和/或第二热图对检测模型进行训练，得到训练后的检测模型。

在一个具体的应用场景中，检测模型可以基于第二热图确定最终的可见关键点及其坐标，并将其进行输出。在另一个具体的应用场景中，检测模型也可以基于第二热图确定所有关键点及其坐标，并将其进行输出。

在本实施例中，将人工标记获得的标准检测结果作为训练方向对检测模型生成的第一热图和/或第二热图进行检验对比，从而对检测模型进行训练，以调整固定检测模型中的各相关参数。当检测模型生成的第一热图和/或第二热图与对应的标准检测结果之间的区别满足训练要求时，训练完成，得到训练后的检测模型。其中，训练后的检测模型参数稳定。

通过上述方法，本实施例的对象关键点的检测模型训练方法通过先将样本图片输入到检测模型中，得到样本图片的初始特征图，再基于初始特征图生成样本图片对应的第一热图，并基于标准检测结果与第一热图生成第二热图，最后基于标准检测结果以及第一热图和/或第二热图对检测模型进行训练，得到训练后的检测模型。本实施例通过在双重热图生成的过程中通过标准检测结果对第一热图进行调整，再进一步处理得到第二热图，从而能够使检测模型获取更准确、更高精度的对象关键点检测结果，进而提高了检测模型的训练效果，提升了训练后的检测模型对对象关键点的检测精度。

请参阅图2-3，图2是本申请对象关键点的检测模型训练方法另一实施例的流程示意图。图3是图2实施例中检测模型一实施例的结构示意图。其中，本实施例将以对象为车辆为例进行说明。在其他实施例中，对象也可以为人脸、人体或其他对象。

本实施例的检测模型10包括特征提取网络11、分类网络12、热图生成网络13以及输出网络14。其中，提取网络11用于获得样本图片浅层特征图，即初始特征图，分类网络12用于对所有关键点进行三分类，分为可见关键点、不可见关键点和遮挡关键点三类，热图生成网络13用于获取热图，热图为最终生成关键点坐标的重要特征图，输出网络14用于从热图中生成最终的关键点坐标。其中，检测模型10中的分类网络12只在训练过程中使用，用于辅助训练，例如，可以辅助训练特征提取网络11，使其可以提取图片的初始特征图。训练完成后使用训练后的检测模型10进行检测任务时，无需分类网络12，因此也可以认为检测模型10可以不包括分类网络12。

其中，标准分类结果只在检测模型10的训练过程中使用，帮助训练检测模型10，在训练结束后实际使用检测模型进行检测任务时不需要标准分类结果。在本实施例中将以标准分类结果由分类网络12处理得到为例进行说明。但在其他实施例中，标准检测结果也可以由人工标注得到。

具体而言，本实施例的对象关键点的检测模型训练方法可以包括如下步骤：

步骤S21：获取到样本图片，通过检测模型的特征提取网络对样本图片进行卷积处理以及池化处理，得到初始特征图。

本实施例的样本图片包括完整的样本车辆，其具体的描述可参考前述实施例中S11步骤，在此不再赘述。

本步骤获取到多张样本图片后，可以先对样本图片进行预处理，以便于检测模型10进行处理。具体地，可以基于样本车辆在样本图片中的位置对样本图片进行裁剪，以重点突出样本图片上的样本车辆。再对裁剪后的样本图片进行尺寸调整，得到预处理后的样本图片，以使其适配后续深度神经网络的输入要求。具体的尺寸大小可以基于实际需求进行设置，在此不做限定。本步骤也可以将样本图片或裁剪后的样本图片进行翻转，从而得到新的样本图片，以对检测模型10的训练进行数据样本扩充，进而提高训练后的检测模型的精度。其中，翻转包括任意角度的旋转翻转或对称翻转等，在此也不做限定。

在一个具体的应用场景中，可以将裁剪后的样本图片的尺寸大小调整为224*224*3，以适配后续检测模型10的深度神经网络的输入要求。

得到预处理后的样本图片后，通过检测模型10对其进行处理训练。

在一个具体的应用场景中，通过检测模型10的特征提取网络11对预处理后的样本图片进行多次卷积处理以及池化处理，得到初始特征图。具体地，特征提取网络11通过vgg16网络对预处理后的样本图片进行特征提取，得到样本图片的浅层特征。

在一个具体的应用场景中，特征提取网络11通过vgg16网络的前两个block进行处理，这两个block中都分别包括有2个卷积层以及1个池化层，共4个卷积层以及2个池化层。在一个具体的应用场景中，预处理后的样本图片经过vgg16网络的第一block111，也就是两个大小为3*3*64卷积核进行卷积处理，然后通过一次最大池化处理，得到112*112*128大小的特征图，再使该特征图经过第二block112，即两个大小为3*3*128卷积核进行卷积处理，然后通过最大池化处理，输出大小为56*56*256的特征图，也就是样本图片的初始特征图。其中，卷积核大小以及特征图大小可以根据实际情况进行设置，本应用场景对此不作限定。vgg16网络共有5个block。

其中，特征提取网络11中所使用的深度神经网络不局限于vgg16网络，还可以使用其他深度神经网络，例如ResNet50、ResNet101以及MobileNet等等网络对预处理后的样本图片进行特征提取，得到初始特征图。

步骤S22：接收检测模型对样本图片进行处理，得到标准检测结果的标准分类结果；以及接收人工对样本图片进行处理，得到标准检测结果的标准坐标结果。

在一个具体的应用场景中，获取到样本车辆的各关键点的标准分类结果以及标准坐标结果，其中，标准分类结果包括可见关键点、不可见关键点或遮挡关键点。在本实施例中，可以接受已训练好的分类网络12对样本图片的处理，得到标准分类结果，以及接收人工对样本图片的处理，得到人工处理的样本图片的标准坐标结果。在其他实施例中，也可以直接接收人工对样本图片的处理，得到人工处理的样本图片的标准分类结果以及标准坐标结果。

在一个实施例中，特征提取网络11和分类网络12可以是在检测模型10的训练过程进行前就已被训练好的。而特征提取网络11和分类网络12的训练过程为：先接收人工处理后的训练图片，获取到训练图片上人工标注的标准分类结果，再通过特征提取网络11对训练图片进行特征提取，得到训练图片的初始特征图，分类网络12按照标准关键点的特征基于训练图片的初始特征图对训练图片上车辆的各关键点进行分类，得到各关键点的分类结果；再将分类结果与训练图片的标准分类结果进行对比，使特征提取网络11和分类网络12按照标准分类结果的方进行训练，最终得到训练后的特征提取网络11和分类网络12。其中，标准关键的特征可以存储在数据库中，分类网络12基于库中的标准关键的特征判断所需识别定位的20个关键点在初始特征图上的类型。

在一个具体的应用场景中，分类网络12可以包括vgg16网络中的后三个block以及二十个全连接层，其中，每个block中包括3个卷积层和一个池化层，整个分类网络共包括9个卷积层以及三个池化层，每个全连接层分别对应每个关键点的分类任务。具体地，将初始特征图输入到vgg16网络中的后三个block中依次进行卷积处理和池化处理，获得14*14*512大小的特征图然后分别通过二十个全连接层获得每个关键点的分类结果。最后将分类结果与标准分类结果进行对比，以对检测模型进行训练，通过将标准分类结果作为训练真值，与其进行比较以对分类网络的相关参数进行微调，直至训练完成，其中，训练完成后的特征提取网络11和分类网络12的相关参数得到固定。分类网络12可以用于辅助训练特征提取网络11。

通过训练完成后的特征提取网络11和分类网络12对样本图片进行分类处理，以得到样本车辆的各关键点的标准分类结果。

请进一步参阅图3，在一个具体的应用场景中，分类网络12包括vgg16网络的后三个block，即第三block121、第四block122、第五block123以及第一全连接层1241、...、第二十全连接层1242。将样本图片的初始特征图输入到vgg16网络的后三个block中，经第三block121、第四block122、第五block123以及第一全连接层1241、...、第二十全连接层1242对其进行三分类处理，得到标准分类结果。其中分类网络12中的全连接层共20个。

在本实施例中，分类网络12可以是检测模型10的一部分，可以先对分类网络12进行训练，再基于训练好的分类网络12生成的标准分类结果对检测模型10的热图生成网络13进行训练。在其他实施例中，当标准分类结果由分类网络12生成时，分类网络12可以是独立的，不属于检测模型10，是在检测模型10训练前就提前训练好的，以实现标准分类结果的自动化生成，减少人工处理工作量的目的。

步骤S23：将初始特征图输入到第一沙漏网络中进行特征处理，得到包括多个通道的第一热图，其中，各通道对应包括各关键点的初始特征值。

将步骤S21中获得的初始特征图输入到检测模型10的热图生成网络13中的第一沙漏网络131中进行特征处理，得到包括多个通道的第一热图。在一个具体的应用场景中，本步骤的第一沙漏网络131也包括vgg16网络的后三个block(即共9个卷积层和3和池化层)以及反卷积过程。

具体地，第一沙漏网络131通过3个block对初始特征图进行卷积处理和池化处理，以将初始特征图的特征进行缩小，再对缩小特征后的初始特征图进行反卷积处理，以将其特征放大，从而完成对初始特征图的特征处理，输出第一热图。在一个具体的应用场景中，第一热图的大小可以为56*56*21。其中，21表示第一热图中有21个通道，前20个通道代表着每个关键点的热图分布，最后一个通道代表背景的热图分布。在第一热图的每个通道中，其通道下每个像素点都具有对应的初始特征值。

步骤S24：基于标准分类结果增大第一热图中可见关键点的初始特征值，以及缩小不可见关键点以及遮挡关键点的初始特征值。

得到第一热图后，基于标准分类结果将第一热图的初始特征值进行融合，具体地，可以增大第一热图中可见关键点的特征值并基于关键点的类型缩小不可见关键点以及遮挡关键点的特征值。

在一个具体的应用场景中，根据标准分类结果对对应的第一热图中的通道进行权重点乘。若某个关键点在标准分类结果中的分类结果为可见关键点，则增大该关键点在第一热图中对应的通道上的特征值。例如，可以将该通道上的所有特征值都乘以1.2，以对其进行增大。若某个关键点在标准分类结果中的分类结果为不可见关键点或遮挡关键点，缩小该关键点在第一热图中对应的通道上的特征值，例如可以将该通道上的所有特征值都乘以0.8，以对其进行缩小。在另一个实施例中，还可以具体区分关键点在标准分类结果中的分类结果为不可见关键点还是遮挡关键点，对不同关键点在第一热图中对应的通道上的特征值按照不同的比例缩小，例如可以将不可见关键点对应通道上的所有特征值都乘以0.8，对遮挡关键点对应通道上的所有特征值都乘以0.5，以对其进行缩小。在其他实施例中，还可以对各个通道上的所有特征值取平方等。其中，具体的放大或缩小比例可以基于实际情况进行设置，此处仅对如何放大或缩小进行说明，在此不做限定。

通过上述操作，可见关键点的结果获得更大的权重，遮挡关键点与不可见关键点使用更小的权重，这样可以使可见关键点与不可见关键点之间的界限更加明显，同时使遮挡关键点的特征更小，明确可见关键点和不可见关键点之间的界限。而通过将可见关键点与其他关键点之间的特征值大小进一步区分开，便于热图生成模块13能够更准确地学习到各类型的关键点之间的区别，进而提高热图生成模块13的训练效果。

步骤S25：将增大特征值后的第一热图输入到第二沙漏网络中再次进行特征处理，得到包括多个通道的第二热图，其中，各通道对应包括各关键点的特征值。

将调整各通道的特征值后的第一热图输入到第二沙漏网络132中再次进行特征处理，得到包括多个通道的第二热图。

在一个具体的应用场景中，也可以将调整各通道的特征值后的第一热图与对应的初始特征图进行融合后，再输入至第二沙漏网络132中进行特征处理，以进一步提高特征精度。

其中，第二沙漏网络132与第一沙漏网络131的结构相同，也包括vgg16网络的后三个block(即共9个卷积层和3和池化层)以及反卷积过程。

具体地，第二沙漏网络132通过3个block对第一热图进行卷积处理和池化处理，以将第一热图的特征进行缩小，再对缩小特征后的第一热图进行反卷积处理，以将其特征放大，从而完成对第一热图的特征处理，输出第二热图。在一个具体的应用场景中，第二热图的大小可以为56*56*21。

由于第二沙漏网络132的输入中，已进一步划分了各类型的关键点之间的区别，则在第二沙漏网络132中，可见关键点之间的关联性更强，不可见关键点因为特征更小的原因与可见关键点之间的关联性更低，这样在第二沙漏网络132中获取可见关键点的过程中，相比于第一沙漏网络131可以进一步学习到区分可见关键点与其他关键点的更明显的区别特征，能够进一步减少其他关键点对可见关键点的影响，从而提高了热图生成网络的精度与可靠性。

步骤S26：获取到第二热图中各通道的最大特征值，响应于最大特征值超过预设阈值，将最大特征值确定为可见关键点，并将最大特征值对应的坐标进行输出。

得到第二热图后，输出网络14获取到第二热图中各通道的最大特征值，响应于最大特征值超过预设阈值，将最大特征值确定为可见关键点，并将最大特征值对应的坐标进行输出，即输出结果为所需的可见关键点及其坐标。其中，预设阈值可以基于实际训练情况进行设置，可以为5等，具体在此不做限定。而各通道中的最大特征值即为各通道的最大响应点。

由于基于标准分类结果对各通道的特征值进行不同的调整，可见关键点通道中最大特征值与不可见关键点和遮挡关键点通道中最大特征值之间的界限更加明显，因此通过设置预设阈值，将所有通道进行分类。当预设阈值为5时，如果通道的最大特征值大于5则认为该通道所代表的关键点为可见关键点，如果小于5则认为该通道所代表的关键点为非可见关键点(不可见关键点和遮挡关键点)，非可见关键点对于车辆关键点检测的后续应用没有有效帮助，甚至会产生较大的噪声增加后续任务的难度，因此利用设置的预设阈值对各关键点进行区分，并直接筛选了这部分关键点。通过设置预设阈值，剔除不可见关键点与遮挡关键点的方式能够让热图生成网络13在该过程中基于预设阈值与第二热图上各通道的特征值之间的对应关系学习到如何基于特征值区别关键点类型。

步骤S27：将第一热图中各通道的特征值和/或第二热图中各通道的特征值与标准坐标结果对应的热图中的特征值进行逐像素多类交叉熵损失，以对检测模型进行训练。

获得第二热图后，将第一热图和/或第二热图中各通道的特征值分别与标准坐标结果对应的热图中的特征值进行逐像素多类交叉熵损失，以对检测模型10中的第一沙漏网络131和/或第二沙漏网络132进行训练，提高第一沙漏网络131以及第二沙漏网络132的特征处理精度。

其中，整个热图生成网络13的损失函数为：

loss＝loss1+loss2 (1)

其中loss1表示关键点检测模块中第一个沙漏网络131所获得的热图与标准坐标结果对应的高斯热图之间进行逐像素多类交叉熵损失，损失函数的公式如下：

其中H和W为热图的长和宽，例如大小为56，其中N₁热图的通道数，例如在本实施例中为21，表示20个关键点通道数加上背景分布的通道数，X_i，j表示第二热图的像素点在i，j上的像素值大小，i，j为热图上的坐标轴，t*_i，j表示真值标签上对应i，j坐标上的类标签，其分为0或1，k表示标签值的数量，L₁表示loss1。而loss2为表示热图生成网络中第二沙漏网络132所获得的热图与标准坐标结果对应的高斯热图之间进行逐像素多类交叉熵损失，公式同(2)，在此不再赘述。

通过上述损失函数(1)对检测模型10的热图生成网络13进行训练，直至热图生成网络13生成的热图与标准坐标结果对应的高斯热图之间的区别满足要求，此时训练完成，得到训练后的检测模型。训练后的检测模型参数固定。在另一些实施例中，损失函数可以单独用loss1或者loss2以对第一沙漏网络131或第二沙漏网络132进行单独训练。

在一个具体的应用场景中，热图生成网络13还可以通过两个真值标签来学习如何分辨可见关键点与其他关键点，其中，第一个真值标签为分类网络12所生成关键点的标准分类结果或人工标注的标准分类结果，热图生成网络13以标准分类结果为标准进行分类任务的训练学习。第二个真值标签为热图生成网络13中的标准坐标结果，如果关键点的分类结果为可见关键点，那么其标准坐标结果会有一个大于0的具体坐标，若为不可见关键点或者遮挡关键点，其真值坐标就为(0，0),这样热图生成网络13在利用标准坐标结果进行训练过程中，损失函数会不断地调整热图上的特征值，以趋向于标准坐标结果，这样一来热图通道的最大特征值也会随着坐标真值的不同而区分开，热图生成网络13在此过程中得到学习训练，进而使得训练后的检测模型13的关键点的检测精度进一步得到提升。

通过上述方法，本实施例的对象关键点的检测模型训练方法通过第一沙漏网络对初始特征图进行特征处理，得到第一热图，并基于标准分类结果对对应的第一热图中各通道的特征值进行调整，以增大第一热图中对应的可见关键点的初始特征值，并缩小其他关键点的初始特征值，以扩大第一热图中可见关键点与不可见关键点以及遮挡关键点的特征值差别，再通过第二沙漏网络对调整了初始特征值后的第一热图进行特征处理，得到第二热图，使得热图生成网络能够基于区别放大的第二热图获取更高精度的车辆关键点检测结果，进而提高了检测模型的训练效果，提升了训练后的检测模型对对象关键点的检测精度。且本实施例还设置预设阈值方式能够准确剔除第二热图中的不可见关键点和遮挡关键点，进一步提高检测模型的定位结果的准确性和可靠性，提高检测模型的准确性。

请参阅图4-5，图4是本申请对象关键点的检测方法一实施例的流程示意图。图5是图4实施例中检测模型一实施例的结构示意图。

本实施例的检测模型20为已训练好的，参数稳定的检测模型。其包括特征提取网络21、热图生成网络23以及输出网络24。其中，特征提取网络21、热图生成网络23以及输出网络24中的结构均与图3实施例中对应的特征提取网络11、热图生成网络13以及输出网络14相同，请参阅前文，在此不再赘述。

其中，由于在前述实施例的训练过程中，检测模型10的热图生成网络13已经基于标准分类结果与各通道的特征值之间的对应学习到了可见关键点与不可见关键点和遮挡关键点之间的区别，即可以独立地区分这三者，因此已训练好的检测模型20可以省去分类网络，通过热图生成网络23完成分类任务。

本实施例的对象关键点的检测方法具体而言，可以包括如下步骤：

步骤S41：将待检测图片输入到检测模型中，得到待检测图片的初始特征图；其中，待检测图片中包括待检测对象。

其中，本实施例的待检测对象可以基于所使用的检测模型20训练时所针对的样本对象的类型而定。例如：当检测模型20训练时基于车辆进行训练，则本实施例的待检测对象为车辆；当检测模型20训练时基于人脸进行训练，则本实施例的待检测对象为人脸。待检测对象的具体类型在此不做限定。

将待检测图片输入到检测模型20中，得到待检测图片的初始特征图；其中，待检测图片中包括有完整的待检测对象。

在一个具体的应用场景中，通过检测模型20的特征提取网络21对待检测图片进行特征提取，得到待检测图片的初始特征图。

步骤S42：通过检测模型基于初始特征图生成待检测图片对应的第一热图。

得到初始特征图后，通过检测模型20基于初始特征图生成待检测图片对应的第一热图。

在一个具体的应用场景中，将初始特征图输入到检测模型20的热图生成网络23的第一沙漏网络中进行特征处理，得到第一热图。

步骤S43：基于第一热图生成第二热图。

再基于第一热图生成第二热图。在一个具体的应用场景中，通过检测模型20的热图生成网络23的第二沙漏网络对第一热图进行特征处理，得到第二热图。

步骤S44：基于第二热图确定待检测对象的关键点。

得到第二热图后，基于第二热图确定待检测对象的关键点。

在一个具体的应用场景中，检测模型20的输出模块24得到第二热图后，可以基于第二热图上各通道的特征值与预设阈值之间的对比，确定各关键点的类型，并输出可见关键点及其坐标，完成对象关键点的检测。例如，得到第二热图后，获取到第二热图中各通道的最大特征值，响应于最大特征值超过预设阈值，将最大特征值确定为可见关键点，并将最大特征值对应的坐标进行输出，即输出结果为所需的可见关键点及其坐标。其中，预设阈值可以基于实际训练情况进行设置，可以为5等，具体在此不做限定。

本实施例的检测模型20为上述任一实施例的对象关键点的检测模型训练方法训练完成后的检测模型。

通过上述方法，本实施例的对象关键点的检测方法通过检测模型对待检测图片进行关键点检测，能够提高对象关键点的检测精度。

请参阅图6，图6是本申请电子设备一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，处理器62用于执行存储器61中存储的程序指令，以实现上述任一对象关键点的检测模型训练方法实施例或对象关键点的检测方法实施例的步骤。在一个具体的实施场景中，电子设备60可以包括但不限于：微型计算机、服务器，此外，电子设备60还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一对象关键点的检测模型训练方法实施例或对象关键点的检测方法实施例的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

上述方案，能够提高对象关键点的检测精度。

请参阅图7，图7为本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质70存储有能够被处理器运行的程序指令701，程序指令701用于实现上述任一对象关键点的检测模型训练方法实施例或对象关键点的检测方法实施例的步骤。

上述方案，能够提高对象关键点的检测精度。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种对象关键点的检测模型训练方法，其特征在于，所述对象关键点的检测模型训练方法包括：

获取到样本图片，将所述样本图片输入到所述检测模型中，得到所述样本图片的初始特征图；其中，所述样本图片中包括样本对象；

基于所述初始特征图生成所述样本图片对应的第一热图；

基于标准检测结果与所述第一热图生成第二热图；

基于所述标准检测结果以及所述第一热图和/或第二热图对所述检测模型进行训练，得到训练后的检测模型；

其中，所述标准检测结果包括标准坐标结果以及标准分类结果；所述基于标准检测结果与所述第一热图生成第二热图的步骤包括：

利用所述标准分类结果将所述第一热图的初始特征值进行融合；将所述融合后的所述第一热图输入到所述检测模型的第二沙漏网络中进行特征处理，得到包括多个通道的所述第二热图；

其中，所述标准分类结果包括可见关键点、不可见关键点或遮挡关键点；所述利用所述标准分类结果将所述第一热图的初始特征值进行融合的步骤包括：

基于所述标准分类结果增大所述第一热图中可见关键点的初始特征值，以及缩小不可见关键点以及遮挡关键点的初始特征值。

2.根据权利要求1所述的对象关键点的检测模型训练方法，其特征在于，所述基于所述初始特征图生成所述样本图片对应的第一热图的步骤包括：

将所述初始特征图输入到所述检测模型的第一沙漏网络中进行特征处理，得到包括多个通道的所述第一热图；其中，各通道对应包括各关键点的初始特征值；

其中，所述第二热图的各通道对应包括各关键点的特征值。

3.根据权利要求2所述的对象关键点的检测模型训练方法，其特征在于，所述基于所述标准检测结果以及所述第一热图和/或第二热图对所述检测模型进行训练，得到训练后的检测模型的步骤包括：

将所述第一热图中各通道的特征值和/或所述第二热图中各通道的特征值与所述标准坐标结果对应的热图中的特征值进行逐像素多类交叉熵损失，以对所述检测模型进行训练。

4.根据权利要求1所述的对象关键点的检测模型训练方法，其特征在于，所述获取到样本图片的步骤还包括：

接收人工对所述样本图片进行处理，得到所述标准检测结果；或

接收所述检测模型对所述样本图片进行处理，得到所述标准检测结果的标准分类结果；以及

接收人工对所述样本图片进行处理，得到所述标准检测结果的标准坐标结果。

5.根据权利要求4所述的对象关键点的检测模型训练方法，其特征在于，所述接收所述检测模型对所述样本图片的处理，得到所述标准检测结果的步骤包括：

接收人工处理后的训练图片，获取所述训练图片的标准分类结果；

通过所述检测模型的分类网络对所述训练图片上对象的各关键点进行分类，得到各关键点的分类结果；

基于所述训练图片的标准分类结果以及所述分类结果对所述检测模型的分类网络进行训练，得到训练后的分类网络；

通过训练后的分类网络对所述样本图片进行分类处理，得到所述样本图片的标准分类结果。

6.根据权利要求1所述的对象关键点的检测模型训练方法，其特征在于，所述将所述样本图片输入到所述检测模型中，得到所述样本图片的初始特征图的步骤包括：

通过所述检测模型的特征提取网络对样本图片进行卷积处理以及池化处理，得到所述初始特征图。

7.根据权利要求1所述的对象关键点的检测模型训练方法，其特征在于，所述将所述样本图片输入到所述检测模型中，得到所述样本图片的初始特征图的步骤之前包括：

基于所述样本对象在所述样本图片中的位置对所述样本图片进行裁剪；

对裁剪后的样本图片进行尺寸调整，得到预处理后的样本图片。

8.根据权利要求1、4-7任一项所述的对象关键点的检测模型训练方法，其特征在于，所述对象关键点的检测模型训练方法还包括：

通过所述检测模型的输出网络获取到所述第二热图中各通道的最大特征值；

响应于所述最大特征值超过预设阈值，将所述最大特征值确定为可见关键点，并将所述最大特征值对应的坐标进行输出。

9.一种对象关键点的检测方法，其特征在于，所述对象关键点的检测方法包括：

将待检测图片输入到检测模型中，得到所述待检测图片的初始特征图；其中，所述待检测图片中包括待检测对象；

通过所述检测模型基于所述初始特征图生成所述待检测图片对应的第一热图；

基于所述第一热图生成第二热图；

基于所述第二热图确定所述待检测对象的关键点；

其中，所述检测模型为上述权利要求1-8任一项所述的训练后的检测模型。

10.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现如权利要求1至8任一项所述的对象关键点的检测模型训练方法以及权利要求9所述的对象关键点的检测方法。

11.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现如权利要求1至8任一项所述的对象关键点的检测模型训练方法以及权利要求9所述的对象关键点的检测方法。