CN112560980A

CN112560980A - 目标检测模型的训练方法、装置及终端设备

Info

Publication number: CN112560980A
Application number: CN202011547518.9A
Authority: CN
Inventors: 郭渺辰; 程骏; 张惊涛; 顾在旺; 胡淑萍; 王东; 庞建新
Original assignee: Shenzhen Ubtech Technology Co ltd
Current assignee: Shenzhen Ubtech Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-03-26
Anticipated expiration: 2040-12-24
Also published as: CN112560980B

Abstract

本申请适用于图像处理技术领域，提供了一种目标检测模型的训练方法、装置及终端设备，包括：应用于预设的目标检测模型，所述目标检测模型中包括位置回归网络和热图分类网络；所述目标检测模型的训练方法包括：获取样本图像的第一特征信息；将所述第一特征信息输入到所述位置回归网络进行位置回归处理，输出所述样本图像中目标物体的位置信息；将所述样本图像输入到所述热图分类网络中进行热图分类处理，输出所述样本图像的热图数据；根据所述位置信息、所述热图数据和预设的第一损失函数计算第一损失值；根据所述第一损失值更新所述目标检测模型的模型参数。通过上述方法，能够同时提高目标检测的检测精度和检测效率。

Description

目标检测模型的训练方法、装置及终端设备

技术领域

本申请属于图像处理技术领域，尤其涉及一种目标检测模型的训练方法、装置及终端设备。

背景技术

随着科技的发展，智能控制技术的应用范围越来越广泛。通过智能控制技术能够实现人机交互，例如，通过手势控制视频的播放、快进、后退和删除等。在智能控制的过程中，需要检测目标物体的位姿信息，然后根据目标物体的位姿信息进行控制。例如，在手势控制过程中，需要检测手部的关键点位置，根据关键点位置确定手部姿态(即手势)，再根据手部姿态进行控制。因此，目标检测是智能控制过程中的一项关键任务。

现有的目标检测方法大多采用基于锚框的检测方法。具体的，在训练阶段预先设置大量的锚框，并为每个锚框标注类别和偏移量(用于表示锚框与真实检测框之间的位置偏移)，然后利用锚框对目标检测模型进行的训练；在检测阶段，利用训练后的目标检测模型获取待检测图像中目标物体对应的多个锚框及其各自对应的预测类别和预测偏移量，然后根据预测偏移量调整锚框位置，最后从多个锚框中筛选出预测检测框。当锚框数量较少时，检测结果不准确；当锚框数量较多时，计算量较大。现有的目标检测方法无法实现检测速度和检测精度之间的均衡。

发明内容

本申请实施例提供了一种目标检测模型的训练方法、装置及终端设备，可以同时提高目标检测的检测精度和检测效率。

第一方面，本申请实施例提供了一种目标检测模型的训练方法，应用于预设的目标检测模型，所述目标检测模型中包括位置回归网络和热图分类网络；

所述目标检测模型的训练方法包括：

获取样本图像的第一特征信息；

将所述第一特征信息输入到所述位置回归网络进行位置回归处理，输出所述样本图像中目标物体的位置信息；

将所述样本图像输入到所述热图分类网络中进行热图分类处理，输出所述样本图像的热图数据；

根据所述位置信息、所述热图数据和预设的第一损失函数计算第一损失值；

根据所述第一损失值更新所述目标检测模型的模型参数。

在本申请实施例中，通过位置回归网络对样本图像的第一特征信息进行位置回归，获取样本图像中目标物体的位置信息，通过上述方式将目标检测问题转化为目标位置检测问题；同时通过热图分类网络实现对样本图像的热图分类；然后根据位置回归得到的位置信息和热图分类得到的热图数据对目标检测模型进行训练，相当于在目标检测方法中融合了热图分类方法与位置回归方法，这样能够利用热图分类的结果对位置回归的结果进行限定，从而避免使用大量的锚框。通过上述方法，能够在保证检测精度的同时，大大提高目标检测的检测效率。

在第一方面的一种可能的实现方式中，所述获取样本图像的第一特征信息，包括：

将所述样本图像输入到预设的特征提取模型中，输出所述样本图像的第二特征信息；

将所述第二特征信息输入到预设的特征融合模型中，输出特征融合信息；

将所述特征融合信息确定为所述样本图像的所述第一特征信息。

在第一方面的一种可能的实现方式中，所述特征提取模型包括N个提取子网络，所述N为正整数；

每个所述提取子网络包括第一卷积层和第二卷积层，所述第一卷积层用于对输入数据进行降采样特征提取处理、输出第一特征图，所述第二卷积层用于转换所述第一特征图的通道数量、输出转换后的所述第一特征图；

其中，当所述N大于1时，所述N个提取子网络串联连接，所述第一特征信息包括第N个所述提取子网络输出的所述转换后的所述第一特征图。

在第一方面的一种可能的实现方式中，所述特征融合模型中包括M个融合子网络，所述M为正整数；

每个所述融合子网络中包括第三卷积层、第四卷积层、第五卷积层、上采样层和连接层；

所述第三卷积层的输出端分别连接所述第四卷积层和所述第五卷积层，所述第四卷积层的输出端连接所述上采样层，所述第五卷积层的输出端和所述上采样层的输出端分别连接所述连接层的输入端，所述连接层的输出端为所述融合子网络的输出端；

所述第三卷积层用于对输入数据进行特征提取处理得到第二特征图，所述第四卷积层用于对所述第二特征图进行特征提取处理得到第三特征图，所述第三特征图的尺度小于所述第二特征图的尺度，所述第五卷积层用于转换所述第二特征图的通道数量、以使转换后的所述第二特征图的通道数量等于所述第三特征图的通道数量，所述上采样层用于对所述第三特征图进行上采样处理、以使上采样处理后的所述第三特征图的尺度与所述第二特征图的尺度相同，所述连接层用于将所述转换后的所述第二特征图和所述上采样处理后的所述第三特征图融合为第四特征图；

其中，当M大于1时，第m个所述融合子网络中的所述第三卷积层为第m-1个所述融合子网络中的所述第四卷积层，所述特征融合信息中包括每个所述融合子网络输出的所述第四特征图，1<m≤M。

在第一方面的一种可能的实现方式中，所述位置回归网络包括检测框回归子网络和关键点回归子网络；

所述目标物体的位置信息包括所述目标物体的检测框的检测框位置信息和所述目标物体上的关键点的关键点位置信息；

所述将所述第一特征信息输入到所述位置回归网络进行位置回归处理，输出所述样本图像中目标物体的位置信息，包括：

将所述第一特征信息输入到所述检测框回归子网络中，输出所述检测框位置信息；

将所述第一特征信息输入到关键点回归子网络中，输出所述关键点位置信息。

在第一方面的一种可能的实现方式中，所述第一损失函数包括第二损失函数、第三损失函数和第四损失函数；

所述根据所述位置信息、所述热图数据和预设的第一损失函数计算第一损失值，包括：

根据所述检测框位置信息和所述第二损失函数计算第二损失值；

根据所述检测框位置信息、所述关键点位置信息和所述第三损失函数计算第三损失值；

根据所述热图数据和所述第四损失函数计算第四损失值；

根据所述第二损失值、所述第三损失值和所述第四损失值计算所述第一损失值。

在第一方面的一种可能的实现方式中，所述第二损失值包括所述目标物体的检测框的高度预测值和宽度预测值；

所述检测框位置信息包括所述目标物体的检测框的第一顶点检测坐标和第二顶点检测坐标；

所述第二损失函数包括：

其中，

为所述高度预测值，

为所述宽度预测值，(x₁，y₁)为所述第一顶点检测坐标，(x₂，y₂)为所述第二顶点检测坐标，R为预设的下采样倍数。

在第一方面的一种可能的实现方式中，所述第三损失值包括所述目标物体上的关键点的坐标预测值；

所述检测框位置信息包括所述目标物体的检测框的宽度检测值、高度检测值和中心点检测坐标；

所述关键点位置信息包括所述目标物体上的关键点的坐标检测值；

所述第三损失函数包括：

其中，

为所述关键点的坐标预测值，(lm_x，lm_y)为所述关键点的坐标检测值，box_w为所述检测框的宽度检测值，box_h为所述检测框的高度检测值，(c_x，c_y)为所述检测框的中心点检测坐标。

在第一方面的一种可能的实现方式中，所述第四损失值包括所述样本图像中像素点的分类预测值；

所述热图数据包括所述样本图像中像素点的分类检测值；

所述第四损失函数包括：

其中，

为所述样本图像中像素点的分类预测值，Y_xy为所述样本图像中像素点的分类检测值，α和β为预设超参数，Num为预设值。

第二方面，本申请实施例提供了一种目标检测模型的训练装置，应用于预设的目标检测模型，所述目标检测模型中包括位置回归网络和热图分类网络；

所述目标检测模型的训练装置包括：

特征提取单元，用于获取样本图像的第一特征信息；

位置回归单元，用于将所述第一特征信息输入到所述位置回归网络进行位置回归处理，输出所述样本图像中目标物体的位置信息；

热图分类单元，用于将所述样本图像输入到所述热图分类网络中进行热图分类处理，输出所述样本图像的热图数据；

损失计算单元，用于根据所述位置信息、所述热图数据和预设的第一损失函数计算第一损失值；

参数更新单元，用于根据所述第一损失值更新所述目标检测模型的模型参数。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的目标检测模型的训练方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的目标检测模型的训练方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的目标检测模型的训练方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的目标检测系统的示意图；

图2是本申请实施例提供的特征提取模型的示意图；

图3是本申请实施例提供的特征融合模型的示意图；

图4是本申请实施例提供的目标检测模型的示意图；

图5是本申请实施例提供的目标检测模型的训练方法的流程示意图；

图6是本申请实施例提供的目标检测方法的流程示意图；

图7是本申请实施例提供的目标检测模型的训练装置的结构框图；

图8是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。

参见图1，是本申请实施例提供的目标检测系统的示意图。作为示例而非限定，如图1所示，本申请实施例提供的目标检测系统可以包括：特征提取模型101、特征融合模型102和目标检测模型103，三个模型串联连接。其中，特征提取模型用于提取输入图像的特征信息；特征融合模型用于对特征提取模型提取出的特征信息进行特征融合处理，得到特征融合信息；目标检测模型用于根据特征融合模型输出的特征融合信息进行目标检测处理，输出检测结果。

在图1所述实施例中，目标检测系统同时包括特征提取模型、特征融合模型和目标检测模型这三个模型。在另一个实施例中，目标检测系统可以包括上述三个模型中任意一个或多个。

示例性的：目标检测系统包括特征提取模型和目标检测模型，而特征融合模型可以按照图1实施例中的连接方式与目标检测系统中的特征提取模型和目标检测模型连接(如通信连接)。例如，目标检测系统的处理器A在利用特征提取模型获得样本图像的第二特征信息之后，通过与特征融合模型的处理器B通信，将第二特征信息发送给处理器B，以使处理器B将第二特征信息输入到特征融合模型中获得特征融合信息、并将特征融合信息返回给处理器A，处理器A将接收到的特征融合信息作为第一特征信息输入到目标检测模型中进行目标检测处理，获得目标检测结果。

换言之，上述特征提取模型、特征融合模型和目标检测模型这三个模型可以独立存在，也可以两两结合，还可以如图1实施例中所示的三个结合在一起。

另外，上述三个模型各自的数量也可以为多个。例如，采用一个特征提取模型，一个特征融合模型和多个目标检测模型。这样可以实现多目标检测。

三个模型可以根据实际需要进行结合，在此不做具体限定。需要说明的是，任意一种组合方式均在本申请实施例的保护范围内。

在一个实施例中，特征提取模型101可以包括N个提取子网络，N为正整数。每个提取子网络包括两个特征提取卷积层和池化层层。特征提取卷积层用于对输入数据进行特征提取处理、输出特征图；池化层用于对特征提取卷积层输出的特征图进行降采样处理。

示例性的，参见图2，是本申请实施例提供的特征提取模型的示意图。如图2中的(a)所示，特征提取模型中包括3个提取子网络。每个提取子网络中包括两个3×3conv(即特征提取卷积层)和一个pool(即池化层)。

由于卷积层输出的是特征图，而通常特征图包括多个特征层，池化层需要对每个特征层分别进行数据处理，因此，池化层的计算量较大。并且，池化层主要用于对特征图进行降维处理，在降维过程中会丢失一些特征信息，进而影响后续检测结果的准确性。

为了解决上述问题，在另一个实施例中，特征提取模型101可以包括N个提取子网络，N为正整数。每个提取子网络包括第一卷积层和第二卷积层，第一卷积层用于对输入数据进行降采样特征提取处理、输出第一特征图，第二卷积层用于转换第一特征图的通道数量、输出转换后的第一特征图。

其中，当N大于1时，N个提取子网络串联连接，第一特征信息包括第N个提取子网络输出的转换后的第一特征图。

示例性的，如图2中的(b)所示，特征提取模型包括3个提取子网络。每个提取子网络包括一个步长为2的3×3的卷积层(即第一卷积层)和一个1×1的卷积层(即第二卷积层)。第3个提取子网络的1×1卷积层的输出即为特征提取模型的输出。

其中，步长为2的卷积层是指，每隔2个像素单位移动一次卷积核、进行一次卷积运算。通过设置步长，能够在提取特征的同时，对原图像进行降采样处理。图2示例中采用步长为2，实际应用中可以根据需要对步长进行设置，在此不做具体限定。当然，步长值设置的越大，维度减少的越多，同时特征可能提取的越不全面。所以，合理设置步长值较为关键。

1×1的卷积层是指，利用1×1的卷积核对输入图像进行卷积处理。该卷积核的好处是，能够在保证特征提取效果的同时，降低运算量，并且通过设置1×1卷积核的数量，还能够控制特征图的通道数量。

因此，通过图2中的(b)所示的特征提取模型，能够提取较为全面的特征信息，同时大大降低了网络的计算量，而且还便于控制特征图的通道数量。

需要说明的是，上述示例中将N取值为3，实际应用中，可以根据需要对N赋值。当然，N取值越大，特征提取模型输出的特征信息中通道数量越少，但是特征信息越不全面。

在一个实施例中，特征融合模型102包括M个融合子网络，M为正整数。

每个融合子网络中包括第三卷积层、第四卷积层、第五卷积层、上采样层和连接层。

第三卷积层的输出端分别连接第四卷积层和第五卷积层，第四卷积层的输出端连接上采样层，第五卷积层的输出端和上采样层的输出端连接上述连接层的输入端，连接层的输出端为融合子网络的输出端。

第三卷积层用于对输入数据进行特征提取处理得到第二特征图，第四卷积层用于对第二特征图进行特征提取处理得到第三特征图，第三特征图的尺度小于第二特征图的尺度，第五卷积层用于转换第二特征图的通道数量、以使转换后的第二特征图的通道数量等于第三特征图的通道数量，上采样层用于对第三特征图进行上采样处理、以使上采样处理后的第三特征图的尺度与第二特征图的尺度相同，连接层用于将转换后的第二特征图和上采样处理后的第三特征图融合为第四特征图。

其中，当M大于1时，第m个融合子网络中的第三卷积层为第m-1个融合子网络中的第四卷积层，特征融合信息中包括每个融合子网络输出的第四特征图，1<m≤M。

示例性的，参见图3，是本申请实施例提供的特征融合模型的示意图。作为示例而非限定，如图3所示的特征融合模型中包括3个融合子网络。其中：

第1个融合子网络中的第三卷积层为conv1，第四卷积层为conv2，第五卷积层为1×1conv，上采样层为X2，连接层为concat。第2个融合子网络中的第三卷积层为conv2，第四卷积层为conv3。第3个融合子网络中的第三卷积层为conv3，第四卷积层为conv4。特征融合信息中包括3个融合子网络各自的输出。

为了计算方便，可以将conv2的尺度设置为conv1的一半，将conv3的尺度设置为conv2的一半，将conv4的尺度设置为conv3的一半。

conv1输出的特征图经过1×1conv卷积层改变特征图的通道数量，使其与conv2的特征图通道数量一致，同时将conv2输出的特征图上采样2倍(X2)，使其特征图的尺寸恢复到conv1的大小(此处可以使用线性插值进行上采样)。经过这两步后，conv1和conv2输出的特征图尺寸和特征图的通道数量一致。再对两者进行连接(concat)操作，连接操作将两个特征图相同位置的权重参数相加，进行特征融合，使得最终得到的特征图中融合了conv1和conv2的特征。同理，conv2输出的特征图与conv3输出的特征图融合，conv3输出的特征图与conv4输出的特征图融合。

在一个实施例中，目标检测模型可以包括位置回归网络。位置回归网络用于根据特征融合模型输出的特征融合信息对图像中的目标物体及其关键点进行检测，并输出目标物体的检测框的检测框位置信息和目标物体上的关键点的关键点位置信息。

但是，通过上述的目标检测模型进行目标检测时，需要预设锚框，以利用锚框对目标物体的位置信息进行校正；否则，输出的目标物体的位置信息可能是不准确的。当锚框数量较少时，仍无法保证检测结果的准确性；当锚框数量较多时，计算量较大。因此，通过上述的目标检测模型进行目标检测时，无法实现检测速度和检测精度之间的均衡。

为了解决上述问题，在另一个实施例中，参见图4，是本申请实施例提供的目标检测模型的示意图。作为示例而非限定，如图4所示，目标检测模型103包括位置回归网络1031和热图分类网络1032，其中，位置回归网络包括检测框回归子网络和关键点回归子网络。

检测框回归子网络用于根据特征融合模型输出的特征融合信息对图像中的目标物体进行检测，并输出目标物体的检测框的检测框位置信息。关键点回归子网络用于根据特征融合模型输出的特征融合信息对图像中的目标物体上的关键点进行检测，并输出目标物体的关键点的关键点位置信息。热图分类网络用于生成输入图像的热图，根据热图对输入图像中的像素点进行分类处理，并输出每个像素点的分类检测值。

上述目标检测模型中，通过热图数据对位置回归的结果进行限定，从而避免使用大量的锚框。通过上述目标检测模型进行目标检测时，能够在保证检测精度的同时，大大提高目标检测的检测效率。

基于上述实施例中介绍的目标检测系统，下面介绍本申请实施例提供的目标检测模型的训练方法。参见图5，是本申请实施例提供的目标检测模型的训练方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

S501，获取样本图像的第一特征信息。

实际应用中，为保证模型精度，应尽量使用大量的、丰富的样本图像进行训练。本申请实施例中提供的目标检测模型的训练方法，是针对每张样本图像而言的。

可选的，第一特征信息的获取方式包括：将样本图像输入到预设的特征提取模型中，输出样本图像的第一特征信息。

其中，预设的特征提取模型可以采用图2实施例中所示的特征提取模型。

通常特征提取模型可以用于提取颜色、纹理和形状等一种或多种特征信息。但是提取出的各种特征信息之间是相互独立的。为了实现特征互补，以降低某一种特征存在缺陷的影响，可以将不同的特征信息融合在一起。在一个实施例中，第一特征信息的提取方式包括：

将样本图像输入到预设的特征提取模型中，输出样本图像的第二特征信息；将第二特征信息输入到预设的特征融合模型中，输出特征融合信息；将特征融合信息确定为样本图像的第一特征信息。

其中，预设的特征提取模型可以采用图2实施例中所示的特征提取模型，预设的特征融合模型可以采用图3实施例中所示的特征融合模型。

S502，将第一特征信息输入到位置回归网络进行位置回归处理，输出样本图像中目标物体的位置信息。

在一个实施例中，位置回归网络可以采用图4实施例中所示的位置回归网络，即位置回归网络包括检测框回归子网络和关键点回归子网络。

相应的，步骤S502的一种实现方式包括：

将第一特征信息输入到检测框回归子网络中，输出检测框位置信息；将第一特征信息输入到关键点回归子网络中，输出关键点位置信息。

S503，将样本图像输入到热图分类网络中进行热图分类处理，输出样本图像的热图数据。

在本申请实施例中，为了减少计算量，可以先将样本图像进行下采样处理，然后获取下采样处理后的图像的热图数据。例如，样本图像的大小为W_p×H_p(W_p为样本图像的宽，H_p为样本图像的高)，设置下采样倍数为Q，那么得到的热图的大小为

其中，热图数据包括样本图像中每个像素点的分类检测值。例如：当Y_i＝1时，表示第i个像素点属于目标物体；当Y_i＝0时，表示第i个像素点属于背景。

S504，根据位置信息、热图数据和预设的第一损失函数计算第一损失值。

本申请实施例中需要通过热图数据对目标物体的位置信息进行限定，因此，在目标模型的训练过程中，需要同时考虑位置信息和热图数据，这就需要为位置信息和热图数据分别设置损失函数。

在一个实施例中，第一损失函数包括第二损失函数、第三损失函数和第四损失函数。

相应的，S504的一种实现方式包括：

I、根据检测框位置信息和第二损失函数计算第二损失值。

可选的，第二损失值包括目标物体的检测框的高度预测值和宽度预测值。

检测框位置信息包括目标物体的检测框的第一顶点检测坐标和第二顶点检测坐标。

第二损失函数包括：

其中，

为高度预测值，

为宽度预测值，(x₁，y₁)为第一顶点检测坐标，(x₂，y₂)为第二顶点检测坐标，R为预设的下采样倍数。

第一顶点和第二顶点可以确定检测框的位置。通常，第一顶点为检测框左上角顶点，第二顶点为检测框右下角顶点。当然，也可以令第一顶点为检测框右上角顶点，第二顶点为检测框左下角顶点，等。

II、根据检测框位置信息、关键点位置信息和第三损失函数计算第三损失值。

可选的，第三损失值包括目标物体上的关键点的坐标预测值。检测框位置信息包括目标物体的检测框的宽度检测值、高度检测值和中心点检测坐标。关键点位置信息包括目标物体上的关键点的坐标检测值。

第三损失函数包括：

其中，

为关键点的坐标预测值，(lm_x，lm_y)为关键点的坐标检测值，box_w为检测框的宽度检测值，box_h为检测框的高度检测值，(c_x，c_y)为检测框的中心点检测坐标。

III、根据热图数据和第四损失函数计算第四损失值。

可选的，第四损失值包括样本图像中像素点的分类预测值。热图数据包括样本图像中像素点的分类检测值。

第四损失函数包括：

其中，

为样本图像中像素点的分类预测值，Y_xy为样本图像中像素点的分类检测值，α和β为预设超参数，Num为预设值。

示例性的，如S503中示例所述，可以将Num设置为1。

通过热图数据可以获取目标物体的中心位置，然后根据目标物体的中心位置对目标物体的检测框的位置进行校正。

IV、根据第二损失值、第三损失值和第四损失值计算第一损失值。

在一个实施例中，可以将第二损失值、第三损失值和第四损失值进行加权求和，得到第一损失值。

如上所述，第二损失值中包括目标物体的检测框的高度预测值和宽度预测值这两个数值，第三损失值中包括目标物体上的每个关键点的坐标预测值(即多个数值)，第四损失值中包括样本图像中每个像素点的分类预测值(即多个数值)。由于第二损失值、第三损失值和第四损失值的数值数量不相等，因此，无法直接进行加权求和。

可选的，计算第二损失值、第三损失值和第四损失值各自的统计特征值，然后将统计特征值进行加权求和。

统计特征值可以是平均值、方差、偏差等。

例如，可以计算第二损失值中目标物体的检测框的高度预测值和宽度预测值这两个数值的第一偏差和；计算第三损失值中目标物体上的每个关键点的坐标预测值的第二偏差和；计算第四损失值中每个像素点的分类预测值的第三偏差和。然后通过公式L＝L_Y+γ1L_box+γ2L_lm计算第一损失值。其中，L为第一损失值，L_Y为第三偏差和，L_box为第一偏差和，L_lm为第二偏差和，γ1和γ2为预设权值。

S505，根据第一损失值更新目标检测模型的模型参数。

在一种可能的实现方式中，可以将第一损失值反馈给目标检测模型，即只更新目标检测模型的模型参数。在该实现方式中，无法对特征提取模型和特征融合模型进行训练。这种实现方式中，需要另外对特征提取模型和特征融合模型进行训练。

在另一种可能的实现方式中，可以将第一损失值反馈给特征提取模型，即同时更新特征提取模型、特征融合模型和目标检测模型的模型参数。在该实现方式中，能够对目标检测系统进行整体训练。

当然，还有一种可能的实现方式为，为特征提取模型和特征融合模型分别设置损失函数；根据特征提取模型输出的特征信息计算特征提取模型的损失值，根据特征融合模型输出的特征融合信息计算特征融合模型的损失值；然后将特征提取模型的损失值反馈给特征提取模型、以更新特征提取模型的模型参数，将特征融合模型的损失值反馈给特征融合模型、以更新特征融合模型的模型参数，将第一损失值反馈给目标检测模型、以更新目标检测模型的模型参数。在该实现方式中，能够对目标检测系统中的三个模型分别进行训练。

基于上述实施例中介绍的目标检测模型的训练方法，下面介绍本申请实施例提供的一种目标检测方法。参见图6，是本申请实施例提供的目标检测方法的流程示意图，作为示例而非限定，所述方法可以包括以下步骤：

S601，获取待检测图像。

S602，将待检测图像输入到训练后的特征提取模型中，输出待检测图像的第三特征信息。

S603，将待检测图像的第三特征信息输入到训练后的特征融合模型中，输出第四特征信息。

S604，将第四特征信息和待检测图像输入到训练后的目标检测模型中，输出检测结果。

本申请实施例中的特征提取模型可以采用如图2中所示的特征提取模型，特征融合模型可以采用如图3中所示的特征提取模型，目标检测模型可以采用如图4中所示的特征提取模型。并且，可以通过图5实施例中所述的目标模型的训练方法得到训练后的特征提取模型、训练后的特征融合模型和训练后的目标检测模型。

其中，检测结果中可以包括待检测图像中目标物体的检测框的检测框位置、目标物体上关键点的关键点位置。还可以包括目标物体的中心点的置信度。

当特征提取模型、特征融合模型和目标检测模型分开设置时，采用上述步骤S601-S604进行目标检测。当然，如果如图1实施例中所示的目标检测系统中，同时包括特征提取模型、特征融合模型和目标检测模型，那么可以将待检测图像输入到训练后的目标检测系统中，输出检测结果。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的目标检测模型的训练方法，图7是本申请实施例提供的目标检测模型的训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图7，该装置包括：

特征提取单元71，用于获取样本图像的第一特征信息。

位置回归单元72，用于将所述第一特征信息输入到所述位置回归网络进行位置回归处理，输出所述样本图像中目标物体的位置信息。

热图分类单元73，用于将所述样本图像输入到所述热图分类网络中进行热图分类处理，输出所述样本图像的热图数据。

损失计算单元74，用于根据所述位置信息、所述热图数据和预设的第一损失函数计算第一损失值。

参数更新单元75，用于根据所述第一损失值更新所述目标检测模型的模型参数。

可选的，特征提取单元71还用于：

将所述样本图像输入到预设的特征提取模型中，输出所述样本图像的第二特征信息；将所述第二特征信息输入到预设的特征融合模型中，输出特征融合信息；将所述特征融合信息确定为所述样本图像的所述第一特征信息。

可选的，特征提取模型包括N个提取子网络，所述N为正整数；

可选的，特征融合模型中包括M个融合子网络，所述M为正整数；

可选的，所述位置回归网络包括检测框回归子网络和关键点回归子网络；所述目标物体的位置信息包括所述目标物体的检测框的检测框位置信息和所述目标物体上的关键点的关键点位置信息。

可选的，位置回归单元72包括：

将所述第一特征信息输入到所述检测框回归子网络中，输出所述检测框位置信息；将所述第一特征信息输入到关键点回归子网络中，输出所述关键点位置信息。

可选的，所述第一损失函数包括第二损失函数、第三损失函数和第四损失函数。

可选的，损失计算单元74包括：

第一计算模块，用于根据所述检测框位置信息和所述第二损失函数计算第二损失值。

第二计算模块，用于根据所述检测框位置信息、所述关键点位置信息和所述第三损失函数计算第三损失值。

第三计算模块，用于根据所述热图数据和所述第四损失函数计算第四损失值。

第四计算模块，用于根据所述第二损失值、所述第三损失值和所述第四损失值计算所述第一损失值。

可选的，所述第二损失值包括所述目标物体的检测框的高度预测值和宽度预测值；所述检测框位置信息包括所述目标物体的检测框的第一顶点检测坐标和第二顶点检测坐标；所述第二损失函数包括：

其中，

为所述高度预测值，

可选的，所述第三损失值包括所述目标物体上的关键点的坐标预测值；所述检测框位置信息包括所述目标物体的检测框的宽度检测值、高度检测值和中心点检测坐标；所述关键点位置信息包括所述目标物体上的关键点的坐标检测值；所述第三损失函数包括：

其中，

可选的，所述第四损失值包括所述样本图像中像素点的分类预测值；所述热图数据包括所述样本图像中像素点的分类检测值；所述第四损失函数包括：

其中，

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

另外，图7所示的目标检测模型的训练装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元，也可以作为独立的挂件集成到所述终端设备中，还可以作为独立的终端设备存在。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图8是本申请实施例提供的终端设备的结构示意图。如图8所示，该实施例的终端设备8包括：至少一个处理器80(图8中仅示出一个)处理器、存储器81以及存储在所述存储器81中并可在所述至少一个处理器80上运行的计算机程序82，所述处理器80执行所述计算机程序82时实现上述任意各个目标检测模型的训练方法实施例中的步骤。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图8仅仅是终端设备8的举例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，该处理器80还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81在一些实施例中可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81在另一些实施例中也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。