CN112560999A

CN112560999A - 一种目标检测模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112560999A
Application number: CN202110186629.XA
Authority: CN
Inventors: 王树; 罗振波; 吉翔
Original assignee: Chengdu Ruiyan Technology Co ltd
Current assignee: Chengdu Ruiyan Technology Co ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-03-26
Anticipated expiration: 2041-02-18
Also published as: CN112560999B

Abstract

本申请提供一种目标检测模型训练方法、装置、电子设备及存储介质，该方法包括：获得多个样本图像和多个类别热力图像；以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测模型中的特征提取网络和分类注意力网络进行训练，并以标注图像为数据标签，对目标检测模型中的特征提取网络和检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型。通过在目标检测模型加入了能够提取和有效利用不同类别间的差异化特征的分类注意力网络，从而引导模型去定位待检测图像中的具有重要影响的关键区域，让模型更好地关注关键区域从而学习到易混淆类别之间的差异性，提高了对图像进行目标检测的正确率。

Description

一种目标检测模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及目标检测的技术领域，具体而言，涉及一种目标检测模型训练方法、装置、电子设备及存储介质。

背景技术

目标检测，又被称为目标提取，是一种基于目标几何和统计特征的图像理解算法，目标检测是将目标的定位和识别合二为一，具体例如：基于计算机视觉算法，检测出图像中感兴趣的目标，即以矩形框标注出目标的位置，并识别出目标的类别。

在目前的目标检测算法中，业内公认的一个难题是目标定位和目标分类之间的矛盾，目标定位强调保留特征间的空间关系，而目标分类则强调特征的空间不变性，因此，虽然检测算法能够同时输出目标的位置和类别信息，但是对于类别信息的准确性，却不如单纯的分类模型性能高。在真实场景中获取的图像存在很多情况，这些情况例如：目标尺寸过小和类别易混淆等等，在目标尺寸过小和类别易混淆的情况下，很难使用目前的目标检测算法预测出图像中目标对象的正确类别。具体地，先以类别易混淆为例说明，监控视频场景下的“站在车旁边的行人”和“骑车人”，在某些视角下的外貌特征基本相似，存在差异的像素所占比例非常小，所以现有检测算法对于这种情况的性能不佳。再以目标对象在采集图像中的尺寸过小，对于小尺寸目标而言，不同类别的目标往往只有数个像素的差异，所以目前的检测算法较容易出现类别错误。因此，在目标尺寸过小和类别易混淆的情况下，使用目前的目标检测算法对图像进行目标检测的正确率较低。

发明内容

本申请实施例的目的在于提供一种目标检测模型训练方法、装置、电子设备及存储介质，用于改善在某些情况下对图像进行目标检测的正确率较低的问题。

本申请实施例提供了一种目标检测模型训练方法，包括：获得多个样本图像和多个类别热力图像，类别热力图像表征样本图像中至少一个被检测目标对应的类别激活响应概率，多个样本图像和多个类别热力图像用于训练目标检测模型，目标检测模型包括：特征提取网络、检测网络和分类注意力网络，特征提取网络分别与检测网络和分类注意力网络连接；以多个样本图像为训练数据，以多个热力图像为数据标签，对特征提取网络和分类注意力网络进行训练，以及使用样本图像对应的标注图像、类别热力图像和类别标签对特征提取网络和检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型，训练后的目标检测模型用于预测目标对象在图像中的区域和目标对象的类别。在上述的实现过程中，在目标检测模型中加入了能够提取和有效利用不同类别间的差异化特征的分类注意力网络，通过联合训练的方式去引导目标检测模型去定位待检测图像中对区分目标类别且具有重要影响的关键区域，从而让目标检测模型更好地关注这部分关键区域从而学习到易混淆类别之间的差异性，有效地提高了对图像进行目标检测的正确率。

可选地，在本申请实施例中，在对特征提取网络和分类注意力网络进行训练之前，还包括：在目标检测模型中添加分类注意力网络，分类注意力网络为全卷积网络。

可选地，在本申请实施例中，对特征提取网络和分类注意力网络进行训练，包括：使用特征提取网络提取样本图像中的图像特征；使用分类注意力网络对图像特征进行类别热力图预测，获得预测类别热力图；计算预测类别热力图和样本图像对应的类别热力图像之间的热力图损失值，根据热力图损失值对特征提取网络和分类注意力网络进行训练。

可选地，在本申请实施例中，使用样本图像对应的标注图像、类别热力图像和类别标签对特征提取网络和检测网络进行训练，包括：对图像特征与预测类别热力图进行特征融合，获得融合特征图；使用检测网络对融合特征图进行预测，获得样本图像中目标对象的预测区域和预测区域中的目标对象的类别；计算目标对象的预测区域与标注图像中的标注区域之间的第一损失值，并计算目标对象的类别与类别标签之间的第二损失值，然后根据第一损失值、第二损失值与热力图损失值计算出来的总损失值对目标检测模型进行训练。

可选地，在本申请实施例中，获得多个样本图像和多个类别热力图像，包括：根据样本图像对应的标注信息获取所述样本图像中的目标对象子图，并使用所述目标对象子图训练一个目标类别分类器，目标类别分类器用于区分目标对象子图的类别，标注信息包括目标对象所在的标注区域和目标对象的类别标签；使用针对待检测目标类别所训练得到的目标类别分类器提取样本图像中的目标对象子图像的分类特征，并对分类特征进行池化操作，获得目标对象对应的类别激活响应概率图；将目标对象对应的类别激活响应概率图映射至样本图像，获得类别热力图像。在上述的实现过程中，通过分类模型能更好地挖掘出用于区分目标类别起关键作用的分类特征，并将分类关键特征转化为可以引导检测模型进行训练的类别激活响应概率图，从而让目标检测模型更好地学习到对分类关键特征提取的能力，有效地提高了目标检测模型对于目标类别的判断能力。

可选地，在本申请实施例中，获得多个样本图像和多个类别热力图像，包括：使用样本图像中的目标对象子图对多个不同的分类神经网络进行训练，获得多个目标类别分类器；使用多个目标类别分类器中的每个目标类别分类器提取样本图像中的目标对象子图的分类特征，并对分类特征进行池化操作，获得多个类别激活响应概率图，多个类别激活响应概率图均是针对样本图像中的同一个目标对象的；将多个类别激活响应概率图进行融合，获得融合后的类别激活响应概率图；将融合后的类别激活响应概率图映射至样本图像，获得类别热力图像。

可选地，在本申请实施例中，在通过联合训练的方式获得训练后的目标检测模型之后，还包括：从目标检测模型中裁剪分类注意力网络。在上述的实现过程中，通过在对目标检测模型进行训练之前添加分类注意力网络，分类注意力网络为全卷积网络；在对目标检测模型进行训练之后裁剪分类注意力网络，该目标检测模型能够更好的学习到提取分类关键特征的能力，在不影响该目标检测模型运行速度的前提下提升了该目标检测模型对于易混淆目标的分类性能。

可选地，在本申请实施例中，在通过联合训练的方式获得训练后的目标检测模型之后，还包括：获得待检测图像；使用训练后的目标检测模型中的特征提取网络提取待检测图像中的图像特征；使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别。在上述的实现过程中，让目标检测模型通过之前训练过程中学习到提取分类注意力相关特征的能力，能够对易混淆类别之间进行有效地区分，从而提高了对图像进行目标检测的正确率。

本申请实施例还提供了一种目标检测模型训练装置，包括：类别热力图像获得模块，用于获得多个样本图像和多个类别热力图像，类别热力图像表征样本图像中至少一个被检测目标对应的类别激活响应概率；检测模型训练模块，用于以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测模型中的特征提取网络和分类注意力网络进行训练，以及使用样本图像对应的标注图像和类别标签对目标检测模型中的特征提取网络和检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型，训练后的目标检测模型用于预测目标对象在图像中的区域和目标对象的类别。

可选地，在本申请实施例中，其中，检测模型训练模块，包括：图像特征提取模块，用于使用特征提取网络提取样本图像中的图像特征；类别热力图像预测模块，用于使用分类注意力网络对图像特征进行类别热力图预测，获得预测类别热力图；第一网络训练模块，用于计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练。

可选地，在本申请实施例中，热力图像获得模块，包括：目标类别分类器训练模块，用于根据样本图像对应的标注信息获取所述样本图像中的目标对象子图，并使用所述目标对象子图训练一个目标类别分类器，目标类别分类器用于区分目标对象子图的类别，标注信息包括目标对象所在的标注区域和目标对象的类别标签；类别激活响应获得模块，用于使用针对待检测目标类别所训练得到的目标类别分类器提取样本图像中的目标对象子图像的分类特征，并对分类特征进行池化操作，获得目标对象对应的类别激活响应概率图；类别激活概率映射模块，用于将目标对象对应的类别激活响应概率图映射至样本图像，获得类别热力图像。

可选地，在本申请实施例中，检测模型训练模块，还包括：图像标签获得模块，用于获得多个标注图像和多个类别标签，标注图像中的标注区域是对样本图像中的每个目标对象所在区域进行标注获得的，类别标签是样本图像中的每个目标对象的类别标签数据；第二网络训练模块，用于以多个样本图像为训练数据，以多个标注图像和多个类别标签为训练标签，对特征提取网络和检测网络进行训练。

可选地，在本申请实施例中，第二网络训练模块，包括：样本特征提取模块，用于使用特征提取网络提取样本图像中的图像特征；区域类别预测模块，用于使用检测网络对图像特征进行预测，获得目标对象在样本图像中的预测区域和预测区域中的目标对象的预测类别；损失函数构建模块，用于根据样本图像中的预测区域和标注图像中的标注区域构建第一损失函数，并根据预测类别和类别标签构建第二损失函数；检测网络训练模块，用于根据第一损失函数和第二损失函数对特征提取网络和检测网络进行训练。

可选地，在本申请实施例中，目标检测模型训练装置，还包括：分类注意力网络添加模块，用于在目标检测模型中添加分类注意力网络，分类注意力网络为全卷积网络；注意力网络剪裁模块，用于从目标检测模型中裁剪分类注意力网络。

可选地，在本申请实施例中，目标检测模型训练装置，还包括：检测图像获得模块，用于获得待检测图像；特征网络提取模块，用于使用训练后的目标检测模型中的特征提取网络提取待检测图像中的图像特征；区域类别获得模块，用于使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有处理器可执行的机器可读指令，机器可读指令被处理器执行时执行如上面描述的方法。

本申请实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上面描述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出的本申请实施例提供的目标检测模型训练方法的流程示意图；

图2示出的本申请实施例提供的获得类别热力图像的示意图；

图3示出的本申请实施例提供的在训练过程中使用分类注意力网络的流程示意图；

图4示出的本申请实施例提供的使用目标检测模型对图像进行目标检测的流程示意图；

图5示出的本申请实施例提供的目标检测模型训练装置的结构示意图；

图6示出的本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

在介绍本申请实施例提供的目标检测模型训练方法之前，先介绍本申请实施例中所涉及的一些概念：

目标检测，又被称为目标提取，是一种基于目标几何和统计特征的图像理解算法，目标检测是将目标的定位和识别合二为一，具体例如：基于计算机视觉算法，检测出图像中感兴趣的目标，即以矩形框标示出目标的位置，并识别出目标的类别。

目标检测模型，是指对图像中的目标对象进行检测的神经网络模型，即检测出图像中的目标对象，并给出目标对象在图像中的位置范围、分类和概率，位置范围具体可以为检测框的形式标注，分类是指目标对象的具体类别，概率是指检测框中的目标对象为具体类别的概率。

编码解码器（Encoder-Decoder），是指一类通用网络结构，即先对输入图像进行多次下采样操作，从而提取抽象的高层特征，然后对高层特征进行多次上采样，在保留高层特征信息的同时尽量恢复细节信息。

上采样（Upsample），是指在深度学习领域，由于输入图像通过卷积神经网络提取特征后，输出的尺寸往往会变小，而在需要将特征图恢复到原来的尺寸的时候，以便进行进一步的计算(具体例如：图像的语义分割)，采用扩大图像尺寸，实现图像由小分辨率到大分辨率的映射的操作，可以理解为上采样操作。

需要说明的是，本申请实施例提供的目标检测模型训练方法可以被电子设备执行，这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器，设备终端例如：智能手机、个人电脑（personal computer，PC）、平板电脑、个人数字助理（personaldigital assistant，PDA）、移动上网设备（mobile Internet device，MID）、网络交换机或网络路由器等。

在介绍本申请实施例提供的目标检测模型训练方法之前，先介绍该目标检测模型训练方法适用的应用场景，这里的应用场景包括但不限于：使用该目标检测模型训练方法提高对图像中的目标对象进行检测的正确率，特别是一些容易混淆的目标对象的图像，图像中的易混淆目标对象例如：视频监控场景下的穿着红衣服且站在自行车旁的行人和红衣服的骑车人等，这类容易混淆的图像在视觉上的差异非常小，特别是图像中的目标对象尺寸比较小的情况下，通常两个易混淆的目标对象通常只有几个像素的差异，使用该目标检测模型训练方法能够有效地识别出图像中易混淆的目标对象。

请参见图1示出的本申请实施例提供的目标检测模型训练方法的流程示意图；该目标检测模型训练方法的主要思路是，在目标检测模型中训练过程中，在目标检测模型中加入了能够提取和有效利用不同类别间的差异化特征的分类注意力网络，通过联合训练的方式去引导目标检测模型去定位待检测图像中对区分目标类别且具有重要影响的关键区域，从而让目标检测模型更好地关注这部分关键区域从而学习到易混淆类别之间的差异性，有效地提高了对图像进行目标检测的正确率；上述的目标检测模型训练方法可以包括：

步骤S100：获得多个样本图像和多个类别热力图像。

样本图像，是指包含需要检测的目标对象的图像，此处的目标对象可以根据需求进行具体设置，例如：可以将目标对象设置为动物，即对猫或者狗拍照获得动物的样本图像。

类别热力图像，是指样本图像中至少一个被检测目标对应的类别激活响应概率的图像，也可以理解为，以亮度的形式显示样本图像中的每个像素对于区分目标对象类别所起作用的重要程度，如果某个或多个像素对于区分目标对象类别起关键作用，则这部分像素的响应概率很大，也可以说，这部分像素在类别热力图中的亮度很高。

上述步骤S100的实施方式有很多种，包括但不限于如下几种：

第一种实施方式，使用训练出来的单个目标类别分类器对样本图像进行处理，从而获得类别热力图像，该实施方式可以包括：

步骤S110：获得样本图像。

上述步骤S110中样本图像的获得方式包括：第一种获得方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得样本图像；然后该终端设备向电子设备发送样本图像，然后电子设备接收终端设备发送的样本图像，电子设备可以将样本图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的样本图像，具体例如：从文件系统中获取样本图像，或者从数据库中获取样本图像，或者从移动存储设备中获取样本图像；第三种获得方式，使用浏览器等软件获取互联网上的样本图像，或者使用其它应用程序访问互联网获得样本图像。

步骤S120：根据样本图像对应的标注信息获取样本图像中的目标对象子图，并使用目标对象子图训练一个目标类别分类器。

上述步骤S120的实施方式例如：根据样本图像对应的标注信息中的标注区域获取样本图像中的目标对象子图，并使用目标对象子图对图像分类模型进行训练，获得一个目标类别分类器；其中，上述的目标类别分类器用于区分目标对象子图的类别，标注信息包括目标对象所在的标注区域和目标对象的类别标签，可以使用的图像分类神经网络模型例如：卷积神经网络（CNN）等。

步骤S130：使用目标类别分类器提取样本图像中的每个目标对象子图的分类特征，并对分类特征进行池化操作，获得目标对象对应的类别激活响应概率图。

目标类别分类器是指能够提取样本图像中的目标对象特征，并根据该目标对象特征进行分类的神经网络，也就是说，该目标对象特征是用于对该目标对象进行分类的，具体例如：将图像中的人分为行人或骑车人。该目标类别分类器可以采用卷积神经网络（Convolutional Neural Network，CNN），此处的卷积神经网络可以包括：VGG网络、Resnet网络和Inception网络等。

请参见图2示出的本申请实施例提供的获得类别热力图像的示意图；上述步骤S130的实施方式例如：使用目标类别分类器提取样本图像中的所有目标对象子图的分类特征，可以理解的是，当样本图像中只有一个目标对象时，那么仅提取这个目标对象子图的分类特征；当然样本图像中有多个目标对象时，那么需要提取样本图像中的所有目标对象子图的分类特征。然后再对分类特征进行通道级别（channel-wise）的最大池化（maxpooling）操作，获得目标对象对应的类别激活响应概率图。由于这个类别激活响应概率图反映了对分类起决定作用的区域位置概率，因此，也可以将这个概率图称分类注意力热力图。

步骤S140：将每个目标对象对应的类别激活响应概率图映射至样本图像，获得类别热力图像。

上述步骤S140的实施方式例如：若上述的样本图像中只有一个目标对象，则将该单个目标对象对应的类别激活响应概率图映射至样本图像；若上述的样本图像中有多个目标区域，则将样本图像中的每个目标对象对应的类别激活响应概率图映射至样本图像，获得多目标的类别热力图像。

第二种实施方式，使用训练出来的多个目标类别分类器对样本图像进行处理，并对多个目标类别分类器的输出结果进行融合，从而获得类别热力图像，该实施方式可以包括：

步骤S150：使用样本图像中的目标对象子图对多个不同的分类神经网络进行训练，获得多个目标类别分类器。

步骤S160：使用多个目标类别分类器中的每个目标类别分类器提取样本图像中的目标对象子图的分类特征，并对分类特征进行池化操作，获得多个类别激活响应概率图。

其中，多个类别激活响应概率图均是针对样本图像中的同一个目标对象的。

其中，该步骤S150至步骤S160的实施原理和实施方式与步骤S120至步骤S130的实施原理和实施方式是类似的，区别在于，步骤S120至步骤S130是训练出一个目标类别分类器，并使用该目标类别分类器对样本图像进行特征提取和池化操作，从而获得针对目标对象的一个类别激活响应概率图，而步骤S150至步骤S160是训练出多个目标类别分类器，并使用多个目标类别分类器进行相应地处理，从而获得针对目标对象的多个类别激活响应概率图；因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S120的描述。

步骤S170：将多个类别激活响应概率图进行融合，获得融合后的类别激活响应概率图。

上述步骤S170的实施方式例如：将多个类别激活响应概率图进行均值融合、加权融合、通道融合或拼接融合等融合处理，获得融合后的类别激活响应概率图。

步骤S180：将融合后的类别激活响应概率图映射至样本图像，获得类别热力图像。

其中，该步骤S180的实施原理和实施方式与步骤S140的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S140的描述。

第三种实施方式，直接采用训练数据集中的样本图像和该样本图像对应的类别热力图像；具体例如：从互联网下载完整的训练数据集，并提取训练数据集中的样本图像和该样本图像对应的类别热力图像，可以将样本图像作为训练数据，将类别热力图像作为数据标签，对目标检测模型进行训练。

在步骤S100之后，执行步骤S200：以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测模型中的特征提取网络和分类注意力网络进行训练，以及使用样本图像对应的标注图像和类别标签对该目标检测模型中的特征提取网络和检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型。

上述的联合训练（Joint Training），又被称为联合学习（Joint Learning），是指利用多任务学习框架对该目标检测模型中的特征提取网络、检测网络和分类注意力网络进行联合训练，即分别使用多任务学习框架对特征提取网络、检测网络和分类注意力网络进行先后训练或者同时训练；其中，可以使用的多任务学习框架包括但不限于：多门混合专家（Multi-gate Mixture-of-Experts，MMoE）框架等等。

目标检测模型，是指以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测神经网络进行训练后获得的神经网络模型，训练后的目标检测模型用于预测目标对象在图像中的区域和目标对象的类别；其中，目标检测模型可以包括：特征提取网络、分类注意力网络和检测网络，特征提取网络分别与检测网络和分类注意力网络连接，分类注意力网络可以选择采用全卷积网络（Fully Convolutional Networks，FCN）。

上述步骤S200中的目标检测模型的训练方式有很多种，包括但不限于如下几种：

第一种训练方式，使用样本图像和该样本图像对应的类别热力图像对目标检测网络模型进行训练，该训练方式可以包括：

步骤S210：使用特征提取网络提取样本图像中的图像特征。

特征提取网络，是指从图像中提取图像特征的神经网络；此处的特征提取网络可以采用的网络结构包括但不限于：ResNet网络和DarkNet-53网络等等。

上述步骤S210的实施方式例如：目标检测模型可以采用YoloV3模型，特征提取网络可以采用YoloV3模型中的DarkNet-53网络，使用YoloV3模型中的DarkNet-53网络作为特征提取网络提取样本图像中的图像特征；其中，此处的DarkNet-53网络是基于残差模块构建的，每个残差模块由两个卷积层和一个捷径连接（shortcut connections）构成，每个卷积层的具体网络结构包括：卷积层（conv）、批量归一化（Batch Normalization，BN）层和激活层（泄露线性修正单元，leakyrelu）。

步骤S220：使用分类注意力网络对图像特征进行类别热力图预测，获得预测类别热力图。

分类注意力网络，是指对检测特征提取网络得到的图像特征进行处理，获得热力图的神经网络；在具体的实践过程中可以采用编码解码器（Encoder-Decoder）的神经网络结构。

上述步骤S220的实施方式例如：使用分类注意力网络对图像特征进行类别热力图预测，获得预测类别热力图；其中，可以使用的分类注意力网络例如U-Net模型；可以采用U-Net模型对图像特征进行处理，从而生成像素级的预测类别热力图。

步骤S230：计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练。

上述步骤S230的实施方式例如：根据预测类别热力图和样本图像对应的类别热力图像可以构建损失函数，再使用该损失函数计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练。由于在对特征提取网络和分类注意力网络进行训练的过程中，根据分类注意力网络获得的预测类别热力图和样本图像对应的类别热力图像之间的损失值来更新分类注意力网络和特征提取网络的权重，因此，可以引导目标检测模型中的特征提取网络进行分类注意力的学习。

在上述的实现过程中，在目标检测模型的训练过程中，使用分类注意力网络预测出样本图像中的图像特征对应的预测类别热力图，并计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练；也就是说，通过在目标检测模型加入了能够提取和有效利用不同类别间的差异化特征的分类注意力网络，从而引导目标检测模型去定位待检测图像中对于区分目标类别具有重要影响的关键区域，让目标检测模型更好地关注这部分关键区域从而学习到易混淆类别之间的差异性，有效地提高了对图像进行目标检测的正确率。

第二种训练方式，使用样本图像和该样本图像对应的标注图像对目标检测模型进行训练，可以理解的是，上述第一种训练方式和第二种训练方式的顺序不应理解为对本申请实施例的限制，本领域技术人员可以根据具体实际情况，将第一种训练方式和第二种训练方式进行同时训练，或者一先一后的训练，具体例如：第一种训练方式在先训练且第二种训练方式在后训练，或者第二种训练方式在先训练且第一种训练方式在后训练；此处的第二种训练方式可以包括：

步骤S240：获得多个标注图像和多个类别标签。

标注图像，是指对样本图像进行标注后获得的图像，标注图像中的标注区域是对样本图像中的每个目标对象所在区域进行标注获得的；具体例如：用标注边框分别对图2中的样本图像左上角、中间位置和右下角位置的目标对象进行标注，获得标注后的样本图像，即可理解标注图像。

类别标签，是指样本图像中的每个目标对象的类别标签数据，具体例如：上述图2中的样本图像左上角、中间位置和右下角位置的目标对象的样本标签均是人。

上述步骤S240的获得方式包括：第一种方式，使用人工标注的方式对样本图像中的所有目标对象进行标注，并对所有目标对象进行类别标签标注，从而获得多个标注图像和多个类别标签；第二种方式，直接从其它存储设备或者互联网上下载，获取已经标注完成的训练数据集，从训练数据集中获取多个标注图像和多个类别标签；其中，标注图像和类别标签是逐一对应的。

步骤S250：以多个样本图像为训练数据，以多个标注图像和多个类别标签为训练标签，对特征提取网络和检测网络进行训练。

检测网络，是指根据图像特征预测目标对象在样本图像中的预测区域和预测区域中的目标对象的类别的神经网络，检测网络具体可以采用Yolo系列或者RetinaNet的结构，具体例如：使用一系列卷积模块提取共享检测特征，然后用两个分支（也有一系列卷积模块构成）分别预测目标位置和目标类别。

上述步骤S250的实施方式可以包括如下步骤：

步骤S251：使用特征提取网络提取样本图像中的图像特征。

其中，该步骤S251的实施原理和实施方式与步骤S210的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S210的描述。

步骤S252：使用检测网络对图像特征进行预测，获得目标对象在样本图像中的预测区域和预测区域中的目标对象的预测类别。

上述步骤S252的实施方式例如：使用YoloV3的检测模块等等作为检测网络对图像特征进行预测，获得目标对象在样本图像中的预测区域和预测区域中的目标对象的预测类别。

步骤S253：根据样本图像中的预测区域和标注图像中的标注区域构建第一损失函数，并根据预测类别和类别标签构建第二损失函数。

步骤S254：根据第一损失函数和第二损失函数对特征提取网络和检测网络进行训练。

上述步骤S253至步骤S254的实施方式例如：根据第一损失函数和第二损失函数对特征提取网络和检测网络进行训练，即根据第一损失函数和第二损失函数对特征提取网络和检测网络的网络权重参数进行更新，直到网络权重参数收敛，或者训练批量数目大于预设阈值，则获得训练后的特征提取网络和检测网络；其中，预设阈值可以根据具体情况设置，例如：设置为100或者200等；第一损失函数表征样本图像中的预测区域和标注图像中的标注区域之间的损失，第二损失函数表征预测类别和类别标签之间的损失。

可选地，在具体的实施过程中，还可以结合上述的第一种训练方式和第二种训练方式，即根据第一损失值、第二损失值与热力图损失值计算出来的总损失值对目标检测模型进行训练，该实施方式与上述的第一种训练方式和第二种训练方式类似，因此，这里不再赘述，其实施方式请参照上面的第一种训练方式和第二种训练方式。

第三种训练方式，除了上述的第一种训练方式和第二种训练方式之外，还可以将图像特征与预测类别热力图进行特征融合，然后根据融合特征图对目标检测模型进行训练；需要说明的是，通过该训练方式获得的目标检测模型中的分类注意力网络在应用推断时不能从模型中裁剪掉，而通过第二种训练方式获得的目标检测模型中的分类注意力网络在应用推断时可以从模型中裁剪掉，也可以不从模型中裁剪掉，可以包括：

步骤S260：对图像特征与预测类别热力图进行特征融合，获得融合特征图。

上述步骤S260的实施方式例如：使用均值融合、加权融合、通道融合和拼接融合等等融合方式对图像特征与预测类别热力图进行特征融合，获得融合特征图；其中，此处的融合特征图是指将图像特征作为矩阵和图像作为矩阵进行融合后获得的表征融合特征的矩阵。

步骤S270：使用检测网络对融合特征图进行预测，获得样本图像中目标对象的预测区域和预测区域中的目标对象的类别。

步骤S280：计算目标对象的预测区域与标注图像中的标注区域之间的第一损失值，并计算目标对象的类别与类别标签之间的第二损失值。

步骤S290：根据第一损失值与第二损失值计算出来的总损失值对目标检测模型进行训练。

其中，该步骤S270至步骤S290的实施原理和实施方式与步骤S252至步骤S254的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S252至步骤S254的描述。

在第三种训练方式过程中，通过该训练方式获得的目标检测模型中的分类注意力网络在应用推断时不能从模型中裁剪掉，虽然分类注意力网络带来的计算量可能会影响应用推断的速度，但是该目标检测模型具有更高的性能，也就是说，使用包括分类注意力网络的目标检测模型进行目标检测的准确率会更高。

请参见图3示出的本申请实施例提供的在训练过程中使用分类注意力网络的流程示意图；可选地，可以仅仅是在对目标检测模型进行训练的时候使用分类注意力网络，而在使用目标检测模型对图像进行检测时将分类注意力网络从目标检测模型中裁剪，因为特征提取网络在训练过程中已经收到了分类注意力网络的引导，因此裁减掉分类注意力网络能够在保留分类性能的同时，有效提升模型对图像进行目标检测的速度和效率，只在目标检测模型训练过程中使用分类注意力网络的具体过程包括：

步骤S310：获得多个样本图像和多个类别热力图像，类别热力图像表征样本图像中至少一个被检测目标对应的类别激活响应概率。

其中，该步骤S310的实施原理和实施方式与步骤S100的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S100的描述。

步骤S320：在目标检测模型中添加分类注意力网络。

上述步骤S320的实施方式例如：假设目标检测模型包括：特征提取网络和检测网络；该特征提取网络用于提取样本图像中的图像特征，该检测网络用于对该图像特征进行预测，获得待检测图像中目标对象的预测区域和目标对象的类别；在目标检测模型中添加分类注意力网络，分类注意力网络用于对图像特征进行类别热力图预测，获得预测类别热力图；计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练。

步骤S330：以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测模型进行训练，获得训练后的目标检测模型。

其中，该步骤S320的实施原理和实施方式与步骤S200的实施原理和实施方式是类似的，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S200的描述。

步骤S340：从目标检测模型中裁剪分类注意力网络。

上述步骤S340的实施方式例如：从目标检测模型中裁剪分类注意力网络之后，可以有效地提升目标检测模型的运行效率；分类注意力网络仅在模型的训练阶段加入，对于分类关键特征的提取能力，该模型已经在训练阶段学习完成，因此，在模型的测试阶段可以移除分类注意力网络，从而不会影响模型在测试阶段的速度。

在上述的实现过程中，在目标检测模型中加入了能够提取和有效利用不同类别间的差异化特征的分类注意力网络；在对目标检测模型进行训练之后裁剪分类注意力网络，该目标检测模型能够更好的学习到易混淆类别之间的差异性，在不影响该目标检测模型运行速度的前提下，提升了该目标检测模型对于易混淆目标的分类性能。

请参见图4示出的本申请实施例提供的使用目标检测模型对图像进行目标检测的流程示意图；可选地，在对目标检测模型进行之后，还可以使用目标检测模型对图像进行目标检测，对图像进行目标检测的过程可以包括：

步骤S410：获得待检测图像。

上述步骤S410中的待检测图像的获得方式例如：第一种获得方式，使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄，获得待检测图像；然后该终端设备向电子设备发送待检测图像，然后电子设备接收终端设备发送的待检测图像，电子设备可以将待检测图像存储至文件系统、数据库或移动存储设备中；第二种获得方式，获取预先存储的待检测图像，具体例如：从文件系统中获取待检测图像，或者从数据库中获取待检测图像，或者从移动存储设备中获取待检测图像；第三种获得方式，使用浏览器等软件获取互联网上的待检测图像，或者使用其它应用程序访问互联网获得待检测图像。

步骤S420：使用训练后的目标检测模型中的特征提取网络提取待检测图像中的图像特征。

其中，该步骤S420的实施原理和实施方式与步骤S210的实施原理和实施方式是类似的，区别仅在于提取的图像不同，因此，这里不再对该步骤的实施方式和实施原理进行说明，如有不清楚的地方，可以参考对步骤S210的描述。

步骤S430：使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别。

上述步骤S430的实施方式例如：使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别；其中，此处的目标检测模型是指上述被改造过的目标检测模型，即在训练阶段添加分类注意力网络且在训练阶段结束后裁剪掉分类注意力网络的目标检测模型，可以被改造过的目标检测模型包括但不限于：特征融合单点多盒检测器（Feature Fusion Single ShotMultibox Detector，FSSD）、YOLO模型、RCNN、fast RCNN和faster RCNN系列的模型。

在上述的实现过程中，通过使用训练后的目标检测模型中的特征提取网络提取获得的待检测图像中的图像特征，并使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别；让目标检测模型通过之前训练过程中学习到的注意力区域相关特征，能够对易混淆类别之间进行有效地区分，从而提高了对图像进行目标检测的正确率。

请参见图5示出的本申请实施例提供的目标检测模型训练装置的结构示意图；本申请实施例提供了一种目标检测模型训练装置500，包括：

热力图像获得模块510，用于获得多个样本图像和多个类别热力图像，类别热力图像表征样本图像中至少一个被检测目标对应的类别激活响应概率。

检测模型训练模块520，用于以多个样本图像为训练数据，以多个类别热力图像为数据标签，对目标检测模型中的特征提取网络和分类注意力网络进行训练，以及使用样本图像对应的标注图像和类别标签对目标检测模型中的特征提取网络和检测网络进行训练，获得训练后的目标检测模型，训练后的目标检测模型用于预测目标对象在图像中的区域和目标对象的类别。

可选地，在本申请实施例中，检测模型训练模块，包括：

图像特征提取模块，用于使用特征提取网络提取样本图像中的图像特征。

类别热力图像预测模块，用于使用分类注意力网络对图像特征进行类别热力图预测，获得预测类别热力图。

第一网络训练模块，用于计算预测类别热力图和样本图像对应的类别热力图像之间的损失值，根据损失值对特征提取网络和分类注意力网络进行训练。

可选地，在本申请实施例中，热力图像获得模块，包括：

目标类别分类器训练模块，用于根据样本图像对应的标注信息获取样本图像中的目标对象子图，并使用目标对象子图训练一个目标类别分类器，目标类别分类器用于区分目标对象子图的类别，标注信息包括目标对象所在的标注区域和目标对象的类别标签。

类别激活响应获得模块，用于使用针对待检测目标类别所训练得到的目标类别分类器提取样本图像中的目标对象子图像的分类特征，并对分类特征进行池化操作，获得目标对象对应的类别激活响应概率图。

类别激活概率映射模块，用于将目标对象对应的类别激活响应概率图映射至样本图像，获得类别热力图像。

可选地，在本申请实施例中，目标检测模型还包括：检测网络；检测模型训练模块，还包括：

图像标签获得模块，用于获得多个标注图像和多个类别标签，标注图像中的标注区域是对样本图像中的每个目标对象所在区域进行标注获得的，类别标签是样本图像中的每个目标对象的类别标签数据。

第二网络训练模块，用于以多个样本图像为训练数据，以多个标注图像和多个类别标签为训练标签，对特征提取网络和检测网络进行训练。

可选地，在本申请实施例中，第二网络训练模块，包括：

样本特征提取模块，用于使用特征提取网络提取样本图像中的图像特征。

区域类别预测模块，用于使用检测网络对图像特征进行预测，获得目标对象在样本图像中的预测区域和预测区域中的目标对象的预测类别。

损失函数构建模块，用于根据样本图像中的预测区域和标注图像中的标注区域构建第一损失函数，并根据预测类别和类别标签构建第二损失函数。

检测网络训练模块，用于根据第一损失函数和第二损失函数对特征提取网络和检测网络进行训练。

可选地，在本申请实施例中，检测模型训练装置，还包括：

分类注意力网络添加模块，用于在目标检测模型中添加分类注意力网络，分类注意力网络为全卷积网络。

注意力网络剪裁模块，用于从目标检测模型中裁剪分类注意力网络。

可选地，在本申请实施例中，检测模型训练装置，还包括：

检测图像获得模块，用于获得待检测图像。

特征网络提取模块，用于使用训练后的目标检测模型中的特征提取网络提取待检测图像中的图像特征。

区域类别获得模块，用于使用训练后的目标检测模型中的检测网络对图像特征进行预测，获得待检测图像中目标对象的预测区域和预测区域中的目标对象的类别。

应理解的是，该装置与上述的检测模型训练方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件（firmware）的形式存储于存储器中或固化在装置的操作系统（operating system，OS）中的软件功能模块。

请参见图6示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备600，包括：处理器610和存储器620，存储器620存储有处理器610可执行的机器可读指令，机器可读指令被处理器610执行时执行如上的方法。

本申请实施例还提供了一种存储介质630，该存储介质630上存储有计算机程序，该计算机程序被处理器610运行时执行如上的方法。

其中，存储介质630可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

本申请实施例提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这主要根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以使用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上的描述，仅为本申请实施例的可选实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种目标检测模型训练方法，其特征在于，包括：

获得多个样本图像和多个类别热力图像，所述类别热力图像表征所述样本图像中至少一个被检测目标对应的类别激活响应概率，所述多个样本图像和所述多个类别热力图像用于训练目标检测模型，所述目标检测模型包括：特征提取网络、检测网络和分类注意力网络，所述特征提取网络分别与所述检测网络和所述分类注意力网络连接；

以所述多个样本图像为训练数据，以所述多个类别热力图像为数据标签，对所述特征提取网络和所述分类注意力网络进行训练，以及使用所述样本图像对应的标注图像、类别热力图像和类别标签对所述特征提取网络和所述检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型，所述训练后的目标检测模型用于预测目标对象在图像中的区域和所述目标对象的类别。

2.根据权利要求1所述的方法，其特征在于，在所述对所述特征提取网络和所述分类注意力网络进行训练之前，还包括：

在所述目标检测模型中添加所述分类注意力网络，所述分类注意力网络为全卷积网络。

3.根据权利要求1所述的方法，其特征在于，所述对所述特征提取网络和所述分类注意力网络进行训练，包括：

使用所述特征提取网络提取所述样本图像中的图像特征；

使用所述分类注意力网络对所述图像特征进行类别热力图预测，获得预测类别热力图；

计算所述预测类别热力图和所述样本图像对应的类别热力图像之间的热力图损失值，根据所述热力图损失值对所述特征提取网络和所述分类注意力网络进行训练。

4.根据权利要求3所述的方法，其特征在于，所述使用所述样本图像对应的标注图像、类别热力图像和类别标签对所述特征提取网络和所述检测网络进行训练，包括：

对所述图像特征与所述预测类别热力图进行特征融合，获得融合特征图；

使用所述检测网络对所述融合特征图进行预测，获得所述样本图像中目标对象的预测区域和所述预测区域中的目标对象的类别；

计算所述目标对象的预测区域与所述标注图像中的标注区域之间的第一损失值，并计算所述目标对象的类别与所述类别标签之间的第二损失值，然后根据所述第一损失值、所述第二损失值与所述热力图损失值计算出来的总损失值对所述目标检测模型进行训练。

5.根据权利要求1所述的方法，其特征在于，所述获得多个样本图像和多个类别热力图像，包括：

根据所述样本图像对应的标注信息获取所述样本图像中的目标对象子图，并使用所述目标对象子图训练一个目标类别分类器，所述目标类别分类器用于区分目标对象子图的类别，所述标注信息包括目标对象所在的标注区域和目标对象的类别标签；

使用所述目标类别分类器提取所述样本图像中的目标对象子图的分类特征，并对所述分类特征进行池化操作，获得所述目标对象对应的类别激活响应概率图；

将所述目标对象对应的类别激活响应概率图映射至所述样本图像，获得所述类别热力图像。

6.根据权利要求1所述的方法，其特征在于，所述获得多个样本图像和多个类别热力图像，包括：

使用所述样本图像中的目标对象子图对多个不同的分类神经网络进行训练，获得多个目标类别分类器；

使用所述多个目标类别分类器中的每个目标类别分类器提取所述样本图像中的目标对象子图的分类特征，并对所述分类特征进行池化操作，获得多个类别激活响应概率图，所述多个类别激活响应概率图均是针对所述样本图像中的同一个目标对象的；

将所述多个类别激活响应概率图进行融合，获得融合后的类别激活响应概率图；

将所述融合后的类别激活响应概率图映射至所述样本图像，获得所述类别热力图像。

7.根据权利要求1所述的方法，其特征在于，在所述通过联合训练的方式获得训练后的目标检测模型之后，还包括：

从所述目标检测模型中裁剪所述分类注意力网络。

8.根据权利要求1-6任一所述的方法，其特征在于，在所述通过联合训练的方式获得训练后的目标检测模型之后，还包括：

获得待检测图像；

使用所述训练后的目标检测模型中的特征提取网络提取所述待检测图像中的图像特征；

使用所述训练后的目标检测模型中的检测网络对所述图像特征进行预测，获得所述待检测图像中目标对象的预测区域和所述预测区域中的目标对象的类别。

9.一种目标检测模型训练装置，其特征在于，包括：

热力图像获得模块，用于获得多个样本图像和多个类别热力图像，所述类别热力图像表征所述样本图像中至少一个被检测目标对应的类别激活响应概率；

检测模型训练模块，用于以所述多个样本图像为训练数据，以所述多个类别热力图像为数据标签，对目标检测模型中的特征提取网络和分类注意力网络进行训练，以及使用所述样本图像对应的标注图像和类别标签对所述目标检测模型中的特征提取网络和检测网络进行训练，通过联合训练的方式获得训练后的目标检测模型，所述训练后的目标检测模型用于预测目标对象在图像中的区域和所述目标对象的类别。

10.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的方法。

11.一种存储介质，其特征在于，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至8任一所述的方法。