CN112733864B

CN112733864B - 模型训练方法、目标检测方法、装置、设备及存储介质

Info

Publication number: CN112733864B
Application number: CN202110051303.6A
Authority: CN
Inventors: 李昂; 杨学; 张志强; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2023-10-31
Anticipated expiration: 2039-09-16
Also published as: CN112733864A

Abstract

本申请实施例涉及一种检测模型训练方法、装置、设备及存储介质，旨在提高模型的泛化能力。所述方法包括：获得多个源域样本图像和多个目标域样本图像，其中，每张源域样本图像包括预先标记的源域对象的标注框信息；将源域样本图像和目标域样本图像成对输入特征提取模型，获得该源域样本图像的第一特征图和第一检测框、该目标域样本图像的第二特征图和第二检测框；判断各特征图中的每个像素点的领域类别，得到多个第一判断结果；判断每个检测框的领域类别，得到多个第二判断结果；根据第一检测框和标注框信息，以及根据多个第一判断结果和多个第二判断结果，更新所述特征提取模型。

Description

模型训练方法、目标检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像处理技术领域，具体而言，涉及一种模型训练方法、目标检测方法、装置、设备及存储介质。

背景技术

随着图像处理技术领域的发展和硬件设备计算能力的提升，为了使机器可以智能地实现检测、分类、预测等功能，技术人员搜集大量的样本图片，并对样本图片进行标记，通过标记后的样本图片对搭建的预设模型进行训练，从而获得具有期望功能的模型。这期间，模型训练的好坏通常依赖于技术人员搭建的预设模型的结构和类型，还依赖于技术人员对样本图片的选择方式和标记方式。

以基于道路场景的目标检测为例，技术人员搜集大量的道路图片作为样本图片，并手动地对道路图片中的汽车、行人、行道树、路面等目标对象进行标记，通过标记后的道路图片对预先搭建的目标检测模型(例如R-CNN、Fast R-CNN、Faster R-CNN)进行训练，获得能够自动对道路中的各个对象进行检测、分类的期望模型。

然而采用上述方式对预设模型进行训练时，最终所得模型的泛化能力较差。例如，技术人员选用大量的A国道路领域的图片作为样本图片，对目标检测模型进行训练，得到的期望模型对A国道路领域的图片中的各个对象具有较好的检测、分类能力，但是对于B国道路领域的图片中的各个对象，难以实现准确的检测和分类，模型的适应性较低。

发明内容

本申请实施例提供一种模型训练方法、目标检测方法、装置、设备及存储介质，旨在提高模型的泛化能力。

本申请实施例第一方面提供一种检测模型训练方法，所述方法包括：

获得多个源域样本图像和多个目标域样本图像，其中，每张源域样本图像包括预先标记的源域对象的标注框信息；

将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，得到所述特征提取模型输出的该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框；

通过第一判别器判断所述第一特征图和所述第二特征图中的每个像素点的领域类别，得到多个第一判断结果；

通过第二判别器判断所述第一检测框和所述第二检测框中每个检测框的领域类别，得到多个第二判断结果；

根据所述第一检测框和所述标注框信息，更新所述特征提取模型；

根据所述多个第一判断结果和所述多个第二判断结果，更新所述特征提取模型。

可选地，所述方法还包括：

根据所述多个第一判断结果，以及所述特征提取模型输出的每张特征图中的每个像素点来自于源域样本图像还是目标域样本图像，更新所述第一判别器，使更新后的第一判别器能够更准确地判别特征图中像素点的领域类别；

根据所述多个第二判断结果，以及所述特征提取模型输出的每个检测框来自于源域样本图像还是目标域样本图像，更新所述第二判别器。

可选地，所述第一判别器和所述特征提取模型之间设置有第一梯度反转层，所述第二判别器和所述特征提取模型之间设置有第二梯度反转层；所述方法还包括：

通过所述第一梯度反转层和所述第二反转层，对所述第一判别器、所述第二判别器和所述特征提取模型进行多次对抗训练和更新，直到更新后的第一判别器判别更新后的特征提取模型输出的特征图中像素点的领域类别为源域或目标域的概率之差小于第一预设阈值，更新后的第二判别器判别更新特征提取模型输出的每个检测框的领域类别为源域或目标域的概率之差小于第二预设阈值，结束对抗训练；

其中，对所述第一判别器和所述第二判别器的更新是以梯度下降的方式进行的，对所述特征提取模型的更新是以梯度下降的负方向进行的。

可选地，在根据所述第一检测框和所述标注框信息，更新所述特征提取模型之前，所述方法还包括：

对所述多个第一判断结果和所述多个第二判断结果中对应同一图像区域的两个判断结果进行正则化处理，使得正则化处理后的两个判断结果表征的领域类别一致；

根据所述多个第一判断结果和所述多个第二判断结果，更新所述特征提取模型，包括：

根据正则化处理后的多个第一判断结果和多个第二判断结果，更新所述特征提取模型。

可选地，所述特征提取模型包括图像金字塔子网络；

将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，得到所述特征提取模型输出的该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框，包括：

将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，将所述图像金字塔子网络的特征预测层的输出确定为该源域样本图像的第一特征图、以及该目标域样本图像的第二特征图，将所述图像金字塔子网络的目标检测层的输出确定为该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框。

本申请实施例第二方面提供目标检测方法，所述方法包括：

将待检测图像输入特征提取模型，得到所述待检测图像中的目标对象的检测框，其中，所述特征提取模型是通过本申请第一方面所述的方法训练得到的。

本申请实施例第三方面提供检测模型训练装置，所述装置包括：

样本图像获得模块，用于获得多个源域样本图像和多个目标域样本图像，其中，每张源域样本图像包括预先标记的源域对象的标注框信息；

样本图像输入模块，用于将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，得到所述特征提取模型输出的该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框；

像素点领域判别模块，用于通过第一判别器判断所述第一特征图和所述第二特征图中的每个像素点的领域类别，得到多个第一判断结果；

检测框领域判别模块，用于通过第二判别器判断所述第一检测框和所述第二检测框中每个检测框的领域类别，得到多个第二判断结果；

第一更新模块，用于根据所述第一检测框和所述标注框信息，更新所述特征提取模型；

第二更新模块，用于根据所述多个第一判断结果和所述多个第二判断结果，更新所述特征提取模型。

可选地，所述装置还包括：

第一判别器更新模块，用于根据所述多个第一判断结果，以及所述特征提取模型输出的每张特征图中的每个像素点来自于源域样本图像还是目标域样本图像，更新所述第一判别器，使更新后的第一判别器能够更准确地判别特征图中像素点的领域类别；

第二判别器更新模块，用于根据所述多个第二判断结果，以及所述特征提取模型输出的每个检测框来自于源域样本图像还是目标域样本图像，更新所述第二判别器。

可选地，所述第一判别器和所述特征提取模型之间设置有第一梯度反转层，所述第二判别器和所述特征提取模型之间设置有第二梯度反转层；所述装置还包括：

对抗训练模块，用于通过所述第一梯度反转层和所述第二反转层，对所述第一判别器、所述第二判别器和所述特征提取模型进行多次对抗训练和更新，直到更新后的第一判别器判别更新后的特征提取模型输出的特征图中像素点的领域类别为源域或目标域的概率之差小于第一预设阈值，更新后的第二判别器判别更新特征提取模型输出的每个检测框的领域类别为源域或目标域的概率之差小于第二预设阈值，结束对抗训练；

可选地，所述装置还包括：

正则化模块，用于在根据所述第一检测框和所述标注框信息，更新所述特征提取模型之前，对所述多个第一判断结果和所述多个第二判断结果中对应同一图像区域的两个判断结果进行正则化处理，使得正则化处理后的两个判断结果表征的领域类别一致；

所述第二更新模块包括：

第二更新子模块，用于根据正则化处理后的多个第一判断结果和多个第二判断结果，更新所述特征提取模型。

可选地，所述特征提取模型包括图像金字塔子网络；所述样本图像输入模块包括：

样本图像输入子模块，用于将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，将所述图像金字塔子网络的特征预测层的输出确定为该源域样本图像的第一特征图、以及该目标域样本图像的第二特征图，将所述图像金字塔子网络的目标检测层的输出确定为该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框。

本申请实施例第四方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第五方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的检测模型训练方法，同时将源域样本图像和目标域样本图像输入待训练的特征提取模型，输出该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框。一方面，可以利用第一检测框和源域样本图像包括的标注框信息对特征提取模型进行训练，使得特征提取模型能更准确地对源域图像中的对象进行检测、分类。

另一方面，利用分类器对检测框和特征图中的像素点进行领域判别，并根据判断结果对特征提取模型进行更新，使得判别器能提取出源域图像和目标域图像的共性特征和通用检测框，以欺骗领域判别器，使其不能准确地判别出检测框和特征图中的像素点的领域。最终，特征提取模型无论针对源域图像还是目标域图像，都能准确检测、分类出其中的目标对象，具有更好的泛化能力。

再一方面，采用本申请提供的检测模型训练方法，可以仅对源域样本图像进行标记，因此可以有效减少标记工作量，提高训练效率和降低训练成本。并且在训练期间，从特征图和检测框这两种不同级别的特征对模型进行训练更新，使得最终训练得到的特征提取模型在两种级别的特征上，能够提取出不同领域图像的共性特征，因此特征提取模型从源域图像泛化至目标域图像的能力更强。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的预设模型的结构示意图；

图2是是本申请一实施例提出的检测模型训练方法的流程图；

图3是本申请另一实施例提出的检测模型训练方法的流程图；

图4是本申请另一实施例提出的检测模型训练方法的流程图；

图5是本申请一实施例提出的检测模型训练装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在机器学习领域，技术人员搜集大量的样本图片，并对样本图片进行标记，通过标记后的样本图片对搭建的预设模型进行训练，从而获得具有期望功能的目标模型，人们利用该目标模型对图像进行检测、分类和预测等等。这期间，模型训练的好坏通常依赖于技术人员搭建的预设模型的结构和类型，还依赖于技术人员对样本图片的选择方式和标记方式。

本申请发明人发现，由于现有模型训练方法在搭建预设模型时，通常搭建的是常规的模型结构，在利用源领域的样本图像对预设模型进行训练后，得到的目标模型的泛化能力较差，该目标模型虽然能针对源领域的图像较准确地实施检测、分类和预测等期望功能，但是不能针对相近领域的图像实施期望功能。为了解决这一问题，可以采用的一种方法是：再搜集大量的相近领域的样本图像，并对其进行标记，利用标记后的图像再对模型进行训练，使得模型能针对相近领域的图像实施期望功能。但是这种方法会成倍地增加人工标记的成本，并且降低了模型训练的效率。

有鉴于此，本申请发明人提出：预先搜集源域样本图像和目标域样本图像，对源域样本图像中的源域对象标记标注框信息。训练时，同时将源域样本图像和目标域样本图像输入待训练的特征提取模型，输出该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框。

一方面，利用第一检测框和源域样本图像中标记的标注框信息对特征提取模型进行训练，使得特征提取模型能更准确地对源域图像中的对象进行检测、分类。另一方面，利用判别器对检测框和特征图中的像素点进行领域判别，并根据判断结果对特征提取模型进行更新，使得判别器能提取出源域图像和目标域图像的共性特征和通用检测框，以欺骗领域判别器，使其不能准确地判别出检测框和特征图中的像素点的领域。最终，特征提取模型无论针对源域图像还是目标域图像，都能准确检测、分类出其中的对象，具有更好的泛化能力。

参考图1，图1是本申请一实施例提出的预设模型的结构示意图。如图1所示，该预设模型主要包括：特征提取模型、第一判别器和第二判别器。

其中，特征提取模型可选用二步目标检测器，例如Faster R-CNN、FPN(图像金字塔)等，特征提取模型也可选用一步目标检测器，例如SSD、RetinaNet等。图1中，特征提取模型具体包括ResNet(Residual Neural Network)子模型和FPN子模型。其中，ResNet作为特征骨干网络，用于提取特征。FPN作为检测网络，FPN的第2至第5中任意一层特征预测层(P层)可被引出，该层特征预测层输出的特征图(feature map)可作为第一判别器的输入。FPN在经过ROIPooling处理后的目标检测层可被引出，该目标检测层输出的检测框可作为第二判别器的输入。

如图1所示，第一判别器可选用至少一层卷积层conv，特征图在经过conv的卷积处理后，得到新的特征图，新的特征图上每个像素点携带有该像素点对应的领域判断信息。第二判别器可选用至少一层全连接层FC，每个检测框在经过FC的处理后，得到该检测框对应的领域判断信息。

参考图2，图2是是本申请一实施例提出的检测模型训练方法的流程图。如图2所示，该方法包括以下步骤：

步骤S11：获得多个源域样本图像和多个目标域样本图像，其中，每张源域样本图像包括预先标记的源域对象的标注框信息。

本实施例中，源域和目标域是同一检测任务下的不同领域。例如，检测任务是对道路图像中的各个对象进行检测，例如对车辆、行人、路面、房屋和行道树等对象进行检测，则其中，源域可以是A国道路领域，目标域可以是B国道路领域。或者，源域可以是实景拍摄的道路领域，目标域可以是计算机合成的道路领域。应当理解的，本申请对具体的检测任务不做限定，对源域和目标域的具体领域也不做限定。

本实施例中，可以通过人工标注的方式，针对每张源域样本图像预先标记源域对象的标注框信息。也可以采用现有的、适用于该源域所在领域的目标检测器，自动地为每张源域样本图像预先标记源域对象的标注框信息。其中，标注框信息可以是表征方框的信息，也可以是表征源域对象的轮廓框的信息。当标注框信息是表征方框的信息时，该标注框信息可以是由xml文件记录的方框的左上角坐标和右下角坐标。

步骤S12：将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，得到所述特征提取模型输出的该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框。

本实施例中，源域样本图像和目标域样本图像可以一对一地组合，例如通过步骤S11获得了1000张源域样本图像和1000张目标域样本图像，可以将第1张源域样本图像和第1张目标域样本图像组合，将第1000张源域样本图像和第1000张目标域样本图像组合，最终得到1000个组合。然后将每个组合中的源域样本图像和目标域样本图像成对输入特征提取模型。

或者，源域样本图像和目标域样本图像可以一对多地组合，例如通过步骤S11获得了1000张源域样本图像和600张目标域样本图像，可以将第1张源域样本图像分别和第1张至第600张目标域样本图像逐一组合，得到第1张源域样本图像对应的600个组合，将第1000张源域样本图像分别和第1张至第600张目标域样本图像逐一组合，得到第1000张源域样本图像对应的600个组合，最终得到1000*600个组合。然后将每个组合中的源域样本图像和目标域样本图像成对输入特征提取模型。

本实施例中，如图1所示，可以预先将源域样本图像和目标域样本图像拼接成一个更大的向量，然后将拼接结果送入特征提取模型。

此外，在将源域样本图像和目标域样本图像成对输入特征提取模型之前，还可以预先对源域样本图像和目标域样本图像进行随机剪裁(random crop)处理，以扩充样本数据。

如图1所示，特征提取模型可具体包括ResNet和FPN两部分，其中FPN是图像金字塔子网络。在步骤S12中特征提取模型的各个输出结果的输出方式可以具体如下：

具体地，可以将FPN的第2至第5中任意一层特征预测层引出，将该特征预测层的输出，确定为源域样本图像的第一特征图、以及目标域样本图像的第二特征图。换言之，将FPN的P2至P5层中的任意一层的输出，确定为源域样本图像的第一特征图、以及目标域样本图像的第二特征图。

具体地，可以将FPN在经过ROIPooling处理后的目标检测层引出，将该目标检测层的输出，确定为源域样本图像中的源域对象的第一检测框、以及目标域样本图像中的目标域对象的第二检测框。

步骤S13：通过第一判别器判断所述第一特征图和所述第二特征图中的每个像素点的领域类别，得到多个第一判断结果。

本实施例中，第一判断结果可以以“是”和“否”，或者以“1”和“0”的形式体现，例如其中“是”或“1”表征该像素点的领域是源域，“否”或“0”表征该像素点的领域是目标域。或者，第一判断结果也可以以概率的形式体现，例如概率越趋近于1，则表征该像素点的领域越可能是源域，概率越趋近于0，则表征该像素点的领域越可能是目标域，概率趋近于0.5，则表征第一判别器已经不能准确判断出像素点的领域了，可以认为特征提取模型已经能输出单张图像中通用领域的特征图了。

如图1所示，第一判别器可选用至少一层卷积层conv，在经过步骤S12后，FPN的特征预测层输出特征图feature map。该特征图作为第一判别器的输入，该特征图经过第一判别器的卷积操作后，得到新的特征图，新的特征图上每个像素点携带有该像素点对应的领域判断信息。例如，新的特征图上每个像素点的灰度值正相关于该像素点的概率值，换言之，像素点的灰度值越大，表征该像素点的领域是源域的概率越大。应当理解的，每个像素点携带领域判断信息的具体方式并不局限于上述方式。

步骤S14：通过第二判别器判断所述第一检测框和所述第二检测框中每个检测框的领域类别，得到多个第二判断结果。

本实施例中，第二判断结果可以以“是”和“否”，或者以“1”和“0”的形式体现，例如其中“是”或“1”表征该检测框的领域是源域，“否”或“0”表征该检测框的领域是目标域。或者，第二判断结果也可以以概率的形式体现，例如概率越趋近于1，则表征该检测框的领域越可能是源域，概率越趋近于0，则表征该检测框的领域越可能是目标域，概率趋近于0.5，则表征第二判别器已经不能准确判断出检测框的领域了，可以认为特征提取模型已经能输出单张图像中通用领域目标对象的检测框了。

如图1所示，第二判别器可选用至少一层全连接层FC，每个检测框在经过FC的处理后，得到该检测框对应的领域判断信息，即第二判断结果。

步骤S15：根据所述第一检测框和所述标注框信息，更新所述特征提取模型。

其中，通过第一检测框和标注框信息对特征提取模型更新，可以使得更新后的特征提取模型能够更准确地输出源域样本图像中的源域对象的检测框。

本实施例中，可根据第一检测框和标注框信息计算第一损失值，其中，第一检测框相比于标注框信息的误差较大，相应的，第一损失值较大；第一检测框相比于标注框信息的误差较小，相应的，第一损失值较小。

示例地，在训练期间，可以将每轮训练后更新的特征提取模型进行保存，在进行连续多轮训练后，从保存的多个特征提取模型中确定第一损失值最小的模型，作为最优模型，并基于该最优模型，继续进行模型训练。通过多轮次的训练，使得更新后的特征提取模型能更加准确地输出源域样本图像中的源域对象的检测框，换言之，特征提取模型针对源域样本图像中的源域对象输出的检测框，与标注框信息之间的差距逐渐缩小。

步骤S16：根据所述多个第一判断结果和所述多个第二判断结果，更新所述特征提取模型。

其中，通过多个第一判断结果和多个第二判断结果对特征提取模型更新，可以使得更新后的特征提取模型能够输出单张图像中的通用领域目标对象的检测框。

本实施例中，可根据每个第一判断结果和该第一判断结果对应像素点的实际领域，确定第二损失值，例如当第一判断结果所表征的领域与该第一判断结果对应像素点的实际领域一致时，确定第二损失值为正数，否则为0。可根据每个第二判断结果和该第二判断结果对应检测框的实际领域，确定第三损失值，例如当第二判断结果所表征的领域与该第二判断结果对应检测框的实际领域一致时，确定第三损失值为正数，否则为0。利用多个第二损失值和多个第三损失值对特征提取模型进行更新。使得更新后的特征提取模型能够输出单张图像中的通用领域目标对象的检测框，换言之，更新后的特征提取模型针对源域图像和目标域图像，均能较准确地输出图像中目标对象的检测框。

此外，考虑到本申请从特征图和检测框这两种不同级别的特征对模型进行训练更新，而针对原始图像(源域样本图像或目标域样本图像)中的同一区域，第一判别器对该区域在特征图上对应像素点的第一判断结果，可能与第二判别器对该区域对应的检测框的第二判断结果不同。

例如，针对A国道路图像(源域样本图像)中车辆图像所在区域，假设第二判别器针对该区域的检测框的第二判断结果表征：该检测框的领域是源域；假设第一判别器针对该区域在特征图上对应多个像素点的第一判断结果表征：75％的像素点的领域被判断为源域，25％的像素点的领域被判断为目标域。可见，针对原始图像中的同一区域，第一判断结果可能和第二判断结果存在不一致性。

为此，参考图3，图3是本申请另一实施例提出的检测模型训练方法的流程图。如图3所示，在步骤S16：根据所述第一检测框和所述标注框信息，更新所述特征提取模型之前，该检测模型训练方法还可以包括以下步骤：

步骤S16’：对所述多个第一判断结果和所述多个第二判断结果中对应同一图像区域的两个判断结果进行正则化处理，使得正则化处理后的两个判断结果表征的领域类别一致。

如图3所示，在执行步骤S16时，步骤S16可具体包括：根据正则化处理后的多个第一判断结果和多个第二判断结果，更新所述特征提取模型。

如图1所示，图1所示的预设模型还可以包括正则化模块，用于执行上述步骤S16’。作为一种正则化手段的举例，在上述示例中，可以对领域被判断为目标域的25％的像素点的第一判断结果进行修正，使得在修正后，该车辆区域对应的每个像素点的第一判断结果均表征：该像素点的领域是源域。如此，每个第一判断结果和第二判断结果在车辆区域表征的领域类别一致。

然后在执行步骤S16时，根据正则化处理后的多个第一判断结果和多个第二判断结果，以MSE(mean-square error，均方误差)函数作为损失函数，计算损失值，并以此更新特征提取模型。

通过执行步骤S16’，对多个第一判断结果和多个第二判断结果中对应同一图像区域的两个判断结果进行正则化处理，使得loss损失反传时，保持稳定性。

通过执行上述包括步骤S11至步骤S16的检测模型训练方法，一方面，可以利用第一检测框和源域样本图像包括的标注框信息对特征提取模型进行训练，使得特征提取模型能更准确地对源域图像中的对象进行检测、分类。

另一方面，利用判别器对检测框和特征图中的像素点进行领域判别，并根据判断结果对特征提取模型进行更新，使得判别器能提取出源域图像和目标域图像的共性特征和通用检测框，以欺骗领域判别器，使其不能准确地判别出检测框和特征图中的像素点的领域。最终，特征提取模型无论针对源域图像还是目标域图像，都能准确检测、分类出其中的目标对象，具有更好的泛化能力。

再一方面，采用本申请提供的检测模型训练方法，可以仅对源域样本图像进行标记，因此可以有效减少标记工作量，提高训练效率和降低训练成本。并且在训练期间，从特征图和检测框这两种不同级别的特征对模型进行训练更新，使得最终训练得到的特征提取模型在两种级别的特征上，保持不同领域图像的特征一致性，因此特征提取模型从源域图像泛化至目标域图像的能力更强。

此外，参考图4，图4是本申请另一实施例提出的检测模型训练方法的流程图。如图4所示，该方法还可以包括以下步骤：

步骤S17：根据所述多个第一判断结果，以及所述特征提取模型输出的每张特征图中的每个像素点来自于源域样本图像还是目标域样本图像，更新所述第一判别器；

步骤S18：根据所述多个第二判断结果，以及所述特征提取模型输出的每个检测框来自于源域样本图像还是目标域样本图像，更新所述第二判别器。

其中，步骤S17和步骤S18之间无先后顺序的限定，步骤S17和步骤S18也可同时执行。通过以步骤S17所述的方式更新第一判别器，可以使更新后的第一判别器能够更准确地判别特征图中像素点的领域类别。通过以步骤S18所述的方式更新第二判别器，可以使更新后的第二判别器能够更准确地判别检测框的领域类别。

示例地，可根据每个第一判断结果和该第一判断结果对应像素点的实际领域，确定损失值，例如当第一判断结果所表征的领域与该第一判断结果对应像素点的实际领域不一致时，确定损失值为正数，否则为0。并利用该损失值更新第一判别器。

示例地，可根据每个第二判断结果和该第二判断结果对应检测框的实际领域，确定损失值，例如当第二判断结果所表征的领域与该第二判断结果对应检测框的实际领域不一致时，确定损失值为正数，否则为0。并利用该损失值更新第二判别器。

通过对第一判别器和第二判别器进行更新，使更新后的第一判别器能够更准确地判别特征图中像素点的领域类别，使更新后的第二判别器能够更准确地判别检测框的领域类别。在后续的训练轮次中，由于判别器的判别能力提升，因此促使特征提取模型更趋向于提取源域和目标域的共性特征(特征图和检测框)，以达到欺骗判别器的目的。如此，特征提取模型和判别器以对抗训练的机制，互相促进，最终获得了一个无论针对源域图像还是目标域图像，都能准确输出目标对象检测框的检测模型(即特征提取模型)。

此外，如图1所示，所述第一判别器和所述特征提取模型之间设置有第一梯度反转层GRL，所述第二判别器和所述特征提取模型之间设置有第二梯度反转层GRL。

上述步骤S17、步骤S18和步骤S16可在一个总的步骤中执行。具体地，根据多个第一判断结果更新第一判别器，同时根据多个第二判断结果更新第二判别器，此时，梯度还没有被传递至第一梯度反转层和第二梯度反转层，对第一判别器和第二判别器的更新是以梯度下降的方式进行的。当梯度被传递至第一梯度反转层和第二梯度反转层后，梯度被反转，此时利用多个第一判断结果和多个第二判断结果，更新所述特征提取模型时，是以梯度下降的负方向进行的。

作为一种可实施方式的举例，通过所述第一梯度反转层和所述第二反转层，对所述第一判别器、所述第二判别器和所述特征提取模型进行多次对抗训练和更新，直到更新后的第一判别器判别更新后的特征提取模型输出的特征图中像素点的领域类别为源域或目标域的概率之差小于第一预设阈值，更新后的第二判别器判别更新特征提取模型输出的每个检测框的领域类别为源域或目标域的概率之差小于第二预设阈值，结束对抗训练。

示例地，第一判断结果也可以以概率的形式体现，例如概率越趋近于1，则表征该像素点的领域越可能是源域，概率越趋近于0，则表征该像素点的领域越可能是目标域。第二判断结果也可以以概率的形式体现，例如概率越趋近于1，则表征该检测框的领域越可能是源域，概率越趋近于0，则表征该检测框的领域越可能是目标域。

假设第一预设阈值为0.2，则针对源域样本图像对应特征图中的像素点，如果第一判别器针对该像素点的第一判断结果大于0.8，则说明第一判别器的判断能力达到较高水平。或者，针对目标域样本图像对应特征图中的像素点，如果第一判别器针对该像素点的第一判断结果小于0.2，则说明第一判别器的判断能力达到较高水平。

又假如第二预设阈值为0.15，则针对源域样本图像对应的检测框，如果第二判别器针对该检测框的第二判断结果大于0.85，则说明第二判别器的判断能力达到较高水平。或者，针对目标域样本图像对应的检测框，如果第二判别器针对该检测框的第二判断结果小于0.15，则说明第二判别器的判断能力达到较高水平。

此外，在经过上述任一检测模型训练方法后，获得检测模型，即经过多次训练后的特征提取模型。该特征提取模型即可用于对图像进行检测。基于此，本申请实施例提供一种目标检测方法，该目标检测方法具体是：将待检测图像输入特征提取模型，得到所述待检测图像中的目标对象的检测框。

示例地，以检测任务针对道路图像为例，在训练期间，源域和目标域分别是A国道路领域和B国道路领域，其中主要对A国道路图像中的车辆、行人、路面、房屋和行道树等目标对象标记了标注框信息。训练结束后，得到检测模型。如此，可以将A国道路图像和/或B国道路图像输入该检测模型，该检测模型可以对图像中的车辆、行人、路面、房屋和行道树等目标对象进行检测和分类。

基于同一发明构思，本申请一实施例提供一种检测模型训练装置。参考图5，图5是本申请一实施例提出的检测模型训练装置的示意图。如图5所示，该装置包括：

样本图像获得模块51，用于获得多个源域样本图像和多个目标域样本图像，其中，每张源域样本图像包括预先标记的源域对象的标注框信息；

样本图像输入模块52，用于将每张源域样本图像和每张目标域样本图像成对输入特征提取模型，得到所述特征提取模型输出的该源域样本图像的第一特征图、该目标域样本图像的第二特征图、该源域样本图像中的源域对象的第一检测框、以及该目标域样本图像中的目标域对象的第二检测框；

像素点领域判别模块53，用于通过第一判别器判断所述第一特征图和所述第二特征图中的每个像素点的领域类别，得到多个第一判断结果；

检测框领域判别模块54，用于通过第二判别器判断所述第一检测框和所述第二检测框中每个检测框的领域类别，得到多个第二判断结果；

第一更新模块55，用于根据所述第一检测框和所述标注框信息，更新所述特征提取模型；

第二更新模块56，用于根据所述多个第一判断结果和所述多个第二判断结果，更新所述特征提取模型。

可选地，所述装置还包括：

第一判别器更新模块，用于根据所述多个第一判断结果，以及所述特征提取模型输出的每张特征图中的每个像素点来自于源域样本图像还是目标域样本图像，更新所述第一判别器；

可选地，所述装置还包括：

所述第二更新模块包括：

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各帧实施例均采用递进的方式描述，每帧实施例重点说明的都是与其他实施例的不同之处，各帧实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一帧或多帧其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一帧机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一帧流程或多帧流程和/或方框图一帧方框或多帧方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一帧实体或者操作与另一帧实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一帧……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种检测模型训练方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体帧例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种检测模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述多个第一判断结果，以及所述特征提取模型输出的每张特征图中的每个像素点来自于源域样本图像还是目标域样本图像，更新所述第一判别器；

3.根据权利要求1所述的方法，其特征在于，所述第一判别器和所述特征提取模型之间设置有第一梯度反转层，所述第二判别器和所述特征提取模型之间设置有第二梯度反转层；所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，在根据所述第一检测框和所述标注框信息，更新所述特征提取模型之前，所述方法还包括：

5.根据权利要求1至4任一所述的方法，其特征在于，所述特征提取模型包括图像金字塔子网络；

6.一种目标检测方法，其特征在于，所述方法包括：

将待检测图像输入特征提取模型，得到所述待检测图像中的目标对象的检测框，其中，所述特征提取模型是通过权利要求1至5任一所述的方法训练得到的。

7.一种检测模型训练装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至5任一或6所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至5任一或6所述的方法的步骤。