CN115131590A

CN115131590A - 目标检测模型的训练方法、目标检测方法及相关设备

Info

Publication number: CN115131590A
Application number: CN202211064180.0A
Authority: CN
Inventors: 付建海; 俞元杰; 吴立; 颜成钢; 李亮; 殷海兵; 熊剑平
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-09-30
Anticipated expiration: 2042-09-01
Also published as: CN115131590B

Abstract

本申请公开了目标检测模型的训练方法、目标检测方法及相关设备，该方法包括：将训练图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图；对所有局部特征图进行聚类，得到至少一个聚类集合，筛选出各个聚类集合中的重点特征图；基于各个局部特征图之间的特征差异，对局部特征图进行调整，得到各个局部特征图对应的深度特征图；将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，得到训练目标对应的目标分类结果；其中，重点特征图包括对目标分类结果影响超过损失阈值的局部特征图；基于目标分类结果调整目标检测模型的参数，获得训练后的目标检测模型。上述方案，能够降低训练难度并提高目标检测的准确率。

Description

目标检测模型的训练方法、目标检测方法及相关设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种目标检测模型的训练方法、目标检测方法及相关设备。

背景技术

目标检测（Object Detection，OD）作为计算机视觉的分支，在安防、工业等领域得到了广泛应用，其中，利用目标检测模型进行检测成为了目标检测的主流方式。现有技术中，通常会采用大量有标签的样本对目标检测模型进行训练，但是对海量的样本进行标注无疑会增加训练的难度，并且一旦有标签的样本有限，便会导致目标检测模型的检测准确率不佳，此外，现有的目标检测模型难以兼顾目标识别和目标分类，当需要对目标进行目标识别和目标分类时，基于现有的单一的目标检测模型进行目标检测的准确率往往较低。有鉴于此，如何降低训练难度并提高目标检测的准确率成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种目标检测模型的训练方法、目标检测方法及相关设备，能够降低训练难度并提高目标检测的准确率。

为解决上述技术问题，本申请第一方面提供一种目标检测模型的训练方法，包括：将训练图像输入所述目标检测模型的主干网络进行特征提取，得到至少一个局部特征图；其中，所述训练图像中的部分训练目标已标注，所述局部特征图包括所述训练图像中至少部分区域的特征信息；对所有所述局部特征图进行聚类，得到至少一个聚类集合，筛选出各个所述聚类集合中的重点特征图；基于各个所述局部特征图之间的特征差异，对所述局部特征图进行调整，得到各个所述局部特征图对应的深度特征图；将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述训练目标对应的目标分类结果；其中，所述重点特征图包括对所述目标分类结果影响超过损失阈值的局部特征图；基于所述目标分类结果调整所述目标检测模型的参数，直至满足预设收敛条件，获得训练后的所述目标检测模型。

为解决上述技术问题，本申请第二方面提供一种目标检测方法，包括：将待识别图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图；其中，所述待识别图像中包括待识别目标，且所述待识别图像包括彩色图像、灰度图像和红外图像中的至少一种；对所有所述局部特征图进行聚类，得到至少一个聚类集合，筛选出各个所述聚类集合中的重点特征图；基于各个所述局部特征图之间的特征差异，对所述局部特征图进行调整，得到各个所述局部特征图对应的深度特征图；将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述待识别目标对应的目标分类结果。

为解决上述技术问题，本申请第三方面提供一种电子设备，该电子设备包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行上述第一方面或上述第二方面所述的方法。

为解决上述技术问题，本申请第四方面提供一种计算机可读存储介质，其上存储有程序数据，所述程序数据被处理器执行时实现上述第一方面或上述第二方面所述的方法。

上述方案，将训练图像输入目标检测模型的主干网络进行特征提取，从训练图像的特征信息中提取至少部分区域得到至少一个局部特征图，其中，局部特征图即可作为训练目标对应的目标识别结果，并且，训练图像中部分训练目标进行过标注即可进行半监督训练，从而减小对标注样本的需求以降低训练难度，对所有局部特征图进行聚类，得到至少一个聚类集合，并筛选出聚类集合中的重点特征图，从而将未标注的训练目标对应的局部特征图，与特征相似的已标注的训练目标对应的局部特征图尽可能聚类至同一聚类集合，以便充分利用未标注的训练目标进行训练，并且，从各个聚类集合中筛选出重点特征图，其中，重点特征图包括对目标分类结果影响超过损失阈值的局部特征图，以便挑选出容易识别错的训练目标重点进行识别以优化训练效果，基于各个局部特征图之间的特征差异，对局部特征图进行调整，得到各个局部特征图对应的深度特征图，从而减小深度特征图之间的特征差异，以便能够减小已标注的训练目标对应的深度特征图，与未标注的训练目标对应的深度特征图之间的特征差异，降低目标分类的难度，将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，得到训练目标对应的目标分类结果，以使目标检测目标能够兼顾目标识别和目标分类，提高目标检测模型进行目标检测的准确率，进而基于目标分类结果调整目标检测模型的参数，直至满足预设收敛条件，完成对目标检测模型的训练。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请目标检测模型的训练方法一实施方式的流程示意图；

图2是本申请目标检测模型的训练方法另一实施方式的流程示意图；

图3是本申请目标检测模型的训练方法一实施方式的应用场景示意图；

图4是本申请目标检测方法一实施方式的流程示意图；

图5是本申请电子设备一实施方式的结构示意图；

图6是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请目标检测模型的训练方法一实施方式的流程示意图，该方法包括：

S101：将训练图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，其中，训练图像中的部分训练目标已标注，局部特征图包括训练图像中至少部分区域的特征信息。

具体地，获得训练图像，训练图像中的部分训练目标已标注，将训练图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，其中，局部特征图包括训练图像中至少部分区域的特征信息，也就是说，局部特征图是在训练图像对应的特征图上提取出的部分区域。

进一步地，在对目标检测模型的训练优化过程中，每个局部特征图对应一个训练目标，当训练图像中只包括一个训练目标时，则局部特征图的数量为一个，当训练图像中的训练目标数量超过一个时，则局部特征图的数量为多个，从而局部特征图即可作为训练目标对应的目标识别结果，并且，训练图像中部分训练目标进行过标注即可进行半监督训练，从而减小对标注样本的需求以降低训练难度。

在一应用方式中，训练图像中的部分训练目标已标注，将训练图像输入目标检测模型的主干网络，主干网络对训练图像进行特征提取，得到训练图像对应的初始特征图，基于初始特征图的特征信息提取初始特征图中的至少部分区域，得到至少一个局部特征图。

在另一应用方式中，训练图像对应有训练图像集，训练图像集中部分训练图像中的训练目标已标注，将训练图像集中的训练图像输入目标检测模型的主干网络，主干网络对各个训练图像进行特征提取，得到各个训练图像对应的初始特征图，基于各个初始特征图的特征信息提取初始特征图中的至少部分区域，得到至少一个局部特征图。

进一步地，用于训练目标检测模型的训练图像包括但不限于灰度图像、RGB图像和红外图像，其中，灰度图像利用X光拍摄后获得，RGB图像利用可见光拍摄后获得，红外图像利用红外光拍摄后获得。

S102：对所有局部特征图进行聚类，得到至少一个聚类集合，筛选出各个聚类集合中的重点特征图。

具体地，基于局部特征图的特征信息对所有局部特征图进行聚类，得到至少一个聚类集合，从而将未标注的训练目标对应的局部特征图，与特征相似的已标注的训练目标对应的局部特征图尽可能聚类至同一聚类集合，以便充分利用未标注的训练目标进行训练。其中，当局部特征图的数量为一个时，则对应的聚类集合为一个，且该聚类集合中的局部特征图的数量也为一个，当局部特征图的数量超过一个时，则对应的聚类集合的数量可以是一个或者多个，每个聚类集合中包括至少一个局部特征图。

进一步地，从聚类集合中筛选出重点特征图。其中，目标检测模型在训练时获得有目标分类结果，目标分类结果相对训练图像对应有损失值，重点特征图包括对目标分类结果影响超过损失阈值的局部特征图。也就是说，重点特征图是对目标分类结果影响较大的难以准确识别的训练目标，故此，基于重点特征图能够挑选出容易识别错的训练目标，进而重点进行识别以优化训练效果。

在一应用方式中，利用聚类算法基于局部特征图的特征信息对所有局部特征图进行聚类，得到预设数量的聚类集合，以便于聚合特征相近的未标注和已标注的训练目标对应的局部特征图，其中，预设数量基于应用场景自定义设置，用于调整聚类结果的精度，在各个聚类集合中筛选出对目标分类结果影响超过损失阈值的局部特征图，得到难以准确识别的训练目标对应的重点特征图。

在另一应用方式中，利用聚类算法基于局部特征图的特征信息之间的特征差异对所有局部特征图进行聚类，得到至少一个聚类集合，以便于聚合特征相近的未标注和已标注的训练目标对应的局部特征图，其中，特征差异基于特征信息之间的欧式距离确定，在各个聚类集合中筛选出对目标分类结果影响超过损失阈值且影响最大的局部特征图，得到难以准确识别的训练目标对应的重点特征图。

在一应用场景中，利用K-means聚类算法，基于各个局部特征图之间的特征信息，将所有局部特征图聚类为多个簇，每个簇对应一个聚类集合，其中，簇的预设数量基于应用场景自定义设置，用于调整聚类结果的精度，利用OHEM（Online Hard Example Mining）算法，筛选出各个聚类集合中对目标分类结果影响超过损失阈值的局部特征图，作为重点特征图。

S103：基于各个局部特征图之间的特征差异，对局部特征图进行调整，得到各个局部特征图对应的深度特征图。

具体地，基于各个局部特征图之间的特征差异，调整各个局部特征图，得到各个局部特征图各自对应的深度特征图，从而减小深度特征图之间的特征差异，以便能够减小已标注的训练目标对应的深度特征图，与未标注的训练目标对应的深度特征图之间的特征差异，降低目标分类的难度。

在一应用方式中，基于局部特征图的特征信息之间的特征差异对各个局部特征图进行调整，得到各个局部特征图对应的深度特征图，以使已标注的训练目标和未标注的训练目标各自对应的深度特征图实现实例级对齐，其中，实例级别的差异包括局部差异，比如外表、大小和视角的差异等，实例级对齐有助于减少深度特征之间的局部差异，以便降低目标分类的难度，同时降低因未进行标注而漏检或误检的概率。

在另一应用方式中，利用注意力机制在各个局部特征图的特征信息中确定局部特征图的关键特征信息，基于关键特征信息之间的特征差异对至少部分局部特征图在实例级别进行调整，得到各个局部特征图对应的深度特征图，以充分挖掘局部特征图的语义信息，提高目标检测的准确率，同时降低因未进行标注而漏检或误检的概率。

S104：将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，得到训练目标对应的目标分类结果。

具体地，将所有深度特征图和重点特征图输入至目标检测模型的检测网络进行目标分类，得到目标检测模型本次训练时获得的目标分类结果，以使目标检测目标能够兼顾目标识别和目标分类，提高目标检测模型进行目标检测的准确率。

在一应用方式中，将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，检索网络将深度特征图和重点特征图进行融合后，基于融合后的特征图确定训练目标对应的目标分类结果。

在另一应用方式中，将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，检索网络基于深度特征图确定训练目标对应的目标分类初始结果，并基于重点特征图对目标分类初始结果进行修正，得到训练目标对应的目标分类结果。

S105：基于目标分类结果调整目标检测模型的参数，直至满足预设收敛条件，获得训练后的目标检测模型。

具体地，基于目标分类结果调整目标检测模型的参数以优化目标检测模型，当满足预设收敛条件时，将目标检测模型的参数固定，得到训练后的目标检测模型。

可选地，目标分类结果相对训练图像对应有损失值，利用随机梯度下降优化算法，基于目标分类结果对应的损失值调整目标检测模型的参数，其中，重点特征图包括对目标分类结果影响超过损失阈值的局部特征图，随机梯度下降优化算法随每一轮迭代计算，动态选取对于损失值影响最大的样本，且随着数据集的增大，算法的提升更加明显，从而提高目标训练模型的训练效率，优化目标训练模型的训练效果。

在一应用场景中，预设收敛条件为目标分类结果对应的损失值小于损失收敛阈值，当损失值收敛至小于损失收敛阈值时将参数固定获得训练后的目标检测模型。

在另一应用场景中，预设收敛条件为目标分类结果对应的损失值小于损失收敛阈值且训练次数大于次数阈值，当训练次数超过次数阈值后，若损失值小于损失收敛阈值则将参数固定获得训练后的目标检测模型。

请参阅图2，图2是本申请目标检测模型的训练方法另一实施方式的流程示意图，该方法包括：

S201：将训练图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图。

具体地，请参阅图3，图3是本申请目标检测模型的训练方法一实施方式的应用场景示意图，其中，图3中实线内的主干网络、推荐模块、域对齐模块、检测网络和检索网络属于目标检测模型，其他虚线内的内容属于模型训练过程中产生的数据，图3中所示的应用场景示意图与本实施例对应。其中，输入至主干网络的训练图像对应有源域和目标域，其中，从源域获得的训练图像中包括已标注有标识框和分类信息的训练目标，从目标域获得的训练图像中的训练目标均未标注。

进一步地，源域和目标域的训练图像可以来自于同一数据平台，也可以来自于不同的数据平台，其中，从源域获得的训练图像中的训练目标已标注有识别框和分类信息，从目标域获得的训练图像无需进行标注，从而减少对数据进行标注的工作量，此外，部分训练图像中包括已标注的训练目标，能够用于对目标检测模型进行半监督训练，提升训练效果。

在一应用方式中，将训练图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，包括：将训练图像输入主干网络提取不同尺度的特征信息，得到不同尺度的多个初始特征图；对多个初始特征图进行特征融合，得到融合特征图；在融合特征图上提取检测区域，得到至少一个局部特征图。

具体地，主干网络用于提取图像不同尺度的特征信息，将训练图像输入至目标检测模型的主干网络后，主干网络将训练图像转换成多种分辨率的图像，从不同分辨率的图像上提取不同尺度的特征信息，得到不同尺度的多个初始特征图。其中，不同尺度对应有各自的分辨率。

进一步地，为增强低分辨特征图的语义信息和高分辨率特征图的细节信息，将不同分辨率对应的不同尺度的初始特征图进行特征融合，得到同时具有强语义信息和丰富位置信息的融合特征图，以便能够提高目标检测的准确率，在融合特征图上提取检测区域，得到至少一个局部特征图，其中，局部特征图以检测框的形式给出。

在一应用场景中，请再次参阅图3，目标检测模型还包括推荐模块，在融合特征图上提取检测区域，得到至少一个局部特征图，包括：将融合特征图输入推荐模块，获得融合特征图中多个子区域存在训练目标的概率值；提取概率值超过概率阈值的至少一个子区域，确定各个子区域对应的检测框；对各个检测框内的特征信息进行插值运算，将插值后的各个检测框内的特征信息作为训练目标对应的局部特征图。

具体地，推荐模块用于提取融合特征图上概率较大的存在目标的若干区域，从而将融合特征图输入至推荐模块后，推荐模块确定融合特征图中的多个子区域存在训练目标的概率值，从而提取概率值超过概率阈值的子区域，设置各个子区域的检测框，对各个检测框内的特征信息进行插值运算，以尽可能对齐各个子区域内的特征信息，将插值后的各个检测框内的特征信息作为训练目标对应的局部特征图，降低基于局部特征图进行目标检测的难度。

可选地，检测框具体可为矩形框，也可以为其他形状本申请对此不做具体限制。

在一具体应用场景中，主干网络包括CSP-darknet53网络，将从源域和目标域获得的训练图像输入主干网络，提取图像不同尺度的特征信息，得到不同尺度的多个初始特征图，并对多个初始特征图进行融合得到融合特征图，其中，融合方式包括但不限于特征拼接、特征相加/乘、特征按权重加权求和。将融合特征图输入至推荐模块，其中，推荐模块包括感兴趣区域推荐网络，推荐模块提取目标存在概率超过概率阈值的多个子区域作为感兴趣区域，其中，感兴趣区域以矩形框的形式给出，并对感兴趣区域进行插值运算，得到感兴趣区域对应的局部特征图。

S202：基于所有局部特征图的特征，对所有局部特征图进行聚类，得到至少一个聚类集合，其中，每个聚类集合中包括至少一个局部特征图。

具体地，利用聚类算法依据所有局部特征图的特征，对所有局部特征图进行聚类，得到至少一个聚类集合，其中，每个聚类集合中包括至少一个局部特征图，从而将从目标域获得的训练目标对应的局部特征图，与特征相似的从源域获得的训练目标对应的局部特征图尽可能聚类至同一聚类集合，以便充分利用从目标域获得的未标注的训练目标进行训练，以使训练后的目标检测模型能够对不同类别的目标进行目标检测，提高目标检测模型的跨领域迁移能力。

在一应用场景中，获得多个局部特征图，利用K-means聚类算法，基于多个局部特征图之间的特征信息之间的差异程度，将多个局部特征图聚类为多个聚类集合，其中，特征信息之间的差异程度基于欧式距离确定。

S203：利用挖掘算法筛选出各个聚类集合中的重点特征图，其中，从源域和目标域获得的训练目标对应的重点特征图都对应有边界框。

具体地，利用挖掘算法对各个聚类集合进行筛选，从聚类集合中确定对目标分类结果影响超过损失阈值的局部特征图，作为重点特征图，其中，重点特征图对应有边界框，因此，无论是从源域还是从目标域获得的训练目标所对应的重点特征图都对应有边界框，从而利用边界框来标识难以准确识别的训练目标，尤其是目标域中未标注的训练目标，提高对训练目标进行识别的准确率。

在一应用场景中，利用OHEM算法，筛选出各个聚类集合中对目标分类结果影响超过损失阈值的局部特征图作为重点特征图，并为重点特征图设置边界框，用于对难以准确识别的目标进行重点分析，优化目标检测模型的参数。

S204：将所有局部特征图输入域对齐模块，基于各个局部特征图之间的特征差异，对已标注的训练目标和未标注的训练目标各自对应的局部特征图进行调整，得到各个局部特征图各自对应的深度特征图。

具体地，请再次参阅图3，目标检测模型还包括域对齐模块，将所有局部特征图输入域对齐模块，对齐模块基于各个局部特征图之间的特征差异，对各个局部特征图进行调整，因此，对齐模块对已标注的训练目标和未标注的训练目标各自对应的局部特征图都能够进行调整，以减小局部特征图之间的特征差异，得到各个局部特征图各自对应的深度特征图。

进一步地，局部特征图是从融合特征图上提取的，因此局部特征图包括训练目标的深度特征，域对齐模块用于充分挖掘深度特征包括的语义信息，对实例级别的深度特征进行微调，实现源域和目标域之间实例级别的深度特征差异最小化，以使从源域获得的已标注的训练目标对应的深度特征图，以及从目标域获得的未标注的训练目标对应的深度特征图之间的特征差异小于差异阈值，降低对未标注的目标进行目标分类的难度。

在一具体应用场景中，训练图像为灰度图像，且灰度图像利用X光拍摄后获得，输入至主干网络的所有训练图像包括来自源域和目标域的多张训练图像，且多张训练图像中各自对应有训练目标，进而得到多个局部特征图，当源域和目标域的训练图像对应的X光强度不同时，则域对齐模块对各个局部特征图对应的深度特征进行微调，以减小因X光强度造成的局部特征图之间的特征差异，可以理解的是，当源域和目标域之间对应有其他差异参数时，基于域对齐模块对局部特征图进行调整，有利于实现源域和目标域之间实例级别的深度特征差异最小化。其中，差异参数本申请对此不做具体限定。

S205：将所有局部特征图输入检测网络进行目标识别，得到训练目标对应的图像检测结果，其中，图像检测结果包括至少一个检测特征图。

具体地，请再次参阅图3，目标检测模型还包括检测网络，检测网络用于对提取训练目标对应的检测特征图，将所有局部特征图输入检测网络后，检测网络对局部特征图进行目标识别，提取训练目标对应的检测特征图，得到训练目标对应的图像检测结果，从而能够得到训练目标对应的图像，获得具象化的检测结果。

在一具体应用场景中，检测特征图包括以训练目标的边缘为轮廓的热力图像，从而得到具象化的图像检测结果。

S206：在检测特征图上提取感兴趣区域，得到特征提取图，将特征提取图与深度特征图融合，得到目标深度特征图。

具体地，在检测特征图上提取感兴趣区域，对感兴趣区域进行插值运算，以微调感兴趣区域的中心，得到特征提取图。

进一步地，将基于同一局部特征图获得的特征提取图与深度特征图融合，得到目标深度特征图，从而将深度特征图和特征提取图的特征融合，结合两种特征图的特征，降低从源域和目标域获得的训练目标分别对应的目标深度特征图之间的差异。

S207：将所有目标深度特征图和重点特征图输入检索网络进行目标分类，得到训练目标对应的目标分类结果。

具体地，请再次参阅图3，目标检测模型包括检索网络，检索网络用于基于输入的特征图对目标进行目标分类，将所有目标深度特征图和重点特征图输入至检索网络，检索网络基于目标深度特征图和重点特征图对训练目标的类别进行分类，得到训练目标对应的目标分类结果。

在一应用场景中，训练图像包括利用X光拍摄后获得的灰度图像，训练目标的类别包括预设类别和非预设类别，其中，预设类别的目标对应为需要进行警示的目标，将目标深度特征图和重点特征图输入至检索网络后，检索网络基于目标深度特征图对训练目标是否属于预设类别进行检索，并基于重点特征图对其中难以准确识别的目标进行二次检索，从而得到训练目标的目标分类结果，提高目标分类结果的准确率。

S208：基于目标分类结果相对已标注的分类信息之间的偏差，图像检测结果相对标识框和边界框之间的偏差，确定目标分类结果对应的损失值。

具体地，已标注的训练目标所对应的分类信息包括已标注的训练目标所属的类别，基于目标分类结果相对已标注的分类信息之间的偏差，确定目标分类结果的分类结果损失。

进一步地，已标注的训练目标所对应的标识框包括训练目标所对应的位置信息，边界框包括难以准确识别的目标对应的位置信息，基于图像检测结果相对标识框和边界框之间的偏差，确定图像检测结果的检测结果损失，进而基于分类结果损失和检测结果损失确定目标检测模型的损失值，提高损失值的合理性。

在一应用场景中，已标注的训练目标与目标分类结果之间对应有第一损失值，未标注的训练目标与目标分类结果之间对应有第二损失值，其中，第一损失值包括分类结果损失和检测结果损失，第二损失值包括检测结果损失，对第一损失值和第二损失值进行加权求和，得到损失值，其中，第一损失值对应的第一权重大于第二损失值对应的第二权重，从而将第一损失值作为目标检测模型的损失值的重点参考对象。

S209：基于目标分类结果调整目标检测模型的参数，直至满足预设收敛条件，获得训练后的目标检测模型。

具体地，基于目标分类结果对应的损失值调整目标检测模型的参数，直至满足预设收敛条件，获得训练后的目标检测模型。

可选地，基于目标分类结果对应的损失值调整目标检测模型的参数，包括：利用随机梯度下降优化算法，基于目标分类结果对应的损失值调整目标检测模型的参数。

具体地，利用随机梯度下降优化算法，基于损失值调整目标检测模型的参数，将重点特征图这样的难识别样本应用在随机梯度下降优化算法中，有利于获得更优的目标检测模型的参数，该算法对于数据的类别不平衡问题，不需要采用设置正负样本比例的方式来解决，只需要随每一轮迭代计算，动态选取对目标分类结果对应的损失值影响大于损失阈值的样本，尤其是对损失值贡献最大的样本，且随着数据集的增大，算法的提升更加明显。

进一步地，基于目标分类结果调整目标检测模型的参数，直至满足预设收敛条件，获得训练后的目标检测模型之后，还包括：将训练后的目标检测模型的格式转换为开放式文件格式，将开放式文件格式的目标检测模型存储于开放式生态系统中。

具体地，对训练后的目标检测模型的格式进行格式转换，转换为开放式文件格式，并将开放式文件格式的目标检测模型存储至开放式生态系统中，以提高目标检测模型的可拓展性和兼容性。

在一应用场景中，将训练后的目标检测模型转换为开放式文件格式包括：将目标检测模型的格式转换成神经网络交换（Neural Network Exchange，NNX）模型的通用格式，并将开放式文件格式的目标检测模型存储至开放式生态系统中，以使不同的人工智能框架所建立的模型可以采用相同格式存储模型数据并交互，从而一份模型存储在开放式生态系统中即可供多个平台使用，提高目标检测模型的可拓展性和兼容性。

在本实施例中，目标检测模型兼顾了目标识别和目标分类，从目标域获得的训练图像无需进行标注，从而减少对数据进行标注的工作量，利用边界框来标识难以准确识别的训练目标，提高对训练目标进行识别的准确率，利用域对齐模块充分挖掘深度特征包括的语义信息，对实例级别的深度特征进行微调，实现源域和目标域之间实例级别的深度特征差异最小化，降低对未标注的目标进行目标分类的难度，提高训练后的目标检测模型进行目标检测的准确率。

请参阅图4，图4是本申请目标检测方法一实施方式的流程示意图，该方法包括：

S401：将待识别图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，其中，待识别图像中包括待识别目标，且待识别图像包括彩色图像、灰度图像和红外图像中的至少一种。

具体地，获得包括待识别目标的待识别图像，其中，待识别图像包括彩色图像、灰度图像和红外图像中的至少一种，将待识别图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，其中，局部特征图包括待识别图像中至少部分区域的特征信息，也就是说，局部特征图是在待识别图像对应的特征图上提取出的部分区域。

可选地，灰度图像利用X光拍摄后获得，RGB图像利用可见光拍摄后获得，红外图像利用红外光拍摄后获得。

S402：对所有局部特征图进行聚类，得到至少一个聚类集合，筛选出各个聚类集合中的重点特征图。

具体地，基于局部特征图的特征信息对所有局部特征图进行聚类，得到至少一个聚类集合，从而将特征相似的局部特征图尽可能聚类至同一聚类集合，以提高目标检测的效率。

在一应用方式中，利用聚类算法基于局部特征图的特征信息对所有局部特征图进行聚类，得到预设数量的聚类集合，以便于聚合特征相近的待识别目标对应的局部特征图，在各个聚类集合中筛选出对目标分类结果影响超过损失阈值的局部特征图，得到难以准确识别的待识别目标对应的重点特征图。

在另一应用方式中，利用聚类算法基于局部特征图的特征信息之间的特征差异对所有局部特征图进行聚类，得到至少一个聚类集合，以便于聚合特征相近的待识别目标对应的局部特征图，其中，特征差异基于特征信息之间的欧式距离确定，在各个聚类集合中筛选出对目标分类结果影响超过损失阈值且影响最大的局部特征图，得到难以准确识别的待识别目标对应的重点特征图。

S403：基于各个局部特征图之间的特征差异，对局部特征图进行调整，得到各个局部特征图对应的深度特征图。

具体地，基于各个局部特征图之间的特征差异，调整各个局部特征图，得到各个局部特征图各自对应的深度特征图，从而减小深度特征图之间的特征差异，降低目标分类的难度。

在一应用方式中，基于局部特征图的特征信息之间的特征差异对各个局部特征图进行调整，得到各个局部特征图对应的深度特征图，以使各个待识别目标各自对应的深度特征图实现实例级对齐，其中，实例级别的差异包括局部差异，比如外表、大小和视角的差异等，实例级对齐有助于减少深度特征之间的局部差异，以便降低目标分类的难度，同时降低漏检或误检的概率。

在另一应用方式中，利用注意力机制在各个局部特征图的特征信息中确定局部特征图的关键特征信息，基于关键特征信息之间的特征差异对至少部分局部特征图在实例级别进行调整，得到各个局部特征图对应的深度特征图，以充分挖掘局部特征图的语义信息，提高目标检测的准确率，同时降低漏检或误检的概率。

S404：将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，得到待识别目标对应的目标分类结果。

具体地，将所有深度特征图和重点特征图输入至目标检测模型的检测网络进行目标分类，得到待识别目标对应的目标分类结果，以使目标检测目标能够兼顾目标识别和目标分类，提高目标检测模型进行目标检测的准确率。

在一应用方式中，将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，检索网络将深度特征图和重点特征图进行融合后，基于融合后的特征图确定待识别目标对应的目标分类结果。

在另一应用方式中，将所有深度特征图和重点特征图输入目标检测模型的检索网络进行目标分类，检索网络基于深度特征图确定待识别目标对应的目标分类初始结果，并基于重点特征图对目标分类初始结果进行修正，得到待识别目标对应的目标分类结果。

可选地，目标检测模型基于上述任一实施例中所述的方法获得。将待识别图像输入目标检测模型中，从而获得待识别图像上的待识别目标所对应的目标分类结果。

请参阅图5，图5是本申请电子设备一实施方式的结构示意图，该电子设备50包括相互耦接的存储器501和处理器502，其中，存储器501存储有程序数据（图未示），处理器502调用程序数据以实现上述任一实施例中的方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。

请参阅图6，图6是本申请计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质60存储有程序数据600，该程序数据600被处理器执行时实现上述任一实施例中的方法，相关内容的说明请参见上述方法实施例的详细描述，在此不再赘叙。

需要说明的是，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种目标检测模型的训练方法，其特征在于，所述方法包括：

将训练图像输入所述目标检测模型的主干网络进行特征提取，得到至少一个局部特征图；其中，所述训练图像中的部分训练目标已标注，所述局部特征图包括所述训练图像中至少部分区域的特征信息；

对所有所述局部特征图进行聚类，得到至少一个聚类集合，筛选出各个所述聚类集合中的重点特征图；

基于各个所述局部特征图之间的特征差异，对所述局部特征图进行调整，得到各个所述局部特征图对应的深度特征图；

将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述训练目标对应的目标分类结果；其中，所述重点特征图包括对所述目标分类结果影响超过损失阈值的局部特征图；

基于所述目标分类结果调整所述目标检测模型的参数，直至满足预设收敛条件，获得训练后的所述目标检测模型。

2.根据权利要求1所述的目标检测模型的训练方法，其特征在于，输入至所述主干网络的所述训练图像对应有源域和目标域，其中，从所述源域获得的所述训练图像中包括已标注有标识框和分类信息的训练目标，从所述目标域获得的所述训练图像中的训练目标均未标注。

3.根据权利要求2所述的目标检测模型的训练方法，其特征在于，所述对所有所述局部特征图进行聚类，得到至少一个聚类集合，筛选出各个所述聚类集合中的重点特征图，包括：

基于所有所述局部特征图的特征，对所有所述局部特征图进行聚类，得到至少一个聚类集合；其中，每个所述聚类集合中包括至少一个所述局部特征图；

利用挖掘算法筛选出各个所述聚类集合中的重点特征图；其中，从所述源域和所述目标域获得的训练目标对应的重点特征图都对应有边界框。

4.根据权利要求3所述的目标检测模型的训练方法，其特征在于，所述目标检测模型还包括检测网络，所述将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述训练目标对应的目标分类结果之前，还包括：

将所有所述局部特征图输入所述检测网络进行目标识别，得到所述训练目标对应的图像检测结果；其中，所述图像检测结果包括至少一个检测特征图；

在所述检测特征图上提取感兴趣区域，得到特征提取图，将所述特征提取图与所述深度特征图融合，得到目标深度特征图；

所述将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述训练目标对应的目标分类结果，包括：

将所有所述目标深度特征图和所述重点特征图输入所述检索网络进行目标分类，得到所述训练目标对应的目标分类结果。

5.根据权利要求4所述的目标检测模型的训练方法，其特征在于，所述将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述训练目标对应的目标分类结果之后还包括：

基于所述目标分类结果相对已标注的所述分类信息之间的偏差，所述图像检测结果相对所述标识框和所述边界框之间的偏差，确定所述目标分类结果对应的损失值；

所述基于所述目标分类结果调整所述目标检测模型的参数，直至满足预设收敛条件，获得训练后的所述目标检测模型，包括：

基于所述目标分类结果对应的损失值调整所述目标检测模型的参数，直至满足预设收敛条件，获得训练后的所述目标检测模型。

6.根据权利要求5所述的目标检测模型的训练方法，其特征在于，所述基于所述目标分类结果对应的损失值调整所述目标检测模型的参数，包括：

利用随机梯度下降优化算法，基于所述目标分类结果对应的损失值调整所述目标检测模型的参数。

7.根据权利要求2所述的目标检测模型的训练方法，其特征在于，所述目标检测模型还包括域对齐模块，所述基于各个所述局部特征图之间的特征差异，对所述局部特征图进行调整，得到各个所述局部特征图对应的深度特征图，包括：

将所有所述局部特征图输入所述域对齐模块，基于各个所述局部特征图之间的特征差异，对已标注的所述训练目标和未标注的所述训练目标各自对应的局部特征图进行调整，得到各个所述局部特征图各自对应的深度特征图；

其中，从所述源域获得的已标注的所述训练目标对应的深度特征图，以及从所述目标域获得的未标注的所述训练目标对应的深度特征图之间的特征差异小于差异阈值。

8.根据权利要求1所述的目标检测模型的训练方法，其特征在于，所述将训练图像输入所述目标检测模型的主干网络进行特征提取，得到至少一个局部特征图，包括：

将所述训练图像输入所述主干网络提取不同尺度的特征信息，得到不同尺度的多个初始特征图；

对多个所述初始特征图进行特征融合，得到融合特征图；

在所述融合特征图上提取检测区域，得到至少一个所述局部特征图。

9.根据权利要求8所述的目标检测模型的训练方法，其特征在于，所述目标检测模型还包括推荐模块，所述在所述融合特征图上提取检测区域，得到至少一个所述局部特征图，包括：

将所述融合特征图输入所述推荐模块，获得所述融合特征图中多个子区域存在所述训练目标的概率值；

提取所述概率值超过概率阈值的至少一个子区域，确定各个所述子区域对应的检测框；

对各个所述检测框内的特征信息进行插值运算，将插值后的各个所述检测框内的特征信息作为所述训练目标对应的所述局部特征图。

10.根据权利要求1所述的目标检测模型的训练方法，其特征在于，所述基于所述目标分类结果调整所述目标检测模型的参数，直至满足预设收敛条件，获得训练后的所述目标检测模型之后，还包括：

将训练后的所述目标检测模型的格式转换为开放式文件格式，将所述开放式文件格式的所述目标检测模型存储于开放式生态系统中。

11.一种目标检测方法，其特征在于，所述方法包括：

将待识别图像输入目标检测模型的主干网络进行特征提取，得到至少一个局部特征图；其中，所述待识别图像中包括待识别目标，且所述待识别图像包括彩色图像、灰度图像和红外图像中的至少一种；

将所有所述深度特征图和所述重点特征图输入所述目标检测模型的检索网络进行目标分类，得到所述待识别目标对应的目标分类结果。

12.一种电子设备，其特征在于，包括：相互耦接的存储器和处理器，其中，所述存储器存储有程序数据，所述处理器调用所述程序数据以执行如权利要求1-10或11中任一项所述的方法。

13.一种计算机可读存储介质，其上存储有程序数据，其特征在于，所述程序数据被处理器执行时实现如权利要求1-10或11中任一项所述的方法。