CN117173568A

CN117173568A - 目标检测模型训练方法和目标检测方法

Info

Publication number: CN117173568A
Application number: CN202311140247.9A
Authority: CN
Inventors: 刘相顺; 刘阁; 汪磊; 李强; 李健存
Original assignee: Beijing Guanwei Technology Co ltd
Current assignee: Beijing Guanwei Technology Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-05

Abstract

本发明提供一种目标检测模型训练方法和目标检测方法，涉及遥感图像及目标检测技术领域，目标检测模型训练方法包括：获取携带有第一标注信息的训练样本图，并将训练样本图输入至初始检测模型中进行目标检测，得到预测结果；在第一标注信息为标签框的情况下，根据预测结果中各初始预测框的综合度量值，从各初始预测框中筛选目标候选框；根据目标候选框和标签框计算损失值，并根据损失值调整初始检测模型的模型参数；继续执行获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。本发明可以同时控制分类得分和定位的优化来实现任务的一致性对齐，可以引导网络动态的关注高质量的预测框。

Description

目标检测模型训练方法和目标检测方法

技术领域

本发明涉及遥感图像及目标检测技术领域，尤其涉及一种目标检测模型训练方法和目标检测方法。

背景技术

目标检测是从图像中精确且高效地识别、定位出预定义类别的物体实例。现有目标检测方法主要分为两类，一是基于卷积神经网络(Convolutional Neural Network，CNN)的方法，即CNN-based方法，二是目标检测网络(Detection Transformer，DETR)类方法，即Transformer-based方法。

CNN-based方法通常都会因检测结果存在大量冗余而需要非极大值抑制(Non-Maximum Suppression，NMS)作为后处理来得到最终的检测结果。但由于分类和回归任务的不一致性，使用常规的NMS算子会影响检测精度，比如检测结果中有的检测框分类置信度高但是定位不够准确，有的定位更为准确但是分类置信度低，使用常规的NMS采用分类置信度作为排序标准，分类置信度高但定位不准确的检测框就会压制分类置信度低但定位较为准确的检测框，导致定位性能不佳。而DETR类方法，对于遥感图像，由于遥感图像范围广、背景较为复杂、目标尺寸小等，存在检测精度低、误检率和漏检率高的问题。因此，亟需一种有效的方案以解决上述问题。

发明内容

针对现有技术存在的问题，本发明实施例提供一种目标检测模型训练方法和目标检测方法。

本发明提供一种目标检测模型训练方法，包括：

获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；

在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；

根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数；

继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。

根据本发明提供的一种目标检测模型训练方法，

所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框之前，还包括：

针对所述预测结果中的每个所述初始预测框，获取所述初始预测框对应的分类置信度，并计算所述初始预测框与所述标签框的交并比；

根据所述分类置信度和所述交并比，确定所述初始预测框的综合度量值。

根据本发明提供的一种目标检测模型训练方法，所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框，包括：

按照所述综合度量值从大到小的顺序，从所述预测结果中选取前K个初始预测框作为目标候选框，K为正整数。

根据本发明提供的一种目标检测模型训练方法，所述根据所述损失值调整所述初始检测模型的模型参数之前，还包括：

计算各所述目标候选框与所述标签框的交并比；

相应地，所述根据所述损失值调整所述初始检测模型的模型参数，包括：

将各所述交并比嵌入到所述初始检测模型的分类分支中，并根据所述损失值调整所述初始检测模型的模型参数。

根据本发明提供的一种目标检测模型训练方法，所述继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型之后，还包括：

获取携带有第二标注信息的验证样本图，并将所述验证样本图输入至所述目标检测模型中进行目标检测，得到第一检测结果；

对所述第一检测结果中的各检测框进行去重处理，得到第二检测结果；

根据所述第二检测结果和所述第二标注信息，确定所述目标检测模型的验证结果。

根据本发明提供的一种目标检测模型训练方法，所述对所述第一检测结果中的各检测框进行去重处理，得到目标检测结果，包括：

计算所述第一检测结果中各检测框的综合度量值；

以所述综合度量值为排序标准，采用非极大值抑制对所述第一检测结果中的各检测框进行去重处理，得到第二检测结果。

获取携带有第三标注信息的测试样本图，并将所述测试样本图输入至所述目标检测模型中进行目标检测，得到第三检测结果；

获取所述第三检测结果中各检测框的分类置信度；

以所述分类置信度为排序标准，采用非极大值抑制对所述第三检测结果中的各检测框进行去重处理，得到第四检测结果；

根据所述第四检测结果和所述第三标注信息，确定所述目标检测模型的测试结果。

根据本发明提供的一种目标检测模型训练方法，所述获取携带有第一标注信息的训练样本图之前，还包括：

获取多个携带有标注信息的初始图像；

针对每个所述初始图像，将各初始图像缩放至第一设定大小，得到第一目标图像，并将所述初始图像进行多尺度变换和图像块切分，得到至少一个第二目标图像，所述目标图像为第二设定大小；根据所述初始图像，对各所述第二目标图像携带的标注信息进行调整；

将各所述第一目标图像和各所述第二目标图像进行划分，得到训练集、验证集和测试集中的至少一个。

根据本发明提供的一种目标检测模型训练方法，所述将所述初始图像进行多尺度变换和图像块切分，得到至少一个第二目标图像，包括：

将所述初始图像进行多尺度变换，得到备用图像；

按照设定重叠间隔和所述第二设定大小，对所述备用图像进行图像块切分，得到至少一个第二目标图像。

本发明还提供一种目标检测方法，包括：

获取待检测图像；

将所述待检测图像输入至训练好的目标检测模型中进行目标检测，得到携带有至少一个初始检测框的中间图像，所述目标检测模型基于前述的目标检测模型训练方法训练得到；

对所述中间图像中的至少一个初始检测框进行去重处理，得到携带有目标检测框的目标图像。

本发明还提供一种目标检测模型训练装置，包括：

训练样本图获取模块，被配置为获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；

筛选模块，被配置为在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；

调整模块，被配置为根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数；

训练模块，被配置为继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。

本发明还提供一种目标检测装置，包括：

待检测图像获取模块，被配置为获取待检测图像；

检测模块，被配置为将所述待检测图像输入至训练好的目标检测模型中进行目标检测，得到携带有至少一个初始检测框的中间图像，所述目标检测模型基于前述的目标检测模型训练方法训练得到；

去重模块，被配置为对所述中间图像中的至少一个初始检测框进行去重处理，得到携带有目标检测框的目标图像。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标检测模型训练方法或目标检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标检测模型训练方法或目标检测方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述目标检测模型训练方法或目标检测方法。

本发明提供的目标检测模型训练方法和目标检测方法，获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数；继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框，提高了目标检测模型的鲁棒性和预测准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标检测模型训练方法的流程示意图；

图2是本发明提供的目标检测模型的效果示意图之一；

图3是本发明提供的目标检测模型的效果示意图之二；

图4是本发明提供的目标检测模型的效果示意图之三；

图5是本发明提供的目标检测方法的流程示意图；

图6是本发明提供的目标检测模型训练装置的结构示意图；

图7是本发明提供的目标检测装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于更加清晰地理解本发明各实施例，首先对一些相关的背景知识进行如下介绍。

CNN-based方法通常都会因检测结果存在大量冗余而需要非极大值抑制(Non-Maximum Suppression，NMS)作为后处理来得到最终的检测结果。NMS是按照类别对分类置信度进行降序排序，选取置信度最高的检测框作为基准，其他检测框与其计算交并比(Intersection Over Union，IoU)，将IoU大于阈值的检测框删除，重复这一过程从而得到最终结果。常用的CNN-based方法分为Anchor based和Anchor Free。常见的Anchor based方法有YOLOv3～YOLOv5、SSD(Single Shot MultiBox Detector)、RetinaNet，而AnchorFree方法则包含FCOS(Fully Convolutional One-Stage Object Detection)和CenterNet等，这些算法都需要NMS处理。但由于分类和回归分支任务的不一致性，具有高分类置信度的目标不一定具有良好的定位能力，定位准确但分类分数低的目标会被其他目标抑制，而且在拥挤的密集场景下应用传统的NMS处理会存在多个目标因为IoU重叠太大导致某个或某些目标被错误移除导致漏检，从而影响模型的检测性能。

针对上述问题，虽然后续方法也做出了改进，提出了诸如SoftNMS和DETR等技术，但相关方法仍然无法有效解决分类和定位任务的不一致性。

SoftNMS虽然可以缓解拥挤场景下目标的漏检问题，提高目标的召回率，但是SoftNMS本质上是通过降低IoU大于阈值的目标的分类置信度，而不是直接置0，通过施加惩罚的方式把对应目标保留了下来，但是排序指标仍然采取的是分类置信度，并没有很好的代表定位能力。

DETR类方法则是通过在物体查询(Object Queries)和真实标注框(Ground TruthBoxes)之间引入基于二分图最优匹配的匈牙利损失来完成端到端的目标检测，这种一对一匹配(One-To-One)的优雅方式相比于常见的一对多(One-To-Many)方法，不再需要NMS后处理，在一定程度上提高了检测的速度。但是DETR这类基于Transformer的方法由于多头自注意力机制(Multi-head Self-Attention Mechanism)的存在计算复杂度高，对数据量和算力有极大的要求。由于遥感图像范围广、背景较为复杂、目标尺寸小、目标分布和形态各异，有些军事目标因其特殊性较为隐蔽，对应目标在遥感图像上特征不明显，检测难度较大，存在检测精度低、误检率和漏检率高的问题。

因此，本发明提供了目标检测模型训练方法和目标检测方法，通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框，提高了目标检测模型的鲁棒性和预测准确率。

下面结合图1-图7描述本发明的目标检测模型训练方法和目标检测方法。

图1是本发明提供的目标检测模型训练方法的流程示意图，参见图1所示，包括步骤101-步骤104，其中：

步骤101：获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果。

首先需要说明的是，本发明的执行主体可以是训练目标检测模型的任何电子设备，例如可以为智能手机、智能手表、台式电脑、手提电脑等任何一种。

具体地，标注信息也即标签，可以是真实标注框，即标签框，对应于正样本；也可以是空标签，对应于负样本。训练样本图是指用于模型训练的样本图像。样本图像可以是遥感图像，可以是照片、视频帧等。第一标注信息是指训练样本图的标注信息。初始检测模型是指未训练的检测模型，可以为Anchor Free，可以为YOLOv8，还可以是其他，本发明对此不作任何限定；优选地，为了提高目标检测效率，提高检测能力，初始检测模型为YOLOv8。预测结果是指初始检测模型对训练样本图进行目标检测的结果，即初步预测结果。

实际应用中，先获取携带有第一标注信息的训练样本图：可以从预先设置或获取的训练集中选取一个训练样本图，也可以接收用户通过训练平台输入的训练样本图。该训练样本图可以是正样本，也可以是负样本：在该训练样本图为正样本的情况下，第一标注信息为标签框，用于标注训练样本图中的目标或目标物；在该训练样本图为负样本的情况下，第一标注信息为空标签，表征训练样本图中无目标或目标物。

进一步地，将训练样本图输入至初始检测模型中，由初始检测模型进行目标检测，得到预测结果。预测结果可以为在训练样本图中标注了至少一个预测框，或者没有检测到目标，即无预测框。

步骤102：在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框。

具体地，初始预测框是指初始检测模型识别到目标的检测框。综合度量值为包含定位能力和分类能力的度量值。目标候选框，也即初始预测框中的目标预测框，负责预测对应的标签框。

实际应用中，若训练样本图为正样本，则第一标注信息为标签框，说明训练样本图中包含目标。若预测结果中包含至少一个初始预测框，则根据各初始预测框的综合度量值，对各初始预测框进行过滤筛选，从中筛选出目标候选框。例如，将综合度量值大于设定度量阈值的初始预测框作为目标候选框。又如，将综合度量值大于设定度量阈值的初始预测框作为备选预测框，将综合度量值最大的前M个备选预测框作为目标候选框，M为正整数。

步骤103：根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数。

实际应用中，在确定了目标候选框的基础上，进一步地，根据目标候选框和标签框进行计算损失值。计算损失值的损失函数可以是基于距离度量的损失函数，如均方误差(MSE)损失函数、L2损失函数、L1损失函数和Huber损失函数等，可以是基于距离度量的损失函数，如KL散度函数(相对熵)、交叉熵损失函数、Softmax损失函数和Focal Loss等；为了实现分类和定位任务的一致性，从而提高目标检测模型的训练效率和鲁棒性，优选地，采用VFL损失(VariFocal Loss)函数计算损失值。

在得到了损失值的基础上，进而基于损失值调整初始检测模型的模型参数，包括定位分支和分类分支的参数，以使初始检测模型能够得到更加精确的目标候选框。

步骤104：继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。

具体地，预设停止条件可以损失值小于损失阈值，可以是迭代次数达到次数阈值，可以是损失值的变化率低于变化率阈值，还可以是前面几种的组合。

在调整了模型参数之后，进一步地，继续对调整模型参数后的初始检测模型进行训练，即继续获取携带有第一标注信息的训练样本图并输入至初始检测模型进行目标检测，依次类推，直至达到训练停止条件，得到训练完成的目标检测模型。

需要说明的是，若训练样本图为负样本，则第一标注信息为空标签，此时根据预测结果和空标签计算损失值即可。若训练样本图为正样本，第一标注信息为标签框，且预测结果中不包含初始预测框，则根据标签框和预测结果计算损失值即可。如此，可以保证训练的全面性，进而提高目标检测模型的鲁棒性和检测精度。

本发明提供的目标检测模型训练方法，获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数，以使初始检测模型能够预测得到更加精确的目标候选框；继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框，提高了目标检测模型的鲁棒性和预测准确率。

在本发明一个或更多个可选的实施例中，所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框之前，还需要计算各初始预测框的综合度量值，具体实现过程可以如下：

具体地，分类置信度是指检测模型中预测类别的概率，或分类结果可靠的置信度。

实际应用中，针对每个初始预测框，获取该初始预测框在分类分支中表征分类能力的分类置信度，并根据初始预测框与标签框计算定位分支表征定位能力的交并比，然后将分类置信度和交并比输入至预设的综合度量值计算公式中进行计算，得到初始预测框的综合度量值。预设的综合度量值计算公式如公式(1)所示。

t ＝ s^α· μ^β (1)

其中，t为综合度量值，s为分类置信度，μ为交并比，α和β均为超参数。

如此，将分类置信度和交并比进行融合，得到综合度量值，可以使综合度量值更准确地表征分类能力和定位能力，并将其进行联合优化，提高了综合度量值的可靠性和准确度。由于使用常规的NMS算子(分类置信度)会影响目标检测模型最终的检测性能，因此在训练中把表征定位能力的IoU和表征分类能力的分类置信度s的高阶组合作为选取目标检测框的指标，通过相应的损失函数在训练中进行联合优化，t可以同时控制分类得分和IoU的优化来实现任务的一致性对齐，可以引导网络动态的关注高质量的预测框。

在本发明一个或更多个可选的实施例中，所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框，具体实现过程可以如下：

实际一个应用中，对于每个标签框，选取top K个具有最大t值(综合度量值)的初始预测框Anchors作为正样本预测框，即目标候选框，其他的作为负样本预测框。如此，可以使目标候选框与标签框在分类和定位两方面都较为接近，提高目标候选框的综合性，进而基于目标候选框计算损失值，能够在提高目标检测模型分类能力的同时也提高定位能力，实现分类任务和回归任务的一致性对齐。

在本发明一个或更多个可选的实施例中，所述根据所述损失值调整所述初始检测模型的模型参数之前，还包括：

计算各所述目标候选框与所述标签框的交并比；

实际应用中，计算目标候选框与标签框的交并比，然后将交并比作为软标签嵌入到初始检测模型的分类分支中，并根据损失值调整初始检测模型的模型参数。如此，可以联合优化初始检测模型，实现分类任务和回归任务的一致性对齐。

在本发明一个或更多个可选的实施例中，所述继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型之后，还需要对目标检测模型进行验证，即验证阶段的具体实现过程可以如下：

具体地，验证样本图是指用于验证模型的样本图像。第二标注信息是指验证样本图的标注信息。检测框也即标注目标的框。

实际应用中，先获取携带有第二标注信息的验证样本图：可以从预先设置或获取的验证集中选取一个验证样本图，也可以接收用户通过验证平台输入的验证样本图。

进一步地，将验证样本图输入至目标检测模型中，由目标检测模型进行目标检测，得到第一检测结果。第一检测结果可以为在验证样本图中标注了至少一个检测框，或者没有检测到目标，即无检测框。

之后，对将对第一检测结果中的各检测框进行去重处理，得到第二检测结果，然后将第二检测结果中的检测框和第二标注信息进行比较：计算第二检测结果中的检测框与第二标注信息之间的损失值，根据该损失值调整目标检测模型进行优化，然后继续执行获取携带有第二标注信息的验证样本图的步骤，直至达到验证停止条件，如验证次数达到设定次数，如损失值低于预设损失值等，得到验证后的目标检测模型，即优化后的目标检测模型。

如此，通过对目标检测模型进行验证，可以提高目标检测模型进行目标检测的效率和准确率。

在本发明一个或更多个可选的实施例中，对所述第一检测结果中的各检测框进行去重处理，得到目标检测结果，具体实现过程可以为：获取所述第一检测结果中各检测框的分类置信度；以所述分类置信度为排序标准，采用非极大值抑制对所述第一检测结果中的各检测框进行去重处理，得到第二检测结果。即，在验证阶段可以使用传统的NMS(以分类度量值为排序标准的NMS)进行去重。如此，可以实现快速准确地去重。

在本发明一个或更多个可选的实施例中，所述对所述第一检测结果中的各检测框进行去重处理，得到目标检测结果，具体实现过程可以如下：

计算所述第一检测结果中各检测框的综合度量值；

实际应用中，根据针对第一检测结果中的每个检测框，获取该检测框的分类置信度，并计算该检测框与第二标注信中的标签框之间的交并比，并根据分类置信度和交并比计算该检测框的综合度量值。

进一步地，将第一检测结果中的各检测框按照综合度量值从大到小的顺序排列，采用非极大值抑制进行去重：将综合度量值最大的检测框，即第一个检测框作为基准检测框。然后计算基准检测框与指定检测框之间的交并比，其中指定检测框为第一检测结果中除基准检测框之外的任一检测框。在交并比大于设定交并比阈值的情况下，说明该指定检测框为冗余的检测框，将该指定检测框去除，在交并比小于或等于设定交并比阈值的情况下，说明该指定检测框不冗余，保留该指定检测框。遍历各指定检测框，得到第二检测结果。即，在验证阶段还可以使用以综合度量值为排序标准版的NMS进行去重。

如此，在NMS中，选取t值(综合度量值)代替分类置信度作为排序标准，对常规的NMS算子进行改进，进一步缓解了传统NMS由于分类和定位不一致对模型性能的影响，从而确保最终的验证结果不被NMS算子所拖累，提高了验证效率和验证可靠性。

在本发明一个或更多个可选的实施例中，所述继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型之后，还需要对目标检测模型进行测试，具体实现过程如下：

获取所述第三检测结果中各检测框的分类置信度；

具体地，测试样本图是指用于测试模型的样本图像。第三标注信息是指测试样本图的标注信息。

实际应用中，先获取携带有第三标注信息的测试样本图：可以从预先设置或获取的测试集中选取一个测试样本图，也可以接收用户通过测试平台输入的测试样本图。

进一步地，将测试样本图输入至目标检测模型中，由目标检测模型进行目标检测，得到第三检测结果。第三检测结果可以为在测试样本图中标注了至少一个检测框，或者没有检测到目标，即无检测框。

之后，对将对第三检测结果中的各检测框进行去重处理，得到第四检测结果：先获取第三检测结果中各检测框的分类置信度，然后以分类置信度为排序标准，采用非极大值抑制对第三检测结果中的各检测框进行去重处理。

以分类置信度为排序标准，采用非极大值抑制对第三检测结果中的检测框进行去重处理，具体过程为：将第三检测结果中的各检测框按照分类置信度从大到小的顺序排列，将分类置信度最大的检测框，即第一个检测框作为基准检测框。然后计算基准检测框与特定检测框之间的交并比，其中特定检测框为第三检测结果中除基准检测框之外的任一检测框。在交并比大于设定交并比阈值的情况下，说明该特定检测框为冗余的检测框，将该特定检测框去除，在交并比小于或等于设定交并比阈值的情况下，说明该特定检测框不冗余，保留该特定检测框。遍历各特定检测框，得到第四检测结果。

进一步地，然后将第四检测结果中的检测框和第三标注信息进行比较，从而得到测试结果：如果第四检测结果中的检测框和第三标注信息之间的差异性符合设定验证合格条件，如差异性大于设定差异，则继续验证，即继续执行获取携带有第三标注信息的测试样本图的步骤，直至达到测试停止条件，如测试次数达到测试次数，完成测试；如果第四检测结果中的检测框和第三标注信息之间的差异性不符合设定验证合格条件，则需要重新训练目标检测模型。

如此，通过对目标检测模型进行测试，可以保证目标检测模型进行目标检测的效率和准确率。

需要说明的是，考虑到测试样本图中目标可能比较稀疏，因此先将测试样本图进行缩放，然后输入到目标检测模型进行检测，若没有检测到相关目标则把测试样本图切成设定大小的图像块再分别进行检测，最后把检测结果拼接起来，因为图像块之间存在重叠，所以拼接的结果中有表征同一个区域的多个框。因此，使用NMS对重复的预测框进行去重。

在本发明一个或更多个可选的实施例中，所述获取携带有第一标注信息的训练样本图之前，还需要设置训练集、验证集和测试集中的至少一个，具体实现过程如下：

获取多个携带有标注信息的初始图像；

具体地，初始图像是指获取的携带有标注信息的图像，如遥感数据形成的遥感图像。设定大小是指初始检测模型允许接收的图像的大小，第一设定大小和第二设定大小可以相同，也可以不同。放大的倍数可以为0.5倍、1倍、1.5倍和2倍等中的至少一个。

实际应用中，可以获取多个携带有标注信息的初始图像。

进一步地，在获取多个携带有标注信息的初始图像之后，可以针对每个初始图像执行以下步骤：将初始图像缩放至设定大小，得到第一目标图像；并将初始图像先放大，即多尺度变换，并按照设定大小进行分块，即图像块切分，得到至少一个第二目标图像。为保证分块后各第二图像上标准信息不越界，如标签框的部分处于第二目标图像之外，需要根据初始图像对各第二目标图像携带的标注信息进行调整。之后，将各第一目标图像和各第二目标图像进行划分，得到训练集、验证集和测试集中的至少一个。

可以将各第一目标图像和各第二目标图像合并起来，按照比例进行划分，得到训练集、验证集和测试集中的至少一个；也可以将各第一目标图像按照比划分，得到第一子训练集、第一子验证集和第一子测试集中的至少一个，再将各第二目标图像按照比划分，得到第二子训练集、第二子验证集和第二子测试集中的至少一个，进而将第一子训练集和第二子训练集合并得到训练集，将第一子验证集和第二子验证集合并得到验证集，将第一子测试集和第二子测试集合并得到测试集。优选地，为了进一步提高训练集、验证集和测试集的质量，可以将同一初始图像对应的第一目标图像和第二目标图像划分至同一个集合(训练集、验证集或测试集)中，例如将第一个初始图像对应的第一目标图像和第二目标图像划分至训练集中。

进一步地，在获取多个携带有标注信息的初始图像之后，也可以先将各初始图像按照一定的比例，划分成初始的训练集、验证集和测试集中的至少一个；假定初始集合为初始的训练集、初始的验证集和初始的测试集中的任一个。然后针对每个初始集合中的各初始图像，执行以下步骤：将初始图像缩放至设定大小，得到第一目标图像；并将初始图像先放大，即多尺度变换，并按照设定大小进行分块，即图像块切分，得到至少一个第二目标图像；为保证分块后各第二图像上标准信息不越界，如标签框的部分处于第二目标图像之外，需要根据初始图像对各第二目标图像携带的标注信息进行调整；将该初始图像对应的第一目标图像和各第二目标图像替换初始集合中的该初始图像，得到目标图像，即最终的训练集、最终的验证集或最终的测试集。

如此，通过将初始图像进行缩小，可以减少数据处理量，降低计算要求；通过对初始图像进行放大并分割处理，可以减少图像背景区域的大小，进而提高训练集、验证集和测试集的质量。

在本发明一个或更多个可选的实施例中，所述将所述初始图像进行多尺度变换和图像块切分，得到至少一个第二目标图像，具体实现过程可以如下：

将所述初始图像进行多尺度变换，得到备用图像；

具体地，设定重叠间隔是指分割时，相邻两个图像块或第二目标图像之间的重叠大小。

实际应用中，先按照设定的倍数对初始图像进行放大，即多尺度变换，得到至少一个备用图像。然后针对每个备用图像，按照设定重叠间隔，将备用图像分割为第二设定大小的至少一个第二目标图像。如此，可以避免将初始图像中的目标一分为二，导致无法进行目标检测。

以初始图像为遥感图像为例进行说明，由于遥感图像过大，有的甚至达到了5000～6000像素(Pixel，PX)，如果直接将遥感图像输入初始检测模型进行训练不仅对计算要求高，而且很难学到有用的知识，因此将初始图像统一缩放到1280x1280像素(第一设定大小)，用于学习图像上下文的全局特征。但由于遥感图像中目标会整体偏小，缩小后目标则更小，不利于检测，因此同时将初始图像放大至0.5倍、1.5倍和2倍中的至少一个(多尺度变换)，将放大后的备用图片和初始图像统一切分成1024x1024像素(第二设定大小)的图像块，即第二目标图像，若放大后的图像小于1024x1024，则会进行Padding填充至对应大小，即第二设定大小。重叠间隔设置为200像素，可按照实际需求具体设置，这样目标都不同程度地得到放大且具有不同尺寸，有利于学习局部的多尺度特征。

此外，由于目标较为稀疏，即考虑到初始图像中的目标一般比较稀疏，因此切割后的图像块，即第二目标图像绝大部分不含目标，即背景图像较多，因此从不包含目标的第二目标图像进行随机采样作为负样本，或将第二目标图像中不包含相关目标的作为负样本并对其进行随机采样，防止正负样本严重不平衡，把采样后的负样本加入到训练集、验证集和测试集中，有利于减少误检。如从不包含目标的第二目标图像中进行4％～5％的随机采样作为负样本。

下面以目标为导弹阵地、图像为遥感图像，对本发明提供的目标检测模型训练方法进行说明。

步骤1：采集导弹阵地遥感数据，即遥感图像，由相关解译人员负责数据的标注，即在遥感图像中标注出导弹阵地，得到标注信息。标注格式可以为DOTA数据格式，即(x1,y1,x2,y2,x3,y3,x4,y4)，其中(xi，yi)表示标签框的角点坐标，也可以为(x，y，w，h)，(x，y)为标签框左上角的坐标，w和h分别为标签框的宽和高。

步骤2：考虑到遥感图像过大，有的甚至达到了5000～6000像素，如果直接将遥感图像输入初始检测模型进行训练不仅对计算要求高，而且很难学到有用的知识，因此将初始图像统一缩放到1280x1280像素(第一设定大小)，得到第一目标图像，用于学习图像上下文的全局特征。但由于遥感图像中目标会整体偏小，缩小后目标则更小，不利于检测，因此同时将初始图像放大至0.5倍、1.5倍和2倍中的至少一个(多尺度变换)，将放大后的备用图片和初始图像统一切分成1024x1024像素(第二设定大小)的图像块，即第二目标图像，重叠间隔设置为200像素，可按照实际需求具体设置，这样目标都不同程度地得到放大且具有不同尺寸，有利于学习局部的多尺度特征。

步骤3：由于采集的遥感图像中导弹阵地，即目标比较稀疏，因此切割后的图像块，即第二目标图像绝大部分不含目标，即背景图像较多，因此从不包含目标的第二目标图像进行4％～5％的随机采样作为负样本，防止正负样本严重不平衡。

步骤4：处理缩放后图像(第一目标图像)和切成图像块(第二目标图像)的对应标签框，修正超出边界的标签框，即对于标签框超出图像的情况，调整标签框超出图像的部分，使其与图像的边缘对齐。同时把DOTA格式的标签转换为YOLO可接受的格式，即(x，y，w，h)。

步骤5：把第一目标图像和第二目标图像，以及和标签构成数据集，并按照一定比例划分为训练集、验证集、测试集。或者对于训练集和验证集，采用步骤1-5进行划分：可以按照一定比例进行划分，可以针对第一目标图像和第二目标图像分别进行划分；对于测试集，先将遥感图像缩放到1280x1280像素大小，然后输入到目标检测模型进行检测，若没有检测到相关目标则把遥感图像切成1024x1024像素的图像块再分别进行检测。

步骤6：针对YOLOv8(初始检测模型)修改训练损失函数，改进NMS后处理算子。具体的，对于每个标签框，选取top K个具有最大综合度量值(t值)的Anchors(初始预测框)作为正预测框样本，其他的作为负预测框样本。分类损失采用VFL，计算预测框与标签框的IoU，IoU是衡量定位能力最直接的方式，将其作为软标签嵌入到分类分支中，从而进行联合优化，实现分类任务和回归任务的一致性对齐。在后续NMS中，选取t值代替分类置信度作为排序标准，进一步缓解了传统NMS由于分类和定位不一致对模型性能的影响。

步骤7：使用YOLOv8和改进后的NMS算子，训练并验证，得到导弹阵地检测模型，即目标检测模型。

步骤8：对目标检测模型进行测试，由于是测试，因此测试集中测试样本图的标注信息对目标检测模型是不可见的，即数据标签不可见，因此无法计算预测框和标签框的IoU，从而无法使用t值代替分类置信度作为排序标准，因此在测试过程中仍然使用传统的NMS算子去除冗余的检测框。因为在训练的过程中，分类分支和回归分支进行了联合优化，实现任务对齐，只要模型收敛，模型预测应该具有了一致性，即高质量的预测框既具有高分类得分，也能实现精确定位，低质量的预测框会被抑制，因此在测试阶段只需使用常规的NMS即可。

此外，由于遥感图像中导弹阵地，即目标比较稀疏，考虑到测试样本图中目标可能比较稀疏，因此先将测试样本图缩放到1280x1280像素大小，然后输入到目标检测模型进行检测，若没有检测到相关目标则把测试样本图切成1024x1024的图像块再分别进行检测，最后把检测结果拼接起来，因为图像块之间存在重叠，所以拼接的结果中有表征同一个区域的多个框。因此，使用NMS对重复的预测框进行去重。

如此，通过把表征定位能力的IoU整合到了分类分支中，形成了IoU感知的分类损失，并利用分类置信度和IoU的高阶组合来筛选正负样本，同时把常规NMS的分类置信度替换为t值作为新的排序标准，进一步缓解了分类和回归任务的不一致性，实现了任务的对齐。采用了多尺度、多特征的融合方法，加强了目标的语义理解和上下文依赖，提高了目标的检测准确性；目标检测模型学习了图像的全局特征和目标的局部特征，有利于上下文关系建模，有效降低了误检率和漏检率，实现了高效的目标定位和识别。

参见图2-图4，图2是本发明提供的目标检测模型的效果示意图之一，图3是本发明提供的目标检测模型的效果示意图之二，图4是本发明提供的目标检测模型的效果示意图之三，展示了本发明对遥感图像中的导弹阵地进行检测的检测结果，其中“ZDFW”表征导弹阵地。从图2-图4中可以看出遥感图像中导弹阵地目标范围广、背景复杂、目标尺寸分布和形态差异大，且有的导弹阵地因其军事用途较为隐蔽，不具备明显的可辨识特征，存在较大的检测难度，因此经常被漏检和误检。

图2从左到右分别展示了检测样本图像的标签框、改进后的YOLOv8检测结果和改进前的YOLOv8检测结果：由于目标不大，特征不明显且周围背景复杂，存在和相关目标较为相似的区域和建筑，背景与目标融为一体，改进前的YOLOv8未能成功检测出导弹阵地，而本发明提出的方法，即改进后的YOLOv8能够成功检测出相关目标，分类置信度(0.89)高且定位准确。

图3则展示了另一个检测样本图像的标签框、改进后的YOLOv8检测结果和改进前的YOLOv8检测结果，可以看出，检测样本图像中背景复杂、范围分布广且目标由于植被的覆盖隐蔽性较高。改进后的YOLOv8对应的分类置信度为0.89，改进前的YOLOv8对应的分类置信度为0.57，即改进后的YOLOv8相对于改进前的YOLOv8，分类置信度更高而且定位性能更好，这也反映了本发明的训练得到的目标检测模型在分类和回归任务方面拥有更好的一致性，实现了任务的对齐。

为了保证模型的召回率，图4中改进前的YOLOv8使用了默认的NMS阈值设置，IoU默认值设置为0.7，因此改进前的YOLOv8存在冗余检测框未被删除，虽然可以通过降低IoU阈值执行NMS来去除冗余的检测框，但是其他检测样本图像的检测结果也会不同程度地受到影响，最终影响模型整体的精准率(Precision)和召回率(Recall)，这就需要根据实际项目的需求在精准率和召回率之间取得平衡。假设改进前的YOLOv8采用较低的IoU阈值，比如0.45，根据NMS过程中选取分类置信度最高的排序标准，那么最终的结果只会留下置信度为0.79的检测框，但是相较于去除的冗余预测框(分类置信度低但定位性能更准确)，虽然其分类置信度更高但定位不够准确，反映了改进前的YOLOv8在任务对齐的一致性方面的不足。相较于标签，改进后的YOLOv8虽然在定位上有一定的偏差，但是和改进前的YOLOv8相比，检测结果在定位方面更加准确，分类置信度也更高，模型的整体性能也有一定的提升，能够有效减少误检和漏检。

图5是本发明提供的目标检测方法的流程示意图，参见图5所示，包括步骤501-步骤503，其中：

步骤501：获取待检测图像。

步骤502：将所述待检测图像输入至训练好的目标检测模型中进行目标检测，得到携带有至少一个初始检测框的中间图像，所述目标检测模型基于目标检测模型训练方法训练得到。

步骤503：对所述中间图像中的至少一个初始检测框进行去重处理，得到携带有目标检测框的目标图像。

具体地，待检测图像是指需要识别目标或者检测到目标的图像。中间图像是指目标检测模型直接输出的图像。

实际应用中，在接收到目标检测指令或待检测图像获取指令的情况下，从目标检测指令或待检测图像获取指令所指向的区域获取待检测图像，或者接收用户通过目标检测平台上传的待检测图像。

进一步地，将待检测图像输入至训练好的目标检测模型中，由目标检测模型进行目标检测，在待检测图像中标注至少一个初始检测框，得到中间图像。

然后，对中间图像中的至少一个初始检测框进行去重处理，如以分类置信度为排序标准，采用非极大值抑制进行去重：获取各初始检测框的分类置信度，将分类置信度最大的初始检测框，即第一个初始检测框作为基准检测框。然后计算基准检测框与其他检测框之间的交并比，其中其他检测框为除基准检测框之外的任一初始检测框。在交并比大于设定交并比阈值的情况下，说明该其他检测框为冗余的初始检测框，将该其他检测框去除，在交并比小于或等于设定交并比阈值的情况下，说明该其他检测框不冗余，保留该其他检测框。遍历各其他检测框，剩下的为目标检测框，即得到携带有目标检测框的目标图像。

本发明提供的目标检测方法，通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框。再使用该目标检测模型进行目标检测，可以提高检测准确率。

下面对本发明提供的目标检测模型训练装置进行描述，下文描述的目标检测模型训练装置与上文描述的目标检测模型训练方法可相互对应参照。

图6是本发明提供的目标检测模型训练装置的结构示意图，如图6所示，该目标检测模型训练装置600包括：训练样本图获取模块601、筛选模块602、调整模块603和训练模块604，其中：

训练样本图获取模块601，被配置为获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；

筛选模块602，被配置为在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；

调整模块603，被配置为根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数；

训练模块604，被配置为继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。

本发明提供的目标检测装置，获取携带有第一标注信息的训练样本图，并将所述训练样本图输入至初始检测模型中进行目标检测，得到预测结果；在所述第一标注信息为标签框的情况下，根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框；根据所述目标候选框和所述标签框计算损失值，并根据所述损失值调整所述初始检测模型的模型参数；继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型。通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框，提高了目标检测模型的鲁棒性和预测准确率。

可选地，所述目标检测模型训练装置600还包括综合度量值确定模块，被配置为：

可选地，所述筛选模块602，进一步被配置：

可选地，所述目标检测模型训练装置600还包括交并比计算模块，被配置为：

计算各所述目标候选框与所述标签框的交并比；

相应地，所述调整模块603进一步被配置为：

可选地，所述目标检测模型训练装置600还包括验证模块，被配置为：

可选地，所述验证模块，进一步被配置为：

计算所述第一检测结果中各检测框的综合度量值；

可选地，所述目标检测模型训练装置600还包括测试模块，被配置为：

获取所述第三检测结果中各检测框的分类置信度；

可选地，所述目标检测模型训练装置600还包括划分模块，被配置为：

获取多个携带有标注信息的初始图像；

可选地，所述划分模块，进一步被配置为：

将所述初始图像进行多尺度变换，得到备用图像；

下面对本发明提供的目标检测装置进行描述，下文描述的目标检测装置与上文描述的目标检测方法可相互对应参照。

图7是本发明提供的目标检测装置的结构示意图，如图7所示，该目标检测装置700包括：待检测图像获取模块701、检测模块702和去重模块703，其中：

待检测图像获取模块701，被配置为获取待检测图像；

检测模块702，被配置为将所述待检测图像输入至训练好的目标检测模型中进行目标检测，得到携带有至少一个初始检测框的中间图像，所述目标检测模型基于目标检测模型训练方法训练得到；

去重模块703，被配置为对所述中间图像中的至少一个初始检测框进行去重处理，得到携带有目标检测框的目标图像。

本发明提供的目标检测装置，通过将表征定位能力和分类能力的综合度量值作为选取目标候选框的指标，通过相应的损失函数在训练中进行联合优化，可以同时控制分类得分和定位的优化来实现任务的一致性对齐，引导网络动态的关注高质量的预测框。再使用该目标检测模型进行目标检测，可以提高检测准确率。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行目标检测模型训练方法或目标检测方法。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标检测模型训练方法或目标检测方法。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标检测模型训练方法或目标检测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标检测模型训练方法，其特征在于，包括：

2.根据权利要求1所述的目标检测模型训练方法，其特征在于，所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框之前，还包括：

3.根据权利要求1或2所述的目标检测模型训练方法，其特征在于，所述根据所述预测结果中各初始预测框的综合度量值，从各所述初始预测框中筛选目标候选框，包括：

4.根据权利要求1或2所述的目标检测模型训练方法，其特征在于，所述根据所述损失值调整所述初始检测模型的模型参数之前，还包括：

计算各所述目标候选框与所述标签框的交并比；

5.根据权利要求1所述的目标检测模型训练方法，其特征在于，所述继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型之后，还包括：

6.根据权利要求5所述的目标检测模型训练方法，其特征在于，所述对所述第一检测结果中的各检测框进行去重处理，得到目标检测结果，包括：

计算所述第一检测结果中各检测框的综合度量值；

7.根据权利要求1或5所述的目标检测模型训练方法，其特征在于，所述继续执行所述获取携带有第一标注信息的训练样本图的步骤，直至达到训练停止条件，得到训练好的目标检测模型之后，还包括：

获取所述第三检测结果中各检测框的分类置信度；

8.根据权利要求1所述的目标检测模型训练方法，其特征在于，所述获取携带有第一标注信息的训练样本图之前，还包括：

获取多个携带有标注信息的初始图像；

9.根据权利要求8所述的目标检测模型训练方法，其特征在于，所述将所述初始图像进行多尺度变换和图像块切分，得到至少一个第二目标图像，包括：

将所述初始图像进行多尺度变换，得到备用图像；

10.一种目标检测方法，其特征在于，包括：

获取待检测图像；

将所述待检测图像输入至训练好的目标检测模型中进行目标检测，得到携带有至少一个初始检测框的中间图像，所述目标检测模型基于权利要求1-9任一项所述的目标检测模型训练方法训练得到；