CN114266945B

CN114266945B - 一种目标检测模型的训练方法、目标检测方法及相关装置

Info

Publication number: CN114266945B
Application number: CN202210188209.XA
Authority: CN
Inventors: 李峰; 张�浩; 刘世隆; 张磊
Original assignee: International Digital Economy Academy IDEA
Current assignee: International Digital Economy Academy IDEA
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-14
Anticipated expiration: 2042-02-28
Also published as: CN114266945A

Abstract

本申请公开了一种目标检测模型的训练方法、目标检测方法及相关装置，所述训练方法包括对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息；根据噪声标注信息生成的去噪组，以得到预设数量的去噪组；基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。本申请通过对标注信息添加噪声来增加形成噪声标注信息，并将基于噪声标注信息生成去噪组作为目标检测模型的输入项，以增加目标检测模型对标注信息的学习，从而可以提高目标检测模型对标注信息的学习速度，进而提高目标检测模型的训练速度。

Description

一种目标检测模型的训练方法、目标检测方法及相关装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种目标检测模型的训练方法、目标检测方法及相关装置。

背景技术

目标检测是计算机视觉中的基本任务，通过目标检测预测图像中对象的边界框以及所属类别。目前目标检测普遍采用目标检测模型（DEtection TRansformer，DETR）来进行对象的边界框以及所属类别的预测，其中，DETR使用可学习查询query从Transformer编码模块的输出项中探测图像特征，并进行二分图匹配以执行基于集合的检测框预测。DETR虽然可以有效地消除手工设计的锚点和非极大抑制（NMS），并使目标检测可以实现端到端应用。然而，DETR的训练严重受慢收敛概率的影响，需大量的训练才能获得良好的性能，从而使得DETR的训练效率低。

因而现有技术还有待改进和提高。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种目标检测模型的训练方法、目标检测方法及相关装置。

为了解决上述技术问题，本其特征在于，所述的训练方法包括：

对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息，其中，所述标注信息包括目标框和所述目标框对应的目标类别；

根据噪声标注信息生成去噪组，以得到预设数量的去噪组；

基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。

在一个实现方式中，所述预设数量的噪声标注信息中的各噪声标注信息互不相同。

在一个实现方式中，所述添加噪声操作包括对目标框的添加框噪声操作和/或对目标类别添加类别噪声操作。

在一个实现方式中，所述标注信息包括多个目标框，所述添加噪声操作为分别对多个目标框中的每个目标框执行添加框噪声操作，以及分别对每个目标框对应的目标类别执行添加类别噪声操作。

在一个实现方式中，所述目标框包括目标框中心点坐标、目标框宽度和目标框高度；所述对目标框添加框噪声操作具体包括：

为所述目标框随机生成目标框噪声，其中，目标框噪声包括目标框中心点坐标噪声、目标框宽度噪声和目标框高度噪声中的一种或者多种；

基于所述目标框噪声对所述目标框进行调整，以得到噪声目标框。

在一个实现方式中，所述目标框中心点坐标噪声中的x轴坐标的绝对值小于

，目标框中心点坐标噪声中的y轴坐标的绝对值小于

；目标框宽度噪声的绝对值小于

，目标框高度噪声的绝对值小于

，其中，

和

均为0-1间的数值，

表示目标框宽度，

表示目标框高度。

在一个实现方式中，所述对目标类别添加类别噪声操作具体包括：

按照预设概率将所述目标类别替换为噪声类别，其中，所述噪声类别包含于所述训练图片所属的训练样本集对应的类别集合内，并且所述噪声类别所述目标类别不同。

在一个实现方式中，所述根据噪声标注信息生成去噪组，以得到预设数量的去噪组具体包括：

将所述噪声标注信息中的噪声目标框转换为噪声目标框向量，并将所述噪声目标框对应的噪声类别转换为噪声类别向量；

将所述噪声目标框向量与所述噪声类别向量连接生成去噪query，根据生成的去噪query形成去噪组。

在一个实现方式中，所述基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练具体包括：

基于所述训练图片及所述目标检测模型的编码模块生成若干特征图块；

基于所述若干特征图块、预设数量的去噪组、初始化生成的匹配组及所述目标检测模型的解码模块，生成预测信息；

基于所述预测信息和所述标注信息对目标检测模型的训练进行调整。

在一个实现方式中，所述预测信息包括各去噪组各自对应的第一预测信息和所述匹配组对应的第二预测信息，其中，所述第二预测信息为通过匈牙利匹配所得到的。

在一个实现方式中，所述基于所述若干特征图块、预设数量的去噪组、初始化生成的匹配组及所述目标检测模型的解码模块，生成预测信息具体包括：

基于预设数量的去噪组和初始化生成的匹配组确定注意力掩码矩阵；

将若干特征图块、预设数量的去噪组、初始化生成的匹配组以及注意力掩码矩阵输入所述目标检测模型的解码模块，通过所述解码模块输出预测信息。

在一个实现方式中，所述目标检测模型的解码模块配置有注意力机制，其中，所述若干特征图块为注意力机制中的key值和value值；所述去噪组、初始化生成的匹配组以及注意力掩码矩阵为注意力机制中的query值。

在一个实现方式中，所述注意力掩码矩阵的行数和列数均等于各去噪组包括的去噪query的数量和匹配组中的query的数量之和，并且各去噪组中的去噪query的向量维度均等于匹配组中的匹配query的向量维度。

在一个实现方式中，所述基于预设数量的去噪组和初始化生成的匹配组确定注意力掩码矩阵具体包括：

将各去噪组所包含的query和匹配组所包含的query按照行列排列，以形成初始矩阵；

对于初始矩阵中的每个矩阵元素

，若

对应的query和

对应的query属于不相同去噪组，或者，

对应的query属于匹配组，

对应的query属于匹配组，则将

的矩阵元素值设置为第一数值；若

对应的query和

对应的query属于相同去噪组，或者，

对应的query属于匹配组，则将

的矩阵元素值设置为第二数值，以得到注意力掩码矩阵，其中，第一数值用于第

行的query能得到第

列的query所携带的信息，第二数值用于表示第

行的query能得到第

列的query所携带的信息。

本申请实施例第二方面提供了一种目标检测方法，所述方法应用采用如权利上所述的目标检测模型的训练方法训练得到目标检测模型，所述方法包括：

将待检测图片输入所述目标检测模型；

通过所述目标检测模型输出所述待检测图片的检测框及检测类别。

本申请实施例第三方面提供了一种目标检测模型的训练装置，所述的训练装置包括：

添加模块，用于对训练图片的标注信息进行预设次数的添加噪声操作，以得到预设数量的噪声标注信息，其中，所述标注信息包括目标框和所述目标框对应的目标类别；

生成模块，用于根据噪声标注信息生成去噪组，以得到预设数量的去噪组；

训练模块，用于基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的目标检测模型的训练方法中的步骤，和/或以实现如上所述的目标检测方法中的步骤。

本申请实施例第五方面提供了一种终端设备，其包括：处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的目标检测模型的训练方法中的步骤，和/或实现如上所述的目标检测方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种目标检测模型的训练方法、目标检测方法及相关装置，所述训练方法包括对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息；根据噪声标注信息生成去噪组，以得到预设数量的去噪组；基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。本申请通过对标注信息添加噪声来增加形成噪声标注信息，并将基于噪声标注信息生成去噪组作为目标检测模型的输入项，以增加目标检测模型对标注信息的学习，从而可以提高目标检测模型对标注信息的学习速度，进而提高目标检测模型的训练速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的目标检测模型的训练方法的流程图。

图2为本申请提供的目标检测模型的训练方法的原理流程图。

图3为本申请提供的目标检测模型的训练方法的原理示意图。

图4为本申请提供的目标检测模型的训练方法中的注意力掩码矩阵的示意图。

图5为本申请提供的目标检测模型的训练方法和现有方法的收敛曲线对比图。

图6为本申请提供的目标检测模型的训练装置的结构原理图。

图7为本申请提供的终端设备的结构原理图。

具体实施方式

本申请提供一种目标检测模型的训练方法、目标检测方法及相关装置，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称一组词语与另一组词语相连接，是指两组词语前后相连，或者通过特殊词语/符号相连。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

发明人经过研究发现，目标检测是计算机视觉中的基本任务，通过目标检测预测图像中对象的边界框以及所属类别。目前目标检测普遍采用目标检测模型（DEtectionTRansformer，DETR）来进行对象的边界框以及所属类别的预测，其中，DETR使用可学习查询query从Transformer编码模块的输出项中探测图像特征，并进行二分图匹配以执行基于集合的检测框预测。DETR虽然可以有效地消除手工设计的锚点和非极大抑制（NMS），并使目标检测可以实现端到端应用。然而，DETR的训练严重受慢收敛概率的影响，需大量的训练才能获得良好的性能，从而使得DETR的训练效率低。

为了解决上述问题，在本申请实施例中，对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息，其中，所述标注信息包括目标框和所述目标框对应的目标类别；根据噪声标注信息生成去噪组，以得到预设数量的去噪组；基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。本申请通过对标注信息添加噪声来增加形成噪声标注信息，并将基于噪声标注信息生成去噪组作为目标检测模型的输入项，以增加目标检测模型对标注信息的学习，从而可以提高目标检测模型对标注信息的学习速度，进而提高目标检测模型的训练速度。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供了一种目标检测模型的训练方法，如图1和图2所示，所述方法包括：

S10、对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息。

具体地，所述训练图片包含于用于训练目标检测模型的训练样本集中，训练样本集中包括若干训练图片，其中，若干训练图片中的每个训练图片均携带有标注信息，其中，所述标注信息为训练图片所携带的对象的边界框以及对象所属的类别，当训练图片携带多个对象时，所述标注信息为各对象的边界框以及对象所属的类别所构成的数据组。可以理解的是，训练图片为用于对目标检测模型进行训练的，并且预先对训练图片中对象的边界框以及对象所属的类别进行标注，以形成训练图片的标注信息。由此，所述标注信息包括目标框和目标框对应的目标类别，其中，目标框为包含训练图像中对象的边界框，目标类别为目标框内的对象所处的类别。例如，训练图片中的对象为小猫，那么目标框为小猫在训练图片中所处图像区域的区域框，目标类别为猫。此外，所述训练样本集中的训练图片可以是通过图像采集设备直接拍摄得到，或者是，通过网络（例如，百度等）获取得到，或者是，为现有目标检测数据集等。在一个实现方式中，训练样本集为MS COCO 2017目标检测数据集。

训练图片携带有一个对象，也可以携带有多个对象，其中，当训练图片携带有一个对象时，标注信息包括一个目标框以及该目标框对应的目标类别，当训练图片携带多个对象时，标注信息包括多个目标框和各目标框各自对应的目标类别，并且目标框和目标框对应的目标类别可以以数据对的方式保存。例如，训练图片携带小猫和小狗，那么标注信息携带有小猫对应的目标框和目标类别形成的数据对，和小狗对应的目标框和目标类型形成的数据对。当然，在实际应用中，用于训练目标检测模型的训练样本集中的每个训练图片可以均为携带有多个对象的图片，或者是，部分训练图片为携带有多个对象的图片，或者是，每个训练图像均为携带有一个对象的图片等。

所述预设次数为预先设置的，用于控制执行添加噪声操作的次数，所述预设次数可以根据实际情况确定，例如，预设次数为5,10,15等。所述执行预设次数的添加噪声操作指的是对于训练图片重复执行预设次数的添加噪声操作，并且每次执行添加噪声操作中噪声均为随机生成的，通过预设次数的添加噪声操作可以得到预设数量的噪声标注信息，其中，预设数量等于预设次数，并且预设数量的噪声标注信息中的各噪声标注信息互不相同。这样可以丰富预设数量的噪声标注信息所携带的数据信息，从而可以提高训练目标检测模型对目标框和目标类别的学习，进而可以提高目标检测模型的训练速度。

在一个实现方式中，所述添加噪声操作包括对目标框的添加框噪声操作和/或对目标类别添加类别噪声操作，也就是说，在对标注信息执行添加噪声操作时，可以仅对目标框执行添加框噪声操作或者仅对目标类别执行添加类别噪声操作，也可以是分别对目标框执行添加框噪声操作和对目标类别执行添加类别噪声操作。在一个典型实现方式中，所述添加噪声操作为分别对目标框执行添加框噪声操作和对目标类别执行添加类别噪声操作，也就是说，同时对目标框和目标类别添加噪声，以增加噪声后的噪声标注信息与目标框和目标类别的差异性。

所述标注信息包括多个目标框，以及每个目标框对应的目标类别。此时，在对标注信息执行添加噪声操作时，可以分别对多个目标框中的每个目标框执行添加框噪声操作，以及分别对每个目标框对应的目标类别执行添加类别噪声操作；或至少，对部分目标框执行添加框噪声操作和/或部分目标类别执行添加类别噪声操作。其中，在至少对部分目标框执行添加框噪声操作和部分目标类别执行添加类别噪声操作时，执行添加框噪声操作的目标框与执行目标类别执行添加类别噪声操作可以一一对应，例如，多个目标框包括目标框A和目标框B，目标框A对应目标类别a，目标框对应的目标类别b，对目标框A执行添加框噪声操作，则对目标类别a执行添加类别噪声操作。此外，在至少对部分目标框执行添加框噪声操作和部分目标类别执行添加类别噪声操作时，执行添加框噪声操作的目标框与执行目标类别执行添加类别噪声操作可以不一一对应，例如，多个目标框包括目标框A和目标框B，目标框A对应目标类别a，目标框对应的目标类别b，对目标框A执行添加框噪声操作，对目标类别b执行添加类别噪声操作。

在一个典型实现方式中，当标注信息携带有多个目标框，以及每个目标框对应的目标类别时，每次对标注信息执行添加噪声操作时，均对分别对多个目标框中的每个目标框执行添加框噪声操作，以及分别对每个目标框对应的目标类别执行添加类别噪声操作，这样可以丰富每次添加噪声操作所得到的噪声标注信息所携带的数据信息。

举例说明：标注信息包括7个目标框，预设次数为5，则需要对标注信息执行5次添加噪声操作，并且每次执行添加噪声操作时，分别对7个目标框执行添加框噪声操作以及分别对7个目标框各自对应的目标类别执行类别噪声添加操作，以得到5组噪声标注信息，分别为：

第一组：（目标框1+目标框噪声11，噪声类别11），（目标框2+目标框噪声12，噪声类别12），……，（目标框7+目标框噪声17，噪声类别17）；

第二组：（目标框1+目标框噪声21，噪声类别21），（目标框2+目标框噪声22，噪声类别22），……，（目标框7+目标框噪声27，噪声类别27）；

……

第五组：（目标框1+目标框噪声51，噪声类别51），（目标框2+目标框噪声52，噪声类别52），……，（目标框7+目标框噪声57，噪声类别57）。

在本实施例的一个实现方式中，所述目标框采用四维数据(x,y,w,h)表示，其中，(x,y)表示目标框中心点坐标、w表示目标框宽度和h表示目标框高度，目标框中心点坐标用于反映目标框在训练图片中的位置，目标框宽度和目标高度用于反映目标框的尺寸。相应的，在对目标框添加噪声时，可以对目标框中心点坐标、目标框宽度和目标框高度中的一个或者多个添加噪声，以使得添加噪声后的目标框在训练图片中位置和/或目标框尺寸与添加噪声钱的目标框在训练图片中的位置和/或目标框尺寸不同。

基于此，所述对目标框添加框噪声操作具体包括：

为所述目标框随机生成目标框噪声；

具体地，所述目标框噪声为随机生成的，所述目标框噪声包括目标框中心点坐标噪声、目标框宽度噪声和目标框高度噪声中的一种或者多种，例如，目标框噪声包括目标框中心点坐标噪声，或者是，目标框噪声包括目标框宽度噪声和目标框高度噪声，或者是，目标框噪声包括目标框中心点坐标噪声、目标框宽度噪声和目标框高度噪声等。在一个典型实现方式中，所述目标框噪声包括目标框中心点坐标噪声、目标框宽度噪声和目标框高度噪声。

基于所述目标框噪声对所述目标框进行调整时，通过噪声目标框中心点坐标对目标框的中心点进行偏移，通过目标框宽度噪声和目标框高度噪声对目标框进行缩放，以得到噪声目标框。其中，噪声目标框包括噪声目标框中心点坐标，噪声目标框宽度和噪声目标框高度，噪声目标框中心点坐标等于目标框中心点坐标+目标框中心点坐标噪声，噪声目标框宽度等于目标框宽度+目标框宽度噪声，噪声目标框高度等于目标框高度+目标框高度噪声。例如，目标框中心点坐标噪声表示为(Δx,Δy)，目标框宽度噪声表示为Δw，目标框高度噪声表示为Δh，那么噪声目标框表示为（x+Δx,y+Δy,w+Δw,h+Δh）。

，目标框中心点坐标噪声中的y轴坐标的绝对值小于

；目标框宽度噪声的绝对值小于

，目标框高度噪声的绝对值小于

，其中，

和

均为0-1间的数值，w表示目标框宽度，h表示目标框高度。可以理解的是，在随机目标框噪声时，基于目标框中心点坐标噪声中的x轴坐标、目标框中心点坐标噪声中的y轴坐标、目标框宽度噪声、目标框高度噪声各自满足的条件确定各自对应的取值范围，然后在各自对应的取值范围内随机选取一个数值，以形式目标框噪声。本实现方式通过设置目标框中心点坐标噪声中的x轴坐标、目标框中心点坐标噪声中的y轴坐标、目标框宽度噪声和目标框高度噪声的取值范围，可以使得噪声目标框携带有目标框的特征信息，以保证通过对噪声目标框的学习可以学习到目标框的特征信息，从而可以增加目标检测模型对目标框的学习。在一个具体实现方式中，所述

的取值范围可以为0.2-0.8，特别为0.4-0.6，例如，

=0.4；所述

的取值范围可以为0.2-0.8，特别为0.4-0.6，例如，

=0.4。

按照预设概率将所述目标类别替换为噪声类别。

具体地，所述预设概率为预先设置的，为将目标类别替换为噪声类别的概率。例如，预设概率为0.2，那么目标类别有20%的概率被替换为噪声类别。所述噪声类别包含于所述训练图片所属的训练样本集对应的类别集合内，可以理解的是，训练样本集中的每个训练图片中对象所属的目标类别均包含于类别集合中，并且类别集合中的各目标类别互不相同。例如，训练样本集中的所有训练图像中的所有对象共对应90个类别，那么类别集合包括90个类别，并且别集合包括的90个类别与训练样本集对应的90个类别相同。

所述噪声类别为在类别集合中随机选取的一目标类别，并且噪声类别与执行类别噪声添加的目标类别不同。也就是说，在按照预设概率确定需要将目标类别替换为噪声类别时，在类别集合中除需要执行类别噪声添加操作的目标类别外的各目标类别中随机选取一个目标类别作为噪声类别，并将目标类别替换为噪声类别。例如，目标类别为目标类别A，类别集合包括目标类别A、目标类别B、目标类别C以及目标类别D，在目标类别B、目标类别C以及目标类别D中随机到的目标类别为目标类别B，那么将目标类别B作为噪声类别，并将目标类别A替换为目标类别B。

S20、根据噪声标注信息生成去噪组，以得到预设数量的去噪组。

具体地，所述去噪组包括若干去噪query，若干去噪query的数量与噪声标注信息包括的目标框的数量相同。换句话说，噪声标注信息中的每个噪声目标框和噪声目标框对应的噪声类别形成一个去噪query，噪声标注信息的中的所有噪声目标框及其对应的噪声类别形成的去噪query构成去噪组，并每个噪声标注信息形成一个去噪组，相应的，预设数量的去噪组可以形成预设数量的去噪组。

在本实施例的一个实现方式中，所述根据噪声标注信息生成去噪组，以得到预设数量的去噪组具体包括：

具体地，所述噪声标注信息中的噪声目标框采用四维数据表示，从而所述噪声目标框可以转为四维向量。所述噪声类别向量的向量维度等于用于训练目标检测模型的训练样本集所对应的类别集合所包括的目标类别的总数量，并且噪声类别向量中的每个元素均对应类别集合中的一个目标类别，并且用于反映噪声目标框对应的噪声类别为该目标类别的概率。由此，在将噪声目标框对应的噪声类别转换为噪声类别向量时，将噪声类别转换为向量维度等于用于训练目标检测模型的训练样本集所对应的类别集合所包括的目标类别的总数量的噪声类别向量，并且去噪query中噪声类别向量中噪声类别对应的向量位置的取值为1，其余向量位置的取值均为0。

在获取到噪声目标框向量和噪声类别向量后，将噪声目标框向量和噪声类别向量连接以形成一个去噪query，其中，将噪声目标框向量和噪声类别向量连接可以是按照噪声目标框向量-噪声类别向量的顺序连接，也可以是按照噪声类别向量-噪声目标框向量的顺序连接。在获取到噪声标注信息中各噪声目标框和其对应的噪声类别对应的去噪query后，将获取到的所有去噪query构成的query组作为去噪组。

举例说明：标注信息包括7个目标框，预设次数为5，则需要对标注信息执行5次添加噪声操作，并且每次执行添加噪声操作时，分别对7个目标框执行添加框噪声操作以及分别对7个目标框各自对应的目标类别执行类别噪声添加操作，以得到5组噪声标注信息，每组噪声标注信息中的7个噪声目标框及其对应的噪声类别形成7个去噪query，从而5组噪声标注信息会形成5组去噪组，每组去噪组包括7个去噪query，相应的，5组去噪组可以表示为：

第一组：噪声目标框1对应的去噪query11，噪声目标框2对应的去噪query12，……，噪声目标框7对应的去噪query17；

第二组：噪声目标框1对应的去噪query21，噪声目标框2对应的去噪query22，……，噪声目标框7对应的去噪query27；

……

第五组：噪声目标框1对应的去噪query51，噪声目标框2对应的去噪query52，……，噪声目标框7对应的去噪query57。

S30、基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。

具体地，所述初始化生成的匹配组包括若干可学习的query，匹配组包括的可学习的query的数量大于用于检测训练图片的检测框的数量。其中，用于检测训练图片的检测框的数量可以根据实际需求确定，例如，对于coco数据集，用于测训练图片的检测框的数量可以为100,300等。在一个实现方式中，用于检测训练图片的检测框的数量为300，相应的，可学习的query的数量为300，可学习的query可以由检测框对应的检测框向量以及该检测框对应的检测类别构的检测类别向量是随机初始化生成的，并且可学习的query可以记为匹配query，匹配query的向量维度等于各去噪组中的去噪qurey的向量维度。

在一个实现方式中，所述噪声类别向量可以为256维；检测框向量为可以为4维位置信息，并且所述位置信息可以转为256维，相应的，可学习的query可以为512维。当然，在实际应用中，可学习的query的维度可以根据实际情况进行确定，这里仅是给出一个例子作为说明，并不限定可学习的query的维度为512维。

在本实施例的一个实现方式中，如图2所示，所述基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练具体包括：

具体地，所述目标检测模型可以包括编码模块和解码模块，所述编码模块可以包括特征提取单元和编码单元，所述特征提取单元用于提取训练图像的特征图，并将所述特征图划分为若干初始特征图块；编码单元用于通过注意力机制混合若干初始特征图块，以生成若干特征图块，其中，若干特征图块中的每个特征图块均携带有内容信息和位置信息，并且编码单元生成的若干特征图块的数量与特征提取单元确定若干初始特征图块的数量相同。在一个实现方式中，所述特征提取单元可以采用ResNet50以及ResNet100等特征提取网络，以提取单层或者多层特征图，然后在将提取到的单层或者多层特征图划分为若干初始特征图块。编码单元可以采用Transformer编码器，Transformer编码器通过注意力机制混合若干初始特征图块以输入相同数量的特征图块。

所述解码模块用于重构训练图片对应的目标框，其中，解码模块包括去噪组重构以及匹配组匹配。匹配组匹配为在若干特征图块中目标特征图块以得到检测框，然后将查找到的检测框通过匈牙利匹配方式与训练图片对应的目标框进行匹配。去噪组重构基于若干特征图块重构去噪组对应的检测框。这样通过解码器对去噪组重构，可以使得解码器可以通过去噪组对目标框和目标类别进行学习，增加了对目标框和目标类别的学习，避免了现有训练方法只在目标检测模型中端到端地学习产生检测框，从而可以提高目标检测模型的对目标框和目标类别的学习效率，进而提高目标检测模型的训练速度。

基于此，如图3所示，所述预测信息包括各去噪组各自对应的第一预测信息和所述匹配组对应的第二预测信息，其中，所述第二预测信息为通过匈牙利匹配所得到的。此外，获取到第一预测信息和第二预测信息后，可以基于第一预测信息、第二预测信息以及标注信息确定损失函数，然后基于损失函数对目标检测模型进行反向传播，以对目标检测模型的训练进行调整。在一个实现方式中，第一预测信息和第二预测信息中的检测框与目标框之间的损失均可以采用L1损失和GIOU损失，第一预测信息和第二预测信息中的检测类别与目标类别之间的损失均可以采用focal损失。当然，值得说明的是，在采用本实施例提供的目标检测模型的训练方法对目标检测模型进行训练后，对目标检测模型进行测试时，直接采用测试样本集对经过训练的目标检测模型进行测试，而无需为测试样本集中的测试图片进行噪声添加操作。换句话说，在对经过训练的目标检测模型进行测试时，直接将测试图片通过解码模块得到的若干特征图块作为解码模块的输入项，解码模块直接基于若干特征图块确定测试图片对应的预测信息。

在本实施例的一个实现方式中，如图3所示，所述基于所述若干特征图块、预设数量的去噪组、初始化生成的匹配组及所述目标检测模型的解码模块，生成预测信息具体包括：

具体地，所述注意力掩膜矩阵为基于预设数量的去噪组和初始化生成的匹配组中，用于反映各query组是否可以得到其他query组所携带的信息，其中，各query组为预设数量的去噪组和初始化生成的匹配组中的任一query组。可以理解的是，通过所述注意力掩膜矩阵可以去噪组之间是否共享各自携带的信息，以及各去噪组与匹配组之间是否共享各自携带的信息。其中，所述注意力掩码矩阵的行数等于各去噪组所包含的去噪query的数量和匹配组所包含的匹配query的数量和。例如，如图4所示，预设数量的去噪组包括去噪组0和去噪组1，去噪组0和去噪组1均包括3个去噪query，匹配组包括7个匹配query，那么注意力掩码矩阵的行数和列数均为11，也就是说，注意力掩码矩阵为11*11的矩阵。

对于初始矩阵中的每个矩阵元素，若

对应的query和

对应的query属于不相同去噪组，或者，

对应的query属于匹配组，

对应的query属于匹配组，则将

的矩阵元素值设置为第一数值；若

对应的query和

对应的query属于相同去噪组，或者，

对应的query属于匹配组，则将

行的query能得到第

列的query所携带的信息，第二数值用于表示第

行的query能得到第

列的query所携带的信息。

具体地，将去噪组中的去噪query记为去噪组的query，将匹配组中的匹配query作为匹配组的query，那么所述初始矩阵的矩阵行数和矩阵列数均等于各去噪组所包含的query的数量和匹配组所包含的query的数量和，记为第一数量。换句话说，当将各去噪组所包含的query和匹配组所包含的query按照行列排列时形成一矩阵行数和矩阵列数均为第一数量的初始矩阵，其中，初始矩阵中的每个矩阵元素

用于表示第

行的query能否得到第

的query所携带的信息。其中，在将各去噪组所包含的query和匹配组所包含的query按照行列排列时，可以采用随机方式排列去噪组所包含的query和匹配组所包含的query，或者是，按照去噪组所包含的query-匹配组所包含的query的顺序排，或者是，按照匹配组所包含的query-去噪组所包含的query的顺序排列等。此外，所述初始矩阵中行方向的排列顺序可以与列方式的排列顺序相同，或者是，行方向的排列顺序可以与列方向的排列顺序不相同。

举例说明：假设预设数量的去噪组包括去噪组0和去噪组1，去噪组0和去噪组1均包括3个query，匹配组包括7个query，分别将各去噪组所包含的query和匹配组所包含的query按照去噪组0-去噪组1-匹配组的顺序进行行排列和列排列，那么得到如图4所示的初始矩阵。

进一步，在获取到初始矩阵中，由于初始矩阵中的每个矩阵元素

用于表示第

行的query能否得到第

的query所携带的信息，从而在为初始矩阵中的每个矩阵元素

赋值时，可以基于第

行的query能否得到第

的query所携带的信息来确定矩阵元素

的值，其中，当第

行的query不能得到第

的query所携带的信息时，矩阵元素

的值为第一数值，当第

行的query能得到第

的query所携带的信息时，矩阵元素

的值为第二数值。这样可以使得各去噪组内的query为相互可得到的，不同去噪组间的query不为相互可得到，各去噪组可以得到匹配组所携带的信息，而匹配组不可以得到各去噪组所携带的信息，这样一方面可以避免匹配组可以学习到去噪组，降低匹配组的学习难道，而影响训练得到的目标检测模型的模型精度，另一方面可以使得目标检测模型学习到各去噪组所携带的目标框和目标类别的信息，从而增加目标检测模型对目标框和目标类别的学习，提高目标检测模型的学习效率，提高目标检测模型的训练速度。此外，所述第一数值和第二数值可以是根据实际需求设定，例如，如图4所示，第一数值为1，第二数值为0等。当然，在实际应用中，第一数值可以为0，第二数值可以为1等。

在一个实现方式中，所述解码模块配置有注意力机制，其中，在将将若干特征图块、预设数量的去噪组、初始化生成的匹配组以及注意力掩码矩阵输入所述目标检测模型的解码模块时，所述若干特征图块为注意力机制中的key值和value值；所述去噪组、初始化生成的匹配组以及注意力掩码矩阵为注意力机制中的query值，并通过交叉注意力机制对query值、key值和value值进行学习，以得到预测信息。

综上所述，本实施例提供了一种目标检测模型的训练方法，所述训练方法包括对训练图片的标注信息执行预设次数的添加噪声操作，以得到预设数量的噪声标注信息；根据噪声标注信息生成去噪组，以得到预设数量的去噪组；基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。本申请通过对标注信息添加噪声来增加形成噪声标注信息，并将基于噪声标注信息生成去噪组作为目标检测模型的输入项，以增加目标检测模型对标注信息的学习，从而可以提高目标检测模型对标注信息的学习速度，进而提高目标检测模型的训练速度。

此外，为了进一步说明本实施例提供的目标检测模型的训练方法的效果，首先将本实施例提供的训练方法分别应用于DAB-DETR和DETR时，本实施例提供的训练方法的训练速度分别为原方法DAB-DETR和原方法DETR的两倍。其次，发明人使用ResNet50作为特征提取单元，采用MS COCO 2017目标检测数据作为训练样本集，当训练12批次时，本实施例提供的训练方法比原方法DAB-DETR提升了3.7AP，从38.0提升到41.7；当训练50批次时，本实施例提供的训练方法比原方法DAB-DETR提升了1.9AP（Average precision，平均精准度），从42.2提升到44.1。此外，如图5所示，本实施例提供的训练方法应用于DAB-Deformable-DETR后的收敛效果如DN-Deformable-DETR曲线所示，高于原方法DAB-Deformable-DETR方法和原方法DAB-DETR。

基于上述目标检测模型的训练方法，本实施例提供了一种目标检测方法，所述目标检测方法应用采用上述实施例训练得到的目标检测模型，所述目标检测方法包括：

将待检测图片输入所述目标检测模型；

基于上述目标检测模型的训练方法，本实施例提供了一种目标检测模型的训练装置，如图6所示，所述的训练装置包括：

添加模块100，用于对训练图片的标注信息进行预设次数的添加噪声操作，以得到预设数量的噪声标注信息，其中，所述标注信息包括目标框和所述目标框对应的目标类别；

生成模块200，用于根据噪声标注信息生成去噪组，以得到预设数量的去噪组；

训练模块300，用于基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练。

本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的目标检测模型的训练方法中的步骤和/或基于上述目标检测方法。

本申请还提供了一种终端设备，如图7所示，其包括至少一个处理器（processor）20；显示屏21；以及存储器（memory）22，还可以包括通信接口（Communications Interface）23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的目标检测模型的训练方法中的步骤和/或基于上述目标检测方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种目标检测模型的训练方法，其特征在于，所述的训练方法包括：

根据噪声标注信息生成的去噪组，以得到预设数量的去噪组；

基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练，其中，所述匹配组是初始化生成的包括若干匹配查询向量的向量组，所述匹配查询向量是可学习的查询向量；

其中，所述添加噪声操作包括对目标框的添加框噪声操作和/或对目标类别添加类别噪声操作；所述标注信息包括多个目标框，所述添加噪声操作为分别对多个目标框中的每个目标框执行添加框噪声操作，以及分别对每个目标框对应的目标类别执行添加类别噪声操作；

所述目标检测模型是基于Transformer的目标检测模型，包括编码模块和解码模块；

所述基于预设数量的去噪组、初始化生成的匹配组以及所述训练图片，对目标检测模型进行训练具体包括：基于所述训练图片及所述目标检测模型的编码模块生成若干特征图块；基于所述若干特征图块、预设数量的去噪组、初始化生成的匹配组及所述目标检测模型的解码模块，生成预测信息；基于所述预测信息和所述标注信息对目标检测模型的训练进行调整；

所述基于所述若干特征图块、预设数量的去噪组、初始化生成的匹配组及所述目标检测模型的解码模块，生成预测信息具体包括：基于预设数量的去噪组和初始化生成的匹配组确定注意力掩码矩阵；将若干特征图块、预设数量的去噪组、初始化生成的匹配组以及注意力掩码矩阵输入所述目标检测模型的解码模块，通过所述解码模块输出预测信息。

2.根据权利要求1所述的目标检测模型的训练方法，其特征在于，所述预设数量的噪声标注信息中的各噪声标注信息互不相同。

3.根据权利要求1所述的目标检测模型的训练方法，其特征在于，所述目标框包括目标框中心点坐标、目标框宽度和目标框高度；所述对目标框添加框噪声操作具体包括：

4.根据权利要求3所述的目标检测模型的训练方法，其特征在于，所述目标框中心点坐标噪声中的x轴坐标的绝对值小于