CN115880502A

CN115880502A - 检测模型的训练方法、目标检测方法、装置、设备和介质

Info

Publication number: CN115880502A
Application number: CN202211637861.1A
Authority: CN
Inventors: 沈智勇; 赵一麟; 陆勤; 龚建
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-03-31

Abstract

本公开提供了一种检测模型的训练方法，涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、预训练模型技术，可应用在智慧城市、智慧政务场景下。具体实现方案为：将样本图像输入第一检测模型，得到第一骨干网络输出特征；对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征；根据第二查询特征和第一查询特征，得到查询损失；根据第二键特征和第一键特征，得到键损失；根据第二值特征和第一值特征，得到值损失，其中，第二检测模型的参数量大于第一检测模型的参数量；以及根据查询损失、键损失和值损失，训练第一检测模型。本公开还提供了一种目标检测方法、装置、电子设备和存储介质。

Description

检测模型的训练方法、目标检测方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及自然语言处理、深度学习、预训练模型技术，可应用在智慧城市、智慧政务场景下。更具体地，本公开提供了一种检测模型的训练方法、目标检测方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，深度学习模型的应用场景不断增加。可以基于模型蒸馏技术，提升检测模型的目标检测能力。

发明内容

本公开提供了一种检测模型的训练方法、目标检测方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种检测模型的训练方法，该方法包括：将样本图像输入第一检测模型，得到第一骨干网络输出特征；对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征；根据第二查询特征和第一查询特征，得到查询损失；根据第二键特征和第一键特征，得到键损失；根据第二值特征和第一值特征，得到值损失，其中，第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的，第二检测模型的参数量大于第一检测模型的参数量；以及根据查询损失、键损失和值损失，训练第一检测模型。

根据本公开的另一方面，提供了一种目标检测方法，该方法包括：将目标图像输入第一检测模型，得到目标检测结果，其中，目标检测结果包括目标图像中目标对象的目标检测框，目标检测框用于指示目标对象所处的区域，其中，第一检测模型是利用本公开提供的方法训练的。

根据本公开的另一方面，提供了一种检测模型的训练装置，该装置包括：第一获得模块，用于将样本图像输入第一检测模型，得到第一骨干网络输出特征；卷积处理模块，用于对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征；第二获得模块，用于根据第二查询特征和第一查询特征，得到查询损失；第三获得模块，用于根据第二键特征和第一键特征，得到键损失；第四获得模块，用于根据第二值特征和第一值特征，得到值损失，其中，第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的，第二检测模型的参数量大于第一检测模型的参数量；以及训练模块，用于根据查询损失、键损失和值损失，训练第一检测模型。

根据本公开的另一方面，提供了一种目标检测装置，该装置包括：第五获得模块，用于将目标图像输入第一检测模型，得到目标检测结果，其中，目标检测结果包括目标图像中目标对象的目标检测框，目标检测框用于指示目标对象所处的区域，其中，第一检测模型是利用本公开提供的装置训练的

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一个实施例的检测模型的示意图；

图2是根据本公开的一个实施例的检测模型的训练方法的流程图；

图3是根据本公开的一个实施例的检测模型的骨干网络的示意图；

图4是根据本公开的一个实施例的检测模型的中间网络的示意图；

图5是根据本公开的一个实施例的检测模型的示意图；

图6是根据本公开的一个实施例的目标检测方法的流程图；

图7是根据本公开的一个实施例的检测模型的训练装置的框图；

图8是根据本公开的一个实施例的目标检测装置的框图；以及

图9是根据本公开的一个实施例的可以应用检测模型的训练方法和/或目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

教师模型可以为大模型，是具有更多参数、效果更好的模型。但教师模型参数量太多，响应速度较慢。在对模型有流量、快速处理等性能要求时，教师模型难以应用于相关场景。

模型蒸馏也可以称为知识蒸馏，是指从教师模型中学习到有用的知识来训练学生模型。在不损失太多性能的情况下，基于模型蒸馏技术可以进行模型压缩。在蒸馏过程中，学生模型可以学习到教师模型的泛化能力，也可以获得与教师模型相近的性能。在保留模型精度的同时，基于模型蒸馏技术，可以压缩模型，提升模型处理速度。下面将结合相关实施例来说明模型蒸馏的一些方式。

在一些实施例中，可以将教师模型输出的特征和结果与学生模型输出的特征和结果对齐。例如，可以将教师模型输出的结果作为学生模型的标签。又例如，可以根据教师模型输出的结果和学生模型输出的结果之间的数据分布差异，确定学生模型的损失值。

在一些实施例中，可以在学生模型中加入分别基于通道注意力和空间注意力的卷积层，将这些卷积层输出的特征图与教师模型输出的特征图对齐，以进行模型蒸馏。

在一些实施例中，可以将教师模型输出的全局特征和学生模型输出的全局特征对齐。

可以理解，教师模型的结构可以与学习模型的结构相同。例如，教师模型的骨干网络(Backbone)可以是基于Transformer模型构建的。学生模型的骨干网络也可以是基于Transformer模构建的。由此，可以进行高效的模型蒸馏。但，教师模型的结构也可以与学生模型的结构相异。在结构不同的情况下，上文提及的模型蒸馏的效率可能较低。

下面将结合相关实施例来说明本公开的模型蒸馏方式的整体架构。

图1是根据本公开一个实施例的检测模型的示意图。

在一些实施例中，检测模型可以包括骨干网络(Backbone)、中间网络(Neck)和检测网络(Head)。如图1所示，第一检测模型110可以包括第一骨干网络111、第一中间网络112和第一检测网络113。第二检测模型120可以包括第二骨干网络121、第二中间网络122和第二检测网络123。例如，第一骨干网络111可以是卷积神经网络(Convolutional NeuralNetwork，CNN)。第二骨干网络121可以包括多个Transformer编码块(Transformer Block)。可以理解，第一骨干网络111的结构和第二骨干网络121的结构相异。也可以理解，第一检测模型110可以作为学生模型。第二检测模型120可以作为教师模型。第二检测模型120的参数量可以大于第一检测模型110的参数量。

在本公开实施例中，可以将样本图像输入第一检测模型，得到第一骨干网络输出特征、第一中间网络输出特征和第一检测结果。例如，将样本图像输入第一骨干网络，得到第一骨干网络输出特征。将第一骨干网络输出特征输入第一中间网络，得到第一中间网络输出特征。将第一中间网络输出特征输入第一检测网络，得到第一检测结果。如图1所示，将样本图像1001输入第一骨干网络111，可以得到第一骨干网络输出特征。将第一骨干网络输出特征输入第一中间网络112，可以得到第一中间网络输出特征。将第一中间网络输出特征输入第一检测网络113，可以得到第一检测结果。

如图1所示，将样本图像1001输入第二骨干网络121，可以得到第二骨干网络输出特征。将第二骨干网络输出特征输入第二中间网络122，可以得到第二中间网络输出特征。将第二中间网络输出特征输入第二检测网络123，可以得到第二检测结果。可以理解，在将样本图像1001输入第一检测模型110之前，即可利用第二检测模型120处理样本图像。

在本公开实施例中，样本图像的标签可以包括样本图像中样本对象的标注检测框和样本类别。标注检测框用于指示样本对象所处的区域。样本类别可以指示样本对象的类别。样本对象的类别可以为动物或植物等等。

下面将结合图2来说明使得第一骨干网络获得与第二骨干网络接近的性能的一些实施方式。

图2是根据本公开的一个实施例的检测模型的训练方法的流程图。

如图2所示，该方法200可以包括操作S210至操作S260。

在操作S210，将样本图像输入第一检测模型，得到第一骨干网络输出特征。

在本公开实施例中，第一检测模型可以为学生模型。例如，第一检测模型可以为上述的第一检测模型110。将样本图像输入第一检测模型的第一骨干网络，可以得到第一骨干网络输出特征。

在操作S220，对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征。

在本公开实施例中，第一骨干网络可以为卷积神经网络。

在本公开实施例中，可以利用三个卷积层分别对第一骨干网络特征进行三次卷积处理，得到第一查询特征、第一键特征和第一值特征。

在本公开实施例中，第二检测模型可以为教师模型。例如，第二检测模型的第二骨干网络可以包括多个级联的Transformer编码块。第二检测模型的参数量可以大于第一检测模型的参数量。

在本公开实施例中，第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的。例如，可以利用多个级联的Transformer编码块处理样本图像。在多个级联的Transformer编码块中，最后一个Transformer编码块可以输出最后一级的查询特征、键特征和值特征。基于注意力机制，该TransfOrmer编码块也可以将最后一级的查询特征、键特征和值特征融合，得到融合特征，作为第二骨干网络输出特征。上述的最后一级的查询特征、键特征和值特征可以分别作为第二查询特征、第二键特征和第二值特征。

在操作S230，根据第二查询特征和第一查询特征，得到查询损失。

例如，可以利用各种损失函数确定查询损失。

在操作S240，根据第二键特征和第一键特征，得到键损失。

例如，可以利用各种损失函数确定键损失。

在操作S250，根据第二值特征和第一值特征，得到值损失。

例如，可以利用各种损失函数确定值损失。

在操作S260，根据查询损失、键损失和值损失，训练第一检测模型。

在本公开实施例中，根据查询损失、键损失和值损失，可以得到骨干网络损失。例如，可以对查询损失、键损失和值损失进行加权求和处理或求和处理，得到骨干网络损失。

在本公开实施例中，可以调整第一检测模型的参数，使得骨干网络损失收敛。可以理解，可以进行H个轮次的训练，分别得到H个骨干网络损失。H为大于1的整数。若第h个轮次的骨干网络损失小于或等于第h-1个轮次的骨干网络损失且第h个轮次的骨干网络损失小于或等于第h+1个轮次的骨干网络损失，可以确定在h个轮次训练后，骨干网络损失收敛。h可以为大于1且小于H的整数。

通过本公开实施例，对第一骨干网络输出特征分别进行了至少一次卷积处理，以获得与教师模型的骨干网络接近的特征形式。可以使得第一骨干网络获得与第二骨干网络接近的性能，实现了跨模型结构的知识蒸馏。

此外，教师模型可以是基于大量的Transformer编码块构建的，由此，教师模型可以具有较高的精度和泛化能力。但，直接利用教师模型进行目标检测，需要较高的时间成本。为了降低时间成本，可以基于卷积神经网络构建学生模型。通过本公开实施例，使得基于卷积神经网络构建的学生模型可以学习到基于Transformer模型构建的教师模型的数据处理能力，有助于提高目标检测的精度。

可以理解，上文结合图2对本公开的方法流程进行了说明，下面将结合图3对本公开实现跨模型结构的知识蒸馏的一些方式进行进一步说明。

图3是根据本公开的一个实施例的检测模型的骨干网络的示意图。

如图3所示，第一检测模型310可以包括第一骨干网络311、第一中间网络312和第一检测网络313。第二检测模型320可以包括第二骨干网络321、第二中间网络322和第二检测网络323。关于第一检测模型310和第二检测模型320的详细描述，可以参考上述的第一检测模型110和第二检测模型120，本公开在此不再赘述。

在本公开实施例中，在上述的操作S220中，对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征可以包括：对第一骨干网络输出特征进行第一卷积处理，可以得到第一查询特征。对第一骨干网络输出特征进行第二卷积处理，可以得到第一键特征。对第一骨干网络输出特征进行第三卷积处理，可以得到第一值特征。

例如，可以利用第一卷积层3141对第一骨干网络输出特征进行第一卷积处理，得到第一查询特征。可以利用第二卷积层3142对第一骨干网络输出特征进行第二卷积处理，得到第一键特征。可以利用第三卷积层3143对第一骨干网络输出特征进行第三卷积处理，得到第一值特征。

接下来，可以执行上述的操作S230至操作S250，可以根据第一查询特征和第二查询特征，得到查询损失。可以根据第一键特征和第二键特征，得到键损失。可以根据第一值特征和第二值特征，得到值损失。

在本公开实施例中，在上述的操作S260中，可以根据查询损失、键损失和值损失，得到骨干网络损失301。可以根据骨干网络损失301，调整第一检测模型310的参数。通过本公开实施例，可以使得结构不同的骨干网络之间的性能差异减小，提高第一检测模型的特征提取能力，进而提高第一检测模型的目标检测能力。

可以理解，上文结合相关实施例对实现跨模型结构的知识蒸馏的一些方式进行了说明，下面将结合图4对使得第一中间网络获得与第二中间网络接近的性能的一些方式进行说明。

图4是根据本公开的一个实施例的检测模型的中间网络的示意图。

如图4所示，第一检测模型410可以包括第一骨干网络411、第一中间网络412和第一检测网络413。第二检测模型420可以包括第二骨干网络421、第二中间网络422和第二检测网络423。关于第一检测模型410和第二检测模型420的详细描述，可以参考上述的第一检测模型110和第二检测模型120，本公开在此不再赘述。

在一些实施例中，在上述的操作S260中，根据查询损失、键损失和值损失，训练第一检测模型还可以包括：根据第二中间网络输出特征和第一中间网络输出特征，得到中间网络输出损失。

在本公开实施例中，第二中间网络输出特征是利用第二检测模型处理第二骨干网络输出特征得到的，第二骨干网络输出特征是将第二查询特征、第二键特征和第二值特征融合得到的。例如，第二中间网络输出特征是利用第二中间网络420处理第二骨干网络输出得到的。

如图4所示，可以利用第一处理层415对第一中间网络输出特征进行处理，得到处理后的第一中间网络输出特征。也可以利用第二处理层416对第二中间网络输出特征进行处理，得到处理后的第二中间网络输出特征。可以理解，第一处理层415和第二处理层416可以分别由各种神经网络构建。在一个示例中，第一处理层415和第二处理层416可以分别基于特征金字塔网络(Features Pyramid Networks，FPN)构建。

在本公开实施例中，根据第二中间网络输出特征和第一中间网络输出特征，得到中间网络输出损失可以包括：对第一中间网络输出特征进行归一化处理，得到第一中间归一化特征。对第二中间网络输出特征进行归一化处理，得到第二中间归一化特征。例如，可以利用归一化层431对处理后的第一中间网络输出特征进行通道维度归一化(ChannelWise Normalization)处理，得到第一中间归一化特征。也可以利用归一化层431对处理后的第二中间网络输出特征进行通道维度归一化处理，得到第二中间归一化特征。如上述，第二检测模型的参数量大于第一检测模型的参数量。对于第一检测模型与第二检测模型，二者的参数量的量级可以是不同的，二者的参数数值规模也可以不一致，二者的骨干网络的结构也可以不一致。通过本公开实施例，对第一中间网络输出特征和第二中间网络输出特征进行了通道维度归一化，可以降低参数量的量级不一致和参数数值规模不一致带来的影响，尤其是可以进一步降低骨干网络的结构不一致带来的影响，可以使得与教师模型的骨干网络结果相异的学习模型更加充分地学习到教师模型的泛化能力，进一步提高作为学生模型的第一检测模型的目标检测能力。

在本公开实施例中，可以根据第一中间归一化特征和第二中间归一化特征，得到中间网络输出损失，下面将进行详细说明。

在本公开实施例中，根据第一中间归一化特征和第二中间归一化特征，得到中间网络输出损失可以包括：对第一中间归一化特征进行全局上下文处理，得到第一全局特征。对第二中间归一化特征进行全局上下文处理，得到第二全局特征。

在本公开实施例中，可以基于通道注意力机制处理第一中间归一化特征，得到第一通道注意力特征。可以基于空间注意力机制处理第一通道注意力特征，得到第一空间注意力特征。可以对第一空间注意力特征进行全局上下文处理，得到第一全局特征。例如，可以将第一中间归一化特征输入通道注意力(Channel Attention)处理层432，得到第一通道注意力特征。可以将第一通道注意力特征输入空间注意力(Spatial Attention)处理层433，得到第一空间注意力特征。将第一空间注意力特征输入全局上下文处理层(Globalcontext Block，GcBlock)434，可以得到第一全局特征。

在本公开实施例中，可以基于通道注意力机制处理第二中间归一化特征，得到第二通道注意力特征。可以基于空间注意力机制处理第二通道注意力特征，得到第二空间注意力特征。可以对第二空间注意力特征进行全局上下文处理，得到第二全局特征。例如，可以将第二中间归一化特征输入通道注意力处理层432，得到第二通道注意力特征。可以将第二通道注意力特征输入空间注意力处理层433，得到第二空间注意力特征。将第二空间注意力特征输入全局上下文处理层434，可以得到第二全局特征。

在本公开实施例中，根据第一全局特征和第二全局特征，可以得到第一中间网络输出子损失。

此外，在本公开实施例中，根据第二中间网络输出特征和第一中间网络输出特征，得到中间网络输出损失还可以包括：根据样本图像的标签指示的标注检测框位置，对第一中间网络输出特征进行掩码处理，得到第一中间掩码特征。对第一中间掩码特征进行全局上下文处理，得到第一全局掩码特征。例如，可以将处理后的第一中间网络输出特征输入第一掩码处理层416，得到第一中间掩码特征。将第一中间掩码特征输入全局上下文处理层434，可以得到第一全局掩码特征。可以理解，处理后的第一中间网络输出特征可以实现为第一特征图。可以确定该第一特征图与样本图像之间的第一映射关系。样本图像的标签可以包括标注检测框。第一掩码处理层416可以执行以下操作：基于该第一映射关系，可以将标注检测框映射至第一特征图中，得到第一映射框。在第一特征图中，将第一映射框外的特征值设置为预设值(例如0)，以实现掩码处理。

在本公开实施例中，根据第二中间网络输出特征和第一中间网络输出特征，得到中间网络输出损失还可以包括：根据样本图像的标签指示的标注检测框位置，对第二中间网络输出特征进行掩码处理，得到第二中间掩码特征。对第二中间掩码特征进行全局上下文处理，得到第二全局掩码特征。例如，可以将处理后的第二中间网络输出特征输入第二掩码处理层426，得到第二中间掩码特征。将第二中间掩码特征输入全局上下文处理层434，可以得到第二全局掩码特征。可以理解，处理后的第二中间网络输出特征可以实现为第二特征图。可以确定该第二特征图与样本图像之间的第二映射关系。样本图像的标签可以包括标注检测框。第二掩码处理层426可以执行以下操作：基于该第二映射关系，可以将标注检测框映射至第二特征图中，得到第二映射框。在第二特征图中，将第二映射框外的特征值设置为预设值(例如0)，以实现掩码处理。

接下来，根据第一全局掩码特征和第二全局掩码特征，可以得到第二中间网络输出子损失。

在本公开实施例中，根据第一中间网络输出子损失，可以得到中间网络输出损失。此外，根据第二中间网络输出子损失，可以得到中间网络输出损失。例如，根据第一中间网络输出子损失和第二中间网络输出子损失，可以得到中间网络输出损失402。通过本公开实施例，可以降低因骨干网络结构不同而引起的对其他网络的影响，进一步提高第一检测模型的特征提取能力，进而提高第一检测模型的目标检测能力。

可以理解，上文结合图4对使得第一中间网络获得与第二中间网络接近的性能的一些方式进行说明。下面将结合图5对训练第一检测模型的一些方式进行进一步说明。

图5是根据本公开的一个实施例的检测模型的示意图。

如图5所示，第一检测模型510可以包括第一骨干网络511、第一中间网络512和第一检测网络513。第二检测模型520可以包括第二骨干网络521、第二中间网络522和第二检测网络523。关于第一检测模型510和第二检测模型520的详细描述，可以参考上述的第一检测模型110和第二检测模型120，本公开在此不再赘述。

在本公开实施例中，根据骨干网络输出损失和中间网络输出损失，训练第一检测模型可以包括：根据第二检测结果和第一检测结果，得到蒸馏损失。根据样本图像的标签和第一检测结果，得到检测损失。根据骨干网络输出损失、中间网络输出损失、蒸馏损失和检测损失，训练第一检测模型。

如图5所示，根据第一骨干网络511输出的第一骨干网络输出特征和第二骨干网络521输出的第二骨干网络输出特征，可以得到骨干网络损失501。可以理解，关于骨干网络损失501的详细描述，可以参考上述的骨干网络损失301，本公开在此不在赘述。

根据第一中间网络512输出的第一中间网络输出特征和第二中间网络522输出的第二中间网络输出特征，可以得到中间网络损失502。可以理解，关于中间网络损失502的详细描述，可以参考上述的中间网络损失402，本公开在此不在赘述。

将第一中间网络输出特征输入第一检测网络513，可以得到第一检测结果。将第二中间网络输出特征输入第二检测网络523，可以得到第二检测结果。根据第一检测结果和第二检测结果，可以得到蒸馏损失503。根据第一检测结果和样本图像5001的标签5002，可以得到检测损失504。

接下来，根据骨干网络损失501、中间网络损失502、蒸馏损失503和检测损失504，可以得到总损失。可以调整第一检测模型的参数，使得总损失收敛，以训练第一检测模型。

图6是根据本公开的一个实施例的目标检测方法的流程图。

如图6所示，该方法600可以包括操作S610。

在操作S310，将目标图像输入第一检测模型，得到目标检测结果。

在本公开实施例中，目标检测结果包括目标图像中目标对象的目标检测框，目标检测框用于指示目标对象所处的区域。例如，目标图像可以包括一个或多个对象。又例如，目标对象为一个或多个对象中的任一个对象。又例如，对象可以是各种动物或者植物等。

在本公开实施例中，第一检测模型是利用本公开提供的方法训练的。例如，第一检测模型是利用方法200训练的。

图7是根据本公开的一个实施例的检测模型的训练装置的框图。

如图7所示，该装置700可以包括第一获得模块710、卷积处理模块720、第二获得模块730、第三获得模块740、第四获得模块750和训练模块760。

第一获得模块710，用于将样本图像输入第一检测模型，得到第一骨干网络输出特征。

卷积处理模块720，用于对第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征。

第二获得模块730，用于根据第二查询特征和第一查询特征，得到查询损失。

第三获得模块740，用于根据第二键特征和第一键特征，得到键损失。

第四获得模块750，用于根据第二值特征和第一值特征，得到值损失。例如，第二查询特征、第二键特征和第二值特征是利用第二检测模型处理样本图像得到的，第二检测模型的参数量大于第一检测模型的参数量。

训练模块760，用于根据查询损失、键损失和值损失，训练第一检测模型。

在一些实施例中，卷积处理模块包括：第一卷积处理模块，用于对第一骨干网络输出特征进行第一卷积处理，得到第一查询特征；第二卷积处理模块，用于对第一骨干网络输出特征进行第二卷积处理，得到第一键特征；以及第三卷积处理模块，用于对第一骨干网络输出特征进行第三卷积处理，得到第一值特征。

在一些实施例中，第一获得模块包括：第一获得子模块，用于将样本图像输入第一检测模型，得到第一骨干网络输出特征、第一中间网络输出特征和第一检测结果。

在一些实施例中，第一检测模型包括第一骨干网络、第一中间网络和第一检测网络，第二检测模型包括第二骨干网络、第二中间网络和第二检测网络，第二查询特征、第二键特征和第二值特征是利用第二骨干网络处理样本图像得到的，第一骨干网络的结构与第二骨干网络的结构相异。

在一些实施例中，第一获得子模块包括：第一获得单元，用于将样本图像输入第一骨干网络，得到第一骨干网络输出特征；第二获得单元，用于将第一骨干网络输出特征输入第一中间网络，得到第一中间网络输出特征；以及第三获得单元，用于将第一中间网络输出特征输入第一检测网络，得到第一检测结果。

在一些实施例中，训练模块包括：第二获得子模块，用于根据查询损失、键损失和值损失，得到骨干网络输出损失；第三获得子模块，用于根据第二中间网络输出特征和第一中间网络输出特征，得到中间网络输出损失，其中，第二中间网络输出特征是利用第二检测模型处理第二骨干网络输出特征得到的，第二骨干网络输出特征是将第二查询特征、第二键特征和第二值特征融合得到的；以及训练子模块，用于根据骨干网络输出损失和中间网络输出损失，训练第一检测模型。

在一些实施例中，第三获得子模块包括：第一归一化单元，用于对第一中间网络输出特征进行归一化处理，得到第一中间归一化特征；第二归一化单元，用于对第二中间网络输出特征进行归一化处理，得到第二中间归一化特征；以及第四获得单元，用于根据第一中间归一化特征和第二中间归一化特征，得到中间网络输出损失。

在一些实施例中，第四获得单元包括：第一全局上下文处理子单元，用于对第一中间归一化特征进行全局上下文处理，得到第一全局特征；第二全局上下文处理子单元，用于对第二中间归一化特征进行全局上下文处理，得到第二全局特征；第一获得子单元，用于根据第一全局特征和第二全局特征，得到第一中间网络输出子损失；以及第二获得子单元，用于根据第一中间网络输出子损失，得到中间网络输出损失。

在一些实施例中，第一全局上下文处理子单元还用于：基于通道注意力机制处理第一中间归一化特征，得到第一通道注意力特征；基于空间注意力机制处理第一通道注意力特征，得到第一空间注意力特征；以及对第一空间注意力特征进行全局上下文处理，得到第一全局特征。

在一些实施例中，第二全局上下文处理子单元还用于：基于通道注意力机制处理第二中间归一化特征，得到第二通道注意力特征；基于空间注意力机制处理第二通道注意力特征，得到第二空间注意力特征；以及对第二空间注意力特征进行全局上下文处理，得到第二全局特征。

在一些实施例中，第三获得子模块包括：第一掩码处理单元，用于根据样本图像的标签指示的标注检测框位置，对第一中间网络输出特征进行掩码处理，得到第一中间掩码特征；第二掩码处理单元，用于根据样本图像的标签指示的标注检测框位置，对第二中间网络输出特征进行掩码处理，得到第二中间掩码特征；第一全局上下文处理单元，用于对第一中间掩码特征进行全局上下文处理，得到第一全局掩码特征；第二全局上下文处理单元，用于对第二中间掩码特征进行全局上下文处理，得到第二全局掩码特征；第五获得单元，用于根据第一全局掩码特征和第二全局掩码特征，得到第二中间网络输出子损失；以及第六获得单元，用于根据第二中间网络输出子损失，得到中间网络输出损失。

在一些实施例中，训练子模块包括：第七获得单元，用于根据第二检测结果和第一检测结果，得到蒸馏损失；第八获得单元，用于根据样本图像的标签和第一检测结果，得到检测损失，其中，标签包括样本图像中样本对象的标注检测框，标注检测框用于指示样本对象所处的区域；以及训练单元，用于根据骨干网络输出损失、中间网络输出损失、蒸馏损失和检测损失，训练第一检测模型。

图8是根据本公开的另一个实施例的目标检测装置的框图。

如图8所示，该装置800可以包括第五获得模块810

第五获得模块810，用于将目标图像输入第一检测模型，得到目标检测结果。

例如，目标检测结果包括目标图像中目标对象的目标检测框，目标检测框用于指示目标对象所处的区域。

例如，第一检测模型是利用本公开提供的装置训练的。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如检测模型的训练方法和/或目标检测方法。例如，在一些实施例中，检测模型的训练方法和/或目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的检测模型的训练方法和/或目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行检测模型的训练方法和/或目标检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)显示器或者LCD(液晶显示器))；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种检测模型的训练方法，包括：

将样本图像输入第一检测模型，得到第一骨干网络输出特征；

对所述第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征；

根据第二查询特征和所述第一查询特征，得到查询损失；

根据第二键特征和所述第一键特征，得到键损失；

根据第二值特征和所述第一值特征，得到值损失，其中，所述第二查询特征、所述第二键特征和所述第二值特征是利用第二检测模型处理所述样本图像得到的，所述第二检测模型的参数量大于第一检测模型的参数量；以及

根据所述查询损失、所述键损失和所述值损失，训练所述第一检测模型。

2.根据权利要求1所述的方法，其中，所述对所述第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征包括：

对所述第一骨干网络输出特征进行第一卷积处理，得到所述第一查询特征；

对所述第一骨干网络输出特征进行第二卷积处理，得到所述第一键特征；以及

对所述第一骨干网络输出特征进行第三卷积处理，得到所述第一值特征。

3.根据权利要求1所述的方法，其中，所述将样本图像输入第一检测模型，得到第一骨干网络输出特征包括：

将所述样本图像输入所述第一检测模型，得到所述第一骨干网络输出特征、第一中间网络输出特征和第一检测结果。

4.根据权利要求3所述的方法，其中，所述第一检测模型包括第一骨干网络、第一中间网络和第一检测网络，

所述第二检测模型包括第二骨干网络、第二中间网络和第二检测网络，

所述第二查询特征、所述第二键特征和所述第二值特征是利用所述第二骨干网络处理所述样本图像得到的，

所述第一骨干网络的结构与所述第二骨干网络的结构相异。

5.根据权利要求4所述的方法，其中，所述将所述样本图像输入所述第一检测模型，得到所述第一骨干网络输出特征、第一中间网络输出特征和第一检测结果包括：

将所述样本图像输入所述第一骨干网络，得到所述第一骨干网络输出特征；

将所述第一骨干网络输出特征输入所述第一中间网络，得到所述第一中间网络输出特征；以及

将所述第一中间网络输出特征输入所述第一检测网络，得到所述第一检测结果。

6.根据权利要求3所述的方法，其中，所述根据所述查询损失、所述键损失和所述值损失，训练所述第一检测模型包括：

根据所述查询损失、所述键损失和所述值损失，得到骨干网络输出损失；

根据第二中间网络输出特征和所述第一中间网络输出特征，得到中间网络输出损失，其中，所述第二中间网络输出特征是利用所述第二检测模型处理第二骨干网络输出特征得到的，所述第二骨干网络输出特征是将所述第二查询特征、所述第二键特征和所述第二值特征融合得到的；以及

根据所述骨干网络输出损失和所述中间网络输出损失，训练所述第一检测模型。

7.根据权利要求6所述的方法，其中，所述根据第二中间网络输出特征和所述第一中间网络输出特征，得到中间网络输出损失包括：

对所述第一中间网络输出特征进行归一化处理，得到第一中间归一化特征；

对所述第二中间网络输出特征进行归一化处理，得到第二中间归一化特征；以及

根据所述第一中间归一化特征和所述第二中间归一化特征，得到所述中间网络输出损失。

8.根据权利要求7所述方法，其中，所述根据所述第一中间归一化特征和所述第二中间归一化特征，得到所述中间网络输出损失包括：

对所述第一中间归一化特征进行全局上下文处理，得到第一全局特征；

对所述第二中间归一化特征进行全局上下文处理，得到第二全局特征；

根据所述第一全局特征和所述第二全局特征，得到第一中间网络输出子损失；以及

根据所述第一中间网络输出子损失，得到所述中间网络输出损失。

9.根据权利要求8所述的方法，其中，所述对所述第一中间归一化特征进行全局上下文处理，得到第一全局特征包括：

基于通道注意力机制处理所述第一中间归一化特征，得到第一通道注意力特征；

基于空间注意力机制处理所述第一通道注意力特征，得到所述第一空间注意力特征；以及

对所述第一空间注意力特征进行全局上下文处理，得到所述第一全局特征。

10.根据权利要求8所述的方法，其中，所述对所述第二中间归一化特征进行全局上下文处理，得到第二全局特征包括：

基于通道注意力机制处理所述第二中间归一化特征，得到第二通道注意力特征；

基于空间注意力机制处理所述第二通道注意力特征，得到所述第二空间注意力特征；以及

对所述第二空间注意力特征进行全局上下文处理，得到所述第二全局特征。

11.根据权利要求6所述的方法，其中，所述根据第二中间网络输出特征和所述第一中间网络输出特征，得到中间网络输出损失包括：

根据所述样本图像的标签指示的标注检测框位置，对所述第一中间网络输出特征进行掩码处理，得到第一中间掩码特征；

根据所述样本图像的标签指示的标注检测框位置，对所述第二中间网络输出特征进行掩码处理，得到第二中间掩码特征；

对所述第一中间掩码特征进行全局上下文处理，得到第一全局掩码特征；

对所述第二中间掩码特征进行全局上下文处理，得到第二全局掩码特征；

根据所述第一全局掩码特征和所述第二全局掩码特征，得到第二中间网络输出子损失；以及

根据所述第二中间网络输出子损失，得到所述中间网络输出损失。

12.根据权利要求6所述的方法，其中，所述根据所述骨干网络输出损失和所述中间网络输出损失，训练所述第一检测模型包括：

根据第二检测结果和所述第一检测结果，得到蒸馏损失；

根据所述样本图像的标签和所述第一检测结果，得到检测损失，其中，所述标签包括所述样本图像中样本对象的标注检测框，所述标注检测框用于指示所述样本对象所处的区域；以及

根据所述骨干网络输出损失、所述中间网络输出损失、所述蒸馏损失和所述检测损失，训练所述第一检测模型。

13.一种目标检测方法，包括：

将目标图像输入第一检测模型，得到目标检测结果，

其中，所述目标检测结果包括所述目标图像中目标对象的目标检测框，所述目标检测框用于指示所述目标对象所处的区域，

其中，所述第一检测模型是利用权利要求1至12任一项所述的方法训练的。

14.一种检测模型的训练装置，包括：

第一获得模块，用于将样本图像输入第一检测模型，得到第一骨干网络输出特征；

卷积处理模块，用于对所述第一骨干网络输出特征分别进行至少一次卷积处理，得到第一查询特征、第一键特征和第一值特征；

第二获得模块，用于根据第二查询特征和所述第一查询特征，得到查询损失；

第三获得模块，用于根据第二键特征和所述第一键特征，得到键损失；

第四获得模块，用于根据第二值特征和所述第一值特征，得到值损失，其中，所述第二查询特征、所述第二键特征和所述第二值特征是利用第二检测模型处理所述样本图像得到的，所述第二检测模型的参数量大于第一检测模型的参数量；以及

训练模块，用于根据所述查询损失、所述键损失和所述值损失，训练所述第一检测模型。

15.根据权利要求14所述的装置，其中，所述卷积处理模块包括：

第一卷积处理模块，用于对所述第一骨干网络输出特征进行第一卷积处理，得到所述第一查询特征；

第二卷积处理模块，用于对所述第一骨干网络输出特征进行第二卷积处理，得到所述第一键特征；以及

第三卷积处理模块，用于对所述第一骨干网络输出特征进行第三卷积处理，得到所述第一值特征。

16.根据权利要求14所述的装置，其中，所述第一获得模块包括：

第一获得子模块，用于将所述样本图像输入所述第一检测模型，得到所述第一骨干网络输出特征、第一中间网络输出特征和第一检测结果。

17.根据权利要求16所述的装置，其中，所述第一检测模型包括第一骨干网络、第一中间网络和第一检测网络，

所述第一骨干网络的结构与所述第二骨干网络的结构相异。

18.根据权利要求17所述的装置，其中，所述第一获得子模块包括：

第一获得单元，用于将所述样本图像输入所述第一骨干网络，得到所述第一骨干网络输出特征；

第二获得单元，用于将所述第一骨干网络输出特征输入所述第一中间网络，得到所述第一中间网络输出特征；以及

第三获得单元，用于将所述第一中间网络输出特征输入所述第一检测网络，得到所述第一检测结果。

19.根据权利要求16所述的装置，其中，所述训练模块包括：

第二获得子模块，用于根据所述查询损失、所述键损失和所述值损失，得到骨干网络输出损失；

第三获得子模块，用于根据第二中间网络输出特征和所述第一中间网络输出特征，得到中间网络输出损失，其中，所述第二中间网络输出特征是利用所述第二检测模型处理第二骨干网络输出特征得到的，所述第二骨干网络输出特征是将所述第二查询特征、所述第二键特征和所述第二值特征融合得到的；以及

训练子模块，用于根据所述骨干网络输出损失和所述中间网络输出损失，训练所述第一检测模型。

20.根据权利要求19所述的装置，其中，所述第三获得子模块包括：

第一归一化单元，用于对所述第一中间网络输出特征进行归一化处理，得到第一中间归一化特征；

第二归一化单元，用于对所述第二中间网络输出特征进行归一化处理，得到第二中间归一化特征；以及

第四获得单元，用于根据所述第一中间归一化特征和所述第二中间归一化特征，得到所述中间网络输出损失。

21.根据权利要求20所述方法，其中，所述第四获得单元包括：

第一全局上下丈处理子单元，用于对所述第一中间归一化特征进行全局上下文处理，得到第一全局特征；

第二全局上下文处理子单元，用于对所述第二中间归一化特征进行全局上下文处理，得到第二全局特征；

第一获得子单元，用于根据所述第一全局特征和所述第二全局特征，得到第一中间网络输出子损失；以及

第二获得子单元，用于根据所述第一中间网络输出子损失，得到所述中间网络输出损失。

22.根据权利要求21所述的装置，其中，所述第一全局上下文处理子单元还用于：

23.根据权利要求21所述的方法，其中，所述第二全局上下文处理子单元还用于：

24.根据权利要求19所述的装置，其中，所述第三获得子模块包括：

第一掩码处理单元，用于根据所述样本图像的标签指示的标注检测框位置，对所述第一中间网络输出特征进行掩码处理，得到第一中间掩码特征；

第二掩码处理单元，用于根据所述样本图像的标签指示的标注检测框位置，对所述第二中间网络输出特征进行掩码处理，得到第二中间掩码特征；

第一全局上下文处理单元，用于对所述第一中间掩码特征进行全局上下文处理，得到第一全局掩码特征；

第二全局上下文处理单元，用于对所述第二中间掩码特征进行全局上下文处理，得到第二全局掩码特征；

第五获得单元，用于根据所述第一全局掩码特征和所述第二全局掩码特征，得到第二中间网络输出子损失；以及

第六获得单元，用于根据所述第二中间网络输出子损失，得到所述中间网络输出损失。

25.根据权利要求19所述的装置，其中，所述训练子模块包括：

第七获得单元，用于根据第二检测结果和所述第一检测结果，得到蒸馏损失；

第八获得单元，用于根据所述样本图像的标签和所述第一检测结果，得到检测损失，其中，所述标签包括所述样本图像中样本对象的标注检测框，所述标注检测框用于指示所述样本对象所处的区域；以及

训练单元，用于根据所述骨干网络输出损失、所述中间网络输出损失、所述蒸馏损失和所述检测损失，训练所述第一检测模型。

26.一种目标检测装置，包括：

第五获得模块，用于将目标图像输入第一检测模型，得到目标检测结果，

其中，所述第一检测模型是利用权利要求14至25任一项所述的装置训练的。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至13中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至13中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至13中任一项所述的方法。