CN114694005A

CN114694005A - 目标检测模型训练方法和装置、目标检测方法和装置

Info

Publication number: CN114694005A
Application number: CN202210435047.5A
Authority: CN
Inventors: 赵明瑶; 罗壮; 张海强
Original assignee: Zhidao Network Technology Beijing Co Ltd
Current assignee: Zhidao Network Technology Beijing Co Ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-01

Abstract

本申请公开了一种目标检测模型训练方法和装置、目标检测方法和装置，该目标检测模型训练方法包括：获取包含标注信息的待训练图像；利用目标检测模型的骨干网络对其进行特征提取，得到多尺度特征图，骨干网络包括增强后的可转换空洞卷积，其用于提取多尺度特征信息；利用目标检测模型的特征金子塔网络对多尺度特征图进行特征融合；利用目标检测模型的检测头网络对融合后的多尺度特征图进行检测，得到目标检测结果；根据目标检测结果和标注信息确定损失值，利用损失值更新目标检测模型的参数，得到训练后的目标检测模型。本申请对原有骨干网络中的可转换空洞卷积进行改进，可以自适应提取图像中的多尺度特征信息，提高了目标检测的准确性。

Description

目标检测模型训练方法和装置、目标检测方法和装置

技术领域

本申请涉及目标检测技术领域，尤其涉及一种目标检测模型训练方法和装置、目标检测方法和装置。

背景技术

单目3D目标检测的输入仅有一张RGB图像，在道路的复杂场景下，车辆、行人等不同检测目标的固有尺度存在较大差异，同一目标距离观测装置的距离远近不同导致其在RGB图像上也显示为不同大小的尺度。

现有的单目3D目标检测将RGB图像输入具有骨干网络+特征金字塔网络+检测头构成的单目3D目标检测网络中，可以输出具有目标类别、目标3D框(box)编码、目标方向类别、目标属性以及目标中心度等向量。通过3D框解码后处理模块，解码目标3D框编码向量，从而可以获得目标的位置、目标尺度大小、目标深度以及目标角度等解码信息，结合Score评分和NMS(Non-Maximum Suppression，非极大值抑制)算法可以确定最终的3D目标检测结果。

然而，上述方案对目标尺度问题的处理集中在深层网络中，特征金字塔网络先输出多尺度特征图，然后直接基于不同尺度目标的标注信息在不同尺度水平的特征图中分别训练，浅层网络大多采用通用的ResNet50或者RestNet101作为骨干网络，在底层特征的提取上并没有考虑多尺度问题，导致多尺度目标的检测能力不足。

发明内容

本申请实施例提供了一种目标检测模型训练方法和装置、目标检测方法和装置，以提取目标的多尺度特征信息，提高目标检测的准确性。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种目标检测模型训练方法，其中，所述目标检测模型训练方法包括：

获取待训练图像，所述待训练图像包括所述待训练图像的标注信息；

利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图，所述骨干网络包括增强后的可转换空洞卷积，所述增强后的可转换空洞卷积用于提取所述待训练图像中的多尺度特征信息；

利用所述目标检测模型的特征金子塔网络对所述待训练图像的多尺度特征图进行特征融合，得到融合后的多尺度特征图；

利用所述目标检测模型的检测头网络对所述融合后的多尺度特征图进行检测，得到所述待训练图像的目标检测结果；

根据所述待训练图像的目标检测结果和所述待训练图像的标注信息确定损失值，并利用所述损失值更新所述目标检测模型的参数，得到训练后的目标检测模型。

可选地，所述骨干网络还包括第一全局上下文模块和第二全局上下文模块，所述增强后的可转换空洞卷积包括依次级联的多个阶段的可转换空洞卷积，所述多个阶段的可转换空洞卷积至少包括第一阶段的可转换空洞卷积和第二阶段的可转换空洞卷积，

所述利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图包括：

获取所述待训练图像的第一特征图，所述第一特征图由所述第一全局上下文模块对应的上游模块输出；

利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图；

利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图；

利用所述第二全局上下文模块对所述第三特征图进行处理，得到所述待训练图像的多尺度特征图。

可选地，所述利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图包括：

对所述第一特征图进行全局平均池化处理，得到第一全局平均池化处理结果；

对所述第一全局平均池化处理结果进行1x1卷积处理，得到第一1x1卷积处理结果；

将所述第一特征图和所述第一1x1卷积处理结果进行融合处理，得到所述第二特征图。

可选地，所述第一阶段的可转换空洞卷积包括第一转换函数、第一空洞率对应的可转换空洞卷积和第二空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：

利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果；

利用所述第一空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第一空洞卷积处理结果；

利用所述第二空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第二空洞卷积处理结果；

根据所述第一转换函数的处理结果，对所述第一空洞卷积处理结果和所述第二空洞卷积处理结果进行融合处理，得到所述第一阶段的可转换空洞卷积输出的第四特征图。

可选地，所述第一转换函数包括5x5平均池化和1x1卷积，所述利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果包括：

对所述第二特征图进行5x5平均池化，得到第一平均池化结果；

对所述第一平均池化结果进行1x1卷积，得到所述第一转换函数的处理结果。

可选地，所述第二阶段的可转换空洞卷积包括第二转换函数和第三空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：

利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果；

利用所述第三空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第三空洞卷积处理结果；

获取所述第一阶段的可转换空洞卷积输出的第四特征图；

根据所述第二转换函数的处理结果，对所述第四特征图和所述第三空洞卷积处理结果进行融合处理，得到所述第三特征图。

可选地，所述第二转换函数包括11x11平均池化和1x1卷积，所述利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果包括：

对所述第二特征图进行11x11平均池化，得到第二平均池化结果；

对所述第二平均池化结果进行1x1卷积，得到所述第二转换函数的处理结果。

第二方面，本申请实施例还提供一种目标检测方法，其中，所述目标检测方法包括：

获取待检测图像；

利用目标检测模型对所述待检测图像进行检测，得到目标检测结果；

其中，所述目标检测模型基于前述之任一所述目标检测模型训练方法训练得到。

第三方面，本申请实施例还提供一种目标检测模型训练装置，其中，所述目标检测模型训练装置包括：

第一获取单元，用于获取待训练图像，所述待训练图像包括所述待训练图像的标注信息；

特征提取单元，用于利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图，所述骨干网络包括增强后的可转换空洞卷积，所述增强后的可转换空洞卷积用于提取所述待训练图像中的多尺度特征信息；

特征融合单元，用于利用所述目标检测模型的特征金子塔网络对所述待训练图像的多尺度特征图进行特征融合，得到融合后的多尺度特征图；

第一检测单元，用于利用所述目标检测模型的检测头网络对所述融合后的多尺度特征图进行检测，得到所述待训练图像的目标检测结果；

更新单元，用于根据所述待训练图像的目标检测结果和所述待训练图像的标注信息确定损失值，并利用所述损失值更新所述目标检测模型的参数，得到训练后的目标检测模型。

第四方面，本申请实施例还提供一种目标检测装置，其中，所述目标检测装置包括：

第二获取单元，用于获取待检测图像；

第二检测单元，用于利用目标检测模型对所述待检测图像进行检测，得到目标检测结果；

其中，所述目标检测模型基于前述目标检测模型训练装置训练得到。

第五方面，本申请实施例还提供一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行前述之任一所述目标检测模型训练方法或者目标检测方法。

第六方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行前述之任一所述目标检测模型训练方法或者目标检测方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：本申请实施例的目标检测模型训练方法，先获取待训练图像，待训练图像包括待训练图像的标注信息；然后利用目标检测模型的骨干网络对待训练图像进行特征提取，得到待训练图像的多尺度特征图，骨干网络包括增强后的可转换空洞卷积，增强后的可转换空洞卷积用于提取待训练图像中的多尺度特征信息；之后利用目标检测模型的特征金子塔网络对待训练图像的多尺度特征图进行特征融合，得到融合后的多尺度特征图；再利用目标检测模型的检测头网络对融合后的多尺度特征图进行检测，得到待训练图像的目标检测结果；最后根据待训练图像的目标检测结果和待训练图像的标注信息，确定损失值，并利用损失值更新目标检测模型的参数，得到训练后的目标检测模型。本申请实施例的目标检测模型训练方法通过对原有骨干网络中的可转换空洞卷积进行改进，得到增强后的可转换空洞卷积，从而可以自适应提取图像中的多尺度特征信息，进而提高了目标检测的准确性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种目标检测模型训练方法的流程示意图；

图2为现有技术中一种RestNet50/ResNet101的网络结构示意图；

图3为本申请实施例中一种目标检测模型训练方法的整体流程示意图；

图4为现有技术中一种SAC的网络结构示意图；

图5为本申请实施例中一种增强后的可转换空洞卷积的网络结构示意图；

图6为本申请实施例中一种目标检测方法的流程示意图；

图7为本申请实施例中一种目标检测模型训练装置的结构示意图；

图8为本申请实施例中一种目标检测装置的结构示意图；

图9为本申请实施例中一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

本申请实施例提供了一种目标检测模型训练方法，如图1所示，提供了本申请实施例中一种目标检测模型训练方法的流程示意图，所述目标检测模型训练方法至少包括如下的步骤S110至步骤S150：

步骤S110，获取待训练图像，所述待训练图像包括所述待训练图像的标注信息。

本申请实施例在训练目标检测模型时，需要先获取待训练图像作为训练样本，待训练图像中事先标注有目标的标签信息Ground Truth，作为后续计算目标检测模型训练的损失值的基础。本申请实施例的目标检测模型训练方法可以用于对单目3D目标进行检测，当然，本领域技术人员也可以灵活扩展至其他目标检测场景，如2D检测场景等，在此不作具体限定。

步骤S120，利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图，所述骨干网络包括增强后的可转换空洞卷积，所述增强后的可转换空洞卷积用于提取所述待训练图像中的多尺度特征信息。

在获取到待训练图像后，需要利用目标检测模型的骨干网络backbone对待训练图像进行特征提取，从而得到待训练图像的多尺度特征图，本申请实施例的骨干网络可以基于现有的RestNet50或者ResNet101网络改进得到，改进后的骨干网络中包含增强后的可转换空洞卷积，能够自适应提取图像中的多尺度特征信息，也即实现了在目标检测模型的浅层网络中对于多尺度特征的提取。

如图2所示，提供了现有技术中一种RestNet50/ResNet101的网络结构示意图，可以看出，原始的RestNet50/ResNet101的网络结构中均包含Conv3x3，即3x3卷积，在进行网络结构改造时，可以将其中所有的Conv3x3替换为本申请实施例的增强后的可转换空洞卷积。

步骤S130，利用所述目标检测模型的特征金子塔网络对所述待训练图像的多尺度特征图进行特征融合，得到融合后的多尺度特征图。

步骤S140，利用所述目标检测模型的检测头网络对所述融合后的多尺度特征图进行检测，得到所述待训练图像的目标检测结果。

步骤S150，根据所述待训练图像的目标检测结果和所述待训练图像的标注信息确定损失值，并利用所述损失值更新所述目标检测模型的参数，得到训练后的目标检测模型。

如图3所示，提供了本申请实施例中一种目标检测模型训练方法的整体流程示意图。首先，将待训练图像和图像元信息如相机内参和图像大小等输入到上述改进后的骨干网络backbone中，依次按照C3-C4-C5进行特征提取处理，得到多尺度特征图，其中C3-C4-C5中的每一层都可以包含本申请实施例的增强后的可转换空洞卷积，用于在浅层网络中自适应提取多尺度特征信息。

之后，将改进后的骨干网络输出的多尺度特征图输入到目标检测模型的特征金子塔网络(Feature Pyramid Networks，简称FPN)进行特征融合，输出P3-P4-P5-P6-P7共5个level尺度的融合后的特征图。

最后，利用目标检测模型的检测头Head分别在每个融合后的特征图上进行预测，输出具有目标类别、目标3D box编码、目标方向类别、目标属性以及目标中心度等向量。通过3D box解码后处理模块(Box Decoder)，解码目标3D box编码向量，从而获得目标的位置、目标尺度大小、目标深度以及目标角度等解码信息，最后结合Score评分和NMS算法确定最终的3D目标检测结果。

本申请实施例的目标检测模型训练方法通过对原有骨干网络中的可转换空洞卷积进行改进，得到增强后的可转换空洞卷积，从而可以自适应地提取出图像中的多尺度特征信息，进而提高了后续目标检测的准确性。

在本申请的一个实施例中，所述骨干网络还包括第一全局上下文模块和第二全局上下文模块，所述增强后的可转换空洞卷积包括依次级联的多个阶段的可转换空洞卷积，所述多个阶段的可转换空洞卷积至少包括第一阶段的可转换空洞卷积和第二阶段的可转换空洞卷积，所述利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图包括：获取所述待训练图像的第一特征图，所述第一特征图由所述第一全局上下文模块对应的上游模块输出；利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图；利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图；利用所述第二全局上下文模块对所述第三特征图进行处理，得到所述待训练图像的多尺度特征图。

本申请实施例的增强后的可转换空洞卷积(MSAC)可以看作是在原始的可转换空洞卷积(Switchable Atrous Convolution，简称SAC)的网络结构的基础上改造得到的。图4提供了现有技术中一种SAC的网络结构示意图。原始的SAC网络结构只设计了一个转换函数，只能转换两个不同空洞率的空洞卷积，因此感受野有限，能够提取到的多尺度特征信息也有限。SAC网络具体可以表示为：

其中，x为输入，w为权重，r为空洞卷积的空洞率rate，也是SAC的超参数，Δw表示待训练的权重，转换函数S(〃)与输入和位置相关。

基于此，本申请实施例的增强后的可转换空洞卷积可以包括依次级联的多个阶段的可转换空洞卷积SAC，多个阶段之间依次进行级联，进而能够在两个以上的不同空洞率的空洞卷积之间进行转换，进一步扩大了感受野，丰富了提取出的多尺度特征信息。

如图5所示，提供了本申请实施例中一种增强后的可转换空洞卷积的网络结构示意图。为了便于对本申请各实施例的理解，这里以两个阶段的可转换空洞卷积的级联为例进行说明。

具体地，本申请实施例的骨干网络在增强后的可转换空洞卷积的结构前后各插入了一个全局上下文模块，即第一全局上下文模块(Pre-Global Context)和第二全局上下文模块(Post-Global Context)，全局上下文模块与SENet(Squeeze-and-ExcitationNetworks)相似，但有两个主要区别：1)全局上下文模块只有一个卷积层，没有任何非线性层；2)输出被加回到主干中，而不是将输入乘以通过Sigmoid重标定操作后的值。

在第一全局上下文模块之前，连接的是骨干网络在3x3卷积之前所对应的原始的网络结构，可以将其输出看作是第一特征图，然后利用第一全局上下文模块对第一特征图进行处理，得到第二特征图，再利用增强后的可转换空洞卷积对第二特征图进行处理，得到第三特征图，最后利用第二全局上下文模块对第三特征图进行处理，得到最终的多尺度特征图。

在本申请的一个实施例中，所述利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图包括：对所述第一特征图进行全局平均池化处理，得到第一全局平均池化处理结果；对所述第一全局平均池化处理结果进行1x1卷积处理，得到第一1x1卷积处理结果；将所述第一特征图和所述第一1x1卷积处理结果进行融合处理，得到所述第二特征图。

在本申请的一个实施例中，所述利用所述第二全局上下文模块对所述第三特征图进行处理，得到所述待训练图像的多尺度特征图包括：对所述第三特征图进行全局平均池化处理，得到第二全局平均池化处理结果；对所述第二全局平均池化处理结果进行1x1卷积处理，得到第二1x1卷积处理结果；将所述第三特征图和所述第二1x1卷积处理结果进行融合处理，得到所述待训练图像的多尺度特征图。

本申请实施例的两个全局上下文模块具有相同的网络结构，即都包含一个全局平均池化(Global Average Pooling)和一个Conv1x1即1x1卷积。以第一全局上下文模块为例，先对第一特征图进行全局平均池化处理，从而压缩参数数量，降低权重，减少计算量。然后再对第一全局平均池化处理结果进行1x1卷积处理，最后将第一特征图和第一1x1卷积处理结果进行相加，得到第二特征图，提高了信息流通，避免了梯度消失和退化问题。

在本申请的一个实施例中，所述第一阶段的可转换空洞卷积包括第一转换函数、第一空洞率对应的可转换空洞卷积和第二空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果；利用所述第一空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第一空洞卷积处理结果；利用所述第二空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第二空洞卷积处理结果；根据所述第一转换函数的处理结果，对所述第一空洞卷积处理结果和所述第二空洞卷积处理结果进行融合处理，得到所述第一阶段的可转换空洞卷积输出的第四特征图。

本申请实施例的第一阶段的可转换空洞卷积(First Level SAC)与前述图4中所提供的SAC网络的结构和参数均相同，First Level SAC中包括第一转换函数S_first(〃)以及第一空洞率对应的可转换空洞卷积和第二空洞率对应的可转换空洞卷积三个主要部分。

利用第一转换函数S_first(〃)对第二特征图进行处理，可以得到第一转换函数的处理结果，该第一转换函数的处理结果包括S_first(x)和1-S_first(x)两部分，即第一转换函数能够根据学习情况自适应调整和选择第一空洞率的空洞卷积或者第二空洞率的空洞卷积进行卷积处理。作为一种示例，上述第一空洞率可以设置为atrous＝1，第二空洞率可以设置为atrous＝3，空洞卷积均采用Conv3x3即3x3卷积，需要说明的是，当atrous＝1时，第一空洞率对应的可转换空洞卷积本质上即为普通的3x3卷积。

在得到S_first(x)和1-S_first(x)后，可以将第一转换函数的处理结果作为融合掩膜，将其中的S_first(x)与第一空洞卷积处理结果进行特征相乘，将1-S_first(x)与第二空洞卷积处理结果进行特征相乘，最后再将两个相乘结果进行相加，从而得到第一阶段的可转换空洞卷积输出的第四特征图。

在本申请的一个实施例中，所述第一转换函数包括5x5平均池化和1x1卷积，所述利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果包括：对所述第二特征图进行5x5平均池化，得到第一平均池化结果；对所述第一平均池化结果进行1x1卷积，得到所述第一转换函数的处理结果。

本申请实施例的第一转换函数由5x5的平均池化层和1x1卷积层组成，其与输入和位置相关。先对第二特征图进行5x5平均池化处理，得到第一平均池化结果，一方面可以扩大感受野，另一方面可以减少过拟合现象。然后再对第一平均池化结果进行1x1卷积，得到第一转换函数的处理结果。

在本申请的一个实施例中，所述第二阶段的可转换空洞卷积包括第二转换函数和第三空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果；利用所述第三空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第三空洞卷积处理结果；获取所述第一阶段的可转换空洞卷积输出的第四特征图；根据所述第二转换函数的处理结果，对所述第四特征图和所述第三空洞卷积处理结果进行融合处理，得到所述第三特征图。

本申请实施例的第二阶段的可转换空洞卷积(Second Level SAC)包括第二转换函数S_nd(〃)和第三空洞率对应的可转换空洞卷积，除此之外，还包括第一阶段的可转换空洞卷积输出的结果即第四特征图。作为一种示例，上述第三空洞率可以设置为atrous＝6，空洞卷积同样采用Conv3x3，从而进一步扩大感受野。

具体地，利用第二转换函数S_nd(〃)对第二特征图进行处理，可以得到第二转换函数的处理结果，具体包括S_2nd(x)和1-S_2nd(x)，其能够根据学习情况自适应调整和选择第三空洞率的空洞卷积或者第一空洞率和第二空洞率的空洞卷积结果。然后可以将第二转换函数的处理结果作为融合掩膜，将其中的S_2nd(x)与第一阶段的可转换空洞卷积输出的第四特征图进行特征相乘，将1-S_2nd(x)与第三空洞卷积处理结果进行特征相乘，最后再将两个相乘结果进行相加，从而得到第二阶段的可转换空洞卷积输出的结果即第三特征图。

在本申请的一个实施例中，所述第二转换函数包括11x11平均池化和1x1卷积，所述利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果包括：对所述第二特征图进行11x11平均池化，得到第二平均池化结果；对所述第二平均池化结果进行1x1卷积，得到所述第二转换函数的处理结果。

本申请实施例的第一转换函数由11x11的平均池化层和1x1卷积层组成，其与输入和位置相关。先对第二特征图进行11x11平均池化处理，得到第二平均池化结果，一方面可以扩大感受野，另一方面可以减少过拟合现象。然后再对第二平均池化结果进行1x1卷积，得到第二转换函数的处理结果。

基于前述实施例，本申请实施例的MSAC是对原始的SAC结构的级联改进，MSAC依次设计了两个或者更多个转换开关，可以将SAC转换后的特征和第三空洞卷积处理结果或者更多个空洞卷积处理结果进行转换。两阶段的MSAC可以表示为：

其中，x为输入，w为权重，r_first为第一阶段的可转换空洞卷积的空洞率，可以设置为atrous＝3。Δw_first表示第一阶段待训练的权重，并且第一转换函数S_first(〃)由5x5的平均池化层和1x1卷积层组成。第一阶段的可转换空洞卷积的输出作为第二阶段的可转换空洞卷积的一个输入，替代该位置原本的普通卷积，r_2nd为第二阶段的可转换空洞卷积的空洞率，可以设置为atrous＝6。Δw_2nd表示第二阶段待训练的权重，并且第二转换函数S_nd(〃)由11x11的平均池化层和1x1卷积层组成。

需要说明的是，上述空洞率atrous＝1，3，6都是超参数，实际训练时，可以根据训练需求灵活替换为其它空洞率，如atrous＝1，2，4等。

原始的SAC中的锁定机制将一个权重设置为w，而另一个权重设置为w+Δw，其原因如下：目标检测模型通常使用预训练的checkpoint来初始化权重。但是，对于从标准卷积层转换而来的SAC层，较大的空洞率的权重通常是缺失的，由于可以通过相同的权重以不同的粗略度粗略地检测出不同尺度的物体，因此用预训练模型中的权重来初始化丢失的权重是可以的。本申请实施例中使用w+Δw表示从预训练checkpoint开始的缺失的权重。每个层级的可转换卷积的w都是初始w,Δw_first和Δw_2nd不同，可以分别初始化为0。

在本申请的一个实施例中，基于图2所示的ResNet50/ResNet101作为基础的骨干网络进行特征提取，其中所有的Conv3*3普通卷积都可以替换为本申请实施例的MSAC网络结构。当然，本领域技术人员可以根据实际需求灵活配置替换方式。例如，将所有的Conv3*3都替换为MSAC，或前3个level替换为SAC卷积，最后一个level的3个block替换为MSAC卷积等。

本申请实施例还提供了一种目标检测方法，如图6所示，提供了本申请实施例中一种目标检测方法的流程示意图，所述目标检测方法至少包括如下的步骤S610至步骤S620：

步骤S610，获取待检测图像；

步骤S620，利用目标检测模型对所述待检测图像进行检测，得到目标检测结果；

为了验证本申请训练后的目标检测模型的检测精度，本申请实施例利用测试数据对本申请训练后的目标检测模型和原始的单目3D目标检测方法的检测结果进行了比较。实验表明，本申请训练后的目标检测模型的mAP(mean Average Precision，平均精度均值)相比原始的单目3D目标检测方法提高了1.2～1.4个点，当然类似的方法还可以扩展到其他骨干网络和类似的目标检测和分割任务中。

本申请实施例还提供了一种目标检测模型训练装置700，如图7所示，提供了本申请实施例中一种目标检测模型训练装置的结构示意图，所述目标检测模型训练装置700包括：第一获取单元710、特征提取单元720、特征融合单元730、第一检测单元740以及更新单元750，其中：

第一获取单元710，用于获取待训练图像，所述待训练图像包括所述待训练图像的标注信息；

特征提取单元720，用于利用所述目标检测模型的骨干网络对所述待训练图像进行特征提取，得到所述待训练图像的多尺度特征图，所述骨干网络包括增强后的可转换空洞卷积，所述增强后的可转换空洞卷积用于提取所述待训练图像中的多尺度特征信息；

特征融合单元730，用于利用所述目标检测模型的特征金子塔网络对所述待训练图像的多尺度特征图进行特征融合，得到融合后的多尺度特征图；

第一检测单元740，用于利用所述目标检测模型的检测头网络对所述融合后的多尺度特征图进行检测，得到所述待训练图像的目标检测结果；

更新单元750，用于根据所述待训练图像的目标检测结果和所述待训练图像的标注信息确定损失值，并利用所述损失值更新所述目标检测模型的参数，得到训练后的目标检测模型。

在本申请的一个实施例中，所述骨干网络还包括第一全局上下文模块和第二全局上下文模块，所述增强后的可转换空洞卷积包括依次级联的多个阶段的可转换空洞卷积，所述多个阶段的可转换空洞卷积至少包括第一阶段的可转换空洞卷积和第二阶段的可转换空洞卷积，所述特征提取单元720具体用于：获取所述待训练图像的第一特征图，所述第一特征图由所述第一全局上下文模块对应的上游模块输出；利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图；利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图；利用所述第二全局上下文模块对所述第三特征图进行处理，得到所述待训练图像的多尺度特征图。

在本申请的一个实施例中，所述特征提取单元720具体用于：对所述第一特征图进行全局平均池化处理，得到第一全局平均池化处理结果；对所述第一全局平均池化处理结果进行1x1卷积处理，得到第一1x1卷积处理结果；将所述第一特征图和所述第一1x1卷积处理结果进行融合处理，得到所述第二特征图。

在本申请的一个实施例中，所述第一阶段的可转换空洞卷积包括第一转换函数、第一空洞率对应的可转换空洞卷积和第二空洞率对应的可转换空洞卷积，所述特征提取单元720具体用于：利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果；利用所述第一空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第一空洞卷积处理结果；利用所述第二空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第二空洞卷积处理结果；根据所述第一转换函数的处理结果，对所述第一空洞卷积处理结果和所述第二空洞卷积处理结果进行融合处理，得到所述第一阶段的可转换空洞卷积输出的第四特征图。

在本申请的一个实施例中，所述第一转换函数包括5x5平均池化和1x1卷积，所述特征提取单元720具体用于：对所述第二特征图进行5x5平均池化，得到第一平均池化结果；对所述第一平均池化结果进行1x1卷积，得到所述第一转换函数的处理结果。

在本申请的一个实施例中，所述第二阶段的可转换空洞卷积包括第二转换函数和第三空洞率对应的可转换空洞卷积，所述特征提取单元720具体用于：利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果；利用所述第三空洞率对应的可转换空洞卷积对所述第二特征图进行3x3空洞卷积处理，得到第三空洞卷积处理结果；获取所述第一阶段的可转换空洞卷积输出的第四特征图；根据所述第二转换函数的处理结果，对所述第四特征图和所述第三空洞卷积处理结果进行融合处理，得到所述第三特征图。

在本申请的一个实施例中，所述第二转换函数包括11x11平均池化和1x1卷积，所述特征提取单元720具体用于：对所述第二特征图进行11x11平均池化，得到第二平均池化结果；对所述第二平均池化结果进行1x1卷积，得到所述第二转换函数的处理结果。

在本申请的一个实施例中，所述特征提取单元720具体用于：对所述第三特征图进行全局平均池化处理，得到第二全局平均池化处理结果；对所述第二全局平均池化处理结果进行1x1卷积处理，得到第二1x1卷积处理结果；将所述第三特征图和所述第二1x1卷积处理结果进行融合处理，得到所述待训练图像的多尺度特征图。

能够理解，上述目标检测模型训练装置，能够实现前述实施例中提供的目标检测模型训练方法的各个步骤，关于目标检测模型训练方法的相关阐释均适用于目标检测模型训练装置，此处不再赘述。

本申请实施例还提供了一种目标检测装置800，如图8所示，提供了本申请实施例中一种目标检测装置的结构示意图，所述目标检测装置800包括：第二获取单元810和第二检测单元820，其中：

第二获取单元810，用于获取待检测图像；

第二检测单元820，用于利用目标检测模型对所述待检测图像进行检测，得到目标检测结果；

能够理解，上述目标检测装置，能够实现前述实施例中提供的目标检测方法的各个步骤，关于目标检测方法的相关阐释均适用于目标检测装置，此处不再赘述。

图9是本申请的一个实施例电子设备的结构示意图。请参考图9，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成目标检测模型训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

上述如本申请图1所示实施例揭示的目标检测模型训练装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1中目标检测模型训练装置执行的方法，并实现目标检测模型训练装置在图1所示实施例的功能，本申请实施例在此不再赘述。

本申请实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的电子设备执行时，能够使该电子设备执行图1所示实施例中目标检测模型训练装置执行的方法，并具体用于执行：

需要说明的是，本申请实施例的电子设备还可以用于执行图6所示实施例揭示的目标检测装置执行的方法，具体不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种目标检测模型训练方法，其中，所述目标检测模型训练方法包括：

2.如权利要求1所述的目标检测模型训练方法，其中，所述骨干网络还包括第一全局上下文模块和第二全局上下文模块，所述增强后的可转换空洞卷积包括依次级联的多个阶段的可转换空洞卷积，所述多个阶段的可转换空洞卷积至少包括第一阶段的可转换空洞卷积和第二阶段的可转换空洞卷积，

3.如权利要求2所述的目标检测模型训练方法，其中，所述利用所述第一全局上下文模块对所述第一特征图进行处理，得到所述第二特征图包括：

4.如权利要求2所述的目标检测模型训练方法，其中，所述第一阶段的可转换空洞卷积包括第一转换函数、第一空洞率对应的可转换空洞卷积和第二空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：

5.如权利要求4所述的目标检测模型训练方法，其中，所述第一转换函数包括5x5平均池化和1x1卷积，所述利用所述第一转换函数对所述第二特征图进行处理，得到所述第一转换函数的处理结果包括：

6.如权利要求2所述的目标检测模型训练方法，其中，所述第二阶段的可转换空洞卷积包括第二转换函数和第三空洞率对应的可转换空洞卷积，所述利用依次级联的多个阶段的可转换空洞卷积对所述第二特征图进行处理，得到第三特征图包括：

获取所述第一阶段的可转换空洞卷积输出的第四特征图；

7.如权利要求6所述的目标检测模型训练方法，其中，所述第二转换函数包括11x11平均池化和1x1卷积，所述利用所述第二转换函数对所述第二特征图进行处理，得到所述第二转换函数的处理结果包括：

8.一种目标检测方法，其中，所述目标检测方法包括：

获取待检测图像；

其中，所述目标检测模型基于权利要求1～7之任一所述目标检测模型训练方法训练得到。

9.一种目标检测模型训练装置，其中，所述目标检测模型训练装置包括：

10.一种目标检测装置，其中，所述目标检测装置包括：

第二获取单元，用于获取待检测图像；

其中，所述目标检测模型基于权利要求9所述目标检测模型训练装置训练得到。