CN111274981B

CN111274981B - 目标检测网络构建方法及装置、目标检测方法

Info

Publication number: CN111274981B
Application number: CN202010079113.0A
Authority: CN
Inventors: 李荣春; 刘运韬; 窦勇; 姜晶菲; 牛新; 苏华友; 乔鹏; 潘衡岳; 周鑫; 张俊杰
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-02-03
Filing date: 2020-02-03
Publication date: 2021-10-08
Anticipated expiration: 2040-02-03
Also published as: CN111274981A

Abstract

本申请提供一种目标检测网络构建方法及装置、一种目标检测方法及装置、一种电子设备以及一种计算机可读介质。目标检测网络构建方法包括：获取用于目标检测的初始网络模型，所述初始网络模型包括相连的骨干网络和多任务学习模块；在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络。本方案中，增加了一种基于锚框的裁剪机制，同时又增加了一个新的分类分支网络，组合原锚框的分类信息以及新尺度锚框在新分类分支网络得到的分类信息，从而得到更优质的分类结果，可以很好地应用在基于深度学习的目标检测器上，较好地解决在深度目标检测器中多尺度处理问题以及多标签分类的瓶颈问题，从而提升目标检测算法的精确度。

Description

目标检测网络构建方法及装置、目标检测方法

技术领域

本申请涉及计算机视觉领域，具体涉及一种目标检测网络构建方法及装置、一种目标检测方法及装置、一种电子设备以及一种计算机可读介质。

背景技术

目标检测是计算机视觉任务中的一个重要的子领域，它的任务是从图像中定位出所有的物体，并对这些物体进行准确的分类识别。近些年，随着深度学习的飞速发展，基于深度学习的目标检测方法已经具有很强的性能，成为了目标检测领域最先进的方法。

现有的基于深度学习的目标检测方法是一种多任务学习算法，首先会产生锚框(anchor)，然后算法一般会有两个任务需要学习，其一是对锚框的位置进行精确回归，其二是对锚框所标注的目标进行准确的分类识别。根据网络结构的不同，这些目标检测算法可以进一步分为两种，一种是以Faster-RCNN为代表的双阶段网络(two-stage network)；另一种是以YOLO、SSD为代表的单阶段网络(one-stage network)。双阶段网络首先利用区域提取网络(Region Proposal Network，RPN)，得到锚框，然后利用分类网络对锚框进行分类，检测性能优异；单阶段网络则利用单个网络同时实现锚框生成和类别判定，可以实现快速检测。

然而，在基于深度神经网络的目标检测算法训练和测试过程中，存在两种问题。第一个问题是算法的性能会受到尺度问题的制约，因为锚框均是在神经网络卷积过程中间产生的特征图上生成的，而与原图相比，特征图的尺寸已经缩小了几倍，因此感受野会很大，所以生成的锚框不可避免的与原图目标位置产生偏差；第二个问题是目标之间的关系会成为分类性能的一个瓶颈，因为图片中会出现很多目标，目标之间的关系是很重要的信息，但是在目前的目标检测算法中忽略了这一信息，只利用单一分类标签对每个锚框进行分类，这会对检测算法的性能提升产生制约。

发明内容

本申请的目的是提供一种目标检测网络构建方法及装置、一种目标检测方法及装置、一种电子设备以及一种计算机可读介质。

本申请第一方面提供一种目标检测网络构建方法，包括：

获取用于目标检测的初始网络模型，所述初始网络模型包括相连的骨干网络和多任务学习模块；其中，所述骨干网络用于在待检测图像上生成多个锚框，并且为每个锚框提取特征；所述多任务学习模块中包括原分类分支网络，用于根据锚框的特征得到锚框的第一分类信息；

在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像的不同尺度上进行裁剪，得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息。

本申请第二方面提供一种目标检测网络构建装置，包括：

获取单元，用于获取用于目标检测的初始网络模型，所述初始网络模型包括相连的骨干网络和多任务学习模块；其中，所述骨干网络用于在待检测图像上生成多个锚框，并且为每个锚框提取特征；所述多任务学习模块中包括原分类分支网络，用于根据锚框的特征得到锚框的第一分类信息；

构建单元，在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像的不同尺度上进行裁剪，得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息。

本申请第三方面提供一种目标检测方法，包括：

将待检测图像输入目标检测网络，得到原分类分支网络输出的第一检测结果，以及新分类分支网络输出的第二检测结果；其中，所述目标检测网络包括相连的骨干网络和多任务学习模块；所述多任务学习模块中包括原分类分支网络、裁剪模块和新分类分支网络；

输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果。

本申请第四方面提供一种目标检测装置，包括：

输入检测单元，用于将待检测图像输入目标检测网络，得到原分类分支网络输出的第一检测结果，以及新分类分支网络输出的第二检测结果；其中，所述目标检测网络包括相连的骨干网络和多任务学习模块；所述多任务学习模块中包括原分类分支网络、裁剪模块和新分类分支网络；

输出单元，用于输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果。

本申请第五方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现本申请第三方面所述的方法。

本申请第六方面提供一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现本申请第三方面所述的方法。

相较于现有技术，本申请提供的目标检测网络构建方法及装置、目标检测方法及装置、电子设备及介质，增加了一种基于锚框的裁剪机制，同时又增加了一个新的分类分支网络，组合原锚框的分类信息以及新尺度锚框在新分类分支网络得到的分类信息，从而得到更优质的分类结果，可以很好地应用在基于深度学习的目标检测器上，较好地解决在深度目标检测器中多尺度处理问题以及多标签分类的瓶颈问题，从而提升目标检测算法的精确度。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的一些实施方式所提供的一种目标检测网络构建方法的流程图；

图1A示出了本申请的一些实施方式所提供的一种目标检测网络运行的示意图；

图1B示出了本申请的一些实施方式所提供的一种新分类分支网络运行的示意图；

图2示出了本申请的一些实施方式所提供的一种目标检测网络构建装置的示意图；

图3示出了本申请的一些实施方式所提供的一种目标检测方法的流程图；

图4示出了本申请的一些实施方式所提供的一种目标检测装置的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，现有的解决多尺度问题的方法主要是通过多特征图融合实现的。利用神经网络中间每个层产生的特征图，对这些尺寸不同的特征图进行融合，就会综合不同感受野的信息，从而在一定程度上解决多尺度问题。现有解决如何利用目标间关系的方法主要是各种对目标关系的建模方法，利用特别设计的规则，将目标之间的关系转化为可以学习的特征，并加入到目标检测网络的训练过程中，这样可以将学习到的目标之间的关系融合进检测方法中。实际上多个尺度中所体现的目标间的关系更具有准确性和鲁棒性，但是目前并没有将两者结合起来的目标检测方法。

本申请提供的技术方案，相比于传统的在目标检测器中分别解决多尺度和多标签分类问题的方法，更偏向于将这两种问题融合，使用多尺度和多标签分类相结合的方法来解决问题。

本申请实施例的主要原理为：将多尺度提取的特征与多标签分类过程结合起来，最后为每个锚框产生新的更准确的分类分数，从而提升检测算法的性能。多尺度特征的提取是由一个剪裁模块完成的，目标检测网络首先会在原图像上得到很多锚框，然后根据每一个锚框，利用裁剪模块在原图的多个尺度上进行裁剪，会得到新的锚框；多标签分支思想中，新分类分支网络的输入是锚框的特征，然后利用一个图卷积神经网络针对每一张图训练一个类别条件分数向量，并给出锚框的新分数。最后结合所有锚框的分数向量，可以得到最终的更准确的分类结果。

本申请实施例提供一种目标检测网络构建方法及装置、一种目标检测方法及装置、一种电子设备以及一种计算机可读介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种目标检测网络构建方法的流程图，如图所示，所述目标检测网络构建方法，可以包括以下步骤：

步骤S101：获取用于目标检测的初始网络模型，所述初始网络模型包括相连的骨干网络和多任务学习模块；

其中，所述骨干网络用于在待检测图像上生成多个锚框，并且为每个锚框提取特征；所述多任务学习模块中包括原分类分支网络，用于根据锚框的特征得到锚框的第一分类信息。

本实施例中，步骤S101中选取的初始网络模型可以是基于ResNet、VGG等网络结构的目标检测网络，例如YOLO、Faster-RCNN等，本申请不做严格限定，本领域技术人员可以根据实际需求灵活设置。

步骤S102：在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；

其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像的不同尺度上进行裁剪，得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息。本实施例中，最终得到的第三分类信息即可用于训练或者测试。

具体的，请参考图1A，其示出了本申请的一些实施方式所提供的一种目标检测网络运行的示意图，如图所示，原始图片经过卷积层后得到锚框和相应的特征图；将锚框和相应的特征图进行框池化后，分别输入框回归器和框分类器1中得到锚框的回归信息和第一分类信息。然后，对于生成的每一个锚框，在原始图片的不同尺度上进行裁剪，得到尺度不同(缩小、原始、放大)的多个锚框原像，并通过卷积层再次提取每个锚框原像的特征，框分类器2基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息，然后框分类器3根据第三分类信息进行锚框分类。

在本申请的一些实施方式中，所述第一分类信息和所述第二分类信息的类型均是分数向量；所述组合的方式可以为向量求和，也就是说，将所述第一分类信息和所述第二分类信息进行组合，可以具体为：将所述第一分类信息和所述第二分类信息进行向量求和。

在本申请的一些实施方式中，所述尺度可以包括原图尺度，以及长宽均比原图大1.5倍和小1.5倍的尺度。

也就是说，本实施例中，在传统目标检测网络中的多任务学习模块中添加一个裁剪模块，基于该裁剪模块，利用得到的锚框在由原图生成的多个尺度图上进行裁剪，得到不同尺度的锚框。在传统目标检测网络中的多任务学习模块中，除原有的分类分支网络外，又添加一个新的分类分支网络，该新分类分支网络是借鉴了多标签分类思想的分类分支，会对每一个输入的图像样本首先计算一个类别条件分数，然后计算一个新分支类别分数，最后将两种分数组合，得到最终的分类分数，也就是第二分类信息。

本实施例中，直接使用目标检测网络的骨干网络，骨干网络会在一张图像上生成多个锚框，然后为每个锚框提取特征，将这些特征送入多任务学习模块得到第一分类信息和锚框回归信息，本实施例在多任务学习模块中添加裁剪模块和新分类分支网络。裁剪模块根据骨干网络生成的锚框，在原图的不同尺度上进行裁剪，得到多尺度的锚框，然后送入新分类分支网络，得到基于多标签分类的更加精确的第二分类信息，最终与原锚框的第一分类信息结合，作为最后的分类结果，从而提升目标检测的性能。

具体的，裁剪模块的实施方式如下：

1)对于一张输入的图像，目标检测网络的骨干网络会生成很多锚框，首先要提取每一个锚框的坐标信息，即其左上角坐标(x1,y1)和右下角坐标(x2,y2)。接下来，利用得到的坐标信息，在原图的对应位置上进行裁剪，这里要根据网络的感受野对坐标进行还原，也就是通过给坐标乘感受野的倍数，例如VGG-16骨干网模型中，该倍数为16，裁剪后可以得到锚框在原图上的表示范围，称之为锚框原像。利用裁剪方式生成锚框原像的目的在于，锚框原像会将分类对象从整个图像聚焦到其中每个目标可能的存在范围，这样会使分类不受到其他物体以及背景的影响，完成一个更加精确的分类过程。

2)对锚框原像做多尺度变换，即将锚框原像通过缩放得到不同尺寸的多个图像，本实施例中设置了三种尺度，原图尺度，长宽均比原图大1.5倍和小1.5倍的尺度，其中放大操作可以利用双线性差值方法。至此会得到3种不同尺度的锚框原像。本申请利用这种方式为原来只利用单一尺度图像输入的传统目标检测网络引入了多尺度的输入图像，会使物体在各个尺度都有特征表达，从而全面准确的反映出物体的相关特征信息。

具体的，新分类分支网络的实施具体分为两个重要的子步骤，类别条件分数生成和组合分数生成(这里指第二分类信息生成)，实施方式如下：

1)类别条件分数生成

所谓的类别条件分数的预测实际上是一个多标签分类问题，本申请设计了一种基于图卷积神经网络的多标签分类方法。首先简要说明一下图卷积网络的基础知识。图卷积网络中的一层可以由下述公式表达：

H_l+1＝ReLU((αD^-1A+I)H_lW)+b

其中，A是图的邻接矩阵，D^-1是可以根据邻居节点的个数对图的邻接矩阵进行归一化，I是单位矩阵可以使每个节点为自己保留信息，而每一层的输入和输出的特征是H_l和H_l+1，每一层的权重则是W。该公式的物理意义是通过邻接矩阵体现的图节点之间的连接关系，针对每一个节点，将和它连接的邻居的信息都聚合到该节点上，通过这种聚合对每个节点上的特征进行调整。

该子步骤首先要针对目标检测数据集生成一个类别关系知识图谱，采用下述生成方式：根据目标检测数据集的标注，很容易获得每幅图像中的所有物体的类别，然后根据不同的类别出现在图像中频率的大小来得到类别之间关系的紧密程度。这里使用一个知识图谱来表示类别关系的紧密程度，知识图谱是一个图G＝(V,E,w)，其中节点集合V中每一个元素都代表一个类别，G是个完全图，所以边的集合E包含了V的完全连接，而边上的权值w代表了边连接的两个节点之间的紧密程度。该紧密程度可用下述公式计算：

w_ij＝|img_v_i&img_v_j|/|img_v_i|+|img_v_j|

v_i和v_j代表i和j两种类别，img_v表示包含v类别的图像，img_v_i&img_v_j表示同时包含v_i和v_j类别的图像，而|*|表示*的个数，因此两个类别的关系紧密程度是同时出现这两个类别的图像个数与分别出现了这两个类别的图像个数的比值。在所有节点对计算其边的权值w，就可以得到类别关系知识图谱。

然后，定义图卷积神经网络，图卷积神经网络有两层，输入输出的通道数为1，中间隐层的通道数为4。利用训练好的目标检测网络对每张图生成检测结果和类别关系知识图谱作为图卷积神经网络的输入，图卷积神经网络会输出分数重调整向量。检测结果是一个Bx C的矩阵Y，B是图像中框的个数，C是类别个数，该结果是指该图检测出B个目标，每个目标的分数向量是1xC。将检测结果利用下述公式调整为H∈R^1xC的形式：

H_c＝max_b(Y_bc)

利用图卷积神经网络GCN可以得到分数重调整向量H’∈R^1xC，即H’＝GCN(H)。通过原检测结果Y和分数重调整向量H’的行点乘，可以得到调整后的检测结果Y’，即Y’＝Y⊙H’。训练的时候，利用下述公式作为类别交叉熵的损失函数来监督训练过程：

L＝-1/B∑_b∑_cy_bclog(Y’_bc)

其中，y_bc是ground-truth(代表标注数据)标签，是由检测框b和交并比最大的ground-truth框的类别c决定的。

综上所述，该子步骤首先在目标检测数据集上得到类别关系知识图谱，将其看做邻接矩阵，然后与目标检测网络的检测结果一同输入到图卷积神经网络中，得到分数重调整向量，最后将该向量与原检测结果进行点乘，得到最终的类别条件分数。而图卷积神经网络的训练是由交叉熵损失函数进行监督的。

为了便于理解上述过程，请参考图1B，其示出了本申请的一些实施方式所提供的一种新分类分支网络运行的示意图，如图所示，锚框原像经过新分类分支网络中的卷积层，得到特征矩阵，由特征矩阵得到分数矩阵1，将分数矩阵1和知识图谱输入图卷积层中，得到分数矩阵2，通过特征矩阵和分数矩阵2的行点乘，可以得到调整后的分数矩阵3。

2)组合分数生成

组合分数是由新分类分支对锚框原像生成的分数向量和上一子步骤中生成的类别条件分数向量组合而产生的。

该子步骤一个重要的环节是新分类分支网络的训练和预测。新分类分支网络的分类任务实际上是一个图像分类问题，输入为锚框原像，输出是分支预测的分类分数向量。所以新分类分支网络可以采用目前主流的图像分类神经网络的主干网络，训练时，输入为锚框原像，其对应的标签为原像在原图上交并比最大的ground-truth框的类别，这样可以将网络训练好，然后训练好的网络对于新的锚框原像样本可以预测相应的分数向量。

现在假设上一个子步骤得到的分数重调整向量为Y_p，新分类分支网络生成的分类向量为Y_u，组合后的分数向量为Y_f，而Y_f可以用下述公式得到：

Y_f＝Y_u⊙Y_p

最后，将锚框经过原分类分支网络产生的分数向量和多尺度锚框原像经过新分类分支网络产生的分数向量进行组合，得到最后可供训练或测试使用的分数向量。

需要注意的是，锚框原像的不同尺度的个数和新分类分支网络的类别知识图谱可以依据不同的数据集而采用不同的设置，在测试阶段时通过少量的前向推理后即可确定。

本申请中采用的组合方式为向量求和，假设锚框经过原分类分支网络产生的分数向量为Y_orig，新分类分支网络生成的分类向量为Y_scale，组合后的分数向量为Y_out，而Y_out可以用下述公式得到：

本申请提供的上述方案能够适应密集、小物体等较难的目标检测场景。在实验中，其能够较偏置加权的相关目标检测方法提升大约7％左右的平均精度。

相较于现有技术，通过上述方法构建的目标检测网络中，增加了一种基于锚框的裁剪机制，同时又增加了一个新的分类分支网络，组合原锚框的分类信息以及新尺度锚框在新分类分支网络得到的分类信息，从而得到更优质的分类结果，可以很好地应用在基于深度学习的目标检测器上，较好地解决在深度目标检测器中多尺度处理问题以及多标签分类的瓶颈问题，从而提升目标检测算法的精确度。

在上述的实施例中，提供了一种目标检测网络构建方法，与之相对应的，本申请还提供一种目标检测网络构建装置。本申请实施例提供的目标检测网络构建装置可以实施上述目标检测网络构建方法，该目标检测网络构建装置可以通过软件、硬件或软硬结合的方式来实现。例如，该目标检测网络构建装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图2，其示出了本申请的一些实施方式所提供的一种目标检测网络构建装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图2所示，所述目标检测网络构建装置10可以包括：

获取单元101，用于获取用于目标检测的初始网络模型，所述初始网络模型包括相连的骨干网络和多任务学习模块；其中，所述骨干网络用于在待检测图像上生成多个锚框，并且为每个锚框提取特征；所述多任务学习模块中包括原分类分支网络，用于根据锚框的特征得到锚框的第一分类信息；

构建单元102，在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像的不同尺度上进行裁剪，得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息。

在本申请实施例的一些实施方式中，所述新分类分支网络采用基于图卷积神经网络的多标签分类方法。

在本申请实施例的一些实施方式中，所述第一分类信息和所述第二分类信息的类型均是分数向量；所述新分类分支网络，具体用于：将所述第一分类信息和所述第二分类信息进行向量求和。

在本申请实施例的一些实施方式中，所述尺度包括原图尺度，以及长宽均比原图大1.5倍和小1.5倍的尺度。

本申请实施例提供的目标检测装置10，与本申请前述实施例提供的目标检测网络构建方法出于相同的发明构思，具有相同的有益效果。

本申请实施例还提供一种与前述实施例所提供的目标检测网络构建方法对应的目标检测方法，请参考图3，其示出了本申请的一些实施方式所提供的一种目标检测方法的流程图。如图3所示，所述目标检测方法包括以下步骤：

步骤S201：将待检测图像输入目标检测网络，得到原分类分支网络输出的第一检测结果，以及新分类分支网络输出的第二检测结果；其中，所述目标检测网络包括相连的骨干网络和多任务学习模块；所述多任务学习模块中包括原分类分支网络、裁剪模块和新分类分支网络；

步骤S202：输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果。

本申请实施例提供的目标检测方法，与本申请前述实施例提供的目标检测网络构建方法出于相同的发明构思，具有相同的有益效果。

本申请实施例还提供一种与前述实施例所提供的目标检测方法对应的目标检测装置，请参考图4，其示出了本申请的一些实施方式所提供的一种目标检测装置的示意图。如图4所示，所述目标检测装置20包括：

输入检测单元201，用于将待检测图像输入目标检测网络，得到原分类分支网络输出的第一检测结果，以及新分类分支网络输出的第二检测结果；其中，所述目标检测网络包括相连的骨干网络和多任务学习模块；所述多任务学习模块中包括原分类分支网络、裁剪模块和新分类分支网络；

输出单元202，用于输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果。

本申请实施例提供的目标检测装置，与本申请前述实施例提供的目标检测方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的目标检测方法对应的电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行本申请前述任一实施方式所提供的目标检测方法。

其中，存储器可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

本申请实施方式还提供一种与前述实施方式所提供的目标检测方法对应的计算机可读介质，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的目标检测方法。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的目标检测方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

1.一种目标检测网络构建方法，其特征在于，包括：

在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像上进行裁剪得到对应的锚框原像，并将所述锚框原像通过缩放得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息；

所述第一分类信息和所述第二分类信息的类型均是分数向量；所述将所述第一分类信息和所述第二分类信息进行组合，具体为：将所述第一分类信息和所述第二分类信息进行向量求和。

2.根据权利要求1所述的方法，其特征在于，所述新分类分支网络采用基于图卷积神经网络的多标签分类方法。

3.根据权利要求1所述的方法，其特征在于，所述尺度包括原图尺度，以及长宽均比原图大1.5倍和小1.5倍的尺度。

4.一种目标检测网络构建装置，其特征在于，包括：

构建单元，在所述多任务学习模块中添加裁剪模块和新分类分支网络，以得到目标检测网络；其中，所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像上进行裁剪得到对应的锚框原像，并将所述锚框原像通过缩放得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，并将所述第一分类信息和所述第二分类信息进行组合，得到第三分类信息；

所述第一分类信息和所述第二分类信息的类型均是分数向量；所述新分类分支网络将所述第一分类信息和所述第二分类信息进行组合，具体为：将所述第一分类信息和所述第二分类信息进行向量求和。

5.根据权利要求4所述的装置，其特征在于，所述新分类分支网络采用基于图卷积神经网络的多标签分类方法。

6.一种目标检测方法，其特征在于，包括：

输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果；

其中，所述骨干网络，用于在待检测图像上生成多个锚框，并且为每个锚框提取特征；

所述原分类分支网络，用于根据锚框的特征得到锚框的第一分类信息，所述第一检测结果包括每一个锚框的第一分类信息；

所述裁剪模块，用于针对所述骨干网络生成的每一个锚框，在待检测图像上进行裁剪得到对应的锚框原像，并将所述锚框原像通过缩放得到尺度不同的多个锚框原像，并提取每个锚框原像的特征；

所述新分类分支网络，用于基于每一个锚框的尺度不同的多个锚框原像的特征，生成每一个锚框的第二分类信息，所述第二检测结果包括每一个锚框的第二分类信息；

所述输出将所述第一检测结果和所述第二检测结果组合后的第三检测结果，具体为：将所述第一检测结果和所述第二检测结果中同一个锚框的第一分类信息和第二分类信息进行组合，得到第三分类信息，所述第三检测结果包括每一个锚框的第三分类信息；输出所述第三检测结果；

7.根据权利要求6所述的方法，其特征在于，所述新分类分支网络采用基于图卷积神经网络的多标签分类方法。

8.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求6至7任一项所述的方法。

9.一种计算机可读介质，其特征在于，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求6至7任一项所述的方法。