CN113378704B

CN113378704B - 一种多目标检测方法、设备及存储介质

Info

Publication number: CN113378704B
Application number: CN202110644056.0A
Authority: CN
Inventors: 石英; 刘悦; 谢长君; 林朝俊; 李肖力
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-11-11
Anticipated expiration: 2041-06-09
Also published as: CN113378704A

Abstract

本发明公开一种多目标检测方法、设备及存储介质，方法包括：对待检测图像进行初步特征提取；将初步特征提取后的图像输入阶段递归残差网络中，对待检测图像进行深度特征提取，阶段递归残差网络分为若干个阶段，每个阶段均包括降采样模块和残差模块，降采样模块的输出端连接残差模块的输入端，残差模块的输出端通过递归结构连接至残差模块的输入端；将深度特征提取后获取的特征图输入至基于FCOS的目标检测模型中，得到初步的多目标预测框，并进行非极大值抑制后，获取最终的多目标检测结果。本发明解决了现有技术中无人驾驶时在进行车辆行人等多目标检测时，由于冗余信息没有被利用而导致车辆行人等多目标检测的精度和实时性不高的技术问题。

Description

一种多目标检测方法、设备及存储介质

技术领域

本发明涉及无人驾驶技术领域，具体涉及一种多目标检测方法、设备及存储介质。

背景技术

在无人驾驶技术领域中，卷积神经网络CNN占据了主导地位，CNN广泛地应用于无人驾驶中目标分类、目标识别和实例分割任务中，主要负责特征提取任务，特别是在无人驾驶中的车辆行人多目标检测场景，一般都是采用卷积经网络进行检测。

大量的研究发现，典型的卷积神经网络，如ResNet和DenseNet，使用3×3过滤器提取特征，并使用1×1过滤器更改通道数。CNN在特征提取中有大量“冗余信息”。

目前，常见的方式一般都是直接将冗余信息直接删除，导致冗余信息被浪费掉，所谓的“冗余”并不是无意义的信息或者重复的信息，只是因为网络没能将其转换为有意义的特征，因此，目前的删除方法没有对冗余信息进行充分的利用，进而导致在进行车辆行人等多目标检测时，检测的精度和实时性都不高。

发明内容

本发明的目的在于克服上述技术不足，提供一种多目标检测方法、设备及存储介质，解决现有技术中无人驾驶时在进行车辆行人多目标检测时，由于冗余信息没有被利用而导致车辆行人等多目标检测的精度和实时性不高的技术问题。

为达到上述技术目的，本发明采取了以下技术方案：

第一方面，本发明提供一种多目标检测方法，包括如下步骤：

获取待检测图像，对待检测图像进行初步特征提取；

将经过初步特征提取后的待检测图像输入阶段递归残差网络中，对所述待检测图像进行深度特征提取，其中，所述阶段递归残差网络分为若干个阶段，前一个阶段的输出作为后一个阶段的输入，每个阶段均包括降采样模块和残差模块，所述降采样模块的输出端连接所述残差模块的输入端，所述残差模块的输出端通过递归结构连接至残差模块的输入端；

将深度特征提取后获取的特征图输入至预设的基于FCOS的目标检测模型中，得到初步的多目标预测框，并对所述初步的多目标预测框进行非极大值抑制后，获取最终的多目标检测结果。

优选的，所述的多目标检测方法中，所述获取待检测图像，对待检测图像进行初步特征提取的步骤具体包括：

获取待检测图像，并调整所述待检测图像的尺寸；

对尺寸调整后的图像进行卷积运算和池化处理，以实现对待检测图像的初步特征提取。

优选的，所述的多目标检测方法中，所述降采样模块用于对输入的图像进行降采样处理，所述降采样处理的步骤具体为：

将输入的图像分别输入至步长为1的第一卷积核和步长为2的第二卷积核中处理；

将第一卷积核处理后输出的结果输入至步长为2的第三卷积核中处理；

将第三卷积核处理后输出的结果输出至第四卷积核中处理；

将第二卷积核的处理结果和第四卷积核的处理结果叠加后输出。

优选的，所述的多目标检测方法中，所述残差模块由若干个串联的瓶颈结构组成，其中，每个瓶颈结构的输入通道数和输出通道数相同，最后一个所述瓶颈结构的输出端通过所述递归结构连接第一个瓶颈结构的输入端。

优选的，所述的多目标检测方法中，所述瓶颈结构具体用于：

将输入的图像输入至步长为1的第五卷积核中处理；

将第五卷积核处理后输出的结果输出至步长为1的第六卷积核中处理；

将第六卷积核处理后输出的结果输出至步长为1的第七卷积核中处理；

将第七卷积核的处理结果和输入的图像叠加后输出。

优选的，所述的多目标检测方法中，所述递归结构用于将残差模块的输出结果反馈至残差模块的输入端。

优选的，所述的多目标检测方法中，所述将深度特征提取后获取的特征图输入至预设的基于FCOS的目标检测模型中，得到初步的行人预测框，并对所述初步的行人预测框进行非极大值抑制后，获取最终的车辆行人检测结果的步骤具体包括：

采用基于FCOS的目标检测模型中的特征金字塔对所述特征图进行特征融合；

采用基于FCOS的目标检测模型中的分类与回归子网络对特征融合后的结果进行预测和边框回归处理，得到初步的多目标预测框；

对所述初步的多目标预测框进行非极大值抑制后，获取最终的多目标检测结果。

优选的，所述的多目标检测方法中，所述对所述初步的行人预测框进行非极大值抑制后，获取最终的车辆行人检测结果的步骤具体包括：

将所述初步的多目标预测框与其对应的正确打标签的训练数据进行对比，去除冗余的候选框后，得到最终的多目标检测结果。

第二方面，本发明还提供一种多目标检测设备，包括：处理器和存储器；

所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述处理器执行所述计算机可读程序时实现如上所述的多目标检测方法中的步骤。

第三方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的车多目标检测方法中的步骤。

与现有技术相比，本发明提供的多目标检测方法、设备及存储介质，通过采用阶段递归残差网络，在阶段递归残差网络中添加了递归机制，从残差网络每个阶段的输出增加一个递归结构到它的输入，增强了卷积层的特征提取能力而无需添加任何额外的层，在浅层网络加上递归结构可以达到深层网络的性能，因此通过递归机制，可以对图像进行更深的特征提取，从而使冗余信息变成了有用信息，显著提升了网络精度，使得在进行车辆行人等多目标检测时，具有良好的精度和实时性。

附图说明

图1是本发明提供的多目标检测方法的一较佳实施例的流程图；

图2是本发明提供的多目标检测方法的一较佳实施例的网络结构图；

图3是本发明阶段递归残差网络的一较佳实施例的网络结构图；

图4是本发明阶段递归残差网络中，降采样模块的一较佳实施例的网络结构图；

图5是本发明阶段递归残差网络中，瓶颈结构的一较佳实施例的网络结构图；

图6是本发明特征金字塔的一较佳实施例的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是,本发明实施例中的多目标是指在无人驾驶过程中出现的多个具有不同显著特征的目标,如车辆、行人、其他处于运动状态的事物等。

请参阅图1，本发明实施例提供的多目标检测方法，包括如下步骤：

S100、获取待检测图像，对待检测图像进行初步特征提取。

本实施例中，为了更好的提取待检测图像的特征，首先需要对待检测图像进行初步的特征提取，在不增加通道数的情况下尽可能的保留原始图像的信息。具体的，所述步骤S100具体包括：

获取待检测图像，并调整所述待检测图像的尺寸；

具体来说，如图2所示，由于所使用的图片可能存在大小不统一的问题，因此在对图片进行特征提取之前，需要先调整图片的尺度，在一个具体的实施例中，将输入图像的大小调整为短边为800，长边小于或等于1333。然后采用卷积层和池化层对尺寸调整后的图像进行卷积运算和池化处理。在一个具体实施例中，首先使用一个步长为2的7×7卷积对输入图像进行初步的特征提取，再使用一个步长为2的最大池化对图像进行下采样，以减少参数量。

S200、将经过初步特征提取后的待检测图像输入阶段递归残差网络中，对所述待检测图像进行深度特征提取，其中，所述阶段递归残差网络分为若干个阶段，前一个阶段的输出作为后一个阶段的输入，每个阶段均包括降采样模块、残差模块和递归结构，所述降采样模块的输出端连接所述残差模块的输入端，所述残差模块的输出端通过递归结构连接至残差模块的输入端。

请参阅图2和图3，本实施例中，所述阶段递归残差网络分为四个阶段，每个阶段分别引入递归结构，递归结构将残差模块的输出连接至输入。每个阶段的降采样模块和递归结构相同，残差模块由若干个相同的bottleneck(瓶颈结构)组合，bottleneck的数量根据残差网络的类型以及所处阶段的不同而变化。阶段递归残差网络(SResNet)经过更深的特征提取，使冗余变成了有用信息，显著提升了网络精度。因此SResNet的展开形式相当于复用ResNet中除了降采样模块以外的整个阶段。通过递归结构使网络完成了更深的特征提取，将冗余变成了有用信息，显著提升了网络精度。

SResNet通过增加递归结构，使网络得到了更深的正向传播。SResNet保持了训练过程中相邻卷积层之间紧密稳定的关系，相当于一个更深但参数有限的卷积神经网络。实质上，递归结构将输出的语义信息作为通道的额外语义先验知识带回各个阶段的输入。虽然本发明实施例只是将输出特征映射直接反馈到一个阶段的输入，而不做任何其他更改，但是每个通道中包含的语义信息都被保留。在ResNet的每个阶段中，输入特征映射的语义信息总是少于输出特征映射的语义信息。这意味着低阶滤波器从噪声特征中学习，导致低阶滤波器的特征判断能力。对于SResNet，由于底层过滤器有机会从语义丰富的特征映射中学习，因此在第二次特征提取过程中，语义信息被继承并进一步集中到通道中。

具体的，所述降采样模块用于对输入的图像进行降采样处理，每个阶段的降采样模块都相同，降采样模块的输入随所处阶段的不同而不同。从图2的流程图中可以看出，当n＝1时，降采样模块的输入为经过初步特征提取后得到的特征图；当1<n<4时，降采样模块的输入为阶段递归残差网络上一阶段输出的特征图。降采样模块的输入通道数和输出通道数不同，它的作用是改变网络的通道数，其结构图如图4所示。具体的，所述降采样处理的步骤具体为：

将第三卷积核处理后输出的结果输出至第四卷积核中处理；

在一个具体实施例中，所述第一卷积核为步长为1的1×1卷积核，所述第二卷积核为步长为2的1×1卷积核，所述第三卷积核为步长为2的3×3卷积核，所述第四卷积核为步长为1的1×1卷积核。具体实施时，使用一个步长为1的1×1卷积核减少输入的通道数，起到减少参数的作用，再使用一个步长为2的3×3卷积核对输入进行降采样，最后再使用一个步长为1的1×1卷积核恢复通道数。在每个卷积核后面都连接一个BatchNorm层和一个ReLU激活函数。最后，降采样模块的输入再接一个步长为2的1×1卷积并使输入和输出的通道数一致，再将输入和输出相加。

进一步的实施例中，所述残差模块由若干个串联的瓶颈结构(bottleneck)组成，各个瓶颈结构相同，其中，每个瓶颈结构的输入通道数和输出通道数相同，因此可以串联，用于加深网络。最后一个所述瓶颈结构的输出端通过所述递归结构连接第一个瓶颈结构的输入端。

如图5所示，所述瓶颈结构具体用于：

将输入的图像输入至步长为1的第五卷积核中处理；

将第七卷积核的处理结果和输入的图像叠加后输出。

其中，所述第五卷积核为步长为1的1×1卷积核，第六卷积核为步长为1的3×3卷积核，第七卷积核为步长为1的1×1卷积核。具体实施时，首先使用一个步长为1的1×1卷积核减少输入的通道数，再使用一个步长为1的3×3卷积核进行特征提取，最后再使用一个步长为1的1×1卷积核恢复通道数。同样，在每个卷积核后面都连接一个BatchNorm层和一个ReLU激活函数，加速网络的收敛并提升准确率。将残差模块中每个bottleneck的输入直接连接至输出并相加，构成了残差结构，能够在加深网络的同时解决梯度消失的问题。Bottleneck的数量由残差网络的类型以及所处的阶段决定，如ResNet-50的第一阶段bottleneck的个数为2。

进一步的实施例中，所述递归结构用于将残差模块的输出结果反馈至残差模块的输入端。具体的，本发明实施例在每个阶段的输出增加一个反馈连接到它的残差模块的输入形成了递归结构，能够直接复用结果。SResNet的展开形式相当于复用一个阶段中除了降采样模块以外的部分，改善了ResNet中过滤器的冗余现象。

通过引入递归结构增强卷积层的特征提取能力，本发明提出的阶段递归残差网络SResNet在各种指标上都优于相应的残差网络ResNet。在一个具体实施例中，在MS-COCO数据集上进行实验，所有模型均在COCO train2017上使用单个NVIDIA GTX 2080进行训练。本发明使用随机梯度下降法(SGD)对minibatch为2幅图像进行720k次迭代训练。此外，使用ImageNet上预先训练的权重来初始化主干网。本发明不使用任何技巧，如数据扩充或多尺度训练，所有的模型在训练过程中严格遵循上述实验设置。最终实验结果如下表所示，由下表可知，SResNet在任何情况下都优于相应的ResNet，SResNet-101的Box AP达到了40.2％。由于SResNet能够将一个语义类更完整的特征提取到每个通道中，因此SResNet在API方面取得了约2％的进步。

S300、将深度特征提取后获取的特征图输入至预设的基于FCOS的目标检测模型中，得到初步的多目标预测框，并对所述初步的行人预测框进行非极大值抑制后，获取最终的多目标检测结果。

具体的，当对图像进行深度特征提取后，将阶段递归残差网络得到的特征图传入目标检测模型，通过特征金字塔将各个层级的特征进行融合，使用融合后的特征进行分类与回归得到初步的预测结果，通过非极大值抑制过滤掉低质量的预测框得到最终的预测结果。其中，所述多目标检测结果包括目标所属类别以及包围框，目标所属类别可以为车辆、行人等类别。具体的，所述步骤S300具体包括：

对所述初步的多目标预测框进行非极大值抑制后，获取最终的车辆多目标检测结果。

具体来说，特征金字塔的结构如图6所示，主要由自下而上(bottom-up)、自上而下(top-down)和横向连接三部分构成。阶段递归残差网络作为bottom-up部分把原始图片进行适当地缩小，top-down把最小分辨率特征图进行适当地放大，然后使用横向连接将相同分辨率的特征图进行融合。用1*1的卷积核将bottom-up部分的各层特征降至256维，然后将降维后的各特征图与top-down中相同分辨率的特征图进行融合，融合采用逐元素相加的方式。最后，采用3*3的卷积进一步消除融合后的混叠效应。将各个层级的特征进行融合，使其同时具有强语义信息和强空间信息。

分类与回归子网络对特征金字塔每层进行类别预测、center-ness预测和边框回归得到初步的预测结果。初步类别预测采用C个二分类，共输出C个预测值。center-ness用于抑制低质量的预测框。边框回归使预测的边界框更接近真实框。FCOS采用逐像素预测，类别预测用C个二分类，共输出C个预测值，其中C为目标类别数量。center-ness用于抑制低质量的预测框，越靠近目标中心的点center-ness越大。边框回归首先对每个特征点预测4个向量，分别是到上下左右四条边的距离，再通过回归使预测的边界框更接近真实框。

由于FCOS算法使用逐像素回归策略，在提升召回率的同时，会产生许多低质量的中心点和偏移较多的预测框。因此，在得到了初步的多目标预测框后，还需对其进行非极大值抑制，具体的，所述对所述初步的多目标预测框进行非极大值抑制后，获取最终的多目标检测结果的步骤具体包括：

具体来说，在进行非极大值抑制时，对分类与回归子网络得到的车辆行人预测框与其对应的正确打标签的训练数据(ground truth)进行对比，去除冗余的候选框，得到最接近真实值的多目标标定框，以加快目标检测的效率。具体实施时，首先根据分类分支选取类别为前景的检测框，集合记为B＝{b₁，b₂，…，b_n}；再根据IoU分支的输出得到B中所有检测框与对应真实框的交并比{I₁，I₂，…，I_n}，并按交并比进行降序排列；从B中取出当前交并比最大的检测框b_m，将其分类得分记为s_m；遍历集合B中的检测框b_i，计算b_m与b_i的交并比，如果大于设定的NMS阈值，则删除b_i，并取s_m＝max(s_m，s_i)，其中s_i为b_i的分类得分，NMS阈值设置为0.5；重复步骤，直到集合B为空集。

基于上述车辆行人检测方法，本发明还相应的提供一种多目标检测设备，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如上述各实施例所述的多目标检测方法中的步骤。

由于上文已对多目标检测方法进行详细描述，在此不再赘述。

基于上述多目标检测方法，本发明还相应的提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述各实施例所述的多目标检测方法中的步骤。

综上所述，本发明提供的多目标检测方法、设备及存储介质，通过采用阶段递归残差网络，在阶段递归残差网络中添加了递归机制，从残差网络每个阶段的输出增加一个递归结构到它的输入，增强了卷积层的特征提取能力而无需添加任何额外的层，在浅层网络加上递归结构可以达到深层网络的性能，因此通过递归机制，可以对图像进行更深的特征提取，从而使冗余信息变成了有用信息，显著提升了网络精度，使得在进行车辆行人多目标检测时，具有良好的精度和实时性。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.一种多目标检测方法，其特征在于，包括如下步骤：

获取待检测图像，对待检测图像进行初步特征提取；

将深度特征提取后获取的特征图输入至预设的基于FCOS的目标检测模型中，得到初步的多目标预测框，并对所述初步的多目标预测框进行非极大值抑制后，获取最终的多目标检测结果；

所述递归结构用于将残差模块的输出结果反馈至残差模块的输入端。

2.根据权利要求1所述的多目标检测方法，其特征在于，所述获取待检测图像，对待检测图像进行初步特征提取的步骤具体包括：

获取待检测图像，并调整所述待检测图像的尺寸；

3.根据权利要求1所述的多目标检测方法，其特征在于，所述降采样模块用于对输入的图像进行降采样处理，所述降采样处理的步骤具体为：

将第三卷积核处理后输出的结果输出至第四卷积核中处理；

4.根据权利要求3所述的多目标检测方法，其特征在于，所述残差模块由若干个串联的瓶颈结构组成，其中，每个瓶颈结构的输入通道数和输出通道数相同，最后一个所述瓶颈结构的输出端通过所述递归结构连接第一个瓶颈结构的输入端。

5.根据权利要求4所述的多目标检测方法，其特征在于，所述瓶颈结构具体用于：

将输入的图像输入至步长为1的第五卷积核中处理；

将第七卷积核的处理结果和输入的图像叠加后输出。

6.根据权利要求1所述的多目标检测方法，其特征在于，所述将深度特征提取后获取的特征图输入至预设的基于FCOS的目标检测模型中，得到初步的多目标预测框，并对所述初步的多目标预测框进行非极大值抑制后，获取最终的多目标检测结果的步骤具体包括：

对所述初步的行人预测框进行非极大值抑制后，获取最终的多目标检测结果。

7.根据权利要求6所述的多目标检测方法，其特征在于，所述对所述初步的行人预测框进行非极大值抑制后，获取最终的多目标检测结果的步骤具体包括：

8.一种多目标检测设备，其特征在于，包括：处理器和存储器；

所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的多目标检测方法中的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述的多目标检测方法中的步骤。