CN112329861B

CN112329861B - 一种面向移动机器人多目标检测的分层特征融合方法

Info

Publication number: CN112329861B
Application number: CN202011235706.8A
Authority: CN
Inventors: 杨金福; 袁帅; 李明爱; 王康
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-05-28
Anticipated expiration: 2040-11-06
Also published as: CN112329861A

Abstract

本发明涉及移动机器人的环境感知领域，尤其涉及一种面向移动机器人多目标检测的分层特征融合方法，目的在于提高目标检测算法对不同尺度目标的检测能力，从而提高智能机器人的环境感知能力，包括以下步骤：将数据集中的图像输入到预训练好的改进后的VGG‑16中，初步获取特征图；将初步获取的特征图分别输入空洞卷积金字塔结构，该结构包含3种不同扩张率的空洞卷积分支，用于匹配机器人移动时视觉传感器获取的不同尺度大小的目标；将不同分支获取的特征图通过本发明提出的分层叠加的方式进行融合，使特征图中的所有通道均包含不同尺度的特征信息；将融合后的特征图进行逐步卷积，得到不同大小的特征图；最终，获得待检测物体的类别和包围框。

Description

一种面向移动机器人多目标检测的分层特征融合方法

技术领域

本发明涉及移动机器人的环境感知领域，尤其涉及一种面向移动机器人多目标检测的分层特征融合方法。

背景技术

随着智能机器人在家庭环境中应用范围的不断扩展，人们对机器人的环境感知能力提出了越来越高的要求。在机器人搜索物体的过程中，由于机器人的视觉传感器中往往存在不同尺度大小的物体，而现有的目标检测算法并不能很好地检测这些物体，因此，需要提高目标检测算法对不同尺度目标的检测能力，从而提高智能机器人的环境感知能力。

为了增强网络对不同尺度目标的检测效果，许多学者对分别对两阶段目标检测方法和单阶段目标检测方法进行了改进。2019年黄继鹏，史颖欢，高阳.面向小目标的多尺度Faster-RCNN检测算法[J].计算机研究与发展，2019，56(2):319-327)参考SSD算法多尺度检测的思想设计了多尺度FasterR-CNN检测算法，采用网络中的不同特征层检测不同尺度的目标，但是由于候选区域的限制，导致该算法在检测小目标时效果较差。但是由于两阶段目标检测方法的检测速度较慢，而单阶段目标检测方法可以满足机器人实时检测的要求，因此，需要对单阶段目标检测方法进行改进。2017年，Lin T Y，Dollar P，Girshick R，etal.Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2017:2117-2125提出了一种具有自顶向下结构的特征金字塔网络，增强低层特征的语义信息。同样的，张思宇，张轶等.基于多尺度特征融合的小目标行人检测[J].计算机工程与科学，2019，41(09):1627-1634通过将高层特征进行反卷积与相邻的低层特征进行逐像素相加，丰富小目标的特征表达。但是以上方法在提取特征时只使用了单一尺度大小的卷积核，忽略了不同尺度特征感受野的差异，而机器人在移动中进行目标检测时，视觉传感器中会有多个不同尺度大小的物体，只采用单一尺度大小的卷积核提取的特征不够丰富，导致这些方法对不同尺度物体的检测效果差。为解决此问题，2017年Szegedy C,Ioffe S,Vanhoucke V,etal.Inception-v4,inception-resnet and the impact of residual connections onlearning[C]//Thirty-First AAAI Conference on Artificial Intelligence.提出采用多分支的不同大小卷积核提取多尺度特征，但是由于卷积核的尺寸较大，造成计算量较大，检测速度较慢，不适用于机器人移动平台。因此，本文为减少Inception结构的计算量，提出一种空洞卷积金字塔模型，同时，提出一种分层特征融合方法替代现有的通道拼接方法，使不同通道均包含多尺度特征信息。

发明内容

针对现有技术只采用单一尺度大小的卷积核提取特征不丰富，同一场景中不同尺度大小物体的检测能力低的问题，本发明利用不同扩张率的空洞卷积模拟不同大小的感受野，从而提取不同尺度大小的特征，同时，提出一种分层特征融合方法对不同尺度的特征进行融合，相比于其他方法的通道拼接方法，本发明的分层特征融合方法使不同通道中均包含不同尺度的特征信息，可以有效提升目标检测算法对同一场景中不同尺度大小的物体的检测能力，从而提高智能机器人搜索物体的效率。

为了达到上述目的，本发明采用的技术方案是提供一种面向移动机器人多目标检测的分层特征融合方法，其特征包括如下步骤：

步骤1：初步获取特征图：将数据集中的图像输入到预训练好的改进后的VGG-16中，提取经过卷积Conv4_3得到的特征图T₁；提取经过卷积Conv7得到的特征图T₂；

步骤2：构建空洞卷积金字塔结构DCP：该结构包含3种不同扩张率的空洞卷积分支，将步骤1获取的特征图T₁输入空洞卷积金字塔结构DCP1，三条分支的输出特征图分别为X₁、X₂、X₃；将步骤1获取的特征图T₂输入空洞卷积金字塔结构DCP2，三条分支的输出特征图分别为Y₁、Y₂、Y₃；

步骤3：进行分层特征融合HFF：将步骤2经过DCP1结构得到的特征图X₁、X₂、X₃进行分层特征融合HFF1，得到融合后的特征图F₁；将步骤2经过DCP2结构得到的特征图Y₁、Y₂、Y₃进行分层特征融合HFF2，得到融合后的特征图F₂；

步骤4：获取不同大小特征图：将步骤3获取的特征图F₂进行逐步卷积，得到不同大小的特征图F₃、F₄、F₅、F₆；

步骤5：获得待检测物体的类别和包围框：分别在获取的特征层F₁、F₂、F₃、F₄、F₅、F₆的每个像素上生成不同比例大小的包围框以及该包围框的类别置信度。然后，对这些包围框进行筛选，得到待检测物体的类别和包围框。

步骤1中所述的VGG-16网络包括13个卷积层、3个全连接层组成，卷积层依次为Conv1_1、Conv1_2、Conv2_1、Conv2_2、Conv3_1、Conv3_2、Conv3_3、Conv4_1、Conv4_2、Conv4_3、Conv5_1、Conv5_2、Conv5_3，全连接层依次为FC6、FC7、FC8；步骤1中所述改进后的VGG-16网络为：将VGG-16网络的FC6和FC7全连接层改为卷积层；步骤1中所述的初步获取的特征图T₁为改进后的VGG-16网络中卷积层Conv4_3的输出，大小为38×38；T₂为改进后的VGG-16网络中卷积层Conv7的输出，大小为19×19。

步骤2所述的空洞卷积金字塔结构DCP具体如下：

该结构包含3条支路，第1条支路依次为1×1的卷积层以及卷积大小为3×3、扩张率rate＝1的空洞卷积层；第2条支路依次为1×1的卷积层，3×3的卷积层，以及卷积大小为3×3、扩张率rate＝3的空洞卷积层；第三支路依次为1×1的卷积层，5×5的卷积层，以及卷积大小为3×3、扩张率rate＝5的空洞卷积层。

步骤3所述的分层特征融合，步骤如下：

分层融合的方式为逐级叠加，将步骤2空洞卷积金字塔结构DCP1获取的特征X₁与X₂逐像素求和，其结果X₁+X₂作为第一级叠加结果；再将特征X₁与X₂逐像素求和的结果与特征X₃进行逐像素求和，其结果X₁+X₂+X₃作为第二级叠加结果。最后，将特征X₁、X₁+X₂、X₁+X₂+X₃进行通道拼接操作，并采用1×1卷积核的进行卷积，以降低拼接数据的维度，再采用BatchNormalization层和Relu激活函数对降低维度后的拼接数据进行处理，得到融合后的包含多尺度信息的拼接特征图F₁，大小为38×38。

将步骤2空洞卷积金字塔结构DCP2获取的特征Y₁与Y₂逐像素求和，其结果Y₁+Y₂作为第一级叠加结果；再将特征Y₁与Y₂逐像素求和的结果与特征Y₃进行逐像素求和，其结果Y₁Y₂+Y₃作为第二级叠加结果。最后，将特征Y₁、Y₁+Y₂、Y₁+Y₂+Y₃进行通道拼接操作，并依次通过1×1卷积、BN层以及Relu激活函数，得到特征图F₂，大小为19×19。

步骤4步骤4所述特征图F₃、F₄、F₅、F₆的大小分别为10×10、5×5、3×3、1×1。

步骤5所述获得待检测物体的类别和包围框，步骤如下：

分别在获取的特征层F₁、F₂、F₃、F₄、F₅、F₆的每个像素上生成不同比例大小的包围框，其中，在特征图F₁、F₂、F₃、F₄的每个像素点生成6个包围框，每层包围框包括2个不同大小的正方形包围框、纵横比为0.5的不同大小的2个长方形包围框以及纵横比为2的2个不同大小的长方形包围框；在特征层F₅和F₆的每个像素点生成4个包围框，包括纵横比分别为0.5和2的2个长方形包围框以及2个不同大小的正方形包围框，6层特征图产生的包围框数量分别为：38×38×6、19×19×6、10×10×6、5×5×6、3×3×4、1×1×4，包围框总数为11620。

对于每个包围框，首先根据类别置信度确定其类别(置信度最大者)与置信度值，过滤掉属于背景的包围框，然后根据置信度阈值过滤掉阈值较低的包围框。对于剩下的包围框，在每个类别上根据置信度进行降序排列，保留排名靠前的k个包围框。最后，通过非极大值抑制NMS算法过滤掉重叠度较大的包围框，得到最终的检测结果。

附图说明

图1为实现本发明的网络流程图；

图2(a)为VGG-16网络结构图；

图2(b)为改进的VGG-16网络结构图；

图3(a)为空洞卷积金字塔结构DCP1；

图3(b)为空洞卷积金字塔结构DCP2；

图4(a)为本发明提出的分层特征融合方法HFF1；

图4(b)为本发明提出的分层特征融合方法HFF2；

图5为本发明与SSD方法的测试结果对比图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

如附图1所示，本发明为一种面向移动机器人多目标检测的分层特征融合方法，包括以下步骤：

步骤1：初步获取特征图，将数据集中的图像输入到预训练好的改进后的VGG-16中。VGG-16网络结构如图2(a)所示：包括13个卷积层、3个全连接层组成，卷积层依次为Conv1_1、Conv1_2、Conv2_1、Conv2_2、Conv3_1、Conv3_2、Conv3_3、Conv4_1、Conv4_2、Conv4_3、Conv5_1、Conv5_2、Conv5_3，全连接层依次为FC6、FC7、FC8；改进后的VGG-16网络结构如图2(b)所示：将VGG-16网络的FC6和FC7全连接层改为卷积层；步骤1中所述的初步获取的特征图T₁为改进后的VGG-16网络中卷积层Conv4_3的输出，大小为38×38；T₂为改进后的VGG-16网络中卷积层Conv7的输出，大小为19×19。

步骤2：构造空洞卷积金字塔结构DCP，该结构包含3条支路，第1条支路依次为1×1的卷积层以及卷积大小为3×3、扩张率rate＝1的空洞卷积层；第2条支路依次为1×1的卷积层，3×3的卷积层，以及卷积大小为3×3、扩张率rate＝3的空洞卷积层；第三支路依次为1×1的卷积层，5×5的卷积层，以及卷积大小为3×3、扩张率rate＝5的空洞卷积层。

将步骤1获取的特征图T₁输入到如图3(a)所示的空洞卷积金字塔结构DCP1，三条分支的输出特征图分别为X₁、X₂、X₃，大小均为38×38；将步骤1获取的特征图T₂输入到如图3(b)所示的空洞卷积金字塔结构DCP2，三条分支的输出特征图分别为Y₁、Y₂、Y₃，大小均为19×19。其中，DCP1与DCP2结构相同，输入特征图的大小不同。

步骤3：将不同分支获取的特征图进行分层特征融合HFF。分层融合的方式为逐级叠加，如图4(a)所示，分层特征融合HFF1将步骤2空洞卷积金字塔结构DCP1获取的特征X₁与X₂逐像素求和，其结果X₁+X₂作为第一级叠加结果；再将特征X₁与X₂逐像素求和的结果与特征X₃进行逐像素求和，其结果X₁+X₂+X₃作为第二级叠加结果。最后，将特征X₁、X₁+X₂、X₁+X₂+X₃进行通道拼接操作，并采用1×1卷积核的进行卷积，以降低拼接数据的维度，再采用BatchNormalization层和Relu激活函数对降低维度后的拼接数据进行处理，得到融合后的包含多尺度信息的拼接特征图F₁，大小为38×38。

图4(b)所示，分层特征融合HFF2将步骤2空洞卷积金字塔结构DCP2获取的特征Y₁与Y₂逐像素求和，其结果Y₁+Y₂作为第一级叠加结果；再将特征Y₁与Y₂逐像素求和的结果与特征Y₃进行逐像素求和，其结果Y₁+Y₂+Y₃作为第二级叠加结果。最后，将特征Y₁、Y₁+Y₂、Y₁+Y₂+Y₃进行通道拼接操作，并依次通过1×1卷积、BN层以及Relu激活函数，得到特征图F₂，大小为19×19。

步骤4：获取不同大小特征图，如图1所示，将步骤3获取的特征层F₂进行逐步卷积，得到不同大小的特征图F₃、F₄、F₅、F₆，大小分别为10×10、5×5、3×3、1×1。

步骤5：获得待检测物体的类别和包围框，分别在获取的特征层F₁、F₂、F₃、F₄、F₅、F₆的每个像素上生成不同比例大小的包围框，其中，在特征图F₁、F₂、F₃、F₄的每个像素点生成6个包围框，每层包围框包括2个不同大小的正方形包围框、纵横比为0.5的不同大小的2个长方形包围框以及纵横比为2的2个不同大小的长方形包围框；在特征层F₅和F₆的每个像素点生成4个包围框，包括纵横比分别为0.5和2的2个长方形包围框以及2个不同大小的正方形包围框，6层特征图产生的包围框数量分别为：38×38×6、19×19×6、10×10×6、5×5×6、3×3×4、1×1×4，包围框总数为11620。

表1展示了本发明在PASCAL VOC数据集上与其他先进目标检测方法的实验对比结果，对比方法包括Faster R-CNN、SSD、DSSD等。从表1可以看出，在输入图片尺寸为320×320时，本发明方法的准确率为80.1％，相比于SSD和DSSD的检测精度提高了2.9％和1.8％。与YOLO系列算法相比，本发明方法的准确率更高。

表1 PASCAL VOC 2007的不同网络模型的检测结果

Claims

1.一种面向移动机器人多目标检测的分层特征融合方法，其特征在于，通过空洞卷积金字塔结构以及分层特征融合方法获取多尺度特征信息，有效提升目标检测算法对同一场景中不同尺度大小的物体的检测能力，从而提高智能机器人搜索物体的效率，包括以下步骤：

步骤1：初步获取特征图：将数据集中的图像输入到预训练好的改进后的VGG-16网络中，提取经过卷积Conv4_3得到的特征图T₁；提取经过卷积Conv7得到的特征图T₂；

步骤5：获得待检测物体的类别和包围框：分别在获取的特征层F₁、F₂、F₃、F₄、F₅、F₆的每个像素上生成不同比例大小的包围框以及该包围框的类别置信度；然后，对这些包围框进行筛选，得到待检测物体的类别和包围框；

步骤1中所述的VGG-16网络包括13个卷积层、3个全连接层，卷积层依次为Conv1_1、Conv1_2、Conv2_1、Conv2_2、Conv3_1、Conv3_2、Conv3_3、Conv4_1、Conv4_2、Conv4_3、Conv5_1、Conv5_2、Conv5_3，全连接层依次为FC6、FC7、FC8；步骤1中所述改进后的VGG-16网络为：将VGG-16网络的FC6和FC7全连接层改为卷积层；步骤1中所述的初步获取的特征图T₁为改进后的VGG-16网络中卷积层Conv4_3的输出，大小为38×38；T₂为改进后的VGG-16网络中卷积层Conv7的输出，大小为19×19；

步骤2所述的空洞卷积金字塔结构DCP具体如下：

该结构包含3条支路，第1条支路依次为1×1的卷积层以及卷积大小为3×3、扩张率rate＝1的空洞卷积层；第2条支路依次为1×1的卷积层，3×3的卷积层，以及卷积大小为3×3、扩张率rate＝3的空洞卷积层；第三支路依次为1×1的卷积层，5×5的卷积层，以及卷积大小为3×3、扩张率rate＝5的空洞卷积层；

将步骤1获取的特征图T₁输入空洞卷积金字塔结构DCP1，三条分支的输出特征图分别为X₁、X₂、X₃，大小均为38×38；将步骤1获取的特征图T₂输入空洞卷积金字塔结构DCP2，三条分支的输出特征图分别为Y₁、Y₂、Y₃，大小均为19×19，DCP1与DCP2结构相同，输入特征图的大小不同；

步骤3所述的分层特征融合，步骤如下：

分层融合的方式为逐级叠加，分层特征融合HFF1将步骤2空洞卷积金字塔结构DCP1获取的特征X₁与X₂逐像素求和，其结果X₁+X₂作为第一级叠加结果；再将特征X₁与X₂逐像素求和的结果与特征X₃进行逐像素求和，其结果X₁+X₂+X₃作为第二级叠加结果；最后，将特征X₁、X₁+X₂、X₁+X₂+X₃进行通道拼接操作，并采用1×1卷积核的进行卷积，以降低拼接数据的维度，再采用Batch Normalization层和Relu激活函数对降低维度后的拼接数据进行处理，得到融合后的包含多尺度信息的拼接特征图F₁，大小为38×38；

分层特征融合HFF2将步骤2空洞卷积金字塔结构DCP2获取的特征Y₁与Y₂逐像素求和，其结果Y₁+Y₂作为第一级叠加结果；再将特征Y₁与Y₂逐像素求和的结果与特征Y₃进行逐像素求和，其结果Y₁+Y₂+Y₃作为第二级叠加结果；最后，将特征Y₁、Y₁+Y₂、Y₁+Y₂+Y₃进行通道拼接操作，并依次通过1×1卷积、BN层以及Relu激活函数，得到特征图F₂，大小为19×19。

2.根据权利要求1所述的一种面向移动机器人多目标检测的分层特征融合方法，其特征在于，步骤4所述特征图F₃、F₄、F₅、F₆的大小分别为10×10、5×5、3×3、1×1。

3.根据权利要求1所述的一种面向移动机器人多目标检测的分层特征融合方法，其特征在于，步骤5所述获得待检测物体的类别和包围框，步骤如下：

分别在获取的特征层F₁、F₂、F₃、F₄、F₅、F₆的每个像素上生成不同比例大小的包围框，其中，在特征图F₁、F₂、F₃、F₄的每个像素点生成6个包围框，每层包围框包括2个不同大小的正方形包围框、纵横比为0.5的不同大小的2个长方形包围框以及纵横比为2的2个不同大小的长方形包围框；在特征层F₅和F₆的每个像素点生成4个包围框，包括纵横比分别为0.5和2的2个长方形包围框以及2个不同大小的正方形包围框，6层特征图产生的包围框数量分别为：38×38×6、19×19×6、10×10×6、5×5×6、3×3×4、1×1×4，包围框总数为11620；

对于每个包围框，首先根据类别置信度确定其类别与置信度值，过滤掉属于背景的包围框，然后根据置信度阈值过滤掉阈值较低的包围框；对于剩下的包围框，在每个类别上根据置信度进行降序排列，保留排名靠前的k个包围框；最后，通过非极大值抑制NMS算法过滤掉重叠度最大的包围框，得到最终的检测结果。