CN109816012B

CN109816012B - 一种融合上下文信息的多尺度目标检测方法

Info

Publication number: CN109816012B
Application number: CN201910056101.3A
Authority: CN
Inventors: 宫婧; 许必宵; 孙知信
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2022-07-12
Anticipated expiration: 2039-01-22
Also published as: CN109816012A

Abstract

本发明公开了一种融合上下文信息的多尺度目标检测方法，方法包括：利用深度残差卷积神经网络提取输入图像的特征，并使用RPN网络和改进的非极大值抑制法获取得到与输入图像对应的用于目标检测的候选框集合；对于每一候选框，提取得到深度残差卷积神经网络输出的卷积特征，以及采用LSTM方法对所述深度残差卷积神经网络最后一层卷积层输出的卷积特征进行两次上下左右四个方向提取得到上下文特征信息；对上下文信息和卷积特征做正则化和拼接操作得到融合上下文信息的多尺度特征；利用全连接层将多尺度特征变成高维特征向量并采用分类层和回归层进行目标分类和边框位置检测；本发明的方法对于目标检测具有高精度、鲁棒性好和适应性强的特点。

Description

一种融合上下文信息的多尺度目标检测方法

技术领域

本发明属于深度学习和计算机视觉技术领域，具体涉及一种融合上下文信息的多尺度目标检测方法。

背景技术

目标检测是计算机视觉领域中一个重要分支。目标检测的应用非常广泛，例如在图像识别、人脸检测以及人工智能等模型中都会使用目标检测技术从图片中快速、准确地识别出目标物。传统的目标检测技术采用滑动窗口方法截取相同尺度的图片片段，然后从这些片段中进行特征提取，接着对图像特征进行分类回归，最后通过非极大值抑制方法(Non-Maximum Suppression，NMS)获取矩形框的位置坐标。这种传统的目标检测方法由于人工提取特征，因此精度都比较低。直到深度学习(Deep Learning，DL)技术的出现，许多文献提出了基于深度学习的目标检测模型，精度与效率都有了大幅度的提高。

基于深度学习的目标检测模型，主要利用卷积神经网络算法(ConvolutionalNeural Networks,CNN)完成特征提取、区域推荐以及分类回归等操作。近几年，已经有很多文献提出了各种基于深度学习的目标检测模型，例如YOLO、SSD、Faster R-CNN和R-FCN等等，相比传统目标检测模型，基于深度学习的目标检测模型结果精度大大提高。但是这些模型在微软COCO数据集上的检测精度并不是很高，mAP不到40％，原因是COCO数据集存在很多小尺度目标，并且很多图片背景复杂，目标之间重叠严重。研究发现，如果有效融合不同卷积层的输出特征可以提高不同尺度物体的识别效率，在特征中融合上下文信息用于分类回归能够有效缓解复杂背景带来的精度影响。

目标检测技术对小目标检测精度低和适应于目标遮挡环境能力差两问题，已经有很多文献提出了改进方案。例如多尺度融合的金字塔特征模型(FeaturePyramidNetworks，FPN)提出一种自上而下侧面连接的特征提取方式，融合了各层特征，提高了Faster R-CNN系列模型对小目标的检测精度，但是复杂的多尺度特征融合方式增加了时间复杂度；也有人提出在Fast R-CNN中利用由LSTM(Long Short-Term Memory)改造的两个子网络提取池化结果，实现局部上下文信息与全局上下文信息的融合，提高多目标遮挡环境下的检测精度，但是上下文信息没有融合到目标检测最后使用的特征中，所以提升效果不大。

发明内容

针对上述现有技术中的目标检测技术时间尺度大以及上下文信息无法融合到目标检测最后使用特征的问题，本发明于提出一种融合上下文信息的多尺度目标检测方法；该方法能够将上下文信息融合到最后的分类特征中，同时降低多尺度特征融合的代价，既能够提高小尺度目标的检测精度，也能在目标遮挡等复杂的背景下可以准确的检测出目标物，具体技术方案如下：

一种融合上下文信息的多尺度目标检测方法，所述方法包括步骤：

S1、采用深度残差卷积神经网络提取输入图像的特征，并将所述深度残差卷积神经网络后三层的卷积特征输出保存备用；

S2、将所述深度残差卷积神经网络最后一层卷积层输出的卷积特征输入至RPN网络(Region Proposal Networks，区域推荐网络)，通过所述RPN网络筛选所述输入图像的第一候选框集合N，采用改进的非极大值抑制方法对所述第一候选框集合N做筛选得到第二候选框集合M；

S3、使用LSTM方法对所述深度残差卷积神经网络最后一层卷积层输出的卷积特征进行两次上下左右四个方向分别进行全局上下文提取，获得与输出的所述卷积特征尺度大小相同的上下文信息特征并保存备用；

S4、从所述卷积特征中截取所述第二候选框集合M中每个候选框对应的候选框特征矩阵，并将所述候选框特征矩阵通过池化成指定尺寸大小；

S5、从所述上下文信息特征中截取所述第二候选框集合M中每个候选框对应的候选框上下文特征矩阵，并将所述候选框上下文特征矩阵通过池化成指定尺寸大小；

S6、将每一所述候选框对应的所述候选框特征矩阵和所述候选框上下文特征矩阵进行正则化后拼接得到多尺度特征，将所述多尺度特征输入全连接层得到高维特征向量，并将所述高维特征向量输入分类层实现目标类别检测，将所述高维特征向量输入回归层实现边框位置检测；

S7、重复S4～S6，对多目标类别的候选框进行检测并输出每一目标类别的边框坐标。

进一步的，所述深度残差卷积神经网络为切除池化层和全连接层的ResNet-101网络，所述ResNet-101网络包括五层大卷积层。

进一步的，步骤S1中，所述深度残差卷积神经网络后三层的为所述五层大卷积层的第三大卷积层、第四大卷积层和第五大卷积层。

进一步的，步骤S2中，采用改进的非极大值抑制方法对所述第一候选框集合N做筛选得到第二候选框集合M，包括：

S21、通过所述PRN网络计算所有所述第一候选框集合N中每一候选框的得分，采用所述改进的非极大值抑制法或得最优得分的候选框构成所述第二候选框集合M；

S22、设定第一阈值η，将所述第一候选框集合N中除所述第二候选框集合M的所有候选框构成第三候选框集合S，将所述第三候选框集合S与所述第二候选框集合M做IOU计算，得到所述第三候选框集合S与所述第二候选框集合M的面积比上并集和交集的面积差，选取所述面积差大于所述第一阈值η候选框构成集合U；

S23、设定第二阈值μ，根据公式

对所述集合U中每一候选框做分类得分重计算，式中，U_i是每个候选框，s_i表示得分，σ表示随机生成的高斯误差，比较并剔除所述第一候选框集合N中s_i小于所述第二阈值μ的候选框；

S24、将所述集合U中所有候选框与所述第二候选框集合M进行四个顶点点坐标的加权平均计算，得到所述集合U中所有候选框的s_i占所有候选框重计算得分之和的比重，并将加权平均后的候选框代替所述第二候选框集合M，记为最优候选框集合G；

S25、从所述第一候选框集合N中删除所述第二候选框集合M，重复步骤S21～S24，直到所述第一候选框集合N不在存在候选框为止。

进一步的，所述上下文信息特征中每一位置的像素值都包含对应位置的全局上下文信息。

进一步的，步骤S4和S5中，采用ROIAlign方法实现所述池化操作。

与现有技术相比，本发明的融合上下文信息的多尺度目标检测方法的有益效果为：(1)本发明适用于多目标检测，且融合方式比较简单易行，能够在不需要很高的计算复杂度条件下提高小尺度目标的检测精度；

(2)本发明保留了Faster R-CNN中区域推荐网络RPN的使用，并且使用改进的极大值抑制方法进行二次候选框筛选，保证在多目标重叠的情景下不会出现过度抑制候选框的情况，提高了目标检测的精度；

(3)本发明使用LSTM方法完成深度残差卷积神经网络的输出卷积特征每个位置上下左右四个方向上的全局上下文信息提取工作，并且融合到检测特征中，可以有效提高目标重叠情景下目标分类的精度；

(4)本发明基于FasterR-CNN方法进行细节调优，最终的检测架构可以有效提高小目标的检测精度，在目标重叠较多的情景下能够具有较高的分类精度，适用于复杂场景且具有较强的处理能力；同时具有较低的时间复杂度，可适用领域广泛。

附图说明

图1为本发明实施例中所述融合上下文信息的多尺度目标检测方法的流程图示意；

图2为采用本发明方法的架构图实现示意；

图3为本发明实施例中构建所述残差卷积神经网络的组件图示意；

图4为本发明实施例中所述LSTM提取上下文信息的过程图示意。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明实施例中，提供了一种融合上下文信息的多尺度目标检测方法，方法利用深度残差卷积神经网络实现对输入图像的特征提取，并保存深度残差卷积神经网络中后三层输出的卷积特征，通过深度残差卷积神经网络的最后一层结合RPN网络提取得到输入图像前景的候选框集合，并通过改进的非极大值抑制法筛选得到最终的候选框集合，并利用LSTM方法提取得到深度残差卷积神经网络最后一层输出的卷积特征中对应输入图像每一位置的全局上下文信息；并对后三层输出的卷积特征与上下位信息特征进行池化、正则化操作后拼接形成多尺度特征，并通过全连接层形成特征向量，对特征向量经过分类层和回归层分别实现目标的分类和边框检测操作；参阅图1，本发明方法具体包括以下步骤：

步骤一、采用深度残差卷积神经网络提取输入图像的特征，并将深度残差卷积神经网络后三层的卷积特征输出保存备用；其中，本发明使用的深度残差卷积神经网络为切除池化层和全连接层的ResNet-101网络，且ResNet-101网络包括五层大卷积层，具体可参阅图2，从中可知，本实施例中的五层大卷积层的输从左至右输出的卷积特征大小分别是112×112、56×56、28×28、14×14以及7×7；结合图3，本发明在深度残差卷积神经网络组件的输出中添加了一个输入特征的恒等映射，从而保证在深度残差卷积神经网络选了和测试过程中不会出现梯度消失的情况，提高本发明方法的适用性。

再次参阅图2，从中可知，步骤一中所述深度残差卷积神经网络的后三层为五层大卷积层的第三大卷积层、第四大卷积层和第五大卷积层。

步骤二、将深度残差卷积神经网络最后一层卷积层输出的卷积特征输入至RPN网络，通过RPN网络筛选输入图像的第一候选框集合N，采用改进的非极大值抑制方法对第一候选框集合N做筛选得到第二候选框集合M；具体包括：

首先，通过PRN网络计算所有第一候选框集合N中每一候选框的得分，采用改进的非极大值抑制法或得最优得分的候选框构成第二候选框集合M；并设定第一阈值η，将第一候选框集合N中除第二候选框集合M的所有候选框构成第三候选框集合S，将第三候选框集合S与第二候选框集合M做IOU计算，得到第三候选框集合S与所述第二候选框集合M的面积比上并集和交集的面积差，选取面积差大于所述第一阈值η候选框构成集合U；然后，设定第二阈值μ，根据公式

对集合U中每一候选框做分类得分重计算，式中，U_i是每个候选框，s_i表示得分，σ表示随机生成的高斯误差，比较并剔除第一候选框集合N中s_i小于第二阈值μ的候选框；最后，将集合U中所有候选框与第二候选框集合M进行四个顶点点坐标的加权平均计算，得到集合U中所有候选框的s_i占所有候选框重计算得分之和的比重，并将加权平均后的候选框代替第二候选框集合M，记为最优候选框集合G；同时，从第一候选框集合N中删除第二候选框集合M，并重复上述步骤，直到第一候选框集合N不在存在候选框为止。

优选的，RPN网络使用不同尺度的anchors来表示不同形状的目标，优选的，anchors通过3种比例{1:2,1:1,2:1}和5种面积大小{32^2,64^2,128^2,256^2,512^2}组成15种形状，然后使用滑动窗口的方法在深度参数卷积神经网络的最后一层输出特征上以步长为1进行滑动，在每一个窗口中心处生成15个通道数为256的特征；此时，对于每个anchor生成的特征，利用256个对应大小卷积核使其变成一个256维的1×1的尺度，输入分类层取得对应候选框属于前景和背景的得分；最后RPN网络输出属于前景的候选框集合，即第一候选框集合N。

本发明的方法通过采用非极大值抑制法可降低过渡抑制重叠候选框的概率，提升并发明方法的鲁棒性。

步骤三、使用LSTM方法对深度残差卷积神经网络最后一层卷积层输出的卷积特征进行两次上下左右四个方向分别进行全局上下文提取，获得与输出的卷积特征尺度大小相同的上下文信息特征并保存备用；具体可参阅图4，从中可知，首先，LSTM方法对最后一层卷积层输出的卷积特征利用1×1的卷积核进行卷积计算，将输出的特征拷贝四份，分别进行上下左右四个方向的LSTM计算；本发明使用的LSTM方法具有四个参数权重W_i,W_c,W_f,W_o，通过VOC 2007数据预训练的模型迁移而来，其中，LSTM方法向右迭代计算可通过如下公式实现：

公式中

表示当前像素值，

表示当前左边像素值；同理，左和上、下三个方向的计算公式也一样，在此不再进行赘述；本发明方法经过LSTM方法一轮计算，特征中每一个元素向右传递信息，叠加到其右边所有元素上。如果四个方向都计算一遍就可以获取四个特征，将四个特征拼接后使用1×1的卷积核进行卷积计算，将通道数变回512；再进行一轮LSTM方法的计算就能获得一个包含全局上下文信息的特征，和最后卷积层的输出等同大小。

步骤四、从卷积特征中截取第二候选框集合M中每个候选框对应的候选框特征矩阵，并将候选框特征矩阵通过池化成指定尺寸大小；其中，本实施例采用ROIAlign的池化技术对候选框特征矩阵进行池化，得到7×7×512大小的候选框特征矩阵并保存备用。

步骤五、本发明还需要从上下文信息特征中截取第二候选框集合M中每个候选框对应的候选框上下文特征矩阵，并将候选框上下文特征矩阵通过池化成指定尺寸大小；同样的，采用与步骤四中相同的ROI Align池化技术对候选框上下文特征矩阵进行池化操作，得到7×7×512大小的候选框上下文特征矩阵并保存备用；其中，上下文信息特征中每一位置的像素值都包含对应位置的全局上下文信息。

上述步骤四和步骤五中采用的ROIAlign池化技术的原理为：将区域等值划分成7×7个单元，然后使用插值技术获取最后的7×7大小的池化特征；通过ROIALign池化操作后可避免由于对候选框进行量化后而导致精度失配的问题，从而提升本发明方法对目标检测的精度。

优选的，在本发明实施例中，步骤四和步骤五对于每一候选框，可通过选取深度残差卷积神经网络后三层卷积层输出的卷积特征以及上下文信息特征对应的候选框特征，然后，第五层卷积层输出的卷积特征和上下文信息特征直接采取坐标映射方式就可以选取候选框对应位置的特征，第三层和第四层卷积层可以通过反卷积方式放大到和第五层输出等同大小后，再使用直接映射方式选取候选框对应位置的特征即可；此为本发明方法的较佳实施例，并不是对本发明的限制和固定，可根据实际情况进行选择。

步骤六、将每一候选框对应的候选框特征矩阵和候选框上下文特征矩阵进行正则化后拼接得到多尺度特征，以固定多尺度特征的大小；将多尺度特征输入全连接层得到高维特征向量，并将高维特征向量输入分类层实现目标类别检测，将高维特征向量输入回归层实现边框位置检测。

优选的，本发明采用L2正则化方法对获取得到到大小为7×7×512的特征矩阵进行正则化：首先以特征矩阵的每个像素单位为例，对像素点位置对应的512个通道值进行平方后再求平方根的值求和取得值SUM，然后让512个通道值除以SUM后形成新值取代原值，7×7个像素单位都进行上述计算后完成正则化操作；随后将正则化后的四个特征矩阵按照通道依次连接，即由7×7×512变成7×7×2048，然后通过512个1×1×2048的卷积核对其卷积操作又变成7×7×512，至此拼接操作完成；通过正则化和拼接操作可以获取的多个特征矩阵规范化后进行有效拼接和融合，形成适合全连接层输入的尺度大小即7×7×512，从而实现对多尺度特征大小的固定作用。

此外，本发明为了获取图像中的一些目标个体，并且对目标个体进行类别判断和位置标注，在目标类别检测中，本发明具体通过分类层，即分类器对候选框中目标个体的类型进行判断；并且通过回归层，即回归器调整候选框位置以确保候选框可以覆盖待检测的目标个体，实现目标类别的检测操作。

上述步骤四至步骤六为对单个目标检测的详细过程，对于多目标类别的检测，本发明方法通过重复步骤四、步骤五和步骤六，实现对多目标类别的候选框进行检测并输出每一目标类别的边框坐标。

与现有技术相比，本发明的融合上下文信息的多尺度目标检测方法的有益效果为：本发明适用于多目标检测，且融合方式比较简单易行，能够在不需要很高的计算复杂度条件下提高小尺度目标的检测精度；本发明保留了Faster R-CNN中区域推荐网络RPN的使用，并且使用改进的极大值抑制方法进行二次候选框筛选，保证在多目标重叠的情景下不会出现过度抑制候选框的情况，提高了目标检测的精度；本发明使用LSTM方法完成深度残差卷积神经网络的输出卷积特征每个位置上下左右四个方向上的全局上下文信息提取工作，并且融合到检测特征中，可以有效提高目标重叠情景下目标分类的精度；本发明基于Faster R-CNN方法进行细节调优，最终的检测架构可以有效提高小目标的检测精度，在目标重叠较多的情景下能够具有较高的分类精度，适用于复杂场景且具有较强的处理能力；同时具有较低的时间复杂度，可适用领域广泛。

以上仅为本发明的较佳实施例，但并不限制本发明的专利范围，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明专利保护范围之内。

Claims

1.一种融合上下文信息的多尺度目标检测方法，其特征在于，所述方法包括步骤：

S2、将所述深度残差卷积神经网络最后一层卷积层输出的卷积特征输入至RPN网络，通过所述RPN网络筛选所述输入图像的第一候选框集合N，采用改进的非极大值抑制方法对所述第一候选框集合N做筛选得到第二候选框集合M；

2.如权利要求1所述的融合上下文信息的多尺度目标检测方法，其特征在于，所述深度残差卷积神经网络为切除池化层和全连接层的ResNet-101网络，所述ResNet-101网络包括五层大卷积层。

3.如权利要求2所述的融合上下文信息的多尺度目标检测方法，其特征在于，步骤S1中，所述深度残差卷积神经网络后三层的为所述五层大卷积层的第三大卷积层、第四大卷积层和第五大卷积层。

4.如权利要求1所述的融合上下文信息的多尺度目标检测方法，其特征在于，步骤S2中，采用改进的非极大值抑制方法对所述第一候选框集合N做筛选得到第二候选框集合M，包括：

S21、通过PRN网络计算所有所述第一候选框集合N中每一候选框的得分，采用所述改进的非极大值抑制法或得最优得分的候选框构成所述第二候选框集合M；

S23、设定第二阈值μ，根据公式

5.如权利要求1所述的融合上下文信息的多尺度目标检测方法，其特征在于，所述上下文信息特征中每一位置的像素值都包含对应位置的全局上下文信息。

6.如权利要求1所述的融合上下文信息的多尺度目标检测方法，其特征在于，步骤S4和S5中，采用ROIAlign方法实现所述池化操作。