CN110008953A

CN110008953A - 基于卷积神经网络多层特征融合的潜在目标区域生成方法

Info

Publication number: CN110008953A
Application number: CN201910249632.4A
Authority: CN
Inventors: 罗荣华; 廖晓雯
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-12
Anticipated expiration: 2039-03-29
Also published as: CN110008953B

Abstract

本发明属于深度学习和计算机视觉技术领域，涉及基于卷积神经网络多层特征融合的潜在目标区域生成方法，包括：构建基于卷积神经网络的特征提取模块，提取图像多层次特征，特征提取模块有两路输出，其中，第一路输出是特征提取模块中除去第一阶段的其他所有阶段最后一个卷积层的集合，输出多层次特征图；第二路输出是从图像中提取的图像特征；构建基于卷积神经网络的潜在目标区域生成模块，输出潜在目标区域侯选框信息；综合潜在目标区域候选框的位置置信度和分类得分，使用混合的非极大值抑制算法对潜在目标区域候选框进行筛选，得到潜在目标区域。本发明可以充分利用图像中上下层特征图的语义信息，进一步提高潜在目标区域的定位精度和鲁棒性。

Description

基于卷积神经网络多层特征融合的潜在目标区域生成方法

技术领域

本发明属于深度学习和计算机视觉技术领域，涉及一种基于卷积神经网络多层特征融合的潜在目标区域生成方法。

背景技术

随着计算机硬件水平的提升，人工智能、深度学习技术得以突破和发展，以卷积神经网络为基础的计算机视觉任务成为当前最受关注的对象之一。作为图像目标检测的基本研究问题之一，潜在目标区域生成也焕发出生机。潜在目标区域生成是针对一张图像，找出那些最可能含有目标的候选窗并进行定位，进而利用这些候选窗来加快图像的目标检测。

目前潜在目标区域生成的方法包括：基于传统机器学习的方法和基于卷积神经网络的深度学习的方法。基于传统机器学习的方法需要人工提取特征，不仅速度慢、与特定的项目有关，还与设计人员的经验和能力有关；基于卷积神经网络的方法虽然也可以用来进行特征提取，但是Faster R-CNN等潜在目标区域算法只考虑从分类得分角度对候选区域进行筛选，IOU-guided NMS算法只使用候选区域的位置置信度作为筛选标准，从它们实验结果来看这两个因素对候选区域的选择都起着作用，但是单独使用一项用作标准将会降低另一项因素的作用，因此十分有必要根据位置置信度和分类得分提出新的非极大值抑制算法对候选框进行挑选。同时，现有的区域生成网络RPN(Region Proposal Net)等算法在小物体的检测方面表现不如采用特征融合的FPN(Feature Pyramid Networks)算法，小物体的召回率比较低。据有关统计实验表明，对于用于图像目标检测的潜在目标区域，其召回率和定位精度同样重要，因此潜在目标区域生成方法需要对多层特征的融合进行进一步地研究和改善。

发明内容

针对现有技术的不足，本发明提供一种基于卷积神经网络多层特征融合的潜在目标区域生成方法。

本发明采用如下技术方案实现：

基于卷积神经网络多层特征融合的潜在目标区域生成方法，包括：

S1、构建基于卷积神经网络的特征提取模块，提取图像多层次特征，特征提取模块有两路输出，其中，第一路输出是特征提取模块中除去第一阶段的其他所有阶段最后一个卷积层的集合，输出多层次特征图；第二路输出是从图像中提取的图像特征；

S2、构建基于卷积神经网络的潜在目标区域生成模块，用于接收特征提取模块第一路输出的多层特征图，对多层次特征图进行反卷积操作，拼接形成一个整体特征图；对整体特征图进行多种卷积得到特征融合后的局部特征和全局特征不同组合的特征图；对不同组合的特征图采用不同大小和比例的滑动窗口进行扫描，对扫描到的区域进行预测和回归，使用焦点损失函数保证前背景样本数量的平衡，输出潜在目标区域侯选框信息；

S3、构建基于卷积神经网络的潜在目标区域筛选模块，综合潜在目标区域候选框的位置置信度和分类得分，使用混合的非极大值抑制算法对潜在目标区域候选框进行筛选，得到潜在目标区域。

进一步地，潜在目标区域侯选框信息包含三部分：①代表前景或背景的标签、②潜在目标区域侯选框分类得分、③潜在目标区域侯选框位置参数(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高。

进一步地，基于卷积神经网络的潜在目标区域生成，包括三个阶段：

第一阶段首先对输入的多层次特征图进行不同尺度的反卷积操作，使得所有特征图的长宽和输入的特征图中最大的一张特征图的长宽相同，然后按照以通道为轴的方式进行拼接，形成一个通道数等于所有特征图通道数和的整体特征图；

第二阶段对整体特征图进行多种卷积实现特征融合后得到局部特征和全局特征不同组合的特征图；

第三阶段对不同组合的特征图采用不同大小和比例的滑动窗口进行扫描，对扫描到的区域进行预测和回归，使用焦点损失函数保证前背景样本数量的平衡，输出潜在目标区域侯选框信息。

优选地，第一阶段由多条分支构成，特征提取模块第一路输出的每一个特征图对应每一阶段的一个分支，输入的特征图中除了长宽最大的特征图不进行反卷积，其他特征图都进行反卷积，卷积结束后所有特征图的长和宽相等，只有通道数不同，最后在通道轴上对反卷积后的特征图和长宽最大的特征图进行拼接形成一个整体特征图。

优选地，第三阶段包含分类和线性回归任务，损失函数采用多任务的形式，使用回归算法预测潜在目标区域候选框位置参数t＝(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高，使用分类算法预测潜在目标区域候选框中对象的分类得分，区分潜在目标区域候选框中映射到原图所指向的区域是前景或者背景。

优选地，使用焦点损失函数作为分类函数，使用Smooth L1损失函数进行回归运算。

进一步地，滑动窗口尺寸设计和对应使用的卷积核大小有关，卷积核越大表明所要检测的目标尺度越大，使用较大的滑动窗口进行扫描，卷积核越小表明所要检测的目标尺度越小，使用较小的滑动窗口进行扫描，相邻层采用重复的尺寸。

优选地，第三个阶段第一分支使用的滑动窗口尺寸是16*16和32*32，第二个分支使用的滑动窗口尺寸是32*32和64*64，第三个分支使用的滑动窗口尺寸是64*64和128*128，第四个分支使用的滑动窗口尺寸是128*128和256*256；每个滑动窗口的三个长宽比例是1:1、1:2和2:1。

优选地，混合的非极大值抑制算法包含IOU-guided NMS算法和Soft-NMS算法。

进一步地，步骤S3包括：

①使用IOU-Net算法得到潜在目标区域侯选框的位置置信度，根据位置置信度使用IOU-guided NMS算法进行潜在目标区域候选框的筛选，得到Top K个结果；

②根据潜在目标区域候选框的分类得分使用Soft-NMS算法对潜在目标区域侯选框进行筛选，得到Top K个结果；

③按照一定的机制从两个结果中筛选出符合要求的Top K个潜在目标区域。

与现有技术相比，本发明具有如下有益效果：

(1)通过多尺度的特征融合可以更好地找到尺度较小的感兴趣目标区域。

(2)通过将不同层的特征进行拼接组合一起学习，可以充分利用图像中上下层特征图的语义信息，进一步提高潜在目标区域的定位精度和鲁棒性。

(3)通过非极大值抑制可以更一步地筛选出更好的潜在目标区域，并且减少潜在目标区域筛选的计算量。

附图说明

图1是本发明一个实施例中基于卷积神经网络多层特征融合的潜在目标区域生成方法的结构框图；

图2是本发明一个实施例中基于卷积神经网络多层特征融合的潜在目标区域生成方法的流程图；

图3是本发明一个实施例中潜在目标区域生成网络结构图；

图4是本发明一个实施例中潜在目标区域生成示意图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细地描述，但本发明的实施方式并不限于此。

潜在目标区域生成是图像目标检测任务的基础性工作，它的任务是在图片中定位出若干个可能含有感兴趣目标的候选框。潜在目标区域生成方法性能的好坏直接影响着图像检测效果，性能好坏的评价指标主要体现在召回率、定位精度、抗干扰性、处理速度、鲁棒性等方面。潜在目标区域生成方法的难点在于处理图像中目标的尺寸大小不一、目标与背景颜色相近、目标相似重叠以及物体过小等因素带来的问题，传统的方法往往在这些方面顾此失彼，不能兼顾。

为此，本发明采用多层特征融合的方式，从不同层次的特征图中学习不同尺度物体的特征，同时融合上下文信息，学习到更丰富和表达能力更强的特征，形成一个端到端的结构化网络，充分利用图像的上下文环境得到更加精细和鲁棒的潜在目标区域。另外，在基于位置置信度的非极大值抑制算法和基于分类得分的非极大值抑制算法的基础上添加参数λ，综合考虑位置置信度和分类得分对潜在目标区域候选框选择的影响，进一步提高候选框的质量。

一种基于卷积神经网络多层特征融合的潜在目标区域生成方法，如图1-4所示，包括：

S1、构建基于卷积神经网络的特征提取模块，提取图像多层次特征，特征提取模块有两路输出，其中，第一路输出是特征提取模块中除去第一阶段的其他所有阶段最后一个卷积层的集合，输出多层次特征图；第二路输出是从图像中提取的图像特征。

特征提取模块提取图像多层次特征，不同层次提取的特征不同，低层次特征图学习到的是局部特征，高层次特征图学习到的是全局特征，通常在较低层次特征图中能够捕捉到小物体的特征。特征提取模块分为若干个阶段，每一阶段由卷积层、池化层等组合形成。

特征提取模块采用基于卷积神经网络的特征提取网络实现，特征提取网络分为若干个阶段，一般根据所采用的卷积神经网络结构进行划分。本实施例中，使用VGG-16卷积神经网络提取图像多层次特征，具有5个阶段，该网络有两路输出，其中，第一路输出是VGG-16网络中除去第一阶段的其他所有阶段的最后一个卷积层的集合，即从第2～5个阶段中提取最后一个卷积层作为特征提取网络的第一路输出，分别记为FM_2、FM_3、FM_4、FM_5，序号越大尺寸越小；第二路输出是特征提取网络从图像中提取的图像特征。VGG-16卷积神经网络的特点是：如果在卷积的过程中对所有的卷积做一圈填充，那么卷积层不会改变输入和输出的矩阵大小，所以1000*600大小的图像经过VGG-16网络后得到第二路输出图像特征图大小为原图像的1/16，即63*37。

S2、构建基于卷积神经网络的潜在目标区域生成模块，用于接收特征提取模块第一路输出的多层特征图，对多层次特征图进行反卷积操作，拼接形成一个整体特征图；对整体特征图进行多种卷积得到特征融合后的局部特征和全局特征不同组合的特征图；对不同组合的特征图采用不同大小和比例的滑动窗口进行扫描，对扫描到的区域进行预测和回归，使用焦点损失函数保证前背景样本数量的平衡，输出潜在目标区域侯选框信息。

每个潜在目标区域侯选框信息包含三部分：①代表前景或背景的标签、②潜在目标区域侯选框分类得分、③潜在目标区域侯选框位置参数(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高。

基于卷积神经网络的潜在目标区域生成如图3所示，包括三个阶段：

第一阶段首先对输入的多层次特征图进行不同尺度的反卷积操作，使得所有特征图的长宽和输入的特征图中最大的一张特征图的长宽相同，然后按照以通道为轴的方式进行拼接，形成一个通道数等于所有特征图通道数和的整体特征图。

具体为：第一阶段由多条分支构成，特征提取模块第一路输出的每一个特征图对应每一阶段的一个分支，输入的特征图中除了长宽最大的特征图不进行反卷积，其他特征图都进行反卷积，卷积结束后所有特征图的长和宽相等，只有通道数不同，最后在通道轴上对反卷积后的特征图和长宽最大的特征图进行拼接形成一个整体特征图；

第二阶段对整体特征图进行多种卷积实现特征融合后得到局部特征和全局特征不同组合的特征图。

本实施例中，第二阶段由4条支路构成，每条支路首先使用1*1的卷积融合上下文信息，同时1*1的卷积能够进行降维减少计算的冗余，然后采用尺度不同的卷积核进行卷积操作，得到特征融合的局部特征和全局特征不同组合的特征图。

基于滑动窗口的方式在特征图每个点上预测若干个潜在目标区域候选框位置参数t＝(x,y,w,h)^T，特征图上每个点输出的若干个潜在目标区域候选框分别对应着原图的多种尺寸大小以及多种长宽比，滑动窗口尺寸的设计和对应使用的卷积核大小有关，卷积核越大表明所要检测的目标尺度越大，适合使用较大的滑动窗口进行扫描，卷积核越小表明所要检测的目标尺度越小，适合使用较小的滑动窗口进行扫描，相邻层采用重复的尺寸，一定程度上能够减少小物体漏检的情况。

第三阶段包含分类和线性回归任务，损失函数采用多任务的形式，使用回归算法预测潜在目标区域候选框位置参数t＝(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高，使用分类算法预测潜在目标区域候选框中对象的分类得分，区分潜在目标区域候选框中映射到原图所指向的区域是前景或者背景。

本实施例中，潜在目标区域生成模块采用基于卷积神经网络的潜在目标区域生成网络实现，通过反卷积突出该层特征图激活区域，将所有特征图的长宽变得相等，使得特征图能够进行axis＝0的拼接(contact)操作。在contact操作之后使用1*1的卷积，一方面可以降维，另一方面可以有效的将不同通道也就是不同层的特征进行融合。潜在目标区域生成网络包含分类和线性回归任务，是一个多任务的网络，其损失可由分类损失和回归损失构成，分类损失函数采用焦点损失函数，能够平衡正负样本的比例，回归损失采用平滑L1正则化损失函数。

具体包括：

①对输入的四层特征图中FM_3、FM_4、FM_5的特征图分别进行2*2、4*4、8*8的反卷积，反卷积结束后所有特征图的长和宽与FM_2特征图的长宽相等，只有通道数不同，最后在通道轴上对反卷积的特征图和FM_2进拼接形成特征图FM。

②对特征图FM进行4个1*1的卷积进行降维和上下文特征的融合，然后采用尺度不同的卷积核进行卷积操作，从而实现粗粒度和细粒度结合的特征提取。

对不同层次的信息需要使用不同大小的卷积核处理。本实施例中，如图3所示，对整体特征图分为四个分支处理，为了减少网络的参数，按照一定的比例将其用1*3和卷积和3*1的卷积组合代替。

③使用大小和比例不同的滑动窗口进行扫描，第三个阶段第一分支使用的滑动窗口尺寸是16*16和32*32，第二个分支使用的滑动窗口尺寸是32*32和64*64，第三个分支使用的滑动窗口尺寸是64*64和128*128，第四个分支使用的滑动窗口尺寸是128*128和256*256；每个滑动窗口的三个长宽比例是1:1、1:2和2:1，之所以尺寸上有所重合，是为了找到更多的候选框，避免漏掉小物体。

对扫描到的区域进行分类和回归。因为每层特征图的正样本较少，因此使用焦点损失函数作为分类函数，平衡正负样本数量，区分前背景，使用Smooth L1损失函数进行回归运算，潜在目标区域侯选框位置参数(x,y,w,h)^T。

本实施例中，潜在目标区域生成网络通过随机梯度下降算法和梯度反向传播算法来进行卷积神经端到端的训练和参数学习。

具体为：采用一种混合的非极大值抑制(NMS)算法对潜在目标区域候选框进行抑制，以获取位置置信度和分类得分较高的潜在目标区域，包括：

设IOU-guided NMS算法结果与Soft-NMS算法结果的交集中有M个元素，为了综合考虑到位置置信度和分类得分两种信息，引入参数λ，λ∈[0,1]，按照一定的准则对潜在目标区域进行筛选，得到Top K的输出结果。

本发明潜在目标区域筛选使用如下方式实现：

①使用IOU-Net得到潜在目标区域侯选框的位置置信度，根据位置置信度使用IOU-guided NMS算法进行潜在目标区域候选框的筛选，得到Top K个结果，依次存到有序列表A中；

②使用Soft-NMS算法按照潜在目标区域侯选框的分类得分进行筛选，得到Top K个结果，依次存到有序列表B；

③对列表A和列表B进行相交运算得到列表C。设集合C中有M个元素，则将这M个位置置信度和分类得分都不错的潜在目标区域作为输出的一部分；设对位置置信度和分类得分的关注度分别为λ、(1-λ)，则按照列表顺序依次从列表A取前λ*(K-M)个作为输出的一部分，从列表B中取前(1-λ)*(K-M)个作为输出的一部分；通过这三个部分的筛选，得到Top K个潜在目标区域作为最终的输出。

本实施例中，K取值300。

需要说明的是，在位置置信度计算前，如图2所示，可以加入池化操作，作用是将尺寸不同潜在目标区域侯选框的特征映射为相同大小的特征，便于IOU-Net网络学习潜在目标区域候选框的位置置信度。

本发明融合了卷积神经网络的多层特征进行潜在目标区域生成，难点和重点在于如何将不同尺度的特征图和不同层次的特征进行融合，并且减少无效潜在目标区域候选框的数量。具体地，难点在于如何设潜在目标区域生成网络的网络结构及如何进行潜在目标区域候选框的筛选。如上所述，本实施例中，潜在目标区域生成网络的网络结构由三个阶段组成，第一阶段由四条支路构成，通过反卷积操作统一特征图的大小便于后期特征的融合，第二阶段根据不同尺度的物体在特征图上的不同表现，利用不同尺度的卷积核对图像进行粗粒度和细粒度结合的特征提取，含有六个1*3的卷积核和六个3*1的卷积核；第三阶段预测若干个潜在目标区域候选框所指向的区域坐标、前背景属性和分类得分，目标函数包含分类损失函数和回归损失函数，其中分类损失函数是焦点损失函数，能够平衡正负样本的数量，生成较好的潜在目标区域。

本发明在目标区域筛选综合位置置信度和分类得分，使用混合的非极大值抑制算法筛选出一定数量的潜在目标区域。

综上所述，本发明提出的基于卷积神经网络的多层特征融合的潜在目标区域生成方法，可以有效地克服场景图片中光线变化、背景嘈杂、目标遮挡和目标尺寸过小等问题，通过多层特征融合的方式，充分利用前背景以及目标之间的上下文环境，从而得到鲁棒性更好，准确率更高的潜在目标区域。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于卷积神经网络多层特征融合的潜在目标区域生成方法，其特征在于，包括：

2.根据权利要求1所述的潜在目标区域生成方法，其特征在于，潜在目标区域侯选框信息包含三部分：①代表前景或背景的标签、②潜在目标区域侯选框分类得分、③潜在目标区域侯选框位置参数(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高。

3.根据权利要求1或2所述的潜在目标区域生成方法，其特征在于，基于卷积神经网络的潜在目标区域生成，包括三个阶段：

4.根据权利要求3所述的潜在目标区域生成方法，其特征在于，第一阶段由多条分支构成，特征提取模块第一路输出的每一个特征图对应每一阶段的一个分支，输入的特征图中除了长宽最大的特征图不进行反卷积，其他特征图都进行反卷积，卷积结束后所有特征图的长和宽相等，只有通道数不同，最后在通道轴上对反卷积后的特征图和长宽最大的特征图进行拼接形成一个整体特征图。

5.根据权利要求3所述的潜在目标区域生成方法，其特征在于，第三阶段包含分类和线性回归任务，损失函数采用多任务的形式，使用回归算法预测潜在目标区域候选框位置参数t＝(x,y,w,h)^T，其中(x,y)代表左上角的位置坐标，w、h代表宽和高，使用分类算法预测潜在目标区域候选框中对象的分类得分，区分潜在目标区域候选框中映射到原图所指向的区域是前景或者背景。

6.根据权利要求5所述的潜在目标区域生成方法，其特征在于，使用焦点损失函数作为分类函数，使用Smooth L1损失函数进行回归运算。

7.根据权利要求3所述的潜在目标区域生成方法，其特征在于，滑动窗口尺寸设计和对应使用的卷积核大小有关，卷积核越大表明所要检测的目标尺度越大，使用较大的滑动窗口进行扫描，卷积核越小表明所要检测的目标尺度越小，使用较小的滑动窗口进行扫描，相邻层采用重复的尺寸。

8.根据权利要求7所述的潜在目标区域生成方法，其特征在于，第三个阶段第一分支使用的滑动窗口尺寸是16*16和32*32，第二个分支使用的滑动窗口尺寸是32*32和64*64，第三个分支使用的滑动窗口尺寸是64*64和128*128，第四个分支使用的滑动窗口尺寸是128*128和256*256；每个滑动窗口的三个长宽比例是1:1、1:2和2:1。

9.根据权利要求1、2、4-8中任一项所述的潜在目标区域生成方法，其特征在于，混合的非极大值抑制算法包含IOU-guided NMS算法和Soft-NMS算法。

10.根据权利要求9所述的潜在目标区域生成方法，其特征在于，步骤S3包括：