CN109934236A

CN109934236A - 一种基于深度学习的多尺度转换目标检测算法

Info

Publication number: CN109934236A
Application number: CN201910069754.5A
Authority: CN
Inventors: 招继恩; 龙飞; 胡建国; 杨焕; 朱勇杰; 王国良
Original assignee: Smart Polytron Technologies Inc; National Sun Yat Sen University
Current assignee: Smart Polytron Technologies Inc; Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-25

Abstract

本发明公开了一种基于深度学习的多尺度转换目标检测算法，其特征在于，包括以下步骤：S1，采用基础网络进行特征提取；S2，采用多尺度转换模块，对于卷积网络生成的特征进行处理；S3，采用目标定位和分类模块，对目标进行精准定位以及对输出目标分类。本发明的算法改善了整个网络的信息流和梯度，使得更容易进行训练。每一层都可以直接访问损失函数和原始输入信号的梯度，从而实现隐式的深度监控，这有助于更深入地训练网络架构。

Description

一种基于深度学习的多尺度转换目标检测算法

技术领域

本发明涉及多尺度转换目标检测算法，具体涉及一种基于深度学习的多尺度转换目标检测算法。

背景技术

目前，目标检测作为计算机视觉中经典的研究内容之一，在研究领域得到越来越多的关注。目标检测是通过分析成像传感器获得到的场景视频图像帧，从背景信息中识别出目标的类别，并给出目标在图像中的位置信息，从而为后续的目标追踪，情景识别等任务提供可靠的数据来源。因此，目标检测也是广泛应用于各个领域，如交通运输，智能安防，军事领域等等。近年来，卷积神经网络在目标检测等计算机视觉任务中取得了巨大的成功。人工构造的特征被卷积神经网络的特征所代替，大大提高了目标检测器的性能。目前最先进的目标检测方法是基于卷积神经网络的，例如SPPnet，Fast R-CNN、Faster R-CNN、R-FCN、YOLO等使用卷积神经网络顶层的特征检测不同尺度的对象。然而，由于卷积神经网络的每一层都有一个固定的感受野，仅利用一层的特征来预测不同尺度的目标并不是最理想的。而进一步提高多尺度目标检测精度的方法主要有两种：①使用多层特征的组合来检测目标；②利用不同层的特征来预测不同尺度的物体。

对于第一种方法，ION使用了跳跃式的池化层在多个层中提取信息，然后使用组合特征检测目标。HyperNet融合了图像的深，中，浅不同层次的特征用于生成目标兴趣区域和检测目标。YOLOv2通过一个额外的层次将高分辨率的特征与低分辨率特征连接起来，并在这个扩展的映射特征上进行检测。这些方法的基本思想是通过结合低层特征和高层特征来增强特征的性能。

对于第二种方法，如SSD，MS-CNN和DSOD结合了多个映射特征的预测结果来处理不同大小的目标，例如对于小尺寸目标采用浅层特征，对于小尺寸则使用深层特征。FPN和TDM使用自顶向下的体系结构来构建高级语义的映射特征，DSSD使用沙漏结构传递上下文信息进行预测。

尺寸问题一直是目标检测的核心。为了检测不同尺寸的目标，一种基本的策略是使用图像金字塔模型来获取不同尺度的特征。然而，这将大大地增加内存和计算复杂度，降低目标检测器的实时性。Faster R-CNN使用一层卷积计算得到的映射特征来预测不同尺度和纵横比的候选区域提议。由于CNN各层的感受野是固定的，那么在自然图像中由于目标存在多种尺度，就会与固定的感受野之间产生不一致性，这会影响对目标检测的性能。SSD和MS-CNN利用CNN内部不同层次的卷积层来预测不同尺寸的目标。浅层的映射特征有小的感受野，用于检测小目标，而深层的映射特征有大的感受野，用于检测大目标。然而，浅层映射特征的语义信息较少，会影响小尺寸目标检测的性能。FPN、ZIP和DSSD通过自上而下的体系结构将高级语义映射特征和低级映射特征组合在一起，在所有尺度的映射特征上生成更多的语义映射特征信息。然而，为了提高检测性能，上述方法的体系结构必须通过增加许多卷积层和池化层来仔细构造，添加额外的层次来获取金字塔状的映射特征带来了额外的计算代价，造成了不可忽视的成本。

发明内容

本发明的主要目的在于提供了一种基于深度学习的多尺度转换目标检测算法，获得高层次的语义多尺度映射特征，而同时又不影响检测器的检测速度。

本发明采用的技术方案是：一种基于深度学习的多尺度转换目标检测算法，包括以下步骤：

S1，采用基础网络进行特征提取；基础网络作为一种网络体系结构，将所有具有匹配的映射特征大小的层直接连接在一起，每个层从前面所有层获取额外的输入，并将自己的映射特征传递给后面所有层；不在特性被传递到下一个网络层之前通过求和来组合它们，而是通过连接这些特性来进行组合；

S2，采用多尺度转换模块，对于卷积网络生成的特征进行处理；采用多尺度转换模块将不同分辨率的映射特征的预测结果结合起来，在上述的网络体系结构中，最后一层的输出是具有不同尺寸大小的映射特征，且具有高维度的通道数；且通过所述网络体系结构，将底层特征直接转移到网络的顶部，得到了强语义特征，网络顶部的映射特征既有底层的细节信息，又有高层的语义信息，从而提高了目标定位和分类的性能；在多尺度转换模块中，一方面采用平均池化来获取低分辨率的映射特征，另一方面对于高分辨率的映射特征，采用将高纬度的通道数转换为更高分辨率的映射特征；

S3，采用目标定位和分类模块，对目标进行精准定位以及对输出目标分类；是由目标定位子网和目标分类子网组成模块，通过定锚机制，为在多尺度转换模块中获得的每个映射特征的每个像素点配备上一组若干个尺寸的默认锚框。

进一步地，所述步骤S1具体为：

通过卷积网络传递单个图像,网络由L层组成，每一层都是一个非线性变换f_l(·)，其中l是对网络中层次的索引；f_l(·)可以是批量处理标准化，修正线性单元，池化或者卷积等操作的复合函数；定义第l层的输出为y_l，第l层接受了前面所有层的映射特征fm₀，fm₁，…，fm_l-1作为输入，有：

y_l＝f_l([fm₀，fm₁，…，fm_l-1])

其中([fm₀，fm₁，…，fm_l-1])表示在第0，1，…，l-1层产生的映射特征的拼接；通过在网络结构中不同的卷积块之间加入一个转化层来实现不同尺寸的映射特征，而该转化层包含一个批量标准化层BN，一个激活函数ReLU,一个卷积层Conv和一个池化层Pooling；其中，ReLU函数的具体表达式为：

f(x)＝max(0,x)

因此，第i层网络有i个输入，包括前面所有卷积模块的映射特征，且自身的映射特征被传递到所有的后续层；这将在L层引入个连接，而不是像传统结构一样只引入L个连接。

更进一步地，所述步骤S2具体为：

设输入多尺度转换模块的张量维度是H×W×C×η²，其中，H是高度，W是宽度，C是通道数，η是上采样因子，尺度变换是对元素进行重排列，具体表达如下：

其中，R^{S R}是高分辨映射特征，R^{L R}是低分辨率映射特征；与反卷积不同的是尺度转换没有额外的参数和计算开销，在反卷积的操作之前还需要进行0值的填充；尺度转换层可以有效地减少上述基础网络结构中最后一层地通道数，减少后续层次的参数和计算量；平均池化层以及尺度传输层组成本方法中的多尺度转化模块，将多尺度转化模块直接嵌入到上述的基础网络结构中，能获得若干个不同尺寸的映射特征。

更进一步地，所述步骤S3具体为：

采用的锚框比例为1:1,1:2,1:3,2:1,3:1五种，并为这五种比例每种配备三种尺寸的检测框；利用这五种比例的检测框来滑动遍历上个上一步得到的映射特征，为映射特征中的每一个点配备15个检测框，利用这样的滑动遍历，每张图像大概能够产生三万多个检测框，能够确保图像中的每一个目标区域都能被提取；而对于通过定锚机制生成的检测框需要经过偏移量的不断回归来还原到匹配的目标定位的真实位置；偏移量回归网络的结构包含批量处理标准化等，卷积层以及relu函数；

分类子网的作用是预测属于一个类别的每个锚的概率，包括一个批处理标准化层，卷积层以及relu激活函数；最后一个卷积层有K·A个卷积核，其中K是目标的类别数量，A是每个空间位置锚的数量；

训练目标是最小化分类和定位损失，如下所示：

L(a,I,θ)＝L_cls(y_a,p_cls(I,a,θ))+λ·[y_a>0]·L_loc(Φ(b_a,a)-p_loc(I,a,θ))

其中，a代表锚，I代表图像，θ代表最优参数；L_cls代表分类损失，L_loc代表定位损失；y_a∈{0,1,…,K}代表分类标签，当锚a没有匹配时y_a＝0；

p_cls(I,a,θ)和p_loc(I,a,θ)是预测框编码和对应的类别，Φ(b_a,a)是与锚a匹配的真实位置的编码，λ是权重系数。

本发明的优点：

本发明的算法改善了整个网络的信息流和梯度，使得更容易进行训练。每一层都可以直接访问损失函数和原始输入信号的梯度，从而实现隐式的深度监控，这有助于更深入地训练网络架构。本发明的算法同时利用不同层映射特征预测不同尺寸目标以及多层映射特征融合预测不同尺寸目标的方法。即利用多个预测层对不同尺寸的目标进行预测，同时通过结合不同深度的特征得到每个预测层的特征。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的一种基于深度学习的多尺度转换目标检测算法流程图；

图2是本发明的一种基于深度学习的多尺度转换目标检测算法的多尺度转换模块原理图；

图3是本发明的一种基于深度学习的多尺度转换目标检测算法的采用目标定位和分类模块的框架图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示，一种基于深度学习的多尺度转换目标检测算法，包括以下步骤：

S2，采用多尺度转换模块(如图2所示)，对于卷积网络生成的特征进行处理；采用多尺度转换模块MSTM(Multiple scale transfer module)将不同分辨率的映射特征的预测结果结合起来，在上述的网络体系结构中，最后一层的输出是具有不同尺寸大小的映射特征，且具有高维度的通道数；且通过所述网络体系结构，将底层特征直接转移到网络的顶部，得到了强语义特征，网络顶部的映射特征既有底层的细节信息，又有高层的语义信息，从而提高了目标定位和分类的性能；在多尺度转换模块中，一方面采用平均池化来获取低分辨率的映射特征，另一方面对于高分辨率的映射特征，采用将高纬度的通道数转换为更高分辨率的映射特征；

所述步骤S1具体为：

通过卷积网络传递单个图像,网络由L层组成，每一层都是一个非线性变换f_l(·)，其中l是对网络中层次的索引。f_l(·)可以是批量处理标准化，修正线性单元，池化或者卷积等操作的复合函数。定义第l层的输出为y_l，第l层接受了前面所有层的映射特征fm₀，fm₁，…，fm_l-1作为输入，有

y_l＝f_l([fm₀，fm₁，…，fm_l-1])

其中([fm₀，fm₁，…，fm_l-1])表示在第0，1，…，l-1层产生的映射特征的拼接。与此同时，本方法通过在网络结构中不同的卷积块之间加入一个转化层来实现不同尺寸的映射特征，而该转化层包含一个批量标准化层BN(Batch normolization),一个激活函数ReLU,一个卷积层Conv和一个池化层Pooling。

其中，ReLU函数的具体表达式为：

f(x)＝max(0,x)

因此，第i层网络有i个输入，包括前面所有卷积模块的映射特征，且自身的映射特征被传递到所有的后续层。这将在L层引入个连接，而不是像传统结构一样只引入L个连接。这样在确保网络中各层之间最大信息流的同时，也保持了网络的前馈特性。

参考图2，如图2所示，所述步骤S2具体为：

假设输入多尺度转换模块的张量维度是

H×W×C×η²

其中，H是高度，W是宽度，C是通道数，η是上采样因子，尺度变换是对元素进行重排列，具体表达如下：

其中，R^{S R}是高分辨映射特征，R^{L R}是低分辨率映射特征。与反卷积不同的是尺度转换没有额外的参数和计算开销，在反卷积的操作之前还需要进行0值的填充。尺度转换层可以有效地减少上述基础网络结构中最后一层地通道数，减少后续层次的参数和计算量。平均池化层以及尺度传输层组成本方法中的多尺度转化模块，将多尺度转化模块直接嵌入到上述的基础网络结构中，可获得多个不同尺寸的映射特征，而且利用本方法提取的特征既有低层的细节信息，还具备高层的全局语义信息，不仅在检测速度上有所提升，检测精度也提高了很多。

参考图3，如图3所示，所述步骤S3具体为：

采用的锚框比例为[1:1,1:2,1:3,2:1,3:1]五种，并为这五种比例每种配备三种尺寸的检测框。利用这五种比例的检测框来滑动遍历上个上一步得到的映射特征，为映射特征中的每一个点配备15个检测框(设定三个固定尺寸的检测框，每个尺寸按照比例得到五个检测框)，利用这样的滑动遍历，每张图像大概能够产生三万多个检测框，能够确保图像中的每一个目标区域都能被提取。而对于通过定锚机制生成的检测框需要经过偏移量的不断回归来还原到匹配的目标定位的真实位置。偏移量回归网络的结构包含批量处理标准化等，卷积层以及relu函数。

分类子网的作用是预测属于一个类别的每个锚的概率，包括一个批处理标准化层，卷积层以及relu激活函数。最后一个卷积层有K·A个卷积核，其中K是目标的类别数量，A是每个空间位置锚的数量。

最终综合起来，训练目标是最小化分类和定位损失，如下所示：

与传统卷积网络相比，本方法需要的参数更少，因为不需要重新学习冗余的映射特征。在传统方法中，前馈的体系结构可以看作是一种具有状态的算法，是经过一层一层进行传递的，每一层从前一层读取状态并写入到下一层，它在改变状态的同时传递需要保存的信息，但是在实际中，很多层次的贡献非常小，可以在训练中随机删除。而在本方法中，本方法中的网络体系明确区分了新添加到网络中的信息和原来保留的信息。对于卷积层的卷积核个数设定较少，只在网络的结构集合处加入一小部分映射特征，其余的映射特征保持不变，最终的分类根据网络中所有的映射特征来做决策。

利用本发明的算法提取的特征既有低层的细节信息，还具备高层的全局语义信息，不仅在检测速度上有所提升，检测精度也提高了很多。

本发明的算法同时利用不同层映射特征预测不同尺寸目标以及多层映射特征融合预测不同尺寸目标的方法。即利用多个预测层对不同尺寸的目标进行预测，同时通过结合不同深度的特征得到每个预测层的特征。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的多尺度转换目标检测算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的多尺度转换目标检测算法，其特征在于，所述步骤S1具体为：

y_l＝f_l([fm₀，fm₁，…，fm_l-1])

f(x)＝max(0,x)

3.根据权利要求1所述的基于深度学习的多尺度转换目标检测算法，其特征在于，所述步骤S2具体为：

其中，R^SR是高分辨映射特征，R^LR是低分辨率映射特征；与反卷积不同的是尺度转换没有额外的参数和计算开销，在反卷积的操作之前还需要进行0值的填充；尺度转换层可以有效地减少上述基础网络结构中最后一层地通道数，减少后续层次的参数和计算量；平均池化层以及尺度传输层组成本方法中的多尺度转化模块，将多尺度转化模块直接嵌入到上述的基础网络结构中，能获得若干个不同尺寸的映射特征。

4.根据权利要求1所述的基于深度学习的多尺度转换目标检测算法，其特征在于，所述步骤S3具体为：

训练目标是最小化分类和定位损失，如下所示：

L(a,I,θ)＝L_cls(y_a,p_cls(I,a,θ))+λ·[y_a>0]·L_loc(Φ(b_a,a) -p_loc(I,a,θ))