CN110348311A

CN110348311A - 一种基于深度学习的道路交叉口识别系统及方法

Info

Publication number: CN110348311A
Application number: CN201910511789.XA
Authority: CN
Inventors: 金飞; 王龙飞; 芮杰; 刘智; 徐聪慧; 官恺; 王淑香; 孙启松; 吕虎
Original assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Current assignee: Information Engineering University of PLA Strategic Support Force; Zhengzhou Xinda Institute of Advanced Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-10-18
Anticipated expiration: 2039-06-13
Also published as: CN110348311B

Abstract

本发明提供一种基于深度学习的道路交叉口识别系统及方法，本发明通过对深度学习网络进行了改进，由低到高将低层和高层的卷积层的特征图进行融合，能够将低层卷积层对图像的纹理、边缘等细节信息与高层卷积层对图像的语义信息进行有效的融合，同时结合每层卷积层对应的RPN层的处理能力，有利于对小目标的检测，解决了道路交叉口识别不准确的问题。本发明通过设置4种尺寸和4种比例，从而得到16种不同的区域建议框，能够较好的覆盖全部类型的道路交叉口，增强对X形、Y形和复合型等交叉口的识别效果。

Description

一种基于深度学习的道路交叉口识别系统及方法

技术领域

本发明涉及图像识别领域，具体涉及一种基于深度学习的道路交叉口识别系统及方法。

背景技术

道路交叉口作为道路连接的枢纽，为道路网的快速构建提供准确的位置、方向、拓扑关系等重要信息。道路交叉口在遥感影像中一般为形状较小的面状目标，轮廓特征不明显，易受周围地物干扰。目前的道路交叉口检测算法需要引入较多的人工干预，自动化程度低，且对处于遮挡、邻近物颜色相近等复杂背景下的道路交叉口检测效果不理想。

近年来深度学习革命在计算机视觉和人工智能领域有着显著的成就，在目标检测方面得到了实际性的应用。深度学习方法凭借深度网络强大的学习能力和高效的特征表达能力，能够从像素级别原始数据到抽象的语义概念逐层提取信息，克服了传统方法在自动化程度和可信度等方面的缺陷。

例如，现有的FasterR-CNN网络是在R-CNN、Fast R-CNN网络基础上改进而来的，网络模型包含了4个网络:提取特征网络Convlayers、区域建议网络RPN(Region ProposalNet-work)、Roi Pooling网络和全连接网络。整体网络结构如图1所示，包括：

1)、Conv layers提取特征图

作为一种CNN网络目标检测方法，Faster R-CNN首先使用一组基础的卷积层(Conv)+激活层(Relu)+池化层(pooling)层提取图像的特征图(feature maps)，该featuremaps会用于后续的RPN层和Roi Pooling层。

2)、提取特征网络RPN

RPN从网络内部生成高质量区域建议框，用于对特征图的分类检测。RPN是一个全卷积神经网络，其输入为前端共享CNN的最后一层卷积层输出的特征图，大小不唯一，通过滑窗的方式进行卷积操作，分边界框回归层和分类层两个全连接层输出，分别表示每个窗口的k个矩形目标候选区及每个候选区包含物体的置信度，网络结构如图2所示。

3)、Roi Pooling层

该层将RPN生成的区域建议框和CNN提取得到的feature map进行融合，并通过最大池化方式形成固定尺寸的特征图。

4)、Classifier

将Roi Pooling层形成固定大小的feature map进行全连接操作，利用Softmax分类器对目标进行具体类别的分类，同时，利用边框回归算法获得物体的精确位置。

但是由于道路交叉口在遥感影像中一般为面状的小目标，现有方法中图像里的候选区域由候选区域生成网络生成，候选区域的特征仅由最后一个卷积层经过目标区域池化得到，对小目标的检测效果并不理想。而在一个多层卷积神经网络中，各个卷积层对图像的处理作用是不同的，因此如何对网络结构进行合理优化以利于小目标的检测，是目前需要解决的问题。

发明内容

本发明针对现有技术的不足，从而提供一种基于深度学习的道路交叉口识别系统及方法，具体方案如下：

一种基于深度学习的道路交叉口识别系统，包括提取特征网络、区域建议网络、Roi Pooling网络和全连接网络；

所述提取特征网络包括n个卷积层和n-1个池化层，用于提取输入图像的featuremaps；第一个卷积层的输入端用于输入待测影像，第i个卷积层的输出端连接第i个池化层的输入端，第i个池化层的输出端分别连接第i+1个卷积层的输入端和第i个RPN层的输入端，1≤i＜n；第n个卷积层的输出端连接所述Roi Pooling网络的输入端；

所述区域建议网络包括n个RPN层，第i个RPN层的输入端连接第i个池化层的输出端，第n个RPN层的输入端连接第n个卷积层的输出端；第i个RPN层的输出端连接第i+1个RPN层的输入端；第n个RPN层的输出端连接所述Roi Pooling网络的输入端；

所述Roi Pooling网络的输出端连接所述全连接网络的输入端，所述全连接网络的输出端用于输出图像识别结果。

进一步的，每个RPN层均包括用于计算分类概率的分类层和用于计算回归边框的边界框回归层，每个RPN层将计算得到的分类概率和回归边框进行输出。

本发明还提供了一种基于深度学习的道路交叉口识别方法，包括以下步骤：

(1)将包括道路交叉口的待测影像输入提取特征网络的第一个卷积层，第i个卷积层得到的feature maps输入到第i个池化层，第i个池化层将处理后的feature maps分别输入到第i+1个卷积层和区域建议网络的第i个RPN层，1≤i＜n，n为卷积层的数量；

(2)第i个池化层的处理结果输入到区域建议网络的第i个RPN层，第i个RPN层的处理结果输入到第i+1个RPN层；

(3)第n个卷积层的处理结果分别输入到第n个RPN层和Roi Pooling网络；第n个RPN层的处理结果输入到Roi Pooling网络；

(4)Roi Pooling网络将其处理结果输入到全连接网络，从而得到影像识别结果。

进一步的，步骤(1)中，n为5，第一个卷积层用于提取所述道路交叉口的边缘特征；第二个卷积层用于提取所述道路交叉口的纹理特征；第三个卷积层和第四个卷积层均用于提取所述道路交叉口的抽象特征；第五个卷积层用于提取所述道路交叉口的高度抽象特征。

进一步的，每个RPN层包括边界框回归层和分类层两个全连接层，每个RPN层从内部生成区域建议框，将区域建议框输入到边界框回归层和分类层；

每个RPN层中的边界框回归层计算得到回归边框，每个RPN层中的分类层计算得到分类概率，从第1个RPN层至第5个RPN层依层向下传播计算得到的分类概率和回归边框，在第5个RPN层中分别计算分类概率的平均值和回归边框的平均值，并将得到的平均值输出到RoI Pooling层。

进一步的，5个RPN层都使用的是3*3*512大小的卷积核，以滑动窗口的形式使每个feature maps像素点在对应的原图片上生成16种不同的区域建议框；在生成的所述区域建议框中，利用LoU规则筛选前256个区域建议框。

进一步的，所述16种不同的区域建议框由4种尺寸和4种比例分别设置而成，4种尺寸分别为16*16、32*32、64*64、128*128，4种比例分别为1：1、1：2、2:1、3:1。

进一步的，所述LoU规则为：

生成的区域建议框与目标真实窗口重叠率大于0.8的定义为正样本，重叠率小于0.2的定义为负样本，分别选取正负样本中的前128个区域建议框；每个RPN层将各自选取的256个区域建议框输入到分类层和边界框回归层。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体地说，本发明具有以下优点：

1、本发明通过对深度学习网络进行了改进，由低到高将低层和高层的卷积层的特征提取图进行融合，能够将低层卷积层对图像的纹理、边缘等细节信息与高层卷积层对图像的语义信息进行有效的融合，同时结合每层卷积层对应的RPN层的处理能力，有利于对小目标的检测，解决了道路交叉口识别不准确的问题；

2、本发明通过设置4种尺寸和4种比例，从而得到16种不同的区域建议框，能够较好的覆盖全部类型的道路交叉口，增强对X形、Y形和复合型等交叉口的识别效果。

附图说明

图1是现有技术中Faster R-CNN算法的流程示意图；

图2是现有技术中Faster R-CNN算法中RPN网络结构示意图；

图3是本发明实施例中道路交叉口识别流程图；

图4是本发明实施例中网络结构示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

实施例

由于道路交叉口在遥感影像中一般为面状的小目标，而在原始FasterR-CNN的方法中，候选区域由候选区域生成网络RPN生成，候选区域的特征仅由最后一个卷积层经过目标区域池化得到，对小目标的检测效果并不理想。本实施例针对道路交叉口检测提出了多尺度检测，道路交叉口整体流程如图3所示，包括：

1)多尺度特征图融合

在一个多层卷积神经网络中，低层的特征能很好地表示图像的纹理、边缘等的细节信息，而随着网络层的加深，神经元感受野变大，高层的特征往往能很好地表示图像的语义信息，各个卷积层的特征图取得不同的特性。因此，将低层和高层的卷积层的特征提取图进行融合有利于小目标的检测。

第一步将道路交叉口影像与相对应包含位置信息的xml文件输入到提取特征网络Convlayers(CNN)；第二步是在道路交叉口影像后连接5个卷积层，其中，第一层卷积层主要来提取边缘信息，第二层主要提取纹理特征，后3个卷积层对特征进行抽象提取，卷积核大小和数量分别为1*1*64、1*1*128、3×3*256、3×3*512、3×3*512，其中前两个卷积层设置1*1的卷积核可以降低参数量，后三层卷积层设置3*3的卷积核有利于提取图像的抽象特征；第三步是将conv1_1、conv2_1、conv3_3、conv4_3、conv5_3这5个卷积层的输出经过池化层后将得到的特征图feature maps送入RPN层。

2)优化区域建议网络

FasterR-CNN目标检测算法中，RPN连接在卷积提取特征之后，以最后一层卷积产生的特征图上的每个点为中心滑动窗口，然后生成区域建议框。原始FasterR-CNN中预设了9种anchors，分别对应3种尺度(128*128、256*256、512*512)和三种长宽比(1:1、1:2、2:1)，这种设置方式可以覆盖Pascal VOC、MSCOCO等数据集，但对于道路交叉口来讲，由于其面积较小、形状类型多，原始FasterR-CNN中设置的9种anchors并不适用于道路交叉口。

为了更好的使区域建议框覆盖全部的道路交叉口，本实施例将anchors增加了一种比例和尺寸，根据道路交叉口目标小、形状类型多等特点，将4种尺寸和比例分别设置为16*16、32*32、64*64、128*128和1：1、1：2、2:1、3:1。其中，尺寸设置的主要依据是因为道路交叉在影像中的尺寸主要集中在20*20至100*100之间，减少anchors尺寸可以加快边框回归算法的收敛速度以及提高精准度，边框增加3:1比例主要是针对X形、Y形、复合型等长条形交叉口。

区域建议网络RPN生成16种矩阵建议框proposals，并使用非极大值抑制去冗，然后将处理结果发送给Roi Pooling网络。

3)Roi Pooling层将RPN生成的回归边框、分类概率以及CNN提取得到的featuremaps进行融合，并通过最大池化方式形成固定尺寸的特征图。

4)全卷积Classifier层将Roi Pooling层形成固定大小的feature maps进行全连接操作，利用Softmax分类器对目标进行具体类别的分类，同时，判断识别结果是否为道路交叉口，如果是则修正边框位置后输出识别结果，如果不是则利用边框回归算法对边框再次回归。

5)网络初始化与参数设置

考虑遥感影像中道路交叉口表现形式多样，使用VGG16预训练模型初始化权值参数；RPN中所有新建层的参数，使用标准偏差为0.01的标准正态分布初始化；检测网络两个全连接层分别使用标准偏差为0.01和0.001的标准正态分布初始化，全连接层的偏差初值均为0。前30000次训练学习率设置为0.001，后10000次训练学习率设置为0.0001，动量为0.9，权重下降值为0.0005。

本实施例中改进的Faster-RCNN网络包含4个网络:提取特征网络Convlayers、区域建议网络RPN(Region Proposal Net-work)、Roi Pooling网络和全连接网络，如图4所示。

作为一种CNN网络目标检测方法，提取特征网络Convlayers包括5个卷积层(Conv)和4个池化层(Max pooling)层来提取图像的特征图featuremaps。

第一个卷积层Conv1是由64个1*1大小的卷积核构成，主要用来提取道路交叉口的边缘特征。卷积层输入n*n*3大小的影像，在经历卷积后形成n*n*64大小的feature maps，并将feature maps输入到Max pooling层(即池化层)，得到n/2*n/2*64大小的featuremaps。最后有两个方向输出，一个是将特征图输入到Conv2卷积层中，另一个则是输入到RPN_1网络中。

第二个卷积层Conv2是有128个1*1大小的卷积核构成，主要用来提取道路交叉口的纹理特征。在经历卷积和最大池化操作后得到n/4*n/4*128大小的feature maps。最后有两个方向输出，一个是将特征图输入到Conv3卷积层中，另一个则是输入到RPN_3网络中。

第三个卷积层Conv3和第四个卷积层Conv4分别由256个和512个3*3大小卷积核构成，用来提取道路交叉口的抽象特征。在经历卷积和最大池化操作后分别得到n/8*n/8*256和n/16*n/16*512大小的feature maps，并分别输出到Conv4、RPN_4和Conv5、RPN_5网络中。

第五个卷积层Conv5是由512个3*3大小卷积核构成，用来提取道路交叉口高度抽象的特征。在经历卷积层后feature maps大小不变，并输入到RPN_5网络和Roi Pooling层中。

区域建议网络中每个RPN层从网络内部生成高质量区域建议框，然后将区域建议框输入到边界框回归层和分类层两个全连接层，边界框回归层用于计算回归边框，分类层用于计算分类概率。

5个RPN网络层都使用的是3*3*512大小的卷积核，以滑动窗口的形式使每个feature map像素点在对应的原图片上生成16种不同的区域建议框。

根据道路交叉口目标小、形状类型多等特点，将4种尺寸和比例分别设置为16*16、32*32、64*64、128*128和1:1、1:2、2:1、3:1。

在生成的数以万计的区域建议框中，利用LoU规则筛选前256个区域建议框。

使用的LoU规则为：生成的区域建议框与目标真实窗口重叠率大于0.8的定义为正样本，重叠率小于0.2的定义为负样本，分别选取正负样本中的前128个区域建议框。

5个RPN网络层将各自生成的256个区域建议框输入到分类层和边界框回归层。

分类层首先通过1*1*32大小的卷积核，生成32维特征向量，然后利用Softmax分类器对每个维度的特征向量进行二分类(背景/前景)，Softmax损失函数为：

其中表示前景/背景的真实值，y_i表示前景/背景的概率。

边界框回归层通过1*1*64大小的卷积核，生成32维特征向量，然后利用边框回归算法进行回归边框，回归边框算法损失函数为：

其中表示坐标点的平移量，为权值参数，Φ_s为卷积函数。

1至5层RPN网络，将各自计算得到的分类概率和回归边框依次向下传播，最后在RPN5中分别计算分类概率与回归边框的平均值，并输出到Roi Pooling层。

Roi Pooling层将RPN5生成的区域建议框与分类概率以及CNN提取得到的featuremap进行融合，并通过最大池化方式形成固定尺寸的特征图。

全卷积Classifier层将Roi Pooling层形成固定大小的feature map进行全连接操作，利用Softmax分类器进行对目标进行具体类别的分类，同时，利用边框回归算法对边框再次回归。

本实施例中针对CNN和RPN网络结构进行了改进，能够将多尺度的特征图进行有效融合，有利于对道路交叉口这类小目标的识别，其中涉及到的Roi Pooling和全连接网络属于现有技术，可以参考南昌航空大学硕士论文《基于深度卷积神经网络的小目标检测》。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于深度学习的道路交叉口识别系统，其特征在于：包括提取特征网络、区域建议网络、Roi Pooling网络和全连接网络；

2.根据权利要求1所述的基于深度学习的道路交叉口识别系统，其特征在于：每个RPN层均包括用于计算分类概率的分类层和用于计算回归边框的边界框回归层，每个RPN层将计算得到的分类概率和回归边框进行输出。

3.一种基于深度学习的道路交叉口识别方法，其特征在于：包括以下步骤：

（1）将包括道路交叉口的待测影像输入提取特征网络的第一个卷积层，第i个卷积层得到的feature maps输入到第i个池化层，第i个池化层将处理后的feature maps分别输入到第i+1个卷积层和区域建议网络的第i个RPN层，1≤i＜n，n为卷积层的数量；

（2）第i个池化层的处理结果输入到区域建议网络的第i个RPN层，第i个RPN层的处理结果输入到第i+1个RPN层；

（3）第n个卷积层的处理结果分别输入到第n个RPN层和Roi Pooling网络；第n个RPN层的处理结果输入到Roi Pooling网络；

（4）Roi Pooling网络将其处理结果输入到全连接网络，从而得到影像识别结果。

4.根据权利要求3所述的基于深度学习的道路交叉口识别方法，其特征在于：步骤（1）中，n为5，第一个卷积层用于提取所述道路交叉口的边缘特征；第二个卷积层用于提取所述道路交叉口的纹理特征；第三个卷积层和第四个卷积层均用于提取所述道路交叉口的抽象特征；第五个卷积层用于提取所述道路交叉口的高度抽象特征。

5.根据权利要求4所述的基于深度学习的道路交叉口识别方法，其特征在于：每个RPN层包括边界框回归层和分类层两个全连接层，每个RPN层从内部生成区域建议框，将区域建议框输入到边界框回归层和分类层；

每个RPN层中的边界框回归层计算得到回归边框，每个RPN层中的分类层计算得到分类概率，从第1个RPN层至第5个RPN层依层向下传播计算得到的分类概率和回归边框，在第5个RPN层中分别计算分类概率的平均值和回归边框的平均值，并将得到的平均值输出到RoIPooling层。

6.根据权利要求5所述的基于深度学习的道路交叉口识别方法，其特征在于：5个RPN层都使用的是3*3*512大小的卷积核，以滑动窗口的形式使每个feature maps像素点在对应的原图片上生成16种不同的区域建议框；在生成的所述区域建议框中，利用LoU规则筛选前256个区域建议框。

7.根据权利要求6所述的基于深度学习的道路交叉口识别方法，其特征在于：所述16种不同的区域建议框由4种尺寸和4种比例分别设置而成，4种尺寸分别为16*16、32*32、64*64、128*128，4种比例分别为1：1、1：2、2:1、3:1。

8.根据权利要求7所述的基于深度学习的道路交叉口识别方法，其特征在于：所述LoU规则为：