CN110046572A

CN110046572A - 一种基于深度学习的地标建筑物识别与检测方法

Info

Publication number: CN110046572A
Application number: CN201910299200.4A
Authority: CN
Inventors: 邓瑞; 林金朝; 杨宏志
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-23

Abstract

本发明请求保护一种基于深度学习的地标建筑物识别与检测方法，包括步骤：对需要识别的地标建筑物图像，输入DenseNet网络得到含有目标建筑物特征信息的特征框图，然后送入区域建议网络预测该特征框图的二元类别及目标建筑物在原图像中的坐标；接着使用RoI Align方法，将预测候选框完整地映射到特征框图上；最后这些更加精准的特征框图会进行分类和边框回归，得到不同地标建筑物的预测概率以及所在的坐标位置，通过非极大值抑制的方法将多余的候选框去除，把区域覆盖较广的图融合起来，最终实现了地标建筑物的识别与检测。本发明对地标建筑物候选框的预测更为精准，范围更大，并且对复杂环境下的地标建筑物图像也有较好的识别能力。

Description

一种基于深度学习的地标建筑物识别与检测方法

技术领域

本发明属于深度学习应用技术领域，尤其涉及基于深度学习的地标建筑物识别与检测的研究。

背景技术

在不少城市，设计师依照旧的建筑风格，构筑出了一个又一个的样板城市，这些样板城市的产生，使其不仅失去了原有的历史文化底蕴，也失去了一座城市该有的活力，人们开始对这种乏味单一的建筑感到厌倦。城市是人类物质文明与精神文明进步与发展的集中体现，而建筑物便是人类对城市历史与文化的创造性体现。在中国，“标志性景观”这一概念最早出现于1999年，但提出者当时并未对其作出明确的定义。普遍认为，城市标志性景观应该指的是，一个城市中用来浓缩、凝聚、集中反映和折射、代表城市总体特征的特定地段是城市的缩影区，是城市的代表性区域，是城市的窗口，是外来游客的必游之地。2010年上海世博会就生动地诠释了“城市，让生活更美好”这一共同愿望，但是城市化的快速发展会让城市扩张陷入僵局状态：一是城市数量的急剧增长，导致城市不停地往外扩张，城市与城市之间的区别越来越小，城市的功能越来越有限，越来越难以辨认；二是由于城市与城市之间的竞争，城市想要从竞争中脱颖而出，城市更需要加强自己的特点，突出自己的文化底蕴。

于是，城市地标的概念在近几年开始热门起来，地标建筑物在城市中占据着非常重要的地位。各个城市开始建造起一些独具匠心的建筑物，这些建筑物不仅是城市的地标，也是城市历史文化的传承，也是城市导向的坐标，更是吸引游客的有效手段。这些“网红建筑物”的诞生，吸引着各地的游客前来参观，并带动着周边旅游业及附属产业的发展，让这些城市重新充满活力。这些“网红建筑物”也逐渐成为了一座城市的部分形象，人们通过这些“网红建筑物”来认识一座城。但是越来越多独具匠心的“网红建筑物”的出现，给人们的识别也带来了一定的困扰，人们已经不仅仅局限于询问他人，查阅资料等途径来辨别这座地标建筑物。

随着大数据时代的来临和计算机计算能力的大幅提高，基于深度学习的图像识别技术不仅可以识别图像中的内容，还能描绘图像中的场景，传统的图像识别技术已经逐渐被淘汰，深度学习成为了当今人工智能领域的热门话题。深度学习是通过卷积神经网络(Convolutional Neural Networks,CNN)结构来实现的一种算法，整个网络由许多层组成，可以分层提取图像中的特征。传统方式还需要人为的手动设计特征，耗费大量的时间和精力，而卷积神经网络通过训练后便可以自动提取图像中的特征。对于卷积神经网络，从低层到高层提取到的特征信息从简单变到复杂，刚开始我们可以提取到一些边缘纹理信息，比如线条和角；然后学习到部分区域特征，比如石块和木头；最后在高层学习到更加精准的特征，比如石像和建筑物标志。与传统的特征提取方式不同，深度学习对目标特征的提取是层次化的，它是由训练模型的参数驱动的，它可以通过模型直接对目标的特征信息进行提取，这种过程需要大量的数据来进行学习。深度学习算法的一个特点是需要庞大的训练数据集，数据量越大，算法的性能越高，而且是一个随数据动态变化的过程。因此使用深度学习的方法对图像中的建筑物进行检测和识别是非常有意义的。

建筑物的识别是指通过图像处理与深度学习来实现对建筑物图像的自动分类与识别的技术。近年来，一些掌握大量数据的大公司和研究院开始将建筑物的识别作为研究方向，建筑物的识别在测绘、城市规划、军事侦察、犯罪检测等方面具有重要作用。随着深度学习理论的不断发展，大数据时代的到来和计算瓶颈的消除，建筑物识别技术的不断发展与突破还将丰富相关学科的研究，这对于整个目标检测领域具有深远的理论研究意义，也对整个社会起到推动作用。

本发明的目的是为克服Faster R-CNN算法在建筑物的识别上的缺陷，本发明改进了Faster R-CNN算法中的CNN网络模型，用一种迭代结构的DenseNet模型取代了原有的VGG模型。并且也对原来的RoI Pooling层进行了改进，通过使用RoI Align层解决了原算法中候选框图区域不匹配的问题。通过改善候选框的方法，精确地找出目标建筑物的所在区域，提高识别精度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种通过改善候选框的方法，精确地找出目标建筑物的所在区域，提高识别精度的基于深度学习的地标建筑物识别与检测方法。本发明的技术方案如下：

一种基于深度学习的地标建筑物识别与检测方法，其包括以下步骤：

步骤S1，采用改进的卷积神经网络CNN提取建筑物图像的特征框图，改进的卷积神经网络改进主要在于：用一种迭代结构的DenseNet稠密连接网络模型取代了原有卷积神经网络CNN的VGG视觉几何组模型，DenseNet模型的网络中，任何两层之间都有直接的连接，即网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征框图也会被直接传给其后面所有层作为输入；还对原来的RoI Pooling兴趣区域池化层进行了改进，通过使用RoI Align兴趣区域对齐层通过使用双线性插值的方法，在RoI层进行特征映射的时候，区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应，同时得到的固定尺寸的特征矩阵也不再取整；

步骤S2，将卷积神经网络提取的特征输入到区域建议网络中，结合区域建议网络中设计的锚框，在分类层输出预测目标是背景还是前景，在回归层输出预测目标的候选框，即目标的预测坐标位置；

步骤S3，在RoI层使用RoI Align的方法，将区域建议网络得到的预测框映射到步骤S1所得到的特征框图上，得到精度更高的候选框；

步骤S4，使用非极大值抑制，从预测类别为目标的预测边界框中移除相似的结果，最终输出的预测边界框即兴趣区域池化层所需要的区域建议。

进一步的，所述DenseNet网络中，每个层都会与前面所有层在通道维度上连接在一起，这里各个层的特征图大小是相同的，使用填充为1，步伐为1的3×3卷积不改变输出特征框图的大小，并作为下一层的输入，对于一个L层的网络，DenseNet共包含L(L+1)/2个连接；网络中的某一层可以不仅仅依赖于紧邻的上一层的特征，而可以依赖于更前面层学习的特征，将多个这样的迭代结构组合到一起形成一个稠密块Dense Block。

进一步的，考虑到特征框图合并后输入的通道数大大增加，使得模型过于复杂，在每个模块后面加入一个过渡层Transition layer，通过1×1的卷积来减少连接后的通道数，使用步幅为2的平均池化层减半高和宽。

进一步的，所述步骤S2在回归层输出预测目标的候选框，即目标的预测坐标位置，具体包括：在区域建议网络中预测出目标地标建筑物的坐标以及二元分类，区域建议网络不需要对输入特征框图统一尺寸，最后输出得到的候选框图尺寸有所不同，区域建议网络采用滑动窗口的方式对特征框图进行遍历，每个滑动窗口上的特征像素点对应着9种锚框，通过与标记框的比较，选出那些重叠度较高的候选框记为二元类的前景，即可能含有目标建筑物，而那些重叠较小的候选框被记为二元类的背景，其余的对模型的训练没有贡献，舍弃不用。

进一步的，所述步骤S3在RoI层使用RoI Align的方法，将区域建议网络得到的预测框映射到步骤S1所得到的特征框图上，得到精度更高的候选框，具体包括；

将步骤S2的候选框输出映射到步骤S1的特征框图上，使用RoI Align的方法，将步骤S2的候选框划分为n×n的大小，每个小单元格不做整数量化，保留其浮点数，尽可能的使其与真实坐标接近，而每个单元格又将切分成四个小方格，每个小方格中心就是采样点，需要对采样点像素进行双线性插值，就得到该像素点的值，然后对每个单元格内的四个采样点进行最大池化，就可以得到最终的RoI Align的结果。

进一步的，所述步骤S4使用非极大值抑制，从预测类别为目标的预测边界框中移除相似的结果，最终输出的预测边界框即兴趣区域池化层所需要的区域建议，具体包括：

使用非极大值抑制的方法将多余的框融合起来，由于提取的建议窗口太多，既包含得分高的窗口，也包含得分低的窗口，得分高低按照从高到底的顺序排列，得分是按照建议窗口与真实标标签的交并比计算的，一般取IOU>0.6可认为建议窗口是地标建筑物候选框，然后利用非极大值抑制取得分高的100个建议窗口，这些建议窗口基本可以覆盖所有出现的文字区域，如果选区过多会导致建议窗口重叠，会增加无用的计算量。这样，我们便识别出图像中的建筑物以及它所在的区域。

进一步的，所述步骤S1之前，在输入图像时会先对建筑物图像重新调整大小，首先设置最短边short_size＝600，如果输入图像的高h大于宽w，则将short_size/h的值scale作为基准比例，修改后高的值为h＝h×scale，宽的值为w＝w×scale。

本发明的优点及有益效果如下：

传统的检测方法需要人工提取特征，设计过程繁杂，针对性不足，机器学习是人工智能的研究热点，其理论和方法已经被广泛应用于解决工程应用和科学领域的问题，在目标检测领域取得重大突破。本发明对深度学习中较为流行Faster R-CNN算法的基础网络结构的RoI层进行改进，对于地标建筑物具有更好的检测准确率。

本发明最终实现了地标建筑物的识别，对所需要识别的图像，精确地检测出目标地标建筑物的所在区域，并且识别出其真实的类别。相较于传统的识别算法，大大减少了设计区域建议的时间，而且对复杂环境下的地标建筑物的也有较好的识别效果。

DenseNet是一种稠密连接的网络，在该网络中，任何两层之间都有直接的连接，也就是说，网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征框图也会被直接传给其后面所有层作为输入，实现特征信息的整合，避免了特征信息在层间传递时的丢失和梯度消失的问题，还抑制了某些噪声的产生。神经网络其实并不一定要是一个递进层级结构，也就是说网络中的某一层可以不仅仅依赖于紧邻的上一层的特征，而可以依赖于更前面层学习的特征。DenseNet核心思想在于不同层之间建立了连接关系，充分利用特征信息，进一步减轻了梯度消失问题，加深网络不是问题，而且训练效果非常好。

RoI Align解决了RoI Pooling区域不匹配的问题，通过使用双线性插值的方法，在RoI层进行特征映射的时候，区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应，同时得到的固定尺寸的特征矩阵也不再取整。这样，我们预测得到的候选框图精度更高，预测的建筑物区域更接近真实的建筑外区域。

附图说明

图1是本发明提供优选实施例整体流程图

附图2：DenseNet流程图

附图3：RoI Align实现图

附图4：图片的测试结果

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本文建筑物识别模型主要分为步骤：Fast R-CNN检测模块和区域建议候选框提取模块。区域建议网络用于提取由DenseNet网络生成特征框图中的候选框图，Fast R-CNN网络直接检测并识别提取到的区域建议中的目标。输入的图片通过DenseNet网络提取特征框图后送入区域建议网络中，然后区域建议网络预测得到的候选框图在RoI层映射到原来的特征框图上，根据以上大致分析，其具体实现步骤如下：

对于改进后的Faster R-CNN算法，由于我们采集的建筑物图像都是被压缩后的，所以我们在输入图像时会先对建筑物图像重新调整大小。首先我们设置最短边short_size＝600，如果输入图像的高h大于宽w，则将short_size/h的值scale作为基准比例，修改后高的值为h＝h×scale，宽的值为w＝w×scale。这样做的好处是使输入图像相较于原始图像大一点，而且对小尺度的目标有较大的改进。

处理后的图像我们会输入卷积神经网络进行特征提取，由于数据集中图像尺寸不固定，假设输入图像的尺寸为256×256。首先将处理好的图像输入一个大小7×7，步伐为2的卷积层，大的卷积核得到的特征框图能够获得更大的感受野，为后面的层提供更多的特征信息。然后再送入一个3×3最大池化，步伐为2的Pooling层将特征框图的长宽减半，保留主要的特征信息，同时减少下一层的计算量。接着连续通过三个Dense Block和TransitionLayer，每个Dense Block由六个连续连接的1×1和3×3卷积层组成，每个TransitionLayer由一个1×1的卷积层和一个大小2×2，步伐为2的Average pool层组成。在不断丰富特征框图特征信息的同时，减小特征框图的大小，减少模型的计算量。最后模型输出c×512×16×16的特征框图作为RPN模块的输入，进一步提取出候选框框图和类别预测，同时作为RoI层的映射特征图，保持与原算法一致。

区域建议网络不需要对输入特征框图统一尺寸，所以最后输出得到的候选框图尺寸有所不同。区域建议网络采用滑动窗口的方式对特征框图进行遍历，滑动窗口上的特征像素点对应着9种锚框。每次预测都和不同位置但是相同形状的特定锚框相关。Faster R-CNN算法在一个位置上使用了9种锚框：3种不同尺度并使用三种长宽比。在每个位置使用9种锚框，所以在分类层产生了2×9个分数，在回归层产生了4×9个坐标。这些锚框都是精心预选好的，所以它们多种多样，同时非常合理的覆盖了不同尺度和不同长宽比的现实生活中的物体。这使了初始训练将具有更好的猜测，同时允许每次预测都有特定、不同的形状。虽然网络的实际过程中将输入图像的短边调整到600像素，然后按同等比例调整输入图像的长边，但是由于这些不同大小锚框的存在，区域建议网络的训练过程我们在某种意义上可以把它看成是多尺度训练。然后将遍历得到的结果和锚框送入全连接层进行分类与回归，分类与回归分别预测目标为建筑物或者背景的概率和坐标。为了得到高质量的预测坐标，我们用原算法的方法对多余的坐标进行过滤，通过对测试集的训练，将标记框训练得到的真实坐标与区域建议网络预测的坐标进行对比，对于重合度高于0.7的，即包含有明显建筑物的图像设为正样本，低于0.3的，即基本不包含建筑物的背景图像设为负样本，而其余的锚框建筑物与背景相互掺杂，对模型的训练没有任何贡献，不作使用。

在区域建议网络提取得到的候选框图作为输入送到RoI Align层，映射到之前得到的特征框图上，即在特征框图上标记出候选框图的位置。对于这些候选框图，同样采取7×7的RoI，不过每一个1×1区域块的大小不再固定为整数，保留了浮点数，使候选框图能完整的呈现在特征框图上。这些更加精准的7×7的特征框图将被后续网络，一是通过全连接层和Softmax对这些特征框图进行分类，得到不同建筑物的预测概率；二是再次对特征框图进行边框回归，获取更高精度的候选框，即识别到的建筑物所在的坐标。然后通过非极大值抑制消除交叉重复的窗口，找出最佳物体检测的位置，然后再挑选出预测概率大于0.7的建筑物类别。这样，我们便识别出图像中的建筑物以及它所在的区域。

损失函数(Loss function)是为了度量预测值与真实值之间的差异，得到的损失值通过反向传播算法更新网络的权值，使下一次训练得到的预测值更接近于真实值。Faster R-CNN算法对一幅图像的损失函数定义为：

前项为分类损失，后项为回归损失。其中N_cls是分类样本数，N_reg是回归样本数，i是锚框的索引，P_i是锚框i的预测概率。如果锚框为正样本，实际标签P_i ^*就是1，否则P_i ^*就是0。t_i是一个向量，表示预测的候选框的4个参数化坐标，是与正样本对应的实际标记框的坐标向量。在回归损失中P_i ^*L_reg这一项意味着只有正样本(P_i ^*＝1)才有回归损失，其他情况就没有(P_i ^*＝0)。

分类损失函数L_cls计算两个类别之间的对数损失：

L_cls(P_i,P_i ^*)＝-log[P_i ^*P_i+(1-P_i ^*)(1-P_i)] (2)

回归损失函数L_reg计算预测框与标记框之间的损失：

其中R为定义鲁棒性的损失函数

另外的因式项由转换后预测框和标记框的4个坐标进行计算，计算公式如下：

x，y，w，h指的是区域建议中心坐标以及宽和高。变量x，x_a，x^*分别指预测框、锚框、标记框(对y，w，h也是一样)的x坐标。可以理解为从预测框到标记框的回归。

由于Faster R-CNN算法在区域建议网络和Fast R-CNN网络都产生了损失，算法的总损失应该为两个网络损失之和，所以为了将这些损失利用起来，我们采取了一种四步训练法对模型进行训练：

1.单独训练区域建议网络，网络参数通过预训练模型进行初始化；

2.单独训练Fast R-CNN网络，将第一步区域建议网路的输出候选区域作为检测网络的输入；

3.再次训练区域建议网路，此时固定网络公共部分的参数，只更新区域建议网络独有部分的参数；

4.用RPN的结果再次微调Fast R-CNN网络，固定网络公共部分的参数，只更新FastR-CNN独有部分的参数，这样，两个网络具有相同的卷积层，形成一个完整的Faster R-CNN网络。

RPN网络作为Faster R-CNN的一部分，是和整个模型一起训练得到的。也就是说，Faster R-CNN的目标函数既包括目标检测中的类别和边界框预测，又包括RPN网络中锚框的二元类别和边界框预测。最后，区域建议网络不仅能够学习到如何生成高质量的区域建议，而且在减少区域建议数量的情况下也能保证目标检测的精度。

本发明一种基于深度学习的地标建筑物识别与检测的研究，通过使用DenseNet基础网络和RoI Align层的方法，模型对地标建筑物候选框的预测更为精准，范围更大，并且对复杂环境下的地标建筑物图像也有较好的识别能力。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的地标建筑物识别与检测方法，其特征在于，包括以下步骤：

步骤S1，采用改进的卷积神经网络CNN提取建筑物图像的特征框图，改进的卷积神经网络改进主要在于：用一种迭代结构的DenseNet稠密连接网络模型取代了原有卷积神经网络CNN的VGG视觉几何组模型，DenseNet模型的网络中，任何两层之间都有直接的连接，即网络每一层的输入都是前面所有层输出的并集，而该层所学习的特征框图也会被直接传给其后面所有层作为输入；还对原来的RoI Pooling兴趣区域池化层进行了改进，通过使用RoIAlign兴趣区域对齐层通过使用双线性插值的方法，在RoI层进行特征映射的时候，区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应，同时得到的固定尺寸的特征矩阵也不再取整；

2.根据权利要求1所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，所述DenseNet网络中，每个层都会与前面所有层在通道维度上连接在一起，这里各个层的特征图大小是相同的，使用填充为1，步伐为1的3×3卷积不改变输出特征框图的大小，并作为下一层的输入，对于一个L层的网络，DenseNet共包含L(L+1)/2个连接；网络中的某一层可以不仅仅依赖于紧邻的上一层的特征，而可以依赖于更前面层学习的特征，将多个这样的迭代结构组合到一起形成一个稠密块Dense Block。

3.根据权利要求2所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，考虑到特征框图合并后输入的通道数大大增加，使得模型过于复杂，在每个模块后面加入一个过渡层Transition layer，通过1×1的卷积来减少连接后的通道数，使用步幅为2的平均池化层减半高和宽。

4.根据权利要求1-3之一所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，所述步骤S2在回归层输出预测目标的候选框，即目标的预测坐标位置，具体包括：在区域建议网络中预测出目标地标建筑物的坐标以及二元分类，区域建议网络不需要对输入特征框图统一尺寸，最后输出得到的候选框图尺寸有所不同，区域建议网络采用滑动窗口的方式对特征框图进行遍历，每个滑动窗口上的特征像素点对应着9种锚框，通过与标记框的比较，选出那些重叠度较高的候选框记为二元类的前景，即可能含有目标建筑物，而那些重叠较小的候选框被记为二元类的背景，其余的对模型的训练没有贡献，舍弃不用。

5.根据权利要求4所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，所述步骤S3在RoI层使用RoI Align的方法，将RPN网络得到的预测框映射到步骤S1所得到的特征框图上，得到精度更高的候选框，具体包括；

6.根据权利要求5所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，所述步骤S4使用非极大值抑制，从预测类别为目标的预测边界框中移除相似的结果，最终输出的预测边界框即兴趣区域池化层所需要的区域建议，具体包括：

使用非极大值抑制的方法将多余的框融合起来，由于提取的建议窗口太多，既包含得分高的窗口，也包含得分低的窗口，得分高低按照从高到底的顺序排列，得分是按照建议窗口与真实标标签的交并比计算的，一般取IOU>0.6可认为建议窗口是地标建筑物候选框，然后利用非极大值抑制取得分高的100个建议窗口，这些建议窗口基本可以覆盖所有出现的文字区域，如果选区过多会导致建议窗口重叠，会增加无用的计算量，这样，我们便识别出图像中的建筑物以及它所在的区域。

7.根据权利要求1所述的一种基于深度学习的地标建筑物识别与检测方法，其特征在于，所述步骤S1之前，在输入图像时会先对建筑物图像重新调整大小，首先设置最短边short_size＝600，如果输入图像的高h大于宽w，则将short_size/h的值scale作为基准比例，修改后高的值为h＝h×scale，宽的值为w＝w×scale。