CN111611926A

CN111611926A - 一种地标建筑物检测与识别方法及装置

Info

Publication number: CN111611926A
Application number: CN202010438236.9A
Authority: CN
Inventors: 吴军; 黄祁聪; 谢厚礼; 谭海燕; 唐颖; 李显著; 雷华娟; 王红
Original assignee: Chongqing Modern Construction Industry Development Research Institute
Current assignee: Chongqing Modern Construction Industry Development Research Institute
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01

Abstract

本发明公开了一种地标建筑物检测与识别方法，通过Faster R‑DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R‑DRNet网络是通过是通过使用DRNet残差网络替代Faster R‑CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个Res Block，多个Res Block通过稠密连接的方式连在一起；后一个Res Block的输入等于前面所有Res Block的输出加上第一个Res Block的输入；基于RPN网络与所述特征图生在多个候选目标区域建议；基于所述多个候选目标区域建议和所述特征图，得到有效目标框图；对所述有效目标框图进行回归和分类，得到目标物体的类别和所在区域的坐标。通过在Faster R‑CNN中引入稠密连接的残差网络，使得预测的建筑物区域更接近真实的建筑区域。

Description

一种地标建筑物检测与识别方法及装置

技术领域

本发明属于物体识别与目标检测应用技术领域，尤其涉及一种地标建筑物检测与识别方法及装置。

背景技术

对建筑物的识别一般采用FasterR-CNN网络，FasterR-CNN如图1，提出利用区域建议网络(Region Proposal Network,RPN)，减少区域建议的生成数量，并保证目标检测的精度。Faster R-CNN算法主要由两大模块组成：Fast R-CNN检测模块和RPN候选框提取模块。RPN网络用于提取由基础网络生成特征框图中的候选框图，Fast R-CNN网络直接检测并识别提取到的区域建议中的目标。

对任意大小的图片，经过处理后由VGG16网络生成特征框图，RPN网络在这些特征框图上用3x3的卷积核进行滑动滤波，以特征框图每个单元为中心，生成多个不同大小和宽高比的锚框并标注它们，然后对经过滑动滤波的特征框图回归与分类并产生区域建议。这些区域建议在RoI Pooling层映射到之前的特征框图上，然后处理为固定大小的特征向量，接着送入后面的回归层和分类层。最后使用非极大值抑制算法，从预测类别为目标的预测边界框中移除相似的结果。最终输出目标物体的类别和所在区域的坐标。

原始的RPN网络利用VGG16的Conv5_3输出作为特征框图，而这种特征框图只与上一层卷积网络的输出有关，与之前层的输出关系较浅，导致随着层数的增加，可用的特征信息越来越少，而且有可能网络的准确度已经达到饱和，增加的层什么东西也学习不到。因此，对建筑物的识别需要一种更深的基础网络学习更多的特征信息。同时，随着网络的加深，所能提取的特征框图含有的特征信息越丰富，但是通过最后一层卷积网络的输出来生成特征框图是不够的。对于建筑物图像来说，有的地标建筑物边缘有许多纹理信息，这些特征信息对建筑物的识别非常重要，使用以往的网络，这些特征信息会在卷积过程中遗失。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种建筑物检测与识别方法及装置，用于解决现有技术的缺陷。

为实现上述目的及其他相关目的，本发明提供一种地标建筑物检测与识别方法，包括：

通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代Faster R-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个ResBlock，多个Res Block通过稠密连接的方式连在一起；后一个Res Block的输入等于前面所有Res Block的输出加上第一个Res Block的输入；

基于RPN网络与所述特征图生在多个候选目标区域建议；

基于所述多个候选目标区域建议和所述特征图，得到有效目标框图；

对所述有效目标框图进行回归和分类，得到目标物体的类别和所在区域的坐标。

可选地，每一个DR Block后连接一个过渡层Transition层。

可选地，将所述特征图输入到RPN网络中，通过滑动窗口，进行边界预测，生成多个候选目标区域建议。

可选地，将所述多个候选目标区域建议和所述特征图输入到RoI Pooling兴趣区域池化层中，生成有效目标框图。

可选地，将所述有效目标框图输入到全连接层中，对全连接层的输出进行回归和分类。

为实现上述目的及其他相关目的，本发明提供一种地标建筑物检测与识别装置，包括：

特征提取模块，用于通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代Faster R-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个Res Block，多个Res Block通过稠密连接的方式连在一起；后一个ResBlock的输入等于前面所有Res Block的输出加上第一个Res Block的输入；

区域建议提取模块，用于基于RPN网络与所述特征图生在多个候选目标区域建议；

有效目标框图获取模块，用于基于所述多个候选目标区域建议和所述特征图，得到有效目标框图；

位置获取模块，用于对所述有效目标框图进行回归和分类，得到目标物体的类别和所在区域的坐标。

可选地，每一个DR Block后连接一个过渡层Transition层。

如上所述，本发明的一种地标建筑物检测与识别方法及装置，具有以下有益效果：

1、本发明通过Faster R-DRNet(Densely Residual Net)算法对地标建筑物进行检测与识别，这种稠密连接的残差网络通过增大Res Block来减少Dense Block的个数，同时保留了DenseNet网络特征复用的特点，通过减小特征维度的方法优化ResNet参数量较大的缺点。

2、解决了原Faster R-CNN中，随着卷积网络深度的增加，梯度消失的问题；

3、Faster R-DRNet算法在每一层特征传递的过程中，特征重复利用，不会丢失。

通过在Faster R-CNN中引入稠密连接的残差网络，使得预测的建筑物区域更接近真实的建筑区域。

附图说明

图1为本发明一实施例中一种基于Faster R-CNN的建筑物检测与识别方法的流程图；

图2为本发明一实施例中一种地标建筑物检测与识别方法的流程图；

图3为本发明另一实施例中一种地标建筑物检测与识别方法的流程图；

图4为本发明一实施例中DRNet网络的示意图；

图5为本发明一实施例中一种地标建筑物检测与识别装置的示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

R-CNN(Regions with Convolutional Neural Network Feature)算法是将深度模型应用于目标检测的开创性工作之一。算法的关键在于CNN具有良好的特征提取和分类性能，算法首先对图像选取若干区域建议(后文提到的锚框也是一种选取方法)并标注它们的类别和边界框(如偏移量)，然后用卷积神经网络对每个区域建议提取特征，之后用每个区域建议的特征预测类别和边界框。

R-CNN虽然通过预训练的卷积神经网络有效抽取了图像特征，但它的主要缺点是速度慢，对每个区域建议独立抽取特征，会导致大量的重复计算。于是，在2015年RossGirshick针对这些缺点提出了一种新的Fast R-CNN算法。Fast R-CNN对R-CNN主要做了两点改进来提升性能，仍然存在你耗时、耗费空间的问题。因此，Ross Girshick又在2016年提出了性能更好的Faster R-CNN算法，Faster R-CNN中加入一个提取边缘的神经网络，这样，目标检测的四个基本步骤：候选区域生成，特征提取，分类，位置精修，被统一到一个深度网络框架之内。

Faster R-CNN如图1，提出使用区域建议网络(Region Proposal Network,RPN)，从而减少区域建议的生成数量，并保证目标检测的精度。Faster R-CNN网络主要由两大模块组成：Fast R-CNN网硌和RPN候选框提取网络。RPN候选框提取用于提取由基础网络生成的特征框图中的候选框图，Fast R-CNN网络直接检测并识别提取到的区域建议中的目标。对任意大小的图片，经过处理后由VGG16网络生成特征框图，RPN网络在这些特征框图上用3x3的卷积核进行滑动滤波，以特征框图每个单元为中心，生成多个不同大小和宽高比的锚框并标注它们，然后对经过滑动滤波的特征框图回归与分类并产生区域建议。这些区域建议在RoI Pooling层映射到之前的特征框图上，然后处理为固定大小的特征向量，接着送入后面的回归层和分类层。最后使用非极大值抑制算法，从预测类别为目标的预测边界框中移除相似的结果。最终输出目标物体的类别和所在区域的坐标。

原始的RPN网络利用VGG16的Conv5_3输出作为特征框图，而这种特征框图只与上一层卷积网络的输出有关，与之前层的输出关系较浅，导致随着层数的增加，可用的特征信息越来越少，而且有可能网络的准确度已经达到饱和，增加的层什么东西也学习不到。因此，对建筑物的识别需要一种更深的基础网络学习更多的特征信息。同时，随着网络的加深，所能提取的特征框图含有的特征信息越丰富，但是通过最后一层卷积网络的输出来生成特征框图是不够的。对于建筑物图像来说，有的地标建筑物边缘有许多纹理信息，这些特征信息对建筑物的识别非常重要，使用以往的网络，这些特征信息会在卷积过程中遗失。我们希望在生成特征框图的特征信息比原来的更加丰富，还能利用到原有的特征信息，但又使计算量不会增加太多，因此，本发明提出了一种Faster R-DRNet网络，在基础网络上使用稠密连接的残差网络DRNet，不仅缓解了梯度消失的问题，使得网络模型的深度加深，而且加强了低层网络特征信息的重复利用，在复杂环境下能提取的特征信息变多，最终识别到的建筑物更加准确。

本发明提出一种改进Faster R-DRNet算法，它在原算法FasterR-CNN的基础上采用一种稠密连接的残差网络DRNet，改进了原目标检测方法的在网络退化、特征检测不足和信息丢失的问题。

如图2所示，本发明提供一种地标建筑物检测与识别方法，包括：

S21通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代Faster R-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个ResBlock，多个Res Block通过稠密连接的方式连在一起；后一个Res Block的输入等于前面所有Res Block的输出加上第一个Res Block的输入；

S22基于RPN网络与所述特征图生在多个候选目标区域建议；

S23基于所述多个候选目标区域建议和所述特征图，得到有效目标框图；

S24对所述有效目标框图进行回归和分类，得到目标物体的类别和所在区域的坐标。

其中，DRNet的流程图如图3、4所示。每个DR Block(稠密残差模块)由多个ResBlock(残差模块)通过稠密连接的方式连在一起，每个Res block由两个1x1的卷积和3x3的卷积组成，由于网络的层数较深，前后两端的1x1的卷积用来削减特征维度，减少模型的计算量。相比于原结构，只有中间3x3的卷积进行了权值运算。Res Block输出的结果再与输入相加，而相加的结果会继续与输入在通道维数上连接，这样在接下来的网络中又会重复利用到之前层的特征信息。最终的输出为一个Res Block输出以及各个Res Block输入的并集，在送入下一层网络前会做与DenseNet相同的处理，使用过渡层Transition Layer,即在每个模块后面加入一个过渡层Transition Layer，通过1x1的卷积来减少连接后的通道数，使用步幅为2的平均池化层减半高和宽，通过利用过渡层Transition层减少DR Block连接后的通道数，进一步降低模型的复杂度，降低特征框图的维度，减小网络的复杂度。

如果用公式表示的话，DRNet可以表示为：

x_l＝D_l([x₁,x₂,…,x_l-1,x_l-1+F_l-1(x_l-1)]) (1)

x_l-1＝D_l-1([x₁,x₂,…,x_l-2,x_l-2+F_l-2(x_l-2)]) (2)

D_l表示l层DR模块的模型。l层的输出与前面所有层的输入和当前DR层的处理有关,x_l表示第l层的输出,F_l-1表示DR处理函数。

实际上每个DR Block可以表示为输入与输入经过Res Block后的输出在特征维度上的连接，但是每个DR Block中所需要的卷积操作要多于Dense Block，并且使用了残差块预防网络退化的问题发生。因此，在网络层数相同时，DRNet中所含的DR Block数要少于DenseNet，每个DR Block通过输入的特征框图可以训练的特征框图数就可以设置得更大，在简化网络模型的同时增加了每个DR Block的输出特征信息。

DRNet通过将各个残差块稠密连接起来，保留了网络特征复用的特点，通过叠加残差块预防了网络退化的问题。虽然说每个Block变得复杂了，但是简化了模型的网络结构，增加了每个DR Block能学习的特征框图个数。

在一实施例中，如图3所示，将所述特征图输入到RPN网络中，经过滑动窗口，生成特征向量；将所述特征向量进行分类和回归，生成区域建议。

在一实施例中，如图3所示，将所述多个候选目标区域建议和所述特征图输入到RoI Pooling兴趣区域池化层中，生成有效目标框图。

在一实施例中，如图3所示，将所述有效目标框图输入到全连接层中，对全连接层的输出进行回归和分类。

如图5所示，本发明提供一种地标建筑物检测与识别装置，包括：

特征提取模块51，用于通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代Faster R-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个Res Block，多个Res Block通过稠密连接的方式连在一起；后一个ResBlock的输入等于前面所有Res Block的输出加上第一个Res Block的输入；

区域建议提取模块52，用于基于RPN网络与所述特征图生在多个候选目标区域建议；

有效目标框图获取模块53，用于基于所述多个候选目标区域建议和所述特征图，得到有效目标框图；

位置获取模块54，用于对所述有效目标框图进行回归和分类，得到目标物体的类别和所在区域的坐标。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例的内容请参见方法部分的实施例的描述，这里暂不赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器((RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种地标建筑物检测与识别方法，其特征在于，包括：

通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代Faster R-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个Res Block，多个Res Block通过稠密连接的方式连在一起；后一个Res Block的输入等于前面所有ResBlock的输出加上第一个Res Block的输入；

基于RPN网络与所述特征图生在多个候选目标区域建议；

2.根据权利要求1所述的地标建筑物检测与识别方法，其特征在于，每一个DR Block后连接一个过渡层Transition层。

3.根据权利要求1所述的地标建筑物检测与识别方法，其特征在于，将所述特征图输入到RPN网络中，通过滑动窗口，进行边界预测，生成多个候选目标区域建议。

4.根据权利要求1所述的地标建筑物检测与识别方法，其特征在于，将所述多个候选目标区域建议和所述特征图输入到RoI Pooling兴趣区域池化层中，生成有效目标框图。

5.根据权利要求1或4所述的地标建筑物检测与识别方法，其特征在于，将所述有效目标框图输入到全连接层中，对全连接层的输出进行回归和分类。

6.一种地标建筑物检测与识别装置，其特征在于，包括：

特征提取模块，用于通过Faster R-DRNet网络中的DRNet网络对输入图像进行特征提取，生成特征图；所述Faster R-DRNet网络是通过是通过使用DRNet残差网络替代FasterR-CNN网络中卷积神经网络VGG16而得到；所述DRNet网络包括多个DR Block，每个DR Block包括多个Res Block，多个Res Block通过稠密连接的方式连在一起；后一个Res Block的输入等于前面所有Res Block的输出加上第一个Res Block的输入；

7.根据权利要求6所述的地标建筑物检测与识别装置，其特征在于，每一个DR Block后连接一个过渡层Transition层。

8.根据权利要求6所述的地标建筑物检测与识别装置，其特征在于，将所述特征图输入到RPN网络中，通过滑动窗口，进行边界预测，生成多个候选目标区域建议。

9.根据权利要求6所述的地标建筑物检测与识别装置，其特征在于，将所述多个候选目标区域建议和所述特征图输入到RoI Pooling兴趣区域池化层中，生成有效目标框图。

10.根据权利要求6或9所述的地标建筑物检测与识别装置，其特征在于，将所述有效目标框图输入到全连接层中，对全连接层的输出进行回归和分类。