CN110046572A - 一种基于深度学习的地标建筑物识别与检测方法 - Google Patents

一种基于深度学习的地标建筑物识别与检测方法 Download PDF

Info

Publication number
CN110046572A
CN110046572A CN201910299200.4A CN201910299200A CN110046572A CN 110046572 A CN110046572 A CN 110046572A CN 201910299200 A CN201910299200 A CN 201910299200A CN 110046572 A CN110046572 A CN 110046572A
Authority
CN
China
Prior art keywords
network
feature
block diagram
layer
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910299200.4A
Other languages
English (en)
Inventor
邓瑞
林金朝
杨宏志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910299200.4A priority Critical patent/CN110046572A/zh
Publication of CN110046572A publication Critical patent/CN110046572A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/38Outdoor scenes
    • G06V20/39Urban scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于深度学习的地标建筑物识别与检测方法,包括步骤:对需要识别的地标建筑物图像,输入DenseNet网络得到含有目标建筑物特征信息的特征框图,然后送入区域建议网络预测该特征框图的二元类别及目标建筑物在原图像中的坐标;接着使用RoI Align方法,将预测候选框完整地映射到特征框图上;最后这些更加精准的特征框图会进行分类和边框回归,得到不同地标建筑物的预测概率以及所在的坐标位置,通过非极大值抑制的方法将多余的候选框去除,把区域覆盖较广的图融合起来,最终实现了地标建筑物的识别与检测。本发明对地标建筑物候选框的预测更为精准,范围更大,并且对复杂环境下的地标建筑物图像也有较好的识别能力。

Description

一种基于深度学习的地标建筑物识别与检测方法
技术领域
本发明属于深度学习应用技术领域,尤其涉及基于深度学习的地标建筑物识别与检测的研究。
背景技术
在不少城市,设计师依照旧的建筑风格,构筑出了一个又一个的样板城市,这些样板城市的产生,使其不仅失去了原有的历史文化底蕴,也失去了一座城市该有的活力,人们开始对这种乏味单一的建筑感到厌倦。城市是人类物质文明与精神文明进步与发展的集中体现,而建筑物便是人类对城市历史与文化的创造性体现。在中国,“标志性景观”这一概念最早出现于1999年,但提出者当时并未对其作出明确的定义。普遍认为,城市标志性景观应该指的是,一个城市中用来浓缩、凝聚、集中反映和折射、代表城市总体特征的特定地段是城市的缩影区,是城市的代表性区域,是城市的窗口,是外来游客的必游之地。2010年上海世博会就生动地诠释了“城市,让生活更美好”这一共同愿望,但是城市化的快速发展会让城市扩张陷入僵局状态:一是城市数量的急剧增长,导致城市不停地往外扩张,城市与城市之间的区别越来越小,城市的功能越来越有限,越来越难以辨认;二是由于城市与城市之间的竞争,城市想要从竞争中脱颖而出,城市更需要加强自己的特点,突出自己的文化底蕴。
于是,城市地标的概念在近几年开始热门起来,地标建筑物在城市中占据着非常重要的地位。各个城市开始建造起一些独具匠心的建筑物,这些建筑物不仅是城市的地标,也是城市历史文化的传承,也是城市导向的坐标,更是吸引游客的有效手段。这些“网红建筑物”的诞生,吸引着各地的游客前来参观,并带动着周边旅游业及附属产业的发展,让这些城市重新充满活力。这些“网红建筑物”也逐渐成为了一座城市的部分形象,人们通过这些“网红建筑物”来认识一座城。但是越来越多独具匠心的“网红建筑物”的出现,给人们的识别也带来了一定的困扰,人们已经不仅仅局限于询问他人,查阅资料等途径来辨别这座地标建筑物。
随着大数据时代的来临和计算机计算能力的大幅提高,基于深度学习的图像识别技术不仅可以识别图像中的内容,还能描绘图像中的场景,传统的图像识别技术已经逐渐被淘汰,深度学习成为了当今人工智能领域的热门话题。深度学习是通过卷积神经网络(Convolutional Neural Networks,CNN)结构来实现的一种算法,整个网络由许多层组成,可以分层提取图像中的特征。传统方式还需要人为的手动设计特征,耗费大量的时间和精力,而卷积神经网络通过训练后便可以自动提取图像中的特征。对于卷积神经网络,从低层到高层提取到的特征信息从简单变到复杂,刚开始我们可以提取到一些边缘纹理信息,比如线条和角;然后学习到部分区域特征,比如石块和木头;最后在高层学习到更加精准的特征,比如石像和建筑物标志。与传统的特征提取方式不同,深度学习对目标特征的提取是层次化的,它是由训练模型的参数驱动的,它可以通过模型直接对目标的特征信息进行提取,这种过程需要大量的数据来进行学习。深度学习算法的一个特点是需要庞大的训练数据集,数据量越大,算法的性能越高,而且是一个随数据动态变化的过程。因此使用深度学习的方法对图像中的建筑物进行检测和识别是非常有意义的。
建筑物的识别是指通过图像处理与深度学习来实现对建筑物图像的自动分类与识别的技术。近年来,一些掌握大量数据的大公司和研究院开始将建筑物的识别作为研究方向,建筑物的识别在测绘、城市规划、军事侦察、犯罪检测等方面具有重要作用。随着深度学习理论的不断发展,大数据时代的到来和计算瓶颈的消除,建筑物识别技术的不断发展与突破还将丰富相关学科的研究,这对于整个目标检测领域具有深远的理论研究意义,也对整个社会起到推动作用。
本发明的目的是为克服Faster R-CNN算法在建筑物的识别上的缺陷,本发明改进了Faster R-CNN算法中的CNN网络模型,用一种迭代结构的DenseNet模型取代了原有的VGG模型。并且也对原来的RoI Pooling层进行了改进,通过使用RoI Align层解决了原算法中候选框图区域不匹配的问题。通过改善候选框的方法,精确地找出目标建筑物的所在区域,提高识别精度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种通过改善候选框的方法,精确地找出目标建筑物的所在区域,提高识别精度的基于深度学习的地标建筑物识别与检测方法。本发明的技术方案如下:
一种基于深度学习的地标建筑物识别与检测方法,其包括以下步骤:
步骤S1,采用改进的卷积神经网络CNN提取建筑物图像的特征框图,改进的卷积神经网络改进主要在于:用一种迭代结构的DenseNet稠密连接网络模型取代了原有卷积神经网络CNN的VGG视觉几何组模型,DenseNet模型的网络中,任何两层之间都有直接的连接,即网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征框图也会被直接传给其后面所有层作为输入;还对原来的RoI Pooling兴趣区域池化层进行了改进,通过使用RoI Align兴趣区域对齐层通过使用双线性插值的方法,在RoI层进行特征映射的时候,区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应,同时得到的固定尺寸的特征矩阵也不再取整;
步骤S2,将卷积神经网络提取的特征输入到区域建议网络中,结合区域建议网络中设计的锚框,在分类层输出预测目标是背景还是前景,在回归层输出预测目标的候选框,即目标的预测坐标位置;
步骤S3,在RoI层使用RoI Align的方法,将区域建议网络得到的预测框映射到步骤S1所得到的特征框图上,得到精度更高的候选框;
步骤S4,使用非极大值抑制,从预测类别为目标的预测边界框中移除相似的结果,最终输出的预测边界框即兴趣区域池化层所需要的区域建议。
进一步的,所述DenseNet网络中,每个层都会与前面所有层在通道维度上连接在一起,这里各个层的特征图大小是相同的,使用填充为1,步伐为1的3×3卷积不改变输出特征框图的大小,并作为下一层的输入,对于一个L层的网络,DenseNet共包含L(L+1)/2个连接;网络中的某一层可以不仅仅依赖于紧邻的上一层的特征,而可以依赖于更前面层学习的特征,将多个这样的迭代结构组合到一起形成一个稠密块Dense Block。
进一步的,考虑到特征框图合并后输入的通道数大大增加,使得模型过于复杂,在每个模块后面加入一个过渡层Transition layer,通过1×1的卷积来减少连接后的通道数,使用步幅为2的平均池化层减半高和宽。
进一步的,所述步骤S2在回归层输出预测目标的候选框,即目标的预测坐标位置,具体包括:在区域建议网络中预测出目标地标建筑物的坐标以及二元分类,区域建议网络不需要对输入特征框图统一尺寸,最后输出得到的候选框图尺寸有所不同,区域建议网络采用滑动窗口的方式对特征框图进行遍历,每个滑动窗口上的特征像素点对应着9种锚框,通过与标记框的比较,选出那些重叠度较高的候选框记为二元类的前景,即可能含有目标建筑物,而那些重叠较小的候选框被记为二元类的背景,其余的对模型的训练没有贡献,舍弃不用。
进一步的,所述步骤S3在RoI层使用RoI Align的方法,将区域建议网络得到的预测框映射到步骤S1所得到的特征框图上,得到精度更高的候选框,具体包括;
将步骤S2的候选框输出映射到步骤S1的特征框图上,使用RoI Align的方法,将步骤S2的候选框划分为n×n的大小,每个小单元格不做整数量化,保留其浮点数,尽可能的使其与真实坐标接近,而每个单元格又将切分成四个小方格,每个小方格中心就是采样点,需要对采样点像素进行双线性插值,就得到该像素点的值,然后对每个单元格内的四个采样点进行最大池化,就可以得到最终的RoI Align的结果。
进一步的,所述步骤S4使用非极大值抑制,从预测类别为目标的预测边界框中移除相似的结果,最终输出的预测边界框即兴趣区域池化层所需要的区域建议,具体包括:
使用非极大值抑制的方法将多余的框融合起来,由于提取的建议窗口太多,既包含得分高的窗口,也包含得分低的窗口,得分高低按照从高到底的顺序排列,得分是按照建议窗口与真实标标签的交并比计算的,一般取IOU>0.6可认为建议窗口是地标建筑物候选框,然后利用非极大值抑制取得分高的100个建议窗口,这些建议窗口基本可以覆盖所有出现的文字区域,如果选区过多会导致建议窗口重叠,会增加无用的计算量。这样,我们便识别出图像中的建筑物以及它所在的区域。
进一步的,所述步骤S1之前,在输入图像时会先对建筑物图像重新调整大小,首先设置最短边short_size=600,如果输入图像的高h大于宽w,则将short_size/h的值scale作为基准比例,修改后高的值为h=h×scale,宽的值为w=w×scale。
本发明的优点及有益效果如下:
传统的检测方法需要人工提取特征,设计过程繁杂,针对性不足,机器学习是人工智能的研究热点,其理论和方法已经被广泛应用于解决工程应用和科学领域的问题,在目标检测领域取得重大突破。本发明对深度学习中较为流行Faster R-CNN算法的基础网络结构的RoI层进行改进,对于地标建筑物具有更好的检测准确率。
本发明最终实现了地标建筑物的识别,对所需要识别的图像,精确地检测出目标地标建筑物的所在区域,并且识别出其真实的类别。相较于传统的识别算法,大大减少了设计区域建议的时间,而且对复杂环境下的地标建筑物的也有较好的识别效果。
本发明的目的是为克服Faster R-CNN算法在建筑物的识别上的缺陷,本发明改进了Faster R-CNN算法中的CNN网络模型,用一种迭代结构的DenseNet模型取代了原有的VGG模型。并且也对原来的RoI Pooling层进行了改进,通过使用RoI Align层解决了原算法中候选框图区域不匹配的问题。通过改善候选框的方法,精确地找出目标建筑物的所在区域,提高识别精度。
DenseNet是一种稠密连接的网络,在该网络中,任何两层之间都有直接的连接,也就是说,网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征框图也会被直接传给其后面所有层作为输入,实现特征信息的整合,避免了特征信息在层间传递时的丢失和梯度消失的问题,还抑制了某些噪声的产生。神经网络其实并不一定要是一个递进层级结构,也就是说网络中的某一层可以不仅仅依赖于紧邻的上一层的特征,而可以依赖于更前面层学习的特征。DenseNet核心思想在于不同层之间建立了连接关系,充分利用特征信息,进一步减轻了梯度消失问题,加深网络不是问题,而且训练效果非常好。
RoI Align解决了RoI Pooling区域不匹配的问题,通过使用双线性插值的方法,在RoI层进行特征映射的时候,区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应,同时得到的固定尺寸的特征矩阵也不再取整。这样,我们预测得到的候选框图精度更高,预测的建筑物区域更接近真实的建筑外区域。
附图说明
图1是本发明提供优选实施例整体流程图
附图2:DenseNet流程图
附图3:RoI Align实现图
附图4:图片的测试结果
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本文建筑物识别模型主要分为步骤:Fast R-CNN检测模块和区域建议候选框提取模块。区域建议网络用于提取由DenseNet网络生成特征框图中的候选框图,Fast R-CNN网络直接检测并识别提取到的区域建议中的目标。输入的图片通过DenseNet网络提取特征框图后送入区域建议网络中,然后区域建议网络预测得到的候选框图在RoI层映射到原来的特征框图上,根据以上大致分析,其具体实现步骤如下:
对于改进后的Faster R-CNN算法,由于我们采集的建筑物图像都是被压缩后的,所以我们在输入图像时会先对建筑物图像重新调整大小。首先我们设置最短边short_size=600,如果输入图像的高h大于宽w,则将short_size/h的值scale作为基准比例,修改后高的值为h=h×scale,宽的值为w=w×scale。这样做的好处是使输入图像相较于原始图像大一点,而且对小尺度的目标有较大的改进。
处理后的图像我们会输入卷积神经网络进行特征提取,由于数据集中图像尺寸不固定,假设输入图像的尺寸为256×256。首先将处理好的图像输入一个大小7×7,步伐为2的卷积层,大的卷积核得到的特征框图能够获得更大的感受野,为后面的层提供更多的特征信息。然后再送入一个3×3最大池化,步伐为2的Pooling层将特征框图的长宽减半,保留主要的特征信息,同时减少下一层的计算量。接着连续通过三个Dense Block和TransitionLayer,每个Dense Block由六个连续连接的1×1和3×3卷积层组成,每个TransitionLayer由一个1×1的卷积层和一个大小2×2,步伐为2的Average pool层组成。在不断丰富特征框图特征信息的同时,减小特征框图的大小,减少模型的计算量。最后模型输出c×512×16×16的特征框图作为RPN模块的输入,进一步提取出候选框框图和类别预测,同时作为RoI层的映射特征图,保持与原算法一致。
区域建议网络不需要对输入特征框图统一尺寸,所以最后输出得到的候选框图尺寸有所不同。区域建议网络采用滑动窗口的方式对特征框图进行遍历,滑动窗口上的特征像素点对应着9种锚框。每次预测都和不同位置但是相同形状的特定锚框相关。Faster R-CNN算法在一个位置上使用了9种锚框:3种不同尺度并使用三种长宽比。在每个位置使用9种锚框,所以在分类层产生了2×9个分数,在回归层产生了4×9个坐标。这些锚框都是精心预选好的,所以它们多种多样,同时非常合理的覆盖了不同尺度和不同长宽比的现实生活中的物体。这使了初始训练将具有更好的猜测,同时允许每次预测都有特定、不同的形状。虽然网络的实际过程中将输入图像的短边调整到600像素,然后按同等比例调整输入图像的长边,但是由于这些不同大小锚框的存在,区域建议网络的训练过程我们在某种意义上可以把它看成是多尺度训练。然后将遍历得到的结果和锚框送入全连接层进行分类与回归,分类与回归分别预测目标为建筑物或者背景的概率和坐标。为了得到高质量的预测坐标,我们用原算法的方法对多余的坐标进行过滤,通过对测试集的训练,将标记框训练得到的真实坐标与区域建议网络预测的坐标进行对比,对于重合度高于0.7的,即包含有明显建筑物的图像设为正样本,低于0.3的,即基本不包含建筑物的背景图像设为负样本,而其余的锚框建筑物与背景相互掺杂,对模型的训练没有任何贡献,不作使用。
在区域建议网络提取得到的候选框图作为输入送到RoI Align层,映射到之前得到的特征框图上,即在特征框图上标记出候选框图的位置。对于这些候选框图,同样采取7×7的RoI,不过每一个1×1区域块的大小不再固定为整数,保留了浮点数,使候选框图能完整的呈现在特征框图上。这些更加精准的7×7的特征框图将被后续网络,一是通过全连接层和Softmax对这些特征框图进行分类,得到不同建筑物的预测概率;二是再次对特征框图进行边框回归,获取更高精度的候选框,即识别到的建筑物所在的坐标。然后通过非极大值抑制消除交叉重复的窗口,找出最佳物体检测的位置,然后再挑选出预测概率大于0.7的建筑物类别。这样,我们便识别出图像中的建筑物以及它所在的区域。
损失函数(Loss function)是为了度量预测值与真实值之间的差异,得到的损失值通过反向传播算法更新网络的权值,使下一次训练得到的预测值更接近于真实值。Faster R-CNN算法对一幅图像的损失函数定义为:
前项为分类损失,后项为回归损失。其中Ncls是分类样本数,Nreg是回归样本数,i是锚框的索引,Pi是锚框i的预测概率。如果锚框为正样本,实际标签Pi *就是1,否则Pi *就是0。ti是一个向量,表示预测的候选框的4个参数化坐标,是与正样本对应的实际标记框的坐标向量。在回归损失中Pi *Lreg这一项意味着只有正样本(Pi *=1)才有回归损失,其他情况就没有(Pi *=0)。
分类损失函数Lcls计算两个类别之间的对数损失:
Lcls(Pi,Pi *)=-log[Pi *Pi+(1-Pi *)(1-Pi)] (2)
回归损失函数Lreg计算预测框与标记框之间的损失:
其中R为定义鲁棒性的损失函数
另外的因式项由转换后预测框和标记框的4个坐标进行计算,计算公式如下:
x,y,w,h指的是区域建议中心坐标以及宽和高。变量x,xa,x*分别指预测框、锚框、标记框(对y,w,h也是一样)的x坐标。可以理解为从预测框到标记框的回归。
由于Faster R-CNN算法在区域建议网络和Fast R-CNN网络都产生了损失,算法的总损失应该为两个网络损失之和,所以为了将这些损失利用起来,我们采取了一种四步训练法对模型进行训练:
1.单独训练区域建议网络,网络参数通过预训练模型进行初始化;
2.单独训练Fast R-CNN网络,将第一步区域建议网路的输出候选区域作为检测网络的输入;
3.再次训练区域建议网路,此时固定网络公共部分的参数,只更新区域建议网络独有部分的参数;
4.用RPN的结果再次微调Fast R-CNN网络,固定网络公共部分的参数,只更新FastR-CNN独有部分的参数,这样,两个网络具有相同的卷积层,形成一个完整的Faster R-CNN网络。
RPN网络作为Faster R-CNN的一部分,是和整个模型一起训练得到的。也就是说,Faster R-CNN的目标函数既包括目标检测中的类别和边界框预测,又包括RPN网络中锚框的二元类别和边界框预测。最后,区域建议网络不仅能够学习到如何生成高质量的区域建议,而且在减少区域建议数量的情况下也能保证目标检测的精度。
本发明一种基于深度学习的地标建筑物识别与检测的研究,通过使用DenseNet基础网络和RoI Align层的方法,模型对地标建筑物候选框的预测更为精准,范围更大,并且对复杂环境下的地标建筑物图像也有较好的识别能力。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (7)

1.一种基于深度学习的地标建筑物识别与检测方法,其特征在于,包括以下步骤:
步骤S1,采用改进的卷积神经网络CNN提取建筑物图像的特征框图,改进的卷积神经网络改进主要在于:用一种迭代结构的DenseNet稠密连接网络模型取代了原有卷积神经网络CNN的VGG视觉几何组模型,DenseNet模型的网络中,任何两层之间都有直接的连接,即网络每一层的输入都是前面所有层输出的并集,而该层所学习的特征框图也会被直接传给其后面所有层作为输入;还对原来的RoI Pooling兴趣区域池化层进行了改进,通过使用RoIAlign兴趣区域对齐层通过使用双线性插值的方法,在RoI层进行特征映射的时候,区域建议网络得到的候选框图不再通过取整的方式与特征框图上的坐标一一对应,同时得到的固定尺寸的特征矩阵也不再取整;
步骤S2,将卷积神经网络提取的特征输入到区域建议网络中,结合区域建议网络中设计的锚框,在分类层输出预测目标是背景还是前景,在回归层输出预测目标的候选框,即目标的预测坐标位置;
步骤S3,在RoI层使用RoI Align的方法,将区域建议网络得到的预测框映射到步骤S1所得到的特征框图上,得到精度更高的候选框;
步骤S4,使用非极大值抑制,从预测类别为目标的预测边界框中移除相似的结果,最终输出的预测边界框即兴趣区域池化层所需要的区域建议。
2.根据权利要求1所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,所述DenseNet网络中,每个层都会与前面所有层在通道维度上连接在一起,这里各个层的特征图大小是相同的,使用填充为1,步伐为1的3×3卷积不改变输出特征框图的大小,并作为下一层的输入,对于一个L层的网络,DenseNet共包含L(L+1)/2个连接;网络中的某一层可以不仅仅依赖于紧邻的上一层的特征,而可以依赖于更前面层学习的特征,将多个这样的迭代结构组合到一起形成一个稠密块Dense Block。
3.根据权利要求2所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,考虑到特征框图合并后输入的通道数大大增加,使得模型过于复杂,在每个模块后面加入一个过渡层Transition layer,通过1×1的卷积来减少连接后的通道数,使用步幅为2的平均池化层减半高和宽。
4.根据权利要求1-3之一所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,所述步骤S2在回归层输出预测目标的候选框,即目标的预测坐标位置,具体包括:在区域建议网络中预测出目标地标建筑物的坐标以及二元分类,区域建议网络不需要对输入特征框图统一尺寸,最后输出得到的候选框图尺寸有所不同,区域建议网络采用滑动窗口的方式对特征框图进行遍历,每个滑动窗口上的特征像素点对应着9种锚框,通过与标记框的比较,选出那些重叠度较高的候选框记为二元类的前景,即可能含有目标建筑物,而那些重叠较小的候选框被记为二元类的背景,其余的对模型的训练没有贡献,舍弃不用。
5.根据权利要求4所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,所述步骤S3在RoI层使用RoI Align的方法,将RPN网络得到的预测框映射到步骤S1所得到的特征框图上,得到精度更高的候选框,具体包括;
将步骤S2的候选框输出映射到步骤S1的特征框图上,使用RoI Align的方法,将步骤S2的候选框划分为n×n的大小,每个小单元格不做整数量化,保留其浮点数,尽可能的使其与真实坐标接近,而每个单元格又将切分成四个小方格,每个小方格中心就是采样点,需要对采样点像素进行双线性插值,就得到该像素点的值,然后对每个单元格内的四个采样点进行最大池化,就可以得到最终的RoI Align的结果。
6.根据权利要求5所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,所述步骤S4使用非极大值抑制,从预测类别为目标的预测边界框中移除相似的结果,最终输出的预测边界框即兴趣区域池化层所需要的区域建议,具体包括:
使用非极大值抑制的方法将多余的框融合起来,由于提取的建议窗口太多,既包含得分高的窗口,也包含得分低的窗口,得分高低按照从高到底的顺序排列,得分是按照建议窗口与真实标标签的交并比计算的,一般取IOU>0.6可认为建议窗口是地标建筑物候选框,然后利用非极大值抑制取得分高的100个建议窗口,这些建议窗口基本可以覆盖所有出现的文字区域,如果选区过多会导致建议窗口重叠,会增加无用的计算量,这样,我们便识别出图像中的建筑物以及它所在的区域。
7.根据权利要求1所述的一种基于深度学习的地标建筑物识别与检测方法,其特征在于,所述步骤S1之前,在输入图像时会先对建筑物图像重新调整大小,首先设置最短边short_size=600,如果输入图像的高h大于宽w,则将short_size/h的值scale作为基准比例,修改后高的值为h=h×scale,宽的值为w=w×scale。
CN201910299200.4A 2019-04-15 2019-04-15 一种基于深度学习的地标建筑物识别与检测方法 Pending CN110046572A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910299200.4A CN110046572A (zh) 2019-04-15 2019-04-15 一种基于深度学习的地标建筑物识别与检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910299200.4A CN110046572A (zh) 2019-04-15 2019-04-15 一种基于深度学习的地标建筑物识别与检测方法

Publications (1)

Publication Number Publication Date
CN110046572A true CN110046572A (zh) 2019-07-23

Family

ID=67277104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910299200.4A Pending CN110046572A (zh) 2019-04-15 2019-04-15 一种基于深度学习的地标建筑物识别与检测方法

Country Status (1)

Country Link
CN (1) CN110046572A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569754A (zh) * 2019-08-26 2019-12-13 江西航天鄱湖云科技有限公司 图像目标检测方法、装置、存储介质及设备
CN110689025A (zh) * 2019-09-16 2020-01-14 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、系统及内窥镜图像识别方法、装置
CN110781744A (zh) * 2019-09-23 2020-02-11 杭州电子科技大学 一种基于多层次特征融合的小尺度行人检测方法
CN110910445A (zh) * 2019-11-26 2020-03-24 深圳市丰巢科技有限公司 一种物件尺寸检测方法、装置、检测设备及存储介质
CN111027542A (zh) * 2019-11-20 2020-04-17 天津大学 一种基于Faster RCNN算法改进的目标检测方法
CN111126278A (zh) * 2019-12-24 2020-05-08 北京邮电大学 针对少类别场景的目标检测模型优化与加速的方法
CN111178131A (zh) * 2019-11-26 2020-05-19 恒大智慧科技有限公司 基于智慧社区的物品找回方法及系统
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN111259796A (zh) * 2020-01-16 2020-06-09 东华大学 一种基于图像几何特征的车道线检测方法
CN111611925A (zh) * 2020-05-21 2020-09-01 重庆现代建筑产业发展研究院 一种建筑物检测与识别方法及装置
CN111666988A (zh) * 2020-05-22 2020-09-15 哈尔滨理工大学 一种基于多层信息融合的目标检测算法
CN112287169A (zh) * 2020-10-29 2021-01-29 字节跳动有限公司 数据采集方法、装置及系统、电子设备及存储介质
CN112381077A (zh) * 2021-01-18 2021-02-19 南京云创大数据科技股份有限公司 一种人脸图像信息的隐藏方法
CN113159215A (zh) * 2021-05-10 2021-07-23 河南理工大学 一种基于Faster Rcnn的小目标检测识别方法
CN114187313A (zh) * 2021-11-10 2022-03-15 泰瑞数创科技(北京)有限公司 基于滑动边缘检测的人工神经网络建筑物轮廓提取方法
CN114241024A (zh) * 2021-11-10 2022-03-25 泰瑞数创科技(北京)有限公司 基于滑动边缘检测的人工神经网络建筑物纹理贴图方法及其系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965865B1 (en) * 2017-03-29 2018-05-08 Amazon Technologies, Inc. Image data segmentation using depth data
CN108491856A (zh) * 2018-02-08 2018-09-04 西安电子科技大学 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN109271868A (zh) * 2018-08-21 2019-01-25 中国海洋大学 基于密集连接卷积网络超球体嵌入的目标重识别方法
CN109389587A (zh) * 2018-09-26 2019-02-26 上海联影智能医疗科技有限公司 一种医学图像分析系统、装置及存储介质
CN109492636A (zh) * 2018-09-30 2019-03-19 浙江工业大学 基于自适应感受野深度学习的目标检测方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965865B1 (en) * 2017-03-29 2018-05-08 Amazon Technologies, Inc. Image data segmentation using depth data
CN108491856A (zh) * 2018-02-08 2018-09-04 西安电子科技大学 一种基于多尺度特征卷积神经网络的图像场景分类方法
CN109271868A (zh) * 2018-08-21 2019-01-25 中国海洋大学 基于密集连接卷积网络超球体嵌入的目标重识别方法
CN109389587A (zh) * 2018-09-26 2019-02-26 上海联影智能医疗科技有限公司 一种医学图像分析系统、装置及存储介质
CN109492636A (zh) * 2018-09-30 2019-03-19 浙江工业大学 基于自适应感受野深度学习的目标检测方法
CN109614985A (zh) * 2018-11-06 2019-04-12 华南理工大学 一种基于密集连接特征金字塔网络的目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AI之路: "DenseNet算法详解"", 《HTTPS://BLOG.CSDN.NET/U014380165/ARTICLE/DETAILS/75142664》 *
于进勇等: "卷积神经网络在目标检测中的应用综述", 《计算机科学》 *
郭耀华: "Faster R-CNN:详解目标检测的实现过程", 《HTTPS://WWW.CNBLOGS.COM/GUOYAOHUA/P/9488119.HTML》 *
阿飞大魔王: "Faster RCNN-2 (ROI Pooling和ROI Align)", 《HTTPS://BLOG.CSDN.NET/LUCIFER_24/ARTICLE/DETAILS/88727211》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569754A (zh) * 2019-08-26 2019-12-13 江西航天鄱湖云科技有限公司 图像目标检测方法、装置、存储介质及设备
CN110689025A (zh) * 2019-09-16 2020-01-14 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、系统及内窥镜图像识别方法、装置
CN110689025B (zh) * 2019-09-16 2023-10-27 腾讯医疗健康(深圳)有限公司 图像识别方法、装置、系统及内窥镜图像识别方法、装置
CN110781744A (zh) * 2019-09-23 2020-02-11 杭州电子科技大学 一种基于多层次特征融合的小尺度行人检测方法
CN111027542A (zh) * 2019-11-20 2020-04-17 天津大学 一种基于Faster RCNN算法改进的目标检测方法
CN110910445A (zh) * 2019-11-26 2020-03-24 深圳市丰巢科技有限公司 一种物件尺寸检测方法、装置、检测设备及存储介质
CN111178131A (zh) * 2019-11-26 2020-05-19 恒大智慧科技有限公司 基于智慧社区的物品找回方法及系统
CN111126278B (zh) * 2019-12-24 2023-06-20 北京邮电大学 针对少类别场景的目标检测模型优化与加速的方法
CN111126278A (zh) * 2019-12-24 2020-05-08 北京邮电大学 针对少类别场景的目标检测模型优化与加速的方法
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN111259796A (zh) * 2020-01-16 2020-06-09 东华大学 一种基于图像几何特征的车道线检测方法
CN111611925A (zh) * 2020-05-21 2020-09-01 重庆现代建筑产业发展研究院 一种建筑物检测与识别方法及装置
CN111666988A (zh) * 2020-05-22 2020-09-15 哈尔滨理工大学 一种基于多层信息融合的目标检测算法
CN112287169A (zh) * 2020-10-29 2021-01-29 字节跳动有限公司 数据采集方法、装置及系统、电子设备及存储介质
CN112287169B (zh) * 2020-10-29 2024-04-26 字节跳动有限公司 数据采集方法、装置及系统、电子设备及存储介质
CN112381077B (zh) * 2021-01-18 2021-05-11 南京云创大数据科技股份有限公司 一种人脸图像信息的隐藏方法
CN112381077A (zh) * 2021-01-18 2021-02-19 南京云创大数据科技股份有限公司 一种人脸图像信息的隐藏方法
CN113159215A (zh) * 2021-05-10 2021-07-23 河南理工大学 一种基于Faster Rcnn的小目标检测识别方法
CN114187313A (zh) * 2021-11-10 2022-03-15 泰瑞数创科技(北京)有限公司 基于滑动边缘检测的人工神经网络建筑物轮廓提取方法
CN114241024A (zh) * 2021-11-10 2022-03-25 泰瑞数创科技(北京)有限公司 基于滑动边缘检测的人工神经网络建筑物纹理贴图方法及其系统

Similar Documents

Publication Publication Date Title
CN110046572A (zh) 一种基于深度学习的地标建筑物识别与检测方法
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN109919108B (zh) 基于深度哈希辅助网络的遥感图像快速目标检测方法
CN107423698B (zh) 一种基于并联卷积神经网络的手势估计方法
CN107092870B (zh) 一种高分辨率影像语义信息提取方法
CN108764228A (zh) 一种图像中文字目标检测方法
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN107403430A (zh) 一种rgbd图像语义分割方法
CN110334705A (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN108805070A (zh) 一种基于嵌入式终端的深度学习行人检测方法
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN110263833A (zh) 基于编码-解码结构的图像语义分割方法
CN110110599B (zh) 一种基于多尺度特征融合的遥感图像目标检测方法
CN106909924A (zh) 一种基于深度显著性的遥感影像快速检索方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN111259906A (zh) 含多级通道注意力的条件生成对抗遥感图像目标分割方法
CN108122003A (zh) 一种基于深度神经网络的弱小目标识别方法
CN114092697B (zh) 注意力融合全局和局部深度特征的建筑立面语义分割方法
CN110334656A (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置
CN109993803A (zh) 城市色调的智能分析与评价方法
CN109376591A (zh) 深度学习特征与视觉特征联合训练的船只目标检测方法
CN106683102A (zh) 基于脊波滤波器和卷积结构模型的sar图像分割方法
CN106611423A (zh) 基于脊波滤波器和反卷积结构模型的sar图像分割方法
CN112767413B (zh) 综合区域连通和共生知识约束的遥感影像深度语义分割方法
CN105931241A (zh) 一种自然场景图像的自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190723