CN108932455B - 遥感图像场景识别方法及装置 - Google Patents

遥感图像场景识别方法及装置 Download PDF

Info

Publication number
CN108932455B
CN108932455B CN201710369774.5A CN201710369774A CN108932455B CN 108932455 B CN108932455 B CN 108932455B CN 201710369774 A CN201710369774 A CN 201710369774A CN 108932455 B CN108932455 B CN 108932455B
Authority
CN
China
Prior art keywords
remote sensing
sensing image
feature
features
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710369774.5A
Other languages
English (en)
Other versions
CN108932455A (zh
Inventor
黄欢
赵刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinghong Technology Co., Ltd
Original Assignee
Shenzhen Jinghong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jinghong Technology Co ltd filed Critical Shenzhen Jinghong Technology Co ltd
Priority to CN201710369774.5A priority Critical patent/CN108932455B/zh
Publication of CN108932455A publication Critical patent/CN108932455A/zh
Application granted granted Critical
Publication of CN108932455B publication Critical patent/CN108932455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种遥感图像场景识别方法及装置,属于图像识别技术领域。方法包括:基于预训练的深度卷积神经网络,提取遥感图像的深度特征;提取遥感图像的SIFT特征;根据SIFT特征及深度特征,确定遥感图像的场景类型。本发明通过基于预训练的深度卷积神经网络,提取遥感图像的深度特征。提取遥感图像的SIFT特征。根据SIFT特征及深度特征,确定遥感图像的场景类型。由于SIFT特征具有尺度不变性及旋转不变性,从而在识别遥感图像的场景类型时,可克服深度特征对遥感图像旋转变换或尺度变换敏感的问题,从而提高了识别遥感图像场景时的准确率。

Description

遥感图像场景识别方法及装置
技术领域
本发明涉及图像识别技术领域,更具体地,涉及一种遥感图像场景识别方法及装置。
背景技术
随着我国航天技术的发展,越来越多的高分卫星被发射到太空中以获取地球表面数据。基于高分卫星获取到的地球表面数据,可实现灾害监测、农业估产以及军事侦查。通常从高分卫星传送到地面上的数据画幅巨大,为了充分利用这些大量的巨幅高分遥感数据,场景分类是非常重要的预处理手段。通过对这些高分遥感数据进行场景分类,可对后续进一步的目标识别、变化检测、图像检索等任务有着重要帮助。遥感图像的场景识别方法分为两个方向:一是基于像素的图像识别,二是基于特征的场景识别。其中,基于像素的场景识别是基于自底而上的分层场景建模来实现场景识别。基于特征的场景识别是依照不同粒度的特征来实现场景识别。其中,特征按照不同粒度可以分为底层特征、中层特征及深度特征。
对于第一个方向,在相关技术中,主要是从遥感图像像素开始分类,先对每个像素赋予一个标签,再通过迭代区域分割的方法得到遥感图像中不同区域的类型标记。最后,通过分类后的不同区域之间的空间关系,得到遥感图像的场景类型。对于第二个方向,在相关技术中,按照不同的特征粒度,可将识别遥感图像场景分为如下几种方式。第一种是基于底层特征来实现遥感图像的场景识别。其中,底层特征为人工设定的一些特征,可用来表达遥感图像的纹理、颜色及结构等。通过训练一个分类器来区分这些底层特征,可识别遥感图像的场景。第二种是基于中层特征来实现遥感图像的场景识别。其中,中层特征为对底层特征进行编码后所建立的字典,通过字典中特征组合可表达遥感图像。
具体地,基于BOW(Bag of Words,词包模型)的场景识别是其中一种基于中层特征的场景识别方法。该方法首先对遥感图像进行分块,提取这些图像块中的特征向量。然后对这些特征向量进行聚类,并将聚类中心作为字典。计算每幅图像的特征点与字典之间的距离,并统计落入每个字典中的特征点个数。这样可得到每幅图像的特征直方图,最后利用SVM分类器进行分类得到遥感图像的场景类型。基于主题模型的分类是另一种基于中层特征的场景识别方法,该方法最初用于文本分析领域。该方法应用在场景识别中时,可将图像特征作为文本分析中的单词。相应地,每幅图像即为文档,每幅图像的场景类别即为文档的主题,从而可得到每幅图像的场景类别。稀疏表达也是一种基于中层特征的场景识别方法,该方法首先利用稀疏字典学习方法得到一组基,然后将每幅图像的特征通过稀疏编码的方法投影到这一组基上,从而得到每幅图像的稀疏表达。最后,利用SVM分类器得到每幅遥感图像的场景类型。
在实现本发明的过程中,发现相关技术至少存在以下问题:
由于遥感图像通常具有旋转多变及尺度多变的特性,而在基于特征进行场景识别时,若遥感图像发生了旋转、尺度缩放或者亮度改变,则会影响识别结果,从而导致识别遥感图像场景时的准确率较低。
发明内容
由于相关技术在对遥感图像进行场景分类时,一般是基于提取到的遥感图像的特征来实现场景分类,而遥感图像通常具有旋转多变及尺度多变的特性,当遥感图像进行了旋转、尺度缩放或者亮度改变时,则会影响遥感图像的场景分类结果,从而造成场景分类的准确率较低。为了解决上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的遥感图像场景识别方法及装置。
根据本发明的第一方面,提供了一种遥感图像场景识别方法,该方法包括:
步骤1,基于预训练的深度卷积神经网络,提取遥感图像的深度特征;
步骤2,提取遥感图像的SIFT特征;
步骤3,根据SIFT特征及深度特征,确定遥感图像的场景类型。
本发明提供的方法,通过基于预训练的深度卷积神经网络,提取遥感图像的深度特征。提取遥感图像的SIFT特征。根据SIFT特征及深度特征,确定遥感图像的场景类型。由于SIFT特征具有尺度不变性及旋转不变性,从而在识别遥感图像的场景类型时,可克服深度特征对遥感图像旋转变换或尺度变换敏感的问题,从而提高了识别遥感图像场景时的准确率。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,预训练的深度卷积神经网络包括卷积层、激励层、正则项、池化层及全连接层。
结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,步骤3之前还包括:
对提取的SIFT特征进行Fisher向量编码,得到相应编码的SIFT特征。
结合第一方面的第一种可能的实现方式,在第四种可能的实现方式中,根据SIFT特征及深度特征,确定遥感图像的场景类型,包括:
通过GRU(Gated Recurrent Unit,门控循环单元)神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征;
基于图像表达特征,确定遥感图像的场景类型。
结合第一方面的第四种可能的实现方式,在第五种可能的实现方式中,通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征,包括:
根据SIFT特征及深度特征,计算深度特征对应的重置率;
根据SIFT特征、深度特征及重置率,计算初次融合特征;
根据初次融合特征及深度特征,计算图像表达特征。
结合第一方面的第五种可能的实现方式,在第六种可能的实现方式中,根据初次融合特征及深度特征,计算图像表达特征之前,还包括:
根据SIFT特征及深度特征,计算初次融合特征对应的更新率;
根据初次融合特征及深度特征,计算图像表达特征,包括:
根据初次融合特征、深度特征及更新率,计算图像表达特征。
结合第一方面的第四种可能的实现方式,在第七种可能的实现方式中,基于图像表达特征,确定遥感图像的场景类型,包括:
将图像表达特征作为softmax分类器的输入量,通过softmax分类器,确定遥感图像的场景类型。
根据本发明的第二方面,提供了一种遥感图像场景识别装置,该装置包括:
第一提取模块,用于基于预训练的深度卷积神经网络,提取遥感图像的深度特征;
第二提取模块,用于提取遥感图像的SIFT特征;
确定模块,用于根据SIFT特征及深度特征,确定遥感图像的场景类型。
根据本发明的第三方面,提供了一种遥感图像场景识别设备,该设备包括至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行上述第一方面或第一方面的各种可能的实现方式所提供的遥感图像场景识别方法。
根据本发明的第四方面,提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使该计算机执行上述第一方面或第一方面的各种可能的实现方式所提供的遥感图像场景识别方法。
应当理解的是,以上的一般描述和后文的细节描述是示例性和解释性的,并不能限制本发明。
附图说明
图1为本发明实施例的一种遥感图像场景旋转多变以及尺度多变的示意图;
图2为本发明实施例的一种遥感图像场景旋转多变以及尺度多变的示意图;
图3为本发明实施例的一种遥感图像场景识别方法的流程示意图;
图4为本发明实施例的一种遥感图像场景识别方法的流程示意图;
图5为本发明实施例的一种深度特征提取的框架示意图;
图6为本发明实施例的一种SIFT特征的提取过程示意图;
图7为本发明实施例的一种遥感图像场景的识别过程示意图;
图8为本发明实施例的一种遥感图像场景识别装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
随着我国航天技术的发展,越来越多的高分卫星被发射到太空中以获取地球表面数据。基于高分卫星获取到的地球表面数据,可实现灾害监测、农业估产以及军事侦查。通常从高分卫星传送到地面上的数据画幅巨大,为了充分利用这些大量的巨幅高分遥感数据,场景分类是非常重要的预处理手段。通过对这些高分遥感数据进行场景分类,可对后续进一步的目标识别、变化检测、图像检索等任务有着重要帮助。遥感图像的场景识别方法分为两个方向:一是基于像素的图像识别,二是基于特征的场景识别。其中,基于像素的场景识别是基于自底而上的分层场景建模来实现场景识别。基于特征的场景识别是依照不同粒度的特征来实现场景识别。其中,特征按照不同粒度可以分为底层特征、中层特征及深度特征。
对于第一个方向,在相关技术中,主要是从遥感图像像素开始分类,先对每个像素赋予一个标签,再通过迭代区域分割的方法得到遥感图像中不同区域的类型标记。最后,通过分类后的不同区域之间的空间关系,得到遥感图像的场景类型。对于第二个方向,在相关技术中,按照不同的特征粒度,可将识别遥感图像场景分为如下几种方式。第一种是基于底层特征来实现遥感图像的场景识别。其中,底层特征为人工设定的一些特征,可用来表达遥感图像的纹理、颜色及结构等。通过训练一个分类器来区分这些底层特征,可识别遥感图像的场景。第二种是基于中层特征来实现遥感图像的场景识别。其中,中层特征为对底层特征进行编码后所建立的字典,通过字典中特征组合可表达遥感图像。
具体地,基于BOW(Bag of Words,词包模型)的场景识别是其中一种基于中层特征的场景识别方法。该方法首先对遥感图像进行分块,提取这些图像块中的特征向量。然后对这些特征向量进行聚类,并将聚类中心作为字典。计算每幅图像的特征点与字典之间的距离,并统计落入每个字典中的特征点个数。这样可得到每幅图像的特征直方图,最后利用SVM分类器进行分类得到遥感图像的场景类型。基于主题模型的分类是另一种基于中层特征的场景识别方法,该方法最初用于文本分析领域。该方法应用在场景识别中时,可将图像特征作为文本分析中的单词。相应地,每幅图像即为文档,每幅图像的场景类别即为文档的主题,从而可得到每幅图像的场景类别。稀疏表达也是一种基于中层特征的场景识别方法,该方法首先利用稀疏字典学习方法得到一组基,然后将每幅图像的特征通过稀疏编码的方法投影到这一组基上,从而得到每幅图像的稀疏表达。最后,利用SVM分类器得到每幅遥感图像的场景类型。
由于遥感图像通常具有旋转多变及尺度旋转的特性,而在基于特征进行场景识别时,若遥感图像发生了旋转、尺度缩放或者亮度改变,则会影响识别结果,从而导致识别遥感图像场景时的准确率较低。其中,遥感图像的场景尺度旋转特性可参考图1及图2。图1及图2分别为遥感图像场景尺度旋转示意图。
针对相关技术中的问题,本发明实施例提供了一种遥感图像场景识别方法。参见图3,该方法包括:301,基于预训练的深度卷积神经网络,提取遥感图像的深度特征;302、提取遥感图像的SIFT特征;303、根据SIFT特征及深度特征,确定遥感图像的场景类型。
本发明实施例提供的方法,通过基于预训练的深度卷积神经网络,提取遥感图像的深度特征。提取遥感图像的SIFT特征。根据SIFT特征及深度特征,确定遥感图像的场景类型。由于SIFT特征具有尺度不变性及旋转不变性,从而在识别遥感图像的场景类型时,可克服深度特征对遥感图像旋转变换或尺度变换敏感的问题,从而提高了识别遥感图像场景时的准确率。
作为一种可选实施例,预训练的深度卷积神经网络包括卷积层、激励层、正则项、池化层及全连接层。
作为一种可选实施例,步骤303之前还包括:
对提取的SIFT特征进行Fisher向量编码,得到相应编码的SIFT特征。
作为一种可选实施例,根据SIFT特征及深度特征,确定遥感图像的场景类型,包括:
通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征;
基于图像表达特征,确定遥感图像的场景类型。
作为一种可选实施例,通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征,包括:
根据SIFT特征及深度特征,计算深度特征对应的重置率;
根据SIFT特征、深度特征及重置率,计算初次融合特征;
根据初次融合特征及深度特征,计算图像表达特征。
作为一种可选实施例,根据初次融合特征及深度特征,计算图像表达特征之前,还包括:
根据SIFT特征及深度特征,计算初次融合特征对应的更新率;
根据初次融合特征及深度特征,计算图像表达特征,包括:
根据初次融合特征、深度特征及更新率,计算图像表达特征。
作为一种可选实施例,基于图像表达特征,确定遥感图像的场景类型,包括:
将图像表达特征作为softmax分类器的输入量,通过softmax分类器,确定遥感图像的场景类型。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
基于上述图1对应实施例的内容,本发明实施例提供了一种遥感图像场景识别方法。参见图4,该方法包括:401、基于预训练的深度卷积神经网络,提取遥图像的深度特征;402、提取遥感图像的SIFT特征;403、通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征;404、基于图像表达特征,确定遥感图像的场景类型。
其中,步骤401、基于预训练的深度卷积神经网络,提取遥图像的深度特征。
在执行该步骤之前,可基于图像数据库,对深度卷积神经网络进行训练,得到预训练的深度卷积神经网络。在本发明实施例中,深度卷积神经网络可采用VGG—NET网络模型。当然,还可以使用AlexNet或GoogLeNet等网络模型,本发明实施例不对网络模型的类型作具体限定。另外,用于训练深度卷积神经网络的图像数据库可以为ImageNet,本发明实施例对此也不作具体限定。其中,ImageNET包括1500W张照片,24000种物品,且均来自自然图像。本发明实施例所使用的深度卷积神经网络可被划分为卷积层、激励层、正则项、池化层及全连接层。需要说明的是,除了上述划分的层次之外,还可以包括softmax层级输出层,本发明实施例不对深度卷积神经网络划分层次的方式作具体限定。
另外,深度卷积神经网络在划分层次时,每种层次的数量可以不为一个,每种层次的数量可根据需求进行配置,本发明实施例对此不作具体限定。例如,若深度卷积神经网络包括卷积层、激励层、正则项、池化层及全连接层,则具体结构可包括5个卷积层、1个激励层、2个正则项、3个池化层及2个全连接层。以图像数据库为ImageNeT,深度卷积神经网络为VGG—NET为例,通过ImageNet来对VGG—NET进行训练,可以得到VGG—NET的各项网络参数,从而得到预训练的深度卷积神经网络。其中,基于ImageNet数据库进行参数预训练的过程可参考图5。
基于上述深度卷积神经网络划分的层次,现对每一层次的作用进行说明。卷积层主要用于采用各种卷积核对输入的遥感图像进行卷积处理。其中,卷积层中卷积处理的过程可参考如下公式(1):
Figure BDA0001302505250000091
在上述公式(1),zk,1表示第1层第k个特征图(feature map)。fk,1表示第1层第k个滤波器(filter),
Figure BDA0001302505250000092
表示由第1层向下重构的图像。另外,“*”表示卷积运算。卷积操作主要是将原遥感图像上的每一像素,经过平均加权后得到一个新的像素值。其中,权重作为其中一项网络参数可由上述训练过程所获得。通过像素补全之后,经过卷积过程后的遥感图像与原遥感图像大小相等。
人脑工作中会将部分神经元激活,而会抑制其他神经元,神经元激活数量一般保持在1-4%。基于上述原理,激励层中的ReLU激励函数被证明在单侧抑制、相对宽阔兴奋边界及稀疏激活性等方面表现良好,从而本发明实施例中可采用ReLU函数作为激励层中的激励函数。相应地,激励函数可参考如下公式(2):
y=max(0,x) (2)
在上述公式(2)中,x表示输入信号,y表示输出信号。经过激励函数可以保证部分信息被激活,而其余信息被抑制。
在训练深度卷积神经网络过程中,通常需要对卷积核参数有一定限制,以为得到最优效果。具体地,通过正则项来对卷积核参数进行限制。其中,可通过正则项L1以及正则项L2来对卷积核参数进行限制,本发明实施例对此不作具体限定。其中,正则项L1用来保证稀疏性,且确保深度卷积神经网络对应模型的简单性,以避免出现过度拟合。正则项L2用于在对深度卷积神经网络进行优化的过程中得到平滑解。
池化层主要用来对遥感图像进行池化操作,池化操作用来保证得到遥感图像具有代表性的特征。其中,池化操作可包含平均池化、最大值池化及最小值池化等一系列不同的池化操作。
当遥感图像通过五层卷积操作后,可得到遥感图像特征图对应的向量。该向量在经过全连接层时,该向量每一维度上的分值可重新进行平均加权计算。该向量在经过全连接层之后,可得到与原特征维数相同的新向量。其中,上述加权计算中的权值为待学习的参数,加权计算的过程可参考如下公式(3):
y=kx+b (3)
在上述公式(3)中,参数k表示待学习的权重,b为偏置项。在提取遥感图像的深度特征时,经过全连接层之后还可经过激励层,并选择其中的一部分特征作为激活的向量,进而进入下一步的学习。上述提取过程为了防止过拟合,可以有跳出操作。或者,还可将计算的中间值中小于某阈值的中间值置为零,来防止过拟合。
需要说明的是,由于在上述步骤401中深度卷积神经网络已训练好,从而本步骤只需要经过一次前向传播即可提取到遥感图像的深度特征。
其中,步骤402、提取遥感图像的SIFT特征。
本实施例不对提取遥感图像的SIFT特征的方式作具体限定,包括但不限于:构建遥感图像对应的尺度空间;基于构建的尺度空间,选取遥感图像的关键点;对所有关键点进行筛选,为筛选后的每一关键点赋值方向参数;基于每一筛选后关键点的方向参数,生成每一筛选后关键点的描述子,作为遥感图像的SIFT特征。
具体地,对于原遥感图像生成不同的尺度空间,可模拟出遥感图像数据的多尺度特征。其中,高斯卷积核是实现尺度变化的唯一线性核。构建尺度空间的过程可参考如下公式(4)及公式(5):
L(x,y,σ)=G(x,y,σ)*I(x,y) (4)
Figure BDA0001302505250000111
在上述公式(4)及公式(5)中,G(x,y,σ)为尺度可变的高斯核函数。(x,y)为空间坐标,也为尺度坐标。σ大小决定图像的平滑程度。大尺度对应图像的概貌特征,小尺度对应图像的细节特征。大的σ值对应粗糙尺度(低分辨率),反之,对应精细尺度(高分辨率)。
在构建尺度空间之后,可构建遥感图像金字塔。具体地,对于一幅遥感图像,可建立其在不同尺度的图像,也称为子八度。其中,第一个子八度尺度为原图像大小,后面每一个子八度为上一个子八度降采样之后结果。
在构建遥感图像金字塔之后,可检测DOG尺度空间极值点。其中,DOG尺度空间,即高斯差分尺度空间主要是为了有效地在尺度空间检测到稳定的关键点,利用不同尺度的高斯差分核与图像卷积而生成。为了寻找尺度空间极值点,可将每一个降采样点与它所有相邻点比较,看其是否为图像域或者尺度域相邻点的最大值或者最小值。若一个降采样点如果在DOG尺度空间本层以及上下层的26个邻域中是最大或者最小值,则可确定该降采样点为该尺度空间下的一个特征点。
通过上述过程在确定每幅遥感图像中的特征点后,可为每个特征点计算一个方向,依照这个方向做进一步的计算。具体地,可利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。其中,方向参数具体计算过程可参考如下公式(6)及公式(7):
Figure BDA0001302505250000121
θ(x,y)=αtan2((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y))) (7)
上述公式(6)及公式(7)为(x,y)处梯度的模值和方向公式。其中,L所用的尺度为每个关键点各自所在的尺度。至此,遥感图像的关键点已经检测完毕。其中,每个关键点有三个信息:位置,所处尺度及方向,从而可以确定一个SIFT特征区域。其中,提取SIFT特征的过程可参考图6。
为了让SIFT特征维数与深度特征维数相同,同时为了更高效地表达SIFT特征,通过上述过程在得到SIFT特征之后,本发明实施例还可对提取的SIFT特征进行Fisher向量编码,得到相应编码的SIFT特征。具体地,通过对SIFT特征进行FISHER编码后,可生成字典,从而可由字典来表达SIFT特征。
其中,步骤403、通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征。
本发明实施例不对通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征的方式作具体限定,包括但不限于:根据SIFT特征及深度特征,计算深度特征对应的重置率;根据SIFT特征、深度特征及重置率,计算初次融合特征;根据初次融合特征及深度特征,计算图像表达特征。
其中,GRU神经网络可包括输入层、隐藏层以及输出层,还可以包括更新门、重置门、重置记忆单元及最终记忆单元,本发明实施例不对GRU神经网络的结构作具体限定。在计算图像表达特征之前,还可根据SIFT特征及深度特征,计算初次融合特征对应的更新率。相应地,本实施例不对根据初次融合特征及深度特征,计算图像表达特征的方式作具体限定,包括但不限于:根据初次融合特征、深度特征及更新率,计算图像表达特征。
在计算深度特征对应的重置率时,可参考如下公式(8):
rs=σ(Wr*Xs+Ur*hd) (8)
在计算初次融合特征时,可参考如下公式(9):
h's=tanh(W*Xs+rs*U*hd) (9)
在计算初次融合特征对应的更新率时,可参考如下公式(10):
zs=σ(Wz*Xs+Uz*hd) (10)
在计算图像表达特征时,可参考如下公式(11):
hs=zs*hd+(1-zs)*h's (11)
在上述公式(8)至(11)中,zs是更新门,rs是重置门,h's是重置记忆单元,hs是最终记忆单元。Xs是当前时刻的输入向量,hd是上一时刻的隐层向量,Wz、Wr、W、Uz、Ur及U均为及需要学习的权重系数。
具体地,上述公式(8)至(11)中应用到本发明实施例计算图像表达特征的过程时,输入的深度特征对应于公式中变量hd,输入的SIFT特征对应于上述公式中Xs。利用深度特征以及SIFT特征,通过公式(8),计算得到深度特征对应的重置率。通过上述公式(10),计算得到初次融合特征对应的更新率。其中,更新率及重置率的取值均为0至1之间的小数。
接着,可计算重置记忆单元。重置记忆单元是对最终输出结果的一种补充选择。最终的输出结果由重置记忆单元与当前节点输入值二者组成。其中,二值之间的权重由更新率控制。当更新率接近于1时说明此时输出节点主要由当前输入的节点决定,也就是说明在最终融合得到的图像表达特征中,深度特征对于判别此时场景影响更大。当更新率接近于0时,说明此时输出节点主要由重置记忆单元决定,也就是说在最终融合的图像表达特征中,深度特征与SIFT特征初步融合的初次融合特征对于判别此时场景影响更大。
重置记忆单元,由深度特征,SIFT特征,重置率三个值通过公式(9)计算得到。首先,重置率与深度特征对应向量相乘,得到重置后的深度特征。重置后的深度特征与权重系数矩阵相乘,得到第一乘积。SIFT同时与权重系数矩阵相乘,得到第二乘积。将第一乘积与第二乘积二者相加,相加后的向量代表了初步融合后的初次融合特征。重置记忆单元代表了深度特征,SIFT特征在初步融合时得到初次融合特征。
最终融合的图像表达特征是由SIFT特征与初次融合特征组成。其中,二者之间的权重由更新率控制得到,更新率控制初次融合特征与SIFT特征对于图像表达特征的影响程度。其中,上述过程中涉及到的权重系数可基于训练集,通过后向传播算法计算得到,本发明实施例对此不作具体限定。
其中,步骤404、基于图像表达特征,确定遥感图像的场景类型。
本发明实施例不对基于图像表达特征,确定遥感图像的场景类型的方式作具体限定,包括但不限于:将图像表达特征作为softmax分类器的输入量,通过softmax分类器,确定遥感图像的场景类型。其中,确定遥感图像场景类型的识别过程可参考图7。
为了验证本发明实施例提供的遥感影像场景识别方法相比于现有技术有更高的准确率,现引入识别率的概念。其中,识别率的计算过程可参考下列公式(12):
accuracy=R/R×100% (12)
在上述公式(12)中,R为按照真实结果确定识别正确的遥感图像数量,R为总的识别数量,即测试集中遥感图像样本的数量。
本发明实施例的识别效果,可通过以下仿真实验做进一步地说明。其中,仿真条件为:中央处理器为Intel(R)Core i7-5930k、内存64G、Ubuntu 14操作系统上,通过运用MATLAB软件进行仿真。
仿真实验数据可利用美国地质调查局(the U.S.Geological Survey,USGS)提供的UCM数据库以及武汉大学测绘遥感国家重点实验室公布的AID数据库。
仿真过程为:首先,在UCM数据库上通过上述步骤得到遥感图像最终的分类精度。接着,在UCM数据库上使用传统的BOW、LDA以及稀疏编码的方法对遥感图像进行分类并得到其分类精度。参考表1,表1为本发明实施例所提供的识别方法与相关技术的识别方法之间识别结果对应的对比表。
表1
Figure BDA0001302505250000151
与此同时,采用相同的方法在AID数据库上进行实验,实验结果可参考如下表(2)。
表2
Figure BDA0001302505250000152
由表1及表2的实验结果可知,本发明相比较与传统的BOW、SVM以及稀疏编码的方法,识别精度有了显著的提升。
本发明实施例提供的方法,通过基于图像数据库,对深度卷积神经网络进行训练,得到预训练的深度卷积神经网络。基于预训练的深度卷积神经网络,提取遥感图像的深度特征。提取遥感图像的SIFT特征。根据SIFT特征及深度特征,确定遥感图像的场景类型。由于SIFT特征具有尺度不变性及旋转不变性,从而在识别遥感图像的场景类型时,可克服深度特征对遥感图像旋转变换或尺度变换敏感的问题,从而提高了识别遥感图像场景时的准确率。另外,在短时间内基于小数据量完成模型训练的同时,还可提高场景识别精度,从而可应用至地理国情勘察、军事侦察和环境监测等各个领域,拓展了应用场景。
本发明实施例提供了一种遥感图像场景识别装置,该装置用于执行上述图3或图4对应的实施例中所提供的遥感图像场景识别方法。参见图8,该装置包括:
第一提取模块801,用于基于预训练的深度卷积神经网络,提取遥感图像的深度特征;
第二提取模块802,用于提取遥感图像的SIFT特征;
确定模块803,用于根据SIFT特征及深度特征,确定遥感图像的场景类型。
作为一种可选实施例,预训练的深度卷积神经网络包括卷积层、激励层、正则项、池化层及全连接层。
作为一种可选实施例,该装置还包括:
编码模块,用于对提取的SIFT特征进行Fisher向量编码,得到相应编码的SIFT特征。
作为一种可选实施例,确定模块803,包括:
融合单元,用于通过GRU神经网络模型,将SIFT特征及深度特征进行特征融合,得到融合后的图像表达特征;
确定单元,用于基于图像表达特征,确定遥感图像的场景类型。
作为一种可选实施例,融合单元,包括:
第一计算子单元,用于根据SIFT特征及深度特征,计算深度特征对应的重置率;
第二计算子单元,用于根据SIFT特征、深度特征及重置率,计算初次融合特征;
第三计算子单元,用于根据初次融合特征及深度特征,计算图像表达特征。
作为一种可选实施例,融合单元,还包括:
第四计算子单元,用于根据SIFT特征及深度特征,计算初次融合特征对应的更新率;
该第三计算子单元,用于根据初次融合特征、深度特征及更新率,计算图像表达特征。
作为一种可选实施例,确定单元,用于将图像表达特征作为softmax分类器的输入量,通过softmax分类器,确定遥感图像的场景类型。
本发明实施例提供的装置,通过基于预训练的深度卷积神经网络,提取遥感图像的深度特征。提取遥感图像的SIFT特征。根据SIFT特征及深度特征,确定遥感图像的场景类型。由于SIFT特征具有尺度不变性及旋转不变性,从而在识别遥感图像的场景类型时,可克服深度特征对遥感图像旋转变换或尺度变换敏感的问题,从而提高了识别遥感图像场景时的准确率。另外,在短时间内基于小数据量完成模型训练的同时,还可提高场景识别精度,从而可应用至地理国情勘察、军事侦察和环境监测等各个领域,拓展了应用场景。
本发明实施例提供了一种遥感图像场景识别设备,该设备包括:至少一个处理器;以及
与处理器通信连接的至少一个存储器,其中:
存储器存储有可被处理器执行的程序指令,处理器调用程序指令能够执行上述各方法实施例所提供的方法,例如包括:基于预训练的深度卷积神经网络,提取遥感图像的深度特征;提取遥感图像的SIFT特征;根据SIFT特征及深度特征,确定遥感图像的场景类型。
本发明实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储计算机指令,该计算机指令使该计算机执行上述各方法实施例所提供的方法,例如包括:基于预训练的深度卷积神经网络,提取遥感图像的深度特征;提取遥感图像的SIFT特征;根据SIFT特征及深度特征,确定遥感图像的场景类型。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种遥感图像场景识别方法,其特征在于,包括:
步骤1,基于预训练的深度卷积神经网络,提取遥感图像的深度特征;
步骤2,提取所述遥感图像的SIFT特征;
步骤3,根据所述SIFT特征及所述深度特征,确定所述遥感图像的场景类型;
其中,所述根据所述SIFT特征及所述深度特征,确定所述遥感图像的场景类型,包括:
通过GRU神经网络模型,根据所述SIFT特征及所述深度特征,采用公式rs=σ(Wr*Xs+Ur*hd),计算所述深度特征对应的重置率;
根据所述SIFT特征、所述深度特征及所述重置率,采用公式h's=tanh(W*Xs+rs*U*hd)计算初次融合特征;
根据所述SIFT特征及所述深度特征,采用公式zs=σ(Wz*Xs+Uz*hd)计算所述初次融合特征对应的更新率;
根据所述初次融合特征及所述深度特征,采用hs=zs*hd+(1-zs)*h's计算图像表达特征;
基于所述图像表达特征,确定所述遥感图像的场景类型;
其中,zs是更新门,rs是重置门,h's是重置记忆单元,hs是最终记忆单元,Xs是当前时刻的输入向量,hd是上一时刻的隐层向量,Wz、Wr、W、Uz、Ur及U均为及需要学习的权重系数。
2.根据权利要求1所述的方法,其特征在于,所述预训练的深度卷积神经网络包括卷积层、激励层、正则项、池化层及全连接层。
3.根据权利要求1所述的方法,其特征在于,所述步骤3之前还包括:
对提取的SIFT特征进行Fisher向量编码,得到相应编码的SIFT特征。
4.根据权利要求1所述的方法,其特征在于,所述基于所述图像表达特征,确定所述遥感图像的场景类型,包括:
将所述图像表达特征作为softmax分类器的输入量,通过所述softmax分类器,确定所述遥感图像的场景类型。
5.一种遥感图像场景识别装置,其特征在于,包括:
第一提取模块,用于基于预训练的深度卷积神经网络,提取遥感图像的深度特征;
第二提取模块,用于提取所述遥感图像的SIFT特征;
确定模块,用于根据所述SIFT特征及所述深度特征,确定所述遥感图像的场景类型;
其中,所述根据所述SIFT特征及所述深度特征,确定所述遥感图像的场景类型,包括:
通过GRU神经网络模型,根据所述SIFT特征及所述深度特征,采用公式rs=σ(Wr*Xs+Ur*hd),计算所述深度特征对应的重置率;
根据所述SIFT特征、所述深度特征及所述重置率,采用公式h's=tanh(W*Xs+rs*U*hd)计算初次融合特征;
根据所述SIFT特征及所述深度特征,采用公式zs=σ(Wz*Xs+Uz*hd)计算所述初次融合特征对应的更新率;
根据所述初次融合特征及所述深度特征,采用hs=zs*hd+(1-zs)*h's计算图像表达特征;
基于所述图像表达特征,确定所述遥感图像的场景类型;
其中,zs是更新门,rs是重置门,h's是重置记忆单元,hs是最终记忆单元, Xs是当前时刻的输入向量,hd是上一时刻的隐层向量,Wz、Wr、W、Uz、Ur及U均为及需要学习的权重系数。
6.一种遥感图像场景识别设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
7.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。
CN201710369774.5A 2017-05-23 2017-05-23 遥感图像场景识别方法及装置 Active CN108932455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710369774.5A CN108932455B (zh) 2017-05-23 2017-05-23 遥感图像场景识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710369774.5A CN108932455B (zh) 2017-05-23 2017-05-23 遥感图像场景识别方法及装置

Publications (2)

Publication Number Publication Date
CN108932455A CN108932455A (zh) 2018-12-04
CN108932455B true CN108932455B (zh) 2020-11-10

Family

ID=64450311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710369774.5A Active CN108932455B (zh) 2017-05-23 2017-05-23 遥感图像场景识别方法及装置

Country Status (1)

Country Link
CN (1) CN108932455B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815790B (zh) * 2018-12-12 2021-02-19 中国科学院西安光学精密机械研究所 用于遥感目标检测的门控轴聚检测网络系统及方法
CN109740665B (zh) * 2018-12-29 2020-07-17 珠海大横琴科技发展有限公司 基于专家知识约束的遮挡图像船只目标检测方法及系统
CN109934153B (zh) * 2019-03-07 2023-06-20 张新长 基于门控深度残差优化网络的建筑物提取方法
CN110097541B (zh) * 2019-04-22 2023-03-28 电子科技大学 一种无参考的图像去雨质量评价系统
CN113344030B (zh) * 2021-05-11 2023-11-03 淮阴工学院 一种基于判决相关分析的遥感图像特征融合方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594382B1 (en) * 1999-11-04 2003-07-15 The United States Of America As Represented By The Secretary Of The Navy Neural sensors

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512661B (zh) * 2015-11-25 2019-02-26 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6594382B1 (en) * 1999-11-04 2003-07-15 The United States Of America As Represented By The Secretary Of The Navy Neural sensors

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Indexing of Remote Sensing Images With Different Resolutions by Multiple Features;Bin Luo et al;《 IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》;20130429;第6卷(第4期);第1899-1912页 *
Robust spatial-temporal deep model for multimedia event detection;Litao Yu et al;《Neurocomputing》;20161112;第213卷;第48-53页 *
Scene classification of high resolution remote sensing images using convolutional neural networks;G.Cheng et al;《IEEE》;20161103;第767-770页 *
Unsupervised Feature learning for Aerial Scene Classification;Anil M. et al;《IEEE》;20130307;第439-451页 *
基于多特征融合的深度视频自然语言描述方法;梁锐;《计算机应用》;20170410;第37卷(第4期);第1179-1184页 *

Also Published As

Publication number Publication date
CN108932455A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN110135267B (zh) 一种大场景sar图像细微目标检测方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN108932455B (zh) 遥感图像场景识别方法及装置
CN111259930B (zh) 自适应注意力指导机制的一般性目标检测方法
CN108230329B (zh) 基于多尺度卷积神经网络的语义分割方法
CN109886066B (zh) 基于多尺度和多层特征融合的快速目标检测方法
CN110414377B (zh) 一种基于尺度注意力网络的遥感图像场景分类方法
CN108154192B (zh) 基于多尺度卷积与特征融合的高分辨sar地物分类方法
Luus et al. Multiview deep learning for land-use classification
CN111401265B (zh) 行人重识别方法、装置、电子设备和计算机可读存储介质
CN110348399B (zh) 基于原型学习机制和多维残差网络的高光谱智能分类方法
CN108108751B (zh) 一种基于卷积多特征和深度随机森林的场景识别方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN110991257B (zh) 基于特征融合与svm的极化sar溢油检测方法
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
CN113743417B (zh) 语义分割方法和语义分割装置
CN105989336A (zh) 基于带权重的解卷积深度网络学习的场景识别方法
CN108564111A (zh) 一种基于邻域粗糙集特征选择的图像分类方法
CN113537180B (zh) 树障的识别方法、装置、计算机设备和存储介质
CN112464717A (zh) 一种遥感图像目标检测方法、系统、电子设备和存储介质
CN108460400A (zh) 一种结合多种特征信息的高光谱图像分类方法
CN110852358A (zh) 一种基于深度学习的车辆类型判别方法
EP3671635B1 (en) Curvilinear object segmentation with noise priors
Deepan et al. Remote sensing image scene classification using dilated convolutional neural networks
CN112241736A (zh) 一种文本检测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191225

Address after: 518109 first floor, building 1b, yunantong Industrial Park, langrong Road, Dalang community, Dalang street, Longhua District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jinghong Technology Co., Ltd

Address before: 201203 Shanghai City, Pudong New Area free trade zone fanchun Road No. 400 Building 1 layer 3

Applicant before: Shanghai Jinghong Electronic Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant