CN113989671A

CN113989671A - 基于语义感知与动态图卷积的遥感场景分类方法及系统

Info

Publication number: CN113989671A
Application number: CN202111267094.5A
Authority: CN
Inventors: 唐旭; 杨钰群; 马晶晶; 张向荣; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-01-28

Abstract

本发明公开了一种基于语义感知与动态图卷积的遥感场景分类方法及系统，构建基于深度残差网络的特征金字塔完成特征的初步提取，获得特征F；构建自适应语义识别模块，通过语义识别获得特征F的区域索引I；根据特征F，利用区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F*；利用全局性特征F*实现遥感图像的场景分类，本发明具有更稳定且精确的分类性能。

Description

基于语义感知与动态图卷积的遥感场景分类方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及一种基于语义感知与动态图卷积的遥感场景分类方法及系统。

背景技术

随着遥感影像分辨率的提高，高分辨率遥感影像能够显示更详细的土地覆盖信息。根据不同的地表覆盖语义，HRRS影像可以划分为不同的场景。近年来，HRRS图像的场景分类占据越来越重要的地位，因为它可以被应用于许多遥感图像应用中，例如城乡规划、地表探测等。然而，HRRS图像具有内容复杂、语义多样、目标尺度多、体积大等特点。这些特点导致了HRRS场景分类是一项艰巨且具有挑战性的任务。因此，如何提高高分辨率遥感场景的分类精度成为遥感领域的研究热点。针对上述HRRS图像的特点，人们提出了多种HRRS场景的分类方法。其中特征提取器和分类器两个主要部分起着至关重要的作用。特征提取器的目的是将HRRS图像映射为合适的视觉特征。而分类器侧重于将HRRS场景划分为不同的语义类别。

由于传统机器学习方法具有良好的稳定性和较高的效率，因此手工特征(如纹理特征、光谱特征、颜色特征、形状特征)和传统的分类器(如支持向量机、决策树)被广泛的应用。然而，由于手工特征难以全面描述高分辨率遥感图像的信息，并且传统分类器不能很好地匹配手工特征的信息分布，因此应用传统机器学习方法的高分辨率遥感图像场景分类的性能不能满足预期。

随着深度卷积神经网络(DCNNs)的发展，基于DCNN的遥感场景分类方法越来越受欢迎。与手工特征相比，层次化的DCNNs学习到的深度特征能够完全描述HRRS图像。同时，利用特征提取器对基于DCNNs方法的分类器进行训练能够使分类器适当地跟踪深度特征分布。因此，越来越多基于DCNN的方法被提出用于HRRS图像场景分类任务，它们在各种应用中都取得了令人印象深刻的性能。尽管基于DCNNs的方法在HRRS图像场景分类中取得了很大的成功，但仍有改进空间。一般来说，HRRS图像场景分类是一个单标签的任务。然而，预先定义的单一标签不能完全描述HRRS场景的复杂内容。以“桥”场景为例，除了“桥”之外，还有一些区域可能被“河”、“车”、“草”、甚至“密集建筑”所覆盖。由于标签过于单一，基于DCNNs的方法在特征学习过程中会均等地考虑所有的语义，而不能考虑不同的语义之间的关系。这将导致不同语义之间的信息相互产生干扰，从而降低了所得特征的辨识度，进一步对分类精度产生负面影响。为了缓解上述问题，研究者习惯于在基于DCNNs的方法中引入注意力机制，以促使网络更加关注重要的语义区域。因此，学习到的深度特征可以只关注重要的语义。但是，注意力机制虽然可以部分地解决信息干扰问题，但并不能完全挖掘出HRRS图像中的所有信息。同时，很难保证所有的注意区域都是正确的，这将直接影响分类结果。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于语义感知与动态图卷积的遥感场景分类方法及系统，解决由于训练标签单一，传统DCNN难以将遥感图像中的多种语义信息合理的运用起来以提高分类精度的问题。

本发明采用以下技术方案：

基于语义感知与动态图卷积的遥感场景分类方法，包括以下步骤：

S1、构建基于深度残差网络的特征金字塔完成特征的初步提取，获得特征F；

S2、构建自适应语义识别模块，通过语义识别获得特征F的区域索引I；

S3、根据步骤S1获取的特征F，利用步骤S2所得的区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F*；

S4、利用步骤S3获得的全局性特征F*实现遥感图像的场景分类。

具体的，步骤S1具体为：

将遥感图像输入基于深度残差网络的特征金字塔中，获得四组多尺度特征C₁,C₂,C₃,C₄；采取特征融合策略，利用卷积核为1×1的卷积层将多尺度特征C₁,C₂,C₃,C₄压缩净化为P₁,P₂,P₃,P₄；对于尺寸由小变大的第i个特征融合层，采用双线性插值方法对尺寸小于C_i的特征进行上采样操作；逐步级联至特征C₁，并采用卷积层融合级联C₁后的特征以获得包含多尺度、多层次信息的特征P₁，将P₁作为特征金字塔生成的最终特征表示F。

进一步的，P_i具体为：

其中，P_i为第i个特征融合层的输出，Conv_k×k(·)代表卷积核大小为k×k的卷积层，Upsample(·)代表双线性插值上采样操作，

表示特征的级联操作。

具体的，步骤S1中，特征金字塔为自上而下且具有横向链接的网络结构，深度残差网络包括第一个卷积层、第二个最大值池化层以及四个残差层。

具体的，步骤S2具体为：

使用手动或自适应分析的方法，确定需要识别出多少种语义信息，预设的语义种类的数量依据数据集的复杂度确定；确定语义种类的数量后，将特征F经过一层卷积层与一层优化层以生成特征F'，卷积层将特征F的通道数转为语义种类的数量，优化层对卷积后的特征进行数值的优化；获得优化的特征F'，优化的特征F'的通道数等于预设的语义种类数量；从每个特征像素的通道中挑选一个数值最大的位置，将最大位置作为像素所属的语义索引；当所有的特征像素均获得一个语义索引后，生成一个语义区域级的索引I，区域索引I将原特征F识别为不同的语义区域。

具体的，步骤S3具体为：

将特征F分为N_r个区域，在通道内计算区域内特征的均值或最大值计算得到中心特征，利用中心特征表示每个区域作为一个图节点，得到所有区域的中心特征的图节点集合F_g，根据图卷积理论构造邻接矩阵A，采用构造的图节点集合F_g、A、W构造更新特征F的策略，W为特征的线性变换矩阵，在特征中所有的特征点都被更新完成后，特征F被更新为同时包含局部与全局信息的特征，获得全局性特征F*。

进一步的，更新特征F中每一个像素f_i ^*为：

其中，f_i为原始特征的像素，σ(·)表示激活函数，A_h表示邻接矩阵A的第j行，x_i表示第i个图节点。

进一步的，邻接矩阵A构造如下：

其中，Υ是一个超参数，x_i,x_j代表两个图节点，D(·)是一个距离度量函数，A_ij为邻接矩阵的第i行第j列的值。

具体的，步骤S4具体为：

采用核函数为1×1的卷积层对F*进行处理，输出通道等于遥感场景数据集中语义类的数量；利用Softmax函数将输出通道维度的输出归一化；选择输出通道维度上的最大值所对应的场景类作为遥感场景的最终标签，实现遥感图像的场景分类。

本发明的另一技术方案是，一种基于语义感知与动态图卷积的遥感场景分类系统，包括：

提取模块，构建基于深度残差网络的特征金字塔完成特征的初步提取，获得特征F；

识别模块，构建自适应语义识别模块，通过语义识别获得特征F的区域索引I；

构造模块，根据提取模块的特征F，利用识别模块得的区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F*；

分类模块，利用构造模块获得的全局性特征F*实现遥感图像的场景分类。

与现有技术相比，本发明至少具有以下有益效果：

本发明基于语义感知与动态图卷积的遥感场景分类方法，由于遥感图像中存在着复杂且多变的语义信息，传统的卷积神经网络的信息捕获方式难以考虑不同语义之间的关系，不同语义信息间会产生干扰从而影响网络精度。基于图卷积的方法，可以弥补这一缺陷，通过捕获不同语义信息间的关系，可以充分解译遥感图像以获得准确的场景分类，充分考虑遥感图像中存在的多种语义信息之间的关系以获得准确的场景分类结果。

进一步的，利用含有多尺度多层次信息的特征进行场景分类，由深度残差网络提取出的每一层特征具有不同的尺度和语义层次的信息，单层特征的单一信息难以从整体描述遥感图像，因此利用提取的多尺度多层次特征可以更好的进行场景分类。

进一步的，用于融合来自不同层次的特征；将来自不同层次且尺寸小于当前层次特征的特征进行上采样操作可以使得来自不同层的特征在通道间进行级联，利用3×3卷积核进行卷积，可以融合来自不同层次的特征以获得信息更丰富的特征。

进一步的，提取含有多尺度多语义层次信息的丰富特征；由深度残差网络提取出的每一层特征具有不同的尺度和语义层次的信息，通过融合不同层的特征，可以获得富含丰富信息的图像特征。

进一步的，快速捕捉图像中的不同语义。考虑不同语义的特征在通道间存在差异，相同语义在特征间存在相似性的原则，我们取通道间最大值所在位置相同的特征作为语义相似特征。

进一步的，利用图卷积捕捉不同语义间的相互关系来更新特征，使其具有对图像更全面的表述。图卷积对非结构化的数据具有非常强大的表征和信息传递能力，利用图卷积捕捉不用语义间的关系，可以更好的描述图像性质以获取更准确的场景表示。

进一步的，通过更新每个像素来整张图像的特征；将每个像素考虑为一个图节点，与除像素所在语义块的其他语义块构成图，来进行图节点特征的更新。

进一步的，构建不同语义间的相互关系；利用不同语义特征之间的相似度来构造关系矩阵，使得网络在考虑不同语义间关系的基础上，能够生成更一致化的特征表示。

进一步的，利用更新后的特征生成最终的场景类别；经过图卷积更新的特征对图像具有更全面的特征表示，利用该特征进行图像分类将获得更好的分类精度。

综上所述，本发明利用特征金字塔提取多尺度多层次特征，利用自适应语义识别模块构建图节点，利用图卷积更新特征以获取表达更为全面且一致的特征，最终利用该特征获得遥感图像的准确分类结果。相比于其他当前遥感场景分类方法，本发明具有更稳定且精确的分类性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为残差学习示意图；

图2为基于深度残差网络的特征金字塔模型示意图；

图3为自适应语义识别模块示意图；

图4为图卷积操作示意图；

图5为基于动态图卷积的特征更新策略示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的，其中为了清楚表达的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

本发明提供了一种基于语义感知与动态图卷积的遥感场景分类方法，采用密集特征金字塔网络(DFPN)提取代表性特征；提出了一种自适应语义分析模块，以获取HRRS图像的语义多样性。通过分析提取的特征，可以自适应地将HRRS场景划分为不同的语义区域；基于动态图理论开发了一种特征更新策略，根据不同语义特征之间的相互关系，对不同语义特征进行适当的组合；最后，根据不同的语义区域确定。

本发明一种基于语义感知与动态图卷积的遥感场景分类方法，包括以下步骤：

在基于深度残差网络的特征金字塔中，利用多次简单的特征融合对特征进行增强。

深度残差网络首先提出残差学习的概念，残差块表示为：

请参阅图1，残差块分成两部分直接映射部分和残差部分；h(x_l)是直接映射，反应在图1中是右边的曲线；

是残差部分，一般由两个或者三个权重层构成，即图1中左侧包含权重层的部分。

根据层次结构分布，深度残差网络包括第一个卷积层、第二个最大值池化层、以及四个残差层。因此，在将遥感图像输入深度残差网络之后，不同尺度以及多种语义的特征可以在深度残差网络的不同层被挖掘出。

将从四个层获得到的四组特征分别记为C₁,C₂,C₃,C₄；

然后应用特征金字塔去融合这四个特征以生成包含多尺度、多层次的特征。

特征金字塔采用了一种自上而下、且具有横向链接的网络结构，如图2所示；自上而下的稠密链接结构保证了网络能够生成多层次、多尺度的信息。横向链接可以保证具有多种语义信息的特征的位置是精确的同时，加强不同尺度信息的表征。

采取特征融合策略，从特征金字塔的不同层次获得的特征通常具有不同的维度数，这使得在特征进行融合的时候出现层次信息不准确的情况，为了确保不同层次的信息可以被均衡的获取，利用卷积核为1×1的卷积层压缩净化多尺度特征C₁,C₂,C₃,C₄为P₁,P₂,P₃,P₄；为了融合空间尺寸不同的特征且保证特征信息不丢失，对于尺寸由小变大的第i个特征融合层，对尺寸小于C_i的特征进行上采样操作；采用双线性插值的方法进行特征的上采样。将顶层的特征逐步级联至底层特征并采用卷积层符合这些级联特征以融合多尺度、多层次的特征。

具体的公式表示为：

P₄＝Conv_1×1(C₄),

其中，Conv_k×k(·)代表卷积核大小为k×k的卷积层，Upsample(·)代表双线性插值上采样操作，

表示特征的级联操作。

采用P₁作为特征金字塔生成的最终特征表示，该特征包含多尺度、多层次的特征信息。因此对于遥感图像获得特征F。

S2、构建自适应语义识别模块，通过语义识别获得特征F的语义识别索引I；

依据提取的丰富特征，识别图像中的不同语义信息，并根据识别结果在丰富特征的对应位置做标记；在遥感影像中经常会存在复杂的语义，不加区分的融合这些复杂的语义会使得网络对图像信息的理解产生了一定的困难。在一般的卷积神经网络中，随着卷积程度的不断加深，不同语义信息间的相互干扰就会愈加明显。为了更加恰当的融合这些复杂的语义信息，首先要对不同的语义加以区分。

自适应的语义识别模块可以对图像的特征进行分析并自适应地生成具有不同语义的区域。根据这些给定语义区域可以采用更加有效的方法(如：图卷积)去融合这些语义信息。因此首先采用步骤S1构建的基于深度残差网络的特征金字塔提取具有强表征性的图像特征F。基于提取出的特征F，采用如图3的策略生成对应的语义区域。

首先使用手动或自适应分析的方法，确定需要识别出多少种语义信息，预设的语义种类的数量(简称：语义数)将依据数据集的复杂度来确定；

确定语义数后，将特征F经过一层卷积层与一层优化层以生成特征F'，这里卷积层将特征F的通道数转为语义数，优化层将会对卷积后的特征进行数值的优化(如归一化，正则化等)；

然后获得优化的特征F'，并且特征F'的通道数等于预设的语义数；为给每一个特征像素分配一个语义标签，从每个特征像素的通道中挑选一个数值最大的位置，该位置将作为该像素所属的语义索引。当所有的特征像素均获得一个语义索引，则进而生成一个语义区域级的索引。这个语义区域索引将原特征F识别为不同的语义区域。

在网络的训练过程中，卷积层与优化层将不断被训练用于识别出对目标任务最为有效的语义区域。

因为一般的卷积操作获取的信息主要是局部信息，即使经过了多次最大池化操作后，已经尽可能地捕捉了更远距离的特征信息。然而，它们包含的全局信息仍然是不足够的，这影响了对图像目标信息的获取以及对大目标的捕捉能力。

为了更好的捕捉全局信息，引入图卷积操作。在当下，图卷积是一个非常流行的方法，它在处理非结构化数据方面有着非常强大的能力。图卷积通过聚集图节点邻域的信息去提取全局信息。

设图节点集合F_g＝{x₁,x₂,x₃,…,x_n},用x_i代表第i个图节点，并且n等于图节点的数量。为了描述图节点之间的性质，图卷积定义了邻接矩阵：

其中，Υ是一个超参数，x_i,x_j代表两个图节点，N(x_i)代表图节点x_i的邻域节点集合。

为了更新节点的表示，一个可学习的权重矩阵被引入，并且第l层图卷积操作定义如下：

其中，

与

分别表示第l层的输入以及输出，σ(·)表示激活函数，并且A^(l)与W^(l)代表第l层的邻接矩阵以及可学习的权重矩阵。该操作过程被展示在图4中。

根据基本的图卷积理论，提出基于2维数据的动态图卷积策略，利用步骤S2所得的区域索引I与特征F构造图节点，设特征F被分为N_r个区域，将利用中心特征去表示每个区域作为一个图节点。这里，中心特征可以通过在通道内计算区域内特征的均值或者最大值来计算。所有区域的中心特征可以被表示为F_g＝{x₁,x₂,x₃,…,x_n}。为了进一步的捕捉图节点之间的信息，我们将根据图卷积理论构造邻接矩阵A。A的构造方法如下：

其中，Υ是一个超参数，x_i,x_j代表两个图节点，D·是一个距离度量函数。为了更好描述图节点之间的距离关系，我们计划利用可学习的马氏距离度量函数来动态的度量两个图节点之间的距离。与直接利用欧式距离度量相比，可学习的马氏距离度量函数有着更强大的、且更符合数据分布的距离度量尺度。被定义为：

其中，M由一个可学习的矩阵W_d乘自身的转置W_d ^T得到，即MW_dW_d ^T。接下来与传统的图卷积策略不同的是，我们采用构造的图节点集合F_g、A、W构造能够更新特征F的策略。该策略能够将F中的每一个像素根据图结构来更新。

具体来说，对于特征F中每一个像素f_i,如果它属于第j个分割区域，则如下的更新策略将被应用：

其中，f_i与f_i ^*分别是原始的与更新后的特征，σ(·)表示激活函数，A_j表示邻接矩阵A的第j行，x_i表示第i个图节点，并且j∶·代表矩阵的第j行。在特征中所有的特征点都被更新完成后，F将被更新为同时包含局部与全局信息的特征。图5中展示了特征更新的图示过程。

一方面，与仅利用深度残差网络相比，动态图卷积可以捕捉多维/多源图像中的全局和本地信息，并将其融合为具有不同语义的区域特征。这可以增加生成特征的辨别能力。另一方面，我们不是直接更新图节点集，而是利用图节点集合F_g来更新获得的特征F。这对特征的更新起了非常大的辅助性作用。总之,动态图卷积不仅使得更新后的特征包含更多的全局信息，而且进一步的优化了特征中的非结构组织，从而更加有利于我们任务的完成。最终我们将获得全局性特征F*。

更新后的视觉特征F*包含了丰富的可判别信息，能够准确识别遥感图像场景。

S401、为了快速准确获得遥感场景的语义标签，采用核函数为1×1的卷积层对F*进行处理，输出通道等于遥感场景数据集中语义类的数量；

S402、利用Softmax函数将通道维度的输出归一化；

S403、选择通道维度上的最大值所对应的场景类作为遥感场景的最终标签。

在训练阶段，只使用交叉熵作为损失函数来训练网络。

本发明再一个实施例中，提供一种基于语义感知与动态图卷积的遥感场景分类系统，该系统能够用于实现上述基于语义感知与动态图卷积的遥感场景分类方法，具体的，该基于语义感知与动态图卷积的遥感场景分类系统包括提取模块、识别模块、构造模块以及分类模块。

其中，提取模块，构建基于深度残差网络的特征金字塔完成特征的初步提取，获得特征F；

本发明再一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于语义感知与动态图卷积的遥感场景分类方法的操作，包括：

构建基于深度残差网络的特征金字塔完成特征的初步提取，获得特征F；构建自适应语义识别模块，通过语义识别获得特征F的区域索引I；根据特征F，利用区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F*；利用全局性特征F*实现遥感图像的场景分类。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括终端设备中的内置存储介质，当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于语义感知与动态图卷积的遥感场景分类方法的相应步骤；计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

验证分析

(1)深度残差网络可以有效地学习复杂内容中存在的各种有用信息，且特征金字塔可以融合多尺度、多层次特征以构造包含更丰富、全面信息的特征，因此利用深度残差网络构造的特征金字塔不仅提取图像中有用的信息，还可以进一步挖掘图像中潜在的多尺度、多层次的语义信息；

(2)近年来大量的工作证明，对图像的不同语义信息进行分析以及选择性的融合对于提升图像特征的表征性有着显著作用。

(3)在处理非规则化数据的领域中，图结构有着广泛的应用。且高分辨遥感影像中的语义信息通常是复杂且不规则的。因此，利用高分辨遥感影像中的不同语义构建图节点并挖掘对应的边界关系从而构建对应的图结构，能够进一步提升网络对高分辨遥感影像的理解。

(4)基于传统的图卷积，提出的动态图卷积利用图像中语义节点对图像的特征进行更新，这不仅减少了计算量，而且能够建立更加精准的语义的图结构从而使特征得到更高的表征性。

综上所述，本发明一种基于语义感知与动态图卷积的遥感场景分类方法及系统，基于不同的训练测试比例，本方法在UCM、AID和NWPU三个主流数据集上均获得了最高的精度，且获得了稳定的精度表示(标准差小)，证明了方法的有效性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.基于语义感知与动态图卷积的遥感场景分类方法，其特征在于，包括以下步骤：

S3、根据步骤S1获取的特征F，利用步骤S2所得的区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F^*；

S4、利用步骤S3获得的全局性特征F^*实现遥感图像的场景分类。

2.根据权利要求1所述的方法，其特征在于，步骤S1具体为：

将遥感图像输入基于深度残差网络的特征金字塔中，获得四组多尺度特征C₁，C₂，C₃，C₄；采取特征融合策略，利用卷积核为1×1的卷积层将多尺度特征C₁，C₂，C₃，C₄压缩净化为P₁，P₂，P₃，P₄；对于尺寸由小变大的第i个特征融合层，采用双线性插值方法对尺寸小于C_i的特征进行上采样操作；逐步级联至特征C₁，并采用卷积层融合级联C₁后的特征以获得包含多尺度、多层次信息的特征P₁，将P₁作为特征金字塔生成的最终特征表示F。

3.根据权利要求2所述的方法，其特征在于，P_i具体为：

表示特征的级联操作。

4.根据权利要求1所述的方法，其特征在于，步骤S1中，特征金字塔为自上而下且具有横向链接的网络结构，深度残差网络包括第一个卷积层、第二个最大值池化层以及四个残差层。

5.根据权利要求1所述的方法，其特征在于，步骤S2具体为：

使用手动或自适应分析的方法，确定需要识别出多少种语义信息，预设的语义种类的数量依据数据集的复杂度确定；确定语义种类的数量后，将特征F经过一层卷积层与一层优化层以生成特征F′，卷积层将特征F的通道数转为语义种类的数量，优化层对卷积后的特征进行数值的优化；获得优化的特征F′，优化的特征F′的通道数等于预设的语义种类数量；从每个特征像素的通道中挑选一个数值最大的位置，将最大位置作为像素所属的语义索引；当所有的特征像素均获得一个语义索引后，生成一个语义区域级的索引I，区域索引I将原特征F识别为不同的语义区域。

6.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

将特征F分为N_r个区域，在通道内计算区域内特征的均值或最大值计算得到中心特征，利用中心特征表示每个区域作为一个图节点，得到所有区域的中心特征的图节点集合F_g，根据图卷积理论构造邻接矩阵A，采用构造的图节点集合F_g、A、W构造更新特征F的策略，W为特征的线性变换矩阵，在特征中所有的特征点都被更新完成后，特征F被更新为同时包含局部与全局信息的特征，获得全局性特征F^*。

7.根据权利要求6所述的方法，其特征在于，更新特征F中每一个像素f_i ^*为：

其中，f_i为原始特征的像素，σ(·)表示激活函数，A_j表示邻接矩阵A的第j行，x_i表示第i个图节点。

8.根据权利要求6所述的方法，其特征在于，邻接矩阵A构造如下：

其中，γ是一个超参数，x_i，x_j代表两个图节点，D(·)是一个距离度量函数，A_ij为邻接矩阵的第i行第j列的值。

9.根据权利要求1所述的方法，其特征在于，步骤S4具体为：

采用核函数为1×1的卷积层对F^*进行处理，输出通道等于遥感场景数据集中语义类的数量；利用Softmax函数将输出通道维度的输出归一化；选择输出通道维度上的最大值所对应的场景类作为遥感场景的最终标签，实现遥感图像的场景分类。

10.一种基于语义感知与动态图卷积的遥感场景分类系统，其特征在于，包括：

构造模块，根据提取模块的特征F，利用识别模块得的区域索引I与特征F构造图节点，基于动态图卷积的特征信息捕捉网络，获得全局性特征F^*；

分类模块，利用构造模块获得的全局性特征F^*实现遥感图像的场景分类。