CN115908908B

CN115908908B - 基于图注意力网络的遥感图像聚集型目标识别方法及装置

Info

Publication number: CN115908908B
Application number: CN202211425887.XA
Authority: CN
Inventors: 王永富; 梁颖; 贺广均; 陈千千; 王丹; 冯鹏铭; 汪路元; 董方
Original assignee: Beijing Institute of Satellite Information Engineering
Current assignee: Beijing Institute of Satellite Information Engineering
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-09-15
Anticipated expiration: 2042-11-14
Also published as: CN115908908A

Abstract

本发明涉及一种基于图注意力网络的遥感图像聚集型目标识别方法及装置，所述方法包括：构建并训练基于Oriented R‑CNN的目标候选区域检测定位模型；采用训练好的基于Oriented R‑CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集；将所述候选区域的位置编码引入图注意力网络，构建图节点分类网络模型；利用所述图结构数据集训练所述图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类。本发明可以对遥感图像中尺寸小、外观模糊的聚集型目标进行准确识别并提高识别精度。

Description

基于图注意力网络的遥感图像聚集型目标识别方法及装置

技术领域

本发明涉及遥感图像目标检测技术领域，尤其涉及一种基于图注意力网络的遥感图像聚集型目标识别方法及装置。

背景技术

遥感图像存在较大规模聚集分布的目标(简称聚集型目标)，这些目标往往尺寸较小，外观模糊，单从目标本身特征上难以有效判别，从而加大了遥感图像目标识别的难度。

随着计算能力的提高和大规模数据集的建立，深度学习技术已逐渐取代传统方法，被广泛应用于遥感图像目标的检测和识别。基于深度学习的遥感图像目标检测方法根据实现方式可以分为one-stage目标检测方法和two-stage目标检测方法。其中，one-stage目标检测方法同时进行目标候选区域的提取和识别，输出的结果既包含目标的定位、也包含目标的具体类别。two-stage目标检测方法先执行目标候选区域的提取，再进行目标候选区域的识别。two-stage目标检测方法，例如Faster R-CNN取得了较高的精度。为了进一步提升检测速度，Oriented R-CNN在Faster R-CNN的基础上进行了改进，提升了遥感图像目标检测的性能。

现有的two-stage遥感目标检测方法单独对每个目标候选区域进行分类，缺乏对候选区域空间位置关系的关注，难以充分利用上下文信息，并且更准确地识别尺度较小、外观模糊的聚集型目标。

发明内容

为解决上述现有技术中存在的遥感图像中聚集型目标的识别准确率低这一技术问题，本发明的目的在于提供一种基于图注意力网络的遥感图像聚集型目标识别方法及装置。

为实现上述发明目的，本发明的技术方案是：

第一方面，本发明提供一种基于图注意力网络的遥感图像聚集型目标识别方法，包括：

构建并训练基于Oriented R-CNN的目标候选区域检测定位模型；

采用训练好的基于Oriented R-CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集；

将所述候选区域的位置编码引入图注意力网络(Graph ATtention network,GAT)，构建图节点分类网络模型；

利用所述图结构数据集训练所述图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类。

根据本发明的一个方面，构建基于Oriented R-CNN的目标候选区域检测定位模型，包括：

所述Oriented R-CNN包括：特征提取网络Resnet50、多尺度特征融合网络FPN、Oriented RPN和Oriented R-CNN Head，

所述Oriented RPN为第一阶段检测器，用于生成目标候选区域的旋转框；

所述Oriented R-CNN Head为第二阶段检测器，用于对目标候选区域进行分类和回归。

根据本发明的一个方面，训练基于Oriented R-CNN的目标候选区域检测定位模型，包括：

将任意大小的遥感图像输入基于Oriented R-CNN的目标候选区域检测定位模型，所述特征提取网络Resnet50提取目标候选区域的特征，所述多尺度特征融合网络FPN对该特征进行融合；

所述Oriented RPN将所述多尺度特征融合网络FPN输出的不同层次的特征图作为输入，为每个层次的特征图附加一个相同结构的预测头；

为所有层次特征图中的每个空间位置分配水平锚框，输出候选区域的旋转框相对于锚框的偏移量，生成一组稀疏的目标候选区域的旋转框，并估计每个旋转框的目标得分；

将所述目标候选区域的旋转框和所述特征图输入所述Oriented R-CNN Head，使用旋转候选框对齐从所述特征图中提取特征向量，并依次输入至两个全连接层FC-2和两个并联的全连接层，输出K个目标类别和一个背景类别的概率，以及目标候选区域的旋转框的偏移量。

根据本发明的一个方面，所述预测头由一个3×3的卷积层和两个并联的1×1的卷积层构成，其中的一个1×1的卷积层为回归分支，另外一个1×1的卷积层用于估计每个目标候选区域的旋转框的目标得分。

根据本发明的一个方面，采用训练好的基于Oriented R-CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集，包括：

计算每幅遥感图像中目标的候选区域的旋转框的外接矩形框B_i和B_j之间的最小距离d，如果两个外接矩形框有重合区域，则将所述最小距离d设为-1，如果两个外接矩形框之间的最小距离d小于阈值Th_d，则认为对应的两个候选区域邻接；

以候选区域为节点，以候选区域的邻接关系为边，在图结构中建立邻接的两个节点之间的边，并存储各节点的连接关系；

计算邻接的两个候选区域的旋转框的外接矩形框B_i和B_j之间的相对水平距离D_x和相对垂直距离D_y，并作为边的属性进行存储；

构建编码函数h(x)，将候选区域的旋转框的外接矩形框之间的相对距离映射到有限集合中的整数，

其中，<>表示四舍五入取整，δ控制了编码函数的取值范围，编码值的取值范围为

提取候选区域的旋转框经过全连接层FC-2后的特征作为节点的属性进行存储，并与所述边的属性构成图结构数据集。

根据本发明的一个方面，利用训练好的图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类，包括：

每个候选区域的旋转框的特征通过线性变换/>转化为更高层次的特征，并降维，其中，变换矩阵/>是一个可学习的共享参数矩阵；

根据变换后的特征，根据以下公式计算两个候选区域i和j之间的注意力系数α_ij，同时以偏置的方式引入相对位置信息p_ij，

其中，LeakyReLU()是负输入斜率为0.2的非线性激活函数，T表示转置，||表示拼接操作，为可学习的共享注意力机制参数向量，/>p_ij是一个可学习的标量，反应节点i和节点j间水平和垂直方向上相对距离的权重，存储于二维编码权重矩阵P中，P(1,0)表示相对水平距离D_x的编码值h(D_x)＝1、相对垂直距离D_y的编码值h(D_y)＝0时的相对距离权重，因此通过节点i和j间的相对水平距离D_x和相对垂直距离D_y的编码进行索引查询；

对候选区域i的邻域N_i内的注意力系数α_ij进行softmax归一化，对候选区域的特征进行聚合和更新。

根据本发明的一个方面，所述聚合和更新的公式为：

其中，是节点i更新后的特征。

根据本发明的一个方面，所述图结构数据集中的每幅遥感图像中目标的候选区域构成一个子图，所述图结构数据集的训练集和测试集完全分离。

根据本发明的一个方面，所述图节点分类网络模型包含三个图注意力层，每个所述图注意力层聚合一阶邻域内目标候选区域的特征。

第二方面，本发明提供一种基于图注意力网络的遥感图像聚集型目标识别装置，包括：存储器、中央处理器、图形处理器及存储在所述存储器上并能够由所述中央处理器运行的可执行程序，

所述中央处理器运行所述可执行程序时执行如前所述的基于图注意力网络的遥感图像聚集型目标识别方法的步骤；

所述图形处理器，用于处理所述中央处理器传输的图形数据。

与现有技术相比，本发明具有以下有益效果：

根据本发明的方案，通过构建表示目标空间位置关系的图结构数据，充分表达了聚集型目标的排列规律和位置关系，并在两阶段旋转目标检测框架Oriented R-CNN上引入图注意力网络聚合和更新图节点的特征，实现目标候选区域上下文信息的结合，进而增强聚集型目标和外观模糊目标的特征表达能力，从而有效提升遥感图像中具有尺寸较小、外观模糊等特点的聚集型排列目标的识别精度。

根据本发明的一个方案，Oriented R-CNN与图注意力网络进行结合对聚集型目标的候选区域进行检测和分类，使得每个候选区域节点特征在更新的过程中能够根据目标候选区域间的特征相似性和相对位置关系自适应地综合邻居节点的信息，从而增强了目标的特征。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性表示本发明实施例公开的一种基于图注意力网络的遥感图像聚集型目标识别方法的实现流程图；

图2示意性表示本发明实施例公开的Oriented R-CNN与图注意力网络结合的检测示意图；

图3示意性表示本发明实施例公开的一种基于图注意力网络的遥感图像聚集型目标识别方法中步骤400的实施过程示意图；

图4示意性表示本发明实施例公开的一种基于图注意力网络的遥感图像聚集型目标识别装置的组成结构图。

具体实施方式

此说明书实施方式的描述应与相应的附图相结合，附图应作为完整的说明书的一部分。在附图中，实施例的形状或是厚度可扩大，并以简化或是方便标示。再者，附图中各结构的部分将以分别描述进行说明，值得注意的是，图中未示出或未通过文字进行说明的元件，为所属技术领域中的普通技术人员所知的形式。

此处实施例的描述，有关方向和方位的任何参考，均仅是为了便于描述，而不能理解为对本发明保护范围的任何限制。以下对于优选实施方式的说明会涉及到特征的组合，这些特征可能独立存在或者组合存在，本发明并不特别地限定于优选的实施方式。本发明的范围由权利要求书所界定。

如图1所示，本发明实施例公开的一种基于图注意力网络的遥感图像聚集型目标识别方法，具体实现流程的过程包括以下步骤：

步骤100，构建并训练基于Oriented R-CNN的目标候选区域检测定位模型。

一个实施例中，步骤100中构建基于Oriented R-CNN的目标候选区域检测定位模型的具体实施过程，包括：

所述Oriented R-CNN包括：特征提取网络Resnet50、多尺度特征融合网络FPN、Oriented RPN和Oriented R-CNN Head。其中，所述Oriented RPN为第一阶段检测器，用于生成目标候选区域的旋转框。所述Oriented R-CNN Head为第二阶段检测器，用于对目标候选区域进行分类和回归。

一个实施例中，步骤100中训练基于Oriented R-CNN的目标候选区域检测定位模型的具体实施过程，包括：

将任意大小的遥感图像输入基于Oriented R-CNN的目标候选区域检测定位模型，所述特征提取网络Resnet50提取目标候选区域的特征，所述多尺度特征融合网络FPN对该特征进行融合。

所述Oriented RPN将所述多尺度特征融合网络FPN输出的不同层次的特征图作为输入，为每个层次的特征图附加一个相同结构的预测头。

具体来说，Oriented RPN将FPN输出的五个级别的特征{P2,P3,P4,P5,P6}作为输入，并在每个级别的特征上附加该预测头。该预测头由一个3×3的卷积层和两个并联的1×1的卷积层构成，其中的一个1×1的卷积层为回归分支，另外一个1×1的卷积层用于估计每个目标候选区域的旋转框的目标得分。示例性的，特征{P2,P3,P4,P5,P6}的尺寸为{256×256×256，128×128×256，64×64×256，32×32×256，16×16×256}。

为所有层次特征图中每个空间位置分配水平锚框，输出候选区域的旋转框相对于锚框的偏移量，生成一组稀疏的目标候选区域的旋转框，并估计每个旋转框的目标得分。

具体的，为上述每个级别的特征{P2,P3,P4,P5,P6}中的每个目标空间位置分配三个长宽比为{1:2,1:1,2:1}的水平锚框进行滑窗，这些锚框在{P2,P3,P4,P5,P6}特征层对应的像素面积分别为{32²、64²、128²、256²、512²}，每个锚框a用4维的向量表示a＝(ax,ay,aw,ah)，其中(ax,ay)为锚框的中心坐标，aw和ah表示锚框的宽度和高度。两个并联的1×1的卷积层中的回归分支输出候选区域的旋转框相对于锚框的偏移量δ＝(δx，δy，δw，δh，δα，δβ)，基于Oriented R-CNN的目标候选区域检测定位模型在特征图的每个位置上都生成3个候选区域旋转框，因此回归分支有6×3个输出值，通过回归输出的解码，得到候选区域的旋转框。

将所述目标候选区域的旋转框和所述特征图输入所述Oriented R-CNN Head，使用候选区域的候选框对齐(Rotated RoIAlign)从所述特征图中提取一个固定大小的特征向量，并依次输入至两个全连接层FC-2和两个并联的全连接层(一个用于分类，一个用于回归)，输出K个目标类别和一个背景类别的概率，以及目标候选区域的旋转框的偏移量，即K个目标类别的候选区域的旋转框的偏移量。

具体的，所述Oriented R-CNN Head以特征图{P2,P3,P4,P5}和一系列生成的候选区域的候选框作为输入进行训练。示例性的，对每个级别特征图上产生的候选区域按类别概率进行排序，并选择前2000个候选区域与其他级别特征图上产生的候选区域进行非极大抑制，最终选择1000个候选区域输入到Oriented R-CNN Head。

本实施例中，训练Oriented R-CNN的过程通过联合优化Oriented RPN和OrientedR-CNN Head，实现端到端训练。

本实施例中，对于给定的任意大小的输入遥感图像，所述Oriented RPN输出一组稀疏的目标候选区域的旋转框，整个过程可以用上述轻量级的全卷积网络建模。

步骤200，采用训练好的基于Oriented R-CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集。

一个实施例中，如图2所示，步骤200中采用训练好的基于Oriented R-CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集的具体实施过程，包括：

计算每幅遥感图像中目标的候选区域的旋转框的外接矩形框B_i和B_j之间的最小距离d，如果两个外接矩形框有重合区域，则将所述最小距离d设为-1，如果两个外接矩形框之间的最小距离d小于阈值Th_d，则认为对应的两个候选区域邻接。示例性的，可以提取Oriented RPN输出的前1000个旋转候选区域的外接矩形，计算这些外接矩形的之间的最小距离d，并根据遥感图像的分辨率设置最小距离阈值Th_d。

以候选区域为节点，以候选区域的邻接关系为边，在图结构中建立邻接的两个节点之间的边，并存储各节点的连接关系。

计算邻接的两个候选区域的旋转框的外接矩形框B_i和B_j之间的相对水平距离D_x和相对垂直距离D_y，并作为边的属性进行存储。具体的，具体计算方式为：其中，/>和/>分别是候选区域旋转框的外接矩形框B_i和B_j中心的水平坐标，/>和/>分别是候选区域旋转框的外接矩形框B_i和B_j中心的垂直坐标。

构建编码函数h(x)，将候选区域的旋转框的外接矩形框之间的相对距离映射到有限集合中的整数，可以降低计算成本和模型参数数量。h(x)的表达式为：

提取候选区域的旋转框经过全连接层FC-2后的特征将特征/>作为节点的属性进行存储，并与所述边的属性构成图结构数据集。特征/>是一个长度为1024的一维向量。

步骤300，将所述候选区域的位置编码引入图注意力网络，构建图节点分类网络模型，如图2所示。

进一步地，所述图节点分类网络模型包含三个图注意力层，其中前两层的隐层特征长度为64，最后一层用于节点分类，输出特征维数等于K+1，即K类目标和1类背景。每个所述图注意力层只聚合一阶邻域内目标候选区域的特征。此外，所述图节点分类网络模型的前两层采用了dropout方法来防止过拟合，后两层采用了跳跃连接方法来防止过平滑，模型训练过程中采用了交叉熵损失函数，优化器为Adam SGD，初始学习率设置为0.001。

本实施例中，图节点分类网络模型的训练是一个归纳式学习任务，所述图结构数据集中的每幅遥感图像中目标的候选区域构成一个子图，所述图结构数据集的训练集和测试集完全分离，属于两组独立的图结构。在训练过程中，该模型没有见到测试集中的任何节点，即目标候选区域。

步骤400，利用所述图结构数据集训练所述图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类。

一个实施例中，如图3所示，步骤400中利用所述图结构数据集训练所述图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类的具体实施过程，包括：

每个候选区域的旋转框的特征通过线性变换/>转化为更高层次的特征，并降维，其中，变换矩阵/>是一个可学习的共享参数矩阵。

根据变换后的特征，并根据以下公式计算两个候选区域i和j之间的注意力系数α_ij，同时以偏置的方式引入相对位置信息p_ij，

其中，LeakyReLU()是负输入斜率为0.2的非线性激活函数，T表示转置，||表示拼接操作，为可学习的共享注意力机制参数向量，/>p_ij是一个可学习的标量，反应节点i和节点j间水平和垂直方向上相对距离的权重，存储于二维编码权重矩阵P中，P(1,0)表示相对水平距离D_x的编码值h(D_x)＝1、相对垂直距离D_y的编码值h(D_y)＝0时的相对距离权重，因此通过节点i和j间的相对水平距离D_x和相对垂直距离D_y的编码进行索引查询。

对候选区域这一节点i的邻域N_i内的注意力系数α_ij进行softmax归一化，并按照如下公式对候选区域的特征进行聚合和更新，

其中，是节点i更新后的特征。本实施例中，通过上述聚合更新的过程实现候选区域邻域内信息的交互，增强特征的表达能力，最终提升了目标分类的精度。

该方法采用Oriented R-CNN中的Oriented RPN检测目标侯选区域并由OrientedR-CNN主干网络提取候选区域的特征，以候选区域为节点，以候选区域的特征为节点属性，以候选区域的邻接关系为边，以候选区域的相对位置为边的属性，根据候选区域的位置构建表示目标空间位置关系且包含各节点关系的图结构数据，采用训练好的引入图注意力网络的图节点分类网络模型进行图节点特征的聚合与更新，实现目标关系的推理即地物目标的分类。通过此过程，实现目标候选区域上下文信息的结合，进而增强聚集型目标和外观模糊目标的特征表达能力，从而有效提升遥感图像聚集型排列目标的识别精度。

如图4所示，本实施例公开的一种基于图注意力网络的遥感图像聚集型目标识别装置，包括：存储器、中央处理器、图形处理器及存储在所述存储器上并能够由所述中央处理器运行的可执行程序。其中，所述中央处理器运行所述可执行程序时执行如上所述的基于图注意力网络的遥感图像聚集型目标识别方法的步骤。所述图形处理器，用于处理所述中央处理器传输的图形数据。

对于本发明的方法所涉及的上述各个步骤的序号并不意味着方法执行顺序的先后，各步骤的执行顺序应以其功能和内在逻辑确定，而不应对本发明的实施方式的实施过程构成任何限定。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于图注意力网络的遥感图像聚集型目标识别方法，包括：

构建并训练基于Oriented R-CNN的目标候选区域检测定位模型；

将所述候选区域的位置编码引入图注意力网络，构建图节点分类网络模型；

利用所述图结构数据集训练所述图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类；

其中，采用训练好的基于Oriented R-CNN的目标候选区域检测定位模型检测遥感图像中目标的候选区域，并提取对应的特征，根据所述候选区域的位置关系构建图结构数据集，包括：

2.根据权利要求1所述的方法，其特征在于，构建基于Oriented R-CNN的目标候选区域检测定位模型，包括：

3.根据权利要求2所述的方法，其特征在于，训练基于Oriented R-CNN的目标候选区域检测定位模型，包括：

为所有层次特征图的每个空间位置分配水平锚框，输出候选区域的旋转框相对于锚框的偏移量，生成一组稀疏的目标候选区域的旋转框，并估计每个旋转框的目标得分；

4.根据权利要求3所述的方法，其特征在于，所述预测头由一个3×3的卷积层和两个并联的1×1的卷积层构成，其中的一个1×1的卷积层为回归分支，另外一个1×1的卷积层用于估计每个目标候选区域的旋转框的目标得分。

5.根据权利要求3所述的方法，其特征在于，利用训练好的图节点分类网络模型，对遥感图像中目标的候选区域的特征进行聚合和更新，实现目标的分类，包括：

其中，LeakyReLU()是负输入斜率为0.2的非线性激活函数，T表示转置，||表示拼接操作，为可学习的共享注意力机制参数向量，/>p_ij是一个可学习的标量，反应节点i和节点j间水平和垂直方向上相对距离的权重，存储于二维编码权重矩阵P中，P(1，0)表示相对水平距离D_x的编码值h(D_x)＝1、相对垂直距离D_y的编码值h(D_y)＝0时的相对距离权重，因此通过节点i和j间的相对水平距离D_x和相对垂直距离D_y的编码进行索引查询；

6.根据权利要求5所述的方法，其特征在于，所述聚合和更新的公式为：

其中，是节点i更新后的特征。

7.根据权利要求1或3所述的方法，其特征在于，所述图结构数据集中的每幅遥感图像中目标的候选区域构成一个子图，所述图结构数据集的训练集和测试集完全分离。

8.根据权利要求1所述的方法，其特征在于，所述图节点分类网络模型包含三个图注意力层，每个所述图注意力层聚合一阶邻域内目标候选区域的特征。

9.一种基于图注意力网络的遥感图像聚集型目标识别装置，其特征在于，包括：存储器、中央处理器、图形处理器及存储在所述存储器上并能够由所述中央处理器运行的可执行程序，

所述中央处理器运行所述可执行程序时执行如权利要求1至8任一项所述的基于图注意力网络的遥感图像聚集型目标识别方法的步骤；