CN118230076B

CN118230076B - 基于语义和标签结构挖掘的遥感图像多标签分类方法

Info

Publication number: CN118230076B
Application number: CN202410650288.0A
Authority: CN
Inventors: 蔺广逢; 穆钊; 廖开阳; 康晓兵; 赵凡
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2024-05-24
Filing date: 2024-05-24
Publication date: 2024-07-30
Anticipated expiration: 2044-05-24
Also published as: CN118230076A

Abstract

本发明公开了基于语义和标签结构挖掘的遥感图像多标签分类方法，具体按照以下步骤实施：步骤1、获取多标签遥感图像数据集，并将多标签遥感图像数据集划分为训练集和测试集；步骤2、根据训练集，构建基于语义和标签结构挖掘的遥感图像多标签分类网络；步骤3、构建损失函数，并将训练集输入遥感图像多标签分类网络中，调整权重参数并进行训练，保存训练好的遥感图像多标签分类网络；步骤4、利用测试集测试训练好的遥感图像多标签分类网络，输出分类结果。本发明在遥感图像多标签分类任务中分类准确度更高。

Description

基于语义和标签结构挖掘的遥感图像多标签分类方法

技术领域

本发明属于图像多标签分类技术领域，具体涉及基于语义和标签结构挖掘的遥感图像多标签分类方法。

背景技术

图像多标签分类是给定一张或多张图片后使计算机自动标注图像中每个对象的标签。随着遥感技术的发展，遥感图像的分辨率不断提高，到目前为止，高分辨率或超高分辨率遥感图像已被广泛应用于城市制图、土地利用确定、地形表面分析等领域。然而，由于高分辨率或超高分辨率遥感图像包含了丰富、详细和复杂的信息，因此不再适用仅从宏观的角度用一个场景级的标签来解读它们。

与自然图像不同，遥感图像的多标签分类面临两个重要挑战。首先，在遥感图像中，感兴趣的对象总是具有更小的尺寸和更分散的排列，使得从原始数据中提取有意义的语义特征非常困难。第二是遥感图像通常包含多种目标，随着对象类别数量的增加，输出标签空间的大小呈指数级放大。

深度学习模型可以自动提取抽象特征，并应用于场景分类研究。基于卷积神经网络的方法作为一种高性能的深度学习模型，在遥感界被广泛用于提取图像的高级特征。对于多标签遥感图像分类任务而言，与从头开始优化的网络相比，迁移在大规模数据集上预训练的深度模型是一种更有效的方法。然而，现有卷积神经网络方法未能充分挖掘预训练网络的判别信息，如关键目标区域信息、多视图属性信息、多层特征信息等，进而导致在遥感图像多标签分类任务重分类准确度不高。

发明内容

本发明的目的是提供基于语义和标签结构挖掘的遥感图像多标签分类方法，解决了现有技术中遥感图像多标签分类准确度不高的技术问题。

本发明所采用的技术方案是基于语义和标签结构挖掘的遥感图像多标签分类方法，具体按照以下步骤实施：

步骤1、获取多标签遥感图像数据集，并将多标签遥感图像数据集划分为训练集和测试集；

步骤2、根据训练集，构建基于语义和标签结构挖掘的遥感图像多标签分类网络，具体步骤为：

步骤2.1，构建特征提取模块；

步骤2.2，构建上下文处理模块；

步骤2.3，构建提取标签类别向量融合模块；

步骤2.4，构建标签结构挖掘模块；

步骤2.5，构建双重图网络模块；

步骤3、设计损失函数，并将训练集输入遥感图像多标签分类网络中，调整权重参数并进行训练，保存训练好的遥感图像多标签分类网络；

步骤4、利用测试集测试训练好的遥感图像多标签分类网络，输出分类结果。

本发明的特点还在于：

步骤2具体为：

步骤2.1，构建特征提取模块：

利用ResNet-50网络作为骨干网络处理多标签遥感图像，随机选取训练集中高度、宽度、通道数分别为的图像输入到ResNet-50网络中，使用ImageNet预训练的权重进行初始化，选择ResNet-50网络中最后三个残差块的输出分别作为图像I由浅层到深层的低阶特征图、中阶特征图和高阶特征图，其中，分别为低阶特征图的高度、宽度和维度，分别为中阶特征图的高度、宽度和维度，分别为高阶特征图的高度、宽度和维度，表示实数域；

步骤2.2，构建上下文处理模块：

通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理，得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图；

步骤2.3，构建提取标签类别向量融合模块：

提取标签类别向量融合模块由类激活映射和注意力融合组成，首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量，然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小，最后引入注意力机制，得到包含多层次信息的聚合特征；

步骤2.4，构建标签结构挖掘模块：

使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模，训练集中的标签以词嵌入矩阵的形式输入该模型，得到标签语义特征；

步骤2.5，构建双重图网络模块：

将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征，得到具有图像语义和标签语义的融合高级特征，然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数。

步骤2.2中通过Transformer分别对步骤2.1中得到的低阶特征图、中阶特征图、高阶特征图进行处理的具体过程为：

步骤2.2.1、将低阶特征图转化为嵌入序列，其中，并将嵌入序列作为输入，执行四个不同扩展率的空洞卷积来提取统一尺度的信息，得到空洞卷积特征图：

（1）；

其中，为第i个空洞卷积，，的扩展率为0，的扩展率为1，的扩展率为2，的扩展率为3；

步骤2.2.2、对空洞卷积特征图进行卷积，引入条件位置编码，得到具有位置信息的空洞卷积特征图：

（2）；

其中，表示卷积核大小为3 × 3的卷积运算；

步骤2.2.3、对i各个取值分别代入公式（2）后所得的结果进行拼接，得到多通道融合特征图：

（3）；

其中，为特征拼接操作，为归一化操作；

步骤2.2.4、将多通道融合特征图作为输入，使用注意力机制融合并增强不同头部之间的信息交互，得到上下文感知的低阶特征图：

（4）；

其中，为注意力中键的权重矩阵，为注意力中键的权重矩阵，为注意力中键的权重矩阵，通过网络自适应学习调整，表示比例因子，；

步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图。

步骤2.3具体为：

步骤2.3.1、首先计算上下文感知的低阶特征图中个标签类别的激活映射，

令代表上下文感知的低阶特征图中的第个特征图，对于，取全局平均池化，得到第个特征图的空间平均值：

（5）；

求解标签类别c的激活映射：

（6）；

其中，代表标签类别c在第个特征图的对应权值，即对于标签类别c的重要性，；

步骤2.3.2、对上下文感知的低阶特征图进行卷积操作，得到低阶特征映射：

（7）；

其中，代表卷积核为1×1的卷积操作，，=1024；

步骤2.3.3、将低阶特征映射转换为内容感知的低阶类别向量：

（8）；

步骤2.3.4、对上下文感知的中阶特征图和上下文感知的高阶特征图依据步骤2.3.1-步骤2.3.3分别进行处理，得到中阶类别向量和高阶类别向量；

步骤2.3.5、统一低阶类别向量、中阶类别向量和高阶类别向量的大小：

通过平均池化操作和1×1卷积操作，将低阶类别向量和中阶类别向量分别转化为低阶池化卷积类别向量和中阶池化卷积类别向量，使低阶类别向量和中阶类别向量的大小维度和高阶类别向量相等，公式如下：

（9）；

（10）；

其中，代表平均池化操作，代表卷积核为1×1的卷积操作；

步骤2.3.6、引入注意力机制，使用点积和函数来计算低阶池化卷积类别向量和中阶池化卷积类别向量之间的相关权重，然后相关权重乘以中阶池化卷积类别向量来生成新特征，最后将新特征加入到高阶类别向量中，得到最终的聚合特征，该特征包含多层次信息，公式如下：

（11）；

其中，为注意力中键的权重矩阵，为注意力中键的权重矩阵，为注意力中键的权重矩阵，这些矩阵通过网络自适应学习调整，表示比例因子。

步骤2.4具体为：

步骤2.4.1、使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模，GCN的层级传播公式如下所示：

（12）；

其中，，的标签节点关系矩阵，是一个维的单位矩阵，为节点数，是的度矩阵，是层输出的特征，是层的权重矩阵，表示非线性激活函数；

步骤2.4.2、求解关系矩阵：

首先，对训练集中标签和标签的共同出现次数进行统计，得到矩阵，其中，C为类别数，，，

然后，计算并发概率：

（13）；

其中，表示标签在训练集中出现的次数，为标签和标签的并发次数，

最后，使用阈值.4来过滤有噪声的边缘，得到关系矩阵：

（14）；

步骤2.4.3、在GloVe模型中查询训练集中多标签集合L中每一个标签对应的词向量表示，构建词嵌入矩阵，其中，是标签词嵌入的维数，然后将词嵌入矩阵和步骤2.4.2得到的关系矩阵作为第一层GCN的输入，代入公式：中，得到第一层GCN的输出；

步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入，代入公式：中，得到标签语义特征。

步骤2.5具体为：

步骤2.5.1、将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征，得到具有图像语义和标签语义的融合高级特征：

（15）；

其中，代表哈达玛积；

步骤2.5.2、将融合高级特征作为输入节点特征，依次馈送到静态GCN和动态GCN中，

静态GCN定义为：

（16）；

其中，为卷积核为1×1的卷积操作，，

动态GCN定义为：

（17）；

（18）；

（19）；

其中，是张量扩展操作，是批归一化操作，是函数，

最终得到的类别表示用于最终分类；

步骤2.5.3、将每个类别表示Z放入二元分类器中来预测类别得分，生成第一分数向量，

（20）；

步骤2.5.4、通过上下文感知的高阶特征图得到第二分数向量，

（21）；

其中，是卷积核为1×1的卷积操作，是改变特征形状的变换操作，代表排序后取其中最大值；

步骤2.5.5、将第一分数向量和第二分数向量以平均的方式聚合得到判别分数，

（22）。

步骤3中：

令图像的真值标签为，其中表示标签是否出现在图像中，损失函数为：

（23）；

其中，是函数，

遥感图像多标签分类网络使用SGD作为优化器，权重参数包括学习率、Batch size和Epoch。

学习率为0.0001， Batch size为16，Epoch为100。

本发明的有益效果是：

1、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法采用双重图卷积网络，从宏观和微观角度挖掘信息，增强网络的表征能力，在现有的遥感图像多标签分类任务中获得更好的分类预测效果；

2、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中遥感提箱多标签网络充分挖掘上下文语义信息，更加关注语义和标签结构挖掘，具有更高的语义层次，能得到更加全局的类别表示，在定量评价指标中具有一定的优势；

3、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法通过在高、中、低层级的注意力机制关注空间信息，然后利用类激活向量挖掘类别特征，采用注意力机制进行不同层级的类别特征融合，提取丰富的类别特征。

附图说明

图1是本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中遥感图像多标签分类网络的结构示意图；

图2是本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中提取标签类别向量融合模块的结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于语义和标签结构挖掘的遥感图像多标签分类方法，具体按照以下步骤实施：

步骤2、根据训练集，构建基于语义和标签结构挖掘的遥感图像多标签分类网络，网络结构如图1所示，具体为：

步骤2.1，构建特征提取模块：

步骤2.2，构建上下文处理模块：

通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理，得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图，具体为：

（1）；

（2）；

其中，表示卷积核大小为3 × 3的卷积运算；

（3）；

其中，为特征拼接操作，为归一化操作；

（4）；

步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图；

步骤2.3，构建提取标签类别向量融合模块，结构如图2所示：

提取标签类别向量融合模块由类激活映射和注意力融合组成，首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量，然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小，最后引入注意力机制，得到包含多层次信息的聚合特征，具体为：

（5）；

求解标签类别c的激活映射：

（6）；

（7）；

其中，代表卷积核为1×1的卷积操作，，=1024；

（8）；

（9）；

（10）；

其中，代表平均池化操作，代表卷积核为1×1的卷积操作；

（11）；

其中，为注意力中键的权重矩阵，为注意力中键的权重矩阵，为注意力中键的权重矩阵，这些矩阵通过网络自适应学习调整，表示比例因子；

步骤2.4，构建标签结构挖掘模块：

使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模，训练集中的标签以词嵌入矩阵的形式输入该模型，得到标签语义特征，具体为：

（12）；

步骤2.4.2、求解关系矩阵：

然后，计算并发概率：

（13）；

最后，使用阈值.4来过滤有噪声的边缘，得到关系矩阵：

（14）；

步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入，代入公式：中，得到标签语义特征；

步骤2.5，构建双重图网络模块：

将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征，得到具有图像语义和标签语义的融合高级特征，然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数，具体为：

（15）；

其中，代表哈达玛积；

静态GCN定义为：

（16）；

其中，为卷积核为1×1的卷积操作，，

动态GCN定义为：

（17）；

（18）；

（19）；

其中，是张量扩展操作，是批归一化操作，是函数，

最终得到的类别表示用于最终分类；

（20）；

（21）；

（22）；

令图像的真值标签为，其中表示标签是否出现在图像中，所述损失函数为：

（23）；

其中，是函数，

遥感图像多标签分类网络使用SGD作为优化器，权重参数包括学习率、Batch size和Epoch，学习率为0.0001， Batch size为16，Epoch为100；

本发明构建的遥感图像多标签分类网络能够充分挖掘上下文语义信息，更加关注语义和标签结构挖掘，具有更高的语义层次，能得到更加全局的类别表示，在定量评价指标中具有一定的优势，并且该网络通过在高、中、低层级的注意力机制关注空间信息，然后利用类激活向量挖掘类别特征，采用注意力机制进行不同层级的类别特征融合，提取丰富的类别特征，该网络还采用了双重图卷积网络，从宏观和微观角度挖掘信息，增强模型的表征能力，在现有的遥感图像多标签分类任务中获得更好的分类预测效果。

实施例1

基于语义和标签结构挖掘的遥感图像多标签分类方法，具体按照以下步骤实施：

步骤1、获取UCM、AID和MLRSNet三个公开的多标签遥感图像数据集，并将这三个多标签遥感图像数据集按照2：8的比例划分为训练集和测试集：

UCM多标签数据集是在UCM数据集的基础上重新为每幅图像赋予多个类别标签得到的，包含2100张图片，17个对象级标签，包括飞机、裸露的土壤、建筑物、汽车、灌木丛、法庭、码头、田野、草地、活动房屋、路面、沙子、海洋、船只、坦克、树木和水，每张图片都有一个或多个标签(最多七个)；

AID多标签数据集从AID数据集中的30个场景中选择3000张航空图像，并分配多个对象标签，尺寸为600×600×3，共有17个对象级标签，与UCM多标签数据集一致；

MLRSNet包含109161张从世界不同角度拍摄的高空间分辨率光学卫星图像,数据集涵盖60个预定义类别，其中一个或每个图像的更多类别（最多13个），每个图像的分辨率范围从0.1m到10m，尺寸固定为256×256；

步骤2、根据训练集，构建基于语义和标签结构挖掘的遥感图像多标签分类网络，具体为：

步骤2.1，构建特征提取模块：

步骤2.2，构建上下文处理模块：

（1）；

（2）；

其中，表示卷积核大小为3 × 3的卷积运算；

（3）；

其中，为特征拼接操作，为归一化操作；

（4）；

步骤2.3，构建提取标签类别向量融合模块：

（5）；

求解标签类别c的激活映射：

（6）；

（7）；

其中，代表卷积核为1×1的卷积操作，，=1024；

（8）；

（9）；

（10）；

其中，代表平均池化操作，代表卷积核为1×1的卷积操作；

（11）；

步骤2.4，构建标签结构挖掘模块：

（12）；

步骤2.4.2、求解关系矩阵：

然后，计算并发概率：

（13）；

最后，使用阈值.4来过滤有噪声的边缘，得到关系矩阵：

（14）；

步骤2.5，构建双重图网络模块：

（15）；

其中，代表哈达玛积，

静态GCN定义为：

（16）；

其中，为卷积核为1×1的卷积操作，，

动态GCN定义为：

（17）；

（18）；

（19）；

其中，是张量扩展操作，是批归一化操作，是函数，

最终得到的类别表示用于最终分类；

（20）；

（21）；

（22）；

（23）；

其中，是函数，

本实施例通过平均精度均值mAP、准确率Accuracy、精确率和召回率的调和平均综合F1-score、精确率Precision、召回率Recall来评价遥感图像多标签分类网络的性能。对于每张图像，如果某个标签的置信度大于0.5，则视该图像为该标签的正样本，平均精度均值mAP是把计算单个类别的AP再取平均值，衡量的是模型在所有标签上的性能，准确率Accuracy计算的是正确预测的标签比例，精确率Precision表示的是在所有被预测为正的样本中实际为正样本的概率，召回率Reacll表示的是实际为正的样本中被预测为正样本的概率，F1-score是精确率和召回率的调和平均综合，采用EMTCAL和MLC-GCN两种对比方法，得到结果如下表1、表2、表3所示：

表1 UCM数据集定量评估

表2 AID数据集定量评估

表3 MLRSNet数据集定量评估

由上表可知，本发明模型的分类预测性能有明显的提升，本发明考虑到现有方法丢失一定的小目标对象，以及未能充分寻找对象标签之间的关联性，本发明采用注意力机制、提取多层次类别向量和标签语义信息，获得丰富的特征；采用双重图卷积网络，从宏观和微观角度挖掘信息，增强模型的表征能力，在现有的遥感图像多标签分类任务中获得更好的分类预测效果。

Claims

1.基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，具体按照以下步骤实施：

步骤2、根据所述训练集，构建基于语义和标签结构挖掘的遥感图像多标签分类网络，具体步骤为：

步骤2.1，构建特征提取模块：

步骤2.2，构建上下文处理模块：

步骤2.3，构建提取标签类别向量融合模块：

步骤2.4，构建标签结构挖掘模块：

使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模，训练集中的标签以词嵌入矩阵的形式输入GCN模型，得到标签语义特征；

步骤2.5，构建双重图网络模块：

将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征，得到具有图像语义和标签语义的融合高级特征，然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数；

步骤3、设计损失函数，并将所述训练集输入所述遥感图像多标签分类网络中，调整权重参数并进行训练，保存训练好的遥感图像多标签分类网络；

2.根据权利要求1所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述步骤2.2中通过Transformer分别对步骤2.1中得到的低阶特征图、中阶特征图、高阶特征图进行处理的具体过程为：

（1）；

（2）；

其中，表示卷积核大小为3 × 3的卷积运算；

（3）；

其中，为特征拼接操作，为归一化操作；

（4）；

3.根据权利要求2所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述步骤2.3具体为：

（5）；

求解标签类别c的激活映射：

（6）；

（7）；

其中，代表卷积核为1×1的卷积操作，，=1024；

（8）；

（9）；

（10）；

其中，代表平均池化操作，代表卷积核为1×1的卷积操作；

（11）；

4.根据权利要求3所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述步骤2.4具体为：

（12）；

步骤2.4.2、求解关系矩阵

然后，计算并发概率：

（13）；

最后，使用阈值.4来过滤有噪声的边缘，得到关系矩阵：

（14）；

5.根据权利要求4所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述步骤2.5具体为：

（15）；

其中，代表哈达玛积；

静态GCN定义为：

（16）；

其中，为卷积核为1×1的卷积操作，，

动态GCN定义为：

（17）；

（18）；

（19）；

其中，是张量扩展操作，是批归一化操作，是函数，

最终得到的类别表示用于最终分类；

（20）；

（21）；

（22）。

6.根据权利要求5所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述步骤3中：

（23）；

其中，是函数，

所述遥感图像多标签分类网络使用SGD作为优化器，所述权重参数包括学习率、Batchsize和Epoch。

7.根据权利要求6所述的基于语义和标签结构挖掘的遥感图像多标签分类方法，其特征在于，所述学习率为0.0001， Batch size为16，Epoch为100。