CN118230076B - 基于语义和标签结构挖掘的遥感图像多标签分类方法 - Google Patents
基于语义和标签结构挖掘的遥感图像多标签分类方法 Download PDFInfo
- Publication number
- CN118230076B CN118230076B CN202410650288.0A CN202410650288A CN118230076B CN 118230076 B CN118230076 B CN 118230076B CN 202410650288 A CN202410650288 A CN 202410650288A CN 118230076 B CN118230076 B CN 118230076B
- Authority
- CN
- China
- Prior art keywords
- order
- label
- remote sensing
- class
- low
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005065 mining Methods 0.000 title claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000012360 testing method Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 125
- 239000011159 matrix material Substances 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 32
- 238000010586 diagram Methods 0.000 claims description 30
- 238000013507 mapping Methods 0.000 claims description 29
- 230000004913 activation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 22
- 230000004927 fusion Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000006116 polymerization reaction Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 230000003068 static effect Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000005211 surface analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于语义和标签结构挖掘的遥感图像多标签分类方法,具体按照以下步骤实施:步骤1、获取多标签遥感图像数据集,并将多标签遥感图像数据集划分为训练集和测试集;步骤2、根据训练集,构建基于语义和标签结构挖掘的遥感图像多标签分类网络;步骤3、构建损失函数,并将训练集输入遥感图像多标签分类网络中,调整权重参数并进行训练,保存训练好的遥感图像多标签分类网络;步骤4、利用测试集测试训练好的遥感图像多标签分类网络,输出分类结果。本发明在遥感图像多标签分类任务中分类准确度更高。
Description
技术领域
本发明属于图像多标签分类技术领域,具体涉及基于语义和标签结构挖掘的遥感图像多标签分类方法。
背景技术
图像多标签分类是给定一张或多张图片后使计算机自动标注图像中每个对象的标签。随着遥感技术的发展,遥感图像的分辨率不断提高,到目前为止,高分辨率或超高分辨率遥感图像已被广泛应用于城市制图、土地利用确定、地形表面分析等领域。然而,由于高分辨率或超高分辨率遥感图像包含了丰富、详细和复杂的信息,因此不再适用仅从宏观的角度用一个场景级的标签来解读它们。
与自然图像不同,遥感图像的多标签分类面临两个重要挑战。首先,在遥感图像中,感兴趣的对象总是具有更小的尺寸和更分散的排列,使得从原始数据中提取有意义的语义特征非常困难。第二是遥感图像通常包含多种目标,随着对象类别数量的增加,输出标签空间的大小呈指数级放大。
深度学习模型可以自动提取抽象特征,并应用于场景分类研究。基于卷积神经网络的方法作为一种高性能的深度学习模型,在遥感界被广泛用于提取图像的高级特征。对于多标签遥感图像分类任务而言,与从头开始优化的网络相比,迁移在大规模数据集上预训练的深度模型是一种更有效的方法。然而,现有卷积神经网络方法未能充分挖掘预训练网络的判别信息,如关键目标区域信息、多视图属性信息、多层特征信息等,进而导致在遥感图像多标签分类任务重分类准确度不高。
发明内容
本发明的目的是提供基于语义和标签结构挖掘的遥感图像多标签分类方法,解决了现有技术中遥感图像多标签分类准确度不高的技术问题。
本发明所采用的技术方案是基于语义和标签结构挖掘的遥感图像多标签分类方法,具体按照以下步骤实施:
步骤1、获取多标签遥感图像数据集,并将多标签遥感图像数据集划分为训练集和测试集;
步骤2、根据训练集,构建基于语义和标签结构挖掘的遥感图像多标签分类网络,具体步骤为:
步骤2.1,构建特征提取模块;
步骤2.2,构建上下文处理模块;
步骤2.3,构建提取标签类别向量融合模块;
步骤2.4,构建标签结构挖掘模块;
步骤2.5,构建双重图网络模块;
步骤3、设计损失函数,并将训练集输入遥感图像多标签分类网络中,调整权重参数并进行训练,保存训练好的遥感图像多标签分类网络;
步骤4、利用测试集测试训练好的遥感图像多标签分类网络,输出分类结果。
本发明的特点还在于:
步骤2具体为:
步骤2.1,构建特征提取模块:
利用ResNet-50网络作为骨干网络处理多标签遥感图像,随机选取训练集中高度、宽度、通道数分别为的图像输入到ResNet-50网络中,使用ImageNet预训练的权重进行初始化,选择ResNet-50网络中最后三个残差块的输出分别作为图像I由浅层到深层的低阶特征图、中阶特征图和高阶特征图,其中,分别为低阶特征图的高度、宽度和维度,分别为中阶特征图的高度、宽度和维度,分别为高阶特征图的高度、宽度和维度,表示实数域;
步骤2.2,构建上下文处理模块:
通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理,得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图;
步骤2.3,构建提取标签类别向量融合模块:
提取标签类别向量融合模块由类激活映射和注意力融合组成,首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量,然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小,最后引入注意力机制,得到包含多层次信息的聚合特征;
步骤2.4,构建标签结构挖掘模块:
使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,训练集中的标签以词嵌入矩阵的形式输入该模型,得到标签语义特征;
步骤2.5,构建双重图网络模块:
将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征,然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数。
步骤2.2中通过Transformer分别对步骤2.1中得到的低阶特征图、中阶特征图、高阶特征图进行处理的具体过程为:
步骤2.2.1、将低阶特征图转化为嵌入序列,其中,并将嵌入序列作为输入,执行四个不同扩展率的空洞卷积来提取统一尺度的信息,得到空洞卷积特征图:
(1);
其中,为第i个空洞卷积,,的扩展率为0,的扩展率为1,的扩展率为2,的扩展率为3;
步骤2.2.2、对空洞卷积特征图进行卷积,引入条件位置编码,得到具有位置信息的空洞卷积特征图:
(2);
其中,表示卷积核大小为3 × 3的卷积运算;
步骤2.2.3、对i各个取值分别代入公式(2)后所得的结果进行拼接,得到多通道融合特征图:
(3);
其中,为特征拼接操作,为归一化操作;
步骤2.2.4、将多通道融合特征图作为输入,使用注意力机制融合并增强不同头部之间的信息交互,得到上下文感知的低阶特征图:
(4);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,通过网络自适应学习调整,表示比例因子,;
步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图。
步骤2.3具体为:
步骤2.3.1、首先计算上下文感知的低阶特征图中个标签类别的激活映射,
令代表上下文感知的低阶特征图中的第个特征图,对于,取全局平均池化,得到第个特征图的空间平均值:
(5);
求解标签类别c的激活映射:
(6);
其中,代表标签类别c在第个特征图的对应权值,即对于标签类别c的重要性,;
步骤2.3.2、对上下文感知的低阶特征图进行卷积操作,得到低阶特征映射:
(7);
其中,代表卷积核为1×1的卷积操作,,=1024;
步骤2.3.3、将低阶特征映射转换为内容感知的低阶类别向量:
(8);
步骤2.3.4、对上下文感知的中阶特征图和上下文感知的高阶特征图依据步骤2.3.1-步骤2.3.3分别进行处理,得到中阶类别向量和高阶类别向量;
步骤2.3.5、统一低阶类别向量、中阶类别向量和高阶类别向量的大小:
通过平均池化操作和1×1卷积操作,将低阶类别向量和中阶类别向量分别转化为低阶池化卷积类别向量和中阶池化卷积类别向量,使低阶类别向量和中阶类别向量的大小维度和高阶类别向量相等,公式如下:
(9);
(10);
其中,代表平均池化操作,代表卷积核为1×1的卷积操作;
步骤2.3.6、引入注意力机制,使用点积和函数来计算低阶池化卷积类别向量和中阶池化卷积类别向量之间的相关权重,然后相关权重乘以中阶池化卷积类别向量来生成新特征,最后将新特征加入到高阶类别向量中,得到最终的聚合特征,该特征包含多层次信息,公式如下:
(11);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,这些矩阵通过网络自适应学习调整,表示比例因子。
步骤2.4具体为:
步骤2.4.1、使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,GCN的层级传播公式如下所示:
(12);
其中,,的标签节点关系矩阵,是一个维的单位矩阵,为节点数,是的度矩阵,是层输出的特征,是层的权重矩阵,表示非线性激活函数;
步骤2.4.2、求解关系矩阵:
首先,对训练集中标签和标签的共同出现次数进行统计,得到矩阵,其中,C为类别数,,,
然后,计算并发概率:
(13);
其中,表示标签在训练集中出现的次数,为标签和标签的并发次数,
最后,使用阈值.4来过滤有噪声的边缘,得到关系矩阵:
(14);
步骤2.4.3、在GloVe模型中查询训练集中多标签集合L中每一个标签对应的词向量表示,构建词嵌入矩阵,其中,是标签词嵌入的维数,然后将词嵌入矩阵和步骤2.4.2得到的关系矩阵作为第一层GCN的输入,代入公式:中,得到第一层GCN的输出;
步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入,代入公式:中,得到标签语义特征。
步骤2.5具体为:
步骤2.5.1、将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征:
(15);
其中,代表哈达玛积;
步骤2.5.2、将融合高级特征作为输入节点特征,依次馈送到静态GCN和动态GCN中,
静态GCN定义为:
(16);
其中,为卷积核为1×1的卷积操作,,
动态GCN定义为:
(17);
(18);
(19);
其中,是张量扩展操作,是批归一化操作,是函数,
最终得到的类别表示用于最终分类;
步骤2.5.3、将每个类别表示Z放入二元分类器中来预测类别得分,生成第一分数向量,
(20);
步骤2.5.4、通过上下文感知的高阶特征图得到第二分数向量,
(21);
其中,是卷积核为1×1的卷积操作,是改变特征形状的变换操作,代表排序后取其中最大值;
步骤2.5.5、将第一分数向量和第二分数向量以平均的方式聚合得到判别分数,
(22)。
步骤3中:
令图像的真值标签为,其中表示标签是否出现在图像中,损失函数为:
(23);
其中,是函数,
遥感图像多标签分类网络使用SGD作为优化器,权重参数包括学习率、Batch size和Epoch。
学习率为0.0001, Batch size为16,Epoch为100。
本发明的有益效果是:
1、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法采用双重图卷积网络,从宏观和微观角度挖掘信息,增强网络的表征能力,在现有的遥感图像多标签分类任务中获得更好的分类预测效果;
2、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中遥感提箱多标签网络充分挖掘上下文语义信息,更加关注语义和标签结构挖掘,具有更高的语义层次,能得到更加全局的类别表示,在定量评价指标中具有一定的优势;
3、本发明基于语义和标签结构挖掘的遥感图像多标签分类方法通过在高、中、低层级的注意力机制关注空间信息,然后利用类激活向量挖掘类别特征,采用注意力机制进行不同层级的类别特征融合,提取丰富的类别特征。
附图说明
图1是本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中遥感图像多标签分类网络的结构示意图;
图2是本发明基于语义和标签结构挖掘的遥感图像多标签分类方法中提取标签类别向量融合模块的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于语义和标签结构挖掘的遥感图像多标签分类方法,具体按照以下步骤实施:
步骤1、获取多标签遥感图像数据集,并将多标签遥感图像数据集划分为训练集和测试集;
步骤2、根据训练集,构建基于语义和标签结构挖掘的遥感图像多标签分类网络,网络结构如图1所示,具体为:
步骤2.1,构建特征提取模块:
利用ResNet-50网络作为骨干网络处理多标签遥感图像,随机选取训练集中高度、宽度、通道数分别为的图像输入到ResNet-50网络中,使用ImageNet预训练的权重进行初始化,选择ResNet-50网络中最后三个残差块的输出分别作为图像I由浅层到深层的低阶特征图、中阶特征图和高阶特征图,其中,分别为低阶特征图的高度、宽度和维度,分别为中阶特征图的高度、宽度和维度,分别为高阶特征图的高度、宽度和维度,表示实数域;
步骤2.2,构建上下文处理模块:
通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理,得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图,具体为:
步骤2.2.1、将低阶特征图转化为嵌入序列,其中,并将嵌入序列作为输入,执行四个不同扩展率的空洞卷积来提取统一尺度的信息,得到空洞卷积特征图:
(1);
其中,为第i个空洞卷积,,的扩展率为0,的扩展率为1,的扩展率为2,的扩展率为3;
步骤2.2.2、对空洞卷积特征图进行卷积,引入条件位置编码,得到具有位置信息的空洞卷积特征图:
(2);
其中,表示卷积核大小为3 × 3的卷积运算;
步骤2.2.3、对i各个取值分别代入公式(2)后所得的结果进行拼接,得到多通道融合特征图:
(3);
其中,为特征拼接操作,为归一化操作;
步骤2.2.4、将多通道融合特征图作为输入,使用注意力机制融合并增强不同头部之间的信息交互,得到上下文感知的低阶特征图:
(4);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,通过网络自适应学习调整,表示比例因子,;
步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图;
步骤2.3,构建提取标签类别向量融合模块,结构如图2所示:
提取标签类别向量融合模块由类激活映射和注意力融合组成,首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量,然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小,最后引入注意力机制,得到包含多层次信息的聚合特征,具体为:
步骤2.3.1、首先计算上下文感知的低阶特征图中个标签类别的激活映射,
令代表上下文感知的低阶特征图中的第个特征图,对于,取全局平均池化,得到第个特征图的空间平均值:
(5);
求解标签类别c的激活映射:
(6);
其中,代表标签类别c在第个特征图的对应权值,即对于标签类别c的重要性,;
步骤2.3.2、对上下文感知的低阶特征图进行卷积操作,得到低阶特征映射:
(7);
其中,代表卷积核为1×1的卷积操作,,=1024;
步骤2.3.3、将低阶特征映射转换为内容感知的低阶类别向量:
(8);
步骤2.3.4、对上下文感知的中阶特征图和上下文感知的高阶特征图依据步骤2.3.1-步骤2.3.3分别进行处理,得到中阶类别向量和高阶类别向量;
步骤2.3.5、统一低阶类别向量、中阶类别向量和高阶类别向量的大小:
通过平均池化操作和1×1卷积操作,将低阶类别向量和中阶类别向量分别转化为低阶池化卷积类别向量和中阶池化卷积类别向量,使低阶类别向量和中阶类别向量的大小维度和高阶类别向量相等,公式如下:
(9);
(10);
其中,代表平均池化操作,代表卷积核为1×1的卷积操作;
步骤2.3.6、引入注意力机制,使用点积和函数来计算低阶池化卷积类别向量和中阶池化卷积类别向量之间的相关权重,然后相关权重乘以中阶池化卷积类别向量来生成新特征,最后将新特征加入到高阶类别向量中,得到最终的聚合特征,该特征包含多层次信息,公式如下:
(11);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,这些矩阵通过网络自适应学习调整,表示比例因子;
步骤2.4,构建标签结构挖掘模块:
使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,训练集中的标签以词嵌入矩阵的形式输入该模型,得到标签语义特征,具体为:
步骤2.4.1、使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,GCN的层级传播公式如下所示:
(12);
其中,,的标签节点关系矩阵,是一个维的单位矩阵,为节点数,是的度矩阵,是层输出的特征,是层的权重矩阵,表示非线性激活函数;
步骤2.4.2、求解关系矩阵:
首先,对训练集中标签和标签的共同出现次数进行统计,得到矩阵,其中,C为类别数,,,
然后,计算并发概率:
(13);
其中,表示标签在训练集中出现的次数,为标签和标签的并发次数,
最后,使用阈值.4来过滤有噪声的边缘,得到关系矩阵:
(14);
步骤2.4.3、在GloVe模型中查询训练集中多标签集合L中每一个标签对应的词向量表示,构建词嵌入矩阵,其中,是标签词嵌入的维数,然后将词嵌入矩阵和步骤2.4.2得到的关系矩阵作为第一层GCN的输入,代入公式:中,得到第一层GCN的输出;
步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入,代入公式:中,得到标签语义特征;
步骤2.5,构建双重图网络模块:
将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征,然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数,具体为:
步骤2.5.1、将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征:
(15);
其中,代表哈达玛积;
步骤2.5.2、将融合高级特征作为输入节点特征,依次馈送到静态GCN和动态GCN中,
静态GCN定义为:
(16);
其中,为卷积核为1×1的卷积操作,,
动态GCN定义为:
(17);
(18);
(19);
其中,是张量扩展操作,是批归一化操作,是函数,
最终得到的类别表示用于最终分类;
步骤2.5.3、将每个类别表示Z放入二元分类器中来预测类别得分,生成第一分数向量,
(20);
步骤2.5.4、通过上下文感知的高阶特征图得到第二分数向量,
(21);
其中,是卷积核为1×1的卷积操作,是改变特征形状的变换操作,代表排序后取其中最大值;
步骤2.5.5、将第一分数向量和第二分数向量以平均的方式聚合得到判别分数,
(22);
步骤3、设计损失函数,并将训练集输入遥感图像多标签分类网络中,调整权重参数并进行训练,保存训练好的遥感图像多标签分类网络;
令图像的真值标签为,其中表示标签是否出现在图像中,所述损失函数为:
(23);
其中,是函数,
遥感图像多标签分类网络使用SGD作为优化器,权重参数包括学习率、Batch size和Epoch,学习率为0.0001, Batch size为16,Epoch为100;
步骤4、利用测试集测试训练好的遥感图像多标签分类网络,输出分类结果。
本发明构建的遥感图像多标签分类网络能够充分挖掘上下文语义信息,更加关注语义和标签结构挖掘,具有更高的语义层次,能得到更加全局的类别表示,在定量评价指标中具有一定的优势,并且该网络通过在高、中、低层级的注意力机制关注空间信息,然后利用类激活向量挖掘类别特征,采用注意力机制进行不同层级的类别特征融合,提取丰富的类别特征,该网络还采用了双重图卷积网络,从宏观和微观角度挖掘信息,增强模型的表征能力,在现有的遥感图像多标签分类任务中获得更好的分类预测效果。
实施例1
基于语义和标签结构挖掘的遥感图像多标签分类方法,具体按照以下步骤实施:
步骤1、获取UCM、AID和MLRSNet三个公开的多标签遥感图像数据集,并将这三个多标签遥感图像数据集按照2:8的比例划分为训练集和测试集:
UCM多标签数据集是在UCM数据集的基础上重新为每幅图像赋予多个类别标签得到的,包含2100张图片,17个对象级标签,包括飞机、裸露的土壤、建筑物、汽车、灌木丛、法庭、码头、田野、草地、活动房屋、路面、沙子、海洋、船只、坦克、树木和水,每张图片都有一个或多个标签(最多七个);
AID多标签数据集从AID数据集中的30个场景中选择3000张航空图像,并分配多个对象标签,尺寸为600×600×3,共有17个对象级标签,与UCM多标签数据集一致;
MLRSNet包含109161张从世界不同角度拍摄的高空间分辨率光学卫星图像,数据集涵盖60个预定义类别,其中一个或每个图像的更多类别(最多13个),每个图像的分辨率范围从0.1m到10m,尺寸固定为256×256;
步骤2、根据训练集,构建基于语义和标签结构挖掘的遥感图像多标签分类网络,具体为:
步骤2.1,构建特征提取模块:
利用ResNet-50网络作为骨干网络处理多标签遥感图像,随机选取训练集中高度、宽度、通道数分别为的图像输入到ResNet-50网络中,使用ImageNet预训练的权重进行初始化,选择ResNet-50网络中最后三个残差块的输出分别作为图像I由浅层到深层的低阶特征图、中阶特征图和高阶特征图,其中,分别为低阶特征图的高度、宽度和维度,分别为中阶特征图的高度、宽度和维度,分别为高阶特征图的高度、宽度和维度,表示实数域;
步骤2.2,构建上下文处理模块:
通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理,得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图,具体为:
步骤2.2.1、将低阶特征图转化为嵌入序列,其中,并将嵌入序列作为输入,执行四个不同扩展率的空洞卷积来提取统一尺度的信息,得到空洞卷积特征图:
(1);
其中,为第i个空洞卷积,,的扩展率为0,的扩展率为1,的扩展率为2,的扩展率为3;
步骤2.2.2、对空洞卷积特征图进行卷积,引入条件位置编码,得到具有位置信息的空洞卷积特征图:
(2);
其中,表示卷积核大小为3 × 3的卷积运算;
步骤2.2.3、对i各个取值分别代入公式(2)后所得的结果进行拼接,得到多通道融合特征图:
(3);
其中,为特征拼接操作,为归一化操作;
步骤2.2.4、将多通道融合特征图作为输入,使用注意力机制融合并增强不同头部之间的信息交互,得到上下文感知的低阶特征图:
(4);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,通过网络自适应学习调整,表示比例因子,;
步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图;
步骤2.3,构建提取标签类别向量融合模块:
提取标签类别向量融合模块由类激活映射和注意力融合组成,首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量,然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小,最后引入注意力机制,得到包含多层次信息的聚合特征,具体为:
步骤2.3.1、首先计算上下文感知的低阶特征图中个标签类别的激活映射,
令代表上下文感知的低阶特征图中的第个特征图,对于,取全局平均池化,得到第个特征图的空间平均值:
(5);
求解标签类别c的激活映射:
(6);
其中,代表标签类别c在第个特征图的对应权值,即对于标签类别c的重要性,;
步骤2.3.2、对上下文感知的低阶特征图进行卷积操作,得到低阶特征映射:
(7);
其中,代表卷积核为1×1的卷积操作,,=1024;
步骤2.3.3、将低阶特征映射转换为内容感知的低阶类别向量:
(8);
步骤2.3.4、对上下文感知的中阶特征图和上下文感知的高阶特征图依据步骤2.3.1-步骤2.3.3分别进行处理,得到中阶类别向量和高阶类别向量;
步骤2.3.5、统一低阶类别向量、中阶类别向量和高阶类别向量的大小:
通过平均池化操作和1×1卷积操作,将低阶类别向量和中阶类别向量分别转化为低阶池化卷积类别向量和中阶池化卷积类别向量,使低阶类别向量和中阶类别向量的大小维度和高阶类别向量相等,公式如下:
(9);
(10);
其中,代表平均池化操作,代表卷积核为1×1的卷积操作;
步骤2.3.6、引入注意力机制,使用点积和函数来计算低阶池化卷积类别向量和中阶池化卷积类别向量之间的相关权重,然后相关权重乘以中阶池化卷积类别向量来生成新特征,最后将新特征加入到高阶类别向量中,得到最终的聚合特征,该特征包含多层次信息,公式如下:
(11);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,这些矩阵通过网络自适应学习调整,表示比例因子;
步骤2.4,构建标签结构挖掘模块:
使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,训练集中的标签以词嵌入矩阵的形式输入该模型,得到标签语义特征,具体为:
步骤2.4.1、使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,GCN的层级传播公式如下所示:
(12);
其中,,的标签节点关系矩阵,是一个维的单位矩阵,为节点数,是的度矩阵,是层输出的特征,是层的权重矩阵,表示非线性激活函数;
步骤2.4.2、求解关系矩阵:
首先,对训练集中标签和标签的共同出现次数进行统计,得到矩阵,其中,C为类别数,,,
然后,计算并发概率:
(13);
其中,表示标签在训练集中出现的次数,为标签和标签的并发次数,
最后,使用阈值.4来过滤有噪声的边缘,得到关系矩阵:
(14);
步骤2.4.3、在GloVe模型中查询训练集中多标签集合L中每一个标签对应的词向量表示,构建词嵌入矩阵,其中,是标签词嵌入的维数,然后将词嵌入矩阵和步骤2.4.2得到的关系矩阵作为第一层GCN的输入,代入公式:中,得到第一层GCN的输出;
步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入,代入公式:中,得到标签语义特征;
步骤2.5,构建双重图网络模块:
将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征,然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数,具体为:
步骤2.5.1、将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征:
(15);
其中,代表哈达玛积,
步骤2.5.2、将融合高级特征作为输入节点特征,依次馈送到静态GCN和动态GCN中,
静态GCN定义为:
(16);
其中,为卷积核为1×1的卷积操作,,
动态GCN定义为:
(17);
(18);
(19);
其中,是张量扩展操作,是批归一化操作,是函数,
最终得到的类别表示用于最终分类;
步骤2.5.3、将每个类别表示Z放入二元分类器中来预测类别得分,生成第一分数向量,
(20);
步骤2.5.4、通过上下文感知的高阶特征图得到第二分数向量,
(21);
其中,是卷积核为1×1的卷积操作,是改变特征形状的变换操作,代表排序后取其中最大值;
步骤2.5.5、将第一分数向量和第二分数向量以平均的方式聚合得到判别分数,
(22);
步骤3、设计损失函数,并将训练集输入遥感图像多标签分类网络中,调整权重参数并进行训练,保存训练好的遥感图像多标签分类网络;
令图像的真值标签为,其中表示标签是否出现在图像中,所述损失函数为:
(23);
其中,是函数,
遥感图像多标签分类网络使用SGD作为优化器,权重参数包括学习率、Batch size和Epoch,学习率为0.0001, Batch size为16,Epoch为100;
步骤4、利用测试集测试训练好的遥感图像多标签分类网络,输出分类结果。
本实施例通过平均精度均值mAP、准确率Accuracy、精确率和召回率的调和平均综合F1-score、精确率Precision、召回率Recall来评价遥感图像多标签分类网络的性能。对于每张图像,如果某个标签的置信度大于0.5,则视该图像为该标签的正样本,平均精度均值mAP是把计算单个类别的AP再取平均值,衡量的是模型在所有标签上的性能,准确率Accuracy计算的是正确预测的标签比例,精确率Precision表示的是在所有被预测为正的样本中实际为正样本的概率,召回率Reacll表示的是实际为正的样本中被预测为正样本的概率,F1-score是精确率和召回率的调和平均综合,采用EMTCAL和MLC-GCN两种对比方法,得到结果如下表1、表2、表3所示:
表1 UCM数据集定量评估
表2 AID数据集定量评估
表3 MLRSNet数据集定量评估
由上表可知,本发明模型的分类预测性能有明显的提升,本发明考虑到现有方法丢失一定的小目标对象,以及未能充分寻找对象标签之间的关联性,本发明采用注意力机制、提取多层次类别向量和标签语义信息,获得丰富的特征;采用双重图卷积网络,从宏观和微观角度挖掘信息,增强模型的表征能力,在现有的遥感图像多标签分类任务中获得更好的分类预测效果。
Claims (7)
1.基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,具体按照以下步骤实施:
步骤1、获取多标签遥感图像数据集,并将多标签遥感图像数据集划分为训练集和测试集;
步骤2、根据所述训练集,构建基于语义和标签结构挖掘的遥感图像多标签分类网络,具体步骤为:
步骤2.1,构建特征提取模块:
利用ResNet-50网络作为骨干网络处理多标签遥感图像,随机选取训练集中高度、宽度、通道数分别为的图像输入到ResNet-50网络中,使用ImageNet预训练的权重进行初始化,选择ResNet-50网络中最后三个残差块的输出分别作为图像I由浅层到深层的低阶特征图、中阶特征图和高阶特征图,其中,分别为低阶特征图的高度、宽度和维度,分别为中阶特征图的高度、宽度和维度,分别为高阶特征图的高度、宽度和维度,表示实数域;
步骤2.2,构建上下文处理模块:
通过Transformer分别对步骤2.1得到的低阶特征图、中阶特征图、高阶特征图进行处理,得到上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图 ;
步骤2.3,构建提取标签类别向量融合模块:
提取标签类别向量融合模块由类激活映射和注意力融合组成,首先将步骤2.2得到的上下文感知的低阶特征图、上下文感知的中阶特征图和上下文感知的高阶特征图进行类激活映射分别获取内容感知的低阶类别向量、中阶类别向量和高阶类别向量,然后统一低阶类别向量、中阶类别向量和高阶类别向量的大小,最后引入注意力机制,得到包含多层次信息的聚合特征;
步骤2.4,构建标签结构挖掘模块:
使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,训练集中的标签以词嵌入矩阵的形式输入GCN模型,得到标签语义特征;
步骤2.5,构建双重图网络模块:
将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征,然后将融合高级特征依次馈送到静态GCN和动态GCN中得到最终的判别分数;
步骤3、设计损失函数,并将所述训练集输入所述遥感图像多标签分类网络中,调整权重参数并进行训练,保存训练好的遥感图像多标签分类网络;
步骤4、利用测试集测试训练好的遥感图像多标签分类网络,输出分类结果。
2.根据权利要求1所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述步骤2.2中通过Transformer分别对步骤2.1中得到的低阶特征图、中阶特征图、高阶特征图进行处理的具体过程为:
步骤2.2.1、将低阶特征图转化为嵌入序列,其中 ,并将嵌入序列作为输入,执行四个不同扩展率的空洞卷积来提取统一尺度的信息,得到空洞卷积特征图:
(1);
其中,为第i个空洞卷积, ,的扩展率为0,的扩展率为1,的扩展率为2,的扩展率为3;
步骤2.2.2、对空洞卷积特征图进行卷积,引入条件位置编码,得到具有位置信息的空洞卷积特征图:
(2);
其中,表示卷积核大小为3 × 3的卷积运算;
步骤2.2.3、对i各个取值分别代入公式(2)后所得的结果进行拼接,得到多通道融合特征图:
(3);
其中,为特征拼接操作,为归一化操作;
步骤2.2.4、将多通道融合特征图作为输入,使用注意力机制融合并增强不同头部之间的信息交互,得到上下文感知的低阶特征图:
(4);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,通过网络自适应学习调整,表示比例因子,;
步骤2.2.5、对中阶特征图和高阶特征图依据步骤2.2.1-步骤2.2.4分别进行处理得到上下文感知的中阶特征图和上下文感知的高阶特征图。
3.根据权利要求2所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述步骤2.3具体为:
步骤2.3.1、首先计算上下文感知的低阶特征图中个标签类别的激活映射,
令代表上下文感知的低阶特征图中的第个特征图,对于,取全局平均池化,得到第个特征图的空间平均值:
(5);
求解标签类别c的激活映射:
(6);
其中,代表标签类别c在第个特征图的对应权值,即对于标签类别c的重要性,;
步骤2.3.2、对上下文感知的低阶特征图进行卷积操作,得到低阶特征映射:
(7);
其中,代表卷积核为1×1的卷积操作,,=1024;
步骤2.3.3、将低阶特征映射转换为内容感知的低阶类别向量:
(8);
步骤2.3.4、对上下文感知的中阶特征图和上下文感知的高阶特征图依据步骤2.3.1-步骤2.3.3分别进行处理,得到中阶类别向量和高阶类别向量;
步骤2.3.5、统一低阶类别向量、中阶类别向量和高阶类别向量的大小:
通过平均池化操作和1×1卷积操作,将低阶类别向量和中阶类别向量分别转化为低阶池化卷积类别向量和中阶池化卷积类别向量,使低阶类别向量和中阶类别向量的大小维度和高阶类别向量相等,公式如下:
(9);
(10);
其中,代表平均池化操作,代表卷积核为1×1的卷积操作;
步骤2.3.6、引入注意力机制,使用点积和函数来计算低阶池化卷积类别向量和中阶池化卷积类别向量之间的相关权重,然后相关权重乘以中阶池化卷积类别向量来生成新特征,最后将新特征加入到高阶类别向量中,得到最终的聚合特征,该特征包含多层次信息,公式如下:
(11);
其中,为注意力中键的权重矩阵,为注意力中键的权重矩阵,为注意力中键的权重矩阵,这些矩阵通过网络自适应学习调整,表示比例因子。
4.根据权利要求3所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述步骤2.4具体为:
步骤2.4.1、使用两个堆叠的GCN对训练集中标签节点之间的复杂相关性进行建模,GCN的层级传播公式如下所示:
(12);
其中,,的标签节点关系矩阵,是一个维的单位矩阵,为节点数,是的度矩阵,是层输出的特征,是层的权重矩阵,表示非线性激活函数;
步骤2.4.2、求解关系矩阵
首先,对训练集中标签和标签的共同出现次数进行统计,得到矩阵,其中,C为类别数,,,
然后,计算并发概率:
(13);
其中,表示标签在训练集中出现的次数,为标签和标签的并发次数,
最后,使用阈值.4来过滤有噪声的边缘,得到关系矩阵:
(14);
步骤2.4.3、在GloVe模型中查询训练集中多标签集合L中每一个标签对应的词向量表示,构建词嵌入矩阵,其中,是标签词嵌入的维数,然后将词嵌入矩阵和步骤2.4.2得到的关系矩阵作为第一层GCN的输入,代入公式:中,得到第一层GCN的输出;
步骤2.4.4、将第一层GCN的输出和步骤2.4.2得到的关系矩阵作为第二层GCN的输入,代入公式:中,得到标签语义特征。
5.根据权利要求4所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述步骤2.5具体为:
步骤2.5.1、将步骤2.4得到的标签语义特征应用于步骤2.3得到的聚合特征,得到具有图像语义和标签语义的融合高级特征:
(15);
其中,代表哈达玛积;
步骤2.5.2、将融合高级特征作为输入节点特征,依次馈送到静态GCN和动态GCN中,
静态GCN定义为:
(16);
其中,为卷积核为1×1的卷积操作, ,
动态GCN定义为:
(17);
(18);
(19);
其中,是张量扩展操作,是批归一化操作,是函数,
最终得到的类别表示用于最终分类;
步骤2.5.3、将每个类别表示Z放入二元分类器中来预测类别得分,生成第一分数向量,
(20);
步骤2.5.4、通过上下文感知的高阶特征图得到第二分数向量,
(21);
其中,是卷积核为1×1的卷积操作,是改变特征形状的变换操作,代表排序后取其中最大值;
步骤2.5.5、将第一分数向量和第二分数向量以平均的方式聚合得到判别分数,
(22)。
6.根据权利要求5所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述步骤3中:
令图像的真值标签为,其中表示标签是否出现在图像中,所述损失函数为:
(23);
其中,是函数,
所述遥感图像多标签分类网络使用SGD作为优化器,所述权重参数包括学习率、Batchsize和Epoch。
7.根据权利要求6所述的基于语义和标签结构挖掘的遥感图像多标签分类方法,其特征在于,所述学习率为0.0001, Batch size为16,Epoch为100。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410650288.0A CN118230076B (zh) | 2024-05-24 | 2024-05-24 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410650288.0A CN118230076B (zh) | 2024-05-24 | 2024-05-24 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118230076A CN118230076A (zh) | 2024-06-21 |
CN118230076B true CN118230076B (zh) | 2024-07-30 |
Family
ID=91507893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410650288.0A Active CN118230076B (zh) | 2024-05-24 | 2024-05-24 | 基于语义和标签结构挖掘的遥感图像多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118230076B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661540A (zh) * | 2022-11-04 | 2023-01-31 | 国网浙江省电力有限公司电力科学研究院 | 基于自适应图卷积的电力运检多标签图像识别方法及系统 |
CN117557804A (zh) * | 2023-11-10 | 2024-02-13 | 南京理工大学 | 联合目标结构嵌入和多层次特征融合的多标签分类方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222068B (zh) * | 2021-06-03 | 2022-12-27 | 西安电子科技大学 | 基于邻接矩阵指导标签嵌入的遥感图像多标签分类方法 |
CN114821298B (zh) * | 2022-03-22 | 2024-08-06 | 大连理工大学 | 一种具有自适应语义信息的多标签遥感图像分类方法 |
-
2024
- 2024-05-24 CN CN202410650288.0A patent/CN118230076B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661540A (zh) * | 2022-11-04 | 2023-01-31 | 国网浙江省电力有限公司电力科学研究院 | 基于自适应图卷积的电力运检多标签图像识别方法及系统 |
CN117557804A (zh) * | 2023-11-10 | 2024-02-13 | 南京理工大学 | 联合目标结构嵌入和多层次特征融合的多标签分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118230076A (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN110516095B (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN104866578B (zh) | 一种不完整物联网数据混合填充方法 | |
CN111680176A (zh) | 基于注意力与双向特征融合的遥感图像检索方法及系统 | |
CN110929080B (zh) | 基于注意力和生成对抗网络的光学遥感图像检索方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN111753189A (zh) | 一种少样本跨模态哈希检索共同表征学习方法 | |
CN111881262A (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN102542302A (zh) | 基于分等级对象语义图的复杂目标自动识别方法 | |
CN113821670B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN113377981B (zh) | 基于多任务深度哈希学习的大规模物流商品图像检索方法 | |
CN108805157A (zh) | 基于部分随机监督离散式哈希的遥感图像分类方法 | |
CN115222998B (zh) | 一种图像分类方法 | |
CN113902861A (zh) | 一种基于机器学习的三维地质建模方法 | |
CN116824585A (zh) | 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置 | |
CN114997501A (zh) | 基于样本失衡的深度学习矿产资源分类预测方法及系统 | |
CN113868448A (zh) | 一种细粒度场景级基于草图的图像检索方法及系统 | |
Du et al. | Open-pit mine extraction from very high-resolution remote sensing images using OM-DeepLab | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN112561599A (zh) | 一种融合域特征交互的基于注意力网络学习的点击率预测方法 | |
CN113408651B (zh) | 基于局部判别性增强的无监督三维物体分类方法 | |
CN118230076B (zh) | 基于语义和标签结构挖掘的遥感图像多标签分类方法 | |
CN116844039A (zh) | 一种联合多注意的跨尺度遥感图像耕地提取方法 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |