CN117556079B - 遥感影像内容检索方法、装置、电子设备及介质 - Google Patents
遥感影像内容检索方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN117556079B CN117556079B CN202410044899.0A CN202410044899A CN117556079B CN 117556079 B CN117556079 B CN 117556079B CN 202410044899 A CN202410044899 A CN 202410044899A CN 117556079 B CN117556079 B CN 117556079B
- Authority
- CN
- China
- Prior art keywords
- image
- remote sensing
- vector
- segmented
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 230
- 230000004927 fusion Effects 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000013508 migration Methods 0.000 claims abstract description 17
- 230000005012 migration Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 7
- 230000000903 blocking effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 2
- 101100153591 Cricetulus griseus TOP1 gene Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种遥感影像内容检索方法、装置、电子设备及介质,涉及遥感影像检索技术领域,包括:基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;对遥感大幅影像进行预处理得到分块影像;基于跨模态大模型对分块影像进行编码得到影像特征向量;基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,并基于地理范围对向量库中的影像特征向量进行过滤;计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息,最后将分块影像进行多尺度空间融合得到遥感影像检索结果。本发明提高了遥感影像内容检索的速度和精度。
Description
技术领域
本发明涉及遥感影像检索技术领域,尤其是涉及一种遥感影像内容检索方法、装置、电子设备及介质。
背景技术
遥感影像检索是指利用计算机视觉和图像处理技术,根据查询条件,从大规模遥感影像中快速准确地找到相关影像的过程。该技术可以获取与特定区域、特定目标或特定特征相匹配的遥感影像,从而实现遥感影像数据的高效利用,为环境监测、资源管理、城市规划、农业发展和军事国防等领域提供有力的数据支持,是遥感应用中不可或缺的重要环节。
随着空间对地观测技术在全球范围内的迅速发展,遥感大数据时代已经来临,如何快速、准确的从海量遥感影像中提取感兴趣的影像成为亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种遥感影像内容检索方法、装置、电子设备及介质,以提高了遥感影像内容检索的速度和精度。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种遥感影像内容检索方法,包括:
基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;
获取遥感大幅影像,并对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息;
基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库;
获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;
计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息;
将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果。
在一种实施方式中,基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型,包括:
获取多模态大模型原始的预训练权重;将遥感图像描述数据集的影像数据和文本数据输入到多模态大模型中进行编码得到影像向量和文本向量;
基于匹配的影像向量和文本向量的距离以及不匹配的影像向量和文本向量的距离,采用对比损失函数对多模态大模型原始的预训练权重进行迭代优化,得到跨模态大模型。
在一种实施方式中,对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息,包括:
采用百分比截断法对遥感大幅影像进行影像位数转换,并对遥感大幅影像进行降噪操作;
对降噪后的遥感大幅影像进行降采样操作得到多尺度影像;
对多尺度影像进行分块裁剪得到分块影像,并获取分块影像的元数据信息。
在一种实施方式中,基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库,包括:
将分块影像输入到跨模态大模型进行特征编码得到分块影像的影像特征向量,并将影像特征向量存储至向量库中;
获取分块影像的元数据信息,将分块影像的元数据信息存储至向量库中,并基于元数据信息的中心点经纬度坐标建立空间索引。
在一种实施方式中,基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量,包括:
将地理范围作为过滤条件,基于空间索引在向量库中过滤中心点经纬度坐标在地理范围内的影像特征向量,得到过滤后的影像特征向量。
在一种实施方式中,基于余弦相似度获取预设数量的影像特征向量和元数据信息,包括:
按照余弦相似度降序的排序结果,从大到小选取预设数量的影像特征向量和对应的元数据信息。
在一种实施方式中,将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果,包括:
基于元数据信息中的分块影像经纬度坐标范围,判断多个分块影像的范围是否存在范围相交;
如果多个分块影像存在范围相交,且存在范围相交的分块影像的尺度级别相同,则将存在范围相交的多个分块影像进行空间融合,并将融合后的影像作为遥感影像检索结果;
如果多个分块影像范围相交,且范围相交的分块影像的尺度级别不同,则将尺度级别最高的分块影像作为遥感影像检索结果。
第二方面,本发明实施例提供了一种遥感影像内容检索装置,包括:
模型训练模块,用于基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;
预处理模块,用于获取遥感大幅影像,并对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息;
影像编码模块,用于基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库;
文本编码模块,用于获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;
相似度计算模块,用于计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息;
融合模块,用于将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的上述遥感影像内容检索方法、装置、电子设备及介质,首先基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;其次获取遥感大幅影像,并对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息;再次基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库;然后获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;接着计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息;最后将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果。
上述方法通过迁移学习的策略对多模态大模型进行参数微调得到适用于遥感影像的跨模态大模型,增强了对遥感图像特征的提取能力;其次将遥感大幅影像进行多尺度采样,分块提取影像特征向量并存储,同时对检索结果进行空间融合,提高了遥感影像内容检索的精度;此外,上述方法利用地理范围对向量库中的影像特征向量进行过滤,不仅能够查询到在具体地理范围内满足条件的影像,而且能够大幅提高检索效率,实现高性能影像内容检索。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种遥感影像内容检索方法的流程图;
图2为本发明实施例提供的一种迁移学习原理及效果示意图;
图3为本发明实施例提供的一种影像预处理及多尺度采样分块示意图;
图4为本发明实施例提供的一种影像特征向量编码及入库示意图;
图5为本发明实施例提供的一种本文编码及影像特征向量过滤示意图;
图6为本发明实施例提供的一种文本特征向量与影像特征向量相似度计算示意图;
图7为本发明实施例提供的一种分块影像范围多尺度空间融合示意图;
图8为本发明实施例提供的一种遥感影像内容检索效果示意图;
图9为本发明实施例提供的一种遥感影像内容检索效率验证示意图;
图10为本发明实施例提供的一种基于多尺度特征向量库的高性能跨模态遥感影像内容检索方法流程图;
图11为本发明实施例提供的一种遥感影像内容检索装置的结构示意图;
图12为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,常用的遥感影像检索方法分为基于标签的遥感影像检索和基于内容的遥感影像检索两类。前者对影像赋予特定的文本标签,通过标签与查询内容的严格对应来实现遥感影像检索功能,该方法在技术上已经非常成熟,但随着海量数据的增长,打标签的方式日益繁琐,且固定的标签内容也无法满足人们多样化的检索需求。
基于内容的遥感影像检索方法使用特征提取模型分别建立影像和本文的特征向量,通过计算两者的距离,即相似度,来实现文本到影像的检索。然而,基于内容的遥感影像检索仍面临三方面挑战:首先,相对普通影像,遥感影像具有更高的光谱复杂度,同物异谱和同谱异物的现象普遍存在,这对模型的特征提取能力和稳定性提出了更高的要求;其次,遥感影像的场景、地物复杂且类型多样,不同场景存在明显的尺度差异,如何适应这种差异,对提高遥感影像检索的精度起到至关重要的作用;最后,随着遥感影像的爆炸式增长,海量遥感影像特征向量的储存管理和高性能检索成为在实际生产中必须解决的问题。
综上所述,特征提取能力、多尺度适应及特征向量储存和检索已成为限制基于内容的遥感影像检索的瓶颈问题。
基于此,本发明实施例提供的一种遥感影像内容检索方法、装置、电子设备及介质,提高了遥感影像内容检索的速度和精度。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种遥感影像内容检索方法进行详细介绍,该方法可以由电子设备执行,诸如智能手机、电脑、平板电脑等。参见图1所示的一种遥感影像内容检索方法的流程图,示意出该方法主要包括以下步骤S101至步骤S106:
步骤S101:基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型。
在一种实施方式中,使用遥感图像描述数据集对多模态大模型(ContrastiveLanguage–Image Pre-training,CLIP)大模型进行迁移学习,获取适用于遥感影像的跨模态大模型CLIP-RS。
步骤S102:获取遥感大幅影像,并对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息。
在一种实施方式中,对遥感大幅影像进行位数转换、噪声消除、多尺度采样和分块等预处理,得到分块影像,并获取分块影像的元数据信息。
步骤S103:基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库。
在一种实施方式中,使用CLIP-RS模型将分块影像编码为512长度的影像特征向量,并将影像特征向量和对应的元数据信息储存到向量库并建立索引。
步骤S104:获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量。
在一种实施方式中,编辑待检索的影像内容描述文本和地理范围,并使用CLIP-RS模型对影像内容描述文本进行编码,生成文本特征向量,并根据地理范围,使用元数据信息对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量。
步骤S105:计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息。
在一种实施方式中,将本文特征向量与过滤后的影像特征向量计算余弦相似度,并按照余弦相似度降序返回影像特征向量和元数据信息;然后选择预设数量的最相似的影像特征向量,其对应的元数据信息中的分块影像范围即满足检索要求的影像范围。
步骤S106:将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果。
在一种实施方式中,将选择的分块影像进行多尺度空间融合,视融合结果为影像检索的最终结果。
本发明实施例提供的上述遥感影像内容检索方法,通过迁移学习的策略对多模态大模型进行参数微调得到适用于遥感影像的跨模态大模型,增强了对遥感图像特征的提取能力;其次将遥感大幅影像进行多尺度采样,分块提取影像特征向量并存储,同时对检索结果进行空间融合,提高了遥感影像内容检索的精度;此外,上述方法利用地理范围对向量库中的影像特征向量进行过滤,不仅能够查询到在具体地理范围内满足条件的影像,而且能够大幅提高检索效率,实现高性能影像内容检索。
在一种实施方式中,对于前述步骤S101,即在基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型时,可以采用包括但不限于以下方式:首先,获取多模态大模型原始的预训练权重;然后,将遥感图像描述数据集的影像数据和文本数据输入到多模态大模型中进行编码得到影像向量和文本向量;最后,基于匹配的影像向量和文本向量的距离以及不匹配的影像向量和文本向量的距离,采用对比损失函数对多模态大模型原始的预训练权重进行迭代优化,得到跨模态大模型。
在具体实施时,参见图2所示,首先,将CLIP-RS模型读取原始的预训练权重;然后,将遥感图像描述数据集(RSICD)的影像数据和文本数据输入CLIP模型中进行编码,将其编码为512维的影像向量和文本向量,使用对比损失函数,使匹配的影像向量-文本向量对之间的距离减小,不匹配的影像向量-文本向量对之间的距离增大,不断迭代优化模型参数,最后得到适用于遥感影像的跨模态大模型CLIP-RS。
在一种实施方式中,对于前述步骤S102,即在对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息时,可以采用包括但不限于以下方式:首先,采用百分比截断法对遥感大幅影像进行影像位数转换,并对遥感大幅影像进行降噪操作;然后,对降噪后的遥感大幅影像进行降采样操作得到多尺度影像;最后,对多尺度影像进行分块裁剪得到分块影像,并获取分块影像的元数据信息。
在具体实施时,参见图3所示,首先,使用百分比截断法将16位的遥感大幅影像转换为RGB合成的8位大幅影像,以对齐CLIP模型的输入要求;同时,使用均值滤波算法对遥感大幅影像进行降噪操作,以降低因影像过曝导致的噪声;然后,对经影像位数转换和去噪后的8位大幅影像进行每级2倍的降采样操作,本实施例中共采样7个级别,以满足不同检索场景的尺度差异;最后,将采样后的多尺度影像剪裁为256×256像素的分块影像,作为CLIP-RS模型的输入影像。
在一种实施方式中,对于前述步骤S103,即在基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库时,可以采用包括但不限于以下方式:首先,将分块影像输入到跨模态大模型进行特征编码得到分块影像的影像特征向量,并将影像特征向量存储至向量库中;然后,获取分块影像的元数据信息,将分块影像的元数据信息存储至向量库中,并基于元数据信息的中心点经纬度坐标建立空间索引。
在具体实施时,参见图4所示,将步骤S102得到的256×256像素的分块影像,输入CLIP-RS模型进行特征编码,得到512长度的影像特征向量,再将影像特征向量插入向量库中进行存储;同时将分块影像的元数据信息,至少包括:影像块的编号id_tiles、经纬度坐标范围b_box、中心点经纬度坐标lon和lat、采样级别zoom以及大幅影像的编号id和路径名称name等存入向量库,并为中心点经纬度坐标lon和lat建立空间索引,作为影像检索的过滤条件,以大幅提高检索速度。
在一种实施方式中,对于前述步骤S104,即在获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量时,可以采用包括但不限于以下方式:首先,基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,然后,将地理范围作为过滤条件,基于空间索引在向量库中过滤中心点经纬度坐标在地理范围内的影像特征向量,得到过滤后的影像特征向量。
在具体实施时,参见图5所示,首先,获取待检索的影像内容描述文本(诸如“临近湖泊的建筑”)和地理范围(诸如:[112.70,114.23,34.26,34.97]),然后,将影像内容描述文本输入CLIP-RS模型,对其进行编码得到512维的文本特征向量。同时,将地理范围作为过滤条件,在向量库中过滤得到中心点经纬度在相应地理范围内的影像特征向量。本申请中加入空间过滤条件,不但能查询到在具体地理范围内满足条件的影像,而且能大幅提高检索效率,实现高性能影像内容检索。
在一种实施方式中,对于前述步骤S105,即在计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息时,可以采用包括但不限于以下方式:首先,计算文本特征向量和过滤后的影像特征向量的余弦相似度;然后,按照余弦相似度降序的排序结果,从大到小选取预设数量的影像特征向量和对应的元数据信息。
在具体实施时,首先,将文本特征向量与过滤后的影像特征向量计算余弦相似度,计算方法如公式(1)所示。
(1)
式中,A为文本特征向量;B为影像特征向量;表示文本特征向量A的模长;/>表示影像特征向量B的模长。其中,S越接近1,A、B向量越相似;S越接近-1,A、B向量越不相似。
然后,参见图6所示,按照余弦相似度降序返回影像特征向量和元数据信息,并按照余弦相似度从大到小的顺序选取预设数量的最相似的影像特征向量和对应的元数据信息。
在一种实施方式中,对于前述步骤S106,即在将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果时,可以采用包括但不限于以下方式:首先,基于元数据信息中的分块影像经纬度坐标范围,判断多个分块影像的范围是否存在范围相交;如果多个分块影像存在范围相交,且存在范围相交的分块影像的尺度级别相同,则将存在范围相交的多个分块影像进行空间融合,并将融合后的影像作为遥感影像检索结果;如果多个分块影像范围相交,且范围相交的分块影像的尺度级别不同,则将尺度级别最高的分块影像作为遥感影像检索结果。
在具体实施时,参见图7所示,假设选取5个相似度最高的影像特征向量,将对应的元数据信息中的分块影像经纬度坐标范围b_box视为检索到的影像范围。若多个分块影像范围存在边相交,且边相交的分块影像在同一尺度级别,则将其进行空间融合,合并为一个多边形,作为遥感影像检索结果,以确保检索结果尽可能覆盖满足检索条件的场景;若多个分块影像范围相交(边相交或包含),且范围相交的分块影像属于不同尺度级别,则取最高级别(分辨率最高)的分块影像范围作为检索结果,以确保检索结果的准确度和可视化程度较优。
本发明实施例提供了一种遥感影像内容检索方法,首先,引入基于Transformer的多模态大模型CLIP,并使用迁移学习的策略进行全参数微调,增强了模型对遥感影像特征的提取能力;然后,提出一种多尺度影像分块-融合检索策略,将大幅遥感影像进行多尺度采样,分块提取特征向量并储存,同时对检索结果进行多尺度空间融合,增强了遥感影像及场景内容的检索精度;最后,基于向量库分布式部署和负载过滤的方式,实现了海量遥感数据的分布式储存与高性能检索。
为了便于理解,本发明实施例还提供了一种具体的基于多尺度特征向量库的高性能跨模态遥感影像内容检索方法,参见图8所示的流程图,该方法主要包括:遥感跨模态模型训练、遥感影像特征向量入库以及遥感影像文本内容检几部分。首先,对CLIP模型进行迁移学习得到CLIP-RS模型;然后,对遥感大幅影像进行多尺度预处理,并利用CLIP-RS模型对其进行编码,得到影像特征向量保存至向量库中;接着,利用CLIP-RS模型对影像内容描述文本进行编码,生成文本特征向量;之后,计算影像特征向量和文本特征向量的余弦相似度,并将地理范围作为过滤条件对向量库中的影像特征向量进行过滤;最后,选择相似度最高的n个影像特征向量,并进行多尺度空间融合得到最后的检索结果。
本发明实施例提供的上述方法,实现了高精度和高性能的遥感影像内容检索,具体的,遥感影像内容检索的精度验证如下:
使用RSICD数据集验证,该数据集是来自于谷歌地图、百度地图等多数据源的多分辨率数据集,由训练数据、验证数据和测试数据三个子集组成,数据量分别为8734、1094和1027份,每份数据包含1张影像和5条影像的描述文本。本发明使用RSICD的训练集训练CLIP模型,使用验证集进行模型评估与选择,得到最优CLIP-RS模型,然后使用测试集,测试模型精度。为了全面表述模型的精度,使用TOP-1、TOP-3、TOP-5和TOP-10作为评价指标。其中,TOP-1表示得分最高的预测结果是正确的占比,TOP-3表示得分最高的前三个预测结果中有正确时的占比,TOP-5、TOP-10以此类推。精度验证结果如表1所示。
表1 CLIP-RS模型测试集精度验证
结果表明,首先,微调后的模型精度有明显提升,baseline为原始CLIP模型,四个指标分别为0.574、0.752、0.836和0.939,明显低于微调后的CLIP-RS测试精度;其次,本发明探究了不同学习率下的CLIP-RS模型精度,结果表明学习率为5×10-5时,模型具有最高的测试精度;最后,本发明探究了影像数据增强imgaugs和文本数据增强textaugs对模型精度的影响,结果表明使用影像数据增强和文本数据增强训练的CLIP-RS模型测试精度更高。结合上述分析,本发明使用学习率5×10-5、影像数据增强和文本数据增强训练的CLIP-RS模型精度最高,分别为0.848、0.965、0.981和0.996。具体影像内容检索效果参见图9所示。
进一步,遥感影像内容检索的效率验证如下:
在Tesla V100显卡服务器部署遥感影像内容检索服务,进行了2000次遥感影像内容检索测试,记录每次检索耗时,耗时主要包括CLIP-RS模型文本编码耗时、向量库查询耗时和数据传输耗时等,如图10所示。2000次完整的遥感影像内容检索平均耗时0.114秒。该结果表明,本发明提出的遥感影像内容检索方法效率较高,能够满足实际生产中高检索效率的要求。
对于前述实施例提供的遥感影像内容检索方法,本发明实施例还提供了一种遥感影像内容检索装置,参见图11所示的一种遥感影像内容检索装置的结构示意图,示意出该装置主要包括以下部分:
模型训练模块1101,用于基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;
预处理模块1102,用于获取遥感大幅影像,并对遥感大幅影像进行预处理得到分块影像以及分块影像的元数据信息;
影像编码模块1103,用于基于跨模态大模型对分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库;
文本编码模块1104,用于获取待检索的影像内容描述文本和地理范围,并基于跨模态大模型对影像内容描述文本进行编码得到文本特征向量,以及基于地理范围对向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;
相似度计算模块1105,用于计算文本特征向量和过滤后的影像特征向量的余弦相似度,并基于余弦相似度获取预设数量的影像特征向量和元数据信息;
融合模块1106,用于将预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果。
本发明实施例提供的上述遥感影像内容检索装置,通过迁移学习的策略对多模态大模型进行参数微调得到适用于遥感影像的跨模态大模型,增强了对遥感图像特征的提取能力;其次将遥感大幅影像进行多尺度采样,分块提取影像特征向量并存储,同时对检索结果进行空间融合,提高了遥感影像内容检索的精度;此外,上述方法利用地理范围对向量库中的影像特征向量进行过滤,不仅能够查询到在具体地理范围内满足条件的影像,而且能够大幅提高检索效率,实现高性能影像内容检索。
需要说明的是,本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。本发明实施中提供的具体数值,仅为是示例性的,在此不做限定。
本发明实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被处理器运行时执行如上实施方式的任一项所述的方法。
图12为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器120,存储器121,总线122和通信接口123,所述处理器120、通信接口123和存储器121通过总线122连接;处理器120用于执行存储器121中存储的可执行模块,例如计算机程序。
其中,存储器121可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口123(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线122可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器121用于存储程序,所述处理器120在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器120中,或者由处理器120实现。
处理器120可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器121,处理器120读取存储器121中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (8)
1.一种遥感影像内容检索方法,其特征在于,包括:
基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;
获取遥感大幅影像,并对所述遥感大幅影像进行预处理得到分块影像以及所述分块影像的元数据信息;
基于所述跨模态大模型对所述分块影像进行编码得到影像特征向量,并将所述分块影像的影像特征向量和对应的元数据信息存储至向量库;
获取待检索的影像内容描述文本和地理范围,并基于所述跨模态大模型对所述影像内容描述文本进行编码得到文本特征向量,以及基于所述地理范围对所述向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;
计算所述文本特征向量和所述过滤后的影像特征向量的余弦相似度,并基于所述余弦相似度获取预设数量的影像特征向量和元数据信息;
将所述预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果;
基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型,包括:获取多模态大模型原始的预训练权重;将遥感图像描述数据集的影像数据和文本数据输入到所述多模态大模型中进行编码得到影像向量和文本向量;基于匹配的影像向量和文本向量的距离以及不匹配的影像向量和文本向量的距离,采用对比损失函数对所述多模态大模型原始的预训练权重进行迭代优化,得到跨模态大模型;
将所述预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果,包括:基于所述元数据信息中的分块影像经纬度坐标范围,判断多个所述分块影像的范围是否存在范围相交;如果多个所述分块影像存在范围相交,且存在范围相交的分块影像的尺度级别相同,则将存在范围相交的多个分块影像进行空间融合,并将融合后的影像作为遥感影像检索结果;如果多个所述分块影像范围相交,且范围相交的分块影像的尺度级别不同,则将尺度级别最高的分块影像作为遥感影像检索结果。
2.根据权利要求1所述的方法,其特征在于,对所述遥感大幅影像进行预处理得到分块影像以及所述分块影像的元数据信息,包括:
采用百分比截断法对所述遥感大幅影像进行影像位数转换,并对遥感大幅影像进行降噪操作;
对降噪后的遥感大幅影像进行降采样操作得到多尺度影像;
对所述多尺度影像进行分块裁剪得到分块影像,并获取所述分块影像的元数据信息。
3.根据权利要求1所述的方法,其特征在于,基于所述跨模态大模型对所述分块影像进行编码得到影像特征向量,并将述分块影像的影像特征向量和对应的元数据信息存储至向量库,包括:
将所述分块影像输入到所述跨模态大模型进行特征编码得到所述分块影像的影像特征向量,并将所述影像特征向量存储至向量库中;
获取所述分块影像的元数据信息,将所述分块影像的元数据信息存储至向量库中,并基于所述元数据信息的中心点经纬度坐标建立空间索引。
4.根据权利要求3所述的方法,其特征在于,基于所述地理范围对所述向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量,包括:
将所述地理范围作为过滤条件,基于所述空间索引在所述向量库中过滤中心点经纬度坐标在所述地理范围内的影像特征向量,得到过滤后的影像特征向量。
5.根据权利要求1所述的方法,其特征在于,基于所述余弦相似度获取预设数量的影像特征向量和元数据信息,包括:
按照所述余弦相似度降序的排序结果,从大到小选取预设数量的影像特征向量和对应的元数据信息。
6.一种遥感影像内容检索装置,其特征在于,包括:
模型训练模块,用于基于遥感图像描述数据集对多模态大模型进行迁移学习得到跨模态大模型;
预处理模块,用于获取遥感大幅影像,并对所述遥感大幅影像进行预处理得到分块影像以及所述分块影像的元数据信息;
影像编码模块,用于基于所述跨模态大模型对所述分块影像进行编码得到影像特征向量,并将所述分块影像的影像特征向量和对应的元数据信息存储至向量库;
文本编码模块,用于获取待检索的影像内容描述文本和地理范围,并基于所述跨模态大模型对所述影像内容描述文本进行编码得到文本特征向量,以及基于所述地理范围对所述向量库中的影像特征向量进行过滤,得到过滤后的影像特征向量;
相似度计算模块,用于计算所述文本特征向量和所述过滤后的影像特征向量的余弦相似度,并基于所述余弦相似度获取预设数量的影像特征向量和元数据信息;
融合模块,用于将所述预设数量的影像特征向量和元数据信息对应的分块影像进行多尺度空间融合得到遥感影像检索结果;
所述模型训练模块还用于:获取多模态大模型原始的预训练权重;将遥感图像描述数据集的影像数据和文本数据输入到所述多模态大模型中进行编码得到影像向量和文本向量;基于匹配的影像向量和文本向量的距离以及不匹配的影像向量和文本向量的距离,采用对比损失函数对所述多模态大模型原始的预训练权重进行迭代优化,得到跨模态大模型;
所述融合模块还用于:基于所述元数据信息中的分块影像经纬度坐标范围,判断多个所述分块影像的范围是否存在范围相交;如果多个所述分块影像存在范围相交,且存在范围相交的分块影像的尺度级别相同,则将存在范围相交的多个分块影像进行空间融合,并将融合后的影像作为遥感影像检索结果;如果多个所述分块影像范围相交,且范围相交的分块影像的尺度级别不同,则将尺度级别最高的分块影像作为遥感影像检索结果。
7.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至5任一项所述的方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至5任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044899.0A CN117556079B (zh) | 2024-01-12 | 2024-01-12 | 遥感影像内容检索方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410044899.0A CN117556079B (zh) | 2024-01-12 | 2024-01-12 | 遥感影像内容检索方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556079A CN117556079A (zh) | 2024-02-13 |
CN117556079B true CN117556079B (zh) | 2024-04-16 |
Family
ID=89811480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410044899.0A Active CN117556079B (zh) | 2024-01-12 | 2024-01-12 | 遥感影像内容检索方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556079B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410200B (zh) * | 2024-06-17 | 2024-09-24 | 中国科学院空天信息创新研究院 | 遥感图像检索方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775922A (zh) * | 2023-05-16 | 2023-09-19 | 中国航空综合技术研究所 | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 |
CN116796038A (zh) * | 2023-05-17 | 2023-09-22 | 清华大学深圳国际研究生院 | 遥感数据检索方法、装置、边缘处理设备及存储介质 |
CN117056543A (zh) * | 2023-08-21 | 2023-11-14 | 数据空间研究院 | 一种基于图像的多模态专利检索方法 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
CN117349784A (zh) * | 2023-08-22 | 2024-01-05 | 浙江时空道宇科技有限公司 | 遥感数据的处理方法、装置及设备 |
-
2024
- 2024-01-12 CN CN202410044899.0A patent/CN117556079B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116775922A (zh) * | 2023-05-16 | 2023-09-19 | 中国航空综合技术研究所 | 基于语言与视觉细节特征融合的遥感图像跨模态检索方法 |
CN116796038A (zh) * | 2023-05-17 | 2023-09-22 | 清华大学深圳国际研究生院 | 遥感数据检索方法、装置、边缘处理设备及存储介质 |
CN117056543A (zh) * | 2023-08-21 | 2023-11-14 | 数据空间研究院 | 一种基于图像的多模态专利检索方法 |
CN117349784A (zh) * | 2023-08-22 | 2024-01-05 | 浙江时空道宇科技有限公司 | 遥感数据的处理方法、装置及设备 |
CN117079048A (zh) * | 2023-08-29 | 2023-11-17 | 贵州电网有限责任公司 | 基于clip模型的地质灾害图像识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
CLIP-RS: A Cross-modal Remote Sensing Image Retrieval Based on CLIP, a Northern Virginia Case Study;Djoufack Basso L;Virginia Tech;20221231;全文 * |
Contrasting dual transformer architectures for multi-modal remote sensing image retrieval;Rahhal M M A等;Applied Sciences;20221231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556079A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
Aly et al. | Indexing in large scale image collections: Scaling properties and benchmark | |
CN102262618B (zh) | 一种版面信息识别的方法及装置 | |
CN117556079B (zh) | 遥感影像内容检索方法、装置、电子设备及介质 | |
US9208401B2 (en) | System and method for using an image to provide search results | |
CN111680176A (zh) | 基于注意力与双向特征融合的遥感图像检索方法及系统 | |
CN106096028A (zh) | 基于图像识别的文物索引方法及装置 | |
KR20130057465A (ko) | 증분 특징 추출을 사용하는 오브젝트 인식 | |
Iakovidou et al. | Localizing global descriptors for content-based image retrieval | |
US20110314411A1 (en) | Rendering and sorting book search results as three dimensional icons | |
KR102468309B1 (ko) | 영상 기반 건물 검색 방법 및 장치 | |
CN104463177A (zh) | 相似人脸图片获取方法和装置 | |
CN103353881A (zh) | 一种应用程序搜索方法及装置 | |
CN111651674B (zh) | 双向搜索方法、装置及电子设备 | |
CN111373393B (zh) | 图像检索方法和装置以及图像库的生成方法和装置 | |
CN114581710A (zh) | 图像识别方法、装置、设备、可读存储介质及程序产品 | |
CN114972947A (zh) | 一种基于模糊语义建模的深度场景文本检测方法和装置 | |
CN113139110B (zh) | 区域特征处理方法、装置、设备、存储介质和程序产品 | |
CN115129915A (zh) | 重复图像检索方法、装置、设备及存储介质 | |
CN111382220A (zh) | 一种poi数据划分方法和装置 | |
CN113821689B (zh) | 基于视频序列的行人检索方法、装置和电子设备 | |
CN106776654B (zh) | 一种数据搜索方法及装置 | |
Moumtzidou et al. | Discovery of environmental resources based on heatmap recognition | |
CN114782720A (zh) | 文案的配图确定方法、装置、电子设备、介质及程序产品 | |
CN114003753A (zh) | 一种图片检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |