CN115309927B - 多标签引导和多视图度量的海洋遥感图像检索方法及系统 - Google Patents
多标签引导和多视图度量的海洋遥感图像检索方法及系统 Download PDFInfo
- Publication number
- CN115309927B CN115309927B CN202211223857.0A CN202211223857A CN115309927B CN 115309927 B CN115309927 B CN 115309927B CN 202211223857 A CN202211223857 A CN 202211223857A CN 115309927 B CN115309927 B CN 115309927B
- Authority
- CN
- China
- Prior art keywords
- image
- features
- text
- class
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于遥感图像处理技术领域,公开了多标签引导和多视图度量的海洋遥感图像检索方法及系统,首先提取海洋遥感图像的多尺度图像特征、标签特征和文本特征,然后通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类,最后将图像和文本两种模态的特征表示解耦为多个视角,除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外,还将多分类语义特征与文本特征相匹配,以消除图像和文本之间的差异。
Description
技术领域
本发明属于遥感图像处理技术领域,特别涉及多标签引导和多视图度量的海洋遥感图像检索方法及系统。
背景技术
遥感图像文本检索利用跨模态检索算法,分析大量卫星遥感图像并自动检索出大量准确描述该图像的文本数据,以达到解决文本数据缺失和文本数据描述不准确的目的。遥感图像文本检索包括两个关键过程,其一,分别对文本数据和图像数据开展特征工程,提取相应的文本特征和图像特征;其二,进行文本特征和图像特征对齐工作,之后进行两特征间的相似度计算,将相似度最高的文本特征作为该图像的最佳检索文本。针对过程一,目前主要采用深度神经网络表征模型抽取图像特征,例如:深度残差网络等,以及采用文本编码器表征模型抽取文本特征,例如:词向量嵌入模型等。针对过程二,目前主要采用余弦相似度计算方法,将图像特征向量和文本特征向量间的余弦距离作为相似度得分。目前传统方法主要面临的问题是提取有效图像特征困难,这是由于海洋遥感图像中目标的空间分布较为分散,且图像中的有效目标少,在全局信息的融合过程中会稀释掉有效目标的信息,影响后续的数据挖掘。因此,前沿海洋遥感图文检索倾向于多模态的检索,有学者提出了一种新颖的细粒度多模态特征匹配网络,该方法得到不同尺度下的图像特征并提取出关键特征,可以得到更丰富的语义信息,从而检索出更准确的文本信息。
但是,现有方法仍存在以下问题:第一,海洋遥感数据的图文检索大多采用图文特征空间的直接对齐,由于图文特征空间包含的语义信息驳杂(如颜色,几何,纹理等特征),直接对齐会引入高维特征的匹配偏差,因此还需要其他维度的信息(语义)进行补偿。现有图像包含的语义标签(语义信息)能够缓解多模态特征交互过程中的语义对齐问题。多标签信息常作为语义空间的一致性约束来进行消歧,但其高级语义信息和低级语义信息的利用率亟待提升。第二,在多模态匹配过程中大多采用单一视图的度量空间,由于单一视图的度量圈层较为片面,导致在度量过程中容易忽略异种视图的有效信息。
发明内容
针对现有技术存在的不足,本发明提供一种多标签引导和多视图度量的海洋遥感图像检索方法及系统,通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类,最后将图像和文本两种模态的特征表示解耦为多个视角,除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外,还将多分类语义特征与文本特征相匹配,以消除图像和文本之间的差异。
为解决上述技术问题,本发明采用的技术方案是:
多标签引导和多视图度量的海洋遥感图像检索方法,包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到多尺度图像特征X;
步骤2、提取标签特征:把预先标注得到的多分类标签进行词嵌入得到独热表示,得到多分类标签特征P;
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元,
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,用于后续类视觉引导和多视角测量:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类标签信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息,其中QKV的计算过程遵循以下公式:
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息作为Transformer中的Q,图像引导的类信息作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息;其中QKV的计算过程遵循公式同公式(1);
其中,contat表示特征拼接操作;
步骤5、将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异,具体是使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息和文本特征T之间的相似度;
步骤6、迭代步骤1-步骤5,反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
进一步的,步骤5在计算相似度时,损失函数包括双向三元组损失和交叉熵损失两部分,双向三元组损失公式如下:
其中表示间隔参数,,代表图像特征和文本特征的相似度,公式中第一个求和是考虑给定图像I的所有否定句子,第二个求和考虑给定句子T的所有否定图像,间隔参数的作用是拉大图像与正文本对和图像与负文本对之间的差距,n为样本数量;
交叉熵损失公式如下:
最后,将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数,公式如下:
本发明还提供一种多标签引导和多视图度量的海洋遥感图像检索系统,实现如前所述的多标签引导和多视图度量的海洋遥感图像检索方法,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块,
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征;
所述标签特征提取模块,用于获取标签特征;
所述文本特征提取模块,用于提取文本特征;
所述类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息;
所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异;
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
与现有技术相比,本发明优点在于:
(1)消除/缓解了尺度噪声的干扰。本发明通过类相关交叉引导模提前引入标签信息实现图像特征和分类特征之间的双重交叉引导以实现语义解耦,实现了有效类信息的传递与挖掘。通过类引导的语义解耦,从语义的维度出发,不但削弱了尺度维度上的噪声冗余,同时避免稀释掉海洋有效目标的信息。
(2)弥合了多模态信息的语义鸿沟,对语义空间的偏差进行消除。本发明通过多标签(语义信息)从语义的角度来弥合海洋遥感图像中目标的尺度差别大带来的损失,通过提前引入的有效类信息来缓解多模态特征交互过程中的语义偏差问题。同时,多视图测量模块消除了图像和文本之间的差异,测量图像和文本特征之间相似度的同时,还匹配分类和文本特征之间的相似度,以多视图度量来缓解跨模态差异问题。
(3)缓解特征相似性匹配过程中跨模态数据的差异。由于单一视图的度量尺度较为片面,导致度量过程中容易忽略尺度跨越的有效信息。例如,视觉类引导单元指导类信息和文本信息做对齐,类视觉引导单元类指导图像信息和文本信息做对齐,可以使样本空间的分布更趋平滑。语义解耦的知识通过级联映射到视觉样本空间内。类别属性作为两种模态信息的桥梁,在对齐多模态知识的同时,又为模型提供了外部知识,从而帮助模型快速提取有效特征,挖掘出遥感图像中的有效对象。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的系统架构图;
图3为本发明的类相关交叉引导模块结构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1-图3,本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索方法,是一种实例级图像检索,目标是给定一个查询图像,在一个非常大的图像数据库中检索包含与查询图像有着相同对象实例的所有图像。
具体包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络(例如ResNet)进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积(ASPP)进行采样,得到多尺度图像特征X。
步骤2、提取标签特征:首先通过预训练模型标注,把预先标注得到的多分类标签进行词嵌入得到独热(One-hot)表示。通过提取标注的特征标签,得到多分类标签特征P。
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元。
如图3所示,Transformer解码器用多头注意力机制增强了类相关交叉引导模块中的两个单元,将特征表示解耦为多个视角。通过语义解耦,实现了有效类信息的传递与挖掘,其中本例把步骤2标注得到的多分类标签的词嵌入作为弱分类监督信息,作为多分类标签信息。
下面分别介绍类相关交叉引导模块的两个单元。
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,为类视觉引导单元和多视角测量模块奠定基础:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息,其中QKV的计算过程遵循以下公式:
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息X作为Transformer中的Q,图像引导的类信息作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息;其中QKV的计算过程遵循公式同公式(1);
其中,contat表示特征拼接操作;
本发明设计了类相关交叉引导模块,首先视觉类引导单元,对图像进行多分类,产生多分类特征,为类视觉引导单元和多视角测量模块奠定基础。随后,类视觉引导单元探索与类别相关的图像特征。值得注意的是,两者都通过多头注意力机制进行了增强,将特征表示解耦为多个视角和部分。
步骤5、为了消除图像和文本之间的差异,本发明提出了多视角测量模块。将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异。考虑到视觉类引导单元生成的分类特征与文本具有相同的数据类型,因此,除了测量图像和文本特征之间的相似度外(单视角),本实施例还匹配分类和文本特征之间的相似度,合理利用了度量过程中容易忽略的模态跨越的有效信息。
步骤6、迭代步骤1-步骤5,通过预测图文相似度和真实图文相似度的差异反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
步骤5在计算相似度时,损失函数包括双向三元组损失和交叉熵损失两部分,双向三元组损失公式如下:
其中表示间隔参数,,代表图像特征和文本特征的相似度,公式中第一个求和是考虑给定图像I的所有否定句子,第二个求和考虑给定句子T的所有否定图像,间隔参数的作用是拉大图像与正文本对和图像与负文本对之间的差距,n为样本数量;
交叉熵损失公式如下:
最后,将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数,公式如下:
本发明先数据预处理,然后通过第一个Transformer解码器结构进行视觉引导类别操作,得到图像引导的类信息,然后通过第二个Transformer解码器结构进行类别引导视觉,得到类别引导的视觉信息,最后通过三元组损失函数,训练模型收敛,训练完成。
实施例2
本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索系统,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块。
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征。由深度残差网络和空洞空间卷积池化金字塔两算法共同组成。首先由深度残差网络进行图像的特征嵌入工作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到不同尺度下的图像特征,即多尺度图像特征。
所述标签特征提取模块,用于获取标签特征。首先通过预训练模型进行标注,把标注得到的多分类标签进行词嵌入得到One-hot表示,最终得到多分类标签特征P。
所述文本特征提取模块,利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,前述几个模块功能的实现可采用现有技术,此处不过多赘述。
本发明的创新点一在于设计了类相关交叉引导模块,利用双Transformer的解码器构建类相关交叉引导模块,来实现图像特征和分类特征之间的双重交叉引导,可以自适应地探索有效信息,同时实现类别相关的特征挖掘和图像分类。具体来说,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息。
该模块使用多分类特征(语义标签)来指导检索网络进行主导语义挖掘,语义标签既能参与后续遥感信息的尺度解耦,又能通过参与多视角测量的匹配缓解多模态特征交互过程中的语义对齐问题。语义标签具备的有效类信息和后续产生的视觉终特征也可通过多视角的测量来提高多模态表征的相似性。
本发明的创新点二在于设计了多视角测量模块,所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异。
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
该系统用于实现如实施例1的多标签引导和多视图度量的海洋遥感图像检索方法,各模块功能与方法的实现可参见实施例1,此处不再赘述。
综上所述,本发明增设了类相关交叉引导模块,该模块提前引入了多类特征(语义标签),又利用标签的有效类信息通过Transformer的双向解码器结构在图像特征提取和图像多分类分支上同时实现类别相关的特征挖掘和语义解耦。本发明还提出了多视图测量模块,利用类别语义标签来监督网络以强调与类别相关的特征。提出的经典三重损失倾向于匹配同一类别中的跨模态数据,用模块来计算图像-文本特征和标签多分类-文本特征的相似度。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。
Claims (3)
1.多标签引导和多视图度量的海洋遥感图像检索方法,其特征在于,包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到多尺度图像特征X;
步骤2、提取标签特征:把预先标注得到的多分类标签进行词嵌入得到独热表示,得到多分类标签特征P,
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元,
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,用于后续类视觉引导和多视角测量:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类标签信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息,其中QKV的计算过程遵循以下公式:
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息作为Transformer中的Q,图像引导的类信息作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息;其中QKV的计算过程遵循公式同公式(1);
其中,contat表示特征拼接操作;
步骤5、将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将图文特征相匹配的同时,亦将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异,具体是使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息和文本特征T之间的相似度;
步骤6、迭代步骤1-步骤5,反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
3.多标签引导和多视图度量的海洋遥感图像检索系统,其特征在于,用于实现如权利要求1或2所述的多标签引导和多视图度量的海洋遥感图像检索方法,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块,
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征;
所述标签特征提取模块,用于获取标签特征;
所述文本特征提取模块,用于提取文本特征;
所述类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息;
所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异;
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223857.0A CN115309927B (zh) | 2022-10-09 | 2022-10-09 | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211223857.0A CN115309927B (zh) | 2022-10-09 | 2022-10-09 | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115309927A CN115309927A (zh) | 2022-11-08 |
CN115309927B true CN115309927B (zh) | 2023-02-03 |
Family
ID=83865927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211223857.0A Active CN115309927B (zh) | 2022-10-09 | 2022-10-09 | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115309927B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116049476A (zh) * | 2023-03-06 | 2023-05-02 | 福建福清核电有限公司 | 一种基于多层次似然扩展的遥感图像语义定位方法 |
CN116127123B (zh) * | 2023-04-17 | 2023-07-07 | 中国海洋大学 | 基于语义实例关系渐进式海洋遥感图文检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018125685A1 (en) * | 2016-12-30 | 2018-07-05 | Hrl Laboratories, Llc | Zero-shot learning using multi-scale manifold alignment |
EP3570288A1 (en) * | 2018-05-16 | 2019-11-20 | Siemens Healthcare GmbH | Method for obtaining at least one feature of interest |
CN110675329A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 基于视觉语义引导的图像去模糊方法 |
CN112948601A (zh) * | 2021-02-02 | 2021-06-11 | 广东工业大学 | 一种基于受控语义嵌入的跨模态哈希检索方法 |
CN114511452A (zh) * | 2021-12-06 | 2022-05-17 | 中南大学 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108694200B (zh) * | 2017-04-10 | 2019-12-20 | 北京大学深圳研究生院 | 一种基于深度语义空间的跨媒体检索方法 |
-
2022
- 2022-10-09 CN CN202211223857.0A patent/CN115309927B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018125685A1 (en) * | 2016-12-30 | 2018-07-05 | Hrl Laboratories, Llc | Zero-shot learning using multi-scale manifold alignment |
EP3570288A1 (en) * | 2018-05-16 | 2019-11-20 | Siemens Healthcare GmbH | Method for obtaining at least one feature of interest |
CN110675329A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 基于视觉语义引导的图像去模糊方法 |
CN112948601A (zh) * | 2021-02-02 | 2021-06-11 | 广东工业大学 | 一种基于受控语义嵌入的跨模态哈希检索方法 |
CN114511452A (zh) * | 2021-12-06 | 2022-05-17 | 中南大学 | 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法 |
Non-Patent Citations (2)
Title |
---|
Neural Network Training for the Detection and Classification of Oceanic Mesoscale Eddies;Oliverio J. Santana等;《Remote Sensing》;20201231;全文 * |
面向海洋的多模态智能计算:挑战、进展和展望;聂婕等;《中国图象图形学报》;20220927;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115309927A (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476294B (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN115309927B (zh) | 多标签引导和多视图度量的海洋遥感图像检索方法及系统 | |
CN113065577A (zh) | 一种面向目标的多模态情感分类方法 | |
CN114511906A (zh) | 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN114092707A (zh) | 一种图像文本视觉问答方法、系统及存储介质 | |
CN113191357B (zh) | 基于图注意力网络的多层次图像-文本匹配方法 | |
CN114936623B (zh) | 一种融合多模态数据的方面级情感分析方法 | |
Mi et al. | Object affordance based multimodal fusion for natural human-robot interaction | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
Wang et al. | Advanced Multimodal Deep Learning Architecture for Image-Text Matching | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN115544279B (zh) | 一种基于协同注意力的多模态情感分类方法及其应用 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 | |
CN109753649A (zh) | 基于细粒度匹配信号的文本相关性度量方法和系统 | |
CN113076421A (zh) | 一种社交噪音文本实体关系抽取优化方法及系统 | |
Parvin et al. | Transformer-based local-global guidance for image captioning | |
CN116311323A (zh) | 基于对比学习的预训练文档模型对齐优化方法 | |
CN117765450B (zh) | 一种视频语言理解方法、装置、设备及可读存储介质 | |
CN114722798A (zh) | 一种基于卷积神经网络和注意力机制的反讽识别模型 | |
CN117609536A (zh) | 基于语言引导的指称表达理解推理网络系统及推理方法 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN115146618B (zh) | 一种基于对比表示学习的复杂因果关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |