CN115309927B - 多标签引导和多视图度量的海洋遥感图像检索方法及系统 - Google Patents

多标签引导和多视图度量的海洋遥感图像检索方法及系统 Download PDF

Info

Publication number
CN115309927B
CN115309927B CN202211223857.0A CN202211223857A CN115309927B CN 115309927 B CN115309927 B CN 115309927B CN 202211223857 A CN202211223857 A CN 202211223857A CN 115309927 B CN115309927 B CN 115309927B
Authority
CN
China
Prior art keywords
image
features
text
class
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211223857.0A
Other languages
English (en)
Other versions
CN115309927A (zh
Inventor
聂婕
郑程予
赵恩源
左子杰
刘安安
宋丹
李文辉
孙正雅
张文生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202211223857.0A priority Critical patent/CN115309927B/zh
Publication of CN115309927A publication Critical patent/CN115309927A/zh
Application granted granted Critical
Publication of CN115309927B publication Critical patent/CN115309927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于遥感图像处理技术领域,公开了多标签引导和多视图度量的海洋遥感图像检索方法及系统,首先提取海洋遥感图像的多尺度图像特征、标签特征和文本特征,然后通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类,最后将图像和文本两种模态的特征表示解耦为多个视角,除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外,还将多分类语义特征与文本特征相匹配,以消除图像和文本之间的差异。

Description

多标签引导和多视图度量的海洋遥感图像检索方法及系统
技术领域
本发明属于遥感图像处理技术领域,特别涉及多标签引导和多视图度量的海洋遥感图像检索方法及系统。
背景技术
遥感图像文本检索利用跨模态检索算法,分析大量卫星遥感图像并自动检索出大量准确描述该图像的文本数据,以达到解决文本数据缺失和文本数据描述不准确的目的。遥感图像文本检索包括两个关键过程,其一,分别对文本数据和图像数据开展特征工程,提取相应的文本特征和图像特征;其二,进行文本特征和图像特征对齐工作,之后进行两特征间的相似度计算,将相似度最高的文本特征作为该图像的最佳检索文本。针对过程一,目前主要采用深度神经网络表征模型抽取图像特征,例如:深度残差网络等,以及采用文本编码器表征模型抽取文本特征,例如:词向量嵌入模型等。针对过程二,目前主要采用余弦相似度计算方法,将图像特征向量和文本特征向量间的余弦距离作为相似度得分。目前传统方法主要面临的问题是提取有效图像特征困难,这是由于海洋遥感图像中目标的空间分布较为分散,且图像中的有效目标少,在全局信息的融合过程中会稀释掉有效目标的信息,影响后续的数据挖掘。因此,前沿海洋遥感图文检索倾向于多模态的检索,有学者提出了一种新颖的细粒度多模态特征匹配网络,该方法得到不同尺度下的图像特征并提取出关键特征,可以得到更丰富的语义信息,从而检索出更准确的文本信息。
但是,现有方法仍存在以下问题:第一,海洋遥感数据的图文检索大多采用图文特征空间的直接对齐,由于图文特征空间包含的语义信息驳杂(如颜色,几何,纹理等特征),直接对齐会引入高维特征的匹配偏差,因此还需要其他维度的信息(语义)进行补偿。现有图像包含的语义标签(语义信息)能够缓解多模态特征交互过程中的语义对齐问题。多标签信息常作为语义空间的一致性约束来进行消歧,但其高级语义信息和低级语义信息的利用率亟待提升。第二,在多模态匹配过程中大多采用单一视图的度量空间,由于单一视图的度量圈层较为片面,导致在度量过程中容易忽略异种视图的有效信息。
发明内容
针对现有技术存在的不足,本发明提供一种多标签引导和多视图度量的海洋遥感图像检索方法及系统,通过使用类相关交叉引导算法进行多尺度图像特征和标签特征之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类,最后将图像和文本两种模态的特征表示解耦为多个视角,除了通过多视角测量模块设置传统的文本特征与图像特征的相似度匹配外,还将多分类语义特征与文本特征相匹配,以消除图像和文本之间的差异。
为解决上述技术问题,本发明采用的技术方案是:
多标签引导和多视图度量的海洋遥感图像检索方法,包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到多尺度图像特征X;
步骤2、提取标签特征:把预先标注得到的多分类标签进行词嵌入得到独热表示,得到多分类标签特征P;
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元,
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,用于后续类视觉引导和多视角测量:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类标签信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息
Figure 326992DEST_PATH_IMAGE001
,其中QKV的计算过程遵循以下公式:
Figure 665306DEST_PATH_IMAGE002
(1)
其中Q、K和V分别表示查询、键和值的矩阵,
Figure 976201DEST_PATH_IMAGE003
为比例因子;
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息作为Transformer中的Q,图像引导的类信息
Figure 777935DEST_PATH_IMAGE004
作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息
Figure 123466DEST_PATH_IMAGE005
;其中QKV的计算过程遵循公式同公式(1);
最后将类别引导的视觉信息
Figure 618032DEST_PATH_IMAGE005
和多尺度视觉信息X 通过contat方式拼接串联到一起得到视觉终特征F,公式如下:
Figure 291590DEST_PATH_IMAGE006
其中,contat表示特征拼接操作;
步骤5、将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异,具体是使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息
Figure 21649DEST_PATH_IMAGE004
和文本特征T之间的相似度;
步骤6、迭代步骤1-步骤5,反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
进一步的,步骤5在计算相似度时,损失函数包括双向三元组损失和交叉熵损失两部分,双向三元组损失公式如下:
Figure 97052DEST_PATH_IMAGE007
其中
Figure 700203DEST_PATH_IMAGE008
表示间隔参数,
Figure 123707DEST_PATH_IMAGE009
Figure 267243DEST_PATH_IMAGE010
代表图像特征和文本特征的相似度,公式中第一个求和是考虑给定图像I的所有否定句子
Figure 587366DEST_PATH_IMAGE011
,第二个求和考虑给定句子T的所有否定图像
Figure 423735DEST_PATH_IMAGE012
,间隔参数
Figure 337464DEST_PATH_IMAGE013
的作用是拉大图像与正文本对和图像与负文本对之间的差距,n为样本数量;
交叉熵损失公式如下:
Figure 143746DEST_PATH_IMAGE014
其中Y是海洋遥感图像的多分类预测结果,
Figure 193742DEST_PATH_IMAGE015
是对应的多标签,N是指训练样本的数量;
最后,将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数,公式如下:
Figure 60067DEST_PATH_IMAGE016
其中
Figure 195513DEST_PATH_IMAGE017
为超参数。
本发明还提供一种多标签引导和多视图度量的海洋遥感图像检索系统,实现如前所述的多标签引导和多视图度量的海洋遥感图像检索方法,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块,
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征;
所述标签特征提取模块,用于获取标签特征;
所述文本特征提取模块,用于提取文本特征;
所述类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息;
所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异;
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
与现有技术相比,本发明优点在于:
(1)消除/缓解了尺度噪声的干扰。本发明通过类相关交叉引导模提前引入标签信息实现图像特征和分类特征之间的双重交叉引导以实现语义解耦,实现了有效类信息的传递与挖掘。通过类引导的语义解耦,从语义的维度出发,不但削弱了尺度维度上的噪声冗余,同时避免稀释掉海洋有效目标的信息。
(2)弥合了多模态信息的语义鸿沟,对语义空间的偏差进行消除。本发明通过多标签(语义信息)从语义的角度来弥合海洋遥感图像中目标的尺度差别大带来的损失,通过提前引入的有效类信息来缓解多模态特征交互过程中的语义偏差问题。同时,多视图测量模块消除了图像和文本之间的差异,测量图像和文本特征之间相似度的同时,还匹配分类和文本特征之间的相似度,以多视图度量来缓解跨模态差异问题。
(3)缓解特征相似性匹配过程中跨模态数据的差异。由于单一视图的度量尺度较为片面,导致度量过程中容易忽略尺度跨越的有效信息。例如,视觉类引导单元指导类信息和文本信息做对齐,类视觉引导单元类指导图像信息和文本信息做对齐,可以使样本空间的分布更趋平滑。语义解耦的知识通过级联映射到视觉样本空间内。类别属性作为两种模态信息的桥梁,在对齐多模态知识的同时,又为模型提供了外部知识,从而帮助模型快速提取有效特征,挖掘出遥感图像中的有效对象。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法流程图;
图2为本发明的系统架构图;
图3为本发明的类相关交叉引导模块结构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的说明。
实施例1
结合图1-图3,本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索方法,是一种实例级图像检索,目标是给定一个查询图像,在一个非常大的图像数据库中检索包含与查询图像有着相同对象实例的所有图像。
具体包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络(例如ResNet)进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积(ASPP)进行采样,得到多尺度图像特征X。
步骤2、提取标签特征:首先通过预训练模型标注,把预先标注得到的多分类标签进行词嵌入得到独热(One-hot)表示。通过提取标注的特征标签,得到多分类标签特征P。
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元。
如图3所示,Transformer解码器用多头注意力机制增强了类相关交叉引导模块中的两个单元,将特征表示解耦为多个视角。通过语义解耦,实现了有效类信息的传递与挖掘,其中本例把步骤2标注得到的多分类标签的词嵌入作为弱分类监督信息,作为多分类标签信息。
下面分别介绍类相关交叉引导模块的两个单元。
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,为类视觉引导单元和多视角测量模块奠定基础:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息
Figure 805486DEST_PATH_IMAGE001
,其中QKV的计算过程遵循以下公式:
Figure 709988DEST_PATH_IMAGE002
(1)
其中Q、K和V分别表示查询、键和值的矩阵,
Figure 278373DEST_PATH_IMAGE003
为比例因子;
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息X作为Transformer中的Q,图像引导的类信息
Figure 901115DEST_PATH_IMAGE004
作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息
Figure 193075DEST_PATH_IMAGE005
;其中QKV的计算过程遵循公式同公式(1);
最后将类别引导的视觉信息
Figure 76717DEST_PATH_IMAGE005
和多尺度视觉信息X 通过contat方式拼接串联到一起得到视觉终特征F,公式如下:
Figure 425790DEST_PATH_IMAGE006
其中,contat表示特征拼接操作;
本发明设计了类相关交叉引导模块,首先视觉类引导单元,对图像进行多分类,产生多分类特征,为类视觉引导单元和多视角测量模块奠定基础。随后,类视觉引导单元探索与类别相关的图像特征。值得注意的是,两者都通过多头注意力机制进行了增强,将特征表示解耦为多个视角和部分。
步骤5、为了消除图像和文本之间的差异,本发明提出了多视角测量模块。将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异。考虑到视觉类引导单元生成的分类特征与文本具有相同的数据类型,因此,除了测量图像和文本特征之间的相似度外(单视角),本实施例还匹配分类和文本特征之间的相似度,合理利用了度量过程中容易忽略的模态跨越的有效信息。
具体是,使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息
Figure 394883DEST_PATH_IMAGE004
和文本特征T之间的相似度。
步骤6、迭代步骤1-步骤5,通过预测图文相似度和真实图文相似度的差异反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
步骤5在计算相似度时,损失函数包括双向三元组损失和交叉熵损失两部分,双向三元组损失公式如下:
Figure 81079DEST_PATH_IMAGE019
其中
Figure 960174DEST_PATH_IMAGE008
表示间隔参数,
Figure 745727DEST_PATH_IMAGE009
Figure 202116DEST_PATH_IMAGE010
代表图像特征和文本特征的相似度,公式中第一个求和是考虑给定图像I的所有否定句子
Figure 832949DEST_PATH_IMAGE011
,第二个求和考虑给定句子T的所有否定图像
Figure 425604DEST_PATH_IMAGE012
,间隔参数
Figure 116480DEST_PATH_IMAGE013
的作用是拉大图像与正文本对和图像与负文本对之间的差距,n为样本数量;
交叉熵损失公式如下:
Figure 60165DEST_PATH_IMAGE021
其中Y是海洋遥感图像的多分类预测结果,
Figure 494688DEST_PATH_IMAGE015
是对应的多标签,N是指训练样本的数量;
最后,将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数,公式如下:
Figure 941850DEST_PATH_IMAGE016
其中
Figure 803627DEST_PATH_IMAGE017
为超参数。
本发明先数据预处理,然后通过第一个Transformer解码器结构进行视觉引导类别操作,得到图像引导的类信息
Figure 234608DEST_PATH_IMAGE022
,然后通过第二个Transformer解码器结构进行类别引导视觉,得到类别引导的视觉信息
Figure DEST_PATH_IMAGE023
,最后通过三元组损失函数,训练模型收敛,训练完成。
实施例2
本实施例提供一种多标签引导和多视图度量的海洋遥感图像检索系统,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块。
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征。由深度残差网络和空洞空间卷积池化金字塔两算法共同组成。首先由深度残差网络进行图像的特征嵌入工作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到不同尺度下的图像特征,即多尺度图像特征。
所述标签特征提取模块,用于获取标签特征。首先通过预训练模型进行标注,把标注得到的多分类标签进行词嵌入得到One-hot表示,最终得到多分类标签特征P。
所述文本特征提取模块,利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,前述几个模块功能的实现可采用现有技术,此处不过多赘述。
本发明的创新点一在于设计了类相关交叉引导模块,利用双Transformer的解码器构建类相关交叉引导模块,来实现图像特征和分类特征之间的双重交叉引导,可以自适应地探索有效信息,同时实现类别相关的特征挖掘和图像分类。具体来说,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息。
该模块使用多分类特征(语义标签)来指导检索网络进行主导语义挖掘,语义标签既能参与后续遥感信息的尺度解耦,又能通过参与多视角测量的匹配缓解多模态特征交互过程中的语义对齐问题。语义标签具备的有效类信息和后续产生的视觉终特征也可通过多视角的测量来提高多模态表征的相似性。
本发明的创新点二在于设计了多视角测量模块,所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异。
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
该系统用于实现如实施例1的多标签引导和多视图度量的海洋遥感图像检索方法,各模块功能与方法的实现可参见实施例1,此处不再赘述。
综上所述,本发明增设了类相关交叉引导模块,该模块提前引入了多类特征(语义标签),又利用标签的有效类信息通过Transformer的双向解码器结构在图像特征提取和图像多分类分支上同时实现类别相关的特征挖掘和语义解耦。本发明还提出了多视图测量模块,利用类别语义标签来监督网络以强调与类别相关的特征。提出的经典三重损失倾向于匹配同一类别中的跨模态数据,用模块来计算图像-文本特征和标签多分类-文本特征的相似度。
当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

Claims (3)

1.多标签引导和多视图度量的海洋遥感图像检索方法,其特征在于,包括以下步骤:
步骤1、提取多尺度图像特征:对于一个待查询海洋遥感图像,首先由深度残差网络进行图像的特征嵌入操作,将得到的图像基础特征以不同采样率的空洞卷积进行采样,得到多尺度图像特征X;
步骤2、提取标签特征:把预先标注得到的多分类标签进行词嵌入得到独热表示,得到多分类标签特征P,
步骤3、提取文本特征:利用词向量嵌入模型和Skip-thought文本处理模型进行文本特征提取,得到文本特征T;
步骤4、使用类相关交叉引导算法进行步骤1提取的多尺度图像特征X和步骤2得到的多分类标签特征P之间的双重交叉引导以实现语义解耦,同时实现类别相关的特征挖掘和图像分类;具体是:利用双Transformer的解码器构建类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元两个单元,
首先进行视觉类引导,对图像进行多分类并产生多分类语义特征,用于后续类视觉引导和多视角测量:将步骤1得到的多尺度图像特征X作为多尺度视觉信息,将步骤2得到多分类标签特征P作为多分类标签信息,把多尺度视觉信息与多分类标签信息进行结合,在视觉类引导单元中,多尺度视觉信息作为Transformer中的K&V,多分类标签信息作为Transformer中的Q,以弱训练方式实现图像特征指导网络的训练过程,并得到图像引导的类信息
Figure 689511DEST_PATH_IMAGE001
,其中QKV的计算过程遵循以下公式:
Figure 278755DEST_PATH_IMAGE002
(1)
其中Q、K和V分别表示查询、键和值的矩阵,
Figure 589650DEST_PATH_IMAGE003
为比例因子;
然后进行类视觉引导,实现分类特征指导图像特征,获取与类别相关的图像特征和图像分类:在类视觉引导单元中,多尺度视觉信息作为Transformer中的Q,图像引导的类信息
Figure 391384DEST_PATH_IMAGE004
作为Transformer中的K&V,实现分类特征指导图像特征的自适应训练过程,得到类别引导的视觉信息
Figure 736915DEST_PATH_IMAGE005
;其中QKV的计算过程遵循公式同公式(1);
最后将类别引导的视觉信息
Figure 962973DEST_PATH_IMAGE005
和多尺度视觉信息X 通过contat方式拼接串联到一起得到视觉终特征F,公式如下:
Figure 761164DEST_PATH_IMAGE006
其中,contat表示特征拼接操作;
步骤5、将步骤3的文本特征和步骤4的图像特征两种模态特征表示解耦为多个视角,将图文特征相匹配的同时,亦将多分类语义特征与文本特征T相匹配,消除图像和文本之间的差异,具体是使用余弦相似度算法计算视觉终特征F和文本特征T相似度、计算图像引导的类信息
Figure 632168DEST_PATH_IMAGE004
和文本特征T之间的相似度;
步骤6、迭代步骤1-步骤5,反向传播至模型收敛,直至检索到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
2.根据权利要求1所述的多标签引导和多视图度量的海洋遥感图像检索方法,其特征在于,步骤5在计算相似度时,损失函数包括双向三元组损失和交叉熵损失两部分,双向三元组损失公式如下:
Figure 832205DEST_PATH_IMAGE008
其中
Figure 232094DEST_PATH_IMAGE009
表示间隔参数,
Figure 517582DEST_PATH_IMAGE010
Figure 661118DEST_PATH_IMAGE011
代表图像特征和文本特征的相似度,公式中第一个求和是考虑给定图像I的所有否定句子
Figure 715662DEST_PATH_IMAGE012
,第二个求和考虑给定句子T的所有否定图像
Figure 552031DEST_PATH_IMAGE013
,间隔参数
Figure 465760DEST_PATH_IMAGE014
的作用是拉大图像与正文本对和图像与负文本对之间的差距,n为样本数量;
交叉熵损失公式如下:
Figure 272042DEST_PATH_IMAGE015
其中Y是海洋遥感图像的多分类预测结果,
Figure 587617DEST_PATH_IMAGE016
是对应的多标签,N是指训练样本的数量;
最后,将三元组损失函数和交叉熵损失函数加权融合得到联合损失函数,公式如下:
Figure 453942DEST_PATH_IMAGE017
其中
Figure 589388DEST_PATH_IMAGE018
为超参数。
3.多标签引导和多视图度量的海洋遥感图像检索系统,其特征在于,用于实现如权利要求1或2所述的多标签引导和多视图度量的海洋遥感图像检索方法,包括:输入模块、多尺度图像特征提取模块、标签特征提取模块、文本特征提取模块、类相关交叉引导模块、多视角测量模块和输出模块,
所述输入模块,用于输入待查询的海洋遥感图像;
所述多尺度图像特征提取模块,用于提取多尺度图像特征;
所述标签特征提取模块,用于获取标签特征;
所述文本特征提取模块,用于提取文本特征;
所述类相关交叉引导模块,包括视觉类引导单元和类视觉引导单元,视觉类引导单元实现图像特征指导分类网络进行图像分类,类视觉引导单元实现分类特征指导图像特征自适应地探索有效信息;
所述多视角测量模块,用于将图像和文本两种模态特征表示解耦为多个视角,将多分类语义特征与文本特征相匹配,消除图像和文本之间的差异;
所述输出模块,用于输出检索结果,得到所有与待查询的海洋遥感图像有着相同对象实例的所有图像。
CN202211223857.0A 2022-10-09 2022-10-09 多标签引导和多视图度量的海洋遥感图像检索方法及系统 Active CN115309927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211223857.0A CN115309927B (zh) 2022-10-09 2022-10-09 多标签引导和多视图度量的海洋遥感图像检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211223857.0A CN115309927B (zh) 2022-10-09 2022-10-09 多标签引导和多视图度量的海洋遥感图像检索方法及系统

Publications (2)

Publication Number Publication Date
CN115309927A CN115309927A (zh) 2022-11-08
CN115309927B true CN115309927B (zh) 2023-02-03

Family

ID=83865927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211223857.0A Active CN115309927B (zh) 2022-10-09 2022-10-09 多标签引导和多视图度量的海洋遥感图像检索方法及系统

Country Status (1)

Country Link
CN (1) CN115309927B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116049476A (zh) * 2023-03-06 2023-05-02 福建福清核电有限公司 一种基于多层次似然扩展的遥感图像语义定位方法
CN116127123B (zh) * 2023-04-17 2023-07-07 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125685A1 (en) * 2016-12-30 2018-07-05 Hrl Laboratories, Llc Zero-shot learning using multi-scale manifold alignment
EP3570288A1 (en) * 2018-05-16 2019-11-20 Siemens Healthcare GmbH Method for obtaining at least one feature of interest
CN110675329A (zh) * 2019-08-06 2020-01-10 厦门大学 基于视觉语义引导的图像去模糊方法
CN112948601A (zh) * 2021-02-02 2021-06-11 广东工业大学 一种基于受控语义嵌入的跨模态哈希检索方法
CN114511452A (zh) * 2021-12-06 2022-05-17 中南大学 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694200B (zh) * 2017-04-10 2019-12-20 北京大学深圳研究生院 一种基于深度语义空间的跨媒体检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125685A1 (en) * 2016-12-30 2018-07-05 Hrl Laboratories, Llc Zero-shot learning using multi-scale manifold alignment
EP3570288A1 (en) * 2018-05-16 2019-11-20 Siemens Healthcare GmbH Method for obtaining at least one feature of interest
CN110675329A (zh) * 2019-08-06 2020-01-10 厦门大学 基于视觉语义引导的图像去模糊方法
CN112948601A (zh) * 2021-02-02 2021-06-11 广东工业大学 一种基于受控语义嵌入的跨模态哈希检索方法
CN114511452A (zh) * 2021-12-06 2022-05-17 中南大学 融合多尺度空洞卷积和三元组注意力的遥感图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Neural Network Training for the Detection and Classification of Oceanic Mesoscale Eddies;Oliverio J. Santana等;《Remote Sensing》;20201231;全文 *
面向海洋的多模态智能计算:挑战、进展和展望;聂婕等;《中国图象图形学报》;20220927;全文 *

Also Published As

Publication number Publication date
CN115309927A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN111476294B (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN115309927B (zh) 多标签引导和多视图度量的海洋遥感图像检索方法及系统
CN113065577A (zh) 一种面向目标的多模态情感分类方法
CN114511906A (zh) 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN114092707A (zh) 一种图像文本视觉问答方法、系统及存储介质
CN113191357B (zh) 基于图注意力网络的多层次图像-文本匹配方法
CN114936623B (zh) 一种融合多模态数据的方面级情感分析方法
Mi et al. Object affordance based multimodal fusion for natural human-robot interaction
CN110516530A (zh) 一种基于非对齐多视图特征增强的图像描述方法
Wang et al. Advanced Multimodal Deep Learning Architecture for Image-Text Matching
CN117574904A (zh) 基于对比学习和多模态语义交互的命名实体识别方法
CN115544279B (zh) 一种基于协同注意力的多模态情感分类方法及其应用
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN109753649A (zh) 基于细粒度匹配信号的文本相关性度量方法和系统
CN113076421A (zh) 一种社交噪音文本实体关系抽取优化方法及系统
Parvin et al. Transformer-based local-global guidance for image captioning
CN116311323A (zh) 基于对比学习的预训练文档模型对齐优化方法
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
CN114722798A (zh) 一种基于卷积神经网络和注意力机制的反讽识别模型
CN117609536A (zh) 基于语言引导的指称表达理解推理网络系统及推理方法
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN115146618B (zh) 一种基于对比表示学习的复杂因果关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant