CN117407558B - 一种海洋遥感图文检索方法、装置、电子设备及存储介质 - Google Patents

一种海洋遥感图文检索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117407558B
CN117407558B CN202311716298.1A CN202311716298A CN117407558B CN 117407558 B CN117407558 B CN 117407558B CN 202311716298 A CN202311716298 A CN 202311716298A CN 117407558 B CN117407558 B CN 117407558B
Authority
CN
China
Prior art keywords
text
remote sensing
image
sensing image
marine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311716298.1A
Other languages
English (en)
Other versions
CN117407558A (zh
Inventor
陈亚雄
黄吉瑞
龚腾飞
熊盛武
袁景凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanya Science and Education Innovation Park of Wuhan University of Technology
Original Assignee
Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanya Science and Education Innovation Park of Wuhan University of Technology filed Critical Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority to CN202311716298.1A priority Critical patent/CN117407558B/zh
Publication of CN117407558A publication Critical patent/CN117407558A/zh
Application granted granted Critical
Publication of CN117407558B publication Critical patent/CN117407558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种海洋遥感图文检索方法、装置、电子设备及存储介质,包括如下步骤:首先,获取海洋遥感图像和海洋遥感相关文本数据,将数据划分为训练集以及验证集,其次,建立海洋遥感图文检索模型,其中,海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块;采用训练集对海洋遥感图文检索模型进行训练,采用验证集对训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型,最后,获取待检索数据,将待检索数据输入至训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据,提高了跨模态检索精度。

Description

一种海洋遥感图文检索方法、装置、电子设备及存储介质
技术领域
本发明涉及智慧海洋技术领域,具体涉及一种海洋遥感图文检索方法、装置、电子设备及存储介质。
背景技术
智慧海洋技术是基于遥感数据的智能化海洋资源管理和监测的一种应用;随着海量遥感数据的日益发展,智慧海洋技术成为研究人员迫切关注的问题,智慧海洋技术的目标是从大量的遥感数据中挖掘有效的海洋知识,以支持海洋资源管理、海洋环境监测和海洋决策制定等工作,而跨模态遥感图文检索是智慧海洋技术中的重要研究内容之一。
对于广泛分布着多个目标的海洋遥感图像,现有的跨模态海洋遥感图像-文本检索方法往往难以聚焦于远距离目标信息,因为采用的卷积运算可能导致关注视野有限;现有方法并未充分利用得到的局部特征。尽管进行了局部和全局的融合,但仍有局部信息丢失的问题;现有方法主要关注学习有效的海洋文本和海洋遥感图像表示,以实现全局语义对齐,但忽略了细粒度的语义对齐,在智慧海洋中,缺乏细粒度的模态间显式交互对齐,可能导致海洋遥感图像和文本之间的对齐不足,从而影响跨模态海洋遥感图文检索的精度。
发明内容
本发明的目的在于克服上述技术不足,提供一种海洋遥感图文检索方法、装置、电子设备及存储介质,解决现有技术中跨模态海洋遥感图文检索精度不高的技术问题。
为达到上述技术目的,本发明采取了以下技术方案:
第一方面、本发明提供一种海洋遥感图文检索方法,包括如下步骤:
获取海洋遥感图像和海洋遥感相关文本数据,将所述数据划分为训练集以及验证集;
建立海洋遥感图文检索模型,其中,所述海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块,所述海洋遥感图像特征提取模块用于提取海洋遥感图像的细粒度特征和整体特征,所述文本特征提取模块用于提取海洋遥感文本的细粒度特征和整体特征,基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,所述全局对齐模块用于对所述海洋遥感图像以及文本的整体特征进行对齐,以获得全局相似度得分,所述总相似度计算模块用于确定海洋遥感图像和文本的总相似度,所述全局相似度得分的计算式为:
其中,为全局相似度得分,/>为图像整体特征,/>为文本整体特征,表示向量的模;
所述海洋遥感图像和文本的总相似度计算式为:
其中,为海洋遥感图像和文本的总相似度,/>为决定全局相似度得分的影响程度的权重因子,/>为决定局部相似度得分的影响程度的权重因子,/>为全局相似度得分,/>为图像引导文本学习的最终相似度得分,/>为文本引导图像学习的最终相似度得分;
采用所述训练集对所述海洋遥感图文检索模型进行训练,采用所述验证集对所述训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
获取待检索数据,将所述待检索数据输入至所述训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
在其中一些实施例中,所述海洋遥感图像特征提取模块包括第一提取模块、第二提取模块、第三提取模块、第四提取模块,其中,每个所述提取模块至少包括输入层以及输出层,其中,输入层至少包括patch嵌入层,输出层至少包括Transformer编码层;所述海洋遥感图像特征提取模块提取海洋遥感图像的细粒度特征和整体特征,包括:
将海洋遥感图像数据输入第一提取模块中的patch嵌入层,经过线性投影层和归一化操作后,获得特征向量;
将所述特征向量线性映射后,获得查询向量;
通过具有层归一化操作和线性投影的卷积层对所述特征向量进行操作,以获得一个键向量和值向量;
采用多头注意机制对所述查询向量、键向量以及值向量进行编码,以获得多头注意机制的值;
对所述特征向量以及多头注意机制的值进行加法操作,以完成Transformer编码器层的输出;
经过所述第二提取模块、第三提取模块以及第四提取模块处理后,获得海洋遥感图像细粒度特征;
将所述海洋遥感图像细粒度特征馈送至线性投影中,以获得海洋遥感图像的整体特征。
在其中一些实施例中,所述文本特征提取模块至少包括Bert模型,所述文本特征提取模块提取海洋遥感文本的细粒度特征和整体特征,包括:
对所述海洋遥感文本进行分词操作,并分别在分词结果的开始和结束处插入CLS和SEP标记后,构建输入向量,以作为Bert模型的输入;
获取预训练好的Bert模型的中间输出结果,将所述中间输出结果输入至线性投影层,以获得海洋遥感文本细粒度特征;
将预训练好的Bert模型在CLS处输出的向量输入至线性投影层,以获得海洋遥感文本整体特征。
在其中一些实施例中,所述对齐后的细粒度相似度得分至少包括文本引导图像学习的最终相似度得分以及图像引导文本学习的最终相似度得分;基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,包括:
基于所述海洋遥感图像以及文本的细粒度特征,通过余弦相似度函数确定局部之间的相似度后,获得相似度矩阵;
对所述相似度矩阵进行归一化处理,以确定文本引导图像学习的归一化相似性;
基于所述文本引导图像学习的归一化相似性,确定句子向量;
基于所述句子向量,通过所述余弦相似度函数确定句子向量与每个图像区域特征之间的相似度后,获得文本引导图像学习的最终相似度得分;
对所述相似度矩阵进行归一化处理,以确定图像引导文本学习的归一化相似性;
基于所述图像引导文本学习的归一化相似性,确定图像向量;
基于所述图像向量,通过所述余弦相似度函数确定图像向量与单词特征之间的相似度后,获得图像引导文本学习的最终相似度得分。
在其中一些实施例中,所述文本引导图像学习的最终相似度得分的计算式:
其中,为文本引导图像学习的最终相似度得分,/>为句子向量,/>为每个图像区域特征,/>为句子向量与每个图像区域特征之间的相似度,/>为图片包含的区域数,/>为边界参数;
所述图像引导文本学习的最终相似度得分的计算式为:
其中,为图像引导文本学习的最终相似度得分,/>为图像向量,/>为单词特征,/>为图像向量与单词特征之间的相似度,/>为句子包含的单词数。
第二方面、本发明还提供一种海洋遥感图文检索装置,包括:
数据获取模块,用于获取海洋遥感图像和海洋遥感相关文本数据,将所述数据划分为训练集以及验证集;
图文检索模型建立模块,用于建立海洋遥感图文检索模型,其中,所述海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块,所述海洋遥感图像特征提取模块用于提取海洋遥感图像的细粒度特征和整体特征,所述文本特征提取模块用于提取海洋遥感文本的细粒度特征和整体特征,基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,所述全局对齐模块用于对所述海洋遥感图像以及文本的整体特征进行对齐,以获得全局相似度得分,所述总相似度计算模块用于确定海洋遥感图像和文本的总相似度,所述全局相似度得分的计算式为:
其中,为全局相似度得分,/>为图像整体特征,/>为文本整体特征,表示向量的模;
所述海洋遥感图像和文本的总相似度计算式为:
其中,为海洋遥感图像和文本的总相似度,/>为决定全局相似度得分的影响程度的权重因子,/>为决定局部相似度得分的影响程度的权重因子,/>为全局相似度得分,/>为图像引导文本学习的最终相似度得分,/>为文本引导图像学习的最终相似度得分;
图文检索模型训练模块,用于采用所述训练集对所述海洋遥感图文检索模型进行训练,采用所述验证集对所述训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
图像和文本数据获得模块,用于获取待检索数据,将所述待检索数据输入至所述训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
第三方面、本发明还提供一种电子设备,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如上所述的海洋遥感图文检索方法中的步骤。
第四方面、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的海洋遥感图文检索方法中的步骤。
与现有技术相比,本发明提供的海洋遥感图文检索方法、装置、电子设备及存储介质,利用Transformer结构获取海洋遥感图像和文本的局部特征和全局特征;相对于采用CNN结构进行海洋遥感图像和文本特征提取的方法,全局特征能够更加关注长距离目标和整体的信息;在局部特征利用时,采用显式地利用提取到的局部信息,相对与基于局部信息融合的方法,可以对局部特征进行直接利用,减少局部细节信息的丢失;在模态对齐时,采用同时对齐海洋遥感图像和文本之间的局部特征和全局特征,相对于基于全局对齐的方法,对于细粒度信息的利用更充分,而且也不会丢失全局信息,从而使海洋遥感图像和文本整体的对齐效果更好;最终有效地提高海洋遥感图像-文本检索的效率和准确率;采用交叉注意力机制来加强海洋遥感图像和文本之间的对齐效果,通过引入多头注意力机制和交叉注意力机制,可以自动学习海洋遥感图像和文本中的相关信息,并将重要的局部特征和全局特征集中起来,提高跨模态检索的准确性;充分考虑了海洋遥感图像和文本之间的语义关联性,通过使用Transformer模型来学习语义信息,可以捕捉到图像和文本的更高级别的语义表示,提高跨模态检索的语义匹配能力;引入了海洋遥感图像和文本之间的双向一致性约束,通过在训练过程中,同时优化海洋遥感图像到文本和文本到海洋遥感图像的检索性能,可以加强模态之间的互相影响,进一步提高检索结果的一致性和稳定性。
附图说明
图1是本发明提供的海洋遥感图文检索方法的一实施例流程图;
图2是本发明提供的海洋遥感图文检索装置的一实施例示意图;
图3是本发明提供的海洋遥感图文检索方法程序的一实施例的运行环境示意图;
图4为本发明提供的海洋遥感图文检索方法的海洋遥感图文检索模型的框架图;
图5为本发明提供的海洋遥感图文检索方法的海洋遥感图像特征提取示意图;
图6为本发明提供的海洋遥感图文检索方法的海洋遥感相关文本特征提取示意图;
图7为本发明提供的海洋遥感图文检索方法的文本指导图像局部对齐示意图;
图8为本发明提供的海洋遥感图文检索方法的图像指导文本局部对齐示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种海洋遥感图文检索方法、装置、电子设备及存储介质,可用于计算机中。本发明所涉及的方法、设备或者计算机可读存储介质既可以与上述设备集成在一起,也可以是相对独立的。
本发明提供了一种海洋遥感图文检索方法,可由计算机执行,具体可由该计算机的一个或者多个处理器执行。图1是本发明实施例提供的海洋遥感图文检索方法的流程图,请参阅图1,海洋遥感图文检索方法包括如下步骤:
S100、获取海洋遥感图像和海洋遥感相关文本数据,将数据划分为训练集以及验证集;
S200、建立海洋遥感图文检索模型,其中,海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块;
S300、采用训练集对所述海洋遥感图文检索模型进行训练,采用验证集对训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
S400、获取待检索数据,将待检索数据输入至训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
本实施例中,首先,获取海洋遥感图像和海洋遥感相关文本数据,将数据划分为训练集以及验证集;其次,建立海洋遥感图文检索模型,其中,海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块;采用训练集对海洋遥感图文检索模型进行训练,采用验证集对训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;最后,获取待检索数据,将待检索数据输入至训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据,提高了跨模态检索的精度。
在一些实施例中,步骤S100中,加载海洋遥感图像和海洋遥感相关文本数据,并将海洋遥感图像和海洋遥感相关文本数据划分为海洋遥感图像文本检索训练集以及验证集。
在一些实施例中,步骤S200中,构建基于双向指导的全局-局部对齐的海洋遥感图文检索模型,其海洋遥感图文检索模型至少包括:海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块,其海洋遥感图文检索模型结构,请参阅图4。
在一些实施例中,步骤S300中,使用海洋遥感图像特征提取模块提取海洋遥感图像的细粒度特征和整体特征/>,其海洋遥感图像特征提取示意图,请参阅图5,其海洋遥感图像特征提取模块至少包括第一提取模块、第二提取模块、第三提取模块、第四提取模块,每个模块的结构相同,其中,每个提取模块至少包括输入层以及输出层,其中,输入层至少包括patch嵌入层,即patch embedding层,输出层至少包括Transformer编码器层;
对于每个模块,输入可分为个patch,展平后的patch经过线性投影层和归一化操作后,输出为特征向量/>,将特征向量/>线性映射为查询向量/>;特征向量/>由一个具有层归一化操作和线性投影的卷积层来操作,得到一个键向量/>和一个值向量/>,其计算式为:
其中,为键向量,/>为值向量,/>为层归一化操作,/>为线性投影,为键向量的卷积运算,/>为值向量的卷积运算,/>为卷积核的大小,/>为卷积的步幅;
将查询向量、键向量/>和值向量/>输入至多头注意机制MHA中进行进一步编码,其多头注意机制MHA的计算式为:
其中,为将多个注意头的输出进行拼接,/>,/>,/>,/>均为线性投影参数,/>为注意头的个数,/>为第/>个注意力头的输出,/>为注意力权重的计算过程;
对patch嵌入层的特征向量和多头注意机制/>的值进行加法操作,接着依次进行层归一化操作、前馈神经网络和加法操作后,完成Transformer编码器层的输出,其计算式为:
其中,为Transformer编码器层的输出,/>为前馈神经网络,为全连接层。
经过上述4个提取模块的处理后,第4个提取模块的输出为海洋遥感图像细粒度特征,其计算式为:
其中,为海洋遥感图像细粒度特征,/>为一张海洋遥感图片中每个区域的特征;
将展平后的海洋遥感图像细粒度特征馈送到线性投影/>中,得到海洋遥感图像的整体特征/>
在一些实施例中,通过文本特征提取模块提取海洋遥感文本的细粒度特征和整体特征/>,其海洋遥感相关文本特征提取示意图,请参阅图6,其过程如下:
首先,输入的遥感相关文本句子经过分词操作,并在分词结果的开始和结束处插入两个特殊标记[CLS]和[SEP],其中,[CLS]表示整个句子的意义,[SEP]表示文本内容的结束;对于给定的标记,通过将相应的标记嵌入、段嵌入和位置嵌入相加后,构建输入向量,其输入向量作为Bert模型的输入;
其次,将预训练好的BERT模型的中间输出结果送入线性投影层,得到文本细粒度特征,其计算式为:
其中,为文本细粒度特征,/>为一个文本中每个单词的特征;
最后,将预训练好的BERT模型在[CLS]处输出的向量输入至线性投影层,以获得文本整体特征
在一些实施例中,基于海洋遥感图像以及文本的细粒度特征,利用双向指导模块对齐图像细粒度特征和文本细粒度特征/>,得到对齐后的细粒度相似度得分,其中,对齐后的细粒度相似度得分至少包括文本引导图像的最终相似度得分/>以及图像引导文本学习的最终相似度得分/>
利用文本引导图像对齐,得到对齐后的文本引导图像的最终相似度得分,其文本指导图像局部对齐,请参阅图7,其过程如下:
首先,关注于与每个图像区域相关的/>,利用余弦相似度函数来计算局部之间的相似度,/>表示余弦相似度函数,其计算式为:
其中,表示第/>个区域与第/>个单词之间的相似性,/>表示转置操作,/>表示向量的模;
基于局部之间的相似度,获得相似度矩阵,对相似度矩阵进行归一化处理,其计算式为:
其中,表示第/>个区域与第/>个单词之间文本引导图像学习的归一化相似性,/>表示最大函数,/>表示图片包含的区域数;
聚焦于每个图像区域中的单词,将单词表示的加权组合进行定义,其计算式为:
其中,为所参与的句子向量,/>为第/>个区域与第/>个单词之间加权的权重,/>为/>的逆温度,/>为句子包含的单词数;
其次,将每个图像区域与相应的整个语句向量进行比较,以确定该图像区域相对于该语句的有效性,通过句子上下文来指导每个图像区域的有效选择,同样利用余弦相似度函数来计算参与的句子向量与每个图像区域特征/>之间的相似度/>,其计算式为:
,
其中,为句子向量与每个图像区域特征之间的相似度,/>为图像区域特征,/>为句子向量,/>表示转置操作;
最后,最终的相似度得分由LogSumExp pooling进行处理,其计算式为:
,
其中,为文本引导图像学习的最终相似度得分,/>为句子向量,/>为每个图像区域特征,/>为句子向量与每个图像区域特征之间的相似度,/>为图片包含的区域数,/>为边界参数。
在一些实施例中,利用图像引导文本对齐,得到对齐后的图像引导文本学习的最终相似度得分,其图像指导文本局部对齐,请参阅图8,其过程如下:
首先,关注与每个单词相关的海洋遥感图像区域/>,为了进行图像引导的文本学习,将相似度矩阵/>进行归一化,其计算式为:
其中,表示图像引导文本学习的归一化相似性,/>表示最大函数,/>表示句子包含的单词数。
聚焦于海洋遥感图像区域,将图像区域表示的加权组合进行定义,其计算式为:
其中,表示所参与的图像向量,/>表示第/>个区域与第/>个单词之间加权的权重,/>表示/>的逆温度,/>表示海洋遥感图像包含的区域数;
其次,将每个单词与对应的参与图像向量进行比较,以确定每个单词的有效性,通过海洋遥感图像区域信息来指导每个单词/>的有效选择,使用余弦相似度计算参与的图像向量/>与单词特征/>之间的相似度/>,其计算式为:
其中,为图像向量与单词特征之间的相似度,/>为图像向量,/>为单词特征,/>表示转置操作,/>表示向量的模;
最后,图像引导文本学习的最终相似度得分由Average pooling来计算,其计算式为:
,
其中,为图像引导文本学习的最终相似度得分,/>为图像向量,/>为单词特征,/>为图像向量与单词特征之间的相似度,/>为句子包含的单词数。
在一些实施例中,通过海洋遥感图文检索模型中的全局对齐模块将图像整体特征和文本整体特征/>进行对齐,得到全局相似度得分/>,其计算式为:
其中,为全局相似度得分,/>为图像整体特征,/>为文本整体特征,表示向量的模。
在一些实施例中,基于对齐后的细粒度相似度得分以及全局相似度得分,通过总相似度计算模块确定海洋遥感图像和文本的总相似度,其计算式为:
其中,为海洋遥感图像和文本的总相似度,/>为决定全局相似度得分的影响程度的权重因子,/>为决定局部相似度得分的影响程度的权重因子,/>为全局相似度得分,/>为图像引导文本学习的最终相似度得分,/>为文本引导图像学习的最终相似度得分。
在一些实施例中,使用训练集训练海洋遥感图文检索模型,采用验证集对训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;计算基于双向指导的全局-局部对齐的海洋遥感图文检索模型的损失函数,进行反向传播,通过选定的优化器和相应参数对连接权重进行优化,训练多轮后得到最终的基于双向指导的全局-局部对齐的海洋遥感图文检索模型;
计算整个海洋遥感图文检索模型的损失函数值时,使用双向三重目标函数进行计算,其表示双向三重目标函数,目的是在海洋遥感图文检索模型中同时优化图像检索文本和文本检索图像任务,并根据任务的重要性进行加权;通过最小化整体的损失函数值,海洋遥感图文检索模型可以在多个任务上得到平衡的训练,达到综合性能的提升,其海洋遥感图文检索模型的损失函数值的计算式为:
其中,为双向三重目标函数,/>为边际阈值参数,第一个/>为考虑海洋遥感图像/>的所有负句子/>,第二个/>为考虑句子/>的所有负海洋遥感图像/>为海洋遥感图像和文本的总相似度,/>
在一些实施例中,步骤S400中,基于训练完备的海洋遥感图像文本检索模型,将待检索的文本输入至训练完备的海洋遥感图像文本检索模型中,以获得与待检索的文本相关的遥感图像数据,其具体过程为:
首先,对待检索的文本进行预处理和特征提取,对输入的待检索文本进行预处理,包括对所述文本进行分词、打上标记处理,然后通过文本特征提取模块提取出文本的关键特征/>
其次,计算文本与图像的相似度,使用提取的文本关键特征与海洋遥感图像数据集中的/>进行相似度计算,得到相似度/>
最后,根据相似度进行匹配和排序,将计算得到的相似度与图像数据集中的图像进行匹配,并按照相似度/>进行排序,提取与文本最相关的一些海洋遥感图像数据。
基于训练完备的海洋遥感图像文本检索模型,将待检索的图像输入至训练完备的海洋遥感图像文本检索模型中,以获得与待检索的图像相关的海洋遥感文本数据,其具体过程为:
首先,对待检索图像进行图像预处理和特征提取,对输入的待检索图像进行预处理,包括剪裁、旋转处理等,然后用海洋遥感图像特征提取模块提取出海洋遥感图像的关键特征/>
其次,计算图像与文本的相似度,使用提取的海洋遥感图像的关键特征与海洋遥感文本数据集中的描述信息的特征/>进行相似度计算,得到相似度/>
最后,进行匹配和排序,将计算得到的相似度与文本数据集中的文本进行匹配,并按照相似度/>进行排序,提取与图像最相关的一些海洋遥感文本数据。
在一些实施例中,在NVIDIA GeForce RTX 3090中运用Pytorch及其他相关工具包进行实验,实验中使用的训练和测试的数据库为RSTIMD;实验的评价指标采用召回率R@K(K=1、5、10)和平均召回率来评价所提出模型的性能;R@K表示在/>结果中出现ground truth的百分比;此外,为了合理地评价模型的整体性能,还使用了六种R@K的平均值来获得/>,按如下步骤进行实验:
首先,用训练数据训练网络,在测试集上进行测试,使用海洋遥感图像检索文本或者使用文本检索海洋遥感图像;其次,将检索结果与ground truth做比较,计算出相关指标的分数并记录,同其他方法的对比结果如表1所示:
表1
从表1中可以看出,与目前最先进的模型相比,本发明的各项精确度都有显著提高。
基于上述海洋遥感图文检索方法,本发明实施例还相应的提供一种海洋遥感图文检索装置,请参阅图2,该海洋遥感图文检索装置500包括数据获取模块510、图文检索模型建立模块520、图文检索模型训练模块530、图像和文本结果获得模块540;
数据获取模块510,用于获取海洋遥感图像和海洋遥感相关文本数据,将数据划分为训练集以及验证集;
图文检索模型建立模块520,用于建立海洋遥感图文检索模型,其中,海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块;
图文检索模型训练模块530,用于采用训练集对所述海洋遥感图文检索模型进行训练,采用验证集对训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
图像和文本结果获得模块540,用于获取待检索数据,将待检索数据输入至训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
如图3所示,基于海洋遥感图文检索方法,本发明还相应提供了一种电子设备,该电子设备可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子设备包括处理器10、存储器20及显示器30。图3仅示出了电子设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器20在一些实施例中可以是该电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器20在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器20用于存储安装于电子设备的应用软件及各类数据,例如安装电子设备的程序代码等。存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有海洋遥感图文检索程序40,该海洋遥感图文检索程序40可被处理器10所执行,从而实现本发明各实施例的海洋遥感图文检索方法。
处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如海洋遥感图文检索方法等。
显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器30用于显示在所述海洋遥感图文检索的信息以及用于显示可视化的用户界面。电子设备的部件10-30通过系统总线相互通信。
在一些实施例中,当处理器10执行存储器20中海洋遥感图文检索程序40时实现如上述各实施例所述的海洋遥感图文检索方法中的各个步骤,由于上文已对海洋遥感图文检索方法进行详细描述,在此不再赘述。
综上所述,本发明提供的海洋遥感图文检索方法、装置、电子设备及存储介质,首先,获取海洋遥感图像和海洋遥感相关文本数据,将所述数据划分为训练集、验证集和测试集;建立海洋遥感图文检索模型,其中,海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块;采用所述训练集以及验证集对所述海洋遥感图文检索模型进行训练;利用训练完备的海洋遥感图文检索模型对所述测试集进行测试,以获得与文本数据相关的遥感图像数据或与待检索的图像相关的文本数据,提高了跨模态检索的精度。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。

Claims (8)

1.一种海洋遥感图文检索方法,其特征在于,包括如下步骤:
获取海洋遥感图像和海洋遥感相关文本数据,将所述数据划分为训练集以及验证集;
建立海洋遥感图文检索模型,其中,所述海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块,所述海洋遥感图像特征提取模块用于提取海洋遥感图像的细粒度特征和整体特征,所述文本特征提取模块用于提取海洋遥感文本的细粒度特征和整体特征,基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,所述全局对齐模块用于对所述海洋遥感图像以及文本的整体特征进行对齐,以获得全局相似度得分,所述总相似度计算模块用于确定海洋遥感图像和文本的总相似度,所述全局相似度得分的计算式为:
其中,为全局相似度得分,/>为图像整体特征,/>为文本整体特征,/>表示向量的模;
所述海洋遥感图像和文本的总相似度计算式为:
其中,为海洋遥感图像和文本的总相似度,/>为决定全局相似度得分的影响程度的权重因子,/>为决定局部相似度得分的影响程度的权重因子,/>为全局相似度得分,为图像引导文本学习的最终相似度得分,/>为文本引导图像学习的最终相似度得分;
采用所述训练集对所述海洋遥感图文检索模型进行训练,采用所述验证集对所述训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
获取待检索数据,将所述待检索数据输入至所述训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
2.根据权利要求1所述的海洋遥感图文检索方法,其特征在于,所述海洋遥感图像特征提取模块至少包括第一提取模块、第二提取模块、第三提取模块、第四提取模块,其中,每个所述提取模块至少包括输入层以及输出层,其中,输入层至少包括patch嵌入层,输出层至少包括Transformer编码器;所述海洋遥感图像特征提取模块提取海洋遥感图像的细粒度特征和整体特征,包括:
将海洋遥感图像数据输入第一提取模块中的patch嵌入层,经过线性投影层和归一化操作后,获得特征向量;
将所述特征向量线性映射后,获得查询向量;
通过具有层归一化操作和线性投影的卷积层对所述特征向量进行操作,以获得一个键向量和值向量;
采用多头注意机制对所述查询向量、键向量以及值向量进行编码,以获得多头注意机制的值;
对所述特征向量以及多头注意机制的值进行加法操作,以完成Transformer编码器层的输出;
经过所述第二提取模块、第三提取模块以及第四提取模块处理后,获得海洋遥感图像细粒度特征;
将所述海洋遥感图像细粒度特征馈送至线性投影中,以获得海洋遥感图像的整体特征。
3.根据权利要求1所述的海洋遥感图文检索方法,其特征在于,所述文本特征提取模块至少包括Bert模型,所述文本特征提取模块提取海洋遥感文本的细粒度特征和整体特征,包括:
对所述海洋遥感文本进行分词操作,并分别在分词结果的开始和结束处插入CLS和SEP标记后,构建输入向量,以作为Bert模型的输入;
获取预训练好的Bert模型的中间输出结果,将所述中间输出结果输入至线性投影层,以获得海洋遥感文本细粒度特征;
将预训练好的Bert模型在CLS处输出的向量输入至线性投影层,以获得海洋遥感文本整体特征。
4.根据权利要求1所述的海洋遥感图文检索方法,其特征在于,所述对齐后的细粒度相似度得分至少包括文本引导图像学习的最终相似度得分以及图像引导文本学习的最终相似度得分;基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,包括:
基于所述海洋遥感图像以及文本的细粒度特征,通过余弦相似度函数确定局部之间的相似度后,获得相似度矩阵;
对所述相似度矩阵进行归一化处理,以确定文本引导图像学习的归一化相似性;
基于所述文本引导图像学习的归一化相似性,确定句子向量;
基于所述句子向量,通过所述余弦相似度函数确定句子向量与每个图像区域特征之间的相似度后,获得文本引导图像学习的最终相似度得分;
对所述相似度矩阵进行归一化处理,以确定图像引导文本学习的归一化相似性;
基于所述图像引导文本学习的归一化相似性,确定图像向量;
基于所述图像向量,通过所述余弦相似度函数确定图像向量与单词特征之间的相似度后,获得图像引导文本学习的最终相似度得分。
5.根据权利要求4所述的遥感图文检索方法,其特征在于,所述文本引导图像学习的最终相似度得分的计算式:
其中,为文本引导图像学习的最终相似度得分,/>为句子向量,/>为每个图像区域特征,/>为句子向量与每个图像区域特征之间的相似度,/>为图片包含的区域数,为边界参数;
所述图像引导文本学习的最终相似度得分的计算式为:
其中,为图像引导文本学习的最终相似度得分,/>为图像向量,/>为单词特征,为图像向量与单词特征之间的相似度,/>为句子包含的单词数。
6.一种海洋遥感图文检索装置,其特征在于,包括:
数据获取模块,用于获取海洋遥感图像和海洋遥感相关文本数据,将所述数据划分为训练集以及验证集;
图文检索模型建立模块,用于建立海洋遥感图文检索模型,其中,所述海洋遥感图文检索模型至少包括海洋遥感图像特征提取模块、文本特征提取模块、双向指导模块、全局对齐模块和总相似度计算模块,所述海洋遥感图像特征提取模块用于提取海洋遥感图像的细粒度特征和整体特征,所述文本特征提取模块用于提取海洋遥感文本的细粒度特征和整体特征,基于所述海洋遥感图像以及文本的细粒度特征,利用所述双向指导模块对所述图像以及文本的细粒度特征进行对齐,以获得对齐后的细粒度相似度得分,所述全局对齐模块用于对所述海洋遥感图像以及文本的整体特征进行对齐,以获得全局相似度得分,所述总相似度计算模块用于确定海洋遥感图像和文本的总相似度,所述全局相似度得分的计算式为:
其中,为全局相似度得分,/>为图像整体特征,/>为文本整体特征,/>表示向量的模;
所述海洋遥感图像和文本的总相似度计算式为:
其中,为海洋遥感图像和文本的总相似度,/>为决定全局相似度得分的影响程度的权重因子,/>为决定局部相似度得分的影响程度的权重因子,/>为全局相似度得分,为图像引导文本学习的最终相似度得分,/>为文本引导图像学习的最终相似度得分;
图文检索模型训练模块,用于采用所述训练集对所述海洋遥感图文检索模型进行训练,采用所述验证集对所述训练后的海洋遥感图文检索模型进行优化,以得到训练完备的海洋遥感图文检索模型;
图像和文本数据获得模块,用于获取待检索数据,将所述待检索数据输入至所述训练完备的海洋遥感图文检索模型中,以获得与待检索数据相关的遥感图像数据或与待检索数据相关的文本数据。
7.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述处理器执行所述计算机可读程序时实现如权利要求1-5任意一项所述的海洋遥感图文检索方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-5任意一项所述的海洋遥感图文检索方法中的步骤。
CN202311716298.1A 2023-12-14 2023-12-14 一种海洋遥感图文检索方法、装置、电子设备及存储介质 Active CN117407558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311716298.1A CN117407558B (zh) 2023-12-14 2023-12-14 一种海洋遥感图文检索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311716298.1A CN117407558B (zh) 2023-12-14 2023-12-14 一种海洋遥感图文检索方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117407558A CN117407558A (zh) 2024-01-16
CN117407558B true CN117407558B (zh) 2024-03-26

Family

ID=89498337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311716298.1A Active CN117407558B (zh) 2023-12-14 2023-12-14 一种海洋遥感图文检索方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117407558B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573916B (zh) * 2024-01-17 2024-04-26 武汉理工大学三亚科教创新园 一种海洋无人机图像文本的检索方法、设备及存储介质
CN117648459B (zh) * 2024-01-29 2024-04-26 中国海洋大学 针对高相似海洋遥感数据的图文跨模态检索方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115878832A (zh) * 2023-02-15 2023-03-31 武汉理工大学三亚科教创新园 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN116561365A (zh) * 2023-05-16 2023-08-08 中国海洋大学 基于布局化语义联合显著表征的遥感图像跨模态检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN115878832A (zh) * 2023-02-15 2023-03-31 武汉理工大学三亚科教创新园 基于精细对齐判别哈希的海洋遥感图像音频检索方法
CN116028662A (zh) * 2023-02-15 2023-04-28 武汉理工大学三亚科教创新园 基于无监督交互式对齐的海洋遥感图像音频检索方法
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
CN116561365A (zh) * 2023-05-16 2023-08-08 中国海洋大学 基于布局化语义联合显著表征的遥感图像跨模态检索方法

Also Published As

Publication number Publication date
CN117407558A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
US11093560B2 (en) Stacked cross-modal matching
CN117407558B (zh) 一种海洋遥感图文检索方法、装置、电子设备及存储介质
US11816888B2 (en) Accurate tag relevance prediction for image search
CN108804530B (zh) 对图像的区域加字幕
US8983940B2 (en) K-nearest neighbor re-ranking
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
US20090083332A1 (en) Tagging over time: real-world image annotation by lightweight metalearning
US20200372025A1 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN116097250A (zh) 用于多模式文档理解的布局感知多模式预训练
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN111353311A (zh) 一种命名实体识别方法、装置、计算机设备及存储介质
CN117520590B (zh) 海洋跨模态图文检索方法、系统、设备及存储介质
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN115408558A (zh) 基于多尺度多示例相似度学习的长视频检索方法及装置
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN106570196B (zh) 视频节目的搜索方法和装置
CN116775918B (zh) 基于互补熵对比学习跨模态检索方法、系统、设备及介质
CN117315249A (zh) 指代图像分割模型训练和分割方法、系统、设备及介质
CN117573916B (zh) 一种海洋无人机图像文本的检索方法、设备及存储介质
Wu et al. Incorporating semantic consistency for improved semi-supervised image captioning
CN116187313B (zh) 基于自然语言处理技术的电力操作票设备识别与勘误方法
CN118332082A (zh) 一种基于对比学习技术的代码摘要增强代码搜索方法
Layode A Deep Learning Based Integrated Retrieval System for Medical Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant