CN117556062A - 一种海洋遥感图像音频检索网络训练方法及应用方法 - Google Patents
一种海洋遥感图像音频检索网络训练方法及应用方法 Download PDFInfo
- Publication number
- CN117556062A CN117556062A CN202410015612.1A CN202410015612A CN117556062A CN 117556062 A CN117556062 A CN 117556062A CN 202410015612 A CN202410015612 A CN 202410015612A CN 117556062 A CN117556062 A CN 117556062A
- Authority
- CN
- China
- Prior art keywords
- remote sensing
- sensing image
- audio
- retrieval network
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 title claims abstract description 38
- 230000000007 visual effect Effects 0.000 claims abstract description 53
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims abstract description 30
- 238000013508 migration Methods 0.000 claims abstract description 27
- 230000005012 migration Effects 0.000 claims abstract description 27
- 238000012163 sequencing technique Methods 0.000 claims abstract description 19
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000001629 suppression Effects 0.000 claims description 34
- 230000003044 adaptive effect Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 2
- 238000012512 characterization method Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000006735 deficit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/434—Query formulation using image data, e.g. images, photos, pictures taken by a user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种海洋遥感图像音频检索网络训练方法及应用方法,包括:获取海洋遥感图像音频数据集;对音频数据进行音频特征提取得到音频特征,对海洋遥感图像数据进行视觉编码得到初始视觉特征,对初始视觉特征进行区域增强学习得到增强视觉特征,对音频特征和增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,对相似性矩阵进行双向排序加权融合重排序得到重排序相似性;基于自适应知识迁移构建总损失函数,迭代训练得到训练完备的海洋遥感图像音频检索网络。综上,本发明通过区域增强学习在区域级别上获取更全面的特征表示;基于自适应知识迁移减小不同模态间表征差异性,提高海洋遥感图像音频检索网络的准确度。
Description
技术领域
本发明涉及跨模态检索领域,具体涉及一种海洋遥感图像音频检索网络训练方法及应用方法。
背景技术
目前针对海洋遥感图像文本检索方法的研究已经相对成熟,但在真实场景中,例如海上灾害监测和海上救援辅助定位等场景下,音频的输入更符合人类的习惯,且更为便捷。
由于图像和音频分属于数据的两种模态,而现有的跨模态检索方式在处理图像音频检索时存在一些问题:比如对显著区域的关注会忽略图像中不那么显著但对检索性能十分重要的区域,进而难以提取到全面的图像特征,导致检索准确度降低;此外,不同模态间排序结果存在差异性,会对相似性矩阵造成影响,也会降低检索的准确度。
发明内容
有鉴于此,有必要提供一种海洋遥感图像音频检索网络训练方法及应用方法,用于解决现有技术忽略图像中部分非显著区域特征,且由于不同模态间排序结果存在差异性,导致检索准确度较低的技术问题。
为了解决上述问题,一方面,本发明提供了一种海洋遥感图像音频检索网络训练方法,包括:
获取海洋遥感图像音频数据集,海洋遥感图像音频数据集包括海洋遥感图像数据和音频数据;
构建初始海洋遥感图像音频检索网络,将海洋遥感图像音频数据集输入初始海洋遥感图像音频检索网络,初始海洋遥感图像音频检索网络对音频数据进行音频特征提取得到音频特征,对海洋遥感图像数据进行视觉编码得到初始视觉特征,对初始视觉特征进行区域增强学习得到增强视觉特征,对音频特征和增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,对相似性矩阵进行双向排序加权融合重排序得到重排序相似性;
基于自适应知识迁移构建总损失函数,根据重排序相似性确定总损失函数的值,迭代训练初始海洋遥感图像音频检索网络,直到损失函数收敛,得到训练完备的海洋遥感图像音频检索网络。
进一步的,对音频数据进行音频特征提取得到音频特征,包括:
对音频数据进行语言信号采样和短时傅里叶变换,并进行频谱映射得到音频矩阵;
将音频矩阵通过残差网络、平均池化层和全连接层提取得到音频特征。
进一步的,对海洋遥感图像数据进行视觉编码得到初始视觉特征,包括:
基于多尺度融合对海洋遥感图像数据进行特征提取得到初始视觉特征。
进一步的,对初始视觉特征进行区域增强学习得到增强视觉特征,包括:
将初始视觉特征作为第一抑制区域注意力引导图,对第一抑制区域注意力引导图进行卷积得到第一特征注意图;
将第一特征注意图经过激活函数和标准化后与第一抑制区域注意力引导图点乘得到第二抑制区域注意力引导图,对第一抑制区域注意力引导图经过激活函数、标准化操作和点乘第一抑制区域注意力引导图后进行卷积得到第二特征注意图;
将第二特征注意图经过激活函数和标准化后与第二抑制区域注意力引导图点乘得到第三抑制区域注意力引导图,对第二抑制区域注意力引导图经过激活函数、标准化操作和点乘第二抑制区域注意力引导图后进行卷积得到第三特征注意图;
拼接第一特征注意图、第二特征注意图和第三特征注意图,并经过平均池化和全连接层得到增强视觉特征。
进一步的,对音频特征和增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,包括:
基于交互式对齐模块对音频特征和增强视觉特征进行模态特征对齐得到对齐特征;
对对齐特征进行预测输出得到各海洋遥感图像数据和音频数据对应的相似性矩阵。
进一步的,对相似性矩阵进行双向排序加权融合重排序得到重排序相似性,包括:
根据相似性矩阵确定正向检索结果排序,根据正向检索结果排序确定反向检索结果排序,对正向检索结果排序和反向检索结果排序进行自适应权重量化计算得到量化排序结果;
对相似性矩阵进行重校准得到源相似性置信度;
根据量化排序结果和源相似性置信度得到重排序相似性。
进一步的,基于自适应知识迁移构建总损失函数,包括:
基于平滑平均绝对误差损失设置自适应知识迁移初始损失项,并对自适应知识迁移初始损失项加入动态权重矩阵得到自适应知识迁移项;
构建双向三元项和对比学习项,合并自适应知识迁移项、双向三元项和对比学习项得到海洋遥感图像音频检索网络的总损失函数。
另一方面,本发明还提供了一种海洋遥感图像音频检索网络应用方法,包括:
获取待检索海洋遥感图像和/或音频;
将待检索海洋遥感图像和/或音频输入到训练完备的海洋遥感图像音频检索网络,得到海洋遥感图像和音频检索结果;
其中,训练完备的海洋遥感图像音频检索网络根据上述的海洋遥感图像音频检索网络训练方法确定。
另一方面,本发明还提供了一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现上述的海洋遥感图像音频检索网络训练方法,和/或上述的海洋遥感图像音频检索网络应用方法。
另一方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现上述的海洋遥感图像音频检索网络训练方法,和/或上述的海洋遥感图像音频检索网络应用方法。
与现有技术相比,采用上述实施例的有益效果是:本发明通过区域增强学习在区域级别上学习图像的特征,获取更全面的海洋遥感图像特征表示;并基于自适应知识迁移减小不同模态之间表征的差异性,以提高海洋遥感图像音频检索网络的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显然,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的海洋遥感图像音频检索网络训练方法的一个实施例的流程示意图;
图2为本发明提供的海洋遥感图像音频检索网络应用方法的一个实施例的流程示意图;
图3为本发明提供的电子设备的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,示意图的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1为本发明提供的海洋遥感图像音频检索网络训练方法的一个实施例的流程示意图,如图1所示,海洋遥感图像音频检索网络训练方法包括:
S101、获取海洋遥感图像音频数据集,海洋遥感图像音频数据集包括海洋遥感图像数据和音频数据;
S102、构建初始海洋遥感图像音频检索网络,将海洋遥感图像音频数据集输入初始海洋遥感图像音频检索网络,初始海洋遥感图像音频检索网络对音频数据进行音频特征提取得到音频特征,对海洋遥感图像数据进行视觉编码得到初始视觉特征,对初始视觉特征进行区域增强学习得到增强视觉特征,对音频特征和增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,对相似性矩阵进行双向排序加权融合重排序得到重排序相似性;
S103、基于自适应知识迁移构建总损失函数,根据重排序相似性确定总损失函数的值,迭代训练初始海洋遥感图像音频检索网络,直到损失函数收敛,得到训练完备的海洋遥感图像音频检索网络。
具体地,在本发明提供的海洋遥感图像音频检索网络训练方法中,通过区域增强学习在区域级别上学习图像的特征,获取更全面的海洋遥感图像特征表示;并基于自适应知识迁移减小不同模态之间表征的差异性,以提高海洋遥感图像音频检索网络的准确度。
在本发明的具体实施例中,对音频数据进行音频特征提取得到音频特征,包括:
对音频数据进行语言信号采样和短时傅里叶变换,并进行频谱映射得到音频矩阵;
将音频矩阵通过残差网络、平均池化层和全连接层提取得到音频特征。
具体地,实施例对音频剪辑采用16kHz采用,然后采用一个窗口大小为1024,帧移大小为200的短时傅里叶变换,接着将频谱映射至MFCC尺度得到音频矩阵,最后通过ResNet18网络、平均池化层和全连接层提取得到音频特征。公式表示如下:
其中,表示映射至MFCC尺度的音频,/>表示包含ResNet18网络、平均池化层和全连接层的特征提取器,/>表示特征提取器的参数。
在本发明的具体实施例中,对海洋遥感图像数据进行视觉编码得到初始视觉特征,包括:
基于多尺度融合对海洋遥感图像数据进行特征提取得到初始视觉特征。
具体地,视觉编码通过一个带有多尺度融合模块的Transformer来提取海洋遥感图像的初始视觉特征。公式表示如下:
其中,表示海洋遥感图像,/>表示Transformer结构的参数,/>表示视觉特征的维度,/>表示序列的长度。
在本发明的具体实施例中,对初始视觉特征进行区域增强学习得到增强视觉特征,包括:
将初始视觉特征作为第一抑制区域注意力引导图,对第一抑制区域注意力引导图进行卷积得到第一特征注意图;
将第一特征注意图经过激活函数和标准化后与第一抑制区域注意力引导图点乘得到第二抑制区域注意力引导图,对第一抑制区域注意力引导图经过激活函数、标准化操作和点乘第一抑制区域注意力引导图后进行卷积得到第二特征注意图;
将第二特征注意图经过激活函数和标准化后与第二抑制区域注意力引导图点乘得到第三抑制区域注意力引导图,对第二抑制区域注意力引导图经过激活函数、标准化操作和点乘第二抑制区域注意力引导图后进行卷积得到第三特征注意图;
拼接第一特征注意图、第二特征注意图和第三特征注意图,并经过平均池化和全连接层得到增强视觉特征。
具体地,区域增强学习注意力模块包含三组注意力组,每组注意力组包括生成特征注意图和抑制区域注意引导图/>。实施例通过抑制区域注意力引导图来建立不同组别提取不同区域特征之间的联系,然后将三个组别生成的特征注意力图进行拼接,并将拼接结果经过平均池化和全连接层得到增强视觉特征。
在第一注意力组中,将视觉特征作为第一抑制区域注意力引导图/>,将其输入到卷积层中,得到第一特征注意图/>。
在第二和第三注意力组中,则通过利用前一组的抑制区域注意力引导图和特征注意图生成抑制区域注意力引导图和特征注意图,公式表示如下:
其中,表示特征注意图,/>表示一维卷积操作,/>表示softmax函数,/>表示标准化操作,/>表示点乘操作。
其中,表示抑制区域注意力引导图,/>表示softmax函数,/>和/>分别表示/>的均值和标准差,/>表示点乘。
最后将各个特征注意力图拼接得到拼接结果:
其中,表示拼接操作。
再将拼接结果通过平均池化层和全连接层得到增强视觉特征:
其中,和/>分别表示平均池化层和该层的参数,/>和/>分别表示全连接层和该层的参数。
在本发明的具体实施例中,对音频特征和增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,包括:
基于交互式对齐模块对音频特征和增强视觉特征进行模态特征对齐得到对齐特征;
对对齐特征进行预测输出得到各海洋遥感图像数据和音频数据对应的相似性矩阵。
具体地,为更好地对齐海洋遥感图像和音频这两种模态的特征向量和/>,并增强海洋遥感图像和音频之间的潜在语义关系,实施例基于交互式对齐模块来对得到的视觉特征/>和音频特征/>进行对齐得到对应的对齐特征/>和/>,公式表示如下:
其中,表示交互式对齐结构模块。
最后实施例根据对齐特征进行预测,输出海洋遥感图像和音频数据的相似性矩阵。
在本发明的具体实施例中,对相似性矩阵进行双向排序加权融合重排序得到重排序相似性,包括:
根据相似性矩阵确定正向检索结果排序,根据正向检索结果排序确定反向检索结果排序,对正向检索结果排序和反向检索结果排序进行自适应权重量化计算得到量化排序结果;
对相似性矩阵进行重校准得到源相似性置信度;
根据所述量化排序结果和所述源相似性置信度得到重排序相似性。
具体地,为更好的利用不同模态之间的互信息,实施例通过双向排序加权融合重排序来对正反向检索结果排序进行量化,并重校准得到源相似置信度,根据源相似置信度和正反向量化排序结果得到重排序相似性,并以此优化网络输出的相似度矩阵。
对于相似度矩阵,对应的查询集表示为/>,其中,/>表示查询图像,/>表示前/>幅与/>近似的图像,/>表示与查询图像/>最相似的第/>幅图像所对应的音频。实施例由相似性矩阵/>得到正向检索结果排序,即音频的排序位置:
并进行量化,得到正向量化排序结果:
其中,表示自定义参数,/>表示通过图像检索音频过程中得到的量化排序结果,实施例对排名越靠前的位置,赋予越大的权重。
然后基于前一阶段的检索结果,计算反向检索结果排序:
其中,表示检索结果集返回的海洋遥感图像数量,/>表示一幅返回的海洋遥感图像。
对于前段与图像/>相符的音频检索结果,其中以每段音频作为查询音频,都会得到/>幅检索结果图像,然后从这/>幅图像中确定与图像/>相近的排序位置,并对位置信息进行量化:
其中,表示反向量化排序结果,即通过音频检索图像的排序结果的量化表示。
此外,为优化计算,实施例还对相似性矩阵进行重新校准,在保持个结果相似性的同时,赋值其他位置相似性为0,即不相似,公式表示如下:
其中,为计算模型对源相似性的置信度,并作为基本的相似性评价指标,最后根据源相似性置信度和正反向量化排序结果,得到重排序相似性/>,并以此作为权重优化网络输出的相似性矩阵,重排序相似性公式表示如下:
在本发明的具体实施例中,基于自适应知识迁移构建总损失函数,包括:
基于平滑平均绝对误差损失设置自适应知识迁移初始损失项,并对自适应知识迁移初始损失项加入动态权重矩阵得到自适应知识迁移项;
构建双向三元项和对比学习项,合并自适应知识迁移项、双向三元项和对比学习项得到海洋遥感图像音频检索网络的总损失函数。
具体地,考虑到不同模态间排序结果存在差异性,会对相似性矩阵造成影响,实施例设计了基于自适应知识迁移的总损失函数,以减小不同模态之间表征的差异性,根据该总损失函数,通过选定的优化器和相应参数对模型参数进行优化,训练多轮或直到损失不再下降为止,得到训练完备的海洋遥感图像音频检索模型。
模型总损失函数包括双向三元组项/>,InfoNCE对比学习项/>和自适应知识迁移项/>三部分,公式表示为:
其中,和/>表示用于模型性能微调的参数。
其中,双向三元组用于使得具有相似性语义的海洋遥感图像音频对之间的距离更靠近,从而保持不同模态之间的相似性,公式表示如下:
其中,对于给定对图像音频对,当/>时,/>和/>表示正例对,当/>时,/>和/>表示负例对;/>表示边际参数;/>,/>表示/>和/>之间的相似性。
对于InfoNCE对比学习项,其公式表示如下:
其中,表示温度参数,/>表示视觉特征/>和音频特征/>之间的相似性。
为了使得模型输出的特征向量包含对齐检索向量的信息,减小不同模态之间表征的差异性,实施例设计了自适应知识迁移项。
首先,实施例利用Huber损失设计初始损失项:
其中,表示Huber损失,其具体表示如下:
其中,表示超参数,/>和/>表示参与运算的参数,在实施例中参与运算的参数为相似度矩阵和/>相似度矩阵。
此外,考虑到前面步骤中的交互式对齐操作,会导致感知不到中一些额外的信息;同时,在海洋遥感图像特征表示过程中会将一些错误信息引入/>。因此,为了让模型以自适应的方式学习模态间的关联信息,实施例引入了动态权重mask矩阵,最后自适应知识迁移项/>表示如下:
其中,是一个mask矩阵,其元素均在0和1之间。
综上,本发明通过区域增强学习在区域级别上学习图像的特征,获取更全面的海洋遥感图像特征表示;并基于自适应知识迁移减小不同模态之间表征的差异性,以提高海洋遥感图像音频检索网络的准确度。
本发明实施例还提供了一种海洋遥感图像音频检索网络应用方法,结合图2来看,图2为本发明提供的海洋遥感图像音频检索网络应用方法的一个实施例的流程示意图,包括:
S201、获取待检索海洋遥感图像和/或音频;
S202、将待检索海洋遥感图像和/或音频输入到训练完备的海洋遥感图像音频检索网络,得到海洋遥感图像和音频检索结果;
其中,训练完备的海洋遥感图像音频检索网络根据上述的海洋遥感图像音频检索网络训练方法确定。
在本发明的实施例中,首先,对待检索海洋遥感图像和/或音频进行有效获取,然后利用上述训练完备的海洋遥感图像音频检索网络对待检索海洋遥感图像和/或音频有效检索相似海洋遥感图像和音频,即可输出检索结果。
本发明还提供了一种电子设备300,如图3所示,图3为本发明提供的电子设备一实施例的结构示意图,电子设备300包括处理器301、存储器302及存储在存储器302并可在处理器301上运行的计算机程序,处理器301执行程序时,实现上述的海洋遥感图像音频检索网络训练方法,和/或上述的海洋遥感图像音频检索网络应用方法。
作为优选的实施例,上述电子设备还包括显示器303,用于显示处理器301执行上述海洋遥感图像音频检索网络训练方法,和/或上述海洋遥感图像音频检索网络应用方法的过程。
其中,处理器301可能是一种集成电路芯片,具有信号的处理能力。上述的处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU )、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器也可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,存储器302可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),安全数字(Secure Digital,SD卡),闪存卡(Flash Card)等。其中,存储器302用于存储程序,处理器301在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器301中,或者由处理器301实现。
其中,显示器303可以是LED显示屏,液晶显示器或触控式显示器等。显示器303用于显示在电子设备300的各种信息。
可以理解的是,图3所示的结构仅为电子设备300的一种结构示意图,电子设备300还可以包括比图3所示更多或更少的组件。图3中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述的海洋遥感图像音频检索网络训练方法,和/或上述的海洋遥感图像音频检索网络应用方法。
一般来说,用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性的传播中的信号本身。
计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线,或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合。在本发明件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种海洋遥感图像音频检索网络训练方法,其特征在于,所述方法包括:
获取海洋遥感图像音频数据集,所述海洋遥感图像音频数据集包括海洋遥感图像数据和音频数据;
构建初始海洋遥感图像音频检索网络,将所述海洋遥感图像音频数据集输入所述初始海洋遥感图像音频检索网络,所述初始海洋遥感图像音频检索网络对所述音频数据进行音频特征提取得到音频特征,对所述海洋遥感图像数据进行视觉编码得到初始视觉特征,对所述初始视觉特征进行区域增强学习得到增强视觉特征,对所述音频特征和所述增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,对所述相似性矩阵进行双向排序加权融合重排序得到重排序相似性;
基于自适应知识迁移构建总损失函数,根据所述重排序相似性确定所述总损失函数的值,迭代训练所述初始海洋遥感图像音频检索网络,直到损失函数收敛,得到训练完备的海洋遥感图像音频检索网络。
2.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述对所述音频数据进行音频特征提取得到音频特征,包括:
对所述音频数据进行语言信号采样和短时傅里叶变换,并进行频谱映射得到音频矩阵;
将所述音频矩阵通过残差网络、平均池化层和全连接层提取得到音频特征。
3.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述对所述海洋遥感图像数据进行视觉编码得到初始视觉特征,包括:
基于多尺度融合对所述海洋遥感图像数据进行特征提取得到初始视觉特征。
4.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述对所述初始视觉特征进行区域增强学习得到增强视觉特征,包括:
将所述初始视觉特征作为第一抑制区域注意力引导图,对所述第一抑制区域注意力引导图进行卷积得到第一特征注意图;
将所述第一特征注意图经过激活函数和标准化后与所述第一抑制区域注意力引导图点乘得到第二抑制区域注意力引导图,对所述第一抑制区域注意力引导图经过激活函数、标准化操作和点乘所述第一抑制区域注意力引导图后进行卷积得到第二特征注意图;
将所述第二特征注意图经过激活函数和标准化后与所述第二抑制区域注意力引导图点乘得到第三抑制区域注意力引导图,对所述第二抑制区域注意力引导图经过激活函数、标准化操作和点乘所述第二抑制区域注意力引导图后进行卷积得到第三特征注意图;
拼接所述第一特征注意图、所述第二特征注意图和所述第三特征注意图,并经过平均池化和全连接层得到增强视觉特征。
5.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述对所述音频特征和所述增强视觉特征进行模态特征对齐,并预测输出相似性矩阵,包括:
基于交互式对齐模块对所述音频特征和所述增强视觉特征进行模态特征对齐得到对齐特征;
对所述对齐特征进行预测输出得到各海洋遥感图像数据和音频数据对应的相似性矩阵。
6.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述对所述相似性矩阵进行双向排序加权融合重排序得到重排序相似性,包括:
根据所述相似性矩阵确定正向检索结果排序,根据所述正向检索结果排序确定反向检索结果排序,对所述正向检索结果排序和所述反向检索结果排序进行自适应权重量化计算得到量化排序结果;
对所述相似性矩阵进行重校准得到源相似性置信度;
根据所述量化排序结果和所述源相似性置信度得到重排序相似性。
7.根据权利要求1所述的海洋遥感图像音频检索网络训练方法,其特征在于,所述基于自适应知识迁移构建总损失函数,包括:
基于平滑平均绝对误差损失设置自适应知识迁移初始损失项,并对所述自适应知识迁移初始损失项加入动态权重矩阵得到自适应知识迁移项;
构建双向三元项和对比学习项,合并所述自适应知识迁移项、所述双向三元项和所述对比学习项得到海洋遥感图像音频检索网络的总损失函数。
8.一种海洋遥感图像音频检索网络应用方法,其特征在于,所述方法包括:
获取待检索海洋遥感图像和/或音频;
将所述待检索海洋遥感图像和/或音频输入到训练完备的海洋遥感图像音频检索网络,得到海洋遥感图像和音频检索结果;
其中,所述训练完备的海洋遥感图像音频检索网络根据权利要求1至7任一项所述的海洋遥感图像音频检索网络训练方法确定。
9.一种电子设备,包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时,实现根据权利要求1至7任一项所述的海洋遥感图像音频检索网络训练方法,和/或根据权利要求8所述的海洋遥感图像音频检索网络应用方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现根据权利要求1至7任一项所述的海洋遥感图像音频检索网络训练方法,和/或根据权利要求8所述的海洋遥感图像音频检索网络应用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410015612.1A CN117556062B (zh) | 2024-01-05 | 2024-01-05 | 一种海洋遥感图像音频检索网络训练方法及应用方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410015612.1A CN117556062B (zh) | 2024-01-05 | 2024-01-05 | 一种海洋遥感图像音频检索网络训练方法及应用方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556062A true CN117556062A (zh) | 2024-02-13 |
CN117556062B CN117556062B (zh) | 2024-04-16 |
Family
ID=89818772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410015612.1A Active CN117556062B (zh) | 2024-01-05 | 2024-01-05 | 一种海洋遥感图像音频检索网络训练方法及应用方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556062B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210349954A1 (en) * | 2020-04-14 | 2021-11-11 | Naver Corporation | System and method for performing cross-modal information retrieval using a neural network using learned rank images |
CN115311463A (zh) * | 2022-10-09 | 2022-11-08 | 中国海洋大学 | 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统 |
CN115878832A (zh) * | 2023-02-15 | 2023-03-31 | 武汉理工大学三亚科教创新园 | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 |
CN116028662A (zh) * | 2023-02-15 | 2023-04-28 | 武汉理工大学三亚科教创新园 | 基于无监督交互式对齐的海洋遥感图像音频检索方法 |
CN116226435A (zh) * | 2023-05-09 | 2023-06-06 | 武汉理工大学三亚科教创新园 | 基于跨模态检索的遥感图像与ais信息的关联匹配方法 |
CN117095198A (zh) * | 2023-07-04 | 2023-11-21 | 武汉理工大学三亚科教创新园 | 遥感图像检索网络训练方法、应用方法、电子设备及介质 |
-
2024
- 2024-01-05 CN CN202410015612.1A patent/CN117556062B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210349954A1 (en) * | 2020-04-14 | 2021-11-11 | Naver Corporation | System and method for performing cross-modal information retrieval using a neural network using learned rank images |
CN115311463A (zh) * | 2022-10-09 | 2022-11-08 | 中国海洋大学 | 类别引导多尺度解耦的海洋遥感图像文本检索方法及系统 |
CN115878832A (zh) * | 2023-02-15 | 2023-03-31 | 武汉理工大学三亚科教创新园 | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 |
CN116028662A (zh) * | 2023-02-15 | 2023-04-28 | 武汉理工大学三亚科教创新园 | 基于无监督交互式对齐的海洋遥感图像音频检索方法 |
CN116226435A (zh) * | 2023-05-09 | 2023-06-06 | 武汉理工大学三亚科教创新园 | 基于跨模态检索的遥感图像与ais信息的关联匹配方法 |
CN117095198A (zh) * | 2023-07-04 | 2023-11-21 | 武汉理工大学三亚科教创新园 | 遥感图像检索网络训练方法、应用方法、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
侯东阳;武昊;陈军;: "时空数据Web搜索的研究进展", 地理信息世界, no. 04, 25 August 2020 (2020-08-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN117556062B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11093560B2 (en) | Stacked cross-modal matching | |
CN112069319B (zh) | 文本抽取方法、装置、计算机设备和可读存储介质 | |
WO2020224405A1 (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
WO2024011814A1 (zh) | 一种图文互检方法、系统、设备及非易失性可读存储介质 | |
CN109684625A (zh) | 实体处理方法、装置和存储介质 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
CN115878832B (zh) | 基于精细对齐判别哈希的海洋遥感图像音频检索方法 | |
CN110781413A (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
CN116028662B (zh) | 基于无监督交互式对齐的海洋遥感图像音频检索方法 | |
CN115408558A (zh) | 基于多尺度多示例相似度学习的长视频检索方法及装置 | |
CN114780690A (zh) | 基于多模态矩阵向量表示的专利文本检索方法及装置 | |
CN112861940A (zh) | 双目视差估计方法、模型训练方法以及相关设备 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
CN117851883B (zh) | 一种基于跨模态大语言模型的场景文本检测与识别方法 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN112528062B (zh) | 一种跨模态武器检索方法及系统 | |
WO2021179688A1 (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN112199531B (zh) | 一种基于哈希算法和邻域图的跨模态检索方法及装置 | |
CN117634483A (zh) | 一种面向中文的多粒度图文跨模态关联方法 | |
CN117556062B (zh) | 一种海洋遥感图像音频检索网络训练方法及应用方法 | |
CN112232360A (zh) | 图像检索模型优化方法、图像检索方法、装置及存储介质 | |
US12112524B2 (en) | Image augmentation method, electronic device and readable storage medium | |
CN116958852A (zh) | 视频与文本的匹配方法、装置、电子设备和存储介质 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN115563976A (zh) | 文本预测方法、用于文本预测的模型建立方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |