CN115878832A

CN115878832A - 基于精细对齐判别哈希的海洋遥感图像音频检索方法

Info

Publication number: CN115878832A
Application number: CN202310116406.5A
Authority: CN
Inventors: 熊盛武; 赵怡晨; 黄景灏; 潘晟凯; 陈亚雄
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-03-31
Anticipated expiration: 2043-02-15
Also published as: CN115878832B

Abstract

本发明公开了一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，包括步骤：收集海洋遥感图像和遥感相关音频数据，构建海洋遥感图像音频检索数据集；构建基于精细对齐判别哈希的海洋遥感图像音频检索模型；训练模型，计算模型损失函数，进行反向传播和模型优化，训练多轮后得到最终海洋遥感图像音频检索模型；基于训练好的海洋遥感图像音频检索模型，输入待检索的音频或者图像，输出与其相关的海洋遥感图像或者音频数据。本发明学习哈希码以捕获海洋遥感图像的判别信息，学习遥感图像和音频间对应细节信息，通过相似性保留损失函数保持哈希码相似性，保留图像和音频特征的语义信息，消除跨模态差异，提高海洋遥感图像音频检索的效率和准确率。

Description

基于精细对齐判别哈希的海洋遥感图像音频检索方法

技术领域

本发明涉及智慧海洋和计算机视觉技术领域，具体地指一种基于精细对齐判别哈希的海洋遥感图像音频检索方法。

技术背景

目前，建立不同模态下的海洋数据间映射关系引起广泛关注。跨模态海洋遥感图像音频检索，旨在使用音频或遥感图像作为查询，去检索与其相联系的遥感图像或音频。

与传统的海洋遥感图像文本检索相比，图像音频间的跨模态检索对人类更为实用和便利。即人们能直接发出声音来检索相应的遥感图像，而不是将音频转换为文本信息，再去检索图像。这对于一些不方便文本输入的场景显得尤为重要，例如海上灾害监测，海上军事目标识别与定位。

由于不同模态的巨大差异，跨模态检索的主要问题是如何学习联合嵌入表示且准确衡量图像与音频间的相似性。许多工作提出一些深度学习检索方法，但大多未能有效捕捉图像间的判别区域，且粗略地对齐音频和图像回影响检索排序，最终影响检索性能。因此，如何有效使得海洋遥感图像和音频对齐成为海洋遥感图像音频检索中非常重要的一个任务。

发明内容

为了解决上述技术问题，本发明提出了一种基于精细对齐判别哈希的海洋遥感图像音频检索方法。

为实现上述目的，本发明所设计的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特殊之处在于，所述方法包括如下步骤：

S1）收集海洋遥感图像和遥感相关音频数据，构建海洋遥感图像音频检索数据集；

S2）构建基于精细对齐判别哈希的海洋遥感图像音频检索模型，所述模型包括：遥感图像表示模块、音频表示模块、特征精细对齐模块、两个并行的哈希层与全连接层；

S3）训练模型，将所述检索数据集中的样本数据输入模型，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对连接权重进行优化，训练多轮后得到最终的海洋遥感图像音频检索模型；

S4）基于训练好的海洋遥感图像音频检索模型，输入待检索的音频，输出与其相关的海洋遥感图像数据；或者输入待检索的图像，输出与其相关的海洋遥感音频数据。

优选地，步骤S2）中，所述遥感图像表示模块包括多尺度特征融合模块、判别信息学习模块和平均池化层三部分：

所述多尺度特征融合模块，对输入的海洋遥感图像进行采样，将采样得到的具有相同中心和不同比例的图像特征以Concat方式拼接，作为图像的多尺度特征，并进一步通过由Patch Merging层连接的两个Transformer层，得到提取图像特征表示F_T；

所述判别信息学习模块，将所述多尺度特征融合模块提取到的图像特征表示F_T输入到判别信息学习模块中，选择有效信息以形成新的序列特征F_D；

所述平均池化层，将序列特征F_D进行平均池化以生成最后的图像表示F_I。

优选地，所述判别信息学习模块由两个自注意力机制和序列判别选择单元串联实现。

优选地，所述判别信息学习模块将图像特征表示F_T依次通过两个自注意力机制生成图像序列信息，同时保留自注意力机制中间生成的特征关联矩阵U_j= [ U_l ⁰, U_j ¹, U_j ²,… , U_j ^M]，其中j=1,2，M与图像特征表示图像特征表示F_T的维度相同，接着递归地乘以两个自注意力机制中注意力权值来获得最终权重U_f；提取最终权重U_f每个头部的第一个token向量，得到占比权重最大的token向量的索引，根据该索引，过滤图像特征表示F_T依次通过两个自注意力机制以生成图像序列，得到最终序列特征F_D。

优选地，步骤S2）中所述音频表示模块，将原始音频转化为梅尔倒谱系数MFCC特征，接着将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容，从而得到音频特征F_A'。

优选地，所述MFCC特征的提取过程如下：

Sa1）依次对原始音频进行预加重、分帧和加窗得到短时分析窗；

Sa2）将每一个短时分析窗进行短时傅里叶变换得到对应的频谱；

Sa3）将得到频谱通过Mel滤波器组得到Mel频谱；

Sa4）在Mel频谱上面进行倒谱分析，进行取对数操作，利用DCT离散余弦变换做逆变换，取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC，即得到原始音频对应的MFCC特征。

优选地，步骤S2）中所述特征精细对齐模块，利用特征精细对齐模块来提供遥感图像和音频间的精细对齐，具体步骤如下：

Sb1）计算音频特征F_A'和图像特征F_I间的相似度，公式如下：

，

Sb2）利用sigmoid函数来根据音频特征F_A'和图像特征F_I间的相似度构造不同的注意力权重；利用图像特征向量来引导音频特征向量对齐，生成音频的精细特征向量F_A：

F_A=F_A'×θ(S(F_I,F_A'))

其中，θ表示sigmoid函数操作。

优选地，步骤S2）中所述两个并行的哈希层与全连接层，将图像特征向量F_I输入到其全连接层和哈希层中分别得到模型对图像预测输出l_I和哈希码g_I；将音频的精细特征向量F_A输入到其全连接层和哈希层中分别得到模型的对语音的预测输出l_A和哈希码g_A，用以计算模型训练过程中的损失函数值。

优选地，步骤S3）中计算模型总损失函数值L，包括相似性保留损失函数L_l，语义一致性损失函数L_C和缩小模态差异损失函数L_S三部分，所述模型总损失函数L的计算公式为：

L=L_l+ γL_C+ λL_S

其中，γ表示权重参数，λ表示控制缩小模态差异损失函数L_S占比的超参数值。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述一种基于精细对齐判别哈希的海洋遥感图像音频检索方法。

本发明与现有技术相比，提出了一种新的精细对齐判别哈希的海洋遥感图像音频检索方法，该方法通过学习哈希码来捕获遥感图像中的判别信息，同时，学习遥感图像和音频间的相应细节信息。具体的，首先通过设计一个新的判别信息学习模块，来学习遥感图像中的判别信息，同时利用一个精细对齐模块，来挖掘海洋遥感图像和音频间的精细对应关系，使得能更好对齐不同模态的语义表征，有效地提高检索信息质量。在此基础上，通过相似性保留损失，来保持不同模态的哈希码间的相似性，保留海洋遥感图像特征和音频特征的语义信息，消除跨模态差异。最终提高了海洋遥感图像音频检索的效率和准确率。

附图说明

图1为本发明一种基于精细对齐判别哈希的海洋遥感图像音频检索方法的流程图。

图2为本发明提出的基于精细对齐判别哈希的海洋遥感图像音频检索模型框架图。

图3为多尺度卷积操作流程图。

图4为特征精细对齐模块的处理流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

本发明提出了一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，该方法的流程图如图1所示，下面对该方法的步骤进行详细说明：

S2）构建基于精细对齐判别哈希的海洋遥感图像音频检索模型，模型结构包括五个部分：遥感图像表示模块、音频表示模块、特征精细对齐模块、两个并行的哈希层与全连接层。整个模型框架如图2所示；

具体地，遥感图像表示模块包括多尺度特征融合模块、判别信息学习模块和平均池化层三部分：

（1）多尺度特征融合模块：输入海洋遥感图像，通过步长相同，卷积大小分别为32×32、16×16、8×8、4×4的4个2D卷积核来对图像进行采样，多尺度卷积操作流程如图3所示；接着，将采样得到的4个具有相同中心和不同比例的图像特征以Concat方式拼接，作为图像的多尺度特征；将其输入到由Patch Merging层连接的两个Transformer层中，以进一步地提取图像特征表示F_T。Transformer层由两个注意力单元构成，其中每个注意力单元由多头自注意力层和前馈神经网络层串联实现。且每个注意力结构间包括一个残差连接和一个层归一化。Patch Merging层由两个卷积核大小为1×1的并行卷积实现。

（2）判别信息学习模块：将多尺度特征融合模块提取到的图像特征表示F_T输入到判别信息学习模块中，选择有效信息以形成新的序列特征F_D。

其中，判别信息学习模块由两个自注意力机制和序列判别选择单元串联实现。将F_T依次通过两个自注意力机制生成图像序列信息，同时保留自注意力机制中间生成的特征关联矩阵U_j= [ U_l ⁰, U_j ¹, U_j ², … , U_j ^M]，其中j=1,2，M与图像特征表示F_T的维度相同，接着递归地乘以两个自注意力机制中注意力权值来获得最终权重U_f，整个过程可以被表示为公式：

。

提取U_f每个头部的第一个token向量，得到占比权重最大的token向量的索引，根据该索引，过滤F_T依次通过两个自注意力机制以生成图像序列，得到最终序列特征F_D。

（3）将序列特征F_D进行平均池化以生成最后的图像表示F_I。

进一步地，音频表示模块，首先将原始音频转化为梅尔倒谱系数MFCC特征，接着将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络来模拟声音内容，从而得到音频特征F_A’。

ResNet18网络由5个卷积大小分别为1×1、2×2、3×3、4×4、5×5的2D卷积核和平均池化层实现。

其中，MFCC特征的提取过程如下：

Sa1）依次对原始音频进行预加重、分帧和加窗得到短时分析窗，其中采样频率设置为16kHz；

Sa3）将得到频谱通过Mel滤波器组得到Mel频谱；

Sa4）在Mel频谱上面进行倒谱分析，步骤包括取对数，利用DCT离散余弦变换做逆变换，取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC，即得到原始音频对应的MFCC特征。

更进一步地，特征精细对齐模块，利用特征精细对齐模块来提供遥感图像和音频间的精细对齐，如图4所示，具体步骤如下：

Sb1）计算音频特征F_A'和图像特征F_I间的相似度，公式如下：

，

Sb2）利用sigmoid函数来根据音频特征F_A’和图像特征F_I间的相似度构造不同的注意力权重。利用图像特征向量来引导音频特征向量对齐，生成音频的精细特征向量F_A：

F_A=F_A'×θ(S(F_I,F_A'))

其中，θ表示sigmoid函数操作。

两个并行的哈希层与全连接层，将图像特征向量F_I输入到其全连接层和哈希层中分别得到模型对图像预测输出l_I和哈希码g_I；将音频的精细特征向量F_A输入到其全连接层和哈希层中分别得到模型的对语音的预测输出l_A和哈希码g_A，用以计算模型训练过程中的损失函数值。

S3）训练模型，将步骤S1）中检索数据集中的样本输入模型，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对连接权重进行优化，训练多轮后得到最终的海洋遥感图像音频检索模型；

计算模型总损失函数值L，包括相似性保留损失函数L_l，语义一致性损失函数L_C和缩小模态差异损失函数L_S三部分。

模型总损失函数L的计算公式为：

L=L_l+ γL_C+ λL_S

（1）相似性保留损失函数L_l，其计算公式：L_l= L_II+ L_IA+ L_AA。g_b=tanh(F_b; θ_b)首先定义类哈希码，其中F_b为输入的特征向量，θ_b表示哈希层的权重参数，由此，L_II、L_IA和L_AA的公式如下：

，

，

，

其中，cos(·)表示余弦函数，∈(·)表示指示函数，当两个元素属于同类别时则取值为1，否则取值为0。

（2）语义一致性损失函数L_C，其公式如下：

，

其中，l_Ii是属于类别标签y_i的第i个遥感图像的输出概率分布；l_Ai是属于类别标签y_i的第i个语音的输出概率分布y^’ _i表示第i个遥感图像的类别标签y_i进行标签平滑操作得到的平滑后的标签。即y^’ _i={ y^’ _i1, y^’ _i2, … , y^’ _im, … , y^’ _iM,}，

，

，

其中，M表示总类别数目，η表示平滑参数值。

（3）缩小模态差异损失函数L_S，其计算公式如下：

，

其中，

表示欧式距离。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：步骤S2）中，所述遥感图像表示模块包括多尺度特征融合模块、判别信息学习模块和平均池化层三部分：

3.根据权利要求2所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：所述判别信息学习模块由两个自注意力机制和序列判别选择单元串联实现。

4.根据权利要求3所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：所述判别信息学习模块将图像特征表示F_T依次通过两个自注意力机制生成图像序列信息，同时保留自注意力机制中间生成的特征关联矩阵U_j= [ U_l ⁰, U_j ¹, U_j ², … ,U_j ^M]，其中j=1,2，M与图像特征表示图像特征表示F_T的维度相同，接着递归地乘以两个自注意力机制中注意力权值来获得最终权重U_f；提取最终权重U_f每个头部的第一个token向量，得到占比权重最大的token向量的索引，根据该索引，过滤图像特征表示F_T依次通过两个自注意力机制以生成图像序列，得到最终序列特征F_D。

5.根据权利要求2所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：步骤S2）中所述音频表示模块，将原始音频转化为梅尔倒谱系数MFCC特征，接着将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容，从而得到音频特征F_A'。

6.根据权利要求5所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：所述MFCC特征的提取过程如下：

Sa3）将得到频谱通过Mel滤波器组得到Mel频谱；

7.根据权利要求5所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：步骤S2）中所述特征精细对齐模块，利用特征精细对齐模块来提供遥感图像和音频间的精细对齐，具体步骤如下：

Sb1）计算音频特征F_A'和图像特征F_I间的相似度，公式如下：

，

F_A=F_A'×θ(S(F_I,F_A'))，

其中，θ表示sigmoid函数操作。

8.根据权利要求1所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：步骤S2）中所述两个并行的哈希层与全连接层，将图像特征向量F_I输入到其全连接层和哈希层中分别得到模型对图像预测输出l_I和哈希码g_I；将音频的精细特征向量F_A输入到其全连接层和哈希层中分别得到模型的对语音的预测输出l_A和哈希码g_A，用以计算模型训练过程中的损失函数值。

9.根据权利要求1所述的一种基于精细对齐判别哈希的海洋遥感图像音频检索方法，其特征在于：步骤S3）中计算模型总损失函数值L，包括相似性保留损失函数L_l，语义一致性损失函数L_C和缩小模态差异损失函数L_S三部分，所述模型总损失函数L的计算公式为：

L=L_l+ γL_C+ λL_S，

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法。