CN116028662B

CN116028662B - 基于无监督交互式对齐的海洋遥感图像音频检索方法

Info

Publication number: CN116028662B
Application number: CN202310114265.3A
Authority: CN
Inventors: 陈亚雄; 黄景灏; 赵怡晨; 魏志程; 熊盛武
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-06-13
Anticipated expiration: 2043-02-15
Also published as: CN116028662A

Abstract

本发明公开了一种基于无监督交互式对齐的海洋遥感图像音频检索方法，包括步骤：收集海洋遥感图像和遥感相关音频，构建海洋遥感图像音频检索数据集；提取遥感相关音频的音频特征F _A和海洋遥感图像的图像特征F _I；将其对齐得到音频检索特征向量F _A’和图像检索特征向量F _I’；计算整个模型的损失函数值，进行反向传播，训练多轮后得到海洋遥感图像音频检索模型；输入待检索的音频或图像，输出与其相关的海洋遥感图像或者音频数据。本发明利用大量未标记的样本学习显著语义信息和海洋遥感图像和音频间的相似性；抑制图像噪声，捕获图像的显著信息；引入交互式对齐模块探索遥感图像和音频间的精细对应关系，最终提高了海洋遥感图像音频检索的效率和准确率。

Description

基于无监督交互式对齐的海洋遥感图像音频检索方法

技术领域

本发明涉及智慧海洋和遥感图像处理技术领域，具体地指一种基于无监督交互式对齐的海洋遥感图像音频检索方法。

技术背景

海洋遥感图像音频检索是解决遥感数据中图像数据缺失或音频数据表述不准确问题的重要方法。海洋遥感图像音频检索利用跨模态检索算法，分析大量遥感图像且自动检索大量准确描述该图像的音频数据，或者分析大量遥感相关的音频且自动检索与其相关的海洋遥感图像，从而解决图像数据缺失或者音频数据表述不准确的困境。其对于一些不方便文本输入的场景，如海上灾害监测任务显得非常重要。

跨模态检索的主要挑战是如何学习联合嵌入并衡量不同模态间的相似性，现有的大多数工作开始探索无监督学习范式的可能，但海洋遥感图像存在的大量噪声不利于模型的训练学习，且粗略地将图像与音频特征对齐会丢失与图像相关的有效音频信息。因此，如何抑制海洋遥感图像中与音频不高度相关的信息，且对齐不同模态间的信息成为了海洋遥感图像音频检索中非常重要的一个任务。

发明内容

为了解决上述技术问题，本发明提供了一种基于无监督交互式对齐的海洋遥感图像音频检索方法。

为实现上述目的，本发明所设计的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特殊之处在于，所述方法包括如下步骤：

S1）收集海洋遥感图像和遥感相关音频数据，构建海洋遥感图像音频检索数据集；

S2）构建基于无监督交互式对齐的海洋遥感图像音频检索模型，模型结构包括四个部分：音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块；

S3）所述音频特征提取模块提取遥感相关音频特征F_A，所述多尺度特征融合模块提取海洋遥感图像的图像初始特征I_token，所述语音引导图像去噪模块根据所述图像初始特征I_token得到语音引导去噪后的图像特征F_I；

S4）所述交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，得到特征对齐后的音频检索特征向量F_A'和图像检索特征向量F_{I '}；

S5）训练模型，将所述检索数据集中的样本数据输入模型，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对连接权重进行优化，训练多轮后得到最终的海洋遥感图像音频检索模型；

S6）基于训练好的海洋遥感图像音频检索模型，输入待检索的音频，输出与其相关的海洋遥感图像数据；或者输入待检索的图像，输出与其相关的海洋遥感音频数据。

优选地，步骤S3）中，所述音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征，再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容，从而得到音频特征F_A，同时保留ResNet18网络中在卷积后得到的中间音频特征A⁽³⁾。

优选地，所述MFCC特征的提取过程如下：

Sa1）依次对原始音频进行预加重、分帧和加窗得到短时分析窗；

Sa2）将每一个短时分析窗进行短时傅里叶变换得到对应的频谱；

Sa3）将得到频谱通过Mel滤波器组得到Mel频谱；

Sa4）在Mel频谱上面进行倒谱分析，进行取对数操作，利用DCT离散余弦变换做逆变换，取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC，即得到原始音频对应的MFCC特征。

优选地，步骤S3）中，所述多尺度特征融合模块将海洋遥感图像进行嵌入式表示，得到海洋遥感图像的图像初始特征I_token，将保留的所述中间音频特征A⁽³⁾和图像的初始特征I_token同时输入到语音引导图像去噪模块。

优选地，所述语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示，最终得到语音引导去噪后的图像特征F_I，具体步骤包括：

Sb1）将图像的初始特征I_token通过一个全连接层被映射为向量Q_I，将中间音频特征A⁽³⁾通过两个全连接层分别被映射为向量K_A和V_A，I_token和A⁽³⁾间的相似值被定义为O，计算公式如下：

，

其中，d是向量K_A的维度，利用计算的各图像和音频样本间的相似度O来获得具有图像感知的音频特征表示，计算相应的噪声抑制阈值G，计算公式如下：

，

其中，

表示两个矩阵对应位置元素进行乘积操作；

Sb2）对向量Q_I和向量V_A进行向量融合操作，将融合得到的向量与噪声抑制阈值G相乘后再输入到一个全连接层中，最后将其与图像的初始特征I_token进行残差连接，得到初步去噪的图像特征I_D；

Sb3）将初步去噪的图像特征I_D依次输入到两个自注意力结构中，得到进一步编码后的图像特征I_S，以生成更显著的视觉信号；

Sb4）将编码后的图像特征I_S通过一个平均池化层和一个全连接层得到语音引导去噪后的图像特征F_I。

优选地，步骤S4）中所述交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，具体步骤如下：

Sc1）计算音频特征F_A和图像特征F_I间的相似度，公式如下：

，

Sc2）利用sigmoid函数来根据音频特征F_A和图像特征F_I间的相似度构造不同的注意力权重；利用图像特征向量来引导音频特征向量对齐，生成音频的检索特征向量F_A’：

F_A'= F_A×σ(S(F_I,F_A))

其中，σ表示sigmoid函数操作；

Sc3）利用重建的音频的检索特征向量F_A’ 来对齐图像特征向量，得到图像的检索特征向量F_I’：

，

F_I'= F_I×σ(S(F_I,F_A’))。

优选地，步骤S5）中计算模型总损失函数值，包括双向三元损失函数L_β和噪声对比估计InfoNCE损失函数L_φ两部分，所述的模型总损失函数L的计算公式为：

L=L_β+ γL_φ

其中，γ表示权重参数值。

优选地，所述双向三元组损失函数L_β的计算公式为：

其中，N为数据集中的样本对总数量；当i=j时，

和/>

表示正样本对，当/>

时，/>

和/>

表示负样本对；α表示间隔参数，其作用是拉大正样本对和负样本对间的差距；

，/>

表示/>

和/>

间的相似度值。

优选地，所述噪声对比估计InfoNCE损失L_φ的计算公式为：

其中，τ表示温度系数，属于可学习变量。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述一种基于无监督交互式对齐的海洋遥感图像音频检索方法。

本发明与现有技术相比具有如下优点和有益效果：

(1) 本发明利用大量未标记的样本来学习显著语义信息和海洋遥感图像和音频间的相似性；

(2) 本发明考虑到无监督学习缺乏标签信息的监督，利用海洋遥感图像和音频间的相似性作为监督信息；通过设计的音频引导图像去噪模块来抑制图像噪声，从而捕获图像的显著信息，既提取了有效的图像特征，又过滤掉大量与与图像音频语义不相关的信息；

(3)本发明通过引入交互式对齐模块来探索遥感图像和音频间的精细对应关系，以更好地来对齐图像和音频的语义相关信息，最终有效地提高海洋遥感图像音频检索的效率和准确率。

附图说明

图1为本发明基于无监督交互式对齐的海洋遥感图像音频检索方法的流程图。

图2为本发明提出的基于无监督交互式对齐的海洋遥感图像音频检索模型的框架图。

图3为多尺度特征融合模块结构框图。

图4交互式对齐模块处理流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示，本发明提出的基于无监督交互式对齐的海洋遥感图像音频检索方法，包括如下步骤：

S1）收集海洋遥感图像和遥感相关音频数据，构建海洋遥感图像音频检索数据集。

S2）构建基于无监督交互式对齐的海洋遥感图像音频检索模型，模型结构包括四个部分：音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块，如图2所示。

S3）音频特征提取模块提取遥感相关音频特征F_A，多尺度特征融合模块提取海洋遥感图像的图像初始特征I_token，语音引导图像去噪模块根据图像初始特征I_token得到语音引导去噪后的图像特征F_I。

具体地，音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征，再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容，从而得到音频特征F_A，同时保留ResNet18网络中在卷积后得到的中间音频特征A⁽³⁾ 。

在本实施例中，MFCC特征的提取过程如下：

Sa3）将得到频谱通过Mel滤波器组得到Mel频谱；

多尺度特征融合模块将海洋遥感图像进行嵌入式表示，得到海洋遥感图像的图像初始特征I_token，将保留的所述中间音频特征A⁽³⁾和图像的初始特征I_token同时输入到语音引导图像去噪模块。本实施例中，多尺度特征融合模块采用的ResNet18网络是以基于AudioSet数据集预训练的ResNet18网络为基础，由卷积大小为1×1、2×2、3×3、4×4、5×5的5个2D卷积核和平均池化层实现，如图3所示。

多尺度特征融合模块将海洋遥感图像进行嵌入式过程为：首先依次用卷积大小为4×4、8×8、16×16、32×32的2D卷积核对海洋遥感图像采样，且每个卷积步长相同。接着，将得到的四个特征块进行Concat拼接构成融合特征。

将融合特征依次输入到两个Transformer层进一步精细化图像特征。Transformer层包括两个注意力结构，其中，每个注意力结构由一个多头自注意网络和前馈神经网络实现，且每个注意力结构间包括一个残差连接和一个层归一化。两个Transformer层间由Patch Merging层连接，Patch Merging层由两个卷积核大小为1×1的并行卷积实现。

语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示，最终得到语音引导去噪后的图像特征F_I，具体步骤包括：

Sb1）将图像的初始特征I_token通过一个全连接层被映射为向量Q_I，将中间音频特征A⁽³⁾通过两个全连接层分别被映射为向量K_A和V_A，I_token和A⁽³⁾间的相似值可以被定义为O，计算公式如下：

，

其中，d是向量K_A的维度。利用计算的各图像和音频样本间的相似度O来获得具有图像感知的音频特征表示。计算相应的噪声抑制阈值G，计算公式如下：

，

其中，

表示两个矩阵对应位置元素进行乘积操作；

S4）交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，得到特征对齐后的音频检索特征向量F_A'和图像检索特征向量F_I'；

交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，具体步骤如下：

Sc1）计算音频特征F_A和图像特征F_I间的相似度，公式如下：

，

F_A'= F_A×σ(S(F_I,F_A))

其中，σ表示sigmoid函数操作；

，

F_I'= F_I×σ(S(F_I,F_A’))。

S5）训练模型，将检索数据集中的样本数据输入模型，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对连接权重进行优化，训练多轮后得到最终的海洋遥感图像音频检索模型。

本实施例中模型总损失函数L包括双向三元损失函数L_β和噪声对比估计InfoNCE损失函数L_φ两部分，L的计算公式为：

L=L_β+ γL_φ

γ表示权重参数值。

其中，双向三元组损失函数L_β的计算公式为：

其中，N为数据集中的样本对总数量；当i=j时，

和/>

表示正样本对，当/>

时，/>

和/>

，/>

表示/>

和/>

间的相似度值。

其中，噪声对比估计InfoNCE损失L_φ的计算公式为：

，

τ表示温度系数，属于可学习变量。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

最后需要说明的是，以上具体实施方式仅用以说明本专利技术方案而非限制，尽管参照较佳实施例对本专利进行了详细说明，本领域的普通技术人员应当理解，可以对本专利的技术方案进行修改或者等同替换，而不脱离本专利技术方案的精神和范围，其均应涵盖在本专利的权利要求范围当中。

Claims

1.一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：所述方法包括如下步骤：

S1)收集海洋遥感图像和遥感相关音频数据，构建海洋遥感图像音频检索数据集；

S2)构建基于无监督交互式对齐的海洋遥感图像音频检索模型，模型结构包括四个部分：音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块；

S3)所述音频特征提取模块提取遥感相关音频特征F_A，所述多尺度特征融合模块提取海洋遥感图像的图像初始特征I_token，所述语音引导图像去噪模块根据所述图像初始特征I_token得到语音引导去噪后的图像特征F_I；

步骤S3)中，所述音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征，再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容，从而得到音频特征F_A，同时保留ResNet18网络中在卷积后得到的中间音频特征A⁽³⁾；

所述多尺度特征融合模块将海洋遥感图像进行嵌入式表示，得到海洋遥感图像的图像初始特征I_token，将保留的所述中间音频特征A⁽³⁾和图像的初始特征I_token同时输入到语音引导图像去噪模块；

所述语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示，最终得到语音引导去噪后的图像特征F_I，具体步骤包括：

Sb1)将图像的初始特征I_token通过一个全连接层被映射为向量Q_I，将中间音频特征A⁽³⁾通过两个全连接层分别被映射为向量K_A和V_A，I_token和A⁽³⁾间的相似值被定义为O，计算公式如下：

其中，

表示两个矩阵对应位置元素进行乘积操作；

Sb2)对向量Q_I和向量V_A进行向量融合操作，将融合得到的向量与噪声抑制阈值G相乘后再输入到一个全连接层中，最后将其与图像的初始特征I_token进行残差连接，得到初步去噪的图像特征I_D；

Sb3)将初步去噪的图像特征I_D依次输入到两个自注意力结构中，得到进一步编码后的图像特征I_S，以生成更显著的视觉信号；

Sb4)将编码后的图像特征I_S通过一个平均池化层和一个全连接层得到语音引导去噪后的图像特征F_I；

S4)所述交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，得到特征对齐后的音频检索特征向量F_A'和图像检索特征向量F_I'；

S5)训练模型，将所述检索数据集中的样本数据输入模型，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对连接权重进行优化，训练多轮后得到最终的海洋遥感图像音频检索模型；

S6)基于训练好的海洋遥感图像音频检索模型，输入待检索的音频，输出与其相关的海洋遥感图像数据；或者输入待检索的图像，输出与其相关的海洋遥感音频数据。

2.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：所述MFCC特征的提取过程如下：

Sa1)依次对原始音频进行预加重、分帧和加窗得到短时分析窗；

Sa2)将每一个短时分析窗进行短时傅里叶变换得到对应的频谱；

Sa3)将得到频谱通过Mel滤波器组得到Mel频谱；

Sa4)在Mel频谱上面进行倒谱分析，进行取对数操作，利用DCT离散余弦变换做逆变换，取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC，即得到原始音频对应的MFCC特征。

3.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：步骤S4)中所述交互式对齐模块对齐所述遥感相关音频特征F_A与海洋遥感图像的图像特征F_I，具体步骤如下：

Sc1)计算音频特征F_A和图像特征F_I间的相似度，公式如下：

Sc2)利用sigmoid函数来根据音频特征F_A和图像特征F_I间的相似度构造不同的注意力权重；利用图像特征向量来引导音频特征向量对齐，生成音频的检索特征向量F_A’：

F_A'＝F_A×σ(S(F_I,F_A))

其中，σ表示sigmoid函数操作；

Sc3)利用重建的音频的检索特征向量F_A’来对齐图像特征向量，得到图像的检索特征向量F_I’：

F_I'＝F_I×σ(S(F_I,F_A’))。

4.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：步骤S5)中计算模型总损失函数值，包括双向三元组损失函数L_β和噪声对比估计InfoNCE损失函数

两部分，所述的模型总损失函数L的计算公式为：

其中，γ表示权重参数值。

5.根据权利要求4所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：所述双向三元组损失函数L_β的计算公式为：

/>

其中，N为数据集中的样本对总数量；当i＝j时，

和/>

表示正样本对，当i≠j时，/>

和/>

表示负样本对；α表示间隔参数，其作用是拉大正样本对和负样本对间的差距；[x]₊＝max(x，0)，/>

表示/>

和/>

间的相似度值。

6.根据权利要求4所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法，其特征在于：所述噪声对比估计InfoNCE损失函数

的计算公式为：

其中，τ表示温度系数，属于可学习变量。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。