CN113326392B

CN113326392B - 基于四元组哈希的遥感图像音频检索方法

Info

Publication number: CN113326392B
Application number: CN202110490965.3A
Authority: CN
Inventors: 陈亚雄; 汤一博; 熊盛武; 路雄博; 荣毅
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2022-11-18
Anticipated expiration: 2041-05-06
Also published as: CN113326392A

Abstract

本发明公开了一种基于四元组哈希的遥感图像音频检索方法，主要解决现存方法未能充分捕捉图像和音频的类别级语义及语义信息利用不足的问题。本发明设计了一种新的四元组哈希网络学习图像和声音的相对语义相似性关系和类别级语义信息，利用自适应跨模态遥感图像音频学习策略生成哈希码，最后利用相似度计算来匹配正确的遥感图像‑音频对。本发明提出了一个新的目标函数来进行有效的哈希码学习，新的目标函数不仅捕获了不同模式下哈希码的相对语义相关，学习了深度特征的相对语义相关，而且增强了哈希码的类别级语义，减少了类哈希码和哈希码之间的量化误差。本发明充分利用图像和音频的语义信息，进一步提升检索性能。

Description

基于四元组哈希的遥感图像音频检索方法

技术领域

本发明属于遥感图像检索领域，具体涉及一种基于四元组哈希的遥感图像音频检索方法。

背景技术

随着地球观测技术的迅速发展，跨模态遥感图像音频检索在遥感数据处理领域受到广泛关注，因此，在大规模的遥感数据中，挖掘出有用的信息是非常关键的。为了挖掘有用的信息，许多研究人员对遥感数据检索的研究非常关注。因为遥感数据检索可以快速检索到有用的信息，并已被应用于许多方面。遥感数据检索可分为单模态遥感数据检索和跨模态遥感数据检索。单模遥感数据检索可以在相同模式下进行类似的遥感数据检索，跨模态遥感数据检索可以在不同的模态下执行类似的数据检索。

随着跨模态遥感数据的爆炸性增长，高效的遥感数据分析技术在净化跨模态遥感数据的异构相关性方面受到了迫切的关注。跨模态遥感图像声音检索的任务是利用声音对相关遥感图像进行检索。由于跨模态数据的异构性，用户很难迅速获得有利的信息。如何解决跨模态遥感数据的异构问题是跨模态遥感检索任务的重要挑战。

近年来，有很多学者利用深度学习方法解决多模态遥感数据的异构性。常见的做法是将所有模态的数据编码到它们相应的特征中，然后在共同表征空间中计算图像和声音之间的相似性。尽管现有的跨模态遥感图像声音检索方法有一定的发展，但是仍然有两点不足：1)一些跨模态遥感图像声音检索方法只学习了图像和声音的相似关系，而忽略了语义的相似关系，这导致了跨模态检索的性能较差。2)图像和声音通常包含丰富而复杂的结构，而现存方法未能充分捕捉图像和声音的类别级语义，这将导致数据语义信息利用不足的问题，并最终影响检索性能。

发明内容

本发明的目的是针对上述不足，提出基于四元组哈希的遥感图像音频检索方法，通过学习图像和声音的相对语义相似性关系和类别级语义信息，利用自适应跨模态遥感图像音频学习策略生成哈希码，最后利用相似度计算来匹配正确的遥感图像-音频对。本发明充分利用图像和音频的语义信息，进一步提升检索性能。

本发明解决该问题采用的技术方案为：基于四元组哈希的遥感图像音频检索方法，本发明首先设计了一种新的四元组哈希网络来学习哈希码的相对语义相似性关系。本发明主要包括三个学习步骤，看听、学习和选择。给定要查询的遥感图像(音频)，首先看(听)遥感图像(音频)，区分是相似音频(图像)还是不相似音频(图像)。然后利用固定的遥感图像(音频)、相似声音(图像)和不相似声音(图像)的三元组单元直接学习跨模态语义相似关系，并了解其他模态中的样本(音频或遥感图像)。最后，利用相似度计算匹配正确的遥感图像-音频对。除此之外，本发明提出了一个新的目标函数来进行有效的哈希码学习。新的目标函数不仅捕获了不同模式下哈希码的相对语义相关，学习了深度特征的相对语义相关，而且增强了哈希码的类别级语义，减少了类哈希码和哈希码之间的量化误差。

具体步骤如下：

步骤1，划分训练数据集和测试数据集；

步骤2，针对训练数据集，利用四重结构模块选择有效的四元组样本；

步骤3，构建整体网络模型，包括一个图像分支网络I和一个音频分支网络S，用于计算图像和音频的特征表示和哈希码：

图像分支网络包括一系列卷积层和两个全连接层，第一个全连接层是深度特征层，它包含n1个节点，并利用sigmoid函数作为激活函数，第二个全连接层是哈希层，包含K个节点，利用tanh函数作为激活函数；哈希层生成K位的类哈希码p_n，并通过量化函数生成K位的哈希码x_n；使用梅尔频率倒谱系数表示音频，音频分支网络由一系列的卷积层、池化层和两个全连接层组成，全连接层与图像分支网络的深度特征层相同，哈希层生成K位的类哈希码p_n，并通过量化函数生成K位的哈希码x_n；

步骤4，训练整体网络模型，计算整体网络模型的目标函数并更新整体网络模型的初始参数；

步骤5，使用训练好的整体网络模型计算测试数据集中样本的哈希码，将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前n个精度，得出平均精度指标MAP和前n名检索结果。

进一步的，步骤2的具体实现方式如下；

将训练数据集样本划分为N个有效的四元组

其中

和

分别是数据集中语义相似的成对的遥感图像和音频，

为与

语义不相似的遥感图像，

为与

语义不相似的音频。

进一步的，步骤3中计算得到图像的深层特征表示

和

音频的深层特征表示

和

四元组各元素的类哈希码

和

四元组各元素的哈希码

和

进一步的，步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成，四元组相似项的具体表达公式如下：

其中，‖·‖₂表示L₂范式，δ和∈表示边界参数，边界参数在训练阶段自行设置，该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性；

四元组语义项的具体表达公式如下：

其中，φ表示交叉熵损失函数，

和

分别表示四元组中各元素的标签信息；

四元组正则化项的具体表达公式如下：

其中，绝对值函数|x|的近似函数log cosh x，

和

表示类哈希码的第k位，

和

表示哈希码的第k位；

四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成，四元组特征相似项的具体表达公式如下：

其中，‖·‖₂表示L₂范式，μ和η表示边界参数，边界参数在训练阶段自行设置；因此，总目标函数的公式表达如下：

其中，α、β和γ是超参数，通过训练模型从而得到网络的权重参数W和偏置参数B。

进一步的，训练整体网络模型时，使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，哈希码的长度k设置为64，图像分支网络的初始权重使用预先训练好的权值，音频分支网络的权重使用glorot分布进行初始化，α和β设置为1，γ设置为0.01，训练3000轮迭代。

本发明的有益效果是：与现有技术相比，本发明提出的方法不仅捕获了不同模态的哈希码的相对语义相关性，学习了深度特征的相对语义相关性，而且增强了哈希码的类别级语义，减少了类哈希码与哈希码之间的量化误差，进一步提高检索精度。

附图说明

图1为本发明的流程示意图。

图2为本发明的概念说明图。

图3为本发明的网络结构图。

图4为本发明在UCM、Sydney和RSICD图像-声音数据集上利用音频检索遥感图像的部分样例。第一行显示了在UCM图像-声音数据集上的部分结果示例。第二行显示了在Sydney图像-声音数据集上的部分结果示例。第三行显示了在RSICD图像-声音数据集上的部分结果示例。错误的检索结果被标记为灰色方框。

图5为本发明在UCM、Sydney和RSICD图像-声音数据集上利用遥感图像检索音频的部分样例。第一行显示了在UCM图像-声音数据集上的部分结果示例。第二行显示了在Sydney图像-声音数据集上的部分结果示例。第三行显示了在RSICD图像-声音数据集上的部分结果示例。错误的检索结果被标记为灰色方框。

具体实施方式

实施例1

本实施例采用的环境是GeForce GTX Titan X GPU、Inter Core i7-5930K、3.50GHZ CPU、64G RAM、linux操作系统，运用Python和开源库KERAS进行开发。

第一步，划分训练数据集和测试数据集：

使用UCM图像音频数据集，选取该数据集的80％作为训练数据集I_train，余下的20％作为测试数据集I_test；

第二步，利用四重结构模块选择有效的四元组样本：

将训练数据集样本划分为N个有效的四元组

其中

和

分别是数据集中语义相似的成对的遥感图像和音频，

为与

语义不相似的遥感图像，

为与

语义不相似的音频。本发明的网络模型的输入是一个四元组Q，它包含两个音频和两个图像。

第三步，构建一个图片分支网络I和一个音频分支网络S，用于计算图像和音频的特征表示和哈希码：

本发明提出的网络框架主要包括一个图片分支网络I和一个音频分支网络S。本发明利用VGG16的卷积框架作为图像分支网络的主干网，包括一系列卷积层和两个全连接层，第一个全连接层是深度特征层，它包含2000个节点，并利用sigmoid函数作为激活函数。第二个全连接层是哈希层，包含K个节点，利用tanh函数作为激活函数。哈希层生成K位的类哈希码p_n，并通过量化函数生成K位的哈希码x_n。本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)表示音频，音频分支网络由一系列的卷积层、池化层和两个全连接层组成，全连接层与图像分支网络的全连接层相似，哈希层生成K位的类哈希码p_n，并通过量化函数生成K位的哈希码x_n。

该步骤计算得到图像的深层特征表示

和

音频的深层特征表示

和

四元组各元素的类哈希码

和

四元组各元素的哈希码

和

第四步，计算目标函数并更新网络的初始参数：

整体目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成。

四元组相似项的具体表达公式如下：

其中，‖·‖₂表示L₂范式，δ和∈表示边界参数，边界参数在训练阶段自行设置，该目标函数旨在保留在原始空间中匹配的图像和音频的跨模态相似性。

类别级语义可以增强类似的哈希码的潜在相关性。为了捕获遥感图像和音频的类别级语义，利用标签信息为哈希码学习提供分类级语义。四元组语义项的具体表达公式如下：

其中，φ表示交叉熵损失函数，

和

分别表示四元组中各元素的标签信息。

上述损失函数计算的过程中可能产生量化误差，本发明提出了一个四元组正则化项来减少类哈希码和哈希码之间的量化误差。四元组正则化项的具体表达公式如下：

其中，本发明使用了绝对值函数|x|的近似函数log cosh x，

和

表示类哈希码的第k位，

和

表示哈希码的第k位。

为了生成更有效的哈希码，本发明不仅捕获了不同模态下哈希码的相对语义相关性，而且还学习了深度特征的相对语义相关性，可以有效地提高跨模态检索的检索精度。因此，本发明提出四元组特征相似项作为目标函数的一项。四元组特征相似项由音频对图像的三重特征相似项和图像对音频的三重特征相似项组成。四元组特征相似项的具体表达公式如下：

其中，‖·‖₂表示L₂范式，μ和η表示边界参数，边界参数在训练阶段自行设置。

因此，总目标函数的公式表达如下：

其中，α、β和γ是超参数。

具体地，本实施例中使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，哈希码的长度k设置为64，图像分支网络的初始权重使用预先训练好的权值，音频分支网络的权重使用glorot分布进行初始化，α和β设置为1，γ设置为0.01，训练大约3000轮迭代，得到训练好的网络模型，至此，完成了本实施例的流程。

第五步，计算检索精度及测试：

使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码，将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前n个精度，得出平均精度指标MAP和前n名检索结果。

为了评估本发明方法的有效性，将本发明方法与几种最先进的方法进行了检索性能比较，包括SIFT+M、DBLP、CNN+SPEC、DVAN、DIVR、DTBH和SCRL，本实验采用64位哈希码，采用UCM图像-音频数据集，SIFT+M方法利用SIFT特征表示图像数据，利用MFCC表示声音数据，然后将它们相应的特征投影到一个共同的表示空间中，DBLP、CNN+SPEC、DVAN、DIVR、DTBH和SCRL方法按原文执行。

表1

表1是本发明与其他方法在UCM数据集上利用音频检索遥感图像的比较实验结果，其中mAP为平均精度指标，P@K为检索列表中前K名的精度。

表2

表2是本发明与其他方法在UCM数据集上利用图像检索音频的比较实验结果，其中mAP为平均精度指标，P@K为检索列表中前K名的精度。

本发明的实施方案仅仅为了清楚地说明本发明的举例，并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换，但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。

Claims

1.一种基于四元组哈希的遥感图像音频检索方法，其特征在于，包括如下步骤：

步骤1，划分训练数据集和测试数据集；

步骤2的具体实现方式如下；

将训练数据集样本划分为N个有效的四元组

其中

和

分别是数据集中语义相似的成对的遥感图像和音频，

为与

语义不相似的遥感图像，

为与

语义不相似的音频；

步骤4，利用步骤2中得到的四元组样本训练整体网络模型，计算整体网络模型的目标函数并更新整体网络模型的初始参数；

2.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法，其特征在于：步骤3中计算得到图像的深层特征表示

和

音频的深层特征表示

和

四元组各元素的类哈希码

和

四元组各元素的哈希码

和

3.如权利要求2所述的一种基于四元组哈希的遥感图像音频检索方法，其特征在于：步骤4中的目标函数由四元组相似项、四元组语义项、四元组正则化项和四元组特征相似项组成，四元组相似项的具体表达公式如下：

四元组语义项的具体表达公式如下：

其中，φ表示交叉熵损失函数，

和

分别表示四元组中各元素的标签信息；

四元组正则化项的具体表达公式如下：

其中，绝对值函数|x|的近似函数log cosh x，

和

表示类哈希码的第k位，

和

表示哈希码的第k位；

4.如权利要求3所述的一种基于四元组哈希的遥感图像音频检索方法，其特征在于：训练整体网络模型时，使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，哈希码的长度k设置为64，图像分支网络的初始权重使用预先训练好的权值，音频分支网络的权重使用glorot分布进行初始化，α和β设置为1，γ设置为0.01，训练3000轮迭代。

5.如权利要求1所述的一种基于四元组哈希的遥感图像音频检索方法，其特征在于：步骤1中使用UCM图像音频数据集，选取该数据集的80％作为训练数据集I_train，余下的20％作为测试数据集I_test。