CN113343014A

CN113343014A - 基于深度异构相关学习的跨模态图像音频检索方法

Info

Publication number: CN113343014A
Application number: CN202110570438.3A
Authority: CN
Inventors: 陈亚雄; 汤一博; 熊盛武; 荣毅; 路雄博
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-09-03

Abstract

本发明公开了一种基于深度异构相关学习的跨模态图像音频检索方法，主要解决现存方法对图像和音频的异构相关性信息利用不足的问题。本发明首先设计了一种新的跨模态成对构造策略来选择有效的图像音频对，这有利于捕捉图像和音频之间的异构相关性。本发明利用深度特征的异构相关性来建立图像和音频之间的关系，通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索，使用正则化约束以减少类哈希码和哈希码之间的量化误差。本发明充分利用深度特征的异构相关性，进一步提升检索性能。

Description

基于深度异构相关学习的跨模态图像音频检索方法

技术领域

本发明属于图像检索领域，具体涉及一种基于深度异构相关学习的跨模态图像音频检索方法。

背景技术

随着互联网上各种图像、文本、音频和视频等数据呈现爆炸式增长，跨模态图像音频检索在计算机视觉和自然语言处理领域得到了广泛的应用，例如搜索引擎和无人驾驶这两种典型应用场景。跨模态图像-音频检索的任务是利用音频检索相关图像，或利用图像检索相关音频。然而由于多模态数据的异构性，用户很难快速、准确地获得有利信息，因此，如何提高检索效率和解决多模态数据的异构问题是跨模态检索任务的两个巨大挑战。

目前已经有一些基于深度学习的研究已经聚焦于多模态数据的异构性问题，常见的做法是将所有模态的数据编码到它们相应的特征中，然后在共同表征空间中计算图像和声音之间的相似性。尽管现有的跨模态遥感图像声音检索方法有一定的发展，然而，现有的跨模态图像-音频检索方法仍然有一些局限性：(1)现有方法没有充分学习异构相关性关系，导致在跨模态学习中对异构相关关系的利用不足。(2)现有的图像音频检索方法利用高维的实值特征进行跨模态检索，这类方法需要大量存储空间。(3)现有的一些跨模态检索方法不能有效地选择好的跨模态配对样本，最终会影响跨模态相关学习的有效性。

发明内容

本发明的目的是针对上述不足，提出一种基于异构相关学习的跨模态图像音频检索方法，该方法利用深度特征的异构相关性来建立图像和音频之间的关系，进而学习哈希码，本发明充分利用深度特征的异构相关性，通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索，能够进一步提升检索性能。

本发明解决该问题采用的技术方案为：基于异构相关学习的跨模态图像音频检索方法，首先，为了减少所需的存储空间，从原始图像和音频中学习哈希码，并使用正则化约束以减少图像和音频的散列码的量化误差。其次，为了更好地建立音频与图像之间的关系，该方法利用深度特征的异构相关性来提高哈希码的相似度。最后，为了选择良好的图像-音频配对样本，本发明设计了一种新的跨模态成对构造策略来选择有效的图像-音频对，这有利于捕捉图像和音频之间的异构相关性。

具体步骤如下：

第一步，划分训练数据集和测试数据集：

将图像数据集分为训练数据集I_train和测试数据集I_test；

第二步，利用跨模态配对结构选择成对的二元组样本：

首先构造N对二元组样本集合

和对应的二元组标签集合

二元组样本集合

由正样本对和负样本对组成，I_i表示第i张图片，V_i表示第i个音频，标签y_i∈{0,1}，标签为1表示图像和音频语义相似，标签为0表示图像和音频语义不相似。

第三步，构建整体网络模型，包括音频网络和图像网络，用于计算图像和音频的特征表示和哈希码：

本发明的整体网络模型框架包含了音频网络和图像网络。

本发明利用VGG16的卷积框架作为图像网络的主干网，包括一系列卷积层和两个全连接层，第一个全连接层包含1000个节点，并且使用tanh激活函数，第二个全连接层包含k个节点，同样也使用了tanh激活函数。第二个全连接层为哈希层，该层生成k位类哈希码，然后利用这k位类哈希码和量化函数生成k位二进制码。

本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)表示音频，利用VGG16的卷积框架作为音频网络的主干网，包括一系列卷积层、池化层和全连接层，卷积层分别使用64个宽度为11的卷积核，64个宽度为17的卷积核和128个宽度为19的卷积核，池化步长为2，激活函数使用ReLU函数。第一个全连接层包含1000个节点，并且使用tanh激活函数，第二个全连接层包含k个节点，同样也使用了tanh激活函数。第二个全连接层为哈希层，该层生成k位类哈希码，然后利用这k位类哈希码和量化函数生成k位二进制码。

本发明将原始图像和音频投影到高维的实值特征，然后将高维实值特征投影成二进制哈希码。图像网络的哈希层所用的哈希函数

公式表达如下：

其中，

表示图像Ii的k位二进制哈希码，F_I(I_i)表示图像Ii经过图像网络卷积得到的深层特征，θ_I表示图像网络中哈希层的参数，τ表示tanh激活函数。

音频网络的哈希层所用的哈希函数

公式表达如下：

其中，

表示音频Vi的k位二进制哈希码，F_V(V_i)表示音频Vi经过音频网络卷积得到的深层特征，θ_V表示图像网络中哈希层的参数，τ表示tanh激活函数。

该步骤计算得到图像的深层特征表示F_I(I_i)，音频的深层特征表示F_V(V_i)，图像I_i的类哈希码

图像Ii的哈希码

音频Vi的类哈希码

音频Vi的哈希码

第四步，计算目标函数并更新网络的初始参数：

总体目标函数由二元组相似项、量化正则化项和异构相关项组成。

二元组相似项的目标是令图像音频正样本对尽可能地相似，图像音频负样本对尽可能地不相似。二元组相似项的公式如下：

其中，‖·‖₂表示L₂范式，max(·)表示最大值函数，m表示边界阈值参数。

上述损失函数计算的过程中可能产生量化误差，本发明提出了一个量化正则化项来减少类哈希码和哈希码之间的量化误差。量化正则化项的具体表达公式如下：

其中，本发明使用了绝对值函数|x|的近似函数log cosh x，

和

表示哈希码的第k位，

和

表示类哈希码的第k位。

为了生成有效的哈希码，本发明利用深度特征的异构相关性来增强哈希码的相关性，由于深度特征的相关性越多，哈希码的相关性就越高。为了保持深层特征的异构相关，异构相关项的表达公式如下：

因此，总目标函数的公式表达如下：

其中，α、β是超参数，表示各项目标函数的权重，可自行设置。

第五步，计算检索精度及测试：

使用上述训练的网络计算测试数据集中样本(图像或音频)的哈希码，将查询样本和数据集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前n个精度，得出平均精度指标MAP和前n名检索结果。

至此，完成了本发明所述方法的流程。

本发明的有益效果是：与现有技术相比，本发明提出的方法充分利用深度特征的异构相关性，通过桥接图像和音频之间的深层特征相关性来生成哈希码用于图像音频检索，减少了类哈希码与哈希码之间的量化误差，进一步提高检索精度。

附图说明

图1为本发明的流程示意图。

图2为本发明的概念说明图。

图3为本发明的网络结构图。

图4为本发明在Mirflickr 25K图像-音频数据集上利用图像检索音频的部分样例。

图5为本发明在Mirflickr 25K图像-音频数据集上利用音频检索图像的部分样例。

具体实施方式

实施例1

本实施例采用的环境是GeForce GTX Titan X GPU、Inter Core i7-5930K、3.50GHZ CPU、64G RAM、linux操作系统，运用Python和开源库KERAS进行开发。

第一步，划分训练数据集和测试数据集：

使用Mirflickr 25K图像音频数据集，制作50000对正负样本图像音频对，选取40000对作为训练数据集I_train，余下的10000对作为测试数据集I_test；

第二步，利用跨模态配对结构选择成对的二元组样本：

首先构造N对二元组样本集合

和对应的二元组标签集合

二元组样本集合

第三步，计算图像和音频的特征表示和哈希码：

本发明的整体框架包含了音频网络和图像网络。

本发明使用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)表示音频，利用VGG16的卷积框架作为音频网络的主干网，包括一系列卷积层、池化层和两个全连接层，卷积层分别使用64个宽度为11的卷积核，64个宽度为17的卷积核和128个宽度为19的卷积核，池化步长为2，激活函数使用ReLU函数。第一个全连接层包含1000个节点，并且使用tanh激活函数，第二个全连接层包含k个节点，同样也使用了tanh激活函数。第二个全连接层为哈希层，该层生成k位类哈希码，然后利用这k位类哈希码和量化函数生成k位二进制码。

公式表达如下：

其中，

表示图像Ii的k位二进制哈希码，F_I(I_i)表示图像Ii经过图像网络卷积后得到的深层特征，θ_I表示图像网络中哈希层的参数，τ表示tanh激活函数，

音频网络的哈希层所用的哈希函数

公式表达如下：

其中，

表示音频V_i的k位二进制哈希码，F_V(V_i)表示音频Vi经过音频网络卷积后得到的深层特征，θ_V表示图像网络中哈希层的参数，τ表示tanh激活函数。

图像Ii的哈希码

音频Vi的类哈希码

音频Vi的哈希码

第四步，计算目标函数并更新网络的初始参数：

其中，本发明使用了绝对值函数|x|的近似函数log cosh x，

和

表示哈希码的第k位，

和

表示类哈希码的第k位。

因此，总目标函数的公式表达如下：

具体地，本实施例中使用Adam算法进行优化，学习率设置为10^-3，批量大小设置为64，哈希码的长度k设置为64，图像网络的初始权重使用预先训练好的权值，音频网络的权重使用glorot分布进行初始化，α设置为1，β设置为0.1，训练1000轮迭代，得到训练好的网络模型。

第五步，计算检索精度及测试：

至此，完成了本实施例的流程。

为了评估本发明方法的有效性，将本发明方法与几种最先进的方法进行了检索性能比较，包括SIFT+M、DBLP、CNN+SPEC、DVAN和V2CMH，本实验采用64位哈希码，采用Mirflickr 25K图像-音频数据集，SIFT+M方法利用SIFT特征表示图像数据，利用MFCC表示声音数据，然后将它们相应的特征投影到一个共同的表示空间中，DBLP、CNN+SPEC、DVAN和V2CMH方法按原文执行。

表1

表1是本发明与其他方法在Mirflickr 25K数据集上利用音频检索图像的比较实验结果，其中mAP为平均精度指标，P@K为检索列表中前K名的精度。

表2

表2是本发明与其他方法在Mirflickr 25K数据集上利用图像检索音频的比较实验结果，其中mAP为平均精度指标，P@K为检索列表中前K名的精度。

本发明的实施方案仅仅为了清楚地说明本发明的举例，并不局限上述举例。本领域人员在此方法上的基础上作不同形式的改变或等同替换，但凡与本发明类似的变化都属于本发明权利要求的保护范围之中。

Claims

1.一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于，包括如下步骤：

第一步，划分训练数据集和测试数据集；

第二步，利用跨模态配对结构选择成对的二元组样本；

其中图像网络包括一系列卷积层和两个全连接层，第一个全连接层包含n1个节点，并且使用tanh激活函数，第二个全连接层包含k个节点，同样也使用了tanh激活函数；第二个全连接层为哈希层，该层生成k位类哈希码，然后利用这k位类哈希码和量化函数生成k位二进制码；音频网络包括一系列卷积层、池化层和全连接层，第一个全连接层包含n1个节点，并且使用tanh激活函数，第二个全连接层包含k个节点，同样也使用了tanh激活函数，第二个全连接层为哈希层，该层生成k位类哈希码，然后利用这k位类哈希码和量化函数生成k位二进制码；

第四步，利用第二步中得到的二元组样本训练整体网络模型，计算整体网络模型的目标函数并更新整体网络模型的初始参数；

第五步，使用训练好的整体网络模型计算测试数据集中样本的哈希码，将查询样本和训练数据集各样本的哈希码之间的汉明距离从大到小排序，并计算排名列表的前n个精度，得出平均精度指标MAP和前n名检索结果。

2.如权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：第二步的具体实现方式如下；

首先构造N对二元组样本集合

和对应的二元组标签集合

二元组样本集合

3.如权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：第三步中整体网络模型将原始图像和音频投影到高维的实值特征，然后将高维实值特征投影成二进制哈希码，其中图像网络的哈希层所用的哈希函数

公式表达如下：

其中，

表示图像Ii的k位二进制哈希码，F_I(I_i)表示图像Ii经过图像网络卷积得到的深层特征，θ_I表示图像网络中哈希层的参数，τ表示tanh激活函数；

音频网络的哈希层所用的哈希函数

公式表达如下：

其中，

表示音频Vi的k位二进制哈希码，F_V(V_i)表示音频Vi经过音频网络卷积得到的深层特征，θ_V表示图像网络中哈希层的参数，τ表示tanh激活函数；

图像Ii的哈希码

音频Vi的类哈希码

音频Vi的哈希码

4.如权利要求3所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：第四步中目标函数由二元组相似项、量化正则化项和异构相关项组成；

二元组相似项的目标是令图像音频正样本对尽可能地相似，图像音频负样本对尽可能地不相似，二元组相似项的公式如下：

其中，‖·‖₂表示L₂范式，max(·)表示最大值函数，m表示边界阈值参数；

量化正则化项来减少类哈希码和哈希码之间的量化误差，量化正则化项的具体表达公式如下：

其中，绝对值函数|x|的近似函数log cosh x，

和

表示哈希码的第k位，

和

表示类哈希码的第k位；

利用深度特征的异构相关性来增强哈希码的相关性，由于深度特征的相关性越多，哈希码的相关性就越高，为了保持深层特征的异构相关，异构相关项的表达公式如下：

因此，总目标函数的公式表达如下：

5.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：使用梅尔频率倒谱系数表示音频，音频网络中卷积层分别使用64个宽度为11的卷积核，64个宽度为17的卷积核和128个宽度为19的卷积核，池化步长为2，激活函数使用ReLU函数。

6.根据权利要求4所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：第四步中使用Adam算法进行训练优化，学习率设置为10^-3，批量大小设置为64，哈希码的长度k设置为64，图像网络的初始权重使用预先训练好的权值，音频网络的权重使用glorot分布进行初始化，α设置为1，β设置为0.1，训练1000轮迭代。

7.根据权利要求1所述的一种基于深度异构相关学习的跨模态图像音频检索方法，其特征在于：第一步中使用Mirflickr 25K图像音频数据集，制作50000对正负样本图像音频对，选取40000对作为训练数据集I_train，余下的10000对作为测试数据集I_test。