CN110795590B

CN110795590B - 基于直推式零样本哈希的多标签图像检索方法及设备

Info

Publication number: CN110795590B
Application number: CN201910943151.3A
Authority: CN
Inventors: 邹勤; 曹玲
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-04-18
Anticipated expiration: 2039-09-30
Also published as: CN110795590A

Abstract

本发明公开了一种用于多标签图像检索的直推式零样本哈希方法及设备。本方法利用带有标注的源域数据和不带标注的目标域数据进行零样本训练，结合深度卷积神经网络学习利用源域学习视觉特征与语义嵌入之间的关系，利用目标域缓解域偏移的问题，构建了一种端到端的深度学习模型，对没有认为标注信息的图像进行检索，输出与检索图像类似的多幅图像，有效的提高了无标注多标签图像的检索效率。

Description

基于直推式零样本哈希的多标签图像检索方法及设备

技术领域

本发明涉及人工智能和图像检索领域，具体涉及一种基于直推式零样本哈希的多标签图像检索方法及设备。

背景技术

哈希算法能在保持数据相似性的同时将高维数据转换为紧凑的二进制代码，具有计算效率高、存储成本低的优点，在大规模图像检索中被广泛应用。现有的哈希算法大致可以分为有监督的和无监督的两类。有监督的哈希算法将人为标注的信息(如语义标签和相似性)融入到学习过程中以寻找最优的哈希函数，而无监督的哈希算法通常利用未标记的数据的内在流形结构来学习哈希函数。

近年来受深度神经网络在计算机视觉应用领域取得显著成就的启发，许多哈希算法转向使用深度神经网络进行哈希学习。这些深度哈希算法大大提高了哈希检索的性能。但是随着数据的大规模增加，现在很多图像可能包含以前没有定义的概念。比如每年都会有不同外观的商业机器人投放市场，包含这些新产品的图片与之前带有预定义标签的图片相比是“不可见的”。由于手工标注的成本很高，这些包含新物体的图片大多缺少真实标签，所以用这些图片进行有监督的哈希检索存在巨大的挑战。

零样本学习的出现一定程度上缓解了这一问题，但是现有的零样本学习算法大多是针对单标签图像的，运用的是一对一的视觉语义表示对。在复杂的实际场景中，一个图像通常包含多个对象，具有更为复杂的语义关系。如何表示多标签图像复杂的视觉语义关系以及如何缓解从源域中学习到的哈希函数不完全适应目标域产生的域偏移问题常常难以解决。

针对上述问题，本发明提出了一种新的基于直推式零样本哈希的多标签图像检索方法。本发明致力于用带标记的源数据学习视觉图像与语义嵌入之间的关系，利用目标域的未标记数据缓解域偏移问题，研究和探索出一种准确率更好的图像检索算法。

发明内容

本发明提出的方法，输入是一幅待检索的图像，输出为与输入图像包含相同类别物体的多幅图像。本发明使用源域和目标域图像共同训练网络，缓解域偏移问题，使用视觉-语义一致性排序将源域和目标域联系起来提高检索准确率。

本发明所设计的一种基于直推式零样本哈希的多标签图像检索方法，包含以下步骤：

步骤S1，构建已经标注的源域图像数据集以及标签集和未标注的目标域图像集，源域图像数据集和目标域图像数据集中的图像不含有相同类的物体；

步骤S2，构建深度学习网络模型，该模型包括特征提取网络，哈希学习网络和视觉-语义一致性学习网络；

步骤S3，利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练，源域图像数据集用于学习视觉图像和语义嵌入之间的关系，产生视觉语义损失；目标域图像数据集用于缓解域偏移，通过视觉-语义一致性学习网络得到预测标签作为监督信息产生哈希损失，两种损失共同反向传播更新网络；

步骤S4，利用S3训练好的哈希学习网络实现待检索图像的哈希检索。

进一步地，所述步骤S1具体为：

步骤S1-1,选取M个带有标注信息的图像形成源域数据集，每个图像里含有一个或多个物体类别；

步骤S1-2,对源域数据集中的M个图像中包含的类别进行分析，统计类别的总个数n，得到长度为n的标签，每一位代表一个类别，含有该类别图像时该位值为1，否则为0；

步骤S1-3，选择N个不含有标注信息的图像形成目标域数据集，这N个图像均不包含S1-2中所述的n个类别，即目标域和源域图像中包含的物体类别不重叠。

进一步地，所述步骤S2具体为：

深度学习网络为一个端到端网络，特征提取网络为全卷积网络，包含卷积层和池化层；哈希学习网络为全连接网络，包含全连接层；视觉－语义一致性学习网络为全连接网络，包括全连接层。

更进一步地，所述步骤S2中特征提取网络包含7层，第1层为输入层，由N幅图像构成，图像尺寸统一缩放为256×256，第2层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为2，池化尺寸为3×3，步长为2；第3层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为1，池化尺寸为3×3，步长为2；第4层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第5层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第6层为卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层所得结果的特征图维度为4×4×256，将其展开得到4096维的特征向量。

更进一步地，本发明中采用聚焦损失+量化损失+相似度损失作为模型的损失函数，其定义为：

L_loss＝L_rank+L_p+L_q

具体地，

其中

和

分别代表与第i个实体相关和不相关的两个数据集，

代表指示符，

表示第i个实体与第j个标签相关，

表示第i个实体与第j个标签不相关，w_i是一个正则化参数，O_ip代表在嵌入空间中第i个图像的视觉实例与第p个语义概念的关联度得分；

其中，

表示所有图像哈希码的集合，S＝{s_ij}表示图像的相似性矩阵；

其中

代表哈希层输出的概率分布，

代表标签指示符，

表示哈希层的输出量化为0，

表示哈希层的输出量化为1。

进一步地，所述步骤S3具体为：

步骤S3-1，将S1中的源域数据集数据输入深度学习网络得到预测标签，将预测标签与源域标注集进行损失反向传播更新网络参数；

步骤S3-2，从S1中的目标域数据集中选取一部分作为训练集数据输入深度学习网络，进行实例-类别一致性排序，选取排序分数最高的作为预测标签；

步骤S3-3，预测标签作为监督信息进行哈希检索，将目标域训练集数据输入哈希学习网络得到哈希码，将哈希码相似度和预测标签相似度进行对比产生的哈希损失反向传播更新网络参数；

进一步地，所述步骤S4具体为：

将待检索图像和S1中的目标域数据集(未用于训练部分)输入特征提取网络和哈希学习网络得到各自的哈希码，根据相似图像哈希码也相似的原则进行哈希检索，挑选出与待检索图像最相近的图像；

基于同样的发明构思，本发明第二方面提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

基于同样的发明构思，本发明第三方面提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。

本发明的优点：

1、不同于当下零样本图像检索大多是针对单标签图像，本发明目前是第一项研究多标签图像的零样本哈希检索工作。针对多标签图像检索中的域偏移问题，提出了一种基于直推式的零样本哈希方法，在训练阶段同时使用有标记的源数据和未标记的目标数据，源数据用于学习视觉图像和语义嵌入之间的关系，目标数据用于研究已知标签和未知标签之间的联系以缓解域偏移程度。

2、本发明提出了一种基于实例－概念一致性的可视化语义映射排序算法。相对于直接学习多标签图像的语义表达，本发明通过研究实例和类别之间的内在联系，将已知类和未知类的标签联系起来。基于这种联系，用具有较高的排序相关分数的类别作为预测的目标数据标签。这种算法克服了直接学习语义表达的困难性，能够提高零样本多标签图像哈希检索算法的准确性；在特征提取的时候，采用全卷积网络，使得检索速度更快。

3、本发明提出了一种聚焦量化损失减小离散二进制码与哈希网络连续输出之间的差异。由于大量简单样本的梯度积累对训练没有帮助，聚焦量化损失通过减少简单样本的权重来促进训练过程。这种损失设计可以使哈希检索算法更加高效和快速。

附图说明

图1是本发明实施例的深度学习神经网络总体架构图。

图2是本发明的系统流程图。

具体实施方式

传统的零样本哈希检索的方法主要是针对但标签图像，由于现实情况下一幅图像中往往包含多个类别的物体，传统的零样本哈希检索方法的效果并不好。本发明提出一种基于直推式零样本哈希的多标签图像检索方法，本方法将带有标注的源域数据和不带标注的目标域数据都用于训练，结合深度学习网络学习利用源域学习视觉特征与语义嵌入之间的关系，利用目标域缓解域偏移的问题，从而实现更为准确的多标签图像检索。

本发明提供的方法设计了一种新型的深度学习网络模型，其总体结构参见图1。其具体实施例包含以下步骤：

步骤S1，构建已经标注的源域图像数据集以及标签集和未标注的目标域图像集；

具体实施过程说明如下：

步骤S1-1，选取M个带有标注信息的图像形成源域数据集，每个图像里含有一个或多个物体；

步骤S1-2，对源域数据集中的M个图像中包含的类别进行分析，统计类别的总个数n，得到长度为n的标签，每一位代表一个类别，含有该类别图像该位的值为1，否则为0；

步骤S1-3，选择N个不含有标注信息的图像形成目标域数据集，这N个图像均不包含S1-2中所述的n个类别，及目标域和源域图像中包含的物体类别不重叠。

优选地，选取含有18个类别标签的NUS-WIDE数据集和含有17个类别标签的VOC2012数据集，其中一个作为源域数据集，一个作为目标域数据集。

步骤S2，构建深度学习网络模型，该模型包括特征提取网络，哈希学习网络和视觉-语义一致性学习网络；特征提取网络为全卷积网络，包含卷积层和池化层；哈希学习网络为全连接网络，包括全连接层；视觉－语义一致性学习网络为全连接网络，包括全连接层；

具体步骤为：

S2-1，将N幅图像依次输入特征提取网络，输出N个特征向量；

S2-2，将上一步得到的N个特征向量输入哈希学习网络，输出为N个定长的哈希码；

S2-3，将上一步得到的N个哈希码输入视觉－语义一致性学习网络，输出为视觉特征与语义词向量之间的关联度得分。

进一步的，所述步骤S2中特征提取网络包含7层，第1层为输入层，由N幅图像构成，图像尺寸统一缩放为256×256，第2层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为2，池化尺寸为3×3，步长为2；第3层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为1，池化尺寸为3×3，步长为2；第4层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第5层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第6层为卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层所得结果的特征图维度为4×4×256，将其展开得到4096维的特征向量。

优选地，池化层采用最大值池化法；

进一步地，所述步骤S2中哈希学习网络包含1层全连接层，将特征提取网络输出的特征向量与j个神经元连接，生成长度为j的哈希码；

进一步地，所述步骤S2中视觉-语义学习网络包含1层全连接层，将哈希学习网络输出的j个向量值与d个神经元连接，生成长度为d的视觉-语义一致性得分；

进一步地，采用聚焦损失+量化损失+相似度损失作为模型的损失函数，其定义为：

L_loss＝L_rank+L_p+L_q

具体地，

其中

和

分别代表与第i个实体相关和不相关的两个数据集，

代表指示符，

表示第i个实体与第j个标签相关，

表示第i个实体与第j个标签不相关，w_i是一个正则化参数，O_ip代表在嵌入空间中第i个图像的视觉实例与第p个语义概念的关联度得分。

其中，

表示所有图像哈希码的集合，S＝{s_ij}表示图像的相似性矩阵。

其中

代表哈希层输出的概率分布，

代表标签指示符，

表示哈希层的输出量化为0，

表示哈希层的输出量化为1。

具体的步骤为：

S3-1，从源域数据集中划分出P幅图像为训练图像，从目标域数据集中划分出Q幅图像为训练图像集，K幅图像为测试图像集，其余N-Q-K幅图像作为查询图像集；

S3-2，将源域训练集的P幅图像及其标签依次输入特征提取网络，输出P个特征向量；

S3-3，将上一步得到的P个特征向量输入哈希学习网络，输出为P个定长的哈希码；

S3-4，将上一步得到的P个哈希码输入视觉－语义一致性学习网络，得到视觉特征与语义词向量之间的关联度得分，得到源域数据图像的预测标签；

S3-5，对比上一步得到的预测标签与源域数据的真实标签之间的相似度，产生计算视觉－语义一致性损失并据此优化训练模型；

S3-6，将目标域训练集的Q幅图像输入特征提取网络，输出Q个特征向量；

S3-7，将上一步的Q个特征向量输入哈希学习网络，输出为Q个定长的哈希码；

S3-8，将上一步得到的Q个哈希码输入视觉－语义一致性学习网络,输出为Q个目标域图像的预测标签；

S3-9，将源域训练集的P幅图像和目标域的Q幅图像一起输入特征提取网络，输出P+Q个特征向量；

S3-10，将上一步得到的P+Q个特征向量和源域P幅图像的真实标签以及S2-6中得到的目标域Q幅图像的预测标签输入哈希学习网络进行哈希检索，输出为哈希损失并据此优化训练模型；

S3-11，将目标域训练集的Q幅图像输入特征提取网络，输出Q个特征向量；

S3-12，将上一步的Q个特征向量输入哈希学习网络，输出为Q个定长的哈希码；

S3-13，将上一步得到的Q个哈希码输入视觉－语义一致性学习网络,输出为更新后的Q个目标域图像的预测标签；

步骤S4，利用S3训练好的哈希学习网络实现待检索图像的哈希检索；

利用步骤S3训练好的深度学习模型，将目标域测试数据集中的1幅图像和目标域查询数据集中的N-Q-K幅图像分别输入特征提取网络，得到1个特征向量和N-Q-K个特征向量，将这1个和N-Q-K特征向量分别输入哈希学习网络，得到1个和N-Q-K个定长的哈希码，根据哈希码进行图像检索，输出为与输入的1幅目标域测试数据集图像相似的i幅图像。

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的方法。

基于同样的发明构思，本发明第三方面提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上所述的方法。

本发明的优点：

1.不同于当下零样本图像检索大多是针对单标签图像，本发明目前是第一个研究多标签图像的零样本哈希检索工作。针对多标签图像检索中的域偏移问题，提出了一种基于直推式的零样本哈希方法，在训练阶段同时使用有标记的源数据和未标记的目标数据，源数据用于学习视觉图像和语义嵌入之间的关系，目标数据用于研究已知标签和未知标签之间的联系以缓解域偏移程度。

2.本发明提出了一种基于实例－概念一致性的可视化语义映射排序算法。相对于直接学习多标签图像的语义表达，本发明通过研究实例和类别之间的内在联系，将已知类和未知类的标签联系起来。基于这种联系，用具有较高的排序相关分数的类别作为预测的目标数据标签。这种算法克服了直接学习语义表达的困难性，能够提高零样本多标签图像哈希检索算法的准确性；在特征提取的时候，采用全卷积网络，使得检索速度更快。

3.本发明提出了一种聚焦量化损失减小离散二进制码与哈希网络连续输出之间的差异。由于大量简单样本的梯度积累对训练没有帮助，聚焦量化损失通过减少简单样本的权重来促进训练过程。这种损失设计可以使哈希检索算法更加高效和快速。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于直推式零样本哈希的多标签图像检索方法，包含以下步骤：

步骤S3，利用S1构建的图像数据集对步骤S2构建的深度学习模型进行训练，源域图像数据集用于学习视觉图像和语义嵌入之间的关系，产生视觉语义损失；目标域图像数据集用于缓解域偏移，通过视觉-语义一致性学习网络得到预测标签作为监督信息产生哈希损失，两种损失共同反向传播更新网络，具体如下：

2.根据权利要求1所述的用于多标签图像检索的直推式零样本哈希方法，其特征在于：所述步骤S1具体为：

步骤S1-1，选取M个带有标注信息的图像形成源域数据集，每个图像里含有一个或多个物体类别；

步骤S1-2，对源域数据集中的M个图像中包含的类别进行分析，统计类别的总个数n，得到长度为n的标签，每一位代表一个类别，含有该类别图像时该位值为1，否则为0；

3.根据权利要求1所述的用于多标签图像检索的直推式零样本哈希方法，其特征在于：所述构建深度学习网络为一个端到端网络；所述特征提取网络为全卷积网络，包含卷积层和池化层；所述哈希学习网络为全连接网络，包含全连接层。

4.根据权利要求3所述的用于多标签图像检索的直推式零样本哈希方法，其特征在于：所述步骤S2中特征提取网络包含7层，第1层为输入层，由N幅图像构成，图像尺寸统一缩放为256×256，第2层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为2，池化尺寸为3×3，步长为2；第3层为卷积池化层，卷积使用64个大小为5×5的卷积核，步长为1，池化尺寸为3×3，步长为2；第4层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第5层为卷积池化层，卷积使用128个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第6层为卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层卷积池化层，卷积使用256个大小为3×3的卷积核，步长为1，池化尺寸为3×3，步长为2；第7层所得结果的特征图维度为4×4×256，将其展开得到4096维的特征向量。

5.根据权利要求3所述的用于多标签图像检索的直推式零样本哈希方法，其特征在于：采用聚焦损失+量化损失+相似度损失作为模型的损失函数，其定义为：

L_loss＝L_rank+L_p+L_q

具体地，