CN112364195B

CN112364195B - 一种基于属性引导对抗哈希网络的零样本图像检索方法

Info

Publication number: CN112364195B
Application number: CN202011140166.5A
Authority: CN
Inventors: 冀中; 陈珂鑫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2022-09-30
Anticipated expiration: 2040-10-22
Also published as: CN112364195A

Abstract

本发明属于图像处理的技术领域，具体涉及一种基于属性引导对抗哈希网络的零样本图像检索方法，包括将图像的高维特征向量输入到一个三层全连接神经网络V2A‑Net，将文本的高维特征向量输入到一个三层全连接神经网络T2A‑Net，把V2A‑Net输出的图像特征和T2A‑Net输出的文本特征输入到判别器D，把V2A‑Net输出的图像特征f_V2A和T2A‑Net输出的文本特征f_T2A输入到一个三层全连接哈希码生成网络A2H‑Net，从而产生图像对应的哈希码和文本对应的哈希码。本发明的检索方法能够显著提高零样本条件下以标签检索图像的准确率，并极大地提高了检索效率，从而实现了图像的快速检索。

Description

一种基于属性引导对抗哈希网络的零样本图像检索方法

技术领域

本发明属于图像处理的技术领域，具体涉及一种基于属性引导对抗哈希网络的零样本图像检索方法。

背景技术

图像识别和处理是人工智能领域研究的基本课题之一，对AI方面的学术发展和工业生产都有重要意义，其基本思想是利用算法让计算机能够像人类一样“看到”图像，并能够识别其类别，从而赋予计算机视觉识别的能力。

随着大数据时代的到来和深度学习卷积神经网络的飞速发展，对于特定的任务，只要能够获得每一个类别足够多的图像，将其输入到深度神经网络学习得到网络的最优参数矩阵，就能够在测试数据集上轻松地达到很高的识别准确率。

然而，在现实生活中，海量数据往往不是轻易就能够获得的，并且，人工标注的成本也相当高，因此，为了解决上述问题，对零样本学习技术的研究具有非常实际的应用意义。零样本学习与传统模式识别技术不同之处在于训练样本和测试样本的类别互不相交，也就是说，测试阶段的数据属于未见类，但是参与训练的已知类别与测试阶段的未见类别之间能够共享一定维度的属性语义信息，所以，如何利用这些属性语义信息把在已知类别的数据下学习到的模型有效地迁移到未见类别，是零样本学习研究的重点，这也是本发明着力解决的问题之一。并且，现有的图像检索方法的准确率低，检索效率低，不能满足高效检索的需求。

为此，亟需提出一种新型的图像检索方法以解决上述问题。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于属性引导对抗哈希网络的零样本图像检索方法，能够显著提高零样本条件下以标签检索图像的准确率，并极大地提高了检索效率，从而实现了图像的快速检索。

为了实现上述目的，本发明采用如下技术方案：

一种基于属性引导对抗哈希网络的零样本图像检索方法，包括以下步骤：

S1、向ResNet-101模型输入图像，向Word2Vec模型输入所述图像的类别标签的文本，提取所述图像的高维特征向量f_img和所述文本的高维特征向量f_txt；

S2、将所述f_img输入到一个三层全连接神经网络V2A-Net，将所述f_txt输入到一个三层全连接神经网络T2A-Net，以二值化属性向量作为监督训练所述V2A-Net和所述T2A-Net的网络参数；

S3、把所述V2A-Net输出的图像特征f_V2A和所述T2A-Net输出的文本特征f_T2A共同输入到一个由两层神经网络构成的判别器D，以输入的图像特征的标签为1，以输入的文本特征的标签为0，对抗训练并调节所述V2A-Net和所述T2A-Net的网络参数；

S4、经过所述S3的对抗训练后，把所述V2A-Net输出的图像特征f_V2A和所述T2A-Net输出的文本特征f_T2A输入到一个三层全连接哈希码生成网络A2H-Net从而产生所述图像对应的哈希码和所述文本对应的哈希码。

进一步地，所述S2中的监督训练所述V2A-Net还包括计算所述V2A-Net的损失函数L_V2A，其计算过程包括

P＝softmax(W_V2Af_img)，L_V2A＝-log(P(a))；其中，W_V2A表示图像通道的参数，softmax为分类函数，P表示输出是各个属性的概率，P(a)表示所述V2A-Net正确预测图像属性的概率。

进一步地，所述S2中的监督训练所述T2A-Net还包括计算所述T2A-Net的损失函数L_T2A，其计算过程包括

P＝softmax(W_T2Af_txt)，L_T2A＝-log(P(b))；其中，W_T2A表示文本通道的参数，softmax为分类函数，P表示输出是各个属性的概率，P(b)表示所述T2A-Net正确预测文本属性的概率。

进一步地，所述S3还包括计算所述判别器D的交叉熵损失函数L_advD，其计算过程包括

L_advD＝-E_fimg～fimg[logD(V2A(f_img))]-E_ftxt～ftxt[log(1-D(T2A(f_txt)))]；其中，V2A(f_img)表示所述V2A-Net输出的图像特征，T2A(f_txt)表示所述T2A-Net输出的文本特征，D(V2A(f_img))表示所述判别器D输出的图像模态的概率，D(T2A(f_txt))表示所述判别器D输出的文本模态的概率，

E_fimg～fimg[logD(V2A(f_img))]表示训练图像样本的期望，

E_ftxt～ftxt[log(1-D(T2A(f_txt)))]表示训练文本样本的期望。

进一步地，所述S3还包括计算图像通道和文本通道的交叉熵损失函数L_advM，其计算过程包括

L_advM＝-E_fimg～fimg[log(1-D(V2A(f_img)))]-E_ftxt～ftxt[logD(T2A(f_txt))]；

其中，E_fimg～fimg[log(1-D(V2A(f_img)))]表示训练图像样本的期望，E_ftxt～ftxt[logD(T2A(f_txt))]表示训练文本样本的期望，L_dvD和L_advM分别是用来更新判别器参数和图像文本通道生成器参数的对抗cross-entropy交叉熵损失函数。

进一步地，所述S4还包括计算图像哈希码和文本哈希码之间的距离约束L_H，

其中，S_i,j表示所述图像和所述文本之间的相似度矩阵，当所述图像和所述文本的标签相同时所述S_i,j为1，当所述图像和所述文本的标签不相同时所述S_i,j为0，并且，用P_img＝A2H(f_V2A，W_A2H)表示所述图像的哈希码，Q_txt＝A2H(f_T2A，W_A2H)表示所述文本的哈希码，其中，W_A2H表示所述A2H-Net的网络参数，所述θ_i,j表示图像哈希码和文本哈希码之间的汉明距离，θ_i,j＝P_img*Q_txt。

进一步地，所述S1中的输入图像之前还包括将所述ResNet-101模型在ImageNet上进行预训练。

进一步地，所述S1中的输入所述ResNet-101模型的所述图像均被裁剪成统一尺寸。

本发明的有益效果在于：1)本发明通过设计两路对抗网络，并在训练时引入跨域共享属性信息来引导图像数据和标签文本产生更具判别性的哈希码，从而获得了一种更高效的零样本图像检索方法；2)本发明以属性作为监督并引入不同模态间的对抗，使不同模态的特征具有模态内判别性以及模态间的相似性，通过监督与对抗学习的结合以及搭配哈希码网络，设计了一种新的零样本检索算法，能够显著提高零样本条件下以标签检索图像的准确率，并极大地提高了检索效率，从而实现了图像的快速检索；3)同时，在零样本学习适用在数据标签不足时，新类别数据特征与已有数据相似的情况下，跨模态检索能够实现用一个模态的数据(比如图像)检索另一模态的样本(比如文本)，使得本检索方法在搜索引擎方面具有很好的实用性。

附图说明

图1为本发明的流程图。

图2为本发明中的视觉模态和文本模态的对抗训练的示意图。

图3为本发明的生成哈希码的网络结构的示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件，本领域技术人员应可理解，制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1～3和具体实施例对本发明作进一步详细说明，但不作为对本发明的限定。

一种基于属性引导对抗哈希网络的零样本图像检索方法，先通过属性监督图像和文本的特征学习为两路特征提取网络的参数赋予初始化，并在图像和文本间引入一个判别器，对抗训练来微调两个网络的参数，使相同类别的图像和文本的特征在高维空间更接近，然后把学习到的图像文本两路特征输入到一个哈希码产生网络，再经过汉明距离的约束损失函数来训练此网络的参数，最后得到文本和图像的哈希码，从而实现快速检索，包括以下步骤：

S1、将训练集图像裁剪成统一尺寸输入到预训练好的ResNet-101，从而实现向ResNet-101模型输入图像，将类别标签文本输入到预训练好的Word2Vec模型，从而向Word2Vec模型输入图像的类别标签的文本，并提取图像的高维特征向量f_img和文本的高维特征向量f_txt。

S2、如图2所示，将f_img输入到一个三层全连接神经网络V2A-Net，将f_txt输入到一个三层全连接神经网络T2A-Net，以二值化属性向量作为监督训练V2A-Net和T2A-Net的网络参数，同时，计算V2A-Net的损失函数L_V2A，其计算过程包括

P＝softmax(W_V2Af_img)，L_V2A＝-log(P(a))；其中，W_V2A表示图像通道的参数，softmax为分类函数，P表示输出是各个属性的概率，P(a)表示V2A-Net正确预测图像属性的概率；

计算T2A-Net的损失函数L_T2A，其计算过程包括

P＝softmax(W_T2Af_txt)，L_T2A＝-log(P(b))；其中，W_T2A表示文本通道的参数，softmax为分类函数，P表示输出是各个属性的概率，P(b)表示T2A-Net正确预测文本属性的概率。

S3、把V2A-Net和T2A-Net看作两个生成器，引入一个两层全连接神经网络作为判别器D，把V2A-Net输出的图像特征f_V2A和T2A-Net输出的文本特征f_T2A共同输入到一个由两层神经网络构成的判别器D，以输入的图像特征的标签为1，以输入的文本特征的标签为0，cross-entropy交叉熵作为判别器D的损失函数，用梯度下降的方法更新V2A-Net和T2A-Net的参数最小化判别器D的损失函数，更新判别器D的参数最大化损失函数，以此对抗微调两个生成器模型参数，从而对抗训练并调节V2A-Net和T2A-Net的网络参数；

并且，计算判别器D的交叉熵损失函数L_advD，其计算过程包括

L_advD＝-E_fimg～fimg[logD(V2A(f_img))]-E_ftxt～ftxt[log(1-D(T2A(f_txt)))]；

其中，V2A(f_img)表示V2A-Net输出的图像特征，T2A(f_txt)表示T2A-Net输出的文本特征，D(V2A(f_img))表示判别器D输出的图像模态的概率，D(T2A(f_txt))表示判别器D输出的文本模态的概率，

E_fimg～fimg[logD(V2A(f_img))]表示训练图像样本的期望，

E_ftxt～ftxt[log(1-D(T2A(f_txt)))]表示训练文本样本的期望。

计算图像通道和文本通道的交叉熵损失函数L_advM，其计算过程包括

S4、经过属性的监督学习与不同模态间的对抗学习后，图像和文本被映射到一个相同维度的高维特征空间，接下来，把这些高维特征输入到设计的一个三层全连接哈希码生成网络并产生图像和文本对应的哈希码，从而提高了零样本检索的有效性和高效性，如图3所示，把V2A-Net输出的图像特征f_V2A和T2A-Net输出的文本特征f_T2A输入到一个三层全连接哈希码生成网络A2H-Net从而产生图像对应的哈希码和文本对应的哈希码，同时，计算图像哈希码和文本哈希码之间的距离约束L_H，

其中，S_i,j表示图像和文本之间的相似度矩阵，当图像和文本的标签相同时S_i,j为1，当图像和文本的标签不相同时S_i,j为0，并且，用P_img＝A2H(f_V2A，W_A2H)表示图像的哈希码，Q_txt＝A2H(f_T2A，W_A2H)表示文本的哈希码，其中，W_A2H表示A2H-Net的网络参数，θ_i,j表示图像哈希码和文本哈希码之间的汉明距离，θ_i,j＝P_img*Q_txt，此外，还可以用梯度下降的方法最小化L_H从而可以使相同类别的图像文本的码间距离更小，不同类别的图像文本的码间距离更大。

显然，本发明设计了两步训练生成零样本图像和类别标签哈希码的网络模型，并且，通过在AWA、CUB、SUN数据集上的实验结果，发现了本算法能够显著提高零样本条件下以标签检索图像的准确率，并极大地提高了测试效率，其哈希编码学习兼具高效性和有效性，在跨模态检索领域，能够使不同模态的数据(文本、图像等)经过嵌入网络被映射到相同维度的哈希空间，再通过计算汉明距离从而实现跨模态的检索，并且，本发明的对抗学习的思想也可以应用到深度模型的各个领域，在对抗学习中，对抗网络可包含一个或多个生成器G和一个或多个判别器D，并使损失函数为判别器D的cross-entropy loss，G和D的参数分开训练，通过梯度下降使G的参数最大化loss，D的参数最小化loss，从而通过对抗训练的方法并设计哈希码产生网络来生成图像和文本的哈希码。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于属性引导对抗哈希网络的零样本图像检索方法，其特征在于，包括以下步骤：

S2、将所述f_img输入到一个三层全连接神经网络V2A-Net，将所述f_txt输入到一个三层全连接神经网络T2A-Net，以二值化属性向量作为监督训练所述V2A-Net和所述T2A-Net的网络参数，监督训练所述V2A-Net包括计算所述V2A-Net的损失函数L_V2A，监督训练所述T2A-Net包括计算所述T2A-Net的损失函数L_T2A，所述L_V2A的计算过程包括：P＝softmax(W_V2Af_img)，L_V2A＝-log(P(a))，所述L_T2A的计算过程包括：P＝softmax(W_T2Af_txt)，L_T2A＝-log(P(b))，其中，W_V2A表示图像通道的参数，W_T2A表示文本通道的参数，softmax为分类函数，P表示输出是各个属性的概率，P(a)表示所述V2A-Net正确预测图像属性的概率，P(b)表示所述T2A-Net正确预测文本属性的概率；

S3、把所述V2A-Net输出的图像特征f_V2A和所述T2A-Net输出的文本特征f_T2A共同输入到一个由两层神经网络构成的判别器D，以输入的图像特征的标签为1，以输入的文本特征的标签为0，对抗训练并调节所述V2A-Net和所述T2A-Net的网络参数，并且，计算所述判别器D的交叉熵损失函数L_advD，所述L_advD的计算过程包括：

L_advD＝-E_fimg～fimg[logD(V2A(f_img))]-E_ftxt～ftxt[log(1-D(T2A(f_txt)))]，其中，V2A(f_img)表示所述V2A-Net输出的图像特征，T2A(f_txt)表示所述T2A-Net输出的文本特征，D(V2A(f_img))表示所述判别器D输出的图像模态的概率，D(T2A(f_txt))表示所述判别器D输出的文本模态的概率，E_fimg～fimg[logD(V2A(f_img))]表示训练图像样本的期望，E_ftxt～ftxt[log(1-D(T2A(f_txt)))]表示训练文本样本的期望，

并且，计算图像通道和文本通道的交叉熵损失函数L_advM，所述L_advM的计算过程包括：

L_advM＝-E_fimg～fimg[log(1-D(V2A(f_img)))]-E_ftxt～ftxt[logD(T2A(f_txt))]，其中，E_fimg～fimg[log(1-D(V2A(f_img)))]表示训练图像样本的期望，E_ftxt～ftxt[logD(T2A(f_txt))]表示训练文本样本的期望；

2.如权利要求1所述的基于属性引导对抗哈希网络的零样本图像检索方法，其特征在于：所述S4还包括计算图像哈希码和文本哈希码之间的距离约束L_H，

3.如权利要求1所述的基于属性引导对抗哈希网络的零样本图像检索方法，其特征在于：所述S1中的输入图像之前还包括将所述ResNet-101模型在ImageNet上进行预训练。

4.如权利要求1所述的基于属性引导对抗哈希网络的零样本图像检索方法，其特征在于：所述S1中的输入所述ResNet-101模型的所述图像均被裁剪成统一尺寸。