CN112199532A

CN112199532A - 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置

Info

Publication number: CN112199532A
Application number: CN202010906456.XA
Authority: CN
Inventors: 吴大衍; 黄梅雪; 李波; 王伟平
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2021-01-08
Anticipated expiration: 2040-09-01
Also published as: CN112199532B

Abstract

本发明涉及一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。该方法包括：构建哈希网络和关系网络；基于软边距的分类损失对哈希网络和关系网络进行训练；将数据库中的每一张图像输入到训练完成的哈希网络中，得到对应的图像哈希码；将待查询图像输入到训练完成的哈希网络中生成哈希码，计算其与数据库中每一张图像的哈希码之间的距离，并根据距离返回满足要求的查询结果。本发明能够同时考虑语义和视觉信息，充分挖掘类别之间的相似关系，从而更好地实现知识迁移，同时基于软边距的分类损失进行哈希学习能够在一定程度上避免对可见类别过拟合学习，提升模型对未见类别的泛化能力，进而提高零样本图像检索的效果。

Description

一种基于哈希编码和图注意力机制的零样本图像检索方法及装置

技术领域

本发明属于信息技术领域，具体涉及一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。

背景技术

随着信息时代的高速发展，图像数据呈现爆炸式增长趋势，在海量图像中进行高效检索的需求与日俱增。而现实生活中，不断有新的类别出现，如何让模型适应新类别的检索，即零样本图像检索，成为热点问题。这一工作在智能监控、精准医疗、电子商务等众多领域都具有重要的实际应用价值。在大规模场景下，零样本哈希方法可以有效地提高计算和存储效率，被广泛应用到零样本图像检索任务中。现有的零样本哈希方法主要包括两个阶段，一是图像特征的提取，二是类别之间相似关系的挖掘。

传统的零样本哈希方法使用手工构建的特征(如LBP、SIFT特征)作为图像特征，然后再进行哈希编码。随着深度学习技术的不断发展，基于深度神经网络的零样本哈希方法取得了一定的突破。例如，中国专利(申请号：201510901348.2，公开号：CN105512289A)将图像特征的学习和哈希码的学习结合在一个深度卷积神经网络中，在提取图像特征的同时生成二值哈希码。通过这种方法，一方面，能够利用深度学习强大的表达能力，保留了图像的语义信息；另一方面，生成的哈希码可以大大降低相似度计算的时间代价，同时减少了空间存储开销，更加适用于大规模场景。

由于缺乏新类别的训练样本，传统的检索模型无法有效地解决新类别的检索问题。一些研究工作尝试通过挖掘类别之间的相似关系，来将已有类别的监督知识迁移到新类别的学习中。其中，语义嵌入空间作为全部类别的公共空间，被广泛应用到零样本学习任务。例如，中国专利(申请号：CN201810095061.9，公开号：CN108399421A)学习到一个图像特征和语义特征联合嵌入的子空间，从而利用词向量的语义能力来进行新类别的识别。

传统的零样本哈希方法使用人工构建的特征，对图像特征的提取不够充分，不能准确表达图像语义信息。并且，这种两阶段的学习使得哈希码的质量很大程度上依赖于特征提取的效果，导致检索准确度不高。

基于深度学习的零样本哈希方法，借助了深度神经网络强大的表达能力，在检索性能上有了很大提升。但是这些方法大多数是通过建立图像特征到语义标签的映射关系来进行知识迁移的，并没有显式地考虑类别之间的相似关系。此外，它们只关注类别在语义嵌入空间中的关系，并没有考虑视觉特征空间的结构，这就导致对相似关系的挖掘不够充分，使得迁移能力存在很大的局限性。

同时，由于缺乏未见类别的样本，零样本哈希方法只能在可见类别上进行哈希学习。这就导致在网络优化过程中，模型容易对可见类别过拟合学习，而限制了对未见类别的泛化能力，严重降低了检索精度。

发明内容

针对现有零样本哈希方法的不足，本发明提出一种基于哈希编码和图注意力机制的零样本图像检索方法及装置。该方法通过构建多关系融合的相似图，能够同时考虑语义和视觉信息，充分挖掘类别之间的相似关系，从而更好地实现知识迁移。同时，该方法提出基于软边距的分类损失进行哈希学习，能够在一定程度上避免对可见类别过拟合学习，提升模型对未见类别的泛化能力，进而提高零样本图像检索的效果。

本发明采用的技术方案如下：

一种基于哈希编码和图注意力机制的零样本图像检索方法，包括以下步骤：

构建哈希网络和关系网络，所述哈希网络用于提取图像特征并将图像特征转化成哈希码，所述关系网络用于构建语义相似图和视觉关系图，利用语义相似图和视觉相似图得到多关系融合的相似图，并将多关系融合的相似图与哈希网络得到的哈希码相结合，生成具有相似关系的哈希码；

基于软边距的分类损失对哈希网络和关系网络进行训练；

将数据库中的每一张图像输入到训练完成的哈希网络中，得到对应的图像哈希码；

将待查询图像输入到训练完成的哈希网络中生成哈希码，计算其与数据库中每一张图像的哈希码之间的距离，并根据距离返回满足要求的查询结果。

进一步地，所述哈希网络包括图像特征提取模块和哈希模块；图像特征提取模块由深度卷积神经网络搭建而成，用于提取图像特征；哈希模块用来将图像特征转化成哈希码。

进一步地，所述关系网络包括语义关系挖掘模块、视觉关系挖掘模块和多关系融合的哈希码生成模块；语义关系挖掘模块利用类别语义标签构建语义相似图；视觉关系挖掘模块在语义相似图的结构基础上，利用掩膜注意力机制构建视觉关系图；多关系融合的哈希码生成模块利用语义相似图和视觉相似图，得到多关系融合的相似图，然后引入图卷积神经网络，将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合，生成具有相似关系的哈希码。

进一步地，所述图像特征提取模块的深度卷积神经网络由多个卷积层、最大池化层、局部响应归一化层和全连接层组成。

进一步地，所述哈希模块由全连接层和激活函数层组成，计算公式为：

B＝tanh(f(x，θ_h))∈[-1，1]^K

其中，B是哈希码，x是图像特征，θ_h是哈希模块的参数，K是哈希码的长度，激活函数tanh(·)将实值哈希码的值约束在[-1，1]范围内。

进一步地，所述语义关系挖掘模块，利用类别语义向量，根据余弦相似度构建语义相似图，计算公式为：

其中，z_i，z_j分别代表图像x_i，x_j的类别语义向量，<·>表示内积操作，||·||表示向量的模长。在语义相似图中，只有S_f(i，j)＞0的情况下，才认为图像x_i，x_j相似，即图中顶点x_i，x_j有连边。

进一步地，所述视觉关系挖掘模块，利用图像的视觉特征，经过掩膜注意力机制得到视觉相似图，计算公式为：

其中，[x_i|x_j]表示将图像特征x_i和x_j拼接，W_a是注意力权重参数，sigmoid(·)将相似度的值归一化到[0，1]范围内，ReLU是激活函数。掩膜注意力指的是只在语义相似图S_f(i，j)＞0的基础上计算视觉相似度S_a(i，j)。

进一步地，所述多关系融合的哈希码生成模块，对语义相似图和视觉相似图进行插值相加操作，得到多关系融合的相似图，计算公式为：

S＝αS_f+(1-α)S_a

其中，α是权重参数，用来衡量语义相似图和视觉相似图的影响。

进一步地，所述多关系融合的哈希码生成模块中的图卷积神经网络将多关系融合的相似图与哈希网络生成的哈希码相结合，得到具有相似关系的哈希码，计算公式为：

其中，D是多关系融合的相似图S的度矩阵，W_g是图卷积神经网络中的权重参数，激活函数tanh(·)将生成的实值哈希码的值约束在[-1，1]范围内。

进一步地，所述多关系融合的哈希码生成模块，将哈希网络生成的哈希码和关系网络生成的哈希码相结合，得到最终的实值哈希码，计算公式为：

其中，λ是权重参数，用来衡量原始哈希码和带关系哈希码的影响。

进一步地，所述基于软边距的分类损失表达为：

其中，N是训练图像数量，W_j是类别j对应的分类权重，β≥1是能量因子，用来衡量放大分类预测值的倍数，决定了生成的软边距的大小，

是最终学习到的哈希码。

基于同一发明构思，本发明还提供一种采用上述方法的基于哈希编码和图注意力机制的零样本图像检索装置，其包括：

模型构建模块，用于构建哈希网络和关系网络，所述哈希网络用于提取图像特征并将图像特征转化成哈希码，所述关系网络用于构建语义相似图和视觉关系图，利用语义相似图和视觉相似图得到多关系融合的相似图，并将多关系融合的相似图与哈希网络得到的哈希码相结合，生成具有相似关系的哈希码；

模型训练模块，用于基于软边距的分类损失对哈希网络和关系网络进行训练；

图像检索模块，用于将数据库中的每一张图像输入到训练完成的哈希网络中，得到对应的图像哈希码，将待查询图像输入到训练完成的哈希网络中生成哈希码，计算其与数据库中每一张图像的哈希码之间的距离，并按照距离排序，返回满足要求的查询结果。

本发明的关键点是：

1.本发明提出的零样本哈希方法将图像特征提取、类别相似关系挖掘以及哈希学习整合到一个端到端的框架中，能够充分地挖掘和利用类别的相似关系来进行知识迁移，高效地生成大规模图像的哈希码，同时显著地提高模型的泛化能力。

2.本方法的关系网络包含三个主要的模块，语义关系挖掘模块通过构建语义相似图，能够显示地考虑类别在语义空间的相似性；视觉关系挖掘模块通过掩膜注意力机制构建视觉相似图，能够考虑类别在视觉空间的相似性；多关系融合的哈希码生成模块通过将这两个相似图结合，可以综合考虑类别在不同模态下的相似关系，而图卷积神经网络将多关系融合的相似图融合到哈希码的生成过程中，能够学习到保留相似关系的哈希码，从而进一步地促进了知识迁移。

3.本方法提出基于软边距的分类损失，能够为困难样本生成分类软边距，在一定程度上容忍错误的分类，从而避免对可见类别的过拟合学习，提高了模型对未见类别的泛化能力。

本发明的有益效果如下：

1.本发明将图像特征提取和哈希编码整合到一个端到端的框架中，一方面可以借助深度学习强大的表达能力，保留图像更多的语义信息，另一方面，减少了特征提取和哈希编码的信息损失，可以高效地生成哈希码，显著地降低了计算和存储代价，更加适用于大规模图像检索任务。

2.本发明针对目前的零样本哈希方法中，类别关系挖掘不够充分，提出多关系融合的哈希码生成模块，利用构建多关系融合的相似图，可以考虑类别在不同模态下的相似关系，同时，利用图卷积神经网络，将相似关系融合到哈希码生成过程中，进一步提升了哈希码的迁移能力，从而能够更好地识别未见类别。

3.本发明针对哈希学习的过拟合问题，提出的基于软边距的分类损失，可以更好地监督哈希学习过程。在网络优化时，对于易区分样本，惩罚错误的分类，保证了哈希码的鉴别能力。而对于困难样本，生成的分类软边距能够在一定程度上容忍错误，从而避免了对可见类别的过拟合学习，增强了模型对未知类别的泛化能力，进而在整体上提高了检索准确度。

附图说明

图1是本发明方法的流程示意图。

图2是本发明方法提出的框架结构示意图。

图3是本发明方法和其他方法在哈希码长度为8、16、32、48时的汉明距离2以内的精度结果。其中(a)图是采用Animals with Attributes2数据集的结果，(b)图是采用CIFAR-10数据集的结果。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提出一种基于哈希编码和图注意力机制的零样本图像检索方法。该方法提供一个端到端的神经网络架构，主要由哈希网络、关系网络和损失模块组成。在哈希网络中，图像经过深度卷积神经网络得到图像特征，再经过全连接层转换为哈希码。为了充分挖掘和利用类别之间的相似关系，关系网络通过融合相似关系到哈希码的生成过程中，来增强哈希码的迁移能力。首先，利用类别标签的语义向量构建语义相似图，在此基础上，提出掩膜注意力机制，利用图像特征构造出视觉相似图，接着在两个相似图上做插值相加操作，最终得到多关系融合的相似图。然后，引入图卷积神经网络，将多关系融合的相似图与哈希网络中学习到的哈希码相结合，从而得到保留相似关系的哈希码，更好地进行知识迁移。此外，为了避免哈希学习的过拟合问题，提出基于软边距的分类损失，来更好地监督哈希学习过程。在网络优化时，对于易区分样本，惩罚错误的分类，保证了哈希码的鉴别能力。而对于困难样本，生成的分类软边距能够在一定程度上容忍错误，从而避免了对可见类别的过拟合学习，同时提高了哈希码的泛化能力。

按照本发明所提供的设计方案，一种基于哈希编码和图注意力机制的零样本图像检索方法，具体包含如下步骤：

步骤1.数据预处理。按照类别将图像数据集分为训练集和测试集两部分，其中，每一个数据实例都包含一张图像和与其对应的类别标签。

步骤2.初始化模型框架。该框架由哈希网络、关系网络和损失模块组成。哈希网络包括图像特征提取模块和哈希模块，图像特征提取模块由深度卷积神经网络搭建而成，用于提取图像特征，而哈希模块用来将图像特征转化成哈希码。关系网络包括三个主要的模块，一是语义关系挖掘模块，利用类别语义标签来构建语义相似图；二是视觉关系挖掘模块，它在语义相似图的结构基础上，利用掩膜注意力机制，构建视觉关系图；三是多关系融合的哈希码生成模块，它利用语义相似图和视觉相似图，得到多关系融合的相似图，能够同时考虑类别在语义空间和视觉空间的相似结构，更加充分地挖掘类别之间的联系。然后，引入多关系融合的哈希码生成模块的图卷积神经网络，将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合，用来生成更多具有相似关系的哈希码。损失模块是基于软边距的分类损失，它能够避免哈希学习的过拟合问题，进一步提高模型的泛化能力。该步骤2中各模块具体的计算公式见前文发明内容中的说明。

步骤3.模型训练。将训练集分成小批量数据，以批量为单位将图像输入到哈希网络中，经过图像特征提取模块得到图像视觉特征，再经过哈希模块得到初步的实值哈希码。在关系网络中，利用图像的类别语义标签经过语义关系挖掘模块，得到语义关系图，同时，利用图像视觉特征经过视觉关系挖掘模块，得到视觉相似图。在多关系融合的哈希码生成模块，将两个相似图进行插值相加操作，得到多关系融合的相似图。然后利用图卷积神经网络将相似关系与哈希网络的初始实值哈希码相结合，得到具有相似关系的实值哈希码。最后，根据哈希码的分类预测结果，计算基于软边距的分类损失值，通过反向传播，更新整个网络的参数。直到网络收敛且在测试集上的检索效果达到最优，得到并保存最优模型。

步骤4.哈希码生成。利用步骤3中得到的最优模型，将数据库中的所有图像输入到哈希网络中，得到图像的实值哈希码。此时对生成的哈希码进行取符号操作，即对实值哈希码的每一位元素进行符号函数

操作后，得到图像的由+1和-1组成的二值哈希码。

步骤5.检索阶段。在给定新的查询图像时，通过步骤4，得到查询的二值哈希码，然后在此哈希码与数据库中所有图像的哈希码之间计算汉明距离，按照汉明距离的升序排序，按序输出相应的图像，得到检索结果。

为更好的表达本发明中提出的基于哈希编码和图注意力机制的零样本图像检索方法，下面以224×224像素的图像生成48位的哈希码为例，对本发明进行进一步的说明。

图1为本发明的整体流程图，包括数据预处理，初始化模型框架，模型训练，哈希码生成和检索阶段五个部分。

步骤1.数据预处理。按照类别将整个数据集分为训练集和测试集两部分，其中训练集只包含已见类别，测试集中只包含未见类别，每张图像都有与之对应的类别标签；

步骤2.初始化模型框架。图2是本发明中设计的模型框架，该框架包含哈希网络、关系网络以及损失函数模块。卷积层用“Cov”表示，全连接层用“FC”表示，最大池化层用“MaxPool”表示(图2中未示意该层)，图卷积神经网络用“G-Cov”表示。深度卷积神经网络的各项参数配置按顺序设置为：Cov(k.64×11×11，st.4×4，pad 2)，ReLU，MaxPool(k.3×3，st.2×2，pad 0)；Cov(k.192×5×5，st.1×1，pad 2)，ReLU，MaxPool(k.3×3，st.2×2，pad0)；Cov(k.384×3×3，st.1×1，pad 1)，ReLU；Cov(k.256×3×3，st.1×1，pad 1)，ReLU；Cov(k.256×3×3，st.1×1，pad 1)，ReLU，MaxPool(k.3×3，st.2×2，pad 0)；FC1；FC2，其中，k.表示卷积核的配置信息(个数×宽度×高度)，st.表示步长，pad表示填充维度，FC1、FC2的特征数为4096。FC3层的特征数为图像特征的维度，在本实例中为1024。哈希模块中，FC4层的特征数为哈希码的长度，在本实例中为48。视觉关系挖掘模块中，权重维度为图像特征维度的2倍，在本实例中为2048。图卷积神经网络中，权重维度与哈希码的长度一致，在本实例中为48。类别词向量是从Word2Vec工具直接生成的，维度固定为300。

在本实例中，输入图像通过图像特征提取网络(图像特征提取模块)得到1024维的特征向量，即为FC3的输出。随后，图像特征经过哈希模块的全连接层FC4，得到48位的哈希码；图像对应的类别词向量经过语义关系挖掘模块得到语义相似图，其规模与训练批量大小相同，在实例中为64×64，同时，1024维的图像特征经过视觉关系挖掘模块得到视觉相似图，其规模也与训练批量大小相同，在实例中为64×64；在多关系融合的哈希码生成模块中，语义相似图和视觉相似图插值相加得到多关系融合的相似图，同时，FC4输出的48位哈希码和相似图一同输入到图卷积神经网络G-Cov中，得到48位的保留相似关系的哈希码。最后，再结合FC4输出的哈希码和G-Cov输出的哈希码，得到最终的48位的哈希码。

步骤3.模型训练。根据得到的实值哈希码，计算基于软边距的分类损失，通过反向传播更新整个网络的参数。重复参数更新过程，直到模型收敛，并且在测试集中的效果达到最优，保存此时的最优模型；

步骤4.哈希码生成。对于数据库中的每一张图像，将其输入到图像特征提取网络中，得到1024维的图像特征，然后再经过哈希模块的全连接层FC4，得到48位的实值哈希码，最后通过符号函数的操作，得到二值哈希码。

步骤5.检索阶段。将待查询的图像按照步骤4传入网络中，得到查询的二值哈希码，然后计算其与数据库中每一张图像哈希码之间的汉明距离，根据汉明距离的升序排列，返回满足要求的查询结果。

对比方法：ITQ、IMH、KSH、SDH、DHN、DNNH、TSK、SitNet

实验数据集：Animals with Attributes2、CIFAR-10、ImageNet

评价指标：平均精度均值(mAP)、汉明距离2以内精度(P@H≤2)

实验证明，本发明的性能优于其他方法，表1是实验数据，其中最后一行是本发明的方法结果。图3是各方法在哈希码长度为8、16、32、48时的汉明距离2以内的精度结果。

表1：各方法在哈希码长度为8、16、32、48时的平均精度均值结果

基于同一发明构思，本发明的另一个实施例提供一种采用上述方法的基于哈希编码和图注意力机制的零样本图像检索装置，其包括：

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例和附图，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于哈希编码和图注意力机制的零样本图像检索方法，其特征在于，包括以下步骤：

基于软边距的分类损失对哈希网络和关系网络进行训练；

2.根据权利要求1所述的方法，其特征在于，所述哈希网络包括图像特征提取模块和哈希模块；图像特征提取模块由深度卷积神经网络搭建而成，用于提取图像特征；哈希模块用来将图像特征转化成哈希码。

3.根据权利要求2所述的方法，其特征在于，所述图像特征提取模块的深度卷积神经网络由多个卷积层、最大池化层、局部响应归一化层和全连接层组成；所述哈希模块由全连接层和激活函数层组成，计算公式为：

B＝tanh(f(x，θ_h))∈[-1，1]^K

4.根据权利要求1所述的方法，其特征在于，所述关系网络包括语义关系挖掘模块、视觉关系挖掘模块和多关系融合的哈希码生成模块；语义关系挖掘模块利用类别语义标签构建语义相似图；视觉关系挖掘模块在语义相似图的结构基础上，利用掩膜注意力机制构建视觉关系图；多关系融合的哈希码生成模块利用语义相似图和视觉相似图，得到多关系融合的相似图，然后引入图卷积神经网络，将多关系融合的相似图与哈希网络中学习到的原始哈希码相结合，生成具有相似关系的哈希码。

5.根据权利要求3所述的方法，其特征在于，所述语义关系挖掘模块利用类别语义向量根据余弦相似度构建语义相似图，计算公式为：