CN111274424B

CN111274424B - 一种零样本图像检索的语义增强哈希方法

Info

Publication number: CN111274424B
Application number: CN202010018502.2A
Authority: CN
Inventors: 钟芳明; 陈志奎; 王光泽; 张雯珺
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2021-01-19
Anticipated expiration: 2040-01-08
Also published as: CN111274424A

Abstract

一种零样本图像检索的语义增强哈希方法，属于计算机技术领域，包括：1)图像特征语义对齐；2)域结构保持；3)哈希编码学习；4)总目标函数的构建及优化；5)针对新数据的哈希函数学习。本发明主要针对大规模图像检索问题，由于大规模的图像数据从互联网中产生，对于一些新产生的事务和新的类别，现有算法很难收集到足够的新事物的训练图片来训练检索模型。因此，本发明利用类别语义空间作为图像视觉特征和二进制编码之间的中间过渡空间，实现视觉空间和类别语义空间的对齐，以达到知识从可见类数据到不可见类数据迁移的目标。实验验证表明，本发明能够有效地从可见类数据中学习知识，迁移到不可见类中，解决零样本图像检索的问题。

Description

一种零样本图像检索的语义增强哈希方法

技术领域

本发明属于计算机技术领域，涉及一种零样本图像检索的语义增强哈希方法。

背景技术

近年来，哈希技术由于其在降低存储开销和加快检索速度方面的优势，已经在大规模图像和视频检索中得到了广泛的研究和应用。哈希技术将高维的图像和视频数据编码成简洁的二进制编码形式，或者成为离散编码形式，通常用0、1表示，这也正符合数据在计算机内存中的存储形式。如此，检索便能够在由二进制编码构成的汉明空间中执行，通过编码之间的异或位操作，能够大大提高检索速度。而哈希技术中的关键就是学习哈希函数以及二进制编码。

许多现有工作致力于设计新颖的哈希方法，其中早期的数据独立哈希方法，如局部敏感哈希，已被证明难以获得满意的检索效果。越来越多的方法集中在数据依赖哈希方面，这些方法大致可以分成有监督和无监督两大类。无监督方法大多采用数据本身的结构信息来保持二进制编码的结构，而有监督方法则利用标签信息，能够更好的保持语义信息。

然而，伴随着互联网的快速发展，数据呈现爆炸性增长，新事物也不断涌现，一些新出现的类别，称之为新事物，例如当时新出现的平衡车。现有方法由于是在一个封闭的环境中训练的模型，所以对于新事物的到来，难以应付。举例说明就是一个模型能够检索马、老虎、狮子等动物，但是突然出现了一只斑马，模型就无能为力了，因为模型从未见过斑马。模型的另一个缺点就是，难以对新事物收集足够的图片来重新训练模型，这样代价太高。

零样本学习正是解决此类问题的关键，已经越来越引起人们的注意。零样本学习就是在零个训练样本的情况下，仍然能够识别出新类别的数据。大部分方法都是引入一个额外的辅助数据空间，即类别语义空间。该空间可以是人为标记的属性空间，也可以是单词向量空间，能够表示新事物类别的语义。然而，现有的零样本学习工作很少关注图像检索问题，大部分集中在图像识别问题。

在现有的几个零样本检索工作中，它们更多地关注二进制编码和语义空间之间的链接，忽略了图像特征的语义对齐问题。此外，简单的线性投影不足以满足生成更具判别性的二进制编码。

为了解决以上问题，本发明设计了一种语义增强哈希方法，通过对齐图像视觉特征，来增强图像特征的语义信息，同时达到知识迁移的目的，使得学习的哈希函数既能够处理正常数据的检索，也能够应付新事物数据的检索。

发明内容

本发明针对零样本图像检索问题，探究一种基于语义增强哈希的方法，该方法采用类别语义空间作为图像视觉特征和二进制编码之间的过渡空间，将图像视觉特征对齐到与之对应的类别语义表示上，以增强图像视觉特征的语义信息。语义对齐能够使得模型具有泛化能力，能够从可见类数据中学习知识，并泛化到不可见类中，以解决零样本问题。在语义对齐过程中，不是简单的一个线性投影，而是带偏差的线性投影。此外，本发明还考虑了数据的域结构信息保持，提高二进制编码的判别性。

为了达到上述目的，本发明采用的技术方案为：

一种零样本图像检索的语义增强哈希方法，，所述的语义增强哈希方法采用带偏差的线性投影，提高判别性，包括以下步骤：

步骤1，通过一个带偏差的线性投影，将图像视觉特征映射到类别语义空间中，实现图像视觉特征的语义增强；

步骤2，采用拉普拉斯图正则化方式，对映射之后的数据进行域结构保持，域结构信息采用局部线性嵌入从原始图像视觉特征中计算得到；

步骤3，学习二进制编码，从投影之后的类别语义空间以及标签空间中，分别通过两个个线性投影，获得二进制编码；

步骤4，构建和优化总目标函数，迭代更新模型的参数，求解二进制编码。

步骤5，学习哈希函数，用于处理新到来的数据

本发明解决的是零样本图像检索的问题，模型利用可见类数据学习哈希函数，当出现新的类别的数据之后，仍然能够学习其二进制编码，并实现检索。

本发明的有益效果为：将图像转化为二进制编码，进行存储和检索，降低了存储开销，提高了检索速度；通过语义对齐，实现知识迁移，能够从可见类数据中学习知识，迁移到不可见类数据，即使训练过程中未曾出现的类别数据，在测试过程中依然能够顺利解决；考虑了语义结构保持，能够提高所学习图像二进制编码的判别性，提高检索的准确率。

附图说明

图1为基于语义增强哈希的零样本图像检索(SAH)框架图；

图2(a)-2(d) 为所有方法在AWA和CIFAR-10数据集上的平均精确率均值(MAP)和半径为哈希距离2以内的准确率(P@r2)，其中横坐标为不同的哈希编码长度(CodeLength)，本实验考虑8、16、32和48位的长度；图2(a)为所有方法在数据集AWA上的MAP结果图，图2(b)为所有方法在数据集CIFAR-10上的MAP结果图，图2(c)为所有方法在数据集 AWA上的P@r2结果图，图2(d)为所有方法在数据集CIFAR-10上的P@r2结果图。

图3为算法步骤图。

具体实施方式

下面结合附图对本发明的实施方式做进一步说明。

图1为本发明的总体框架图。从图中可以看出，本发明的主题流程为：首先图像的视觉特征被投影到类别语义空间，来提高判别性；其次学习一个从类别语义空间到二进制编码的映射；不仅如此，结合域结构信息保持以及有监督的标签信息，逆向回归标签信息到二进制编码，并离散的学习二进制编码；最后学习哈希函数以处理样本外的新数据。

具体步骤如下：

一种零样本图像检索的语义增强哈希方法，该语义增强哈希方法采用带偏差的线性投影，包括以下步骤：

步骤1、图像视觉特征的语义对齐；

将图像视觉特征投影到类别语义空间中，来对齐视觉特征到对应的类别语义，以增强视觉特征的语义信息。采用类别语义特征作为中间的过渡空间，以此学习的投影，能够迁移到不可见类数据中，处理零样本数据问题。并将语义对齐定义为一个带偏差的线性投影，如公式(1)所示：

其中，

是图像视觉特征数据，每一个图像表示为x_i,i＝1,2,...,n，并且属于可见类C^s中的一类，d表示图像视觉特征的维度，n表示图像的数量。另外，在测试阶段，某些图像视觉特征数据来自新的类别C^u，与可见类不存在交集

是类别语义空间，其中a表示属性的维度，S的每一列S_i都对应图像数据中的x_i。

表示投影矩阵，

是偏差向量，e_n表示长度为n的全1向量。此外，

为正则化项，λ为正则化项的权重，

表示弗罗贝尼乌斯范数的平方。M^T表示矩阵M的转置，min(·)表示将公式最小化。

所述的语义对齐采用类别语义空间作为对齐目标，既能够使得图像视觉特征语义被加强，同时实现知识从可见类到不可见类的迁移，解决零样本图像检索问题

步骤2、域结构保持；

将图像视觉特征投影到类别语义空间之后，数据依然要保持原始数据的域结构信息，原始数据的邻居在投影之后依然能够保持邻居关系。采用拉普拉斯图正则化的方式，将域结构信息定义为如公式(2)所示。

其中，Tr表示求矩阵的迹操作，L是拉普拉斯矩阵，计算方法如下：首先采用局部线性嵌入 (LLE)方法计算数据之间的权重表示，获得一个权重表示矩阵W，将权重矩阵进行转置求和W＝W+W^T。如此，权重矩阵也表示了各个图片之间的相似度，L根据上述相似度矩阵进行计算，L＝D-W，其中D表示一个对角阵，对角元素为权重矩阵的行求和

步骤3、二进制编码学习；

投影之后，图像视觉特征被投影到类别语义空间，接下来需要学习一个从类别语义空间S 到二进制编码B的线性投影

为类别语义空间和二进制编码之间建立连接。此外，将标签矩阵Y∈{0,1}^c×n逆向回归到二进制编码B上，考虑有监督的标签信息；由此构成如公式(3)所示的二进制编码学习公式。

其中，其中c表示可见类的类别数量，k表示二进制编码的长度，

表示逆向回归矩阵，将标签信息转化为二进制编码，γ是平衡参数。此外，符号s.t.表示公式的约束条件。本发明为了算法的计算方便，二进制编码采用-1，和1表示，这种方式能够很容易转化成0,1表示。

步骤4、构建总体目标函数以及函数优化求解；

4.1)根据步骤1-步骤3的公式(1)、(2)、(3)得到模型的总体目标函数，如公式 (4)所示。

其中，α,β,λ,γ表示平衡参数，

分别表示正则化项，防止过拟合。此外，为了能够使模型抓取数据之间的非线性关系，在数据进入模型的训练之前，采用高斯核对数据进行非线性映射，获得新的表示，然后再填入到模型中。

4.2)采用交替优化的方式对公式(4)的进行优化求解，并且每次优化一个参数，固定其他参数，采用迭代的方式进行参数更新。

优化具体步骤如下：

1)更新M，固定M以外的其他变量，得到如公式(5)所示简化的目标函数，

将公式(5)其对应于M的导数设置为0，获得最优解如公式(6)，

2)更新R，固定R以外的其他变量，得到如公式(7)所示简化的目标函数，

同样将公式(7)对应R的导数设置为0，获得封闭解为公式(8)所示。

R＝β(βSS^T+λI)^-1SB^T (8)

3)更新G，固定G以外的其他变量，可以得到如公式(9)所示简化的目标函数，

类似的，获得封闭解为公式(10)所示。

G＝γ(γYY^T+λI)^-1YB^T (10)

4)更新t，固定t以外的其他变量，得到如公式(11)所示简化的目标函数，

类似的，获得封闭解为公式(12)所示。

5)更新B，固定B以外的其他变量，得到如公式(13)所示简化的目标函数，

公式(13)转化为公式(14)，

能够求解的如公式(15)所示，

B＝sgn(βR^TS+γG^TY) (15)

其中sgn(·)表示求符号函数。

通过以上更新步骤进行交替迭代，直至满足收敛条件，即两次迭代后的函数值误差小于 10的6次方，便能够求出图像数据X对应的二进制编码B。

步骤5、学习哈希函数，处理新数据；

通过步骤4优化求解之后能够得到X图像视觉特征数据对应的二进制编码B作为图像检索的数据库，当有新的测试数据时，需要学习哈希函数来获得二进制编码。结合步骤4中公式(6)和(8)学习的M和R，构成哈希函数。例如，当有一个新的图片x来临时，其对应的二进制编码求解方式如公式(16)所示。

b＝sgn(R^T(M^Tx+te_n)) (16)

验证结果

为了验证本发明提出的方法在处理零样本图像检索上的有效性，采用两个常见的数据集 AWA和CIFAR-10进行实验验证。实验中，类别属性空间采用300维的类名词向量表示。首先需要构造零样本测试环境，针对AWA数据集，随机划分成5份，每一组包含10个类，选择其中一组作为不可见类，其他4组作为可见类用于训练，于是可以得到5个不同的划分。同样的，针对CIFAR-10数据集，每次选择1个类作为不可见类，剩下的作为可见类，由此可以得到10个不同的划分。总体实验结果是通过求不同划分下获得的结果的平均值。实验中采用4096维的卷积神经网络的VGG19特征进行。

在训练过程中，随机选择10000张可见类的图片作为训练集，学习哈希函数。在测试阶段，从不可见类中随机选择1000张图片作为测试集，剩下的不可见类图片以及所有的可见类图片作为检索集。参数设置情况如下，α＝β＝γ＝1,λ＝10。迭代次数上限设置为10。

为了综合评价模型的性能，将提出的方法与其他方法进行对比，选择的对比方法如下：有监督离散哈希(SDH)、迭代量化(ITQ)、直推域哈希(IMH)、核有监督哈希(KSH)、有监督知识迁移(TSK)、正交投影零样本哈希(HOP-L)、离散相似度迁移网络(SitNet)。评价指标采用平均准确率均值(Mean Average Precision，MAP)和汉明距离2半径以内的平均准确率(P@r2)

零样本图像检索的结果如图2(a)-2(d) 所示。从图中可以看出本发明的方法SAH表现要优于其他的浅层模型方法，与深度方法SitNet不相上下。

针对MAP结果，在AWA和CIFAR-10两个数据集上，不同的算法结果结果呈现出上升的趋势，随着二进制编码的长度增加，MAP越高。从图2(a)-2(d) 中可以看出，大部分情况下，本发明的方法SAH都要好过其他的方法，除了SitNet之外。本发明的SAH方法在32位和64位时，MAP结果要好于SitNet。这说明了本方法在零样本图像检索方面的有效性。此外，相比于传统的哈希方法SDH、KSH，零样本哈希方法TSK、HOP-L、SitNet以及本发明的SAH 总是能够获得更好的检索效果。这是因为传统方法不能够处理零样本的情况，所以限制了它们的性能。而零样本哈希方法包括本发明的方法，利用类别语义空间作为过渡空间，所学习的模型具有知识迁移能力，能够从可见类数据中学习知识，泛化到不可见类中，因此可以处理零样本问题。而本发明的方法在16、32、48位时，表现比TSK和HOP-L要好，说明了本发明在零样本图像检索方面的优越性。

对于在两个数据集上的P@r2，HOP-L和本发明随着二进制编码长度的增加，呈现出了一个上升的趋势，而其他方法则首先上升，然后在48位的时候开始下降。更重要的是，本发明的SAH在两个数据集上的性能都要好过深度方法SitNet，进一步证明了本发明方法的优越性。相比于本发明的SAH方法，在数据集CIFAR-10上，HOP-L在32位和48位的时候略微高于SAH。但，不影响本发明的方法在总体上要好过其他方法，也说明了本方法在零样本图像检索的有效性。

综上所述，由于对图像视觉特征的语义对齐，以及域结构信息保持，本发明的SAH方法能够生成判别性高的二进制编码，用于解决零样本图像检索问题。

以上所述实例仅表达本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种零样本图像检索的语义增强哈希方法，其特征在于，所述的语义增强哈希方法采用带偏差的线性投影，包括以下步骤：

步骤1、图像视觉特征的语义对齐；

将图像视觉特征数据投影到类别语义空间中，对齐视觉特征到对应的类别语义，以增强视觉特征的语义信息；采用类别语义特征作为中间的过渡空间，并将语义对齐定义为一个带偏差的线性投影，如公式(1)所示：

其中，

是图像视觉特征数据，每一个图像表示为x_i,i＝1,2,...,n，并且属于可见类C^s中的一类，d表示图像视觉特征的维度，n表示图像的数量；另外，在测试阶段，某些图像视觉特征数据来自新的类别C^u，与可见类不存在交集

是类别语义空间，其中a表示属性的维度，S的每一列S_i都对应图像数据中的x_i；

表示投影矩阵，

是偏差向量，e_n表示长度为n的全1向量；此外，

为正则化项，λ为正则化项的权重，

表示弗罗贝尼乌斯范数的平方；M^T表示矩阵M的转置，min(·)表示将公式最小化；

步骤2、域结构保持；

将图像视觉特征投影到类别语义空间之后，数据依然保持原始数据的域结构信息，原始数据的邻居在投影之后依然能够保持邻居关系；采用拉普拉斯图正则化的方式，将域结构信息定义为如公式(2)所示；

其中，Tr表示求矩阵的迹操作，L是拉普拉斯矩阵；

步骤3、二进制编码学习；

投影之后，图像视觉特征被投影到类别语义空间，接下来需要学习一个从类别语义空间S到二进制编码B的线性投影

为类别语义空间和二进制编码之间建立连接；此外，将标签矩阵Y∈{0,1}^c×n逆向回归到二进制编码B上，考虑有监督的标签信息；由此构成如公式(3)所示的二进制编码学习公式；

表示逆向回归矩阵，将标签信息转化为二进制编码，γ是平衡参数；此外，符号s.t.表示公式的约束条件；二进制编码采用-1和1表示；

步骤4、构建总体目标函数以及函数优化求解；

4.1)根据步骤1-步骤3的公式(1)、(2)、(3)得到模型的总体目标函数，如公式(4)所示；

其中，α,β,λ,γ表示平衡参数，

分别表示正则化项，防止过拟合；此外，为了能够使模型抓取数据之间的非线性关系，在数据进入模型的训练之前，采用高斯核对数据进行非线性映射，获得新的表示，然后再填入到模型中；

4.2)采用交替优化的方式对公式(4)的进行优化求解，并且每次优化一个参数，固定其他参数，采用迭代的方式进行参数更新；

优化具体步骤如下：

将公式(5)其对应于M的导数设置为0，获得最优解如公式(6)，

同样将公式(7)对应R的导数设置为0，获得封闭解为公式(8)所示；

R＝β(βSS^T+λI)^-1SB^T (8)

类似的，获得封闭解为公式(10)所示；

G＝γ(γYY^T+λI)^-1YB^T (10)

类似的，获得封闭解为公式(12)所示；

公式(13)转化为公式(14)，

能够求解的如公式(15)所示，

B＝sgn(βR^TS+γG^TY) (15)

其中sgn(·)表示求符号函数；

通过以上更新步骤进行交替迭代，直至满足收敛条件，便能够求出图像数据X对应的二进制编码B；

步骤5、学习哈希函数，处理新数据；

通过步骤4优化求解之后能够得到X图像视觉特征数据对应的二进制编码B，将其作为图像检索的数据库，当有新的测试数据时，需要学习哈希函数来获得二进制编码；结合步骤4中公式(6)和(8)学习的M和R，构成哈希函数；当有一个新的图片x来临时，其对应的二进制编码求解方式如公式(16)所示；

b＝sgn(R^T(M^Tx+te_n)) (16)。

2.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法，其特征在于，语义对齐采用类别语义空间作为对齐目标。

3.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法，其特征在于，所述的步骤4.2)中的收敛条件为两次迭代后的函数值误差小于10的6次方。

4.根据权利要求1所述的一种零样本图像检索的语义增强哈希方法，其特征在于，所述的步骤2中拉普拉斯矩阵L的计算方法如下：首先采用局部线性嵌入法计算数据之间的权重表示，获得一个权重表示矩阵W，将权重矩阵进行转置求和W＝W+W^T；如此，权重矩阵也表示各个图片之间的相似度，L根据上述相似度矩阵进行计算，L＝D-W，其中D表示一个对角阵，对角元素为权重矩阵的行求和