CN106980641A

CN106980641A - 基于卷积神经网络的无监督哈希快速图片检索系统及方法

Info

Publication number: CN106980641A
Application number: CN201710071669.3A
Authority: CN
Inventors: 王延峰; 张娅; 黄杉杉; 熊意超
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Media Intelligence Technology Co., Ltd.
Priority date: 2017-02-09
Filing date: 2017-02-09
Publication date: 2017-07-25
Anticipated expiration: 2037-02-09
Also published as: CN106980641B

Abstract

本发明提出一种基于卷积神经网络的无监督哈希快速图片检索系统及方法。该系统及方法利用现有的哈希算法结构，基于数据增强技术提出了一个高效的无监督哈希模型用于快速图像检索领域。通过数据增强方法，为无标签数据构建三元组训练样本，通过三元组损失函数、最小量化误差损失函数和最大熵损失函数驱使网络充分利用每张图片的信息，学习到一系列更具有表达能力的参数以提高快速图片检索的准确性。本发明是一种能够利用无标签数据学习网络的哈希快速图片检索方法，利用数据增强构建表达能力更强的三元组训练样本训练网络，显著提升了快速图片检索的准确性。

Description

基于卷积神经网络的无监督哈希快速图片检索系统及方法

技术领域

本发明涉及计算机视觉和图像处理领域，具体地，涉及一种基于卷积神经网络的无监督哈希快速图片检索系统及方法。

背景技术

随着现有多媒体内容的爆炸性增长，如何加快图像检索速度受到了广泛的关注。哈希作为一个可以通过多个映射方程将一个高维的特征向量转换为一个紧凑的并且表达能力强的二进制码的算法，在快速图像检索领域取得了不小的成功。近几年来，随着深度卷积神经网络的快速发展，许多的基于卷积神经网络的哈希算法被提出并且展示了巨大的前景。特别地，由于现有的有标签数据的缺乏和以及标记图片所需的人力物力，基于无标签数据的无监督哈希算法得到了广泛的关注。

最早的无监督哈希算法主要是基于限制波尔兹曼机(RBMs)的编码算法。然而，RBMs的训练过程是很复杂的而且需要进行预训练，从而使得RBMs在实际应用中并不是很有效的。最近，数据增强技术也被用来增强深度网络的表达能力，并且实现了至今为止最好的检索效果。在利用数据增强技术中，K.Lin等人通过对训练图片进行不同程度的旋转并且通过最小化参考图片和旋转图片所对应的哈希码的距离来学习一个深度网络用来产生输入图片的哈希码。然而，仅仅优化参考图片和旋转图片之间的旋转不变性意味着对整个网络的学习过程来讲只提供了训练正样本，从而并不能保证学习到的模型可以针对不同的图片产生具有辨识能力的二进制哈希码。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于卷积神经网络的无监督哈希快速图片检索系统及方法，以解决现有方法中训练数据不平衡以及训练不协调的问题。

为实现上述目的，本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于卷积神经网络的无监督哈希快速图片检索系统，包括如下模块：

无监督训练数据模块，用于基于无标签训练原始图片，构建三元组训练样本；

构建卷积神经网络模块，用于将三元组训练样本输入至现有的深度卷积神经网络，训练适合图片检索任务的卷积神经网络；

计算图片距离模块：用于计算三元组训练样本内各图片之间的距离；

无监督学习模块，用于优化卷积神经网络以供图片检索，根据计算图片距离模块计算得出的图片距离，通过三元组损失函数模块、最小量化误差模块以及最小量化误差模块优化卷积神经网络参数；

三元组损失函数模块：用于控制同类图片与不同类图片经过哈希映射后的距离差别；

最小量化误差模块，用于降低图片检索在图片特征向量量化前后的误差值，以便在加快图片检索速度的同时保持图片检索的准确性；

最大信息熵模块，用于增大图片特征向量所携带的信息量，以增强图片特征向量的表达能力，提升图片检索的准确性；

图片特征提取及相似度计算模块，用于把训练好的卷积神经网络投入实际图片检索任务中，通过学习到的卷积神经网络提取输入图片对应的二进制哈希码并经过相似度计算模块筛选出最相似的图片。

优选地，所述构建卷积神经网络模块通过将现有的深度卷积神经网络的损失层去掉，替换成无监督学习模块、最小量化误差模块和最大信息熵模块，并在损失层前面加入哈希映射模块，将三元组训练样本输入至深度卷积神经网络，训练适合图片检索任务的卷积神经网络。

根据本发明的另一个方面，提供了一种基于卷积神经网络的无监督哈希快速图片检索方法，包括以下步骤：

步骤S1，将训练原始图片p经过不同角度的旋转得到旋转图片p⁺，再任意选择一张随机匹配图片p^-，从而构成一个三元组训练样本(p,p⁺,p^-)；

步骤S2，将现有的深度卷积神经网络f转换成图片检索所需的卷积神经网络f″；

步骤S3，将步骤S1中得到的三元组训练样本(p,p⁺,p^-)分别先缩放再裁剪后，输入到三路并行的结构完全相同并且共享参数的卷积神经网络f″中；

步骤S4，利用三元组损失函数、最小量化误差损失函数和最大熵损失函数对卷积神经网络f″进行反向传播训练更新卷积神经网络f″中的网络参数；

步骤S5，对一张新来的访问图片q，输入至卷积神经网络f″中，并将图片q的图像特征向量输出值进行量化得到对应的二进制哈希码H(q)；

步骤S6，计算哈希码H(q)与本地数据库中所有的哈希码的汉明距离并进行排序，认为汉明距离越小的两个二进制码对应的图片越相似，并通过哈希码H(q)与本地数据库中每个哈希码的汉明距离排序挑选出相似度最高的图片作为检索到的图片。

优选地，步骤S1具体包括以下步骤：

对所有给出的无标签训练原始图片p，分别顺时针旋转5°、顺时针旋转10°、逆时针旋转5°和逆时针旋转10°，使得每张训练原始图片p都有四张不同的旋转图片p⁺，再对每一张训练原始图片p随机匹配一张图片p^-，这样就构建了训练所需的三元组训练样本(p,p⁺,p^-)。

优选地，步骤S2包括如下子步骤：

步骤S21，对现有的深度卷积神经网络f进行修改，去掉深度卷积神经网络f最后的损失层，形成初步卷积神经网络f′；

步骤S22，构建哈希映射模块，即在初步卷积神经网络f′的最后按顺序加入一层全连接层和一层激活函数层，构成图片检索所需的卷积神经网络f″。

优选地，步骤S3具体包括如下步骤：

三元组训练样本(p,p⁺,p^-)分别先缩放到256像素×256像素大小，再随机从中裁剪224像素×224像素大小的部分，输入到三路并行的结构完全相同并且共享参数的卷积神经网络f″中。

优选地，步骤S4具体包括如下子步骤：

步骤S41，将步骤S1中得到的三元组训练样本(p,p⁺,p^-)分别送入到卷积神经网络f″，得到三元组训练样本中的每张图片所对应的图片特征向量f(p)，f(p⁺)，f(p^-)；

步骤S42，计算训练原始图片p与旋转图片p⁺之间的距离D(p,p⁺)＝‖f(p)-f(p⁺)‖₂；计算训练原始图片p与训练原始图片p^-之间的距离D(p,p^-)＝‖f(p)-f(p^-)‖₂；

步骤S43，利用步骤S42中得到的三元组训练样本中图片之间的距离，整个卷积神经网络f″通过三元损失函数loss(D(p,p⁺),D(p,p^-))、最小量化误差损失函数loss_mq和最大信息熵损失函数loss_me更新网络参数；其中：

所述三元损失函数loss(D(p,p⁺),D(p,p^-))为：

loss(D(p,p⁺),D(p,p^-))＝max{0,m+D(p,p⁺)²-D(p,p^-)²}；m表示一个超参数，用来控制同类图片与不同类图片经过哈希映射后的距离差别；

所述最小量化误差损失函数loss_mq为：

所述最大信息熵损失函数loss_me为：

M是哈希码的长度，N是训练样本的个数，μ_m是所有训练样本对应的二进制哈希码的第m维的平均值，h_n(m)是第n个训练样本对应的二进制哈希码的第m维的值；

步骤S44，通过门槛函数对卷积神经网络f″输出的图片特征向量进行量化，门槛函数的量化规则为：

优选地，步骤S22中，加入的全连接层中神经元的个数等于三元组训练样本中的每张图片所对应的哈希码的比特数。

优选地，在步骤S43中：

利用三元组损失函数，使得训练原始图片p与旋转图片p⁺映射到哈希空间中的距离尽可能近，而训练原始图片p与随机匹配图片p^-映射到哈希空间中的距离尽可能远；

针对量化误差问题，设计最小量化误差损失函数来控制深度卷积神经网络f的输出，使得网络的输出尽可能的分布在0和1的附近，从而保证图片特征量化前后检索效率的一致性；

设计最大熵损失函数，通过促使图片对应的二进制哈希码的每个比特均匀分布，使得哈希码携带最大信息量。

优选地，步骤S5具体包括如下步骤：

将本地数据库的所有图片通过卷积神经网络f″提取出所对应的图像特征向量并经过步骤S44的量化得到每张图片对应的哈希码，将所有图片的哈希码存于本地；对于新来的一张访问图片q，首先将该访问图片q输送至卷积神经网络f″中并用步骤S44中的门槛函数对图片特征进行量化得到所对应的哈希码H(q)。

本发明的原理是：在对卷积神经网网络f″(CNNs)训练过程中，对训练数据存在着平衡性的要求，如果训练样本只有正样本或者只有副样本会让网络学习到一系列不好的参数，从而降低了图像检索的准确性。再而，通过对图片的旋转，可以增强网络对图片特征的学习。网络顶端的三元组损失函数可以保证网网络在训练过程中学习到的每张图片特征更具有辨识力。另外，CNNs是一个端对端的学习网络，在CNNs中相邻的层存在着相互适应的关系。所以在训练网络时，需要通过学习调整整个网络参数，从而学习到更适合于特定任务的深度网络结构。

与现有技术相比，本发明具有如下的有益效果：

1、相比于直接通过减小旋转图片与自身图片之间的距离来训练网络，本发明利用现有的训练样本构建了三元组训练样本，保证了训练数据的平衡性。同时，在训练过程中，让每个层的参数都进行更新，保证了层与层之间的相互适应性。另外，本发明的实验结果表明利用构建的三元组数据训练的网络相比于直接通过减小旋转图片与自身图片之间的距离来训练的网络在快速图片检索的准确度上有明显的提升，证明了本发明的有效性。

2、本发明提出主要建立于K.Lin提出的数据增强的技术，继承的同时解决了现有的方法的漏洞，创新在利用数据增强技术把现有的无标签数据转换为三元组训练数据，使用三元组损失函数来训练网络，从而保证了正负训练样本的平衡性，并且是基于端对端的训练模型，从而学习到一个更具有辨识能力的深度网络。

3、本发明利用无标签的卷积神经网络f，使得学习到的网络更具有辨识能力，可以用一个较短的二进制码，也就是哈希码来表示一张图片，加快图片检索速度的同时保证了检索的精度。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明提供的图片检索方法流程图；

图2为本发明中以对服装图片进行预处理为例的流程图；

图3为本发明中所用的深度卷积神经网络模型图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

实施例

本实施例提供了一种基于卷积神经网络的无监督哈希快速图片检索系统及方法，该系统及方法利用了数据增强技术实现基于卷积神经网络的无监督哈希算法，通过此模型可以将输入图片映射为一个较短的二进制哈希码，在图像检索过程中通过比对汉明距离即可筛选出相似的图片。本发明是一种能够利用无标签的训练数据训练一个用于快速图片检索领域的更具有辨识能力的网络结构，通过利用所添加的三元损失函数、最小量化误差损失函数和最大熵损失函数，显著性地提升了快速图片检索的准确度。

本实施例提供的基于卷积神经网络的无监督哈希快速图片检索系统，包括如下模块：

进一步地，所述构建卷积神经网络模块通过将现有的深度卷积神经网络的损失层去掉，替换成无监督学习模块、最小量化误差模块和最大信息熵模块，并在损失层前面加入哈希映射模块，将三元组训练样本输入至深度卷积神经网络，训练适合图片检索任务的卷积神经网络。

如图1所示，为本实施例提供的检索方法的流程图，该方法包括如下步骤：

步骤S1，如图3所示，将训练原始图片p经过不同角度的旋转得到旋转图片p⁺，再任意选择一张随机匹配图片p^-，从而构成一个三元组训练样本(p,p⁺,p^-)；

步骤S4，如图2所示，利用三元组损失函数、最小量化误差损失函数和最大熵损失函数对卷积神经网络f″进行反向传播训练更新卷积神经网络f″中的网络参数；

进一步地，步骤S1具体包括以下步骤：

进一步地，步骤S2包括如下子步骤：

进一步地，步骤S3具体包括如下步骤：

进一步地，步骤S4具体包括如下子步骤：

所述三元损失函数loss(D(p,p⁺),D(p,p^-))为：

所述最小量化误差损失函数loss_mq为：

所述最大信息熵损失函数loss_me为：

进一步地，步骤S22中，加入的全连接层中神经元的个数等于三元组训练样本中的每张图片所对应的哈希码的比特数。

进一步地，在步骤S43中：

进一步地，步骤S5具体包括如下步骤：

本实施例通过哈希码H(q)与本地数据库中每个哈希码的汉明距离排序挑选出相似度最高的图片作为检索到的图片。

在本实施例中：

1)无监督训练数据模块：对所有给出的无标签训练原始图片p，分别顺时针和逆时针旋转5°和10°，使得每张训练原始图片p都有四张不同的旋转图片p⁺，再对每一张原始图片p随机匹配一张匹配图片p^-，这样就构建了训练所需的三元组训练数据(p,p⁺,p^-)。

2)构建卷积神经网络模块：将1)中得到的(p,p⁺,p^-)分别输入到三路并行的结构完全相同的深度卷积神经网络中，并且三个网络之间的参数共享。

3)哈希映射模块：对2)中设计的卷积神经网络中，在每个现有深度卷积神经网络的后面加入一个全连接层，并在其后加一个激活函数层构成适用于快速图片检索的无监督网络(卷积神经网络)。其中，加入的全连接层中神经元的个数等于每张图片所对应的哈希码的比特数。将1)中得到的三元组训练数据(p,p⁺,p^-)分别送入到网络得到每张图片所对应的特征向量f(p)，f(p⁺)，f(p^-)。

4)计算图片距离模块：计算图片p与p⁺的距离D(p,p⁺)＝‖f(p)-f(p⁺)‖₂，p与p^-的距离D(p,p^-)＝‖f(p)-f(p^-)‖₂。

5)无监督学习模块：利用4)中得到的三元组图片之间的距离，整个网络通过三元损失函数

loss(D(p,p⁺),D(p,p^-))＝max{0,m+D(p,p⁺)²-D(p,p^-)²}

来学习一个图片表达网络，使得学习到的图片特征更具有辨识能力，更适用于图片检索。利用三元损失函数，使得图片p与图片p⁺映射到哈希空间中的距离尽可能近，而图片p与图片p^-映射到哈希的空间中的距离尽可能远；m是一个超参数，用来控制同类图片与不同类图片经过哈希映射后的距离差别，并在f中加入6)和7)两个损失函数来学习到一个适用于快速图片检索的网络。

6)最小量化误差模块：在快速图像检索过程中，需要通过一个门槛函数对神经网络f输出的图片特征进行量化，量化规则为：

针对量化误差问题，设计了一个最小量化误差损失函数来控制整个网络输出，使得网络的输出尽可能的分布在0和1的附近，从而保证了特征量化前后检索效率的一致性。设计的最小量化误差损失函数为：

7)最大信息熵模块：对于一张图片对应的二进制哈希特征，哈希特征的表达能力越强，检索效果越好。由此设计了一个最大熵损失函数，通过促使哈希码的每个比特均匀分布使得哈希码携带的信息量最大，表达能力更强。设计的最大信息熵损失函数为：

其中，M是哈希码的长度，N是训练样本的个数。

8)将本地数据库的每一张图片通过网络f提取出所对应的图像特征并经过6)中的量化得到每张图片对应的哈希码，将所有图片的哈希码存于本地。对于新来的一张访问图片，首先将其输送至网络f中并用6)中的门槛函数对特征进行量化的到所对应的哈希码H。在相似度计算阶段，通过H与数据库中每个哈希码的汉明距离排序挑选出相似度最高的图片作为检索到的图片。

另外，在上面所述的1)中，包括：

将p,p⁺,p^-三张图片统一裁剪到224*224的尺寸。

将剪裁过后的p,p⁺,p^-输入到三路并行的结构完全相同的深度卷积神经网络中，三条通路的参数共享。

随着现在网络图片的爆炸性增长，基于内容的图片搜索技术得到了广泛的利用。然而，图片的搜索速度随着数据库图片的数量的增长变得越来越慢，哈希作为一个可以将任意长度的向量转换为一个较短的二进制码的算法在快速图片检索领域得到了广泛的应用。另外，有标签数据的缺乏使得先前的哈希技术并不适用与实际应用中。本实施例提出了一种基于卷积神经网络的无监督哈希快速图片检索系统及方法，利用无标签的训练数据学习网络，使得每张图片都可以用一个辨识力很高的紧凑的二进制哈希码表示，从而实现加快图片检索的速度的同时保证检索精度的问题。

本实施例提出的基于卷积神经网络的无监督哈希快速图片检索系统及方法，利用现有的哈希算法结构(哈希算法是一种可以通过多个映射方程将一个高维的特征向量转换为一个紧凑的二进制码的算法)，基于数据增强技术提出了一个高效的无监督哈希模型用于快速图像检索领域。通过数据增强方法，为无标签数据构建三元组训练样本，通过三元组损失函数、最小量化误差损失函数和最大熵损失函数驱使网络充分利用每张图片的信息，学习到一系列更具有表达能力的参数以提高快速图片检索的准确性。本实施例是一种能够利用无标签数据学习网络的哈希快速图片检索系统及方法，利用数据增强构建表达能力更强的三元组训练样本训练网络，显著提升了快速图片检索的准确性。

通过本实施例，可以构建一个基于卷积神经网络的无监督哈希快速图片检索系统及方法，利用无标签的数据训练网络f，使得学习到的网络更具有辨识能力，可以用一个较短的二进制码，也就是哈希码来表示一张图片，加快图片检索速度的同时保证了检索的精度。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于卷积神经网络的无监督哈希快速图片检索系统，其特征在于，包括如下模块：

2.根据权利要求1所述的基于卷积神经网络的无监督哈希快速图片检索系统，其特征在于，所述构建卷积神经网络模块通过将现有的深度卷积神经网络的损失层去掉，替换成无监督学习模块、最小量化误差模块和最大信息熵模块，并在损失层前面加入哈希映射模块，将三元组训练样本输入至深度卷积神经网络，训练适合图片检索任务的卷积神经网络。

3.一种基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，包括以下步骤：

步骤S5，对一张新来的访问图片q，输入至卷积神经网络f″中，并将图片q的图像特征向量输出值进行量化得到对应的二进制哈希码Η(q)；

步骤S6，计算哈希码Η(q)与本地数据库中所有的哈希码的汉明距离并进行排序，认为汉明距离越小的两个二进制码对应的图片越相似，并通过哈希码Η(q)与本地数据库中每个哈希码的汉明距离排序挑选出相似度最高的图片作为检索到的图片。

4.根据权利要求3所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S1具体包括以下步骤：

5.根据权利要求3所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S2包括如下子步骤：

6.根据权利要求3所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S3具体包括如下步骤：

7.根据权利要求3所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S4具体包括如下步骤：

所述三元损失函数loss(D(p,p⁺),D(p,p^-))为：

所述最小量化误差损失函数loss_mq为：

{loss}_{m q} = - (| | f (p) - 0.5 | |_{2}^{2} + | | f (p^{+}) - 0.5 | |_{2}^{2} + | | f (p^{-}) - 0.5 | |_{2}^{2});

所述最大信息熵损失函数loss_me为：

h (p) = \{\begin{matrix} 1, f (p) > 0.5 \\ 0, f (p) \leq 0.5 \end{matrix} .

8.根据权利要求5所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S22中，加入的全连接层中神经元的个数等于三元组训练样本中的每张图片所对应的哈希码的比特数。

9.根据权利要求7所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，在步骤S43中：

10.根据权利要求3所述的基于卷积神经网络的无监督哈希快速图片检索方法，其特征在于，步骤S5具体包括如下步骤：

将本地数据库的所有图片通过卷积神经网络f″提取出所对应的图像特征向量并经过步骤S44的量化得到每张图片对应的哈希码，将所有图片的哈希码存于本地；对于新来的一张访问图片q，首先将该访问图片q输送至卷积神经网络f″中并用步骤S44中的门槛函数对图片特征进行量化得到所对应的哈希码Η(q)。