CN106649886A

CN106649886A - 一种利用三元组标签的深度监督散列进行图像检索方法

Info

Publication number: CN106649886A
Application number: CN201710025983.8A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-05-10

Abstract

本发明中提出的一种利用三元组标签的深度监督散列进行图像检索方法，其主要内容包括：图像特征学习、散列码学习、损失函数、模型学习、输入图像获得外观相近的其他图像，其过程为，首先建立三元组标签，同时进行图像特征学习和散列码学习，其中采用卷积神经网络学习图像特征，用一个完全连接层输出图像散列码，然后利用损失函数评估所学习的散列码，最后集成于一个网络，通过最小化损失函数训练网络，将新的图像输入训练完成的网络，即可生成散列码，输出与输入图像外观相近的图像。本发明突破传统散列对现成特征的依赖，基于三元组标签同时执行图像特征和散列码的学习，使得图像搜索速度和存储效率均得到提高，使人们图像检索更加方便快捷。

Description

一种利用三元组标签的深度监督散列进行图像检索方法

技术领域

本发明涉及图像检索领域，尤其是涉及了一种利用三元组标签的深度监督散列进行图像检索方法。

背景技术

图像检索常用于日常搜索、公安系统、数字图书馆等领域，具体地，例如谷歌的图片搜索功能，导入图片得到图片相关内容或其他相关图像，使得人们可以在对未知图像无任何语义概念的情况下获得与其形似或同类的其他图像或解释。应用于公安系统可以轻易检索到嫌疑人相关信息加速破案进程，应用于数字化图书馆快速检索藏书信息。然而现有技术依赖于现成特征，散列码学习与图像特征学习无关导致生成的散列码无法达到既定性能，再者其对存储空间和检索时间的要求，面对如今互联网上动辄上亿级别的数据规模，显然不切实际。

本发明提出了一种利用三元组标签的深度监督散列进行图像检索方法，提出了一个模型，基于三元组标签的深度散列方法以端到端的方式同时执行图像特征和散列码学习。首先建立三元组标签，同时进行图像特征学习和散列码学习，其中采用卷积神经网络学习图像特征，用一个完全连接层输出图像散列码，然后利用损失函数评估所学习的散列码，最后集成于一个网络，通过最小化损失函数训练网络，将新的图像输入训练完成的网络，即可生成散列码，输出与输入图像外观相近的图像。本发明突破传统散列对现成特征的依赖，以及因散列码学习与图像特征无关而产生次优散列码的局限，通过最大化给定三元组标签的似然性同时执行图像特征学习和散列码学习，使得图像搜索速度和存储效率均得到提高，优于现有方法。

发明内容

针对现有方法依赖现成特征、存储空间消耗大，检索速度慢等问题，本发明的目的在于提供一种利用三元组标签的深度监督散列进行图像检索方法，通过最大化给定三元组标签的似然性同时执行图像特征学习和散列码学习，使得图像搜索速度和存储效率均得到提高，优于现有方法。

为解决上述问题，本发明提供一种利用三元组标签的深度监督散列进行图像检索方法，其主要内容包括：

(一)图像特征学习；

(二)散列码学习；

(三)损失函数；

(四)模型学习；

(五)输入图像获得外观相近的其他图像。

其中，所述的图像特征学习，采用卷积神经网络学习图像特征，所用的CNN-F网络架构，共有八层，其中最后一层被设计来学习类别标签的概率分布，故仅可使用CNN-F的前7层。

其中，所述的散列码学习，旨在学习图像的散列码，用一个完全连接层输出图像的散列码，并且该层神经元的数量与目标散列码的长度相等，多个完全连接层或其他架构如分割和编码模块也可应用于此。

进一步地，所述的散列码，若一个散列码b_n对应一个图像I_n，其中b_n∈{+1，-1}^L，L是散列码的长度，散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签，更确切地，应该尽可能比小，其中dist_H(β，γ)表示两个二值码β和γ之间的Hamming距离。

其中，所述的损失函数，用于评估所学习的散列码的质量，其中散列码通过计算给定三元组标签的似然性而得，并将损失函数定义为三元组标签似然性的负对数。

进一步地，所述的三元组标签的似然性，通过最大化三元组标签似然性，可以使查询图像和正图像之间的汉明距离比和负图像之间的更小，并给出如下公式及证明，令θ_ij表示两个散列码b_i，b_j∈{+1，-1}^L点积的一半：

然后将三元组标签似然性公式化为：

以及

其中σ(x)是S形函数α是差值，一个正的超参数，是所有散列码的集合；

首先证明两个二值码之间的汉明距离与其内积之间有以下关系：

根据式4，有

根据式3，可知越大，越大，因为α是一个常数，所以越大，越小，即通过最大化三元组标签似然性保持了查询图像，正图像和负图像之间的相对相似性。

进一步地，所述的损失函数，其定义为三元组标签似然性的负对数，如下：

将式3代入上等式，可得到：

要最小化(7)中定义的损失，将二值码{b_n}松弛到真矢量{u_n}，并且重新定义θ_ij为

损失函数即化为

其中λ是平衡三元组似然性的负对数和量化误差的超参数，b_n＝sgn(u_n)，其中sgn()是符号函数且当时，等于1，否则等于-1。

其中，所述的模型学习，模型由前述三个关键部分组成，集成的网络由三个具有相同架构和共享权重的子网络组成，将三元组图像作为输入，输出图像的散列码。

进一步地，所述的网络，通过最小化损失函数得到训练：

其中θ表示子网络的所有参数，u_n是子网络第n个训练图像的输出，b_n＝sgn(u_n)，可见L关于u_n是可积分的，因此，反向传播算法可以应用于此以使损失函数最小化；

一旦训练完成，即可应用模型来为新的图像生成散列码，对于一个新图像I，将其传递到训练过的子网络，并取最后一层u的输出，则图像I的散列码b则有b＝sgn(u)。

其中，所述的输入图像获得外观相近的其他图像，将一幅图像输入到搜索引擎中，返回的结果是数据库图像中与输入图像外观相近的其他图像。

附图说明

图1是本发明一种利用三元组标签的深度监督散列进行图像检索方法的系统流程图。

图2是本发明一种利用三元组标签的深度监督散列进行图像检索方法的模型网络概要图。

图3是本发明一种利用三元组标签的深度监督散列进行图像检索方法的图像检索流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种利用三元组标签的深度监督散列进行图像检索方法的系统流程图。主要包括图像特征学习、散列码学习、损失函数、模型学习、输入图像获得外观相近的其他图像。

其中，图像特征学习，采用卷积神经网络学习图像特征，所用的CNN-F网络架构，共有八层，其中最后一层被设计来学习类别标签的概率分布，故仅可使用CNN-F的前7层。

其中，散列码学习，旨在学习图像的散列码，用一个完全连接层输出图像的散列码，并且该层神经元的数量与目标散列码的长度相等，多个完全连接层或其他架构如分割和编码模块也可应用于此。

其中，损失函数，评估所学习的散列码的质量，其中散列码通过计算给定三元组标签的似然性而得。通过最大化三元组标签似然性，可以使查询图像和正图像之间的汉明距离比和负图像之间的更小，并给出如下公式及证明，

令θ_ij表示两个散列码b_i，b_j∈{+1，-1}^L点积的一半：

然后将三元组标签似然性公式化为：

以及

根据式4，有

损失函数定义为三元组标签似然性的负对数，如下：

将式3代入上等式，可得到：

损失函数即化为

其中，模型学习，由前述三个关键部分组成，集成的网络由三个具有相同架构和共享权重的子网络组成，将三元组图像作为输入，输出图像的散列码。

此网络通过最小化损失函数得到训练：

其中，输入图像获得外观相近的其他图像，将一幅图像输入到搜索引擎中，返回的结果是数据库图像中与输入图像外观相近的其他图像。

图2是本发明一种利用三元组标签的深度监督散列进行图像检索方法的模型网络概要图。此网络由三个具有相同架构和共享权重的子网络组成，包括(1)图像特征学习(2)散列码学习(3)损失函数。将三元组图像作为输入，输出图像的散列码，实现基于三元组标签的深度散列方法以端到端的方式同时执行图像特征和散列码学习。

图3是本发明一种利用三元组标签的深度监督散列进行图像检索方法的图像检索流程图。在对某图像进行检索时，在搜索栏中导入该图像，对图像信息进行分析，获得散列码，从而获取与输入图像外观相近的其他图像并输出，为用户提供更快捷有效的图像检索方法。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种利用三元组标签的深度监督散列进行图像检索方法，其特征在于，主要包括图像特征学习(一)；散列码学习(二)；损失函数(三)；模型学习(四)；输入图像获得外观相近的其他图像(五)。

2.基于权利要求书1所述的图像特征学习(一)，其特征在于，采用卷积神经网络学习图像特征，所用的CNN-F网络架构，共有八层，其中最后一层被设计来学习类别标签的概率分布，故仅可使用CNN-F的前7层。

3.基于权利要求书1所述的散列码学习(二)，其特征在于，旨在学习图像的散列码，用一个完全连接层输出图像的散列码，并且该层神经元的数量与目标散列码的长度相等，多个完全连接层或其他架构如分割和编码模块也可应用于此。

4.基于权利要求书3所述的散列码，其特征在于，一个散列码b_n对应一个图像I_n，其中b_n∈{+1，-1}^L，L是散列码的长度，散列码应该在Hamming(汉明)空间中尽可能地满足所有三元组标签，更确切地，应该尽可能比小，其中dist_H(β，γ)表示两个二值码β和γ之间的Hamming距离。

5.基于权利要求书1所述的损失函数(三)，其特征在于，评估所学习的散列码的质量，其中散列码通过计算给定三元组标签的似然性而得，并将损失函数定义为三元组标签似然性的负对数。

6.基于权利要求书5所述的三元组标签的似然性，其特征在于，通过最大化三元组标签似然性，可以使查询图像和正图像之间的汉明距离比和负图像之间的更小，并给出如下公式及证明，

令θ_ij表示两个散列码b_i，b_j∈{+1，-1}^L点积的一半：

θ_{i j} = \frac{1}{2} b_{i}^{T} b_{j} - - - (1)

然后将三元组标签似然性公式化为：

以及

{dist}_{H} (b_{i}, b_{j}) = \frac{1}{2} (L - 2 θ_{i j}) - - - (4)

根据式4，有

{dist}_{H} (b_{q_{m}}, b_{p_{m}}) - {dist}_{H} (b_{q_{m}}, b_{n_{m}}) = - (θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}}) - - - (5)

7.基于权利要求书5所述的损失函数的定义，其特征在于，三元组标签似然性的负对数的定义如下：

将式3代入上等式，可得到：

L = - Σ_{m = 1}^{M} (θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α - l o g (1 + e^{θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α})) - - - (7)

θ_{i j} = \frac{1}{2} u_{i}^{T} u_{j} - - - (8)

损失函数即化为

\begin{matrix} L = - Σ_{m = 1}^{M} (θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α - l o g (1 + e^{θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α})) \\ + λ Σ_{n = 1}^{N} | | b_{n} - u_{n} | |_{2}^{2} \end{matrix} - - - (9)

8.基于权利要求书1所述的模型学习(四)，其特征在于，模型由前述三个关键部分组成，集成的网络由三个具有相同架构和共享权重的子网络组成，将三元组图像作为输入，输出图像的散列码。

9.基于权利要求书8所述的网络，其特征在于，此网络通过最小化损失函数得到训练：

\begin{matrix} L (θ) = - Σ_{m = 1}^{M} (θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α - l o g (1 + e^{θ_{q_{m} p_{m}} - θ_{q_{m} n_{m}} - α})) \\ + λ Σ_{n = 1}^{N} | | b_{n} - u_{n} | |_{2}^{2} \end{matrix} - - - (10)

10.基于权利要求书1所述的输入图像获得外观相近的其他图像(五)，其特征在于，将一幅图像输入到搜索引擎中，返回的结果是数据库图像中与输入图像外观相近的其他图像。