CN109189973A

CN109189973A - 基于策略梯度的大规模图像检索方法及装置

Info

Publication number: CN109189973A
Application number: CN201811004958.2A
Authority: CN
Inventors: 鲁继文; 周杰; 袁鑫; 任亮亮
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-11
Anticipated expiration: 2038-08-30
Also published as: CN109189973B

Abstract

本发明公开了一种基于策略梯度的大规模图像检索方法及装置，其中，方法包括：接收输入图像；将输入图像送入新的深度哈希网络中，其中，新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用卷积神经网络学习得到图像的深度表达，并通过带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率；通过端到端训练新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。该方法通过采用策略梯度的方法得到一个最优化的深度哈希框架，从而提高大规模图像数据库上的检索精度。

Description

基于策略梯度的大规模图像检索方法及装置

技术领域

本发明涉及计算机图像处理技术领域，特别涉及一种基于策略梯度的大规模图像检索方法及装置。

背景技术

随着信息技术的迅速发展，各行各业积累的数据都呈现出爆炸式增长趋势，已经进入大数据时代。大数据在很多领域都具有广阔的应用前景，已经成为国家重要的战略资源，对大数据的存储、管理和分析也已经成为学术界和工业界高度关注的热点。收集、存储、传输、处理大数据的目的是为了利用大数据，而要有效地利用大数据，机器学习技术必不可少。图像的检索问题的传统方法直接从海量图像的高维向量空间抽取特征，在速度和存储开销等方面都不能取得令人满意的效果。在实际的场景中无法应用，哈希学习进入机器学习领域以后，成为了该领域的一大研究热点。在大规模图像检索的应用场景下，哈希学习通过将数据表示成二进制码的形式，加速检索过程节约内外存开销，取得了优于传统方法的效果。人们广泛关注哈希学习方法，因此产生了该领域的一个热点问题。

大部分现有的基于学习的哈希方法使用浅层结构将数据样本进行编码，即通过学习一个单一的投影矩阵将相似的样本映射到学习的汉明空间中相近的位置。大部分这种类型的方法不能解决数据的非线性问题，限制了图像检索中的性能提高。最近，基于深度学习的哈希方法被提出来学习具有强大判别能力的图像表达以及非线性的哈希映射，在多个图像检索数据集上取得了非常好的性能。

然而，不可微的离散优化中的二值约束是一个具有挑战性问题。该问题使得深度哈希不能被以一种真正端到端的方式去学习。通过连续性放松，不可微的优化问题可以被转化为可以使用标准梯度下降方法进行解决的连续优化问题。虽然很多方法被提出来控制量化误差，但是他们依然不能在一个优化过程中精准地得到二值哈希码，进而可能导致学习到次优的哈希二值码。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于策略梯度的大规模图像检索方法，该方法可以得到最有效的梯度和最优的哈希二值码，提高大规模图像数据库上的检索精度。

本发明的另一个目的在于提出一种基于策略梯度的大规模图像检索装置。

为达到上述目的，本发明一方面实施例提出了一种基于策略梯度的大规模图像检索方法，包括以下步骤：接收输入图像；将所述输入图像送入新的深度哈希网络中，其中，所述新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用所述卷积神经网络学习得到图像的深度表达，并通过所述带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率；通过端到端训练所述新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。

本发明实施例的基于策略梯度的大规模图像检索方法，通过采用策略梯度的方法得到一个最优化的深度哈希框架，将哈希网络的不可微分的部分重新形式化为采用随机策略进行采样，以使得传统框架中的放松部分被除去，直接生成二值码并且最大化对于相似度保持的奖励的期望，以克服使得离散优化的不可微分的问题，从而得到最有效的梯度和最优的哈希二值码，提高大规模图像数据库上的检索精度。

另外，根据本发明上述实施例的基于策略梯度的大规模图像检索方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述带有非线性激活函数的全连接的策略层输出的概率分布被形式化的表示为：

其中，π(x_i,θ)为策略函数，θ为网络参数，x_i为输入样本，a_i为二值动作。

进一步地，在本发明的一个实施例中，所述通过端到端训练所述新的深度哈希网络，进一步包括：在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

进一步地，在本发明的一个实施例中，所述通过端到端训练所述新的深度哈希网络，进一步包括：通过强化算法和基线算法获取整体优化目标的梯度；

其中，使用所述强化算法来计算不可微分的奖励函数期望梯度：

其中，A_i是对第i个数据的所有动作，r(a_i)为加权的奖励函数，P_θ为在当前的网络参数下，对某一状态采取动作的概率；

期待的策略梯度计算为：

其中，T为进行采样的次数，a_i ^t为采取的动作，r(a_i ^t)为奖励函数；

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

进一步地，在本发明的一个实施例中，在完成学习网络参数后，对训练的样本生成的二值码进行扩展，其中，将测试样本传入所述哈希网络之中，在顶层得到K维度的关于采取+1的哈希码的概率向量，且直接采用：

另外，对于已经得到的概率向量，写出随机式的二值码生成：

为达到上述目的，本发明另一方面实施例提出了一种基于策略梯度的大规模图像检索装置，包括：接收模块，用于接收输入图像；送入模块，用于将所述输入图像送入新的深度哈希网络中，其中，所述新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用所述卷积神经网络学习得到图像的深度表达，并通过所述带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率；训练模块，用于通过端到端训练所述新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。

本发明实施例的基于策略梯度的大规模图像检索装置，通过采用策略梯度的方法得到一个最优化的深度哈希框架，将哈希网络的不可微分的部分重新形式化为采用随机策略进行采样，以使得传统框架中的放松部分被除去，直接生成二值码并且最大化对于相似度保持的奖励的期望，以克服使得离散优化的不可微分的问题，从而得到最有效的梯度和最优的哈希二值码，提高大规模图像数据库上的检索精度。

另外，根据本发明上述实施例的基于策略梯度的大规模图像检索装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述训练模块进一步用于在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

进一步地，在本发明的一个实施例中，所述训练模块进一步用于通过强化算法和基线算法获取整体优化目标的梯度；其中，使用所述强化算法来计算不可微分的奖励函数期望梯度：

期待的策略梯度计算为：

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

进一步地，在本发明的一个实施例中，在完成学习网络参数后，对训练的样本生成的二值码进行扩展，其中，

将测试样本传入所述哈希网络之中，在顶层得到K维度的关于采取+1的哈希码的概率向量，且直接采用：

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于策略梯度的大规模图像检索方法的流程图；

图2为根据本发明一个具体实施例的基于策略梯度的大规模图像检索方法的流程图；

图3为根据本发明一个实施例的基于策略梯度的大规模图像检索装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于策略梯度的大规模图像检索方法及装置，首先将参照附图描述根据本发明实施例提出的基于策略梯度的大规模图像检索方法。

图1是本发明一个实施例的基于策略梯度的大规模图像检索方法的流程图。

如图1所示，该基于策略梯度的大规模图像检索方法包括以下步骤：

在步骤S101中，接收输入图像。

在步骤S102中，将输入图像送入新的深度哈希网络中，其中，新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用卷积神经网络学习得到图像的深度表达，并通过带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率。

可以理解的是，如图2所示，首先，将输入图像送入本发明实施例设计的新的深度哈希网络中。网络分为两个部分：第一个部分是一个卷积神经网络，本发明实施例使用该网络学习得到图像的深度表达。第二个部分是一个带有非线性激活函数的全连接的策略层，用来将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率。

进一步地，在本发明的一个实施例中，带有非线性激活函数的全连接的策略层输出的概率分布被形式化的表示为：

具体而言，下面将对策略的形式化定义进行进一步阐述。

本发明实施例定义为策略函数，并且由网络参数θ和输入样本x_i进行参数化。该策略会产生一系列的二值动作a_i，策略网络仅仅输出产生为+1的哈希码的概率，这与现有的输出每个动作概率分布的强化学习框架是不同的。进而，本发明实施例的方法中策略层输出的概率分布可以被形式化的表示为：

在产生动作以后，框架会给出一个与相似度保持相关联的奖励函数。这个奖励是由比较汉明空间的相似度保持与真实标注的相似度进行比较计算得出的。

在步骤S103中，通过端到端训练新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。

具体而言，关于训练策略，在每一次迭代中，采样一组数据进行训练，对于每个小组的m个数据样本，本发明实施例目的是利用相似性保持哈希编码b_i＝2*(a_i-0.5)和码本{b_j}_{j＝1:n}之间全局信息。对于两个哈希二值码，采用內积的方式来表达汉明距离。此外，本发明实施例还使用加权的奖励函数来解决数据集中正负样本不平衡的问题：

其中，

是用来补偿正负样本中不平衡性问题的相似性度量。其中调节参数β来适应不同数据集中的样本不平衡性。值得注意的是，码本C比模型参数本身更新速度要缓慢一些，这样在一定程度上保证训练的稳定性。

在本发明的一个实施例中，通过端到端训练新的深度哈希网络，进一步包括：在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

可以理解的是，在训练过程中的目标就是最小化该组训练数据的奖励函数的期望的相反数。值得一提的是，本发明实施例的框架与网络进行交互的是图像数据，而图像数据并不会因为动作或者之前的状态发生转移。因此，严格的讲，这种表达并不是完整的强化学习框架。本发明实施例仅仅关注在奖励函数的引导下，提高哈希二值码的相似性保持和改善哈希学习的性能。下面将对两种优化方式进行进一步阐述。

进一步地，在本发明的一个实施例中，通过端到端训练新的深度哈希网络，进一步包括：通过强化算法和基线算法获取整体优化目标的梯度；其中，使用强化算法来计算不可微分的奖励函数期望梯度：

期待的策略梯度计算为：

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

具体而言，引入的奖励函数依然是不可微分的。因此本发明实施例采用两种优化方式来计算整体优化目标的梯度：强化算法和基线算法。

强化算法：使用REINFORCE算法来计算不可微分的奖励函数期望梯度：

其中A_i是对第i个数据的所有可能的动作，期望的梯度可以用蒙特卡洛采样得出。本发明实施例给出对一个动作a_i的T样本蒙特卡洛采样为：

对于一组训练样本，期待的策略梯度可以计算为：

该梯度中的对数概率可以对伯努利分布进行二值交叉熵计算求得。

基线算法：以上的第一种算法会受到较大方差问题的影响。为了减少梯度估计的方差，采用基线算法进行梯度的估计。对于每一组训练数据，梯度估计为：

其中，基线r’应当独立于动作。增加此基线项不会影响梯度的期望，但是确实可以有效的减少估计的方差。本发明实施例选择所有奖励函数的平均值作为基线。那些保留了和码本相似度的二值码可以得到正的奖励，相反，较少的相似性信息则会得到惩罚。然后采用该梯度来更新网络参数。

进一步地，在本发明的一个实施例中，在完成学习网络参数后，对训练的样本生成的二值码进行扩展，其中，将测试样本传入哈希网络之中，在顶层得到K维度的关于采取+1的哈希码的概率向量，且直接采用

具体而言，完成了学习网络参数以后，本发明实施例不仅仅对训练的样本生成了二值码，还对如何对样本外的数据生成二值码进行了扩展，样本外扩展分为两种方式：确定式和随机式。

确定式：对于一个给定的测试样本，将其传入哈希网络之中，在顶层可以得到K维度的，关于采取+1的哈希码的概率向量。在确定式的生成方式之中，直接采用：

随机式：对于已经得到的概率向量，可以写出随机式的二值码生成：

当模型收敛以后，两种方式的样本外扩展在性能方面相差不大，但是随机式的硬件耗时会比确定式稍长，所以采用确定式的样本外数据扩展。

综上，本发明实施例提出引入基于策略梯度的算法进行哈希学习，通过最大化对于相似度保持的奖励的期望，解决离散优化不可微分的问题。

根据本发明实施例提出的基于策略梯度的大规模图像检索方法，通过采用策略梯度的方法得到一个最优化的深度哈希框架，将哈希网络的不可微分的部分重新形式化为采用随机策略进行采样，以使得传统框架中的放松部分被除去，直接生成二值码并且最大化对于相似度保持的奖励的期望，以克服使得离散优化的不可微分的问题，从而得到最有效的梯度和最优的哈希二值码，提高大规模图像数据库上的检索精度。

其次参照附图描述根据本发明实施例提出的基于策略梯度的大规模图像检索装置。

图3是本发明一个实施例的基于策略梯度的大规模图像检索装置的结构示意图。

如图3所示，该基于策略梯度的大规模图像检索装置10包括：接收模块100、送入模块200和训练模块300。

其中，接收模块100用于接收输入图像。送入模块200用于将输入图像送入新的深度哈希网络中，其中，新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用卷积神经网络学习得到图像的深度表达，并通过带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率。训练模块300用于通过端到端训练新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。本发明实施例的装置10通过采用策略梯度的方法得到一个最优化的深度哈希框架，从而提高大规模图像数据库上的检索精度。

进一步地，在本发明的一个实施例中，所述训练模块300进一步用于在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

进一步地，在本发明的一个实施例中，所述训练模块300进一步用于通过强化算法和基线算法获取整体优化目标的梯度；其中，使用所述强化算法来计算不可微分的奖励函数期望梯度：

期待的策略梯度计算为：

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

需要说明的是，前述对基于策略梯度的大规模图像检索方法实施例的解释说明也适用于该实施例的基于策略梯度的大规模图像检索装置，此处不再赘述。

根据本发明实施例提出的基于策略梯度的大规模图像检索装置，通过采用策略梯度的方法得到一个最优化的深度哈希框架，将哈希网络的不可微分的部分重新形式化为采用随机策略进行采样，以使得传统框架中的放松部分被除去，直接生成二值码并且最大化对于相似度保持的奖励的期望，以克服使得离散优化的不可微分的问题，从而得到最有效的梯度和最优的哈希二值码，提高大规模图像数据库上的检索精度。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于策略梯度的大规模图像检索方法，其特征在于，包括以下步骤：

接收输入图像；

将所述输入图像送入新的深度哈希网络中，其中，所述新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用所述卷积神经网络学习得到图像的深度表达，并通过所述带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率；以及

通过端到端训练所述新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。

2.根据权利要求1所述的基于策略梯度的大规模图像检索方法，其特征在于，所述带有非线性激活函数的全连接的策略层输出的概率分布被形式化的表示为：

3.根据权利要求1所述的基于策略梯度的大规模图像检索方法，其特征在于，所述通过端到端训练所述新的深度哈希网络，进一步包括：

在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

4.根据权利要求1所述的基于策略梯度的大规模图像检索方法，其特征在于，所述通过端到端训练所述新的深度哈希网络，进一步包括：

通过强化算法和基线算法获取整体优化目标的梯度；

期待的策略梯度计算为：

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

5.根据权利要求1所述的基于策略梯度的大规模图像检索方法，其特征在于，

在完成学习网络参数后，对训练的样本生成的二值码进行扩展，其中，

6.一种基于策略梯度的大规模图像检索装置，其特征在于，包括：

接收模块，用于接收输入图像；

送入模块，用于将所述输入图像送入新的深度哈希网络中，其中，所述新的深度哈希网络包括卷积神经网络与带有非线性激活函数的全连接的策略层，且使用所述卷积神经网络学习得到图像的深度表达，并通过所述带有非线性激活函数的全连接的策略层将每个特征表达转化成一个K维度的向量，每一个维度代表着进行二值操作的概率；以及

训练模块，用于通过端到端训练所述新的深度哈希网络，以最大化相似度保持所得到的奖励的期望。

7.根据权利要求6所述的基于策略梯度的大规模图像检索装置，其特征在于，所述带有非线性激活函数的全连接的策略层输出的概率分布被形式化的表示为：

8.根据权利要求7所述的基于策略梯度的大规模图像检索装置，其特征在于，所述训练模块进一步用于在训练过程中，将最小化训练数据的奖励函数的期望的相反数作为目标。

9.根据权利要求6所述的基于策略梯度的大规模图像检索装置，其特征在于，所述训练模块进一步用于通过强化算法和基线算法获取整体优化目标的梯度；其中，使用所述强化算法来计算不可微分的奖励函数期望梯度：

期待的策略梯度计算为：

另外，采用所述基线算法进行梯度的估计，梯度估计为：

其中，r’为基线。

10.根据权利要求6所述的基于策略梯度的大规模图像检索装置，其特征在于，