CN109670057B

CN109670057B - 一种渐进式的端到端深度特征量化系统及方法

Info

Publication number: CN109670057B
Application number: CN201910005178.8A
Authority: CN
Inventors: 宋井宽; 朱筱苏; 高联丽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-01-03
Filing date: 2019-01-03
Publication date: 2021-06-29
Anticipated expiration: 2039-01-03
Also published as: CN109670057A

Abstract

本发明涉及图像检索领域，其公开了一种渐进式的端到端深度特征量化系统及方法，解决传统技术中由于特征提取和量化两部分相互孤立，在数据库中的二进制编码长度需要变更时，需要重新训练神经网络并对整个数据库重新编码，而带来的耗费时间和运算资源的问题。该系统包括深度神经网络，所述深度神经网络包括：图像特征优化单元，用于将图片通过表示学习，生成用于描述图片的D维实数特征向量；特征量化单元，用于通过一个或多个量化层将特征向量转化为二进制编码；当使用多个量化层时，各个量化层的量化误差作为下一个量化层的输入，根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接，获得最终的二进制编码。

Description

一种渐进式的端到端深度特征量化系统及方法

技术领域

本发明涉及图像检索领域，具体涉及一种渐进式的端到端深度特征量化系统及方法。

背景技术

随着信息时代多媒体内容的爆炸式增长，如何在海量图片库中检索图片是一个热点问题。传统的图像检索方法是先使用SIFT[1],GIST[2]算法提取图像的特征信息，再使用哈希算法[3]或量化算法[4]将特征信息压缩至极短的二进制编码，以此缩减数据库体积，加快检索速度。最近，一些基于深度学习的量化算法不断涌现，它们首先使用深度神经网络提取图片的特征信息[5]，然后使用传统的量化方法再进行特征压缩。

然而，由于特征提取和量化两部分相互孤立，如果数据库中的二进制编码长度需要变更时，每次都需要对神经网络重新训练并对整个数据库重新编码，非常耗费时间和运算资源。

参考文献：

[1]Lowe D G.Object recognition from local scale-invariant features[C]//Computer vision,1999.The proceedings of the seventh IEEE internationalconference on.Ieee,1999,2:1150-1157.

[2]Oliva A,Torralba A.Modeling the shape of the scene:A holisticrepresentation of the spatial envelope[J].International journal of computervision,2001,42(3):145-175.

[3]Datar M,Immorlica N,Indyk P,et al.Locality-sensitive hashingscheme based on p-stable distributions[C]//Proceedings of the twentiethannual symposium on Computational geometry.ACM,2004:253-262.

[4]Jegou H,Douze M,Schmid C.Product quantization for nearest neighborsearch[J].IEEE transactions on pattern analysis and machine intelligence,2011,33(1):117-128.

[5]Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification withdeep convolutional neural networks[C]//Advances in neural informationprocessing systems.2012:1097-1105.

发明内容

本发明所要解决的技术问题是：提供一种渐进式的端到端深度特征量化系统及方法，解决传统技术中由于特征提取和量化两部分相互孤立，在数据库中的二进制编码长度需要变更时，需要重新训练神经网络并对整个数据库重新编码，而带来的耗费时间和运算资源的问题。

本发明解决上述技术问题所采用的技术方案是：

一种渐进式的端到端深度特征量化系统，包括深度神经网络，所述深度神经网络包括图像特征优化单元和特征量化单元，

所述图像特征优化单元，用于将图片通过表示学习，生成用于描述图片的D维实数特征向量；

所述特征量化单元，用于通过一个或多个量化层将特征向量转化为二进制编码；当使用多个量化层时，各个量化层的量化误差作为下一个量化层的输入，根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接，获得最终的二进制编码。

作为进一步优化，所述量化层通过softmax函数来进行量化。

作为进一步优化，所述量化层具体用于：

首先随机初始化一个M*D的码本，包含M个长度为D维的码字；

当接收到D维特征向量的输入时，先计算输入与各个码字之间的距离d，得到由M个距离组成的距离向量，之后对距离向量应用softmax函数计算，得到归一化的距离P，P即是各个码元相对于输入的权重，与输入越近似的码字，在P中所占比例就越大；

最后使用P对码字进行加权求和，将加权求和值作为软编码，将P中权重最大的码字的索引作为硬编码；通过软编码和硬编码来计算量化误差。

作为进一步优化，所述量化层还用于，通过优化量化误差来更新量化层的码本。

此外，基于上述系统，本发明还提供了一种渐进式的端到端深度特征量化方法，其包括以下步骤：

a.初始化步骤：

初始化深度神经网络，定义特征向量的长度和码本的大小；

b.网络训练步骤：

输入训练图片至深度神经网络的输入中，获得量化近似后的输出；

c.数据库图片特征量化步骤：

深度神经网络训练完毕后，将图片数据库中的所有图片输入此网络进行特征量化，获取最终二进制编码。

作为进一步优化，步骤b中，在进行网络训练时，通过监督信息计算语义损失和分类损失，并通过梯度下降法反向传播，更新整个网络。

作为进一步优化，步骤b中，所述深度神经网络的输入获取到训练图片后，首先对图片进行特征提取，生成用于描述图片的D维特征向量；

然后对所述特征向量进行量化，量化过程包括：

首先计算特征向量与各个码字之间的距离d，得到由M个距离组成的距离向量，之后对距离向量应用softmax函数计算，得到归一化的距离P，P即是各个码元相对于输入的权重，与输入越近似的码字，在P中所占比例就越大；

最后使用P对码字进行加权求和，将加权求和值作为软编码，将P中权重最大的码字的索引作为硬编码；通过软编码和硬编码来计算量化误差，通过优化量化误差更新量化层的码本。

作为进一步优化，步骤c中，所述最终二进制编码为根据数据库编码精度需求选择相应个数的量化层的量化输出的编码进行拼接获得。

本发明的有益效果是：

(1)定义了可微的量化层，使得量化算法可以作为神经网络的一层使用，从而能够实现端到端的量化算法。

(2)定义了普适的量化方法，通过自定义输入和输出策略，能够实现特定的量化方法。

(3)提出一种量化的输入和输出策略，实现了渐进式的量化方法，达到只需一次训练，就能获得不同长度编码的效果，减少了时间和降低了运算成本。

附图说明

图1为本发明的渐进式的端到端深度特征量化原理示意图；

图2为图像特征优化单元的原理示意图；

图3为特征量化单元的原理示意图；

图4为量化层的工作原理图。

具体实施方式

本发明旨在提供一种渐进式的端到端深度特征量化系统及方法，解决传统技术中由于特征提取和量化两部分相互孤立，在数据库中的二进制编码长度需要变更时，需要对神经网络重新训练并对整个数据库重新编码，而带来的耗费时间和运算资源的问题。

本发明从深度量化方法出发，设计了一个使用深度神经网络的网实现的特征量化层，这一量化层可以将一个D维长度的特征向量用一个包含M个D维码字的码本中的一个字表示，从而将特征向量表示成码本中的一个索引，也即将D维长度的实数向量压缩到长度为logK的二进制编码上。同时，本发明提出了一个普适的量化过程，把量化过程抽象成一些特定的量化层表示，通过给定输入和输出的策略，本发明就能通过这些量化层来实现特定的量化算法。最后，本发明提出了一个量化策略，实现了渐进式的量化算法，使得整个网络仅需训练一次，就能得到压缩成不同长度的二进制编码。

如图1所示，本发明中的渐进式的端到端深度特征量化系统，包括深度神经网络，所述深度神经网络包括图像特征优化单元和特征量化单元两部分，其中，图像特征优化单元，用于将图片通过表示学习，生成用于描述图片的D维实数特征向量；特征量化单元，用于通过一个或多个量化层将特征向量转化为二进制编码；当使用多个量化层时，各个量化层的量化误差作为下一个量化层的输入，根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接，获得最终的二进制编码。

图像特征优化单元的原理如图2所示，其使用AlexNet提取图像的最后一层(fc7层)4096维的特征，将其同时经过两个全连接层分别得到300维和C维的特征(此处C为监督信息的类别数量)，通过监督信息计算语义损失和分类损失，对特征进行优化。

特征量化单元的原理如图3所示，其通过若干个量化层将图像特征量化为二进制编码，各个量化层的量化误差作为下一个量化层的输入，各个量化层的编码输出依次连接得到完整编码。

量化层的工作原理如图4所示，首先计算输入与其码本中的各个码字之间的距离，将距离经过softmax函数归一化后得到码字的权重，再对码字加权求和得到软编码，而距离的最小的那个码字对应的索引就是硬编码。本发明使用硬编码和软编码计算量化误差，通过优化量化误差来更新量化层的码本。

在具体实现上，本发明构造了一个通过softmax函数来进行量化的量化层，此层首先随机初始化一个M*D的码本，包含M个长度为D维的码字，当接收到输入x，一个D维的特征向量时，此层先计算输入与各个码字之间的距离d，得到由M个距离组成的距离向量，之后对距离向量应用softmax函数，得到归一化的距离P，P即是各个码元相对于输入的权重，与输入越近似的码字，在P中所占比例就越大。最后本发明使用P对码字进行加权求和，这样就使用整个码本的所有码字的线性组合来近似输入，这个近似值就是输出1，而P中权重最大的码字的索引就是量化时要输出的编码。同时，为了保证近似的精确度，本发明直接提取权重最大的码字作为输出2。可以看出，输出1就是使用整个码本的所有码字的加权和来近似输入，输出2就是使用与输入最接近的码字来近似输入。因为使用了softmax函数，本发明将本无法计算梯度的量化层得以加入到神经网络中，从而能够进行梯度计算和参数更新。

定义量化层及其输入输出后，我们就可以设计输入与输出的策略，从而实现整个量化算法。最简单的输入与输出策略即：输入为x，输出为x的近似值，使用此种策略，本发明的量化层就能实现最基本的向量量化(Vector Quantization)算法。本发明提出了一种渐进式的输入输出策略，即：输入一个x，经过量化得到x的近似值后，将x与近似值的差作为下一个量化层的输入。这样，每一个量化层输出的是这个量化层的量化误差，而这一误差作为下一量化层的输入，就能使这个误差通过量化进一步缩小，这几层量化的输出就能逐步逼近x。当需要的量化精度不高时，则只使用第一层的量化编码，当量化精度要求提高，就使用第一层加第二层的量化编码。随着量化层数逐步增加，量化的精度也就逐步提高，体现了渐进的过程。

本发明的渐进式的端到端深度特征量化方法主要包括以下步骤：

步骤1：初始化整个网络，定义特征向量的长度和码本的大小，此处使用300维的特征向量和4个码本，4个码本即对应4个量化层。每个码本中包含256个码字，即每个码本产生8位2进制编码。也可自定义来得到不同大小的码本和二进制编码。

步骤2：输入训练图片到网络的输入中，经过两部分网络，得到量化近似后的输出，针对图像检索任务，本发明需要添加监督信息以提高检索精度，以及计算量化损失函数，并通过梯度下降法反向传播，更新整个网络。

步骤3：网络训练完毕后，将图片数据库中的所有图片输入此网络，通过量化层进行编码，由于每层产生8位的短编码，经过连接，只使用第一层时得到8位编码；第一层和第二层连接得到16位编码；第一、二、三层连接得到24位编码；全部四层连接得到32位编码。

Claims

1.一种渐进式的端到端深度特征量化系统，包括深度神经网络，其特征在于，

所述深度神经网络包括图像特征优化单元和特征量化单元，

所述特征量化单元，用于通过一个或多个量化层将特征向量转化为二进制编码；当使用多个量化层时，各个量化层的量化误差作为下一个量化层的输入，根据编码精度需求选择相应个数的量化层的量化输出的编码进行拼接，获得最终的二进制编码；

所述量化层具体用于：

首先随机初始化一个M*D的码本，包含M个长度为D维的码字；

2.如权利要求1所述的系统，其特征在于，

所述量化层还用于，通过优化量化误差来更新量化层的码本。

3.一种渐进式的端到端深度特征量化方法，应用于如权利要求1或2所述的系统，其特征在于，包括以下步骤：

a.初始化步骤：

初始化深度神经网络，定义特征向量的长度和码本的大小；

b.网络训练步骤：

c.数据库图片特征量化步骤：

4.如权利要求3所述的方法，其特征在于，

步骤b中，在进行网络训练时，通过监督信息计算语义损失和分类损失，并通过梯度下降法反向传播，更新整个网络。

5.如权利要求3所述的方法，其特征在于，

步骤b中，所述深度神经网络的输入获取到训练图片后，首先对图片进行特征提取，生成用于描述图片的D维特征向量；

然后对所述特征向量进行量化，量化过程包括：

6.如权利要求3所述的方法，其特征在于，

步骤c中，所述最终二进制编码为根据数据库编码精度需求选择相应个数的量化层的量化输出的编码进行拼接获得。