CN105022836A

CN105022836A - 基于sift嵌入的紧凑的深度cnn特征索引方法

Info

Publication number: CN105022836A
Application number: CN201510501763.9A
Authority: CN
Inventors: 周文罡; 王云峰; 李厚强; 田奇
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2015-08-14
Filing date: 2015-08-14
Publication date: 2015-11-04
Anticipated expiration: 2035-08-14
Also published as: CN105022836B

Abstract

本发明公开了一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，包括：针对图像的深度CNN特征，进行基于能量的稀疏化处理；采用距离测度优化的方式，利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征，使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息，完成基于SIFT嵌入的紧凑的深度CNN特征索引。本发明公开的方法，用以进行高效地存储数目巨大的数据库中图片的特征，并有效地减少线上检索所需时间。

Description

基于SIFT嵌入的紧凑的深度CNN特征索引方法

技术领域

本发明涉及多媒体技术中的图像检索领域，尤其涉及一种基于SIFT嵌入的紧凑的深度CNN特征索引方法。

背景技术

在图像检索领域，如何可靠而高效地对数据库中图像的特征进行高效的存储和索引是一个至关重要的问题。在大规模的图像检索问题中，为了提供高质量的检索结果，通常需要数目巨大的数据库图片，而数据库中的图片都是以特征的形式保存的，通常每张图片会有比较多的特征，或是有少量的高维度特征，所以需要保存的特征数目是非常可观的。此外，高效地存储也能有效地减少线上检索所需要的时间。由于图像检索过程中，确定数据库中的图片与检索图片相关性排名时，必须计算每张数据库图片和检索图片在特征上的匹配值，而非高效的存储方式必然会使得匹配值计算非常耗时，所以高效地存储和索引数据库图像特征是该领域一个关键性的问题。

近几年来，基于CNN(Convolution Neural Network，卷积神经网络)的特征学习方法在图像分类、目标检测等方面取得了巨大成功，引起了计算机视觉领域的极大关注。经典的AlexNet模型采用深度卷积神经网络，从一张图片中学习得到一个4096维的特征，用于表达图像，可用于图像检索。但是这种特征存在两个问题。第一，这种CNN特征的稀疏度比较低，使得索引效率(包括特征存储效率和查询时的计算效率)比较低。第二，这种CNN特征更接近语义层面，忽略了底层视觉特性，从而影响检索精度。

发明内容

本发明的目的是提供一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，用以进行高效地存储数目巨大的数据库中图片的特征，并有效地减少线上检索所需时间。

本发明的目的是通过以下技术方案实现的：

一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，包括：

针对图像的深度CNN特征，进行基于能量的稀疏化处理；

采用距离测度优化的方式，利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征，使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息，完成基于SIFT嵌入的紧凑的深度CNN特征索引。

所述针对图像的深度CNN特征，进行基于能量的稀疏化处理的步骤包括：

假设图片d的深度CNN特征表示为：c(d)＝(c(d)₁,c(d)₂,…,c(d)_D)，其中，D表示维度；

将图片d的深度CNN特征进行非递增排序，得到新的深度CNN特征记为e(d)＝(e(d)₁,e(d)₂,…,e(d)_D)；

基于能量值γ设定一个阈值τ，使得τ＝e(d)_t，其中参数t通过下式确定：

t = \arg \underset{n}{m i n} \sqrt{Σ_{i = 1}^{n} e {(d)}_{i}^{2}} &GreaterEqual; γ, γ &Element; [0, 1];

确定参数t后，将c(d)中所有大于t的维度的权值都置为0，并对权值进行归一化，获得稀疏化处理后的CNN特征，其表示为f(d)＝(f(d)₁,f(d)₂,…,f(d)_D)。

所述采用距离测度优化的方式，利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征包括：

定义代价函数：

C (I_{c n n}, I_{s i f t}) = \underset{u, v &Element; P}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2};

其中，P代表数据库图像集合，S_cnn(u,v)与S_sift(u,v)分别代表图片u与v在CNN特征的倒排表I_cnn和SIFT特征的倒排表I_sift中的距离测度；S_cnn(u,v)与S_sift(u,v)的表达式如下：

S_cnn(u,v)＝＜f(u),f(v)＞；

S_sift(u,v)＝＜s(u),s(v)＞；

其中，＜f(u),f(v)＞与＜s(u),s(v)＞均表示内积；f(u)＝(f(u)₁,f(u)₂,…f(u)_D)，f(v)＝(f(v)₁,f(v)₂,…f(v)_D)分别表示图片u与v稀疏化处理后的CNN特征；s(u)＝(s(u)₁,s(u)₂,…s(u)_D)_，s(v)＝(s(v)₁,s(v)₂,…s(v)_D)分别表示图片u与v的SIFT特征；

利用图像在CNN特征和SIFT特征中的邻近关系，对将代价函数重写为：

\tilde{C} (I_{c n n}, I_{s i f t}) = \underset{(u, v) &Element; P, v &Element; N_{c} (u) o r v &Element; N_{s} (u)}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2}

其中，N_c(u)表示在CNN特征下图片u的K张最近图片，N_s(u)表示在SIFT特征下图片u的K张最近图片；

将优化目标表达为：

(I_{c n n}, I_{s i f t}) = argmin \tilde{C} (I_{c n n}, I_{s i f t});

通过分布优化来求解以上优化问题：先固定倒排表I_sift，对倒排表I_cnn进行优化，即然后固定倒排表I_cnn，对倒排表I_sift进行优化，即不断重复以上两步，直至收敛或者迭代次数达到预设次数。

所述利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征包括：

步骤a、将数据库中每张图片d作为检索图片，采用SIFT特征，利用Bag-of-Words检索方法进行检索，得到K张最相似的图片，记为N_k(d)；

步骤b、设图片q∈N_k(d)，f(d)_i与f(q)_i分别表示图片d与q稀疏化处理后的第i维CNN特征，如果满足：

f(q)_i＝0,f(d)_i≠0；

则将f(q)_i更新为：f(q)_i＝α·f(d)_i；

其中，α是一个介于0和1之间的系数；

步骤c、将数据库中每张图片d作为检索图片，采用CNN特征进行检索，得到K张最相似的图片，记为N_k(d)'；

步骤d、设图片q'∈N_k(d)'_，s(d)_i与s(q')_i分别表示图片d与q'的基于SIFT特征的bag-of-visual-words的第i个视觉单词的系数值，如果满足：

s(q')_i＝0,s(d)_i≠0；

则将s(q')_i更新为：s(q')_i＝β·s(d)_i；

其中，β是一个介于0和1之间的系数；

重复上述步骤a～步骤d，直至迭代次数达到预设次数或者收敛。

该方法还包括：基于SIFT嵌入的紧凑的深度CNN特征索引对大规模的数据库进行检索，其步骤如下：

对于检索图片q和数据库中的每一图片d，通过计算它们的欧氏距离来比较相似性：

\begin{matrix} | | q - d | |_{2} = \underset{i}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = \underset{i | f {(d)}_{i} = 0}{Σ} {| f {(q)}_{i} |}^{2} + \underset{i | f {(q)}_{i} = 0}{Σ} {| f {(d)}_{i} |}^{2} + \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = 2 - 2 \cdot \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} f {(q)}_{i} f {(d)}_{i} \end{matrix}

其中，所述基于SIFT嵌入的紧凑的深度CNN特征索引即为CNN特征的倒排表I_cnn；q_i与d_i表示图片d与q在其所属CNN特征的倒排表中的第i维CNN特征；

将检索图片q与数据库中所有图片的欧氏距离进行降序排序，排序越靠前，则越说明越相似。

由上述本发明提供的技术方案可以看出，基于矢量能量约束定义系数阈值，将基于深度CNN学习得到的特征矢量中的较小的系数置为0，而只保留较大的系数，从而显著的提高图像的稀疏度，并较好的保持特征矢量的信息。此外，为了使近语义层面的CNN特征索引包含底层的局部信息(如SIFT特征)，增强时间特征表达的描述能力，分别利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和CNN特征，从而显著地提高检索准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于SIFT嵌入的紧凑的深度CNN特征索引方法；

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明提供一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，该方法针对深度CNN特征，为了提高稀疏度，定义一种基于能量的系数选择方法；然后将深度CNN特征中的每一维当作一个视觉单词(Visual Word)，构建倒排表，即对每张图片，如果它在对应维度上的特征值不为零，则将这张图片的编号和它在这个维度上的特征值作为一个节点保存到该倒排表上；最后基于CNN特征检索方法，利用保存在倒排表中的有效特征，对大规模图像进行检索。该方法为面向大规模图像检索的CNN特征索引方法，可以使得索引大规模数据库更加高效，同时能显著地提高线上检索速度；一方面，基于能量的系数选择方法，既能有效地减少存储开销，又能有效地保证检索准确度在合理范围之内。另一方面，合适的稀疏度也使得存储开销大大减小，检索速度大大加快。相比于现有技术，本发明不需要保存图片特征中占很大比重的零值，能够极大地节省数据库索引的开销；另外，基于能量的系数选择方法和TF-IDF加权方法，还能够显著地提高图像检索的速度而不损失精度。

为了便于理解，下面结合附图1做详细的说明。

如图1所示，为本发明实施例提供的一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，其主要包括如下步骤：

步骤11、针对图像的深度CNN特征，进行基于能量的稀疏化处理。

基于能量的稀疏化处理步骤如下：

1)假设图片d的深度CNN特征表示为：c(d)＝(c(d)₁,c(d)₂,…,c(d)_D)，其中，D表示维度。

2)将图片d的深度CNN特征进行非递增排序，得到新的深度CNN特征记为e(d)＝(e(d)₁,e(d)₂,…,e(d)_D)；

3)基于能量值γ设定一个阈值τ，使得τ＝e(d)_t，其中参数t通过下式确定：

t = \arg \underset{n}{m i n} \sqrt{Σ_{i = 1}^{n} e {(d)}_{i}^{2}} &GreaterEqual; γ, γ &Element; [0, 1];

4)确定参数t后，将c(d)中所有大于t的维度的权值都置为0，并对权值进行归一化，获得稀疏化处理后的CNN特征，其表示为f(d)＝(f(d)₁,f(d)₂,…,f(d)_D)。

步骤12、采用距离测度优化的方式，利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征，使得稀疏化处理后的CNN特征中包含基于SIFT特征的图像上下文信息，完成基于SIFT嵌入的紧凑的深度CNN特征索引。

定义代价函数：

C (I_{c n n}, I_{s i f t}) = \underset{u, v &Element; P}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2};

S_cnn(u,v)＝<f(u),f(v)>；

S_sift(u,v)＝<s(u),s(v)>；

其中，<f(u),f(v)>与<s(u),s(v)>均表示内积；f(u)＝(f(u)₁,f(u)₂,…f(u)_D)，f(v)＝(f(v)₁,f(v)₂,…f(v)_D)分别表示图片u与v稀疏化处理后的CNN特征；s(u)＝(s(u)₁,s(u)₂,…s(u)_D)，s(v)＝(s(v)₁,s(v)₂,…s(v)_D)分别表示图片u与v的SIFT特征。

在多维空间中，内积就是余弦距离，所定义的代价函数是数据库中所有图片对的CNN特征距离测度与SIFT距离测度的差值的平方和。对于使用不同特征表示的图片对，其相似性应该是一致的，即距离测度应该具有一致性，所以对整个数据库中图片，其距离测度的差值应该是近似为0的，即代价函数C(I_cnn,I_sift)应该近似为0。

基于此，可以求解以倒排表I_cnn和I_sift为参数的代价函数C(I_cnn,I_sift)，得到的解就是最佳的I_cnn和I_sift的值。由于图像特征数目巨大，对每个图片对，即对任意一个图片u与v进行计算代价函数，计算开销将会非常大，因此本发明实施例对其进行近似处理，将查找范围缩小，即利用图像在CNN特征和SIFT特征中的邻近关系，对图片u，只需要在其最相近的K张图片中寻找即可。因此，可以将代价函数重写为：

\tilde{C} (I_{c n n}, I_{s i f t}) = \underset{(u, v) &Element; P, v &Element; N_{c} (u) o r v &Element; N_{s} (u)}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2}

即将原来代价函数中的对全部图片对进行计算换为每张图片只对最近K张图片进行计算距离测度差，上式中，N_c(u)表示在CNN特征下图片u的K张最近图片，N_s(u)表示在SIFT特征下图片u的K张最近图片。

将优化目标表达为：

(I_{c n n}, I_{s i f t}) = argmin \tilde{C} (I_{c n n}, I_{s i f t});

即寻找合适的倒排表I_cnn和I_sift，使得近似代价函数为0。然而，即使通过上述的优化，在计算过程中，还需要同时并行地更新倒排表I_cnn和I_sift，上述优化问题也是非常复杂。

本发明实施例提出进一步近似等效的分步优化方案：先固定倒排表I_sift，对倒排表I_cnn进行优化，即然后固定倒排表I_cnn，对倒排表I_sift进行优化，即不断重复以上两步，直至收敛或者迭代次数达到预设次数。

上述近似等效的方案的具体步骤如下：

步骤a、将数据库中每张图片d作为查询图片，采用SIFT特征，利用Bag-of-Words检索方法进行检索，得到K张最相似的图片，记为N_k(d)；

f(q)_i＝0,f(d)_i≠0；

则将f(q)_i更新为：f(q)_i＝α·f(d)_i；

其中，α是一个介于0和1之间的系数；

步骤d、设图片q'∈N_k(d)'，s(d)_i与s(q')_i分别表示图片d与q'的基于SIFT特征的bag-of-visual-words的第i个视觉单词的系数值，如果满足：

s(q')_i＝0,s(d)_i≠0；

则将s(q')_i更新为：s(q')_i＝β·s(d)_i；

其中，β是一个介于0和1之间的系数；

在存储的时候，对每个视觉单词(即深度CNN特征中的每一维)，先存储属于该单词的图片个数，然后依次存储图片编号和图片权重；在此基础上，最后在前面增加一个索引编号，从0到D，从而得到最后的存储结构。

在上述方案中，由于CNN特征已经是经过多次训练得到的能很好的概括图像内容的极度精简的数据，如果大范围地改变其已经训练好的值，可能会丢失其完整性，降低检索性能。因此，此处采用更新值为0的系数的方法，利用局部特征的检索结果，将数据库中图片的D维特征中，原来为零的特征值更新为一个相似图片的特征值乘以一个系数；这种方法不会显著改变已经迭代好的值，可以增加更多的信息。

通过上述步骤11～步骤12可以求得更新后的倒排表I_cnn和I_sift，其中倒排表I_cnn即为基于SIFT嵌入的紧凑的深度CNN特征索引。由于更新后深度CNN特征已经包含了SIFT特征的上下文信息，而且表达更为简洁，我们可以抛弃倒排表I_sift，而只保留I_cnn，并基于I_cnn对大规模的数据库进行检索，其步骤如下：

\begin{matrix} | | q - d | |_{2} = \underset{i}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = \underset{i | f {(d)}_{i} = 0}{Σ} {| f {(q)}_{i} |}^{2} + \underset{i | f {(q)}_{i} = 0}{Σ} {| f {(d)}_{i} |}^{2} + \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = 2 - 2 \cdot \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} f {(q)}_{i} f {(d)}_{i} \end{matrix}

其中，q_i与d_i表示图片d与q在其所属CNN特征的倒排表中的第i维CNN特征；

由上式可以看出，最后需要计算图片q和d的特征都不为0的维度的特征值的乘积，再将其相加，最后由2减去这个和值的两倍，即为图片q和d的欧氏距离。具体计算顺序如下：

1)对图片q，如果q_i等于0，则跳过第i维的计算；如果q_i不为0，则在第i维视觉单词索引表中找到特征值d_i，然后将q_i与d_i相乘。

2)将i从0到D-1，依次执行上述步骤1)，将所得乘积相加。

3)用2减去上述步骤2)中所得之和，就得到图片q和d的欧氏距离。

本发明实施例的上述方案，基于矢量能量约束定义系数阈值，将基于深度CNN学习得到的特征矢量中的较小的系数置为0，而只保留较大的系数，从而显著的提高图像的稀疏度，并较好的保持特征矢量的信息。此外，为了使近语义层面的CNN特征索引包含底层的局部信息(如SIFT特征)，增强时间特征表达的描述能力，分别利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和CNN特征，从而显著地提高检索准确率。最后，通过只保留深度CNN特征的索引进行图像检索，可以节省内存开销，并提高检索效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于SIFT嵌入的紧凑的深度CNN特征索引方法，其特征在于，包括：

针对图像的深度CNN特征，进行基于能量的稀疏化处理；

2.根据权利要求1所述的方法，其特征在于，所述针对图像的深度CNN特征，进行基于能量的稀疏化处理的步骤包括：

t = \arg \underset{n}{m i n} \sqrt{Σ_{i = 1}^{n} e {(d)}_{i}^{2}} &GreaterEqual; γ, γ &Element; [0, 1];

3.根据权利要求1所述的方法，其特征在于，所述采用距离测度优化的方式，利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征包括：

定义代价函数：

C (I_{c n n}, I_{s i f t}) = \underset{u, v &Element; P}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2};

S_cnn(u,v)＝＜f(u),f(v)＞；

S_sift(u,v)＝＜s(u),s(v)＞；

其中，＜f(u),f(v)＞与＜s(u),s(v)＞均表示内积；f(u)＝(f(u)₁,f(u)₂,…f(u)_D)，f(v)＝(f(v)₁,f(v)₂,…f(v)_D)分别表示图片u与v稀疏化处理后的CNN特征；s(u)＝(s(u)₁,s(u)₂,…s(u)_D)，s(v)＝(s(v)₁,s(v)₂,…s(v)_D)分别表示图片u与v的SIFT特征；

\tilde{C} (I_{c n n}, I_{s i f t}) = \underset{(u, v) &Element; P, v &Element; N_{c} (u) o r v &Element; N_{s} (u)}{Σ} {(S_{c n n} (u, v) - S_{s i f t} (u, v))}^{2}

将优化目标表达为：

(I_{c n n}, I_{s i f t}) = argmin \tilde{C} (I_{c n n}, I_{s i f t});

4.根据权利要求3所述的方法，其特征在于，所述利用图像在CNN特征和SIFT特征中的邻近关系，来更新图像的SIFT特征和稀疏化处理后的CNN特征包括：

f(q)_i＝0,f(d)_i≠0；

则将f(q)_i更新为：f(q)_i＝α·f(d)_i；

其中，α是一个介于0和1之间的系数；

s(q')_i＝0,s(d)_i≠0；

则将s(q')_i更新为：s(q')_i＝β·s(d)_i；

其中，β是一个介于0和1之间的系数；

5.根据权利要求3或4所述的方法，其特征在于，该方法还包括：基于SIFT嵌入的紧凑的深度CNN特征索引对大规模的数据库进行检索，其步骤如下：

\begin{matrix} | | q - d | |_{2} = \underset{i}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = \underset{i | f {(d)}_{i} = 0}{Σ} {| f {(q)}_{i} |}^{2} + \underset{i | f {(q)}_{i} = 0}{Σ} {| f {(d)}_{i} |}^{2} + \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} {| f {(q)}_{i} - f {(d)}_{i} |}^{2} \\ = 2 - 2 \cdot \underset{i | f {(q)}_{i} &NotEqual; 0, f {(d)}_{i} &NotEqual; 0}{Σ} f {(q)}_{i} f {(d)}_{i} \end{matrix}