CN108920727A

CN108920727A - 视觉检索中的紧凑视觉描述子深度神经网络生成模型

Info

Publication number: CN108920727A
Application number: CN201810878981.8A
Authority: CN
Inventors: 纪荣嵘; 林贤明; 钱剑强; 施明辉
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-11-30

Abstract

视觉检索中的紧凑视觉描述子深度神经网络生成模型，涉及图像检索。构建Fisher layer网络；构建分组和二分类模块；基于极大边界条件的损失函数的训练；对于图像库图像和查询图像，首先抽取图像的局部特征，然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码，根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集，再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。使用灵活的Fisher网络聚合图像的局部特征生成更高效的全局特征Fisher向量；同时用分组与二分类模块对Fisher向量进行二值编码，得到紧凑的全局二值特征。

Description

视觉检索中的紧凑视觉描述子深度神经网络生成模型

技术领域

本发明涉及图像检索，具体是涉及一种基于Fisher网络和二值嵌入的视觉检索中的紧凑视觉描述子深度神经网络生成模型。

背景技术

随着互联网的快速发展，网络上的多媒体数据呈几何式增长，而图片与视频数据增长尤其迅速。据统计，每秒钟会有大概5h长的视频内容上传到YouTube；根据思科2015年的调查研究，到2017年互联网上大约80％的流量都是视频。因此互联网上的图片和视频数据无时无刻都在增加，目前其数据在现有容量与增长速度上已经远远超过当前技术的处理能力。面对数据量如此之快的增长速度，如何利用好这些数据面临几个需要解决的问题，即如何更加有效地利用存储空间与如何在海量的内容中准确并快速地找到需要的信息，以及如何在计算和存储能力有限的移动或者嵌入式终端设备上快速查找图像库的图像。

大规模图像检索有着广阔的应用范围。大规模图像检索最新的研究进展主要关注局部特征聚合获得有的全局特征。在这些研究当中，Fisher向量是一种非常有效和有区分性的图像全局特征，具有两点显著特征：Fisher向量利用了图像的一阶和二阶信息；Fisher向量对应的视觉词典小，计算快速高效。为了得到图像的Fisher向量，首先抽取图像的局部特征，然后再用混合高斯模型聚合局部特征获得图像全局特征。然而，由于Fisher向量自身超高维度的性质，简单的穷尽搜索面临非常高的时间复杂度的问题，将原始数据从存储中加载到内存也成为了现实应用中所必须解决的一个瓶颈。在大规模图像检索应用中，Fisher向量计算和存储开销巨大，限制了Fisher向量的应用，不能适应大规模图像检索应用。为了解决Fisher向量超高维导致的问题，主要的思路是把高维的实值向量进行二值嵌入，转化为中低维的二值向量。二值嵌入的方法主要有两大类：积量化(productquantization)和哈希(hashing)。传统的Fisher向量对应的混合高斯模型学习和二值嵌入学习分别进行，使得整个优化过程不能达到协同最优。

发明内容

本发明的目的在于针对现有的Fisher向量由于超高维度实值向量性质导致无法适应计算资源和存储资源有限的应用场景这一问题，为了应对并处理大规模图像搜索，用以克服大规模图像检索存在的由于计算和存储开销导致的问题，提供视觉检索中的紧凑视觉描述子深度神经网络生成模型。

本发明包括以下步骤：

1)构建Fisher layer网络；

2)构建分组和二分类模块；

3)基于极大边界条件的损失函数的训练；

4)对于图像库图像和查询图像，首先抽取图像的局部特征，然后用训练好的网络结构对图像的局部特征进行聚合和二值嵌入获得图像的二值编码，根据查询图像的二值编码在图像库中匹配返回相似度高的图像作为粗匹配出候选集，再对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。

在步骤1)中，所述构建Fisher网络的具体方法可为：

将混合高斯模型进行两点简化，假设：

(1)假设GMM中每个高斯函数权重相等，即：ω_k＝1；

(2)假设GMM中每个高斯函数的协方差矩阵的行列式值|Σ_k|相等；

简化后的GMM高斯函数u_k(x_ij)可以写为以下形式：

假设w_k＝1/δ_k,b_k＝-μ_k,最终Fisher网络的形式如下：

其中，⊙为元素乘积运算，γ_j(k)的计算公式是一个softmax函数，w_k，b_k是GMM第k个高斯函数的参数；γ_j(k)的计算公式包含共同计算部分w_k⊙(x_ij+b_k)是可微分的，其他计算是线性或者平方操作，是可求导的。经过简化的Fisher向量算法为线性运算，因此Fisher网络耦合其他网络结构并用梯度下降法训练，采用误差反向传播算法来学习参数。

在步骤2)中，所述构建分组与二分类模块的具体方法可为：

首先将Fisher网络输出的Fisher向量x分组获得若干数量的子向量x_p，每一个子向量输入两层全连接层，进行非线性转换，神经元激活函数采用非线性整流函数但不限于非线性整流函数，全连接层的激活函数形式如下：

σ(x)＝1/(1+exp(-x))

然后用一个线性分类器对非线性转换后的子向量进行二分类，从而把每一个子向量量化成一个比特，线性分类器函数形式如下：

令上面公式可改写成如下形式：

子向量量化成一个比特的量化函数如下：

其中，sgn(·)函数是符号函数，自变量大于零取1，小于等于0取-1。

最后把所有子向量对应的比特拼接起来，获得图像的全局二值编码特征：

其中，S是所有子向量的数量。

在步骤3)中，所述基于极大边界条件的损失函数的训练方法，具体如下：

在每一个子向量x_(p)对应的子空间中，优化问题目标函数形式如下：

其中，假如第p个子空间中的两个子向量和属于同一类，那么l_i＝+1，否则l_i＝-1，N表示训练网络一个批次的数量；使用Hinge loss重新改写上述损失函数，得到如下优化函数：

关于的梯度如下：

累加所有子空间的损失函数，得到网络的最终损失函数形式如下：

在步骤4)中，训练得到的Fisher网络和分组与二分类模块耦合组成的端到端的网络结构，对于图像库图像和查询图像，首先抽取图像的局部特征，然后根据训练得到的网络结构对图像局部特征进行聚合和二值嵌入获得图像的二值编码，之后计算查询图像的二值编码与图像库中的图像特征编码之间的汉明距离，利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性，返回相似度高的图像作为粗匹配出候选集；对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。

本发明主要研究Fisher网络耦合二值嵌入模块组成端到端的网络结构的联合训练优化方法。首先，简化传统的Fisher向量模型，提出一种Fisher网络结构用于局部特征聚合成全局特征Fisher向量。然后，用一个分组与二分类的网络结构对Fisher网络输出的全局特征二值嵌入，获得全局紧凑视觉特征。本发明提供一种基于极大边界条件的损失函数可以有效训练整个网络结构。Fisher网络耦合二值嵌入模块组成端到端的网络结构的联合训练优化，使得Fisher网络和二值嵌入模块达到协同最优。

本发明的优点如下：

本发明使用灵活的Fisher网络聚合图像的局部特征生成更高效的全局特征Fisher向量；同时用分组与二分类模块对Fisher向量进行二值编码，得到紧凑的全局二值特征。分组与二分类模块能够保持Fisher向量的内部数据结构，其中的两层全连接层对子向量进行非线性转换，能把线性不可分的数据映射到另一个空间变成线性可分的数据，从而线性分类器能对数据有效分类。

本发明提出一种基于Fisher网络和分组与二分类模块联合优化的端到端的深度神经网络结构，并且定义一种基于极大边界条件的损失函数高效地训练深度神经网络，使得Fisher网络和分组与二分类模块达到联合最优效果。该网络结构能把图像的局部特征有效聚合成全局紧凑二值特征。检索阶段使用全局紧凑二值特征“粗匹配”出候选集和使用局部特征进行几何一致性检验进行精确匹配，从而使得本发明很好的适应大规模图像检索任务。

附图说明

图1为全局紧凑二值特征聚合网络结构图。

图2为Fisher网络结构图。

图3为分组与二分类模块结构图。

具体实施方式

以下实施例将结合附图对本发明作详细的说明。

本发明包括以下步骤：

1)对于图像库中的图像，随机选取一部分图像作为训练集，并抽取相应的图像局部特征；

2)随机组合图像局部特征集合对，用于训练集离线训练深度神经网络模型；

3)用反向传播算法训练深度神经网络模型；

所述通过反向传播算法训练深度神经网络模型的具体方法为：

a)对于图像局部特征集合对中的每一个批次：

b)每一批次局部特征集合对输入深度神经网络模型，用反向传播算法计算模型所有参数的梯度值；

c)更新模型参数；

d)退出循环。

4)训练好深度神经网络模型之后，输入图像的局部特征集合到模型中，输出全局紧凑二值特征。

检索流程：

对于查询图像和待检索图像库中的图像，抽取图像局部特征，然后输入深度神经网络模型，输出全局紧凑二值特征。之后计算查询图像的哈希编码与图像库中的图像特征编码之间的汉明距离，利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性，匹配出候选集。再在候选集中对局部特征使用几何一致性检验对候选图像进行精确匹配。并返回检索结果。

本发明的紧凑视觉描述子深度神经网络生成模型如图1所示。包括三个部分：1)Fisher layer模块；2)分组与二分类模块；3)基于极大边界条件的损失函数。在局部特征聚合全局紧凑二值特征算法中采用Fisher网络结构(如图2所示)聚合图像的局部特征得到图像的全局特征Fisher Vector；对全局特征分组得到若干数量的子向量，采用若干组由两层全连接层和线性分类器组成的模块分别对每个子向量进行非线性转换和二分类，最终获得紧凑的全局视觉特征(如图2所示)。针对图像检索任务，基于极大边界条件的损失函数能够有效地联合训练优化整个网络结构。

本发明的Fisher网络结构图，在图2中，各模块计算功能如下：

①模块计算y_{ijk_i}＝w_k⊙(x_ij+b_k)，特征向量x_ij对应512高斯函数输出{y_{ij1_2},y_{ij2_2},...,y_{ij512_2}}；

②模块计算y_{ijk_2}＝(y_{ijk_1})²，{y_{ij1_1},y_{ij2_1},...,y_{ij512_1}}中各元素的平方，输出{y_{ij1_2},y_{ij2_2},...,y_{ij512_2}}；

③模块计算公式输出{y_{ij1_3},y_{ij2_3},...,y_{ij512_3}}。

④模块计算公式输出{y_{ij1_4},y_{ij2_4},...,y_{ij512_4}}。

⑤模块计算公式输出{γ_j(1),γ_j(2),...,γ_j(k)}。

⑥模块计算y_{ijk_5}＝y_{ijk_2}-1，输出{y_{ij1_5},y_{ij2_5},...,y_{ij512_5}}。

⑦模块计算输出{y_{ij1_6},y_{ij2_6},...,y_{ij512_6}}。

⑧模块计算公式输出

⑨模块计算公式输出

Claims

1.视觉检索中的紧凑视觉描述子深度神经网络生成模型，其特征在于包括以下步骤：

1)构建Fisher layer网络；

2)构建分组和二分类模块；

3)基于极大边界条件的损失函数的训练；

2.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型，其特征在于在步骤1)中，所述构建Fisher网络的具体方法为：

将混合高斯模型进行两点简化，假设：

(1)假设GMM中每个高斯函数权重相等，即：ω_k＝1；

简化后的GMM高斯函数u_k(x_ij)写为以下形式：

假设w_k＝1/δ_k,b_k＝-μ_k,最终Fisher网络的形式如下：

其中，⊙为元素乘积运算，γ_j(k)的计算公式是一个softmax函数，w_k，b_k是GMM第k个高斯函数的参数；γ_j(k)的计算公式包含共同计算部分w_k⊙(x_ij+b_k)是可微分的，其他计算是线性或者平方操作，是可求导的；经过简化的Fisher向量算法为线性运算，因此Fisher网络耦合其他网络结构并用梯度下降法训练，采用误差反向传播算法来学习参数。

3.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型，其特征在于在步骤2)中，所述构建分组与二分类模块的具体方法为：

σ(x)＝1/(1+exp(-x))

令上面公式可改写成如下形式：

子向量量化成一个比特的量化函数如下：

其中，sgn(·)函数是符号函数，自变量大于零取1，小于等于0取-1；

其中，S是所有子向量的数量。

4.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型，其特征在于在步骤3)中，所述基于极大边界条件的损失函数的训练方法，具体如下：

在每一个子向量x(_p)对应的子空间中，优化问题目标函数形式如下：

关于的梯度如下：

5.如权利要求1所述视觉检索中的紧凑视觉描述子深度神经网络生成模型，其特征在于在步骤4)中，训练得到的Fisher网络和分组与二分类模块耦合组成的端到端的网络结构，对于图像库图像和查询图像，首先抽取图像的局部特征，然后根据训练得到的网络结构对图像局部特征进行聚合和二值嵌入获得图像的二值编码，之后计算查询图像的二值编码与图像库中的图像特征编码之间的汉明距离，利用汉明距离大小来衡量查询图像与图像库中待检索图像之间的相似性，返回相似度高的图像作为粗匹配出候选集；对候选集使用局部特征进行几何一致性检验进行精确匹配并返回最终查询结果。