CN104391987A

CN104391987A - 基于移动平台下大规模目标识别的方法

Info

Publication number: CN104391987A
Application number: CN201410763573.XA
Authority: CN
Inventors: 刘萍萍; 赵宏伟; 王振; 李清亮; 臧雪柏; 于繁华; 戴金波; 耿庆田
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2014-12-13
Filing date: 2014-12-13
Publication date: 2015-03-04
Anticipated expiration: 2034-12-13
Also published as: CN104391987B

Abstract

一种基于移动平台下大规模目标识别的方法，属于图像识别领域。本发明的目的是用哈希算法快速有效地将SIFT特征点编码为具有保持局部敏感性的二进制编码，为移动平台检索提供一种快速有效的基于移动平台下大规模目标识别的方法。本发明的步骤是：数据库图像SIFT特征 X 的标签信息‘0’‘1’构成，归一化距离相似性以及量化误差，寻找使得 NS + MD 值最小的数据点的二进制标签，得到弱哈希函数，组合弱哈希函数，得到强哈希函数。本发明是一种快速有效的移动平台检索方法，移动设备还可根据网络状况调整检索方案，使得在不同的网络状况下均能及时给出响应。

Description

基于移动平台下大规模目标识别的方法

技术领域

本发明属于图像识别领域。

背景技术

近年来，最近邻检索问题已经广泛应用到图像检索问题上，移动设备端的图像检索。然而随着网络的发展，再使用SIFT这种浮点数形式的高维特征已经不再适用于移动设备端图像检索问题。为了解决这一问题，人们开始更广泛地使用精简二进制编码表示特征描述子。使用二进制代码执行检索时，数据结构较为简单，执行检索速度较快。

Andoni提出了局部敏感哈希算法，这是一个较为简单的经典算法，该算法的哈希函数是随机生成的映射平面。哈希函数与数据无关，随着编码位数的增加，其算法表现性能增加的并不明显。Torralba将哈希算法引入了图像检索领域。Weiss提出了通过分割谱图得到二进制编码，该算法进一步提升了二进制编码在图像检索方面的性能，然而这一算法依赖于不切实际的要求即数据点在空间中均匀分布。Gong通过旋转经过pca映射后的数据，并将数据赋予与其最近的超立方体顶点所对应的二进制编码。

根据He所讨论的，现存的哈希算法大致可以分为两类，一类是hamming-based method，像上文中提到的局部敏感哈希，它们的哈希函数由超平面或核超平面构成，每一个数据根据与这些超平面的映射结果的符号被编码为不同的二进制编码。另一类是lookup-based method，每一个样本数据被编码为与其距离最近的聚类中心相同的二进制编码，这一类算法在最小化量化误差方面具有较大的优势。KM H算法的编码中心，是通过迭代优化，同时满足具有最小的量化误差与相似性误差，其性能表现优于ITQ算法。

按照学习过程中是否有无标签信息，算法又可被粗略地分为监督学习与无监督学习。上述算法并不需要知道数据所对应的语义标签，只是根据数据本身，学习得到哈希函数，它们属于无监督的学习算法，这一类算法可以保持数据点在原特征空间内的相似性。另一类算法为有监督的算法，算法根据数据的标签学习得到具有语义相似性保持的哈希函数。

发明内容

本发明的目的是用哈希算法快速有效地将SIFT特征点编码为具有保持局部敏感性的二进制编码，为移动平台检索提供一种快速有效的基于移动平台下大规模目标识别的方法。

本发明的步骤是：

a、获得训练图像数据库的SIFT特征点X = { x ₁,…x _n }；

b、得到数据库图像SIFT特征 X的标签信息，这些标签信息由‘0’‘1’构成；

c、为了使得所得到的二进制标签之间的汉明距离近似代替X在欧式空间中的欧式距离，在计算它们之间的二进制标签时，定义如下约束条件：归一化距离相似性以及量化误差；

①数据点之间的归一化欧式距离D’= { d ₁₁ ’,…d _nn ’ }, d _ij ’表示数据点x _i与x _j之间的归一化的欧式距离；归一化过程如下式所示，每一个欧式距离d_ij均减去本集合中的最小值，再与本集合中最大值与最小值之间的距离差值作比，得到的比值，即为归一化距离值

；

②相应的，得到汉明距离集合中每一个汉明距离所对应的归一化的汉明距离，其汉明距离集合表示为： DH’ = {dh ₁₁ ’,…dh _nn ’}；

③归一化距离相似性要求NS具有最小值；NS定义如下式所示：

；

④得到一些具有代表性的点，这些点自身拥有二进制标签，这些点被称为编码中心点C = {c ₁,…c _t}；每一个数据点x _i被编码为与它距离最近的编码中心点相同的二进制编码；为了保证在欧式空间内距离较近的点能被编码为相同的二进制标签，这一过程要求MD的值最小；c(x _i)是与x _i具有相同二进制编码的编码中心；

；

d、使用迭代梯度下降法，寻找使得NS+MD值最小的数据点的二进制标签；

①初始化时，随机从X中选取2^m个点作为初始的编码中心点，并任意赋值互不相同的m位二进制标签，其中m为最终得到的二进制标签的编码位数；

②每一个编码中心点的位置由与它具有相同二进制标签的数据点决定的；根据梯度下降法，找到下一个最优的编码中心点，使得NS+MD值最小；

③重新计算每一个数据点与每一个编码中心之间的距离；将与这些数据点距离最近的编码中心点的二进制标签赋值给这些数据点；

④重复执行步骤②和③共一百次或直至收敛，此时得到编码中心点以及其所对应的二进制标签认为是最优的；

e、得到弱哈希函数；用于映射得到j位二进制编码值的映射平面，是由只有第j位不同其余位均相同的二进制编码的数据点分布特性决定的；

①根据该特性，在计算二进制编码第j位所对应的映射平面时，所有的数据点可被分成2^m/2组；每一组内所包含的数据除了第j位不同外，其余位均相同；

②每一组数据内含有两个编码中心点，选择可垂直平分这两个编码中心点连线的平面，作为映射平面；

③根据①和②，可求得对应于第j位的映射平面为：{ h _j ¹,…,h _j ^t } t=2^m/2；

f、组合弱哈希函数，得到强哈希函数；

①初始化所有点的权重为w _1,1,i=1/n，n是数据点的数量；

②计算弱哈希函数系数时，首先归一化所有点的权重：

；

③计算所有弱哈希函数的误差率ε _j ^k

；

④计算对应于弱哈希函数h _j ^k的系数? _j ^k

；

⑤根据当前弱哈希函数对数据点的分类结果，更新数据点的权重值

；

⑥重复步骤③到步骤⑤，得到所有弱哈希函数以及其对应的系数值，将其组合起来，得到对应于第j位的强哈希函数

；

⑦重复步骤②到⑥得到对应其他位的强哈希函数；

g、由步骤f得到的哈希函数，将{y ₁,…y _p}编码为二进制编码{B ₁,…B _p}

对于数据点y _i所对应的二进制编码B _i={b _i1,…,b_im}可由哈希函数{H ₁,…H _m}一一对应求得：

。

本发明a、移动设备端配备有摄像头，用于获取外部目标图像；2G/3G网络，用于与外部服务器进行数据交换；外部存储，存储小型数据库，若网络条件较差，则在本机数据库进行检索；

b、由移动设备摄像头获取待查询图像；

c、提取待查询图像的SIFT特征{y ₁,…y _p}。

本发明a：判断当前网络情况，若情况优良，转步骤b，否则转步骤c；

b：将查询图像所对应的二进制编码{B ₁,…B _p}通过2G/3G网络，传输至数据库；

①：计算这些二进制编码与数据库中已有图像特征点的二进制编码之间的汉明距离，将汉明距离最小的前r ₁个数据点认为是匹配的点，并增加与这些匹配点相对应的图像的权重；

②：统计数据库中所有图像的权重，并返回权重较大的前r ₀个图像作为最终的匹配图像；

c：将二进制编码{B ₁,…B _p}与本移动设备上的数据库进行匹配，找到与其匹配的图像，作为最终结果返回；

若对本地移动检索结果不满意或者本地设备没有存储与该图像相关的图像，等待网络状况良好时，向大数据库发送请求，从大数据库中下载储备该类图像，以备用户下一次查询相似信息。

本发明是一种快速有效的移动平台检索方法，移动设备还可根据网络状况调整检索方案，使得在不同的网络状况下均能及时给出响应。具有以下优点：

本发明针对移动设备网络传输能力有限，以及数据库数据量庞大，无法再利用传统的SIFT特征描述子作为匹配索引的问题，我们设计了新型的哈希算法，该算法可快速有效地将128维的SIFT特征编码为低维的二进制编码，这种编码有利于使用无线网络进行传输，且在大数据库中，匹配过程中只需计算汉明距离，计算速度较快，能在短时间内返回查询结果。

发明一种快速有效的将SIFT特征点转换为二进制编码的主法，它的编码速度较快，而且能够较好地保持每一个SIFT特征点在原特征空间内的局部敏感性，使得最后所得到的二进制编码之间的汉明距离能够近似取代它们所代表的两点之间的欧式距离。本发明不仅非常简单，而且具有较强的理论背景，本发明首先基于无监督的学习得到SIFT特征点的二进制标签，这些标签能较强地适应数据点在空间中的分布特性。然后根据这些标签信息得到弱哈希函数，并使用类似于AdaBoost的机制，将这些弱哈希函数组合起来，使得近邻信息得以增强，从而形成表现性能更优的强哈希函数。最终，这些强哈希函数被用于将SIFT特征点编码为二进制编码。能够显著加快图像检索速度。

附图说明

图1是本发明生成强哈希函数的流程图；

图2是32位编码在SIFT1M数据库中的召回率曲线；

图3是64位编码在SIFT1M数据库中的召回率曲线；

图4是32位编码在CIFAR10数据库中的召回率曲线；

图5是64位编码在CIFAR10数据库中的召回率曲线。

具体实施方式

本发明的步骤是：（生成强哈希函数的流程图见图1）

a、获得训练图像数据库的SIFT特征点X = { x ₁,…x _n }；

c、为了使得所得到的二进制标签之间的汉明距离（两个二进制串之间有多少位不同）近似代替X在欧式空间中的欧式距离，在计算它们之间的二进制标签时，定义如下约束条件：归一化距离相似性以及量化误差；

；

③归一化距离相似性要求NS具有最小值；NS定义如下式所示：

；

③根据①和②，可求得对应于第j位的映射平面为：{ h _j ¹,…,h _j ^t } t=2^m/2；将这些映射平面看作对应于第j位的弱哈希函数；

f、组合弱哈希函数，得到强哈希函数；在步骤e中所求得的映射平面，只是由部分数据决定的，表现性能较弱，被称之为弱哈希函数。本发明使用类似于AdaBoost的机制，将这些弱哈希函数进行线性组合，在这一过程中强调数据点之间的近邻性（在欧式空间内距离较近的两点在被编码为二进制编码之后，它们之间的汉明距离应尽量小，否则二者之间的汉明距离应该足够大），使得最终得到的强哈希函数性能较优；

①初始化所有点的权重为w _1,1,i=1/n，n是数据点的数量；

②计算弱哈希函数系数时，首先归一化所有点的权重：

；

③计算所有弱哈希函数的误差率ε _j ^k

；

误差率ε _j ^k是所有被编码错误的点的权重之和。判断一个点是否被编码正确，是通过函数I _j ^k(x _i)进行判断。I _j ^k(x _i)判断x _i与它的近邻点的编码情况是否一致，如果一致那么认为该点被编码正确，否则认为该点编码错误。x _i近邻点的编码情况，由函数bnn(x _i)通过投票机制得到的，统计x _i所有近邻点的编码情况，返回编码数量较多的编码情况。将上述弱哈希函数中，对应误差率最小的哈希函数，当作此次的弱哈希函数h _j ^k；

④计算对应于弱哈希函数h _j ^k的系数? _j ^k

；

⑦重复步骤②到⑥得到对应其他位的强哈希函数；

。

b、由移动设备摄像头获取待查询图像；

c、提取待查询图像的SIFT特征{y ₁,…y _p}。

①：计算这些二进制编码与数据库中已有图像特征点的二进制编码之间的汉明距离（判断这两个二进制编码之间有多少位不同），将汉明距离最小的前r ₁个数据点认为是匹配的点，并增加与这些匹配点相对应的图像的权重；

实施例1：首先，对于实施步骤说明中的一些概念进行解释。

一、训练过程实施步骤

1. 首先获得图像数据集中每一幅图像的SIFT描述符。

2. 对于数据集中所有图像的描述符构成的集合，采用k-means迭代方式，最小化目标函数：NS+MD。这一过程结束，我们将得到适应于数据点在欧式空间中的分布特性的二进制标签信息。

3. 对于数据集，根据它们的标签信息，将数据集划分成不同的分组。每一分组均可得到一个弱哈希函数。

4. 使用AdaBoost机制，将弱哈希函数组合起来，成强哈希函数，进一步强调所得到的二进制编码能够保持数据点之间的近邻性。使得最终得到的二进制编码能够近似代替数据点之间的欧式距离。建立每一个二进制编码与图像之间对应的倒排索引结构。

5. 将数据库SIFT特征点的二进制编码存储到磁盘上，将哈希函数存储在移动设备端，完成训练过程。

二、检索过程实施步骤

1. 首先由移动设备端获取待查询图像，完成初始化工作。

2. 等待检索请求，获得查询图像的SIFT特征点的描述符。

3. 根据查询图像的SIFT特征点的描述符以及哈希函数，生成检索图像的SIFT特征点的二进制编码。

4. 将二进制编码形式的SIFT特征点传输至服务器端，计算其与数据库已存的数据点二进制形式之间的汉明距离，并返回距离较小的匹配点，根据倒排索引结构，增加图像的权重。 5. 若网络性能不好，则在移动设备端，执行步骤4的检索过程。若对检索结果不满意或者末得到检索结果，可发送维护数据库的请求，待网络性能较好时，从总数据库将相关图像下载至移动设备端。

6. 将图像根据权重的大小进行排序，返回权值较大的图像，作为最终的查询结果。

下面，对本发明的实施示例进行具体描述。

1.SIFT：Scale-invariant feature transform，尺度不变特征转换，是用于图像处理领域的一种描述子。这种描述具有尺度不变性，可在图像中检测出关键点，是一种局部特征描述子。

2. SIFT特征点：在尺度不变特征转换之中获得的一种图像上的兴趣点。这些点是在图像的尺度空间之中通过高斯微分函数检测出来的，其对于尺度和旋转具有不变性，是一种能够很好表现图像特性的特征点。

3.SIFT描述符：以SIFT特征点为中心取16×16的邻域作为采样窗口，将采样点与特征点的相对方向通过高斯加权后归入包含8个格子的方向直方图，最后每一个特征点获得4×4×8的128维特征描述符。

4.类Kmeans迭代优化：是一种迭代过程优化的算法，基于牛顿梯度下降下算求解满足最优目标函数的条件。这一过程首先需要一些初始化的条件，然后根据梯度下降法找出下一次满足当前情况的最优解，不断重复执行，达到收敛条件，或者迭代达到一定的次数时，认为当前解是最优解。

5.哈希算法：一种可以将浮点数表示的数据转换成二进制表示形式的算法。在转换过程中，一般要保持局部敏感性，使得经哈希算法得到的二进制编码之间的汉明距离可以近似代替两点之间的欧式距离。

实施例2：

数据集：采用两个较为流行的数据集作为被检索数据集，分别是SIFT1M数据集和CIFAR10数据集。其中SIFT1M数据集一共含有1百万训练数据集，10万测试数据集。而CIFAR10包含60000幅图像。50000作为训练集图像，10000作为测试集图像。它们均采用Top-10作为衡量精确度的标准。

评价指标：使用能够体现检索性能的通用平均检索精确度（mAP）、召回率以及平均检索时间来检验本发明与其他业界最优方法来进行比较。

在CIFAR10数据集中，通过SIFT算法，提取训练数据集与测试数据集的特征描述子。分别在两种数据集下，使用本发明及业界最优方法（KMH[3]、ITQ[4]、RR[6]、LSH[9]、SH[5]）分别去检索测试数据集在训练数据集中的最近邻。

由检索结果得到各个方法和本发明的平均检索精确度、召回率与平均检索时间，以用于比较。

方案示例的比较结果如表1表2图2～图5所示。

表1.在两种数据库中的mAP表现性能

表2.时间表现性能

图2～图5是本发明所提算法与其他五种算法在两种数据库上的性能表现曲线图。图2六种算法在SIFT1M数据库上将SIFT数据点编码为32位二进制编码。图3将SIFT编码为64位二进制编码之后，在SIFT1M数据库上计算这六种算法的召回率曲线。图4将SIFT编码为32位二进制编码，在CIFAR10数据库上的表现性能。图5为将SIFT编码为64位二进制编码，在CIFAR10数据库上的表现性能。由这四个图可以看出，黑色实线表示本申请所提的算法，它位于最上面，表现性能最好，优于其他五种算法。黑色虚线表示KMH算法，表现性能仅次于本专利所提的算法，高于其他四种算法。黑色方框曲线表示ITQ算法，黑色圆圈表示RR算法，这两种算法表现性能差不多，但RR算法性能略低于ITQ算法。这两种算法的表现性能相比于本专利所得算法与KMH算法均差，但高于LSH算法和SH算法。黑色三角形曲线表示LSH算法，该算法表现性能仅优于黑色星线所表示的SH算法。黑色星线所表示的SH算法表现性能最差，其性能曲线位于这六种算法性能曲线的最底端。

Claims

1.一种基于移动平台下大规模目标识别的方法，其特征在于：其步骤是：

a、获得训练图像数据库的SIFT特征点X = { x ₁,…x _n }；

；

③归一化距离相似性要求NS具有最小值；NS定义如下式所示：

；

f、组合弱哈希函数，得到强哈希函数；

①初始化所有点的权重为w _1,1,i=1/n，n是数据点的数量；

②计算弱哈希函数系数时，首先归一化所有点的权重：

；

③计算所有弱哈希函数的误差率ε _j ^k

；

④计算对应于弱哈希函数h _j ^k的系数? _j ^k

；

⑦重复步骤②到⑥得到对应其他位的强哈希函数；

。

2.根据权利要求1所述的基于移动平台下大规模目标识别的方法，其特征在于：

a、移动设备端配备有摄像头，用于获取外部目标图像；2G/3G网络，用于与外部服务器进行数据交换；外部存储，存储小型数据库，若网络条件较差，则在本机数据库进行检索；

b、由移动设备摄像头获取待查询图像；

c、提取待查询图像的SIFT特征{y ₁,…y _p}。

3.根据权利要求1所述的基于移动平台下大规模目标识别的方法，其特征在于：

a：判断当前网络情况，若情况优良，转步骤b，否则转步骤c；