CN103065150A

CN103065150A - 基于智能移动终端的场景识别方法

Info

Publication number: CN103065150A
Application number: CN2011103250664A
Authority: CN
Inventors: 陈大炜
Original assignee: Konka Group Co Ltd
Current assignee: Konka Group Co Ltd
Priority date: 2011-10-24
Filing date: 2011-10-24
Publication date: 2013-04-24

Abstract

本发明提供了一种基于智能移动终端的场景识别方法，通过使用FCD快速角点检测完成图像特征点的提取，提高了特征点检测算法的效率，可以有效克服移动终端计算能力弱的弊端。通过利用K-means算法生成预置数量个类心，每一个类心作为视觉单词用于后续图像描述符生成的方法，使得有限的移动终端内存空间可以完成大范围的场景识别。进一步，通过利用mean-shift法对图像数据库中保存的图像描述符进行聚类，生成预置数量个类心，将输入图像的描述符按照最近距离插入到所述预置数量个类心中的一个，并计算矢量距离，以距离最短排序，找出排序前n幅图像供用户选择的方法，完成了高效的识别场景快速检索。

Description

基于智能移动终端的场景识别方法

技术领域

本发明涉及场景识别技术领域，尤其涉及一种基于智能移动终端的场景识别方法。

背景技术

目前基于智能移动终端的场景识别方法有两类，一类是基于GPS（Global Positioning System，全球定位系统）和定位罗盘的场景识别方法，即，在智能移动终端上嵌入GPS和定位罗盘，由GPS和定位罗盘来实现地点和方向的定位，然后通过地理信息系统提供的地图来确定智能移动终端当前所处的位置和方向上可能的场景目标。

但是，基于GPS和定位罗盘的场景识别方法，不但要在智能移动终端嵌入GPS和定位罗盘，增加制造成本，而且GPS仅能够在室外使用，对室内的场景目标无法定位。通过定位罗盘的方向定位虽然能够提供大致面对的方向，但是在该方向上的场景可能有多个，且相互重叠，使得智能移动终端很难判断出用户真正感兴趣的目标场景具体是哪一个。

另一类是基于计算机视觉技术，通过当前摄像头捕获到的图像信息来判断识别当前场景目标。

但是，这种方法大多采用基于模板匹配方法，该方法需要较大的技术资源，很难在计算资源有限的移动智能终端上实现。

发明内容

为此，本发明所要解决的技术问题是：提供一种基于智能移动终端的场景识别方法，使得场景识别速度快，准确性高，制造成本低廉。

于是，本发明提供了一种基于智能移动终端的场景识别方法，包括：

步骤1，智能移动终端离线阶段拍摄待识别场景，使用FCD快速角点检测完成图像特征点提取，并利用SIFT算法直接在灰度空间上生成相应特征点的SIFT描述符；

步骤2，对每一个特征点的SIFT描述符利用K-means算法生成预置数量个类心，每一个类心作为视觉单词用于后续图像描述符的生成；

步骤3，将一幅图像上的每一个特征点的SIFT描述符都放入到上述视觉单词中查找一个与其最接近的视觉单词并求取误差，将获得的所有误差串联，生成一幅图像的描述符，并保存到图像数据库中，以此方法生成所有待识别场的图像描述符，并保存到图像数据库中；

步骤4，智能移动终端通过视频设备实时采集图像，使用FCD快速角点检测法完成图像特征点提取，并利用SIFT算法直接在灰度空间上生成输入图像特征点的SIFT描述符，再根据离线阶段生成的视觉单词和所述输入图像特征点的SIFT描述符生成输入图像的描述符；

步骤5，将输入图像的描述符与图像数据库中保存的图像描述符进行对比，找出排序前n幅图像呈现给用户，由用户选择识别场景。

其中，在步骤3中，所述在生成的图像描述符后，保存到图像数据库前，还包括：

利用主成分分析PCA法对所述生成的图像描述符进行聚类，提取主成分以完成对图像描述符的压缩；

利用变换编码法对压缩后的图像描述符进行编码存储；

在步骤4后，还包括：

利用离线阶段获取的主成分分析PCA矩阵对生成的输入图像描述符进行压缩；

步骤5中，将压缩后的输入图像描述符与数据库中保存的压缩后的图像描述符进行对比。

其中，在步骤5中，所述将输入图像的描述符与图像数据库中保存的图像描述符进行对比，找出排序前n幅图像，包括：

利用mean-shift法对图像数据库中保存的图像描述符进行聚类，生成预置数量个类心，将输入图像的描述符按照最近距离插入到所述预置数量个类心中的一个，并计算矢量距离，以距离最短排序，找出排序前n幅图像。

其中，所述利用变换编码法对压缩后的图像描述符进行编码存储，其编码位数为64个比特。

其中，步骤2中所述预置数量为64。

本发明所述基于智能移动终端的场景识别方法，通过使用FCD快速角点检测完成图像特征点的提取，提高了特征点检测算法的效率，可以有效克服移动终端计算能力弱的弊端。通过利用K-means算法生成预置数量个类心，每一个类心作为视觉单词用于后续图像描述符生成的方法，使得有限的移动终端内存空间可以完成大范围的场景识别。

进一步，通过利用mean-shift法对图像数据库中保存的图像描述符进行聚类，生成预置数量个类心，将输入图像的描述符按照最近距离插入到所述预置数量个类心中的一个，并计算矢量距离，以距离最短排序，找出排序前n幅图像供用户选择的方法，完成了高效的识别场景快速检索。

附图说明

图1为本发明实施例所述智能移动终端离线阶段场景识别学习和训练的流程示意图；

图2为本发明实施例所述智能移动终端在线阶段识别场景的流程示意图。

具体实施方式

下面，结合附图对本发明进行详细描述。

如图1所示，本实施例提供了一种基于智能移动终端的场景识别方法，为了能够对场景进行在线识别，必须首先在离线阶段对待识别场景进行学习和训练。

首先介绍离线阶段对待识别场景的学习和训练，如图1所示，其包括如下步骤：

步骤11，采集待识别场景的图像；

拍摄若干幅带识别场景的图像作为训练样本，以完成场景学习任务。使用者可以拍摄场景的四幅以上图像来代表一个场景，一般场景数量可以达到一万个以上。

步骤12，提取特征点；

采集完待识别的场景图像后，使用FCD（Fast Corner Detector，快速角点检测）完成图像特征点的提取，并利用SIFT（Scale-invariant feature transform，尺度不变特征转换)算法直接在灰度空间上生成相应特征点的SIFT描述符。

其中，SIFT特征是一种电脑视觉的算法，用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由 David Lowe 在1999年所发表，2004年完善总结。

步骤13，K-means聚类；

对每一个特征点的SIFT描述符利用K-means算法生成预置数量，例如64个类心，每一个类心作为视觉单词用于后续图像描述符的生成；

其中，K-means算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

步骤14，生成图像描述符；

将一幅图像上的每一个特征点的SIFT描述符都放入到上述视觉单词中查找一个与其最接近的视觉单词并求取误差，将获得的所有误差串联，生成一幅图像的描述符，并保存到图像数据库中，以方法生成所有待识别场的图像描述符，并保存到图像数据库中。

步骤15，压缩图像描述符；

利用主成分分析PCA法对上述生成的图像描述符进行聚类，提取主成分以完成对图像描述符的压缩。

步骤16，对图像描述符的编码和存储；

利用transform coding变换编码法对压缩后的图像描述符进行编码存储；

我们可以规定编码位数为64个比特，这样，一幅图像的描述符仅占用8个字节的空间，占用空间小。

通过上述步骤完成了离线阶段待识别场景的学习和训练。其中步骤15和步骤16可以完成对图像数据的压缩和保存，以减少占用的内存空间。

之后，可以进行在线场景的识别。其主要任务时根据离线阶段获得的数据来评判当前输入图像与已有图像的相似度，进而完成场景的识别。如图2所示，具体步骤如下：

步骤21，采集视频；

用户使用视频设备实时采集感兴趣的目标图像，以完成图像的采集。

步骤22，生成图像描述符；

智能移动终端通过视频设备实时采集图像，使用FCD快速角点检测法完成图像特征点提取，并利用SIFT算法直接在灰度空间上生成输入图像特征点的SIFT描述符，再根据离线阶段生成的视觉单词和所述输入图像特征点的SIFT描述符生成输入图像的描述符。

步骤23，描述符的搜索；

用离线阶段获取的主成分分析PCA矩阵对生成的输入图像描述符进行压缩，将压缩后的输入图像描述符与数据库中保存的压缩后的图像描述符进行对比，从中找出排序前n幅图像作为后续识别之用。离线阶段的PCA矩阵只有离线阶段才能产生这个矩阵，在线阶段只有单独的图像，是利用这个已有的矩阵对输入图像特征描述符进行压缩。

步骤24，投票并返回识别结果；

利用前n幅图像，并对这n幅图像当中的每一幅进行投票，将排名靠前的几幅图像，例如前4位的场景中的图像返回给用户作为识别结果。

这里，所谓的投票就是计算输入图像的SIFT描述符与图像数据库中的SIFT描述符之间的矢量距离，距离越短表明越可能与目标对象相似，前４位是指距离最短的四个场景特征，也就是最有可能的４个场景，给用户自己选择。当然也可以选择返回距离最短的一个，但因为图像识别一般不能保证100%的准确率，所以这里返回最有可能的几个，让用户做进一步的判断。

进一步的，在步骤23中，所述将输入图像的描述符与图像数据库中保存的图像描述符进行对比，找出排序前n幅图像，包括：

利用mean-shift法对图像数据库中保存的图像描述符进行聚类，生成预置数量M个类心，将输入图像的描述符按照最近距离插入到所述M个类心中的一个，并计算矢量距离，以距离最短排序，找出排序前n幅图像。这种仅仅将与输入图像描述符最为接近的若干类心中的已有图像描述符进行距离计算用以生成候选描述符集合的方法，能够将搜索时间缩短为传统方法的十分之一左右，因而能够大大加速搜索过程，并提高系统的可扩充性。

综上所述，本实施例所述基于智能移动终端的场景识别方法，通过使用FCD快速角点检测完成图像特征点的提取，提高了特征点检测算法的效率，可以有效克服移动终端计算能力弱的弊端。通过利用K-means算法生成预置数量个类心，每一个类心作为视觉单词用于后续图像描述符生成的方法，使得有限的移动终端内存空间可以完成大范围的场景识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于智能移动终端的场景识别方法，其特征在于，包括：

2.根据权利要求1所述的场景识别方法，其特征在于，在步骤3中，所述在生成的图像描述符后，保存到图像数据库前，还包括：

利用变换编码法对压缩后的图像描述符进行编码存储；

在步骤4后，还包括：

3.根据权利要求1或者2所述场景识别方法，其特征在于，在步骤5中，所述将输入图像的描述符与图像数据库中保存的图像描述符进行对比，找出排序前n幅图像，包括：

4.根据权利要求2所述的场景识别方法，其特征在于，所述利用变换编码法对压缩后的图像描述符进行编码存储，其编码位数为64个比特。

5.根据权利要求1所述的场景识别方法，其特征在于，步骤2中所述预置数量为64。