CN105716609A

CN105716609A - 一种机器人室内视觉定位方法

Info

Publication number: CN105716609A
Application number: CN201610038311.6A
Authority: CN
Inventors: 陈铁英
Original assignee: Zhejiang Wusiyuan Communications Technology Co Ltd
Current assignee: Zhejiang Wusiyuan Communications Technology Co Ltd
Priority date: 2016-01-15
Filing date: 2016-01-15
Publication date: 2016-06-29
Anticipated expiration: 2036-01-15
Also published as: CN105716609B

Abstract

本发明涉及一种机器人室内视觉定位方法，适用于机器人导航。本发明通过模拟人类视觉识别过程建模，对机器人进行进行学习训练，使之可以自主实现定位，识别其自身所处位置，采取视觉显著性模型(Saliency Model)、场景主旨模型(Gist Model)等算法，结合集成为一整套完整的视觉定位算法，与现有的视觉定位技术相比，具有更高的准确率，同时减少了运算时间和训练时间。

Description

一种机器人室内视觉定位方法

技术领域

本发明涉及机器人自我感知技术和定位技术领域，尤其涉及一种机器人室内视觉定位方法，适用于机器人导航。

背景技术

六十年代，自第一台机器人装置诞生以来，机器人的发展经历了一个从低级到高级的发展过程。第一代机器人为示教再现型机器人，是通过计算机来控制多自主的机械装置，通过示教存储程序把信息读取出来并发出指令，也可以根据人示教的结果再现动作，它对于外界的环境没有感知能力。在20世纪70年代后期人们开始研究第二代机器人：有感觉的机器人。这种机器人有类似人类的力觉、触觉、听觉、视觉等。第三代机器人是智能机器人，它是当今机器人发展的热点和重点，机器人通过各种传感器获取环境信息，利用人工智能识别、理解、推理并进行判断和决策来完成一定的任务。因此智能机器人除了具有感知环境和简单的适应环境能力外，还具有较强的识别理解能力和决策规划能力。80年代中期，技术革命的第三次浪潮冲击着全世界，机器人总数每年以30％以上的速度增长。1986年国家把智能机器人课题列为高技术发展计划，进入90年代，在国内市场经济发展的推动下，确定了机器人及其应用工程并重、以应用带动关键技术和基础研究的发展方针，实现了高技术发展与国民经济主战场的密切衔接，研制出有自主支持产权的工业机器人系列产品，并小批量试产，完成了一批机器人应用工程，建立了9个机器人产业化基地和7个科研基地。通过多年的努力，取得了举世瞩目的硕果。

随着机器人技术的发展，具有移动行走功能、环境感知能力以及自主规划能力智能移动机器人得到了各国研究人员的普遍重视，特别是在20世纪八、九十年代，随着计算机技术、微电子技术、网络技术等的快速发展，机器人技术的发展突飞猛进。智能机器人移动的重要特点在于它的自主性和适应性。自主性是指它可以在一定的环境中，不依赖外部控制，完全自主地执行一定的任务；适应性是指它可以实时识别和测量周围的物体，并根据环境变化，调节自身参数、动作策略以及处理紧急情况。

随着智能机器人技术的发展，其在军事、医疗、商业等领域发挥着重要的作用，人们对智能移动机器人的需求和期望也越来越高，越来越迫切，移动机器人研究从而进入了崭新的发展阶段。定位技术是智能移动机器人的研究核心，同时也是其实现完全自动化的关键技术。机器人只有准确知道自身位置，工作空间中障碍物的位置以及障碍物的运动情况等信息，才能安全有效地进行移动，由此可见，自主定位和环境分析是移动机器人最重要的能力之一。

发明内容

本发明提供了一种机器人室内视觉定位方法，通过模拟人类视觉识别过程建模，对机器人进行学习训练，使之可以自主实现定位，识别其自身所处位置。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种机器人室内视觉定位方法，包括以下步骤：

1)对预定范围的室内场景连续拍摄形成图片库；

2)对图片库中的每一图片进行显著性建模和场景主旨建模，建立位置信息数据库；

3)拍摄任一图片并对图片进行场景主旨建模，与位置信息数据库进行比对匹配，从而获知机器人的定位信息。

显著性建模包括以下步骤：

2a)利用高斯金字塔构建8种不同的空间尺度后，对图像低通过滤和二次采样生成8个幅度的横向和纵向的缩小因素图像；

2b)提取明暗、色彩、方向三种早期视觉特征，对每一个特征通过一组线性的中心周边差运算构建明暗、色彩、方向三组特征图；

2c)将明暗、色彩、方向三组特征图分别合并成三张亮度、颜色、方向显著图；

2d)对三张亮度、颜色、方向显著图归一化后取平均值获得图片的整体显著性。

归一化为步骤如下：

2d1)将每张图进行正规化到一个固定的值域[0…M]，以消除振幅的差别；

2d2)找出每张图的全局极大值M，并计算所有局部极大值的平均值m；

2d3)对整个特征图进行乘上(M-m)^2运算。

场景主旨建模包括以下步骤：

3a)利用高斯金字塔构建8种不同的空间尺度后，对图像低通过滤和二次采样生成8个幅度的横向和纵向的缩小因素图像；

3b)提取明暗、色彩、方向三种早期视觉特征，对明暗、色彩特征通过一组线性的中心周边差运算，构建明暗、色彩、方向三组特征图；

3c)将明暗、色彩、方向三组特征图分别划分为4乘4共计16个子区域的明暗、色彩、方向特征图；

3d)对16个子区域的明暗、色彩、方向特征图矢量化；

3e)运用主成分分析或/和独立成分分析运算降低16个子区域特征图的维度。

场景主旨建模在多种光线条件进行，便于降低光线对场景识别的影响。

本发明采取视觉显著性模型(SaliencyModel)、场景主旨模型(GistModel)等算法，结合集成为一整套完整的视觉定位算法，与现有的视觉定位技术相比，具有更高的准确率，同时减少了运算时间和训练时间。

附图说明

图1为本发明的显著性建模流程图；

图2为本发明的场景主旨建模流程图；

图3为本发明的学习训练阶段流程图。

具体实施方式

下面结合实施例对本发明作进一步详细描述。

实施例1

学习训练阶段，即连续拍摄照片，并对照片进行处理进行显著性建模和场景主旨建模，建立位置信息数据库。

1、显著性建模流程如图1所示，具体过程详见下文。

高斯金字塔是在图像处理、计算机视觉、信号处理上使用的一项技术，本质上是信号的多尺度表示方法，亦即将同一信号或图片多次的进行高斯模糊，并且向下取样，从而产生不同尺度下的多组信号或图片用于后续处理。例如在影像辨识上，可以通过对比不同尺度下的图片，避免要寻找的内容在图片上可能有不同的大小带来的误差。高斯金字塔的理论基础是尺度空间理论。给定一张图片f(x，y)，它的尺度空间表示方式L(x，y；t)定义为：影像信号f(x，y)和高斯函数的旋积。完整的表达式如下：

g (x, y; t) = \frac{1}{2 π t} e^{- (x^{2} + y^{2}) / 2 t}

L(x，y；t)＝g(x，y；t)*f(x，y)，

其中分号代表旋积的对象为x，y，而分号右边的t表示定义的尺度大小当t＞0是对于所有的t都会成立，不过通常只会选取特定的t值。其中t为高斯函数的变异数，当t越接近零的时候，使得L(x，y；t)＝f(x，y)，这代表t＝0的时候把这项操作视为图片f本身，当t增加时，L表示将影像f通过一个较大的高斯滤波器，从而使得影像的细节被去除更多。

在建立高斯金字塔时，首先将影像转换为尺度空间的表示方式，即乘上不同大小的高斯函数，之后再依据取定的尺度向下取样。乘上的高斯函数大小和向下取样的频率通常会选为2的幂次。所以，在每次迭代的过程中，影像都会被乘上一个固定大小的高斯函数，并且被以长宽各0.5的比率被向下取样。如果将向下取样过程的图片一张一张叠在一起，就会呈现一个金字塔的样子，因此称为高斯金字塔。

模型研究的特征分为三种，分别为明暗特征，色彩特征和方向特征。

r，g，b分别代表输入图像的红色、绿色和蓝色，图像的亮度通道I通过I＝(r+g+b)/3计算得到的。I用于创建高斯金字塔I(σ)，其中σ取0到8的整数。r，g，b通道通过计算I进行正规化，将色彩从亮度中解耦。然而由于色彩变换在亮度特别低的时候是无法感知的，因此是不显著的，正规化仅仅作用于I大于整张图片亮度最大值十分之一的部位。4个调和后的色彩通道分别为红色通道R＝r-(g+b)/2，绿色通道G＝g-(r+b)/2，蓝色通道B＝b-(r+g)/2和黄色通道Y＝(r+g)/2-|r-g|/2-b，通过这4个通道，由此，可以创建R(σ)，G(σ)，B(σ)，andY(σ)四个高斯金字塔。

中心周边差运算(center-surround)差值通过中心的精细比例c和外围的粗糙比例s的差值产生了特征图。第一组特征图考虑的是亮度的对比，哺乳动物是通过神经元对暗中心区域和亮外围区域或亮中心区域作用于暗外围区域的效果进行分别的。这两种类型的敏感是用6组亮度图I(c，s)同时计算的，c分别取2，3，4，s＝c+δ，δ分别取3或4：

第二组特征图与前面类似，是为色彩通道构建的，在人类的视觉皮层中是通过一种称为“双色对比”的系统来处理色彩的：在感受野中部的神经元会被一种颜色(例如红色)刺激产生兴奋而被另一种颜色(例如绿色)抑制。反之对外围的神经元也成立。这种空间色彩的对比在人脑视觉感受皮层中存在红/绿、绿/红、蓝/黄和黄/蓝4组对比。因此，通过创建模型中的RG(c，s)特征图可以同时模拟红/绿和绿/红两种对比，BY(c，s)则可以模拟蓝/黄和黄/蓝两种对比：

第三组特征图是局部方向特征图，通过Gabor金字塔作用于亮度图I产生方向显著图O(σ，θ)，σ取0到8的正整数来表示比例，θ是表示的方向，分别取0°，45°，90°和135°。Gabor过滤是余弦光栅和2D高斯包络的乘积，结果近似于初级视皮层感受野对方向的敏感辨识程度。方向特征图O(c，s，θ)，表示了中心和周围尺度的方向对比。

综上所述，共通过计算生成了42张特征图，其中包括6张亮度图，12张颜色图和24张方向图。

显著图用于通过常量表示一个区域的显著性。显著图与特征图结合起来，以动态神经网络为模型提供了自低向上的构建特征图的方法。

特征图分别被合并到尺度为4的三张显著图，分别为亮度图I，颜色图C和方向图O。计算方法如公式所示，其中跨尺度的加法是由将每幅特征图降尺度到尺度四再进行像素对像素的加法：

对于方向而言，首先根据给定的角度和六张特征图生成中间步骤的四张图，接着整合成一张方向特征图。

创建三张单独的通道图I，C，O和它们各自的正规化是基于假设：类似的特征会为了显著而激烈竞争，然而不同的特性对于显著图会有各自的表现。三张图片经过正规化后取平均值即可得到最终的saliency图。

在任意时刻，显著图(saliencymap)的最大值定义了整张图片最显著的位置，也就是注意力焦点所在的位置(FOA)。可以简单地认为，图片中最活跃的区域就是模型关注的下一个焦点。然而，在一个神经元可行的实现中，利用比例为4的2D积聚触发模型对saliency图进行建模。模型中的这些神经元有一个电容可以将突触输入的电量聚集起来进行充电，一个漏电导和一个电压阈值。当电压达到了这个阈值，就会生成一个触发原型，并且电容的电量会减少到0。尺寸为4的显著图(saliencymap)会输入到一个2D的赢家通吃(WTA)神经网络，不同单元之间的突触交互可以保证最活跃的区域被保留，而其他的区域都被抑制。

显著图(saliencymap)兴奋接收区域的神经元都是独立的，在更加显著位置的SM神经元增长会更快(然而这些神经元仅用于单纯的聚集但不触发)。每一个SM神经元都会刺激周围的WTA神经元。所有的WTA神经元都是独自进化的，知道其中一个首先达到阈值，同时触发三个机制。

过程可以概括成三个步骤，如下：

a)FOA转移到赢家神经元的区域；

b)对于WTA的抑制机制被处罚接着抑制WTA神经元；

c)在SM区域，局部抑制被短暂触发，方式是在FOA的区域根据位置和大小进行抑制。这样不仅可以动态的转移FOA，从而使得次显著的点也能够成为赢家，还可以防止FOA立即回到之前的位置。

这种“返回抑制”已经在人类视觉心理物理学中得到了证明。为了使得模型可以紧接着跳转到当前注意点附近的显著点区域，会短暂地刺激在FOA附近的SM区域。(这种方式被称为Koch和Ulman法则)。

由于没有创建任何自顶向下的注意部件，FOA仅是一个半径固定为输入图片宽度或高度六分之一的圆盘，时间常数，电导，和模拟的神经元阈值都是被选定的，从而FOA可以从一个显著点在30-79毫秒左右跳到下一个显著点，并且上一个显著点的区域会被抑制500-900毫秒，这个过程与视觉心理物理学中是被观测到的。这些延迟使得可以充分扫描图片并且避免了在几个显著点间反复循环。在具体实现中，这些参数是固定的，在研究中所有图片在系统中的结果都是稳定的。

在结合不同的特征图时，由于各张特征图之间有着不同的值域，且提取方式不同，因此数值上不具有可比性。另外由于要结合所有的42张图，因此出现在少数几张图中几个位置的视觉显著可能会被噪声或者其他较为不显著的物体遮挡。由于缺少自顶向下的监督，提出一种对图进行正规化的方法，用N(.)来表示。通过正规化可以达到的效果为，增强只有少量显著点的显著图，削弱显著点较多的显著图，步骤如下：

a.将每张图进行正规化到一个固定的值域[0..M]，以消除振幅的差别。

b.找出每张图的全局极大值M，并计算所有局部极大值的平均值m

c.对整个特征图进行运算，乘上(M-m)^2

只有局部极大值才会被计算，这样正规化就可以忽略同质的区域。比较整张图的极大值和平均值可以看出最活跃的部位和平均值的区别。当这个差别较大的时候，最活跃的区域就会较为明显，若这个差别较小，则这张图就会被抑制。正规化方法的生物学解释在于，它简单地重现了外侧皮层的抑制机制，相邻的类似特征会通过一种特殊的物理链接相互抑制。

2、场景主旨建模流程如图2所示，具体过程详见下文所述。

随着计算机视觉技术的发展，机器场景识别的能力也在不断提高，这方面的研究也日益丰富，目前主要分为基于物体场景识别、基于区域的场景识别、基于内容的场景识别和生物可行场景识别。因为尽管硬件性能和计算算法在不断提升和优化，目前的场景识别水平仍然和人眼相比差距甚远，所以采用生物可行场景识别是一个新颖而充满潜力的研究方向。

gist算法是一种应用于机器人的场景识别算法。这种算法的优点在于，它具有生物学上的可行性，并且计算复杂度较低，与其他的视觉注意模型共享相同的底层特征，可以在机器人上与其他的模型进行并行计算，计算速度快，效率高。

和视觉引导，Saliency计算机制相同，人类还有一项绝妙的快速获取图像“要点(Gist)”的能力，比如快速在镜头和人眼前闪过一张图像，仅仅是一闪而过，就足以让观察者回答图像是一张室内厨房的图，图中有很多五颜六色的物体。由此可以发现，仅仅需要100ms或者更短的时间，人们就可以对图像产生整体的印象(比如，室内还是室外，厨房还是办公室等)一些大体的特征也可以被获取，然而，更让人惊讶的是，如果需要观察者回答，图中是否有一只动物等问题，观察者只需要28ms就可以做出正确的回答。Gist是在大脑中优先相应“位置”的区域中计算的，也就是对应限制空间布局的视觉场景类型。空间内容和颜色判断会影响Gist的感知，这就促进了当前专门研究空间分析的计算机模型的发展。

Gist广义的心理学定义是观察者看一眼获取的图像信息，此处讨论的Gist表示是建立与这个定义的基础上，指在一个短时间内获取的相对维度较低的场景图。将Gist表示为特征空间的向量，如果对应某个给定图像的Gist向量可以被分类到某个特定的场景类别，那么基于Gist的场景分类就是可实现的。

目前研究的重心集中在通过多个域的功能从图片中提取Gist，计算它的整体特征，同时兼顾其大致的空间信息。现有模型是根据Saliency模型提出的。

经过底层的center-surround进行特征提取后，每个子通道都会提取一个相应特征图的gist向量。将图片分割为4X4的16个子区域，对每个字区域进行均值计算。从获取的结果的角度看，Gist和Saliency是相对的，因为gist是对图像的子区域进行特征提取，而saliency是对整个区域进行特征提取。

但是，人类只有一个大脑，同时要进行Gist和Saliency的计算，所以与saliency相同，在Saliency模型中，输入图像经过一系列底层的视觉特征通道过滤，得到不同尺寸的色彩、亮度、方向特征图，有些通道有许多子通道。每个子通道都有9种不同尺寸的金字塔来表示过滤后的输出，在水平和竖直方向，比例都是从1∶1到1∶256，并且都要进行5*5的高斯平滑。对于每个子通道i，模型采用center-surround操作进行标准化。

色彩和灰度通道公式如下：

Gist模型复用Saliency模型的方向、色彩和灰度通道，对于方向通道，对灰度输入图像采用Gabor滤波器从四个不同的角度，四个空间尺度计算十六个子通道的和。需要注意的是，Gabor滤波器不进行center-surround因为这些滤波器本身已经各不相同了。

Mi(c)＝Gabor(θi，c)

对于色彩通道的处理，与Saliency相似。

每个子通道从各自的特征图中都能提出一个Gist向量。

公式是对16个小的区域进行亮度特征提取的方法，k和l分别是子区域在水平方向上和竖直方向上的序号。W和H分别是整张图片的宽度和高度。类似地，可以得到方向通道的特征提取。尽管其他的数据统计可以提供不同的有效信息，然而它们的计算开销太高，而且他们在生物学上的解释仍有争议，因只进行一阶统计就可以进行有效的分类。

利用这种基于统计的gist算法的优点在于它的稳定性可以屏蔽局部的或随机的噪声干扰。在gist算法中更重要的是全局的特征，例如光线对整张图片的改变。颜色恒常算法例如grayworld算法和whitepatch算法就假设场景中的光线是恒定的。然而，在现实场景中光线并不一定会恒定。光线不仅会随着时间的推移而改变，而且在同一场景中，光源也不一定是单点光源。由于光源的不稳定性，场景中的不同物体会在不同的时间被照亮。值得注意的是，这一步的目标不是为了高精度地对色彩进行识别或正规化，而是生成稳定的颜色亮度gist特征图。也可以使用另一种正规化的方法，叫做ComprehensiveColorNormalization(CCN)，可用于全局和局部的正规化。

当光线饱和的时候(即当摄像机捕捉的视频太亮或太暗的时候)，物体的纹理信息会丢失，而且无论用多复杂的正规化方法都无法恢复。在这种情况下，考虑到gist计算的特性，最好的解决方就是在不同的光线条件下进行gist的识别。因此不应该进行任何处理，而应该在不同的光线条件下训练gist分类器。gist本身的特性(Garbor或center-curround)就已经将光照变化的影响降到了最低。通过分析在不同光线条件下的信号比峰值，底层特征处理产生的信息对于光线是合理而且稳定的。

未经处理的gist特征分为16个区域，每个区域都有34张特征图，因此维度总数是544维。可以使用principalcomponentanalysis(PCA)、IndependentComponentAnalysis(ICA)和FastICA将维度降到80，并且对于3000张测试图保留了97％的信息。

在多元统计分析中，主成分分析是一种分析、简化数据集的技术，用于分析数据及建立数理模型。主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留主数据的最重要的方面。

其方法主要是通过对共变异数矩阵进行特征分解，以得出数据的特征向量它们的特征值。PCA是最简单的以特征量分析多元统计分布的方法，其结果可以理解为对源数据中的方差作出解释：哪一个方向上的数据值对方差的影响最大。换而言之，PCA提供了一种降低数据维度的有效方法；如果分析者在源数据中除掉最小的特征值所对应的成分，那么所得的低纬度数据必定是最优化的，因为这样降低维度是失去信息最少的方法。

PCA是最简单的以特征量分析多元统计分布的方法。通常情况下，这种运算可以看作是揭露数据的内部结构，从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来，那么PCA就能够提供一副比较低维度的图像，这幅图像即为在讯息最多的点上原对象的一个“投影”。

PCA的数学定义是：一个正交化线性变换，把数据变换到一个新的坐标系统中，使得这一数据的任何投影的第一大方差在第一个坐标上，第二大方差在第二个坐标上，以此类推。

定义一个n×m的矩阵，XT为去平均值(以平均值为中心移动至原点)的数据，其行为数据样本，列为数据类别(注意，这里定义的是XT而不是X)。则X的奇异值分解为X＝W∑VT，其中m×m矩阵W是XXT的本征矢量矩阵，∑是m×n的非负矩形对角矩阵，V是n×n的XTX的本征矢量矩阵。据此，

当m＜n-1时，V在通常情况下不是唯一定义的，而Y则是唯一定义的。W是一个正交矩阵，YT是xT的转置，且YT的第一列由第一主成分组成，第二列由第二主成分组成，依此类推。

为了得到一种降低数据维度的有效办法，可以把X映射到一个只应用前面L个向量的低维空间中去，WL：

X的单向量矩阵W相当于协方差矩阵的本征矢量C＝XXT，

在欧几里得空间给定一组点数，第一主成分对应于通过多维空间平均点的一条线，同时保证各个点到这条直线距离的平方和最小。去除掉第一主成分后，用同样的方法得到第二主成分。依此类推。在∑中的奇异值均为矩阵XXT的本征值的平方根。每一个本征值都与跟它们相关的方差是成正比的，而且所有本征值的总和等于所有点到它们的多维空间平均点距离的平方和。PCA提供了一种降低维度的有效办法，本质上，它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去，因此，降低维度必定是失去讯息最少的方法。PCA具有保持子空间拥有最大方差的最优正交变换的特性。然而，当与离散余弦变换相比时，它需要更大的计算需求代价。非线性降维技术相对于PCA来说则需要更高的计算要求。

PCA对变量的缩放很敏感。如果只有两个变量，而且它们具有相同的样本方差，并且成正相关，那么PCA将涉及两个变量的主成分的旋转。但是，如果把第一个变量的所有值都乘以100，那么第一主成分就几乎和这个变量一样，另一个变量只提供了很小的贡献，第二主成分也将和第二个原始变量几乎一致。这就意味着当不同的变量代表不同的单位(如温度和质量)时，PCA是一种比较武断的分析方法。一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。

通常，为了确保第一主成分描述的是最大方差的方向，会使用平均减法进行主成分分析。如果不执行平均减法，第一主成分有可能或多或少的对应于数据的平均值。另外，为了找到近似数据的最小均方误差，必须选取一个零均值。

假设零经验均值，数据集X的主成分w1可以被定义为：

为了得到第k个主成分，必须先从X中减去前面的k-1个主成分：

然后把求得的第k个主成分带入数据集，得到新的数据集，继续寻找主成分。

PCA类似于一个线性隐层神经网络。隐含层K个神经元的权重向量收敛后，将形成一个由前K个主成分跨越空间的基础。但是与PCA不同的是，这种技术并不一定会产生正交向量。

在统计学中，ICA是一种利用统计原理进行计算的方法。它是一个线性变换。这个变换把数据或信号分离成统计独立的非高斯的信号源的线性组合。

独立成分分析的最重要的假设就是信号源统计独立。这个假设在大多数盲信号分离的情况中符合实际情况。即使当该假设不满足时，仍然可以用独立成分分析来把观察信号统计独立化，从而进一步分析数据的特性。独立成分分析的经典问题是“鸡尾酒会问题”(cocktailpartyproblem)。该问题描述的是给定混合信号，如何分离出鸡尾酒会中同时说话的每个人的独立信号。

独立成分分析并不能完全恢复信号源的具体数值，也不能解出信号源的正负符号、信号的级数或者信号的数值范围。

观察的数据或者信号用随机向量x＝(x₁，…，x_m)表示，独立成分量可以定义为向量s＝(s₁，…，s_n)。独立成分分析的目的是通过线性变换把观察的数据x，转换成独立成分向量s＝Wx，而独立成分分量满足互相统计独立的特性。统计独立的量化通常通过某指定函数F(s₁，…，s_n)来衡量。

完整的学习训练流程如图3所示。

使用一个三层神经网络(中间层有200和100个神经节点)，使用1.667G赫兹的AMD机器和BP算法进行训练。这样做不仅获得了更高的成功率，同时大大减少了运算时间和训练时间。

实施例2

测试定位阶段，即拍摄任一图片并对图片进行场景主旨建模，与位置信息数据库进行比对匹配，从而获知机器人的定位信息。

场景主旨建模与上文中方法步骤一致。

对比匹配采用尺度不变特征转换(SIFT)算法。SIFT是一种用于侦测与描述影像中局部性特征的视觉算法，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变数，其应用范围包含物体辨识、机器人地图感知与导航、影像缝合、3D模型建立、手势辨识、影像追踪和动作比对。局部影像特征的描述与侦测可以帮助辨识物体，SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。对于光线、噪声、些微视角改变的容忍度也相当高。基于这些特性，它们是高度显著而且相对容易撷取，在母数庞大的特征数据库中，很容易辨识物体而且鲜有误认。使用SIFT特征描述对于部分物体遮蔽的侦测率也相当高，甚至只需要3个以上的SIFT物体特征就足以计算出位置与方位。在现今的电脑硬件速度下和小型的特征数据库条件下，辨识速度可接近即时运算。SIFT特征的信息量大，适合在海量数据库中快速准确匹配。

以某学校的教学楼为数据集的采集对象采集图片。目前针对8间房间，有实验室和办公室，选定了62个不同的图像采集位置，拍摄了62个大约30秒的视频图像，并从中获取了1988张图像。选出其中的398张建立数据集，1590张作为训练集。研究的流程如上图流程图所示：首先输入一张图片，进行Gist和Saliency处理后可以获取有显著区域的Saliency图，将测试图片与所有的图片进行比较和匹配，选出十张最相似的图片，作为结果，检查这十张图片中是否有输入图片本身。若有，则表明匹配成功，否则，匹配失败。

实验成果是，对于每张测试图片，计算选出的前十张匹配图片中有一张是原图的概率，LDA为96.5％，PCA为91.7％。准确率都非常的高。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种机器人室内视觉定位方法，其特征在于：包括以下步骤：

1)对预定范围的室内场景连续拍摄形成图片库；

3)拍摄任一图片并对图片进行场景主旨建模，与步骤2)中位置信息数据库进行比对匹配，从而获知机器人的定位信息。

2.根据权利要求1所述的机器人室内视觉定位方法，其特征在于：所述步骤2)中显著性建模包括以下步骤：

3.根据权利要求2所述的机器人室内视觉定位方法，其特征在于：所述步骤2d)中的归一化为步骤如下：

2d1)将每张图进行正规化到一个固定的值域[0...M]，以消除振幅的差别；

2d3)对整个特征图进行乘上(M-m)^2运算。

4.根据权利要求1所述的机器人室内视觉定位方法，其特征在于：所述提景主旨建模包括以下步骤：

3d)对16个子区域的明暗、色彩、方向特征图矢量化；

5.根据权利要求1所述的机器人室内视觉定位方法，其特征在于：所述步骤2)中的场景主旨建模在多种光线条件进行。