CN102708380B

CN102708380B - 一种基于机器视觉的室内一般物体识别方法

Info

Publication number: CN102708380B
Application number: CN201210141374.6A
Authority: CN
Inventors: 李新德; 张晓�; 金晓彬
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2012-05-08
Filing date: 2012-05-08
Publication date: 2014-02-12
Anticipated expiration: 2032-05-08
Also published as: CN102708380A

Abstract

本发明公开了一种基于机器视觉的室内一般物体识别方法，其包括如下步骤：1）建立一类物体的视觉词库，通过K均值聚类限定词库的规模。2）进行图像前期处理，将一幅图像用词库中的单词表示，用相似阀值近似区分背景和前景。3）图像的描述：把一幅图片包含的信息映射成一个1×(P+Q)的多维行向量(x₀x₁x₂......x_P-3x_P-2x_P-1y₀y₁y₂......y_Q-3y_Q-2y_Q-1)，将图像中的特征以及特征之间的空间关系矢量化，其中P为视觉词库中单词出现的次数，Q为空间关系统计。4）运用无监督判别分类器支持向量机实现分类识别。采用这种方法使机器识别出的物体更准确。

Description

一种基于机器视觉的室内一般物体识别方法

技术领域

本发明涉及在真实室内环境中，通过机器视觉对室内一般物体的识别过程，属于模式识别领域。

背景技术

在人类感知外部世界的过程中，眼睛发挥了不可替代的作用，人类获取外部的信息主要是通过视觉这个渠道。人类天生具有通过眼睛高效、实时的从外部获取信息进而做出相应判断处理的能力。人类视觉系统是一个复杂精微的组成单元，尤其是人类大脑视觉皮层，在获取由视觉神经传输过来的信息之后进行精确的处理。看似简单直白的过程其实蕴含极其复杂的信息处理，迄今为止，人类并未完全清楚视觉处理过程的原理，甚至并未设计出可以与三、四岁幼童视觉识别过程相提并论的机器视觉模型。

机器视觉是研究如何使计算机像人类一样可以对图像数据产生智能感知的一门科学，在安全监控、交通管理、智能移动机器人等领域有着广泛的应用。室内一般物体识别，直观的可以理解为，设计一种识别方法，使得机器可以像人类一样，在真实的室内环境中对任意物体的检测识别能力。要求在一定量的训练样本的前提下,计算机可以学习有关指定物体类别的知识，并在观察到从属于旧类别的新物体时，给出识别的结果。

参照人类视觉识别系统的原理，当前对于一般物体的识别过程也遵循类比于人类的判断过程，如图2：先建立一般图像目标物的描述，然后利用机器学习方法学习图像目标类型，再利用学习得到的模型对未知的图像目标进行分类、识别。图像目标描述就是描述图像目标的类型；目标类型学习是将目标描述与先验知识(如人工对目标的标记)进行结合，获得相应的目标模型；分类表示如何将学习的目标模型应用于待分类的图像目标。

在真实的室内环境中，物体的多样性和背景的复杂干扰是我们对一般物体识别过程中面对的最大问题。任何物体目标都有其自身的特点，比如构成部件以及部件之间的相对关系等，但不同于人类可以很好的理解和接受物体图像的高级语义特征，计算机可以理解的只是图像的低层特征，即人类对图像的理解和计算机的理解存在着语义鸿沟，语义鸿沟是一般物体识别过程中所要面对的一个挑战。

G.Csurka,C.Dance,L.Fan,J.Williamowski（G.Csurka,C.Dance,L.Fan,J.Williamowski,et al.Visual Categorization with bags of keypoints[C].ECCV’04workshop on Statistical Learningin Computer Vision,2004,59–74）提出的一般物体识别算法是词袋模型(Bag Of Words，简写BOW)，如图1所示。该算法把整幅图像看作一个个“单词”构成的“文本”，对“文本”中的“单词”统计分析，来实现物体的识别。由于其策略简单、对图像内目标位置和形变具有鲁棒性等优点,在过去的几年得到了广泛的关注和显著发展。但是该方法中特征之间是相互独立的，不存在物体部件的空间关系属性，此外，也没能有效处理背景环境的干扰。Leibe和Grauman提出了星座模型和星型模型（Leibe B,Grauman K,2008.Visual objectrecognition.Tutotial for AAAI2008）。星座模型的学习过程是先对参数进行初始化，接着用期望最大迭代到目标收敛，再最大化局部特征和局部特征之间关系的相似性计算，星座模型要估计很多参数。星型模型的典型代表是隐形形状模型，该模型需要学习局部特征和星型拓扑结构。这些统计模型所涉及的众多参数，计算很复杂，现实适用性很小。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明提出一种新的一般物体识别方法，在经典BOW算法的基础上，加入对物体部件空间关系统计信息，利用同类物体外观相似、不同类物体外观相差较大这一信息来进行辅助物体识别。

技术方案：本发明采用的技术方案主要包括如下步骤：

步骤1：建立一类物体的视觉词库，通过K均值聚类限定词库的规模；

步骤2：进行图像前期处理，将一幅图像用词库中的单词表示，用相似阀值近似区分背景和前景。这样可以减少背景的干扰；

步骤3：图像的描述：把一幅图片包含的信息映射成一个1×(P+Q)的多维行向量(x₀x₁x₂......x_P-3x_P-2x_P-1y₀y₁y₂......y_Q-3y_Q-2y_Q-1)，将图像中的特征以及特征之间的空间关系矢量化，其中P为视觉词库中单词出现的次数，Q为空间关系统计。

步骤4：运用无监督判别分类器支持向量机实现分类识别；

步骤5：根据公式

Recall = \frac{No . ofcorrectpositives}{tota \ln umberofpositives}

Precision = \frac{No . ofcorretctpositives}{No . ofcorretctpositives + No . offalsepositives}

对目标识别系统进行性能评估，算出的数值越高说明识别的物体越准确。其中Recall为识别率，Precision为识别精度，No.of correctpositives是正确识别的正样本的个数，total number of positive是所有正样本的个数，No.offalse positives是误识别为正样本的个数。

有益效果：采用本发明的技术方案可以减轻背景技术对目标识别的影响，使机器识别出的物体更准确。

附图说明

图1是图片分解成视觉词库示意图；

图2是一般物体识别过程示意图；

图3是物体部件统计示意图；

图4是特征点的空间信息示意图；

图5是生成视觉单词的图片库示意图；

图6是特征检测的结果示意图；

图7是图片上的特征点分布图；

图8是不同目标特征点提取处理前后效果图；

图9是一般物体识别流程图；

图10是部分实验物体图片；

图11是两种方法识别效果比较图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，本发明的总体流程图如图9所示，下面对主要步骤进行详细的描述：

建立视觉词库

视觉词库的建立应该尽可能考虑同类不同物体、不同角度的问题，同时要考虑到词库中的“单词”要满足图像的旋转、缩放、平移不变性。此外，由于词库的单词是用来描述后续图片的元素，所以视觉词库建立的环节，所选图片应没有其他背景干扰。

现有的基于不变量技术的特征检测方法给出了一种基于尺度空间的、对图像缩放、旋转甚至仿射变换保持不变性的图像局部特征描述算子------SIFT。运用SIFT进行关键点测，在图像的关键点检测完毕后，每个关键点生成一个128维的向量，包含三个信息：位置、尺度、方向。

例如对常见的汽车进行识别，首先要建立一般的汽车视觉词库，选取不用汽车、不同角度的图片，进行关键点检测。图5是生成汽车视觉单词的图片库，源自ETH80，图6是用SIFT检测出来的关键点。

在特征检测完成之后，需要将这些视觉单词生成某一类物体的视觉单词包，在本发明中，每一个视觉单词即为SIFT检测出来的128维向量描述子。由于用大量图片直接生成的视觉单词数量很多，并且一些视觉单词用SIFT描述子表述以后很相近，接下来要对视觉词库中的视觉单词进行聚类分析。本发明采用K均值聚类方法。将所有待观察值按照其与聚类中心的最近距离划分到K个聚类中心上，通过不断地迭代求精找到数据的自然聚类。假设聚类数据为(x₁,x₂,x₃,......x_n-1,x_n)，其中每一个观察值为一个d维实数值向量，K均值聚类方法目标是将这n个观察值按照类内最小均方和的规则划分到k（k≤n）个集合中，s＝{s₁,s₂,s₃，......s_k-1,s_k}，使得

\arg \min Σ_{i = 1}^{k} \underset{x_{j} &Element; s_{i}}{Σ} {| | x_{j} - μ_{i} | |}^{2} - - - (1)

其中，μ_i是s_i中的平均值。

实验过程中，聚类中心的个数K选择为400、500、600、700，根据经验，将K的值选定为600，效果较好。

在本发明中，每类物体的视觉单词库建立完成，每个视觉单词为经过K均值聚类后的SIFT算法检测出来的128特征描述向量。

图像前期处理

由于计算机理解的信息为图片的底层信息，如何把它抽象提升到可以反映物体外观的表述形式是一般物体识别的关键和难点。

由于是在真实的室内环境中，所以，目标物附近会有一些干扰物，为了更为确切的描述物体特性，要一定程度上消减背景的影响。

本发明采用的方法是，在描述一幅待检测的图片之前，现将待检测图片中的每一个特征点与建立的视觉词库中的每一个单词进行相似性计算，在满足一定阈值的情况下，认为该特征点是构成目标物体的特征点。假设视觉词库中有N个视觉单词，某一幅待检测图片有M个特征点，伪代码如下：

其中

M_i为待检测图片中的第i个特征点的SIFT描述子，N_j为视觉词库中第j个视觉单词的SIFT描述子，Threshold为设置的阀值。上述伪代码的工作方法为：1）设定一个认为特征点为目标物体的特征点的阀值。2）根据公式

计算两描述子的相似度similarity(M_i,N_j)，其中M_i为待检测图片中的第i个特征点的SIFT描述子，N_j为视觉词库中第j个视觉单词的SIFT描述子，i小于代检测图片中的特征点的个数，j小于视觉单词的个数。3）将similarity(M_i,N_j)值与阀值进行比较，若similarity(M_i,N_j)值小于阀值则认为待测图片中的这个特征点为目标特征点，将其进行保留；若similarity(M_i,N_j)值不小于阀值，则将这个特征点删除。

在用SIFT算法检测出128维关键点描述之后，将每一个关键点进行归一化处理。

经过以上处理，待检测图片保留下来的特征点被认为是组成目标物体的特征点，但是背景上还会有一些特征点被保留下来认为是目标物体的特征点，为了进一步将这些干扰点也去掉，本发明基于以下方法来做进一步的处理：经过相似性计算，目标物体上检测出来的特征点的个数远远大于在背景上检测出来满足相似性要求的特征点的个数，即目标物体上的特征点分布密度远远大于背景上的特征点分布密度，我们可以根据特征点密度分布情况进一步去除背景干扰点。

经过相似性运算，图片上特征点个数由M个缩减至T个，如图7所示，很明显，我们想要的是黑色方框中的目标物，但是背景上还有一些干扰点。为了减少这些干扰点对后续图像描述的负面影响，利用特征点分布的密度特点，运用RANSAC(随机抽样一致性算法)来处理。为了描述某种事物，我们要对该事物包含的数据进行建模处理。数据本身一般包含模型内的数据点以及干扰数据，为了更准确的建立模型，需要剔除数据中的干扰数据。随机采样一致的思想可以解决这类问题。为简便和通用性起见，用一个圆形区域来覆盖特征点分布密集的那部分区域。

While迭代次数<Times

模型内的点=从T个特征点中随机抽取的F个keypoint;

可能的圆心

maybe - center = (x_{0}, y_{0}) = \frac{1}{F} (Σ_{i = 1}^{F} x_{i}, Σ_{i = 1}^{F} y_{i})

将模型内keypoint与可能圆心之间的距离按从小到大排序，取其前80%数据中的最大的

一个作为可能的半径maybe_radius；

For每一个不是模型内的keypoint

If该点到maybe_center的距离小于maybe_radius*1.2:

认为该keypoint属于本次假设的模型，模型内点的个数增加一次；

If本次假设模型内keypoint的个数大于E(E=80%*T):

认为该次模型正确，抽取的点满足要求，保留该次圆心maybe_center(i);

For j<模型正确的次数

dis \tan ce (j) = Σ_{t = 1}^{T} | keypoint (t) - maybe_radius (j) |

if distance(r)是所有distance中的最小值

保留此时的maybe_radius(r),将距离该maybe_center最近的80%个keypoint保留，认为是目标物体上的特征点。上述伪代码的工作方法如下：

1）建立模型，用一个圆形区域覆盖特征点分布密集的那部分区域。从剩下的T个特征点中随机抽取F个特征点为模型内的点keypoint.

2）根据公式

maybe_center = (x_{0}, y_{0}) = \frac{1}{F} (Σ_{i = 1}^{F} x_{i}, Σ_{i = 1}^{F} y_{i})

计算要能的圆心maybe_center，其中x0,y0分别为可能圆心的横，纵坐标，xi.yi分别为第i个特征点的横，纵坐标，i的值不大于F。

3）将模型内的点keypoint与可能圆心maybe_center之间的距离按从小到大排序，取其前80%数据中的最大的一个作为可能的半径maybe_radius。

4）计算上述F个特征点以外的每个特征点到可能圆心maybe_center的距离，若该距离小于maybe_radius*1.2，则模型内点的个数F增加一个。

5）若最后模型内的点个数大于80%T，则这次建立的模型正确，保留这次的圆心maybe_center(j),此处的j表示建立模型正确的次数。

6）重复步骤第1~第4步，记载建立正确模型的次数j,和每次正确模型的可能半径maybe_radius（j）。

7）根据公式

dis \tan ce (j) = Σ_{t = 1}^{T} | keypoint (t) - maybe_radius (j) |

计算每一次正确模型中distance(j)的值，其中keypoint(t)为特征点到当次可能圆心的距离，t不大于T。

图8是不同目标特征点提取处理前后效果。由实验结果可见，经过处理后的特征点大部分都集中在物体上，更能贴近实际的描述物体，为后续的图像描述做了很好的准备工作。

图像的描述

由于计算机接受的只是图像中每一个像素点的信息，对整个图片并没有全局的直观概念，并且如果把图片中每一个像素点的信息都作为图片描述中的元素传输给计算机，这势必会对图片处理速度产生影响。由于图像目标存在视角差异、尺度变化、目标变形、目标遮挡、复杂背景的因素，同一个物体在不同情况下会有差异巨大的整体描述。基于统计的思想是解决一般物体识别的一个有效途径，该思想把一幅图片理解成由图片局部特征构成的集合，通过对集合中元素的分析从而实现对整幅图片的分析。

本发明中提出的室内一般识别思想遵循统计的思想。借鉴BOW对图片特征的描述，用一个多维向量来描述图像。BOW模型是图像处理领域受自然语言处理的启发产生的解决方案。在自然语言处理中，把一篇文档理解成一个由每一个词汇组成的单词集合，对整篇文档的分析实质就是对每单词的分析过程。与此做类比，BOW算法把一幅图像理解成由图像局部特征组成的一个集合。但是该方法没有考虑局部特征之间的空间位置关系，互相之间没有依赖关系，因此，”Jim likes Lucy”和”Lucy likes Jim”所表达的是一个意思。本发明提出的图像描述模式包含两类信息：一类为图像中出现的视觉单词本身数量的描述，另一类是对视觉单词的空间关系描述。

1）对单词本身数量的描述：视觉单词库中视觉单词出现的次数。例如在实验中，单词表有P个单词，则这类物体的视觉单词向量维数为P维，(x₀x₁x₂......x_P-2x_P-1)每一维数字的大小代表的是该视觉单词在该图像中出现的次数。视觉单词本身数量描述过程如图3所示，下图代表的是视觉单词词库，上图表示某一幅图像中的视觉单词数量统计信息。

2）视觉单词空间关系描述：每个视觉单词的位置描述可以用每个视觉单词相对于物体几何中心距离与角度两个特征来描述。具体描述如下：

假设图像的几何中心为：

(x_{1}, y_{1}) = \frac{1}{m} (Σ_{i = 1}^{m} x_{i}, Σ_{i = 1}^{m} y_{i}),

其中m为处理后特征点的个数，几何中心如图4中的圆心所示。圆心周围的标志物为物体上的特征点，以右上角的正五边形为例，它相对应几何中心的距离为L，角度为θ。

采用统计的方法来表示一幅图片中所有特征点的位置关系。

对于距离：计算每一个特征点与几何中心(x₁,y₁)的欧式距离，(L₁,L₂,L₃,......L_m-1,L_m)，取中值作为单位长度L，其他长度按照各自长度与L的比值划分为0~0.5L,0.5L~L,L~1.5L,1.5L~MAX四个区间。这样，每个特征点的距离划分完毕。

对于角度：任意选择一个特征点，计算其他所有点与该点相对于中心点的夹角。通过简单的数学变换，得到每一个点所对应的角度(θ₁,θ₂,θ₃......θ_m-1，θ_m)（以该点逆时针方向的第一个夹角为该点对应的角度）。

在实际图片中，考虑到每一个θ角度不会很大，故将θ的区间划分为如下：0~30°,30°~60°,60°~90°,90°~120°,120°~MAX这五个区间。

至此，任何一幅图像都有如下的向量描述：

P（单词表中单词个数）+Q（空间关系统计）=P+Q维的一个向量：

(x₀x₁x₂......x_P-3x_P-2x_P-1

y₀y₁y₂......y_Q-3y_Q-2y_Q-1)

前P维向量代表的是视觉单词库中的单词，后Q维向量代表的是每个视觉单词相对于中心的位置关系。每一维向量上的数字大小表示满足该条件出现的统计次数。由于在计算长度是用相对长度，角度也是相对角度，因此该模型具有旋转、缩放不变的性质。最后将该向量进行归一化处理。

通过分类器分类识别

按照分类器训练过程中的人工参与程度，一般可以分为有监督（supervised）和无监督（unsupervised）识别。无监督识别主要用于确定两个特征向量之间的“相似度”以及合适的测度，并选择一个算法方案，基于选定的相似度测度对向量进行聚类。按照分类器的数学模型，可以分为生成方法和判别方法。判别方法是将每个目标表示为特征向量，进而视作整个特征空间的一个点，认为不同的类别是特征空间中不同区域或子空间，因此如果能够找到一个分离函数把属于不同类别的点分来，则识别任务就完成了。

本发明运用无监督的判别类分类器支持向量机(SVM)。支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来。

假设训练样本集合为{x_i,y_i},i＝1,......l,y_i∈{-1,1}

可以被超平面(w·x)+b＝0分开，用以下方程描述与样本间距为Δ的线性分类超平面，

(w·x)+b＝0，||w||＝1，

if(w·x)+b≥Δ，y＝1，

if(w·x)+b≤-Δ，y＝-1，

式中，x是超平面上的点，w是垂直于超平面的向量，b是常量，则两个线性分类界面的间距为

在我们的训练过程中，用含用目标物体的图片作为正的图片输入，此时的y＝1；不含有目标物体作为负的图片输入，此时的y＝-1，由此可以离线训练出对一般物体判别的支持向量机函数。

性能评估

性能评估是目标识别系统设计的一个重要部分，它将决定系统是否满足特定应用的要求以及预期的作用。我们用P(precision)识别精度,R(recall)识别率来评估。定义如下：

Recall = \frac{No . ofcorrectpositives}{tota \ln umberofpositives}

Precision = \frac{No . ofcorretctpositives}{No . ofcorretctpositives + No . offalsepositives}

用常见的室内物体作为训练、识别目标，这些训练和测试图片一部分来自互联网，一部分源自对真实环境的拍照，部分照片如图10所示。

用椅子、风扇、吉他、吊兰、纸篓、雨伞六种常见物体进行识别实验，分别采用本文提出的方法和经典BOW算法，性能评估结果如图11所示。其中横坐标的“1、2、3、4、5、6”代表的是第几种物体，在实验中，它们依次是：椅子、风扇、吉他、吊兰、纸篓、雨伞。在图11（a）中灰点为本发明的实验数据，黑点为BOW算法的实验数据，图11(b)中黑点为本发明的实验数据，灰点为BOW算法的实验数据，由实验结果可以看到，本发明提出的方法比经典BOW方法有更好的效果。

Claims

1.一种基于机器视觉的室内一般物体识别方法，其特征是包括如下步骤：

步骤11：建立一类物体的视觉词库，通过K均值聚类限定词库的规模；

步骤12：进行图像前期处理，将一幅图像用词库中的单词表示，用相似阀值近似区分背景和前景；

步骤13：图像的描述：把一幅图片包含的信息映射成一个1×(P+Q)的多维行向量(x₀x₁x₂......x_P-3x_P-2x_P-1y₀y₁y₂......y_Q-3y_Q-2y_Q-1)，将图像中的特征以及特征之间的空间关系矢量化，其中P为视觉词库中单词出现的次数，Q为空间关系统计；

步骤14：运用无监督判别分类器支持向量机实现分类识别；

步骤15：根据公式

Recall = \frac{No . ofcorrectpositives}{tota \ln umberofpositives}

Precision = \frac{No . ofcorretctpositives}{No . ofcorretctpositives + No . offalsepositives}

对目标识别系统进行性能评估，其中Recall为识别率，Precision为识别精度，No.of correct positives是正确识别的正样本的个数，total number of positive是所有正样本的个数，No.of falsepositives是误识别为正样本的个数；

其中，步骤12中所述的区分背景和前景的方法为：

步骤41：设定一个认为特征点为目标物体的特征点的阀值；

步骤42：根据公式

similarity (M_{i}, N_{j}) = \frac{| M_{i} - N_{j} |}{| M_{i} | \times | N_{j} |}

计算两描述子的相似度similarity(M_i,N_j)，其中M_i为待检测图片中的第i个特征点的SIFT描述子，N_j为视觉词库中第j个视觉单词的SIFT描述子，i小于待检测图片中的特征点的个数，j小于视觉单词的个数；

步骤43：将similarity(M_i,N_j)值与阀值进行比较，若similarity(M_i,N_j)值小于阀值则认为待测图片中的这个特征点为目标特征点，将其进行保留，若similarity(M_i,N_j)值不小于阀值，则将这个特征点删除；

步骤44：在剩下的T个特征点中，利用特征点分布的密度特点，运用随机抽样一致性算法进行处理，去除一些干扰点；

步骤44中所述的随机抽样一致性算法的步骤为：

步骤51：建立模型，用一个圆形区域覆盖特征点分布密集的那部分区域，从剩下的T个特征点中随机抽取F个特征点为模型内的点keypoint；

步骤52：根据公式

maybe_center = (x_{0}, y_{0}) = \frac{1}{F} (Σ_{i = 1}^{F} x_{i}, Σ_{i = 1}^{F} y_{i})

计算可能的圆心maybe_center，其中x0,y0分别为可能圆心的横，纵坐标，xi，yi分别为第i个特征点的横，纵坐标，i的值不大于F；

步骤53：将模型内的点keypoint与可能圆心maybe_center之间的距离按从小到大排序，取其前80%数据中的最大的一个作为可能的半径maybe_radius；

步骤54：计算上述F个特征点以外的每个特征点到可能圆心maybe_center的距离，若该距离小于maybe_radius*1.2，则模型内点的个数F增加一个；

步骤55：若最后模型内的点个数大于80%T，则这次建立的模型正确，保留这次的圆心maybe_center(j)，此处的j表示建立模型正确的次数；

步骤56：重复步骤51至55，记载建立正确模型的次数j和每次正确模型的可能半径maybe_radius（j）；

步骤57：根据公式

dis \tan ce (j) = Σ_{t = 1}^{T} | keypoint (t) - maybe_radius (j) |

2.根据权利要求1所述的一种基于机器视觉的室内一般物体识别方法，其特征在于：所述K均值聚类中的聚类中心的个数K选择为400、500、600或700。

3.根据权利要求1所述的一种基于机器视觉的室内一般物体识别方法，其特征在于：所述视觉词库中的每个视觉单词为经过K均值聚类后的SIFT算法检测出来的128特征描述向量。