CN103810500B

CN103810500B - 一种基于有监督学习概率主题模型的地点图像识别方法

Info

Publication number: CN103810500B
Application number: CN201410064526.6A
Authority: CN
Inventors: 杨金福; 解涛; 赵伟伟; 李明爱; 高晶钰; 张济昭
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2014-02-25
Filing date: 2014-02-25
Publication date: 2017-04-05
Anticipated expiration: 2034-02-25
Also published as: CN103810500A

Abstract

本发明涉及基于有监督学习概率主题模型的地点图像识别方法，目的在于更好地解决地点图像识别中由于不同光照和角度、事物变化和运动导致的不确定问题，以及原有LDA模型中随主题数目增加图像的识别率出现过拟合现象进而影响图像的识别率的问题。所述方法包括：图像获取；图像预处理；采用SIFT对图像局部特征进行检测和描述；生成“词袋”；用“词袋”中的词对图像进行描述步骤；本发明采用基于有监督学习的概率主题模型学习图像的潜在主题分布；根据sLDA模型中图像的类别响应函数识别测试集中的未知地点图像。本发明用有监督学习的LDA模型代替原有的LDA模型，在保证实时性的前提下，可以有效提高地点图像的识别率。

Description

一种基于有监督学习概率主题模型的地点图像识别方法

技术领域

本发明属于模式识别领域，涉及一种利用概率主题模型进行图像识别方法，尤其是一种基于有监督学习概率主题模型的地点图像识别方法，用于提高地点图像的识别率。

背景技术

目前，随着人工智能的发展，移动智能机器人被广泛地应用于工业、军事和服务等领域，发挥着越来越重要的作用。智能机器人认知环境的能力越来越重要。机器人只有在知道自身位置和工作环境，才能安全有效地进行自主运动，为人们提供更好的服务。因此，认知环境和位置估计成为智能移动机器人最重要的能力之一。视觉系统能够为机器人提供最丰富的感知信息，同时也最接近人类感知环境的方式。近年来，基于视觉的机器人自定位问题吸引了大量的研究人员，同时也取得了丰硕的研究成果。

根据机器人定位使用的视觉特征信息的不同，基于视觉的机器人自定位方法主要包括以下三种：基于地标特征的自定位方法，基于图像外观特征的自定位方法，以及基于地点识别的自定位方法。其中，基于地点识别的自定位方法，使用了人们可以直接理解的语义信息，如“道路”、“雕塑”、“走廊”等，作为视觉特征信息，实现一种全局的拓扑定位，构建拓扑地图，用于机器人路径规划和人机交互等应用场合。然而，要实现基于地点识别的自定位方法，必须图像进行语义表示。为了解决上述问题，引入基于概率主题模型的图像识别方法。

概率主题模型是机器学习领域中结合统计理论和图论算法的一种模型，它提供了一种建模方法，对实际问题进行概率建模，将实际问题用潜在的语义主题进行描述，对解决实际问题的不确定性具有一定作用。概率主题模型最初应用在自然语言处理和文本分类领域，并取得了很好的应用效果，后来逐渐引入到机器视觉领域中。2005年，李菲菲等在论文“A Bayesian hierarchical model for learning natural scene categories”中，使用度不变特征提取算法（Scale-Invariant Features，SIFT）特征检测子和描述子提取局部特征，并使用潜在狄利克雷分布（Latent Dirichlet Distribution，LDA）的概率主题模型生成的包含语义信息的主题对图像进行描述，最后用贝叶斯分类器对图像进行分类，从而实现基于局部特征的地点识别。该方法通过LDA模型对图像进行语义描述，并对影响图像识别的不确定性因素起到一定作用，使用了人们可以直接理解的语义信息，其不足是当LDA模型中主题数超过40时图像的识别率会出现过拟合。2010年，David M.Blei等在论文“Supervised Topic Model”中，通过sLDA（supervised latent Dirichlet allocation）对有标签的文档进行建模，然后使用mean-filed variational方法对sLDA模型的参数进行估计，从而达到对文档内容的预测。此文中的sLDA模型与LDA模型相比较，不仅可以用于分类，还可以用于预测，而且识别率和预测的准确性都比较高；同时可以解决LDA模型中主题数目增加时出现的识别率过拟合现象。但是，此文中的sLDA模型用于文本文档中，未被用于地点图像识别中。

综上所述，现有技术在基于地点识别的机器人自定位方法中存在以下问题：机器人实际获得的图像常会受到光照变化和拍摄视角以及场景混乱和事物动态变化等影响，这些固有的、可变的影响使得地点识别过程充满了不确定性；LDA模型中随着主题数目的增加图像的识别率会出现过拟合现象，进而影响图像的识别效果；sLDA模型可以解决随着主题数目增加出现的识别率过拟合现象，但是未被应用到基于概率主题模型的地点图像识别系统中。

发明内容

针对现有技术中存在的上述问题，本发明提出一种基于有监督学习概率主题模型的地点识别方法，解决地点识别过程中由于拍摄角度和光照的不同，以及图像中物体变化所导致的不确定性问题；通过sLDA模型对地点图像信息进行建模，有效提高地点图像的识别率。

为了达到上述目的，本发明所采用的技术方案是：提供一种基于有监督学习概率主题模型的地点识别方法，通过mean-filed variational算法对有监督概率主题模型的参数进行学习，用潜在主题对图像进行语义描述，然后根据sLDA模型中响应变量的值对图像进行分类，进而达到图像识别目的。

一种基于有监督学习概率主题模型的地点图像识别方法，包括以下步骤：

步骤1，通过安装在机器人上的标准摄像头获取训练图像集和测试图像集。

图像包含光照、视角、尺度的变化以及人物和物体的动态变化。

步骤2，图像预处理，将获取的图像灰度化。

步骤3，采用SIFT对图像进行局部特征检测和描述。

包括图像关键点检测以及将关键点表示为128维的特征描述子。

步骤4，生成“词袋”。

将步骤3提取的所有训练集图像的局部特征通过k-means算法进行聚类，然后将若干聚类中心作为“词袋”中的词，建立“词袋”。

步骤5，使用“词袋”中的词对图像进行描述。

将训练图像集和测试图像集中的每幅图像的局部特征用“词袋”中的词进行描述，得到“词袋”中词的频数向量。

步骤6，建立有监督学习的潜在主题模型。

将步骤5中得到的图像的词频数向量作为输入潜在主题模型输入变量，设定潜在主题的数目，采用mean-filed variational算法对主题模型的参数进行学习，得到图像类别的响应函数。

具体实施中，选择有监督学习的LDA模型即sLDA模型作为本实施例的概率主题模型，对LDA模型进行改进，选用mean-filed variational算法对模型的参数进行学习，得到图像的潜在主题分布向量和类别响应概率。

对于第d幅图像，sLDA模型的参数生成过程如下：

步骤6.1，生成图像主题分布参数。

图像主题分布概率θ_d的先验分布服从参数为α的Dirichlet分布，即θ_d～Dir(α)。

步骤6.2，生成图像特征参数。

图像的第n个特征w_d,n对应的主题为z_d,n，z_d,n服从参数为θ_d的Multinomial分布，即z_d,n～Mult(θ_d)；图像的第n个特征w_d,n在主题z_d,n下的概率服从参数为的Multinomial分布，即

步骤6.3，生成图像类别标签。

图像类别c_d服从参数为的softmax回归，即其中softmax回归函数为N为一幅图像特征总数，C为类别总数。

第d幅图像属于类别c的概率为：

其中，为第d幅图像的特征向量，c为第d幅图像的类别。

在sLDA模型中，根据图像的特征信息很难计算主题概率的后验分布因此采用mean-field variational算法近似计算上述后验分布。Variational算法假设隐含变量的概率分布是一些相互独立变量的条件分布，然后通过最小化KL（Kullback-Leibler）距离来近似真实的后验条件分布。mean-field variational分布为使用mean-field variational算法时sLDA模型中隐变量的概率分布，即其中γ是变分Dirichlet参数，φ_n是K个主题的变分多项式分布参数。用mean-fieldvariational算法估计sLDA模型的参数包括两个步骤：

（1）估算γ和φ_n。

根据variational算法得到变分目标函数，即似然函数，其表达式为：

通过最大化上述似然函数的近似下界函数L(γ,φ_n;α,π,η)，计算隐变量的参数γ和φ_n，使其分布在当前sLDA模型参数下尽可能逼近其真实分布，公式如下：

其中，i表示的是主题，c表示的是类别，为上一次迭代过程中的φ_n值，h为便于sLDA模型中参数φ_n计算进而假设的参数，满足

（2）估算π和η。

用γ和φ_n更新π和η，公式如下：

η＝(E[A^TA])^-1E[A]^Ty

其中，i表示主；y为图像类别响应函数，且满足A是为了便于sLDA模型中参数η计算假设的参数，满足

重复步骤（1）、（2），直至隐变量γ和φ_n收敛。

步骤7，识别未知图像。

根据sLDA模型中响应变量的值对图像进行分类，进而达到图像识别目的：图像类别为sLDA模型中响应变量达到最大期望值时类别值，用公式表示为：

其中，c^*为图像的类别。

本发明与LDA模型相比，具有以下明显的优势和有益效果：

本发明通过对图像包含的潜在主题进行建模学习，对地点图像识别中由于拍摄角度、光照的不同，以及人和物体的动态变化所导致的不确定性具有更好的鲁棒性；sLDA模型可以直接对图像进行分类，而LDA模型只是对图像的语义描述，要进行分类的话需要使用分类器；sLDA模型还可以解决LDA模型中随着主题数目的增加识别率出现的过拟合现象。

附图说明

图1为基于有监督学习的概率主题模型表示示意图；

图2为室内地点一幅图像的主题分布示意图；

图3为室内地点图像主题中的特征分布示意图；

图4为LDA模型在室内图像数据集中不同主题数目下的识别率结果示意图；

图5为室外地点一幅图像的主题分布示意图；

图6为室外地点图像主题中的特征分布示意图；

图7为基于有监督学习的概率主题模型地点识别方法的流程图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明；

一种基于有监督学习概率主题模型的地点图像识别方法的流程图如图7所示，包括以下步骤：

步骤1，获取室内地点图片数据集和室外地点图片数据集。

室内地点图片数据集选The IDOL2Database(J.Luo,A.Pronobis,B.Caputo,andP.Jensfelt,“The KTH-IDOL2database,”KTH,CAS/CVAP,Tech.Rep.,2006,available athttp://cogvis.nada.kth.se/IDOL2/.)，包含24个图像序列，分别由安装在两个不同的机器人(PeopleBot Minnie和PowerBot Dumbo)上的标准相机以每秒5帧的频率按照一定的路径拍摄，每个序列包含800～1200幅尺寸为309×240的图像，包含kitchen,one-personoffice,two-persons office,printer area和corridor五个地点。本实施例选用PowerBotDumbo拍摄的图像序列进行实验，包括阴天、晴天和夜晚三种光照条件以及相隔三个月拍摄的六组图像。

室外地点图片数据集在大学校园拍摄，包含篮球场，汽车，餐厅，道路，体育馆，操场，雕塑7个种类184幅尺寸为640×480的图片(每类12到40幅图像)。所有图像按照一定的路线拍摄，每类图像拍摄的角度、光线以及远近不同，并且由于相机在移动过程中的晃动有些图片可能是模糊的。

步骤2，图像预处理。将获取的图像进行灰度化，并将其尺寸缩至128×128像素；

步骤3，特征提取。采用SIFT算法对图像的局部特征进行描述，具体方法如下：

预处理后的图像是尺寸为128×128大小的灰度图像，每幅图像用SIFT监测子检测到225个关键点，每个关键点用128维的SIFT特征描述子描述，即每幅图像由225个128维的SIFT描述子组成的225×128大小的特征矩阵。

步骤4，特征聚类。将所有特征通过k-means算法进行聚类，得到若干类的聚类中心。

具体的实施中，对室内图像集设定聚类中心的个数为200个，得到200个128维的聚类中心向量；对室外图像数据集设定聚类中心个数为200个，得到200个128维的聚类中心向量。

步骤5，用“词袋”中的词对图像进行描述，即将训练集和测试集中每幅图像的局部特征用“词袋”中的词进行描述，得到“词袋”中词的频数向量，具体方法如下

将每幅图像的SIFT特征描述子依次分配到与其欧式距离最近“词袋”中的词，然后对词出现的次数进行统计，生成词的频数向量。这样，室内图像数据集和室外图像数据集的每幅图像表示为200维的对应“词袋”中词的频数向量。

步骤6，建立有监督学习的潜在主题模型。

以步骤5中得出的图像的词频数向量作为输入特征变量，设定潜在主题个数，采用mean-filed variational算法对主题模型的参数进行学习，得到图像类别的响应函数；

具体实施中，选择有监督学习的LDA模型作为本实施例的概率主题模型，sLDA模型示意图如图1所示。选用mean-filed variational算法对sLDA模型的参数进行学习，得到图像的类别的响应函数。

步骤7，识别未知图像。

对于室内的地点图像数据，分别采用阴天、晴天、夜晚三种光照下的图像序列作为训练图像，采用另外两种光照条件下的图像序列以及相同光照条件下三个月后拍摄的图像序列作为测试图像，评估sLDA模型和LDA模型参数用mean-field variational算法在不同拍摄角度、光照，以及人物和物体的动态变化所导致的不确定性下的识别性能，评价指标为地点图像的识别率。图2为室内地点一幅图像的主题分布，用以说明一幅图像由不同的主题组成；图3为一个主题的特征分布，该主题是通过室内地点图像得到的，用以说明每个主题是由不同的特征组成；图4为LDA模型中mean-field variational算法在室内图像数据集和不同主题数目下的识别率，由图4可以看出LDA模型存在当主题数目增加时图像的识别率出现过拟合现象。

对室外地点图像数据集，每类图像随机选择一半作为训练图像，剩下的作为测试图像，评估sLDA模型和LDA模型参数用mean-field variational算法在不同拍摄角度、尺寸，以及人物和事物的动态变化所导致的不确定性下的识别性能，评价指标为地点图像的识别率。图5为室外地点一幅图像的主题分布；图6为一个主题的特征分布。

Claims

1.一种基于有监督学习概率主题模型的地点图像识别方法，其特征在于，通过采用sLDA模型代替LDA模型识别测试集中未知的地点图像；所述方法包括以下步骤：

步骤1，通过安装在机器人上的标准摄像头获取训练图像集和测试图像集；

步骤2，图像预处理，将获取的图像灰度化；

步骤3，采用SIFT对图像进行局部特征检测和描述；

包括图像关键点检测以及将关键点表示为128维的特征描述子；

步骤4，生成“词袋”；

将步骤3提取的所有训练集图像的局部特征通过k-means算法进行聚类，然后将若干聚类中心作为“词袋”中的词，建立“词袋”；

步骤5，使用“词袋”中的词对图像进行描述；

将训练图像集和测试图像集中的每幅图像的局部特征用“词袋”中的词进行描述，得到“词袋”中词的频数向量；

步骤6，建立有监督学习的潜在主题模型；

将步骤5中得到的图像的词频数向量作为输入潜在主题模型输入变量，设定潜在主题的数目，采用mean-field variational算法对有监督学习的潜在主题模型的参数进行学习，得到图像的类别响应；

步骤7，识别未知图像；

图像类别为sLDA模型中响应变量达到最大期望值时类别值，用公式表示为：

c^{*} = \arg \underset{c &Element; {1, ..., C}}{m a x} E_{q} [η_{c}^{T} \overset{&OverBar;}{z}] = \arg \underset{c &Element; {1, ..., C}}{m a x} η_{c}^{T} \overset{&OverBar;}{φ}

其中，c为图像类别，c*为期望值最大时的类别；

所述步骤6建立有监督学习的潜在主题模型的方法包括以下步骤：

步骤6.1，生成图像主题分布参数；

图像主题分布概率θ_d的先验分布服从参数为α的Dirichlet分布，即θ_d～Dir(α)；

步骤6.2，生成图像特征参数；

步骤6.3，生成图像类别标签；

图像类别c_d服从参数为的softmax回归，即其中softmax回归函数为N为一幅图像特征总数，C为类别总数；

第d幅图像属于类别c的概率为：

p ({\overset{&RightArrow;}{w}}_{d}, c | α, π, η) = &Integral; p (θ | α) Σ_{z} (Π_{n = 1}^{N} p (z_{d, n} | θ) p ({\overset{&RightArrow;}{w}}_{d} | z_{d, n}, π)) p (c | {\overset{&RightArrow;}{z}}_{d}, η) d θ

其中，为第d幅图像的特征向量，c为第d幅图像的类别；

在sLDA模型中，根据图像的特征信息很难计算主题概率的后验分布因此采用mean-field variational算法近似计算上述后验分布；Variational算法假设隐含变量的概率分布是一些相互独立变量的条件分布，然后通过最小化KL距离来近似真实的后验条件分布；mean-field variational分布为使用mean-field variational算法时sLDA模型中隐变量的概率分布，即其中γ是变分Dirichlet参数，φ_n是K个主题的变分多项式分布参数；用mean-fieldvariational算法估计sLDA模型参数的方法如下：

(1)估算γ和φ_n；

通过最大化上述似然函数的近似下界函数L(γ,φ_n；α,π,η)，计算隐变量的参数γ和φ_n，使其分布在当前sLDA模型参数下尽可能逼近其真实分布，公式如下：

γ = α + Σ_{n = 1}^{N} φ_{n}

φ_{n i} &Proportional; π_{i, w_{n}} \exp [ψ (γ_{i}) + \frac{1}{N} η_{c i} - {(h^{T} φ_{n}^{o l d})}^{- 1} h_{i}]

(2)估算π和η；

用γ和φ_n更新π和η，公式如下：

π_{i w} &Proportional; Σ_{d = 1}^{D} Σ_{n = 1}^{N_{d}} 1 (w_{n} = w) φ_{d n i}

η＝(E[A^TA])^-1E[A]^Ty

其中，i表示主题；y为图像类别响应函数，且满足A是为了便于sLDA模型中参数η计算假设的参数，满足

重复上述(1)、(2)两个步骤，直至隐变量γ和φ_n收敛。