CN104376326B

CN104376326B - 一种用于图像场景识别的特征提取方法

Info

Publication number: CN104376326B
Application number: CN201410603389.9A
Authority: CN
Inventors: 臧睦君; 刘通; 宋伟伟; 李阳; 王珂
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2014-11-02
Filing date: 2014-11-02
Publication date: 2017-06-16
Anticipated expiration: 2034-11-02
Also published as: CN104376326A

Abstract

本发明涉及一种用于图像场景识别的特征提取方法，包括在一组已知类别的训练图像中挖掘信息和将待识别的测试图像进行识别两大步骤，其中第一步骤包括对图像进行预处理；提取图像的目标特征；降低目标特征的维度；执行LDA模型训练算法；生成训练图像的场景环境特征；特征组合；执行SVM训练算法。第二步骤包括将测试图像预处理；生成测试图像的码字；生成测试图像的场景环境特征；提取测试图像的目标特征；降低测试图像的目标特征维度；测试图像的特征组合；利用已训练的SVM分类器生成图像类别。本发明减小了现有方法的计算量，扩展了应用范围并提高了识别准确率。

Description

一种用于图像场景识别的特征提取方法

技术领域

本发明属于图像场景识别技术，具体涉及一种用于图像场景识别的特征提取方法。

背景技术

图像场景识别的目的是得到图像的语义信息并给出其类别标签。它是计算机视觉、模式识别和机器学习等领域的重要研究内容，在图像库管理、图像检索等实用领域也是不可或缺的技术。基于特征袋(Bag of Features)和主题模型的方法是近年来的研究热潮，取得了很多新成果和进展。这类方法借鉴于自然语言处理过程，把图像视为局部观察量的集合并建立特征袋，利用特征袋建立主题模型，生成特征或直接生成类别。此外，图像中的目标识别技术也为图像的场景识别带来有利信息，这类方法通过识别图像中的部分目标来推断图像的场景类别。

目前，主题模型技术尚存在一些缺点，主要体现在表达一幅待识别图像需要对图像的特征袋进行统计和推理，这种需要进行迭代的运算会加大图像识别的计算量。主题模型方法往往对场景环境敏感，但是对于一些非场景环境敏感的图像识别准确率并不理想，例如室内场景类和事件类。结合图像中的目标信息有利于弥补这一缺点，但是目前的目标识别技术难以和主题模型方法直接结合，例如Object Bank技术，其产生的特征本身具有极高的维度，这会冲淡主题模型方法所产生的特征在组合中占据的比例，并且由于维度灾难问题，识别算法运算量极大，在个人计算机、工作站平台上只能使用线性分类器。

发明内容

本发明的目的是通过公开一种基于LDA模型的主题特征提取方法，用该方法得到的主题环境特征描述图像的场景环境。解决下列技术问题：表达一幅待识别图像需要进行统计和推理，运算量较大；对于事件类和室内场景识别准确率差。

通过公开一种Object Bank特征的降维方法，解决其维度过高，难以与主题特征结合的技术问题。

公开将环境主题特征和降维后的目标特征进行结合组成特征向量进行识别的方法，提高识别准确率。

为实现所述目的，本发明提出的技术方案如下：

本发明所述的一种用于图像场景识别的特征提取方法，包括下列两大步骤：

1. 在一组已知类别的训练图像中挖掘信息

参阅图1，输入一组已知类别的训练图像，每次选取一幅图像，依次执行“对图像进行预处理”、“提取图像的目标特征”步骤，直至选取完所有图像后，执行后续步骤 “降低目标特征的维度”、“执行LDA模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”。其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤，不分先后，“降低目标特征的维度”与“执行LDA模型训练算法”、“生成训练图像的场景环境特征”为并行步骤，不分先后。

本步骤中已知类别的训练图像数量要求不低于每类50幅。

1.1 对图像进行预处理

a. 将图像归一化为像素的正方形图像。

b. 通过滑动网格方法，将正方形图像划分为个有重叠的子块。

c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。

1.2 提取图像的目标特征

利用已公开的Object Bank算法提取图像的目标特征，具体为

a. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为，，个子图像，每幅图像共得到21个子图像。

b. 依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果。

c. 转存并输出结果，得到维度为的一条目标特征向量，其中为选用的目标探测器的个数。

1.3 降低目标特征的维度

利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维，具体为

a. 目标特征输入到含有个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层。神经元的输出为：

其中，为输入层神经元的阈值，为输入的图像数量，表示网络的第个输入，此处的总数量与Object Bank特征维度相同，表示第层网络的第个神经元的输出。

b. 输入层神经元的输出结果再次输入到含有个神经元的一层，该层命名为中间层，其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组，每组连接到一个的中间层神经元。该层神经元的输出为：

c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层，该层命名为输出层。其中对应每个目标的21个空间金字塔子块作为一组，输入到一个输出层神经元。该层神经元不设阈值，神经元输出为：

d. 输出层上的输出结果即为降维后的目标特征。

1.4 执行LDA模型训练算法

a. 取“对图像进行预处理”步骤中得到的SIFT灰度尺度强度区域描述符，随机选取其中的一部分作为聚类目标执行K均值聚类算法，求得聚类中心。此处随机选取的数量要求总数不小于十万个样本。聚类中心计算为

其中表示对应聚类号的聚类中心，运算表示向量组的元素均值运算，表示所有当前聚类号为的样本向量组成的向量组。

b. 根据所求的聚类中心，计算每一幅“已知类别的训练图像”中每一个子块对应的聚类号，称为码字。计算公式为：

其中表示任一样本向量，运算表示欧几里得距离（二范数）。

c. 图像依据其对应的码字，按照ID:Count（码字：计数）方式进行统计，利用已公开的Gibbs Sampling算法，使用ID:Count训练一个LDA模型。

采样公式为

其中, 假设；表示第个码字对应的主题变量；下标表示剔除其中的第项，所以表示从对应的主题中剔除第项；表示主题中出现码字的次数；是码字的狄利克雷先验；表示图像中出现主题的次数；是主题的狄利克雷先验。

通过采样可以根据值估计其LDA的模型参数和。

其中表示主题中码字的概率；表示图像中主题的概率。

对和进行反复计算，直至每次计算结果不再改变。

1.5 生成训练图像的场景环境特征

图像通过其ID:Count和训练好的LDA模型，利用本发明公开的环境特征提取算法生成特征向量。具体为

a. 作出简化假设如下，对于码字为的新图像，不更新并且等于其均值,则新图像主题的先验概率公式被改进为

其中，是训练集图像的数量。

通过本发明提出的新图像主题先验概率改进公式，先验概率可以被描述为一个维矩阵，其中元素表示第个码字被分配给第个主题的概率。

b. 定义，其中表示矩阵的第列，所以每幅图像都被其码字的统计所定义。对于包含码字的图像，其环境特征向量为

1.6 特征组合

将“生成训练图像的场景环境特征”步骤中得到的特征向量与“降低目标特征的维度”步骤中得到的特征向量顺次组合成一条向量。

1.7 执行SVM训练算法

以“特征组合”步骤中得到的特征向量为训练样本特征向量，以图像已知的类别为类别标签，利用已公开LibSVM软件包执行SVM训练算法，得到一个训练好的SVM分类器。

2. 将待识别的测试图像进行识别

参阅图2，其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤，不分先后。

2.1 将测试图像预处理

a. 将图像归一化为像素的正方形图像。

c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。

2.2 生成测试图像的码字

a. 取“执行LDA模型训练算法”步骤所求的聚类中心，并取“将测试图像预处理”步骤中得到的SIFT灰度尺度强度区域描述符，计算待识别图像中每一个区域描述符对应的聚类号，称为码字。计算公式为：

b. 图像依据其对应的码字，按照ID:Count（码字：计数）方式进行统计。

2.3 生成测试图像的场景环境特征

其中，是训练集图像的数量。

2.4 提取测试图像的目标特征

利用已公开的Object Bank算法提取图像的目标特征，具体为

2.5 降低测试图像的目标特征维度

利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维。具体步骤又可分为

a. 目标特征向量输入到含有个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层。神经元的输出为：

其中，为“降低目标特征的维度”步骤运算得到的结果，表示网络的第个输入，此处的总数量与Object Bank特征维度相同，表示第层网络的第个神经元的输出。

d. 输出层上的输出结果即为降维后的目标特征。

2.6 测试图像的特征组合

将“生成测试图像的场景环境特征”步骤中得到的向量与“降低测试图像的目标特征维度”步骤中得到的向量顺次组合成一条向量。

2.7 利用已训练的SVM分类器生成图像类别

以“测试图像的特征组合”步骤中得到的特征向量为图像的特征向量，利用“执行SVM训练算法”步骤中得到训练好的SVM分类器对图像进行识别。

本发明结合目标和场景环境信息对图像进行场景识别，提高了识别准确率；提取场景环境特征的过程中无需对每幅图像进行推理，减小了运算量；所提取的目标特征大幅压缩了维度，节约了存储空间；最终提取的特征维度较低，便于进一步对图像进行处理和识别。

附图说明

图1 为步骤“在一组已知类别的训练图像中挖掘信息”的流程图；

图2 为步骤“将待识别的测试图像进行识别”的流程图；

图3 为前向神经网络结构示意图；

图4 为步骤“降低目标特征的维度”的流程图；

图5 为场景环境特征生成流程图；

图6 为LabelMe数据集测试结果，平均识别准确率为84%；

图7 为UIUC-Sports数据集测试结果，平均识别准确率为75%。

具体实施方式

下面结合附图对本发明作详细的描述。

实施例

本发明涉及一种用于图像场景识别的特征提取方法，以下结合附图和两个实施例进一步详细说明本发明技术方案所涉及的各个细节。本实施例使用个人计算机（PC机）进行仿真实现，其软件基于64位Windows 7 操作系统和Matlab 2013a仿真环境。两个实施例分别为：室外场景识别、体育运动场景识别。

a. 室外场景识别：使用已公开的LabelMe八类室外场景数据集，数据集已将所有图像标记为八个类别，八个类别和其中所含的图像数分别为：海滨360、森林328、高速路260、市内308、高山374、野外410、街道292、高楼356。所述的LabelMe八类室外场景数据集见论文：Oliva A, Torralba A. Modeling the shape of the scene: A holisticrepresentation of the spatial envelope[J]. International journal of computervision, 2001, 42(3): 145-175.

b. 体育运动场景识别：使用已公开的UIUC-Sports数据集，数据集已将所有图像标记为八个类别，八个类别和其中所含的图像数分别为：攀岩194、羽毛球200、室外地滚球137、槌球236、马球182、赛艇250、帆船190、滑雪190。所述的UIUC-Sports八类体育运动场景数据集见论文：Li L J, Fei-Fei L. What, where and who classifying events byscene and object recognition[C]//Computer Vision, 2007. ICCV 2007. IEEE 11thInternational Conference on. IEEE, 2007: 1-8.

将两个实施例中的图像类别进行标号，并随机选取一定数量的图像作为“一组已知类别的训练图像”，在剩余图像中随机选取一部分作为“待识别的测试图像”用于方法的测试。两个实施例的类别标签以及随机选取的测试集、训练集图像数量分别如表1、表2所示。

表1 LabelMe 数据集

表2 UIUC-Sports数据集

1. 在一组已知类别的训练图像中挖掘信息

依次取出训练集中每个样本，执行“对图像进行预处理”、“提取图像的目标特征”步骤，两个步骤不分先后次序。在全部训练样本执行完上述步骤后，继续执行后续步骤“降低目标特征的维度”、“执行LDA模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”。。

1.1 对图像进行预处理

对图像进行归一化，归一化图像的大小为像素。使用LabelMe工具包对所有图像进行SIFT灰度尺度强度区域描述符提取，设置参数为像素网格，中心间距设为11。根据该参数设置，每幅图像被划分为121个有重叠的子块，并对每个子块分别计算128维的SIFT灰度尺度强度区域描述符，每幅图像的121个128维描述符存储为121条维度128的行向量。

所述LabelMe工具包中提取SIFT描述符程序见论文：Lazebnik S, Schmid C,Ponce J. Beyond bags of features: Spatial pyramid matching for recognizingnatural scene categories[C]//Computer Vision and Pattern Recognition, 2006IEEE Computer Society Conference on. IEEE, 2006, 2: 2169-2178.

1.2 提取图像的目标特征

利用Li-Jia Li于2010年公开的Object Bank程序包，对于每一幅输入图像，执行下列操作

a. 每幅图像归一化为像素行数与列数的较小值等于400。

b. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为，，个子图像，每幅图像共得到21个子图像。

c. 在每个子图像上，按照12个尺度，分别计算每个目标探测器的响应值，并取每个尺度上每个目标探测器的最大响应为输出结果。此处取目标探测器数，根据上述设置，Object Bank特征为维。

d. 每一幅图像的目标特征存储为一条行向量。

所述Li-Jia Li于2010年公布的Object Bank程序见论文：Li L J, Su H, Fei-Fei L, et al. Object bank: A high-level image representation for sceneclassification & semantic feature sparsification[C]//Advances in neuralinformation processing systems. 2010: 1378-1386.

1.3 降低目标特征的维度

对目标特征进行特征合并降维。构造一个三层前向神经网络如图3所示，其中输入层神经元为单输入单输出，每个神经元的输入对应Object Bank特征的一个维度；每12个输入层神经元为一组，每组输出到同一个中间层神经元；每21个中间层神经元为一组，每组输出到同一个输出层神经元。按照图4，在Matlab环境下编写计算机程序完成该步骤。

对应于图4，该前向神经网络的计算过程具体如下：

a. 读入所有图像的Object Bank特征，在训练集上，计算每个输入层神经元的阈值，并对所有图像的Object Bank特征执行b、c、d步骤。

b. 计算每个输入层神经元的输出。

c. 根据b步骤已计算的输入层网络各神经元的输出，计算中间层网络各神经元的输出。

d.根据步骤c已计算的中间层网络各神经元的输出，计算输出层网络各神经元的输出，所有输出层神经元的输出结果组成一条向量，即为该图像的目标特征向量。

1.4 执行LDA模型训练算法

a. 随机选取五万条“对图像进行预处理”步骤中存储的行向量按列组成矩阵，其排列次序任意。以该矩阵为训练矩阵，设置聚类数为240，距离的度量为欧几里得范数，利用Matlab内建程序kmeans（所述内建程序使用方法可在Matlab命令行中输入help kmeans得到）执行k均值聚类算法，存储运算所得的聚类中心。

b. 依次取“对图像进行预处理”步骤中存储的所有行向量，依据聚类中心，按照具体实施方式中公式计算每个行向量的聚类号，每幅图像对应的121个聚类号定义为该图像对应的码字。

c. 对于每幅图像的121个码字，依次统计图像中每个码字出现的次数，并记录为ID:Count形式，其中ID为图像中出现过的码字，Count为其出现的次数。图像中相同的码字不重复列出，出现次数为0的码字不列出。

d．利用Matlab环境下的LDA程序包进行LDA模型训练。设置参数主题数为，超参数，并随机给予初值。通过更新；通过更新；当本次迭代和均没有改变时，迭代收敛，结束运算输出结果并存储。

所述LDA程序包可见于Matlab Topic Modeling Toolbox 1.4(参见http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm)。

1.5 生成训练图像的场景环境特征

图5描述了一幅图像场景环境特征向量的生成过程，具体为：

a. 取“执行LDA模型训练算法”步骤中所得的每幅图像的ID:count。

b. 根据公式计算矩阵。

c. 对于图像的码字，由公式计算该图像对应每个主题的环境特征分量。

d. 所有特征分量顺次组成向量，即为该图像的环境特征向量。

1.6 特征组合

取“生成训练图像的场景环境特征”步骤所得的每幅图像的环境特征向量和“降低目标特征的维度”步骤所得的每幅图像的目标特征向量。将每幅图像对应的两条特征向量按行首尾相接，组成一条向量，并将所有图像的该特征向量按行排列组成矩阵，命名为特征矩阵。

取已知的图像对应的类别标号，按照图像在特征矩阵中的对应顺序，将类别标号组成一条向量，命名为类别标签向量。

1.7 执行SVM训练算法

以“特征组合”步骤中得到的特征矩阵为特征，类别标签向量为类别，利用Libsvm工具箱执行SVM训练算法，并存储计算所得的SVM分类器model结构体。

此处使用LibSVM工具箱-2.89-3版本，参数使用工具箱自带的网格搜索算法生成（所述工具箱与说明书已公开，参见www.csie.ntu.edu.tw/~cjlin/libsvm/）。

2. 将待识别的测试图像进行识别

参照图2依次取出测试集中每一个测试样本，执行以下步骤。在执行完成后，将执行本方法得到的运算结果与数据集中给定的结果相比较，统计本发明的识别准确率。

2.1 将测试图像预处理

对图像进行大小归一化，归一化图像的大小为像素。使用LabelMe工具包对所有图像进行SIFT描述符提取。每幅图像的121个128维描述符存储为121条维度128的行向量。此步骤的参数设置与“对图像进行预处理”步骤相同。

2.2 生成测试图像的码字

a. 依次取出“将测试图像预处理”步骤中存储的所有行向量，依据“执行LDA模型训练算法”步骤得到的聚类中心，按照具体实施方式中公式计算每个行向量的聚类号，每幅图像对应的121个聚类号定义为该图像对应的码字。

b. 对于每幅图像的121个码字，依次统计图像中每个码字出现的次数，并记录为ID:Count形式，其中ID为图像中出现过的码字，Count为其出现的次数。图像中相同的码字不重复列出，出现次数为0的码字不列出。

2.3 生成测试图像的场景环境特征

图5描述了一幅图像场景环境特征向量的生成过程，具体为：

a. 取“生成测试图像的码字”步骤中所得的每幅图像的ID:count。

b. 根据公式计算矩阵。

2.4 提取测试图像的目标特征

a. 每幅图像归一化为像素行数与列数的较小值等于400。

c. 在每个子图像上，按照12个尺度，分别计算每个目标探测器的响应值，并取每个尺度上每个目标探测器的最大响应为输出结果。此处取目标探测器数为177，根据上述设置，Object Bank特征为维。

d. 每一幅图像的目标特征存储为一条行特征向量。

2.5 降低测试图像的目标特征维度

对目标特征进行特征合并降维。构造一个三层前向神经网络如图3所示，其中输入层神经元为单输入单输出，每个神经元的输入对应Object Bank特征的一个维度；每12个输入层神经元为一组，每组输出到同一个中间层神经元；每21个中间层神经元为一组，每组输出到同一个输出层神经元。在Matlab环境下编写计算机程序完成该步骤。

该前向神经网络的计算过程具体如下：

a. 读入图像的目标特征，读入“降低目标特征的维度”步骤中存储的，计算每个输入层神经元的输出。

2.6 测试图像的特征组合

取“将待识别图像的目标特征降维”步骤所得的目标特征向量和“提取待识别图像的场景环境特征”步骤所得到的环境特征向量，将两条向量顺次连接，组成一条特征向量。

2.7 利用已训练的SVM分类器生成图像类别

取“执行SVM训练算法”步骤所得的model结构体，利用LibSVM工具箱对特征向量进行分类，得到待识别图像的场景类别。

为了验证本方法的有效性，将两个实施例中求得的图像场景类别与两个数据集已标注的类别进行比对，其识别准确率分别如图6、图7所示。

Claims

1.一种用于图像场景识别的特征提取方法，其特征是包括下列两大步骤：

一. 在一组已知类别的训练图像中挖掘信息输入一组已知类别的训练图像，每次选取一幅图像，执行“对图像进行预处理”、“提取图像的目标特征”步骤，直至选取完所有图像后，执行后续步骤 “降低目标特征的维度”、“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM 训练算法”其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤，不分先后，“降低目标特征的维度”与“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”为并行步骤，不分先后，本步骤中已知类别的训练图像数量要求不低于每类50 幅；

二. 将待识别的测试图像进行识别

其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤，不分先后。

2.按照权利要求1 所述的一种用于图像场景识别的特征提取方法，其特征是具体步骤如下：

一. 在一组已知类别的训练图像中挖掘信息

输入一组已知类别的训练图像，每次选取一幅图像，依次执行“对图像进行预处理”、“提取图像的目标特征”步骤，直至选取完所有图像后，执行后续步骤 “降低目标特征的维度”、“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤，不分先后，“降低目标特征的维度”与“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”为并行步骤，不分先后，

本步骤中已知类别的训练图像数量要求不低于每类50 幅，

1）. 对图像进行预处理

a. 将图像归一化为像素的正方形图像；

b. 通过滑动网格方法，将正方形图像划分为N 个有重叠的子块；

c. 对每个子块分别计算128 维的SIFT 灰度尺度强度区域描述符；

2）. 提取图像的目标特征

利用Object Bank 算法提取图像的目标特征，具体为：

a. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为，，个子图像，每幅图像共得到21 个子图像；

b. 依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12 个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果；

c. 转存并输出结果，得到维度为的一条目标特征向量，其中为选用的目标探测器的个数；

3）. 降低目标特征的维度

利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维，具体为：

a. 目标特征输入到含有个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层，

神经元的输出为：

其中，为输入层神经元的阈值， M 为输入的图像数量，表示网络的第个输入，此处的总数量与Object Bank 特征维度相同，表示第层网络的第个神经元的输出；

b. 输入层神经元的输出结果再次输入到含有个神经元的一层，该层命名为中间层，其中每12 个对应同一图像12 个目标检测尺度的输入层神经元为一组，每组连接到一个的中间层神经元，该层神经元的输出为：

c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层，该层命名为输出层，其中对应每个目标的21 个空间金字塔子块作为一组，输入到一个输出层神经元，该层神经元不设阈值，神经元输出为：

d. 输出层上的输出结果即为降维后的目标特征；

4）. 执行LDA 模型训练算法

a. 取“对图像进行预处理”步骤中得到的SIFT 灰度尺度强度区域描述符，随机选取其中的一部分作为聚类目标执行K 均值聚类算法，求得聚类中心，此处随机选取的数量要求总数不小于十万个样本，聚类中心计算为：

其中表示对应聚类号的聚类中心，运算表示向量组的元素均值运算，

表示所有当前聚类号为的样本向量组成的向量组；

b. 根据所求的聚类中心，计算每一幅“已知类别的训练图像”中每一个子块对应的聚类号，称为码字，计算公式为：

其中表示任一样本向量，运算表示欧几里得距离二范数；

c. 图像依据其对应的码字，按照ID:Count 码字：计数方式进行统计，利用GibbsSampling 算法，使用ID:Count 训练一个LDA 模型，采样公式为：

其中, 假设；表示第个码字对应的主题变量；下标表示剔除其中的第项，所以表示从对应的主题中剔除第项；表示主题中出现码字的次数；是码字的狄利克雷先验；表示图像中出现主题的次数；是主题的狄利克雷先验，通过采样可以根据值估计其LDA 的模型参数和，

其中表示主题中码字的概率；表示图像中主题的概率，

对和进行反复计算，直至每次计算结果不再改变，

5）. 生成训练图像的场景环境特征

图像通过其ID:Count 和训练好的LDA 模型，利用本发明公开的环境特征提取算法生成

特征向量，具体为：

a. 作出简化假设如下，对于码字为的新图像，不更新并且等于其均值, 则新图像主题的先验概率公式被改进为：

其中，是训练集图像的数量，

通过本发明提出的新图像主题先验概率改进公式，先验概率可以被描述为一个维矩阵，其中元素表示第个码字被分配给第个主题的概率；

b. 定义，其中表示矩阵的第列，所以每幅图像都被其码字的统计所定义，对于包含码字的图像，其环境特征向量为：

；

6）. 特征组合

将“生成训练图像的场景环境特征”步骤中得到的特征向量与“降低目标特征的维度”步骤中得到的特征向量顺次组合成一条向量；

7) 执行SVM 训练算法

以“特征组合”步骤中得到的特征向量为训练样本特征向量，以图像已知的类别为类别标签，利用已公开LibSVM 软件包执行SVM 训练算法，得到一个训练好的SVM 分类器；

二. 将待识别的测试图像进行识别

其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤，不分先后，

1）. 将测试图像预处理

a. 将图像归一化为像素的正方形图像；

b. 通过滑动网格方法，将正方形图像划分为个有重叠的子块；

2）. 生成测试图像的码字

a. 取“执行LDA 模型训练算法”步骤所求的聚类中心，并取“将测试图像预处理”步骤中得到的SIFT 灰度尺度强度区域描述符，计算待识别图像中每一个区域描述符对应的聚类号，称为码字，计算公式为：

其中表示任一样本向量，运算表示欧几里得距离二范数；

b. 图像依据其对应的码字，按照ID:Count（码字：计数）方式进行统计；

3）. 生成测试图像的场景环境特征

图像通过其ID:Count 和训练好的LDA 模型，利用本发明公开的环境特征提取算法生成特征向量，具体为：

其中，是训练集图像的数量，

b. 定义，其中表示矩阵的第列，所以每幅图像都被其码字的统计所定义，

对于包含码字的图像，其环境特征向量为：

4）. 提取测试图像的目标特征

利用Object Bank 算法提取图像的目标特征，具体为：

a. 图像按照三层空间金字塔进行分块，具体为在每一层上分别均分图像为，，个子图像，每幅图像共得到21个子图像；

b. 依次遍历所有目标，对于每个目标，执行如下操作：在每个子块上，依次按照12个尺度运行目标滤波器，求得响应值，每个尺度下响应值的最大值作为输出结果；

5）. 降低测试图像的目标特征维度

利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维，

具体步骤又可分为：

a. 目标特征向量输入到含有个神经元的一层神经网络，特征的每个维度对应一个神经元，该层网络被叫做输入层，

神经元的输出为：

其中，为“降低目标特征的维度”步骤运算得到的结果，表示网络的第个输入，此处的总数量与Object Bank 特征维度相同，表示第层网络的第个神经元的输出；

b. 输入层神经元的输出结果再次输入到含有个神经元的一层，该层命名为中间层，其中每12 个对应同一图像12 个目标检测尺度的输入层神经元为一组，每组连接到一个的中间层神经元，

该层神经元的输出为：

d. 输出层上的输出结果即为降维后的目标特征；

6）. 测试图像的特征组合

将“生成测试图像的场景环境特征”步骤中得到的向量与“降低测试图像的目标特征维度”步骤中得到的向量顺次组合成一条向量；

7）. 利用已训练的SVM 分类器生成图像类别以“测试图像的特征组合”步骤中得到的特征向量为图像的特征向量，利用“执行SVM训练算法”步骤中得到训练好的SVM 分类器对图像进行识别。