CN104376326B - 一种用于图像场景识别的特征提取方法 - Google Patents
一种用于图像场景识别的特征提取方法 Download PDFInfo
- Publication number
- CN104376326B CN104376326B CN201410603389.9A CN201410603389A CN104376326B CN 104376326 B CN104376326 B CN 104376326B CN 201410603389 A CN201410603389 A CN 201410603389A CN 104376326 B CN104376326 B CN 104376326B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- layer
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 70
- 238000012360 testing method Methods 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 79
- 210000002569 neuron Anatomy 0.000 claims description 78
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 239000010410 layer Substances 0.000 claims 37
- 239000011229 interlayer Substances 0.000 claims 1
- 230000007423 decrease Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 2
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000581017 Oliva Species 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于图像场景识别的特征提取方法,包括在一组已知类别的训练图像中挖掘信息和将待识别的测试图像进行识别两大步骤,其中第一步骤包括对图像进行预处理;提取图像的目标特征;降低目标特征的维度;执行LDA模型训练算法;生成训练图像的场景环境特征;特征组合;执行SVM训练算法。第二步骤包括将测试图像预处理;生成测试图像的码字;生成测试图像的场景环境特征;提取测试图像的目标特征;降低测试图像的目标特征维度;测试图像的特征组合;利用已训练的SVM分类器生成图像类别。本发明减小了现有方法的计算量,扩展了应用范围并提高了识别准确率。
Description
技术领域
本发明属于图像场景识别技术,具体涉及一种用于图像场景识别的特征提取方法。
背景技术
图像场景识别的目的是得到图像的语义信息并给出其类别标签。它是计算机视觉、模式识别和机器学习等领域的重要研究内容,在图像库管理、图像检索等实用领域也是不可或缺的技术。基于特征袋(Bag of Features)和主题模型的方法是近年来的研究热潮,取得了很多新成果和进展。这类方法借鉴于自然语言处理过程,把图像视为局部观察量的集合并建立特征袋,利用特征袋建立主题模型,生成特征或直接生成类别。此外,图像中的目标识别技术也为图像的场景识别带来有利信息,这类方法通过识别图像中的部分目标来推断图像的场景类别。
目前,主题模型技术尚存在一些缺点,主要体现在表达一幅待识别图像需要对图像的特征袋进行统计和推理,这种需要进行迭代的运算会加大图像识别的计算量。主题模型方法往往对场景环境敏感,但是对于一些非场景环境敏感的图像识别准确率并不理想,例如室内场景类和事件类。结合图像中的目标信息有利于弥补这一缺点,但是目前的目标识别技术难以和主题模型方法直接结合,例如Object Bank技术,其产生的特征本身具有极高的维度,这会冲淡主题模型方法所产生的特征在组合中占据的比例,并且由于维度灾难问题,识别算法运算量极大,在个人计算机、工作站平台上只能使用线性分类器。
发明内容
本发明的目的是通过公开一种基于LDA模型的主题特征提取方法,用该方法得到的主题环境特征描述图像的场景环境。解决下列技术问题:表达一幅待识别图像需要进行统计和推理,运算量较大;对于事件类和室内场景识别准确率差。
通过公开一种Object Bank特征的降维方法,解决其维度过高,难以与主题特征结合的技术问题。
公开将环境主题特征和降维后的目标特征进行结合组成特征向量进行识别的方法,提高识别准确率。
为实现所述目的,本发明提出的技术方案如下:
本发明所述的一种用于图像场景识别的特征提取方法,包括下列两大步骤:
1. 在一组已知类别的训练图像中挖掘信息
参阅图1,输入一组已知类别的训练图像,每次选取一幅图像,依次执行“对图像进行预处理”、“提取图像的目标特征”步骤,直至选取完所有图像后,执行后续步骤 “降低目标特征的维度”、“执行LDA模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”。其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤,不分先后,“降低目标特征的维度”与“执行LDA模型训练算法”、“生成训练图像的场景环境特征”为并行步骤,不分先后。
本步骤中已知类别的训练图像数量要求不低于每类50幅。
1.1 对图像进行预处理
a. 将图像归一化为 像素的正方形图像。
b. 通过滑动网格方法,将正方形图像划分为个有重叠的子块。
c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。
1.2 提取图像的目标特征
利用已公开的Object Bank算法提取图像的目标特征,具体为
a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为,,个子图像,每幅图像共得到21个子图像。
b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12个尺度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果。
c. 转存并输出结果,得到维度为的一条目标特征向量,其中为选用的目标探测器的个数。
1.3 降低目标特征的维度
利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维,具体为
a. 目标特征输入到含有个神经元的一层神经网络,特征的每个维度对应一个神经元,该层网络被叫做输入层。神经元的输出为:
其中,为输入层神经元的阈值,为输入的图像数量,表示网络的第个输入,此处的总数量与Object Bank特征维度相同,表示第层网络的第个神经元的输出。
b. 输入层神经元的输出结果再次输入到含有个神经元的一层,该层命名为中间层,其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组,每组连接到一个的中间层神经元。该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输出层。其中对应每个目标的21个空间金字塔子块作为一组,输入到一个输出层神经元。该层神经元不设阈值,神经元输出为:
d. 输出层上的输出结果即为降维后的目标特征。
1.4 执行LDA模型训练算法
a. 取“对图像进行预处理”步骤中得到的SIFT灰度尺度强度区域描述符,随机选取其中的一部分作为聚类目标执行K均值聚类算法,求得聚类中心。此处随机选取的数量要求总数不小于十万个样本。聚类中心计算为
其中表示对应聚类号的聚类中心,运算表示向量组的元素均值运算,表示所有当前聚类号为的样本向量组成的向量组。
b. 根据所求的聚类中心,计算每一幅“已知类别的训练图像”中每一个子块对应的聚类号,称为码字。计算公式为:
其中表示任一样本向量,运算表示欧几里得距离(二范数)。
c. 图像依据其对应的码字,按照ID:Count(码字:计数)方式进行统计,利用已公开的Gibbs Sampling算法,使用ID:Count训练一个LDA模型。
采样公式为
其中, 假设;表示第个码字对应的主题变量;下标表示剔除其中的第项,所以表示从对应的主题中剔除第项;表示主题中出现码字的次数;是码字的狄利克雷先验;表示图像中出现主题的次数;是主题的狄利克雷先验。
通过采样可以根据值估计其LDA的模型参数和。
其中表示主题中码字的概率;表示图像中主题的概率。
对和进行反复计算,直至每次计算结果不再改变。
1.5 生成训练图像的场景环境特征
图像通过其ID:Count和训练好的LDA模型,利用本发明公开的环境特征提取算法生成特征向量。具体为
a. 作出简化假设如下,对于码字为的新图像,不更新并且等于其均值,则新图像主题的先验概率公式被改进为
其中,是训练集图像的数量。
通过本发明提出的新图像主题先验概率改进公式,先验概率可以被描述为一个维矩阵,其中元素表示第个码字被分配给第个主题的概率。
b. 定义,其中表示矩阵的第列,所以每幅图像都被其码字的统计所定义。对于包含码字的图像,其环境特征向量为
1.6 特征组合
将“生成训练图像的场景环境特征”步骤中得到的特征向量与“降低目标特征的维度”步骤中得到的特征向量顺次组合成一条向量。
1.7 执行SVM训练算法
以“特征组合”步骤中得到的特征向量为训练样本特征向量,以图像已知的类别为类别标签,利用已公开LibSVM软件包执行SVM训练算法,得到一个训练好的SVM分类器。
2. 将待识别的测试图像进行识别
参阅图2,其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤,不分先后。
2.1 将测试图像预处理
a. 将图像归一化为像素的正方形图像。
b. 通过滑动网格方法,将正方形图像划分为个有重叠的子块。
c. 对每个子块分别计算128维的SIFT灰度尺度强度区域描述符。
2.2 生成测试图像的码字
a. 取“执行LDA模型训练算法”步骤所求的聚类中心,并取“将测试图像预处理”步骤中得到的SIFT灰度尺度强度区域描述符,计算待识别图像中每一个区域描述符对应的聚类号,称为码字。计算公式为:
其中表示任一样本向量,运算表示欧几里得距离(二范数)。
b. 图像依据其对应的码字,按照ID:Count(码字:计数)方式进行统计。
2.3 生成测试图像的场景环境特征
图像通过其ID:Count和训练好的LDA模型,利用本发明公开的环境特征提取算法生成特征向量。具体为
a. 作出简化假设如下,对于码字为的新图像,不更新并且等于其均值,则新图像主题的先验概率公式被改进为
其中,是训练集图像的数量。
通过本发明提出的新图像主题先验概率改进公式,先验概率可以被描述为一个维矩阵,其中元素表示第个码字被分配给第个主题的概率。
b. 定义,其中表示矩阵的第列,所以每幅图像都被其码字的统计所定义。对于包含码字的图像,其环境特征向量为
2.4 提取测试图像的目标特征
利用已公开的Object Bank算法提取图像的目标特征,具体为
a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为,,个子图像,每幅图像共得到21个子图像。
b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12个尺度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果。
c. 转存并输出结果,得到维度为的一条目标特征向量,其中为选用的目标探测器的个数。
2.5 降低测试图像的目标特征维度
利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维。具体步骤又可分为
a. 目标特征向量输入到含有个神经元的一层神经网络,特征的每个维度对应一个神经元,该层网络被叫做输入层。神经元的输出为:
其中,为“降低目标特征的维度”步骤运算得到的结果, 表示网络的第个输入,此处的总数量与Object Bank特征维度相同,表示第层网络的第个神经元的输出。
b. 输入层神经元的输出结果再次输入到含有个神经元的一层,该层命名为中间层,其中每12个对应同一图像12个目标检测尺度的输入层神经元为一组,每组连接到一个的中间层神经元。该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输出层。其中对应每个目标的21个空间金字塔子块作为一组,输入到一个输出层神经元。该层神经元不设阈值,神经元输出为:
d. 输出层上的输出结果即为降维后的目标特征。
2.6 测试图像的特征组合
将“生成测试图像的场景环境特征”步骤中得到的向量与“降低测试图像的目标特征维度”步骤中得到的向量顺次组合成一条向量。
2.7 利用已训练的SVM分类器生成图像类别
以“测试图像的特征组合”步骤中得到的特征向量为图像的特征向量,利用“执行SVM训练算法”步骤中得到训练好的SVM分类器对图像进行识别。
本发明结合目标和场景环境信息对图像进行场景识别,提高了识别准确率;提取场景环境特征的过程中无需对每幅图像进行推理,减小了运算量;所提取的目标特征大幅压缩了维度,节约了存储空间;最终提取的特征维度较低,便于进一步对图像进行处理和识别。
附图说明
图1 为步骤“在一组已知类别的训练图像中挖掘信息”的流程图;
图2 为步骤“将待识别的测试图像进行识别”的流程图;
图3 为前向神经网络结构示意图;
图4 为步骤“降低目标特征的维度”的流程图;
图5 为场景环境特征生成流程图;
图6 为LabelMe数据集测试结果,平均识别准确率为84%;
图7 为UIUC-Sports数据集测试结果,平均识别准确率为75%。
具体实施方式
下面结合附图对本发明作详细的描述。
实施例
本发明涉及一种用于图像场景识别的特征提取方法,以下结合附图和两个实施例进一步详细说明本发明技术方案所涉及的各个细节。本实施例使用个人计算机(PC机)进行仿真实现,其软件基于64位Windows 7 操作系统和Matlab 2013a仿真环境。两个实施例分别为:室外场景识别、体育运动场景识别。
a. 室外场景识别:使用已公开的LabelMe八类室外场景数据集,数据集已将所有图像标记为八个类别,八个类别和其中所含的图像数分别为:海滨360、森林328、高速路260、市内308、高山374、野外410、街道292、高楼356。所述的LabelMe八类室外场景数据集见论文:Oliva A, Torralba A. Modeling the shape of the scene: A holisticrepresentation of the spatial envelope[J]. International journal of computervision, 2001, 42(3): 145-175.
b. 体育运动场景识别:使用已公开的UIUC-Sports数据集,数据集已将所有图像标记为八个类别,八个类别和其中所含的图像数分别为:攀岩194、羽毛球200、室外地滚球137、槌球236、马球182、赛艇250、帆船190、滑雪190。所述的UIUC-Sports八类体育运动场景数据集见论文:Li L J, Fei-Fei L. What, where and who classifying events byscene and object recognition[C]//Computer Vision, 2007. ICCV 2007. IEEE 11thInternational Conference on. IEEE, 2007: 1-8.
将两个实施例中的图像类别进行标号,并随机选取一定数量的图像作为“一组已知类别的训练图像”,在剩余图像中随机选取一部分作为“待识别的测试图像”用于方法的测试。两个实施例的类别标签以及随机选取的测试集、训练集图像数量分别如表1、表2所示。
表1 LabelMe 数据集
表2 UIUC-Sports数据集
1. 在一组已知类别的训练图像中挖掘信息
依次取出训练集中每个样本,执行“对图像进行预处理”、“提取图像的目标特征”步骤,两个步骤不分先后次序。在全部训练样本执行完上述步骤后,继续执行后续步骤“降低目标特征的维度”、“执行LDA模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”。。
1.1 对图像进行预处理
对图像进行归一化,归一化图像的大小为像素。使用LabelMe工具包对所有图像进行SIFT灰度尺度强度区域描述符提取,设置参数为像素网格,中心间距设为11。根据该参数设置,每幅图像被划分为121个有重叠的子块,并对每个子块分别计算128维的SIFT灰度尺度强度区域描述符,每幅图像的121个128维描述符存储为121条维度128的行向量。
所述LabelMe工具包中提取SIFT描述符程序见论文:Lazebnik S, Schmid C,Ponce J. Beyond bags of features: Spatial pyramid matching for recognizingnatural scene categories[C]//Computer Vision and Pattern Recognition, 2006IEEE Computer Society Conference on. IEEE, 2006, 2: 2169-2178.
1.2 提取图像的目标特征
利用Li-Jia Li于2010年公开的Object Bank程序包,对于每一幅输入图像,执行下列操作
a. 每幅图像归一化为像素行数与列数的较小值等于400。
b. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为,,个子图像,每幅图像共得到21个子图像。
c. 在每个子图像上,按照12个尺度,分别计算每个目标探测器的响应值,并取每个尺度上每个目标探测器的最大响应为输出结果。此处取目标探测器数,根据上述设置,Object Bank特征为维。
d. 每一幅图像的目标特征存储为一条行向量。
所述Li-Jia Li于2010年公布的Object Bank程序见论文:Li L J, Su H, Fei-Fei L, et al. Object bank: A high-level image representation for sceneclassification & semantic feature sparsification[C]//Advances in neuralinformation processing systems. 2010: 1378-1386.
1.3 降低目标特征的维度
对目标特征进行特征合并降维。构造一个三层前向神经网络如图3所示,其中输入层神经元为单输入单输出,每个神经元的输入对应Object Bank特征的一个维度;每12个输入层神经元为一组,每组输出到同一个中间层神经元;每21个中间层神经元为一组,每组输出到同一个输出层神经元。按照图4,在Matlab环境下编写计算机程序完成该步骤。
对应于图4,该前向神经网络的计算过程具体如下:
a. 读入所有图像的Object Bank特征,在训练集上,计算每个输入层神经元的阈值,并对所有图像的Object Bank特征执行b、c、d步骤。
b. 计算每个输入层神经元的输出。
c. 根据b步骤已计算的输入层网络各神经元的输出,计算中间层网络各神经元的输出。
d.根据步骤c已计算的中间层网络各神经元的输出,计算输出层网络各神经元的输出,所有输出层神经元的输出结果组成一条向量,即为该图像的目标特征向量。
1.4 执行LDA模型训练算法
a. 随机选取五万条“对图像进行预处理”步骤中存储的行向量按列组成矩阵,其排列次序任意。以该矩阵为训练矩阵,设置聚类数为240,距离的度量为欧几里得范数,利用Matlab内建程序kmeans(所述内建程序使用方法可在Matlab命令行中输入help kmeans得到)执行k均值聚类算法,存储运算所得的聚类中心。
b. 依次取“对图像进行预处理”步骤中存储的所有行向量,依据聚类中心,按照具体实施方式中公式计算每个行向量的聚类号,每幅图像对应的121个聚类号定义为该图像对应的码字。
c. 对于每幅图像的121个码字,依次统计图像中每个码字出现的次数,并记录为ID:Count形式,其中ID为图像中出现过的码字,Count为其出现的次数。图像中相同的码字不重复列出,出现次数为0的码字不列出。
d.利用Matlab环境下的LDA程序包进行LDA模型训练。设置参数主题数为,超参数,并随机给予初值。通过更新;通过更新;当本次迭代和均没有改变时,迭代收敛,结束运算输出结果并存储。
所述LDA程序包可见于Matlab Topic Modeling Toolbox 1.4(参见http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm)。
1.5 生成训练图像的场景环境特征
图5描述了一幅图像场景环境特征向量的生成过程,具体为:
a. 取“执行LDA模型训练算法”步骤中所得的每幅图像的ID:count。
b. 根据公式计算矩阵。
c. 对于图像的码字,由公式计算该图像对应每个主题的环境特征分量。
d. 所有特征分量顺次组成向量,即为该图像的环境特征向量。
1.6 特征组合
取“生成训练图像的场景环境特征”步骤所得的每幅图像的环境特征向量和“降低目标特征的维度”步骤所得的每幅图像的目标特征向量。将每幅图像对应的两条特征向量按行首尾相接,组成一条向量,并将所有图像的该特征向量按行排列组成矩阵,命名为特征矩阵。
取已知的图像对应的类别标号,按照图像在特征矩阵中的对应顺序,将类别标号组成一条向量,命名为类别标签向量。
1.7 执行SVM训练算法
以“特征组合”步骤中得到的特征矩阵为特征,类别标签向量为类别,利用Libsvm工具箱执行SVM训练算法,并存储计算所得的SVM分类器model结构体。
此处使用LibSVM工具箱-2.89-3版本,参数使用工具箱自带的网格搜索算法生成(所述工具箱与说明书已公开,参见www.csie.ntu.edu.tw/~cjlin/libsvm/)。
2. 将待识别的测试图像进行识别
参照图2依次取出测试集中每一个测试样本,执行以下步骤。在执行完成后,将执行本方法得到的运算结果与数据集中给定的结果相比较,统计本发明的识别准确率。
2.1 将测试图像预处理
对图像进行大小归一化,归一化图像的大小为像素。使用LabelMe工具包对所有图像进行SIFT描述符提取。每幅图像的121个128维描述符存储为121条维度128的行向量。此步骤的参数设置与“对图像进行预处理”步骤相同。
2.2 生成测试图像的码字
a. 依次取出“将测试图像预处理”步骤中存储的所有行向量,依据“执行LDA模型训练算法”步骤得到的聚类中心,按照具体实施方式中公式计算每个行向量的聚类号,每幅图像对应的121个聚类号定义为该图像对应的码字。
b. 对于每幅图像的121个码字,依次统计图像中每个码字出现的次数,并记录为ID:Count形式,其中ID为图像中出现过的码字,Count为其出现的次数。图像中相同的码字不重复列出,出现次数为0的码字不列出。
2.3 生成测试图像的场景环境特征
图5描述了一幅图像场景环境特征向量的生成过程,具体为:
a. 取“生成测试图像的码字”步骤中所得的每幅图像的ID:count。
b. 根据公式计算矩阵。
c. 对于图像的码字,由公式计算该图像对应每个主题的环境特征分量。
d. 所有特征分量顺次组成向量,即为该图像的环境特征向量。
2.4 提取测试图像的目标特征
利用Li-Jia Li于2010年公开的Object Bank程序包,对于每一幅输入图像,执行下列操作
a. 每幅图像归一化为像素行数与列数的较小值等于400。
b. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为,,个子图像,每幅图像共得到21个子图像。
c. 在每个子图像上,按照12个尺度,分别计算每个目标探测器的响应值,并取每个尺度上每个目标探测器的最大响应为输出结果。此处取目标探测器数为177,根据上述设置,Object Bank特征为维。
d. 每一幅图像的目标特征存储为一条行特征向量。
2.5 降低测试图像的目标特征维度
对目标特征进行特征合并降维。构造一个三层前向神经网络如图3所示,其中输入层神经元为单输入单输出,每个神经元的输入对应Object Bank特征的一个维度;每12个输入层神经元为一组,每组输出到同一个中间层神经元;每21个中间层神经元为一组,每组输出到同一个输出层神经元。在Matlab环境下编写计算机程序完成该步骤。
该前向神经网络的计算过程具体如下:
a. 读入图像的目标特征,读入“降低目标特征的维度”步骤中存储的,计算每个输入层神经元的输出。
c. 根据b步骤已计算的输入层网络各神经元的输出,计算中间层网络各神经元的输出。
d.根据步骤c已计算的中间层网络各神经元的输出,计算输出层网络各神经元的输出,所有输出层神经元的输出结果组成一条向量,即为该图像的目标特征向量。
2.6 测试图像的特征组合
取“将待识别图像的目标特征降维”步骤所得的目标特征向量和“提取待识别图像的场景环境特征”步骤所得到的环境特征向量,将两条向量顺次连接,组成一条特征向量。
2.7 利用已训练的SVM分类器生成图像类别
取“执行SVM训练算法”步骤所得的model结构体,利用LibSVM工具箱对特征向量进行分类,得到待识别图像的场景类别。
为了验证本方法的有效性,将两个实施例中求得的图像场景类别与两个数据集已标注的类别进行比对,其识别准确率分别如图6、图7所示。
Claims (2)
1.一种用于图像场景识别的特征提取方法,其特征是包括下列两大步骤:
一. 在一组已知类别的训练图像中挖掘信息输入一组已知类别的训练图像,每次选取一幅图像,执行“对图像进行预处理”、“提取图像的目标特征”步骤,直至选取完所有图像后,执行后续步骤 “降低目标特征的维度”、“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM 训练算法”其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤,不分先后,“降低目标特征的维度”与“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”为并行步骤,不分先后,本步骤中已知类别的训练图像数量要求不低于每类50 幅;
二. 将待识别的测试图像进行识别
其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤,不分先后。
2.按照权利要求1 所述的一种用于图像场景识别的特征提取方法,其特征是具体步骤如下:
一. 在一组已知类别的训练图像中挖掘信息
输入一组已知类别的训练图像,每次选取一幅图像,依次执行“对图像进行预处理”、“提取图像的目标特征”步骤,直至选取完所有图像后,执行后续步骤 “降低目标特征的维度”、“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”、“特征组合”、“执行SVM训练算法”其中“对图像进行预处理”步骤与“提取图像的目标特征”为并行步骤,不分先后,“降低目标特征的维度”与“执行LDA 模型训练算法”、“生成训练图像的场景环境特征”为并行步骤,不分先后,
本步骤中已知类别的训练图像数量要求不低于每类50 幅,
1). 对图像进行预处理
a. 将图像归一化为像素的正方形图像;
b. 通过滑动网格方法,将正方形图像划分为N 个有重叠的子块;
c. 对每个子块分别计算128 维的SIFT 灰度尺度强度区域描述符;
2). 提取图像的目标特征
利用Object Bank 算法提取图像的目标特征,具体为:
a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为, ,个子图像,每幅图像共得到21 个子图像;
b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12 个尺度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果;
c. 转存并输出结果,得到维度为的一条目标特征向量,其中为选用的目标探测器的个数;
3). 降低目标特征的维度
利用本发明公开的一种目标特征降维算法对图像的目标特征进行降维,具体为:
a. 目标特征输入到含有个神经元的一层神经网络,特征的每个维度对应一个神经元,该层网络被叫做输入层,
神经元的输出为:
其中, 为输入层神经元的阈值, M 为输入的图像数量, 表示网络的第个输入,此处的总数量与Object Bank 特征维度相同, 表示第层网络的第个神经元的输出;
b. 输入层神经元的输出结果再次输入到含有个神经元的一层,该层命名为中间层,其中每12 个对应同一图像12 个目标检测尺度的输入层神经元为一组,每组连接到一个的中间层神经元,该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输出层,其中对应每个目标的21 个空间金字塔子块作为一组,输入到一个输出层神经元,该层神经元不设阈值,神经元输出为:
d. 输出层上的输出结果即为降维后的目标特征;
4). 执行LDA 模型训练算法
a. 取“对图像进行预处理”步骤中得到的SIFT 灰度尺度强度区域描述符,随机选取其中的一部分作为聚类目标执行K 均值聚类算法,求得聚类中心,此处随机选取的数量要求总数不小于十万个样本,聚类中心计算为:
其中表示对应聚类号的聚类中心,运算表示向量组的元素均值运算,
表示所有当前聚类号为的样本向量组成的向量组;
b. 根据所求的聚类中心,计算每一幅“已知类别的训练图像”中每一个子块对应的聚类号,称为码字,计算公式为:
其中表示任一样本向量,运算表示欧几里得距离二范数;
c. 图像依据其对应的码字,按照ID:Count 码字:计数方式进行统计,利用GibbsSampling 算法,使用ID:Count 训练一个LDA 模型,采样公式为:
其中, 假设; 表示第个码字对应的主题变量;下标表示剔除其中的第项,所以表示从对应的主题中剔除第项;表示主题中出现码字的次数;是码字的狄利克雷先验;表示图像中出现主题的次数; 是主题的狄利克雷先验,通过采样可以根据值估计其LDA 的模型参数和,
其中表示主题中码字的概率; 表示图像中主题的概率,
对和进行反复计算,直至每次计算结果不再改变,
5). 生成训练图像的场景环境特征
图像通过其ID:Count 和训练好的LDA 模型,利用本发明公开的环境特征提取算法生成
特征向量,具体为:
a. 作出简化假设如下,对于码字为的新图像, 不更新并且等于其均值, 则新图像主题的先验概率公式被改进为:
其中, 是训练集图像的数量,
通过本发明提出的新图像主题先验概率改进公式,先验概率可以被描述为一个维矩阵,其中元素表示第个码字被分配给第个主题的概率;
b. 定义,其中表示矩阵的第列,所以每幅图像都被其码字的统计所定义,对于包含码字的图像,其环境特征向量为:
;
6). 特征组合
将“生成训练图像的场景环境特征”步骤中得到的特征向量与“降低目标特征的维度”步骤中得到的特征向量顺次组合成一条向量;
7) 执行SVM 训练算法
以“特征组合”步骤中得到的特征向量为训练样本特征向量,以图像已知的类别为类别标签,利用已公开LibSVM 软件包执行SVM 训练算法,得到一个训练好的SVM 分类器;
二. 将待识别的测试图像进行识别
其中“将测试图像预处理”、“生成测试图像的码字”、“生成测试图像的场景环境特征”步骤与“提取测试图像的目标特征”、“降低测试图像的目标特征维度”步骤为并行步骤,不分先后,
1). 将测试图像预处理
a. 将图像归一化为像素的正方形图像;
b. 通过滑动网格方法,将正方形图像划分为个有重叠的子块;
c. 对每个子块分别计算128 维的SIFT 灰度尺度强度区域描述符;
2). 生成测试图像的码字
a. 取“执行LDA 模型训练算法”步骤所求的聚类中心,并取“将测试图像预处理”步骤中得到的SIFT 灰度尺度强度区域描述符,计算待识别图像中每一个区域描述符对应的聚类号,称为码字,计算公式为:
其中表示任一样本向量,运算表示欧几里得距离二范数;
b. 图像依据其对应的码字,按照ID:Count(码字:计数)方式进行统计;
3). 生成测试图像的场景环境特征
图像通过其ID:Count 和训练好的LDA 模型,利用本发明公开的环境特征提取算法生成特征向量,具体为:
a. 作出简化假设如下,对于码字为的新图像, 不更新并且等于其均值, 则新图像主题的先验概率公式被改进为:
其中, 是训练集图像的数量,
通过本发明提出的新图像主题先验概率改进公式,先验概率可以被描述为一个维矩阵,其中元素表示第个码字被分配给第个主题的概率;
b. 定义,其中表示矩阵的第列,所以每幅图像都被其码字的统计所定义,
对于包含码字的图像,其环境特征向量为:
4). 提取测试图像的目标特征
利用Object Bank 算法提取图像的目标特征,具体为:
a. 图像按照三层空间金字塔进行分块,具体为在每一层上分别均分图像为, ,个子图像,每幅图像共得到21个子图像;
b. 依次遍历所有目标,对于每个目标,执行如下操作:在每个子块上,依次按照12个尺度运行目标滤波器,求得响应值,每个尺度下响应值的最大值作为输出结果;
c. 转存并输出结果,得到维度为的一条目标特征向量,其中为选用的目标探测器的个数;
5). 降低测试图像的目标特征维度
利用本发明公开的一种目标特征降维算法对图像的目标特征向量进行降维,
具体步骤又可分为:
a. 目标特征向量输入到含有个神经元的一层神经网络,特征的每个维度对应一个神经元,该层网络被叫做输入层,
神经元的输出为:
其中, 为“降低目标特征的维度”步骤运算得到的结果, 表示网络的第个输入,此处的总数量与Object Bank 特征维度相同, 表示第层网络的第个神经元的输出;
b. 输入层神经元的输出结果再次输入到含有个神经元的一层,该层命名为中间层,其中每12 个对应同一图像12 个目标检测尺度的输入层神经元为一组,每组连接到一个的中间层神经元,
该层神经元的输出为:
c. 中间层神经元的输出结果再次输入到含有目标数个神经元的一层,该层命名为输出层,其中对应每个目标的21 个空间金字塔子块作为一组,输入到一个输出层神经元,该层神经元不设阈值,神经元输出为:
d. 输出层上的输出结果即为降维后的目标特征;
6). 测试图像的特征组合
将“生成测试图像的场景环境特征”步骤中得到的向量与“降低测试图像的目标特征维度”步骤中得到的向量顺次组合成一条向量;
7). 利用已训练的SVM 分类器生成图像类别以“测试图像的特征组合”步骤中得到的特征向量为图像的特征向量,利用“执行SVM训练算法”步骤中得到训练好的SVM 分类器对图像进行识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410603389.9A CN104376326B (zh) | 2014-11-02 | 2014-11-02 | 一种用于图像场景识别的特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410603389.9A CN104376326B (zh) | 2014-11-02 | 2014-11-02 | 一种用于图像场景识别的特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104376326A CN104376326A (zh) | 2015-02-25 |
CN104376326B true CN104376326B (zh) | 2017-06-16 |
Family
ID=52555222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410603389.9A Expired - Fee Related CN104376326B (zh) | 2014-11-02 | 2014-11-02 | 一种用于图像场景识别的特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104376326B (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104732209B (zh) * | 2015-03-17 | 2018-08-14 | 深圳先进技术研究院 | 一种室内场景的识别方法及装置 |
CN104809469A (zh) * | 2015-04-21 | 2015-07-29 | 重庆大学 | 一种面向服务机器人的室内场景图像分类方法 |
CN106371145A (zh) * | 2015-07-23 | 2017-02-01 | 中云智慧(北京)科技有限公司 | 基于svm的x光图像空箱检测方法 |
CN105787501B (zh) * | 2015-12-17 | 2019-03-19 | 武汉大学 | 输电线路走廊区域自动选择特征的植被分类方法 |
CN105678278A (zh) * | 2016-02-01 | 2016-06-15 | 国家电网公司 | 一种基于单隐层神经网络的场景识别方法 |
CN107122327B (zh) | 2016-02-25 | 2021-06-29 | 阿里巴巴集团控股有限公司 | 一种利用训练数据训练模型的方法和训练系统 |
CN106446930B (zh) * | 2016-06-28 | 2019-11-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
CN106529578A (zh) * | 2016-10-20 | 2017-03-22 | 中山大学 | 一种基于深度学习的车辆品牌型号精细识别方法与系统 |
CN106778877A (zh) * | 2016-12-21 | 2017-05-31 | 武汉长江通信智联技术有限公司 | 一种基于lda文档主题生成模型的车辆二级维护管理方法 |
CN106845631B (zh) * | 2016-12-26 | 2020-05-29 | 上海寒武纪信息科技有限公司 | 一种流执行方法及装置 |
CN106981071B (zh) * | 2017-03-21 | 2020-06-26 | 广东华中科技大学工业技术研究院 | 一种基于无人艇应用的目标跟踪方法 |
US10705809B2 (en) * | 2017-09-08 | 2020-07-07 | Devfactory Innovations Fz-Llc | Pruning engine |
CN107808132A (zh) * | 2017-10-23 | 2018-03-16 | 重庆邮电大学 | 一种融合主题模型的场景图像分类方法 |
CN107832845A (zh) | 2017-10-30 | 2018-03-23 | 上海寒武纪信息科技有限公司 | 一种信息处理方法及相关产品 |
CN107909011B (zh) * | 2017-10-30 | 2021-08-24 | Oppo广东移动通信有限公司 | 人脸识别方法及相关产品 |
US10922585B2 (en) * | 2018-03-13 | 2021-02-16 | Recogni Inc. | Deterministic labeled data generation and artificial intelligence training pipeline |
CN108765397A (zh) * | 2018-05-22 | 2018-11-06 | 内蒙古农业大学 | 一种基于降维和特征空间构造的木材图像识别方法及装置 |
CN108898186B (zh) * | 2018-07-03 | 2020-03-06 | 北京字节跳动网络技术有限公司 | 用于提取图像的方法和装置 |
CN109101946B (zh) * | 2018-08-27 | 2021-02-12 | Oppo广东移动通信有限公司 | 一种图像特征的提取方法、终端设备及存储介质 |
US12057109B2 (en) | 2018-09-13 | 2024-08-06 | Shanghai Cambricon Information Technology Co., Ltd. | Information processing method and terminal device |
CN111507467A (zh) * | 2019-01-31 | 2020-08-07 | 北京奇虎科技有限公司 | 神经网络模型的训练方法、装置、计算机设备及存储介质 |
CN110008833B (zh) * | 2019-02-27 | 2021-03-26 | 中国科学院半导体研究所 | 基于光学遥感图像的目标船只检测方法 |
CN110298405A (zh) * | 2019-07-03 | 2019-10-01 | 北京字节跳动网络技术有限公司 | 类别识别方法及装置、存储介质与终端 |
CN117078985B (zh) * | 2023-10-17 | 2024-01-30 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632166A (zh) * | 2013-12-04 | 2014-03-12 | 西安电子科技大学 | 基于融合显著信息的潜在主题极光图像分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4618098B2 (ja) * | 2005-11-02 | 2011-01-26 | ソニー株式会社 | 画像処理システム |
-
2014
- 2014-11-02 CN CN201410603389.9A patent/CN104376326B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103632166A (zh) * | 2013-12-04 | 2014-03-12 | 西安电子科技大学 | 基于融合显著信息的潜在主题极光图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104376326A (zh) | 2015-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104376326B (zh) | 一种用于图像场景识别的特征提取方法 | |
Li et al. | Scale-aware fast R-CNN for pedestrian detection | |
Sermanet et al. | Convolutional neural networks applied to house numbers digit classification | |
Wang et al. | Bag of contour fragments for robust shape classification | |
Sanin et al. | Spatio-temporal covariance descriptors for action and gesture recognition | |
Lin et al. | Masked face detection via a modified LeNet | |
Shi et al. | Automatic script identification in the wild | |
Attari et al. | Nazr-CNN: Fine-grained classification of UAV imagery for damage assessment | |
Van de Sande et al. | Fisher and vlad with flair | |
CN106570521B (zh) | 多语言场景字符识别方法及识别系统 | |
Pedrosa et al. | From bag-of-visual-words to bag-of-visual-phrases using n-grams | |
CN101894276A (zh) | 人体动作识别的训练方法和识别方法 | |
CN104036255A (zh) | 一种人脸表情识别方法 | |
CN110334724B (zh) | 基于lstm的遥感对象自然语言描述及多尺度矫正方法 | |
Schmitt et al. | Object classification and localization using SURF descriptors | |
Zhang et al. | Automatic discrimination of text and non-text natural images | |
CN109726725B (zh) | 一种基于大间隔类间互异性多核学习的油画作者识别方法 | |
Zhong et al. | A comparative study of image classification algorithms for Foraminifera identification | |
Zhan et al. | Semi-supervised classification of hyperspectral data based on generative adversarial networks and neighborhood majority voting | |
Willems et al. | Exemplar-based Action Recognition in Video. | |
Zheng et al. | Fine-grained image classification based on the combination of artificial features and deep convolutional activation features | |
Xi et al. | Beyond context: Exploring semantic similarity for small object detection in crowded scenes | |
Giraddi et al. | Flower classification using deep learning models | |
Bu et al. | Multimodal feature fusion for 3D shape recognition and retrieval | |
Panigrahi et al. | Pedestrian detection based on hand-crafted features and multi-layer feature fused-ResNet Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170616 Termination date: 20211102 |
|
CF01 | Termination of patent right due to non-payment of annual fee |