CN106919920A - 基于卷积特征和空间视觉词袋模型的场景识别方法 - Google Patents
基于卷积特征和空间视觉词袋模型的场景识别方法 Download PDFInfo
- Publication number
- CN106919920A CN106919920A CN201710126371.8A CN201710126371A CN106919920A CN 106919920 A CN106919920 A CN 106919920A CN 201710126371 A CN201710126371 A CN 201710126371A CN 106919920 A CN106919920 A CN 106919920A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- scene
- classified
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Abstract
本发明公开了一种基于卷积特征和空间视觉词袋模型的场景识别方法。该方法包括:对原始数据库中的数据进行扩增技术,产生大量的、与原数据相似、标签不变的训练数据;对数据库中的图像进行预处理,得到符合的场景图像;利用构建的卷积神经网络模型及其训练后得到的参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行词典生成特征编码并形成直方图矢量;引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类性能的提高。
Description
技术领域
本发明涉及深度学习及场景分类识别,尤其涉及一种基于卷积特征和空间视觉词袋模型的场景识别方法及装置。
背景技术
在信息存储与传输技术的快速发展的今天,人们日常生活中所能接触数字图像信息的方式更加便捷,所能接触到的图像数据呈现爆炸性的增长。图像数量的与日俱增,使得利用计算机来更好的完成日益增多的视觉信息处理任务,成为一项重要的课题。在早期的研究中,是采用人工采集和分类的方式,来获得场景图像中更多的信息,但是这种方法耗时耗力,太过繁琐。因此如何高效合理地处理图像数据,如何实现自动有效地对场景图像进行分类标注,实现图像场景信息的自动提取,己经成为迫切需要解决的难题。
中国互联网络信息中心(CNNIC)第39次调查报告显示,截止至2016年12月,中国网络视频用户规模达5.45亿,而用户对多媒体的搜索需求日益旺盛,则搜索引擎用户规模达6.02亿,且网络新闻用户规模为6.14亿,这给大数据的图像检索提出了更高的要求。面对大量的图像数据,人类对图像理解包含多个语义内容,其中场景场景语义主要侧重于对图像整体的认知和分析,而不仅仅是图像内部包含的具体地物目标,还对图像中各种对象,以及区域之间的上下文信息进行了分析,使得对图像的内容有了更深层次的认识。因此,如何对这些数字图像所包含的信息进行识别和处理,使计算机能够快速地、准确地图像的类别,已经成为计算机视觉领域一个亟待解决的问题,图像场景分类技术就是在这个背景下产生的。
场景分类,即基于图像的场景特征来完成场景类别(如高山、森林、卧室、客厅等)的自动识别。场景分类是图像理解领域的一个重要分支,已成为多媒体信息管理,计算机视觉领域的一个热点问题。场景分类对多媒体信息检索的发展具有重要意义,在许多领域有着广泛的应用前景和理论意义。
早在2004年,一些学者首次正式将词包模型用于图像场景分类的研究中,并且提出一个视觉词包模型算法的图像场景分类。即通过对图像中颜色,纹理等低层特征的提取,进而统计图像中各个图像中各种不同特征的分部信息,即把图像中的图像块对应为文本中的单词,实现了图像的视觉词包模型表示。之后,不同的学者从图像块的划分,局部特征提取和视觉单词的构造等多个阶段进行了进一步的广泛研究。然而,当场景种类达到千类以上且数据库容量突破百万张时,传统的基于底层特征和高层语义的方法通常难以处理这些海量数据,而基于深度学习的方法则在这种大数据上有着很好的表现,尤其是深度卷积神经网络在场景分类任务中已经取得了全新的突破。采用卷积特性,模型可以在事实上卷积特征空间的优势视角的场景更完整的表示能够适应变化。卷积神经网络的问题在于需要大量数据来训练,同时训练过程中需要精巧的参数调整。将卷积神经网络提取的特征与传统的局部特征加以组合,可以进一步提高场景分类的效果。
因此本专利的研究目标是针对传统场景分类中特征表达能力不足的问题,提出一种基于图像中层特征的场景分类方法,用深度学习的方法使其特征表达具有一定的缩放,位移等变换的不变性,并结合空间视觉词袋模型探索空间场景图像整体的特征信息和结构,并能较好的应用于复杂的场景图像分类。
发明内容
本发明的目的针对上述技术中存在的问题,提供一种基于卷积特征和空间视觉词袋模型的场景识别方法,利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。
为实现上述目的,本发明采用的技术方案是:对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;根据所述第一场景图像构建卷积神经网络模型;将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
进一步地,根据所述第一场景图像构建卷积神经网络模型之前,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。
进一步地,所述对第一场景图像预处理,包括对第一场景图像采用拉普拉斯滤波算法来降低光照影响,降低光照情况下拍摄图像噪声,以及对第一场景图像采用直方图均衡化增加灰度值的动态范围,增强图像整体对比度。对图像预处理是在保证所构建得到的新的卷积神经网络模型架构对原尺寸图片可训练的情况下,还明显降低光照对卷积神经网络模型架构识别精度的影响,增加了灰度值的动态范围,从而达到增强图像整体对比度的效果。
进一步地,所述对原始数据库中的数据进行扩增,生成第一场景图像包括:对原始数据库中的数据使用仿射变换、水平翻转和弹性裁切的随机组合来进行扩增,生成多个与原数据相似、标签不变的训练数据作为第一场景图像。所述对原始数据库中的数据进行扩增技术,是为了实时地产生大量的、与原数据相似、标签不变的训练数据,减轻模型训练过拟合,使模型获得更好的泛化性能。本方法是使用仿射变换(平移、旋转、缩放、错切)、水平翻转和弹性裁切的随机组合扩增训练数据。
进一步地,所述根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息,包括:
将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。
进一步地,根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类,包括:
提取待分类图像的SIFT特征;
根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
本发明还提供了一种基于卷积特征和空间视觉词袋模型的场景识别装置,包括:
扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;
卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;
卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;
词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;
直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;
分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
进一步地,装置还包括:
第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。
还包括:
第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。
进一步地,所述分类模块包括:
SIFT特征提取单元,用于提取待分类图像的SIFT特征;
分类单元,用于根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
进一步地,所述进行图像的卷积特征,是构建卷积神经网络模型,使用多层卷积以增强模型的表达能力,以获得了某种程度的位移、尺度、形变不变性。
更进一步地,获取卷积特征的过程是将标准化输入数据作为卷积神经网络卷积层的输入,通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积,获得n个不同的特征映射图,n为正整数;每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连,用于提取相应的局部特征,每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息,将该全局信息作为一个特征映射图中的数据特征;将每个特征映射图中每组m×m个像素进行求和,加权值,加偏置,通过Sigmoid函数得到n个子采样层;m为正整数;将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加,获得叠加层,再通过一个全连接层与每一个特征映射图中所有叠加层相连,计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积,将点积加上一个偏置后,再传递给Sigmoid函数,获得一个单元的标准化输入数据状态响应,全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数,将所有标准化输入数据状态响应作为标准化输入数据的提取特征,实现对图像数据的特征提取。
进一步地,将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成,对前一步提取的卷积特征进行聚类生成“视觉单词词典”,并计算待分配“视觉单词”的权重,最终结合空间金字塔理论获得每幅图像的最终直方图表示。
进一步地,引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类。加权融合低层次的SIFT特征以及经过卷积神经网络模型更多层次抽象化的卷积特征,经实验调节权值,最终得到更好的分类结果。
综上所述,本发明通过对原始数据库中的数据进行扩增技术,产生大量的与原数据相似、标签不变的训练数据;对这些训练数据进行预处理,得到去除噪声的场景图像;将图像输入到构建的卷积神经网络模型并训练调节参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成;引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类。本发明利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提出的基于卷积特征和空间视觉词袋模型的场景识别方法的流程图;
图2是本发明实施例提供的图像预处理的步骤示意图;
图3是本发明提出的一种卷积特征提取方法流程图;
图4是本发明实施例提出的视觉词袋模型结构示意图;
图5是本发明实施例提出的并联分类体系结构示意图;
图6是本发明实施例提供的基于卷积特征和空间视觉词袋模型的场景识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
针对现有技术存在的问题,本发明提出一种基于卷积特征和空间视觉词袋模型的场景识别方法,如图1所示,其具体实施方式如下:
步骤101,对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据。
原始数据库中包含有多个场景图像,在一个可选的实施例中,为本发明测试采用的原始数据库包括以下三种:
(1)CIFAR-10是一个类别数为10的物体识别数据库,每个RGB图像的大小为32×32,包含50000个训练图像和10000个测试图像。
(2)十五场景类别由十五场景类:十三是由Fei Fei和Perona提供,和两个(工业和存储)是由Lazebnik收集。这个数据库包含从200到600每类图像。
(3)indoor67包含67类室内场景数据集,共15620幅图像的图库。
为了实时地产生大量的、与原数据相似、标签不变的训练数据,减轻模型训练过拟合,使模型获得更好的泛化性能。
本发明实验使用仿射变换(平移、旋转、缩放、错切)、水平翻转和弹性裁切的随机组合扩增训练数据。平移像素的范围为[-3,3],缩放比例的范围为[0.8,1.2],弹性裁切的像素范围为[24,28],旋转度数的范围为[-6°,6°],错切度数的范围[-8°,8°]。
在一个可选的实施例中,步骤101后,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。
针对采用扩增技术之后的图像,预处理过程如图2所示,我们分别先后采取拉普拉斯滤波和直方图均衡化进行图像的预处理。
(1)拉普拉斯滤波
拉普拉斯是一种二阶导数算子,是一个与方向无关的各向同性(旋转轴对称)边缘检测算子。若只关心边缘点的位置而不顾其周围的实际灰度差时,一般选择该算子进行检测。当然,还可以采用其他算子进行降噪。
(2)直方图均衡化
直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。直方图均衡化就是把给定图像的直方图分布改变成“均匀”分布的直方图分布。当然,还可以采用其他方法增强图像对比度。
步骤102,根据所述第一场景图像构建卷积神经网络模型。
本发明构建的卷积神经网络模型和参数设置及其具体结构描述如下:
(1)共有7层,其中前4层卷积层,后边3层全连接层,最后的一个全连接层的输出是具有15个输出的softmax层,最后的优化目标是最大化平均的multinomial logisticregression。
(2)在第一层conv1和conv2之后直接跟的是Response-nomalization layer,也就是norm1,norm2层。
(3)对于卷积核大小为5×5的卷积层,使用leakyReLU激活函数:f(x)=max(x,0.3x);对卷积核大小为3×3的卷积层使用能模拟任意函数的maxout激活函数。
(4)Max pooling操作是紧跟在第一个norm1,norm2。
(5)Dropout操作是在最后两个full-connected层。
具体层数见如下表格1所示:
表1结构及其参数
步骤103,将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征。
卷积神经网络模型构建和卷积特征提取流程图如图3所示,设置模型之后,获取卷积特征的过程是将第一场景图像处理后作为标准化输入数据作为卷积神经网络卷积层的输入,通过n个可训练的滤波器和可加偏置对标准化输入数据进行卷积,获得n个不同的特征映射图,n为正整数;每个特征映射图中的每一个神经元与标准化输入数据的一个局部感受野相连,用于提取相应的局部特征,每个特征映射图中的所有神经元获得的相应的局部特征综合后获得一个全局信息,将该全局信息作为一个特征映射图中的数据特征;将每个特征映射图中每组m×m个像素进行求和,加权值,加偏置,通过Sigmoid函数得到n个子采样层;m为正整数;将卷积神经网络的每一个卷积层与每一个特征映射图中每个对应的子采样层叠加,获得叠加层,再通过一个全连接层与每一个特征映射图中所有叠加层相连,计算获得全连接层的一个单元中n个子采样层与卷积神经网络权重向量之间的点积,将点积加上一个偏置后,再传递给Sigmoid函数,获得一个单元的标准化输入数据状态响应,全连接层的所有单元个数为最终获得的标准化输入数据状态响应个数,将所有标准化输入数据状态响应作为标准化输入数据的提取特征,实现对图像数据的特征提取。
步骤104,根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典。
需要说明的是,步骤104中的图像卷积特征为第一场景图像的图像卷积特征和/或待分类图像的图像卷积特征。也就是说,根据得到的第一场景图像的图像卷积特征和/或待分类图像的图像卷积特征用空间视觉词袋模型生成特征编码词典。
如图4,本发明实验采取的空间词袋模型分类过程如下:
第一步,特征提取和特征描述:根据空间图像的特点,将刚才训练得到的卷积层每一空间位置(1×1)的卷积向量(长度等于特征图的数量)看成对图像提取的局部特征,则卷积层可表示为卷积向量的集合。
第二步,对获得的特征进行聚类生成“视觉单词词典”:
把第一步获得的特征视为“视觉单词”,采用K-means均值聚类算法对其进行聚类,从而获得“视觉单词”数量为K的“视觉单词词典”,K经测量设置为396,在聚类算法中迭代收敛的阈值设置为0.0089;定义这个可学习的词典称之为卷积词典D=[d1,d2,…,dK]。其编码方式是软分配编码,其公式如下:
其中,编码系数cik表示卷积向量Fi与卷积单词dk的隶属程度。在模型训练时,软分配编码系数cik大多趋于零或者饱和状态,导致模型出现梯度消失问题,使得模型无法训练。因此设置cik=[<Fi,dk>]+。其中,[]+表示取正值部分,负值部分归为零。
第三步,计算待分配“视觉单词”的权重:
计算上述第二步得到的“视觉单词词典”中的“视觉单词”和待分配的“视觉单词”之间的欧氏距离,取距离最近的前N个“视觉单词词典”中的“视觉单词”,N≤M,按照公式计算这N个“视觉单词”中每个单词所占的权重。
步骤105,根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息。
具体地,上述步骤105包括将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。其中,特征点指局部特征,码书为特征编码词典。
下面具体阐述结合空间金字塔理论获得每幅图像的最终直方图表示:
利用空间金字塔模型对整幅图像进行不同层次的分层处理,统计每层中图像直方图表示信息,然后针对不同层的直方图表示信息分配不同的权值得到该层的最终直方图表示,最后把不同层的直方图表示按照层数顺序连接成该幅图像最终的表示信息,将其作为该幅图像的直方图表示。这里的图像包括第一场景图像和待分类图像。
步骤106,根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
具体的,步骤106包括分类决策:我们设想如果是相同的两张图像,其得到的多种词袋直方图应该是完全相同,没有差异的;如果是同一种类型的场景,其特征差异也应当在一定的小范围内,且图像间表达的内容越接近,其特征差异就越小。根据这一准则,本专利首先对用户给定的样本场景图像构建其词袋模型,并和待分类图像数据库中的词袋直方图逐一进行相似性匹配,再结合特定的分类器,根据图像间特征差异的大小对待分类图像库进行排序,将落在预设的阈值范围内的图像队列作为和用户给定的样本景图像类似的场景分类结果;
具体的,步骤106包括:
提取待分类图像的SIFT特征;
根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
预设的分类器可以是SVM分类器。
其中,SIFT的全称是Scale Invariant Feature Transform,尺度不变特征变换,由加拿大教授David G.Lowe提出的。
SIFT特征图像局部特征描述子之一,是在尺度空间寻找极值点,提取位置尺度,旋转不变量。它对旋转、尺度缩放、亮度变化等保持不变性,是一种非常稳定的局部特征。
SIFT算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等。
提取图像的SIFT特征的主要步骤:
(1)尺度空间的生成;这是一个初始化操作,尺度空间理论目的是模拟图像数据的多尺度特征。
(2)检测尺度空间极值点;为了寻找尺度空间的极值点,每一个采样点要和它所有的相邻点比较,看其是否比它的图像域和尺度域的相邻点大或者小。
(3)精确定位极值点;这一步本质上要去掉DoG局部曲率非常不对称的像素,即除去不好的特征点。
(4)为每个关键点指定方向参数;上一步中确定了每幅图中的特征点,为每个特征点计算一个方向,依照这个方向做进一步的计算,利用关键点邻域像素的梯度方向分布特性为每个关键点指定方向参数,使算子具备旋转不变性。
(5)关键点描述子的生成。
(6)生成SIFT特征。最后,利用位置上的尺度和旋转不变性,能够生成一个表示,它能帮助唯一地识别特征。通过这个表示,我们可以很容易识别寻找的特征。
本发明使用的特定的分类器是设计一种并联方式的词袋模型场景分类方法。并联分类体系结构示意图如图5,从空间图像的特点出发,引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类。
传统的词袋模型分类大多属于“一次分类”,即从特征差异直接得出分类结果,不经过其他中间环节。在词袋模型的基础上,我们尝试借鉴物理学中并联电路的思想,将其延伸到场景分类中来提高空间场景分类的精度。我们将这待分类图像的SIFT特征和图像卷积特征这两种类型的图像特征看作并列的特征加入分类体系中,SIFT特征是从图像的原始像素出发得到的,以及图像卷积特征是通过卷积网络模型层数的增加,得到的不断抽象,最终通过实验加权融合进行分类得到的,采用两种特征并联的方案达到能够更准确的表达图像的低层次和深层次特征的效果。
实施例2
如图6所示,本发明还提供了一种基于卷积特征和空间视觉词袋模型的场景识别装置,包括:
扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;
卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;
卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;
词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;
直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;
分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
进一步地,装置还包括:
第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。
进一步地,所述分类模块包括:
SIFT特征提取单元,用于提取待分类图像的SIFT特征;
分类单元,用于根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
还包括:
第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。
综上所述,本发明通过对原始数据库中的数据进行扩增技术,产生大量的与原数据相似、标签不变的训练数据;对这些训练数据进行预处理,得到去除噪声的场景图像;将图像输入到构建的卷积神经网络模型并训练调节参数设置,训练得到数据库图像的卷积特征;将得到的图像卷积特征用空间视觉词袋模型进行特征编码词典生成;引入并联的思想融合多种特征,发挥其优势并结合SVM分类器实现场景分类。本发明利用深度学习的思想,结合了空间视觉词袋模型,更进一步提高了场景图像分类的效果。
Claims (10)
1.一种基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于,包括:
对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;
根据所述第一场景图像构建卷积神经网络模型;
将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;
根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;
根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;
根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
2.根据权利要求1所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:根据所述第一场景图像构建卷积神经网络模型之前,还包括:对第一场景图像预处理;所述预处理包括降噪和增强对比度。
3.根据权利要求2所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述对第一场景图像预处理,包括对第一场景图像采用拉普拉斯滤波算法来降低光照影响,降低光照情况下拍摄图像噪声,以及对第一场景图像采用直方图均衡化增加灰度值的动态范围,增强图像整体对比度。
4.根据权利要求1所述的基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述对原始数据库中的数据进行扩增,生成第一场景图像包括:
对原始数据库中的数据使用仿射变换、水平翻转和弹性裁切的随机组合来进行扩增,生成多个与原数据相似、标签不变的训练数据作为第一场景图像。
5.根据权利要求1所述基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:所述根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息,包括:
将得到的图像卷积特征图像当做提取的局部特征并利用空间视觉词袋模型,计算所述特征点与码书中视觉单词之间的距离集合,采取软分配编码进行特征编码,形成第一场景图像和待分类图像的直方图矢量。
6.根据权利要求1所述基于卷积特征和空间视觉词袋模型的场景识别方法,其特征在于:根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类,包括:
提取待分类图像的SIFT特征;
根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
7.一种基于卷积特征和空间视觉词袋模型的场景识别装置,其特征在于,包括:
扩增模块,用于对原始数据库中的数据进行扩增,生成第一场景图像,所述第一场景图像包括多个与原数据相似、标签不变的训练数据;
卷积神经网络模型构建模块,用于根据所述第一场景图像构建卷积神经网络模型;
卷积特征获取模块,用于将所述第一场景图像和待分类图像分别输入到构建好的卷积神经网络模型,分别得到第一场景图像的图像卷积特征和待分类图像的图像卷积特征;
词典生成模块,用于根据得到的图像卷积特征用空间视觉词袋模型生成特征编码词典;
直方图信息获取模块,用于根据所述特征编码词典分别获取所述第一场景图像的最终直方图信息和待分类图像的最终直方图信息;
分类模块,用于根据预设的分类器、第一场景图像的最终直方图信息和待分类图像的最终直方图信息对待分类图像分类。
8.根据权利要求7所述的基于卷积特征和空间视觉词袋模型的场景识别装置,其特征在于,还包括:
第一预处理模块,用于对第一场景图像预处理;所述预处理包括降噪和增强对比度。
9.根据权利要求7所述的基于卷积特征和空间视觉词袋模型的场景识别装置,其特征在于,所述分类模块包括:
SIFT特征提取单元,用于提取待分类图像的SIFT特征;
分类单元,用于根据待分类图像的SIFT特征和图像卷积特征采用预设的分类器对待分类图像进行分类。
10.根据权利要求7所述的基于卷积特征和空间视觉词袋模型的场景识别装置,其特征在于,还包括:
第二预处理模块,用于对待分类图像预处理;所述预处理包括降噪和增强对比度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710126371.8A CN106919920B (zh) | 2017-03-06 | 2017-03-06 | 基于卷积特征和空间视觉词袋模型的场景识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710126371.8A CN106919920B (zh) | 2017-03-06 | 2017-03-06 | 基于卷积特征和空间视觉词袋模型的场景识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106919920A true CN106919920A (zh) | 2017-07-04 |
CN106919920B CN106919920B (zh) | 2020-09-22 |
Family
ID=59460354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710126371.8A Active CN106919920B (zh) | 2017-03-06 | 2017-03-06 | 基于卷积特征和空间视觉词袋模型的场景识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106919920B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944386A (zh) * | 2017-11-22 | 2018-04-20 | 天津大学 | 基于卷积神经网络的视觉场景识别方法 |
CN107992894A (zh) * | 2017-12-12 | 2018-05-04 | 北京小米移动软件有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN108235117A (zh) * | 2018-01-29 | 2018-06-29 | 北京奇虎科技有限公司 | 一种视频调色方法和装置 |
CN108280190A (zh) * | 2018-01-24 | 2018-07-13 | 深圳前海大数金融服务有限公司 | 图像分类方法、服务器及存储介质 |
CN108596338A (zh) * | 2018-05-09 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种神经网络训练集的获取方法及其系统 |
CN108596195A (zh) * | 2018-05-09 | 2018-09-28 | 福建亿榕信息技术有限公司 | 一种基于稀疏编码特征提取的场景识别方法 |
CN108830294A (zh) * | 2018-05-09 | 2018-11-16 | 四川斐讯信息技术有限公司 | 一种图像数据的增广方法 |
CN109165682A (zh) * | 2018-08-10 | 2019-01-08 | 中国地质大学(武汉) | 一种融合深度特征和显著性特征的遥感图像场景分类方法 |
CN109410129A (zh) * | 2018-09-28 | 2019-03-01 | 大连理工大学 | 一种低光照图像场景理解的方法 |
WO2019100348A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 图像检索方法和装置以及图像库的生成方法和装置 |
CN110211164A (zh) * | 2019-06-05 | 2019-09-06 | 中德(珠海)人工智能研究院有限公司 | 基于神经网络学习基础图形的特征点算子的图片处理方法 |
CN110852327A (zh) * | 2019-11-07 | 2020-02-28 | 首都师范大学 | 图像处理方法、装置、电子设备及存储介质 |
CN111160373A (zh) * | 2019-12-30 | 2020-05-15 | 重庆邮电大学 | 一种变速鼓零件缺陷图像特征提取以及检测分类方法 |
CN111242235A (zh) * | 2020-01-19 | 2020-06-05 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种相似特征测试数据集生成方法 |
CN111275066A (zh) * | 2018-12-05 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 一种图像特征的融合方法、装置以及电子设备 |
CN112182275A (zh) * | 2020-09-29 | 2021-01-05 | 神州数码信息系统有限公司 | 一种基于多维度特征融合的商标近似检索系统和方法 |
CN112534500A (zh) * | 2018-07-26 | 2021-03-19 | Med-El电气医疗器械有限公司 | 用于听力植入物的神经网络音频场景分类器 |
CN112784722A (zh) * | 2021-01-13 | 2021-05-11 | 南京邮电大学 | 基于YOLOv3和词袋模型的行为识别方法 |
CN113128601A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
CN113567953A (zh) * | 2021-07-28 | 2021-10-29 | 哈尔滨工业大学 | 一种基于sift视觉词袋的全波形激光回波信号的分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303195A (zh) * | 2015-10-20 | 2016-02-03 | 河北工业大学 | 一种词袋图像分类方法 |
CN106156793A (zh) * | 2016-06-27 | 2016-11-23 | 西北工业大学 | 结合深层特征提取和浅层特征提取的医学图像分类方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
-
2017
- 2017-03-06 CN CN201710126371.8A patent/CN106919920B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105303195A (zh) * | 2015-10-20 | 2016-02-03 | 河北工业大学 | 一种词袋图像分类方法 |
CN106156793A (zh) * | 2016-06-27 | 2016-11-23 | 西北工业大学 | 结合深层特征提取和浅层特征提取的医学图像分类方法 |
CN106446930A (zh) * | 2016-06-28 | 2017-02-22 | 沈阳工业大学 | 基于深层卷积神经网络的机器人工作场景识别方法 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
EMMANUEL OKAFOR等: "Comparative Study Between Deep Learning and Bag of Visual Words for Wild-Animal Recognition", 《 2016 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI)》 * |
薛昆南: "基于卷积词袋网络的视觉识别", 《计算机工程与应用》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107944386B (zh) * | 2017-11-22 | 2019-11-22 | 天津大学 | 基于卷积神经网络的视觉场景识别方法 |
CN107944386A (zh) * | 2017-11-22 | 2018-04-20 | 天津大学 | 基于卷积神经网络的视觉场景识别方法 |
WO2019100348A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 图像检索方法和装置以及图像库的生成方法和装置 |
CN107992894A (zh) * | 2017-12-12 | 2018-05-04 | 北京小米移动软件有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN107992894B (zh) * | 2017-12-12 | 2022-02-08 | 北京小米移动软件有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN108280190A (zh) * | 2018-01-24 | 2018-07-13 | 深圳前海大数金融服务有限公司 | 图像分类方法、服务器及存储介质 |
CN108235117A (zh) * | 2018-01-29 | 2018-06-29 | 北京奇虎科技有限公司 | 一种视频调色方法和装置 |
CN108596338A (zh) * | 2018-05-09 | 2018-09-28 | 四川斐讯信息技术有限公司 | 一种神经网络训练集的获取方法及其系统 |
CN108596195A (zh) * | 2018-05-09 | 2018-09-28 | 福建亿榕信息技术有限公司 | 一种基于稀疏编码特征提取的场景识别方法 |
CN108830294A (zh) * | 2018-05-09 | 2018-11-16 | 四川斐讯信息技术有限公司 | 一种图像数据的增广方法 |
CN112534500A (zh) * | 2018-07-26 | 2021-03-19 | Med-El电气医疗器械有限公司 | 用于听力植入物的神经网络音频场景分类器 |
CN109165682A (zh) * | 2018-08-10 | 2019-01-08 | 中国地质大学(武汉) | 一种融合深度特征和显著性特征的遥感图像场景分类方法 |
CN109165682B (zh) * | 2018-08-10 | 2020-06-16 | 中国地质大学(武汉) | 一种融合深度特征和显著性特征的遥感图像场景分类方法 |
CN109410129A (zh) * | 2018-09-28 | 2019-03-01 | 大连理工大学 | 一种低光照图像场景理解的方法 |
CN111275066A (zh) * | 2018-12-05 | 2020-06-12 | 北京嘀嘀无限科技发展有限公司 | 一种图像特征的融合方法、装置以及电子设备 |
CN110211164A (zh) * | 2019-06-05 | 2019-09-06 | 中德(珠海)人工智能研究院有限公司 | 基于神经网络学习基础图形的特征点算子的图片处理方法 |
CN110852327A (zh) * | 2019-11-07 | 2020-02-28 | 首都师范大学 | 图像处理方法、装置、电子设备及存储介质 |
CN111160373A (zh) * | 2019-12-30 | 2020-05-15 | 重庆邮电大学 | 一种变速鼓零件缺陷图像特征提取以及检测分类方法 |
CN111242235A (zh) * | 2020-01-19 | 2020-06-05 | 中国科学院计算技术研究所厦门数据智能研究院 | 一种相似特征测试数据集生成方法 |
CN111242235B (zh) * | 2020-01-19 | 2023-04-07 | 中科(厦门)数据智能研究院 | 一种相似特征测试数据集生成方法 |
CN112182275A (zh) * | 2020-09-29 | 2021-01-05 | 神州数码信息系统有限公司 | 一种基于多维度特征融合的商标近似检索系统和方法 |
CN112784722B (zh) * | 2021-01-13 | 2022-08-09 | 南京邮电大学 | 基于YOLOv3和词袋模型的行为识别方法 |
CN112784722A (zh) * | 2021-01-13 | 2021-05-11 | 南京邮电大学 | 基于YOLOv3和词袋模型的行为识别方法 |
CN113128601A (zh) * | 2021-04-22 | 2021-07-16 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
CN113128601B (zh) * | 2021-04-22 | 2022-04-29 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对图像进行分类的方法 |
CN113567953A (zh) * | 2021-07-28 | 2021-10-29 | 哈尔滨工业大学 | 一种基于sift视觉词袋的全波形激光回波信号的分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106919920B (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919920A (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
CN108108657B (zh) | 基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN107609601B (zh) | 一种基于多层卷积神经网络的舰船目标识别方法 | |
CN107316307B (zh) | 一种基于深度卷积神经网络的中医舌图像自动分割方法 | |
CN103605972B (zh) | 一种基于分块深度神经网络的非限制环境人脸验证方法 | |
CN109993100B (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN107122776A (zh) | 一种基于卷积神经网络的交通标志检测与识别方法 | |
CN106815604A (zh) | 基于多层信息融合的注视点检测方法 | |
CN106126581A (zh) | 基于深度学习的手绘草图图像检索方法 | |
CN107016405A (zh) | 一种基于分级预测卷积神经网络的害虫图像分类方法 | |
CN106845510A (zh) | 基于深度层级特征融合的中国传统视觉文化符号识别方法 | |
CN108171136A (zh) | 一种多任务卡口车辆以图搜图的系统及方法 | |
CN104992142A (zh) | 一种基于深度学习和属性学习相结合的行人识别方法 | |
CN110097000A (zh) | 基于局部特征聚合描述符和时序关系网络的视频行为识别方法 | |
Jing et al. | Yarn-dyed fabric defect classification based on convolutional neural network | |
CN111126333A (zh) | 一种基于轻量卷积神经网络的垃圾分类方法 | |
CN104504395A (zh) | 基于神经网络实现人车分类的方法和系统 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN103186538A (zh) | 一种图像分类方法和装置、图像检索方法和装置 | |
CN107169117A (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN106874825A (zh) | 人脸检测的训练方法、检测方法和装置 | |
CN106845513A (zh) | 基于条件随机森林的人手检测器及方法 | |
CN109165698A (zh) | 一种面向智慧交通的图像分类识别方法及其存储介质 | |
CN105023025B (zh) | 一种开集痕迹图像分类方法及系统 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |