CN106547880A

CN106547880A - 一种融合地理区域知识的多维度地理场景识别方法

Info

Publication number: CN106547880A
Application number: CN201610951093.5A
Authority: CN
Inventors: 丰江帆; 刘媛媛; 徐欣; 夏英
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2017-03-29
Anticipated expiration: 2036-10-26
Also published as: CN106547880B

Abstract

本发明请求保护一种融合地理区域知识的多维度地理场景识别方法。包括步骤：对数据库中的图像进行预处理，得到符合的地理场景图像；利用一种快速查找图像中物体区域的方法，得到物体区域图像块；将得到的地理图像物体区域图像块用深度卷积神经网络进行预训练，精调过程至场景图像深度卷积神经网络性能不再提升，把特征矩阵融合为输出特征向量；将所得采集地理场景分类中的实体名词数据预先建立地理实体名词关键词词典，对所述目标识别结果数据进行分词，获得所述目标识别结果中的关键性词语，建立文本特征；将文本特征和多个尺度的图像特征融合为特征向量作为输入，实现跨媒体数据的识别分类，进而实现融合地理实体信息的场景分类。

Description

一种融合地理区域知识的多维度地理场景识别方法

技术领域

本发明涉及图像处理技术领域，具体涉及多维度的地理场景识别技术。

背景技术

场景分类，即依据场景图像中所包含的特征来完成对图像场景类别(如山脉、森林、卧室、客厅等)的自动识别，是图像理解领域的一个重要分支，已成为多媒体信息管理、计算机视觉等领域的热点问题，受到研宄者的广泛关注。场景分类对多媒体信息检索等领域的发展具有重要意义，在多个领域具有广泛的应用前景和理论意义。

随着大数据时代的到来，含更多隐含层的深度卷积神经网络具有更复杂的网络结构，与传统机器学习方法相比具有更强大的特征学习和特征表达能力。使用深度学习算法训练的卷积神经网络模型自提出以来在计算机视觉领域的多个大规模识别任务上取得了令人瞩目的成绩。

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

CNN在提取图像深层次特征时，构建了多层的网络结构，这就需要大量的带标签数据样本来训练网络参数，而实际的场景图像中人工标记的代价大，造成场景分类中往往数据样量小，采用传统的CNN方法分类精度不高。针对上述问题，本专利提出一种融合地理区域知识的多维度地理场景识别方法，以获得多尺度的图像特征，提高小样本数据下的分类精度。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种准确率，效率上都有了很大的提高的融合地理区域知识的多维度地理场景识别方法。本发明的技术方案如下：

一种融合地理区域知识的多维度地理场景识别方法，其包括以下步骤：

101、对数据库中的预先获取的地理场景原始图片图像进行预处理，得到预设大小的地理场景灰度化图像；

102、利用一种快速查找图像中物体区域的方法，得到步骤101的地理场景灰度化图像的若干物体区域图像块，将得到的地理图像物体区域图像作为基于区域的卷积神经网络的输入；

103、通过深度学习的方法提取包含有物体的地理图像区域的目标区域的特征组成特征矩阵，把特征矩阵融合为卷积神经网络的输出特征向量；

104、将所得采集地理场景分类中的实体名词数据预先建立地理实体名词关键词词典，对所述步骤103的输出量目标识别结果数据进行分词，获得所述目标识别结果中的关键性词语，建立文本特征；

105、将文本特征和多个尺度的目标区域图像特征融合为特征向量作为输入，采用跨媒体数据的识别分类方法，进而实现融合地理实体信息的场景分类。

进一步的，步骤101对数据库中的图像进行预处理包括的步骤为：利用梯度锐化图片的步骤；去除离散噪声的步骤；采用双线性插值算法对图像进行缩放的步骤。

进一步的，所述去除离散噪声的步骤为：利用递归方法查找当前像素的八个方向是否存在黑色像素，测试预设值N，N表示预设黑色像素阈值，并设置连续长度为N，如果用递归方法得到连续像素值大于N，则认为不是噪声，相反的则认为是噪声，则置为白色像素。

进一步的，采用双线性插值算法对图像进行缩放，核心思想是在两个相反方向分别进行一次线性插值，以保证满足输入要求，得到预设大小的地理场景图像。

进一步的，步骤103通过深度学习的方法提取包含有物体的地理图像区域的目标特征组成特征矩阵，把特征矩阵融合为卷积神经网络的输出特征向量的步骤包括：

在图形处理器上搭建基于包含多种卷积神经网络模型的Tensorflow深度学习框架的平台；

准备训练数据集和带有标签的测试数据集，并利用上述数据集在图形处理器上训练上述卷积神经网络模型；

列出地理场景中包含的物体类别；

将上述物体类别中的原始图像和旋转180度后的图像输入上述已训练好的卷积神经网络模型，得到top-10测试结果，输出目标识别的实体名词。

进一步的，所述步骤102利用一种快速查找图像中物体区域的方法，得到步骤101的地理场景灰度化图像的若干物体区域图像块具体包括：

首先利用视觉注意机制提取图像的显著性区域，并对其进行二值化与最大连通显著区域提取操作；再对该区域进行适当边缘补偿操作，将补偿后的二值化显著图作为分割初始区域；最后利用GrabCut算法完成图像的区域自动快速划分。

进一步的，步骤104文本特征和多个尺度的图像特征融合为特征向量作为输

入，采用跨媒体数据的识别分类方法包括步骤：

A1、对分类样本的各种类型特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据；

A2、对步骤A1中输入的数值型数据以及相应的标签信息，建立数学模型并

输出；

A3、更新数学模型中的分类器系数、一致性特征空间的映射向量和特征表示；

A4、利用分类器系数，得到尚未分类的测试数据的分类标签。

进一步的，步骤A2对输入的数值型数据以及相应的标签信息，建立数学模型并输出包括步骤：

B1、将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入，将有标签数据和无标签数据联合建立成一个数据矩阵；

B2、将输入的联合数据矩阵映射成一致性特征表示，并将标签信息矩阵加入到模型中联合优化，最后得到一个跨媒体数据的半监督内容识别模型；

B3、对空间变换映射矩阵施加二值化的正则项约束；

B4、对分类系数变量施加L2范数约束；B5、将步骤B2得到的分类模型和步骤B3、B4中得到的各个正则项整合起来，得到统一的数学模型。

本发明的优点及有益效果如下：

本发明提出了根据不同模态特征之间数据的内在联系，利用有便签的地理实体数据又考虑图像本身的信息，挖掘出其间共存的信息，通过二值化约束来加速计算，并通过多分的回归模型，调整基于共存信息的回归系数，使模型更准确的预测出分类标签。相比于现有的快速学习分类技术，本发明提出的分类方法在准确率，效率上都有了很大的提高。

附图说明

图1是本发明提供优选实施例基于深度学习实现地理场景分类的方法的流程图；

图2为图像预处理的步骤；

图3为图像快速划分算法流程图；

图4为跨媒体数据的半监督内容识别的分类方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明的技术方案如下：

下面结合附图和具体实施例对本发明提供的基于卷积神经网络模型的物品图像分类方法进行详细说明。

对数据库中的图像进行预处理，得到预设大小的地理场景灰度化图像，参考图2，具体步骤如下：

(1)利用梯度锐化，使得图像更加突出，以便分析。当前点像素值与其下一个像素值之差的绝对值，加上当前点像素值与其下一行当前像素值之差的绝对值，如果结果大于阈值，则当前像素值置为此结果。

(2)去除离散噪声：利用递归方法查找当前像素的八个方向是否存在黑色像素，测试合适的值N，并设置连续长度为N，如果用递归方法得到连续像素值大于N，则认为不是噪声，相反的则认为是噪声，则置为白色像素。

(3)采用双线性插值算法对图像进行缩放，核心思想是在两个方向分别进行一次线性插值，以保证满足输入要求，得到预设大小的地理场景图像。

(4)灰度化图像：根据YUV的颜色空间中，Y的分量的物理意义是点的亮度，由该值反映亮度等级，根据RGB和YUV颜色空间的变化关系可建立亮度Y与R、G、B三个颜色分量的对应：Y＝0.3R+0.59G+0.11B，以这个亮度值表达图像的灰度值。

本发明提供的基于深层卷积神经网络的图像提取特征方法包括按顺序进行的下列步骤：

(1)在图形处理器上搭建基于包含多种卷积神经网络模型的Tensorflow深度学习框架的平台；

Tensorflow是目前流行的高效深度学习框架之一，具有纯粹的C++/CUDA架构，支持命令行、Python和MATLAB接口，可以在CPU和图形处理器上直接无缝切换。

Tensorflow的优势是：1、上手快。其包含的模型与相应优化都是以文本形式而非源码形式给出，并且给出了模型的定义、最优化设置以及预训练的权重，因此方便立即上手。2、速度快。能够运行最深层的模型和海量的数据。3、模块化。方便扩展到新的任务和设置上，可以使用Tensorflow提供的各层类型来定义自己的模型。4、开放性。公开代码和参考模型，方便用户复现和再开发。

(2)准备训练数据集和带有标签的测试数据集，并利用上述数据集在图形处理器上训练上述卷积神经网络模型；

本发明采用的是ImageNet数据集。ImageNet数据集中有超过1.5亿张具有标签的高分辨率图像，这些图像划分为22000类，均来自互联网，由一些志愿者进行标注。从2010年开始，每年都举办全球范围的基于ImageNet数据集的大规模视觉识别竞赛(ImageNetLarge-Scale Visual Recognition Challenge，ILSVRC)。ILSVRC采用ImageNet的一个子数据集，具有1000个类别，每个类别中大概有1000幅左右的图像。总体上，有大概0.12亿张训练图像，50000张确认图像(带标注，每个类别50张图像)，150000张测试图像(不带标注，每个类别150张图像)。ImageNet数据集由可变分辨率图像组成，但是系统需要一个不变的输入维度。因此，本发明降采样图像到固定的256*256分辨率。在这里本发明从ImageNet数据集中选择0.12亿张训练图像作为训练数据集，测试数据集采用带有标签的确认数据集。

本发明使用流行的卷积神经网络模型GoogleNet。VGG和GoogleNet是ILSVRC 2014竞赛的双雄，这两类模型结构的共同特点是网络层数更多，网络更深。而GoogoleNet的框架与CaffeNet不同，共有22层，其最大的特点就是提升了计算资源的利用率，在网络需要的计算量不变的前提下，可提升网络的宽度和深度,并且GoogLeNet使用的参数比VGG少12倍，而正确率更高。

(3)列出地理场景中包含的物体类别；

在地理场景中，由于许多物体会频繁出现，不同场景中物体出现的频率与位置不同，结合地理实体名词字典，列出地理场景中包含的物体类别，并在ImageNet子数据集的各类物品中筛选出对应数据集。

(4)将上述物品类别中的原始图像和旋转180度后的图像输入上述已训练好的卷积神经网络模型，得到top-10测试结果，实现含有物品图像的分类；

将上述物品类别中的原始图像作为训练图像输入到上述已训练好的卷积神经网络模型，得到top-10测试结果。本发明采用常用的top-10分类准确率标准，即输出概率最大的10个类别，如果输出的图像标注的类别在这10个类别中，表明该图像分类正确。

参考图4所示的本发明实施例的大规模跨媒体特征数据融合的分类方法的流程图，其包括以下步骤：

(1)对分类样本的各种类型特征进行抽取，将跨媒体数据转化成可用于分类的数值型数据；

(2)对步骤(1)中输入的数值型数据以及相应的标签信息，建立数学模型。具体包括步骤以下五步：

1)将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。

2)将输入的联合数据矩阵映射成一致性特征表示，并将标签信息矩阵加入到模型中联合优化，最后得到一个跨媒体数据的半监督内容识别模型。

3)对空间变换映射矩阵施加二值化的正则项约束，以降低不同空间映射的计算复杂度。

4)对分类系数变量施加L2范数约束，以提高系统的鲁棒性

5)将步骤2)得到的分类模型和步骤3)，4)中得到的各个正则项整合起来，得到统一的数学模型。

(3)在保持其他变量不变的前提下，更新各类型特征空间的映射向量。

根据分类器系数，得到尚未分类的测试数据的分类标签。在得到了一致性特征空间下的表示之后，进一步的计算新样本的分类标签。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种融合地理区域知识的多维度地理场景识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，步骤101对数据库中的图像进行预处理包括的步骤为：利用梯度锐化图片的步骤；去除离散噪声的步骤；采用双线性插值算法对图像进行缩放的步骤。

3.根据权利要求2所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，所述去除离散噪声的步骤为：利用递归方法查找当前像素的八个方向是否存在黑色像素，测试预设值N，N表示预设黑色像素阈值，并设置连续长度为N，如果用递归方法得到连续像素值大于N，则认为不是噪声，相反的则认为是噪声，则置为白色像素。

4.根据权利要求2或3所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，采用双线性插值算法对图像进行缩放，核心思想是在两个相反方向分别进行一次线性插值，以保证满足输入要求，得到预设大小的地理场景图像。

5.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，步骤103通过深度学习的方法提取包含有物体的地理图像区域的目标特征组成特征矩阵，把特征矩阵融合为卷积神经网络的输出特征向量的步骤包括：

列出地理场景中包含的物体类别；

6.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，所述步骤102利用一种快速查找图像中物体区域的方法，得到步骤101的地理场景灰度化图像的若干物体区域图像块具体包括：

7.根据权利要求1所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，步骤104文本特征和多个尺度的图像特征融合为特征向量作为输入，采用跨媒体数据的识别分类方法包括步骤：

A2、对步骤A1中输入的数值型数据以及相应的标签信息，建立数学模型并输出；

8.根据权利要求7所述的融合地理区域知识的多维度地理场景识别方法，其特征在于，步骤A2对输入的数值型数据以及相应的标签信息，建立数学模型并输出包括步骤：

B3、对空间变换映射矩阵施加二值化的正则项约束；