CN108491856B

CN108491856B - 一种基于多尺度特征卷积神经网络的图像场景分类方法

Info

Publication number: CN108491856B
Application number: CN201810129756.4A
Authority: CN
Inventors: 赖睿; 徐昆然; 官俊涛; 王松松; 莫一过; 李永薛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2022-02-18
Anticipated expiration: 2038-02-08
Also published as: CN108491856A

Abstract

本发明公开了一种基于多尺度特征卷积神经网络的图像场景分类方法，包括：S1、构建原始多尺度特征卷积神经网络；S2、训练所述原始多尺度特征卷积神经网络，得到训练的多尺度特征卷积神经网络；S3、获取M个图像数据；S4、将所述M个图像数据输入到所述训练的多尺度特征卷积神经网络，得到M个分类向量；S5、根据所述M个分类向量计算对应的特征向量的期望；S6、根据所述特征向量的期望，得到特征向量期望的概率最大值，将所述概率最大值对应的分类向量作为图像场景预处理的分类结果，其中M为正整数。本发明提出的基于多尺度特征卷积神经网络的场景分类方法更好，具有更高的特征提取能力，具有更高的场景分类正确率。

Description

一种基于多尺度特征卷积神经网络的图像场景分类方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多尺度特征卷积神经网络的图像场景分类方法。

背景技术

信息技术的发展使得图像数据迅速增多，如何使用计算机对这些图像进行分类管理成了人们研究的目标，图像场景分类技术就是一种对图像数据进行有效的组织和管理的手段。最终目标是将图像转化成计算机可以理解和处理的数据，最终实现自动分类和管理图像数据。因此图像场景分类对后续的支持基于图像语义的图像检索和图像浏览等功能提供了重要的基础。

现存的图像场景分类方法主要有两大类，一是通过计算条件分布概率进行分类的，如：神经网络算法，逻辑回归方法，支持向量机等；二是通过寻找数据的联合分布概率进行分类的，如：贝叶斯网络层级模型，高斯模型，隐马尔科夫模型等。

然而，现有的这些方法对图像中的细节以及颜色信息都不敏感，因此无法实现一个较为准确的分类结果。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于多尺度特征卷积神经网络的图像场景分类方法。本发明要解决的技术问题通过以下技术方案实现：

本发明实施例提供了一种基于多尺度特征卷积神经网络的图像场景分类方法，包括：

S1、构建原始多尺度特征卷积神经网络；

S2、训练所述原始多尺度特征卷积神经网络，得到训练的多尺度特征卷积神经网络；

S3、获取M个图像数据；

S4、将所述M个图像数据输入到所述训练的多尺度特征卷积神经网络，得到M个分类向量；

S5、根据所述M个分类向量计算对应的特征向量的期望；

S6、根据所述特征向量的期望，得到特征向量期望的概率最大值，将所述概率最大值对应的分类向量作为图像场景预处理的分类结果，其中M为正整数。

在一个具体实施例中，所述S1包括：

S11、构建标准卷积模块、特征融合模块；

S12、根据所述标准卷积模块构造特征压缩模块；

S13、根据所述标准卷积模块和所述特征融合模块构造基本特征提取模块；

S14、根据所述基本特征提取模块、所述特征压缩模块构建原始多尺度特征卷积神经网络。

在一个具体实施例中，所述S12包括：

将一个卷积核大小为1×1，卷积核数量为32的标准卷积模块与一个大小为W_pool×H_pool的平均池化层连接，构造特征压缩模块，其中W_pool表示平均池化层卷积核的宽度，H_pool表示平均池化层卷积核的高度。

在一个具体实施例中，所述S13包括：

通过一个卷积核大小为W×H、卷积核数量为O的标准卷积模块级连一个特征融合模块构造基本特征提取模块，其中W为卷积核的宽度，H为卷积核的高度，O为卷积核的数量。

在一个具体实施例中，所述S14包括：

S141、根据所述基本特征提取模块构建i个多尺度特征提取模块；

S142、构建所述原始多尺度特征卷积神经网络，所述原始多尺度特征卷积神经网络的连接顺序依次为：

卷积核大小W×H＝7×7，卷积核数量O＝32，步进值为2的标准卷积模块层、池化大小为W_pool×H_pool＝2×2的最大池化层、多尺度特征提取系统、池化大小为W_pool×H_pool＝2×2的平均池化层、全连接层、Softmax分类层；

其中，所述多尺度特征提取系统包括依次交替连接的多尺度特征提取模块和特征压缩模块，且所述多尺度特征提取系统中的多尺度特征提取模块为i个，i≥4。

在一个具体实施例中，根据所述基本特征提取模块构建i个多尺度特征提取模块为：

采用j个所述基本特征提取模块构建所述多尺度特征提取模块，所述基本特征提取模块卷积核的大小为W×H＝3×3，卷积核的数量O＝32，每个所述基本特征提取模块的连接方式如下公式所示：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x1,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤j。

在一个具体实施例中，i个多尺度特征提取模块中，所述基本特征提取模块的总个数为50-200。

在一个具体实施例中，第一个所述多尺度特征提取模块的基本特征提取模块数量小于或等于第一个所述多尺度特征提取模块的基本特征提取模块数量，且第i个所述多尺度特征提取模块的基本特征提取模块数量大于或等于第i-1个所述多尺度特征提取模块的基本特征提取模块数量。

在一个具体实施例中，所述S3包括：

S31、获取输入图像；

S32、根据所述输入图像获取M个预定大小的图像块；

S33、获取所述图像块对应的图像数据。

在一个具体实施例中，所述预定大小为512×512个像素点。

与现有技术相比，本发明的有益效果：

本发明的基于多尺度特征卷积神经网络的图像场景分类方法在卷积神经网络的基础上通过构建特定的特征模块并进行组合，与现有的分类方法相比具有更好的场景分类能力。

附图说明

图1为本发明实施例提供的一种基于多尺度特征卷积神经网络的图像场景分类方法流程图；

图2为本发明一个具体实施例的多尺度特征提取模块叠加结构图；

图3为本发明一个具体实施例的多尺度特征卷积神经网络的结构图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

实施例一

请参见图1，图1为本发明实施例提供的一种基于多尺度特征卷积神经网络的图像场景分类方法流程图，本实施例的分类方法应用于对图像的预处理，包括：

S1、构建原始多尺度特征卷积神经网络；

S3、获取M个图像数据；

S5、根据所述M个分类向量计算对应的特征向量的期望；

原始多尺度特征卷积神经网络为未经过训练的神经网络，因此需要对应进行训练，本发明在训练时使用AI Challenger数据集训练网络。

为了更好的说明本实施例的训练过程，举例进行说明。

首先，对于AI Challenger数据集中的每张场景照片随机截取10张512×512大小的图像区域，并对其进行对比度和亮度的调节，减少噪声对场景分类的影响。

其次，采用Nesterov技术的Mini-batch Stochastic Gradient Descent优化器训练基于多尺度特征的卷积神经网络，mini-batch的大小设置为64，权重衰减率设置为0.000005，动量设置为0.9；训练的前10个回合采用0.1的学习率，然后每隔30个回合降低10倍的学习率，最终使学习率降低至0.0000007或者网络已经收敛，停止训练，得到完成训练的基于多尺度特征的卷积神经网络。

在一个具体实施例中，所述S1包括：

S11、构建标准卷积模块、特征融合模块；

S12、根据所述标准卷积模块构造特征压缩模块；

在一个具体实施例中，所述S12包括：

在一个具体实施例中，所述S13包括：

在一个具体实施例中，请参见图2和图3，图2所示为本发明一个具体实施例的多尺度特征提取模块叠加结构图，图3为本发明一个具体实施例的多尺度特征的卷积神经网络的结构图，所述S14包括：

优选的，将多尺度特征提取模块的输出端两两连接，形成若干个特征旁路。由于构建的每个多尺度特征提取模块对应提取的特征不同，单独依次提取的话可能会丢失部分特征，通过输出端两两连接能够保证多尺度特征提取模块之间形成连接从而提高分类的精确度。

根据所述基本特征提取模块构建i个多尺度特征提取模块为：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x2,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤j。

优选的，i个多尺度特征提取模块中，所述基本特征提取模块的总个数为50-200。从而能够在保证精度较高的前提下，使得运算效率不至于下降。

优选的，第一个所述多尺度特征提取模块的基本特征提取模块数量小于或等于第一个所述多尺度特征提取模块的基本特征提取模块数量，且第i个所述多尺度特征提取模块的基本特征提取模块数量大于或等于第i-1个所述多尺度特征提取模块的基本特征提取模块数量。即保证多尺度特征提取模块中基本特征提取模块数量具有由少变多、由多变少的趋势，这样设计能够有效的降低运行负荷，提高运行效率，例如如果i＝5，那对应的多尺度特征提取模块的基本特征提取模块数量依次可以是6、12、24、12、6。

为了更好的说明上述实施过程，本发明以i＝4为例进行说明，4个多尺度特征提取模块对应的基本特征提取模块分别为j＝6、12、24、16。

具体如下：根据所述基本特征提取模块构建第一多尺度特征提取模块为：

采用6个所述基本特征提取模块构建所述第一多尺度特征提取模块，所述基本特征提取模块卷积核的大小为W×H＝3×3，卷积核的数量O＝32，每个所述基本特征提取模块的连接方式如下公式所示：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤6。

在一个具体实施例中，根据所述基本特征提取模块构建第二多尺度特征提取模块为：

采用12个所述基本特征提取模块构建所述第一多尺度特征提取模块，所述基本特征提取模块卷积核的大小为W×H＝3×3，卷积核的数量O＝32，每个所述基本特征提取模块的连接方式如下公式所示：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤12。

在一个具体实施例中，根据所述基本特征提取模块构建第三多尺度特征提取模块为：

采用24个所述基本特征提取模块构建所述第一多尺度特征提取模块，所述基本特征提取模块卷积核的大小为W×H＝3×3，卷积核的数量O＝32，每个所述基本特征提取模块的连接方式如下公式所示：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤24。

在一个具体实施例中，根据所述基本特征提取模块构建第四多尺度特征提取模块为：

采用16个所述基本特征提取模块构建所述第一多尺度特征提取模块，所述基本特征提取模块卷积核的大小为W×H＝3×3，卷积核的数量O＝32，每个所述基本特征提取模块的连接方式如下公式所示：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤16。

对于上述方案，其中原始多尺度特征卷积神经网络的连接顺序依次为：卷积核大小W×H＝7×7，卷积核数量O＝32，步进值为2的标准卷积模块层、池化大小为W_pool×H_pool＝2×2的最大池化层、第一多尺度特征提取模块、特征压缩模块、第二多尺度特征提取模块、特征压缩模块、第三多尺度特征提取模块、特征压缩模块、第四多尺度特征提取模块、池化大小为W_pool×H_pool＝2×2的平均池化层、全连接层、Softmax分类层；

其中，所述多尺度特征提取系统包括依次交替连接的多尺度特征提取模块和特征压缩模块，且所述多尺度特征提取系统中的多尺度特征提取模块为4个。

其中4个多尺度特征提取模块中，所述基本特征提取模块的总个数为6+12+24+16＝58。

优选的，将第一多尺度特征提取模块的输出与第三多尺度特征提取模块的输出连接，形成一条特征旁路，从而提高特征提取的精确度。

在一个具体实施例中，所述S3包括：

S31、获取输入图像；

S32、根据所述输入图像获取M个预定大小的图像块；

S33、获取所述图像块对应的图像数据。

本发明图像块的大小取值为512×512个像素点。获得截取的每张图片的分类向量Y_k，按如下步骤计算分类特征向量的期望

其中，M为随机截取的图像的数量，Y_k表示第k张图片的场景分类向量；选取分类特征向量的期望

中，计算特征向量期望的概率最大值，将所述概率最大值对应的分类向量作为图像场景预处理的分类结果。

分别采用现有的VggNet、DenseNet方法和本发明方法对AI Challenger数据集的测试集进行场景分类，实验结果见表1。

表1 场景分类正确率对比表

由表1可知，本发明提出的多尺度特征场景分类网络的场景分类正确率明显高于采用VggNet(Visual Geometry Group Networks)和DenseNet(Densely ConnectedConvolutional Networks)进行场景分类的正确率，说明经本发明方法具有更强的特征提取及场景鉴别能力。

综上，本发明提出的基于多尺度特征场卷积神经网络的场景分类方法更好，具有更高的特征提取能力，具有更高的场景分类正确率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，包括：

S1、构建原始多尺度特征卷积神经网络；

S3、获取M个图像数据；

S5、根据所述M个分类向量计算对应的特征向量的期望；

S6、根据所述特征向量的期望，得到特征向量期望的概率最大值，将所述概率最大值对应的分类向量作为图像场景预处理的分类结果，其中M为正整数；

所述S1包括：

S11、构建标准卷积模块、特征融合模块；

S12、根据所述标准卷积模块构造特征压缩模块；

S14、根据所述基本特征提取模块、所述特征压缩模块构建原始多尺度特征卷积神经网络；

所述S14包括：

其中，所述多尺度特征提取系统包括依次交替连接的多尺度特征提取模块和特征压缩模块，且所述多尺度特征提取系统中的多尺度特征提取模块为i个，i≥4；

所述根据所述基本特征提取模块构建i个多尺度特征提取模块为：

x_k＝F_k([x₁,x₂,…,x_k-1])，

其中x_k为第k个基本特征提取模块的输出，F_k为第k个基本特征提取模块的非线性变换函数，[x₁,x₂,…,x_k-1]由k-1个基本特征提取模块的输出按通道方向拼接而成，其中0＜k≤j。

2.根据权利要求1所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，所述S12包括：

3.根据权利要求1所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，所述S13包括：

4.根据权利要求1所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，i个多尺度特征提取模块中，所述基本特征提取模块的总个数为50-200。

5.根据权利要求1所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，第一个所述多尺度特征提取模块的基本特征提取模块数量小于或等于第一个所述多尺度特征提取模块的基本特征提取模块数量，且第i个所述多尺度特征提取模块的基本特征提取模块数量大于或等于第i-1个所述多尺度特征提取模块的基本特征提取模块数量。

6.根据权利要求1所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，所述S3包括：

S31、获取输入图像；

S32、根据所述输入图像获取M个预定大小的图像块；

S33、获取所述图像块对应的图像数据。

7.根据权利要求6所述的基于多尺度特征卷积神经网络的图像场景分类方法，其特征在于，所述预定大小为512×512个像素点。