CN108805152A

CN108805152A - 一种场景分类方法及装置

Info

Publication number: CN108805152A
Application number: CN201710313796.XA
Authority: CN
Inventors: 黄欢; 赵刚
Original assignee: Shanghai Jinghong Electronic Technology Co Ltd
Current assignee: Shenzhen Jinghong Technology Co., Ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2018-11-13

Abstract

本发明提供一种场景分类方法及装置，包括：S1、基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；S2、对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；S3、基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。本发明提出的一种场景分类方法及装置，通过构建多尺度卷积神经网络，充分发掘了不同尺度之间场景特征的联系，提取具有判别性的多尺度场景特征，提升了场景分类的精度。

Description

一种场景分类方法及装置

技术领域

本发明涉及信息技术领域，更具体地，涉及一种场景分类方法及装置。

背景技术

随着数字照相及数字存储等多媒体技术的飞速发展，人们获取的数字图像数据越来越多，这些图像数据中蕴含着海量信息，只凭人力根本无法对这些海量信息进行实时处理。因此，期望通过模拟人类视觉系统的视觉信息处理功能，赋予机器自动识别图像的能力，从而帮助或辅助人类完成许多重要任务。场景分类，即通过图片所包含的内容推断出该场景的正确类别，是一个基础而又非常具有挑战性的计算视觉任务，在图片检索、目标检测以及目标跟踪等领域起着重要作用。

目前，已有的场景识别方法根据所用模型是否涉及卷积神经网络，主要分为两类：一种类型是基于手工特征的浅层模型，这类方法致力于设计鲁棒的场景特征算子，或是设计鲁棒的模型；另一种类型是基于卷积神经网络的深度模型，这类方法的核心思想是将卷积神经网络作为场景特征提取器，提取出包含高层语意信息的场景特征，进行分类。

但是，基于卷积神经网络的深度模型在处理过程中将特征学习和分类器训练分离，弱化了整个模型的性能，并且该模型将不同尺度下的特征，直接融合得到场景特征，未充分发挥单个尺度内场景特征的性能，使得分类精度不高。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种场景分类方法及装置。

根据本发明的第一方面，提供一种场景分类方法，包括：

S1、基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；

S2、对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；

S3、基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。

其中，所述多尺度卷积神经网络包括卷积层、全连接层、激活函数层、SoftMax层以及所述卷积层上层构建的多尺度层。

其中，步骤S2包括：

S21、在各个尺度内对所述场景卷积特征进行预融合，得到各个尺度内场景融合特征；

S22、在各个尺度之间对所述各个尺度内场景融合特征进行特征融合，得到所述场景图片的多尺度场景特征。

其中，步骤S21和步骤S22中融合过程均采用ReLU激活函数对特征进行融合。

其中，步骤S1包括：

在多尺度层将输入的场景图片分为多个尺度的场景块；

在卷积层提取各个尺度的场景块的场景卷积特征。

其中，步骤S3包括：

在所述多尺度卷积神经网络内构建目标函数；

基于所述多尺度场景特征和所述目标函数，在所述SoftMax层构建场景特征分类器完成场景分类。

其中，所述目标函数为：

其中，{x,y}为输入的场景图片x以及其标签y，M为输入的场景图片数目，C为场景类别数目，R_ms为多尺度场景特征，W和b为多尺度卷积神经网络分类器的权重和偏置。

其中，所述对所述多尺度卷积神经网络进行训练包括：

使用带动量的随机梯度下降法对所述多尺度卷积神经网络进行训练，直至所述目标函数收敛。

根据本发明的第二方面，提供一种场景分类装置，包括：

提取模块，用于基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；

融合模块，用于对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；

分类模块，用于基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。

根据本发明的第三方面，提供一种计算机程序产品，包括程序代码，所述程序代码用于执行上述所述的图像检索方法。

根据本发明的第四方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本发明提出的一种场景分类方法及装置，通过构建多尺度卷积神经网络，充分发掘了不同尺度之间场景特征的联系，提取具有判别性的多尺度场景特征，提升了场景分类的精度。

附图说明

图1为本发明实施例提供的一种场景分类方法流程图；

图2为本发明实施例提供的另一种场景分类方法流程图；

图3为本发明实施例提供的一种场景分类装置结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1为本发明实施例提供的一种场景分类方法流程图，如图1所示，所述方法包括：

S1中，所述多尺度卷积神经网络为训练完成的多尺度卷积神经网络，具体的，预先构建好多尺度卷积神经网络，输入训练样本集对多尺度卷积神经网络进行训练，训练后得到具有场景分类功能的神经网络结构。

可以理解的是，输入的场景图片的类别需包含在输入的训练样本集的类别中。

S2中，对所述各个尺度上的场景卷积特征进行特征融合采用二次融合策略，在尺度内预融合的基础上，再在尺度间进行第二次融合，得到场景图片的多尺度场景特征，该多尺度场景特征判别性强，并且对几何旋转具有很强的鲁棒性，有效解决了部分场景图片有遮挡的问题。

S3中，直接在多尺度卷积神经网络内完成场景分类完成场景分类，无需再依靠外在分类器，充分发挥多尺度卷积神经网络的工作性能，在进行特征提取的同时完成场景分类。

本发明实施例提供的场景分类方法，通过构建多尺度卷积神经网络，充分发掘了不同尺度之间场景特征的联系，提取具有判别性的多尺度场景特征，提升了场景分类的精度。

在上述实施例的基础上，本发明实施例提供的多尺度卷积神经网络包括：

卷积层、全连接层、激活函数层以及SoftMax层，并且在所述卷积层上层构建多尺度层。

一般的，传统卷积神经网络的基本结构包括两层，其一为特征提取层，即卷积层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，包括了：全连接层、激活函数层以及SoftMax层。网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。

其中，所述多尺度卷积神经网络即在传统卷积神经网络的卷积层上层嵌入了一个多尺度层，在场景图片被输入到所述多尺度层后，将根据尺度层的预设分割尺度，对场景图片进行分割。

在图1所述实施例的基础上，图2为本发明实施例提供的另一种场景分类方法流程图，如图2所示，步骤S2包括：

S21中，所述各个场景块的卷积特征不是单一特征，在各个尺度上各个场景块的卷积特征有可能不止一个，为了充分发掘尺度内特征的性能，故在各个尺度内对卷积特征预融合，计算过程可表示为：

R_l＝σ(W_fl[σ(W_clr_l,1+b_cl),…σ(W_clr_l,16+b_cl)]+b_fl)

R_m＝σ(W_fm[σ(W_cmr_m,1+b_cm),…σ(W_cmr_l,4+b_cm)]+b_fm)

R_g＝σ(W_fgr_g+b_fg)

其中，σ(·)为Rectified Linear Units(ReLU)激活函数，r_l,i、r_m,i、r_g为不同尺度下各个场景块的卷积特征，R_l、R_m、R_g为各个尺度内场景融合特征，[A,B]表示将A和B连接形成新的矩阵。

S22中，得到各个尺度内场景融合特征后，对场景融合特征进行特征融合，得到具有判别性的多尺度场景特征，计算过程可表示为：

R_ms＝σ(W_ms[R_l,R_m,R_g]+b_ms)

其中，R_ms为多尺度场景特征，W_ms和b_ms表示多尺度场景特征的权重和偏置。

本发明实施例通过对尺度内的场景块的卷积特征进行预融合，充分发掘各尺度上特征之间的关联，为尺度间的特征融合提供了更好的基础。

在上述实施例的基础上，步骤S21和步骤S22中融合过程均采用ReLU激活函数对特征进行融合。

所述ReLu激活函数在特征融合的过程中，可以极大地加快收敛速度，使得特征融合的更快，并且减轻了梯度弥散的问题，使得梯度不会很快饱和，融合更新的效率更高。

在图1所述实施例的基础上，步骤S1包括：

在多尺度层将输入的场景图片分为多个尺度的场景块；

在卷积层提取各个尺度的场景块的场景卷积特征。

其中，在卷积神经网络中建立一个多尺度层，当场景图片输入时，多尺度层预设的尺度将输入的场景图片自动切割为对应尺度层的尺度，如公式：

e(x)＝{l₁,…l₁₆,m₁,…m₄,g}

其中，x为输入的场景图片，e(·)为多尺度操作，l_i为86×86尺度上的场景块，m_i为140×140尺度上的场景块，g为224×224尺度上的场景块。

需要说明的是，本发明实施例不对具体的尺度做限制，上述给出的尺度仅为参考尺度。

其中，在多尺度卷积神经网络中建立卷积模块，用于提取各个尺度的场景块的场景块特征，这里采用了GoogLeNet的所有卷积层作为本发明多尺度卷积神经网络的卷积模块，在各尺度上分别提取场景块特征：

r_l,i＝GoogLeNet(l_i)

r_m,i＝GoogLeNet(m_i)

r_g＝GoogLeNet(g)

其中，r_l,i、r_m,i、r_g为不同尺度下各个场景块的卷积特征。

在图1所述实施例的基础上，步骤S3包括：

在所述多尺度卷积神经网络内构建目标函数；

多尺度卷积神经网络分类器即在特征映射层上构建分类器对图片进行分类，一般的，我们采用softmax分类器作为多尺度卷积神经网络的分类器。

在上述实施例基础上，所述目标函数为：

根据所述目标函数所输入的场景图片的场景类别数目，构建相同类别数目的分类器，并根据目标函数所控制的多尺度卷积神经网络分类器的权重和偏置在训练过程中调整多尺度场景特征，直至目标函数收敛时，所述多尺度场景特征最优。

本发明实施例通过在多尺度卷积神经网络直接构建分类器，实现了在场景分类任务中的多任务策略，强化了整个多尺度卷积神经网络结构的性能。

在上述实施例的基础上，所述对所述多尺度卷积神经网络进行训练包括：

所述带动量的随机梯度下降法为随机选取一些训练数据集来取代整个样本训练集，在随机选取的训练数据集上作梯度下降，直至目标函数收敛为止，这种方法的优势在于节约迭代时间，提高训练效率，使得目标函数能够更快收敛。

本发明实施例通过使用带动量的随机梯度下降法对所述多尺度卷积神经网络进行训练，使得训练速度加快，训练效率更高。

具体的，首先对输入的场景图片的多尺度场景特征进行提取，再根据提取的多尺度场景特征将输入的场景图片进行分类，为了进一步验证使用多尺度场景特征，本发明实施例对上述场景分类方法进行了仿真。

1.仿真条件

本发明实施例是在中央处理器为Intel(R)Core i7-5930K3.50GHZ、GeForce GTXTitan X GPU、内存64G、linux操作系统上，运用MATLAB软件进行的仿真。

仿真实验数据利用的是由麻省理工学院(Massachu-setts Institute ofTechnology,MIT)的A.Quattoni等人提供的MIT indoor 67数据库，以及MIT的J.Xiao等人提供的SUN 397数据库。

2.仿真内容

将仿真使用的数据库内的图片随机划分80％作为训练样本集，剩下的20％作为测试样本集，将训练样本集输入到构建好的多尺度卷积神经网络中，对多尺度卷积神经网络进行训练，训练后输入测试样本集，并对测试样本集进行分类。将得到的分类结果与测试样本集的真实结果对比，统计分类正确的个数r，分类精度则为：

acc＝r/R*100％

其中，R为测试样本集的样本个数。

用同样的数据库分别使用多尺度无序化神经网络(MOP-CNN)、简单文件校验法(SFV)、有向非循环神经网络(DAG-CNN)、数字信号处理法(DSP)进行测试，并统计这5种方法对该数据库的分类精度。

使用MIT indoor 67数据库的分类精度结果如表1所示：

表1：MIT indoor 67数据库上场景分类精度

分类方法	分类精度
		MOP-CNN	68.88％
SFV	72.86％
		DAG-CNN	77.50％
DSP	78.28％
		本发明	80.90％

使用SUN397数据库的分类精度结果如表2所示：

表2：SUN397数据库上场景分类精度

分类方法	分类精度
		MOP-CNN	51.98％
SFV	54.40％
		DAG-CNN	56.20％
DSP	59.78％
		本发明	62.24％

由表1和表2的分类精度的仿真数据可以看出，本发明实施例提供的场景分类方法，在分类精度上有了明显的提升，这是由于本发明在原有卷积神经网络的基础上，构建多尺度层，并对各个尺度层之间的场景特征进行融合，得到具有判别性的多尺度场景特征，使得分类精度得到明显提升。

图3是本发明实施例提供的一种场景分类装置，包括：

提取模块1，用于基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；

融合模块2，用于对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；

分类模块3，用于基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。本发明实施例还提供了一种存储设备，其中那个存储有多条指令，所述指令适于由处理器加载并执行：

其中提取模块1基于训练好的多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征。

其中，融合模块2对所述各个尺度上的场景卷积特征进行特征融合采用二次融合策略，在尺度内预融合的基础上，再在尺度间进行第二次融合，得到场景图片的多尺度场景特征，该多尺度场景特征判别性强，并且对几何旋转具有很强的鲁棒性，有效解决了部分场景图片有遮挡的问题。

其中，分类模块3直接在多尺度卷积神经网络内完成场景分类完成场景分类，无需再依靠外在分类器，充分发挥多尺度卷积神经网络的工作性能，在进行特征提取的同时完成场景分类。

本发明实施例提供的场景分类方法，通过构建提取模块、融合模块和分类模块，充分发掘了不同尺度之间场景特征的联系，提取具有判别性的多尺度场景特征，提升了场景分类的精度。

本实施例提供一种场景分类装置，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：基于多尺度卷积神经网络，提取输入的场景图片在各个尺度上的场景卷积特征；对所述各个尺度上的场景卷积特征进行特征融合，得到所述场景图片的多尺度场景特征；基于所述多尺度场景特征，在所述多尺度卷积神经网络内完成场景分类。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种场景分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，所述多尺度卷积神经网络包括卷积层、全连接层、激活函数层、SoftMax层以及所述卷积层上层构建的多尺度层。

3.根据权利要求1所述的方法，其特征在于，步骤S2包括：

4.根据权利要求3所述的方法，其特征在于，步骤S21和步骤S22中融合过程均采用ReLU激活函数对特征进行融合。

5.根据权利要求2所述的方法，其特征在于，步骤S1包括：

在多尺度层将输入的场景图片分为多个尺度的场景块；

在卷积层提取各个尺度的场景块的场景卷积特征。

6.根据权利要求2所述的方法，其特征在于，步骤S3包括：

在所述多尺度卷积神经网络内构建目标函数；

7.根据权利要求6所述的方法，其特征在于，所述目标函数为：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种场景分类装置，其特征在于，包括：

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至8任一所述的方法。

11.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至8任一所述的方法。