CN108108751B

CN108108751B - 一种基于卷积多特征和深度随机森林的场景识别方法

Info

Publication number: CN108108751B
Application number: CN201711335270.8A
Authority: CN
Inventors: 熊继平; 叶童; 王妃
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2017-12-08
Filing date: 2017-12-08
Publication date: 2021-11-12
Anticipated expiration: 2037-12-08
Also published as: CN108108751A

Abstract

本发明公开了一种基于卷积多特征和深度随机森林的场景识别方法，将稀疏编码的空间金字塔匹配方法和费舍尔向量运用于卷积神经网络中进行特征提取，并将提取的特征运用于深度随机森林的场景识别方法，以提高场景识别精度。该方法包括：利用卷积神经网络对训练图像进行训练，对卷积神经网络中最后一个卷积层的输出进行费舍尔向量编码，对卷积神经网络的输出进行解卷积并运用稀疏编码的空间金字塔匹配方法统计其在不同分辨率下的图像特征点分布从而构成多尺度的空间局部特征，之后使用深度随机森林进行分类，从而提高场景识别的准确度。

Description

一种基于卷积多特征和深度随机森林的场景识别方法

技术领域

本发明涉及计算机模式识别技术，尤其涉及一种基于卷积多特征和深度随机森林的场景识别方法。

背景技术

在数字图像和数字视频数据中，蕴含了大量的视觉信息，而计算机视觉技术就是使用计算机智能化地提取和分析这些视觉信息中所含有的有用信息的技术。伴随着计算机理论、应用和应用的快速发展，计算机处理图像和视频的能力受到了巨大的提高，使得计算视觉技术成为了计算机领域与人工智能领域的重点研究方向。

场景图像的识别与分析是计算机模式识别领域中的一个重要课题，是图像识别领域的一个重要分支。在航天领域与机器人领域中也都涉及到了场景识别。当给定一幅包含多个目标类别(如医院、教堂、学校等)的场景图像，场景识别的目的是通过对图像中各个目标的分布关系，对图像的全局的语义进行分析和理解。不同于传统的目标检测和图像识别，场景的识别不仅仅是对图像的前景内容进行研究，更是对场景全局的一种理解。而场景的类别更是有着很大的变化和歧义性，这就极大提高了场景识别的难度。

2004年提出了一种基于词包模型的场景识别方法。词包模型是通过提取场景图像中的低层特征(颜色、纹理等)统计图像的各个分块信息，并与文本单词相对应形成的一种特征字典，计算目标场景图像与字典的距离来实现场景识别。此外还有基于稀疏表达的方法与基于主题模型的方法，但是得到的效果并不理想。

深度学习的概念源于人工神经网络的研究，是机器学习中的一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域，其动机在于建立和模拟人脑进行分析学习时的神经网络，模仿人脑的机制来解释数据，例如图像、声音和文本。卷积神经网络是深度学习中的一种典型模型，特别是在模式识别中运用的非常广泛，并且已经取得了不错的效果。

基于卷积神经网络的场景识别算法主要是采用大规模场景图像数据进行训练，得到更高层的特征，从而提高场景样本的识别率或预测的准确率。然而这种方法也存在着问题：1)场景图像的识别是一个自顶向下的过程，需要同时考虑全局特征和局部特征，仅使用卷积神经网络进行场景图像的识别得到的效果并不理想；2)训练时需要大量样本，无法用于小规模数据任务，并且训练时间非常长；3)深度神经网络结构非常复杂，严重依赖调参，含有大量的超参数，不利于系统稳定，并且由于卷积层结构等很多不同的选择造成卷积神经网络不利于分析。

2017年提出了一种深度随机森林(Deep Forest)模型，这是一种基于决策树的新方法。这个模型的总体结构是类似神经网络的，只是其中的每个神经元都被替换成随机森林。深度随机森林可以适用于小规模数据任务，因为适用于并行部署，在训练效率方面远也大于深度神经网络。这个模型相对于深度神经网络，有更少的超参数，这就导致深度随机森林具有相当高的鲁棒性，并且其相对较简单的结构也让对深度随机森林的理论分析更为简单。如今在许多领域中深度随机森林取得了比深度神经网络更好的成绩。

本发明提供了一种基于卷积多特征和深度随机森林的场景识别方法，利用卷积神经网络对训练图像进行训练，对卷积神经网络中最后一个卷积层的输出进行费舍尔向量编码得到空间全局特征，对卷积神经网络的输出进行解卷积并运用稀疏编码的空间金字塔匹配方法统计其在不同分辨率下的图像特征点分布从而构成多尺度的空间局部特征，之后使用深度随机森林进行分类，从而提高场景识别的精确度与鲁棒性。

发明内容

本发明所要解决的技术问题是增强场景识别的鲁棒性，提高场景识别的正确率。

为了解决上述技术问题，本发明提供了一种基于卷积多特征和深度随机森林的场景识别方法，用于场景识别上；该方法包括：

利用卷积神经网络对原始输入图像进行学习；

利用费舍尔向量编码对卷积神经网络卷积层的输出特征进行编码，得到卷积费舍尔特征；

对卷积神经网络的输出特征进行解卷积得到解卷积特征图；

利用稀疏编码的空间金字塔匹配方法对解卷积特征图进行多尺度划分，统计其在不同分辨率下的图像特征点分布得到多尺度的空间局部特征；

将得到的卷积费舍尔特征和多尺度的空间局部特征输入到深度随机森林中进行训练，输出识别结果。

其中，根据所述卷积模型采用VGG-19，包括：

采用的VGG-19卷积神经网络包括分为十六层卷积层，五层池化层，七层激活层和三层全连接层；

卷积层的卷积核大小为3x3；

激活层的激活函数为ReLu；

池化层的大小为2x2；

三层全连接层分别为4096，4096，1000。

其中，根据所述利用费舍尔向量编码对卷积神经网络卷积层的输出特征进行编码，得到卷积费舍尔特征，包括：

用训练图片集中所有的特征(包括其子集)来求解高斯混合模型，得到模型的各个参数；

选取待编码的一张图片，求得其特征的集合；

用先前求得的高斯混合模型的参数以及选取的图片的特征集合求得费舍尔向量。

其中，根据所述对卷积神经网络的输出特征进行解卷积得到解卷积特征图，包括：

通过记录池化过程中最大激活值的坐标位置，把池化过程中最大激活值所在的位置坐标的值激活，其它的值置为0，对卷积层得到的特征图进行反池化；

对反池化得到的特征进行反激活(反激活过程与激活过程相同)；

采用卷积过程转置后的滤波器(参数矩阵水平和垂直方向翻转)进行反卷积。

其中，根据所述利用稀疏编码的空间金字塔匹配方法对解卷积特征图进行多尺度划分，统计其在不同分辨率下的图像特征点分布得到多尺度的空间局部特征，包括：

对反卷积得到的特征图进行不同尺度的分块；

采用稀疏编码方式计算每个特征在不同层次图像中的分布情况得到多尺度的空间局部特征。

其中，根据所述使用分类器对特征向量进行检测，包括：

输入特征向量至深度随机森林进行分类；

深度随机森林输出场景的识别结果。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本申请实施例的基于卷积多特征和深度随机森林的场景识别方法的流程示意图。

图2为本申请实施例得到卷积费舍尔特征的流程示意图。

图3为本申请实施例获得解卷积特征图的流程示意图。

图4为本申请实施例获得多尺度空间局部特征的流程示意图

图5为深度随机森林的结构示意图。

图6为本申请实施例述及的深度随机森林识别流程示意图。

图7为本申请实施例述及的识别系统结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

本申请实施例的基于卷积多特征和深度随机森林的场景识别方法，用于场景的识别。本申请实施例所述的场景识别，主要是指利用卷积神经网络提取多类特征，输入到深度随机森林中进行场景识别。

如附图1所示，基于卷积多特征和深度随机森林的场景识别方法的具体实施如下：

步骤S110，构建VGG-19卷积神经网络，对测试图像进行训练；

步骤S120，求出卷积神经网络最后一个卷积层的输出特征图的费舍尔向量，构成卷积费舍尔特征；

步骤S130，对卷积神经网络的输出特征进行解卷积得到解卷积特征图；

步骤S140，利用稀疏编码的空间金字塔匹配方法对解卷积特征图进行多尺度划分得到多尺度的空间局部特征；

步骤S150，将卷积费舍尔特征和多尺度的空间局部特征输入到深度随机森林中，进行场景识别输出识别结果；

本申请实施例中，求出卷积神经网络最后一个卷积层的输出特征图的费舍尔向量，构成卷积费舍尔特征。图2表示了得到卷积费舍尔特征的主要步骤：

步骤S210，卷积层输出特征图；

步骤S220，运用费舍尔向量对卷积特征进行量化得到卷积费舍尔特征；

本步骤中，假设卷积层中的的输出D维特征如下：

X＝{x_d，d＝1，...，D}

基于这些特征训练高斯混合模型记为：

Θ＝{(μ_k，σ_k，π_k)：k＝1，...，K}

其中μ_k，σ_k和π_k分别为第k个高斯成分的均值，标准差，以及先验概率。由此可以得到：

其中N(X；μ_k，σ_k)为第k个高斯成分，可以通过高斯成分计算特征X_i的后验概率：

费舍尔向量可以由μ_k，σ_k和π_k求偏导得到：

最后进行归一化就得到费舍尔特征。

本申请实施例中，对卷积神经网络的输出特征进行解卷积；图3表示了解卷积的主要步骤：

步骤S310，记录池化过程中最大激活值的坐标位置，在反池化过程中将池化过程最大激活值所在的位置坐标的值激活，其它的值置为0，实现反池化；

步骤S320，反池化得到结果进行反激活(反激活过程同激活过程相同)；

步骤S330，将卷积过程的滤波器参数进行转置(参数矩阵水平和垂直方向翻转)，实现反卷积。

本申请实施例中，利用稀疏编码的空间金字塔匹配方法对解卷积特征图进行多尺度划分得到多尺度的空间局部特征。图4表示了提取多尺度空间局部特征的主要步骤：

步骤S410，对反卷积得到的特征图进行不同尺度的分块；

本实施例中根据特征在图像中的坐标进行分层。层数l＝{0，...L}从0层开始，最顶层L，每一层代表一种粒度，在第l层上每个特征被分为2^l个区间，这样D维的特征空间被分为2^Dl个区间。

步骤S420，采用稀疏编码方式计算每个特征在不同层次图像中的分布情况得到多尺度的空间局部特征；

本步骤中，稀疏编码的字典学习：

其中c_i表示第i个特征的编码，B表示字典。将目标图像的所有点的编码排成矩阵C，C的每一列就是字典中的原子，选取矩阵C每一列的最大值，最后进行归一化后获得的向量该目标图像的特征。

本申请实施例中，特征输入到深度随机森林中进行场景分类。图5表示了本申请实施例述及的分类流程主要步骤：

步骤S610，将特征向量输入至深度随机森林；

在深度随机森林中采用滑动窗口用于扫描特征，通过使用多个尺寸的滑动窗口，最终的变换特征矢量将包括更多的特征。并且深度随机森林是一种级联结构，其中级联的每一级能够接收前一级的特征信息，再将该级的处理结果传给下一级，最后得到分类结果。

步骤S620，深度随机森林输出场景的识别结果。

虽然本发明所揭露的实施方式如上，但上述内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。在不脱离本发明所揭露的精神及范围的前提下，可在实施的形式上及细节上作任何的修饰与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于卷积多特征和深度随机森林的场景识别方法，用于对场景图片的识别，其特征在于，该方法包括：

利用卷积神经网络对原始输入图像进行学习；

对卷积神经网络的输出特征进行解卷积得到解卷积特征图；

2.根据权利要求1所述的基于卷积多特征和深度随机森林的场景识别方法，其特征在于，卷积模型采用VGG-19，包括：

卷积层的卷积核大小为3 x 3；

激活层的激活函数为ReLu；

池化层的大小为2 x 2；

三层全连接层分别为4096，4096，1000的大小。

3.根据权利要求1所述的基于卷积多特征和深度随机森林的场景识别方法，其特征在于，利用费舍尔向量编码对卷积神经网络卷积层的输出特征进行编码，得到卷积费舍尔特征，包括：

用训练图片集中所有的特征来求解高斯混合模型，得到模型的各个参数；

选取待编码的一张图片，求得其特征的集合；

用先前求得的高斯混合模型的参数以及选取的图片的特征集合求得费舍尔向量；

具体步骤如下：

假设卷积层中的输出D维特征如下：

X＝{x_d，d＝1，...，D}

基于这些特征训练高斯混合模型记为：

Θ＝{(μ_k，σ_k，π_k)：k＝1，...，K}

其中μ_k，σ_k和π_k分别为第k个高斯成分的均值，标准差，以及先验概率，由此可以得到：

费舍尔向量可以由μ_k，σ_k和π_k求偏导得到：

最后进行归一化得到费舍尔特征。

4.根据权利要求 1所述的基于卷积多特征和深度随机森林的场景识别方法，其特征在于，对卷积神经网络的输出特征进行解卷积得到解卷积特征图，包括：

对反池化得到的特征进行反激活；

采用卷积过程转置后的滤波器进行反卷积。

5.根据权利要求1所述的基于卷积多特征和深度随机森林的场景识别方法，其特征在于，利用稀疏编码的空间金字塔匹配方法对解卷积特征图进行多尺度划分，统计其在不同分辨率下的图像特征点分布得到多尺度的空间局部特征，包括：

对反卷积得到的特征图进行不同尺度的分块；

采用稀疏编码方式计算每个特征在不同层次图像中的分布情况得到多尺度的空间局部特征；

本步骤中，稀疏编码的字典学习：

其中c_i表示第i个特征的编码，B表示字典，λ是调整c_i重要性的权值，l1是1范数，将目标图像的所有点的编码排成矩阵C，C的每一列就是字典中的原子，选取矩阵C每一列的最大值，最后进行归一化后获得的向量该目标图像的特征。

6.根据权利要求1所述的基于卷积多特征和深度随机森林的场景识别方法，其特征在于，使用分类器对特征向量进行检测，包括：

输入特征向量至深度随机森林进行分类；

深度随机森林输出场景的识别结果。