CN110188827A

CN110188827A - 一种基于卷积神经网络和递归自动编码器模型的场景识别方法

Info

Publication number: CN110188827A
Application number: CN201910470014.2A
Authority: CN
Inventors: 花福军; 陆文斌; 张应福; 周正斌; 李成伟
Original assignee: Creative Information Technology Co Ltd
Current assignee: Creative Information Technology Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-30
Anticipated expiration: 2039-05-29
Also published as: CN110188827B

Abstract

本发明公开了一种基于卷积神经网络和递归自动编码器模型的场景识别方法，包括：构建卷积神经网络，构建递归自动编码器，数据预处理和场景预测分类；构建卷积神经网络，是利用大规模场景数据集构建并改进卷积神经深度网络；构建递归自动编码器，是利用卷积神经网络提取的图像特征和场景标签构建并改进递归自动编码器；数据预处理，是将图像进行数据增强的操作，同时将场景的文本标签实现嵌入操作完成数据预处理；场景预测分类，构建预测图像场景分类器，将图像特征输入训练完成的模型中进行场景预测分类。本发明改进了传统的图像与文本信息的编码模型，提出了一种新的卷积神经网络和递归自动编码器网络的结合方法，能够显著的提升场景识别的效果。

Description

一种基于卷积神经网络和递归自动编码器模型的场景识别方法

技术领域

本发明涉及图像场景理解领域，尤其涉及一种基于卷积神经网络和递归自动编码器模型的场景识别方法。

背景技术

如何准确、有效的识别输入图像中的场景，已经成为一个重要的研究课题。在传统的图像理解算法技术中，图像分类，相似图像索引是主要的研究方向。图像分类问题需要更好的获得输入图像的特征向量，并基于特征向量学习优化。传统的算法中使用常见的图像特征是HOG特征。HOG特征是将归一化的图像分割成若干个像素块，计算每个像素块的亮度梯度并将所有的像素块的亮度梯度进行串联。传统的图像分类算法包括KNN(k-NearestNeighbor)和SVM(Support Vector Machine)两种主要的方法。

在传统的图像分类算法常使用的全局特征有Gabor特征，LBP特征，HOG梯度方向直方图，GIST特征等特征，局部特征有SIFT特征(Scale Invariant Feature Transform)，SURF特征(Speeded Up Robust Features)，DAISY特征等。特征描述子和特征检测子关系相对紧密，其中检测子越多，图像特征提取的时间越长，相应的噪声也会增多，检测子少的情况下，有效的特征匹配也会减少。

(1)KNN算法：

KNN算法的主旨思想是寻找与测试图像中的最相似的图像的，后在最相似的图片组中进行交叉验证，得出测试图像最高的概率值得标签值。两张图像的相似度之间的计算被称为曼哈顿距离，计算所有的像素块的差距，最后计算出两张图像的距离。通过度量图像之间的差异，利用该种思想的分类器实现比较简单，并且训练学习的没有大量的时间花销，但测试时间复杂度巨大，效率偏低。

(2)SVM分类器：

SVM分类器是上世纪60年代被提出的一种按照监督学习方式对输入数据进行二元分类的广义线性分类器。经过多年的发展包括了多种衍生算法和模型，比如多分类SVM，最小二乘法SVM，支持向量回归等模型。SVM在众多模式识别的研究领域中被广泛应用，比如图像识别和文本分类等。SVM的经典结构的思路是使用一个超平面将不同的类别分开，并让难区分的特征点尽可能的表现出最大的差距。

SVM模型展现出小样本数据规模即可提取数据中的非线性关系结构，且解决在繁多的神经网络结构中进行选择和调优问题，高维问题得到解决。而SVM模型不具有普适性，需要具体问题具体解决，模型的核函数选择繁琐，并且计算复杂度高，不适用大规模数据等问题。

基于现有方法的缺陷，需要一种新的卷积神经网络和递归自动编码器网络的结合方法，来实现显著提升场景识别效果。

发明内容

为了解决上述问题，本发明提出一种基于卷积神经网络和递归自动编码器模型的场景识别方法。

一种基于卷积神经网络和递归自动编码器模型的场景识别方法，包括：构建卷积神经网络，构建递归自动编码器，数据预处理和场景预测分类；

所述构建卷积神经网络，是利用大规模场景数据集构建并改进卷积神经深度网络；

所述构建递归自动编码器，是利用卷积神经网络提取的图像特征和场景标签构建并改进递归自动编码器；

所述数据预处理，是将图像进行数据增强的操作，同时将场景的文本标签实现嵌入操作完成数据预处理；

所述场景预测分类，构建预测图像场景分类器，将图像特征输入训练完成的模型中进行场景预测分类。

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述构建卷积神经网络包括以下步骤：

S11：获取公开的场景数据构建大规模场景标注数据集；

S12：将所述数据集处理为固定大小的224*224RGB图像，作为卷积神经网络的输入；

S13：输入图像通过多个卷积层，卷积核大小为3*3，步长为1个像素，填充为1个像素；

S14：空间池化由五个最大池化层进行，步长为2，网络最后是三个全连接层,将最后的全连接层输出向量作为后续的递归自动编码器的部分输入。

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述神经网络中所有隐藏层采用ReLU作为激活函数。

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述构建递归自动编码器包括以下步骤：

S21：特征向量输入：获取卷积神经网络中提取的特征向量，将其分割成若干个512维向量，用于编码器的输入序列；

S22：构建递归自动编码器：对输入序列的二叉树中前两个叶子节点进行重构，然后依次对后续的叶子节点及前一个隐藏节点进行重构，最终完成重构原始序列，隐藏节点满足：

y_i＝f(W⁽¹⁾[x_i；c_i-1]+b⁽ⁱ⁾)

其中，x_i表示输入序列节点，c_i-1表示节点，其中i＝1时，c_i-1＝x₂，i>1时，c_i-1＝y_i-1，且i∈[1,m-1]，m表示输入序列长度，W表示子节点之间的连接向量，b表示偏移量；

重构过程是将父子节点y_i反向重构子节点，真实值和重构过程的差异使用[x′_i；c′_i-1]＝W^(1)′y_i+b^(1)′表示，还原计算过程满足：

S23：优化递归自动编码器：设定A(x)表示输入x的可构建二叉树的全集，T(y)表示树中非叶子节点的索引位置s，模型中的错误满足：

S24：节点匹配：利用贪心算法，对节点进行两两配对，选取最小误差的组合作为重构对象，在不同的节点具有不同的权重连接，需要满足：

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，对数据预处理的包括以下子步骤：

S31：对训练集中的图像进行增强处理，包括部分旋转、平移、缩放、边缘填充的操作；

S32：将训练集中的图像对应的场景进行嵌入化处理，其中词典规格为训练集中的词汇总量，每位单词向量的维度是256；同时保证场景单词向量和训练集中的图像一一对应。

S33：对图像全连接层中输出的特征向量进行分割，保证向量维度与单词维度相同，若维度不足，进行补零操作。

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述场景预测分类包括以下子步骤：

S41：初始化标签矩阵，其中多标签情况下，标签的概率总和为1；

S42：将节点递归正向编码，同时计算重构之后的偏差，经过反向传播更新参数集；

S43：充分训练底层网络，底层网络的权重和偏移量固定后，隐藏状态自下而上进行传播，依次训练隐藏层，全面训练编码器；

S44：在隐藏层的递归自动编码器训练过程中，图像场景的文本嵌入式向量，同样作为节点进行编码；

S45：将卷积神经网络提取的图像特征分割输入到自动编码器，经过迭代编码和重构通过Softmax分类器，实现图像场景预测。

进一步的，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述步骤S45包括以下步骤：

S451：设置自动编码器中场景类别的预测函数，需要满足：

d(y_i；θ)＝Softmax(W^labely_i)

其中，W^label表示具有监督性质的标签矩阵，在多个标签K的情况下，则有∑d＝1；

S452：将标签t_k的预测概率进行交叉验证作为损失函数，需要满足：

S453：根据S452设置的自动编码器中损失函数，将提出的模型中的目标函数设置如下：

目标函数的梯度下降算法需要满足：

其中公式中的θ表示参数集{W⁽¹⁾，b⁽¹⁾，W^(1)′，b^(1)′，W^label，L}，L表示图像特征表示的特征空间。

本发明的有益效果在于：本发明改进了传统的图像与文本信息的编码模型，提出了一种新的卷积神经网络和递归自动编码器网络的结合方法，能够显著的提升场景识别的效果。

附图说明

图1是本发明的系统结构框图；

图2是本发明中递归自动编码器结构图；

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1、图2所示，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，包括：构建卷积神经网络，构建递归自动编码器，数据预处理和场景预测分类；

本实施例中，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述构建卷积神经网络采用以下步骤：

S11：获取公开的场景数据构建大规模场景标注数据集；

S14：空间池化由五个最大池化层进行，步长为2，网络最后是三个全连接层,将最后的全连接层输出向量作为后续的递归自动编码器的部分输入。神经网络中所有隐藏层采用ReLU作为激活函数。

本实施例中，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述构建递归自动编码器包括以下步骤：

y_i＝f(W⁽¹⁾[x_i；c_i-1]+b⁽ⁱ⁾)

本实施例中，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，对数据预处理的包括以下子步骤：

本实施例中，一种基于卷积神经网络和递归自动编码器模型的场景识别方法，所述步骤S45包括以下步骤：

S451：设置自动编码器中场景类别的预测函数，需要满足：

d(y_i；θ)＝Softmax(W^labely_i)

目标函数的梯度下降算法需要满足：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，包括：构建卷积神经网络，构建递归自动编码器，数据预处理和场景预测分类；

2.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述构建卷积神经网络包括以下步骤：

S11：获取公开的场景数据构建大规模场景标注数据集；

S12：将所述数据集处理为固定大小的224*224 RGB图像，作为卷积神经网络的输入；

3.根据权利要求2所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述神经网络中所有隐藏层采用ReLU作为激活函数。

4.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述构建递归自动编码器包括以下步骤：

y_i＝f(W⁽¹⁾[x_i；c_i-1]+b⁽ⁱ⁾)

5.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，对数据预处理的包括以下子步骤：

6.根据权利要求1所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述场景预测分类包括以下子步骤：

7.根据权利要求6所述的一种基于卷积神经网络和递归自动编码器模型的场景识别方法，其特征在于，所述步骤S45包括以下步骤：

S451：设置自动编码器中场景类别的预测函数，需要满足：

d(y_i；θ)＝Softmax(W^labely_i)

目标函数的梯度下降算法需要满足：