CN110232341A

CN110232341A - 基于卷积-堆叠降噪编码网络的半监督学习图像识别方法

Info

Publication number: CN110232341A
Application number: CN201910464739.0A
Authority: CN
Inventors: 唐贤伦; 孔德松; 彭德光; 蔡军; 谢颖; 马伟昌; 李伟; 王婷; 闫振甫
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-09-13
Anticipated expiration: 2039-05-30
Also published as: CN110232341B

Abstract

本发明请求保护一种基于卷积‑堆叠降噪编码网络的半监督学习图像识别方法，结合有监督训练的卷积神经网络和无监督学习的堆叠降噪自动编码机提出一种半监督学习网络，以在样本量不足的情况下提取更具表达性的高维特征，训练出更好的网络参数。利用卷积神经网络对样本数据进行有监督训练，提取图像特征同时避免空间特征的破坏。再把训练得到的特征向量输入到堆叠降噪自动编码机进行无监督学习，实现进一步特征学习，降低小样本带来的训练困难，后基于多层人工神经网络进行分类实现。将模型用于HLC2000手写汉字数据集中的复杂字、中等字、简单字、相似字进行脱机手写汉字识别，实验结果表明该模型的平均识别率能达到97％以上，并且结果较为稳定。

Description

基于卷积-堆叠降噪编码网络的半监督学习图像识别方法

技术领域

本发明属于脱机手写汉字的特征提取及识别方法技术领域，特别是一种基于半监督网络的手写汉字图像特征提取及分类方法。

背景技术

由于在文稿、票据、证件签名等手写字符识别系统中的广泛应用前景，手写汉字识别自上世纪以来得到广泛关注和研究。手写汉字识别分为联机手写汉字识别和脱机手写汉字识别两大类别，其中脱机手写汉字识别因采集数据时存在噪声干扰，识别难度更大。常用的手写汉字识别方法包括支持向量机(Support Vector Machine,SVM)、决策树模型(Decision Tree,DT)、自动编码机(Automatic Encoder,AE)、学习矢量、扭曲数据样本生成以及八方向特征提取等。传统的手写汉字识别方法在较多相似字以及混淆字的情况下，存在不能提取有效特征和训练困难等问题，所以使用传统的特征提取方法不足以对手写汉字进行识别和分析。

近年来，随着深度学习(Deep learning,DL)的快速发展，因其拥有强大的检测、运动想象脑电分类等多个领域得到了广泛应用，相关方法也应用到手写汉字识别。基于有监督训练的卷积神经网络容易陷入过拟合困境，其解决方式通常通过加大样本量来解决过拟合问题。手写汉字图像样本因收集需要耗费大量的人力物力资源，其样本量为小数据样本，卷积神经网络对手写汉字识别往往不能达到最佳分类效果。基于无监督学习的堆叠降噪自动编码机对图像提取特征时，输入为一维向量维度，存在图像空间信息丢失问题。所以，目前基于单个深度网络训练，不能够完全提取手写汉字图像的代表特征，达到最优分类效果。

因此，本发明结合卷积神经网络的有监督训练和堆叠降噪自动编码机的无监督学习的特点，实现脱机手写汉字的半监督特征提取与识别，以解决小样本训练困和堆叠降噪自动编码丢失空间信息的问题。先通过卷积神经网络进行特征提取，提取包含空间特征的组合特征，避免了空间特征丢失问题，再基于无监督堆叠降噪自动编码机对组合特征进一步特征提取，在一定程度上减少过拟合带来的特征提取不充分的问题。

发明内容

本发明旨在解决以上现有技术的问题，提出一种基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法。本发明的技术方案如下：

一种基于多分类节点卷积循环网络的文本特征提取及分类方法，其包括以下步骤：

步骤1：采用包括归一化、最近邻插值法的算法对手写汉字图像进行预处理；

步骤2：基于卷积网络对预处理后的手写汉字数据进行有监督预训练；

步骤3：提取有监督预训练的隐含特征分别作为堆叠降噪自动编码以及多层人工神经网络的特征输入；

步骤4：基于堆叠降噪自动编码机进行无监督学习，并提取训练完成以后的网络权值参数作为多层人工神网络预训练参数；

步骤5：基于小批量梯度降法对多层人工神经网络进行网络训练，实现半监督网络对图像特征融合。

步骤6：对多层人工神经网络进行性能测试并实现分类。

进一步的，所述步骤1：采用包括归一化、最近邻插值法的算法对手写汉字图像进行预处理，具体包括：将原始手写汉字识别图像进行归一化处理，转化为64*64的二值图；使用最近邻插值法把二值图缩小为28*28的灰度图。

进一步的，所述步骤2基于卷积网络对预处理后的手写汉字图像进行有监督预训练，具体包括：

基于卷积神经网络对预处理后的图像进行有监督预训练，具体包括:对于卷积神经网络有监督预训练，共构建6层网络。输入层是28*28大小的原始手写汉字图片。卷积层1由32个5*5大小的卷积核卷积输入层，得到32张特征图。池化层1是对卷积层1进行下采样处理，得到32张14*14大小的特征图。卷积层2由64个5*5大小的卷积核卷积池化层1，得到64张特征图。池化层2是对卷积层2进行下采样处理，得到64张7*7大小的特征图。特征向量由卷积层2特征图进行特征融合得到。

初始化网络参数，进行前向传播训练。基于均方误差，进行反向传播调整网络参数。当误差满足精度要求，保存权值和偏置，网络训练完成，反之继续迭代调整权值和偏置，直至达到误差精度要求。

进一步的，所述步骤3提取有监督预训练的隐含特征作为堆叠降噪自动编码以及多层人工神经网络的特征输入，具体为：提取卷积网络特征向量，其大小为m*1*1024，其中m为输入数据量大小，并作为无监督堆叠降噪自动编码网络和多层人工神经分类网络特征输入。

进一步的，所述步骤4的采用堆叠降噪自动编码机进行无监督学习，并提取训练完成以后的网络权值参数作为多层人工神网络预训练参数，具体为：堆叠两个降噪编码机，从而构造堆叠降噪自动编码机。噪音干扰层的输出作为第一个降噪编码机的输入，隐含层1作为编码层。隐含层1的输出作为第二个降噪编码机的输入，隐含层2作为编码层，输出层作为解码层。

初始化堆叠降噪自动编码机的网络参数{w,b}，其中w,b为编码层权值项以偏置项。构造4层无监督训练网络，并确定网络节点数。设置随机高斯噪声系数ε，对输入进行加噪处理。多次进行网络迭代，直至损失函数取得最优网络参数值。网络参数{w,b}按小批量梯度下降法，流程如下：

求出

其中，x为输入项，z为重构项。

设置网络学习率a＝1，网络参数{w,b}按公式更新如下：

待堆叠降噪自动编码训练完成，提取网络权值参数{w,b}作为多层人工神经分类网络预训练参数。

进一步的，所述堆叠两个降噪编码机，从而构造堆叠降噪自动编码机，噪音干扰层的输出作为第一个降噪编码机的输入，隐含层1作为编码层；隐含层1的输出作为第二个降噪编码机的输入，隐含层2作为编码层，输出层作为解码层；具体包括：原始数据输入为x，则经过由随机高斯噪声构造的噪音干扰层的含噪输出为y，数学表达式为：

y＝x+ε,ε～(0,σ²I) (3)

其中，ε表示高斯噪音。

利用编码函数f对y进行函数映射，得到编码层的输出特征表达h，编码操作为：

h＝f(y)＝f_s(wy+b) (4)

式中，f_s表示激活函数，取用Sigmoid函数，w为连接权值，b为偏置项。

将特征表达h作为解码层的输入，解码函数g将h映射到输出层，得到重构输出Y，解码操作为：

式中，f_s表示激活函数，取用Sigmoid函数，为前向映射转置，为偏置项，

损失函数定义为重构误差，重构误差为：

其中，L(x,z)表示输入x与重构输出z的平方误差。

进一步的，所述步骤5基于小批量梯度降法对多层人工神经网络进行网络训练，实现半监督网络对图像特征融合。具体为：采用小批量梯度降法对多层人工神经网络进行网络训练，具体包括：卷积神经网络隐含层的特征向量，其大小为m*1*1024作为多层人工神经网络数据输入。堆叠降噪自动编码权值参数{w,b}，作为多层人工神经网络预训练参数。采用小批量梯度降法对多层人工神经网络进行网络训练。训练过程具体为：进行前向传播训练，其真实输出为Y，目标输出为T，均方误差为：

E＝Tr((Y-T)(Y-T)^T) (7)

其中，Tr为求矩阵的迹，E为均方误差。输出的权值矩阵梯度可表示为：

其中，U为均方误差。

为使均方误差最小，进行反向传播调整网络参数。当误差满足精度要求，保存权值和偏置，网络训练完成，反之继续迭代调整权值和偏置，直至达到误差精度要求。

本发明的优点及有益效果如下：

本发明卷积神经网络与堆叠降噪自动编码机相结合，进而提出一种半监督特征学习方法。先卷积神经网络强大的特征提取能力，对手写汉字数据进行卷积、池化预训练，其提取包含空间特征的组合特征，有效的解决的了堆叠降噪自动编码机输入为一维向量维度，存在图像空间信息丢失问题。再基于重构样本与真实样本误差训练的堆叠降噪自动编码机，其采用逐层贪婪的无监督方法，能够实现对卷积网络的组合特征的进一步提取，可以一定程度上解决因样本量过小导致卷积神经网络提取不充分的问题。最后基于人工神经网络进行半监督网络训练，特征输入为卷积神经网的组合特征，预训练参数为堆叠降噪自动机的训练参数，实现对低层特征进行微调，缓解模型过拟合程度，提高分类准确率。

本发明提出的半监督算法能够在样本量较低的情况下，得到较高的识别率，有效的解决了因获取有标签大样本成本过于昂贵，造成样本数据过低，卷积神经网络训练容易陷入过拟合问题，在实际应用手写汉字识别系统之中，能减少制作手写汉字样本数据库的成本。同时，该发明能解决有效解决堆叠降噪自动编码由于输入维度，导致图像空间信息丢失问题。

本发明的其他优点、目标和特征在将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究以及对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

图1为基于卷积-堆叠降噪编码网络的半监督学习与图像识别流程图。

图2为卷积-堆叠降噪编码网络的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

如图1所示，本实施例提供的基于卷积-堆叠降噪编码网络的半监督学习与图像识别，包括以下步骤：

步骤1：对原始数据进行预处理。手写汉字扫描分辨率为300DPI，采用归一化转化为64*64的二值图。进一步的为所缩短训练时间，并减少网络层数，使用最近邻插值法把二值图缩小为28*28的灰度图。

步骤2：使用卷积神经网络对样本进行有监督训练，隐式地从训练数据中进行学习，可以去除冗余信息，得到包含空间特征的特征向量。对于卷积神经网络有监督预训练，共构建6层网络，如图2所示。输入层是28*28大小的原始手写汉字图片。卷积层1由32个5*5大小的卷积核卷积输入层，得到32张特征图。池化层1对卷积层1进行下采样处理，得到32张14*14大小的特征图。卷积层2由64个5*5大小的卷积核卷积池化层1，得到64张特征图。池化层2对卷积层2进行下采样处理，得到64张7*7大小的特征图。特征向量由卷积层2特征图进行特征融合得到。

卷积层用于特征提取，由M个卷积核与输入数据进行卷积操作并加上偏置，通过激活函数映射得到N张特征图。卷积层的数学表达式为：

式中，f是非线性函数，本文取用Swish，是l层中特征映射i的索引向量，w为卷积核项，b为偏置项。

池化层用于特征降维，池化层的降采样操作公式为：

式中，down()为采样函数，N^l为第l层子采样层所需要的窗口边界大小，为第l层第j个特征输出。

初始化网络参数权值{w,b}，按照(1)、(2)进行前向传播训练。基于均方误差，进行反向传播调整网络参数{w,b}。当误差满足精度要求，保存权值和偏置，网络训练完成，反之继续迭代调整权值和偏置，直至达到误差精度要求。

步骤3：提取卷积网络特征向量，其大小为m*1*1024，其中m为输入数据量大小，并作为无监督堆叠降噪自动编码网络和多层人工神经分类网络输入。

步骤4：基于堆叠降噪自动编码机进行无监督学习，并将训练完成以后的网络权值参数作为多层人工神分类网络预训练参数，具体为：堆叠两个降噪编码机，从而构造堆叠降噪自动编码机，如图2所示。噪音干扰层的输出作为第一个降噪编码机的输入，隐含层1作为编码层。隐含层1的输出作为第二个降噪编码机的输入，隐含层2作为编码层，输出层作为解码层。

原始数据输入为x，则经过由随机高斯噪声ε构造的噪音干扰层的含噪输出为y，数学表达式为：

y＝x+ε,ε～(0,σ²I) (3)

h＝f(y)＝f_s(wy+b) (4)

式中，非线性函数f_s取用Sigmoid函数，w为连接权值，b为偏置项。

式中，非线性函数f_s取用Sigmoid函数，为前向映射转置，为偏置项。

损失函数定义为重构误差。重构误差为：

初始化堆叠降噪自动编码机的网络参数{w,b}，并确定网络节点数m＝1024,n＝784，m为输入层节点数，n为中间层节点数。

设置随机高斯噪声系数ε，按照公式(3)对输入进行加噪处理。按照公式(4)、(5)和(6)进行网络迭代。进行多次网络迭代，直至公式(6)取得最优网络参数值。网络参数{w,b}按小批量梯度下降法更新，流程如下：

求出

其中，x为输入项，z为重构项。

设置网络学习率a＝1，网络参数{w,b}按公式更新如下：

步骤5：基于小批量梯度降法对多层人工神经网络进行网络微调，具体包括：卷积神经网络的隐含层的特征向量，其大小为m*1*1024作为多层人工神经网络数据输入。堆叠降噪自动编码权值参数{w,b}，作为多层人工神经网络预训练参数，采用小批量梯度降法对多层人工神经网络进行网络训练。

步骤6：模型训练完成之后，将测试数据放入模型，利用已学习参数进行学习特征测试。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，包括以下步骤：

步骤3：提取有监督预训练的隐含特征分别作为堆叠降噪自动编码机以及多层人工神经网络的特征输入；

步骤5：基于小批量梯度降法对多层人工神经网络进行网络训练，实现半监督网络对图像特征融合；

步骤6：对多层人工神经网络进行性能测试并实现分类。

2.根据权利要求1所述的基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，所述步骤1：采用包括归一化、最近邻插值法的算法对手写汉字图像进行预处理，具体包括：将原始手写汉字识别图像进行归一化处理，转化为64*64的二值图；使用最近邻插值法把二值图缩小为28*28的灰度图。

3.根据权利要求1所述的基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，所述步骤2：基于卷积神经网络对预处理后的图像进行有监督预训练，具体包括:对于卷积神经网络有监督预训练，共构建6层网络；输入层是28*28大小的原始手写汉字图片；卷积层1由32个5*5大小的卷积核卷积输入层，得到32张特征图；池化层1是对卷积层1进行下采样处理，得到32张14*14大小的特征图；卷积层2由64个5*5大小的卷积核卷积池化层1，得到64张特征图；池化层2是对卷积层2进行下采样处理，得到64张7*7大小的特征图；特征向量由卷积层2特征图进行特征融合得到；

初始化网络参数，进行前向传播训练；基于均方误差，进行反向传播调整网络参数；当误差满足精度要求，保存权值和偏置，网络训练完成，反之继续迭代调整权值和偏置，直至达到误差精度要求。

4.根据权利要求3所述的基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，所述步骤3提取有监督预训练的隐含特征作为堆叠降噪自动编码以及多层人工神经网络的特征输入，具体为：提取卷积网络特征向量，其大小为m*1*1024，其中m为输入数据量大小，并作为无监督堆叠降噪自动编码网络和多层人工神经分类网络输入。

5.根据权利要求3所述的基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，所述步骤4采用堆叠降噪自动编码机进行无监督学习，并提取训练完成的网络权值参数作为多层人工神网络预训练参数，具体为：堆叠两个降噪编码机，从而构造堆叠降噪自动编码机，噪音干扰层的输出作为第一个降噪编码机的输入，隐含层1作为编码层；隐含层1的输出作为第二个降噪编码机的输入，隐含层2作为编码层，输出层作为解码层；

初始化堆叠降噪自动编码机网络参数{w,b}，其中w,b分别为权值项及偏置项；构造4层无监督训练网络，并确定网络节点数；设置随机高斯噪声系数ε，对输入进行加噪处理；进行多次网络迭代，直至损失函数取得最优；网络参数{w,b}基于小批量梯度下降法更新，流程如下：

求出

其中，x为输入项，z为重构项；

设置网络学习率a＝1，网络参数{w,b}更新如下：

待堆叠降噪自动编码网络训练完成，提取网络权值参数{w,b}作为多层人工神经分类网络预训练参数。

6.根据权利要求5所述的基于卷积-堆叠降噪编码网络的半监督学习图像识别方法，其特征在于，所述堆叠两个降噪编码机，从而构造堆叠降噪自动编码机，噪音干扰层的输出作为第一个降噪编码机的输入，隐含层1作为编码层；隐含层1的输出作为第二个降噪编码机的输入，隐含层2作为编码层，输出层作为解码层；具体包括：原始数据输入为x，则经过由随机高斯噪声构造的噪音干扰层的含噪输出为y，数学表达式为：

y＝x+ε,ε～(0,σ²I) (3)

其中，ε表示高斯噪音；

h＝f(y)＝f_s(wy+b) (4)

式中，f_s为激活函数f_s，取用Sigmoid函数，w为连接权值，b为偏置项；

式中，f_s为激活函数，取用Sigmoid函数，为前向映射转置，为偏置项，

损失函数定义为重构误差，重构误差为：

其中，L(x,z)表示输入x与重构输出z的平方误差。

7.根据权利要求5所述的基于卷积-堆叠降噪编码网络的半监督学习与图像识别方法，其特征在于，所述步骤5基于小批量梯度降法对多层人工神经网络进行网络训练，实现半监督网络对图像特征融合；具体包括：卷积神经网络隐含层的特征向量，其大小为m*1*1024作为多层人工神经网络数据输入，堆叠降噪自动编码网络权值参数{w,b}，作为多层人工神经网络预训练参数，采用小批量梯度降法对多层人工神经网络进行网络训练，网络进行前向传播训练，其真实输出为Y，目标输出为T，均方误差为：

E＝Tr((Y-T)(Y-T)^T)(7)

其中，Tr为求矩阵的迹，E为均方误差；输出的权值矩阵梯度可表示为：

其中，U为均方误差；

为使均方误差最小，进行反向传播调整网络参数；当误差满足精度要求，保存权值和偏置，网络训练完成，反之继续迭代调整权值和偏置，直至达到误差精度要求。