CN108875696A

CN108875696A - 基于深度可分离卷积神经网络的脱机手写汉字识别方法

Info

Publication number: CN108875696A
Application number: CN201810729888.0A
Authority: CN
Inventors: 应自炉; 陈鹏飞; 朱健菲; 陈俊娟; 甘俊英; 翟懿奎
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2018-11-23

Abstract

本发明公开了基于深度可分离卷积神经网络的脱机手写汉字识别方法，首先对图像进行图像裁剪和图像负像的预处理，然后设计一个基于深度可分离卷积的卷积神经网络，使用随机梯度下降法和反向传播算法进行有监督的训练，当模型收敛时，保存模型参数。最后使用保存的模型对测试图像进行识别以验证模型的有效性，本发明能够降低模型的计算量以及存储量，使得基于神经网络的脱机手写汉字识别模型能够离线的运行在移动端设备上，在图像预处理和卷积神经网络设计方面加以改进，主要减少卷积神经网络的计算复杂度和模型容量，使其能够适用于计算资源和存储资源受限的计算设备。

Description

基于深度可分离卷积神经网络的脱机手写汉字识别方法

技术领域

本发明涉及模式识别和图像分类领域，具体涉及基于深度可分离卷积神经网络的脱机手写汉字识别方法。

背景技术

脱机手写汉字识别只有二维的图像信息，相比于联机手写汉字识别却少笔画顺序信息，所以在分类识别时，一直是一个较为困难的识别问题。传统的方法分为三部分，一是对数据进行预处理；二是人工设计特征提取；三是将特征进行分类识别。近几年，由于卷积神经网络在计算机视觉方面的成功应用，使得脱机手写汉字识别的识别准确率大幅提升。卷积神经网络只需要将原始数据做简单的预处理，便可以自动地提取特征并分类识别，完全自主地学习一个端到端的识别模型。

专利CN201611009032和CN20170304188均是采用卷积神经网络来对手写汉字进行识别。专利CN201611009032采用原始图像加图像方向特征的方式对卷积神经网络进行训练，专利CN20170304188采用不同尺寸的图像分别设计了一个两列卷积神经网络，两种方法均基于卷积神经网络，都能取得比传统方法较好的结果。

现今，识别准确率较高的卷积神经网络的网络模型容量较大，而且计算复杂度方面都较高。对于像移动端设备这种资源受限的计算设备，将较大容量的模型部署到移动端，需要耗费较大的成本。而且受限于计算资源，也无法适用于时间敏感和实时性较高的应用。

专利CN201611009032采用原始图像加图像方向特征的卷积神经网络，其对图像要先计算方向特征，然后再训练卷积神经网络；专利CN20170304188没有较为复杂的图像预处理，而是针对两个不同尺寸的原始图像进行训练，其训练的卷积神经网络模型较为庞大。对于计算资源和存储受限的计算设备，过多的图像预处理方法和较大的卷积神经网络都不能很好的使用。

目前，卷积神经网络(Convolution neural network，CNN)在脱机手写汉字识别领域已经取得了较为杰出的成果。但是，网络模型需要较大的存储量和计算资源，这些因素制约了网络模型在移动设备上的部署。采用云端部署的方案，无法适用于时间敏感和实时性有较高要求的应用。所以，采用离线部署就非常有必要。为了解决现有技术在模型容量和计算复杂度方面的不足，本发明旨在设计一个模型容量小而且计算复杂度较低的应用于脱机手写汉字识别的卷积神经网络模型。

发明内容

本发明的目的是为解决上述不足，提供基于深度可分离卷积神经网络的脱机手写汉字识别方法。

本发明的目的是通过以下技术方案实现的：

基于深度可分离卷积神经网络的脱机手写汉字识别方法，具体步骤如下：

步骤一，脱机手写汉字图像的预处理：深度可分离卷积神经网络的输入数据为单通道的灰度图像，大小为32×32，由于，原始图像大小不确定，所以首先对输入的原始图像进行缩放处理，缩放后的图像大小为32×32；所识别的手写汉字的原始背景颜色是白色，灰度值为255，为了减少计算量，将白色背景反转为黑色背景，灰度值为0；同时，汉字的亮度值也进行了反转，反转后的图像中更多的亮度值为0，图像矩阵更加稀疏，减少了计算量，原始图像的亮度值为Y(x,y),反转图像的亮度值为X(x,y)，其中x,y是二维坐标位置，图像负像满足以下公式：

1.Y(x,y)＝255-X(x,y) (1)

步骤二，设计一个基于深度可分离卷积的卷积神经网络模型：

针对设计的深度可分离卷积网络中所使用的深度可分离卷积进行详细说明，一个卷积层的输入特征图为X,大小为M×H×W，其中M是输入特征图通道数，H和W是输入特征图的高和宽；输出特征图为Y，大小为N×H′×W′，其中，N是输出特征图通道数，H′和W′是输出特征图的高和宽；卷积核为F，大小为C×K×K×N,其中，K是卷积核的大小。假设卷积步长和补边为1，由卷积的定义可知，有以下公式：

其参数量和计算复杂度分别为：

C×K×K×N (3)

C×K×K×N×H′×W′ (4)

深度可分离卷积中，每个卷积核对应只一个输入特征图，所以根据深度可分离卷积的定义，有以下公式：

为了保证有相同的输出特征图，在深度可分离卷积后面加入一个输出特征图为N的1×1标准卷积，其参数量和计算复杂度分别为：

C×K×K+C×1×1×N (6)

C×K×K×H′×W′+C×H′×W′×N (7)

使用深度可分离卷积，相比较于标准卷积，其计算复杂度和参数量都减少相同倍数，由公式(3)和公式(6)可得，

由公式(4)和(7)可得，

所以，当深度可分离卷积核K的大小为3时，相比于标准卷积，其参数量和计算复杂度要减少8到9倍。

使用深度可分离卷积，设计一个9层的深度可分离卷积神经网络，网络结构如下：

[Input]→[64C3]→2×[96dwC3,96C1]→[MP3]→2×[128dwC3,128C1]→2×[192dwC3,192C1]→2×[384dwC3,384C1]→[Dropout]→[3755C1]→[GAP]→[3755SoftMax]

其中，64C3表示有64个3×3标准卷积，96dwC3表示有96个3×3深度可分离卷积，MP3表示最大池化层，GAP表示全局平均池化层，其它层的参数以此类推；需要说明的是，每一个标准卷积层和深度可分离卷积层，均使用ReLU激活函数和批量归一化操作，Dropout层的参数设置为0.5，脱机手写汉字类别包括常用的3755个汉字，SoftMax层输出节点为3755；

步骤三，训练深度可分离卷积神经网络,采用随机梯度下降法和反向传播算法训练，步骤二中，设计的网络模型输出是SoftMax层，根据SoftMax多分类函数的定义，有以下公式：

其中，是输出的类别概率；

在随机梯度下降法中，最小化损失函数来使网络模型收敛；在分类任务中，采用输出的交叉熵作为损失函数，其定义如下公式：

随机梯度下降法是基于小批量样本数据的算法，根据梯度下降法的定义，基于批量样本的梯度可以表示为:

其中，m′表示小批量样本数，L(x,y,θ)是公式(9)的损失函数，随机梯度下降算法的网络模型参数更新如下：

θ←θ-αg (11)

其中，α是学习率；

采用上述的随机梯度下降法进行训练，训练的初始学习率设置为0.1，测试间隔设置为5000次训练时间，并保存网络模型参数，最大迭代次数设置为30万次，每10万次降低学习率10倍，当网络模型收敛时，可以提前停止训练，保存验证准确率最大的模型为最终模型；

步骤四，测试网络模型的有效性，本发明使用开源的脱机手写汉字数据集CASIA-HWDB，其中，采用CASIA-HWDB1.0和CASIA-HWDB1.1作为训练数据，将CASIA-HWDB-competition数据作为验证集数据，分别训练和测试了两个网络模型，一个是采用标准卷积的网络模型，一个是采用深度可分离卷积的网络模型，实验结果表明，标准卷积网络神经网络模型取得了96％的测试准确率；使用深度可分离卷积网络模型相比于标准卷积神经网络模型，模型容量和计算量均减少8到9倍，测试准确率为95.3％，相比而言，准确率仅降低了0.7％，本发明在损失了轻微的准确率的情况下，拥有更少的存储量和计算复杂度，能够更好地部署到计算资源和存储容量受限的设备当中，进行离线地计算。

本发明具有如下有益的效果：

本发明采用基于深度可分离卷积设计的神经网络模型，能够降低模型的计算量以及存储量，使得基于神经网络的脱机手写汉字识别模型能够离线的运行在移动端设备上，在图像预处理和卷积神经网络设计方面加以改进，主要减少卷积神经网络的计算复杂度和模型容量，使其能够适用于计算资源和存储资源受限的计算设备；主要改进包括：1)针对图像预处理只对原始图像进行简单的缩放和反转操作，没有过多的复杂操作，以减少计算量；2)针对卷积神经网络中的标准卷积，使用一种计算复杂度和参数较少的深度可分离卷积代替，以减少计算量和模型的参数量；而且本发明采用的是单列的深度可分离卷积神经网络，相比于专利CN20170304188的两列卷积神经网络，在计算复杂度和模型容量方面都有较为明显的优势。

附图说明

图1为本发明的流程图；

图2为本发明的图像预处理原图像；

图3为本发明的图像预处理缩放图像；

图4为本发明的图像预处理图像负像。

具体实施方式

下面结合附图对本发明作进一步的说明：

如图1-图4所示，基于深度可分离卷积神经网络的脱机手写汉字识别方法，具体步骤如下：

Y(x,y)＝255-X(x,y) (1)

图2-图4是图像数据预处理的实例图；

其参数量和计算复杂度分别为：

C×K×K×N (3)

C×K×K×N×H′×W′ (4)

C×K×K+C×1×1×N (6)

C×K×K×H′×W′+C×H′×W′×N (7)

由公式(4)和(7)可得，

其中，是输出的类别概率；

θ←θ-αg (11)

其中，α是学习率；

Claims

1.基于深度可分离卷积神经网络的脱机手写汉字识别方法，其特征在于：具体步骤如下：

1.Y(x,y)＝255-X(x,y) (1)

针对设计的深度可分离卷积网络中所使用的深度可分离卷积进行详细说明，一个卷积层的输入特征图为X,大小为M×H×W，其中M是输入特征图通道数，H和W是输入特征图的高和宽；输出特征图为Y，大小为N×H′×W′，其中，N是输出特征图通道数，H′和W′是输出特征图的高和宽；卷积核为F，大小为C×K×K×N,其中，K是卷积核的大小，假设卷积步长和补边为1，由卷积的定义可知，有以下公式：

其参数量和计算复杂度分别为：

C×K×K×N (3)

C×K×K×N×H′×W′ (4)

C×K×K+C×1×1×N (6)

C×K×K×H′×W′+C×H′×W′×N (7)

使用深度可分离卷积，相比较于标准卷积，其计算复杂度和参数量都减少相同倍数。由公式(3)和公式(6)可得，

由公式(4)和(7)可得，

所以，当深度可分离卷积核K的大小为3时，相比于标准卷积，其参数量和计算复杂度要减少8到9倍；

[Input]→[64C3]→2×[96dwC3,96C1]→[MP3]→2×[128dwC3,128C1]→2×[192dwC3,192C1]→

2×[384dwC3,384C1]→[Dropout]→[3755C1]→[GAP]→[3755SoftMax]

其中，是输出的类别概率；

θ←θ-αg (11)

其中，α是学习率；

采用上述的随机梯度下降法进行训练，训练的初始学习率设置为0.1，测试间隔设置为5000次训练时间，并保存网络模型参数，最大迭代次数设置为30万次，每10万次降低学习率10倍，当网络模型收敛时，可以提前停止训练，保存验证准确率最大的模型为最终模型；步骤四，测试网络模型的有效性，本发明使用开源的脱机手写汉字数据集CASIA-HWDB，其中，采用CASIA-HWDB1.0和CASIA-HWDB1.1作为训练数据，将CASIA-HWDB-competition数据作为验证集数据，分别训练和测试了两个网络模型，一个是采用标准卷积的网络模型，一个是采用深度可分离卷积的网络模型，实验结果表明，标准卷积网络神经网络模型取得了96％的测试准确率；使用深度可分离卷积网络模型相比于标准卷积神经网络模型，模型容量和计算量均减少8到9倍，测试准确率为95.3％，相比而言，准确率仅降低了0.7％，本发明在损失了轻微的准确率的情况下，拥有更少的存储量和计算复杂度，能够更好地部署到计算资源和存储容量受限的设备当中，进行离线地计算。