CN110929652A

CN110929652A - 基于LeNet-5网络模型的手写体中文字符识别方法

Info

Publication number: CN110929652A
Application number: CN201911172871.0A
Authority: CN
Inventors: 何凯; 黄婉蓉; 刘坤; 高圣楠
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-03-27
Anticipated expiration: 2039-11-26
Also published as: CN110929652B

Abstract

本发明涉及计算机图像处理领域，为解决传统手写中文字符识别准确率较低的问题，实现手写中文字符的自动识别，本发明，基于LeNet‑5网络模型的手写体中文字符识别方法，由基于数据流编程的符号数学系统框架构造一个LeNet‑II网络模型，所述网络模型是由分支branch1、分支branch2和输出三个组成部分的卷积神经网络，branch1包括卷积层、池化层和一个改进的Inception模块；branch2由空洞卷积层和最大池化层组成；输出部分包括卷积层、池化层、全连接层、输出层；利用训练集对所述网络模型进行训练；最终利用训练完毕的LeNet‑II网络模型进行识别。本发明主要应用于设计制造场合。

Description

基于LeNet-5网络模型的手写体中文字符识别方法

技术领域

本发明涉及计算机图像处理领域，尤其涉及一种基于LeNet-5网络模型的手写体中文字符识别方法。

背景技术

手写体中文自动识别是实现文档数字化的前提和基础，也是计算机视觉领域的研究热点，其在历史文档识别，支票信息识别，信封上的邮政地址识别等方面都有着广泛的应用。在过去的几十年中，各国学者在该领域做了大量研究工作，取得了很大进展，但目前仍然存在一些问题。手写体中文自动识别的困难主要来自于：1)中文字符数量众多、书写随意、风格迥异、结构复杂、笔画繁琐；2)部分中文字符字形相近、差异极小，当书写不规范时甚至人类自身都难以识别，例如：字符“大”、“太”和“犬”，“日”、“曰”和“目”，“工”、“土”和“士”等，这使得中文识别具有很大的挑战性。

手写中文识别可分为：联机手写中文识别和脱机手写中文识别2大类；与前者相比，后者由于没有可以利用的笔画时序信息，识别难度更大，准确率更低。本文主要针对后者开展相关研究，常用的识别方法主要有：支持向量机(Support vector machine,SVM)、改进的二次判决函数(Modifled quadratic discriminant function,MQDF)以及鉴别学习二次判决函数(Discriminative learning quadratic discriminant function,DLQDF)等。

上述方法的识别准确率与人类表现有很大差距，无法满足实际要求。因此，LeCun在20世纪90年代提出了卷积神经网络,，其在字符识别中取得了较好的实际效果，代表了当前的主要研究方向。例如：瑞士人工智能研究所提出基于卷积神经网络GPU(图形处理器)实现汉字识别，富士通团队提出基于深度卷积神经网络模型的识别方法，以及吴等人提出的基于松弛卷积神经网络的识别方法，都取得了较好的中文识别效果。

发明内容

本发明提供了一种基于LeNet-5网络模型的手写体中文字符识别方法，本发明解决了传统手写中文字符识别准确率较低的问题，实现了手写中文字符的自动识别，详见下文描述：

一种基于LeNet-5网络模型的手写体中文字符识别方法，在LeNet-5网络模型的基础上进行改进，由基于数据流编程的符号数学系统TensorFlow框架构造一个LeNet-II网络模型，所述网络模型是由分支branch1、分支branch2和输出三个组成部分的卷积神经网络，branch1包括卷积层、池化层和一个改进的Inception模块；branch2由空洞卷积层和最大池化层组成；输出部分包括卷积层、池化层、全连接层、输出层；利用训练集对所述网络模型进行训练；最终利用训练完毕的LeNet-II网络模型进行识别。

待识别数据输入所述网络模型前需进行如下处理：

对文本图片进行灰度化、二值化处理；

对中文字符图片进行扫描处理，对中文字符进行正射纠正，并使其位于图片中间位置，上下左右各留出10个空白像素；

branch1包括：3个卷积层、3个池化层和一个改进的Inception模块，3个池化层均采用最大池化计算；

由4层空洞卷积层和3层最大池化层组成branch2部分。

改进的Inception模块具体指，重新分配Inception模块的4个通道数，增加3×3卷积核的通道数，减少1×1卷积核的通道数，3×3卷积通道、5×5卷积通道、1×1卷积通道以及池化通道4个通道数的比例为5:1:1:1；同时，在3×3卷积层后添加一层卷积层，此外，还将5×5的二维卷积核分解为1×5和5×1两个一维卷积。

所述由4层空洞卷积层和3层最大池化层组成的branch2部分具体结构为：

Layer(层)1为空洞卷积层，卷积核大小为3×3，卷积核个数为64，空洞卷积的间隔数量为2，输入图像大小为64×64，输出图像大小为64×64；

Layer2为池化层，池化过滤器大小为2×2，过滤器个数为64，步长为2，输入图像大小为64×64，输出图像大小为32×32；

Layer3为空洞卷积层，卷积核大小为3×3，卷积核个数为128，空洞卷积的间隔数量为2，输入图像大小为32×32，输出图像大小为32×32；

Layer4为池化层，池化过滤器大小为2×2，过滤器个数为128，步长为2，输入图像大小为32×32，输出图像大小为16×16；

Layer 5为空洞卷积层，卷积核大小为3×3，卷积核个数为256，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

Layer 6为空洞卷积层，卷积核大小为3×3，卷积核个数为512，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

Layer 7为池化层，池化过滤器大小为2×2，过滤器个数为512，步长为2，输入图像大小为16×16，输出图像大小为8×8。

利用空洞卷积来进行branch2卷积层的计算，计算公式如下：

ksize＝(n-1)×(k-1)+k (1)

r＝(m-1)×stride+ksize (2)

其中,n表示卷积核的间隔数量，k表示卷积核大小，ksize表示膨胀卷积核大小，r表示本层感受野，m表示上层感受野，stride表示步长。

本发明的特点及有益效果是：

1、本发明在经典LeNet-5网络模型的基础上进行改进，提出了一种LeNet-II模型，实现了手写中文字符的自动识别；

2、本发明利用空洞卷积，设计了一种并行的双路卷积神经网络结构；两路分支可分别提取手写中文图像中不同尺度的特征，获得多个尺度的特征图像；

3、本发明对Inception模块进行改进，以降低计算成本，减轻过拟合；并利用非对称的卷积结构来获得更加丰富的空间特征。

附图说明：

图1是一种基于LeNet-5网络模型的手写体中文字符识别方法的流程图；

图2是LeNet-II模型网络结构；

图3是改进前的Inception模块；

图4是改进后的Inception模块；

图5是LeNet-5模型accuracy曲线图；

图6是LeNet-II模型accuracy曲线图。

表1是几种方法在HWDB数据集上识别准确率比较。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于LeNet-5(一种包括3层卷积层、2层池化层、1层全连接层和1层输出层的7层卷积神经网络，用于手写体字符识别)网络模型的手写体中文字符识别方法，参见图1，该方法包括以下步骤：

101：对中文字符图片进行灰度化、二值化处理；

102：对中文字符进行扫描处理，对中文进行正射纠正，并使其位于图片中间位置，上下左右各留出10个空白像素；

103：构建LeNet-II(本发明所设计的包括2路分支的卷积神经网络，用于手写体中文识别)网络模型，利用训练集进行训练；输入待测图片，利用构建的LeNet-II网络模型进行识别。

其中，本发明实施例使用的深度学习框架为TensorFlow(基于数据流编程的符号数学系统)。基于TensorFlow构造一个LeNet-II网络模型，该网络模型由branch1(分支1)、branch2(分支2)和输出三个部分组成。其中branch1包括：3个卷积层、3个池化层和一个改进的Inception(一种具有优良局部拓扑结构的网络，使用3个不同大小的滤波器对输入执行卷积操作)模块。3个池化层均采用最大池化计算。

1、Layer(层)1为卷积层，卷积核大小为3×3，卷积核个数为64，步长为1，输入图像大小为64×64，输出图像大小为64×64；

2、Layer 2为池化层，池化过滤器大小为2×2，过滤器个数为64，步长为2，输入图像大小为64×64，输出图像大小为32×32；

3、Layer 3为卷积层，卷积核大小为3×3，卷积核个数为128，步长为1，输入图像大小为32×32，输出图像大小为32×32；

4、Layer 4为池化层，池化过滤器大小为2×2，过滤器个数为128，步长为2，输入图像大小为32×32，输出图像大小为16×16；

5、Layer 5为卷积层，卷积核大小为3×3，卷积核个数为256，步长为1，输入图像大小为16×16，输出图像大小为16×16；

6、Layer 6为池化层，池化过滤器大小为2×2，过滤器个数为256，步长为2，输入图像大小为16×16，输出图像大小为8×8；

7、Layer7为一个改进的Inception模块，由于Inception模块前一卷积层使用256通道，且卷积核大小为3×3；为避免特征表示瓶颈，造成信息损失，本发明重新分配了Inception模块的4个通道数，适当增加3×3卷积核的通道数，减少1×1卷积核的通道数，将原本3×3卷积通道、5×5卷积通道、1×1卷积通道以及池化通道4个通道数的比例由4:1:2:1修改为5:1:1:1；同时，在3×3卷积层后又添加了一层卷积层，以增强3×3这一通道的表达能力。此外，还将5×5的二维卷积核分解为1×5和5×1两个一维卷积，以降低计算成本，减轻过拟合；并利用非对称的卷积结构来获得更加丰富的空间特征。

输出部分结构为：

8、Layer 8为卷积层，卷积核大小为3×3，卷积核个数为768，步长为1，输入图像大小为8×8，输出图像大小为8×8；

9、Layer 9为池化层，池化过滤器大小为2×2，过滤器个数为768，步长为2，输入图像大小为8×8，输出图像大小为4×4；

10、Layer 10为全连接层，输出1024个神经元；

11、Layer 11为输出层，输出3755个神经元，用于执行最终的识别。

综上所述，本发明实施例改进了Inception模块，利用非对称的卷积结构来获得更加丰富的空间特征，实现了手写中文字符的自动识别。

实施例2

下面结合具体的计算公式、实例对实施例1中的branch2部分以及LeNet-II网络模型进行进一步地介绍，详见下文描述：

201：为增加特征图像的多样性，本发明设计了LeNet-II模型的branch2结构，它由4层空洞卷积层和3层最大池化层组成。一幅手写汉字图像可在不同尺度上对特征进行提取，以更全面地反映图像信息。LeNet-II模型中branch1结构使用3×3的卷积核提取图像信息，因此branch2结构需要使用更大的卷积核，以更好地学习手写汉字图像边缘的形状特征。然而，采用5×5或者7×7的卷积核，会极大地增加参数个数和计算复杂度。为解决这一问题，本发明利用空洞卷积来进行branch2卷积层的计算。计算公式如下：

ksize＝(n-1)×(k-1)+k (3)

r＝(m-1)×stride+ksize (4)

其中,n表示卷积核的间隔数量(普通卷积为1)，k表示卷积核大小，ksize表示膨胀卷积核大小，r表示本层感受野，m表示上层感受野，stride表示步长。从公式(3)、(4)可以看出，相比于普通卷积，空洞卷积在卷积核大小相同时，可以拥有更大的感受野，有助于减少空间层级化信息和内部数据结构信息的丢失。Branch2的卷积核大小仍选择3×3，对比branch1和branch2的第1层，在空洞卷积的间隔数量为2时，感受野从3×3增加到了5×5。

202：所述由4层空洞卷积层和3层最大池化层组成的branch2部分具体结构为：

1、Layer1为空洞卷积层，卷积核大小为3×3，卷积核个数为64，空洞卷积的间隔数量为2，输入图像大小为64×64，输出图像大小为64×64；

2、Layer2为池化层，池化过滤器大小为2×2，过滤器个数为64，步长为2，输入图像大小为64×64，输出图像大小为32×32；

3、Layer 3为空洞卷积层，卷积核大小为3×3，卷积核个数为128，空洞卷积的间隔数量为2，输入图像大小为32×32，输出图像大小为32×32；

5、Layer 5为空洞卷积层，卷积核大小为3×3，卷积核个数为256，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

6、Layer 6为空洞卷积层，卷积核大小为3×3，卷积核个数为512，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

7、Layer 7为池化层，池化过滤器大小为2×2，过滤器个数为512，步长为2，输入图像大小为16×16，输出图像大小为8×8。

203：LeNet-II模型采用swish激活函数(谷歌在2017年10月16号提出的一种新型激活函数)，并将其应用于LeNet-II模型的卷积层，以进一步提升模型的准确率。Swish函数的计算公式如下：

204：利用构建好的LeNet-II模型，对数据集进行训练；

本发明使用HWDB(Handwriting Database，笔迹数据库)数据集进行训练和测试；总共包含3755个中文字符，每个字符有300个笔迹样本。从数据集中随机选取80％的数据作为训练数据集，剩下的20％数据作为测试数据集。

205：将HWDB数据集中的图像信息作为输入层，输入到构建的LeNet-II模型中；

206：对中文字符图像进行正射纠正，使得中文字符位于图片中间位置，上下左右各自余留10个像素的空白区域；

207：得到训练好的模型后，将分割并处理后的中文字符图像输入模型进行识别，得到识别好的中文字符结果。

综上所述，本发明实施例利用改进的Inception模块和空洞卷积，设计了一种并行的双路卷积神经网络结构；两路分支可分别提取手写中文图像中不同尺度的特征，获得多个尺度的特征图像；通过对其进行特征融合，可以达到丰富特征图像多样性、提升识别准确率的目的；利用该模型实现了3755类手写体中文字符的自动识别。

实施例3

下面结合图5-图6、表1对实施例1和2中的方案进行可行性验证，详见下文描述：

301：本发明使用HWDB数据集进行训练和测试。

302：首先利用构建好的LeNet-II网络模型对HWDB数据集进行训练和测试，并得到训练好的模型。本发明实验中，操作系统为Ubuntu(乌班图)16.04，GPU(图形处理器)内存为11G，使用TensorFlow深度学习框架。

303：实验结果的分析。

采用LeNet-5和LeNet-II模型，训练accuracy(准确率)曲线如图5和图6所示。从图中可以看出，LeNet-5模型经过80k步训练之后，accuracy曲线才逐渐趋于平稳，之后一直在80％附近波动；而LeNet-II模型，经20k步训练之后，accuracy值即可达到90％，40k步之后，基本保持平稳；70k步之后，基本达到98％以上，性能明显优于LeNet-5模型。

304：采用不同识别方法对HWDB数据集进行识别，其识别准确率如表1所示。从表中可以看出，基于本文LeNet-II模型，识别准确率明显优于传统方法，也略优于ICDAR(文档分析与识别国际会议)-2011和ICDAR-2013冠军队伍方法，证明了该模型的有效性。

表1几种方法在HWDB数据集上识别准确率比较

参考文献

[1]Tensorflow API Documentation[M].Google,2015.

[2]Wang Y W,Li X,Liu C S,et al.An MQDF-CNN hybrid model for offlinehandwritten Chinese character recognition[C]//2014 14th InternationalConference on Frontiers in Handwriting Recognition.IEEE,2014:246-249.

[3]Liu C L,Yin F,Wang D H,et al.Chinese handwriting recognitioncontest 2010[C]//2010Chinese Conference on Pattern Recognition(CCPR).IEEE,2010:1-5.

[4]Liu C L,Yin F,Wang Q F,et al.ICDAR 2011Chinese HandwritingRecognition Competition[C]//2011International Conference on Document Analysisand Recognition.IEEE,2011:1464-1469.

[5]Yin F,Wang Q F,Zhang X Y,et al.ICDAR 2013Chinese handwritingrecognition competition[C]//2013 12th International Conference on DocumentAnalysis and Recognition.IEEE,2013:1464-1470.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，由基于数据流编程的符号数学系统TensorFlow框架构造一个LeNet-II网络模型，所述LeNet-II网络模型是由分支branch1、分支branch2和输出三个组成部分的卷积神经网络，branch1包括卷积层、池化层和一个改进的Inception模块；branch2由空洞卷积层和最大池化层组成；输出部分包括卷积层、池化层、全连接层、输出层；利用训练集对所述网络模型进行训练；最终利用训练完毕的LeNet-II网络模型进行识别。

2.如权利要求1所述的基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，待识别数据输入所述网络模型前需进行如下处理：

对文本图片进行灰度化、二值化处理；

对中文字符图片进行扫描处理，对中文字符进行正射纠正，并使其位于图片中间位置，上下左右各留出10个空白像素。

3.如权利要求1所述的基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，branch1包括：3个卷积层、3个池化层和一个改进的Inception模块，3个池化层均采用最大池化计算；

由4层空洞卷积层和3层最大池化层组成branch2部分。

4.如权利要求3所述的基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，改进的Inception模块具体指，重新分配Inception模块的4个通道数，增加3×3卷积核的通道数，减少1×1卷积核的通道数，3×3卷积通道、5×5卷积通道、1×1卷积通道以及池化通道4个通道数的比例为5:1:1:1；同时，在3×3卷积层后添加一层卷积层，此外，还将5×5的二维卷积核分解为1×5和5×1两个一维卷积。

5.如权利要求3所述的基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，所述由4层空洞卷积层和3层最大池化层组成的branch2部分具体结构为：

Layer层1为空洞卷积层，卷积核大小为3×3，卷积核个数为64，空洞卷积的间隔数量为2，输入图像大小为64×64，输出图像大小为64×64；

Layer5为空洞卷积层，卷积核大小为3×3，卷积核个数为256，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

Layer6为空洞卷积层，卷积核大小为3×3，卷积核个数为512，空洞卷积的间隔数量为2，输入图像大小为16×16，输出图像大小为16×16；

Layer7为池化层，池化过滤器大小为2×2，过滤器个数为512，步长为2，输入图像大小为16×16，输出图像大小为8×8。

6.如权利要求3所述的基于LeNet-5网络模型的手写体中文字符识别方法，其特征是，利用空洞卷积来进行branch2卷积层的计算，计算公式如下：

ksize＝(n-1)×(k-1)+k (1)

r＝(m-1)×stride+ksize (2)