CN108960301B

CN108960301B - 一种基于卷积神经网络的古彝文识别方法

Info

Publication number: CN108960301B
Application number: CN201810638037.5A
Authority: CN
Inventors: 陈善雄; 王明贵; 王小龙; 马辉; 刘云; 张仕学
Original assignee: Southwest University; Guizhou University of Engineering Science
Current assignee: Southwest University; Guizhou University of Engineering Science
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2021-09-10
Anticipated expiration: 2038-06-20
Also published as: CN108960301A

Abstract

本发明基于卷积神经网络的古彝文识别方法，先构建一个由4个卷积层、2个全连接层和1个softmax层构成的卷积神经网络，在每个卷积层的前方添加额外的卷积层；将ResBlock、Inception以及SEBlock相结合形成一个混合结构，并将SEBlock附加在Incpetion结构的后面替换原始ResBlock中的权重层，再将混合结构添加至每个卷积层的前方得到改进后的卷积神经网络；在Inception结构中分别使用1×1,3×3，5×5三种卷积核进行卷积并将它们的输出进行通道叠加，再次使用一个1×1的卷积核将通道数还原，使用SEBlock对Inception结构的输出进行特征重新标定，将重新标定后的残差累加到原始的输入上。本发明构思合理，识别效果好，能避免识别中出现性能下降的问题。

Description

一种基于卷积神经网络的古彝文识别方法

技术领域

本发明涉及文字识别技术领域，具体涉及一种基于卷积神经网络的古彝文识别方法。

背景技术

文字识别技术是计算机视觉领域的重要课题，其涉及到了机器学习、自然语言处理、统计学等诸多领域，一直是一个比较热门的话题。文字识别的目的是将图像中的文本通过一系列的处理转换为数字形式。文字识别并不是一个新的问题，早在计算机发明前，人们就尝试对文字识别进行研究。传统的文字识别主要依赖于先验规则和人工特征，人们往往需要对原始图像进行繁琐的预处理及特征提取工作，但这些往往并不能完全的表示一个事物，或多或少会遗漏一些比较重要的特征。而以卷积神经网络(Convolutional NerualNetwork,CNN)为代表的深度学习能够通过大量的样本自动发现内在特征，避免了繁琐的特征提取工作，使得设计一个端到端的文字识别系统成为可能。当前深度学习已经在英文、中文识别上得到了相当广泛的应用，并取得了比较满意的结果。但相较于比较成熟的汉字识别而言，国内的古彝文识别当前仅处于起步阶段。现存的古彝文基本都为手写体，相较于标准印刷体而言，手写体的多样性无疑加大了识别的难度。古彝文拥有这庞大的字符集，2004年出版的《滇川黔桂彝文字集》就包含着87000多个字。整理后的贵州彝文楷体字体中也拥有着9000多个古彝文字。对如此庞大的字符集进行分类是一个比较困难的任务。此外，手写样本库是古彝文识别成功的关键因素，直接决定着识别结果的效果。然而当前的古彝文研究仍然主要集中在古彝文整理，没有人专门对古彝文识别进行研究，找不到可用的古彝文手写样本库。再则随着时间的流逝古彝文通晓者越来越少，这也给古彝文的识别带来了新的挑战。

相较于操作繁琐的传统文字识别技术，以卷积神经网络为代表的深度学习可以自动从样本中发现特征，避免了繁琐的样本提取工作，从而简化设计并大幅度提高识别准确率。使得设计一个端到端的文字识别系统成为可能。

近些年来，卷积神经网络发展迅猛，各种变体层出不穷，卷积神经网络的深度不断增加，比较具有影响力主要有ResNet、Inception、SENet等等。然而这些网络大多是面向GPU优化的，同时其训练往往需要耗费大量的内存与计算资源，普通的个人计算机往往无法负担这种重负。例如Inception V4结构，将其中所有Inception-resnet结构重复次数缩减1，也将消耗约11GB的内存，随着批数据大小的增大，所消耗的内存更加庞大，而当前大多数的个人计算机仅有8GB内存。此外，由于大多数个人计算机无法提供相应的显卡加速功能，其训练时间将会以月为单位。鉴于此，在修改卷积神经网络提升准确率时，应当尽量避免带入新的计算量或减少网络已有的计算量。而对于传统的卷积神经网络(如图1所示)，单纯地向网络中添加额外的卷积层，其带来的性能是有限的，同时随着添加的卷积层的增多，其训练时间急剧增加，但模型的性能却出现了下降。

发明内容

针对上述背景技术中所指的问题，本发明提出了一种基于卷积神经网络的古彝文识别方法，能够避免古彝文识别中随着卷积层数的增加而出现性能下降的问题，同时在带入有限计算量的情况下，进一步提升模型的性能；同时提出了一套样本增量流程对于手写样本进行增量，扩大样本集，提升模型的稳定性，改善模型性能，避免了繁琐的预处理技术，是一种端到端的古彝文识别方法。

本发明的技术方案如下：

上述的基于卷积神经网络的古彝文识别方法，是先构建一个由4个卷积层、2个全连接层和1个softmax层构成的卷积神经网络，然后在每个所述卷积层的前方添加额外的卷积层；接着将ResBlock、Inception以及SEBlock相结合形成一个混合结构，并将SEBlock附加在Incpetion结构的后面替换原始ResBlock中的权重层，再将所述混合结构添加至每个所述卷积层的前方得到改进后的卷积神经网络；再在Inception结构中分别使用1×1,3×3,5×5三种卷积核进行卷积并将它们的输出进行通道叠加，然后再一次使用一个1×1的卷积核将通道数还原，随后使用SEBlock对Inception结构的输出进行特征重新标定，最后将重新标定后的残差累加到原始的输入上。

所述基于卷积神经网络的古彝文识别方法，其中：在所述3×3,5×5的卷积核前方使用一个1×1的卷积核进行特征降维，减少参数和计算量；同时使用两个连续的所述3×3卷积核替换所述5×5卷积核，以进一步减少计算量。

所述基于卷积神经网络的古彝文识别方法，其中：每个所述卷积层的上方还添加有BatchNorm层。

所述基于卷积神经网络的古彝文识别方法，其中：使用ReLU函数max(0,x)作为所述改进后的卷积神经网络的激活函数。

所述基于卷积神经网络的古彝文识别方法，其中：所述改进后的卷积神经网络使用Adam算法作为优化算法；所述Adam算法拥有4个参数即α，β₁，β₂以及ε；其中α是学习率，默认为0.0001；β₁为一阶矩估计指数衰减率，默认为0.9；β₂为二阶矩估计指数衰减率，默认为0.999；ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8。

有益效果：

本发明基于卷积神经网络的古彝文识别方法构思合理，能够避免古彝文识别中随着卷积层数的增加而出现性能下降的问题，同时在带入有限计算量的情况下，进一步提升模型的性能；同时提出了一套样本增量流程对于手写样本进行增量，扩大样本集，提升模型的稳定性，改善模型性能，避免了繁琐的预处理技术，是一种端到端的古彝文识别方法。为了提高卷积神经网络的稳定性，使网络更加充分地学习特征，使用了样本增量技术对于古彝文手写样本进行增量，大幅扩大了古彝文手写样本数量。

附图说明

图1为本发明基于卷积神经网络的古彝文识别方法的传统的卷积神经网络结构图；

图2为本发明基于卷积神经网络的古彝文识别方法的增加卷积层后的卷积神经网络结构图；

图3为本发明基于卷积神经网络的古彝文识别方法的改进后的卷积神经网络结构图；

图4为本发明基于卷积神经网络的古彝文识别方法的混合结构图；

图5为本发明基于卷积神经网络的古彝文识别方法的混合结构中Inception结构B的结构图；

图6为本发明基于卷积神经网络的古彝文识别方法的混合结构中Inception结构C的结构图；

图7为本发明基于卷积神经网络的古彝文识别方法的卷积神经网络在不同学习率下的准确率图；

图8为本发明基于卷积神经网络的古彝文识别方法的激活函数图；

图9为本发明基于卷积神经网络的古彝文识别方法的Adam优化算法流程图；

图10为本发明基于卷积神经网络的古彝文识别方法的样本增量流程图；

图11为本发明基于卷积神经网络的古彝文识别方法的不同卷积神经网络的识别准确率图。

具体实施方式

本发明基于卷积神经网络的古彝文识别方法，由于当前的古彝文手写样本缺乏，故而采集了2162个不同古彝文常用字符的手写样本，其中每个样本约为100个；同时由于古彝文的字符集庞大，类别众多，本发明使用卷积神经网络作为核心来进行古彝文的识别，同时在实施过程中参考ResBlock、Inception、SEBlock等卷积神经网络的新技术对传统的卷积神经网络进行修改，进一步优化模型，并提升准确率。

本发明基于卷积神经网络的古彝文识别方法，具体包括以下步骤：(1)构建一个传统的卷积神经网络模型(如图1所示)；(2)向传统的卷积神经网络结构中添加额外的卷积层，加强低层特征的表达(如图2所示)；(3)将混合结构添加至卷积神经网络结构中，对高层特征进行微调，构成改进后的卷积神经网络(如图3所示)。

其中，上述步骤(1)具体过程为：构建一个传统的卷积神经网络结构(如图1所示)，由4个卷积层、2个全连接层、1个softmax层构成。模型的输入大小为64×64，通道数为1的灰度图，这些图像均为黑底白字。模型的输出为2162维的类概率分布向量，将概率最大的类别作为最终的分类结果；其中每一个卷积层的后方都跟随着一个最大池化层，各卷积层的感受大小均为3×3，步长为1，其特征通道数分别为100、200、300、400，输出的特征图的大小分别为32×32,16×16,8×8,4×4；在整个网络的末尾的全连接层的隐藏单元数则分别为2048、1024，并对第一个全连接层的输出使用概率为0.5的Dropout层对其进行随机失活，以增强模型的泛化能力。最后使用了一个softmax层对全连接的输出进行评分，得到分类的概率分布，并将概率最大的类别作为字符分类识别的结果。

上述步骤(2)具体过程为：首先，尝试在传统卷积神经网络的各卷积层的前方添加额外的卷积层，如图2所示，其中各卷积层的通道数分别为50、150、250、350；同时对各位置添加卷积层的效果进行测试，结果如下表1所示。实验表明在第一个卷积层的前方添加额外的卷积层效果是最好的。故而本发明在第一个卷积层的前方添加了一个通道书为50的额外卷积层。

表1

上述步骤(3)具体过程为：将混合结构分别插入第2、3、4卷积层的前方(如图3所示)，并将这些混合结构分别称为A、B、C；其中混合结构是由ResNet、Inception以及SENet网络相结合而成，将SEBlock附加在Incpetion结构的后面替换了原始ResBlock中的权重层；在Inception结构中分别使用了1×1,3×3,5×5三种卷积核进行卷积，并将它们的输出进行通道叠加，然后再一次使用一个1×1的卷积核将通道数还原。同时为了进一步加快计算，将5×5的卷积核使用两个连续的3×3卷积核进行替换，并在进行3×3卷积之前对每个分支只用1×1的卷积核降低维度，减少计算量。为了进一步减少计算量、加快网络收敛，本发明对于混合结构B和C中的Incpetion结构进行了简化，分别如图5、6所示，其中混合结构B中的Incpetion结构将5×5分支使用1×5和5×1卷积核进行替换，而混合结构A中的两个连续3×3卷积核；混合结构C中的Inception结构则将5×5分支使用了两个连续的1×3和3×1卷积核进行替换。对于每一个混合结构而言，其共具有3个参数，为K、N、R，本发明中混合结构A、B、C的参数设置如下表2所示。

表2

本发明对改进后的卷积神经网络模型，使用ReLU函数max(0，x)作为改进后的卷积神经网络的激活函数。相较于传统的激活函数sigmoid与tanh，ReLU函数计算量很小，仅仅为简单的线性计算，而sigmoid与tanh都涉及到了复杂的指数云算；同时sigmoid与tanh函数都存在着饱和性问题，对于sigmoid函数而言，lim_x→+∞f(x)＝0，lim_x→-∞f(x)＝1，而对于tanh函数而言，则为lim_x→+∞f(x)＝-1，lim_x→+∞f(x)＝1；但ReLU函数在x大于0时，其导数恒为1，不存在饱和性问题，使得模型可以有效地收敛。ReLU、sigmoid、tanh这三个激活函数的图形如图8所示。

本发明对改进后的卷积神经网络模型，使用Adam算法作为优化算法，并将初始学习率α设置为0.0001。Adam算法拥有4个参数：α，β₁，β₂以及ε。其中α是学习率，默认为0.001。β₁为一阶矩估计指数衰减率，默认为0.9。β₂为二阶矩估计指数衰减率，默认为0.999。ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8。Adam算法的参数调整比较简单，默认的参数足以应对大部分的问题。其整个算法流程如图9所示，在确定了初始参数：α，β₁，β₂以及ε后，循环更新各个部分。在一次循环中，其首先将当前的步数t自增，随后计算并更新当前的梯度g_t、一阶矩估计m_t和二阶矩估计v_t。随后再计算修正后的一阶矩估计

和二阶矩估计

最后使用

与

更新参数。相较于传统的梯度下降算法，Adam算法具有许多优势：计算高效，方便实现，内存占用少；更新步长和梯度大小无关，只和α，β₁，β₂有关系。并且由它们决定步长的理论上限；能较好的处理噪音样本；能较好处理稀疏梯度；对目标函数没有平稳要求；默认学习率不再像以前一样重要。

本发明将古彝文手写样本划分为训练集A与测试集B，并将测试集B中选取一个小批量数据作为验证集C，其中训练集A与测试集B的比例为8:2；由于本发明所采集到的样本量有限，为了确保改进后的卷积神经网络能够学习到足够多的特征，本发明使用腐蚀碰撞、弹性形变、仿射变换等预处理技术对古彝文手写样本即训练集A进行增量，其流程如图10所示，在样本进行增量操作前，需要将样本进行反色，以方便后续操作。首先对原始样本进行宽度变化和弹性形变，然后是仿射变换；对于仿射变换，旋转、缩放、平移应当按序进行；接下来是模糊加噪，一般来说这里通常只添加单一噪声；最后则是亮度及对比度变换；经过增量后的样本均为黑底白字；在实际训练过程中，本发明仅对训练集A进行了增量得到了训练集A2。

由于内存限制，为了能使训练过程正常进行，将batch的大小设置为128。此外为了使模型能够顺利的收敛，本发明为每一个卷积层都附加了一个BatchNorm层。

改进后的卷积神经网络避免了随着卷积层数的增加而出现性能下降的问题，同时在带入有限计算量的情况下，进一步提升模型的性能。如图11所示，其中M1为仅在第一个卷积层添加额外卷积层的卷积神经网络模型，M5为在每一个卷积层都添加额外层的卷积神经网络模型，M7为改进的卷积神经网络模型，从图中可以明显的看出，模型M5明显劣于M1和M7，其准确率上升最慢，在第12个周期才达到最佳准确率91.06％。模型M1在第9个周期达到最佳准确率92.84％，而模型M7则在第7个周期便达到了最佳准确率92.97％。同时可以看到模型M1与M7上升速度较为接近，同时模型M7在第7个周期开始达到相对平稳的状态，模型M1在第8个周期达到了相对平稳的状态，M7比M1更早达到平稳状态。总体而言，模型M1与M7的最终性能较为接近，但M7略有提升，比M1高了0.13个百分点。

同时由下表3可知，模型M7在训练集A2上的准确率达到了90.22％，而在测试集B上也达到了92.97％的正确率，同时其消耗的时间也仅增加了近100s，远远低于模型M5的563.40s。改进后的卷积神经网络模型能够有效地提高古彝文识别的准确率，并仅仅带入有限的计算量。

表3

实验表明，本发明所提出的基于卷积神经网络的古彝文识别方法是有效且可行的。

本发明基于卷积神经网络的古彝文识别方法构思合理，能够避免古彝文识别中随着卷积层数的增加而出现性能下降的问题，同时在带入有限计算量的情况下，进一步提升模型的性能。

Claims

1.一种基于卷积神经网络的古彝文识别方法，其特征在于：先构建一个由4个卷积层、2个全连接层和1个softmax层构成的卷积神经网络，然后在每个所述卷积层的前方添加额外的卷积层；接着将ResBlock、Inception以及SEBlock相结合形成一个混合结构，并将SEBlock附加在Incpetion结构的后面替换原始ResBlock中的权重层，再将所述混合结构添加至每个所述卷积层的前方得到改进后的卷积神经网络；再在Inception结构中分别使用1×1,3×3,5×5三种卷积核进行卷积并将它们的输出进行通道叠加，随后使用SEBlock对Inception结构的输出进行特征重新标定，将重新标定后的残差累加到改进后的卷积神经网络原始的输入上，最后将改进后的卷积神经网络输出的类概率分布向量中概率最大的类别作为最终的字符分类识别的结果，其中改进后的卷积神经网络原始的输入为古彝文手写样板，要先对原始样本进行宽度变化和弹性形变，然后进行仿射变换，且对于仿射变换的旋转、缩放、平移按序进行，接着进行模糊加噪，最后进行亮度及对比度变换，最终经过增量后的样本均为黑底白字。

2.如权利要求1所述的基于卷积神经网络的古彝文识别方法，其特征在于：每个所述卷积层的上方还添加有BatchNorm层。

3.如权利要求1所述的基于卷积神经网络的古彝文识别方法，其特征在于：使用ReLU函数max(0,x)作为所述改进后的卷积神经网络的激活函数。

4.如权利要求1所述的基于卷积神经网络的古彝文识别方法，其特征在于：所述改进后的卷积神经网络使用Adam算法作为优化算法；所述Adam算法拥有4个参数即α，β₁，β₂以及ε；其中α是学习率，默认为0.0001；β₁为一阶矩估计指数衰减率，默认为0.9；β₂为二阶矩估计指数衰减率，默认为0.999；ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8。

5.如权利要求1所述的基于卷积神经网络的古彝文识别方法，其特征在于：改进后的卷积神经网络模型的输入为大小64×64且通道数为1的灰度图，改进后的卷积神经网络模型的输出为2162维的类概率分布向量；

且改进后的卷积神经网络模型中每一个卷积层的后方都跟随着一个最大池化层，各卷积层的感受大小均为3×3，步长为1，其特征通道数分别为100、200、300、400，输出的特征图的大小分别为32×32,16×16,8×8,4×4；在整个网络的末尾的全连接层的隐藏单元数则分别为2048、1024，并对第一个全连接层的输出使用概率为0.5的Dropout层对其进行随机失活，以增强模型的泛化能力，最后使用一个softmax层对全连接的输出进行评分，得到分类的概率分布，并将概率最大的类别作为字符分类识别的结果。