CN111291696A

CN111291696A - 一种基于卷积神经网络的手写东巴文识别方法

Info

Publication number: CN111291696A
Application number: CN202010101026.0A
Authority: CN
Inventors: 庄建军; 王昀牧; 申彤; 黎文斯; 夏一飞; 张鑫; 杨鸿荣; 杨继琼; 张志俭
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2020-06-16
Anticipated expiration: 2040-02-19
Also published as: CN111291696B

Abstract

一种基于卷积神经网络的手写东巴文识别方法，包括如下步骤，采集阶段：通过拍摄或扫描获得手写文字图片；预处理阶段：先对图片进行尺寸调整，使用双线性插值法对图像大小进行调整，得到统一尺寸的灰度图像；搭建卷积神经网络；将所述二值图像输入到所述卷积神经网络，计算得到一维的特征图；搭建全连接层；将所述特征图输入全连接层，迭代训练更新所述卷积神经网络和全连接层的参数，得到最优网络权值参数；文字识别阶段：将二值图像投入加载经上述的网络权值参数的神经网络模型推理，最终计算得出识别结果。本方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法，增加了包含有效信息的像素，减少了噪声干扰，识别率高。

Description

一种基于卷积神经网络的手写东巴文识别方法

技术领域

本发明涉及文字识别领域，具体涉及一种基于卷积神经网络的手写东巴文识别方法。

背景技术

我国是一个统一的多民族国家，民族多，语言多，文字多，少数民族的文字造就了中华文化的多样性。每天世界上都有很多语言和文字面临消失的危险，保护语言文字的多样性具有重大的历史意义。东巴文是一种兼备表意和表音成分的图画象形文字。其文字形态十分原始，甚至比甲骨文的形态还要原始，属于文字起源的早期形态，但亦能完整纪录典藏。东巴文是居于西藏东部及云南省北部的少数民族纳西族所使用的文字。但遗憾的是，越来越少的年轻纳西族人能认识和使用这种文字了，如果我们不对东巴文进行保护，这种活泼生动、与自然紧密结合的语言将成为只在老人记忆中的语言。

近年来，随着深度学习技术的推广，文字的自动识别变得越来越简单快捷。相较于传统的基于文字图像结构纹理判断的算法，卷积神经网络能够基于图像的所有信息提取更多复杂特征。卷积神经网络就像一个黑盒子，技术人员不需要知道其中每一个参数和输出的意义，只需要给它提供足够的数据集，它就可以训练并更新每一个参数，直到可以准确地识别没有训练过的图片。随着卷积层数的增多，网络可以提取的特征更多，但同时计算量增大，对硬件设备的要求提高，判断单个文字图像的耗时增加。

不同于印刷体文字，手写文字形状各异，笔迹粗细不一，采集清晰度亮度不同，直接输入神经网络则需要更多的数据集合、更深的网络结构才能完成特征提取，因此图像预处理十分有必要。

发明内容

本发明目的是，提出一种基于卷积神经网络的手写东巴文识别方法与系统。通过图像预处理手段，大大降低了网络模型的复杂度，提升了模型性能，缩短了训练和识别的时间。

本发明的技术方案如下：一种基于卷积神经网络的手写东巴文识别方法，包括如下步骤：图像采集、预处理、网络训练和文字识别四个阶段；

采集阶段：通过拍摄或扫描获得手写文字图片；预处理阶段：先对图片进行尺寸调整，使用双线性插值法对图像大小进行调整，得到统一尺寸的灰度图像；使用高斯模糊法对灰度图像进行模糊处理，兼有过滤噪声和增粗笔迹的作用；使用OSTU法对模糊处理后的图像进行阈值分割，得到二值图像；

网络训练阶段：搭建卷积神经网络；将所述二值图像输入到所述卷积神经网络，计算得到一维的特征图(1×1×n)；搭建全连接层；将所述特征图输入全连接层，迭代训练更新所述卷积神经网络和全连接层的参数，得到最优网络权值参数；

尤其是先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络，再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练，最后保存训练所得网络权值参数；

文字识别阶段：采用拍摄或者扫描的方式获取手写文字图像，先由上述预处理阶段得到灰度二值图像，将二值图像投入加载经上述的网络权值参数的神经网络模型推理(上述训练阶段的网络结构并加载保存的参数，最终计算得出识别结果。

图像预处理阶段具体步骤：使用双线性插值法对图像大小进行调整，得到统一尺寸的灰度图像；使用高斯模糊法对灰度图像进行模糊处理，兼有过滤噪声和增粗笔迹的作用；使用OSTU法对模糊处理后的图像进行阈值分割，得到二值图像，具体操作如下：

S1.假设图像大小为N＝W×H，选取灰度值T作为二值化的阈值；

S2.统计图像中像素的灰度值小于阈值T的像素个数记作N₀；像素灰度值大于阈值T的像素个数记作N₁；

S3.计算ω₀＝N₀/N，ω₁＝N₁/N；

S4.计算N₀个小于T的像素点的平均像素值，记为μ₀,计算N₁个大于T的像素点的平均像素值，记为μ₁；

S5.计算全体像素点的平均灰度值μ＝ω₀*μ₀+ω₁*μ₁；

S6.计算类间方差g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²；

S7.T取遍0-255所有整数，循环S2-S6的过程，类间方差g最小时的阈值T即是最优阈值；

S8.以T为阈值，将图像分割为前景和背景，对坐标为(i,j)的像素点的灰度值y_ij重新赋值：

训练阶段：

搭建网络模型，包括4个卷积层(卷积核尺寸3×3,滑动步长为2×2，激活函数为relu)，2个最大池化层(2×2)和2个全连接层，模型输出通过softmax激活函数模拟概率，以交叉熵(cross entropy)作为损失函数；

采用Adam优化方法对网络模型进行训练，迭代固定次数(不小于500次)，保存模型的最优参数；

识别阶段：采用拍摄或者扫描的方式获取手写文字图像，先由预处理阶段得到灰度二值图像，经网络模型推理，得到预测概率最大的种类，即为该文字的真值；

训练阶段：

识别阶段：

采用拍摄或者扫描的方式获取手写文字图像，先由预处理阶段得到灰度二值图像，经网络模型推理，得到预测概率最大的种类，即为该文字的真值；

有益效果：本发明基于卷积神经网络的手写东巴文识别方法构思合理，尤其是网络训练阶段：先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络，再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练，最后保存训练所得网络权值参数；将二值图像投入加载过参数的卷积神经网络，最终计算得出识别结果。本方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法，增加了包含有效信息的像素，减少了噪声干扰，识别率高，操作简单，计算量小，易于部署，泛化性好。得到预测概率最大的种类，即为该文字的真值；能够在保持极高的识别准确率的同时降低网络模型的复杂度，相较于动辄几十层甚至上百层的残差网络结构，该结构减少了计算量，加快了训练和识别的速度，使得东巴文识别系统在低成本硬件上部署成为可能；图像的预处理手段，降低了对于图像采集的环境要求，在多种亮度和多种角度下拍摄的文字图像都可以准确识别，本发明具有良好的泛化性和鲁棒性。本发明方法在图像预处理阶段利用高斯模糊法和OSTU阈值分割法，增加了包含有效信息的像素，减少了噪声干扰，识别率高，操作简单，计算量小，易于部署，泛化性好。，得到预测概率最大的种类，即为该文字的真值；

附图说明

图1为部分东巴文字图像(共35幅)；

图2为东巴文例字“六月”；

图3为图像处理前后对比图；

图4为本发明中网络模型参数训练流程图；

图5为本发明中卷积神经网络结构示意图；

图6为文字识别流程；

图7为全接连层示意图。

具体实施方式

本发明提出一种基于卷积神经网络的东手写巴文识别方法，该方法可以识别各种不规则的手写体和印刷体的东巴文，且能保证在复杂背景下的识别成功率。为使本技术领域的人员更好地理解本发明实施例中的技术方案，使本发明实施例中的上述优点、特征更加明显，下面对本发明的技术方案作进一步详细说明。

在本发明中，技术人员需要先进行一定量的数据采集，数据量的大小会影响网络模型的鲁棒性，若测试的书写风格越规范统一，则需要的数据集越小，反之越大；例如为识别各个字典上的印刷体东巴文，则每个字需要采集较少的样本，而为识别学生的手写体东巴文，则需要较多的样本；一般情况下，为识别手写体的东巴文，最少每个字约采集10个样本，其中8个样本作为训练集，2个样本作为测试集。

通过处理目标文字图片得到二值图像，包括：

使用双线性插值法将所述目标文字图片调整到统一尺寸(宽高皆大于100像素)；

使用高斯模糊法对调整尺寸后的图片进行模糊处理；

使用OSTU方法从模糊处理后的图片中选取最佳阈值，将模糊处理后的图片划分成所述二值图像；

所述卷积神经网络，包含2个block，每个block包含2个3×3的卷积层1个2×2的最大池化层，每个3×3的卷积层后添加relu激活函数，使用全局平均池化获得每层为1×1的特征图；

所述全连接层，包含一个输入层，一个隐藏层和一个输出层，输入层神经元个数为卷积神经网络的输出特征图个数，输出层神经元个数为文字种类数，激活函数为softmax，隐藏层神经元个数设置为输出神经元个数的5倍；

迭代训练更新所述卷积神经网络和全连接层的参数，包括：

损失函数采用cross entropy函数；

训练优化方式采用Adam方法；

固定迭代次数为1000，保存测试集准确率最高的参数；

所述Adam方法拥有4个参数即α，β₁，β₂以及ε；其中α是学习率，默认为0.0001；β₁为一阶矩估计指数衰减率，默认为0.9；β₂为二阶矩估计指数衰减率，默认为0.999；ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8.

数据采集方式为扫描或者拍摄文字图像，因本方法中合理的预处理手段，拍摄图像时对角度、光照、目标文字的大小、文字背景没有特别要求，但因本方法是单字识别，所以每个图像只能包含一个目标文字，或扫描拍摄后截取一个目标文字。

数据采集完成后，需先转换成灰度图，为了使处理后的图像可以输入到网络中进行训练和识别，需要对图像的尺寸进行统一调整，为了保证经4层卷积层和2层池化层的运算后仍保持特征图每层不少于一个像素点，所以统一调整的尺寸应大于100×100，否则将无法完成特征提取。

图像统一尺寸后，对图像进行高斯模糊，其作用不止于过滤噪声，同时可以增粗手写体的笔迹，使图像获得更多的包含有效信息的像素点。高斯模糊建议采用方案：滤镜大小为3×3，滑动步长为1×1，padding方式为1×1。

图像模糊处理后，对图像进行阈值分割，具体流程可参考图1，使用OSTU自适应阈值分割方法获得分割阈值。像素值大于阈值的像素点，将其像素值赋值为255，像素值小于阈值的像素点，将其像素值赋值为0。

建立如图2所示的网络结构，包括两个部分：卷积神经网络和全连接层。卷积神经网络包含两个block，每个block包含2个3×3的卷积层(padding方式为valid，滑动步长为2×2，激活函数为relu)和1个2×2的最大池化层。

为使卷积神经网络的特征图可以输入到全连接层，需要对特征图进行降维。本发明采用在第2个block后接一个全局平均池化层的方法来代替传统的flatten方法，可以降低计算量。

建立全连接层，假设n是降维后特征图的像素点个数，c是待识别文字的种类数，包括：1个输入层(包含n个神经元，激活函数为relu)，1个隐藏层(建议包含5c个神经元，激活函数为relu)和1个输出层(包含c个神经元)，输出层用以模拟预测目标文字是每个种类的概率。

设置输出层激活函数为softmax函数：

σ_i(z)表示输出层第i个神经元经softmax函数激活后的输出，z_i表示输出层第i个神经元未经激活的值。

设置损失函数为交叉熵(cross entropy)函数：

其中，m为一个batch的样本数量，n为文字的种类数，p_ij为该batch中第i个文字属于第j类文字的真实概率(为0或1)，q_ij为该batch中第i个文字属于第j类文字的推测概率(区间为(0,1))。训练的迭代中，q_ij将逐渐逼近p_ij，最终达到正确预测文字种类的目的。

设置优化策略为Adam方法，所述Adam方法拥有4个参数即α，β₁，β₂以及ε；其中α是学习率，默认为0.0001；β₁为一阶矩估计指数衰减率，默认为0.9；β₂为二阶矩估计指数衰减率，默认为0.999；ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8.

设置训练终止条件(建议设置为固定1000次训练)，设置参数保存策略为保存测试集成绩最好的模型参数，开始训练。

识别文字流程如图3所示。首先采集文字图像，预处理方法和训练过程中的处理方法相同；再建立和训练阶段相同的网络结构；

然后为网络结构加载保存的最优参数。将处理后的文字的二值图像输入到网络中计算推理，全连接输出层输出值最大的神经元所代表的文字种类即是正确推理的种类。

本发明基于卷积神经网络的手写东巴文识别方法构思合理，提出了从预处理到训练到识别东巴文的完整方案，其计算量小，训练和识别时间短，准确率高的特性适合低成本部署。

Claims

1.一种基于卷积神经网络的手写东巴文识别方法，其特征是，包括如下步骤：图像采集、预处理、网络训练和文字识别四个阶段；采集阶段：通过拍摄或扫描获得手写文字图片；预处理阶段：先对图片进行尺寸调整，使用双线性插值法对图像大小进行调整，得到统一尺寸的灰度图像；使用高斯模糊法对灰度图像进行模糊处理，兼有过滤噪声和增粗笔迹的作用；使用OSTU法对模糊处理后的图像进行阈值分割，得到二值图像；网络训练阶段：

搭建卷积神经网络；将所述二值图像输入到所述卷积神经网络，计算得到一维的特征图(1×1×n)；搭建全连接层；将所述特征图输入全连接层，迭代训练更新所述卷积神经网络和全连接层的参数，得到最优网络权值参数；

文字识别阶段：采用拍摄或者扫描的方式获取手写文字图像，先由上述预处理阶段得到灰度二值图像，将二值图像投入加载经上述的网络权值参数的神经网络模型推理，上述训练阶段的网络结构加载保存的参数，最终计算得出识别结果。

2.根据权利要求1所述的基于卷积神经网络的手写东巴文识别方法，其特征是，

S1.假设图像大小为N＝W×H，选取灰度值T作为二值化的阈值；

S3.计算ω₀＝N₀/N，ω₁＝N₁/N；

S5.计算全体像素点的平均灰度值μ＝ω₀*μ₀+ω₁*μ₁；

S6.计算类间方差g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²；

3.根据权利要求1所述的基于卷积神经网络的手写东巴文识别方法，其特征是，训练阶段中：

搭建网络模型，先构建一个由4个卷积层、2个池化层和2个全连接层构成的卷积神经网络，再将大量经过预处理阶段得到的手写东巴文的二值图像投入网络进行训练，最后保存训练所得网络权值参数；4个卷积层卷积核尺寸3×3,滑动步长为2×2，激活函数为relu，2个最大池化层(2×2)和2个全连接层，模型输出通过softmax激活函数模拟概率，以交叉熵(cross entropy)作为损失函数；

采用Adam优化方法对网络模型进行训练，迭代固定次数、不小于500次，保存模型的最优参数；

识别阶段：采用拍摄或者扫描的方式获取手写文字图像，先由预处理阶段得到灰度二值图像，经网络模型推理，得到预测概率最大的种类，即为该文字的真值。

4.根据权利要求2所述的基于卷积神经网络的手写东巴文识别方法，其特征是，图像预处理阶段中，通过处理目标文字图片得到二值图像，包括：

使用双线性插值法将所述目标文字图片调整到统一尺寸，宽高皆大于100像素；

使用高斯模糊法对调整尺寸后的图片进行模糊处理；

使用OSTU方法从模糊处理后的图片中选取最佳阈值，将模糊处理后的图片划分成所述二值图像。

5.如权利要求1所述的方法，其特征在于：所述卷积神经网络，包含2个block，每个block包含2个3×3的卷积层1个2×2的最大池化层，每个3×3的卷积层后添加relu激活函数，使用全局平均池化获得每层为1×1的特征图。

6.如权利要求5所述的方法，其特征在于：所述全连接层，包含一个输入层，一个隐藏层和一个输出层，输入层神经元个数为卷积神经网络的输出特征图个数，输出层神经元个数为文字种类数，激活函数为softmax，隐藏层神经元个数设置为输出神经元个数的5倍。

7.如权利要求5所述的方法，其特征在于，迭代训练更新所述卷积神经网络和全连接层的参数，包括：

损失函数采用cross entropy函数；

训练优化方式采用Adam方法；

固定迭代次数为1000，保存测试集准确率最高的参数；

8.如权利要求5所述的方法，其特征在于：所述Adam方法拥有4个参数即α，β₁，β₂以及ε；其中α是学习率，默认为0.0001；β₁为一阶矩估计指数衰减率，默认为0.9；β₂为二阶矩估计指数衰减率，默认为0.999；ε为添加到分母中的最小值，用于防止分母为0，默认为1e-8。