CN112287920A

CN112287920A - 基于知识蒸馏的缅甸语ocr方法

Info

Publication number: CN112287920A
Application number: CN202010978722.XA
Authority: CN
Inventors: 毛存礼; 谢旭阳; 余正涛; 高盛祥; 王振晗; 刘福浩
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2021-01-29
Anticipated expiration: 2040-09-17
Also published as: CN112287920B

Abstract

本发明涉及基于知识蒸馏的缅甸语OCR方法。本发明包括如下步骤：构建适应任务需求的缅甸语图像数据集；对生成的图像加噪，对图像所对应的标签编码进行规则性标注；构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构；基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练，通过教师集成的子网络与学生网络进行耦合，实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐，以此增强对长序列字符图像中局部特征的获取，使学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。本发明实现了对缅甸语图像文本的识别，且识别精确率高，效果好。

Description

基于知识蒸馏的缅甸语OCR方法

技术领域

本发明涉及基于知识蒸馏的缅甸语OCR方法，属于自然语言处理技术领域。

背景技术

缅甸语文字有Zawgyi-One、Myanmar Three等多种字体编码，为避免网络中缅语文本内容显示乱码的问题，大多数缅语文本内容都是以图片形式呈现。这对于开展面向缅甸语的自然语言处理、机器翻译、信息检索等研究带来了较大的困难。虽然结合深度学习的方法在中英文图像文本识别任务中已经取得了非常可观的效果，但由于缅甸语字符的特殊性，据我所知目前还没有关于缅甸语OCR研究方面的相关成果，因此开展缅甸语OCR研究具有非常重要的理论和实际应用价值。缅甸语与中文或者英文不同，在一个感受野内英文字母或中文字由单个Unicode编码组成，然而缅甸语在一个感受野内可能由两个或者三个Unicode编码组成，例如，缅甸语

在感受野中由三个字符

(/u107f)，

(/u1015)和

(/u102e)组成，但是，在一个感受野中的英语“n”由一个字符“n”(/u006e)组成。在缅甸语OCR任务中不但受图像中的背景噪声、光照、图片质量等因素影响，而且受缅甸语多个字符嵌套组合的复杂字符影响。在这种情况下，使缅甸语OCR任务难度更大。目前比较主流的方法是白翔等人提出的CRNN方法，它能端到端的有效解决英文序列识别问题，在英文识别方面达到了一定的效果，但是他们只是针对解决一个感受野内一个字符的识别问题，当处理缅甸文多个字符嵌套组合的复杂字符时识别准确率就降低了。因此，本发明提出基于知识蒸馏的缅甸语OCR方法对缅甸语图像文本信息进行识别和提取。

发明内容

本发明提供了基于知识蒸馏的缅甸语OCR方法，解决了缅甸语图像中一个感受野内多个字符嵌套组合的复杂字符难以提取识别的问题；本发明构建了使用CNN+RNN框架的教师网络和学生网络以集成学习的方式进行训练的模型架构，在训练过程中，通过教师集成的子网络与学生网络进行耦合，实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐，以此增强对长序列字符图像中局部特征的获取。

本发明的技术方案是：基于知识蒸馏的缅甸语OCR方法，所述方法包括：

Step1、构建适应任务需求的缅甸语图像数据集，然后对生成的图像进行加噪，最后对图像所对应的标签编码进行规则性标注；

Step2、构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构；

Step3、设置学生网络与教师网络的输入，基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练，通过教师集成的子网络与学生网络进行耦合，实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐，以此增强对长序列字符图像中局部特征的获取，通过计算网络训练的损失值，进而优化学生网络的学习参数和模型权重；

Step4、学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过国际在线网站等进行网络采集获取缅甸语120万个句子，利用缅甸语片段切分工具将缅甸语音节和句子切成具有长序列缅甸语段文本数据；

Step1.2、从获得长序列缅甸语段文本数据中手动切分出短序列单字符和多个字符嵌套组合的复杂字符数据，切分出的字符保留原数据中的位置信息；

Step1.3、利用文本生成图像工具将获得的文本数据生成对应的缅甸语图像，然后对生成的图像加入噪声，把生成的缅甸语图像数据集分为训练集、测试集、评估集三部分；

Step1.4、对图像所对应的标签编码按照指定的缅甸语Unicode编码算法顺序对缅甸语图像内容进行规则性标注。

作为本发明的优选方案，所述步骤Step1.3中：

Step1.3.1、将步骤Step1.1获得的长序列缅甸语段文本数据，利用文本生成图像工具，生成包含600万张分辨率10*5～500*300像素无背景噪声的长序列的训练缅甸语图像数据集；

Step1.3.2、将步骤Step1.2获得短序列单字符和多个字符嵌套组合的复杂字符数据，利用文本生成图像工具，生成与步骤Step1.3.1生成的数据集中每张图像的位置特征信息一一对应的短序列的单字符和多个字符嵌套组合的复杂字符缅甸语数据集；

Step1.3.3、将上述步骤Step1.3.1—Step1.3.2获得数据集图像复制一份，将复制的数据集随机加入高斯噪声、椒盐噪声、均匀噪声，同时添加不同颜色的背景噪声；从而尽可能的使生成的缅甸语图像和真实场景中的缅甸语图像相似；

Step1.3.4、将数据集分为训练集、测试集、评估集三部分，其中测试集和评估集包含80万张含有噪声的缅甸语图像，训练集包含以下内容：1.数据集1包含600万张无背景噪声的长序列的训练缅甸语图像数据集；2.数据集2图像为与数据集1中每张图像的位置特征信息一一对应的短序列的单字符缅甸语训练数据集；3.数据集3图像为与数据集1中每张图像的位置特征信息一一对应的短序列的组合字符缅甸语训练数据集；4.数据集4包含600万张具有噪声的长序列训练缅甸语图像数据集；5.数据集5图像为与数据集4中每张图像的位置特征信息一一对应的单字符缅甸语训练数据集；6.数据集6图像为与数据集4中每张图像的位置特征信息一一对应的短序列组合字符缅甸语训练数据集。

作为本发明的优选方案，所述步骤Step1.4的具体步骤为：

Step1.4.1、整理缅甸语图像所对应的标签，删除标签中在图像上不能显示出来的辅音字符；

Step1.4.2、按照最后一个音节的优先级高于元音的原则，制定缅甸语编码排序规则，将图像所对应的标签编码按照缅甸语Unicode编码算法顺序：<辅音>，<声调>，<元音>，<韵母>，<中音>对缅甸语图像进行规则性标注。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、构建使用深度卷积神经网络和循环神经网络框架的学生网络架构，其中包含构建适应缅甸语OCR任务需求的深度卷积神经网络架构与超参数设置，循环神经网络的类型选取，网络解码端设置；

Step2.2、构建多个使用卷积神经网络和循环神经网络框架的教师集成的子网络架构。

作为本发明的优选方案，所述步骤Step2.1的具体步骤为：

Step2.1.1、在深度卷积神经网络中选用了基于VGG-VeryDeep的架构，在此基础上采用了卷积层、最大池化层和删除全连接层构建出了适应缅甸语OCR任务需求的深度卷积神经网络模型组件；

Step2.1.2、在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口，用以产生宽度较大的特征图，从而能够产生比较长的缅甸语的特征向量序列，设置输入的缅甸图像生成30帧的特征序列，使所有特征图的第x列映射到第x个的特征向量上，保证图像上的信息完好保留转移到特征向量序列上；

Step2.1.3、选择循环神经网络中的BiLSTM来处理深度卷积神经网络中获得的特征向量序列，从而获得特征的每个列的概率分布，即预测从深度卷积神经网络提取输入图像的全序列字符特征序列x＝x₁,...,x_T中每帧x_t的标签分布y_t；

Step2.1.4、设置BiLSTM输出y_t等对应位置的每个感受野内单字符和多个字符嵌套组合的复杂字符的SoftMax输出概率为p_S'，用于知识蒸馏损失计算；

Step2.1.5、计算出所有的标签序列概率：输入y＝y₁,...,y_T的情况下，输出为q的标签序列概率为：

其中T是序列长度，输入y是一个T*n的后验概率矩阵，

是时刻t时有标签π_t的概率；

Step2.1.6、选用基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果，即：

其中M_δ(q')是最近邻候选目标，δ是最大编辑距离，q'是在没有词典的情况下输入为y转录的序列。

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

Step2.2.1、构造n个教师网络中的子网络，其中每个子网络的深度卷积神经网络与循环神经网络内部结构与超参数设置与上述步骤Step2.1.1—Step2.1.3相同，预测从深度卷积神经网络提取的每张图像中单字符或者多个字符嵌套组合的复杂字符特征序列x＝x₁,...,x_T中每帧x_t的标签分布y_t；

Step2.2.2、每个子网络的解码端中前部分计算与上述步骤Step2.1.5相同，从而计算出当输入y＝y₁,...,y_T的情况下，教师网络输出为q的标签序列概率p_T(q|y)；

Step2.2.3、因为缅甸语单字符和组合字符是有一定规则数量限制的，所以选用基于词典的解码转录方式更加准确便捷，词典是一组标签序列，当预测缅甸语图像识别结果时将会受到拼写检查字典的约束，在基于词典的情况下，选取最大的标签序列概率所对应的标签序列作为最终的预测结果，即：

其中D为缅甸语词典。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、将图像和标签(x',y')∈(X',Y')组成训练的数据集，其中每个样本属于K个类(Y'＝1,2,…K)，利用单字符和嵌套组合字符的训练集来训练教师网络，利用长序列字符图像数据集来训练学生网络；

Step3.2、计算教师网络损失值、学生网络损失值、知识蒸馏损失值，以集成学习的方式进行联合训练，从而优化学生网络的学习参数和模型权重。

作为本发明的优选方案，所述步骤Step3.2的具体步骤为：

Step3.2.1、计算教师网络和学生网络的交叉熵损失值，教师网络和学生网络的损失值分别用L_CET和L_CES表示，真实标签用y'表示；

其中η是指示函数，

是教师网络对应单字符或者组合字符的输出概率，p_s′是学生网络与教师网络输出y_t等对应位置时刻单字符或者组合字符SoftMax输出概率；

Step3.2.2、计算知识蒸馏损失，知识蒸馏损失值用L_KD表示，L_KD由散度损失值L_KL和均方误差损失值L_MSE组成，公式如下：

式中的p_si'代表i时刻学生网络输出y_t等对应位置时刻单字符或者组合字符SoftMax输出概率，

代表i时刻教师网络对应位置单字符或者组合字符对应的标签序列最终的预测结果概率，T是一个温度超参数，它控制教师子网络输出的软化。T值越大，目标类上的概率分布越软，L_KL由以下公式如下：

均方误差损失值L_MSE公式如下：

Step3.2.3、计算教师网络损失值和学生网络损失值与知识蒸馏损失值三个损失项的训练函数加权组合：

L_train＝αL_CET(P_T,y')+βL_CES(P_S,y')+γL_KD

其中P_T＝f_t(x)和P_S＝f_s(x)分别表示教师网络和学生模型中图像对应缅甸语单字符和组合字符字符所在相同感受野内输出y_t等时刻所对应的映射函数概率，实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐，通过计算损失值来优化学生模型的权重与参数，从而来实现教师网络对学生网络的图像特征增强，α∈[0,0.5,1]、β∈[0,0.5,1]和γ∈[0,0.5,1]是平衡单个损失项的超参数；

Step3.2.4、f_s(x)为X'→Y'的映射，通过f_s(x',θ^*)训练学生网络的参数θ^*，其中θ是初始化的学习参数和模型权重，θ^*是通过最小化训练目标函数L_train获得的学生网络学习参数和模型权重：

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、通过文本检测工具将拍照图像，扫描图像或者网络图像的图像检测框取成多个单行图像，以便对每个单行图像内容进行缅甸语图像文本识别；

Step4.2、预处理上述步骤得到的单行图像，如果图像分辨率大于1350*32，则将图像压缩至1350*32分辨率大小，如果图像分辨率小于1350*32，则将图像空缺部分白色填充至分辨率1350*32；

Step4.3、将训练出的“.ckpt”模型转换成接受参数为1350*32分辨率图像的“.pb”格式模型，以便于将模型部署到服务器上，实现工程应用；

Step4.4、将上述转换成的“.pb”格式模型通过Tensorflow model server部署到服务器端上，进而实现web端口多用户并发请求的功能；

Step4.5、在web端通过使用学生网络架构调用部署到服务器端的缅甸语OCR模型，来测试输入的图像，进而得到准确值高的缅甸语图像识别结果并将其保存成文本文件。

本发明的有益效果是：

本发明针对缅甸语图像中一个感受野内多个字符嵌套组合的复杂字符难以提取识别的问题，提出了一种基于知识蒸馏的缅甸语OCR方法，根据缅甸语文字特点，构建了适应缅甸语OCR任务需求的网络框架，首次将基于知识蒸馏的思想运用到缅甸语图像文本识别研究，构建了学生网络和教师网络对长序列中局部特征的增强，实现局部特征对齐，从而解决缅甸语嵌套组合字符识别的问题，并且识别精确率高，效果好。本发明识别的结果后期的应用解决了获取缅甸语语料稀缺的问题，对缅甸语语料库的构建具有一定的理论意义和实际应用价值。

附图说明

图1为本发明中缅甸语OCR装置网络架构图；

图2为本发明中的方法流程框图；

图3为本发明中不同数据集大小的单字符的准确率图；

图4为本发明中不同数据集大小的全序列句子的准确率图。

具体实施方式

实施例1：如图1-2所示，基于知识蒸馏的缅甸语OCR方法，所述方法包括：

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过国际在线网站(http://myanmar.cri.cn/)等进行网络采集获取缅甸语120万个句子，例如:

利用缅甸语片段切分工具将缅甸语音节和句子切成具有长序列缅甸语段文本数据，例如，汉语语义“论坛参会者”对应的缅语是

分段后的缅语表示为

和

作为本发明的优选方案，所述步骤Step1.3中：

Step1.3.1、将上述步骤Step1.1获得的长序列缅甸语文本数据，利用文本生成图像工具，生成包含600万张分辨率10*5～500*300像素无背景噪声的长序列的训练缅甸语图像数据集，例如

Step1.3.2、将上述步骤Step1.2获得短序列单字符和多个字符嵌套组合的复杂字符数据，利用文本生成图像工具，生成与步骤Step1.3.1生成的数据集中每张图像的位置特征信息一一对应的短序列的单字符和多个字符嵌套组合的复杂字符缅甸语数据集，例如

和

Step1.3.3、将上述步骤Step1.3.1—Step1.3.2获得数据集图像复制一份，将复制的数据集随机加入高斯噪声、椒盐噪声、均匀噪声等，同时添加不同颜色的背景噪声，从而尽可能的使生成的缅甸语图像和真实场景中的缅甸语图像相似；

作为本发明的优选方案，所述步骤Step1.4的具体步骤为：

Step1的整个优选方案能达到如下有益效果：由于目前没有现成的缅甸图像文本识别数据，所以构造了该数据集。为本发明提供实验的训练集、测试集、评估集，为后续的模型训练提供数据集基础。将图像所对应的标签编码按照缅甸语Unicode编码算法顺序进行规则性标注，降低了因为识别输出缅甸语字符顺序错误而导致识别准确率低的问题；

作为本发明的优选方案，所述步骤Step2的具体步骤为：

作为本发明的优选方案，所述步骤Step2.1的具体步骤为：

Step2.1.3、选择循环神经网络中的BiLSTM(Bi-directional Long Short-TermMemory)来处理深度卷积神经网络中获得的特征向量序列，从而获得特征的每个列的概率分布，即预测从深度卷积神经网络提取输入图像的全序列字符特征序列x＝x₁,...,x_T中每帧x_t的标签分布y_t；

其中T是序列长度，输入y是一个T*n的后验概率矩阵，

是时刻t时有标签π_t的概率；

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

其中D为缅甸语词典。

Step2的整个优选方案能带来如下有益效果：根据缅甸语语言的特殊性，构建了使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构，利用单字符和嵌套组合字符的训练集来训练教师网络实现单个感受野内嵌套组合字符识别问题，利用长序列字符图像数据集来训练学生网络实现长序列字符识别问题，为下一步进行知识蒸馏联合训练创建了网络架构基础。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

作为本发明的优选方案，所述步骤Step3.2的具体步骤为：

其中η是指示函数，

是教师网络对应单字符或者组合字符的输出概率，p_S'是学生网络与教师网络输出y_t等对应位置时刻单字符或者组合字符SoftMax输出概率；

均方误差损失值L_MSE公式如下：

L_train＝αL_CET(P_T,y')+βL_CES(P_S,y')+γL_KD

Step3的整个优选方案的能带来如下有益效果：采用知识蒸馏方法将教师学习到对齐片段的单字符和组合字符特征对学生模型的参数进行优化指导，在训练过程中，学生网络与教师集成的子网络进行耦合，根据教师集成产生的组合字符特征和真实性标签对学生模型的参数进行优化。促使学生网络能够强化学习到缅甸语组合字符的识别。解决了缅甸语组合字符进入网络后容易被计算机误判，导致识别准确率低的问题。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.2、预处理上述步骤得到的单行图像，如果图像分辨率大于1350*32，则将图像压缩至1350*32分辨率大小，如果图像分辨率小于1350*32，则将图像空缺部分白色填充至分辨率1350*32；这样操作的目的是为了适应缅甸语文本字符特点，使输入的缅甸语图像中，字符间距和相邻字符特征更易于提取，从而达到输入图像更适用于模型识别，减小因图像分辨率问题导致的识别率降低；

Step4的整个优选方案的能带来如下有益效果：在工程应用上，能够实现多用户并发请求模型的功能，同时训练出的模型更加适用于现实中缅甸语OCR任务的需求，使在手机拍照、书本扫描件、网络截图等场景下，识别精度更加准确。

为了说明本发明的效果，本发明进行了如下实验，我们选用了80万张缅甸语场景文本图像作为评估数据集和80万张缅甸语场景文本图像作为测试数据集。训练集采用上述步骤Step1.3.4中的6个数据集。

我们在Tensorflow框架内实现了网络。实验在具有Intel(R)Xeon(R)Gold6132CPU@2.60GHz，NVIDIA Corporation GP100GL GPU的服务器上进行。

实验中严格按照标准评价指标单字符精确率(Per Char Accuracy)和全序列精确率(Full Sequence Accuracy)的公式如下所示：

其中PC、CS、SN分别代表每个字符的准确率、正确的字符总数、所有字符的总数。FS、SL、LN分别代表全序列精确率、正确的序列数、序列总数。在确保其他变量都一致的情况下，对比模型参数均基于原给出的超参数设置。

为了验证本发明提出的发明方法的效果，设计以下对比实验进行分析。我们在没有噪音的缅甸语图像情况下进行了2组实验。

实验一：首先我们选用数据集1作为学生网络的训练数据，数据集1所对应的对齐片段特征的缅甸语组合字符数据集3作为教师网络的训练数据进行了实验，对比实验的训练集为数据集1和数据集3的总和，实验结果识别准确率(％)如表1所示。

表1训练集为数据集1和3时的识别结果

从以上实验数据结果可以看出对比实验虽然取得了一定的效果，但是相对于我们基于知识蒸馏的缅甸语OCR方法准确率较差。实验中我们将教师网络学习到对齐片段的缅甸语组合字符特征对学生网络进行优化，从而对学生网络具有缅甸语组合字符的位置信息进行了特征增强，使多个字符嵌套组合的复杂字符识别准确率提高。对比实验中虽然在处理识别单字符方面比较擅长，但是在识别缅甸语组合字符时会产生误判或者输出字符顺序错乱等结果，所以导致识别准确率低于我们的值。

实验二：我们选用数据集1作为学生网络，数据集1对应的缅甸语单字符和组合字符所对应的数据集2数据集3作为教师网络的训练数据进行了实验，对比实验的训练集为数据集1、2、3的总和，实验结果识别准确率(％)如表2所示。

表2训练集为数据集1、2和3时的识别结果

相对于实验一，我们训练集中加入了数据集2，总体训练数据集增大，所以对比实验效果均有所提升，但是与我们实验结果相比，我们的提升更明显，侧面印证我们的方法是有效的。

因为以上训练数据集是在不含有背景噪音的情况下进行模型训练，在处理实际生活中具有背景噪音的缅甸语图像时识别效果就会较差，所以我们在训练数据使用具有背景图像的情况下进行了实验三，以此来提高模型在应对不同场景下的缅甸语图像识别。

实验三：我们将数据集4作为学生网络的训练数据，数据集5、6作为教师网络的训练数据，在该情况下选用数据集4+5进行了一组实验，选用数据集4+6进行了一组实验，选用数据集4+5+6进行了一组实验。对比实验的训练集为所对应数据集的总和，实验结果准确率(％)如表3所示。

表3具有背景噪声的情况下每个字符准确率和全序列准确率的实验结果

从表3中我们可以观察到，在训练集使用具有背景噪声图像比使用无背景噪声图像时识别精度更准确。在该情况下，我们的实验在数据集4+5+6的情况下相对于其它实验取得了更好的效果，说明我们的方法在识别缅甸语多字符组合图像中更具有优势。

实验数据集的大小也有可能影响识别准确度的最终结果，所以，我们在实验五的情况下，通过更改实验数据集的大小来比较测试结果，该数据集大小为学生网络训练集大小，教师网络训练集数量不计入其中，即与学生网络输入图像每张图像所对应的对齐片段特征的缅甸语单字符或者组合字符图像，但是教师网络训练集依然参与教师网络训练。实验的识别准确率结果如图3和图4所示。

通过实验结果可以得出结论，使用深度学习方法时训练模型数据集的大小会影响实验效果，并且通过实验比较分析结果可以看出，当训练数据集到600万时，随着训练数据的提升，准确值提升不再明显，所以可以取600万训练数据来训练最优模型。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。