CN111046946A

CN111046946A - 基于crnn的缅甸语图像文本识别方法

Info

Publication number: CN111046946A
Application number: CN201911258382.7A
Authority: CN
Inventors: 毛存礼; 谢旭阳; 余正涛; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-04-21
Anticipated expiration: 2039-12-10
Also published as: CN111046946B

Abstract

本发明涉及基于CRNN的缅甸语图像文本识别方法，属自然语言处理领域。本发明包括步骤：构建缅甸语文本信息图像的训练集、测试集、评估集数据；利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息；采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列；利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列，获取序列的上下文信息，从而得到每列特征的概率分布；利用CTC计算出所有的标签序列概率，基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。本发明实现了对缅甸语图像文本的识别，且识别精确率高，效果好。

Description

基于CRNN的缅甸语图像文本识别方法

技术领域

本发明涉及基于CRNN的缅甸语图像文本识别方法，属于自然语言处理技术领域。

背景技术

缅甸语图像文本识别是缅甸语自然语言研究中的基础任务，传统的图像上的缅甸语文本信息无法直接用计算机识别提取，无法将图像上的文本用于自然语言处理研究上，通常的处理方法都是通过人工看图敲打出来，费时费力。目前，在中文和英文图像文本识别任务结合深度学习的方法已经达到了非常好的效果了，但是对于缅甸语图像文本识别领域至今还未出现突破性进展，因为缅甸语特殊的音节结构，一个音节可能将会由多个字符组成并且无法分割，不像英文或者中文只是单独的一个Unicode编码就可以组成一个英文字母或者一个中文单词，例如：英文“I”只由Unicode编码(/u0049)组成，“我”是由Unicode编码(/u6211)组成。而缅甸语一个音节可能由好几个Unicode编码共同组成，例如：

是由

(/u101b)和

(/u102f)共同组成的，这给计算机图像文本信息识别任务带来了巨大的挑战，同时，目前还没有现成缅甸语图像文本识别数据。如果能将图像上的缅甸语信息提取出来，在自然语言处理处理领域的语料库构建、资源稀缺数据集扩建等具有重要的意义。因此，本文提出基于CRNN的缅甸语图像文本识别方法对资源稀缺型的缅甸语图像文本信息进行识别和提取。

发明内容

本发明提供了基于CRNN的缅甸语图像文本识别方法，以用于识别提取图像上的缅甸语文本信息，解决了缅甸语图像里文本信息难以提取的问题。

本发明的技术方案是：基于CRNN的缅甸语图像文本识别方法，所述方法的具体步骤如下：

Step1、数据预处理：结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据；

然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息，训练任务开始之前，将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入；

Step2、特征向量序列提取：采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列，利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层，这一层用于从输入的缅甸语图像中提取出特征向量序列；

Step3、利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列，获取序列的上下文信息，从而得到每列特征的概率分布；

同时将具有偏差的序列连接成映射，将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层；

Step4、转录：对RNN得到的每帧预测的标签分布利用转录层中的联接时间分类CTC计算出所有的标签序列概率，基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过国际在线网站进行数据采集获取到缅甸语30100个句子；

Step1.2、利用缅甸语音节切分工具将缅甸语段落和句子切分成高力度特征的长序列缅甸语音节文本数据；

Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据，该数据是由多字符组合成的缅甸语；

Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像，把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据；

Step1.5、按照缅甸语Unicode编码算法顺序：<辅音>，<声调>，<元音>，<韵母>，<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注；

Step1.6、训练任务开始之前，将全部输入的缅甸语图像大小缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入。

作为本发明的优选方案，所述步骤Step1.4中：

将上述步骤Step1.2-Step1.3获得的30100句缅甸语句子进行去重切分成104797个缅甸语短序列音节和长序列音节；

再通过调用文本生成图像程序，随机生成800万张分辨率10*5～500*300像素的训练集图像，90万张测试集图像，90万张评估集图像。

作为本发明的优选方案，所述步骤Step1.6的具体步骤为：

Step1.6.1、将全部训练集的输入图像缩放到像素大小为120*32，用以加快深度卷积神经网络的训练效率；

Step1.6.2、然后从缩放后的图像中生成30帧的特征序列；特征序列的每一个特征向量在特征图上按列从左到右生成；这意味着第x个特征向量是所有特征图第x列的连接；设置每列的宽度固定为单个像素。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、搭建适应任务要求的深度卷积神经网络模型；

Step2.2、采用深度卷积神经网络模型从输入的缅甸语图像中提取出其对应的序列特征。

作为本发明的优选方案，所述步骤Step2.1的具体步骤为：

Step2.1.1、利用基于VGG-VeryDeep架构构建出适应任务需求的深度卷积神经网络模型组件，在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口，用以产生宽度大的特征图，从而产生长的缅甸语的特征序列；

Step2.1.2、利用深度卷积神经网络模型中的卷积层、最大池化层和删除全连接层来构造出整体的卷积神经网络层。

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

Step2.2.1、利用深度卷积神经网络模型从输入的图像中提取序列特征表示，将深度特征传递到特征向量序列表示中；

Step2.2.2、将得到的特征向量序列作为接下来循环神经网络RNN的输入。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列，获取序列的上下文信息，从而得到每列特征的概率分布；即预测上一层卷积提取出的特征序列x＝x₁,...,x_T中每一帧x_t的标签分布y_t，即为RNN得到的每帧预测标签分布；

训练循环神经网络期间当循环神经网络接收到特征序列中的帧x_t时，使用非线性函数来更新y_t，非线性函数同时接收当前输入x_t和过去状态y_t-1作为RNN的输入：y_t＝g(x_t,y_t-1)，为RNN得到的每帧预测标签分布；

Step3.2、将BiLSTM产生的具有偏差的序列连接成映射，将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层，形成卷积神经网络和循环神经网络之间联系桥梁；

所述步骤Step3.2的具体步骤为：

Step3.2.1、循环神经网络会记住网络在上一个时刻的输出值，并将该值用于当前时刻输出值的生成；RNN的输入卷积层产生的向量序列，每个时刻接收一个输入，网络会产生一个输出，而这个输出是由之前的序列共同作用决定的；

Step3.2.2、在BiLSTM的底部，具有偏差的序列连接成映射，将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层；也就是说，输出结果将会被送回到输入，之后在下一个时刻和下一个输入同时使用。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、对RNN得到的每帧预测的标签分布通过转录层中的联接时间分类CTC利用“-”填满没有字符的位置，然后删除空白字符集合，最后利用前向后向算法计算出所有的标签序列概率；

Step4.2、通过基于词典，和查找候选目标的模式选择出具有最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果，从而得到缅甸语图像识别结果。

Step4.1.1、定义一个“-”作为空白符加入到缅甸语字符集合从而用“-”填满RNN得到的每帧预测的标签分布中没有字符的位置；

Step4.1.2、定义f变换删除空白字符集合，变换成真实输出；f变换为：把连续的相同字符删减为1个并删去空白符，但是如果相同字符间有“-”符号的则把“-”符号删除，然后保留相同的字符；

Step4.1.3、计算出所有的标签序列概率：在BiLSTM给定输入y＝y₁,...,y_T的情况下，输出为q的标签序列概率为：

其中T是序列长度，输入y是一个T*n的后验概率矩阵，

是时刻t时有标签π_t的概率，使用前向后向算法计算存在指数级数量的求和项的方程p(π|y)。

作为本发明的优选方案，所述步骤Step4.2的具体步骤为：

Step4.2.1、基于词典的情况下，选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果，即：

其中D为词典；

Step4.2.2、当词典中的词超过10w时选用基于最近邻候选目标的方式，选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果，即：

其中M_δ(q')是最近邻候选目标，δ是最大编辑距离，q'是在无词典模式下从输入为y转录的序列。

本发明的有益效果是：

本发明实现了对缅甸语图像文本的识别，解决了缅甸语图像里文本信息难以提取的问题，且识别精确率高，效果好。本发明识别的结果后期的应用解决了获取缅甸语语料稀缺的问题，对缅甸语语料库的构建具有一定的理论意义和实际应用价值。

附图说明

图1为本发明中基于CRNN的缅甸语图像文本识别装置网络架构图；

图2为本发明中的方法流程框图。

具体实施方式

实施例1：如图1-2所示，基于CRNN的缅甸语图像文本识别方法，所述方法的具体步骤如下：

Step1、数据预处理：结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据；例如长序列数据

短序列数据

Step2、特征向量序列提取：采用深度卷积神经网络(CNN)从输入的缅甸语图像中提取出对应的特征向量序列，利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层，这一层用于从输入的缅甸语图像中提取出特征向量序列；

作为本发明的优选方案，所述步骤Step1的具体步骤为：

Step1.1、通过国际在线网站(http://myanmar.cri.cn/)进行数据采集获取到缅甸语30100个句子；例如：

例如，中国汉语语义为“论坛参会者”所对应的缅甸语句子为

表示为

Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据，该数据是由多字符组合成的缅甸语；例如

是由

三个字符共同组成；用以解决一句缅甸语句子中的多字符组合的复杂短序列无法识别的问题；

Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像，把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据；构建出训练任务所需要的图像；

Step1.5、按照缅甸语Unicode编码算法顺序：<辅音>，<声调>，<元音>，<韵母>，<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注；用以解决一句缅甸语因字符顺序紊乱而无法构词的问题；

作为本发明的优选方案，所述步骤Step1.4中：

作为本发明的优选方案，所述步骤Step1.6的具体步骤为：

Step1.6.2、然后从缩放后的图像中生成30帧的特征序列；特征序列的每一个特征向量在特征图上按列从左到右生成；这意味着第x个特征向量是所有特征图第x列的连接；设置每列的宽度固定为单个像素，产生出从左到右对应的特征向量。

Step1的整个优选方案能达到如下有益效果：分别通过缅甸语音节切分工具和手动切分构建出不同力度特征的长、短序列缅甸语音节文本数据，并且对于复杂短序列，例如

按照缅甸语Unicode编码算法顺序进行了规则性标注，解决了在感受野内只能对应识别单字符序列而无法对应识别多字符组合的复杂短序列问题。为本发明提供实验的训练集、测试集、评估集，为后续的模型训练提供数据集基础。

作为本发明的优选方案，所述步骤Step2的具体步骤为：

Step2.1、搭建适应任务要求的深度卷积神经网络模型；

作为本发明的优选方案，所述步骤Step2.1的具体步骤为：

Step2.1.2、利用深度卷积神经网络模型中的卷积层、最大池化层和删除全连接层来构造出整体的卷积神经网络层，使所有的层的权重可以共享连接。

作为本发明的优选方案，所述步骤Step2.2的具体步骤为：

Step2的整个优选方案的能带来如下有益效果：构建出适应任务需求的深度卷积神经网络组件，然后利用深度卷积神经网络从输入的缅甸语图像中提取出该图像对应的特征向量序列；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

使用LSTM用于解决传统的RNN单元梯度消失的问题。LSTM由输入，输出和遗忘门组成。存储单元的作用是存储过去的上下文，同时，输入和输出门允许单元较长时间的保存到输入缅甸语图像中的上下文信息，并且单元里面的保存到的信息又可以被遗忘门删除。一般在基于图像的特征序列中，不同方向的上下文信息具有互补作用，然而LSTM通常是定向的，它只利用到过去的上下文信息。所以，该方法采用双向LSTM，将向前向后的两个LSTM组合成一个BiLSTM，并且可以叠加多次，提升实验效果。

所述步骤Step3.2的具体步骤为：

Step3的整个优选方案的能带来如下有益效果：利用BiLSTM处理Step2得到的特征向量序列，从而获取每列特征的概率分布，进而预测出每一帧的标签分布；作为本发明的优选方案，所述步骤Step4的具体步骤为：

例如：

…

其中π∈Q'^T，Q'＝Q∪{-}，其中Q包含了训练中的所有缅甸语标注好的正确标签；

其中T是序列长度，输入y是一个T*n的后验概率矩阵，

作为本发明的优选方案，所述步骤Step4.2的具体步骤为：

其中D为词典；

为了说明本发明的效果，本发明进行了如下实验，所采用的实验数据来自网络采集的缅甸语数据生成的图像数据集，包含800万张训练数据集图像，90万张测试数据集图像，90万张评估数据集图像。实验训练集和测试集按照8.8:1的比例进行划分。

实验中严格按照标准评价指标单字符精确率(per char accuracy)和全序列精确率(full sequence accuracy)的公式如下所示：

其中PC是单字符精确率，CS是正确的字符总数，SN是字符总数，FS是全序列精确率，SL是正确的序列数，LN是序列总数。

为了验证本文提出的发明方法的效果，设计以下对比试验进行分析。

融合数据训练集(包含不同力度特征的训练数据集，其中长序列训练集占70％，短序列训练集占30％。)与全部都是短序列训练集，例如

全都是长序列训练集，例如

训练模型进行对比，具体实验结果如表1所示。在确保其他变量都一致的情况下，对比模型参数均基于原给出的超参数设置，实验的测试数据的CS、SN、PC、SL、LN、FS具体如下表1和表2所示。

表1单字符精确率实验结果

	CS	SN	PC
				短序列训练集	6207w	7011w	88.53％
长序列训练集	8593w	9332w	92.08％
				融合数据训练集	7956w	8243w	96.52％

表2全序列精确率实验结果

	SL	LN	FS
				短序列训练集	682w	800w	85.25％
长序列训练集	721w	800w	90.13％
				融合数据训练集	744w	800w	93.01％

通过观察模型实验结果后，得出结论：应用融合数据训练集的缅甸语图像文本识别是达到了较好效果。

实验数据集的大小也会影响最终效果，应用融合数据训练集的情况下，通过改变实验数据集的大小对比试验结果。在确保其他变量都一致的情况下，对比实验参数均基于原给出的超参数设置，实验的测试数据结果具体如表3所示。

表3数据集大小不同对比

	400w	600w	800w
				PC	92.23％	94.05％	96.52％
FS	89.39％	91.22％	93.01％

利用深度学习的方法训练模型数据集的大小将会影响实验效果，通过实验对比分析结果可知在800w训练数据集上取得的效果是最好的。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。