CN111046946B - 基于crnn的缅甸语图像文本识别方法 - Google Patents

基于crnn的缅甸语图像文本识别方法 Download PDF

Info

Publication number
CN111046946B
CN111046946B CN201911258382.7A CN201911258382A CN111046946B CN 111046946 B CN111046946 B CN 111046946B CN 201911258382 A CN201911258382 A CN 201911258382A CN 111046946 B CN111046946 B CN 111046946B
Authority
CN
China
Prior art keywords
burma
sequence
image
neural network
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911258382.7A
Other languages
English (en)
Other versions
CN111046946A (zh
Inventor
毛存礼
谢旭阳
余正涛
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoyu intelligent information technology (Yunnan) Co.,Ltd.
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201911258382.7A priority Critical patent/CN111046946B/zh
Publication of CN111046946A publication Critical patent/CN111046946A/zh
Application granted granted Critical
Publication of CN111046946B publication Critical patent/CN111046946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于CRNN的缅甸语图像文本识别方法,属自然语言处理领域。本发明包括步骤:构建缅甸语文本信息图像的训练集、测试集、评估集数据;利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息;采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列;利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;利用CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。本发明实现了对缅甸语图像文本的识别,且识别精确率高,效果好。

Description

基于CRNN的缅甸语图像文本识别方法
技术领域
本发明涉及基于CRNN的缅甸语图像文本识别方法,属于自然语言处理技术领域。
背景技术
缅甸语图像文本识别是缅甸语自然语言研究中的基础任务,传统的图像上的缅甸语文本信息无法直接用计算机识别提取,无法将图像上的文本用于自然语言处理研究上,通常的处理方法都是通过人工看图敲打出来,费时费力。目前,在中文和英文图像文本识别任务结合深度学习的方法已经达到了非常好的效果了,但是对于缅甸语图像文本识别领域至今还未出现突破性进展,因为缅甸语特殊的音节结构,一个音节可能将会由多个字符组成并且无法分割,不像英文或者中文只是单独的一个Unicode编码就可以组成一个英文字母或者一个中文单词,例如:英文“I”只由Unicode编码(/u0049)组成,“我”是由Unicode编码(/u6211)组成。而缅甸语一个音节可能由好几个Unicode编码共同组成,例如:
Figure BDA0002310938730000011
是由
Figure BDA0002310938730000012
(/u101b)和
Figure BDA0002310938730000013
(/u102f)共同组成的,这给计算机图像文本信息识别任务带来了巨大的挑战,同时,目前还没有现成缅甸语图像文本识别数据。如果能将图像上的缅甸语信息提取出来,在自然语言处理处理领域的语料库构建、资源稀缺数据集扩建等具有重要的意义。因此,本文提出基于CRNN的缅甸语图像文本识别方法对资源稀缺型的缅甸语图像文本信息进行识别和提取。
发明内容
本发明提供了基于CRNN的缅甸语图像文本识别方法,以用于识别提取图像上的缅甸语文本信息,解决了缅甸语图像里文本信息难以提取的问题。
本发明的技术方案是:基于CRNN的缅甸语图像文本识别方法,所述方法的具体步骤如下:
Step1、数据预处理:结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据;
然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息,训练任务开始之前,将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入;
Step2、特征向量序列提取:采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列,利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层,这一层用于从输入的缅甸语图像中提取出特征向量序列;
Step3、利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;
同时将具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;
Step4、转录:对RNN得到的每帧预测的标签分布利用转录层中的联接时间分类CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站进行数据采集获取到缅甸语30100个句子;
Step1.2、利用缅甸语音节切分工具将缅甸语段落和句子切分成高力度特征的长序列缅甸语音节文本数据;
Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据,该数据是由多字符组合成的缅甸语;
Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像,把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据;
Step1.5、按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注;
Step1.6、训练任务开始之前,将全部输入的缅甸语图像大小缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入。
作为本发明的优选方案,所述步骤Step1.4中:
将上述步骤Step1.2-Step1.3获得的30100句缅甸语句子进行去重切分成104797个缅甸语短序列音节和长序列音节;
再通过调用文本生成图像程序,随机生成800万张分辨率10*5~500*300像素的训练集图像,90万张测试集图像,90万张评估集图像。
作为本发明的优选方案,所述步骤Step1.6的具体步骤为:
Step1.6.1、将全部训练集的输入图像缩放到像素大小为120*32,用以加快深度卷积神经网络的训练效率;
Step1.6.2、然后从缩放后的图像中生成30帧的特征序列;特征序列的每一个特征向量在特征图上按列从左到右生成;这意味着第x个特征向量是所有特征图第x列的连接;设置每列的宽度固定为单个像素。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、搭建适应任务要求的深度卷积神经网络模型;
Step2.2、采用深度卷积神经网络模型从输入的缅甸语图像中提取出其对应的序列特征。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、利用基于VGG-VeryDeep架构构建出适应任务需求的深度卷积神经网络模型组件,在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度大的特征图,从而产生长的缅甸语的特征序列;
Step2.1.2、利用深度卷积神经网络模型中的卷积层、最大池化层和删除全连接层来构造出整体的卷积神经网络层。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、利用深度卷积神经网络模型从输入的图像中提取序列特征表示,将深度特征传递到特征向量序列表示中;
Step2.2.2、将得到的特征向量序列作为接下来循环神经网络RNN的输入。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;即预测上一层卷积提取出的特征序列x=x1,...,xT中每一帧xt的标签分布yt,即为RNN得到的每帧预测标签分布;
训练循环神经网络期间当循环神经网络接收到特征序列中的帧xt时,使用非线性函数来更新yt,非线性函数同时接收当前输入xt和过去状态yt-1作为RNN的输入:yt=g(xt,yt-1),为RNN得到的每帧预测标签分布;
Step3.2、将BiLSTM产生的具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层,形成卷积神经网络和循环神经网络之间联系桥梁;
所述步骤Step3.2的具体步骤为:
Step3.2.1、循环神经网络会记住网络在上一个时刻的输出值,并将该值用于当前时刻输出值的生成;RNN的输入卷积层产生的向量序列,每个时刻接收一个输入,网络会产生一个输出,而这个输出是由之前的序列共同作用决定的;
Step3.2.2、在BiLSTM的底部,具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;也就是说,输出结果将会被送回到输入,之后在下一个时刻和下一个输入同时使用。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、对RNN得到的每帧预测的标签分布通过转录层中的联接时间分类CTC利用“-”填满没有字符的位置,然后删除空白字符集合,最后利用前向后向算法计算出所有的标签序列概率;
Step4.2、通过基于词典,和查找候选目标的模式选择出具有最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,从而得到缅甸语图像识别结果。
Step4.1.1、定义一个“-”作为空白符加入到缅甸语字符集合从而用“-”填满RNN得到的每帧预测的标签分布中没有字符的位置;
Step4.1.2、定义f变换删除空白字符集合,变换成真实输出;f变换为:把连续的相同字符删减为1个并删去空白符,但是如果相同字符间有“-”符号的则把“-”符号删除,然后保留相同的字符;
Step4.1.3、计算出所有的标签序列概率:在BiLSTM给定输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure BDA0002310938730000041
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure BDA0002310938730000042
Figure BDA0002310938730000043
是时刻t时有标签πt的概率,使用前向后向算法计算存在指数级数量的求和项的方程p(π|y)。
作为本发明的优选方案,所述步骤Step4.2的具体步骤为:
Step4.2.1、基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002310938730000051
其中D为词典;
Step4.2.2、当词典中的词超过10w时选用基于最近邻候选目标的方式,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002310938730000052
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在无词典模式下从输入为y转录的序列。
本发明的有益效果是:
本发明实现了对缅甸语图像文本的识别,解决了缅甸语图像里文本信息难以提取的问题,且识别精确率高,效果好。本发明识别的结果后期的应用解决了获取缅甸语语料稀缺的问题,对缅甸语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中基于CRNN的缅甸语图像文本识别装置网络架构图;
图2为本发明中的方法流程框图。
具体实施方式
实施例1:如图1-2所示,基于CRNN的缅甸语图像文本识别方法,所述方法的具体步骤如下:
Step1、数据预处理:结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据;例如长序列数据
Figure BDA0002310938730000053
短序列数据
Figure BDA0002310938730000054
然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息,训练任务开始之前,将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入;
Step2、特征向量序列提取:采用深度卷积神经网络(CNN)从输入的缅甸语图像中提取出对应的特征向量序列,利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层,这一层用于从输入的缅甸语图像中提取出特征向量序列;
Step3、利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;
同时将具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;
Step4、转录:对RNN得到的每帧预测的标签分布利用转录层中的联接时间分类CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站(http://myanmar.cri.cn/)进行数据采集获取到缅甸语30100个句子;例如:
Figure BDA0002310938730000061
Step1.2、利用缅甸语音节切分工具将缅甸语段落和句子切分成高力度特征的长序列缅甸语音节文本数据;
例如,中国汉语语义为“论坛参会者”所对应的缅甸语句子为
Figure BDA0002310938730000062
表示为
Figure BDA0002310938730000063
Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据,该数据是由多字符组合成的缅甸语;例如
Figure BDA0002310938730000064
是由
Figure BDA0002310938730000065
三个字符共同组成;用以解决一句缅甸语句子中的多字符组合的复杂短序列无法识别的问题;
Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像,把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据;构建出训练任务所需要的图像;
Step1.5、按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注;用以解决一句缅甸语因字符顺序紊乱而无法构词的问题;
Step1.6、训练任务开始之前,将全部输入的缅甸语图像大小缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入。
作为本发明的优选方案,所述步骤Step1.4中:
将上述步骤Step1.2-Step1.3获得的30100句缅甸语句子进行去重切分成104797个缅甸语短序列音节和长序列音节;
再通过调用文本生成图像程序,随机生成800万张分辨率10*5~500*300像素的训练集图像,90万张测试集图像,90万张评估集图像。
作为本发明的优选方案,所述步骤Step1.6的具体步骤为:
Step1.6.1、将全部训练集的输入图像缩放到像素大小为120*32,用以加快深度卷积神经网络的训练效率;
Step1.6.2、然后从缩放后的图像中生成30帧的特征序列;特征序列的每一个特征向量在特征图上按列从左到右生成;这意味着第x个特征向量是所有特征图第x列的连接;设置每列的宽度固定为单个像素,产生出从左到右对应的特征向量。
Step1的整个优选方案能达到如下有益效果:分别通过缅甸语音节切分工具和手动切分构建出不同力度特征的长、短序列缅甸语音节文本数据,并且对于复杂短序列,例如
Figure BDA0002310938730000071
按照缅甸语Unicode编码算法顺序进行了规则性标注,解决了在感受野内只能对应识别单字符序列而无法对应识别多字符组合的复杂短序列问题。为本发明提供实验的训练集、测试集、评估集,为后续的模型训练提供数据集基础。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、搭建适应任务要求的深度卷积神经网络模型;
Step2.2、采用深度卷积神经网络模型从输入的缅甸语图像中提取出其对应的序列特征。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、利用基于VGG-VeryDeep架构构建出适应任务需求的深度卷积神经网络模型组件,在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度大的特征图,从而产生长的缅甸语的特征序列;
Step2.1.2、利用深度卷积神经网络模型中的卷积层、最大池化层和删除全连接层来构造出整体的卷积神经网络层,使所有的层的权重可以共享连接。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、利用深度卷积神经网络模型从输入的图像中提取序列特征表示,将深度特征传递到特征向量序列表示中;
Step2.2.2、将得到的特征向量序列作为接下来循环神经网络RNN的输入。
Step2的整个优选方案的能带来如下有益效果:构建出适应任务需求的深度卷积神经网络组件,然后利用深度卷积神经网络从输入的缅甸语图像中提取出该图像对应的特征向量序列;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;即预测上一层卷积提取出的特征序列x=x1,...,xT中每一帧xt的标签分布yt,即为RNN得到的每帧预测标签分布;
训练循环神经网络期间当循环神经网络接收到特征序列中的帧xt时,使用非线性函数来更新yt,非线性函数同时接收当前输入xt和过去状态yt-1作为RNN的输入:yt=g(xt,yt-1),为RNN得到的每帧预测标签分布;
使用LSTM用于解决传统的RNN单元梯度消失的问题。LSTM由输入,输出和遗忘门组成。存储单元的作用是存储过去的上下文,同时,输入和输出门允许单元较长时间的保存到输入缅甸语图像中的上下文信息,并且单元里面的保存到的信息又可以被遗忘门删除。一般在基于图像的特征序列中,不同方向的上下文信息具有互补作用,然而LSTM通常是定向的,它只利用到过去的上下文信息。所以,该方法采用双向LSTM,将向前向后的两个LSTM组合成一个BiLSTM,并且可以叠加多次,提升实验效果。
Step3.2、将BiLSTM产生的具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层,形成卷积神经网络和循环神经网络之间联系桥梁;
所述步骤Step3.2的具体步骤为:
Step3.2.1、循环神经网络会记住网络在上一个时刻的输出值,并将该值用于当前时刻输出值的生成;RNN的输入卷积层产生的向量序列,每个时刻接收一个输入,网络会产生一个输出,而这个输出是由之前的序列共同作用决定的;
Step3.2.2、在BiLSTM的底部,具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;也就是说,输出结果将会被送回到输入,之后在下一个时刻和下一个输入同时使用。
Step3的整个优选方案的能带来如下有益效果:利用BiLSTM处理Step2得到的特征向量序列,从而获取每列特征的概率分布,进而预测出每一帧的标签分布;作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、对RNN得到的每帧预测的标签分布通过转录层中的联接时间分类CTC利用“-”填满没有字符的位置,然后删除空白字符集合,最后利用前向后向算法计算出所有的标签序列概率;
Step4.2、通过基于词典,和查找候选目标的模式选择出具有最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,从而得到缅甸语图像识别结果。
Step4.1.1、定义一个“-”作为空白符加入到缅甸语字符集合从而用“-”填满RNN得到的每帧预测的标签分布中没有字符的位置;
Step4.1.2、定义f变换删除空白字符集合,变换成真实输出;f变换为:把连续的相同字符删减为1个并删去空白符,但是如果相同字符间有“-”符号的则把“-”符号删除,然后保留相同的字符;
例如:
Figure BDA0002310938730000091
Figure BDA0002310938730000092
Figure BDA0002310938730000093
其中π∈Q'T,Q'=Q∪{-},其中Q包含了训练中的所有缅甸语标注好的正确标签;
Step4.1.3、计算出所有的标签序列概率:在BiLSTM给定输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure BDA0002310938730000094
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure BDA0002310938730000095
Figure BDA0002310938730000096
是时刻t时有标签πt的概率,使用前向后向算法计算存在指数级数量的求和项的方程p(π|y)。
作为本发明的优选方案,所述步骤Step4.2的具体步骤为:
Step4.2.1、基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002310938730000101
其中D为词典;
Step4.2.2、当词典中的词超过10w时选用基于最近邻候选目标的方式,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002310938730000102
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在无词典模式下从输入为y转录的序列。
为了说明本发明的效果,本发明进行了如下实验,所采用的实验数据来自网络采集的缅甸语数据生成的图像数据集,包含800万张训练数据集图像,90万张测试数据集图像,90万张评估数据集图像。实验训练集和测试集按照8.8:1的比例进行划分。
实验中严格按照标准评价指标单字符精确率(per char accuracy)和全序列精确率(full sequence accuracy)的公式如下所示:
Figure BDA0002310938730000103
Figure BDA0002310938730000104
其中PC是单字符精确率,CS是正确的字符总数,SN是字符总数,FS是全序列精确率,SL是正确的序列数,LN是序列总数。
为了验证本文提出的发明方法的效果,设计以下对比试验进行分析。
融合数据训练集(包含不同力度特征的训练数据集,其中长序列训练集占70%,短序列训练集占30%。)与全部都是短序列训练集,例如
Figure BDA0002310938730000105
全都是长序列训练集,例如
Figure BDA0002310938730000106
训练模型进行对比,具体实验结果如表1所示。在确保其他变量都一致的情况下,对比模型参数均基于原给出的超参数设置,实验的测试数据的CS、SN、PC、SL、LN、FS具体如下表1和表2所示。
表1单字符精确率实验结果
CS SN PC
短序列训练集 6207w 7011w 88.53%
长序列训练集 8593w 9332w 92.08%
融合数据训练集 7956w 8243w 96.52%
表2全序列精确率实验结果
SL LN FS
短序列训练集 682w 800w 85.25%
长序列训练集 721w 800w 90.13%
融合数据训练集 744w 800w 93.01%
通过观察模型实验结果后,得出结论:应用融合数据训练集的缅甸语图像文本识别是达到了较好效果。
实验数据集的大小也会影响最终效果,应用融合数据训练集的情况下,通过改变实验数据集的大小对比试验结果。在确保其他变量都一致的情况下,对比实验参数均基于原给出的超参数设置,实验的测试数据结果具体如表3所示。
表3数据集大小不同对比
400w 600w 800w
PC 92.23% 94.05% 96.52%
FS 89.39% 91.22% 93.01%
利用深度学习的方法训练模型数据集的大小将会影响实验效果,通过实验对比分析结果可知在800w训练数据集上取得的效果是最好的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.基于CRNN的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:
Step1、数据预处理:结合缅甸语语言特征构建出不同力度片段的长序列和短序列的缅甸语文本信息图像的训练集、测试集、评估集数据;
然后利用缅甸语Unicode排序算法标注缅甸语图像里面的文本信息,训练任务开始之前,将全部输入的缅甸语图像像素缩放为固定120*32分辨率进行下一步的深度卷积神经网络输入;
Step2、特征向量序列提取:采用深度卷积神经网络从输入的缅甸语图像中提取出对应的特征向量序列,利用深度卷积神经网络模型中的卷积层和最大池化层来构造卷积层,这一层用于从输入的缅甸语图像中提取出特征向量序列;
Step3、利用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;
同时将具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;
Step4、转录:对RNN得到的每帧预测的标签分布利用转录层中的联接时间分类CTC计算出所有的标签序列概率,基于词典和查找候选目标的模式选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果;
所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站进行数据采集获取到缅甸语30100个句子;
Step1.2、利用缅甸语音节切分工具将缅甸语段落和句子切分成高力度特征的长序列缅甸语音节文本数据;
Step1.3、结合缅甸语的语言特征手动切分出低力度特征的短序列缅甸语音节文本数据,该数据是由多字符组合成的缅甸语;
Step1.4、利用文本生成图像工具将切分好的文本数据生成对应的缅甸语图像,把构建出不同力度片段的长序列和短序列的Zawgyi-One字体缅甸语文本信息图像的训练集、测试集、评估集数据;
Step1.5、按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对生成的缅甸语图像和网络采集的缅甸语场景文本图像进行规则性标注;
Step1.6、训练任务开始之前,将全部输入的缅甸语图像大小缩放为固定120*32 分辨率进行下一步的深度卷积神经网络输入;
所述步骤Step4中包括:
Step4.2.1、基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure FDA0002725228290000021
其中D为词典;
Step4.2.2、当词典中的词超过10w时选用基于最近邻候选目标的方式,选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure FDA0002725228290000022
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在无词典模式下从输入为y转录的序列。
2.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step1.4中:
将上述步骤Step1.2-Step1.3获得的30100句缅甸语句子进行去重切分成104797个缅甸语短序列音节和长序列音节;
再通过调用文本生成图像程序,随机生成800万张分辨率10*5~500*300像素的训练集图像,90万张测试集图像,90万张评估集图像。
3.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step1.6的具体步骤为:
Step1.6.1、将全部训练集的输入图像缩放到像素大小为120*32,用以加快深度卷积神经网络的训练效率;
Step1.6.2、然后从缩放后的图像中生成30帧的特征序列;特征序列的每一个特征向量在特征图上按列从左到右生成;这意味着第x个特征向量是所有特征图第x列的连接;设置每列的宽度固定为单个像素。
4.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、搭建适应任务要求的深度卷积神经网络模型;
Step2.2、采用深度卷积神经网络模型从输入的缅甸语图像中提取出其对应的序列特征。
5.根据权利要求4所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step2.1的具体步骤为:
Step2.1.1、利用基于VGG-VeryDeep架构构建出适应任务需求的深度卷积神经网络模型组件,在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度大的特征图,从而产生长的缅甸语的特征序列;
Step2.1.2、利用深度卷积神经网络模型中的卷积层、最大池化层和删除全连接层来构造出整体的卷积神经网络层。
6.根据权利要求4所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step2.2的具体步骤为:
Step2.2.1、利用深度卷积神经网络模型从输入的图像中提取序列特征表示,将深度特征传递到特征向量序列表示中;
Step2.2.2、将得到的特征向量序列作为接下来循环神经网络RNN的输入。
7.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:
所述步骤Step3的具体步骤为:
Step3.1、用循环神经网络RNN中的BiLSTM识别上一步得到的特征向量序列,获取序列的上下文信息,从而得到每列特征的概率分布;即预测上一层卷积提取出的特征序列x=x1,...,xT中每一帧xt的标签分布yt,即为RNN得到的每帧预测标签分布;
训练循环神经网络期间当循环神经网络接收到特征序列中的帧xt时,使用非线性函数来更新yt,非线性函数同时接收当前输入xt和过去状态yt-1作为RNN的输入:yt=g(xt,yt-1),为RNN得到的每帧预测标签分布;
Step3.2、将BiLSTM产生的具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层,形成卷积神经网络和循环神经网络之间联系桥梁;
所述步骤Step3.2的具体步骤为:
Step3.2.1、循环神经网络会记住网络在上一个时刻的输出值,并将该值用于当前时刻输出值的生成;RNN的输入卷积层产生的向量序列,每个时刻接收一个输入,网络会产生一个输出,而这个输出是由之前的序列共同作用决定的;
Step3.2.2、在BiLSTM的底部,具有偏差的序列连接成映射,将缅甸语图像的特征映射转换为特征序列然后再反转并反馈到卷积层;也就是说,输出结果将会被送回到输入,之后在下一个时刻和下一个输入同时使用。
8.根据权利要求1所述的基于CRNN的缅甸语图像文本识别方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、对RNN得到的每帧预测的标签分布通过转录层中的联接时间分类CTC利用“-”填满没有字符的位置,然后删除空白字符集合,最后利用前向后向算法计算出所有的标签序列概率;
Step4.2、通过基于词典,和查找候选目标的模式选择出具有最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,从而得到缅甸语图像识别结果;
Step4.1.1、定义一个“-”作为空白符加入到缅甸语字符集合从而用“-”填满RNN得到的每帧预测的标签分布中没有字符的位置;
Step4.1.2、定义f变换删除空白字符集合,变换成真实输出;f变换为:把连续的相同字符删减为1个并删去空白符,但是如果相同字符间有“-”符号的则把“-”符号删除,然后保留相同的字符;
Step4.1.3、计算出所有的标签序列概率:在BiLSTM给定输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure FDA0002725228290000041
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure FDA0002725228290000042
Figure FDA0002725228290000043
是时刻t时有标签πt的概率,使用前向后向算法计算存在指数级数量的求和项的方程p(π|y)。
CN201911258382.7A 2019-12-10 2019-12-10 基于crnn的缅甸语图像文本识别方法 Active CN111046946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911258382.7A CN111046946B (zh) 2019-12-10 2019-12-10 基于crnn的缅甸语图像文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911258382.7A CN111046946B (zh) 2019-12-10 2019-12-10 基于crnn的缅甸语图像文本识别方法

Publications (2)

Publication Number Publication Date
CN111046946A CN111046946A (zh) 2020-04-21
CN111046946B true CN111046946B (zh) 2021-03-02

Family

ID=70235381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911258382.7A Active CN111046946B (zh) 2019-12-10 2019-12-10 基于crnn的缅甸语图像文本识别方法

Country Status (1)

Country Link
CN (1) CN111046946B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761968A (zh) * 2020-06-01 2021-12-07 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备及计算机存储介质
CN111931778B (zh) * 2020-07-21 2022-08-09 浪潮金融信息技术有限公司 一种基于行列切分的印刷体字符的识别方法
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112287920B (zh) * 2020-09-17 2022-06-14 昆明理工大学 基于知识蒸馏的缅甸语ocr方法
CN112232195B (zh) * 2020-10-15 2024-02-20 北京临近空间飞行器系统工程研究所 一种手写汉字识别方法、装置及存储介质
CN112215224A (zh) * 2020-10-22 2021-01-12 深圳市平方科技股份有限公司 基于深度学习的挂车号码识别方法和装置
CN112508023A (zh) * 2020-10-27 2021-03-16 重庆大学 基于深度学习的零件喷码字符端到端识别方法
CN112560982A (zh) * 2020-12-24 2021-03-26 昆明理工大学 基于cnn-lda的半监督图像标签生成方法
CN112633431B (zh) * 2020-12-31 2023-07-18 西北民族大学 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN113128490B (zh) * 2021-04-28 2023-12-05 湖南荣冠智能科技有限公司 一种处方信息扫描和自动识别方法
CN113901879A (zh) * 2021-09-13 2022-01-07 昆明理工大学 融合多尺度语义特征图的缅甸语图像文本识别方法及装置
CN113887480B (zh) * 2021-10-19 2022-05-17 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN113963358B (zh) * 2021-12-20 2022-03-04 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN114821563B (zh) * 2022-04-25 2024-08-27 合肥学院 一种基于多尺度融合crnn模型的文本识别方法
CN114943290B (zh) * 2022-05-25 2023-08-08 盐城师范学院 一种基于多源数据融合分析的生物入侵识别方法
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116977436B (zh) * 2023-09-21 2023-12-05 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214382A (zh) * 2018-07-16 2019-01-15 顺丰科技有限公司 一种基于crnn的票据信息识别算法、设备及存储介质
US10262235B1 (en) * 2018-02-26 2019-04-16 Capital One Services, Llc Dual stage neural network pipeline systems and methods
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933195A (zh) * 2015-07-13 2015-09-23 广西达译商务服务有限责任公司 汉缅双语平行语料自动采集的系统及实现方法
CN110008467A (zh) * 2019-03-04 2019-07-12 昆明理工大学 一种基于迁移学习的缅甸语依存句法分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262235B1 (en) * 2018-02-26 2019-04-16 Capital One Services, Llc Dual stage neural network pipeline systems and methods
CN109214382A (zh) * 2018-07-16 2019-01-15 顺丰科技有限公司 一种基于crnn的票据信息识别算法、设备及存储介质
CN110334187A (zh) * 2019-07-09 2019-10-15 昆明理工大学 基于迁移学习的缅语情感分析方法及装置
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110458132A (zh) * 2019-08-19 2019-11-15 河海大学常州校区 一种基于端到端的不定长文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition;Baoguang Shi, Xiang Bai,Cong Yao;《arXiv:1507.05717v1》;20150731;第1-9页 *
基于卷积神经网络的缅甸语分词方法;林颂凯,毛存礼,余正涛,郭剑毅,王红斌,张家富;《中文信息学报》;20180630;第62-70页 *

Also Published As

Publication number Publication date
CN111046946A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111046946B (zh) 基于crnn的缅甸语图像文本识别方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN112287920B (zh) 基于知识蒸馏的缅甸语ocr方法
CN108090400B (zh) 一种图像文本识别的方法和装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110114776B (zh) 使用全卷积神经网络的字符识别的系统和方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN109783809B (zh) 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN110489750A (zh) 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN108647191B (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN105068997B (zh) 平行语料的构建方法及装置
CN112686044B (zh) 一种基于语言模型的医疗实体零样本分类方法
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN110826298B (zh) 一种智能辅助定密系统中使用的语句编码方法
US20150235097A1 (en) Segmentation of an Input by Cut Point Classification
CN110852040B (zh) 一种标点预测模型训练方法及文本标点确定方法
Wu et al. Unconstrained offline handwritten word recognition by position embedding integrated resnets model
CN110569505A (zh) 一种文本输入方法及装置
CN106610937A (zh) 一种基于信息论的中文自动分词算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211230

Address after: 650500 No. 704, 7th floor, R & D office building, block a, science and Technology Information Industry Innovation Incubation Center, Chenggong District, Kunming City, Yunnan Province

Patentee after: Xiaoyu intelligent information technology (Yunnan) Co.,Ltd.

Address before: 650093, No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming (Kunming University of Science and Technology)

Patentee before: Kunming University of Science and Technology

TR01 Transfer of patent right