CN112287920A - 基于知识蒸馏的缅甸语ocr方法 - Google Patents

基于知识蒸馏的缅甸语ocr方法 Download PDF

Info

Publication number
CN112287920A
CN112287920A CN202010978722.XA CN202010978722A CN112287920A CN 112287920 A CN112287920 A CN 112287920A CN 202010978722 A CN202010978722 A CN 202010978722A CN 112287920 A CN112287920 A CN 112287920A
Authority
CN
China
Prior art keywords
image
network
burma
sequence
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010978722.XA
Other languages
English (en)
Other versions
CN112287920B (zh
Inventor
毛存礼
谢旭阳
余正涛
高盛祥
王振晗
刘福浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010978722.XA priority Critical patent/CN112287920B/zh
Publication of CN112287920A publication Critical patent/CN112287920A/zh
Application granted granted Critical
Publication of CN112287920B publication Critical patent/CN112287920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于知识蒸馏的缅甸语OCR方法。本发明包括如下步骤:构建适应任务需求的缅甸语图像数据集;对生成的图像加噪,对图像所对应的标签编码进行规则性标注;构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构;基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取,使学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。本发明实现了对缅甸语图像文本的识别,且识别精确率高,效果好。

Description

基于知识蒸馏的缅甸语OCR方法
技术领域
本发明涉及基于知识蒸馏的缅甸语OCR方法,属于自然语言处理技术领域。
背景技术
缅甸语文字有Zawgyi-One、Myanmar Three等多种字体编码,为避免网络中缅语文本内容显示乱码的问题,大多数缅语文本内容都是以图片形式呈现。这对于开展面向缅甸语的自然语言处理、机器翻译、信息检索等研究带来了较大的困难。虽然结合深度学习的方法在中英文图像文本识别任务中已经取得了非常可观的效果,但由于缅甸语字符的特殊性,据我所知目前还没有关于缅甸语OCR研究方面的相关成果,因此开展缅甸语OCR研究具有非常重要的理论和实际应用价值。缅甸语与中文或者英文不同,在一个感受野内英文字母或中文字由单个Unicode编码组成,然而缅甸语在一个感受野内可能由两个或者三个Unicode编码组成,例如,缅甸语
Figure BDA0002686776870000011
在感受野中由三个字符
Figure BDA0002686776870000012
(/u107f),
Figure BDA0002686776870000013
(/u1015)和
Figure BDA0002686776870000014
(/u102e)组成,但是,在一个感受野中的英语“n”由一个字符“n”(/u006e)组成。在缅甸语OCR任务中不但受图像中的背景噪声、光照、图片质量等因素影响,而且受缅甸语多个字符嵌套组合的复杂字符影响。在这种情况下,使缅甸语OCR任务难度更大。目前比较主流的方法是白翔等人提出的CRNN方法,它能端到端的有效解决英文序列识别问题,在英文识别方面达到了一定的效果,但是他们只是针对解决一个感受野内一个字符的识别问题,当处理缅甸文多个字符嵌套组合的复杂字符时识别准确率就降低了。因此,本发明提出基于知识蒸馏的缅甸语OCR方法对缅甸语图像文本信息进行识别和提取。
发明内容
本发明提供了基于知识蒸馏的缅甸语OCR方法,解决了缅甸语图像中一个感受野内多个字符嵌套组合的复杂字符难以提取识别的问题;本发明构建了使用CNN+RNN框架的教师网络和学生网络以集成学习的方式进行训练的模型架构,在训练过程中,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取。
本发明的技术方案是:基于知识蒸馏的缅甸语OCR方法,所述方法包括:
Step1、构建适应任务需求的缅甸语图像数据集,然后对生成的图像进行加噪,最后对图像所对应的标签编码进行规则性标注;
Step2、构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构;
Step3、设置学生网络与教师网络的输入,基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取,通过计算网络训练的损失值,进而优化学生网络的学习参数和模型权重;
Step4、学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站等进行网络采集获取缅甸语120万个句子,利用缅甸语片段切分工具将缅甸语音节和句子切成具有长序列缅甸语段文本数据;
Step1.2、从获得长序列缅甸语段文本数据中手动切分出短序列单字符和多个字符嵌套组合的复杂字符数据,切分出的字符保留原数据中的位置信息;
Step1.3、利用文本生成图像工具将获得的文本数据生成对应的缅甸语图像,然后对生成的图像加入噪声,把生成的缅甸语图像数据集分为训练集、测试集、评估集三部分;
Step1.4、对图像所对应的标签编码按照指定的缅甸语Unicode编码算法顺序对缅甸语图像内容进行规则性标注。
作为本发明的优选方案,所述步骤Step1.3中:
Step1.3.1、将步骤Step1.1获得的长序列缅甸语段文本数据,利用文本生成图像工具,生成包含600万张分辨率10*5~500*300像素无背景噪声的长序列的训练缅甸语图像数据集;
Step1.3.2、将步骤Step1.2获得短序列单字符和多个字符嵌套组合的复杂字符数据,利用文本生成图像工具,生成与步骤Step1.3.1生成的数据集中每张图像的位置特征信息一一对应的短序列的单字符和多个字符嵌套组合的复杂字符缅甸语数据集;
Step1.3.3、将上述步骤Step1.3.1—Step1.3.2获得数据集图像复制一份,将复制的数据集随机加入高斯噪声、椒盐噪声、均匀噪声,同时添加不同颜色的背景噪声;从而尽可能的使生成的缅甸语图像和真实场景中的缅甸语图像相似;
Step1.3.4、将数据集分为训练集、测试集、评估集三部分,其中测试集和评估集包含80万张含有噪声的缅甸语图像,训练集包含以下内容:1.数据集1包含600万张无背景噪声的长序列的训练缅甸语图像数据集;2.数据集2图像为与数据集1中每张图像的位置特征信息一一对应的短序列的单字符缅甸语训练数据集;3.数据集3图像为与数据集1中每张图像的位置特征信息一一对应的短序列的组合字符缅甸语训练数据集;4.数据集4包含600万张具有噪声的长序列训练缅甸语图像数据集;5.数据集5图像为与数据集4中每张图像的位置特征信息一一对应的单字符缅甸语训练数据集;6.数据集6图像为与数据集4中每张图像的位置特征信息一一对应的短序列组合字符缅甸语训练数据集。
作为本发明的优选方案,所述步骤Step1.4的具体步骤为:
Step1.4.1、整理缅甸语图像所对应的标签,删除标签中在图像上不能显示出来的辅音字符;
Step1.4.2、按照最后一个音节的优先级高于元音的原则,制定缅甸语编码排序规则,将图像所对应的标签编码按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对缅甸语图像进行规则性标注。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、构建使用深度卷积神经网络和循环神经网络框架的学生网络架构,其中包含构建适应缅甸语OCR任务需求的深度卷积神经网络架构与超参数设置,循环神经网络的类型选取,网络解码端设置;
Step2.2、构建多个使用卷积神经网络和循环神经网络框架的教师集成的子网络架构。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、在深度卷积神经网络中选用了基于VGG-VeryDeep的架构,在此基础上采用了卷积层、最大池化层和删除全连接层构建出了适应缅甸语OCR任务需求的深度卷积神经网络模型组件;
Step2.1.2、在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度较大的特征图,从而能够产生比较长的缅甸语的特征向量序列,设置输入的缅甸图像生成30帧的特征序列,使所有特征图的第x列映射到第x个的特征向量上,保证图像上的信息完好保留转移到特征向量序列上;
Step2.1.3、选择循环神经网络中的BiLSTM来处理深度卷积神经网络中获得的特征向量序列,从而获得特征的每个列的概率分布,即预测从深度卷积神经网络提取输入图像的全序列字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.1.4、设置BiLSTM输出yt等对应位置的每个感受野内单字符和多个字符嵌套组合的复杂字符的SoftMax输出概率为pS',用于知识蒸馏损失计算;
Step2.1.5、计算出所有的标签序列概率:输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure BDA0002686776870000041
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure BDA0002686776870000042
是时刻t时有标签πt的概率;
Step2.1.6、选用基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002686776870000043
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在没有词典的情况下输入为y转录的序列。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、构造n个教师网络中的子网络,其中每个子网络的深度卷积神经网络与循环神经网络内部结构与超参数设置与上述步骤Step2.1.1—Step2.1.3相同,预测从深度卷积神经网络提取的每张图像中单字符或者多个字符嵌套组合的复杂字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.2.2、每个子网络的解码端中前部分计算与上述步骤Step2.1.5相同,从而计算出当输入y=y1,...,yT的情况下,教师网络输出为q的标签序列概率pT(q|y);
Step2.2.3、因为缅甸语单字符和组合字符是有一定规则数量限制的,所以选用基于词典的解码转录方式更加准确便捷,词典是一组标签序列,当预测缅甸语图像识别结果时将会受到拼写检查字典的约束,在基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为最终的预测结果,即:
Figure BDA0002686776870000051
其中D为缅甸语词典。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、将图像和标签(x',y')∈(X',Y')组成训练的数据集,其中每个样本属于K个类(Y'=1,2,…K),利用单字符和嵌套组合字符的训练集来训练教师网络,利用长序列字符图像数据集来训练学生网络;
Step3.2、计算教师网络损失值、学生网络损失值、知识蒸馏损失值,以集成学习的方式进行联合训练,从而优化学生网络的学习参数和模型权重。
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
Step3.2.1、计算教师网络和学生网络的交叉熵损失值,教师网络和学生网络的损失值分别用LCET和LCES表示,真实标签用y'表示;
Figure BDA0002686776870000052
Figure BDA0002686776870000053
其中η是指示函数,
Figure BDA0002686776870000054
是教师网络对应单字符或者组合字符的输出概率,ps′是学生网络与教师网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率;
Step3.2.2、计算知识蒸馏损失,知识蒸馏损失值用LKD表示,LKD由散度损失值LKL和均方误差损失值LMSE组成,公式如下:
Figure BDA0002686776870000055
式中的psi'代表i时刻学生网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率,
Figure BDA0002686776870000056
代表i时刻教师网络对应位置单字符或者组合字符对应的标签序列最终的预测结果概率,T是一个温度超参数,它控制教师子网络输出的软化。T值越大,目标类上的概率分布越软,LKL由以下公式如下:
Figure BDA0002686776870000057
均方误差损失值LMSE公式如下:
Figure BDA0002686776870000061
Step3.2.3、计算教师网络损失值和学生网络损失值与知识蒸馏损失值三个损失项的训练函数加权组合:
Ltrain=αLCET(PT,y')+βLCES(PS,y')+γLKD
其中PT=ft(x)和PS=fs(x)分别表示教师网络和学生模型中图像对应缅甸语单字符和组合字符字符所在相同感受野内输出yt等时刻所对应的映射函数概率,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,通过计算损失值来优化学生模型的权重与参数,从而来实现教师网络对学生网络的图像特征增强,α∈[0,0.5,1]、β∈[0,0.5,1]和γ∈[0,0.5,1]是平衡单个损失项的超参数;
Step3.2.4、fs(x)为X'→Y'的映射,通过fs(x',θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数Ltrain获得的学生网络学习参数和模型权重:
Figure BDA0002686776870000062
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、通过文本检测工具将拍照图像,扫描图像或者网络图像的图像检测框取成多个单行图像,以便对每个单行图像内容进行缅甸语图像文本识别;
Step4.2、预处理上述步骤得到的单行图像,如果图像分辨率大于1350*32,则将图像压缩至1350*32分辨率大小,如果图像分辨率小于1350*32,则将图像空缺部分白色填充至分辨率1350*32;
Step4.3、将训练出的“.ckpt”模型转换成接受参数为1350*32分辨率图像的“.pb”格式模型,以便于将模型部署到服务器上,实现工程应用;
Step4.4、将上述转换成的“.pb”格式模型通过Tensorflow model server部署到服务器端上,进而实现web端口多用户并发请求的功能;
Step4.5、在web端通过使用学生网络架构调用部署到服务器端的缅甸语OCR模型,来测试输入的图像,进而得到准确值高的缅甸语图像识别结果并将其保存成文本文件。
本发明的有益效果是:
本发明针对缅甸语图像中一个感受野内多个字符嵌套组合的复杂字符难以提取识别的问题,提出了一种基于知识蒸馏的缅甸语OCR方法,根据缅甸语文字特点,构建了适应缅甸语OCR任务需求的网络框架,首次将基于知识蒸馏的思想运用到缅甸语图像文本识别研究,构建了学生网络和教师网络对长序列中局部特征的增强,实现局部特征对齐,从而解决缅甸语嵌套组合字符识别的问题,并且识别精确率高,效果好。本发明识别的结果后期的应用解决了获取缅甸语语料稀缺的问题,对缅甸语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中缅甸语OCR装置网络架构图;
图2为本发明中的方法流程框图;
图3为本发明中不同数据集大小的单字符的准确率图;
图4为本发明中不同数据集大小的全序列句子的准确率图。
具体实施方式
实施例1:如图1-2所示,基于知识蒸馏的缅甸语OCR方法,所述方法包括:
Step1、构建适应任务需求的缅甸语图像数据集,然后对生成的图像进行加噪,最后对图像所对应的标签编码进行规则性标注;
Step2、构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构;
Step3、设置学生网络与教师网络的输入,基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取,通过计算网络训练的损失值,进而优化学生网络的学习参数和模型权重;
Step4、学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、通过国际在线网站(http://myanmar.cri.cn/)等进行网络采集获取缅甸语120万个句子,例如:
Figure BDA0002686776870000071
利用缅甸语片段切分工具将缅甸语音节和句子切成具有长序列缅甸语段文本数据,例如,汉语语义“论坛参会者”对应的缅语是
Figure BDA0002686776870000081
分段后的缅语表示为
Figure BDA0002686776870000082
Figure BDA0002686776870000083
Step1.2、从获得长序列缅甸语段文本数据中手动切分出短序列单字符和多个字符嵌套组合的复杂字符数据,切分出的字符保留原数据中的位置信息;
Step1.3、利用文本生成图像工具将获得的文本数据生成对应的缅甸语图像,然后对生成的图像加入噪声,把生成的缅甸语图像数据集分为训练集、测试集、评估集三部分;
Step1.4、对图像所对应的标签编码按照指定的缅甸语Unicode编码算法顺序对缅甸语图像内容进行规则性标注。
作为本发明的优选方案,所述步骤Step1.3中:
Step1.3.1、将上述步骤Step1.1获得的长序列缅甸语文本数据,利用文本生成图像工具,生成包含600万张分辨率10*5~500*300像素无背景噪声的长序列的训练缅甸语图像数据集,例如
Figure BDA0002686776870000084
Step1.3.2、将上述步骤Step1.2获得短序列单字符和多个字符嵌套组合的复杂字符数据,利用文本生成图像工具,生成与步骤Step1.3.1生成的数据集中每张图像的位置特征信息一一对应的短序列的单字符和多个字符嵌套组合的复杂字符缅甸语数据集,例如
Figure BDA0002686776870000085
Figure BDA0002686776870000086
Step1.3.3、将上述步骤Step1.3.1—Step1.3.2获得数据集图像复制一份,将复制的数据集随机加入高斯噪声、椒盐噪声、均匀噪声等,同时添加不同颜色的背景噪声,从而尽可能的使生成的缅甸语图像和真实场景中的缅甸语图像相似;
Step1.3.4、将数据集分为训练集、测试集、评估集三部分,其中测试集和评估集包含80万张含有噪声的缅甸语图像,训练集包含以下内容:1.数据集1包含600万张无背景噪声的长序列的训练缅甸语图像数据集;2.数据集2图像为与数据集1中每张图像的位置特征信息一一对应的短序列的单字符缅甸语训练数据集;3.数据集3图像为与数据集1中每张图像的位置特征信息一一对应的短序列的组合字符缅甸语训练数据集;4.数据集4包含600万张具有噪声的长序列训练缅甸语图像数据集;5.数据集5图像为与数据集4中每张图像的位置特征信息一一对应的单字符缅甸语训练数据集;6.数据集6图像为与数据集4中每张图像的位置特征信息一一对应的短序列组合字符缅甸语训练数据集。
作为本发明的优选方案,所述步骤Step1.4的具体步骤为:
Step1.4.1、整理缅甸语图像所对应的标签,删除标签中在图像上不能显示出来的辅音字符;
Step1.4.2、按照最后一个音节的优先级高于元音的原则,制定缅甸语编码排序规则,将图像所对应的标签编码按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对缅甸语图像进行规则性标注。
Step1的整个优选方案能达到如下有益效果:由于目前没有现成的缅甸图像文本识别数据,所以构造了该数据集。为本发明提供实验的训练集、测试集、评估集,为后续的模型训练提供数据集基础。将图像所对应的标签编码按照缅甸语Unicode编码算法顺序进行规则性标注,降低了因为识别输出缅甸语字符顺序错误而导致识别准确率低的问题;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、构建使用深度卷积神经网络和循环神经网络框架的学生网络架构,其中包含构建适应缅甸语OCR任务需求的深度卷积神经网络架构与超参数设置,循环神经网络的类型选取,网络解码端设置;
Step2.2、构建多个使用卷积神经网络和循环神经网络框架的教师集成的子网络架构。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、在深度卷积神经网络中选用了基于VGG-VeryDeep的架构,在此基础上采用了卷积层、最大池化层和删除全连接层构建出了适应缅甸语OCR任务需求的深度卷积神经网络模型组件;
Step2.1.2、在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度较大的特征图,从而能够产生比较长的缅甸语的特征向量序列,设置输入的缅甸图像生成30帧的特征序列,使所有特征图的第x列映射到第x个的特征向量上,保证图像上的信息完好保留转移到特征向量序列上;
Step2.1.3、选择循环神经网络中的BiLSTM(Bi-directional Long Short-TermMemory)来处理深度卷积神经网络中获得的特征向量序列,从而获得特征的每个列的概率分布,即预测从深度卷积神经网络提取输入图像的全序列字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.1.4、设置BiLSTM输出yt等对应位置的每个感受野内单字符和多个字符嵌套组合的复杂字符的SoftMax输出概率为pS',用于知识蒸馏损失计算;
Step2.1.5、计算出所有的标签序列概率:输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure BDA0002686776870000101
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure BDA0002686776870000102
是时刻t时有标签πt的概率;
Step2.1.6、选用基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure BDA0002686776870000103
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在没有词典的情况下输入为y转录的序列。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、构造n个教师网络中的子网络,其中每个子网络的深度卷积神经网络与循环神经网络内部结构与超参数设置与上述步骤Step2.1.1—Step2.1.3相同,预测从深度卷积神经网络提取的每张图像中单字符或者多个字符嵌套组合的复杂字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.2.2、每个子网络的解码端中前部分计算与上述步骤Step2.1.5相同,从而计算出当输入y=y1,...,yT的情况下,教师网络输出为q的标签序列概率pT(q|y);
Step2.2.3、因为缅甸语单字符和组合字符是有一定规则数量限制的,所以选用基于词典的解码转录方式更加准确便捷,词典是一组标签序列,当预测缅甸语图像识别结果时将会受到拼写检查字典的约束,在基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为最终的预测结果,即:
Figure BDA0002686776870000104
其中D为缅甸语词典。
Step2的整个优选方案能带来如下有益效果:根据缅甸语语言的特殊性,构建了使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构,利用单字符和嵌套组合字符的训练集来训练教师网络实现单个感受野内嵌套组合字符识别问题,利用长序列字符图像数据集来训练学生网络实现长序列字符识别问题,为下一步进行知识蒸馏联合训练创建了网络架构基础。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、将图像和标签(x',y')∈(X',Y')组成训练的数据集,其中每个样本属于K个类(Y'=1,2,…K),利用单字符和嵌套组合字符的训练集来训练教师网络,利用长序列字符图像数据集来训练学生网络;
Step3.2、计算教师网络损失值、学生网络损失值、知识蒸馏损失值,以集成学习的方式进行联合训练,从而优化学生网络的学习参数和模型权重。
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
Step3.2.1、计算教师网络和学生网络的交叉熵损失值,教师网络和学生网络的损失值分别用LCET和LCES表示,真实标签用y'表示;
Figure BDA0002686776870000111
Figure BDA0002686776870000112
其中η是指示函数,
Figure BDA0002686776870000113
是教师网络对应单字符或者组合字符的输出概率,pS'是学生网络与教师网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率;
Step3.2.2、计算知识蒸馏损失,知识蒸馏损失值用LKD表示,LKD由散度损失值LKL和均方误差损失值LMSE组成,公式如下:
Figure BDA0002686776870000114
式中的psi'代表i时刻学生网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率,
Figure BDA0002686776870000115
代表i时刻教师网络对应位置单字符或者组合字符对应的标签序列最终的预测结果概率,T是一个温度超参数,它控制教师子网络输出的软化。T值越大,目标类上的概率分布越软,LKL由以下公式如下:
Figure BDA0002686776870000116
均方误差损失值LMSE公式如下:
Figure BDA0002686776870000121
Step3.2.3、计算教师网络损失值和学生网络损失值与知识蒸馏损失值三个损失项的训练函数加权组合:
Ltrain=αLCET(PT,y')+βLCES(PS,y')+γLKD
其中PT=ft(x)和PS=fs(x)分别表示教师网络和学生模型中图像对应缅甸语单字符和组合字符字符所在相同感受野内输出yt等时刻所对应的映射函数概率,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,通过计算损失值来优化学生模型的权重与参数,从而来实现教师网络对学生网络的图像特征增强,α∈[0,0.5,1]、β∈[0,0.5,1]和γ∈[0,0.5,1]是平衡单个损失项的超参数;
Step3.2.4、fs(x)为X'→Y'的映射,通过fs(x',θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数Ltrain获得的学生网络学习参数和模型权重:
Figure BDA0002686776870000122
Step3的整个优选方案的能带来如下有益效果:采用知识蒸馏方法将教师学习到对齐片段的单字符和组合字符特征对学生模型的参数进行优化指导,在训练过程中,学生网络与教师集成的子网络进行耦合,根据教师集成产生的组合字符特征和真实性标签对学生模型的参数进行优化。促使学生网络能够强化学习到缅甸语组合字符的识别。解决了缅甸语组合字符进入网络后容易被计算机误判,导致识别准确率低的问题。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、通过文本检测工具将拍照图像,扫描图像或者网络图像的图像检测框取成多个单行图像,以便对每个单行图像内容进行缅甸语图像文本识别;
Step4.2、预处理上述步骤得到的单行图像,如果图像分辨率大于1350*32,则将图像压缩至1350*32分辨率大小,如果图像分辨率小于1350*32,则将图像空缺部分白色填充至分辨率1350*32;这样操作的目的是为了适应缅甸语文本字符特点,使输入的缅甸语图像中,字符间距和相邻字符特征更易于提取,从而达到输入图像更适用于模型识别,减小因图像分辨率问题导致的识别率降低;
Step4.3、将训练出的“.ckpt”模型转换成接受参数为1350*32分辨率图像的“.pb”格式模型,以便于将模型部署到服务器上,实现工程应用;
Step4.4、将上述转换成的“.pb”格式模型通过Tensorflow model server部署到服务器端上,进而实现web端口多用户并发请求的功能;
Step4.5、在web端通过使用学生网络架构调用部署到服务器端的缅甸语OCR模型,来测试输入的图像,进而得到准确值高的缅甸语图像识别结果并将其保存成文本文件。
Step4的整个优选方案的能带来如下有益效果:在工程应用上,能够实现多用户并发请求模型的功能,同时训练出的模型更加适用于现实中缅甸语OCR任务的需求,使在手机拍照、书本扫描件、网络截图等场景下,识别精度更加准确。
为了说明本发明的效果,本发明进行了如下实验,我们选用了80万张缅甸语场景文本图像作为评估数据集和80万张缅甸语场景文本图像作为测试数据集。训练集采用上述步骤Step1.3.4中的6个数据集。
我们在Tensorflow框架内实现了网络。实验在具有Intel(R)Xeon(R)Gold6132CPU@2.60GHz,NVIDIA Corporation GP100GL GPU的服务器上进行。
实验中严格按照标准评价指标单字符精确率(Per Char Accuracy)和全序列精确率(Full Sequence Accuracy)的公式如下所示:
Figure BDA0002686776870000131
Figure BDA0002686776870000132
其中PC、CS、SN分别代表每个字符的准确率、正确的字符总数、所有字符的总数。FS、SL、LN分别代表全序列精确率、正确的序列数、序列总数。在确保其他变量都一致的情况下,对比模型参数均基于原给出的超参数设置。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。我们在没有噪音的缅甸语图像情况下进行了2组实验。
实验一:首先我们选用数据集1作为学生网络的训练数据,数据集1所对应的对齐片段特征的缅甸语组合字符数据集3作为教师网络的训练数据进行了实验,对比实验的训练集为数据集1和数据集3的总和,实验结果识别准确率(%)如表1所示。
表1训练集为数据集1和3时的识别结果
Figure BDA0002686776870000141
从以上实验数据结果可以看出对比实验虽然取得了一定的效果,但是相对于我们基于知识蒸馏的缅甸语OCR方法准确率较差。实验中我们将教师网络学习到对齐片段的缅甸语组合字符特征对学生网络进行优化,从而对学生网络具有缅甸语组合字符的位置信息进行了特征增强,使多个字符嵌套组合的复杂字符识别准确率提高。对比实验中虽然在处理识别单字符方面比较擅长,但是在识别缅甸语组合字符时会产生误判或者输出字符顺序错乱等结果,所以导致识别准确率低于我们的值。
实验二:我们选用数据集1作为学生网络,数据集1对应的缅甸语单字符和组合字符所对应的数据集2数据集3作为教师网络的训练数据进行了实验,对比实验的训练集为数据集1、2、3的总和,实验结果识别准确率(%)如表2所示。
表2训练集为数据集1、2和3时的识别结果
Figure BDA0002686776870000142
相对于实验一,我们训练集中加入了数据集2,总体训练数据集增大,所以对比实验效果均有所提升,但是与我们实验结果相比,我们的提升更明显,侧面印证我们的方法是有效的。
因为以上训练数据集是在不含有背景噪音的情况下进行模型训练,在处理实际生活中具有背景噪音的缅甸语图像时识别效果就会较差,所以我们在训练数据使用具有背景图像的情况下进行了实验三,以此来提高模型在应对不同场景下的缅甸语图像识别。
实验三:我们将数据集4作为学生网络的训练数据,数据集5、6作为教师网络的训练数据,在该情况下选用数据集4+5进行了一组实验,选用数据集4+6进行了一组实验,选用数据集4+5+6进行了一组实验。对比实验的训练集为所对应数据集的总和,实验结果准确率(%)如表3所示。
表3具有背景噪声的情况下每个字符准确率和全序列准确率的实验结果
Figure BDA0002686776870000151
从表3中我们可以观察到,在训练集使用具有背景噪声图像比使用无背景噪声图像时识别精度更准确。在该情况下,我们的实验在数据集4+5+6的情况下相对于其它实验取得了更好的效果,说明我们的方法在识别缅甸语多字符组合图像中更具有优势。
实验数据集的大小也有可能影响识别准确度的最终结果,所以,我们在实验五的情况下,通过更改实验数据集的大小来比较测试结果,该数据集大小为学生网络训练集大小,教师网络训练集数量不计入其中,即与学生网络输入图像每张图像所对应的对齐片段特征的缅甸语单字符或者组合字符图像,但是教师网络训练集依然参与教师网络训练。实验的识别准确率结果如图3和图4所示。
通过实验结果可以得出结论,使用深度学习方法时训练模型数据集的大小会影响实验效果,并且通过实验比较分析结果可以看出,当训练数据集到600万时,随着训练数据的提升,准确值提升不再明显,所以可以取600万训练数据来训练最优模型。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.基于知识蒸馏的缅甸语OCR方法,其特征在于:所述方法包括:
Step1、构建适应任务需求的缅甸语图像数据集,然后对生成的图像进行加噪,最后对图像所对应的标签编码进行规则性标注;
Step2、构建使用深度卷积神经网络和循环神经网络框架的学生网络和教师网络的模型架构;
Step3、设置学生网络与教师网络的输入,基于知识蒸馏的方法将教师网络与学生网络以集成学习的方式进行联合训练,通过教师集成的子网络与学生网络进行耦合,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,以此增强对长序列字符图像中局部特征的获取,通过计算网络训练的损失值,进而优化学生网络的学习参数和模型权重;
Step4、学生网络通过调用服务器上的部署模型能够高效识别缅甸语复杂场景文本图像。
2.根据权利要求1所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、进行网络采集获取缅甸语句子,利用缅甸语片段切分工具将缅甸语音节和句子切成具有长序列缅甸语段文本数据;
Step1.2、从获得长序列缅甸语段文本数据中手动切分出短序列单字符和多个字符嵌套组合的复杂字符数据,切分出的字符保留原数据中的位置信息;
Step1.3、利用文本生成图像工具将获得的文本数据生成对应的缅甸语图像,然后对生成的图像加入噪声,把生成的缅甸语图像数据集分为训练集、测试集、评估集三部分;
Step1.4、对图像所对应的标签编码按照指定的缅甸语Unicode编码算法顺序对缅甸语图像内容进行规则性标注。
3.根据权利要求2所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step1.3中:
Step1.3.1、将步骤Step1.1获得的长序列缅甸语段文本数据,利用文本生成图像工具,生成包含600万张分辨率10*5~500*300像素无背景噪声的长序列的训练缅甸语图像数据集;
Step1.3.2、将步骤Step1.2获得短序列单字符和多个字符嵌套组合的复杂字符数据,利用文本生成图像工具,生成与步骤Step1.3.1生成的数据集中每张图像的位置特征信息一一对应的短序列的单字符和多个字符嵌套组合的复杂字符缅甸语数据集;
Step1.3.3、将上述步骤Step1.3.1—Step1.3.2获得数据集图像复制一份,将复制的数据集随机加入高斯噪声、椒盐噪声、均匀噪声,同时添加不同颜色的背景噪声;
Step1.3.4、将数据集分为训练集、测试集、评估集三部分,其中测试集和评估集包含80万张含有噪声的缅甸语图像,训练集包含以下内容:1.数据集1包含600万张无背景噪声的长序列的训练缅甸语图像数据集;2.数据集2图像为与数据集1中每张图像的位置特征信息一一对应的短序列的单字符缅甸语训练数据集;3.数据集3图像为与数据集1中每张图像的位置特征信息一一对应的短序列的组合字符缅甸语训练数据集;4.数据集4包含600万张具有噪声的长序列训练缅甸语图像数据集;5.数据集5图像为与数据集4中每张图像的位置特征信息一一对应的单字符缅甸语训练数据集;6.数据集6图像为与数据集4中每张图像的位置特征信息一一对应的短序列组合字符缅甸语训练数据集。
4.根据权利要求2所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step1.4的具体步骤为:
Step1.4.1、整理缅甸语图像所对应的标签,删除标签中在图像上不能显示出来的辅音字符;
Step1.4.2、按照最后一个音节的优先级高于元音的原则,制定缅甸语编码排序规则,将图像所对应的标签编码按照缅甸语Unicode编码算法顺序:<辅音>,<声调>,<元音>,<韵母>,<中音>对缅甸语图像进行规则性标注。
5.根据权利要求1所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、构建使用深度卷积神经网络和循环神经网络框架的学生网络架构,其中包含构建适应缅甸语OCR任务需求的深度卷积神经网络架构与超参数设置,循环神经网络的类型选取,网络解码端设置;
Step2.2、构建多个使用卷积神经网络和循环神经网络框架的教师集成的子网络架构。
6.根据权利要求5所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step2.1的具体步骤为:
Step2.1.1、在深度卷积神经网络中选用了基于VGG-VeryDeep的架构,在此基础上采用了卷积层、最大池化层和删除全连接层构建出了适应缅甸语OCR任务需求的深度卷积神经网络模型组件;
Step2.1.2、在第三个和第四个最大池化层中采用1×2大小的矩形池化窗口,用以产生宽度较大的特征图,从而能够产生比较长的缅甸语的特征向量序列,设置输入的缅甸图像生成30帧的特征序列,使所有特征图的第x列映射到第x个的特征向量上,保证图像上的信息完好保留转移到特征向量序列上;
Step2.1.3、选择循环神经网络中的BiLSTM来处理深度卷积神经网络中获得的特征向量序列,从而获得特征的每个列的概率分布,即预测从深度卷积神经网络提取输入图像的全序列字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.1.4、设置BiLSTM输出yt等对应位置的每个感受野内单字符和多个字符嵌套组合的复杂字符的SoftMax输出概率为pS',用于知识蒸馏损失计算;
Step2.1.5、计算出所有的标签序列概率:输入y=y1,...,yT的情况下,输出为q的标签序列概率为:
Figure FDA0002686776860000031
其中T是序列长度,输入y是一个T*n的后验概率矩阵,
Figure FDA0002686776860000032
Figure FDA0002686776860000033
是时刻t时有标签πt的概率;
Step2.1.6、选用基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,即:
Figure FDA0002686776860000034
其中Mδ(q')是最近邻候选目标,δ是最大编辑距离,q'是在没有词典的情况下输入为y转录的序列。
7.根据权利要求5所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step2.2的具体步骤为:
Step2.2.1、构造n个教师网络中的子网络,其中每个子网络的深度卷积神经网络与循环神经网络内部结构与超参数设置与上述步骤Step2.1.1—Step2.1.3相同,预测从深度卷积神经网络提取的每张图像中单字符或者多个字符嵌套组合的复杂字符特征序列x=x1,...,xT中每帧xt的标签分布yt
Step2.2.2、每个子网络的解码端中前部分计算与上述步骤Step2.1.5相同,从而计算出当输入y=y1,...,yT的情况下,教师网络输出为q的标签序列概率pT(q|y);
Step2.2.3、因为缅甸语单字符和组合字符是有一定规则数量限制的,所以选用基于词典的解码转录方式更加准确便捷,词典是一组标签序列,当预测缅甸语图像识别结果时将会受到拼写检查字典的约束,在基于词典的情况下,选取最大的标签序列概率所对应的标签序列作为最终的预测结果,即:
Figure FDA0002686776860000041
其中D为缅甸语词典。
8.根据权利要求1所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:
所述步骤Step3的具体步骤为:
Step3.1、将图像和标签(x',y')∈(X',Y')组成训练的数据集,其中每个样本属于K个类(Y'=1,2,…K),利用单字符和嵌套组合字符的训练集来训练教师网络,利用长序列字符图像数据集来训练学生网络;
Step3.2、计算教师网络损失值、学生网络损失值、知识蒸馏损失值,以集成学习的方式进行联合训练,从而优化学生网络的学习参数和模型权重。
9.根据权利要求8所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step3.2的具体步骤为:
Step3.2.1、计算教师网络和学生网络的交叉熵损失值,教师网络和学生网络的损失值分别用LCET和LCES表示,真实标签用y'表示;
Figure FDA0002686776860000042
Figure FDA0002686776860000043
其中η是指示函数,
Figure FDA0002686776860000044
是教师网络对应单字符或者组合字符的输出概率,pS'是学生网络与教师网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率;
Step3.2.2、计算知识蒸馏损失,知识蒸馏损失值用LKD表示,LKD由散度损失值LKL和均方误差损失值LMSE组成,公式如下:
Figure FDA0002686776860000051
式中的psi'代表i时刻学生网络输出yt等对应位置时刻单字符或者组合字符SoftMax输出概率,
Figure FDA0002686776860000052
代表i时刻教师网络对应位置单字符或者组合字符对应的标签序列最终的预测结果概率,T是一个温度超参数,它控制教师子网络输出的软化。T值越大,目标类上的概率分布越软,LKL由以下公式如下:
Figure FDA0002686776860000053
均方误差损失值LMSE公式如下:
Figure FDA0002686776860000054
Step3.2.3、计算教师网络损失值和学生网络损失值与知识蒸馏损失值三个损失项的训练函数加权组合:
Ltrain=αLCET(PT,y')+βLCES(PS,y')+γLKD
其中PT=ft(x)和PS=fs(x)分别表示教师网络和学生模型中图像对应缅甸语单字符和组合字符字符所在相同感受野内输出yt等时刻所对应的映射函数概率,实现学生网络中单个感受野对应的局部字符图像特征与教师网络中整体字符图像特征的对齐,通过计算损失值来优化学生模型的权重与参数,从而来实现教师网络对学生网络的图像特征增强,α∈[0,0.5,1]、β∈[0,0.5,1]和γ∈[0,0.5,1]是平衡单个损失项的超参数;
Step3.2.4、fs(x)为X'→Y'的映射,通过fs(x',θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数Ltrain获得的学生网络学习参数和模型权重:
Figure FDA0002686776860000055
10.根据权利要求1所述的基于知识蒸馏的缅甸语OCR方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、通过文本检测工具将拍照图像,扫描图像或者网络图像的图像检测框取成多个单行图像,以便对每个单行图像内容进行缅甸语图像文本识别;
Step4.2、预处理上述步骤得到的单行图像,如果图像分辨率大于1350*32,则将图像压缩至1350*32分辨率大小,如果图像分辨率小于1350*32,则将图像空缺部分白色填充至分辨率1350*32;
Step4.3、将训练出的“.ckpt”模型转换成接受参数为1350*32分辨率图像的“.pb”格式模型,以便于将模型部署到服务器上,实现工程应用;
Step4.4、将上述转换成的“.pb”格式模型通过Tensorflow model server部署到服务器端上,进而实现web端口多用户并发请求的功能;
Step4.5、在web端通过使用学生网络架构调用部署到服务器端的缅甸语OCR模型,来测试输入的图像,进而得到准确值高的缅甸语图像识别结果并将其保存成文本文件。
CN202010978722.XA 2020-09-17 2020-09-17 基于知识蒸馏的缅甸语ocr方法 Active CN112287920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010978722.XA CN112287920B (zh) 2020-09-17 2020-09-17 基于知识蒸馏的缅甸语ocr方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010978722.XA CN112287920B (zh) 2020-09-17 2020-09-17 基于知识蒸馏的缅甸语ocr方法

Publications (2)

Publication Number Publication Date
CN112287920A true CN112287920A (zh) 2021-01-29
CN112287920B CN112287920B (zh) 2022-06-14

Family

ID=74421115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010978722.XA Active CN112287920B (zh) 2020-09-17 2020-09-17 基于知识蒸馏的缅甸语ocr方法

Country Status (1)

Country Link
CN (1) CN112287920B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326764A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113361572A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置
CN113609965A (zh) * 2021-08-03 2021-11-05 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
CN115294407A (zh) * 2022-09-30 2022-11-04 山东大学 基于预习机制知识蒸馏的模型压缩方法及系统
CN116977436A (zh) * 2023-09-21 2023-10-31 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置
WO2023220878A1 (en) * 2022-05-16 2023-11-23 Intel Corporation Training neural network trough dense-connection based knowlege distillation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法
CN111554268A (zh) * 2020-07-13 2020-08-18 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置
CN112613273A (zh) * 2020-12-16 2021-04-06 上海交通大学 多语言bert序列标注模型的压缩方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AJAY JAMES 等: "《A NOVEL HYBRID APPROACH FOR FEATURE EXTRACTION IN MALAYALAM HANDWRITTEN CHARACTER RECOGNITION》", 《JOURNAL OF THEORETICAL AND APPLIED INFORMATION TECHNOLOGY》 *
PRANAV P NAIR 等: "《Malayalam Handwritten Character Recognition Using Convolutional Neural Network》", 《INTERNATIONAL CONFERENCE ON INVENTIVE COMMUNICATION AND COMPUTATIONAL TECHNOLOGIES》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361572A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113361572B (zh) * 2021-05-25 2023-06-27 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113326764A (zh) * 2021-05-27 2021-08-31 北京百度网讯科技有限公司 训练图像识别模型和图像识别的方法和装置
CN113609965A (zh) * 2021-08-03 2021-11-05 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113609965B (zh) * 2021-08-03 2024-02-13 同盾科技有限公司 文字识别模型的训练方法及装置、存储介质、电子设备
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN113963358A (zh) * 2021-12-20 2022-01-21 北京易真学思教育科技有限公司 文本识别模型训练方法、文本识别方法、装置及电子设备
WO2023220878A1 (en) * 2022-05-16 2023-11-23 Intel Corporation Training neural network trough dense-connection based knowlege distillation
CN115294407A (zh) * 2022-09-30 2022-11-04 山东大学 基于预习机制知识蒸馏的模型压缩方法及系统
CN116977436A (zh) * 2023-09-21 2023-10-31 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置
CN116977436B (zh) * 2023-09-21 2023-12-05 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Also Published As

Publication number Publication date
CN112287920B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112287920B (zh) 基于知识蒸馏的缅甸语ocr方法
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
CN111046946B (zh) 基于crnn的缅甸语图像文本识别方法
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
Kang et al. Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition
van Der Wel et al. Optical music recognition with convolutional sequence-to-sequence models
Singh et al. Full page handwriting recognition via image to sequence extraction
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
Puigcerver et al. ICDAR2015 competition on keyword spotting for handwritten documents
Naz et al. Segmentation techniques for recognition of Arabic-like scripts: A comprehensive survey
CN110178139B (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
Kass et al. AttentionHTR: Handwritten text recognition based on attention encoder-decoder networks
CN110188762B (zh) 中英文混合商户门店名称识别方法、系统、设备及介质
Dutta et al. Towards spotting and recognition of handwritten words in Indic scripts
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN110705459A (zh) 数理化公式自动识别方法及装置、模型训练方法及装置
Riaz et al. Conv-transformer architecture for unconstrained off-line Urdu handwriting recognition
Kang et al. Woodblock-printing Mongolian words recognition by bi-LSTM with attention mechanism
Ashraf et al. An analysis of optical character recognition (ocr) methods
Mostafa et al. An end-to-end ocr framework for robust arabic-handwriting recognition using a novel transformers-based model and an innovative 270 million-words multi-font corpus of classical arabic with diacritics
Chamchong et al. Thai handwritten recognition on BEST2019 datasets using deep Learning
Valy et al. Text Recognition on Khmer Historical Documents using Glyph Class Map Generation with Encoder-Decoder Model.
Le et al. An Attention-Based Encoder–Decoder for Recognizing Japanese Historical Documents
Hossain et al. Neural net based complete character recognition scheme for Bangla printed text books
Asadi-zeydabadi et al. IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical Character Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant