CN113887480B - 基于多解码器联合学习的缅甸语图像文本识别方法及装置 - Google Patents
基于多解码器联合学习的缅甸语图像文本识别方法及装置 Download PDFInfo
- Publication number
- CN113887480B CN113887480B CN202111214739.9A CN202111214739A CN113887480B CN 113887480 B CN113887480 B CN 113887480B CN 202111214739 A CN202111214739 A CN 202111214739A CN 113887480 B CN113887480 B CN 113887480B
- Authority
- CN
- China
- Prior art keywords
- decoder
- network
- burma
- image
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置,属自然语言处理领域。为解决缅甸语图像中上下标字符文本识别准确率低的问题,本发明提出了基于多解码器联合学习的缅甸语图像文本识别方法,包括缅甸语图像进行预处理、联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型构建、基于多解码器联合学习的缅甸语识别模型训练、缅甸语图像文本识别模型四部分构成。根据这四部分功能模块化制成基于多解码器联合学习的缅甸语图像文本识别装置,对输入的缅甸语图片进行文字识别,本发明提高了缅甸语图像文本识别的正确率,有效地解决缅甸语图像中由于字符遮挡或者上下标字符缺失导致难以识别的问题。
Description
技术领域
本发明涉及基于多解码器联合学习的缅甸语图像文本识别方法及装置,属于自然语言处理技术领域。
背景技术
在缅甸语中,存在复杂的字符空间组合结构,例如,缅甸语在图像的一个感受野中由三个字符(/u107f),(/u1015)和(/u102e)组成,但是在英语中一个感受野内的“n”由一个字符“n”(/u006e)组成,同时缅甸语具有特殊的字符编码顺序,图像文本信息识别过程如果出现字符丢失或者识别错误,有可能导致后续语义信息错误,虽然目前图像文本检测的相关工作已经取得了一定的进展,但是在缅甸语特殊语言上仍然存在未能全部框选的问题,文本检测时可能未能检测缅甸语完整的上下标字符,检测出的图像再进行缅甸语图像文本识别时,准确率呈现较低的现象,尽管中文或者英文等常规文本识别已经成熟,但是在缅甸语特殊文本识别上仍然是一项困难的任务。随着深度学习的发展,虽然有关图像文本识别的最新研究已经取得一些成果,但是由于缅甸语字符、语言编码结构、字符组合形状等巨大差异,同时伴随着背景干扰、遮挡、图像模糊等各种问题,现有图像文本识别方法还无法有效的解决此类问题。
在实际应用中,图像文本检测后框选出的图像大多数会出现缅甸语字符缺失或者不完整现象,例如图像里组合字符和中的字符很可能没有完全检测框选完整,计算机很容易会将其识别为或者这将严重影响识别准确度。同时,此类问题不是单独存在的,缅甸语中存在大量的上标和下标字符,例如等字符,目前的相关技术在识别这种显示不完整缅甸语字符时,不能完整的识别出来,进而导致整个缅甸语句子的错误。现有方法在本地将文本识别任务定义为序列字符分类任务,但是弱化了文本序列本身的上下文信息。所以,他们难以处理低质量的图像,例如图像模糊,遮挡和不完整的字符,但是,如果通过考虑缅甸语文本的上下文信息时,即使缅甸语字符存在遮挡和不完整现象,本发明仍然可以较正确的识别这些文本信息。为解决此类问题,本方面提出一种基于多解码器联合学习的缅甸语图像文本识别方法及装置来提高模型对缅甸语的识别准确率。
发明内容
本发明提供基于多解码器联合学习的缅甸语图像文本识别方法及装置,缓解缅甸语字符存在遮挡和不完整情况下的识别问题,本发明提高了缅甸语图像文本识别的正确率,有效地解决了缅甸语图像中由于字符遮挡或者上下标字符缺失导致难以识别的问题。
本发明构建了基于CTC解码器、基于注意力机制解码器以及基于分割解码器的神经网络模型架构;基于多解码器联合学习的方法将三个不同解码器的图像文本识别子网络以相互学习的方式进行网络训练,相互蒸馏,通过子网络模型参数之间的共享学习,实现保证子网络结构不变的情况下进而获得更多的特征表现能力与上下文信息关联能力,因为网络中损失函数的设计,子网络的损失函数是由自身训练拟合的损失与学生网络之间的交叉熵损失的加权构成,这样的网络框架设计可以在保持子网络结构不变的情况下获取到更多的特征表现能力与上下文信息关联能力的优点,进而提升了缅甸语OCR的识别准确度。
本发明的技术方案是:第一方面,基于多解码器联合学习的缅甸语图像文本识别方法,所述方法包括:
Step1、缅甸语图像预处理:由于缅甸语训练数据像素高为32.,像素宽分布于90-150区域间内,根据实验分析模型输入为32*120取得最优效果,将模型输入设为32*120;
Step2、基于多解码器联合学习的缅甸语识别模型构建:构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符较准确的识别;
Step3、基于多解码器联合学习的缅甸语识别模型训练:设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;
Step4、基于多解码器联合学习的缅甸语识别模型预测:对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.3、基于分割解码器的图像文本识别网络在识别缅甸语单字符短序列和长序列都有着较好的识别效果,所以本发明构建了基于分割解码器的子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置,为了实现整个神经网络融入分割解码器对缅甸语图像文本识别的优点,例图如:
Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合,进而构建了基于多解码器联合学习的缅甸语图像文本识别方法及装置网络框架,实现子网络之间的参数学习。
作为本发明的优选方案,所述步骤Step2.1中:
Step2.1.1、特征提取网络中选择基于ResNet-45的架构,在此基础上删除全连接层,同时保留残差块、最大池化层和卷积层,实现对缅甸语文本图像特征的提取,并用作后续的BiLSTM网络的输入;
Step2.1.2、在基于ResNet-45的卷积神经网络中将其内部结构中池化层的池化窗口改为1×2大小,用于保证得到30帧的特征序列,使特征向量能够完成保留图像信息;
Step2.1.3、循环神经网络选择BiLSTM来处理ResNet-45得到特征序列,以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时,获得每一列对应的预测概率分布;
Step2.1.4、选择CTC作为解码器,该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p1。
作为本发明的优选方案,所述Step2.2的具体步骤为:
Step2.2.1、特征提取网络、循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同,具体的还与Step2.1.1—Step2.1.3保持相同;
Step2.2.2、选择基于注意力机制的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p2。
作为本发明的优选方案,所述Step2.3的具体步骤为:
Step2.3.1、特征提取网络、循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同,具体的还与Step2.1.1—Step2.1.3保持相同;
Step2.3.2、选择基于分割的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p3。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、将大小为N的缅甸语图像输入样本(x′,y′)∈(X′,Y′)作为数据集,给定N个缅甸语图像输入样本和图像对应缅甸语预测标签将缅甸语图像内容识别为序列l的概率定义为其中l∈D,t∈(1,2,3),D为缅甸语词典,利用该数据集训练基于CTC解码器的子网络、基于注意力机制解码器的子网络、以及基于分割解码器的子网络;
Step3.2、以基于CTC的解码器子网络为中心来举例说明,使其结合了其他网络预测层中的优势,协同学习进而优化基于CTC解码器网络模型,以其他子网络为中心的训练方法将本发明中计算方式相同。计算基于CTC解码器的子网络的自身监督损失值、基于注意力机制解码器的自身监督损失值、基于分割解码器的子网络子网络的自身监督损失值以及子网络之间的KL散度损失值,以集成的方式进行网络训练,从而优化每个子网络之间的学习参数和网络权重。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step3.2.1、基于注意力机制解码器网络在缅甸语短文本组合字符图像的识别中具有更高的准确率,比如:基于CTC解码器的网络在长序列图像识别过程具有更好的性能,比如:基于分割解码器网络在识别缅甸语单字符短序列和长序列都有着较好的识别效果,但是识别速度较慢,比如:为保证基于CTC解码器的识别网络在处理长序列图像、短文本图像以及单个字符的性能接近最优,基于集成的方式实现三个子网络的联合训练。
Step3.2.2、计算基于注意力机制解码器网络的缅甸语预测标签与真实标签的自身监督损失值、基于CTC解码器的网络的缅甸语预测标签与真实标签的自身监督损失值、基于分割解码器的子网络的缅甸语预测标签与真实标签的自身监督损失值,分别用表示:
其中,将指示函数I(yi,l)定义为:
p1、p2、p3分别是由基于注意力的解码器、基于CTC的解码器和基于分割的解码器的三个子网络的预测概率;
Step3.2.3、计算三个子网络之间的KL散度损失值,分别用DKL(p1||p2)、DKL(p3||p2)表示:
其中DKL(p1||p2)、DKL(p3||p2)分别表示基于注意力的解码器与基于CTC的解码器子网络的KL散度损失、基于CTC的解码器与基于分割的解码器子网络的KL散度损失;
其中K代表子网络的个数。
Step3.2.5、缅甸语图像到缅甸语文本序列的映射为fs(x):X′→Y′,通过fs(x′,θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数获得的学习参数:
通过计算最终的最小损失值,进而将训练网络中获取的参数和权重反馈给神经网络模型,得到最终的模型。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、为实现OCR模型批处理操作,首先将模型输入图像的高定义为32,宽的最大值定义为Wmax,对于输入宽度小于Wmax的图像进行白色像素填充,模型批量处理的大小为所输入图像的数量,以此实现模型对输入图像的并行计算,提高识别速度;
Step4.2、将模型保存为“.pth”文件,通过Flask框架将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;
Step4.3、通过Flask框架将模型部署为一个API接口,进而实现Web端口多并发请求的功能;
Step4.4、在Web端通调用部署到服务器端的缅甸语OCR模型,来测试输入的缅甸语图像,进而得到缅甸语图像的识别结果并将其展示到前端界面。
第二方面,本发明实施例还提供了基于多解码器联合学习的缅甸语图像文本识别装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
本发明针对缅甸语图像中部分字符丢失或者遮挡识别错误的问题,提出了一种基于多解码器联合学习的缅甸语图像文本识别方法及装置,根据缅甸语文字特点,首次针对缅甸语文字图像特点,构造了基于多解码器联合学习的神经网络框架,以相互学习的方式进行子网络模型之间的融合,进而提高模型的性能,来解决缅甸语OCR问题。通过相互学习的方法,使子网络之间进行相互学习,保留每个子网络缅甸语图像文字识别的优势和语言上下文信息,子网络之间相互监督,共同进步,来解决缅甸语遮挡和不完整的字符识别的问题,对缅甸语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中缅甸语OCR装置网络架构图;
图2为本发明中的方法流程框图;
具体实施方式
实施例1:如图1-图2所示,基于多解码器联合学习的缅甸语图像文本识别方法,所述方法包括:
Step1、缅甸语图像预处理:由于缅甸语训练数据像素高为32.,像素宽分布于90-150区域间内,根据实验分析模型输入为32*120取得最优效果,将模型输入设为32*120;
Step2、基于多解码器联合学习的缅甸语识别模型构建:构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符较准确的识别;
Step3、基于多解码器联合学习的缅甸语识别模型训练:设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的方法将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;
Step4、基于多解码器联合学习的缅甸语识别模型预测:对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.3、基于分割解码器的图像文本识别网络在识别缅甸语单字符短序列和长序列都有着较好的识别效果,所以本发明构建了基于分割解码器的子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置,为了实现整个神经网络融入分割解码器对缅甸语图像文本识别的优点,例图如:
Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合,进而构建了基于多解码器联合学习的缅甸语图像文本识别方法及装置网络框架,实现子网络之间的参数学习。
作为本发明的优选方案,所述步骤Step2.1的具体步骤为:
Step2.1.1、特征提取网络中选择基于ResNet-45的架构,在此基础上删除全连接层,同时保留残差块、最大池化层和卷积层,实现对缅甸语文本图像特征的提取,并用作后续的BiLSTM网络的输入;
Step2.1.2、在基于ResNet-45的卷积神经网络中将其内部结构中池化层的池化窗口改为1×2大小,用于保证得到30帧的特征序列,使特征向量能够完成保留图像信息;
Step2.1.3、循环神经网络选择BiLSTM来处理ResNet-45得到特征序列,以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时,获得每一列对应的预测概率分布;
Step2.1.4、选择CTC作为解码器,该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p1。
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、特征提取网络、循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同,具体的还与Step2.1.1—Step2.1.3保持相同;
Step2.2.2、选择基于注意力机制的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p2。
作为本发明的优选方案,所述Step2.3的具体步骤为:
Step2.3.1、特征提取网络、循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同,具体的还与Step2.1.1—Step2.1.3保持相同;
Step2.3.2、选择基于分割的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p3。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、将大小为N的缅甸语图像输入样本(x′,y′)∈(X′,Y′)作为数据集,给定N个缅甸语图像输入样本和图像对应缅甸语预测标签将缅甸语图像内容识别为序列l的概率定义为其中l∈D,t∈(1,2,3),D为缅甸语词典,利用该数据集训练基于CTC解码器的子网络、基于注意力机制解码器的子网络、以及基于分割解码器的子网络;
Step3.2、以基于CTC的解码器子网络为中心来举例说明,使其结合了其他网络预测层中的优势,协同学习进而优化基于CTC解码器网络模型,以其他子网络为中心的训练方法将本发明中计算方式相同。计算基于CTC解码器的子网络的自身监督损失值、基于注意力机制解码器的自身监督损失值、基于分割解码器的子网络子网络的自身监督损失值以及子网络之间的KL散度损失值,以集成的方式进行网络训练,从而优化每个子网络之间的学习参数和网络权重。
作为本发明的优选方案,所述步骤Step3.2的具体步骤为:
Step3.2.1、基于注意力机制解码器网络在缅甸语短文本组合字符图像的识别中具有更高的准确率,比如:基于CTC解码器的网络在长序列图像识别过程具有更好的性能,比如:基于分割解码器网络在识别缅甸语单字符短序列和长序列都有着较好的识别效果,但是识别速度较慢,比如:为保证基于CTC解码器的识别网络在处理长序列图像、短文本图像以及单个字符的性能接近最优,基于集成的方式实现三个子网络的联合训练。
Step3.2.2、计算基于注意力机制解码器缅甸语预测标签与真实标签的自身监督损失值、基于CTC解码器的子网络缅甸语预测标签与真实标签的自身监督损失值、基于分割解码器的子网络的缅甸语预测标签与真实标签的自身监督损失值,分别用表示:
其中,将指示函数I(yi,l)定义为:
p1,p2,p3分别是由基于注意力的解码器、基于CTC的解码器和基于分割的解码器的三个子网络的预测概率;
Step3.2.3、计算三个子网络之间的KL散度损失值,分别用DKL(p1||p2)、DKL(p3||p2)表示:
其中DKL(p1||p2)、DKL(p3||p2)分别表示基于注意力的解码器与基于CTC的解码器子网络的KL散度损失、基于CTC的解码器与基于分割的解码器子网络的KL散度损失;
其中K代表子网络的个数。
Step3.2.5、缅甸语图像到缅甸语文本序列的映射为fs(x):X′→Y′,通过fs(x′,θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数获得的学习参数:
通过计算最终的最小损失值,进而将训练网络中获取的参数和权重反馈给神经网络模型,得到最终的模型。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、为实现OCR模型批处理操作,首先将模型输入图像的高定义为32,宽的最大值定义为Wmax,对于输入宽度小于Wmax的图像进行白色像素填充,模型批量处理的大小为所输入图像的数量,以此实现模型对输入图像的并行计算,提高识别速度;
Step4.2、将模型保存为“.pth”文件,通过Flask框架将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;
Step4.3、通过Flask框架将模型部署为一个API接口,进而实现Web端口多并发请求的功能;
Step4.4、在Web端通调用部署到服务器端的缅甸语OCR模型,来测试输入的缅甸语图像,进而得到缅甸语图像的识别结果并将其展示到前端界面。
第二方面,本发明实施例还提供了基于多解码器联合学习的缅甸语图像文本识别装置,该装置包括用于执行上述第一方面的方法的模块。
具体可以包括如下模块:
图像处理模块:用于对缅甸语图像进行处理;
构建基于多解码器联合学习的缅甸语识别模型模块:用于构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,分别用于实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符的识别;
训练基于多解码器联合学习的缅甸语识别模型模块:用于设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的方法将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;
预测基于多解码器联合学习的缅甸语识别模型模块:用于对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。
为了说明本发明的效果,本发明进行了如下实验,本发明选择的缅甸语图像数据集如下所示。
数据集内的图像为“.jpg”格式,对应的数据标签为缅甸语图像内对应的文本信息,如表1所示。在神经网络训练前,本发明将数据保存为.mdb格式以提升实验数据读取速率。本发明的实验是基于Pytorch框架实现的,实验服务器的配置为Intel(R)Xeon(R)Gold6132CPU@2.60GHz,NVIDIA Corporation GP100GL GPU。本发明使用了多块GPU,采用分布式训练,每次迭代时两个网络同时计算概率估计差异并更新模型参数。模型训练时选择Adam作为优化器,学习率更新测率选择余弦退火;根据GPU显存及训练数据集大小,模型Batch-Size设为200,训练步长30万,训练epoach为10。
实验中严格按照标准评价指标单字符精确率(Per Char Accuracy)和全序列精确率(Full Sequence Accuracy)的公式如下所示:
其中PC、CS、SN分别代表缅甸语每个字符的准确率、正确的字符总数、所有字符的总数。FS、SL、LN分别代表缅甸语全序列准确率、正确的序列数、序列总数。在确保其他变量都一致的情况下,对比模型参数均基于原给出的超参数设置。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。本发明在没有噪音的缅甸语图像情况下进行了2组实验。
实验一、在上面提供的缅甸语图像训练数据集的基础上,同时基于Attention、CTC和分割解码器的三个子神经网络对本发明提出的利用集成学习思想进行神经网络训练实验,获取了每个子网络相互学习后的神经网络模型,并在测试集上进行了测试,同时与其它通用方法的实验结果进行了比对,实验结果如表1所示。
表1 基于Attention、CTC和分割解码器的识别结果
通过观察表2中的实验数据结果,可以看出通过基于多解码器联合学习的方法,在选用含有背景噪声的缅甸语图像作为神经网络训练数据集时,三个子网络进行相互学习联合训练后,每个子网络的模型效果都有所提高。同时,实验结果相对于其他通用方法更具有优势性,在缅甸语全序列的识别准确率方面,基于分割解码器的子网络相对于ResNet-45+BiLSTM+CTC网络基线提高了3.0%,基于Attention解码器的子网络提高了3.1%,基于CTC解码器的子网络提高了3.6%。所以,本发明基于多解码器联合学习的缅甸语图像文本识别方法,通过神经网络训练获取的模型,在测试集上能够达到较高的识别准确度,具有一定的实际应用价值,验证了本发明的方法在网络训练中,模型能够较好的学习到每个子网络之间的优势和上下文信息关联性,从而提高图像上整个缅甸语句子的识别准确率。
接着将主任务进行分解,首先选取了基于注意力的解码器和基于CTC的解码器的两个子网络进行联合相互学习实验,实验结果如表2所示,表中Mut.表示是否使用本发明的方法,训练数据与上面实验保持一致。
表2 基于Attention和CTC解码器的识别结果
从表2中的实验数据结果可以看出通过使用本发明的方法,无论是基于注意力的解码器子网络还是基于CTC的解码器子网络,在测试集上进行测试相对于单独训练出的模型效果都有所提高,在全序列准确率方面分别提高了0.8%和0.6%,说明了将两个学生网络进行相互学习可以提高对应模型的效果,通过测试发现,在识别没有完全检测完整的缅甸语图像上能够达到较好效果。例如,在识别图像时,基于CTC的解码器的网络单独训练出的模型识别为通过相互学习后训练出的神经网络模型识别结果为可以看出本发明提出的的方法在识别和等上下标字符上更具有优势。
为了验证本发明方法的有效性,同时还进行了将基于Attention的解码器和基于分割的解码器的两个子网络进行联合互学习的实验,基于CTC的解码器和基于分割的解码器的两个子网络进行联合互学习的实验,实验结果分别如表3和表4所示。实验所用到的数据集保持与上面实验保持一致。
表3 基于Attention和分割解码器的识别结果
表4 基于CTC和分割解码器的识别结果
在表3和表4的实验数据结果中,本发明可以了解到每个子网络经过集成相互学习训练后,获取的神经网络模型在相同测试集上的识别正确率都有所提高,最高能提高1.3%的准确率。说明本发明方法无论在两个子网络之间或者三个子网络之间都能够很好的学习到其它图像文本识别网络的优势,进而来优化自己的模型,说明了该方法具有一定的可行性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:
Step1、对缅甸语图像进行处理;
Step2、基于多解码器联合学习的缅甸语识别模型构建:构建联合基于CTC解码器、基于注意力机制解码器以及基于分割解码器的缅甸语图像文本识别模型,分别用于实现对长序列缅甸语、短序列组合字符缅甸语以及缅甸语单字符的识别;
Step3、基于多解码器联合学习的缅甸语识别模型训练:设置基于CTC解码器、基于注意力机制解码器以及基于分割解码器的三个子网络的输入,基于多解码器联合学习的方法将三个子网络以相互学习的方式进行联合训练,通过子网络模型参数之间的共享学习,计算网络训练之间的损失值,来优化三个子网络的学习参数与模型权重,进而提升了缅甸语OCR的识别准确度;
Step4、基于多解码器联合学习的缅甸语识别模型预测:对模型输入的相关参数进行设置,达到对图像批量处理的目的,从而提高缅甸语OCR模型的速度,接着将训练好的神经网络模型进行保存,并部署于服务器上,实现对缅甸语图像中的文本信息识别。
2.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:将缅甸语训练数据的像素高、像素宽处理为32*120。
3.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2的具体步骤为:
Step2.1、构建基于CTC解码器子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于CTC解码器参数的设置,用于实现对长序列图像更准确的文本识别;
Step2.2、构建基于注意力机制解码器的子网络,用于识别短序列组合字符缅甸语文本,同时构建包含构建适应缅甸语OCR任务需求的特征提取网络,以及注意力机制解码器参数的设置;
Step2.3、构建基于分割解码器的子网络,其中包含构建适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取和基于分割解码器参数的设置;
Step2.4、将构建好的基于注意力的解码器网络、基于CTC的解码器网络与基于分割的解码器的三个子网络之间的解码端进行联合,进而构建了基于多解码器联合学习的缅甸语图像文本识别方法网络框架,实现子网络之间的参数学习。
4.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.1中:
Step2.1.1、特征提取网络中采用ResNet-45的思想,删除深度卷积神经网络ResNet-45的全连接层,同时保留残差块、最大池化层和卷积层,实现对缅甸语文本图像特征的提取,并用作后续的BiLSTM网络的输入;
Step2.1.2、在基于ResNet-45的卷积神经网络中将其内部结构中池化层的池化窗口改为1×2大小,用于保证得到30帧的特征序列,使特征向量能够完成保留图像信息;
Step2.1.3、为利用上下文信息提升模型的识别精度,设计循环神经网络BiLSTM对ResNet-45得到特征序列进行再次编码,以保证经过BiLSTM的特征序列能够获取缅甸语上下文信息的同时,获得每一列对应的预测概率分布;
Step2.1.4、选择CTC作为解码器,该解码器基于最近邻候选目标的方式来选取最大的标签序列概率所对应的标签序列作为图像中每一帧的缅甸语最终的预测结果,将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p1。
5.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.2中:
Step2.2.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同;
Step2.2.2、选择基于注意力机制的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p2。
6.根据权利要求3所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step2.3的具体步骤为:
Step2.3.1、网络选取的特征提取网络与循环神经网络的选择与构建基于CTC解码器子网络中的适应缅甸语OCR任务需求的特征提取网络、循环神经网络的类型选取保持相同;
Step2.3.2、选择基于分割的解码器,该网络将缅甸语图像内容识别为对应的缅甸语正确序列标签的概率定义为p3。
7.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step3的具体步骤为:
Step3.1、将大小为N的缅甸语图像输入样本(x′,y′)∈(X′,Y′)作为数据集,给定N个缅甸语图像输入样本和图像对应缅甸语预测标签将缅甸语图像内容识别为序列l的概率定义为其中l∈D,t∈(1,2,3),D为缅甸语词典,利用该数据集训练基于CTC解码器的子网络、基于注意力机制解码器的子网络、以及基于分割解码器的子网络;
Step3.2、计算基于CTC解码器的子网络的自身监督损失值、基于注意力机制解码器的自身监督损失值、基于分割解码器的子网络子网络的自身监督损失值以及子网络之间的KL散度损失值,以集成的方式进行网络训练,从而优化每个子网络之间的学习参数和网络权重。
8.根据权利要求7所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step3.2的具体步骤为:
Step3.2.1、为保证基于CTC解码器的识别网络在处理长序列图像、短文本图像以及单个字符的性能接近最优,基于集成的方式实现三个子网络的联合训练;
Step3.2.2、计算基于注意力机制解码器网络的缅甸语预测标签与真实标签的自身监督损失值、基于CTC解码器的网络的缅甸语预测标签与真实标签的自身监督损失值、基于分割解码器子网络的缅甸语预测标签与真实标签的自身监督损失值,分别用表示:
其中,将指示函数I(yi,l)定义为:
p1、p2、p3分别是由基于注意力的解码器、基于CTC的解码器和基于分割的解码器的三个子网络的预测概率;
Step3.2.3、计算三个子网络之间的KL散度损失值,分别用DKL(p1||p2)、DKL(p3||p2)表示:
其中DKL(p1||p2)、DKL(p3||p2)分别表示基于注意力的解码器与基于CTC的解码器子网络的KL散度损失、基于CTC的解码器与基于分割的解码器子网络的KL散度损失;
其中K代表子网络的个数;
Step3.2.5、缅甸语图像到缅甸语文本序列的映射为fs(x):X′→Y′,通过fs(x′,θ*)训练学生网络的参数θ*,其中θ是初始化的学习参数和模型权重,θ*是通过最小化训练目标函数获得的学习参数:
通过计算最终的最小损失值,进而将训练网络中获取的参数和权重反馈给神经网络模型,得到最终的模型。
9.根据权利要求1所述的基于多解码器联合学习的缅甸语图像文本识别方法,其特征在于:所述Step4的具体步骤为:
Step4.1、为实现OCR模型批处理操作,首先将模型输入图像的高定义为32,宽的最大值定义为Wmax,对于输入宽度小于Wmax的图像进行白色像素填充,模型批量处理的大小为所输入图像的数量,以此实现模型对输入图像的并行计算,提高识别速度;
Step4.2、将模型保存为“.pth”文件,通过Flask框架将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;
Step4.3、利用Flask框架将模型部署为一个API接口,进而实现Web端口多并发请求的功能;
Step4.4、在Web端通调用部署到服务器端的缅甸语OCR模型,来测试输入的缅甸语图像,进而得到缅甸语图像的识别结果并将其展示到前端界面。
10.基于多解码器联合学习的缅甸语图像文本识别装置,其特征在于:包括用于执行如权利要求1-9任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214739.9A CN113887480B (zh) | 2021-10-19 | 2021-10-19 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214739.9A CN113887480B (zh) | 2021-10-19 | 2021-10-19 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113887480A CN113887480A (zh) | 2022-01-04 |
CN113887480B true CN113887480B (zh) | 2022-05-17 |
Family
ID=79003446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111214739.9A Active CN113887480B (zh) | 2021-10-19 | 2021-10-19 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113887480B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495114B (zh) * | 2022-04-18 | 2022-08-05 | 华南理工大学 | 基于ctc解码器的文本序列识别模型校准方法 |
CN115471851B (zh) * | 2022-10-11 | 2023-07-28 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
CN115329785B (zh) * | 2022-10-15 | 2023-01-20 | 小语智能信息科技(云南)有限公司 | 融入音素特征的英-泰-老多语言神经机器翻译方法及装置 |
CN116977436B (zh) * | 2023-09-21 | 2023-12-05 | 小语智能信息科技(云南)有限公司 | 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10580432B2 (en) * | 2018-02-28 | 2020-03-03 | Microsoft Technology Licensing, Llc | Speech recognition using connectionist temporal classification |
US11257481B2 (en) * | 2018-10-24 | 2022-02-22 | Tencent America LLC | Multi-task training architecture and strategy for attention-based speech recognition system |
CN109543667B (zh) * | 2018-11-14 | 2023-05-23 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN111046946B (zh) * | 2019-12-10 | 2021-03-02 | 昆明理工大学 | 基于crnn的缅甸语图像文本识别方法 |
CN111401375B (zh) * | 2020-03-09 | 2022-12-30 | 苏宁云计算有限公司 | 文本识别模型训练方法、文本识别方法、装置及设备 |
CN111832546B (zh) * | 2020-06-23 | 2024-04-02 | 南京航空航天大学 | 一种轻量级自然场景文本识别方法 |
CN111783705B (zh) * | 2020-07-08 | 2023-11-14 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
CN112287920B (zh) * | 2020-09-17 | 2022-06-14 | 昆明理工大学 | 基于知识蒸馏的缅甸语ocr方法 |
CN112633431B (zh) * | 2020-12-31 | 2023-07-18 | 西北民族大学 | 一种基于crnn和ctc的藏汉双语场景文字识别方法 |
CN113343707B (zh) * | 2021-06-04 | 2022-04-08 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
-
2021
- 2021-10-19 CN CN202111214739.9A patent/CN113887480B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113887480A (zh) | 2022-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113887480B (zh) | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN110443818B (zh) | 一种基于涂鸦的弱监督语义分割方法与系统 | |
CN105205448B (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN113326731B (zh) | 一种基于动量网络指导的跨域行人重识别方法 | |
CN109189767B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN109086654B (zh) | 手写模型训练方法、文本识别方法、装置、设备及介质 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN112287920A (zh) | 基于知识蒸馏的缅甸语ocr方法 | |
CN109829414B (zh) | 一种基于标签不确定性和人体组件模型的行人再识别方法 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
CN112766170B (zh) | 基于簇类无人机图像的自适应分割检测方法及装置 | |
CN113673482B (zh) | 基于动态标签分配的细胞抗核抗体荧光识别方法及系统 | |
CN113807340B (zh) | 一种基于注意力机制的不规则自然场景文本识别方法 | |
CN113128620A (zh) | 一种基于层次关系的半监督领域自适应图片分类方法 | |
CN112232395B (zh) | 一种基于联合训练生成对抗网络的半监督图像分类方法 | |
CN114556364B (zh) | 用于执行神经网络架构搜索的计算机实现方法 | |
CN116564355A (zh) | 一种基于自注意力机制融合的多模态情感识别方法、系统、设备及介质 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN115588030A (zh) | 基于孪生网络的视觉目标跟踪方法及设备 | |
CN116258978A (zh) | 一种自然保护区遥感影像弱标注的目标检测方法 | |
CN117152459A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
CN113592008B (zh) | 小样本图像分类的系统、方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |