CN113901879A - 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 - Google Patents
融合多尺度语义特征图的缅甸语图像文本识别方法及装置 Download PDFInfo
- Publication number
- CN113901879A CN113901879A CN202111069493.0A CN202111069493A CN113901879A CN 113901879 A CN113901879 A CN 113901879A CN 202111069493 A CN202111069493 A CN 202111069493A CN 113901879 A CN113901879 A CN 113901879A
- Authority
- CN
- China
- Prior art keywords
- burma
- image
- feature
- feature map
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000010586 diagram Methods 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000004927 fusion Effects 0.000 claims description 40
- 239000013598 vector Substances 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 8
- 238000013434 data augmentation Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 235000002566 Capsicum Nutrition 0.000 claims description 5
- 239000006002 Pepper Substances 0.000 claims description 5
- 235000016761 Piper aduncum Nutrition 0.000 claims description 5
- 235000017804 Piper guineense Nutrition 0.000 claims description 5
- 235000008184 Piper nigrum Nutrition 0.000 claims description 5
- 150000003839 salts Chemical class 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 3
- 244000203593 Piper nigrum Species 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 241000722363 Piper Species 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 101150064138 MAP1 gene Proteins 0.000 description 2
- 238000002679 ablation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 101150077939 mapA gene Proteins 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置,属于自然语言处理领域。针对缅甸语图像字符的结构特点,本发明提出了一种融合多尺度语义特征图的缅甸语图像文本识别方法,主要包括缅甸语图像文本数据预处理、融合多尺度语义特征图的缅甸语识别模型、基于MIX UP数据增强策略的缅甸语图像文本识别模型训练、缅甸语图像文本识别等四个部分构成。本发明所提方法能够有效地融合缅甸语图像的字符结构特征提升缅甸语图像文本识别模型性能,对东南亚图像文本识别具有理论和实际应用价值。
Description
技术领域
本发明涉及融合多尺度语义特征图的缅甸语图像文本识别方法及装置,属于自然语言处理技术领域。
背景技术
由于缅甸语属于低资源语言,缅甸语文本数据较难获得,但是互联网中存在大量含有缅甸语的图像,因此,如何利用深度学习技术对缅甸语文本图像进行识别成为了关键问题,结合缅甸语图像文本识别技术获取缅甸语单语语料,可以为缅甸语机器翻译、实体识别及信息检索等自然语言处理任务提供重要的数据支撑。
缅甸语字符组合与英文、中文不同,缅甸语由基础字符、基础前字符、基础后字符、基础上字符和基础下字符构成,所以缅甸语在图像中的组合字符是由多个单字符组合而成,如图1所示,缅甸语图像中的组合字符实际上由基础字符基础上字符以及基础下字符组成,但是在图1(b,c)中,感受野内的中文和英语都是由单个字符构成的,没有明显的边缘特征,现有针对中文、英文的图像文本识别模型所利用特征序列信息主要来源于深度卷积神经网络中最后一层网络输出的特征图,取得了较好的效果,但是,这样的方式会造成部分语义信息丢失,尤其是针对缅甸语这种字符嵌套组合的语言,语义信息丢失更加明显,例如,一个感受野中的缅甸语经过卷积神经网络时,等类型的微小特征在高层语义特征图存在丢失问题,所以,主流的图像文本识别方法直接应用于缅甸语上并不适用。
目前,图像文本识别方法在中英文等大规模训练集上展现出非常强大的性能,但这依赖于大规模、高质量的训练数据,由于目前没有公开的高质量、大规模缅甸语文字识别数据集,通过合成方式构建的缅甸语图像数据集图像背景复杂、图片质量低下,导致特征缺失的问题更为严重,利用常规的网络训练策略得到的模型往往会使模型泛化能力较弱。
发明内容
本发明提供了融合多尺度语义特征图的缅甸语图像文本识别方法及装置,以用于缓解复杂背景下缅甸语字符丢失的问题,提升模型训练样本的多样性,以及提升复杂背景下模型的识别性能。
本发明的技术方案是:第一方面,本发明提供融合多尺度语义特征图的缅甸语图像文本识别方法,所述方法的具体步骤如下:
Step1、对缅甸语图像数据进行预处理:通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化;
Step2、融合缅甸语图像的多尺度语义特征:采用残差块、卷积神经网络设计缅甸语图像特征提取网络,并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征;最终将提取的多尺度语义特征通过特征上采样进行融合增强;
Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:让两个训练样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练;
Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,将输入模型的缅甸语图片进行识别得到缅甸语文本。
作为本发明的进一步方案,所述Step2中,多尺度语义特征的获取如下:从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征特征图;最终将提取的底层语义信息与高层语义特征特征图通过特征上采样进行融合增强。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充;
Step1.2、缅甸语图像灰度化:计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;
Step1.3、分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90-140区间内,设置模型输入为32*100,保证识别模型支持批次训练。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、缅甸语图像的多尺度语义特征获取:利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络,自动获取缅甸语图像特征,根据不同网络深度将特征提取网络分为五个阶段,并从五个阶段当中得到获取多尺度语义特征图;
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;其中,Layer1、Layer2、Layer3阶段用于获得微小字符的特征,Layer4和Layer5阶段具有更丰富以及正常大小字符的特征;
Step2.2.2、高层语义特征图、底层语义信息融合:采用通道数叠加以及双线性插值方法实现高层语义特征图与低层语义信息特征图融合;对于融合的五个多尺度特征将被表示为C1、C2、C3、C4、C5,融合之前减少C2、C3、C4、C5特征图的通道数以得到新的特征图{M2、M3、M4、M5}:
Mi=Reduce(Ci)
通过减少初始的语义特征图通道数,保证用最少的特征图保留缅甸图像特征信息;减少特征图大小的策略是利用通道数为128、大小为1*1卷积核以1的步长进行卷积计算,最终得到的特征图{M2、M3、M4、M5}的通道数都为128;
再将M5进行卷积计算得到高层语义特征图P5,基于双线性插值的上采样方法将特征图P5放大到M4大小,将处理之后的结果与特征图M3进行相加操作以得到融合特征图P4,利用同样的方式最终得到融合特征图{P2、P3、P4、P5},最终将{P3、P4、P5}三种类型的融合特征图上采样到P2大小,再进行通道叠加操作以起到特征增强的作用,得到最终的增强特征图H5。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、将输入的增强特征图H5转换为特征序列:为从缅甸语图像特征中获取具有上下文信息的缅甸语特征向量表示,将增强之后的特征图H4用卷积核大小为1、卷积核数量为128的卷积进行计算,最终得到8*25*128大小三维特征图;将该特征图的第一维和第三维合并1024长度的特征向量,一共有25个,表示为:(f1,f2,…,fT),其中T为25;
Step4.2、模型识别层:利用BiLSTM对缅甸语特征序列(f1,f2,…,fT)进行再次编码,得到具有序列之间上下文信息的向量(h1,h2,…,hT),为了将缅甸语特征向量解码成字符,获取每个时刻的向量(h1,h2,…,hT)的注意力权重分布,将(h1,h2,…,hT)以注意力权重为权值进行加权求和,将加权得到的向量送入Softmax进行分类从而实现字符识别,字符分类总数为缅甸语字符与判断缅甸语文字起始标签的集合;公式如下所示:
Enconder(M)=(f1,f2,…,fT)
yt=Softmax(gt)
其中,yt表示t时刻解码器的预测,αt,j是由注意力机制生成的权重;
Step4.2、将预测结果(y1,y2,…,yT)进行后处理,删除起始标签GO之前以及结束标签EOS之后的缅甸语字符,保留下来的缅甸语字符序列就是最终的预测结果。
第二方面,本发明实施例还提供融合多尺度语义特征图的缅甸语图像文本识别装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
针对解决字符组合导致上下标特征丢失问题,本发明提出了一种融合多尺度语义特征的缅甸语图像文本识别方法,将卷积神经网络提取的具有缅甸语特征信息特征图进行融合操作,实现主干网络对缅甸语特征提取能力的增强,缓解了缅甸语图像识别过程中上下标字符缺失问题;同时为结果模型在复杂背景下对缅甸语图像的识别不佳问题,首次将MIX UP数据增强策略用于缅甸语图像识别网络训练上,从而提升缅甸语复杂背景下的识别模型,对缅甸语语料库的构建具有一定的理论意义和实际应用价值。
附图说明
图1为本发明中缅甸语、英文、中文实例字符组合示意图;
图2为本发明中融合多尺度语义特征的缅甸语图像文本识别网络架构图;
图3为本发明中缅甸语图像文本识别网络数据增强策略图;
图4为本发明中的方法流程框图。
具体实施方式
实施例1:第一方面,如图1-4所示,基于融合多尺度语义特征图的缅甸语图像文本识别方法,所述方法具体步骤如下:
Step1、对缅甸语图像数据进行预处理:通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化以降低缅甸语背景带来的影响,根据实验分析设置模型输入大小;
Step2、融合缅甸语图像的多尺度语义特征:利用残差块、卷积神经网络设计缅甸语图像特征提取网络,从缅甸语中获取具有缅甸语图像中以及等多尺度语义特征;多尺度语义特征的获取如下:从缅甸语特征提取网络的不同阶段依次获取具有等微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息,具有丰富的主干特征的高层语义特征特征图;最终将提取的底层语义信息与高层语义信息通过特征上采样进行融合;
Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:为缓解缅甸语真实样本缺少造成模型鲁棒性低的问题,让两个训练样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练,从而提升模型识别对不同背景的泛化能力;
Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,考虑特征向量与字符之间的管理,为准确预测图像中文字的起始与结束,例如最后的特征向量不一定对应缅甸语文本的最后一个字符,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,具体数学表示为GO、EOS。将输入模型的缅甸语图片进行识别得到缅甸语文本。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
在数据预处理层面,通过人工数据收集缅甸语图像,并添加高斯噪声和椒盐椒盐噪声实现数据增广;再将缅甸语图像灰度化,这要做的目的是为了实现对复杂场景噪声特征的降低,设置模型输入,让模型支持批次训练,提升训练速度。
Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对真实缅甸语图像数据增加高斯噪声和椒盐噪声实现数据扩充;
Step1.2、缅甸语图像灰度化:为降低噪声对模型识别性能的影响,计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;
Step1.3、分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90-140区间内,根据实验分析,模型输入为32*100时实验效果最佳,设置模型输入为32*100,保证识别模型支持批次训练。
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、缅甸语图像的多尺度语义特征获取:为避免手工设计特征带来的资源消耗,本发明利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络,自动获取缅甸语图像特征,根据不同网络深度将特征提取网络分为五个阶段,并从五个阶段当中得到获取多尺度语义特征图,具有丰富的语义信息,其中底层语义特征图存在等字符的语义信息,高层语义进一步凝练了主干信息,但是缺少等字符的语义信息
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;比如:Layer1、Layer2、Layer3阶段用于获得等微小字符的特征,Layer4和Layer5阶段具有更富以及等正常大小字符的特征。
Step2.2.2、高层语义信息、底层语义信息融合:基于以上步骤获得了缅甸语的多尺度特征,为了将融合之后的特征使用于后续的字符识别,采用通道数叠加以及双线性插值方法实现高层语义信息特征图与低层语义信息特征图。对于融合的五个多尺度特征将被表示为C1、C2、C3、C4、C5,融合之前减少C2、C3、C4、C5特征图的通道数以得到新的特征图{M2、M3、M4、M5}:
Mi=Reduce(Ci)
通过减少初始的语义特征图通道数,保证用最少的特征图保留缅甸图像特征信息。减少特征图大小的策略是利用通道数为128、大小为1*1卷积核以1的步长进行卷积计算,最终得到的特征图{M2、M3、M4、M5}的通道数都为128。
再将M5进行卷积计算(卷积核大小为3*3,步长为一)得到高层语义特征图P5基于双线性插值的上采样方法特征图P5放大到M4大小,将处理之后的结果与特征图M3进行相加操作以得到融合特征图P4,利用同样的方式最终得到融合特征图{P2、P3、P4、P5},最终将{P3、P4、P5}三种类型的融合特征图上采样到P2大小,再进行通道叠加操作以起到特征增强的作用,得到最终的增强特征图H5。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、模型训练层:首先在模型输入端对两个训练样本进行融合,再将融合结果与两个训练样本对应的真实标签进行损失计算并进行加权求和,最终基于加权求和之后的损失,作为网络的目标优化函数,实现网络参数优化。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、将输入的增强特征图H5转换为特征序列:为从缅甸语图像特征中获取具有上下文信息的缅甸语特征向量表示,将增强之后的特征图H4用卷积核大小为1、卷积核数量为128的卷积进行计算,最终得到8*25*128大小三维特征图;将该特征图的第一维和第三维合并1024长度的特征向量,一共有25个,表示为:(f1,f2,…,fT),其中T为25。
Step4.2、模型识别层:利用BiLSTM对缅甸语特征序列(f1,f2,…,fT)进行再次编码,得到具有序列之间上下文信息的向量(h1,h2,…,hT),为了将缅甸语特征向量解码成字符,获取每个时刻的向量(h1,h2,…,hT)的注意力权重分布,将(h1,h2,…,hT)以注意力权重为权值进行加权求和,将加权得到的向量送入Softmax进行分类从而实现字符识别,字符分类总数为缅甸语字符与两个自定义标签的集合。公式如下所示:
Enconder(M)=(f1,f2,…,fT)
yt=Softmax(gt)
其中,yt表示t时刻解码器的预测,αt,j是由注意力机制生成的权重。
Step4.2、将预测结果(y1,y2,…,yT)进行后处理,删除GO之前以及EOS之后的缅甸语字符,保留下来的缅甸语字符序列就是最终的预测结果。
为了说明本发明的效果,本发明进行了如下实验,本发明选择的缅甸语图像数据集如下所示。该数据集中包含了500万张含有噪声的缅甸语图像。其中,分别随机选取50万缅甸语图像作为评估数据集和测试数据集。
在神经网络训练前,本发明将数据保存为.mdb格式以提升实验数据读取速率。本发明的实验是基于Pytorch框架实现的,实验服务器的配置为Intel(R)Xeon(R)Gold6132CPU@2.60GHz,NVIDIA Corporation GP100GL GPU。为保证对比实验的公平性,本发明将所有的缅甸语识别模型放置在同一实验条件下进行实验,实验所选优化器为Adam,初始学习率为1,训练时采用CosineAnnealing策略,基于余弦函数实现学习率动态变换,以保证网络的目标函数接近最优解时具备更小的学习率;模型训练的批处理大小设置为100,训练步长设为400000,训练epoch为10,实验结果选择评测中最高的准确率。
实验采用缅甸语序列率精确率(Sequence Accuracy,SA)作为评价指标,如下述公式所示:
其中FS、SL、LN分别代表缅甸语文本图像识别的序列精确率、正确的序列总数、序列的总数。。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。在该数据集上进行了2组实验。
实验一、本发明选取CNN+BiLSTM+Attention的方法作为基线模型,并与LSTM+CTC、CNN+CTC、CNN+LSTM+CTC以及CNN+BiLSTM+CTC.进行比较,实验结果如表1所示。
表1基线模型和本发明的方法在数据集上的结果
与基线模型(CNN+BiLSTM+Attention)相比,本发明的方法在识别缅甸语的过程中更好地提取到缅甸语上下标特征信息,以及识别不同背景下地缅甸语图像具有更好的泛化能力。在缅甸语数据集上准确率提升了2.2%。
与使用CTC解码器的图像识别模型(CNN+BiLSTM+CTC、CNN+LSTM+CTC、CNN+CTC、LSTM+CTC)相比,本发明针对缅甸语的图像识别方法也展现出来明显的优势。尽管特征提取网络都是利用了ResNet-50进行特征提取,但不同的是,本发明所融合得到的多尺度语义特征图不仅包含了高层语义信息,还融合了具有上下标特征信息的低层语义信息。与其相比,本发明方法识别效果得到了明显的提升。
为保证验证实验的真实性以及有效性,本发明用人工标注的方式额外标注了1000张真实场景图像,并将其作为测试集。本发明在这1000张真实场景测试集上进行测试实验,实验结果如表2所示。
表2基线模型和本发明的方法在真实场景测试集上的结果
本发明的方法在对1000张真实场景测试集图像的识别中仍然保持着最优的效果,同比基线模型的准确率能够提升1.8个百分点,融合特征图的方式能够帮助后续的缅甸语识别解码器获取更多的特征,利用丰富的缅甸语图像特征,解码器能够很大程度上提升准确率;MIX UP数据增强策略能够在大量的合成数据集上起到数据扩充,保证识别模型面对真实场景图像时具有强大的鲁棒性。
为验证缅甸语多尺度语义特征图融合策略和MIX UP网络增强策略各自的有效性,本发明分别对其做了消融试验。本发明分别对以VGG-16为主干网络和以ResNet-50为主干网络的基线模型进行消融实验,实验结果如表3所示,其中Mix Mut表示是否使用MIX UP数据增强策略,Feature Mut表示是否使用多尺度语义特征图融合。从实验结果可以看出,以VGG-16为主干网络的缅甸语图像识别模型在仅使用多尺度语义特征图融合策略时,识别准确率可以提高0.7百分点;在仅使用MIX UP数据增强策略时,识别准确率可以提高0.9个百分点。以ResNet-50为主干网络的缅甸语图像识别模型在上述两种情况下准确率分别可以提高0.9,0.4个百分点。使用不同的主干网络识别模型也展现出了性能的差异,在不使MIXUP数据增强策略以及特征图融合策略时,利用残差网络ResNet-50进行缅甸语特征提取之后的识别准确率达到92.7\%,与VGG-16作为特征提取网络的识别模型准确率高0.5个百分点,说明残差网络ResNet-50的特征提取能力优于VGG-16,为此本发明方法的主干网络基于残差网络进行设计。
表3语义特征图融合和MIX UP对识别的影响
下面为本发明装置实施例,本发明实施例还提供了融合多尺度语义特征图的缅甸语图像文本识别装置,该装置包括用于执行上述第一方面的方法的模块。具体包括如下模块:
缅甸语图像数据进行预处理模块:用于对缅甸语图像数据进行预处理:具体的,用于通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化;
融合缅甸语图像的多尺度语义特征模块:用于采用残差块、卷积神经网络设计缅甸语图像特征提取网络,并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征;最终将提取的多尺度语义特征通过特征上采样进行融合增强;
缅甸语的MIX UP数据增强策略模块:用于使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:用于让两个训练样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练;
缅甸语图像文本识别模块:用于对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,将输入模型的缅甸语图片进行识别得到缅甸语文本。
在一种可行的实施方式中,融合缅甸语图像的多尺度语义特征模块,具体还用于:多尺度语义特征的获取:
从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征图;最终将提取的底层语义信息与高层语义特征图通过特征上采样进行融合增强。
在一种可行的实施方式中,缅甸语图像数据进行预处理模块,具体用于:
缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充;
缅甸语图像灰度化:计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;
分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90-140区间内,设置模型输入为32*100,保证识别模型支持批次训练。
在一种可行的实施方式中,融合缅甸语图像的多尺度语义特征模块,具体还用于:
缅甸语图像的多尺度语义特征获取:利用残差块、卷积层、归一化层设计缅甸语图像特征提取网络,自动获取缅甸语图像特征,根据不同网络深度将特征提取网络分为五个阶段,并从五个阶段当中得到获取多尺度语义特征图;
在一种可行的实施方式中,融合缅甸语图像的多尺度语义特征模块,具体还用于:
设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;其中,Layer1、Layer2、Layer3阶段用于获得微小字符的特征,Layer4和Layer5阶段具有更丰富以及正常大小字符的特征;
高层语义特征图、底层语义信息融合:采用通道数叠加以及双线性插值方法实现高层语义特征图与低层语义信息特征图融合;对于融合的五个多尺度特征将被表示为C1、C2、C3、C4、C5,融合之前减少C2、C3、C4、C5特征图的通道数以得到新的特征图{M2、M3、M4、M5}:
Mi=Reduce(Ci)
通过减少初始的语义特征图通道数,保证用最少的特征图保留缅甸图像特征信息;减少特征图大小的策略是利用通道数为128、大小为1*1卷积核以1的步长进行卷积计算,最终得到的特征图{M2、M3、M4、M5}的通道数都为128;
再将M5进行卷积计算得到高层语义特征图P5,基于双线性插值的上采样方法将特征图P5放大到M4大小,将处理之后的结果与特征图M3进行相加操作以得到融合特征图P4,利用同样的方式最终得到融合特征图{P2、P3、P4、P5},最终将{P3、P4、P5}三种类型的融合特征图上采样到P2大小,再进行通道叠加操作以起到特征增强的作用,得到最终的增强特征图H5。
在一种可行的实施方式中,缅甸语图像文本识别模块,具体还用于:
将输入的增强特征图H5转换为特征序列:为从缅甸语图像特征中获取具有上下文信息的缅甸语特征向量表示,将增强之后的特征图H4用卷积核大小为1、卷积核数量为128的卷积进行计算,最终得到8*25*128大小三维特征图;将该特征图的第一维和第三维合并1024长度的特征向量,一共有25个,表示为:(f1,f2,…,fT),其中T为25;
利用BiLSTM对缅甸语特征序列(f1,f2,…,fT)进行再次编码,得到具有序列之间上下文信息的向量(h1,h2,…,hT),为了将缅甸语特征向量解码成字符,获取每个时刻的向量(h1,h2,…,hT)的注意力权重分布,将(h1,h2,…,hT)以注意力权重为权值进行加权求和,将加权得到的向量送入Softmax进行分类从而实现字符识别,字符分类总数为缅甸语字符与判断缅甸语文字起始标签的集合;公式如下所示:
Enconder(M)=(f1,f2,…,fT)
yt=Softmax(gt)
其中,yt表示t时刻解码器的预测,αt,j是由注意力机制生成的权重;
将预测结果(y1,y2,…,yT)进行后处理,删除起始标签GO之前以及结束标签EOS之后的缅甸语字符,保留下来的缅甸语字符序列就是最终的预测结果。
作为本发明的进一步方案,缅甸语图像文本识别模型部署可以为:为保证OCR模型支持批处理操作,首先将模型输入图像的高定义为32,宽的最大值定义为Wmax,对于输入宽度小于Wmax的图像进行白色像素填充,模型批量处理的大小为所输入图像的数量,以此实现模型对输入图像的并行计算,提高识别速度,未进行批次模型部署之前单张图片的识别速度在4秒左右,实现模型批次部署单张图片的识别速度可提升至0.5秒左右,速度能够提升8倍数;将模型保存为“.pth”文件,利用Flask技术将模型加载于内存中,避免请求结果带来频繁的模型加载过程,提高识别模型的运行速率;通过Flask技术将缅甸语识别模型部署为一个API接口,进而实现Web端口多并发请求的功能;在Web端通调用部署到服务器端的缅甸语OCR模型,来测试输入的缅甸语图像,进而得到缅甸语图像的识别结果并将其展示到前端界面。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:
Step1、对缅甸语图像数据进行预处理:通过人工方式收集缅甸语图像,利用数据增广技术对缅甸语图像进行数据扩充,将缅甸语图像进行灰度化;
Step2、融合缅甸语图像的多尺度语义特征:采用残差块、卷积神经网络设计缅甸语图像特征提取网络,并利用其从缅甸语图像中获取具有语义信息的多尺度语义特征;最终将提取的多尺度语义特征通过特征上采样进行融合增强;
Step3、使用MIX UP数据增强策略进行缅甸语图像文本识别模型训练:让两个训练样本进行融合,将融合结果分别与对应的缅甸语标签进行损失计算,将加权损失作为目标优化函数实现网络训练;
Step4、对缅甸语图像特征提取并进行特征增强之后的特征进行字符最优预测,利用注意力机制关注图像中文字区域,同时在分类字符中加入起始以及结束标签,将输入模型的缅甸语图片进行识别得到缅甸语文本。
2.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step2中,多尺度语义特征的获取如下:从缅甸语图像特征提取网络的不同阶段依次获取具有微小字符特征、字符形状特征、字符边缘特征以及字符轮廓特征的底层语义信息、具有丰富的主干特征的高层语义特征图;最终将提取的底层语义信息与高层语义特征图通过特征上采样进行融合增强。
3.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step1的具体步骤为:
Step1.1、缅甸语图像数据收集以及缅甸语图像数据增广:收集缅甸语真实图像数据,其中包括具有短文本的缅甸语文本信息图像、长文本的缅甸语文本信息图像;同时对缅甸语真实图像数据增加高斯噪声和椒盐噪声实现数据扩充;
Step1.2、缅甸语图像灰度化:计算缅甸语图像每个像素点R、G、B三个分量的平均值,再将这个平均值赋予这个像素的三个分量,从而实现缅甸语图像的灰度化;
Step1.3、分析缅甸语图像数据像素大小分布,训练样本的缅甸语图像像素高为32,宽分布于90-140区间内,设置模型输入为32*100,保证识别模型支持批次训练。
5.根据权利要求4所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step2.2的具体步骤为:
Step2.2.1、设计融合缅甸语特征的金字塔网络,融合缅甸语多尺度语义特征图:利用上采样卷积层、连接层设计特征融合网络;特征融合输入层融合对象为缅甸语图像特征提取网络Layer1、Layer2、Layer3、Layer4以及Layer5五阶段得到五个不同尺度的语义特征图;其中,Layer1、Layer2、Layer3阶段用于获得微小字符的特征,Layer4和Layer5阶段具有更丰富以及正常大小字符的特征;
Step2.2.2、高层语义特征图、底层语义信息融合:采用通道数叠加以及双线性插值方法实现高层语义特征图与低层语义信息特征图融合;对于融合的五个多尺度特征将被表示为C1、C2、C3、C4、C5,融合之前减少C2、C3、C4、C5特征图的通道数以得到新的特征图{M2、M3、M4、M5}:
Mi=Reduce(Ci)
通过减少初始的语义特征图通道数,保证用最少的特征图保留缅甸图像特征信息;减少特征图大小的策略是利用通道数为128、大小为1*1卷积核以1的步长进行卷积计算,最终得到的特征图{M2、M3、M4、M5}的通道数都为128;
再将M5进行卷积计算得到高层语义特征图P5,基于双线性插值的上采样方法将特征图P5放大到M4大小,将处理之后的结果与特征图M3进行相加操作以得到融合特征图P4,利用同样的方式最终得到融合特征图{P2、P3、P4、P5},最终将{P3、P4、P5}三种类型的融合特征图上采样到P2大小,再进行通道叠加操作以起到特征增强的作用,得到最终的增强特征图H5。
6.根据权利要求1所述的融合多尺度语义特征图的缅甸语图像文本识别方法,其特征在于:所述Step4的具体步骤为:
Step4.1、将输入的增强特征图H5转换为特征序列:为从缅甸语图像特征中获取具有上下文信息的缅甸语特征向量表示,将增强之后的特征图H4用卷积核大小为1、卷积核数量为128的卷积进行计算,最终得到8*25*128大小三维特征图;将该特征图的第一维和第三维合并1024长度的特征向量,一共有25个,表示为:(f1,f2,…,fT),其中T为25;
Step4.2、模型识别层:利用BiLSTM对缅甸语特征序列(f1,f2,…,fT)进行再次编码,得到具有序列之间上下文信息的向量(h1,h2,…,hT),为了将缅甸语特征向量解码成字符,获取每个时刻的向量(h1,h2,…,hT)的注意力权重分布,将(h1,h2,…,hT)以注意力权重为权值进行加权求和,将加权得到的向量送入Softmax进行分类从而实现字符识别,字符分类总数为缅甸语字符与判断缅甸语文字起始标签的集合;公式如下所示:
Enconder(M)=(f1,f2,…,fT)
yt=Softmax(gt)
其中,yt表示t时刻解码器的预测,αt,j是由注意力机制生成的权重;
Step4.2、将预测结果(y1,y2,…,yT)进行后处理,删除起始标签GO之前以及结束标签EOS之后的缅甸语字符,保留下来的缅甸语字符序列就是最终的预测结果。
7.融合多尺度语义特征图的缅甸语图像文本识别装置,其特征在于:包括用于执行如权利要求1-5任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069493.0A CN113901879A (zh) | 2021-09-13 | 2021-09-13 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111069493.0A CN113901879A (zh) | 2021-09-13 | 2021-09-13 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113901879A true CN113901879A (zh) | 2022-01-07 |
Family
ID=79027896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111069493.0A Pending CN113901879A (zh) | 2021-09-13 | 2021-09-13 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113901879A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN115471851A (zh) * | 2022-10-11 | 2022-12-13 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046946A (zh) * | 2019-12-10 | 2020-04-21 | 昆明理工大学 | 基于crnn的缅甸语图像文本识别方法 |
CN112528963A (zh) * | 2021-01-09 | 2021-03-19 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
CN113255568A (zh) * | 2021-06-15 | 2021-08-13 | 湖南星汉数智科技有限公司 | 票据图像分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-13 CN CN202111069493.0A patent/CN113901879A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046946A (zh) * | 2019-12-10 | 2020-04-21 | 昆明理工大学 | 基于crnn的缅甸语图像文本识别方法 |
CN112528963A (zh) * | 2021-01-09 | 2021-03-19 | 江苏拓邮信息智能技术研究院有限公司 | 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统 |
CN113255568A (zh) * | 2021-06-15 | 2021-08-13 | 湖南星汉数智科技有限公司 | 票据图像分类方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
刘福浩等: "融合多层语义特征图的缅甸语图像文本识别方法", 《第二十届中国计算语言学大会论文集》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114049508A (zh) * | 2022-01-12 | 2022-02-15 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN114049508B (zh) * | 2022-01-12 | 2022-04-01 | 成都无糖信息技术有限公司 | 一种基于图片聚类和人工研判的诈骗网站识别方法及系统 |
CN115471851A (zh) * | 2022-10-11 | 2022-12-13 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN111046784B (zh) | 文档版面分析识别方法、装置、电子设备和存储介质 | |
Yim et al. | Synthtiger: Synthetic text image generator towards better text recognition models | |
CN110175613A (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
Huang et al. | Rd-gan: Few/zero-shot chinese character style transfer via radical decomposition and rendering | |
Jain et al. | Unconstrained scene text and video text recognition for arabic script | |
TW201732651A (zh) | 一種單詞的分割方法和裝置 | |
CN113901879A (zh) | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN107085726A (zh) | 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法 | |
CN112288018A (zh) | 文字识别网络的训练方法、文字识别方法和装置 | |
CN113449787B (zh) | 基于汉字笔画结构的字体库补全方法及系统 | |
Dutta et al. | Towards accurate handwritten word recognition for Hindi and Bangla | |
Harizi et al. | Convolutional neural network with joint stepwise character/word modeling based system for scene text recognition | |
CN113887480A (zh) | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 | |
CN110287981B (zh) | 基于生物启发性表征学习的显著性检测方法及系统 | |
JP7320570B2 (ja) | 画像を処理するための方法、装置、機器、媒体およびプログラム | |
Dong et al. | Field-matching attention network for object detection | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
CN114677349A (zh) | 编解码端边缘信息增强和注意引导的图像分割方法及系统 | |
CN117252890A (zh) | 颈动脉斑块分割方法、装置、设备及介质 | |
CN117115817A (zh) | 基于多模态融合的细胞形态学识别方法及装置 | |
CN110852102B (zh) | 一种中文的词性标注方法、装置、存储介质及电子设备 | |
CN114332476A (zh) | 维语识别方法、装置、电子设备、存储介质和产品 | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220107 |
|
RJ01 | Rejection of invention patent application after publication |