CN115471851B - 融合双重注意力机制的缅甸语图像文本识别方法及装置 - Google Patents
融合双重注意力机制的缅甸语图像文本识别方法及装置 Download PDFInfo
- Publication number
- CN115471851B CN115471851B CN202211242041.2A CN202211242041A CN115471851B CN 115471851 B CN115471851 B CN 115471851B CN 202211242041 A CN202211242041 A CN 202211242041A CN 115471851 B CN115471851 B CN 115471851B
- Authority
- CN
- China
- Prior art keywords
- burmese
- attention
- image
- text
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/24—Character recognition characterised by the processing or recognition method
- G06V30/242—Division of the character sequences into groups prior to recognition; Selection of dictionaries
- G06V30/244—Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
- G06V30/2445—Alphabet recognition, e.g. Latin, Kanji or Katakana
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及融合双重注意力机制的缅甸语图像文本识别方法及装置,属于自然语言处理领域。缅甸语字符具有独特的语言编码结构以及字符组合规则,为了解决缅甸语图像中上下标字符容易丢失导致准确率低的问题,本发明提出了一种融合双重注意力机制的缅甸语图像文本识别方法,主要包括缅甸语图像数据集构建及预处理、融合通道注意力和空间注意力的缅甸语图像特征增强、基于多头注意力解码器的缅甸语图像文本识别模型构建以及缅甸语图像文本识别四部分构成。根据这四个部分功能模块化制成融合双重注意力机制的缅甸语图像文本识别方法及装置,相比通用的图像文本识别方法本发明有效地缓解了缅甸语图像中字符上下标字符缺失导致识别准确率低的问题。
Description
技术领域
本发明涉及融合双重注意力机制的缅甸语图像文本识别方法及装置,属于自然语言处理技术领域。
背景技术
由于缅甸语属于一种典型的低资源语言,互联网中存在大量的缅甸语文本图像,因此,快速精准地提取缅甸语文本图像中的文本信息对于开展面向缅甸语的自然语言处理、机器翻译、信息检索等研究具有重要的意义。
现有方法在针对中英文的图像识别任务上已经取得很好的效果,但缅甸语字符的语言编码结构以及字符组合规则与中英文具有巨大的差异性,其字符主要由基础字符、基础前字符、基础后字符、基础上字符以及基础下字符构成,缅甸语中存在大量的由多个字符组成一个音节的情况,例如“”是由“/>”、“/>”以及“/>”等三个字符组成,这样的字符组成结构,在图像识别过程中会由于其上下标字符边缘特征不明显导致部分语义信息丢失,在识别“/>”时容易丢失“/>”或“/>”等上下标信息,从而极大地影响了缅甸语图像文本识别的准确率。
针对现有方法难以充分关注缅甸语图像文字边缘特征的问题,本发明提出一种融合双重注意力机制的缅甸语图像特征提取方法,使得模型可以更多地关注到缅甸语文本图像的上下标区域。
发明内容
本发明提出了融合双重注意力机制的缅甸语图像文本识别方法及装置,对经过图像特征提取网络得到的特征图同时构建空间注意力和通道注意力来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,最后利用多头注意力机制对融合结果进行注意力计算,捕捉文本之间的全局信息,缓解了缅甸语图像文本识别过程中上下标字符容易丢失的问题。
本发明的技术方案是:第一方面,融合双重注意力机制的缅甸语图像文本识别方法,所述融合双重注意力机制的缅甸语图像文本识别方法的具体步骤如下:
Step1、缅甸语图像数据集构建及预处理:由于缺少公开的缅甸语图像文本识别的数据集,结合缅甸语的字符组合特征构造适应任务需求的缅甸语文本图像数据集;为丰富数据的多样性,构建的数据集包含不同噪声、不同倾斜角度、不同背景颜色以及不同字体;
Step2、融合通道注意力和空间注意力的缅甸语图像特征增强:采用深度卷积神经网络对输入的缅甸语文本图像进行特征提取,将获得的特征图按通道的维数分组为子特征;对于每一项子特征,同时构造通道注意力和空间注意力机制,来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,使得模型可以更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征;
Step3、利用基于多头注意力解码器的缅甸语图像文本识别模型进行识别:利用基于多头注意力机制的序列编码器-解码器对输入的缅甸语文本图像进行解码,该结构能够通过特征图进行注意力计算获取整张图像的全局信息,结合标签训练可以让模块关注到更准确的缅甸语文字区域,使模型可以进行并行训练,有效提升了识别效率。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、通过缅甸语网站获取跨境缅甸语文本数据,然后进行去重、切分、过滤特殊字符等预处理,构建缅甸语序列标注文本标签数据集;
Step1.2、由于缅甸语的Zawgyi-One字体和Pyidaungsu字体的编码方式不一样,
Zawgyi-One字体是通过“Zawgyi”方式编码的,而Pyidaungsu字体则是通过“Unicode”方式
编码的。例如Zawgyi-One字体的文本“”用Pyidaungsu字体显示则为“
”,会出现乱码。因此我们首次构造了缅甸语Zawgyi-One和Pyidaungsu字体混合文本图像数
据,使得训练的缅甸语文本图像识别模型能够识别不同编码字体的文本图像,图像中文本
对应的标签通过缅甸语字体转换工具“CONVERTERS Zawgyi And Unicode ”统一为
Pyidaungsu字体文本;
Step1.3、利用文本图像合成算法将处理好的缅甸语文本数据生成对应的文本图像,为了使训练的模型具有更好的鲁棒性和泛化性,生成的图像数据集包含了不同噪声、背景颜色、倾斜角度以及不同字体的缅甸语文本图像,并划分出相应的训练集、验证集和测试集;
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、在残差网络(Residual Network,ResNet)的基础上构建了适应缅甸语图像特征提取的主干网络,通过特征提取网络获得512维的缅甸语图像特征图;
Step2.2、给定一个经过特征提取网络得到的缅甸语图像特征图,其中C、H、W分别表示通道数、空间高度和宽度,将特征X沿着通道维度拆分为K组:,其中每个子特征/>在训练过程中逐渐捕获特定的语义响应对于每组特征;
Step2.3、在每个注意单元的开头,的输入沿着通道维度被分成两个分支,即;一个分支通过利用通道的相互关系在/>维度上获取注意力权重来生成通道注意力图,而另一个分支则通过利用特征的空间关系在/>维度上进行注意力权重计算来生成空间注意力图。
Step2.4、对于在维度上输入/>,通过使用平均池化和最大池化操作来聚合缅甸语图像的文本特征信息,生成两个不同的空间上下文特征描述:/>,分别表示平均池化特征图和最大池化特征图,其维度大小都为 /> ,然后将这两个特征图分别送入两层的全连接神经网络,并且这个两层的全连接神经网络的参数是共享的,再将得到的两个特征图相加,通过Sigmoid函数得到0~1之间的权重系数,得到最终输出通道注意力图为/>,其中为了减少参数开销,隐藏激活大小设置为/>,t为缩减率。通道注意力权重计算如下:
其中,表示Sigmoid函数,两个输入共享MLP权重分别为。
Step2.5、对于在维度上的输入/>,采用 Group Norm(GN)对/>进行处理得到空域层面的统计信息,然后采用/>进行增强。该过程可以描述如下:
其中,,/> 。
Step2.6、在完成通道和空间注意力计算后,我们需要对其进行融合,首先通过简单concat进行融合得到混合注意力特征图M,计算过程描述如下:
再将各个分组得到的混合注意力特征图进行聚合,得到最终的特征图。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、在经过融合双重注意力机制的特征增强网络后得到一个的中间视觉特征表示/>,缅甸语文本图像在本质上是连续的信号,缅甸语文的读取顺序是从左到右,为此我们视觉特征表示/>转化为视觉特征向量/>,其中/>。
Step3.2、采用Muti-Attention对视觉特征向量进行编码,由于输入视觉特征向量本身是缺乏位置信息,采用原始Transformer的位置编码方式对视觉特征向量进行位置编码。位置信息编码之前,维度大小为的视觉特征向量进行维度压缩,维度压缩方式为将其输入到一个全连接层实现维度转化,最终维度压缩之后视觉特征向量向量/>的大小为/>。为了有效地、明确地引导注意机制和让视觉向量/>失去水平位移不变性,采用了基于正弦和余弦函数的位置编码,其表示公式如下:
其中,,/>。
Step3.3、将与位置编码TE进行融合得到向量/>;为了进一步提取视觉特征,在/>上应用了四次自注意模块。该注意模块输入为/>,其中/>。相关性信息计算方式如下:
其中
;经过注意力计算得到增强之后的视觉特征将用于后续的文字转录模块。
Step3.4、文字转录模块负责将视觉特征解码为字符,关注视觉特征以及从文本特征中学习到的语言特定知识。文字转录模块是由4个Tranformer解码器组成。选择Tranformer而不是基于RNN的体系结构的原因是,RNN结构在对当前时刻进行文字分类时依赖上一时刻不能实现并行计算。每个解码器层由三个子层组成:两个多头注意机制层和一个前馈神经网络组成。以前关于基于注意力机制的文字识别方法只在每个解码步骤的编码状态上使用一个注意力分布,相比之下,每个解码层我们采用多头注意力机制对编码器特征进行建模计算,并解决了解码时输出字符与编码特征之间的复杂对齐关系。
模型训练时采用交叉熵损失函数作为缅甸语识别模型的目标优化函数,计算方式所示:
其中,M表示为输入的缅甸语图像,表示为当前识别网络的模型参数,/>表示为缅甸语图像的第t个特征序列对应的真实标签。
第二方面,融合双重注意力机制的缅甸语图像文本识别装置,包括如下模块:
缅甸语图像数据集构建及预处理模块,用于完成如下功能:结合缅甸语的字符组合特征构造适应任务需求的缅甸语文本图像数据集;为丰富数据的多样性,构建的数据集包含不同噪声、不同倾斜角度、不同背景颜色以及不同编码字体;
融合通道注意力和空间注意力的缅甸语图像特征增强模块,用于完成如下功能:采用深度卷积神经网络对输入的缅甸语文本图像进行特征提取,将获得的特征图按通道的维数分组为子特征;对于每一项子特征,同时构造通道注意力和空间注意力机制,来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,使得模型能更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征;
利用基于多头注意力解码器的缅甸语图像文本识别模型进行缅甸语图像文本识别模块:利用基于多头注意力机制的序列编码器-解码器对输入的缅甸语文本图像进行解码,该结构能够通过特征图进行注意力计算获取整张缅甸语图像的全局信息,结合标签训练让模块关注到更准确的缅甸语文字区域,使模型能进行并行训练,有效提升了识别效率。
本发明的有益效果是:
1.本发明提出了一种融合双重注意力机制的缅甸语图像特征提取方法,可以更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征,有利于缓解缅甸语文本图像识别过程中上下标字符特征丢失问题;
2.本发明利用一个基于多头注意力机制的序列编码器-解码器结构代替传统的RNN结构,该结构能够通过特征图进行注意力计算获取整张图像的全局信息,结合标签训练可以让模块关注到更准确的缅甸语文字区域,排除额外噪声的干扰,极大地提升了识别效率。
附图说明
图1为本发明中融合双重注意力机制的缅甸语文本图像识别模型结构图;
图2为本发明中通道和空间注意力模块结构图;
图3为本发明中融合双重注意力机制的缅甸语文本图像识别方法整体流程图。
具体实施方式
实施例1:如图1-3所示,融合双重注意力机制的缅甸语文本图像识别方法,所述融合双重注意力机制的缅甸语文本图像识别方法的具体步骤如下:
Step1、缅甸语图像数据集构建及预处理:由于缺少公开的缅甸语图像文本识别的数据集,结合缅甸语的字符组合特征构造适应任务需求的缅甸语文本图像数据集。为丰富数据的多样性,构建的数据集包含不同噪声、不同倾斜角度、不同背景颜色以及不同字体。
Step2、融合通道注意力和空间注意力的缅甸语图像特征增强:采用深度卷积神经网络对输入的缅甸语文本图像进行特征提取,将获得的特征图按通道的维数分组为子特征。对于每一项子特征,同时构造通道注意力和空间注意力机制,来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,使得模型可以更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征。
Step3、利用基于多头注意力解码器的缅甸语图像文本识别模型进行识别:利用基于多头注意力机制的序列编码器-解码器对输入的缅甸语文本图像进行解码,该结构能够通过特征图进行注意力计算获取整张图像的全局信息,结合标签训练可以让模块关注到更准确的缅甸语文字区域,使模型可以进行并行训练,有效提升了识别效率。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、通过缅甸语网站获取跨境缅甸语文本数据,然后进行去重、切分、过滤特殊字符等预处理,构建缅甸语序列标注文本标签数据集;
Step1.2、由于缅甸语的Zawgyi-One字体和Pyidaungsu字体的编码方式不一样,
Zawgyi-One字体是通过“Zawgyi”方式编码的,而Pyidaungsu字体则是通过“Unicode”方式
编码的。例如Zawgyi-One字体的文本“”用Pyidaungsu字体显示则为“
”,会出现乱码。因此我们首次构造了缅甸语Zawgyi-One和Pyidaungsu字体混合文本图像数
据,使得训练的缅甸语文本图像识别模型能够识别不同编码字体的文本图像,图像中文本
对应的标签通过缅甸语字体转换工具“CONVERTERS Zawgyi And Unicode ”统一为
Pyidaungsu字体文本。
Step1.3、利用文本图像合成算法将处理好的缅甸语文本数据生成对应的文本图像,为了使训练的模型具有更好的鲁棒性和泛化性,生成的图像数据集包含了不同噪声、背景颜色、倾斜角度以及不同字体的缅甸语文本图像,并划分出相应的训练集、验证集和测试集,数据集样例如表1所示:
表 1
数据集格式及对应标签实例
数据集 | 数量 | 样例 | 标签 |
训练集 | 800万 | ||
验证集 | 20万 | ||
测试集 | 20万 |
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、在残差网络(Residual Network,ResNet)的基础上构建了适应缅甸语图像特征提取的主干网络,通过特征提取网络获得512维的缅甸语图像特征图;
Step2.2、给定一个经过特征提取网络得到的缅甸语图像特征图,其中C、H、W分别表示通道数、空间高度和宽度,将特征X沿着通道维度拆分为K组:,其中每个子特征/>在训练过程中逐渐捕获特定的语义响应对于每组特征;
Step2.3、在每个注意单元的开头,的输入沿着通道维度被分成两个分支,即。一个分支通过利用通道的相互关系在/>维度上获取注意力权重来生成通道注意力图,而另一个分支则通过利用特征的空间关系在/>维度上进行注意力权重计算来生成空间注意力图。
Step2.4、对于在维度上输入/>,通过使用平均池化和最大池化操作来聚合缅甸语图像的文本特征信息,生成两个不同的空间上下文特征描述:/>,分别表示平均池化特征图和最大池化特征图,其维度大小都为 /> ,然后将这两个特征图分别送入两层的全连接神经网络,并且这个两层的全连接神经网络的参数是共享的,再将得到的两个特征图相加,通过Sigmoid函数得到0~1之间的权重系数,得到最终输出通道注意力图为/>,其中为了减少参数开销,隐藏激活大小设置为/>,t为缩减率。通道注意力权重计算如下:
其中,表示Sigmoid函数,两个输入共享MLP权重分别为。
Step2.5、对于在维度上的输入/>,采用 Group Norm(GN)对/>进行处理得到空域层面的统计信息,然后采用/>进行增强。该过程可以描述如下:
其中,,/> 。
Step2.6、在完成通道和空间注意力计算后,我们需要对其进行融合,首先通过简单concat进行融合得到混合注意力特征图M,计算过程描述如下:
再将各个分组得到的混合注意力特征图进行聚合,得到最终的特征图。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、在经过融合双重注意力机制的特征增强网络后得到一个的中间视觉特征表示/>,缅甸语文本图像在本质上是连续的信号,缅甸语文的读取顺序是从左到右,为此视觉特征表示/>转化为视觉特征向量/>,其中/>。
Step3.2、采用Muti-Attention对视觉特征向量进行编码,由于输入视觉特征向量本身是缺乏位置信息,采用原始Transformer的位置编码方式对视觉特征向量进行位置编码。位置信息编码之前,维度大小为的视觉特征向量进行维度压缩,维度压缩方式为将其输入到一个全连接层实现维度转化,最终维度压缩之后视觉特征向量向量/>的大小为/>。为了有效地、明确地引导注意机制和让视觉向量/>失去水平位移不变性,采用了基于正弦和余弦函数的位置编码,其表示公式如下:
其中,,/>。
Step3.3、将与位置编码TE进行融合得到向量/>;为了进一步提取视觉特征,在/>上应用了四次自注意模块。该注意模块输入为/>,其中/>。相关性信息计算方式如下:
其中
;经过注意力计算得到增强之后的视觉特征将用于后续的文字转录模块。
Step3.4、文字转录模块负责将视觉特征解码为字符,关注视觉特征以及从文本特征中学习到的语言特定知识。文字转录模块是由4个Tranformer解码器组成。选择Tranformer而不是基于RNN的体系结构的原因是,RNN结构在对当前时刻进行文字分类时依赖上一时刻不能实现并行计算。每个解码器层由三个子层组成:两个多头注意机制层和一个前馈神经网络组成。以前关于基于注意力机制的文字识别方法只在每个解码步骤的编码状态上使用一个注意力分布,相比之下,每个解码层我们采用多头注意力机制对编码器特征进行建模计算,并解决了解码时输出字符与编码特征之间的复杂对齐关系。
模型训练时采用交叉熵损失函数作为缅甸语识别模型的目标优化函数,计算方式如下所示:
其中,M表示为输入的缅甸语图像,表示为当前识别网络的模型参数,/>表示为缅甸语图像的第t个特征序列对应的真实标签。
第二方面,融合双重注意力机制的缅甸语图像文本识别装置,包括如下模块:
缅甸语图像数据集构建及预处理模块,用于完成如下功能:结合缅甸语的字符组合特征构造适应任务需求的缅甸语文本图像数据集;为丰富数据的多样性,构建的数据集包含不同噪声、不同倾斜角度、不同背景颜色以及不同编码字体;
融合通道注意力和空间注意力的缅甸语图像特征增强模块,用于完成如下功能:采用深度卷积神经网络对输入的缅甸语文本图像进行特征提取,将获得的特征图按通道的维数分组为子特征;对于每一项子特征,同时构造通道注意力和空间注意力机制,来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,使得模型能更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征;
利用基于多头注意力解码器的缅甸语图像文本识别模型进行缅甸语图像文本识别模块:利用基于多头注意力机制的序列编码器-解码器对输入的缅甸语文本图像进行解码,该结构能够通过特征图进行注意力计算获取整张缅甸语图像的全局信息,结合标签训练让模块关注到更准确的缅甸语文字区域,使模型能进行并行训练,有效提升了识别效率。
为了验证本发明提出的融合双重注意力机制的缅甸语文本图像识别模型的效果,设计以下对比试验进行分析。
实验采用缅甸语序列率精确率(Sequence Accuracy, SA)作为评价指标,如下所示:
其中,SA、SL、LN分别代表缅甸语文本图像识别的序列精确率、正确的序列总数、序列的总数。
表 2 不同方法实验结果对比
方法 | SA(%) | Time(s) |
CNN+BiLSTM+Attention | 90.6 | 16897 |
CNN+BiLSTM+CTC | 90.4 | 1250 |
FCN(特征图融合) | 94.2 | 11560 |
Resnet+Transformer | 94.8 | 1630 |
本发明 | 95.3 | 1632 |
实验结果如表2所示,本发明所提方法在缅甸语图像文本识别任务上准确率达到95.3%,达到了最高水平。相比“CNN+BiLSTM+CTC”的方法,提升了4.9%,说明本发明方法能够获取更丰富的缅甸语图像文本特征信息,识别结果显示了明显的优势;相比“CNN+BiLSTM+Attention”的方法,提升了4.7%,说明本发明的方法在识别缅甸语的过程中提取到更为细粒度的缅甸语图像文本特征并进行特征图注意力计算,赋予了一些边缘特征更高的权重;相比“FCN”的方法,提升了1.1%,说明本发明的方法缅甸语图像特征提取过程中更多地关注到缅甸语字符上下标等文字边缘特征,减少了缅甸语字符上下标丢失或错误识别的情况。
为了验证本发明方法在缅甸语文本图像识别效率方面的提升效果,我们在相同的数据集和实验参数下对不同的方法进行了实验,并取平均每训练2000步长所需的时间作为对比结果。由表2的实验结果分析可知,本发明方法大幅度缩短了训练时间,相比较“FCN”的方法训练时间缩短将近7倍,与“CNN+BiLSTM+Attention”方法相比更是缩短到接近原来的十分之一,说明本发明方法在能较好提高识别准确率的情况下,极大地提升了识别效率;同时与“Resnet+Transformer”相比训练时间相差无几,说明本发明融合通道注意力和空间注意力模块的方法在几乎没有增加训练成本的前提下也能提升识别的准确率;此外,我们注意到“CNN+BiLSTM+CTC”的训练时间比本发明方法更短,这是因为基于CTC的解码方式没有太多的针对图像上下文特征的注意力计算,考虑到本发明方法的识别准确率相比“CNN+BiLSTM+CTC”有较大的提升,因此仍然能够说明方法的有效性与实用性。
为验证缅甸语通道和空间注意力融合策略的有效性,分别对其做了消融试验。分别对Resnet为主干网络的基线模型进行消融实验,实验结果如表3甴所示(“×”代表未融合,“√”代表融合)
表 3 双重注意力模块对识别模型的影响
方法 | Channel Attention | Spatial Attention | SA(%) |
ResNet+Transformer | × | × | 94.8 |
ResNet+Transformer | √ | × | 94.8 |
ResNet+Transformer | × | √ | 94.9 |
ResNet+Transformer | √ | √ | 95.3 |
其中“Channel Attention”表示通道注意力,“Spatial Attention”表示空间注意力,从实验结果可以看出,在只融合通道注意力或空间注意力中的情况下,以ResNet为主干网络的缅甸语图像识别模型性能提升非常小,但同时融合两种注意力时对模型的准确率可以提高0.5个百分点,说明同时对缅甸语图像的通道域和空间域做注意力计算并融合能够更充分关注到文本信息相关的特征。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (4)
1.融合双重注意力机制的缅甸语图像文本识别方法,其特征在于:所述方法的具体步骤如下:
Step1、缅甸语图像数据集构建及预处理:结合缅甸语的字符组合特征构造适应任务需求的缅甸语文本图像数据集;为丰富数据的多样性,构建的数据集包含不同噪声、不同倾斜角度、不同背景颜色以及不同编码字体;
Step2、融合通道注意力和空间注意力的缅甸语图像特征增强:采用深度卷积神经网络对输入的缅甸语文本图像进行特征提取,将获得的特征图按通道的维数分组为子特征;对于每一项子特征,同时构造通道注意力和空间注意力机制,来获取缅甸语图像更细粒度的位置特征和通道映射特征,并将获取的两个特征进行融合,使得模型能更多地关注到缅甸语文本图像的上下标区域,提取到缅甸语图像中更多的文字边缘特征;
Step3、利用基于多头注意力机制的序列编码器-解码器对缅甸语图像文本识别模型进行识别:利用基于多头注意力机制的序列编码器-解码器对融合通道注意力和空间注意力增强后的缅甸语图像特征进行解码,基于多头注意力机制的序列编码器-解码器通过特征图进行注意力计算获取整张缅甸语图像的全局信息,结合标签训练让模块关注到更准确的缅甸语文字区域,使模型进行并行训练;
所述Step1的具体步骤为:
Step1.1、通过缅甸语网站获取跨境缅甸语文本数据,然后进行去重、切分、过滤特殊字符预处理,构建缅甸语序列标注文本标签数据集;
Step1.2、由于缅甸语的Zawgyi-One字体和Pyidaungsu字体的编码方式不一样,Zawgyi-One字体是通过“Zawgyi”方式编码的,而Pyidaungsu字体则是通过“Unicode”方式编码的;构造缅甸语Zawgyi-One和Pyidaungsu字体混合文本图像数据,使得训练的缅甸语文本图像识别模型能够识别不同编码字体的文本图像,图像中文本对应的标签通过缅甸语字体转换工具“CONVERTERS Zawgyi And Unicode”统一为Pyidaungsu字体文本;
Step1.3、利用文本图像合成算法将处理好的缅甸语文本数据生成对应的文本图像,为了使训练的模型具有更好的鲁棒性和泛化性,生成的图像数据集包含了不同噪声、背景颜色、倾斜角度以及不同编码字体的缅甸语文本图像,并划分出相应的训练集、验证集和测试集。
2.根据权利要求1所述的融合双重注意力机制的缅甸语图像文本识别方法,其特征在于:所述Step2的具体步骤为:
Step2.1、在残差网络的基础上构建适应缅甸语图像特征提取的主干网络,通过特征提取网络获得512维的缅甸语图像特征图;
Step2.2、给定一个经过特征提取网络得到的缅甸语图像特征图X∈RC×H×W,其中C、H、W分别表示通道数、空间高度和宽度,将特征X沿着通道维度拆分为K组:X=[X1,......,XK],Xi∈RC/K×H×W,其中,对于每组特征,每个子特征Xi在训练过程中逐渐捕获语义响应;
Step2.3、在每个注意单元的开头,Xi的输入沿着通道维度被分成两个分支,即X′i1,X′i2∈RC/2K×H×W;一个分支X′i1通过利用通道的相互关系在[C]维度上获取注意力权重来生成通道注意力图,而另一个分支X′i2则通过利用特征的空间关系在[H,W]维度上进行注意力权重计算来生成空间注意力图;
Step2.4、对于在[C]维度上输入X′i1,通过使用平均池化和最大池化操作来聚合缅甸语图像的文本特征信息,生成两个不同的空间上下文特征描述:X′i1avg、X′i1max,分别表示平均池化特征图和最大池化特征图,其维度大小都为C/2K×1×1,然后将这两个特征图分别送入两层的全连接神经网络,并且这个两层的全连接神经网络的参数是共享的,再将得到的两个特征图相加,通过Sigmoid函数得到0~1之间的权重系数,得到最终输出通道注意力图为MC∈RC/2K×1×1,其中为了减少参数开销,隐藏激活大小设置为t为缩减率,通道注意力权重计算如下:
Mc(X′i1)=σ(MLP(AvgPool(Xi1))+MLP(MaxPool(X′i1)))
=σ(W1(W0(X′i1avg))+W1(W0(X′i1max)))
其中,σ表示Sigmoid函数,两个输入共享MLP权重分别为W0∈RC/t×C,W1∈RC×C/t;
Step2.5、对于在[H,W]维度上的输入X′i2,采用Group Norm对X′i2进行处理得到空域层面的统计信息;该过程描述如下:
Ms(X′i2)=σ(W2·GN(X′i2)+b2)·X′i2
其中,W2∈RC/2K×H×W,b2∈RC/2K×H×W;
Step2.6、在完成通道和空间注意力计算后,需要进行融合,首先通过简单concat进行融合得到混合注意力特征图Mi,计算过程描述如下:
Mi=[Mc(X′i1),Ms(X′i2)]∈RC/2K×H×W
再将各个分组得到的混合注意力特征图进行聚合,得到最终的特征图M∈RC×H×W。
3.根据权利要求1所述的融合双重注意力机制的缅甸语图像文本识别方法,其特征在于:所述Step3的具体步骤为:
Step3.1、在经过融合双重注意力机制的特征增强网络后得到一个C×H×W的中间视觉特征表示Fc,缅甸语文本图像在本质上是连续的信号,缅甸语文的读取顺序是从左到右,为此视觉特征表示Fc转化为视觉特征向量{v1,v2,…,vw},其中vi∈RC×H;
Step3.2、采用多头注意力机制对视觉特征向量进行编码,由于输入视觉特征向量本身是缺乏位置信息,采用原始Transformer的位置编码方式对视觉特征向量进行位置编码;位置信息编码之前,维度大小为(H×W,C)的视觉特征向量进行维度压缩,维度压缩方式为将其输入到一个全连接层实现维度转化,最终维度压缩之后视觉特征向量的大小为(C,W);为了有效地、明确地引导注意机制和让视觉特征向量/>失去水平位移不变性,采用了基于正弦和余弦函数的位置编码,其表示公式如下:
其中,pos∈{0,1,2,…,w-1},i∈{0,1,2,…,c-1};
Step3.3、将与位置编码TE进行融合得到向量/>为了进一步提取视觉特征,在/>上应用了四次自注意模块;该自注意模块输入为Qc、Kc和Vc,其中Qc=Kc=Vc;相关性信息计算方式如下:
其中i∈{0,1,2,…w-1},/>经过注意力计算得到增强之后的视觉特征将用于后续的文字转录模块;
Step3.4、文字转录模块负责将视觉特征解码为字符,关注视觉特征以及从文本特征中学习到的语言知识;文字转录模块是由4个Tranformer解码器组成;每个解码器层由三个子层组成:两个多头注意机制层和一个前馈神经网络组成;每个解码层采用多头注意力机制对编码器特征进行建模计算,并解决了解码时输出字符与编码特征之间的复杂对齐关系;
模型训练时采用交叉熵损失函数作为缅甸语识别模型的目标优化函数,计算方式如下所示:
其中,M表示为输入的缅甸语图像,θ表示为当前识别网络的模型参数,表示为缅甸语图像的第t个特征序列对应的真实标签。
4.融合双重注意力机制的缅甸语图像文本识别装置,其特征在于:包括用于执行如权利要求1-3任一项权利要求所述方法的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242041.2A CN115471851B (zh) | 2022-10-11 | 2022-10-11 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211242041.2A CN115471851B (zh) | 2022-10-11 | 2022-10-11 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115471851A CN115471851A (zh) | 2022-12-13 |
CN115471851B true CN115471851B (zh) | 2023-07-28 |
Family
ID=84337871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211242041.2A Active CN115471851B (zh) | 2022-10-11 | 2022-10-11 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115471851B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116343190B (zh) * | 2023-05-30 | 2023-08-29 | 中国科学技术大学 | 自然场景文字识别方法、系统、设备及存储介质 |
CN116912845B (zh) * | 2023-06-16 | 2024-03-19 | 广东电网有限责任公司佛山供电局 | 一种基于nlp与ai的智能内容识别与分析方法及装置 |
CN116503880B (zh) * | 2023-06-29 | 2023-10-31 | 武汉纺织大学 | 一种倾斜字体的英文字符识别方法和系统 |
CN116597437B (zh) * | 2023-07-18 | 2023-10-03 | 昆明理工大学 | 融合双层注意力网络的端到端老挝车牌照识别方法及装置 |
CN116758562B (zh) * | 2023-08-22 | 2023-12-08 | 杭州实在智能科技有限公司 | 通用文本验证码识别方法及系统 |
CN116977436B (zh) * | 2023-09-21 | 2023-12-05 | 小语智能信息科技(云南)有限公司 | 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033249A (zh) * | 2019-12-09 | 2021-06-25 | 中兴通讯股份有限公司 | 文字识别方法、装置、终端及其计算机存储介质 |
CN113901879A (zh) * | 2021-09-13 | 2022-01-07 | 昆明理工大学 | 融合多尺度语义特征图的缅甸语图像文本识别方法及装置 |
CN113887480B (zh) * | 2021-10-19 | 2022-05-17 | 小语智能信息科技(云南)有限公司 | 基于多解码器联合学习的缅甸语图像文本识别方法及装置 |
CN114429633B (zh) * | 2022-01-28 | 2023-10-27 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
-
2022
- 2022-10-11 CN CN202211242041.2A patent/CN115471851B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783705A (zh) * | 2020-07-08 | 2020-10-16 | 厦门商集网络科技有限责任公司 | 一种基于注意力机制的文字识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115471851A (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115471851B (zh) | 融合双重注意力机制的缅甸语图像文本识别方法及装置 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN111444343B (zh) | 基于知识表示的跨境民族文化文本分类方法 | |
CN111523534B (zh) | 一种图像描述的方法 | |
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
CN110033008A (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN112541501A (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN116168324A (zh) | 基于循环交互Transformer与维度交叉融合的视频情感识别方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN113392822A (zh) | 基于特征分离表征学习的面部运动单元检测方法及系统 | |
Zhu et al. | Multi-scale temporal network for continuous sign language recognition | |
Tang et al. | Visual-semantic transformer for scene text recognition | |
CN116414962A (zh) | 一种基于注意力机制的问答匹配方法 | |
Ma et al. | PIEED: Position information enhanced encoder-decoder framework for scene text recognition | |
CN114581905A (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
Xue et al. | LCSNet: End-to-end lipreading with channel-aware feature selection | |
US20240119716A1 (en) | Method for multimodal emotion classification based on modal space assimilation and contrastive learning | |
Yin et al. | Spatial temporal enhanced network for continuous sign language recognition | |
Liu et al. | Computation and Parameter Efficient Multi-Modal Fusion Transformer for Cued Speech Recognition | |
Yuan et al. | Semantic Distance Adversarial Learning for Text-to-Image Synthesis | |
CN114944002B (zh) | 文本描述辅助的姿势感知的人脸表情识别方法 | |
Tang et al. | Cyclic Autoencoder for Multimodal Data Alignment Using Custom Datasets. | |
CN114357186B (zh) | 基于交互式概率编码的实体抽取方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |