CN116977436B

CN116977436B - 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Info

Publication number: CN116977436B
Application number: CN202311220038.5A
Authority: CN
Inventors: 毛存礼; 高盛祥; 黄于欣; 陈蕊; 张勇丙; 何恩宇
Original assignee: Xiaoyu Intelligent Information Technology Yunnan Co ltd
Current assignee: Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2023-12-05
Anticipated expiration: 2043-09-21
Also published as: CN116977436A

Abstract

本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，属于自然语言处理技术领域。缅甸语属于低资源语言，现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题，本发明提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法，主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置，对输入的缅甸语文本图像进行识别，本发明有效提升了缅甸语文本图像的识别效果。

Description

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

技术领域

本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，属于自然语言处理技术领域。

背景技术

缅甸语是一种东南亚低资源语言，其文字具有独特的形态和结构。随着数字化技术的迅速发展，缅甸语文本图像识别逐渐成为了一个重要的研究领域。缅甸语文本图像识别可以帮助本发明将印刷或手写的缅甸语文本转换为可编辑的数字形式，这对于数字化文献、信息检索和自然语言处理等领域都具有重要的应用价值。然而现有的缅甸语识别模型在识别缅甸语时，由于缅甸语中存在着大量组合字符，导致识别过程中易发生漏识、错识某些关键字符，容易出现乱码的现象，同时缅甸语中存在多种字符编码模式，不同的编码模式对应的字符排列顺序也不尽相同。

发明内容

本发明提供了基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，以缓解现有缅甸语文本图像识别模型难以准确识别缅甸语中上下标的问题。

本发明的技术方案是：第一方面，本发明提供基于缅甸语字符簇特征的缅甸语文本图像识别方法，所述方法包括如下：

Step1、构建缅甸语字符簇解码字典：将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建了缅甸语字符簇解码字典；

Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示，从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别；

Step3、缅甸语文本图像识别：建立缅甸语文本图像识别服务器，部署模型并开发缅甸语文本图像识别API接口，通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。

进一步地，所述Step1的具体步骤为：

Step1.1、获取缅甸语文本图像，并划分训练集、测试集、验证集；利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列；

Step1.2、对所有训练数据中的文本标签进行字符簇切分，得到字符簇解码字典，再利用该字典分别对所有缅甸语图像数据标签切分，以便后续模型进行特征学习。

进一步地，所述Step2的具体步骤为：

Step2.1、为了提取到字符粒度的图像特征和字符簇粒度的图像特征，在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络，即多粒度特征提取模块；考虑到字符簇粒度在纵向上的分布相比于横向分布的占比更大，使用横纵比为1：2的卷积核来提取字符簇粒度的图像特征；将图片输入多粒度特征提取模块，分别得到512维的字符粒度特征和字符簇粒度特征，其中，，分别为通道数、高度和宽度；计算如下：

Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模，以提高模型对图像噪声和畸变的鲁棒性以及对缅甸语文本图像的表征能力；计算如下：

其中，为不同粒度的图像特征向量，为字符粒度的图像特征向量，为字符簇粒度的图像特征向量，，均为图像特征向量特征建模层，和均为线性变换层；

Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合，其中，；为字符粒度特征维度，为字符簇粒度特征维度，为中每一维度的分量，为中每一维度的分量，jN，N表示正整数，B表示一个批次训练数据的数量；基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码；使用 Transformer中的位置编码方法来对图像特征向量进行位置编码；在进行位置编码之前，先将图像特征向量按维度大小进行放缩，分别得到两个放缩后的图像特征向量，放缩后的图像特征向量大小分别为和；为了让注意力机制更加有效，同时让和在水平方向上具有位移不变性，采用了一种基于正弦和余弦函数的位置编码方式，计算公式如下所示：

其中、、为缩放后矩阵的大小参数，为中索引为偶数的位置编码计算方法；为中索引为偶数的位置编码计算方法；为中索引为奇数的位置编码计算方法；为中索引为奇数的位置编码计算方法，、、，为位置编码模块的维度大小；

其中多头注意力机制计算如下：

其中，，为参数矩阵，为多头注意力机制计算的函数名，为函数的形参，为深度学习pytorch库中的连接函数，为多头注意力机制中注意头head的个数，为随机初始化的权重矩阵，是整数，k=M;

Step2.4、将图像特征向量、分别和其各自的位置编码进行融合得到融合图像特征向量、，为了使用优化，使用交叉注意力模块对和进行融合得到；该交叉注意力模块的输入为，，，这里将作为，作为，：

其中，，为交叉注意力模块的形参，为形参的维度向量的大小；为最终融合之后的图像特征向量，即融合了多粒度特征的缅甸语文本图像的向量表示；为归一化层；

Step2.5、解码器采用传统的Transformer框架，每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成；通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列，最后将预测序列输入转换器Convert得到对应的缅甸语文本；Convert为将预测出的最大概率的文本索引转换为文本的功能函数，具体转换时，Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本，为解码器输出的预测序列；

；

。

进一步地，所述Step3的具体步骤为：

Step3.1、构建缅甸语文本图像识别模型的后端服务框架，并将其部署到用于缅甸语文本图像识别的服务器上，这个框架将为模型提供必要的基础设施和功能，以确保模型能在服务器上高效地运行；

Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上；同时还开发一个API接口，用于与服务器进行交互和通信，这样其他应用程序或用户就能通过该接口与服务器进行通信，使用缅甸语文本图像识别功能；

Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测；模型将根据输入的图像数据生成相应的预测结果；然后这些预测结果将被送入后处理模块，该模块将对字符顺序进行重排列，以便得到正确的缅甸语文本顺序；

Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型，通过在Web界面上上传缅甸语文本图像进行测试，并获得高准确性的缅甸语文本图像识别结果，这使得用户能方便地通过Web界面使用缅甸语文本图像识别功能，并获得准确的识别结果。

第二方面，本发明还提供基于缅甸语字符簇特征的缅甸语文本图像识别装置，该装置包括用于执行上述第一方面的方法的模块。

本发明的有益效果是：

1、本发明定义了缅甸语字符簇，提出了缅甸语字符簇切分方法，基于交叉注意力机制进一步学习基于缅甸语字符簇特征的缅甸语文本图像表示，将字符粒度特征与字符簇粒度特征较好地融合。

2、本发明基于多粒度特征融合，降低不同特征提取粒度对文本图像特征的干扰，缓解了缅甸语文本图像识别模型难以准确识别上下标的问题。

附图说明

图1为本发明中基于缅甸语字符簇特征的缅甸语文本图像识别模型框架图；

图2为本发明中多粒度特征提取模块图；

图3为本发明中基于缅甸语字符簇特征的缅甸语文本图像识别方法整体流程图。

具体实施方式

实施例1：如图1-图3所示，基于缅甸语字符簇特征的缅甸语文本图像识别方法，所述基于缅甸语字符簇特征的缅甸语文本图像识别方法的具体步骤如下：

Step1、构建缅甸语字符簇解码字典：缅甸语是一种东南亚低资源语言，其文字具有独特的形态和结构，主要体现在缅甸文字中存在大量的上下标字符，同时这些字符相似度较高。本发明结合中英文的文本图像识别的思想，将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建了缅甸语字符簇解码字典；

所述Step1的具体步骤为：

Step1.1、获取缅甸语文本图像，本发明的文本图像数据来源于自购数据集，其中有800万张缅甸语文本图像，并划分了训练集、测试集、验证集，包括构建了含20万张图像的测试集和含20万张图像数据的验证集；利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列；例如将缅甸语文本“”转化为字符簇序列“”，具体切分算法如下；

表1为切分算法

Step1.2、为了对缅甸语字符簇特征联合学习，对所有训练数据中的文本标签进行字符簇切分，得到大小为1005的字符簇解码字典，再利用该字典分别对所有缅甸语图像数据标签切分，以便后续模型进行特征学习。

Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：针对缅甸文字中存在的大量上下标，结合先进的文本图像识别模型的思想，设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示，从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别；

所述Step2的具体步骤为：

Step2.1、为了提取到字符粒度的图像特征和字符簇粒度的图像特征，在使用视觉几何组网络（Visual Geometry Group Network, VGGNet）的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络，即多粒度特征提取模块；考虑到字符簇粒度在纵向上的分布相比于横向分布的占比更大，使用横纵比为1：2的卷积核来提取字符簇粒度的图像特征；将图片输入多粒度特征提取模块，分别得到512维的字符粒度特征和字符簇粒度特征，其中，，分别为通道数、高度和宽度；计算如下：

Step2.2、为了更好地对文本图像的文本特征进行建模，排除图像中噪声、畸变等条件的干扰，从而获取质量更好的图像特征，使用BiLSTM(Bi-directional Long Short-Term Memory, BiLSTM)对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模，以提高模型对图像噪声和畸变的鲁棒性以及对缅甸语文本图像的表征能力；计算如下：

Step2.3、为了使用字符粒度的特征来优化字符簇粒度的特征，本发明使用基于 Transformer的多粒度特征融合模块来将、进行融合，其中，；为字符粒度特征维度，为字符簇粒度特征维度，为中每一维度的分量，为中每一维度的分量，jN，N表示正整数，B表示一个批次训练数据的数量；基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码；使用Transformer中的位置编码方法来对图像特征向量进行位置编码；在进行位置编码之前，先将图像特征向量按维度大小进行放缩，分别得到两个放缩后的图像特征向量，放缩后的图像特征向量大小分别为和；为了让注意力机制更加有效，同时让和在水平方向上具有位移不变性，采用了一种基于正弦和余弦函数的位置编码方式，计算公式如下所示：

其中多头注意力机制计算如下：

其中，，为参数矩阵，为多头注意力机制计算的函数名，为函数的形参，为深度学习pytorch库中的连接函数，为多头注意力机制中注意头head的个数，为随机初始化的权重矩阵，是整数，k=M；

；

。

所述Step3的具体步骤为：

为了验证本发明提出的基于缅甸语字符簇特征的缅甸语文本图像识别方法的效果，设计了对比实验和消融实验。

表2 主流识别模型对比实验

实验如表2所示，本发明所提的识别方法在缅甸语文本图像识别任务上准确率达到97.3%，到达了当前最高水平。

相比基于“VGG16+BiLSTM+CTC（CTC是一种解码器）”和“ResNet50+BiLSTM+CTC”的识别方法，在解码过程中使用了新的字符簇编解码字典的识别方法:“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”，分别提升了2.9%(93.3%-90.4%)、3.3%(94.8%-91.5%)，同时大幅降低了识别结果中的乱码，说明本发明方法使用新的字符簇编解码字典，极大程度上避免了识别结果中的乱码现象；

相比基于“VGG16+BiLSTM+Attention”和“ResNet50+BiLSTM+Attention”识别方法，在识别过程中使用相同的字符簇编解码字典，再使用“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”时分别提升了2.7%、2.7%，说明本发明方法使用Transformer作为解码模块在识别含有大量噪声的文本图像时，相较于Attention解码模块有较好的表现；

相比“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”的识别方法，本发明Ours的方法提升了4.0%、2.5%，说明本发明方法使用两种粒度的特征提取优化了字符簇粒度的特征，提高了字符簇识别的准确率；

其中，毛等人、刘等人、王等人的方法参考文献分别为如下方法：（1）、毛存礼, 谢旭阳, 余正涛, 等. 基于知识蒸馏的缅甸语光学字符识别方法[J]. Journal of DataAcquisition & Processing/Shu Ju Cai Ji Yu Chu Li, 2022, 37(1)；（2）、Liu F, MaoC, Yu Z, et al. 融合多层语义特征图的缅甸语图像文本识别方法 (burmese imagetext recognition method fused with multi-layer semantic feature maps)[C]//Proceedings of the 20th Chinese National Conference on ComputationalLinguistics. 2021: 176-185；（3）、Wang F, Mao C, Yu Z, et al. 融合双重注意力机制的缅甸语图像文本识别方法 (Burmese image text recognition method with dualattention mechanism)[C]//Proceedings of the 21st Chinese National Conferenceon Computational Linguistics. 2022: 355-365；

相比于现有的缅甸语识别方法（王等人），提升了2.0%，说明本发明方法在关注到上下标的同时也关注到了整个字符簇整体，减少了缅甸语文本图像识别过程中某些关键辅音字符丢失导致的乱码现象。表3是设计了去除不同粒度特征的消融实验，其它层保持不变进行模型训练。

表3消融实验

实验如表3所示，其中字符粒度、字符簇粒度分别表示模型使用字符粒度和字符簇的特征进行推理。从实验结果可以看出，模型使用字符簇粒度的特征可以更好的提取缅甸语中纵向堆叠字符的特征。当模型使用字符粒度和字符簇粒度的融合特征后，模型既可以关注到缅甸语文本图像的边缘特征，又可以关注到图像中的纵向堆叠字符的特征，提高了基线模型的精度，证明了所提方法的有效性。

根据本发明的构思，本发明还提供了一种基于缅甸语字符簇特征的缅甸语文本图像识别装置，如图3所示，该装置包括如下集成模块：

缅甸语字符簇解码字典构建模块：用于将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建缅甸语字符簇解码字典；

基于缅甸语字符簇特征的缅甸语文本图像识别模型构建模块：用于设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示，从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别；

缅甸语文本图像识别模块：用于建立缅甸语文本图像识别服务器，部署模型并开发缅甸语文本图像识别API接口，通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述方法包括如下：

Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示；

Step3、缅甸语文本图像识别：建立缅甸语文本图像识别服务器，部署模型并开发缅甸语文本图像识别API接口，通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本；

所述Step2中，设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为：

Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络，即多粒度特征提取模块；使用横纵比为1：2的卷积核来提取字符簇粒度的图像特征；将图片输入多粒度特征提取模块，分别得到512维的字符粒度特征 />和字符簇粒度特征 />，其中 />，/>，/> 分别为通道数、高度和宽度；计算如下：

；

Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模；计算如下：

；

其中，为不同粒度的图像特征向量，/>为字符粒度的图像特征向量，/>为字符簇粒度的图像特征向量，/>，/>均为图像特征向量特征建模层，/>和/>均为线性变换层；

Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合，其中/>，/>；/>为字符粒度特征维度，/>为字符簇粒度特征维度，/>为/>中每一维度的分量，/>为/>中每一维度的分量，j/>N，N表示正整数，B表示一个批次训练数据的数量；基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码；使用Transformer中的位置编码方法来对图像特征向量进行位置编码；在进行位置编码之前，先将图像特征向量按维度大小进行放缩，分别得到/>两个放缩后的图像特征向量，放缩后的图像特征向量大小分别为和/>；采用了一种基于正弦和余弦函数的位置编码方式，计算公式如下所示：

；

其中、/>、/>为缩放后矩阵的大小参数，/>为/>中索引为偶数的位置编码计算方法；/>为/>中索引为偶数的位置编码计算方法；/>为/>中索引为奇数的位置编码计算方法；/>为/>中索引为奇数的位置编码计算方法，、/>、/>，/>为位置编码模块的维度大小；

其中多头注意力机制计算如下：

；

其中，/>，/>为参数矩阵，/>为多头注意力机制计算的函数名，/>为函数的形参，/>为深度学习pytorch库中的连接函数，/>为多头注意力机制中注意头head的个数，/>为随机初始化的权重矩阵，/>是整数，k=/>M/>；

所述Step2中，基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示，具体包括如下步骤：

Step2.4、将图像特征向量、/>分别和其各自的位置编码进行融合得到融合图像特征向量/>、/>，使用交叉注意力模块对/>和/>进行融合得到/>；该交叉注意力模块的输入为/>，/>，/>，这里将/>作为/>，/>作为/>，/>：

；

其中，/>，/>为交叉注意力模块的形参，/>为形参的维度向量的大小；/>为最终融合之后的图像特征向量，即融合了多粒度特征的缅甸语文本图像的向量表示；/>为归一化层；

Step2.5、解码器采用传统的Transformer框架，每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成；通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列，最后将预测序列输入转换器Convert得到对应的缅甸语文本/>；Convert为将预测出的最大概率的文本索引转换为文本的功能函数，具体转换时，Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本，/>为解码器输出的预测序列；

；

。

2.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述Step1的具体步骤为：

Step1.2、对所有训练数据中的文本标签进行字符簇切分，得到字符簇解码字典，再利用该字典分别对所有缅甸语图像数据标签切分。

3.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述Step3的具体步骤为：

Step3.1、构建缅甸语文本图像识别模型的后端服务框架，并将其部署到用于缅甸语文本图像识别的服务器上，这个框架将为模型提供必要的基础设施和功能；

Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上；同时还开发一个API接口，用于与服务器进行交互和通信；

Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测；模型将根据输入的图像数据生成相应的预测结果；然后这些预测结果将被送入后处理模块，该模块将对字符顺序进行重排列；

Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型，通过在Web界面上上传缅甸语文本图像进行测试，并获得高准确性的缅甸语文本图像识别结果。

4.基于缅甸语字符簇特征的缅甸语文本图像识别装置，其特征在于，包括用于执行如权利要求1-3任一权利要求所述的方法的模块。