CN116977436B - 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置 - Google Patents

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置 Download PDF

Info

Publication number
CN116977436B
CN116977436B CN202311220038.5A CN202311220038A CN116977436B CN 116977436 B CN116977436 B CN 116977436B CN 202311220038 A CN202311220038 A CN 202311220038A CN 116977436 B CN116977436 B CN 116977436B
Authority
CN
China
Prior art keywords
burmese
granularity
text image
character
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311220038.5A
Other languages
English (en)
Other versions
CN116977436A (zh
Inventor
毛存礼
高盛祥
黄于欣
陈蕊
张勇丙
何恩宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Original Assignee
Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaoyu Intelligent Information Technology Yunnan Co ltd filed Critical Xiaoyu Intelligent Information Technology Yunnan Co ltd
Priority to CN202311220038.5A priority Critical patent/CN116977436B/zh
Publication of CN116977436A publication Critical patent/CN116977436A/zh
Application granted granted Critical
Publication of CN116977436B publication Critical patent/CN116977436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,属于自然语言处理技术领域。缅甸语属于低资源语言,现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题,本发明提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法,主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置,对输入的缅甸语文本图像进行识别,本发明有效提升了缅甸语文本图像的识别效果。

Description

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置
技术领域
本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,属于自然语言处理技术领域。
背景技术
缅甸语是一种东南亚低资源语言,其文字具有独特的形态和结构。随着数字化技术的迅速发展,缅甸语文本图像识别逐渐成为了一个重要的研究领域。缅甸语文本图像识别可以帮助本发明将印刷或手写的缅甸语文本转换为可编辑的数字形式,这对于数字化文献、信息检索和自然语言处理等领域都具有重要的应用价值。然而现有的缅甸语识别模型在识别缅甸语时,由于缅甸语中存在着大量组合字符,导致识别过程中易发生漏识、错识某些关键字符,容易出现乱码的现象,同时缅甸语中存在多种字符编码模式,不同的编码模式对应的字符排列顺序也不尽相同。
发明内容
本发明提供了基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,以缓解现有缅甸语文本图像识别模型难以准确识别缅甸语中上下标的问题。
本发明的技术方案是:第一方面,本发明提供基于缅甸语字符簇特征的缅甸语文本图像识别方法,所述方法包括如下:
Step1、构建缅甸语字符簇解码字典:将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;
Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别;
Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。
进一步地,所述Step1的具体步骤为:
Step1.1、获取缅甸语文本图像,并划分训练集、测试集、验证集;利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列;
Step1.2、对所有训练数据中的文本标签进行字符簇切分,得到字符簇解码字典,再利用该字典分别对所有缅甸语图像数据标签切分,以便后续模型进行特征学习。
进一步地,所述Step2的具体步骤为:
Step2.1、为了提取到字符粒度的图像特征和字符簇粒度的图像特征,在使用视觉 几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征 提取网络,即多粒度特征提取模块;考虑到字符簇粒度在纵向上的分布相比于横向分布的 占比更大,使用横纵比为1:2的卷积核来提取字符簇粒度的图像特征;将图片输入多粒度 特征提取模块,分别得到512维的字符粒度特征 和字符簇粒度特征 ,其中 分别为通道数、高度和宽度;计算如下:
Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模,以提高模型对图像噪声和畸变的鲁棒性以及对缅甸语文本图像的表征能力;计算如下:
其中,为不同粒度的图像特征向量,为字符粒度的图像特征向量,为字 符簇粒度的图像特征向量,均为图像特征向量特征建模层,均为线性变换层;
Step2.3、使用基于Transformer的多粒度特征融合模块来将进行融合,其中 为字符粒度特征维度,为字符簇粒度特征维度,中每一维度的分量,中每一 维度的分量,jN,N表示正整数,B表示一个批次训练数据的数量;基于Transformer的多粒 度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码;使用 Transformer中的位置编码方法来对图像特征向量进行位置编码;在进行位置编码之前,先 将图像特征向量按维度大小进行放缩,分别得到两个放缩后的图像特征向量,放缩 后的图像特征向量大小分别为;为了让注意力机制更加有效,同时让在水平方向上具有位移不变性,采用了一种基于正弦和余弦函数的位置编码方式,计算 公式如下所示:
其中为缩放后矩阵的大小参数,中索引为偶数的位置 编码计算方法;中索引为偶数的位置编码计算方法;中索引为奇数的位置编码计算方法;中索引为奇数的位置编码计 算方法,为位置编码模块的维度大小;
其中多头注意力机制计算如下:
其中为参数矩阵,为多头注意力机制计算的函数名,函数的形参,为深度学习pytorch库中的连接函数,为多头注 意力机制中注意头head的个数,为随机初始化的权重矩阵,是整数,k=M;
Step2.4、将图像特征向量分别和其各自的位置编码进行融合得到融合图像 特征向量,为了使用优化,使用交叉注意力模块对进行融合得到; 该交叉注意力模块的输入为,这里将作为作为
其中为交叉注意力模块的形参,为形参的维度向量的大小;为最 终融合之后的图像特征向量,即融合了多粒度特征的缅甸语文本图像的向量表示;为归一化层;
Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多 头交叉注意力层、前馈神经网络层三个子层组成;通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列,最后将预测序列输入转换器Convert得 到对应的缅甸语文本;Convert为将预测出的最大概率的文本索引转换为文本的功能 函数,具体转换时,Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里 找对应的文本,为解码器输出的预测序列;
进一步地,所述Step3的具体步骤为:
Step3.1、构建缅甸语文本图像识别模型的后端服务框架,并将其部署到用于缅甸语文本图像识别的服务器上,这个框架将为模型提供必要的基础设施和功能,以确保模型能在服务器上高效地运行;
Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上;同时还开发一个API接口,用于与服务器进行交互和通信,这样其他应用程序或用户就能通过该接口与服务器进行通信,使用缅甸语文本图像识别功能;
Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测;模型将根据输入的图像数据生成相应的预测结果;然后这些预测结果将被送入后处理模块,该模块将对字符顺序进行重排列,以便得到正确的缅甸语文本顺序;
Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型,通过在Web界面上上传缅甸语文本图像进行测试,并获得高准确性的缅甸语文本图像识别结果,这使得用户能方便地通过Web界面使用缅甸语文本图像识别功能,并获得准确的识别结果。
第二方面,本发明还提供基于缅甸语字符簇特征的缅甸语文本图像识别装置,该装置包括用于执行上述第一方面的方法的模块。
本发明的有益效果是:
1、本发明定义了缅甸语字符簇,提出了缅甸语字符簇切分方法,基于交叉注意力机制进一步学习基于缅甸语字符簇特征的缅甸语文本图像表示,将字符粒度特征与字符簇粒度特征较好地融合。
2、本发明基于多粒度特征融合,降低不同特征提取粒度对文本图像特征的干扰,缓解了缅甸语文本图像识别模型难以准确识别上下标的问题。
附图说明
图1为本发明中基于缅甸语字符簇特征的缅甸语文本图像识别模型框架图;
图2为本发明中多粒度特征提取模块图;
图3为本发明中基于缅甸语字符簇特征的缅甸语文本图像识别方法整体流程图。
具体实施方式
实施例1:如图1-图3所示,基于缅甸语字符簇特征的缅甸语文本图像识别方法,所述基于缅甸语字符簇特征的缅甸语文本图像识别方法的具体步骤如下:
Step1、构建缅甸语字符簇解码字典:缅甸语是一种东南亚低资源语言,其文字具有独特的形态和结构,主要体现在缅甸文字中存在大量的上下标字符,同时这些字符相似度较高。本发明结合中英文的文本图像识别的思想,将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;
所述Step1的具体步骤为:
Step1.1、获取缅甸语文本图像,本发明的文本图像数据来源于自购数据集,其中有800万张缅甸语文本图像,并划分了训练集、测试集、验证集,包括构建了含20万张图像的测试集和含20万张图像数据的验证集;利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列; 例如将缅甸语文本“”转化为字符簇序列“”,具体切分算法如下;
表1为切分算法
Step1.2、为了对缅甸语字符簇特征联合学习,对所有训练数据中的文本标签进行字符簇切分,得到大小为1005的字符簇解码字典,再利用该字典分别对所有缅甸语图像数据标签切分,以便后续模型进行特征学习。
Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:针对缅甸文字中存在的大量上下标,结合先进的文本图像识别模型的思想,设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别;
所述Step2的具体步骤为:
Step2.1、为了提取到字符粒度的图像特征和字符簇粒度的图像特征,在使用视觉 几何组网络(Visual Geometry Group Network, VGGNet)的基础上分别构建了适应于提取 缅甸语字符粒度和字符簇粒度的特征提取网络,即多粒度特征提取模块;考虑到字符簇粒 度在纵向上的分布相比于横向分布的占比更大,使用横纵比为1:2的卷积核来提取字符簇 粒度的图像特征;将图片输入多粒度特征提取模块,分别得到512维的字符粒度特征 和字符簇粒度特征 ,其中 分别为通道数、高度和宽 度;计算如下:
Step2.2、为了更好地对文本图像的文本特征进行建模,排除图像中噪声、畸变等条件的干扰,从而获取质量更好的图像特征,使用BiLSTM(Bi-directional Long Short-Term Memory, BiLSTM)对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模,以提高模型对图像噪声和畸变的鲁棒性以及对缅甸语文本图像的表征能力;计算如下:
其中,为不同粒度的图像特征向量,为字符粒度的图像特征向量,为字 符簇粒度的图像特征向量,均为图像特征向量特征建模层,均为线性变换层;
Step2.3、为了使用字符粒度的特征来优化字符簇粒度的特征,本发明使用基于 Transformer的多粒度特征融合模块来将 进行融合,其中为字符粒度特征维度,为字符簇粒度特征维 度,中每一维度的分量,中每一维度的分量,jN,N表示正整数,B表示一个批 次训练数据的数量;基于Transformer的多粒度特征位置编码模块采用了多头注意力机制 来对图像特征向量进行位置编码;使用Transformer中的位置编码方法来对图像特征向量 进行位置编码;在进行位置编码之前,先将图像特征向量按维度大小进行放缩,分别得到两个放缩后的图像特征向量,放缩后的图像特征向量大小分别为; 为了让注意力机制更加有效,同时让在水平方向上具有位移不变性,采用了一种基 于正弦和余弦函数的位置编码方式,计算公式如下所示:
其中为缩放后矩阵的大小参数,中索引为偶数的位置 编码计算方法;中索引为偶数的位置编码计算方法;中索引为奇数的位置编码计算方法;中索引为奇数的位置编码计 算方法,为位置编码模块的维度大小;
其中多头注意力机制计算如下:
其中为参数矩阵,为多头注意力机制计算的函数名,函数的形参,为深度学习pytorch库中的连接函数,为多头注 意力机制中注意头head的个数,为随机初始化的权重矩阵,是整数,k=M
Step2.4、将图像特征向量分别和其各自的位置编码进行融合得到融合图像 特征向量,为了使用优化,使用交叉注意力模块对进行融合得到; 该交叉注意力模块的输入为,这里将作为作为
其中为交叉注意力模块的形参,为形参的维度向量的大小;为最 终融合之后的图像特征向量,即融合了多粒度特征的缅甸语文本图像的向量表示;为归一化层;
Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多 头交叉注意力层、前馈神经网络层三个子层组成;通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列,最后将预测序列输入转换器Convert得 到对应的缅甸语文本;Convert为将预测出的最大概率的文本索引转换为文本的功能 函数,具体转换时,Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里 找对应的文本,为解码器输出的预测序列;
Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。
所述Step3的具体步骤为:
Step3.1、构建缅甸语文本图像识别模型的后端服务框架,并将其部署到用于缅甸语文本图像识别的服务器上,这个框架将为模型提供必要的基础设施和功能,以确保模型能在服务器上高效地运行;
Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上;同时还开发一个API接口,用于与服务器进行交互和通信,这样其他应用程序或用户就能通过该接口与服务器进行通信,使用缅甸语文本图像识别功能;
Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测;模型将根据输入的图像数据生成相应的预测结果;然后这些预测结果将被送入后处理模块,该模块将对字符顺序进行重排列,以便得到正确的缅甸语文本顺序;
Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型,通过在Web界面上上传缅甸语文本图像进行测试,并获得高准确性的缅甸语文本图像识别结果,这使得用户能方便地通过Web界面使用缅甸语文本图像识别功能,并获得准确的识别结果。
为了验证本发明提出的基于缅甸语字符簇特征的缅甸语文本图像识别方法的效果,设计了对比实验和消融实验。
表2 主流识别模型对比实验
实验如表2所示,本发明所提的识别方法在缅甸语文本图像识别任务上准确率达到97.3%,到达了当前最高水平。
相比基于“VGG16+BiLSTM+CTC(CTC是一种解码器)”和“ResNet50+BiLSTM+CTC”的识别方法,在解码过程中使用了新的字符簇编解码字典的识别方法:“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”,分别提升了2.9%(93.3%-90.4%)、3.3%(94.8%-91.5%),同时大幅降低了识别结果中的乱码,说明本发明方法使用新的字符簇编解码字典,极大程度上避免了识别结果中的乱码现象;
相比基于“VGG16+BiLSTM+Attention”和“ResNet50+BiLSTM+Attention”识别方法,在识别过程中使用相同的字符簇编解码字典,再使用“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”时分别提升了2.7%、2.7%,说明本发明方法使用Transformer作为解码模块在识别含有大量噪声的文本图像时,相较于Attention解码模块有较好的表现;
相比“VGG16+BiLSTM+Transformer”和“ResNet50+BiLSTM+Transformer”的识别方法,本发明Ours的方法提升了4.0%、2.5%,说明本发明方法使用两种粒度的特征提取优化了字符簇粒度的特征,提高了字符簇识别的准确率;
其中,毛等人、刘等人、王等人的方法参考文献分别为如下方法:(1)、毛存礼, 谢旭阳, 余正涛, 等. 基于知识蒸馏的缅甸语光学字符识别方法[J]. Journal of DataAcquisition & Processing/Shu Ju Cai Ji Yu Chu Li, 2022, 37(1);(2)、Liu F, MaoC, Yu Z, et al. 融合多层语义特征图的缅甸语图像文本识别方法 (burmese imagetext recognition method fused with multi-layer semantic feature maps)[C]//Proceedings of the 20th Chinese National Conference on ComputationalLinguistics. 2021: 176-185;(3)、Wang F, Mao C, Yu Z, et al. 融合双重注意力机制的缅甸语图像文本识别方法 (Burmese image text recognition method with dualattention mechanism)[C]//Proceedings of the 21st Chinese National Conferenceon Computational Linguistics. 2022: 355-365;
相比于现有的缅甸语识别方法(王等人),提升了2.0%,说明本发明方法在关注到上下标的同时也关注到了整个字符簇整体,减少了缅甸语文本图像识别过程中某些关键辅音字符丢失导致的乱码现象。表3是设计了去除不同粒度特征的消融实验,其它层保持不变进行模型训练。
表3消融实验
实验如表3所示,其中字符粒度、字符簇粒度分别表示模型使用字符粒度和字符簇的特征进行推理。从实验结果可以看出,模型使用字符簇粒度的特征可以更好的提取缅甸语中纵向堆叠字符的特征。当模型使用字符粒度和字符簇粒度的融合特征后,模型既可以关注到缅甸语文本图像的边缘特征,又可以关注到图像中的纵向堆叠字符的特征,提高了基线模型的精度,证明了所提方法的有效性。
根据本发明的构思,本发明还提供了一种基于缅甸语字符簇特征的缅甸语文本图像识别装置,如图3所示,该装置包括如下集成模块:
缅甸语字符簇解码字典构建模块:用于将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建缅甸语字符簇解码字典;
基于缅甸语字符簇特征的缅甸语文本图像识别模型构建模块:用于设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,从而利用字符粒度特征指导字符簇粒度特征在缅甸语上下标上进行更准确的解码和识别;
缅甸语文本图像识别模块:用于建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述方法包括如下:
Step1、构建缅甸语字符簇解码字典:将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;
Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示;
Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本;
所述Step2中,设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为:
Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络,即多粒度特征提取模块;使用横纵比为1:2的卷积核来提取字符簇粒度的图像特征;将图片输入多粒度特征提取模块,分别得到512维的字符粒度特征 />和字符簇粒度特征 />,其中 />,/>,/> 分别为通道数、高度和宽度;计算如下:
Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模;计算如下:
其中,为不同粒度的图像特征向量,/>为字符粒度的图像特征向量,/>为字符簇粒度的图像特征向量,/>,/>均为图像特征向量特征建模层,/>和/>均为线性变换层;
Step2.3、使用基于Transformer的多粒度特征融合模块来将进行融合,其中/>,/>;/>为字符粒度特征维度,/>为字符簇粒度特征维度,/>为/>中每一维度的分量,/>为/>中每一维度的分量,j/>N,N表示正整数,B表示一个批次训练数据的数量;基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码;使用Transformer中的位置编码方法来对图像特征向量进行位置编码;在进行位置编码之前,先将图像特征向量按维度大小进行放缩,分别得到/>两个放缩后的图像特征向量,放缩后的图像特征向量大小分别为和/>;采用了一种基于正弦和余弦函数的位置编码方式,计算公式如下所示:
其中、/>、/>为缩放后矩阵的大小参数,/>为/>中索引为偶数的位置编码计算方法;/>为/>中索引为偶数的位置编码计算方法;/>为/>中索引为奇数的位置编码计算方法;/>为/>中索引为奇数的位置编码计算方法,、/>、/>,/>为位置编码模块的维度大小;
其中多头注意力机制计算如下:
其中,/>,/>为参数矩阵,/>为多头注意力机制计算的函数名,/>函数的形参,/>为深度学习pytorch库中的连接函数,/>为多头注意力机制中注意头head的个数,/>为随机初始化的权重矩阵,/>是整数,k=/>M/>
所述Step2中,基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,具体包括如下步骤:
Step2.4、将图像特征向量、/>分别和其各自的位置编码进行融合得到融合图像特征向量/>、/>,使用交叉注意力模块对/>和/>进行融合得到/>;该交叉注意力模块的输入为/>,/>,/>,这里将/>作为/>,/>作为/>,/>
其中,/>,/>为交叉注意力模块的形参,/>为形参的维度向量的大小;/>为最终融合之后的图像特征向量,即融合了多粒度特征的缅甸语文本图像的向量表示;/>为归一化层;
Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成;通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列,最后将预测序列输入转换器Convert得到对应的缅甸语文本/>;Convert为将预测出的最大概率的文本索引转换为文本的功能函数,具体转换时,Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本,/>为解码器输出的预测序列;
2.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述Step1的具体步骤为:
Step1.1、获取缅甸语文本图像,并划分训练集、测试集、验证集;利用缅甸语字符簇切分算法将缅甸语文本图像切分为字符簇序列;
Step1.2、对所有训练数据中的文本标签进行字符簇切分,得到字符簇解码字典,再利用该字典分别对所有缅甸语图像数据标签切分。
3.根据权利要求1所述的基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述Step3的具体步骤为:
Step3.1、构建缅甸语文本图像识别模型的后端服务框架,并将其部署到用于缅甸语文本图像识别的服务器上,这个框架将为模型提供必要的基础设施和功能;
Step3.2、将把已经训练好的缅甸语文本图像识别模型以".pth"格式的文件的形式部署到缅甸语文本图像识别服务器的端上;同时还开发一个API接口,用于与服务器进行交互和通信;
Step3.3、服务器将接收到图像数据输入缅甸语文本识别模型中进行预测;模型将根据输入的图像数据生成相应的预测结果;然后这些预测结果将被送入后处理模块,该模块将对字符顺序进行重排列;
Step3.4、在Web端调用部署在服务器上的缅甸语文本图像识别模型,通过在Web界面上上传缅甸语文本图像进行测试,并获得高准确性的缅甸语文本图像识别结果。
4.基于缅甸语字符簇特征的缅甸语文本图像识别装置,其特征在于,包括用于执行如权利要求1-3任一权利要求所述的方法的模块。
CN202311220038.5A 2023-09-21 2023-09-21 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置 Active CN116977436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311220038.5A CN116977436B (zh) 2023-09-21 2023-09-21 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311220038.5A CN116977436B (zh) 2023-09-21 2023-09-21 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN116977436A CN116977436A (zh) 2023-10-31
CN116977436B true CN116977436B (zh) 2023-12-05

Family

ID=88479901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311220038.5A Active CN116977436B (zh) 2023-09-21 2023-09-21 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN116977436B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929647A (zh) * 2019-11-22 2020-03-27 科大讯飞股份有限公司 一种文本检测方法、装置、设备及存储介质
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112287920A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于知识蒸馏的缅甸语ocr方法
CN113420766A (zh) * 2021-07-05 2021-09-21 北京理工大学 一种融合语言信息的低资源语种ocr方法
CN113657399A (zh) * 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN115471851A (zh) * 2022-10-11 2022-12-13 小语智能信息科技(云南)有限公司 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN115935959A (zh) * 2022-12-14 2023-04-07 新疆财经大学 一种低资源黏着语序列标注的方法
CN116049437A (zh) * 2023-01-06 2023-05-02 湘潭大学 基于自标签与prompt的文档级低资源场景的要素抽取方法
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置
CN116563707A (zh) * 2023-05-08 2023-08-08 中国农业科学院农业信息研究所 一种基于图文多模态特征融合的枸杞虫害识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429712B2 (en) * 2018-07-24 2022-08-30 Royal Bank Of Canada Systems and methods for dynamic passphrases
WO2021128044A1 (zh) * 2019-12-25 2021-07-01 深圳市优必选科技股份有限公司 一种基于上下文的多轮对话方法、装置、设备及存储介质
US20230083000A1 (en) * 2021-08-27 2023-03-16 Ancestry.Com Operations Inc. Systems and methods for detection and correction of ocr text

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929647A (zh) * 2019-11-22 2020-03-27 科大讯飞股份有限公司 一种文本检测方法、装置、设备及存储介质
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112287920A (zh) * 2020-09-17 2021-01-29 昆明理工大学 基于知识蒸馏的缅甸语ocr方法
CN113420766A (zh) * 2021-07-05 2021-09-21 北京理工大学 一种融合语言信息的低资源语种ocr方法
WO2023020045A1 (zh) * 2021-08-18 2023-02-23 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113657399A (zh) * 2021-08-18 2021-11-16 北京百度网讯科技有限公司 文字识别模型的训练方法、文字识别方法及装置
CN113901844A (zh) * 2021-09-13 2022-01-07 昆明理工大学 基于模型不确定性约束的半监督汉缅神经机器翻译方法及装置
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN113887480A (zh) * 2021-10-19 2022-01-04 小语智能信息科技(云南)有限公司 基于多解码器联合学习的缅甸语图像文本识别方法及装置
CN115471851A (zh) * 2022-10-11 2022-12-13 小语智能信息科技(云南)有限公司 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN115935959A (zh) * 2022-12-14 2023-04-07 新疆财经大学 一种低资源黏着语序列标注的方法
CN116049437A (zh) * 2023-01-06 2023-05-02 湘潭大学 基于自标签与prompt的文档级低资源场景的要素抽取方法
CN116563707A (zh) * 2023-05-08 2023-08-08 中国农业科学院农业信息研究所 一种基于图文多模态特征融合的枸杞虫害识别方法
CN116311310A (zh) * 2023-05-19 2023-06-23 之江实验室 一种结合语义分割和序列预测的通用表格识别方法和装置

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
.融合多粒度特征的低资源语言词性标注和依存分析联合模型;陆杉 等;中文信息学报;第37卷(第7期);13-22 *
A CNN-BiLSTM based hybrid model for Indian language identification;Himanish Shekhar Das等;Applied Acoustics;第182卷;1-8 *
A Neural Joint Model with BERT for Burmese Syllable Segmentation, Word Segmentation, and POS Tagging;Cunli Mao等;ACM Transactions on Asian and Low-Resource Language Information Processing;第20卷(第4期);1–23 *
CovTiNet: Covid text identification network using attention-based positional embedding feature fusion;Hossain Md. Rajib等;Neural Computing and Applications;第35卷(第18期);13503-13527 *
Transformer-Based BiLSTM for Aspect-Level Sentiment Classification;T. Cai 等;2021 4th International Conference on Robotics, Control and Automation Engineering;138-142 *
基于BiLSTM的低资源老挝语文本正则化任务;王剑 等;计算机工程与科学;第45卷(第7期);1292-1299 *
基于卷积神经网络的缅甸语分词方法;林颂凯;毛存礼;余正涛;郭剑毅;王红斌;张家富;;中文信息学报(第06期);62-70, 79 *
多网络和多头注意力融合的场景文本识别算法;贾小云 等;计算机时代(第08期);46-51 *
面向汉语学习的作文识别与批改方法研究面向汉语学习的作文识别与批改方法研究;张生盛;中国优秀硕士学位论文全文数据库 (哲学与人文科学辑)(第(2022)03期);F084-351 *

Also Published As

Publication number Publication date
CN116977436A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN110163181B (zh) 手语识别方法及装置
Malik et al. An efficient segmentation technique for Urdu optical character recognizer (OCR)
CN116343190B (zh) 自然场景文字识别方法、系统、设备及存储介质
Rigaud et al. Segmentation-free speech text recognition for comic books
CN112329767A (zh) 基于联合预训练的合同文本图像关键信息提取系统和方法
CN113723330A (zh) 一种图表文档信息理解的方法及系统
Chammas et al. Writer identification for historical handwritten documents using a single feature extraction method
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
Wang et al. Implicit feature alignment: learn to convert text recognizer to text spotter
Ngo et al. Recurrent neural network transducer for Japanese and Chinese offline handwritten text recognition
CN112784601B (zh) 关键信息提取方法、装置、电子设备和存储介质
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
US20240119716A1 (en) Method for multimodal emotion classification based on modal space assimilation and contrastive learning
CN110929022A (zh) 一种文本摘要生成方法及系统
CN116977436B (zh) 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置
Gupta et al. Handwritten ocr for word in indic language using deep networks
Rakshit et al. Recognition of handwritten Roman Numerals using Tesseract open source OCR engine
CN116663501A (zh) 一种基于多模态共享权重的中文变体文本转换方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
Pham et al. A deep learning approach for text segmentation in document analysis
Cheng et al. Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation
CN116822495B (zh) 基于对比学习的汉-老、泰平行句对抽取方法及装置
Wei et al. Word image representation based on sequence to sequence model with attention mechanism for out-of-vocabulary keyword spotting
Sassioui et al. Visually-Rich Document Understanding: Concepts, Taxonomy and Challenges

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant