CN114943960A - 一种文本识别方法、系统、电子设备及存储介质 - Google Patents
一种文本识别方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114943960A CN114943960A CN202210725045.XA CN202210725045A CN114943960A CN 114943960 A CN114943960 A CN 114943960A CN 202210725045 A CN202210725045 A CN 202210725045A CN 114943960 A CN114943960 A CN 114943960A
- Authority
- CN
- China
- Prior art keywords
- semantic information
- text
- recognized
- global semantic
- text image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
Abstract
本申请实施例公开了一种文本识别方法、系统、电子设备及存储介质;本申请实施例可以获取待识别文本图像;对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。由此,本方案可以提升对场景文本识别的识别效果,提高准确率。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种文本识别方法、系统、电子设备及存储介质。
背景技术
场景文本识别是计算机视觉领域的一个研究热点,近年来受到了广泛的关注,其在各种场景应用广泛,比如自动驾驶、路标识别、车牌识别以及教育场景下的拍照搜题等。
然而,目前现有的文本识别方法对图像进行识别时,识别的准确率较低,无法满足用户的使用需求。
发明内容
本申请实施例提供一种文本识别方法、系统、电子设备及存储介质,可以提升对场景文本识别的识别效果,提高准确率。
第一方面,本申请实施例提供一种文本识别方法,包括:
获取待识别文本图像;
对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;
基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;
基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;
对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。
第二方面,本申请实施例还提供一种文本识别系统,包括:
获取单元,用于获取待识别文本图像;
编码处理单元,用于对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;
语义提取单元,用于基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;
优化单元,用于基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;
解码单元,用于对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。
第三方面,本申请实施例还提供一种电子设备,包括存储器存储有多条指令;处理器从存储器中加载指令,以执行本申请实施例所提供的任一种文本识别方法中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,指令适于处理器进行加载,以执行本申请实施例所提供的任一种文本识别方法中的步骤。
在本申请中,可以获取待识别文本图像;对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;将优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。通过预训练语言表征模型的设置,可以通过训练语义提取模型,来提高对全局语义信息进行优化的效果,从而得到识别准确率更高的优化后的全局语义信息,由此,提升了对场景文本识别的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的文本识别方法的场景示意图;
图1b是本申请实施例提供的文本识别方法的流程示意图;
图1c是本申请实施例提供的获取待识别文本图像方法的流程示意图;
图1d是本申请实施例提供的得到待识别文本图像的特征序列的方法的流程示意图;
图1e是本申请实施例提供的得到全局语义信息的方法的流程示意图;
图1f是本申请实施例提供的得到优化后的全局语义信息的方法的流程示意图;
图1g是本申请实施例提供的得到待识别文本图像的文本识别结果的方法的流程示意图;
图2a是本申请实施例提供的文本识别方法的一个实施例的方法流程示意图;
图2b是本申请实施例提供的文本识别方法的一个实施例的流程示意图;
图3是本申请实施例提供的文本识别装置的第一种结构示意图;
图4是本申请实施例提供的终端的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种文本识别方法、系统、电子设备及存储介质。
其中,该文本识别系统具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer,PC)等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
在一些实施例中,该文本识别系统还可以集成在多个电子设备中,比如,文本识别系统可以集成在多个服务器中,由多个服务器来实现本申请的文本识别方法。
在一些实施例中,服务器也可以以终端的形式来实现。
例如,参考图1a,该电子设备可以是服务器,本申请实施例中的服务器用于获取待识别文本图像;对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本实施例中,提供了一种文本识别方法,如图1b所示,该文本识别方法的具体流程可以如下:
110、获取待识别文本图像。
待识别文本图像是指带有待识别文本目标的图像,待识别文本目标可以包括数字、文字、字母等信息。例如,在本申请实施例中,待识别文本图像中的文本目标为字母“SALE”。
待识别文本图像可以为是已经拍摄好并存储于用户终端存储空间的图像文件,还可以是实时拍摄的图像,或在录制的视频时的截图图像。待识别文本图像可以为场景图像,待识别文本图像的场景可以包括为:保险理赔、网络信息监控和大数据产业。例如,在本申请实施例中,待识别文本图可以为拍摄的银行票据图像。
其中,在本申请实施例中,如图1c所示,当待识别文本图像为形状不规则的文本图像时在获取到待识别文本图像后,获取待识别文本图像的方法包括:
111、获取待矫正的文本图像。
待矫正的文本图像是指由于拍摄畸变等问题的影响,所得到的文本图像为形状不规则的文本图像,文本图像上的待识别文本目标的形变程度一般较大。
112、对待矫正的文本图像进行矫正处理,得到矫正图像,将矫正图像记作待识别文本图像。
矫正处理是指将待矫正的文本图像上的待识别文本目标由不规则形状的文本矫正为水平位置。其中,矫正处理的方式可以包括旋转、放大、缩小、形变等方式。例如,在一些实施例中,当待矫正的文本图像上的文字处于倾斜状态,则对待矫正的文本图像进行旋转处理,使得待矫正的文本图像上的文字水平。
其中,在一些实施例中,在进行矫正处理时,可以将待矫正的文本图像输入到矫正网络中进行矫正,其中,矫正网络可以为ASTER(Attentional Scene TextRecognizer),并基于空间转换网络(STN,Spatial Transformer Network),将待矫正的文本图像空间矫正过程构建成可学习模型,例如,在一些实施例中,先将待矫正的文本图像下采样到Id,输入定位网络与格点生成器生成TPS变换的参数,再通过采样器生成矫正后的文本图像Ir。
120、对待识别文本图像进行编码处理,得到待识别文本图像的特征序列。
编码处理是指将待识别文本图像输入至编码器,通过编码器对待识别文本图像进行特征提取,得到待识别文本图像的特征,并通过编码器中的循环网络结构对待识别文本图像的特征进行预测和标注,从而生成待识别文本图像的特征序列的过程。
其中,在本申请实施例中,如图1d所示,对待识别文本图像进行编码处理,得到待识别文本图像的特征序列的方法包括:
121、对待识别文本图像进行特征提取处理,得到特征图像;
122、将特征图像输入至少一层双向循环网络,生成两个候选特征序列;
123、将两个候选特征序列进行合并处理,得到特征序列。
其中,特征提取处理是指使用计算机提取图像中属于特征性的信息的方法及过程。特征提取处理可以为视觉特征提取处理,即将待识别文本图像输入至编码器中进行视觉特征提取,从而得到待识别文本图像的视觉特征图。其中,在本申请实施例中,可以将待识别文本图像输入改进的轻量级残差卷积神经网络进行视觉特征提取,即通过残差网络对待识别文本图像进行视觉特征提取。
将特征图像进行分别以正向和反向输入至少一层双向循环网络,得到与特征图像对应的关联上文和关联下文的两个候选特征序列,最后将关联上文和关联下文的两个候选特征序列进行合并,得到关联上下文的特征序列。
在进行文本识别时,单向的循环网络只能联系过去的序列信息,然而基于待识别文本图像的特征序列标签既需要联系过去的信息,也要与之后的信息相关,即在两个方向的上下文信息是相互作用且互补,因此,本申请实施例中将一个向前和一个向后的循环网络组合成双向循环网络,能更加充分利用上下文信息,其中,双向循环网络具有捕获特征序列内上下文信息的能力,通过正向和反向输入生成的两个候选特征序列分别具有该方向上充分的特征信息,根据空间对应关系合并候选特征序列获得待识别文本图像特征序列。
其中,在本申请实施例中,特征序列h=(h1,…,hL),形状为L×C,其中,L是卷积神经网络最后一层特征图的宽度,C是深度。
其中,在本申请实施例中,双向循环网络的层数可以由多层,在实际运用中可以根据需求进行改变,其中,本申请实施例中的双向循环网络可以为正向LSTM(长短期记忆人工神经网络,Long Short-Term Memory)和反向LSTM(长短期记忆人工神经网络,Long Short-Term Memory)的结合。
130、基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息。
语义提取模型可以由至少一个全连接层构成的神经网络。全局语义信息可以为待识别文本图像中的全文关键词。在一些实施例中,可以利用一个全连接层构成的神经网络获取全局语义信息。例如,在本申请实施例中,通过预先确定关键词列表以作为该分类任务所能预测的文本,并使用相应的样本对神经网络进行训练,以使得神经网络能够基于输入的特征序列输出对应的关键词。
其中,在本申请实施例中,如图1e所示,语义提取模型至少包括第一连接层网络和第二连接层网络;
基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息的方法包括:
131、获取第一连接层网络的第一权重和第一偏置、第二连接层网络的第二权重和第二偏置以及修正线性单元的激活函数;
132、对特征序列进行转换处理,得到特征序列的一维向量;
133、根据第一连接层网络的第一权重和第一偏置、第二连接层网络的第二权重和第二偏置、修正线性单元的激活函数以及特征序列的一维向量,得到全局语义信息。
其中,可以根据公式s=W2σ(W1I+b1)+b2得到全局语义信息;
其中,W1可以为第一连接层网络的第一权重,b1可以为第一连接层网络的第一偏置;W2可以为第二连接层网络的第二权重,b2可以为第二连接层网络的第二偏置,I为特征序列的一维向量。
140、基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息。
预训练语言表征模型(BERT,Bidirectional Encoder Representation fromTransformers),采用masked language model(MLM),以致能生成深度的双向语言表征,预训练语言表征模型利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer decoder,双向的Transformer则被称为Transformerencoder)来构建整个模型,因此最终生成能融合左右上下文信息的深层双向语言表征。其中,预训练语言表征模型可以为已完成预训练的模型。
优化处理是指预训练语言表征模型以预训练词嵌入的方式,通过计算损失函数来对语义提取模型参数进行调整,再通过调整后的语义提取模型重新对特征序列进行语义提取,得到优化后的全局语义信息。
其中,在本申请实施例中,如图1f所示,对全局语义信息进行优化处理,得到优化后的全局语义信息的方法包括:
141、确定全局语义信息;
142、对全局语义信息进行信息提取,得到全局语义信息中的字向量、文本向量和位置向量。
全局语义信息中的字向量可以是通过预训练语言表征模型查询预设的字向量表,从而将全局语义信息中的每个字转化为一维向量。
全局语义信息中的文本向量可以是与全局语义信息中文本对应的文本向量,可以是将全局语义信息中各字或词的向量进行组合得到的。
位置向量可以是由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如:“我爱你”和“你爱我”),因此,通过预训练语言表征模型对不同位置的字/词分别附加一个不同的向量以作区分。
143、将全局语义信息中的字向量、文本向量和位置向量输入至预训练语言表征模型,得到词嵌入向量。
预训练语言表征模型是基于字向量、文本向量和位置向量的输入,映射构建出词嵌入向量,例如,可以使用One Hot编码方式映射构建出词嵌入向量。
144、根据词嵌入向量和全局语义信息,得到损失函数;
其中,得到损失函数的方法包括:
确定识别损失值以及词嵌入向量和全局语义信息的余弦距离;
根据词嵌入向量和全局语义信息的余弦距离,确定语义损失值;
根据语义损失值和识别损失值,确定损失函数。
例如,在本申请实施例中,可以通过公式:
Lsem=1-cos(S,em);
L=Lrec+λLsem;
得到,其中,Lsem为语义损失值,S为全局语义信息,em为词嵌入向量,cos(S,em)为词嵌入向量和全局语义信息的余弦距离,λ为平衡损失的超参数,例如,在一些实施例中,λ可以等于1,Lrec为识别损失值,L为损失值。
145、若损失函数未满足预设条件,则对语义提取模型的参数进行调整处理,直到损失函数满足预设条件,获取损失函数满足预设条件时所对应的语义提取模型,记为训练完成的语义提取模型;
146、将特征序列输入至训练完成的语义提取模型,得到优化后的全局语义信息。
其中,若损失函数未满足预设条件,是指由损失函数确定出的损失值L大于预设的损失值时,则表明语义提取模型提取得到的全局语义信息的准确度较低,因此,通过计算损失函数,重新对语义提取模型进行参数调整,在调整参数后,语义提取模型重新对特征序列进行语义提取,并对提取得到的全局语义信息再次进行损失函数的计算,直至根据损失函数计算得到的损失值L小于预设的损失值,即表示当前语义提取模型所提取到的全局语义信息准确度较高。
150、对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。
解码处理是指将优化后的全局语义信息和特征序列输入到解码器中进行解码,从而得到待识别文本图像的文本识别结果,其中,在一些实施例中,解码器采用Bahdanau-Attention机制,解码器可以包括一个GRU(Gate Recurrent Unit,循环神经网络:Recurrent Neural Network,RNN的一种)。其中,GRU的内部可以具有多个隐藏单元和多个注意力单元。
其中,在本申请实施例中,如图1g所示,对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果的方法包括:
151、根据优化后的全局语义信息,对循环神经网络模型进行初始化处理,得到初始化处理后的循环神经网络模型;
152、将特征序列输入至初始化处理后的循环神经网络模型,得到带有视觉信息的初始化全局语义信息;
153、根据带有视觉信息的初始化全局语义信息,得到文本识别结果。
由上可知,本申请实施例可以获取待识别文本图像;对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。由此本方案通过全局语义信息对语义提取模型进行优化,,从而提升对场景文本识别的准确性。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以文本识别为例,对本申请实施例的方法进行详细说明。
如图2a和2b所示,一种文本识别方法具体流程如下:
201、获取待识别文本图像。
202、基于ASTER模块,对待识别文本图像进行矫正处理,得到矫正处理后的待识别文本图像。
将待识别文本图像输入到ASTER模块中,从而将待识别文本图像中不规则形状的文本矫正为水平位置,其中,ASTER(Attentional Scene TextRecognizer),并基于空间转换网络(STN,Spatial Transformer Network),将待矫正的文本图像空间矫正过程构建成可学习模型,其中,ASTER模块的处理流程可以为先将输入的待识别文本图像下采样到Id,输入定位网络与格点生成器生成TPS变换的参数,再通过采样器生成矫正后的图片Ir。TPS插值法指在对薄板中的N个点An形变到对应的N个点Bn时,采用的使得薄板弯曲能量最小的插值方法,可对图片进行柔性变换,从而可以对于透视和弯曲的不规则文字进行矫正处理。
203、将矫正处理后的待识别文本图像输入至编码器中进行编码处理,得到特征序列。
编码器包括残差网络(Resnet-45和2-layer)和双向循环网络(BiLSTM)构成,其中,BiLSTM为正向LSTM和反向LSTM的结合。将矫正处理后的待识别文本图像输入至编码器中进行编码处理后,得到的特征序列h=(h1,…,hL),形状为L×C,其中,L是卷积神经网络最后一层特征图的宽度,C是深度,其中,特征序列h一方面用于输入语义提取模块中进行预测语义信息,另一方面可以作为解码器的输入。
204、将特征序列输入至语义提取模块中进行语义提取处理,得到全局语义信息。
语义提取模块为由全连接层组成的网络,在将特征序列h输入语义提取模块前,将特征序列h调整为一维向量I,大小为L×C,将一维向量I输入语义模块,从而得到待识别文本图像的高层次的全局语义信息。
其中,可以根据公式s=W2σ(W1I+b1)+b2得到全局语义信息。其中,w1可以为第一连接层网络的第一权重,b1可以为第一连接层网络的第一偏置;W2可以为第二连接层网络的第二权重,b2可以为第二连接层网络的第二偏置,I为特征序列的一维向量。
205、基于BERT模型和全局语义信息,对语义提取模块进行优化处理,得到训练后的语义提取模块。
BERT模型(Bidirectional Encoder Representation from Transformers,预训练语言表征模型),采用masked language model(MLM),以致能生成深度的双向语言表征,预训练语言表征模型利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer decoder,双向的Transformer则被称为Transformerencoder)来构建整个模型,因此最终生成能融合左右上下文信息的深层双向语言表征。
其中,BERT模型中的双向Transformer组件有多层。
通过BERT模型输出的词嵌入向量来计算损失,从而实现对语义提取模块的监督和优化,完成对部分残缺、模糊等低质量文字图片的检测识别。
其中,通过BERT模型输出的词嵌入向量来计算损失的公式为:
Lsem=1-cos(S,em);
L=Lrec+λLsem;
得到,其中,Lsem为语义损失值,S为全局语义信息,em为词嵌入向量,cos(S,em)为词嵌入向量和全局语义信息的余弦距离,λ为平衡损失的超参数,例如,在一些实施例中,λ可以等于1,Lrec为识别损失值,L为损失值。
在得到损失值后,若损失值大于预设的损失值时,则表明语义提取模块提取得到的全局语义信息的准确度较低,因此,通过计算损失函数,重新对语义提取模块进行参数调整,在调整参数后,语义提取模块重新对特征序列进行语义提取,并对提取得到的全局语义信息再次进行损失函数的计算,直至根据损失函数计算得到的损失值小于预设的损失值,即表示当前语义提取模块所提取到的全局语义信息准确度较高。
206、根据训练后的语义提取模块,再次对特征序列进行语义提取处理,得到优化后的全局语义信息;
207、将优化后的全局语义信息和特征序列输入解码器中进行解码处理,得到文本识别结果。
解码器使用了Bahdanau-Attention机制,解码器包括一个GRU(循环神经网络模型),该GRU有512个隐藏单元和512个注意力单元;GRU的输入有全局语义信息和编码模块的特征序列h,首先全局语义信息经过一个线性变化转换维度后作为GRU的初始化,然后将特征序列h作为初始化后GRU的输入,从而得到全局语义信息的初始化下附带上局部的视觉信息,输出识别后的文字。
由上可知,通过全局语义信息对语义提取模块进行优化处理,使得语义提取模块输出的全局语义信息更加准确,从而在进行编码时,能够提升对场景文本识别的准确性。
为了更好地实施以上方法,本申请实施例还提供一种文本识别系统,该文本识别装置具体可以集成在电子设备中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。
比如,在本实施例中,将以文本识别装置具体集成在电子设备中为例,对本申请实施例的方法进行详细说明。
例如,如图3所示,该文本识别装置可以包括:
获取单元301,用于获取待识别文本图像;
编码处理单元302,用于对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;
语义提取单元303,用于基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;
优化单元304,用于基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;
解码单元305,用于对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。
在本申请一些实施例中,获取单元301具体用于:
获取待矫正的文本图像;
对待矫正的文本图像进行矫正处理,得到矫正图像,将矫正图像记作待识别文本图像。
在本申请一些实施例中,编码处理单元302具体用于:
对待识别文本图像进行特征提取处理,得到特征图像;
将特征图像输入至少一层双向循环网络,生成两个候选特征序列;
将两个候选特征序列进行合并处理,得到特征序列。
在本申请一些实施例中,语义提取模型至少包括第一连接层网络和第二连接层网络,语义提取单元303具体用于:
获取第一连接层网络的第一权重和第一偏置、第二连接层网络的第二权重和第二偏置以及修正线性单元的激活函数;
对特征序列进行转换处理,得到特征序列的一维向量;
根据第一连接层网络的第一权重和第一偏置、第二连接层网络的第二权重和第二偏置、修正线性单元的激活函数以及特征序列的一维向量,得到全局语义信息。
在本申请一些实施例中,优化单元304具体用于:
确定全局语义信息;
对全局语义信息进行信息提取,得到全局语义信息中的字向量、文本向量和位置向量;
将全局语义信息中的字向量、文本向量和位置向量输入至预训练语言表征模型,得到词嵌入向量;
根据词嵌入向量和全局语义信息,得到损失函数;
若损失函数未满足预设条件,则对语义提取模型的参数进行调整处理,直到损失函数满足预设条件,获取损失函数满足预设条件时所对应的语义提取模型,记为训练完成的语义提取模型;
将特征序列输入至训练完成的语义提取模型,得到优化后的全局语义信息。
在本申请一些实施例中,优化单元304具体用于:
确定识别损失值以及词嵌入向量和全局语义信息的余弦距离;
根据词嵌入向量和全局语义信息的余弦距离,确定语义损失值;
根据语义损失值和识别损失值,确定损失函数。
在本申请一些实施例中,解码单元305具体用于:
根据优化后的全局语义信息,对循环神经网络模型进行初始化处理,得到初始化处理后的循环神经网络模型;
将特征序列输入至初始化处理后的循环神经网络模型,得到带有视觉信息的初始化全局语义信息;
根据带有视觉信息的初始化全局语义信息,得到文本识别结果。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的文本识别系统由获取单元301,用于获取待识别文本图像;由编码处理单元302,用于对待识别文本图像进行编码处理,得到待识别文本图像的特征序列;由语义提取单元303,用于基于语义提取模型,对特征序列进行语义提取处理,得到全局语义信息;由优化单元304,用于基于预训练语言表征模型,对全局语义信息进行优化处理,得到优化后的全局语义信息;由解码单元305,用于对优化后的全局语义信息和特征序列进行解码处理,得到待识别文本图像的文本识别结果。由此,本申请实施例可以提升对场景文本识别的准确性。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑,等等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,等等。
在一些实施例中,该文本识别系统还可以集成在多个电子设备中,比如,文本识别系统可以集成在多个服务器中,由多个服务器来实现本申请的文本识别方法。
在本实施例中,将以本实施例的电子设备是终端为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的终端的结构示意图,具体来讲:
该终端可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解,图4中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行终端的各种功能和处理数据。在一些实施例中,处理器401可包括一个或多个处理核心;在一些实施例中,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
终端还包括给各个部件供电的电源403,在一些实施例中,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该终端还可包括输入模块404,该输入模块404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该终端还可包括通信模块405,在一些实施例中通信模块405可以包括无线模块,终端可以通过该通信模块405的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,终端还可以包括显示单元等,在此不再赘述。具体在本实施例中,终端中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能。
在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种文本识别方法中的步骤。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种文本识别方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中提供文本识别的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种文本识别方法中的步骤,因此,可以实现本申请实施例所提供的任一种文本识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种文本识别方法、系统、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种文本识别方法,其特征在于,包括
获取待识别文本图像;
对所述待识别文本图像进行编码处理,得到所述待识别文本图像的特征序列;
基于语义提取模型,对所述特征序列进行语义提取处理,得到全局语义信息;
基于预训练语言表征模型,对所述全局语义信息进行优化处理,得到优化后的全局语义信息;
对优化后的全局语义信息和所述特征序列进行解码处理,得到所述待识别文本图像的文本识别结果。
2.根据权利要求1所述的文本识别方法,其特征在于,所述获取待识别文本图像,包括:
获取待矫正的文本图像;
对所述待矫正的文本图像进行矫正处理,得到矫正图像,将所述矫正图像记作所述待识别文本图像。
3.根据权利要求1所述的文本识别方法,其特征在于,所述对所述待识别文本图像进行编码处理,得到所述待识别文本图像的特征序列,包括:
对所述待识别文本图像进行特征提取处理,得到特征图像;
将所述特征图像输入至少一层双向循环网络,生成两个候选特征序列;
将所述两个候选特征序列进行合并处理,得到所述特征序列。
4.根据权利要求1所述的文本识别方法,其特征在于,所述语义提取模型至少包括第一连接层网络和第二连接层网络;
所述基于语义提取模型,对所述特征序列进行语义提取处理,得到全局语义信息,包括:
获取所述第一连接层网络的第一权重和第一偏置、所述第二连接层网络的第二权重和第二偏置以及修正线性单元的激活函数;
对所述特征序列进行转换处理,得到所述特征序列的一维向量;
根据所述第一连接层网络的第一权重和第一偏置、所述第二连接层网络的第二权重和第二偏置、所述修正线性单元的激活函数以及所述特征序列的一维向量,得到所述全局语义信息。
5.根据权利要求1所述的文本识别方法,其特征在于,所述基于预训练语言表征模型,对所述全局语义信息进行优化处理,得到优化后的全局语义信息,包括:
确定所述全局语义信息;
对所述全局语义信息进行信息提取,得到所述全局语义信息中的字向量、文本向量和位置向量;
将所述全局语义信息中的字向量、文本向量和位置向量输入至所述预训练语言表征模型,得到词嵌入向量;
根据所述词嵌入向量和所述全局语义信息,得到损失函数;
若所述损失函数未满足预设条件,则对所述语义提取模型的参数进行调整处理,直到所述损失函数满足所述预设条件,获取损失函数满足所述预设条件时所对应的语义提取模型,记为训练完成的语义提取模型;
将所述特征序列输入至训练完成的语义提取模型,得到优化后的全局语义信息。
6.根据权利要求5所述的文本识别方法,其特征在于,所述根据所述词嵌入向量和所述全局语义信息,得到损失函数,包括:
确定识别损失值以及所述词嵌入向量和所述全局语义信息的余弦距离;
根据所述词嵌入向量和所述全局语义信息的余弦距离,确定语义损失值;
根据语义损失值和识别损失值,确定所述损失函数。
7.根据权利要求1所述的文本识别方法,其特征在于,所述对优化后的全局语义信息和所述特征序列进行解码处理,得到所述待识别文本图像的文本识别结果,包括:
根据所述优化后的全局语义信息,对循环神经网络模型进行初始化处理,得到初始化处理后的循环神经网络模型;
将所述特征序列输入至初始化处理后的所述循环神经网络模型,得到带有视觉信息的初始化全局语义信息;
根据所述带有视觉信息的初始化全局语义信息,得到文本识别结果。
8.一种文本识别系统,其特征在于,包括:
获取单元,用于获取待识别文本图像;
编码处理单元,用于对所述待识别文本图像进行编码处理,得到所述待识别文本图像的特征序列;
语义提取单元,用于基于语义提取模型,对所述特征序列进行语义提取处理,得到全局语义信息;
优化单元,用于基于预训练语言表征模型,对所述全局语义信息进行优化处理,得到优化后的全局语义信息;
解码单元,用于对优化后的全局语义信息和所述特征序列进行解码处理,得到所述待识别文本图像的文本识别结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~7任一项所述的文本识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~7任一项所述的文本识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725045.XA CN114943960A (zh) | 2022-06-23 | 2022-06-23 | 一种文本识别方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725045.XA CN114943960A (zh) | 2022-06-23 | 2022-06-23 | 一种文本识别方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114943960A true CN114943960A (zh) | 2022-08-26 |
Family
ID=82910823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725045.XA Pending CN114943960A (zh) | 2022-06-23 | 2022-06-23 | 一种文本识别方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943960A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565186A (zh) * | 2022-09-26 | 2023-01-03 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、装置、电子设备和存储介质 |
CN116311271A (zh) * | 2023-03-22 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本图像的处理方法及装置 |
CN116524524A (zh) * | 2023-04-25 | 2023-08-01 | 上海任意门科技有限公司 | 一种内容识别方法、装置、设备及存储介质 |
CN117408974A (zh) * | 2023-10-26 | 2024-01-16 | 广州欧派集成家居有限公司 | 一种板式集成家具封边自动检测方法、装置及存储介质 |
-
2022
- 2022-06-23 CN CN202210725045.XA patent/CN114943960A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115565186A (zh) * | 2022-09-26 | 2023-01-03 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、装置、电子设备和存储介质 |
CN115565186B (zh) * | 2022-09-26 | 2023-09-22 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法、装置、电子设备和存储介质 |
CN116311271A (zh) * | 2023-03-22 | 2023-06-23 | 北京百度网讯科技有限公司 | 文本图像的处理方法及装置 |
CN116311271B (zh) * | 2023-03-22 | 2023-12-26 | 北京百度网讯科技有限公司 | 文本图像的处理方法及装置 |
CN116524524A (zh) * | 2023-04-25 | 2023-08-01 | 上海任意门科技有限公司 | 一种内容识别方法、装置、设备及存储介质 |
CN116524524B (zh) * | 2023-04-25 | 2024-03-15 | 上海任意门科技有限公司 | 一种内容识别方法、装置、设备及存储介质 |
CN117408974A (zh) * | 2023-10-26 | 2024-01-16 | 广州欧派集成家居有限公司 | 一种板式集成家具封边自动检测方法、装置及存储介质 |
CN117408974B (zh) * | 2023-10-26 | 2024-04-26 | 广州欧派集成家居有限公司 | 一种板式集成家具封边自动检测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417498B2 (en) | Method and system for multi-modal fusion model | |
AU2016256753B2 (en) | Image captioning using weak supervision and semantic natural language vector space | |
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
AU2016256764B2 (en) | Semantic natural language vector space for image captioning | |
KR101855597B1 (ko) | 계층적 회귀 신경망을 이용하여 비디오 문절을 캡셔닝하기 위한 시스템 및 방법 | |
GB2547068B (en) | Semantic natural language vector space | |
CN114943960A (zh) | 一种文本识别方法、系统、电子设备及存储介质 | |
Yao et al. | Describing videos by exploiting temporal structure | |
CN109961041B (zh) | 一种视频识别方法、装置及存储介质 | |
CN110990555B (zh) | 端到端检索式对话方法与系统及计算机设备 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
CN108985370B (zh) | 图像标注语句自动生成方法 | |
EP3884426A1 (en) | Action classification in video clips using attention-based neural networks | |
CN114090780A (zh) | 一种基于提示学习的快速图片分类方法 | |
CN117121015A (zh) | 利用冻结语言模型的多模态少发式学习 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Khan et al. | A deep neural framework for image caption generation using gru-based attention mechanism | |
WO2020104590A2 (en) | Aligning sequences by generating encoded representations of data items | |
Chowdhury et al. | A cascaded long short-term memory (LSTM) driven generic visual question answering (VQA) | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN113761933A (zh) | 检索方法、装置、电子设备及可读存储介质 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
Sharma | A novel image captioning model based on morphology and fisher vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |