CN112183525A - 一种文本识别模型的构建及文本识别方法和装置 - Google Patents
一种文本识别模型的构建及文本识别方法和装置 Download PDFInfo
- Publication number
- CN112183525A CN112183525A CN202010966835.8A CN202010966835A CN112183525A CN 112183525 A CN112183525 A CN 112183525A CN 202010966835 A CN202010966835 A CN 202010966835A CN 112183525 A CN112183525 A CN 112183525A
- Authority
- CN
- China
- Prior art keywords
- target
- text line
- target text
- text
- line image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000010276 construction Methods 0.000 title description 2
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000010586 diagram Methods 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种文本识别模型的构建及文本识别方法和装置,其中该构建方法包括:获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若是,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。本发明解决了现有技术的以下问题:传统文本识别模型只有一个解码器,由该解码器来统一识别这两类以上的文本行时,差别较大的文本行将使得解码器难以拟合,并且会抛弃有助于解码器进行解码的文本行类别信息。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种文本识别模型的构建及文本识别方法和装置。
背景技术
目前,在使用OCR(Optical Character Recognition,光学字符识别)技术做文本识别时,流程大致如下:首先使用文本检测模型检测出文本行所在的位置,然后根据文本行位置扣出文本行图像,最后使用文本识别模型对文本行图像中的文字信息进行识别。在识别具有固定排版格式的证件时,例如需要识别身份证上的身份证号码与住址信息,此时这两种文本行可看作两种类别的文本行,它们具有各自的特色信息。身份证号码文本行由固定长度的数字信息构成,而住址信息文本行通常为一个常文本且基本由汉字构成。基于Endoder-Decoder(编解码器)的传统文本识别模型只有一个解码器,由该解码器来统一识别这两类文本行,这样会带来两个问题:首先,多种差别较大的文本行将使得解码器难以拟合;另外,用同一个解码器识别多种文本行,抛弃了文本行类别信息,而文本行类别信息是有助于解码器去解码对应文本行的文字信息的。综上所述,传统文本识别模型只有一个解码器所带来的问题,亟待解决。
发明内容
基于此,有必要针对上述问题,提出一种文本识别模型的构建及文本识别方法和装置,以解决现有技术的以下问题:传统文本识别模型只有一个解码器,由该解码器来统一识别这两类以上的文本行时,差别较大的文本行将使得解码器难以拟合,并且会抛弃有助于解码器进行解码的文本行类别信息。
本发明实施例的第一技术方案为:
一种文本识别模型的构建方法,其包括:获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。
本发明实施例的第二技术方案为:
一种文本识别方法,其基于权利要求上述任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现,其包括以下步骤:接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;将得到所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
本发明实施例的第三技术方案为:
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值;
或使得所述处理器执行以下步骤:
接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
本发明实施例的第四技术方案为:
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值;
或使得所述处理器执行以下步骤:
接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
采用本发明实施例,具有如下有益效果:
本发明通过获取待识别的目标文本行图像,将目标文本行图像对初始神经网络进行训练得到文本识别模型,并使用文本识别模型将目标文本行特征图进行处理得到所述目标文本预测结果,解决了现有技术的以下问题:传统文本识别模型只有一个解码器,由该解码器来统一识别这两类以上的文本行时,差别较大的文本行将使得解码器难以拟合,并且会抛弃有助于解码器进行解码的文本行类别信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中文本识别模型的构建方法一实施方式的实施流程图;
图2为一个实施例中文本识别方法一实施方式的实施流程图;
图3为一个实施例中计算机设备一实施方式的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中检测电子设备电路过电流保护的方法的实施流程图,参照图1,本实施例的一种检测电子设备电路过电流保护的方法,其包括以下步骤:
步骤S101:获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据。其中,所述目标文本行图像是经过人工或者机器处理过的图像,已经将图像上的其它数据取出掉,只保留文本数据。
步骤S102:将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标。其中,对初始神经网络进行训练是按照预设规则进行的,达到预定目标是指输入所述初始神经网络的图像和输出所述初始神经网络的图像之间的差异值控制在预设范围内。
步骤S103:若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。其中,达到预定目标后,所述初始神经网络的网络结构与模型参数数值也已经改变,此时的所述初始神经网络对应的网络结构与模型参数数值,即为文本识别模型对应的网络结构与模型参数数值。
在本实施例中,可选地,所述将所述目标文本行图像对初始神经网络进行训练,包括:
第一,将所述目标文本行图像进行预处理,得到目标文本行特征图。其中,目标文本行特征图是对目标文本行图像进行进一步的特征提取后得到的图像,这是为将目标文本行图像进行编码处理做好准备。
第二,将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量。其中,目标编码特征图相对于目标文本行特征图而言,是更进一步的提取目标文本行图像的特征。另外,目标中间特征向量则是由对目标编码特征图的处理而得到。
第三,将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果。
在本实施例中,可选地,所述判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标,包括:
第一,获取经过解码处理后得到的所述目标文本预测结果。
第二,将所述目标文本预测结果与所述目标文本行图像进行比较,判断两者对应的文本数据差异性是否小于预设差异性阈值。
第三,若两者对应的文本数据差异性小于预设差异性阈值,则判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。
其中,如输入的目标文本行图像上的文字为“我是中国人,我爱中国”,则当输出的目标文本预测结果也为“我是中国人,我爱中国”,就判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。如果输出的目标文本预测结果为“我为中国人,我爱中国”,由于两者对应的文本数据差异性较小,也可以判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。
在本实施例中,可选地,所述将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量,包括:
第一,将所述目标文本行特征图输入所述初始神经网络的编码模块进行卷积和池化处理,得到所述目标编码特征图。所述目标编码特征图的尺寸可选为64*1*512,即所述目标文本行特征图经过卷积和池化处理后变为64*1*512的特征图。
第二,将所述目标编码特征图输入GRU循环神经网络进行处理,得到所述目标中间特征向量。其中,可选地,将64*1*512目标文本行特征图分解为64个512维的特征向量,再使用GRU循环神经网络编码得到512维的所述目标中间特征向量。
在本实施例中,可选地,所述将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果,包括:
第一,将所述目标编码特征图和所述目标中间特征向量输入多个目标解码器进行解码。
第二,获取与所述目标编码特征图和所述目标中间特征向量最匹配的一个所述目标解码器,记为目标匹配解码器。其中,每个目标解码器最擅长的解码领域,所述目标编码特征图和所述目标中间特征向量对应的文本或长或短,格式也是各种各样的,需要找到与其最匹配的目标解码器来解码。
其中,本模型在主干网络中设置了解码器优选分类分支,解码器优选分类分支用于决定使用哪一个目标解码器解码得到文本预测结果,并给出置信度。例如设置为三个目标解码器,则解码器优选分类分支会为给出这三个目标解码器对应的解码分数score,用于决定使用哪个目标解码器进行解码。将三个解码分数score从大到小排序得到了[score1,score2,score3],对应的Encoder顺序为为E1=[encoder1,encoder2,encoder3]。三个目标解码器的预测结果与图像的真实信息分别计算差异性loss,并排序得到[loss1,loss2,loss3],对应Encoder顺序为E2=[encoder1,encoder2,encoder3]。计算E1与E2之间的偏差,该loss用于矫正解码器优选分类分支,使解码器优选分类分支具备选择最优目标解码器的能力。在模型预测阶段,解码器优选分类分支会选择它认为最优的目标解码器来进行解码,因为每个目标解码器都有各自擅长解码的领域。
第三,将所述目标编码特征图和所述目标中间特征向量输入所述目标匹配解码器进行解码处理,得到所述目标文本预测结果。
在本实施例中,可选地,所述将所述目标文本行图像进行预处理,得到目标文本行特征图,包括:
第一,将所述目标文本行图像的尺寸调整为指定尺寸,指定尺寸可选为64*16*512。本步骤可选为:先将目标文本行图像的尺寸调整为256*64*3的大小,然后通过Resnet50将256*64*3进一步调整为64*16*512。
第二,通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征,得到所述目标文本行特征图。其中,主干网络可选为Resnet50,Resnet50是一种卷积神经网络的网络结构。
其中,在机器学习中,卷积神经网络已成功地应用于图像识别。卷积神经网络是一种前馈神经网络,人工神经元可以响应周围单元,可以进行大型图像处理。卷积神经网络包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理;二维卷积神经网络常应用于图像类文本的识别;三维卷积神经网络主要应用于医学图像以及视频类数据识别。
如图2所示,在另一个实施例中,提供了一种文本识别方法,其基于权利要求上述任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现,参照图2可得到,该文本识别方法包括:
步骤S201:接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图。
步骤S202:读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络。
步骤S203:将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
在本实施例中,可选地,所述对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图,包括:
第一,将所述目标文本行图像的尺寸调整为指定尺寸,指定尺寸可选为64*16*512。本步骤可选为:先将目标文本行图像的尺寸调整为256*64*3的大小,然后通过Resnet50将256*64*3进一步调整为64*16*512。
第二,通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征,得到所述目标文本行特征图。其中,主干网络可选为Resnet50,Resnet50是一种卷积神经网络的网络结构。
图3示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图3所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述的文本识别模型的构建方法和文本识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述的文本识别模型的构建方法和文本识别方法。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在另一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值;
或使得所述处理器执行以下步骤:
接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
在另一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;若使用所述目标文本行图像对所述初始神经网络的训练已经达到预定目标,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值;
或使得所述处理器执行以下步骤:
接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
本发明通过获取待识别的目标文本行图像,将目标文本行图像对初始神经网络进行训练得到文本识别模型,并使用文本识别模型将目标文本行特征图进行处理得到所述目标文本预测结果,解决了现有技术的以下问题:传统文本识别模型只有一个解码器,由该解码器来统一识别这两类以上的文本行时,差别较大的文本行将使得解码器难以拟合,并且会抛弃有助于解码器进行解码的文本行类别信息。本发明在编解码架构基础上,用一种无监督的方式使多个解码器自适应的在各自擅长的领域完成解码,例如当需要识别长文本时会使用解码器A会为其解码,而需要识别短文本时会自动切换至解码器B为其解码,利用这种方式有效的提高了文本识别模型的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种文本识别模型的构建方法,其特征在于,包括:
获取待识别的目标文本行图像,所述目标文本行图像上只保留文本数据;
将所述目标文本行图像对初始神经网络进行训练,并判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标;
若是,则记录并保存此时的所述初始神经网络对应的网络结构与模型参数数值,将其作为所述文本识别模型对应的网络结构与模型参数数值。
2.根据权利要求1所述的文本识别模型的构建方法,其特征在于,所述将所述目标文本行图像对初始神经网络进行训练,包括:
将所述目标文本行图像进行预处理,得到目标文本行特征图;
将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量;
将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果。
3.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述判断使用所述目标文本行图像对所述初始神经网络的训练是否已经达到预定目标,包括:
获取经过解码处理后得到的所述目标文本预测结果;
将所述目标文本预测结果与所述目标文本行图像进行比较,判断两者对应的文本数据差异性是否小于预设差异性阈值;
若是,则判定使用所述目标文本行图像对所述初始神经网络的训练已经达到所述预定目标。
4.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述将所述目标文本行特征图输入所述初始神经网络进行编码处理,得到目标编码特征图和目标中间特征向量,包括:
将所述目标文本行特征图输入所述初始神经网络的编码模块进行卷积和池化处理,得到所述目标编码特征图;
将所述目标编码特征图输入GRU循环神经网络进行处理,得到所述目标中间特征向量。
5.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述将所述目标编码特征图和所述目标中间特征向量进行解码处理,得到目标文本预测结果,包括:
将所述目标编码特征图和所述目标中间特征向量输入多个目标解码器进行解码;
获取与所述目标编码特征图和所述目标中间特征向量最匹配的一个所述目标解码器,记为目标匹配解码器;
将所述目标编码特征图和所述目标中间特征向量输入所述目标匹配解码器进行解码处理,得到所述目标文本预测结果。
6.根据权利要求2所述的文本识别模型的构建方法,其特征在于,所述将所述目标文本行图像进行预处理,得到目标文本行特征图,包括:
将所述目标文本行图像的尺寸调整为指定尺寸;
通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征,得到所述目标文本行特征图。
7.一种文本识别方法,其特征在于,其基于权利要求1~6任一项所述的文本识别模型的构建方法所构建的文本识别模型来实现,其包括以下步骤:
接收待识别的目标文本行图像输出为目标文本预测结果的目标处理信号,并对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图;
读取预先保存的所述文本识别模型的网络结构与模型参数数值,以恢复生成可将输入其中的所述目标文本行特征图输出为所述目标文本预测结果的目标输出网络;
将所述目标文本行特征图输入所述目标输出网络进行处理,得到所述目标文本预测结果。
8.根据权利要求7所述的文本识别方法,其特征在于,所述对所述待识别的所述目标文本行图像进行预处理,得到所述目标文本行特征图,包括:
将所述目标文本行图像的尺寸调整为指定尺寸;
通过指定主干网络提取尺寸为所述指定尺寸的所述目标文本行图像对应的图像特征,得到所述目标文本行特征图。
9.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1~6所述的文本识别模型的构建方法,或实现如权利要求7~8所述的文本识别方法的步骤。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1~6所述的文本识别模型的构建方法,或实现如权利要求7~8所述的文本识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966835.8A CN112183525B (zh) | 2020-09-15 | 2020-09-15 | 一种文本识别模型的构建及文本识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010966835.8A CN112183525B (zh) | 2020-09-15 | 2020-09-15 | 一种文本识别模型的构建及文本识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183525A true CN112183525A (zh) | 2021-01-05 |
CN112183525B CN112183525B (zh) | 2023-11-24 |
Family
ID=73921191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010966835.8A Active CN112183525B (zh) | 2020-09-15 | 2020-09-15 | 一种文本识别模型的构建及文本识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183525B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6000612A (en) * | 1997-10-10 | 1999-12-14 | Metanetics Corporation | Portable data collection device having optical character recognition |
WO2003103178A1 (en) * | 2002-05-29 | 2003-12-11 | Pixonics, Inc. | Video interpolation coding |
CN102611815A (zh) * | 2011-01-20 | 2012-07-25 | 村田机械株式会社 | 图像处理装置、图像处理系统以及图像处理方法 |
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN110147806A (zh) * | 2018-10-08 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN110321913A (zh) * | 2018-03-30 | 2019-10-11 | 杭州海康威视数字技术股份有限公司 | 一种文本识别方法及装置 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
CN111522480A (zh) * | 2013-09-10 | 2020-08-11 | 公共电视公司 | 显示内容的方法和设备以及计算机可读存储介质 |
CN111598087A (zh) * | 2020-05-15 | 2020-08-28 | 润联软件系统(深圳)有限公司 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-15 CN CN202010966835.8A patent/CN112183525B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6000612A (en) * | 1997-10-10 | 1999-12-14 | Metanetics Corporation | Portable data collection device having optical character recognition |
WO2003103178A1 (en) * | 2002-05-29 | 2003-12-11 | Pixonics, Inc. | Video interpolation coding |
CN102611815A (zh) * | 2011-01-20 | 2012-07-25 | 村田机械株式会社 | 图像处理装置、图像处理系统以及图像处理方法 |
CN111522480A (zh) * | 2013-09-10 | 2020-08-11 | 公共电视公司 | 显示内容的方法和设备以及计算机可读存储介质 |
CN110321913A (zh) * | 2018-03-30 | 2019-10-11 | 杭州海康威视数字技术股份有限公司 | 一种文本识别方法及装置 |
CN110147806A (zh) * | 2018-10-08 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN111428718A (zh) * | 2020-03-30 | 2020-07-17 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
CN111598087A (zh) * | 2020-05-15 | 2020-08-28 | 润联软件系统(深圳)有限公司 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
LY, NT: "An attention-based row-column encoder-decoder model for text recognition in Japanese historical documents", PATTERN RECOGNITION LETTERS, vol. 136, pages 134 - 141, XP086231596, DOI: 10.1016/j.patrec.2020.05.026 * |
侯丽仙;李艳玲;李成城;: "面向任务口语理解研究现状综述", 计算机工程与应用, no. 11, pages 12 - 20 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269189A (zh) * | 2021-07-20 | 2021-08-17 | 北京世纪好未来教育科技有限公司 | 文本识别模型的构建方法、文本识别方法、装置及设备 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
CN113283427B (zh) * | 2021-07-20 | 2021-10-01 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112183525B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2527168B2 (ja) | 音響信号から導かれた電気信号を区分する方法及び装置 | |
CN111881737B (zh) | 年龄预测模型的训练方法及装置、年龄预测方法及装置 | |
CN111428485B (zh) | 司法文书段落分类方法、装置、计算机设备及存储介质 | |
CN112183525B (zh) | 一种文本识别模型的构建及文本识别方法和装置 | |
CN113297366B (zh) | 多轮对话的情绪识别模型训练方法、装置、设备及介质 | |
CN112257703B (zh) | 图像识别方法、装置、设备和可读存储介质 | |
CN113627207B (zh) | 条码识别方法、装置、计算机设备和存储介质 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110969154A (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN114283350A (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN113435330A (zh) | 基于视频的微表情识别方法、装置、设备及存储介质 | |
CN113850251A (zh) | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 | |
CN113111880A (zh) | 证件图像校正方法、装置、电子设备及存储介质 | |
CN110688949B (zh) | 字体识别方法和装置 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN114429636A (zh) | 图像扫描识别方法、装置及电子设备 | |
CN114357174A (zh) | 基于ocr和机器学习的代码分类系统及方法 | |
CN116071472B (zh) | 图像生成方法及装置、计算机可读存储介质、终端 | |
CN112163110A (zh) | 图像分类方法、装置、电子设备和计算机可读存储介质 | |
CN111477212B (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN115759758A (zh) | 风险评估方法、装置、设备及存储介质 | |
CN111738248B (zh) | 字符识别方法、字符译码模型的训练方法及电子设备 | |
CN112489687B (zh) | 一种基于序列卷积的语音情感识别方法及装置 | |
CN111563510B (zh) | 一种图像处理的方法和系统 | |
CN114638229A (zh) | 笔录数据的实体识别方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |