CN114022887A - 文本识别模型训练及文本识别方法、装置、电子设备 - Google Patents

文本识别模型训练及文本识别方法、装置、电子设备 Download PDF

Info

Publication number
CN114022887A
CN114022887A CN202210000613.XA CN202210000613A CN114022887A CN 114022887 A CN114022887 A CN 114022887A CN 202210000613 A CN202210000613 A CN 202210000613A CN 114022887 A CN114022887 A CN 114022887A
Authority
CN
China
Prior art keywords
character
central point
submodel
trained
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210000613.XA
Other languages
English (en)
Other versions
CN114022887B (zh
Inventor
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202210000613.XA priority Critical patent/CN114022887B/zh
Publication of CN114022887A publication Critical patent/CN114022887A/zh
Application granted granted Critical
Publication of CN114022887B publication Critical patent/CN114022887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供一种文本识别模型训练及文本识别方法、装置、电子设备及存储介质,包括:构建文本识别模型的识别子模型和中心点检测子模型;根据标注样本、标注样本中各字符对应的各字符位置标注,训练中心点检测子模型,得到训练好的中心点检测子模型;根据从标注样本中获取的各字符对应的各预测字符向量、标注样本中各字符对应的各字符内容标注,获得各字符对应的各标准字符向量;根据训练好的中心点检测子模型、标注样本、各字符对应的各标准字符向量,训练识别子模型,得到训练好的识别子模型;基于训练好的所述中心点检测子模型和训练好的识别子模型,确定训练好的文本识别模型。借此,可使用少量的标注样本执行模型训练,以降低模型训练成本。

Description

文本识别模型训练及文本识别方法、装置、电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本识别模型的训练方法、装置、电子设备及存储介质。
背景技术
文本识别应用范围广泛,是很多计算机视觉任务的前置步骤,比如图像搜索、身份认证和视觉导航等。其中,文本识别包括了两个方面,一是定位文本行或字符在图像中的位置,二是将待识别的文本图像转录成字符序列。
然而,目前的文本识别模型,普遍存在着训练成本较高、识别效率较低、识别精度不准等问题。
发明内容
有鉴于此,本公开实施例提供一种更便捷的文本识别模型训练及文本识别方法、装置、电子设备及存储介质,以至少部分的解决上述问题。
根据本公开的一方面,提供了一种文本识别模型训练方法,包括:构建文本识别模型的识别子模型和中心点检测子模型;根据标注样本、所述标注样本中各字符对应的各字符位置标注,训练所述中心点检测子模型,得到训练好的中心点检测子模型;根据从所述标注样本中获取的各字符对应的各预测字符向量、所述标注样本中各字符对应的各字符内容标注,获得各字符对应的各标准字符向量;根据训练好的所述中心点检测子模型、所述标注样本、各字符对应的各标准字符向量,训练所述识别子模型,得到训练好的识别子模型;基于所述训练好的中心点检测子模型和所述训练好的识别子模型,确定训练好的文本识别模型。
根据本公开的第二方面,提供一种文本识别方法,包括:获取待识别文本图像;基于文本识别模型,确定所述待识别文本图像对应的目标文本,其中,所述文本识别模型是利用如第一方面所述的方法训练得到的。
根据本公开的第三方面,提供一种文本识别模型训练装置,包括:构建模块,用于构建文本识别模型的识别子模型和中心点检测子模型;第一训练模块,用于根据标注样本、所述标注样本中各字符对应的各字符位置标注,训练所述中心点检测子模型,得到训练好的中心点检测子模型;标准字符向量生成模块,用于根据从所述标注样本中获取的各字符对应的各预测字符向量、所述标注样本中各字符对应的各字符内容标注,获得各字符对应的各标准字符向量;第二训练模块,用于根据训练好的所述中心点检测子模型、所述标注样本、各字符对应的各标准字符向量,训练所述识别子模型,得到训练好的识别子模型;确定模块,用于基于所述训练好的中心点检测子模型和所述训练好的识别子模型,确定训练好的文本识别模型。
根据本公开的第四方面,提供一种文本识别装置,包括:获取模块,用于获取待识别文本图像;识别模块,用于基于文本识别模型,确定所述待识别文本图像对应的目标文本,其中,所述文本识别模型是利用本公开示例性实施例提供的训练方法训练得到的。
根据本公开的第五方面,提供一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如第一方面所述的文本识别模型训练方法,或执行如第二方面所述的文本识别方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的文本识别模型训练方法,或执行如第二方面所述的文本识别方法。
本公开各实施例中提供的文本识别模型训练方案,可在使用少量标注样本的情况下,即能实现较佳地模型训练效果。因此,本公开的模型训练方案,可在仅使用少量标注样本的情况下实现较佳的模型训练效果,不仅可减少模型训练的标注成本,并可使得训练好的文本识别模型具有较佳识别精度以及识别效率。
再者,借由本公开各实施例中提供的文本识别模型所执行的文本识别处理,可以提高文本识别的正确率。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图2为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图3为本公开示例性实施例的中心点检测子模型的实施例示意图。
图4为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图5为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图6为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图7为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图8为本公开示例性实施例的文本识别模型训练方法的流程示意图。
图9为本公开的文本识别模型的中心点检测子模型与识别子模型之间的数据融合处理示意图。
图10为本公开示例性实施例的文本识别方法的流程示意图。
图11为本公开示例性实施例的文本识别模型训练装置的架构示意图。
图12为本公开示例性实施例的文本识别装置的架构示意图。
图13为本公开示例性实施例的电子设备的架构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
近年来随着深度学习的再次兴起,对文本检测和识别的研究也成为了一大热点,出现了大量专用于文本检测和识别的方法,且都取得了不错的效果。
具体地,自然场景文字识别是从包含有文字的图像中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母)。它是一项具有极大挑战性的课题,除了图像背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量不固定的字母组成,因此,自然场景文字识别需要从图像中识别长度不固定的序列。目前有两种解决思路,一种是基于自底向上的策略,将识别问题拆分为字符检测、字符识别和字符组合,以逐个进行识别;另一种是基于整体分析的策略,即序列到序列的方法,先将图像编码,然后进行序列解码直接得出整个字符串。
上述第一种方法虽然有效,但是却需要字符级别的标注,亦即,每个字符在输入图像上的位置以及信息都需要标注,这需要耗费大量的人工,第二种方法虽然标注简单,只需转录字符串即可,但是可能存在多识别字符或漏识别字符的异常识别结果。
目前用于执行文本识别的主流技术可包括以下几种:
CenterNet是一种用于通用目标检测的Anchor-free的方法,可视为一种基于回归的方法,所述方法通过设定待预测目标的总体类别,并针对每一种类别,预测目标的中心点,输出各类别对应的中心点得分图(其每个像素点的值在0到1之间,表示这个点是某类物体中心的概率)。此外,考虑到在预测过程中,预测到的中心点与真实的中心点可能会发生偏移,因此还会预测中心点的偏移量(即x轴偏移量、y轴偏移量),并同时预测中心点距离矩形框左边框和上边框的距离,再通过设定阈值在得分图找到物体的可能中心点,然后根据中心点对应的x轴偏移量、y轴偏移量,对预测到的中心点进行校正,并通过中心点结合预测到的宽高得到包含待预测目标的检测框。
另外,注意力(Attention)机制也是当前文本识别技术中常用的技术手段,其可将有限的注意力集中在重点信息上,以快速获得最有效的信息。与 CNN、RNN 相比,注意力机制模型具有更小的复杂度更小以及更少的配置参数,因此,对于算力的要求也就更小;同时,其解决了 RNN 不能并行计算的问题,且无需考虑长距离信息丢失的问题,所以在很多任务中都能取得相当不错的效果。
再者,VAE也是一种重要的文本识别处理模型,其由编码器和解码器两部分组成,其损失函数一般由重构损失和交叉熵损失两部分组成;VAE模型可将输入通过编码器进行编码,然后将编码输入解码器,用于还原输入,在多数情况下,还原出的图像与原图像极为相近,相比于其他的生成式模型,VAE模型的训练更稳定,且运算速度也更快,但是,生成图像的质量往往不如自回归模型和生成对抗网络。
有鉴于此,本公开提出一种全新的文本识别处理技术,可有效结合现有文本识别处理技术中的各主流模型的优点,并可降低模型训练成本,提高模型的识别精度。
以下参照各附图详细描述本公开的各实施例。
图1为本公开示例性实施例的文本识别模型训练方法的流程示意图,如图所示,本实施例主要包括以下步骤:
步骤S102,构建文本识别模型的识别子模型和中心点检测子模型。
可选地,中心点检测子模型可包括Resnet18的主干网络。
可选地,识别子模型可包括图像处理单元、非线性变换单元、双向长短期记忆人工神经网络单元。
步骤S104,根据标注样本、标注样本中各字符对应的各字符位置标注,训练中心点检测子模型,得到训练好的中心点检测子模型。
可选地,标注样本可包括图像样本。
于本实施例中,标注样本中可包含各字符对应的各字符位置标注及各字符内容标注。
具体地,字符位置标注可通过完全包含单个字符的字符框顶点或者中心点的像素标注,以确定字符在标注样本中的位置,字符内容标注可用于标注各字符是什么,例如“我”、“是”等。
可选地,可利用中心点检测子模型,预测标注样本中各字符对应的各中心点位置,获得各字符对应的各中心点预测值,并基于各字符对应的各字符位置标注与各中心点预测值,执行中心点检测子模型的训练任务。
步骤S106,根据从标注样本中获取的各字符对应的各预测字符向量、标注样本中各字符对应的各字符内容标注,获得各字符对应的各标准字符向量。
可选地,可利用包含有编码器的自编码模型,预测由标注样本所生成的各字符图像,获得各字符图像对应的各预测字符向量,并将具有相同字符内容标注的各预测字符向量进行加权平均处理,获得各字符对应的各标准字符向量,据以生成包含有各字符对应的各标准字符向量的字典。
步骤S108,根据训练好的中心点检测子模型、标注样本、各字符对应的各标准字符向量,训练识别子模型,得到训练好的识别子模型。
可选地,可利用训练好的中心点检测子模型和识别子模型,预测标注样本的各字符,获得各字符对应的各预测字符向量,并基于各字符对应的各预测字符向量、各标准字符向量,执行识别子模型的训练任务。
步骤S110,基于训练好的中心点检测子模型和训练好的识别子模型,确定训练好的文本识别模型。
具体地,当中心点检测子模型和识别子模型分别训练完成后,即可获得训练好的文本识别模型。
综上所述,本实施例的文本识别模型训练方法,通过构建文本识别模型的中心点检测子模型和识别子模型,通过利用标注样本的字符位置标注训练中心点检测子模型,再利用标注样本的字符内容标注获得各标准字符向量,并基于训练好的中心点检测子模型、标注样本、各标准字符向量,训练识别子模型,借以获得训练好的文本识别模型。借此,本申请可以提高模型训练效果,以提升文本识别模型的识别正确率。
图2示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例为上述步骤S104的具体实施方案,如图所示,本实施例主要包括以下步骤:
步骤S202,利用中心点检测子模型,预测标注样本中各字符对应的各中心点位置,获得标注样本中各字符对应的各中心点预测值。
可选地,中心点检测子模型可针对标注样本执行多次特征映射处理,获得对应于各特征映射处理的各特征映射结果,并针对各特征映射结果执行串联处理,获得标注样本的特征串联结果,再针对特征串联结果执行等宽卷积处理,获得标注样本的特征卷积结果,且根据特征卷积结果预测标注样本中的各字符对应的各中心点位置,获得标注样本中各字符对应的各中心点预测值。
可选地,中心点检测子模型可通过将前一次特征映射处理的输出,作为后一次特征映射处理的输入,以针对标注样本依次执行各次特征映射处理。
可选地,前一次特征映射处理的输出尺寸可为后一次特征映射处理的输出尺寸的两倍。
示例性地,对于中心点位置检测模型,可以采用如下方式进行训练:
构建中心点检测子模型的主干网络,其可包括由4个区块串联形成的Resnet18网络,其中,每个区块可包括多层卷积层,请配合参考图3,其中,第一个区块(即区块1)输出的特征映射1的大小可为原图(即标注样本)的1/4,第二个区块(即区块2)输出的特征映射2的大小可为原图(即标注样本)的1/8,第三个区块(即区块3)输出的特征映射3的大小可为原图(即标注样本)的1/16,第四个区块(即区块4)输出的特征映射4的大小可为原图(即标注样本)的1/32,每个区块输出的特征映射的数量均为128,将4个区块输出的特征映射1至4全部通过插值的方式将其特征映射大小转换为原图(即标注样本)的1/4大小,并进行串联,可以得到一个通道数量为512的串联特征映射组,然后针对此串联特征映射组执行两次等宽卷积(亦即,保持输入输出的大小一致)处理,输出一个尺寸大小为原图1/4的特征图,其中,特征图的第一个通道即表示标注样本的字符中心点得分图(每个像素值在0-1之间)。字符中心点得分图可以和标注样本具有相同的尺寸大小,也可以是存在对应缩放关系,例如,若输出一个1通道大小为原图1/4的字符中心点得分图,则只需对字符中心点得分图进行4倍放大并进行插值处理,即可以与标注样本中的各像素点一一对应。
步骤S204,根据标注样本中各字符对应的各字符位置标注、各字符对应的各中心点预测值,获得中心点检测子模型的损失函数。
可选地,中心点检测子模型的损失函数可包括focal loss函数。
具体地,可根据所述字符中心点得分图,确定字符的预测中心点位置,并根据预测中心点位置与标注样本中的字符位置标注,获得损失函数(例如,以focal loss作为损失函数)。
步骤S206,判断损失函数是否满足第一预设收敛条件,若是,则进行步骤S208,若否,则返回步骤S202。
可选地,可当损失函数趋于稳定值时,获得损失函数满足第一预设收敛条件的判断结果。
可选地,若损失函数不满足第一预设收敛条件时,返回步骤S202,以重复执行中心点预测的步骤。
步骤S208,获得训练好的中心点检测子模型。
具体地,当步骤S206中判断损失函数满足第一预设收敛条件时,即代表中心点检测子模型的训练完成。
综上所述,相较于现有CenterNet除需预测字符的中心点位置之外,还需预测中心点的偏移量和中心点距离矩形框左边框和上边框的距离,本实施例的中心点检测子模型只需预测每个字符的中心点位置,因此,可以减少模型的预测处理量,从而提高模型的检测效率。
图4示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例主要示出了上述步骤S106的具体实施方案。如图所示,本实施例主要包括以下步骤:
步骤S402,获取标注样本中各字符对应的各字符图像。
可选地,可利用训练好的中心点检测子模型,获取标注样本中各字符对应的各中心点预测值,据以裁剪出标注样本中的各单体字符,以获取各字符对应的各字符图像。
步骤S404,利用训练好的自编码模型,针对各字符图像执行编码处理,获得各字符对应的各预测字符向量。
可选地,可利用训练好的自编码模型,针对各字符图像执行卷积处理,获得各字符对应的各预测字符向量。
步骤S406,根据各字符对应的各预测字符向量、各字符对应的各字符内容标注,针对具有相同字符内容标注的字符的预测字符向量,执行加权平均处理,获得各字符对应的各标准字符向量。
具体而言,由于自编码模型是针对字符图像进行编码以得到预测字符向量,因此,即使是字符内容标注相同的字符,其对应的字符向量也可能不同。举例而言,若标注样本1为“我是谁”,标注样本2为“是这样”。
其中,虽然两个标注样本中都包含了字符“是”,但是由于在标注样本1和标注样本2中,字符“是”在各自的字符图像中所处的位置不同(即字符位置标注不同),以及裁剪得到的字符图像的大小和包含的噪声也可能不同(例如,标注样本1的背景颜色和标注样本2的背景颜色可能不同),这些因素都有可能导致自编码模型对于两个“是”的两个预测字符向量存在轻微的差异,基于此,可根据具有相同字符内容标注(即同一字符)的各预测字符向量对应的各权重,针对各预设字符向量进行加权平均,生成所述字符的标准字符向量。
例如,可将各预测字符向量对应的各权重设置为相同,并进行加和平均;或者,可以设置某些较清晰的标注样本具有较大的权重值,并进行加权平均,从而生成字符的标准字符向量。通过上述技术手段,可以使得字符的标准字符向量能够更为准确的反映出真实的字符,以提高模型的训练效果。
综上所述,本实施例提供的文本识别模型训练方法,可以使得所生成的标准字符向量,能够更准确的反映出真实的字符,借以提高后续文本识别模型的训练效果,并提高文本识别模型的识别正确性。
图5示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例示出了用于训练自编码模型的训练样本的处理技术手段。如图所示,本实施例主要包括以下步骤:
步骤S502,利用训练好的中心点检测子模型,预测标注样本或未标注样本中各字符对应的各中心点位置,获得标注样本或未标注样本中各字符对应的各中心点预测值。
具体地,可利用上述示例性实施例所述的训练方案,获取训练好的中心点检测子模型,并利用上述步骤S202所述的处理手段,获得标注样本或未标注样本中各字符对应的各中心点预测值,在此不予赘述。
可选地,可收集标注样本和未标注样本,以构成中心点检测子模型的训练样本集。
示例性地,用于训练自编码模型的标注样本可占训练样本集的10%,但并不以此为限,可以根据实际需求进行调整,本公开对此不作限制。
步骤S504,根据标注样本或未标注样本中各字符对应的各中心点预测值,获得各字符对应的各字符图像。
具体地,可根据所获取的各字符对应的各中心点预测值,将标注样本或未标注样本中的各单个字符的字符图像依次裁剪下来,获得各字符对应的各字符图像。
步骤S506, 利用各字符对应的各字符图像,训练自编码模型。
可选地,可利用自编码模型针对各字符图像执行卷积和反卷积处理,以获取各字符图像对应的各预测图像,并当输入的字符图像与输出的预测图像的差异满足预设差异范围时,代表自编码模型的训练完成。
综上所述,本实施例通过结合标注样本和未标注样本作为自编码模型的训练样本,可以有效减少模型训练的人工标注成本。
图6示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例示出了上述步骤S506的具体实施方案。如图所示,本实施例主要包括以下步骤:
步骤S602, 利用自编码模型的编码器,根据字符图像执行编码预测,获得字符图像的预测字符向量。
可选地,可基于变分自动编码器(variational,Auto-encoder)的原理,构建自编码模型。
可选地,自编码模型的编码器可包含8层卷积层。
步骤S604,利用自编码模型的解码器针对预测字符向量执行解码预测,以获得预测图像。
可选地,自编码模型的解码器可包括8层反卷积层。
可选地,可以采用多个阶段进行训练,例如,在第一训练阶段,可将字符图像作为输入,以供编码器和解码器依次执行卷积和反卷积处理,获得预测图像,并通过比对字符图像和预测图像的差异进行自编码模型的训练;在第二训练阶段,可针对字符图像随机添加噪声或其他修改,以获取字符图像的调整图像,并将调整图像作为输入,以供编码器和解码器依次执行卷积和反卷积处理,获得预测图像。
步骤S606,根据字符图像和预测图像,确定自编码模型的损失函数。
可选地,自编码模型的损失函数可包括L1损失函数。
具体地,可计算字符图像和预测图像之间的差异,以获取自编码模型的损失函数。
步骤S608,判断损失函数是否满足第二预设收敛条件,若是,则进行步骤S610,若否,则返回步骤S604。
可选地,可当损失函数趋于稳定值时,获得损失函数满足第二预设收敛条件的判断结果。
可选地,若损失函数不满足第二预设收敛条件时,返回步骤S604,以重复执行图像预测的步骤。
步骤S610,移除自编码模型中的解码器,获得训练好的自编码模型。
可选地,可当步骤S608判断损失函数满足第二预设收敛条件时,代表自编码模型的训练已完成,于此条件下,可将自编码模型中的解码器予以移除,以利用训练好的解码器模型中的编码器,针对各字符对应的各字符图像执行编码处理,获得各字符对应的各预测字符向量。
综上所述,本实施例的文本识别模型训练方法,通过采用多个训练阶段,执行自编码模型的训练任务,可以提高模型预测的鲁棒性,并提升模型预测结果的准确性。
图7示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例示出了上述步骤S108的具体实施方案。如图所示,本实施例主要包括以下步骤:
步骤S702,利用训练好的中心点检测子模型和识别子模型,对标注样本执行字符向量的预测,获得标注样本中各字符对应的各预测字符向量。
可选地,识别子模型可包括依序串联的图像处理单元、非线性变换单元、双向长短期记忆人工神经网络(LSTM)单元,其中,可借由图像处理单元执行基础特征提取处理,借由非线性变换单元执行特征增强处理,并借由双向长短期记忆人工神经网络单元执行字符预测处理。
可选地,中心点检测子模型和识别子模型可基于并行方式执行各自的处理任务。
步骤S704,根据标注样本中各字符对应的各预测字符向量、各字符对应的各标准字符向量,获得识别子模型的损失函数。
可选地,识别子模型的损失函数可包括L1损失函数(或称为拉近损失)与1- L1损失函数(或称为推远损失)。
具体地,可通过比对预测字符向量和标准字符向量,以获取识别子模型的损失函数。
于本实施例中,若预测字符向量与标注字符向量对应于同一个字符,则两个输出之间的差异应该较小,则可使用L1损失函数(L1损失函数又称为最小绝对值偏差或者最小绝对值误差,用于将真实值(即标准字符向量)与预测值(即预测字符向量)的绝对差值的总和最小化);若预测字符向量与标注字符向量对应于不同字符,则两个输出之间的差异应该较大,因此,可以使用1-L1损失函数。
步骤S706,判断损失函数是否满足第三预设收敛条件,若是,则进行步骤S708,若否,则返回步骤S702。
可选地,可当损失函数趋于稳定值时(即拉近损失和推远损失均趋于稳定时),获得损失函数满足第三预设收敛条件的判断结果。
可选地,若损失函数不满足第三预设收敛条件时,返回步骤S702,以重复执行字符向量预测的步骤。
步骤S708,获得训练好的识别子模型。
具体地,当步骤S706中判断损失函数满足第三预设收敛条件时,即代表识别子模型的训练完成。
综上所述,本实施例的文本识别模型训练方法,可基于训练好的中心点检测子模型,继续针对识别子模型执行训练,借由此技术手段,可以进一步提高识别子模型的训练效果。
图8示出了本公开示例性实施例的文本识别模型训练方法的流程示意图。本实施例主要示出了上述步骤S702的具体实施方案。以下将结合图9详细描述本实施例的处理步骤:
步骤S802,利用训练好的中心点检测子模型,预测标注样本中各字符对应的各中心点位置,获得各字符对应的各中心点预测值。
于本实施例中,可利用上述示例性实施例所述的训练方法,获得训练好的中心点检测子模型,并利用上述步骤S202所述的处理手段,获得各字符对应的各中心点预测值(即图9中的中心点得分图)。
步骤S804,利用识别子模型,针对标注样本执行基础特征提取处理,获取包含有标注样本中各字符对应的各基础特征的基础特征组,并基于各字符对应的各中心点预测值与所述,获得包含有标注样本中各字符对应的各第一映射特征的第一映射特征组。
具体地,可利用识别子模型中的图像处理单元(其可包括8层卷积层),针对标注样本执行基础特征的提取处理,获取包含有各字符对应的各基础特征的基础特征组,并基于各字符对应的各中心点预测值与各基础特征(即中心点得分图),将同一字符的中心点预测值和基础特征进行相乘(即逐点相乘),获得包含有标注样本中各字符对应的各第一映射特征的第一映射特征组。
于本实施例中,基础特征与中心点预测值的尺寸大小可设置为相同。
步骤S806,利用识别子模型,针对第一映射特征组执行特征增强处理,获得包含有标注样本中各字符对应的各增强特征的增强特征组,并基于各字符对应的各中心点预测值与增强特征组,获得包含有标注样本中各字符对应的各第二映射特征的第二映射特征组。
具体地,可利用识别子模型中的非线性变换单元(其可采用Resnet18的一个卷积块构成),针对第一映射特征组执行增强处理,获得包含有标注样本中各字符对应的各增强特征的增强特征组,并基于各字符对应的各中心点预测值(即中心点得分图)与各增强特征,将同一字符的中心点预测值和增强特征进行相乘(即逐点相乘),获得包含有标注样本中各字符对应的各第二映射特征的第二映射特征组。
于本实施例中,第二映射特征组可为一个包含了多通道的矩阵,例如,可以是包含了5个通道的100*100的矩阵。
步骤S808,根据各字符对应的各中心点预测值,分割第二映射特征组,获得各字符对应的各第二映射特征,并利用识别子模型,针对各字符对应的各第二映射特征执行字符预测处理,获得各字符对应的各预测字符向量。
可选地,可使用两层双向长短期记忆人工神经(LSTM)网络执行字符预测处理。
可选地,可根据中心点检测子模型输出的各字符对应的各中心点预测值,确定标注样本的字符数量,并据以针对第二映射特征组执行分割处理,以获得各字符对应的各第二映射特征。
具体地,可根据各字符对应的各中心点预测值(即中心点得分图),确定标注样本中各字符对应的各中心点位置(例如,将分值超过0.8的像素点确定为中心点),由于一个字符应当只包含一个中心点,因此,中心点的数量即为字符数量,并可基于字符数量针对第二映射特征组进行等分,从而获得对应所述字符数量的多个第二映射特征。
例如,假设中心点的数量为10,则对于一个100*100的矩阵,可以将其等分为10个部分,即10个100*10的子矩阵;或者10个10*100的子矩阵。每一个子矩阵即对应于一个字符的第二映射特征。
此外,在第二映射特征组为多通道的情况下,可以采用本领域的常用手段将多通道转换为单通道。
再者,可将所获取的各第二映射特征(续前例,即为划分得到的10个100*10的子矩阵;或者10个10*100的子矩阵)作为每个时间步的输入,以供双向长短期记忆人工神经网络单元(即双向LSTM单元)执行各字符的字符向量预测处理,以获得各字符对应的各预测字符向量。
综上所述,本实施例的文本识别模型训练方法,通过将图像处理单元输出的基础特征组、非线性变换单元输出的增强特征组,分别与中心点检测子模型输出的中心点预测结果进行融合,可以提高双向长短期记忆人工神经网络单元所输出的字符向量预测的准确性,借以提高识别子模型的预测效果。
图10示出了本公开示例性实施例的文本识别方法的流程示意图。如图所示,本实施例主要包括以下处理步骤:
步骤S1002,获取待识别文本图像。
于本实施例中,待识别文本图像可包括任意包含有字符信息的图像数据。
步骤S1004,利用训练好的文本识别模型预测待识别文本图像,确定所述待识别文本图像对应的目标文本。
具体地,可利用本公开任一示例性实施例所述的文本识别模型训练方法所训练的文本识别模型执行待识别文本图像的预测处理,以获取待识别文本图像中各目标字符对应的各目标字符向量。
图11示出了本公开示例性实施例的文本识别模型训练装置的架构示意图。如图所示,本实施例的文本识别模型训练装置1100包括:构建模块1102、第一训练模块1104、标准字符向量生成模块1106、第二训练模块1108、确定模块1110。
构建模块1102用于构建文本识别模型的识别子模型和中心点检测子模型。
第一训练模块1104用于根据标注样本、标注样本中各字符对应的各字符位置标注,训练中心点检测子模型,得到训练好的中心点检测子模型。
标准字符向量生成模块1106用于根据从标注样本中获取的各字符对应的各预测字符向量、标注样本中各字符对应的各字符内容标注,获得各字符对应的各标准字符向量。
第二训练模块1108用于根据训练好的中心点检测子模型、标注样本、各字符对应的各标准字符向量,训练识别子模型,得到训练好的识别子模型。
确定模块1110用于基于训练好的中心点检测子模型和训练好的识别子模型,确定训练好的文本识别模型。
可选地,第一训练模块1104还可用于:执行中心点预测步骤,利用中心点检测子模型,预测标注样本中各字符对应的各中心点位置,获得标注样本中各字符对应的各中心点预测值;根据标注样本中各字符对应的各字符位置标注、各字符对应的各中心点预测值,获得中心点检测子模型的损失函数;基于损失函数重复执行中心点预测步骤,直至损失函数满足第一预设收敛条件,以得到训练好的中心点检测子模型。
可选地,第一训练模块1104还可用于:针对标注样本执行特征映射处理,获得各特征映射处理对应的各特征映射结果;针对各特征映射结果执行串联处理,获得标注样本的特征串联结果;针对特征串联结果执行等宽卷积处理,获得标注样本的特征卷积结果;根据特征卷积结果执行中心点位置预测,以获得标注样本中各字符对应的各中心点预测值。
可选地,第一训练模块1104还可用于:将前一次特征映射处理的输出作为后一次特征映射处理的输入,以针对标注样本依次执行特征映射处理;其中,前一次特征映射处理的输出尺寸为后一次特征映射处理的输出尺寸的两倍。
可选地,标准字符向量生成模块1106还可用于:获取标注样本中各字符对应的各字符图像;利用训练好的自编码模型,针对各字符图像执行编码处理,获得各字符对应的各预测字符向量;根据各字符对应的各预测字符向量、各字符对应的各字符内容标注,针对具有相同字符内容标注的字符的预测字符向量,执行加权平均处理,获得各字符对应的各标准字符向量。
可选地,标准字符向量生成模块1106还可用于:利用训练好的中心点检测子模型,预测标注样本或未标注样本中各字符对应的各中心点位置,获得标注样本或未标注样本中各字符对应的各中心点预测值;根据标注样本或未标注样本中各字符对应的各中心点预测值,获得各字符对应的各字符图像;利用各字符对应的各所述字符图像,训练所述自编码模型。
可选地,标准字符向量生成模块1106还可用于:执行图像预测步骤:利用自编码模型的编码器,根据字符图像执行编码预测,获得字符图像对应的预测字符向量;利用自编码模型的解码器对预测字符向量执行解码预测,获得预测图像;根据字符图像和预测图像,确定自编码模型的损失函数;基于损失函数重复执行图像预测步骤,直至损失函数满足第二预设收敛条件,以完成自编码模型的训练。
可选地,第二训练模块1108还可用于:执行字符向量预测步骤:利用训练好的中心点检测子模型和识别子模型,对标注样本执行字符向量的预测,获得标注样本中各字符对应的各预测字符向量;根据标注样本中各字符对应的各预测字符向量、各字符对应的各标准字符向量,获得识别子模型的损失函数;基于损失函数重复执行字符向量预测步骤,直至损失函数满足第三预设收敛条件,以得到训练好的识别子模型。
可选地,第二训练模块1108还可用于:利用训练好的中心点检测子模型,预测标注样本中各字符对应的各中心点位置,获得各字符对应的各中心点预测值;利用识别子模型针对标注样本执行基础特征提取处理,获取包含有标注样本中各字符对应的各基础特征的基础特征组,并基于各字符对应的各中心点预测值与基础特征组,获得包含有标注样本中各字符对应的各第一映射特征的第一映射特征组;利用识别子模型针对第一映射特征组执行特征增强处理,获得包含有标注样本中各字符对应的各增强特征的增强特征组,并基于各字符对应的各中心点预测值与增强特征组,获得包含有标注样本中各字符对应的各第二映射特征的第二映射特征组;根据各字符对应的各中心点预测值,分割第二映射特征组,获得各字符对应的各第二映射特征,并利用识别子模型针对各字符对应的各第二映射特征执行字符预测处理,获得各字符对应的各预测字符向量。
可选地,识别子模型包括依序串联的图像处理单元、非线性变换单元、双向长短期记忆人工神经网络单元,以借由图像处理单元执行基础特征提取处理,借由非线性变换单元执行特征增强处理,并借由双向长短期记忆人工神经网络单元执行字符预测处理。
图12示出了本公开示例性实施例的文本识别装置的架构示意图。如图所示,本实施例的文本识别装置1200主要包括获取模块1202、识别模块1204。
获取模块1202用于获取待识别文本图像。
识别模块1204用于基于文本识别模型,确定待识别文本图像对应的目标文本。
具体地,识别模块1204可利用根据上述示例性实施例所述的文本识别模型训练方法或装置所训练的文本识别模型,针对待识别文本图像执行预测,获取待识别文本图像中各目标字符对应的各目标字符向量。
本公开实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开示例性实施例所述的文本识别模型训练方法,或执行本公开示例性实施例所述的文本识别方法。
本公开示例性实施例提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开示例性实施例的文本识别模型训练方法,或执行根据本公开示例性实施例所述的文本识别方法。
请参考图13,现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图13所示,电子设备1300包括计算单元1301,其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序,来执行各种适当的动作和处理。在RAM 1303中,还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。
电子设备1300中的多个部件连接至I/O接口1305,包括:输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备,输入单元1306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如,在一些实施例中,如上述的语音获取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中,计算单元1301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述的语音获取方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要指出,根据实施的需要,可将本公开实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本公开实施例的目的。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的范围。
综上所述,本公开各实施例提供的文本识别模型训练及文本识别方法、装置、电子设备及存储介质,通过少量的标注样本,即可达到较佳的文本识别模型训练效果,以降低模型训练成本。
再者,本公开所提供的文本识别模型训练通过将识别子模型的预测输出与中心点检测子模型的预测输出执行多次的交互融合,可以提高字符向量预测结果的准确性。
以上实施方式仅用于说明本公开实施例,而并非对本公开实施例的限制,有关技术领域的普通技术人员,在不脱离本公开实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本公开实施例的范畴,本公开实施例的专利保护范围应由权利要求限定。

Claims (14)

1.一种文本识别模型训练方法,包括:
构建文本识别模型的识别子模型和中心点检测子模型;
根据标注样本、所述标注样本中各字符对应的各字符位置标注,训练所述中心点检测子模型,得到训练好的中心点检测子模型;
根据所述标注样本中各所述字符对应的各预测字符向量、所述标注样本中各所述字符对应的各字符内容标注,获得各所述字符对应的各标准字符向量;
根据所述训练好的中心点检测子模型、所述标注样本、各所述字符对应的各所述标准字符向量,训练所述识别子模型,得到训练好的识别子模型;
基于所述训练好的中心点检测子模型和所述训练好的识别子模型,确定训练好的文本识别模型。
2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述根据标注样本、所述标注样本中各字符对应的各字符位置标注,训练所述中心点检测子模型,得到训练好的中心点检测子模型包括:
执行中心点预测步骤:
利用所述中心点检测子模型,预测所述标注样本中各所述字符对应的各中心点位置,获得所述标注样本中各所述字符对应的各中心点预测值;
根据所述标注样本中各所述字符对应的各所述字符位置标注、各所述字符对应的各中心点预测值,获得所述中心点检测子模型的损失函数;
基于所述损失函数重复执行所述中心点预测步骤,直至所述损失函数满足第一预设收敛条件,以得到所述训练好的中心点检测子模型。
3.根据权利要求2所述的文本识别模型训练方法,其特征在于,所述执行中心点预测步骤包括:
针对所述标注样本执行特征映射处理,获得各特征映射处理对应的各特征映射结果;
针对各特征映射结果执行串联处理,获得所述标注样本的特征串联结果;
针对所述特征串联结果执行等宽卷积处理,获得所述标注样本的特征卷积结果;
根据所述特征卷积结果执行中心点位置预测,以获得所述标注样本中各所述字符对应的各所述中心点预测值。
4.根据权利要求3所述的文本识别模型训练方法,其特征在于,所述针对所述标注样本执行特征映射处理包括:
将前一次特征映射处理的输出作为后一次特征映射处理的输入,以针对所述标注样本依次执行特征映射处理;
其中,所述前一次特征映射处理的输出尺寸为所述后一次特征映射处理的输出尺寸的两倍。
5.根据权利要求1或2所述的文本识别模型训练方法,其中,所述根据从标注样本中识别出的各字符对应的各预测字符向量、所述标注样本中各所述字符对应的各字符内容标注,获得各所述字符对应的各标准字符向量包括:
获取所述标注样本中各所述字符对应的各字符图像;
利用训练好的自编码模型,针对各所述字符图像执行编码处理,获得各所述字符对应的各所述预测字符向量;
根据各所述字符对应的各所述预测字符向量、各所述字符对应的各所述字符内容标注,针对具有相同字符内容标注的字符的预测字符向量,执行加权平均处理,获得该字符对应的标准字符向量。
6.根据权利要求5所述的文本识别模型训练方法,其特征在于,通过以下方式训练所述自编码模型:
利用所述训练好的中心点检测子模型,预测所述标注样本或未标注样本中各字符对应的各中心点位置,获得所述标注样本或所述未标注样本中各字符对应的各中心点预测值;
根据所述标注样本或所述未标注样本中各所述字符对应的各所述中心点预测值,获得各字符对应的各字符图像;
利用各所述字符对应的各所述字符图像,训练所述自编码模型。
7.根据权利要求6所述的文本识别模型训练方法,其特征在于,所述利用各所述字符对应的各所述字符图像,训练所述自编码模型包括:
执行图像预测步骤:
利用所述自编码模型的编码器,根据所述字符图像执行编码预测,获得所述字符图像对应的预测字符向量;
利用所述自编码模型的解码器对所述预测字符向量执行解码预测,获得预测图像;
根据所述字符图像和所述预测图像,确定所述自编码模型的损失函数;
基于所述损失函数重复执行所述图像预测步骤,直至所述损失函数满足第二预设收敛条件,以完成所述自编码模型的训练。
8.根据权利要求1-4中任一项所述的文本识别模型训练方法,其特征在于,所述根据所述训练好的中心点检测子模型、所述标注样本、各所述字符对应的各所述标准字符向量,训练所述识别子模型,得到训练好的识别子模型包括:
执行字符向量预测步骤:
利用所述训练好的中心点检测子模型和所述识别子模型,对所述标注样本执行字符向量的预测,获得所述标注样本中各所述字符对应的各所述预测字符向量;
根据所述标注样本中各所述字符对应的各所述预测字符向量、各所述字符对应的各所述标准字符向量,获得所述识别子模型的损失函数;
基于所述损失函数重复执行所述字符向量预测步骤,直至所述损失函数满足第三预设收敛条件,以得到所述训练好的识别子模型。
9.根据权利要求8所述的文本识别模型训练方法,其特征在于,所述执行字符向量预测步骤包括:
利用所述训练好的中心点检测子模型,预测所述标注样本中各所述字符对应的各中心点位置,获得各所述字符对应的各中心点预测值;
利用所述识别子模型,对所述标注样本执行基础特征提取处理,获取包含有所述标注样本中各所述字符对应的各基础特征的基础特征组,并基于各所述字符对应的各所述中心点预测值与所述基础特征组,获得包含有所述标注样本中各所述字符对应的各第一映射特征的第一映射特征组;
利用所述识别子模型,对所述第一映射特征组执行特征增强处理,获得包含有所述标注样本中各所述字符对应的各增强特征的增强特征组,并基于各所述字符对应的各所述中心点预测值与所述增强特征组,获得包含有所述标注样本中各所述字符对应的各第二映射特征的第二映射特征组;
根据各所述字符对应的各所述中心点预测值,分割所述第二映射特征组,获得各所述字符对应的各所述第二映射特征,并利用所述识别子模型,对各所述字符对应的各所述第二映射特征执行字符预测处理,获得各所述字符对应的各所述预测字符向量。
10.一种文本识别方法,包括:
获取待识别文本图像;
基于文本识别模型,确定所述待识别文本图像对应的目标文本,其中,所述文本识别模型是利用如权利要求1-9中任一项所述的方法训练得到的。
11.一种文本识别模型训练装置,包括:
构建模块,用于构建文本识别模型的识别子模型和中心点检测子模型;
第一训练模块,用于根据标注样本、所述标注样本中各字符对应的各字符位置标注,训练所述中心点检测子模型,得到训练好的中心点检测子模型;
标准字符向量生成模块,用于根据所述标注样本中各所述字符对应的各预测字符向量、所述标注样本中各所述字符对应的各字符内容标注,获得各所述字符对应的各标准字符向量;
第二训练模块,用于根据所述训练好的中心点检测子模型、所述标注样本、各所述字符对应的各所述标准字符向量,训练所述识别子模型,得到训练好的识别子模型;
确定模块,用于基于所述训练好的中心点检测子模型和所述训练好的识别子模型,确定训练好的文本识别模型。
12.一种文本识别装置,包括:
获取模块,用于获取待识别文本图像;
识别模块,用于基于文本识别模型,确定所述待识别文本图像对应的目标文本,其中,所述文本识别模型是利用如权利要求1-9中任一项所述的方法或如权利要求11所述的装置训练得到的。
13.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的文本识别模型训练方法,或执行根据权利要求10所述的文本识别方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法,或执行根据权利要求10所述的方法。
CN202210000613.XA 2022-01-04 2022-01-04 文本识别模型训练及文本识别方法、装置、电子设备 Active CN114022887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210000613.XA CN114022887B (zh) 2022-01-04 2022-01-04 文本识别模型训练及文本识别方法、装置、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210000613.XA CN114022887B (zh) 2022-01-04 2022-01-04 文本识别模型训练及文本识别方法、装置、电子设备

Publications (2)

Publication Number Publication Date
CN114022887A true CN114022887A (zh) 2022-02-08
CN114022887B CN114022887B (zh) 2022-04-19

Family

ID=80069561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210000613.XA Active CN114022887B (zh) 2022-01-04 2022-01-04 文本识别模型训练及文本识别方法、装置、电子设备

Country Status (1)

Country Link
CN (1) CN114022887B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147474A (zh) * 2022-07-01 2022-10-04 小米汽车科技有限公司 点云标注模型的生成方法、装置、电子设备及存储介质
CN115909354A (zh) * 2022-11-11 2023-04-04 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446895A (zh) * 2016-10-28 2017-02-22 安徽四创电子股份有限公司 一种基于深度卷积神经网络的车牌识别方法
CN109635303A (zh) * 2018-12-19 2019-04-16 中国科学技术大学 特定领域意义改变词的识别方法
US20190272438A1 (en) * 2018-01-30 2019-09-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for detecting text
CN112270325A (zh) * 2020-11-09 2021-01-26 携程旅游网络技术(上海)有限公司 字符验证码识别模型训练方法、识别方法、系统、设备及介质
CN112508003A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 字符识别处理方法和装置
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446895A (zh) * 2016-10-28 2017-02-22 安徽四创电子股份有限公司 一种基于深度卷积神经网络的车牌识别方法
US20190272438A1 (en) * 2018-01-30 2019-09-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for detecting text
CN109635303A (zh) * 2018-12-19 2019-04-16 中国科学技术大学 特定领域意义改变词的识别方法
CN112270325A (zh) * 2020-11-09 2021-01-26 携程旅游网络技术(上海)有限公司 字符验证码识别模型训练方法、识别方法、系统、设备及介质
CN112508003A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 字符识别处理方法和装置
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115147474A (zh) * 2022-07-01 2022-10-04 小米汽车科技有限公司 点云标注模型的生成方法、装置、电子设备及存储介质
CN115909354A (zh) * 2022-11-11 2023-04-04 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Also Published As

Publication number Publication date
CN114022887B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
JP2023541532A (ja) テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN114022887B (zh) 文本识别模型训练及文本识别方法、装置、电子设备
CN113792854A (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
CN113205160B (zh) 模型训练、文本识别方法、装置、电子设备和介质
CN113254654B (zh) 模型训练、文本识别方法、装置、设备和介质
CN113901907A (zh) 图文匹配模型训练方法、图文匹配方法及装置
CN113591566A (zh) 图像识别模型的训练方法、装置、电子设备和存储介质
CN116152833B (zh) 基于图像的表格还原模型的训练方法及表格还原方法
CN113011420A (zh) 字符识别方法、模型训练方法、相关装置及电子设备
CN113570606A (zh) 目标分割的方法、装置及电子设备
CN113657274A (zh) 表格生成方法、装置、电子设备、存储介质及产品
CN113177449A (zh) 人脸识别的方法、装置、计算机设备及存储介质
CN114495102A (zh) 文本识别方法、文本识别网络的训练方法及装置
CN114973229A (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN114022865A (zh) 基于车道线识别模型的图像处理方法、装置、设备和介质
CN113360683A (zh) 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN115565177B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN114549904B (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品
CN113963358B (zh) 文本识别模型训练方法、文本识别方法、装置及电子设备
CN112966140B (zh) 字段识别方法、装置、电子设备、存储介质和程序产品
CN113361522B (zh) 用于确定字符序列的方法、装置和电子设备
CN115019321A (zh) 一种文本识别、模型训练方法、装置、设备及存储介质
CN113887535A (zh) 模型训练方法、文本识别方法、装置、设备和介质
CN112558810A (zh) 检测指尖位置的方法、装置、设备和存储介质
CN116778006B (zh) 图片编码器的建模方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant