CN116189198A

CN116189198A - 文本识别模型训练方法、文本识别方法、装置及存储介质

Info

Publication number: CN116189198A
Application number: CN202310019561.5A
Authority: CN
Inventors: 刘珊珊; 吕鹏原; 乔美娜; 吴亮; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-30
Anticipated expiration: 2043-01-06
Also published as: CN116189198B

Abstract

本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：获取第一训练数据；将第一训练数据输入待训练的目标模型；获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。根据本公开的方案，能够提高文本识别的准确性。

Description

文本识别模型训练方法、文本识别方法、装置及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。

背景技术

近些年来，文字识别技术飞速发展。常见的通用场景，很多开源算法或者论文算法基本可以达到可用状态。然而，对于一些版式差异不同、形态变化较大、应用场景特点明显的多场景多分布输入，给文字识别系统带来了巨大挑战。此外，对于银行、保险公司、车管所、事业单位等具有很多卡证、票据、单据识别需求的单位，需要大量重复人工操作，包括拍照、审核、信息录入、系统比对等，也会出现场景较多、分布不均匀等问题，导致文字识别准确率较低。

发明内容

本公开提供了一种文本识别模型训练方法、文本识别方法、装置及存储介质。

根据本公开的第一方面，提供了一种文本识别模型训练方法，包括：

获取第一训练数据；

将第一训练数据输入待训练的目标模型；

获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；

基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

根据本公开的第二方面，提供了一种文本识别方法，包括：

获取待识别图像；

获取待识别图像的K个图像，K个图像是对待识别图像做行级别划分后得到的，K为不小于1的整数；

将K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本，该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。

根据本公开的第三方面，提供了一种文本识别模型训练装置，包括：

第一获取模块，用于获取第一训练数据；

第一输入模块，用于将第一训练数据输入待训练的目标模型；

第二获取模块，用于获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；

第一训练模块，用于基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

根据本公开的第四方面，提供了一种文本识别装置，包括：

第五获取模块，用于获取待识别图像；

第六获取模块，用于获取待识别图像的K个图像，K个图像是对待识别图像做行级别划分后得到的，K为不小于1的整数；

识别模块，用于将K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本，该文本识别模型通过第一方面提供的文本识别模型训练方法训练获得。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；

与至少一个处理器通信连接的存储器；

存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面提供的文本识别模型训练方法和/或第二方面提供的文本识别方法。

根据本公开的方案，能够提高文本识别的准确性。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的文本识别模型训练方法的流程示意图；

图2是根据本公开实施例的文本识别模型训练的总体架构示意图；

图3是根据本公开实施例的基于掩码特征的多监督文字识别处理示意图；

图4是根据本公开实施例的文本识别模型的结构示意图；

图5是根据本公开实施例的对第一原始图像进行掩码处理的示意图；

图6是根据本公开实施例的文本识别方法的流程示意图；

图7是根据本公开实施例的文本识别模型训练装置的结构示意图；

图8是根据本公开实施例的文本识别装置的结构示意图；

图9是根据本公开实施例的文本识别模型训练的场景示意图；

图10是根据本公开实施例的文本识别的场景示意图；

图11是用来实现本公开实施例的文本识别模型训练方法和/或文本识别方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，文字识别系统通常包含通用检测模型和通用识别模型，通用识别模型分为中英横排识别模型、竖排识别模型。即，针对输入的一张自然场景的图片，按照文字的排列顺序和阅读顺序区分横竖排，使得不同排列的文字都可以识别。但是对于输入图片的场景不同时，一个模型很难同时适应多个场景。同时，对于任意场景，多场景数据融合训练的模型差于单一场景数据训练的模型，导致统一识别模型方案效果较差。

常见的文字识别方案分为连接时序分类(Connectionist TemporalClassification，CTC)识别和注意力(Attention Model)识别。对于系统服务来说，Attention属于串行预测解码，预测速度慢。CTC则能并行解码且预测速度较快。因此，本公开文本识别模型采用CTC解码方式。但是，由于CTC先天缺乏语义信息，在输入分布不均匀、输入版式较多的情况下，识别效果较差甚至无法识别。

在实际应用中，想要提高不同场景、不同分布数据下的模型效果，需要的场景数据比较多。而这类数据通常从收集到标注都耗费了巨大的人力成本和时间成本。

自然场景下的图像会受到光照、噪声、遮挡等情况的影响，导致现有识别方案的识别效果较差。并且，通过扩增数据的方式也难以解决该类问题。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种通用的文字识别方案，通过无监督预训练分支提供强大的特征提取器，为有监督训练提供丰富特征信息，进而提升模型训练效果。另外，采用对特征区域进行随机掩码的方式，利用预测掩码特征与被掩码掉的原始特征之间的差异，以及预测文本与真实文本之间的差异，构建两个损失函数，通过多监督方式进行训练，使得训练得到的文本识别模型能适用于不同场景，提高各场景下文本识别的准确性。

本公开实施例提供了一种文本识别模型训练方法，图1是根据本公开实施例的文本识别模型训练方法的流程示意图，该文本识别模型训练方法可以应用于文本识别模型训练装置。该文本识别模型训练装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该文本识别模型训练方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该文本识别模型训练方法包括：

S101：获取第一训练数据；

S102：将第一训练数据输入待训练的目标模型；

S103：获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；

S104：基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

本公开实施例中，第一训练数据包括带有标注结果的图像文本对(Image-TextPair)数据，具体包括各场景下的图像和图像上的文字。例如，第一训练数据可包括银行票据图像以及该银行票据图像的出票日期。又例如，第一训练数据可包括卡证图像以及该卡证图像的文字信息。再例如，第一训练数据可包括商品图像以及该商品图像的文字信息。以上仅为示例性说明，不作为对第一训练数据的相关信息的限定，只是这里不做穷举。

本公开实施例中，第一训练数据包括的各场景下的图像数据，以行级别图像形式存在。

本公开实施例中，可采用任何可行实现方式来获取第一训练数据。例如，可通过线上服务回流的方式收集第一原始图像。又例如，可从网络上抓取图片作为第一原始图像。获得第一原始图像后，将第一原始图像中的文本行提取出来，得到以文本行为单位的图像。并且，通过检测模型识别出第一原始图像上的文字。将以文本行为单位的图像以及文字，作为第一训练数据。以上仅为示例性说明，不作为对第一训练数据全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，目标模型是采用无监督预训练方式训练得到的。无监督预训练是用来训练不包括输出目标的训练数据，通过学习算法自动学习到有价值的信息。将大量的不带有标注结果的纯图像数据，具体为行级别图像数据输入至待训练模型，可得到一个强大的特征提取器，能为后续文本识别模型的训练提取足够丰富的特征信息。

本公开实施例中，目标模型用于根据第一训练数据，输出预测文本和预测掩码特征。基于此，可以理解的是，本公开实施例中，目标模型可以包括：至少一个数据读取模型，用于读取第一训练数据；至少一个特征提取模型，至少用于基于第一训练数据，得到图像特征和预测掩码特征；至少一个预测模块，至少用于输出预测文本；文本识别模型是通过待训练数据对目标模型进行训练获得的。因此，文本识别模型与目标模型至少具有部分相同的模型结构，区别在于模型参数在经过训练后被更新。

本公开实施例的技术方案，获取第一训练数据；将第一训练数据输入待训练的目标模型；获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。通过采用对特征区域进行掩码的方式，让整个模型可以通过自监督学习掌握上下文信息，使得训练得到的文本识别模型能够自适应遮挡、噪声等场景，进而能提升训练得到的文本识别模型的精度，提高文本识别的准确性。

在一些实施例中，S103，可以包括：

S103a：基于预测掩码特征与被掩码掉的原始特征构建第一损失函数；

S103b：基于预测文本与真实文本构建第二损失函数；

S103c：基于第一损失函数和第二损失函数，训练目标模型。

图2示出了文本识别模型训练的总体架构示意图，如图2所示，分别基于预测掩码特征与被掩码掉的原始特征构建第一损失函数，基于预测文本与真实文本构建第二损失函数。根据第一损失函数和第二损失函数构建总损失函数；基于总损失函数对目标模型进行训练，得到文本识别模型。

在一些实施方式中，预测掩码特征是指预测被随机掩码掉的特征。随机掩码的处理方式包括：用选定的图像或图形，对处理的图像(全部或局部)进行遮挡，来控制图像处理的区域或处理过程。实际应用中，掩码操作可以理解为让这部分被掩码的特征置0。

本公开实施例中，预测文本为目标模型基于随机掩码后的图像输出的预测文本。

本公开实施例中，真实文本为输入目标模型的真实文本。

本公开实施例中，基于预测掩码特征fmask’与被掩码掉的原始特征fmask构建第一损失函数loss1；loss1用于计算预测掩码特征和被掩码掉的原始特征之间的特征差异，loss1可采用平方误差损失(也称为L2 Loss)。

本公开实施例中，基于预测文本f’与真实文本f构建第二损失函数loss2。loss2用于计算预测文本和真实文本之间的差异，loss2采用CTC loss。

具体地，整个模型的总损失函数Loss＝α*loss1+β*loss2。(其中α、β表示权重)。这样，对于掩码掉的特征也能够进行上下文学习，并重建预测出对应内容。特别在遮挡、噪声等场景识别效果提升较为明显。

图3示出了基于掩码特征的多监督文字识别处理示意图。如图3所示，获取一张背景为白色并带有一行文字的图像1，通过检测模型得到该图像1上的文字为"Hello"。将该图像1切分成9个图像，将9个图像输入图3中左侧的第一编码器；同时，对9个图像中的2个图像进行掩码处理，得到图像1的2个经过掩码处理的图像和7个未经掩码处理的图像。将图像1的2个经过掩码处理的图像和7个未经掩码处理的图像，输入图3中右侧的第二编码器。第一编码器负责提取得到图像1的完整图像特征，第二编码负责提取得到图像1的被掩码特征；解码器基于图像1的完整图像特征得到图像1的待识别特征；预测器基于该待识别特征得到预测文本；解码器可基于图像1的被掩码图像特征得到图像1的预测掩码特征。

这里，第一编码器和第二编码器作为整个分支的骨干网络(backbone)，用于获取图像特征。第一编码器和第二编码器可加载预训练参数，通过当前有监督数据进行增强和微调(Fine tune)学习。由解码器负责特征加强，本公开为了提升模型效果，在解码器进行了深度、宽度、头数等加深加强处理，并在预测器(头部(head)模块)中进行预测。

如此，采用对特征区域进行掩码的方式，让整个模型可以通过自监督学习掌握上下文信息，通过大量的数据学习和训练，可以自动预测出被掩码掉的字符。采用多监督方式训练得到文本识别模型，能提高文本识别模型的鲁棒性，有助于实现多场景的文本识别，也有助于提升文本识别的准确性。

在一些实施例中，S101可包括：

S101a：收集第一原始图像；

S101b：识别第一原始图像得到第一原始图像上的真实文本；

S101c：对第一原始图像做行级别划分，得到第一原始图像的M个图像，M为不小于1的整数，第一训练数据至少包括第一原始图像的M个图像和第一原始图像上的真实文本。

这里，第一原始图像的M个图像和第一原始图像的真实文本，可以理解为第一原始图像的图像文本对。

在一些实施方式中，通过线上服务回流的方式获取第一原始图像。在一些实施方式中，可从网络上抓取图片作为第一原始图像。以上仅为示例性说明，不作为对第一原始图像全部可能的获取方式的限定，只是这里不做穷举。

在一些实施方式中，识别第一原始图像得到第一原始图像上的真实文本，包括：通过检测模型识别出第一原始图像上的文字。本公开不对具体如何训练得到检测模型进行限定。

在一些实施方式中，对第一原始图像做行级别划分，得到第一原始图像的M个图像，包括：通过已有文本行检测服务，将第一原始图像中的文本行提取出来，得到以文本行为单位的图像。这里，已有文本行检测服务，包括但不限于高效和准确的场景文本(Efficient and Accuracy Scene Text，EAST)检测算法，可微分二值化(DifferentiableBinarization，DB)检测算法等。

这里，不对真实文本的文本类型进行限定。比如，文本类型可以是中文字符，还可以是外文字符。

如此，通过相对少量的带有标注结果的图像文本对数据进行模型训练，即可得到文本识别模型，能提高模型训练的训练和收敛速度。

在一些实施例中，如图4所示，文本识别模型(或目标模型)包括第一编码器、解码器和预测器。解码器分别与第一解码器和预测器连接。基于此，S103可包括：

S103a：利用第一编码器提取完整图像特征；

S103b：利用解码器对完整图像特征进行解码，得到待识别特征；

S103c：利用预测器对该待识别特征进行预测，得到预测文本。

在一些实施例中，将第一原始图像进行无重叠的切割，得到N个图像块(patch)，将该N个图像块进行卷积操作，可获得N个图像块各自对应的特征。首先，将N个图像块输入目标模型，目标模型的第一编码器，基于N个图像块各自对应的特征提取到第一原始图像的完整图像特征。然后，利用解码器对完整图像特征进行解码，得到待识别特征。最后，通过预测器对待识别特征进行预测，得到预测文本。

如此，通过第一编码器提取的完整图像特征得到预测文本，基于预测文本与真实文本之间的损失训练文本识别模型，有助于提高文本识别模型的训练精度，从而提高文本识别的准确性。

在一些实施例中，如图4所示，文本识别模型(或目标模型)还包括第二编码器，该第二编码器与解码器连接，解码器与预测器连接。基于此，S103还可包括：

S103d：根据掩码率对第二编码器提取的图像特征进行掩码处理；

S103e：利用解码器对掩码处理后的图像特征进行解码，得到预测掩码特征。

这里，S103d和S103e，与S103a和S103b，为并列关系。

本公开实施例中，将第一原始图像进行无重叠的切割，得到N个图像块，将该N个图像块进行卷积操作。

如图5所示，对第一原始图像的N个图像中的S个图像进行掩码处理，该第一训练数据包括第一原始图像的S个经过掩码处理的图像和N-S个未经掩码处理的图像，S为大于0且小于N的整数。

示例性的，在第一训练数据中，有一张背景为白色并带有一行文字的图像1，通过检测模型得到该图像1的文字为Hello。将该图像1切分成9个无重叠的图像。根据掩码率如0.2，对第二编码器提取到的图像块特征进行掩码处理，得到掩码特征。即，真实文本为Hello，被掩码掉的原始特征为“L”，模型输出的预测文本为Hello，预测掩码特征为“L”。通过掩模对部分特征进行随机掩码。利用解码器对掩码处理后的图像特征进行解码，得到预测掩码特征。

如此，利用随机掩码操作，根据随机掩码特征与模型输出的预测掩码特征之间的损失训练得到文本识别模型，有助于提高文本识别模型的训练精度，从而有助于提高文本识别的准确性。

在一些实施例中，该文本识别训练方法，可包括：

S105：获取第二训练数据；

S106：将第二训练数据输入待训练模型；

S107：获取待训练模型基于第二训练数据输出的重构图像；

S108：基于重构图像构建无监督损失函数；

S109：基于无监督损失函数训练待训练模型，得到目标模型。

本公开实施例中，第二训练数据包括各场景下的图像数据。例如，第二训练数据包括票据(增值税发票、购物小票等)的图像数据。又例如，第二训练数据包括卡证(身份证、银行卡、行驶证、驾驶证等)的图像数据。再例如，第二训练数据包括通用(包括街景、网图、商品、文档、随拍等)场景的图像数据。再例如，第二训练数据包括手写、涂鸦等主流文字场景的图像数据。以上仅为示例性说明，不作为对第二训练数据的相关信息的限定，只是这里不做穷举。

本公开实施例中，第二训练数据包括的各场景下的图像数据，以行级别图像形式存在。

本公开实施例中，可采用任何可行实现方式来获取第二训练数据。例如，可通过线上服务回流的方式收集第二原始图像，该收集方式覆盖了真实业务能够遇到的几乎所有场景数据，累计的第二原始图像的数量级可达到亿级别。又例如，可从网络上随机抓取图片作为第二原始图像。获得第二原始图像后，通过已有文本行检测服务，将第二原始图像中的文本行提取出来，得到以文本行为单位的图像。这里，已有文本行检测服务，包括但不限于高效和准确的场景文本(Efficient andAccuracy Scene Text，EAST)检测算法，可微分二值化(Differentiable Binarization，DB)检测算法等。以上仅为示例性说明，不作为对第二训练数据全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，无监督训练是用来训练不包括输出目标的训练数据，通过学习算法自动学习到有价值的信息。待训练模型的输入是大量的不带有标注结果的纯图像数据，具体为行级别图像数据，待训练模型的输出是重构的图像。基于无监督损失函数训练待训练模型，能为待训练模型的图像编码器(也称Image Encoder模块)提供足够丰富的样本信息。通过对多场景多分布的大数据预训练，能获取更多场景更多分布的图像信息；由于无需对第二训练数据进行标注，节约了时间成本和人力成本。

其中，待训练模型用于根据第二训练数据，输出第二训练数据的重构图像。基于此，可以理解的是，本公开实施例中，待训练模型可以包括：至少一个数据读取模型，用于读取第二训练数据；至少一个重构模块，至少用于基于图像特征得到重构图像；至少一个特征对比模型，至少用于对重构图像与原始图像进行比对。目标模型是通过第二训练数据对待训练模型进行训练获得的。因此，目标模型与待训练模型具有相同的模型结构，区别在于模型参数在经过训练后被更新。

如此，先利用第二训练数据对待训练模型进行训练，得到目标模型，再利用第一训练数据对目标模型进行训练，得到文本识别模型，可充分利用目标模型强大的特征提取功能，解决了实际场景文本识别效果难提升的问题，不仅能够提高文本识别模型训练的效率，还能提高文本识别模型训练的精度，进而提升了文本识别的准确性。

在一些实施例中，S105可包括：

S501：收集第二原始图像；

S502：对第二原始图像做行级别划分，得到第二原始图像的N个图像，N为不小于1的整数，第二训练数据包括第二原始图像的N个图像。

本公开实施例中，通过线上服务回流的方式收集第二原始图像。通过线上服务回流的方式可以收集网图、卡证、票据以及手写体文字图像等主流文字场景的图像数据。这样，收集的第二原始图像能覆盖真实业务的几乎所有场景数据，累计图像数量可达到亿级别。针对这些第二原始图像，可通过预先训练好的检测模型，将图像中的文本行图像提取出来，作为无监督预训练的输入。

本公开实施例中，自然场景中文本的多样性和变异性有别于文档中的文字，自然场景中的文本表现出更高的多样性和变异性。例如，场景文本的实例可以使用不同的语言、颜色、字体、大小、方向和形状。此外，场景文本的纵横比和布局可能会有很大差异。实际情况下，背景的复杂性和干扰自然场景的背景几乎是不可预测的。可能存在与文本极其相似的图案(例如，树叶、交通标志、砖块、窗户和栅栏)，或者由异物造成的遮挡，这可能会导致混淆和错误。并且，文本实例可能由于不适当的拍摄距离或角度而具有低分辨率和严重失真，或者由于失焦或抖动而变得模糊，或者由于低光强而产生噪声，或者被高光或阴影破坏。因此，通过对第一原始图像进行行级别的划分，得到N个图像各自对应的行文字图像，能够使得第二训练数据更准确，且能为实现利用多种场景、多种分布的图像数据进行预训练提供有效的数据支撑。

如此，基于多场景下第二原始图像确定第二训练数据，能为模型提供更加丰富的样本数据支持，从而有助于提高文本识别模型训练的精度。

本公开实施例提供了一种文本识别方法，图6是根据本公开实施例的文本识别方法的流程示意图，该文本识别方法可以应用于文本识别装置。该文本识别装置内设置有文本识别模型或能与文本识别模型连接。该文本识别装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。在一些可能的实现方式中，该文本识别方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图6所示，该文本识别方法包括：

S601：获取待识别图像；

S602：获取待识别图像的K个图像，K个图像是对待识别图像做行级别划分后得到的，K为不小于1的整数；

S603：将K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本。

这里，该文本识别模型通过上文所述的文本识别模型训练方法中任一项的方法训练获得的。

本公开实施例中，待识别图像可以为纯图像数据，也可以是带有标注的图像，还可以是图像和图像上的文本。

本公开实施例中，待识别图像可以为存在异物造成的遮挡的图像数据，还可以为背景杂乱的图像数据，还可以为因光线原因导致图片不清晰的图像数据。

这里，获取待识别图像的K个图像，可以通过预先训练好的检测模型来获取，也可以采用其他方式如在线划分方式来获取。本公开不对如何获取对待识别图像进行行划分进行限定。

这里，K的取值可根据精度或速度需求进行设定或调整，也可根据待识别图像的具体情况进行适应性选取。

示例性的，将光线不足情况下拍摄的一张图像，输入文本识别模型。文本识别模型基于图像编码器提取图像特征，基于图像特征识别出该图像上的文字“书吧”和“早7:00-晚11:00”。

示例性的，将一张大背景为店铺且门口招牌被部分遮挡的图片，输入文本识别模型。文本识别模型基于图像编码器提取图像特征，得到预测文本“紫米粥5元一杯”和“小笼包十元三个”。

如此，通过将待识别图像的K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本，提高了文本识别的速度，也提高了文本识别的准确性。

在一些实施例中，S603包括：

S603a：获取基于K个图像得到的完整图像特征；

S603b：获取基于K个图像得到的预测掩码特征；

S603c：基于完整图像特征和预测掩码特征，得到待识别图像的预测文本。

这里，本公开不对预测掩码特征的个数进行限定。S603b可以基于K个图像获取多个预测掩码特征。比如，可以基于K个图像进行多次掩码特征预测，得到多个掩码特征。

这里，基于完整图像特征和预测掩码特征，得到待识别图像的预测文本，包括：基于完整图像特征和多个预测掩码特征，得到待识别特征；根据待识别特征得到预测文本。

如此，基于完整图像特征和预测掩码特征，得到待识别图像的预测文本，能够提高文字识别的准确性。

在一些实施例中，文本识别模型包括第一编码器、第二编码器和解码器，第一编码器和第二编码器分别与解码器连接。

在一些实施例中，S603a包括：获取通过第一编码器基于K个图像提取到的完整图像特征；S603a还包括：根据掩码率对第二编码器提取的图像特征进行掩码处理；利用解码器对掩码处理后的图像特征进行解码，得到预测掩码特征。

这里，掩码率可根据速度或精度需求进行设定或调整。

如此，能够根据需求获取预测掩码特征，进而得到待识别图像的预测文本，能够满足多场景对文本识别不同精度的需求。

本公开实施例提供了一种文本识别模型训练装置，如图7所示，该文本识别模型训练装置可以包括：第一获取模块701，用于获取第一训练数据；第一输入模块702，用于将第一训练数据输入待训练的目标模型；第二获取模块703，用于获取目标模型基于第一训练数据输出的预测文本和预测掩码特征；第一训练模块704，用于基于预测文本、预测掩码特征、真实文本和被掩码掉的原始特征，训练目标模型，得到文本识别模型。

在一些实施例中，该第一训练模块704，包括：第一构建子模块，用于基于预测掩码特征与被掩码掉的原始特征构建第一损失函数；第二构建子模块，用于基于预测文本与真实文本构建第二损失函数；训练子模块，用于基于第一损失函数和第二损失函数，训练目标模型。

在一些实施例中，该第一获取模块701，包括：第一收集子模块，用于收集第一原始图像；识别子模块，用于识别第一原始图像得到第一原始图像上的真实文本；第一划分子模块，用于对第一原始图像做行级别划分，得到第一原始图像的M个图像，M为不小于1的整数，第一训练数据至少包括第一原始图像的M个图像和第一原始图像上的真实文本。

在一些实施例中，目标模型包括第一编码器、解码器和预测器。该第二获取模块703，包括：提取子模块，用于利用第一编码器提取完整图像特征；第一解码子模块，用于利用解码器对完整图像特征进行解码，得到待识别特征；预测子模块，用于利用预测器对待识别特征进行预测，得到预测文本。

在一些实施例中，目标模型还包括第二编码器，第二编码器与解码器连接。该第二获取模块703，包括：处理子模块，用于根据掩码率对第二编码器提取的图像特征进行掩码处理；第二解码子模块，用于利用解码器对掩码处理后的图像特征进行解码，得到预测掩码特征。

在一些实施例中，该文本识别模型训练装置，还包括：第三获取模块705(图7中未示出)，用于获取第二训练数据；第二输入模块706(图7中未示出)，用于将第二训练数据输入待训练模型；第四获取模块707(图7中未示出)，用于获取待训练模型基于第二训练数据输出的重构图像；第二训练模块708(图7中未示出)，用于基于重构图像构建无监督损失函数；基于无监督损失函数训练待训练模型，得到目标模型。

在一些实施例中，该第三获取模块705(图7中未示出)，包括：第二收集子模块，用于收集第二原始图像；第二划分子模块，用于对第二原始图像做行级别划分，得到第二原始图像对应的N个图像，N为不小于1的整数，第二训练数据包括第二原始图像的N个图像。

本领域技术人员应当理解，本公开实施例的文本识别模型训练装置中各处理模块的功能，可参照前述的文本识别模型训练方法的相关描述而理解，本公开实施例的文本识别装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的文本识别模型训练装置，能够提高文本识别模型的精度，进而能提高文本识别的准确性。

本公开实施例提供了一种文本识别装置，如图8所示，该文本识别装置可以包括：第五获取模块801，用于获取待识别图像；第六获取模块802，用于获取待识别图像的K个图像，K个图像是对待识别图像做行级别划分后得到的，K为不小于1的整数；识别模块803，用于将K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本，文本识别模型通过文本识别模型训练方法中任一项的方法训练获得。

在一些实施例中，该识别模块803，包括：第一获取子模块，用于获取基于K个图像得到的完整图像特征；第二获取子模块，用于获取基于K个图像得到的预测掩码特征；第三获取子模块，用于基于完整图像特征和预测掩码特征，得到待识别图像的预测文本。

在一些实施例中，文本识别模型包括第一编码器、第二编码器和解码器，第一编码器和第二编码器分别与解码器连接；其中，第一获取子模块，用于：获取通过第一编码器基于K个图像提取到的完整图像特征；第二获取子模块用于：根据掩码率对第二编码器提取的图像特征进行掩码处理；利用解码器对掩码处理后的图像特征进行解码，得到预测掩码特征。

本领域技术人员应当理解，本公开实施例的文本识别装置中各处理模块的功能，可参照前述的文本识别方法的相关描述而理解，本公开实施例的文本识别装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的文本识别装置，能够提高文本识别的准确性。

本公开实施例提供了一种文本识别模型训练的场景示意图，如图9所示。

如前所述的，本公开实施例提供的文本识别模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

获取第一训练数据；

将第一训练数据输入待训练的目标模型；

其中，第一训练数据可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图9所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图9的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种文本识别的场景示意图，如图10所示。

如前所述的，本公开实施例提供的文本识别方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

具体地，电子设备可具体执行以下操作：

获取待识别图像；

将K个图像输入文本识别模型，获得文本识别模型根据K个图像输出的待识别图像的预测文本，文本识别模型通过文本识别模型训练方法中任一项的方法训练获得。

其中，待识别图像和待识别图像所包括的K个图像，以及第二标签可以从数据源获取。数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，数据源与用户终端可以是同一设备。

应理解，图10所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系，以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(Random Access Memory，RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)，以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如文本识别模型训练方法/文本识别方法。例如，在一些实施例中，文本识别模型训练方法/文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的文本识别模型训练方法/文本识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别模型训练方法/文本识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的，或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备，或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈，或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入，或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)，或者包括中间件部件的计算系统(例如，应用服务器)，或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)，或者包括这种后台部件、中间件部件，或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别模型训练方法，包括：

获取第一训练数据；

将所述第一训练数据输入待训练的目标模型；

获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征；

基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，得到文本识别模型。

2.根据权利要求1所述的方法，其中，所述基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，包括：

基于所述预测掩码特征与所述被掩码掉的原始特征构建第一损失函数；

基于所述预测文本与所述真实文本构建第二损失函数；

基于所述第一损失函数和所述第二损失函数，训练所述目标模型。

3.根据权利要求1所述的方法，其中，所述获取第一训练数据，包括：

收集第一原始图像；

识别所述第一原始图像得到所述第一原始图像上的真实文本；

对所述第一原始图像做行级别划分，得到所述第一原始图像的M个图像，M为不小于1的整数，所述第一训练数据至少包括所述第一原始图像的M个图像和所述第一原始图像上的真实文本。

4.根据权利要求1所述的方法，其中，所述目标模型包括第一编码器、解码器和预测器，其中，获取所述目标模型基于所述第一训练数据输出的预测文本，包括：

利用所述第一编码器提取完整图像特征；

利用所述解码器对所述完整图像特征进行解码，得到待识别特征；

利用所述预测器对所述待识别特征进行预测，得到所述预测文本。

5.根据权利要求4所述的方法，其中，所述目标模型还包括第二编码器，所述第二编码器与所述解码器连接，其中，获取所述目标模型基于所述第一训练数据输出的预测掩码特征，包括：

根据掩码率对所述第二编码器提取的图像特征进行掩码处理；

利用所述解码器对掩码处理后的图像特征进行解码，得到所述预测掩码特征。

6.根据权利要求1至5任一项所述的方法，还包括：

获取第二训练数据；

将所述第二训练数据输入待训练模型；

获取所述待训练模型基于所述第二训练数据输出的重构图像；

基于所述重构图像构建无监督损失函数；

基于所述无监督损失函数训练所述待训练模型，得到所述目标模型。

7.根据权利要求6所述的方法，其中，所述获取第二训练数据，包括：

收集第二原始图像；

对所述第二原始图像做行级别划分，得到所述第二原始图像的N个图像，N为不小于1的整数，所述第二训练数据包括所述第二原始图像的N个图像。

8.一种文本识别方法，包括：

获取待识别图像；

获取所述待识别图像的K个图像，所述K个图像是对所述待识别图像做行级别划分后得到的，K为不小于1的整数；

将所述K个图像输入文本识别模型，获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本，所述文本识别模型通过权利要求1至7中任一项所述的方法训练获得。

9.根据权利要求8所述的方法，其中，所述获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本，包括：

获取基于所述K个图像得到的完整图像特征；

获取基于所述K个图像得到的预测掩码特征；

基于所述完整图像特征和所述预测掩码特征，得到所述待识别图像的所述预测文本。

10.根据权利要求9所述的方法，其中，所述文本识别模型包括第一编码器、第二编码器和解码器，所述第一编码器和所述第二编码器分别与所述解码器连接；其中，

所述获取基于所述K个图像得到的完整图像特征，包括：

获取通过所述第一编码器基于所述K个图像提取到的完整图像特征；

所述获取基于所述K个图像得到的预测掩码特征，包括：

利用所述第二解码器对掩码处理后的图像特征进行解码，得到所述预测掩码特征。

11.一种文本识别模型训练装置，包括：

第一获取模块，用于获取第一训练数据；

第一输入模块，用于将所述第一训练数据输入待训练的目标模型；

第二获取模块，用于获取所述目标模型基于所述第一训练数据输出的预测文本和预测掩码特征；

第一训练模块，用于基于所述预测文本、所述预测掩码特征、真实文本和被掩码掉的原始特征，训练所述目标模型，得到文本识别模型。

12.根据权利要求11所述的装置，其中，所述第一训练模块，包括：

第一构建子模块，用于基于所述预测掩码特征与所述被掩码掉的原始特征构建第一损失函数；

第二构建子模块，用于基于所述预测文本与所述真实文本构建第二损失函数；

训练子模块，用于基于所述第一损失函数和所述第二损失函数，训练所述目标模型。

13.根据权利要求11所述的装置，其中，所述第一获取模块，还包括：

第一收集子模块，用于收集第一原始图像；

识别子模块，用于识别所述第一原始图像得到所述第一原始图像上的真实文本；

第一划分子模块，用于对所述第一原始图像做行级别划分，得到所述第一原始图像的M个图像，M为不小于1的整数，所述第一训练数据至少包括所述第一原始图像的M个图像和所述第一原始图像上的真实文本。

14.根据权利要求11所述的装置，其中，所述目标模型包括第一编码器、解码器和预测器，所述第二获取模块，包括：

提取子模块，用于利用所述第一编码器提取完整图像特征；

第一解码子模块，用于利用所述解码器对所述完整图像特征进行解码，得到待识别特征；

预测子模块，用于利用所述预测器对所述待识别特征进行预测，得到所述预测文本。

15.根据权利要求14所述的装置，其中，所述目标模型还包括第二编码器，所述第二编码器与所述解码器连接，所述第二获取模块，包括：

处理子模块，用于根据掩码率对所述第二编码器提取的图像特征进行掩码处理；

第二解码子模块，用于利用所述解码器对掩码处理后的图像特征进行解码，得到所述预测掩码特征。

16.根据权利要求11至15任一项所述的装置，还包括：

第三获取模块，用于获取第二训练数据；

第二输入模块，用于将所述第二训练数据输入待训练模型；

第四获取模块，用于获取所述待训练模型基于所述第二训练数据输出的重构图像；

第二训练模块，用于基于所述重构图像构建无监督损失函数；基于所述无监督损失函数训练所述待训练模型，得到所述目标模型。

17.根据权利要求16所述的装置，其中，所述第三获取模块，包括：

第二收集子模块，用于收集第二原始图像；

第二划分子模块，用于对所述第二原始图像做行级别划分，得到所述第二原始图像的N个图像，N为不小于1的整数，所述第二训练数据包括所述第二原始图像的N个图像。

18.一种文本识别装置，包括：

第五获取模块，用于获取待识别图像；

第六获取模块，用于获取所述待识别图像的K个图像，所述K个图像是对所述待识别图像做行级别划分后得到的，K为不小于1的整数；

识别模块，用于将所述K个图像输入文本识别模型，获得所述文本识别模型根据所述K个图像输出的所述待识别图像的预测文本，所述文本识别模型通过权利要求1至7中任一项所述的方法训练获得。

19.根据权利要求18所述的装置，其中，所述识别模块，包括：

第一获取子模块，用于获取基于所述K个图像得到的完整图像特征；

第二获取子模块，用于获取基于所述K个图像得到的预测掩码特征；

第三获取子模块，用于基于所述完整图像特征和所述预测掩码特征，得到所述待识别图像的所述预测文本。

20.根据权利要求19所述的装置，其中，所述文本识别模型包括第一编码器、第二编码器和解码器，所述第一编码器和所述第二编码器分别与所述解码器连接；其中，

所述第一获取子模块，用于：

所述第二获取子模块，用于：

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-10中任一项所述的方法。