CN115376137A

CN115376137A - 一种光学字符识别处理、文本识别模型训练方法及装置

Info

Publication number: CN115376137A
Application number: CN202210921816.2A
Authority: CN
Inventors: 徐杨柳; 谢群义; 陈毅; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-22
Anticipated expiration: 2042-08-02
Also published as: CN115376137B

Abstract

本公开提供了一种光学字符识别处理方法、文本识别模型训练方法、装置、设备以及存储介质，涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉等领域，可应用于光学字符识别等场景。具体实现方案为：获取文本样本。其中，文本样本中包括文本图像和文本像素信息。分割文本图像中的前景和背景，得到与文本图像中文本相对应的前景图像。基于前景图像和文本像素信息，进行OCR处理。本公开通过对文本图像进行图像分割以得到文本对应的前景图像，并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别，可以有效区分相似的形近字，使得OCR识别的结果更加准确。

Description

一种光学字符识别处理、文本识别模型训练方法及装置

技术领域

本公开涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉等领域，可应用于光学字符识别等场景。

背景技术

光学字符识别(optical character recognition，OCR)指通过电子设备将图像上的文字翻译成计算机文字的过程。在实际应用时，往往需要经过文本检测(textdetection)、基于文本行或文本块的文字识别(text recognition)、基于语义或先验知识的后处理等过程。

目前，基于文本行或文本块的文字识别作为整个OCR流程中十分关键的一环。在处理一些版式比较固定的情形下，例如发票、报告单等，文本检测过程可以使用不算多的训练样本，就可以很好的完成文本检测任务。对于文字识别提取到的信息，对实际使用至关重要，准确的文字识别可以大大减轻后续后处理的负担。

发明内容

本公开提供了一种光学字符识别处理方法、文本识别模型训练方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种光学字符识别处理方法，方法包括：获取文本样本。其中，文本样本中包括文本图像和文本像素信息。分割文本图像中的前景和背景，得到与文本图像中文本相对应的前景图像。基于前景图像和文本像素信息，进行OCR处理。本公开通过对文本图像进行图像分割以得到文本对应的前景图像，并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别，可以有效区分相似的形近字，使得OCR识别的结果更加准确。

根据本公开的第二方面，提供了一种文本识别模型训练方法，包括：获取文本样本，文本样本中包括文本图像和文本像素信息。通过文本预测模型的分割网络对文本图像的前景和背景进行图像分割，得到与文本图像中文本相对应的前景图像。利用前景图像和文本像素信息，对分割网络进行训练。基于训练完成的文本预测模型，确定文本识别模型。本公开利用了文本像素信息对模型进行训练，使得模型可以更好的学习到文字之间的细微差别。从而使得训练好的文本识别模型可以有效区分相似的形近字，保证了识别结果更为准确。

根据本公开的第三方面，提供了一种光学字符识别处理装置，包括：获取模块，用于获取文本样本，文本样本中包括文本图像和文本像素信息；分割模块，用于分割文本图像中的前景和背景，得到与文本图像中文本相对应的前景图像；处理模块，用于基于前景图像和文本像素信息，进行OCR处理。本公开通过对文本图像进行图像分割以得到文本对应的前景图像，并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别，可以有效区分相似的形近字，使得OCR识别的结果更加准确。

根据本公开的第四方面，提供了一种文本识别模型训练装置，包括：获取模块，用于获取文本样本，文本样本中包括文本图像和文本像素信息；分割模块，用于通过文本预测模型的分割网络对文本图像的前景和背景进行图像分割，得到与文本图像中文本相对应的前景图像；训练模块，用于利用前景图像和文本像素信息，对分割网络进行训练；训练模块还用于，基于训练完成的文本预测模型，确定文本识别模型。本公开利用了文本像素信息对模型进行训练，使得模型可以更好的学习到文字之间的细微差别。从而使得训练好的文本识别模型可以有效区分相似的形近字，保证了识别结果更为准确。

根据本公开的第五方面，提供了一种光学字符识别处理设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述第一方面中的任意一项方法。

根据本公开的第六方面，提供了一种文本识别模型训练设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述第二方面中的任意一项方法。

根据本公开的第七方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述第一方面或第二方面中的任意一项方法。

根据本公开的第八方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述第一方面或第二方面中的任意一项方法。

本公开提供的一种光学字符识别处理方法、文本识别模型训练方法、装置、设备以及存储介质，通过对文本图像进行图像分割以得到文本对应的前景图像，并结合前景图像和文本像素信息对模型进行训练，以使得训练好的模型可以进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别，可以有效区分相似的形近字，使得OCR识别的结果更加准确。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例的一种光学字符识别处理方法流程图；

图2a是本公开实施例的一种人造样本示意图；

图2b是本公开实施例的一种人造样本文本位置信息示意图；

图2c是本公开实施例的一种人造样本文本像素信息示意图；

图3是本公开实施例的一种文本识别模型训练方法流程图；

图4是本公开实施例的一种文本预测模型结构示意图；

图5是本公开实施例的另一种文本识别模型训练方法流程图；

图6是本公开实施例的又一种文本识别模型训练方法流程图；

图7是本公开实施例的一种文本识别模型训练过程示意图；

图8是本公开实施例的一种文本样本生成过程示意图；

图9是本公开实施例的一种光学字符识别处理装置示意图；

图10是本公开实施例的一种文本识别模型训练装置示意图；

图11是本公开实施例的一种光学字符识别处理设备、一种文本识别模型训练设备示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开主要应用的场景，例如可以是任意一种文本识别的场景。可以理解，文本识别也可称为文字识别。在该场景下，操作人员可以使用终端设备对具有文本的图像进行文本识别。例如，可以对预先已经存在的文本图像进行文本识别，又或者是利用终端进行扫描或拍照，以获得文本图像。再对文本图像进行文本识别。

然而，当前的文字识别效果通常无法令人满意。在学术界或是工业界中，“如何提高文本识别的效果”是一个经久不衰的话题。

文本识别与其它图像识别存在一个显著的不同点，就是在文本识别领域可以获得几乎无限数量的人造样本。并且人造样本与实际场景十分相似。因此，可以依靠人造样本来提升文本识别的准确率。尤其在一些比较缺乏真实样本的场景下，可以大大提升文本识别模型的准确率。相应的，文本识别模型的能力则几乎完完全全的依赖于人造样本。

在一些相关技术中，例如采用基于注意力(attention)机制的方案，对短文本进行文本识别的识别结果会比较准确，可以通过利用上下文之间的关联性。但是，此类方案在长文本上容易出现注意力偏移的问题。

在另一些相关技术中，例如可以采用基于神经网络的时序类分类(connectionisttemporal classification，CTC)的方案。此类方案可以并行执行，预测速度更快，能够适应长文本。但是对于上下文信息的利用能力比较薄弱。

上述多种相关技术，在进行文本识别时，只需要带有文本的图像即可。无需任何额外的位置信息辅助，因此在处理文本识别这一问题上可以一步到位，并很快占据了市场主导。

目前，为了提升文本识别模型(或称文本识别网络)的准确性，在一些方案中不乏在训练阶段利用文本位置信息进行辅助训练。由于大量真实的文本图像在实际场景中难以获取，因此，文本识别模型对人造样本存在较大的依赖。在生成人造样本时，获取位置信息可以看作是“顺便”操作，无需较高成本的人工标注。并且可以与基于attention的方案较好的耦合。利用文字的位置信息能够很大程度缓解注意力偏移的问题，并提升文本识别网络的效果。

然而，虽然使用人造样本的位置信息对文本识别网络进行改善，以提升模型识别效果的方式，被业界广泛接受。但实际上目前对人造样本的信息利用仍然是不充分的。在一些情况下，文本识别模型并不是在确定文字的大致位置上存在障碍，二三对文字内部细节的把握能力不完善。而这一问题，在上述提到的不同相关技术中均存在。对于中文的文本识别尤为明显。因为中文存在许多形近字，例如“余”和“佘”，以及对于一些人名、公司名等许多中文字，其上下文没有明显规律可寻。因此，无法根据语义信息对形近字的含义进行推断。

在又一些相关技术中，同样针对文字细节信息进行了设计，例如通过将中文字拆成笔画序列，然后通过attention预测这些笔画。再将笔画组合成文字。但是该方案耗时较长，且需要更繁琐的后处理将笔画组合成文字。同时，该方案对笔画拆分仅针对汉字进行了适配，应用到其它文字时则需要重新设计适配的拆分方式。

因此，本公开提供了一种光学字符识别处理方法，通过对文本图像进行图像分割以得到文本对应的前景图像，并利用前景图像和文本像素信息进行OCR处理，使得OCR识别的结果更加准确。

接下来将结合附图对本公开进行详细阐述。

图1是本公开实施例的一种光学字符识别处理方法流程图。

当然基于图1所示出的场景，本公开还提供了一种光学字符识别处理方法。该方法通常可以应用于网络设备。例如可以是服务器或者服务器集群。又或者可以是在虚拟机上运行的服务器或服务器集群，本公开不作限定。

当然，在另一些例子中，该方法还可以应用于终端设备。其中，终端设备例如可以包括但不限于手机、可穿戴设备、平板电脑、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personaldigitalassistant，PDA)、膝上型计算机(laptop)、移动电脑、增强现实(augmentedreality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence，AI)设备和/或车载设备等任意终端设备或便携式终端设备，本公开不作限定。

可以理解，本公开将以运行在网络设备为例进行描述，但并不作为对本公开的限定。

本公开所涉及的方法可以包括以下步骤：

S101，获取文本样本。

在一些例子中，网络设备获取文本样本。其中，文本样本可以包括文本图像和文本像素信息。其中，文本像素信息为文本图像中文本对应的像素信息。

在一些例子中，文本样本可以是人造样本。可以理解，人造样本虽然与真实采集的样本不完全一样。但是其生成的成本较低，并且在生成人造样本时，可以获取到该样本几乎所有的信息。由于当前业内对人造样本的信息使用的并不充分，在大多数情况下仅仅利用了人造样本对文本识别模型进行训练。

正如图2a所示出了一种人造样本示意图，该人造样本中的文本信息例如可以为文本行“鸭血粉丝汤”。而在一些方案中，如图2b所示出的人造样本文本位置信息示意图所示出的，利用了人造样本中文本的位置信息。在一些例子中，文本位置信息可以如图2b中的每个单字的外接矩形框。对于真实样本中的文本位置信息是需要比较高的人力成本才能获取到的。而对于人造样本则可以利用比较低的成本大批量获取。

考虑到目前人造样本的信息利用不够充分，因此在一些例子中，可以如图2c所示出的，利用极低的成本得到文本图像的文本像素信息。该文本像素信息可以表示文本图像中文本所占的像素。对于中文字等一些文字，细微的笔画差异可以使得文字的含义发生根本变化，因此，本公开引入了文本像素信息，有利于准确的进行文本识别，提升识别准确度。

S102，分割文本图像中的前景和背景，得到与文本图像中文本相对应的前景图像。

在一些例子中，网络设备可以将S101中获取到的文本样本所包括的文本图像进行图像分割。例如分割出文本图像的前景和背景。其中，文本图像的前景可以称为前景图像，文本图像的背景可以称为背景图像。可以理解，前景图像中将包含文本图像中的文本。

S103，基于前景图像和文本像素信息，进行OCR处理。

在一些例子中，网络设备可以基于S102中得到的前景图像和S101中获取到的文本样本中的文本像素信息，进行OCR处理。通过结合文本样本中的文本像素信息，提升OCR识别结果的准确性。

本公开通过对文本图像进行图像分割以得到文本对应的前景图像，并结合前景图像和文本像素信息进行OCR处理。利用了文本像素信息从而可以感知到文字的细微差别，可以有效区分相似的形近字，使得OCR识别的结果更加准确。

在一些实施例中，对于S103中基于前景图像和文本像素信息，进行OCR识别处理，还可以包括：利用基于前景图像和文本像素信息训练得到的文本识别模型，进行OCR处理。

在一些例子中，网络设备可以基于S102中得到的前景图像和S101中获取到的文本样本中的文本像素信息，训练得到文本识别模型。以使得训练好的文本识别模型可以更好的完成OCR处理。

可以理解，在文本识别模型的训练过程中，利用了前景图像和文本像素信息，可以更好的学习到文本图像中文本之间的细微差异。使得在利用该训练完成的文本识别模型进行OCR处理时，可以较为准确的识别出文本信息，可以有效区分不同的形近字。

本公开通过利用前景图像和文本像素信息训练得到文本识别模型，使得训练好的文本识别模型可以利用像素信息学习到文本之间的细微差异，并有效区分相似的形近字。进而在利用训练好的文本识别模型进行OCR时，对相似的形近字可以准确识别，保证了OCR识别的准确性。

在一些实施例中，文本识别模型可以采用如下方式基于前景图像和文本像素信息训练得到：利用前景图像和文本像素信息，对文本预测模型的分割网络进行训练，得到文本识别模型。

在一些例子中，文本预测模型可以是训练之前的文本识别模型。文本预测模型可以包括分割网络，该分割网络可以用于对文本图像进行分割，以得到文本图像的前景图像。之后，网络设备可以利用前景图像和文本像素信息，采用预先设置的第一损失函数对分割网络进行训练，调整分割网络中的相应参数。直至分割网络收敛，相应地文本预测模型也因此收敛，并得到训练好的文本识别模型。当然，第一损失函数可以根据实际情况进行选定，本公开不作限定。

在一些例子中，分割网络可以采用现有的任意一种方式实现，例如可以是全卷机网络(fully convolutional networks，FCN)、金字塔场景解析网络(pyramid sceneparsing network，PSPNet)、语义分割网络(Segmentation network，SegNet)等。具体可以根据实际情况选择合适的网络结构，本公开在此不再赘述。

可以理解，虽然目前对于分割网络大部分用于人体、街景等场景的分割，但在本公开中，主要利用分割网络对文本图像中文本进行划分，例如分割出文本图片的前景和背景，即得到前景图像和背景图像。前景图像对应于文本图像中的文本，也可以认为是分割出了文本图像中文本的像素。因此，利用分割网络分割得到的前景图像与文本像素信息对文本预测模型的分割网络进行训练调整。可以提升分割网络对文本图像中文本分割的准确性。

本公开利用分割网络对文本图像进行分割，得到前景图像。之后，通过前景图像和文本像素信息对分割网络进行训练，使得模型训练过程中可以学习到文本像素信息，有利于模型提取到对文本细节把握更准确的特征。

图3是本公开实施例的一种文本识别模型训练方法流程图。如图3所示，本公开还提供了一种文本识别模型的训练方法，该方法通常可以应用在网络设备上。当然，在一些情况下也可以运行在终端设备上，本公开不作限定。本公开以运行在网络设备为例进行描述，该方法可以包括以下步骤：

S301，获取文本样本。

在一些例子中，网络设备获取文本样本，其中，文本样本中包括文本图像和文本像素信息。

S302，通过文本预测模型的分割网络对文本图像的前景和背景进行图像分割，得到与文本图像中文本相对应的前景图像。

在一些例子中，网络设备通过文本预测模型的分割网络，对文本图像的前景和背景进行图像分割，从而可以前景图像。其中，该前景图像为与文本图像中的文本相对应的图像。

可以理解S301、S302与S101、S102相类似，具体可以参考S101、S102中的描述，本公开不再赘述。

S303，利用前景图像和文本像素信息，对分割网络进行训练。

在一些例子中，网络设备可以利用S302中得到的前景图像和S301中获取到的文本样本中的文本像素信息，对文本预测模型的分割网络进行训练。

例如可以按照预先设定的第一损失函数对分割网络进行训练，不断调整分割网络中的相应参数。直至文本预测模型训练收敛。

S304，基于训练完成的文本预测模型，确定文本识别模型。

在一些例子中，网络设备可以利用训练完成的文本预测模型，确定出文本识别模型。例如，可以直接将训练完成的文本预测模型作为文本识别模型。

本公开利用了文本像素信息对模型进行训练，使得模型可以更好的学习到文字之间的细微差别。从而使得训练好的文本识别模型可以有效区分相似的形近字，保证了识别结果更为准确。

在一些实施例中，文本预测模型还可以包括识别网络。其中，识别网络和分割网络共同包括深度神经骨干子网络。文本样本还可以包括文本标签信息。在一些例子中，可以利用分割网络和识别网络都是基于深度卷积网络的特点，可以设计令识别网络和分割网络的骨干部分结构一致。也就是说，可以设计识别网络和分割网络共享同一个深度神经骨干子网络。例如图4所示出的，图4是本公开实施例的一种文本预测模型结构示意图。可以看出，文本预测模型400可以包括深度神经骨干子网络401、分割子网络402和识别子网络403。其中，分割子网络402和深度神经骨干子网络401共同构成了文本预测模型的分割网络。以及，识别子网络403和深度神经骨干子网络401共同构成了文本预测模型的识别网络。

可以理解，良好的分割网络和良好的识别网络需要学习的内容，在本质上是相一致的。都是期望可以尽可能排除背景以及各类干扰的影响，从而把握文本信息的具体内容。因此，通过识别网络和分割网络共享同一个深度神经骨干子网络401，对于文本识别任务和图像分割任务都是有帮助的。

基于图4所示出的网络结构，图5是本公开实施例的另一种文本识别模型训练方法流程图，如图5所示，S303中利用前景图像和文本像素信息，对分割网络进行训练，还可以包括以下步骤，可以包括：

S501，对文本图像进行文本识别，得到预测文本信息。

在一些例子中，网络设备可以利用文本预测模型的识别网络对文本图像进行文本识别，得到对应的预测文本信息。

在一些例子中，识别网络例如可以是现有的任意一种方式实现。例如可以是深度残差神经网络(deep residual network，ResNet)、密集连接的卷积网络(denselyconnected convolutional networks，DenseNet)等等。具体可以根据实际情况选择合适的网络结构，本公开在此不再赘述。

S502，利用预测文本信息和文本标签信息对深度神经骨干子网络进行训练；以及，利用前景图像和文本像素信息，对深度神经骨干子网络进行训练。

在一些例子中，网络设备可以利用S501中得到的预测文本信息和文本样本中携带的文本标签，对文本预测模型中的识别网络进行训练，调整识别网络中的相应参数。由于识别网络包括深度神经骨干子网络。因此，也可以认为网络设备利用预测文本信息和文本标签，对深度神经骨干子网络进行训练，调整深度神经骨干子网络中的相应参数。

在另一些例子中，由于识别网络也包括深度神经骨干子网络，因此，网络设备还可以利用前景图像和文本像素信息，对深度神经骨干子网络进行训练，调整深度神经骨干子网络中的相应参数。

可以看出，通过对识别网络和对分割网络分别训练，可以使深度神经骨干子网络同时接受到识别网络和分割网络的训练，即可以同时学习到识别、分割两个方向的知识。

在一些例子中，可以利用预先配置的第二损失函数对识别网络进行训练，调整识别网络中的相应参数，直至识别网络收敛。当然，第二损失函数可以根据实际情况进行选定，本公开不作限定。

本公开通过在识别、分割两个方向同时对深度神经骨干子网络进行学习调整，使得深度神经骨干子网络可以学习到同时学习到识别、分割两个方向的知识，在提升识别结果准确的同时，还可以把握住文字像素的细节，以便对形近字进行区分。

在一些实施例中，S304中基于训练完成的文本预测模型，确定文本识别模型，可以包括：根据训练完成的识别网络，得到文本识别模型。

在一些例子中，网络设备可以直接将训练完成的识别网络作为文本识别模型。

在一些情况下，考虑到在实际文本识别应用中，使用者通常并不关心对文本图像分割出来的前景图像。因此，可以仅将训练完成的识别网络部分，即将识别子网络403和深度神经骨干子网络401作为文本识别模型。由于深度神经骨干子网络401在训练阶段同时接受识别网络和分割网络的训练，因此仅包含识别网络的文本识别模型依然可以很好的把握文本细微差别，准确识别出形近字。同时，由于仅采用识别网络作为文本识别模型，模型更加小巧，便于部署在任意设备上，节约部署空间。

当然，在一些例子中，也可以将训练好的识别网络和分割网络一起作为文本识别模型。则用户可以在进行文本识别的同时，还可以获得文本对应的前景图片，以便用户将前景图片用于其它可能的用途，为使用者提供了便利。

本公开可以仅利用训练好的识别网络作为文本识别模型，从而减小文本识别模型的大小。并且可以在使用文本识别模型时，无需进行不必要的图像分割计算，提高了模型运行效率。

在一些实施例中，图6是本公开实施例的又一种文本识别模型训练方法流程图，如图6所示，获取文本样本还可以包括以下步骤：

S601，根据预先设定的文本，生成文字图像。

在一些例子中，网络设备可以根据预先设定的文本，生成对应的文字图像。可以理解，该文本样本即人造样本。网络设备可以根据预先设定的文本，例如“鸭血粉丝汤”，生成对应的文字图像。该文字图像可以是仅包含文本的图像，例如文字图像为仅包含“鸭血粉丝汤”的图像。

可以理解的是，文字图像与图1中提到的前景图像的区别在于，文字图像是生成样本过程中基于预设文本直接生成的图像。而前景图像是通过对文本图像分割得到的。因此文字图像可以看作是最准确的前景图像。但应当注意，通常实际应用阶段分割得到的前景图像无法达到文字图像的准确度，只能无限接近于文字图像。

显然，文字图像中的文字应当对应于预先设定的文本。

在一些例子中，在生成文字图像的过程中，还可以对文字进行文字扰动，使得文字图像中的文本是经过文字扰动。其中，文字扰动例如可以采用旋转、缩放、颜色变换等方式实现。

S602，基于文字图像确定文本像素信息。

在一些例子中，网络设备可以基于S601中确定的文字图像，确定对应的文本像素信息。例如，记录文字图像中各文字(即预设的文本)对应的像素信息，比如，可以记录文字图像中文字所占像素点的像素值。此时，由于文字图像中只包含文本，因此获取的文本像素信息最准确。以便用于后续训练文本预测模型时，作为像素分隔的标准(也可以认为是像素标签)与分隔得到的前景图片计算相应的损失。

S603，将文字图像与预先设定的背景图像相融合，得到文本图像。

在一些例子中，网络设备可以将S601中生成的文字图像与预先设定的背景图像相同融合，从而得到文本图像。显然，文本图像中将包含背景以及相应的文本。

可以认为文字图像中是不存在背景的，或者背景是透明的。也就是说，文字图像中，除了文字所占像素点存在像素值之外，其它像素点均不具有相应的像素值。

在一些例子中，在将背景图像进行融合的过程中，还可以对背景图像进行图像扰动。其中，图像扰动与文字扰动不同，例如可以采用模糊、高斯噪声、添加摩尔纹、添加印章等方式，本公开不作具体限定。

S604，根据文本像素信息和文本图像，得到文本样本。

在一些例子中，网络设备可以将S602确定的文本像素信息和S603中得到的文本图像作为文本样本。以便后续执行图1所描述的方法。

本公开在生成文本样本过程中，利用较低成本获取到文本像素信息，可以在不产生额外负担的前提下，得到大量人造样本。

在一些实施例中，图7是本公开实施例的一种文本识别模型训练过程示意图。如图7所示出的，本公开还提供了一种文本识别模型训练过程。可以理解，文本识别模型在训练完成前可以称为文本预测模型。文本预测模型可以包括深度神经骨干子网络701、分割子网络702和识别子网络703。其中，深度神经骨干子网络701与深度神经骨干子网络401的结构相同，分割子网络702与分割子网络402的结构相同，识别子网络703与识别子网络403的结构相同。

例如，首先可以将文本样本的文本图像输入深度神经骨干子网络701中进行图像的特征提取，得到图像深度特征。其中，文本样本中可以包括文本图像、文本像素信息和文本标签信息。其中，文本像素信息用于描述文本图像中文本的像素情况，文本标签信息用于表述文本图像对应的文本。

之后，将深度神经骨干子网络701提取的图像深度特征分别输入分割子网络702和识别子网络703中。分割子网络702可以利用深度神经骨干子网络701提取的图像深度特征进一步进行图像分割处理，即识别出文本图像中哪些像素对应前景、哪些像素对应背景。并得到文本图像中前景对应的前景图像。正如图7中示出的，前景图像可以是从文本图像中分割出的具有文本的图像。然后，可以利用前景图像和文本样本中携带的文本像素信息，并结合预先设定的第一损失函数，对深度神经骨干子网络701和分割子网络702进行训练调整。同理，识别子网络703可以利用深度神经骨干子网络701提取的图像深度特征进一步进行文本识别，得到对应的预测文本信息，例如图7中示出的“鸭血粉丝汤”。之后，可以利用预测文本信息和文本样本中携带的文本标签信息，并结合先设定的第二损失函数，对深度神经骨干子网络701和识别子网络703进行训练调整。

显而易见的是，对于深度神经骨干子网络701可以接受到多个不同的训练，深度神经骨干子网络701中得到的图像深度特征可以更有利于对文本像素进行区分，从而把握住文字的细节，有利于对形近字的文本识别。

在一些例子中，当深度神经骨干子网络701、分割子网络702和识别子网络703收敛之后，可以采用训练完成的深度神经骨干子网络701和识别子网络703作为文本识别模型。以用于OCR处理。例如利用文本识别模型识别出其它文本图像中的文本信息。

在一些实施例中，图8是本公开实施例的一种文本样本生成过程示意图。如图8所示，本公开还提供了一种文本样本生成过程。例如，可以包括以下步骤：

S801，文本字体、字号、颜色选取。

在一些例子中，可以根据预先配置的文本，选取对应的文本字体、字号、颜色等样式。可以理解的是，该过程主要是为了用于生成对应的文本。例如，预先配置的文本为“鸭血粉丝汤”，在S801中可以确定需要生成的“鸭血粉丝汤”对应的文字采用哪些字体、使用多大的字号，以及文字为哪些颜色。具体根据实际情况进行配置，本公开不作限定。

可以理解，配置之后可以按照相应的配置生成文字图像。

S802，进行文字扰动。

当经过S801确定了文字的颜色、字体、字号等配置并生成对应的文字图像之后。还可以对文字图像中的文字进行文字扰动，例如旋转、缩放、颜色变换等。

在一些例子中，如图8中将“鸭血粉丝汤”的文字进行了旋转倾斜处理。

S803，将文字图像与背景图像相融合，得到文本图像。

当S802对文字进行扰动之后，或者在S801之后，可以将文字图像与预先设定的背景图像相融合，以得到文本图像a。可以理解，背景图像可以是预先设定的固定背景图像，也可以是根据一些配置参数生成的背景图像，例如可以设定背景颜色、背景图案等参数，具体可以根据实际情况添加或删减相应参数，本公开不作限定。

当然，在一些例子中，在生成文本图像之前，可以基于文字图像，确定出文本对应的文本像素信息。该文本像素信息可以用于描述文字图像中文本的像素情况。例如图8中的图像b。可以理解，图像b仅为较为直观的示意出了文本像素，并不限定文本像素信息为图像形式。

在一些例子中，文本像素信息可以采用0、1的方式记录像素信息，例如1表示像素被占用，0表示像素未被占用。对于文本所占的像素点，则可以用1表示，即图像b中的黑色。而其它像素点可以用0表示，即图像b中无颜色区域。当然，具体0、1的含义可以进行互换，或者采用其它等效的方式区分像素的占用情况，本公开不作限定。对于被占用的像素以及未被占用像素的表现形式，也可以根据实际情况进行任意调整，本公开不作限定。

S804，对文本图像进行图像扰动。

在一些例子中，还可以对S803得到的文本图像进行图像扰动，例如采用模糊、高斯噪声、添加摩尔纹、添加印章等方式对文本图像进行变化。从而可以得到大量不同的文本图像。

在一些例子中，将文本图像与对应文本像素信息，以及将预先设定的文本作为文本标签信息，共同作为一个文本样本。从而可以得到大量的文本样本(即人造样本)。

当然，图8所示过程例如可以采用任意一种生成人造样本的方式，具体可以根据实际情况进行选取，本公开不作限定。

本公开利用人造样本包含丰富完整文字信息的特点，借助分割方法，改善文本识别模型对文字细节的把握，优化文本识别模型的识别效果。在训练时，可以与当前应用广泛的文字识别方法简单融合，在训练完毕后进行预测时，不会产生额外的成本。

基于相同的构思，本公开实施例还提供一种光学字符识别处理的装置、一种文本识别模型训练装置。

可以理解的是，本公开实施例提供的一种光学字符识别处理装置、一种文本识别模型训练装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

作为一示例性实施方式，图9是根据本公开一示例性实施方式中示出的一种光学字符识别处理装置示意图。参阅图9所示，提供了一种光学字符识别处理装置900，该装置900可以实现上述图1至图3中所涉及的任意一种方法。该装置900可以包括：获取模块901，用于获取文本样本，文本样本中包括文本图像和文本像素信息；分割模块902，用于分割文本图像中的前景和背景，得到与文本图像中文本相对应的前景图像；处理模块903，用于基于前景图像和文本像素信息，进行光学字符识别OCR处理。

在一个可能的实施方式中，处理模块903还用于：利用基于前景图像和文本像素信息训练得到的文本识别模型，进行OCR处理。

在一个可能的实施方式中，装置900还包括：预训练模块904，用于利用前景图像和文本像素信息，对文本预测模型的分割网络进行训练，得到文本识别模型。

作为一示例性实施方式，图10是根据本公开一示例性实施方式中示出的一种文本识别模型训练装置示意图。参阅图10所示，提供了一种文本识别模型训练装置1000，该装置1000可以实现上述图4至图8中所涉及的任意一种方法。该装置1000可以包括：获取模块1001，用于获取文本样本，文本样本中包括文本图像和文本像素信息；分割模块1002，用于通过文本预测模型的分割网络对文本图像的前景和背景进行图像分割，得到与文本图像中文本相对应的前景图像；训练模块1003，用于利用前景图像和文本像素信息，对分割网络进行训练；训练模块1003还用于，基于训练完成的文本预测模型，确定文本识别模型。

在一个可能的实施方式中，文本预测模型还包括识别网络，识别网络和分割网络共同包括深度神经骨干子网络；文本样本还包括文本标签信息；训练模块1003还用于：对文本图像进行文本识别，得到预测文本信息；利用预测文本信息和文本标签信息对深度神经骨干子网络进行训练；以及，利用前景图像和文本像素信息，对深度神经骨干子网络进行训练

在一个可能的实施方式中，训练模块1003还用于：根据训练完成的识别网络，得到文本识别模型。

在一个可能的实施方式中，装置1000还包括：样本生成模块1004。样本生成模块1004，用于：根据预先设定的文本，生成文字图像；基于文字图像确定文本像素信息；将文字图像与预先设定的背景图像相融合，得到文本图像；根据文本像素信息和文本图像，得到文本样本。

关于本公开上述图9和图10涉及的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种光学字符识别处理设备、一种文本识别模型训练设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的一种设备1100的示意性框图。该设备1100可以是光学字符识别处理设备，也可以是文本识别模型训练设备。可以理解，该设备1100可以是网络设备或终端设备。该设备1100旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、服务器集群和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如图1至图8所描述的任意一种方法。例如，在一些实施例中，图1至图8所描述的任意一种方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的任意一种方法的一个或多个步骤。备选地，在其它实施例中，计算单元1101可以通过其它任何适当的方式(例如，借助于固件)而被配置为执行上述图1至图8所描述的任意一种方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。当然，在一些例子中，服务器还可以指代服务器集群。

本公开在识别文本图像的文本信息后，可以对获取到的文本信息进行语音播报。从而为不便于进行阅读的用户或空闲时间不足的用户提供获取文本信息的便利。

本公开可以与现有常见识别网络简单融合，在预测时不产生额外负担。依赖人造样本的文字像素信息这一容易获取的资源，获取成本较低。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种光学字符识别处理方法，所述方法包括：

获取文本样本，所述文本样本中包括文本图像和文本像素信息；

分割所述文本图像中的前景和背景，得到与所述文本图像中文本相对应的前景图像；

基于所述前景图像和所述文本像素信息，进行光学字符识别OCR处理。

2.根据权利要求1所述的方法，其中，所述基于所述前景图像和所述文本像素信息，进行光学字符识别OCR处理，包括：

利用基于所述前景图像和所述文本像素信息训练得到的文本识别模型，进行所述OCR处理。

3.根据权利要求2所述的方法，其中，所述文本识别模型采用如下方式基于所述前景图像和所述文本像素信息训练得到：

利用所述前景图像和所述文本像素信息，对文本预测模型的分割网络进行训练，得到所述文本识别模型。

4.一种文本识别模型训练方法，包括：

通过文本预测模型的分割网络对所述文本图像的前景和背景进行图像分割，得到与所述文本图像中文本相对应的前景图像；

利用所述前景图像和所述文本像素信息，对所述分割网络进行训练；

基于训练完成的所述文本预测模型，确定文本识别模型。

5.根据权利要求4所述的方法，其中，所述文本预测模型还包括识别网络，所述识别网络和所述分割网络共同包括深度神经骨干子网络；所述文本样本还包括文本标签信息；

所述利用所述前景图像和所述文本像素信息，对所述分割网络进行训练，包括：

对所述文本图像进行文本识别，得到预测文本信息；

利用所述预测文本信息和所述文本标签信息对所述深度神经骨干子网络进行训练；以及，

利用所述前景图像和所述文本像素信息，对所述深度神经骨干子网络进行训练。

6.根据权利要求5所述的方法，其中，所述基于训练完成的所述文本预测模型，确定文本识别模型，包括：

根据训练完成的所述识别网络，得到所述文本识别模型。

7.根据权利要求4-6中任意一项所述的方法，其中，所述获取文本样本，包括：

根据预先设定的文本，生成文字图像；

基于所述文字图像确定所述文本像素信息；

将所述文字图像与预先设定的背景图像相融合，得到所述文本图像；

根据所述文本像素信息和所述文本图像，得到所述文本样本。

8.一种光学字符识别处理装置，包括：

获取模块，用于获取文本样本，所述文本样本中包括文本图像和文本像素信息；

分割模块，用于分割所述文本图像中的前景和背景，得到与所述文本图像中文本相对应的前景图像；

处理模块，用于基于所述前景图像和所述文本像素信息，进行光学字符识别OCR处理。

9.根据权利要求8所述的装置，其中，所述处理模块还用于：

10.根据权利要求9所述的装置，其中，所述装置还包括：

预训练模块，用于利用所述前景图像和所述文本像素信息，对文本预测模型的分割网络进行训练，得到所述文本识别模型。

11.一种文本识别模型训练装置，包括：

分割模块，用于通过文本预测模型的分割网络对所述文本图像的前景和背景进行图像分割，得到与所述文本图像中文本相对应的前景图像；

训练模块，用于利用所述前景图像和所述文本像素信息，对所述分割网络进行训练；

所述训练模块还用于，基于训练完成的所述文本预测模型，确定文本识别模型。

12.根据权利要求11所述的装置，其中，所述文本预测模型还包括识别网络，所述识别网络和所述分割网络共同包括深度神经骨干子网络；所述文本样本还包括文本标签信息；

所述训练模块还用于：

对所述文本图像进行文本识别，得到预测文本信息；

13.根据权利要求12所述的装置，其中，所述训练模块还用于：

根据训练完成的所述识别网络，得到所述文本识别模型。

14.根据权利要求11-13中任意一项所述的装置，其中，所述装置还包括：样本生成模块；

所述样本生成模块，用于：

根据预先设定的文本，生成文字图像；

基于所述文字图像确定所述文本像素信息；

15.一种光学字符识别处理设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。

16.一种文本识别模型训练设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求4-7中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-3或4-7中任一项所述的方法。

18.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-3或4-7中任一项所述的方法。