CN114973266A

CN114973266A - 文本识别方法、装置、存储介质及电子设备

Info

Publication number: CN114973266A
Application number: CN202210615301.XA
Authority: CN
Inventors: 王彦君
Original assignee: Beijing Dingshixing Education Consulting Co ltd
Current assignee: Beijing Dingshixing Education Consulting Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-30

Abstract

本公开涉及一种文本识别方法、装置、存储介质及电子设备，所述方法包括：获取待识别图像；将所述待识别图像输入预先训练的文本识别模型，以获取所述文本识别模型输出的目标文本；其中，所述文本识别模型通过以下方式训练得到：获取多个样本图像；针对每个所述样本图像，对所述样本图像进行图像处理，得到目标样本图像，并根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型。也就是说，本公开在获取多个样本图像后，可以先对每个样本图像进行图像处理，得到目标样本图像，该目标样本图像更逼真、样式更多样，这样，根据多个目标样本图像训练得到的文本识别模型的准确率更高。

Description

文本识别方法、装置、存储介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种文本识别方法、装置、存储介质及电子设备。

背景技术

在文本识别过程中，文字背景颜色和前景颜色多种多样，除常规白纸黑字外，还有大量丰富的颜色，为了书籍等的整体美观，文字底部常有非完全覆盖式色块，对文字识别造成干扰，另外，手持文档或者翻页等形式，还会造成文字扭曲，极大影响文字识别的准确率。

相关技术中，通过预先训练的文本识别模型对图像中的文本进行识别，但是，在训练文本识别模型时需要大量的样本图像，基于此，如何获取大量逼真且样式多样的样本图像成为亟待解决的问题。

发明内容

为了解决上述问题，本公开提供一种文本识别方法、装置、存储介质及电子设备。

第一方面，本公开提供一种文本识别方法，所述方法包括：

获取待识别图像；

将所述待识别图像输入预先训练的文本识别模型，以获取所述文本识别模型输出的目标文本；

其中，所述文本识别模型通过以下方式训练得到：

获取多个样本图像；

针对每个所述样本图像，对所述样本图像进行图像处理，得到目标样本图像，并根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型。

可选地，所述图像处理包括以下一个或多个：

为所述样本图像添加背景图像；

调节所述样本图像的亮度和/或对比度；

对所述样本图像进行反色增强处理；

在所述样本图像的字符的底部添加色块；

对所述样本图像的字符进行扭曲增强处理。

可选地，所述为所述样本图像添加背景图像包括：

获取预设背景图像；

将所述样本图像与所述预设背景图像进行融合处理。

可选地，所述预设背景图像通过以下方式预先确定：

确定所述样本图像的图像尺寸；

根据所述图像尺寸，获取初始二维数组图像；

针对所述初始二维数组图像中的每个像素点，根据所述像素点的像素值，通过高斯分布计算所述像素点的目标像素值；

根据多个所述目标像素值，确定所述预设背景图像。

可选地，所述调节所述样本图像的亮度和/或对比度包括：

获取预设调节比例；

按照所述预设调节比例，调节所述样本图像的亮度和/或对比度。

可选地，所述对所述样本图像进行反色增强处理包括：

确定所述样本图像在每个颜色通道的最大像素值；

针对每个所述颜色通道，根据所述最大像素值和预设像素阈值，随机确定所述颜色通道对应的反色阈值；

针对所述样本图像的每个像素点，根据所述像素点的像素值和所述反色阈值，更新所述像素点的像素值。

可选地，所述根据所述像素点的像素值和所述反色阈值，更新所述像素点的像素值包括：

确定所述像素点的像素值与所述反色阈值之间的像素差值；

根据所述像素差值更新所述像素点的像素值。

可选地，所述在所述样本图像的字符的底部添加色块包括：

根据所述样本图像的图像尺寸，获取全透明的掩码图像；

按照预设尺寸和预设形状，在所述掩码图像中绘制目标色块，得到目标掩码图像；

将所述样本图像与所述目标掩码图像进行重叠处理。

可选地，所述按照预设尺寸和预设形状，在所述掩码图像中绘制目标色块，得到目标掩码图像包括：

在所述掩码图像中随机确定预设数量的基准点；

针对每个所述基准点，以所述基准点为中心，按照所述预设尺寸和所述预设形状，在所述掩码图像中绘制所述目标色块，得到所述目标掩码图像。

可选地，所述对所述样本图像的字符进行扭曲增强处理包括：

根据所述样本图像的图像尺寸，确定多个源基准点；

对多个所述源基准点的位置进行随机调整，得到每个所述源基准点对应的目标基准点；

根据所述源基准点的位置和所述目标基准点的位置，确定采样矩阵；

针对所述样本图像的每个像素点，根据所述采样矩阵确定所述像素点的目标位置，并将所述目标位置作为所述像素点的新位置。

可选地，所述根据所述源基准点的位置和所述目标基准点的位置，确定采样矩阵包括：

根据所述源基准点的位置和所述目标基准点的位置，确定基准点映射关系；

根据所述基准点映射关系，确定采样权重；

根据所述采样权重，确定所述采样矩阵。

可选地，所述获取多个样本图像包括：

获取预设文本序列；

随机初始化所述预设文本序列中的字符颜色，得到多个目标文本序列；

根据所述预设文本序列的尺寸，随机获取前景图像；

针对每个所述目标文本序列，按照所述目标文本序列中每个字符的位置，将所述目标文本序列与所述前景图像进行融合，得到所述样本图像。

可选地，所述根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型包括：

循环执行模型训练步骤，直至根据样本文本和真值文本确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为所述文本识别模型；所述样本文本为所述目标样本图像输入训练后的目标神经网络模型后输出的文本；

所述模型训练步骤包括：

将所述目标样本图像输入所述目标神经网络模型，输出每个所述目标样本图像对应的样本文本；

在根据所述样本文本和所述真值文本确定所述目标神经网络模型不满足所述预设停止迭代条件的情况下，根据所述样本文本和所述真值文本确定目标损失值，根据所述目标损失值更新所述目标神经网络模型的参数，得到训练后的目标神经网络模型，将训练后的目标神经网络模型作为新的目标神经网络模型，并对所述目标样本图像进行所述图像处理，将图像处理后的目标样本图像作为新的目标样本图像。

第二方面，本公开提供一种文本识别装置，所述装置包括：

图像获取模块，用于获取待识别图像；

文本获取模块，用于将所述待识别图像输入预先训练的文本识别模型，以获取所述文本识别模型输出的目标文本；

其中，所述文本识别模型通过以下方式训练得到：

获取多个样本图像；

可选地，所述模型训练模块，还用于：

为所述样本图像添加背景图像；

调节所述样本图像的亮度和/或对比度；

对所述样本图像进行反色增强处理；

在所述样本图像的字符的底部添加色块；

对所述样本图像的字符进行扭曲增强处理。

可选地，所述模型训练模块，还用于：

获取预设背景图像；

将所述样本图像与所述预设背景图像进行融合处理。

可选地，所述模型训练模块，还用于：

确定所述样本图像的图像尺寸；

根据所述图像尺寸，获取初始二维数组图像；

根据多个所述目标像素值，确定所述预设背景图像。

可选地，所述模型训练模块，还用于：

获取预设调节比例；

可选地，所述模型训练模块，还用于：

确定所述样本图像在每个颜色通道的最大像素值；

可选地，所述模型训练模块，还用于：

确定所述像素点的像素值与所述反色阈值之间的像素差值；

根据所述像素差值更新所述像素点的像素值。

可选地，所述模型训练模块，还用于：

根据所述样本图像的图像尺寸，获取全透明的掩码图像；

将所述样本图像与所述目标掩码图像进行重叠处理。

可选地，所述模型训练模块，还用于：

在所述掩码图像中随机确定预设数量的基准点；

可选地，所述模型训练模块，还用于：

根据所述样本图像的图像尺寸，确定多个源基准点；

可选地，所述模型训练模块，还用于：

根据所述基准点映射关系，确定采样权重；

根据所述采样权重，确定所述采样矩阵。

可选地，所述模型训练模块，还用于：

获取预设文本序列；

根据所述预设文本序列的尺寸，随机获取前景图像；

可选地，所述模型训练模块，还用于：

所述模型训练步骤包括：

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面所述方法的步骤。

通过上述技术方案，通过获取待识别图像；将所述待识别图像输入预先训练的文本识别模型，以获取所述文本识别模型输出的目标文本；其中，所述文本识别模型通过以下方式训练得到：获取多个样本图像；针对每个所述样本图像，对所述样本图像进行图像处理，得到目标样本图像，并根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型。也就是说，本公开在获取多个样本图像后，可以先对每个样本图像进行图像处理，得到目标样本图像，该目标样本图像更逼真、样式更多样，这样，根据多个目标样本图像训练得到的文本识别模型的准确率更高。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种文本识别方法的流程图；

图2是根据本公开一示例性实施例示出的一种文本识别模型的训练方法的流程图；

图3是根据本公开一示例性实施例示出的一种图像处理方法的流程图；

图4是根据本公开一示例性实施例示出的一种预设背景图像的示意图；

图5是根据本公开一示例性实施例示出的第二种图像处理方法的流程图；

图6是根据本公开一示例性实施例示出的第三种图像处理方法的流程图；

图7是根据本公开一示例性实施例示出的第四种图像处理方法的流程图；

图8是根据本公开一示例性实施例示出的第五种图像处理方法的流程图；

图9是根据本公开一示例性实施例示出的一种字符扭曲增强处理的示意图；

图10是根据本公开一示例性实施例示出的一种文本识别装置的框图；

图11是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

首先，对本公开的应用场景进行说明。在教育场景下，书籍、试卷、幻灯片等常见的教学素材中往往包含大量的文字，错题收集、试卷题目归档、书籍转可编辑格式等常见的教学任务中均需要进行文字识别。而教育场景中文字的表现形式多种多样，文字的背景颜色和文字的颜色也有很多，除了常规的白色纸张和黑色字体外，常常有彩色纸张背景和彩色的文字。文字的背景也并非完全纯色，常常有不规则色块，从而影响文字的整体呈现样式。基于此，文字和背景的颜色多样性给文字识别算法带来了不小的挑战。同时，文字的形态不固定，因手持文档纸张带来的文字扭曲和变形也常有发生，或者为了增强文字表现的趣味性，部分文字常常呈现拱形或者波浪形的样式。

相关技术中，对于文字识别模型，需要大量的数据集用于训练，业内常用的自然场景文字数据集与教育场景下的文字形态有着较大的区别，对于教育场景下的复杂文字识别的适用性不高。而人工采集和标注文字图像数据，其数据的数量规模远远不足，文字图像样式难以全面覆盖，手工标注的准确率难以达到100％，并且速度较慢，导致训练集的数量比较少，从而使得文本识别模型的准确率比较低。

为了解决上述存在的问题，本公开提供一种文本识别方法、装置、存储介质及电子设备，在获取多个样本图像后，可以先对每个样本图像进行图像处理，得到目标样本图像，该目标样本图像更逼真、样式更多样，这样，根据多个目标样本图像训练得到的文本识别模型的准确率更高。

以下结合具体的实施例对本公开进行说明。

图1是根据本公开一示例性实施例示出的一种文本识别方法的流程图，如图1所示，该方法可以包括：

S101、获取待识别图像。

其中，该待识别图像可以是拍摄或者扫描试卷、作业得到的图像。

S102、将该待识别图像输入预先训练的文本识别模型，以获取该文本识别模型输出的目标文本。

图2是根据本公开一示例性实施例示出的一种文本识别模型的训练方法的流程图，如图2所示，该方法可以包括：

S1、获取多个样本图像。

在一种可能的实现方式中，可以获取预设文本序列；随机初始化该预设文本序列中的字符颜色，得到多个目标文本序列；根据该预设文本序列的尺寸，随机获取前景图像；针对每个该目标文本序列，按照该目标文本序列中每个字符的位置，将该目标文本序列与该前景图像进行融合，得到该样本图像。

示例地，可以从语料库中获取一条字符长度为预设长度的预设文本序列，例如，该预设长度可以是60个字符，将该预设文本序列作为该样本图像的内容标签，在RGB颜色空间随机生成每个颜色通道对应的数值，以确定多个字符颜色，按照多个字符颜色初始化该预设文本序列中每个字符的颜色，得到多个目标文本序列。之后，确定该预设文本序列的尺寸，根据该尺寸初始化一张RGBA颜色通道的图像，作为该前景图像，例如，若该预设文本序列的尺寸为W_f*H_f，则可以初始化一张尺寸为W_f*H_f的RGBA颜色通道的前景图像。最后，针对每个目标文本序列，可以通过PIL图像库将该目标文本序列中的每个字符，按照原有位置在该前景图像中完成绘制，得到该样本图像。

S2、针对每个该样本图像，对该样本图像进行图像处理，得到目标样本图像，并根据该目标样本图像，对目标神经网络模型进行迭代训练，得到该文本识别模型。

在获取多个样本图像后，可以循环执行模型训练步骤，直至根据样本文本和真值文本确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为该文本识别模型；该样本文本为该目标样本图像输入训练后的目标神经网络模型后输出的文本。该预设停止迭代条件可以是现有技术中常用的停止迭代的条件，本公开对此不作限定。

其中，该模型训练步骤可以包括：

S21、将该目标样本图像输入该目标神经网络模型，输出每个该目标样本图像对应的样本文本。

S22、在根据该样本文本和该真值文本确定该目标神经网络模型不满足该预设停止迭代条件的情况下，根据该样本文本和该真值文本确定目标损失值，根据该目标损失值更新该目标神经网络模型的参数，得到训练后的目标神经网络模型，将训练后的目标神经网络模型作为新的目标神经网络模型，并对该目标样本图像进行该图像处理，将图像处理后的目标样本图像作为新的目标样本图像。

示例地，在得到每个目标样本图像对应的样本文本后，可以根据该样本文本和该真值文本确定该目标神经网络模型是否满足该预设停止迭代条件，在确定该目标神经网络模型不满足该预设停止迭代条件的情况下，根据该样本文本和该真值文本确定目标损失值，根据该目标损失值更新该目标神经网络模型的参数，得到训练后的目标神经网络模型，将训练后的目标神经网络模型作为新的目标神经网络模型。之后，针对每个目标样本图像，对该目标样本图像进行图像处理，得到新的目标样本图像，根据新的目标样本图像，继续执行步骤S1～步骤S2，直至训练后的目标神经网络模型满足该预设停止迭代条件。

采用上述方法，在获取多个样本图像后，可以先对每个样本图像进行图像处理，得到目标样本图像，该目标样本图像更逼真、样式更多样，这样，根据多个目标样本图像训练得到的文本识别模型的准确率更高。

相应的，该图像处理可以包括以下一个或多个：为该样本图像添加背景图像；调节该样本图像的亮度和/或对比度；对该样本图像进行反色增强处理；在该样本图像的字符的底部添加色块；对该样本图像的字符进行扭曲增强处理。

下面针对每个图像处理方法进行详细说明。

方式一、为该样本图像添加背景图像。

图3是根据本公开一示例性实施例示出的一种图像处理方法的流程图，如图3所示，该方法可以包括：

S31、获取预设背景图像。

在一种可能的实现方式中，可以确定该样本图像的图像尺寸，根据该图像尺寸，获取初始二维数组图像，针对该初始二维数组图像中的每个像素点，根据该像素点的像素值，通过高斯分布计算该像素点的目标像素值，根据多个该目标像素值，确定该预设背景图像。

示例地，在确定该样本图像的图像尺寸后，可以按照该图像尺寸，生成一张全1的初始二维数组图像，之后，针对该初始二维数组图像中的每个像素点，可以先确定该像素点的像素值，根据该像素值，通过高斯分布计算该像素点的目标像素值。其中，该高斯分布的概率密度函数可以是以下公式：

其中，f(x)为该目标像素值，x为该像素值，μ为均值，示例地，μ可以是235，σ²是方差，示例地，σ²可以是10。

在另一种可能的实现方式中，也可以收集真实纸张的背景，将该真实纸张的背景作为该预设背景图像；还可以收集扫描文件的扫描背景，将该扫描背景作为该预设背景图像，该扫描背景可以以白色色调和灰色色调为主，用以模拟扫描样式的背景图像。

图4是根据本公开一示例性实施例示出的一种预设背景图像的示意图，如图4所示，最上面的预设背景图像为真实纸张的背景，中间的预设背景图像为扫描背景，最下面的预设背景图像为通过高斯分布获取的背景图像。

S32、将该样本图像与该预设背景图像进行融合处理。

在获取该预设背景图像后，可以将该样本图像的像素点与该预设背景图像的像素点进行叠加，以将该样本图像与该预设背景图像进行融合处理。

采用上述图像处理方法，可以得到不同背景的多个目标样本图像，基于该目标样本图像训练的文本识别模型能够识别各类背景的文字，提高了文本识别模型的准确率。

方式二、调节该样本图像的亮度和/或对比度。

图5是根据本公开一示例性实施例示出的第二种图像处理方法的流程图，如图5所示，该方法可以包括：

S51、获取预设调节比例。

其中，该预设调节比例可以包括预设亮度调节比例和预设对比度了解比例，该预设调节比例可以根据试验预先测试得到，本公开对此不作限定。

S52、按照预设调节比例，调节该样本图像的亮度和/或对比度。

在获取该预设调节比例后，可以按照该预设亮度调节比例调节该样本图像中最亮的白和最暗的黑，按照该预设对比度调节比例提高该样本图像的白色画面的亮度，降低该样本图像中黑色画面的亮度。

采用上述图像处理方法，通过亮度和对比度调节，可以得到多个不同亮度和对比度的目标样本图像，这样，基于该目标样本图像训练的文本识别模型能够识别各类亮度和对比度的文字，提高了文本识别模型的准确率。

方式三、对该样本图像进行反色增强处理。

图6是根据本公开一示例性实施例示出的第三种图像处理方法的流程图，如图6所示，该方法可以包括：

S61、确定该样本图像在每个颜色通道的最大像素值。

在本步骤中，以RGB空间为例，可以先确定该样本图像在RGB空间下的每个像素点的像素值，之后，针对RGB空间的每个颜色通道，根据该样本图像的多个像素点的像素值，该颜色通道的最大像素值。

S62、针对每个该颜色通道，根据该最大像素值和预设像素阈值，随机确定该颜色通道对应的反色阈值。

在本步骤中，以RGB空间为例，可以通过以下公式计算得到该反色阈值：

T_R＝random(Max_R,255)

T_c＝random(Max_c，255)

T_B＝random(Max_B,255) (2)

其中，T_R为R通道对应的反色阈值，T_G为G通道对应的反色阈值，T_B为B通道对应的反色阈值，Max_R为R通道的最大像素值，Max_G为G通道的最大像素值，Max_B为B通道的最大像素值，random()为随机函数。

S63、针对该样本图像的每个像素点，根据该像素点的像素值和该反色阈值，更新该像素点的像素值。

在本步骤中，针对该样本图像的每个像素点，在确定每个颜色通道对应的反色阈值后，可以根据该像素点的像素值和该反色阈值，以RGB空间为例，可以通过以下公式计算得到反色像素值：

Pixel_R＝T_R-Pixel_R

Pixel_G＝T_G-Pixel_G

Pixel_B＝T_B-Pixel_B (3)

其中，Pixel_R为R通道的反色像素值，Pixel_G为G通道的反色像素值，Pixel_B为B通道的反色像素值。

进一步地，在确定该样本图像的每个像素点在每个颜色通道的反色像素值后，可以将该反色像素值作为该像素点的新的像素值。

采用上述图像处理方法，通过反色增强处理，可以得到多个不同色度背景的目标样本图像，这样，基于该目标样本图像训练的文本识别模型不仅能够识别浅色背景的图像，也能够识别深色背景的图像，提高了文本识别模型的准确率。

方式四、在该样本图像的字符的底部添加色块。

图7是根据本公开一示例性实施例示出的第四种图像处理方法的流程图，如图7所示，该方法可以包括：

S71、根据该样本图像的图像尺寸，获取全透明的掩码图像。

在本步骤中，可以先确定该样本图像的图像尺寸，再按照该图像尺寸，新建一个格式为RGBA的全透明的掩码图像。

S72、按照预设尺寸和预设形状，在该掩码图像中绘制目标色块，得到目标掩码图像。

其中，该预设形状可以是椭圆形，该椭圆形包括实心椭圆形和非实心椭圆形；该预设尺寸可以根据该图像尺寸确定，示例地，该预设尺寸可以是该图像尺寸的80％。

在本步骤中，在得到该掩码图像后，可以在该掩码图像中随机确定预设数量的基准点，针对每个该基准点，以该基准点为中心，按照该预设尺寸和该预设形状，在该掩码图像中绘制该目标色块，得到该目标掩码图像。

示例地，若该预设数量为N，该预设形状太椭圆形，则可以在该掩码图像中随机设置N个基准点，针对每个基准点，以该基准点为中心，按照该预设尺寸，绘制实心椭圆形和非实心椭圆形，得到该目标掩码图像，其中，实心椭圆形和非实心椭圆形可以各占50％。

S73、将该样本图像与该目标掩码图像进行重叠处理。

在本步骤中，在得到该目标掩码图像后，可以将该样本图像和该目标掩码图像重叠，以增强该样本图像中文字的底色。

采用上述方法，可以在样本图像的文字底部增加不同形状的色块，这样，基于该目标样本图像训练的文本识别模型能够识别各种底色的文字，提高了文本识别模型的准确率。

方式五、对该样本图像的字符进行扭曲增强处理。

图8是根据本公开一示例性实施例示出的第五种图像处理方法的流程图，如图8所示，该方法可以包括：

S81、根据该样本图像的图像尺寸，确定多个源基准点。

在本步骤中，可以先确定该样本图像的图像尺寸，之后，随机指定源基准点的对数N，示例地，N的取值范围可以是2～10，例如，N可以是5。该源基准点可以表示为：

src_matrix＝[[0,0],[0,H],

…

S82、对多个该源基准点的位置进行随机调整，得到每个该源基准点对应的目标基准点。

在本步骤中，针对每个源基准点，可以对该源基准点的位置进行随机扰动，以调整该源基准点的位置，得到该源基准点对应的目标基准点。

S83、根据该源基准点的位置和该目标基准点的位置，确定采样矩阵。

在本步骤中，在得到每个源基准点对应的目标基准点后，可以根据该源基准点的位置和该目标基准点的位置，确定基准点映射关系，根据该基准点映射关系，确定采样权重，根据该采样权重，确定该采样矩阵。

示例地，可以按照该源基准点和该目标基准点之间的索引关系，通过现有技术的方法，确定该基准点映射关系，该基准点映射关系可以通过以下映射矩阵表示：

其中，K_i,j＝rlogr,r＝(x_i-x_j)²+(y_i-y_j)²，x_k＝new_matrix[k][0]，y_k＝new_matrix[k][1]，new_matrix为该目标基准点。

之后，可以根据该基准点映射关系，建立转换方程，该转换方程可以表示为：

其中，w₀，w₁，w₂为该采样权重，a₀，a_x，a_y为采样系数。

进一步地，在确定该采样权重过程中，也能计算得到该采样系数，之后，可以根据该采样权重和该采样系数，通过现有技术的方法，设计该采样矩阵。

S84、针对该样本图像的每个像素点，根据该采样矩阵确定该像素点的目标位置，并将该目标位置作为该像素点的新位置。

在本步骤中，在确定该采样矩阵后，针对该样本图像的每个像素点，可以根据该采样矩阵重新进行采样，得到该像素点的目标位置，并将该目标位置作为该像素点的新位置，以对该样本图像中的字符进行扭曲增强。图9是根据本公开一示例性实施例示出的一种字符扭曲增强处理的示意图，如图9所示，第一行为原始文本，第二行、第三行以及第四行为扭曲增强处理后的文本。

采用上述方法，通过对样本图像中的字符进行扭曲增强处理，得到的目标样本图像中的文字形态更多样化，进一步提高了文本识别模型的准确率。

需要说明的是，上述方式一至方式五的图像处理方法，可以通过每种方式单独对该样本图像进行图像处理，也可以通过几种方式叠加对该样本图像进行图像处理，示例地，方式五可以直接针对样本图像进行图像处理，也可以针对样本图像进行方式一、方式二、方式三以及方式四的图像处理方法处理后的图像进行处理，本公开对此不作限定。

图10是根据本公开一示例性实施例示出的一种文本识别装置的框图，如图10所示，该装置可以包括：

图像获取模块1001，用于获取待识别图像；

文本获取模块1002，用于将该待识别图像输入预先训练的文本识别模型，以获取该文本识别模型输出的目标文本；

模型训练模块1003，用于获取多个样本图像；针对每个该样本图像，对该样本图像进行图像处理，得到目标样本图像，并根据该目标样本图像，对目标神经网络模型进行迭代训练，得到该文本识别模型。

可选地，该模型训练模块1003，还用于：

为该样本图像添加背景图像；

调节该样本图像的亮度和/或对比度；

对该样本图像进行反色增强处理；

在该样本图像的字符的底部添加色块；

对该样本图像的字符进行扭曲增强处理。

可选地，该模型训练模块1003，还用于：

获取预设背景图像；

将该样本图像与该预设背景图像进行融合处理。

可选地，该模型训练模块，还用于：

确定该样本图像的图像尺寸；

根据该图像尺寸，获取初始二维数组图像；

针对该初始二维数组图像中的每个像素点，根据该像素点的像素值，通过高斯分布计算该像素点的目标像素值；

根据多个该目标像素值，确定该预设背景图像。

可选地，该模型训练模块1003，还用于：

获取预设调节比例；

按照预设调节比例，调节该样本图像的亮度和/或对比度。

可选地，该模型训练模块，还用于：

确定该样本图像在每个颜色通道的最大像素值；

针对每个该颜色通道，根据该最大像素值和预设像素阈值，随机确定该颜色通道对应的反色阈值；

针对该样本图像的每个像素点，根据该像素点的像素值和该反色阈值，更新该像素点的像素值。

可选地，该模型训练模块1003，还用于：

确定该像素点的像素值与该反色阈值之间的像素差值；

根据该像素差值更新该像素点的像素值。

可选地，该模型训练模块1003，还用于：

根据该样本图像的图像尺寸，获取全透明的掩码图像；

按照预设尺寸和预设形状，在该掩码图像中绘制目标色块，得到目标掩码图像；

将该样本图像与该目标掩码图像进行重叠处理。

可选地，该模型训练模块1003，还用于：

在该掩码图像中随机确定预设数量的基准点；

针对每个该基准点，以该基准点为中心，按照该预设尺寸和该预设形状，在该掩码图像中绘制该目标色块，得到该目标掩码图像。

可选地，该模型训练模块1003，还用于：

根据该样本图像的图像尺寸，确定多个源基准点；

对多个该源基准点的位置进行随机调整，得到每个该源基准点对应的目标基准点；

根据该源基准点的位置和该目标基准点的位置，确定采样矩阵；

针对该样本图像的每个像素点，根据该采样矩阵确定该像素点的目标位置，并将该目标位置作为该像素点的新位置。

可选地，该模型训练模块1003，还用于：

根据该源基准点的位置和该目标基准点的位置，确定基准点映射关系；

根据该基准点映射关系，确定采样权重；

根据该采样权重，确定该采样矩阵。

可选地，该模型训练模块1003，还用于：

获取预设文本序列；

随机初始化该预设文本序列中的字符颜色，得到多个目标文本序列；

根据该预设文本序列的尺寸，随机获取前景图像；

针对每个该目标文本序列，按照该目标文本序列中每个字符的位置，将该目标文本序列与该前景图像进行融合，得到该样本图像。

可选地，该模型训练模块1003，还用于：

循环执行模型训练步骤，直至根据样本文本和真值文本确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为该文本识别模型；该样本文本为该目标样本图像输入训练后的目标神经网络模型后输出的文本；

该模型训练步骤包括：

将该目标样本图像输入该目标神经网络模型，输出每个该目标样本图像对应的样本文本；

在根据该样本文本和该真值文本确定该目标神经网络模型不满足该预设停止迭代条件的情况下，根据该样本文本和该真值文本确定目标损失值，根据该目标损失值更新该目标神经网络模型的参数，得到训练后的目标神经网络模型，将训练后的目标神经网络模型作为新的目标神经网络模型，并对该目标样本图像进行该图像处理，将图像处理后的目标样本图像作为新的目标样本图像。

通过上述装置，在获取多个样本图像后，可以先对每个样本图像进行图像处理，得到目标样本图像，该目标样本图像更逼真、样式更多样，这样，根据多个目标样本图像训练得到的文本识别模型的准确率更高。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据本公开一示例性实施例示出的一种电子设备1100的框图。如图11所示，该电子设备1100可以包括：处理器1101，存储器1102。该电子设备1100还可以包括多媒体组件1103，输入/输出(I/O)接口1104，以及通信组件1105中的一者或多者。

其中，处理器1101用于控制该电子设备1100的整体操作，以完成上述的文本识别方法中的全部或部分步骤。存储器1102用于存储各种类型的数据以支持在该电子设备1100的操作，这些数据例如可以包括用于在该电子设备1100上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1102或通过通信组件1105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1104为处理器1101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1105用于该电子设备1100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件1105可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文本识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1102，上述程序指令可由电子设备1100的处理器1101执行以完成上述的文本识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文本识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待识别图像；

其中，所述文本识别模型通过以下方式训练得到：

获取多个样本图像；

2.根据权利要求1所述的方法，其特征在于，所述图像处理包括以下一个或多个：

为所述样本图像添加背景图像；

调节所述样本图像的亮度和/或对比度；

对所述样本图像进行反色增强处理；

在所述样本图像的字符的底部添加色块；

对所述样本图像的字符进行扭曲增强处理。

3.根据权利要求2所述的方法，其特征在于，所述为所述样本图像添加背景图像包括：

获取预设背景图像；

将所述样本图像与所述预设背景图像进行融合处理。

4.根据权利要求3所述的方法，其特征在于，所述预设背景图像通过以下方式预先确定：

确定所述样本图像的图像尺寸；

根据所述图像尺寸，获取初始二维数组图像；

根据多个所述目标像素值，确定所述预设背景图像。

5.根据权利要求2所述的方法，其特征在于，所述调节所述样本图像的亮度和/或对比度包括：

获取预设调节比例；

6.根据权利要求2所述的方法，其特征在于，所述对所述样本图像进行反色增强处理包括：

确定所述样本图像在每个颜色通道的最大像素值；

7.根据权利要求6所述的方法，其特征在于，所述根据所述像素点的像素值和所述反色阈值，更新所述像素点的像素值包括：

确定所述像素点的像素值与所述反色阈值之间的像素差值；

根据所述像素差值更新所述像素点的像素值。

8.根据权利要求2所述的方法，其特征在于，所述在所述样本图像的字符的底部添加色块包括：

根据所述样本图像的图像尺寸，获取全透明的掩码图像；

将所述样本图像与所述目标掩码图像进行重叠处理。

9.根据权利要求8所述的方法，其特征在于，所述按照预设尺寸和预设形状，在所述掩码图像中绘制目标色块，得到目标掩码图像包括：

在所述掩码图像中随机确定预设数量的基准点；

10.根据权利要求2所述的方法，其特征在于，所述对所述样本图像的字符进行扭曲增强处理包括：

根据所述样本图像的图像尺寸，确定多个源基准点；

11.根据权利要求10所述的方法，其特征在于，所述根据所述源基准点的位置和所述目标基准点的位置，确定采样矩阵包括：

根据所述基准点映射关系，确定采样权重；

根据所述采样权重，确定所述采样矩阵。

12.根据权利要求1所述的方法，其特征在于，所述获取多个样本图像包括：

获取预设文本序列；

根据所述预设文本序列的尺寸，随机获取前景图像；

13.根据权利要求1-12任一项所述的方法，其特征在于，所述根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型包括：

所述模型训练步骤包括：

14.一种文本识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取待识别图像；

模型训练模块，用于获取多个样本图像；针对每个所述样本图像，对所述样本图像进行图像处理，得到目标样本图像，并根据所述目标样本图像，对目标神经网络模型进行迭代训练，得到所述文本识别模型。

15.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-13中任一项所述方法的步骤。

16.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-13中任一项所述方法的步骤。