CN115063807A

CN115063807A - 图像处理方法、装置、可读存储介质及电子设备

Info

Publication number: CN115063807A
Application number: CN202210613092.5A
Authority: CN
Inventors: 刘腾龙
Original assignee: Beijing Kaifa Hongye Hi Tech Co ltd
Current assignee: Beijing Kaifa Hongye Hi Tech Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-16

Abstract

本公开涉及一种图像处理方法、装置、可读存储介质及电子设备。方法包括：获取目标文本图像；根据目标文本图像，生成目标文本图像对应的目标字符置信度分布和目标邻域置信度分布；根据目标字符置信度分布和目标邻域置信度分布，生成目标文本图像对应的至少一个单字符区域。其中，目标字符置信度分布和目标邻域置信度分布，使得目标文本图像中相邻字符之间的区分度较高，从而提升单字符检测的准确度，解决文本图像因形状不规则、字符集和文字表达式丰富、不同文字区域相邻紧凑等因素导致的字符检测难度大的问题。

Description

图像处理方法、装置、可读存储介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种图像处理方法、装置、可读存储介质及电子设备。

背景技术

在智能作业批改场景中，实现定位拍照试卷中单字符的位置，可以实现交互更加友好、更加完善的智能批改功能，例如：如果学生书写的有错别字，通过单字符文本检测和文本识别便可以定位出错别字所在位置，并勾选出来提醒用户。其中，如何提升单字符文本检测的准确度，对于智能作业批改意义重大。

发明内容

为了克服相关技术中存在的问题，本公开提供一种图像处理方法、装置、可读存储介质及电子设备。

为了实现上述目的，第一方面，本公开提供一种图像处理方法，包括：

获取目标文本图像；

根据所述目标文本图像，生成所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布，其中，所述目标字符置信度分布包括所述目标文本图像中每一像素点位于字符中心的概率，所述目标邻域置信度分布包括每一所述像素点位于字符间隙的概率；

根据所述目标字符置信度分布和所述目标邻域置信度分布，生成所述目标文本图像对应的至少一个单字符区域。

可选地，所述根据所述目标文本图像，生成所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布，包括：

将所述目标文本图像输入到预先训练好的目标置信度预测模型中，得到所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

可选地，所述目标置信度预测模型包括依次连接的特征提取网络、特征融合网络以及预测模块，所述特征融合网络包括依次连接的第一自顶向下融合单元、自底向上融合单元和第二自顶向下融合单元；

其中，所述特征提取网络，用于对所述目标文本图像进行多尺度特征提取，得到多尺度特征图；

所述第一自顶向下融合单元，与所述特征提取网络连接，用于对所述多尺度特征图进行自顶向下的特征融合，得到多个第一融合特征图；

所述自底向上融合单元，用于对所述多个第一融合特征图进行自底向上的特征融合，得到多个第二融合特征图；

所述第二自顶向下融合单元，用于对所述多个第二融合特征图进行自顶向下的特征融合，得到目标融合特征图；

所述预测模块，与所述第二自顶向下融合单元连接，用于根据所述目标融合特征图，预测所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

可选地，所述目标置信度预测模型通过以下方式训练得到：

获取第一训练样本，其中，所述第一训练样本包括多个第一合成文本图像、每一所述第一合成文本图像对应的第一样本字符置信度分布和第一样本邻域置信度分布；

根据所述第一训练样本，对初始置信度预测模型进行训练，得到中间置信度预测模型；

获取第二训练样本，其中，所述第二训练样本包括多个真实文本图像、每一所述真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布；

根据所述第二训练样本，对所述中间置信度预测模型进行训练，得到目标置信度预测模型。

可选地，每一所述真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布通过以下方式来获取：

针对每一所述真实文本图像，获取该真实文本图像对应的至少一个样本文字行区域；

针对每一所述样本文字行区域，将该样本文字行区域输入到所述中间置信度预测模型中，得到该样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布；

根据每一所述样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布，生成该真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布。

可选地，所述第一训练样本还包括对每一所述第一合成样本图像进行图像增强处理后所得的第一增强图像以及每一所述第一增强图像对应的第三样本字符置信度分布和第三样本邻域置信度分布；和/或

所述第二训练样本还包括对每一所述真实样本图像进行图像增强处理后所得的第二增强图像以及每一所述第二增强图像对应的第四样本字符置信度分布和第四样本邻域置信度分布。

可选地，所述第二训练样本还包括多个第二合成文本图像、每一所述第二合成文本图像对应的第五样本字符置信度分布和第五样本邻域置信度分布。

可选地，所述第二训练样本还包括对每一所述第二合成样本图像进行图像增强处理后所得的第三增强图像以及每一所述第三增强图像对应的第六样本字符置信度分布和第六样本邻域置信度分布。

可选地，所述根据所述目标字符置信度分布和所述目标邻域置信度分布，生成所述目标文本图像对应的至少一个单字符区域，包括：

针对所述目标文本图像中的每一像素点，若该像素点位于字符中心的概率大于第一预设阈值，或者该像素点位于字符间隙的概率小于第二预设阈值，则将该像素点确定为字符像素点；

对所述目标文本图像中的所有字符像素点进行连通域分析，得到多个字符连通域；

针对每一所述字符连通域，将该字符连通域的最小外接矩形作为单字符区域。

可选地，所述方法还包括：

根据所述目标文本图像对应的至少一个单字符区域，生成所述目标文本图像对应的至少一个目标文本行区域。

第二方面，本公开提供一种图像处理装置，包括：

第一获取模块，用于获取目标文本图像；

第一生成模块，用于根据所述第一获取模块获取到的所述目标文本图像，生成所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布，其中，所述目标字符置信度分布包括所述目标文本图像中每一像素点位于字符中心的概率，所述目标邻域置信度分布包括每一所述像素点位于字符间隙的概率；

第二生成模块，用于根据所述第一生成模块生成的所述目标字符置信度分布和所述目标邻域置信度分布，生成所述目标文本图像对应的至少一个单字符区域。

第三方面，本公开提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

在上述技术方案中，首先根据获取到的目标文本图像，生成对应的目标字符置信度分布和目标邻域置信度分布；然后，根据目标字符置信度分布和目标邻域置信度分布，生成目标文本图像对应的至少一个单字符区域。其中，目标字符置信度分布包括目标文本图像中每一像素点位于字符中心的概率，目标邻域置信度分布包括每一像素点位于字符间隙的概率。其中，目标字符置信度分布和目标邻域置信度分布，使得目标文本图像中相邻字符之间的区分度较高，从而提升单字符检测的准确度，解决文本图像因形状不规则、字符集和文字表达式丰富、不同文字区域相邻紧凑等因素导致的字符检测难度大的问题。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种图像处理方法的流程图。

图2是根据一示例性实施例示出的一种目标置信度预测模型的结构示意图。

图3是根据一示例性实施例示出的一种特征融合网络进行特征融合的示意图。

图4是根据一示例性实施例示出的一种目标置信度预测模型的训练方法的流程图。

图5是根据一示例性实施例示出的一种确定字符置信度分布图的示意图。

图6是根据一示例性实施例示出的一种确定邻域置信度分布的示意图。

图7是根据另一示例性实施例示出的一种图像处理方法的流程图。

图8是根据一示例性实施例示出的一种图像处理装置的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

图1是根据一示例性实施例示出的一种图像处理方法的流程图。如图1所示，该方法可以包括以下S101～S103。

在S101中，获取目标文本图像。

在本公开中，目标文本图像可以是纯文本图像，还可以是同时包含文本和图片的文本图像，本公开不作具体限定。

在S102中，根据目标文本图像，生成目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

在本公开中，目标字符置信度分布包括目标文本图像中每一像素点位于字符中心的概率，目标邻域置信度分布包括每一像素点位于字符间隙的概率。

在S103中，根据目标字符置信度分布和目标邻域置信度分布，生成目标文本图像对应的至少一个单字符区域。

在通过上述S102生成目标文本图像对应的目标字符置信度分布和目标邻域置信度分布后，可以根据这两个分布，对目标文本图像进行单字符识别，得到目标文本图像对应的至少一个单字符区域。

下面针对上述S102中的根据目标文本图像，生成目标文本图像对应的目标字符置信度分布和目标邻域置信度分布的具体实施方式进行详细说明。在一种实施方式中，可以将目标文本图像输入到预先训练好的目标置信度预测模型中，得到目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

如图2所示，上述目标置信度预测模型包括依次连接的特征提取网络、特征融合网络以及预测模块，其中，特征融合网络可以采用像素聚合网络(Pixel AggregationNetwork，PAN)架构，具体可以包括依次连接的第一自顶向下融合单元、自底向上融合单元和第二自顶向下融合单元。

其中，特征提取网络，用于对目标文本图像进行多尺度特征提取，得到多尺度特征图；第一自顶向下融合单元，与特征提取网络连接，用于对多尺度特征图进行自顶向下的特征融合，得到多个第一融合特征图；自底向上融合单元，用于对多个第一融合特征图进行自底向上的特征融合，得到多个第二融合特征图；第二自顶向下融合单元，用于对多个第二融合特征图进行自顶向下的特征融合，得到目标融合特征图；预测模块，与第二自顶向下融合单元连接，用于根据目标融合特征图，预测目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

示例地，特征提取网络可以为残差网络(Residual Network，ResNet)(例如，ResNet50、ResNet101等)、视觉几何组(Visual Geometry Group，VGG)网络等。

下面结合图3详细说明上述特征融合网络进行特征融合的具体方式。具体来说，可以通过以下步骤①～步骤④来实现：

①特征提取网络对目标文本图像进行自上而下的卷积操作，以进行多尺度特征提取，得到每一阶段的特征图，即特征图C1、特征图C2、特征图C3、特征图C4、特征图C5、特征图C6，其中，目标文本图像的尺寸为(h,w,3)，特征图C1、特征图C2、特征图C3、特征图C4、特征图C5、特征图C6的尺寸依次为(h/2,w/2,64)、(h/4,w/4,128)、(h/8,w/8,256)、(h/16,w/16,512)、(h/32,w/32,512)、(h/32,w/32,512)，其中，h为目标文本图像的高，w为目标文本图像的宽，尺寸中的最后一个数字为通道数，即3、64、128、256、512均为通道数。

②第一自顶向下融合单元对特征提取网络得到的每一阶段的特征图进行自顶向下的特征融合，得到多个第一融合特征图。具体来说，如图3所示，第一自顶向下融合单元首先对特征图C6进行上采样得到尺寸大小为(h/16,w/16,512)的特征图P1；然后，将特征图P1与特征图C4进行特征融合，得到尺寸大小为(h/8,w/8,128)的特征图P2；接下来，将特征图P2与特征图C3进行特征融合，得到尺寸大小为(h/4,w/4，64)的特征图P3；最后，将特征图P3与特征图C2进行特征融合，得到尺寸大小为(h/2,w/2，32)的特征图P4。即多个第一融合特征图包括特征图P1、特征图P2、特征图P3以及特征图P4。

③自底向上融合单元对第一自顶向下融合单元生成的多个第一融合特征图进行自底向上的特征融合，得到多个第二融合特征图。具体来说，如图3所示，自底向上融合单元首先将两个特征图P4进行特征融合，得到尺寸大小为(h/4,w/4,64)的特征图P5；然后，将特征图P5与特征图P3进行特征融合，得到尺寸大小为(h/8,w/8,32)的特征图P6；最后，将特征图C5、特征图C6、特征图P6、特征图P2进行特征融合，得到尺寸大小为(h/16,w/16，64)的特征图P7。多个第二融合特征图包括特征图P5、特征图P6以及特征图P7。

④第二自顶向下融合单元对自底向上融合单元得到的多个第二融合特征图进行自顶向下的特征融合，得到目标融合特征图。具体来说，如图3所示，第二自顶向下融合单元首先将特征图P1与特征图P7进行特征融合，得到尺寸大小为(h/8,w/8,128)的特征图P8；然后，将特征图P8与特征图P6进行特征融合，得到尺寸大小为(h/4,w/4,64)的特征图P9；最后，将特征图P9与特征图P5进行特征融合，得到尺寸大小为(h/2,w/2,32)的特征图P10，即目标融合特征图为特征图P10。

采用特征提取网络对目标文本图像进行多尺度特征提取，可以使得目标置信度预测模型可以适配不同尺度的文本图像，之后，采用特征融合网络对多尺度特征依次进行自顶向下、自底而上和自顶向下的特征融合，可以有效保留文本图像浅层的结构特征和深层的语义特征，从而可以提升目标置信度预测模型对字符置信度分布和邻域置信度分布的预测准确度。

示例地，上述预测模块可以为包括N个(例如，4个)依次连接的卷积模块，其中，前N-1个卷积模块用于从目标融合特征图中进一步提取特征，第N个卷积模块(即最后一个卷积模块)用于根据第N-1个卷积模块输出的特征图，生成目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

下面针对上述S103中的根据目标字符置信度分布和目标邻域置信度分布，生成目标文本图像对应的至少一个单字符区域的具体实施方式进行详细说明。具体来说，可以通过以下步骤(1)～步骤(3)来实现：

(1)针对目标文本图像中的每一像素点，若该像素点位于字符中心的概率大于第一预设阈值，或者该像素点位于字符间隙的概率小于第二预设阈值，则将该像素点确定为字符像素点。

其中，若该像素点位于字符中心的概率小于或等于上述第一预设阈值、且该像素点位于字符间隙的概率大于或等于第二预设阈值，则将该像素点确定为字符间隙像素点。

(2)对目标文本图像中的所有字符像素点进行连通域分析，得到多个字符连通域。

(3)针对每一字符连通域，将该字符连通域的最小外接矩形作为单字符区域。

下面针对上述目标置信度预测模型的具体训练方式进行详细说明。具体来说，可以通过图4中所示的S401～S404来实现。

在S401中，获取第一训练样本。

在本公开中，第一训练样本包括多个第一合成文本图像、每一第一合成文本图像对应的第一样本字符置信度分布和第一样本邻域置信度分布。其中，可以通过对多个单字符图像进行拼接来得到第一合成文本图像，这样，各第一合成文本图像中包含有各单字符区域的标注信息，由此，可以针对每一第一合成文本图像，通过对该第一合成文本图像中的每一标注的单字符区域进行字符置信度分布标注和邻域置信度分布标注，即可得到该第一合成文本图像对应的第一样本字符置信度分布和第一样本邻域置信度分布。

在S402中，根据第一训练样本，对初始置信度预测模型进行训练，得到中间置信度预测模型。

在S403中，获取第二训练样本。

在本公开中，第二训练样本包括多个真实文本图像、每一真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布。

在S404中，根据第二训练样本，对中间置信度预测模型进行训练，得到目标置信度预测模型。

在上述实施方式中，在训练初期，利用合成文本图像进行模型训练，由于合成文本图像中包含有各单字符区域的标注信息，省去了人工标注单字符区域的成本。但是由于合成文本图像与真实文本图像的特征由相似之处又不完全相同，利用合成文本图像训练得到的模型并不完全适用于真实文本图像，因此，在模型具有一定预测能力后，再使用真实文本图像进行模型训练。这样，可以不仅能够保证模型的预测性能，而且能够降低训练样本的标注成本。

下面针对上述获取每一第一合成文本图像对应的第一样本字符置信度分布和第一样本邻域置信度分布的具体实施方式进行详细说明。

在本公开中，即便处于单字符区域的像素点，也存在中心和边缘的区别。本公开将单字符框(即单字符区域所在的四边形)设想为一个连续的二维高斯分布，位于单字符框中心的像素点有较高的置信度，而位于单字符框边缘的像素点有较低置信度，从而模型充分利用了像素点的位置信息，其中，单字符框通常为不规则的四边形。具体来说，可以针对每一第一合成文本图像，通过以下方式来获取该第一合成文本图像对应的第一样本字符置信度分布：

针对该第一合成文本图像中的每一标注的单字符区域，如图5所示，可以将二维高斯分布图透视变换到该单字符区域所在的四边形(即单个文字框，也就是单字符框)中，得到该单字符框对应的字符置信度分布图，在该字符置信度分布图中，越靠近单字符框中心，像素点的置信度越高，越靠近单字符框边缘，像素点的置信度越低；然后，将各标注的单字符框对应的字符置信度分布图映射到该第一合成文本图像所在的矩形中，得到该第一合成文本图像对应的第一样本字符置信度分布。

另外，可以针对每一第一合成文本图像，通过以下方式来获取该第一合成文本图像对应的第一样本邻域置信度分布：

针对该第一合成文本图像中的每一标注的单字符区域，例如图6右上侧“C”所在的单字符区域，首先将该单字符区域所在的四边形(即单字符框)的对角线相连，同时，将该单字符区域的前一单字符区域所在的四边形的对角线相连，将该单字符区域的后一单字符区域所在的四边形的对角线相连，如图6左上侧黑色实线所示；然后分别找到三个四边形中上下两个三角形的重心，三个相邻的字符共有六个三角形重心，我们将该六个三角形重心组成的两个四边形称为邻域框(即图6中所示的两个灰色矩形框)；最后，将二维高斯分布图分别透视变换到两个邻域框中，得到该单字符区域对应的邻域置信度分布图，其中，在邻域置信度分布图中，越靠近邻域框中心，像素点的置信度越高，越靠近邻域框框边缘，像素点的置信度越低。

其中，针对第一合成文本图像中位于文字行首部或者尾部的单字符区域，其对应有一个邻域框。

下面针对获取每一真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布的具体实施方式进行详细说明。

具体来说，可以通过多种方式来实现，在一种实施方式中，可以针对每一真实文本图像，先对该真实文本图像的单字符区域进行标注；然后，通过对该真实文本图像中的每一标注的单字符区域进行字符置信度分布标注和邻域置信度分布标注，即可得到该真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布。

其中，可以采用与上述获取第一合成文本对应的第一样本字符置信度和第一样本邻域置信度分布类似的方式来获取各真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布，本公开不再赘述。

在另一种实施方式中，可以通过以下步骤[1]～步骤[3]来获取每一真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布：

[1]针对每一真实文本图像，获取该真实文本图像对应的至少一个样本文字行区域。

[2]针对每一样本文字行区域，将该样本文字行区域输入到中间置信度预测模型中，得到该样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布。

[3]根据每一样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布，生成该真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布。

具体来说，可以将该真实文本图像中的每一样本文本行区域对应的预测字符置信度分布按照相应样本文本行区域在真实文本图像中的位置，映射到真实文本图像中，得到该真实文本图像对应的第二样本字符置信度分布。同样地，可以将该真实文本图像中的每一样本文本行区域对应的预测邻域置信度分布按照相应样本文本行区域在真实文本图像中的位置，映射到真实文本图像中，得到该真实文本图像对应的第二样本邻域置信度分布。

在上述实施方式中，在获取各真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布时，只需要对真实文本图像进行文字行标注，而无需进行单字符标注，大大降低了训练样本标注成本。

由于训练中间阶段得到的中间置信度预测模型的预测准确度并没有保证，因此，在对中间置信度预测模型进行训练时，模型的损失需要乘以置信概率。其中，

其中，L₁为真实文本图像包含的预测字符数，L₂为真实文本图像包含的实际字符数。其中，可以根据真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布，生成该真实文本图像对应的至少一个单字符区域；然后，将该真实文本图像对应的单字符区域的数量确定为真实文本图像包含的预测字符数。

另外，可以采用与上述S103类似的方式来根据真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布，生成该真实文本图像对应的至少一个单字符区域，本公开不再赘述。

另外，为了增强训练样本的多样性，可以采用数据增强技术进行训练样本扩增。具体来说，上述第一训练样本还可以包括对每一第一合成样本图像进行图像增强处理后所得的第一增强图像以及每一第一增强图像对应的第三样本字符置信度分布和第三样本邻域置信度分布。

同样地，上述第二训练样本还可以包括对每一真实样本图像进行图像增强处理后所得的第二增强图像以及每一第二增强图像对应的第四样本字符置信度分布和第四样本邻域置信度分布。

其中，图像增强处理可以包括随机椒盐噪声、随机水印、随机高斯噪声等，从而可以使得模型具有抗水印、抗噪声能量，提升模型的泛化能力。另外，图像增强处理后所得的图像对应的字符置信度分布与图像增强处理前图像对应的字符置信度分布相同，图像增强处理后所得的图像对应的邻域置信度分布与图像增强处理前图像对应的邻域置信度分布相同。

此外，上述第二训练样本还可以包括多个第二合成文本图像、每一第二合成文本图像对应的第五样本字符置信度分布和第五样本邻域置信度分布。

其中，可以采用与上述获取第一合成文本对应的第一样本字符置信度和第一样本邻域置信度分布类似的方式来获取各第二合成文本图像对应的第五样本字符置信度分布和第五样本邻域置信度分布，本公开不再赘述。

这样，可以利用多个第二合成文本图像和多个真实文本图像共同对中间置信度预测模型进行训练，可以保证模型的有效性，从而提升目标置信度预测模型的预测准确度，其中，第二合成文本图像与真实文本图像的数量比可以为5:2。

为了进一步增强训练样本的多样性，上述第二训练样本还可以包括对每一第二合成样本图像进行图像增强处理后所得的第三增强图像以及每一第三增强图像对应的第六样本字符置信度分布和第六样本邻域置信度分布。

图7是根据另一示例性实施例示出的一种图像处理方法的流程图。如图7所示，上述方法还可以包括以下S104。

在S104中，根据目标文本图像对应的至少一个单字符区域，生成目标文本图像对应的至少一个目标文本行区域。

在本公开中，可以根据目标文本图像中位于同一文字行的多个单字符区域的中心点和宽度，构造一个多边形区域，即得到一个目标文本行区域。

图8是根据一示例性实施例示出的一种图像处理装置的框图。如图8所示，该装置800包括：

第一获取模块801，用于获取目标文本图像；

第一生成模块802，用于根据所述第一获取模块801获取到的所述目标文本图像，生成所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布，其中，所述目标字符置信度分布包括所述目标文本图像中每一像素点位于字符中心的概率，所述目标邻域置信度分布包括每一所述像素点位于字符间隙的概率；

第二生成模块803，用于根据所述第一生成模块802生成的所述目标字符置信度分布和所述目标邻域置信度分布，生成所述目标文本图像对应的至少一个单字符区域。

可选地，所述第一生成模块802用于将所述目标文本图像输入到预先训练好的目标置信度预测模型中，得到所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布。

可选地，所述目标置信度预测模型通过模型训练装置训练得到，其中，该模型训练装置包括：

第二获取模块，用于获取第一训练样本，其中，所述第一训练样本包括多个第一合成文本图像、每一所述第一合成文本图像对应的第一样本字符置信度分布和第一样本邻域置信度分布；

训练模块，用于根据所述第一训练样本，对初始置信度预测模型进行训练，得到中间置信度预测模型；

第三获取模块，用于获取第二训练样本，其中，所述第二训练样本包括多个真实文本图像、每一所述真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布；

所述训练模块，还用于根据所述第二训练样本，对所述中间置信度预测模型进行训练，得到目标置信度预测模型。

可选地，所述第三获取模块包括：

获取子模块，用于针对每一所述真实文本图像，获取该真实文本图像对应的至少一个样本文字行区域；

预测子模块，用于针对每一所述样本文字行区域，将该样本文字行区域输入到所述中间置信度预测模型中，得到该样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布；

生成子模块，用于根据每一所述样本文本行区域对应的预测字符置信度分布和预测邻域置信度分布，生成该真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布。

可选地，所述第二生成模块803包括：

第一确定子模块，用于针对所述目标文本图像中的每一像素点，若该像素点位于字符中心的概率大于第一预设阈值，或者该像素点位于字符间隙的概率小于第二预设阈值，则将该像素点确定为字符像素点；

连通域分析子模块，用于对所述目标文本图像中的所有字符像素点进行连通域分析，得到多个字符连通域；

第二确定子模块，用于针对每一所述字符连通域，将该字符连通域的最小外接矩形作为单字符区域。

可选地，所述装置800还包括：

第三生成模块，用于根据所述目标文本图像对应的至少一个单字符区域，生成所述目标文本图像对应的至少一个目标文本行区域。

需要说明的是，上述模型训练装置可以独立于上述图像处理装置800，还可以集成在上述图像处理装置800中，本公开不作具体限定。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开提供的上述图像处理方法的步骤。

图9是根据一示例性实施例示出的一种电子设备700的框图。如图9所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的图像处理方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像处理方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的图像处理方法。

图10是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图10，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的图像处理方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的图像处理方法的步骤。例如，该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的图像处理方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的图像处理方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像处理方法，其特征在于，包括：

获取目标文本图像；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本图像，生成所述目标文本图像对应的目标字符置信度分布和目标邻域置信度分布，包括：

3.根据权利要求2所述的方法，其特征在于，所述目标置信度预测模型包括依次连接的特征提取网络、特征融合网络以及预测模块，所述特征融合网络包括依次连接的第一自顶向下融合单元、自底向上融合单元和第二自顶向下融合单元；

4.根据权利要求3所述的方法，其特征在于，所述目标置信度预测模型通过以下方式训练得到：

5.根据权利要求4所述的方法，其特征在于，每一所述真实文本图像对应的第二样本字符置信度分布和第二样本邻域置信度分布通过以下方式来获取：

6.根据权利要求4所述的方法，其特征在于，所述第一训练样本还包括对每一所述第一合成样本图像进行图像增强处理后所得的第一增强图像以及每一所述第一增强图像对应的第三样本字符置信度分布和第三样本邻域置信度分布；和/或

7.根据权利要求4-6中任一项所述的方法，其特征在于，所述第二训练样本还包括多个第二合成文本图像、每一所述第二合成文本图像对应的第五样本字符置信度分布和第五样本邻域置信度分布。

8.根据权利要求7所述的方法，其特征在于，所述第二训练样本还包括对每一所述第二合成样本图像进行图像增强处理后所得的第三增强图像以及每一所述第三增强图像对应的第六样本字符置信度分布和第六样本邻域置信度分布。

9.根据权利要求1-6中任一项所述的方法，其特征在于，所述根据所述目标字符置信度分布和所述目标邻域置信度分布，生成所述目标文本图像对应的至少一个单字符区域，包括：

10.根据权利要求1-6中任一项所述的方法，其特征在于，所述方法还包括：

11.一种图像处理装置，其特征在于，包括：

第一获取模块，用于获取目标文本图像；

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。

13.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-10中任一项所述方法的步骤。