CN114973268A

CN114973268A - 文本识别方法、装置、存储介质及电子设备

Info

Publication number: CN114973268A
Application number: CN202210475607.XA
Authority: CN
Inventors: 杨明坤
Original assignee: Beijing Zhitong Oriental Software Technology Co ltd
Current assignee: Beijing Zhitong Oriental Software Technology Co ltd
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2022-08-30

Abstract

本公开涉及一种文本识别方法、装置、存储介质及电子设备，该方法获取待检测图像对应的初始文本区域；在确定所述初始文本区域为非水平状态的情况下，对所述初始文本区域进行形变处理，得到所述初始文本区域对应的水平文本区域；根据所述水平文本区域，确定所述待检测图像中的文本。也就是说，本公开在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。

Description

文本识别方法、装置、存储介质及电子设备

技术领域

本公开涉及图像处理技术领域，具体地，涉及一种文本识别方法、装置、存储介质及电子设备。

背景技术

常见的文本识别方法可以分为印刷体识别和手写体识别，其中，手写体识别除了面临印刷体识别中的各类问题外，还受书写风格的影响。尤其在教育场景下，小学生作答时很难保证同一行内容的横平竖直，容易出现作答文本行的弧形、波浪形等多种弯曲形状，基于此，在文本行检测需求的源头产生了任意形状的文本行。

相关技术中，可以先通过神经网络预测文本行的轮廓，进而对轮廓中的文本进行识别，但是，由于文本行的形状不规则，预测出的轮廓与文本行过于贴合，导致文字容易被截断，出现文本行不完整的情况，从而使得文本识别的准确率比较低。

发明内容

为了解决上述问题，本公开提供一种文本识别方法、装置、存储介质及电子设备。

第一方面，本公开提供一种文本识别方法，所述方法包括：

获取待检测图像对应的初始文本区域；

在确定所述初始文本区域为非水平状态的情况下，对所述初始文本区域进行形变处理，得到所述初始文本区域对应的水平文本区域；

根据所述水平文本区域，确定所述待检测图像中的文本。

可选地，所述确定所述初始文本区域为非水平状态包括：

确定所述初始文本区域对应的最小外接矩形；

确定所述初始文本区域的区域面积与所述最小外接矩形的矩形面积之间的面积比值；

在所述面积比值小于或等于预设比值阈值的情况下，确定所述初始文本区域为非水平状态。

可选地，在所述确定所述初始文本区域对应的最小外接矩形前，所述方法还包括：

针对所述初始文本区域的每个像素点，根据所述像素点的位置，确定所述像素点对应的移动方向，并根据所述移动方向和预设移动距离，确定所述像素点对应的目标位置；

根据每个所述像素点对应的目标位置，确定所述初始文本区域对应的扩展文本区域；

所述确定所述初始文本区域对应的最小外接矩形包括：

确定所述扩展文本区域对应的最小外接矩形。

可选地，所述获取待检测图像对应的初始文本区域包括：

将所述待检测图像输入预先训练的文本区域检测模型，以获取所述文本区域检测模型输出的所述初始文本区域。

可选地，所述文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型，所述特征获取子模型的输出端与所述特征增强子模型的输入端耦合，所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦合；所述将所述待检测图像输入预先训练的文本区域检测模型，以获取所述文本区域检测模型输出的所述初始文本区域包括：

将所述待检测图像输入所述特征获取子模型，以获取所述特征获取子模型输出的多个特征图，不同特征图对应的尺寸不同；

将多个所述特征图输入所述特征增强子模型，通过所述特征增强子模型对多个所述特征图进行扩大增强处理和缩小增强处理，以获取所述特征增强子模型输出的多个目标特征图；

根据多个所述目标特征图，通过所述轮廓检测子模型，获取所述初始文本区域。

可选地，所述根据多个所述目标特征图，通过所述轮廓检测子模型，获取所述初始文本轮廓包括：

对多个所述目标特征图进行拼接处理，得到目标拼接特征图；

将所述目标拼接特征图输入所述轮廓检测子模型，以获取所述轮廓检测子模型输出的所述初始文本区域。

可选地，所述文本区域检测模型通过以下方式训练得到：

获取多个样本集，所述样本集包括样本图像和所述样本图像对应的真值二值图，所述二值图用于表征所述样本图像中的文本区域；

通过多个所述样本集对目标神经网络模型进行训练，得到所述文本区域检测模型。

可选地，所述获取多个样本集包括：

获取多个所述样本图像和每个所述样本图像对应的文本边界；

针对每个所述样本图像，根据预设调整系数和所述样本图像对应的文本边界的面积周长比，确定边界距离，根据所述边界距离确定所述样本图像对应的真值阈值图，根据所述文本边界确定所述样本图像对应的真值概率图，并根据所述真值阈值图和所述真值概率图，确定所述样本图像对应的所述真值二值图。

可选地，所述通过多个所述样本集对目标神经网络模型进行训练，得到所述文本区域检测模型包括：

循环执行模型训练步骤，直至根据所述真值二值图和样本二值图确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为所述文本区域检测模型；所述样本二值图根据样本阈值图和样本概率图确定，所述样本阈值图和所述样本概率图为所述样本图像输入训练后的目标神经网络模型后输出的图像；

所述模型训练步骤包括：

将多个所述样本图像输入所述目标神经网络模型，以获取所述目标神经网络模型输出的每个所述样本图像对应的所述样本阈值图和所述样本概率图；

根据所述样本阈值图和所述样本概率图，确定所述样本二值图；

在根据所述真值二值图和所述样本二值图确定训练后的目标神经网络模型不满足所述预设停止迭代条件的情况下，根据所述真值二值图和所述样本二值图确定目标损失值，根据所述目标损失值更新所述目标神经网络模型的参数，得到训练后的目标神经网络模型，并将该训练后的目标神经网络模型作为新的目标神经网络模型。

第二方面，本公开提供一种文本识别装置，所述装置包括：

区域获取模块，用于获取待检测图像对应的初始文本区域；

状态确定模块，用于在确定所述初始文本区域为非水平状态的情况下，对所述初始文本区域进行形变处理，得到所述初始文本区域对应的水平文本区域；

文本识别模块，用于根据所述水平文本区域，确定所述待检测图像中的文本。

可选地，所述状态确定模块，还用于：

确定所述初始文本区域对应的最小外接矩形；

可选地，所述装置还包括：

位置确定模块，用于针对所述初始文本区域的每个像素点，根据所述像素点的位置，确定所述像素点对应的移动方向，并根据所述移动方向和预设移动距离，确定所述像素点对应的目标位置；

区域确定模块，用于根据每个所述像素点对应的目标位置，确定所述初始文本区域对应的扩展文本区域；

所述状态确定模块，还用于：

确定所述扩展文本区域对应的最小外接矩形。

可选地，所述区域获取模块，还用于：

可选地，所述文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型，所述特征获取子模型的输出端与所述特征增强子模型的输入端耦合，所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦合；所述区域获取模块，还用于：

可选地，所述区域获取模块，还用于：

所述模型训练步骤包括：

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面所述方法的步骤。

第四方面，本公开提供一种终端，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述第一方面所述方法的步骤。

通过上述技术方案，通过获取待检测图像对应的初始文本区域；在确定所述初始文本区域为非水平状态的情况下，对所述初始文本区域进行形变处理，得到所述初始文本区域对应的水平文本区域；根据所述水平文本区域，确定所述待检测图像中的文本。也就是说，本公开在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一示例性实施例示出的一种文本识别方法的流程图；

图2是本公开一示例性实施例示出的一种文本区域示意图；

图3是本公开一示例性实施例示出的另一种文本识别方法的流程图；

图4是本公开一示例性实施例示出的一种文本区域检测模型的训练方法的流程图；

图5是本公开一示例性实施例示出的一种图像示意图；

图6是本公开一示例性实施例示出的一种模型结构示意图；

图7是本公开一示例性实施例示出的一种扩展文本区域示意图；

图8是本公开一示例性实施例示出的一种外接矩形示意图；

图9是本公开一示例性实施例示出的一种文本识别装置的框图；

图10是本公开一示例性实施例示出的另一种文本识别装置的框图；

图11是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下，并获得由相应装置所有者给予授权的情况下进行的。

首先，对本公开的应用场景进行说明。目前常用的文本行检测方法包括传统方式(非深度学习)、目标检测方式以及文本检测方式，传统方式可以是二值化、连通域分析、投影分析等文本定位方式，这种方式一般只能在简单场景下使用，对复杂场景的鲁棒性比较差，很难有较强的泛化性。目标检测方式可以是YOLO系列、MaskRCNN、RetinaNet、CenterNet等，这种方式矩形框的限制对拍照场景下易产生的倾斜文本和弯曲文本不鲁棒。文本检测方式可以是PSENet、Craft、CTPN、EAST、FCENet等，CTPN、EAST等基于回归的方式，难以描述任意形状的弯曲文本；PSENet基于分割的方式，将输入图像的每个像素分类成二值图，然后再进行聚类等得到最终结果，处理比较复杂，网络流程长；FCENet使用轮廓表征模型的方法，通常对文字轮廓的描述完整性不足，实时性略差，且输出形式无法直接进行文本识别处理。

为了解决上述存在的问题，本公开提供一种文本识别方法、装置、存储介质及电子设备，在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。

以下结合具体的实施例对本公开进行说明。

图1是本公开一示例性实施例示出的一种文本识别方法的流程图，如图1所示，该方法可以包括：

S101、获取待检测图像对应的初始文本区域。

其中，该文本区域可以是该待检测图像中文本的轮廓，图2是本公开一示例性实施例示出的一种文本区域示意图，如图2所示，弯曲形状的区域为该初始文本区域。

在本步骤中，可以将该待检测图像输入预先训练的文本区域检测模型，以获取该文本区域检测模型输出的该初始文本区域。

S102、在确定该初始文本区域为非水平状态的情况下，对该初始文本区域进行形变处理，得到该初始文本区域对应的水平文本区域。

在本步骤中，在获取该初始文本区域后，可以先确定该初始文本区域是否为非水平状态，即确定该待检测图像中的文本是否为弯曲文本。在一种可能的实现方式中，可以确定该初始文本区域对应的最小外接矩形，确定该初始文本区域的区域面积与该最小外接矩形的矩形面积之间的面积比值，在该面积比值小于或等于预设比值阈值的情况下，确定该初始文本区域为非水平状态。

进一步地，在确定该初始文本区域为非水平状态的情况下，可以通过TPS(ThinPlate Spline，薄样板条函数)对该初始文本区域进行形变处理。示例地，可以先在该初始文本区域的轮廓上确定N个匹配点，同样取N个点均匀分布的矩形轮廓点作为形变处理后的点，此矩形的宽可以与该初始文本区域的最小外接矩形的宽相同，此矩形的长可以是该初始文本区域的最小外接矩形的长的1.2倍。之后，通过TPS可以直接从该初始文本区域对应的曲线文本轮廓点变换为矩形文本轮廓点，曲线轮廓内的文本相应地变换到矩形轮廓内，此时得到的矩形轮廓即为该水平文本区域。

S103、根据该水平文本区域，确定该待检测图像中的文本。

在本步骤中，在得到该水平文本区域后，可以通过现有技术的方法，对该水平文本区域内的文本进行识别，得到该待检测图像中的文本。

采用上述方法，在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。

图3是本公开一示例性实施例示出的另一种文本识别方法的流程图，如图3所示，该方法可以包括：

S301、将待检测图像输入预先训练的文本区域检测模型，以获取该文本区域检测模型输出的该初始文本区域。

其中，该文本区域检测模型可以包括特征获取子模型、特征增强子模型以及轮廓检测子模型，该特征获取子模型的输出端与该特征增强子模型的输入端耦合，该特征增强子模型的输出端与该轮廓检测子模型的输入端耦合。该文本区域可以是该待检测图像中文本的轮廓。

图4是本公开一示例性实施例示出的一种文本区域检测模型的训练方法的流程图，如图4所示，该方法可以包括：

S1、获取多个样本集。

其中，该样本集可以包括样本图像和该样本图像对应的真值二值图，该二值图可以用于表征该样本图像中的文本区域。

在一种可能的实现方式中，可以获取多个样本图像和每个样本图像对应的文本边界，针对每个该样本图像，根据预设调整系数和该样本图像对应的文本边界的面积周长比，确定边界距离，根据该边界距离确定该样本图像对应的真值阈值图，根据该文本边界确定该样本图像对应的真值概率图，并根据该真值阈值图和该真值概率图，确定该样本图像对应的该真值二值图。

示例地，图5是本公开一示例性实施例示出的一种图像示意图，如图5所示，包括第一线框、第二线框以及第三线框，第二线框为该文本边界，该文本边界可以通过人工标注，在获取多个样本图像和每个样本图像对应的文本边界后，可以获取该预设调整系数，该预设调整系数可以根据文本行的粗细预先设置，例如，该预设调整系数可以是1.2，之后，可以确定该文本边界的面积周长比，将该面积周长比与该预设调整系数的乘积作为该边界距离，根据该边界距离和该第二线框，确定该第一线框和该第三线框，并将该第一线框和该第三线框围成的区域作为该真值阈值图。最后，可以将第一线框内的像素点的像素值设置为0.3，针对该真值阈值图中每个像素点，可以通过以下公式计算该像素点的像素值：

v＝1-d/D (1)

其中，v为该像素值，d为该像素点距离该第二线框的距离，D为边界距离。

进一步地，在计算得到该阈值图中每个像素点的像素值后，可以通过像素值表示该样本图像对应的真值概率图，以图5所示的图像为例，该第一线框内的像素点的像素值为0.3，该第二线框的限速点的像素值为0，从该第二线框开始至该第一线框，像素值范围在0-1之间，且越来越大，从该第二线框开始至该第三线框，像素值范围也在0-1之间，且越来越大。

在得到该样本图像对应的真值阈值图和真值概率图后，可以将该真值阈值图与该真值概率图之间的差值，作为该真值二值图。

S2、通过多个该样本集对目标神经网络模型进行训练，得到该文本区域检测模型。

在获取多个样本集后，可以循环执行模型训练步骤，直至根据该真值二值图和样本二值图确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为该文本区域检测模型；该样本二值图根据样本阈值图和样本概率图确定，该样本阈值图和该样本概率图为该样本图像输入训练后的目标神经网络模型后输出的图像。

该目标神经网络模型可以是基于FCENet(Fourier Contour Embedding Net，傅里叶轮廓嵌入网络)优化后的网络模型，示例地，可以将ResNet18轻量级网络作为骨架网络，在此基础上增加一个特征增强模型，该特征增量模型可以是FPEM(Feature PyramidEnhancement Module，特征金字塔增强模块)。图6是本公开一示例性实施例示出的一种模型结构示意图，如图6所示，FPEM可以是U型的结构，包含两个阶段，一个是特征图扩大的增强阶段，一个是特征图缩小的增强阶段。在特征图扩大的增强阶段，输入的是多个特征图(图6第一列)，特征图的尺寸分别为1/4、1/8、1/16、1/32，之后，逐步的从1/32的特征图进行二倍上采样，与1/16的特征图像素级相加，进行3*3的深度可分离卷积、1*1的卷积、BN(Batch Normalization，批量归一化)以及Relu(Rectified Linear Unit，线性整流函数)处理，得到1/16特征图(图6最中间一列)，以此类推逐步计算到1/4特征图。在缩小阶段，逐步从1/4特征图进行二倍上采样，与1/8的特征图像素级相加，进行3*3的深度可分离卷积、1*1的卷积、BN以及Relu处理，得到最后的1/8目标特征图(图6最后一列)，以此类推逐步计算到1/32目标特征图。

需要说明的是，FPEM的输出又可以用作下一个FPEM的输入，因此可以是一个级联结构，级联结构有利于图像特征充分地融合，具有更强的特征提取能力，级联得越多，融合的越好，感受野越大。在计算代价方面，基于深度可分离卷积的架构，计算耗时较小。在级联的FPEM结束之后，进行特征融合，把级联的FPEM的每一个输出都进行融合。通常的融合方式采用通道拼接，但这样通道数增加，速度会变慢。因此，本提案采用像素相加方式，通过这样的计算方式，最终通道数与融合前不变，可以大大减少计算量。

基于上述的模型结构，ResNet18的参数量比较小，推理过程中速度更快，但是其感受野更弱，也就是说特征提取的能力更弱，基于此，增加了该特征增强模型后，可以使模型的特征表达能力更强，从而在提高该文本区域检测模型的运行效率的基础上，提高了特征提取的准确率。另外，该第一线框包围的区域为该样本图像的文本中心区域，该第二线框包围的区域为该样本图像的文本区域，在该文本区域检测模型训练过程中，在该第一线框和第二线框比较准确的情况下，锁定的文本区域和文本中心区域也比较准确，从而进一步提高了文本识别的准确率。

其中，该模型训练步骤包括：

S21、将多个该样本图像输入该目标神经网络模型，以获取该目标神经网络模型输出的每个该样本图像对应的该样本阈值图和该样本概率图。

S22、根据该样本阈值图和该样本概率图，确定该样本二值图。

在得到该样本阈值图和该样本概率图后，可以将该样本概率图与该样本阈值图的差值，作为该样本二值图。

S23、在根据该真值二值图和该样本二值图确定训练后的目标神经网络模型不满足该预设停止迭代条件的情况下，根据该真值二值图和该样本二值图确定目标损失值，根据该目标损失值更新该目标神经网络模型的参数，得到训练后的目标神经网络模型，并将该训练后的目标神经网络模型作为新的目标神经网络模型。

在本步骤中，在获取该待检测图像后，可以将该待检测图像输入该特征获取子模型，以获取该特征获取子模型输出的多个特征图，不同特征图对应的尺寸不同；将多个该特征图输入该特征增强子模型，通过该特征增强子模型对多个该特征图进行扩大增强处理和缩小增强处理，以获取该特征增强子模型输出的多个目标特征图；根据多个该目标特征图，通过该轮廓检测子模型，获取该初始文本区域。其中，该特征获取子模型可以对应ResNet18，该特征增强子模型可以对应FPEM。

示例地，在获取该特征获取子模型输出的多个特征图后，可以对多个目标特征图进行拼接处理，得到目标拼接特征图，将该目标拼接特征图输入该轮廓检测子模型，以获取该轮廓检测子模型输出的该初始文本区域。示例地，可以通过concat方式对多个目标特征图进行拼接处理。

S302、确定该初始文本区域对应的最小外接矩形。

在本步骤中，在获取该待检测图像对应的初始文本区域后，针对该初始文本区域的每个像素点，根据该像素点的位置，确定该像素点对应的移动方向，并根据该移动方向和预设移动距离，确定该像素点对应的目标位置；根据每个该像素点对应的目标位置，确定该初始文本区域对应的扩展文本区域；确定该扩展文本区域对应的最小外接矩形。其中，该预设移动距离可以根据经验预先确定，示例地，该预设移动距离可以是该初始文本区域的最小外接矩形的宽度的1/10。

示例地，针对该初始文本区域的每个像素点，可以先确定该像素点的两个邻边，将该像素点沿着两个邻边远离方向单位向量之和，作为该像素点对应的移动方向。图7是本公开一示例性实施例示出的一种扩展文本区域示意图，如图7所示，内侧的六边形为该初始文本区域，箭头所指方向即为该移动方向，r为该预设移动距离。之后，可以根据该移动方向和预设移动距离，确定该像素点对应的目标位置。在确定该初始文本区域的每个像素点对应的目标位置后，即可得到该扩展文本区域，如图7所示，外侧的六边形即为该扩展文本区域。

S303、确定该初始文本区域的区域面积与该最小外接矩形的矩形面积之间的面积比值。

在本步骤中，若该初始文本区域为水平状态，则该初始文本区域在该最小外接矩形中所占面积比会比较大，若该初始文本区域为非水平状态，则该初始文本区域在该最小外接矩形中所占面积比会比较小。图8是本公开一示例性实施例示出的一种外接矩形示意图，如图8所示，可以明显看出，水平状态的初始文本区域在最小外接矩形中所占的面积比较大。基于此，在确定该最小外接矩形后，可以确定该初始文本区域的区域面积与该最小外接矩形的矩形面积之间的面积比值，通过该面积比值进一步确定该初始文本区域是否为水平状态。

S304、在该面积比值小于或等于预设比值阈值的情况下，确定该初始文本区域为非水平状态。

其中，该预设比值阈值可以根据试验预先测试得到，示例地，该预设比值阈值可以是80％。

S305、在确定该初始文本区域为非水平状态的情况下，对该初始文本区域进行形变处理，得到该初始文本区域对应的水平文本区域。

S306、根据该水平文本区域，确定该待检测图像中的文本。

在本步骤中，若该初始文本区域为水平状态，则可以直接根据该初始文本区域，确定该待检测图像中的文本。

采用上述方法，在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。另外，对该文本区域检测模型的模型结构进行优化后，模型的耗时比较低，在上线部署时可以节约计算资源和成本，并且，对该初始文本区域进行扩展后，能够进一步提升手写体文本行识别的准确率。

图9是本公开一示例性实施例示出的一种文本识别装置的框图，如图9所示，该装置可以包括：

区域获取模块901，用于获取待检测图像对应的初始文本区域；

状态确定模块902，用于在确定该初始文本区域为非水平状态的情况下，对该初始文本区域进行形变处理，得到该初始文本区域对应的水平文本区域；

文本识别模块903，用于根据该水平文本区域，确定该待检测图像中的文本。

可选地，该状态确定模块902，还用于：

确定该初始文本区域对应的最小外接矩形；

确定该初始文本区域的区域面积与该最小外接矩形的矩形面积之间的面积比值；

在该面积比值小于或等于预设比值阈值的情况下，确定该初始文本区域为非水平状态。

可选地，图10是本公开一示例性实施例示出的另一种文本识别装置的框图，如图10所示，该装置还包括：

位置确定模块904，用于针对该初始文本区域的每个像素点，根据该像素点的位置，确定该像素点对应的移动方向，并根据该移动方向和预设移动距离，确定该像素点对应的目标位置；

区域确定模块905，用于根据每个该像素点对应的目标位置，确定该初始文本区域对应的扩展文本区域；

该状态确定模块902，还用于：

确定该扩展文本区域对应的最小外接矩形。

可选地，该区域获取模块901，还用于：

将该待检测图像输入预先训练的文本区域检测模型，以获取该文本区域检测模型输出的该初始文本区域。

可选地，该文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型，该特征获取子模型的输出端与该特征增强子模型的输入端耦合，该特征增强子模型的输出端与该轮廓检测子模型的输入端耦合；该区域获取模块901，还用于：

将该待检测图像输入该特征获取子模型，以获取该特征获取子模型输出的多个特征图，不同特征图对应的尺寸不同；

将多个该特征图输入该特征增强子模型，通过该特征增强子模型对多个该特征图进行扩大增强处理和缩小增强处理，以获取该特征增强子模型输出的多个目标特征图；

根据多个该目标特征图，通过该轮廓检测子模型，获取该初始文本区域。

可选地，该区域获取模块901，还用于：

对多个该目标特征图进行拼接处理，得到目标拼接特征图；

将该目标拼接特征图输入该轮廓检测子模型，以获取该轮廓检测子模型输出的该初始文本区域。

可选地，该区域获取模块901，还用于：

获取多个样本集，该样本集包括样本图像和该样本图像对应的真值二值图，该二值图用于表征该样本图像中的文本区域；

通过多个该样本集对目标神经网络模型进行训练，得到该文本区域检测模型。

可选地，该区域获取模块901，还用于：

获取多个该样本图像和每个该样本图像对应的文本边界；

针对每个该样本图像，根据预设调整系数和该样本图像对应的文本边界的面积周长比，确定边界距离，根据该边界距离确定该样本图像对应的真值阈值图，根据该文本边界确定该样本图像对应的真值概率图，并根据该真值阈值图和该真值概率图，确定该样本图像对应的该真值二值图。

可选地，该区域获取模块901，还用于：

循环执行模型训练步骤，直至根据该真值二值图和样本二值图确定训练后的目标神经网络模型满足预设停止迭代条件，将训练后的目标神经网络模型作为该文本区域检测模型；该样本二值图根据样本阈值图和样本概率图确定，该样本阈值图和该样本概率图为该样本图像输入训练后的目标神经网络模型后输出的图像；

该模型训练步骤包括：

将多个该样本图像输入该目标神经网络模型，以获取该目标神经网络模型输出的每个该样本图像对应的该样本阈值图和该样本概率图；

根据该样本阈值图和该样本概率图，确定该样本二值图；

在根据该真值二值图和该样本二值图确定训练后的目标神经网络模型不满足该预设停止迭代条件的情况下，根据该真值二值图和该样本二值图确定目标损失值，根据该目标损失值更新该目标神经网络模型的参数，得到训练后的目标神经网络模型，并将该训练后的目标神经网络模型作为新的目标神经网络模型。

通过上述装置，在确定待检测图像对应的初始文本区域为非水平状态的情况下，先对该初始文本区域进行形变处理，之后，再基于形变处理后的水平文本区域进行文本识别，由于该水平文本区域的形状比较规则，其轮廓不会与文本行过于贴合，使得根据该水平文本区域识别得到的文本行中的文本不会被截断，文本行更加完整，从而提高了文本识别的准确率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据本公开一示例性实施例示出的一种电子设备1100的框图。如图11所示，该电子设备1100可以包括：处理器1101，存储器1102。该电子设备1100还可以包括多媒体组件1103，输入/输出(I/O)接口1104，以及通信组件1105中的一者或多者。

其中，处理器1101用于控制该电子设备1100的整体操作，以完成上述的文本识别方法中的全部或部分步骤。存储器1102用于存储各种类型的数据以支持在该电子设备1100的操作，这些数据例如可以包括用于在该电子设备1100上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器1102可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件1103可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1102或通过通信组件1105发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口1104为处理器1101和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件1105用于该电子设备1100与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件1105可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备1100可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的文本识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的文本识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1102，上述程序指令可由电子设备1100的处理器1101执行以完成上述的文本识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的文本识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待检测图像对应的初始文本区域；

根据所述水平文本区域，确定所述待检测图像中的文本。

2.根据权利要求1所述的方法，其特征在于，所述确定所述初始文本区域为非水平状态包括：

确定所述初始文本区域对应的最小外接矩形；

3.根据权利要求2所述的方法，其特征在于，在所述确定所述初始文本区域对应的最小外接矩形前，所述方法还包括：

所述确定所述初始文本区域对应的最小外接矩形包括：

确定所述扩展文本区域对应的最小外接矩形。

4.根据权利要求1所述的方法，其特征在于，所述获取待检测图像对应的初始文本区域包括：

5.根据权利要求4所述的方法，其特征在于，所述文本区域检测模型包括特征获取子模型、特征增强子模型以及轮廓检测子模型，所述特征获取子模型的输出端与所述特征增强子模型的输入端耦合，所述特征增强子模型的输出端与所述轮廓检测子模型的输入端耦合；所述将所述待检测图像输入预先训练的文本区域检测模型，以获取所述文本区域检测模型输出的所述初始文本区域包括：

6.根据权利要求5所述的方法，其特征在于，所述根据多个所述目标特征图，通过所述轮廓检测子模型，获取所述初始文本轮廓包括：

7.根据权利要求4所述的方法，其特征在于，所述文本区域检测模型通过以下方式训练得到：

8.根据权利要求7所述的方法，其特征在于，所述获取多个样本集包括：

9.根据权利要求7所述的方法，其特征在于，所述通过多个所述样本集对目标神经网络模型进行训练，得到所述文本区域检测模型包括：

所述模型训练步骤包括：

10.一种文本识别装置，其特征在于，所述装置包括：

区域获取模块，用于获取待检测图像对应的初始文本区域；

11.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-9中任一项所述方法的步骤。