CN115188000A

CN115188000A - 基于ocr的文本识别方法、装置、存储介质及电子设备

Info

Publication number: CN115188000A
Application number: CN202210864937.8A
Authority: CN
Inventors: 柳阳
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-14

Abstract

本发明公开了一种基于OCR的文本识别方法、装置、存储介质及电子设备，该文本识别方法包括：获取文本图像样本集、以及对应的文本标签和超分辨率图像样本；利用文本图像样本集、文本标签和超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，其中，文本识别网络包括第一损失函数，超分辨率网络包括第二损失函数，且文本识别网络和超分辨率网络包括至少一个共享的子网络；在训练过程中，根据第一损失函数和第二损失函数，对文本识别网络和超分辨率网络的网络参数进行调整；当训练完成时，利用已训练的文本识别网络进行文本识别，从而能较好地识别低质量文本图像，有效提高了文本图像的识别精准性和识别效果。

Description

基于OCR的文本识别方法、装置、存储介质及电子设备

【技术领域】

本发明涉及图像处理技术领域，具体涉及一种基于OCR的文本识别方法、装置、存储介质及电子设备。

【背景技术】

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

OCR （Optical Character Recognition，光学字符识别）是计算机视觉领域的一个经典课题，并被广泛使用于无人驾驶、路标识别、车牌识别以及教育场景下的拍照搜题等领域。OCR是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。不同于电脑中的文本识别，OCR场景中需要识别的文本图像往往包含着大量低质量图像（主要指低分辨率图像），而现有的文本识别方法很难针对低质量文本图像进行有效识别，识别准确性较低。

【发明内容】

本发明提出一种基于OCR的文本识别方法、装置、存储介质及电子设备，能提高文本识别的精准性，识别效果好。

一方面，本发明实施例提供了一种基于OCR的文本识别方法，包括：

获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本；

利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，所述文本识别网络包括第一损失函数，所述超分辨率网络包括第二损失函数，且所述文本识别网络和所述超分辨率网络包括至少一个共享的子网络；

在训练过程中，根据所述第一损失函数和所述第二损失函数，对所述文本识别网络和所述超分辨率网络的网络参数进行调整；

当训练完成时，利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。

另一方面，本发明实施例还提供一种基于OCR的文本识别装置，包括：

获取单元，用于获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本；

训练单元，用于利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，所述文本识别网络包括第一损失函数，所述超分辨率网络包括第二损失函数，且所述文本识别网络和所述超分辨率网络包括至少一个共享的子网络；在训练过程中，根据所述第一损失函数和所述第二损失函数，对所述文本识别网络和所述超分辨率网络的网络参数进行调整；

识别单元，用于当训练完成时，利用已训练的所述文本识别网络对待识别的文本图像进行文本识别。

在一些实施方式中，所述文本识别网络包括相连接的特征提取子网络和特征识别子网络，所述超分辨率网络包括相连接的所述特征提取子网络和超分辨率子网络，所述训练单元具体用于：

通过所述特征提取子网络，确定每张所述文本图像样本对应的特征图；

通过所述超分辨率子网络，生成所述特征图对应的预测图像结果；

通过所述特征识别子网络，生成所述特征图对应的预测文本结果；

根据所述预测图像结果、所述预测文本结果、所述文本标签、所述超分辨率图像样本、所述第一损失函数和所述第二损失函数，对所述文本识别网络和所述超分辨率网络进行参数调整。

在一些实施方式中，所述训练单元进一步用于：

根据所述第一损失函数、所述预测文本结果和所述文本标签，计算第一误差值；

根据所述第二损失函数、所述预测图像结果和所述超分辨率图像样本，计算第二误差值；

利用公式L=L_rec +λL_sr计算总误差值，其中，L为所述总误差值，L_rec为所述第一误差值，L_sr为所述第二误差值，λ为超参数；

根据所述总误差值反向调整所述文本识别网络和所述超分辨率网络的网络参数。

在一些实施方式中，所述特征提取子网络包括第一特征提取块、级联的多个残差块以及特征增强块，所述训练单元进一步用于：

通过所述第一特征提取块，确定每张所述文本图像样本对应的第一浅层特征图；

通过所述多个残差块，对所述第一浅层特征图进行处理；

通过所述特征增强块，获取每个所述残差块处理后输出的残差特征图，并分别对所述第一浅层特征图和所述残差特征图进行下采样，得到对应的下采样特征图，之后对所有所述下采样特征图进行通道融合，得到所述文本图像样本对应的特征图。

在一些实施方式中，所述文本识别网络和所述超分辨率网络均还包括与所述特征提取子网络连接的文本矫正子网络，所述训练单元进一步用于：

通过所述文本矫正子网络，确定每张所述文本图像样本上的多个关键点信息，并根据预设插值算法和所述关键点信息，对所述文本图像样本进行矫正，以得到对应的矫正图像；

所述通过所述第一特征提取块，确定每张所述文本图像样本对应的第一浅层特征图，具体包括：通过所述特征提取子网络，对每张所述矫正图像进行浅层特征提取，得到第一浅层特征图。

在一些实施方式中，所述超分辨率子网络包括第二特征提取块、级联的多个序列残差块以及像素重组块，所述训练单元进一步用于：

生成所述文本图像样本对应的二值化图；

对所述特征图和所述二值化图进行通道融合，以生成融合特征图；

通过所述第二特征提取块，确定所述融合特征图对应的第二浅层特征图；

通过所述序列残差块，对所述第二浅层特征图进行处理，得到深层特征图；

通过所述像素重组块，对所述深层特征图和所述第二浅层特征图进行像素重组，得到对应的预测图像结果。

在一些实施方式中，所述超分辨率子网络还包括中心对齐块，在通过所述第二特征提取块，确定所述融合特征图对应的第二浅层特征图之前，所述训练单元还用于：

通过所述中心对齐块，生成所述融合特征图对应的对齐特征图；

所述训练单元具体用于：通过所述第二特征提取块，从所述对齐特征图中进行浅层特征提取，得到第二浅层特征图。

另一方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载以执行上述任一项所述的基于OCR的文本识别方法。

另一方面，本发明实施例还提供一种电子设备，包括耦合的存储器和处理器，所述存储器存储内有计算机程序，所述处理器用于运行所述存储器内的所述计算机程序，以执行上述任一项所述的基于OCR的文本识别方法中的步骤。

本发明实施例提供的基于OCR的文本识别方法、装置、存储介质及电子设备，通过获取文本图像样本集、以及所述文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本，接着，利用文本图像样本集、文本标签和超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，其中，文本识别网络包括第一损失函数，超分辨率网络包括第二损失函数，且文本识别网络和超分辨率网络包括至少一个共享的子网络，同时，在训练过程中，根据第一损失函数和第二损失函数，对文本识别网络和超分辨率网络的网络参数进行调整，当训练完成时，利用已训练的文本识别网络对待识别的文本图像进行文本识别，从而仅在训练阶段加入超分辨率分支进行特征的学习，在推理阶段移除掉这个分支，使得推理时间不变的情况下，有效提高了文本识别网络对低质量文本图像的识别精准性和识别效果。

【附图说明】

为了更清楚地说明本发明或相关技术的实施例，以下附图将在简要介绍实施例时进行说明。显然，附图仅是本发明的一些实施例，本领域普通技术人员可以在不付出任何创造性劳动前提下，根据这些附图获得其他附图。

图1是本发明实施例提供的基于OCR的文本识别方法的流程示意图。

图2是本发明实施例提供的训练阶段和推理阶段中文本识别网络和超分辨率网络的工作流程示意图。

图3是本发明实施例提供的步骤S102的具体流程示意图。

图4是本申请实施例提供的训练阶段中文本识别网络和超分辨率网络的工作流程示意图。

图5是本发明实施例提供的单个序列残差块的结构示意图。

图6是本申请实施例提供的基于OCR的文本识别装置的结构示意图。

图7是本申请实施例提供的电子设备的结构示意图。

图8是本申请实施例提供的电子设备的另一结构示意图。

【具体实施方式】

下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多种所述特征。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。“多种”的含义是两个或两个以上。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

本发明实施例提供了一种基于OCR的文本识别方法、装置、存储介质及电子设备。

请参照图1，图1是本发明实施例提供的基于OCR的文本识别方法的流程示意图。该文本识别方法应用于电子设备中，该电子设备可以包括终端设备或具有文本识别功能的服务器，具体的，文本识别方法包括以下步骤S101-S104，其中：

S101、获取文本图像样本集、以及该文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本。

其中，文本图像样本是低分辨率的RGB图像，超分辨率图像样本是高分辨率的RGB图像。文本标签是指文本图像样本上每个像素点的标签值，比如文本图像样本实际包含的文本内容为“same”时，“same”所在位置的像素点的标签值可以为1，其余像素点的标签值可以为0。

可以利用高分辨率相机和低分辨率相机，或者同一相机不同焦距，针对同一文本文件拍摄，分别得到文本图像样本和超分辨率图像样本，也可以利用高分辨率相机拍摄得到超分辨率图像样本后，通过对超分辨率图像样本进行模糊处理得到文本图像样本，该模糊处理比如均值滤波处理、高斯滤波处理等。

S102、利用该文本图像样本集、该文本标签和该超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，该文本识别网络包括第一损失函数，该超分辨率网络包括第二损失函数，且该文本识别网络和该超分辨率网络包括至少一个共享的子网络。

其中，文本识别网络用于识别出图像上包含的文本内容，超分辨率网络用于提高图像的分辨率，得到超分辨率的图像。文本识别网络和超分辨率网络均是由多个子网络构成，通过使至少一个子网络是两者共享的子网络，从而使文本识别网络的训练和超分辨率网络的训练相关联，也即在对其中一个网络，比如对超分辨率网络进行训练时，共享部分的网络参数的改变，必然会影响另一个网络，比如影响文本识别网络的训练结果。

S103、在训练过程中，根据该第一损失函数和该第二损失函数，对该文本识别网络和该超分辨率网络的网络参数进行调整。

其中，对网络训练的过程，也即通过损失函数，采用迭代方式不断调整网络参数的过程。

在一些实施方式中，请参见图2，图2示出了训练阶段和推理阶段中文本识别网络和超分辨率网络的工作流程示意图。具体的，该文本识别网络可以包括相连接的特征提取子网络和特征识别子网络，该超分辨率网络可以包括相连接的该特征提取子网络和超分辨率子网络，此时，请参见图3，上述步骤S102具体可以包括以下步骤S1021-S1023，其中：

S1021、通过该特征提取子网络，确定每张该文本图像样本对应的特征图。

其中，该特征提取子网络主要用于提取视觉特征，其是文本识别网络和超分辨率网络这两个网络共享的一个子网络，而特征识别子网络和超分辨率子网络为这两个网络各自独有的部分。特征提取子网络主要用于提取视觉特征，在训练阶段①，当特征提取子网络提取出了低分辨率的文本图像样本的特征图时，该特征图会进入两条支线进行处理，一条支线是基于该特征图，通过超分辨率子网络生成超分辨率的预测图像结果，另一条支线是基于该特征图，通过特征识别子网络生成预测文本结果。

例如，在上述图2中，对于文本内容为“serve”的低分辨率的文本图像样本P1，在训练阶段①，当通过共享的特征提取子网络对该文本图像样本处理得到特征图时，该特征图一方面会经由特征识别子网络进行处理，得到文本“serve”，另一方面会经由超分辨率网络进行处理，得到超分辨率图像P2。

在一些实施方式中，特征提取子网络可以残差网络（ResNet）的结构作为主干网络，其可以包括第一特征提取块、级联的多个残差块以及特征增强块，此时，上述步骤S1021具体可以包括：

通过该第一特征提取块，确定每张该文本图像样本对应的第一浅层特征图；

通过该多个残差块，对该第一浅层特征图进行处理；

通过该特征增强块，获取每个该残差块处理后输出的残差特征图，并分别对该第一浅层特征图和该残差特征图进行下采样，得到对应的下采样特征图，之后对所有该下采样特征图进行通道融合，得到该文本图像样本对应的特征图。

其中，第一特征提取块、残差块（residual block，RB）和特征增强块均可以包括卷积组，每个卷积组包含至少一个基本的卷积计算过程，不同卷积组中卷积计算的次数根据卷积核数量而定，不同卷积组中卷积核数量可以相同或不同，卷积核是用来做卷积计算时的矩阵，卷积计算是使用一个卷积核对图像中的每个像素进行一系列运算操作。第一特征提取块、残差块和特征增强块可以依次级联，级联顺序主要指示了这几个模块之间的连接顺序，级联的两个相邻模块间还可以插入其它连接模块，此处不做限制。

特征增强块可以包括下采样块和通道融合块，可以在第一特征提取块和每个残差块的输出处均连接一个下采样块，该下采样块可以对输出处的输出特征图（第一浅层特征图和残差特征图）进行预设倍数的下采样，比如4倍下采样，之后将所有下采样块与一个通道融合块连接，以通过该通道融合块对不同输出层采样后的采样特征图进行通道融合。

由于不同卷积组中卷积核的数量和其输出通道数（维度）一致，比如为64、128、256等，而输出通道数的数量与输出特征图的数量一致，且输出通道数越大的卷积组，其输出特征图的图像尺寸越小，比如若某个卷积组的输出通道数为64，下一个卷积组的输出通道数为128，则经由输出通道数为128的卷积组处理后的输出特征图的尺寸，是经由输出通道数为64的卷积组处理后的输出特征图的尺寸的一半，故这里的通道融合主要是将不同尺寸和维度的采样特征图进行统一，得到预期维度和尺寸的特征图，比如最终得到8×25×992的特征图，992代表维度，8×25代表图像尺寸( 高×宽)。

需要说明的是，由于残差网络的结构使用了直连（shortcut connection），比如，间隔的两个残差块之间通过直连直接连接，故输入信息能通过直连绕道传到输出，较好地保护输入的原始特征，保护输入信息的完整性（也即残差网络包括直接映射部分），与此同时，由于相邻两个级联的残差块之间，上一个残差块的输出会作为下一个残差块的输入，故可以进一步提取输入信息的深层特征（也即残差网络包括残差部分），且整个残差网络只需要学习输入、输出差别的那一部分，简化了学习目标和难度。与此同时，通过增加特征增强块来处理得到最终的输出特征图，相对于直接采用最后一个卷积组的输出特征图作为最终的输出特征图的方案来说，特征增强块的加入，能使最终的输出特征图获得多元化的语义信息，有利于提高后续文本识别的精准性。

在一些实施方式中，由于在自然场景下拍摄文本图像时，会受到很多因素影响，导致拍摄得到的文本图像上的文本排列不一定是水平排列，存在各种各样的形变，比如文本发生弯曲和透视，为提高后续文本识别的精准性，可以提前对这些形变进行矫正。

例如，请参见图4，图4是本申请实施例提供的训练阶段中文本识别网络和超分辨率网络的工作流程示意图，其中，该文本识别网络和该超分辨率网络均还可以包括与该特征提取子网络连接的文本矫正子网络，此时，在上述步骤S1021之前，该基于OCR的文本识别方法还可以包括：

通过该文本矫正子网络，确定每张该文本图像样本上的多个关键点信息，并根据预设插值算法和该关键点信息，对该文本图像样本进行矫正，以得到对应的矫正图像；

该通过该特征提取子网络，确定每张该文本图像样本对应的特征图，具体包括：通过该特征提取子网络，生成每张该矫正图像对应的特征图。

其中，文本矫正子网络也是文本识别网络和超分辨率网络共享的一个子网络，其主要用于将文本矫正成水平排列。可以采用TPS（thin plate spline transformation，薄板样条变换）插值法来矫正，这种矫正方法对透视和弯曲这两种形变文本具有很好的矫正效果。

具体的，可以先通过一个训练好的卷积神经网络预测文本图像样本上的N个关键点A_n，比如20个关键点的位置，通过这些关键点的位置来约束文本的上下边缘，之后，通过TPS插值法将这N个关键点A_n形变到对应的N个点B_n，在这个过程中，采用使得薄板弯曲能量最小的插值方法计算出新的像素值，并进行像素填充，最终生成新的文本图像（矫正图像），以对原始的文本图像样本进行柔性变换。例如，在上述图4中，当文本图像样本上的文本“serve”是弯曲变形的文字时，经过文本矫正子网络处理之后，矫正图像上的文本变为水平文本“serve”。在其他实施方式中，文本矫正子网络也可以采用其它水平排列矫正方法，比如Aff仿射变换（affine transformation）。

S1022、通过该超分辨率子网络，生成该特征图对应的预测图像结果；通过该特征识别子网络，生成该特征图对应的预测文本结果。

在一些实施方式中，请继续参见图4，该超分辨率子网络可以包括第二特征提取块、级联的多个序列残差块、以及像素重组块，该通过该超分辨率子网络，生成该特征图对应的预测图像结果，包括：

生成该文本图像样本对应的二值化图；

对该特征图和该二值化图进行通道融合，以生成融合特征图；

通过该第二特征提取块，确定该融合特征图对应的第二浅层特征图；

通过该序列残差块，对该第二浅层特征图进行处理，得到深层特征图；

通过该像素重组块，对该深层特征图和该第二浅层特征图进行像素重组，得到对应的预测图像结果。

其中，第二特征提取块、序列残差块和像素重组块依次级联，它们均可以包括至少一个卷积组（conv），第二特征提取块的卷积组中可以只包括一个卷积核。二值化图就是将文本图像样本上的像素点的灰度值设置为0（黑色）或255（白色），其能更好地分析文本的形状和轮廓，可以先计算文本图像样本上像素点的平均值K，然后扫描每个像素值，如像素值大于K则将像素值设为255，如像素值小于或等于K则将像素值设为0。

需要说明的是，由于特征图反映的是RGB文本图像样本中文本的空间信息和颜色信息，而二值化图重点反映出文本的形状和轮廓，故通过将两者进行通道融合，也即将两者的通道串联，得到的融合特征图能更利于后续文本部分的超分辨率图像的生成。

序列残差块（Sequential Residual Block，SRB）的个数可以基于需求而定，比如设定为5个。序列残差块也可以仿照残差网络的结构进行设置，比如相邻两个序列残差块级联，间隔的两个序列残差块直连，以提取更深层的和顺序相关的功能。

请参见图5，图5示出了单个序列残差块的结构示意图，其中，每个序列残差块是对残差块RB修改得到的，其以残差块为基础，在末端从水平和垂直两个方向引入了双向LSTM（Long Short-Term Memory，长短时间记忆网络）结构（BLSTM）。BLSTM可以传播误差微分，将融合特征图转化为特征序列，并将其反馈回卷积层。通过BLSTM对融合特征图进行语义信息的特征提取，以水平卷积特征和垂直卷积特征作为序列输入，在隐藏层中反复更新其内部状态，从而使超分辨率网络对倾斜文本也具有鲁棒性。

像素重组块可以包括上采样块和1个卷积核（比如1*1的卷积），其用于将多个通道的深层特征图和第二浅层特征图，转换成预期尺寸的RGB图像块，所有图像块组成的图像即为超分辨率网络预测得到的预测图像结果。

在一些实施方式中，当采用不同相机获得成对的文本图像样本和超分辨率图像样本时，考虑到相机彼此间存在拍摄误差，不可避免地会导致成对的图像彼此间的像素未对准，此时，可以引入一个中心对齐块，也即，该超分辨率子网络还可以包括中心对齐块，在上述步骤“通过该第二特征提取块，确定该融合特征图对应的第二浅层特征图”之前，该文本识别方法还可以包括：

通过该中心对齐块，生成该融合特征图对应的对齐特征图；

上述“通过该第二特征提取块，确定该融合特征图对应的第二浅层特征图”，包括：通过该第二特征提取块，从该对齐特征图中进行浅层特征提取，得到第二浅层特征图。

其中，中心对齐块可以是已训练的空间变换网络（Spatial TransformerNetworks，STN）。通过在进行特征提取之前，对融合特征图进行对齐矫正，从而能解决文本图像样本和超分辨率图像样本彼此间的像素未对准问题。

在一些实施方式中，请继续参见图4，该特征识别子网络可以包括依次级联的特征压缩块、编码器和基于注意力机制的解码器，该通过该特征识别子网络，生成该特征图对应的预测文本结果，包括：

通过该特征压缩块，生成该特征图对应的一维特征向量；

通过该编码器，生成该一维特征向量对应的特征序列；

通过该解码器，生成该特征序列对应的预测文本结果。

其中，特征压缩块可以通过1×1降维和重组的方式，从特征图中获取到1维向量，比如，若特征图尺寸为8×25×992，一维向量尺寸可以为25×1024。编码器可以是基于双向LSTM 的编码器，通过引入基于注意力机制的解码器和基于双向 LSTM 的编码器，可以有效提升文本识别精度。

S1023、根据该预测图像结果、该预测文本结果、该文本标签、该超分辨率图像样本、该第一损失函数和该第二损失函数，对该文本识别网络和该超分辨率网络进行参数调整。

在一些实施方式中，上述步骤S1023具体可以包括：

根据第一损失函数、预测文本结果和文本标签，计算第一误差值；

根据第二损失函数、预测图像结果和超分辨率图像样本，计算第二误差值；

利用公式L=L_rec +λL_sr计算总误差值，其中，L为该总误差值，L_rec为该第一误差值，L_sr为该第二误差值，λ为超参数；

根据该总误差值反向调整该文本识别网络和该超分辨率网络的网络参数。

其中，由于在OCR的识别场景中，只需注意文本图像中字符和背景之间的边界，故在超分辨率网络中，可以引入梯度损失来锐化文本边缘，使生成的文本图像中的字符更加清晰。第一损失函数可以包括交叉熵损失，第二损失函数可以包括均方差损失和梯度损失。超参数的范围可以为0~1，超参数用于对两个误差值的权重进行调节。

具体的，L_rec和L_sr计算公式可以如下：

其中，MN为文本图像样本的尺寸，M为图像长度，N为图像宽度。y_i,j表示文本图像样本中像素点（i,j）的标签值（实际值），S_i,j表示预测文本结果中像素点（i,j）的模型预测值。∇Ihr（x）表示超分辨率图像样本（HR图像）中像素的梯度，∇Isr（x）表示预测图像结果（SR图像）中像素的梯度，梯度是指图像像素的RGB值的空间梯度，“||||₁”即一范数函数，即向量元素绝对值之和，Ex表示图像像素期望（可由均方差损失函数计算得到）。

S104、当训练完成时，利用已训练的该文本识别网络对待识别的文本图像进行文本识别。

其中，当将待识别的文本图像输入已训练的文本识别网络时，其会依次经过文本矫正子网络、特征提取子网络和特征识别子网络的处理，最终识别出该文本图像中包含的文本，比如“serve”。

需要指出的是，请继续参见图2，本实施方式通过在对文本识别网络进行训练（也即训练阶段①）时，引入超分辨率网络这个分支进行共同训练，从而能使特征空间中特征的表达方式得到有效改善，比如通过引入超分辨率网络共同训练后，特征提取子网络和文本矫正子网络的网络参数得到了改善，之后，经由改善后的这些子网络得到的特征图中的特征，特征分辨率得到了显著提升，进而有利于提高推理阶段②文本识别网络对于低分辨率图像的文本识别能力。与此同时，在训练完成后（也即推理阶段②），通过移除超分辨率网络这个分支，从而确保在识别低分辨率的文本图像时，不会增加任何额外的计算量，推理时间不会发生变化，确保了文本识别的高效率。

由上述可知，本发明实施例提供的基于OCR的文本识别方法，通过获取文本图像样本集、以及该文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本，接着，利用文本图像样本集、文本标签和超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，其中，文本识别网络包括第一损失函数，超分辨率网络包括第二损失函数，且文本识别网络和超分辨率网络包括至少一个共享的子网络，同时，在训练过程中，根据第一损失函数和第二损失函数，对文本识别网络和超分辨率网络的网络参数进行调整，当训练完成时，利用已训练的文本识别网络对待识别的文本图像进行文本识别，从而仅在训练阶段加入超分辨率分支进行特征的学习，在推理阶段移除掉这个分支，使得推理时间不变的情况下，有效提高了文本识别网络对低质量文本图像的识别精准性和识别效果。

根据上述实施例所描述的方法，本实施例将从基于OCR的文本识别装置的角度进一步进行描述，该文本识别装置具体可以作为独立的实体来实现，其可以应用于服务器或移动终端等电子设备中。

请参阅图6，图6具体描述了本申请实施例提供的基于OCR的文本识别装置，该基于OCR的文本识别装置可以包括：获取单元10、训练单元20和识别单元30，其中：

获取单元10，用于获取文本图像样本集、以及该文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本；

训练单元20，用于利用该文本图像样本集、该文本标签和该超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，该文本识别网络包括第一损失函数，该超分辨率网络包括第二损失函数，且该文本识别网络和该超分辨率网络包括至少一个共享的子网络；在训练过程中，根据该第一损失函数和该第二损失函数，对该文本识别网络和该超分辨率网络的网络参数进行调整；

识别单元30，用于当训练完成时，利用已训练的该文本识别网络对待识别的文本图像进行文本识别。

在一些实施方式中，该文本识别网络包括相连接的特征提取子网络和特征识别子网络，该超分辨率网络包括相连接的该特征提取子网络和超分辨率子网络，此时，该训练单元20具体用于：

通过该特征提取子网络，确定每张该文本图像样本对应的特征图；

通过该超分辨率子网络，生成该特征图对应的预测图像结果；

通过该特征识别子网络，生成该特征图对应的预测文本结果；

根据该预测图像结果、该预测文本结果、该文本标签、该超分辨率图像样本、该第一损失函数和该第二损失函数，对该文本识别网络和该超分辨率网络进行参数调整。

在一些实施方式中，该训练单元20进一步用于：

根据该第一损失函数、该预测文本结果和该文本标签，计算第一误差值；

根据该第二损失函数、该预测图像结果和该超分辨率图像样本，计算第二误差值；

具体的，超参数的范围可以为0~1，L_rec和L_sr计算公式可以如下：

在一些实施方式中，该特征提取子网络包括第一特征提取块、级联的多个残差块以及特征增强块，此时，该训练单元20进一步用于：

通过该多个残差块，对该第一浅层特征图进行处理；

在一些实施方式中，该文本识别网络和该超分辨率网络均还包括与该特征提取子网络连接的文本矫正子网络，此时，在通过该第一特征提取块，确定每张该文本图像样本对应的第一浅层特征图之前，该训练单元20还用于：

相应地，上述步骤“通过该第一特征提取块，确定每张该文本图像样本对应的第一浅层特征图”，具体包括：通过该特征提取子网络，对每张该矫正图像进行浅层特征提取，得到第一浅层特征图。

在一些实施方式中，该超分辨率子网络包括第二特征提取块、级联的多个序列残差块以及像素重组块，此时，该训练单元20进一步用于：

生成该文本图像样本对应的二值化图；

在一些实施方式中，该超分辨率子网络还包括中心对齐块，此时，在通过该第二特征提取块，确定该融合特征图对应的第二浅层特征图之前，该训练单元20还用于：

通过该中心对齐块，生成该融合特征图对应的对齐特征图；

相应地，上述步骤“通过该第二特征提取块，确定该融合特征图对应的第二浅层特征图图”，包括：通过该第二特征提取块，从该对齐特征图中进行浅层特征提取，得到第二浅层特征图。

在一些实施方式中，该特征识别子网络可以包括依次级联的特征压缩块、编码器和基于注意力机制的解码器，此时，该训练单元20进一步用于：

通过该特征压缩块，生成该特征图对应的一维特征向量；

通过该编码器，生成该一维特征向量对应的特征序列；

通过该解码器，生成该特征序列对应的预测文本结果。

具体实施时，以上各个模块/单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块/单元的具体实施可参见前面的方法实施例，在此不再赘述。

另外，本申请实施例还提供一种电子设备，该电子设备可以是智能手机、平板电脑、服务器等设备。如图7所示，电子设备200包括处理器201、存储器202。其中，处理器201与存储器202电性连接。

处理器201是电子设备200的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器202内的应用程序，以及调用存储在存储器202内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。

在本实施例中，电子设备200中的处理器201会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器202中，并由处理器201来运行存储在存储器202中的应用程序，从而实现各种功能：

获取文本图像样本集、以及该文本图像样本集中每张文本图像样本对应的文本标签和超分辨率图像样本；利用该文本图像样本集、该文本标签和该超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，该文本识别网络包括第一损失函数，该超分辨率网络包括第二损失函数，且该文本识别网络和该超分辨率网络包括至少一个共享的子网络；在训练过程中，根据该第一损失函数和该第二损失函数，对该文本识别网络和该超分辨率网络的网络参数进行调整；当训练完成时，利用已训练的该文本识别网络对待识别的文本图像进行文本识别。

图8示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的基于OCR的文本识别生成方法。该电子设备300可以包括智能手机或服务器。

该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、射频（Radio Frequency，RF）电路303、电源304、输入单元305、以及显示单元306等部件。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器301是该电子设备的控制中心。其中，处理器利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器可包括一个或多个处理核心；优选的，处理器可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地是，上述调制解调处理器也可以不集成到处理器中。

存储器302可用于存储软件程序（计算机程序）以及模块，处理器301通过运行存储在存储器302的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

RF电路303可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器301处理；另外，将涉及上行的数据发送给基站。通常，RF电路303包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM）卡、收发信机、耦合器、低噪声放大器（LNA，Low Noise Amplifier）、双工器等。此外，RF电路303还可以通过无线通信与网络和其他设备通信。该无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（GSM，Global System of Mobilecommunication）、通用分组无线服务（GPRS，General Packet Radio Service）、码分多址（CDMA，Code Division Multiple Access）、宽带码分多址（WCDMA，Wideband CodeDivision Multiple Access）、长期演进（LTE，Long Term Evolution）、电子邮件、短消息服务（SMS，Short Messaging Service）等。

电子设备还包括给各个部件供电的电源304（比如电池），优选的，电源304可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源304还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元305，该输入单元305可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体地实施例中，输入单元305可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器301，并能接收处理器301发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元305还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

该电子设备还可包括显示单元306，该显示单元306可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元306包括多个硬件显示处理单元、视频帧处理模块、显示屏等。其中，多个硬件显示处理单元、视频帧处理模块可集成在处理芯片中。其中，显示屏可包括显示面板，可选的，可以采用液晶显示器（LCD，Liquid CrystalDisplay）、有机发光二极管（OLED，Organic Light-Emitting Diode）等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器301以确定触摸事件的类型，随后处理器301根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。电子设备还包括第一拼接模组，该第一拼接模组包括信号处理模块、与该信号处理模块连接的多个图像处理模块、以及与该多个图像处理模块连接的图像拼接模块，每个该图像处理模块与对应第一显示像素接口连接。具体在本实施例中，电子设备中的处理器301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能，如下：

该电子设备可以实现本申请实施例所提供的基于OCR的文本识别方法任一实施例中的步骤，因此，可以实现本申请实施例所提供的任一文本识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令（计算机程序）来完成，或通过指令（计算机程序）控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种计算机可读存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本发明实施例所提供的基于OCR的文本识别方法中任一实施例的步骤。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本发明实施例所提供的任一基于OCR的文本识别方法实施例中的步骤，因此，可以实现本发明实施例所提供的任一基于OCR的文本识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种基于OCR的文本识别方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于OCR的文本识别方法，其特征在于，包括：

2.根据权利要求1所述的文本识别方法，其特征在于，所述文本识别网络包括相连接的特征提取子网络和特征识别子网络，所述超分辨率网络包括相连接的所述特征提取子网络和超分辨率子网络，所述利用所述文本图像样本集、所述文本标签和所述超分辨率图像样本，对预先构建的文本识别网络和超分辨率网络进行训练，包括：

3.根据权利要求2所述的文本识别方法，其特征在于，所述根据所述预测图像结果、所述预测文本结果、所述文本标签、所述超分辨率图像样本、所述第一损失函数和所述第二损失函数，对所述文本识别网络和所述超分辨率网络进行参数调整，包括：

4.根据权利要求2所述的文本识别方法，其特征在于，所述特征提取子网络包括第一特征提取块、级联的多个残差块以及特征增强块，所述通过所述特征提取子网络，确定每张所述文本图像样本对应的特征图，包括：

通过所述多个残差块，对所述第一浅层特征图进行处理；

5.根据权利要求4所述的文本识别方法，其特征在于，所述文本识别网络和所述超分辨率网络均还包括与所述特征提取子网络连接的文本矫正子网络，在通过所述第一特征提取块，确定每张所述文本图像样本对应的第一浅层特征图之前，还包括：

6.根据权利要求2所述的文本识别方法，其特征在于，所述超分辨率子网络包括第二特征提取块、级联的多个序列残差块以及像素重组块，所述通过所述超分辨率子网络，生成所述特征图对应的预测图像结果，包括：

生成所述文本图像样本对应的二值化图；

7.根据权利要求6所述的文本识别方法，其特征在于，所述超分辨率子网络还包括中心对齐块，在通过所述第二特征提取块，确定所述融合特征图对应的第二浅层特征图之前，还包括：

所述通过所述第二特征提取块，确定所述融合特征图对应的第二浅层特征图，包括：通过所述第二特征提取块，从所述对齐特征图中进行浅层特征提取，得到第二浅层特征图。

8.一种基于OCR的文本识别装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有多条指令，所述指令适于由处理器加载以执行权利要求1至7中任一项所述的基于OCR的文本识别方法。

10.一种电子设备，其特征在于，包括耦合的存储器和处理器，所述存储器存储内有计算机程序，所述处理器用于运行所述存储器内的所述计算机程序，以执行权利要求1至7中任一项所述的基于OCR的文本识别方法中的步骤。