CN111126140A

CN111126140A - 文本识别方法、装置、电子设备以及存储介质

Info

Publication number: CN111126140A
Application number: CN201911134547.XA
Authority: CN
Inventors: 王洪振; 黄珊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-05-08
Anticipated expiration: 2039-11-19
Also published as: CN111126140B

Abstract

本发明实施例公开了一种文本识别方法、装置、电子设备以及存储介质，其中，该文本识别方法包括：获取待识别图像，所述待识别图像包括待检测文本，对所述待识别图像进行语义分割，得到所述待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，基于像素关联信息以及多个目标像素点，确定每个目标像素点在所述待识别图像中的位置以及所述待检测文本的偏转信息，根据所述偏转信息对所述待检测文本的角度进行调整，对调整后的待检测文本进行文本识别，得到文本识别结果，该方案可以有效地提高文本检测的准确率，进而提高文本识别的准确率。

Description

文本识别方法、装置、电子设备以及存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种文本识别方法、装置、电子设备以及存储介质。

背景技术

自然场景图像是由各种拍摄设备(如照相机或手机等)在没有特定限制的条件下，直接对生活中真实存在的场景拍摄的图像。自然场景图像中的文本可提供丰富的语义信息，为了识别自然场景图像中的文本，可以通过OCR(Optical Character Recognition，光学字符识别)技术对自然场景图像中的文本进行识别。

其中，OCR技术包含两个级联的步骤：文本检测和文本识别，文本检测是定位文本出现的位置，文本识别是利用识别算法获取文字信息，然而，不同的拍摄角度会导致降低文本检测的准确率，进而降低了文本识别的准确率。

发明内容

本发明实施例提供一种文本识别方法、装置、电子设备以及存储介质，可以提高文本检测的准确率，进而提高了文本识别的准确率。

本发明实施例提供了一种文本识别方法，包括：

获取待识别图像，所述待识别图像包括待检测文本；

对所述待识别图像进行语义分割，得到所述待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息；

基于像素关联信息以及多个目标像素点，确定每个目标像素点在所述待识别图像中的位置以及所述待检测文本的偏转信息；

根据所述偏转信息对所述待检测文本的角度进行调整；

对调整后的待检测文本进行文本识别，得到文本识别结果。

相应的，本发明实施例还提供了一种文本识别装置，包括：

获取模块，用于获取待识别图像，所述待识别图像包括待检测文本；

分割模块，用于对所述待识别图像进行语义分割，得到所述待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息；

确定模块，用于基于像素关联信息以及多个目标像素点，确定每个目标像素点在所述待识别图像中的位置以及所述待检测文本的偏转信息；

调整模块，用于根据所述偏转信息对所述待检测文本的角度进行调整；

识别模块，用于对调整后的待检测文本进行文本识别，得到文本识别结果。

可选的，在本发明的一些实施例中，所述调整模块包括：

构建单元，用于根据多个目标像素点以及每个目标像素点对应的像素关联信息，在所述待识别图像中构建所述待检测文本对应的文本区域；

调整单元，用于通过所述偏转信息对所述文本区域的角度进行调整。

可选的，在本发明的一些实施例中，所述调整单元包括：

提取子单元，用于从所述偏转信息中提取所述文本区域的角度信息，所述角度信息包括文本区域中每个像素点对应的角度预测值；

处理子单元，用于对多个角度预测值进行加权平均处理，得到所述文本区域对应的预测偏转角度；

调整子单元，用于基于所述预测偏转角度对所述文本区域的角度进行调整。

可选的，在本发明的一些实施例中，所述调整子单元具体用于：

获取所述文本区域的每条边对应的方向向量；

构建所述预测偏转角度对应的单位向量；

分别计算所述单位向量与每个方向向量的乘积；

根据计算结果，从多个方向向量中确定目标向量；

通过所述目标向量以及预测偏转角度，对所述文本框的角度进行调整。

获取所述文本区域各顶点对应的坐标；

基于所述预测偏转角度，对各顶点对应的坐标进行坐标变换；

根据变换后的坐标对所述文本区域的角度进行调整。

可选的，在本发明的一些实施例中，所述构建单元包括：

第一获取子单元，用于基于每个目标像素点对应的像素关联信息，获取每个目标像素点对应的参考像素点；

第二获取子单元，用于获取所述目标像素点在所述待检测文本中的位置信息；

构建子单元，用于根据位置信息以及对应的参考像素点，在所述待识别图像上构建所述待检测文本对应的文本区域。

可选的，在本发明的一些实施例中，所述确定模块具体用于：

根据所述多个目标像素点在所述待识别图像中的分布，确定每个目标像素点在所述待检测文本中的位置；

基于像素关联信息，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值；

根据多个角度预测值构建所述待检测文本的偏转信息。

可选的，在本发明的一些实施例中，所述分割模块具体用于：

对所述待识别图像进行特征提取，得到所述待识别图像对应的文本特征图像；

通过预设文本检测模型中的第一分类子模型，对所述文本特征图像中的像素点进行分类，得到每个像素点对应的像素预测值，所述像素预测值是指所述文本特征图像中每个像素点属于待检测文本所在区域的概率；

基于所述像素预测值，确定所述待检测文本对应的多个目标像素点；

通过预设文本检测模型中的第二分类子模型，对多个目标像素点进行分类，得到每个目标像素点对应的分类置信度，所述分类置信度是指所述目标像素点属于待检测文本的概率；

根据所述分类置信度，构建每个目标像素点对应的像素关联信息。

本发明实施例在获取待识别图像后，所述待识别图像包括待检测文本，对所述待识别图像进行语义分割，得到所述待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，然后，基于像素关联信息以及多个目标像素点，确定每个目标像素点在所述待识别图像中的位置以及所述待检测文本的偏转信息，接着，根据所述偏转信息对所述待检测文本的角度进行调整，最后，对调整后的待检测文本进行文本识别，得到文本识别结果。因此，该方案可以有效地提高文本检测的准确率，进而提高文本识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的文本识别方法的场景示意图；

图1b是本发明实施例提供的文本识别方法的流程示意图；

图1c是本发明实施例提供的文本识别方法中对待识别图像进行特征提取的场景示意图；

图1d是本发明实施例提供的文本识别方法中目标像素点的8邻域示意图；

图1e是本发明实施例提供的文本识别方法中文本行偏离预设方向的示意图；

图1f是本发明实施例提供的文本识别方法的另一场景示意图；

图1g是本发明实施例提供的文本识别方法中调整文本框的角度的示意图；

图2是本发明实施例提供的文本识别方法的另一流程示意图；

图3是本发明实施例提供的文本识别装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种在文本识别方法、装置、电子设备和存储介质。

其中，该文本识别装置具体可以集成在终端中，终端可以包括手机、平板电脑或个人计算机(PC，Personal Computer)。

例如，请参阅图1a，该文本识别装置集成在手机上，该手机可以包括摄像头以及显示屏，当用户通过摄像头对食物菜单进行拍摄时，手机可以通过摄像头获取到该菜单对应的待识别图像，其中，该待识别图像包括该菜单的文字内容(即待检测文本)，然后，手机对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，接着，手机可以基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，再然后，手机根据偏转信息对待检测文本的角度进行调整，最后，手机对调整后的待检测文本进行文本识别，得到文本识别结果，比如，手机可以识别到菜单上菜品的名字等等。

由于该方案是基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，然后，再根据偏转信息对待检测文本的角度进行调整，即，通过该偏转信息对待检测文本进行角度校正，便于后续对待检测文本进行识别，也就是说，该方案可以提高文本检测的准确率，进而提高了文本识别的准确率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种在文本识别方法，包括：获取待识别图像，待识别图像包括待检测文本，对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，根据偏转信息对待检测文本的角度进行调整，对调整后的待检测文本进行文本识别，得到文本识别结果。

请参阅图1b，图1b为本发明实施例提供的文本识别方法的流程示意图。该文本识别方法的具体流程可以如下：

101、获取待识别图像。

其中，该待识别图像包括待检测文本，该待识别图像可以是预先保存在本地的，也可以是通过访问网络接口拉取得到的，还可以是通过摄像头实时拍摄得到的，具体根据实际情况而定。

102、对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息。

其中，图像的语义分割是进行像素级的识别和分割，获得图像中物体的类别信息及精确位置信息，可以理解的是，在本发明实施例中，对待识别图像进行语义分割，可以得到待检测文本对应的像素点即目标像素点，以及目标像素点对应的像素关联信息。

像素关联信息可以理解为像素邻域信息，需要说明的是，在图像处理中，邻域指的是与某一像素相邻的像素的集合，反映像素间的空间关系，其中，该像素关联信息可以为像素4邻域信息、像素对角邻域信息或者像素8邻域信息，像素8邻域信息可以认为是像素4邻域信息与像素对角邻域信息进行融合后得到的信息，当像素点位于图像边界时，可以认为该像素点对应的某些邻域的点落在图像外。

比如，可以通过预设文本检测模型中的第一分类子模型对待识别图像的像素点进行分类，从而确定属于待检测文本所在区域的像素点以及背景区域的像素点，在本发明实施例中，背景区域可以认为是除了待检测文本之外的区域，并且，可以通过预设文本检测模型中的第二分类子模型对待识别图像的像素点进行分类，得到每个目标像素点属于待检测文本的概率，即，在一些实施例中，步骤“对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息”，具体可以包括：

(11)对待识别图像进行特征提取，得到待识别图像对应的文本特征图像；

(12)通过预设文本检测模型中的第一分类子模型，对文本特征图像中的像素点进行分类，得到每个像素点对应的像素预测值；

(13)基于像素预测值，确定待检测文本对应的多个目标像素点；

(14)通过预设文本检测模型中的第二分类子模型，对多个目标像素点进行分类，得到每个目标像素点对应的分类置信度；

(15)根据分类置信度，构建每个目标像素点对应的像素关联信息。

其中，像素预测值是指文本特征图像中每个像素点属于待检测文本所在区域的概率，分类置信度是指目标像素点属于待检测文本的概率，首先，可以通过卷积神经网络如FPN(Feature Pyramid Network)特征金字塔网络，如图1c所示，对待识别图像进行特征提取，待识别图像首先通过由九层卷积层构成的卷积神经网络中，输出512层且大小为32*32的特征图，然后，将该特征图输入FPN中，经过3个阶段的上采样，最终输出32层且大小为256*256的文本特征图，随后，再通过预设文本检测模型中的第一分类子模型，对文本特征图像中的像素点进行分类，得到每个像素点对应的像素预测值，然后，基于像素预测值，确定待检测文本对应的多个目标像素点，接着，再通过预设文本检测模型中的第二分类子模型，对多个目标像素点进行分类，得到每个目标像素点对应的分类置信度，最后，根据分类置信度，可以判断目标像素点与8邻域是否有连接关系，8领域指的是上邻域、下邻域、左邻域、右邻域以及对角邻域，如图1d所示，然后，再根据这些连接关系构建目标像素点对应的像素关联信息。

其中，该文本检测模型可以是预先建立的，该文本检测模型可以由多张包含了文本且标注了像素点类型的图像训练得到的，即，在一些实施例中，具体还可以包括：

(21)采集训练样本集；

(22)从训练样本集中确定当前处理的样本，得到当前处理对象；

(23)将当前处理对象输入至检测模型中，得到当前处理对象的像素预测值；

(24)获取当前处理对象的像素真实值；

(25)基于像素真实值和像素预测值对检测模型进行收敛，得到文本检测模型。

卷积层：主要用于对输入的图像(比如训练样本或需要识别的图像)进行特征提取，其中，卷积核大小可以根据实际应用而定，比如，从第一层卷积层至第四层卷积层的卷积核大小依次可以为(7，7)，(5，5)，(3，3)，(3，3)；可选的，为了降低计算的复杂度，提高计算效率，在本实施例中，这四层卷积层的卷积核大小可以都设置为(3，3)，激活函数均采用“relu(线性整流函数，Rectified Linear Unit)”，而padding(padding，指属性定义元素边框与元素内容之间的空间)方式均设置为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。可选的，卷积层与卷积层之间可以通过直连的方式连接，从而加快网络收敛速度，为了进一步减少计算量，还可以在第二至第四层卷积层中的所有层或任意1～2层进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(maxpooling)或平均值(average pooling)等，为了描述方便，在本发明实施例中，将均以在第二层卷积层和第三次卷积层中进行下采样操作，且该下采样操作具体为max pooling为例进行说明。

需说明的是，为了描述方便，在本发明实施例中，将激活函数所在层和下采样层(也称为池化层)均归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不再赘述。

全连接层：可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，比如，在该文本检测模型中，全连接层的神经元数量可以均设置为512个，或者，也可以均设置为128个，等等。与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

例如，具体的，可以通过多个途径采集多张包含了文本且标注了像素点类型的图像，这多张图像可以包括多个不同文本对应的图像，也可以为同一文本对应的不同角度的图像，然后，将一张图像输入至检测模型的第一分类子模型，通过该第一分类子模型，对图像中的像素点进行分类，得到每个像素点对应的像素预测值，然后，获取该图像的像素真实值，最后，基于像素真实值和像素预测值对第一分类子模型进行收敛，得到文本检测模型的第一分类子模型，同理，对文本检测模型的第二分类子模型也可以采用相同的方法，在此不再赘述。

103、基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息。

其中，待检测文本的偏转信息可以为待检测文本所在的文本行偏离预设方向的信息，比如，如图1e所示，以文本行A所在的方向为预设方向，那么，其他文本行与文本行A不平行，且其他文本行与文本行A之间的夹角不为0度时，可以认为其偏离预设方向，并且，可以根据偏离的文本行与文本行A之间的夹角生成该偏离的文本行对应偏转信息。

例如，具体的，可以根据目标像素点在待识别图像中的分布信息，确定目标像素点在所述待检测文本中的位置，然后，可以基于像素关联关系，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值，最后，根据多个角度预测值构建待检测文本的偏转信息，即，在一些实施例中，步骤“基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息”，具体可以包括：

(31)根据多个目标像素点在待识别图像中的分布，确定每个目标像素点在待检测文本中的位置；

(32)基于像素关联信息，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值；

(33)根据多个角度预测值构建待检测文本的偏转信息。

其中，角度预测值是指目标像素点所在的待检测文本发生偏转的概率，比如，请参阅图1f，待检测文本为“推荐使用扫码支付”，预设方向为水平方向，由图1f可以看出，“推”、“荐”、“使”、“用”、“扫”、“码”、“支”以及“付”这8个字偏离预设方向的角度均不相同，因此，可以通过预设文本检测模型中的角度预测子模型分别对每个字对应的像素点对应的角度进行预测，得到每个像素点对应的角度预测值，然后，再根据这些角度预测值值构建待检测文本的偏转信息，比如，可以计算每个字对应的偏转角度，再通过每个字的偏转角度构建待检测文本的偏转信息，然后执行步骤104。

104、根据偏转信息对待检测文本的角度进行调整。

在确定待检测文本的偏转信息，可以基于该偏转信息，对待检测文本的角度进行调整，比如，偏转信息指示待检测文本偏离预设方向30度，那么可以扭转待检测文本的30度，以使待检测文本与预设方向之间的夹角为0度。

进一步的，可以提取待检测文本对应的文本区域，通过偏转信息对文本区域进行角度调整，即，在一些实施例中，步骤“根据偏转信息对待检测文本的角度进行调整”，具体可以包括：

(41)根据多个目标像素点以及每个目标像素点对应的像素关联信息，在待识别图像中构建待检测文本对应的文本区域；

(42)通过偏转信息对文本区域的角度进行调整。

比如，具体的，可以基于每个目标像素点对应的像素关联信息，获取该目标像素点对应的8个参考像素点，然后，再获取目标像素点在待检测文本中的位置信息，最后，根据位置信息以及对应的参考像素点，在待识别图像上构建待检测文本对应的文本区域，即，在一些实施例中，步骤“根据多个目标像素点以及每个目标像素点对应的像素关联信息，在待识别图像中构建待检测文本对应的文本区域”，包括：

(51)基于每个目标像素点对应的像素关联信息，获取每个目标像素点对应的参考像素点；

(52)获取目标像素点在待检测文本中的位置信息；

(53)根据位置信息以及对应的参考像素点，在待识别图像上构建待检测文本对应的文本区域。

进一步的，可以基于目标像素点的8邻域信息，获取预设范围内的像素点，作为该目标像素点对应的参考像素点，即，在一些实施例中，步骤“基于每个目标像素点对应的像素关联信息，获取每个目标像素点对应的参考像素点”，具体可以包括：以目标像素点为中心，根据目标像素点对应的像素关联信息获取预设范围内的像素点，得到目标像素点对应的参考像素点。

此外，可以从偏转信息中提取文本区域的角度信息，该角度信息可以包括文本区域中每个像素点对应的角度预测值，然后，基于这些角度预测值对文本区域的角度进行调整，即，在一些实施例中，步骤“通过偏转信息对所述文本区域的角度进行调整”，具体可以包括：

(61)从偏转信息中提取文本区域的角度信息，角度信息包括文本区域中每个像素点对应的角度预测值；

(62)对多个角度预测值进行加权平均处理，得到文本区域对应的预测偏转角度；

(63)基于预测偏转角度对文本区域的角度进行调整。

例如，具体的，可以取多个角度预测值的平均值，具体可以采用如下公式：

其中，Box_angle为文本区域对应的预测偏转角度，P为角度预测值，Box_loc为文本区域的角度信息，N为目标像素点的个数，当计算出文本区域对应的预测偏转角度，可以通过预测偏转角度对文本区域的角度进行调整。

需要说明的是，通过预测偏转角度对文本区域的角度进行调整可以有两种方式。

第一种方式：可以获取文本区域各顶点对应的坐标，然后通过计算预测偏转角度对应的正弦值以及预测偏转角度对应的余弦值，通过该正弦值和余弦值对各顶点对应的坐标进行坐标变换，最后，根据变换后的坐标对文本区域的角度进行调整，即，在一些实施例中，步骤“基于预测偏转角度对文本区域的角度进行调整”，具体可以包括：

(71)获取文本区域各顶点对应的坐标；

(72)基于预测偏转角度，对各顶点对应的坐标进行坐标变换；

(73)根据变换后的坐标对文本区域的角度进行调整。

第二种方式：可以获取文本区域的每条边对应的方向向量，然后，构建预测偏转角度对应的单位向量，接着，分别计算单位向量与每个方向向量的乘积，再然后，根据计算结果，从多个方向向量中确定目标向量，最后，通过目标向量以及预测偏转角度，对文本框的角度进行调整，即，在一些实施例中，步骤“基于预测偏转角度对文本区域的角度进行调整”，具体可以包括：

(81)获取文本区域的每条边对应的方向向量；

(82)构建预测偏转角度对应的单位向量；

(83)分别计算单位向量与每个方向向量的乘积；

(84)根据计算结果，从多个方向向量中确定目标向量；

(85)通过目标向量以及预测偏转角度，对文本框的角度进行调整。

例如，请参阅图1g，文本区域为一个矩形区域，其包括顶点A、顶点B、顶点C以及顶点D，分别获取AB边的方向向量ab、CD边的方向向量cd、BC边的方向向量bc以及DA边对应的方向向量da，然后，构建预测偏转角度对应的单位向量h，分别计算单位向量与每个方向向量的乘积，从图1g中可以看出，方向向量ab与单位向量的乘积最大，因此，可以将方向向量ab确定为目标向量，然后，可以获取目标向量的起点，并通过预测偏转角度对目标向量的起点进行坐标变换，接着，根据文本区域每条边的边长，以目标向量的起点构建调整后的文本区域，需要说明的是，目标向量的起点可以通过检测待检测文本中字体的朝向确定，由图1g中可以看出，A点为目标向量的起点，对所述文本框的角度进行调整后，可以执行步骤105。

105、对调整后的待检测文本进行文本识别，得到文本识别结果。

比如，具体的，可以通过OCR(Optical Character Recognition，光学字符识别)技术对调整后的待检测文本进行文本识别，得到文本识别结果。

本发明实施例在获取待识别图像后，待识别图像包括待检测文本，对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，然后，基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，接着，根据偏转信息对待检测文本的角度进行调整，最后，对调整后的待检测文本进行文本识别，得到文本识别结果。相较于现有的文本识别方案而言，本发明的文本识别方法可以根据待检测文本的偏转信息对待检测文本的角度进行调整，当待识别图像中的待检测文本出现角度旋转时，可以基于像素关联信息以及多个目标像素点确定待检测文本的偏转信息，然后，通过偏转信息对待检测文本的角度进行调整，因此，该方案可以有效地提高文本检测的准确率，进而提高文本识别的准确率。

根据实施例所述的方法，以下将举例进一步详细说明。

在本实施例中将以该文本识别装置具体集成在终端中为例进行说明。

请参阅图2，一种文本识别方法，具体流程可以如下：

201、终端获取待识别图像。

其中，该待识别图像包括待检测文本，该待识别图像可以是预先保存在本地的，也可以是终端通过访问网络接口拉取得到的，还可以是终端的摄像头实时拍摄得到的，具体根据实际情况而定。

202、终端对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息。

比如，终端可以通过预设文本检测模型中的第一分类子模型对待识别图像的像素点进行分类，从而确定属于待检测文本所在区域的像素点以及背景区域的像素点，并且，可以通过预设文本检测模型中的第二分类子模型对待识别图像的像素点进行分类，得到每个目标像素点属于待检测文本的概率。

203、终端基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息。

比如，终端可以根据目标像素点在待识别图像中的分布信息，确定目标像素点在所述待检测文本中的位置，然后，终端可以基于像素关联关系，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值，最后，终端根据多个角度预测值构建待检测文本的偏转信息。

204、终端根据偏转信息对待检测文本的角度进行调整。

比如，具体的，终端基于每个目标像素点对应的像素关联信息，获取该目标像素点对应的8个参考像素点后，获取目标像素点在待检测文本中的位置信息，然后，终端可以根据位置信息以及对应的参考像素点，在待识别图像上构建待检测文本对应的文本区域，接着，终端可以从偏转信息中提取文本区域的角度信息，该角度信息可以包括文本区域中每个像素点对应的角度预测值，然后，基于这些角度预测值对文本区域的角度进行调整。

205、终端对调整后的待检测文本进行文本识别，得到文本识别结果。

比如，具体的，终端可以通过OCR(Optical Character Recognition，光学字符识别)技术对调整后的待检测文本进行文本识别，得到文本识别结果。

本发明实施例的终端在获取待识别图像后，待识别图像包括待检测文本，终端对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，然后，终端基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，接着，终端根据偏转信息对待检测文本的角度进行调整，最后，终端对调整后的待检测文本进行文本识别，得到文本识别结果。相较于现有的文本识别方案而言，本发明的终端可以根据待检测文本的偏转信息对待检测文本的角度进行调整，当待识别图像中的待检测文本出现角度旋转时，终端可以基于像素关联信息以及多个目标像素点确定待检测文本的偏转信息，然后，终端可以通过偏转信息对待检测文本的角度进行调整，因此，该方案可以有效地提高文本检测的准确率，进而提高文本识别的准确率。

为了便于对本发明实施例提供的文本识别方法的理解，以扫码支付支付场景为例进行说明，首先，用户通过手机的摄像头拍摄到二维码的图像，该图像包括二维码以及文字内容(即待检测文本)，手机可以通过预设金字塔模型对该图像进行特征提取，得到该图像对应的特征图像，然后，手机可以采用预设文本检测模型对该特征图像进行语义分割，得到该特征图像对应像素级文本分类信息、像素级8邻域的连接信息以及角度信息，像素级文本分类信息用于对特征图像中的像素进行分类，得到文本区域对应的像素以及背景区域对应的像素，像素级8邻域的连接信息用于对文本区域内的像素进行8邻域的判断，角度信息用于判断当前像素的所属文本行的旋转角度，需要说明的是，该预设文本检测模型包括像素分类分支、8邻域分类分支以及角度分支，三个分支均可以由三层卷积网络组成，像素分类分支和8邻域分类分支的卷积核数量均为两个，角度分支的卷积核数量为一个，像素分类分支接入softmax和Crossentropy分支计算分类损失，8邻域分类分支接入softmax和Crossentropy分支计算分类损失，角度分支接入sigmoid和欧式距离损失函数计算回归损失，网络的整体损失函数由三个分支构成，具体如下：

L(p_cls,p_link,p_angle,g_cls,g_link,g_angle)＝L_cls(p_cls,g_cls)+[g_cls>0]L_link(p_link,g_link)+[g_cls>0]L_angle(p_angle,g_angle)

其中，g_cls,g_link,g_angle分别为分类、8领域和角度分支的真实值，p_cls,p_link,p_angle为相应的预测值，L_cls和L_link为标准的多类交叉熵损失，L_angle为欧式距离损失函数。

随后，在下一阶段，首先，可以基于像素级文本分类信息和像素级8邻域的连接信息，分类分支集合和8邻域分支集合，然后采用并查集(Disjoint Set Data Structure)的方法进行连接，得到连通域(Conected Compoents，CCs)集合，集合中的每个元素代表的就是待检测文本，通过取CCs集合的最小外界矩形可以得到该待检测文本的4个角的坐标信息，并根据坐标信息构建待检测文本对应的文本区域，接着计算待检测文本的预测旋转角，最后，通过预测旋转角对文本区域进行角度调整。

为便于更好的实施本发明实施例的文本识别方法，本发明实施例还提供一种基于上述文本识别装置(简称识别装置)。其中名词的含义与上述文本识别方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本发明实施例提供的文本识别装置的结构示意图，其中该处理装置可以包括获取模块301、分割模块302、确定模块303、调整模块304以及识别模块305，具体可以如下：

获取模块301，用于获取待识别图像。

其中，该待识别图像包括待检测文本，该待识别图像可以是预先保存在本地的，也可以是获取模块301通过访问网络接口拉取得到的。

分割模块302，用于对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息。

比如，分割模块302可以通过预设文本检测模型中的第一分类子模型对待识别图像的像素点进行分类，从而确定属于待检测文本所在区域的像素点以及背景区域的像素点，并且，分割模块302可以通过预设文本检测模型中的第二分类子模型对待识别图像的像素点进行分类，得到每个目标像素点属于待检测文本的概率

可选的，在一些实施例中，分割模块302具体可以用于：对待识别图像进行特征提取，得到待识别图像对应的文本特征图像，通过预设文本检测模型中的第一分类子模型，对文本特征图像中的像素点进行分类，得到每个像素点对应的像素预测值，像素预测值是指文本特征图像中每个像素点属于待检测文本所在区域的概率，基于所述像素预测值，确定待检测文本对应的多个目标像素点，通过预设文本检测模型中的第二分类子模型，对多个目标像素点进行分类，得到每个目标像素点对应的分类置信度，分类置信度是指目标像素点属于待检测文本的概率，根据分类置信度，构建每个目标像素点对应的像素关联信息。

确定模块303，用于基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息。

比如，确定模块303可以根据目标像素点在待识别图像中的分布信息，确定目标像素点在所述待检测文本中的位置，然后，确定模块303可以基于像素关联关系，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值，最后，确定模块303根据多个角度预测值构建待检测文本的偏转信息

可选的，在一些实施例中，确定模块303具体可以用于：根据多个目标像素点在待识别图像中的分布，确定每个目标像素点在待检测文本中的位置，基于像素关联信息，通过预设文本检测模型中的角度预测子模型对每个像素点对应的角度进行预测，得到每个像素点对应的角度预测值，根据多个角度预测值构建待检测文本的偏转信息。

调整模块304，用于根据偏转信息对待检测文本的角度进行调整。

比如，具体的，调整模块304基于每个目标像素点对应的像素关联信息，获取该目标像素点对应的8个参考像素点后，获取目标像素点在待检测文本中的位置信息，然后，调整模块304可以根据位置信息以及对应的参考像素点，在待识别图像上构建待检测文本对应的文本区域，接着，调整模块304可以从偏转信息中提取文本区域的角度信息，该角度信息可以包括文本区域中每个像素点对应的角度预测值，然后，基于这些角度预测值对文本区域的角度进行调整。

可选的，在一些实施例中，调整模块304具体可以包括：

构建单元，用于根据多个目标像素点以及每个目标像素点对应的像素关联信息，在待识别图像中构建待检测文本对应的文本区域；

调整单元，用于通过偏转信息对文本区域的角度进行调整。

可选的，在一些实施例中，构建单元具体可以包括：

第二获取子单元，用于获取目标像素点在待检测文本中的位置信息；

构建子单元，用于根据位置信息以及对应的参考像素点，在待识别图像上构建待检测文本对应的文本区域。

可选的，在一些实施例中，调整单元包括：

提取子单元，用于从偏转信息中提取文本区域的角度信息，角度信息包括文本区域中每个像素点对应的角度预测值；

处理子单元，用于对多个角度预测值进行加权平均处理，得到文本区域对应的预测偏转角度；

调整子单元，用于基于预测偏转角度对文本区域的角度进行调整。

可选的，在一些实施例中，调整子单元具体可以用于：获取文本区域的每条边对应的方向向量，构建预测偏转角度对应的单位向量，分别计算单位向量与每个方向向量的乘积，根据计算结果，从多个方向向量中确定目标向量，通过目标向量以及预测偏转角度，对文本框的角度进行调整。

可选的，在一些实施例中，调整子单元具体可以用于：获取文本区域各顶点对应的坐标，基于预测偏转角度，对各顶点对应的坐标进行坐标变换，根据变换后的坐标对文本区域的角度进行调整。

识别模块305，用于对调整后的待检测文本进行文本识别，得到文本识别结果。

本发明实施例的获取模块301在获取待识别图像后，待识别图像包括待检测文本，分割模块302对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，然后，确定模块303基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，接着，调整模块304根据偏转信息对待检测文本的角度进行调整，最后，识别模块305对调整后的待检测文本进行文本识别，得到文本识别结果。相较于现有的文本识别方案而言，本发明的调整模块304可以根据待检测文本的偏转信息对待检测文本的角度进行调整，当待识别图像中的待检测文本出现角度旋转时，终端可以基于像素关联信息以及多个目标像素点确定待检测文本的偏转信息，然后，终端可以通过偏转信息对待检测文本的角度进行调整，因此，该方案可以有效地提高文本检测的准确率，进而提高文本识别的准确率。

此外，本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待识别图像，待识别图像包括待检测文本，对待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，基于像素关联信息以及多个目标像素点，确定每个目标像素点在待识别图像中的位置以及待检测文本的偏转信息，根据偏转信息对待检测文本的角度进行调整，对调整后的待检测文本进行文本识别，得到文本识别结果。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种文本识别方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种文本识别方法中的步骤，因此，可以实现本发明实施例所提供的任一种文本识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种文本识别方法、装置、电子设备以及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别图像，所述待识别图像包括待检测文本；

根据所述偏转信息对所述待检测文本的角度进行调整；

对调整后的待检测文本进行文本识别，得到文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述偏转信息对所述待检测文本的角度进行调整，包括：

根据多个目标像素点以及每个目标像素点对应的像素关联信息，在所述待识别图像中构建所述待检测文本对应的文本区域；

通过所述偏转信息对所述文本区域的角度进行调整。

3.根据权利要求2所述的方法，其特征在于，所述通过所述偏转信息对所述文本区域的角度进行调整，包括：

从所述偏转信息中提取所述文本区域的角度信息，所述角度信息包括文本区域中每个像素点对应的角度预测值；

对多个角度预测值进行加权平均处理，得到所述文本区域对应的预测偏转角度；

基于所述预测偏转角度对所述文本区域的角度进行调整。

4.根据权利要求3所述的方法，其特征在于，所述基于所述预测偏转角度对所述文本区域的角度进行调整，包括：

获取所述文本区域的每条边对应的方向向量；

构建所述预测偏转角度对应的单位向量；

分别计算所述单位向量与每个方向向量的乘积；

根据计算结果，从多个方向向量中确定目标向量；

5.根据权利要求3所述的方法，其特征在于，所述基于所述预测偏转角度对所述文本区域的角度进行调整，包括：

获取所述文本区域各顶点对应的坐标；

根据变换后的坐标对所述文本区域的角度进行调整。

6.根据权利要求2所述的方法，其特征在于，所述根据多个目标像素点以及每个目标像素点对应的像素关联信息，在所述待识别图像中构建所述待检测文本对应的文本区域，包括：

基于每个目标像素点对应的像素关联信息，获取每个目标像素点对应的参考像素点；

获取所述目标像素点在所述待检测文本中的位置信息；

根据位置信息以及对应的参考像素点，在所述待识别图像上构建所述待检测文本对应的文本区域。

7.根据权利要求6所述的方法，其特征在于，所述基于每个目标像素点对应的像素关联信息，获取每个目标像素点对应的参考像素点，包括：

以目标像素点为中心，根据目标像素点对应的像素关联信息获取预设范围内的像素点，得到所述目标像素点对应的参考像素点。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述基于像素关联信息以及多个目标像素点，确定每个目标像素点在所述待检测文本中的位置以及所述待检测文本的偏转信息，包括：

根据多个角度预测值构建所述待检测文本的偏转信息。

9.根据权利要求1至7任一项所述的方法，其特征在于，所述对所述待识别图像进行语义分割，得到待检测文本对应的多个目标像素点以及每个目标像素点对应的像素关联信息，包括：

10.一种文本识别装置，其特征在于，包括：

11.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-9任一项所述文本识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-9任一项所述文本识别方法的步骤。