CN113822116A

CN113822116A - 文本识别方法、装置、计算机设备和存储介质

Info

Publication number: CN113822116A
Application number: CN202110620895.9A
Authority: CN
Inventors: 胡益清; 郑岩; 蒋兴华; 姜德强; 任博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2021-12-21

Abstract

本申请涉及机器学习技术领域，提供了一种文本识别方法、装置、计算机设备和存储介质。所述方法包括：获取文本图像；对文本图像进行特征提取，得到文本图像的特征信息；根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，文本实例类别为独立文本条目类别；根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像；对实例文本图像进行文本识别，得到文本识别结果。采用本方法能够得到准确的文本识别结果，提高文本识别准确度。

Description

文本识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及机器学习技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了光学字符识别技术，光学字符识别可应用于存在套打文本的文本识别场景中，存在套打文本是指在待识别图像中存在互相干扰的前景文本和背景文本，比如，如图1所示，在自动作业批改场景中，存在套打文本是指存在互相干扰的手写答案以及打印题目，比如，如图2所示，智能票据识别场景中，存在套打文本是指存在互相干扰的用户特征信息以及票据背景模板(在图2中已分别用不同的框图标识出来)。

传统技术中，主要是通过大量构造对应训练数据，训练文本识别模型学习文本对象(前景文本或者背景文本)的方式来对待识别图像进行文本识别的。

然而，传统技术由于只能学习出一个文本对象(前景文本或者背景文本)，无法针对存在套打文本进行进一步识别，其存在文本识别不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本识别准确度的文本识别方法、装置、计算机设备和存储介质。

一种文本识别方法，所述方法包括：

获取文本图像；

对文本图像进行特征提取，得到文本图像的特征信息；

根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，文本实例类别为独立文本条目类别；

根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像；

对实例文本图像进行文本识别，得到文本识别结果。

一种文本识别装置，所述装置包括：

获取模块，用于获取文本图像；

特征提取模块，用于对文本图像进行特征提取，得到文本图像的特征信息；

分类模块，用于根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，文本实例类别为独立文本条目类别；

拆分模块，用于根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像；

识别模块，用于对实例文本图像进行文本识别，得到文本识别结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取文本图像；

对文本图像进行特征提取，得到文本图像的特征信息；

对实例文本图像进行文本识别，得到文本识别结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取文本图像；

对文本图像进行特征提取，得到文本图像的特征信息；

对实例文本图像进行文本识别，得到文本识别结果。

上述文本识别方法、装置、计算机设备和存储介质，通过获取文本图像，对文本图像进行特征提取，得到文本图像的特征信息，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像，能够通过对文本图像中各像素点进行文本实例分类，对文本图像中套打文本进行拆分，得到非套打的实例文本图像，为文本识别提供高质量的待识别数据，进而可以通过对实例文本图像进行文本识别，得到准确的文本识别结果，提高文本识别准确度。

附图说明

图1为一个实施例中存在套打文本的示意图；

图2为另一个实施例中存在套打文本的示意图；

图3为一个实施例中文本识别方法的流程示意图；

图4为一个实施例中文本图像的示意图；

图5为一个实施例中利用已训练下采样网络以及已训练上采样网络进行采样的示意图；

图6为一个实施例中利用像素分割模型得到对应关系的过程示意图；

图7为一个实施例中文本识别方法的流程示意图；

图8为一个实施例中实例文本图像的示意图；

图9为一个实施例中文本识别装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

本申请实施例提供的方案涉及机器学习技术领域，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图3所示，提供了一种文本识别方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以为区块链中的节点。本实施例中，该方法包括以下步骤：

步骤302，获取文本图像。

其中，文本图像是指套打文本图像。

具体的，当需要进行文本识别时，终端会获取待处理图像，对待处理图像进行目标检测，将待处理图像划分为套打文本区域、独立文本区域以及背景区域，根据套打文本区域从待处理图像中提取出文本图像。其中，待处理图像是指包括套打文本区域、独立文本区域以及背景区域的完整图像，独立文本区域是指非套打文本区域。

进一步的，终端可通过已训练目标检测模型对待处理图像进行目标检测。其中，已训练目标检测模型可通过对样本训练数据进行训练得到，这里的样本训练数据是指包含文本区域的样本图像，在样本图像中同时标注了背景区域、套打文本区域以及独立文本区域，在进行训练时，我们可以将背景区域定义为类别0，套打文本区域定义为类别1，独立文本区域定义为类别2。举例说明，可以利用Mask R-CNN(Mask Regions with CNN(ConvolutionalNeural Networks，卷积神经网络)，掩膜-区域-卷积神经网络)进行3分类检测，检测出每类区域的候选框并得到对应类别，Mask R-CNN可以采用Resnet-50(Deep residual network，深度残差网络)为骨干网络，在提取特征后，先利用RPN(RegionProposal Network，区域候选网络)以提取的特征为输入确定出候选兴趣区域，再对RPN找到的每一个候选兴趣区域进行分类和定位。对于候选兴趣区域对应的真实目标来说，其标签按照文本左上角坐标进行降序排序(最左上的label＝1，优先按照左大于右，上大于下的优先级)给到具体标签。

步骤304，对文本图像进行特征提取，得到文本图像的特征信息。

其中，特征信息是指用于表征文本图像中像素点特征的信息。比如，特征信息具体可以是指结合像素点的像素坐标信息以及文本图像的图像信息所得到的信息。举例说明，特征信息具体可以是指结合像素点的像素坐标信息对文本图像进行特征提取所得到的特征图。

具体的，终端会先获取文本图像的图像通道数据以及各像素点的像素坐标信息，将像素坐标信息以附加通道的方式拼接在图像特征中，作为附加位置信息，更新图像通道数据，得到待采样图像数据，再通过对待采样图像数据进行采样，得到文本图像的特征信息。进一步的，在对待采样图像数据进行采样时，为了得到更丰富的特征信息，可以采用先下采样再上采样的方式进行采样。更进一步的，在进行下采样和上采样时都采用多层级采样网络进行采样，则在上采样时，每个层级上采样网络的输入为上一层级上采样网络输出的上采样特征图以及相同层级的下采样网络输出的下采样特征图，通过这种方式可以达到融合学习的目的。

步骤306，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，文本实例类别为独立文本条目类别。

其中，文本实例是指文本图像中非套打的独立文本条目，独立文本条目是指不存在文本重叠区域的、按内容分类的文本。比如，如图4所示，在文本图像中包括存在套打情况的三个文本实例(分别用不同的字母(X、Y、Z)表示，即相同字母组成的不存在文本重叠区域的文本即为独立文本条目)。各像素点与文本实例类别的对应关系用于表征像素点与文本实例类别的归属关系，即像素点是否归属于文本实例类别。比如，各像素点与文本实例类别的对应关系可以为像素点归属于文本实例类别，也可以为像素点不归属于文本实例类别。

具体的，在得到特征信息后，终端会根据特征信息确定文本图像对应的文本实例的数量，每个文本实例与一个文本实例类别对应，在确定文本实例类别后，终端会根据文本实例类别对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别之间的对应关系，即各像素点是否归属于文本实例类别。其中，文本实例类别主要是根据文本图像对应的文本实例的数量确定的，即终端预先是不知道文本图像所对应的文本实例类别的，在得到特征信息后，终端会先根据特征信息确定文本图像对应的文本实例的数量，再根据文本实例的数量确定文本实例类别，文本图像中每个文本实例与一个文本实例类别对应。进一步的，对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别之间的对应关系时，终端可利用特征信息确定文本图像中各像素点归属于文本实例类别的类别概率，利用类别概率确定对应关系。

步骤108，根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像。

其中，实例文本图像是指只包含非套打文本的图像。

具体的，由于各像素点与文本实例类别的对应关系用于表征像素点与文本实例类别的归属关系，终端根据各像素点与文本实例类别的对应关系，即可对文本图像中各像素点进行划分，划分出归属于文本实例类别的像素点集合，通过归属于文本实例类别的像素点集合，就可以得到与文本实例类别对应的实例文本图像。

步骤110，对实例文本图像进行文本识别，得到文本识别结果。

具体的，在得到实例文本图像后，终端会以实例文本图像作为文本识别的待识别数据，通过对实例文本图像进行文本识别，得到文本识别结果，在文本识别结果中包括文本图像中套打文本对应的所有独立文本。

上述文本识别方法，通过获取文本图像，对文本图像进行特征提取，得到文本图像的特征信息，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，根据各像素点与文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像，能够通过对文本图像中各像素点进行文本实例分类，对文本图像中套打文本进行拆分，得到非套打的实例文本图像，为文本识别提供高质量的待识别数据，进而可以通过对实例文本图像进行文本识别，得到准确的文本识别结果，提高文本识别准确度。

在一个实施例中，对文本图像进行特征提取，得到文本图像的特征信息包括：

获取文本图像的图像通道数据以及各像素点的像素坐标信息；

根据像素坐标信息，更新图像通道数据，得到待采样图像数据；

对待采样图像数据进行采样，得到文本图像的特征信息。

其中，通道用来表示每个点能够存放多少个数据，图像通道数据即是指文本图像中每个像素点对应的存放数据，比如，当文本图像为RGB图像时，图像通道数据具体可以是指每个像素点对应存放的与R通道、G通道以及B通道对应的灰度值。进一步的，文本图像也可以为四通道图像，除了R通道、G通道以及B通道之外，还包括A(alpha)通道，表示透明度。像素坐标信息是指像素点在与文本图像对应的预设图像坐标系中的坐标信息。比如，像素坐标信息具体可以是指二维坐标信息，即X轴坐标信息和Y轴坐标信息。举例说明，与文本图像对应的预设图像坐标系具体可以以文本图像的图像中心点为坐标原点。

具体的，在获取到文本图像后，终端会从文本图像中提取出图像通道数据，并确定各像素点的像素坐标信息，将像素坐标信息以附加通道的方式拼接在图像通道数据中，以更新图像通道数据，得到待采样图像数据，通过对待采样图像数据进行采样，得到文本图像的特征信息。其中，在确定各像素点的像素坐标信息时，终端会根据预先设置的图像坐标系原点确定规则，确定与文本图像对应的预设图像坐标系的坐标原点，再根据坐标原点，确定文本图像中各像素点的像素坐标。其中，预先设置的图像坐标系原点确定规则用于确定文本图像中的坐标原点。比如，该图像坐标系原点确定规则具体可以是以左上角第一个像素点为坐标原点、以右上角第一个像素点为坐标原点、以图像中心点为坐标原点等，本实施例在此处不做具体限定。

具体的，在对待采样图像数据进行采样时，为了得到更丰富的特征信息，终端会采用先下采样再上采样的方式进行采样。更进一步的，在进行下采样和上采样时都采用多层级采样网络进行采样，则在上采样时，每个层级上采样网络的输入为上一层级上采样网络输出的上采样特征图以及相同层级的下采样网络输出的下采样特征图，通过这种方式可以达到融合学习的目的。

本实施例中，通过获取文本图像的图像通道数据以及各像素点的像素坐标信息，将像素坐标信息拼接至图像通道数据中，更新图像通道数据，得到待采样图像数据，能够在特征提取时充分利用每个像素点的空间位置关系，得到更丰富的特征信息。

在一个实施例中，对待采样图像数据进行采样，得到文本图像的特征信息包括：

对待采样图像数据进行下采样，得到多尺度下采样特征图；

根据多尺度下采样特征图进行上采样，得到文本图像的特征信息。

其中，对待采样图像数据进行下采样可通过已训练下采样网络实现。已训练下采样网络是指预先训练的用于进行下采样的网络，比如，已训练下采样网络中具体可以包括多个层级下采样网络，其中的每个层级下采样网络具体可以由泄露性线性矫正单元(leakyrelu)、卷积单元以及批正规化单元(batch normalization)组成，其中的卷积单元具体可以为卷积核数大小为4，步长为2的卷积单元。多尺度下采样特征图是指已训练下采样网络中每个层级下采样网络输出的下采样后的图像特征数据。已训练下采样网络可以通过利用预设的样本采样图像数据进行训练得到，样本采样图像数据是指图像通道数据的种类和数量与待采样图像数据相同的图像数据，本实施例在此处不限定具体进行训练的方式，只要能够实现准确下采样即可。

其中，根据多尺度下采样特征图进行上采样可通过已训练上采样网络实现。已训练上采样网络是指预先训练的用于进行上采样的网络。比如，已训练上采样网络中具体可以包括多个层级上采样网络，其中的每个层级上采样网络具体可以由线性矫正单元(relu)、反卷积单元、批正规化单元(batch normalization)以及合并单元(concat)组成，其中反卷积单元的卷积核数大小以及步长与每个层级下采样网络中的卷积单元相同，合并单元用于合并批正规化单元所输出的待融合上采样特征图以及已训练下采样网络中相同层级的下采样网络输出的下采样特征图，其中相同层级的下采样网络输出的下采样特征图是本层级上采样网络的输入的一部分，本层级上采样网络的输入的另一部分为上一层级上采样网络输出的上采样特征图，通过线性矫正单元、反卷积单元以及批正规化单元对上一层级上采样网络输出的上采样特征图进行处理，即可得到待融合上采样特征图，通过对待融合上采样特征图以及相同层级的下采样网络输出的下采样特征图进行特征融合，即可得到本层级上采样网络输出的上采样特征图，本层级上采样网络输出的上采样特征图是下一层级上采样网络的输入，当当前层级上采样网络已经为最后一个层级时，所得到的上采样特征图即为文本图像的特征信息。已训练上采样网络可以通过利用预设的样本采样图像数据进行训练得到，样本采样图像数据是指图像通道数据的种类和数量与待采样图像数据相同的图像数据，本实施例在此处不限定具体进行训练的方式，只要能够实现准确上采样即可。

具体的，在需要对待采样图像数据进行采样时，终端会获取已训练下采样网络以及已训练上采样网络，首先利用已训练下采样网络中各层级下采样网络对待采样图像数据依次进行下采样，得到与每个层级下采样网络对应的下采样特征图，即多尺度下采样特征图。其中，在依次进行下采样时，第一个层级下采样网络的输入为待采样图像数据，随后各个层级下采样网络的输入为上一层级下采样网络所输出的下采样特征图。

具体的，在完成下采样之后，终端会将最后一个层级下采样网络所输出的下采样特征图作为输入数据输入已训练上采样网络，开始利用已训练上采样网络中各个层级上采样网络进行上采样，在进行上采样时，第一个层级上采样网络的输入为最后一个层级下采样网络所输出的下采样特征图，随后各个层级上采样网络的输入均为上一层级上采样网络所输出的上采样特征图以及相同层级下采样网络所输出的下采样特征图。

具体的，在每个层级上采样网络中包括线性矫正单元、反卷积单元、批正规化单元以及合并单元组成，其中的线性矫正单元、反卷积单元以及批正规化单元用于对上一层级上采样网络输出的上采样特征图进行处理，得到待融合上采样特征图，合并单元用于合并批正规化单元所输出的待融合上采样特征图以及相同层级的下采样网络输出的下采样特征图，得到本层级上采样网络对应的上采样特征图。

举例说明，如图5所示，已训练下采样网络和已训练上采样网络依次连接，其中的前8层网络(D1-D8)为各个层级下采样网络，每个层级下采样网络由泄露性线性矫正单元、卷积单元以及批正规化单元组成，当卷积单元为卷积核数大小为4，步长为2的卷积单元时，经过已训练下采样网络可以将与大小为512*512的文本图像对应的待采样图像数据变为1*1的特征图。其中的后8层(S8-S1)为各个层级上采样网络，每个层级上采样网络由线性矫正单元、反卷积单元、批正规化单元、以及合并单元组成，其中反卷积单元的卷积核数大小以及步长与每个层级下采样网络中卷积单元相同。进一步的，在D1之前，还包括两个坐标信息卷积层(C1、C2)，坐标信息卷积层用于将各像素点的像素坐标信息更新至图像通道数据中，如图5所示，坐标信息卷积层的输入即为文本图像，举例说明，假定坐标信息卷积层的输入数据大小为N*C*H*W，其中N为批大小，C为图像通道数，H为图像高，W为图像宽，在经过坐标信息卷积层后，输出数据大小为N*(C+2)*H*W，这里的输出数据即为待采样图像数据。

本实施例中，通过先对待采样图像数据进行下采样，得到多尺度下采样特征图，再根据多尺度下采样特征图进行上采样，得到文本图像的特征信息，能够得到更加丰富的特征信息。

在一个实施例中，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系包括：

根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率；

比对类别概率和预设概率阈值，确定各像素点与各文本实例类别的对应关系。

其中，类别概率是指各像素点归属于各文本实例类别的概率。预设概率阈值是指预先设置的用于确定像素点是否归属于文本实例类别的概率值，当类别概率大于预设概率阈值时，则认为像素点归属于文本实例类别，为文本实例的一部分。

具体的，终端会根据所得到的特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率，比对类别概率和预设概率阈值，当类别概率大于预设概率阈值时，认为像素点归属于该文本实例类别，当类别概率不大于预设概率阈值时，认为像素点不归属于该文本实例类别，以此确定文本图像中所有像素点与所有文本实例类别之间的对应关系。其中，文本实例类别与文本实例的数量对应，终端可根据特征信息确定文本图像中文本实例的数量，进而根据文本实例的数量确定文本实例类别，每个文本实例与一个文本实例类别对应。

进一步的，上述确定各像素点与各文本实例类别的对应关系的过程，可通过已训练分类网络得到，已训练分类网络以特征信息为输入，通过对特征信息进行卷积，可以得到文本图像中各像素点归属于各文本实例类别的类别概率，通过比对类别概率和预设概率阈值，就可以确定各像素点与各文本实例类别的对应关系。其中，已训练分类网络可通过利用预设的样本分类数据进行训练得到，本实施例在此处不限定具体进行训练的方式，只要能够实现对像素点的准确文本实例分类即可。

本实施例中，通过根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率，比对类别概率和预设概率阈值，能够确定各像素点与各文本实例类别的对应关系。

在一个实施例中，对实例文本图像进行文本识别，得到文本识别结果包括：

获取已训练文本识别模型；

通过已训练文本识别模型对实例文本图像进行文本识别，得到文本识别结果。

其中，已训练文本识别模型是指预先训练的用于进行文本识别的模型，可通过对样本文本识别数据进行训练得到，样本文本识别数据是指预先标注有非套打文本区域的样本文本图像，在该样本文本图像中不包括套打文本区域。本实施例中的已训练文本识别模型可以以常见的各种文本识别网络为基础，本实施例在此处不做具体限定。

具体的，在得到实例文本图像后，终端会获取已训练文本识别模型，将实例文本图像输入已训练文本识别模型中，通过已训练文本识别模型对实例文本图像进行文本识别，得到文本识别结果，在文本识别结果中包括文本图像中套打文本对应的所有独立文本。

本实施例中，通过获取已训练文本识别模型，通过已训练文本识别模型对实例文本图像进行文本识别，能够得到准确的文本识别结果。

在一个实施例中，上述实施例中各像素点与文本实例类别的对应关系通过像素分割模型得到；

像素分割模型的构建过程包括：

获取套打样本图像、与套打样本图像对应的训练标签以及待训练模型，待训练模型包括特征提取网络以及文本实例分类网络；

通过特征提取网络对套打样本图像进行特征提取，得到套打样本图像的样本特征信息；

通过文本实例分类网络根据样本特征信息，对套打样本图像中各样本像素点进行文本实例分类，预测各样本像素点归属于训练标签中样本文本实例的样本类别概率；

根据样本类别概率和训练标签，得到模型损失函数；

根据模型损失函数，对待训练模型进行调整，得到像素分割模型。

其中，套打样本图像是指包括套打文本区域的样本图像，与套打样本图像对应的训练标签用于标注套打样本图像中各样本像素点与套打文本区域中各样本文本实例之间的对应关系。比如，训练标签具体可以是和套打样本图像的大小对应、通道数为套打样本图像中样本文本实例个数的矩阵，存储有各样本文本实例对应的掩码，掩码是一串二进制代码对目标字段进行位与运算，屏蔽当前的输入位，本实施例中，掩码用于确定样本像素点与样本文本实例之间的对应关系，具体的，当样本像素点归属于样本文本实例时，对应的掩码为1，当样本像素点不归属于样本文本实例时，对应的掩码为0。

其中，特征提取网络中包括坐标信息卷积层、下采样网络以及上采样网络，其中的坐标信息卷积层用于将各样本像素点的像素坐标信息更新至套打样本图像的图像通道数据中，得到与套打样本图像对应的待采样图像数据，下采样网络用于对与套打样本图像对应的待采样图像数据进行下采样，得到多尺度下采样特征图，上采样网络用于根据多尺度下采样特征图进行上采样，得到套打样本图像的样本特征信息。其中，下采样网络对与套打样本图像对应的待采样图像数据的数据处理过程与已训练下采样网络对待采样图像数据进行下采样的过程相同，本实施例在此处不再赘述，上采样网络对与套打样本图像对应的多尺度下采样特征图的数据处理过程与已训练上采样网络对待采样图像数据进行上采样的过程相同，本实施例在此处也不再赘述。文本实例分类网络是指用于对样本特征信息进行卷积，以预测各样本像素点归属于训练标签中样本文本实例的样本类别概率的网络，其对样本特征信息的处理过程可参照上述已训练分类网络对特征信息的处理过程。

具体的，在需要进行文本识别时，终端会获取样本文本集，利用样本文本集中样本文本构造携带套打样本图像以及与套打样本图像对应的训练标签，并获取待训练模型，通过待训练模型中的特征提取网络对套打样本图像进行特征提取，得到套打样本图像的样本特征信息，将样本特征信息输入待训练模型中的文本实例分类网络，通过文本实例分类网络根据样本特征信息，对套打样本图像中各样本像素点进行文本实例分类，预测各样本像素点归属于训练标签中样本文本实例的样本类别概率，根据样本类别概率和训练标签，计算模型损失函数，根据模型损失函数，对待训练模型中特征提取网络以及文本实例分类网络的网络参数进行调整，直到模型损失函数满足预设模型调整要求为止，得到像素分割模型。其中，预设模型调整要求具体可以为模型损失函数小于预设损失函数阈值、模型损失函数收敛等，本实施例在此处不做具体限定。

举例说明，利用像素分割模型得到各像素点与文本实例类别的对应关系的过程可以如图6所示，终端获取文本图像以及像素分割模型，获取文本图像的图像通道数据以及各像素点的像素坐标信息，利用像素分割模型中的特征提取网络中的坐标信息卷积层，将像素坐标信息拼接至图像通道数据，以实现对图像通道数据的更新，得到待采样图像数据，利用特征提取网络中的下采样网络对待采样图像数据进行下采样，得到多尺度下采样特征图，利用特征提取网络中的上采样网络根据多尺度下采样特征图进行上采样，得到文本图像的特征信息，利用像素分割模型中的文本实例分类网络特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率(即P₀、P_1……P_n)，比对类别概率和预设概率阈值(即门限)，确定各像素点与各文本实例类别的对应关系，实现将像素归还给文本实例。

本实施例中，通过获取套打样本图像以及与套打样本图像对应的训练标签，能够利用套打样本图像以及与套打样本图像对应的训练标签实现对待训练模型的训练，得到像素分割模型。

在一个实施例中，获取套打样本图像、与套打样本图像对应的训练标签包括：

获取样本文本集；

将样本文本集中样本文本渲染为彩色文本行图像；

获取与彩色文本行图像对应的文字掩码区域；

根据预设重叠度将文字掩码区域粘贴至预设背景画布中，得到套打样本图像，并根据套打样本图像中文字掩码区域的数量确定样本文本实例的数量；

根据样本文本实例的数量以及套打样本图像中文字掩码区域与样本文本实例的对应关系，得到训练标签。

其中，样本文本是指独立的非套打文本，即独立文本条目。文字掩码区域是指彩色文本行图像中的样本文本所在区域。预设重叠度是指预先设置的重叠度对文字掩码区域进行粘贴，以是的来自不同彩色文本行图像的文字掩码区域之间存在重叠，预设重叠度可按照需要自行设置。预设背景画布是指预先设置的空白画布。文字掩码区域于样本文本实例对应，一个文字掩码区域即为一个样本文本实例。

具体的，终端会获取样本文本集，将样本文本集中样本文本渲染为多个独立的彩色文本行图像，将彩色文本行图像转换成对应的灰度图，利用预先设置的灰度值阈值对对应的灰度图中像素点进行筛选，选取出灰度值小于灰度值预设的像素点，得到与彩色文本行图像对应的文字掩码区域，根据预设重叠度将文字掩码区域粘贴至预设背景画布中，得到套打样本图像，并根据套打样本图像中文字掩码区域的数量确定样本文本实例的数量，根据套打样本图像中文字掩码区域与样本文本实例的对应关系，确定套打样本图像中样本像素点与样本文本实例的对应关系，新建一个与套打样本图像的大小对应的、通道数为样本文本实例的数量的矩阵，存储套打样本图像中样本像素点与样本文本实例的对应关系，其中的与套打样本图像的大小对应即是指与套打样本图像的像素点个数对应。

需要说明的是，本实施例中不限定对样本文本进行渲染得到彩色文本行图像的方式，比如，可以使用python的pygame工具包对样本文本进行渲染，在彩色文本行图像中，图像背景可以为纯黑色，样本文本为随机彩色颜色。优选的，根据真实应用场景中常出现的套打文本的覆盖率，本实施例中的预设重叠度的范围为25％-75％，在根据预设重叠度将文字掩码区域粘贴至预设背景画布中时，需要保证后续样本文本与之前存在的样本文本相互间的覆盖度满足预设重叠度的要求。

本实施例中，通过获取样本文本集，将样本文本集中样本文本渲染为彩色文本行图像，获取与彩色文本行图像对应的文字掩码区域，根据预设重叠度将文字掩码区域粘贴至预设背景画布中，得到套打样本图像，根据样本文本实例的数量以及套打样本图像中文字掩码区域与样本文本实例的对应关系，得到训练标签，能够实现对套打样本图像以及与套打样本图像对应的训练标签的获取。

在一个实施例中，如图7所示，通过一个流程示意图来说明本申请的文本识别方法，该文本识别方法具体包括以下几个步骤：

一是文本区域检测。当需要进行文本识别时，终端会获取待处理图像，对待处理图像进行目标检测，将待处理图像划分为套打文本区域、独立文本区域以及背景区域，根据套打文本区域从待处理图像中提取出文本图像。

二是套打像素分割。在得到文本图像后，终端会获取文本图像的图像通道数据以及各像素点的像素坐标信息，根据像素坐标信息，更新图像通道数据，得到待采样图像数据，对待采样图像数据进行下采样，得到多尺度下采样特征图，根据多尺度下采样特征图进行上采样，得到文本图像的特征信息，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率，比对类别概率和预设概率阈值，确定各像素点与各文本实例类别的对应关系，文本实例类别为独立文本条目类别。

三是归还套打像素到各个文本实例。终端会根据各像素点与各文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像。

四是OCR(Optical Character Recognition，光学字符识别)识别，终端会获取已训练文本识别模型，通过已训练文本识别模型对实例文本图像进行文本识别，得到文本识别结果。

下面对本申请的文本识别方法的效果进行说明。

如图4所示，在文本图像中包括存在套打情况的三个文本实例(分别用不同的字母表示，相同字母组成一个文本实例，不同文本实例之间的颜色不相同，背景区域的颜色与文本实例的颜色不同(未在图中明示))，通过套打像素分割，确定各像素点与各文本实例类别的对应关系后，终端可归还套打像素到各个文本实例，得到与文本实例类别对应的实例文本图像，如图8所示，需要说明的是，其中的背景区域与文本实例的颜色不同(未在图中明示)。在得到实例文本图像后，通过对实例文本图像进行文本识别，可以得到文本识别结果。其中，在确定各像素点与各文本实例类别的对应关系后，终端还可以对各像素点与各文本实例类别的对应关系进行可视化展示，对应的即用不同的颜色表示不同的文本实例。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种文本识别装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块902、特征提取模块904、分类模块906、拆分模块908和识别模块910，其中：

获取模块902，用于获取文本图像；

特征提取模块904，用于对文本图像进行特征提取，得到文本图像的特征信息；

分类模块906，用于根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，文本实例类别为独立文本条目类别；

拆分模块908，用于根据各像素点与各文本实例类别的对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像；

识别模块910，用于对实例文本图像进行文本识别，得到文本识别结果。

上述文本识别装置，通过获取文本图像，对文本图像进行特征提取，得到文本图像的特征信息，根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点与文本实例类别的对应关系，根据对应关系，对文本图像进行拆分，得到与文本实例类别对应的实例文本图像，能够通过对文本图像中各像素点进行文本实例分类，对文本图像中套打文本进行拆分，得到非套打的实例文本图像，为文本识别提供高质量的待识别数据，进而可以通过对实例文本图像进行文本识别，得到准确的文本识别结果，提高文本识别准确度。

在一个实施例中，特征提取模块还用于获取文本图像的图像通道数据以及各像素点的像素坐标信息，根据像素坐标信息，更新图像通道数据，得到待采样图像数据，对待采样图像数据进行采样，得到文本图像的特征信息。

在一个实施例中，特征提取模块还用于对待采样图像数据进行下采样，得到多尺度下采样特征图，根据多尺度下采样特征图进行上采样，得到文本图像的特征信息。

在一个实施例中，分类模块还用于根据特征信息对文本图像中各像素点进行文本实例分类，确定各像素点归属于各文本实例类别的类别概率，比对类别概率和预设概率阈值，确定各像素点与各文本实例类别的对应关系。

在一个实施例中，识别模块还用于获取已训练文本识别模型，通过已训练文本识别模型对实例文本图像进行文本识别，得到文本识别结果。

在一个实施例中，上述实施例中各像素点与文本实例类别的对应关系通过像素分割模型得到，装置还包括模型构建模块，模型构建模块用于获取套打样本图像、与套打样本图像对应的训练标签以及待训练模型，待训练模型包括特征提取网络以及文本实例分类网络，通过特征提取网络对套打样本图像进行特征提取，得到套打样本图像的样本特征信息，通过文本实例分类网络根据样本特征信息，对套打样本图像中各样本像素点进行文本实例分类，预测各样本像素点归属于训练标签中样本文本实例的样本类别概率，根据样本类别概率和训练标签，得到模型损失函数，根据模型损失函数，对待训练模型进行调整，得到像素分割模型。

在一个实施例中，模型构建模块还用于获取样本文本集，将样本文本集中样本文本渲染为彩色文本行图像，获取与彩色文本行图像对应的文字掩码区域，根据预设重叠度将文字掩码区域粘贴至预设背景画布中，得到套打样本图像，并根据套打样本图像中文字掩码区域的数量确定样本文本实例的数量，根据样本文本实例的数量以及套打样本图像中文字掩码区域与样本文本实例的对应关系，得到训练标签。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取文本图像；

对所述文本图像进行特征提取，得到所述文本图像的特征信息；

根据所述特征信息对所述文本图像中各像素点进行文本实例分类，确定各所述像素点与文本实例类别的对应关系，所述文本实例类别为独立文本条目类别；

根据所述各所述像素点与文本实例类别的对应关系，对所述文本图像进行拆分，得到与所述文本实例类别对应的实例文本图像；

对所述实例文本图像进行文本识别，得到文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对所述文本图像进行特征提取，得到所述文本图像的特征信息包括：

获取所述文本图像的图像通道数据以及各像素点的像素坐标信息；

根据所述像素坐标信息，更新所述图像通道数据，得到待采样图像数据；

对所述待采样图像数据进行采样，得到所述文本图像的特征信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述待采样图像数据进行采样，得到所述文本图像的特征信息包括：

对所述待采样图像数据进行下采样，得到多尺度下采样特征图；

根据所述多尺度下采样特征图进行上采样，得到所述文本图像的特征信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息对所述文本图像中各像素点进行文本实例分类，确定各所述像素点与文本实例类别的对应关系包括：

根据所述特征信息对所述文本图像中各像素点进行文本实例分类，确定各所述像素点归属于各文本实例类别的类别概率；

比对所述类别概率和预设概率阈值，确定各所述像素点与各所述文本实例类别的对应关系。

5.根据权利要求1所述的方法，其特征在于，所述对所述实例文本图像进行文本识别，得到文本识别结果包括：

获取已训练文本识别模型；

通过所述已训练文本识别模型对所述实例文本图像进行文本识别，得到文本识别结果。

6.根据权利要求1至5任意一项所述的方法，其特征在于，所述各所述像素点与所述文本实例类别的对应关系通过像素分割模型得到；

所述像素分割模型的构建过程包括：

获取套打样本图像、与所述套打样本图像对应的训练标签以及待训练模型，所述待训练模型包括特征提取网络以及文本实例分类网络；

通过所述特征提取网络对所述套打样本图像进行特征提取，得到所述套打样本图像的样本特征信息；

通过所述文本实例分类网络根据所述样本特征信息，对所述套打样本图像中各样本像素点进行文本实例分类，预测各所述样本像素点归属于所述训练标签中样本文本实例的样本类别概率；

根据所述样本类别概率和所述训练标签，得到模型损失函数；

根据所述模型损失函数，对所述待训练模型进行调整，得到像素分割模型。

7.根据权利要求6所述的方法，其特征在于，所述获取套打样本图像、与所述套打样本图像对应的训练标签包括：

获取样本文本集；

将所述样本文本集中样本文本渲染为彩色文本行图像；

获取与所述彩色文本行图像对应的文字掩码区域；

根据预设重叠度将所述文字掩码区域粘贴至预设背景画布中，得到套打样本图像，并根据所述套打样本图像中文字掩码区域的数量确定样本文本实例的数量；

根据所述样本文本实例的数量以及所述套打样本图像中文字掩码区域与所述样本文本实例的对应关系，得到训练标签。

8.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取文本图像；

特征提取模块，用于对所述文本图像进行特征提取，得到所述文本图像的特征信息；

分类模块，用于根据所述特征信息对所述文本图像中各像素点进行文本实例分类，确定各所述像素点与文本实例类别的对应关系，所述文本实例类别为独立文本条目类别；

拆分模块，用于根据所述各所述像素点与文本实例类别的对应关系，对所述文本图像进行拆分，得到与所述文本实例类别对应的实例文本图像；

识别模块，用于对所述实例文本图像进行文本识别，得到文本识别结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。