CN113111871B

CN113111871B - 文本识别模型的训练方法及装置、文本识别方法及装置

Info

Publication number: CN113111871B
Application number: CN202110431158.4A
Authority: CN
Inventors: 张鹏远; 李长亮; 毛璐
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2024-04-19
Anticipated expiration: 2041-04-21
Also published as: CN113111871A

Abstract

本申请提供一种文本识别模型的训练方法及装置、文本识别方法及装置，其中所述文本识别模型的训练方法包括：将获取的第一样本图像输入文本识别模型的区域检测网络，确定第一样本图像的至少一个第一子样本图像；将至少一个第一子样本图像输入文本识别模型的字符识别网络，确定第一样本图像的预测文本，该预测文本基于字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定；确定预测文本和第一样本图像的第一样本标签之间的第一误差值，该第一样本标签为第一样本图像中实际存在的文本；基于第一误差值对文本识别模型进行训练，直至达到训练停止条件。上述方法使得得到的预测文本准确率更高，可以提高文本识别模型的训练效率。

Description

文本识别模型的训练方法及装置、文本识别方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种文本识别模型的训练方法及装置、文本识别方法及装置、计算设备和计算机可读存储介质。

背景技术

图像中有时可以包含丰富的文本信息，针对图像的文本识别则是通过对图像进行一定的图像处理，从而获取图像中的文本。通常情况下，图像文本识别可以包括区域检测和字符识别两个阶段，在区域检测阶段检测得到图像中存在文本的区域，在字符识别阶段对图像中存在文本的区域进行字符识别，得到图像中的文本。

现有技术中，文本识别的字符识别阶段通常通过字符识别网络实现。并且，现有的字符识别网络通常以CTC(Connectionist Temporal Classification，连接时序分类)loss作为损失函数，以确定图像中的每个字符，进而确定图像的文本。但CTC loss仅关注单个字符的特征，而识别出的文本的准确率是与单个字符以及字符之间的语义关系均相关的，因此上述方法确定的文本可能不准确或者语义不连贯，通过该不准确的文本对文本识别模型进行训练可能会降低文本识别模型的训练效率。

发明内容

有鉴于此，本申请实施例提供了一种文本识别模型的训练方法及装置、文本识别方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种文本识别模型的训练方法，包括：

将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个第一子样本图像；

将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，其中，所述预测文本基于所述字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定；

确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本；

基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。

根据本申请实施例的第二方面，提供了一种文本识别方法，包括：

获取待识别图像；

将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于上述第一方面所述的方法训练得到；

将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本。

根据本申请实施例的第三方面，提供了一种文本识别模型的训练装置，包括：

第一确定模块，被配置为将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个第一子样本图像；

第二确定模块，被配置为将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，其中，所述预测文本基于所述字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定；

第三确定模块，被配置为确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本；

训练模块，被配置为基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。

根据本申请实施例的第四方面，提供了一种文本识别装置，包括：

获取模块，被配置为获取待识别图像；

第四确定模块，被配置为将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于上述所述的文本识别模型的训练方法训练得到；

字符识别模块，被配置为将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述第一方面所述文本识别模型的训练方法的步骤，或者，实现上述第二方面所述文本识别方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现上述第一方面所述文本识别模型的训练方法的步骤，或者，实现上述第二方面所述文本识别方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现上述第一方面所述文本识别模型的训练方法的步骤，或者，实现上述第二方面所述文本识别方法的步骤。

本申请实施例中，通过将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个第一子样本图像；将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，其中，所述预测文本基于所述字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定；确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本；基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。本申请实施例的字符识别网络可以提取每个第一子样本图像中图像特征之间的序列关系，并基于该序列关系确定预测文本，能够获取多个字符之间的语义关系，使得得到的预测文本准确率更高且连贯性更强，可以提高文本识别模型的训练效率。

附图说明

图1是本申请实施例提供的一种计算设备的结构框图；

图2是本申请实施例提供的一种文本识别模型的训练方法的流程图；

图3是本申请实施例提供的一种文本框的示意图；

图4是本申请实施例提供的一种应用于文本识别的文本识别模型的训练方法的流程图；

图5A是本申请实施例提供的一种样本图像和子样本图像的示意图；

图5B是本申请实施例提供的一种图像空间特征图的示意图；

图6是本申请实施例提供的一种预测文本的示意图；

图7是本申请实施例提供的一种文本识别方法的流程图；

图8是本申请实施例提供的一种区域检测网络的结构示意图；

图9是本申请实施例提供的一种应用于PDF(Portable Document Format，便捷式文档格式)合同文档的文本识别方法的流程图；

图10是本申请实施例提供的一种应用时文本识别模型的层之间的数据流向图；

图11是本申请实施例提供的一种文本识别模型的训练装置的结构示意图；

图12是本申请实施例提供的一种文本识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

文本识别模型：识别图像中的文本的模型，文本识别可以包括区域检测和字符识别两个阶段。

区域检测网络：用于对图像进行检测，确定图像中存在文本的区域，可以得到文本框。

字符识别网络：用于对存在文本的图像进行字符识别，确定图像中的文本。

第一特征提取层：用于进行特征提取。在本申请实施例中，该第一特征提取层可以是Efficient Net(高效率网络)，该Efficient Net是一张高效的图像分类网络，可以用于本申请实施例区域检测阶段的特征提取。

特征增强层：用于学习特征之间的序列关系。在本申请实施例中，该特征增强层可以是Transformer网络，该Transformer网络是一种高效的注意力机制网络，可用于图像特征提取中，能够加强特征之间的时序性和有效性。

区域生成层：用于确定图像中存在文本的区域。在本申请实施例中，该区域生成层可以是RPN(Region Proposal Network)网络。

第二特征提取层：用于进行特征提取。在本申请实施例中，该第一特征提取层可以是Efficient Net(高效率网络)，该Efficient Net是一张高效的图像分类网络，可以用于本申请实施例区域检测阶段的特征提取。该第二特征提取层与第一特征提取层的结构及作用相同但参数不同。

关系提取层：用于提取特征之间的序列关系。在本申请实施例中，该关系提取层可以是Attention机制网络，该Attention是一种处理时序信号的网络结构，可用于图像特征提取中，能够加强特征之间的时序性和有效性。

分类层：用于确定预测文本，在本申请实施例中，分类层可以是TranscriptionLayers(转录层)。

交叉熵损失函数：交叉熵损失函数经常用于分类问题中，特别是在神经网络做分类问题时，也经常使用交叉熵作为损失函数，此外，由于交叉熵涉及到计算每个类别的概率，所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

Softmax：用于分类的网络结构，首先将特征映射到类别数维度上，再通过softmax运算得到分类概率。

IOU：(Intersection over Union，并集上的交集)，又称为重叠度，是一种用于表征文本框之间重合度的指标。

第一样本图像：对文本识别模型进行训练时使用的样本图像。

第二样本图像：对区域检测网络进行训练时使用的样本图像。

第三样本图像：对字符识别网络进行训练时使用的样本图像。

图像空间特征图：提取图像的特征后得到的特征图。

增强特征图：提取图像中图像空间特征之间的序列关系后得到的特征图。

初始特征序列：将提取的图像的多个特征点的特征称为图像的初始特征序列。

关系特征序列：包括图像的特征之间的序列关系的特征序列。

第一深度可分离卷积子层：对图像进行通道卷积和深度卷积处理，提取图像特征的层，可以得到卷积特征图。

第一池化子层：对卷积特征图进行池化处理的层。

在本申请中，提供了一种文本识别模型的训练方法及装置、一种文本识别方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示文本识别模型的训练方法中的步骤。图2示出了根据本申请一实施例的文本识别模型的训练方法的流程图，包括步骤202至步骤208。

步骤202：将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个第一子样本图像。

在一些实施例中，可以从样本图像集中获取多个存在文本的样本图像，将该多个样本图像输入至文本识别模型中进行模型训练，且该多个样本图像中每个样本图像均可以称为第一样本图像。在实施中，需要将多个样本图像均输入文本识别模型中对文本识别模型进行训练，本申请仅以第一样本图像为例对文本识别模型的训练方法进行说明。

作为一种示例，通过文本识别模型对图像进行文本识别时，可以先确定图像中存在文本的区域，因此，需要将第一样本图像输入文本识别模型的区域检测网络。

在实施中，本步骤的具体实现可以包括：将所述第一样本图像输入所述区域检测网络，确定所述第一样本图像的至少一个预测文本框；基于所述至少一个预测文本框对所述第一样本图像进行裁剪，得到所述至少一个第一子样本图像。

作为一种示例，区域检测网络是对图像中存在文本的区域进行检测的，因此，将第一样本图像输入区域检测网络后，可以输出至少一个预测文本框，为了便于后续进行字符识别，可以基于至少一个预测文本框对第一样本图像进行裁剪，每个预测文本框裁剪得到一个子样本图像，可以得到至少一个第一子样本图像。

在本申请实施例中，将第一样本图像划分为至少一个第一子样本图像，则至少一个第一子样本图像中存在的字符较少，可以便于后续的字符识别。

在一些实施例中，将所述第一样本图像输入所述区域检测网络，确定所述第一样本图像的至少一个预测文本框的具体实现可以包括：将所述第一样本图像输入所述区域检测网络的第一特征提取层，得到所述第一样本图像的图像空间特征图；将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第一样本图像的增强特征图，其中，每个增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；将所述增强特征图输入所述区域检测网络的区域生成层，得到所述第一样本图像的至少一个预测文本框。

也就是说，区域检测网络可以包括第一特征提取层、特征增强层和区域生成层。将第一样本图像输入区域检测网络，通过第一特征提取层提取第一样本图像的特征，可以得到第一样本图像的图像空间特征图。通过特征增强层提取图像空间特征图中图像空间特征之间的序列关系，可以得到第一样本图像的增强特征图。通过区域生成层从该增强特征图中确定存在文本的区域，可以得到至少一个文本框。

作为一种示例，第一特征提取层可以包括第一深度可分离卷积子层、第一池化子层和第一全连接子层，且第一特征提取层可以是Efficient Net。并且，该第一全连接子层可以是FC(Fully connected layer，全连接层)。

需要说明的是，第一深度可分离卷积子层用于对输入的图像进行深度可分离卷积处理，深度可分离卷积是对标准的卷积进行改进所得到的算法，该算法通过拆分空间维度和通道(深度)维度的相关性，减少了卷积计算所需要的参数个数，能够提升卷积核参数的使用效率，进而提高卷积处理的效率。另外，将该深度可分离卷积处理算法运用在文本识别模型中，则可以提高文本识别模型的识别速度。

以该第一特征提取层为Efficient Net为例，则该第一特征提取层可以包括第一深度可分离卷积子层、第一池化子层和FC子层。将第一样本图像输入第一特征提取层，通过第一深度可分离卷积子层对第一样本图像进行深度卷积(depthwise convolution)处理，该第一样本图像是三通道的图像，可以对该第一样本图像中每个通道的图像进行卷积处理，得到每个通道的卷积特征图，进而得到三个卷积特征图，将该三个卷积特征图进行拼接可以得到一个三通道的卷积特征图。但对每个通道独立进行卷积运算，没有有效利用不同通道在相同位置上的特征信息，因此还需要对该三通道的卷积特征图进行逐点卷积(pointwise convolution)处理，该逐点卷积处理的卷积核可以是单位卷积核，处理后能够得到第一样本图像的多个卷积特征图，该多个卷积特征图是融合了第一样本图像多个通道的特征信息后得到的，且该多个卷积特征图的数量与进行逐点卷积处理的卷积核的数量相同。将该第一样本图像的多个卷积特征图输入第一池化子层，对该多个卷积特征图进行池化处理，可以得到第一样本图像的融合特征图。将该融合特征图输入FC子层，可以得到该第一样本图像的图像空间特征图。

例如，假设第一样本图像是5×5像素的三通道图像，将该第一样本图像输入第一深度可分离卷积子层，对该第一样本图像中每个通道的图像进行卷积处理，可以得到3个卷积特征图，该3个卷积特征图均是单通道的卷积特征图，将该3个卷积特征图拼接后得到三通道的卷积特征图。通过尺寸是1×1×M的卷积核对该三通道的卷积特征图进行卷积处理，生成新的卷积特征图，且新的卷积特征图的数量是M。其中，M是大于或等于1的正整数。

作为一种示例，特征增强层可以是Transformer网络。示例性地，将图像空间特征图输入Transformer网络，该图像空间特征图中包括多个特征点，每个特征点对应第一样本图像的N个像素点，且N与第一深度可分离卷积子层的下采样倍数相同，并且每个特征点对应有图像空间特征。该图像空间特征图包括多个图像空间特征，该多个图像空间特征可以理解为一个X×Y的矩阵，可以将该矩阵中X行的图像空间特征进行拼接，得到(X×Y)×1的矩阵。以任一特征点为目标特征点，将该目标特征点的图像空间特征与其他特征点的图像空间特征进行注意力计算，则可以得X×Y-1个权重值，该X×Y-1个权重值与除该目标特征点之外的其他X×Y-1个特征点对应，基于X×Y-1个权重值、X×Y-1个图像空间特征和该目标特征点的图像空间特征，可以确定目标特征点的增强特征，通过上述方法可以得到多个特征点中每个特征点的增强特征，将多个增强特征以X×Y矩阵的形式表示，则可以得到第一样本图像的增强特征图。其中，N、X和Y均是大于或等于1的正整数。

作为一种示例，区域生成层可以是RPN(Region Proposal Network)网络。

在一种可能的实现方式中，在区域生成层，可以在增强特征图中确定每个候选文本框的中心点的纵坐标和高度，为该增强特征图中每个特征点配置多个候选文本框，并且通过归一化处理确定每个候选文本框的前景分数和背景分数，基于每个候选文本框的前景分数和背景分数，从每个特征点的多个候选文本框中确定参考文本框，通过非极大值抑制算法NMS(Non-Maximum Suppression)从每个特征点的参考文本框中确定子文本框，通过文本线构造方法将多个子文本框划分至至少一个文本区域内，并确定该至少一个文本区域内每个子文本框的中心点，使用最小二乘法得到该至少一个文本区域内的参考直线，基于该参考直线确定该至少一个文本区域的文本框。

其中，多个子文本框的中心点与该参考直线之间的距离和最小。

其中，前景分数是该候选文本框对应的图像可能是前景的概率，背景分数是该候选文本框对应的图像可能是背景的概率。

作为一种示例，对于每个特征点配置的候选文本框的宽度是固定的，而高度是不同的，因为宽度是固定的，所以只需要确定一个候选文本框的中心点的纵坐标和高度就可以确定一个候选文本框。固定的宽度可以保证在宽度方向上，候选文本框能够覆盖图像中每个点且不相互重叠，由于不同的文本在高度方向上高度差距可能比较大，所以可以设置多个候选文本框高度，用于覆盖不同高度的文本。示例性地，可以为每个特征点配置10个候选文本框，且每个候选文本框的宽度为16像素，高度分别是11、16、23、33、48、68、97、139、198、283像素，如此，可以覆盖到增强特征图的所有位置。

作为一种示例，可以通过softmax分类器确定每个候选文本框中的图像的前景分数和背景分数，根据前景分数和背景分数确定候选文本框中的图像是前景还是背景。可以理解为按照二分类方法对候选文本框进行分类，确定候选文本框中的图像是前景还是背景。示例性地，对于任一特征点处的候选文本框来说，若前景分数大于或等于背景分数，可以认为该候选文本框中的图像是前景，在候选文本框中的图像是前景的情况下，若该候选文本框的前景分数大于分数阈值，则可以将该候选文本框确定为参考文本框，在该种情况下，对于任一特征点，可以确定至少两个参考文本框。

需要说明的是，分数阈值可以由用户根据实际需求进行设置，或者由计算设备默认设置，本申请实施例对此不作限定。例如，分数阈值可以是0.7。

作为一种示例，对于任一特征点的至少两个参考文本框来说，可以通过softmax分类器确定每个参考文本框包含文本的概率，按照概率从大到小的顺序对至少两个参考文本框进行排序。从最大概率参考文本框开始，分别确定其他参考文本框与该最大概率参考文本框的重叠度IOU，将重叠度大于预设阈值的参考文本框删除，将重叠度小于或等于预设阈值的参考文本框保留。若重叠度小于或等于预设阈值的参考文本框是至少两个，则从该至少两个参考文本框中确定最大概率参考文本框，重复执行确定其他参考文本框与最大概率参考文本框的重叠度的操作，直至重叠度小于或等于预设阈值的参考文本框的数量小于两个，将未被删除的参考文本框均确定为该任一特征点的子文本框。

作为一种示例，通过文本线构造方法将多个子文本框划分至一个文本区域内可以理解为将每两个相近的子文本框组成一组，合并不同的组直到无法再合并为止，将合并在一起的子文本框划分至同一个文本区域。

示例性地，按照x轴坐标对多个子文本框进行排序，对于子文本框i，可以先沿x轴正方向确定与该子文本框i的水平距离小于距离阈值的候选子文本框，从候选子文本框中确定与该子文本框i竖直方向的重叠度大于预设阈值的待选子文本框，从待选子文本框中确定前景分数最大的子文本框j作为该子文本框i的邻接子文本框。然后按x轴负方向确定与子文本框j的水平距离小于距离阈值的候选子文本框，从候选子文本框中确定与子文本框j竖直方向的重叠度大于预设阈值的待选子文本框，从待选子文本框中确定前景分数最大的子文本框k作为该子文本框j的邻接子文本框。最后将子文本框i的前景分数与子文本框k的前景分数进行比较，若子文本框i的前景分数大于或等于子文本框k的前景分数，说明子文本框i-子文本框j是一个最长连接，可以设置(子文本框i，子文本框j)＝true；若子文本框i的前景分数小于子文本框k的前景分数，说明子文本框i-子文本框j不是一个最长的连接，可以能是包括在其他长连接中的一部分。

例如，参见图3，图3是本申请实施例提供的一种文本框的示意图。假设某一特征点对应有8个子文本框，且按照顺序排列后分别为0-7，从子文本框0开始，假设正向寻找确定子文本框0的临近子文本框是子文本框3，对于子文本框3，假设反向寻找确定子文本框3的临近文本框是子文本框0，即子文本框i和子文本框k是相同的，则可以设置(子文本框0，子文本框3)＝true。对于子文本框2，正向寻找确定的临近子文本框是子文本框3，子文本框3反向寻找确定的临近子文本框是子文本框0，且子文本框2的前景分数小于子文本框0的前景分数，则可以认为子文本框2-子文本框3不是最长连接，其包含在子文本框0-子文本框3中。对于子文本框3，正向寻找确定的临近子文本框是子文本框7，子文本框7反向寻找确定的临近子文本框是子文本框3，即子文本框i和子文本框k是相同的，则可以设置(子文本框3，子文本框7)＝true。如此可以确定子文本框0-子文本框3-子文本框7组成一个文本区域，即可以将该8个子文本框划分至一个文本区域内。

作为一种示例，可以获取文本区域内每个子文本框的中心点的坐标，利用最小二乘法确定一条与多个中心点的距离之和最小的参考直线。并且，可以确定文本区域的最大范围，以该最大范围和该参考直线，做两条该参考直线的平行线作为一组对边，且以该组对边的垂线作为另一组对边生成文本框。

本申请实施例中，通过上述第一特征提取层提取的是第一样本图像的图像空间特征，通过特征增强层提取的是第一样本图像中结合多个特征点的图像空间特征后得到的图像序列特征，能够考虑到图像空间特征之间的序列关系，如此得到的增强特征图能够更加准确地表征第一样本图像，通过该精度更高的增强特征图进行后续处理，可以提高文本识别模型的准确性。

步骤204：将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，其中，所述预测文本基于所述字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定。

也就是说，在本申请实施例中，字符识别网络可以提取每个第一子样本图像中图像特征之间的序列关系，并基于该序列关系确定预测文本，由于字符特征是对存在文本的第一子样本图像提取得到的，因此该序列关系与文本中字符之间的语义关系相关，即本申请实施例可以考虑到字符之间的语义联系，使得得到的预测文本准确率更高且连贯性更强。

在实施中，本步骤的具体实现可以包括：将所述至少一个第一子样本图像输入所述字符识别网络的第二特征提取层，得到每个第一子样本图像的初始特征序列；将每个第一子样本图像的初始特征序列输入所述字符识别网络的关系提取层，得到每个第一子样本图像的关系特征序列；将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到所述第一样本图像的预测文本。

也就是说，字符识别网络可以包括第二特征提取层、关系提取层和分类层。将至少一个第一子样本图像输入字符识别网络，通过第二特征提取层可以得到每个第一子样本图像的初始特征序列，通过关系提取层可以提取每个初始特征序列中两个初始特征之间的序列关系，得到每个第一子样本图像的关系特征序列，通过分类层可以得到第一样本图像的预测文本。

在一些实施例中，第二特征提取层可以包括第二深度可分离子层、第二池化子层和第二全连接子层，且该第二特征提取层可以是Efficient Net。另外，该第二全连接层可以是FC子层。

作为一种示例，以该第二特征提取层为Efficient Net为例，则该第二特征提取层可以包括第二深度可分离卷积子层、第二池化子层和FC子层。将至少一个第一子样本图像输入第二特征提取层，通过第二深度可分离卷积层对每个第一子样本图像进行深度卷积处理和逐点卷积处理，可以得到每个第一子样本图像的多个卷积特征序列。将每个第一子样本图像的多个卷积特征序列输入第二池化层，对同一个第一子样本图像的多个卷积特征序列进行池化处理，可以得到该第一子样本图像的融合特征序列，每个第一子样本图像的融合特征序列包括多个融合特征，每个融合特征与一个特征点对应，且一个特征点与第一子样本图像中多个像素点对应，通过上述方式可以得到每个第一子样本图像的融合特征序列，该融合特征序列包括多个融合特征，每个融合特征与一个特征点对应。将每个第一子样本图像的融合特征序列输入FC子层，可以得到每个第一子样本图像的初始特征序列，该初始特征序列包括多个初始特征，每个初始特征与一个特征点对应。

需要说明的是，第二特征提取层和第一特征提取层可以是结构相同参数不同的特征提取层。

在一些实施例中，关系提取层可以包括编码子层和解码子层，且该关系提取层可以是Attention机制网络。

作为一种示例，将每个第一子样本图像的初始特征序列输入关系提取层的编码子层，可以对该初始特征序列中的每个特征点的初始特征进行编码，得到每个特征点的中间特征向量。对于任一目标特征点，可以基于该目标特征点的初始特征和该目标特征点之前的其他特征点的中间特征向量，确定该目标特征点的中间特征向量，通过上述方式可以确定每个特征点的中间特征向量，将每个特征点的中间特征向量输入解码子层，可以得到每个特征点的关系特征，且根据同一个初始特征序列中的每个特征点的关系特征，可以确定关系特征序列，进而可以得到每个第一子样本图像的关系特征序列。

在一些实施例中，将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到所述第一样本图像的预测文本的具体实现可以包括：将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到每个第一子样本图像的子预测文本；基于每个第一子样本图像的子预测文本确定所述第一样本图像的预测文本。

也就是说，在分类层先确定的是每个第一子样本图像的子预测文本，基于子预测文本可以确定第一样本图像的预测文本。

作为一种示例，分类层可以是Transcription Layers。示例性地，对于目标子样本图像的关系特征序列，通过分类层可以将该关系特征序列中的关系特征与预设的文本字典中预设字符的预设关系特征进行比对，若存在与关系特征相似的预设关系特征，将该关系特征对应的预设字符确定为关系特征对应的第一预测文本，将目标子样本图像的关系特征序列中每个关系特征的第一预测文本进行拼接，可以得到目标子样本图像的子预测文本，对于每个子样本图像的关系特征序列均采取上述方式，则可以得到每个子样本图像的子预测文本。

进一步地，将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络之前，还包括：按照每个第一子样本图像的文本框在所述第一样本图像中的位置对所述至少一个第一子样本图像进行排序，得到每个第一子样本图像的顺序。

相应地，在另一些实施例中，将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络的具体实现包括：按照每个第一子样本图像的顺序将所述至少一个第一子样本图像输入所述字符识别网络。

也就是说，在将至少一个第一子样本图像输入文本识别模型的字符识别网络之前，可以对至少一个第一子样本图像进行排序，并按照顺序将至少一个第一字样本图像输入字符识别网络中。

示例性地，根据第一子样本图像的文本框在第一样本图像中的位置，按照从左到右，从上到下的顺序对第一子样本图像进行排序，并按顺序输入字符识别网络中。

如此，可以避免第一子样本图像的顺序出错导致识别出的文本拼接混乱的问题。

作为一种示例，基于每个第一子样本图像的子预测文本确定所述第一样本图像的预测文本的具体实现可以包括：按照每个第一子样本图像的顺序对所述至少一个第一子样本图像的子预测文本进行拼接，得到所述第一样本图像的预测文本。

也就是说，若第一子样本图像有对应的顺序，则可以按照顺序将至少一个子样本图像的子预测文本进行拼接，可以得到第一样本图像的预测文本。

本申请实施例中，可以按照第一子样本图像的顺序将至少一个第一子样本图像输入字符识别网络，然后通过字符识别网络的第二特征提取层、关系提取层和分类层确定每个第一子样本图像的子预测文本，按照顺序对至少一个第一子样本图像的子预测文本进行拼接，能够得到第一样本图像的预测文本。相较于现有技术，本方案将初始特征序列输入关系提取层，能够加强文本的语义通顺性，提高文本识别的准确性。

步骤206：确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本。

在一些实施例中，可以通过损失函数确定预测文本和第一样本标签之间的第一误差值。

示例性地，损失函数可以是交叉熵损失函数、对数损失函数、指数损失函数等。

作为一种示例，可以将预测文本和第一样本图像中实际存在的文本作为损失函数的输入，则该损失函数可以输出第一误差值。

步骤208：基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。

在实施中，本步骤的具体实现可以包括：将所述第一误差值与第一误差阈值进行比对，若所述第一误差值大于或等于所述第一误差阈值，继续对所述文本识别模型进行训练；若所述第一误差值小于所述第一误差阈值，停止对所述文本识别模型的训练。

需要说明的是，第一误差阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不作限定。

作为一种示例，若第一误差值大于或等于第一误差阈值，可以认为第一样本标签和预测文本的差异比较大，模型的准确率还比较低，因此，需要继续对文本识别模型进行训练；若第一误差值小于第一误差阈值，可以认为第一样本标签和预测文本的差异比较小，模型的准确率已经达到比较高的水平，因此，可以停止对文本识别模型的训练。

图4示出了本申请一实施例提供的一种应用于文本识别的文本识别模型训练方法的流程图，该方法可以包括步骤402至步骤424。

步骤402：获取第一样本图像。

在一些实施例中，可以从样本图像集中获取多个样本图像，将该多个样本图像输入至文本识别模型中进行模型训练，且该多个样本图像中每个样本图像均可以称为第一样本图像。在实施中，需要将多个样本图像均输入文本识别模型中对文本识别模型进行训练，本申请仅以第一样本图像为例对文本识别模型的训练方法进行说明。

步骤404：将所述第一样本图像输入所述区域检测网络的第一特征提取层，得到所述第一样本图像的图像空间特征图。

例如，参见图5A，图5A是本申请实施例提供的一种样本图像和子样本图像的示意图。以该第一样本图像是包括上下两栏文本的图像为例，通过第一深度可分离卷积子层，可以对该第一样本图像进行深度卷积处理和逐点卷积处理，则可以得到第一样本图像的多个卷积特征图，将该多个卷积特征图输入第一池化层，得到该第一样本图像的融合特征图，将该融合特征图输入FC子层进行下采样，可以得到该第一样本图像的图像空间特征图，该图像空间特征图中包括多个特征点，且每个特征点可以与第一样本图像的16个像素对应。

步骤406：将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第一样本图像的增强特征图。

其中，每个增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系。

继续上述举例，参见图5B，图5B是本申请实施例提供的一种图像空间特征图的示意图，该图像空间特征图包括多个特征点，每个特征点对应有图像空间特征，多个图像空间特征可以认为是一个W×Z的矩阵，将该矩阵转换为(W×Z)×1的矩阵，基于每个特征点的图像空间特征与其他特征点的图像空间特征，可以确定每个特征点的增强特征，进而可以得到W×Z个增强特征，将该W×Z个增强特征表示为W×Z的矩阵，则可以得到第一样本图像的增强特征图。

步骤408：将所述增强特征图输入所述区域检测网络的区域生成层，得到所述第一样本图像的至少一个文本框。

示例性地，可以为增强特征图的每个特征点配置10个候选文本框，并通过softmax分类器确定每个候选文本框中的图像的前景分数和背景分数，将前景分数大于背景分数且前景分数大于分数阈值的候选文本框确定为参考文本框，则每个特征点可以确定至少两个参考文本框，根据NMS算法从每个特征点的至少两个参考文本框中确定子文本框，通过文本线构造方法将多个子文本框划分至至少一个文本区域内，并确定该至少一个文本区域内每个子文本框的中心点，使用最小二乘法得到该至少一个文本区域内的参考直线，基于该参考直线确定该至少一个文本区域的文本框。

需要说明的是，步骤402-步骤408是对步骤202的下位描述，实现过程与步骤202的实现过程相同，具体可以参见步骤202的相关描述，本实施例在此不再赘述。

步骤410：基于所述至少一个预测文本框对所述第一样本图像进行裁剪，得到所述至少一个第一子样本图像。

示例性地，参见图5A，图中虚线组成的框是预测文本框，假设第一样本图像中包括三个预测文本框，则可以根据该三个预测文本框对第一样本图像进行裁剪，得到三个第一子样本图像。

步骤412：按照每个第一子样本图像的文本框在所述第一样本图像中的位置对所述至少一个第一子样本图像进行排序，得到每个第一子样本图像的顺序。

示例性地，可以根据第一子样本图像的文本框在第一样本图像中的位置，按照从左到右，从上到下的顺序对第一子样本图像进行排序。

步骤414：按照每个第一子样本图像的顺序将所述至少一个第一子样本图像输入所述字符识别网络的第二特征提取层，得到每个第一子样本图像的初始特征序列。

示例性地，按顺序将至少一个第一子样本图像输入字符识别网络的第二特征提取层，可以避免第一子样本图像的顺序出错导致识别出的文本拼接混乱的问题。

例如，参见图5A，其中包括三个第一子样本图像。对于任一第一子样本图像通过第二深度可分离卷积子层，可以对该第一子样本图像进行深度卷积处理和逐点卷积处理，则可以得到第一子样本图像的多个卷积特征序列，将该多个卷积特征序列输入第二池化层，得到该第一子样本图像的融合特征序列，将该融合特征序列输入FC子层进行下采样，可以得到该第一子样本图像的初始特征序列。

步骤416：将每个第一子样本图像的初始特征序列输入所述字符识别网络的关系提取层，得到每个第一子样本图像的关系特征序列。

作为一种示例，关系提取层可以包括编码子层和解码子层，且该关系提取层可以是Attention机制网络。具体地，将每个第一子样本图像的初始特征序列输入关系提取层的编码子层，可以对该初始特征序列中的每个特征点的初始特征进行编码，得到每个特征点的中间特征向量。对于任一目标特征点，可以基于该目标特征点的初始特征和该目标特征点之前的其他特征点的中间特征向量，确定该目标特征点的中间特征向量，通过上述方式可以确定每个特征点的中间特征向量，将每个特征点的中间特征向量输入解码子层，可以得到每个特征点的关系特征，且根据同一个初始特征序列中的每个特征点的关系特征，可以确定关系特征序列，进而可以得到每个第一子样本图像的关系特征序列。

步骤418：将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到每个第一子样本图像的子预测文本。

例如，对于目标子样本图像的关系特征序列，可以将该关系特征序列中每个关系特征与预设的文本字典中预设字符的预设关系特征进行比对，若存在于某个关系特征相似的预设关系特征，则可以将该预设关系特征对应的预设字符确定为该关系特征对应的第一预测文本，如此，可以确定目标字样本图像中每个关系特征的第一预测文本，将该多个第一预测文本进行拼接，则可以得到每个子样本图像的子预测文本。

步骤420：按照每个第一子样本图像的顺序对所述至少一个第一子样本图像的子预测文本进行拼接，得到所述第一样本图像的预测文本。

例如，参见图6，图6是本申请实施例提供的一种预测文本的示意图。图6中包括三个第一子样本图像分别为a、b、c，且该三个第一子样本图像在第一样本图像中的阅读顺序是a、b、c，则可以将该三个第一子样本图像的子预测文本按照a、b、c的顺序进行拼接，可以得到第一样本图像的预测文本d。

步骤422：确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本。

步骤424：基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。

作为一种示例，将所述第一误差值与第一误差阈值进行比对，若所述第一误差值大于或等于所述第一误差阈值，继续对所述文本识别模型进行训练；若所述第一误差值小于所述第一误差阈值，停止对所述文本识别模型的训练。

示例性地，若第一误差值大于或等于第一误差阈值，可以认为第一样本标签和预测文本的差异比较大，模型的准确率还比较低，因此，需要继续对文本识别模型进行训练；若第一误差值小于第一误差阈值，可以认为第一样本标签和预测文本的差异比较小，模型的准确率已经达到比较高的水平，因此，可以停止对文本识别模型的训练。

图7示出了本申请一实施例提供的一种文本识别方法的流程图，包括步骤702至步骤706。

步骤702：获取待识别图像。

在实施中，本步骤的具体实现可以包括：获取第一图像，并对所述第一图像进行图像对比度处理，得到第二图像；对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域；基于所述至少一个文本区域对所述第二图像进行划分，得到至少一个所述待识别图像。

也就是说，可以对获取的第一图像进行图像对比度处理，使得图像的前景和背景对比更加明显，便于后续识别，将进行图像对比度处理后的图像称为第二图像。并且可以检测第二图像中的文本区域，基于检测得到的第二图像的至少一个文本区域将第二图像划分为至少一个图像作为待识别图像。

作为一种示例，可以调整第一图像的对比度，将调整对比度后的第一图像称为第二图像。通过Canny边缘检测算法对第二图像的文本区域进行检测，并利用opencv图像处理工具画出第二图像中的文本区域，并且按照文本区域对第二图像进行分割，每个文本区域对应的部分划分为一张图像，则可以得到至少一个图像，并且可以将该至少一个图像作为待识别图像。

需要说明的是，在进行文本识别时，可以将该第一图像划分得到的待识别图像都输入文本识别模型中进行文本识别，在该种情况下，输入的待识别图像的顺序需要是第一图像中文本的正确阅读顺序。如此，文本识别模型识别得到每个待识别图像的文本后可以将识别得到的文本按照正确的顺序排列，得到正确的文本。

作为一种示例，若第一图像是合同文件转换成PDF格式之后得到的图像，还可以根据文本区域的数量确定该合同文件的分栏格式，进而确定得到的待识别图像的顺序。若文本区域的数量是一个，则该合同文件是单栏的格式；若文本区域的数量是两个，则该合同文件是双栏格式；若文本区域的数量大于两个，则该合同文件可能是单双栏格式。在该合同文件是双栏格式的情况下，可以按照从左到右或从上到下的顺序对文本区域进行排序，进而基于文本区域划分第二图像后，可以对得到的待识别图像进行排序。在合同文件是单双栏格式的情况下，可以按照从左到右从上到下的顺序对文本区域进行排序，进而基于文本区域划分第二图像后，可以对得到的待识别图像进行排序。

进一步地，所述对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域之前，还包括：对所述第二图像进行直线检测，从检测到的直线中确定长度大于所述第二图像的一半宽度的目标横线；将所述第二图像中处于所述目标横线中第一个横线和最后一个横线之间的图像保留，得到第三图像。相应地，对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域的具体实现可以是：对所述第三图像的进行文本区域检测，确定所述第三图像的至少一个文本区域。

也就是说，第二图像中可能包括一些存在干扰文字或不存在文字的区域，可以通过直线检测将这些区域删除掉，将删除这些区域后的第二图像称为第三图像，在该种情况下，可以对第三图像进行文本区域检测，如此便不会识别出存在干扰文字的文本区域，可以避免对后续文字识别的干扰。

作为一种示例，可以通过霍夫变换直线检测方法检测第二图像中的横线，检测到的横线中长度大于第二图像的一半宽度的横线可能是文档中将文本区域与页码区域区分开的横线，则可以将检测到的横线中长度大于第二图像的一半宽度的横线确定为目标横线，将目标横线中第一个横线和最后一个横线之间的图像保留作为第三图像。如此，可以避免在文本检测时检测到页眉、页脚、页码等，对文本造成干扰。

在一些实施例中，所述基于所述至少一个文本区域对所述第二图像进行划分，得到至少一个所述待识别图像的具体实现可以包括：基于所述至少一个文本区域对所述第三图像进行划分，得到至少一个所述待识别图像。

也就是说，可以将第三图像中每个文本区域所在的部分从第三图像中分割出来作为待识别图像。

进一步地，所述对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域之后，还包括：对所述至少一个文本区域进行检测，若所述至少一个文本区域中存在倾斜的文本区域，则对所述倾斜的文本区域进行修正。相应地，基于所述至少一个文本区域对所述第二图像进行划分，包括：基于修正后的所述至少一个文本区域对所述第二图像进行划分。

作为一种示例，可以通过霍夫变换直线检测的方法对文本区域进行检测，可以将每个文本区域的边与第二图像的边进行比对，确定两条边之间的夹角，若两条边之间夹角为0，则可以认为该文本区域不是倾斜的，若两条边之间存在夹角，则可以认为该文本区域是倾斜的，根据该夹角对该文本区域进行修正，以使得文本区域的边与第二图像的边平行。相应地，按照修正后的至少一个文本区域对第二图像进行划分，得到的第二图像中的文本是正的，可以便于后续进行文本识别。

步骤704：将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于上述所述的文本识别模型的训练方法训练得到。

在实施，将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像的具体实现可以包括：将所述待识别图像输入所述区域检测网络，确定所述待识别图像的至少一个文本框；基于所述至少一个文本框对所述待识别图像进行裁剪，得到所述至少一个子待识别图像。

作为一种示例，区域检测网络是对图像中存在文本的区域进行检测的，因此，将待识别图像输入区域检测网络后，可以输出至少一个文本框，为了便于后续进行字符识别，可以基于至少一个文本框对待识别图像进行裁剪，每个文本框裁剪得到一个子待识别图像，可以得到至少一个子待识别图像。

在一些实施例中，将所述待识别图像输入所述区域检测网络，确定所述待识别图像的至少一个文本框的具体实现可以包括：将所述待识别图像输入所述区域检测网络的第一特征提取层，得到所述待识别图像的图像空间特征图；将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述待识别图像的增强特征图，其中，所述增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；将所述增强特征图输入所述区域检测网络的区域生成层，得到所述待识别图像的至少一个文本框。

也就是说，区域检测网络可以包括第一特征提取层、特征增强层和区域生成层。将待识别图像输入区域检测网络，通过第一特征提取层提取待识别图像的特征，可以得到待识别图像的图像空间特征图。通过特征增强层提取图像空间特征之间的序列关系，可以得到待识别图像的增强特征图。通过区域生成层从增强特征图中确定存在文本的区域，得到至少一个文本框。

需要说明的是，将待识别图像输入区域检测网络，确定待识别图像的至少一个文本框的具体实现与将第一样本图像输入区域检测网络确定第一样本图像的至少一个文本框的具体实现相同，只是将第一样本图像替换为待识别图像即可。其实现过程可以参见上述文本识别模型的训练方法的相关描述，本申请实施例在此不再赘述。

进一步地，所述区域检测网络可以通过如下方式训练得到：

将获取的第二样本图像输入所述区域检测网络的第一特征提取层，得到所述第二样本图像的图像空间特征图；将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第二样本图像的增强特征图，其中，所述增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；将所述增强特征图输入所述区域检测网络的区域生成层，得到所述第二样本图像的至少一个预测文本框，所述预测文本框为预测的所述第二样本图像中文本所在的区域；基于所述至少一个预测文本框与第二样本标签的第二误差值对所述区域检测网络进行训练，直至达到训练停止条件，其中，所述第二样本标签为实际的所述第二样本图像中文本所在的区域。

也就是说，区域检测网络可以包括第一特征提取层、特征增强层和区域生成层。将第二样本图像输入区域检测网络，通过第一特征提取层提取第二样本图像的特征，可以得到第二样本图像的图像空间特征图。通过特征增强层提取图像空间特征之间的序列关系，可以得到第二样本图像的增强特征图。通过区域生成层从增强特征图中确定存在文本的区域，可以得到至少一个预测文本框。将预测文本框和第二样本文本的实际文本框进行比对，可以确定第二误差值，基于第二误差值对区域检测网络进行训练，可以得到训练完成的区域检测网络。

在一些实施例中，可以从样本图像集中获取多个存在文本的样本图像，且每个样本图像包括至少一个文本框。为了便于描述，将用于区域检测网络训练的样本图像称为第二样本图像。

在一些实施例中，将获取的第二样本图像输入所述区域检测网络的第一特征提取层，得到所述第二样本图像的图像空间特征图的具体实现可以包括：将所述第二样本图像输入所述第一特征提取层的第一深度可分离卷积子层进行深度卷积处理和逐点卷积处理，得到所述第二样本图像的多个卷积特征图；将所述第二子样本图像的多个卷积特征图输入所述第一特征提取层的第一池化子层进行池化处理，得到所述第二样本图像的融合特征图；将所述第二样本图像的融合特征图输入所述第一特征提取层的第一全连接子层，得到所述第二样本图像的图像空间特征图。

作为一种示例，第一特征提取层可以包括第一深度可分离卷积子层、第一池化子层和第一全连接子层。并且，第一特征提取层可以是EfficientNet，且该第一全连接子层可以是FC。

示例性地，参见图8，图8是本申请实施例提供的一种区域检测网络的结构示意图。可以将第二样本图像输入第一特征提取层的第一深度可分离子层，可以得到多个卷积特征图，将多个卷积特征图输入第一池化子层，可以得到融合特征图，将融合特征图输入FC层，可以得到图像空间特征图。

需要说明的是，将第二样本图像输入第一特征提取层得到图像空间特征图的具体实现与将第一样本图像输入第一特征提取层得到图像空间特征图的具体实现相同，只是将第一样本图像替换为第二样本图像即可，其实现过程可以参见上述文本识别模型的训练方法中的相关描述，本申请实施例在此不再赘述。

在一些实施例中，将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第二样本图像的增强特征图的具体实现可以包括：将所述图像空间特征图输入所述特征增强层，确定所述图像空间特征图中每个图像空间特征结合之前的图像空间特征得到的图像序列特征；基于所述图像空间特征的图像序列特征，确定所述第二样本图像的增强特征图。

示例性地，参见图8，可以将图像空间特征图输入特征增强层，得到第二样本图像的增强特征图。

需要说明的是，将图像空间特征图输入特征增强层得到第二样本图像的增强特征图的具体实现与将图像空间特征图输入特征增强层得到第一样本图像的特征增强图的具体实现相同，其实现过程可以参见上述文本识别模型的训练方法中的相关描述，本申请实施例在此不再赘述。

在一些实施例中，确定第二样本图像的增强特征图后，可以通过区域生成层在第二样本图像中确定预测文本框，该过程与将增强特征图输入区域检测网络的区域生成层得到第一样本图像的至少一个预测文本框的过程类似，具体实现可以参见上述文本识别模型的训练方法的相关描述，本申请实施例在此不再赘述。

示例性地，参见图8，将增强特征图输入区域生成层，可以得到第二样本图像的至少一个预测文本框。

作为一种示例，可以将第二样本标签输入区域检测网络中，该第二样本标签可以是文本框的坐标，将该第二样本标签和预测文本框输入交叉熵损失函数中，可以确定至少一个预测文本框与第二样本标签的第二误差值。

其中，损失函数可以是交叉熵损失函数、对数损失函数、指数损失函数等。

示例性地，参见图8，可以基于至少一个预测文本框和第二样本标签，确定第二误差值。

在一些实施例中，基于所述至少一个预测文本框与第二样本标签的第二误差值对所述区域检测网络进行训练的具体实现可以包括：将所述第二误差值与第二误差阈值进行比对，若所述第二误差值大于或等于所述第二误差阈值，继续对所述区域检测网络进行训练；若所述第二误差值小于所述第二误差阈值，停止对所述区域检测网络的训练。

需要说明的是，第二误差阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不作限定。

作为一种示例，参见图8，可以基于第二误差值对区域检测网络中每个层的参数进行调整。

作为一种示例，若第二误差值大于或等于第二误差阈值，可以认为预测文本框和第二样本标签的差异比较大，区域检测网络的准确率还比较低，因此，需要继续对区域检测网络进行训练；若第二误差值小于第二误差阈值，可以认为第二样本标签和预测文本框的差异比较小，区域检测网络的准确率已经达到比较高的水平，因此，可以停止对区域检测网络的训练。

步骤706：将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本。

在实施中，所述将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本的具体实现可以包括：将所述至少一个子待识别图像输入所述字符识别网络的第二特征提取层，得到每个子待识别图像的初始特征序列；将每个子待识别图像的初始特征序列输入所述字符识别网络的关系提取层，得到每个初始特征序列的关系特征序列；将每个关系特征序列输入所述字符识别网络的分类层，得到所述待识别图像的文本。

也就是说，在本申请实施例中，字符识别网络可以提取每个子待识别图像中图像特征之间的序列关系，并基于该序列关系确定预测文本，由于字符特征是对存在文本的子待识别图像提取得到的，因此该序列关系与文本中字符之间的语义关系相关，即本申请实施例可以考虑到字符之间的语义联系，使得得到的预测文本准确率更高且连贯性更强。

作为一种示例，字符识别网络可以包括第二特征提取层、关系提取层和分类层。将至少一个子待识别图像输入字符识别网络，通过第二特征提取层可以得到每个子待识别图像的初始特征序列，通过关系提取层可以提取每个初始特征序列中两个初始特征之间的序列关系，得到每个子待识别图像的关系特征序列，通过分类层可以得到第一样本图像的预测文本。

在一些实施例中，将每个关系特征序列输入所述字符识别网络的分类层，得到所述待识别图像的文本的具体实现可以包括：将每个关系特征序列输入所述分类层，得到每个子待识别图像的子文本；基于每个子待识别图像的子文本确定所述待识别图像的文本。

也就是说，在分类层先确定的是每个子待识别图像的子文本，基于子文本可以确定待识别图像的文本。

需要说明的是，将至少一个子待识别图像输入文本识别模型的字符识别网络，得到待识别图像的文本的具体实现与上述文本识别模型的训练方法实施例中步骤204的过程相同，只是将第一样本图像替换为待识别图像，将第一子样本图像替换为子待识别图像，其实现过程可以参见步骤204的相关描述，本申请实施例在此不再赘述。

进一步地，所述将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络之前，还可以包括：按照每个子待识别图像的文本框在所述待识别图像中的位置对所述至少一个子待识别图像进行排序，得到每个子待识别图像的顺序；相应地，将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，包括：按照每个子待识别图像的顺序将所述至少一个子待识别图像输入所述字符识别网络。

也就是说，在将至少一个子待识别图像输入文本识别模型的字符识别网络之前，可以对至少一个子待识别图像进行排序，并按照顺序将至少一个子待识别图像输入字符识别网络中。

示例性地，根据子待识别图像的文本框在待识别图像中的位置，按照从左到右，从上到下的顺序对子待识别图像进行排序，并按顺序输入字符识别网络中。

如此，可以避免子待识别图像的顺序出错导致识别出的文本拼接混乱的问题。

在一些实施例中，所述基于每个子待识别图像的子文本确定所述待识别图像的文本的具体实现可以包括：按照每个子待识别图像的顺序对所述至少一个子待识别图像的子文本进行拼接，得到所述待识别图像的文本。

也就是说，若子待识别图像有对应的顺序，则可以按照顺序将至少一个子待识别图像的子文本进行拼接，可以得到待识别图像的文本。

如此，可以避免后续得到的待识别图像的文本出现混乱的情况。

进一步地，所述字符识别网络可以通过如下方式训练得到：

将获取的第三样本图像输入所述字符识别网络的第二特征提取层，得到所述第三样本图像的初始特征序列；将所述初始特征序列输入所述字符识别网络的关系提取层，得到所述第三样本图像的关系特征序列；将所述关系特征序列输入所述字符识别网络的分类层，得到所述第三样本图像的预测文本；基于所述第三样本图像的预测文本和所述第三样本图像的第三样本标签的第三误差值对所述字符识别网络进行训练，直至达到训练停止条件，其中，所述第三样本标签为所述第三样本图像中实际存在的文本。

也就是说，字符识别网络可以包括第二特征提取层、关系提取层和分类层。将第三样本图像输入字符识别网络，通过第二特征提取层可以得到第三样本图像的初始特征序列，通过关系提取层可以提取初始特征序列中两个初始特征之间的序列关系，得到第三样本图像的关系特征序列，通过分类层可以得到第三样本图像的预测文本。并且根据预测文本和实际文本之间的第三误差值，可以对字符识别网络进行训练，直至达到训练停止条件。

在一些实施例中，将获取的第三样本图像输入所述字符识别网络的第二特征提取层，得到所述第三样本图像的初始特征序列的具体实现可以包括：将所述第三样本图像输入所述第二特征提取层的第二深度可分离卷积子层进行深度卷积处理和逐点卷积处理，得到所述第三样本图像的多个卷积特征序列；将所述第三样本图像的多个卷积特征序列输入所述第二特征提取层的第二池化子层进行池化处理，得到所述第三样本图像的融合特征序列；将所述第三样本图像的融合特征序列输入所述第二特征提取层的第二全连接子层，得到所述第三样本图像的初始特征序列。

作为一种示例，第二特征提取层可以包括第二深度可分离子层、第二池化子层和第二全连接子层，且该第二特征提取层可以是EfficientNet。另外，该第二全连接层可以是FC子层。

作为一种示例，以该第二特征提取层为Efficient Net为例，则该第二特征提取层可以包括第二深度可分离卷积子层、第二池化子层和FC子层。将至少一个第三子样本图像输入第二特征提取层，通过第二深度可分离卷积层对每个第三子样本图像进行深度卷积处理和逐点卷积处理，可以得到每个第三子样本图像的多个卷积特征序列。将每个第三子样本图像的多个卷积特征序列输入第二池化层，对同一个第三子样本图像的多个卷积特征序列进行池化处理，可以得到该第三子样本图像的融合特征序列，每个第一子样本图像的融合特征序列包括多个融合特征，每个融合特征与一个特征点对应，且一个特征点与第一子样本图像中多个像素点对应，通过上述方式可以得到每个第三子样本图像的融合特征序列，该融合特征序列包括多个融合特征，每个融合特征与一个特征点对应。将每个第三子样本图像的融合特征序列输入FC子层，可以得到每个第三子样本图像的初始特征序列，该初始特征序列包括多个初始特征，每个初始特征与一个特征点对应。

在一些实施例中，所述初始特征序列包括多个特征点的初始特征，将所述初始特征序列输入所述字符识别网络的关系提取层，得到所述第三样本图像的关系特征序列的具体实现可以包括：将所述初始特征序列输入所述关系提取层的编码子层，对所述初始特征序列中每个特征点初始特征进行编码，得到每个特征点的中间特征向量，其中，每个特征点的中间特征向量基于所述特征点的初始特征和所述特征点之前的其他特征点的初始特征的中间特征向量得到；将每个特征点的中间特征向量输入所述关系提取层的解码子层进行解码，得到所述第三样本图像的关系特征序列。

作为一种示例，关系提取层可以包括编码子层和解码子层，且该关系提取层可以是Attention机制网络。

作为一种示例，将每个第三子样本图像的初始特征序列输入关系提取层的编码子层，可以对该初始特征序列中的每个特征点的初始特征进行编码，对于任一目标特征点，可以根据该目标特征点的初始特征与该目标特征点之前的其他特征点的中间特征向量得到该目标特征点的中间特征向量。其中，目标特征点是初始特征序列对应的多个特征点中的任意一个。通过上述方式可以确定每个特征点的中间特征向量，将每个特征点的中间特征向量输入解码子层，可以得到每个特征点的关系特征，且根据同一个初始特征序列中的每个特征点的关系特征，可以确定关系特征序列，即可以得到该初始特征序列对应的第三子样本图像的关系特征序列，进而可以得到每个第三子样本图像的关系特征序列。

在一些实施例中，将所述关系特征序列输入所述字符识别网络的分类子层，得到所述第三样本图像的预测文本的具体实现可以包括：将第三样本图像的关系特征序列中的关系特征与预设字符的预设关系特征进行比对，若存在与所述关系特征相似的预设关系特征，将所述预设关系特征对应的预设字符确定为所述关系特征对应的第一预测文本；将所述关系特征序列中每个关系特征对应的第一预测文本进行拼接，得到所述第三样本图像的预测文本。

也就是说，在分类层先确定的是每个第三子样本图像的子预测文本，基于子预测文本可以确定第三样本图像的预测文本。

作为一种示例，分类层可以是Transcription Layers。示例性地，对于第三样本图像的关系特征序列，通过分类层可以将该关系特征序列中的关系特征与预设的文本字典中预设字符的预设关系特征进行比对，若存在与关系特征相似的预设关系特征，将该关系特征对应的预设字符确定为关系特征对应的第一预测文本，将第三样本图像的关系特征序列中每个关系特征的第一预测文本进行拼接，可以得到第三样本图像的预测文本。

进一步地，确定预测文本后，可以将第三样本标签输入字符识别网络中，该第三样本标签可以是第三样本图像中实际存在的文本，将该第三样本标签和预测文本输入损失函数中，可以确定预测文本与第三样本标签的第三误差值。

在一些实施例中，所述基于所述第三样本图像的预测文本和所述第三样本图像的第三样本标签的第三误差值对所述字符识别网络进行训练，包括：将所述第三误差值与第三误差阈值进行比对，若所述第三误差值大于或等于所述第三误差阈值，继续对所述字符识别网络进行训练；若所述第三误差值小于所述第三误差阈值，停止对所述字符识别网络的训练。

需要说明的是，第三误差阈值可以由用户根据实际需求进行设置，也可以由设备默认设置，本申请实施例对此不作限定。

作为一种示例，若第三误差值大于或等于第三误差阈值，可以认为预测文本和第三样本标签的差异比较大，区域检测网络的准确率还比较低，因此，需要继续对字符识别网络进行训练；若第三误差值小于第三误差阈值，可以认为第三样本标签和预测文本的差异比较小，字符识别网络的准确率已经达到比较高的水平，因此，可以停止对字符识别网络的训练。

本申请实施例的字符识别网络可以提取每个第一子样本图像中图像特征之间的序列关系，并基于该序列关系确定预测文本，能够获取多个字符之间的语义关系，使得得到的预测文本准确率更高且连贯性更强，可以提高文本识别模型的训练效率。

图9示出了本申请一实施例提供的一种应用于PDF合同文档的文本识别方法的流程图，该方法可以包括步骤902至步骤934。

步骤902：将PDF合同文档转化为图像，得到多个第一图像，并对每个第一图像进行图像对比度处理，得到多个第二图像。

步骤904：对每个第二图像进行直线检测，从检测到的直线中确定长度大于每个第二图像的一半宽度的目标横线。

步骤906：将每个第二图像中处于所述目标横线中第一个横线和最后一个横线之间的图像保留，得到多个第三图像。

步骤908：对每个第三图像进行文本区域检测，确定每个第三图像的两个文本区域。

步骤910：对每个第三图像的两个文本区域进行检测，若两个文本区域中存在倾斜的文本区域，则对所述倾斜的文本区域进行修正。

步骤912：基于每个第三图像修正后的两个文本区域对每个第三图像进行划分，得到每个图像的两个待识别图像。

步骤914：按照每个第三图像的两个文本区域在每个第三图像中的位置，对每个图像的两个待识别图像进行排序，得到每个待识别图像的顺序。

步骤916：按照每个待识别图像的顺序将多个待识别图像输入文本识别模型的区域检测网络，通过第一特征提取层Efficient Net，得到每个待识别图像的图像空间特征图。

示例性地，参见图10，图10是本申请实施例提供的一种应用时文本识别模型的层之间的数据流向图。将排序后的多个待识别图像输入第一特征提取层，可以得到每个待识别图像的图像空间特征图。

步骤918：通过特征增强层Transformer网络，得到每个待识别图像的增强特征图。

其中，每个增强特征图包括图像空间特征图中至少两个图像空间特征之间的序列关系。

示例性地，参见图10，图像空间特征图输入特征增强层，可以得到增强特征图。

步骤920：通过区域生成层RPN网络，得到每个待识别图像的多个文本框。

示例性地，参见图10，将增强特征图输入区域生成层，可以得到每个待识别图像的多个文本框。

步骤922：基于每个待识别图像的多个文本框对每个待识别图像进行裁剪，得到每个待识别图像的多个子待识别图像。

示例性地，参见图10，根据每个待识别图像的多个文本框裁剪得到每个待识别图像的多个子待识别图像。

步骤924：根据多个文本框在每个待识别图像中的位置，对每个待识别图像的多个文本框进行排序，得到每个待识别图像中多个文本框的顺序。

步骤926：根据多个待识别图像的顺序和每个待识别图像的多个文本框的顺序，对多个待识别图像的多个子待识别图像进行排序，得到多个待识别图像的多个子待识别图像的顺序。

示例性地，参见图10，可以确定每个待识别图像中多个文本框的顺序。以多个待识别图像中任一待识别图像为例，可以按照顺序对该待识别图像的多个子待识别图像进行排序，得到排序后的多个子待识别图像。

步骤928：按照多个子待识别图像的顺序将多个子待识别图像输入文本识别模型的字符识别网络，通过第二特征提取层Efficient Net，得到每个子待识别图像的初始特征序列。

示例性地，参见图10，可以将排序后的多个子待识别图像输入第二特征提取层，得到每个子待识别图像的初始特征序列。

步骤930：通过关系提取层Attention机制网络，得到每个初始特征序列的关系特征序列。

示例性地，参见图10，可以将每个子待识别图像的初始特征序列输入关系提取层，可以得到初始特征序列的关系特征序列。

步骤932：通过分类层，得到每个子待识别图像的子文本。

其中，该分类层可以是Transcription Layers。

示例性地，参见图10，可以将每个初始特征序列的关系特征序列输入分类层，该分类层可以输出每个子待识别图像的子文本。

步骤934：按照每个子待识别图像的顺序对所述多个子待识别图像的子文本进行拼接，得到PDF合同文档的文本。

示例性地，参见图10，可以将每个子待识别图像的子文本按照顺序进行拼接，则文本识别模型可以输出PDF合同文档的文本。

与上述文本识别模型的训练方法实施例相对应，本申请还提供了文本识别模型的训练装置实施例，图11示出了本申请一个实施例的文本识别模型的训练装置的结构示意图。如图11所示，该装置1100包括：

第一确定模块1102，被配置为将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个第一子样本图像；

第二确定模块1104，被配置为将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，其中，所述预测文本基于所述字符识别网络提取的每个第一子样本图像中图像特征之间的序列关系确定；

第三确定模块1106，被配置为确定所述预测文本和所述第一样本图像的第一样本标签之间的第一误差值，其中，所述第一样本标签为所述第一样本图像中实际存在的文本；

训练模块1108，被配置为基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件。

可选地，所述第一确定模块1102，被配置为：

将所述第一样本图像输入所述区域检测网络，确定所述第一样本图像的至少一个预测文本框；

基于所述至少一个预测文本框对所述第一样本图像进行裁剪，得到所述至少一个第一子样本图像。

可选地，所述第一确定模块1102，被配置为：

将所述第一样本图像输入所述区域检测网络的第一特征提取层，得到所述第一样本图像的图像空间特征图；

将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第一样本图像的增强特征图，其中，每个增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；

将所述增强特征图输入所述区域检测网络的区域生成层，得到所述第一样本图像的至少一个预测文本框。

可选地，所述第二确定模块1104，被配置为：

将所述至少一个第一子样本图像输入所述字符识别网络的第二特征提取层，得到每个第一子样本图像的初始特征序列；

将每个第一子样本图像的初始特征序列输入所述字符识别网络的关系提取层，得到每个第一子样本图像的关系特征序列；

将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到所述第一样本图像的预测文本。

可选地，所述第二确定模块1104，被配置为：

将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到每个第一子样本图像的子预测文本；

基于每个第一子样本图像的子预测文本确定所述第一样本图像的预测文本。

可选地，所述第二确定模块1104还被配置为：

按照每个第一子样本图像的文本框在所述第一样本图像中的位置对所述至少一个第一子样本图像进行排序，得到每个第一子样本图像的顺序；

按照每个第一子样本图像的顺序将所述至少一个第一子样本图像输入所述字符识别网络。

可选地，所述第二确定模块1104，被配置为：

按照每个第一子样本图像的顺序对所述至少一个第一子样本图像的子预测文本进行拼接，得到所述第一样本图像的预测文本。

可选地，所述训练模块1108，被配置：

将所述第一误差值与第一误差阈值进行比对，若所述第一误差值大于或等于所述第一误差阈值，继续对所述文本识别模型进行训练；

若所述第一误差值小于所述第一误差阈值，停止对所述文本识别模型的训练。

上述为本实施例的一种文本识别模型的训练装置的示意性方案。需要说明的是，该文本识别模型的训练装置的技术方案与上述的文本识别模型的训练方法的技术方案属于同一构思，文本识别模型的训练装置的技术方案未详细描述的细节内容，均可以参见上述文本识别模型的训练方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

与上述文本识别方法实施例相对应，本申请还提供了文本识别装置实施例，图12示出了本申请一个实施例的文本识别装置的结构示意图。如图12所示，该装置1200包括：

获取模块1202，被配置为获取待识别图像；

第四确定模块1204，被配置为将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于上述所述的文本识别模型的训练方法训练得到；

字符识别模块1206，被配置为将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本。

可选地，第四确定模块1204，被配置为：

将所述待识别图像输入所述区域检测网络，确定所述待识别图像的至少一个文本框；

基于所述至少一个文本框对所述待识别图像进行裁剪，得到所述至少一个子待识别图像。

可选地，第四确定模块1204，被配置为：

将所述待识别图像输入所述区域检测网络的第一特征提取层，得到所述待识别图像的图像空间特征图；

将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述待识别图像的增强特征图，其中，所述增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；

将所述增强特征图输入所述区域检测网络的区域生成层，得到所述待识别图像的至少一个文本框。

可选地，字符识别模块1206，被配置为：

将所述至少一个子待识别图像输入所述字符识别网络的第二特征提取层，得到每个子待识别图像的初始特征序列；

将每个子待识别图像的初始特征序列输入所述字符识别网络的关系提取层，得到每个初始特征序列的关系特征序列；

将每个关系特征序列输入所述字符识别网络的分类层，得到所述待识别图像的文本。

可选地，字符识别模块1206，被配置为：

将每个关系特征序列输入所述分类层，得到每个子待识别图像的子文本；

基于每个子待识别图像的子文本确定所述待识别图像的文本。

可选地，所述字符识别模块1206还被配置为：

按照每个子待识别图像的文本框在所述待识别图像中的位置对所述至少一个子待识别图像进行排序，得到每个子待识别图像的顺序；

按照每个子待识别图像的顺序将所述至少一个子待识别图像输入所述字符识别网络。

可选地，所述字符识别模块1206，被配置为：

按照每个子待识别图像的顺序对所述至少一个子待识别图像的子文本进行拼接，得到所述待识别图像的文本。

可选地，所述第四确定模块1204还被配置为：

将获取的第二样本图像输入所述区域检测网络的第一特征提取层，得到所述第二样本图像的图像空间特征图；

将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第二样本图像的增强特征图，其中，所述增强特征图包括多个增强特征，每个增强特征表征所述图像空间特征图中至少两个图像空间特征之间的序列关系；

将所述增强特征图输入所述区域检测网络的区域生成层，得到所述第二样本图像的至少一个预测文本框，所述预测文本框为预测的所述第二样本图像中文本所在的区域；

基于所述至少一个预测文本框与第二样本标签的第二误差值对所述区域检测网络进行训练，直至达到训练停止条件，其中，所述第二样本标签为实际的所述第二样本图像中文本所在的区域。

可选地，所述第四确定模块1204还被配置为：

将所述第二样本图像输入所述第一特征提取层的第一深度可分离卷积子层进行深度卷积处理和逐点卷积处理，得到所述第二样本图像的多个卷积特征图；

将所述第二子样本图像的多个卷积特征图输入所述第一特征提取层的第一池化子层进行池化处理，得到所述第二样本图像的融合特征图；

将所述第二样本图像的融合特征图输入所述第一特征提取层的第一全连接子层，得到所述第二样本图像的图像空间特征图。

可选地，第四确定模块1204还被配置为：

将所述图像空间特征图输入所述特征增强层，确定所述图像空间特征图中每个图像空间特征结合之前的图像空间特征得到的图像序列特征；

基于所述图像空间特征的图像序列特征，确定所述第二样本图像的增强特征图。

可选地，第四确定模块1204还被配置为：

将所述第二误差值与第二误差阈值进行比对，若所述第二误差值大于或等于所述第二误差阈值，继续对所述区域检测网络进行训练；

若所述第二误差值小于所述第二误差阈值，停止对所述区域检测网络的训练。

可选地，所述字符识别模块1206还被配置为：

将获取的第三样本图像输入所述字符识别网络的第二特征提取层，得到所述第三样本图像的初始特征序列；

将所述初始特征序列输入所述字符识别网络的关系提取层，得到所述第三样本图像的关系特征序列；

将所述关系特征序列输入所述字符识别网络的分类层，得到所述第三样本图像的预测文本；

基于所述第三样本图像的预测文本和所述第三样本图像的第三样本标签的第三误差值对所述字符识别网络进行训练，直至达到训练停止条件，其中，所述第三样本标签为所述第三样本图像中实际存在的文本。

可选地，所述字符识别模块1206还被配置为：

将所述第三样本图像输入所述第二特征提取层的第二深度可分离卷积子层进行深度卷积处理和逐点卷积处理，得到所述第三样本图像的多个卷积特征序列；

将所述第三样本图像的多个卷积特征序列输入所述第二特征提取层的第二池化子层进行池化处理，得到所述第三样本图像的融合特征序列；

将所述第三样本图像的融合特征序列输入所述第二特征提取层的第二全连接子层，得到所述第三样本图像的初始特征序列。

可选地，字符识别模块1206还被配置为：

所述初始特征序列包括多个特征点的初始特征，将所述初始特征序列输入所述关系提取层的编码子层，对所述初始特征序列中每个特征点的初始特征进行编码，得到每个特征点的中间特征向量，其中，每个特征点的中间特征向量基于所述特征点的初始特征和所述特征点之前的其他特征点的中间特征向量得到；

将每个特征点的中间特征向量输入所述关系提取层的解码子层进行解码，得到所述第三样本图像的关系特征序列。

可选地，所述字符识别模块1206还被配置为：

将第三样本图像的关系特征序列中的关系特征与预设字符的预设关系特征进行比对，若存在与所述关系特征相似的预设关系特征，将所述预设关系特征对应的预设字符确定为所述关系特征对应的第一预测文本；

将所述关系特征序列中每个关系特征对应的第一预测文本进行拼接，得到所述第三样本图像的预测文本。

可选地，所述字符识别模块1206还被配置为：

将所述第三误差值与第三误差阈值进行比对，若所述第三误差值大于或等于所述第三误差阈值，继续对所述字符识别网络进行训练；

若所述第三误差值小于所述第三误差阈值，停止对所述字符识别网络的训练。

可选地，所述获取模块1202，被配置为：

获取第一图像，并对所述第一图像进行图像对比度处理，得到第二图像；

对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域；

基于所述至少一个文本区域对所述第二图像进行划分，得到至少一个所述待识别图像。

可选地，所述获取模块1202还被配置为：

对所述第二图像进行直线检测，从检测到的直线中确定长度大于所述第二图像的一半宽度的目标横线；

将所述第二图像中处于所述目标横线中第一个横线和最后一个横线之间的图像保留，得到第三图像；

对所述第三图像进行文本区域检测，确定所述第三图像的至少一个文本区域。

可选地，所述基于所述至少一个文本区域对所述第二图像进行划分，得到至少一个所述待识别图像，包括：

基于所述至少一个文本区域对所述第三图像进行划分，得到至少一个所述待识别图像。

可选地，所述获取模块1202还被配置为：

对所述至少一个文本区域进行检测，若所述至少一个文本区域中存在倾斜的文本区域，则对所述倾斜的文本区域进行修正；

基于修正后的所述至少一个文本区域对所述第二图像进行划分。

上述为本实施例的一种文本识别装置的示意性方案。需要说明的是，该文本识别装置的技术方案与上述的文本识别方法的技术方案属于同一构思，文本识别装置的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现上述所述的文本识别模型的训练方法的步骤，或者，实现上述所述的文本识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本识别模型的训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本识别模型的训练方法的技术方案的描述。或者，该计算设备的技术方案与上述的文本识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述文本识别模型的训练方法的步骤，或者，实现如前所述文本识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本识别模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本识别模型的训练方法的技术方案的描述。或者，该存储介质的技术方案与上述的文本识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本识别方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述文本识别模型的训练方法的步骤，或者，实现如前所述文本识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种文本识别模型的训练方法，其特征在于，所述方法包括：

将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个预测文本框；其中，所述预测文本框基于所述第一样本图像的图像空间特征之间的序列关系确定，存在所述预测文本框包括多个字符；

基于所述至少一个预测文本框对所述第一样本图像进行裁剪，得到至少一个第一子样本图像；

2.如权利要求1所述的文本识别模型的训练方法，其特征在于，所述将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个预测文本框，包括：

3.如权利要求1所述的文本识别模型的训练方法，其特征在于，所述将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，确定所述第一样本图像的预测文本，包括：

4.如权利要求3所述的文本识别模型的训练方法，其特征在于，所述将每个第一子样本图像的关系特征序列输入所述字符识别网络的分类层，得到所述第一样本图像的预测文本，包括：

5.如权利要求4所述的文本识别模型的训练方法，其特征在于，所述将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络之前，还包括：

相应地，将所述至少一个第一子样本图像输入所述文本识别模型的字符识别网络，包括：

6.如权利要求5所述的文本识别模型的训练方法，其特征在于，所述基于每个第一子样本图像的子预测文本确定所述第一样本图像的预测文本，包括：

7.如权利要求1所述的文本识别模型的训练方法，其特征在于，所述基于所述第一误差值对所述文本识别模型进行训练，直至达到训练停止条件，包括：

8.一种文本识别方法，其特征在于，所述方法包括：

获取待识别图像；

将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于上述权利要求1-7任一项所述的方法训练得到；

9.如权利要求8所述的文本识别方法，其特征在于，将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，包括：

10.如权利要求9所述的文本识别方法，其特征在于，所述将所述待识别图像输入所述区域检测网络，确定所述待识别图像的至少一个文本框，包括：

11.如权利要求8所述的文本识别方法，其特征在于，所述将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，得到所述待识别图像的文本，包括：

12.如权利要求11所述的文本识别方法，其特征在于，将每个关系特征序列输入所述字符识别网络的分类层，得到所述待识别图像的文本，包括：

13.如权利要求12所述的文本识别方法，其特征在于，所述将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络之前，还包括：

相应地，将所述至少一个子待识别图像输入所述文本识别模型的字符识别网络，包括：

14.如权利要求13所述的文本识别方法，其特征在于，所述基于每个子待识别图像的子文本确定所述待识别图像的文本，包括：

15.如权利要求8-14中任一项所述的文本识别方法，其特征在于，所述区域检测网络通过如下方式训练得到：

16.如权利要求15所述的文本识别方法，其特征在于，所述将获取的第二样本图像输入所述区域检测网络的第一特征提取层，得到所述第二样本图像的图像空间特征图，包括：

将所述第二样本图像的多个卷积特征图输入所述第一特征提取层的第一池化子层进行池化处理，得到所述第二样本图像的融合特征图；

17.如权利要求15所述的文本识别方法，其特征在于，将所述图像空间特征图输入所述区域检测网络的特征增强层，得到所述第二样本图像的增强特征图，包括：

18.如权利要求15所述的文本识别方法，其特征在于，基于所述至少一个预测文本框与第二样本标签的第二误差值对所述区域检测网络进行训练，包括：

19.如权利要求8-14中任一项所述的文本识别方法，其特征在于，所述字符识别网络通过如下方式训练得到：

20.如权利要求19所述的文本识别方法，其特征在于，所述将获取的第三样本图像输入所述字符识别网络的第二特征提取层，得到所述第三样本图像的初始特征序列，包括：

21.如权利要求19所述的文本识别方法，其特征在于，所述初始特征序列包括多个特征点的初始特征，将所述初始特征序列输入所述字符识别网络的关系提取层，得到所述第三样本图像的关系特征序列，包括：

将所述初始特征序列输入所述关系提取层的编码子层，对所述初始特征序列中每个特征点的初始特征进行编码，得到每个特征点的中间特征向量，其中，每个特征点的中间特征向量基于所述特征点的初始特征和所述特征点之前的其他特征点的中间特征向量得到；

22.如权利要求19所述的文本识别方法，其特征在于，所述将所述关系特征序列输入所述字符识别网络的分类子层，得到所述第三样本图像的预测文本，包括：

23.如权利要求19所述的文本识别方法，其特征在于，所述基于所述第三样本图像的预测文本和所述第三样本图像的第三样本标签的第三误差值对所述字符识别网络进行训练，包括：

24.如权利要求8-14任一项所述的文本识别方法，其特征在于，所述获取待识别图像，包括：

25.如权利要求24所述的文本识别方法，其特征在于，所述对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域之前，还包括：

相应地，对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域，包括：

26.如权利要求25所述的文本识别方法，其特征在于，所述基于所述至少一个文本区域对所述第二图像进行划分，得到至少一个所述待识别图像，包括：

27.如权利要求24所述的文本识别方法，其特征在于，所述对所述第二图像的文本区域进行检测，确定所述第二图像的至少一个文本区域之后，还包括：

相应地，基于所述至少一个文本区域对所述第二图像进行划分，包括：

28.一种文本识别模型的训练装置，其特征在于，所述装置包括：

第一确定模块，被配置为将获取的第一样本图像输入文本识别模型的区域检测网络，确定所述第一样本图像的至少一个预测文本框；其中，基于所述预测文本框基于所述第一样本图像的图像空间特征确定，存在所述预测文本框包括多个字符；所述第一确定模块还被配置为：基于所述至少一个预测文本框对所述第一样本图像进行裁剪，得到至少一个第一子样本图像；

29.一种文本识别装置，其特征在于，所述装置包括：

获取模块，被配置为获取待识别图像；

第四确定模块，被配置为将所述待识别图像输入文本识别模型的区域检测网络，确定所述待识别图像的至少一个子待识别图像，其中，所述文本识别模型基于权利要求1至7任一所述的文本识别模型的训练方法训练得到；

30.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-7或者8-27任意一项所述方法的步骤。

31.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-7或者8-27任意一项所述方法的步骤。