CN112183307A

CN112183307A - 文本识别方法、计算机设备和存储介质

Info

Publication number: CN112183307A
Application number: CN202011021318.XA
Authority: CN
Inventors: 冯晓锐
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-05
Anticipated expiration: 2040-09-25
Also published as: CN112183307B

Abstract

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。所述方法包括：利用检测模型对获取的文本图像进行检测，得到各个文本框图像；所述各个文本框图像包括各个文本框图像在所述文本图像上的位置；将所述各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各所述文本框图像对应的文本内容以及文本类别；所述文本类别用于表征各所述文本框图像中的文本内容所属的类别；基于各所述文本框图像的位置和各所述文本框图像对应的文本类别，对各所述文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各所述文本内容。采用本方法能够降低重排逻辑复杂度，且可以提高识别与分类的准确性。

Description

文本识别方法、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

随着深度学习技术的不断发展，各行各业都在积极的应用深度学习技术辅助其领域的技术更快更好的发展。在文本识别领域，越来越多的软件公司都采用深度学习技术来辅助进行文本识别。

相关技术中，在进行文本识别时，通常是采用检测网络对图片上的文本进行检测和定位，之后采用识别网络对检测到的文本上的文字进行识别，得到识别的文本内容。最终通过对文本内容进行解析以及多重逻辑判断，将文本内容按照其在图片上的版本位置进行输出。

然而上述技术存在逻辑复杂的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低重排逻辑复杂度的文本识别方法、装置、计算机设备和存储介质。

一种文本识别方法，该方法包括：

利用检测模型对获取的文本图像进行检测，得到各个文本框图像；该各个文本框图像包括各个文本框图像在文本图像上的位置；

将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容以及文本类别；该文本类别用于表征各文本框图像中的文本内容所属的类别；

基于各文本框图像的位置和各文本框图像对应的文本类别，对各文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。

在其中一个实施例中，上述识别分类模型包括特征提取子网络、文本识别子网络和分类子网络；

上述将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容以及文本类别，包括：

将各个文本框图像输入至特征提取子网络中进行特征提取，得到各文本框图像对应的特征图；

将各文本框图像对应的特征图输入至文本识别子网络中进行文本识别，得到各文本框图像对应的文本内容；

将各文本框图像对应的特征图输入至分类子网络中进行分类，得到各文本框图像对应的文本类别。

在其中一个实施例中，上述文本类别包括非固定项；

上述基于各文本框图像的位置和各文本框图像对应的文本类别，对各文本框图像中的文本内容进行重新排列，包括：

基于各文本框图像的位置，得到各文本框图像中的文本内容的位置；

对各文本框图像中的文本内容的位置进行排序，得到各文本内容之间的相对位置关系；

基于各文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，得到判断结果；

根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列。

在其中一个实施例中，上述根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列，包括：

若属于非固定项的文本内容不存在位置偏移，则按照各文本内容之间的相对位置关系以及各文本框图像对应的文本类别，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在其中一个实施例中，上述文本类别包括固定项，上述根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列，包括：

若非固定项的文本内容存在位置偏移，则获取与非固定项的文本内容相匹配的固定项的文本内容；

根据固定项的文本内容的位置对属于非固定项的文本内容的位置进行调整，得到非固定项的文本内容调整后的位置；

基于非固定项的文本内容调整后的位置，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在其中一个实施例中，上述获取与非固定项的文本内容相匹配的固定项的文本内容，包括：

判断每个固定项的文本内容是否均存在匹配的非固定项的文本内容；

若固定项的文本内容不存在匹配的非固定项的文本内容，则获取固定项的文本内容的位置；

基于固定项的文本内容的位置，判断在文本内容的位置周围的预设距离内是否存在非固定项的文本内容；

若在预设距离内存在非固定项的文本内容，则确定非固定项的文本内容与固定项的文本内容相匹配。

在其中一个实施例中，上述方法还包括：

若在预设距离内不存在非固定项的文本内容，则确定固定项的文本内容没有匹配的非固定项的文本内容；

基于各文本内容之间的相对位置关系，获取与固定项的文本内容相邻的固定项的文本内容；

按照固定项的文本内容和相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在其中一个实施例中，上述特征提取子网络包括长短期记忆网络和残差网络。

在其中一个实施例中，上述识别分类模型的训练方式包括：

获取多个训练文本框图像；各训练文本框图像上均包括标注文本内容和标注文本类别；

将各训练文本框图像输入至特征提取子网络中进行特征提取，得到各训练文本框图像对应的特征图；

将各训练文本框图像对应的特征图输入至初始文本识别子网络中进行文本识别，得到各训练文本框图像对应的预测文本内容；

将各训练文本框图像对应的特征图输入至初始分类子网络中进行分类，得到各训练文本框图像对应的预测文本类别；

基于各训练文本框图像对应的预测文本内容和标注文本内容，以及各训练文本框图像对应的预测文本类别和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络；

根据文本识别子网络和分类子网络，得到识别分类模型。

在其中一个实施例中，上述基于各训练文本框图像对应的预测文本内容和标注文本内容，以及各训练文本框图像对应的预测文本类别和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络，包括：

计算各训练文本框图像对应的预测文本内容和标注文本内容之间的第一损失；

计算各训练文本框图像对应的预测文本类别和标注文本类别之间的第二损失；

根据第一损失和第二损失对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

一种文本识别装置，该装置包括：

检测模块，用于利用检测模型对获取的文本图像进行检测，得到各个文本框图像；该各个文本框图像包括各个文本框图像在文本图像上的位置；

识别分类模块，用于将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容以及文本类别；该文本类别用于表征各文本框图像中的文本内容所属的类别；

重排模块，用于基于各文本框图像的位置和各文本框图像对应的文本类别，对各文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述文本识别方法、装置、计算机设备和存储介质，可以利用检测模型对文本图像进行检测，得到各个文本框图像，将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容及文本类别，基于各文本框图像的位置和文本类别，对各文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。其中，各文本框图像包括各文本框图像在文本图像上的位置，各文本类别表征各文本内容的类别。在该方法中，由于可以通过识别分类模型得到各文本内容以及各文本内容的类别，这样可以利用各文本内容的类别和位置辅助对各文本内容进行重排，从而可以减少一部分逻辑判断过程，降低重排的逻辑复杂度，进而可以提高文本内容重排的鲁棒性。同时，利用识别分类模型进行内容识别和分类，相对单独的识别网络以及单独的分类网络的性能更好，识别以及分类的结果更准确。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中文本识别方法的流程示意图；

图2a为一个实施例中以驾驶证为例的版面重构的示例图；

图3为另一个实施例中文本识别方法的流程示意图；

图3a为另一个实施例中残差网络的两个残差块的结构示例图；

图3b为另一个实施例中长短期记忆网络的结构示例图；

图4为另一个实施例中文本识别方法的流程示意图；

图5为另一个实施例中文本识别方法的流程示意图；

图6为另一个实施例中文本识别方法的流程示意图；

图7为一个实施例中文本识别装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本识别方法，可以应用于计算机设备，该计算机设备可以是终端或服务器，以该计算机设备是终端为例，该计算机设备可以是例如笔记本电脑、台式电脑、工业电脑等，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请实施例的执行主体可以是文本识别装置，也可以是计算机设备，下述实施例以计算机设备为执行主体进行说明。

在一个实施例中，如图2所示，提供了一种文本识别方法，本实施例涉及的是如何对文本图像中的各文本内容进行识别、分类以及重排的具体过程。该方法可以包括以下步骤：

S202，利用检测模型对获取的文本图像进行检测，得到各个文本框图像；该各个文本框图像包括各个文本框图像在文本图像上的位置。

其中，检测模型可以是yolo检测模型(You Only Live Once)、SSD检测模型(Single Shot MultiBox Detector)等等。以SSD检测模型为例，SSD检测模型也可以称为SSD网络，该SSD网络使用VGG-16作为基础网络，该网络包含若干卷积层和四个池化层，用于进行特征提取和特征降维，由于各卷积层的感受野不同，因此输出的文本特征图的尺度不同，最终会输出6个不同尺度的特征图，可以用于检测不同尺度的目标，靠近输入层的卷积层可以检测小目标，靠近输出层的卷积层可以检测大目标，这样可以将大小目标都检测到，防止漏检。其次，在目标检测过程中生成的特征图上的每个像素点上生成不同宽高比的defaultbox(默认框)，这里由于检测目标均是长条的文本信息，所以可以设置的默认框的长宽比为{1,1/2,1/3,1/4,1/5}。另外，SSD网络在训练过程中可以对defaultbox进行分类和回归，以先验框/默认框为基准，在一定程度上可以减少训练难度。

另外，文本图像可以是图片格式的PDF(Portable Document Format，可移植文档格式)文档、图片格式的网页、报表、证件、票据等等，这里得到的各个文本框图像可以是各个文本条图像等。

具体的，当需要对文本图像进行检测时，可以利用SSD检测模型等来对该文本图像进行目标检测，这里文本图像上的文本内容都是目标，那么通过检测就可以得到各文本内容所在的框图像，一般文本图像上包括多个文本内容，那么这里就可以得到多个文本内容所在的框图像，记为多个文本框图像；同时这里也可以得到各文本内容所在的框的位置信息，即各文本框图像在文本图像上的位置，可以包括框的中心点坐标、长宽高等。

S204，将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容以及文本类别；该文本类别用于表征各文本框图像中的文本内容所属的类别。

其中，这里的识别分类模型为一个整体模型，其可以包括多个子网络，也可以只包括一个子网络。以多个子网络为例，这里的识别分类模型可以是包括时序网络和参考网络等，当然也可以包括其他网络。

另外，这里的识别分类模型具有两个分支，一个分支可以用来进行各文本框图像中的文本内容的识别，另一个分支可以用来进行各文本框图像中的文本内容的分类，两个分支为并行分支，即在进行文本内容识别的同时也可以进行文本内容的分类。

除此之外，在使用上述识别分类模型对文本框图像中的文本内容进行识别和分类之前，也可以对识别分类模型进行训练，具体训练过程将在下述实施例中进行详述，总之，在训练过后就可以得到训练好的识别分类模型。

进一步地，这里对文本框图像中的文本内容进行分类时，可以得到文本内容的类别，这里的类别可以是二分类的类别，也可以是多分类的类别(即至少三个类别的分类)。以二分类为例，这里的文本内容的类别可以是固定项和非固定项这两类，当然也可以是手写或非手写这两类，当然也可以是其他的两种类别。以文本图像是证件，且证件是身份证为例，这里的固定项可以是身份证上的姓名、民族等文本项，非固定项就可以是姓名项后面真实的名字(例如张三)、民族项后面真实的民族(例如汉族)等文本项。

具体的，在得到文本图像上的各个文本内容对应的文本框图像之后，就可以将各文本框图像输入至训练好的识别分类模型中，在该识别分类模型中可以对各文本框图像中文本内容进行识别和分类，得到各文本框图像中的文本内容以及各文本框图像中文本内容的类别。

S206，基于各文本框图像的位置和各文本框图像对应的文本类别，对各文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。

在本步骤中，对各文本框图像中的文本内容进行重新排列，也可以称为是进行版面重构。以文本图像为证件，且证件是驾驶证为例，参见图2a所示，版面重构就是以驾驶证的版面输出各文本内容，即第一行输出：中华人民共和国机动车行驶证，第二行输出：号牌号码沪123456车辆类型小型汽车，第三行输出所有人...等等。

具体的，上述通过目标检测可以得到各文本框图像的位置，并将各文本框的位置进行排列，就可以大致得到各文本框图像构成的版面形式。那么在上述得到各文本框图像中文本内容的类别之后，按照先验信息以及利用类别和位置(以类别是固定项和非固定为例，例如，先验信息可以是每个固定项后面会接一个非固定项)，就可以确定出每个文本内容的位置以及每个文本内容后面紧接着的文本内容或空位置，在确定之后，就可以按照确定好的位置和文本内容，将各问本人按照一行一行的输出来，当然，也可以按照一列一列的输出来。

上述文本识别方法中，可以利用检测模型对文本图像进行检测，得到各个文本框图像，将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容及文本类别，基于各文本框图像的位置和文本类别，对各文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。其中，各文本框图像包括各文本框图像在文本图像上的位置，各文本类别表征各文本内容的类别。在该方法中，由于可以通过识别分类模型得到各文本内容以及各文本内容的类别，这样可以利用各文本内容的类别和位置辅助对各文本内容进行重排，从而可以减少一部分逻辑判断过程，降低重排的逻辑复杂度，进而可以提高文本内容重排的鲁棒性。同时，利用识别分类模型进行内容识别和分类，相对单独的识别网络以及单独的分类网络的性能更好，识别以及分类的结果更准确。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是识别分类模型包括特征提取子网络、文本识别子网络和分类子网络，那么如何采用这三个子网络对各文本框图像进行识别和分类的具体过程。在上述实施例的基础上，如图3所示，上述S204可以包括以下步骤：

S302，将各个文本框图像输入至特征提取子网络中进行特征提取，得到各文本框图像对应的特征图。

在本步骤中，可选的，特征提取子网络可以包括长短期记忆网络和残差网络。这里的长短期以及网络可以是双向长短期记忆网络bi-LSTM(bi-Long Short-Term Memory)，也可以是单向长短期记忆网络LSTM(Long Short-Term Memory)。这里残差网络可以是由残差块构成的网络，该网络可以包括一个残差块，也可以包括两个残差块，当然还可以包括两个以上的残差块。以该残差网络包括两个残差块为例，其包括的两个残差块的结构可以相同，也可以不相同，参见图3a所示，本实施例提供的残差网络由两个不同结构的残差块构成，如图中的残差模块1-resblock1和残差模块2-resblock2，其中的conv|bn|activation为对输入数据进行卷积、归一化、池化、激活等操作，conv|bn为对输入数据进行卷积、归一化操作，add|activation为对数据进行求和、激活等处理。图3a中，残差模块1为对输入数据进行卷积、归一化、池化、激活等操作以及对输入数据进行卷积、归一化操作，得到两个中间结果，再进行求和、激活等处理，得到输出结果；残差模块1为对输入数据进行卷积、归一化、池化、激活等操作，并将输入数据和这里得到的中间结果进行求和、激活等处理，得到输出结果。可见，残差模块1相比较残差模块2在对中间结果进行求和、激活等处理之前，还会对输入数据再进行一次卷积、归一化操作，得到中间结果，并对两个中间结果进行求和、激活等处理。这样可以保证利用残差模块提取的特征更加准确。

具体的，在得到各文本框图像之后，可以将各文本框图像输入残差网络中，对各文本框图像在图像空间上的特征进行提取，得到各文本框图像对应的空间特征图，并采用卷积核(卷积核大小可以是8*1)对各空间特征图进行池化处理(即进行了降维处理)，得到各池化后的空间特征图(也可以称为是特征向量，vector)。之后，可以各将池化后的特征图输入至长短期记忆网络中进行进一步地特征提取，这里参见图3b所示，在这里进行特征提取时，充分考虑了各空间特征图之间的时间相关性，可以按照时间顺序从前往后进行特征提取以及从后续往前，对输入向量采用时序网络lstm进行特征提取，并将提取到的两个方向上的特征进行拼接或连接(concat)，得到拼接后的特征，即这里的各文本框图像对应的特征图。

S304，将各文本框图像对应的特征图输入至文本识别子网络中进行文本识别，得到各文本框图像对应的文本内容。

在本步骤中，文本识别子网络可以是卷积神经网络，当然也可以是其他网络。

那么在得到各文本框图像对应的特征图之后，可以将各特征图输入至文本识别子网络中，在该文本识别子网络中，可以对各特征图进行卷积以及池化等处理，得到各特征图上进一步地特征，最后对该得到的各个特征进行解码就可以得到各文本框图像中的文本内容。

S306，将各文本框图像对应的特征图输入至分类子网络中进行分类，得到各文本框图像对应的文本类别。

在本步骤中，分类子网络可以是随机森林网络、支持向量机SVM(supportvectormachine)等，当然也可以是其他网络。

在得到各文本框图像对应的特征图之后，可以将各特征图输入至分类子网络中，在该分类子网络中，也可以对各特征图进行卷积以及池化、解码等处理，得到各文本框图像中文本内容的类别。

本实施例的文本识别方法，可以通过特征提取子网络对各文本框图像进行特征提取，并通过识别分类模型中的文本识别子网络对提取得到的特征图进行文本识别，得到各文本内容，以及采用识别分类模型中的分类子网络对提取到的特征图进行分类，得到各文本内容的类别。在本实施例中，由于可以通过识别分类模型中的两个子网络实现文本识别以及文本分类，相比单独的识别网络进行识别和分类网络进行分类，这里采用一个识别分类模型中的两个子网络，其网络性能更好，最终识别以及分类的准确性也更高。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是文本类别包括固定项或非固定项，那么如何基于各文本框图像的位置和类别对各文本内容进行重新排列的具体过程。在上述实施例的基础上，如图4所示，上述S206可以包括以下步骤：

S402，基于各文本框图像的位置，得到各文本框图像中的文本内容的位置。

在本步骤中，各文本框图像中包括文本内容，那么各文本框图像的位置，也就可以认为是各文本框图像中的文本内容的位置。

S404，对各文本框图像中的文本内容的位置进行排序，得到各文本内容之间的相对位置关系。

在本步骤中，以文本内容的位置为其对应的文本框上的四个角点的二维位置为例，二维位置可以是x、y值，即每个角点都是一个x和y组成的坐标。那么就可以对各文本内容对应的四个角点坐标的x和y进行排序，得到不同的文本内容之间的相对位置关系。这里相对位置关系可以是一个文本框在另一个文本框上面/下面/左边/右边等等。

S406，基于各文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，得到判断结果。

在本步骤中，以类别为固定项和非固定项为例，固定项指的是文本内容中固定不变的内容，例如驾驶证上的姓名等，非固定项指的是文本内容中相对固定项会发生改变的内容，例如固定项姓名后面跟着的具体的名字是非固定项，其因人而异，名字会有所不同。通常每个固定项的文本内容后面会挨着一个非固定项的文本内容，而且每个固定项的文本内容和其挨着的非固定项的文本内容的位置通常是对齐的，且每个固定项的文本内容的位置通常是不会发生位置偏移的。那么这里在得到每个文本框图像中文本内容的相对位置关系之后，同时也可以得到每个文本内容的类别，那么就可以通过各文本内容的角点坐标，判断各属于非固定项的文本内容的位置是否与其挨着的固定项的文本内容的位置对齐。

可选的，若非固定项的文本内容的上下边界角点坐标的y值和其挨着的固定项的文本内容的上下边界角点的y值相同，那么可以认为该非固定项的文本内容与其挨着的固定项的文本内容的位置对齐，即该非固定项的文本内容不存在位置偏移。

可选的，若非固定项的文本内容的上下边界角点坐标的y值和其挨着的固定项的文本内容的上下边界角点的y值不相同，那么可以认为该非固定项的文本内容与其挨着的固定项的文本内容的位置不对齐，即该非固定项的文本内容存在位置偏移。

S408，根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列。

在本步骤中，可选的，若属于非固定项的文本内容不存在位置偏移，则按照各文本内容之间的相对位置关系以及各文本框图像对应的文本类别，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

也就是说，在非固定项的文本内容不存在位置偏移时，那么就可以按照先验信息以及利用类别和位置，得到每个固定项的文本内容和非固定项的文本内容之间的排布位置。之后可以将每个固定项的文本内容和其挨着的非固定项的文本内容，按照文本图像上的版面设置位置/排布位置，一行一行输出来，或者一列一列输出来。

另外，可选的，若属于非固定项的文本内容存在位置偏移，那么就需要进一步判断其位置关系，以通过类别和位置实现对各文本内容的重新排列。这些将在下述实施例中进行详述，这里不进行过多说明。

本实施例的文本识别方法，可以通过各文本内容之间的相对位置关系判断各非固定项的文本内容是否存在位置偏移，并根据位置偏移结果和各文本内容的文本类别对各文本内容进行重新排列。这样可以得到正确的版面排布位置，进而在输出各文本内容时，也可以得到正确的输出结果。

上述实施例介绍了非固定项的文本内容不存在位置偏移时，对各文本内容进行重排的情况，当然也有非固定项的文本内容存在位置偏移时如何对各文本内容进行重排的情况，以下就针对这种情况进行说明。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是在非固定的文本内容存在位置偏移时，如何基于各文本框图像的位置和类别对各文本内容进行重新排列的具体过程。在上述实施例的基础上，如图5所示，上述S408可以包括以下步骤：

S502，若非固定项的文本内容存在位置偏移，则获取与非固定项的文本内容相匹配的固定项的文本内容。

在本步骤中，通过上述S406的判断过程可以得到非固定项存在位置偏移的情况，之后，可以通过与该位置偏移的非固定项匹配的固定项对其进行位置调整，那么就需要获取与其匹配的固定项文本内容。另外，这里存在位置偏移的非固定项可以是一个或多个非固定项。

可选的，可以通过以下方式进行获取：判断每个固定项的文本内容是否均存在匹配的非固定项的文本内容；若固定项的文本内容不存在匹配的非固定项的文本内容，则获取固定项的文本内容的位置；基于固定项的文本内容的位置，判断在文本内容的位置周围的预设距离内是否存在非固定项的文本内容；若在预设距离内存在非固定项的文本内容，则确定非固定项的文本内容与固定项的文本内容相匹配。

也就是说，在文本图像上，通常固定项是不会缺失的，那么可以判断每个固定项的文本内容是否均存在内容匹配(内容匹配可以理解为，例如固定项姓名后面的非固定项就是张三等，不会是数字构成成的证件号码)以及位置匹配(位置匹配可以理解为位置挨着)的非固定项的文本内容，若均有，则确定每个固定项均有匹配的非固定项；若一个固定项没有内容匹配且位置匹配的非固定项，则可以认为该固定项可能没有匹配的非固定项。那么可以根据固定项的坐标的上下预设距离内的文本类别进行分类，若是存在非固定项且没有和任何固定项匹配成功，则将该非固定项作为该固定项的匹配项。这里的预设距离可以根据实际情况设定，例如可以上下0.5cm等。

示例地，继续以图2a的驾驶证为例，假设号牌号码为沪A123456，打印偏下，则根据坐标进行版面重构，号码的下一位是车辆类型，下一行是沪A123456，此时每一行会出现错乱，若是仅仅根据坐标以及图片文本内容进行调整，则需要考虑很多情况，若是逻辑不合理，很容易出现错乱，这里采用文本的类别判断是固定项和非固定项，此时号牌号码是固定项，车辆类型也是固定项，沪A123456为非固定项，且沪A123456与固定项所有项均无法匹配，则认为，沪A123456为固定项号牌号码的非固定项，驾驶证版面就可以进行调整。

S504，根据固定项的文本内容的位置对属于非固定项的文本内容的位置进行调整，得到非固定项的文本内容调整后的位置。

在本步骤中，在得到与该位置偏移的非固定项匹配的固定项之后，可以按照该固定项的位置(例如可以是文本框的各角点坐标)，对该非固定项的位置进行平移，以将该非固定项的位置调整到和匹配的固定项的位置对齐，最终得到该非固定项调整后的位置。

S506，基于非固定项的文本内容调整后的位置，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在本步骤中，在调整好位置偏移的非固定项的位置之后，就可以按照先验信息以及利用类别和位置，得到每个固定项的文本内容和非固定项的文本内容之间的排布位置。之后可以将每个固定项的文本内容和其挨着的非固定项的文本内容，按照文本图像上的版面设置位置/排布位置，一行一行输出来，或者一列一列输出来。

当然，上述S504中也会存在预设距离内没有非固定项的情况，那么这种情况下对各文本内容进行重排时，可选的，可以采用如下步骤，包括：若在预设距离内不存在非固定项的文本内容，则确定固定项的文本内容没有匹配的非固定项的文本内容；基于各文本内容之间的相对位置关系，获取与固定项的文本内容相邻的固定项的文本内容；按照固定项的文本内容和相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在这里，以一个固定项来说，如果在一个固定项的预设距离内不存在非固定项，那么就可以认为该固定项没有匹配的非固定项，即可以认为该固定项对应的非固定项缺失。那么在这种情况下，可以根据得到的文本类别，得到与该固定项相邻的一个或多个固定项，这里的相邻可以是上下、左右、前后等相邻方式。其他固定项也可以按照此方式进行判断。

在得到相邻的固定项之后，可以将该固定项和该相邻的固定项之间空出一定位置，得到这两者或多者之间的排布位置，然后将其他固定项的文本内容和其挨着的非固定项的文本内容，以及这两个或多个固定项的文本内容，按照文本图像上的版面设置位置/排布位置，一行一行输出来，或者一列一列输出来。

示例地，继续以图2a为例，假设，沪A123456缺失，则号牌号码为固定项，且号牌号码的上下一定坐标没不存在非固定项与之对应，且车辆类型为固定项，那么此时就可以确定沪A123456丢失，没有非固定项。

本实施例的文本识别方法，在非固定项的文本内容存在位置偏移时，可以通过与之匹配的固定项的文本内容的位置来调整其位置，并按照调整后的位置对各文本内容进行重排。这样可以避免因位置偏移而导致的版面错乱问题，从而可以提高重排后的版面的准确性，这样用户在观看重排后的版面时，可以提高用户的观看体验。

上述实施例介绍了识别分类模型的应用过程，以下对识别分类模型的训练过程进行详细说明。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是如何对识别分类模型进行训练的具体过程。在上述实施例的基础上，如图6所示，上述识别分类模型的训练方式可以包括以下步骤：

S602，获取多个训练文本框图像；各训练文本框图像上均包括标注文本内容和标注文本类别。

S604，将各训练文本框图像输入至特征提取子网络中进行特征提取，得到各训练文本框图像对应的特征图。

S606，将各训练文本框图像对应的特征图输入至初始文本识别子网络中进行文本识别，得到各训练文本框图像对应的预测文本内容。

S608，将各训练文本框图像对应的特征图输入至初始分类子网络中进行分类，得到各训练文本框图像对应的预测文本类别。

S610，基于各训练文本框图像对应的预测文本内容和标注文本内容，以及各训练文本框图像对应的预测文本类别和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

S612，根据文本识别子网络和分类子网络，得到识别分类模型。

在本实施例中，首先可以获取各训练文本图像，并采用检测模型对各训练文本图像进行目标检测，得到每个训练文本图像上的文本框图像，记为这里的多个训练文本框图像。同时可以给每个训练文本图像加标签，标签中包括标注文本内容和标注文本类别，标注文本内容指的是该训练文本框图像中的真实文本内容，标注文本类别指的是该训练文本框图像中真实文本内容所属的类别。

之后，可以按照上述S302-S306的方式，采用特征提取子网络、初始文本识别子网络和初始分类子网络对各训练文本框图像进行处理，得到各训练文本框图像对应的预测文本内容和预测文本类别，之后就可以利用预测文本内容和预测文本类别对初始文本识别子网络以及初始分类子网络进行训练。

在这里训练时，可选的，可以通过计算各训练文本框图像对应的预测文本内容和标注文本内容之间的第一损失；计算各训练文本框图像对应的预测文本类别和标注文本类别之间的第二损失；根据第一损失和第二损失对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

也就是说，可以计算每个训练文本框图像的预测文本内容和其对应的标注文本内容之间的损失，得到多个损失，均记为第一损失，即得到多个第一损失；也可以计算每个训练文本框图像的预测文本类别和其对应的标注文本类别之间的损失，也可以得到多个损失，这里均记为第二损失，即得到多个第二损失；之后，可以对多个第一损失进行简单求和或加权求和，得到第一损失和值，同时对多个第二损失进行简单求和或加权求和，得到第二损失和值。之后，对第一损失和值和第二损失和值进行加权求和，得到最终的损失和值，并利用该最终的损失和值调整初始文本识别子网络和初始分类子网络，直至最终计算的损失和值达到阈值要求或者稳定不变，那么就可以认为初始文本识别子网络和初始分类子网络已经训练好，此时就可以得到训练好的文本识别子网络和分类子网络。

之后，将特征提取子网络和训练好的文本识别子网络以及分类子网络组合起来就是训练好的识别分类模型。

本实施例的文本识别方法，可以通过各训练文本框图像及对应的标注文本内容和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到训练好的文本识别子网络及分类子网络，进而得到识别分类模型。在本实施例中，由于可以通过多个训练文本框图像及其对应的标签对识别分类模型进行训练，这样训练的识别分类模型比较准确，进而在利用该训练好的识别分类模型对文本进行识别和分类时，得到的识别结果以及分类结果也会更准确。

在另一个实施例中，为了更详细地解释本申请的技术方案，以下结合一个具体的实施例对本申请的方案进行详细说明，该方法可以包括以下步骤：

S1，获取多个训练文本图像，并采用检测模型对各训练文本图像进行检测，得到多个训练文本框图像，每个训练文本框图像均包括标注文本内容和标注文本类别。

S2，将各训练文本框图像输入至特征提取子网络中进行特征提取，得到各训练文本框图像对应的特征图；将各训练文本框图像对应的特征图输入至初始文本识别子网络中进行文本识别，得到各训练文本框图像对应的预测文本内容；将各训练文本框图像对应的特征图输入至初始分类子网络中进行分类，得到各训练文本框图像对应的预测文本类别。

S3，计算各训练文本框图像对应的预测文本内容和标注文本内容之间的第一损失；计算各训练文本框图像对应的预测文本类别和标注文本类别之间的第二损失；根据第一损失和第二损失对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

S4，将特征提取子网络和训练好的文本识别子网络以及分类子网络组合起来，得到训练好的识别分类模型。

S5，利用检测模型对获取的文本图像进行检测，得到各个文本框图像；该各个文本框图像包括各个文本框图像在文本图像上的位置。

S6，将各个文本框图像输入至特征提取子网络中进行特征提取，得到各文本框图像对应的特征图；将各文本框图像对应的特征图输入至文本识别子网络中进行文本识别，得到各文本框图像对应的文本内容；将各文本框图像对应的特征图输入至分类子网络中进行分类，得到各文本框图像对应的文本类别，上述文本类别包括固定项或非固定项。

S7，基于各文本框图像的位置，得到各文本框图像中的文本内容的位置。

S8，对各文本框图像中的文本内容的位置进行排序，得到各文本内容之间的相对位置关系。

S9，基于各文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，若不存在位置偏移，则执行S10，否则执行S11。

S10，按照各文本内容之间的相对位置关系以及各文本框图像对应的文本类别，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

S11，若非固定项的文本内容存在位置偏移，则判断每个固定项的文本内容是否均存在匹配的非固定项的文本内容，若固定项的文本内容不存在匹配的非固定项的文本内容，则获取固定项的文本内容的位置。

S12，基于固定项的文本内容的位置，判断在文本内容的位置周围的预设距离内是否存在非固定项的文本内容，若存在，则执行S13，否则，执行S16。

S13，确定非固定项的文本内容与固定项的文本内容相匹配。

S14，根据固定项的文本内容的位置对属于非固定项的文本内容的位置进行调整，得到非固定项的文本内容调整后的位置。

S15，基于非固定项的文本内容调整后的位置，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

S16，确定固定项的文本内容没有匹配的非固定项的文本内容。

S17，基于各文本内容之间的相对位置关系，获取与固定项的文本内容相邻的固定项的文本内容。

S18，按照固定项的文本内容和相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

S19，按照重新排列后的结果输出各文本内容。

应该理解的是，虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种文本识别装置，包括：检测模块10、识别分类模块11和重排模块12，其中：

检测模块10，用于利用检测模型对获取的文本图像进行检测，得到各个文本框图像；该各个文本框图像包括各个文本框图像在文本图像上的位置；

识别分类模块11，用于将各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各文本框图像对应的文本内容以及文本类别；该文本类别用于表征各文本框图像中的文本内容所属的类别；

重排模块12，用于基于各文本框图像的位置和各文本框图像对应的文本类别，对各文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各文本内容。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。

在另一个实施例中，提供了另一种文本识别装置，在上述实施例的基础上，上述识别分类模型包括特征提取子网络、文本识别子网络和分类子网络；上述识别分类模块11可以包括特征提取单元、识别单元和分类单元，其中：

特征提取单元，用于将各个文本框图像输入至特征提取子网络中进行特征提取，得到各文本框图像对应的特征图；

识别单元，用于将各文本框图像对应的特征图输入至文本识别子网络中进行文本识别，得到各文本框图像对应的文本内容；

分类单元，用于将各文本框图像对应的特征图输入至分类子网络中进行分类，得到各文本框图像对应的文本类别。

可选的，上述特征提取子网络包括长短期记忆网络和残差网络。

在另一个实施例中，提供了另一种文本识别装置，在上述实施例的基础上，上述文本类别包括固定项或非固定项；上述重排模块12可以包括位置确定单元、相对位置关系确定单元、判断单元和重排单元，其中：

位置确定单元，用于基于各文本框图像的位置，得到各文本框图像中的文本内容的位置；

相对位置关系确定单元，用于对各文本框图像中的文本内容的位置进行排序，得到各文本内容之间的相对位置关系；

判断单元，用于基于各文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，得到判断结果；

重排单元，用于根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列。

可选的，上述重排单元，具体用于若属于非固定项的文本内容不存在位置偏移，则按照各文本内容之间的相对位置关系以及各文本框图像对应的文本类别，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在另一个实施例中，提供了另一种文本识别装置，在上述实施例的基础上，上述重排单元可以包括获取子单元、调整子单元和重排子单元，其中：

获取子单元，用于若非固定项的文本内容存在位置偏移，则获取与非固定项的文本内容相匹配的固定项的文本内容；

调整子单元，用于根据固定项的文本内容的位置对属于非固定项的文本内容的位置进行调整，得到非固定项的文本内容调整后的位置；

重排子单元，用于基于非固定项的文本内容调整后的位置，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

可选的，上述获取子单元，具体用于判断每个固定项的文本内容是否均存在匹配的非固定项的文本内容；若固定项的文本内容不存在匹配的非固定项的文本内容，则获取固定项的文本内容的位置；基于固定项的文本内容的位置，判断在文本内容的位置周围的预设距离内是否存在非固定项的文本内容；若在预设距离内存在非固定项的文本内容，则确定非固定项的文本内容与固定项的文本内容相匹配。

可选的，上述装置还可以包括匹配确定模块、相邻项获取模块和固定重排模块，其中：

匹配确定模块，用于若在预设距离内不存在非固定项的文本内容，则确定固定项的文本内容没有匹配的非固定项的文本内容；

相邻项获取模块，用于基于各文本内容之间的相对位置关系，获取与固定项的文本内容相邻的固定项的文本内容；

固定重排模块，用于按照固定项的文本内容和相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在另一个实施例中，提供了另一种文本识别装置，在上述实施例的基础上，上述装置还可以包括训练模块，该训练模块包括训练文本获取单元、训练特征提取单元、训练识别单元、训练分类单元、训练单元以及模型确定单元，其中：

练文本获取单元，用于获取多个训练文本框图像；各训练文本框图像上均包括标注文本内容和标注文本类别；

训练特征提取单元，用于将各训练文本框图像输入至特征提取子网络中进行特征提取，得到各训练文本框图像对应的特征图；

训练识别单元，用于将各训练文本框图像对应的特征图输入至初始文本识别子网络中进行文本识别，得到各训练文本框图像对应的预测文本内容；

训练分类单元，用于将各训练文本框图像对应的特征图输入至初始分类子网络中进行分类，得到各训练文本框图像对应的预测文本类别；

训练单元，用于基于各训练文本框图像对应的预测文本内容和标注文本内容，以及各训练文本框图像对应的预测文本类别和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络；

模型确定单元，用于根据文本识别子网络和分类子网络，得到识别分类模型。

可选的，上述训练单元，具体用于计算各训练文本框图像对应的预测文本内容和标注文本内容之间的第一损失；计算各训练文本框图像对应的预测文本类别和标注文本类别之间的第二损失；根据第一损失和第二损失对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将各个文本框图像输入至特征提取子网络中进行特征提取，得到各文本框图像对应的特征图；将各文本框图像对应的特征图输入至文本识别子网络中进行文本识别，得到各文本框图像对应的文本内容；将各文本框图像对应的特征图输入至分类子网络中进行分类，得到各文本框图像对应的文本类别。

基于各文本框图像的位置，得到各文本框图像中的文本内容的位置；对各文本框图像中的文本内容的位置进行排序，得到各文本内容之间的相对位置关系；基于各文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，得到判断结果；根据判断结果和各文本框图像对应的文本类别，对各文本内容进行重新排列。

若非固定项的文本内容存在位置偏移，则获取与非固定项的文本内容相匹配的固定项的文本内容；根据固定项的文本内容的位置对属于非固定项的文本内容的位置进行调整，得到非固定项的文本内容调整后的位置；基于非固定项的文本内容调整后的位置，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

判断每个固定项的文本内容是否均存在匹配的非固定项的文本内容；若固定项的文本内容不存在匹配的非固定项的文本内容，则获取固定项的文本内容的位置；基于固定项的文本内容的位置，判断在文本内容的位置周围的预设距离内是否存在非固定项的文本内容；若在预设距离内存在非固定项的文本内容，则确定非固定项的文本内容与固定项的文本内容相匹配。

若在预设距离内不存在非固定项的文本内容，则确定固定项的文本内容没有匹配的非固定项的文本内容；基于各文本内容之间的相对位置关系，获取与固定项的文本内容相邻的固定项的文本内容；按照固定项的文本内容和相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各文本内容进行排列，得到重新排列好的各文本内容。

在一个实施例中，特征提取子网络包括长短期记忆网络和残差网络。

获取多个训练文本框图像；各训练文本框图像上均包括标注文本内容和标注文本类别；将各训练文本框图像输入至特征提取子网络中进行特征提取，得到各训练文本框图像对应的特征图；将各训练文本框图像对应的特征图输入至初始文本识别子网络中进行文本识别，得到各训练文本框图像对应的预测文本内容；将各训练文本框图像对应的特征图输入至初始分类子网络中进行分类，得到各训练文本框图像对应的预测文本类别；基于各训练文本框图像对应的预测文本内容和标注文本内容，以及各训练文本框图像对应的预测文本类别和标注文本类别，对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络；根据文本识别子网络和分类子网络，得到识别分类模型。

计算各训练文本框图像对应的预测文本内容和标注文本内容之间的第一损失；计算各训练文本框图像对应的预测文本类别和标注文本类别之间的第二损失；根据第一损失和第二损失对初始文本识别子网络和初始分类子网络进行训练，得到文本识别子网络和分类子网络。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

利用检测模型对获取的文本图像进行检测，得到各个文本框图像；所述各个文本框图像包括各个文本框图像在所述文本图像上的位置；

将所述各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各所述文本框图像对应的文本内容以及文本类别；所述文本类别用于表征各所述文本框图像中的文本内容所属的类别；

基于各所述文本框图像的位置和各所述文本框图像对应的文本类别，对各所述文本框图像中的文本内容进行重新排列，并按照重新排列后的结果输出各所述文本内容。

2.根据权利要求1所述的方法，其特征在于，所述识别分类模型包括特征提取子网络、文本识别子网络和分类子网络；

所述将所述各个文本框图像输入至识别分类模型中进行文本识别以及文本分类，得到各所述文本框图像对应的文本内容以及文本类别，包括：

将所述各个文本框图像输入至所述特征提取子网络中进行特征提取，得到各所述文本框图像对应的特征图；

将各所述文本框图像对应的特征图输入至所述文本识别子网络中进行文本识别，得到各所述文本框图像对应的文本内容；

将各所述文本框图像对应的特征图输入至所述分类子网络中进行分类，得到各所述文本框图像对应的文本类别。

3.根据权利要求1或2所述的方法，其特征在于，所述文本类别包括非固定项；所述基于各所述文本框图像的位置和各所述文本框图像对应的文本类别，对各所述文本框图像中的文本内容进行重新排列，包括：

基于各所述文本框图像的位置，得到各所述文本框图像中的文本内容的位置；

对各所述文本框图像中的文本内容的位置进行排序，得到各所述文本内容之间的相对位置关系；

基于各所述文本内容之间的相对位置关系，判断属于非固定项的文本内容是否存在位置偏移，得到判断结果；

根据所述判断结果和各所述文本框图像对应的文本类别，对各所述文本内容进行重新排列。

4.根据权利要求3所述的方法，其特征在于，所述根据所述判断结果和各所述文本框图像对应的文本类别，对各所述文本内容进行重新排列，包括：

若所述属于非固定项的文本内容不存在位置偏移，则按照各所述文本内容之间的相对位置关系以及各所述文本框图像对应的文本类别，依次按照行或列对各所述文本内容进行排列，得到重新排列好的各文本内容。

5.根据权利要求3所述的方法，其特征在于，所述文本类别包括固定项，所述根据所述判断结果和各所述文本框图像对应的文本类别，对各所述文本内容进行重新排列，包括：

若所述非固定项的文本内容存在位置偏移，则获取与所述非固定项的文本内容相匹配的固定项的文本内容；

根据所述固定项的文本内容的位置对所述属于非固定项的文本内容的位置进行调整，得到所述非固定项的文本内容调整后的位置；

基于所述非固定项的文本内容调整后的位置，依次按照行或列对各所述文本内容进行排列，得到重新排列好的各文本内容。

6.根据权利要求5所述的方法，其特征在于，所述获取与所述非固定项的文本内容相匹配的固定项的文本内容，包括：

若所述固定项的文本内容不存在匹配的非固定项的文本内容，则获取所述固定项的文本内容的位置；

基于所述固定项的文本内容的位置，判断在所述文本内容的位置周围的预设距离内是否存在非固定项的文本内容；

若在所述预设距离内存在非固定项的文本内容，则确定所述非固定项的文本内容与所述固定项的文本内容相匹配。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若在所述预设距离内不存在非固定项的文本内容，则确定所述固定项的文本内容没有匹配的非固定项的文本内容；

基于各所述文本内容之间的相对位置关系，获取与所述固定项的文本内容相邻的固定项的文本内容；

按照所述固定项的文本内容和所述相邻的固定项的文本内容之间的相对位置关系，依次按照行或列对各所述文本内容进行排列，得到重新排列好的各文本内容。

8.根据权利要求2所述的方法，其特征在于，所述特征提取子网络包括长短期记忆网络和残差网络。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。