CN111178358A

CN111178358A - 文本识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111178358A
Application number: CN201911413616.0A
Authority: CN
Inventors: 周康明; 冯晓锐
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。该方法包括：利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息；将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；将提取特征输入至分类网络，确定文本内容的类别。采用本方法能够提高文本类别识别的准确性。

Description

文本识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

在日常工作学习过程中，当查阅文档时，难免会遇到一些无法复制的网页文字或者PDF(Portable Document Format，可移植文档格式)文件，这时候如果需要该文档的可编辑版本，那么就会采用文字识别软件来对该网页或PDF上的文本进行识别，以得到其上的文本。

目前文本识别常用的方法主要由文本定位和文本识别组成，首先将文本图像输入定位网络，得到文本定位结果和文本分类结果，之后将得到的文本定位结果送入识别网络，利用输入图像的文本信息进行识别，当待识别的表单中出现相近的目标时，例如，表单中存在多种日期时(开始日期、结束日期、当前日期)，在定位网络处理时，得到的文本分类结果可能会造成误分类，再者不同表单中的文本格式也存在差别，这又增加了分类的难度，因此最终根据识别网络的识别结果，无法正确定位哪个是当前日期。

可见，上述方法存在识别的文本类别不准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高识别文本类别的文本识别方法、装置、计算机设备和存储介质。

一种文本识别方法，该方法包括：

利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；

将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；

将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息；

将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；

将提取特征输入至分类网络，确定文本内容的类别。

在其中一个实施例中，上述将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征，包括：

根据文本内容以及文本内容的空间分布信息，将文本框图像转化成文本框图像的节点图；该文本框图像的节点图包括节点和边线，节点包括文本内容，边线表征文本内容的空间分布信息；

将文本框图像的节点图输入至第二神经网络中进行特征提取，得到文本框图像对应的融合特征。

在其中一个实施例中，上述将文本框图像的节点图输入至第二神经网络中进行特征提取，得到文本框图像对应的融合特征，包括：

将节点和边线进行拼接，并将拼接后的信息输入至多层感知机网络中进行特征提取，得到文本框的中间特征；

根据文本框的中间特征和预设的注意力系数，得到文本框图像的融合特征。

在其中一个实施例中，上述分类网络为条件随机场网络。

在其中一个实施例中，上述第一长短期记忆网络为双向长短期记忆网络。

在其中一个实施例中，上述预设的第一神经网络包括识别网络和词向量网络，上述将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量，包括：

将文本框图像输入至识别网络中进行文本识别，得到文本框图像中的文本；

将文本框图像中的文本输入至词向量网络中进行转换处理，得到文本框图像中文本的词向量。

在其中一个实施例中，上述识别网络包括残差网络和第二长短期记忆网络，上述将文本框图像输入至识别网络中进行文本识别，得到文本框图像中的文本，包括：

将文本框图像输入至残差网络进行特征提取，得到文本框图像的残差特征图；

将残差特征图输入至第二长短期记忆网络进行文本识别，得到文本中各个文字的类别；

根据各个文字的类别，在预设的映射关系中得到各个文字的类别对应的文字，并将各个文字的类别对应的文字确定为文本框图像中的文本；该预设的映射关系包括文字和文字类别之间的对应关系。

一种文本识别装置，该装置包括：

检测模块，用于利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；

识别模块，用于将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；

第一提取模块，用于将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息；

第二提取模块，用于将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；

分类模块，用于将提取特征输入至分类网络，确定文本内容的类别。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将提取特征输入至分类网络，确定文本内容的类别。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将提取特征输入至分类网络，确定文本内容的类别。

上述文本识别方法、装置、计算机设备和存储介质，通过对获取的文本图像进行检测，得到各个文本框图像，并将各文本框图像进行文本识别和词向量转换，得到文本框图像中文本的词向量，同时通过将文本框图像输入至第二神经网络进行特征提取，得到文本框图像的融合特征，并通过将该文本框图像的融合特征进行特征提取以及输入分类网络，得到文本框图像中文本内容的类别。在该方法中，由于文本框图像的融合特征可以表征文本框图像中的文本内容和文本内容空间分布信息，那么在通过该融合特征进行分类时，得到的文本内容的类别就是结合文本信息和文本内容的空间信息得到的，相比传统的只是通过文本信息得到文本内容的类别，本方法得到的文本内容的类别更加准确；尤其是在内容丰富的文本文档中，当存在文本内容接近的文本时，通过文本信息和空间信息的结合，可以得到更加精确的文本内容的类别。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中文本识别方法的流程示意图；

图3a为一个实施例中文本识别方法的流程示意图；

图3b为一个实施例中文本框图像转化成节点图的示意图；

图3c为一个实施例中节点图的处理流程示意图；

图4为另一个实施例中文本识别方法的流程示意图；

图5为一个实施例中文本识别装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的文本识别方法，可以应用于计算机设备，该计算机设备可以是终端，例如笔记本电脑、台式电脑、工业电脑等，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请实施例的执行主体可以是文本识别装置，也可以是计算机设备，下述实施例以计算机设备为执行主体进行说明。

在一个实施例中，提供了一种文本识别方法，本实施例涉及的是如何根据文本框图像的文本信息和空间信息，得到文本框图像中文本内容的类别的具体过程。如图2所示，该方法可以包括以下步骤：

S202，利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像。

其中，目标检测算法可以是yolo目标检测算法(You Only Live Once)、SSD目标检测算法(Single Shot MultiBox Detector)等等。以SSD算法为例，SSD算法可以是SSD网络，该SSD网络使用VGG-16作为基网络，后接6个卷积层，分别对各卷积层输出的特征图进行检测和分类，由于各卷积层的感受野不同，因此输出的文本特征图的尺度不同，靠近输入层的卷积层可以检测小目标，靠近输出层的卷积层可以检测大目标，这样可以将大小目标都检测到，防止漏检。另外，文本图像可以是图片格式的PDF(Portable Document Format，可移植文档格式)文档、图片格式的网页等等，这里得到的文本框图像可以是文本条图像等。

具体的，当需要对某个文本图像进行检测时，可以利用SSD目标检测算法等来对该文本图像进行目标检测，这里文本图像上的文本都是目标，那么通过检测就可以得到各文本所在的框图像，一般文本图像上包括多个文本，那么这里就可以得到多个文本所在的框图像，记为多个文本框图像；同时这里也可以得到各文本所在的框的位置信息，包括框的中心点坐标、长宽高等。

S204，将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量。

其中，第一神经网络可以是卷积神经网络，可以包括一种卷积神经网络，也可以包括多种卷积神经网络，例如第一神经网络可以包括文本识别神经网络、词向量转换神经网络等等。另外，词向量英文全称为Word embedding，又叫Word嵌入式自然语言处理中的一组语言建模和特征学习技术的统称，其中来自词汇表的单词或短语被映射到实数的向量，它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。

具体的，在得到多个文本框图像之后，可以将各个文本框图像输入至第一神经网络中，在第一神经网络中可以先对各文本框图像上的文本进行识别，得到各文本框图像中的文本，然后将各个文本框图像中的文本进行词向量转换，得到各文本框图像中文本的词向量。

S206，将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息。

其中，第二神经网络也可以是卷积神经网络，例如CNN(Convolutional NeuralNetworks卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)、FCN(FullyConvolutional Networks，全卷积网络)等等，当然还可以是其他神经网络，例如深度神经网络，若是深度神经网络，可以是MLP网络(MultiLayer Perceptron Network，多层感知机)等等。另外，空间分布信息可以包括各文本框图像之间的距离、长宽高、各文本框图像之间水平和垂直方向上的距离等信息。

具体的，在得到多个文本框图像之后，同时也可以将文本框图像输入至第二神经网络中，分别对各文本框图像进行特征提取，各文本框图像中包括文本信息和空间分布信息，对这两部分信息的特征进行融合，得到各文本框的文本信息特征和空间分布信息特征融合起来的特征，记为融合特征，每个文本框图像都会得到一个对应的融合特征，由于该融合特征中结合了文本信息和空间分布信息，那么该融合特征就可以表征文本信息和空间分布信息。

S208，将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征。

其中，可选的，这里的第一长短期记忆网络为双向的长短期记忆网络，长短期记忆网络的英文全称为Long-Short Term Memory，其可以对特征提取过程中的有价值的信息进行长期记忆，从而减小循环神经网络RNN的学习难度。另外，这里的拼接可以是将词向量和融合特征进行首尾连接的方式，例如词向量为(x1，x2)、融合特征为(y1，y2，y3)，那么拼接得到的可以是(x1，x2，y1，y2，y3)，也可以是(y1，y2，y3，x1，x2)等，当然这里的拼接也可以是其他拼接方式，本实施例给出的仅是一种示例。

具体的，在得到各文本框图像中文本的词向量以及各文本框图像对应的融合特征之后，可以将每个文本框图像中文本的词向量和对应的融合特征拼接起来，得到每个文本框图像对应的拼接特征，并将每个文本框图像对应的拼接特征输入至双向长短期记忆网络进行进一步地特征提取，得到每个文本框图像对应的提取特征，利用双向长短期记忆网络进行特征提取，得到的提取特征更加丰富和全面，之后可以将各文本框图像对应的提取特征通过全连接层进行连接，得到全接连层的输出结果。

S210，将提取特征输入至分类网络，确定文本内容的类别。

其中，可选的，这里的分类网络为条件随机场网络，全称为CRF，conditionalrandom field。另外，这里的类别可以是二分类的类别，例如是或否，当然也可以是其他形式的类别。

具体的，在得到全连接层的输出结果之后，可以将该输出结果输入至条件随机场网络中，得到每个文本内容属于各个类别的概率，然后对每个文本内容得到的多个概率，取多个概率中的最大概率所对应的类别为文本内容的真实类别，即文本内容的类别。

上述文本识别方法中，通过对获取的文本图像进行检测，得到各个文本框图像，并将各文本框图像进行文本识别和词向量转换，得到文本框图像中文本的词向量，同时通过将文本框图像输入至第二神经网络进行特征提取，得到文本框图像的融合特征，并通过将该文本框图像的融合特征进行特征提取以及输入分类网络，得到文本框图像中文本内容的类别。在该方法中，由于文本框图像的融合特征可以表征文本框图像中的文本内容和文本内容空间分布信息，那么在通过该融合特征进行分类时，得到的文本内容的类别就是结合文本信息和文本内容的空间信息得到的，相比传统的只是通过文本信息得到文本内容的类别，本方法得到的文本内容的类别更加准确；尤其是在内容丰富的文本文档中，当存在文本内容接近的文本时，通过文本信息和空间信息的结合，可以得到更加精确的文本内容的类别。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是如何根据文本框图像得到文本框图像对应的融合特征的具体过程。如图3a所示，上述S206可以包括以下步骤：

S302，根据文本内容以及文本内容的空间分布信息，将文本框图像转化成文本框图像的节点图；该文本框图像的节点图包括节点和边线，节点包括文本内容，边线表征文本内容的空间分布信息。

具体的，每个文本框图像都对应一个节点图，在将每个文本框图像转化成节点图时，每个文本框图像对应的节点图包括一个中心节点和多个边界节点，中心节点和各边界节点采用边线连接，中心节点包括的是对应的文本框图像的文本内容，各边界节点包括的是其他文本框图像各自的文本内容，中心节点和各边界节点之间的边线包括的是中心节点的文本框图像和各边界节点的文本框图像之间，在水平方向和垂直方向上的距离以及中心节点的文本框图像的宽高、各边界节点的文本框图像的宽高等，边线上的信息都可以通过计算得到。通过计算边线信息及文本框图像的个数统计，就可以将每个文本框图像转化成对应的节点图。另外，这里的节点图也可以称为是图嵌入，即Graph Embedding。

参见图3b所示，例如有六个文本框图像，那么可以将某一个文本框图像转化成以其为中心节点、其他五个文本框图像为边界节点的节点图，其他文本框图像的节点图类似。

S304，将文本框图像的节点图输入至第二神经网络中进行特征提取，得到文本框图像对应的融合特征。

在本步骤中，可选的，可以采用如下步骤A1和步骤A2得到文本框图像对应的融合特征：

步骤A1，将节点和边线进行拼接，并将拼接后的信息输入至多层感知机网络中进行特征提取，得到文本框的中间特征。

步骤A2，根据文本框的中间特征和预设的注意力系数，得到文本框图像的融合特征。

参见图3c所示，继续以图3b中一个文本框图像对应的节点图为例，假设在该文本框图像对应的节点图中，中心节点表示为t₁，其他五个文本框图像构成的边界节点分别表示为t₂、t₃、t₄、t₅、t₆，t₁和其他边界节点之间的边线分别表示为r₁₂、r₁₃、r₁₄、r₁₅、r₁₆，可以将中心节点-边线-边界节点串联拼接起来，即将t₁和t₂、t₃、t₄、t₅、t₆以及边线r₁₂、r₁₃、r₁₄、r₁₅、r₁₆串联拼接起来，得到拼接后的t₁-r₁₂-t₂、t₁-r₁₃-t₃、t₁-r₁₄-t₄、t₁-r₁₅-t₅、t₁-r₁₆-t₆，并将t₁-r₁₂-t₂、t₁-r₁₃-t₃、t₁-r₁₄-t₄、t₁-r₁₅-t₅、t₁-r₁₆-t₆输入至多层感知机网络MLP中进行特征提取，得到中间特征h_ij，h_ij可以用公式(1)表示：

h_ij＝MLP(t_i||r_ij||t_j)(1)，公式(1)中的ri_j可以用如下公式(2)表示：

在公式(1)和(2)中，i是中心节点的标号，j是边界节点的标号，r_ij表示i节点和j节点之间的边线，x_ij和y_ij表示i节点对应的文本框图像和j节点对应的文本框图像在水平方向和垂直方向上的距离，w_i和h_i表示i节点对应的文本框图像宽和高，w_j表示j节点对应的文本框图像宽，这些均为文本框图像中文本内容的空间分布信息，由此可知，中间特征hij中包括文本内容的空间分布信息。

在得到中间特征h_ij之后，采用如下公式(3)就可以得到文本框图像的融合特征：

其中，t_i'表示融合特征，σ是sigmoid激活函数，n是边界节点的个数，α_ij表示注意力系数，可以采用如下公式(4)进行计算得到：

其中，leakyrelu也是激活函数，计算方式为若x_i>0，则y_i＝x_i，否则，y_i＝x_i/a_i，a_i为一到无穷大之间的固定参数，x_i相当于leakyrelu函数里面的w_a ^Th_ij，y_i为leakyrelu函数对w_a ^Th_ij进行计算后得到的值；上述σ可以采用

计算，其中的x相当于公式(3)中的

f(x)为对

进行计算后得到的值，这里使用多个激活函数是为了增加多层感知机网络的非线性能力。

在计算得到中间特征之后，为了得到更好的融合特征，可以采用循环输入输出的方式，例如采用r_ij＝MLP(h_ij)可以通过中间特征h_ij计算得到边线特征r_ij，然后再将各边线特征和节点信息串联拼接起来，循环输入MLP多层感知机进行特征提取，得到最终的融合特征。

本实施例提供的文本识别方法，可以根据文本内容以及文本内容的空间分布信息，将文本框图像转化成文本框图像的节点图，并将文本框图像的节点图输入至第二神经网络中进行特征提取，得到文本框图像对应的融合特征。在本实施例中，由于文本框图像的节点图包括节点和边线，而节点包括文本内容，边线表征文本内容的空间分布信息，因此通过该方法得到的融合特征是结合了文本框图像的文本信息和空间分布信息的，那么在利用该融合特征在后续对文本框图像中文本内容进行分类时，得到的类别就更加准确。

在另一个实施例中，提供了另一种文本识别方法，本实施例涉及的是预设的第一神经网络包括识别网络和词向量网络，那么如何通过识别网络和词向量网络得到文本的词向量的具体过程。如图4所示，上述S204可以包括以下步骤：

S402，将文本框图像输入至识别网络中进行文本识别，得到文本框图像中的文本。

在本步骤中，可选的，若上述识别网络包括残差网络和第二长短期记忆网络，那么本步骤可以采用如下步骤b1-b3进行确定：

步骤b1，将文本框图像输入至残差网络进行特征提取，得到文本框图像的残差特征图。

步骤b2，将残差特征图输入至第二长短期记忆网络进行文本识别，得到文本中各个文字的类别。

步骤b3，根据各个文字的类别，在预设的映射关系中得到各个文字的类别对应的文字，并将各个文字的类别对应的文字确定为文本框图像中的文本；该预设的映射关系包括文字和文字类别之间的对应关系。

其中，残差网络可以多个残差块构成，每个残差块的形式为H(x)＝F(x,W_i)+x，x为残差块的输入，H(x)为残差块的输出，网络主要学习的是权重W_i，理想状态下，期望的变换为恒等变换，所以拟合F(x,W_i)＝0，识别网络更容易被优化，加深网络也不会出现退化问题，本申请实施例主要使用两个残差块(即resnet块)对各文本框图像进行特征提取，假设输入图片的大小为400*40，经过两次池化之后的特征图为100*10，记为残差特征图。另外，这里的第二长短期记忆网络可以是单向长短期记忆网络，也可以是双向长短期记忆网络。

上述残差网络在得到各个文本框图像的残差特征图之后，可以将各文本框图像的残差特征图划分成一定数量的特征块，然后输入至第二长短期记忆网络，第二长短期记忆网络通过一万年肛门、输入们和输出们得到最终的输出结果，其中，遗忘门决定让哪些信息通过当前cell单元，输入门决定让多少信息加入到这个cell中，输出门决定了输出结果，同一层的前面单元的输出作为后一个单元的输入，上一层的输出作为后一层的输入，最终得到每个文本框图像的文本内容中各个文字的类别，然后将各文字类别和预设的映射关系中的文字类别进行匹配，在匹配成功时，就可以将匹配成功的文字类别对应的文字作为文本内容中的文字，最终得到各文本框图像中的文本内容。这里预设映射关系可以是常说的字库，里面每个文字会有一个对应的文字类别。

S404，将文本框图像中的文本输入至词向量网络中进行转换处理，得到文本框图像中文本的词向量。

其中，这里的词向量网络可以是神经网络，例如可以是产生词向量的word2vec网络，当然也可以是其他类型的网络。

具体的，在得到各文本框图像中的文本内容之后，可以对每个文本框图像中的文本内容分别进行词向量转换处理，得到每个文本框图像中的文本内容对应的词向量。

本实施例提供的文本识别方法，通过将文本框图像输入至识别网络中进行文本识别，得到文本框图像中的文本，并将文本框图像中的文本输入至词向量网络中进行转换处理，得到文本框图像中文本的词向量。在本实施例中，由于可以将各文本框图像中的文本内容转化成对应的词向量，这样可以便于后续和文本框图像的融合特征进行拼接，从而提高整体文本识别的效率。

应该理解的是，虽然图2、3a、4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、3a、4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种文本识别装置，包括：检测模块10、识别模块11、第一提取模块12、第二提取模块13和分类模块14，其中：

检测模块10，用于利用目标检测算法对获取的文本图像进行检测，得到各个文本框图像；

识别模块11，用于将文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到文本框图像中文本的词向量；

第一提取模块12，用于将文本框图像输入至预设的第二神经网络中进行特征提取，得到文本框图像对应的融合特征；该融合特征用于表征文本框图像中的文本内容以及文本内容的空间分布信息；

第二提取模块13，用于将文本的词向量和融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；

分类模块14，用于将提取特征输入至分类网络，确定文本内容的类别。

可选的，上述分类网络为条件随机场网络。

可选的，上述第一长短期记忆网络为双向长短期记忆网络。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。

在另一个实施例中，提供了另一种文本识别装置，上述第一提取模块12可以包括转化单元和第一提取单元，其中：

转化单元，用于根据文本内容以及文本内容的空间分布信息，将文本框图像转化成文本框图像的节点图；该文本框图像的节点图包括节点和边线，节点包括文本内容，边线表征文本内容的空间分布信息；

第一提取单元，用于将文本框图像的节点图输入至第二神经网络中进行特征提取，得到文本框图像对应的融合特征。

可选的，上述第一提取单元，还用于将节点和边线进行拼接，并将拼接后的信息输入至多层感知机网络中进行特征提取，得到文本框的中间特征；根据文本框的中间特征和预设的注意力系数，得到文本框图像的融合特征。

在另一个实施例中，提供了另一种文本识别装置，上述识别模块11可以包括识别单元和词向量转换单元，其中：

识别单元，用于将文本框图像输入至识别网络中进行文本识别，得到文本框图像中的文本；

词向量转换单元，用于将文本框图像中的文本输入至词向量网络中进行转换处理，得到文本框图像中文本的词向量。

可选的，上述识别单元，还用于将文本框图像输入至残差网络进行特征提取，得到文本框图像的残差特征图；将残差特征图输入至第二长短期记忆网络进行文本识别，得到文本中各个文字的类别；根据各个文字的类别，在预设的映射关系中得到各个文字的类别对应的文字，并将各个文字的类别对应的文字确定为文本框图像中的文本；该预设的映射关系包括文字和文字类别之间的对应关系。

上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将提取特征输入至分类网络，确定文本内容的类别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，上述分类网络为条件随机场网络。

在一个实施例中，上述第一长短期记忆网络为双向长短期记忆网络。

在一个实施例中，提供了一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

将提取特征输入至分类网络，确定文本内容的类别。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

在一个实施例中，上述分类网络为条件随机场网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述文本框图像中文本的词向量；

将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征；所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息；

将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；

将所述提取特征输入至分类网络，确定所述文本内容的类别。

2.根据权利要求1所述的方法，其特征在于，所述将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征，包括：

根据所述文本内容以及所述文本内容的空间分布信息，将所述文本框图像转化成文本框图像的节点图；所述文本框图像的节点图包括节点和边线，所述节点包括所述文本内容，所述边线表征文本内容的空间分布信息；

将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征。

3.根据权利要求2所述的方法，其特征在于，所述将所述文本框图像的节点图输入至所述第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征，包括：

将所述节点和所述边线进行拼接，并将拼接后的信息输入至多层感知机网络中进行特征提取，得到文本框的中间特征；

根据所述文本框的中间特征和预设的注意力系数，得到所述文本框图像的融合特征。

4.根据权利要求1所述的方法，其特征在于，所述分类网络为条件随机场网络。

5.根据权利要求4所述的方法，其特征在于，所述第一长短期记忆网络为双向长短期记忆网络。

6.根据权利要求1所述的方法，其特征在于，所述预设的第一神经网络包括识别网络和词向量网络，所述将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述文本框图像中文本的词向量，包括：

将所述文本框图像输入至所述识别网络中进行文本识别，得到所述文本框图像中的文本；

将所述文本框图像中的文本输入至所述词向量网络中进行转换处理，得到所述文本框图像中文本的词向量。

7.根据权利要求6所述的方法，其特征在于，所述识别网络包括残差网络和第二长短期记忆网络，所述将所述文本框图像输入至所述识别网络中进行文本识别，得到所述文本框图像中的文本，包括：

将所述文本框图像输入至所述残差网络进行特征提取，得到所述文本框图像的残差特征图；

将所述残差特征图输入至所述第二长短期记忆网络进行文本识别，得到所述文本中各个文字的类别；

根据所述各个文字的类别，在预设的映射关系中得到所述各个文字的类别对应的文字，并将所述各个文字的类别对应的文字确定为所述文本框图像中的文本；所述预设的映射关系包括文字和文字类别之间的对应关系。

8.一种文本识别装置，其特征在于，所述装置包括：

识别模块，用于将所述文本框图像输入至预设的第一神经网络中进行文本识别以及词向量转换，得到所述文本框图像中文本的词向量；

第一提取模块，用于将所述文本框图像输入至预设的第二神经网络中进行特征提取，得到所述文本框图像对应的融合特征；所述融合特征用于表征所述文本框图像中的文本内容以及所述文本内容的空间分布信息；

第二提取模块，用于将所述文本的词向量和所述融合特征进行拼接后输入至第一长短期记忆网络中进行特征提取，得到提取特征；

分类模块，用于将所述提取特征输入至分类网络，确定所述文本内容的类别。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。