CN110738262B

CN110738262B - 文本识别方法和相关产品

Info

Publication number: CN110738262B
Application number: CN201910986192.0A
Authority: CN
Inventors: 蔡晓聪; 侯军; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2022-11-11
Anticipated expiration: 2039-10-16
Also published as: CN110738262A

Abstract

本申请实施例公开了一种文本识别方法和相关产品，该方法通过文本识别网络实现，其中，所述文本识别网络包括编码网络和第二解码网络，所述方法包括：通过所述编码网络对目标图像进行编码处理，得到第一特征序列；通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列；基于所述第二特征序列，得到文本识别结果；其中，所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的，所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的；可以在保证文本识别速度的情况下，提高文本识别精度。

Description

文本识别方法和相关产品

技术领域

本申请涉及文本识别领域，尤其涉及一种文本识别方法和相关产品。

背景技术

利用计算机视觉技术进行文本识别广泛应用于多个领域，在目前针对真实场景下的文本识别技术中，识别速度和识别精度无法同时满足，需要研究能够同时具有较好的识别速度以及识别精度的文本识别方法。

发明内容

本申请实施例公开了一种文本识别方法和相关产品。

第一方面，本申请实施例提供了一种文本识别方法，通过文本识别网络实现，其中，所述文本识别网络包括编码网络和第二解码网络，该方法可包括：通过所述编码网络对目标图像进行编码处理，得到第一特征序列；通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列；基于所述第二特征序列，得到文本识别结果；其中，所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的，所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的。

本申请实施例的执行主体为文本识别装置。该文本识别装置可以是手机、平板电脑等终端设备，也可以是服务器。使用包括编码网络和第一解码网络的第一识别网络进行文本识别训练得到的编码网络的编码性能优于使用包括编码网络和第二解码网络的第二识别网络进行文本识别训练得到的编码网络的编码性能。包括编码网络和第二解码网络的第二识别网络的文本识别速度优于包括编码网络和第一解码网络的第一识别网络的文本识别速度。

本申请实施例中，利用第一解码网络监督训练得到的编码网络，利用包括该编码网络和第二解码网络进行文本识别，可以在保证文本的识别速度的情况下，提高文本识别精度。

在一个可选的实现方式中，所述编码网络的参数在训练所述第二识别网络的过程中保持不变。在该实现方式中，编码网络的参数在训练第二识别网络的过程中保持不变，可以更快地训练得到性能更优的第二解码网络。

在一个可选的实现方式中，所述文本识别网络还包括矫正网络，在所述通过所述编码网络对目标图像进行编码处理，得到第一特征序列之前，还包括：通过所述矫正网络对原始图像进行矫正处理，得到所述目标图像，其中，所述矫正网络是通过对包括所述矫正网络、所述编码网络和所述第一解码网络的所述第一识别网络进行训练得到的。在该实现方式中，利用矫正网络对原始图像进行矫正处理，可以提高文本识别的精度。

在一个可选的实现方式中，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。在该实现方式中，利用包括矫正网络、注意力机制网络以及编码网络的第一识别网络进行文本识别训练，可以得到一个矫正效果较好的矫正网络，进而得到文本识别网络。

在一个可选的实现方式中，所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM，其中，所述通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列，包括：通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；通过所述长短期记忆网络对所述融合特征序列进行解码，得到所述第二特征序列。在该实现方式中，通过长短期记忆网络对融合特征序列进行解码，得到第二特征序列；该第二特征序列可以包括各特征切片之间的上下文信息，能够提高文本识别的精度。

在一个可选的实现方式中，所述通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列，包括：通过所述GCN对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；基于所述多个特征切片之间的关联数据，通过所述GCN对所述多个特征切片进行融合处理，得到所述融合特征序列。在该实现方式中，可以快速地将各多个特征切片进行融合。

在一个可选的实现方式中，所述通过所述GCN对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据，包括：获得所述第一特征序列中包括的多个特征切片之间的相似度；获得所述第一特征序列中包括的多个特征切片之间的距离；基于所述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到所述关联数据。可选的，文本识别装置采用如下公式计算任意两个特征切片之间的相似度：

；

其中，

表示特征切片

和特征切片

之间的相似度。示例性的，第一特征序列为一个（C

H

W）的三维矩阵，其中，C表示通道数，H表示长度，W表示宽度，任一特征切片为一个（C

H）的特征向量。

是特征切片

和特征切片

的点积，

是特征切片

的模，

特征切片

的模。可选的，文本识别装置采用如下公式计算任意两个特征切片之间的距离：

；

其中，

=

，

表示特征切片

和特征切片

之间的距离，T为特征切片的个数，

为一个缩放因子。

该关联数据可以包括相似度矩阵

和距离矩阵为

，

中第i行第j列的元素为

，

中第i行第j列的元素为

。

在一个可选的实现方式中，基于所述多个特征切片之间的关联数据，通过所述GCN对所述多个特征切片进行融合处理，得到所述融合特征序列，包括：通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。可选的，通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列的公式如下：

；

其中，H为第一特征序列，

为GCN的权重矩阵。

在一个可选的实现方式中，所述文本识别网络还包括分类网络，所述基于所述第二特征序列，得到文本识别结果包括：通过所述分类网络对所述第二特征序列进行分类，得到所述第二特征序列包括多个特征切片对应的分类结果；基于所述第二特征序列包括的多个特征切片对应的分类结果，得到所述识别结果。

在一个可选的实现方式中，所述分类网络是通过对包括所述编码网络、所述第二解码网络和所述分类网络的第二识别网络进行训练得到的。

第二方面，本申请实施例提供另一种文本识别方法，该方法可包括：对目标图像进行编码处理，得到第一特征序列，其中，所述第一特征序列包括多个特征切片；对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列；基于所述第二特征序列，得到文本识别结果。

本申请实施例中，基于对包括多个特征切片之间的上下文信息的融合特征序列，得到文本识别结果，识别精度高。

在一个可选的实现方式中，所述对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列包括：通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；基于所述多个特征切片之间的关联数据，通过图卷积神经网络GCN对所述多个特征切片进行融合处理，得到所述融合特征序列。

在一个可选的实现方式中，所述通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据包括：获得所述第一特征序列中包括的多个特征切片之间的相似度；获得所述第一特征序列中包括的多个特征切片之间的距离；基于所述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到所述关联数据。

在一个可选的实现方式中，所述基于所述多个特征切片之间的关联数据，通过图卷积神经网络GCN对所述多个特征切片进行融合处理，得到所述融合特征序列包括：通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

在一个可选的实现方式中，所述基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列包括：通过长短期记忆网络LSTM对所述融合特征序列进行处理，得到所述第二特征序列。

第三方面，本申请实施例提供了一种文本识别网络的训练方法，所述文本识别网络在第一解码网络的协助下进行训练，所述文本识别网络包括编码网络和第二解码网络，所述编码网络的输出端分别与所述第一解码网络和所述第二解码网络的输入端连接，该方法包括：基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络；基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络。

本申请实施例中，文本识别网络在第一解码网络的协助下进行训练，可以得到一个文本识别精度和速度均较优的文本识别网络。

在一个可选的实现方式中，所述文本识别网络还包括矫正网络，所述基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失，包括：基于通过所述矫正网络、所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；所述利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络，包括：利用所述第一网络损失更新所述矫正网络、所述编码网络、所述第一解码网络的参数，得到参数更新后的所述矫正网络和参数更新后的所述编码网络；所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失，包括：基于通过所述参数更新后的矫正网络、所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失。

在一个可选的实现方式中，所述文本识别网络还包括第一分类网络，所述基于通过所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失，包括：基于通过所述编码网络、所述第一解码网络和第一分类网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；所述利用所述第一网络损失更新所述编码网络、所述第一解码网络的参数包括：利用所述第一网络损失更新所述编码网络、所述第一解码网络以及所述第一分类网络的参数。

在一个可选的实现方式中，所述文本识别网络还包括第二分类网络，所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失包括：基于通过所述参数更新后的编码网络、所述第二解码网络以及所述第二分类网络对所述第二训练样本依次进行处理所得到的处理结果，得到所述第二网络损失；所述利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络包括：利用所述第二网络损失更新所述第二解码网络以及所述第二分类网络的参数，得到参数更新后的所述第二解码网络和参数更新后的所述第二分类网络。

在一个可选的实现方式中，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。

在一个可选的实现方式中，所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失包括：通过所述参数更新后的编码网络对所述第二训练样本进行编码处理，得到训练特征序列；通过所述GCN对所述训练特征序列中包括的多个特征切片进行融合处理，得到训练融合特征序列；基于通过所述长短期记忆网络对所述训练融合特征序列进行解码，得到的处理结果，得到所述第二网络损失。

第四方面，本申请实施例提供了一种文本识别装置，其特征在于，通过文本识别网络实现文本识别，其中，所述文本识别网络包括编码网络和第二解码网络，包括：编码单元，用于通过所述编码网络对目标图像进行编码处理，得到第一特征序列；解码单元，用于通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列；处理单元，用于基于所述第二特征序列，得到文本识别结果；其中，所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的，所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的。

在一个可选的实现方式中，所述编码网络的参数在训练所述第二识别网络的过程中保持不变。

在一个可选的实现方式中，所述文本识别网络还包括矫正网络；所述装置还包括：矫正单元，用于通过所述矫正网络对原始图像进行矫正处理，得到所述目标图像，其中，所述矫正网络是通过对包括所述矫正网络、所述编码网络和所述第一解码网络的所述第一识别网络进行训练得到的。

在一个可选的实现方式中，所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；所述解码单元，具体用于通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；通过所述长短期记忆网络对所述融合特征序列进行解码，得到所述第二特征序列。

在一个可选的实现方式中，所述解码单元，具体用于通过所述GCN对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；基于所述多个特征切片之间的关联数据，通过所述GCN对所述多个特征切片进行融合处理，得到所述融合特征序列。

在一个可选的实现方式中，所述解码单元，具体用于获得所述第一特征序列中包括的多个特征切片之间的相似度；获得所述第一特征序列中包括的多个特征切片之间的距离；基于所述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到所述关联数据。

在一个可选的实现方式中，所述解码单元，具体用于通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

在一个可选的实现方式中，所述文本识别网络还包括分类网络；所述处理单元，具体用于通过所述分类网络对所述第二特征序列进行分类，得到所述第二特征序列包括多个特征切片对应的分类结果；基于所述第二特征序列包括的多个特征切片对应的分类结果，得到所述识别结果。

第五方面，本申请实施例提供了另一种文本识别装置，其特征在于，包括：编码单元，用于对目标图像进行编码处理，得到第一特征序列，其中，所述第一特征序列包括多个特征切片；融合单元，用于对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；处理单元，用于基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列；基于所述第二特征序列，得到文本识别结果。

在一个可选的实现方式中，所述融合单元，具体用于通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；基于所述多个特征切片之间的关联数据，通过图卷积神经网络GCN对所述多个特征切片进行融合处理，得到所述融合特征序列。

在一个可选的实现方式中，所述融合单元，具体用于获得所述第一特征序列中包括的多个特征切片之间的相似度；获得所述第一特征序列中包括的多个特征切片之间的距离；基于所述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到所述关联数据。

在一个可选的实现方式中，所述融合单元，具体用于通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

在一个可选的实现方式中，所述融合单元，具体用于通过长短期记忆网络LSTM对所述融合特征序列进行处理，得到所述第二特征序列。

第六方面，本申请实施例提供了一种训练装置，其特征在于，用于训练文本识别网络，所述文本识别网络在第一解码网络的协助下进行训练，所述文本识别网络包括编码网络和第二解码网络，所述编码网络的输出端分别与所述第一解码网络和所述第二解码网络的输入端连接，包括：第一处理单元，用于基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；更新单元，用于利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络；第二处理单元，用于基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；所述更新单元，还用于利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络。

在一个可选的实现方式中，所述文本识别网络还包括矫正网络；所述第一处理单元，具体用于基于通过所述矫正网络、所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；所述更新单元，具体用于利用所述第一网络损失更新所述矫正网络、所述编码网络、所述第一解码网络的参数。

在一个可选的实现方式中，所述文本识别网络还包括第一分类网络；所述第一处理单元，具体用于基于通过所述矫正网络、所述编码网络、所述第一解码网络和所述第一分类网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；所述更新单元，具体用于利用所述第一网络损失更新所述矫正网络、所述编码网络、所述第一解码网络以及所述第一分类网络的参数。

在一个可选的实现方式中，所述文本识别网络还包括第二分类网络；所述第二处理单元，具体用于基于通过所述参数更新后的编码网络、所述矫正网络、所述第二解码网络以及所述第二分类网络对所述第二训练样本依次进行处理所得到的处理结果，得到所述第二网络损失；所述更新单元，具体用于利用所述第二网络损失更新所述第二解码网络以及所述第二分类网络的参数，得到参数更新后的所述第二解码网络。

在一个可选的实现方式中，所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；所述第二处理单元，具体用于通过所述参数更新后的编码网络对所述第二训练样本进行编码处理，得到训练特征序列；通过所述GCN对所述训练特征序列中包括的多个特征切片进行融合处理，得到训练融合特征序列；基于通过所述长短期记忆网络对所述训练融合特征序列进行解码，得到的处理结果，得到所述第二网络损失。

第七方面，本申请实施例提供了一种电子设备，该电子设备包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如上述第一方面至第三方面以及任一种可选的实现方式的方法。

第八方面，本申请实施例提供了一种芯片，该芯片包括处理器与数据接口，该处理器通过该数据接口读取存储器上存储的指令，执行如上述第一方面至第三方面以及任一种可选的实现方式的方法。

第九方面，本申请实施例提供了一种计算机可读存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面至第三方面以及任一种可选的实现方式的方法。

第十方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面至第三方面以及任一种可选的实现方式的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种文本识别网络的架构示意图；

图2为本申请实施例提供的另一种文本识别网络的架构示意图；

图3为本申请实施例提供的一种文本识别方法流程图；

图4为本申请实施例提供的另一种文本识别方法流程图；

图5为本申请实施例提供的另一种文本识别方法流程图；

图6A为本申请实施例提供的另一种图像界面的示意图；

图6B为本申请实施例提供的一种文本识别结果界面的示意图；

图7为本申请实施例提供的另一种文本识别方法流程图；

图8为本申请实施例提供的一种文本识别装置的结构示意图；

图9为本申请实施例提供的另一种文本识别装置的结构示意图；

图10为本申请实施例提供的一种训练装置的结构示意图；

图11为本申请实施例提供的一种终端设备的结构示意图；

图12为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

文本识别是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。文本识别一般包括文本信息的采集、信息的分析与处理、信息的分类判别等几个部分。本申请实施例提供的文本识别方法能够应用在图像文本识别、视频文本识别等文本识别场景。下面分别对申请实施例提供的文本识别方法在图像文本识别场景、视频文本识别场景中的应用进行简单的介绍。

图像文本识别1：终端设备采集包括一个或多个字符的图像，该终端设备对该图像进行文本识别，并显示识别出的字符。举例来说，用户使用手机拍摄得到一个招牌的图像，该手机对该图像进行文本识别，并显示该招牌上的文本。又举例来说，用户使用手机拍摄得到一张包括一段英文的图像，该手机对该图像进行文本识别，并显示翻译这段英文得到的中文。

图像文本识别2：终端设备将采集的图像发送给服务器；该服务器对该图像进行文本识别，并将识别得到的文本识别结果发送给该终端设备；该终端设备接收并显示该文本识别结果。举例来说，道路上的监控设备采集得到包括车辆的车牌号的图像，并发送给服务器，该服务器识别出该图像中的车牌号。又举例来说，用户使用手机拍摄得到一个招牌的图像，并将该图像发送给服务器；该服务器对该图像进行文本识别以得到文本识别结果，并将该文本识别结果发送该终端设备；该终端设备显示该文本识别结果。

视频文本识别1：终端设备采集一段视频，并分别对该视频中的每帧图像进行文本识别。举例来说，用户使用手机拍摄了一段视频，该段视频中多帧图像包括至少一个字符；该手机分别对该视频中的每帧图像进行文本识别，得到文本识别结果并显示。

视频文本识别2：终端设备采集一段视频，并将该段视频发送给服务器；该服务器分别对该视频中的每帧图像进行文本识别，得到文本识别结果。举例来说，道路上的监控设备采集一段视频，该段视频中至少一帧图像包括车牌号；该监控设备将该段视频发送给服务器；该服务器对该段视频中的每帧图像进行文本识别，得到至少一个车牌号。

在上述场景中，文本识别装置（即执行文本识别处理的装置）使用兼顾文本识别精度和速度的文本识别网络进行文本识别，能够在保证文本的识别速度的情况下，提高文本识别精度，以便于更好的满足用户需求。

下面先介绍本申请实施例提供的一种文本识别网络的架构示意图。文本识别装置可采用该文本识别网络对图像进行文本识别，识别速度快且精度高。

请参见图1，图1为本申请实施例提供的一种文本识别网络的架构示意图。如图1所示，该文本识别网络可包括：矫正网络101、编码网络102、第二解码网络103以及第二分类网络104。其中，矫正网络101用于对其输入的图像（即待矫正的图像）进行矫正操作。其中，矫正网络101可以可选的，而非必要的。在真实场景下，文本可能会产生如角度不正，文本侧视角等难以用原图扫描识别的问题，也会产生字体变化以及轻微遮挡等难以识别的问题。矫正网络101对待矫正的图像进行矫正操作，得到的矫正后的图像更容易进行文本识别。编码网络102，用于对矫正网络101输出的矫正后的图像进行特征提取（也称编码）以得到文本特征序列。编码网络102可以是卷积神经网络，也可以是其他可提取图像中的特征的神经网络，本申请实施例不作限定。第二解码网络103，用于对编码网络102输出的文本特征序列进行解码以得到新的文本特征序列。该第二解码网络可以是CTC（Connectionist temporalclassification）解码网络。可选的，CTC网络可以是普通的LSTM或双向LSTM。举例来说，在双向LSTM中输入编码网络102提取的特征序列，例如大小为[20，2048]的特征序列；经过双向LSTM处理之后会输出解码后的特征序列，例如大小为[20, 512]的特征序列，用于后面的分类。可选的，第二解码网络103包括图卷积神经网络（Graph Convolutional Network，GCN）1031和长短期记忆网络（Long Short-Term Memory，LSTM）1032。GCN1031，用于构建编码网络102输出的各文本特征序列的相关性以得到融合特征序列。LSTM1032，用于对该融合特征序列进行解码以得到上述新的文本特征序列。第二分类网络104，用于对第二解码网络103输出的文本特征序列进行预测处理，得到文本识别结果（即文本序列）。第二分类网络104可以是一个全连接层，也可以是其他分类网络。包括编码网络102、第二解码网络103以及第二分类网络104的文本识别网络的文本识别速度很快，再加上矫正网络101来提高文本识别的精度。因此，文本识别装置采用图1中的文本识别网络可以兼顾文本识别的速度和精度。

使用包括编码网络102和第一解码网络的第一识别网络进行文本识别训练得到的编码网络102的编码性能优于使用包括编码网络102和第二解码网络的第二识别网络进行文本识别训练得到的编码网络的编码性能。包括编码网络102和第二解码网络的第二识别网络的文本识别速度优于包括编码网络102和第一解码网络的第一识别网络的文本识别速度。训练装置可以使用包括编码网络102和第一解码网络的第一识别网络进行文本识别训练，得到参数更新后的编码网络102；然后，使用包括参数更新后的编码网络102和第二解码网络103的第二识别网络的进行文本识别训练，以得到训练好的第二解码网络103。

矫正网络101可以是对包括矫正网络101和第一解码网络的第一识别网络进行文本识别训练得到的矫正网络。使用包括矫正网络101和第一解码网络的第一识别网络进行文本识别训练得到的矫正网络的矫正效果优于使用包括矫正网络101和第二解码网络的第二识别网络进行文本识别训练得到的矫正网络的矫正效果。包括矫正网络101和第二解码网络的第二识别网络的文本识别速度优于包括矫正网络101和第一解码网络的第一识别网络的文本识别速度。举例来说，第一解码网络为注意力机制网络，第二解码网络为CTC解码网络。实验结果表明，矫正网络101在基于CTC的方法中并无法起到实际的矫正作用，而在基于注意力机制的方法中能起到比较好的矫正作用。因此，文本识别装置可以同时对包括矫正网络101和第一解码网络的第一识别网络和包括矫正网络101和第二解码网络103的第二识别网络进行文本识别训练，并利用该第一识别网络的损失来更新矫正网络101的参数。这样训练得到的矫正网络101在包括矫正网络101和第二解码网络103的第二识别网络进行文本识别时中能起到较好的矫正作用。

应理解，本申请实施例中的编码网络可以包括编码器，或者进一步包括其他部件，第一解码网络可以包括解码器或者进一步包括其他部件，分类器可以是分类网络的一部分，或者文本识别网络包括其他网络或者不包含图1中的部分网络，本公开实施例对此不做限定。

下面介绍训练得到图1中的文本识别网络的过程。

请参见图2，图2为本申请实施例提供的一种文本识别网络的架构示意图。如图2所示，该文本识别网络可包括：矫正网络101、编码网络102、第二解码网络103、第二分类网络104、第一解码网络105以及第一分类网络106。训练装置可以训练图2中的文本识别网络，以得到矫正网络101、编码网络102、第二解码网络103、第二分类网络104。该训练装置可以是文本识别装置，也可以不是文本识别装置。当该训练装置不是文本识别装置时，该训练装置训练得到图1中的文本识别网络，该文本识别装置可以配置有图1中的文本识别网络。如图2所示，矫正网络101、编码网络102、第二解码网络103、第二分类网络104组成第二识别网络，矫正网络101、编码网络102、第一解码网络105以及第一分类网络106组成第一识别网络。

在一些实施例中，训练装置训练得到图1中的文本识别网络的方式如下：训练装置将训练样本（即待矫正的图像）输入至矫正网络进行矫正操作；矫正网络101将对该训练样本进行矫正处理得到的中间样本（即矫正后的图像）输出至编码网络102；编码网络102对该中间样本进行特征提取，并将得到的第一训练文本特征序列分别输出至第一解码网络105和第二解码网络103；第一解码网络105对该第一训练文本特征序列进行解码，并将得到的第二训练文本特征序列输出至第一分类网络106；第一分类网络106对该第二训练文本特征序列进行预测处理，得到第一训练文本序列（对应于第一标签）；第二解码网络103对该第一训练文本特征序列进行解码，并将得到的第三训练文本特征序列输出至第二分类网络104；第二分类网络104对该第三训练文本特征序列进行预测处理，得到第二训练文本序列；根据该第一训练文本序列和标准文本序列，确定该训练样本对应的第一损失；利用该第一损失分别更新第一分类网络106（参阅图2中的1071）、第一解码网络105（参阅图2中的1072）、编码网络102（参阅图2中的1073）以及矫正网络101（参阅图2中的1074）的参数；根据该第二训练文本序列和标准文本序列，确定该训练样本对应的第二损失；利用该第二损失分别更新第二分类网络104（参阅图2中的1081）以及第二解码网络103（参阅图2中的1082）的参数。

在一些实施例中，训练装置可先训练包括矫正网络101、编码网络102、第一解码网络105以及第一分类网络106的第一识别网络；在该第一识别网络收敛之后，再训练包括矫正网络101、编码网络102、第二解码网络103、第二分类网络104的第二识别网络。其中，在训练该第一识别网络时，更新矫正网络101、编码网络102、第一解码网络105以及第一分类网络106的参数；在训练该第二识别网络时，仅更新第一解码网络105以及第一分类网络106的参数，即矫正网络101和编码网络102的参数保持不变。应理解，先训练第一识别网络可以得到一个能起到较好的矫正作用的矫正网络以及编码网络；然后，利用训练好的矫正网络101和编码网络102来训练该第二识别网络；可以使得该矫正网络101在文本识别装置利用该第二识别网络进行文本识别时起到较好的矫正作用，以及该编码网络102能够更准确地进行编码处理。

第一训练文本序列、第二训练文本序列以及标准文本序列均可以理解为一个标签序列。训练装置可对第二训练文本序列和标准文本序列计算损失值以得到上述第二损失；可使用交叉熵损失函数对该第一训练文本序列和该标准文本序列计算损失值以得到上述第一损失。可选的，训练装置采用梯度下降法来更新图2中各网络的参数。在一些实施例中，训练装置可只反传第二分类网络104和第二解码网络103的参数梯度，交叉熵损失反传第一分类网络106、第一解码网络105的参数梯度以及矫正网络102、编码网络101的参数梯度。叉熵损失函数是图像分类中最常用的分类损失函数，这里不再详述。可选的，训练装置采用CTC Loss计算上述第二损失。CTC Loss可以通过多种方式进行计算，这里不再详述。

图2中包括两个训练流程，一个训练流程是训练第二分类网络104和第二解码网络103，另一个训练流程是训练第一分类网络106、第一解码网络105、编码网络102以及矫正网络101。第一解码网络105可以是注意力机制网络等可以监督矫正网络101对文本图像进行有效矫正的网络。可以理解，训练装置使用上述第一损失更新编码网络102以及矫正网络101的参数，可以得到一个能对文本图像进行有效矫正的矫正网络。另外，训练装置将编码网络102、矫正网络101、第二解码网络103以及第二分类网络104作为一个整体进行训练，并仅更新第二解码网络103以及第二分类网络104的参数，可以使得矫正网络101在包括矫正网络101、编码网络102、第二解码网络103以及第二分类网络104的文本识别网络中起到较好的矫正作用。应理解，训练装置采用上述训练方法可得到图1中的文本识别网络，该文本识别网络中的矫正网络101可对文本图像进行有效矫正。另外，由于第二解码网络103的文本识别速度快，训练得到的图1中的文本识别网络在进行文本识别时，可兼顾文本识别速度和精度。

请参见图3，图3为本申请实施例提供的一种文本识别方法流程图。如图3所示，该文本识别方法可包括：

301、文本识别装置通过解码网络对目标图像进行编码处理，得到第一特征序列。

文本识别装置通过文本识别网络实现图3中的方法。其中，上述文本识别网络包括编码网络102和第二解码网络103。文本识别装置可以是手机、平板电脑、可穿戴设备、笔记本电脑、台式电脑等终端设备，也可以是服务器。该目标图像可以是包括至少一个字符的图像，例如拍摄车牌号得到的图像；也可以对原始图像进行矫正处理得到的图像。该原始图像可以是包括至少一个字符的图像。

可选的，文本识别装置在执行步骤301之前，可以执行如下操作：通过矫正网络101对原始图像进行矫正处理，得到该目标图像。其中，上述矫正网络是通过对包括上述矫正网络101、上述编码网络102和上述第一编码网络的上述第一识别网络进行训练得到的。文本识别装置采用图1中的文本识别网络对该原始图像进行文本识别。上述矫正网络为图1中的矫正网络101。上述第一解码网络可以是图1中的第一解码网络105。

302、通过第二解码网络对第一特征序列进行解码处理，得到第二特征序列。

该第二解码网络和该第一解码网络不同。该第二解码网络可以是图1中的第二解码网络103。第二解码网络是通过对包括上述编码网络和上述第二解码网络的第二识别网络进行训练得到的。可选的，上述编码网络的参数在训练上述第二识别网络的过程中保持不变。可选的，该第一解码网络为注意力机制网络；该第二解码网络为CTC解码网络。在一些实施例中，CTC解码网络可以为LSTM。举例来说，在双向LSTM中输入编码网络102提取的特征序列（即第一特征序列），例如大小为[20，2048]的特征序列；经过双向LSTM处理之后会输出解码后的特征序列（即第二特征序列），例如大小为[20, 512]的特征序列。在一些实施例中，该CTC解码网络可以包括图卷积神经网络GCN和LSTM。该GCN用于构建该第一特征序列包括的各特征序列之间的相关性以得到融合特征序列，该LSTM用于对该融合特征序列进行解码以得到该第二特征序列。

303、基于第二特征序列，得到文本识别结果。

在一个可选的实现方式中，文本识别装置基于上述第二特征序列，得到文本识别结果的实现方式如下：

将该第二特征序列输入至第二分类网络104进行分类，得到分类结果；该分类结果包括M个概率序列，每个概率序列包括N个概率，每个概率序列用于确定一个文本，目标概率序列包括的N个概率分别为该目标概率序列对应N个不同文本的概率，该目标概率序列包含于该M个概率序列，M为大于0的整数，N为大于1的整数；基于该分类结果，得到该文本识别结果；该文本序列包括至少一个文本。

上述第二特征序列可以是一个大小为[M，F]的特征序列，第二分类网络104可以是[F，N]的分类网络，该第二分类网络104对该第二特征序列进行分类可以得到一个大小为[M，F]的预测结果序列（即分类结果）。M和F均为大于1的整数。对于特征序列的分类过程和一般的图像分类基本原理相同，只不过是需要对每个序列的特征进行分类，最终得到的分类结果也是一个序列。比如大小为[20,2048]的特征序列经过[2048,10]的分类网络（特征长度为2048，分类类别数为10）后得到大小为[20, 10]的预测结果序列（对应于分类结果）。其中，20表示序列长度，10就是分类类别数。最终对于预测结果序列中的每个概率分布向量取概率最大的类别作为预测结果，即能够得到长度为20的分类结果序列。

在一些实施例中，文本识别装置基于该分类结果，得到该文本识别结果的方式如下：将该目标概率序列对应的概率最高的文本作为由该目标概率序列所确定的文本；该目标文本包含于该文本序列。这样可以准确地确定每一个文本。

本申请实施例中，利用第一解码网络监督训练得到的矫正网络来对文本图像进行有效矫正，利用第二解码网络进行文本识别，可以在保证文本的识别速度的情况下，提高文本识别精度。

在一个可选的实现方式中，如图2所示，第二解码网络103包括图卷积神经网络GCN1031和长短期记忆网络LSTM1302；文本识别装置通过上述第二解码网络对上述第一特征序列进行解码处理，得到第二特征序列的方式可以如下：通过GCN1031对上述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；通过LSTM1032对上述融合特征序列进行解码，得到上述第二特征序列。

在一些实施例中，文本识别装置通过GCN1031对上述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列的实现方式可以如下：通过GCN1031对上述第一特征序列进行处理，得到上述第一特征序列中包括的多个特征切片之间的关联数据；基于上述多个特征切片之间的关联数据，通过GCN1031对上述多个特征切片进行融合处理，得到上述融合特征序列。

在一些实施例中，文本识别装置通过上述GCN对上述第一特征序列进行处理，得到上述第一特征序列中包括的多个特征切片之间的关联数据的实现方式可以如下：获得上述第一特征序列中包括的多个特征切片之间的相似度；获得上述第一特征序列中包括的多个特征切片之间的距离；基于上述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到上述关联数据。

可选的，文本识别装置采用如下公式计算任意两个特征切片之间的相似度：

（1）；

其中，

表示特征切片

和特征切片

之间的相似度。示例性的，第一特征序列为一个（C

H

H）的特征向量。

是特征切片

和特征切片

的点积，

是特征切片

的模，

特征切片

的模。

可选的，文本识别装置采用如下公式计算任意两个特征切片之间的距离：

（2）；

其中，

=

，

表示特征切片

和特征切片

之间的距离，T为特征切片的个数，

为一个缩放因子。

该关联数据可以包括相似度矩阵

和距离矩阵为

，

中第i行第j列的元素为

，

中第i行第j列的元素为

。

在一些实施例中，文本识别装置通过上述GCN对上述关联数据和上述第一特征序列对应的矩阵进行相乘处理，得到上述融合特征序列的公式如下：

（3）；

其中，H为第一特征序列，

为GCN的权重矩阵。

在一些实施例中，文本识别装置可采用如下公式计算得到文本识别结果：

(4)；

其中，

为文本识别结果，X为融合特征序列，

为第二分类网络的权重矩阵，

表示第二解码网络的隐含层执行的解码处理。可选的，文本识别装置先利用第二解码网络的隐含层对X进行解码处理，得到解码结果；再利用第二分类网络对该解码结果进行分类，得到文本识别结果。

在该实现方式中，基于对包括多个特征切片之间的上下文信息的融合特征序列，可以更准确地的解码。

下面介绍本申请实施例提供的文本识别方法在实际场景中的应用。

请参见图4，图4为本申请实施例提供的另一种文本识别方法流程图。如图4所示，该文本识别方法可包括：

401、文本识别装置对目标图像进行编码处理，得到第一特征序列。

其中，上述第一特征序列包括多个特征切片。

402、对第一特征序列中的多个特征切片进行融合处理，得到融合特征序列。

403、基于融合特征序列中多个特征切片之间的上下文信息，对融合特征序列进行处理，得到第二特征序列。

404、基于第二特征序列，得到文本识别结果。

在一个可选的实现方式中，文本识别装置对该第一特征序列中的多个特征切片进行融合处理，得到融合特征序列的实现方式如下：通过对上述第一特征序列进行处理，得到上述第一特征序列中包括的多个特征切片之间的关联数据；基于上述多个特征切片之间的关联数据，通过图卷积神经网络GCN对上述多个特征切片进行融合处理，得到上述融合特征序列。

在一些实施例中，基于上述多个特征切片之间的关联数据，通过图卷积神经网络GCN对上述多个特征切片进行融合处理，得到上述融合特征序列可以是：通过上述GCN对上述关联数据和上述第一特征序列对应的矩阵进行相乘处理，得到上述融合特征序列。

在一些实施例中，基于上述融合特征序列中多个特征切片之间的上下文信息，对上述融合特征序列进行处理，得到第二特征序列可以是：通过长短期记忆网络LSTM对上述融合特征序列进行处理，得到上述第二特征序列。

图5为本申请实施例提供的另一种文本识别方法流程图。如图5所示，该方法可包括：

501、文本识别装置采集文本图像。

文本识别装置可以是安装有相机的手机、平板电脑等电子设备。举例来说，用户可启动手机的相机应用，并拍摄包括至少一个字符或文本的图像，得到一个文本图像。例如，用户使用手机（即文本识别装置）拍摄一个快递单、一个名片、一个牌匾、一段文本等得到一个文本图像。

502、文本识别装置接收用户输入的文本识别指令。

该文本识别指令用于指示该文本识别装置对上述文本图像进行文本识别。图6A为本申请实施例提供的另一种图像界面的示意图。如图6A所示，图像界面包括一个文本图像，用户触摸或点击该文本图像后，该图像界面显示文本识别接口601、删除接口602等。如图6A所示，用户选中文本识别接口601后，显示文本识别结果。文本识别装置接收用户输入的文本识别指令可以是检测到用户选中文本识别接口的操作。例如文本识别装置检测到用户点击文本识别接口的操作。

502、文本识别装置将文本图像输入至文本识别网络进行文本识别，得到文本识别结果。

可选的，文本识别装置将文本图像输入至图1中的文本识别网络进行文本识别，得到上述文本识别结果。步骤502的实现方式可参阅图3中的方法流程。文本识别装置采用图1中的文本识别网络可以快速、准确地识别得到文本识别结果。

503、文本识别装置显示文本识别结果。

可选的，文本识别装置在执行步骤503之后，还可以接收用户输入的目标导出指令，并导出目标格式的文件；其中，该文件中包括上述文本识别结果，该目标导出指令用于指示该文本识别装置导出该目标格式的文件。该目标格式可以是word、PDF、excel、txt等。图6B为本申请实施例提供的一种文本识别结果界面的示意图。如图6B所示，用户触摸或点击该文本识别结果界面后，该文本识别结果界面显示文件导出接口。用户选中该文件导出接口之后，文本识别装置导出目标格式的文件。例如，文本识别装置导出一个包括文件识别结果的word文件。下面举一个生活中的例子，老板不知道从哪里拿出来一叠文件，说里面有东西需要改，要做成电子版，这个时候应该怎么办呢。我们可以用手机把要做成文档的内容全部用手机拍成照片，然后使用手机对每个照片进行文本识别，最后直接导出电子版的文件。

本申请实施例中，用户使用文本识别装置采集文本图像，并对该文本图像进行文本识别，文本识别速度快、识别精度高。

图7为本申请实施例提供的另一种文本识别方法流程图。如图7所示，该方法可包括：

701、终端设备采集文本图像。

终端设备可以是安装有相机的手机、平板电脑等电子设备。文本图像是包括至少一个字符的图像。举例来说，用户可启动手机的相机应用，并拍摄包括至少一个字符或文本的图像，得到一个文本图像。例如，用户使用手机（即终端设备）拍摄一个快递单、一个名片、一个牌匾、一段文本等得到一个文本图像。

702、终端设备将采集的文本图像发送至服务器。

703、服务器将文本图像输入至文本识别网络进行文本识别，得到文本识别结果。

可选的，服务器将文本图像输入至图1中的文本识别网络进行文本识别，得到上述文本识别结果。步骤703的实现方式可参阅图3中的方法流程。该服务器中配置有图1中的文本识别网络，该服务器采用图1中的文本识别网络可以快速、准确地识别得到文本识别结果。

704、服务器将文本识别结果发送给终端设备。

举例来说，终端设备发送给服务器一个包括多个文本的图像，该服务器对该图像进行文本识别得到文本识别结果，该服务器将生成一个包括该文本识别结果的文件并发送给该终端设备，用户使用该终端设备可编辑该文件以得到其所需的文件。

在一些实施例中，服务器在执行步骤703之后，还可执行如下操作：存储文本识别结果或者使用文本识别结果更新数据库。举例来说，道路上的终端设备（即监控设备）采集一个包括车牌号的图像；该终端设备将该图像发送给服务器；该服务器对该图像进行文本识别，得到至少一个车牌号；该服务器存储该车牌号，并记录接收到该图像的时间。又举例来说，终端设备（例如快递机）拍摄快递单，得到快递单图像；该终端设备将该快递单图像发送给服务器；该服务器对该快递单图像进行文本识别，得到快递信息；使用该快递信息更新数据库。该数据库可以包括多个用户的快速信息。

应理解，服务器往往具备终端设备（例如手机）不可比拟的计算优势和存储优势，因此终端设备将采集的文本图像发送给服务器进行文本识别，可以更快的得到文本识别结果，且识别精度更高。

本申请实施例中，终端设备将采集的文本图像发送给服务器进行文本识别，可以更快的得到文本识别结果，且识别精度更高。

图8为本申请实施例提供的一种文本识别装置的结构示意图。如图8所示，该文本识别装置可包括：

编码单元801，用于通过上述编码网络对目标图像进行编码处理，得到第一特征序列；

解码单元802，用于通过上述第二解码网络对上述第一特征序列进行解码处理，得到第二特征序列；

处理单元803，用于基于上述第二特征序列，得到文本识别结果；其中，上述编码网络是通过对包括上述编码网络和不同于上述第二解码网络的第一解码网络的第一识别网络进行训练得到的，上述第二解码网络是通过对包括上述编码网络和上述第二解码网络的第二识别网络进行训练得到的。

在一个可选的实现方式中，上述编码网络的参数在训练上述第二识别网络的过程中保持不变。

在一个可选的实现方式中，上述文本识别网络还包括矫正网络；上述装置还包括：

矫正单元804，用于通过上述矫正网络对原始图像进行矫正处理，得到上述目标图像，其中，上述矫正网络是通过对包括上述矫正网络、上述编码网络和上述第一编码网络的上述第一识别网络进行训练得到的。

在一个可选的实现方式中，上述第一解码网络为注意力机制网络，和/或，上述第二解码网络为联结时序分类CTC解码网络。

在一个可选的实现方式中，上述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；

解码单元802，具体用于通过上述GCN对上述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；通过上述长短期记忆网络对上述融合特征序列进行解码，得到上述第二特征序列。

在一个可选的实现方式中，解码单元802，具体用于通过上述GCN对上述第一特征序列进行处理，得到上述第一特征序列中包括的多个特征切片之间的关联数据；基于上述多个特征切片之间的关联数据，通过上述GCN对上述多个特征切片进行融合处理，得到上述融合特征序列。

在一个可选的实现方式中，解码单元802，具体用于获得上述第一特征序列中包括的多个特征切片之间的相似度；获得上述第一特征序列中包括的多个特征切片之间的距离；

基于上述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到上述关联数据。

在一个可选的实现方式中，解码单元802，具体用于通过上述GCN对上述关联数据和上述第一特征序列对应的矩阵进行相乘处理，得到上述融合特征序列。

在一个可选的实现方式中，上述文本识别网络还包括分类网络；处理单元803，具体用于通过上述分类网络对上述第二特征序列进行分类，得到上述第二特征序列包括多个特征切片对应的分类结果；基于上述第二特征序列包括的多个特征切片对应的分类结果，得到上述识别结果。

在一个可选的实现方式中，上述分类网络是通过对包括上述编码网络、所述第二解码网络和上述分类网络的第二识别网络进行训练得到的。

在一个可选的实现方式中，该文本识别装置为服务器，该装置还包括：

接收单元805，用于接收来自终端设备的该原始图像；

发送单元806，用于向该终端设备发送该文本序列。

在一个可选的实现方式中，该文本识别装置为终端设备。

该终端设备可以手机、平板电脑等移动终端，还可以是相机、监控设备等。

图9为本申请实施例提供的一种文本识别装置的结构示意图。如图9所示，该文本识别装置可包括：

编码单元901，用于对目标图像进行编码处理，得到第一特征序列，其中，上述第一特征序列包括多个特征切片；

融合单元902，用于对上述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；

处理单元903，用于基于上述融合特征序列中多个特征切片之间的上下文信息，对上述融合特征序列进行处理，得到第二特征序列；基于上述第二特征序列，得到文本识别结果。

在一个可选的实现方式中，融合单元902，具体用于通过对上述第一特征序列进行处理，得到上述第一特征序列中包括的多个特征切片之间的关联数据；基于上述多个特征切片之间的关联数据，通过图卷积神经网络GCN对上述多个特征切片进行融合处理，得到上述融合特征序列。

在一个可选的实现方式中，融合单元902，具体用于获得上述第一特征序列中包括的多个特征切片之间的相似度；获得上述第一特征序列中包括的多个特征切片之间的距离；基于上述第一特征序列中包括的多个特征切片之间的相似度以及距离，得到上述关联数据。

在一个可选的实现方式中，融合单元902，具体用于通过上述GCN对上述关联数据和上述第一特征序列对应的矩阵进行相乘处理，得到上述融合特征序列。

在一个可选的实现方式中，融合单元902，具体用于通过长短期记忆网络LSTM对上述融合特征序列进行处理，得到上述第二特征序列。

图10为本申请实施例提供的一种训练装置的结构示意图。该训练装置用于训练文本识别网络，上述文本识别网络在第一解码网络的协助下进行训练，上述文本识别网络包括编码网络和第二解码网络，上述编码网络的输出端分别与上述第一解码网络和上述第二解码网络的输入端连接，如图10所示，该训练装置可包括：

第一处理单元1001，用于基于通过上述编码网络和上述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；

更新单元1002，用于利用第一网络损失更新上述编码网络和上述第一解码网络的网络参数，得到参数更新后的上述编码网络；

第二处理单元1003，用于基于通过上述参数更新后的编码网络和上述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；

更新单元1002，还用于利用上述第二网络损失更新上述第二解码网络的参数，得到参数更新后的上述第二解码网络。

在一个可选的实现方式中，上述文本识别网络还包括矫正网络；

第一处理单元1001，具体用于基于通过上述矫正网络、上述编码网络和上述第一解码网络对上述第一训练样本依次进行处理所得到的处理结果，得到上述第一网络损失；

更新单元1002，具体用于利用上述第一网络损失更新上述矫正网络、上述编码网络、上述第一解码网络的参数，得到参数更新后的上述矫正网络和参数更新后的上述编码网络；

第二处理单元1003，具体用于基于通过上述参数更新后的矫正网络、上述参数更新后的编码网络和上述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失。

在一个可选的实现方式中，上述文本识别网络还包括第一分类网络；

第一处理单元1001，具体用于基于通过上述编码网络、上述第一解码网络和第一分类网络对上述第一训练样本依次进行处理所得到的处理结果，得到上述第一网络损失；

更新单元1002，具体用于利用上述第一网络损失更新上述编码网络、上述第一解码网络以及上述第一分类网络的参数。

在一个可选的实现方式中，上述文本识别网络还包括第二分类网络；

第二处理单元1003，具体用于基于通过上述参数更新后的编码网络、上述第二解码网络以及上述第二分类网络对上述第二训练样本依次进行处理所得到的处理结果，得到上述第二网络损失；

更新单元1002，具体用于利用上述第二网络损失更新上述第二解码网络以及上述第二分类网络的参数，得到参数更新后的上述第二解码网络和参数更新后的上述第二分类网络。

第二处理单元1003，具体用于通过上述参数更新后的编码网络对上述第二训练样本进行编码处理，得到训练特征序列；通过上述GCN对上述训练特征序列中包括的多个特征切片进行融合处理，得到训练融合特征序列；基于通过上述长短期记忆网络对上述训练融合特征序列进行解码，得到的处理结果，得到上述第二网络损失。

应理解以上文本识别和训练装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。例如，以上各个单元可以为单独设立的处理元件，也可以集成同一个芯片中实现，此外，也可以以程序代码的形式存储于控制器的存储元件中，由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器，例如中央处理器（英文：central processing unit，简称：CPU），还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路（英文：application-specific integrated circuit，简称：ASIC），或，一个或多个微处理器（英文：digitalsignal processor，简称：DSP），或，一个或者多个现场可编程门阵列（英文：field-programmable gate array，简称：FPGA）等。

图11为本申请实施例提供的一种终端设备的结构示意图。如图11所示，该终端设备110包括处理器1101、存储器1102和通信接口1103；该处理器1101、存储器1102和通信接口1103通过总线相互连接。图11中的终端设备可以为前述实施例中的文本识别装置。

存储器1102包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmablereadonly memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CDROM)，该存储器1102用于相关指令及数据。通信接口1103用于接收和发送数据。

处理器1101可以是一个或多个中央处理器(central processing unit，CPU)，在处理器1101是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。上述实施例中由文本识别装置所执行的步骤可以基于该图11所示的终端设备的结构。具体的，处理器1101可实现图9和图10中各单元的功能。

该终端设备110中的处理器1101用于读取该存储器1102中存储的程序代码，执行前述实施例中的文本识别方法或训练方法。

图12是本申请实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（centralprocessing units，CPU）1222（例如，一个或一个以上处理器）和存储器1232，一个或一个以上存储应用程序1242或数据1244的存储介质1230（例如一个或一个以上海量存储设备）。其中，存储器1232和存储介质1230可以是短暂存储或持久存储。存储在存储介质1230的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1222可以设置为与存储介质1230通信，在服务器1200上执行存储介质1230中的一系列指令操作。服务器1200可以为本申请提供的文本识别装置和/训练装置。

服务器1200还可以包括一个或一个以上电源1226，一个或一个以上有线或无线网络接口1250，一个或一个以上输入输出接口1258，和/或，一个或一个以上操作系统1241，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述实施例中由文本识别装置和训练装置所执行的步骤可以基于该图12所示的服务器结构。具体的，中央处理器1222可实现图8至图10中各单元的功能。

在本申请的实施例中提供一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：通过编码网络对目标图像进行编码处理，得到第一特征序列；通过上述第二解码网络对上述第一特征序列进行解码处理，得到第二特征序列；基于上述第二特征序列，得到文本识别结果；其中，上述编码网络是通过对包括上述编码网络和不同于上述第二解码网络的第一解码网络的第一识别网络进行训练得到的，上述第二解码网络是通过对包括上述编码网络和上述第二解码网络的第二识别网络进行训练得到的。

在本申请的实施例中提供另一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：对目标图像进行编码处理，得到第一特征序列，其中，上述第一特征序列包括多个特征切片；对上述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；基于上述融合特征序列中多个特征切片之间的上下文信息，对上述融合特征序列进行处理，得到第二特征序列；基于上述第二特征序列，得到文本识别结果。

在本申请的实施例中提供另一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现：基于通过上述编码网络和上述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；利用第一网络损失更新上述编码网络和上述第一解码网络的网络参数，得到参数更新后的上述编码网络；基于通过上述参数更新后的编码网络和上述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；利用上述第二网络损失更新上述第二解码网络的参数，得到参数更新后的上述第二解码网络。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本识别方法，其特征在于，通过文本识别网络实现，其中，所述文本识别网络包括编码网络和第二解码网络，所述方法包括：

通过所述编码网络对目标图像进行编码处理，得到第一特征序列；

通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列；

基于所述第二特征序列，得到文本识别结果；其中，

所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的，

所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的；

所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM，其中，所述通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列，包括：

通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；

通过所述长短期记忆网络对所述融合特征序列进行解码，得到所述第二特征序列。

2.根据权利要求1所述的方法，其特征在于，所述编码网络的参数在训练所述第二识别网络的过程中保持不变。

3.根据权利要求1所述的方法，其特征在于，所述文本识别网络还包括矫正网络，在所述通过所述编码网络对目标图像进行编码处理，得到第一特征序列之前，还包括：

通过所述矫正网络对原始图像进行矫正处理，得到所述目标图像，其中，所述矫正网络是通过对包括所述矫正网络、所述编码网络和所述第一解码网络的所述第一识别网络进行训练得到的。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列，包括：

对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据，所述关联数据基于所述多个特征切片之间的相似度和距离得到；

基于所述多个特征切片之间的关联数据，通过所述GCN对所述多个特征切片进行融合处理，得到所述融合特征序列。

6.根据权利要求5所述的方法，其特征在于，基于所述多个特征切片之间的关联数据，通过所述GCN对所述多个特征切片进行融合处理，得到所述融合特征序列，包括：

通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述文本识别网络还包括分类网络，所述基于所述第二特征序列，得到文本识别结果包括：

通过所述分类网络对所述第二特征序列进行分类，得到所述第二特征序列包括多个特征切片对应的分类结果；

基于所述第二特征序列包括的多个特征切片对应的分类结果，得到所述文本识别结果。

8.根据权利要求7所述的方法，其特征在于，所述分类网络是通过对包括所述编码网络、所述第二解码网络和所述分类网络的第二识别网络进行训练得到的。

9.一种文本识别方法，其特征在于，包括：

对目标图像进行编码处理，得到第一特征序列，其中，所述第一特征序列包括多个特征切片；

对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；

基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列；

基于所述第二特征序列，得到文本识别结果；

所述对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列包括：

通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；

基于所述多个特征切片之间的关联数据，通过图卷积神经网络GCN对所述多个特征切片进行融合处理，得到所述融合特征序列；

所述通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据包括：

获得所述第一特征序列中包括的多个特征切片之间的相似度；

获得所述第一特征序列中包括的多个特征切片之间的距离；

基于所述第一特征序列中包括的多个特征切片之间的相似度和距离，得到所述关联数据。

10.根据权利要求9所述的方法，其特征在于，所述基于所述多个特征切片之间的关联数据，通过图卷积神经网络GCN对所述多个特征切片进行融合处理，得到所述融合特征序列包括：

11.根据权利要求9或10所述的方法，其特征在于，所述基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列包括：

通过长短期记忆网络LSTM对所述融合特征序列进行处理，得到所述第二特征序列。

12.一种文本识别网络的训练方法，其特征在于，所述文本识别网络在第一解码网络的协助下进行训练，所述文本识别网络包括编码网络和第二解码网络，所述编码网络的输出端分别与所述第一解码网络和所述第二解码网络的输入端连接，所述方法包括：

基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；

利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络；

基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；

利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络；

所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失包括：

通过所述参数更新后的编码网络对所述第二训练样本进行编码处理，得到训练特征序列；

通过所述GCN对所述训练特征序列中包括的多个特征切片进行融合处理，得到训练融合特征序列；

基于通过所述长短期记忆网络对所述训练融合特征序列进行解码，得到的处理结果，得到所述第二网络损失。

13.根据权利要求12所述的方法，其特征在于，所述文本识别网络还包括矫正网络，所述基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失，包括：

基于通过所述矫正网络、所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；

所述利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络，包括：

利用所述第一网络损失更新所述矫正网络、所述编码网络、所述第一解码网络的参数，得到参数更新后的所述矫正网络和参数更新后的所述编码网络；

所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失，包括：

基于通过所述参数更新后的矫正网络、所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失。

14.根据权利要求12所述的方法，其特征在于，所述基于通过所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失，包括：

基于通过所述编码网络、所述第一解码网络和第一分类网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；

所述利用所述第一网络损失更新所述编码网络、所述第一解码网络的参数包括：

利用所述第一网络损失更新所述编码网络、所述第一解码网络以及所述第一分类网络的参数。

15.根据权利要求12至14中任一项所述的方法，其特征在于，所述文本识别网络还包括第二分类网络，所述基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失包括：

基于通过所述参数更新后的编码网络、所述第二解码网络以及所述第二分类网络对所述第二训练样本依次进行处理所得到的处理结果，得到所述第二网络损失；

所述利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络包括：

利用所述第二网络损失更新所述第二解码网络以及所述第二分类网络的参数，得到参数更新后的所述第二解码网络和参数更新后的所述第二分类网络。

16.根据权利要求12至14任一项所述的方法，其特征在于，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。

17.一种文本识别装置，其特征在于，通过文本识别网络实现文本识别，其中，所述文本识别网络包括编码网络和第二解码网络，包括：

编码单元，用于通过所述编码网络对目标图像进行编码处理，得到第一特征序列；

解码单元，用于通过所述第二解码网络对所述第一特征序列进行解码处理，得到第二特征序列；

处理单元，用于基于所述第二特征序列，得到文本识别结果；其中，

所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM；

所述解码单元，具体用于通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理，得到融合特征序列；通过所述长短期记忆网络对所述融合特征序列进行解码，得到所述第二特征序列。

18.根据权利要求17所述的装置，其特征在于，所述编码网络的参数在训练所述第二识别网络的过程中保持不变。

19.根据权利要求17所述的装置，其特征在于，所述文本识别网络还包括矫正网络；所述装置还包括：

矫正单元，用于通过所述矫正网络对原始图像进行矫正处理，得到所述目标图像，其中，所述矫正网络是通过对包括所述矫正网络、所述编码网络和所述第一解码网络的所述第一识别网络进行训练得到的。

20.根据权利要求17至19任一项所述的装置，其特征在于，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。

21.根据权利要求17至19任一项所述的装置，其特征在于，

所述解码单元，具体用于对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据，所述关联数据基于所述多个特征切片之间的相似度和距离得到；

22.根据权利要求21所述的装置，其特征在于，

所述解码单元，具体用于通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

23.根据权利要求17至19任一项所述的装置，其特征在于，所述文本识别网络还包括分类网络；

所述处理单元，具体用于通过所述分类网络对所述第二特征序列进行分类，得到所述第二特征序列包括多个特征切片对应的分类结果；

基于所述第二特征序列包括的多个特征切片对应的分类结果，得到所述识别结果。

24.根据权利要求23所述的装置，其特征在于，所述分类网络是通过对包括所述编码网络、所述第二解码网络和所述分类网络的第二识别网络进行训练得到的。

25.一种文本识别装置，其特征在于，包括：

编码单元，用于对目标图像进行编码处理，得到第一特征序列，其中，所述第一特征序列包括多个特征切片；

融合单元，用于对所述第一特征序列中的多个特征切片进行融合处理，得到融合特征序列；

处理单元，用于基于所述融合特征序列中多个特征切片之间的上下文信息，对所述融合特征序列进行处理，得到第二特征序列；基于所述第二特征序列，得到文本识别结果；

所述融合单元，具体用于通过对所述第一特征序列进行处理，得到所述第一特征序列中包括的多个特征切片之间的关联数据；

所述融合单元，具体用于获得所述第一特征序列中包括的多个特征切片之间的相似度；获得所述第一特征序列中包括的多个特征切片之间的距离；基于所述第一特征序列中包括的多个特征切片之间的相似度和距离，得到所述关联数据。

26.根据权利要求25所述的装置，其特征在于，

所述融合单元，具体用于通过所述GCN对所述关联数据和所述第一特征序列对应的矩阵进行相乘处理，得到所述融合特征序列。

27.根据权利要求25或26所述的装置，其特征在于，

所述融合单元，具体用于通过长短期记忆网络LSTM对所述融合特征序列进行处理，得到所述第二特征序列。

28.一种训练装置，其特征在于，用于训练文本识别网络，所述文本识别网络在第一解码网络的协助下进行训练，所述文本识别网络包括编码网络和第二解码网络，所述编码网络的输出端分别与所述第一解码网络和所述第二解码网络的输入端连接，包括：

第一处理单元，用于基于通过所述编码网络和所述第一解码网络对第一训练样本依次进行处理所得到的处理结果，得到第一网络损失；

更新单元，用于利用第一网络损失更新所述编码网络和所述第一解码网络的网络参数，得到参数更新后的所述编码网络；

第二处理单元，用于基于通过所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失；

所述更新单元，还用于利用所述第二网络损失更新所述第二解码网络的参数，得到参数更新后的所述第二解码网络；

所述第二处理单元，具体用于通过所述参数更新后的编码网络对所述第二训练样本进行编码处理，得到训练特征序列；

29.根据权利要求28所述的装置，其特征在于，所述文本识别网络还包括矫正网络；

所述第一处理单元，具体用于基于通过所述矫正网络、所述编码网络和所述第一解码网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；

所述更新单元，具体用于利用所述第一网络损失更新所述矫正网络、所述编码网络、所述第一解码网络的参数，得到参数更新后的所述矫正网络和参数更新后的所述编码网络；

所述第二处理单元，具体用于基于通过所述参数更新后的矫正网络、所述参数更新后的编码网络和所述第二解码网络对第二训练样本依次进行处理所得到的处理结果，得到第二网络损失。

30.根据权利要求28所述的装置，其特征在于，

所述第一处理单元，具体用于基于通过所述编码网络、所述第一解码网络和第一分类网络对所述第一训练样本依次进行处理所得到的处理结果，得到所述第一网络损失；

所述更新单元，具体用于利用所述第一网络损失更新所述编码网络、所述第一解码网络以及所述第一分类网络的参数。

31.根据权利要求28至30任一项所述的装置，其特征在于，所述文本识别网络还包括第二分类网络；

所述第二处理单元，具体用于基于通过所述参数更新后的编码网络、所述第二解码网络以及所述第二分类网络对所述第二训练样本依次进行处理所得到的处理结果，得到所述第二网络损失；

所述更新单元，具体用于利用所述第二网络损失更新所述第二解码网络以及所述第二分类网络的参数，得到参数更新后的所述第二解码网络和参数更新后的所述第二分类网络。

32.根据权利要求28至30任一项所述的装置，其特征在于，所述第一解码网络为注意力机制网络，和/或，所述第二解码网络为联结时序分类CTC解码网络。

33.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被移动设备的处理器执行时，使所述处理器执行权利要求1至16任意一项所述的方法。

34.一种电子设备，其特征在于，包括：存储器，用于存储程序；处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1至16中任一项所述的方法。