CN112686219B

CN112686219B - 手写文本识别方法及计算机存储介质

Info

Publication number: CN112686219B
Application number: CN202110263677.4A
Authority: CN
Inventors: 姜明; 刘霄; 熊泽法
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-18
Anticipated expiration: 2041-03-11
Also published as: CN112686219A

Abstract

本发明实施例提供一种手写文本识别方法及计算机存储介质。其中，所述方法包括：通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得手写文本图像的多个不同尺度的图像轮廓特征数据，并对多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得手写文本图像的图像轮廓特征融合数据；通过第一手写文本识别模型中的残差解码器，对手写文本图像的图像轮廓特征融合数据进行残差解码，以获得手写文本图像中的手写文字的字符后验概率分布数据；通过第一手写文本识别模型中的连接时序分类层，基于手写文本图像中的手写文字的字符后验概率分布数据，识别出手写文本图像的手写文字识别结果。

Description

手写文本识别方法及计算机存储介质

技术领域

本发明实施例涉及文本智能识别领域，尤其涉及一种手写文本识别方法及计算机存储介质。

背景技术

由于真实场景中的手写文本图像是非常复杂的，图像中往往包含扭曲或者重叠的字符，不同字体、大小和颜色的字符以及复杂的背景噪声。因此，文本识别任务图像中的文本信息对于视觉语义理解任务来说是必不可少的。但是，手写文本识别不同于传统OCR(Optical Character Recognition，光学字符识别)，其主要原因是每个人的书写习惯不同，体现在字体、大小、疏密甚至方向。

现有技术中的文本识别方法对书面体印刷文本的识别效果较好，但对于手写文本的识别效果较差，无法适应手写字体的风格变化。具体地，手写文本行同时存在尺度大小多变的字体，以及紧密度不一的字体间隔，导致识别出现严重漏字现象。此外，对手写字体模糊图像、手写字体扭曲图像、手写字体大小多变图像等低质量手写文本图像的文本识别具有较差的鲁棒性。

由此可见，如何有效改善手写文本识别中的漏识别的问题，并增强对低质量手写文本图像识别的鲁棒性成为当前亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种手写文本识别方法及计算机存储介质，用以解决上述问题至少之一。

本发明实施例提供一种手写文本识别方法。所述方法包括：通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据；通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，以获得所述手写文本图像中的手写文字的字符后验概率分布数据；通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果。

本发明实施例还提供一种计算机可读介质，所述计算机存储介质存储有可读程序，所述可读程序包括：用于通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据的指令；用于通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，以获得所述手写文本图像中的手写文字的字符后验概率分布数据的指令；用于通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果的指令。

根据本发明实施例提供的手写文本识别方案，通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，能够有效避免手写文本图像的图像轮廓特征的丢失，从而有效改善手写文本识别中的漏识别的问题。此外，通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，能够有效提升对手写文本图像的图像语义特征的提取能力和表达能力，从而增强对低质量手写文本图像识别的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例一的一种手写文本识别方法的步骤流程图；

图2示出了根据本发明实施例一的手写文本图像的示意图；

图3示出了根据本发明实施例一的掩膜图像的示意图；

图4示出了根据本发明实施例一的预处理后的手写文本图像的示意图；

图5示出了根据本发明实施例一的编码器的结构示意图；

图6示出了根据本发明实施例一的残差解码器的结构示意图；

图7示出了根据本发明实施例一的字符概率矩阵的示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种手写文本识别方法的步骤流程图。

具体地，本发明实施例提供的手写文本识别方法包括以下步骤：

在步骤S101中，通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据。

在本实施例中，所述第一手写文本识别模型可理解为用于手写文本识别的神经网络模型。所述第一手写文本识别模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。所述特征金字塔网络可理解为用于特征融合的神经网络。所述编码器可包括多个卷积层、输入端分别与所述多个卷积层的输出端连接的多个最大池化层，以及输入端分别与所述多个最大池化层的输出端连接的特征金字塔网络。其中，所述多个卷积层与所述多个最大池化层串行连接。所述待识别的手写文本图像的采集方式包括但不仅限于利用移动设备的摄像头拍照上传手写文本图像、电子屏幕手写板采集手写文本图像，以及扫描仪扫描获取手写文本图像等。所述图像轮廓特征数据可为图像轮廓特征图、图像轮廓特征向量序列等。其中，所述图像轮廓特征向量可理解为用于表征图像轮廓特征的向量。所述图像轮廓特征融合数据可为图像轮廓特征融合的特征图、图像轮廓特征融合的特征向量序列等。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，所述方法还包括：对所述待识别的手写文本图像进行尺寸规范化，以获得尺寸规范化后的手写文本图像；所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，包括：通过所述编码器，对所述尺寸规范化后的手写文本图像的图像轮廓特征进行编码，以获得所述尺寸规范化后的手写文本图像的多个不同尺度的图像轮廓特征数据。籍此，通过对所述待识别的手写文本图像进行尺寸规范化，有利于适配所述第一手写文本识别模型的输入，从而方便所述第一手写文本识别模型的编码器更好地提取所述待识别的手写文本图像的图像轮廓特征。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，对待识别的手写文本图像进行图像高宽等比例规范化。定义图像规范化高度Nh，计算图像缩放比例为 Ratio=Nh/Image_h,则规范化宽度Nw=Ratio*Image_w，将待识别的手写文本图像进行等比例缩放有利于适配第一手写文本识别模型的输入，更好的提取手写文本图像的图像轮廓特征。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述对所述待识别的手写文本图像进行尺寸规范化之后，所述方法还包括：对所述尺寸规范化后的手写文本图像进行图像掩膜预处理，以获得预处理后的手写文本图像；所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，包括：通过所述编码器，对所述预处理后的手写文本图像的图像轮廓特征进行编码，以获得所述预处理后的手写文本图像的多个不同尺度的图像轮廓特征数据。籍此，通过对所述尺寸规范化后的手写文本图像进行图像掩膜预处理，能够完整保留所述尺寸规范化后的手写文本图像的左右边缘信息，从而有效避免手写文本图像的漏识别的问题。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，初始化一张高度为64且宽度为896的掩膜图像，如图3所示。为完整保留如图2所示的手写文本图像的左右边缘信息，将如图2所示的手写文本图像粘贴至如图3所示的掩膜图像的中央，如图4所示。其中，所述左右边缘信息可理解为手写文本图像中的手写文本区域的左右边缘的文本信息。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在对待识别的手写文本图像的图像轮廓特征进行编码时，通过所述编码器的多个卷积层，对所述待识别的手写文本图像进行图像轮廓特征提取，以获得所述手写文本图像的多个不同尺度的第一图像轮廓特征图；通过所述编码器的多个最大池化层，对所述手写文本图像的多个不同尺度的第一图像轮廓特征图进行图像轮廓特征压缩，以获得所述手写文本图像的多个不同尺度的第二图像轮廓特征图，其中，所述多个最大池化层的输入端分别与所述多个卷积层的输出端连接，并且所述多个卷积层与所述多个最大池化层串行连接；确定所述手写文本图像的多个不同尺度的第二图像轮廓特征图为所述手写文本图像的多个不同尺度的图像轮廓特征数据。籍此，通过所述编码器的多个卷积层和多个最大池化层，能够有效地提取所述待识别的手写文本图像的图像轮廓特征。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合时，通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合的第一特征图；确定所述手写文本图像的图像轮廓特征融合的第一特征图为所述手写文本图像的图像轮廓特征融合数据。籍此，通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，能够进一步有效避免手写文本图像的图像轮廓特征的丢失，从而进一步有效改善手写文本识别中的漏识别的问题。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，所述特征金字塔网络包括双向特征金字塔网络。在通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合时，通过所述双向特征金字塔网络的第一网络层，对所述多个不同尺度的第二图像轮廓特征图进行自上而下的特征融合，以获得所述手写文本图像的图像轮廓特征融合的多个不同尺度的第二特征图；通过所述双向特征金字塔网络的第二网络层，对所述多个不同尺度的第二特征图进行自下而上的特征融合，以获得所述第一特征图。籍此，通过所述编码器的双向特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，能够更进一步有效避免手写文本图像的图像轮廓特征的丢失，从而更进一步有效改善手写文本识别中的漏识别的问题。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，为了改善手写文本图像中诸如标点，符号以及模糊字体等较小目标的漏识别问题，提出基于双向特征金字塔网络（双向FPN）的编码器，双向FPN由Bottom-up Path（自下而上的路径）和Up-bottom Path（自上而下的路径）两个部分构成，如图5所示。具体地，编码器的三个最大池化层输出的特征图由浅至深依次标记为F3、F4、F5。首先对F5做卷积操作，设置卷积核大小为1,步长为1,填充大小为0,得到P5，然后对F4做同样的卷积操作得到P4_0，将P5做上采样得到和p4_0同样大小尺寸的特征图后，与P4_0做加法运算，得到特征图P4，同样的，将F3做同样的卷积操作得到P3_0，将p4做上采样得到和P3_0同样大小尺寸的特征图后，与P3_0做加法运算，得到特征图P3。在获取到P3,P4,P5三种尺寸大小的特征图之后，首先对P3做卷积操作，设置卷积核大小为1,步长为1,填充大小为0,得到特征图N3，然后对P4做同样的卷积操作得到N4_0,将N3做下采样得到和N4_0同样大小尺寸的特征图后，与N4_0做加法运算，得到特征图N4，同样的，将P5做同样的卷积操作后得到N5_0，将N4做下采样得到和N5_0同样大小尺寸的特征图后，与N5_0做加法运算，得到特征图N5。将特征图N5作为残差解码器的输入。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在步骤S102中，通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，以获得所述手写文本图像中的手写文字的字符后验概率分布数据。

在本实施例中，所述残差解码器包括第一双向长短时记忆网络，以及输入端分别与所述第一双向长短时记忆网络的输入端和输出端连接的第二双向长短时记忆网络。其中，Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)采用两个方向不同的LSTM分别从前后两个不同的方向对长序列的数据进行处理，在处理自然语言文本时，可以充分考虑文本的上下文环境对当前词语的影响。所述残差解码可理解为利用残差数据进行解码。所述字符后验概率分布数据可为字符后验概率分布矩阵。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码时，通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取，以获得所述手写文本图像的图像语义特征数据；确定所述手写文本图像的图像轮廓特征融合数据为所述手写文本图像的图像语义特征的残差数据；通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取，以获得所述手写文本图像中的手写文字的字符后验概率分布数据。其中，所述图像语义特征数据可为图像语义特征向量序列。籍此，通过所述残差解码器的第一双向长短时记忆网络和第二双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取，能够准确地获得所述手写文本图像中的手写文字的字符后验概率分布数据。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取时，通过所述第一双向长短时记忆网络中的前向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的前向提取，以获得所述手写文本图像的前向的图像语义特征数据；通过所述第一双向长短时记忆网络中的后向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的后向提取，以获得所述手写文本图像的后向的图像语义特征数据；基于所述前向的图像语义特征数据和所述后向的图像语义特征数据，确定所述图像语义特征数据。其中，所述前向的图像语义特征数据可为前向的图像语义特征向量序列，所述后向的图像语义特征数据可为后向的图像语义特征向量序列。籍此，通过所述第一双向长短时记忆网络中的前向长短时记忆网络和后向长短时记忆网络分别对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的前向提取和后向提取，从而能够更加充分、完整地提取所述手写文本图像的图像语义特征，进而提高基于所述手写文本图像的图像语义特征进行手写文本识别的准确性。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，在基于所述前向的图像语义特征数据和所述后向的图像语义特征数据，确定所述图像语义特征数据时，对所述前向的图像语义特征向量序列和所述后向的图像语义特征向量序列进行拼接，以获得所述图像语义特征向量序列。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一些可选实施例中，在通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取时，通过所述第二双向长短时记忆网络中的前向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的前向提取，以获得所述手写文本图像中的手写文字的前向的字符后验概率分布数据；通过所述第二双向长短时记忆网络中的后向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的后向提取，以获得所述手写文本图像中的手写文字的后向的字符后验概率分布数据；基于所述前向的字符后验概率分布数据和所述后向的字符后验概率分布数据，确定所述手写文本图像中的手写文字的字符后验概率分布数据。其中，所述前向的字符后验概率分布数据可为前向的字符后验概率分布矩阵，所述后向的字符后验概率分布数据可为后向的字符后验概率分布矩阵。籍此，通过所述第二双向长短时记忆网络中的前向长短时记忆网络和后向长短时记忆网络分别对所述图像语义特征数据和所述残差数据进行图像语义特征的前向提取和后向提取，从而能够更加充分、完整地提取所述手写文本图像的图像语义特征，进而提高基于所述手写文本图像的图像语义特征进行手写文本识别的准确性。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，在基于所述前向的字符后验概率分布数据和所述后向的字符后验概率分布数据，确定所述手写文本图像中的手写文字的字符后验概率分布数据时，对所述前向的字符后验概率分布矩阵和所述后向的字符后验概率分布矩阵进行拼接，以获得所述字符后验概率分布矩阵。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，为了改善手写文本的识别性能，提出如图6所示的具有ResBiLstm结构的残差解码器，在两个双向长短时记忆网络之间加入残差，改善网络传递过程中梯度消失并且可以加速网络收敛，获得更优性能。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在步骤S103中，通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果。

在一些可选实施例中，在通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果时，通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符后验概率分布数据进行转换，以获得所述手写文本图像中的手写文字的字符概率矩阵；通过所述连接时序分类层，基于所述手写文本图像中的手写文字的字符概率矩阵，确定所述手写文本图像中的手写文字的字符序列；通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符序列进行变换，以获得所述手写文本图像的手写文字识别结果。籍此，通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，能够准确地识别出所述手写文本图像的手写文字识别结果。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，所述手写文本图像中的手写文字的字符后验概率分布矩阵经过所述第一手写文本识别模型中的连接时序分类层，得到字符概率矩阵，字符概率矩阵的高度为空白（blank）类别加上需要识别的字符类别个数N，即Pro_h = N+1，字符概率矩阵的宽度为手写文本图像经过手写文本识别模型的编码器得到的特征图的宽度，举例来说，手写文本图像的宽度为896，那么手写文本图像对应的字符概率矩阵的宽度为 227，即Pro_w = 227。字符概率矩阵如图7所示。然后，可对字符概率矩阵进行最大值的求取操作，具体步骤为：从第一帧起，取该帧概率最大值所对应的类别，假设第一帧概率最大对应的类别为“求”，第二帧概率最大值对应的类别为“a”，依次类推，到最后一帧概率最大值对应的类别为“值”，得到所有帧取值的结果为“求a--,bb的-值”，通过B变换，得到最优识别结果为“求a,b的值”。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

通过测试发现，本申请提出的手写文本识别方法，在手写测试集上达到95%的准确率，而现有的手写文本识别方法在手写测试集上的准确率为82%，且本申请提出的手写文本识别方法对低质量文本的识别起到明显的改善作用，有效缓解了手写文本识别的漏识别和错识别问题。对比效果示例如表：

在一些可选实施例中，在通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，所述方法还包括：基于印刷文本图像样本和所述印刷文本图像样本的文字字符标注数据，对待训练的第二手写文本识别模型进行训练，以获得训练后的第二手写文本识别模型，其中，所述第二手写文本识别模型的模型结构与所述第一手写文本识别模型的模型结构相同；基于所述训练后的第二手写文本识别模型中的编码器中的多个卷积层和多个最大池化层的模型参数，确定待训练的所述第一手写文本识别模型中的多个卷积层和多个最大池化层的模型参数；基于手写文本图像样本和所述手写文本图像样本的文字字符标注数据，对待训练的所述第一手写文本识别模型进行训练，以获得训练后的所述第一手写文本识别模型。籍此，通过基于所述训练后的第二手写文本识别模型中的编码器中的多个卷积层和多个最大池化层的模型参数，确定待训练的所述第一手写文本识别模型中的多个卷积层和多个最大池化层的模型参数，能够有效加快待训练的所述第一手写文本识别模型的训练速度，从而加快待训练的所述第一手写文本识别模型的收敛进度。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，在基于印刷文本图像样本和所述印刷文本图像样本的文字字符标注数据，对待训练的第二手写文本识别模型进行训练时，通过所述待训练的第二手写文本识别模型，对所述印刷文本图像样本进行文本识别，以获得所述印刷文本图像样本的文字字符识别数据；基于所述文字字符识别数据和所述文字字符标注数据，训练所述待训练的第二手写文本识别模型。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

在一个具体的例子中，在基于所述文字字符识别数据和所述文字字符标注数据，训练所述待训练的第二手写文本识别模型时，通过目标损失函数，确定所述文字字符识别数据和所述文字字符标注数据之间的差异值；基于所述差异值，调整所述第二手写文本识别模型的参数。其中，所述目标损失函数包括均方误差项、L2正则化项等。具体地，通过确定所述文字字符识别数据和所述文字字符标注数据之间的差异值，对当前获得的所述文字字符识别数据进行评估，以作为后续训练所述第二手写文本识别模型的依据。具体地，可将所述差异值反向传输给所述第二手写文本识别模型，从而迭代地训练所述第二手写文本识别模型。所述第二手写文本识别模型的训练是一个迭代的过程，本实施例仅对其中的一次训练过程进行了说明，但本领域技术人员应当明了，对所述第二手写文本识别模型的每次训练都可采用该训练方式，直至完成所述第二手写文本识别模型的训练。类似地，对所述第一手写文本识别模型进行训练的过程与对所述第二手写文本识别模型进行训练的过程类似，在此不再赘述。可以理解的是，以上描述仅为示例性的，本实施例对此不做任何限定。

根据本申请实施例提供的手写文本识别方法，通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，能够有效避免手写文本图像的图像轮廓特征的丢失，从而有效改善手写文本识别中的漏识别的问题。此外，通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，能够有效提升对手写文本图像的图像语义特征的提取能力和表达能力，从而增强对低质量手写文本图像识别的鲁棒性。

实施例二

可选地，所述可读程序还包括：用于在通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，对所述待识别的手写文本图像进行尺寸规范化，以获得尺寸规范化后的手写文本图像的指令；所述用于通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码的指令，包括：用于通过所述编码器，对所述尺寸规范化后的手写文本图像的图像轮廓特征进行编码，以获得所述尺寸规范化后的手写文本图像的多个不同尺度的图像轮廓特征数据的指令。

可选地，所述可读程序还包括：用于在对所述待识别的手写文本图像进行尺寸规范化之后，对所述尺寸规范化后的手写文本图像进行图像掩膜预处理，以获得预处理后的手写文本图像的指令；所述用于通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码的指令，包括：用于通过所述编码器，对所述预处理后的手写文本图像的图像轮廓特征进行编码，以获得所述预处理后的手写文本图像的多个不同尺度的图像轮廓特征数据的指令。

可选地，所述用于对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据的指令，包括：用于通过所述编码器的多个卷积层，对所述待识别的手写文本图像进行图像轮廓特征提取，以获得所述手写文本图像的多个不同尺度的第一图像轮廓特征图的指令；用于通过所述编码器的多个最大池化层，对所述手写文本图像的多个不同尺度的第一图像轮廓特征图进行图像轮廓特征压缩，以获得所述手写文本图像的多个不同尺度的第二图像轮廓特征图的指令，其中，所述多个最大池化层的输入端分别与所述多个卷积层的输出端连接，并且所述多个卷积层与所述多个最大池化层串行连接；用于确定所述手写文本图像的多个不同尺度的第二图像轮廓特征图为所述手写文本图像的多个不同尺度的图像轮廓特征数据的指令。

可选地，所述用于对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据的指令，包括：用于通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合的第一特征图的指令；用于确定所述手写文本图像的图像轮廓特征融合的第一特征图为所述手写文本图像的图像轮廓特征融合数据的指令。

可选地，所述特征金字塔网络包括双向特征金字塔网络，所述用于通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合的指令，包括：用于通过所述双向特征金字塔网络的第一网络层，对所述多个不同尺度的第二图像轮廓特征图进行自上而下的特征融合，以获得所述手写文本图像的图像轮廓特征融合的多个不同尺度的第二特征图的指令；用于通过所述双向特征金字塔网络的第二网络层，对所述多个不同尺度的第二特征图进行自下而上的特征融合，以获得所述第一特征图的指令。

可选地，所述用于通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码的指令，包括：用于通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取，以获得所述手写文本图像的图像语义特征数据的指令；用于确定所述手写文本图像的图像轮廓特征融合数据为所述手写文本图像的图像语义特征的残差数据的指令；用于通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取，以获得所述手写文本图像中的手写文字的字符后验概率分布数据的指令。

可选地，所述用于通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取的指令，包括：用于通过所述第一双向长短时记忆网络中的前向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的前向提取，以获得所述手写文本图像的前向的图像语义特征数据的指令；用于通过所述第一双向长短时记忆网络中的后向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的后向提取，以获得所述手写文本图像的后向的图像语义特征数据的指令；用于基于所述前向的图像语义特征数据和所述后向的图像语义特征数据，确定所述图像语义特征数据的指令。

可选地，所述用于通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取的指令，包括：用于通过所述第二双向长短时记忆网络中的前向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的前向提取，以获得所述手写文本图像中的手写文字的前向的字符后验概率分布数据的指令；用于通过所述第二双向长短时记忆网络中的后向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的后向提取，以获得所述手写文本图像中的手写文字的后向的字符后验概率分布数据的指令；用于基于所述前向的字符后验概率分布数据和所述后向的字符后验概率分布数据，确定所述手写文本图像中的手写文字的字符后验概率分布数据的指令。

可选地，所述用于通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果的指令，包括：用于通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符后验概率分布数据进行转换，以获得所述手写文本图像中的手写文字的字符概率矩阵的指令；用于通过所述连接时序分类层，基于所述手写文本图像中的手写文字的字符概率矩阵，确定所述手写文本图像中的手写文字的字符序列的指令；用于通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符序列进行变换，以获得所述手写文本图像的手写文字识别结果的指令。

可选地，所述可读程序还包括：用于在通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，基于印刷文本图像样本和所述印刷文本图像样本的文字字符标注数据，对待训练的第二手写文本识别模型进行训练，以获得训练后的第二手写文本识别模型的指令，其中，所述第二手写文本识别模型的模型结构与所述第一手写文本识别模型的模型结构相同；用于基于所述训练后的第二手写文本识别模型中的编码器中的多个卷积层和多个最大池化层的模型参数，确定待训练的所述第一手写文本识别模型中的多个卷积层和多个最大池化层的模型参数的指令；用于基于手写文本图像样本和所述手写文本图像样本的文字字符标注数据，对待训练的所述第一手写文本识别模型进行训练，以获得训练后的所述第一手写文本识别模型的指令。

通过本申请实施例提供的计算机可读介质，通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，能够有效避免手写文本图像的图像轮廓特征的丢失，从而有效改善手写文本识别中的漏识别的问题。此外，通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，能够有效提升对手写文本图像的图像语义特征的提取能力和表达能力，从而增强对低质量手写文本图像识别的鲁棒性。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的教师风格预测模型的训练方法。此外，当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种手写文本识别方法，其特征在于，所述方法包括：

通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据，其中，所述特征金字塔网络为用于特征融合的神经网络；

通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，以获得所述手写文本图像中的手写文字的字符后验概率分布数据，其中，所述残差解码器为利用残差数据进行解码的解码器；

通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果。

2.根据权利要求1所述的手写文本的识别方法，其特征在于，所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，所述方法还包括：

对所述待识别的手写文本图像进行尺寸规范化，以获得尺寸规范化后的手写文本图像；

所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，包括：

通过所述编码器，对所述尺寸规范化后的手写文本图像的图像轮廓特征进行编码，以获得所述尺寸规范化后的手写文本图像的多个不同尺度的图像轮廓特征数据。

3.根据权利要求2所述的手写文本的识别方法，其特征在于，所述对所述待识别的手写文本图像进行尺寸规范化之后，所述方法还包括：

对所述尺寸规范化后的手写文本图像进行图像掩膜预处理，以获得预处理后的手写文本图像；

通过所述编码器，对所述预处理后的手写文本图像的图像轮廓特征进行编码，以获得所述预处理后的手写文本图像的多个不同尺度的图像轮廓特征数据。

4.根据权利要求1所述的手写文本的识别方法，其特征在于，所述对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，包括：

通过所述编码器的多个卷积层，对所述待识别的手写文本图像进行图像轮廓特征提取，以获得所述手写文本图像的多个不同尺度的第一图像轮廓特征图；

通过所述编码器的多个最大池化层，对所述手写文本图像的多个不同尺度的第一图像轮廓特征图进行图像轮廓特征压缩，以获得所述手写文本图像的多个不同尺度的第二图像轮廓特征图，其中，所述多个最大池化层的输入端分别与所述多个卷积层的输出端连接，并且所述多个卷积层与所述多个最大池化层串行连接；

确定所述手写文本图像的多个不同尺度的第二图像轮廓特征图为所述手写文本图像的多个不同尺度的图像轮廓特征数据。

5.根据权利要求4所述的手写文本的识别方法，其特征在于，所述对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据，包括：

通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合的第一特征图；

确定所述手写文本图像的图像轮廓特征融合的第一特征图为所述手写文本图像的图像轮廓特征融合数据。

6.根据权利要求5所述的手写文本的识别方法，其特征在于，所述特征金字塔网络包括双向特征金字塔网络，

所述通过所述编码器的特征金字塔网络，对所述手写文本图像的多个不同尺度的第二图像轮廓特征图进行多尺度特征融合，包括：

通过所述双向特征金字塔网络的第一网络层，对所述多个不同尺度的第二图像轮廓特征图进行自上而下的特征融合，以获得所述手写文本图像的图像轮廓特征融合的多个不同尺度的第二特征图；

通过所述双向特征金字塔网络的第二网络层，对所述多个不同尺度的第二特征图进行自下而上的特征融合，以获得所述第一特征图。

7.根据权利要求1所述的手写文本的识别方法，其特征在于，所述通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，包括：

通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取，以获得所述手写文本图像的图像语义特征数据；

确定所述手写文本图像的图像轮廓特征融合数据为所述手写文本图像的图像语义特征的残差数据；

通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取，以获得所述手写文本图像中的手写文字的字符后验概率分布数据。

8.根据权利要求7所述的手写文本的识别方法，其特征在于，所述通过所述残差解码器的第一双向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征提取，包括：

通过所述第一双向长短时记忆网络中的前向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的前向提取，以获得所述手写文本图像的前向的图像语义特征数据；

通过所述第一双向长短时记忆网络中的后向长短时记忆网络，对所述手写文本图像的图像轮廓特征融合数据进行图像语义特征的后向提取，以获得所述手写文本图像的后向的图像语义特征数据；

基于所述前向的图像语义特征数据和所述后向的图像语义特征数据，确定所述图像语义特征数据。

9.根据权利要求7所述的手写文本的识别方法，其特征在于，所述通过所述残差解码器的第二双向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征提取，包括：

通过所述第二双向长短时记忆网络中的前向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的前向提取，以获得所述手写文本图像中的手写文字的前向的字符后验概率分布数据；

通过所述第二双向长短时记忆网络中的后向长短时记忆网络，对所述图像语义特征数据和所述残差数据进行图像语义特征的后向提取，以获得所述手写文本图像中的手写文字的后向的字符后验概率分布数据；

基于所述前向的字符后验概率分布数据和所述后向的字符后验概率分布数据，确定所述手写文本图像中的手写文字的字符后验概率分布数据。

10.根据权利要求1所述的手写文本的识别方法，其特征在于，所述通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果，包括：

通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符后验概率分布数据进行转换，以获得所述手写文本图像中的手写文字的字符概率矩阵；

通过所述连接时序分类层，基于所述手写文本图像中的手写文字的字符概率矩阵，确定所述手写文本图像中的手写文字的字符序列；

通过所述连接时序分类层，对所述手写文本图像中的手写文字的字符序列进行变换，以获得所述手写文本图像的手写文字识别结果。

11.根据权利要求1所述的手写文本的识别方法，其特征在于，所述通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码之前，所述方法还包括：

基于印刷文本图像样本和所述印刷文本图像样本的文字字符标注数据，对待训练的第二手写文本识别模型进行训练，以获得训练后的第二手写文本识别模型，其中，所述第二手写文本识别模型的模型结构与所述第一手写文本识别模型的模型结构相同；

基于所述训练后的第二手写文本识别模型中的编码器中的多个卷积层和多个最大池化层的模型参数，确定待训练的所述第一手写文本识别模型中的多个卷积层和多个最大池化层的模型参数；

基于手写文本图像样本和所述手写文本图像样本的文字字符标注数据，对待训练的所述第一手写文本识别模型进行训练，以获得训练后的所述第一手写文本识别模型。

12.一种计算机可读介质，其特征在于，所述计算机存储介质存储有可读程序，所述可读程序包括：

用于通过第一手写文本识别模型中基于特征金字塔网络的编码器，对待识别的手写文本图像的图像轮廓特征进行编码，以获得所述手写文本图像的多个不同尺度的图像轮廓特征数据，并对所述多个不同尺度的图像轮廓特征数据进行多尺度特征融合，以获得所述手写文本图像的图像轮廓特征融合数据的指令，其中，所述特征金字塔网络为用于特征融合的神经网络；

用于通过所述第一手写文本识别模型中的残差解码器，对所述手写文本图像的图像轮廓特征融合数据进行残差解码，以获得所述手写文本图像中的手写文字的字符后验概率分布数据的指令，其中，所述残差解码器为利用残差数据进行解码的解码器；

用于通过所述第一手写文本识别模型中的连接时序分类层，基于所述手写文本图像中的手写文字的字符后验概率分布数据，识别出所述手写文本图像的手写文字识别结果的指令。