CN114170468B

CN114170468B - 文本识别方法、存储介质及计算机终端

Info

Publication number: CN114170468B
Application number: CN202210131684.3A
Authority: CN
Inventors: 黄耀雄; 何梦超; 姚聪
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-31
Anticipated expiration: 2042-02-14
Also published as: CN114170468A

Abstract

本申请公开了一种文本识别方法、存储介质及计算机终端。其中，该方法包括：获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。本申请解决了相关技术中文本识别的准确率较低的技术问题。

Description

文本识别方法、存储介质及计算机终端

技术领域

本申请涉及文本识别领域，具体而言，涉及一种文本识别方法、存储介质及计算机终端。

背景技术

文本识别平台目前支持的场景越来越多，例如，可以将文本识别平台应用在教育场景中，在教育场景中，在目标文本图像中由于存在笔迹涂抹、像素质量低、书本折叠处文字变形等问题导致文本识别的准确率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本识别方法、存储介质及计算机终端，以至少解决相关技术中文本识别的准确率较低的技术问题。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用识别模型对训练文本图像进行特征提取，得到样本特征；利用识别模型对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用识别模型分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：获取目标书本图像，其中，目标书本图像包含多个目标文字；利用识别模型对目标书本图像进行识别，得到目标书本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：接收客户端上传的目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；输出目标识别结果。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：在交互界面中显示目标文本图像，其中，目标文本图像包含多个目标文字；响应于在交互界面中进行的预设操作，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；在交互界面中显示目标识别结果。

根据本申请实施例的一个方面，提供了一种文本识别方法，包括：获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任意实施例的文本识别方法。

根据本申请实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述任意实施例的文本识别方法。

在本申请实施例中，首先获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到，实现了提高对目标文本图像识别的精确度。容易注意到的是，在利用识别模型对目标文本图像进行识别，时，识别模型可以结合目标文本图像中目标文字的上下文信息进行识别，这样在目标文字的显示质量较差的情况下，也可以结合目标文字的上下文信息对目标文字进行精确识别，从而提高目标文本图像的目标识别结果的精确度，进而解决了相关技术中文本识别的准确率较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现文本识别方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例的一种文本识别方法的流程图；

图3是根据本申请实施例的一种文本识别方法的系统框架图；

图4是根据本申请实施例的另一种文本识别方法的流程图；

图5是根据本申请实施例的另一种文本识别方法的流程图；

图6是根据本申请实施例的另一种文本识别方法的流程图；

图7是根据本申请实施例的一种文本识别装置的示意图；

图8是根据本申请实施例的另一种文本识别装置的示意图；

图9是根据本申请实施例的另一种文本识别装置的示意图；

图10是根据本申请实施例的另一种文本识别装置的示意图；

图11是根据本申请实施例的一种计算机终端的结构框图；

图12是根据本申请实施例的又一种文本识别方法的流程图；

图13是根据本申请实施例的又一种文本识别装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

文本行识别：利用各种模式识别算法对文本图像中的文字进行定位，提取文字的特征，之后再与识别字典中的标准字符进行匹配判断，从而达到识别文档内容以及任意修改文档内容的目的。

一种对不需要对齐的损失函数计算方法（Connectionist TemporalClassification，简称CTC）：用于训练深度神经网络，被广泛应用于文本行识别和语音识别中。

上下文：在文本行识别中指当前位置前后文字的图像信息以及语义信息。

注意力机制：使得神经网络具备专注于其输入子集的能力，选择特定的输入，生成对应关注位置的热图。

注意力漂移：注意力模型难以将每一个特征向量和输入图像中对应的目标区域准确对齐，因此会出现注意力漂移的情况。

热图：指注意力机制在图片上不同位置的激活值进行展示，激活值越大，该区域颜色越热。

门控循环单元网络：是一类以序列数据为输入，在序列的演进方向进行递归且所有节点信息流动受门限控制的递归神经网络。

目前，文字识别平台支持的场景越来越多，包括且不仅限于卡证，发票，商品图以及教育试题等各大场景，这伴随而来的是各种场景下的新挑战，在教育场景中愈发严重，表现为笔迹涂抹，图像质量低，其中，图像质量低可以是拍照模糊，运动模糊，高斯模糊等，书本折叠处文本形变严重等。由于上述的原因，文本行中的某一两个文字会比较模棱两可而导致识别出错，但通过对前后文字的辨认，仍然可以进行联想出该文字。

鉴于上述的分析，可以在预测每个字的类别时充分考虑其上下文信息，能够大大的增强识别模型在各种复杂场景下识别的效果。目前，文本行识别有两个主流的方法，一个是基于神经网络的时序类分类（Connectionist temporal classification，简称CTC）的文本行识别模型，二是基于注意力机制(Attention Transformer)的文本行识别模型。

对于基于CTC的文本行识别模型，可以分为两种子类型：卷积神经网络（Convolutional Neural Networks，简称CNN） +CTC模型与CNN+长短时记忆网络（LongShort Term Memory Network,简称 LSTM）+CTC模型，前者模型运算资源消耗较少，但是对于复杂场景下的文字识别效果差强人意，后者模型在前者模型上引入LSTM进行语义建模，能一定程度提升模型在复杂场景下的效果，但是也引入了训练过程容易发生梯度爆炸以及无法并行计算的问题。

对于基于注意力机制的方法，文本行识别中每个字的识别都是依赖于上一个时间点的输出，这一方面是串行运算而导致时间消耗较大，二是对于中文文本行这种大类别长文本的识别很容易出现注意力漂移的问题，导致长文本的识别效果急剧下降。

本申请中提出了一种文本识别方法，提出了在原有的识别模型中加入上下文关联模块，可以在提高减少训练复杂度的同时提高识别的速度和精确度。

实施例1

根据本申请实施例，还提供了一种文本识别的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本识别方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备10）可以包括一个或多个（图中采用102a、102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（USB）端口（可以作为BUS总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的文本识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的文本识别方法。图2是根据本申请实施例的文本识别方法的流程图。

步骤S202，获取目标文本图像。

其中，目标文本图像包含多个目标文字。

上述的目标文本图像可以是卡证图像、发票图像、商品图像以及教育试题图像等，其中，目标文本图像可以是各个场景中的图像。

上述的目标文字可以为目标文本图像中待识别的文本。

步骤S204，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果。

其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

上述的识别模型可以为密集连接神经网络（DenseNet）、残差神经网络（ResNest）等卷积神经网络，上述的识别模型还可以为基于注意力机制的神经网络（transformer）。

在一种可选的实施例中，在利用识别模型对目标文本图像进行识别的过程中，可以先获得与目标文本图像中文字信息相关联上下文信息的特征，然后结合上下文信息的特征对目标文本图像对应的特征进行分类，可以使得目标文本图像的目标识别结果更加精确。

在教育场景中，目标文本图像中的文字信息可能会出现笔迹涂抹、书本折叠处文本形变严重等问题，因此，需要结合目标文字的上下文得到该文字的识别结果。可以利用识别模型对目标文本图像进行特征提取，得到目标文字的目标特征，可以通过该目标特征得到与该目标特征对应的上下文信息，并基于上下文信息对目标文本图像中的目标文字进行识别，从而得到识别结果，避免由于目标文字出现笔迹涂抹、书本折叠处文本形变严重等问题造成难以识别出目标文字。

通过上述步骤，首先获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到，实现了提高对目标文本图像识别的精确度。容易注意到的是，在利用识别模型对目标文本图像进行识别，时，识别模型可以结合目标文本图像中目标文字的上下文信息进行识别，这样在目标文字的显示质量较差的情况下，也可以结合目标文字的上下文信息对目标文字进行精确识别，从而提高目标文本图像的目标识别结果的精确度，进而解决了相关技术中文本识别的准确率较低的技术问题。

可选地，识别模型包括：主干模块和上下文关联模块，主干模块包括：依次连接的特征提取单元和分类单元，上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，上下文关联模块包含的每个单元的输入均与特征提取单元的输出连接。

上述的主干模块可以为主干网络，主干模块用于对目标文本图像进行识别，得到目标文本图像的目标识别结果。

在一种可选的实施例中，可以通过主干模块中的特征提取单元对目标文本图像进行特征提取，得到目标特征，可以将该目标特征输入至分类单元中进行分类，从而得到目标文本图像的目标识别结果。

进一步的，若通过目标特征难以识别得到目标文本图像的目标识别结果，可以将目标特征输入到上下文关联模块中，通过上下文关联模块中一次连接的位置编码单元对目标特征进行编码，得到编码后的特征，可以通过特征对齐单元对编码后的特征进行对齐，得到与编码后的特征对应的注意力热图，可以在注意力单元中基于目标特征和注意力热图得到与目标特征上下文关联的特征，可以在上下文关联单元中基于上下文关联的特征对目标特征进行数据增强，以便得到增强后的特征，可以将增强后的特征输入到分类单元中进行分类，从而得到目标文本图像的目标识别结果。

可选地，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果包括：利用特征提取单元对目标文本图像进行特征提取，得到目标特征；利用分类单元对目标特征进行分类，得到目标识别结果。

在一种可选的实施例中，若目标文本图像中没有较难识别的目标文字，则可以利用特征提取单元对目标文本图像进行特征提取，得到目标特征，并利用分类单元对目标特征进行分类，得到目标识别结果。

进一步地，若目标文本图像中包含有较难识别的目标文字，则可以在得到目标特征之后，将目标特征输入到上下文关联模块中，通过上下文关联模块得到与目标特征相关联的上下文信息，并结合上下文信息对目标特征进行特征增强，以便丰富目标特征的特征信息，可以利用分类器对增强后的目标特征进行分类，得到识别精确度较高的目标识别结果。

可选地，该方法还包括：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用特征提取单元对训练文本图像进行特征提取，得到样本特征；利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

上述的训练文本图像可以是对原始训练文本图像进行数据增强之后得到的图像。上述的预设识别结果可以是预先标注的识别结果。

在一种可选的实施例中，可以通过多种形式收集原始训练文本图像，例如，可以使用开源代码合成原始训练文本图像，并确定原始训练文本图像对应的预设识别结果，还可以通过对任务数据回流进行人工标注得到上述的原始训练文本图像和与原始训练文本图像对应的预设识别结果。

进一步的，在得到原始训练文本图像之后，可以对原始训练文本图像进行数据增强，其数据增强的方式包括但不限于对原始训练文本图像进行旋转、腐蚀膨胀、仿射变化等扰动增强方式，通过对原始训练文本图像进行数据增强得到训练文本图像，可以增加训练文本图像的多样性，可以根据训练文本图像对应的原始训练文本图像得到训练文本图像对应的预设识别结果，并根据训练文本图像和预设识别结果生成上述的训练样本。

在另一种可选的实施例中，可以将32*700的训练文本图像输入到特征提取单元中，通过特征提取单元对训练文本图像进行特征提取，得到1*175的一维样本特征，由于训练文本图像是经过扰动后得到的图像，因此，仅通过样本特征难以识别得到训练文本图像对应的识别结果，因此可以利用上下文关联模块对样本特征进行上下文关联，生成增强特征，可以利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征对应的第二识别结果，可以根据第一识别结果和预设识别结果之间的损失对识别模型中的主干模块的参数进行调整，可以根据第二识别结果和预设识别结果之间的损失对识别模型中的上下文关联模块的参数进行调整，从而提高识别模型整体的识别精确度。

可选地，利用上下文关联模块对样本特征进行上下文关联，生成增强特征包括：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

上述的位置编码是对特征图中多个时间点进行位置编码，用于区分相似特征在位置上的区别，其中，时间点代表的是最后特征图的宽度上的每一个元素。

上述的位置编码可以采用学习位置编码（Learned Positional Embedding）、复杂编码（Complex embedding）和位置编码的方式对样本特征进行位置编码。

在一中可选的实施例中，可以利用位置编码单元对样本特征进行位置编码，得到位置特征，可以将样本特征与位置特征对齐，以便得到准确度较高的注意力特征，通过上下文单元对样本特征和注意力特征进行上下文关联，可以得到准确度较高的增强特征。

可选地，利用位置编码单元对样本特征进行位置编码，得到位置特征包括：确定样本特征的第一维度，位置特征的第二维度；基于第一维度、第二维度对样本特征中的每个位置进行编码，得到位置特征。

在一种可选的实施例中，可以利用位置编码单元对样本特征进行位置编码，得到位置特征，可以采用如下方式进行编码：

其中，pos对应的是特征图上的位置，i对应的是位置特征的通道维度，可以设定通道维度为为128；

指的是特征提取网络最后一层输出特征的维度，可以设置为 384。

可选地，利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征包括：将样本特征和位置特征进行拼接，得到拼接特征；对拼接特征进行对齐操作，得到注意力特征。

上述的特征对齐单元可以为自注意力机制（self-attention）。

在一种可选的实施例中，可以将样本特征和位置特征输入到特征对齐单元中，得到一个与输入的特征长度一致，通道维度为T的注意力特征H，可以采用如下方式得到注意力特征：

其中，[]为拼接操作（concatenation），

为特征对齐网络，其具体的操作可以为：

其中，x代表特征提取网络最后一层输出的特征，

代表时间点为i的单个特征点，t为时间点，k为所有的特征点，

为权重矩阵，其中，权重矩阵之间可以互相进行学习。

可选地，利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征包括：基于注意力特征和样本特征，生成文字密集特征；利用上下文单元对文字密集特征进行上下文关联，得到增强特征。

在一种可选的实施例中，可以根据注意力特征对样本特征进行增强，得到文字密集特征，可选的，可以通过对注意力特征和样本特征进行点乘的方式对样本特征进行增强，得到文字密集特征，在得到文字密集特征之后，可以通过上下文单元对文字密集特征进行上下文关联，得到与该文字密集特征的上下文特征，可以根据上下文特征对文字密集特征进行进一步的增强，得到增强特征。

可选地，基于注意力特征和样本特征，生成文字密集特征包括：获取注意力特征中每个位置的子特征；获取每个位置的子特征与样本特征的点乘，得到多个位置的密集特征；获取多个位置的密集特征的并集，得到文字密集特征。

在一种可选的实施例中，可以利用上下文单元对样本特征和注意力特征进行上下文关联，可选的，可以通过对样本特征和注意力特征进行点乘得到密集特征，根据密集特征和训练参数的点乘结果得到上述的增强特征。可以通过如下公式实现：

其中，

为注意力特征，

为样本特征，

为密集特征，

为增强特征，w为训练参数。

可选地，基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练包括：基于第一识别结果和预设识别结果，生成第一损失函数；基于第二识别结果和预设识别结果，生成第二损失函数；基于第一损失函数和第二损失函数，生成目标损失函数；基于目标损失函数，对识别模型进行训练。

上述的目标损失函数可以为Cross Entropy Loss。

在一种可选的实施例中，可以根据第一识别结果和预设识别结果，生成第一损失函数，可以根据第一损失函数对主干模块的参数进行调整，以便主干模块在对目标特征进行识别时，可以得到识别精确度较高的目标识别结果；可以根据第二识别结果和预设识别结果，生成第二损失函数，以便根据第二损失函数对上下文关联模块的参数进行调整，从而根据目标特征的上下文信息得到准确度较高的增强特征，进而通过对增强特征进行识别，可以得到识别精确度较高的目标识别结果。

进一步的，可以根据第一损失函数和第二损失函数，生成目标损失函数，并根据目标损失函数采用梯度下降法对识别模型中的主干模块和上下文关联模块进行训练，直至最后收敛。

图3为一种文本识别方法的系统框架图，如图3所示，识别模型可以包括主干模块和上下文关联模块，首先可以收集原始训练文本图像和预设识别结果，对原始训练文本图像进行数据增强，得到训练文本图像和与训练文本图像对应的预设识别结果，并根据训练文本图像和预设识别结果生成训练样本，可以将训练样本输入到主干模块中的特征提取单元中，通过特征提取单元对目标文本图像进行特征提取，得到样本特征，可以将样本特征输入到分类器中，得到训练文本图像对应的第一识别结果，在训练过程，可以将样本特征输入到特征对齐单元中，得到注意力特征，可以利用上下文单元对注意力特征和样本特征进行上下文关联，得到增强特征，可以将增强特征输入到分类单元中，得到训练文本图像对应的第二识别结果，可以根据第一识别结果和预设识别结果生成第一损失函数，可以根据第二识别结果和预设识别结果生成第二损失函数，基于第一损失函数和第二损失函数生成目标损失函数，并通过目标损失函数对识别模型进行训练。

通过上述方案，可以在考虑识别模型和识别效果的情况下，设计一个上下文关联增强的文本识别方法，在引入了上下文关联模块之后，可以辅助特征提取单元对当前位置特征和当前位置特征对应的上下文信息融合得到增强特征，通过对增强特征进行识别，可以提高识别结果的准确度，大大增强识别模型在复杂环境下的识别能力。另外，上述的上下文关联模块能够嵌入到任意的识别模型中，且由于在前向运行时并不需要上下文关联模块的参与，因此不会对原有的识别模型增加额外的运算量。目前将该方案应用到教育识题接口中，其识别的准确率可以提高2%以上。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

实施例2

图4是本申请实施例的一种文本识别方法的流程图，如图4所示，该方法可以包括如下步骤：

步骤S402，在交互界面中显示目标文本图像。

其中，目标文本图像包含多个目标文字。

上述的交互界面可以是电子设备的交互界面，例如，可以是教育产品的交互界面，其用于对从书本上获取到的目标文本图像进行显示，以便识别出目标文本图像中的目标文字。

上述的目标文本图像可以是书本、票据等。

步骤S404，响应于在交互界面中进行的预设操作，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果。

上述的预设操作可以是点击操作、滑动操作等。

步骤S406，在交互界面中显示目标识别结果。

本申请上述实施例中，识别模型包括：主干模块和上下文关联模块，主干模块包括：依次连接的特征提取单元和分类单元，上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，上下文关联模块包含的每个单元的输入均与特征提取单元的输出连接。

本申请上述实施例中，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果包括：利用特征提取单元对目标文本图像进行特征提取，得到目标特征；利用分类单元对目标特征进行分类，得到目标识别结果。

本申请上述实施例中，该方法还包括：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用特征提取单元对训练文本图像进行特征提取，得到样本特征；利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

本申请上述实施例中，利用上下文关联模块对样本特征进行上下文关联，生成增强特征包括：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

本申请上述实施例中，利用位置编码单元对样本特征进行位置编码，得到位置特征包括：确定样本特征的第一维度，位置特征的第二维度；基于第一维度、第二维度对样本特征中的每个位置进行编码，得到位置特征。

本申请上述实施例中，利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征包括：将样本特征和位置特征进行拼接，得到拼接特征；对拼接特征进行对齐操作，得到注意力特征。

本申请上述实施例中，利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征包括：基于注意力特征和样本特征，生成文字密集特征；利用上下文单元对文字密集特征进行上下文关联，得到增强特征。

本申请上述实施例中，基于注意力特征和样本特征，生成文字密集特征包括：获取注意力特征中每个位置的子特征；获取每个位置的子特征与样本特征的点乘，得到多个位置的密集特征；获取多个位置的密集特征的并集，得到文字密集特征。

本申请上述实施例中，基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练包括：基于第一识别结果和预设识别结果，生成第一损失函数；基于第二识别结果和预设识别结果，生成第二损失函数；基于第一损失函数和第二损失函数，生成目标损失函数；基于目标损失函数，对识别模型进行训练。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

图5是本申请实施例的一种文本识别方法的流程图，如图5所示，该方法可以包括如下步骤：

步骤S502，接收客户端上传的目标文本图像。

其中，目标文本图像包含多个目标文字。

步骤S504，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果。

步骤S506，输出目标识别结果。

实施例4

图6是本申请实施例的一种文本识别方法的流程图，如图6所示，该方法可以包括如下步骤：

步骤S602，获取训练样本。

其中，训练样本包括：训练文本图像和预设识别结果。

步骤S604，利用识别模型对训练文本图像进行特征提取，得到样本特征。

步骤S606，利用识别模型对样本特征进行上下文关联，生成增强特征。

其中，增强特征用于表征训练样本的上下文信息。

步骤S608，利用识别模型分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果。

步骤S610，基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

本申请上述实施例中，利用识别模型对样本特征进行上下文关联，生成增强特征包括：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

实施例5

根据本申请实施例，还提供了一种用于实施上述文本识别的文本识别装置，如图7所示，该装置700包括：获取模块702、识别模块704。

其中，获取模块用于获取目标文本图像，其中，目标文本图像包含多个目标文字；识别模块用于利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

此处需要说明的是，上述获取模块702、识别模块704对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

本申请上述实施例中，识别模块包括：提取单元、分类单元。

其中，提取单元用于利用特征提取单元对目标文本图像进行特征提取，得到目标特征；分类单元用于利用分类单元对目标特征进行分类，得到目标识别结果。

本申请上述实施例中，该装置还包括：提取模块、关联模块、分类模块、训练模块。

其中，获取模块还用于获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；提取模块还用于利用特征提取单元对训练文本图像进行特征提取，得到样本特征；关联模块用于利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；分类模块用于利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；训练模块用于基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

本申请上述实施例中，关联模块包括：编码单元、对齐单元、关联单元。

其中，编码单元用于利用位置编码单元对样本特征进行位置编码，得到位置特征；对齐单元用于利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；关联单元用于利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

本申请上述实施例中，编码单元包括：确定子单元、编码子单元。

其中，确定子单元用于确定样本特征的第一维度，位置特征的第二维度；编码子单元用于基于第一维度、第二维度对样本特征中的每个位置进行编码，得到位置特征。

本申请上述实施例中，对齐单元包括：拼接子单元、对齐子单元。

其中，拼接子单元用于将样本特征和位置特征进行拼接，得到拼接特征；对齐子单元用于对拼接特征进行对齐操作，得到注意力特征。

本申请上述实施例中，关联单元包括：生成子单元、关联子单元。

其中，生成子单元用于基于注意力特征和样本特征，生成文字密集特征；关联子单元用于利用上下文单元对文字密集特征进行上下文关联，得到增强特征。

本申请上述实施例中，生成子单元还用于获取注意力特征中每个位置的子特征；生成子单元还用于获取每个位置的子特征与样本特征的点乘，得到多个位置的密集特征；生成子单元还用于获取多个位置的密集特征的并集，得到文字密集特征。

本申请上述实施例中，训练模块包括：生成单元、训练单元。

其中，生成单元用于基于第一识别结果和预设识别结果，生成第一损失函数；生成单元还用于基于第二识别结果和预设识别结果，生成第二损失函数；生成单元还用于基于第一损失函数和第二损失函数，生成目标损失函数；训练单元用于基于目标损失函数，对识别模型进行训练。

实施例6

根据本申请实施例，还提供了一种用于实施上述文本识别的文本识别装置，如图8所示，该装置800包括：第一显示模块802、识别模块804、第二显示模块806。

其中，第一显示模块用于在交互界面中显示目标文本图像，其中，目标文本图像包含多个目标文字；识别模块用于响应于在交互界面中进行的预设操作，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；第二显示模块用于在交互界面中显示目标识别结果。

此处需要说明的是，上述第一显示模块802、识别模块804、第二显示模块806对应于实施例2中的步骤S402至步骤S406，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例7

根据本申请实施例，还提供了一种用于实施上述文本识别的文本识别装置，如图9所示，该装置900包括：接收模块902、识别模块904、输出模块906。

其中，接收模块用于接收客户端上传的目标文本图像，其中，目标文本图像包含多个目标文字；识别模块用于利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；输出模块用于输出目标识别结果。

此处需要说明的是，上述接收模块902、识别模块904、输出模块906对应于实施例3中的步骤S502至步骤S506，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例8

根据本申请实施例，还提供了一种用于实施上述文本识别的文本识别装置，如图10所示，该装置1000包括：获取模块1002、提取模块1004、生成模块1006、分类模块1008、训练模块1010。

其中，获取模块用于获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；提取模块用于利用识别模型对训练文本图像进行特征提取，得到样本特征；生成模块用于利用识别模型对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；分类模块用于利用识别模型分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；训练模块用于基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

处需要说明的是，上述获取模块1002、提取模块1004、生成模块1006、分类模块1008、训练模块1010对应于实施例4中的步骤S602至步骤S610，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例9

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行文本识别方法中以下步骤的程序代码：获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

可选地，图11是根据本申请实施例的一种计算机终端的结构框图。如图11所示，该计算机终端A可以包括：一个或多个（图中仅示出一个）处理器、存储器。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的文本识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

可选的，上述处理器还可以执行如下步骤的程序代码：识别模型包括：主干模块和上下文关联模块，主干模块包括：依次连接的特征提取单元和分类单元，上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，上下文关联模块包含的每个单元的输入均与特征提取单元的输出连接。

可选的，上述处理器还可以执行如下步骤的程序代码：利用特征提取单元对目标文本图像进行特征提取，得到目标特征；利用分类单元对目标特征进行分类，得到目标识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用特征提取单元对训练文本图像进行特征提取，得到样本特征；利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

可选的，上述处理器还可以执行如下步骤的程序代码：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

可选的，上述处理器还可以执行如下步骤的程序代码：确定样本特征的第一维度，位置特征的第二维度；基于第一维度、第二维度对样本特征中的每个位置进行编码，得到位置特征。

可选的，上述处理器还可以执行如下步骤的程序代码：将样本特征和位置特征进行拼接，得到拼接特征；对拼接特征进行对齐操作，得到注意力特征。

可选的，上述处理器还可以执行如下步骤的程序代码：基于注意力特征和样本特征，生成文字密集特征；利用上下文单元对文字密集特征进行上下文关联，得到增强特征。

可选的，上述处理器还可以执行如下步骤的程序代码：获取注意力特征中每个位置的子特征；获取每个位置的子特征与样本特征的点乘，得到多个位置的密集特征；获取多个位置的密集特征的并集，得到文字密集特征。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一识别结果和预设识别结果，生成第一损失函数；基于第二识别结果和预设识别结果，生成第二损失函数；基于第一损失函数和第二损失函数，生成目标损失函数；基于目标损失函数，对识别模型进行训练。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在交互界面中显示目标文本图像，其中，目标文本图像包含多个目标文字；响应于在交互界面中进行的预设操作，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；在交互界面中显示目标识别结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收客户端上传的目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；输出目标识别结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用识别模型对训练文本图像进行特征提取，得到样本特征；利用识别模型对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用识别模型分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

采用本申请实施例，提供了一种文本识别方法，首先获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到，实现了提高对目标文本图像识别的精确度。容易注意到的是，在利用识别模型对目标文本图像进行识别，时，识别模型可以结合目标文本图像中目标文字的上下文信息进行识别，这样在目标文字的显示质量较差的情况下，也可以结合目标文字的上下文信息对目标文字进行精确识别，从而提高目标文本图像的目标识别结果的精确度，进而解决了相关技术中文本识别的准确率较低的技术问题。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（MobileInternet Devices，MID）、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图11中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例10

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的文本识别方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：识别模型包括：主干模块和上下文关联模块，主干模块包括：依次连接的特征提取单元和分类单元，上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，上下文关联模块包含的每个单元的输入均与特征提取单元的输出连接。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：利用特征提取单元对目标文本图像进行特征提取，得到目标特征；利用分类单元对目标特征进行分类，得到目标识别结果。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用特征提取单元对训练文本图像进行特征提取，得到样本特征；利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：确定样本特征的第一维度，位置特征的第二维度；基于第一维度、第二维度对样本特征中的每个位置进行编码，得到位置特征。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：将样本特征和位置特征进行拼接，得到拼接特征；对拼接特征进行对齐操作，得到注意力特征。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：基于注意力特征和样本特征，生成文字密集特征；利用上下文单元对文字密集特征进行上下文关联，得到增强特征。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：获取注意力特征中每个位置的子特征；获取每个位置的子特征与样本特征的点乘，得到多个位置的密集特征；获取多个位置的密集特征的并集，得到文字密集特征。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程度代码：基于第一识别结果和预设识别结果，生成第一损失函数；基于第二识别结果和预设识别结果，生成第二损失函数；基于第一损失函数和第二损失函数，生成目标损失函数；基于目标损失函数，对识别模型进行训练。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在交互界面中显示目标文本图像，其中，目标文本图像包含多个目标文字；响应于在交互界面中进行的预设操作，利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；在交互界面中显示目标识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收客户端上传的目标文本图像，其中，目标文本图像包含多个目标文字；利用识别模型对目标文本图像进行识别，得到目标文本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到；输出目标识别结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练样本，其中，训练样本包括：训练文本图像和预设识别结果；利用识别模型对训练文本图像进行特征提取，得到样本特征；利用识别模型对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用识别模型分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

实施例11

图12是本申请实施例的一种文本识别方法的流程图，如图12所示，该方法可以包括如下步骤：

步骤S1202，获取目标书本图像。

其中，目标书本图像包含多个目标文字。

上述的目标书本图像中可以是出现笔迹涂抹、像素质量低、书本折叠处文字变形等问题的书本图像。

步骤S1204，利用识别模型对目标书本图像进行识别，得到目标书本图像的目标识别结果。

上述的识别模型可以应用在教育场景中，提高在模糊、形变、光照复杂场景下对目标书本图像的识别能力。

在一种可选的实施例中，可以先检测目标书本图像中的多个目标文字是否出现笔迹涂抹、像素质量低、书本折叠处文字变形等问题，若出现任意一个或多个问题，则可以利用识别模型中的上下文关联信息对目标书本图像中的目标文字进行识别，以便提高对目标书本图像的识别精确度，可选的，可以通过识别模型对目标书本图像中出现质量较低的目标文字的上下文信息对目标文字进行识别。若目标书本图像中的目标文字都是清晰可识别的，则可以通过识别模型直接对目标书本图像中的目标文字进行识别，从而提高识别的速度。

本申请上述实施例中，利用识别模型对目标书本图像进行识别，得到目标书本图像的目标识别结果包括：利用特征提取单元对目标书本图像进行特征提取，得到目标特征；利用分类单元对目标特征进行分类，得到目标识别结果。

本申请上述实施例中，该方法还包括：获取训练样本，其中，训练样本包括：训练书本图像和预设识别结果；利用特征提取单元对训练书本图像进行特征提取，得到样本特征；利用上下文关联模块对样本特征进行上下文关联，生成增强特征，其中，增强特征用于表征训练样本的上下文信息；利用分类单元分别对样本特征和增强特征进行分类，得到样本特征的第一识别结果和增强特征的第二识别结果；基于第一识别结果、第二识别结果和预设识别结果，对识别模型进行训练。

本申请上述实施例中，用上下文关联模块对样本特征进行上下文关联，生成增强特征包括：利用位置编码单元对样本特征进行位置编码，得到位置特征；利用特征对齐单元对样本特征和位置特征进行对齐，得到注意力特征；利用上下文单元对样本特征和注意力特征进行上下文关联，得到增强特征。

实施例12

根据本申请实施例，还提供了一种用于实施上述文本识别的文本识别装置，如图13所示，该装置1300包括：获取模块1302、识别模块1304。

其中，获取模块用于获取目标书本图像，其中，目标书本图像包含多个目标文字；识别模块用于利用识别模型对目标书本图像进行识别，得到目标书本图像的目标识别结果，其中，识别模型通过训练样本和训练样本的上下文信息进行训练所得到。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取训练样本，其中，所述训练样本包括：训练文本图像和预设识别结果；

利用识别模型对所述训练文本图像进行特征提取，得到样本特征；

利用所述识别模型对所述样本特征进行上下文关联，生成增强特征，其中，所述增强特征用于表征所述训练样本的上下文信息，所述增强特征通过对所述样本特征和注意力特征进行上下文关联得到，所述注意力特征通过对样本特征和位置特征进行对齐得到，所述位置特征通过对样本特征对应特征图中多个时间点进行位置编码得到；

利用所述识别模型分别对所述样本特征和所述增强特征进行分类，得到所述样本特征的第一识别结果和所述增强特征的第二识别结果；

基于所述第一识别结果、所述第二识别结果和所述预设识别结果，对所述识别模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述识别模型包括：主干模块和上下文关联模块，所述主干模块包括：依次连接的特征提取单元和分类单元，所述上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，所述上下文关联模块包含的每个单元的输入均与所述特征提取单元的输出连接。

3.根据权利要求2所述的方法，其特征在于，利用所述识别模型对所述样本特征进行上下文关联，生成增强特征包括：

利用所述位置编码单元对所述样本特征进行位置编码，得到位置特征；

利用所述特征对齐单元对所述样本特征和所述位置特征进行对齐，得到注意力特征；

利用所述上下文单元对所述样本特征和所述注意力特征进行上下文关联，得到所述增强特征。

4.根据权利要求3所述的方法，其特征在于，利用所述位置编码单元对所述样本特征进行位置编码，得到位置特征包括：

确定所述样本特征的第一维度，所述位置特征的第二维度；

基于所述第一维度、所述第二维度对所述样本特征中的每个位置进行编码，得到所述位置特征。

5.根据权利要求3所述的方法，其特征在于，利用所述特征对齐单元对所述样本特征和所述位置特征进行对齐，得到注意力特征包括：

将所述样本特征和所述位置特征进行拼接，得到拼接特征；

对所述拼接特征进行对齐操作，得到所述注意力特征。

6.根据权利要求3所述的方法，其特征在于，利用所述上下文单元对所述样本特征和所述注意力特征进行上下文关联，得到所述增强特征包括：

基于所述注意力特征和所述样本特征，生成文字密集特征；

利用所述上下文单元对所述文字密集特征进行上下文关联，得到所述增强特征。

7.一种文本识别方法，其特征在于，包括：

获取目标书本图像，其中，所述目标书本图像包含多个目标文字；

利用识别模型对所述目标书本图像进行识别，得到所述目标书本图像的目标识别结果，其中，所述识别模型通过训练样本和所述训练样本的上下文信息进行训练所得到；

其中，所述方法还包括：

8.一种文本识别方法，其特征在于，包括：

接收客户端上传的目标文本图像，其中，所述目标文本图像包含多个目标文字；

利用识别模型对所述目标文本图像进行识别，得到所述目标文本图像的目标识别结果，其中，所述识别模型通过训练样本和所述训练样本的上下文信息进行训练所得到；

输出所述目标识别结果；

其中，所述方法还包括：

9.一种文本识别方法，其特征在于，包括：

在交互界面中显示目标文本图像，其中，所述目标文本图像包含多个目标文字；

响应于在所述交互界面中进行的预设操作，利用识别模型对所述目标文本图像进行识别，得到所述目标文本图像的目标识别结果，其中，所述识别模型通过训练样本和所述训练样本的上下文信息进行训练所得到；

在所述交互界面中显示所述目标识别结果；

其中，所述方法还包括：

10.一种文本识别方法，其特征在于，包括：

获取目标文本图像，其中，所述目标文本图像包含多个目标文字；

其中，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述识别模型包括：主干模块和上下文关联模块，所述主干模块包括：依次连接的特征提取单元和分类单元，所述上下文关联模块包括：依次连接的位置编码单元、特征对齐单元、注意力单元和上下文单元，其中，所述上下文关联模块包含的每个单元的输入均与所述特征提取单元的输出连接。

12.根据权利要求11所述的方法，其特征在于，利用识别模型对所述目标文本图像进行识别，得到所述目标文本图像的目标识别结果包括：

利用所述特征提取单元对所述目标文本图像进行特征提取，得到目标特征；

利用所述分类单元对所述目标特征进行分类，得到所述目标识别结果。

13.根据权利要求11所述的方法，其特征在于，所述方法还包括：

获取所述训练样本，其中，所述训练样本包括：训练文本图像和预设识别结果；

利用所述特征提取单元对所述训练文本图像进行特征提取，得到样本特征；

利用所述上下文关联模块对所述样本特征进行上下文关联，生成增强特征，其中，所述增强特征用于表征所述训练样本的上下文信息；

利用所述分类单元分别对所述样本特征和所述增强特征进行分类，得到所述样本特征的第一识别结果和所述增强特征的第二识别结果；

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至13中任意一项所述的文本识别方法。

15.一种计算机终端，其特征在于，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至13中任意一项所述的文本识别方法。