CN115273057A

CN115273057A - 文本识别方法、装置和听写批改方法、装置及电子设备

Info

Publication number: CN115273057A
Application number: CN202210919461.3A
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-01

Abstract

本公开提供一种文本识别方法、装置和听写批改方法、装置及电子设备，其中，文本识别方法，包括：接收文本图像；使用神经网络处理该文本图像，以生成文本识别结果，其中，神经网络包括：第一子网络，被配置成处理文本图像，以生成特征映射；第二子网络，被配置成处理特征映射，以生成文本位置检测结果；处理模块，被配置成根据文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；第三子网络，被配置成处理每个子特征映射，以生成中文字识别结果；第四子网络，被配置成处理每个子特征映射，以生成英文单词识别结果。采用本公开，可节省计算资源、提高识别效率和精度。

Description

文本识别方法、装置和听写批改方法、装置及电子设备

技术领域

本发明涉及自然语言处理领域，尤其涉及一种文本识别方法、装置和听写批改方法、装置及电子设备。

背景技术

相关技术中，使用神经网络进行文本识别。对中文或英文分别识别，即训练识别英文的模型和识别中文的模型，通过识别英文的模型识别英文，通过识别中文的模型识别中文。并且，使用文本检测模型进行文本检测，使用文本识别模型进行文本识别。

发明内容

根据本公开的一方面，提供了一种文本识别方法，包括：

接收文本图像；

使用神经网络处理该文本图像，以生成文本识别结果，其中，该神经网络包括：

第一子网络，被配置成处理文本图像，以生成特征映射；

第二子网络，被配置成处理特征映射，以生成文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息；

处理模块，被配置成根据文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；

第三子网络，被配置成处理每个子特征映射，以生成中文字识别结果；

第四子网络，被配置成处理每个子特征映射，以生成英文单词识别结果。

根据本公开的另一方面，提供了一种听写批改方法，包括：

获取听写文本图像，其中，所述听写文本图像包括：中文字和英文单词；

使用神经网络处理听写文本图像，以生成文本识别结果，其中，神经网络包括：第一子网络，被配置成处理文本图像，以生成特征映射；第二子网络，被配置成处理特征映射，以生成文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息；处理模块，被配置成根据文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；第三子网络，被配置成处理每个子特征映射，以生成中文字识别结果；第四子网络，被配置成处理每个子特征映射，以生成英文单词识别结果；

根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。

根据本公开的另一方面，提供了一种文本识别装置，包括：

接收模块，用于接收文本图像；

识别模块，用于使用神经网络处理文本图像，以生成文本识别结果，其中，神经网络包括：

第一子网络，被配置成处理文本图像，以生成特征映射；

根据本公开的另一方面，提供了一种听写批改装置，包括：

获取模块，用于获取听写文本图像，其中，听写文本图像包括：中文字和英文单词；

识别模块，用于使用神经网络处理所述听写文本图像，以生成文本识别结果，其中，神经网络包括：第一子网络，被配置成处理文本图像，以生成特征映射；第二子网络，被配置成处理特征映射，以生成文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息；处理模块，被配置成根据文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；第三子网络，被配置成处理每个子特征映射，以生成中文字识别结果；第四子网络，被配置成处理每个子特征映射，以生成英文单词识别结果；

批改模块，用于根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。

根据本公开的又一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行本公开的方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开的方法。

本申请实施例中提供的一个或多个技术方案，可以实现中英文混合文本图像识别，并且检测与识别使用一个神经网络实现，可节省计算资源、提高识别效率，此外，使用一个神经网络可避免使用多个神经网络时神经网络之间的累计误差，可提高识别精度。并且，根据本文位置检测结果处理文本图像的特征映射，生成与检测到的每个中文字和/或英文单词对应的子特征映射，基于每个中文字和/或英文单词对应的子特征映射识别相应的中文字或英文单词，可实现对包含任意文本位置关系的文本图像的文本识别。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的文本识别方法的流程图；

图2示出了根据本公开示例性实施例的另一文本识别方法的流程图；

图3示出了根据本公开示例性实施例的神经网络的示意性框图；

图4示出了根据本公开示例性实施例的另一神经网络的示意性框图；

图5示出了根据本公开示例性实施例的神经网络的训练方法的流程图；

图6示出了根据本公开示例性实施例的文本检测神经网络的示意性框图；

图7示出了根据本公开示例性实施例的文本识别神经网络的示意性框图；

图8示出了根据本公开示例性实施例的分类神经网络的示意性框图；

图9示出了根据本公开示例性实施例的听写批改方法的流程图；

图10示出了根据本公开示例性实施例的文本识别装置的示意性框图；

图11示出了根据本公开示例性实施例的听写批改装置的示意性框图；

图12示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

首先对本公开实施例的相关技术说明如下。

CenterNet(Objects as Points)和卷积循环神经网络(ConvolutionalRecurrent Neural Networks，简称CRNN)是用于目标检测的方法。其中，CenterNet是一种用于通用目标检测的Anchor-free的方法，可视为基于回归的方法，它的大体思路是，首先设定要预测的物体的总体的类别N，最后输出通道数量为N+2+2，其预测物体的中心点，为每种类别输出一张得分图(其每个像素点的值在0到1之间，表示这个点是某类物体中心的概率)，因此会有N张得分图，因为在预测的过程中，并不能保证预测到的中心点就是真实的中心点，实际中往往会发生偏移，因此还会用两个通道来预测中心点的偏移量(一个是x轴偏移量，一个是y轴偏移量)，除此之外，剩下的两个通道用来预测中心点距离矩形框左边框和上边框的距离，实际的后处理为，通过设定阈值在得分图找到物体的可能中心点，然后根据中心点对应的xy偏移量对中心点进行校正，然后通过中心点并结合预测到的宽高直接得到矩形框。

Resnet是一类自然场景图像分类网络，它有效的解决了当网络模型层数加深以后出现模型性能退化的问题，从而使得网络可以增加层数(加深)进行更加复杂的特征模式提取；它的主要核心是被称为残差块的结构，残差结构主要的特点是跨层跳跃连接，即一个残差块包括多个卷积层，其输入经过残差块之后的输出会与输入进行一次逐通道逐点相加操作，相当于输入有两个分支，一个经过残差块，一个直接快速绕过残差块，最后两个分支合并；Resnet根据卷积层数量有18、34、50、101和152等多个结构，除此之外，还有ResNext等多种变体结构，都能在自然场景图像分类上取得良好效果。

基于深度学习的文本识别技术常见的技术范式为基于CNN的特征提取器，基于RNN的特征强化，建模上下文信息，最后使用基于(Connectionist Temporal Classification，简称为CTC)或者基于注意力(Attention)的方式进行解码，基于CTC的方式能够并行同时解码，速度快，而基于Attention的方法后一个字符解码需要依赖于前一个字符，基本是串行解码，尽管精度高，但速度慢。此外，也有将Transformer结构及其变体直接用于文本识别的方案，但这些方案目前比较小众，而且其速度都比较慢，对于长文本上述方法目前都未能有较好的效果，基于CTC的方法能强行对输出字符和它对应的向量做对齐操作，能在一定程度上利用字符的位置信息，而基于Attention的方法主要利用文本上的内容信息，几乎很难利用到字符位置信息。

Transformer，由编码器和解码器两个部分组成，其中解码器包括多个基础模块一堆叠，其中基础模块主要是由多头自注意力层、跳跃连接、层归一化和前馈神经网络组成，而解码器也是包括多个基础模块二，基础模块二与基础模块一不同的是其包括两层多头自注意力层，Transformer的设计不仅的极大的加快网络训练和推理的时间，更是能有效提升各类任务的精度，其本是用于自然语言理解相关的任务中，但是由于其良好的性能，目前在计算机视觉相关的任务中也被广泛应用，同时在多个任务中取得了相当好的效果。

智能学习台灯和智能学习平板等智能学习设备帮助中小学生提升学习效率，帮助家长减轻作业辅导负担，智能学习设备提供的服务主要可以分为前端功能和后端服务两大部分，前端服务包括查词、语音交互、拍照批改等直面用户的功能，而后端服务则包括错题归纳，题目推荐等一系列服务。

拍照判题是人工智能技术在教育领域的一项重要应用，其大致流程是，用户用手机或平板电脑等终端设备进行拍照，然后上传至拍照判题的应用程序，接着应用程序将图像送入题型判断模型，也称为版面分析模型和文本行检测模型(题型判断模型是一种文本检测模型，它会检测预先指定的题型并将它们用文本框框起来，也就是拿到文本区域坐标)，与此同时，图像进行文本行检测模型，文本行检测模型只检测横向文本行，其大致如下图所示(粉色的框表示版面模型的输出，浅蓝色的框表示文本行检测模型的框输出)；然后会根据版面分析模型和文本行检测模型的检测结果进行版面分析，对框进行合并，同时根据每种题型的特点，分析得到每个题是由那些框组成的，然后根据框的坐标在原图上进行裁剪，将裁剪得到的图像送入识别模型，得到每个题目的内容，然后根据题目内容进行判题，最后将判断结果进行输出。

上述方案可以认为是一种对于任何科目都适用的通用方案，但是对于具体科目的智能批改还是需要根据具体科目的特点做适应性修改和调整，比如对于逻辑可批改的小学数学口算题目，上述方案可以取得比较良好的批改效果，针对无法进行逻辑批改的题目如选择题、应用题、做图题和连线题则需要在此基础上通过建立题库进行比对(专用，建立题库成本较高)或者使用自然语言处理的方法(通用，但技术难度较大)进行批改，批改可以有效减轻家长和老师的作业辅导负担。

以下参照附图描述本公开的方案。该公开的方案可应用于服务器和/或客户端等电子设备，本公开实施例对此不作限定。

本公开示例性实施例提供了一种文本识别方法，可以实现中英文混合文本图像识别，并且检测与识别使用一个神经网络实现，可节省计算资源、提高识别效率，此外，使用一个神经网络可避免使用多个神经网络时神经网络之间的累计误差，可提高识别精度。

图1示出了根据本公开示例性实施例的文本识别方法的流程图，如图1所示，文本识别方法包括步骤S101至步骤S102。

步骤S101，接收文本图像。

步骤S102，使用神经网络处理该文本图像，以生成文本识别结果，其中，文本识别结果包括中文字识别结果和英文单词识别结果。

在一些实施例中，文本识别结果还包括文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息。

中文字可组合成中文词或句。文本图像上可包括中文词和/或中文句。通常，词与词相邻字之间的距离大于词内部字与字之间的距离，句与句相邻字之间的距离大于句内字与字之间的距离。在一些示例性实施例，对于中文字识别结果，根据相邻中文字之间的距离，进一步对中文字进行组合，以得到中文词和/或句。

图2示出了根据本公开示例性实施例的另一文本识别方法的流程图，如图2所示，文本识别方法包括步骤S201至步骤S204。

步骤S201，接收文本图像。

步骤S202，使用神经网络处理该文本图像，以生成文本识别结果和文本位置检测结果，其中，文本识别结果包括中文字识别结果和英文单词识别结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息。

步骤S203，根据文本位置检测结果确定相邻的中文字之间的距离。

步骤S204，根据相邻的中文字之间的距离组合中文字识别结果，得到中文词和/或句。

在一些可能的实施方式中，根据相邻的中文字之间的距离组合中文字识别结果，包括：在相邻的中文字之间的距离小于预设值的情况下，组合相邻的中文字。在以水平方向书写的情况下，相邻是指左右相邻。在以竖直方向书写的情况下，相邻是指上下相邻。本实施例对书写方向不做限定。

在该实施方式中，可预设词与词相邻字之间的距离阈值(预设值)。作为一种示例，该距离阈值可基于统计确定。作为另一种示例，该距离阈值可基于书写规范确定，例如，在带方格的纸张上，词与词相邻字之间至少间隔一个方格，词内部字与字不作间隔，距离阈值可为一个方格的长度。

在一些可能的实施方式中，根据相邻的中文字之间的距离组合中文字识别结果，包括：在中文字与其第一侧中文字之间的第一距离小于与其第二侧中文字之间的第二距离的情况下，将中文字与其第一侧中文字组合；在第一距离大于第二距离的情况下，将中文字与其第二侧中文字组合。在以水平方向书写的情况下，相邻是指左右相邻。在以竖直方向书写的情况下，相邻是指上下相邻。本实施例对书写方向不做限定。

通常，词或句内部字与字之间的任一距离明显小于词之间、句之间的距离。在该实施例方式中，可基于书写规律确定词或句，而不依赖于预设的距离阈值。

图3示出了根据本公开示例性实施例的神经网络的示意性框图，如图3所示，神经网络300包括：第一子网络310、第二子网络320、第三子网络330、第四子网络340和处理模块350。

第一子网络310，被配置成处理文本图像，以生成特征映射，并将特征映射输出给第二子网络320和处理模块350。

在本实施例中，第一子网络310可为进行图像特征提取的任何深度神经网络，例如，卷积神经网络(Convolutional Neural Network，简称为CNN)、循环神经网络(Recurrent Neural Network，简称为RNN)，本实施例对此不作限定。

作为一种实施方式，第一子网络310包括一个或多个残差块。由此，避免当网络模型层数加深以后出现模型性能退化的问题。

第二子网络320，被配置成处理第一子网络310生成的特征映射，以生成文本位置检测结果，并将文本位置检测结果输出给处理模块350，其中，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息。可选地，位置信息包括：每个中文字和/或英文单词的中心点、检测框的宽和高，以及中心点的偏移量。

在本实施例中，第二子网络320可为进行目标检测的任何深度神经网络。例如CenterNet和卷积循环神经网络(Convolutional Recurrent Neural Networks，简称为CRNN)等，本实施例对此不作限定。

以CenterNet为例进行说明。CenterNet是一种用于通用目标检测的Anchor-free的方法，可视为基于回归的方法，其首先设定要预测的物体的总体的类别N，最后输出通道数量为N+2+2，它预测物体的中心点，为每种类别输出一张得分图(其每个像素点的值在0到1之间，表示这个点是某类物体中心的概率)，因此有N张得分图，因为在预测的过程中，并不能保证预测到的中心点就是真实的中心点，实际中往往会发生偏移，因此还用两个通道来预测中心点的偏移量(一个是x轴偏移量，一个是y轴偏移量)，除此之外，剩下的两个通道用来预测中心点距离矩形框左边框和上边框的距离，实际的后处理为，通过设定阈值在得分图找到物体的可能中心点，然后根据中心点对应的x、y偏移量对中心点进行校正，然后通过中心点并结合预测到的宽高直接得到矩形框。

处理模块350，被配置成根据第二子网络320输出的文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射，并将生成的子特征映射输出给第三子网络330和第四子网络340。由此，基于每个中文字和/或英文单词对应的子特征映射识别相应的中文字或英文单词，可实现对任意文本位置关系(一行、多行、弯曲行、倾斜等)的文本图像的文本识别。而相关技术中的处理方法，在文本位置关系较复杂时(例如，不完全位于一行时)存在漏字等问题。

作为一种实施方式，处理模块350，被配置成根据文本图像上每个中文字和/或英文单词的位置信息，从第一子网络310生成的特征映射剪裁与每个中文字和/或英文单词对应的子特征映射。

作为一种示例，文本图像的尺寸为M*N，第一子网络310生成的特征映射为M*N，文本图像上中心点为第30行、第20列、长度为20、宽度为30的中文字，其子特征映射为特征映射上中心点为第30行、第20列、长度为20、宽度为30的部分对应的特征映射。

此外，不同位置的中文字或英文单词的大小不同，其子特征映射的尺寸也不同。可选地，可对子特征映射进行维度变换，以统一子特征映射的尺寸。

第三子网络330，被配置成处理每个子特征映射，以生成中文字识别结果。

在本实施例中，第三子网络330可为基于中文字的特征映射识别中文字的任何网络结构。

作为一种实施方式，第三子网络330，包括：一个或多个卷积层、至少一个自注意力层和至少一个门控循环单元。自注意力可以全面的提取每个中文字或英文单词的上下文特征，门控循环单元可以更好的保留每个特征周围的上下文信息，因此可以更充分有效的提取特征，从而提升每个中文字或英文单词的识别准确性。

在本实施例中，第三子网络330分别处理文本图像上每个子特征映射，以生成每个中文字的识别结果。多个子特征映射可至少部分并行处理，以提高处理速度。

作为一种实施方式，第三子网络330每次接收一个子特征映射，以生成该子特征映射对应的中文字的识别结果。

作为另一种实施方式，第三子网络330包括多个分支，每个分支接收一个子特征映射，每个分支处理其接收的子特征映射，以生成其接收的子特征映射对应的中文字的识别结果。可选地，每个分支具有相同的结构和网络参数。作为一种示例，基于文本图像上字数的最大值，设置分支数，例如，通过文本图像上最多50个字，可设置50个分支。

第四子网络350，被配置成处理每个子特征映射，以生成英文单词识别结果。

在一些可能的实施方式中，第四子网络350为分类神经网络。第四子网络350，处理每个子特征映射，以生成英文单词识别结果包括：根据每个子特征映射，生成每个英文单词对应的编号；根据每个英文单词对应的编号，得到英文单词识别结果，其中，每个英文单词对应于一个编号。

作为一种实施方式，第四子网络350，包括至少两个全连接层。可选地，最后一个全连接层的节点数量为能够识别的英文单词的数量，例如，能够识别的英文单词为500个，最后一个全连接层可包括500个节点。

在本实施例中，第四子网络350分别处理文本图像上每个子特征映射，以生成每个英文单词的识别结果。多个子特征映射可至少部分并行处理，以提高处理速度。

作为一种实施方式，第四子网络350每次接收一个子特征映射，以生成该子特征映射对应的英文单词的识别结果。

作为另一种实施方式，第四子网络350包括多个分支，每个分支接收一个子特征映射，每个分支处理其接收的子特征映射，以生成其接收的子特征映射对应的英文单词的识别结果。可选地，每个分支具有相同的结构和网络参数。作为一种示例，基于文本图像上字数的最大值，设置分支数，例如，通过文本图像上最多50个字，可设置50个分支。

图4示出了根据本公开示例性实施的另一神经网络的示意性框图，如图4所示，神经网络300包括：第一子网络310、第二子网络320、第三子网络330、第四子网络340和处理模块350。

如图4所示，第一子网络310包括两个部分，其中，第一个部分包括一个或多个残差块(residual block)(图中示出为2个)，第二个部分包括多个卷积层(图中示出为4中)和多个反卷积层(图中示出为3个)。第一部分作为特征提取器，以整张文本图像作为输入，输出为一组多通道特征映射；第二部分以第一部分输出作为输入，输出为一组多通道特征映射。

如图4所示，第二子网络320以第一子网络310的第二部分的输出为输入。第二子网络320包括四个分支，其中，第一个分支包括2个卷积层，输出为1通道特征映射，表示中心点得分图；第二个分支包括2个卷积层，输出为2通道特征映射，表示中心点x、y偏移量；第三个分支包括2个卷积层，输出为2通道特征映射，表示中心点对应的检测框的宽高；第四个分支包括2个卷积层，输出为1通道特征映射，表示检测框的倾斜角。

如图4所示，第三子网络330以处理模块350的输出为输入。第三子网络330包括一个或多个卷积层(图4中示出为2个)、至少一个自注意力层和至少一个门控循环单元(GateRecurrent Unit，简称为GRU)。

如图4所示，第四子网络340以处理模块350的输出为输入。第四子网络340包括至少两个全连接层，最后的全连接层的节点数量与英文单词数量一致。

下面对神经网络的训练方法进行描述。

图5示出了根据本公开示例性实施例的神经网络的训练方法的流程图，如图5所示，神经网络的训练方法包括步骤S501至步骤S502。

步骤S501，获取第一训练数据，其中第一训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字及其位置信息，和/或文本图像上每个英文单词的位置信息及英文单词内容，其中，英文单词内容包括英文单词和英文单词对应的编号中的至少一个，在英文单词内容为英文单词对应的编号时，每个英文单词对应于一个编号。

在本示例性实施例中，至少部分文本图像上包括中文字，至少部分文本图像上包括英文单词，至少部分文本图像上包括中文字和英文单词。

在本示例性实施例中，因为英语单词包含多个字符，直接转录成较高，而英文单词的数量有限，因此直接标注其数字编号，可降低标注成本。示例性的，在英语单词听写应用中，小学英语词汇量可能为600-700个单词，大学英语四级词汇量可能为4500个单词。

步骤S502，使用第一训练数据训练神经网络。

在一些可能的实施方式中，为了提高训练速度，使用第一训练数据训练神经网络之前，还包括：预训练第一子网络和第二子网络。第一子网络和第二子网络组成文本检测神经网络。预训练第一子网络和第二子网络，包括：

获取第二训练数据，其中，第二训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字的位置信息，和/或文本图像上每个英文单词的位置信息；

使用第二训练数据训练第一子网络和第二子网络组成的神经网络，其中，第一子网络和第二子网络组成的神经网络被配置为处理文本图像以生成文本图像上每个中文字和/或英文单词的位置信息。

在训练中，总体损失为三个输出的损失值之和，其中，中文字识别部分和英文单词识别部分的损失值权重系数大于位置信息的权重系数，例如，中文字识别部分和英文单词识别部分的损失值权重系数为10，位置信息的权重系数为1。

作为一种示例，如图6所示，第一子网络和第二子网络组成的神经网络包括：三个部分，其中，第一个部分包括一个或多个残差块(residual block)(图中示出为2个)，第二个部分包括多个卷积层(图中示出为4中)和多个反卷积层(图中示出为3个)。第一部分和第二部分对应于第一子网络。第一部分作为特征提取器，以整张文本图像作为输入，输出为一组多通道特征映射；第二部分以第一部分输出作为输入，输出为一组多通道特征映射。第三部分以第二部分的输出为输入。第三部分对应于第二子网络。第三部分包括四个分支，其中，第一个分支包括2个卷积层，输出为1通道特征映射，表示中心点得分图；第二个分支包括2个卷积层，输出为2通道特征映射，表示中心点x、y偏移量；第三个分支包括2个卷积层，输出为2通道特征映射，表示中心点对应的检测框的宽高；第四个分支包括2个卷积层，输出为1通道特征映射，表示检测框的倾斜角。

在训练过程中，损失函数为：第一分支使用Focal Loss，第二分支、第三分支、第四分支均使用L1 Loss损失函数，整体损失函数为四个损失值之和。训练得到第一部分和第二部分(对应于第一子网络)，以及第三部分(对应于第二子网络)的网络参数。后续训练中，第一子网络和第二子网络以训练得到的网络参数为初始参数。

在一些可能的实施方式中，为了提高训练速度，使用第一训练数据训练神经网络之前，还包括：预训练第三子网络。第三子网络组成文本识别神经网络。预训练第三子网络包括：

获取第三训练数据，其中，第三训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字及其位置信息；

使用第三训练数据训练包括第三子网络的神经网络，其中，包括第三子网络的神经网络被配置为处理文本图像以生成文本图像上每个中文字的识别结果。

作为一种示例，如图7所示，构建一个基于注意力(Attention)的识别模型，它包括三个部分，第一部分使用一个或多个残差块(Resnet18)提取输入图像的特征映射，第二部分使用两层双向LSTM，第三部分使用至少一个自注意力层和至少一个GRU单元(对应于第三子网络)，使用第三训练数据进行训练(训练过程跟序列识别一样，这样可以更有效的利用上下文信息)。训练得到至少一个自注意力层和至少一个GRU单元的网络参数。后续训练中，第三子网络以训练得到的网络参数为初始参数。

在一些可能的实施方式中，为了提高训练速度，使用第一训练数据训练神经网络之前，还包括：预训练第四子网络。第四子网络组成分类神经网络。预训练第四子网络包括：

获取第四训练数据，其中，第四训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个英文单词的位置信息及英文单词内容，其中，英文单词内容包括英文单词和英文单词对应的编号中的至少一个，在英文单词内容为英文单词对应的编号时，每个英文单词对应于一个编号；

使用第四训练数据训练包括第四子网络的神经网络，其中，包括第四子网络的神经网络被配置为处理文本图像以生成文本图像上每个英文单词的识别结果。

作为一种示例，如图8所示，使用Resnet18构建一个分类模型，通过分类对英文单词进行识别。该分类模型中，CNN之后接两个全连接层(对应于第四子网络)，最后的全连接层数量与英文单词数量一致，它以第四训练数据为训练集，使用多分类交叉熵损失函数。后续训练中，以第四子网络以训练得到网络参数为初始网络参数。

根据本公开示例性实施例还提供了一种听写批改方法。应当理解，本公开示例性实施例的文本识别方法并不限于应用在听写批改中，本实施例对此不作限定。

图9示出了根据本公开示例性实施例的听写批改方法的流程图，如图9所示，听写批改方法包括步骤S901至步骤S903。

步骤S901，获取听写文本图像，其中，听写文本图像包括：中文字和英文单词。

示例性的，听写内容可包括小学语文字、词和小学英语单词，语文的字、词主要以单字，两个字的词为主，还可包括少量4字成语和7字古诗，而英语的每个单词都包括多个字母。因此在智能设备朗读结束，获得听写文本图像。

步骤S902，使用神经网络处理听写文本图像，以生成文本识别结果。

其中，神经网络包括：

第一子网络，被配置成处理文本图像，以生成特征映射；第二子网络，被配置成处理特征映射，以生成文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息；

处理模块根据第二子网络输出的文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射，并将生成的子特征映射输出给第三子网络和第四子网络。由此，基于每个中文字和/或英文单词对应的子特征映射识别相应的中文字或英文单词，可实现对任意文本位置关系(一行、多行、弯曲行、倾斜等)的文本图像的文本识别。而相关技术中的处理方法，在文本位置关系较复杂时(例如，不完全位于一行时)存在漏字等问题。

示例性的，学生在听写时存在：一句话中多个字不完全位于一行、一个词中多个字不完全位于一行、英文单词之间不完全唯一行、不完全按照分行方式书写等情况。基于每个中文字和/或英文单词对应的子特征映射识别相应的中文字或英文单词，可实现对这种不规范的书写方式的文本图像的文本识别。

步骤S903，根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。

通过本示例性实施例，可以实现中英文混合听写文本图像识别，并且检测与识别使用一个神经网络实现，可节省计算资源、提高识别效率，可降低对硬件性能的要求。此外，使用一个神经网络可避免使用多个神经网络时神经网络之间的累计误差，可提高识别精度。

听写内容包括中文词和/或句，在一些可能的实施方式中，根据中文字识别结果和英文单词识别结果对听写文本图像进行批改，包括：

根据文本位置检测结果确定相邻的中文字之间的距离；

根据相邻的中文字之间的距离组合中文字识别结果，得到中文词和/或句；

根据中文词和/或句、以及英文单词识别结果对听写文本图像进行批改。

示例性的，根据中文词和/或句、以及英文单词识别结果对听写文本图像进行批改，包括将听写内容与中文词和/或句、以及英文单词识别结果进行比较，以确定听写是否正确。

在一些可能的实施方式中，根据相邻的中文字之间的距离组合中文字识别结果，包括：

在相邻的中文字之间的距离小于预设值的情况下，组合相邻的中文字。

在中文字与其第一侧中文字之间的第一距离小于与其第二侧中文字之间的第二距离的情况下，将中文字与其第一侧中文字组合；在第一距离大于第二距离的情况下，将中文字与其第二侧中文字组合。

在一些可能的实施方式中，神经网络的训练方法包括：

获取训练数据，其中所述训练数据包括：多个听写文本图像及其标注信息，其中，每个听写文本图像的标注信息包括：听写文本图像上每个中文字及其位置信息，和/或听写文本图像上每个英文单词的位置信息及英文单词内容，其中，英文单词内容包括英文单词和英文单词对应的编号中的至少一个，在英文单词内容为英文单词对应的编号时，每个英文单词对应于一个编号；

使用训练数据训练神经网络。

下面对本示例性实施例的神经网络及其训练方法的一个示例进行描述。

首先收集大量的小学生听写的作业图像，然后人工对其进行标注，对于语文字词，对于每个单字进行拉框，同时标注单字的内容，对于错别字则统一标注成“EW”；因为英语单词包含多个字符，直接转录成本较高，听写的英语单词有限，所以先对每个英语单词给一个数字编号，对于英语单词，先整体拉框，直接标注其数字编号，对于错误单词，使用字母编号“EW”；以检测标注(即框的坐标信息)作为数据集一，以识别标注(字符的转录信息)作为数据集二。

接着构建一个基于Centernet思路的检测模型，它包括三个部分，第一部分使用Resnet18作为特征提取器，它以整张图像作为输入，输出为一组多通道特征映射；第二部分包括4个卷积层和3个反卷积层，它以第一部分输出作为输入，输出为一组多通道特征映射；第三部分以第二部分的输出作为输入，包括4个分支，第一个分支包括2个卷积层，输出为1通道特征映射，表示中心点得分图，第二个分支包括2个卷积层，输出为2通道特征映射，表示中心点x、y偏移量，第三个分支包括2个卷积层，输出为2通道特征映射，表示中心点对应的检测框的宽高，第四个分支包括2个卷积层，输出为1通道特征映射，表示检测框的倾斜角。与Centernet相同，在训练过程中，使用数据集一作为训练集，损失函数则为第一分支对应Focal Loss，第二分支、第三分支、第四分支均使用L1 Loss损失函数，整体损失函数为四个损失值之和，等到训练结束，得到模型。

接着使用Resnet18构建一个分类模型，CNN之后接两个全连接层，最后的全连接层数量与英文单词数量一致，它以数据集二中的英文单词数据作为训练集，使用多分类交叉熵损失函数，训练结束，得到一个英文单词分类模型。这里相当于通过分类对英文单词进行识别。

接着构建一个基于Attention的识别模型，它包括三个部分，第一部分使用Resnet18提取输入图像特征，第二部分使用两层双向LSTM，第三部分使用一个自注意力层和一个GRU单元，使用数据集二中的中文字、词对模型进行训练，训练过程跟序列识别一样，这样可以更有效的利用上下文信息。训练结束得到识别模型。

基于上述模型，构建一个检测识别端到端的模型，它包括5个部分，第一二三部分使用上述检测模型的部分，第四部分使用两个卷积层和上述英文单词分类模型的两个全连接层，第四部分与第三部分并行，其输入为第二部分输出，两者之间在正常使用时会有一个衔接变换过程，第五部分与与第三部分并行，使用2个卷积层和上述中文单字识别模型的第三部分，其输入为第二部分输出，两者之间有一个衔接变换过程。接着利用标注数据集一和二对新模型继续微调训练，输入为听写大图，经过第一二三部分得到识别结果，然后根据识别结果在第二部分的输出上进行具体检测框特征裁剪，然后组织特征(即，变换维度)，然后分别送入第四和第五部分。这里训练的时候，检测框特征裁剪使用标注信息，正常使用时使用预测到的框信息，总体loss为三个输出的loss值之和，其中语文单字识别部分和英文单词识别部分的loss值前乘上系数10。

训练结束，正常使用时，智能设备朗读，使用者书写，接着拍照得到图像，然后经过模型，得到检测和识别结果，接着如果是中文，则根据检测框中心点之间距离(这里预先设置，比如小于40像素)合并框得到词，对于英文，直接得到单词识别结果，接着根据听写内容进行批改，得到批改结果，提升使用者改正错误听写内容。

本公开示例性实施例还提供了一种文本识别装置。

图10示出了根据本公开示例性实施例的文本识别装置的示意性框图，如图10所示，包括：

接收模块1010，用于接收文本图像；

识别模块1020，用于使用神经网络处理文本图像，以生成文本识别结果。

其中，神经网络包括：

第一子网络，被配置成处理文本图像，以生成特征映射；

神经网络可能的实施方式及其训练方法参见本公开前述说明，在此不做赘述。

中文字可组合成中文词或句。文本图像上可包括中文词和/或中文句。通常，词与词相邻字之间的距离大于词内部字与字之间的距离，句与句相邻字之间的距离大于句内字与字之间的距离。在一些示例性实施例，还包括：组合模块，用于对于中文字识别结果，根据相邻中文字之间的距离，进一步对中文字进行组合，以得到中文词和/或句。

在一些可能的实施方式中，组合模块，用于根据相邻的中文字之间的距离组合中文字识别结果，具体包括：在相邻的中文字之间的距离小于预设值的情况下，组合相邻的中文字。在以水平方向书写的情况下，相邻是指左右相邻。在以竖直方向书写的情况下，相邻是指上下相邻。本实施例对书写方向不做限定。

在一些可能的实施方式中，组合模块，用于根据相邻的中文字之间的距离组合中文字识别结果，具体包括：在中文字与其第一侧中文字之间的第一距离小于与其第二侧中文字之间的第二距离的情况下，将中文字与其第一侧中文字组合；在第一距离大于第二距离的情况下，将中文字与其第二侧中文字组合。在以水平方向书写的情况下，相邻是指左右相邻。在以竖直方向书写的情况下，相邻是指上下相邻。本实施例对书写方向不做限定。

本公开示例性实施例还提供了一种听写批改装置。

图11示出了根据本公开示例性实施例的听写批改装置的示意性框图，如图11所示，包括：获取模块1110、识别模块1120和批改模型1130。

获取模块1110，用于获取听写文本图像，其中，听写文本图像包括：中文字和英文单词。

识别模块1120，用于使用神经网络处理所述听写文本图像，以生成文本识别结果。

其中，神经网络包括：第一子网络，被配置成处理文本图像，以生成特征映射；第二子网络，被配置成处理特征映射，以生成文本位置检测结果，文本位置检测结果为文本图像上每个中文字和/或英文单词的位置信息；处理模块，被配置成根据文本位置检测结果处理特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；第三子网络，被配置成处理每个子特征映射，以生成中文字识别结果；第四子网络，被配置成处理每个子特征映射，以生成英文单词识别结果。

批改模块1130，用于根据中文字识别结果和英文单词识别结果对听写文本图像进行批改。

听写内容包括中文词和/或句，在一些可能的实施方式中，批改模块1130具体用于：

根据文本位置检测结果确定相邻的中文字之间的距离；

在一些可能的实施方式中，批改模块1130，用于根据相邻的中文字之间的距离组合中文字识别结果，具体包括：

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图12，现将描述可以作为本公开的服务器或客户端的电子设备1200的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，电子设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储电子设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

电子设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206、输出单元1207、存储单元1208以及通信单元1209。输入单元1206可以是能向电子设备1200输入信息的任何类型的设备，输入单元1206可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1207可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1208可以包括但不限于磁盘、光盘。通信单元1209允许电子设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法、听写批改方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到电子设备1200上。在一些实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法、听写批改方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本识别方法，其特征在于，包括：

接收文本图像；

使用神经网络处理所述文本图像，以生成文本识别结果，其中，所述神经网络包括：

第一子网络，被配置成处理所述文本图像，以生成特征映射；

第二子网络，被配置成处理所述特征映射，以生成文本位置检测结果，所述文本位置检测结果为所述文本图像上每个中文字和/或英文单词的位置信息；

处理模块，被配置成根据所述文本位置检测结果处理所述特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；

第三子网络，被配置成处理每个所述子特征映射，以生成中文字识别结果；

第四子网络，被配置成处理每个所述子特征映射，以生成英文单词识别结果。

2.如权利要求1所述的文本识别方法，其特征在于，所述根据所述文本位置检测结果处理所述特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射，包括：

根据所述文本图像上每个中文字和/或英文单词的位置信息，从所述第一子网络生成的所述特征映射剪裁与每个中文字和/或英文单词对应的子特征映射。

3.如权利要求1所述的文本识别方法，其特征在于，所述第三子网络，包括：一个或多个卷积层、至少一个自注意力层和至少一个门控循环单元。

4.如权利要求1所述的文本识别方法，其特征在于，所述第四子网络为分类神经网络，所述处理每个所述子特征映射，以生成英文单词识别结果，包括：

根据每个子特征映射，生成每个英文单词对应的编号；

根据每个英文单词对应的编号，得到所述英文单词识别结果，其中，每个英文单词对应于一个编号。

5.如权利要求4所述的文本识别方法，其特征在于，所述第四子网络，包括：至少两个全连接层。

6.如权利要求1至5中任一项所述的文本识别方法，其特征在于，所述神经网络的训练方法包括：

获取第一训练数据，其中，所述第一训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字及其位置信息，和/或文本图像上每个英文单词的位置信息及英文单词内容，其中，英文单词内容包括英文单词和英文单词对应的编号中的至少一个，在所述英文单词内容为英文单词对应的编号时，每个英文单词对应于一个编号；

使用所述第一训练数据训练所述神经网络。

7.如权利要求6所述的文本识别方法，其特征在于，使用所述第一训练数据训练所述神经网络之前，还包括：

获取第二训练数据，其中所述第二训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字的位置信息，和/或文本图像上每个英文单词的位置信息；

使用所述第二训练数据训练所述第一子网络和所述第二子网络组成的神经网络，其中，所述第一子网络和所述第二子网络组成的神经网络被配置为处理文本图像以生成文本图像上每个中文字和/或英文单词的位置信息。

8.如权利要求6所述的文本识别方法，其特征在于，使用所述第一训练数据训练所述神经网络之前，还包括：

获取第三训练数据，其中，所述第三训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个中文字及其位置信息；

使用所述第三训练数据训练包括所述第三子网络的神经网络，其中，所述包括所述第三子网络的神经网络被配置为处理文本图像以生成文本图像上每个中文字的识别结果。

9.如权利要求6所述的文本识别方法，其特征在于，使用所述第一训练数据训练所述神经网络之前，还包括：

获取第四训练数据，其中，所述第四训练数据包括：多个文本图像及其标注信息，其中，每个文本图像的标注信息包括：文本图像上每个英文单词的位置信息及英文单词内容，其中，英文单词内容包括英文单词和英文单词对应的编号中的至少一个，在所述英文单词内容为英文单词对应的编号时，每个英文单词对应于一个编号；

使用所述第四训练数据训练包括所述第四子网络的神经网络，其中，所述包括所述第四子网络的神经网络被配置为处理文本图像以生成文本图像上每个英文单词的识别结果。

10.一种听写批改方法，其特征在于，包括：

利用神经网络根据权利要求1至9任一所述的文本识别方法识别所述听写文本图像，生成文本识别结果；

根据所述中文字识别结果和所述英文单词识别结果对所述听写文本图像进行批改。

11.一种文本识别装置，其特征在于，包括：

接收模块，用于接收文本图像；

识别模块，用于使用神经网络处理所述文本图像，以生成文本识别结果，其中，所述神经网络包括：

12.一种听写批改装置，其特征在于，包括：

获取模块，用于获取听写文本图像，其中，所述听写文本图像包括：中文字和英文单词；

识别模块，用于使用神经网络处理所述听写文本图像，以生成文本识别结果，其中，所述神经网络包括：第一子网络，被配置成处理所述文本图像，以生成特征映射；第二子网络，被配置成处理所述特征映射，以生成文本位置检测结果，所述文本位置检测结果为所述文本图像上每个中文字和/或英文单词的位置信息；处理模块，被配置成根据所述文本位置检测结果处理所述特征映射，以生成与检测到的每个中文字和/或英文单词对应的子特征映射；第三子网络，被配置成处理每个所述子特征映射，以生成中文字识别结果；第四子网络，被配置成处理每个所述子特征映射，以生成英文单词识别结果；

批改模块，用于根据所述中文字识别结果和所述英文单词识别结果对所述听写文本图像进行批改。

13.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-10中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。