CN112598000A

CN112598000A - 题目识别方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112598000A
Application number: CN202110235866.0A
Authority: CN
Inventors: 秦勇; 杨家博
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-03
Filing date: 2021-03-03
Publication date: 2021-04-02

Abstract

本申请实施例提供了一种题目识别方法、装置、电子设备及计算机存储介质，该题目识别方法包括：获取包含题目的目标图像；将目标图像输入预先训练完成的检测模型，得到题目的题目区域和题目中的文本区域；通过预先训练完成的编码器模型，对题目区域的图像部分进行编码，获得题目的编码向量，相较于利用题目类型识别模型对题目类型进行识别的方案，基于编码向量与预存的多种题目类型特征向量的匹配结果，获得题目的题目类型信息，提高了题目类型信息的准确性；基于题目中的文本区域进行文本识别，得到文本识别结果；根据题目类型信息和文本识别结果，进行题目构建，获得与目标图像中的题目对应的构建题目，提高了识别效率、降低了识别成本。

Description

题目识别方法、装置、电子设备及计算机存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种题目识别方法、装置、电子设备及计算机存储介质。

背景技术

随着在线教育的快速发展，众多教学辅助类产品应运而生。在教学过程中，上述产品可以为老师提供技术支持，减轻老师的工作量，例如：可以实现题目的自动批改、题目搜索等。通过对包含题目的图像进行题目识别，是实现题目批改、题目讲解等的基础。

现有技术中在对题目进行题目识别时，利用题目类型识别模型对图像中题目的题型进行区分，将与题型对应的题目用文本框框起来，从而确定题目的题型，然后结合横向文本行检测结果对文本框进行合并，以对题目中的题目内容进行后续处理。

然而，在根据题目类型识别模型对题目类型进行识别的方案中，当图像中出现新的题目类型时，需要重新收集新的题目类型相关的训练样本，同时还需要对这些训练样本进行标注，对题目类型识别模型进行重新训练，题目识别效率低下且成本较高。

发明内容

有鉴于此，本申请实施例提供一种题目识别方法、装置、电子设备及计算机存储介质，用以克服现有技术中存在的题目识别效率低且成本高的缺陷。

第一方面，本申请实施例提供了一种题目识别方法，所述方法包括：获取包含题目的目标图像；将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域；通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，基于所述编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息；基于所述题目中的文本区域进行文本识别，得到文本识别结果；根据所述题目类型信息、所述文本识别结果，进行题目构建，获得与所述目标图像中的题目对应的构建题目。

第二方面，本申请实施例提供了一种题目识别装置，所述装置包括：获取模块，用于获取包含题目的目标图像；检测模块，用于将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域；匹配模块，用于通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，基于所述编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息；识别模块，用于基于所述题目中的文本区域进行文本识别，得到文本识别结果；构建模块，用于根据所述题目类型信息、所述文本识别结果，进行题目构建，获得与所述目标图像中的题目对应的构建题目。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行如第一方面或第一方面的任意一个实施例中所述的题目识别方法对应的操作。

第四方面，本申请实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第一方面的任意一个实施例中所述的题目识别方法。

本申请实施例提供的题目识别方案，获取包含题目的目标图像；将目标图像输入预先训练完成的检测模型，得到题目的题目区域和题目中的文本区域；通过预先训练完成的编码器模型，对题目区域的图像部分进行编码，获得题目的编码向量，在进行编码时与题目类型信息无关，弱化了题目类型的定义，不管什么题目类型，仅需要对题目区域的图像部分进行编码即可，即使出现新的题目类型，也不需要对编码器模型进行重新训练。进而，基于编码向量与预存的多种题目类型特征向量的匹配结果，获得题目的题目类型信息，相较于根据题目类型识别模型对题目类型进行识别的方案，本申请通过利用编码器模型进行编码，根据编码向量的匹配结果获得题目类型信息，不依赖于题目类型识别模型，提高了题目类型信息的准确性。基于题目中的文本区域进行文本识别，得到文本识别结果；根据题目类型信息和文本识别结果，进行题目构建，获得与目标图像中的题目对应的构建题目。当出现新的题目类型时，本申请实施例题目识别方法无需重新收集新的题目类型相关的训练样本，对这些训练样本进行标注，重新对题目类型识别模型进行训练，提高了识别效率、降低了识别成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种题目识别方法的流程图；

图2为本申请实施例提供的一种题目类型的示意图；

图3为本申请实施例提供的一种文本识别结果的示意图；

图4为本申请实施例提供的一种变分自编码器模型的结构示意图；

图5为本申请实施例提供的另一种题目识别方法的流程图；

图6为本申请实施例提供的一种题目识别装置的结构框图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

需要说明的是，本申请中的目标只是为了表示单数概念，而不用于限制，不是特指某一个，例如，目标图像。本申请中的第一和第二只是为了区分名称，并不代表顺序关系，不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量，例如，第一检测分支、第二检测分支、第三检测分支，第一损失值、第二损失值、第三损失值、第四损失值，第一训练图像样本、第二训练图像样本。本申请中多个指两个及两个以上，例如，多个题目相似度。

下面结合附图进一步说明本申请实施例具体实现。

实施例一、

本申请实施例一提供一种题目识别方法，如图1所示，图1为本申请实施例提供的一种题目识别方法的流程图，该题目识别方法包括以下步骤：

步骤S101、获取包含题目的目标图像。

本申请实施例中的题目识别方法可适用于各种类型题目的识别，例如，数学作业中较为常见的：普通横式计算题、为使计算简便而在计算过程中列一道竖直式子的竖式计算题、把计算过程完整写出来的脱式计算题（也叫递等式计算题）等；又如，较为特殊的：树状计算题、运算变式题等。如图2所示，图2为本申请实施例提供了一种题目类型的示意图，图2中列出了2.1-2.6的示意图，包括了6种不同题目类型的题目。可选地，本申请中的题目可以是逻辑运算题目，包括各种逻辑可批改的常规题型和非常规题型。

步骤S102、将目标图像输入预先训练完成的检测模型，得到题目的题目区域和题目中的文本区域。

题目的题目区域表示目标图像中整个题目所在的区域，题目区域可以包括组成一道题目的所有题干部分，或者，题目区域可以包括题目中的题干部分以及进行作答之后的答案部分；题目中的文本区域表示目标图像中文本行对应的文本区域。如图3所示，图3为本申请实施例提供的一种文本识别结果的示意图，图3中3.1表示题目中的文本区域，3.2表示题目的题目区域，其中，题目中的文本区域也就是题目中文本行对应的文本区域。该文本行对应的文本区域中可以包括打印体文本的文本区域，也可以包括手写体文本的文本区域，也可以包括打印体文本的文本区域和手写体文本的文本区域，对此本申请不做限制，只要文本行对应的文本区域即可。

检测模型可以是任意适当的、能够检测得到题目的题目区域和题目中的文本区域的神经网络模型，对于采用的检测模型的具体结构，此处不做限定。

步骤S103、通过预先训练完成的编码器模型，对题目区域的图像部分进行编码，获得题目的编码向量，基于编码向量与预存的多种题目类型特征向量的匹配结果，获得题目的题目类型信息。

本申请中的编码器模型可以是任意适当的、包括编码器和解码器部分的编码器模型，包括但不限于变分自编码器(Variational Auto-Encoder，简称VAE)、生成对抗网络(Generative Adversarial Networks，简称GAN)、回归模型(regression model)等，对此本申请不做限制。编码器模型在训练完成后，即可实现相应的编码功能。具体到本申请实施例，可以实现对题目区域的图像部分的数据进行编码，生成编码向量的功能。

该编码向量可以是高维向量，可以是某种分布的参数，也可以是特征图等。其中，高维向量可以理解为多维向量，可以有效表征题目的题目特点。虽然，将题目区域的图像部分输入预先训练完成的编码器模型时，其未携带任何有题目类型有关的信息，但通过编码器模型得到的编码向量却能够携带足够地表征题目特点的信息。基于此，将编码向量与预存的多种题目类型特征向量进行匹配，其中，题目类型特征向量中包括多种可表征题目类型的已知的特征向量，这些特征向量同样基于图像特征获得，例如，上述图2中的8种题目类型的题目对应8种题目类型特征向量，因此，通过图像特征的比对，可确定目标图像中题目的题目类型。

本示例中在进行编码时与题目类型信息无关，将题目区域的图像部分转化为编码向量，例如，有100个题目区域的图像部分，则得到100个编码向量，弱化了题目类型的定义。不管出现什么题目类型，仅需要对题目区域的图像部分进行编码即可，在处理非常规题型时，或者出现新的题目类型，也不需要对编码器模型进行重新训练，有效减少开发工作量，提高开发效率，节约开发成本。

在根据题目类型识别模型对题目类型进行识别的方案中，在出现新的题目类型时，需要收集新的题目类型相关的训练样本，同时还需要对这些训练样本进行标注，重新对题目类型识别模型进行训练。题目类型识别模型是神经网络模型，新的题目类型比较少见，一本习题册可能就只有几个，对于需要大量训练样本的神经网络模型来说，数据收集非常困难，利用题目类型识别模型的方案依然只能在费时费力的情况下解决常见的题目类型，无法解决所有的特殊题目类型。也就是说题目类型识别模型的方案存在如下问题：一旦增加新的题目类型需要重新训练题目类型识别模型；特殊题目类型的数据少，难以收集，且标注费用较高，提高了模型训练的成本。因此相较于根据题目类型识别模型对题目类型进行识别的方案，本申请通过利用编码器模型进行编码，将该编码向量与预存的多种题目类型特征向量进行匹配，得到匹配结果，从而获得题目的题目类型信息，弱化题目类型的定义。在处理非常规题型时，或者出现新的题目类型，仅需要对题目区域的图像部分进行编码即可，不需要对编码器模型进行重新训练，有效减少了开发工作量，提高开发效率，同时，节约开发成本。

步骤S104、基于题目中的文本区域进行文本识别，得到文本识别结果。

可选地，文本识别结果表示题目中文本行的文本识别结果。

本申请实施例中，步骤S103和步骤S104的执行顺序不做限定，可以理解的是，为了提高题目识别的速度，还可以并行执行题目类型匹配操作和文本识别操作，以分别获得对应的题目类型信息和对应的文本识别结果。

步骤S105、根据题目类型信息和文本识别结果，进行题目构建，获得与目标图像中的题目对应的构建题目。

根据步骤S103中获得的题目类型信息，以及步骤S104中获得的文本识别结果，根据文本识别结果确定该题目中哪些文本区域为根节点区域，哪些文本区域为子节点区域。然后再根据题目类型信息对应的运算规则，确定子节点和根节点之间的关系，结合上述得到的文本识别结果进行题目构建，获得与目标图像中的题目对应的构建题目。

示例性地，根据题目类型信息以及文本识别结果，确定该题目中哪些文本区域为根节点区域，哪些文本区域为子节点区域的一个具体示例如下。以树状计算题为例进行说明，示例地，在步骤103中得到了题目中的文本区域；在步骤103中获得了目标图像中题目的题目类型为树状计算题，同时，也得到了题目的文本识别结果，可以先根据题目中的文本区域，确定出该树状计算题中，哪些文本区域为根节点区域，哪些文本区域为子节点区域；接下来再根据树状计算题的运算规则：子节点之和等于根节点，结合上述得到的文本识别结果进行题目构建，获得与目标图像中的题目对应的构建题目。

本申请实施例中，先通过检测模型得到题目的题目区域和题目中的文本区域。再利用编码器模型，对题目区域的图像部分进行编码，获得题目的编码向量，在进行编码时与题目类型信息无关，弱化了题目类型的定义。基于编码向量与预存的多种题目类型特征向量的匹配结果，获得题目的题目类型信息，再对题目中的文本区域进行文本识别，得到文本识别结果。根据题目类型信息、文本区域以及文本识别结果进行题目构建，最终自动获得构建题目，完成对题目的识别过程。与现有技术相比，当出现新的题目类型时，本申请实施例题目识别方法无需重新收集新的题目类型相关的训练样本，对这些训练样本进行标注，重新对题目类型识别模型进行训练，因此，提高了题目识别的效率、降低了识别成本。

本实施例的题目识别方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、PC机、甚至高性能的移动终端等。

实施例二、

本申请实施例二基于实施例一的方案，可选地，在本申请的一种实施例中，其中的步骤S103可以实现为以下步骤S103a和步骤S103b。

步骤S103a、根据题目区域，对目标图像进行截图，获得题目区域的图像部分。

在利用编码器模型进行编码之前，先根据题目区域对目标图像进行截图，获得题目区域的图像部分，再对题目区域的图像部分进行编码，可以避免因将目标图像中除题目区域之外的其他无关区域也输入编码器模型，而造成的向量编码中数据计算量较大，效率较低的问题。

步骤S103b、将题目区域的图像部分输入预先训练完成的编码器模型，得到题目的编码向量。

可选地，在本申请的一种实施例中，编码器模型为变分自编码器模型。

如图4所示，图4为本申请实施例提供的一种变分自编码器模型的结构示意图，变分自编码器是一种生成式模型，包括编码器和解码器，可选地，编码器由8层卷积构成，解码器由8层反卷积构成，编码器的每层特征跳连至解码器的反卷积对应层（U-Net结构）。将输入图像通过编码器进行编码，得到编码向量，再将编码向量输入解码器，进行解码，得到输出图像，输出图像和输入图像相同。虽然变分自编码器输出的生成图像的质量，往往不如生成对抗网络和回归模型，但是，该输出图像与输入图像极为相似，可以用于还原输入的原始图像，相较于其他的生成式模型，变分自编码器的训练更稳定，而且速度更快。

可选地，在本申请的一种实施例中，其中的步骤S104可以实现为以下步骤S104a和步骤S104b。

步骤S104a、计算题目的编码向量与预存的多种题目类型特征向量之间的题目相似度，得到该题目区域对应的多个题目相似度。

本申请中的题目相似度表征两个题目之间的题目类型的相似度。以编码向量是多维向量为例进行说明，本示例在进行编码向量之间的相似度匹配时，题目相似度可以用余弦距离进行表示，通过计算题目的编码向量与题目类型特征向量之间的余弦距离，获得题目相似度，余弦相似度的计算方式简单，并可以清楚地表明向量之间的相似程度。可以理解的是，该题目相似度也可以是欧式距离表示的相似度，也可以是范数表示的相似度，对此本申请不做限制。

步骤S104b、若多个题目相似度中包括大于预设相似度的题目相似度，则将多个题目相似度中最大题目相似度对应的题目类型特征向量的题目类型信息，确定为题目的题目类型信息。

预设相似度可以由本领域技术人员根据经验或者实际情况进行设定。若多个题目相似度中包括大于预设相似度的题目相似度，说明预存的多种题目类型特征向量中存在与该题目的题目类型信息相似的可能性比较大。本示例中将最大题目相似度对应的题目类型特征向量的题目类型信息，确定为题目的题目类型信息，提高了题目的题目类型信息的准确性。

步骤S104c、若多个题目相似度均小于或等于预设相似度，则将题目的编码向量加入预存的多种题目类型特征向量中。

若多个题目相似度均小于或等于预设相似度，说明预存的多种题目类型特征向量中存在与该题目的题目类型信息相似的可能性比较小，该题目的题目类型可能是一个新的题目类型。本示例中将题目的编码向量加入预存的多种题目类型特征向量中，作为一种新的题目类型，需要为其增加构建题目时的构题策略，以及在根据构建题目进行题目批改时的判题策略，仅需要增加少量的工作，不需要对编码器模型进行重新训练，有效减少了开发工作量，提高开发效率，同时，节约开发成本。

一种可实现的方式中，在将新的题目类型对应的编码向量加入预存的多种题目类型特征向量中之前，还可以获取与新的题目类型相同的图像样本；将与新的题目类型相同的图像样本输入预先训练完成的编码器模型，得到多个编码向量；计算多个编码向量的平均值，将多个编码向量的平均值作为该新的题目类型的编码向量，然后再加入预存的多种题目类型特征向量中，提高了该新的题目类型的编码向量的准确性，以便在下次遇到同一题目类型的题目时，可以获得更准确地匹配结果。

本示例中通过利用编码器模型进行编码，计算该编码向量与预存的多种题目类型特征向量之间的题目相似度，将大于预设相似度、且最大的题目相似度对应的题目类型特征向量的题目类型信息，确定为该题目的题目类型信息，提高了题目的题目类型信息的准确性，弱化题目类型的定义。不管出现什么题目类型，仅需要对题目区域的图像部分进行编码，然后计算题目相似度即可，在处理非常规题型时，或者出现新的题目类型，不需要对编码器模型进行重新训练，有效减少开发工作量，提高开发效率，节约开发成本。

需要说明的是，本申请实施例中，步骤S104b和步骤S104c的执行顺序不做限定，可以理解的是，为了提高题目识别的速度，还可以并行执行步骤S104b和步骤S104c。

实施例三、

本申请实施例三基于实施例一和实施例二的方案，其中的编码器模型通过以下步骤进行预先训练：获取包含样本题目的第一训练图像样本，第一训练图像样本中的样本题目属于同一题目类型；将第一训练图像样本输入初始编码器模型，得到样本题目的题目预测编码向量；将样本题目的题目预测编码向量输入初始解码器模型，得到样本预测题目；根据样本预测题目，采用L1损失函数，获得第一损失值；根据第一损失值，对初始编码器模型和初始解码器模型进行训练，得到编码器模型。

根据第一损失值，对初始编码器模型和初始解码器模型进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等，得到编码器模型和解码器模型。在编码器模型和解码器模型训练结束后，在应用阶段，只使用编码器模型。

在获取包含样本题目的第一训练图像样本时，可通过以下方式获得，示例地：获取训练图像样本集，其中，训练图像样本集中的图像样本为对应于多个不同题目类型的图像样本；从多个不同题目类型中确定一个题目类型，并将该题目类型对应的图像样本确定为第一训练图像样本。

通过从多个不同题目类型中确定一个题目类型，将该题目类型对应的图像样本确定为第一训练图像样本，保证了第一训练图像样本中的样本题目属于同一题目类型，为训练编码器模型提供训练样本，提高训练结束得到编码器模型的准确性。

在编码器模型训练完成之后，本申请实施例中还包括获得预存的多种题目类型特征向量的步骤，示例地，将所述第一训练图像样本输入所述预先训练完成的编码器模型，得到所述第一训练图像样本对应的编码向量；计算所述第一训练图像样本对应的编码向量的平均值；将所述编码向量的平均值作为所述第一训练图像样本的题目类型特征向量；根据所述第一训练图像样本的题目类型特征向量确定所述预存的多种题目类型特征向量。

第一训练图像样本中的样本题目属于同一题目类型，本示例中通过计算第一训练图像样本的编码向量的平均值，将平均值作为该题目类型的题目类型特征向量，提高了题目类型特征向量的准确性。以此可以得到多种不同题目类型特征向量，构建题目类型特征向量库，将题目类型特征向量库作为预存的多种题目类型特征向量。

实施例四、

本申请实施例四基于实施例一至实施例三的方案，其中的步骤S102还可以实现为下述步骤。

将目标图像输入预先训练完成的检测模型，通过检测模型的第一检测分支得到题目的题目区域；通过检测模型的第二检测分支得到题目中的打印体文本的文本区域；通过检测模型的第三检测分支得到题目中的手写体文本的文本区域，题目中的文本区域包括题目中的打印体文本的文本区域和题目中的手写体文本的文本区域。

本申请的目标图像中，既可以包含打印体文本，也可以包含手写体文本。上述打印体文本可以为题目中的题干部分，手写体文本可以为学生或者题目作答者根据题干部分，进行作答之后的答案部分。

本示例以目标图像包括打印体文本和手写体文本为例进行说明，检测模型可以为任意的具有上述第一检测分支、第二检测分支以及第三检测分支的模型，对于采用的检测模型的具体结构，此处不做限定。

检测模型可以为基于CenterNet模型改进的具有上述3个检测分支的CenterNet模型。现有的CenterNet模型通常仅具有1个检测头，也就是说，仅能进行一种类型的检测，本申请实施例中，可以基于现有CenterNet模型进行如下改进：在原来的基础上再增加2个检测头。也就是说，将原来的具有1个检测头的CenterNet模型改进为具有3个检测分支的CenterNet模型，以使得通过改进后的CenterNet模型可以得到3个区域：题目区域、打印体文本的文本区域以及打印体文本的文本区域。CenterNet模型的结构较为简单，同时，只需通过全卷积的方法即可实现对目标的检测，而无需进行NMS（Non-Maximum Suppression，非极大值抑制）等复杂操作，因此，使用基于现有CenterNet模型改进的具有上述3个检测分支的CenterNet模型作为检测模型可以在保证检测精度的同时，提高检测效率。

可以理解的是，检测模型也可以为具有上述3个检测分支的SSD模型，或者，检测模型还可以为具有上述3个检测分支的其他模型等等。在训练过程中，上述3个检测分支可以使用相同的损失函数和训练方式。

通过检测模型的第一检测分支可以得到题目的题目区域，也就是目标图像中整个题目所在的区域。通过检测模型的第二检测分支得到题目中的打印体文本的文本区域，也就是说，题目中各个打印体文本所在的文本区域。通过检测模型的第三检测分支得到题目中的手写体文本的文本区域，即：题目中各个手写体文本所在的文本区域。

本申请实施例中，通过一个检测模型，同时进行了三种类型的检测，分别得到了三种区域：题目区域、打印体文本的文本区域以及手写体文本的文本区域。从模型计算的原理角度出发，由于三种类型的检测对输入特征的需求具有一定的共性，因此，与分别采用不同的检测模型来获得上述区域的方式相比，本申请实施例中采用一个检测模型，同时得到上述三种区域的方式，可以有效提高检测的效率。

此外，与采用同一模型同时进行文本检测和题目类型分类的方式相比，本申请实施例中的检测模型在进行区域检测时，无需区分不同的题目类型，弱化了题目类型的区别，可以提高检测的精度和速度。

本申请实施例的题目识别方法基于预先训练完成的检测模型实现，为便于说明，以下首先对该检测模型进行简要说明。本示例中检测模型包括：特征提取部分；并行连接于特征提取部分之后的第一检测分支、第二检测分支以及第三检测分支。上述步骤S102还可以具体实现为步骤S102a和步骤S102d。

步骤S102a、将目标图像输入预先训练完成的检测模型，通过检测模型中的特征提取部分对目标图像进行特征提取，得到目标图像对应的图像特征。

可选地，在本申请的一种实施例中，特征提取部分为包含多个残差块的残差网络；步骤S102a可以实现为以下步骤：将目标图像输入预先训练完成的检测模型中的残差网络，通过残差网络中的各残差块分别得到一个与目标图像对应的初始图像特征；对多个初始图像特征进行特征融合，得到图像特征。

示例地，检测模型可以为CenterNet模型，特征提取部分可以为由4个残差块组成的Resnet18。将目标图像输入预先训练完成的CenterNet模型中的Resnet18，通过Resnet18中的各残差块分别得到一个与目标图像对应的初始图像特征，例如：第一个残差块输出一个大小为目标图像的1/4的初始特征图；第二个残差块输出一个大小为目标图像的1/8的初始特征图；第三个残差块输出一个大小为目标图像的1/16的初始特征图；第四个残差块输出一个大小为目标图像的1/32的初始特征图。

由于上述4个初始特征图的尺寸不同，为便于对初始特征图进行融合，可以先分别对上述4个初始特征图进行上采样处理，以得到尺寸相同的初始特征图（例如，上采样处理后得到的特征图尺寸可以均为1/4）。再对采样处理后的特征图进行特征融合，例如：对4个特征图中相同位置的元素分别进行乘法运算，得到融合后的图像特征。该融合后的图像特征可以作为检测模型三个检测分支的输入，通过上述三个检测分支分别得到题目区域、题目中的打印体文本的文本区域以及题目中的手写体文本的文本区域。

步骤S102b、通过第一检测分支，基于图像特征进行题目区域预测，得到题目的题目区域；步骤S102c、通过第二检测分支，基于图像特征进行打印体文本区域预测，得到题目中的打印体文本的文本区域；步骤S102d、通过第三检测分支，基于图像特征进行手写体文本区域预测，得到题目中的手写体文本的文本区域。

将融合后的图像特征分别输入检测模型的上述三个检测分支，每个检测分支均可以输出一组通道数为6的特征映射图，分别表示中心点的得分图（得分图中的每个像素点的值都在0-1之间，表征该像素点为物体中心点的概率）、中心点的偏移量（一个是X轴偏移量，一个是Y轴偏移量）、中心点对应的矩形区域的长度和宽度，以及中心点对应的矩形区域的旋转角度。

具体地，第一检测分支输出的通道数为6的特征映射图，分别表示题目区域中心点的得分图、题目区域中心点的偏移量、题目区域中心点对应的矩形区域的长度和宽度，以及题目区域中心点对应的矩形区域的旋转角度，基于第一检测分支输出的通道数为6的特征映射图进行题目区域预测，得到题目的题目区域。第二检测分支输出的通道数为6的特征映射图，分别表示打印体文本的文本区域中心点的得分图、打印体文本的文本区域中心点的偏移量、打印体文本的文本区域中心点对应的矩形区域的长度和宽度，以及打印体文本的文本区域中心点对应的矩形区域的旋转角度，基于第二检测分支输出的通道数为6的特征映射图进行打印体文本区域预测，得到题目中的打印体文本的文本区域。第三检测分支输出的通道数为6的特征映射图，分别表示手写体文本的文本区域中心点的得分图、手写体文本的文本区域中心点的偏移量、手写体文本的文本区域中心点对应的矩形区域的长度和宽度，以及手写体文本的文本区域中心点对应的矩形区域的旋转角度，基于第三检测分支输出的通道数为6的特征映射图进行手写体文本区域预测，得到题目中的手写体文本的文本区域。

步骤S104还可以实现为下述步骤：通过预先训练完成的识别模型，基于打印体文本的文本区域以及手写体文本的文本区域，分别进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果；其中，编码器模型和识别模型为并行执行的两个模型。

本申请实施例中采用两个并行执行的模型，并行进行题目的编码、匹配操作和文本识别操作。由于执行上述两种操作的模型是并行执行的，因此，可以同时获取到题目类型信息、打印体文本识别结果和手写体文本识别结果，因此，本申请实施例可以进一步提高题目识别的效率。

本申请实施例中，识别模型可以为任意的识别模型，对于采用的识别模型的具体结构，此处不做限定，例如：长短期记忆神经网络(Long Short-Term Memory，简称LSTM)，循环神经网络(Recurrent Neural Network，简称RNN)，卷积循环神经网络(ConvolutionalRecurrent Neural Network，简称CRNN)。

可选地，在本申请的一种实施例中，上述步骤S104还可以具体实现为以下步骤S104a和步骤S104b。

步骤S104a、分别根据打印体文本的文本区域以及手写体文本的文本区域，对目标图像进行截图，获得对应的打印体文本区域图像和手写体文本区域图像；步骤S104b、分别将打印体文本区域图像和手写体文本区域图像输入预先训练完成的识别模型，进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果。

在进行文本识别之前，先根据打印体文本的文本区域以及手写体文本的文本区域，对目标图像进行截图，获得打印体文本区域图像和手写体文本区域图像。再分别将打印体文本区域图像和手写体文本区域图像输入预先训练完成的识别模型进行文本识别，可以避免因将目标图像中除文本区域之外的其他无关区域也输入至识别模型，而造成的文本识别过程中数据计算量较大，识别效率较低的问题。

实施例五、

本申请实施例五基于实施例一至实施例四的方案，其中的检测模型通过以下步骤S201-步骤S205进行预先训练。步骤S201、获取包含样本题目的第二训练图像样本、第二训练图像样本中样本题目的样本题目区域以及样本题目中的文本区域；步骤S202、将第二训练图像样本输入初始检测模型，得到样本题目预测区域和样本题目中的文本预测区域；基于样本题目预测区域与样本题目区域，得到第二损失值；步骤S203、基于文本预测区域与样本题目中的文本区域，得到文本损失值；步骤S204、对第二损失值和文本损失值进行数值融合，得到融合损失值；步骤S205、根据融合损失值，对初始检测模型进行训练，得到检测模型。

根据融合损失值，对初始检测模型进行训练，直至达到训练终止条件，例如，训练次数达到预设次数，或者，损失值达到预设阈值等，得到检测模型。上述训练过程中，就每个检测分支而言，与该检测分支对应的损失值等于6个通道各自的损失值之和，其中，就表示中心点的得分图的通道而言，该通道可以通过Focal Loss损失函数来计算损失值，其余通道均可以通过L1平滑损失函数来计算损失值。

由于检测模型中输出的样本题目预测区域和样本题目中的文本预测区域分别表征不同的含义，为了均衡第二损失值和文本损失值对整个检测模型损失值的影响，可以分别为第二损失值和文本损失值设置权重系数，对应地，对第二损失值和文本损失值进行数值融合，得到融合损失值。融合方式可以通过以下方式实现：分别计算第二损失值与第一权重系数的乘积、文本损失值与文本权重系数的乘积，对上述两个乘积进行加法运算，得到融合损失值。该融合损失值即为整个检测模型的损失值。

上述第一权重系数和文本权重系数可以根据经验或者实际情况进行设定，本申请实施例中，对于第一权重系数和文本权重系数的具体取值不做限定。示例性地，可以将第一权重系数设定为5、文本权重系数设定为1。

样本题目中的文本区域包括样本题目中的打印体文本的文本区域以及样本题目中的手写体文本的文本区域；步骤S202通过以下步骤实现：通过初始检测模型的第一检测分支得到样本题目预测区域；通过初始检测模型的第二检测分支得到样本题目中的打印体文本的文本预测区域；通过初始检测模型的第三检测分支得到样本题目中的手写体文本的文本预测区域；上述第一检测分支与第二损失值相对应；步骤S203通过以下步骤实现：基于样本题目中的打印体文本的文本预测区域与样本题目中的打印体文本的文本区域，得到与第二检测分支对应的第三损失值；基于样本题目中的手写体文本的文本预测区域与样本题目中的手写体文本的文本区域，得到与第三检测分支对应的第四损失值，文本损失值包括第三损失值和第四损失值。

上述检测模型中三个检测分支输出的检测结果分别表征不同的含义，基于与上述同样的理由，本示例中对第二损失值、第三损失值以及第四损失值进行数值融合，得到融合损失值。融合方式可以通过以下方式实现：分别计算第二损失值与第一权重系数的乘积、第三损失值与第二权重系数的乘积，以及第四损失值与第三权重系数的乘积，对上述三个乘积进行加法运算，得到融合损失值。该融合损失值即为整个检测模型的损失值。

上述第一权重系数、第二权重系数以及第三权重系数可以根据经验或者实际情况进行设定，本申请实施例中，对于第一权重系数、第二权重系数以及第三权重系数的具体取值不做限定。示例性地，可以将第一权重系数设定为5、第二权重系数和第三权重系数均设定为1。

在获得构建题目之后，本申请还可以执行以下步骤：根据构建题目进行题目批改，得到批改结果。

在得到与目标图像中的题目对应的构建题目之后，可以根据题目的运算规则，计算出构建题目中各手写体文本处实际应该填写的正确文本内容，然后将正确文本内容与各手写体文本识别结果进行对比，进行题目批改，得到批改结果。

本申请实施例中，在完成题目构建，得到构建题目之后，还根据构建题目进行题目的自动批改，得到了批改结果，相较于利用题目类型识别模型对图像中题目的题型进行识别，然后结合横向文本行检测结果对文本框进行合并，以对题目中的题目内容进行后续处理的方案，本申请实施例可以有效提升题目批改的效率，节约题目批改的成本。

进一步的，列举一个具体的示例对本申请实施例中对图像中的题目识别进行说明，如图5所示，图5为本申请实施例提供的另一种题目识别方法的流程图，可以包括以下步骤：

步骤S501、收集大量的包含样本题目的训练图像样本。

具体地，可以收集大量的分别包含有不同类型题目的图像作为训练图像样本。

步骤S502、训练图像样本标注。

具体地，可以对步骤S501中收集到的训练图像样本进行标注，针对每张训练图像样本而言，可以将该训练图像样本中题目所在的题目区域框起来，同时，将该训练图像样本中各打印体文本和各手写体文本所在的文本区域框起来，作为检测模型的训练数据；并且，对每个题目根据预先定义好的题目类型进行分类，将题目所在的题目区域从该训练图像样本上裁剪下来，作为编码器模型的训练数据；另外，对各打印体文本的文本内容和各手写体文本的文本内容进行标注，作为识别模型的训练数据。

步骤S503、构建具有三个检测分支的CenterNet模型作为检测模型。

整个检测模型的损失值为三个检测分支各自的损失值之和，检测模型的特征提取部分可以为由4个残差块组成的Resnet18。

具体地，将目标图像输入预先训练完成的CenterNet模型中的Resnet18，通过Resnet18中的各残差块分别得到一个大小为目标图像的1/4的初始特征图、一个大小为目标图像的1/8的初始特征图、一个大小为目标图像的1/16的初始特征图，以及一个大小为目标图像的1/32的初始特征图；分别对上述4个初始特征图进行上采样处理，以得到尺寸相同的初始特征图；再对采样处理后的4个特征图中相同位置的元素分别进行乘法运算，得到融合后的图像特征；将该融合后的图像特征分别可以作为CenterNet模型三个检测分支的输入，每个检测分支均输出一组通道数为6的特征映射图，分别表示中心点的得分图、中心点的偏移量、中心点对应的矩形区域的长度和宽度，以及上述矩形区域的旋转角度。

训练时，针对每个检测分支而言，表示中心点的得分图的通道可以采用FocalLoss损失函数来计算损失值，其余通道均可以采用L1平滑损失函数来计算损失值；分别为每个检测分支对应的损失值设置一个权重系数，将每个检测分支的损失值与对应权重系数相乘，共得到三个乘积，对得到的三个乘积求和，得到整个CenterNet模型的损失值。

步骤S504、构建变分自编码器作为对题目区域进行编码的模型。

具体地，包括编码器和解码器两部分，其中，编码器由8层卷积构成，解码器由8层反卷积组成，编码器的每层特征跳连至解码器的反卷积对应层（U-Net结构），使用L1损失函数进行训练。

步骤S505、采用CRNN模型作为识别模型。

需要说明的是，该具体流程中以先执行步骤S504，后执行步骤S505为例，但本领域技术人员应当明了，在实际应用中步骤S504和步骤S505的执行顺序可按任意先后顺序执行，也可并行执行。

步骤S506、使用步骤S502中的训练数据分别对步骤S503中的CenterNet模型、步骤S504中的变分自编码器以及步骤S505中的CRNN模型进行训练。

需要说明的是，上述步骤S501至步骤S506均为训练阶段的步骤，本领域技术人员应当明了，在应用阶段，无需执行上述步骤。

步骤S507、构建题目类型向量库。

具体地，在所有模型训练结束后，变分自编码器只保留编码器模型部分，对步骤S502使用的训练数据按照题目类型的类别分为多种题目类型的训练数据，每个题目类型的训练数据输入编码器模型得到一个编码向量，将属于同一题目类型的类别的编码向量求取编码向量的平均值，编码向量的平均值作为这类题目类型的编码向量，从而构建题目类型向量库，题目类型向量库中为预存的多种题目类型特征向量。

步骤S508、应用阶段，获取包含题目的目标图像。

步骤S509、步骤S508中的目标图像经过步骤S503中的检测模型，其第一检测分支输出题目区域，根据题目区域，对目标图像进行截图，并将截图送入步骤S504中的编码器模型，得到题目的编码向量。

步骤S510、根据步骤S509的编码向量与步骤S507的题目类型向量库确定题目的题目类型信息，并行的，第二检测分支和第三检测分支分别输出打印体文本的文本区域以及手写体文本的文本区域，按照上述文本区域对目标图像进行截图，并将截图送入步骤S505中的CRNN模型，得到文本识别结果。

具体地，步骤S509的编码向量与步骤S507的题目类型向量库中所有题目类型向量求题目相似度（可使用余弦距离度量），以此确定题目类型信息，如果无法确定，说明该题目是一种新的题目类型，此时可将该题目的编码向量存入题目类型向量库，同时为新的题目类型开发新的构题策略和判题策略。

步骤S511、根据题目类型信息、打印体文本识别结果和手写体文本识别结果，进行题目构建，获得与目标图像中的题目对应的构建题目。

步骤S512、根据构建题目进行题目批改，得到批改结果。具体地，在得到与目标图像中的题目对应的构建题目之后，可以根据题目的运算规则，计算出构建题目中各手写体文本处实际应该填写的正确文本内容，然后将正确文本内容与各手写体文本识别结果进行对比，进行题目批改，得到批改结果。

采用同一模型同时进行文本检测和题目类型识别，在对模型进行训练时，需要大量的人工标注数据，成本高，同时该模型既要完成检测任务也要完成题目类型分类任务，从原理上来说，两者本身对输入特征的需要就是相反的，用同一个模型实现必然效果不佳。更为重要的是在逻辑运算的题目中到底有多少非常规题型非常难以定义，几乎是无法统计，也就是说每次有一个新的题目类型出现，就要给模型增加一个题目类型的类别。同时花费大量人力收集这个题目类型的数据并标注，然后更新一次该模型。同时为了适应该模型的输出，文本检测部分也需要进行更新，整个的解决方案是全量开发（即每来一个新的题目类型，所有事情都要重新做一遍），无法实现增量开发（每来一个新的题目类型只需少量改动即可）。因此，本申请实施例图5所示的上述题目识别方法的流程中，采用CenterNet模型进行检测，检测模型只用于进行检测，而不进行题目类型的识别。并在检测完成之后，才基于CenterNet模型输出的题目区域，采用编码器模型对题目区域进行编码，获得题目的编码向量，将题目的编码向量与题目类型向量库中的题目类型向量求题目相似度，将大于预设相似度且最大题目相似度对应的题目类型确定为该题目的题目类型信息。因此，在CenterNet模型训练完成后，即便有新的题目类型出现，也无需对训练完成的CenterNet模型进行重新训练，也无需对训练完成的编码器模型进行重新训练，只需为新的题目类型开发新的构题策略和判题策略即可。当出现新的题目类型时，与将题目区域检测和题目类型识别集中于同一模型中的方式相比，图5所示流程可以避免全量开发，实现增量开发，有效减少开发工作量，提高开发效率，节约开发成本。

同时，上述流程中采用改进了的具有三个检测分支的CenterNet模型对目标图像同时进行题目区域、打印体文本的文本区域以及手写体文本的文本区域三种类型的检测。由于上述三种类型的检测对输入特征的需求具有一定的共性，因此，采用一个CenterNet模型同时得到上述三种区域，可以有效提高检测的效率，进而，提高了题目识别的整体效率。

另外，上述流程中采用两个并行执行的模型：编码器模型和CRNN模型，并行进行题目编码和文本识别的操作。由于执行上述两种操作的编码器模型和CRNN模型是并行执行的，可以同时获取到题目的编码向量、打印体文本识别结果和手写体文本识别结果，因此，上述流程可以进一步提高题目识别的效率，进而提高了题目批改的效率。

实施例六、

本申请实施例提供了一种题目识别装置，如图6所示，图6为本申请实施例提供的一种题目识别装置，题目识别装置60包括：获取模块601，用于获取包含题目的目标图像；检测模块602，用于将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域；匹配模块603，用于通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，基于所述编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息；识别模块604，用于基于所述题目中的文本区域进行文本识别，得到文本识别结果；构建模块605，用于根据所述题目类型信息、所述文本识别结果，进行题目构建，获得与所述目标图像中的题目对应的构建题目。

可选地，在本申请的一种实施例中，匹配模块603还用于根据所述题目区域，对所述目标图像进行截图，获得题目区域的图像部分；将所述题目区域的图像部分输入所述预先训练完成的编码器模型，得到所述题目的编码向量。

可选地，在本申请的一种实施例中，匹配模块603还用于计算所述题目的编码向量与所述预存的多种题目类型特征向量之间的题目相似度，得到该题目区域对应的多个题目相似度；若所述多个题目相似度中包括大于预设相似度的题目相似度，则将所述多个题目相似度中最大题目相似度对应的题目类型特征向量的题目类型信息，确定为所述题目的题目类型信息。

可选地，在本申请的一种实施例中，匹配模块603还用于若多个题目相似度均小于或等于预设相似度，则将所述题目的编码向量加入所述预存的多种题目类型特征向量中。

可选地，在本申请的一种实施例中，题目识别装置60还包括编码器模型训练模块，编码器模型训练模块用于获取包含样本题目的第一训练图像样本，所述第一训练图像样本中的样本题目属于同一题目类型；将所述第一训练图像样本输入初始编码器模型，得到所述样本题目的题目预测编码向量；将所述样本题目的题目预测编码向量输入初始解码器模型，得到所述样本预测题目；根据所述样本预测题目，采用L1损失函数，获得第一损失值；根据所述第一损失值，对所述初始编码器模型和所述初始解码器模型进行训练，得到所述编码器模型。

可选地，在本申请的一种实施例中，编码器模型训练模块用于获取训练图像样本集，其中，所述训练图像样本集中的图像样本为对应于多个不同题目类型的图像样本；从多个不同题目类型中确定一个题目类型，并将该题目类型对应的图像样本确定为所述第一训练图像样本。

可选地，在本申请的一种实施例中，题目识别装置60还包括预存模块，预存模块还用于将第一训练图像样本输入预先训练完成的编码器模型，得到第一训练图像样本对应的编码向量；计算第一训练图像样本对应的编码向量的平均值；将编码向量的平均值作为第一训练图像样本的题目类型特征向量；根据第一训练图像样本的题目类型特征向量确定预存的多种题目类型特征向量。

可选地，在本申请的一种实施例中，所述编码器模型为变分自编码器模型。

可选地，在本申请的一种实施例中，检测模块602还用于将所述目标图像输入预先训练完成的检测模型，通过所述检测模型的第一检测分支得到所述题目的题目区域；通过所述检测模型的第二检测分支得到所述题目中的打印体文本的文本区域；通过所述检测模型的第三检测分支得到所述题目中的手写体文本的文本区域，所述题目中的文本区域包括所述题目中的打印体文本的文本区域和所述题目中的手写体文本的文本区域；识别模块604还用于通过预先训练完成的识别模型，基于所述打印体文本的文本区域以及所述手写体文本的文本区域，分别进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果；其中，所述编码器模型和所述识别模型为并行执行的两个模型。

可选地，在本申请的一种实施例中，识别模块604还用于分别根据所述打印体文本的文本区域以及所述手写体文本的文本区域，对所述目标图像进行截图，获得对应的打印体文本区域图像和手写体文本区域图像；分别将所述打印体文本区域图像和所述手写体文本区域图像输入所述预先训练完成的识别模型，进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果。

可选地，在本申请的一种实施例中，所述检测模型包括：特征提取部分；并行连接于所述特征提取部分之后的第一检测分支、第二检测分支以及第三检测分支；检测模块602还用于将所述目标图像输入预先训练完成的检测模型，通过所述检测模型中的特征提取部分对所述目标图像进行特征提取，得到所述目标图像对应的图像特征；通过所述第一检测分支，基于所述图像特征进行题目区域预测，得到所述题目的题目区域；通过所述第二检测分支，基于所述图像特征进行打印体文本区域预测，得到所述题目中的打印体文本的文本区域；通过所述第三检测分支，基于所述图像特征进行手写体文本区域预测，得到所述题目中的手写体文本的文本区域。

可选地，在本申请的一种实施例中，所述特征提取部分为包含多个残差块的残差网络；检测模块602还用于将所述目标图像输入预先训练完成的检测模型中的残差网络，通过所述残差网络中的各残差块分别得到一个与所述目标图像对应的初始图像特征；对多个所述初始图像特征进行特征融合，得到图像特征。

可选地，在本申请的一种实施例中，题目识别装置60还包括检测模型训练模块，检测模型训练模块还用于获取包含样本题目的第二训练图像样本、所述第二训练图像样本中所述样本题目的样本题目区域以及所述样本题目中的文本区域；将所述第二训练图像样本输入初始检测模型，得到样本题目预测区域和所述样本题目中的文本预测区域；基于所述样本题目预测区域与所述样本题目区域，得到第二损失值；基于所述文本预测区域与所述样本题目中的文本区域，得到文本损失值；对所述第二损失值、所述文本损失值进行数值融合，得到融合损失值；根据所述融合损失值，对所述初始检测模型进行训练，得到所述检测模型。

可选地，在本申请的一种实施例中，所述样本题目中的文本区域包括所述样本题目中的打印体文本的文本区域以及所述样本题目中的手写体文本的文本区域；检测模型训练模块还用于通过所述初始检测模型的第一检测分支得到样本题目预测区域；通过所述初始检测模型的第二检测分支得到所述样本题目中的打印体文本的文本预测区域；通过所述初始检测模型的第三检测分支得到所述样本题目中的手写体文本的文本预测区域；所述第一检测分支与所述第二损失值相对应；基于所述样本题目中的打印体文本的文本预测区域与所述样本题目中的打印体文本的文本区域，得到与所述第二检测分支对应的第三损失值；基于所述样本题目中的手写体文本的文本预测区域与所述样本题目中的手写体文本的文本区域，得到与所述第三检测分支对应的第四损失值，所述文本损失值包括所述第三损失值和所述第四损失值。

可选地，在本申请的一种实施例中，题目识别装置60还包括批改模块，批改模块还用于根据所述构建题目进行题目批改，得到批改结果。

本实施例的题目识别装置60用于实现前述多个方法实施例中相应的题目识别方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的题目识别装置60中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

实施例七、

基于上述实施例一至实施例五描述的任一项题目识别方法，本申请实施例提供了一种电子设备，需要说明的，本实施例的题目识别方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。如图7所示，图7为本申请实施例提供的一种电子设备的结构图。本申请具体实施例并不对电子设备的具体实现做限定。该电子设备70可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。

通信接口704，用于与其它电子设备或服务器进行通信。

处理器702，用于执行计算机程序710，具体可以执行上述题目识别方法实施例中的相关步骤。

具体地，计算机程序710可以包括计算机程序代码，该计算机程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放计算机程序710。存储器06可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

计算机程序710具体可以用于使得处理器702执行以下如实施例一至实施例五中任一项题目识别方法的操作。可以理解的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

实施例八、

基于上述实施例一至实施例五所描述的题目识别方法，本申请实施例提供了一种计算机存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现如实施例一至实施例五所描述的题目识别方法。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的题目识别方法。此外，当通用计算机访问用于实现在此示出的题目识别方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的题目识别方法的专用计算机。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例地单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种题目识别方法，其特征在于，所述方法包括：

获取包含题目的目标图像；

将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域；

通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，基于所述编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息；

基于所述题目中的文本区域进行文本识别，得到文本识别结果；

根据所述题目类型信息和所述文本识别结果，进行题目构建，获得与所述目标图像中的题目对应的构建题目。

2.根据权利要求1所述的方法，其特征在于，所述通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，包括：

根据所述题目区域，对所述目标图像进行截图，获得题目区域的图像部分；

将所述题目区域的图像部分输入所述预先训练完成的编码器模型，得到所述题目的编码向量。

3.根据权利要求1所述的方法，其特征在于，基于所述题目的编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息，包括：

计算所述题目的编码向量与所述预存的多种题目类型特征向量之间的题目相似度，得到该题目区域对应的多个题目相似度；

若所述多个题目相似度中包括大于预设相似度的题目相似度，则将所述多个题目相似度中最大题目相似度对应的题目类型特征向量的题目类型信息，确定为所述题目的题目类型信息。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若多个题目相似度均小于或等于预设相似度，则将所述题目的编码向量加入所述预存的多种题目类型特征向量中。

5.根据权利要求1所述的方法，其特征在于，所述编码器模型通过以下方式进行预先训练：

获取包含样本题目的第一训练图像样本，所述第一训练图像样本中的样本题目属于同一题目类型；

将所述第一训练图像样本输入初始编码器模型，得到所述样本题目的题目预测编码向量；

将所述样本题目的题目预测编码向量输入初始解码器模型，得到所述样本预测题目；

根据所述样本预测题目，采用L1损失函数，获得第一损失值；

根据所述第一损失值，对所述初始编码器模型和所述初始解码器模型进行训练，得到所述编码器模型。

6.根据权利要求5所述的方法，其特征在于，所述获取包含样本题目的第一训练图像样本，包括：

获取训练图像样本集，其中，所述训练图像样本集中的图像样本为对应于多个不同题目类型的图像样本；

从多个不同题目类型中确定一个题目类型，并将该题目类型对应的图像样本确定为所述第一训练图像样本。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述第一训练图像样本输入所述预先训练完成的编码器模型，得到所述第一训练图像样本对应的编码向量；

计算所述第一训练图像样本对应的编码向量的平均值；

将所述编码向量的平均值作为所述第一训练图像样本的题目类型特征向量；

根据所述第一训练图像样本的题目类型特征向量确定所述预存的多种题目类型特征向量。

8.根据权利要求1-7任一项所述的方法，其特征在于，所述编码器模型为变分自编码器模型。

9.根据权利要求1所述的方法，其特征在于，将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域，包括：

将所述目标图像输入预先训练完成的检测模型，通过所述检测模型的第一检测分支得到所述题目的题目区域；通过所述检测模型的第二检测分支得到所述题目中的打印体文本的文本区域；通过所述检测模型的第三检测分支得到所述题目中的手写体文本的文本区域，所述题目中的文本区域包括所述题目中的打印体文本的文本区域和所述题目中的手写体文本的文本区域；

基于所述题目中的文本区域进行文本识别，得到文本识别结果，包括：

通过预先训练完成的识别模型，基于所述打印体文本的文本区域以及所述手写体文本的文本区域，分别进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果；

其中，所述编码器模型和所述识别模型为并行执行的两个模型。

10.根据权利要求9所述的方法，其特征在于，所述通过预先训练完成的识别模型，基于所述打印体文本的文本区域以及所述手写体文本的文本区域，分别进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果，包括：

分别根据所述打印体文本的文本区域以及所述手写体文本的文本区域，对所述目标图像进行截图，获得对应的打印体文本区域图像和手写体文本区域图像；

分别将所述打印体文本区域图像和所述手写体文本区域图像输入所述预先训练完成的识别模型，进行文本识别，得到对应的打印体文本识别结果和手写体文本识别结果。

11.根据权利要求9所述的方法，其特征在于，所述检测模型包括：特征提取部分；并行连接于所述特征提取部分之后的第一检测分支、第二检测分支以及第三检测分支；

所述将所述目标图像输入预先训练完成的检测模型，通过所述检测模型的第一检测分支得到所述题目的题目区域；通过所述检测模型的第二检测分支得到所述题目中的打印体文本的文本区域；通过所述检测模型的第三检测分支得到所述题目中的手写体文本的文本区域，包括：

将所述目标图像输入预先训练完成的检测模型，通过所述检测模型中的特征提取部分对所述目标图像进行特征提取，得到所述目标图像对应的图像特征；

通过所述第一检测分支，基于所述图像特征进行题目区域预测，得到所述题目的题目区域；通过所述第二检测分支，基于所述图像特征进行打印体文本区域预测，得到所述题目中的打印体文本的文本区域；通过所述第三检测分支，基于所述图像特征进行手写体文本区域预测，得到所述题目中的手写体文本的文本区域。

12.根据权利要求11所述的方法，其特征在于，所述特征提取部分为包含多个残差块的残差网络；

所述将所述目标图像输入预先训练完成的检测模型，通过所述检测模型中的特征提取部分对所述目标图像进行特征提取，得到所述目标图像对应的图像特征，包括：

将所述目标图像输入预先训练完成的检测模型中的残差网络，通过所述残差网络中的各残差块分别得到一个与所述目标图像对应的初始图像特征；

对多个所述初始图像特征进行特征融合，得到图像特征。

13.根据权利要求1所述的方法，其特征在于，所述检测模型通过以下方式进行预先训练：

获取包含样本题目的第二训练图像样本、所述第二训练图像样本中所述样本题目的样本题目区域以及所述样本题目中的文本区域；

将所述第二训练图像样本输入初始检测模型，得到样本题目预测区域和所述样本题目中的文本预测区域；

基于所述样本题目预测区域与所述样本题目区域，得到第二损失值；

基于所述文本预测区域与所述样本题目中的文本区域，得到文本损失值；

对所述第二损失值、所述文本损失值进行数值融合，得到融合损失值；

根据所述融合损失值，对所述初始检测模型进行训练，得到所述检测模型。

14.根据权利要求13所述的方法，其特征在于，所述样本题目中的文本区域包括所述样本题目中的打印体文本的文本区域以及所述样本题目中的手写体文本的文本区域；

将所述第二训练图像样本输入初始检测模型，得到样本题目预测区域和所述样本题目中的预测区域，包括：通过所述初始检测模型的第一检测分支得到样本题目预测区域；通过所述初始检测模型的第二检测分支得到所述样本题目中的打印体文本的文本预测区域；通过所述初始检测模型的第三检测分支得到所述样本题目中的手写体文本的文本预测区域；

所述第一检测分支与所述第二损失值相对应；

基于所述样本题目中的文本预测区域与所述样本题目中的文本区域，得到文本损失值，包括：基于所述样本题目中的打印体文本的文本预测区域与所述样本题目中的打印体文本的文本区域，得到与所述第二检测分支对应的第三损失值；基于所述样本题目中的手写体文本的文本预测区域与所述样本题目中的手写体文本的文本区域，得到与所述第三检测分支对应的第四损失值，所述文本损失值包括所述第三损失值和所述第四损失值。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述构建题目进行题目批改，得到批改结果。

16.一种题目识别装置，其特征在于，所述装置包括：

获取模块，用于获取包含题目的目标图像；

检测模块，用于将所述目标图像输入预先训练完成的检测模型，得到所述题目的题目区域和所述题目中的文本区域；

匹配模块，用于通过预先训练完成的编码器模型，对所述题目区域的图像部分进行编码，获得所述题目的编码向量，基于所述编码向量与预存的多种题目类型特征向量的匹配结果，获得所述题目的题目类型信息；

识别模块，用于基于所述题目中的文本区域进行文本识别，得到文本识别结果；

构建模块，用于根据所述题目类型信息、所述文本识别结果，进行题目构建，获得与所述目标图像中的题目对应的构建题目。

17.一种电子设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一个可执行指令，所述可执行指令使所述处理器执行如权利要求1-15中任一项所述的题目识别方法对应的操作。

18.一种计算机存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-15中任一项所述的题目识别方法。