CN113177435A

CN113177435A - 试卷分析方法、装置、存储介质及电子设备

Info

Publication number: CN113177435A
Application number: CN202110351442.0A
Authority: CN
Inventors: 杜竹君; 马志国; 张飞飞; 麻凯利; 郝双; 阚海鹏; 杨明坤; 张明; 王少康; 王彦君
Original assignee: New Oriental Education Technology Group Co ltd
Current assignee: New Oriental Education Technology Group Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-27
Anticipated expiration: 2041-03-31
Also published as: CN113177435B

Abstract

本公开涉及一种试卷分析方法、装置、存储介质及电子设备。该方法包括：对目标试卷的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域；将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。这样，可以对多种格式的试卷进行分析，从而提高了电子教学中试卷批改的效率。

Description

试卷分析方法、装置、存储介质及电子设备

技术领域

本公开涉及电子教学领域，具体地，涉及一种试卷分析方法、装置、存储介质及电子设备。

背景技术

随着计算机和互联网技术的发展，人们越来越多的使用电子设备对学生考试试卷进行阅卷。在相关技术中，试卷分析通常采用ORC(Optical Character Recognition，光学字符识别)实现对试卷字符的识别和分析，该方案通常只能对固定模板或固定格式的试卷进行分析，即只能把试卷与系统已经存储的预设模板进行匹配，用匹配得到的模板进行分析。但实际应用中，由于试卷的格式多种多样，使用OCR进行试卷分析会出现分析错误或无法分析的问题。

发明内容

为了解决上述问题，本公开提供一种试卷分析方法、装置、存储介质及电子设备。

第一方面，本公开提供了一种试卷分析方法，所述方法包括：

对目标试卷的试卷图像进行题号识别，获取所述试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；

将所述题号文本、所述题号图像和所述题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；

根据所述题号级别和所述题号位置对所述试卷图像进行切分，获取每个题号的目标题目区域；

将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；

根据所述题号、所述题号级别和所述题目信息，生成所述目标试卷的试卷版面内容。

可选地，所述题号级别分类检测模型包括编码网络和解码网络，所述编码网络包括文本编码网络和第一残差网络ResNet；所述将所述题号文本、所述题号图像和所述题号位置输入题号级别分类检测模型，得到每个题号的题号级别包括：

将所述题号文本输入所述文本编码网络，得到题号文本向量；

将所述题号图像输入所述第一残差网络ResNet，得到题号图像向量；

对所述题号位置进行位置编码，得到题号位置向量；

将所述题号文本向量、所述题号图像向量和所述题号位置向量，输入所述解码网络，得到每个题号的题号级别。

可选地，所述第一残差网络ResNet的卷积层为深度可分离卷积，所述第一残差网络ResNet的网络深度为18。

可选地，所述文本编码网络包括Transformer网络或Word2vec网络。

可选地，在根据所述题号、所述题号级别和所述题目信息，得到试卷版面内容之前，所述方法还包括：

根据所述题号级别对所述题号进行编码，得到所述题号的数字编码；

根据所述题号位置对所述题号进行排序；

针对排序后的每个题号，确认该题号的数字编码与相邻题号的数字编码是否连续；在确认该题号的数字编码与相邻题号的数字编码不连续的情况下，根据所述相邻题号对该题号进行修正，以获取修正后的题号；

根据所述题号、所述题号级别和所述题目信息，生成所述目标试卷的试卷版面内容包括：

根据修正后的所述题号、所述题号级别和所述题目信息，生成所述目标试卷的试卷版面内容。

可选地，在将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息之前，所述方法还包括：

将所述目标试卷图像输入预先训练得到的第二图像识别模型，得到一个或多个候选题目区域；

针对每个题号，在所述一个或多个候选题目区域中，获取与该题号的目标题目区域的位置重合度最高的第一候选题目区域；

在所述位置重合度小于或等于预设重合度阈值的情况下，根据所述第一候选题目区域对所述目标题目区域进行修正；

所述将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息包括：

将修正后的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息。

可选地，所述题目信息包括图形、文字、表格、公式、作答区域和题目分值中的一种或多种。

可选地，在所述对目标试卷的试卷图像进行题号识别之前，所述方法还包括：

获取所述目标试卷的原始图像，所述原始图像包括背景区域图像和试卷区域图像；

通过边缘检测模型对所述原始图像进行边缘检测，得到所述目标试卷的边缘信息；

根据所述边缘信息从所述原始图像中确定所述试卷区域图像；

根据所述试卷区域图像获取所述试卷图像。

可选地，所述通过边缘检测模型对所述原始图像进行边缘检测，得到所述目标试卷的边缘信息包括：

将所述原始图像输入预先训练的边缘检测模型，得到所述目标试卷的边缘特征图像；

从所述边缘特征图像中获取所述目标试卷的边缘信息。

可选地，所述根据所述试卷区域图像获取所述试卷图像包括：

对所述试卷区域图像进行透视变换，得到所述试卷图像。

可选地，在所述通过边缘检测模型对所述原始图像进行边缘检测之前，所述方法还包括：

将所述原始图像输入第二残差网络ResNet，得到所述原始图像的文字方向，其中，所述第二残差网络ResNet模型为根据样本原始图像数据预先训练得到；

在所述文字方向不是预设方向的情况下，根据所述文字方向对将所述原始图像进行旋转，以使得旋转后的原始图像的文字方向为预设方向；

所述通过边缘检测模型对所述原始图像进行边缘检测包括：

通过边缘检测模型对旋转后的原始图像进行边缘检测。

可选地，所述第二残差网络ResNet包括卷积块注意力模块。

第二方面，本公开提供了一种试卷分析装置，所述装置包括：

题号识别模块，用于对目标试卷的试卷图像进行题号识别，获取所述试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；

题号级别检测模块，用于将所述题号文本、所述题号图像和所述题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；

题目区域获取模块，用于根据所述题号级别和所述题号位置对所述试卷图像进行切分，获取每个题号的目标题目区域；

题目信息获取模块，用于将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；

试卷版面内容生成模块，用于根据所述题号、所述题号级别和所述题目信息，生成所述目标试卷的试卷版面内容。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所述方法的步骤。

采用上述技术方案，通过对目标试卷的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域；将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。这样，不需要依赖固定模板或固定格式，可以对多种格式的试卷进行分析，从而提高了电子教学中试卷批改的效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开实施例提供的一种试卷分析方法的流程图；

图2是本公开实施例提供的另一种试卷分析方法的流程图；

图3是本公开实施例提供的另外一种试卷分析方法的流程图；

图4是本公开实施例提供的一种试卷分析装置的结构示意图；

图5是本公开实施例提供的另一种试卷分析装置的结构示意图；

图6是本公开实施例提供的另外一种试卷分析装置的结构示意图；

图7是本公开实施例提供的另外一种试卷分析装置的结构示意图；

图8是本公开实施例提供的一种电子设备的框图；

图9是本公开实施例提供的另一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，在本公开中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序；术语“S101”、“S102”、“S201”、“S202”等用于区别步骤，而不必理解为按照特定的顺序或先后次序执行方法步骤；下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。

首先，对本公开的应用场景进行说明。本公开可以应用于电子教学领域，特别是电子教学中对拍照或扫描得到的电子图像试卷的分析应用。但实际应用中，试卷的格式多种多样，使用通常的OCR根据固定模板或固定格式进行试卷分析会出现分析错误或无法分析的问题。示例地，相关技术中对试卷进行分析时，一般根据预设题号格式级别对应关系确定题号级别，例如汉字数字格式的题号为一级；阿拉伯数字格式的题号为二级；带括号阿拉伯数字格式的题号为三级。但是实际的试卷中不一定是按照这种预设题号格式级别对应关系进行设置的，例如，实际试卷中还可以由罗马数字格式的题号，此时，使用预设题号格式级别对应关系就无法对确定该类试卷的题号级别，会导致试卷分析错误或无法分析。

为了解决上述问题，本公开提供了一种试卷分析方法、装置、存储介质及电子设备，通过预先训练得到的题号级别分类检测模型，得到每个题号的题号级别，根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域；将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；并根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。从而不再依赖固定模板或固定格式，实现了更加通用的试卷版面分析的综合解决方案，可以适配中小学多学科、多版式的拍照试卷版面分析，提高了电子教学中试卷批改的效率。

以下结合附图对本公开的具体实施方式进行详细说明。

图1是本公开实施例提供的一种试卷分析方法，如图1所示，该方法可以包括：

S101、对目标试卷的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置。

其中，该试卷图像可以是用户对试卷进行拍照或扫描获取的图像，该试卷图像中包括一道或多道题目。例如，用户通过手机拍照获取的试卷图像。

对该试卷图像进行题号识别的方式可以有多种，示例地：

方式一、可以通过OCR识别技术对试卷图像中的文字进行识别，得到多个文本行；从多个文本行中获取以预设题号格式文本为起始的候选文本行，将该预设题号格式文本作为题号文本；将该预设题号格式文本在该试卷图像的二维平面空间中的位置矢量作为该题号位置；将该预设题号格式文档对应的区域的图像作为该题号图像。

其中，该预设题号格式文本可以包括阿拉伯数字格式、汉语数字格式、罗马数字格式、带括号的阿拉伯数字格式和带括号的汉语数字格式中的一种或多种。

方式二、可以将试卷图像输入预先训练得到的题号检测模型，通过该题号检测模型进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置。

其中，该题号检测模型可以是通过题号检测样本数据训练得到的模型，用于进行题号识别。

S102、将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别。

其中，该题号级别分类检测模型可以是卷积神经网络(Convolutional NeuralNetworks，CNN)，该卷积神经网络可以根据样本数据通过视觉特征进行预先训练得到。

S103、根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域。

在本步骤中，可以根据题号级别对题号进行分组，将每组题号分别根据题号位置排序后进行切分。具体步骤如下：

首先，可以根据题号级别将题号分为一级题号、二级题号和三级题号。

其次，将所有一级题号作为目标题号，按照预设切分方式对试卷图像进行切分后，获取每个目标题号的目标题目区域。该预设切分方式可以包括：将目标题号按照题号位置进行排序；按照从上到下的顺序遍历所有目标题号并获取该题号的目标题目区域，示例地，根据第一目标题号的题号位置，获取该第一目标题号所在的文本行作为第一起始行；根据与该第一目标题号相邻且位置处于下方的第二目标题号的题号位置，获取该第二目标题号所在的文本行的前一行作为第一终止行，这样，可以将第一起始行至第一终止行的试卷图像区域作为该第一目标题号对应的第一目标题目区域；按照同样的方法，可以获取第二目标题号的第二目标题目区域，直至最后一个目标题号。需要说明的是，该试卷的最后一个目标题号对应的目标题目区域可以将该试卷的结尾行作为终止行。

再次，根据二级题号的题号位置，获取在每个一级题号的目标题目区域内的一个或多个从属二级题号；同样将该从属二级题号作为目标题号，按照上述预设切分方式对试卷图像进行切分后，获取每个目标题号的目标题目区域。

最后，根据三级题号的题号位置，获取在每个二级题号的目标题目区域内的一个或多个从属三级题号，同样将该从属三级题号作为目标题号，按照上述预设切分方式对试卷图像进行切分后，获取每个目标题号的目标题目区域。

需要说明的是，该实施例中以一级到三级题号进行举例，但本公开并不对题号级别的数目进行限定，若试卷中包括四级题号、五级题号等更多的题号级别，可以按照相同的方式对试卷图像进行切分后，获取每个题号的目标题目区域。

这样，可以根据题号级别和题号位置对该试卷图像进行切分，准确的获取每个题号的目标题目区域。

S104、将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息。

该第一图像识别模型可以是R-CNN(Region Convolutional Neural Networks，区域卷积神经网络)，该R-CNN遵循传统目标检测的思路，同样采用提取框，对每个框提取特征、图像分类、非极大值抑制四个步骤进行目标检测，但在提取特征这一步，将传统的特征提取，如SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)、HOG(Histogramof Oriented Gradient，方向梯度直方图)等特征提取，换成了使用深度卷积网络进行特征提取，提高了目标识别的准确度。

进一步地，该第一图像识别模型可以包括MaskR-CNN、CascadeR-CNN和FasterR-CNN中的一种或多种。

可选地，若该第一图像识别模型包括上述多个模型，则该多个模型可以并行检测，以图像识别的效率。

通过该第一图像识别模型检测得到的该题目信息可以包括以下一种或多种：图形、文字、表格、公式、作答区域(作答区域可以分为下划线、括号、手写+括号、手写+下划线、手写等几类)、题目类型(可以分为选择题、填空题、判断题、主观题等几类)、题目选项(分为ABCDEF等几类)、手写对错号(具体为手写对错号两类)、题目分值、页码、学生班级和学生姓名等。

S105、根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。

其中，该试卷版面内容可以通过数据库的形式存储每个题号、该题号对应的题号级别和该题号对应的题目信息。进一步地，还可以通过可视化的形式将该试卷版面内容清晰的展示给老师和学生，以方便老师对试卷进行批改，以及学生对试卷批改结果进行回顾和复习。

采用上述方法，对目标试卷的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域；将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。这样，不需要依赖固定模板或固定格式，可以对多种格式的试卷进行分析，从而提高了电子教学中试卷批改的效率。

图2是本公开实施例提供的另一种试卷分析方法，如图2所示，由于试卷样式多种多样，变化不一，题号的呈现方式不固定，在图2所示的实施例中，上述题号级别分类检测模型可以包括编码网络和解码网络，该编码网络包括文本编码网络和第一残差网络ResNet；这样，上述S102步骤可以通过以下方式实现：

S1021、将该题号文本输入该文本编码网络，得到题号文本向量。

其中，该文本编码网络可以包括Transformer网络或Word2vec网络。

在该文本编码网络为Transformer网络的情况下，可以只选用该Transformer网络中的编码(Encoder)部分，由于题号文本较短，文本序列之间的关联性不重要，因此可以将该Encoder中多头注意力模块个数设置为2个，相比相关技术中使用8个多头注意力模块可以降低计算量，提高运算效率。

进一步地，为了能够更充分地提取文本特征，在将题号文本通过embedding嵌入得到第一文本向量后，可以在该第一文本向量的通道维度上增加一个或多个多头注意力模块，例如，可以增加2个多头注意力模块。这样，可以提高文本特征提取的准确性，得到更为准确的题号文本向量。另外，该Transformer网络输出的题号文本向量可以为512维。

在该文本编码网络为Word2vec网络的情况下，该Word2vec网络可以通过以下方式建立：

首先，可以在Word2vec模型中建立包括预设题号格式文本的词汇表，该预设题号格式文本可以包括阿拉伯数字格式、汉语数字格式、罗马数字格式、带括号的阿拉伯数字格式和带括号的汉语数字格式中的一种或多种，该词汇表中可以包括上述预设题号格式文本对应的数字编码中从预设最小数字到预设最大数字。示例地，该词汇表可以包括汉语数字一到五十中，罗马数字一到五十，阿拉伯数字一到一千，带括号的阿拉伯数字一到五百等。

然后，可以根据样本题号文本数据，对Word2vec模型进行训练得到Word2vec网络，该Word2vec网络的输入为题号文本，输出为题号文本向量，该题号文本向量可以是512维。

S1022、将该题号图像输入该第一残差网络ResNet，得到题号图像向量。

其中，该第一残差网络ResNet的卷积层为深度可分离卷积，该第一残差网络ResNet的网络深度为18。

需要说明的是，ResNet的网络深度一般有18、34、50、101和152这几种典型深度，此处选择深度为18的ResNet网络可以满足这种相对简单的题号图像特征提取的要求。另外，还可以将相关技术中的卷积层更换为深度可分离卷积，深度可分离卷积操作可以分解为两个过程：深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)，也就是，首先将题号图像的每个通道使用一个尺寸为K×K的卷积核进行卷积，得到的特征图数量与输入的题号图像的通道数相同；然后将上述特征图通过n个1×1×M(M为上一层的通道数，n为输出通道数)的卷积核进行卷积运算，得到该题号新的特征图，最后加上全局平均池化层，得到1×n维的特征向量。这样，通过使用深度可分离卷积替换传统卷积方式，可以在保持特征向量提取效果的前提下，减小了模型的大小和运算量，从而提升了模型运算效率。

示例地，该深度可分离卷积的深度卷积核尺寸可以为3×3，题号图像的特征图输出通道数N可以为512，这样可以通过该残差网络ResNet得到512维的题号图像向量。

S1023、对该题号位置进行位置编码，得到题号位置向量。

在本步骤中，可以对该题号位置使用利用三角函数进行位置编码，得到题号位置向量。示例地，可以分别使用正弦、余弦函数对题号位置进行位置编码，公式如下：

PE_(pos，2i)＝sin(pos/10000^2i/d)；

PE_(pos，2i+1)＝cos(pos/10000^2i/d)；

其中，pos为该题号位置，PE_(pos，2i)和PE_(pos，2i+1)共同组成位置编码后的题号位置向量，i为题号位置编码的每个维度，d为位置编码后的输出维度，也就是输出的题号位置向量的维数。

例如：pos为3，d为512，则根据上述公式进行位置编码后得到的题号位置向量可以为[sin(3/10000^0/512)，cos(3/10000^1/512)，sin(3/10000^2/512)，cos(3/10000^3/512)，……，sin(3/10000^510/512)，cos(3/10000^511/512)]。

S1024、将该题号文本向量、该题号图像向量和该题号位置向量，输入上述解码网络，得到每个题号的题号级别。

需要说明的是，上述题号文本向量、题号图像向量和题号位置向量均可以是512维向量，上述解码网络可以包括卷积层和全连接层，这样可以得到较为准确的题号级别。

通过上述方式，将文本特征、图像视觉特征、空间位置特征相结合，利用多模态融合的方式进行深度学习模型训练，可以更准确地得到题号层级类别；并且通过上述网络结构的应用，在保持题号级别识别准确度的前提下，可以减小模型的大小和运算量，提升模型的运算效率。

图3是本公开实施例提供的另外一种试卷分析方法，如图3所示，该方法可以包括：

S301、获取该目标试卷的原始图像。

该原始图像可以包括背景区域图像和试卷区域图像。该原始图像可以是用户拍照上传的图像，也可以是用户扫描上传的图像。

S302、对该原始图像进行图像预处理。

需要说明的是，由于用户拍照上传的原始图像的形式多种多样，质量不一，会存在一些干扰因素，影响对试卷的分析效果。例如，可能会存在多余复杂的背景区域图像；原始图像中的试卷文字内容倾斜或变形等。为了尽可能减少上述干扰因素对试卷版面分析的影响，在该步骤中可以对原始图像进行图像预处理，再对预处理后的试卷图像进行题号识别等试卷分析过程，从而提升试卷分析的效果。其中，该图像预处理可以包括文字方向处理和/或背景去除处理，以下分别进行说明：

由于用户上传的原始图像中的文字方向多样，例如0度、90度、180度、270度等方向，其中0度表征文字正立，可以作为预设方向，在该预设方向下，试卷分析的效果最佳。因此，在本实施例中，文字方向处理的方式可以包括以下步骤：

首先，将该原始图像输入第二残差网络ResNet，得到该原始图像的文字方向。

其中，该第二残差网络ResNet模型为根据样本原始图像数据预先训练得到，可以是四分类的分类模型。

可选地，该第二残差网络ResNet可以包括卷积块注意力模块。示例地，该第二残差网络可以基于ResNet18(其中18代表网络的深度)进行，为了进一步提升上述四个文字方向的分类准确性，可以在第二残差网络中的每一个卷积层加入一个卷积块注意力模块(Convolutional Block Attention Module)，将注意力机制引入该第二残差网络，使得分类准确率得到有效提升，通过打好标签的样本原始图像数据进行训练后，分类准确率可达到99％以上。

其次，在该文字方向不是预设方向的情况下，根据该文字方向对将该原始图像进行旋转，以使得旋转后的原始图像的文字方向为预设方向。

示例地，若通过上述第二残差网络得到该原始图像的文字方向为270度，而预设方向为0度，则可以将该原始图像旋转270度后得到文字方向为0度的图像，以提高试卷分析的准确性。

进一步地，用户拍照得到的试卷原始图像中还会出现复杂多样的背景图像，也会对判断试卷内容的后续分析造成严重干扰，因此，需要去掉试卷区域外的多余背景。传统图像处理方法适用性有限，面对复杂多变的背景难以用统一的方式解决，因此，在本实施例中，背景去除处理的方式可以包括以下步骤：

首先，通过边缘检测模型对该原始图像进行边缘检测，得到该目标试卷的边缘信息，根据该边缘信息从该原始图像中确定该试卷区域图像。

在本步骤中，可以将该原始图像输入预先训练的边缘检测模型，得到该目标试卷的边缘特征图像；从该边缘特征图像中获取该目标试卷的边缘信息。

该边缘检测模型可以是HED(Holistically-Nested Edge Detection，整体嵌套边缘检测)边缘检测网络。HED边缘检测网络是一个深度学习的边缘检测算法，可以充分利用神经网络特征处理的天然优势，采用全卷积网络自动学习丰富的分层表示，通过训练充分捕捉到试卷的边缘层级特征。并且HED可以在每个卷积层后添加一个侧输出层，在每个侧输出层施加深度监督，从而引导侧输出成为边缘预测，进一步通过对这些侧输出层采用加权融合的方式自动进行组合多个尺度的输出，能够使得网络自动学习获取试卷边缘的层级特征。

最后，根据该试卷区域图像获取该试卷图像。

在本步骤中，可以直接将该试卷区域图像作为该试卷图像；也可以对该试卷区域图像进行透视变换，得到该试卷图像。这样，通过透视变换可以实现对试卷图像的矩形校正，使得校正后的试卷图像成为规则矩形。

S303、对预处理后的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置。

S304、将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别。

S305、根据题号级别和题号位置对题号进行修正。

需要说明的是，若拍照图像较为模糊，上述题号识别的结果可能会被干扰。因此，在本步骤中，可以通过以下方式对题号进行修正后：

首先，根据该题号级别对该题号进行编码，得到该题号的数字编码。

其次，根据该题号位置对该题号进行排序。

最后，针对排序后的每个题号，确认该题号的数字编码与相邻题号的数字编码是否连续；在确认该题号的数字编码与相邻题号的数字编码不连续的情况下，根据该相邻题号对该题号进行修正，以获取修正后的题号。

示例地，若根据题号位置排序后的题号识别结果为1，22，3，4，5，则其中的22与相邻题号的数字编码不联系，这样可以根据相邻题号为1和2，从而将该题号修正为2，修正后的题号识别结果为1，2，3，4，5。

这样，通过对题号的修正，进一步提高了题号识别的准确率。

S306、根据修正后的题号、题号级别和题号位置对该试卷图像进行切分，获取每个题号的目标题目区域。

S307、对目标题目区域进行修正。

在本步骤中，为了进一步增加目标题目区域获取的准确性，可以通过以下方式对目标题目区域进行修正：

首先，将该目标试卷图像输入预先训练得到的第二图像识别模型，得到一个或多个候选题目区域。

该第二图像识别模型可以是预先训练的用于获取试卷图像中每个题号对应的候选题目区域的模型，同样地，该第二图像识别模型也可以是R-CNN网络。通过该第二图像识别模型，可以将目标试卷图像进行切分并获取每个题号对应的候选题目区域。

其次，针对每个题号，在该一个或多个候选题目区域中，获取与该题号的目标题目区域的位置重合度最高的第一候选题目区域。

最后，在该位置重合度小于或等于预设重合度阈值的情况下，根据该第一候选题目区域对该目标题目区域进行修正。

需要说明的是，上述位置重合度可以是IOU(Intersection-over-Union，交并比)，也就是上述第一候选题目区域和目标题目区域的交集与并集的比值。上述预设重合度阈值可以设定为60％至90％之间的任意数值，例如可以是80％。

根据该第一候选题目区域对该目标题目区域进行修正的方式，可以将该第一候选题目区域对该目标题目区域的并集作为新的目标题目区域。这样，可以避免遗漏题目区域，提高了目标题目区域识别的完整度。

S308、将修正后的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息。

S309、根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。

这样，通过对用户拍照上传的目标试卷的原始图像进行图像预处理，并进行题号检测、题号修正、题目区域获取及修正、以及题目信息获取，可以生成目标试卷的试卷版面内容，从而不需要依赖固定模板或固定格式，即可以对多种格式的试卷进行分析，提高了电子教学中试卷批改的效率。

图4是本公开实施例提供的一种试卷分析装置的结构示意图，如图4所示，该装置包括：

题号识别模块401，用于对目标试卷的试卷图像进行题号识别，获取该试卷图像中的一个或多个题号，并获取每个题号的题号文本、题号图像和题号位置；

题号级别检测模块402，用于将该题号文本、该题号图像和该题号位置输入预先训练得到的题号级别分类检测模型，得到每个题号的题号级别；

题目区域获取模块403，用于根据该题号级别和该题号位置对该试卷图像进行切分，获取每个题号的目标题目区域；

题目信息获取模块404，用于将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息；

试卷版面内容生成模块405，用于根据该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。

可选地，该题号级别分类检测模型包括编码网络和解码网络，该编码网络包括文本编码网络和第一残差网络ResNet；其中：

该题号级别检测模块402，用于将该题号文本输入该文本编码网络，得到题号文本向量；将该题号图像输入该第一残差网络ResNet，得到题号图像向量；对该题号位置进行位置编码，得到题号位置向量；将该题号文本向量、该题号图像向量和该题号位置向量，输入该解码网络，得到每个题号的题号级别。

可选地，该第一残差网络ResNet的卷积层为深度可分离卷积，该第一残差网络ResNet的网络深度为18。

可选地，该文本编码网络包括Transformer网络或Word2vec网络。

可选地，图5是本公开实施例提供的另一种试卷分析装置的结构示意图，如图5所示，该装置还包括题号修正模块501，其中：

题号修正模块501，用于根据该题号级别对该题号进行编码，得到该题号的数字编码；根据该题号位置对该题号进行排序；针对排序后的每个题号，确认该题号的数字编码与相邻题号的数字编码是否连续；在确认该题号的数字编码与相邻题号的数字编码不连续的情况下，根据该相邻题号对该题号进行修正，以获取修正后的题号；

该题目区域获取模块403，用于根据修正后的该题号、该题号级别和该题目信息，生成该目标试卷的试卷版面内容。

可选地，图6是本公开实施例提供的另外一种试卷分析装置的结构示意图，如图6所示，该装置还包括题目区域修正模块601，其中：

该题目区域修正模块601，用于将该目标试卷图像输入预先训练得到的第二图像识别模型，得到一个或多个候选题目区域；针对每个题号，在该一个或多个候选题目区域中，获取与该题号的目标题目区域的位置重合度最高的第一候选题目区域；在该位置重合度小于或等于预设重合度阈值的情况下，根据该第一候选题目区域对该目标题目区域进行修正；

题目信息获取模块404，用于将修正后的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息。

可选地，该题目信息包括图形、文字、表格、公式、作答区域和题目分值中的一种或多种。

可选地，图7是本公开实施例提供的另外一种试卷分析装置的结构示意图，如图7所示，该装置还包括图像预处理模块701，其中：

该图像预处理模块701，用于获取该目标试卷的原始图像，该原始图像包括背景区域图像和试卷区域图像；通过边缘检测模型对该原始图像进行边缘检测，得到该目标试卷的边缘信息；根据该边缘信息从该原始图像中确定该试卷区域图像；根据该试卷区域图像获取该试卷图像。

可选地，该图像预处理模块701，用于将该原始图像输入预先训练的边缘检测模型，得到该目标试卷的边缘特征图像；从该边缘特征图像中获取该目标试卷的边缘信息。

可选地，该图像预处理模块701，用于对该试卷区域图像进行透视变换，得到该试卷图像。

可选地，该图像预处理模块701，还用于将该原始图像输入第二残差网络ResNet，得到该原始图像的文字方向，其中，该第二残差网络ResNet模型为根据样本原始图像数据预先训练得到；在该文字方向不是预设方向的情况下，根据该文字方向对将该原始图像进行旋转，以使得旋转后的原始图像的文字方向为预设方向；通过边缘检测模型对旋转后的原始图像进行边缘检测。

可选地，该第二残差网络ResNet包括卷积块注意力模块。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是根据一示例性实施例示出的一种电子设备800的框图。如图8所示，该电子设备800可以包括：处理器801，存储器802。该电子设备800还可以包括多媒体组件803，输入/输出(I/O)接口804，以及通信组件805中的一者或多者。

其中，处理器801用于控制该电子设备800的整体操作，以完成上述的试卷分析方法中的全部或部分步骤。存储器802用于存储各种类型的数据以支持在该电子设备800的操作，这些数据例如可以包括用于在该电子设备800上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器802可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件803可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器802或通过通信组件805发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口804为处理器801和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件805用于该电子设备800与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件805可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的试卷分析方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的试卷分析方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器802，上述程序指令可由电子设备800的处理器801执行以完成上述的试卷分析方法。

图9是根据一示例性实施例示出的一种电子设备900的框图。例如，电子设备900可以被提供为一服务器。参照图9，电子设备900包括处理器922，其数量可以为一个或多个，以及存储器932，用于存储可由处理器922执行的计算机程序。存储器932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器922可以被配置为执行该计算机程序，以执行上述的试卷分析方法。

另外，电子设备900还可以包括电源组件926和通信组件950，该电源组件926可以被配置为执行电子设备900的电源管理，该通信组件950可以被配置为实现电子设备900的通信，例如，有线或无线通信。此外，该电子设备900还可以包括输入/输出(I/O)接口958。电子设备900可以操作基于存储在存储器932的操作系统，例如Windows Server，Mac OS，Unix，Linux等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的试卷分析方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器932，上述程序指令可由电子设备900的处理器922执行以完成上述的试卷分析方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的试卷分析方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种试卷分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述题号级别分类检测模型包括编码网络和解码网络，所述编码网络包括文本编码网络和第一残差网络ResNet；所述将所述题号文本、所述题号图像和所述题号位置输入题号级别分类检测模型，得到每个题号的题号级别包括：

对所述题号位置进行位置编码，得到题号位置向量；

3.根据权利要求2所述的方法，其特征在于，所述第一残差网络ResNet的卷积层为深度可分离卷积，所述第一残差网络ResNet的网络深度为18。

4.根据权利要求2所述的方法，其特征在于，所述文本编码网络包括Transformer网络或Word2vec网络。

5.根据权利要求1所述的方法，其特征在于，在根据所述题号、所述题号级别和所述题目信息，得到试卷版面内容之前，所述方法还包括：

根据所述题号位置对所述题号进行排序；

6.根据权利要求1所述的方法，其特征在于，在将每个题号的目标题目区域输入预先训练得到的第一图像识别模型，得到该题号的题目信息之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述题目信息包括图形、文字、表格、公式、作答区域和题目分值中的一种或多种。

8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述对目标试卷的试卷图像进行题号识别之前，所述方法还包括：

根据所述试卷区域图像获取所述试卷图像。

9.根据权利要求8所述的方法，其特征在于，所述通过边缘检测模型对所述原始图像进行边缘检测，得到所述目标试卷的边缘信息包括：

从所述边缘特征图像中获取所述目标试卷的边缘信息。

10.根据权利要求8所述的方法，其特征在于，所述根据所述试卷区域图像获取所述试卷图像包括：

对所述试卷区域图像进行透视变换，得到所述试卷图像。

11.根据权利要求8所述的方法，其特征在于，在所述通过边缘检测模型对所述原始图像进行边缘检测之前，所述方法还包括：

所述通过边缘检测模型对所述原始图像进行边缘检测包括：

通过边缘检测模型对旋转后的原始图像进行边缘检测。

12.根据权利要求11所述的方法，其特征在于，所述第二残差网络ResNet包括卷积块注意力模块。

13.一种试卷分析装置，其特征在于，所述装置包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至12中任一项所述方法的步骤。

15.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1至12中任一项所述方法的步骤。