CN113033721B

CN113033721B - 题目批改方法及计算机存储介质

Info

Publication number: CN113033721B
Application number: CN202110597414.7A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-28
Anticipated expiration: 2041-05-31
Also published as: CN113033721A

Abstract

本发明实施例提供一种题目批改方法及计算机存储介质，涉及人工智能技术领域。其中，所述方法包括：通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，获得数学做图题的题目内容特征数据；通过题目内容描述模型中的特征融合部分，对文本区域中的文本字符串特征数据、图像对象区域中的图像对象的类别特征数据，以及题目内容特征数据进行特征融合，获得数学做图题的题目特征融合数据；通过题目内容描述模型中的生成部分，基于数学做图题的题目特征融合数据，生成数学做图题对应的题目内容描述数据；基于题目内容描述数据，对数学做图题进行批改。通过本发明实施例，能够有效地对数学做图题进行批改。

Description

题目批改方法及计算机存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种题目批改方法及计算机存储介质。

背景技术

随着计算机技术的发展，线上教学得到了快速的发展，相应的一些教学工具类产品也应运而生，为学生、老师、家长提供教育辅导上的技术支持和帮助，很多教学工具类产品都能提供将题目拍照进行批改的功能。

拍照批改题目是人工智能技术在教育领域的一项重要应用，其大致流程是，使用手机或平板电脑等终端设备对待批改的题目进行拍照，并上传至题目批改的应用程序。应用程序对题目图像进行文本检测和内容识别等多个环节的处理，然后将题目的批改结果输出。然而，该应用程序只能批改一些常规的计算题型，如横式、竖式和脱式，无法批改常见的带有语义信息的数学做图题，比如低年级数学中常见的数学做图题，一共有10只鸭子，给8只鸭子涂上颜色。数学做图题在小学数学作业中非常常见，而且数量不少，特别在一二年级中频繁出现，对这些数学做图题的支持能更大的拓展题目批改的应用范围，更能满足用户的需要，但现有技术中不存在有效地对数学做图题进行批改的技术方案。

由此可见，如何有效地对数学做图题进行批改成为当前亟待解决的技术问题。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种题目批改方法及计算机存储介质，用以解决上述技术问题至少之一。

本发明实施例提供一种题目批改方法。所述方法包括：通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据，其中，所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域；通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据；通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据；基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果。

本发明实施例还提供一种计算机存储介质，所述计算机存储介质存储有可读程序，所述可读程序包括：用于通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据的指令，其中，所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域；用于通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据的指令；用于通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据的指令；用于基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果的指令。

根据本发明实施例提供的题目批改方案，通过题目内容描述模型中的特征融合部分，对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据，以及数学做图题的题目内容特征数据进行特征融合，能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据，并通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，能够准确地生成所述数学做图题对应的题目内容描述数据。进而，基于所述题目内容描述数据，对所述数学做图题进行批改，能够有效地对数学做图题进行批改。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一的题目批改方法的步骤流程图；

图2示出了本发明实施例一的题目批改方法的示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

在详细介绍本发明实施例的具体实施方式之前，简要说明一下本发明实施例的技术方案的设计思路。具体地，描述语句和图像是两种不同模态的信息，而且描述语句长度一般在10个字符左右，但是图像至少有上万个像素点组成，从这个角度看，根据图像生成描述语句是一个高维到低维的问题，也就是图像提供的信息完全足够生成描述语句，但是从实际来看，图像虽然提供了足够多的信息，但是网络模型却无法完全捕捉到信息，这可能是因为信息分布过于分散，网络模型无法很好的进行捕捉。此外，目前常规的方法都是先使用卷积神经网络提取图像特征，然后使用循环神经网络从这些特征中得出描述语句，直接完成图像到描述语句的模态转变，将所有工作全部交由网络模型实现，这导致不仅需要大量的训练数据，而且训练效果不佳。基于此，本申请的发明人认为，使用题目内容描述模型实现数学做图题的批改时，以根据图像生成描述语句技术为主，引入文本检测结果和文本识别结果作为辅助信息，从而能够准确地获得题目内容描述语句，进而有效地实现对数学做图题进行批改。本发明实施例提供的题目批改方法的具体实施方式如下：

实施例一

参照图1，示出了本发明实施例一的题目批改方法的步骤流程图。

具体地，本发明实施例提供的题目批改方法，包括以下步骤：

在步骤S101中，通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据。

在本实施例中，所述题目内容描述模型可理解为用于根据题目图像生成题目内容描述数据的神经网络模型。所述题目内容描述模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型，包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定，如卷积层的层数、卷积核的大小、通道数等等。具体地，所述题目内容描述模型包括特征提取部分、特征融合部分和生成部分。其中，所述特征提取部分用于将待批改的数学做图题的图像转变为高维特征，例如，对待批改的数学做图题的图像提取纹理、边缘、角点和语义信息等图像特征。所述特征提取部分由经典的卷积神经网络构成，具体可以是Resnet18网络（Deep residual network，深度残差网络）。所述数学做图题可理解为通过做图来进行解答的数学题。所述数学做图题通常由文本部分和图像对象部分组成。相应地，所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域。例如，低年级数学中常见的数学做图题“一共有10只鸭子，给8只鸭子涂上颜色”，其中，“一共有10只鸭子，给8只鸭子涂上颜色”所在的部分为文本部分，待涂颜色的鸭子的图片为图像对象，待涂颜色的鸭子的图片所在的部分为图像对象部分。又例如，低年级数学中常见的数学做图题“一共有8只羊，给3只羊涂上蓝色”，其中，“一共有8只羊，给3只羊涂上蓝色”所在的部分为文本部分，待涂蓝色的羊的图片为图像对象，待涂蓝色的羊的图片所在的部分为图像对象部分。所述数学做图题的题目内容特征数据可为所述数学做图题的题目内容特征向量或者所述数学做图题的题目内容特征图。

在一个具体的例子中，当所述特征提取部分为Resnet18网络时，所述Resnet18网络可以是由四个残差块串联构建得到的神经网络模型。其中，每个残差块包括若干个具有残差连接的卷积层和池化层，用于将前一级输出的特征图的尺寸降低一倍。例如，第一个残差块输出一个大小为数学做图题的图像的1/4的初始特征图，第二个残差块输出一个大小为数学做图题的图像的1/8的初始特征图，第三个残差块输出一个大小为数学做图题的图像的1/16的初始特征图，第四个残差块输出一个大小为数学做图题的图像的1/32的初始特征图。具体地，当输入的数学做图题的图像为512*512时，四个残差块的输出分别为：256*256、128*128、64*64、32*32。其中，每组初始特征图的数量都是128个，这4组初始特征图包含了不同尺度的信息。每个残差块输出的初始特征图的数量都比较小，而不是像其他网络模型一样输出成百上千的数量。这种连接方式使特征的传递更加有效，网络的训练也就更加容易。由于上述四个初始特征图的尺寸不同，为便于对初始特征图进行融合，可以先分别对上述四个初始特征图进行上采样处理，以得到尺寸相同的初始特征图（例如，上采样处理后得到的原始特征图尺寸可以均为1/4），再对采样处理后的初始特征图进行特征融合。例如，对四个初始特征图中相同位置的元素分别进行乘法运算，得到所述数学做图题的题目内容特征图。

在步骤S102中，通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据。

在本实施例中，所述特征融合部分可理解为用于特征融合的神经网络模型。例如，所述特征融合部分可为特征金字塔网络。所述文本字符串特征数据可为预先配置的文本字符串特征数据，或者通过文本识别模型识别得到的文本字符串特征数据。所述文本字符串特征数据可为文本字符串概率矩阵，其大小为L*N，L表示文本字符串的大小，N表示字典大小。所述类别特征数据可为预先配置的类别特征数据，或者通过图像对象检测结果确定得到的类别特征数据。所述类别特征数据可为类别特征向量。所述题目特征融合数据可为题目特征融合矩阵或者题目特征融合特征图。

在一些可选实施例中，在通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合时，通过所述特征融合部分，对所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据的维度进行扩展，使得所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据具有相同的维度；通过所述特征融合部分，对维度扩展后的所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据进行叠加，以获得所述数学做图题的题目特征融合数据。籍此，通过所述特征融合部分，对所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据的维度进行扩展，并对维度扩展后的所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据进行叠加，能够准确地获得所述数学做图题的题目特征融合数据。

在一些可选实施例中，所述通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合之前，所述方法还包括：通过目标检测模型，对所述数学做图题的图像进行文本检测，以获得所述数学做图题的文本检测结果；基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域；通过文本识别模型，对所述数学做图题的文本区域进行文本识别，以获得所述文本区域中的文本字符串特征数据。籍此，通过目标检测模型的文本检测结果，能够准确地确定所述数学做图题的文本区域。此外，通过文本识别模型，对所述数学做图题的文本区域进行文本识别，能够准确地获得所述文本区域中的文本字符串特征数据。

在一个具体的例子中，所述目标检测模型可为CenterNet网络。CenterNet网络是一种用于通用目标检测的方法，可视为基于回归的方法，在该目标检测方法中，首先设定要检测的物体的总体的类别N，最后输出通道数量为N+2+2+1，其中包括检测物体的中心点，为每种类别输出一张得分图（其每个像素点的值在0到1之间，表示这个点是某类物体中心的概率），因此会有N张得分图。在检测的过程中，并不能保证检测到的中心点就是真实的中心点，实际中往往会发生偏移，因此还会用两个通道来检测中心点的偏移量（一个是x轴偏移量，一个是y轴偏移量）。除此之外，还有两个通道用来检测中心点距离检测框左边框和上边框的距离，还有一个通道用来检测检测框的长边与水平方向的夹角或者检测框的宽边与竖直方向的夹角，也即是检测框的旋转角度，实际的后处理为，通过设定阈值在得分图找到物体的可能中心点，然后根据中心点对应的xy偏移量对中心点进行校正，然后通过中心点并结合预测到的宽高和旋转角度直接得到检测框。相应地，所述数学做图题的文本检测结果包括以下中的至少一者：文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。籍此，通过所述文本检测结果，能够准确地确定所述数学做图题的文本区域。具体地，所述中心点得分图的每个像素点对应一个分数，代表相应的像素点可能作为文本检测框中心点的概率值。概率得分图中的分值均为0到1之间的小数，例如可以是0.11，0.34，0.52，0.89等，这里不做穷举。当像素点的得分大于阈值时，认为该像素点是文本检测框的中心点。所述阈值可以是人工预先设定的，也可以根据题目图像的实际情况，由模型计算后自动进行设定。举例来说，当人工预设得分图的阈值为0.70时，题目图像中得分为0.81、0.79、0.92对应的像素点即为模型检测的文本检测框中心点，其他得分较低的点则不是中心点。此处阈值的设定还可以设定为其他值，这里不做穷举。由于在检测的过程中，并不能保证得分最高的点就一定是文本检测框的中心点，也就是说检测到的中心点可能与真实的中心点发生一定量的偏移，因此还会用两个通道来检测中心点的偏移量。例如，以上述根据特定阈值得到的一个中心点像素作为坐标原点，通道输出的x轴偏移量为3，y轴偏移量为-2，那么对应的文本检测框的实际中心点的坐标为（3，-2）。上述偏移量用于表示像素间的距离值，当然也可以是其他正整数值，这里不做穷举。

在一个具体的例子中，所述文本识别模型可为CRNN（Convolutional RecurrentNeural Network，卷积循环神经网络）。CRNN网络从下至上，由卷积神经网络、循环神经网络和翻译层三部分组成，卷积神经网络负责从带文字的图片中提取特征，循环神经网络负责用卷积神经网络提取的特征进行序列预测，翻译层将循环神经网络得到的序列翻译为字母序列，目标函数选择“连接时序分类”（CTC）损失函数。CRNN网络的一大优点是尽管包含不同类型的网络结构，但是仍然能够被端到端的训练，目前在各种数据集上，CRNN性能优越，超过其他模型，自从提出至今，虽然已历经数年，但仍然经久不衰。具体地，所述卷积神经网络由5层卷积神经网络构成，所述循环神经网络由两层双向长短时记忆网络组成，输入为数学做图题的图像，输出为数学做图题的图像的文本字符串的概率矩阵表示（比如设定输出字符串的大小为L，字典大小为N，则输出为L*N），然后通过贪心或集束搜索解码得到具体字符串。

在一些可选实施例中，在通过目标检测模型，对所述数学做图题的图像进行文本检测时，通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行文本特征提取，以获得所述数学做图题的多个不同尺度的文本特征图；通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果。籍此，通过所述数学做图题的多个不同尺度的文本特征图，能够准确地获得所述数学做图题的文本检测结果。

在一些可选实施例中，在通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果时，通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的文本特征图进行上采样，以获得所述数学做图题的多个相同尺度的文本特征图；通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的文本特征图进行串联，以获得所述数学做图题的文本的特征映射图；通过所述检测部分的注意力层，对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的文本检测结果。籍此，对所述数学做图题的多个不同尺度的文本特征图进行上采样，并对所述数学做图题的多个相同尺度的文本特征图进行串联，再对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作，能够准确地获得所述数学做图题的文本检测结果。

在一个具体的例子中，所述目标检测模型可为CenterNet网络。所述特征提取部分可以是Resnet18网络，并且作为CenterNet网络的骨干网络，Resnet18网络由四个残差块串联构建，每个残差块包括若干层卷积操作，第一个残差块输出的特征映射大小为数学做图题的图像的1/4，第二个残差块为数学做图题的图像的1/8，第三个残差块为数学做图题的图像的1/16，第四个残差块为数学做图题的图像的1/32，每个残差块输出的特征映射数量都为128，CenterNet网络的检测部分将4组特征映射全部通过插值的方式将其大小变为数学做图题的图像的1/4大小并串联，得到一组特征映射，其通道数量为512，接着对上述512通道的特征映射做一次卷积操作，两次反卷积操作，得到与数学做图题的图像的大小一致的6（1+2+2+1）通道输出，第一个通道表示文本检测框的中心点得分图（即每个像素点值在0到1之间，表示这个点是文本检测框中心点的概率），第二和第三个通道是中心点的xy偏移量，第四和第五个通道表示文本检测框的宽和高，第六个通道表示文本检测框的旋转角度（加上旋转角度以适应多方向文本检测框）。

在一些可选实施例中，在基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域时，基于所述文本检测框的中心点得分图，确定所述文本检测框的中心点位置坐标；基于所述文本检测框的中心点的偏移量，对所述文本检测框的中心点位置坐标进行调整，以获得调整后的所述中心点位置坐标；基于所述文本检测框的宽度和高度，以及所述调整后的所述中心点位置坐标，确定所述文本检测框的初始框；基于所述文本检测框的旋转角度，对所述文本检测框的初始框进行旋转，以获得所述文本检测框，并基于所述文本检测框，确定所述数学做图题的文本区域。籍此，通过获得的文本检测框，能够准确地确定所述数学做图题的文本区域。

在一些可选实施例中，所述方法还包括：通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测，以获得所述数学做图题的图像对象检测结果；基于所述数学做图题的图像对象检测结果，确定所述数学做图题的图像对象区域中的图像对象的类别；对所述数学做图题的图像对象区域中的图像对象的类别进行编码，以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。籍此，通过目标检测模型的图像对象检测结果，能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。此外，对所述数学做图题的图像对象区域中的图像对象的类别进行编码，能够准确地获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。

在一个具体的例子中，所述目标检测模型可为CenterNet网络，与上述CenterNet网络的原理和结构类似，在此不再赘述。所述数学做图题的图像对象检测结果包括以下中的至少一者：所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。籍此，能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。

在一些可选实施例中，在通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测时，通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行图像对象的特征提取，以获得所述数学做图题的多个不同尺度的图像对象特征图；通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果。籍此，通过所述数学做图题的多个不同尺度的图像对象特征图，能够准确地获得所述数学做图题的图像对象检测结果。

在一些可选实施例中，在通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果时，通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的图像对象特征图进行上采样，以获得所述数学做图题的多个相同尺度的图像对象特征图；通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的图像对象特征图进行串联，以获得所述数学做图题的图像对象的特征映射图；通过所述检测部分的注意力层，对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的图像对象检测结果。籍此，对所述数学做图题的多个不同尺度的图像对象特征图进行上采样，并对所述数学做图题的多个相同尺度的图像对象特征图进行串联，再对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作，能够准确地获得所述数学做图题的图像对象检测结果。

在一个具体的例子中，在确定所述数学做图题的图像对象区域中的图像对象的类别时，由于所述数学做图题的图像对象检测结果包括所属类别的图像对象的检测框的中心点得分图，因此，能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。

在一个具体的例子中，在对所述数学做图题的图像对象区域中的图像对象的类别进行编码时，可通过字符的编码方式（如one-hot或者word2vec），对所述数学做图题的图像对象区域中的图像对象的类别进行编码，以获得所述数学做图题的图像对象区域中的图像对象的类别特征向量。

在步骤S103中，通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据。

在本实施例中，所述生成部分可理解为用于生成所述数学做图题对应的题目内容描述数据的神经网络模型。所述题目内容描述数据可为题目内容描述语句。举例来说，当待批改的数学做图题为低年级数学中常见的数学做图题“一共有10只鸭子，给8只鸭子涂上颜色”时，如果作答者涂了7只鸭子，那么对应的题目内容描述语句可以为“一共10只鸭子，要为其中的8只图上颜色，图了7只”。

在一些可选实施例中，在通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据时，通过所述生成部分的解码层，对所述数学做图题的题目特征融合数据进行解码，以获得所述数学做图题的题目内容描述的字符概率数据；通过所述生成部分的连接时序分类层，基于所述数学做图题的题目内容描述的字符概率数据，生成所述数学做图题对应的题目内容描述数据。其中，所述解码层可为两层双向长短时记忆网络，所述字符概率数据可为字符概率矩阵。籍此，通过所述数学做图题的题目内容描述的字符概率数据，能够准确地生成所述数学做图题对应的题目内容描述数据。

在一个具体的例子中，在使用目标检测模型、文本识别模型和题目内容描述模型之前，需要对目标检测模型、文本识别模型和题目内容描述模型进行训练。具体地，可以使用标注有文本检测框坐标和图像对象检测框坐标的数学做图题的图像样本，对目标检测模型进行训练，从而训练得到能够实现目标检测的目标检测模型。可以使用在文本检测框内标注有字符串信息的图像样本，对文本识别模型进行训练，从而训练得到能够实现文本识别的文本识别模型。可以使用标注有题目内容描述语句的图像样本，对题目内容描述模型进行训练，从而训练得到能够生成题目内容描述语句的题目内容描述模型。更具体地，首先去掉题目内容描述模型的特征融合部分（这一部分没有参数，加上去掉不影响模型参数），等到目标函数基本趋于收敛则停止（题目内容描述模型的输出与文本识别模型的输出一样，都有最大字符串长度和字典大小的限制）。接着，加入特征融合部分，对题目内容描述模型继续训练，直到收敛。这样能够有效加快题目内容描述模型的训练速度。

在步骤S104中，基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果。

在一些可选实施例中，在基于所述题目内容描述数据，对所述数学做图题进行批改时，若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像，将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对，并根据比对结果，对所述数学做图题进行批改，以获得所述数学做图题的批改结果。籍此，通过所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对结果，能够有效地对所述数学做图题进行批改。

在一个具体的例子中，若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据相同，则批改所述数学做图题正确；若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据不相同，则批改所述数学做图题错误。可替换地，若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对相似度大于预设的相似度阈值，则批改所述数学做图题正确；若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对相似度小于或者等于预设的相似度阈值，则批改所述数学做图题错误。

在一个具体的例子中，如图2所示，本实施例提供的题目批改方法的具体实现过程如下：首先，通过目标检测模型，对所述数学做图题的图像进行文本检测，以获得所述数学做图题的文本检测结果，并基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域，再通过文本识别模型，对所述数学做图题的文本区域进行文本识别，以获得所述文本区域中的文本字符串特征数据。其次，通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测，以获得所述数学做图题的图像对象检测结果，并基于所述数学做图题的图像对象检测结果，确定所述数学做图题的图像对象区域中的图像对象的类别，再对所述数学做图题的图像对象区域中的图像对象的类别进行编码，以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。再次，通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据，并通过所述题目内容描述模型中的特征融合部分，对所述文本区域中的文本字符串特征数据、所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据，再通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据，再基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果。具体地，数学做图题的图像并行同时进入目标检测模型和题目内容描述模型，目标检测模型得到检测结果，将文本区域送入文本识别模型，得出字符串概率矩阵，称为数据一，对于检测到的图像对象区域中的图像对象（检测出来时已经知道类别），将其类别用字符的编码方式（如one-hot或者word2vec）进行编码，称为数据二，而题目内容描述模型经过特征提取部分得到的题目内容特征图称为数据三，然后题目内容描述模型的融合特征部分将三个数据扩展到同样的维度进行叠加，得到融合数据。这相当于为数学做图题的图像提取的题目内容特征图增加了引导信息，然后将融合数据输入生成部分，得到题目内容描述语句。

根据本发明实施例提供的题目批改方法，通过题目内容描述模型中的特征融合部分，对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据，以及数学做图题的题目内容特征数据进行特征融合，能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据，并通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，能够准确地生成所述数学做图题对应的题目内容描述数据。进而，基于所述题目内容描述数据，对所述数学做图题进行批改，能够有效地对数学做图题进行批改。

本实施例提供的题目批改方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理（PDA）、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备（如Google Glass、Oculus Rift、Hololens、Gear VR）等。

实施例二

可选地，所述可读程序还包括：用于通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合之前，通过目标检测模型，对所述数学做图题的图像进行文本检测，以获得所述数学做图题的文本检测结果的指令；用于基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域的指令；用于通过文本识别模型，对所述数学做图题的文本区域进行文本识别，以获得所述文本区域中的文本字符串特征数据的指令。

可选地，所述用于通过目标检测模型，对所述数学做图题的图像进行文本检测的指令，包括：用于通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行文本特征提取，以获得所述数学做图题的多个不同尺度的文本特征图的指令；用于通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果的指令。

可选地，所述用于通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果的指令，包括：用于通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的文本特征图进行上采样，以获得所述数学做图题的多个相同尺度的文本特征图的指令；用于通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的文本特征图进行串联，以获得所述数学做图题的文本的特征映射图的指令；用于通过所述检测部分的注意力层，对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的文本检测结果的指令。

可选地，所述数学做图题的文本检测结果包括以下中的至少一者：文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。

可选地，所述用于基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域的指令，包括：用于基于所述文本检测框的中心点得分图，确定所述文本检测框的中心点位置坐标的指令；用于基于所述文本检测框的中心点的偏移量，对所述文本检测框的中心点位置坐标进行调整，以获得调整后的所述中心点位置坐标的指令；用于基于所述文本检测框的宽度和高度，以及所述调整后的所述中心点位置坐标，确定所述文本检测框的初始框的指令；用于基于所述文本检测框的旋转角度，对所述文本检测框的初始框进行旋转，以获得所述文本检测框，并基于所述文本检测框，确定所述数学做图题的文本区域的指令。

可选地，所述可读程序还包括：用于通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测，以获得所述数学做图题的图像对象检测结果的指令；用于基于所述数学做图题的图像对象检测结果，确定所述数学做图题的图像对象区域中的图像对象的类别的指令；用于对所述数学做图题的图像对象区域中的图像对象的类别进行编码，以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据的指令。

可选地，所述用于通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测的指令，包括：用于通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行图像对象的特征提取，以获得所述数学做图题的多个不同尺度的图像对象特征图的指令；用于通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果的指令。

可选地，所述用于通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果的指令，包括：用于通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的图像对象特征图进行上采样，以获得所述数学做图题的多个相同尺度的图像对象特征图的指令；用于通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的图像对象特征图进行串联，以获得所述数学做图题的图像对象的特征映射图的指令；用于通过所述检测部分的注意力层，对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的图像对象检测结果的指令。

可选地，所述数学做图题的图像对象检测结果包括以下中的至少一者：所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。

可选地，所述用于通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合的指令，包括：用于通过所述特征融合部分，对所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据的维度进行扩展，使得所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据具有相同的维度的指令；用于通过所述特征融合部分，对维度扩展后的所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据进行叠加，以获得所述数学做图题的题目特征融合数据的指令。

可选地，所述用于通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据的指令，包括：用于通过所述生成部分的解码层，对所述数学做图题的题目特征融合数据进行解码，以获得所述数学做图题的题目内容描述的字符概率数据的指令；用于通过所述生成部分的连接时序分类层，基于所述数学做图题的题目内容描述的字符概率数据，生成所述数学做图题对应的题目内容描述数据的指令。

可选地，所述用于基于所述题目内容描述数据，对所述数学做图题进行批改的指令，包括：用于若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像，将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对，并根据比对结果，对所述数学做图题进行批改，以获得所述数学做图题的批改结果的指令。

根据本申请实施例提供的计算机可读介质，通过题目内容描述模型中的特征融合部分，对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据，以及数学做图题的题目内容特征数据进行特征融合，能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据，并通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，能够准确地生成所述数学做图题对应的题目内容描述数据。进而，基于所述题目内容描述数据，对所述数学做图题进行批改，能够有效地对数学做图题进行批改。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的教师风格预测模型的训练方法。此外，当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种题目批改方法，其特征在于，所述方法包括：

通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据，其中，所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域，所述数学做图题为通过做图来进行解答的数学题，所述特征提取部分用于将所述待批改的数学做图题的图像转变为高维特征，所述文本区域用于展示所述数学做图题的题目文本，所述图像对象区域包括已做图的图像对象；

通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据；

通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据；

基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果，

其中，所述通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据，包括：

通过所述生成部分的解码层，对所述数学做图题的题目特征融合数据进行解码，以获得所述数学做图题的题目内容描述的字符概率数据；

通过所述生成部分的连接时序分类层，基于所述数学做图题的题目内容描述的字符概率数据，生成所述数学做图题对应的题目内容描述数据。

2.根据权利要求1所述的题目批改方法，其特征在于，所述通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合之前，所述方法还包括：

通过目标检测模型，对所述数学做图题的图像进行文本检测，以获得所述数学做图题的文本检测结果；

基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域；

通过文本识别模型，对所述数学做图题的文本区域进行文本识别，以获得所述文本区域中的文本字符串特征数据。

3.根据权利要求2所述的题目批改方法，其特征在于，所述通过目标检测模型，对所述数学做图题的图像进行文本检测，包括：

通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行文本特征提取，以获得所述数学做图题的多个不同尺度的文本特征图；

通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果。

4.根据权利要求3所述的题目批改方法，其特征在于，所述通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的文本特征图，获得所述数学做图题的文本检测结果，包括：

通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的文本特征图进行上采样，以获得所述数学做图题的多个相同尺度的文本特征图；

通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的文本特征图进行串联，以获得所述数学做图题的文本的特征映射图；

通过所述检测部分的注意力层，对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的文本检测结果。

5.根据权利要求2-4中任意一项权利要求所述的题目批改方法，其特征在于，所述数学做图题的文本检测结果包括以下中的至少一者：

文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。

6.根据权利要求5所述的题目批改方法，其特征在于，所述基于所述数学做图题的文本检测结果，确定所述数学做图题的文本区域，包括：

基于所述文本检测框的中心点得分图，确定所述文本检测框的中心点位置坐标；

基于所述文本检测框的中心点的偏移量，对所述文本检测框的中心点位置坐标进行调整，以获得调整后的所述中心点位置坐标；

基于所述文本检测框的宽度和高度，以及所述调整后的所述中心点位置坐标，确定所述文本检测框的初始框；

基于所述文本检测框的旋转角度，对所述文本检测框的初始框进行旋转，以获得所述文本检测框，并基于所述文本检测框，确定所述数学做图题的文本区域。

7.根据权利要求2所述的题目批改方法，其特征在于，所述方法还包括：

通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测，以获得所述数学做图题的图像对象检测结果；

基于所述数学做图题的图像对象检测结果，确定所述数学做图题的图像对象区域中的图像对象的类别；

对所述数学做图题的图像对象区域中的图像对象的类别进行编码，以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。

8.根据权利要求7所述的题目批改方法，其特征在于，所述通过所述目标检测模型，对所述数学做图题的图像进行图像对象检测，包括：

通过所述目标检测模型的特征提取部分，对所述数学做图题的图像进行图像对象的特征提取，以获得所述数学做图题的多个不同尺度的图像对象特征图；

通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果。

9.根据权利要求8所述的题目批改方法，其特征在于，所述通过所述目标检测模型的检测部分，基于所述数学做图题的多个不同尺度的图像对象特征图，获得所述数学做图题的图像对象检测结果，包括：

通过所述检测部分的上采样层，对所述数学做图题的多个不同尺度的图像对象特征图进行上采样，以获得所述数学做图题的多个相同尺度的图像对象特征图；

通过所述检测部分的串联层，对所述数学做图题的多个相同尺度的图像对象特征图进行串联，以获得所述数学做图题的图像对象的特征映射图；

通过所述检测部分的注意力层，对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作，以获得所述数学做图题的图像对象检测结果。

10.根据权利要求7-9中任意一项权利要求所述的题目批改方法，其特征在于，所述数学做图题的图像对象检测结果包括以下中的至少一者：

所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。

11.根据权利要求1所述的题目批改方法，其特征在于，所述通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，包括：

通过所述特征融合部分，对所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据的维度进行扩展，使得所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据具有相同的维度；

通过所述特征融合部分，对维度扩展后的所述文本字符串特征数据、所述类别特征数据，以及所述题目内容特征数据进行叠加，以获得所述数学做图题的题目特征融合数据。

12.根据权利要求1所述的题目批改方法，其特征在于，所述基于所述题目内容描述数据，对所述数学做图题进行批改，包括：

若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像，将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对，并根据比对结果，对所述数学做图题进行批改，以获得所述数学做图题的批改结果。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有可读程序，所述可读程序包括：

用于通过题目内容描述模型中的特征提取部分，对待批改的数学做图题的图像进行图像特征提取，以获得所述数学做图题的题目内容特征数据的指令，其中，所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域，所述数学做图题为通过做图来进行解答的数学题，所述特征提取部分用于将所述待批改的数学做图题的图像转变为高维特征，所述文本区域用于展示所述数学做图题的题目文本，所述图像对象区域包括已做图的图像对象；

用于通过所述题目内容描述模型中的特征融合部分，对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据，以及所述题目内容特征数据进行特征融合，以获得所述数学做图题的题目特征融合数据的指令；

用于通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据的指令；

用于基于所述题目内容描述数据，对所述数学做图题进行批改，以获得所述数学做图题的批改结果的指令，

其中，所述用于通过所述题目内容描述模型中的生成部分，基于所述数学做图题的题目特征融合数据，生成所述数学做图题对应的题目内容描述数据的指令，包括：

用于通过所述生成部分的解码层，对所述数学做图题的题目特征融合数据进行解码，以获得所述数学做图题的题目内容描述的字符概率数据的指令；

用于通过所述生成部分的连接时序分类层，基于所述数学做图题的题目内容描述的字符概率数据，生成所述数学做图题对应的题目内容描述数据的指令。