CN113033721B - 题目批改方法及计算机存储介质 - Google Patents

题目批改方法及计算机存储介质 Download PDF

Info

Publication number
CN113033721B
CN113033721B CN202110597414.7A CN202110597414A CN113033721B CN 113033721 B CN113033721 B CN 113033721B CN 202110597414 A CN202110597414 A CN 202110597414A CN 113033721 B CN113033721 B CN 113033721B
Authority
CN
China
Prior art keywords
mathematical drawing
text
question
topic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110597414.7A
Other languages
English (en)
Other versions
CN113033721A (zh
Inventor
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110597414.7A priority Critical patent/CN113033721B/zh
Publication of CN113033721A publication Critical patent/CN113033721A/zh
Application granted granted Critical
Publication of CN113033721B publication Critical patent/CN113033721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明实施例提供一种题目批改方法及计算机存储介质,涉及人工智能技术领域。其中,所述方法包括:通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,获得数学做图题的题目内容特征数据;通过题目内容描述模型中的特征融合部分,对文本区域中的文本字符串特征数据、图像对象区域中的图像对象的类别特征数据,以及题目内容特征数据进行特征融合,获得数学做图题的题目特征融合数据;通过题目内容描述模型中的生成部分,基于数学做图题的题目特征融合数据,生成数学做图题对应的题目内容描述数据;基于题目内容描述数据,对数学做图题进行批改。通过本发明实施例,能够有效地对数学做图题进行批改。

Description

题目批改方法及计算机存储介质
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种题目批改方法及计算机存储介质。
背景技术
随着计算机技术的发展,线上教学得到了快速的发展,相应的一些教学工具类产品也应运而生,为学生、老师、家长提供教育辅导上的技术支持和帮助,很多教学工具类产品都能提供将题目拍照进行批改的功能。
拍照批改题目是人工智能技术在教育领域的一项重要应用,其大致流程是,使用手机或平板电脑等终端设备对待批改的题目进行拍照,并上传至题目批改的应用程序。应用程序对题目图像进行文本检测和内容识别等多个环节的处理,然后将题目的批改结果输出。然而,该应用程序只能批改一些常规的计算题型,如横式、竖式和脱式,无法批改常见的带有语义信息的数学做图题,比如低年级数学中常见的数学做图题,一共有10只鸭子,给8只鸭子涂上颜色。数学做图题在小学数学作业中非常常见,而且数量不少,特别在一二年级中频繁出现,对这些数学做图题的支持能更大的拓展题目批改的应用范围,更能满足用户的需要,但现有技术中不存在有效地对数学做图题进行批改的技术方案。
由此可见,如何有效地对数学做图题进行批改成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种题目批改方法及计算机存储介质,用以解决上述技术问题至少之一。
本发明实施例提供一种题目批改方法。所述方法包括:通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据,其中,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域;通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据;通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据;基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据的指令,其中,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域;用于通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据的指令;用于通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据的指令;用于基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果的指令。
根据本发明实施例提供的题目批改方案,通过题目内容描述模型中的特征融合部分,对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据,以及数学做图题的题目内容特征数据进行特征融合,能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据,并通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,能够准确地生成所述数学做图题对应的题目内容描述数据。进而,基于所述题目内容描述数据,对所述数学做图题进行批改,能够有效地对数学做图题进行批改。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一的题目批改方法的步骤流程图;
图2示出了本发明实施例一的题目批改方法的示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
在详细介绍本发明实施例的具体实施方式之前,简要说明一下本发明实施例的技术方案的设计思路。具体地,描述语句和图像是两种不同模态的信息,而且描述语句长度一般在10个字符左右,但是图像至少有上万个像素点组成,从这个角度看,根据图像生成描述语句是一个高维到低维的问题,也就是图像提供的信息完全足够生成描述语句,但是从实际来看,图像虽然提供了足够多的信息,但是网络模型却无法完全捕捉到信息,这可能是因为信息分布过于分散,网络模型无法很好的进行捕捉。此外,目前常规的方法都是先使用卷积神经网络提取图像特征,然后使用循环神经网络从这些特征中得出描述语句,直接完成图像到描述语句的模态转变,将所有工作全部交由网络模型实现,这导致不仅需要大量的训练数据,而且训练效果不佳。基于此,本申请的发明人认为,使用题目内容描述模型实现数学做图题的批改时,以根据图像生成描述语句技术为主,引入文本检测结果和文本识别结果作为辅助信息,从而能够准确地获得题目内容描述语句,进而有效地实现对数学做图题进行批改。本发明实施例提供的题目批改方法的具体实施方式如下:
实施例一
参照图1,示出了本发明实施例一的题目批改方法的步骤流程图。
具体地,本发明实施例提供的题目批改方法,包括以下步骤:
在步骤S101中,通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据。
在本实施例中,所述题目内容描述模型可理解为用于根据题目图像生成题目内容描述数据的神经网络模型。所述题目内容描述模型可以是任意适当的可实现特征提取或目标对象检测的神经网络模型,包括但不限于卷积神经网络、增强学习神经网络、对抗神经网络中的生成网络、深度神经网络等等。神经网络中具体结构的设置可以由本领域技术人员根据实际需求适当设定,如卷积层的层数、卷积核的大小、通道数等等。具体地,所述题目内容描述模型包括特征提取部分、特征融合部分和生成部分。其中,所述特征提取部分用于将待批改的数学做图题的图像转变为高维特征,例如,对待批改的数学做图题的图像提取纹理、边缘、角点和语义信息等图像特征。所述特征提取部分由经典的卷积神经网络构成,具体可以是Resnet18网络(Deep residual network,深度残差网络)。所述数学做图题可理解为通过做图来进行解答的数学题。所述数学做图题通常由文本部分和图像对象部分组成。相应地,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域。例如,低年级数学中常见的数学做图题“一共有10只鸭子,给8只鸭子涂上颜色”,其中,“一共有10只鸭子,给8只鸭子涂上颜色”所在的部分为文本部分,待涂颜色的鸭子的图片为图像对象,待涂颜色的鸭子的图片所在的部分为图像对象部分。又例如,低年级数学中常见的数学做图题“一共有8只羊,给3只羊涂上蓝色”,其中,“一共有8只羊,给3只羊涂上蓝色”所在的部分为文本部分,待涂蓝色的羊的图片为图像对象,待涂蓝色的羊的图片所在的部分为图像对象部分。所述数学做图题的题目内容特征数据可为所述数学做图题的题目内容特征向量或者所述数学做图题的题目内容特征图。
在一个具体的例子中,当所述特征提取部分为Resnet18网络时,所述Resnet18网络可以是由四个残差块串联构建得到的神经网络模型。其中,每个残差块包括若干个具有残差连接的卷积层和池化层,用于将前一级输出的特征图的尺寸降低一倍。例如,第一个残差块输出一个大小为数学做图题的图像的1/4的初始特征图,第二个残差块输出一个大小为数学做图题的图像的1/8的初始特征图,第三个残差块输出一个大小为数学做图题的图像的1/16的初始特征图,第四个残差块输出一个大小为数学做图题的图像的1/32的初始特征图。具体地,当输入的数学做图题的图像为512*512时,四个残差块的输出分别为:256*256、128*128、64*64、32*32。其中,每组初始特征图的数量都是128个,这4组初始特征图包含了不同尺度的信息。每个残差块输出的初始特征图的数量都比较小,而不是像其他网络模型一样输出成百上千的数量。这种连接方式使特征的传递更加有效,网络的训练也就更加容易。由于上述四个初始特征图的尺寸不同,为便于对初始特征图进行融合,可以先分别对上述四个初始特征图进行上采样处理,以得到尺寸相同的初始特征图(例如,上采样处理后得到的原始特征图尺寸可以均为1/4),再对采样处理后的初始特征图进行特征融合。例如,对四个初始特征图中相同位置的元素分别进行乘法运算,得到所述数学做图题的题目内容特征图。
在步骤S102中,通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据。
在本实施例中,所述特征融合部分可理解为用于特征融合的神经网络模型。例如,所述特征融合部分可为特征金字塔网络。所述文本字符串特征数据可为预先配置的文本字符串特征数据,或者通过文本识别模型识别得到的文本字符串特征数据。所述文本字符串特征数据可为文本字符串概率矩阵,其大小为L*N,L表示文本字符串的大小,N表示字典大小。所述类别特征数据可为预先配置的类别特征数据,或者通过图像对象检测结果确定得到的类别特征数据。所述类别特征数据可为类别特征向量。所述题目特征融合数据可为题目特征融合矩阵或者题目特征融合特征图。
在一些可选实施例中,在通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合时,通过所述特征融合部分,对所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据的维度进行扩展,使得所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据具有相同的维度;通过所述特征融合部分,对维度扩展后的所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据进行叠加,以获得所述数学做图题的题目特征融合数据。籍此,通过所述特征融合部分,对所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据的维度进行扩展,并对维度扩展后的所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据进行叠加,能够准确地获得所述数学做图题的题目特征融合数据。
在一些可选实施例中,所述通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合之前,所述方法还包括:通过目标检测模型,对所述数学做图题的图像进行文本检测,以获得所述数学做图题的文本检测结果;基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域;通过文本识别模型,对所述数学做图题的文本区域进行文本识别,以获得所述文本区域中的文本字符串特征数据。籍此,通过目标检测模型的文本检测结果,能够准确地确定所述数学做图题的文本区域。此外,通过文本识别模型,对所述数学做图题的文本区域进行文本识别,能够准确地获得所述文本区域中的文本字符串特征数据。
在一个具体的例子中,所述目标检测模型可为CenterNet网络。CenterNet网络是一种用于通用目标检测的方法,可视为基于回归的方法,在该目标检测方法中,首先设定要检测的物体的总体的类别N,最后输出通道数量为N+2+2+1,其中包括检测物体的中心点,为每种类别输出一张得分图(其每个像素点的值在0到1之间,表示这个点是某类物体中心的概率),因此会有N张得分图。在检测的过程中,并不能保证检测到的中心点就是真实的中心点,实际中往往会发生偏移,因此还会用两个通道来检测中心点的偏移量(一个是x轴偏移量,一个是y轴偏移量)。除此之外,还有两个通道用来检测中心点距离检测框左边框和上边框的距离,还有一个通道用来检测检测框的长边与水平方向的夹角或者检测框的宽边与竖直方向的夹角,也即是检测框的旋转角度,实际的后处理为,通过设定阈值在得分图找到物体的可能中心点,然后根据中心点对应的xy偏移量对中心点进行校正,然后通过中心点并结合预测到的宽高和旋转角度直接得到检测框。相应地,所述数学做图题的文本检测结果包括以下中的至少一者:文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。籍此,通过所述文本检测结果,能够准确地确定所述数学做图题的文本区域。具体地,所述中心点得分图的每个像素点对应一个分数,代表相应的像素点可能作为文本检测框中心点的概率值。概率得分图中的分值均为0到1之间的小数,例如可以是0.11,0.34,0.52,0.89等,这里不做穷举。当像素点的得分大于阈值时,认为该像素点是文本检测框的中心点。所述阈值可以是人工预先设定的,也可以根据题目图像的实际情况,由模型计算后自动进行设定。举例来说,当人工预设得分图的阈值为0.70时,题目图像中得分为0.81、0.79、0.92对应的像素点即为模型检测的文本检测框中心点,其他得分较低的点则不是中心点。此处阈值的设定还可以设定为其他值,这里不做穷举。由于在检测的过程中,并不能保证得分最高的点就一定是文本检测框的中心点,也就是说检测到的中心点可能与真实的中心点发生一定量的偏移,因此还会用两个通道来检测中心点的偏移量。例如,以上述根据特定阈值得到的一个中心点像素作为坐标原点,通道输出的x轴偏移量为3,y轴偏移量为-2,那么对应的文本检测框的实际中心点的坐标为(3,-2)。上述偏移量用于表示像素间的距离值,当然也可以是其他正整数值,这里不做穷举。
在一个具体的例子中,所述文本识别模型可为CRNN(Convolutional RecurrentNeural Network,卷积循环神经网络)。CRNN网络从下至上,由卷积神经网络、循环神经网络和翻译层三部分组成,卷积神经网络负责从带文字的图片中提取特征,循环神经网络负责用卷积神经网络提取的特征进行序列预测,翻译层将循环神经网络得到的序列翻译为字母序列,目标函数选择“连接时序分类”(CTC)损失函数。CRNN网络的一大优点是尽管包含不同类型的网络结构,但是仍然能够被端到端的训练,目前在各种数据集上,CRNN性能优越,超过其他模型,自从提出至今,虽然已历经数年,但仍然经久不衰。具体地,所述卷积神经网络由5层卷积神经网络构成,所述循环神经网络由两层双向长短时记忆网络组成,输入为数学做图题的图像,输出为数学做图题的图像的文本字符串的概率矩阵表示(比如设定输出字符串的大小为L,字典大小为N,则输出为L*N),然后通过贪心或集束搜索解码得到具体字符串。
在一些可选实施例中,在通过目标检测模型,对所述数学做图题的图像进行文本检测时,通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行文本特征提取,以获得所述数学做图题的多个不同尺度的文本特征图;通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果。籍此,通过所述数学做图题的多个不同尺度的文本特征图,能够准确地获得所述数学做图题的文本检测结果。
在一些可选实施例中,在通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果时,通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的文本特征图进行上采样,以获得所述数学做图题的多个相同尺度的文本特征图;通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的文本特征图进行串联,以获得所述数学做图题的文本的特征映射图;通过所述检测部分的注意力层,对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的文本检测结果。籍此,对所述数学做图题的多个不同尺度的文本特征图进行上采样,并对所述数学做图题的多个相同尺度的文本特征图进行串联,再对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作,能够准确地获得所述数学做图题的文本检测结果。
在一个具体的例子中,所述目标检测模型可为CenterNet网络。所述特征提取部分可以是Resnet18网络,并且作为CenterNet网络的骨干网络,Resnet18网络由四个残差块串联构建,每个残差块包括若干层卷积操作,第一个残差块输出的特征映射大小为数学做图题的图像的1/4,第二个残差块为数学做图题的图像的1/8,第三个残差块为数学做图题的图像的1/16,第四个残差块为数学做图题的图像的1/32,每个残差块输出的特征映射数量都为128,CenterNet网络的检测部分将4组特征映射全部通过插值的方式将其大小变为数学做图题的图像的1/4大小并串联,得到一组特征映射,其通道数量为512,接着对上述512通道的特征映射做一次卷积操作,两次反卷积操作,得到与数学做图题的图像的大小一致的6(1+2+2+1)通道输出,第一个通道表示文本检测框的中心点得分图(即每个像素点值在0到1之间,表示这个点是文本检测框中心点的概率),第二和第三个通道是中心点的xy偏移量,第四和第五个通道表示文本检测框的宽和高,第六个通道表示文本检测框的旋转角度(加上旋转角度以适应多方向文本检测框)。
在一些可选实施例中,在基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域时,基于所述文本检测框的中心点得分图,确定所述文本检测框的中心点位置坐标;基于所述文本检测框的中心点的偏移量,对所述文本检测框的中心点位置坐标进行调整,以获得调整后的所述中心点位置坐标;基于所述文本检测框的宽度和高度,以及所述调整后的所述中心点位置坐标,确定所述文本检测框的初始框;基于所述文本检测框的旋转角度,对所述文本检测框的初始框进行旋转,以获得所述文本检测框,并基于所述文本检测框,确定所述数学做图题的文本区域。籍此,通过获得的文本检测框,能够准确地确定所述数学做图题的文本区域。
在一些可选实施例中,所述方法还包括:通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测,以获得所述数学做图题的图像对象检测结果;基于所述数学做图题的图像对象检测结果,确定所述数学做图题的图像对象区域中的图像对象的类别;对所述数学做图题的图像对象区域中的图像对象的类别进行编码,以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。籍此,通过目标检测模型的图像对象检测结果,能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。此外,对所述数学做图题的图像对象区域中的图像对象的类别进行编码,能够准确地获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。
在一个具体的例子中,所述目标检测模型可为CenterNet网络,与上述CenterNet网络的原理和结构类似,在此不再赘述。所述数学做图题的图像对象检测结果包括以下中的至少一者:所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。籍此,能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。
在一些可选实施例中,在通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测时,通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行图像对象的特征提取,以获得所述数学做图题的多个不同尺度的图像对象特征图;通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果。籍此,通过所述数学做图题的多个不同尺度的图像对象特征图,能够准确地获得所述数学做图题的图像对象检测结果。
在一些可选实施例中,在通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果时,通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的图像对象特征图进行上采样,以获得所述数学做图题的多个相同尺度的图像对象特征图;通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的图像对象特征图进行串联,以获得所述数学做图题的图像对象的特征映射图;通过所述检测部分的注意力层,对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的图像对象检测结果。籍此,对所述数学做图题的多个不同尺度的图像对象特征图进行上采样,并对所述数学做图题的多个相同尺度的图像对象特征图进行串联,再对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作,能够准确地获得所述数学做图题的图像对象检测结果。
在一个具体的例子中,在确定所述数学做图题的图像对象区域中的图像对象的类别时,由于所述数学做图题的图像对象检测结果包括所属类别的图像对象的检测框的中心点得分图,因此,能够准确地确定所述数学做图题的图像对象区域中的图像对象的类别。
在一个具体的例子中,在对所述数学做图题的图像对象区域中的图像对象的类别进行编码时,可通过字符的编码方式(如one-hot或者word2vec),对所述数学做图题的图像对象区域中的图像对象的类别进行编码,以获得所述数学做图题的图像对象区域中的图像对象的类别特征向量。
在步骤S103中,通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据。
在本实施例中,所述生成部分可理解为用于生成所述数学做图题对应的题目内容描述数据的神经网络模型。所述题目内容描述数据可为题目内容描述语句。举例来说,当待批改的数学做图题为低年级数学中常见的数学做图题“一共有10只鸭子,给8只鸭子涂上颜色”时,如果作答者涂了7只鸭子,那么对应的题目内容描述语句可以为“一共10只鸭子,要为其中的8只图上颜色,图了7只”。
在一些可选实施例中,在通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据时,通过所述生成部分的解码层,对所述数学做图题的题目特征融合数据进行解码,以获得所述数学做图题的题目内容描述的字符概率数据;通过所述生成部分的连接时序分类层,基于所述数学做图题的题目内容描述的字符概率数据,生成所述数学做图题对应的题目内容描述数据。其中,所述解码层可为两层双向长短时记忆网络,所述字符概率数据可为字符概率矩阵。籍此,通过所述数学做图题的题目内容描述的字符概率数据,能够准确地生成所述数学做图题对应的题目内容描述数据。
在一个具体的例子中,在使用目标检测模型、文本识别模型和题目内容描述模型之前,需要对目标检测模型、文本识别模型和题目内容描述模型进行训练。具体地,可以使用标注有文本检测框坐标和图像对象检测框坐标的数学做图题的图像样本,对目标检测模型进行训练,从而训练得到能够实现目标检测的目标检测模型。可以使用在文本检测框内标注有字符串信息的图像样本,对文本识别模型进行训练,从而训练得到能够实现文本识别的文本识别模型。可以使用标注有题目内容描述语句的图像样本,对题目内容描述模型进行训练,从而训练得到能够生成题目内容描述语句的题目内容描述模型。更具体地,首先去掉题目内容描述模型的特征融合部分(这一部分没有参数,加上去掉不影响模型参数),等到目标函数基本趋于收敛则停止(题目内容描述模型的输出与文本识别模型的输出一样,都有最大字符串长度和字典大小的限制)。接着,加入特征融合部分,对题目内容描述模型继续训练,直到收敛。这样能够有效加快题目内容描述模型的训练速度。
在步骤S104中,基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果。
在一些可选实施例中,在基于所述题目内容描述数据,对所述数学做图题进行批改时,若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像,将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对,并根据比对结果,对所述数学做图题进行批改,以获得所述数学做图题的批改结果。籍此,通过所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对结果,能够有效地对所述数学做图题进行批改。
在一个具体的例子中,若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据相同,则批改所述数学做图题正确;若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据不相同,则批改所述数学做图题错误。可替换地,若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对相似度大于预设的相似度阈值,则批改所述数学做图题正确;若所述比对结果为所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据的比对相似度小于或者等于预设的相似度阈值,则批改所述数学做图题错误。
在一个具体的例子中,如图2所示,本实施例提供的题目批改方法的具体实现过程如下:首先,通过目标检测模型,对所述数学做图题的图像进行文本检测,以获得所述数学做图题的文本检测结果,并基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域,再通过文本识别模型,对所述数学做图题的文本区域进行文本识别,以获得所述文本区域中的文本字符串特征数据。其次,通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测,以获得所述数学做图题的图像对象检测结果,并基于所述数学做图题的图像对象检测结果,确定所述数学做图题的图像对象区域中的图像对象的类别,再对所述数学做图题的图像对象区域中的图像对象的类别进行编码,以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。再次,通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据,并通过所述题目内容描述模型中的特征融合部分,对所述文本区域中的文本字符串特征数据、所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据,再通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据,再基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果。具体地,数学做图题的图像并行同时进入目标检测模型和题目内容描述模型,目标检测模型得到检测结果,将文本区域送入文本识别模型,得出字符串概率矩阵,称为数据一,对于检测到的图像对象区域中的图像对象(检测出来时已经知道类别),将其类别用字符的编码方式(如one-hot或者word2vec)进行编码,称为数据二,而题目内容描述模型经过特征提取部分得到的题目内容特征图称为数据三,然后题目内容描述模型的融合特征部分将三个数据扩展到同样的维度进行叠加,得到融合数据。这相当于为数学做图题的图像提取的题目内容特征图增加了引导信息,然后将融合数据输入生成部分,得到题目内容描述语句。
根据本发明实施例提供的题目批改方法,通过题目内容描述模型中的特征融合部分,对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据,以及数学做图题的题目内容特征数据进行特征融合,能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据,并通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,能够准确地生成所述数学做图题对应的题目内容描述数据。进而,基于所述题目内容描述数据,对所述数学做图题进行批改,能够有效地对数学做图题进行批改。
本实施例提供的题目批改方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备(如Google Glass、Oculus Rift、Hololens、Gear VR)等。
实施例二
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有可读程序,所述可读程序包括:用于通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据的指令,其中,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域;用于通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据的指令;用于通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据的指令;用于基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果的指令。
可选地,所述可读程序还包括:用于通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合之前,通过目标检测模型,对所述数学做图题的图像进行文本检测,以获得所述数学做图题的文本检测结果的指令;用于基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域的指令;用于通过文本识别模型,对所述数学做图题的文本区域进行文本识别,以获得所述文本区域中的文本字符串特征数据的指令。
可选地,所述用于通过目标检测模型,对所述数学做图题的图像进行文本检测的指令,包括:用于通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行文本特征提取,以获得所述数学做图题的多个不同尺度的文本特征图的指令;用于通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果的指令。
可选地,所述用于通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果的指令,包括:用于通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的文本特征图进行上采样,以获得所述数学做图题的多个相同尺度的文本特征图的指令;用于通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的文本特征图进行串联,以获得所述数学做图题的文本的特征映射图的指令;用于通过所述检测部分的注意力层,对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的文本检测结果的指令。
可选地,所述数学做图题的文本检测结果包括以下中的至少一者:文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。
可选地,所述用于基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域的指令,包括:用于基于所述文本检测框的中心点得分图,确定所述文本检测框的中心点位置坐标的指令;用于基于所述文本检测框的中心点的偏移量,对所述文本检测框的中心点位置坐标进行调整,以获得调整后的所述中心点位置坐标的指令;用于基于所述文本检测框的宽度和高度,以及所述调整后的所述中心点位置坐标,确定所述文本检测框的初始框的指令;用于基于所述文本检测框的旋转角度,对所述文本检测框的初始框进行旋转,以获得所述文本检测框,并基于所述文本检测框,确定所述数学做图题的文本区域的指令。
可选地,所述可读程序还包括:用于通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测,以获得所述数学做图题的图像对象检测结果的指令;用于基于所述数学做图题的图像对象检测结果,确定所述数学做图题的图像对象区域中的图像对象的类别的指令;用于对所述数学做图题的图像对象区域中的图像对象的类别进行编码,以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据的指令。
可选地,所述用于通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测的指令,包括:用于通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行图像对象的特征提取,以获得所述数学做图题的多个不同尺度的图像对象特征图的指令;用于通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果的指令。
可选地,所述用于通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果的指令,包括:用于通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的图像对象特征图进行上采样,以获得所述数学做图题的多个相同尺度的图像对象特征图的指令;用于通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的图像对象特征图进行串联,以获得所述数学做图题的图像对象的特征映射图的指令;用于通过所述检测部分的注意力层,对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的图像对象检测结果的指令。
可选地,所述数学做图题的图像对象检测结果包括以下中的至少一者:所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。
可选地,所述用于通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合的指令,包括:用于通过所述特征融合部分,对所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据的维度进行扩展,使得所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据具有相同的维度的指令;用于通过所述特征融合部分,对维度扩展后的所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据进行叠加,以获得所述数学做图题的题目特征融合数据的指令。
可选地,所述用于通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据的指令,包括:用于通过所述生成部分的解码层,对所述数学做图题的题目特征融合数据进行解码,以获得所述数学做图题的题目内容描述的字符概率数据的指令;用于通过所述生成部分的连接时序分类层,基于所述数学做图题的题目内容描述的字符概率数据,生成所述数学做图题对应的题目内容描述数据的指令。
可选地,所述用于基于所述题目内容描述数据,对所述数学做图题进行批改的指令,包括:用于若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像,将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对,并根据比对结果,对所述数学做图题进行批改,以获得所述数学做图题的批改结果的指令。
根据本申请实施例提供的计算机可读介质,通过题目内容描述模型中的特征融合部分,对获取的数学做图题的文本区域中的文本字符串特征数据、获取的数学做图题的图像对象区域中的图像对象的类别特征数据,以及数学做图题的题目内容特征数据进行特征融合,能够获得融合有文本区域的文本字符串特征先验数据和图像对象区域中的图像对象的类别特征先验数据的题目特征融合数据,并通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,能够准确地生成所述数学做图题对应的题目内容描述数据。进而,基于所述题目内容描述数据,对所述数学做图题进行批改,能够有效地对数学做图题进行批改。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的教师风格预测模型的训练方法。此外,当通用计算机访问用于实现在此示出的教师风格预测模型的训练方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的教师风格预测模型的训练方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (13)

1.一种题目批改方法,其特征在于,所述方法包括:
通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据,其中,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域,所述数学做图题为通过做图来进行解答的数学题,所述特征提取部分用于将所述待批改的数学做图题的图像转变为高维特征,所述文本区域用于展示所述数学做图题的题目文本,所述图像对象区域包括已做图的图像对象;
通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据;
通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据;
基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果,
其中,所述通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据,包括:
通过所述生成部分的解码层,对所述数学做图题的题目特征融合数据进行解码,以获得所述数学做图题的题目内容描述的字符概率数据;
通过所述生成部分的连接时序分类层,基于所述数学做图题的题目内容描述的字符概率数据,生成所述数学做图题对应的题目内容描述数据。
2.根据权利要求1所述的题目批改方法,其特征在于,所述通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合之前,所述方法还包括:
通过目标检测模型,对所述数学做图题的图像进行文本检测,以获得所述数学做图题的文本检测结果;
基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域;
通过文本识别模型,对所述数学做图题的文本区域进行文本识别,以获得所述文本区域中的文本字符串特征数据。
3.根据权利要求2所述的题目批改方法,其特征在于,所述通过目标检测模型,对所述数学做图题的图像进行文本检测,包括:
通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行文本特征提取,以获得所述数学做图题的多个不同尺度的文本特征图;
通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果。
4.根据权利要求3所述的题目批改方法,其特征在于,所述通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的文本特征图,获得所述数学做图题的文本检测结果,包括:
通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的文本特征图进行上采样,以获得所述数学做图题的多个相同尺度的文本特征图;
通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的文本特征图进行串联,以获得所述数学做图题的文本的特征映射图;
通过所述检测部分的注意力层,对所述数学做图题的文本的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的文本检测结果。
5.根据权利要求2-4中任意一项权利要求所述的题目批改方法,其特征在于,所述数学做图题的文本检测结果包括以下中的至少一者:
文本检测框的中心点得分图、所述文本检测框的中心点的偏移量、所述文本检测框的宽度和高度、所述文本检测框的旋转角度。
6.根据权利要求5所述的题目批改方法,其特征在于,所述基于所述数学做图题的文本检测结果,确定所述数学做图题的文本区域,包括:
基于所述文本检测框的中心点得分图,确定所述文本检测框的中心点位置坐标;
基于所述文本检测框的中心点的偏移量,对所述文本检测框的中心点位置坐标进行调整,以获得调整后的所述中心点位置坐标;
基于所述文本检测框的宽度和高度,以及所述调整后的所述中心点位置坐标,确定所述文本检测框的初始框;
基于所述文本检测框的旋转角度,对所述文本检测框的初始框进行旋转,以获得所述文本检测框,并基于所述文本检测框,确定所述数学做图题的文本区域。
7.根据权利要求2所述的题目批改方法,其特征在于,所述方法还包括:
通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测,以获得所述数学做图题的图像对象检测结果;
基于所述数学做图题的图像对象检测结果,确定所述数学做图题的图像对象区域中的图像对象的类别;
对所述数学做图题的图像对象区域中的图像对象的类别进行编码,以获得所述数学做图题的图像对象区域中的图像对象的类别特征数据。
8.根据权利要求7所述的题目批改方法,其特征在于,所述通过所述目标检测模型,对所述数学做图题的图像进行图像对象检测,包括:
通过所述目标检测模型的特征提取部分,对所述数学做图题的图像进行图像对象的特征提取,以获得所述数学做图题的多个不同尺度的图像对象特征图;
通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果。
9.根据权利要求8所述的题目批改方法,其特征在于,所述通过所述目标检测模型的检测部分,基于所述数学做图题的多个不同尺度的图像对象特征图,获得所述数学做图题的图像对象检测结果,包括:
通过所述检测部分的上采样层,对所述数学做图题的多个不同尺度的图像对象特征图进行上采样,以获得所述数学做图题的多个相同尺度的图像对象特征图;
通过所述检测部分的串联层,对所述数学做图题的多个相同尺度的图像对象特征图进行串联,以获得所述数学做图题的图像对象的特征映射图;
通过所述检测部分的注意力层,对所述数学做图题的图像对象的特征映射图执行卷积操作和反卷积操作,以获得所述数学做图题的图像对象检测结果。
10.根据权利要求7-9中任意一项权利要求所述的题目批改方法,其特征在于,所述数学做图题的图像对象检测结果包括以下中的至少一者:
所属类别的图像对象的检测框的中心点得分图、所述检测框的中心点的偏移量、所述检测框的宽度和高度、所述检测框的旋转角度。
11.根据权利要求1所述的题目批改方法,其特征在于,所述通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,包括:
通过所述特征融合部分,对所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据的维度进行扩展,使得所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据具有相同的维度;
通过所述特征融合部分,对维度扩展后的所述文本字符串特征数据、所述类别特征数据,以及所述题目内容特征数据进行叠加,以获得所述数学做图题的题目特征融合数据。
12.根据权利要求1所述的题目批改方法,其特征在于,所述基于所述题目内容描述数据,对所述数学做图题进行批改,包括:
若预设的题目数据库中存在与所述数学做图题的图像匹配的题目图像,将所述题目内容描述数据与所述题目图像对应的具有答案的题目内容描述数据进行比对,并根据比对结果,对所述数学做图题进行批改,以获得所述数学做图题的批改结果。
13.一种计算机存储介质,其特征在于,所述计算机存储介质存储有可读程序,所述可读程序包括:
用于通过题目内容描述模型中的特征提取部分,对待批改的数学做图题的图像进行图像特征提取,以获得所述数学做图题的题目内容特征数据的指令,其中,所述数学做图题的图像包括所述数学做图题的文本区域和图像对象区域,所述数学做图题为通过做图来进行解答的数学题,所述特征提取部分用于将所述待批改的数学做图题的图像转变为高维特征,所述文本区域用于展示所述数学做图题的题目文本,所述图像对象区域包括已做图的图像对象;
用于通过所述题目内容描述模型中的特征融合部分,对获取的所述文本区域中的文本字符串特征数据、获取的所述图像对象区域中的图像对象的类别特征数据,以及所述题目内容特征数据进行特征融合,以获得所述数学做图题的题目特征融合数据的指令;
用于通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据的指令;
用于基于所述题目内容描述数据,对所述数学做图题进行批改,以获得所述数学做图题的批改结果的指令,
其中,所述用于通过所述题目内容描述模型中的生成部分,基于所述数学做图题的题目特征融合数据,生成所述数学做图题对应的题目内容描述数据的指令,包括:
用于通过所述生成部分的解码层,对所述数学做图题的题目特征融合数据进行解码,以获得所述数学做图题的题目内容描述的字符概率数据的指令;
用于通过所述生成部分的连接时序分类层,基于所述数学做图题的题目内容描述的字符概率数据,生成所述数学做图题对应的题目内容描述数据的指令。
CN202110597414.7A 2021-05-31 2021-05-31 题目批改方法及计算机存储介质 Active CN113033721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110597414.7A CN113033721B (zh) 2021-05-31 2021-05-31 题目批改方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110597414.7A CN113033721B (zh) 2021-05-31 2021-05-31 题目批改方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN113033721A CN113033721A (zh) 2021-06-25
CN113033721B true CN113033721B (zh) 2021-09-28

Family

ID=76455888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110597414.7A Active CN113033721B (zh) 2021-05-31 2021-05-31 题目批改方法及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113033721B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722466B (zh) * 2021-11-03 2022-02-15 北京世纪好未来教育科技有限公司 批改模型训练方法、批改方法、装置、电子设备和介质
CN113837157B (zh) * 2021-11-26 2022-02-15 北京世纪好未来教育科技有限公司 题目类型识别方法、系统和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767307A (zh) * 2020-07-06 2020-10-13 北京猿力未来科技有限公司 对象处理方法及系统、数学题目批改方法及系统
CN111950528A (zh) * 2020-09-02 2020-11-17 北京猿力未来科技有限公司 图表识别模型训练方法以及装置
CN112232341A (zh) * 2020-12-10 2021-01-15 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN112287926A (zh) * 2019-07-23 2021-01-29 小船出海教育科技(北京)有限公司 一种图形题目的批改方法、装置以及设备
CN112598000A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 题目识别方法、装置、电子设备及计算机存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287926A (zh) * 2019-07-23 2021-01-29 小船出海教育科技(北京)有限公司 一种图形题目的批改方法、装置以及设备
CN111767307A (zh) * 2020-07-06 2020-10-13 北京猿力未来科技有限公司 对象处理方法及系统、数学题目批改方法及系统
CN111950528A (zh) * 2020-09-02 2020-11-17 北京猿力未来科技有限公司 图表识别模型训练方法以及装置
CN112232341A (zh) * 2020-12-10 2021-01-15 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN112598000A (zh) * 2021-03-03 2021-04-02 北京世纪好未来教育科技有限公司 题目识别方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN113033721A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110009027B (zh) 图像的比对方法、装置、存储介质及电子装置
CN113033721B (zh) 题目批改方法及计算机存储介质
CN111767883B (zh) 一种题目批改方法及装置
CN109670168B (zh) 基于特征学习的短答案自动评分方法、系统及存储介质
CN112070114B (zh) 基于高斯约束注意力机制网络的场景文字识别方法及系统
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN113283336A (zh) 一种文本识别方法与系统
CN112784531A (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
US10713830B1 (en) Artificial intelligence based image caption creation systems and methods thereof
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116311322A (zh) 一种文档版面要素检测方法、装置、存储介质及设备
WO2023024898A1 (zh) 题目辅助方法、题目辅助装置和题目辅助系统
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN115273057A (zh) 文本识别方法、装置和听写批改方法、装置及电子设备
CN113435441A (zh) 基于Bi-LSTM机制的四则运算算式图像智能批改方法
CN113780370A (zh) 视觉问答方法、装置、设备及存储介质
CN113052156A (zh) 光学字符识别方法、装置、电子设备和存储介质
CN113934922A (zh) 一种智能推荐的方法、装置、设备及计算机存储介质
Muraoka et al. Image position prediction in multimodal documents
CN117351575B (zh) 基于文生图数据增强模型的非言语行为识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant