CN110929582A - 口算题自动批改方法及装置、存储介质、电子设备 - Google Patents
口算题自动批改方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN110929582A CN110929582A CN201911025222.8A CN201911025222A CN110929582A CN 110929582 A CN110929582 A CN 110929582A CN 201911025222 A CN201911025222 A CN 201911025222A CN 110929582 A CN110929582 A CN 110929582A
- Authority
- CN
- China
- Prior art keywords
- image
- oral
- sub
- images
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012937 correction Methods 0.000 title abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims description 28
- 230000002457 bidirectional effect Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 15
- 238000012986 modification Methods 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 8
- 238000002715 modification method Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009532 heart rate measurement Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 208000003580 polydactyly Diseases 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例涉及一种口算题自动批改方法及装置、存储介质、电子设备。本申请实施例的口算题自动批改方法包括:获取第一图像,其中,所述第一图像记载有口算题影像;将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。本申请实施例的口算题自动批改方法能实现对口算题的自动修改。
Description
技术领域
本申请实施例涉及脉搏测量技术领域,特别是涉及一种口算题自动批改方法及装置、存储介质、电子设备。
背景技术
口算是目前唯一不借助任何实物进行简便运算的方法,既不用算盘,也不用手指。口算题通常包括一些简单的代数四则运算,口算题练习是小学数学学习不可缺少的一部分,能促使学生的思维活跃,打好口算能力的基础,是学生学好数学的关键。但是口算题作业的批改需要花费老师、家长大量的精力。
发明内容
本申请实施例提供了一种口算题自动批改方法及装置、存储介质、电子设备,能实现对口算题的自动修改。
第一方面,本申请实施例提供了一种口算题自动批改方法,包括步骤:
获取第一图像,其中,所述第一图像记载有口算题影像;
将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
可选的,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像,包括:
通过所述第一神经网络模型识别出各口算题影像对应的像素点;
选取各口算题影像对应的像素点,获得若干子图像。
可选的,所述第一神经网络模型为全卷积神经网络模型,所述全卷积神经网络模型的训练过程包括:
获取训练样本图像,其中,所述训练样本图像中包括被标注的各口算题的影像;
将所述被标注的各口算题的影像作为第一类别,以及将所述训练样本图像中口算题的影像之外的影像作为第二类别输入至所述全卷积神经网络模型中,以训练所述全卷积神经网络模型。
可选的,所述训练样本图像中各口算题的影像的标注过程包括:
使用矩形框分别框选各口算题的影像,其中,不同矩形框之间不包括相同的像素点。
可选的,选取各口算题影像对应的像素点,包括:
使用矩形框分别框选各口算题影像对应的所有像素点,其中,所述矩形框的四条边分别经过各口算题影像对应的像素点中,在所述矩形框的四条边方向最边界的像素点。
可选的,获得若干子图像后,还包括:
获取各子图像在所述第一图像中的坐标信息;
根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息;
将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像。
可选的,将各子图像输入第一文字识别模型,识别出各子图像对应的文本内容,包括:
将各子图像输入残差网络模型中,提取各子图像的特征向量;
将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息。
可选的,识别出各子图像对应的文本内容后,还包括:
通过TF-IDF提取各子图像中文本内容的文本特征;
将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本。
第二方面,本申请实施例提供了一种口算题自动批改装置,包括:
图像获取模块,用于获取第一图像,其中,所述第一图像记载有口算题影像;
图像识别模块,用于将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
文本识别模块,用于将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
运算模块,用于根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请实施例第一方面中任一所述的口算题自动批改方法。
第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述第一方面的方法步骤。
在本申请实施例中,通过第一神经网络模型从记载有口算题影像的第一图像中识别出各口算题的子图像,识别各子图像的文本内容,根据文本内容自动对各口算题进行数学运算,并根据运算结果判断各口算题的答案是否正确,从而不需要人工去批改口算题,实现了口算题的自动批改,提高了口算题的批改效率。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
图1为在一个示例性实施例中示出的本申请实施例口算题自动批改方法应用场景示意图;
图2为在一个示例性实施例中示出的本申请实施例口算题自动批改方法流程图;
图3为在一个示例性实施例中示出的本申请实施例口算题自动批改方法识别子图像的流程图;
图4为在一个示例性实施例中示出的本申请实施例通过全卷积神经网络模型识别口算题影像示意图;
图5为在一个示例性实施例中示出的本申请实施例全卷积神经网络模型的训练流程图;
图6为在一个示例性实施例中示出的本申请实施例选取各口算题影像对应的像素点示意图;
图7为在一个示例性实施例中示出的本申请实施例通过子图像大小识别非口算题流程图;
图8为在一个示例性实施例中示出的本申请实施例识别各子图像对应的文本内容流程图;
图9为在一个示例性实施例中示出的本申请实施例识别各子图像对应的文本内容示意图;
图10为在一个示例性实施例中示出的本申请实施例去除干扰文本流程图;
图11为在一个示例性实施例中示出的本申请实施例口算题自动批改方法流程图;
图12为在一个示例性实施例中示出的本申请实施例口算题自动批改装置结构示意图;
图13为在一个示例性实施例中示出的本申请实施例电子设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
图1为本申请实施例口算题自动批改方法在一示例性实施例中的应用场景示意图,在图1的应用场景中,包括电子设备100和第一图像200,电子设备100上运行有应用本申请实施例口算题自动批改方法的应用程序110,将第一图像200输入至电子设备100中运行的应用程序110后,应用程序110执行本申请实施例的口算题自动批改方法对第一图像200中的口算题影响进行自动识别和自动批改,并输出批改后的结果。所述电子设备100可以是任何智能终端,例如,可以具体为计算机、手机、平板电脑、交互式智能平板、PDA(PersonalDigital Assistant,个人数字助理)、电子书阅读器、多媒体播放器等。基于不同的智能终端,所述应用程序110还可以是以适应该智能终端的其他形式呈现。在一些例子中,还可以是以例如系统插件、网页插件等形式呈现。
所述第一图像200可以是通过网络或硬件设备导入至电子设备100的图像,也可以是通过电子设备100携带的摄像头所拍摄的图像。所述第一图像200可以是现有技术中任意格式的图像文档,如bmp、jpg、png等格式。所述第一图像记载的对象可以是考试试卷、作业题等,所述第一图像中记载有口算题影像。
如图2所示,在一个示例性的实施例中,以图1中应用程序110的工作过程为例,本实施例的口算题自动批改方法可以是包括如下步骤:
步骤S201:获取第一图像,其中,所述第一图像记载有口算题影像;
口算题是指不借助任何实物便可以进行简便运算并获取运算结果的数学运算题目,其不列竖式便可以直接计算,口算题的运算内容通常包括个位数或多位数之间的加,减,乘,除等。本申请实施例的口算题类型可以是如图1中的根据等号左边的算式计算出算式的结果,并在等号右边填写计算结果作为答案,也可以是在运算符号两边分别设有不同的算式或者数值,由用户填写能正确反应两边不同的算式或者数值大小关系的运算符号作为答案。
步骤S202:将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
所述第一神经网络模型为基于分割的卷积神经网络模型,所述基于分割的卷积神经网络模型可以被训练为用于分类识别,将所述第一图像输入训练好的第一神经网络模型后,区分于背景图像,所述第一神经网络模型可以识别出各口算题影像对应的子图像,其中,各子图像中分别记载有一道识别出的口算题。
步骤S203:将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
所述第一文字识别模型为基于神经网络的模型,将各子图像输入第一文字识别模型后,第一文字识别模型可以识别出各子图像中的文本内容,所述文本内容包括数字、标点符号、运算符号等。
步骤S204:根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
本申请实施例利用预设的逻辑引擎对识别出的文本内容进行数学运算,所述逻辑引擎通过比较整个运算符是否成立,来判断口算题是否做对或做错。
本申请实施例的逻辑引擎由一系列的数学运算逻辑规则组成,比如,如果口算题式子里面有“等号”,逻辑引擎通过比较等号两端的结果是否相等,或者是式子中有“大于号”,则逻辑引擎通过比较大于号两端的大小关系是否正确。
在本申请实施例中,通过第一神经网络模型从记载有口算题影像的第一图像中识别出各口算题的子图像,识别各子图像的文本内容,根据文本内容自动对各口算题进行数学运算,并根据运算结果判断各口算题的答案是否正确,从而不需要人工去批改口算题,实现了口算题的自动批改,提高了口算题的批改效率。
如图3所示,在一个示例性的实施例中,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像,包括:
步骤S301:通过所述第一神经网络模型识别出各口算题影像对应的像素点;
步骤S302:选取各口算题影像对应的像素点,获得若干子图像。
所述像素点为所述第一图像中最小的显示单元,各口算题影像对应的像素点包括显示该口算题对应的文字的像素点,以及文字周边作为背景的像素点,从而构成包括文字和背景图像的口算题影像。
在识别出各口算题影像对应的像素点后,本申请实施例通过选取各口算题影像对应的像素点,获得若干位于所述第一图像中的子图像。
选取各口算题影像对应的像素点可以是在第一图像中标注出各口算题影像对应的像素点,每个被标注的口算题影像为一子图像,在一些例子中,还可以是从第一图像中提取出各口算题的单独的子图像。
在本实施例中,通过识别出各口算题影像所对应的像素点来获取个口算题影像所对应的子图像,可以更加准确的获取各口算题所在的子图像。
在一个例子中,如图4所示,所述第一神经网络模型为全卷积神经网络模型(FCN,Fully Convolutional Network),全卷积神经网络模型可以从抽象的特征中恢复出每个像素所属的类别,即从图像级别的分类进一步延伸到像素级别的分类,从而解决了语义级别的图像分割问题。与经典的深度卷积神经网络模型在卷积层使用全连接层得到固定长度的特征向量进行分类不同,全卷积神经网络模型可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷基层的特征图(feature map)进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每一个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图进行像素的分类。在图4中,第一图像中的阴影部分即为所述全卷积神经网络模型从第一图像中识别出的各口算题的影像。
所述全卷积神经网络模型将传统深度卷积神经网络模型中的全连接层转化成一个个的卷积层,通过该模型,可以得到第一图像的每个像素点的类别信息(例如,口算题像素为1、非口算题像素为0),即可以识别出第一图像中,每个像素点为口算题像素点还是非口算题像素点。
如图5所示,在一个例子中,所述全卷积神经网络模型的训练过程包括如下步骤:
步骤S501:获取训练样本图像,其中,所述训练样本图像中包括被标注的各口算题的影像;
步骤S502:将所述被标注的各口算题的影像作为第一类别,以及将所述训练样本图像中口算题的影像之外的影像作为第二类别输入至所述全卷积神经网络模型中,以训练所述全卷积神经网络模型。
本申请实施例在图像中标注出各口算题的影像从而生成待训练样本图像,并将标注出的各口算题的影像对应的像素点作为一种样本类别,将非口算题影像对应的像素点作为另一种样本类别,并利用该两种样本类别训练所述全卷积神经网络模型,从而可以使所述全卷积神经网络模型可以准确的识别出第一图像中的口算题影像。
为更加规范的区分口算题影像和非口算题影像,在一个实施例中,在训练样本图像中,各口算题的影像通过矩形框框选的方式标注,其中,各口算题影像之间互相独立,每个矩形框框选各口算题对应的文字的像素点以及文字周边背景图像的像素点,不同的矩形框之间不包括相同的像素点。
在本实施例中,如图6所示,选取各口算题影像对应的像素点,包括:使用矩形框分别框选各口算题影像对应的所有像素点,其中,所述矩形框的四条边分别经过各口算题影像对应的像素点中,在所述矩形框的四条边方向最边界的像素点。
由于第一神经网络模型所识别出的各口算题影像对应的像素点的形状可能不是规范的形状,因此,本实施例获得第一图像中每个像素点的类别信息后,对所有识别为口算题的像素点,求它的最小外接矩形,即可选取该口算题,并截取了各口算题影像所占据的最小图像区域,可以提高所述全卷积神经网络模型的训练效果和分类效果。
在一个实施例中,如图7所示,在选取各口算题影像对应的像素点,获得若干子图像后,还包括:
步骤S701:获取各子图像在所述第一图像中的坐标信息;
步骤S702:根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息;
步骤S703:将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像。
在本申请实施例中,可以事先统计出口算题宽度、高度的中位数,如果有某道口算题的宽度和高度都和对应的阈值,例如中位数有极大的差别(比如小于中位数的二分之一,或大于中位数的二倍),则可以判断该子图像所记载的内容为非口算题。
本申请实施例通过识别为包括一道口算题的子图像的坐标信息获取该子图像的高度和/或宽度信息,从而可以根据该高度和/或宽度信息筛选出图像过大或过小的非口算题,进一步提高本申请实施例的口算题识别准确率。
在一个实施例中,如图8和图9所示,将各子图像输入第一文字识别模型,识别出各子图像对应的文本内容,包括:
步骤S801:将各子图像输入残差网络模型中,提取各子图像的特征向量;
步骤S802:将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息。
本申请实施例首先残差网络ResNet提取图像的特征向量;然后利用双向递归神经网络(bidirectional RNN)来处理上一步得到的特征向量。本申请实施例通过CTC(Connectionist temporal classification)算法来训练双向递归神经网络模型。
本申请通过残差网络模型和双向递归神经网络模型,能准确的识别出各子图像中的文本内容。
由于口算题里面主要是包含数字和运算符,同时题目本身也具有极强的模式,因此经第一神经网络模型所识别出的口算题影像中的内容有可能存在干扰文本,例如:11111,++++++,======,1+++===等干扰文本,在一个实施例中,如图10所示,还包括去除干扰文本的步骤:
步骤S1001:通过TF-IDF提取各子图像中文本内容的文本特征;
步骤S1002:将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本。
本申请实施例利用机器学习分类器(如SVM)对识别结果进行分类,自动判断是否为口算题还是其他干扰文本,如果不是口算题,则直接忽略掉,如果是口算题,则将其送给下一个批改环节,从而可以进一步提高口算题识别的准确率。
具体的,本申请实施例通过TF-IDF来提取文本特征,最后利用支持向量机(SVM)来进行文本分类。
如图11所示,在一个具体的实施例中,本申请的口算题自动批改方法包括如下步骤:
步骤S1101:获取第一图像,其中,所述第一图像记载有口算题影像;
步骤S1102:将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的像素点;
步骤S1103:利用矩形框选取各口算题影像对应的像素点,获得若干子图像;
步骤S1104:获取各子图像在所述第一图像中的坐标信息,根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息,将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像;
步骤S1105:将各子图像输入残差网络模型中,提取各子图像的特征向量,将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息;
步骤S1106:通过TF-IDF提取各子图像中文本内容的文本特征,将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本;
步骤S1107:根据识别出的文本内容,进行口算题数学运算,根据运算结果判断各子图像中的口算题的答案是否正确。
与前述口算题自动批改方法相对应,本申请实施例还提供一种口算题自动批改装置,所述装置可以是安装于任何智能终端,例如,可以具体为计算机、手机、平板电脑、交互式智能平板、PDA(Personal Digital Assistant,个人数字助理)、电子书阅读器、多媒体播放器等。本申请实施例的口算题自动批改装置,通过第一神经网络模型从记载有口算题影像的第一图像中识别出各口算题的子图像,识别各子图像的文本内容,根据文本内容自动对各口算题进行数学运算,并根据运算结果判断各口算题的答案是否正确,从而不需要人工去批改口算题,实现了口算题的自动批改,提高了口算题的批改效率。
在一个示例性的实施例中,如图12所示,所述口算题自动批改装置1200包括:
图像获取模块1201,用于获取第一图像,其中,所述第一图像记载有口算题影像;
图像识别模块1202,用于将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
文本识别模块1203,用于将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
运算模块1204,用于根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
在一个示例性的实施例中,所述图像识别模块1202包括:
识别单元,用于通过所述第一神经网络模型识别出各口算题影像对应的像素点;
选取单元,用于选取各口算题影像对应的像素点,获得若干子图像。
在一个示例性的实施例中,所述图像识别模块1202还包括:
训练样本图像获取单元,用于获取训练样本图像,其中,所述训练样本图像中包括被标注的各口算题的影像;
训练单元,用于将所述被标注的各口算题的影像作为第一类别,以及将所述训练样本图像中口算题的影像之外的影像作为第二类别输入至所述全卷积神经网络模型中,以训练所述全卷积神经网络模型。在一个示例性的实施例中,所述训练样本图像获取单元包括:
第一框选单元,用于使用矩形框分别框选各口算题的影像,其中,不同矩形框之间不包括相同的像素点。
在一个示例性的实施例中,所述选取模块1103包括:
第二框选单元,用于使用矩形框分别框选各口算题影像对应的所有像素点,其中,所述矩形框的四条边分别经过各口算题影像对应的像素点中,在所述矩形框的四条边方向最边界的像素点。
在一个示例性的实施例中,所述口算题自动批改装置1100还包括:
坐标信息获取模块,用于获取各子图像在所述第一图像中的坐标信息;
高度宽度信息获取模块,用于根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息;
第二识别模块,用于将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像。
在一个示例性的实施例中,所述文本识别模块1104包括:
特征向量提取单元,用于将各子图像输入残差网络模型中,提取各子图像的特征向量;
第二识别单元,用于将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息。
在一个示例性的实施例中,所述口算题自动批改装置1100还包括:
文本特征提取模块,用于通过TF-IDF提取各子图像中文本内容的文本特征;
第三识别模块,用于将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
与前述口算题自动批改方法相对应,本申请实施例还提供一种口算题自动批改装置应用的口算题自动批改设备,所述口算题自动批改设备可以具体为计算机、手机、平板电脑、交互式智能平板、PDA(Personal Digital Assistant,个人数字助理)、电子书阅读器、多媒体播放器等。所述电子设备通过第一神经网络模型从记载有口算题影像的第一图像中识别出各口算题的子图像,识别各子图像的文本内容,根据文本内容自动对各口算题进行数学运算,并根据运算结果判断各口算题的答案是否正确,从而不需要人工去批改口算题,实现了口算题的自动批改,提高了口算题的批改效率。
如图13所示,图13是本申请实施例根据一示例性实施例示出的一种电子设备的结构框图。
该电子设备包括:处理器1300、存储器1301、具有触摸功能的显示屏1302、输入装置1303、输出装置1304以及通信装置1305。该电子设备中处理器1300的数量可以是一个或者多个,图13中以一个处理器1300为例。该电子设备中存储器1301的数量可以是一个或者多个,图13中以一个存储器1301为例。该电子设备的处理器1300、存储器1301、显示屏1302、输入装置1303、输出装置1304以及通信装置1305可以通过总线或者其他方式连接,图13中以通过总线连接为例。实施例中,电子设备可以是计算机、手机、平板电脑、交互式智能平板、PDA(Personal Digital Assistant,个人数字助理)、电子书阅读器、多媒体播放器等。本申请实施例中,以电子设备为交互智能平板为例,进行描述。
存储器1301作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例任意实施例所述的资源调用方法程序,以及本申请实施例任意实施例所述的资源调用方法对应的程序指令/模块(例如,口算题自动批改装置中的图像获取模块1001、图像识别模块1002、文本识别模块1003、运算模块1004等)。存储器1301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器1301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器1301可进一步包括相对于处理器1300远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示屏1302可为具有触摸功能的显示屏,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏1302用于根据处理器1300的指示显示数据,还用于接收作用于显示屏1302的触摸操作,并将相应的信号发送至处理器1300或其他装置。可选的,当显示屏1302为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏1302的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器1300或者其他设备。在其他例子中,显示屏1302也可为不具有触摸功能的显示屏。
通信装置1305,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。
输入装置1303可用于接收输入的数字或者字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置1304可以包括扬声器等音频设备。需要说明的是,输入装置1303和输出装置1304的具体组成可以根据实际情况设定。
处理器1300通过运行存储在存储器1301中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述任一实施例所记载的口算题自动批改方法。
具体的,在一个示例性的实施例中,处理器1300执行存储器1301中存储的一个或多个程序时,具体实现如下操作:
获取第一图像,其中,所述第一图像记载有口算题影像;
将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
在上述实施例的基础上,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像,包括:
通过所述第一神经网络模型识别出各口算题影像对应的像素点;
选取各口算题影像对应的像素点,获得若干子图像。
在上述实施例的基础上,所述第一神经网络模型为全卷积神经网络模型,所述全卷积神经网络模型的训练过程包括:
获取训练样本图像,其中,所述训练样本图像中包括被标注的各口算题的影像;
将所述被标注的各口算题的影像作为第一类别,以及将所述训练样本图像中口算题的影像之外的影像作为第二类别输入至所述全卷积神经网络模型中,以训练所述全卷积神经网络模型。
在上述实施例的基础上,所述训练样本图像中各口算题的影像的标注过程包括:
使用矩形框分别框选各口算题的影像,其中,不同矩形框之间不包括相同的像素点。
在上述实施例的基础上,选取各口算题影像对应的像素点,包括:
使用矩形框分别框选各口算题影像对应的所有像素点,其中,所述矩形框的四条边分别经过各口算题影像对应的像素点中,在所述矩形框的四条边方向最边界的像素点。
在上述实施例的基础上,获得若干子图像后,还包括:
获取各子图像在所述第一图像中的坐标信息;
根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息;
将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像。
在上述实施例的基础上,将各子图像输入第一文字识别模型,识别出各子图像对应的文本内容,包括:
将各子图像输入残差网络模型中,提取各子图像的特征向量;
将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息。
在上述实施例的基础上,识别出每个局部图像中的文本内容后,还包括:
通过TF-IDF提取各子图像中文本内容的文本特征;
将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本。
上述设备中各个组件的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。上述提供的电子设备可用于执行上述任意实施例提供的资源调用方法,具备相应的功能和有益效果。上述设备中各个组件的功能和作用的实现过程具体详见上述资源调用方法中对应步骤的实现过程,在此不再赘述。
与前述资源调用方法的实施例相对应,本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被上述电子设备的处理器1300执行时实现上述任一实施例所记载的所述口算题自动批改方法的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请实施例的其它实施方案。本申请实施例旨在涵盖本申请实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请实施例的一般性原理并包括本申请实施例未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请实施例的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。
以上所述实施例仅表达了本申请实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请实施例构思的前提下,还可以做出若干变形和改进,这些都属于本申请实施例的保护范围。
Claims (11)
1.一种口算题自动批改方法,其特征在于,包括:
获取第一图像,其中,所述第一图像记载有口算题影像;
将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
2.根据权利要求1所述的口算题自动批改方法,其特征在于,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像,包括:
通过所述第一神经网络模型识别出各口算题影像对应的像素点;
选取各口算题影像对应的像素点,获得若干子图像。
3.根据权利要求1所述的口算题自动批改方法,其特征在于,所述第一神经网络模型为全卷积神经网络模型,所述全卷积神经网络模型的训练过程包括:
获取训练样本图像,其中,所述训练样本图像中包括被标注的各口算题的影像;
将所述被标注的各口算题的影像作为第一类别,以及将所述训练样本图像中口算题的影像之外的影像作为第二类别输入至所述全卷积神经网络模型中,以训练所述全卷积神经网络模型。
4.根据权利要求3所述的口算题自动批改方法,其特征在于,所述训练样本图像中各口算题的影像的标注过程包括:
使用矩形框分别框选各口算题的影像,其中,不同矩形框之间不包括相同的像素点。
5.根据权利要求4所述的口算题自动批改方法,其特征在于,选取各口算题影像对应的像素点,包括:
使用矩形框分别框选各口算题影像对应的所有像素点,其中,所述矩形框的四条边分别经过各口算题影像对应的像素点中,在所述矩形框的四条边方向最边界的像素点。
6.根据权利要求1至5任一项所述的口算题自动批改方法,其特征在于,获得若干子图像后,还包括:
获取各子图像在所述第一图像中的坐标信息;
根据各子图像的坐标信息,获取各子图像的高度和/或宽度信息;
将各子图像的高度和/或宽度信息与预设阈值比较,识别出不符合设定高度和/或宽度阈值的非口算题子图像。
7.根据权利要求1所述的口算题自动批改方法,其特征在于,将各子图像输入第一文字识别模型,识别出各子图像对应的文本内容,包括:
将各子图像输入残差网络模型中,提取各子图像的特征向量;
将各子图像的特征向量输入双向递归神经网络模型,通过双向递归神经网络模型识别出各子图像中的文本信息。
8.根据权利要求1所述的口算题自动批改方法,其特征在于,识别出各子图像对应的文本内容后,还包括:
通过TF-IDF提取各子图像中文本内容的文本特征;
将各子图像中文本内容的文本特征输入预设的文本分类器中,识别出各子图像中非口算题的干扰文本。
9.一种口算题自动批改装置,其特征在于,包括:
图像获取模块,用于获取第一图像,其中,所述第一图像记载有口算题影像;
图像识别模块,用于将所述第一图像输入第一神经网络模型,通过所述第一神经网络模型识别出所述第一图像中各口算题影像对应的子图像;
文本识别模块,用于将各子图像输入第一文字识别模型,识别出所述各子图像对应的文本内容;
运算模块,用于根据识别出所述各子图像对应的文本内容,进行口算题数学运算,根据运算结果判断所述各子图像中的口算题的答案是否正确。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至8任一项的口算题自动批改方法步骤。
11.一种电子设备,包括:
存储器以及处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的口算题自动批改方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025222.8A CN110929582A (zh) | 2019-10-25 | 2019-10-25 | 口算题自动批改方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911025222.8A CN110929582A (zh) | 2019-10-25 | 2019-10-25 | 口算题自动批改方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110929582A true CN110929582A (zh) | 2020-03-27 |
Family
ID=69849545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911025222.8A Pending CN110929582A (zh) | 2019-10-25 | 2019-10-25 | 口算题自动批改方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929582A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882004A (zh) * | 2020-09-28 | 2020-11-03 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
CN111986117A (zh) * | 2020-08-31 | 2020-11-24 | 南京大学 | 一种算术作业批改系统及方法 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN112686170A (zh) * | 2020-12-31 | 2021-04-20 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
CN112699881A (zh) * | 2020-12-31 | 2021-04-23 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170822A1 (ko) * | 2014-05-07 | 2015-11-12 | 오종현 | 시험지의 채점 및 오답데이터 관리 시스템 |
CN108932508A (zh) * | 2018-08-13 | 2018-12-04 | 杭州大拿科技股份有限公司 | 一种题目智能识别、批改的方法和系统 |
CN109189895A (zh) * | 2018-09-26 | 2019-01-11 | 杭州大拿科技股份有限公司 | 一种针对口算题的题目批改方法及装置 |
CN109284355A (zh) * | 2018-09-26 | 2019-01-29 | 杭州大拿科技股份有限公司 | 一种批改试卷中口算题的方法及装置 |
-
2019
- 2019-10-25 CN CN201911025222.8A patent/CN110929582A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015170822A1 (ko) * | 2014-05-07 | 2015-11-12 | 오종현 | 시험지의 채점 및 오답데이터 관리 시스템 |
CN108932508A (zh) * | 2018-08-13 | 2018-12-04 | 杭州大拿科技股份有限公司 | 一种题目智能识别、批改的方法和系统 |
CN109189895A (zh) * | 2018-09-26 | 2019-01-11 | 杭州大拿科技股份有限公司 | 一种针对口算题的题目批改方法及装置 |
CN109284355A (zh) * | 2018-09-26 | 2019-01-29 | 杭州大拿科技股份有限公司 | 一种批改试卷中口算题的方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986117A (zh) * | 2020-08-31 | 2020-11-24 | 南京大学 | 一种算术作业批改系统及方法 |
CN111882004A (zh) * | 2020-09-28 | 2020-11-03 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
CN112396009A (zh) * | 2020-11-24 | 2021-02-23 | 广东国粒教育技术有限公司 | 一种基于全卷积神经网络模型的算题批改方法、算题批改装置 |
CN112686170A (zh) * | 2020-12-31 | 2021-04-20 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
CN112699881A (zh) * | 2020-12-31 | 2021-04-23 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
CN112686170B (zh) * | 2020-12-31 | 2023-10-17 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929582A (zh) | 口算题自动批改方法及装置、存储介质、电子设备 | |
WO2018177379A1 (zh) | 手势识别、控制及神经网络训练方法、装置及电子设备 | |
US20200202226A1 (en) | System and method for context based deep knowledge tracing | |
CN111488826A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN105427696A (zh) | 一种对目标题目所作答案进行判别的方法 | |
CN110085068A (zh) | 一种基于图像识别的学习辅导方法及装置 | |
CN113763249A (zh) | 文本图像超分辨率重建方法及其相关设备 | |
CN111401322A (zh) | 进出站识别方法、装置、终端及存储介质 | |
CN114170468B (zh) | 文本识别方法、存储介质及计算机终端 | |
CN114005019B (zh) | 一种翻拍图像识别方法及其相关设备 | |
CN112004113A (zh) | 教学交互方法、装置、服务器及存储介质 | |
CN113469148B (zh) | 一种文本擦除方法及模型的训练方法、装置、存储介质 | |
US10055668B2 (en) | Method for the optical detection of symbols | |
CN112488052B (zh) | 题目辅助方法、装置和系统 | |
CN112580584A (zh) | 起立行为检测方法、装置、系统及存储介质 | |
CN111062377B (zh) | 一种题号检测方法、系统、存储介质及电子设备 | |
CN112307858A (zh) | 一种图像识别及处理方法、装置、设备及存储介质 | |
CN114973218A (zh) | 图像处理方法、装置及系统 | |
CN113033400B (zh) | 识别数学式子的方法、装置、存储介质及电子设备 | |
CN113469878B (zh) | 一种文本擦除方法及其模型的训练方法、装置、存储介质 | |
US20170262146A1 (en) | Electronic record information displaying apparatus and method | |
CN113688809B (zh) | 一种模型训练方法、文本去除方法及相关装置 | |
CN113538537B (zh) | 图像配准、模型训练方法、装置、设备、服务器及介质 | |
CN116052196A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN113705736A (zh) | 一种答案确定方法、判题方法及装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200327 |