CN115359495A - 试卷信息处理方法和系统 - Google Patents
试卷信息处理方法和系统 Download PDFInfo
- Publication number
- CN115359495A CN115359495A CN202211298782.2A CN202211298782A CN115359495A CN 115359495 A CN115359495 A CN 115359495A CN 202211298782 A CN202211298782 A CN 202211298782A CN 115359495 A CN115359495 A CN 115359495A
- Authority
- CN
- China
- Prior art keywords
- question
- test paper
- correction
- processed
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及教学领域,公开了一种试卷信息处理方法和系统。该方法包括:获取第一样本集,该第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块;用该第一样本集训练第一目标检测网络得到类型检测模型;用该类型检测模型识别并定位待处理试卷图像中的题号;基于题号的识别定位结果对该待处理试卷图像进行处理。本申请的实施方式大大提高了题号、学号识别的准确度和错题分割的精准度。
Description
技术领域
本申请涉及教学领域,特别涉及试卷信息处理方法和系统。
背景技术
传统的考试成绩信息处理方法,通常由教师人工阅卷统分,并由学生手工摘抄错题至个人错题本。但是,教师人工统分方式不仅效率低且批量计算试卷分数时容易出错,而学生手工摘抄错题也浪费了大量的复习时间,降低学习效率。
目前,随着教学信息化技术的发展,越来越多的学校采用了机器自动阅卷方法,以减轻教师的工作负担,然而现有的机器自动阅卷方法存在题号、学号识别准确度低和错题分割精准度不高的问题。
发明内容
本申请的目的在于提供一种试卷信息处理方法和系统,大大提高了题号、学号识别的准确度和错题分割的精准度。
本申请公开了一种试卷信息处理方法,包括:
获取第一样本集,所述第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块;
用所述第一样本集训练第一目标检测网络得到类型检测模型;
用所述类型检测模型识别并定位待处理试卷图像中的题号;
基于题号的识别定位结果对所述待处理试卷图像进行处理。
在一个优选例中,所述第一样本集中的每个批改痕迹样本包含标注为批改痕迹类型的批改痕迹图像块;
所述用所述类型检测模型识别并定位待处理试卷图像中的题号,进一步包括:用所述类型检测模型识别并定位所述待处理试卷图像中的题号和批改痕迹;
基于题号的识别定位结果对所述待处理试卷图像进行处理,进一步包括:基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域。
在一个优选例中,所述题号类型包括不同级别题号类型;
所述用所述类型检测模型识别并定位所述待处理试卷图像中的题号和批改痕迹进一步包括:用所述类型检测模型识别并定位待处理试卷图像中的各级题号和批改痕迹;
所述基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域进一步包括:基于所述识别定位结果中的一级题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域。
在一个优选例中,所述基于所述识别定位结果中的一级题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域之后,还包括:
判断所述每道试题的区域中的批改痕迹是否包含批改符号“×”和/或“-”批改符号,若是,则判断该区域中是否存在N级题号,其中N≥2;
若不存在,则直接判定该区域为错题区域并分割以收录至错题本;若存在,则获取N级题号的位置坐标,依次判断各N级题号左上角横坐标是否小于批改痕迹左上角横坐标;
若是,则保留该N级题号并计算该N级题号与所述批改符号之间的欧式距离,将与所述批改符号欧式距离最短的N级题号对应的试题判定为错题并根据该N级题号左上角坐标与其相邻N级题号左上角坐标分割该错题区域以收录至所述错题本;若否,则舍弃该N级题号。
在一个优选例中,所述基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域之后,还包括:
识别所述每道试题的区域中批改痕迹中的批改符号和批改分数;
计算批改分数与批改符号间的欧氏距离,将批改分数与其距离最短的批改符号相关联,并判断关联批改符号的类型;
统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算所述待处理试卷的目标得分。
在一个优选例中,所述试卷信息处理方法还包括:
收集手写学号数字0~9图像块或数字0~9与下划线的组合图像块,并为收集的每种数字创建对应的文件夹,组成学号数字库;
构建学号样本集,其中遍历N次学号数字库,每次从学号数字库中随机选取一个图像块得到一个学号样本,所述学号样本标注有每个数字的类型和位置,其中N为学号的字符串长度;
用所述学号样本集分别训练第二目标检测网络得到学号检测模型,将所述待处理试卷图像分别输入到所述学号检测模型中得到对应的目标学号;
所述统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算所述待处理试卷的目标得分之后,还包括:
将所述待处理试卷的所述目标学号与所述目标得分相关联,输出目标学号的目标得分。
在一个优选例中,用所述学号样本集分别训练第二目标检测网络得到学号检测模型,将所述待处理试卷图像分别输入到所述学号检测模型中得到对应的目标学号,进一步包括:
用所述学号样本集分别训练faster-RCNN网络、CNN网络和KNN网络得到对应的faster-RCNN模型、CNN模型和KNN模型;
将所述待处理试卷图像分别输入到所述faster-RCNN模型、CNN模型和KNN模型中得到对应的三种识别结果,对所述三种识别结果采用投票机制确定所述目标学号,若该三个模型的识别结果均不同时,将所述CNN模型的识别结果作为所述目标学号。
在一个优选例中,所述第一目标检测网络为Cascade-RCNN网络;
所述用所述第一样本集训练第一目标检测网络得到类型检测模型进一步包括:用所述第一样本集,结合Focal Loss均衡来训练所述Cascade-RCNN网络,以得到所述类型检测模型。
在一个优选例中,所述用所述类型检测模型识别并定位待处理试卷图像中的题号之后,还包括:
剔除所述题号的识别定位结果中不符合题号顺序逻辑的干扰项。
本申请还公开了一种试卷信息处理系统包括:
样本集获取模块,用于获取第一样本集,所述第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块;
类型检测模型模块,用于用所述第一样本集训练第一目标检测网络得到类型检测模型;
识别与定位模块,用于用所述类型检测模型识别并定位待处理试卷图像中的题号;
试卷处理模块,用于基于题号的识别定位结果对所述待处理试卷图像进行处理。
本申请实施方式中,至少包含以下优点和有益技术效果:
采用新的题号标注方式,将题号左侧的空白区域与题号一起标注为题号类别,可将题号特征与试题中出现的相同特征有效区分,避免了现有仅标注题号作为识别特征时将试题中的相同特征误检为题号的情况,可大大提高题号识别准确度。并且,之后再根据数字顺序逻辑剔除题号识别结果中的题号干扰项,可进一步提高题号识别准确度。
进一步地,标注的题号类型包括不同级别题号类型,同时用标注有批改痕迹类型的批改痕迹的图像块样本来集训练Cascade-RCNN网络以得到可识别各级题号和批改痕迹的类型检测模型,并基于识别的各级题号和批改痕迹精准确定得到各试题区域,并可进一步分割出错题以收录至错题本。并且,基于精准确定的各试题区域利用各区域中批改痕迹中的批改符号和批改分数之间的关联关系计算得到试卷最终得分,准确度高。
此外,提出一种构建学号样本集的新方法,即对于较少数量的手写学号数据,先构建学号数字库,并通过遍历该学号数字库的方式构建学号数据集,这样可以大量生成手写学号数据,可避免因数据量小造成的模型过拟合问题,同时也可以减少数据采集时间。进一步地,一方面,根据学号识别需求构建学号背景库(包括学号栏下划线等),并在每次遍历学号数据库之前,随机选取一个背景作为当前学号样本的背景;另一方面,在构建学号样本集时,对各学号样本进行随机添加噪声、形变等干扰,经添加干扰的学号样本集训练的学号检测模型,如此可进一步提高学号识别准确度。之后,分别利用构建的学号样本集训练不同的网络并基于得到的多个模型识别输入的试卷中的学号,并且对多个模型的识别结果采用投票机制确定最终的目标学号,这可进一步提高学号识别的准确度。进一步地,在得到目标学号后,将其与预存的学生学号进行匹配以确定误识别学号并进行修正,从而确保每一学号关联唯一一份试卷。
进一步地,在得到目标得分和目标学号之后,将该待处理试卷的目标学号与试卷最终得分相关联,以自动输出目标学号的试卷最终得分和错题集。后续,还可根据各学生的试卷得分情况,自动统计全班、全年级各类考试的最高分、最低分、平均分,以及对于某道题的错误率以及整个题目的错误率分布情况进行统计分析,从而获得全班易错题与易错题型,帮助教师精准教学。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的试卷信息处理方法流程示意图。
图2是根据本申请的一个实施例的试卷局部图像的示意图。
图3是根据本申请第二实施方式的试卷信息处理系统结构示意图。
图4是根据本申请的一个实施例的试卷信息处理系统框架图。
图5是根据本申请的一个实施例的试卷信息处理过程的流程图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种试卷信息处理方法,其流程如图1所示,该方法包括以下步骤:
步骤101,获取第一样本集,该第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块(即图像或图像区域)。
其中,该题号样本的生成方式多种多样。在一个实施例中,可以直接将历史试卷上的题号及其左侧空白区组成的图像块标注为题号类型。在本实施例中,例如可将标注有该图像块的试卷整体作为题号样本;再例如该图像块也可以从试卷中分割出来单独作为题号样本。在另一个实施例中,可以机器自动生成包含题号及其左侧空白区的图像块作为题号样本,其中同一题号形式配置不同印刷字体样式(具体可依据试卷中包含的所有字体样式),例如对于题号形式为“一、”的题号特征,可通过机器自动生成宋体的“一、”,黑体的“一、”,楷体的“一、”……,以及加粗、宋体的“一、”……,以及斜体、宋体的“一、”……等。并且,例如可以在算法中可使用T1-TM+1表示题号标签[0-M]。
在本实施方式中,该第一样本集至少包含题号样本。在其他实施例中,该第一样本集还可以同时包含题号样本和批改痕迹样本两者,并且其中每个批改痕迹样本包含标注为批改痕迹类型的批改痕迹图像块。该批改痕迹包括符号和批改分数,其中批改符号例如但不限于包括“+”“-”“√”“×”等特征形式,对批改分数的识别与定位结果例如可标记为0-N分。
步骤102,用该第一样本集训练第一目标检测网络得到类型检测模型。
其中,该第一目标检测网络可以是现有任何目标检测网络,优选地为Cascade-RCNN网络。在第一目标检测网络为Cascade-RCNN网络的实施例中,该步骤102可以进一步实现为:用该第一样本集,结合Focal Loss均衡来训练该Cascade-RCNN网络,以得到该类型检测模型。
步骤103,用该类型检测模型识别并定位待处理试卷图像中的题号。
其中,可选地,该步骤103之后,还可以包括以下步骤:剔除该题号的识别定位结果中不符合题号顺序逻辑的干扰项;例如,在对图2示出的试卷(为了简洁,只示出了局部图)进行识别后,识别定位结果为[……,17,18,19,30,20,21,……]时,不符合题号顺序逻辑的30会标注为异常数据并剔除,这样可提高题号检测准确度。
步骤104,基于题号的识别定位结果对该待处理试卷图像进行处理。
如前述的在第一样本集同时包含题号样本和批改痕迹样本的实施例中,该步骤103可以进一步包括:用该类型检测模型识别并定位该待处理试卷图像中的题号和批改痕迹。进一步地,该步骤104可以进一步包括:基于题号和批改痕迹的识别定位结果分割该待处理试卷图像中的每道试题的区域。
在一些实施例中,该题号类型包括不同级别题号类型(如一级题号、二级题号……),前述的“用该类型检测模型识别并定位该待处理试卷图像中的题号和批改痕迹”可以进一步包括:用该类型检测模型识别并定位待处理试卷图像中的各级题号和批改痕迹。并且,前述的“基于题号和批改痕迹的识别定位结果分割该待处理试卷图像中的每道试题的区域”进一步包括:基于该识别定位结果中的一级题号和批改痕迹的识别定位结果分割该待处理试卷图像中的每道试题的区域,以得到每道试题的区域分割结果。
进一步地,在得到每道试题的区域分割结果之后,例如还可以进行错题的自动分割收录,例如可以实现为:判断该每道试题的区域中的批改痕迹是否包含批改符号“×”和/或“-”批改符号,若是,则判断该区域中是否存在N级题号,其中N≥2;若不存在,则直接判定该区域为错题区域并分割以收录至错题本;若存在,则获取N级题号的位置坐标,依次判断各N级题号左上角横坐标是否小于批改痕迹左上角横坐标;若是,则保留该N级题号并计算该N级题号与该批改符号之间的欧式距离,将与该批改符号欧式距离最短的N级题号对应的试题判定为错题并根据该N级题号左上角坐标与其相邻N级题号左上角坐标分割该错题区域以收录至该错题本;若否,则舍弃该N级题号。其中,N可以根据需要设置,例如可以设置为2等。
进一步地,在得到每道试题的区域分割结果之后,例如还可以进行试卷最终得分的统计,可以实现为:①批改符号和分数识别-识别该每道试题的区域中批改痕迹中的批改符号和批改分数;②计算欧式距离-计算批改分数与批改符号间的欧氏距离;③判断关联批改符号-将批改分数与其距离最短的批改符号相关联,并判断关联批改符号的类型;④计算分数-统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算该待处理试卷的目标得分。其中,步骤④具体的包括:当批改分数的关联批改符号为“+”和/或“√”时,则认定该批改分数为“加分”,通过将各识别分数相加,获得试卷最终得分;当批改分数的关联批改符号为“-”和/或“×”时,则认定该批改分数为“减分”,通过用试卷总分数减去识别分数之和,获得试卷最终得分(即目标得分)。
一般地,试卷中的学号一般为手写,并且由多个代表属性信息的数字字符组成,例如包括入学年份+班级+编号等(如“20210533”),而手写学号通常存在数据量少的问题,本实施方式为了避免由于学生手写学号数据量较小而造成模型过拟合的问题,在一些实施例中,该试卷信息处理方法还可以包括针对小数据量的手写学号的学号检测过程,例如可以实现为:收集手写学号数字0~9图像块或数字0~9与下划线的组合图像块,并为收集的每种数字创建对应的文件夹,组成学号数字库;构建学号样本集,其中遍历N次学号数字库,每次从学号数字库中随机选取一个图像块得到一个学号样本,该学号样本标注有每个数字的类型和位置,其中N为学号的字符串长度(以“20210533”为例,N等于8),这样可以大量生成手写学号数据,避免数据量小造成模型过拟合,同时减少数据采集时间。在构建得到学号样本集后,用该学号样本集训练第二目标检测网络得到学号检测模型,将该待处理试卷图像分别输入到该学号检测模型中得到对应的目标学号。同时,在构建学号样本集时,还可以对各学号样本进行随机添加噪声、形变等干扰,经添加干扰的学号样本集训练的学号检测模型,识别准确度更高。
此外,为了进一步提高学号检测的准确度,该“用该学号样本集训练第二目标检测网络得到学号检测模型,将该待处理试卷图像分别输入到该学号检测模型中得到对应的目标学号”进一步实现为:用该学号样本集分别训练faster-RCNN网络、CNN网络和KNN网络得到对应的faster-RCNN模型、CNN模型和KNN模型;将该待处理试卷图像分别输入到该faster-RCNN模型、CNN模型和KNN模型中得到对应的三种识别结果,对该三种识别结果采用投票机制确定该目标学号,若该三个模型的识别结果均不同时,将该CNN模型的识别结果作为该目标学号。
同时,为了避免学号的误识别,在得到学号的识别结果后,将其与预存的学生学号进行匹配,若存在多个识别结果与同一学号匹配或某一识别结果无匹配学号,则判定为误识别并进行误识别处理,即通过分析学号结构属性特征,重新进行精细化匹配,从而确保每一学号关联唯一一份试卷,具体误识别处理方式如下:①对于多个识别结果匹配同一学号,将该多个识别结果对应的多份试卷分文件夹存储至教师端,待教师确认;对于②识别结果无匹配学号:a.若该识别结果存在超出对应范围的属性,则首先根据其它范围内的属性与未关联到的学号进行互联,当仅互联到一个学号时,则直接判定该学号对应学生与该识别结果关联;当互联到多个学号时,则依次计算该多个学号与识别结果间的“莱文斯坦距离”,并将莱文斯坦距离最短的学生学号与该识别结果关联;b.若该识别结果的各属性均在指定范围内,则直接依次计算未关联到的学生学号与识别结果间的“莱文斯坦距离”,将莱文斯坦距离最短的学生学号与该识别结果关联。其中,莱文斯坦距离又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需要的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。
在一些实施例中,在得到待处理试卷的目标得分和目标学号之后,还可以将该待处理试卷的该目标学号与该目标得分相关联,以输出目标学号的目标得分和错题集。
可以理解,在本实施例中,例如可以预先将每种样本的数据集按照80%训练集,20%测试集的比例进行划分,划分的80%训练集用于训练网络模型,划分的20%测试集用于在训练完成后测评模型的效果,其中80%和20%仅为示例性地,具体数量可根据需要设置。
本申请的第二实施方式涉及一种试卷信息处理系统,其结构如图3所示,该试卷信息处理系统包括样本集获取模块、类型检测模型模块、识别与定位模块和试卷处理模块。
该样本集获取模块用于获取第一样本集,该第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块。可选地,该题号类型可以包括不同级别题号类型。
其中,该题号样本的生成方式多种多样。在一个实施例中,可以直接将历史试卷上的题号及其左侧空白区组成的图像块标注为题号类型。在本实施例中,例如可将标注有该图像块的试卷整体作为题号样本;再例如该图像块也可以从试卷中分割出来单独作为题号样本。在另一个实施例中,可以机器自动生成包含题号及其左侧空白区的图像块作为题号样本,其中同一题号形式配置不同印刷字体样式(具体可依据试卷中包含的所有字体样式),例如对于题号形式为“一、”的题号特征,可通过机器自动生成宋体的“一、”,黑体的“一、”,楷体的“一、”……,以及加粗、宋体的“一、”……,以及斜体、宋体的“一、”……等。并且,例如可以在算法中可使用T1-TM+1表示题号标签[0-M]。
本实施方式中,该第一样本集包括题号样本。但在其他一些实施例中,该第一样本集还可以同时包括题号样本和批改痕迹样本二者,并且每个批改痕迹样本还可以同时包含标注为批改痕迹类型的批改痕迹图像块。在另一些实施例中,该题号样本和批改痕迹样本也可以收录在不同的样本集中,例如题号样本收录在该第一样本集中,批改痕迹样本收录在另一样本集中。
该类型检测模型模块用于用该第一样本集训练第一目标检测网络得到类型检测模型。其中,该第一目标检测网络可以是现有任何目标检测网络,优选地为Cascade-RCNN网络。在第一目标检测网络为Cascade-RCNN网络的实施例中,该类型检测模型模块还用于用该第一样本集,结合Focal Loss均衡来训练该Cascade-RCNN网络,使得模型对困难样本更加鲁棒,以得到该类型检测模型。
具体而言,构建基于Cascade-RCNN的类型检测模型时,使用cascade回归作为一种重采样的机制,将RCNN拓展为multi-stage的形式,叠层各个不同IOU阈值的检测分支,使得前一个stage重新采样的候选框能够适应下一个有更高阈值的stage,最终使得模型对困难样本更加鲁棒。本模块构建的Cascade-RCNN网络设置4个stage,第一个stage产生RPN,另外三个stage分别设置IOU阈值为[0.5,0.6,0.7],针对分类,采用softmax损失函数,针对回归,采用smooth L1 loss。进一步地,为避免数据不均衡现象,特别当采集的样本数量不一,各类别的样本分布失衡,导致损失函数的分布发生倾斜(如当负样本数量远远超过正样本数量时,负样本就会占主导地位),导致模型在训练过程中会倾向于样本多的类别,最终造成模型对少样本类别的性能较差,因此可以采用Focal Loss均衡,使得所有样本尽可能均衡分布,Focal Loss函数表达式如下:
其中,表示Focal Loss函数;表示预测概率与真实值的接近程度,其值越大说明越接近真实值,即分类越准确;0<γ为调节因子,根据真实类别对应的输出概率决定此次预测loss的权重,对于概率大的简单任务,减小其权重,对于概率小的困难任务,提高其权重;为预测概率大小;y为类别。
该识别与定位模块用于用该类型检测模型识别并定位待处理试卷图像中的题号。在一些实施例中,该识别与定位模块还用于用该类型检测模型识别并定位该待处理试卷图像中的题号和批改痕迹。在另一些实施例中,该识别与定位模块还用于用该类型检测模型识别并定位待处理试卷图像中的各级题号和批改痕迹。例如,该识别与定位模块的定位识别结果包括目标{学号、题号(包括一级标题、二级标题等)、批改痕迹}的类别和检测框以及检测框的左上角坐标(x 1 ,y 1 )及右下角坐标(x 2 ,y 2 )。
可选地,该识别与定位模块还用于剔除该题号的识别定位结果中不符合题号顺序逻辑的干扰项,这可进一步提高题号检测准确度。
该试卷处理模块用于基于题号的识别定位结果对该待处理试卷图像进行处理。在一些实施例中,该试卷处理模块还用于基于题号和批改痕迹的识别定位结果分割该待处理试卷图像中的每道试题的区域。在另一些实施例中,该试卷处理模块还用于基于该识别定位结果中的一级题号和批改痕迹的识别定位结果分割该待处理试卷图像中的每道试题的区域。
可选地,该系统还包括错题分割收录模块,该错题分割收录模块用于判断该每道试题的区域中的批改痕迹是否包含批改符号“×”和/或“-”批改符号,若是,则判断该区域中是否存在N级题号(例如二级题号),其中N≥2;若不存在,则直接判定该区域为错题区域并分割以收录至错题本;若存在,则获取N级题号的位置坐标,依次判断各N级题号左上角横坐标是否小于批改痕迹左上角横坐标(可根据批改习惯设置,例如批改老师的批改习惯为左侧批改,则二级标题一般位于教师手写批改符号左侧),若是,则保留该N级题号并计算该N级题号与该批改符号之间的欧式距离,将与该批改符号欧式距离最短的N级题号对应的试题判定为错题并根据该N级题号左上角坐标与其相邻N级题号左上角坐标分割该错题区域以收录至该错题本;若否,则舍弃该N级题号。例如,可以根据该二级标题左上角坐标与右侧/下方二级标题左上角坐标分割该二级标题对应试题区域,若该二级标题的右侧/下方无二级标题则直接根据该二级标题左上角坐标分割。
可选地,该系统还包括分数统计模块,该分数统计模块用于识别该每道试题的区域中批改痕迹中的批改符号和批改分数;计算批改分数与批改符号间的欧氏距离,将批改分数与其距离最短的批改符号相关联,并判断关联批改符号的类型;统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算该待处理试卷的目标得分。
可选地,该系统还包括学号样本集,收集手写学号数字0~9图像块或数字0~9与下划线的组合图像块,并为收集的每种数字创建对应的文件夹,组成学号数字库;遍历N次学号数字库,每次从学号数字库中随机选取一个图像块得到一个学号样本,该学号样本标注有每个数字的类型和位置,其中N为学号的字符串长度,以构建得到学号样本集。在一些实施例中,还可以根据学号识别需求构建学号背景库,包括白色、米黄色等试卷纸、学号栏下划线等常见背景,并每次遍历学号数据库之前,随机选取一个背景作为当前学号样本的背景。
可选地,该系统还包括学号检测模型模块。在一些实施例中,该学号检测模型模块用于用该学号样本集分别训练第二目标检测网络得到学号检测模型,将该待处理试卷图像分别输入到该学号检测模型中得到对应的目标学号。在另一些实施例中,该学号检测模型模块还用于用该学号样本集分别训练faster-RCNN网络(即ResNet50作为该模型的基干网络)、CNN网络和KNN网络得到对应的faster-RCNN模型、CNN模型和KNN模型;将该待处理试卷图像分别输入到该faster-RCNN模型、CNN模型和KNN模型中得到对应的三种识别结果,对该三种识别结果采用投票机制确定该目标学号,若该三个模型的识别结果均不同时,将该CNN模型的识别结果作为该目标学号。
可选地,该系统还包括关联模块,该关联模块用于将该待处理试卷的该目标学号与该目标得分相关联,输出目标学号的目标得分。
在一些实施例中,该系统可以根据输出的目标得分、错题分割收录结果及目标分数与目标学号的关联结果,例如可以生成每个学生的错题收录及试卷得分情况。进一步地,系统还可以根据各学生的试卷得分情况,自动统计全班、全年级随堂考试的最高分、最低分、平均分、对于某道题的错误率以及整个题目的错误率分布,从而获得全班易错题与易错题型,帮助教师精准教学。同时还可根据学生的分数、学号、姓名自动生成excel表格,避免手工输分导致统分错误。
如图4和图5分别示出了本申请的一个实施例的试卷信息处理系统框架图及其对试卷信息处理过程的流程图。具体的,首先根据手写试卷阅卷需求设计智能识别与定位模块,识别并定位学号、题号以及批改痕迹;然后基于识别与定位结果,分别采用多模型投票机制的学号识别模块、试题分割和错题识别模块、试卷统分模块,提高学号识别准确率及错题识别精准度,同时实现试卷分数统计。最后将错题识别及统分结果与学生关联,生成个人错题本及考试成绩。需要指出,该实施例仅为示例性的,其中罗列的细节主要是为了便于理解,不作为对本申请保护范围的限制。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述试卷信息处理系统的实施方式中所示的各模块的实现功能可参照前述试卷信息处理方法的相关描述而理解。上述试卷信息处理系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述试卷信息处理系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例该方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本申请实施方式还提供一种试卷信息处理系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Application Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
Claims (10)
1.一种试卷信息处理方法,其特征在于,包括:
获取第一样本集,所述第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块;
用所述第一样本集训练第一目标检测网络得到类型检测模型;
用所述类型检测模型识别并定位待处理试卷图像中的题号;
基于题号的识别定位结果对所述待处理试卷图像进行处理。
2.如权利要求1所述的试卷信息处理方法,其特征在于,所述第一样本集中的每个批改痕迹样本包含标注为批改痕迹类型的批改痕迹图像块;
所述用所述类型检测模型识别并定位待处理试卷图像中的题号,进一步包括:用所述类型检测模型识别并定位所述待处理试卷图像中的题号和批改痕迹;
基于题号的识别定位结果对所述待处理试卷图像进行处理,进一步包括:基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域。
3.如权利要求2所述的试卷信息处理方法,其特征在于,所述题号类型包括不同级别题号类型;
所述用所述类型检测模型识别并定位所述待处理试卷图像中的题号和批改痕迹进一步包括:用所述类型检测模型识别并定位待处理试卷图像中的各级题号和批改痕迹;
所述基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域进一步包括:基于所述识别定位结果中的一级题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域。
4.如权利要求3所述的试卷信息处理方法,其特征在于,所述基于所述识别定位结果中的一级题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域之后,还包括:
判断所述每道试题的区域中的批改痕迹是否包含批改符号“×”和/或“-”批改符号,若是,则判断该区域中是否存在N级题号,其中N≥2;
若不存在,则直接判定该区域为错题区域并分割以收录至错题本;若存在,则获取N级题号的位置坐标,依次判断各N级题号左上角横坐标是否小于批改痕迹左上角横坐标;
若是,则保留该N级题号并计算该N级题号与所述批改符号之间的欧式距离,将与所述批改符号欧式距离最短的N级题号对应的试题判定为错题并根据该N级题号左上角坐标与其相邻N级题号左上角坐标分割该错题区域以收录至所述错题本;若否,则舍弃该N级题号。
5.如权利要求2所述的试卷信息处理方法,其特征在于,所述基于题号和批改痕迹的识别定位结果分割所述待处理试卷图像中的每道试题的区域之后,还包括:
识别所述每道试题的区域中批改痕迹中的批改符号和批改分数;
计算批改分数与批改符号间的欧氏距离,将批改分数与其距离最短的批改符号相关联,并判断关联批改符号的类型;
统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算所述待处理试卷的目标得分。
6.如权利要求5所述的试卷信息处理方法,其特征在于,所述试卷信息处理方法还包括:
收集手写学号数字0~9图像块或数字0~9与下划线的组合图像块,并为收集的每种数字创建对应的文件夹,组成学号数字库;
构建学号样本集,其中遍历N次学号数字库,每次从学号数字库中随机选取一个图像块得到一个学号样本,所述学号样本标注有每个数字的类型和位置,其中N为学号的字符串长度;
用所述学号样本集分别训练第二目标检测网络得到学号检测模型,将所述待处理试卷图像分别输入到所述学号检测模型中得到对应的目标学号;
所述统计相同类型的批改符号关联的批改分数,并根据统计结果、该批改符号的类型和试卷总分值计算所述待处理试卷的目标得分之后,还包括:
将所述待处理试卷的所述目标学号与所述目标得分相关联,输出目标学号的目标得分。
7.如权利要求6所述的试卷信息处理方法,其特征在于,用所述学号样本集分别训练第二目标检测网络得到学号检测模型,将所述待处理试卷图像分别输入到所述学号检测模型中得到对应的目标学号,进一步包括:
用所述学号样本集分别训练faster-RCNN网络、CNN网络和KNN网络得到对应的faster-RCNN模型、CNN模型和KNN模型;
将所述待处理试卷图像分别输入到所述faster-RCNN模型、CNN模型和KNN模型中得到对应的三种识别结果,对所述三种识别结果采用投票机制确定所述目标学号,若所述三种识别结果均不同时,将所述CNN模型的识别结果作为所述目标学号。
8.如权利要求2所述的试卷信息处理方法,其特征在于,所述第一目标检测网络为Cascade-RCNN网络;
所述用所述第一样本集训练第一目标检测网络得到类型检测模型进一步包括:用所述第一样本集,结合Focal Loss均衡来训练所述Cascade-RCNN网络,以得到所述类型检测模型。
9.如权利要求1-8中任一项所述的试卷信息处理方法,其特征在于,所述用所述类型检测模型识别并定位待处理试卷图像中的题号之后,还包括:
剔除所述题号的识别定位结果中不符合题号顺序逻辑的干扰项。
10.一种试卷信息处理系统,其特征在于,包括:
样本集获取模块,用于获取第一样本集,所述第一样本集中的每个题号样本包含标注为题号类型的题号及其左侧空白区的图像块;
类型检测模型模块,用于用所述第一样本集训练第一目标检测网络得到类型检测模型;
识别与定位模块,用于用所述类型检测模型识别并定位待处理试卷图像中的题号;
试卷处理模块,用于基于题号的识别定位结果对所述待处理试卷图像进行处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298782.2A CN115359495B (zh) | 2022-10-24 | 2022-10-24 | 试卷信息处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298782.2A CN115359495B (zh) | 2022-10-24 | 2022-10-24 | 试卷信息处理方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359495A true CN115359495A (zh) | 2022-11-18 |
CN115359495B CN115359495B (zh) | 2023-03-24 |
Family
ID=84008965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298782.2A Active CN115359495B (zh) | 2022-10-24 | 2022-10-24 | 试卷信息处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359495B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469077A (zh) * | 2015-12-31 | 2016-04-06 | 田雪松 | 一种电子阅卷方法 |
CN106781784A (zh) * | 2017-01-04 | 2017-05-31 | 王骁乾 | 一种智能批改系统 |
CN110008933A (zh) * | 2019-04-18 | 2019-07-12 | 江苏曲速教育科技有限公司 | 一种通用智能阅卷系统和方法 |
CN110210413A (zh) * | 2019-06-04 | 2019-09-06 | 哈尔滨工业大学 | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 |
US20210225188A1 (en) * | 2018-12-28 | 2021-07-22 | Hangzhou Dana Technology Inc. | Answer correction method and device |
CN113177435A (zh) * | 2021-03-31 | 2021-07-27 | 新东方教育科技集团有限公司 | 试卷分析方法、装置、存储介质及电子设备 |
CN115063805A (zh) * | 2022-05-19 | 2022-09-16 | 科大讯飞股份有限公司 | 图像识别方法、答题批改方法及相关装置、设备和介质 |
-
2022
- 2022-10-24 CN CN202211298782.2A patent/CN115359495B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469077A (zh) * | 2015-12-31 | 2016-04-06 | 田雪松 | 一种电子阅卷方法 |
CN106781784A (zh) * | 2017-01-04 | 2017-05-31 | 王骁乾 | 一种智能批改系统 |
US20210225188A1 (en) * | 2018-12-28 | 2021-07-22 | Hangzhou Dana Technology Inc. | Answer correction method and device |
CN110008933A (zh) * | 2019-04-18 | 2019-07-12 | 江苏曲速教育科技有限公司 | 一种通用智能阅卷系统和方法 |
CN110210413A (zh) * | 2019-06-04 | 2019-09-06 | 哈尔滨工业大学 | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 |
CN113177435A (zh) * | 2021-03-31 | 2021-07-27 | 新东方教育科技集团有限公司 | 试卷分析方法、装置、存储介质及电子设备 |
CN115063805A (zh) * | 2022-05-19 | 2022-09-16 | 科大讯飞股份有限公司 | 图像识别方法、答题批改方法及相关装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115359495B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11508251B2 (en) | Method and system for intelligent identification and correction of questions | |
CN109284355B (zh) | 一种批改试卷中口算题的方法及装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
CN109189895B (zh) | 一种针对口算题的题目批改方法及装置 | |
US20240126984A1 (en) | Annotation method, relation extraction method, storage medium and computing device | |
CN111209734A (zh) | 试题去重方法及其系统 | |
CN110659352A (zh) | 试题考点识别方法及其系统 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN113807158A (zh) | 一种pdf内容提取方法、装置及设备 | |
CN113988044B (zh) | 错题原因类别的判定方法 | |
CN111274821A (zh) | 一种命名实体识别数据标注质量评估方法及装置 | |
CN112395858A (zh) | 融合试题数据和解答数据的多知识点标注方法和系统 | |
CN115359495B (zh) | 试卷信息处理方法和系统 | |
JP7293658B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN113792545B (zh) | 一种基于深度学习的新闻事件活动名称抽取方法 | |
CN114861625A (zh) | 一种获得目标训练样本的方法、电子设备及介质 | |
CN114581934A (zh) | 试卷图像的处理方法、装置及设备 | |
TW200409046A (en) | Optical character recognition device, document searching system, and document searching program | |
CN114860873A (zh) | 一种生成文本摘要的方法、装置及存储介质 | |
CN111090989B (zh) | 一种基于文字识别的提示方法及电子设备 | |
CN113255836A (zh) | 一种作业数据处理方法、装置、计算机设备和存储介质 | |
CN112102127A (zh) | 可解释智能学习报告生产方法 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN111461109A (zh) | 一种基于环境多种类词库识别单据的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |