CN111597908A - 试卷批改方法和试卷批改装置 - Google Patents
试卷批改方法和试卷批改装置 Download PDFInfo
- Publication number
- CN111597908A CN111597908A CN202010319743.0A CN202010319743A CN111597908A CN 111597908 A CN111597908 A CN 111597908A CN 202010319743 A CN202010319743 A CN 202010319743A CN 111597908 A CN111597908 A CN 111597908A
- Authority
- CN
- China
- Prior art keywords
- answer
- image
- information
- test paper
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 164
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012937 correction Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000002715 modification method Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 6
- 238000012015 optical character recognition Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 102100032202 Cornulin Human genes 0.000 description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 3
- 239000004816 latex Substances 0.000 description 3
- 229920000126 latex Polymers 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明提出了一种试卷批改方法和试卷批改装置。其中,试卷批改方法包括:获取试题图像和答题区域规则;根据答题区域规则和试题图像,确定答题区域图像;识别答题区域图像中的答题文本信息;比对答题文本信息和试题图像对应的标准答案信息;根据答题文本信息和标准答案信息的比对结果批改试卷,从而实现纸质试卷客观题的智能化批改,避免了在普通考试的过程中如果没有答题卡只能通过老师进行人工阅卷的问题,可大量节省老师的时间,提高批改试卷的效率,减少出错,而且,相比于现有技术,能够更灵活、细粒度地批改,同时解决了一题多个子答案的问题,批改准确率有了很大提高,提升批改的效率和学科灵活性。
Description
技术领域
本发明涉及试卷批改技术领域,具体而言,涉及一种试卷批改方法和一种试卷批改装置。
背景技术
随着人工智能在教育领域的广泛应用,越来越多智能阅卷和智能批改的方法层出不穷。目前的智能批改大致可以分为以下三类:基于字符串匹配的批改,基于混淆规则的精确批改和基于样本集的运用机器学习算法的粗粒度批改。其中,基于字符串的匹配,对于一些同义的子答案,无法很好的区分;基于混淆规则的精确批改,需要人工设定规则,会有些地方考虑不周,规则的定义,直接影响到了批改结果;基于深度学习算法的粗粒度批改,需要大量训练样本集,而且没有很好的移植性,如果科目题目变化的话,模型需要重新训练。
目前无论是哪类智能批改方法,都存在一些问题,即无法很好地灵活满足各学科的填空题目的纸质版批改。目前大部分的智能批改还是在线电子版的批改,需要运用答题卡,但是,对于中小学生的作业和考试,纸质版是最多,为了减轻老师批改的负担,批改的精确度,很有必要提出一种纸质版和在线版各种学科的填空题都能够精确地批改的方法。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明第一方面在于提出了一种试卷批改方法。
本发明的第二方面在于提出了一种试卷批改装置。
有鉴于此,根据本发明的第一方面,提出了一种试卷批改方法,包括:获取试题图像和答题区域规则;根据答题区域规则和试题图像,确定答题区域图像;识别答题区域图像中的答题文本信息;比对答题文本信息和试题图像对应的标准答案信息;根据答题文本信息和标准答案信息的比对结果批改试卷。
本发明提供的试卷批改方法,获取试卷每一道题目的试题图像,根据答题区域规则对试题图像进行图像处理,并从试题图像中分割出答题区域图像,其中,答题区域规则为用户预先设置的答题区域识别条件,例如填空题的答题区为直线,选择题的答题区为括号等,通过识别答题区域图像中的答题文本信息,获得每一道题的手写作答内容,然后将答题文本信息与标准答案进行比较,获得该道答题的批改结果,例如两者相同,则作答正确;不相同,则作答错误,批改的方式可以为在每道题目的答案处标记√或×。一方面,实现纸质试卷客观题的智能化批改,避免了在普通考试的过程中如果没有答题卡只能通过老师进行人工阅卷的问题,可大量节省老师的时间,提高批改试卷的效率,减少出错;另一方面,相比于现有技术中的字符串匹配、混淆规则批改、深度学习粗粒度批改,本发明的试卷批改方法能够更灵活,细粒度地批改,同时解决了一题多个子答案的问题,批改准确率有了很大提高,提升了批改的效率和学科灵活性。
另外,根据本发明提供的上述技术方案中的试卷批改方法,还可以具有如下附加技术特征:
在上述技术方案中,进一步地,根据答题区域规则和试题图像,确定答题区域图像,具体包括:对试题图像进行投影变换处理;根据答题区域规则确定试题图像的答题区域;根据答题区域切割试题图像,得到答题区域图像。
在该技术方案中,通过基于连通域和投影变换,找出手写答案所包含的手写文字区域,结合直线等答题区域规则的起始位置,定位到答题区域,并通过子图切割方法,从每一题的试题图像中切割出答题区域图像。从而能够在无需扫描空白试卷模板的情况下,通过图像处理的方法定位到题目中的答题区域,优化电子版纸质试卷的批改方式。
在上述任一技术方案中,进一步地,获取试题图像,具体包括:获取试卷图像;分析试卷图像的版面信息;根据版面信息切割试卷图像,得到至少一个试题图像,并生成试题图像的第一编码信息。
在该技术方案中,获取考生答复的纸质试卷图像,对试卷图像进行版面分析,以确定题目的类型和位置,并根据版面信息切割试卷图像,形成每一道目的试题图像,同时生成每一个试题图像唯一的第一编码信息,以便于将试题图像中的答题文本信息与标准答案进行比对,解决了一题多个子答案的问题,有效提升批改准确率。
具体地,在获得试卷图像后,对图像进行角度纠正预处理,能够使得图片中,试题的内容处于正常的位置,进而能够便于对待拆分试卷图像的识别。
在上述任一技术方案中,进一步地,根据答题区域规则和试题图像,确定答题区域图像之后,还包括:生成与第一编码信息对应答题区域图像的第二编码信息。
在该技术方案中,根据答题区域生成与第一编码信息对应答题区域图像的第二编码信息,使得识别出的答题文本信息能够与每一道题目进行关联,对于同一题中同义的子答案,能够很好的区分,以便于将试题图像中的答题文本信息与标准答案进行比对,从而解决了一题多个子答案的问题,有效提升批改准确率。
在上述任一技术方案中,进一步地,比对答题文本信息和标准答案信息,具体包括:获取标准答案信息,并确定第一编码信息和标准答案信息的第三编码信息之间的对应关系;根据标准答案信息和批改混淆规则构建知识库;根据第一编码信息和第二编码信息之间的对应关系、第一编码信息和第三编码信息之间的对应关系、字符串匹配算法,匹配答题文本信息和知识库。
在该技术方案中,获取标准答案信息,并确定第一编码信息和标准答案信息的第三编码信息之间的对应关系,以将每个题目和相应答案一一对应或者一对多对应,然后按照第一编码信息和第三编码信息之间的对应关系将标准答案和对应的题目按照每个学科的批改混淆规则用知识库来存储表示,通过字符串匹配算法比对答题文本信息和对应的标准答案信息,具体地,采用字典树和KMP(Knuth–Morris–Pratt algorithm,分析模式字符串)算法,一方面,实现纸质试卷客观题的智能化批改,减少了人工评阅的工作量,提高了试卷批改效率和正确率。另一方面,相比于现有技术中的字符串匹配、混淆规则批改、深度学习粗粒度批改方法,无需大量的样本集训练,对不同类型的客观题题目也没有很好的兼容性,能够细粒度排查错误原因,同时提高了批改的效率和学科灵活性。
在上述任一技术方案中,进一步地,识别答题区域图像中的答题文本信息之后,还包括:根据语义词典和/或上下文语言模型,确定答题文本信息的错误概率;将错误概率大于预设阈值的答题文本信息作为错误文本;筛选相似文本数据库中与错误文本对应的相似文本;根据相似文本替换错误文本。
在该技术方案中,考虑了中文字符在词法的特点和中文句法语义的上下文关系等显著特征,结合语义词典和上下文的语言模型进一步地在答题文本信息中检测出识别错误区域,并确定识别错误区域内字与字之间的错误概率,将错误概率较高的文本作为错误文本,并确定错误文本对应的相似文本数据库,将相似文本数据库内的文字带入到答题文本信息计算匹配得分,将匹配得分最高的文本作为相似文本,即纠错结果,将该相似文本与错误文本进行替换,完成纠错。从而实现文本识别的自动纠错功能,能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了识别的准确率。其中,计算错误文本与汉字库中文本的相似度得分,根据相似度得分大于相似阈值的文本和历史纠错结果构建该错误文本的相似文本数据库,实现相似文本的精准筛选。
在上述任一技术方案中,进一步地,根据相似文本替换错误文本之后,还包括:输出替换后的答题文本信息和对应的答题区域图像;根据反馈的修正信息,对答题文本信息进行修正和补充。
在该技术方案中,在确实能够识别出的答题文本信息出现错误后,输出替换后的答题文本信息和对应的答题区域图像,以供人工核验,根据反馈的修正信息,对答题文本信息进行修正和补充,使得用户能够对纠错后的答题文本信息进行进一步修正,增加人工干预批改功能,进一步提升识别的准确度,保证了试卷批改的准确性。
在上述任一技术方案中,进一步地,获取试题图像和答题区域规则之后,还包括:对试题图像进行图像预处理,其中,图像预处理包括以下至少一种:去噪处理,灰度处理,二值化处理,图像开运算,膨胀处理。
在该技术方案中,通过图像预处理能够使得图片质量变得干净凸显出试题图像中的内容,有利于分析答题区域,方便后续的操作,从而提升了答题文本信息识别的效率。
在上述任一技术方案中,进一步地,识别答题区域图像中的答题文本信息,具体包括:对答题区域图像进行滤波处理和/或线条去除处理;根据OCR文字识别模型识别答题区域图像中的答题文本信息。
在该技术方案中,部分答题区域图片中存在下划线或者括号,考虑到这些线条可能会影响后续的文字识别效果,所以首先去除这些线条,在根据OCR(Optical CharacterRecognition,光学字符识别)图像识别技术将图像格式的答题笔迹信息转化成“电子版”机打文字格式的答题文本信息,从而提高识别精度、降低误识几率,提高批改客观题的效率。
具体地,预先根据教育领域语料,用CRNN+attention模型来搭建OCR识别模型,对于一些公式之类的特殊字符,可以转换成latex格式来表示。
根据本发明的第二方面,提出了一种试卷批改装置,包括存储器、处理器,存储器储存有计算机程序,处理器执行计算机程序时实现上述任一项的试卷批改方法。因此该试卷批改装置具备上述任一项的试卷批改方法的全部有益效果。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明一个实施例的试卷批改方法流程示意图;
图2示出了本发明又一个实施例的试卷批改方法流程示意图;
图3示出了本发明又一个实施例的试卷批改方法流程示意图;
图4示出了本发明又一个实施例的试卷批改方法流程示意图;
图5示出了本发明又一个实施例的试卷批改方法流程示意图;
图6示出了本发明又一个实施例的试卷批改方法流程示意图;
图7示出了本发明具体一个实施例的填空题的智能批改方法流程示意图;
图8示出了本发明一个实施例的试卷批改装置示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。
下面参照图1至图8描述根据本发明一些实施例的试卷批改方法、试卷批改装置。
实施例一
如图1所示,根据本发明第一方面的实施例,提出了一种试卷批改方法,该方法包括:
步骤102,获取试题图像和答题区域规则;
步骤104,根据答题区域规则和试题图像,确定答题区域图像;
步骤106,识别答题区域图像中的答题文本信息;
步骤108,比对答题文本信息和试题图像对应的标准答案信息;
步骤110,根据答题文本信息和标准答案信息的比对结果批改试卷。
在该实施例中,获取试卷每一道题目的试题图像,根据答题区域规则对试题图像进行图像处理,并从试题图像中分割出答题区域图像,其中,答题区域规则为用户预先设置的答题区域识别条件,例如填空题的答题区为直线,选择题的答题区为括号等,通过识别答题区域图像中的答题文本信息,获得每一道题的手写作答内容,然后将答题文本信息与标准答案进行比较,获得该道答题的批改结果,例如两者相同,则作答正确;不相同,则作答错误,批改的方式可以为在每道题目的答案处标记√或×。一方面,实现纸质试卷客观题的智能化批改,避免了在普通考试的过程中如果没有答题卡只能通过老师进行人工阅卷的问题,可大量节省老师的时间,提高批改试卷的效率,减少出错;另一方面,相比于现有技术中的字符串匹配、混淆规则批改、深度学习粗粒度批改,本发明的试卷批改方法能够更灵活,细粒度地批改,同时解决了一题多个子答案的问题,批改准确率有了很大提高,同时提高了批改的效率和学科灵活性。
实施例二
如图2所示,根据本发明的一个实施例,提出了一种试卷批改方法,该方法包括:
步骤202,获取试题图像和答题区域规则;
步骤204,对试题图像进行投影变换处理;
步骤206,根据答题区域规则确定试题图像的答题区域;
步骤208,根据答题区域切割试题图像,得到答题区域图像;
步骤210,识别答题区域图像中的答题文本信息;
步骤212,比对答题文本信息和试题图像对应的标准答案信息;
步骤214,根据答题文本信息和标准答案信息的比对结果批改试卷。
在该实施例中,通过基于连通域和投影变换,找出手写答案所包含的手写文字区域,结合直线等答题区域规则的起始位置,定位到答题区域,并通过子图切割方法,从每一题的试题图像中切割出答题区域图像。从而能够在无需扫描空白试卷模板的情况下,通过图像处理的方法定位到题目中的答题区域,优化电子版纸质试卷的批改方式。
具体地,使用投影变换进行切分,沿着指定方向累加图中的像素值,沿水平和垂直方向累加分别可以得到水平投影图和垂直投影图,水平投影图可以获得行切分,再进一步使用垂直投影图后,可以得到字符切分,从而将一个二维区域分割问题转化为一个一维线段分割问题,将连通域标记问题简单化。
实施例三
如图3所示,根据本发明的一个实施例,提出了一种试卷批改方法,该方法包括:
步骤302,获取试卷图像和答题区域规则;
步骤304,分析试卷图像的版面信息;
步骤306,根据版面信息切割试卷图像,得到至少一个试题图像,并生成试题图像的第一编码信息;
步骤308,根据答题区域规则和试题图像,确定答题区域图像,并生成与第一编码信息对应答题区域图像的第二编码信息;
步骤310,识别答题区域图像中的答题文本信息;
步骤312,获取标准答案信息,并确定第一编码信息和标准答案信息的第三编码信息之间的对应关系;
步骤314,根据标准答案信息和批改混淆规则构建知识库;
步骤316,根据第一编码信息和第二编码信息之间的对应关系、第一编码信息和第三编码信息之间的对应关系、字符串匹配算法,匹配答题文本信息和知识库;
步骤318,根据答题文本信息和知识库的匹配结果批改试卷。
在该实施例中,获取考生答复的纸质试卷图像,对试卷图像进行版面分析,以确定题目的类型和位置,并根据版面信息切割试卷图像,形成每一道目的试题图像,同时生成每一个试题图像唯一的第一编码信息,在切割答题区域图像后,生成与第一编码信息对应答题区域图像的第二编码信息,使得识别出的答题文本信息能够与每一道题目进行关联,对于同一题中同义的子答案,能够很好的区分,以便于将试题图像中的答题文本信息与标准答案进行比对,从而解决了一题多个子答案的问题,有效提升批改准确率。获取标准答案信息后确定第一编码信息和标准答案信息的第三编码信息之间的对应关系,以将每个题目和相应答案一一对应或者一对多对应,然后按照第一编码信息和第三编码信息之间的对应关系将标准答案和对应的题目按照每个学科的批改混淆规则用知识库来存储表示,通过字符串匹配算法比对答题文本信息和对应的标准答案信息,具体地,采用字典树和KMP(Knuth–Morris–Pratt algorithm,分析模式字符串)算法,一方面,实现纸质试卷客观题的智能化批改,减少了人工评阅的工作量,提高了试卷批改效率和正确率。另一方面,相比于现有技术中的字符串匹配、混淆规则批改、深度学习粗粒度批改方法,无需大量的样本集训练,对不同类型的客观题题目也没有很好的兼容性,能够细粒度排查错误原因,同时提高了批改的效率和学科灵活性。
具体地,在获得试卷图像后,对图像进行角度纠正预处理,能够使得图片中,试题的内容处于正常的位置,进而能够便于对待拆分试卷图像的识别。
实施例四
如图4所示,根据本发明的一个实施例,提出了一种试卷批改方法,该方法包括:
步骤402,获取试题图像和答题区域规则;
步骤404,根据答题区域规则和试题图像,确定答题区域图像;
步骤406,识别答题区域图像中的答题文本信息;
步骤408,根据语义词典和/或上下文语言模型,确定答题文本信息的错误概率;
步骤410,将错误概率大于预设阈值的答题文本信息作为错误文本;
步骤412,筛选相似文本数据库中与错误文本对应的相似文本;
步骤414,根据相似文本替换错误文本;
步骤416,比对答题文本信息和试题图像对应的标准答案信息;
步骤418,根据答题文本信息和标准答案信息的比对结果批改试卷。
在该实施例中,考虑了中文字符在词法的特点和中文句法语义的上下文关系等显著特征,结合语义词典和上下文的语言模型进一步地在答题文本信息中检测出识别错误区域,并确定识别错误区域内字与字之间的错误概率,将错误概率较高的文本作为错误文本,并确定错误文本对应的相似文本数据库,将相似文本数据库内的文字带入到答题文本信息计算匹配得分,将匹配得分最高的文本作为相似文本,即纠错结果,将该相似文本与错误文本进行替换,完成纠错。从而实现文本识别的自动纠错功能,能够降低了识别过程中人工标注的成本,在加快了识别速度的同时提升了识别的准确率。例如,识别错误区域内出现了“O”,而该段文本为数字,因此,“O”则作为错误文字,根据相似文本数据库匹配得出相似文本为“0”。
其中,计算错误文本与汉字库中文本的相似度得分,根据相似度得分大于相似阈值的文本和历史纠错结果构建该错误文本的相似文本数据库,实现相似文本的精准筛选。
进一步地,根据相似文本替换错误文本之后,还包括:输出替换后的答题文本信息和对应的答题区域图像,以供人工核验,根据反馈的修正信息,对答题文本信息进行修正和补充,使得用户能够对纠错后的答题文本信息进行进一步修正,增加人工干预批改功能,进一步提升识别的准确度,保证了试卷批改的准确性。
实施例五
如图5所示,根据本发明的一个实施例,提出了一种试卷批改方法,该方法包括:
步骤502,获取试题图像和答题区域规则;
步骤504,对试题图像进行图像预处理;
步骤506,根据答题区域规则和试题图像,确定答题区域图像;
步骤508,识别答题区域图像中的答题文本信息;
步骤510,比对答题文本信息和试题图像对应的标准答案信息;
步骤512,根据答题文本信息和标准答案信息的比对结果批改试卷。
其中,图像预处理包括以下至少一种:去噪处理,灰度处理,二值化处理,图像开运算,膨胀处理。
在该实施例中,通过图像预处理能够使得图片质量变得干净凸显出试题图像中的内容,有利于分析答题区域,方便后续的操作,从而提升了答题文本信息识别的效率。
具体地,试卷一般都是白纸黑字的模式,所以获得试提图像所对应的图片也是黑白的,为避免噪声影响,所以先进行去噪处理、二值化处理,例如,设置灰度阈值,当大于该灰度阈值时,像素点的值设置为255,否则为0,从而能够去除外界对图像的影响,获得二值化图像,进一步地,对二值图像做一次腐蚀和膨胀处理,以去除图像中的噪声和杂点。
实施例六
如图6所示,根据本发明的一个实施例,提出了一种试卷批改方法,该方法包括:
步骤602,获取试题图像和答题区域规则;
步骤604,根据答题区域规则和试题图像,确定答题区域图像;
步骤606,对答题区域图像进行滤波处理和/或线条去除处理;
步骤608,根据OCR文字识别模型识别答题区域图像中的答题文本信息;
步骤610,比对答题文本信息和试题图像对应的标准答案信息;
步骤612,根据答题文本信息和标准答案信息的比对结果批改试卷。
在该实施例中,部分答题区域图片中存在下划线或者括号,考虑到这些线条可能会影响后续的文字识别效果,所以首先去除这些线条,在根据OCR(Optical CharacterRecognition,光学字符识别)图像识别技术将图像格式的答题笔迹信息转化成“电子版”机打文字格式的答题文本信息,从而提高识别精度、降低误识几率,提高批改客观题的效率。
具体地,预先根据教育领域语料,用CRNN+attention模型来搭建OCR识别模型,手写识别准确率达到了86.34%,对于一些公式之类的特殊字符,可以转换成latex格式来表示。
实施例七
如图7所示,根据本发明的一个具体实施例,提出了一种填空题智能批改方法,包括:
步骤702,输入题目图像和题目标准答案;
步骤704,通过图像处理来定位填空题答题区域,切割出学生手写答案;
步骤706,通过手写OCR识别出手写答案,并进行识别纠错,输出学生的手写答案;
步骤708,手写答案和标准答案进行比对,结合知识库的自动机匹配算法;
步骤710,若相同,则作答正确,若不相同,则作答错误。
在该实施例中,输入题目图像和题目标准答案,具体包括:对于每一个题目和答案进行唯一编码ID,每个题目和相应答案一一对应或者一对多对应。
图像处理来定位填空题答题区域,切割出学生手写答案,具体包括:对每道输入题目图像进行去噪,灰度处理,二值化,开运算,膨胀等图像处理,来定位到填空题的直线所在区域,然后基于连通域和投影变换,找出手写答案所包含的手写文字区域,结合直线起始位置,通过子图切割方法,切割出答题区域。
通过手写OCR识别出手写答案,并进行识别纠错,输出学生的手写答案,具体包括:将每道题目切割出的作答区域去噪、去除干扰线处理。然后,调用教育类的手写OCR引擎接口识别出手写作答内容,结合语义词典和上下文的语言模型进行纠错,输出最终的作答内容。其中,手写OCR是通过爬取教育领域语料,用CRNN+attention模型来训练的,手写识别准确率达到了86.34%,对于一些公式之类的特殊字符,可以转换成latex格式来表示。
手写答案和标准答案进行比对,结合知识库的自动机匹配算法,具体包括:标准答案和题目图像按照每个学科的批改混淆规则用知识库来存储表示,通过字典树和KMP字符串匹配算法进行比对,相同,则作答正确;不相同,则作答错误。
为了解决目前全科目填空题智能批改存在的问题,本发明提出了不需要答题卡,基于原卷的智能批改方法。通过图像处理的方法定位到题目中作答区域,通过手写OCR识别出作答内容,然后经过OCR纠错机制,得到精确的作答答案。在作答答案和标准答案进行比对的过程中,结合知识库的字典树匹配算法得出最终的批改结果。与现有技术相比,该方法适用于批改纸质版和电子版的智能批改,可以更细粒度地批改,同时解决了一题多个子答案的问题,批改准确率有了很大提高,同时提高了批改的效率和学科灵活性。
实施例八
如图8所示,根据本发明第二方面的实施例,提出了一种试卷批改装置800,包括存储器802、处理器804及存储在存储器802上并可在处理器804上运行的计算机程序,处理器804执行计算机程序时实现上述任一实施例的试卷批改方法。因此该试卷批改装置800具备上述任一实施例的试卷批改方法的全部有益效果。
在本说明书的描述中,术语“第一”、“第二”仅用于描述的目的,而不能理解为指示或暗示相对重要性,除非另有明确的规定和限定;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种试卷批改方法,其特征在于,包括:
获取试题图像和答题区域规则;
根据所述答题区域规则和所述试题图像,确定答题区域图像;
识别所述答题区域图像中的答题文本信息;
比对所述答题文本信息和所述试题图像对应的标准答案信息;
根据所述答题文本信息和所述标准答案信息的比对结果批改试卷。
2.根据权利要求1所述的试卷批改方法,其特征在于,所述根据所述答题区域规则和所述试题图像,确定答题区域图像,具体包括:
对所述试题图像进行投影变换处理;
根据所述答题区域规则确定所述试题图像的答题区域;
根据所述答题区域切割所述试题图像,得到答题区域图像。
3.根据权利要求1所述的试卷批改方法,其特征在于,所述获取试题图像,具体包括:
获取试卷图像;
分析所述试卷图像的版面信息;
根据所述版面信息切割所述试卷图像,得到至少一个所述试题图像,并生成所述试题图像的第一编码信息。
4.根据权利要求3所述的试卷批改方法,其特征在于,所述根据所述答题区域规则和所述试题图像,确定答题区域图像之后,还包括:
生成与所述第一编码信息对应所述答题区域图像的第二编码信息。
5.根据权利要求4所述的试卷批改方法,其特征在于,所述比对所述答题文本信息和标准答案信息,具体包括:
获取所述标准答案信息,并确定所述第一编码信息和所述标准答案信息的第三编码信息之间的对应关系;
根据所述标准答案信息和批改混淆规则构建知识库;
根据所述第一编码信息和所述第二编码信息之间的对应关系、所述第一编码信息和所述第三编码信息之间的对应关系、字符串匹配算法,匹配所述答题文本信息和所述知识库。
6.根据权利要求1所述的试卷批改方法,其特征在于,所述识别所述答题区域图像中的答题文本信息之后,还包括:
根据语义词典和/或上下文语言模型,确定所述答题文本信息的错误概率;
将所述错误概率大于预设阈值的答题文本信息作为错误文本;
筛选相似文本数据库中与所述错误文本对应的相似文本;
根据所述相似文本替换所述错误文本。
7.根据权利要求6所述的试卷批改方法,其特征在于,所述根据所述相似文本替换所述错误文本之后,还包括:
输出替换后的所述答题文本信息和对应的答题区域图像;
根据反馈的修正信息,对所述答题文本信息进行修正和补充。
8.根据权利要求1至7中任一项所述的试卷批改方法,其特征在于,所述获取试题图像和答题区域规则之后,还包括:对所述试题图像进行图像预处理,
其中,所述图像预处理包括以下至少一种:去噪处理,灰度处理,二值化处理,图像开运算,膨胀处理。
9.根据权利要求1至7中任一项所述的试卷批改方法,其特征在于,所述识别所述答题区域图像中的答题文本信息,具体包括:
对所述答题区域图像进行滤波处理和/或线条去除处理;
根据OCR文字识别模型识别所述答题区域图像中的答题文本信息。
10.一种试卷批改装置,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时执行如权利要求1至9中任一项所述的试卷批改方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319743.0A CN111597908A (zh) | 2020-04-22 | 2020-04-22 | 试卷批改方法和试卷批改装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010319743.0A CN111597908A (zh) | 2020-04-22 | 2020-04-22 | 试卷批改方法和试卷批改装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111597908A true CN111597908A (zh) | 2020-08-28 |
Family
ID=72185198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010319743.0A Pending CN111597908A (zh) | 2020-04-22 | 2020-04-22 | 试卷批改方法和试卷批改装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597908A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882004A (zh) * | 2020-09-28 | 2020-11-03 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
CN112270318A (zh) * | 2020-11-12 | 2021-01-26 | 北京百度网讯科技有限公司 | 自动阅卷方法和装置、电子设备和存储介质 |
CN112287154A (zh) * | 2020-10-30 | 2021-01-29 | 北京有竹居网络技术有限公司 | 一种信息统计方法、装置、计算机设备及存储介质 |
CN112686263A (zh) * | 2020-12-29 | 2021-04-20 | 科大讯飞股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112700414A (zh) * | 2020-12-30 | 2021-04-23 | 广东德诚大数据科技有限公司 | 一种用于考试阅卷的空白作答检测方法及系统 |
CN112766255A (zh) * | 2021-01-19 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种光学文字识别方法、装置、设备及存储介质 |
CN112784780A (zh) * | 2021-01-28 | 2021-05-11 | 武汉悦学帮网络技术有限公司 | 一种审阅方法、装置、计算机设备及存储介质 |
CN113011341A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛经抄写辅助方法、装置、设备及存储介质 |
CN113034109A (zh) * | 2021-03-26 | 2021-06-25 | 北京乐学帮网络技术有限公司 | 作答结果的校验方法及系统、可读存储介质 |
CN113076872A (zh) * | 2021-04-01 | 2021-07-06 | 杭州云梯科技有限公司 | 一种智能试卷批改方法 |
CN113128469A (zh) * | 2021-05-13 | 2021-07-16 | 北京一起教育科技有限责任公司 | 一种纸质教学文本的处理方法、装置及电子设备 |
CN113487701A (zh) * | 2021-07-05 | 2021-10-08 | 北京鑫泰昊岳科技有限公司 | 一种考试录入方法及系统 |
CN113596418A (zh) * | 2021-07-06 | 2021-11-02 | 作业帮教育科技(北京)有限公司 | 辅助批改的投影方法、装置、系统和计算机程序产品 |
CN113688201A (zh) * | 2021-08-06 | 2021-11-23 | 上海汉图科技有限公司 | 作业生成方法及服务端 |
US20220189186A1 (en) * | 2020-12-10 | 2022-06-16 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and non-transitory storage medium |
CN115620333A (zh) * | 2022-12-05 | 2023-01-17 | 蓝舰信息科技南京有限公司 | 基于人工智能的试卷自动纠错方法 |
CN116168398A (zh) * | 2023-01-06 | 2023-05-26 | 北京布局未来教育科技有限公司 | 基于图像识别的试卷审批方法、装置和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563632A (zh) * | 2018-03-29 | 2018-09-21 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
CN109064814A (zh) * | 2018-06-27 | 2018-12-21 | 深圳中兴网信科技有限公司 | 试题批阅方法、试题批阅系统和计算机可读存储介质 |
CN109800694A (zh) * | 2019-01-08 | 2019-05-24 | 深圳中兴网信科技有限公司 | 一种试卷识别批改方法、装置、计算机设备及存储介质 |
CN109918640A (zh) * | 2018-12-22 | 2019-06-21 | 浙江工商大学 | 一种基于知识图谱的中文文本校对方法 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
CN110705534A (zh) * | 2019-09-17 | 2020-01-17 | 浙江工业大学 | 一种适用于电子助视器的错题本生成方法 |
-
2020
- 2020-04-22 CN CN202010319743.0A patent/CN111597908A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563632A (zh) * | 2018-03-29 | 2018-09-21 | 广州视源电子科技股份有限公司 | 文字拼写错误的修正方法、系统、计算机设备及存储介质 |
CN109064814A (zh) * | 2018-06-27 | 2018-12-21 | 深圳中兴网信科技有限公司 | 试题批阅方法、试题批阅系统和计算机可读存储介质 |
CN109918640A (zh) * | 2018-12-22 | 2019-06-21 | 浙江工商大学 | 一种基于知识图谱的中文文本校对方法 |
CN109800694A (zh) * | 2019-01-08 | 2019-05-24 | 深圳中兴网信科技有限公司 | 一种试卷识别批改方法、装置、计算机设备及存储介质 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
CN110705534A (zh) * | 2019-09-17 | 2020-01-17 | 浙江工业大学 | 一种适用于电子助视器的错题本生成方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882004A (zh) * | 2020-09-28 | 2020-11-03 | 北京易真学思教育科技有限公司 | 模型训练方法、判题方法及装置、设备、存储介质 |
CN112287154A (zh) * | 2020-10-30 | 2021-01-29 | 北京有竹居网络技术有限公司 | 一种信息统计方法、装置、计算机设备及存储介质 |
CN112270318A (zh) * | 2020-11-12 | 2021-01-26 | 北京百度网讯科技有限公司 | 自动阅卷方法和装置、电子设备和存储介质 |
US20220189186A1 (en) * | 2020-12-10 | 2022-06-16 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and non-transitory storage medium |
US11941903B2 (en) * | 2020-12-10 | 2024-03-26 | Canon Kabushiki Kaisha | Image processing apparatus, image processing method, and non-transitory storage medium |
CN112686263A (zh) * | 2020-12-29 | 2021-04-20 | 科大讯飞股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112686263B (zh) * | 2020-12-29 | 2024-04-16 | 科大讯飞股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN112700414A (zh) * | 2020-12-30 | 2021-04-23 | 广东德诚大数据科技有限公司 | 一种用于考试阅卷的空白作答检测方法及系统 |
CN112766255A (zh) * | 2021-01-19 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种光学文字识别方法、装置、设备及存储介质 |
CN112784780A (zh) * | 2021-01-28 | 2021-05-11 | 武汉悦学帮网络技术有限公司 | 一种审阅方法、装置、计算机设备及存储介质 |
CN113011341A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛经抄写辅助方法、装置、设备及存储介质 |
CN113034109A (zh) * | 2021-03-26 | 2021-06-25 | 北京乐学帮网络技术有限公司 | 作答结果的校验方法及系统、可读存储介质 |
CN113076872B (zh) * | 2021-04-01 | 2022-07-15 | 杭州云梯科技有限公司 | 一种智能试卷批改方法 |
CN113076872A (zh) * | 2021-04-01 | 2021-07-06 | 杭州云梯科技有限公司 | 一种智能试卷批改方法 |
CN113128469A (zh) * | 2021-05-13 | 2021-07-16 | 北京一起教育科技有限责任公司 | 一种纸质教学文本的处理方法、装置及电子设备 |
CN113487701A (zh) * | 2021-07-05 | 2021-10-08 | 北京鑫泰昊岳科技有限公司 | 一种考试录入方法及系统 |
CN113596418A (zh) * | 2021-07-06 | 2021-11-02 | 作业帮教育科技(北京)有限公司 | 辅助批改的投影方法、装置、系统和计算机程序产品 |
CN113688201A (zh) * | 2021-08-06 | 2021-11-23 | 上海汉图科技有限公司 | 作业生成方法及服务端 |
CN115620333A (zh) * | 2022-12-05 | 2023-01-17 | 蓝舰信息科技南京有限公司 | 基于人工智能的试卷自动纠错方法 |
CN115620333B (zh) * | 2022-12-05 | 2023-03-10 | 蓝舰信息科技南京有限公司 | 基于人工智能的试卷自动纠错方法 |
CN116168398A (zh) * | 2023-01-06 | 2023-05-26 | 北京布局未来教育科技有限公司 | 基于图像识别的试卷审批方法、装置和设备 |
CN116168398B (zh) * | 2023-01-06 | 2023-08-08 | 北京布局未来教育科技有限公司 | 基于图像识别的试卷审批方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597908A (zh) | 试卷批改方法和试卷批改装置 | |
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
WO2020259060A1 (zh) | 试卷信息提取方法、系统及计算机可读存储介质 | |
US11790641B2 (en) | Answer evaluation method, answer evaluation system, electronic device, and medium | |
CN110363194B (zh) | 基于nlp的智能阅卷方法、装置、设备及存储介质 | |
CN110751137A (zh) | 一种自动求解数学题的方法和系统 | |
CN110929573A (zh) | 基于图像检测的试题检查方法及相关设备 | |
CN111753767A (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN110110581B (zh) | 一种基于人工智能的试卷批改方法和系统 | |
CN111144191A (zh) | 字体识别方法、装置、电子设备及存储介质 | |
CN111144079B (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
Pacha et al. | Towards self-learning optical music recognition | |
CN111242024A (zh) | 基于机器学习识别图纸内图例及文字的方法及系统 | |
WO2021232670A1 (zh) | 一种pcb元件识别方法及装置 | |
CN110837793A (zh) | 一种智能识别手写数学公式批阅系统 | |
CN113177435A (zh) | 试卷分析方法、装置、存储介质及电子设备 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
CN111079641A (zh) | 作答内容识别方法、相关设备及可读存储介质 | |
CN110689018A (zh) | 一种智能阅卷系统及其处理方法 | |
CN115661836A (zh) | 一种自动批改方法、装置、系统及可读存储介质 | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、系统、存储介质及设备 | |
KR102344144B1 (ko) | 손글씨 인식을 통한 유아 학습 시스템 | |
Gross et al. | A handwriting recognition system for the classroom | |
CN112686263B (zh) | 文字识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200828 |
|
WD01 | Invention patent application deemed withdrawn after publication |