CN114332898A - 连线试题的自动批改方法、装置及存储介质 - Google Patents

连线试题的自动批改方法、装置及存储介质 Download PDF

Info

Publication number
CN114332898A
CN114332898A CN202111610440.5A CN202111610440A CN114332898A CN 114332898 A CN114332898 A CN 114332898A CN 202111610440 A CN202111610440 A CN 202111610440A CN 114332898 A CN114332898 A CN 114332898A
Authority
CN
China
Prior art keywords
test question
image
image block
test
question information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111610440.5A
Other languages
English (en)
Inventor
崔寅生
刘培娜
王辰成
陈俊文
胡科
张思羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunsizhixue Technology Co ltd
Original Assignee
Beijing Yunsizhixue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunsizhixue Technology Co ltd filed Critical Beijing Yunsizhixue Technology Co ltd
Priority to CN202111610440.5A priority Critical patent/CN114332898A/zh
Publication of CN114332898A publication Critical patent/CN114332898A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了连线试题的自动批改方法,包括:获取连线试题的试题图像;识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块;分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;若判断结果为是,则连线正确,若判断为否,则连线错误。本发明通过找出连线两端对应的试题信息并判断连线试题的类型,再根据不同类型采用相对应的算法或者模型,判断出连线两端的试题信息是否匹配,从而实现连线试题的自动批改。

Description

连线试题的自动批改方法、装置及存储介质
技术领域
本发明涉及在线教育技术领域,具体的涉及连线试题的自动批改方法、装置及存储介质。
背景技术
学校教育,作为科学文化知识学习的主要方式,为了帮助学生能够掌握知识,课业及试卷练习必不可少。现在不管是小学、初中、高中甚至于大学,学生都需要进行课业及试卷练习,与此同时,学校老师都面临针对几十个甚至上百个学生的课业及试卷的批改,学校老师的批改工作量、工作压力较大。
因此,自动批改越来越多的出现在老师的教学工作中,借助于自动批改可以降低老师的批改工作量,提高批改效率,且基于自动批改的结果可以进行知识点掌握情况的自动分析,以供老师参考进行更加针对性的教学工作。
现有自动批改的方式一般借助于大数据题库服务,大数据题库中具有亿级级别的试题以及解析,通过将扫描识别待批改作业中的试题,在大数据题库中进行检索匹配实现自动批改。但是,对于连线试题来说,涉及到文字与线条的结合,采用已有的大数据题库无法进行自动批改;而且,连线试题作为一种常见题型,几乎充斥于整个学生阶段,因此,本发明旨在解决连线试题的自动批改问题。
有鉴于此,特提出本发明。
发明内容
本发明为了解决上述技术问题,提供了连线试题的自动批改方法、装置及存储介质,具体技术方案如下:
本发明提出了连线试题的自动批改方法,包括:
获取连线试题的试题图像;
识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块;
分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;
若判断结果为是,则连线正确,若判断为否,则连线错误。
作为本发明的可选实施方式,所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
当根据所述第一试题信息和第二试题信息判断连线试题为数学算术题时,则针对第一试题信息/第二试题信息中的算术公式进行数学运算得到运算结果,判断所述运算结果与第二试题信息/第一试题信息中的连线结果是否匹配。
作为本发明的可选实施方式,所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
预设对应不同类型的连线试题的预先训练的训练模型;
根据识别出的第一试题信息和第二试题信息判断所述连线试题的类型;
根据所述连线试题的类型将所述第一试题信息和第二试题信息导入与所述连线试题的题型相对应的训练模型中,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配。
作为本发明的可选实施方式,所述的训练模型包括针对语文类连线试题进行预先训练得到的语文训练模型,和/或针对英文类连线试题进行预先训练得到的英语训练模型,和/或针对图画类连线试题进行预先训练得到的图画训练模型。
作为本发明的可选实施方式,所述识别出试题图像中的连线,确定连线的两端端点所对应的第一图像块和第二图像块包括:
针对所述试题图像进行OCR识别,根据试题图像的OCR识别结果将试题图像划分为若干图像块;
识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块。
作为本发明的可选实施方式,所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为左右连线试题时,将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度;
将各初始矩形框的水平边长度修正为修正水平边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
作为本发明的可选实施方式,所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为上下连线试题时,将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度;
将各初始矩形框的竖直边长度修正为修正竖直边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
作为本发明的可选实施方式,所述将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度或者将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度的计算过程中,将水平边长度或者竖直边长度两两作差得到长度差值,将长度差值与预设差值阈值进行比对,筛选出长度偏差较大的水平边长度或者竖直边长度,并在进行汇总计算平均值时舍弃。
连线试题的自动批改装置,运行所述连线试题的自动批改方法,所述连线试题的自动批改装置包括:
图像采集模块,获取连线试题的试题图像;
图像识别模块,识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块,分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
及判断处理模块,根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;若判断结果为是,则连线正确,若判断为否,则连线错误。
本发明同时还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现上述任意一项所述连线试题的自动批改方法。
与现有技术相比,本发明的有益效果:
本发明的连线试题的自动批改方法,通过找出连线两端对应的试题信息,针对试题信息判断连线试题属于哪种类型,再根据不同类型采用相对应的算法或者模型,判断出连线两端的试题信息是否匹配,从而实现连线试题的自动批改。本发明通过相应的算法或者模型可以实现对应类型的连线试题的自动批改,不用借助大数据题库,不需要先进行连线试题的生产入库,简化了连线试题的自动批改方式,提高了连线试题的自动批改效率。
附图说明:
图1本发明实施例连线试题的自动批改方法的流程图一;
图2本发明实施例连线试题的自动批改方法的流程图二;
图3本发明实施例连线试题的自动批改方法的流程图三;
图4本发明实施例OCR识别处理图像的示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
参见图1所示,本实施例提供连线试题的自动批改方法,包括:
获取连线试题的试题图像;
识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块;
分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;
若判断结果为是,则连线正确,若判断为否,则连线错误。
本实施例的连线试题的自动批改方法,通过找出连线两端对应的试题信息,针对试题信息判断连线试题属于哪种类型,再根据不同类型采用相对应的算法或者模型,判断出连线两端的试题信息是否匹配,从而实现连线试题的自动批改。本实施例通过相应的算法或者模型可以实现对应类型的连线试题的自动批改,不用借助大数据题库,不需要先进行连线试题的生产入库,简化了连线试题的自动批改方式,提高了连线试题的自动批改效率。
作为本实施例的可选实施方式,参见图2所示,本实施例所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
当根据所述第一试题信息和第二试题信息判断连线试题为数学算术题时,则针对第一试题信息/第二试题信息中的算术公式进行数学运算得到运算结果,判断所述运算结果与第二试题信息/第一试题信息中的连线结果是否匹配。
本实施例的连线试题的自动批改方法若识别出连线试题属于数学算术题,则可根据识别出的连线一端的试题信息进行数学运算得到计算结果,根据计算结果和连线另一端的试题进行匹配实现自动批改。由于数学算术题在小初课程中都占据一定的比例,本实施例在识别出连线试题属于数学算术类时,直接转化为数学运算,实现自动批改。
例如,本实施例的数学连线试题一侧为“1+1”、“1+2”、“1+3”、“1+4”,另一侧的为“5”、“4”、“3”、“2”,在进行连线试题自动批改时,通过提取出第一试题信息“1+1、1+2、1+3、1+4”和第二试题信息“5、4、3、2”可以判断出是数学算术题,则直接针对第一试题信息“1+1、1+2、1+3、1+4”进行计算得到计算结果并与第二试题信息“5、4、3、2”进行匹配,若匹配成功,则批改为连线正确,否则批改为连线错误。
作为本实施例的可选实施方式,参见图2所示,本实施例所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
预设对应不同类型的连线试题的预先训练的训练模型;
根据识别出的第一试题信息和第二试题信息判断所述连线试题的类型;
根据所述连线试题的类型将所述第一试题信息和第二试题信息导入与所述连线试题的题型相对应的训练模型中,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配。
本实施例针对无法直接进行算法计算实现自动批改的连线试题,通过训练模型进行判断,比如语文连线试题或者英语连线试题,预先收集大量的同一类型的连线试题,将收集连线试题的参考答案按照连线的两部分拆分并导入网络神经模型中进行计算得到训练模型,控制系统中设置多个针对不同类型连线试题的训练模型,将识别出的连线试题的两部分信息分别导入训练模型即可判断两部分信息是否匹配,从而实现自动批改。
因此,作为本发明的可选实施方式,本实施例所述的训练模型包括针对语文类连线试题进行预先训练得到的语文训练模型,和/或针对英文类连线试题进行预先训练得到的英语训练模型,和/或针对图画类连线试题进行预先训练得到的图画训练模型。
作为本实施例的可选实施方式,本实施例所述识别出试题图像中的连线,确定连线的两端端点所对应的第一图像块和第二图像块包括:
针对所述试题图像进行OCR识别,根据试题图像的OCR识别结果将试题图像划分为若干图像块;
识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR主要流程大致分为以下几个部分:图像预处理;版面处理;图像切分;特征提取及模型训练;识别后处理。
图像预处理
由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,图像平滑,规范化等等。
版面处理
版面处理通常可以分为三个主要部分,版面分析、版面理解、版面重构。
版面分析
将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。
版面理解
获取文章逻辑结构,包括各区域的逻辑属性、文章的层次关系和阅读顺序。根据版面分析时记载的连通域位置信息,确定连通域归属序列。
版面重构
根据版面分析和OCR的结果,重构出包含文字信息和版面信息的电子文档。
图像切分
图像切分大致可以分为两个个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。
特征提取及模型训练
在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件算力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。
本实施例的图像块是在OCR识别流程中版面分析处理后的图像结果,参见图4所示的一种图像处理示例。
由于学生作答的连线试题的连线都由学生手绘,不可能保持标准化或者一致性,因此,为了更好的定位作答连线两端对应的第一图像块和第二图像块,作为本实施例可选的实施方式,参见图3所示,本实施例所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为左右连线试题时,将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度;
将各初始矩形框的水平边长度修正为修正水平边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
作为本实施例可选的实施方式,参见图3所示,本实施例所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为上下连线试题时,将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度;
将各初始矩形框的竖直边长度修正为修正竖直边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
作为本实施例的可选实施方式,所述将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度或者将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度的计算过程中,将水平边长度或者竖直边长度两两作差得到长度差值,将长度差值与预设差值阈值进行比对,筛选出长度偏差较大的水平边长度或者竖直边长度,并在进行汇总计算平均值时舍弃,主要是由于作答曲线一般多为学生手绘,难免会存在偏差较大的作答连线,这种作答曲线在修正时会增大修正误差,因此需要舍弃。
本实施例同时提供连线试题的自动批改装置,运行如所述连线试题的自动批改方法,所述连线试题的自动批改装置包括:
图像采集模块,获取连线试题的试题图像;
图像识别模块,识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块,分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
及判断处理模块,根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;若判断结果为是,则连线正确,若判断为否,则连线错误。
本实施例的连线试题的自动批改装置,通过图像识别模块识别出连线两端对应的试题信息,判断处理模块针对试题信息判断连线试题属于哪种类型,再根据不同类型采用相对应的算法或者模型,判断出连线两端的试题信息是否匹配,从而实现连线试题的自动批改。
本实施例的连线试题的自动批改装置通过相应的算法或者模型可以实现对应类型的连线试题的自动批改,不用借助大数据题库,不需要先进行连线试题的生产入库,简化了连线试题的自动批改方式,提高了连线试题的自动批改效率。
作为本实施例的可选实施方式,所述判断处理模块根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
当根据所述第一试题信息和第二试题信息判断连线试题为数学算术题时,则针对第一试题信息/第二试题信息中的算术公式进行数学运算得到运算结果,判断所述运算结果与第二试题信息/第一试题信息中的连线结果是否匹配。
本实施例的连线试题的自动批改装置,若图像识别模块识别出连线试题属于数学算术题,则判断处理模块可根据识别出的连线一端的试题信息进行数学运算得到计算结果,根据计算结果和连线另一端的试题进行匹配实现自动批改。由于数学算术题在小初课程中都占据一定的比例,本实施例在识别出连线试题属于数学算术类时,直接转化为数学运算,实现自动批改。
作为本实施例的可选实施方式,所述判断处理模块根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
预设对应不同类型的连线试题的预先训练的训练模型;
根据识别出的第一试题信息和第二试题信息判断所述连线试题的类型;
根据所述连线试题的类型将所述第一试题信息和第二试题信息导入与所述连线试题的题型相对应的训练模型中,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配。
本实施例连线试题的自动批改装置针对无法直接进行算法计算实现自动批改的连线试题,通过训练模型进行判断,比如语文连线试题或者英语连线试题,预先收集大量的同一类型的连线试题,将收集连线试题的参考答案按照连线的两部分拆分并导入网络神经模型中进行计算得到训练模型,控制系统中设置多个针对不同类型连线试题的训练模型,将识别出的连线试题的两部分信息分别导入训练模型即可判断两部分信息是否匹配,从而实现自动批改。
因此,作为本发明的可选实施方式,本实施例所述的训练模型包括针对语文类连线试题进行预先训练得到的语文训练模型,和/或针对英文类连线试题进行预先训练得到的英语训练模型,和/或针对图画类连线试题进行预先训练得到的图画训练模型。
作为本实施例的可选实施方式,本实施例所述图像识别模块识别出试题图像中的连线,确定连线的两端端点所对应的第一图像块和第二图像块包括:
针对所述试题图像进行OCR识别,根据试题图像的OCR识别结果将试题图像划分为若干图像块;
识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块。
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR主要流程大致分为以下几个部分:图像预处理;版面处理;图像切分;特征提取及模型训练;识别后处理。
图像预处理
由于纸张的厚薄、光洁度和印刷质量都会造成文字畸变,产生断笔、粘连和污点等干扰,所以在进行文字识别之前,要对带有噪声的文字图像进行处理。预处理一般包括灰度化、二值化,倾斜检测与校正,行、字切分,图像平滑,规范化等等。
版面处理
版面处理通常可以分为三个主要部分,版面分析、版面理解、版面重构。
版面分析
将文本图像分割为不同部分,并标定各部分属性,如:文本、图像、表格。目前在版面分析方面的工作核心思想都是基于连通域分析法,后衍生出的基于神经网络的版面分析法等也都是以连通域为基础进行的。连通域是指将图像经过二值化后转为的二值矩阵中任选一个像素点,若包围其的所有像素点中存在相同像素值的像素点则视为两点连通,以此类推,这样的像素点构成的一个集合在图像中所在的区域即一个连通域。根据连通域大小或像素点分布等特征可以将连通域的属性标记出来,用作进一步处理的依据。
版面理解
获取文章逻辑结构,包括各区域的逻辑属性、文章的层次关系和阅读顺序。根据版面分析时记载的连通域位置信息,确定连通域归属序列。
版面重构
根据版面分析和OCR的结果,重构出包含文字信息和版面信息的电子文档。
图像切分
图像切分大致可以分为两个个主要类别,行(列)切分和字切分。经过切分处理后,才能方便对单个文字进行识别处理。
特征提取及模型训练
在深度学习广泛应用于图像识别领域之前,模板匹配是较为常见的一种识别方式,之后由于神经网络的复苏,基于反馈的神经网络给OCR领域带来了又一春。现在随着计算机硬件算力的提升,利用大批数据训练深度神经网络在图像识别方面取得了傲人的成绩。
本实施例的图像块是在OCR识别流程中版面分析处理后的图像结果。
由于学生作答的连线试题的连线都由学生手绘,不可能保持标准化或者一致性,因此,为了更好的定位作答连线两端对应的第一图像块和第二图像块,作为本实施例可选的实施方式,所述图像识别模块识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为左右连线试题时,将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度;
将各初始矩形框的水平边长度修正为修正水平边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
进一步地,本实施例所述图像识别模块识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为上下连线试题时,将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度;
将各初始矩形框的竖直边长度修正为修正竖直边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
作为本实施例的可选实施方式,所述将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度或者将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度的计算过程中,将水平边长度或者竖直边长度两两作差得到长度差值,将长度差值与预设差值阈值进行比对,筛选出长度偏差较大的水平边长度或者竖直边长度,并在进行汇总计算平均值时舍弃,主要是由于作答曲线一般多为学生手绘,难免会存在偏差较大的作答连线,这种作答曲线在修正时会增大修正误差,因此需要舍弃。
本实施例还提供一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的连线试题的自动批改方法。
本实施例所述存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
本实施例还提供了一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的连线试题的自动批改方法。
电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
应当理解,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现,例如由微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (10)

1.连线试题的自动批改方法,其特征在于,包括:
获取连线试题的试题图像;
识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块;
分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配。
2.根据权利要求1所述连线试题的自动批改方法,其特征在于,
若判断结果为是,则连线正确,若判断为否,则连线错误;
可选地,所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
当根据所述第一试题信息和第二试题信息判断连线试题为数学算术题时,则针对第一试题信息/第二试题信息中的算术公式进行数学运算得到运算结果,判断所述运算结果与第二试题信息/第一试题信息中的连线结果是否匹配。
3.根据权利要求1所述连线试题的自动批改方法,其特征在于,所述根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配包括:
预设对应不同类型的连线试题的预先训练的训练模型;
根据识别出的第一试题信息和第二试题信息判断所述连线试题的类型;
根据所述连线试题的类型将所述第一试题信息和第二试题信息导入与所述连线试题的题型相对应的训练模型中,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配。
4.根据权利要求3所述连线试题的自动批改方法,其特征在于,所述的训练模型包括针对语文类连线试题进行预先训练得到的语文训练模型,和/或针对英文类连线试题进行预先训练得到的英语训练模型,和/或针对图画类连线试题进行预先训练得到的图画训练模型。
5.根据权利要求1所述连线试题的自动批改方法,其特征在于,所述识别出试题图像中的连线,确定连线的两端端点所对应的第一图像块和第二图像块包括:
针对所述试题图像进行OCR识别,根据试题图像的OCR识别结果将试题图像划分为若干图像块;
识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块。
6.根据权利要求5所述连线试题的自动批改方法,其特征在于,所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为左右连线试题时,将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度;
可选地,将各初始矩形框的水平边长度修正为修正水平边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
7.根据权利要求5所述连线试题的自动批改方法,其特征在于,所述识别出试题图像中的作答连线,分别选取距离所述连线的两端端点距离最近的图像块确定为第一图像块和第二图像块包括:
识别出试题图像中一道连线试题的所有作答连线;
分别以每条作答曲线为对角线绘制多个初始矩形框;
当所述连线试题为上下连线试题时,将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度;
可选地,将各初始矩形框的竖直边长度修正为修正竖直边长度得到修正矩形框,平移修正矩形框的位置使得作答连线的中心与修正矩形框的对角线的中心重合;
分别选取距离作答连线所处对角线的两个端点距离最近的图像块确定为第一图像块和第二图像块。
8.根据权利要求6或7所述连线试题的自动批改方法,其特征在于,所述将多个初始矩形框的水平边长度进行汇总计算平均值得到修正水平边长度或者将多个初始矩形框的竖直边长度进行汇总计算平均值得到修正竖直边长度的计算过程中,将水平边长度或者竖直边长度两两作差得到长度差值,将长度差值与预设差值阈值进行比对,筛选出长度偏差较大的水平边长度或者竖直边长度,并在进行汇总计算平均值时舍弃。
9.连线试题的自动批改装置,运行如权利要求1-8任意一项所述连线试题的自动批改方法,其特征在于,所述连线试题的自动批改装置包括:
图像采集模块,获取连线试题的试题图像;
图像识别模块,识别出试题图像中的作答连线,确定作答连线的两端端点所对应的第一图像块和第二图像块,分别识别出第一图像块中的第一试题信息和第二图像块中的第二试题信息;
及判断处理模块,根据所述第一试题信息和第二试题信息判断连线试题的类型,采用与所述试题的类型相对应的算法和/或模型,判断第一图像块中的第一试题信息与第二图像块中的第二试题信息是否匹配;若判断结果为是,则连线正确,若判断为否,则连线错误。
10.一种存储介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如权利要求1-8任意一项所述的连线试题的自动批改方法。
CN202111610440.5A 2021-12-27 2021-12-27 连线试题的自动批改方法、装置及存储介质 Pending CN114332898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111610440.5A CN114332898A (zh) 2021-12-27 2021-12-27 连线试题的自动批改方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111610440.5A CN114332898A (zh) 2021-12-27 2021-12-27 连线试题的自动批改方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114332898A true CN114332898A (zh) 2022-04-12

Family

ID=81013561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111610440.5A Pending CN114332898A (zh) 2021-12-27 2021-12-27 连线试题的自动批改方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114332898A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168398A (zh) * 2023-01-06 2023-05-26 北京布局未来教育科技有限公司 基于图像识别的试卷审批方法、装置和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168398A (zh) * 2023-01-06 2023-05-26 北京布局未来教育科技有限公司 基于图像识别的试卷审批方法、装置和设备
CN116168398B (zh) * 2023-01-06 2023-08-08 北京布局未来教育科技有限公司 基于图像识别的试卷审批方法、装置和设备

Similar Documents

Publication Publication Date Title
US11790641B2 (en) Answer evaluation method, answer evaluation system, electronic device, and medium
WO2021027336A1 (zh) 基于印章和签名的身份验证方法、装置和计算机设备
CN111597908A (zh) 试卷批改方法和试卷批改装置
CN111753767A (zh) 一种作业自动批改的方法、装置、电子设备和存储介质
CN106951832B (zh) 一种基于手写字符识别的验证方法及装置
CN107798321A (zh) 一种试卷分析方法和计算设备
US4516262A (en) Character data processing apparatus
CN106033544B (zh) 基于模板匹配的试卷内容区域提取方法
US11836969B2 (en) Preprocessing images for OCR using character pixel height estimation and cycle generative adversarial networks for better character recognition
CN112580503A (zh) 一种作业批改方法、装置、设备及存储介质
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN115393861B (zh) 一种手写体文本精准分割方法
CN107067399A (zh) 一种试卷图像分割处理方法
CN113177435A (zh) 试卷分析方法、装置、存储介质及电子设备
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN114495124A (zh) 一种试题成绩分析及练习提高系统
CN111915635A (zh) 支持自阅卷的试题解析信息生成方法及系统
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN113159014A (zh) 基于手写题号的客观题批阅方法、装置、设备及存储介质
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
CN115760500A (zh) 一种优化老师批阅作业的方法、装置、设备及存储介质
CN114332898A (zh) 连线试题的自动批改方法、装置及存储介质
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN111881880A (zh) 一种基于新型网络的票据文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination