CN115565190A - 试卷版面分析方法、系统、计算机及可读存储介质 - Google Patents

试卷版面分析方法、系统、计算机及可读存储介质 Download PDF

Info

Publication number
CN115565190A
CN115565190A CN202211437217.XA CN202211437217A CN115565190A CN 115565190 A CN115565190 A CN 115565190A CN 202211437217 A CN202211437217 A CN 202211437217A CN 115565190 A CN115565190 A CN 115565190A
Authority
CN
China
Prior art keywords
test paper
paper image
detection model
test
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211437217.XA
Other languages
English (en)
Inventor
刘正
谢德刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Wind Vane Intelligent Technology Co ltd
Original Assignee
Jiangxi Wind Vane Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Wind Vane Intelligent Technology Co ltd filed Critical Jiangxi Wind Vane Intelligent Technology Co ltd
Priority to CN202211437217.XA priority Critical patent/CN115565190A/zh
Publication of CN115565190A publication Critical patent/CN115565190A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种试卷版面分析方法、系统、计算机及可读存储介质,该方法包括获取不同学科的初始试卷图像,并对初始试卷图像进行标准化处理,以生成标准试卷图像;判断标准试卷图像中是否存在试卷元素;若是,将试卷元素对应存在的试卷区域标注为检测标签,并将标准试卷图像划分为训练样本集以及测试样本集;对训练样本集以及检测标签进行训练,生成试卷图像检测模型,并将测试样本集输入至试卷图像检测模型中,以进行测试;将目标试卷图像输入至测试完成的试卷图像检测模型中,以完成版面分析。通过上述方式可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类。

Description

试卷版面分析方法、系统、计算机及可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种试卷版面分析方法、系统、计算机及可读存储介质。
背景技术
现如今,考试已经成为了教育过程中必不可少的环节之一,是一种严格的知识水平鉴定方法,通过考试可以检查学生的学习能力和其知识储备。
随着时代的发展以及科技的进步,现有技术已经实现了对考试试卷版面的自动分析与识别,以最终达到机器阅卷的目的,对应提高试卷的批改效率。
然而,现有技术对试卷版面的分析大多依赖于对输入的试卷图像进行各种复杂变换的预处理过程,同时检测对象单一,仅局限于试卷中的表格或者配图,不能同时识别公式以及选项等内容,并且对面积较小的对象检测效果较差,容易造成漏检和错检的情况,导致对图片类试卷中的元素对象进行电子化存档的效率较低。
发明内容
基于此,本发明的目的是提供一种试卷版面分析方法、系统、计算机及可读存储介质,以解决现有技术对试卷版面的分析大多依赖于对输入的试卷图像进行各种复杂变换的预处理过程,同时检测对象单一,仅局限于试卷中的表格或者配图,不能同时识别公式以及选项等内容,并且对面积较小的对象检测效果较差,容易造成漏检和错检的情况,导致对图片类试卷中的元素对象进行电子化存档的效率较低的问题。
本发明实施例第一方面提出了一种试卷版面分析方法,所述方法包括:
获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
本发明的有益效果是:通过首先获取不同学科分别对应的若干初始试卷图像,并对若干初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;进一步的,逐一判断标准试卷图像中是否存在至少一个试卷元素;若是,将试卷元素对应存在的试卷区域标注为标准试卷图像的检测标签,并根据预设比例将若干标准试卷图像随机划分为训练样本集以及测试样本集;在此基础之上,基于预设算法对训练样本集以及检测标签进行训练,以生成对应的试卷图像检测模型,并将测试样本集输入至试卷图像检测模型中,以对试卷图像检测模型进行测试;最后当检测到目标试卷图像时,将目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对目标试卷图像的版面分析。通过上述方式可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
优选的,所述对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像的步骤包括:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
优选的,所述基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型的步骤包括:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
优选的,所述将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试的步骤包括:
识别出所述测试样本集中的测试数据,并将所述测试数据输入至所述试卷图像检测模型中;
在所述试卷图像检测模型中对所述测试数据中的检测标签进行位置以及分类预测,并计算出对应的预测时间且输出对应的识别结果;
根据所述预测时间以及所述识别结果计算出所述试卷图像检测模型对应的检测效率和检测准确率,以完成对所述试卷图像检测模型的测试。
优选的,所述当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析的步骤之后,所述方法还包括:
通过测试完成的试卷图像检测模型检测出所述目标试卷图像中的选项元素、分栏元素、标题元素、公式元素、配图元素以及表格元素,并输出所述选项元素、所述分栏元素、所述标题元素、所述公式元素、所述配图元素以及所述表格元素分别对应的坐标位置信息以及类别名称;
根据所述坐标位置信息以及所述类别名称生成对应的检测报告,并将所述检测报告传输至对应的显示终端,以在所述显示终端实时显示所述检测报告。
本发明实施例第二方面提出了一种试卷版面分析系统,所述系统包括:
获取模块,用于获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
判断模块,用于逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
标注模块,用于若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
处理模块,用于基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
执行模块,用于当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
其中,上述试卷版面分析系统中,所述获取模块具体用于:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
其中,上述试卷版面分析系统中,所述处理模块具体用于:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
其中,上述试卷版面分析系统中,所述处理模块还具体用于:
识别出所述测试样本集中的测试数据,并将所述测试数据输入至所述试卷图像检测模型中;
在所述试卷图像检测模型中对所述测试数据中的检测标签进行位置以及分类预测,并计算出对应的预测时间且输出对应的识别结果;
根据所述预测时间以及所述识别结果计算出所述试卷图像检测模型对应的检测效率和检测准确率,以完成对所述试卷图像检测模型的测试。
其中,上述试卷版面分析系统中,所述试卷版面分析系统还包括显示模块,所述显示模块具体用于:
通过测试完成的试卷图像检测模型检测出所述目标试卷图像中的选项元素、分栏元素、标题元素、公式元素、配图元素以及表格元素,并输出所述选项元素、所述分栏元素、所述标题元素、所述公式元素、所述配图元素以及所述表格元素分别对应的坐标位置信息以及类别名称;
根据所述坐标位置信息以及所述类别名称生成对应的检测报告,并将所述检测报告传输至对应的显示终端,以在所述显示终端实时显示所述检测报告。
本发明实施例第三方面提出了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上面所述的试卷版面分析方法。
本发明实施例第四方面提出了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上面所述的试卷版面分析方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为本发明第一实施例提供的试卷版面分析方法的流程图;
图2为本发明第六实施例提供的试卷版面分析系统的结构框图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
现有技术对试卷版面的分析大多依赖于对输入的试卷图像进行各种复杂变换的预处理过程,同时检测对象单一,仅局限于试卷中的表格或者配图,不能同时识别公式以及选项等内容,并且对面积较小的对象检测效果较差,容易造成漏检和错检的情况,导致对图片类试卷中的元素对象进行电子化存档的效率较低。
请参阅图1,所示为本发明第一实施例提供的试卷版面分析方法,本实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
具体的,本实施例提供的试卷版面分析方法具体包括以下步骤:
步骤S10,获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
具体的,在本实施例中,首先需要说明的是,本实施例提供的试卷版面分析方法能够用于检测常见的不同学科的试卷版面,并对应检测出不同试卷版面中的不同的试卷元素,以便于后续对试卷进行机器化阅卷。
因此,在本步骤中,需要说明的是,为了能够准确的对不同学科的试卷版面进行分析检测,本步骤需要首先获取到不同学科分别对应的试卷图像,在此基础之上,对当前若干种初始试卷图像均进行标准化处理,以生成若干对应的标准试卷图像。
具体的,在本步骤中,需要指出的是,本实施例提供的学科具体包括语文、数学、英语、物理、化学、生物、政治、历史、地理、理科综合、文科综合共计11门,并且在本实施例中,为了保证数据样本的分布均衡,每门学科都收集同样多的试卷图像,其中,试卷图像的种类包括单栏、双栏、三栏和四栏,即试卷图像的种类可以为单页、双页、三页以及四页等,都在本实施例的保护范围之内。
步骤S20,逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
进一步的,在本实施例中,需要说明的是,在通过上述步骤获取到标准试卷图像之后,本步骤会进一步逐一判断获取到的标准试卷图像中是否存在至少一个试卷元素,具体的,本实施例提供的试卷元素可以包括试卷图像中的选项、分栏、标题、公式、配图以及表格等。
步骤S30,若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
具体的,在本步骤中,需要说明的是,若判断到当期标准试卷图像中存在至少一个试卷元素时,即判定当前标准试卷图像有效,并立即将当前检测到的试卷元素在当前标准试卷图像中对应存在的试卷区域标注为当前标准试卷图像的检测标签,与此同时,将上述全部获取到的若干种标准试卷图像随机划分为训练样本集以及测试样本集。
例如,上述全部获取到的若干种标准试卷图像的总数为100个,预先设置训练样本集与测试样本集之间的比例为8:2,则最终训练样本集中的标准试卷图像的个数为80个,对应的,测试样本集中的标准试卷图像的个数为20个。
步骤S40,基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
更进一步的,在本实施例中,需要说明的是,在通过上述步骤获取到训练样本集、测试样本集以及检测标签之后,本步骤会进一步基于预先设置好的YOLOv5算法对当前训练样本集以及检测标签进行对应的模型训练,以生成对应的试卷图像检测模型。
在此基础之上,将上述测试样本集输入至当前试卷图像检测模型中,以实时对当前试卷图像检测模型进行测试。
步骤S50,当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
最后,在本步骤中,需要说明的是,在通过上述步骤完成对试卷图像检测模型的测试之后,在实际的使用过程中,当检测到目标试卷图像时,立即将该目标试卷图像输入至当前测试完成的试卷图像检测模型中,以最终使该测试完成的试卷图像检测模型对当前目标试卷图像进行版面分析。
使用时,通过首先获取不同学科分别对应的若干初始试卷图像,并对若干初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;进一步的,逐一判断标准试卷图像中是否存在至少一个试卷元素;若是,将试卷元素对应存在的试卷区域标注为标准试卷图像的检测标签,并根据预设比例将若干标准试卷图像随机划分为训练样本集以及测试样本集;在此基础之上,基于预设算法对训练样本集以及检测标签进行训练,以生成对应的试卷图像检测模型,并将测试样本集输入至试卷图像检测模型中,以对试卷图像检测模型进行测试;最后当检测到目标试卷图像时,将目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对目标试卷图像的版面分析。通过上述方式可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
需要说明的是,上述的实施过程只是为了说明本申请的可实施性,但这并不代表本申请的试卷版面分析方法只有上述唯一一种实施流程,相反的,只要能够将本申请的试卷版面分析方法实施起来,都可以被纳入本申请的可行实施方案。
综上,本发明上述实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
本发明第二实施例也提供了一种试卷版面分析方法,本实施例提供的试卷版面分析方法与上述第一实施例提供的试卷版面分析方法的不同之处在于:
具体的,在本实施例中,需要指出的是,上述对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像的步骤包括:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
具体的,在本实施例中,需要说明的是,本实施例对获取到的初始试卷图像进行标准化处理具体包括图像缩放以及图像增强两部分,其中,为了使输入的图像尺寸更好的匹配深度学习模型需要的输入尺度,本实施例统一将采集到的初始试卷图像的长度缩放到1920px,并对缩放后的初始试卷图像进行数据增强,具体的,包括图像左右翻转、亮度对比度随机变化以及马赛克数据拼接,其中,马赛克数据拼接的增强方法非常重要,它可以保证不管是面积较大的配图表格区域,还是面积较小的选项区域,都能得到很好的检测效果,从而能够生成若干对应的标准试卷图像。
需要指出的是,本发明第二实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供相应内容。
综上,本发明上述实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
本发明第三实施例也提供了一种试卷版面分析方法,本实施例提供的试卷版面分析方法与上述第一实施例提供的试卷版面分析方法的不同之处在于:
具体的,在本实施例中,需要指出的是,上述基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型的步骤包括:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
具体的,在本实施例中,需要说明的是,为了能够有效的生成试卷图像检测模型,本实施例会首先加载出YOLOv5算法,并对应将上述训练样本集以及检测标签输入至当前YOLOv5算法中,其中,需要指出的是,YOLOv5是一种单阶段目标检测算法,其具体包括输入端、基准网络、Neck网络以及Head输出层。
在此基础之上,通过上述YOLOv5算法对输入其内部的训练样本集以及检测标签进行特征提取以及目标定位分类处理,从而能够计算出对应的损失函数,进一步的,通过预先设置好的随机梯度下降优化器以及损失函数进行网络参数更新优化处理,以计算出与当前训练样本集对应的初始检测模型。
其中,在本实施例中,需要指出的是,在初始检测模型构建的过程中,可以通过对比训练模型的检测结果与对应的检测标签,对训练中的试卷图像检测模型的参数和模型架构进行调整,其中,可调节的超参数包括学习率,优化器以及批处理大小等,对模型架构的调整包括添加视觉注意力机制(CBAM),优化候选框过滤算法(DIOU-NMS)等。
其中,需要指出的是,CBAM(Cost Benefit Analysis Method 构架权衡分析方法)是一种简单而有效的卷积神经网络注意力模块,具体的,在卷积神经网络任意给定一个中间特征图,CBAM将注意力映射沿特征图的通道与空间两个独立的维度进行注入,然后将注意力乘以输入特征映射,对输入的特征图进行自适应特征细化。
其中,还需要指出的是,DIOU-NMS能够有效的提升对于靠近的物体的检测,以对应提升试卷图像检测模型的检测准确率。
更进一步的,在本实施例中,实时判断当前初始检测模型中的性能衡量值是否发生更新;
具体的,若判断到当前初始检测模型中的性能衡量值在一定时间内均未发生更新,则能够将当前初始检测模型定义为上述试卷图像检测模型。
需要指出的是,本发明第三实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供相应内容。
综上,本发明上述实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
本发明第四实施例也提供了一种试卷版面分析方法,本实施例提供的试卷版面分析方法与上述第一实施例提供的试卷版面分析方法的不同之处在于:
另外,在本实施例中,需要指出的是,上述将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试的步骤包括:
识别出所述测试样本集中的测试数据,并将所述测试数据输入至所述试卷图像检测模型中;
在所述试卷图像检测模型中对所述测试数据中的检测标签进行位置以及分类预测,并计算出对应的预测时间且输出对应的识别结果;
根据所述预测时间以及所述识别结果计算出所述试卷图像检测模型对应的检测效率和检测准确率,以完成对所述试卷图像检测模型的测试。
具体的,在本实施例中,需要说明的是,在通过上述步骤获取到试卷图像检测模型之后,本实施例会进一步将上述测试样本集输入至当前试卷图像检测模型中,具体的,本实施例会实时识别出当前测试样本集中的测试数据,并立即将该测试数据输入至当前试卷图像检测模型中。
在此基础之上,在当前试卷图像检测模型中对当前测试数据中的检测标签进行位置以及分类预测处理,并对应计算出预测所需的时间以及输出对应的识别结果。
最后,在本实施例中,实时根据获取到的预测时间以及识别结果对应计算出当前试卷图像检测模型的检测效率以及检测准确率,从而能够有效的完成对当前试卷图像检测模型的测试。
需要指出的是,本发明第四实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供相应内容。
综上,本发明上述实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
本发明第五实施例也提供了一种试卷版面分析方法,本实施例提供的试卷版面分析方法与上述第一实施例提供的试卷版面分析方法的不同之处在于:
另外,在本实施例中,还需要指出的是,上述当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析的步骤之后,该方法还包括:
通过测试完成的试卷图像检测模型检测出所述目标试卷图像中的选项元素、分栏元素、标题元素、公式元素、配图元素以及表格元素,并输出所述选项元素、所述分栏元素、所述标题元素、所述公式元素、所述配图元素以及所述表格元素分别对应的坐标位置信息以及类别名称;
根据所述坐标位置信息以及所述类别名称生成对应的检测报告,并将所述检测报告传输至对应的显示终端,以在所述显示终端实时显示所述检测报告。
具体的,在本实施例中,需要说明的是,通过上述方式能够使用户在显示终端实时的观察并了解到当前目标试卷图像中存在的试卷元素,与此同时,还能够实时了解到当前目标试卷图像中的各个试卷元素分别对应的坐标位置信息以及类别名称,并同时获取到当前目标试卷图像对应的检测报告,进而能够使用户清楚的了解到当前目标试卷图像的具体版面分析情况,适用于大范围的推广与使用。
需要指出的是,本发明第五实施例所提供的方法,其实现原理及产生的一些技术效果和第一实施例相同,为简要描述,本实施例未提及之处,可参考第一实施例提供相应内容。
综上,本发明上述实施例提供的试卷版面分析方法可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
请参阅图2,所示为本发明第六实施例提供的试卷版面分析系统,所述系统包括:
获取模块12,用于获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
判断模块22,用于逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
标注模块32,用于若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
处理模块42,用于基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
执行模块52,用于当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
其中,上述试卷版面分析系统中,所述获取模块12具体用于:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
其中,上述试卷版面分析系统中,所述处理模块42具体用于:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
其中,上述试卷版面分析系统中,所述处理模块42还具体用于:
识别出所述测试样本集中的测试数据,并将所述测试数据输入至所述试卷图像检测模型中;
在所述试卷图像检测模型中对所述测试数据中的检测标签进行位置以及分类预测,并计算出对应的预测时间且输出对应的识别结果;
根据所述预测时间以及所述识别结果计算出所述试卷图像检测模型对应的检测效率和检测准确率,以完成对所述试卷图像检测模型的测试。
其中,上述试卷版面分析系统中,所述试卷版面分析系统还包括显示模块62,所述显示模块62具体用于:
通过测试完成的试卷图像检测模型检测出所述目标试卷图像中的选项元素、分栏元素、标题元素、公式元素、配图元素以及表格元素,并输出所述选项元素、所述分栏元素、所述标题元素、所述公式元素、所述配图元素以及所述表格元素分别对应的坐标位置信息以及类别名称;
根据所述坐标位置信息以及所述类别名称生成对应的检测报告,并将所述检测报告传输至对应的显示终端,以在所述显示终端实时显示所述检测报告。
本发明第七实施例提供了一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例提供的试卷版面分析方法。
本发明第八实施例提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例提供的试卷版面分析方法。
综上所述,本发明上述实施例提供的试卷版面分析方法、系统、计算机及可读存储介质可以检测常见的不同学科的试卷图像,泛化能力强,从而能够做到试卷版面上不同元素属性的准确检测以及分类,实现了同时检测文档图像中的多种类别对象并区分文档图像目标的功能。同时相较于传统方法的鲁棒性更强,并且能够高效率稳定的定位各种试卷图像的元素区域,大幅提升了试卷版面的检测精度以及分类效果,适用于大范围的推广与使用。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种试卷版面分析方法,其特征在于,所述方法包括:
获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
2.根据权利要求1所述的试卷版面分析方法,其特征在于:所述对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像的步骤包括:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
3.根据权利要求1所述的试卷版面分析方法,其特征在于:所述基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型的步骤包括:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
4.根据权利要求1所述的试卷版面分析方法,其特征在于:所述将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试的步骤包括:
识别出所述测试样本集中的测试数据,并将所述测试数据输入至所述试卷图像检测模型中;
在所述试卷图像检测模型中对所述测试数据中的检测标签进行位置以及分类预测,并计算出对应的预测时间且输出对应的识别结果;
根据所述预测时间以及所述识别结果计算出所述试卷图像检测模型对应的检测效率和检测准确率,以完成对所述试卷图像检测模型的测试。
5.根据权利要求1所述的试卷版面分析方法,其特征在于:所述当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析的步骤之后,所述方法还包括:
通过测试完成的试卷图像检测模型检测出所述目标试卷图像中的选项元素、分栏元素、标题元素、公式元素、配图元素以及表格元素,并输出所述选项元素、所述分栏元素、所述标题元素、所述公式元素、所述配图元素以及所述表格元素分别对应的坐标位置信息以及类别名称;
根据所述坐标位置信息以及所述类别名称生成对应的检测报告,并将所述检测报告传输至对应的显示终端,以在所述显示终端实时显示所述检测报告。
6.一种试卷版面分析系统,其特征在于,所述系统包括:
获取模块,用于获取不同学科分别对应的若干初始试卷图像,并对若干所述初始试卷图像进行标准化处理,以生成若干对应的标准试卷图像;
判断模块,用于逐一判断所述标准试卷图像中是否存在至少一个试卷元素;
标注模块,用于若判断到所述标准试卷图像中存在至少一个所述试卷元素时,将所述试卷元素对应存在的试卷区域标注为所述标准试卷图像的检测标签,并根据预设比例将若干所述标准试卷图像随机划分为训练样本集以及测试样本集;
处理模块,用于基于预设算法对所述训练样本集以及所述检测标签进行训练,以生成对应的试卷图像检测模型,并将所述测试样本集输入至所述试卷图像检测模型中,以对所述试卷图像检测模型进行测试;
执行模块,用于当检测到目标试卷图像时,将所述目标试卷图像输入至测试完成的试卷图像检测模型中,以使测试完成的试卷图像检测模型完成对所述目标试卷图像的版面分析。
7.根据权利要求6所述的试卷版面分析系统,其特征在于:所述获取模块具体用于:
检测出所述初始试卷图像的长度以及宽度,并将所述初始试卷图像的长度调整至标准值;
对调整后的初始试卷图像依次进行图像翻转、亮度变化以及马赛克数据拼接处理,以生成若干对应的标准试卷图像。
8.根据权利要求6所述的试卷版面分析系统,其特征在于:所述处理模块具体用于:
加载出所述预设算法,并将所述训练样本集以及所述检测标签输入至所述预设算法中;
通过所述预设算法对所述训练样本集以及所述检测标签进行特征提取以及目标定位分类处理,并计算出对应的损失函数;
通过随机梯度下降优化器以及损失函数进行网络参数更新优化,并计算出与所述训练样本集对应的初始检测模型;
判断所述初始检测模型中的性能衡量值是否发生更新;
若判断到所述初始检测模型中的性能衡量值未发生更新,则将当前所述初始检测模型定义为所述试卷图像检测模型。
9.一种计算机,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的试卷版面分析方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任意一项所述的试卷版面分析方法。
CN202211437217.XA 2022-11-17 2022-11-17 试卷版面分析方法、系统、计算机及可读存储介质 Pending CN115565190A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211437217.XA CN115565190A (zh) 2022-11-17 2022-11-17 试卷版面分析方法、系统、计算机及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211437217.XA CN115565190A (zh) 2022-11-17 2022-11-17 试卷版面分析方法、系统、计算机及可读存储介质

Publications (1)

Publication Number Publication Date
CN115565190A true CN115565190A (zh) 2023-01-03

Family

ID=84770457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211437217.XA Pending CN115565190A (zh) 2022-11-17 2022-11-17 试卷版面分析方法、系统、计算机及可读存储介质

Country Status (1)

Country Link
CN (1) CN115565190A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705400A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面题目自动拆分的方法
WO2020034523A1 (zh) * 2018-08-13 2020-02-20 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
WO2020259060A1 (zh) * 2019-06-26 2020-12-30 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN112541922A (zh) * 2020-12-04 2021-03-23 北京科技大学 基于数字图像的试卷布局分割方法、电子设备及存储介质
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备
WO2022057708A1 (zh) * 2020-09-15 2022-03-24 杭州大拿科技股份有限公司 自动填写答案的方法、电子设备和可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020034523A1 (zh) * 2018-08-13 2020-02-20 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统
WO2020259060A1 (zh) * 2019-06-26 2020-12-30 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN110705400A (zh) * 2019-09-19 2020-01-17 安徽七天教育科技有限公司 一种试卷版面题目自动拆分的方法
WO2022057708A1 (zh) * 2020-09-15 2022-03-24 杭州大拿科技股份有限公司 自动填写答案的方法、电子设备和可读存储介质
CN112541922A (zh) * 2020-12-04 2021-03-23 北京科技大学 基于数字图像的试卷布局分割方法、电子设备及存储介质
CN113076900A (zh) * 2021-04-12 2021-07-06 华南理工大学 基于深度学习的试卷卷头学生信息自动检测方法
CN113610068A (zh) * 2021-10-11 2021-11-05 江西风向标教育科技有限公司 基于试卷图像的试题拆解方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN103528617B (zh) 一种座舱仪表自动识别和检测方法及装置
CN109886928B (zh) 一种目标细胞标记方法、装置、存储介质及终端设备
CN108830332A (zh) 一种视觉车辆检测方法及系统
CN110378206B (zh) 一种智能审图系统及方法
CN109978872B (zh) 基于白质纤维束的白质微结构特征筛选系统及方法
JP5718781B2 (ja) 画像分類装置および画像分類方法
KR20180073440A (ko) 시험지 인식을 통한 유사 문제 추출 장치 및 그 방법
CN113409284B (zh) 电路板故障检测方法、装置、设备以及存储介质
CN107209111A (zh) 自动化整体载片分析的质量控制
CN109145956B (zh) 评分方法、装置、计算机设备及存储介质
CN113222913A (zh) 一种电路板缺陷检测定位方法、装置和存储介质
CN112633341A (zh) 一种界面测试方法、装置、计算机设备和存储介质
CN114264648B (zh) 一种水质检测试纸识别方法和系统
CN117252842A (zh) 一种飞机蒙皮缺陷检测及网络模型训练方法
CN108805181B (zh) 一种基于多分类模型的图像分类装置及分类方法
CN113138916A (zh) 基于标注样本的图片结构化算法的自动测试方法及系统
CN114494765B (zh) 真假烟鉴别点的识别方法、装置、电子设备及存储介质
CN115565190A (zh) 试卷版面分析方法、系统、计算机及可读存储介质
CN112016334A (zh) 判分方法及装置
CN115862080A (zh) 血清质量识别模型的训练方法、装置、设备及存储介质
US20230334832A1 (en) Image analyzing device
CN112200803B (zh) 精子核蛋白成熟度检测方法及装置
CN115424000A (zh) 一种指针式仪表识别方法、系统、设备及存储介质
CN114821618A (zh) 一种ofd阅读软件显示效果的分析方法
US20240221961A1 (en) Methods and Systems for Processing Pathology Data of a Patient For Pre-Screening Veterinary Pathology Samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230103

RJ01 Rejection of invention patent application after publication