CN117437094A - 一种答题试卷分类的方法、电子设备及存储介质 - Google Patents
一种答题试卷分类的方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117437094A CN117437094A CN202310980884.0A CN202310980884A CN117437094A CN 117437094 A CN117437094 A CN 117437094A CN 202310980884 A CN202310980884 A CN 202310980884A CN 117437094 A CN117437094 A CN 117437094A
- Authority
- CN
- China
- Prior art keywords
- answer
- answer sheet
- sample
- score
- sheets
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000012360 testing method Methods 0.000 claims abstract description 151
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000012216 screening Methods 0.000 claims description 10
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000013179 statistical model Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000009499 grossing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Educational Technology (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种答题试卷分类的方法、电子设备及存储介质,涉及人工智能与智慧教育的交叉技术领域。该方法包括:选取答题试卷中部分作为样本答题试卷;获得样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的样本答题试卷作为同一样本答题试卷训练集;分别对同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,建立答题试卷特征库;判断术语和固定搭配词组的矢量位置关系,获得特征词矢量关系,建立答题试卷评分模型;依据答题试卷评分模型对待处理答题试卷进行适配,根据建议分数和模型拟合度对待处理答题试卷进行分类。这样,对试卷自动分类,减少人为主观性的成分,保证阅卷结果公平公正。
Description
技术领域
本申请涉及人工智能与智慧教育的交叉技术领域,尤其涉及一种答题试卷分类的方法、电子设备及存储介质,还涉及一种答题试卷和阅卷教师匹配的方法、电子设备及存储介质。
背景技术
在传统线上阅卷方式中,系统根据题目答题区域扫描并上传所有的答题阅卷内容后,为每一位阅卷教师分配固定题目和一定数量的试卷,阅卷教师根据显示在电子设备上的答题试卷内容进行赋分阅卷。
现有的线上阅卷方式虽然在很大程度上改进了线下阅卷费时费力的弊端,但是由于同一道题目有可能是不同的阅卷教师进行批阅,主观题目的批阅带有很强的主观性,不同的阅卷教师批阅同一份试卷也可能给出不同的分数。另外,同一份试卷的前面多份试卷也会影响到阅卷教师批阅该份试卷的赋分情况。比如,某个阅卷教师批阅该份试卷的前面多份试卷的答卷情况很差,当看到该份试卷,即使不那么优秀,阅卷教师可能会给出超出实际的分数。
因此,如何在线上阅卷中对试卷进行自动分类,尽可能减少人为主观性的成分,保证阅卷结果的公平公正,成为亟待解决的问题。
发明内容
有鉴于此,本发明在于提供一种答题试卷分类的方法、电子设备以及存储介质,同时提供一种答题试卷和阅卷教师匹配的方法、电子设备及存储介质,以解决现有技术线上阅卷中系统分配试卷,阅卷教师主观性成分大,无法保证阅卷结果公平公正的问题。
为解决上述问题,本发明提供一种答题试卷分类的方法,包括:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出还有答题试卷数量最多的分数区间。
本发明还提供一种答题试卷和阅卷教师匹配的方法,包括:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
本发明还提供一种电子设备,该电子设备包括:
处理器;
存储器;存储器用于存储一种答题试卷分类的方法,或者存储一种答题试卷和阅卷教师匹配的方法的程序,该程序被处理器读取执行时,执行上述答题试卷分类的方法或者上述答题试卷和阅卷教师匹配的方法。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时,执行上述答题试卷分类的方法或者上述答题试卷和阅卷教师匹配的方法。
本发明提供的技术方案,获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。通过样本答题试卷的实际分数区间建立不同的样本答题试卷训练集,对样本答题试卷训练集的内容进行处理,获得答题试卷评分模型,针对答题试卷评分模型获得待处理答题试卷的建议分数,根据建议分数区间对待处理答题试卷进行分类。这样,在线上阅卷中后台服务器自动对待处理答题试卷依据分数分类,在后续阅卷过程中尽可能减少人为主观性的成分,保证阅卷结果的公平公正。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的应用场景示意图;
图2是本发明实施例提供的一种答题试卷分类方法的流程示意图;
图3是本发明实施例提供的一种答题试卷和阅卷教师匹配的方法的流程示意图;
图4是本发明实施例提供的一种答题试卷分类的装置框图;
图5是本发明实施例提供的一种答题试卷和阅卷教师匹配的装置框图;
图6是本发明实施例提供的电子设备的逻辑结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
为了使本领域的技术人员能够更好的理解本申请的技术方案,下面结合本申请实施例中的附图,对本申请进行清楚、完整地描述。但本申请能够以很多不同于下述描述的其他方式进行实施,因此,基于本申请提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本申请保护的范围。
需要说明的是,本申请的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本申请的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的例子。
在传统线上阅卷方式中,系统根据题目答题区域扫描并上传所有的答题试卷内容后,为每一位阅卷教师分配固定题目和一定数量的试卷,阅卷教师根据显示在电子设备上的答题试卷内容进行赋分阅卷。现有的线上阅卷方式相比于线下阅卷,一定程度上改进了费时费力的弊端,但是由于同一道题目可能是不同的阅卷教师进行批阅,主观题目的批阅带有很强的主观性,不同的阅卷教师批阅同一份试卷也可能给出不同的分数。另外,同一份试卷的前面多份试卷也会影响到阅卷教师批阅该份试卷的赋分情况。比如,某个阅卷教师批阅该份试卷的前面多份试卷的答卷情况很差,当看到该份试卷,即使不那么优秀,阅卷教师可能会给出超出实际的分数。或者,对于不同水平的阅卷教师、不同风格的阅卷教师给出的分数可能也会有很大的出入。系统呈现给阅卷教师的试卷顺序、阅卷教师的水平,都会在很大程度上影响阅卷教师的赋分情况。
因此,线上阅卷时如何将同水平的试卷分类在一起,尽可能减少认为主观性的成分,保证阅卷结果的公平公正,成为亟待解决的问题。为了解决这一问题,本发明提供了一种答题试卷分类的方法,阅卷系统扫描并上传所有的答题试卷后,选择部分答题试卷作为样本答题试卷,阅卷教师批阅样本答题试卷并进行赋分,根据赋分情况对样本答题试卷进行分类,依据分类结果对样本答题试卷的内容建立多个样本答题试卷训练集,对样本答题试卷训练集中的内容进行提取,获得答题试卷特征库,并根据答题试卷特征库中的内容的矢量关系建立答题试卷评分模型,将待处理答题试卷放入答题试卷评分模型中,获得待处理答题试卷的建议分数和模型拟合度,根据建议分数和模型拟合度对待处理答题试卷进行分类,筛选出含有答题试卷数量最多的分数区间。从一定程度上减少了人为主观性的成分,尽可能保证阅卷结果的公平公正。
在对本发明实施例请求保护的一种答题试卷分类的方法阐述之前,先介绍本发明的应用场景。
图1示出了本发明实施例提供的一种答题试卷分类的方法示例性系统框架100,该系统包括:终端设备101、102、103,网络104和后台服务器105。网络104用以在终端设备101、102、103和后台服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或光纤电缆等。阅卷教师可以使用终端设备101、102、103通过网络104交互,即接收后台服务器105发送的答题试卷,或者将赋分后的答题试卷发送给后台服务器105。终端设备101、102、103可以是具有显示屏并且支持页面浏览或者下载APP(Application,第三方应用程序)的各种电子设备,包括但不限于智能手机、平板电脑、膝上式便携计算机和台式计算机等。后台服务器105可以是提供各种服务的后台服务器,例如为终端设备101、102、103发送答题试卷或者接收赋分后的答题试卷的后台服务器105。
需要说明的是,本发明实施例所提供的答题试卷分类的方法一般由后台服务器105执行,相应的,答题试卷分类的装置一般部署于后台服务器105中。
可以理解的,图1中所示出的终端设备、网络和后台服务器的数目仅仅是示意性的,在实际应用中根据实现需要,可以设置具有任意数目的终端设备、网络和后台服务器。
本发明第一实施例提供了一种答题试卷分类的方法。请参看图2,该图为本发明第一实施例的流程示意图。
以下结合图2,对本发明第一实施例提供的一种答题试卷分类的方法进行详细说明。需要说明的是,该流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,同时,在某些情况下,可以以不同于该流程示意图中示出的逻辑顺序执行所示出的步骤。
如图2所示,本发明第一实施例提供的一种答题试卷分类方法包括以下步骤:
步骤S201,获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷。
本步骤用于获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷。
考试结束后,后台服务器通过扫描并上传所有考生的所有答题试卷,上传的方式可以是分答题区域分开上传,将所有考生的同一题目的答题试卷归为一类。
例如,在一次考试中有6道主观类型的题目,合计有10000份试卷,后台服务器分别获得这6道题目的答题试卷,每道题目均有10000份试卷。在后续进行答题试卷分类时,这6道题目可以分在不同的答题试卷分类中,相互之间不受影响。我们在对答题试卷分类时以其中一道题目为例,其他题目的分类方式与此题目相同。
获得全部的答题试卷,在本发明实施例中可以是获得所有考生答题试卷的其中一道题目的答题试卷。
获得全部的答题试卷后,选取答题试卷中部分的答题试卷作为样本答题试卷。
例如,接上述的示例,可以选择其中5%作为样本答题试卷,即选择500份答题试卷作为样本答题试卷。选择的方式可以是随机抽样选择,也可以分层抽样选择,当然也可以通过其他可行的方式选择。其中,分层抽样选择可以是由于答题试卷可能来自不同的地区,或者来自不同的学校或班级,我们需要结合地区、学校或者班级分层抽样选择。这些方式也都是常规的抽样方式,在此不再赘述。
当然,为了进一步提高答题试卷分类的可信度,也可以选择更多的答题试卷作为样本答题试卷。相应的,选择更多的样本答题试卷会增加时间和人力成本,在实际中可以根据实际情况自行设置,在此不做限制。
本步骤用于获得全部的答题试卷,并选取答题试卷中的一部分答题试卷作为样本答题试卷,为后续对样本答题试卷进行训练提供数据基础。
步骤S202,获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集。
本步骤用于获得样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的样本答题试卷训练集。
获得样本答题试卷的分数分布范围,包括:通过阅卷教师人工阅卷,获得样本答题试卷的实际的分数分布范围。
后台服务器将获得的样本答题试卷分配给不同的阅卷教师进行阅卷赋分,获得样本答题试卷的分数分布范围,根据分数分布范围选取若干的分数区间,将同一分数区间的样本答题试卷作为一个答题试卷训练集,并根据不同分数区间的样本答题试卷创建多个不同的样本答题试卷训练集。
例如,接上述示例,后台服务器获得了500份样本答题试卷,将这500份样本答题试卷分配至10个阅卷教师,阅卷教师每人分得50份试卷,并对分配的样本答题试卷进行阅卷,获得每一份样本答题试卷的分数。如果满分为12分,获得的样本答题试卷的分数分布范围为0~12分,我们可以针对分数分布范围选取四个分数区间,依次为0~3分、4~6分、7~9分、10~12分,根据获得的分数对样本答题试卷进行分类,将分数在0~3分的样本答题试卷归为A类,4~6分的样本答题试卷归为B类,7~9分的样本答题试卷归为C类、10~12分的样本答题试卷归为D类。表1示出了针对该题目根据分数分布范围样本答题试卷的数量。即,样本答题试卷的分数分布如下所示,依据这四个不同的样本答题试卷分数区间,建立四个不同的样本答题试卷训练集,在样本答题试卷训练集中包括样本答题试卷的内容。
分数 | 0~3 | 4~6 | 7~9 | 10~12 |
类型 | A | B | C | D |
数量 | 60 | 130 | 230 | 80 |
表1
可以理解的,当答题试卷的总分较少(例如3分),或者对答题试卷的分类要求更高时,可以减小分数区间的差额,增加样本答题试卷训练集的个数。
本步骤获得样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的样本答题试卷训练集,为后续根据样本答题试卷训练集的内容对样本答题试卷进行训练提供数据支撑。
步骤S203,分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库。
本步骤用于分别对同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得样本答题试卷训练集的答题试卷特征词,依据答题试卷特征词建立答题试卷特征库。
其中,所述术语提取包括:确定所述答题试卷对应的试卷专业术语库;对所述答题试卷训练集中的所有样本答题试卷与试卷专业术语库中的内容进行匹配;将所述样本答题试卷中的内容的匹配度高于预设阈值的内容提取为术语。
提取的术语是样本答题试卷中与本专业相关的专业术语。例如,一道题目是“简答罪刑法定的含义”,该专业为法律专业,则根据法律专业确定法律专业术语库,对所有样本答题试卷的内容与法律专业术语库中的内容进行匹配,将匹配度高于预设阈值的内容提取为术语。
可以理解的,不同的样本答题试卷训练集获得的术语可能会有出入,较高分数区间提取到的术语会更丰富,准确度更高一些。
所述固定搭配词组拆分包括:确定所述答题试卷对应的应用词组库;根据所述应用词组库对答题试卷训练集中的所有样本答题试卷的内容进行拆分,获得固定搭配词组。
对固定搭配词组拆分是在一段文字内容中提取常用的固定搭配的词组,例如一段话为“犯罪行为的界定、种类、构成条件和刑罚处罚的种类、幅度、均事先由法律加以规定”,拆分的固定词组可以为“犯罪行为”、“界定”、“种类”等,尽量避免出现“犯”、“罪”、“的界”这样的词组拆分方式。
对根据同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,将术语和固定搭配词组作为答题试卷特征词,依据答题试卷特征词建立答题试卷特征库。针对不同的样本答题训练集建立不同的答题试卷特征库。
与此同时,依据答题试卷特征词建立答题试卷特征库,还可以包括:对多个样本答题试卷训练集获得的答题试卷特征词进行共性特征词抽取,获得答题试卷的共性特征词;根据答题试卷共性特征词建立答题试卷共性特征词库。
也就是说,除了建立同一样本答题试卷训练集的答题试卷特征库外,还可以建立答题试卷共性特征词库。
本步骤分别对同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得样本答题试卷训练集的答题试卷特征词,依据答题试卷特征词建立答题试卷特征库,为后续建立答题试卷评分模型的可靠性提供更完备的特征库。
步骤S204,判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型。
本步骤用于判断答题试卷特征库中术语和固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据不同分数区间对应的答题试卷特征词的特征词矢量关系建立答题试卷评分模型。
其中,所述判断所述答题试卷特征词中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,包括:确定所述答题试卷特征词中所述术语和所述固定搭配词组的存在顺序和出现概率;根据所述存在顺序和出现概率获得术语和固定搭配词组的矢量关系。
具体的,确定同一答题试卷特征词、不同答题试卷的共性特征词中的术语和固定搭配词组的存在顺序和出现概率,并获得固定搭配词组在前后位置的矢量关系的矢量距离、固定搭配词组在相隔关系的矢量距离。
进一步依据不同分数区间对应的答题试卷特征词的特征词矢量关系建立评分模型,包括:通过概率统计模型的链式法则进行模型收敛;获得所述术语前后矢量位置出现所述固定搭配词组的矢量位置和频次概率;根据所述矢量位置和频次概率建立不同分数分布梯度的评分模型。
具体的,通过自然语言模型的概率统计模型的链式法则进行模型收敛,公式为:
P(w1,w2,...wn)=P(w1)·P(w2|w1)...P(wn|w1w2...wn-1)
再利用极大似然估计(Maximum Likelihood Estimation,MLE)计算术语前后矢量位置出现所述固定搭配词组的矢量位置和频次概率,公式为:
其中,C(·)表示术语前后矢量位置出现固定搭配词组的频次概率。再根据矢量位置和频次概率建立不同分数分布梯度的评分模型,具体的,包括:通过低频词和低频词相互间的矢量位置和频次概率、低频词和高频词相互间的矢量位置和频次概率、低频词和高频词相互间的矢量位置和频次概率中的至少一种,建立不同分数分布梯度的评分模型。
在上述计算频次概率的过程中,如果训练集有限,大概率在实际预测的时候会遇到未见过的词组,这样会造成概率计算公式中,分子或分母为0。分子为0的话,整个句子的概率是连乘结果为0;分母为0的话,数学上无法计算。
因此,可以加入一个解决零概率的问题,常用的方式可以是平滑(smoothing),为每个w对应的数值增加一个很小的值,是所有的概率都不为0。具体的,在分子和分母上分别做加法,可以是加上1,也可以是加上一个小于1的常数K。即Additive smoothing(加法平滑),加1的公式如下:
加常数K的公式如下:
为分子、分母加1容易分配过多的概率空间,加小于1的常数K在一定程度上可以解决上述问题,但在实际操作中也需要人工确定。另外,还有其他的一些平滑方法,例如Good-Turing smoothing(古德-图灵平滑)、Jelinek-Mercer smoothing(interpolation)(拉普拉斯平滑)、Catz smoothing、Witten-Bell smoothing、Absolute discounting(绝对值减法)、Kneser-Ney smoothing等。在实际中也可以使用其他的平滑方法,在此不做限制。
本步骤用于根据答题试卷特征库中术语和固定搭配词组的矢量位置关系,获得答题试卷特征词的特征词矢量关系,根据不同分数区间对应的特征词矢量关系建立答题试卷评分模型。为后续利用该答题试卷评分模型适配其他答题试卷提供模型依据。
步骤S205,依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。
本步骤用于依据含有各个分数区间的答题试卷评分模型对未选入样本答题试卷的待处理答题试卷进行适配,获得对待处理答题试卷的建议分数和模型拟合度,根据建议分数和模型拟合度对待处理答题试卷进行分类,筛选出该有答题试卷数量最多的分数区间。
在进行本步骤之前,还需要对建立的答题试卷评分模型的可靠性进行测试。具体的,包括:对所述样本答题试卷的内容通过所述答题试卷特征库进行拆分;获得样本答题试卷中答题试卷特征库的特征库字符的出现频次,建立所述术语和固定搭配词组的矢量位置关系的适配模型;对所述特征库字符的出现频次和所述适配模型进行回归分析,获得样本答题试卷的建议分数和模型拟合度;判断所述样本答题试卷的建议分数是否落入实际的分数分布范围区间;若是,则所述评分模型为可用评分模型。
具体的,当获得样本答题试卷的建议分数与阅卷教师实际批阅的分数差距较小,且模型拟合度较高时,可以认为样本答题试卷的建议分数落入实际的分数分布范围区间,例如通过评分模型获得的建议分数为7分,而通过阅卷教师批阅得到该样本答题试卷的实际分数为8分,建议分数落入实际的分数分布范围区间内。如果超过预设阈值的样本答题试卷的建议分数均落入实际的分数分布范围区间内,那么该评分模型可以认为是可靠的,是可用评分模型。
若判断样本答题试卷的建议分数没有落入实际的分数分布范围区间,将所述样本答题试卷再次分配至阅卷教师,重新进行人工阅卷,获得样本答题试卷的分数分布范围,再次建立答题试卷评分模型。
具体的,若多个样本答题试卷的建议分数均没有落入实际的分数分布范围,那么可以认为该答题试卷评分模型不可靠,需要重新对该答题试卷评分模型修改,建立新的答题试卷评分模型。
建立新的答题试卷评分模型的方式与第一次建立答题试卷评分模型的方式相同。
建立好评分模型之后,依据含有各个分数区间的答题试卷评分模型对未选入样本答题试卷的待处理答题试卷进行适配,获得对待处理答题试卷的建议分数和模型拟合度,根据建议分数和模型拟合度对待处理答题试卷进行分类,并筛选出答题试卷数量最多的分数区间。
具体的,根据建议分数和模型拟合度对待处理答题试卷进行分类,包括:若模型拟合度的匹配度高于预设阈值,则根据建议分数对待处理答题试卷进行分类,获得不同分类结果后的待处理答题试卷。在待处理答题试卷中可能会有部分待处理答题试卷的模型拟合度的匹配度较低,低于预设阈值,将这一部分待处理答题试卷连同建议分数单独放在另外一组。即,最终获得根据建议分数区间分类的待处理答题试卷,以及另外一组模型拟合度较低的特殊待处理答题试卷。
本步骤用于根据答题试卷评分模型获得待处理答题试卷的建议分数和模型拟合度,根据建议分数和模型拟合度对待处理答题试卷进行分类。
至此,介绍了本发明第一实施例提供的答题试卷分类的方法,获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。通过样本答题试卷的实际分数区间建立不同的样本答题试卷训练集,对样本答题试卷训练集的内容进行处理,获得答题试卷评分模型,针对答题试卷评分模型获得待处理答题试卷的建议分数,根据建议分数区间对待处理答题试卷进行分类。这样,在线上阅卷中后台服务器自动对待处理答题试卷依据分数分类,在后续阅卷过程中尽可能减少人为主观性的成分,保证阅卷结果的公平公正。
在本发明第一实施例的基础上,本发明还提供了第二实施例,一种答题试卷和阅卷教师匹配的方法,其中,第二实施例的步骤S301~S305与第一实施例的步骤S201~S205类似,增加步骤S306。如图3所示,示出了本发明第二实施例的流程示意图。
具体的,一种答题试卷和阅卷教师匹配的方法包括如下步骤:
步骤S301,获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
步骤S302,获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
步骤S303,分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
步骤S304,判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
步骤S305,依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
步骤S306,将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
其中,步骤S301~步骤S305的具体实施部分与第一实施例的步骤S201~S205类似,具体实施过程请参照第一实施例,在此不再赘述。
步骤S306用于将分类后的待处理答题试卷分配至不同级别的阅卷教师。分类后的答题试卷包括与模型拟合度的匹配度高于预设阈值的待处理答题试卷,还包括一组与模型拟合度较低的特殊待处理答题试卷。
可以理解的,与模型拟合度较高的待处理答题试卷在阅卷过程中的争议性较小,属于普通类型待处理答题试卷,最终阅卷教师批阅的分数与建议分数的差距不会很大,因此后台服务器可以将这一部分待处理答题试卷与建议分数分配至级别不那么高的阅卷教师,阅卷教师在阅卷过程中可以参考建议分数进行批阅试卷。而另一部分与模型拟合度较低的待处理答题试卷在阅卷过程中可能会有较大的争议性,属于特殊类型待处理答题试卷,最终阅卷教师批阅的分数与建议分数之间可能存在较大的差异,因此,后台服务器将这一部分待处理答题试卷与建议分数分配至级别较高的阅卷教师,或者分配给多个教师共同阅卷,以降低此类特殊试卷错判的概率。
这样,根据建议分数,将不同建议分数区间的待处理答题试卷分配至不同的阅卷教师,使得同一阅卷教师在阅卷过程中被分配到的答题试卷水平基本相当,尽可能排除前面试卷的干扰,批阅同类试卷能提高阅卷教师的阅卷效率,减少人为主观性的成分;同时为不同级别阅卷教师分配不同水平的待处理答题试卷,尽可能减少错判的概率,保证阅卷结果的公平公正。
本发明第三实施例提供了一种答题试卷分类的装置,该装置与本发明第一实施例提供的一种答题试卷分类的方法相对应,在此予以简单介绍。对本实施例实现方案的不明之处,可以参考第一实施例。
请参考图4,该图为本发明第三实施例提供的装置框图。
本发明第三实施例提供了一种答题试卷分类的装置400,该装置包括:获得单元401,训练集建立单元402,特征库建立单元403,评分模型建立单元404,分类单元405。
获得单元401,用于获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
训练集建立单元402,用于获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
特征库建立单元403,用于答题试卷分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
评分模型建立单元404,用于判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
分类单元405,用于依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。
本发明第四实施例提供了一种答题试卷和阅卷教师匹配的装置,该装置与本发明第二实施例提供的一种答题试卷和阅卷教师匹配的方法相对应,在此予以简单介绍。对本实施例实现方案的不明之处,可以参考第二实施例。
请参考图5,该图为本发明第四实施例提供的装置框图。
本发明第四实施例提供了一种答题试卷和阅卷教师匹配的装置500,该装置包括:获得单元501,训练集建立单元502,特征库建立单元503,评分模型建立单元504,分类单元505,分配单元506。
获得单元501,用于获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
训练集建立单元502,用于获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
特征库建立单元503,用于分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
评分模型建立单元504,用于判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
分类单元505,用于依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
分配单元506,用于将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
本发明第五实施例提供了一种电子设备,请参考图6,该图为本发明第五实施例提供的电子设备示意图。
该电子设备包括:
处理器601;
存储器602,存储器用于存储一种答题试卷分类的方法,或者存储一种答题试卷和阅卷教师匹配的方法的程序,该程序被处理器读取执行时,执行如下操作:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。
或者,
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
本发明第六实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时,执行如下操作:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。
或者,
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
对于本发明各个实施例中所阐述的方案,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种答题试卷分类的方法,其特征在于,包括:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类;筛选出含有答题试卷数量最多的分数区间。
2.根据权利要求1所述的方法,其特征在于,所述术语提取包括:
确定所述答题试卷对应的试卷专业术语库;
对所述答题试卷训练集中的所有样本答题试卷与所述试卷专业术语库中的内容进行匹配;
将所述样本答题试卷中的内容的匹配度高于预设阈值的内容提取为术语。
3.根据权利要2所述的方法,其特征在于,所述固定搭配词组拆分包括:
确定所述答题试卷对应的应用词组库;
根据所述应用词组库对所述答题试卷训练集中的所有样本答题试卷的内容进行拆分,获得固定搭配词组。
4.根据权利要求3所述的方法,其特征在于,所述判断所述答题试卷特征词中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,包括:
确定所述答题试卷特征词中所述术语和所述固定搭配词组的存在顺序和出现概率;
根据所述存在顺序和出现概率获得所述术语和所述固定搭配词组的特征词矢量关系。
5.根据权利要求4所述的方法,其特征在于,所述依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立评分模型,包括:
通过概率统计模型的链式法则进行模型收敛;
获得所述术语前后矢量位置出现所述固定搭配词组的矢量位置和频次概率;
根据所述矢量位置和频次概率建立不同分数分布梯度的评分模型。
6.根据权利要求5所述的方法,其特征在于,所述依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立评分模型后,所述方法还包括:
对所述样本答题试卷的内容通过所述答题试卷特征库进行拆分;
获得样本答题试卷中答题试卷特征库的特征库字符的出现频次,建立所述术语和固定搭配词组的矢量位置关系的适配模型;
对所述特征库字符的出现频次和所述适配模型进行回归分析,获得样本答题试卷的建议分数和模型拟合度;
判断所述样本答题试卷的建议分数是否落入实际的分数分布范围区间;
若是,则所述评分模型为可用评分模型。
7.根据权利要求6所述的方法,其特征在于,若否,所述方法还包括:
将所述样本答题试卷分配至所述阅卷教师,再次进行人工阅卷,获得所述样本答题试卷的分数分布范围;
再次建立所述答题试卷评分模型。
8.一种答题试卷和阅卷教师匹配的方法,其特征在于,包括:
获得全部的答题试卷,选取所述答题试卷中部分的答题试卷作为样本答题试卷;
获得所述样本答题试卷的分数分布范围,选取若干的分数区间,将落入相同分数区间的所述样本答题试卷作为同一样本答题试卷训练集,依据不同分数区间的样本答题试卷建立多个不同的所述样本答题试卷训练集;
分别对所述同一样本答题试卷训练集中的所有样本答题试卷进行术语提取和固定搭配词组拆分,获得所述样本答题试卷训练集的答题试卷特征词,依据所述答题试卷特征词建立答题试卷特征库;
判断所述答题试卷特征库中所述术语和所述固定搭配词组的矢量位置关系,获得所述答题试卷特征词的特征词矢量关系,并依据所述不同分数区间对应的所述答题试卷特征词的特征词矢量关系建立答题试卷评分模型;
依据含有各个分数区间的所述答题试卷评分模型对未选入所述样本答题试卷的待处理答题试卷进行适配,获得对所述待处理答题试卷的建议分数和模型拟合度,根据所述建议分数和模型拟合度对所述待处理答题试卷进行分类,获得分类后的待处理答题试卷;
将所述分类后的待处理答题试卷分配至不同级别的阅卷教师。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的一种答题试卷分类的方法或者如权利要求8所述的一种答题试卷和阅卷教师匹配的方法。
10.一种电子设备,其特征在于,包括:处理器、权利要求9所述的计算机可读存储介质,可被所述处理器读取并执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980884.0A CN117437094B (zh) | 2023-08-04 | 2023-08-04 | 一种答题试卷分类的方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310980884.0A CN117437094B (zh) | 2023-08-04 | 2023-08-04 | 一种答题试卷分类的方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117437094A true CN117437094A (zh) | 2024-01-23 |
CN117437094B CN117437094B (zh) | 2024-05-07 |
Family
ID=89545174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310980884.0A Active CN117437094B (zh) | 2023-08-04 | 2023-08-04 | 一种答题试卷分类的方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437094B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408638A (zh) * | 2018-10-22 | 2019-03-01 | 科大讯飞股份有限公司 | 定标集更新方法及装置 |
CN109670042A (zh) * | 2018-12-04 | 2019-04-23 | 广东宜教通教育有限公司 | 一种基于递归神经网络的试题分类及难度分级方法 |
CN109918504A (zh) * | 2019-02-12 | 2019-06-21 | 成都佳发教育科技有限公司 | 一种阅卷评分方法和系统 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
CN114936281A (zh) * | 2022-04-06 | 2022-08-23 | 郑州新思齐科技有限公司 | 基于大数据的试题动态分类方法、装置、设备及存储介质 |
US20220375016A1 (en) * | 2021-05-18 | 2022-11-24 | International Business Machines Corporation | Exam Evaluator Performance Evaluation |
-
2023
- 2023-08-04 CN CN202310980884.0A patent/CN117437094B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408638A (zh) * | 2018-10-22 | 2019-03-01 | 科大讯飞股份有限公司 | 定标集更新方法及装置 |
CN109670042A (zh) * | 2018-12-04 | 2019-04-23 | 广东宜教通教育有限公司 | 一种基于递归神经网络的试题分类及难度分级方法 |
CN109918504A (zh) * | 2019-02-12 | 2019-06-21 | 成都佳发教育科技有限公司 | 一种阅卷评分方法和系统 |
CN110110585A (zh) * | 2019-03-15 | 2019-08-09 | 西安电子科技大学 | 基于深度学习的智能阅卷实现方法及系统、计算机程序 |
US20220375016A1 (en) * | 2021-05-18 | 2022-11-24 | International Business Machines Corporation | Exam Evaluator Performance Evaluation |
CN114936281A (zh) * | 2022-04-06 | 2022-08-23 | 郑州新思齐科技有限公司 | 基于大数据的试题动态分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117437094B (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112632385A (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111767366B (zh) | 问答资源挖掘方法、装置、计算机设备及存储介质 | |
US20190340948A1 (en) | Cluster analysis of participant responses for test generation or teaching | |
US11842257B2 (en) | System and method for predicting and scoring a data model | |
US10275687B2 (en) | Image recognition with filtering of image classification output distribution | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN110569364A (zh) | 在线教学方法、装置、服务器及存储介质 | |
CN111144079B (zh) | 一种智能获取学习资源的方法、装置、打印机和存储介质 | |
CN109801527B (zh) | 用于输出信息的方法和装置 | |
US20190130030A1 (en) | Generation method, generation device, and recording medium | |
Alipourfard et al. | Using Simpson’s paradox to discover interesting patterns in behavioral data | |
CN111932418B (zh) | 一种学生学习情况识别方法、系统、教学终端及存储介质 | |
CN113641794A (zh) | 简历文本的评估方法、装置及服务器 | |
CN111443973B (zh) | 备注信息的填入方法、装置、设备及存储介质 | |
CN117437094B (zh) | 一种答题试卷分类的方法、电子设备及存储介质 | |
CN112860845A (zh) | 一种试题检索方法、装置、电子设备及存储介质 | |
CN111062449A (zh) | 预测模型的训练方法、兴趣度预测方法、装置和存储介质 | |
CN116228361A (zh) | 基于特征匹配的课程推荐方法、装置、设备和存储介质 | |
CN112131354B (zh) | 答案筛选方法、装置、终端设备和计算机可读存储介质 | |
CN112784015B (zh) | 信息识别方法和装置、设备、介质和程序 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
CN112231373B (zh) | 知识点数据的处理方法、装置、设备和计算机可读介质 | |
CN114896294A (zh) | 产品测试数据表生成方法、装置、设备及存储介质 | |
CN114118087A (zh) | 实体确定方法、装置、电子设备及存储介质 | |
CN114067343A (zh) | 一种数据集的构建方法、模型训练方法和对应装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |