CN109918504A

CN109918504A - 一种阅卷评分方法和系统

Info

Publication number: CN109918504A
Application number: CN201910110999.8A
Authority: CN
Inventors: 凌云; 谢维义; 黎盼; 袁震宇
Original assignee: Chengdu Jiafa Education Technology Co Ltd
Current assignee: Chengdu Jiafa Education Technology Co Ltd
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2019-06-21

Abstract

本申请公开了一种阅卷评分方法和系统，包括：导入答卷，并屏蔽考生信息，得到没有考生信息的答卷；预评答卷，得到各试题的各分数段答案集；输出部分所述各试题的各分数段答案集供用户进行定标；接收用户定标后的对应各试题各分数段答案集的定标结果集；按比例选取部分定标结果集，训练多个阅卷机器人；测试训练后的各阅卷机器人；选择通过测试的多个阅卷机器人评卷，根据需要，选择评分模式，比较并确认结果；发布确认后的结果并输出质量报告。本申请采用不同厂商机器人对阅卷进行预评、训练、正评，来提高整个阅卷过程的准确性；具有多种评分模式，保证用户的及时介入，既保障了评分的效率、公平公正性以及准确性，还节省了人力、物力和财力。

Description

一种阅卷评分方法和系统

技术领域

本申请涉及计算机辅助教育领域，尤其涉及一种阅卷评分方法和系统。

背景技术

随着信息技术和网络技术的飞速发展，传统的单一人工阅卷正向智能阅卷模式转变。传统的人工阅卷存在有阅卷速度慢、效率低，消耗大量的人力、物力和财力等问题，相较于传统人工阅卷，智能阅卷具有速度快、效率高、处理信息量大、操作简便、效果突出等特点。将英语阅卷与计算机网络结合在一起，已逐渐成为教育考试阅卷的主流方向。

从2017年起，英语听说考试逐步在全国各省市的中考中正式启用，未来英语听说考试的使用范围会进一步扩大到高考。现有的英语听说考试的阅卷模式采用传统的人工阅卷或者是人工阅卷加智能阅卷模式。

每年英语听说考试采用人工阅卷方式需要大量的人力、物力和财力的支持，并且在海量的听说阅卷过程中，由于工作量大和听说阅卷过程中听力疲劳，不可避免出现阅卷偏差，导致不能保证对每一位考生做到阅卷完全公平、公正。

同时，人工阅卷加智能阅卷模式的方式也在逐步推进中，伴随该方式的进一步使用，智能阅卷的准确性虽然一直在提高，但准确性超过一定程度后可优化的空间日趋减小，难度系数呈现几何级数增长，要实现100％的准确性几乎不可能。目前国内通用算法评分的准确度在92％左右，意味着对100个考生进行评分，有8个考生的评分可能存在误差，这个成绩直接用到高考、中考存在潜在风险，经不起推敲。另外一个方面，由于智能阅卷结果缺乏相应的监督核准机制，无法解决公众对阅卷分数的质疑。

目前主流的英语听说答卷阅卷方法包括人工阅卷和人工阅卷加智能阅卷两种方案。

如图1所示，人工阅卷的阅卷流程如下：

首先隐藏答卷中的考生信息，然后人工随机在众多的考生答卷中选择出样卷进行试卷定标，然后将定标完成的试卷给众多的阅卷人员学习，当阅卷人员通过学习达到阅卷要求后，阅卷人员就会对答卷进行人工一评和人工二评，如一评的打分结果和二评的打分结果超过阈值，则交与专家进行阅卷仲裁，形成最终成绩，如在阈值范围内，则按照国家相关的成绩规定，进行算分。但在整个人工评阅的过程中，消耗了大量的人力和物力等问题。

另外一种阅卷方法是人工阅卷和智能阅卷，如图2所示，该方案阅卷流程如下：

在机器评阅前，引入了预评。预评就是使用单智能阅卷在未经过定标的情况下，给所有的答卷进行打分。打分完成后从中选取能代表各种作答水平的样卷，输入到单智能评分模块进行样本自适应训练。同时，阅卷老师会根据评分标准中的要求从完整性、准确性、流利性、韵律性等方面对答卷进行综合评分。当单智能阅卷机器人完成训练后，会对样卷进行测试。测试的结果与多位专家老师打分的平均值进行比较，来确定机器的评分性能，测试通过后就可以利用单智能阅卷机器人对答卷进行一评，对有争议的答卷进行终评和仲裁。该方法核心目标是减少人工阅卷工作量，但其缺陷在于评分的准确性有待提高。

通过对人工阅卷和人工阅卷加智能阅卷这两种方案的现状分析，可以发现，采用人工阅卷方案虽然准确度较高，但是评分的速度慢、效率低；采用人工阅卷加智能阅卷这种方案虽然更省时省力，但是其评分的准确性有待提高，且缺乏相应的监督机制。

综上所述，上述每种阅卷方案都有其优缺点，因此需要提供一种更省时省力，且评分准确性高的阅卷评分方法。

发明内容

为解决以上问题，本申请提出了一种阅卷评分方法和系统。

一方面，本申请提出一种阅卷评分方法，包括：

导入答卷，并屏蔽考生信息，得到没有考生信息的答卷；

预评答卷，得到各试题的各分数段答案集；

输出部分所述各试题的各分数段答案集供用户进行定标；

接收用户定标后的对应各试题各分数段答案集的定标结果集；

按比例选取部分定标结果集，训练多个阅卷机器人；

测试训练后的各阅卷机器人；

选择通过测试的多个阅卷机器人评卷，比较并确认结果；

发布确认后的结果并输出质量报告。

优选地，所述预评答卷，得到各试题的各分数段答案，包括：

使用阅卷机器人预评没有考生信息的答卷，得到各试题的各分数段答案；

对各试题的各分数段答案分类，得到各试题的各分数段答案集。

优选地，所述按比例选取部分定标结果集，训练多个阅卷机器人，包括：

按比例将各定标结果集分为训练集和测试集；

使用训练集训练各阅卷机器人；

判断各阅卷机器人是否达到测试标准。

优选地，所述判断各阅卷机器人是否达到测试标准，包括：

若阅卷机器人达到测试标准，则进入测试节点；

若阅卷机器人未达到测试标准，则继续训练，直到达到测试标准。

优选地，所述测试训练后的各阅卷机器人，包括：

使用测试集测试达到测试标准的各阅卷机器人；

根据测试结果判断各阅卷机器人能否评卷。

优选地，所述根据测试结果判断各阅卷机器人能否评卷，包括：

若所述阅卷机器人的测试结果达到标准，则进入评卷候选；

若所述阅卷机器人的测试结果未达到标准，则判断此阅卷机器人是否在最大训练次数之内；

若在所述次数之内，则使用训练集从新进行训练；

若在所述次数之外，则排除此阅卷机器人。

优选地，所述选择通过测试的多个阅卷机器人评卷，比较并确认结果，包括：

选择多个通过测试的阅卷机器人评卷，得到各答题对应各阅卷机器人的得分；

比较各得分是否在阈值范围内；

输出得分。

优选地，所述比较各得分是否在阈值范围内，包括：

若各得分在阈值范围内，则取各得分的均值作为答题分数；

若各得分不在阈值范围内，则输出此答卷和试题供用户进行评卷。

优选地，所述若各得分不在阈值范围内，则输出此答卷和试题供用户进行评卷，之后还包括：

接收用户评卷分数，比较用户评卷分数与阅卷机器人评卷得分；

按照设定处理所述分数与所述得分，得到最终得分。

第二方面，本申请提出一种阅卷评分系统，包括：依次相连接的预处理模块、预评定标模块、训练模块、评卷模块和结果输出模块；

所述预处理模块，用于导入所有答卷，并屏蔽考生信息，得到没有考生信息的答卷；

所述预评定标模块，用于使用阅卷机器人预评所有答卷，得到各试题的各分数段答案集，输出部分所述各试题的各分数段答案集供用户进行定标，接收用户定标后的对应各试题各分数段答案集的定标结果集；

所述训练模块，用于按比例选取部分定标结果集，训练多个阅卷机器人，测试训练后的各阅卷机器人；

所述评卷模块，用于选择通过测试的多个阅卷机器人评卷，比较并确认评卷得分；

所述结果输出模块，用于发布确认后的评卷得分并输出质量报告。

本申请的优点在于：

本申请的方法采用人工阅卷加多智能阅卷的方式，使用多智能阅卷，即分别使用定标后的定标结果集对多个阅卷机器人进行训练并测试，从通过测试的各阅卷机器人中选择几个用于对所有答卷进行阅卷评分，能够通过对比，得到更准确的分数；通过对比各阅卷机器人的评分结果，并在结果差异较大时引入人工阅卷，能够保证最终成绩的准确性。本申请的方法中，引入竞争机制模式，在多个阅卷机器人(阅卷机器人可以理解为独立的智能阅卷算法)中，合理地选择几个阅卷机器人，并使用被选中的阅卷机器人进行预评、训练和正评，既保障了评分的效率，又保障了评分的公平公正性以及准确性，同时还节省了大量的人力、物力和财力。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是人工阅卷的阅卷流程图；

图2是人工阅卷和智能阅卷的阅卷流程图；

图3是本申请提供的一种阅卷评分方法的步骤示意图；

图4是本申请提供的一种阅卷评分方法的预评步骤示意图；

图5是本申请提供的一种阅卷评分方法的训练步骤示意图；

图6是本申请提供的一种阅卷评分方法的测试步骤示意图；

图7是本申请提供的一种阅卷评分系统的示意图；

图8是本申请提供的一种阅卷评分系统的架构示意图；

图9是本申请提供的一种阅卷评分系统的接口调用时序示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种阅卷评分方法，如图3所示，包括：

导入答卷，并屏蔽考生信息，得到没有考生信息的答卷；

预评答卷，得到各试题的各分数段答案集；

输出部分所述各试题的各分数段答案集供用户进行定标；

按比例选取部分定标结果集，训练多个阅卷机器人；

测试训练后的各阅卷机器人；

选择通过测试的多个阅卷机器人评卷，比较并确认结果；

发布确认后的结果并输出质量报告。

所述导入答卷，并屏蔽考生信息，得到没有考生信息的答卷，包括：

将试题、标准答案、待评答卷、考生信息导入到阅卷系统中；

对待评答卷进行脱敏处理，即用统一的密号进行标识，将敏感信息(考生信息)加密后存储，成绩合并时再导入到成绩管理系统中去。针对音频中出现的考生关键信息同样进行技术审查与屏蔽，得到没有考生信息的答卷。

所述预评答卷，得到各试题的各分数段答案，包括：

答卷在未进行定标之前，任意一家阅卷厂商的阅卷机器人都可以对答卷进行事先阅卷，对符合阅卷评分标准的厂商，可从中随机抽选出一家厂商的机器人来作为最终的答卷预评。

所述输出部分所述各试题的各分数段答案集供用户进行定标，包括：按设定的比例抽取各试题各分数段的答案集，作为待定标集，输出给用户进行定标。

所述定标包括：由考试管理机构组织评卷专家按照试题，梳理每道试题的评卷标准，设置每道试题的评卷参数，并评定待定标集，得到定标结果集，作为后续步骤所使用的评卷训练与评卷测试样本。

所述按比例选取部分定标结果集，训练多个阅卷机器人，包括：

按比例将各定标结果集分为训练集和测试集；

使用训练集训练各阅卷机器人；

判断各阅卷机器人是否达到测试标准。

所述判断各阅卷机器人是否达到测试标准，包括：

若阅卷机器人达到测试标准，则进入测试节点；

所述测试训练后的各阅卷机器人，包括：

使用测试集测试达到测试标准的各阅卷机器人；

根据测试结果判断各阅卷机器人能否评卷。

所述根据测试结果判断各阅卷机器人能否评卷，包括：

若所述阅卷机器人的测试结果达到标准，则进入评卷候选；

若在所述次数之内，则使用训练集从新进行训练；

若在所述次数之外，则排除此阅卷机器人。

所述选择通过测试的多个阅卷机器人评卷，比较并确认结果，包括：

比较各得分是否在阈值范围内；

输出得分。

所述比较各得分是否在阈值范围内，包括：

若各得分在阈值范围内，则取各得分的均值作为答题分数；

所述若各得分在阈值范围内，则取各得分的均值作为答题分数，之后还包括：判断答题分数是否在高分区间或低分区间内。

若所述答题分数不在高分区间或低分区间内，则答题分数即为最终得分；

若所述答题分数在高分区间或低分区间内，则输出此答卷和试题供用户进行评卷。

所述若各得分不在阈值范围内，则输出此答卷和试题供用户进行评卷，之后还包括：

按照设定处理所述分数与所述得分，得到最终得分。

所述用户包括：评卷人，仲裁员，评卷专家。

所述阈值，高分区间，低分区间和训练次数可以通过用户设定。

所述按照设定处理所述分数与所述得分，得到最终得分，包括：

若阅卷机器人评卷得分的平均值与用户评卷分数之间的差值在阈值范围之内，则计算人工评卷得分与阅卷机器人评卷得分的均值分的均值，作为最终输出成绩(最终得分)；

若阅卷机器人评卷得分的平均值与用户评卷分数之间的差值在阈值范围之外则进入仲裁复合。

在仲裁复核过程中，仲裁员对不能确定答题分数的答卷进行评分，按照预先设定的仲裁策略确定仲裁结果。例如：预先设定仲裁员评分与阅卷机器人评分差值的阈值，当仲裁员评分与其中一个阅卷机器人的评分差值不超过设定的阈值，取仲裁员与该阅卷机器人评分的均值作为答题分数。当仲裁员评分与两个阅卷机器人的评分差值均不超过设定的阈值，取仲裁员与两个机器人评分的均值作为答题分数，并进行成绩的发布。也可以不与阅卷机器人的评分进行对比，完全以仲裁员评分作为最终答题分数，进行成绩发布。

以对试卷中的一道试题的各答案进行阅卷评分为例。

将试卷(试题)、标准答案、待评答卷、考生信息导入到阅卷系统中，对待评答卷进行脱敏处理，即使用统一的密号进行标识，将敏感信息(考生信息)加密后存储，成绩合并时再导入到成绩管理系统中去。针对音频中出现的考生关键信息同样进行技术审查与屏蔽，得到没有考生信息的答卷(待评答卷)。

答卷在未进行定标之前，任意一家阅卷厂商的机器人都可以对答卷进行事先阅卷，对符合阅卷评分标准的厂商，可从中随机抽选出一家厂商的机器人作为最终的答卷预评。

如图4所示，使用阅卷机器人预评没有考生信息的答卷，得到此试题的各分数段答案。

假设此题满分为5分，则在预评之后，得到此题的1分答案集、2分答案集、3分答案集、4分答案集和5分答案集，共五个集合。

根据设定的比例，从五个集合中的各集合中随机抽取部分答案，作为样卷，供用户定标。从此试题的五个集合中可以得到1分样卷集、2分样卷集、3分样卷集、4分样卷集和5分样卷集，共五个样卷集。

由考试管理机构组织评卷专家根据此试题，梳理评卷标准，设置此试题的评卷参数，并评定上述五个样卷集，得到五个定标结果集，作为后续步骤所使用的评卷训练与评卷测试样本。所述五个定标结果集分别为1分定标结果集、2分定标结果集、3分定标结果集、4分定标结果集和5分定标结果集。

接收用户定标后的五个定标结果集，并根据设定的比例，将各定标结果集分为训练集和测试集。

所述训练集包括：1分训练集、2分训练集、3分训练集、4分训练集和5分训练集。

所述测试集包括：1分测试集、2分测试集、3分测试集、4分测试集和5分测试集。

如图5所示，根据此试题和训练制定一个训练任务，让不同的阅卷机器人来获取训练任务。不同阅卷机器人依据训练集进行训练，训练后查看训练结果是否符合测试标准。若符合设定的测试标准，机器人再进入测试的阶段。若不符合测试标准，机器人需重复进行训练，直到符合训练的结果。

如图6所示，阅卷机器人训练后进入测试阶段。所有通过训练的阅卷机器人都可以使用测试集进行定标测试。若机器人的测试结果符合正评(阅卷评分)标准，即阅卷机器人对测试集中的答案经过评判后的得分与答案所在测试集的分数段相符合，则把机器人送入正评阶段(阅卷评分)。若不符合正评标准，则判断该机器人是否在最大的训练次数内。若在最大训练次数内，则让机器人重新进行训练，直到符合正评的标准。若机器人训练次数超过设定的最大值，则直接结束。

所述相符合的比率以及分差范围可以调整。

通过对阅卷机器人的训练，对符合要求的阅卷机器人，可从中随机抽选2位厂商或者多位厂商的阅卷机器人来进行答卷的一评，二评或多评。

也可以对符合要求的阅卷机器人，从中抽选测试结果最好的2位厂商或者多位厂商的阅卷机器人来进行答卷的一评，二评或多评。

还可以使用所有符合要求的阅卷机器人进行多评，从各答题的评分结果中随机抽选2位厂商或者多位厂商的阅卷机器人的评分结果来进行答卷的一评，二评或多评。

还可以使用多个符合要求的阅卷机器人进行多评，从各答题的评分结果中随机抽选2位厂商或者多位(少于多个符合要求的阅卷机器人数量的)厂商的阅卷机器人的评分结果来进行答卷的一评，二评或多评。阅卷机器人评分模式包括上述几种模式，用户可以根据需求进行选择。所述阅卷机器人评分模式以及具体使用的阅卷机器人数量和/或评分结果数量可以进行设置。假设使用2位厂商的阅卷机器人对答卷进行一评和二评。比较两个机器人对同一答案的评分结果，两个阅卷机器人评分的差值不超过设定的阈值，且不在高分区间或低分区间时，取两个阅卷机器人评分的均值作为答题分数。

若两个阅卷机器人评分的差值不超过设定的阈值，但在高分区间或低分区间时，则进入人工评卷(人工三评)。

若不在阈值范围之内，则进入人工评卷(人工三评)。

若人工评卷得分与两个阅卷机器人评卷得分的均值分在阈值范围内，则计算人工评卷得分与阅卷机器人评卷得分的均值分的均值，作为最终输出成绩。

若人工评卷得分与两个阅卷机器人评卷得分的均值分在阈值范围外则进入仲裁复合。

所述预先设定的仲裁策略可以通过用户进行更改。

根据本申请的实施方式，还提出一种阅卷评分系统，如图7所示，包括：依次相连接的预处理模块、预评定标模块、训练模块、评卷模块和结果输出模块；

所述人工三评与仲裁按照《国家教育考试网上评卷统计测量暂行规范》第二节“非选择题评分模式”的要求，当智能一评、智能二评两个成绩在允许的误差范围内则将这两评的平均值作为最终成绩，否则启动人工三评，当三评也不能决定考生成绩时，则启动人工终评。同时支持专家对所有成绩进行抽查复审。

结果输出模块将脱敏成绩导入到成绩发布单元，形成正式考试成绩库，完成人工复审成绩与机阅成绩的合理性分析与报告。

所述质量报告包括：阅卷机器人质量报告和阅卷员质量报告。

所述阅卷机器人质量报告如表1所示。

在阅卷过程的每一个环节对异常情况进行实时发现并采取相应的告警及应对措施的过程，针对人工阅卷模式对阅卷员进行质量监控，监控内容包括：评卷员评分分布比较、评卷员平均分值比较、评卷员评分标准差、评卷员评分与专家评分的比较、个人重评分数差值、评分有效率及等指标，这些指标一旦出现异常系统应及时告警，通知相关人员采取应对措施，如推送训练卷、复核、暂停阅卷等。

如图8所示，所述一种阅卷评分系统包括考试院管理服务层和阅卷服务层。

所述考试院管理服务层包括预处理模块和结果输出模块，提供考试院管理人员，对试卷进行脱敏、异常答卷处理、成绩合并和成绩发布等操作。阅卷服务层包括预评定标模块，训练模块和评卷模块，提供阅卷的工作组和专家组对试卷进行定标、三评、仲裁，提供多个机器人完成试卷的阅卷。

各阅卷机器人在所述系统的调度下完成定标初选和训练、正评的工作，所述系统可支持多个阅卷机器人的接入。阅卷机器人接入规范采用http协议，遵循RESTful接口规范，JSON数据格式，UTF-8编码。授权采用OAuth2.0协议，调用业务接口前需要先申请令牌，获取业务接口调用凭证(token、openid)，在凭证有效期内调用业务接口不需要重新申请令牌,平台会对调用凭据校验。

阅卷机器人必须获取到授权许可，才能获取到评分所需的阅卷参数和标答，才能真正参与到阅卷过程

业务接口包含获取任务、下载任务文件、汇报任务与完成任务。任务包括训练任务和正评(评卷)任务。训练任务用于各阅卷机器人智能学习专家的评分标准，正评任务用于完成阅卷的一评，二评或多屏。

如图9所示，各厂商的阅卷机器人分别从系统获取一个任务列表，包含一到多个任务。每个任务包含任务ID、任务名称、任务类型、训练模型、任务状态、任务开始时间、任务结束时间、任务提交类型与题目数据。题目数据包含题目基本数据、音频数据、音频下载索引文件、人工打分文件、附件。

下载任务文件采用FTP方式，FTP账号由系统统一分配。下载音频文件需要先下载索引文件，然后根据索引文件去下载考生录音文件。

各阅卷机器人在评分过程中，实时汇报完成进度及评测结果。系统根据接收到的任务汇报后能够实时更新评分进度。若任务汇报失败，则针对失败情况进行说明。

阅卷机器人完成评分，发送整体评测结果至结果输出模块。结果输出模块接收到完成任务通知后能够统计出评测情况并生成相应的数据图表。若完成任务失败，则针对失败情况进行说明。

本申请的方法中，采用多个厂家的阅卷机器人对试卷进行评卷，建立良性竞争机制，保障评分过程的安全可靠，评分结果的公平、公正；利用不同厂商机器人对阅卷进行预评、训练、正评，来提高整个阅卷过程的准确性；无缝接入不同厂商的机器人，规避同一厂商机器人阅卷评分的独占性，让考试管理者具有完全的整个阅卷过程管理权；灵活的阈值、高分区间，低分区间和训练次数设置，能够减少阅卷机器人在评卷中的错误，增加结果的准确性；具有多种评分模式，功能多样，能够保证用户的及时介入，既保障了评分的效率，又保障了评分的公平公正性以及准确性，同时还节省了大量的人力、物力和财力。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种阅卷评分方法，其特征在于，包括：

导入答卷，并屏蔽考生信息，得到没有考生信息的答卷；

预评答卷，得到各试题的各分数段答案集；

输出部分所述各试题的各分数段答案集供用户进行定标；

按比例选取部分定标结果集，训练多个阅卷机器人；

测试训练后的各阅卷机器人；

选择通过测试的多个阅卷机器人评卷，比较并确认结果；

发布确认后的结果并输出质量报告。

2.如权利要求1所述的一种阅卷评分方法，其特征在于，所述预评答卷，得到各试题的各分数段答案，包括：

3.如权利要求1所述的一种阅卷评分方法，其特征在于，所述按比例选取部分定标结果集，训练多个阅卷机器人，包括：

按比例将各定标结果集分为训练集和测试集；

使用训练集训练各阅卷机器人；

判断各阅卷机器人是否达到测试标准。

4.如权利要求3所述的一种阅卷评分方法，其特征在于，所述判断各阅卷机器人是否达到测试标准，包括：

若阅卷机器人达到测试标准，则进入测试节点；

5.如权利要求1所述的一种阅卷评分方法，其特征在于，所述测试训练后的各阅卷机器人，包括：

使用测试集测试达到测试标准的各阅卷机器人；

根据测试结果判断各阅卷机器人能否评卷。

6.如权利要求5所述的一种阅卷评分方法，其特征在于，所述根据测试结果判断各阅卷机器人能否评卷，包括：

若所述阅卷机器人的测试结果达到标准，则进入评卷候选；

若在所述次数之内，则使用训练集从新进行训练；

若在所述次数之外，则排除此阅卷机器人。

7.如权利要求1所述的一种阅卷评分方法，其特征在于，所述选择通过测试的多个阅卷机器人评卷，比较并确认结果，包括：

比较各得分是否在阈值范围内；

输出得分。

8.如权利要求7所述的一种阅卷评分方法，其特征在于，所述比较各得分是否在阈值范围内，包括：

若各得分在阈值范围内，则取各得分的均值作为答题分数；

9.如权利要求8所述的一种阅卷评分方法，其特征在于，所述若各得分不在阈值范围内，则输出此答卷和试题供用户进行评卷，之后还包括：

按照设定处理所述分数与所述得分，得到最终得分。

10.一种阅卷评分系统，其特征在于，包括：依次相连接的预处理模块、预评定标模块、训练模块、评卷模块和结果输出模块；