CN111507632A

CN111507632A - 一种发展性评测的方法、装置及电子设备

Info

Publication number: CN111507632A
Application number: CN202010316593.8A
Authority: CN
Inventors: 刘嘉堃; 刘云; 国威; 胡长霞; 任芳芳; 申兴翠
Original assignee: Beijing Yiyi Education Information Consulting Co ltd
Current assignee: Beijing Yiyi Education Information Consulting Co ltd
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2020-08-07

Abstract

本发明提供了一种发展性评测的方法、装置及电子设备，其中，该方法包括：预先设置测试题库，测试题库包括多个级别的问题数据，且每个级别包含多个关联问题数据；获取多个待测对象提交的测试结果；根据关联问题数据对测试结果进行合并处理，并根据等级反应模型对合并后的测试结果进行同时等值处理，确定每个待测对象的能力值；根据待测对象的能力值生成发展性评测结果。通过本发明实施例提供的技术方案，能够对不同级别的测试对象进行精确测试，同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上；基于等级反应模型所确定的能力值更加准确；发展性评测结果可以整体或局部对能力进行评价，评测结果更加完整。

Description

一种发展性评测的方法、装置及电子设备

技术领域

本发明涉及教育评测技术领域，具体而言，涉及一种发展性评测的方法、装置、电子设备及计算机可读存储介质。

背景技术

英语学科在我国教育中占据着越来越重要的位置，教育部门对英语考核的水准越来越高。随着社会的不断发展，目前很多考试将英语听力部分和口语部分放在一起对学生的实用能力进行考察，听力部分用于检查学生对英语的记忆和理解能力，口语部分对学生实践能力进行考察。学生学习英语是从记忆到理解，最后才会运用和实践。因此可以说英语的听力和口语的是相互影响，相互促进的关系。为全面提高小学生英语的实用能力，从小学就应该逐步深入培养学生的英语听口能力。因此，如何科学、全面地评价小学生英语听口能力的实际水平是非常重要的。但在小学阶段通常人们只重视学生的笔试能力考评，往往忽略听力能力和口语能力的考评。

为了能够认知学生的发展状况，可以进行发展性评测。发展性评测是一种现代教育理念，其可以评价学生在学习过程中的学习能力，可以使学生明确自己的发展方向，即下一步学习和生活的努力方向，同时可以使教师明确自己的教学方向。目前国内已经存在多种不同版本的英语听力测验或口语测验，且也存在用于发展性评测的英语听力能力发展性量表，该英语听力能力发展性量表采用了分布评分模型(Partial Credit Model,PCM)对学生的能力进行估计。

在实现本发明的过程中，发明人发现现有的方案中至少存在如下问题：

PCM模型并不存在区分度参数(或者说，PCM模型把区分度参数固定为1)，即并不能对测验题目的区分度进行计算，也就是该模型认为不同的题目对于学生的区分能力是一样的。但是实际的情况是，不同的题目对于不同能力的学生的区分能力不同，因此该模型假设所有题目的区分度相同是不合理的。此外，目前对于不同年级的学生能力进行发展性评测时，不同年级会使用不同的试卷，该测评方式只能同年级学生之间进行能力比较，并不能实现跨年级学生的能力比较，评测效果较差。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种发展性评测的方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例提供了一种发展性评测的方法，包括：

预先设置测试题库，所述测试题库包括多个级别的问题数据，且每个级别包含多个关联问题数据，所述关联问题数据为与相邻级别的问题数据相同的问题数据；

获取多个待测对象提交的测试结果，所述测试结果为所述待测对象答复级别相匹配的所述问题数据时所生成的结果；

根据所述关联问题数据对所述测试结果进行合并处理，并根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值；

根据所述待测对象的能力值生成发展性评测结果。

第二方面，本发明实施例还提供了一种发展性评测的装置，包括：

设置模块，用于预先设置测试题库，所述测试题库包括多个级别的问题数据，且每个级别包含多个关联问题数据，所述关联问题数据为与相邻级别的问题数据相同的问题数据；

结果获取模块，用于获取多个待测对象提交的测试结果，所述测试结果为所述待测对象答复级别相匹配的所述问题数据时所生成的结果；

处理模块，用于根据所述关联问题数据对所述测试结果进行合并处理，并根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值；

评测模块，用于根据所述待测对象的能力值生成发展性评测结果。

第三方面，本发明实施例提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，所述计算机程序被所述处理器执行时实现上述任意一项所述的发展性评测的方法中的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的发展性评测的方法中的步骤。

本发明实施例提供的发展性评测的方法、装置、电子设备及计算机可读存储介质，设置包含关联问题数据的多级别测试题库，能够对不同级别的测试对象进行精确测试，并生成多级别的测试结果，且能够关联不同级别的测试结果；通过合并处理和同时等值处理可以将测试结果进行统一，且同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上，程序运行耗时少，可以实现快速统一，且等值效果不易受待测对象整体能力差异的影响。基于等级反应模型对测试结果进行处理，更符合实际情况，所确定的能力值更加准确；发展性评测结果可以整体或局部对待测对象的能力进行评价，评测结果更加完整。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的一种发展性评测的方法的流程图；

图2示出了本发明实施例所提供的一种发展性评测的装置的结构示意图；

图3示出了本发明实施例所提供的一种用于执行发展性评测的方法的电子设备的结构示意图。

具体实施方式

在本发明实施例的描述中，所属技术领域的技术人员应当知道，本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此，本发明实施例可以具体实现为以下形式：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外，在一些实施例中，本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式，该计算机可读存储介质中包含计算机程序代码。

上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括：电、磁、光、电磁、红外或半导体的系统、装置或器件，或者以上任意的组合。计算机可读存储介质更具体的例子包括：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中，计算机可读存储介质可以是任意包含或存储程序的有形介质，该程序可以被指令执行系统、装置、器件使用或与其结合使用。

上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输，包括：无线、电线、光缆、射频(Radio Frequency，RF)或者以上任意合适的组合。

可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，例如：Java、Smalltalk、C++，还包括常规的过程式程序设计语言，例如：C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括：局域网(LAN)或广域网(WAN)，可以连接到用户计算机，也可以连接到外部计算机。

本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。

应当理解，流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合，都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而生产出一种机器，这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行，产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。

也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样，存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。

也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。

下面结合本发明实施例中的附图对本发明实施例进行描述。

图1示出了本发明实施例所提供的一种发展性评测的方法的流程图。如图1所示，该方法包括：

步骤101：预先设置测试题库，测试题库包括多个级别的问题数据，且每个级别包含多个关联问题数据，关联问题数据为与相邻级别的问题数据相同的问题数据。

本发明实施例中，在需要进行发展性评测时，先设置用于评测的测试题库；为了能够更好地进行发展性评测，本实施例中采用多个级别的问题数据，即测试题库中包含多个级别的问题数据。其中，该“级别”指的是与时间相关的等级或分类，例如，当需要对学生进行发展性评测时，该级别可以是学生所在年级、学生的年龄、学生所学的课时等。同时，每个级别中包含与相邻级别的问题数据相同的关联问题数据，即每个级别中，所有问题数据中的部分问题数据与相邻级别的问题数据完全相同，该部分问题数据即为关联问题数据。例如，测试题库涉及三个级别，分别是年级A、年级B和年级C，年级A包含问题数据a1,a2,a3,a4，年级B包含问题数据b1,b2,a2,a3，年级C包含问题数据c1,c2,c3,b1；则对于年级A，问题数据a2,a3为关联问题数据；对于年级B，问题数据b1,a2,a3均为关联问题数据，其中的问题数据a2,a3是与年级A相同的关联问题数据，问题数据b1是与年级C相同的关联问题数据；相应的，年级C的关联问题数据为问题数据b1。

可选的，对于每个级别来说，其与相邻级别的问题数据相同的关联问题数据占该级别总的问题数据的比例需要合理设置，该比例一般为10％～30％，例如可以取为20％等。可选的，若某个级别对应两个相邻的其他级别，则需要分别设置该级别与其他两个相邻级别的关联问题数据，且相应的比例也可以是独立的。如上述的例子，年级B与年级A之间的关联问题数据a2,a3占年级B总问题数据的比例为50％，而年级B与年级C之间的关联问题数据b1占年级B总问题数据的比例为25％。

步骤102：获取多个待测对象提交的测试结果，测试结果为待测对象答复级别相匹配的问题数据时所生成的结果。

本发明实施例中，在确定测试题库之后，即可基于该测试题库对相应的待测对象进行发展性评测；其中，该待测对象即为需要进行发展性评测的对象，如学生、公司员工等。本实施例中，每个待测对象也具有级别这一属性，且待测对象的级别与测试题库中问题数据的级别相匹配，在待测对象进行测试时，将与待测对象的级别相匹配的问题数据分配给该待测对象，使得待测对象可以答复与其级别相匹配的问题数据，进而生成相应的测试结果。例如，待测对象为学生，级别为学生的年级，若该待测对象为1年级学生，则可以将1年级的问题数据分发给该待测对象；同理，可以将相应的问题数据分发至相应的待测对象，并最终收集到所有测试结果。

步骤103：根据关联问题数据对测试结果进行合并处理，并根据等级反应模型对合并后的测试结果进行同时等值处理，确定每个待测对象的能力值。

本发明实施例中，由于测试题库包含多个级别的问题数据，待测对象答复后所，也会生成多个级别的测试结果，不同级别的测试结果之间是不能进行比较的，故需要对测试结果进行等值处理。在进行同时等值之前，本实施例中基于相邻级别之间的关联问题数据对所有的测试结果进行合并处理，之后采用同时等值的方式对合并后的测试结果进行等值处理，从而使得不同级别之间的测试结果之间可以比较，且基于等级反应模型进行同时等值处理，可以确定每个待测对象的能力值，该能力值可以表征待测对象学习能力的高低。其中，该等级反应模型可以为传统的GRM(Grade Response Model,等级反应模型)，或者是2PL模型(Two-parameter Model，双参数模型)。在GRM中，该能力值处于(-3,3)之间，能力值越大，表示对象能力越高。

与PCM相比，等级反应模型在问题难度的基础上还可以提供问题数据的区分度参数，即GRM认为不同问题数据对学生的区分程度是不同的，这一点也更符合实际。同时，GRM模型不仅适用于二级计分的问题数据，同时也适用于多级计分的问题数据了，从而可以有效避免由于PCM限制而导致对能力值估计的误判。

除此之外，PCM更注重相邻等级之间的局部依赖性。以待测对象为学生为例，PCM中，学生在一道题目上等级较高的反应是建立等级较低的正确反应上，也就是在使用PCM对数据进行计算时是按照步骤对学生能力进行计算，即这一系列的加工是有序的，假设一共有L_j步，那么任意选择其中相邻的j步和j-1步骤，假设学生已经完成了j-1步，现在正在向j步前进，成功了就达到j步骤，失败了就停留在j-1步，因此在进行类似于数学等逻辑递推性较强的科目时可以采用PCM。举例来说：问题数据为

为了得出正确的答案，这道题分四步：(1)4×4＝16；(2)16-7＝9；(3)9开根号为3；(4)3+3＝6。通过上述分析可知解答该题一共分为4步，每个步骤的答案均为固定不变，例如：第3个步骤的答案只能为3。

而在处理不具有标准答案的问题数据(如英语口语问题数据等)时，由于学生对于该类题问题的回答是多样的，如何通过多种解法达到对学生潜在特质水平的测量，这是PCM不能解决的问题。例如在看图片回答问题的题型中，学生需要先理解题目含义，再根据图片信息回答问题。假设图片显示母亲开车上班，相应的问题为：How does your mother go towork？则本题的参考答案可以为：She goes to work by car./My mother goes to workby car./By car./She goes there by car./She goes to work in a car./My mothergoes to work in a car./My mother goes there by car./My mother goes there in acar./She goes there in a car等。

显而易见，在解决此类问题时学生的回答可以是多样的，并且没有固定的逻辑递推性，因此PCM便不能处理该类数据。而GRM在提出时的初衷就是基于自由反应数据，所谓的自由反应数据是指，学生的回答是不受限制的，自由反应数据是有别于PCM最主要的特征之一。GRM从整体出发考虑进行模型的建构，因此不需要答案具有逻辑递推性，使得GRM更适合处理学生的口语数据等不具有标准答案的测试结果，从而使得本实施例提供的发展性评测方法可以对学生的听口能力进行评测。

步骤104：根据待测对象的能力值生成发展性评测结果。

本发明实施例中，在确定待测对象的能力值之后，可以基于统计的方式生成发展性评测结果。可选的，该发展性评测结果可以包含级别能力均值、级别能力离散程度、能力总趋势、待测对象的级别百分等级、待测对象的总百分等级中的一项或多项。其中，级别能力均值为同级别所有待测对象的能力值的平均值，级别能力离散程度为同级别所有待测对象的能力值的方差或标准差，能力总趋势为所有级别的级别能力均值的变化趋势，级别百分等级为待测对象在相应级别中的百分等级，总百分等级为待测对象在所有级别中的百分等级。基于该发展性评测结果可以整体或局部对待测对象的能力进行评价。

本实施例中，级别能力均值可以表示某个级别的所有待测对象的整体能力，级别能力离散程度可以表示某个级别的所有对象的能力差异，能力总趋势可以表示随着级别变化、待测对象的能力发展趋势，级别百分等级可以表示某个待测对象在相应级别中的排名，总百分等级可以表示某个待测对象在所有级别中的排名。其中，该百分等级指的是，在一个按大小顺序排列的数列中，低于某数值的数值次数与总次数的百分比。如果某位学生的能力值得分为65分，其百分等级为87.5％，是指有87.5％的分数低于65分。

本发明实施例提供的一种发展性评测的方法，设置包含关联问题数据的多级别测试题库，能够对不同级别的测试对象进行精确测试，并生成多级别的测试结果，且能够关联不同级别的测试结果；通过合并处理和同时等值处理可以将测试结果进行统一，且同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上，程序运行耗时少，可以实现快速统一，且等值效果不易受待测对象整体能力差异的影响。基于等级反应模型对测试结果进行处理，更符合实际情况，所确定的能力值更加准确；发展性评测结果可以整体或局部对待测对象的能力进行评价，评测结果更加完整。

在上述实施例的基础上，上述步骤101“预先设置测试题库”包括：

步骤A1：根据问题参数剔除无效问题，问题参数包括问题考察能力、问题考查内容、问题呈现方式、问题选项特征中的一项或多项。

本发明实施例中，问题数据本身具有相应的属性参数，即问题参数，该问题参数具体可以是问题考察能力、问题考查内容、问题呈现方式、问题选项特征等。其中，问题考察能力指的是该问题数据所考察的能力，若问题数据考察多种能力，则评测时不能准确确定待测对象哪种能力较高或较低，故需要剔除问题考察能力种类较多的问题数据。问题考查内容用于表示与待测对象的能力的匹配程度，若问题考查内容严重低于或高于待测对象的能力，则会出现问题数据难度过低或过高的情况，即全部待测对象答对或答错该问题数据，导致该问题数据的区分度较低，故需要剔除该类问题数据。问题呈现方式用于表征问题数据是否能够清楚地呈现给待测对象，若问题数据的呈现方式会对待测对象的作答造成干扰，此时即使待测对象答错也并不能说明待测对象能力低，故该类问题数据也需要剔除。问题选项特征指的是问题数据的选项是否都与问题本身相关，若选项与问题本身无关，则待测对象可以较容易地排除该选项，或者正确选项具有明显特征，待测对象靠猜想就能选出正确答案，则该类问题数据也不能测试出待测对象的能力，需要剔除，以尽量杜绝待测对象的猜测行为。

本实施例在生成测试题库的过程中，通过控制问题数据无关信息、增强选项迷惑性、控制问题数据难度等手段将猜测因素降至最低，使得后续在使用等级反应模型对相应的测试结果进行计算时，更符合数据实际情况，计算结果更加准确。

例如，以待测对象为学生、级别为学生的年级为例，若当前需要对学生的听口能力进行测试，则需要为不同年级的学生选取相应的问题数据，该问题数据包含听力题目和口语题目，最终选取的测试题库的问题数据分布情况可参见下表1所示：

表1问题数据基本信息表

步骤A2：从剔除无效问题后的数据中，为每个级别选取与相应题型对应的问题数据。

本发明实施例中，每个问题数据对应相应的题型，在每个级别中，需要选取合适的题型，并选取核实数量的问题数据。例如，对于听力类的问题数据，其题型可以为“听单词选图片”、“听句子选单词”、“听对话回答问题”等。例如，上述表1中问题数据的题型分布情况可参见下表2所示，表2中的“-”表示不含有此类题型：

表2：1至6年级各题型数量分布表

步骤A3：为相邻级别设置多个关联问题数据，且关联问题数据的题型覆盖相邻级别的共同题型中的预设比例题型。

本发明实施例中，每个级别中设有合理比例的关联问题数据，例如20％的问题数据是关联问题数据等。此外，由于每个级别中包含多个题型的问题数据，本实施例中的关联问题数据也需要涉及足够多的题型。具体的，关联问题数据的题型覆盖相邻级别的共同题型中的预设比例题型，使得相邻级别之间的关联问题数据可以覆盖尽可能多的题型；其中，该预设比例可以为70％，80％，甚至100％。如上表2所示，1年级与2年级两个相邻级别之间有“听单词选图片”、“听句子选图片”、“听问句选答语”等八个共同题型，则需要尽量从这八个题型中设置相同的问题数据，即关联问题数据；例如，可以在1年级与2年级之间设置7个关联问题数据，且7个关联问题数据分别对应不同的共同题型。本实施例中将关联问题数据覆盖预设比例的共同题型，可以尽量保证关联问题数据的题型结构与每个级别中问题数据的题型结构一致，进而可以提高后续同时等值时的等值效果。

可选的，在获取到待测对象提交的测试结果之后，先对测试结果进行清理，之后再进行合并等处理。本实施例中，上述步骤“根据关联问题数据对测试结果进行合并处理”包括：

步骤B1：根据测试结果的完成时间和/或完成比例对测试结果进行清理，剔除无效测试结果，无效测试结果为完成时间小于预设时间阈值和/或完成比例小于预设比例阈值的测试结果。

步骤B2：根据关联问题数据对清理后的测试结果进行合并处理。

本发明实施例中，待测对象答复完相应级别的问题数据之后，可以生成测试结果；其中，可以采用线上测试的方式向每个待测对象分发相应级别的问题数据，待测对象作答后可以将测试结果存入数据库中，之后即可随时从数据库中得到所有待测对象的测试结果。为保障测试结果的准确性，本实施例中可以根据完成时间和完成问题的比例(即完成比例)两项参数对测试结果进行清理。例如，待测对象如果认真作答本次测验，至少需要10分钟的时间；如果某位待测对象的作答时间低于10分钟，那么该待测对象可能存在较大的虚假作答嫌疑，因此将完成时间少于10分钟的测试结果进行删除。其次，当待测对象在规定时间内完成问题数据的比例少于30％时，那么认为该待测对象存在不认真作答情况，故将该部分测试结果进行删除。本实施例中通过剔除无效测试结果，可以清楚无效的测试结果，进而能够更准确地评测待测对象的能力。

其中，合并处理用于将不同级别的测试结果进行统一。例如，1年级的测试结果包含学生对问题数据A、B的测试结果a、b，2年级的测试结果包含学生对问题数据A、C、D的测试结果a、c、d(问题数据A为关联问题数据)，则合并处理后可以生成1年级学生对问题数据A、B、C、D的测试结果a、b、0、0，同时生成2年级学生对问题数据A、B、C、D的测试结果a、0、c、d；其中，“0”表示测试结果为空。此外，也可采用表2的形式表示合并处理后的所有测试结果，且可以用“-”表示为空的测试结果。

在上述实施例的基础上，本实施例中采用联合极大似然估计(Joint MaximumLikelihood Estimation，JMLE)的方法对能力值进行估计。具体的，上述步骤103“根据等级反应模型对合并后的测试结果进行同时等值处理，确定每个待测对象的能力值”包括：

步骤C1：确定第一参数，基于极大似然估计更新确定第二参数；将确定的第二参数作为已知条件，基于极大似然估计校正更新第一参数；其中，第一参数为待测对象的能力值、第二参数为问题数据的参数，或者，第一参数为问题数据的参数、第二参数为待测对象的能力值；问题数据的参数包括难度和/或区分度。

步骤C2：重复上述更新第二参数和第一参数的过程，直至确定最终的第一参数和最终的第二参数；

本发明实施例中，等级反应模型中涉及待测对象的能力值、问题数据的难度、区分度三个参数，本实施例中将问题数据的难度和区分度统一为问题数据的参数，进而基于待测对象的能力值和问题数据的参数这两个未知量进行联合极大似然估计，最终可以确定待测对象的能力值，也可以确定问题数据的难度和区分度。本实施例中，可以首先以待测对象的能力初始估计值作为已知条件(此时，第一参数为待测对象的能力值)，采用极大似然估计的方法估计题目参数(即问题数据的参数，此时，第二参数为问题数据的参数)；然后将估计出来的题目参数作为已知条件，再重新校正初始的能力值。通过此过程可以将待测对象的能力值和题目参数放置在同一量尺上。经过上述步骤的循环往复直至收敛，从而得到最终的待测对象的能力值、问题数据的难度和区分度。

其中，难度指的是问题数据的难易程度，在等级反应模型中，难度处于(-3,3)之间，其值越大表示问题难度越高；区分度指的是问题数据能够在多大程度上区分待测对象的能力水平，反映了问题数据对待测对象的能力水平区分的有效性。

可选的，若在步骤103“根据等级反应模型对合并后的测试结果进行同时等值处理”之后可以确定问题数据的参数，则该方法还包括：根据问题数据的参数调整测试题库。

本实施例中，在确定测试题库时，可以基于问题参数选取合适的问题数据。同时，在确定问题数据的难度、区分度之后，可以基于该问题数据的难度和区分度重新评价将该问题数据选为测试题库中的一项数据是否合适。例如，当该问题数据的难度较大，或者区分度较低时，则该问题数据不能有效地评价待测对象的能力，此时可从测试题库中删除该问题数据。

此外，可选的，在上述步骤103“确定每个待测对象的能力值”之后，该方法还包括：将待测对象的能力值映射至预设范围内，预设范围的下限不小于零。

本发明实施例中，由于在等级反应模型得到的能力值的分布区间在(-3,3)之间，与常见的百分制分数不同，此时理解起来较为抽象，本实施例将待测对象的能力值映射至下限不小于零的预设范围内，能够将待测对象的能力值转换为日常常用的评分标准，避免曲解能力值。其中，该预设范围具体可以是0～10(十分制)，0～100(百分制)，60～100等。例如，设θ为等级反应模型得到的能力值，则可以按照X＝70+10×θ进行转换，转换后的X即为预设范围内的能力值。转换完的能力值可以直接进行比较，也方便理解其含义。

本发明实施例提供的一种发展性评测的方法，设置包含关联问题数据的多级别测试题库，能够对不同级别的测试对象进行精确测试，并生成多级别的测试结果，且能够关联不同级别的测试结果；通过合并处理和同时等值处理可以将测试结果进行统一，且同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上，程序运行耗时少，可以实现快速统一，且等值效果不易受待测对象整体能力差异的影响。基于等级反应模型对测试结果进行处理，更符合实际情况，所确定的能力值更加准确；发展性评测结果可以整体或局部对待测对象的能力进行评价，评测结果更加完整。通过控制问题数据无关信息、增强选项迷惑性、控制问题数据难度等手段将猜测因素降至最低，使得后续在使用等级反应模型对相应的测试结果进行计算时，更符合数据实际情况，计算结果更加准确。将关联问题数据覆盖预设比例的共同题型，可以尽量保证关联问题数据的题型结构与每个级别中问题数据的题型结构一致，进而可以提高后续同时等值时的等值效果。

上文详细描述了本发明实施例提供的发展性评测的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的发展性评测的装置。

图2示出了本发明实施例所提供的一种发展性评测的装置的结构示意图。如图2所示，该发展性评测的装置包括：

设置模块21，用于预先设置测试题库，所述测试题库包括多个级别的问题数据，且每个级别包含多个关联问题数据，所述关联问题数据为与相邻级别的问题数据相同的问题数据；

结果获取模块22，用于获取多个待测对象提交的测试结果，所述测试结果为所述待测对象答复级别相匹配的所述问题数据时所生成的结果；

处理模块23，用于根据所述关联问题数据对所述测试结果进行合并处理，并根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值；

评测模块24，用于根据所述待测对象的能力值生成发展性评测结果。

本发明实施例提供的一种发展性评测的装置，设置包含关联问题数据的多级别测试题库，能够对不同级别的测试对象进行精确测试，并生成多级别的测试结果，且能够关联不同级别的测试结果；通过合并处理和同时等值处理可以将测试结果进行统一，且同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上，程序运行耗时少，可以实现快速统一，且等值效果不易受待测对象整体能力差异的影响。基于等级反应模型对测试结果进行处理，更符合实际情况，所确定的能力值更加准确；发展性评测结果可以整体或局部对待测对象的能力进行评价，评测结果更加完整。

在上述实施例的基础上，所述设置模块21用于：

根据问题参数剔除无效问题，所述问题参数包括问题考察能力、问题考查内容、问题呈现方式、问题选项特征中的一项或多项；

从剔除所述无效问题后的数据中，为每个级别选取与相应题型对应的问题数据；

为相邻级别设置多个关联问题数据，且所述关联问题数据的题型覆盖相邻级别的共同题型中的预设比例题型。

在上述实施例的基础上，所述处理模块23根据所述关联问题数据对所述测试结果进行合并处理包括：

根据所述测试结果的完成时间和/或完成比例对所述测试结果进行清理，剔除无效测试结果，所述无效测试结果为完成时间小于预设时间阈值和/或完成比例小于预设比例阈值的测试结果；

根据所述关联问题数据对清理后的所述测试结果进行合并处理。

在上述实施例的基础上，所述处理模块23根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值，包括：

确定第一参数，基于极大似然估计更新确定第二参数；将确定的所述第二参数作为已知条件，基于极大似然估计校正更新所述第一参数；

重复上述更新所述第二参数和所述第一参数的过程，直至确定最终的第一参数和最终的第二参数；

其中，所述第一参数为所述待测对象的能力值、所述第二参数为所述问题数据的参数，或者，所述第一参数为所述问题数据的参数、所述第二参数为所述待测对象的能力值；所述问题数据的参数包括难度和/或区分度。

在上述实施例的基础上，该装置还包括映射模块；

在所述处理模块23确定每个所述待测对象的能力值之后，该映射模块用于：将所述待测对象的能力值映射至预设范围内，所述预设范围的下限不小于零。

在上述实施例的基础上，所述评测模块24用于：

根据所述待测对象的能力值生成包含级别能力均值、级别能力离散程度、能力总趋势、所述待测对象的级别百分等级、所述待测对象的总百分等级中的一项或多项的发展性评测结果；

其中，所述级别能力均值为同级别所有所述待测对象的能力值的平均值，所述级别能力离散程度为同级别所有所述待测对象的能力值的方差或标准差，所述能力总趋势为所有级别的所述级别能力均值的变化趋势，所述级别百分等级为所述待测对象在相应级别中的百分等级，所述总百分等级为所述待测对象在所有级别中的百分等级。

在上述实施例的基础上，该装置还包括题库调整模块；

在所述处理模块23根据等级反应模型对合并后的所述测试结果进行同时等值处理之后，所述题库调整模块用于：

确定所述问题数据的参数，所述问题数据的参数包括难度和/或区分度；根据所述问题数据的参数调整所述测试题库。

本发明实施例提供的一种发展性评测的装置，设置包含关联问题数据的多级别测试题库，能够对不同级别的测试对象进行精确测试，并生成多级别的测试结果，且能够关联不同级别的测试结果；通过合并处理和同时等值处理可以将测试结果进行统一，且同时等值能够通过一次标定程序将涉及的能力值等参数标定到同一量尺上，程序运行耗时少，可以实现快速统一，且等值效果不易受待测对象整体能力差异的影响。基于等级反应模型对测试结果进行处理，更符合实际情况，所确定的能力值更加准确；发展性评测结果可以整体或局部对待测对象的能力进行评价，评测结果更加完整。通过控制问题数据无关信息、增强选项迷惑性、控制问题数据难度等手段将猜测因素降至最低，使得后续在使用等级反应模型对相应的测试结果进行计算时，更符合数据实际情况，计算结果更加准确。将关联问题数据覆盖预设比例的共同题型，可以尽量保证关联问题数据的题型结构与每个级别中问题数据的题型结构一致，进而可以提高后续同时等值时的等值效果。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述发展性评测的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图3所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现以下步骤：

根据所述待测对象的能力值生成发展性评测结果。

可选地，计算机程序被处理器1120执行“预先设置测试题库”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器1120执行“根据所述关联问题数据对所述测试结果进行合并处理”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器1120执行“根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器1120执行确定每个所述待测对象的能力值之后，还可实现以下步骤：

将所述待测对象的能力值映射至预设范围内，所述预设范围的下限不小于零。

可选地，计算机程序被处理器1120执行“根据所述待测对象的能力值生成发展性评测结果”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器1120执行根据等级反应模型对合并后的所述测试结果进行同时等值处理之后，还可实现以下步骤：

确定所述问题数据的参数，所述问题数据的参数包括难度和/或区分度；

根据所述问题数据的参数调整所述测试题库。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构(用总线1110来代表)，总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port，AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构(Industry Standard Architecture，ISA)总线、微通道体系结构(Micro Channel Architecture，MCA)总线、扩展ISA(Enhanced ISA，EISA)总线、视频电子标准协会(Video Electronics Standards Association，VESA)、外围部件互连(Peripheral Component Interconnect，PCI)总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列(Programmable Logic Array，PLA)、微控制单元(Microcontroller Unit，MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory，RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

应理解，在本发明实施例中，存储器1150可进一步包括相对于处理器1120远程设置的存储器，这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如，蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband，eMBB)系统、海量机器类通信(massive Machine Type of Communication，mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications，uRLLC)系统等。

应理解，本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器，或可包括易失性存储器和非易失性存储器两者。其中，非易失性存储器包括：只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存(Flash Memory)。

易失性存储器包括：随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如：静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。

在本发明实施例中，存储器1150存储了操作系统1151和应用程序1152的如下元素：可执行模块、数据结构，或者其子集，或者其扩展集。

具体而言，操作系统1151包含各种系统程序，例如：框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序，例如：媒体播放器(Media Player)、浏览器(Browser)，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括：小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。

此外，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述发展性评测的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体而言，计算机程序被处理器执行时可实现以下步骤：

根据所述待测对象的能力值生成发展性评测结果。

可选地，计算机程序被处理器执行“预先设置测试题库”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器执行“根据所述关联问题数据对所述测试结果进行合并处理”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器执行“根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器执行确定每个所述待测对象的能力值之后，还可实现以下步骤：

可选地，计算机程序被处理器执行“根据所述待测对象的能力值生成发展性评测结果”步骤时，使得处理器具体实现以下步骤：

可选地，计算机程序被处理器执行根据等级反应模型对合并后的所述测试结果进行同时等值处理之后，还可实现以下步骤：

根据所述问题数据的参数调整所述测试题库。

计算机可读存储介质包括：永久性和非永久性、可移动和非可移动媒体，是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括：电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定，计算机可读存储介质不包括暂时信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。

在本申请所提供的几个实施例中，应该理解到，所披露的装置、电子设备和方法，可以通过其他的方式实现。例如，以上描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的、机械的或其他的形式连接。

所述作为分离部件说明的单元可以是或也可以不是物理上分开的，作为单元显示的部件可以是或也可以不是物理单元，既可以位于一个位置，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(包括：个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种发展性评测的方法，其特征在于，包括：

根据所述待测对象的能力值生成发展性评测结果。

2.根据权利要求1所述的方法，其特征在于，所述预先设置测试题库包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述关联问题数据对所述测试结果进行合并处理包括：

4.根据权利要求1所述的方法，其特征在于，所述根据等级反应模型对合并后的所述测试结果进行同时等值处理，确定每个所述待测对象的能力值，包括：

5.根据权利要求1所述的方法，其特征在于，在所述确定每个所述待测对象的能力值之后，还包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述根据所述待测对象的能力值生成发展性评测结果包括：

7.根据权利要求1-5任意一项所述的方法，其特征在于，在所述根据等级反应模型对合并后的所述测试结果进行同时等值处理之后，还包括：

根据所述问题数据的参数调整所述测试题库。

8.一种发展性评测的装置，其特征在于，包括：

9.一种电子设备，包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述收发器、所述存储器和所述处理器通过所述总线相连，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的发展性评测的方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的发展性评测的方法中的步骤。