CN103942993A

CN103942993A - 一种基于irt的自适应在线测评系统及其方法

Info

Publication number: CN103942993A
Application number: CN201410099314.1A
Authority: CN
Inventors: 孔令峥
Original assignee: SHENZHEN CHENGRU TECHNOLOGY Co Ltd
Current assignee: SHENZHEN CHENGRU TECHNOLOGY Co Ltd
Priority date: 2014-03-17
Filing date: 2014-03-17
Publication date: 2014-07-23
Anticipated expiration: 2034-03-17
Also published as: CN103942993B

Abstract

本发明公开了一种基于IRT的自适应在线测评系统，该在线测评系统包括：测评题库组建模块、在线测试模块和统计分析模块；测评题库组建模块用于收集试题信息建立测评题库，根据不同的筛选规则从测评题库中输出测试试卷；在线测试模块用于根据测试试卷进行包含基于IRT自适应在线测试在内的多种测试，并自动生成测试数据，该基于IRT自适应在线测试为基于两级记分模型进行的动态自适应在线测试；统计分析模块用于根据测试数据及预置的评分标准自动统计结果并生成评价报告。本发明还公开了一种基于IRT的自适应在线测评方法。

Description

一种基于IRT的自适应在线测评系统及其方法

技术领域

本发明涉及在线测评技术，特别涉及一种基于IRT的自适应在线测评系统及其方法。

背景技术

传统的纸笔测评已经不能满足教学测评的需求，不能正确的反应学生们的知识掌握和认知情况。随着项目反应理论（IRT）的发展，基于IRT的计算机自适应测评技术越来越受到关注和推崇，尤其是计算机和网络技术的成熟发展，为基于IRT的计算机自适应测评提供了发展的基础条件，更加推动了基于IRT的计算机自适应测评在教育领域的发展。

传统的测评技术是由专家将标准的测试试题根据测量群体对像估算难易度，将试题组合成预估的区分度试卷来给测量对像进行测量，根据测量结果来判别该试卷针对测量群体的测量信度。如果信度不可靠，则不能对测量结果进行评价，因为评价毫无意义。如果是可靠的信度范围内，专家评价才有指导意义。为了解决传统的测评技术与人为预估测量基础的误差，提高测量数据的精准程度，所以在这里引进了基于IRT理论与计算机相结合应用的自适应测评技术。

与CTT理论和GT理论相比，IRT具有以下优点：

首先介绍下IRT（Item Response Theory,IRT）理论与其它理论相比具有哪些优点：

第一，项目反应理论深入测验的微观领域，将被试特质水平与被试在项目上的行为关联起来并将其参数化，模型化，是通过统计调整控制误差的最好方法。若模型成立并且项目参数均已知，则模型在测验中为项目性质调整数据，可生成独立于测验项目性质的特质水平测量，这是项目反应理论建立项目反应模型的最大优点。也就是通常所说的被试能力估计不依赖于测验项目的特殊选择。

第二，IRT模型项目参数的估计独立于被试样本。项目特征曲线是被试作答正确的概率对其潜在特质水平的回归。而回归曲线并不依赖于回归变量本身的次数分布。对于项目反应函数来说，已知特质水平面为θ0的被试在项目上正确作答的概率仅仅依赖于其值θ0，并不依赖于具有θ0水平的人数有多少，也不依赖于其它θ取值上的人次数。所以，在求取项目特征曲线的各种参数时，由于回归线的形状、位置都不依赖于被试的分布，所以它的参数，包括难度、区分度和猜测参数也都是不变的。

第三，IRT是能力参数与项目难度参数的配套性，亦即项目难度参数与能力参数是定义在同一个量表上的。这样，对一个能力参数已知的被试，配给一个项目参数已知的试题，我们可以立刻通过模型预测被试正确作答的概率。如果估出被试的能力，我们可以在题库中选出难度与其能力相当的项目进行新一轮的测试，使得能力估计更为精确。这一特点为自适应测评奠定了基础。

第四，IRT是通过模型测得的被试能力水平，可以精确估计其测量误差。这一优良特性得益于伯恩鲍姆的工作。他把费啸的描写测验信息结构的测度引进了项目反应模型。他提出的在项目反应模型下，能力参数未定的被试在n个测验项目上的信息测度公式由后文给出。

IRT理论与计算机应用结合测评技术介绍：

测试（measurement and test）是测量与试验的概括，是人们借助于一定的装置，获取被测对象有相关信息的过程。测试包含两方面的含义：一是测量，指的是使用测试装置通过实验来获取被测量的量值；二是试验，指的是在获取测量值的基础上，借助于人、计算机或一些数据分析与处理系统，从被测量中提取被测量对象的有关信息。测试分为动态测试和静态测试。如果被测量不随时间变化，称这样的量为静态量，相应的测试成为静态测试，反之为动态测试。

测评是把测试的结果予以客观的评价，用客观统一的标准述语评价从而站在实事求是的测试数据基础上客观科学的评述，并给出健康且有建设性的建议作为参考，进而有方向的改善测试对象。

当前，测量理论分经典测量理论、概化理论和项目反应理论三大类，或称三种理论模型。

真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起，二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式，而1968年洛德和诺维克的《心理测验分数的统计理论》一书，将经典真分数理论发展至颠峰状态，并实现了向现代测量理论的转换。所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值，即（True Score）真分数。而我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。由于有测量误差存在，所以，观察值并不等于所测特质的真实值，换句话说，观察分数中包含有真分数和误差分数。

凡测量都有误差，误差可能来自测量工具的不标准或不适合所测量的对象，也可能来自工具的使用者没有掌握要领，也可能是测量条件和环境所造成，也可能是测量对象不合作所引起。总之产生测量误差的原因是多种多样的，而CTT理论仅以一个Ｅ就概括了所有的误差，并不能指明哪种误差或在总误差中各种误差的相对大小如何。这样对于测量工具和程序的改革没有明确的指导意义，只能根据主试自己的理解去控制一些因素，针对性并不强。鉴于此种情况，二十世纪六十至七十年代初，克伦巴赫（Cronbach）等人提出了概化理论（Generalizability Theory）简称GT理论。

GT在研究测量误差方面有更大的优越性，它能针对不同测量情境估计测量误差的多种来源，为改善测验，提高测量质量有用的信息。其缺陷是统计计算相当繁杂，如果借助一些统计分析软件可以解决这一问题。GT理论目前在我国还处于实验研究阶段，在面试、考核等主观性测评中有一些应用。

无论是CTT还是GT，其测验内容的选择、项目参数的获得和常模的制定，都是通过抽取一定的样本（行为样本或被试样本），因此可以说二者都建立在随机抽样理论基础之上。它们的局限性主要表现在以下四个方面：

1）测量结果的应用范围有限。一般来说，对测量误差的控制有三种方法：配对或标准化、随机化、统计调整。配对或标准化技术的应用使得误差变量的影响不能解释测量结果的差异，随机化技术的应用可使误差变量的影响不能在测量结果上形成系统误差。统计调整技术建立在数学模型基础上，将误差变量的影响参数化，从而在测量中调整参数估计值，减少误差变量的影响。经典测验理论主要应用的是配对或标准化技术和随机化技术。然而，使用配对或标准技术的测量结果仅仅能在相同的测量条件下成立，却不能将其拓展到非标准化的环境之中去，使得测量的应用受到很大的限制。

2）测量分数依赖于具体的测验（内容）。经典测量理论控制误差应用标准化技术，但其标准化的对象是测验的各种外部变量，对测验的内部变量即测验的项目的“性质”这一变量却没有也不可能实现标准化。这就造成了测验分数对具体测验的依赖性，迫使经典测验理论要么使用统一的试卷，要么使用实际上并不平行的所谓“平行试卷”。这种处理方法，即给实际操作带来困难，也给结果的解释带来较大的误差。

3）测量参数依赖于被试样本。经典测量理论构造了一个完整的理论体系，同时设计了一套参数指标来刻划测量各方面的特性。如测验的信度、效度、项目的难度、区分度等。但是这些参数的估计对样本的依赖性是很大的。测验的信度和效度采用相关分析法，同样受到样本的影响。为避免抽样误差对参数估计的影响，经典测量理论特别强调样本对总体的代表性。但经典理论所应用的是随机抽样，随机抽样总是偏差存在。何况在实际工作中，由于客观条件的限制，还不能做到随机抽样。因此，参数估计值对样本的依赖性使得所估参数对测验的分析的价值是有限的。

4）信度估计的精确性不高。测量的重要目标就是降低测量误差，提高测量的精度。在经典测量理论中，信度被定义为真分数的变异在总变异（观测分数）中所占的比例。然而，真分数的方差是无法求取的，误差的方差也无法计算。为了估计信度，CTT就提出了平行测验的概念，并在此基础上推演出了若干个信度估计公式。但是严格的平行测验是不存在的，等价测验也很难获得的，在此基础上估计的测验信度很难达到比较高的精确程度。另外，经典测量理论中的信度估计值也是一个笼统值，即假定对不同能力水平的被试来说，测量的误差是相同的。而事实是，一份测验只有在施测于能力水平与测验难度相当的被试时容易获得比较高的测量精确度。当测验施测于能力水平高于（或低于）测验难度的被试时就容易产生较大的测量误差。而且测量误差值会随着被试水平与测验难度距离的增加而变大。

现有的传统测评技术一般是基于CTT或GT来进行测试，然后以测试结果进行评价。既然是基于CTT或GT，那就会有CTT或GT存在的缺点。

任何一种理论都不可能是完美无缺的，作为测量初期发展起来的理论更是不可避免地存在着一些缺陷。项目反应理论则是在反对和克服传统测量理论的不足之中发展起来的一种现代测量理论。

传统的测评技术基于上述的局限性，所以测试出来的结果会存在误差。而本技术（基于IRT的自适应在线测评技术）则是基于最新兴起的IRT理论加现有的计算机与网络应用相结合的技术弥补在传统测评技术上的不足，提高了在测试结果上的精确度，科学、标准、精确的依椐最接近真实的并且最小的误差测试对结果进行评价，得到我们最优的评述报告。

发明内容

本发明所要解决的技术问题在于提供一种基于IRT的自适应在线测评系统及其方法，以克服现有技术中的在线测评系统存在的依赖性高，精度低的问题。

为达上述目的，本发明提供了一种基于IRT的自适应在线测评系统，其特征在于，所述在线测评系统包括：

测评题库组建模块：用于收集试题信息建立测评题库，根据不同的筛选规则从所述测评题库中输出测试试卷；

在线测试模块：用于根据所述测试试卷进行包含基于IRT自适应在线测试在内的多种测试，并自动生成测试数据，所述基于IRT自适应在线测试为基于两级记分模型进行的动态自适应在线测试；

统计分析模块：根据所述测试数据及预置的评分标准，自动统计结果，生成评价报告。

上述基于IRT的自适应在线测评系统，所述两级记分模型包括：单参数Logistic模型和两参数Logistic模型。

上述基于IRT的自适应在线测评系统，其特征在于，所述在线测试模块还包括：

IRT自适应在线测试模块：用于根据预置的试卷参数动态的根据当前个人能力值，在线动态抽取试题进行测试；

上述IRT自适应在线测试模块还包括：

初始化模块：用于进行考生的初始化设置，形成电子试题；

当前个人能力值估计模块：根据考生初步测试完成预定答题数量的情况，采用EAP（EffectAssessment Put in practice：实施效果评估）方法评估当前个人能力值；

精确估计模块：以所述当前个人能力值作为起点值，每完成一道试题进行一次所述两级记分模型方法精确评估当前个人能力值，根据所述当前个人能力值，动态选取下一道测试试题，当所述当前个人能力值发生收敛时，以当前个人能力值作为当前自适应测试的个人能力值；

分数显示模块：将所述当前自适应测试个人能力值转换为标准的个人能力分，提供给考试。

上述基于IRT的自适应在线测评系统，其特征在于，所述测评题库模块还包括：

试题信息收集模块：用于对试题信息进行管理，建立所述测评题库；

子题库管理模块：用于将所述测评题库划分为相互关联的多个子题库，试题通过审核后进入不同的子题库，生成测试试卷，所述子题库包括：新题题库、优良题库、模拟题库、作业题库和锚题题库；

筛选试卷模块：根据所述不同的筛选规则生成最终面向测试对象的测试试卷，所述筛选规则包括：测试专家预置规则、是否等值评比分析和是否手动组卷；

所述子题库管理模块还包括：

作业题库模块：用于将任课教师所出的试题，存入所述作业题库；

新题题库模块：用于将命题专家所出的试题，存入所述新题题库；

模拟题库模块：用于将所述新题题库和所述作业题库中的试题经过挑选审核后进入所述模拟题库；

优良题库模块：用于将所述模拟题库中的试题经过多次模拟测试后，根据考生答题情况生成统计信息，选择所述模拟题库中的考题进入所述优良题库；

锚题题库模块：用于命题专家从所述优良题库中选取优秀级别的试题进入所述锚题题库。

上述基于IRT的自适应在线测评系统，所述在线测试模块还包括：

考务管理模块：用于根据收集导入的考生信息创建测试信息，并根据所述测试信息将测试与测试试卷关联，并进行考生考务管理和监考管理；

在线测试与练习模块：用于根据所述作业题库进行课后练习、根据所述模拟题库进行模拟测试和根据预先设置的固定考卷进行的传统在线测试；

考生答题结果评阅模块：用于对考试的答题结果进行自动评分或根据预先设置的评分标准进行人工评分，得出最终标准得分；

基础数据管理模块：用于管理和维护多种基础数据信息；

成绩与积分管理模块：用于管理测试成绩相关数据；

问卷调查模块：用于对考生进行影响学习因素的调查。

上述基于IRT的自适应在线测评系统，所述统计分析模块还包括：

教研分析模块：用于进行教研信息分析，并生成教研分析报告；

教学分析模块：用于进行教学信息分析，并生成教学分析报告；

学业分析模块：用于进行学业信息分析，并生成学业分析报告。

本发明还一种基于IRT的自适应在线测评方法，采用如所述基于IRT自适应在线测评系统，所述在线测评方法包括：

测评题库建立步骤：用于收集试题信息建立测评题库，根据不同的筛选规则从所述测评题库中输出测试试卷；

在线测试步骤：用于根据所述测试试卷进行包含基于IRT自适应在线测试在内的多种测试，并自动生成测试数据，所述基于IRT自适应在线测试为基于两级记分模型进行的动态自适应在线测试；

统计分析步骤：根据所述测试数据及预置的评分标准，自动统计结果，生成评价报告。

上述基于IRT的自适应在线测评方法，其特征在于，所述在线测试步骤还包括：

IRT自适应在线测试步骤：用于根据预置的试卷参数动态的根据当前个人能力值，在线动态抽取试题进行测试。

考务管理步骤：用于根据收集导入的考生信息创建测试信息，并根据所述测试信息将测试与测试试卷关联，并进行考生考务管理和监考管理；

在线测试与练习步骤：用于根据所述作业题库进行课后练习、根据所述模拟题库进行模拟测试和根据预先设置的固定考卷进行传统在线测试；

考生答题结果评阅步骤：用于对考试的答题结果进行自动评分或根据预先设置的评分标准进行人工评分，得出最终标准得分；

基础数据管理步骤：用于管理和维护多种基础数据信息；

成绩与积分管理步骤：用于管理测试成绩数据；

问卷调查步骤：用于对考生进行影响学习因素的调查；所述IRT自适应在线测试步骤还包括：

初始化步骤：用于进行考生的初始化设置，形成电子试题；

当前个人能力值估计步骤：根据考生初步测试完成预定答题数量的情况，采用EAP方法评估当前个人能力值；

精确估计步骤：以所述当前个人能力值作为起点值，每完成一道试题进行一次所述两级记分模型方法精确评估当前个人能力值，根据所述当前个人能力值，动态选取下一道测试试题，当所述当前个人能力值发生收敛时，以当前个人能力值作为当前自适应测试的个人能力值；

分数显示步骤：将所述当前自适应测试个人能力值转换为标准的个人能力分，提供给考生。

上述基于IRT的自适应在线测评方法，其特征在于，所述测评题库步骤还包括：

试题信息收集步骤：用于对试题信息进行管理，建立所述测评题库；

子题库管理步骤：用于将所述测评题库划分为相互关联的多个子题库，试题并通过审核后进入不同的子题库，生成测试试卷，所述子题库包括：新题题库、优良题库、模拟题库、作业题库和锚题题库；

筛选试卷步骤：根据所述不同的筛选规则生成最终面向测试对象的测试试卷，所述筛选规则包括：测试专家预置规则、是否等值评比分析和是否手动组卷；

所述子题库管理步骤还包括：

作业题库步骤：用于将任课教师所出的试题，存入所述作业题库；

新题题库步骤：用于将命题专家所出的试题，存入所述新题题库；

模拟题库步骤：用于将所述新题题库和所述作业题库中的试题经过挑选审核后进入所述模拟题库；

优良题库步骤：用于将所述模拟题库中的试题经过多次模拟测试后，根据考生答题情况生成统计信息，选择所述模拟题库中的考题进入所述优良题库；

锚题题库步骤：用于命题专家从所述优良题库中选取优秀级别的试题进入所述锚题题库。

上述基于IRT的自适应在线测评方法，其特征在于，所述统计分析步骤还包括：

教研分析步骤：用于进行教研信息分析，并生成教研分析报告；

教学分析步骤：用于进行教学信息分析，并生成教学分析报告；

学业分析步骤：用于进行学业信息分析，并生成学业分析报告。

与现有技术相比，本发明的有益效果在于：

1、本发明采用基于IRT的测量理论，从而测量的精准度较高，在测试中,本发明使IRT与计算机结合工作充分的利用计算机优势来测试被试者的真实能力水平情况,并给出健康且有建设性的评述。

2、IRT理论与计算机应用结合测评技术是基于动态测试，而传统的测评技术是基于静态测试；所以本发明的关键是如何将IRT理论与计算机相结合应用，动态的锁定被试者真实能力水平进而自动发现被试者的能力薄弱点,给出正确评价指导被试者学习。

附图说明

图1为本发明基于IRT的自适应在线测评系统结构示意图；

图2为本发明一实施例系统结构示意图；

图3为本发明单参数Logistic模型的项目特征曲线示意图；

图4为本发明典型的两参数Logistic模型的项目特征曲线示意图；

图5为本发明基于IRT的自适应在线测评系统结构详细示意图；

图6为本发明试题信息示意图；

图7为本发明子题库管理模块结构示意图；

图8为本发明子题库关系示意图；

图9为本发明IRT自适应在线测试模块结构示意图；

图10为本发明基于IRT的自适应在线测评方法步骤示意图；

图11为本发明方法具体实施例步骤流程示意图；

图12为本发明子题库管理步骤流程示意图；

图13为本发明基于IRT自适应在线测试步骤流程示意图；

图14为本发明实施例IRT自适应能力测试步骤流程示意图。

附图标记说明：

1测评题库组建模块 2在线测试模块

3统计分析模块

11试题信息收集模块 12自题库管理模块

13筛选试卷模块

21基于IRT自适应在线测试模块 22考务管理模块

23在线测试与练习模块 24考生答题结果评阅模块

25基础数据管理模块 26成绩与积分管理模块

27问卷调查模块

31教研分析模块 32教学分析模块

33学业分析模块

S1～S3、S11～S13、S21～S27、S31～S33、S100～S700、S121～S125、S211～S214：本发明各实施例的施行步骤

具体实施方式

下面给出本发明的具体实施方式，结合图示对本发明做出了详细描述。

本发明提供的一种基于IRT的自适应在线测评系统，图1为本发明基于IRT的自适应在线测评系统结构示意图，如图1所示，该在线测评系统包括：

测评题库组建模块1：用于收集试题信息建立测评题库，根据不同的筛选规则从所述测评题库中输出测试试卷；

在线测试模块2：用于根据所述测试试卷进行包含基于IRT自适应在线测试在内的多种测试，并自动生成测试数据，所述基于IRT自适应在线测试为基于两级记分模型进行的动态自适应在线测试；

统计分析模块3：根据测试数据及预置的评分标准，自动统计结果，生成评价报告。

图2为本发明一实施例系统结构示意图，如图2所示，该系统包括：

测评题库组建模块1中命题由命题老师（专家）使用，主要提供试题命制功能。供命题老师填写试题描述、试题属性和收集试题素材，根据主观还是客观题类设置评分标准，并为测试准备标准的试卷结构信息。

在线测试模块2，该模块由考务管理老师收集报考生信息，创建测试信息并将测试与考卷进行关联，接着进行编排考生入考场生成考次。编排监考老师，进入监考，主要提供监考考试功能。其中监考功能供监考老师使用，用于监考及处理考试过程中各种情况。考试功能供考生使用，用于考生实际基于IRT的自适应在线测试及作答，最后产出考生作答数据。

统计分析模块3，该模块一般由教研员设好统计的条件参数，系统获取考生作答数据及卷面卷题信息根据设好的统计条件参数来进行统计输出报表，根据统计数据分析自动生成一些评价报告输出。

其中，两级记分模型包括：单参数Logistic模型和两参数Logistic模型。

单参数Logistic模型（One-Parameter Logistic Model）

单参数Logistic模型的数学公式如下所示：

P_ij（θ）＝1/(1+exp(-1.7(θ_j-b_i))) （公式一）

其中i=1,2...m;j＝1,2...N，P_ij(θ)表示第j个能力为θ的被试答对试题i或在试题i上正确反应的概率；b_i表示试题难度参数；N是该测验的试题总数；exp代表以底为2.718的指数；且P_ij(θ)是一种S形曲线，其值介于0与1之间。图3为本发明单参数Logistic模型的项目特征曲线示意图，如图3所示。

在项目反应理论中，试题难度的定义是：试题难度参数b的位置正好落在正确反应概率为0.5时能力量尺（ability scale）上的位置点；换言之，当能力和试题难度相等时（即θ-b_i＝0），被试答对某试题的机会是百分之五十。当能力小于试题难度时（即θ-b_i＜0），被试答对某试题的机会便低于百分之五十；反之，当能力大于试题难度时（即θ-b_i＞0），被试答对某试题的机会便高于百分之五十。b_i值愈大，被试答对该试题的难度越大，此时，被试要想有百分之五十答对某试题的机会，被试便需要有较高的能力才能办到。愈困难的试题，其项目特征曲线愈是在能力量尺的右方；反之，愈简单的试题，其项目特征曲线愈是在能力量尺的左方。如图3所示，四条项目特征曲线的试题难度参数的位置分别为，其值的大小，分别决定该四条曲线在能力量尺上的相对应位置。因此，试题难度参数有时又叫做位置参数（location parameter）。理论上，b值的大小介于±∞之间，但实际应用上，通常只取±4之间的范围；由图3所示，如前所述，b值愈大表示试题愈困难，b值愈小表示试题愈简单。

两参数Logistic模型（two-parameter Logistic model）

两参数Logistic模型的数学公式如下所示：

P_ij＝1/(1+exp(-1.7·a_i·(θ_j-b_i))) （公式二）

其中i=1,2…m;j＝1,2...N，各符号的定义与公式（公式一）相同，只是多了一个参数试题区分度（item discrimination）参数a_i，它的涵义与经典测量理论中的涵义相似，用来描述试题i所具有鉴别力大小的特性。图4为本发明典型的两参数Logistic模型的项目特征曲线示意图，如图4所示。

试题区分度参数a的值，刚好与在b点的项目特征曲线的斜率（slope）。项目特征曲线愈陡的试题比曲线稍平滑的试题，具有较大的区分度参数值。换句话说，区分度愈大的试题，其区别出不同能力水平被试的功能愈好，即分辨的效果愈好。事实上，该试题能否有效区别出以能力水平为θ的上下两组（即高于θ和小于等于θ）被试的差异，是与对应于θ量尺的项目特征曲线的斜率成某种比例。

由图4亦可知，这些曲线的下限值都是零，即两参数Logistic模型并不把被试的猜题因素考虑在内，这点假设与单参数Logistic模型相同。

当项目参数已知，只需估计被试能力，属于能力条件估计。这时根据每个被试作答反应现象一一估计被试的能力估计值，其似然方程为：

两边取对数为：

L (U | θ_{i}) = Σ_{j = 1}^{m} [{P_{ij}}^{u_{ij}} \cdot {Q_{ij}}^{(1 - u_{ij})}]

（公式三）

L (U | θ_{i}) = Σ_{j = 1}^{m} [u_{ij} \cdot \ln P_{ij} + (1 - u_{ij}) \cdot \ln Q_{ij}]

（公式四）

由对θ求偏导可得，

\frac{\ln L (U | θ)}{{&PartialD; θ}_{i}} = 1.7 \cdot Σ_{j = 1}^{m} \frac{u_{ij} - P_{ij}}{P_{ij} \cdot Q_{ij}} \cdot \frac{{&PartialD; P}_{ij}}{{&PartialD; θ}_{i}}

（公式五）

其中是所选择模型的一阶偏导，依据不同的模型而不同，下面是（公式五）在不同模型下的对数似然方程：

Logistic单参数模型的对数似然方程：

1.7 \cdot Σ_{j = 1}^{m} (u_{ij} - P_{ij}) = 0

（公式六）

Logistic双参数模型的对数似然方程：

1.7 \cdot Σ_{j = 1}^{m} a_{j} (u_{ij} - P_{ij}) = 0

（公式七）

使用牛顿－拉普逊迭代方法，需要对似然方程求取一阶偏导。它们的似然方程的一阶偏导分别为：

Logistic单参数模型的对数似然方程一阶偏导：

\frac{\ln L (U | θ)}{{&PartialD;}^{2} θ_{i}} = - 2.89 \cdot Σ_{j = 1}^{m} P_{ij} \cdot Q_{ij}

（公式八）

Logistic双参数模型的对数似然方程一阶偏导：

\frac{\ln L (U | θ)}{{&PartialD;}^{2} θ_{i}} = - 2.89 \cdot Σ_{j = 1}^{m} {a_{j}}^{2} \cdot P_{ij} \cdot Q_{ij}

（公式九）

使用牛顿－拉普逊迭代，只要被试不是全部做错或做对，一般都可以实现收敛，收敛精度在笔者编写程序里设置为0.0001；对于全对或全错的被试，则分别定为+4和-4；对于被试能力收敛于（-4，+4）之外时，则定为-4或+4。笔者采用Monte Carlo法检验自编程序的质量。对于同一批数据，发现五个程序各自所估计的能力值θ分别与Monte carlo能力真值比较，的平均数都在0.18左右，这说明程序的模拟返真性能良好。而且在1000名被试中，θ与之差在0.50以内的被试超过950名。IRT研究学者认为大多数被试的能力估计值与理想的能力真值相差之值都在0.50以内，就可视作基本符合要求（被试的能力估计值与理想的能力真值相差之值都要在0.50以内），这些说明自编程序对被试的能力参数估计，其估计性能良好，可用于实际估计。

以下根据图示详细说明基于IRT的自适应在线测试系统的各个模块，图5为本发明基于IRT的自适应在线测评系统结构详细示意图，如图5所示：

其中，测评题库模块1还包括：

试题信息收集模块11：用于对试题信息进行管理，建立所述测评题库，图6为本发明试题信息示意图，试题信息如图6所示；

子题库管理模块12：用于将所述测评题库划分为相互关联的多个子题库，试题并通过审核后进入不同的子题库，生成测试试卷，所述子题库包括：新题题库、优良题库、模拟题库、作业题库和锚题题库；

筛选试卷模块13：根据所述不同的筛选规则生成最终面向测试对象的测试试卷，所述筛选规则包括：测试专家预置规则、是否等值评比分析和是否手动组卷。

其中，图7为本发明子题库管理模块结构示意图，如图7所示，子题库管理模块12还包括：

作业题库模块121：用于将任课教师所出的试题，存入所述作业题库；

新题题库模块122：用于将命题专家所出的试题，存入所述新题题库；

模拟题库模块123：用于将所述新题题库和所述作业题库中的试题经过挑选审核后进入所述模拟题库；

优良题库模块124：用于将所述模拟题库中的试题经过多次模拟测试后，根据考生答题情况生成统计信息，选择所述模拟题库中的考题进入所述优良题库；

锚题题库模块125：用于命题专家从所述优良题库中选取优秀级别的试题进入所述锚题题库。

在这里介绍下如何管理测评试题信息，既然是对试题信息管理，那首先要有完整的试题信息；图8为本发明子题库关系示意图，如图8所示：

将测评题库分为五个子题库来管理，它们分别为新题题库、优良题库、锚题题库、模拟题库、作业题库；既然分为五个子题库，那么这五个子题库之间就存在一定的关系，具体如下所述：

1）由任课教师出的试题进入作业题库；

2）由命题专家出的试题进入新题题库；

3）新题题库试题审核通过后进入模拟题库；

4）作业题库挑选优质试题进入模拟题库；

5）模拟题库经学生多次模拟考试后，系统根据学生的实际答题反馈情况统计区分度、难度及对应的能力水平等信息后自动进入优良题库；

6）命题专家最后从优良题库选择优秀的试题进入锚题题库组建优良的题库是非常关键的一步，也是为测试做好标准的关键性的一步。

然后我们要对测试试卷进行筛选管理，筛选原则如下所述：

1）由教研员或测试专家为试卷设置题量、测试题范围、试卷包含题型及各题型所占比例数量、考核那些知识点及各知识点所占比例数量；

2）若需要等值评比分析，则可以挑选适量锚题进入锚卷即为等值锚卷；一份锚卷可以同多份试卷组合在一起测试使用；

3）若需手动组卷，则可以根据试卷参数手动挑选试题入卷；若无需手动组卷，则可以利用电脑自动根据试卷参数组卷，最终形成测试试卷可以输出。

其中，在线测试模块2还包括：

IRT自适应在线测试模块21：用于根据预置的试卷参数动态的根据当前个人能力值，在线动态抽取试题进行测试；

IRT自适应能力测试模块21是本技术中所要表述的关键，根据预置测试规则进行基于IRT自适应在线测试，它是根据教研员或测量专家设好的试卷参数动态的根据个人当前能力抽取试题进行下一题的动态测试；等后面将重点介绍如何实现动态能力测试。

考务管理模块22：用于根据收集导入的考生信息创建测试信息，并根据所述测试信息将测试与测试试卷关联，并进行考生考务管理和监考管理；

考务管理模块22，该模块功能是收集导入测试对像考生报名信息，创建测试信息并能将测试试卷与测试绑定在一起；如果是正规考试，则需要进行考务编排，将考生编排放入考场（机房），再为每个考场生成考次信息，编排好监考老师能进入查看监考，处理监考事务等；

在线测试与练习模块23：用于根据预置测试规则，并根据所述作业题库进行课后练习，根据所述模拟题库进行模拟测试和根据预先设置的固定考卷进行的传统在线测试；

在线测试与练习模块23，该模块功能包含课后练习、模拟测试、传统在线测试；课后练习是学生根据每天课程的进程进入所学课程章节在作业题库抽取试题作答练习；模拟测试是依照以后考过的试卷参数在模拟题库中抽取试题进行测试；传统在线测试是目前的静态测试方式根据教研员或测量专家设好的固定试卷进行测试；

备注：这里的课后练习与模拟测试主要是给学生平时练习学习所用，另还有一功能是为试题采取测试群体数据样本，为答过的试题提供难度、区分度、能力水平值的计算提供依据；摆脱以往命题老师的经验预估难度与区分度的误值，使得试题区分度、难度、能力水平更精确更科学。

考生答题结果评阅模块24：用于对考试的答题结果进行自动评分或根据预先设置的评分标准进行人工评分，得出最终标准得分。

考生答题结果评阅模块24，该模块功能是管理考生答题结果，对答题结果进行评阅评分；客观题可以由计算机自动评分；如若有主观题，则需要为主观题进行编排评分任务；安排评分教师进行为主观题评分；按照评分模式约束，给出标准得分。

基础数据管理模块25：用于管理和维护多种基础数据信息；

基础数据管理模块25，该模块功能是管理教材版本、学科、区域、学校及电脑机房详细的学段、年级、学期、班级、系统用户等信息；分别可以对这些信息按不用角色权限进行添加、编辑、查询、删除等操作编护管理。

成绩与积分管理模块26：用于管理测试成绩相关数据；

成绩与积分管理模块26，该模块功能是管理学生每次测试的成绩与平时的成长积分数据等；

问卷调查模块27：用于对考生进行影响学习因素的调查。

问卷调查模块27，该功能主要是调查学生学习的外在环境与心理因素相关的引响学习的因素。

其中，图9为本发明IRT自适应在线测试模块结构示意图，如图9所示基于IRT自适应在线测试模块21还包括：

初始化模块211：用于进行考生的初始化设置，形成电子试题；

当前个人能力值估计模块212：根据考生初步测试完成预定答题数量的情况，采用EAP方法评估当前个人能力值；

精确估计模块213：以当前个人能力值作为起点值，每完成一道试题进行一次两级记分模型方法精确评估当前个人能力值，根据当前个人能力值，动态选取下一道测试试题，当当前个人能力值发生收敛时，以当前个人能力值作为当前自适应测试的个人能力值；

分数显示模块214：将当前自适应测试个人能力值转换为标准的个人能力分，提供给考试。

统计分析模块3在有了测试结果后，我们最终还是为了进行分析得到有用的有指导性的评价报告；我们可以通过在线测试模块收集的结果信息如下：

1）年级测试总成绩、学科总分、小题得分、答题结果；

2）学科测试试卷信息、题型、课程章节、知识点、认知目标；

3）考生群体信息、区域及区域性质、学校、班级、坐位、性别、关联家长与生活环境；

4）任课老师信息、所教学科、所教年级、所教班级；

5）学生的上课缺课情况、请家教情况、兴趣取向情况、个人成长积分、身心健康情况等，教师的教课缺勤情况、生活习惯及身心健康情况等；

6）各学校领导与老师之间的绩效、激励机制、平时工作心态等以及其它信息。

有了这些收集的数据结果后，我们就可以展开针对目标进行分析，找出有问题的或是有待提升的地方进行相对的处理方法。下面是一些需要系统性诊断的目标地方：

其中，统计分析模块3还包括：

教研分析模块31：用于进行教研信息分析，并生成教研分析报告；

教研分析包括：

A、总成绩平均分、分段分布、排名分布、上线分布、边缘分分布、常用指标...等；

B、学科成绩平均分、分段分布、排名分布、上线分布、边缘分分布、常用指标...等；

C、小题得分平均得分率（相对测试群体难度）、题型得分分布、课程章节撑握情况、知识点撑握情况、认知目标撑握情况；

D、群体分类分析、区域分类对比、区域性质分类对比、学校、班级分群对比、性别分群对比、坐位情况对比、生长生活环境分析；

E、教师关联对比、学科与别人对比、年级与自己对比、班级与别人、自己对比；

F、学生综合原因对比、缺课情况、家教情况、兴趣取向情况、个人成长各种积分、教师缺课情况、教师生活习惯与身心健度情况分析；

G、学校领导教学策略、老师的教学绩效考核、激励机制分析、平时工作状态等分析；

H、师职资源分布分析。

教学分析模块32：用于进行教学信息分析，并生成教学分析报告；

A、教师关联对比、学科与别人对比、年级与自己对比、班级与别人、自己对比；

B、学校领导教学策略、老师的教学绩效考核、激励机制分析、平时工作状态等分析；

C、教师缺课情况、教师生活习惯与身心健度情况分析；

D、师职资源分布分析。

学业分析模块33：用于进行学业信息分析，并生成学业分析报告。

学业分析包括：

A、学生各学科各次考试对比成长分析；

B、学生考核知识点情况分析；

C、考生答卷分析；

D、考生排名分析；

E、学生综合原因对比、缺课情况、家教情况、兴趣取向情况、个人成长各种积分、教师缺课情况、教师生活习惯与身心健度情况分析；

F、学生学科综合对比分析。

综上所述，本发明的优势在于：

1、试题库组建原理：科学严谨的题库管理结构原理产生科学标准的试题，将IRT理论数据模型应用在测量试题上，透过测试对像群体来准确的定位试题的相对难度、区分度与能力水平；因为试题的难度、能力水平与区分度是相对于测试对象群体来标识的。离开了测试对像群体，试题的难度、能力水平与区分度就毫无意义，这比以往的题库组建管理更科学，更合理。

2、IRT理论软件化为灵魂与计算机相结合的工作原理：在复杂的两级记分模型公式转化为高效的计算机系统设计；把IRT在计算机上应用在测试领域得以实现；将能力自适应测试的精准度得以提高；是测试领域的又一突破。

3、实现精准优质评价报告自动化生成原理：罗列可分析的点、逻辑结构思维紧密结合在一起，能将问题的前因后果一一说明；让分析报告以生成快捷、表述清析、客观事实数据为指导，生成有效的指导评述报告。

本发明还提供一种基于IRT的自适应在线测评方法，该测评方法采用上述基于IRT的自适应在线测评系统，图10为本发明基于IRT的自适应在线测评方法步骤示意图，如图10所示，该在线测评方法包括：

测评题库建立步骤S1：用于收集试题信息建立测评题库，根据不同的筛选规则从测评题库中输出测试试卷；

在线测试步骤S2：用于根据测试试卷进行包含基于IRT自适应在线测试在内的多种测试，并自动生成测试数据，基于IRT自适应在线测试为基于两级记分模型进行的动态自适应在线测试；

统计分析步骤S3：根据测试数据及预置的评分标准，自动统计结果，生成评价报告。

其中，测评题库步骤S1还包括：

试题信息收集步骤S11：用于对试题信息进行管理，建立测评题库；

子题库管理步骤S12：用于将测评题库划分为相互关联的多个子题库，试题并通过审核后进入不同的子题库，生成测试试卷，子题库包括：新题题库、优良题库、模拟题库、作业题库和锚题题库；

筛选试卷步骤S13：根据不同的筛选规则生成最终面向测试对象的测试试卷，筛选规则包括：测试专家预置规则、是否等值评比分析和是否手动组卷。

其中，图12为本发明子题库管理步骤流程示意图，如图12所示子题库管理步骤S12还包括：

作业题库步骤S121：用于将任课教师所出的试题，存入所述作业题库；

新题题库步骤S122：用于将命题专家所出的试题，存入所述新题题库；

模拟题库步骤S123：用于将新题题库和作业题库中的试题经过挑选审核后进入模拟题库；

优良题库步骤S124：用于将模拟题库中的试题经过多次模拟测试后，根据考生答题情况生成统计信息，选择模拟题库中的考题进入优良题库；

锚题题库步骤S125：用于命题专家从优良题库中选取优秀级别的试题进入锚题题库。

其中，在线测试步骤S2还包括：

IRT自适应在线测试步骤S21：用于根据预置的试卷参数动态的根据当前个人能力值，在线动态抽取试题进行测试；

考务管理步骤S22：用于根据收集导入的考生信息创建测试信息，并根据测试信息将测试与测试试卷关联，并进行考生考务管理和监考管理；

在线测试与练习步骤S23：用于根据作业题库进行课后练习、根据模拟题库进行模拟测试和根据预先设置的固定考卷进行传统在线测试；

考生答题结果评阅步骤S24：用于对考试的答题结果进行自动评分或根据预先设置的评分标准进行人工评分，得出最终标准得分。

基础数据管理步骤S25：用于管理和维护多种基础数据信息；

成绩与积分管理步骤S26：用于管理测试成绩数据；

问卷调查步骤S27：用于对考生进行影响学习因素的调查。

其中，图13为本发明基于IRT自适应在线测试步骤流程示意图，如图13所示IRT自适应在线测试步骤S21还包括：

初始化步骤S211：用于进行考生的初始化设置，形成电子试题；

当前个人能力值估计步骤S212：根据考生初步测试完成预定答题数量的情况，采用EAP方法评估当前个人能力值；

精确估计步骤S213：以所述当前个人能力值作为起点值，每完成一道试题进行一次两级记分模型方法精确评估当前个人能力值，根据当前个人能力值，动态选取下一道测试试题，当当前个人能力值发生收敛时，以当前个人能力值作为当前自适应测试的个人能力值；

分数显示步骤S214：将当前自适应测试个人能力值转换为标准的个人能力分，提供给考生。

其中，统计分析步骤S3还包括：

教研分析步骤S31：用于进行教研信息分析，并生成教研分析报告；

教学分析步骤S32：用于进行教学信息分析，并生成教学分析报告；

学业分析步骤S33：用于进行学业信息分析，并生成学业分析报告。

以下结合图示说明本发明基于IRT的自适应在线测试方法的一具体实施例，图11为本发明方法具体实施例步骤流程示意图，如图11所示：

步骤S100：命题专家命制考题并形成电子试题，包括提供试题描述、试题正常属性及IRT理论数据模型应用在测量试题参数；

步骤S200：测试对像根据设定测试的规则要求进行动态作答，提交作答结果；由系统回收到数据库；

步骤S300：计算机根据评分标准及测试对像的作答结果，自动统计结果及分析生成评价报告。

以下结合图示详细说明本发明一实施例IRT自适应能力测试的技术实现及流程，图14为本发明实施例IRT自适应能力测试步骤流程示意图，如图14所示如下：

步骤S400：由学生端登录到考试服务器，考试初始化，进行计算机自适应测验（CAT）。考试的初始化。

步骤S500：考生初步作答完5道中等能力值试题后，根据EAP方法进行个人能力估计出当前的个人能力值，以此能力值为个人能力的起点，进入精确估计阶段。

步骤S600：在精确估计阶段，每完成一道试题则进行一次能力估计；开始使用两级记分模型方法精确估计当前能力值，根据当前能力值进提取下一题来进行作答；这样一题一题做下去，当能力值增长不管是正与负，最终会收敛；本方案中设计收敛值为0.0001，当有五次连续增长值小于0.0001就视为当前自适应测试的个人能力值。

步骤S700：最终将个人能力值按百分制转换为考生易懂的标准分呈现给考生看，让考生知道自己的个人能力分。

备注：能力获取试题过程中为了防重复相同试题多次出现，本测试技术是采用试题的暴光率控制参数来控制。

两级记分模型能力估计算法计算机软件转换代码如下：

上面是基于IRT向计算机程序化转换与结合在测试过程中的主要流程与算法，形成软件功能模块化，提供给考生测试并获得更精确的测试结果，以提供更好的分析评价作为依据。

以下结合具体实施例详细说明本发明的技术方案以及所能达到的效果：

一、试题的管理：

假如一试题的属性如下：

试题描述	预估区分度	预估难度	预估能力值	所属年级
					试题A	0.6	0.7	80	八年级

这只能说明在命题专家以往的经验中，试题A在八年级考生中区分度为0.6,难度为0.7,预估能力值80；但实际上试题A针对八年级的考生并不是如此；经实际测试值计算如下：

试题描述	区分度	难度	能力值	所属年级
					试题A	0.4	0.5	50	八年级

所以试题属性测量是非常重要的，相同的试题，针对不同的测试群体所求得的区分度，难度，能力值是不同的，就如称换称砣一样，要重新刻画度量值才能准确的称出物体的真实重量。试题也一样，校验试题的属性值针对不同的群体才能得出最大的测试信度.

二、静态试卷与动态试卷的差别：每个考生的能力都不一样，以往的静态测试的静态试卷信度存在的误差较大，误差在于：首先一份难度为0.7的试卷，因为它测试的学生不只是一个，而是一个群体，在这个群体中，考生的能力都不一样，所以名为0.7难度的试卷针对能力高的考生相对的难度会下降，针对能力低的考生，难度会提升，很难适应每一位考生的真实能力水平；其次静态试题的难度是为命题专家经验所定，经验数据并不是最终的科学性标准的数据。动态测式是用动态试卷所测，它可以针对当前考生的能力水平自动调取相对的难度水平的试题给考生测式，最终取得当前考生的真实能力水平值，只要试题属性准确，测试出来的能力值一定准确。

三、测试结果自动分析评价：以往输出一份测试分析报告要耗费大量的人力，物力来进行测试与统计回收结果，在统计复杂的过程中，经常就会有所失误，导致统计不准或是重新进行统计，另外在分析总结得出评价报告中也是一项烦杂的工作。本发明提供的技术方案有了准确的测试结果数据，不再需要用手工进行统计，把所有的烦杂工作交给计算机进行简单快捷的处理，不会出现手工失误造成评价错误，并最终得到科学有价值的测评报告。

综上所述，与最接近的现有技术相比，本发明有益效果在于：

1、本发明采用基于IRT的动态测试模式进行测试分析评价的技术，全程涉及到测试题库管理、测试及回收结果管理、统计分析最终自动出评价报告。

2、与现有的静态测试技术相比，不仅在测试题管理中针对测试群体的试题性正态化，精准度有科学性的提升外，还在测试过程中针对测试群体的各个成员能力自适应测试精准度有很科学性的提升；测试出来的结果是最精准的数据，所以最终得出来的数据分析也是最准确，误差为最小的，总结的分析报告也是最优质的，最科学的，最完善的。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于IRT的能力自适应在线测评系统，其特征在于，所述在线测评系统包括：

2.根据权利要求1所述基于IRT的能力自适应在线测评系统，其特征在于，所述两级记分模型包括：单参数Logistic模型和两参数Logistic模型结合现代计算机运算能力形成程序提供应用。

3.根据权利要求1所述基于IRT的自适应在线测评系统，其特征在于，所述在线测试模块还包括：

所述IRT自适应在线测试模块还包括：

初始化模块：用于进行考生的初始化设置，形成电子试题；

当前个人能力值估计模块：根据考生初步测试完成预定答题数量的情况，采用EAP方法评估当前个人能力值；

4.根据权利要求1所述基于IRT的自适应在线测评系统，其特征在于，所述测评题库组建模块还包括：

试题信息收集模块：用于对试题信息进行管理，组建所述测评题库；

所述子题库管理模块还包括：

5.根据权利要求1所述基于IRT的自适应在线测评系统，其特征在于，所述在线测试模块还包括：

基础数据管理模块：用于管理和维护多种基础数据信息；

成绩与积分管理模块：用于管理测试成绩相关数据；

问卷调查模块：用于对考生进行影响学习因素的调查。

6.根据权利要求1所述基于IRT的自适应在线测评系统，其特征在于，所述统计分析模块还包括：

7.一种基于IRT的自适应在线测评方法，采用如权利要求1-6中任一项所述基于IRT自适应在线测评系统，其特征在于，所述在线测评方法包括：

测评题库组建步骤：用于收集试题信息建立测评题库，根据不同的筛选规则从所述测评题库中输出测试试卷；

8.根据权利要求7所述基于IRT的自适应在线测评方法，其特征在于，所述在线测试步骤还包括：

基础数据管理步骤：用于管理和维护多种基础数据信息；

成绩与积分管理步骤：用于管理测试成绩数据；

问卷调查步骤：用于对考生进行影响学习因素的调查；

所述IRT自适应在线测试步骤还包括：

初始化步骤：用于进行考生的初始化设置，形成电子试题；

9.根据权利要求7所述基于IRT的自适应在线测评方法，其特征在于，所述测试题库组建步骤还包括：

所述子题库管理步骤还包括：

10.根据权利要求7所述基于IRT的自适应在线测评方法，其特征在于，所述统计分析步骤进一步包括：