CN111626420A

CN111626420A - 一种认知能力的自适应测评方法、测评系统及其使用方法

Info

Publication number: CN111626420A
Application number: CN202010242617.XA
Authority: CN
Inventors: 杨阳
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2020-09-04
Anticipated expiration: 2040-03-31
Also published as: CN118095453A; CN118246560A; CN111626420B

Abstract

本发明提出了一种认知能力的自适应测评方法，称为层次自适应优化的项目反应理论模型，若被试能力在测试初始，则其初始先验分布由贝叶斯层次模型赋予初值；若对n‑1个被试能力完成了测试，且当第n个被试已进行(t‑1)次测试，需对其进行第t次测试时，则被试能力先验分布由(t‑1)次测试后获得的后验分布赋值；求解使期望效用函数的互信息效用最大值的候选设计，使用其对应的试题对被试能力进行施测；计算IRT模型中各未知参数分布值；得到观测结果；计算被试能力的后验分布；判断当前总信息量是否满足终止条件，若当前信息量大于阈值条件则结束测试，获得观测结果；若当前信息量不满足终止条件则将被试特质后验分布作为下一题测试中的被试先验分布，继续循环。

Description

一种认知能力的自适应测评方法、测评系统及其使用方法

技术领域

本发明涉及心理测量技术与计算机技术领域，其理论架构属于认知科学、心理学及语言学领域，此外，其功能表现形式涉及游戏动画技术领域。

背景技术

1.理论背景

认知能力是指人脑加工、储存和提取信息的能力，即我们一般所讲的智力，如观察力、记忆力、想象力等。人们认识客观世界，获得各种各样的知识，主要依赖于人的认知能力。认知能力亦称“认识能力”。指学习、研究、理解、概括、分析的能力。从信息加工观点来看，即接受、加工、贮存和应用信息的能力。加涅在其学习结果分类中提出三种认知能力：言语信息、智慧技能和认知策略。

认知能力是人们成功的完成活动最重要的心理条件。知觉、语言、记忆、注意、思维和想象的能力都被认为是认知能力。认知能力，是人脑加工、储存和提取信息的能力，即人们对事物的构成、性能、与他物关系、发展动力、发展方向以及基本规律的把握能力。人们的认知特点对于社会经济状况都有显着的影响，增强认知能力也已经被发现与财富增长和预期寿命的增加有关。

认知能力测试是衡量一个人学习及完成一项工作的能力的一种测试。这种测试尤其适合于对一组没有实践经验的候选人的做选择时使用，与工作相关的能力可以分为阅读能力、计算能力、感知速度、空间能力及推理能力。

通常认为，一个完善的认知能力测评系统，必须要建立在成熟的认知理论框架之上。而目前国内对于认知能力测评的理论框架尚不完善，已有的测评工具过于简易，测评结果与被测者的真实认知能力无法标定在同一尺度内。值得注意的是，此测评系统可广泛用于各类认知能力的测评，本发明以认知能力中的阅读能力作为案例进行详述：

语言及阅读能力是促进人类脑发育及认知发展的重要组成部分和指标，在人类进化和个体发展历程中具有极其重要的地位。阅读能力对想象力、专注力、推理能力、思维计划性和思维流畅性的发展起到了关键作用，并且与学龄阶段的学习能力与学习成绩有显著的正相关。所以，儿童阅读能力的科学评估是掌握儿童各方面能力发展动向的重要途径。

先天遗传因素、认知发展、语言环境和家庭环境等都会影响人类语言发展，并进而影响其相关认知和社会能力。其能力的差异化亟需科学的测量工具进行评定并施行有效的干预以保证人类的语言及认知的健康发展。

在海外，欧洲委员会四十几个成员国共同研发的《欧洲语言共同参考框架》等为语言教学、学习和阅读能力评估提供了指导框架和测评工具。此外，英文阅读测评工具有American Council on the Teaching of Foreign Languages(ACTFL)：the OralProficiency Interview(OPI)、Writing Proficiency Test(WPT)、Advanced Placement(AP)Chinese Language and Culture Test,and the SAT II Chinese Subject Test(Liu,2017)。现有的主流中文语言测评工具有：所属中国大陆的《中国汉语水平考试China’s Hanyu Shuiping Kaoshi,HSK》(HSK；Teng,2017)，所属中国台湾的《华语能力测验Taiwan’s Test of Chinese for Speakers of Other Languages,TOCFL》(TOCFL；Chang,2017),以及中国香港的香港读写障碍测验(HKT-SpLD)(Ho,Chan,Tsang,Lee,2000)等。

目前，测评工具中感知、发音、词形和认知控制等其他功能之间缺乏明晰的关系；其次，语言功能的涵盖范围和子功能不清楚，再者，阅读能力还应涉及视觉能力、统计学习能力、工作记忆、认知控制、注意力等过程，并包括非语言特有的输入和输出模块。因此，现今仍然缺乏一套客观、系统而全面的测量工具来反映阅读能力发展的真实水平。

2.测评技术背景

目前国内的测量技术处于相对滞后的状态，大部分测量工具仍使用传统的经典测量理论(Classical Test Theory,CTT)进行。其核心内容包括真分数、信度、效度等概念。以皮尔逊统计理论(Person statistics)为基础，关注的焦点是被试在测验中的一般性表现，其平行测验的理论在逻辑上有明显漏洞。被试每次需要一次性答完所有题目后获得测评结果，使得被迫做完所有对其能力测评无贡献的题目，测评时间过长，效率低下。而整个测试只有一个信度指标无法反应不同难度、区分度的题目权重，所以被试之间的能力差距不真实。且被试在每个具体项目上的表现也并未受到足够的重视。且在鲁棒性上，测验对被试的评价与测验的具体题目构成依赖。要求所有被试在同一时间考同一份试卷才能进行比较。具有泄题风险及灵活性低的缺点，测验和项目的性能指标估计依赖于具体的被试样本。同一测验在不同的被试样本中施测，获得的性能指标不同。由此可见经典测量理论在测量应用上具有诸多重大局限，本发明针对以上局限进行方法上的创新，下文将详述本测试系统所使用的新技术的背景：

2.1.计算机化自适应测试(Computerized Adaptive Tesing，CAT)

计算机化自适应测试的形式是计算机自动从题库中选择合适的题目给考生作答，考证每答完一道题后，计算机会自动评估该考生当前的能力水平，然后选择最适合他当前能力水平的题目继续测试，直到达到某个测评中止标准为止。当前，国际上已经有许多著名的测试使用了计算机化自适应测验的形式，如GRE、ASVAT、GMAT等。未来，CAT一定会获得更广泛的应用。

传统CAT测试建立的步骤为：

2.1.1题库建设

一般的CAT方法首先需要收集有关测量能力的大量试题，以及分布在较宽能力值范围内的大量被测者，对其进行施测，并通过其测试的作答数据，利用不同的统计理论进行拟合，比如使用上文所述的项目反应理论，将估计每个试题的各项参数，例如难度参数、区分度参数、猜测度参数等。当题库建设完成后，题库中的试题各项参数也将固定。将用依据题库以及固定参数对正式测试中的被测者进行自适应地施测，选题标准与收敛标准也将以固定参数为参照。

2.1.2选题策略

信息量是自适应测试中实时根据被试答题信息选择下一个合适题目的过程中使用的判断策略和主要指标。传统CAT的做法是，选择对目前被试答题模式下能提供最多信息增益的题目进行测试，以达到测试过程快速收敛到最优值/局部最优值。但其缺点在于，(1)由于反复选择信息增益最大的题目，所以导致题库中大部分的题目无法被选择到，且有题库泄露的风险。(2)在被试能力先验分布未明确或刚开始答题数据过少无法确定被试真实能力的情况下，快速收敛会导致测量结果偏离真实值。(3)没有其他辅助参数帮助矫正拟合方向，容易导致测量结果偏离真实值。

2.1.3被试特质水平评估

被试特质水平在每次完成一道测试题时都会进行重估，常用方法如下：

条件极大似然估计：使用最多，但是对被测者答案全错或全对时无法估计，所以不可用于测试刚开始的时候或是答题正确率异常的被测者。

贝叶斯期望后验分布估计：用时少，但比较难选择合适的先验分布。

所以传统CAT中并未完全提出被试水平估计的最优方案。

2.1.4中止规则

中止规则为，测评结束的判断依据，若以第2.1.3步所述的信息量为指标时，划定一个信息量阈值(eg.信息量>25时中止测试)。

2.2项目反应理论(Item Response Theory,IRT)：

题库中试题的各项参数以及被试的能力值评估参数都基于项目反应理论(ItemResponse Theory,IRT)(也称潜在特质理论或潜在特质模型)，使其测评效率与鲁棒性得到极大的提升，从而使测评结果更有参考价值。

项目反应理论是一种现代心理测量理论，其意义在于可以指导项目筛选和测验编制。项目反应理论假设被试有一种“潜在特质”，潜在特质是在观察分析测验反应基础上提出的一种统计构想，在测验中，潜在特质一般是指潜在的能力，并经常用测验总分作为这种潜力的估算。通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。其优越的统计特性很大程度可以弥补过去常用的经典测量理论(Classical Test Theory,CTT)在统计与测评中的重大缺陷与不足。

项目反应理论的基本概念如下：

以概率函数的形式描述项目作答反应结果如何受到被试能力水平和项目特性参数联合作用的影响。区别于传统测试的统计方法，项目反应理论可以获得每个测试题的计量学参数，以及每个被试对于每一题的作答能力水平参数(上述参数皆包含于项目特征曲线中)。这些参数可帮助试题编制者以计量学视角将试题难度与被试能力放在同一参照系中观察。

估计目标：能力水平和潜在心理特质水平(latent traits)

项目特征曲线(item characteristic curve,ICC)：P_i(θ)＝P(β_i,α_i,c_i,θ_i)

2.3自适应设计优化

为了确保后续正确的模型推理，测量准确性在心理或行为测量领域是重中之重。其次，当观测费用昂贵或实验过程非常耗时，高效测量的技术也是至关重要的。自适应设计优化方法的研究的目的便是致力于同时保证测量正确性和测试效率，所以，传统冗长的固定设计被摒弃，转而为了最好的推断而主动收集数据的方法，这些自适应设计优化方法利用实验的顺序性，试图从整个测试会话的数据中获取尽可能多的信息。(Lindley,1956；Chernoff,1959；Kiefer,1959；Box&Hill,1967)。由于在大多数情况下，数据收集是按顺序进行的，所以最佳设计最好是根据每个数据点的即时反馈来规划下一步的测量方案，每个新测量的选择都是利用从之前的测量结果中获得的信息来决定的，以便获得关于所研究的过程和行为的信息的最大增益。随着计算机算力的提升，自适应设计优化在认知神经科学、心理学、统计学、教育学等各个领域大放异彩。

自适应设计优化是一种在实验过程中执行的贝叶斯序列优化算法，具体来说，在每一次试验中，根据对所研究现象的了解的现状(先验分布)，用数据的统计模型表示，最优设计确定效用函数的最高期望值(定义如下)，然后用最优设计也就是信息增益较大的试题进行实验，并观察和记录测量结果。这些观察结果随后将使用贝叶斯定理得出后验分布，此后验分布将成为下一次测量的先验分布情况，在测验过程中，不断迭代重复这些交替的设计优化、测量和更新单个级数据模型的步骤，直到满足合适的停止准则，最后获得被试的特质水平估计值。

在自适应设计优化中，联合先验分布求解效用函数的最高期望值为最关键的步骤，其决定了依据当前被试的特质应该选择哪一项试题可以使测评获得最多的信息，与此同时，避免了偏离被试能力过远的无效试题降低测试效率。其公式如下：

其中，θ是预测给定参数的观测数据的数据模型(或测量模型)的参数。y^(1:t)是从第一次试验到t-1试验的过去测量的集合y^(1:t-1)与当前测试的输出y^(t)之和。d_t为候选设计，也就是候选试题。p(θ|y^(1:t-1))是过去t-1次测试的后验分布，同时也是当前测试的先验分布。p(y^(t)|θ,d_t)是在当前被试先验特质θ与候选设计d_t下结果y^(t)的条件数据分布。

为样本效用函数，为θ的条件分布，衡量了候选设计d_t的效用。U(d_t)为期望效用函数，表示样本效用函数关于数据分布和先验函数的期望。而U(d_t)的最大值d_t ^*即为在观察测量结果时，有关模型参数的最大信息增益。施行最优设计后可得测量结果y^(t)，获得后验分布p(θ|y^(1:t))，在下次试题开始时作为先验分布参与优化设计，即p(θ|y^(1:t-1))＝p(θ|y^(1:t))。值得一提的是，对于自适应设计优化来说，被试可以是未开始测试或是在测试过程中。

但是，自适应设计优化仅优化单个被试级别的测量过程，而不利用过去所有被试测试收集的数据中获得的信息。

2.4贝叶斯层次模型

层次贝叶斯建模是提高推理效率和准确性的另一种方法(Gelman,Carlin,Stern,&Rubin,2004；Jordan,1998；Koller&Friedman,2009；Rouder&Lu,2005)，它力求确定数据生成群体的结构(例如，个人所属群体的类型)，以便根据所提供的测量结果推断个人的属性，其动机是，数据集即使不是从相同的个体生成的，也可以包含关于彼此的信息。分层建模为利用这种相互的信息能力提供了统计框架。

贝叶斯层次模型不仅提供了一个灵活的框架，以纳入这种先前测试的信息，而且非常适合纳入现有的贝叶斯自适应设计优化范式，以实现更高的测量效率。

贝叶斯层次模型背后的基本思想是利用数据中存在的统计依赖性来提高推理的精度(例如测试的统计效力)。假设过去的被试都是来自不同群体的随机变量，从同一人口中抽取的新个体进行的测量很可能与其他人有相似之处。在这种情况下，当考虑到特定的群体性数据结构时，自适应推理将获得更大的好处，而不是从没有这样的信息开始。也就是说，数据集作为一个集合，包含关于彼此的信息，从而得出更精确的推论。由于单个数据集需要自己建模(即一个测量模型)，它们之间的统计关系需要在一个单独的层次上建模，因此模型是分层的。

3.测评形式背景

本发明系统由于考虑到儿童的心智与注意力尚未完全成熟，在传统冗长的测评过程中易发生误选、盲选、走神等意外情况导致测试结果进入误区，所以本系统的测评框架易于与游戏脚本逻辑结合，使测评过程增加了答题的趣味性，可帮助其集中注意力在测评项目上，更专注地完成测评，使得结果更接近真实能力水平。

传统测评系统的缺陷：

理论方面：

(1)目前中国对学生汉语阅读能力的真实水平还未形成清楚的认识，已有的测评工具功能非常局限，目前的中文测评工具皆是针对部分文字读写能力，考察内容单薄，考察框架模糊。并未联系心理学、认知科学的理论进行全面整合。现如今仍然缺乏一套客观、系统而全面的测量工具反映儿童阅读能力发展的真实水平。

(2)亟需确认中国社会文化背景下的儿童语言及相关认知功能发展的关键“机会窗”、学习触发机制、发展轨迹及潜在影响因素(如Kuhl,2011)；

(3)结合测评数据和脑功能测量，制定更科学规范的筛查方案，以尽早干预或预防可能处于语言及相关发展障碍的婴儿和幼儿。(Gabrieli,2009)

测评技术方面：

针对以经典测量理论为核心的传统测评工具的技术或应用缺陷：

(1)不能根据答题者的能力调整出题策略，必须一次性答完所有题目后获得测评结果，测量时间过长，效率低下。

(2)无法反应不同难度、区分度的题目的权重，所以被试间的能力差距不真实。

(3)测验对被试的评价与测验的具体题目构成依赖。要求所有被试在同一时间考同一份试卷才能进行比较。具有泄题风险及灵活性低的缺点。

(4)测验和项目的性能指标估计依赖于具体的被试样本。同一测验在不同的被试样本中施测，获得的性能指标不同。

(5)被试能力和项目难度的参照系是不同的。

针对以传统IRT模型为核心的CAT系统的技术缺陷：

(6)需要前期花费大量时间成本收集大量样本进行题库建设，以估计题库中所有项目的参数。

(7)系统扩展性差，项目参数一旦完成估计后，在之后的测试中将固定，如果之后的题库需要更新，或被试人群发生改变，则需要重新进行题库建设步骤。

(8)单纯以信息增益大小为依据的选题策略可能使题库中大部分题目无法被选中，导致反复测量少数题目，有题库泄露风险。

(9)以信息增益大小为依据的选题策略中若被试不小心答错题，没有额外的参数约束情况下，对测试结果的准确率影响很大。

(10)IRT模型估计参数时，由于在测试初始阶段无法给出合适的先验分布，测试结果可能收敛到局部最优值，从而影响模型的准确率。

测评形式方面：

(1)传统测评工具题目的展现形式枯燥、呆板，缺乏新意，且儿童注意力易分散，可能发生误选、盲选、走神等情况，而导致测评结果未能反映真实能力水平。

发明内容

1.发明内容详述：

本发明提出了一种认知能力的自适应测评方法，称为层次自适应优化的项目反应理论模型，包括以下步骤：

步骤1，若被试能力在测试初始，则其初始先验分布由贝叶斯层次模型模型赋予初值；若对n-1个被试能力完成了测试，且当第n个被试能力已进行(t-1)次测试，需对其进行第t次测试时，则被试能力先验分布由(t-1)次测试后获得的后验分布赋值；

步骤2，求解使期望效用函数的互信息效用最大值的候选设计，并使用其对应的试题对被试能力进行施测；

步骤3，计算IRT模型中各参数：估计方法包括：联合似然估计法、边际极大似然估计(也称EM算法)、贝叶斯期望后验法。

此处举例使用贝叶斯期望后验估计三参数IRT模型计算期望后验估计值，构建其未知参数的后验分布；

步骤4，得到观测结果；

步骤5，计算被试能力的后验分布；

步骤6，判断当前总信息量是否满足终止条件，若当前信息量大于阈值条件，则结束测试，获得观测结果；若当前信息量不满足终止条件，则返回步骤1将所述被试特质后验分布作为下一题测试中的被试先验分布，继续循环；

步骤7，当一个被试结束测试时，更新被试个体空间内的贝叶斯层次模型模型，并在下个被试测试之初赋予合适的初值，其更新表达式如下：

p(θ_n+1|y_1:n)＝p(θ_n|y_1:n-1)；

其中，

其中，p(η)是高层模型参数η的先验分布，通过在θ_1:n和η上集成后续表达式，得到了边际分布p(y_1:n)。

本发明为了在题库扩展中免去IRT模型重新建模的过程，进一步对测试系统中每个项目进行参数化建模，在题库中记录每个项目以及其IRT模型中对应的参数，将其与语料库中的项目以及语言学、语义学参数进行相关性建模。项目的语言、语义学参数与IRT模型中各参数的推导式为：

y(β_t,α_t,c_t)＝f(t,l_t,s_t...)；

式中，应变量(β_t,α_t,c_t)为项目t在IRT模型中的参数，l_t,s_t为此项目在语料库中的参数，f()为相关方法。

本发明所述步骤2中，所述期望效用函数的表达式为：

d_t ^*＝argmaxU(d_t)；

其中，y_1:n-1表示为过去n-1个被试能力的所有观测结果，y_n ^(1:t)包含了当前第n个被试能力过去t-1个测试评估y_n ^(1:t-1)和当前的候选观测y_n ^(t)。

本发明所述步骤3中，若试验样本数据、被试特质先验分布确定，假设项目参数的先验分布密度函数为g(ξ)，则关于未知IRT模型项目参数的后验分布为：

其中，

其中，P_t(ξ)为三参数IRT模型

其中，L(ξ)为项目参数的似然函数；

其中，

表示某种反应模式u_n的边际概率；

最终求得项目参数E(ξ_n|u_n,θ_n)，并将其更新为最新的IRT参数。

本发明所述步骤5中，使用贝叶斯层次模型的框架来计算被试特质的后验分布，其表达式为：

其中，

其中，y_n ^(1:t)＝y_n ^(t-1)+y_n ^(t)，其中y_n ^(t)在步骤4中得到y_n ^(t)＝P(u_n)；

本发明所述方法结合测评内容以游戏作为主要形式输出。

基于以上方法，本发明还提出了一种自适应认知能力测评系统，包括：

输入单元，其用于接收被试输入的个人信息及答题数据；所述个人信息及答题数据包括：被试的年龄、个人信息、以及通过鼠标、键盘或麦克风输入的答题数据；

测评软件下载器，其用于下载最新版本的软件，保持测试软件的版本一致性；

通用串行数据总线，其用于异步通信；

资料收集器，其用于建立电脑与外部设备的连接和通讯；

存储单元，其用于保存所有发展阶段以及测评方案的题库，以供系统根据被试的答题信息自适应地挑选题目；

通信单元，起用于与其他个人电脑、手持设备终端以无线方式通讯；

测评处理器，其为运算单元，其保存了系统主要的统计计算模型，执行计算机自适应测验的主要算法；所述运算单元中包括：项目反应理论特征函数、依据被试的个人信息设定其测试时的先验参数；所述运算单元在测试开始时设定的先验参数的基础上给出第一个测试题、根据接收到的输入修改参数值、根据修改后的参数值确定下一次测试题；

运算内存，其用于运算当前测评进度下的参数，所述参数包括项目特征参数、被试能力参数以及全域平均信息量；

测评数据存储器，其用于存放当前测评进度下的各项参数以及作答数据；

输出单元，其包括液晶显示屏用于呈现游戏测试的画面。

本发明测评系统的使用方法：首先，系统连接电源并打开系统启动器后，测评软件下载器即启动工作，检查当前系统版本与远端服务器中的内容是否一致，不一致则下载最新版本覆盖旧版本，如一致则运行测试主程序。输入单元接收被试输入的各类信息，将数据流传入测评处理器。测评处理器包含本层次自适应优化的项目反应理论模型的整个数学逻辑，负责异步调度测评数据存储器中的当前进度下数据和运算内存中具体计算。测评处理器同时将测评进程实时传输到输出单元，使进程对应的测评或游戏测评的逻辑界面在图像显示器中展现。测评数据存储器与资料收集器的接口互联，保存所有题库内容和历史测评进度下所有参数和作答数据，若需要修改或批量提取，需通过资料收集器进行数据流的导出。

本发明针对背景技术中传统能力测评系统中的测评理论、测评技术、测评技术三方面的缺陷。进行发明：

在测评理论方面，结合了认知神经科学、发展教育学相关的权威理论，对认知能力测评进行理论建模，以指导统计技术模型的选择。

此处以阅读能力为例，其他认知的技能仍将通过类似的权威理论建立测评任务：

语言测评的构建依据认知神经科学与发展教育理论，将其分为前读写能力(包含快速命名任务、部首笔画认知、拼音认知任务)与读写能力(包含词语阅读、正字法认知、语义认知、语素词素认知)，另外则引入“心理字典”的概念，测试儿童的词汇量。

如下表所示依照以上理论本发明开发了相关的测评任务原型，为目前最具有系统完备性的测评工具。由此可见，此发明补足了上述测评理论方面的问题1-5。

另，本发明的测评系统仍可依照相关权威理论对包括但不限于老年人、阅读障碍、学习障碍等群体进行开发建模。

在测评技术方面，提出了一个创新性的复合模型去解决现有测评技术的落后，其称为层次自适应优化项目反应模型，此模型借鉴了传统计算机化自适应测验的框架，创新结合自适应设计优化、贝叶斯层次模型、以及项目反应理论，其中，贝叶斯层次模型主要建立在被试个体空间中提供被试能力先验分布，自适应设计优化模型主要建立在参数空间中选择最优测试策略，项目反应模型则是更细粒度的刻画了项目特征，使项目特征与被试能力相关联。三者各取所长。其优越的统计性能使得测评系统更高效，测评结果更准确，测评环境限制更少。其鲁棒性和泛化能力使得测评工具具有更高的可信度与可行性。测试过程由计算机根据被试能力水平自动选择测题，最终对被试能力作出估计的一种新型测验。计算机自适应测验不同于一般的计算机化测验，计算机在测验过程中不光是呈现题目，输入答案、自动评分、得出结果，而且能够依照过去被试的答题信息，给与当前被试一个先验的能力预估值，选择适合的题型，并在测试中根据被试对试题的不同回答，它能自动根据当前累积信息量选择最适宜的试题，最终达到对被试能力作出最恰当的特质水平估计。再者，对每个系统中的每个题目(也就是所谓的项目)，都进行参数建模，以便考察题目对区分被试能力的贡献以及与理论背景的关联，帮助本发明更好的筛选题目以及了解被试的能力状况。

如图3所示，本测评系统的模型构建中,将在此计算机自适应测试系统改进计算机自适应测试CAT的传统框架，在其中结合自适应设计优化和贝叶斯层次模型这两种推理方法，寻求充分利用被试个体空间和参数空间这两种过去和未来的数据。因为两者都可以用在贝叶斯统计框架下来表示，通过很自然地将它们结合起来，本发明能获得更大的信息增益。先结合贝叶斯层次模型和自适应设计优化，研究人员能够在当前被试未开始测验之前获得该群体的先验知识，并且其层次化迭代的架构使得本发明省去了传统CAT系统中大量收集样本建立题库的过程。本发明提出更有效的设计方案，本发明称这两种方法的结合为层次自适应设计优化，建立了层次自适应设计优化的基本构件。

进一步，在层次自适应设计优化中，本发明创新性地使用项目反应理论来建模，使得信度参数更为细化，被试间的能力差距趋于恒定，项目参数与被试能力的标定在同一尺度下，解决了第四部分中，测评技术方面的问题1-5，再者，由于层次自适应设计优化可提供合理的先验知识，补足了项目反应模型的短板，使得项目反应函数的收敛方向更接近真值，且估计准确性显著提高。并且层次自适应设计优化模型的层次性自适应方案使得本系统的建立省去了先前大范围的预实验用来编制题库以及标记固定的试题参数的时间成本，以及当本发明未来向题库中添加新题时，项目反应模型将不需要重新建模，所有试题的参数估计将会在未来的实际测试中完成，从而解决了上述测评技术方面的的问题6-10。

在测评形式方面，本测试的测评框架具有良好的泛化能力，可以在其逻辑上建立各种游戏脚本，使得游戏形式的测评更能聚焦被试者注意力，使其认真作答，其效用在面对儿童、阅读障碍患者、老年人等特殊群体上将一展所长，从而解决了上述文中测评形式的困难。

2.具体计算模型改进：

本发明中的算法模型，称为层次自适应优化的项目反应理论模型，其中贝叶斯层次模型主要建立在被试个体空间中提供被试能力先验分布，自适应设计优化模型主要建立在参数空间中选择最优测试策略，项目反应模型则是更细粒度的刻画了项目特征，使项目特征与被试能力相关联。三者者各取所长。本发明将其创新性的结合可以做到以提高模型推理的效率、推理正确性和准确性。

层次自适应优化的项目反应模型中的贝叶斯层次模型：

假设给出了一个单独的测量模型作为概率密度或质量函数p(y_i|θ_i)，以及个体i的能力参数θ_i。个体间的相关关系表示为一个上层模型p(θ_1:n|η),一个以η为系数的回归模型。θ_1:n＝(θ₁,...,θ_n)是所有n个个体的模型参数的集合。然后给出所有观察到的分层模型的联合后验分布：

然后，假定第n+1个被试正在开始测试，对于先前所有测试结果的可用数据对此个体的后验分布为：

p(θ_n+1|y_1:n)＝p(θ_n|y_1:n-1)；

其中，

改进点：

1.依据历史测试信息，建立迭代机制，在每一题、每一被试测试完成后更新所有参数，为测试系统省去传统CAT系统所需要的前期大量收集样本数据建立题库的步骤。

2.为自适应设计优化及项目反应模型提供被试能力先验分布，使收敛方向更接近真值。

3.先验分布可以给出当前被试的能力预期，若被试答题结果远远偏离能力预期，如三年级的学生认识的字词数量不如学龄前儿童多，则可以及时发现问题并由主试者查明异常情况。

层次自适应优化的项目反应模型中的自适应设计优化模型：

求解使期望效用函数的互信息效用最大值的候选设计d_t ^*并使用其对应的试题对被试进行施测。

期望效用函数的表达式为：

d_t ^*＝argmaxU(d_t)

其中，y_1:n-1表示为过去n-1个被试的所有观测结果，y_n ^(1:t)包含了当前第n个被试过去t-1个测试评估y_n ^(1:t-1)和当前的候选观测y_n ^(t)。

改进点：这里的效用方程相比于技术背景部分中的效用方程，加入了贝叶斯层次模型中推导的先前观察到的数据，与当前测量会话的数据共同计算联合概率，结合了自适应设计优化和贝叶斯层次的推导，使两种模型在此结合。

层次自适应优化的项目反应模型中的项目反应模型：

如图1所示，本发明系统中采用项目反应理论中的三参数模型，可以包含全面的项目特征细节。

其包含参数：

(1)被试能力参数θ：表示被试能力水平参数。

(2)项目难度参数β：又称“位置参数”(location parameter)，它对应着正确作答该项目的概率为0.5的能力值点，也就是ICC中间点落在能力量尺上的位置。值越大表示项目越难，反应ICC位于能力量尺上的值。它的含义是，正确作答该项目的概率为0.5的能力值点所在的位置。

(3)项目区分度参数α：又称量表参数(scale parameter)代表该项目在拐点附近清楚地区分不同能力水平被试的能力(power)。值越大表示项目对不同被试能力水平的鉴别力越强。

(4)猜测参数c：又称渐进参数(asymptotic parameter)它反映了能力水平趋向负无穷时渐进正确作答概率。代表被试仅凭猜测答对项目的可能性，值越大表示不论被试能力高低，均容易答对这个项目。值越小，则越不易答对这个项目。

(5)P_tn(ξ)：表示在项目参数为ξ的情况下，第n个被试答对第t题的概率。

估计过程：

1.联合实测数据(被试的作答反应信息：得分矩阵)和先验信息(假定被试群体的能力水平是服从正态分布的)使用估计方法，获取每个项目参数估计值/参加测试的被试样本能力水平参数估计值。

2.模型-资料拟合检验删除不拟合的项目并对剩余项目再次进行项目参数和能力参数估计。

改进点：

1.相比于传统的CTT测量，IRT建立了项目参数和被试能力参数的关系，使得他们在同一量表内被标定，本发明可以明确知道能力水平为0.6的被试答对难度估计值为0.5的项目的概率大于答错的概率，而其最佳项目难度也应该在0.6左右。而在传统的CTT测量中这一概念是模糊不清的。

2.在选择适应于本领域的三参数模型后，本发明在估计参数时，不再以假定的正态分布作为先验信息的输入，而是选择使用层次自适应设计优化模型中给予的先验值，此先验值更接近被试真正的能力分布值，从而使得测试进程更高效，准确率更高

3.创新点总结：

综上所述，此系统的创新点为：

1.层次自适应优化的项目反应理论补足了传统CAT计算机自适应测评系统对于每个测试项目参数刻画的空白，使自适应系统在项目参数空间、能力参数空间以及被试空间都有极高的鲁棒性与精确性。

2.层次自适应优化的项目反应理论模型补足了传统以项目反应理论为内核的计算机自适应测评系统缺少被试能力的先验分布的缺陷，给出了更接近真值的被试初始能力先验分布，有效减少了项目反应理论模型收敛到局部最优值的风险，使得测试结果更准确。

3.层次自适应优化的项目反应理论模型的分层迭代形式补足了传统以项目反应理论为内核的计算机自适应测评系统需要收集几千上万的测试样本训练题库中的项目参数的缺陷，节省了大量前期工作成本。

4.层次自适应优化的项目反应理论在自适应测试中同时重估项目参数以及被试能力参数，随着测试样本量的增加，系统中所有参数都将自动不断优化，提升测试系统的准确性与鲁棒性。

5.层次自适应优化的项目反应理论计算模型组成的测试系统还依托于外部认知神经科学的理论中可提供的可靠的参数空间，其与IRT模型中的项目参数、能力参数进行相关性建模后，当本发明未来向题库中添加项目或是甄别排除判别度差的项目时，IRT将不需要重新建模，所有试题的参数估计将会在未来的实际测试中完成。

6.联系心理学、认知科学的理论，为本测试系统提供了权威可靠的内容和理论基础。为业界建立一套客观、系统而全面的测量工具反映人类认知功能的真实水平，从而以便于未来的研究、干预与治疗。

7.其优越的测评框架可以融合游戏脚本的逻辑实现，使得游戏形式的测评更能聚焦被试者注意力，使其认真作答，其效用在面对儿童、阅读障碍患者、老年人等特殊群体上将一展所长。

本发明的有益效果包括：

附图说明

图1是三参数模型的项目特征曲线图。

图2是本发明测评系统的系统布局图。

图3是本发明测评系统的模型构建示意图。

图4是本发明测评框架的示意图。

图5是本发明参数化建模的示意图。

图6是本发明测评方法的流程图。

具体实施方式

结合以下具体实施例和附图，对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明认知能力的自适应测评系统的系统布局如图2所示。其组织布局如下：

测评主机左侧为输入单元，其用于接收被试输入的个人信息及答题数据。其中包含被试的年龄、个人信息、以及通过鼠标、键盘或麦克风输入的答题数据等。

测评系统电源为常规系统配置，不做详述，下文仅对系统特异处进行详细解释：

201测评软件下载器

测评软件加密下载器，建立与后端测评软件库的直连下载通道，帮助用户及时下载最新版本的软件，保持测试软件的版本一致性。

202 UART

通用串行数据总线，用于异步通信。该总线双向通信，可以实现全双工传输和接收。在嵌入式设计中，UART用于主机与辅助设备通信。比如输入单元与输出单元的各类硬件设备。

203-204 USB资料收集器

USB接口，建立电脑与外部设备的连接和通讯，具有即插即用和热插拔功能，可连接127种外设，如鼠标和键盘等。

205资料备份存储

存储单元中保存了所有发展阶段以及测评方案的题库，以供系统根据被试的答题信息自适应地挑选题目。

502 WiFi/蓝牙

与其他个人电脑、手持设备等终端以无线方式通讯的接口。

301测评处理器

运算单元中保存了系统主要的统计计算模型，执行计算机自适应测验的主要算法。

其中包含：

项目反应理论特征函数(将于下文详述)。

依据被试的个人信息设定其测试时的先验参数。

在测试开始时设定的先验参数的基础上给出第一个测试题(刺激)。

根据接收到的输入修改参数值

根据修改后的参数值确定下一次测试题

302系统启动器

系统电源。

303运算内存

运算当前测评进度下的各项参数(项目特征参数、被试能力参数以及全域平均信息量)。

304测评数据存储器

存放当前测评进度下的各项参数以及作答数据。

501外界测评图像显示器及触屏

输出单元包括液晶显示屏用于呈现游戏测试的画面。

实施例

本实施例以测评阅读能力为例阐述本发明。

测评任务

测评框架

测评框架详述如下：

如图4所示，本系统测量流程总体分为循环嵌套的双层空间，其灰色部分为自适应设计优化部分，其建立在参数空间中，为单被试在其单次测试中的循环流，t为试题序数。灰色部分的外层为贝叶斯层次模型的部分，其建立在被试个体空间中，为所有历史被试答题数据的循环流，n为被试序数。

在自适应设计优化部分中，共有五个流程，其功能如下：

假设当前已对n-1个被试完成了测试，且当前第n个被试已进行(t-1)次试题测试，目前需要对其进行第t次测试：

流程1.被试能力先验分布

被试能力先验分布由(t-1)次试题测试后，在流程5中获得的后验分布赋值，其表示为：

p(θ_n|y_n ^(1:t-1),y_1:n)

若被试在测试初始，则其初始先验分布由贝叶斯层次模型模型赋予初值。

流程2.自适应最优设计

期望效用函数的表达式为：

d_t ^*＝argmaxU(d_t)

其中，y_1:n-1表示为过去n-1个被试的所有观测结果，y_n ^(1:t)包含了当前第n个被试过去t-1个测试评估y_n ^(1:t-1)和当前的候选观测y_n ^(t),值得注意的是，这里的效用方程相比于技术背景部分中的效用方程，加入了贝叶斯层次模型中推导的先前观察到的数据，与当前测量会话的数据共同计算联合概率，结合了自适应设计优化和贝叶斯层次模型的推导，使两种模型在此结合。

流程3.项目反应模型求解

对于项目反应模型，使用期望后验估计，构建其未知参数的后验分布，在试验样本数据、被试特质先验分布确定的情况下，假设项目参数的先验分布密度函数为g(ξ)，那么关于未知项目反应模型项目参数的后验分布为：

其中

其中P_t(ξ)为三参数项目反应模型

其中L(ξ)为项目参数的似然函数。

其中

表示某种反应模式u_n的边际概率。

最终求得项目参数E(ξ_n|u_n,θ_n)，并将其更新为最新的项目参数。

在这一流程中，当前被试每做完一项试题，便会更新项目反应模型中所有项目的参数。

流程4.得到观测结果y_n ^(t)＝P(u_n)

流程5.计算被试特质的后验分布

此处将使用贝叶斯层次模型的框架来计算被试特质的后验分布，其表达式为：

其中

其中y_n ^(1:t)＝y_n ^(t-1)+y_n ^(t)，其中y_n ^(t)在流程4中得到y_n ^(t)＝P(u_n)。

其中p(η)是高层模型参数η的先验分布，通过在θ_1:n和η上集成后续表达式，得到了边际分布p(y_1:n)。

流程6.判断是否满足测试终止条件

判断当前总信息量是否满足终止条件，若当前信息量大于阈值条件，则结束测试，获得观测结果。

若当前信息量不满足终止条件，则将流程5中获得的被试特质后验分布作为下一题测试中流程1的被试先验分布，继续循环。

流程7.贝叶斯层次模型模型更新

当一个被试结束测试时，被试个体空间内的贝叶斯层次模型模型将会更新，并在下个被试测试之初赋予合适的初值，其更新表达式如下：

p(θ_n+1|y_1:n)＝p(θ_n|y_1:n-1)

其中

额外流程：参数化建模

如图5所示，为了在未来的题库扩展中免去IRT重新建模的过程，本发明将对测试系统中每个项目进行参数化建模。首先，测试系统的题库中将会记录每个项目以及其项目反应模型中对应的各类参数，将其与大规模语料库中的项目以及各类语言学、语义学参数进行相关性建模。

本发明可以得到项目的语言、语义学特征与项目反应模型中各参数的推导式：

y(β_t,α_t,c_t)＝f(t,l_t,s_t...)

式中应变量(β_t,α_t,c_t)为项目t在IRT中的参数，l_t,s_t为此项目在语料库中的参数，f()为相关方法。例如，在词汇量测试系统中，每个项目为一个中文词语，本发明将语料库中每个项目的词频、情绪效价、聚类系数等语言语义参数与其在项目反应模型中通过过往大量测试已被估计出的项目难度参数、区分度参数、猜测系数等进行相关性建模。

那么当系统需要新添加项目时，无需重新通过使用大量测试结果估计新项目的值，而可以使用此相关模型通过新项目在语料库中已知有关参数去估计在项目反应模型中未知的项目参数，使这些项目能快速投入未来测试。通过此建模方法，可有效提高本测试系统的拓展性能。

测评形式

本系统将测评任务中所述的测评内容与测评框架中所述的测试框架相结合并以游戏作为主要输出形式。使测试形式更具有视觉吸引力，适用于注意力易分散的少年儿童，以提高本测评系统效用。

以词汇量能力测评为例，游戏开发示例如下：

小朋友驾驶一架飞机，一个回合代表词汇量的一个子能力阶段，不断迎面而来礼包上写着测试词汇，小朋友需要及时判断是真词/假词，按真词使飞机接触礼包，按假词使飞机躲过礼包，如猜对真词则获得真词礼包内金币，如猜错则会被假词礼包中的炸弹炸伤，当基础血量都被炸弹攻击用完后，此回合闯关失败，词汇量等级水平即为上一关卡水平。

本实施例中的认知能力的自适应测评系统及方法，以认知发展理论为基础，依据阅读特定领域的学习理论以及通用学习理论构建，分别涵盖了阅读认知能力相关任务以及通用非特异性能力的测评。本发明为目前功能涵盖最广，最具有系统完备性的测评工具。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种认知能力的自适应测评方法，其特征在于，包括以下步骤：

步骤1，若被试能力在测试初始，则其初始先验分布由贝叶斯层次模型赋予初值；若对n-1个被试能力完成了测试，且当第n个被试已进行(t-1)次测试，需对其进行第t次测试时，则被试能力先验分布由(t-1)次测试后获得的后验分布赋值；

步骤3，使用三参数项目反应模型计算期望后验估计值，构建其未知参数的后验分布；

步骤4，得到观测结果；

步骤5，计算被试能力的后验分布；

步骤6，判断当前总信息量是否满足终止条件，若当前信息量大于阈值条件，则结束测试，获得观测结果；若当前信息量不满足终止条件，则返回步骤1将所述被试特质后验分布作为下一题测试中的被试先验分布，继续循环。

2.如权利要求1所述的认知能力的自适应测评方法，其特征在于，进一步包括步骤7，当一个被试结束测试时，更新被试个体空间内的贝叶斯层次模型，并在下个被试测试之初赋予合适的初值，其更新表达式如下：

p(θ_n+1|y_1:n)＝p(θ_n|y_1:n-1)；

其中，

3.如权利要求1所述的认知能力的自适应测评方法，其特征在于，所述步骤2中，所述期望效用函数的表达式为：

4.如权利要求1所述的认知能力的自适应测评方法，其特征在于，所述步骤3中，若试验样本数据、被试特质先验分布确定，假设项目参数的先验分布密度函数为g(ξ)，则关于未知项目反应模型项目参数的后验分布为：

其中，

其中，P_t(ξ)为三参数项目反应模型为

其中，L(ξ)为项目参数的似然函数；

其中，

表示某种反应模式u_n的边际概率；

最终求得项目参数E(ξ_n|u_n,θ_n)，并将其更新为最新的IRT模型参数；

和/或，

所述步骤5中，使用贝叶斯层次模型的框架来计算被试特质的后验分布，其表达式为：

其中，

5.如权利要求4所述的认知能力的自适应测评方法，其特征在于，所述项目反应模型参数的求解方法包括：联合似然估计法、贝叶斯期望后验法、马尔科夫链方法。

6.如权利要求1所述的认知能力的自适应测评方法，其特征在于，为了在题库扩展中免去项目反应模型重新建模的过程，进一步进行参数化建模，在题库中记录每个项目以及其项目反应模型中对应的参数，将其与语料库中的项目以及认知能力相关参数进行相关性建模；和/或,所述方法结合测评内容并以游戏形式输出。

7.如权利要求6所述的认知能力的自适应测评方法，其特征在于，若系统针对阅读能力开发，则将系统中的项目参数与外部的语言学参数进行相关性建模；和/或，若系统针对阅读能力开发，项目反应模型中各参数与系统外部的语言、语义学参数与的推导式为：

y(β_t,α_t,c_t)＝f(t,l_t,s_t...)；

8.一种认知能力的自适应测评系统，其特征在于，所述系统采用如权利要求1-7之任一项所述的认知能力的自适应测评方法，所述系统包括：

输入单元，其用于接收被试输入的个人信息及答题数据；

通用串行数据总线，其用于异步通信；

资料收集器，其用于建立电脑与外部设备的连接和通讯；

通信单元，其用于与个人电脑、手持设备终端以无线方式通讯；

运算单元，其中保存了系统的统计计算模型，执行计算机自适应测验的算法；

输出单元，其包括液晶显示屏用于呈现游戏测试的画面。

9.如权利要求8所述的认知能力的自适应测评系统，其特征在于，所述个人信息及答题数据包括：被试的年龄、个人信息、以及通过鼠标、键盘或麦克风输入的答题数据；和/或，所述运算单元中保存了包括：项目反应理论特征函数、依据被试的个人信息设定其测试时的先验参数；所述运算单元在测试开始时设定的先验参数的基础上给出第一个测试题、根据接收到的输入修改参数值、根据修改后的参数值确定下一次测试题；和/或,所述系统进一步包括测评软件下载器，其用于更新软件，保持测试软件的版本一致性。

10.一种如权利要求8或9所述的认知能力的自适应测评系统的使用方法，其特征在于，包括以下步骤：

步骤一：所述测评系统连接电源并打开系统启动器后，测评软件下载器检查当前系统版本与远端服务器中的内容是否一致，若不一致则下载最新版本覆盖旧版本；若一致则运行测试主程序；

步骤二：输入单元接收被试输入的各类信息，将数据流传入运算单元，所述运算单元包含本层次自适应优化的项目反应理论模型的整个数学逻辑，负责异步调度测评数据存储器中的当前进度下数据和运算内存中具体计算；

步骤三：所述运算单元同时将测评进程实时传输到输出单元，使进程对应的测评或游戏测评的逻辑界面在图像显示器中展现；

步骤四：测评数据存储器与资料收集器的接口互联，保存所有题库内容和历史测评进度下所有参数和作答数据，若需要修改或批量提取，通过资料收集器进行数据流的导出。