CN106960245A

CN106960245A - 一种基于认知过程链的个体知识评价方法及系统

Info

Publication number: CN106960245A
Application number: CN201710102269.4A
Authority: CN
Inventors: 宋永浩; 蔡恒毅; 姜松浩; 周琳; 金岩; 赵晓芳
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2017-02-24
Filing date: 2017-02-24
Publication date: 2017-07-18

Abstract

本发明提出一种基于认知过程链的个体知识评价方法及系统，该方法包括对数据进行预处理，对预处理后生成的数据集合进行初始化，根据初始化后的数据集合，训练BKT模型，其中所述初始化后的数据集合包括学习者集合、知识点集合以及学习者对应的知识点的应答结果序列；根据所述BKT模型，计算所述初始化后的数据集合中每个知识点的难度系数、每位学习者的认知能力；根据所述学习者对某个知识点的回答序列训练新BKT模型，将所述新BKT模型回代到每一次隐含状态的转移中，获取学习者已经掌握的知识点集合；根据所述难度系数以及所述认知能力构建目标知识集合，根据所述学习者已经掌握的知识点集合与所述目标知识集合计算学习者知识评价得分。

Description

一种基于认知过程链的个体知识评价方法及系统

技术领域

本发明涉及大数据挖掘技术领域，特别涉及一种基于认知过程链的个体知识评价方法及系统。

背景技术

随着互联网以及web2.0技术的快速发展和深入普及，人们获取知识的主要途径由传统的书籍、报纸和电视转换成网络，特别是系统性的领域知识认知也更多的发生在基于互联网的在线教育场景下。基于互联网的知识获取方式为个体积累了大量的认知过程数据，通过对这些个体数据的分析可以实现细粒度的、准确的个体知识评价。

保罗.撒伽德在《认知科学导论》中指出“认知科学是研究人类如何将信息转化为知识过程的跨领域学科，涵括哲学、心理学、人工智能、神经科学、语言学和人类学”。认知科学旨在研究记忆、感知、知识表征、推理以及决策过程等方面，本发明将从计算的角度，着重关注于认知过程模型、知识获取过程以及个体知识评价研究。本发明涉及的现有技术有：

现有技术一：贝叶斯知识跟踪模型(Bayesian Knowledge Tracing,BKT)。BKT模型是目前主流的建模个体认知过程的方法，由Corbett等人与1995年公开发表(Corbett,A.T.,Anderson,J.R.:Knowledge Tracing:Modeling the Acquisition of Proce-duralKnowledge.In:UMUAI.Volume 4.(1995)253-278)。该模型基本思想是通过个体可观测的认知表现数据估计个体不可观测的隐含知识状态，通过模拟人类认知过程中可能存在猜测、失误以及遗忘的特性，并且考虑了对知识的初始掌握状态以及认知能力，最终构建个体的知识跟踪模型。如图1所示BKT模型通过四个参数来模拟个体的认知过程，分别为P(L₀)、P(T)、P(G)和P(S)，其中P(L₀)表示在初始状态下个体掌握某知识点的概率，P(T)表示个体对某知识点从未认知状态到认知状态的转移概率，即个体的认知能力，P(G)表示个体在未掌握某知识点的情况下做对该知识点的概率(猜对的概率)，P(S)表示个体在掌握某知识点的情况下反而做错的概率(失误的概率)。通过互联网认知环境中的数据积累实现BKT模型的参数求解，进而模拟个体认知过程。

现有技术二：经典个体知识测试理论。该理论往往通过问卷调查或者考试的方式进行，然后对测验中的客观题目通过自动化或者人工的方式批阅，主观题目往往只能通过人工方式批阅，最终形成一个量化得分作为个体的知识评价。这种个体知识评价技术的特点是对所有个体都实施相同的测验题目而不考虑各人的实际知识水平状态。

现有技术三：基于项目反应理论(Item Response Theory，IRT)的个体测试技术。该技术采用数学模型表示以及推导个体的认知能力，对不同能力的个体动态抽取不同的项目进行测试，最终形成个体认知能力的评价。IRT理论的主要特点是项目参数不变性，即每个项目的难度，区分度和猜测参数不会随着个体的不同而改变，此外IRT技术不能保证个体同一知识空间内进行度量。

现有技术的缺陷：现有技术一，可以描述个体对于单个知识点的认知结果，但是没有形成对个体在某个领域的整体知识评价机制，也没有引入知识难度以及个体认知能力差异等因素；现有技术二，传统的阅卷方式并不能很好的适应互联网环境，并且仅通过最终的测验并不能客观的评价个体的知识状态(带有一定的随机性)，需要对个体的认知过程进行建模；现有技术三，针对技术二的缺陷进行改进，但是项目参数的不变性并不能适应所有的待评价个体，对个体的评价无法保证同一知识空间内进行，无法形成个体在整体领域的知识评价。

发明内容

针对现有技术的不足，本发明提出一种基于认知过程链的个体知识评价方法及系统。

本发明提出一种基于认知过程链的个体知识评价方法，包括：

步骤1，对数据进行预处理，对预处理后生成的数据集合进行初始化，根据初始化后的数据集合，训练BKT模型，其中所述初始化后的数据集合包括学习者集合、知识点集合以及学习者对应的知识点的应答结果序列；

步骤2，根据所述BKT模型，计算所述初始化后的数据集合中每个知识点的难度系数、每位学习者的认知能力；

步骤3，根据所述学习者对某个知识点的回答序列训练新BKT模型，将所述新BKT模型回代到每一次隐含状态的转移中，获取学习者已经掌握的知识点集合；

步骤4，根据所述难度系数以及所述认知能力构建目标知识集合，根据所述学习者已经掌握的知识点集合与所述目标知识集合计算学习者知识评价得分。

所述步骤1中对数据进行预处理包括：

(1)删除数据中知识点为空的记录；

(2)删除数据中题目类型为开放式回答的记录；

(3)调整是否回答正确字段值不为0或1的记录，如果字段值大于等于0.5则调整是否回答正确的字段值为1，如果字段值小于0.5则调整回答正确的字段值为0。

所述步骤1中对预处理后生成的数据集合进行初始化包括：

(1)学习者集合：遍历数据库，统计出所有的学习者；

(2)知识点集合：遍历数据库，统计出某学科领域的所有知识点；

(3)回答序列：统计出数据库中每位学习者对每个知识点的回答序列。

所述步骤1中训练BTK模型包括：

步骤11，初始化参数矩阵SK_M×N为空集，其中S为学习者集合，K为知识点集合，M为学习者数量，N为知识点数量；

步骤12，从学习者集合中选择某个学习者s_i∈S以及所述学习者所练习过的某个知识点k_j∈Kⁱ；

步骤13，对于<s_i,k_j>获取认知序列R^i,j，将R^i,j作为输入，训练BKT模型；

步骤14，将BKT模型参数作为一行插入到SK_M×N矩阵中；

步骤15，重复步骤2-3，直至遍历完所有的学习者及知识点。

所述步骤2中计算难度系数包括：

步骤211，初始化难度系数词典DMap为空集；

步骤212，从知识点集合中选取某个知识点k_j∈K；

步骤213，从参数矩阵SK_M×N集合中选出所有练习过知识点k_j的学习者对应的BKT模型参数向量；

步骤214，计算知识点难度系数d_j；

步骤215，将<k_j,d_j>插入词典DMap<k_j,d_j>；

步骤216，重复步骤212-215,直至遍历所有知识点。

所述步骤2中计算每位学习者的认知能力包括：

步骤217，初始化认知能力字典LMap为空集；

步骤218，从学习者集合中选取某个学习者s_i∈S；

步骤219，从参数矩阵SK_M×N集合中选出学习者s_i练习过的所有知识点对应的BKT模型参数向量；

步骤220，计算学习者认知能力l_i；

步骤221，将<s_i,l_i>插入词典LMap<s_i,l_i>；

步骤222，重复步骤218-221,直至遍历所有学习者。

所述步骤3中获取学习者已经掌握的知识点集合包括：

步骤31，初始每位学习者已掌握的知识点集合为空；

步骤32，从学习者集合中选择学习者s_i∈S及其练习过的知识点k_j∈Kⁱ；

步骤33，按照时间顺序遍历<s_i,k_j>对应的应答结果序列r^i,j∈R^i,j；

步骤34，如果r^i,j＝＝1则如果r^i,j＝＝0则其中P_i,j(L_n-1)为出始状态下学习者s_i掌握知识点k_j的概率，P_i,j(S)为学习者s_i在掌握知识点k_j的情况下，做错该知识点的概率，P_i,j(G)为学习者s_i能够猜对知识点k_j的概率；

步骤35，计算P_i,j(L_n)＝P_i,j(L_n-1)+(1-P_i,j(L_n-1))*P_i,j(T)，P_i,j(T)为学习者s_i对于知识点k_j从未学会状态到学会状态的转移概率；

步骤36，如果P_i,j(L_n)≥β，将知识点k_j加入到

其中，L表示学习者对某知识点的认知过程；G表示学习者在认知过程中猜测的行为；S表示学习者认知过程中失误的事件；T表示学习者对某知识点训练过后，由未掌握状态向掌握状态的转移事件。

本发明还提出一种基于认知过程链的个体知识评价系统，包括：

预处理模块，用于对数据进行预处理，对预处理后生成的数据集合进行初始化，根据初始化后的数据集合，训练BKT模型，其中所述初始化后的数据集合包括学习者集合、知识点集合以及学习者对应的知识点的应答结果序列；

初始化模块，用于根据所述BKT模型，计算所述初始化后的数据集合中每个知识点的难度系数、每位学习者的认知能力；

获取已经掌握的知识点集合模块，用于根据所述学习者对某个知识点的回答序列训练新BKT模型，将所述新BKT模型回代到每一次隐含状态的转移中，获取学习者已经掌握的知识点集合；

评价模块，用于根据所述难度系数以及所述认知能力构建目标知识集合，根据所述学习者已经掌握的知识点集合与所述目标知识集合计算学习者知识评价得分。

所述预处理模块中对数据进行预处理包括：

(1)删除数据中知识点为空的记录；

(2)删除数据中题目类型为开放式回答的记录；

由以上方案可知，本发明的优点在于：

本发明为个体知识评价提供了新的技术思路，通过模拟个体认知过程，度量个体的知识状态集合，进而实现个体在认知表现维度上的评价。

附图说明

图1为贝叶斯知识跟踪模型的示意图；

图2为基于认知过程链的个体知识评价机制的步骤流程图；

图3为学习者知识评价实施例步骤流程图；

图4为个体知识集合关系示意图；

图5为知识点难度系数分布直方图；

图6为学习者认知能力分布直方图；

图7为学习者认知表现得分分布直方图。

具体实施方式

为解决现有技术中出现的技术问题，本发明提出一种基于认知过程链的个体知识评价方法及系统，本发明的目的在于根据互联网环境下个体积累的认知过程数据，测量个体的知识结构，进而实现个体在认知表现维度的评价。

一种基于认知过程链的个体知识评价方法及系统，涉及到的技术方案如图2所示，技术方案涉及到的关键技术点及说明如下。

1.数据预处理阶段。

通常互联网认知环境积累的数据集合中存在知识点字段为空的记录，这些记录无法提供个体与知识的关联性，需要将知识点字段为空的记录删除；数据集合中存在多种题目类型，包括：单选题目，输入代数公式类型题目，开放式题目，其中开放式题目是指无论个体输入何种答案，系统都默认回答正确，因此开放式题目无法衡量个体的知识状态，需要将此类数据删除。

2.数据集合初始化。

数据集合初始化阶段为后续步骤提供基础通用的数据集合，目的是降低需要多次使用的通用集合的计算时间代价。该步骤主要统计出数据集中所有的个体、知识点，分别构成个体集合和知识点集合，针对每位个体统计出其训练过的每个知识点的回答序列。

3.训练贝叶斯知识跟踪(BKT)模型。

基于个体对知识点的回答序列，为每位个体及其所练习过的每个知识点训练出BKT模型。模型输出个体在某个知识点上的认知过程模拟参数，包括：初始状态掌握该知识点的概率、个体对某知识点从未认知状态到认知状态的转移概率、对知识点猜对的概率和对知识点失误的概率。

4.计算个体认知能力。

认知能力是个体的固有属性，每位个体具备不同的认知能力。某特定个体的认知能力可以通过该个体在练习过的所有题目上的综合表现来表征。本发明通过上述思想来计算个体认知率。

5.计算知识点难度系数。

难度系数是用来衡量知识点固有难度的指标。利用所有个体在不同知识点之间的认知率差异，计算不同知识点的难度系数。

6.计算每位个体已掌握的知识集合和应该掌握的知识集合。

如果个体不断地重复练习某个知识点，往往练习达到一定次数后，该个体可以掌握此特定知识点，通过训练个体对该知识点的BKT模型，可以计算出在当前数据时间片下该个体是否掌握了此知识点，因此在某个确定的时间片处可以计算出个体已经掌握的知识点集合。本发明假设如果某个体同一班级的绝大部分个体都掌握了某个知识点以及该个体的认知能力超过此知识点的固有难度，则该个体应该掌握此知识点，因此可以计算出每位个体应该掌握的知识集合。

7.基于知识表现对个体进行评价。

个体知识表现是指该个体掌握知识集合相比于应该掌握的知识集合的比例。步骤6中已经计算出每位个体已经掌握的知识点集合和应该掌握的知识点集合，通过两个集合中元素数量的比值可以衡量个体的认知表现情况。

8.发掘知识表现较差和优秀的个体。

通过对个体知识评价的得分排序，可以发掘知识表现较差以及优秀的个体。

为使本发明的目的、技术方案和优点更加清楚，以下结合附图2，提供一种基于认知过程链的个体知识评价方法的实施例，对本发明实施方式做进一步地详细描述，如下所示：

1、符号定义及问题形式化描述

首先，为形式化定义个体知识评价问题，以及对该问题的科学求解过程，核心数学符号定义如下：

表1：基于认知过程链的学习者知识评价问题符号定义与说明

(1)知识点难度系数(Coefficient of Difficulty)

知识点难度系数是衡量某个知识点的固有属性，知识点难度系数的提出是基于每个知识点都有不同的被认知难度的假设，例如:通常来讲乘法和除法要比加法和减法具有更高的难度系数。在本设计中，知识点难度系数无法从数据集中直接获取，需要通过启发式策略获取。

假设通过所有练习过某知识点的个体在该知识点上平均认知表现能够在一定程度上衡量该知识点的难度。

定义1(知识点难度)：给定一个知识点k_j，练习过该知识点的学习者集合以及BKT模型矩阵SK_M×N。知识点k_j的难度d_j为：

(2)认知能力(Learning Rate)

不同的个体之间具有不同的认知能力，假设学习者的认知能力可以通过该学习者在练习过的所有题目上面的综合表现来表征。例如：学习者A练习过加法、减法、乘法和除法四个知识点，学习B也同样练习过这四个知识点，但是A对每个知识点的认知能力P(T)都高于学习者B。本设计任务学习者A的认知能力高于学习者B。

定义2(学习者认知能力)：给定一个学习者s_i，s_i练习过的知识点集合以及BKT模型矩阵SK_M×N。学习者s_i的认知能力l_i为：

(3)已经掌握的知识点(Mastered Skill)

学习者通过对某一个知识点的不断练习，最终会掌握该知识点，则将该知识点添加到该学习者已经掌握的知识点集合中。因此在整个数据集合中对每个学习者不断寻找其已经掌握的知识点并构建该学习者的掌握知识点集合。下面对如何判别学习者是否掌握某知识点给出形式化定义。

定义3(已经掌握的知识点)：给定学习者s_i，知识点k_j，BKT模型s_ik_j＝<P_i,j(L₀),P_i,j(T),P_i,j(G),P_i,j(S)>，学习者s_i对于知识点k_j的回答序列以及一个判别系数e,令n＝|R^i,j|。则满足下述条件则说明学习者s_i掌握了知识点k_j：

P_i,j(L_n)＝P_i,j(L_n-1)+(1-P_i,j(L_n-1))*P_i,j(T)

并且

P_i,j(L_n)≥e

(1)目标知识点(Target Skill)

假设学习者学习能力在一定程度上超过了知识点的难度，则认为该学习者应该掌握该知识点，进一步将该知识点加入到该学习者的目标知识点集合。学习者的目标知识点集合应该包含该学习者已经掌握的知识点集合。

定义4(目标知识点)：给定学习者s_i，知识点k_j，以及一个判别系数ε，从DMap<k_j,d_j>中获取知识点k_j的难度系数d_j，从LMap<s_i,l_i>中获取学习者s_i的认知能力l_i。则满足下述条件则说明知识点k_j属于学习者s_i的目标知识点。

l_i≥εd_j

(2)学习者的知识评价

本发明设计主要考虑从三个维度来评价学习者知识状态，最主要的方面是基于知识水平评估的维度来度量，另外两个维度分别为情感状态维度和学习行为表现维度。大量的相关研究显示学习过程中的情感状态以及学习行为表现都会极大影响学习者的学习效果。

f(s_i)＝αf₁(s_i,Knowledge)+βf₂(s_i,Affect)+γf₃(s_i,Behavior)

由于多维度信息集成的困难性，本发明目前实现知识水平维度来挖掘表现较差的学习者，通过已经掌握的知识点集合与目标知识点集合的面积比例确定学习者在知识水平维度的表现情况，比如：某学习者目标知识点集合中知识点数量很多，但是其已经掌握的知识点集合中知识点数量很少，则说明该学习者在知识水平维度表现较差。

定义5(学习者知识评价计算)：给定学习者s_i，已经掌握的知识点集合以及目标知识点集合学习者s_i的认知表现为：

本发明案例实施步骤

根据上文中的符号以及定义，图4中所示知识集合之间的关系，全部知识点集合表示学科领域中全部的知识点，掌握知识点集合表示某学习者在该学科领域中已经掌握的知识点集合，目标知识点集合表示该学习者应该掌握但是尚未掌握的知识点集合。下面将对基于认知过程链的学习者评价机制中的各个实施步骤给出介绍以及对应的伪代码。

步骤S110，数据预处理；

数据预处理阶段主要是将不符合条件的数据记录去除或者进行调整，主要执行以下操作：

(1)删除数据集中知识点为空的记录；

(2)删除数据集中题目类型为开放式回答的记录；

(3)调整是否回答正确字段值不为0或1的记录，如果字段值大于等于0.5则调整是否回答正确字段值为1，如果字段值小于0.5则调整字段值为0。

步骤S120，数据集合初始化。

对于需要重复使用的数据集合，在初始化阶段计算并保存，可以降低后续计算过程中的时间开销。该步骤需要完成以下三类数据集合的初始化：

(1)学习者集合：遍历数据库，统计出系统中所有的学习者；

(2)知识点集合：遍历数据库，统计出系统中某学科领域的所有知识点；

(3)回答序列：统计出数据库中每位学习者对每个知识点的回答序列。其中回答序列是指随着时间的迁移，学习者对于某个知识点每次回答是否正确组成的0，1序列，其中0表示回答错误，1表示回答正确。

步骤S130，训练BKT模型。

BKT模型是只具备一个隐含节点和一个观测节点的隐马尔科夫模型，目标是根据某个学习者对于某个知识点的做题结果序列估计出该学习者对于该知识点的初始知识概率、学习能力概率、猜测概率以及失误概率，即<P_i,j(L₀),P_i,j(T),P_i,j(G),P_i,j(S)>。

BKT模型实现的伪代码如下所示：

步骤S140，计算每个知识点的难度系数。

基于BKT模型参数，计算数据集中每个知识点的难度系数，该部分算法的实现思想是基于如下两个假设：

a)每个知识点都具备相应的难度系数，并且不同的知识点的难度系数很可能不相同；

b)某特定知识点会有很多学习者练习过，知识点的难度系数可以通过这些练习者的平均学习效率来衡量。

基于以上两个假设，实现计算每个知识点的难度系数伪代码如下：

步骤S141，计算每个学习者的认知能力。

基于BKT模型参数，计算数据集中每位学习者的认知能力。该部分算法的实现是基于如下两个假设：

a)学习者之间的认知能力具有差异化；

b)学习者的认知能力可以通过练习过的知识点来衡量。

基于上述假设，实现计算学习者认知能力的算法伪代码如下：

步骤S142，发掘学习者已经掌握的知识点集合。

根据学习者对某个知识点的回答序列可以训练出BKT模型，将训练处的BKT模型回代到每一次隐含状态的转移中，可以得到最后一次回答该知识点时对应得隐含状态为“已掌握状态”的概率，即学习者已经掌握了该知识点的概率。

进一步为每位学习者计算其已掌握的知识点集合。参见定义3的贝叶斯概率迭代公式，给出计算学习者已经掌握知识点集合的算法伪代码。

步骤S150，为每个学生发掘目标知识点集合。

目标知识点集合即学习者应该掌握但尚未掌握的知识点集合，根据每个学生的学习能力以及知识点的难度判定某知识点是否是该学习者的目标知识点。参见定义4。给出计算学习者目标知识点集合的算法伪代码如下：

步骤S160,计算学习者知识评价得分。

学习者认知表现的差异通过学习者已掌握的知识集合和目标知识集合的大小来衡量，根据定义6中公式定义，基于步骤S142和步骤S150中算法的输出，为每位学习者计算出认知表现得分，进一步将每位学习者按照其认知表现得分由低到高排序，即可找出优秀学习者和较差学习者。

本发明实施例的实验结果展示如下：图5给出知识点的难度系数分布，可以看出系统中大多数知识点是中等难度。图6展示了学习者的认知能力分布，从图中可以看出系统中学习者认知能力的分布情况呈现正态分布趋势，与现实世界中的规律相符。图7是学习者认知表现得分的分布直方图，横坐标代表表现得分，纵坐标代表特定得分范围内的学习者数目，认知表现得分在0.5左右的人数最。最终求得认知表现较差的Top-5学习者如下：

本发明实施例通过上述步骤实现了基于认知过程链的学习者知识评价机制。本发明实施例将来可以应用到学习网站中，帮助学习者进行自我干预反馈以及制定个性化学习方案。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于认知过程链的个体知识评价方法，其特征在于，包括：

2.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤1中对数据进行预处理包括：

(1)删除数据中知识点为空的记录；

(2)删除数据中题目类型为开放式回答的记录；

3.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤1中对预处理后生成的数据集合进行初始化包括：

(1)学习者集合：遍历数据库，统计出所有的学习者；

4.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤1中训练BTK模型包括：

步骤14，将BKT模型参数作为一行插入到SK_M×N矩阵中；

步骤15，重复步骤2-3，直至遍历完所有的学习者及知识点。

5.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤2中计算难度系数包括：

步骤211，初始化难度系数词典DMap为空集；

步骤212，从知识点集合中选取某个知识点k_j∈K；

步骤214，计算知识点难度系数d_j；

步骤215，将<k_j,d_j>插入词典DMap<k_j,d_j>；

步骤216，重复步骤212-215,直至遍历所有知识点。

6.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤2中计算每位学习者的认知能力包括：

步骤217，初始化认知能力字典LMap为空集；

步骤218，从学习者集合中选取某个学习者s_i∈S；

步骤220，计算学习者认知能力l_i；

步骤221，将<s_i,l_i>插入词典LMap<s_i,l_i>；

步骤222，重复步骤218-221,直至遍历所有学习者。

7.如权利要求1所述的基于认知过程链的个体知识评价方法，其特征在于，所述步骤3中获取学习者已经掌握的知识点集合包括：

步骤31，初始每位学习者已掌握的知识点集合为空；

步骤36，如果P_i,j(L_n)≥β，将知识点k_j加入到

8.一种基于认知过程链的个体知识评价系统，其特征在于，包括：

9.如权利要求8所述的基于认知过程链的个体知识评价系统，其特征在于，所述预处理模块中对数据进行预处理包括：

(1)删除数据中知识点为空的记录；

(2)删除数据中题目类型为开放式回答的记录；