CN109902298A

CN109902298A - 一种自适应学习系统中领域知识建模及知识水平估测方法

Info

Publication number: CN109902298A
Application number: CN201910116245.3A
Authority: CN
Inventors: 周东岱; 李振
Original assignee: Northeast Normal University
Current assignee: Northeast Normal University
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2019-06-18
Anticipated expiration: 2039-02-13
Also published as: CN109902298B

Abstract

本发明公开了一种自适应学习系统中领域知识建模及知识水平估测方法，具体涉及自适应学习领域。其解决了现有教育领域班级化教育服务难以满足个性化教育需求的问题。具体包括基于知识图谱的领域知识建模和基于深度学习技术的知识水平估测两方面的内容。基于知识图谱的领域知识建模包括确定学科知识图谱框架；收集数字教学资源，并分析数字教学资源的文本的结构特点和语言特点，构建用于学科知识图谱抽取的教育语料库：教育语料库包括分词和词性标注、句法分析、命名实体、实体关系四个语料；学科知识图谱构建。基于深度学习技术的知识水平估测包括领域数据预处理与向量化，采用CNN对领域特征进行自动提取，特征向量降维，基于LSTM模型的深度知识追踪。

Description

一种自适应学习系统中领域知识建模及知识水平估测方法

技术领域

本发明涉及自适应学习领域，具体涉及一种自适应学习系统中领域知识建模及知识水平估测方法。

背景技术

我国古代伟大的思想家、教育家孔子在公元前就提出了“因材施教”的教育思想，美国哈佛大学心理学教授霍华德·加德纳也再三强调学校教育改革必须重视“学生个体的差异”。然而，传统教学中，由于班级学生众多，教师凭个人能力很难做到“因材施教”。实践表明，在传统的规模化、流水线教学模式下，教师是知识的传授者，学生是知识的灌输对象，学生的学习主动性、创造性受到很大限制，不利于培养满足21世纪需要的个性化、创新型人才。

自适应学习系统是实现个性化学习的主要技术手段，主要包括领域模型、学习者模型和自适应模型三个核心组件。其中：领域知识模型的核心是领域知识建模，一般采用知识图对主题、概念、知识点、学习活动等内容及其关系进行表征；学习者模型作为自适应学习系统的基础，其实质是对学习者的知识水平进行测评。

领域知识建模方面，目前的主要方法包括概念图、知识地图、认知地图等。研究表明，知识图谱相比概念图、知识地图和认知地图，能够表达更加广泛的实体内容以及丰富的语义关联关系，而且能够基于大数据、机器学习技术进行自动化的构建。知识水平估测方面，主要方法有项目反应理论、认知诊断模型、贝叶斯知识追踪等。随着新一代人工智能的发展，基于深度学习的知识水平估测方法成为新的突破口。

因此，以知识图谱为基础对领域知识进行建模，以深度学习为手段对学习者学科知识水平进行精准估测，对于开展自适应学习、提供个性化学习服务和学习体验，解决我国教育供给中存在的个性化学习服务能力不足问题，具有重大的理论意义和现实的应用价值。

发明内容

本发明的目的是整合领域知识模型和相应的估测方法，以学科知识图谱为基础，以深度学习技术为手段对学习者知识水平进行精准估测，为应用技术提供个性化学习服务和学习体验的自适应学习系统提供更加精准的学习者知识水平估测方法。

本发明具体采用如下技术方案：

一种自适应学习系统中领域知识建模及知识水平估测方法，所述领域知识建模采用知识图谱实现，具体包括以下步骤：

步骤Ⅰ：确定学科知识图谱框架

学科知识图谱采用式(1)表示：

G＝(E,R,S) (1)

其中，E＝{e₁,e₁,...,e_|E|}表示学科知识图谱中的知识实体集合，共包含|E|种不同实体；R＝{r₁,r₁,...,r_|R|}表示学科知识图谱中的知识关系集合，共包含|R|种不同关系；表示学科知识图谱中的实体及其关系组成的三元组集合；

步骤Ⅱ：对教育语料进行标注；

步骤Ⅲ：学科知识图谱构建。优选地，所述步骤Ⅱ具体包括：

2-1)数据收集与分析：收集数字教学资源，并分析数字教学资源的文本结构特点和语言特点，为语料库的构建提供数据基础；

2-2)构建用于学科知识图谱抽取的教育语料库：教育语料库包括分词和词性标注、句法分析、命名实体、实体关系四个语料；

首先依据学科知识图谱框架的命名实体分类和实体关系分类建立实体和实体关系标注体系；然后针对每类实体和实体关系的标注，制定总体标注原则以及正反标注示例，制定标注规范草稿；再通过三轮以上的预标注和专家评判法，完善形成标准规范；在此基础上，采用领域专家的标注模式，进行命名实体和实体关系语料的标注，形成命名实体语料和实体关系语料。

优选地，所述分词和词性语料库以宾州中文树库标注规范作为基础规范，从教学设计文本中抽取语句，构建分词和词性标注语料。

优选地，所述句法分析标注以宾州中文树库标注规范为基础，结合教学设计和试卷文本的实际标注情况及信息抽取的需要，对标注规范进行迭代修订，最后通过人机互助的方式进行数字化资源的标注工作，形成标注的语法树。

优选地，所述步骤Ⅲ中的学科知识图谱构建具体包括：

3-1)实体识别和关系分类的关键特征提取，总体特征采用式(2)的特征向量表示：

F＝(Pre,Suf,Stop,Pos,Wordlen,Distance,...,Simi) (2)

其中，Pre表示前词，Suf表示后词，Stop表示停用词，Pos表示词性特征，Wordlen表示词长特征，Distance表示词距离特性，语义特征指的是词语级别的语义特征，采用连续词袋模型表示词向量，记为w＝(v₁,v₂,...,v_m)，并基于词向量计算词语的语义相似度特征Simi；

3-2)构建基于半监督方法的联合抽取模型；

3-2-1)基于半监督CRF模型识别命名实体：

应用CRF模型，通过序列标注进行命名实体识别；假设需要标注的词语序列为X＝(x₁,x₂,x₃，...,x_t)，即观察序列；定义Y＝(y₁,y₂,y₃，...,y_t)为X上对应的标注序列，即状态序列；学科知识命名实体识别问题可转化为：已知观察序列X的条件下，求解状态序列Y的概率P(Y/X)最大时的状态序列，该状态序列即为学科知识命名实体识别问题的标注结果，计算方法如式(3)所示：

其中，Z(x)表示归一化因子，f_k表示特征函数，λ_k表示权重参数；

在进行半监督CRF模型训练时，将前述总体特征向量F作为输入，已标注的训练语料采用BIOES规范进行编码，通过最小化未标注数据的条件熵来有效利用未标注数据的信息；具体计算如式(4)：

3-2-2)基于最大熵模型的实体关系分类

对识别出的实体集合按概率输出大小对其进行排序，记为E_best1、E_best2、E_best3……，对任意n∈E，o∈E′，构建候选实体对(n,o)，使用最大熵模型并融入特征向量F对候选实体对进行关系分类，形成关系候选集R，记分类概率为p；

3-2-3)基于反馈阈值的联合学习

以E_best1、E′_best1作为命名实体集合的初始值，分别以E_bestN、E′_bestM作为候选集合；对于每句中的关系集合R，选取分类概率p最大的关系r，将p与设定的实体反馈阈值q进行比较，若p>q，则加入最终命名实体集合中；同时，当且仅当同时成立时，将关系r加入最终关系集合R_last。

优选地，知识水平估测方法采用CNN对领域特征进行自动提取，再基于LSTM模型进行深度知识追踪，具体步骤包括：

1)领域数据预处理与向量化，并构建数据集

根据建立的学科知识图谱框架，对学科知识内容特征数据和学习者答题数据进行预处理，把输入数据各个维度都中心化为零并进行特征的归一化处理，然后将每位学习者个体差异和答题数据构造成二维向量，并将数据集分割为训练集、开发集和测试集三部分；

2)采用卷积神经网络模型CNN作为特征提取器从训练数据中自动学习影响知识追踪的领域特征

建立由多个卷积层、池化层和全连接层构成的CNN网络，其中：

卷积层由多种不同大小的卷积核来提取多组局部特征图，卷积操作后的输出为式(5)：

c_i＝f(w×x_i,i+h-1+b) (5)

其中，w为卷积核，h为窗口长度，b为偏置项，f为激活函数，为加快训练收敛速度，采用ReLu函数作为激活函数，即f(x)＝max(0,x)；

对卷积层提取出来的特征图进行max-pooling操作，然后通过全连接层的Softmax函数对特征进行计算，从而根据输出的概率值提取出领域特征；假设提取的领域特征向量为M＝{m₁,m₂,m₃,...,m_n}，设答题正误的变量为a，则所有的影响知识追踪模型的特征集合表示为式(6)

A＝M∪a＝{m₁,m₂,m₃,...,m_n,a} (6)；

3)特征向量降维

首先对上述特征进行特征交叉，在此基础上进行one-hot编码、编码特征级联，此过程表达如式(7)：

v_t＝O(C(m₁,a))～O(C(m₂,a))～...～O(C(m_n,a)) (7)

其中，O函数表示对向量进行one-hot编码，C函数表示对特征进行交叉运算，～运算表示对特征编码进行级联；

使用Autoencoder对特征向量进行降维，隐藏层和输出层函数分别为式(8)、(9)：

v′_t＝tanh(W_ed·v_t+b_ed) (8)

4)知识追踪模型的训练和优化

将上述编码、降维后的向量作为输入，训练基于长短期记忆网络并融入领域特征的深度知识追踪模型，LSTM网络包括输入门i，遗忘门f，输出门o，以及cell单元c，其传递公式如式(10)-(14)：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (10)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (11)

c_t＝f_t·c_t-1+i_t·tanh(w_xcx_t+w_hch_t-1+b_c) (12)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o) (13)

h_t＝o_t·tanh(c_t) (14)

其中，x_t为t时刻的输入，w为权重，b为偏置，g代表激活函数，h为当前层的输出，

LSTM网络训练时拟采用交叉熵损失函数，公式如(15)

其中，q表示学习者t+1时刻回答的题目，a表示t+1时刻答题的对错情况，δ表示降维后的one-hot编码格式，l表示交叉熵函数，y^T表示t时刻的输出。

本发明具有如下有益效果：

自适应学习系统中领域知识建模及知识水平估测方法，以学科知识图谱为基础，以深度学习技术为手段，对于开展自适应学习、提供个性化学习服务和学习体验，解决我国教育供给中存在的个性化学习服务能力不足问题，具有重大的理论意义和现实的应用价值。

附图说明

图1为知识水平估测方法框图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

步骤Ⅰ：确定学科知识图谱框架

学科知识图谱框架是知识图谱体系的最底层模式结构，也就是知识图谱的Schema，学科知识图谱框架包括知识实体类别以及实体关系类别。学科知识图谱的实体包括学科的主题、概念、知识点等，实体关系有包含关系、父子关系、解释关系、因果关系等。

学科知识图谱采用式(1)表示：

G＝(E,R,S) (1)

步骤Ⅱ：对教育语料进行标注；

步骤Ⅲ：学科知识图谱构建。

步骤Ⅱ具体包括：

当前，所积累的海量教学设计以及试题试卷数据堪称教育领域的大数据,蕴含了大量的学科知识和教与学策略，是构建学科知识图谱的重要数据源，能够为学科知识图谱实体和实体关系自动抽取提供支持。

2-1)数据收集与分析：收集数字教学资源，并分析数字教学资源的文本的结构特点和语言特点(子语言特性)，为语料库的构建提供数据基础；

分词和词性语料库以宾州中文树库((PennChinesetreebank,PCTB))标注规范作为基础规范，从教学设计文本中抽取语句，构建分词和词性标注语料。

句法分析标注以宾州中文树库标注规范为基础，结合教学设计和试卷文本的实际标注情况及信息抽取的需要，对标注规范进行迭代修订，最后通过人机互助的方式进行数字化资源的标注工作，形成标注的语法树。

步骤Ⅲ中的学科知识图谱构建具体包括：

F＝(Pre,Suf,Stop,Pos,Wordlen,Distance,...,Simi) (2)

3-2)构建基于半监督方法的联合抽取模型；

3-2-1)基于半监督CRF模型识别命名实体：

3-2-2)基于最大熵模型的实体关系分类

3-2-3)基于反馈阈值的联合学习

当前深度知识追踪模型的预测性能与传统模型相比提高并不明显的原因是忽视了学习者间的个体差异以及测试项目内容特征等领域特征。然而，通过特征工程，人工选择领域特征再输入到RNN网络中，费时费力而且难以保证其客观性，同时也与数据驱动的思路相悖。学习者间的个体差异以及测试项目的内容特征实际上可以理解或映射为关于学习者和测试项目的图像，而CNN可作为空间上的深度网络能够较好地实现特征的提取。

本发明中的知识水平估测方法采用CNN对领域特征进行自动提取，再基于LSTM模型进行深度知识追踪。

如图1所示，知识水平估测方法具体包括：

1)领域数据预处理与向量化，并构建数据集

c_i＝f(w×x_i,i+h-1+b) (5)

A＝M∪a＝{m₁,m₂,m₃,...,m_n,a} (6)；

3)特征向量降维

v_t＝O(C(m₁,a))～O(C(m₂,a))～...～O(C(m_n,a)) (7)

v_t′＝tanh(W_ed·v_t+b_ed) (8)

4)知识追踪模型的训练和优化

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (10)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (11)

c_t＝f_t·c_t-1+i_t·tanh(w_xcx_t+w_hch_t-1+b_c) (12)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o) (13)

h_t＝o_t·tanh(c_t) (14)

LSTM网络训练时拟采用交叉熵损失函数，公式如(15)

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种自适应学习系统中领域知识建模及知识水平估测方法，所述领域知识建模采用知识图谱实现，其特征在于，具体包括以下步骤：

步骤Ⅰ：确定学科知识图谱框架，学科知识图谱采用式(1)表示：

G＝(E,R,S) (1)

步骤Ⅱ：对教育语料进行标注；

步骤Ⅲ：学科知识图谱构建。

2.如权利要求1所述的一种自适应学习系统中领域知识建模及知识水平估测方法，其特征在于，所述步骤Ⅱ具体包括：

2-1)数据收集与分析：收集数字教学资源，并分析数字教学资源的文本的结构特点和语言特点，为语料库的构建提供数据基础；

3.如权利要求2所述的一种自适应学习系统中领域知识建模及知识水平估测方法，其特征在于，所述分词和词性语料库以宾州中文树库标注规范作为基础规范，从教学设计文本中抽取语句，构建分词和词性标注语料。

4.如权利要求2所述的一种自适应学习系统中领域知识建模及知识水平估测方法，其特征在于，所述句法分析标注以宾州中文树库标注规范为基础，结合教学设计和试卷文本的实际标注情况及信息抽取的需要，对标注规范进行迭代修订，最后通过人机互助的方式进行数字化资源的标注工作，形成标注的语法树。

5.如权利要求1所述的一种自适应学习系统中领域知识建模及知识水平估测方法，其特征在于，所述步骤Ⅲ中的学科知识图谱构建具体包括：

F＝(Pre,Suf,Stop,Pos,Wordlen,Distance,...,Simi) (2)

3-2)构建基于半监督方法的联合抽取模型；

3-2-1)基于半监督CRF模型识别命名实体：

3-2-2)基于最大熵模型的实体关系分类

3-2-3)基于反馈阈值的联合学习

以E_best1、E'_best1作为命名实体集合的初始值，分别以E_bestN、E'_bestM作为候选集合；对于每句中的关系集合R，选取分类概率p最大的关系r，将p与设定的实体反馈阈值q进行比较，若p>q，则加入最终命名实体集合中；同时，当且仅当同时成立时，将关系r加入最终关系集合R_last。

6.如权利要求1所述的一种自适应学习系统中领域知识建模及知识水平估测方法，其特征在于，知识水平估测方法采用CNN对领域特征进行自动提取，再基于LSTM模型进行深度知识追踪，具体步骤包括：

1)领域数据预处理与向量化，并构建数据集

c_i＝f(w×x_i,i+h-1+b) (5)

A＝M∪a＝{m₁,m₂,m₃,...,m_n,a} (6)；

3)特征向量降维

v_t＝O(C(m₁,a))～O(C(m₂,a))～...～O(C(m_n,a)) (7)

v'_t＝tanh(W_ed·v_t+b_ed) (8)

4)知识追踪模型的训练和优化

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (10)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (11)

c_t＝f_t·c_t-1+i_t·tanh(w_xcx_t+w_hch_t-1+b_c) (12)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t+b_o) (13)

h_t＝o_t·tanh(c_t) (14)

LSTM网络训练时拟采用交叉熵损失函数，公式如(15)