CN112905784A

CN112905784A - 基于学生画像的个性化试题推荐方法

Info

Publication number: CN112905784A
Application number: CN202110300356.7A
Authority: CN
Inventors: 曲大鹏; 张蕊; 吕国鑫; 王芮; 吴松林
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-04

Abstract

一种基于学生画像的个性化试题推荐方法，针对当前学生学习过程中容易迷失和学习状态难以准确评判的客观现状，通过集成现有系统和研发新系统，构建校园大数据平台，进而刻画学生精准画像。在此基础上，提出一种模糊认知诊断模型来合理判断学生的学习状态属性，并结合试题对学生学习状态的要求来预测学生的答题情况。基于预测信息，设计一种基于效用的试题推荐方法，向学生推荐其作答效用高的试题。相较于传统的DINA方法和DINO方法，本专利所提出的FDINA方法不仅在试题作答预测结果上达到了更低的均方根误差和平均绝对误差，而且在推荐结果上，取得了更高的精确度、召回率和F1值，此外，FDINA方法还能够有效提高学生作答试题的收益。

Description

基于学生画像的个性化试题推荐方法

技术领域

本发明涉及一种试题推荐方法，尤其是一种基于学生画像的个性化试题推荐方法。

背景技术

随着大数据的发展，特别是人工智能和大数据在教育领域的应用，个性化教育受到越来越多的关注，但其发展过程中暴露了一些问题：首先，对学生的数据挖掘力度不够，主要依赖于学生的学习成绩，缺乏能反映其实践能力等数据，而这些数据能够更精准地刻画学生，在个性化教育过程中具有更重要的作用；其次，学生在创新创业教育活动中的学习情况难以判断；最后，对于学生学习过程缺乏个性化推荐，例如不能向学生推荐更合适的题目。

为学生提供个性化推荐方案首先要准确掌握其学习状态属性，建立精准的学生画像。认知诊断模型是连接学生的内在属性掌握模式和外在题目反应之间的桥梁。DINA模型和DINO模型均为一种已被广泛使用的认知诊断模型，但二者均为典型的离散型认知诊断模型，不能精准诊断学生的学习状态。

当前推荐技术虽研究广泛，但整体上相对缺乏从效用角度来评价推荐对象，从而导致用户需要进一步挑选推荐结果。因此，向学生推荐答题收益高的试题，如何提高学生的学习效用这一问题引发了人们的关注。

发明内容

为了解决上述存在的问题，我们提供一种基于学生画像的个性化试题推荐方法。首先通过集成现有系统和研发新系统，构建了基于IPv6的校园大数据平台，进一步分析平台采集的学生理论学习和实践学习等数据，精准刻画学生画像；然后，提出了一种模糊认知诊断模型以合理诊断学生的学习状态属性；最后设计了一种基于效用理论的试题推荐方法，根据学生的学习状态和试题属性，向学生推荐答题收益高的试题，以提高其学习效用。

为了实现上述目的，本发明创造采用了如下技术方案：

一种基于学生画像的个性化试题推荐方法，其步骤为：

步骤(1)收集学生数据，构建得分矩阵R，构建知识点考察矩阵Q：通过校园大数据平台提取出学生的提交代码、系统评判记录、作答记录及学生实验的完成情况，得出学生在试题或者实验中的各项得分构建得分矩阵R；对每道试题或每条实验记录，通过专家评判方式对其所涉及知识点进行评估，构建知识点考察矩阵Q；

步骤(2)采用模糊认知诊断模型合理诊断学生的学习状态：根据构建得分矩阵R和知识点考察矩阵Q，通过模糊认知诊断方法获得学生的学习状态矩阵α，判断学生的学习状态，即学生的知识点掌握情况，向量中每个元素代表了学生在每个知识点上的掌握程度；

步骤(3)马尔科夫链蒙特卡洛算法(MCMC)估计参数：真实环境下，学生作答试题的得分结果的影响因素是多方面的，不仅仅依赖于学生的学习状态，学生的粗心或猜测也会对作答产生影响；因此，每道试题V_m都假设其拥有猜测参数g_m、失误参数s_m，试题归一化参数σ²，对学生在试题上的得分情况产生影响。使用MCMC算法来估计猜测参数、失误参数和试题归一化参数。

在MCMC算法的t次迭代中，从正态分布N(α^t-1,σ_α ²)中对学生的学习状态采样，计算学生学习状态的接受概率P(α^t-1,α^t)；分别从均匀分布U(g^t-1-δ_g,g^t-1+δ_g)、U(s^t-1-δ_s,s^t-1+δ_s)和U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ)中对试题的猜错参数、失误参数以及试题归一化方差采样，计算试题的猜错参数、失误参数以及试题归一化方差参数的接受概率P(g^t-1,g^t)、P(s^t-1,s^t)和P((σ²)^t-1,(σ²)^t)；直到达到最大迭代次数N_t，获得MCMC算法估计出参数

和

步骤(4)基于效用理论进行试题推荐：根据效用理论设计了一个效用函数，根据效用函数计算试题的效用值，并对试题的效用值进行排名，将效用值排名前N的试题推荐给学生，提升学生作答试题的收益。

所述的步骤(3)中具体方法为：

3.1)设FDINA模型中学习状态矩阵α、试题V_m的猜测参数g、失误参数s和试题归一化方差σ²参数的先验分布由式(1)-(4)计算：

α～U(0,1) (1)

s～Beta(x_s,y_s,min_s,max_s) (2)

g～Beta(x_g,y_g,min_g,max_g) (3)

其中，U(0,1)为一个均匀分布，Beta(x,y,min,max)为一个定义在[min,max]区间的四参数贝塔(Beta)分布，x和y为贝塔分布的形状因子，Γ(a,b)为形状因子为a，缩放因子为b的伽马分布；

3.2)根据得分矩阵R，参数α、s、g和σ²的联合后验概率可由式(5)计算；模型的似然函数L(α,s,g,σ²)计算方式如式(6)所示，其中，N_v为试题的数量，N_s为学生的个数；

P(α,s,g,σ²|R)∝L(α,s,g,σ²)P(α)P(s)P(g)P(σ²) (5)

3.3)参数α、s、g和σ²的条件分布概率计算方式如式(7)-(9)所示：

P(α|R,s,g,σ²)∝L(α,s,g,σ²)P(α) (7)

P(s,g|R,s,g,σ²)∝L(α,s,g,σ²)P(s)P(g) (8)

P(σ²|R,s,g,σ²)∝L(α,s,g,σ²)P(σ²) (9)

3.4)参数α、s、g和σ²参数的采样：根据Metropolis-Hastings的MCMC算法迭代估计参数，具体方法如算法1中第3-13行所示。在算法1中的第t轮迭代，参数α^t、g^t、s^t和(σ²)^t随机采样计算方式分别如式(10)-(13)：

α^t～N(α^t-1,σ_α ²) (10)

s^t～U(s^t-1-δ_s,s^t-1+δ_s) (11)

g^t～U(g^t-1-δ_g,g^t-1+δ_g) (12)

σ²～U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ) (13)

其中，δ_g、δ_s和δ_σ分别为g、s和σ²的采样区间参数，限定采样区间。

3.5)参数α^t、g^t、s^t和(σ²)^t的接受概率分别计算方式如式(14)-(16)：

所述的步骤(4)中，具体方法为：

学生S_i在学习状态α_i情况下，作答试题V_m的效用函数如式(17)所示：

其中，

和

是估计出的试题V_m的猜测参数和失误参数，

是估计出的学生S_i的学习状态向量；η_im为为学生S_i在试题V_m上的潜在作答情况，如式(18)所示；θ_m为试题V_m的综合通过率，如式(19)所示；

为学生S_i在学习状态α_i下与试题V_m所考察知识点Q_m的知识点相似度，如式(20)所示:

在学习状态α_i下，学生S_i在试题V_m上的潜在作答情况η_im由式(18)计算：

其中，α_i为学生S_i的知识点掌握向量，Q_m为试题V_m的知识点考察向量，α_i·Q_m为学生S_i在试题V_m所要求对应知识点掌握程度的和，||Q_m||为试题V_m所要求知识点向量Q_m的范数。

θ_m为试题V_m的综合通过率由式(19)计算：

知识点相似度

由式(20)计算:

其中，

为所有学生在试题V_m提交程序中完全通过的数量，

为试题V_m提交程序的总数量；

为

和Q_m的余弦相似度，其值域为[-1,1]，式(20)将其值域归为[0,1]。

本发明创造的有益效果：

专利提出的基于学生画像的个性化推荐试题方法不仅在试题作答预测结果上可以达到更低的均方根误差和平均绝对误差，而且在推荐结果上，取得更高的精确度、召回率和F1值，能够有效提高学生作答试题的收益。

附图说明

图1是学生画像构建流程图。

图2是FDINA认知诊断过程图。

图3是数据集中试题知识点的大致对应情况图。

图4a是猜测参数收敛情况图。

图4b是失误参数收敛情况图。

图4c是试题归一化方差收敛情况图。

图5a是试题得分预测均方根误差比较图。

图5b是试题得分预测平均绝对误差比较图。

图6a是推荐系统精确度指标表现图。

图6b是推荐系统召回率指标表现图。

图6c是推荐系统F1值指标表现图。

图7是效用对比图。

具体实施方式

下面将结合本发明创造实施例中的附图，对本发明创造实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明创造一部分实施例，而不是全部的实施例。

DINA(deterministic inputs；noise“and”gate,确定性输入；噪音“与”门模型)

DINO(deterministic inputs；noise“or”gate,确定性输入；噪音“或”门模型)

FDINA(fuzzy deterministic inputs；noise“and”gate，模糊确定性输入；噪音“与”门模型)

MCMC(markov chain monte carlo,马尔科夫链蒙特卡罗算法)

一种基于学生画像的个性化试题推荐方法，其方法实现步骤如下：

(1)收集学生数据，构建得分矩阵：通过校园大数据平台提取出学生的提交代码、系统评判记录、作答记录及学生实验的完成情况，得出学生在试题或者实验中的各项得分构建得分矩阵R，矩阵中的每个元素R_im代表学生S_i在试题V_m上的得分；对每道试题或每条实验记录，通过专家评判方式对其所涉及知识点进行评估，得到知识点考察矩阵Q，矩阵中的每个元素Q_mn代表试题V_m在知识点K_n的考察情况，1为考察，0为不考察。学生画像的构建流程如图1所示。

(2)采用模糊认知诊断模型合理诊断学生的学习状态：首先，根据构建得分矩阵R和知识点考察矩阵Q，通过FDINA认知诊断方法获得学生的学习状态矩阵α，判断学生的学习状态。FDINA认知诊断过程如图2所示。

(3)MCMC算法估计参数：MCMC算法对多参数的参数估计具有明显优势，本专利采用MCMC算法估计参数。真实环境下，学生作答试题的得分结果的影响因素是多方面的，不仅仅依赖于学生的学习状态，学生的粗心或猜测也会对作答产生影响，因此，每道试题都假设其拥有猜测参数g_m、失误参数s_m，试题归一化参数σ²，对学生在试题上的得分情况产生影响。使用MCMC算法来估计猜测参数、失误参数和试题归一化参数。在MCMC算法的t次迭代中，从正态分布N(α^t-1,σ_α ²)中对学生的学习状态采样，计算学生学习状态的接受概率P(α^t-1,α^t)；分别从均匀分布U(g^t-1-δ_g,g^t-1+δ_g)、U(s^t-1-δ_s,s^t-1+δ_s)和U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ)中对试题的猜错参数、失误参数以及试题归一化方差采样，计算试题的猜错参数、失误参数以及试题归一化方差参数的接受概率P(g^t-1,g^t)、P(s^t-1,s^t)和P((σ²)^t-1,(σ²)^t)；直到达到最大迭代次数N_t，获得MCMC算法估计出参数

和

(i)本专利假设FDINA参数的先验分布由式(1)-(4)计算：

α～U(0,1) (1)

s～Beta(x_s,y_s,min_s,max_s) (2)

g～Beta(x_g,y_g,min_g,max_g) (3)

其中，U(0,1)为一个均匀分布,Beta(x,y,min,max)为一个定义在[min,max]区间的四参数贝塔(Beta)分布，x和y为贝塔分布的形状因子。Γ(a,b)为形状因子为a，缩放因子为b的伽马分布。

(ii)根据得分矩阵R，参数α、s、g和σ²的联合后验概率可由式(5)计算。模型的似然函数L(α,s,g,σ²)计算方式如式(6)所示，其中，N_v为试题的数量，N_s为学生的个数。

P(α,s,g,σ²|R)∝L(α,s,g,σ²)P(α)P(s)P(g)P(σ²) (5)

(iii)参数α、s、g和σ²的条件分布概率计算方式如式(7)-(9)：

P(α|R,s,g,σ²)∝L(α,s,g,σ²)P(α) (7)

P(s,g|R,s,g,σ²)∝L(α,s,g,σ²)P(s)P(g) (8)

P(σ²|R,s,g,σ²)∝L(α,s,g,σ²)P(σ²) (9)

(iv)参数α、s、g和σ²的采样：根据Metropolis-Hastings的MCMC算法迭代估计参数，具体方法如算法1中第3-13行所示。在算法1中的第t轮迭代，参数α^t、g^t、s^t和(σ²)^t随机采样计算方式分别如式(10)-(13)：

α^t～N(α^t-1,σ_α ²) (10)

s^t～U(s^t-1-δ_s,s^t-1+δ_s) (11)

g^t～U(g^t-1-δ_g,g^t-1+δ_g) (12)

σ²～U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ) (13)

(v)参数α^t、g^t、s^t和(σ²)^t的接受概率计算方式分别如式(14)-(16)：

(4)基于效用理论的试题推荐方法：我们采用模糊认知诊断模型来合理判断学生的学习状态属性，结合试题对学生学习状态的要求情况预测学生的答题情况。基于预测信息，我们设计一种基于效用的试题推荐方法，向学生推荐其作答效用高的试题，提高学习效用。学生S_i在学习状态α_i情况下，作答试题V_m的效用如式(17)所示。

其中，

和

是估计出的试题V_m的猜测参数和失误参数，

是估计出的学生S_i的学习状态向量。η_im为在学习状态α_i下，学生S_i在试题V_m上的潜在作答情况，由式(18)计算；θ_m为试题V_m的综合通过率，如式(19)所示。

为学生S_i在学习状态α_i下与试题V_m所考察知识点Q_m的知识点相似度，如式(20)所示。

在学习状态α_i下，学生S_i在试题V_m上的潜在作答情况η_im，由式(18)计算：

θ_m为试题V_m的综合通过率，如式(19)所示；

其中，

为所有学生在试题V_m提交程序中完全通过的数量，

为试题V_m提交程序的总数量。

为

基于学生画像的个性化试题推荐方法具体算法为：

算法1中，第1行表示随机初始化先验分布的参数；在第t轮迭代中，第4-7行表示根据正态分布N(α^t-1,σ_α ²)随机抽取学生的学习状态参数α^t,计算学生学习状态α^t的接受概率P(α^t-1,α^t)；第8-13行表示分别从均匀分布U(g^t-1-δ_g,g^t-1+δ_g)和U(s^t-1-δ_s,s^t-1+δ_s)中随机采样猜测参数g^t和失误参数s^t，根据P(g^t-1,g^t)和P(s^t-1,s^t)获得试题的猜错参数g^t、失误参数的接受概率s^t；第14-17行表示从试题归一化方差(σ²)^t从U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ)中随机抽取，根据P((σ²)^t-1,(σ²)^t)得到试题归一化方差(σ²)^t的接受概率；第20行为获取经过N_t次迭代MCMC算法估计出的参数

和

第21-23行，根据

计算试题对学生的效用，把效用高的试题推荐给学生。

实施例1：

1实验场景设置

本实验数据集为大数据平台中收集的部分学生答题记录和实验记录。其中学生数量是193，知识点数量是40，试题数量是50。数据集中试题和知识点的大致对应情况如图3所示，黑色为试题考察该知识点，白色为不考察。

2对比算法

本专利使用DINA模型和DINO模型作为对比方法。DINA模型是一种参数定义在题目水平上的非补偿模型，对每个试题只需估计失误参数和猜测参数。其认为依照测验实际情况，所有属性均已掌握的学生即使有失误答对的概率也应该高于属性未掌握的学生猜对题目的概率。DINO是一种参数定义在题目水平的补偿模型，适用于学生只要掌握题目所考查的任意一个属性就有较高作答概率的测验情境，在此基础上多掌握考查的属性对作答概率不构成影响。二者均为可描述学生学习状态的离散认知诊断模型。

3性能指标

为全面评估性能，我们采用四类性能指标。

(1)验证模型参数收敛性的指标：猜测参数、失误参数和试题归一化方差。

(2)验证模型预测试题得分准确性的指标：均方根误差(Root Mean SquareError,RMSE)和平均绝对误差(Mean Absolute Error,MAE)。

其中，

和

分别代表学生的真实得分情况和预测得分情况。

(3)验证推荐系统性能的指标：准确率(Precision)、召回率(Recall)和F1值。

其中，TP为应被推荐且实际被推荐试题的个数，FP为不应被推荐但实际被推荐的试题的个数，FN为应被推荐而实际并未被推荐的试题的个数。

(4)推荐试题的平均效用，验证推荐试题的效用。

其中，

为推荐试题的数量，

为该试题的效用值。

FDINA模型参数设置如表1所示。

表1 FDINA模型参数表

4实验分析

我们从FDINA模型中参数的收敛情况，得分性能，推荐系统评价指标表现情况和平均效用情况四个方面来验证本专利提出试题推荐方法的有效性：

(1)模型中参数的收敛情况

模型中的猜测参数、失误参数和试题归一化方差参数的收敛情况如图4a-图4c所示。三个参都在经历了很少的迭代次数后就趋于稳定。说明该模型能够应用于推荐系统。

(2)得分性能

FDINA、DINA和DINO在不同的训练集比例下在预测试题得分性能上的比较如图5a-图5b所示。显然，随着训练集比例增加，三个模型的误差都逐渐减小。FDINA的均方根误差和平均决定误差一般都小于另外两个模型，因为它更能精确地表示学生的学习状态。与DINA不同，DINO是补偿模型，在不考虑猜测和失误的情况下，认为学生至少掌握考察试题的一个属性就可答对该试题，难以做出准确的模式判断，所以DINA的性能略优于DINO。

(3)推荐系统中评价指标表现情况

FDINA、DINA和DINO在推荐系统中评价指标中的表现情况如图6a-图6c所示。图6a所示为三种模型的精确度情况。在不同训练集比例下，DINA和DINO的精确度差别很小，FDINA相对二者具有更高的精确度。图6b所示为在不同训练集比例下三种模型的召回率情况，FDINA具有更好的召回率性能表现。图6c所示为三种模型的F1值。在不同训练集比例下，FDINA的F1值均高于DINA和DINO。可见，相较于DINA和DINO，FDINA有更优的推荐性能，因为FDINA对学生的学习状态诊断更为细致，且对试题作答情况拥有更高的准确性，因此在基于效用的推荐方法中拥有更好的性能表现。

(4)平均效用情况

FDINA、DINA和DINO在不同训练集比例下所推荐的试题的平均效用如图7所示。显然，FDINA具有较高的平均效用，特别是当训练集比例超过60％时，FDINA的平均效用约为DINA与DINO平均效用之和。可见，使用FDINA对学生进行学习状态诊断并对学生试题得分进行预测从而向学生推荐试题，学生可以获得更大收益。

Claims

1.一种基于学生画像的个性化试题推荐方法，其特征在于，其步骤为：

步骤(3)马尔科夫链蒙特卡洛算法MCMC估计参数：真实环境下，学生作答试题的得分结果的影响因素是多方面的，不仅仅依赖于学生的学习状态，学生的粗心或猜测也会对作答产生影响，因此，每道试题V_m都假设其拥有猜测参数g_m、失误参数s_m，试题归一化参数σ²，会对学生在试题上的得分情况产生影响；使用MCMC算法来估计猜测参数g、失误参数s和试题归一化参数σ²；

在MCMC算法的t次迭代中，从正态分布N(α^t-1,σ_α ²)中对学生的学习状态采样，计算学生学习状态的接受概率P(α^t-1,α^t)；分别从均匀分布U(g^t-1-δ_g,g^t-1+δ_g)、U(s^t-1-δ_s,s^t-1+δ_s)和U((σ²)^t-1-δ_σ,(σ²)^t-1+δ_σ)中对试题的猜错参数g、失误参数s以及试题归一化方差σ²采样，计算试题的猜错参数、失误参数以及试题归一化方差参数的接受概率P(g^t-1,g^t)、P(s^t-1,s^t)和P((σ²)^t-1,(σ²)^t)；直到达到最大迭代次数N_t，由MCMC算法估计出参数

和

其中：猜测参数g是学生通过猜测正确作答试题的概率；失误参数s为学生本应能正确作答试题，由于失误而未能正确作答试题概率；试题归一化参数σ²表示为试题得分的归一化方差；V_m为题库中的第m道试题；t为第t次迭代；N_t为最大迭代次数；α为学生的学习状态，即学生的知识点掌握情况，向量中每个元素代表了学生在每个知识点上的掌握程度；δ_g、δ_s和δ_σ分别为参数g、s和σ²的采样区间参数，限定采样区间；参数