CN115249072A - 一种基于生成对抗用户模型的强化学习路径规划方法 - Google Patents

一种基于生成对抗用户模型的强化学习路径规划方法 Download PDF

Info

Publication number
CN115249072A
CN115249072A CN202210528946.XA CN202210528946A CN115249072A CN 115249072 A CN115249072 A CN 115249072A CN 202210528946 A CN202210528946 A CN 202210528946A CN 115249072 A CN115249072 A CN 115249072A
Authority
CN
China
Prior art keywords
learning
user
path planning
learner
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210528946.XA
Other languages
English (en)
Inventor
田锋
朱海萍
马黛露丝
廖思霁
刘启东
陈妍
郑庆华
王茜莺
武亚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202210528946.XA priority Critical patent/CN115249072A/zh
Publication of CN115249072A publication Critical patent/CN115249072A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生成对抗用户模型的强化学习路径规划方法,属于学习资源路径规划领域。一种基于生成对抗用户模型的强化学习路径规划方法,包括以下步骤:1)大数据驱动的用户群与训练数据集划分;2)基于分层奖励函数强化学习的路径规划模型Planerui离线训练;3)基于级联DQN算法完成路径规划。本发明提供的学习资源路径能够在完成至目标知识点的学习目标的同时,应对用户每一步学习中兴趣的变化。本发明能够为用户自适应地推荐路径上的学习资源,该路径规划方法考虑了用户学习过程中对学习资源的反馈以及学习资源本身的知识结构关系,实现学习资源路径规划。

Description

一种基于生成对抗用户模型的强化学习路径规划方法
技术领域
本发明涉及一种学习资源路径规划方法,具体涉及一种基于生成对抗用户模型的强化学习路径规划方法。
背景技术
现有的学习路径推荐算法可分为路径生成和路径序列两类。路径生成类算法在确定用户的特征和要求后,在单次推荐中生成整个学习路径,在完成了整个路径后才进行学习评估。Kardan提出了一种两阶段路径生成方法,第一阶段,使用K-means算法根据预测试的结果对用户进行分组。第二阶段,使用蚁群优化方法为每组生成一条路径;Zhan Li基于图搜索算法,根据给定的用户输入约束如学习目标、起点和对输出路径的首选排名等生成截止日期驱动型路径、目标驱动型路径、排序路径(考虑用户的排序偏好)三种类型的学习路径;Adorni和Koceva应用教育概念图(Educational Concept Map,ECM)来生成路径,用户通过从ECM中选择一组主题来确定知识背景、起点和终点,使用ENCODE生成路径。路径序列算法则根据用户在学习路径中的进展一步一步地推荐学习路径。Govindarajan应用并行粒子群优化算法预测用户的动态路径;Yarandi提出了一个基于本体论知识的模型,该模型接受用户的能力、知识背景、学习风格和偏好作为输入并推荐路径;Salahli使用项目反应理论估计用户对知识的理解程度,以此进行路径的规划。
从上述文献可以看出,在学习路径推荐中,对用户本身进行精准的画像是一个重要的方面,往往需要结合用户的静态和动态特征以建立最佳的用户模型。尤其随着时间的推移,用户的偏好、学习能力等特征会发生变化,推荐的学习路径也应随之动态变化。如何在用户偏好等特征快速变化时,对用户进行精准建模是自适应路径推荐的难点。现有的路径规划方法,路径序列算法往往需要借助知识追踪的结果进行认知诊断,常用于习题推荐,而不适用于课程学习;而路径生成算法大多忽略了用户表现和学习过程中发生的变化,可能导致用户状态改变后的错误推荐,且搜索速度较慢。因此如何结合用户建模结果,自适应地调整路径,为学习者实时推荐适合其学习偏好、学习进度的学习路径,是一个亟待解决的问题。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种基于生成对抗用户模型的强化学习路径规划方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于生成对抗用户模型的强化学习路径规划方法,包括以下步骤:
1)根据用户学习日志获取构建学习者相似度矩阵W,利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类,得到N类用户学习行为类型{Clusterui|ui=1,…,N},根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集Dui
2)结合知识森林,构建基于分层奖励函数强化学习的路径规划模型,所述基于分层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数,并将用户行为模型用作强化学习的环境,利用生成对抗训练的形式训练路径规划模型;
3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入,基于级联DQN算法完成至目标知识点的学习资源路径规划,输出规划路径。
进一步的,步骤1)中构建学习者相似度矩阵W的具体操作为:获取每一个学习者的课程学习状态stateui,course、已完成知识点平均耗时比
Figure BDA0003645762350000031
已完成知识点平均中心度
Figure BDA0003645762350000032
已完成关键知识点个数
Figure BDA0003645762350000033
及目标知识点的学习状态stateui,target,构建学习者评分向量Ui
Figure BDA0003645762350000034
计算归一化后的学习者评分向量间的余弦相似度,构建学习者相似度矩阵W:
Figure BDA0003645762350000035
3、根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为:
分别构建度矩阵D和拉普拉斯矩阵L:
Figure BDA0003645762350000036
L=D-W (6)
利用
Figure BDA0003645762350000037
对L进行标准化,随后计算前N个最小特征值的特征向量,将N个特征向量组成M*N维的矩阵,按行进行标准化得到矩阵F,对矩阵F中的每一行作为一个N维样本,共M个样本,用k-means进行聚类得出最终N类分类结果,将学习者划分为N种不同学习行为类型{Clusterui|ui=1,...,N},据此划分用户日志,得到每一种学习行为类型对应的训练数据集Dui
进一步的,步骤2)构建基于分层奖励函数强化学习的路径规划模型中,强化学习对应的马尔科夫决策过程的五元组M=(st,At,P(·|st,At),r(st,at),γ);
其中,学习者作为环境,状态st表示学习者t时刻前的历史学习资源序列,动作at表示t时刻从所述时刻候选学习资源集合Lt中选择一个学习资源推荐给学习者,动作集At则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合;状态转移概率P(·|st,At)则对应在给定状态st和动作集At时转移到下一个状态st+1的概率,同时作为用户动作的同等分布
Figure BDA0003645762350000041
奖励函数r(st,at)以及折扣因子γ。
进一步的,将奖励函数r(st,at)分解为序列决策奖励rseq和知识点规划决策奖励rc,即r=rseq+rc
在计算序列决策奖励rseq时,计算推荐子序列和实际交互子序列的序列层级准确度,如式(8):
Figure BDA0003645762350000042
式(8)中,precm代表序列决策精度,it:t+k为实际交互子序列,
Figure BDA0003645762350000043
为推荐的子序列,pm为子序列it:t+k的一个长度为m的子序列,M代表所使用的长度为m的子序列的个数;
在计算知识点规划决策奖励函数rc时,考虑到所推荐学习资源与实际点击的学习资源难度是否匹配,利用学习时长估计学习资源难度,如下所示:
Figure BDA0003645762350000044
式(9)中,用户实际学习子序列为it:t+k,预测用户学习序列为
Figure BDA0003645762350000045
ct:t+k为用于表示用户实际学习序列的表示向量,
Figure BDA0003645762350000051
为用于表示预测的用户学习序列的表示向量,序列表示向量ct:t+k通过对序列中每个学习资源的特征向量取均值计算得到,ct+i
Figure BDA0003645762350000052
分别用于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量;vt+i表示第i个学习资源的特征向量,durtotal表示该学习资源的默认学习时长,durwatch表示用户在该学习资源上的学习时长。
进一步的,步骤2)构建用户行为模型及联合训练的方式为:
针对每一个Clusterui,设计用户行为模型
Figure BDA0003645762350000053
学到的策略
Figure BDA0003645762350000054
作为在动作集合At={a1,a2,...,an}上的概率分布,在计算奖励函数时,将当前的动作at和用户的状态st都作为奖励函数r(st,at)的输入,用户所采取的策略
Figure BDA0003645762350000055
将最大化预期奖励r(st,at),在求解时看作策略
Figure BDA0003645762350000056
在其概率分布空间Δk-1上的最优化问题进行求解;
在每一类学习行为类型对应的数据集Dui上,以生成对抗训练的形式,将用户行为模型
Figure BDA0003645762350000057
看作生成器,奖励函数rui看作判别器,完成路径规划模型Planerui的参数学习,得到N个Planerui用于仿真模拟。
进一步的,最优化问题求解如下:
Figure BDA0003645762350000058
其中,正则化项采用负香农熵,使用参数η控制正则化的强度。
进一步的,实现生成对抗训练时极大极小化函数的计算方式为:
根据历史行为中的T个用户动作序列
Figure BDA0003645762350000059
和对应的点击课程资源的特征
Figure BDA00036457623500000510
计算状态
Figure BDA00036457623500000511
联合学习用户行为模型
Figure BDA00036457623500000512
和奖励函数r,见式(11):
Figure BDA00036457623500000513
式(11)中,α代表模型
Figure BDA0003645762350000061
中使用到的所有参数,θ代表中奖励函数r中使用到的所有参数。
进一步的,步骤3)中利用级联DQN算法生成推荐学习资源路径的具体方式为:对于目标知识点ktarget,学习资源集合为
Figure BDA0003645762350000062
根据每一步学习资源推荐均使当前Q函数值最大的动作决策策略,利用级联的方式,寻找使每一级Q函数最大的最优动作,逐级迭代,直到找到包含目标知识点的学习资源,输出规划路径。
进一步的,步骤3)还包括:若所述学习者useri没有学习记录,则基于行为克隆的思想,基于同课程下历史同专业或同年级的相似用户完成学习资源路径规划,具体为:
已知目标知识点ktarget,根据学习者年级、学校及专业信息,在已有学习历史的用户中进行基于相似度匹配,寻找历史记录中同课程下的历史同专业或同年级用户,利用所述相似用户的学习历史为无学习历史的用户生成至目标知识点的路径。
与现有技术相比,本发明具有以下有益效果:
本发明的基于生成对抗用户模型的强化学习路径规划方法,相较于现有的路径规划方法,本发明的基于强化学习的路径规划方法,能够在考虑到学习资源固有的知识结构的同时,考虑到用户的长期学习兴趣和当前学习兴趣,结合用户反馈,为用户提供至目标知识点的学习资源路径;本发明所提模型能够应对在线学习者的反馈实时变化的情况,采用用户行为模型与强化学习路径规划模型结合的形式,为学习者提供实时的路径规划结果;本发明提出的强化学习路径规划方法属于基于模型的强化学习方法,能够在用户交互较少的情况下学到好的推荐策略,并且能够快速学习新的用户动态;本发明在强化学习模型中使用的级联DQN算法用于获得组合推荐策略,能够从大量候选中找到最佳学习资源子集,该算法的时间复杂度仅与候选对象数量呈线性关系,能够极大程度提高模型计算效率。
附图说明
图1为本发明的学习资源路径规划流程图;
图2为使用的结合用户生成模型的强化学习模型框架示意图;
图3为级联DQN算法模型框架图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
区别于主流的学习资源推荐主要是基于资源热度、专业类别、用户相似度等的点级资源推荐。本发明中,学习路径是由一个学习资源序列组成,学习路径规划适应于许多场景,如新学某一门课程时,需要规划一个课程知识的学习路径;又如,自学某一新知识点时,需要规划一条从当前已学最新知识点到目标知识点的学习路径,这些场景需要根据用户的学习目标、学习偏好等对学习资源序列进行路径级别上的规划,即推荐个性化的学习路径。
下面结合附图对本发明做进一步详细描述:
参见图1,图1为本发明的流程图,本发明的基于强化学习的学习资源路径规划方法包括以下步骤:
步骤一:大数据驱动的用户群与训练数据集划分
获取每一个学习者的课程学习状态stateui,course、已完成知识点平均耗时比
Figure BDA0003645762350000081
已完成知识点平均中心度
Figure BDA0003645762350000082
已完成关键知识点个数
Figure BDA0003645762350000083
及目标知识点的学习状态stateui,target,根据以上指标计算学习者的相似度矩阵W,利用谱聚类方法,在相似度矩阵W上完成用户学习行为类型聚类,可得到N类用户学习行为类型{Clusterui|ui=1,...,N},据此获得每一种学习行为类型对应的训练数据集Dui,具体为:
101)对学习者学习日志进行分析,对于每个学习者useri获取其课程状态stateui,course、已完成知识点平均耗时比
Figure BDA0003645762350000084
已完成知识点平均中心度
Figure BDA0003645762350000085
已完成关键知识点个数numui以及目标知识点的学习状态stateui,tarqet;其中,对于课程学习状态stateui,course,已完成课程状态记作0,未完成课程状态记作1;对于已完成知识点平均耗时比
Figure BDA0003645762350000086
的计算,知识点耗时比为平均学习时长与本身原始时长的比值,如式(1)所示,式(1)中dursum代表知识点i的总学习时长,frequencysum代表知识点i的总学习频率,duri代表知识点i的原始时长;知识点中心度degreei定义为节点的度中心性,度越大di的知识点重要性越高,计算式(2)所示,式(2)中ni表示节点的度,n表示图中节点个数;已完成关键知识点个数numui为学习者useri历史学习的知识点中心度大于0.2的知识点个数;若学习者未给定目标知识点,则将该门课程的最后一个知识点看作目标知识点,目标知识点的学习状态stateui,target表示为:未完成表示为0,完成表示为1。
Figure BDA0003645762350000091
Figure BDA0003645762350000092
102)利用谱聚类划分不同学习者类型
根据学习者的课程状态stateui,course、已完成知识点平均耗时比
Figure BDA0003645762350000093
已完成知识点平均中心度
Figure BDA0003645762350000094
已完成关键知识点个数num′ui和目标知识点的学习状态stateui,target,构建学习者评分向量Ui
Figure BDA0003645762350000095
计算归一化后的学习者评分向量间的余弦相似度,构建学习者相似度矩阵W:
Figure BDA0003645762350000096
根据学习者相似度矩阵W依次构建对角阵D和拉普拉斯矩阵L:
Figure BDA0003645762350000097
L=D-W (6)
对拉普拉斯矩阵L进行标准化,即
Figure BDA0003645762350000098
,得到
Figure BDA0003645762350000099
随后计算
Figure BDA00036457623500000910
的矩阵特征值,按照求解的特征值的数值从小到大排序,求得前N个最小特征值的特征向量,将N个特征向量组成M*N维的矩阵,按行进行标准化得到矩阵F,对矩阵F中的每一行作为一个N维样本,共M个样本,用k-means进行聚类得出最终N类分类结果,将学习者划分为N种不同学习行为类型。
步骤二:基于分层奖励函数强化学习的路径规划模型Planerui离线训练
结合知识森林,构建用于学习资源路径规划的强化学习框架:
201)构建强化学习框架的主要思路是将其看作马尔可夫决策过程,如图2所示,该过程对应的五元组M=(st,At,P(·|st,At),r(st,at),γ)定义为:将学习者看作环境E,状态st定义为学习者t时刻前的历史学习资源序列,动作at定义为t时刻从该时刻候选学习资源集合Lt中选择一个学习资源推荐给学习者,动作集At则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合,状态转移概率P(·|st,At)则对应在给定状态st和动作集At时转移到下一个状态st+1的概率,可看作用户动作的同等分布
Figure BDA0003645762350000101
推荐策略即对应t时刻动作集的选择,At~π(st,Lt),表示择学习资源得到动作集At的概为处于状态st的用户,从候选学习资源集合Lt中选率,奖励函数记作r(st,at),奖励函数的设计既考虑到路径规划得到的整体路径的序列层级特征,又考虑到单个学习资源的知识点层级特征,将奖励函数分解为序列决策奖励rseq和知识点规划决策奖励rc,即r=rseq+rc,,以及折扣因子表示为γ。
202)计算学习资源特征向量:根据课程对应知识森林KG,利用TransE模型,计算学习资源集合
Figure BDA0003645762350000102
中的每一个学习资源的特征向量vt,使用的目标函数设计如下:
min∑(h,r,t)∈KG(h′,r′,t′)∈KG,[dis+distance(h+r,t),-distance(h′+r′,t′)]+(7)
式(7)中,h表示知识图谱KG中头实体的向量,t表示知识图谱KG中尾实体的向量,r表示知识图谱KG中关系的向量,(h,r,t)表示知识图谱KG中表示正确的三元组,(h′,r′,t′)表示错误的三元组,dis表示正样本和负样本的间距,为一个常数,[x]+表示取max(0,x),distance计算方式采用欧式距离。
得到的学习资源特征向量将用于用户状态表示向量st的计算,以及奖励函数r(st,at)的计算。
203)计算用户状态表示st及动作表示at:用户在第t次点击之前的所有点击历史记作st,st:=h(F1:t-1:=[f1,...,ft-1]),其中,ft代表每次点击学习资源的特征向量,h(·)函数用于计算得到的包含(t-1)个历史点击特征的序列F1:t-1的嵌入表示,利用LSTM网络实现此序列嵌入表示的计算。
204)实现序列决策奖励函数:借鉴机器学习中BLEU度量序列相似度的方法,计算序列层级准确度作为序列决策奖励,具体公式如下:
Figure BDA0003645762350000111
式(8)中,precm代表序列决策精度,it:t+k为实际交互子序列,
Figure BDA0003645762350000112
为推荐的子序列,pm为子序列it:t+k的一个长度为m的子序列,M代表所使用的长度为m的子序列的个数;可以看出奖励函数的计算方式让生成的推荐序列向包含更多一致的子序列的方向收敛,即在生成序列时,不仅考虑到每一步的表现,还考虑到序列整体的表现是否最佳。
205)实现知识点规划决策奖励函数:不仅关注到所推荐的具体的学习资源与用户真实点击的学习资源是否匹配,同时考虑到学习资源包含的知识点的难度、学习时长及资源类型是否一致;故,计算知识点规划决策奖励函数rc时,考虑到所推荐学习资源与实际点击的学习资源难度是否匹配,利用学习时长估计学习资源难度,其中,先使用上述根据TransE模型在课程知识森林KG上计算出学习资源的特征向量vt,再结合利用学习时长等属性计算出的学习资源难度权重,得到难度加权后的学习资源表示;知识点规划决策奖励函数通过计算实际与预测的学习序列的向量表示的余弦相似度实现,计算公式如下所示:
Figure BDA0003645762350000121
式(9)中,用户实际学习子序列为it:t+k,预测用户学习序列为
Figure BDA0003645762350000122
ct:t+k为用于表示用户实际学习序列的表示向量,
Figure BDA0003645762350000123
为用于表示预测的用户学习序列的表示向量,序列表示向量ct:t+k通过对序列中每个学习资源的特征向量取均值计算得到,ct+i
Figure BDA0003645762350000124
分别用于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量;vt+i表示第i个学习资源的特征向量,durtotal表示该学习资源的默认学习时长,durwatch表示用户在该学习资源上的学习时长。
206)对于每一个Clusterui,利用该学习行为类型数据集Dui训练得到的用户行为模型
Figure BDA0003645762350000125
作为Planerui中强化学习的模拟环境,针对用useri,此Clusterui的用户行为模型用于利用用户类型的相似性,模拟探索适合useri的推荐策略:对于每一个Clusterui构建用户行为模型
Figure BDA0003645762350000126
作为强化学习的模拟环境,针对用户useri,此Clusterui的用户行为模型用于利用用户类型的相似性,模拟探索适合useri的推荐策略,能够模拟学习者在课程学习过程中对学习资源的顺序决策,给出学习者某一t时刻状态及动作(st,at),其中,某一t时刻的状态st与学习者t时刻前的历史学习资源序列st:=h(F1:t-1:=[f1,...,ft-1])相对应,某一t时刻的动作at表示学习某一学习资源。
使用生成对抗学习公式来模拟学习者的行为动态,在既考虑到用户点击的学习资源at(即用户的动作),又考虑到用户的历史点击序列st(即用户的状态)的同时,使奖励函数r(st,at)最大化,模仿用户在所推荐的长度为k的学习资源路径中挑选时,总会学习使自身获益最大的学习资源的过程,考虑到不同用户对学习资源的评价会根据个人经历而有所不同,模型认为此处的奖励不仅与用户当前的选择有关,还与用户的学习历史相关;学到的策略
Figure BDA0003645762350000131
可看作在动作集合At={a1,a2,...,an}上的概率分布,在计算奖励函数时,将当前的动作at和用户的状态st都作为奖励函数r(st,at)的输入,用户所采取的策略
Figure BDA0003645762350000132
将最大化预期奖励r(st,at),因此求解时可看作策略
Figure BDA0003645762350000133
在概率单纯形Δk-1上的最优化问题,具体公式如下,其中正则化项采用负香农熵,使用参数η控制正则化的强度。
Figure BDA0003645762350000134
207)以生成对抗训练的形式,利用对应学习行为的训练数据集Dui,将对应学习行为类型的用户行为模型
Figure BDA0003645762350000135
看作生成器,奖励函数rui看作判别器,完成模型参数训练和参数学习,得到N个Planerui用于仿真模拟。根据得到的用户行为模型为
Figure BDA0003645762350000136
和得到的奖励函数为r(st,at),用户行为模型
Figure BDA0003645762350000137
用于模拟能够使奖励函数r(st,at)最大的用户真实行为序列,该用户采取行动以最大化奖励函数r(st,at),类似于生成对抗网络的思路,因此模型的训练和学习过程可以类比作生成对抗网络GAN,使
Figure BDA0003645762350000138
作为基于用户历史生成用户下一个动作的生成器,r作为区分用户真实动作
Figure BDA0003645762350000139
和用户模型生成的动作at的判别器。利用极小极大化函数,根据历史行为中的T个用户动作序列
Figure BDA00036457623500001310
和对应的点击课程资源的特征
Figure BDA00036457623500001311
计算状态
Figure BDA00036457623500001312
联合学习用户行为模型
Figure BDA00036457623500001313
和奖励函数r,如下公式所示。式(11)中,α代表模型
Figure BDA00036457623500001314
中使用到的所有参数,θ代表中奖励函数r中使用到的所有参数。
Figure BDA00036457623500001315
步骤三:基于级联DQN算法完成路径规划
针对每个学习者useri,若该学习者useri已有学习历史,利用其学习历史计算该学习者所属学习行为类型
Figure BDA0003645762350000141
从而调用对应学习类型的路径规划模型,利用级联DQN算法,为其完成学习资源路径规划:对于目标知识点ktarget,学习资源集合为
Figure BDA0003645762350000147
,根据每一步学习资源推荐都要使当前Q函数值最大的动作决策策略,利用级联的方式,寻找使每一级Q函数最大的最优动作,逐级迭代,直到找到包含目标知识点的学习资源,输出规划路径;若该学习者useri没有学习记录,则基于行为克隆的思想,基于同课程下历史同专业/同年级的相似用户完成学习资源路径规划。
301)实现级联DQN算法:级联DQN算法的实现框架如图3所示,使用Q函数在搜索空间中寻找每一步的最优动作,学到的最优的动作-值函数Q*(st,At)满足条件
Figure BDA0003645762350000142
at∈At;学到动作-值函数Q*(st,At)后,推荐策略函数π*(st,Lt)可通过
Figure BDA0003645762350000143
得到,其中,
Figure BDA0003645762350000144
表示在t时刻用于推荐的学习资源候选集合。利用级联Q函数网络求解路径上每一步的最优动作策略,计算方法如下所示。
Figure BDA0003645762350000145
302)中的根据DQN算法学到的策略函数推荐学习资源路径:对于目标知识点ktarget,学习资源集合为
Figure BDA0003645762350000146
利用表1算法,根据Q函数,寻找利用每一级Q函数推荐的学习资源,逐级迭代,直到找到包含目标知识点的学习资源,得到学习资源路径:
表1利用级联Q函数生成推荐学习资源路径的算法
Figure BDA0003645762350000151
303)步骤3)中基于行为克隆的思想,基于同课程下历史同专业/同年级的相似用户完成没有学习历史的用户的学习资源路径规划的具体操作为:已知目标知识点ktarget,根据学习者年级、学校、专业信息,在已有学习历史的用户中进行基于相似度匹配,寻找历史记录中同课程下的历史同专业/同年级用户,利用这些相似用户的学习历史为无学习历史的用户生成至目标知识点的路径。
实施例
本发明所提方法在头歌实践教学平台的数据结构与算法课程的在线学习日志数据上进行了实验,该数据集包含18093个用户的61506条交互记录。实验对比了本发明所提方法和经典的序列推荐方法包括GRU4Rec、SHAN、NARM、STAMP、SASRec的推荐效果,采用评价指标为MRR@10和NDCG@10,如表2所示,可以看出本发明所提的方法能够达成最优的推荐结果。
表2实施例的评价指标
Figure BDA0003645762350000152
Figure BDA0003645762350000161
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (10)

1.一种基于生成对抗用户模型的强化学习路径规划方法,其特征在于,包括以下步骤:
1)根据用户学习日志获取构建学习者相似度矩阵W,利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类,得到N类用户学习行为类型{Clusterui|ui=1,…,N},根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集Dui
2)结合知识森林,构建基于分层奖励函数强化学习的路径规划模型,所述基于分层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数,并将用户行为模型用作强化学习的环境,利用生成对抗训练的形式训练路径规划模型;
3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入,基于级联DQN算法完成至目标知识点的学习资源路径规划,输出规划路径。
2.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中构建学习者相似度矩阵W的具体操作为:获取每一个学习者的课程学习状态stateui,course、已完成知识点平均耗时比
Figure FDA0003645762340000011
已完成知识点平均中心度
Figure FDA0003645762340000012
已完成关键知识点个数
Figure FDA0003645762340000013
及目标知识点的学习状态stateui,target,构建学习者评分向量Ui
Figure FDA0003645762340000014
计算归一化后的学习者评分向量间的余弦相似度,构建学习者相似度矩阵W:
Figure FDA0003645762340000015
3.根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为:
分别构建度矩阵D和拉普拉斯矩阵L:
Figure FDA0003645762340000021
L=D-W (6)
利用
Figure FDA0003645762340000022
对L进行标准化,随后计算前N个最小特征值的特征向量,将N个特征向量组成M*N维的矩阵,按行进行标准化得到矩阵F,对矩阵F中的每一行作为一个N维样本,共M个样本,用k-means进行聚类得出最终N类分类结果,将学习者划分为N种不同学习行为类型{Clusterui|ui=1,…,N},据此划分用户日志,得到每一种学习行为类型对应的训练数据集Dui
4.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤2)构建基于分层奖励函数强化学习的路径规划模型中,强化学习对应的马尔科夫决策过程的五元组M=(st,At,P(·|st,At),r(st,at),γ);
其中,学习者作为环境,状态st表示学习者t时刻前的历史学习资源序列,动作at表示t时刻从所述时刻候选学习资源集合Lt中选择一个学习资源推荐给学习者,动作集At则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合;状态转移概率P(·|st,At)则对应在给定状态st和动作集At时转移到下一个状态st+1的概率,同时作为用户动作的同等分布
Figure FDA0003645762340000023
奖励函数r(st,at)以及折扣因子γ。
5.根据权利要求4所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,将奖励函数r(st,at)分解为序列决策奖励rseq和知识点规划决策奖励rc,即r=rseq+rc
在计算序列决策奖励rseq时,计算推荐子序列和实际交互子序列的序列层级准确度,如式(8):
Figure FDA0003645762340000031
式(8)中,precm代表序列决策精度,it:t+k为实际交互子序列,
Figure FDA0003645762340000038
为推荐的子序列,pm为子序列it:t+k的一个长度为m的子序列,M代表所使用的长度为m的子序列的个数;
在计算知识点规划决策奖励函数rc时,考虑到所推荐学习资源与实际点击的学习资源难度是否匹配,利用学习时长估计学习资源难度,如下所示:
Figure FDA0003645762340000032
式(9)中,用户实际学习子序列为it:t+k,预测用户学习序列为
Figure FDA0003645762340000033
ct:t+k为用于表示用户实际学习序列的表示向量,
Figure FDA0003645762340000034
为用于表示预测的用户学习序列的表示向量,序列表示向量ct:t+k通过对序列中每个学习资源的特征向量取均值计算得到,ct+i
Figure FDA0003645762340000035
分别用于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量;vt+i表示第i个学习资源的特征向量,durtotal表示该学习资源的默认学习时长,durwatch表示用户在该学习资源上的学习时长。
6.根据权利要求4所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤2)构建用户行为模型及联合训练的方式为:
针对每一个Clusterui,设计用户行为模型
Figure FDA0003645762340000036
学到的策略
Figure FDA0003645762340000037
作为在动作集合At={a1,a2,…,an}上的概率分布,在计算奖励函数时,将当前的动作at和用户的状态st都作为奖励函数r(st,at)的输入,用户所采取的策略
Figure FDA0003645762340000041
将最大化预期奖励r(st,at),在求解时看作策略
Figure FDA0003645762340000042
在其概率分布空间Δk-1上的最优化问题进行求解;
在每一类学习行为类型对应的数据集Dui上,以生成对抗训练的形式,将用户行为模型
Figure FDA0003645762340000043
看作生成器,奖励函数rui看作判别器,完成路径规划模型Planerui的参数学习,得到N个Planerui用于仿真模拟。
7.根据权利要求6所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,最优化问题求解如下:
Figure FDA0003645762340000044
其中,正则化项采用负香农熵,使用参数η控制正则化的强度。
8.根据权利要求6所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,实现生成对抗训练时极大极小化函数的计算方式为:
根据历史行为中的T个用户动作序列
Figure FDA0003645762340000045
和对应的点击课程资源的特征
Figure FDA0003645762340000046
计算状态
Figure FDA0003645762340000047
联合学习用户行为模型
Figure FDA00036457623400000410
和奖励函数r,见式(11):
Figure FDA0003645762340000048
式(11)中,α代表模型
Figure FDA00036457623400000411
中使用到的所有参数,θ代表中奖励函数r中使用到的所有参数。
9.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤3)中利用级联DQN算法生成推荐学习资源路径的具体方式为:对于目标知识点ktarget,学习资源集合为
Figure FDA0003645762340000049
根据每一步学习资源推荐均使当前Q函数值最大的动作决策策略,利用级联的方式,寻找使每一级Q函数最大的最优动作,逐级迭代,直到找到包含目标知识点的学习资源,输出规划路径。
10.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法,其特征在于,步骤3)还包括:若所述学习者useri没有学习记录,则基于行为克隆的思想,基于同课程下历史同专业或同年级的相似用户完成学习资源路径规划,具体为:
已知目标知识点ktarget,根据学习者年级、学校及专业信息,在已有学习历史的用户中进行基于相似度匹配,寻找历史记录中同课程下的历史同专业或同年级用户,利用所述相似用户的学习历史为无学习历史的用户生成至目标知识点的路径。
CN202210528946.XA 2022-05-16 2022-05-16 一种基于生成对抗用户模型的强化学习路径规划方法 Pending CN115249072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210528946.XA CN115249072A (zh) 2022-05-16 2022-05-16 一种基于生成对抗用户模型的强化学习路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210528946.XA CN115249072A (zh) 2022-05-16 2022-05-16 一种基于生成对抗用户模型的强化学习路径规划方法

Publications (1)

Publication Number Publication Date
CN115249072A true CN115249072A (zh) 2022-10-28

Family

ID=83699108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210528946.XA Pending CN115249072A (zh) 2022-05-16 2022-05-16 一种基于生成对抗用户模型的强化学习路径规划方法

Country Status (1)

Country Link
CN (1) CN115249072A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720007A (zh) * 2023-08-11 2023-09-08 河北工业大学 基于多维学习者状态和联合奖励的在线学习资源推荐方法
CN116796041A (zh) * 2023-05-15 2023-09-22 华南师范大学 基于知识追踪的学习路径推荐方法、系统、装置和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116796041A (zh) * 2023-05-15 2023-09-22 华南师范大学 基于知识追踪的学习路径推荐方法、系统、装置和介质
CN116796041B (zh) * 2023-05-15 2024-04-02 华南师范大学 基于知识追踪的学习路径推荐方法、系统、装置和介质
CN116720007A (zh) * 2023-08-11 2023-09-08 河北工业大学 基于多维学习者状态和联合奖励的在线学习资源推荐方法
CN116720007B (zh) * 2023-08-11 2023-11-28 河北工业大学 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Similar Documents

Publication Publication Date Title
Huo et al. Knowledge modeling via contextualized representations for LSTM-based personalized exercise recommendation
CN111813921B (zh) 题目推荐方法、电子设备及计算机可读存储介质
CN110569443A (zh) 一种基于强化学习的自适应学习路径规划系统
CN115249072A (zh) 一种基于生成对抗用户模型的强化学习路径规划方法
Vanschoren Understanding machine learning performance with experiment databases
CN113344053B (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
Govindarajan et al. Dynamic learning path prediction—A learning analytics solution
CN114567815B (zh) 一种基于预训练的慕课自适应学习系统构建方法和装置
Wang et al. A learning resource recommendation algorithm based on online learning sequential behavior
Hamim et al. Student profile modeling using boosting algorithms
Cankurt Tourism demand forecasting using ensembles of regression trees
Hamada et al. A fuzzy-based approach for modelling preferences of users in multi-criteria recommender systems
Amin et al. Smart E-learning framework for personalized adaptive learning and sequential path recommendations using reinforcement learning
CN115238169A (zh) 一种慕课可解释推荐方法、终端设备及存储介质
Al Nagi et al. Predicting students performance in online courses using classification techniques
Kishore et al. Prediction of student academic progression: A case study on Vignan University
CN116186409A (zh) 一种结合难度与薄弱知识点的多样化习题推荐方法、系统及设备
Maua et al. Hidden Markov models with set-valued parameters
Adnan et al. Deep neural network based m-learning model for predicting mobile learners' performance
Li et al. Aligning crowd feedback via distributional preference reward modeling
Aiolli et al. Application of the preference learning model to a human resources selection task
Polyzou Models and algorithms for performance prediction and course recommendation in higher education
Mustapha et al. Towards an adaptive e-learning system based on deep learner profile, machine learning approach, and reinforcement learning
Liu et al. SARLR: Self-adaptive Recommendation of Learning Resources.
CN112818196A (zh) 基于电子学习平台的数据处理方法、设备、电子装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination