CN115249072A

CN115249072A - 一种基于生成对抗用户模型的强化学习路径规划方法

Info

Publication number: CN115249072A
Application number: CN202210528946.XA
Authority: CN
Inventors: 田锋; 朱海萍; 马黛露丝; 廖思霁; 刘启东; 陈妍; 郑庆华; 王茜莺; 武亚强
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-10-28

Abstract

本发明公开了一种基于生成对抗用户模型的强化学习路径规划方法，属于学习资源路径规划领域。一种基于生成对抗用户模型的强化学习路径规划方法，包括以下步骤：1)大数据驱动的用户群与训练数据集划分；2)基于分层奖励函数强化学习的路径规划模型Planer_ui离线训练；3)基于级联DQN算法完成路径规划。本发明提供的学习资源路径能够在完成至目标知识点的学习目标的同时，应对用户每一步学习中兴趣的变化。本发明能够为用户自适应地推荐路径上的学习资源，该路径规划方法考虑了用户学习过程中对学习资源的反馈以及学习资源本身的知识结构关系，实现学习资源路径规划。

Description

一种基于生成对抗用户模型的强化学习路径规划方法

技术领域

本发明涉及一种学习资源路径规划方法，具体涉及一种基于生成对抗用户模型的强化学习路径规划方法。

背景技术

现有的学习路径推荐算法可分为路径生成和路径序列两类。路径生成类算法在确定用户的特征和要求后，在单次推荐中生成整个学习路径，在完成了整个路径后才进行学习评估。Kardan提出了一种两阶段路径生成方法，第一阶段，使用K-means算法根据预测试的结果对用户进行分组。第二阶段，使用蚁群优化方法为每组生成一条路径；Zhan Li基于图搜索算法，根据给定的用户输入约束如学习目标、起点和对输出路径的首选排名等生成截止日期驱动型路径、目标驱动型路径、排序路径(考虑用户的排序偏好)三种类型的学习路径；Adorni和Koceva应用教育概念图(Educational Concept Map,ECM)来生成路径，用户通过从ECM中选择一组主题来确定知识背景、起点和终点，使用ENCODE生成路径。路径序列算法则根据用户在学习路径中的进展一步一步地推荐学习路径。Govindarajan应用并行粒子群优化算法预测用户的动态路径；Yarandi提出了一个基于本体论知识的模型，该模型接受用户的能力、知识背景、学习风格和偏好作为输入并推荐路径；Salahli使用项目反应理论估计用户对知识的理解程度，以此进行路径的规划。

从上述文献可以看出，在学习路径推荐中，对用户本身进行精准的画像是一个重要的方面，往往需要结合用户的静态和动态特征以建立最佳的用户模型。尤其随着时间的推移，用户的偏好、学习能力等特征会发生变化，推荐的学习路径也应随之动态变化。如何在用户偏好等特征快速变化时，对用户进行精准建模是自适应路径推荐的难点。现有的路径规划方法，路径序列算法往往需要借助知识追踪的结果进行认知诊断，常用于习题推荐，而不适用于课程学习；而路径生成算法大多忽略了用户表现和学习过程中发生的变化，可能导致用户状态改变后的错误推荐，且搜索速度较慢。因此如何结合用户建模结果，自适应地调整路径，为学习者实时推荐适合其学习偏好、学习进度的学习路径，是一个亟待解决的问题。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种基于生成对抗用户模型的强化学习路径规划方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于生成对抗用户模型的强化学习路径规划方法，包括以下步骤：

1)根据用户学习日志获取构建学习者相似度矩阵W，利用谱聚类方法在学习者相似度矩阵W上完成用户学习行为类型聚类，得到N类用户学习行为类型{Cluster_ui|ui＝1,…,N}，根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集D_ui；

2)结合知识森林，构建基于分层奖励函数强化学习的路径规划模型，所述基于分层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数，并将用户行为模型用作强化学习的环境，利用生成对抗训练的形式训练路径规划模型；

3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入，基于级联DQN算法完成至目标知识点的学习资源路径规划，输出规划路径。

进一步的，步骤1)中构建学习者相似度矩阵W的具体操作为：获取每一个学习者的课程学习状态state_ui，course、已完成知识点平均耗时比

已完成知识点平均中心度

已完成关键知识点个数

及目标知识点的学习状态state_ui，target，构建学习者评分向量U_i：

计算归一化后的学习者评分向量间的余弦相似度，构建学习者相似度矩阵W：

3、根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在于，步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为：

分别构建度矩阵D和拉普拉斯矩阵L：

L＝D-W (6)

利用

对L进行标准化，随后计算前N个最小特征值的特征向量，将N个特征向量组成M*N维的矩阵，按行进行标准化得到矩阵F，对矩阵F中的每一行作为一个N维样本，共M个样本，用k-means进行聚类得出最终N类分类结果，将学习者划分为N种不同学习行为类型{Cluster_ui|ui＝1，...，N}，据此划分用户日志，得到每一种学习行为类型对应的训练数据集D_ui。

进一步的，步骤2)构建基于分层奖励函数强化学习的路径规划模型中，强化学习对应的马尔科夫决策过程的五元组M＝(s^t，A^t，P(·|s^t，A^t)，r(s^t，a^t)，γ)；

其中，学习者作为环境，状态s^t表示学习者t时刻前的历史学习资源序列，动作a^t表示t时刻从所述时刻候选学习资源集合L^t中选择一个学习资源推荐给学习者，动作集A^t则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合；状态转移概率P(·|s^t，A^t)则对应在给定状态s^t和动作集A^t时转移到下一个状态s^t+1的概率，同时作为用户动作的同等分布

奖励函数r(s^t，a^t)以及折扣因子γ。

进一步的，将奖励函数r(s^t，a^t)分解为序列决策奖励r_seq和知识点规划决策奖励r_c，即r＝r_seq+r_c；

在计算序列决策奖励r_seq时，计算推荐子序列和实际交互子序列的序列层级准确度，如式(8)：

式(8)中，prec_m代表序列决策精度，i_t：t+k为实际交互子序列，

为推荐的子序列，p_m为子序列i_t：t+k的一个长度为m的子序列，M代表所使用的长度为m的子序列的个数；

在计算知识点规划决策奖励函数r_c时，考虑到所推荐学习资源与实际点击的学习资源难度是否匹配，利用学习时长估计学习资源难度，如下所示：

式(9)中，用户实际学习子序列为i_t：t+k，预测用户学习序列为

c_t：t+k为用于表示用户实际学习序列的表示向量，

为用于表示预测的用户学习序列的表示向量，序列表示向量c_t：t+k通过对序列中每个学习资源的特征向量取均值计算得到，c_t+i和

分别用于表示实际和预测的用户学习资源学习序列中第i个学习资源的特征向量；v_t+i表示第i个学习资源的特征向量，dur_total表示该学习资源的默认学习时长，dur_watch表示用户在该学习资源上的学习时长。

进一步的，步骤2)构建用户行为模型及联合训练的方式为：

针对每一个Cluster_ui，设计用户行为模型

学到的策略

作为在动作集合A^t＝{a¹，a²，...，aⁿ}上的概率分布，在计算奖励函数时，将当前的动作a^t和用户的状态s^t都作为奖励函数r(s^t，a^t)的输入，用户所采取的策略

将最大化预期奖励r(s^t，a^t)，在求解时看作策略

在其概率分布空间Δ^k-1上的最优化问题进行求解；

在每一类学习行为类型对应的数据集D_ui上，以生成对抗训练的形式，将用户行为模型

看作生成器，奖励函数r_ui看作判别器，完成路径规划模型Planer_ui的参数学习，得到N个Planer_ui用于仿真模拟。

进一步的，最优化问题求解如下：

其中，正则化项采用负香农熵，使用参数η控制正则化的强度。

进一步的，实现生成对抗训练时极大极小化函数的计算方式为：

根据历史行为中的T个用户动作序列

和对应的点击课程资源的特征

计算状态

联合学习用户行为模型

和奖励函数r，见式(11)：

式(11)中，α代表模型

中使用到的所有参数，θ代表中奖励函数r中使用到的所有参数。

进一步的，步骤3)中利用级联DQN算法生成推荐学习资源路径的具体方式为：对于目标知识点k_target，学习资源集合为

根据每一步学习资源推荐均使当前Q函数值最大的动作决策策略，利用级联的方式，寻找使每一级Q函数最大的最优动作，逐级迭代，直到找到包含目标知识点的学习资源，输出规划路径。

进一步的，步骤3)还包括：若所述学习者user_i没有学习记录，则基于行为克隆的思想，基于同课程下历史同专业或同年级的相似用户完成学习资源路径规划，具体为：

已知目标知识点k_target，根据学习者年级、学校及专业信息，在已有学习历史的用户中进行基于相似度匹配，寻找历史记录中同课程下的历史同专业或同年级用户，利用所述相似用户的学习历史为无学习历史的用户生成至目标知识点的路径。

与现有技术相比，本发明具有以下有益效果：

本发明的基于生成对抗用户模型的强化学习路径规划方法，相较于现有的路径规划方法，本发明的基于强化学习的路径规划方法，能够在考虑到学习资源固有的知识结构的同时，考虑到用户的长期学习兴趣和当前学习兴趣，结合用户反馈，为用户提供至目标知识点的学习资源路径；本发明所提模型能够应对在线学习者的反馈实时变化的情况，采用用户行为模型与强化学习路径规划模型结合的形式，为学习者提供实时的路径规划结果；本发明提出的强化学习路径规划方法属于基于模型的强化学习方法，能够在用户交互较少的情况下学到好的推荐策略，并且能够快速学习新的用户动态；本发明在强化学习模型中使用的级联DQN算法用于获得组合推荐策略，能够从大量候选中找到最佳学习资源子集，该算法的时间复杂度仅与候选对象数量呈线性关系，能够极大程度提高模型计算效率。

附图说明

图1为本发明的学习资源路径规划流程图；

图2为使用的结合用户生成模型的强化学习模型框架示意图；

图3为级联DQN算法模型框架图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

区别于主流的学习资源推荐主要是基于资源热度、专业类别、用户相似度等的点级资源推荐。本发明中，学习路径是由一个学习资源序列组成，学习路径规划适应于许多场景，如新学某一门课程时，需要规划一个课程知识的学习路径；又如，自学某一新知识点时，需要规划一条从当前已学最新知识点到目标知识点的学习路径，这些场景需要根据用户的学习目标、学习偏好等对学习资源序列进行路径级别上的规划，即推荐个性化的学习路径。

下面结合附图对本发明做进一步详细描述：

参见图1，图1为本发明的流程图，本发明的基于强化学习的学习资源路径规划方法包括以下步骤：

步骤一：大数据驱动的用户群与训练数据集划分

获取每一个学习者的课程学习状态state_ui，course、已完成知识点平均耗时比

已完成知识点平均中心度

已完成关键知识点个数

及目标知识点的学习状态state_ui，target，根据以上指标计算学习者的相似度矩阵W，利用谱聚类方法，在相似度矩阵W上完成用户学习行为类型聚类，可得到N类用户学习行为类型{Cluster_ui|ui＝1，...，N}，据此获得每一种学习行为类型对应的训练数据集D_ui，具体为：

101)对学习者学习日志进行分析，对于每个学习者user_i获取其课程状态state_ui，course、已完成知识点平均耗时比

已完成知识点平均中心度

已完成关键知识点个数num_ui以及目标知识点的学习状态state_ui，tarqet；其中，对于课程学习状态state_ui，course，已完成课程状态记作0，未完成课程状态记作1；对于已完成知识点平均耗时比

的计算，知识点耗时比为平均学习时长与本身原始时长的比值，如式(1)所示，式(1)中dur_sum代表知识点i的总学习时长，frequency_sum代表知识点i的总学习频率，dur_i代表知识点i的原始时长；知识点中心度degree_i定义为节点的度中心性，度越大d_i的知识点重要性越高，计算式(2)所示，式(2)中n_i表示节点的度，n表示图中节点个数；已完成关键知识点个数num_ui为学习者user_i历史学习的知识点中心度大于0.2的知识点个数；若学习者未给定目标知识点，则将该门课程的最后一个知识点看作目标知识点，目标知识点的学习状态state_ui，target表示为：未完成表示为0，完成表示为1。

102)利用谱聚类划分不同学习者类型

根据学习者的课程状态state_ui，course、已完成知识点平均耗时比

已完成知识点平均中心度

已完成关键知识点个数num′_ui和目标知识点的学习状态state_ui，target，构建学习者评分向量U_i：

根据学习者相似度矩阵W依次构建对角阵D和拉普拉斯矩阵L：

L＝D-W (6)

对拉普拉斯矩阵L进行标准化，即

，得到

随后计算

的矩阵特征值，按照求解的特征值的数值从小到大排序，求得前N个最小特征值的特征向量，将N个特征向量组成M*N维的矩阵，按行进行标准化得到矩阵F，对矩阵F中的每一行作为一个N维样本，共M个样本，用k-means进行聚类得出最终N类分类结果，将学习者划分为N种不同学习行为类型。

步骤二：基于分层奖励函数强化学习的路径规划模型Planer_ui离线训练

结合知识森林，构建用于学习资源路径规划的强化学习框架：

201)构建强化学习框架的主要思路是将其看作马尔可夫决策过程，如图2所示，该过程对应的五元组M＝(s^t，A^t，P(·|s^t，A^t)，r(s^t，a^t)，γ)定义为：将学习者看作环境E，状态s^t定义为学习者t时刻前的历史学习资源序列，动作a^t定义为t时刻从该时刻候选学习资源集合L^t中选择一个学习资源推荐给学习者，动作集A^t则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合，状态转移概率P(·|s^t，A^t)则对应在给定状态s^t和动作集A^t时转移到下一个状态s^t+1的概率，可看作用户动作的同等分布

推荐策略即对应t时刻动作集的选择，A^t～π(s^t，L^t)，表示择学习资源得到动作集A^t的概为处于状态s^t的用户，从候选学习资源集合L^t中选率，奖励函数记作r(s^t，a^t)，奖励函数的设计既考虑到路径规划得到的整体路径的序列层级特征，又考虑到单个学习资源的知识点层级特征，将奖励函数分解为序列决策奖励r_seq和知识点规划决策奖励r_c，即r＝r_seq+r_c，，以及折扣因子表示为γ。

202)计算学习资源特征向量：根据课程对应知识森林KG，利用TransE模型，计算学习资源集合

中的每一个学习资源的特征向量v_t，使用的目标函数设计如下：

min∑_{(h，r，t)∈KG}∑_{(h′，r′，t′)∈KG}，[dis+distance(h+r，t)，-distance(h′+r′，t′)]₊(7)

式(7)中，h表示知识图谱KG中头实体的向量，t表示知识图谱KG中尾实体的向量，r表示知识图谱KG中关系的向量，(h，r，t)表示知识图谱KG中表示正确的三元组，(h′，r′，t′)表示错误的三元组，dis表示正样本和负样本的间距，为一个常数，[x]₊表示取max(0，x)，distance计算方式采用欧式距离。

得到的学习资源特征向量将用于用户状态表示向量s^t的计算，以及奖励函数r(s^t，a^t)的计算。

203)计算用户状态表示s^t及动作表示a^t：用户在第t次点击之前的所有点击历史记作s^t，s^t：＝h(F^1：t-1：＝[f¹，...，f^t-1])，其中，f^t代表每次点击学习资源的特征向量，h(·)函数用于计算得到的包含(t-1)个历史点击特征的序列F^1：t-1的嵌入表示，利用LSTM网络实现此序列嵌入表示的计算。

204)实现序列决策奖励函数：借鉴机器学习中BLEU度量序列相似度的方法，计算序列层级准确度作为序列决策奖励，具体公式如下：

为推荐的子序列，p_m为子序列i_t：t+k的一个长度为m的子序列，M代表所使用的长度为m的子序列的个数；可以看出奖励函数的计算方式让生成的推荐序列向包含更多一致的子序列的方向收敛，即在生成序列时，不仅考虑到每一步的表现，还考虑到序列整体的表现是否最佳。

205)实现知识点规划决策奖励函数：不仅关注到所推荐的具体的学习资源与用户真实点击的学习资源是否匹配，同时考虑到学习资源包含的知识点的难度、学习时长及资源类型是否一致；故，计算知识点规划决策奖励函数r_c时，考虑到所推荐学习资源与实际点击的学习资源难度是否匹配，利用学习时长估计学习资源难度，其中，先使用上述根据TransE模型在课程知识森林KG上计算出学习资源的特征向量v_t，再结合利用学习时长等属性计算出的学习资源难度权重，得到难度加权后的学习资源表示；知识点规划决策奖励函数通过计算实际与预测的学习序列的向量表示的余弦相似度实现，计算公式如下所示：

c_t：t+k为用于表示用户实际学习序列的表示向量，

206)对于每一个Cluster_ui，利用该学习行为类型数据集D_ui训练得到的用户行为模型

作为Planer_ui中强化学习的模拟环境，针对用user_i，此Cluster_ui的用户行为模型用于利用用户类型的相似性，模拟探索适合user_i的推荐策略：对于每一个Cluster_ui构建用户行为模型

作为强化学习的模拟环境，针对用户user_i，此Cluster_ui的用户行为模型用于利用用户类型的相似性，模拟探索适合user_i的推荐策略，能够模拟学习者在课程学习过程中对学习资源的顺序决策，给出学习者某一t时刻状态及动作(s^t，a^t)，其中，某一t时刻的状态s^t与学习者t时刻前的历史学习资源序列s^t：＝h(F^1：t-1：＝[f¹，...，f^t-1])相对应，某一t时刻的动作a^t表示学习某一学习资源。

使用生成对抗学习公式来模拟学习者的行为动态，在既考虑到用户点击的学习资源a^t(即用户的动作)，又考虑到用户的历史点击序列s^t(即用户的状态)的同时，使奖励函数r(s^t，a^t)最大化，模仿用户在所推荐的长度为k的学习资源路径中挑选时，总会学习使自身获益最大的学习资源的过程，考虑到不同用户对学习资源的评价会根据个人经历而有所不同，模型认为此处的奖励不仅与用户当前的选择有关，还与用户的学习历史相关；学到的策略

可看作在动作集合A^t＝{a¹，a²，...，aⁿ}上的概率分布，在计算奖励函数时，将当前的动作a^t和用户的状态s^t都作为奖励函数r(s^t，a^t)的输入，用户所采取的策略

将最大化预期奖励r(s^t，a^t)，因此求解时可看作策略

在概率单纯形Δ^k-1上的最优化问题，具体公式如下，其中正则化项采用负香农熵，使用参数η控制正则化的强度。

207)以生成对抗训练的形式，利用对应学习行为的训练数据集D_ui，将对应学习行为类型的用户行为模型

看作生成器，奖励函数r_ui看作判别器，完成模型参数训练和参数学习，得到N个Planer_ui用于仿真模拟。根据得到的用户行为模型为

和得到的奖励函数为r(s^t，a^t)，用户行为模型

用于模拟能够使奖励函数r(s^t，a^t)最大的用户真实行为序列，该用户采取行动以最大化奖励函数r(s^t，a^t)，类似于生成对抗网络的思路，因此模型的训练和学习过程可以类比作生成对抗网络GAN，使

作为基于用户历史生成用户下一个动作的生成器，r作为区分用户真实动作

和用户模型生成的动作a^t的判别器。利用极小极大化函数，根据历史行为中的T个用户动作序列

和对应的点击课程资源的特征

计算状态

联合学习用户行为模型

和奖励函数r，如下公式所示。式(11)中，α代表模型

步骤三：基于级联DQN算法完成路径规划

针对每个学习者user_i，若该学习者user_i已有学习历史，利用其学习历史计算该学习者所属学习行为类型

从而调用对应学习类型的路径规划模型，利用级联DQN算法，为其完成学习资源路径规划：对于目标知识点k_target，学习资源集合为

，根据每一步学习资源推荐都要使当前Q函数值最大的动作决策策略，利用级联的方式，寻找使每一级Q函数最大的最优动作，逐级迭代，直到找到包含目标知识点的学习资源，输出规划路径；若该学习者user_i没有学习记录，则基于行为克隆的思想，基于同课程下历史同专业/同年级的相似用户完成学习资源路径规划。

301)实现级联DQN算法：级联DQN算法的实现框架如图3所示，使用Q函数在搜索空间中寻找每一步的最优动作，学到的最优的动作-值函数Q^*(s^t，A^t)满足条件

a^t∈A^t；学到动作-值函数Q^*(s^t，A^t)后，推荐策略函数π^*(s^t，L^t)可通过

得到，其中，

表示在t时刻用于推荐的学习资源候选集合。利用级联Q函数网络求解路径上每一步的最优动作策略，计算方法如下所示。

302)中的根据DQN算法学到的策略函数推荐学习资源路径：对于目标知识点k_target，学习资源集合为

利用表1算法，根据Q函数，寻找利用每一级Q函数推荐的学习资源，逐级迭代，直到找到包含目标知识点的学习资源，得到学习资源路径：

表1利用级联Q函数生成推荐学习资源路径的算法

303)步骤3)中基于行为克隆的思想，基于同课程下历史同专业/同年级的相似用户完成没有学习历史的用户的学习资源路径规划的具体操作为：已知目标知识点k_target，根据学习者年级、学校、专业信息，在已有学习历史的用户中进行基于相似度匹配，寻找历史记录中同课程下的历史同专业/同年级用户，利用这些相似用户的学习历史为无学习历史的用户生成至目标知识点的路径。

实施例

本发明所提方法在头歌实践教学平台的数据结构与算法课程的在线学习日志数据上进行了实验，该数据集包含18093个用户的61506条交互记录。实验对比了本发明所提方法和经典的序列推荐方法包括GRU4Rec、SHAN、NARM、STAMP、SASRec的推荐效果，采用评价指标为MRR@10和NDCG@10，如表2所示，可以看出本发明所提的方法能够达成最优的推荐结果。

表2实施例的评价指标

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于生成对抗用户模型的强化学习路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在于，步骤1)中构建学习者相似度矩阵W的具体操作为：获取每一个学习者的课程学习状态state_ui,course、已完成知识点平均耗时比

已完成知识点平均中心度

已完成关键知识点个数

及目标知识点的学习状态state_ui,target，构建学习者评分向量U_i：

3.根据权利要求2所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在于，步骤1)中利用谱聚类方法结合相似度矩阵W完成N种用户学习行为类型聚类及数据集划分的具体过程为：

分别构建度矩阵D和拉普拉斯矩阵L：

L＝D-W (6)

利用

对L进行标准化，随后计算前N个最小特征值的特征向量，将N个特征向量组成M*N维的矩阵，按行进行标准化得到矩阵F，对矩阵F中的每一行作为一个N维样本，共M个样本，用k-means进行聚类得出最终N类分类结果，将学习者划分为N种不同学习行为类型{Cluster_ui|ui＝1,…,N}，据此划分用户日志，得到每一种学习行为类型对应的训练数据集D_ui。

4.根据权利要求1所述的基于生成对抗用户模型的强化学习路径规划方法，其特征在于，步骤2)构建基于分层奖励函数强化学习的路径规划模型中，强化学习对应的马尔科夫决策过程的五元组M＝(s^t,A^t,P(·|s^t,A^t),r(s^t,a^t),γ)；

其中，学习者作为环境，状态s^t表示学习者t时刻前的历史学习资源序列，动作a^t表示t时刻从所述时刻候选学习资源集合L^t中选择一个学习资源推荐给学习者，动作集A^t则表示t时刻为学习者推荐的长度为k的学习资源路径所对应的k个动作集合；状态转移概率P(·|s^t,A^t)则对应在给定状态s^t和动作集A^t时转移到下一个状态s^t+1的概率，同时作为用户动作的同等分布