CN116720007B

CN116720007B - 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Info

Publication number: CN116720007B
Application number: CN202311007379.4A
Authority: CN
Inventors: 董瑶; 李妍; 付怡雪; 王雅琮; 陈晨; 刘雨茜; 李欣然
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2023-08-11
Filing date: 2023-08-11
Publication date: 2023-11-28
Anticipated expiration: 2043-08-11
Also published as: CN116720007A

Abstract

本发明提供一种基于多维学习者状态和联合奖励的在线学习资源推荐方法，包括多维学习者状态、联合奖励和策略三个模块：将学习者作为马尔可夫决策过程中的主体，设计由知识信息、学习者行为序列和学习者交互信息组成的知识图谱来准确地表示学习者的多维学习状态；将学习资源之间的语义关联聚合起来，构建归纳网络来生成知识状态和推断知识状态；利用双向门控循环单元和注意力机制提取行为序列状态的关键信息，引入学习者交互信息，利用因子分解机对认知水平进行建模；构造序列奖励与知识奖励相结合的复合奖励函数，根据概率优化累计奖励并推荐学习资源。通过本发明，可以使推荐结果更精确，更具可解释性，满足学习者实际需求。

Description

基于多维学习者状态和联合奖励的在线学习资源推荐方法

技术领域

本发明属于机器学习、在线学习、学习资源推荐领域，尤其是涉及一种基于多维学习者状态和联合奖励的在线学习资源推荐方法。

背景技术

随着在线教育的日益普及，在线学习资源推荐算法因可以帮助学习者从海量的学习资源中迅速找到符合需求的资源而广受关注。例如，基于内容的推荐算法利用项目的描述性特征，通过挖掘系统中用户的隐式和显式交互中学习资源偏好信息，计算所有学习资源与偏好学习资源的相似度，并按照相似度排名推荐学习资源；基于协同过滤的推荐算法利用用户的历史交互信息，根据具有相似偏好的其他用户的点击倾向来进行学习资源推荐；基于混合策略的推荐算法在现有推荐技术的基础上，混合加权、特征组合、多模型组合等策略，根据数据特征和项目类型因地制宜地选取推荐方法，从而生成不同推荐结果。

然而，这些推荐算法在解决学习资源推荐问题仍有较大挑战。一方面，学习系统中存在着大量学习资源，而学习者的交互行为却有限，这导致学习行为数据稀疏性问题；另一方面，现有的在线学习资源推荐算法通常未从多个维度提取学习者的特征与偏好。因此，传统的在线学习资源推荐算法受限于数据稀疏、学习者动态偏好建模能力不足和学习行为特征提取能力不足等问题，在推荐中表现不佳。

知识图谱作为一类新兴的包含多类信息的图结构，将其引入到推荐算法中可缓解数据稀疏问题；强化学习具有强大分析捕捉用户的序列特征和动态偏好的能力。由此本发明通过结合知识图谱与基于策略的强化学习，提出一种基于多维学习者状态和联合奖励的在线学习资源推荐方法，有效解决上述问题，为学习者提供个性化的在线学习资源推荐方案。

发明内容

本发明要解决的技术问题在于，针对现有技术的数据稀疏、学习者动态偏好建模与学习行为特征提取不充分的缺陷，提供了一种基于多维学习者状态和联合奖励的在线学习资源推荐方法，该推荐方法在在线学习资源推荐上取得了较准确的推荐效果。

本发明为解决其技术问题，提供了一种基于多维学习者状态和联合奖励的在线学习资源推荐方法，该方法将学习资源推荐形式化为马尔可夫决策过程，将学习者建模为智能体，应用知识图谱的高阶语义信息和强化学习算法建模学习者的知识状态和偏好，包括：多维学习者状态模块、联合奖励模块、策略模块。

多维学习者状态模块，实现了增强学习者状态表示以优化学习者行为特征提取能力的功能；构建图卷积神经网络和感知网络，获得最终知识状态，使用注意力机制和双向门控循环单元提取关键信息，获得序列状态，引入学习者交互信息，使用因子分解机建模学习者交互状态，将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状态；

联合奖励模块，实现了构建复合奖励函数以最大化累加奖励的功能；使用序列层面和知识层面的联合奖励函数共同衡量状态质量、优化策略梯度；

策略模块，实现了学习随机策略以推荐学习资源的功能；使用随机策略计算某一学习资源的动作概率，根据概率分布和累加最大化奖励选择排名前的学习资源作为最终的推荐结果。

所述多维学习者状态模块步骤实现如下：

S11、获取学习者-学习资源交互信息、学习者学习行为序列和知识图谱，并将其联合得到初始学习者状态输入；

S12、构建图卷积神经网络和感知网络，生成当前知识状态和未来知识状态，将和整合为最终的知识状态；

S13、使用注意力机制和双向门控循环单元提取关键信息，获得序列状态；

S14、引入学习者交互信息，使用因子分解机建模学习者交互状态；

S15、将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状态。

进一步的，所述步骤S11中，获得初始学习者状态输入步骤如下：

S111、获取真实教育数据集中的学习者-学习资源交互信息、学习者学习行为序列和知识图谱；由于采集到的原始数据不能直接用于之后的计算，需要对采集到的原始数据进行数据预处理：筛去重复数据及缺项数据，再按照时间顺序，对所有的学习者交互数据排序，筛去交互记录少的学习者和学习资源；所述学习者-学习资源交互信息包括学习者和学习者访问的学习资源，学习者学习行为序列为按照时间顺序，学习者和学习资源的交互记录；

S112、对于知识图谱部分，删除部分不匹配空数据条目，使用网络表示学习方法构建知识图谱，将知识图谱中每个实体和关系表示为一个对应的低维特征向量，其中、、分别表示三元组的头实体、关系和尾实体；

S113、在获取到学习者-学习资源交互信息、学习者学习行为序列和知识图谱后，将其联合得到初始学习者状态输入：

；

其中表示学习者，表示学习资源，表示学习者和学习资源曾经的交互信息，表示学习者行为序列记录，表示学习资源知识图谱；

进一步的，所述步骤S12中，生成最终知识状态步骤如下：

S121、在图卷积中对所有的实体节点规定采样大小和聚合层数，即在跳内，其每一层的个邻居节点都将被计算在内。给定学习资源节点的表示为：

；

其中为学习资源节点的相邻节点集，和分别代表头实体和尾实体，表示由到的有向关系，为节点的嵌入表示，为针对学习者对知识图谱中不同关系的偏好，得出关系的评分，的表达式为：

；

其中表示学习资源、嵌入表示的关系，表示关系评分函数，表示学习者，表示知识图谱中的不同关系；

S122、经过多次训练，并结合邻居节点，得到学习资源节点与第跳的邻居节点的聚合表示为：

；

其中和分别为第跳聚合时多次训练得到的权重矩阵和偏移量矩阵，为函数；

S123、使用平均池化操作聚合时刻内交互的所有实体嵌入，表征在时刻的当前偏好：

；

S124、在已获得当前偏好的基础上，通过构建多层感应网络来感知学习者未来的知识偏好，并将推断的偏好加入到状态表示中，在预测偏好时，以当前偏好表示为输入：

；

其中表示模型在时刻推测的未来偏好，表示第层和第层神经元之间的连接权重，为函数；

S125、整合当前知识状态和未来知识状态，得出最终的知识状态表示：

；

进一步的，所述步骤S13中，获得序列状态步骤如下：

S131、将时刻的学习者交互序列按照正序和倒序分别输入至双向门控循环单元中，和分别为正向门控循环单元的重置门和更新门，和分别为反向门控循环单元的重置门和更新门：

；

其中为函数，、、和为权重参数矩阵，输入向量和分别为上一时刻正向和反向门控循环单元所训练生成的隐含序列状态，和分别为学习者在时刻所交互的学习资源的嵌入向量的正序表示和倒序表示；

S132、在获得当前的门控信号、、和后，门控循环单元通过激活函数进行归一化，并更新当前正向和反向门控循环单元的隐藏序列状态和：

；

其中和为权重参数矩阵；

S133、联合双向门控循环单元中正向和反向的门控循环单元生成的隐藏序列状态向量和，初步得出当前序列状态：

；

其中为门控循环单元的所有相关参数；

S134、利用注意力机制，捕获序列状态中的关键信息，使用函数进行归一化，获得最终序列状态表示：

；

其中表示激活函数，表示权重矩阵，表示偏置系数，表示随机初始化的注意力矩阵，表示投射到新的函数空间的状态矩阵，表示输入向量的注意力系数矩阵，表示经过注意力机制加权的序列状态，表示神经网络第一层的偏差，表示双线性乘积中的参数。

进一步的，所述步骤S14中，引入学习者交互信息，将学习者、学习资源及知识图谱中相关知识视为学习者的多维特征，使用因子分解机算法进行特征组合获取当前学习者状态：

；

其中，、、为模型参数，和为特征值；

所述联合奖励模块步骤如下：

S21、基于当前学习者状态，选取下一个动作，同时生成一段用于推荐的子序列以评估序列层面的奖励。为了使得累加奖励最大化，对于一个实际和预测的学习资源子序列，即和，使用双语评估替补度量实际的和预测的子序列所反映的序列层面的奖励函数：

；

其中为修正后的精度，为m-gram精度分数；

S22、考虑评估序列中所反映的知识层面的奖励，使用余弦相似度测量实际的和预测的学习资源子序列和所反映的学习者知识水平特征的奖励函数：

；

S23、在时刻，整合序列层面及知识层面的奖励函数和来定义步奖励函数，衡量推荐序列的整体质量：

；

其中和分别表示时刻的学习者状态和执行的动作。

所述策略模块步骤如下：

S31、在时刻，根据当前学习者状态，学习者每执行一个动作，从学习资源集中选择时刻的子序列进行推荐；其中，策略函数将学习者状态和所有的可选动作作为输入，使用函数输出选择学习资源的概率分布，并据此推荐下一个动作：

；

其中为学习者在时刻所交互的学习资源的子序列中第项的嵌入向量，为学习者状态的嵌入向量，表示双线性乘积中的参数，表示需要学习的相关参数；

S32、在得到选择学习资源的概率分布后，通过训练学习随机策略，使学习者行为预期累加奖励最大化：

；

的导数为：

；

其中是折现系数，表示需要学习的相关参数，对序列每个时刻，使用梯度上升法，更新策略函数的参数，直至获得最佳参数；

S33、根据步骤S31得到的概率分布和步骤S32得到的累加最大化奖励对学习资源进行排序，选择排名前的结果作为最终的推荐结果。

本发明与现有技术相比的优点在于：

（1）本发明利用学习资源知识图谱的高阶语义信息和学习资源之间知识的连通性，构建图卷积神经网络递归传播知识图谱中实体和多层邻域间语义关系，融合多类实体信息，丰富向量表达。

（2）本发明设计多维学习者状态表征方法，综合历史和未来知识偏好获得知识状态；构建注意力机制和双向门控循环网络建模序列状态；利用因子分解机提取学习者交互状态；从知识、序列、学习者交互三方面增强学习者状态表示，优化学习者行为特征的提取能力。

（3）本发明根据学习知识点具有前后顺序关联性的特点，将学习资源推荐建模为马尔可夫决策过程，将学习者视作智能体，构建结合序列与知识两个层面的复合奖励函数，优化策略梯度函数以最大化联合奖励，以达到精准推荐学习资源的目的。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明所述在线学习资源推荐方法的模型框架图；

图2为本发明所述在线学习资源推荐方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施都属于本发明保护的范围。

1.数据集

实验中，在两个真实教育数据集上将本发明在线学习资源推荐方法与5种方法进行了对比。

（1）MOOPer数据集：由国防科技大学和在线实践教学平台头歌平台（EduCoder）共同发布的大型开放实践数据集。数据集包含平台2018-2019年间用户参与实践练习的2532524条实践练习数据，并将课程、实践、关卡、知识点等实体属性信息及相互关系构建为包含11类实体，13类关系的知识图谱。

（2）MOOCCube数据集：由清华大学和学堂在线联合创建的一个开放数据仓库，收集了来自学堂在线教育平台的真实用户行为数据，包括用户与学习视频交互、留言等。数据集包含706门真实在线课程、38181个教学视频、114563个概念及数万名MOOC用户的数十万选课、视频观看记录，作为附加资源，MOOCCube还包含一个大型概念图和相关学术论文。

各类数据集的基本信息参见表1：

表1 实验数据集的相关信息

2.评价指标

在学习资源推荐系统中，常一次性为学习者推荐多个学习资源以供选择，因此本发明最终将生成一个项学习资源推荐列表来模拟真实场景。实验使用了六个指标来定量评估模型在Top-k推荐任务上的性能，分别是HR@1（Hit Ratio of top 1）、HR@3（Hit Ratio of top 3）、HR@5（Hit Ratio of top 5）、HR@10（Hit Ratio of top 10）、NDCG@10 （Normalized Discounted Cumulative Gain of top 10）和MRR（Mean Reciprocal Rank）。这些指标的值越高表明推荐效果越好。

3.对比方法

在两个真实教育数据集（MOOPer、MOOCCube）上测试本发明方法的推荐效果，并将本发明所述在线学习资源推荐方法与以下5种学习资源推荐方法进行对比：

（1）FM：由Rendle S在IEEE International Conference on Data Mining, 2010,pp.14-17.上的论文Factorization machines提出。

（2）KGCN：由Wang H, Zhao M, Xie X, Li W, Guo M在InternationalConference on World Wide Web, 2019, pp.3307-3313.上的论文Knowledge graphconvolutional networks for recommender systems提出。

（3）GRU4Rec：由Hidasi B, Karatzoglou A, Baltrunas L, Tikk D在International Conference on Learning Representations, 2016, pp.1-10.上的论文Session-based recommendations with recurrent neural networks提出。

（4）HRL：由Zhang J, Hao B, Chen B, Li C, Sun J在AAAI Conference onArtificial Intelligence, 2019, pp.435-442.上的论文Hierarchical reinforcementlearning for course recommendation in MOOCs提出。

（5）KERL：由Wang P, Fan Y, Xia L, Zhao W, Huang J在International ACMSIGIR conference on research and development in Information Retrieval, 2020,pp.209-218.上的论文KERL: A knowledge-guided reinforcement learning model forsequential recommendation提出。

4.实验设置

本实施例使用的知识图谱嵌入向量、学习者向量和序列向量都设置为50维度，图卷积网络每次聚合邻居数为2，MOOPer数据集图卷积聚合层数为2，MOOCCube数据集图卷积层数为3，单个GRU的隐藏层大小为64，多层感知机的输出大小为100，批次大小为1024，采用Adam算法对所有可训练参数进行优化。

5.推荐效果分析

测试了所有方法在MOOPer、MOOCCube数据集上的推荐效果，并对结果进行了分析，实验结果见表2。从表2实验结果中可以得到以下总结：（1）本发明所述在线学习资源推荐方法优于其他方法，在MOOPer、MOOCCube数据集上均能取得最好的结果。这证明与使用TransE嵌入知识图谱的KERL序列推荐方法相比，本发明方法使用图卷积网络来聚合知识图谱中节点与邻居信息，成功捕获了知识图谱中高阶结构信息，并从知识图谱实体状态、序列状态、学习者交互状态三方面多维表征学习者状态，有效建模了学习者知识状态和动态偏好。（2）传统的推荐方法FM在对推荐具有排名要求的评价指标NDCG@10和MRR上不具有优势，而基于序列推荐的GRU4Rec、HRL、KERL和深入挖掘了学习者交互序列的MDLSJR等方法具有更好的结果。由此说明挖掘交互数据中的序列特征可以捕获学习者的动态偏好，也进一步证明了推荐中挖掘序列信息的重要性。（3）预处理后MOOCCube数据集中可推荐学习资源数量为38181，学习者数量和学习者交互行为数量分别为36825和4480867，且同一学习者无重复学习记录，经计算得MOOCCube交互矩阵中非零元素约占总元素的0.38%。因此，MOOCCube数据集是一个稀疏数据集。然而，在MOOCCube上，与未引入知识图谱的最佳基线模型HRL相比，MDLSJR在HR@10、HR@5、HR@3、HR@1、NDCG@10和MRR指标上均有提升。这证明引入知识图谱的语义信息和结构信息可以有效地缓解数据稀疏问题，并获得更优的学习资源推荐效果。

表2 在MOOPer、MOOCCube数据集上的对比研究

此外，还对基于多维学习者状态和联合奖励的在线学习资源推荐方法的模型进行一些消融实验，具体分析了多维学习者状态模块未采用图卷积知识增强的结果、未采用学习者交互增强的结果、未采用注意力机制和双向门控循环单元进行序列增强的结果，联合奖励模块未采用知识和序列层面联合奖励的结果。

采用图卷积知识增强的有效性：为了验证在多维学习者状态模块采用图卷积知识增强的有效性，去除多维学习者状态模块图卷积知识增强的步骤，该实验设置推荐效果如表3所示。可以看出，使用图卷积网络嵌入知识图谱可以在递归的传播中有效提取知识图谱高阶结构信息，增强学习资源向量表达的同时缓解数据稀疏问题。

采用学习者交互增强的有效性：为了验证在多维学习者状态模块采用学习者交互增强的有效性，去除多维学习者状态模块学习者交互增强的步骤，该实验设置推荐效果如表3所示。可以看出，在建模多维学习者状态时引入学习者交互状态可以有效挖掘其个性化特征，模拟学习者当前知识水平，提升学习资源推荐算法性能。

采用注意力机制和双向门控循环单元进行序列增强的有效性：为了验证在多维学习者状态模块采用注意力机制和双向门控循环单元进行序列增强的有效性，去除多维学习者状态模块采用注意力机制和双向门控循环单元进行序列增强的步骤，该实验设置推荐效果如表3所示。可以看出，添加注意力机制可以深度挖掘学习者的重点特征信息，优化学习者状态表征；采用双向门控循环单元同时从正向序列和反向序列中训练模型，可以有效利用过去和未来的信息，深入挖掘时序信息，提高推荐性能。

采用知识和序列层面联合奖励的有效性：为了验证在联合奖励模块采用知识和序列层面联合奖励的有效性，去除联合奖励模块采用知识和序列层面联合奖励的步骤，该实验设置推荐效果如表3所示。可以看出，使用同时衡量序列和知识层面的联合奖励函数可以有效评估多维学习者状态质量，促进策略优化，提升推荐结果。

表3 在MOOPer、MOOCCube数据集上的消融研究

以上所述仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于多维学习者状态和联合奖励的在线学习资源推荐方法，其特征在于：包括多维学习者状态模块、联合奖励模块和策略模块；

多维学习者状态模块，实现增强学习者状态表示以优化学习者行为特征提取能力的功能；构建图卷积神经网络和感知网络，获得最终知识状态，使用注意力机制和双向门控循环单元提取关键信息，获得序列状态，引入学习者交互信息，使用因子分解机建模学习者交互状态，将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状态；

联合奖励模块，实现构建复合奖励函数以最大化累加奖励的功能；使用序列层面和知识层面的联合奖励函数共同衡量状态质量、优化策略梯度；

策略模块，实现学习随机策略以推荐学习资源的功能；使用随机策略π计算某一学习资源的动作概率，根据概率分布和累加最大化奖励选择排名前n的学习资源作为最终的推荐结果；

所述多维学习者状态模块步骤实现如下：

S11、获取学习者-学习资源交互信息、学习者学习行为序列和知识图谱，并将其联合得到初始学习者状态输入s_t；

S12、构建图卷积神经网络和感知网络，生成当前知识状态c_t和未来知识状态将c_t和整合为最终的知识状态k_t；

S13、使用注意力机制和双向门控循环单元提取关键信息，获得序列状态x_t；

S14、引入学习者交互信息(u,i)，使用因子分解机建模学习者交互状态u_t；

S15、将知识状态k_t、序列状态x_t、学习者交互状态u_t整合为最终的多维学习者状态

其中，所述步骤S11中，获得初始学习者状态输入s_t步骤如下：

S111、获取真实教育数据集中的学习者-学习资源交互信息、学习者学习行为序列和知识图谱；由于采集到的原始数据不能直接用于之后的计算，需要对采集到的原始数据进行数据预处理：筛去重复数据及缺项数据，再按照时间顺序，对所有学习者交互数据排序，筛去交互记录少的学习者和学习资源；所述学习者-学习资源交互信息包括学习者和学习者访问的学习资源，学习者学习行为序列为按照时间顺序，学习者和学习资源的交互记录；

S112、对于知识图谱部分，删除部分不匹配空数据条目，使用网络表示学习方法构建知识图谱，将知识图谱中每个实体和关系表示为一个对应的低维特征向量G＝(h,r,t)，其中h、r、t分别表示三元组的头实体、关系和尾实体；

S113、在获取到学习者-学习资源交互信息、学习者学习行为序列和知识图谱后，将其联合得到初始学习者状态输入s_t：

s_t＝[(u,i),i_u,G＝(h,r,t)]；

其中u表示学习者，i表示学习资源，(u,i)表示学习者和学习资源曾经的交互信息，i_u表示学习者行为序列记录，G＝(h,r,t)表示学习资源知识图谱；

所述策略模块步骤实现如下：

S31、在t时刻，根据当前学习者状态s_t，学习者每执行一个动作a_t，从学习资源集中选择t+1时刻的子序列i_t+1进行推荐；其中，策略函数π(s_t,a_t)将学习者状态s_t和所有的可选动作a_t作为输入，使用sofmax函数输出选择学习资源的概率分布P[a_t|s_t,θ]，并据此推荐下一个动作：

其中为学习者在t时刻所交互的学习资源i的子序列i_t中第j项的嵌入向量，/>为学习者状态s_t的嵌入向量，W₁表示双线性乘积中的参数，θ表示需要学习的相关参数；

S32、在得到选择学习资源的概率分布P后，通过训练学习随机策略π，使学习者行为预期累加奖励J(θ)最大化：

J(Θ)的导数为：

其中γ是折现系数，θ表示需要学习的相关参数，对序列每个时刻t，使用梯度上升法，更新策略函数的参数θ，直至获得最佳参数θ_best；

S33、根据步骤S31得到的概率分布P和步骤S32得到的累加最大化奖励J(Θ)对学习资源进行排序，选择排名前n的结果作为最终的推荐结果；所述步骤S12中，生成最终知识状态k_t步骤如下：

S121、在图卷积中对所有的实体节点规定采样大小N和聚合层数k，即在k跳内，其每一层的N个邻居节点都将被计算在内，给定学习资源节点i的表示为：

其中N(i)＝N(head)＝{tail|(head，relation，tail)∈G}为学习资源节点i的相邻节点集，head和tail分别代表头实体和尾实体，relation表示由head到tail的有向关系，e为节点i的嵌入表示，为针对学习者对知识图谱中不同关系的偏好，得出关系的评分，的表达式为：

其中r_i,e表示学习资源i、嵌入表示e的关系，grade表示关系评分函数，u表示学习者，relation表示知识图谱中的不同关系；

S122、经过多次训练，并结合邻居节点N(i)，得到学习资源节点i与第k跳的邻居节点的聚合表示为：

其中W_k和B_k分别为第k跳聚合时多次训练得到的权重矩阵和偏移量矩阵，σ为ReLU函数；

S123、使用平均池化操作聚合t时刻内交互的所有实体嵌入，表征在t时刻的当前偏好c_t：

S124、在已获得当前偏好c_t的基础上，通过构建多层感应网络来感知学习者未来的知识偏好，并将推断的偏好加入到状态表示中，在预测偏好时，以当前偏好表示c_t为输入：

其中表示模型在t时刻推测的未来偏好，w_i表示第i层和第i+1层神经元之间的连接权重，σ为tanh函数；

S125、整合当前知识状态c_t和未来知识状态得出最终的知识状态表示k_t：

2.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法，其特征在于：所述步骤S13中，获得序列状态x_t步骤如下：

S131、将t时刻的学习者交互序列按照正序和倒序/>分别输入至双向门控循环单元中，r_t和z_t分别为正向门控循环单元的重置门和更新门，r_t'和z_t'分别为反向门控循环单元的重置门和更新门：

其中σ为Sigmoid函数，W_r、W_z、W_r'和W_z'为权重参数矩阵，输入向量h_t-1和h'_t-1分别为t-1时刻正向和反向门控循环单元所训练生成的隐含序列状态，和/>分别为学习者在t时刻所交互的学习资源i的嵌入向量的正序表示和倒序表示；

S132、在获得当前的门控信号r_t、z_t、r_t'和z_t'后，门控循环单元通过tanh激活函数进行归一化，并更新当前正向和反向门控循环单元的隐藏序列状态h_t和h_t'：

其中和/>为权重参数矩阵；

S133、联合双向门控循环单元中正向和反向的门控循环单元生成的隐藏序列状态向量h_t和h_t'，初步得出当前序列状态

其中Φ_gru为门控循环单元的所有相关参数；

S134、利用注意力机制，捕获序列状态中的关键信息，使用softmax函数进行归一化，获得最终序列状态表示x_t：

其中tanh表示激活函数，W_w表示权重矩阵，b_w表示偏置系数，z_w表示随机初始化的注意力矩阵，z_t表示投射到新的函数空间的状态矩阵，α_t表示输入向量的注意力系数矩阵，表示经过注意力机制加权的序列状态，b₁表示神经网络第一层的偏差，W₁表示双线性乘积中的参数。

3.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法，其特征在于：所述步骤S14中，引入学习者交互信息(u,i)，将学习者、学习资源及知识图谱中相关知识视为学习者的多维特征，使用因子分解机算法进行特征组合获取当前学习者状态u_t：

其中，W₀、W_i、W_ij为模型参数，y_i和y_j为特征值。

4.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法，其特征在于：所述联合奖励模块步骤如下：

S21、基于当前学习者状态s_t，选取下一个动作a_t，同时生成一段用于推荐的子序列以评估序列层面的奖励，为了使得累加奖励最大化，对于一个实际和预测的学习资源子序列，即i_t和使用双语评估替补度量实际的和预测的子序列所反映的序列层面的奖励函数R_seq：

其中prec_m为修正后的精度，M为m-gram精度分数；

S22、考虑评估序列中所反映的知识层面的奖励，使用余弦相似度测量实际的和预测的学习资源子序列i_t和所反映的学习者知识水平特征的奖励函数R_kg：

S23、在t时刻，整合序列层面及知识层面的奖励函数R_seq和R_kg来定义k步奖励函数，衡量推荐序列的整体质量R：

其中s_t和a_t分别表示t时刻的学习者状态和执行的动作。