CN116720007B - 基于多维学习者状态和联合奖励的在线学习资源推荐方法 - Google Patents

基于多维学习者状态和联合奖励的在线学习资源推荐方法 Download PDF

Info

Publication number
CN116720007B
CN116720007B CN202311007379.4A CN202311007379A CN116720007B CN 116720007 B CN116720007 B CN 116720007B CN 202311007379 A CN202311007379 A CN 202311007379A CN 116720007 B CN116720007 B CN 116720007B
Authority
CN
China
Prior art keywords
learner
state
sequence
learning
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311007379.4A
Other languages
English (en)
Other versions
CN116720007A (zh
Inventor
董瑶
李妍
付怡雪
王雅琮
陈晨
刘雨茜
李欣然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202311007379.4A priority Critical patent/CN116720007B/zh
Publication of CN116720007A publication Critical patent/CN116720007A/zh
Application granted granted Critical
Publication of CN116720007B publication Critical patent/CN116720007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于多维学习者状态和联合奖励的在线学习资源推荐方法,包括多维学习者状态、联合奖励和策略三个模块:将学习者作为马尔可夫决策过程中的主体,设计由知识信息、学习者行为序列和学习者交互信息组成的知识图谱来准确地表示学习者的多维学习状态;将学习资源之间的语义关联聚合起来,构建归纳网络来生成知识状态和推断知识状态;利用双向门控循环单元和注意力机制提取行为序列状态的关键信息,引入学习者交互信息,利用因子分解机对认知水平进行建模;构造序列奖励与知识奖励相结合的复合奖励函数,根据概率优化累计奖励并推荐学习资源。通过本发明,可以使推荐结果更精确,更具可解释性,满足学习者实际需求。

Description

基于多维学习者状态和联合奖励的在线学习资源推荐方法
技术领域
本发明属于机器学习、在线学习、学习资源推荐领域,尤其是涉及一种基于多维学习者状态和联合奖励的在线学习资源推荐方法。
背景技术
随着在线教育的日益普及,在线学习资源推荐算法因可以帮助学习者从海量的学习资源中迅速找到符合需求的资源而广受关注。例如,基于内容的推荐算法利用项目的描述性特征,通过挖掘系统中用户的隐式和显式交互中学习资源偏好信息,计算所有学习资源与偏好学习资源的相似度,并按照相似度排名推荐学习资源;基于协同过滤的推荐算法利用用户的历史交互信息,根据具有相似偏好的其他用户的点击倾向来进行学习资源推荐;基于混合策略的推荐算法在现有推荐技术的基础上,混合加权、特征组合、多模型组合等策略,根据数据特征和项目类型因地制宜地选取推荐方法,从而生成不同推荐结果。
然而,这些推荐算法在解决学习资源推荐问题仍有较大挑战。一方面,学习系统中存在着大量学习资源,而学习者的交互行为却有限,这导致学习行为数据稀疏性问题;另一方面,现有的在线学习资源推荐算法通常未从多个维度提取学习者的特征与偏好。因此,传统的在线学习资源推荐算法受限于数据稀疏、学习者动态偏好建模能力不足和学习行为特征提取能力不足等问题,在推荐中表现不佳。
知识图谱作为一类新兴的包含多类信息的图结构,将其引入到推荐算法中可缓解数据稀疏问题;强化学习具有强大分析捕捉用户的序列特征和动态偏好的能力。由此本发明通过结合知识图谱与基于策略的强化学习,提出一种基于多维学习者状态和联合奖励的在线学习资源推荐方法,有效解决上述问题,为学习者提供个性化的在线学习资源推荐方案。
发明内容
本发明要解决的技术问题在于,针对现有技术的数据稀疏、学习者动态偏好建模与学习行为特征提取不充分的缺陷,提供了一种基于多维学习者状态和联合奖励的在线学习资源推荐方法,该推荐方法在在线学习资源推荐上取得了较准确的推荐效果。
本发明为解决其技术问题,提供了一种基于多维学习者状态和联合奖励的在线学习资源推荐方法,该方法将学习资源推荐形式化为马尔可夫决策过程,将学习者建模为智能体,应用知识图谱的高阶语义信息和强化学习算法建模学习者的知识状态和偏好,包括:多维学习者状态模块、联合奖励模块、策略模块。
多维学习者状态模块,实现了增强学习者状态表示以优化学习者行为特征提取能力的功能;构建图卷积神经网络和感知网络,获得最终知识状态,使用注意力机制和双向门控循环单元提取关键信息,获得序列状态,引入学习者交互信息,使用因子分解机建模学习者交互状态,将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状态;
联合奖励模块,实现了构建复合奖励函数以最大化累加奖励的功能;使用序列层面和知识层面的联合奖励函数共同衡量状态质量、优化策略梯度;
策略模块,实现了学习随机策略以推荐学习资源的功能;使用随机策略计算某 一学习资源的动作概率,根据概率分布和累加最大化奖励选择排名前的学习资源作为最 终的推荐结果。
所述多维学习者状态模块步骤实现如下:
S11、获取学习者-学习资源交互信息、学习者学习行为序列和知识图谱,并将其联 合得到初始学习者状态输入
S12、构建图卷积神经网络和感知网络,生成当前知识状态和未来知识状态,将整合为最终的知识状态
S13、使用注意力机制和双向门控循环单元提取关键信息,获得序列状态
S14、引入学习者交互信息,使用因子分解机建模学习者交互状态
S15、将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状 态
进一步的,所述步骤S11中,获得初始学习者状态输入步骤如下:
S111、获取真实教育数据集中的学习者-学习资源交互信息、学习者学习行为序列和知识图谱;由于采集到的原始数据不能直接用于之后的计算,需要对采集到的原始数据进行数据预处理:筛去重复数据及缺项数据,再按照时间顺序,对所有的学习者交互数据排序,筛去交互记录少的学习者和学习资源;所述学习者-学习资源交互信息包括学习者和学习者访问的学习资源,学习者学习行为序列为按照时间顺序,学习者和学习资源的交互记录;
S112、对于知识图谱部分,删除部分不匹配空数据条目,使用网络表示学习方法构 建知识图谱,将知识图谱中每个实体和关系表示为一个对应的低维特征向量, 其中分别表示三元组的头实体、关系和尾实体;
S113、在获取到学习者-学习资源交互信息、学习者学习行为序列和知识图谱后, 将其联合得到初始学习者状态输入
其中表示学习者,表示学习资源,表示学习者和学习资源曾经的交互信息,表示学习者行为序列记录,表示学习资源知识图谱;
进一步的,所述步骤S12中,生成最终知识状态步骤如下:
S121、在图卷积中对所有的实体节点规定采样大小和聚合层数,即在跳内,其 每一层的个邻居节点都将被计算在内。给定学习资源节点的表示为:
其中为学习资源节点的相邻节点 集,分别代表头实体和尾实体,表示由的有向关系,为节点的 嵌入表示,为针对学习者对知识图谱中不同关系的偏好,得出关系的评分,的表达式 为:
其中表示学习资源、嵌入表示的关系,表示关系评分函数,表示学习 者,表示知识图谱中的不同关系;
S122、经过多次训练,并结合邻居节点,得到学习资源节点与第跳的邻居节 点的聚合表示为:
其中分别为第跳聚合时多次训练得到的权重矩阵和偏移量矩阵,函数;
S123、使用平均池化操作聚合时刻内交互的所有实体嵌入,表征在时刻的当前偏 好
S124、在已获得当前偏好的基础上,通过构建多层感应网络来感知学习者未来 的知识偏好,并将推断的偏好加入到状态表示中,在预测偏好时,以当前偏好表示为输 入:
其中表示模型在时刻推测的未来偏好,表示第层和第层神经元之间的 连接权重,函数;
S125、整合当前知识状态和未来知识状态,得出最终的知识状态表示
进一步的,所述步骤S13中,获得序列状态步骤如下:
S131、将时刻的学习者交互序列按照正序和倒序分别输入至双向门控循环 单元中,分别为正向门控循环单元的重置门和更新门,分别为反向门控循环 单元的重置门和更新门:
其中函数,为权重参数矩阵,输入向量分别 为上一时刻正向和反向门控循环单元所训练生成的隐含序列状态,分别为学 习者在时刻所交互的学习资源的嵌入向量的正序表示和倒序表示;
S132、在获得当前的门控信号后,门控循环单元通过激活函数 进行归一化,并更新当前正向和反向门控循环单元的隐藏序列状态
其中为权重参数矩阵;
S133、联合双向门控循环单元中正向和反向的门控循环单元生成的隐藏序列状态 向量,初步得出当前序列状态
其中为门控循环单元的所有相关参数;
S134、利用注意力机制,捕获序列状态中的关键信息,使用函数进行归 一化,获得最终序列状态表示
其中表示激活函数,表示权重矩阵,表示偏置系数,表示随机初始化 的注意力矩阵,表示投射到新的函数空间的状态矩阵,表示输入向量的注意力系数矩 阵,表示经过注意力机制加权的序列状态,表示神经网络第一层的偏差,表示双线性 乘积中的参数。
进一步的,所述步骤S14中,引入学习者交互信息,将学习者、学习资源及知识 图谱中相关知识视为学习者的多维特征,使用因子分解机算法进行特征组合获取当前学习 者状态
其中,为模型参数,为特征值;
所述联合奖励模块步骤如下:
S21、基于当前学习者状态,选取下一个动作,同时生成一段用于推荐的子序列 以评估序列层面的奖励。为了使得累加奖励最大化,对于一个实际和预测的学习资源子序 列,即,使用双语评估替补度量实际的和预测的子序列所反映的序列层面的奖励函数
其中为修正后的精度,为m-gram精度分数;
S22、考虑评估序列中所反映的知识层面的奖励,使用余弦相似度测量实际的和预 测的学习资源子序列所反映的学习者知识水平特征的奖励函数
S23、在时刻,整合序列层面及知识层面的奖励函数来定义步奖励函 数,衡量推荐序列的整体质量
其中分别表示时刻的学习者状态和执行的动作。
所述策略模块步骤如下:
S31、在时刻,根据当前学习者状态,学习者每执行一个动作,从学习资源集中 选择时刻的子序列进行推荐;其中,策略函数将学习者状态和所有的可选 动作作为输入,使用函数输出选择学习资源的概率分布,并据此推荐下 一个动作:
其中为学习者在时刻所交互的学习资源的子序列中第项的嵌入向量,为 学习者状态的嵌入向量,表示双线性乘积中的参数,表示需要学习的相关参数;
S32、在得到选择学习资源的概率分布后,通过训练学习随机策略,使学习者行 为预期累加奖励最大化:
的导数为:
其中是折现系数,表示需要学习的相关参数,对序列每个时刻,使用梯度上升 法,更新策略函数的参数,直至获得最佳参数
S33、根据步骤S31得到的概率分布和步骤S32得到的累加最大化奖励对学习 资源进行排序,选择排名前的结果作为最终的推荐结果。
本发明与现有技术相比的优点在于:
(1)本发明利用学习资源知识图谱的高阶语义信息和学习资源之间知识的连通性,构建图卷积神经网络递归传播知识图谱中实体和多层邻域间语义关系,融合多类实体信息,丰富向量表达。
(2)本发明设计多维学习者状态表征方法,综合历史和未来知识偏好获得知识状态;构建注意力机制和双向门控循环网络建模序列状态;利用因子分解机提取学习者交互状态;从知识、序列、学习者交互三方面增强学习者状态表示,优化学习者行为特征的提取能力。
(3)本发明根据学习知识点具有前后顺序关联性的特点,将学习资源推荐建模为马尔可夫决策过程,将学习者视作智能体,构建结合序列与知识两个层面的复合奖励函数,优化策略梯度函数以最大化联合奖励,以达到精准推荐学习资源的目的。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明所述在线学习资源推荐方法的模型框架图;
图2为本发明所述在线学习资源推荐方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施都属于本发明保护的范围。
1.数据集
实验中,在两个真实教育数据集上将本发明在线学习资源推荐方法与5种方法进行了对比。
(1)MOOPer数据集:由国防科技大学和在线实践教学平台头歌平台(EduCoder)共同发布的大型开放实践数据集。数据集包含平台2018-2019年间用户参与实践练习的2532524条实践练习数据,并将课程、实践、关卡、知识点等实体属性信息及相互关系构建为包含11类实体,13类关系的知识图谱。
(2)MOOCCube数据集:由清华大学和学堂在线联合创建的一个开放数据仓库,收集了来自学堂在线教育平台的真实用户行为数据,包括用户与学习视频交互、留言等。数据集包含706门真实在线课程、38181个教学视频、114563个概念及数万名MOOC用户的数十万选课、视频观看记录,作为附加资源,MOOCCube还包含一个大型概念图和相关学术论文。
各类数据集的基本信息参见表1:
表1 实验数据集的相关信息
2.评价指标
在学习资源推荐系统中,常一次性为学习者推荐多个学习资源以供选择,因此本 发明最终将生成一个项学习资源推荐列表来模拟真实场景。实验使用了六个指标来定量 评估模型在Top-k推荐任务上的性能,分别是HR@1(Hit Ratio of top 1)、HR@3(Hit Ratio of top 3)、HR@5(Hit Ratio of top 5)、HR@10(Hit Ratio of top 10)、NDCG@10 (Normalized Discounted Cumulative Gain of top 10)和MRR(Mean Reciprocal Rank)。 这些指标的值越高表明推荐效果越好。
3.对比方法
在两个真实教育数据集(MOOPer、MOOCCube)上测试本发明方法的推荐效果,并将本发明所述在线学习资源推荐方法与以下5种学习资源推荐方法进行对比:
(1)FM:由Rendle S在IEEE International Conference on Data Mining, 2010,pp.14-17.上的论文Factorization machines提出。
(2)KGCN:由Wang H, Zhao M, Xie X, Li W, Guo M在InternationalConference on World Wide Web, 2019, pp.3307-3313.上的论文Knowledge graphconvolutional networks for recommender systems提出。
(3)GRU4Rec:由Hidasi B, Karatzoglou A, Baltrunas L, Tikk D在International Conference on Learning Representations, 2016, pp.1-10.上的论文Session-based recommendations with recurrent neural networks提出。
(4)HRL:由Zhang J, Hao B, Chen B, Li C, Sun J在AAAI Conference onArtificial Intelligence, 2019, pp.435-442.上的论文Hierarchical reinforcementlearning for course recommendation in MOOCs提出。
(5)KERL:由Wang P, Fan Y, Xia L, Zhao W, Huang J在International ACMSIGIR conference on research and development in Information Retrieval, 2020,pp.209-218.上的论文KERL: A knowledge-guided reinforcement learning model forsequential recommendation提出。
4.实验设置
本实施例使用的知识图谱嵌入向量、学习者向量和序列向量都设置为50维度,图卷积网络每次聚合邻居数为2,MOOPer数据集图卷积聚合层数为2,MOOCCube数据集图卷积层数为3,单个GRU的隐藏层大小为64,多层感知机的输出大小为100,批次大小为1024,采用Adam算法对所有可训练参数进行优化。
5.推荐效果分析
测试了所有方法在MOOPer、MOOCCube数据集上的推荐效果,并对结果进行了分析,实验结果见表2。从表2实验结果中可以得到以下总结:(1)本发明所述在线学习资源推荐方法优于其他方法,在MOOPer、MOOCCube数据集上均能取得最好的结果。这证明与使用TransE嵌入知识图谱的KERL序列推荐方法相比,本发明方法使用图卷积网络来聚合知识图谱中节点与邻居信息,成功捕获了知识图谱中高阶结构信息,并从知识图谱实体状态、序列状态、学习者交互状态三方面多维表征学习者状态,有效建模了学习者知识状态和动态偏好。(2)传统的推荐方法FM在对推荐具有排名要求的评价指标NDCG@10和MRR上不具有优势,而基于序列推荐的GRU4Rec、HRL、KERL和深入挖掘了学习者交互序列的MDLSJR等方法具有更好的结果。由此说明挖掘交互数据中的序列特征可以捕获学习者的动态偏好,也进一步证明了推荐中挖掘序列信息的重要性。(3)预处理后MOOCCube数据集中可推荐学习资源数量为38181,学习者数量和学习者交互行为数量分别为36825和4480867,且同一学习者无重复学习记录,经计算得MOOCCube交互矩阵中非零元素约占总元素的0.38%。因此,MOOCCube数据集是一个稀疏数据集。然而,在MOOCCube上,与未引入知识图谱的最佳基线模型HRL相比,MDLSJR在HR@10、HR@5、HR@3、HR@1、NDCG@10和MRR指标上均有提升。这证明引入知识图谱的语义信息和结构信息可以有效地缓解数据稀疏问题,并获得更优的学习资源推荐效果。
表2 在MOOPer、MOOCCube数据集上的对比研究
此外,还对基于多维学习者状态和联合奖励的在线学习资源推荐方法的模型进行一些消融实验,具体分析了多维学习者状态模块未采用图卷积知识增强的结果、未采用学习者交互增强的结果、未采用注意力机制和双向门控循环单元进行序列增强的结果,联合奖励模块未采用知识和序列层面联合奖励的结果。
采用图卷积知识增强的有效性:为了验证在多维学习者状态模块采用图卷积知识增强的有效性,去除多维学习者状态模块图卷积知识增强的步骤,该实验设置推荐效果如表3所示。可以看出,使用图卷积网络嵌入知识图谱可以在递归的传播中有效提取知识图谱高阶结构信息,增强学习资源向量表达的同时缓解数据稀疏问题。
采用学习者交互增强的有效性:为了验证在多维学习者状态模块采用学习者交互增强的有效性,去除多维学习者状态模块学习者交互增强的步骤,该实验设置推荐效果如表3所示。可以看出,在建模多维学习者状态时引入学习者交互状态可以有效挖掘其个性化特征,模拟学习者当前知识水平,提升学习资源推荐算法性能。
采用注意力机制和双向门控循环单元进行序列增强的有效性:为了验证在多维学习者状态模块采用注意力机制和双向门控循环单元进行序列增强的有效性,去除多维学习者状态模块采用注意力机制和双向门控循环单元进行序列增强的步骤,该实验设置推荐效果如表3所示。可以看出,添加注意力机制可以深度挖掘学习者的重点特征信息,优化学习者状态表征;采用双向门控循环单元同时从正向序列和反向序列中训练模型,可以有效利用过去和未来的信息,深入挖掘时序信息,提高推荐性能。
采用知识和序列层面联合奖励的有效性:为了验证在联合奖励模块采用知识和序列层面联合奖励的有效性,去除联合奖励模块采用知识和序列层面联合奖励的步骤,该实验设置推荐效果如表3所示。可以看出,使用同时衡量序列和知识层面的联合奖励函数可以有效评估多维学习者状态质量,促进策略优化,提升推荐结果。
表3 在MOOPer、MOOCCube数据集上的消融研究
以上所述仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明创造的保护范围之内。

Claims (4)

1.一种基于多维学习者状态和联合奖励的在线学习资源推荐方法,其特征在于:包括多维学习者状态模块、联合奖励模块和策略模块;
多维学习者状态模块,实现增强学习者状态表示以优化学习者行为特征提取能力的功能;构建图卷积神经网络和感知网络,获得最终知识状态,使用注意力机制和双向门控循环单元提取关键信息,获得序列状态,引入学习者交互信息,使用因子分解机建模学习者交互状态,将知识状态、序列状态、学习者交互状态整合为最终的多维学习者状态;
联合奖励模块,实现构建复合奖励函数以最大化累加奖励的功能;使用序列层面和知识层面的联合奖励函数共同衡量状态质量、优化策略梯度;
策略模块,实现学习随机策略以推荐学习资源的功能;使用随机策略π计算某一学习资源的动作概率,根据概率分布和累加最大化奖励选择排名前n的学习资源作为最终的推荐结果;
所述多维学习者状态模块步骤实现如下:
S11、获取学习者-学习资源交互信息、学习者学习行为序列和知识图谱,并将其联合得到初始学习者状态输入st
S12、构建图卷积神经网络和感知网络,生成当前知识状态ct和未来知识状态将ct整合为最终的知识状态kt
S13、使用注意力机制和双向门控循环单元提取关键信息,获得序列状态xt
S14、引入学习者交互信息(u,i),使用因子分解机建模学习者交互状态ut
S15、将知识状态kt、序列状态xt、学习者交互状态ut整合为最终的多维学习者状态
其中,所述步骤S11中,获得初始学习者状态输入st步骤如下:
S111、获取真实教育数据集中的学习者-学习资源交互信息、学习者学习行为序列和知识图谱;由于采集到的原始数据不能直接用于之后的计算,需要对采集到的原始数据进行数据预处理:筛去重复数据及缺项数据,再按照时间顺序,对所有学习者交互数据排序,筛去交互记录少的学习者和学习资源;所述学习者-学习资源交互信息包括学习者和学习者访问的学习资源,学习者学习行为序列为按照时间顺序,学习者和学习资源的交互记录;
S112、对于知识图谱部分,删除部分不匹配空数据条目,使用网络表示学习方法构建知识图谱,将知识图谱中每个实体和关系表示为一个对应的低维特征向量G=(h,r,t),其中h、r、t分别表示三元组的头实体、关系和尾实体;
S113、在获取到学习者-学习资源交互信息、学习者学习行为序列和知识图谱后,将其联合得到初始学习者状态输入st
st=[(u,i),iu,G=(h,r,t)];
其中u表示学习者,i表示学习资源,(u,i)表示学习者和学习资源曾经的交互信息,iu表示学习者行为序列记录,G=(h,r,t)表示学习资源知识图谱;
所述策略模块步骤实现如下:
S31、在t时刻,根据当前学习者状态st,学习者每执行一个动作at,从学习资源集中选择t+1时刻的子序列it+1进行推荐;其中,策略函数π(st,at)将学习者状态st和所有的可选动作at作为输入,使用sofmax函数输出选择学习资源的概率分布P[at|st,θ],并据此推荐下一个动作:
其中为学习者在t时刻所交互的学习资源i的子序列it中第j项的嵌入向量,/>为学习者状态st的嵌入向量,W1表示双线性乘积中的参数,θ表示需要学习的相关参数;
S32、在得到选择学习资源的概率分布P后,通过训练学习随机策略π,使学习者行为预期累加奖励J(θ)最大化:
J(Θ)的导数为:
其中γ是折现系数,θ表示需要学习的相关参数,对序列每个时刻t,使用梯度上升法,更新策略函数的参数θ,直至获得最佳参数θbest
S33、根据步骤S31得到的概率分布P和步骤S32得到的累加最大化奖励J(Θ)对学习资源进行排序,选择排名前n的结果作为最终的推荐结果;所述步骤S12中,生成最终知识状态kt步骤如下:
S121、在图卷积中对所有的实体节点规定采样大小N和聚合层数k,即在k跳内,其每一层的N个邻居节点都将被计算在内,给定学习资源节点i的表示为:
其中N(i)=N(head)={tail|(head,relation,tail)∈G}为学习资源节点i的相邻节点集,head和tail分别代表头实体和尾实体,relation表示由head到tail的有向关系,e为节点i的嵌入表示,为针对学习者对知识图谱中不同关系的偏好,得出关系的评分,的表达式为:
其中ri,e表示学习资源i、嵌入表示e的关系,grade表示关系评分函数,u表示学习者,relation表示知识图谱中的不同关系;
S122、经过多次训练,并结合邻居节点N(i),得到学习资源节点i与第k跳的邻居节点的聚合表示为:
其中Wk和Bk分别为第k跳聚合时多次训练得到的权重矩阵和偏移量矩阵,σ为ReLU函数;
S123、使用平均池化操作聚合t时刻内交互的所有实体嵌入,表征在t时刻的当前偏好ct
S124、在已获得当前偏好ct的基础上,通过构建多层感应网络来感知学习者未来的知识偏好,并将推断的偏好加入到状态表示中,在预测偏好时,以当前偏好表示ct为输入:
其中表示模型在t时刻推测的未来偏好,wi表示第i层和第i+1层神经元之间的连接权重,σ为tanh函数;
S125、整合当前知识状态ct和未来知识状态得出最终的知识状态表示kt
2.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法,其特征在于:所述步骤S13中,获得序列状态xt步骤如下:
S131、将t时刻的学习者交互序列按照正序和倒序/>分别输入至双向门控循环单元中,rt和zt分别为正向门控循环单元的重置门和更新门,rt'和zt'分别为反向门控循环单元的重置门和更新门:
其中σ为Sigmoid函数,Wr、Wz、Wr'和Wz'为权重参数矩阵,输入向量ht-1和h't-1分别为t-1时刻正向和反向门控循环单元所训练生成的隐含序列状态,和/>分别为学习者在t时刻所交互的学习资源i的嵌入向量的正序表示和倒序表示;
S132、在获得当前的门控信号rt、zt、rt'和zt'后,门控循环单元通过tanh激活函数进行归一化,并更新当前正向和反向门控循环单元的隐藏序列状态ht和ht':
其中和/>为权重参数矩阵;
S133、联合双向门控循环单元中正向和反向的门控循环单元生成的隐藏序列状态向量ht和ht',初步得出当前序列状态
其中Φgru为门控循环单元的所有相关参数;
S134、利用注意力机制,捕获序列状态中的关键信息,使用softmax函数进行归一化,获得最终序列状态表示xt
其中tanh表示激活函数,Ww表示权重矩阵,bw表示偏置系数,zw表示随机初始化的注意力矩阵,zt表示投射到新的函数空间的状态矩阵,αt表示输入向量的注意力系数矩阵,表示经过注意力机制加权的序列状态,b1表示神经网络第一层的偏差,W1表示双线性乘积中的参数。
3.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法,其特征在于:所述步骤S14中,引入学习者交互信息(u,i),将学习者、学习资源及知识图谱中相关知识视为学习者的多维特征,使用因子分解机算法进行特征组合获取当前学习者状态ut
其中,W0、Wi、Wij为模型参数,yi和yj为特征值。
4.根据权利要求1所述的基于多维学习者状态和联合奖励的在线学习资源推荐方法,其特征在于:所述联合奖励模块步骤如下:
S21、基于当前学习者状态st,选取下一个动作at,同时生成一段用于推荐的子序列以评估序列层面的奖励,为了使得累加奖励最大化,对于一个实际和预测的学习资源子序列,即it使用双语评估替补度量实际的和预测的子序列所反映的序列层面的奖励函数Rseq
其中precm为修正后的精度,M为m-gram精度分数;
S22、考虑评估序列中所反映的知识层面的奖励,使用余弦相似度测量实际的和预测的学习资源子序列it所反映的学习者知识水平特征的奖励函数Rkg
S23、在t时刻,整合序列层面及知识层面的奖励函数Rseq和Rkg来定义k步奖励函数,衡量推荐序列的整体质量R:
其中st和at分别表示t时刻的学习者状态和执行的动作。
CN202311007379.4A 2023-08-11 2023-08-11 基于多维学习者状态和联合奖励的在线学习资源推荐方法 Active CN116720007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311007379.4A CN116720007B (zh) 2023-08-11 2023-08-11 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311007379.4A CN116720007B (zh) 2023-08-11 2023-08-11 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Publications (2)

Publication Number Publication Date
CN116720007A CN116720007A (zh) 2023-09-08
CN116720007B true CN116720007B (zh) 2023-11-28

Family

ID=87868351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311007379.4A Active CN116720007B (zh) 2023-08-11 2023-08-11 基于多维学习者状态和联合奖励的在线学习资源推荐方法

Country Status (1)

Country Link
CN (1) CN116720007B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN114861069A (zh) * 2022-06-07 2022-08-05 安徽农业大学 一种基于知识图谱的网络学习资源分析及个性化推荐方法
CN114896512A (zh) * 2022-06-09 2022-08-12 陕西师范大学 基于学习者偏好与群体偏好的学习资源推荐方法及系统
CN115186097A (zh) * 2022-01-07 2022-10-14 东北大学 一种基于知识图谱和强化学习的交互式推荐方法
CN115249072A (zh) * 2022-05-16 2022-10-28 西安交通大学 一种基于生成对抗用户模型的强化学习路径规划方法
CN115660086A (zh) * 2022-10-20 2023-01-31 河北工业大学 基于逻辑规则与强化学习的知识图谱推理方法
CN116680477A (zh) * 2023-06-14 2023-09-01 东北大学 一种基于强化学习的个性化习题推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117220A (zh) * 2021-11-26 2022-03-01 东北大学 基于知识增强的深度强化学习交互式推荐系统及方法
CN115186097A (zh) * 2022-01-07 2022-10-14 东北大学 一种基于知识图谱和强化学习的交互式推荐方法
CN115249072A (zh) * 2022-05-16 2022-10-28 西安交通大学 一种基于生成对抗用户模型的强化学习路径规划方法
CN114861069A (zh) * 2022-06-07 2022-08-05 安徽农业大学 一种基于知识图谱的网络学习资源分析及个性化推荐方法
CN114896512A (zh) * 2022-06-09 2022-08-12 陕西师范大学 基于学习者偏好与群体偏好的学习资源推荐方法及系统
CN115660086A (zh) * 2022-10-20 2023-01-31 河北工业大学 基于逻辑规则与强化学习的知识图谱推理方法
CN116680477A (zh) * 2023-06-14 2023-09-01 东北大学 一种基于强化学习的个性化习题推荐方法

Also Published As

Publication number Publication date
CN116720007A (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
CN114117220B (zh) 基于知识增强的深度强化学习交互式推荐系统及方法
CN111523047B (zh) 基于图神经网络的多关系协同过滤算法
CN112905900B (zh) 基于图卷积注意力机制的协同过滤推荐方法
Yang et al. Finding progression stages in time-evolving event sequences
CN107330115B (zh) 一种信息推荐方法及装置
Chen et al. Fast adaptively weighted matrix factorization for recommendation with implicit feedback
Kuo et al. Integration of particle swarm optimization and genetic algorithm for dynamic clustering
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN108563755A (zh) 一种基于双向循环神经网络的个性化推荐系统及方法
CN112925977A (zh) 一种基于自监督图表征学习的推荐方法
CN115186097A (zh) 一种基于知识图谱和强化学习的交互式推荐方法
Navgaran et al. Evolutionary based matrix factorization method for collaborative filtering systems
CN111241394A (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN113326384A (zh) 一种基于知识图谱的可解释推荐模型的构建方法
CN111723285A (zh) 一种基于评分的深度谱卷积协同过滤推荐方法
CN112100439B (zh) 基于依赖关系嵌入与神经注意力网络的推荐方法
CN115358809A (zh) 一种基于图对比学习的多意图推荐方法及装置
CN116167812A (zh) 用于多行为推荐的异构协同过滤方法
CN115840853A (zh) 一种基于知识图谱和图注意力网络的课程推荐系统
CN114997476A (zh) 一种融合商品关联关系的商品预测方法
Liu et al. TCD-CF: Triple cross-domain collaborative filtering recommendation
Zhang et al. Knowledge graph driven recommendation model of graph neural network
CN116720007B (zh) 基于多维学习者状态和联合奖励的在线学习资源推荐方法
Wang et al. A hybrid collaborative filtering recommendation algorithm: integrating content information and matrix factorisation
Yao et al. Chemical property relation guided few-shot molecular property prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant