CN110097192A

CN110097192A - 基于强化学习的自适应移动学习路径生成方法

Info

Publication number: CN110097192A
Application number: CN201910338100.8A
Authority: CN
Inventors: 任维武; 底晓强; 郑燕林; 从立钢; 杨明; 刘名扬
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2019-08-06
Anticipated expiration: 2039-04-25
Also published as: CN110097192B

Abstract

基于强化学习的自适应移动学习路径生成方法，涉及教育技术领域和强化学习领域，解决现有移动学习领域中学习资源多、学习需求杂、学习选择困难、学习收益不稳定等问题，获取学习环境和学习者的契合度、生成学习资源有向图；根据生成的学习资源有向图和学习收益值R，初始化学习选择收益表LSRT；然后根据学习收益值和计算结果值等更新学习选择收益表LSRT，最终生成生成学习路径推荐队列。本发明所述的自适应移动学习路径生成方法，能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列，解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。

Description

基于强化学习的自适应移动学习路径生成方法

技术领域

本发明涉及教育技术领域和强化学习领域，具体涉及一种基于强化学习的自适应移动学习路径生成方法。

背景技术

随着移动学习领域的拓展和移动学习资源、需求的增加，学习者希望在移动学习中高效地利用学习资源，快速高质量的完成学习。但海量无序的学习资源，让更多的学习者在选择时不知所措，所以有必要提出一种个性化自适应移动学习路径生成方法，能够根据移动学习环境、学习者特征和学习效果素自动推荐学习资源序列，并获得最大的学习收益。

发明内容

本发明为了解决移动学习环境中存在的学习资源多、学习需求杂、学习选择困难等问题，提供一种基于强化学习的自适应移动学习路径生成方法。

一种基于强化学习的自适应移动学习路径生成方法，由以下步骤实现：

步骤一、获取学习环境和学习者的契合度LeLF，用下式计算为：

LeLF＝EW*LeLF_E+SW*LeLF_S+TW*LeLF_T

式中，LeLF_S为社会和学习者契合度，LelF_T为技术和学习者契合度，LeLF_E为教育和学习者契合度，EW为教育权重，SW为社会权重，TW为技术权重；

学习者选择学习资源并获得学习收益值R，用下式计算为：

R＝FW*LeLF+LW*LE

式中FW为契合度权重，LW为效果权重，LE为学习者选择并学习资源后的学习效果；

步骤二、生成学习资源有向图；分析并学习资源的先后顺序，生成学习资源有向图；学习资源有向图的节点为学习资源，节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源；

步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R，初始化学习选择收益表LSRT；

所述学习选择收益表LSRT为n*n的邻接矩阵，所述n为学习资源的数量，矩阵中的值用Rij表示，当Rij为-1时，表示第i个学习资源和第j个学习资源不联通，当Rij大于-1时，表示第i个学习资源和第j个学习资源联通，当前学习者在学习完第i个资源后，选择第j个资源进行学习的学习收益值；

步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ；

步骤五、初始化当前学习收益值CR和结束状态位Fsb；

步骤六、判断结束状态位Fsb是否为假值，如果是，则执行步骤七；如果否，则迭代次数N加1，执行步骤五；

步骤七、生成随机数Rd，判断随机数Rd是否大于贪婪系数Gr，如果是，则从学习选择收益表LSRT随机选择能联通的学习资源；如果否，则从学习选择收益表LSRT中选择学习收益值最大的学习资源；并获得所述最大的学习资源的学习收益值，将所述学习收益值作为该学习选择动作的预测值Pre；执行步骤八；

步骤八、根据学习选择收益表LSRT中的最大值，计算累加收益值RinM，计算方法为：

RinM＝Dc*max(LSRT(Rij))

步骤九、计算结果值Rt，结果值等于当前学习资源收益值CR和累加收益值RinM的和，如果结果值达到学习目标值D，则结束状态位Fsb为真；

步骤十、更新学习选择收益表LSRT，所述学习选择收益表LSRT中新值LSRT(Rij)的计算方法为：

LSRT(Rij)＝LSRT(Rij)+SS*(Rt-Pre)

步骤十一、更新当前学习收益值CR，计算方法为：

CR＝CR+Pre

步骤十二、判断迭代次数N是否超过预设值，如果是，则执行步骤十三，如果否，返回执行步骤六；

步骤十三、从学习选择收益表LSRT表的第一行开始，依次读取学习选择收益表LSRT，选择一行中最大的学习收益值，压入到学习路径推荐队列LPRQ，直至表的最后一行为止，生成学习路径推荐队列LPRQ。

本发明的有益效果：本发明所述的自适应移动学习路径生成方法，能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列，解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。

附图说明

图1为本发明所述的一种基于强化学习的自适应移动学习路径生成方法流程图。

具体实施方式

具体实施方式一、结合图1说明本实施方式，一种基于强化学习的自适应移动学习路径生成方法，具体包括以下步骤：

步骤1、以调查问卷的方式获取学习环境和学习者的契合度LeLF，学习环境和学习者的契合度有三个维度可以量化：教育和学习者契合度LeLF_E、社会和学习者契合度LeLF_S以及技术学习者契合度LelF_T。学习环境和学习者契合度的计算方法为：

LeLF＝EW*LeLF_E+SW*LeLF_S+TW*LeLF_T

其中EW表示教育权重，SW表示社会权重，TW表示技术权重。以专家知识或者测试方法给出学习者选择并学习资源后的学习效果LE。学习者选择学习资源并学习资源后得到的学习收益值R，它的计算方法为：

R＝FW*LeLF+LW*LE

其中FW表示契合度权重，LW表示效果权重。

步骤2、根据学习资源之间的基础支撑关系，分析并学习资源的先后顺序，生成学习资源有向图。资源有向图的节点为学习资源，节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源学习。

步骤3、根据学习资源有向图和学习收益，初始化学习选择收益表LSRT，学习选择收益表LSRT是一个n*n的邻接矩阵，其中n为学习资源的数量，矩阵中的值用Rij表示，当Rij为-1时，表示第i个学习资源和第j个学习资源部联通，当Rij大于-1时，表示当前学习者在学习完第i个资源后，选择第j个资源进行学习的学习收益值。

步骤4、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ。

步骤5、初始化当前学习收益值CR、结束状态位Fsb。

步骤6、结束状态位为假值时，执行步骤7，否则，迭代次数N加1，执行步骤5。

步骤7、生成随机数Rd，判断随机数是否大于贪婪系数Gr，如果是，则从LSRT随机选择能联通的学习资源，并获得学习收益值；如果否，则LSRT中选择学习收益值最大的学习资源，并获得学习收益值；并将学习收益值记为该学习选择动作的预测值Pre；执行步骤8。

步骤8、根据学习资源收益值中最大值，计算累加收益值RinM，计算方法为：

RinM＝Dc*max(LSRT(Rij))

步骤9、计算结果值Rt，结果值等于当前学习资源收益值CR和累加收益值RinM的和。如果结果值达到学习目标值D，结束状态位Fsb为真。

步骤10、更新学习选择收益表LSRT，表中新值LSRT(Rij)的计算方法为：

LSRT(Rij)＝LSRT(Rij)+SS*(Rt-Pre)

步骤11、更新当前学习收益值CR，计算方法为：

CR＝CR+Pre

步骤12、如果迭代次数N超过预设值，则执行步骤13；否则，返回执行步骤6。

步骤13、从表的第一行开始，依次读取学习选择收益表LSRT，选择一行中最大的学习收益值，压入到学习路径推荐队列LPRQ，直至表的最后一行为止，生成LPRQ。

Claims

1.一种基于强化学习的自适应移动学习路径生成方法，其特征是：该方法由以下步骤实现：

LeLF＝EW*LeLF_E+SW*LeLF_s+TW*LeLF_T

学习者选择学习资源并获得学习收益值R，用下式计算为：

R＝FW*LeLF+LW*LE

步骤五、初始化当前学习收益值CR和结束状态位Fsb；

RinM＝Dc*max(LSRT(Rij))

步骤十、更新学习选择收益表LSRT，所述学习选择收益表LSRT中新值LSRT(Rjj)的计算方法为：

LSRT(Rij)＝LSRT(Rij)+SS*(Rt-Pre)

步骤十一、更新当前学习收益值CR，计算方法为：

CR＝CR+Pre