CN110097192A - 基于强化学习的自适应移动学习路径生成方法 - Google Patents
基于强化学习的自适应移动学习路径生成方法 Download PDFInfo
- Publication number
- CN110097192A CN110097192A CN201910338100.8A CN201910338100A CN110097192A CN 110097192 A CN110097192 A CN 110097192A CN 201910338100 A CN201910338100 A CN 201910338100A CN 110097192 A CN110097192 A CN 110097192A
- Authority
- CN
- China
- Prior art keywords
- study
- education resource
- learning
- lsrt
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
基于强化学习的自适应移动学习路径生成方法,涉及教育技术领域和强化学习领域,解决现有移动学习领域中学习资源多、学习需求杂、学习选择困难、学习收益不稳定等问题,获取学习环境和学习者的契合度、生成学习资源有向图;根据生成的学习资源有向图和学习收益值R,初始化学习选择收益表LSRT;然后根据学习收益值和计算结果值等更新学习选择收益表LSRT,最终生成生成学习路径推荐队列。本发明所述的自适应移动学习路径生成方法,能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列,解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。
Description
技术领域
本发明涉及教育技术领域和强化学习领域,具体涉及一种基于强化学习的自适应移动学习路径生成方法。
背景技术
随着移动学习领域的拓展和移动学习资源、需求的增加,学习者希望在移动学习中高效地利用学习资源,快速高质量的完成学习。但海量无序的学习资源,让更多的学习者在选择时不知所措,所以有必要提出一种个性化自适应移动学习路径生成方法,能够根据移动学习环境、学习者特征和学习效果素自动推荐学习资源序列,并获得最大的学习收益。
发明内容
本发明为了解决移动学习环境中存在的学习资源多、学习需求杂、学习选择困难等问题,提供一种基于强化学习的自适应移动学习路径生成方法。
一种基于强化学习的自适应移动学习路径生成方法,由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
式中,LeLFS为社会和学习者契合度,LelFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤九、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和,如果结果值达到学习目标值D,则结束状态位Fsb为真;
步骤十、更新学习选择收益表LSRT,所述学习选择收益表LSRT中新值LSRT(Rij)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤十一、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤十二、判断迭代次数N是否超过预设值,如果是,则执行步骤十三,如果否,返回执行步骤六;
步骤十三、从学习选择收益表LSRT表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成学习路径推荐队列LPRQ。
本发明的有益效果:本发明所述的自适应移动学习路径生成方法,能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列,解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。
附图说明
图1为本发明所述的一种基于强化学习的自适应移动学习路径生成方法流程图。
具体实施方式
具体实施方式一、结合图1说明本实施方式,一种基于强化学习的自适应移动学习路径生成方法,具体包括以下步骤:
步骤1、以调查问卷的方式获取学习环境和学习者的契合度LeLF,学习环境和学习者的契合度有三个维度可以量化:教育和学习者契合度LeLFE、社会和学习者契合度LeLFS以及技术学习者契合度LelFT。学习环境和学习者契合度的计算方法为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
其中EW表示教育权重,SW表示社会权重,TW表示技术权重。以专家知识或者测试方法给出学习者选择并学习资源后的学习效果LE。学习者选择学习资源并学习资源后得到的学习收益值R,它的计算方法为:
R=FW*LeLF+LW*LE
其中FW表示契合度权重,LW表示效果权重。
步骤2、根据学习资源之间的基础支撑关系,分析并学习资源的先后顺序,生成学习资源有向图。资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源学习。
步骤3、根据学习资源有向图和学习收益,初始化学习选择收益表LSRT,学习选择收益表LSRT是一个n*n的邻接矩阵,其中n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源部联通,当Rij大于-1时,表示当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值。
步骤4、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ。
步骤5、初始化当前学习收益值CR、结束状态位Fsb。
步骤6、结束状态位为假值时,执行步骤7,否则,迭代次数N加1,执行步骤5。
步骤7、生成随机数Rd,判断随机数是否大于贪婪系数Gr,如果是,则从LSRT随机选择能联通的学习资源,并获得学习收益值;如果否,则LSRT中选择学习收益值最大的学习资源,并获得学习收益值;并将学习收益值记为该学习选择动作的预测值Pre;执行步骤8。
步骤8、根据学习资源收益值中最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤9、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和。如果结果值达到学习目标值D,结束状态位Fsb为真。
步骤10、更新学习选择收益表LSRT,表中新值LSRT(Rij)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤11、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤12、如果迭代次数N超过预设值,则执行步骤13;否则,返回执行步骤6。
步骤13、从表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成LPRQ。
Claims (1)
1.一种基于强化学习的自适应移动学习路径生成方法,其特征是:该方法由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFs+TW*LeLFT
式中,LeLFs为社会和学习者契合度,LelFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤九、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和,如果结果值达到学习目标值D,则结束状态位Fsb为真;
步骤十、更新学习选择收益表LSRT,所述学习选择收益表LSRT中新值LSRT(Rjj)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤十一、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤十二、判断迭代次数N是否超过预设值,如果是,则执行步骤十三,如果否,返回执行步骤六;
步骤十三、从学习选择收益表LSRT表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成学习路径推荐队列LPRQ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910338100.8A CN110097192B (zh) | 2019-04-25 | 2019-04-25 | 基于强化学习的自适应移动学习路径生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910338100.8A CN110097192B (zh) | 2019-04-25 | 2019-04-25 | 基于强化学习的自适应移动学习路径生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097192A true CN110097192A (zh) | 2019-08-06 |
CN110097192B CN110097192B (zh) | 2020-11-24 |
Family
ID=67445812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910338100.8A Active CN110097192B (zh) | 2019-04-25 | 2019-04-25 | 基于强化学习的自适应移动学习路径生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097192B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866621A (zh) * | 2019-10-16 | 2020-03-06 | 深圳技术大学 | 一种多人预约调度路径规划方法、存储介质及终端设备 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804201B1 (en) * | 2000-10-05 | 2004-10-12 | S. Erol Gelenbe | Cognitive packet network |
CN102782717A (zh) * | 2009-12-15 | 2012-11-14 | 智力科学研究室股份公司 | 用于智能个人化学习服务的方法 |
US20150057994A1 (en) * | 2013-08-20 | 2015-02-26 | Eric Hong Fang | Unified Mobile Learning Platform |
CN108197695A (zh) * | 2018-01-31 | 2018-06-22 | 湖北工业大学 | 一种基于闪电搜索算法的个性化学习路径优化方法 |
CN109491320A (zh) * | 2018-10-31 | 2019-03-19 | 华中科技大学 | 一种基于强化学习的刀具路径生成与优化方法 |
-
2019
- 2019-04-25 CN CN201910338100.8A patent/CN110097192B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804201B1 (en) * | 2000-10-05 | 2004-10-12 | S. Erol Gelenbe | Cognitive packet network |
CN102782717A (zh) * | 2009-12-15 | 2012-11-14 | 智力科学研究室股份公司 | 用于智能个人化学习服务的方法 |
US20150057994A1 (en) * | 2013-08-20 | 2015-02-26 | Eric Hong Fang | Unified Mobile Learning Platform |
CN108197695A (zh) * | 2018-01-31 | 2018-06-22 | 湖北工业大学 | 一种基于闪电搜索算法的个性化学习路径优化方法 |
CN109491320A (zh) * | 2018-10-31 | 2019-03-19 | 华中科技大学 | 一种基于强化学习的刀具路径生成与优化方法 |
Non-Patent Citations (2)
Title |
---|
REN WEIWU ET AL: "the fusion model of multidomain context information for the internet of things", 《WIRELESS COMMUNICATION MOBILE COMPUTING》 * |
杨现民: "泛在学习资源动态语义聚合研究", 《电化教育研究》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866621A (zh) * | 2019-10-16 | 2020-03-06 | 深圳技术大学 | 一种多人预约调度路径规划方法、存储介质及终端设备 |
CN111552183A (zh) * | 2020-05-17 | 2020-08-18 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
CN111552183B (zh) * | 2020-05-17 | 2021-04-23 | 南京大学 | 一种基于自适应权重强化学习的六足机器人避障方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110097192B (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haimovitz et al. | Dangerous mindsets: How beliefs about intelligence predict motivational change | |
Ciomek et al. | Heuristics for prioritizing pair-wise elicitation questions with additive multi-attribute value models | |
US11436434B2 (en) | Machine learning techniques to identify predictive features and predictive values for each feature | |
CN105046366B (zh) | 模型训练方法及装置 | |
CN110097192A (zh) | 基于强化学习的自适应移动学习路径生成方法 | |
Andrietti et al. | Education curriculum and student achievement: Theory and evidence | |
Cai et al. | Learning path recommendation based on knowledge tracing model and reinforcement learning | |
Ochoa | Simple metrics for curricular analytics | |
CN108805611A (zh) | 广告筛选方法及装置 | |
CN111159419A (zh) | 基于图卷积的知识追踪数据处理方法、系统和存储介质 | |
US20170061284A1 (en) | Optimization of predictor variables | |
JP2008203817A (ja) | 記憶継続指標を含む学習用システム | |
Chandramohan et al. | Co-adaptation in spoken dialogue systems | |
Faucon et al. | Real-Time Prediction of Students' Activity Progress and Completion Rates. | |
Shaikh et al. | Towards guided personal learning environments: Concept, theory, and practice | |
Wilsdon | Responsible metrics | |
JP2019194765A (ja) | 最適化装置及び最適化装置の制御方法 | |
Andersen et al. | Adaptive task assignment in online learning environments | |
Hall | Learning styles--is there an evidence base for this popular idea? | |
CN115268860B (zh) | 一种智能教学诊断方法及系统 | |
Beal et al. | Temporal data mining for educational applications | |
JPWO2020161935A1 (ja) | 学習装置、学習方法、及び、プログラム | |
KR102388911B1 (ko) | 데이터 증강 기반 지식 추적 모델 학습 장치, 시스템 및 그것의 동작방법 | |
Wang et al. | POEM: a personalized online education scheme based on reinforcement learning | |
Chuffart | An implementation of markov regime switching garch models in matlab |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |