CN110097192A - 基于强化学习的自适应移动学习路径生成方法 - Google Patents

基于强化学习的自适应移动学习路径生成方法 Download PDF

Info

Publication number
CN110097192A
CN110097192A CN201910338100.8A CN201910338100A CN110097192A CN 110097192 A CN110097192 A CN 110097192A CN 201910338100 A CN201910338100 A CN 201910338100A CN 110097192 A CN110097192 A CN 110097192A
Authority
CN
China
Prior art keywords
study
education resource
learning
lsrt
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910338100.8A
Other languages
English (en)
Other versions
CN110097192B (zh
Inventor
任维武
底晓强
郑燕林
从立钢
杨明
刘名扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN201910338100.8A priority Critical patent/CN110097192B/zh
Publication of CN110097192A publication Critical patent/CN110097192A/zh
Application granted granted Critical
Publication of CN110097192B publication Critical patent/CN110097192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于强化学习的自适应移动学习路径生成方法,涉及教育技术领域和强化学习领域,解决现有移动学习领域中学习资源多、学习需求杂、学习选择困难、学习收益不稳定等问题,获取学习环境和学习者的契合度、生成学习资源有向图;根据生成的学习资源有向图和学习收益值R,初始化学习选择收益表LSRT;然后根据学习收益值和计算结果值等更新学习选择收益表LSRT,最终生成生成学习路径推荐队列。本发明所述的自适应移动学习路径生成方法,能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列,解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。

Description

基于强化学习的自适应移动学习路径生成方法
技术领域
本发明涉及教育技术领域和强化学习领域,具体涉及一种基于强化学习的自适应移动学习路径生成方法。
背景技术
随着移动学习领域的拓展和移动学习资源、需求的增加,学习者希望在移动学习中高效地利用学习资源,快速高质量的完成学习。但海量无序的学习资源,让更多的学习者在选择时不知所措,所以有必要提出一种个性化自适应移动学习路径生成方法,能够根据移动学习环境、学习者特征和学习效果素自动推荐学习资源序列,并获得最大的学习收益。
发明内容
本发明为了解决移动学习环境中存在的学习资源多、学习需求杂、学习选择困难等问题,提供一种基于强化学习的自适应移动学习路径生成方法。
一种基于强化学习的自适应移动学习路径生成方法,由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
式中,LeLFS为社会和学习者契合度,LelFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤九、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和,如果结果值达到学习目标值D,则结束状态位Fsb为真;
步骤十、更新学习选择收益表LSRT,所述学习选择收益表LSRT中新值LSRT(Rij)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤十一、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤十二、判断迭代次数N是否超过预设值,如果是,则执行步骤十三,如果否,返回执行步骤六;
步骤十三、从学习选择收益表LSRT表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成学习路径推荐队列LPRQ。
本发明的有益效果:本发明所述的自适应移动学习路径生成方法,能够使学习在繁杂的学习资源中根据自身的学习需求自动生成最佳的学习序列,解决移动学习领域学习资源多、学习需求杂、学习选择困难和学习收益不稳定等问题。
附图说明
图1为本发明所述的一种基于强化学习的自适应移动学习路径生成方法流程图。
具体实施方式
具体实施方式一、结合图1说明本实施方式,一种基于强化学习的自适应移动学习路径生成方法,具体包括以下步骤:
步骤1、以调查问卷的方式获取学习环境和学习者的契合度LeLF,学习环境和学习者的契合度有三个维度可以量化:教育和学习者契合度LeLFE、社会和学习者契合度LeLFS以及技术学习者契合度LelFT。学习环境和学习者契合度的计算方法为:
LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
其中EW表示教育权重,SW表示社会权重,TW表示技术权重。以专家知识或者测试方法给出学习者选择并学习资源后的学习效果LE。学习者选择学习资源并学习资源后得到的学习收益值R,它的计算方法为:
R=FW*LeLF+LW*LE
其中FW表示契合度权重,LW表示效果权重。
步骤2、根据学习资源之间的基础支撑关系,分析并学习资源的先后顺序,生成学习资源有向图。资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源学习。
步骤3、根据学习资源有向图和学习收益,初始化学习选择收益表LSRT,学习选择收益表LSRT是一个n*n的邻接矩阵,其中n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源部联通,当Rij大于-1时,表示当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值。
步骤4、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ。
步骤5、初始化当前学习收益值CR、结束状态位Fsb。
步骤6、结束状态位为假值时,执行步骤7,否则,迭代次数N加1,执行步骤5。
步骤7、生成随机数Rd,判断随机数是否大于贪婪系数Gr,如果是,则从LSRT随机选择能联通的学习资源,并获得学习收益值;如果否,则LSRT中选择学习收益值最大的学习资源,并获得学习收益值;并将学习收益值记为该学习选择动作的预测值Pre;执行步骤8。
步骤8、根据学习资源收益值中最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤9、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和。如果结果值达到学习目标值D,结束状态位Fsb为真。
步骤10、更新学习选择收益表LSRT,表中新值LSRT(Rij)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤11、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤12、如果迭代次数N超过预设值,则执行步骤13;否则,返回执行步骤6。
步骤13、从表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成LPRQ。

Claims (1)

1.一种基于强化学习的自适应移动学习路径生成方法,其特征是:该方法由以下步骤实现:
步骤一、获取学习环境和学习者的契合度LeLF,用下式计算为:
LeLF=EW*LeLFE+SW*LeLFs+TW*LeLFT
式中,LeLFs为社会和学习者契合度,LelFT为技术和学习者契合度,LeLFE为教育和学习者契合度,EW为教育权重,SW为社会权重,TW为技术权重;
学习者选择学习资源并获得学习收益值R,用下式计算为:
R=FW*LeLF+LW*LE
式中FW为契合度权重,LW为效果权重,LE为学习者选择并学习资源后的学习效果;
步骤二、生成学习资源有向图;分析并学习资源的先后顺序,生成学习资源有向图;学习资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源;
步骤三、根据步骤二生成的学习资源有向图和步骤一的学习收益值R,初始化学习选择收益表LSRT;
所述学习选择收益表LSRT为n*n的邻接矩阵,所述n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源不联通,当Rij大于-1时,表示第i个学习资源和第j个学习资源联通,当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值;
步骤四、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ;
步骤五、初始化当前学习收益值CR和结束状态位Fsb;
步骤六、判断结束状态位Fsb是否为假值,如果是,则执行步骤七;如果否,则迭代次数N加1,执行步骤五;
步骤七、生成随机数Rd,判断随机数Rd是否大于贪婪系数Gr,如果是,则从学习选择收益表LSRT随机选择能联通的学习资源;如果否,则从学习选择收益表LSRT中选择学习收益值最大的学习资源;并获得所述最大的学习资源的学习收益值,将所述学习收益值作为该学习选择动作的预测值Pre;执行步骤八;
步骤八、根据学习选择收益表LSRT中的最大值,计算累加收益值RinM,计算方法为:
RinM=Dc*max(LSRT(Rij))
步骤九、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和,如果结果值达到学习目标值D,则结束状态位Fsb为真;
步骤十、更新学习选择收益表LSRT,所述学习选择收益表LSRT中新值LSRT(Rjj)的计算方法为:
LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
步骤十一、更新当前学习收益值CR,计算方法为:
CR=CR+Pre
步骤十二、判断迭代次数N是否超过预设值,如果是,则执行步骤十三,如果否,返回执行步骤六;
步骤十三、从学习选择收益表LSRT表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成学习路径推荐队列LPRQ。
CN201910338100.8A 2019-04-25 2019-04-25 基于强化学习的自适应移动学习路径生成方法 Active CN110097192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910338100.8A CN110097192B (zh) 2019-04-25 2019-04-25 基于强化学习的自适应移动学习路径生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910338100.8A CN110097192B (zh) 2019-04-25 2019-04-25 基于强化学习的自适应移动学习路径生成方法

Publications (2)

Publication Number Publication Date
CN110097192A true CN110097192A (zh) 2019-08-06
CN110097192B CN110097192B (zh) 2020-11-24

Family

ID=67445812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910338100.8A Active CN110097192B (zh) 2019-04-25 2019-04-25 基于强化学习的自适应移动学习路径生成方法

Country Status (1)

Country Link
CN (1) CN110097192B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866621A (zh) * 2019-10-16 2020-03-06 深圳技术大学 一种多人预约调度路径规划方法、存储介质及终端设备
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804201B1 (en) * 2000-10-05 2004-10-12 S. Erol Gelenbe Cognitive packet network
CN102782717A (zh) * 2009-12-15 2012-11-14 智力科学研究室股份公司 用于智能个人化学习服务的方法
US20150057994A1 (en) * 2013-08-20 2015-02-26 Eric Hong Fang Unified Mobile Learning Platform
CN108197695A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种基于闪电搜索算法的个性化学习路径优化方法
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804201B1 (en) * 2000-10-05 2004-10-12 S. Erol Gelenbe Cognitive packet network
CN102782717A (zh) * 2009-12-15 2012-11-14 智力科学研究室股份公司 用于智能个人化学习服务的方法
US20150057994A1 (en) * 2013-08-20 2015-02-26 Eric Hong Fang Unified Mobile Learning Platform
CN108197695A (zh) * 2018-01-31 2018-06-22 湖北工业大学 一种基于闪电搜索算法的个性化学习路径优化方法
CN109491320A (zh) * 2018-10-31 2019-03-19 华中科技大学 一种基于强化学习的刀具路径生成与优化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
REN WEIWU ET AL: "the fusion model of multidomain context information for the internet of things", 《WIRELESS COMMUNICATION MOBILE COMPUTING》 *
杨现民: "泛在学习资源动态语义聚合研究", 《电化教育研究》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866621A (zh) * 2019-10-16 2020-03-06 深圳技术大学 一种多人预约调度路径规划方法、存储介质及终端设备
CN111552183A (zh) * 2020-05-17 2020-08-18 南京大学 一种基于自适应权重强化学习的六足机器人避障方法
CN111552183B (zh) * 2020-05-17 2021-04-23 南京大学 一种基于自适应权重强化学习的六足机器人避障方法

Also Published As

Publication number Publication date
CN110097192B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
Haimovitz et al. Dangerous mindsets: How beliefs about intelligence predict motivational change
Ciomek et al. Heuristics for prioritizing pair-wise elicitation questions with additive multi-attribute value models
US11436434B2 (en) Machine learning techniques to identify predictive features and predictive values for each feature
CN105046366B (zh) 模型训练方法及装置
CN110097192A (zh) 基于强化学习的自适应移动学习路径生成方法
Andrietti et al. Education curriculum and student achievement: Theory and evidence
Cai et al. Learning path recommendation based on knowledge tracing model and reinforcement learning
Ochoa Simple metrics for curricular analytics
CN108805611A (zh) 广告筛选方法及装置
CN111159419A (zh) 基于图卷积的知识追踪数据处理方法、系统和存储介质
US20170061284A1 (en) Optimization of predictor variables
JP2008203817A (ja) 記憶継続指標を含む学習用システム
Chandramohan et al. Co-adaptation in spoken dialogue systems
Faucon et al. Real-Time Prediction of Students' Activity Progress and Completion Rates.
Shaikh et al. Towards guided personal learning environments: Concept, theory, and practice
Wilsdon Responsible metrics
JP2019194765A (ja) 最適化装置及び最適化装置の制御方法
Andersen et al. Adaptive task assignment in online learning environments
Hall Learning styles--is there an evidence base for this popular idea?
CN115268860B (zh) 一种智能教学诊断方法及系统
Beal et al. Temporal data mining for educational applications
JPWO2020161935A1 (ja) 学習装置、学習方法、及び、プログラム
KR102388911B1 (ko) 데이터 증강 기반 지식 추적 모델 학습 장치, 시스템 및 그것의 동작방법
Wang et al. POEM: a personalized online education scheme based on reinforcement learning
Chuffart An implementation of markov regime switching garch models in matlab

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant