CN109902371B - 一种基于深度强化学习的智能排课方法 - Google Patents

一种基于深度强化学习的智能排课方法 Download PDF

Info

Publication number
CN109902371B
CN109902371B CN201910122698.7A CN201910122698A CN109902371B CN 109902371 B CN109902371 B CN 109902371B CN 201910122698 A CN201910122698 A CN 201910122698A CN 109902371 B CN109902371 B CN 109902371B
Authority
CN
China
Prior art keywords
course arrangement
course
arrangement
action
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910122698.7A
Other languages
English (en)
Other versions
CN109902371A (zh
Inventor
蒋阳波
孙琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Schoolpal Online Hangzhou Technology Co ltd
Original Assignee
Schoolpal Online Hangzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Schoolpal Online Hangzhou Technology Co ltd filed Critical Schoolpal Online Hangzhou Technology Co ltd
Priority to CN201910122698.7A priority Critical patent/CN109902371B/zh
Publication of CN109902371A publication Critical patent/CN109902371A/zh
Application granted granted Critical
Publication of CN109902371B publication Critical patent/CN109902371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的智能排课方法。它具体包括如下步骤:(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果。本发明的有益效果是:在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。

Description

一种基于深度强化学习的智能排课方法
技术领域
本发明涉及深度强化学习相关技术领域,尤其是指一种基于深度强化学习的智能排课方法。
背景技术
课表是学校和教育机构实施教学计划的时间安排。课表安排老师上课,学生学习,对维护教学秩序保障教学具有重要的意义。课表的排课任务在教务工作中占据重要地位,但其任务规模大,影响因素多,是一项复杂的任务。目前,排课任务大多手工进行,由实践经验丰富的人员集中进行编排,协调出现的各种矛盾,反复检查任务的合理性,修正课表,直至符合要求。1963年,Gotlieb提出排课问题的数学模型,指出排课问题是组合规划中的典型问题,20世纪70年代S.Even等论证了课表排课问题是NP完全类问题,说明了课表问题存在解,并且能够找到解。深度强化学习(deep reinforcement learning)是将强化学习和深度学习结合在一起,用强化学习来定义问题和优化目标,用深度学习来解决策略和值函数的建模问题,然后使用误差反向传播算法来优化目标函数。深度强化学习是一种强大的学习工具,它是一种非监督学习方法,可以用来对排课问题进行求解。
发明内容
本发明是为了克服现有技术中需要考虑排课的教学资源以及安排合理性等因素的不足,提供了一种不需要考虑排课的教学资源以及安排合理性因素的基于深度强化学习的智能排课方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于深度强化学习的智能排课方法,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果。
本发明提出了一种智能排课方法,通过对课表的排课要求进行全面分析,通过深度强化学习方法课表的智能排课方法。深度强化学习是一种深度学习技术扩展传统强化学习方法的一种机器学习方法。在本发明中,深度强化学习具体选用深度Q学习算法,它选择动作安排的评价值Q值动作决策的依据。Q值的评价相对客观,不必考虑当前课表状态的好坏,Q学习算法的迭代是策略无关的,总是选择最大的Q值作为输入。同时,结合深度神经网络进行函数逼近。对于深度Q学习算法来说,首先初始化奖励r,排课状态s以及排课动作a,由于其可以自学习,故只需要准备排课任务即可,最后得到学到的Q值表。在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。
作为优选,排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r=-100。
作为优选,在步骤(2)中,排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵。
作为优选,在步骤(2)中,排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00。
作为优选,其特征是,在步骤(3)中,深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组(s,a,r,s′),其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;s′是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练。
本发明的有益效果是:在智能排课的过程中,可以根据实际的课表状态和排课任务设置可以安排的动作集合,不需要考虑排课的教学资源以及安排合理性因素。
附图说明
图1是本发明深度强化学习的框架图;
图2是本发明深度Q学习算法训练流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
一种基于深度强化学习的智能排课方法,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r=-100。
排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵。
排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00。
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果;
如图1所示,深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组(s,a,r,s′),其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;s′是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练。
如图2所示,具体的深度Q学习算法训练流程如下:
101、初始化回放记忆单元D,目标值网络的更新步为C;用随机权值θ初始化在线值网络Q,同时初始化目标值网络Q′的权值θ′,θ′=θ;
102、e=1~M,遍历M个回合;
103、t=1~T,遍历T个时间;
104、根据概率ε选择一个随机的动作a;根据当前的状态输入到当前的网络中,计算出下一步每个可能动作的值,选择最优动作a′;执行上面的最优动作a′就可以得到奖励r,以及下一个状态;
105、把记忆单元存入回放记忆单元D;
106、从回放记忆单元D中随机选取一个存储的数据进行运算;计算当前状态的目标值。如果回合结束,那么目标值y=r,如果没有结束,那么就将下一个处理好的状态输入到网络,使目标网络参数得到最大的Q值,然后按下面公式计算:
yj=rj+γmaxa’Q'(sj,a′,θ')
s′是状态s下采取动作a的所到达的下一步状态,
a′是状态s下采取动作a的所到达的下一步动作;
γ表示折扣因子;
107、计算当前状态和动作下的Q值,将当前处理好的状态输入到网络,选择对应的动作的Q值。根据损失函数通过随机梯度算法来更新参数;
损失函数计算公式如下:
Loss=(yi-Q(sj,aj,θ)2)
每C次迭代后更新目标值网络的参数为当前的参数;
108、循环遍历时间状态;
109、循环遍历回合;
110、根据最优在线值网络Q得出最佳排课任务;
111、准备排课任务,深度Q学习算法完成整个训练流程,得到学到的目标值网络和需要的排课结果。

Claims (1)

1.一种基于深度强化学习的智能排课方法,其特征是,具体包括如下步骤:
(1)选定排课任务,包括老师排课要求、学生排课要求、教室排课要求;
(2)初始化深度Q学习算法参数,包括奖励r、排课状态s以及排课动作a;
排课状态s反映的是安排某门任务前,该任务涉及的班级使用情况,教师课表的使用情况,空闲时间片情况,各时间片可用教室资源情况,将上述四种情况作为4个元素,按照每周5天上课和每天4节课计算,将课表按时间片划分为20个向量,每个向量包含以上4个元素,那么一张课表的状态表就包含80个元素,称之为状态模式矩阵;
排课动作a就是将课程安排在星期几,第几节;同时排课动作a还必须体现周次的性质,即单周和双周;按照每周5天上课和每天4节课计算,那么课表有20个时间片,每个时间片用3位二进制表示,其中第1位表示是否安排在此,安排则为1,否则为0;第2、3位表示单双周,单周为01,双周为10,其他00;
(3)执行深度Q学习算法训练流程,得到最优Q值和排课结果;深度Q学习算法训练流程如下:
(a)样本数据的采集:使用通过回放记忆单元实现,一个记忆单元为一个四元组,其中s是当前的排课状态;a是当前状态下所采取的排课动作;r是在排课状态s下采取排课动作a所获得的奖励;是在排课状态s下采取排课动作a所到达的下一步状态;
(b)众多的四元组构成一个回放记忆单元,回放记忆单元中历史数据的利用采用随机抽样的方式,以此来打破数据之间的关联性;
(c)根据回放记忆单元随机抽样得到数据,使用数据训练深度神经网络,其中:采用在线值网络得到当前状态下的估计值,利用目标值网络表示当前状态下的目标值;
(d)计算深度神经网络中当前状态下估计值和目标值之间的误差,利用随机梯度下降方法更新在线值网络,继续Q-learning的迭代过程,直到完成训练;
排课结果有符合三个原则:(i)在现有的教学资源情况下,课表全部安排完成,且满足正确性规则;(ii)课表安排满足合理性规则;(iii)课表安排满足适应性规则;将初始奖励r设定为0,若i、ii、iii条原则都满足,则此次排课动作的奖励r=100;若只满足i、ii原则,不满足第3条原则,则此次排课动作的奖励r=80;若只满足i、iii原则,不满足第2条原则,则此次排课动作的奖励r=30;若只满足i原则,不满足第ii、iii条原则,则此次排课动作的奖励r=10;若不满足i原则,则此次排课动作的奖励r= -100。
CN201910122698.7A 2019-02-19 2019-02-19 一种基于深度强化学习的智能排课方法 Active CN109902371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910122698.7A CN109902371B (zh) 2019-02-19 2019-02-19 一种基于深度强化学习的智能排课方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910122698.7A CN109902371B (zh) 2019-02-19 2019-02-19 一种基于深度强化学习的智能排课方法

Publications (2)

Publication Number Publication Date
CN109902371A CN109902371A (zh) 2019-06-18
CN109902371B true CN109902371B (zh) 2023-04-18

Family

ID=66945036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910122698.7A Active CN109902371B (zh) 2019-02-19 2019-02-19 一种基于深度强化学习的智能排课方法

Country Status (1)

Country Link
CN (1) CN109902371B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458737B (zh) * 2019-08-20 2023-09-26 暨南大学 基于神经网络修改高校教务安排的方法、装置、设备及介质
CN112396257A (zh) * 2020-12-24 2021-02-23 亿景智联(北京)科技有限公司 利用强化学习实现的排班规划的方法和系统
CN116797423B (zh) * 2023-08-23 2023-11-14 湖南强智科技发展有限公司 一种基于全局优化的高校自动快速排课方法与系统
CN116843525B (zh) * 2023-08-28 2023-12-15 湖南强智科技发展有限公司 一种智能自动排课方法、系统、设备及存储介质
CN117057413B (zh) * 2023-09-27 2024-03-15 传申弘安智能(深圳)有限公司 强化学习模型微调方法、装置、计算机设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122179A (zh) * 2016-11-30 2018-06-05 北京王府学校 分层教学排课方法和装置、分层教学选课方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150079579A1 (en) * 2013-09-13 2015-03-19 Ian James Oliver Integrated physical sensor grid and lesson system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108122179A (zh) * 2016-11-30 2018-06-05 北京王府学校 分层教学排课方法和装置、分层教学选课方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
采用增强学习算法的排课模型;郭方铭等;《计算机工程与设计》;20031128(第11期);全文 *

Also Published As

Publication number Publication date
CN109902371A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902371B (zh) 一种基于深度强化学习的智能排课方法
CN104656620A (zh) 重型机床再制造综合评价系统
Wen-jing Improved Adaptive Genetic Algorithm for Course Scheduling in Colleges and Universities.
CN109961189A (zh) 基于遗传算法的新高考排课算法
Febrita et al. Modified genetic algorithm for high school time-table scheduling with fuzzy time window
Chan et al. Applying the genetic encoded conceptual graph to grouping learning
Adams et al. Work in progress—A conceptions of design instrument as an assessment tool
CN109858882A (zh) 一种基于改进的退火算法的新高考排课方法及系统
Ivanov et al. BULGARIA'S TECHNOLOGICAL DEVELOPMENT THROUGH THE PRISM OF HIGHER EDUCATION POLICIES.
Gao Evaluation of college English teaching quality based on particle swarm optimization algorithm
Umam et al. Strategic Analysis of Human Resources In Modernity Culture Development of Moslem Scholar in Islamic Education Institutions
Kantaria et al. Applying a new teaching methodology to university programming language courses
Hosny et al. A mutation-based genetic algorithm for room and proctor assignment in examination scheduling
Ghaemi et al. STUDENTS’PERSPECTIVE: DOES PROBLEM-BASED LEARNING INCREASE OWNERSHIP OF ONE’S EDUCATION?
Yang et al. Mathematical modeling and system design of timetabling problem based on improved GA
Wen Research on the teaching quality evaluation model of distance education in colleges based on analytic hierarchy process
CN111898988A (zh) 一种基于np完全问题延伸的七爻排课方法
Jiang et al. Teaching Reform and Practice of Data Structure Course based on OBE Concept
Winch et al. Case article—Class scheduling with linear programming
Mirzoev et al. Technological efficiency of computer science education results in a secondary school as a factor of the quality of education in the distance learning system
Rodriguez et al. Solving a scholar timetabling problem using a genetic algorithm-study case: Instituto tecnologico de zitacuaro
Qiu Research on the Teaching Concept of Undergraduate Education Based on Vocational Education
Dahiya et al. Exam Timetabling Problem Using GA
Karanashev et al. The effectiveness of the research and development teams with an account for process management specifics
Wang et al. Design and Research of Course Arranging System Based on Niche Improved Genetic Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Yangbo

Inventor after: Sun Lin

Inventor before: Jiang Yangbo

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant