CN109902371B

CN109902371B - 一种基于深度强化学习的智能排课方法

Info

Publication number: CN109902371B
Application number: CN201910122698.7A
Authority: CN
Inventors: 蒋阳波; 孙琳
Original assignee: Schoolpal Online Hangzhou Technology Co ltd
Current assignee: Schoolpal Online Hangzhou Technology Co ltd
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2023-04-18
Anticipated expiration: 2039-02-19
Also published as: CN109902371A

Abstract

本发明公开了一种基于深度强化学习的智能排课方法。它具体包括如下步骤：(1)选定排课任务，包括老师排课要求、学生排课要求、教室排课要求；(2)初始化深度Q学习算法参数，包括奖励r、排课状态s以及排课动作a；(3)执行深度Q学习算法训练流程，得到最优Q值和排课结果。本发明的有益效果是：在智能排课的过程中，可以根据实际的课表状态和排课任务设置可以安排的动作集合，不需要考虑排课的教学资源以及安排合理性因素。

Description

一种基于深度强化学习的智能排课方法

技术领域

本发明涉及深度强化学习相关技术领域，尤其是指一种基于深度强化学习的智能排课方法。

背景技术

课表是学校和教育机构实施教学计划的时间安排。课表安排老师上课，学生学习，对维护教学秩序保障教学具有重要的意义。课表的排课任务在教务工作中占据重要地位，但其任务规模大，影响因素多，是一项复杂的任务。目前，排课任务大多手工进行，由实践经验丰富的人员集中进行编排，协调出现的各种矛盾，反复检查任务的合理性，修正课表，直至符合要求。1963年，Gotlieb提出排课问题的数学模型，指出排课问题是组合规划中的典型问题，20世纪70年代S.Even等论证了课表排课问题是NP完全类问题，说明了课表问题存在解，并且能够找到解。深度强化学习(deep reinforcement learning)是将强化学习和深度学习结合在一起，用强化学习来定义问题和优化目标，用深度学习来解决策略和值函数的建模问题，然后使用误差反向传播算法来优化目标函数。深度强化学习是一种强大的学习工具，它是一种非监督学习方法，可以用来对排课问题进行求解。

发明内容

本发明是为了克服现有技术中需要考虑排课的教学资源以及安排合理性等因素的不足，提供了一种不需要考虑排课的教学资源以及安排合理性因素的基于深度强化学习的智能排课方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于深度强化学习的智能排课方法，具体包括如下步骤：

(1)选定排课任务，包括老师排课要求、学生排课要求、教室排课要求；

(2)初始化深度Q学习算法参数，包括奖励r、排课状态s以及排课动作a；

(3)执行深度Q学习算法训练流程，得到最优Q值和排课结果。

本发明提出了一种智能排课方法，通过对课表的排课要求进行全面分析，通过深度强化学习方法课表的智能排课方法。深度强化学习是一种深度学习技术扩展传统强化学习方法的一种机器学习方法。在本发明中，深度强化学习具体选用深度Q学习算法，它选择动作安排的评价值Q值动作决策的依据。Q值的评价相对客观，不必考虑当前课表状态的好坏，Q学习算法的迭代是策略无关的，总是选择最大的Q值作为输入。同时，结合深度神经网络进行函数逼近。对于深度Q学习算法来说，首先初始化奖励r，排课状态s以及排课动作a，由于其可以自学习，故只需要准备排课任务即可，最后得到学到的Q值表。在智能排课的过程中，可以根据实际的课表状态和排课任务设置可以安排的动作集合，不需要考虑排课的教学资源以及安排合理性因素。

作为优选，排课结果有符合三个原则：(i)在现有的教学资源情况下，课表全部安排完成，且满足正确性规则；(ii)课表安排满足合理性规则；(iii)课表安排满足适应性规则；将初始奖励r设定为0，若i、ii、iii条原则都满足，则此次排课动作的奖励r＝100；若只满足i、ii原则，不满足第3条原则，则此次排课动作的奖励r＝80；若只满足i、iii原则，不满足第2条原则，则此次排课动作的奖励r＝30；若只满足i原则，不满足第ii、iii条原则，则此次排课动作的奖励r＝10；若不满足i原则，则此次排课动作的奖励r＝-100。

作为优选，在步骤(2)中，排课状态s反映的是安排某门任务前，该任务涉及的班级使用情况，教师课表的使用情况，空闲时间片情况，各时间片可用教室资源情况，将上述四种情况作为4个元素，按照每周5天上课和每天4节课计算，将课表按时间片划分为20个向量，每个向量包含以上4个元素，那么一张课表的状态表就包含80个元素，称之为状态模式矩阵。

作为优选，在步骤(2)中，排课动作a就是将课程安排在星期几，第几节；同时排课动作a还必须体现周次的性质，即单周和双周；按照每周5天上课和每天4节课计算，那么课表有20个时间片，每个时间片用3位二进制表示，其中第1位表示是否安排在此，安排则为1，否则为0；第2、3位表示单双周，单周为01，双周为10，其他00。

作为优选，其特征是，在步骤(3)中，深度Q学习算法训练流程如下：

(a)样本数据的采集：使用通过回放记忆单元实现，一个记忆单元为一个四元组(s，a，r，s′)，其中s是当前的排课状态；a是当前状态下所采取的排课动作；r是在排课状态s下采取排课动作a所获得的奖励；s′是在排课状态s下采取排课动作a所到达的下一步状态；

(b)众多的四元组构成一个回放记忆单元，回放记忆单元中历史数据的利用采用随机抽样的方式，以此来打破数据之间的关联性；

(c)根据回放记忆单元随机抽样得到数据，使用数据训练深度神经网络，其中：采用在线值网络得到当前状态下的估计值，利用目标值网络表示当前状态下的目标值；

(d)计算深度神经网络中当前状态下估计值和目标值之间的误差，利用随机梯度下降方法更新在线值网络，继续Q-learning的迭代过程，直到完成训练。

本发明的有益效果是：在智能排课的过程中，可以根据实际的课表状态和排课任务设置可以安排的动作集合，不需要考虑排课的教学资源以及安排合理性因素。

附图说明

图1是本发明深度强化学习的框架图；

图2是本发明深度Q学习算法训练流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

排课结果有符合三个原则：(i)在现有的教学资源情况下，课表全部安排完成，且满足正确性规则；(ii)课表安排满足合理性规则；(iii)课表安排满足适应性规则；将初始奖励r设定为0，若i、ii、iii条原则都满足，则此次排课动作的奖励r＝100；若只满足i、ii原则，不满足第3条原则，则此次排课动作的奖励r＝80；若只满足i、iii原则，不满足第2条原则，则此次排课动作的奖励r＝30；若只满足i原则，不满足第ii、iii条原则，则此次排课动作的奖励r＝10；若不满足i原则，则此次排课动作的奖励r＝-100。

排课状态s反映的是安排某门任务前，该任务涉及的班级使用情况，教师课表的使用情况，空闲时间片情况，各时间片可用教室资源情况，将上述四种情况作为4个元素，按照每周5天上课和每天4节课计算，将课表按时间片划分为20个向量，每个向量包含以上4个元素，那么一张课表的状态表就包含80个元素，称之为状态模式矩阵。

排课动作a就是将课程安排在星期几，第几节；同时排课动作a还必须体现周次的性质，即单周和双周；按照每周5天上课和每天4节课计算，那么课表有20个时间片，每个时间片用3位二进制表示，其中第1位表示是否安排在此，安排则为1，否则为0；第2、3位表示单双周，单周为01，双周为10，其他00。

(3)执行深度Q学习算法训练流程，得到最优Q值和排课结果；

如图1所示，深度Q学习算法训练流程如下：

如图2所示，具体的深度Q学习算法训练流程如下：

101、初始化回放记忆单元D，目标值网络的更新步为C；用随机权值θ初始化在线值网络Q，同时初始化目标值网络Q′的权值θ′，θ′＝θ；

102、e＝1～M，遍历M个回合；

103、t＝1～T，遍历T个时间；

104、根据概率ε选择一个随机的动作a；根据当前的状态输入到当前的网络中，计算出下一步每个可能动作的值，选择最优动作a′；执行上面的最优动作a′就可以得到奖励r，以及下一个状态；

105、把记忆单元存入回放记忆单元D；

106、从回放记忆单元D中随机选取一个存储的数据进行运算；计算当前状态的目标值。如果回合结束，那么目标值y＝r，如果没有结束，那么就将下一个处理好的状态输入到网络，使目标网络参数得到最大的Q值，然后按下面公式计算：

y_j＝r_j+γmax_a’Q'(s_j，a′，θ')

s′是状态s下采取动作a的所到达的下一步状态，

a′是状态s下采取动作a的所到达的下一步动作；

γ表示折扣因子；

107、计算当前状态和动作下的Q值，将当前处理好的状态输入到网络，选择对应的动作的Q值。根据损失函数通过随机梯度算法来更新参数；

损失函数计算公式如下：

Loss＝(y_i-Q(s_j，a_j，θ)²)

每C次迭代后更新目标值网络的参数为当前的参数；

108、循环遍历时间状态；

109、循环遍历回合；

110、根据最优在线值网络Q得出最佳排课任务；

111、准备排课任务，深度Q学习算法完成整个训练流程，得到学到的目标值网络和需要的排课结果。

Claims

1.一种基于深度强化学习的智能排课方法，其特征是，具体包括如下步骤：

（1）选定排课任务，包括老师排课要求、学生排课要求、教室排课要求；

（2）初始化深度Q学习算法参数，包括奖励r、排课状态s以及排课动作a；

排课状态s反映的是安排某门任务前，该任务涉及的班级使用情况，教师课表的使用情况，空闲时间片情况，各时间片可用教室资源情况，将上述四种情况作为4个元素，按照每周5天上课和每天4节课计算，将课表按时间片划分为20个向量，每个向量包含以上4个元素，那么一张课表的状态表就包含80个元素，称之为状态模式矩阵；

排课动作a就是将课程安排在星期几，第几节；同时排课动作a还必须体现周次的性质，即单周和双周；按照每周5天上课和每天4节课计算，那么课表有20个时间片，每个时间片用3位二进制表示，其中第1位表示是否安排在此，安排则为1，否则为0；第2、3位表示单双周，单周为01，双周为10，其他00；

（3）执行深度Q学习算法训练流程，得到最优Q值和排课结果；深度Q学习算法训练流程如下：

（a）样本数据的采集：使用通过回放记忆单元实现，一个记忆单元为一个四元组，其中s是当前的排课状态；a是当前状态下所采取的排课动作；r是在排课状态s下采取排课动作a所获得的奖励；是在排课状态s下采取排课动作a所到达的下一步状态；

（b）众多的四元组构成一个回放记忆单元，回放记忆单元中历史数据的利用采用随机抽样的方式，以此来打破数据之间的关联性；

（c）根据回放记忆单元随机抽样得到数据，使用数据训练深度神经网络，其中：采用在线值网络得到当前状态下的估计值，利用目标值网络表示当前状态下的目标值；

（d）计算深度神经网络中当前状态下估计值和目标值之间的误差，利用随机梯度下降方法更新在线值网络，继续Q-learning的迭代过程，直到完成训练；

排课结果有符合三个原则：（i）在现有的教学资源情况下，课表全部安排完成，且满足正确性规则；（ii）课表安排满足合理性规则；（iii）课表安排满足适应性规则；将初始奖励r设定为0，若i、ii、iii条原则都满足，则此次排课动作的奖励r=100；若只满足i、ii原则，不满足第3条原则，则此次排课动作的奖励r=80；若只满足i、iii原则，不满足第2条原则，则此次排课动作的奖励r=30；若只满足i原则，不满足第ii、iii条原则，则此次排课动作的奖励r=10；若不满足i原则，则此次排课动作的奖励r= -100。