CN110488781B

CN110488781B - 一种基于迁移强化学习的生产系统调度方法

Info

Publication number: CN110488781B
Application number: CN201910787766.1A
Authority: CN
Inventors: 翟敬梅; 郭培森
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-09-21
Anticipated expiration: 2039-08-26
Also published as: CN110488781A

Abstract

本发明公开了一种基于迁移强化学习的生产系统调度方法，包括步骤：(1)定义生产系统的状态和动作；(2)生产系统调度问题Q学习建模；(3)建立生产调度案例库；(4)计算目标任务与源任务的任务相似度，匹配知识迁移的案例集；(5)建立源任务与目标任务的动作映射关系，将源任务的动作知识迁移到目标任务；(6)计算目标任务状态与案例集中案例的状态相似度，匹配知识迁移的案例；(7)将选出案例的动作映射为目标任务的动作，并修正动作选择策略，实现知识迁移；(8)根据修正后的动作选择策略执行动作，更新状态和Q值表。本发明相对于Q学习提高了学习性能，有效解决了生产任务在线调度的实时性问题。

Description

一种基于迁移强化学习的生产系统调度方法

技术领域

本发明属于智能机器人领域，特别涉及一种基于迁移强化学习的生产系统调度方法。

背景技术

随着信息技术、机器人技术的不断发展，机器人在工业生产上发挥着越来越重要的作用。与此同时，随着“工业4.0”和“中国制造2025”等主题的提出和发展，以及目前生产越来越趋向于小批量、个性化，制造周期越来越短，柔性智能化制造是我国制造业发展的必然趋势。柔性智能化制造的一个典型应用场景就是由智能决策中心、工业机器人、数控机床等组成的智能制造系统，智能决策中心的一个关键问题是生产系统的实时调度问题，需要在较短的时间内求解出生产系统中各工作单元和搬运机器人的动作时序，满足最小完工时间等优化目标。

当前求解对复杂生产调度问题主要采用基于人工智能的方法，虽然可以在可接受的求解时间内获得较优解，但仍需较多的计算时间，且当生产调度问题稍作改变时，需要重新求解。另一方面，生产系统中往往存在一些与当前任务相似的生产调度案例，这些案例往往包含对当前任务有帮助的信息。因此，研究一种利用已有的相似案例知识，加速求解生产调度策略的方法具有重大意义。

发明内容

为了解决上述技术问题，本发明提供了一种基于迁移强化学习的生产系统调度方法，可以利用已有的相似案例进行知识迁移，克服复杂生产调度策略求解效率低的问题。

本发明为实现上述目的采用以下的技术方案：

一种基于迁移强化学习的生产系统调度方法，包括如下步骤：

(1)定义生产系统的状态和动作；

(2)生产系统调度问题Q学习建模，包括生产系统调度问题的状态空间、动作空间和动作奖赏函数；

(3)建立生产调度案例库；

(4)计算目标任务与源任务的任务相似度Similarity_task，匹配知识迁移的案例集；

(5)建立源任务与目标任务的动作映射关系，将源任务的动作知识迁移到目标任务；

(6)计算目标任务状态与案例集中案例的状态相似度Similarity_state，匹配知识迁移的案例；

(7)将选出案例的动作映射为目标任务的动作，并修正动作选择策略，实现知识迁移；

(8)根据修正后的动作选择策略执行动作，更新状态和Q值表，实现生产任务在线实时调度。

进一步地，所述步骤(1)中，为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态，将生产系统状态定义为各工件和AGV的状态集合，系统在t_c时刻的状态向量s_c表示为：

s_c＝((mj₁,tj₁),(mj₂,tj₂),…,(mj_n,tj_n),(x₁,y₁),(x₂,y₂),…(x_q,y_q))

其中，二元组(mj_i,tj_i)表示工件J_i的状态，mj_i表示J_i所处的位置，tj_i表示当前该工件距离完成当前工序的时间；若J_i位于加工单元M_j或机器人装配单元AS_k，则分别有mj_i＝M_j或 mj_i＝AS_k，若J_i正处于被序号为R_r的AGV搬运过程中，则有mj_i＝R_r，tj_i＝0；若J_i已与其他工件装配成为新的工件，则令mj_i＝-1，tj_i＝0；若J_i正在装配，则令mj_i＝-1，tj_i＝-1；二元组(x_r,y_r)表示AGV在生产系统中相对于世界坐标系的坐标。

进一步地，所述步骤(1)中，定义生产系统发生状态改变的时刻为AGV中任意一台在加工 /装配单元或卸载站放下工件的时刻，则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作，当生产系统中存在需要搬运的工件时，对于刚放下工件的AGV，则选择即将搬运的工件并执行动作；对于正在搬运工件的AGV，则不执行新的动作，选择保持原动作不变；当生产系统中不存在需要搬运的工件时，则所有AGV不执行新的动作，保持原来状态不变，对R_r的在t_c时刻的动作a_rc定义如下：

其中，a_rc＝J_i表示R_r执行搬运工件J_i的动作，a_rc＝0表示R_r不执行新的动作，保持当前动作不变；

生产系统在t_c时刻的动作a_c即为此时各AGV的联合动作，定义如下：

a_c＝(a_1c,a_2c,…,a_qc)。

进一步地，所述步骤(2)中，生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作，并根据最小化最大完工时间的优化目标，定义在t_c时刻执行动作后获得的奖赏值r_c：

其中，Δt_i＝t_i+1-t_i，表示从状态s_i转移至状态s_i+1所需时间；Δt_c表示从状态s_c转移至状态 s_c+1所需时间；K表示不小于所有Δt_i的正实数。

进一步地，所述步骤(3)中，建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成，其中，任务描述包括各工件的装配约束关系及各工件的工序时间表，案例采用“状态-动作”对的数据结构存储生产调度策略。

进一步地，所述步骤(4)中，定义任务相似度Similarity_task的计算如下：

其中，n_target表示目标任务的工件个数，n_source表示案例集对应的源任务的工件个数，条件 i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致，条件ii 表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。

进一步地，所述步骤(5)中，由于源任务案例建议的动作对应于源任务中的工件，而案例中工件采取的标记往往和目标任务中工件的标记不相同，若此时直接采取案例建议的动作，则在目标任务中该动作无意义，不能直接执行该动作，需建立从源任务到目标任务的动作映射：

a_target＝f_A(a_source)＝matchResult_i[v_source]

其中，a_target表示目标任务的动作，a_source表示源任务中的动作，f_A表示从源任务到目标任务的动作映射，matchResult_i是记录了所述条件ii中一种源任务和目标任务匹配关系的字典，可根据节点的源任务工件标识查询与其匹配的源任务工件标识，v_source表示源任务中的工件。

进一步地，所述步骤(6)中，计算目标任务状态与案例集中案例的状态相似度Similarity_state具体包括步骤：

首先将目标任务状态s_target映射为与源任务状态向量维度相同的系统状态向量s_{target-mapping}：

其中，

表示目标任务中工件所处的位置，

表示当前该工件距离完成当前工序的时间，x_r,target和y_r,target分别表示AGV的XY坐标；

然后将系统状态向量s_{target-mapping}的时间分量进行归一化，得到向量p_{target-mapping}：

其中，

表示当前工件的完工进度；

最后根据向量p_{target-mapping}和p_source计算状态相似度Simlarity_state，其中p_source表示归一化后的源任务案例状态向量，计算方式与p_{target-mapping}相同。

进一步地，所述步骤(7)中，在将源任务案例中的动作映射为目标任务的动作后，首先计算目标任务中所有可执行动作对应的启发函数值H_c(s_c,a_c)，其中，t_c时刻下启发函数值 H_c(s_c,a_c)的计算方法如下：

其中，η是用于调节启发函数值的正实数。

进一步地，所述步骤(7)中，在计算得到目标任务中所有可执行动作对应的启发函数值 H_c(s_c,a_c)后，可对ε-贪心策略进行如下修正：

其中，ξ表示控制启发函数H_c(s_c,a_c)影响的权重；

通过对ε-贪心策略的修正，将源任务案例中的动作知识迁移至目标任务中，实现对目标任务中动作选择的启发。

相比现有技术，本发明所提供的基于迁移强化学习的生产系统调度方法，利用案例知识进行迁移强化学习求解生产调度案例，相对于Q学习提高了学习性能，可实现比Q学习更快的求解效率，有效解决了生产任务在线调度的实时性问题。

附图说明

图1是本发明具体实施例中进行案例迁移Q学习的算法流程图。

图2a)-2c)是本发明具体实施例中生产系统及其不同时刻、状态示意图，其中，图2a)表示处于时刻t₀，系统状态为s₀时的生产系统；图2b)表示处于时刻t₁，系统状态为s₁时的生产系统态；图2c)表示处于时刻t_T，系统状态为s_T时的生产系统。

图3是本发明具体实施例中如图所示的生产系统各时刻状态向量示意图。

图4是本发明具体实施例中Q学习和案例Q学习的学习曲线对比示意图。

图5a)-5d)是本发明具体实施例中四个案例迁移Q学习和Q学习的t检验结果示意图，其中，图5a)表示从案例库C1迁移的t检验结果；图5b)表示从案例库C2迁移的t检验结果；图 5c)表示从案例库C3迁移的t检验结果；图5d)表示从案例库C4迁移的t检验结果。

具体实施方式

下面结合附图以及具体实施例对本发明做进一步说明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

如图1所示，一种基于迁移强化学习的生产系统调度方法，包括如下步骤：

S1、定义生产系统的状态和动作，包括如下步骤：

S11、为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态，将生产系统状态定义为各工件和AGV的状态集合。以如图2所示的生产系统为例，其中图2a)、图2b) 和图2c)所示的生产系统状态向量如图3所示；

S12、定义生产系统中各AGV动作，进一步将各AGV的联合动作作为生产系统的联合动作。以图2a)中生产系统执行的动作a₀为例，序号为R₁、R_r、R_q的各AGV搬运的工件分别为J₁、J₂和J₃，因此对于生产系统动作a₀＝(a₁₀,a₂₀,…,a_q0)有a₁₀＝J₁，a_r0＝J₂和a_q0＝J₃；

S2、生产系统调度问题Q学习建模，包括生产系统调度问题的状态空间、动作空间和动作奖赏函数：包括如下步骤：

S21、采用步骤S11的方法定义状态空间；

S22、采用步骤S12的方法定义动作空间；

S23、根据最小化最大完工时间的优化目标，定义在t_c时刻执行动作后获得的奖赏值r_c：

S3、建立生产调度案例库。建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成。其中，任务描述包括各工件的装配约束关系及各工件的工序时间表，案例采用“状态-动作”对的数据结构存储生产调度策略。

S4、计算目标任务与各源任务的任务相似度Similarity_task：

其中，n_target表示目标任务的工件个数，n_source表示案例集对应的源任务的工件个数，条件i 表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致，条件 ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。

本实施例的计算结果如表1所示

表1各源任务与目标任务的相似度

S5、建立从源任务到目标任务的动作映射：

a_target＝f_A(a_source)＝matchResult_i[v_source]

S6、计算当前目标任务状态与案例集中案例的状态相似度Similarity_state，匹配知识迁移的案例，具体包括步骤：

其中，

表示目标任务中工件所处的位置，

其中，

表示当前工件的完工进度；

S7、将选出案例的动作映射为目标任务的动作，计算目标任务中各动作对应的启发函数值 H_c(s_c,a_c)，修正动作选择策略，实现知识迁移，具体地，本步骤在将源任务案例中的动作映射为目标任务的动作后，首先计算目标任务中所有可执行动作对应的启发函数值H_c(s_c,a_c)，其中，t_c时刻下启发函数值H_c(s_c,a_c)的计算方法如下：

其中，η是用于调节启发函数值的正实数；

在计算得到目标任务中所有可执行动作对应的启发函数值H_c(s_c,a_c)后，可对ε-贪心策略进行如下修正：

其中，ξ表示控制启发函数H_c(s_c,a_c)影响的权重；

S8、根据修正后的动作选择策略执行动作，更新状态和Q值表，实现生产任务在线实时调度。

首先采用Q学习求解生产调度策略，得到如图4所示的学习曲线“WithoutTransferring(WT)”，然后分别基于源任务Source1、Source2、Source3和Source4进行案例迁移Q学习，分别得到如图4所示的学习曲线T1、T2、T3和T4。

为了评估案例迁移Q学习加速求解最优策略的性能，选取评价指标为time tothreshold(智能体在一轮训练中的累积奖赏达到指定奖赏阈值所需要的学习时间)。取平均累积奖赏阈值 r_threshold＝633，比较上述案例迁移Q学习曲线达到r_threshold的所需的训练轮数Episode和耗时。

根据图4，不同案例迁移Q学习曲线达到r_threshold的time to threshold值(Episode和耗时) 及其相对于Q学习的耗时减少率如表2所示(本文用于比较运行时间的程序均使用Python语言编写，使用Python3.5解释器运行，系统环境为Windows 10专业版，硬件环境为2.40GHz 的Intel Core i3-2370M处理器及6GB内存)。

表2案例迁移Q学习与Q学习的性能对比

对图4、表1和表2进行分析，有以下结论：

(1)根据表1和表2，可知案例迁移Q学习性能随源任务和目标任务相似度的增大而提高；

(2)根据表2可知，相对于Q学习，采用不同的源任务案例库进行案例迁移Q学习均可不同程度提升目标任务的学习性能，减少到达给定奖赏阈值的训练耗时，最低减少56.41％，最高减少82.95％。

为验证提出的面向生产调度的案例迁移Q学习算法对求解调度策略的加速作用的统计学意义，对各案例迁移Q学习曲线和曲线WT分别进行t检验，计算每个Episode的p值。当p≤0.05时，可认为位于当前Episode处的曲线有显著差异；当p>0.05时，则认为曲线在当前Episode处无显著差异。对WT和T1、WT和T2、WT和T3、WT和T4使用t检验的结果分别如图5a)-图5d)所示。

根据图5，各案例迁移Q学习曲线相对于曲线WT显著改善的Episode区间及其在整个训练过程中的占比如表3所示。

表3案例迁移Q学习曲线显著改善的区间及其占比

对表1和表3分析可知，案例迁移Q学习曲线显著改善区间占比随任务相似度的增大而增大。

本发明是一种高效的生产系统调度方法，提出的案例迁移Q学习算法达到预期目标的时间均不同程度小于Q学习所需的时间，说明案例迁移Q学习均不同程度提高了学习性能，加快了生产任务调度的求解效率。

显然，上述实施例仅仅是为了更清楚的表达本发明技术方案所作的举例，而非对本发明实施方式的限定。对于本领域技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，在不脱离本发明构思的前提下，这些都属于本发明的保护范围。因此本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于迁移强化学习的生产系统调度方法，其特征在于，包括如下步骤：

(1)定义生产系统的状态和动作；

(3)建立生产调度案例库；

(8)根据修正后的动作选择策略执行动作，更新状态和Q值表，实现生产任务在线实时调度；

其中，步骤(1)中，为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态，将生产系统状态定义为各工件和AGV的状态集合，系统在t_c时刻的状态向量s_c表示为：

式中，二元组(mj_i,tj_i)表示工件J_i的状态，mj_i表示工件J_i所处的位置，tj_i表示当前该工件距离完成当前工序的时间；若工件J_i位于加工单元M_j或机器人装配单元AS_k，则分别有mj_i＝M_j或mj_i＝AS_k，若工件J_i正处于被序号为R_r的AGV搬运过程中，则有mj_i＝R_r，tj_i＝0；若J_i已与其他工件装配成为新的工件，则令mj_i＝-1，tj_i＝0；若J_i正在装配，则令mj_i＝-1，tj_i＝-1；二元组(x_r,y_r)表示AGV在生产系统中相对于世界坐标系的坐标；

定义生产系统发生状态改变的时刻为AGV中任意一台在加工/装配单元或卸载站放下工件的时刻，则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作，当生产系统中存在需要搬运的工件时，对于刚放下工件的AGV，则选择即将搬运的工件并执行动作；对于正在搬运工件的AGV，则不执行新的动作，选择保持原动作不变；当生产系统中不存在需要搬运的工件时，则所有AGV不执行新的动作，保持原来状态不变，对R_r在t_c时刻的动作a_rc定义如下：

a_c＝(a_1c,a_2c,…,a_qc)。

2.根据权利要求1所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(2)中，生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作，并根据最小化最大完工时间的优化目标，定义在t_c时刻执行动作后获得的奖赏值r_c：

其中，Δt_i＝t_i+1-t_i，表示从状态s_i转移至状态s_i+1所需时间；Δt_c表示从状态s_c转移至状态s_c+1所需时间；K表示不小于所有Δt_i的正实数。

3.根据权利要求1所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(3)中，建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成，其中，任务描述包括各工件的装配约束关系及各工件的工序时间表，案例采用“状态-动作”对的数据结构存储生产调度策略。

4.根据权利要求1所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(4)中，定义任务相似度Similarity_task的计算如下：

其中，n_target表示目标任务的工件个数，n_source表示案例集对应的源任务的工件个数，条件i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致，条件ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。

5.根据权利要求4所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(5)中，建立从源任务到目标任务的动作映射：

a_target＝f_A(a_source)＝matchResult_i[v_source]

6.根据权利要求1所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(6)中，计算目标任务状态与案例集中案例的状态相似度Similarity_state具体包括步骤：

其中，

表示目标任务中工件所处的位置，

其中，

表示当前工件的完工进度；

7.根据权利要求1所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(7)中，在将源任务案例中的动作映射为目标任务的动作后，首先计算目标任务中所有可执行动作对应的启发函数值H_c(s_c,a_c)，其中，t_c时刻下启发函数值H_c(s_c,a_c)的计算方法如下：

其中，η是用于调节启发函数值的正实数。

8.根据权利要求7所述基于迁移强化学习的生产系统调度方法，其特征在于，步骤(7)中，在计算得到目标任务中所有可执行动作对应的启发函数值H_c(s_c,a_c)后，可对ε-贪心策略进行如下修正：

其中，ξ表示控制启发函数H_c(s_c,a_c)影响的权重；