CN110488781B - 一种基于迁移强化学习的生产系统调度方法 - Google Patents

一种基于迁移强化学习的生产系统调度方法 Download PDF

Info

Publication number
CN110488781B
CN110488781B CN201910787766.1A CN201910787766A CN110488781B CN 110488781 B CN110488781 B CN 110488781B CN 201910787766 A CN201910787766 A CN 201910787766A CN 110488781 B CN110488781 B CN 110488781B
Authority
CN
China
Prior art keywords
task
action
state
target
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910787766.1A
Other languages
English (en)
Other versions
CN110488781A (zh
Inventor
翟敬梅
郭培森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910787766.1A priority Critical patent/CN110488781B/zh
Publication of CN110488781A publication Critical patent/CN110488781A/zh
Application granted granted Critical
Publication of CN110488781B publication Critical patent/CN110488781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于迁移强化学习的生产系统调度方法,包括步骤:(1)定义生产系统的状态和动作;(2)生产系统调度问题Q学习建模;(3)建立生产调度案例库;(4)计算目标任务与源任务的任务相似度,匹配知识迁移的案例集;(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;(6)计算目标任务状态与案例集中案例的状态相似度,匹配知识迁移的案例;(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;(8)根据修正后的动作选择策略执行动作,更新状态和Q值表。本发明相对于Q学习提高了学习性能,有效解决了生产任务在线调度的实时性问题。

Description

一种基于迁移强化学习的生产系统调度方法
技术领域
本发明属于智能机器人领域,特别涉及一种基于迁移强化学习的生产系统调度方法。
背景技术
随着信息技术、机器人技术的不断发展,机器人在工业生产上发挥着越来越重要的作用。与此同时,随着“工业4.0”和“中国制造2025”等主题的提出和发展,以及目前生产越来越趋向于小批量、个性化,制造周期越来越短,柔性智能化制造是我国制造业发展的必然趋势。柔性智能化制造的一个典型应用场景就是由智能决策中心、工业机器人、数控机床等组成的智能制造系统,智能决策中心的一个关键问题是生产系统的实时调度问题,需要在较短的时间内求解出生产系统中各工作单元和搬运机器人的动作时序,满足最小完工时间等优化目标。
当前求解对复杂生产调度问题主要采用基于人工智能的方法,虽然可以在可接受的求解时间内获得较优解,但仍需较多的计算时间,且当生产调度问题稍作改变时,需要重新求解。另一方面,生产系统中往往存在一些与当前任务相似的生产调度案例,这些案例往往包含对当前任务有帮助的信息。因此,研究一种利用已有的相似案例知识,加速求解生产调度策略的方法具有重大意义。
发明内容
为了解决上述技术问题,本发明提供了一种基于迁移强化学习的生产系统调度方法,可以利用已有的相似案例进行知识迁移,克服复杂生产调度策略求解效率低的问题。
本发明为实现上述目的采用以下的技术方案:
一种基于迁移强化学习的生产系统调度方法,包括如下步骤:
(1)定义生产系统的状态和动作;
(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;
(3)建立生产调度案例库;
(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;
(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;
(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;
(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;
(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。
进一步地,所述步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:
sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))
其中,二元组(mji,tji)表示工件Ji的状态,mji表示Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或 mji=ASk,若Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标。
进一步地,所述步骤(1)中,定义生产系统发生状态改变的时刻为AGV中任意一台在加工 /装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr的在tc时刻的动作arc定义如下:
Figure RE-GDA0002220196540000021
其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;
生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:
ac=(a1c,a2c,…,aqc)。
进一步地,所述步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc
Figure RE-GDA0002220196540000031
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态 sc+1所需时间;K表示不小于所有Δti的正实数。
进一步地,所述步骤(3)中,建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成,其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
进一步地,所述步骤(4)中,定义任务相似度Similaritytask的计算如下:
Figure RE-GDA0002220196540000032
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件 i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件ii 表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
进一步地,所述步骤(5)中,由于源任务案例建议的动作对应于源任务中的工件,而案例中工件采取的标记往往和目标任务中工件的标记不相同,若此时直接采取案例建议的动作,则在目标任务中该动作无意义,不能直接执行该动作,需建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
进一步地,所述步骤(6)中,计算目标任务状态与案例集中案例的状态相似度Similaritystate具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping
Figure RE-GDA0002220196540000043
其中,
Figure RE-GDA0002220196540000044
表示目标任务中工件所处的位置,
Figure RE-GDA0002220196540000045
表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping
Figure RE-GDA0002220196540000046
其中,
Figure RE-GDA0002220196540000047
表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
进一步地,所述步骤(7)中,在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值 Hc(sc,ac)的计算方法如下:
Figure RE-GDA0002220196540000041
其中,η是用于调节启发函数值的正实数。
进一步地,所述步骤(7)中,在计算得到目标任务中所有可执行动作对应的启发函数值 Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
Figure RE-GDA0002220196540000042
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
相比现有技术,本发明所提供的基于迁移强化学习的生产系统调度方法,利用案例知识进行迁移强化学习求解生产调度案例,相对于Q学习提高了学习性能,可实现比Q学习更快的求解效率,有效解决了生产任务在线调度的实时性问题。
附图说明
图1是本发明具体实施例中进行案例迁移Q学习的算法流程图。
图2a)-2c)是本发明具体实施例中生产系统及其不同时刻、状态示意图,其中,图2a)表示处于时刻t0,系统状态为s0时的生产系统;图2b)表示处于时刻t1,系统状态为s1时的生产系统态;图2c)表示处于时刻tT,系统状态为sT时的生产系统。
图3是本发明具体实施例中如图所示的生产系统各时刻状态向量示意图。
图4是本发明具体实施例中Q学习和案例Q学习的学习曲线对比示意图。
图5a)-5d)是本发明具体实施例中四个案例迁移Q学习和Q学习的t检验结果示意图,其中,图5a)表示从案例库C1迁移的t检验结果;图5b)表示从案例库C2迁移的t检验结果;图 5c)表示从案例库C3迁移的t检验结果;图5d)表示从案例库C4迁移的t检验结果。
具体实施方式
下面结合附图以及具体实施例对本发明做进一步说明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图1所示,一种基于迁移强化学习的生产系统调度方法,包括如下步骤:
S1、定义生产系统的状态和动作,包括如下步骤:
S11、为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合。以如图2所示的生产系统为例,其中图2a)、图2b) 和图2c)所示的生产系统状态向量如图3所示;
S12、定义生产系统中各AGV动作,进一步将各AGV的联合动作作为生产系统的联合动作。以图2a)中生产系统执行的动作a0为例,序号为R1、Rr、Rq的各AGV搬运的工件分别为J1、J2和J3,因此对于生产系统动作a0=(a10,a20,…,aq0)有a10=J1,ar0=J2和aq0=J3
S2、生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数:包括如下步骤:
S21、采用步骤S11的方法定义状态空间;
S22、采用步骤S12的方法定义动作空间;
S23、根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc
Figure RE-GDA0002220196540000051
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态 sc+1所需时间;K表示不小于所有Δti的正实数。
S3、建立生产调度案例库。建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成。其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
S4、计算目标任务与各源任务的任务相似度Similaritytask
Figure RE-GDA0002220196540000061
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件i 表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件 ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
本实施例的计算结果如表1所示
表1各源任务与目标任务的相似度
Figure RE-GDA0002220196540000062
S5、建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
S6、计算当前目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例,具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping
Figure RE-GDA0002220196540000073
其中,
Figure RE-GDA0002220196540000074
表示目标任务中工件所处的位置,
Figure RE-GDA0002220196540000075
表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping
Figure RE-GDA0002220196540000076
其中,
Figure RE-GDA0002220196540000077
表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
S7、将选出案例的动作映射为目标任务的动作,计算目标任务中各动作对应的启发函数值 Hc(sc,ac),修正动作选择策略,实现知识迁移,具体地,本步骤在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值Hc(sc,ac)的计算方法如下:
Figure RE-GDA0002220196540000071
其中,η是用于调节启发函数值的正实数;
在计算得到目标任务中所有可执行动作对应的启发函数值Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
Figure RE-GDA0002220196540000072
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
S8、根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。
首先采用Q学习求解生产调度策略,得到如图4所示的学习曲线“WithoutTransferring(WT)”,然后分别基于源任务Source1、Source2、Source3和Source4进行案例迁移Q学习,分别得到如图4所示的学习曲线T1、T2、T3和T4。
为了评估案例迁移Q学习加速求解最优策略的性能,选取评价指标为time tothreshold(智能体在一轮训练中的累积奖赏达到指定奖赏阈值所需要的学习时间)。取平均累积奖赏阈值 rthreshold=633,比较上述案例迁移Q学习曲线达到rthreshold的所需的训练轮数Episode和耗时。
根据图4,不同案例迁移Q学习曲线达到rthreshold的time to threshold值(Episode和耗时) 及其相对于Q学习的耗时减少率如表2所示(本文用于比较运行时间的程序均使用Python语言编写,使用Python3.5解释器运行,系统环境为Windows 10专业版,硬件环境为2.40GHz 的Intel Core i3-2370M处理器及6GB内存)。
表2案例迁移Q学习与Q学习的性能对比
Figure RE-GDA0002220196540000081
对图4、表1和表2进行分析,有以下结论:
(1)根据表1和表2,可知案例迁移Q学习性能随源任务和目标任务相似度的增大而提高;
(2)根据表2可知,相对于Q学习,采用不同的源任务案例库进行案例迁移Q学习均可不同程度提升目标任务的学习性能,减少到达给定奖赏阈值的训练耗时,最低减少56.41%,最高减少82.95%。
为验证提出的面向生产调度的案例迁移Q学习算法对求解调度策略的加速作用的统计学意义,对各案例迁移Q学习曲线和曲线WT分别进行t检验,计算每个Episode的p值。当p≤0.05时,可认为位于当前Episode处的曲线有显著差异;当p>0.05时,则认为曲线在当前Episode处无显著差异。对WT和T1、WT和T2、WT和T3、WT和T4使用t检验的结果分别如图5a)-图5d)所示。
根据图5,各案例迁移Q学习曲线相对于曲线WT显著改善的Episode区间及其在整个训练过程中的占比如表3所示。
表3案例迁移Q学习曲线显著改善的区间及其占比
Figure RE-GDA0002220196540000091
对表1和表3分析可知,案例迁移Q学习曲线显著改善区间占比随任务相似度的增大而增大。
本发明是一种高效的生产系统调度方法,提出的案例迁移Q学习算法达到预期目标的时间均不同程度小于Q学习所需的时间,说明案例迁移Q学习均不同程度提高了学习性能,加快了生产任务调度的求解效率。
显然,上述实施例仅仅是为了更清楚的表达本发明技术方案所作的举例,而非对本发明实施方式的限定。对于本领域技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,在不脱离本发明构思的前提下,这些都属于本发明的保护范围。因此本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于迁移强化学习的生产系统调度方法,其特征在于,包括如下步骤:
(1)定义生产系统的状态和动作;
(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;
(3)建立生产调度案例库;
(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;
(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;
(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;
(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;
(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度;
其中,步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:
sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))
式中,二元组(mji,tji)表示工件Ji的状态,mji表示工件Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若工件Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或mji=ASk,若工件Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标;
定义生产系统发生状态改变的时刻为AGV中任意一台在加工/装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr在tc时刻的动作arc定义如下:
Figure FDA0003177677800000021
其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;
生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:
ac=(a1c,a2c,…,aqc)。
2.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc
Figure FDA0003177677800000022
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态sc+1所需时间;K表示不小于所有Δti的正实数。
3.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(3)中,建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成,其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
4.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(4)中,定义任务相似度Similaritytask的计算如下:
Figure FDA0003177677800000023
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
5.根据权利要求4所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(5)中,建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
6.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(6)中,计算目标任务状态与案例集中案例的状态相似度Similaritystate具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping
Figure FDA0003177677800000031
其中,
Figure FDA0003177677800000032
表示目标任务中工件所处的位置,
Figure FDA0003177677800000033
表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping
Figure FDA0003177677800000034
其中,
Figure FDA0003177677800000035
表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
7.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(7)中,在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值Hc(sc,ac)的计算方法如下:
Figure FDA0003177677800000036
其中,η是用于调节启发函数值的正实数。
8.根据权利要求7所述基于迁移强化学习的生产系统调度方法,其特征在于,步骤(7)中,在计算得到目标任务中所有可执行动作对应的启发函数值Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
Figure FDA0003177677800000041
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
CN201910787766.1A 2019-08-26 2019-08-26 一种基于迁移强化学习的生产系统调度方法 Active CN110488781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910787766.1A CN110488781B (zh) 2019-08-26 2019-08-26 一种基于迁移强化学习的生产系统调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910787766.1A CN110488781B (zh) 2019-08-26 2019-08-26 一种基于迁移强化学习的生产系统调度方法

Publications (2)

Publication Number Publication Date
CN110488781A CN110488781A (zh) 2019-11-22
CN110488781B true CN110488781B (zh) 2021-09-21

Family

ID=68553935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910787766.1A Active CN110488781B (zh) 2019-08-26 2019-08-26 一种基于迁移强化学习的生产系统调度方法

Country Status (1)

Country Link
CN (1) CN110488781B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110932913B (zh) * 2019-12-13 2022-12-13 深圳先进技术研究院 一种基于案例库匹配的自适应服务迁移方法及装置
CN112016811A (zh) * 2020-08-04 2020-12-01 四叶草(苏州)智能科技有限公司 一种基于强化学习的agv智能调度系统及方法
CN112150088A (zh) * 2020-11-26 2020-12-29 深圳市万邑通信息科技有限公司 一种吞吐柔性智能装配物流路径规划方法及系统
CN113918727B (zh) * 2021-09-16 2022-12-09 西南交通大学 一种基于知识图谱和迁移学习的施工项目知识转移方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121750B (zh) * 2016-11-30 2022-07-08 西门子公司 一种模型处理方法、装置及机器可读介质
CN107094321B (zh) * 2017-03-31 2020-04-28 南京邮电大学 一种基于多智能体q学习的车载通信mac层信道接入方法
CN109324875B (zh) * 2018-09-27 2022-07-26 杭州电子科技大学 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109740741B (zh) * 2019-01-09 2023-07-25 上海理工大学 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法
CN109739090A (zh) * 2019-01-15 2019-05-10 哈尔滨工程大学 一种自主式水下机器人神经网络强化学习控制方法

Also Published As

Publication number Publication date
CN110488781A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110488781B (zh) 一种基于迁移强化学习的生产系统调度方法
Qiang et al. Reinforcement learning model, algorithms and its application
Ravichandar et al. Learning Partially Contracting Dynamical Systems from Demonstrations.
CN110520868A (zh) 分布式强化学习
CN114603564B (zh) 机械臂导航避障方法、系统、计算机设备及存储介质
Hoque et al. Lazydagger: Reducing context switching in interactive imitation learning
CN105159096A (zh) 一种基于粒子群算法的冗余度空间机械臂关节力矩优化方法
CN110053052B (zh) 多层som异构焊接机器人的任务分配与路径规划方法
Shahid et al. Learning continuous control actions for robotic grasping with reinforcement learning
CN116542445A (zh) 基于深度强化学习的装备制造车间智能调度方法和系统
CN112348314A (zh) 一种带起重机的分布式柔性车间调度方法及系统
Widmann et al. Human motion prediction in human-robot handovers based on dynamic movement primitives
CN112286149A (zh) 一种考虑起重机运输过程的柔性车间调度优化方法及系统
Ryan et al. RL-TOPS: An Architecture for Modularity and Re-Use in Reinforcement Learning.
Feng et al. Flexible job shop scheduling based on deep reinforcement learning
Chu et al. Comparison of deep reinforcement learning algorithms in a robot manipulator control application
Chen et al. An overview of robust reinforcement learning
Wang et al. Expert system-based multiagent deep deterministic policy gradient for swarm robot decision making
Marchesini et al. Double deep q-network for trajectory generation of a commercial 7dof redundant manipulator
CN116604532A (zh) 一种上肢康复机器人智能控制方法
Song et al. Smooth actor-critic algorithm for end-to-end autonomous driving
CN113503885B (zh) 一种基于采样优化ddpg算法的机器人路径导航方法及系统
Bashir et al. Inverse reinforcement learning through max-margin algorithm
CN105005842B (zh) 一种用于准时制生产的并行设备调度策略
Maderna et al. Robust real-time monitoring of human task advancement for collaborative robotics applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant