CN110488781A - 一种基于迁移强化学习的生产系统调度方法 - Google Patents
一种基于迁移强化学习的生产系统调度方法 Download PDFInfo
- Publication number
- CN110488781A CN110488781A CN201910787766.1A CN201910787766A CN110488781A CN 110488781 A CN110488781 A CN 110488781A CN 201910787766 A CN201910787766 A CN 201910787766A CN 110488781 A CN110488781 A CN 110488781A
- Authority
- CN
- China
- Prior art keywords
- task
- state
- action
- target
- production system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013508 migration Methods 0.000 title claims abstract description 39
- 230000005012 migration Effects 0.000 title claims abstract description 38
- 230000009471 action Effects 0.000 claims abstract description 86
- 238000013507 mapping Methods 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 19
- 230000002787 reinforcement Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 4
- 230000009916 joint effect Effects 0.000 claims description 3
- 230000007786 learning performance Effects 0.000 abstract description 6
- 238000012546 transfer Methods 0.000 description 10
- 238000012353 t test Methods 0.000 description 6
- 238000000692 Student's t-test Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41865—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32252—Scheduling production, machining, job shop
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于迁移强化学习的生产系统调度方法,包括步骤:(1)定义生产系统的状态和动作;(2)生产系统调度问题Q学习建模;(3)建立生产调度案例库;(4)计算目标任务与源任务的任务相似度,匹配知识迁移的案例集;(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;(6)计算目标任务状态与案例集中案例的状态相似度,匹配知识迁移的案例;(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;(8)根据修正后的动作选择策略执行动作,更新状态和Q值表。本发明相对于Q学习提高了学习性能,有效解决了生产任务在线调度的实时性问题。
Description
技术领域
本发明属于智能机器人领域,特别涉及一种基于迁移强化学习的生产系统调度方法。
背景技术
随着信息技术、机器人技术的不断发展,机器人在工业生产上发挥着越来越重要的作用。与此同时,随着“工业4.0”和“中国制造2025”等主题的提出和发展,以及目前生产越来越趋向于小批量、个性化,制造周期越来越短,柔性智能化制造是我国制造业发展的必然趋势。柔性智能化制造的一个典型应用场景就是由智能决策中心、工业机器人、数控机床等组成的智能制造系统,智能决策中心的一个关键问题是生产系统的实时调度问题,需要在较短的时间内求解出生产系统中各工作单元和搬运机器人的动作时序,满足最小完工时间等优化目标。
当前求解对复杂生产调度问题主要采用基于人工智能的方法,虽然可以在可接受的求解时间内获得较优解,但仍需较多的计算时间,且当生产调度问题稍作改变时,需要重新求解。另一方面,生产系统中往往存在一些与当前任务相似的生产调度案例,这些案例往往包含对当前任务有帮助的信息。因此,研究一种利用已有的相似案例知识,加速求解生产调度策略的方法具有重大意义。
发明内容
为了解决上述技术问题,本发明提供了一种基于迁移强化学习的生产系统调度方法,可以利用已有的相似案例进行知识迁移,克服复杂生产调度策略求解效率低的问题。
本发明为实现上述目的采用以下的技术方案:
一种基于迁移强化学习的生产系统调度方法,包括如下步骤:
(1)定义生产系统的状态和动作;
(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;
(3)建立生产调度案例库;
(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;
(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;
(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;
(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;
(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。
进一步地,所述步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:
sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))
其中,二元组(mji,tji)表示工件Ji的状态,mji表示Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或 mji=ASk,若Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标。
进一步地,所述步骤(1)中,定义生产系统发生状态改变的时刻为AGV中任意一台在加工 /装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr的在tc时刻的动作arc定义如下:
其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;
生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:
ac=(a1c,a2c,…,aqc)。
进一步地,所述步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc:
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态 sc+1所需时间;K表示不小于所有Δti的正实数。
进一步地,所述步骤(3)中,建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成,其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
进一步地,所述步骤(4)中,定义任务相似度Similaritytask的计算如下:
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件 i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件ii 表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
进一步地,所述步骤(5)中,由于源任务案例建议的动作对应于源任务中的工件,而案例中工件采取的标记往往和目标任务中工件的标记不相同,若此时直接采取案例建议的动作,则在目标任务中该动作无意义,不能直接执行该动作,需建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
进一步地,所述步骤(6)中,计算目标任务状态与案例集中案例的状态相似度Similaritystate具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping:
其中,表示目标任务中工件所处的位置,表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping:
其中,表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
进一步地,所述步骤(7)中,在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值 Hc(sc,ac)的计算方法如下:
其中,η是用于调节启发函数值的正实数。
进一步地,所述步骤(7)中,在计算得到目标任务中所有可执行动作对应的启发函数值 Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
相比现有技术,本发明所提供的基于迁移强化学习的生产系统调度方法,利用案例知识进行迁移强化学习求解生产调度案例,相对于Q学习提高了学习性能,可实现比Q学习更快的求解效率,有效解决了生产任务在线调度的实时性问题。
附图说明
图1是本发明具体实施例中进行案例迁移Q学习的算法流程图。
图2a)-2c)是本发明具体实施例中生产系统及其不同时刻、状态示意图,其中,图2a)表示处于时刻t0,系统状态为s0时的生产系统;图2b)表示处于时刻t1,系统状态为s1时的生产系统态;图2c)表示处于时刻tT,系统状态为sT时的生产系统。
图3是本发明具体实施例中如图所示的生产系统各时刻状态向量示意图。
图4是本发明具体实施例中Q学习和案例Q学习的学习曲线对比示意图。
图5a)-5d)是本发明具体实施例中四个案例迁移Q学习和Q学习的t检验结果示意图,其中,图5a)表示从案例库C1迁移的t检验结果;图5b)表示从案例库C2迁移的t检验结果;图 5c)表示从案例库C3迁移的t检验结果;图5d)表示从案例库C4迁移的t检验结果。
具体实施方式
下面结合附图以及具体实施例对本发明做进一步说明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
如图1所示,一种基于迁移强化学习的生产系统调度方法,包括如下步骤:
S1、定义生产系统的状态和动作,包括如下步骤:
S11、为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合。以如图2所示的生产系统为例,其中图2a)、图2b) 和图2c)所示的生产系统状态向量如图3所示;
S12、定义生产系统中各AGV动作,进一步将各AGV的联合动作作为生产系统的联合动作。以图2a)中生产系统执行的动作a0为例,序号为R1、Rr、Rq的各AGV搬运的工件分别为J1、J2和J3,因此对于生产系统动作a0=(a10,a20,…,aq0)有a10=J1,ar0=J2和aq0=J3;
S2、生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数:包括如下步骤:
S21、采用步骤S11的方法定义状态空间;
S22、采用步骤S12的方法定义动作空间;
S23、根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc:
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态 sc+1所需时间;K表示不小于所有Δti的正实数。
S3、建立生产调度案例库。建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成。其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
S4、计算目标任务与各源任务的任务相似度Similaritytask:
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件i 表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件 ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
本实施例的计算结果如表1所示
表1各源任务与目标任务的相似度
S5、建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
S6、计算当前目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例,具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping:
其中,表示目标任务中工件所处的位置,表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping:
其中,表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
S7、将选出案例的动作映射为目标任务的动作,计算目标任务中各动作对应的启发函数值 Hc(sc,ac),修正动作选择策略,实现知识迁移,具体地,本步骤在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值Hc(sc,ac)的计算方法如下:
其中,η是用于调节启发函数值的正实数;
在计算得到目标任务中所有可执行动作对应的启发函数值Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
S8、根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。
首先采用Q学习求解生产调度策略,得到如图4所示的学习曲线“WithoutTransferring(WT)”,然后分别基于源任务Source1、Source2、Source3和Source4进行案例迁移Q学习,分别得到如图4所示的学习曲线T1、T2、T3和T4。
为了评估案例迁移Q学习加速求解最优策略的性能,选取评价指标为time tothreshold(智能体在一轮训练中的累积奖赏达到指定奖赏阈值所需要的学习时间)。取平均累积奖赏阈值 rthreshold=633,比较上述案例迁移Q学习曲线达到rthreshold的所需的训练轮数Episode和耗时。
根据图4,不同案例迁移Q学习曲线达到rthreshold的time to threshold值(Episode和耗时) 及其相对于Q学习的耗时减少率如表2所示(本文用于比较运行时间的程序均使用Python语言编写,使用Python3.5解释器运行,系统环境为Windows 10专业版,硬件环境为2.40GHz 的Intel Core i3-2370M处理器及6GB内存)。
表2案例迁移Q学习与Q学习的性能对比
对图4、表1和表2进行分析,有以下结论:
(1)根据表1和表2,可知案例迁移Q学习性能随源任务和目标任务相似度的增大而提高;
(2)根据表2可知,相对于Q学习,采用不同的源任务案例库进行案例迁移Q学习均可不同程度提升目标任务的学习性能,减少到达给定奖赏阈值的训练耗时,最低减少56.41%,最高减少82.95%。
为验证提出的面向生产调度的案例迁移Q学习算法对求解调度策略的加速作用的统计学意义,对各案例迁移Q学习曲线和曲线WT分别进行t检验,计算每个Episode的p值。当p≤0.05时,可认为位于当前Episode处的曲线有显著差异;当p>0.05时,则认为曲线在当前Episode处无显著差异。对WT和T1、WT和T2、WT和T3、WT和T4使用t检验的结果分别如图5a)-图5d)所示。
根据图5,各案例迁移Q学习曲线相对于曲线WT显著改善的Episode区间及其在整个训练过程中的占比如表3所示。
表3案例迁移Q学习曲线显著改善的区间及其占比
对表1和表3分析可知,案例迁移Q学习曲线显著改善区间占比随任务相似度的增大而增大。
本发明是一种高效的生产系统调度方法,提出的案例迁移Q学习算法达到预期目标的时间均不同程度小于Q学习所需的时间,说明案例迁移Q学习均不同程度提高了学习性能,加快了生产任务调度的求解效率。
显然,上述实施例仅仅是为了更清楚的表达本发明技术方案所作的举例,而非对本发明实施方式的限定。对于本领域技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,在不脱离本发明构思的前提下,这些都属于本发明的保护范围。因此本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于迁移强化学习的生产系统调度方法,其特征在于,包括如下步骤:
(1)定义生产系统的状态和动作;
(2)生产系统调度问题Q学习建模,包括生产系统调度问题的状态空间、动作空间和动作奖赏函数;
(3)建立生产调度案例库;
(4)计算目标任务与源任务的任务相似度Similaritytask,匹配知识迁移的案例集;
(5)建立源任务与目标任务的动作映射关系,将源任务的动作知识迁移到目标任务;
(6)计算目标任务状态与案例集中案例的状态相似度Similaritystate,匹配知识迁移的案例;
(7)将选出案例的动作映射为目标任务的动作,并修正动作选择策略,实现知识迁移;
(8)根据修正后的动作选择策略执行动作,更新状态和Q值表,实现生产任务在线实时调度。
2.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(1)中,为完整描述生产系统中工件、AGV、加工单元和机器人装配单元的状态,将生产系统状态定义为各工件和AGV的状态集合,系统在tc时刻的状态向量sc表示为:
sc=((mj1,tj1),(mj2,tj2),…,(mjn,tjn),(x1,y1),(x2,y2),…(xq,yq))
其中,二元组(mji,tji)表示工件Ji的状态,mji表示Ji所处的位置,tji表示当前该工件距离完成当前工序的时间;若Ji位于加工单元Mj或机器人装配单元ASk,则分别有mji=Mj或mji=ASk,若Ji正处于被序号为Rr的AGV搬运过程中,则有mji=Rr,tji=0;若Ji已与其他工件装配成为新的工件,则令mji=-1,tji=0;若Ji正在装配,则令mji=-1,tji=-1;二元组(xr,yr)表示AGV在生产系统中相对于世界坐标系的坐标。
3.根据权利要求2所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(1)中,定义生产系统发生状态改变的时刻为AGV中任意一台在加工/装配单元或卸载站放下工件的时刻,则AGV需要在系统初始状态和系统状态发生改变时执行下一步联合动作,当生产系统中存在需要搬运的工件时,对于刚放下工件的AGV,则选择即将搬运的工件并执行动作;对于正在搬运工件的AGV,则不执行新的动作,选择保持原动作不变;当生产系统中不存在需要搬运的工件时,则所有AGV不执行新的动作,保持原来状态不变,对Rr的在tc时刻的动作arc定义如下:
其中,arc=Ji表示Rr执行搬运工件Ji的动作,arc=0表示Rr不执行新的动作,保持当前动作不变;
生产系统在tc时刻的动作ac即为此时各AGV的联合动作,定义如下:
ac=(a1c,a2c,…,aqc)。
4.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(2)中,生产系统调度的Q学习状态空间S和动作空间A采用所定义的所述生产系统的状态和动作,并根据最小化最大完工时间的优化目标,定义在tc时刻执行动作后获得的奖赏值rc:
其中,Δti=ti+1-ti,表示从状态si转移至状态si+1所需时间;Δtc表示从状态sc转移至状态sc+1所需时间;K表示不小于所有Δti的正实数。
5.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(3)中,建立的生产调度案例库中每个源任务的案例集由任务描述和案例两部分组成,其中,任务描述包括各工件的装配约束关系及各工件的工序时间表,案例采用“状态-动作”对的数据结构存储生产调度策略。
6.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(4)中,定义任务相似度Similaritytask的计算如下:
其中,ntarget表示目标任务的工件个数,nsource表示案例集对应的源任务的工件个数,条件i表示案例集的源任务各工件的加工/装配工序及工序时间与目标任务相应工件的一致,条件ii表示案例集的源任务各工件的装配约束关系与目标任务相应工件的装配约束关系一致。
7.根据权利要求6所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(5)中,建立从源任务到目标任务的动作映射:
atarget=fA(asource)=matchResulti[vsource]
其中,atarget表示目标任务的动作,asource表示源任务中的动作,fA表示从源任务到目标任务的动作映射,matchResulti是记录了所述条件ii中一种源任务和目标任务匹配关系的字典,可根据节点的源任务工件标识查询与其匹配的源任务工件标识,vsource表示源任务中的工件。
8.根据权利要求1所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(6)中,计算目标任务状态与案例集中案例的状态相似度Similaritystate具体包括步骤:
首先将目标任务状态starget映射为与源任务状态向量维度相同的系统状态向量starget-mapping:
其中,表示目标任务中工件所处的位置,表示当前该工件距离完成当前工序的时间,xr,target和yr,target分别表示AGV的XY坐标;
然后将系统状态向量starget-mapping的时间分量进行归一化,得到向量ptarget-mapping:
其中,表示当前工件的完工进度;
最后根据向量ptarget-mapping和psource计算状态相似度Simlaritystate,其中psource表示归一化后的源任务案例状态向量,计算方式与ptarget-mapping相同。
9.根据权利要求3所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(7)中,在将源任务案例中的动作映射为目标任务的动作后,首先计算目标任务中所有可执行动作对应的启发函数值Hc(sc,ac),其中,tc时刻下启发函数值Hc(sc,ac)的计算方法如下:
其中,η是用于调节启发函数值的正实数。
10.根据权利要求9所述基于迁移强化学习的生产系统调度方法,其特征在于,所述步骤(7)中,在计算得到目标任务中所有可执行动作对应的启发函数值Hc(sc,ac)后,可对ε-贪心策略进行如下修正:
其中,ξ表示控制启发函数Hc(sc,ac)影响的权重;
通过对ε-贪心策略的修正,将源任务案例中的动作知识迁移至目标任务中,实现对目标任务中动作选择的启发。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910787766.1A CN110488781B (zh) | 2019-08-26 | 2019-08-26 | 一种基于迁移强化学习的生产系统调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910787766.1A CN110488781B (zh) | 2019-08-26 | 2019-08-26 | 一种基于迁移强化学习的生产系统调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110488781A true CN110488781A (zh) | 2019-11-22 |
CN110488781B CN110488781B (zh) | 2021-09-21 |
Family
ID=68553935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910787766.1A Expired - Fee Related CN110488781B (zh) | 2019-08-26 | 2019-08-26 | 一种基于迁移强化学习的生产系统调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110488781B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110932913A (zh) * | 2019-12-13 | 2020-03-27 | 深圳先进技术研究院 | 一种基于案例库匹配的自适应服务迁移方法及装置 |
CN112016811A (zh) * | 2020-08-04 | 2020-12-01 | 四叶草(苏州)智能科技有限公司 | 一种基于强化学习的agv智能调度系统及方法 |
CN112150088A (zh) * | 2020-11-26 | 2020-12-29 | 深圳市万邑通信息科技有限公司 | 一种吞吐柔性智能装配物流路径规划方法及系统 |
CN113918727A (zh) * | 2021-09-16 | 2022-01-11 | 西南交通大学 | 一种基于知识图谱和迁移学习的施工项目知识转移方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107094321A (zh) * | 2017-03-31 | 2017-08-25 | 南京邮电大学 | 一种基于多智能体q学习的车载通信mac层信道接入方法 |
US20180150068A1 (en) * | 2016-11-30 | 2018-05-31 | Siemens Aktiengesellschaft | Model processing method and apparatus, and machine-readable medium |
CN109324875A (zh) * | 2018-09-27 | 2019-02-12 | 杭州电子科技大学 | 一种基于强化学习的数据中心服务器功耗管理与优化方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109739090A (zh) * | 2019-01-15 | 2019-05-10 | 哈尔滨工程大学 | 一种自主式水下机器人神经网络强化学习控制方法 |
-
2019
- 2019-08-26 CN CN201910787766.1A patent/CN110488781B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180150068A1 (en) * | 2016-11-30 | 2018-05-31 | Siemens Aktiengesellschaft | Model processing method and apparatus, and machine-readable medium |
CN107094321A (zh) * | 2017-03-31 | 2017-08-25 | 南京邮电大学 | 一种基于多智能体q学习的车载通信mac层信道接入方法 |
CN109324875A (zh) * | 2018-09-27 | 2019-02-12 | 杭州电子科技大学 | 一种基于强化学习的数据中心服务器功耗管理与优化方法 |
CN109740741A (zh) * | 2019-01-09 | 2019-05-10 | 上海理工大学 | 一种结合知识转移的强化学习方法及其应用于无人车自主技能的学习方法 |
CN109739090A (zh) * | 2019-01-15 | 2019-05-10 | 哈尔滨工程大学 | 一种自主式水下机器人神经网络强化学习控制方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110932913A (zh) * | 2019-12-13 | 2020-03-27 | 深圳先进技术研究院 | 一种基于案例库匹配的自适应服务迁移方法及装置 |
CN110932913B (zh) * | 2019-12-13 | 2022-12-13 | 深圳先进技术研究院 | 一种基于案例库匹配的自适应服务迁移方法及装置 |
CN112016811A (zh) * | 2020-08-04 | 2020-12-01 | 四叶草(苏州)智能科技有限公司 | 一种基于强化学习的agv智能调度系统及方法 |
CN112150088A (zh) * | 2020-11-26 | 2020-12-29 | 深圳市万邑通信息科技有限公司 | 一种吞吐柔性智能装配物流路径规划方法及系统 |
CN113918727A (zh) * | 2021-09-16 | 2022-01-11 | 西南交通大学 | 一种基于知识图谱和迁移学习的施工项目知识转移方法 |
CN113918727B (zh) * | 2021-09-16 | 2022-12-09 | 西南交通大学 | 一种基于知识图谱和迁移学习的施工项目知识转移方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110488781B (zh) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110488781B (zh) | 一种基于迁移强化学习的生产系统调度方法 | |
CN110520868A (zh) | 分布式强化学习 | |
Qiang et al. | Reinforcement learning model, algorithms and its application | |
CN114603564B (zh) | 机械臂导航避障方法、系统、计算机设备及存储介质 | |
CN116542445A (zh) | 基于深度强化学习的装备制造车间智能调度方法和系统 | |
Darvish et al. | Interleaved online task planning, simulation, task allocation and motion control for flexible human-robot cooperation | |
CN108694502A (zh) | 一种基于XGBoost算法的机器人制造单元自适应调度方法 | |
CN112348314A (zh) | 一种带起重机的分布式柔性车间调度方法及系统 | |
CN110014428A (zh) | 一种基于强化学习的时序逻辑任务规划方法 | |
CN112286149A (zh) | 一种考虑起重机运输过程的柔性车间调度优化方法及系统 | |
Svegliato et al. | A model-free approach to meta-level control of anytime algorithms | |
Ryan et al. | RL-TOPS: An Architecture for Modularity and Re-Use in Reinforcement Learning. | |
CN116604532A (zh) | 一种上肢康复机器人智能控制方法 | |
Feng et al. | Flexible job shop scheduling based on deep reinforcement learning | |
Wang et al. | Expert system-based multiagent deep deterministic policy gradient for swarm robot decision making | |
Chu et al. | Comparison of deep reinforcement learning algorithms in a robot manipulator control application | |
Chen et al. | An overview of robust reinforcement learning | |
Hu et al. | Robot time optimal trajectory planning based on improved simplified particle swarm optimization algorithm | |
Marchesini et al. | Double deep q-network for trajectory generation of a commercial 7dof redundant manipulator | |
Rottmann et al. | Adaptive autonomous control using online value iteration with gaussian processes | |
CN116068900A (zh) | 面向多非完整约束移动机器人的强化学习行为控制方法 | |
Xie et al. | A fuzzy neural controller for model-free control of redundant manipulators with unknown kinematic parameters | |
Leu et al. | Robust task planning for assembly lines with human-robot collaboration | |
CN114489055A (zh) | 基于时序逻辑的机器人多任务运动实现方法、介质及设备 | |
Hershkowitz et al. | Learning propositional functions for planning and reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210921 |