CN114800510B - 考虑产品零件失效特征的工业机器人拆解序列规划方法 - Google Patents
考虑产品零件失效特征的工业机器人拆解序列规划方法 Download PDFInfo
- Publication number
- CN114800510B CN114800510B CN202210487771.2A CN202210487771A CN114800510B CN 114800510 B CN114800510 B CN 114800510B CN 202210487771 A CN202210487771 A CN 202210487771A CN 114800510 B CN114800510 B CN 114800510B
- Authority
- CN
- China
- Prior art keywords
- disassembly
- parts
- disassembled
- model
- industrial robot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 31
- 230000002787 reinforcement Effects 0.000 claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 25
- 239000003795 chemical substances by application Substances 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013461 design Methods 0.000 claims description 6
- 239000012636 effector Substances 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims 1
- 239000002699 waste material Substances 0.000 abstract description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000009977 dual effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004064 recycling Methods 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000005299 abrasion Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1679—Programme controls characterised by the tasks executed
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Numerical Control (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种考虑产品零件失效特征的工业机器人拆解序列规划方法,包括以下步骤:构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型;建立拆解信息模型;构建面向工业机器人拆解序列规划问题的环境模型,确定各要素与拆解序列规划模型的映射关系;构建决策网络与目标网络的双层网络结构,并引入经验回放机制,对神经网络进行训练得到较优的网络模型;最后通过深度强化学习得到的决策网络模型获取拆解产品的最优拆解序列。本发明考虑了零件失效特征对产品拆解过程的影响关系,公开了用于求解工业机器人拆解序列规划问题的深度强化学习方法,解决了在状态空间较大时的维数灾难问题,有助于提升工业机器人拆解废旧产品的效率。
Description
技术领域
本发明涉及拆解序列规划技术,更具体地说,涉及一种考虑产品零件失效特征的工业机器人拆解序列规划方法。
背景技术
再制造是将废旧产品通过一系列手段恢复成与新品质量相同的工业过程,而拆解是再制造过程中的关键环节,合理回收利用废旧产品能提高资源利用率,有助于实现循环经济和可持续发展战略。相比于传统的人工拆解废旧产品,使用工业机器人进行大批量的拆解活动能够提高拆解效率,根据废旧产品的特点设计合理的拆解序列则能更大程度地提高拆解与再制造的效率,加快工业生产活动进程。
通常情况下,用于再制造的废旧产品一般是自身状态存在各种失效特征的产品,比如常见的失效特征有磨损、断裂、变形等。在进行工业机器人拆解序列规划时,由于工业机器人的灵活性问题,需要在拆解产品信息建模时考虑废旧产品存在各类失效特征的问题,在拆解实际过程中,这些具有失效特征的零件会对拆解模型产生影响。拆解产品中失效零件会延长拆解其本身的拆解时间,在某种程度上也会影响拆解其他与其有接触或者存在约束关系的零件的拆解时间。
现有的拆解规划方法多是对状态良好的理想产品的拆解,而忽略了对产品失效特征影响因素的考虑。现有的规划方法主要集中在群智能优化算法,存在着可能陷入局部最优解的问题,通过搜索方法找到的序列与实际的最优序列存在较大的差异。
发明内容
本发明要解决的技术问题在于,提供一种考虑产品零件失效特征的工业机器人拆解序列规划方法,其目的是面向拆解过程考虑废旧产品零件的失效特征的影响,构建工业机器人拆解序列规划环境模型,采用深度强化学习方法对工业机器人拆解序列问题求解。
本发明解决其技术问题所采用的技术方案是:构造一种考虑零件失效特征的工业机器人拆解序列规划方法,用于获取工业机器人拆解废旧产品时的拆解产品最优拆解序列,包括以下步骤:
1)构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型;
2)建立具备失效特征产品的拆解信息模型;
3)构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型,确定深度强化学习中的各要素与拆解序列规划模型的映射关系;
4)构建决策网络与目标网络的双层网络结构,并引入经验回放机制,对神经网络进行训练得到较优的网络模型;
5)通过深度强化学习得到的决策网络模型获取拆解产品的最优拆解序列。
按上述方案,所述步骤1)中构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型,零件的关联关系模型由三元组表示:
M=<A,B,T>
式中:A为具备失效特征的零件集,A={a1,a2,...,am},ai表示第i个零件失效;B为被失效零件影响到的零件集,也就是对A集中存在关联关系的零件集,B={B1,B2,...,Bm},Bi表示对应于受到失效零件ai的影响的零件集;T为被失效零件影响零件集的拆解时间集合,T={T1,T2,...,Tm},Ti表示受影响零件集Bi所对应的拆解时间集。
按上述方案,所述步骤2)中拆解产品的拆解信息模型的建立依赖于拆解产品的三维结构、空间位置等信息,通过以下内容建立拆解产品的拆解信息模型:
(1)将拆解产品的各零件进行编号,得到1~N个零件;
(2)借助demo3D软件或者其他三维模型软件标定坐标轴位置,从而得到每个零件拆解点的相对坐标位置信息;
(3)结合零件拆解点的坐标位置信息及工业机器人执行拆解操作过程中末端执行器的移动速度t,通过各坐标点的欧氏距离除以移动速度得到工业机器人的移动时间;
(4)根据拆解产品零件之间的三维结构关系,构建N*N的拆解优先矩阵DPM表示零件之间的拆解约束关系,比如DPM(i,j)=1表示零件j对零件i有干涉关系,即零件i必须在零件j拆解之后才能拆除,若DPM(i,j)=0,则零件i和零件j的拆解顺序无要求。
按上述方案,所述步骤3)中的构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型,确定深度强化学习中的各要素与拆解序列规划模型的映射关系,其状态空间、动作空间、奖励函数定义具体如下:
假设工业机器人拆解的产品零件个数为N个,则状态空间为:
S={s|s=(d1,d2,d3,...,dN,c1,c2,c3,...,cN)}
其中di表示第i个零件是否被拆解的状态信息,如果为1则表示该零件已经被拆解,如果为0则表示该零件还没被拆解;ci表示当前正在被拆解的零件的状态,如果为1则表示正在被拆解,为0表示不是正被拆解。
动作空间为:A={1,2,3,...,N},表示可以选择进行拆解的1~N号零件的动作,在进行拆解序列规划进行学习过程中每一步可选动作并不包含整个动作空间,而会受到步骤2)中拆解优先约束矩阵DPM的约束,且要除去已经被拆解的零件。
奖励函数的设计一般与优化目标有关,本发明以产品零件总拆解时间T最短为优化目标,该拆解时间由三部分组成,分别是:拆解该零件的基本拆解时间Tbasic、拆解不同零件之间切换时间Tchange、考虑零件失效特征对其关联零件的影响时间Tfault。T=Tbasic+Tchange+Tfault,其中每个零件基本拆解时间设置为固定常数;
拆解不同零件之间切换时间Tchange包括拆解工具切换的时间Ttool_change、拆解方向切换的时间Tdirection_change、工业机器人末端执行器在不同拆解点之间的移动时间Tmoving;Tchange=Ttool_change+Tdirection_change+Tmoving,失效特征对其关联零件的影响时间在步骤1)中已经定义。
深度强化学习中的奖励函数的设计一般与优化目标高度相关,其目标是使得到的累积奖励最大化,而拆解序列规划目标是为了使拆解时间最短,深度强化学习中的智能体每次选择下一步拆解的零件这个动作之后,将即时奖励R设置为:
R=TC-Tchange-Tfault
其中,TC为固定常数,可以取值为最大的拆解不同零件之间切换时间,Tchange为拆解不同零件之间切换时间,Tfault为考虑零件失效特征对其关联零件的影响时间。
按上述方案,所述步骤4)中的决策网络与目标网络的双网络结构,其中决策网络是用来评估当前状态动作的价值函数,目标网络用来产生目标函数,从而通过与目标函数、价值函数相关的损失函数来更新决策网络中的参数以得到较优的决策网络模型。经验回放机制降低了智能体与环境交互得到训练样本的相关性,通过记忆池的形式缓存过去的经验和目前的经验,且使得样本可重用,能够提高学习效率。
按上述方案,基于深度强化学习算法的整体流程具体如下:
(1)初始化各学习参数及策略网络、目标网络,并启动学习情节;
(2)根据产品拆解信息模型,工业机器人拆解序列规划环境给虚拟拆解机器人智能体一个初始状态st;
(3)虚拟拆解机器人智能体观察当前环境,根据策略π选择动作at并执行;
(4)环境基于智能体给出的动作at以及当前状态st给出一个奖励r,并且更新工业机器人拆解序列规划环境状态,进入下一个状态st+1;
(5)状态更新后重复步骤(3)~(4)的过程,并且虚拟拆解机器人智能体在探索和利用过程中学习到经验,并且不断调整自己的策略网络参数。
(6)完成指定的学习情节数之后,虚拟拆解机器人智能体学习到了选择动作的相对最优的策略,最终通过最优决策网络模型获取最优的考虑零件失效特征的工业机器人拆解序列,结束学习流程。
实施本发明的考虑产品零件失效特征的工业机器人拆解序列规划方法,具有以下有益效果:
1、本发明考虑了废旧产品的失效特征,面向拆解过程构建了产品失效零件对其他零件的关联关系模型,使拆解过程更符合实际拆解情况;
2、本发明构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型,为之后使用深度强化学习算法求解最优序列方案提供了环境基础;
3、本发明结合零件失效特征对其他零件的关联关系模型,采用深度强化学习方法得到最佳拆解序列方案,以提高拆解废旧产品的效率,降低拆解盲目性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明实施考虑零件失效特征的工业机器人拆解序列规划方法流程示意图;
图2为面向拆解过程建立产品失效零件对其他零件的关联关系模型的流程图;
图3为深度强化学习的双网络结构与记忆回放机制示意图;
图4为基于深度强化学习算法解决拆解序列规划优化的整体流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明是一种考虑零件失效特征的工业机器人拆解序列规划方法,其优化目标是在考虑零件失效特征对零件拆解时间的影响的前提下,减少总的拆解时间。如图1所示,该优化方法主要包括以下步骤:
1)构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型;
2)建立具备失效特征产品的拆解信息模型;
3)构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型,确定深度强化学习中的各要素与拆解序列规划模型的映射关系;
4)构建决策网络与目标网络的双层网络结构,并引入经验回放机制,对神经网络进行训练得到较优的网络模型;
5)通过深度强化学习得到的决策网络模型获取拆解产品的最优拆解序列。
以上步骤为本发明实施例从拆解产品的失效特征及其他拆解信息到得到最优拆解序列方案的步骤。
其中,步骤1)中构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型,如图2所示,采用专家评判法对零件失效等级程度进行打分和评判,得到不同程度失效零件对其他零件拆解时的影响时间。
首先,由于零件具有多种失效特征,包括磨损、断裂、变形、老化、松动等形式,而且不同零件的失效程度不同,本身具有模糊性,先用模糊语言对零件的各类失效程度进行描述和量化。根据零件的失效严重程度,分为五种等级:基本无失效、轻度失效、一般失效、中度失效、重度失效,对应的评价值为0、2、4、6、8。
S=[基本无失效,轻度失效,一般失效,中度失效,重度失效]=[0,2,4,6,8]
通过专家评判法给失效零件进行打分评判,分值越高,说明零件的失效程度越严重,对拆解过程的影响越大,从而对拆解其周围其他零件的拆解时间影响越大。
如果有N个专家,评判结果为:
P=[p1,p2,p3,p4,p5]
其中ni为选择对应失效程度的专家数目。
则失效程度量化结果为Fres=SgPT,结果越大,对其他零件拆解时间的影响也越大,失效特征对其关联零件的影响时间为:
Tfault=w*Fres
其中w为失效程度量化值与影响时间的权重。
基于上述计算的失效特征对其关联零件的影响时间,构建零件的关联关系模型,由三元组表示:
M=<A,B,T>
式中:A为具备失效特征的零件集,A={a1,a2,...,am},ai表示第i个零件失效;B为被失效零件影响到的零件集,也就是对A集中存在关联关系的零件集,B={B1,B2,...,Bm},Bi表示对应于受到失效零件ai的影响的零件集;T为被失效零件影响零件集的拆解时间集合,T={T1,T2,...,Tm},Ti表示受影响零件集Bi所对应的拆解时间集。
在步骤2)中建立具备失效特征产品的拆解信息模型,包括拆解优先约束矩阵和工业机器人拆解移动时间矩阵。
拆解优先约束矩阵DPM表示各个零件之间的约束关系,矩阵中的1表示该行对应的零件会被该列对应零件所约束,必须先拆该列对应的零件再拆该行对应的零件,矩阵中的0表示无约束关系。因此,初始时的全零行对应的零件可被拆解。
工业机器人拆解移动时间矩阵与各个零件拆解点的坐标位置信息及工业机器人执行拆解操作过程中末端执行器的移动速度t有关,通过各坐标点的欧氏距离除以移动速度得到工业机器人的移动时间。
在步骤3)中,通过以下内容面向工业机器人拆解序列规划问题的深度强化学习中的环境模型:
基于深度强化学习的训练环境主要包括虚拟拆解工业机器人智能体状态空间、动作空间以、拆解序列规划策略以及回报函数。
状态空间是指在拆解产品的过程中,智能体可以观察到环境里面拆解产品的状态,包括当前每个零件是否已经被拆解的状态信息,以及当前工业机器人正在拆解的零件。假设工业机器人拆解的产品零件个数为N个,则状态空间为:
S={s|s=(d1,d2,d3,...,dN,c1,c2,c3,...,cN)}
其中di表示第i个零件是否被拆解的状态信息,如果为1则表示该零件已经被拆解,如果为0则表示该零件还没被拆解;ci表示当前正在被拆解的零件的状态,如果为1则表示正在被拆解,为0表示不是正被拆解。
动作空间是指智能体根据观察到的当前环境状态信息之后采取哪些动作,在工业机器人拆解序列规划环境中,将动作空间定义为拆解产品中所有零件的编号,则动作空间为:
A={1,2,3,...,N}
表示可以选择进行拆解的1~N号零件的动作,在进行拆解序列规划进行学习过程中每一步可选动作并不包含整个动作空间,而会受到步骤2)中拆解优先约束矩阵DPM的约束,且要除去已经被拆解的零件。
拆解序列规划策略为根据环境状态选择动作的方法。初始化环境状态,此时包括工业机器人进行拆解的起始拆解点,得到当前状态对应的Q值,通过贪婪策略选择Q值最大的动作,执行该动作将状态转移到下一步状态,并且通过该动作得到奖励值。
奖励函数的设计一般与优化目标有关,本发明以拆解时间T最短为优化目标,该拆解时间T由三部分组成,分别是:拆解该零件的基本拆解时间Tbasic、拆解不同零件之间切换时间Tchange、考虑零件失效特征对其关联零件的影响时间Tfault,则
T=Tbasic+Tchange+Tfault
其中每个零件基本拆解时间Tbasic设置为固定常数;拆解不同零件之间切换时间Tchange包括拆解工具切换的时间Ttool_change、拆解方向切换的时间Tdirection_change、工业机器人末端执行器在不同拆解点之间的移动时间Tmoving;Tchange=Ttool_change+Tdirection_change+Tmoving,失效特征对其关联零件的影响时间在步骤1)中已经定义。
深度强化学习中的奖励函数的设计一般与优化目标高度相关,其目标是使得到的累积奖励最大化,而拆解序列规划目标是为了使拆解时间最短,深度强化学习中的智能体每次选择下一步拆解的零件这个动作之后,将即时奖励R设置为:
R=TC-Tchange-Tfault
其中,TC为固定常数,可以取值为最大的拆解不同零件之间切换时间,Tchange为拆解不同零件之间切换时间,Tfault为考虑零件失效特征对其关联零件的影响时间。
步骤4)中的深度强化学习的双网络结构与记忆回放机制如图3所示。
采用决策网络与目标网络的双网络结构,其中决策网络是用来评估当前状态动作的价值函数,目标网络用来产生目标函数,从而通过与目标函数、价值函数相关的损失函数来更新决策网络中的参数以得到较优的决策网络模型。
经验回放机制降低了智能体与环境交互得到训练样本的相关性,通过记忆池的形式缓存过去的经验和目前的经验,且使得样本可重用,能够提高学习效率。
在步骤4)中的基于深度强化学习算法解决拆解序列规划优化的流程如图4所示:
(1)初始化各学习参数及策略网络、目标网络,并启动学习情节。初始化记忆池,设置记忆池容量,从记忆池中抽取样本的批大小batch_size,学习率α,累计回报折扣因子γ,策略网络与目标网络同步间隔sync_step。
(2)根据产品拆解信息模型,工业机器人拆解序列规划环境给虚拟拆解机器人智能体一个初始状态st。因为拆解产品零件之间存在优先约束关系,第一个可以拆解的零件设置为从不受其他零件约束的零件集中随机选取。
(3)虚拟拆解机器人智能体观察当前环境,根据策略π选择动作at并执行。智能体的观测值为当前环境状态信息,包括拆解产品各零件是否被拆解的状态以及当前正在被拆解的零件位置。
(4)环境基于智能体给出的动作at以及当前状态st给出一个奖励r,并且更新工业机器人拆解序列规划环境状态,进入下一个状态st+1;
通过选择动作并经过策略网络决策之后得到一系列(st,at,st+1,rt)元组,并将(st,at,st+1,rt)存储到记忆池中,并从记忆池中随机抽取一小批样本(sj,aj,sj+1,rj);根据样本(sj,aj,sj+1,rj),累计回报的折扣因子γ以及损失函数更新价值估计网络的神经网络参数,利用梯度下降法更新策略网络的神经网络参数,每经过一定的情节数,根据目标网络更新的权重系数将价值模型的神经网络参数传递到价值目标网络的神经网络参数中。
其中,st表示拆解产品的状态信息,at表示当前选择拆解产品的零件的动作,st+1表示下一步中拆解产品的状态信息,rt表示拆解工业机器人的奖励值;其中,sj表示采样样本中拆解产品的状态信息,aj表示采样样本中当前选择拆解产品的零件的动作,sj+1表示采样样本中下一步中拆解产品的状态信息,rj表示采样样本中拆解工业机器人的奖励值。
(5)状态更新后重复步骤(3)~(4)的过程,并且虚拟拆解机器人智能体在探索和利用过程中学习到经验,并且不断调整自己的策略网络参数。
(6)完成指定的学习情境数之后,虚拟拆解机器人智能体学习到了选择动作的相对最优的策略,最终通过最优决策网络模型获取最优的考虑零件失效特征的工业机器人拆解序列,结束学习流程。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (3)
1.一种考虑产品零件失效特征的工业机器人拆解序列规划方法,其特征在于,包括以下步骤:
1)构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型;
2)建立具备失效特征产品的拆解信息模型;
3)根据关联关系模型和拆解信息模型构建面向工业机器人拆解序列规划问题的深度强化学习中的拆解序列规划模型,确定深度强化学习中的各要素与拆解序列规划模型的映射关系;
4)构建决策网络与目标网络的双层网络结构,并引入经验回放机制,对神经网络进行训练得到决策网络模型;
5)通过深度强化学习得到的决策网络模型获取拆解产品的最优拆解序列;
所述步骤1)中构建面向拆解过程的产品失效零件对其他零件拆解时间的关联关系模型,零件的关联关系模型由三元组表示:M=<A,B,T>
式中:A为具备失效特征的零件集,A={a1,a2,...,am},ai表示第i个零件失效;B为被失效零件影响到的零件集,也就是对A集中存在关联关系的零件集,B={B1,B2,...,Bm},Bi表示对应于受到失效零件ai的影响的零件集;T为被失效零件影响零件集的拆解时间集合,T={T1,T2,...,Tm},Ti表示受影响零件集Bi所对应的拆解时间集;
所述步骤2)中拆解产品的拆解信息模型的建立依赖于拆解产品的三维结构、空间位置信息,通过以下方法建立产品的拆解信息模型:
(1)将拆解产品的各零件进行编号,得到1~N个零件;
(2)借助Demo3D软件或者其他三维模型软件标定坐标轴位置,从而得到每个零件拆解点的相对坐标位置信息;
(3)结合零件拆解点的坐标位置信息及工业机器人执行拆解操作过程中末端执行器的移动速度t,通过各坐标点的欧氏距离除以移动速度得到工业机器人的移动时间;
(4)根据拆解产品零件之间的三维结构关系,构建N*N的拆解优先矩阵DPM表示零件之间的拆解约束关系,DPM(i,j)=1表示零件j对零件i有干涉关系,即零件i必须在零件j拆解之后才能拆除,若DPM(i,j)=0,则零件i和零件j的拆解顺序无要求;
所述步骤3)中的构建面向工业机器人拆解序列规划问题的深度强化学习中的环境模型,确定深度强化学习中的各要素与拆解序列规划模型的映射关系,各要素中的状态空间、动作空间、奖励函数定义具体如下:
假设工业机器人拆解的产品零件个数为N个,则状态空间为:
S={s|s=(d1,d2,d3,...,dN,c1,c2,c3,...,cN)}
其中di表示第i个零件是否被拆解的状态,如果为1则表示该零件已经被拆解,如果为0则表示该零件还没被拆解;ci表示当前正在被拆解的零件的状态,如果为1则表示正在被拆解,为0表示不是正被拆解;
动作空间为:A={1,2,3,...,N},表示可以选择进行拆解的1~N号零件的动作,在进行拆解序列规划进行学习过程中每一步可选动作并不包含整个动作空间,而会受到步骤2)中拆解优先约束矩阵DPM的约束,且要除去已经被拆解的零件;
奖励函数的设计与优化目标有关,以拆解时间最短为优化目标,该拆解时间由三部分组成,分别是:拆解该零件的基本拆解时间Tbasic、拆解不同零件之间切换时间Tchange、考虑零件失效特征对其关联零件的影响时间Tfault;其中每个零件基本拆解时间设置为固定常数;拆解不同零件之间切换时间包括拆解工具切换的时间、拆解方向切换的时间、工业机器人末端执行器在不同拆解点之间的移动时间;深度强化学习中的奖励函数的与优化目标高度相关,其目标是使得到的累积奖励最大化,而拆解序列规划目标是为了使拆解时间最短,深度强化学习中的智能体每次选择下一步拆解的零件这个动作之后,将即时奖励设置为R=TC-Tchange-Tfault。
2.根据权利要求1所述的考虑产品零件失效特征的工业机器人拆解序列规划方法,其特征在于,所述步骤4)中的决策网络是用来评估当前状态动作的价值函数,目标网络用于产生目标函数,从而通过与目标函数、价值函数相关的损失函数来更新决策网络中的参数以得到较优的决策网络模型;经验回放机制降低了智能体与环境交互得到训练样本的相关性,通过记忆池的形式缓存过去的经验和目前的经验,且使得样本可重用。
3.根据权利要求2所述的考虑产品零件失效特征的工业机器人拆解序列规划方法,其特征在于,所述步骤5)中的基于深度强化学习算法的整体流程具体如下:
(1)初始化各学习参数及策略网络、目标网络,并启动学习情节;
(2)根据产品拆解信息模型,工业机器人拆解序列规划环境给虚拟拆解机器人智能体一个初始状态st;
(3)虚拟拆解机器人智能体观察当前环境,根据策略π选择动作at并执行;
(4)环境基于智能体给出的动作at以及当前状态st给出一个奖励r,并且更新工业机器人拆解序列规划环境状态,进入下一个状态st+1;
(5)状态更新后重复步骤(3)~(4)的过程,并且虚拟拆解机器人智能体在探索和利用过程中学习到经验,并且不断调整自己的策略网络参数;
(6)完成指定的学习情节数之后,虚拟拆解机器人智能体学习到了选择动作的相对最优的策略,最终通过最优决策网络模型获取最优的考虑零件失效特征的工业机器人拆解序列,结束学习流程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487771.2A CN114800510B (zh) | 2022-05-06 | 2022-05-06 | 考虑产品零件失效特征的工业机器人拆解序列规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487771.2A CN114800510B (zh) | 2022-05-06 | 2022-05-06 | 考虑产品零件失效特征的工业机器人拆解序列规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114800510A CN114800510A (zh) | 2022-07-29 |
CN114800510B true CN114800510B (zh) | 2024-01-23 |
Family
ID=82511778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210487771.2A Active CN114800510B (zh) | 2022-05-06 | 2022-05-06 | 考虑产品零件失效特征的工业机器人拆解序列规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114800510B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116619391B (zh) * | 2023-07-21 | 2023-10-24 | 北京凌禾科技有限公司 | 基于人机协作工作站的编程方法及自动化拆解方法 |
CN116976228B (zh) * | 2023-09-22 | 2024-02-02 | 武汉理工大学 | 退役机电产品双边拆解线任务规划方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003044547A (ja) * | 2001-07-31 | 2003-02-14 | Ricoh Co Ltd | 組立分解工程設計支援装置 |
WO2016172452A1 (en) * | 2015-04-23 | 2016-10-27 | Massachusetts Institute Of Technology | Discrete assemblers utilizing conventional motion systems |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
CN110796090A (zh) * | 2019-10-30 | 2020-02-14 | 武汉理工大学 | 基于循环神经网络的人机协作人体行为意图判别方法 |
CN110900138A (zh) * | 2019-11-27 | 2020-03-24 | 武汉理工大学 | 一种基于安全保障策略的人机协作拆卸线平衡优化方法 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
KR102181432B1 (ko) * | 2020-04-22 | 2020-11-24 | 김한수 | 지능형 로봇제어 시스템 |
CN113033072A (zh) * | 2021-02-08 | 2021-06-25 | 浙江大学 | 一种基于多头注意力指针网络的成像卫星任务规划方法 |
CN113780525A (zh) * | 2021-08-30 | 2021-12-10 | 中国人民解放军火箭军工程大学 | 一种基于深度学习的装备智能辅助训练与维修决策方法及装置 |
CN114048834A (zh) * | 2021-11-05 | 2022-02-15 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
EP3988270A1 (en) * | 2020-10-26 | 2022-04-27 | Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) | Machine learning method, machine learning device, and machine learning program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190184561A1 (en) * | 2017-12-15 | 2019-06-20 | The Regents Of The University Of California | Machine Learning based Fixed-Time Optimal Path Generation |
WO2020047657A1 (en) * | 2018-09-04 | 2020-03-12 | Kindred Systems Inc. | Real-time real-world reinforcement learning systems and methods |
US11775860B2 (en) * | 2019-10-15 | 2023-10-03 | UiPath, Inc. | Reinforcement learning in robotic process automation |
-
2022
- 2022-05-06 CN CN202210487771.2A patent/CN114800510B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003044547A (ja) * | 2001-07-31 | 2003-02-14 | Ricoh Co Ltd | 組立分解工程設計支援装置 |
WO2016172452A1 (en) * | 2015-04-23 | 2016-10-27 | Massachusetts Institute Of Technology | Discrete assemblers utilizing conventional motion systems |
CN108762281A (zh) * | 2018-06-08 | 2018-11-06 | 哈尔滨工程大学 | 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法 |
CN110418416A (zh) * | 2019-07-26 | 2019-11-05 | 东南大学 | 移动边缘计算系统中基于多智能体强化学习的资源分配方法 |
CN110796090A (zh) * | 2019-10-30 | 2020-02-14 | 武汉理工大学 | 基于循环神经网络的人机协作人体行为意图判别方法 |
CN110900138A (zh) * | 2019-11-27 | 2020-03-24 | 武汉理工大学 | 一种基于安全保障策略的人机协作拆卸线平衡优化方法 |
KR102181432B1 (ko) * | 2020-04-22 | 2020-11-24 | 김한수 | 지능형 로봇제어 시스템 |
CN111884213A (zh) * | 2020-07-27 | 2020-11-03 | 国网北京市电力公司 | 一种基于深度强化学习算法的配电网电压调节方法 |
EP3988270A1 (en) * | 2020-10-26 | 2022-04-27 | Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) | Machine learning method, machine learning device, and machine learning program |
CN113033072A (zh) * | 2021-02-08 | 2021-06-25 | 浙江大学 | 一种基于多头注意力指针网络的成像卫星任务规划方法 |
CN113780525A (zh) * | 2021-08-30 | 2021-12-10 | 中国人民解放军火箭军工程大学 | 一种基于深度学习的装备智能辅助训练与维修决策方法及装置 |
CN114048834A (zh) * | 2021-11-05 | 2022-02-15 | 哈尔滨工业大学(深圳) | 基于事后回顾和渐进式扩展的持续强化学习非完全信息博弈方法及装置 |
Non-Patent Citations (2)
Title |
---|
A machine learning approach for optimal disassembly planning;D.E. Grochowski,Y. Tang;International Journal of Computer Integrated Manufacturing;第22卷(第4期);第374-383页 * |
基于深度强化学习的双向装配系列规划;赵明慧,张雪波,郭宪,欧勇盛;控制理论与应用;第38卷(第12期);第1901-1910页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114800510A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114800510B (zh) | 考虑产品零件失效特征的工业机器人拆解序列规划方法 | |
Lyu et al. | The advance of reinforcement learning and deep reinforcement learning | |
CN107598928B (zh) | 基于语义模型的相机与机器人控制系统及其自动适配方法 | |
CN111241952B (zh) | 一种离散制造场景中的强化学习奖励自学习方法 | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
CN110968866B (zh) | 一种面向深度强化学习模型对抗攻击的防御方法 | |
CN112987664B (zh) | 一种基于深度强化学习的流水车间调度方法 | |
CN114611897B (zh) | 一种智能产线自适应动态调度策略选择方法 | |
CN112717415B (zh) | 一种基于信息瓶颈理论的强化学习对战游戏ai训练方法 | |
CN110427006A (zh) | 一种用于流程工业的多智能体协同控制系统及方法 | |
CN108108822A (zh) | 并行训练的异策略深度强化学习方法 | |
CN113784410B (zh) | 基于强化学习td3算法的异构无线网络垂直切换方法 | |
CN111160755B (zh) | 一种基于dqn的飞机大修车间实时调度方法 | |
CN113952733A (zh) | 一种多智能体自适应采样策略生成方法 | |
CN115081585A (zh) | 一种强化异构图神经网络的人机物协同异常状态检测方法 | |
CN112884152A (zh) | 一种基于对手模型和迭代推理的策略识别与重用方法 | |
Zhang et al. | Accelerating the deep reinforcement learning with neural network compression | |
CN116647459A (zh) | 一种多智能体协同进化的物联网拓扑鲁棒优化方法 | |
CN112488543A (zh) | 基于机器学习的智慧工地智能排班方法及系统 | |
CN115480585A (zh) | 一种搭载强化学习智能体的无人设备集群协同探索方法 | |
CN112306859B (zh) | 一种改进的软件自适应测试方法 | |
Wu et al. | Containerized distributed value-based multi-agent reinforcement learning | |
CN113344071A (zh) | 一种基于深度策略梯度的入侵检测算法 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 | |
CN111402576A (zh) | 一种基于深度学习的城市道路交通状态预测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |