CN116690589B

CN116690589B - 基于深度强化学习的机器人u型拆解线动态平衡方法

Info

Publication number: CN116690589B
Application number: CN202310982424.1A
Authority: CN
Inventors: 汪开普; 唐红涛; 郭钧; 王磊; 杜百岗; 李益兵; 郭顺生
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-12-12
Anticipated expiration: 2043-08-07
Also published as: CN116690589A

Abstract

本发明提供了一种基于深度强化学习的机器人U型拆解线动态平衡方法，基于待拆解零部件信息，确定拆解任务之间的拆解优先关系和机器人的拆解时间；基于拆解线情况，设定预设条件和约束条件，以最小化拆解线的节拍为目标函数，建立以节拍为导向的混合整数线性规划模型；基于马尔科夫决策过程，确定机器人U型拆解线与深度强化学习网络的映射关系，以构建基于梯度下降法和经验回放的双层神经网络模型；基于状态信息、动态信息、拆解优先关系和拆解时间，对双层神经网络模型进行训练；通过训练好的双层神经网络模型对拆解任务进行求解，得到最优拆解线任务规划方案。泛化能力强，能够满足多种类型扰动下拆解线任务设计规划的需求。

Description

基于深度强化学习的机器人U型拆解线动态平衡方法

技术领域

本发明涉及拆解线涉及规划技术领域，具体涉及一种基于深度强化学习的机器人U型拆解线动态平衡方法。

背景技术

科技的飞速发展加快了产品更新换代的步伐、缩短了产品的使用周期，由此产生了大量废旧机电产品。废旧机电产品不仅占据着大量可再生资源，同时也含有对环境有害的零部件或材料。若不能及时规范地处理这些产品，不仅会造成资源浪费，也会污染环境。许多拆解企业均采用拆解线来拆解回收废旧机电产品，且采用机器人拆解和U型工位布局可以显著提高拆解效率，缩短产品的下线时间。

然而，机器人U型拆解线平衡问题是非确定性多项式NP难组合优化问题，拆解企业多是根据生产经验或简单启发式规则对拆解线任务进行规划，难以合理高效地规划大规模拆解任务，进而容易导致拆解线出现效率低、生产阻塞、生产波动等问题。

现有技术主要集中在确定环境下的元启发式方法开发上，元启发式方法通过迭代寻优的方式可以获得拆解线规划方案，然而元启发式方法难以利用同类问题之间的相似特征，当问题数据发生变化时需要重新迭代寻优，容易造成数据的浪费，即方法耗时较长，不具备泛化能力。当发生动态扰动事件时，如产品质量缺陷、动态扰动、拆解时间改变等，拆解特征数据随即变化，需要重新规划拆解线任务，现有技术难以对动态事件做出快速响应。因此，现有的机器人U型拆解线动态平衡方法在应对动态扰动时存在效率低、泛化能力弱等问题，成为本领域的技术难题。

发明内容

本发明提出了一种基于深度强化学习的机器人U型拆解线动态平衡方法，以解决现有技术中拆解线效率低和泛化能力弱的技术问题。

为解决上述技术问题，本发明提供了一种基于深度强化学习的机器人U型拆解线动态平衡方法，包括以下步骤：

步骤S1：基于待拆解零部件信息，确定拆解任务之间的拆解优先关系和机器人的拆解时间；

步骤S2：基于拆解线情况，设定预设条件和约束条件，以最小化拆解线的节拍为目标函数，建立以节拍为导向的混合整数线性规划模型；

步骤S3：基于马尔科夫决策过程，确定机器人U型拆解线与深度强化学习网络的映射关系，构建基于梯度下降法与经验回放的双层神经网络模型；

步骤S4：基于状态信息、动态信息、拆解优先关系和拆解时间，对所述双层神经网络模型进行训练；

步骤S5：通过训练好的双层神经网络模型对拆解任务进行求解，得到最优拆解线任务规划方案。

优选地，步骤S2中所述预设条件包括：

1）待拆解产品种类唯一，数量充足，零部件齐全；

2）忽略产线意外中断等情况；

3）零部件和拆解任务信息已确定，包括优先关系和拆解时间；

4）机器人数量一定，不同机器人在不同拆解任务上的作业时间不同；

5）每个机器人可以分配到任意的工位中，每个工位中最多只能分配一个机器人。

优选地，步骤S2中所述约束条件包括：

1）采用完全拆解模式，即所有任务都被拆解：

；

式中，W表示工位集合，w表示工位编号，任务i被分配到工位w时x_iw=1，否则x_iw=0，I表示拆解任务集合；

2）机器人分配约束：

；

式中，m表示机器人编号，M表示机器人集合，机器人m被分配到工位w时z_mw=1，否则z_mw=0；若工位w开启时y_w=1，否则y_w=0；

3）并非所有机器人都被分配：

；

4）节拍约束，即工位作业时间不超过节拍：

；

式中，t_im表示任务i在机器人m中的拆解时间，T_C表示拆解线的节拍；

5）工位开启与任务分配约束：

；

6）工位按顺序依次开启：

；

式中，|W|表示最大工位数；

7）任务优先约束：

；；

；

式中，若任务i是任务j的直接紧前任务p_ij=1，否则p_ij=0；任务j被分配到U型线入口侧u_j=1，否则u_j=0；

8）紧后任务被拆解时，其紧前任务必须被拆解：

。

优选地，步骤S3中所述深度强化学习网络的动作价值函数表达式为：

；

式中，s表示状态，a表示动作，θ表示训练参数，r表示执行动作a获得的奖励，γ表示奖励折扣因子，表示目标网络的状态值。

优选地，所述训练参数θ通过最小化目标Q值与预测Q值的损失函数来实现，采用梯度下降和误差反向传播来进行更新。

优选地，所述双层神经网络模型包括目标网络和预测网络，所述预测网络的参数每次迭代都进行更新，每C次迭代训练后将动作价值函数Q(s,a;θ)赋值给目标网络。

优选地，参数进行更新的表达式为：

；

式中，表示目标网络的动作值，s’表示目标网络的状态值，θ^－表示目标网络的参数。

优选地，步骤S3中所述马尔科夫决策过程的奖励函数的表达式为：

；

式中，t_k表示状态s_k的时刻，r_k表示t_k时的奖励，表示理论节拍。

优选地，步骤S4中进行训练的步骤包括：

步骤S41：输入拆解优先关系、机器人的拆解时间、状态信息和启发式动作规则；

步骤S42：初始化经验池D和容量N，初始化预测网络Q的参数θ和目标网络Q^-的参数θ^-，令θ^-=θ；

步骤S43：开始训练，令episode=1；

步骤S44：初始化状态s_t，计算拆解系统候选任务集Set，即动作的对象；

步骤S45：若，即拆解任务未分配完；

步骤S46：以ε贪婪规则随机选择动作a_t或a_t=argmax_aQ(s_t,a;θ)，确定机器人和任务；

步骤S47：在环境中执行动作a_t，计算奖励r_t，确定下一个状态s_t+1；

步骤S48：将(s_t,a_t,r_t,s_t+1)存储于经验池D中，更新候选任务集Set，令s_t=s_t+1；

步骤S49：当经验池D中样本达到设定阈值时，从中取出批量样本(s_j,a_j,r_j,s_j+1)；

步骤S410：当s_j+1为终止状态时目标网络值y_j=r_j，否则y_j=r_j+γmax_a'Q^-(s_j+1,a';θ^-)；

步骤S411：将(y_j–Q(s_j,a_j;θ))²作为损失函数，采用梯度下降法训练网络Q的参数θ；

步骤S412：每隔C步将网络Q的参数赋给目标网络Q^-，即θ^-=θ；

步骤S413：令episode=episode+1，重复步骤S44~步骤S412，直至episode达到迭代次数M即训练完成。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于深度强化学习的机器人U型拆解线动态平衡方法。

本发明的有益效果至少包括：

1）构建了机器人U型拆解线平衡问题的混合整数线性规划模型，将节拍作为优化目标，为拆解线的规划与评价提供了理论与技术支撑，可以有效提高拆解效率，缩短产品下线时间；

2）将深度强化学习与机器人U型拆解线平衡问题相结合，确定了深度强化学习中各要素与机器人拆解线之间的映射关系，为人工智能技术在组合优化问题中的应用提供了技术参考；

3）采用深度强化学习方法来解决机器人U型拆解线动态平衡问题，可以利用深度强化学习中训练好的神经网络模型对动态扰动下的拆解任务进行快速决策与规划，有效解决了现有技术中元启发式方法效率低、泛化能力弱的技术问题。

综上所述，本发明的方法解决拆解企业不确定环境下的拆解线动态规划问题，为拆解企业提供优质拆解方案，可以有效提高拆解企业的拆解效率，且本发明的方法泛化能力强，能够满足多种类型扰动下拆解线任务设计规划的需求。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的深度强化学习的神经网络模型示意图；

图3为本发明实施例的深度强化学习的神经网络结构示意图；

图4为本发明实施例的双层神经网络模型的训练框架示意图；

图5为本发明实施例的算法结果对比示意图；

图6为本发明实施例的双层神经网络模型的结果训练示意图；

图7为本发明实施例的双层神经网络模型的奖励值训练示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

在陈述实施例之前，先对机器人U型拆解线和深度强化学习进行阐述说明如下。

针对质量较好的废旧电子产品，可以采用机器人拆解作业。相较于手工拆解，机器人拆解精度高、柔性好，可以降低人工拆解成本，同时能够改善工人作业条件。当待拆解产品数量较大、拆解任务数较多时，可以构建机器人拆解线，即将机器人分布在拆解线上进行拆解作业。考虑到机器人操作的灵活性，可以构建U型布局拆解线，以提高机器人和产线的利用率。机器人可以分布在U型拆解线中间，可以同时对工位入口侧和出口侧的任务进行拆解作业，极大地缩短了车间中拆解线的长度。

数据驱动的智能拆解系统能实时收集拆解线上的拆解状态和数据，通过分析这些状态和数据，并结合已有的历史数据，可以获得拆解线上的最佳任务决策。针对机器人U型拆解线平衡问题，结合拆解启发式规则和深度强化学习方法，将拆解系统视为智能体，基于拆解状态和数据，对任务分配进行马尔科夫决策，在深度学习和强化学习的基础上，通过设计基于优先关系、作业时间和任务数的深度强化学习方法，以实现机器人U型拆解线平衡的智能决策与实时优化。

如图1所示，本发明实施例提供了一种基于深度强化学习的机器人U型拆解线动态平衡方法，包括以下步骤：

步骤S1：基于待拆解零部件信息，确定拆解任务之间的拆解优先关系和机器人的拆解时间。

具体地，根据产品的三维信息确定产品所有的零部件信息，根据零部件之间的关联性以及不可拆解性来划分拆解任务；根据产品的三维空间结构和拆解工艺顺序，确定拆解任务之间的拆解优先关系，根据优先关系来构造优先关系矩阵和优先关系图；根据不同机器人的类型与功率，确定不同机器人在拆解任务上的拆解时间数据。

步骤S2：基于拆解线情况，设定预设条件和约束条件，以最小化拆解线的节拍为目标函数，建立以节拍为导向的混合整数线性规划模型。

模型中的符号及角色变量的定位为：

i,j：拆解任务编号，拆解任务集合为I，i∈I，最大拆解任务数为|I|；

w：工位编号，工位集合为W，w∈W，最大工位数为|W|，其中|W|≤|I|

m：机器人编号，机器人集合为M，最大机器人数为|M|；

p_ij：任务之间的优先关系属性，若任务i是任务j的直接紧前任务，则p_ij=1，否则p_ij=0；

t_im：任务i在机器人m中的拆解时间；

x_iw：任务分配变量，若任务i被分配到工位w，则x_iw=1，否则x_iw=0；

y_w：工位开启状态变量，若工位w开启，则y_w=1，否则y_w=0；

T_C：拆解线的节拍，为非负变量；

z_mw：若机器人m被分配到工位w，则为1，否则为0；

u_i：若任务i被分配到U型线入口侧，则为1，否则任务i被分配到U型线出口侧，为0。

最小化拆解线的节拍为目标函数的表达式为：

；

本发明实施例中，针对确定的拆解环境，设定如下预设条件和约束条件。

预设条件包括：

1）待拆解产品种类唯一，数量充足，零部件齐全；

2）忽略产线意外中断等情况；

约束条件包括：

1）采用完全拆解模式，即所有任务都被拆解：

；

2）机器人分配约束：

；

3）并非所有机器人都被分配：

；

4）节拍约束，即工位作业时间不超过节拍：

；

5）工位开启与任务分配约束：

；

6）工位按顺序依次开启：

；

式中，|W|表示最大工位数；

7）任务优先约束：

；；

；

8）紧后任务被拆解时，其紧前任务必须被拆解：

。

步骤S3：基于马尔科夫决策过程，确定机器人U型拆解线与深度强化学习网络的映射关系，构建基于梯度下降法与经验回放的双层神经网络模型。

强化学习的数学基础是马尔科夫决策过程，通常用元组{S,A,P,γ,R}来表示，其中S表示拆解系统的状态空间，即所有拆解状态s的集合，s∈S；A表示拆解系统的动作空间，即所有拆解动作a的集合，a∈A；P表示状态转移概率函数，即从拆解状态s下选择拆解动作a的概率；γ表示奖励折扣因子；R表示奖励函数，即执行拆解动作a后获得的奖励r。强化学习的目的是给定一个马尔科夫决策过程，寻找从拆解状态s到拆解动作a之间的最优策略π，使得累计奖励的期望最大。

采用时间差分方法训练深度强化学习的神经网络，在Q学习的基础上，用网络Q(s,a;θ)来替代Q(s,a)，更新Q(s,a;θ)本质上是更新参数θ。深度强化学习的动作价值函数表达式为：

；

深度强化学习中，训练参数θ是通过最小化目标Q值与预测Q值的损失函数来实现的，采用梯度下降和误差反向传播来更新神经网络参数θ。在深度Q网络中存在结构相似、参数不同的两个神经网络，即目标网络Q(s',a';θ^-)和预测网络Q(s,a;θ)。Q(s,a;θ)的参数每次迭代都更新，每C次迭代训练后将Q(s,a;θ)的参数赋给Q(s',a';θ^-)，参数更新的表达式为：

；

本发明实施例中，拆解系统的状态空间S={s1,…,s8}是对状态变量的数值表征，反映了拆解系统环境的主要特点；拆解系统的状态特征涵盖优先矩阵状态、工位状态、机器人状态、任务状态、工位时间状态等8种状态信息，具体包括：

优先关系状态：

；

工位开启状态：

；

机器人分配状态：

；

任务分配状态：

；

工位的作业时间状态：

；

工位的空闲时间状态：

；

工位中任务数状态：

；

拆解任务时间状态：

。

本发明实施例中，拆解系统的动作空间A={a1,…,a11}是根据拆解状态来选择启发式动作，进而确定决策任务。因拆解任务信息与状态特征没有直接关系，若直接将任务分配作为拆解系统的动作，很难提高智能体的学习效率。参考求解车间调度问题的强化学习方法中的动作设计方式，将拆解线中的多种启发式规则设计为动作。拆解线环境中候选任务的主要动作有11种，分别从任务时长、工位作业时间、优先任务数、距离理论节拍距离等角度来指导候选任务的选择，具体包括：

优先选择拆解时间长的任务：

；

优先选择拆解时间短的任务：

；

优先选择使工位时间长的任务：

；

优先选择使工位时间短的任务：

；

优先选择紧前任务多的任务：

；

优先选择紧前任务少的任务：

；

优先选择紧后任务多的任务：

；

优先选择紧后任务少的任务：

；

优先选择使工位时间远离理论节拍的任务：

；

优先选择使工位时间接近理论节拍的任务：

；

随机选择一项任务：

；

其中，Set表示候选任务集，n^p表示紧前任务数，n^s表示紧后任务数，表示理论节拍，/>。

需要指出的是，为了确保结果的可行性并提高学习效率，候选任务并非随机任务，而是根据优先矩阵来选择。任务分配后实时更新优先矩阵，进而确定候选任务集，以确保所有动作均是可行的。

拆解系统的奖励函数r确定方法是：确定动作后即确定了选择分配的任务，任务在工位中分配时依然采用启发式规则，即将任务分配到使机器人总的作业时间最短的工位中。机器人U型拆解线平衡问题的优化目标是使节拍最小，等价于最大化工位时间与理论节拍的距离，则奖励函数可以表示为发生状态变化的时间段内工位时间与理论节拍的距离的增量，其表达式为：

；

具体地，神经网络的输入层是系统状态数据{s_k}，输出层是动作价值Q(s,a^k;θ)，连接输入层和输出层的是多个隐含层，激活层采用ReLU函数。神经网络模型如图2所示，包括输入层、隐含层和输出层，其中输入层中含8种拆解状态特征，输出层含11种启发式动作，隐含层含3个卷积层和1个全连接层，神经网络结构如图3所示。

步骤S4：基于状态信息、动态信息、拆解优先关系和拆解时间，对双层神经网络模型进行训练，神经网络模型训练的框架如图4所示。

具体地，包括以下步骤：

步骤S43：开始训练，令episode=1；

步骤S45：若，即拆解任务未分配完；

步骤S412：每隔C步将网络Q的参数赋给目标网络Q^-，即θ^-=θ；

步骤S413：令episode=episode+1，重复步骤S44~步骤S412，直至episode=M即训练完成。

具体地，确定动态事件类型，分析动态事件对拆解任务的影响，确定新的拆解任务时间；将发生动态事件时的拆解状态特征输入到训练好的深度强化学习目标神经网络模型中，得到新的拆解动态行为，即新的拆解任务，将其重新规划到拆解线中，得到新的拆解方案，完成动态扰动下拆解线任务的动态规划。

具体实施过程如下：

以一个笔记本电脑拆解线为例，构造机器人U型拆解线，分析本发明的方法在实际工程案例中的应用性能。该笔记本电脑含28个主要零部件，将其划分为42个主要拆解任务，共4个机器人进行拆解作业。采用Python语言在PyCharm平台上编写了深度强化学习的代码，算法运行环境为Intel Core i5-8400 CPU, 2.80GHz, 16 GB RAM, Windows 10 64位操作系统。深度强化学习的参数设置为：折扣因子γ=0.9，学习率α=0.0001，贪婪策略ε=0.9，训练次数M=1000，经验池容量D=2000，批量采样规模b=32，参数更新频率v=100。

采用本发明的深度强化学习DQN与11种单一启发式算法、3种元启发式算法以及3种强化学习算法进行对比。每种算法独立运行10次，记录每次结果中的最小节拍。绘制18种算法10次结果中最小节拍的箱线图，如图5所示。通过对比可知，本发明的深度强化学习方法的性能优于对比算法。

分析本发明的深度强化学习训练过程中节拍的变化如图6所示，训练过程中回报值的变化情况如图7所示。在训练早期，节拍值波动较大，神经网络不稳定；在训练中期，节拍不断趋向于近优值，且在训练300回合后即能求得近优值；在训练后期求得最小节拍值为60s的次数明显增多，且结果波动性较小。表明本发明的深度强化学习算法能够有效优化机器人U型拆解线平衡问题。

当发生扰动时，拆解时间发生了变化，需要重新规划拆解方案。采用本发明的深度强化学习DQN与上述3种元启发式算法以及3种强化学习算法进行对比，对比算法包括遗传算法GA、蚁群优化ACO、人工蜂群ABC、强化学习RL、深度强化学习DRL、双深度Q网络D2QN。记录新的拆解方案的节拍值与算法运行时间，对比结果如表1所示。对比可知，本发明的深度强化学习能够利用训练好的神经网络模型对动态扰动做出快速相应，在低于0.1秒时间内即可得到新的拆解方案，表明本发明的深度强化学习具有较好的泛化能力。虽然元启发式算法能够得到更小的节拍值，但算法运行耗时较长，效率低，不适用于动态环境下的拆解线任务规划问题。上述结论验证了本发明的深度强化学习能够有效解决现有机器人U型拆解线动态平衡方法效率低、泛化能力弱的技术问题。

；

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，仅表达了本发明的较佳实施例而已，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：包括以下步骤：

步骤S3：基于马尔科夫决策过程，确定机器人U型拆解线与深度强化学习网络的映射关系，以构建基于梯度下降法和经验回放的双层神经网络模型；

2.根据权利要求1所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：步骤S2中所述预设条件包括：

1）待拆解产品种类唯一，数量充足，零部件齐全；

2）忽略产线意外中断等情况；

3.根据权利要求1所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：步骤S2中所述约束条件包括：

1）采用完全拆解模式，即所有任务都被拆解：

；

2）机器人分配约束：

；

3）并非所有机器人都被分配：

；

4）节拍约束，即工位作业时间不超过节拍：

；

5）工位开启与任务分配约束：

；

6）工位按顺序依次开启：

；

式中，|W|表示最大工位数；

7）任务优先约束：

；；；

8）紧后任务被拆解时，其紧前任务必须被拆解：

。

4.根据权利要求1所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：步骤S3中所述深度强化学习网络的动作价值函数表达式为：

；

5.根据权利要求4所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：所述训练参数θ通过最小化目标Q值与预测Q值的损失函数来实现，采用梯度下降和误差反向传播来进行更新。

6.根据权利要求5所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：所述双层神经网络模型包括目标网络和预测网络，所述预测网络的参数每次迭代都进行更新，每C次迭代训练后将动作价值函数Q(s,a;θ)赋值给目标网络。

7.根据权利要求6所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：参数进行更新的表达式为：

；

式中，表示目标网络的动作值，s＇表示目标网络的状态值。

8.根据权利要求1所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：步骤S3中所述马尔科夫决策过程的奖励函数的表达式为：

；

9.根据权利要求1所述的一种基于深度强化学习的机器人U型拆解线动态平衡方法，其特征在于：步骤S4中进行训练的步骤包括：

步骤S43：开始训练，令episode=1；

步骤S45：若，即拆解任务未分配完；

步骤S412：每隔C步将网络Q的参数赋给目标网络Q^-，即θ^-=θ；

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于深度强化学习的机器人U型拆解线动态平衡方法。