CN115271568A

CN115271568A - 基于强化学习-群体进化混合算法的双边拆解线设计方法

Info

Publication number: CN115271568A
Application number: CN202211206939.4A
Authority: CN
Inventors: 任亚平; 陆鑫宇; 郭洪飞; 塔建; 王丽娜
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2022-11-01
Anticipated expiration: 2042-09-30
Also published as: CN115271568B

Abstract

本发明涉及基于强化学习‑群体进化混合算法的双边拆解线设计方法，所述方法包括以下步骤：S1、定义与、或优先关系；S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型；S3、初始化种群，建立外部档案储存Pareto较优解，建立R值表记录算子的改进效果，建立Q值表储存Q值；S4、采用群优化算法迭代更新外部档案，同时记录每代优化算子的对于目标的改进值；S5、重复步骤S3‑S4，进行多次强化学习获得稳定的R值表和Q值表；S6、根据Q值表终表，采用群优化算法迭代更新外部档案，获得稳定解。本发明采用了基于强化学习的群体进化算法解决拆卸任务之间复杂的约束类型，能高效获得稳定的最优解并保证解的多样性。

Description

基于强化学习-群体进化混合算法的双边拆解线设计方法

技术领域

本发明涉及废旧产品拆解的技术领域，具体而言，涉及基于强化学习-群体进化混合算法的双边拆解线设计方法。

背景技术

面对大量的EOL产品，拆解线是进行规模化拆解效率最高、经济性最好的方式，而在拆解线布局方面，主要可以分为直线型、U型以及双边型。对于一些在拆解过程中无法改变拆卸方向的大型复杂产品，直线型和U型拆解线难以发挥作用。而双边拆解线通过在线的两侧分别配置工作站，从而实现对受特定方向约束零件的高效拆卸。当前关于双边拆解线平衡问题的建模中，只考虑了拆卸任务之间单一的与优先关系，而忽略了或优先关系，在实际的拆解过程中，甚至存在与、或优先关系并存的复杂拆解关系。

目前关于双边拆解线平衡问题的求解方法有：遗传算法、蚁群优化算法、人工鱼群算法、人工蜂群算法等，这类启发式算法往往需要多次运行才能得到最优解，则不同次运行之间解的差异性很大，面对大规模优化问题难以输出稳定解。

发明内容

本发明的主要目的在于提供基于强化学习-群体进化混合算法的双边拆解线设计方法，以解决大型复杂产品拆卸过程中难以改变拆卸方向，以及现有方法对于待拆解产品之间错综复杂的约束关系求解效率不高的问题。

为达到上述目的，本发明提供了基于强化学习-群体进化混合算法的双边拆解线设计方法，该方法包括以下步骤：

S1、定义某拆卸任务和所有紧前优先任务之间的与、或优先关系；

S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型；

S3、初始化种群，建立外部档案储存Pareto较优解，建立R值表记录算子的改进效果，建立Q值表储存Q值；

S4、采用群优化算法迭代更新外部档案，同时记录每代优化算子的对于目标的改进值；

S5、重复步骤(3)-(4)，进行多次强化学习获得稳定的R值表和Q值表；

S6、根据Q值表终表，采用群优化算法迭代更新外部档案，获得稳定解；

具体的，S1中的定义某拆卸任务和所有紧前优先任务之间的与、或优先关系指的是：

与优先关系和或优先关系都是产生于某任务存在多个紧前优先任务的情况，但是与和或两种优先关系有明显区别：若某拆卸任务的所有紧前优先任务完成后，才可执行该拆卸任务，那么这些紧前优先任务与该拆卸任务形成与优先关系，在拆解优先图中，用实弧线连接该部分，同时称该拆卸任务的紧前优先任务为与优先任务，该拆卸任务为与滞后任务；

若某拆卸任务的任一紧前优先任务完成后，便可执行该拆卸任务，则这些紧前优先任务与该拆卸任务形成或优先关系，在拆解优先图中，用虚弧线连接该部分，同时这些紧前优先任务为或优先任务，该拆卸任务为或滞后任务。

具体的，S2中建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型包括：

S21、提出该数学模型的理论假设：一定时间内投放到拆解线上的都是同一类型的产品；零件的拆解顺序、拆解方向、拆解时间等信息是已知的；不考虑破坏性拆卸；忽略传送带在配对站之间的运动时间；

S22、设定双边拆解线平衡数学模型的参数和决策变量：

S221、参数包括：拆解任务索引；配对站索引；配对站方向索引；分配到左侧工作站的任务集合；分配到右侧工作站的任务集合；拆解线节拍时间；某任务的拆卸时间；分配到某工作站所有任务的拆卸时间之和；分配到某工作站的任务集合；某任务与优先任务集合；某任务的并行任务集合；某任务或优先任务的集合；开启一个配对站的成本；开启一个工作站的成本；某任务在分配到左侧工作站所有任务中的拆卸序号；某任务在分配到右侧工作站所有任务中的拆卸序号；某任务的危害指数；某任务的需求指数；

S222、决策变量包括：某任务被分配到配对站方向；某任务开始拆卸的时间；某任务完成拆卸的时间；某配对站是否被开启；某配对站某方向的工作站是否被开启；

S23、设定双边拆解线平衡数学模型的目标函数，包括：产线配置、经济效益和安全环保三个方面，且各目标函数均求最小值：

S231产线配置包括

和

，分别表示工作站的开启数量、工作量平滑指数和工作站配置成本；

S232、经济效益包括

和

，分别表示需求指标和拆解完成时间；

S233、安全环保是指

，表示降低对环境污染和工人健康损害的程度；

S24、设定双边拆解线数学模型的约束条件：

S241、一个任务只能在一个工作站完成；

S242、每个任务都必须在规定的节拍时间内完成；

S243、与优先关系的约束，所有与优先任务完成后才可以执行与滞后任务，那么与滞后任务的开始时间大于它所有的与优先任务的结束时间；

S244、并行任务的约束；如果任务i和j是并行关系，那么i和j间可以同时；

S245、或优先关系的约束：任意或优先任务完成后便可以执行或滞后任务，那么或滞后任务的开始时间大于它所有或优先任务的结束时间的最小值即可；

S246、工作站必须在节拍时间内完成所分配的所有任务；

S247、分配到同一工作站的任务的拆卸关系：由于一个工作站一次只能完成一个任务，所以按照分配到工作站的顺序依次执行任务；

S248、分配到相邻配对站的任务的拆卸关系：只有当前一配对站的的剩余时间无法满足当前任务拆卸时间的需求时，才会开启下一配对站，所以下一配对站的第一个任务的开始时间大于上一配对站最后一个任务的结束时间。

具体的，S3中初始化种群，建立外部档案储存Pareto较优解，建立R值表记录算子的改进效果，建立Q值表储存Q值包括：

S3中的初始化种群包括：

S31、设定种群规模M，最大迭代次数MAXGEN，交叉概率

，变异概率

，代沟

；

S32、初始化R-值表为空，Q-值表为空；

S33、根据拆解优先图，构建优先矩阵

用来描述任务类型，

中除对角线外的元素取0,1,2三个值，

，表示任务

是任务

的与优先任务；

，表示任务

是任务

的或优先任务；

表示任务

和任务

之间无紧前优先关系；而主对角线上元素的值表示该拆卸任务是否被拆除，若是，其值为-1，否则为0；

S34、根据优先矩阵P构建并行矩阵S用来表示当前状态下各任务紧前优先任务的个数，没有紧前优先任务的任务在当前状态下为最高级别，应首先拆除；

S35、创建空向量

用来储存拆卸序列，从矩阵S中选取当前级别最高的任务插入到

中，随后解除该拆卸任务的约束关系，更新矩阵P和S，并重复该步骤直到所有任务都已插入到中

；

S36、重复步骤S35，生成M个个体即完成种群的初始化。

具体的，S35中更新矩阵P包括：

S351、在矩阵P的主对角线上将该拆卸任务的值改为-1；

S352、将该拆卸任务所在行值为1的元素改为0；

S353、定位到该拆卸任务所在行值为2的位置，然后找到该值为2的元素所在列，将该列位置上所有为2的元素改为0。

S3中建立外部档储存Pareto较优解包括:

设置外部档案所储存的Pareto较优解的数量，当所求得的Pareto解的数量没达到设置的数量时，则全部储存入外部档案；否则，在历次迭代中，通过拥挤距离公式更新外部档案。

S3中建立R值表包括：

R值表是一个二维矩阵，行和列分别代表动作和算子对目标的改进值，其中动作包括五种优化算子：三种交叉算子和两种变异算子。

S3中建立Q值表包括：

Q值表是一个与R值表同阶的二维矩阵，但是Q值表的行和列分别表示状态和动作，状态指的是当前所处的迭代代数，而动作则与R值表一样指的是五种优化算子。

具体的，S4中采用群优化算法迭代更新外部档案，同时记录每代优化算子的对于目标的改进值包括：

S4中采用群优化算法更新迭代更新外部档案包括：

S41、将种群个体通过解码分配到各个工作站，并计算目标函数值；

S42、采用自适应的交叉和变异概率；

S43、采用三种交叉算子和两种变异算子更新种群；

S44、计算每种算子对于目标的改进值并写入R值表中；

S45、重复S41-S44，将每代得到的R值表与上代得到的R值表取均值作为当前的R值表。

具体的，S41中的通过解码分配到各个工作站如下：

S411、首先生成与

同阶的空向量

，

中的元素由0,1,2组成，0代表该拆卸任务不受拆解方向的约束，1代表拆解方向为左，2代表拆解方向为右；然后根据拆解优先图在

中对应位置填入

各任务的拆解方向；

S412、根据

识别当前需要解码的任务，然后通过

对应位置识别其方向编码，若为1，则分配至左工作站；若为2，则分配至右工作站；若为0，则分配至可以先开始的工作站；

S413、如果该方向工作站的空闲时间满足拆卸时间的要求，则安排在此工作站拆卸，否则开启下一个配对站并安排到相应方向的工作站；

S414、更新已开启的工作站数量、配对站数量以及当前解码任务所在工作站的空闲时间；

S415、如果还有未解码任务，则前往S412；否则，结束。

具体的，S42中采用自适应的交叉和变异概率包括：

交叉由于改变的基因位较多而具有更好的全局搜索能力，因此随着算法的收敛，交叉的优化作用越来越不明显；而变异因改动的基因位较少所以局部搜索能力更强，因此后期的改善效果更好。本发明采用随迭代次数而变化的交叉概率和变异概率。

具体的，S43采用三种交叉算子和两种变异算子更新种群包括：

S431、三种交叉算子，分别为优先保留交叉、两点交叉、单点交叉；

S432、两种变异算子，分别为向前插入、向后插入；

具体的，S431中的优先保留交叉为：

选择种群中相邻的两个个体，生成一个长度等于个体编码的向量

，里面的元素由1,2组成，交叉时按照

中的编码依次决定新个体的元素来自个体1还是个体2，并在选取后，在个体1和个体2中删除对应的元素，继续执行，直到所有的元素选取完毕。

具体的，S431中的两点交叉为：

选择种群中相邻的两个个体，在父代1中，随机生成两个不一样的变异点，位于变异点之外的编码则直接复制给子代，位于变异点之间的编码则按照父代2中的顺序复制到子代中。

具体的，S431中的单点交叉为：

选择种群中相邻的两个个体，在父代1中，随机生成一个变异点，位于变异点之前的编码则直接复制到子代中，位于变异点之后的编码按照父代2中的顺序复制到子代中。

具体的，S432中两种变异算子中对于变异范围的确定为：

变异范围指的是在编码序列中距离变异点最近的紧前优先任务和紧后优先任务所组成的区间。只有当变异区间存在变异点可插入的位置，且变异前、后的染色体不相等时才算变异成功，否则需要重新确定变异点。确定变异范围的方法具体如下：

首先随机生成变异点，并调用优先矩阵获取变异点的紧前优先任务和紧后优先任务，其中，紧前优先任务包括与优先任务和或优先任务。对于其多个与优先任务需要选取其在染色体上最大的序号

，而对于其多个或优先任务则需要确定其在染色体上最小的序号

，然后综合二者取较大的作为变异区间的左顶点

；紧后优先任务包括与滞后任务和或滞后任务，跟前序任务不同的是，对于这两种任务都需要确定最小的序号，然后取二者中较小的作为变异区间的右顶点

则是变异点的变异范围。

向前插入则是变异点在变异范围内选择变异点前的位置进行插入，向后插入则相反。

具体的，S5中Q值表终表通过增强学习公式确定：

其中

表示在当前状态

下采取动作

的可以获得的Q值，

表示由R-值表中状态

下采取行动

所获得的奖励值，

表示增强学习系数，

表示折扣系数，

表示在下一状态可以采取的动作中将能获得的Q值的最大值。

综上，本发明采用基于强化学习的群体进化算法解决考虑与或优先关系的双边拆解线设计问题，不仅综合考虑了大型废旧产品拆卸任务之间复杂的约束关系，更贴合实际生产实践，而且保证了解的多样性，提高了算法的鲁棒性，避免了不同次运行之间解的较大差异性，达到快速收敛。

附图说明

图1为双边拆解线工作示意图；

图2是本发明的实施方式提供的基于强化学习-群体进化混合算法的双边拆解线设计方法的流程框图；

图3为本发明的实施方式提供的包含8个拆卸任务的拆解优先图；

图4为本发明的实施方式提供的包含74个拆卸任务的某发动机的拆解优先图；

图5为本发明的实施方式提供的包含8个拆卸任务的求解方案；

图6为图5中求解方案1的任务分配结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为双边拆解线的工作示意图，工作站顺着传送带的方向均匀地分布于两侧，废旧产品从入口处投放到拆解线上，有节奏地经过不同的工作站进行拆卸，拆下来的零部件可以在站内储存，最后剩余部分则经出口流出。其中标记为L的零件只能在左工作站(LeftStation, LS)拆卸，标记为R的零件只能在右工作站(Right Station, RS)拆卸，且相对的左、右工作站组成一个配对站(Mated Station, MS)，而标记为E的零件可以被任意方向的工作站拆卸。

图2是本发明的实施方式提供的基于强化学习-群体进化混合算法的双边拆解线设计方法的流程框图。如图1所示，本发明的实施方式提供了基于强化学习-群体进化混合算法的双边拆解线设计方法，包括以下步骤：

S5、重复步骤S3-S4，进行多次强化学习获得稳定的R值表和Q值表；

图3为本发明的实施方式提供的包含8个拆卸任务的拆解优先图和图4为本发明的实施方式提供的包含74个拆卸任务的某发动机的拆解优先图。以图3和图4为具体实施例，进一步说明本发明提供的对于基于强化学习-群体进化混合算法的双边拆解线设计方法。

步骤S1中定义某拆卸任务和所有紧前优先任务之间的与、或优先关系具体指的是：

与优先关系和或优先关系都是产生于某任务存在多个紧前优先任务的情况，但是与和或两种优先关系有明显区别：若某拆卸任务的所有紧前优先任务完成后，才可执行该拆卸任务，那么这些紧前优先任务与该拆卸任务形成与优先关系；如图3和图4所示，由实线连接的部分代表箭尾任务与箭头任务存在与优先关系，并称前者是后者的与优先任务，后者是前者的与滞后任务，所有与优先任务完成后才可以执行与滞后任务；

若某拆卸任务的任一紧前优先任务完成后，便可执行该拆卸任务，则这些紧前优先任务与该拆卸任务形成或优先关系；如图3和图4所示，由虚线连接的部分代表箭尾任务与箭头任务存在或优先关系，并称前者是后者的或优先任务，后者是前者的或滞后任务，任一或优先任务完成后就可以执行或滞后任务。

步骤S2中建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型具体包括：

S22、设定双边拆解线平衡数学模型的参数和决策变量；

一种可行的实施方式中，参数和决策变量的建立如下表所示：

索引下标

参数列表

决策变量

S231产线配置包括

和

（1）

（2）

（3）

S232、经济效益包括

和

，分别表示需求指标和拆解完成时间；

（4）

（5）

S233、安全环保是指

，表示降低对环境污染和工人健康损害的程度；

（6）

S24、设定双边拆解线数学模型的约束条件：

S241、一个任务只能在一个工作站完成；

（7）

S242、每个任务都必须在规定的节拍时间内完成；

（8）

S243、与优先关系的约束；

（9）

j是i的与优先任务，那么i的开始时间大于它所有的与优先任务的结束时间。

S244、并行任务的约束；

（10）

如果任务i和j是并行关系，那么i和j的开始时间可以同时。

S245、或优先关系的约束；

（11）

任务j拆卸完成后就可以执行任务i，所以任务i的开始时间在任务j完成时间之后即可。

S246、工作站必须在节拍时间内完成所分配的所有任务；

（12）

S247、分配到同一工作站的任务的拆卸关系；

（13）

由于一个工作站一次只能完成一个任务，所以按照分配到工作站的顺序依次执行任务。

S248、分配到相邻配对站的任务的拆卸关系。

（14）

只有当前一配对站的的剩余时间无法满足当前任务拆卸时间的需求时，才会开启下一配对站，所以下一配对站的第一个任务的开始时间大于上一配对站最后一个任务的结束时间。

步骤S3中初始化种群，建立外部档案储存Pareto较优解，建立R值表记录算子的改进效果，建立Q值表储存Q值具体包括：

S3中的初始化种群包括：

S31、设定种群规模M=10，最大迭代次数MAXGEN=20，交叉概率

，变异概率

，代沟

；

S32、初始化R-值表为空，Q-值表为空；

S33、根据拆解优先图，构建优先矩阵用来描述任务类型，

中除对角线外的元素取0，1,2三个值，

，表示任务

是任务

的与优先任务；

，表示任务

是任务

的或优先任务；

表示任务

和任务

之间无紧前优先关系；而主对角线上元素的值表示该任务是否被拆除，若是，其值为，否则为0。

图3对应的优先矩阵P如下：

S34、根据优先矩阵P构建并行矩阵S用来表示当前状态下各任务紧前优先任务的个数，没有紧前优先任务的任务在当前状态下为最高级别，应首先拆除，S33中优先矩阵P对应的并行矩阵S如下：

S35、创建空向量

中，随后解除该任务的约束关系，更新矩阵P和S，并重复该步骤直到所有任务都已插入到中；

首先选择任务8插入到

中

，更新后的P和S如下：

S36、重复步骤S35，生成M个个体即完成种群的初始化。

其中一个个体的编码如下：

具体的，S35中更新矩阵P包括：

S351、在矩阵P的主对角线上将该任务的值改为-1；

S352、将该任务所在行值为1的元素改为0；

S353、定位到该任务所在行值为2的位置，然后找到该值为2的元素所在列，将该列位置上所有为2的元素改为0。

S3中建立外部档储存Pareto较优解包括：

设置外部档案所储存的Pareto较优解的数量，当所求得的Pareto解的数量没达到设置的数量时，则全部储存入外部档案；否则，在历次迭代中，通过拥挤距离公式更新外部档案：

（15）

其中

和

分别是获得的非支配解集的极端解和边界解之间的欧几里得距离，

是所有

的平均距离。N为外部档案中Pareto解的数量，di为第i个Pareto解的欧几里得距离。

S3中建立R值表包括：

R值表是一个二维矩阵，行和列分别代表当前迭代代数和算子对目标的改进值，其中动作包括五种优化算子：三种交叉算子和两种变异算子。

R值表

S3中建立Q值表包括：

Q值表是一个与R值表同阶的二维矩阵，其行和列分别表示状态和动作，状态指的是当前所处的迭代代数，而动作则与R值表一样指的是五种优化算子。

Q值表

具体的，步骤S4中采用群优化算法迭代更新外部档案，同时记录每代优化算子的对于目标的改进值包括：

S4中采用群优化算法更新迭代更新外部档案包括：

S42、采用自适应的交叉和变异概率；

S43、采用三种交叉算子和两种变异算子更新种群；

S44、计算每种算子对于目标的改进值并写入R值表中；

具体的，S41中的通过解码分配到各个工作站如下：

S411、首先生成与同阶的空向量

，

中的元素由0,1,2组成，0代表该任务不受拆解方向的约束，1代表拆解方向为左，2代表拆解方向为右；然后根据拆解优先图在

中对应位置填入

各任务的拆解方向；

S412、根据

识别当前需要解码的任务，然后通过

S415、如果还有未解码任务，则前往S412；否则，结束。

具体的，S42中采用自适应的交叉和变异概率包括：

交叉由于改变的基因位较多而具有更好的全局搜索能力，因此随着算法的收敛，交叉的优化作用越来越不明显；而变异因改动的基因位较少所以局部搜索能力更强，因此后期的改善效果更好。本发明采用随迭代次数变化的交叉概率

和变异概率

，具体如下：

其中n表示当前迭代次数，N为总迭代次数。

S431、三种交叉算子，分别为优先保留交叉、两点交叉、单点交叉。

S432、两种变异算子，分别为向前插入、向后插入。

具体的，S431中的优先保留交叉为：

，里面的元素由1,2组成，交叉时按照

例如，父代1的编码为

；

父代2的编码为：

；

执行的序列为：

；

则子代为：

；

具体的，S431中的两点交叉为：

例如，父代1的编码为

；

父代2的编码为：

；

交叉点为父代1的第3和第5基因点，即序列3 6 2 1，该序列在父代2中的顺序为63 1 2

则子代为：

；

具体的，S431中的单点交叉为：

例如，父代1的编码为

；

父代2的编码为：

；

交叉点为父代1的第5基因点，即序列2 1 7 5，该序列在父代2中的顺序为5 1 7 2

则子代为：

；

具体的，S432中两种变异算子中对于变异范围的确定为：

，然后综合二者取较大的作为变异区间的左顶点

则是变异点的变异范围。

以向前插入距离：如果父代1的编码为

；

变异点为第6个基因位，即编码为2 的基因，根据优先矩阵P，位于其最近的紧前和紧后任务为基因1和基因2，分别位于第3和第7个基因位，如果选择向前插入到第3个基因位之后，则变异后产生的子代为

，如果选择插入到第5个基因位之后则变异后的编码与变异前的编码没有变化，需要重现变异。

具体的，S5中Q值表终表通过增强学习公式确定：

(16)

其中

表示在当前状态

下采取动作

的可以获得的Q值，

表示由R-值表中状态

下采取行动

所获得的奖励值，

表示增强学习系数，

表示折扣系数，

表示在下一状态可以采取的动作中将能获得的Q值的最大值。

设定

，针对图4的实施例如果经过多次强化学习后的R值表终表如下：

R值表

则经过增强学习公式转化后的Q值表如下：

Q值表

具体的，S6根据Q值表终表，采用群优化算法迭代更新外部档案，获得稳定解包括：

图5为本发明的实施方式提供的包含8个拆卸任务的求解方案，图6为图5中求解方案1的任务分配结果。按照该Q值表，在每次迭代中选择具有最大Q值的动作对种群进行优化，最终求得的方案如图5所示，大括号内插入的数字0表示开启的工作站，所以位于0之后的数字则是该工作站所需执行的拆卸任务；以图5中求解方案1为例，绘制其拆卸任务的分配结果如图6所示，其中L代表左侧工作站执行的任务，R代表右侧工作站执行的任务。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于强化学习-群体进化混合算法的双边拆解线设计方法，包括以下步骤：

S6、根据Q值表终表，采用群优化算法迭代更新外部档案，获得稳定解。

2.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法，其特征在于：步骤S1中所述定义某拆卸任务和所有紧前优先任务之间的与、或优先关系包括：

若某拆卸任务的所有紧前优先任务完成后，才可执行该拆卸任务，那么这些紧前优先任务与该拆卸任务形成与优先关系；

若某拆卸任务的所有紧前优先任务中任一个完成后，便可执行该拆卸任务，则这些紧前优先任务与该拆卸任务形成或优先关系。

3.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法，其特征在于：步骤S2中所述建立以优化产线配置、经济效益和安全环保三个方面共六个指标的数学模型包括：

S21、提出该数学模型的理论假设：一定时间内投放到拆解线上的都是同一类型的产品；零件的拆解顺序、拆解方向、拆解时间是已知的；不考虑破坏性拆卸；忽略传送带在配对站之间的运动时间；

S22、设定双边拆解线平衡数学模型的参数和决策变量；

S23、设定双边拆解线平衡数学模型的目标函数，包括：产线配置、经济效益和安全环保三个方面，且各目标函数均求最小值；

S24、设定双边拆解线数学模型的约束条件。

4.如权利要求3所述的基于强化学习-群体进化混合算法的双边拆解线设计方法，其特征在于：所述目标函数包括：

（1）

（2）

（3）

（4）

（5）

（6）

和

属于产线配置，分别表示工作站的开启数量、工作量平滑指数和工作站配置成本；

和

属于经济效益，分别表示需求指标和拆解完成时间；

属于安全环保，表示降低对环境污染和工人健康损害的程度；

所述约束条件包括：

（7）

（8）

（9）

（10）

（11）

（12）

（13）

（14）

式(7)表示一个任务只能在一个工作站完成；式(8)表示任务必须在节拍时间内完成；式(9)表示与优先关系的约束；式(10)表示并行任务的约束关系；式(11)表示或优先关系的约束；式(12)表示工作站必须在节拍时间内完成分配的任务；式(13)表示分配到同一工作站的任务的拆卸关系；式(14)表示分配到相邻配对站的任务的拆卸关系；

i，j为拆解任务索引，I为拆解任务总数；m为配对站索引，M为配对站总数；k为配对站方向索引，k=1表示配对站左侧，k=2表示配对站右侧；(m，k)为第m个配对站k方向的工作站；L为分配到左侧工作站的任务集合，R为分配到右侧工作站的任务集合；CT为拆解线节拍时间；t_i为任务i的拆卸时间；T_mk为分配到工作站(m，k)所有任务的拆卸时间之和；I_mk为分配到工作站(m，k)的任务集合；A(i)为任务i的与优先任务集合；S(i)为任务i的并行任务集合；O(i)为任务i的或优先任务集合；ω₁为开启一个配对站的成本；ω₂为开启一个工作站的成本；L_i为任务i在分配到左侧工作站所有任务中的拆卸序号；L_j为任务j在分配到左侧工作站所有任务中的拆卸序号；R_i为任务i在分配到右侧工作站所有任务中的拆卸序号；R_j为任务j在分配到右侧工作站所有任务中的拆卸序号；H_i为任务i的危害指数；H_j为任务j的危害指数；D_i为任务i的需求指数；D_j为任务j的需求指数；X_imk为任务i被分配到配对站m的k方向，若任务i被分配到配对站m的k方向，则X_imk=1，否则X_imk=0；X_jmk为任务j被分配到配对站m的k方向，若任务j被分配到配对站m的k方向，则X_jmk=1，否则X_jmk=0；t_is为任务i开始拆卸的时间；t_if为任务i完成拆卸的时间；t_js为与任务i是并行关系的任务j开始拆卸的时间；t_jf为任务i的或优先任务j完成拆卸的时间；O_m为第m个配对站，若第m个配对站被开启，则O_m=1，否则O_m=0；O_mk为第m个配对站的k方向，若第m个配对站k方向的工作站被开启，O_mk=1，否则O_mk=0；K为工作站方向集合。

5.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法，其特征在于：步骤S3中所述初始化种群包括以下步骤：

S31、设定种群规模M，最大迭代次数MAXGEN，交叉概率