CN115271568A - 基于强化学习-群体进化混合算法的双边拆解线设计方法 - Google Patents

基于强化学习-群体进化混合算法的双边拆解线设计方法 Download PDF

Info

Publication number
CN115271568A
CN115271568A CN202211206939.4A CN202211206939A CN115271568A CN 115271568 A CN115271568 A CN 115271568A CN 202211206939 A CN202211206939 A CN 202211206939A CN 115271568 A CN115271568 A CN 115271568A
Authority
CN
China
Prior art keywords
task
disassembly
tasks
value
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211206939.4A
Other languages
English (en)
Other versions
CN115271568B (zh
Inventor
任亚平
陆鑫宇
郭洪飞
塔建
王丽娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202211206939.4A priority Critical patent/CN115271568B/zh
Publication of CN115271568A publication Critical patent/CN115271568A/zh
Application granted granted Critical
Publication of CN115271568B publication Critical patent/CN115271568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/30Administration of product recycling or disposal

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Sustainable Development (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于强化学习‑群体进化混合算法的双边拆解线设计方法,所述方法包括以下步骤:S1、定义与、或优先关系;S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;S5、重复步骤S3‑S4,进行多次强化学习获得稳定的R值表和Q值表;S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解。本发明采用了基于强化学习的群体进化算法解决拆卸任务之间复杂的约束类型,能高效获得稳定的最优解并保证解的多样性。

Description

基于强化学习-群体进化混合算法的双边拆解线设计方法
技术领域
本发明涉及废旧产品拆解的技术领域,具体而言,涉及基于强化学习-群体进化混合算法的双边拆解线设计方法。
背景技术
面对大量的EOL产品,拆解线是进行规模化拆解效率最高、经济性最好的方式,而在拆解线布局方面,主要可以分为直线型、U型以及双边型。对于一些在拆解过程中无法改变拆卸方向的大型复杂产品,直线型和U型拆解线难以发挥作用。而双边拆解线通过在线的两侧分别配置工作站,从而实现对受特定方向约束零件的高效拆卸。当前关于双边拆解线平衡问题的建模中,只考虑了拆卸任务之间单一的与优先关系,而忽略了或优先关系,在实际的拆解过程中,甚至存在与、或优先关系并存的复杂拆解关系。
目前关于双边拆解线平衡问题的求解方法有:遗传算法、蚁群优化算法、人工鱼群算法、人工蜂群算法等,这类启发式算法往往需要多次运行才能得到最优解,则不同次运行之间解的差异性很大,面对大规模优化问题难以输出稳定解。
发明内容
本发明的主要目的在于提供基于强化学习-群体进化混合算法的双边拆解线设计方法,以解决大型复杂产品拆卸过程中难以改变拆卸方向,以及现有方法对于待拆解产品之间错综复杂的约束关系求解效率不高的问题。
为达到上述目的,本发明提供了基于强化学习-群体进化混合算法的双边拆解线设计方法,该方法包括以下步骤:
S1、定义某拆卸任务和所有紧前优先任务之间的与、或优先关系;
S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;
S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;
S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;
S5、重复步骤(3)-(4),进行多次强化学习获得稳定的R值表和Q值表;
S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解;
具体的,S1中的定义某拆卸任务和所有紧前优先任务之间的与、或优先关系指的是:
与优先关系和或优先关系都是产生于某任务存在多个紧前优先任务的情况,但是与和或两种优先关系有明显区别:若某拆卸任务的所有紧前优先任务完成后,才可执行该拆卸任务,那么这些紧前优先任务与该拆卸任务形成与优先关系,在拆解优先图中,用实弧线连接该部分,同时称该拆卸任务的紧前优先任务为与优先任务,该拆卸任务为与滞后任务;
若某拆卸任务的任一紧前优先任务完成后,便可执行该拆卸任务,则这些紧前优先任务与该拆卸任务形成或优先关系,在拆解优先图中,用虚弧线连接该部分,同时这些紧前优先任务为或优先任务,该拆卸任务为或滞后任务。
具体的,S2中建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型包括:
S21、提出该数学模型的理论假设:一定时间内投放到拆解线上的都是同一类型的产品;零件的拆解顺序、拆解方向、拆解时间等信息是已知的;不考虑破坏性拆卸;忽略传送带在配对站之间的运动时间;
S22、设定双边拆解线平衡数学模型的参数和决策变量:
S221、参数包括:拆解任务索引;配对站索引;配对站方向索引;分配到左侧工作站的任务集合;分配到右侧工作站的任务集合;拆解线节拍时间;某任务的拆卸时间;分配到某工作站所有任务的拆卸时间之和;分配到某工作站的任务集合;某任务与优先任务集合;某任务的并行任务集合;某任务或优先任务的集合;开启一个配对站的成本;开启一个工作站的成本;某任务在分配到左侧工作站所有任务中的拆卸序号;某任务在分配到右侧工作站所有任务中的拆卸序号;某任务的危害指数;某任务的需求指数;
S222、决策变量包括:某任务被分配到配对站方向;某任务开始拆卸的时间;某任务完成拆卸的时间;某配对站是否被开启;某配对站某方向的工作站是否被开启;
S23、设定双边拆解线平衡数学模型的目标函数,包括:产线配置、经济效益和安全环保三个方面,且各目标函数均求最小值:
S231产线配置包括
Figure 917767DEST_PATH_IMAGE001
Figure 38170DEST_PATH_IMAGE002
,分别表示工作站的开启数量、工作量平滑指数和工作站配置成本;
S232、经济效益包括
Figure 254125DEST_PATH_IMAGE003
Figure 852597DEST_PATH_IMAGE004
,分别表示需求指标和拆解完成时间;
S233、安全环保是指
Figure 870231DEST_PATH_IMAGE005
,表示降低对环境污染和工人健康损害的程度;
S24、设定双边拆解线数学模型的约束条件:
S241、一个任务只能在一个工作站完成;
S242、每个任务都必须在规定的节拍时间内完成;
S243、与优先关系的约束,所有与优先任务完成后才可以执行与滞后任务,那么与滞后任务的开始时间大于它所有的与优先任务的结束时间;
S244、并行任务的约束;如果任务i和j是并行关系,那么i和j间可以同时;
S245、或优先关系的约束:任意或优先任务完成后便可以执行或滞后任务,那么或滞后任务的开始时间大于它所有或优先任务的结束时间的最小值即可;
S246、工作站必须在节拍时间内完成所分配的所有任务;
S247、分配到同一工作站的任务的拆卸关系:由于一个工作站一次只能完成一个任务,所以按照分配到工作站的顺序依次执行任务;
S248、分配到相邻配对站的任务的拆卸关系:只有当前一配对站的的剩余时间无法满足当前任务拆卸时间的需求时,才会开启下一配对站,所以下一配对站的第一个任务的开始时间大于上一配对站最后一个任务的结束时间。
具体的,S3中初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值包括:
S3中的初始化种群包括:
S31、设定种群规模M,最大迭代次数MAXGEN,交叉概率
Figure 630377DEST_PATH_IMAGE006
,变异概率
Figure 480433DEST_PATH_IMAGE007
,代沟
Figure 882596DEST_PATH_IMAGE008
S32、初始化R-值表为空,Q-值表为空;
S33、根据拆解优先图,构建优先矩阵
Figure 489157DEST_PATH_IMAGE009
用来描述任务类型,
Figure 184319DEST_PATH_IMAGE010
中除对角线外的元素取0,1,2三个值,
Figure 876331DEST_PATH_IMAGE011
,表示任务
Figure 551026DEST_PATH_IMAGE012
是任务
Figure 277674DEST_PATH_IMAGE013
的与优先任务;
Figure 143736DEST_PATH_IMAGE014
,表示任务
Figure 463990DEST_PATH_IMAGE012
是任务
Figure 207955DEST_PATH_IMAGE013
的或优先任务;
Figure 287645DEST_PATH_IMAGE015
表示任务
Figure 826073DEST_PATH_IMAGE012
和任务
Figure 492678DEST_PATH_IMAGE013
之间无紧前优先关系;而主对角线上元素的值表示该拆卸任务是否被拆除,若是,其值为-1,否则为0;
S34、根据优先矩阵P构建并行矩阵S用来表示当前状态下各任务紧前优先任务的个数,没有紧前优先任务的任务在当前状态下为最高级别,应首先拆除;
S35、创建空向量
Figure 509176DEST_PATH_IMAGE016
用来储存拆卸序列,从矩阵S中选取当前级别最高的任务插入到
Figure 460949DEST_PATH_IMAGE016
中,随后解除该拆卸任务的约束关系,更新矩阵P和S,并重复该步骤直到所有任务都已插入到中
Figure 170279DEST_PATH_IMAGE016
S36、重复步骤S35,生成M个个体即完成种群的初始化。
具体的,S35中更新矩阵P包括:
S351、在矩阵P的主对角线上将该拆卸任务的值改为-1;
S352、将该拆卸任务所在行值为1的元素改为0;
S353、定位到该拆卸任务所在行值为2的位置,然后找到该值为2的元素所在列,将该列位置上所有为2的元素改为0。
S3中建立外部档储存Pareto较优解包括:
设置外部档案所储存的Pareto较优解的数量,当所求得的Pareto解的数量没达到设置的数量时,则全部储存入外部档案;否则,在历次迭代中,通过拥挤距离公式更新外部档案。
S3中建立R值表包括:
R值表是一个二维矩阵,行和列分别代表动作和算子对目标的改进值,其中动作包括五种优化算子:三种交叉算子和两种变异算子。
S3中建立Q值表包括:
Q值表是一个与R值表同阶的二维矩阵,但是Q值表的行和列分别表示状态和动作,状态指的是当前所处的迭代代数,而动作则与R值表一样指的是五种优化算子。
具体的,S4中采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值包括:
S4中采用群优化算法更新迭代更新外部档案包括:
S41、将种群个体通过解码分配到各个工作站,并计算目标函数值;
S42、采用自适应的交叉和变异概率;
S43、采用三种交叉算子和两种变异算子更新种群;
S44、计算每种算子对于目标的改进值并写入R值表中;
S45、重复S41-S44,将每代得到的R值表与上代得到的R值表取均值作为当前的R值表。
具体的,S41中的通过解码分配到各个工作站如下:
S411、首先生成与
Figure 58601DEST_PATH_IMAGE017
同阶的空向量
Figure 518270DEST_PATH_IMAGE018
Figure 74016DEST_PATH_IMAGE018
中的元素由0,1,2组成,0代表该拆卸任务不受拆解方向的约束,1代表拆解方向为左,2代表拆解方向为右;然后根据拆解优先图在
Figure 954248DEST_PATH_IMAGE018
中对应位置填入
Figure 595445DEST_PATH_IMAGE017
各任务的拆解方向;
S412、根据
Figure 717859DEST_PATH_IMAGE019
识别当前需要解码的任务,然后通过
Figure 269057DEST_PATH_IMAGE018
对应位置识别其方向编码,若为1,则分配至左工作站;若为2,则分配至右工作站;若为0,则分配至可以先开始的工作站;
S413、如果该方向工作站的空闲时间满足拆卸时间的要求,则安排在此工作站拆卸,否则开启下一个配对站并安排到相应方向的工作站;
S414、更新已开启的工作站数量、配对站数量以及当前解码任务所在工作站的空闲时间;
S415、如果还有未解码任务,则前往S412;否则,结束。
具体的,S42中采用自适应的交叉和变异概率包括:
交叉由于改变的基因位较多而具有更好的全局搜索能力,因此随着算法的收敛,交叉的优化作用越来越不明显;而变异因改动的基因位较少所以局部搜索能力更强,因此后期的改善效果更好。本发明采用随迭代次数而变化的交叉概率和变异概率。
具体的,S43采用三种交叉算子和两种变异算子更新种群包括:
S431、三种交叉算子,分别为优先保留交叉、两点交叉、单点交叉;
S432、两种变异算子,分别为向前插入、向后插入;
具体的,S431中的优先保留交叉为:
选择种群中相邻的两个个体,生成一个长度等于个体编码的向量
Figure 320190DEST_PATH_IMAGE020
,里面的元素由1,2组成,交叉时按照
Figure 947218DEST_PATH_IMAGE020
中的编码依次决定新个体的元素来自个体1还是个体2,并在选取后,在个体1和个体2中删除对应的元素,继续执行,直到所有的元素选取完毕。
具体的,S431中的两点交叉为:
选择种群中相邻的两个个体,在父代1中,随机生成两个不一样的变异点,位于变异点之外的编码则直接复制给子代,位于变异点之间的编码则按照父代2中的顺序复制到子代中。
具体的,S431中的单点交叉为:
选择种群中相邻的两个个体,在父代1中,随机生成一个变异点,位于变异点之前的编码则直接复制到子代中,位于变异点之后的编码按照父代2中的顺序复制到子代中。
具体的,S432中两种变异算子中对于变异范围的确定为:
变异范围指的是在编码序列中距离变异点最近的紧前优先任务和紧后优先任务所组成的区间。只有当变异区间存在变异点可插入的位置,且变异前、后的染色体不相等时才算变异成功,否则需要重新确定变异点。确定变异范围的方法具体如下:
首先随机生成变异点,并调用优先矩阵获取变异点的紧前优先任务和紧后优先任务,其中,紧前优先任务包括与优先任务和或优先任务。对于其多个与优先任务需要选取其在染色体上最大的序号
Figure 640368DEST_PATH_IMAGE021
,而对于其多个或优先任务则需要确定其在染色体上最小的序号
Figure 780493DEST_PATH_IMAGE022
,然后综合二者取较大的作为变异区间的左顶点
Figure 861581DEST_PATH_IMAGE023
;紧后优先任务包括与滞后任务和或滞后任务,跟前序任务不同的是,对于这两种任务都需要确定最小的序号,然后取二者中较小的作为变异区间的右顶点
Figure 857131DEST_PATH_IMAGE024
则是变异点的变异范围。
向前插入则是变异点在变异范围内选择变异点前的位置进行插入,向后插入则相反。
具体的,S5中Q值表终表通过增强学习公式确定:
Figure 822813DEST_PATH_IMAGE025
其中
Figure 942079DEST_PATH_IMAGE026
表示在当前状态
Figure 567970DEST_PATH_IMAGE027
下采取动作
Figure 405476DEST_PATH_IMAGE028
的可以获得的Q值,
Figure 909270DEST_PATH_IMAGE029
表示由R-值表中状态
Figure 414200DEST_PATH_IMAGE027
下采取行动
Figure 476572DEST_PATH_IMAGE028
所获得的奖励值,
Figure 801374DEST_PATH_IMAGE030
表示增强学习系数,
Figure 374438DEST_PATH_IMAGE031
表示折扣系数,
Figure 202717DEST_PATH_IMAGE032
表示在下一状态可以采取的动作中将能获得的Q值的最大值。
综上,本发明采用基于强化学习的群体进化算法解决考虑与或优先关系的双边拆解线设计问题,不仅综合考虑了大型废旧产品拆卸任务之间复杂的约束关系,更贴合实际生产实践,而且保证了解的多样性,提高了算法的鲁棒性,避免了不同次运行之间解的较大差异性,达到快速收敛。
附图说明
图1为双边拆解线工作示意图;
图2是本发明的实施方式提供的基于强化学习-群体进化混合算法的双边拆解线设计方法的流程框图;
图3为本发明的实施方式提供的包含8个拆卸任务的拆解优先图;
图4为本发明的实施方式提供的包含74个拆卸任务的某发动机的拆解优先图;
图5为本发明的实施方式提供的包含8个拆卸任务的求解方案;
图6为图5中求解方案1的任务分配结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为双边拆解线的工作示意图,工作站顺着传送带的方向均匀地分布于两侧,废旧产品从入口处投放到拆解线上,有节奏地经过不同的工作站进行拆卸,拆下来的零部件可以在站内储存,最后剩余部分则经出口流出。其中标记为L的零件只能在左工作站(LeftStation, LS)拆卸,标记为R的零件只能在右工作站(Right Station, RS)拆卸,且相对的左、右工作站组成一个配对站(Mated Station, MS),而标记为E的零件可以被任意方向的工作站拆卸。
图2是本发明的实施方式提供的基于强化学习-群体进化混合算法的双边拆解线设计方法的流程框图。如图1所示,本发明的实施方式提供了基于强化学习-群体进化混合算法的双边拆解线设计方法,包括以下步骤:
S1、定义某拆卸任务和所有紧前优先任务之间的与、或优先关系;
S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;
S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;
S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;
S5、重复步骤S3-S4,进行多次强化学习获得稳定的R值表和Q值表;
S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解;
图3为本发明的实施方式提供的包含8个拆卸任务的拆解优先图和图4为本发明的实施方式提供的包含74个拆卸任务的某发动机的拆解优先图。以图3和图4为具体实施例,进一步说明本发明提供的对于基于强化学习-群体进化混合算法的双边拆解线设计方法。
步骤S1中定义某拆卸任务和所有紧前优先任务之间的与、或优先关系具体指的是:
与优先关系和或优先关系都是产生于某任务存在多个紧前优先任务的情况,但是与和或两种优先关系有明显区别:若某拆卸任务的所有紧前优先任务完成后,才可执行该拆卸任务,那么这些紧前优先任务与该拆卸任务形成与优先关系;如图3和图4所示,由实线连接的部分代表箭尾任务与箭头任务存在与优先关系,并称前者是后者的与优先任务,后者是前者的与滞后任务,所有与优先任务完成后才可以执行与滞后任务;
若某拆卸任务的任一紧前优先任务完成后,便可执行该拆卸任务,则这些紧前优先任务与该拆卸任务形成或优先关系;如图3和图4所示,由虚线连接的部分代表箭尾任务与箭头任务存在或优先关系,并称前者是后者的或优先任务,后者是前者的或滞后任务,任一或优先任务完成后就可以执行或滞后任务。
步骤S2中建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型具体包括:
S21、提出该数学模型的理论假设:一定时间内投放到拆解线上的都是同一类型的产品;零件的拆解顺序、拆解方向、拆解时间等信息是已知的;不考虑破坏性拆卸;忽略传送带在配对站之间的运动时间;
S22、设定双边拆解线平衡数学模型的参数和决策变量;
一种可行的实施方式中,参数和决策变量的建立如下表所示:
索引下标
Figure 576935DEST_PATH_IMAGE033
参数列表
Figure 389033DEST_PATH_IMAGE034
Figure 500209DEST_PATH_IMAGE035
决策变量
Figure 472408DEST_PATH_IMAGE036
Figure 784571DEST_PATH_IMAGE037
S23、设定双边拆解线平衡数学模型的目标函数,包括:产线配置、经济效益和安全环保三个方面,且各目标函数均求最小值:
S231产线配置包括
Figure 818386DEST_PATH_IMAGE038
Figure 231788DEST_PATH_IMAGE039
,分别表示工作站的开启数量、工作量平滑指数和工作站配置成本;
Figure 300238DEST_PATH_IMAGE040
(1)
Figure 517724DEST_PATH_IMAGE041
(2)
Figure 802949DEST_PATH_IMAGE042
(3)
S232、经济效益包括
Figure 990348DEST_PATH_IMAGE043
Figure 178884DEST_PATH_IMAGE044
,分别表示需求指标和拆解完成时间;
Figure 426326DEST_PATH_IMAGE045
(4)
Figure 933268DEST_PATH_IMAGE046
(5)
S233、安全环保是指
Figure 924358DEST_PATH_IMAGE047
,表示降低对环境污染和工人健康损害的程度;
Figure 701821DEST_PATH_IMAGE048
(6)
S24、设定双边拆解线数学模型的约束条件:
S241、一个任务只能在一个工作站完成;
Figure 120164DEST_PATH_IMAGE049
(7)
S242、每个任务都必须在规定的节拍时间内完成;
Figure 854683DEST_PATH_IMAGE050
(8)
S243、与优先关系的约束;
Figure 915043DEST_PATH_IMAGE051
(9)
j是i的与优先任务,那么i的开始时间大于它所有的与优先任务的结束时间。
S244、并行任务的约束;
Figure 687958DEST_PATH_IMAGE052
(10)
如果任务i和j是并行关系,那么i和j的开始时间可以同时。
S245、或优先关系的约束;
Figure 775737DEST_PATH_IMAGE053
(11)
任务j拆卸完成后就可以执行任务i,所以任务i的开始时间在任务j完成时间之后即可。
S246、工作站必须在节拍时间内完成所分配的所有任务;
Figure 24316DEST_PATH_IMAGE054
(12)
S247、分配到同一工作站的任务的拆卸关系;
Figure 622788DEST_PATH_IMAGE055
(13)
由于一个工作站一次只能完成一个任务,所以按照分配到工作站的顺序依次执行任务。
S248、分配到相邻配对站的任务的拆卸关系。
Figure 374843DEST_PATH_IMAGE056
(14)
只有当前一配对站的的剩余时间无法满足当前任务拆卸时间的需求时,才会开启下一配对站,所以下一配对站的第一个任务的开始时间大于上一配对站最后一个任务的结束时间。
步骤S3中初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值具体包括:
S3中的初始化种群包括:
S31、设定种群规模M=10,最大迭代次数MAXGEN=20,交叉概率
Figure 40048DEST_PATH_IMAGE057
,变异概率
Figure 510344DEST_PATH_IMAGE058
,代沟
Figure 646927DEST_PATH_IMAGE059
S32、初始化R-值表为空,Q-值表为空;
S33、根据拆解优先图,构建优先矩阵用来描述任务类型,
Figure 17604DEST_PATH_IMAGE060
中除对角线外的元素取0,1,2三个值,
Figure 355175DEST_PATH_IMAGE061
,表示任务
Figure 312767DEST_PATH_IMAGE062
是任务
Figure 769154DEST_PATH_IMAGE063
的与优先任务;
Figure 495802DEST_PATH_IMAGE064
,表示任务
Figure 4275DEST_PATH_IMAGE062
是任务
Figure 416539DEST_PATH_IMAGE063
的或优先任务;
Figure 894925DEST_PATH_IMAGE065
表示任务
Figure 741658DEST_PATH_IMAGE062
和任务
Figure 280087DEST_PATH_IMAGE063
之间无紧前优先关系;而主对角线上元素的值表示该任务是否被拆除,若是,其值为,否则为0。
图3对应的优先矩阵P如下:
Figure 710806DEST_PATH_IMAGE066
S34、根据优先矩阵P构建并行矩阵S用来表示当前状态下各任务紧前优先任务的个数,没有紧前优先任务的任务在当前状态下为最高级别,应首先拆除,S33中优先矩阵P对应的并行矩阵S如下:
Figure 727304DEST_PATH_IMAGE067
S35、创建空向量
Figure 162964DEST_PATH_IMAGE068
用来储存拆卸序列,从矩阵S中选取当前级别最高的任务插入到
Figure 606715DEST_PATH_IMAGE068
中,随后解除该任务的约束关系,更新矩阵P和S,并重复该步骤直到所有任务都已插入到中;
首先选择任务8插入到
Figure 259151DEST_PATH_IMAGE068
Figure 220285DEST_PATH_IMAGE069
,更新后的P和S如下:
Figure 510452DEST_PATH_IMAGE070
S36、重复步骤S35,生成M个个体即完成种群的初始化。
其中一个个体的编码如下:
Figure 895078DEST_PATH_IMAGE071
具体的,S35中更新矩阵P包括:
S351、在矩阵P的主对角线上将该任务的值改为-1;
Figure 536275DEST_PATH_IMAGE072
S352、将该任务所在行值为1的元素改为0;
Figure 894575DEST_PATH_IMAGE073
S353、定位到该任务所在行值为2的位置,然后找到该值为2的元素所在列,将该列位置上所有为2的元素改为0。
S3中建立外部档储存Pareto较优解包括:
设置外部档案所储存的Pareto较优解的数量,当所求得的Pareto解的数量没达到设置的数量时,则全部储存入外部档案;否则,在历次迭代中,通过拥挤距离公式更新外部档案:
Figure 570407DEST_PATH_IMAGE074
(15)
其中
Figure 588916DEST_PATH_IMAGE075
Figure 717409DEST_PATH_IMAGE076
分别是获得的非支配解集的极端解和边界解之间的欧几里得距离,
Figure 879400DEST_PATH_IMAGE077
是所有
Figure 409739DEST_PATH_IMAGE078
的平均距离。N为外部档案中Pareto解的数量,di为第i个Pareto解的欧几里得距离。
S3中建立R值表包括:
R值表是一个二维矩阵,行和列分别代表当前迭代代数和算子对目标的改进值,其中动作包括五种优化算子:三种交叉算子和两种变异算子。
R值表
Figure 271253DEST_PATH_IMAGE079
S3中建立Q值表包括:
Q值表是一个与R值表同阶的二维矩阵,其行和列分别表示状态和动作,状态指的是当前所处的迭代代数,而动作则与R值表一样指的是五种优化算子。
Q值表
Figure 621463DEST_PATH_IMAGE080
具体的,步骤S4中采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值包括:
S4中采用群优化算法更新迭代更新外部档案包括:
S41、将种群个体通过解码分配到各个工作站,并计算目标函数值;
S42、采用自适应的交叉和变异概率;
S43、采用三种交叉算子和两种变异算子更新种群;
S44、计算每种算子对于目标的改进值并写入R值表中;
S45、重复S41-S44,将每代得到的R值表与上代得到的R值表取均值作为当前的R值表。
具体的,S41中的通过解码分配到各个工作站如下:
S411、首先生成与同阶的空向量
Figure 587145DEST_PATH_IMAGE081
Figure 204946DEST_PATH_IMAGE081
中的元素由0,1,2组成,0代表该任务不受拆解方向的约束,1代表拆解方向为左,2代表拆解方向为右;然后根据拆解优先图在
Figure 597881DEST_PATH_IMAGE081
中对应位置填入
Figure 435387DEST_PATH_IMAGE082
各任务的拆解方向;
S412、根据
Figure 939181DEST_PATH_IMAGE082
识别当前需要解码的任务,然后通过
Figure 405629DEST_PATH_IMAGE081
对应位置识别其方向编码,若为1,则分配至左工作站;若为2,则分配至右工作站;若为0,则分配至可以先开始的工作站;
S413、如果该方向工作站的空闲时间满足拆卸时间的要求,则安排在此工作站拆卸,否则开启下一个配对站并安排到相应方向的工作站;
S414、更新已开启的工作站数量、配对站数量以及当前解码任务所在工作站的空闲时间;
S415、如果还有未解码任务,则前往S412;否则,结束。
具体的,S42中采用自适应的交叉和变异概率包括:
交叉由于改变的基因位较多而具有更好的全局搜索能力,因此随着算法的收敛,交叉的优化作用越来越不明显;而变异因改动的基因位较少所以局部搜索能力更强,因此后期的改善效果更好。本发明采用随迭代次数变化的交叉概率
Figure 235045DEST_PATH_IMAGE083
和变异概率
Figure 825426DEST_PATH_IMAGE084
,具体如下:
Figure 867331DEST_PATH_IMAGE085
其中n表示当前迭代次数,N为总迭代次数。
具体的,S43采用三种交叉算子和两种变异算子更新种群包括:
S431、三种交叉算子,分别为优先保留交叉、两点交叉、单点交叉。
S432、两种变异算子,分别为向前插入、向后插入。
具体的,S431中的优先保留交叉为:
选择种群中相邻的两个个体,生成一个长度等于个体编码的向量
Figure 600670DEST_PATH_IMAGE086
,里面的元素由1,2组成,交叉时按照
Figure 335408DEST_PATH_IMAGE086
中的编码依次决定新个体的元素来自个体1还是个体2,并在选取后,在个体1和个体2中删除对应的元素,继续执行,直到所有的元素选取完毕。
例如,父代1的编码为
Figure 881927DEST_PATH_IMAGE087
父代2的编码为:
Figure 491637DEST_PATH_IMAGE088
执行的序列为:
Figure 705581DEST_PATH_IMAGE089
则子代为:
Figure 876799DEST_PATH_IMAGE090
具体的,S431中的两点交叉为:
选择种群中相邻的两个个体,在父代1中,随机生成两个不一样的变异点,位于变异点之外的编码则直接复制给子代,位于变异点之间的编码则按照父代2中的顺序复制到子代中。
例如,父代1的编码为
Figure 910614DEST_PATH_IMAGE091
父代2的编码为:
Figure 199382DEST_PATH_IMAGE092
交叉点为父代1的第3和第5基因点,即序列3 6 2 1,该序列在父代2中的顺序为63 1 2
则子代为:
Figure 533411DEST_PATH_IMAGE093
具体的,S431中的单点交叉为:
选择种群中相邻的两个个体,在父代1中,随机生成一个变异点,位于变异点之前的编码则直接复制到子代中,位于变异点之后的编码按照父代2中的顺序复制到子代中。
例如,父代1的编码为
Figure 609952DEST_PATH_IMAGE094
父代2的编码为:
Figure 901037DEST_PATH_IMAGE095
交叉点为父代1的第5基因点,即序列2 1 7 5,该序列在父代2中的顺序为5 1 7 2
则子代为:
Figure 88436DEST_PATH_IMAGE096
具体的,S432中两种变异算子中对于变异范围的确定为:
变异范围指的是在编码序列中距离变异点最近的紧前优先任务和紧后优先任务所组成的区间。只有当变异区间存在变异点可插入的位置,且变异前、后的染色体不相等时才算变异成功,否则需要重新确定变异点。确定变异范围的方法具体如下:
首先随机生成变异点,并调用优先矩阵获取变异点的紧前优先任务和紧后优先任务,其中,紧前优先任务包括与优先任务和或优先任务。对于其多个与优先任务需要选取其在染色体上最大的序号
Figure 11392DEST_PATH_IMAGE097
,而对于其多个或优先任务则需要确定其在染色体上最小的序号
Figure 258834DEST_PATH_IMAGE098
,然后综合二者取较大的作为变异区间的左顶点
Figure 31356DEST_PATH_IMAGE099
;紧后优先任务包括与滞后任务和或滞后任务,跟前序任务不同的是,对于这两种任务都需要确定最小的序号,然后取二者中较小的作为变异区间的右顶点
Figure 22445DEST_PATH_IMAGE100
则是变异点的变异范围。
向前插入则是变异点在变异范围内选择变异点前的位置进行插入,向后插入则相反。
以向前插入距离:如果父代1的编码为
Figure 940854DEST_PATH_IMAGE101
变异点为第6个基因位,即编码为2 的基因,根据优先矩阵P,位于其最近的紧前和紧后任务为基因1和基因2,分别位于第3和第7个基因位,如果选择向前插入到第3个基因位之后,则变异后产生的子代为
Figure 857732DEST_PATH_IMAGE102
,如果选择插入到第5个基因位之后则变异后的编码与变异前的编码没有变化,需要重现变异。
具体的,S5中Q值表终表通过增强学习公式确定:
Figure 87856DEST_PATH_IMAGE103
(16)
其中
Figure 148216DEST_PATH_IMAGE104
表示在当前状态
Figure 780186DEST_PATH_IMAGE105
下采取动作
Figure 133545DEST_PATH_IMAGE106
的可以获得的Q值,
Figure 382123DEST_PATH_IMAGE107
表示由R-值表中状态
Figure 855961DEST_PATH_IMAGE105
下采取行动
Figure 936630DEST_PATH_IMAGE106
所获得的奖励值,
Figure 962355DEST_PATH_IMAGE108
表示增强学习系数,
Figure 432650DEST_PATH_IMAGE109
表示折扣系数,
Figure 569233DEST_PATH_IMAGE110
表示在下一状态可以采取的动作中将能获得的Q值的最大值。
设定
Figure 674330DEST_PATH_IMAGE111
,针对图4的实施例如果经过多次强化学习后的R值表终表如下:
R值表
Figure 870957DEST_PATH_IMAGE112
则经过增强学习公式转化后的Q值表如下:
Q值表
Figure 438335DEST_PATH_IMAGE113
具体的,S6根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解包括:
图5为本发明的实施方式提供的包含8个拆卸任务的求解方案,图6为图5中求解方案1的任务分配结果。按照该Q值表,在每次迭代中选择具有最大Q值的动作对种群进行优化,最终求得的方案如图5所示,大括号内插入的数字0表示开启的工作站,所以位于0之后的数字则是该工作站所需执行的拆卸任务;以图5中求解方案1为例,绘制其拆卸任务的分配结果如图6所示,其中L代表左侧工作站执行的任务,R代表右侧工作站执行的任务。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.基于强化学习-群体进化混合算法的双边拆解线设计方法,包括以下步骤:
S1、定义某拆卸任务和所有紧前优先任务之间的与、或优先关系;
S2、建立以优化产线布置、经济效益和安全环保三个方面共六个指标的数学模型;
S3、初始化种群,建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值;
S4、采用群优化算法迭代更新外部档案,同时记录每代优化算子的对于目标的改进值;
S5、重复步骤S3-S4,进行多次强化学习获得稳定的R值表和Q值表;
S6、根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解。
2.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S1中所述定义某拆卸任务和所有紧前优先任务之间的与、或优先关系包括:
若某拆卸任务的所有紧前优先任务完成后,才可执行该拆卸任务,那么这些紧前优先任务与该拆卸任务形成与优先关系;
若某拆卸任务的所有紧前优先任务中任一个完成后,便可执行该拆卸任务,则这些紧前优先任务与该拆卸任务形成或优先关系。
3.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S2中所述建立以优化产线配置、经济效益和安全环保三个方面共六个指标的数学模型包括:
S21、提出该数学模型的理论假设:一定时间内投放到拆解线上的都是同一类型的产品;零件的拆解顺序、拆解方向、拆解时间是已知的;不考虑破坏性拆卸;忽略传送带在配对站之间的运动时间;
S22、设定双边拆解线平衡数学模型的参数和决策变量;
S23、设定双边拆解线平衡数学模型的目标函数,包括:产线配置、经济效益和安全环保三个方面,且各目标函数均求最小值;
S24、设定双边拆解线数学模型的约束条件。
4.如权利要求3所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:所述目标函数包括:
Figure 681652DEST_PATH_IMAGE001
(1)
Figure 661110DEST_PATH_IMAGE002
(2)
Figure 733190DEST_PATH_IMAGE003
(3)
Figure 190716DEST_PATH_IMAGE004
(4)
Figure 67405DEST_PATH_IMAGE005
(5)
Figure 47125DEST_PATH_IMAGE006
(6)
Figure 517420DEST_PATH_IMAGE007
Figure 637692DEST_PATH_IMAGE008
属于产线配置,分别表示工作站的开启数量、工作量平滑指数和工作站配置成本;
Figure 368888DEST_PATH_IMAGE009
Figure 660454DEST_PATH_IMAGE010
属于经济效益,分别表示需求指标和拆解完成时间;
Figure 742679DEST_PATH_IMAGE011
属于安全环保,表示降低对环境污染和工人健康损害的程度;
所述约束条件包括:
Figure 276429DEST_PATH_IMAGE012
(7)
Figure 127710DEST_PATH_IMAGE013
(8)
Figure 855757DEST_PATH_IMAGE014
(9)
Figure 425279DEST_PATH_IMAGE015
(10)
Figure 762719DEST_PATH_IMAGE016
(11)
Figure 468507DEST_PATH_IMAGE017
(12)
Figure 361596DEST_PATH_IMAGE018
(13)
Figure 152834DEST_PATH_IMAGE019
(14)
式(7)表示一个任务只能在一个工作站完成;式(8)表示任务必须在节拍时间内完成;式(9)表示与优先关系的约束;式(10)表示并行任务的约束关系;式(11)表示或优先关系的约束;式(12)表示工作站必须在节拍时间内完成分配的任务;式(13)表示分配到同一工作站的任务的拆卸关系;式(14)表示分配到相邻配对站的任务的拆卸关系;
i,j为拆解任务索引,I为拆解任务总数;m为配对站索引,M为配对站总数;k为配对站方向索引,k=1表示配对站左侧,k=2表示配对站右侧;(m,k)为第m个配对站k方向的工作站;L为分配到左侧工作站的任务集合,R为分配到右侧工作站的任务集合;CT为拆解线节拍时间;ti为任务i的拆卸时间;Tmk为分配到工作站(m,k)所有任务的拆卸时间之和;Imk为分配到工作站(m,k)的任务集合;A(i)为任务i的与优先任务集合;S(i)为任务i的并行任务集合;O(i)为任务i的或优先任务集合;ω1为开启一个配对站的成本;ω2为开启一个工作站的成本;Li为任务i在分配到左侧工作站所有任务中的拆卸序号;Lj为任务j在分配到左侧工作站所有任务中的拆卸序号;Ri为任务i在分配到右侧工作站所有任务中的拆卸序号;Rj为任务j在分配到右侧工作站所有任务中的拆卸序号;Hi为任务i的危害指数;Hj为任务j的危害指数;Di为任务i的需求指数;Dj为任务j的需求指数;Ximk为任务i被分配到配对站m的k方向,若任务i被分配到配对站m的k方向,则Ximk=1,否则Ximk=0;Xjmk为任务j被分配到配对站m的k方向,若任务j被分配到配对站m的k方向,则Xjmk=1,否则Xjmk=0;tis为任务i开始拆卸的时间;tif为任务i完成拆卸的时间;tjs为与任务i是并行关系的任务j开始拆卸的时间;tjf为任务i的或优先任务j完成拆卸的时间;Om为第m个配对站,若第m个配对站被开启,则Om=1,否则Om=0;Omk为第m个配对站的k方向,若第m个配对站k方向的工作站被开启,Omk=1,否则Omk=0;K为工作站方向集合。
5.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S3中所述初始化种群包括以下步骤:
S31、设定种群规模M,最大迭代次数MAXGEN,交叉概率
Figure 293966DEST_PATH_IMAGE020
,变异概率
Figure 854260DEST_PATH_IMAGE021
,代沟
Figure 189689DEST_PATH_IMAGE022
S32、初始化R-值表为空,Q-值表为空;
S33、根据拆解优先图,构建优先矩阵
Figure 202644DEST_PATH_IMAGE024
用来描述任务类型,
Figure 147466DEST_PATH_IMAGE025
中除对角线外的元素取0,1,2三个值,
Figure 703212DEST_PATH_IMAGE026
,表示任务
Figure 708078DEST_PATH_IMAGE027
是任务
Figure 709794DEST_PATH_IMAGE028
的与优先任务;
Figure 192728DEST_PATH_IMAGE029
,表示任务
Figure 993194DEST_PATH_IMAGE027
是任务
Figure 903381DEST_PATH_IMAGE028
的或优先任务;
Figure 392393DEST_PATH_IMAGE030
表示任务和任务之间无紧前优先关系;而主对角线上元素的值表示该拆卸任务是否被拆除,若是,其值为-1,否则为0;
S34、根据优先矩阵P构建并行矩阵S用来表示当前状态下各任务紧前优先任务的个数,没有紧前优先任务的任务在当前状态下为最高级别,应首先拆除;
S35、创建空向量用来储存拆卸序列,从矩阵S中选取当前级别最高的任务插入到
Figure 679018DEST_PATH_IMAGE031
中,随后解除该拆卸任务的约束关系,更新矩阵P和S,并重复该步骤直到所有任务都已插入到
Figure 68411DEST_PATH_IMAGE031
中;
S36、重复步骤S35,生成M个个体即完成种群的初始化。
6.如权利要求5所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S3中所述建立外部档案储存Pareto较优解,建立R值表记录算子的改进效果,建立Q值表储存Q值包括:
设置外部档案所储存的Pareto较优解的数量,当所求得的Pareto解的数量没达到设置的数量时,则全部储存入外部档案;否则,在历次迭代中,通过拥挤距离公式更新外部档案;
Q值表是一个与R值表同阶的二维矩阵,Q行和列分别表示状态和动作,状态指的是当前所处的迭代代数,而动作指的是五种优化算子;而R值表的行和列分别表示状态和动作对于目标的改进值。
7.如权利要求6所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:所述拥挤距离公式如下:
Figure 415079DEST_PATH_IMAGE032
(15)
其中
Figure 385528DEST_PATH_IMAGE033
Figure 741423DEST_PATH_IMAGE034
分别是获得的非支配解集的极端解和边界解之间的欧几里得距离,
Figure 719743DEST_PATH_IMAGE035
是所有
Figure 971733DEST_PATH_IMAGE036
的平均距离,N为外部档案中Pareto解的数量,di为第i个Pareto解的欧几里得距离。
8.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S4中所述采用群优化算法更新迭代更新外部档案包括:
S41、将种群个体通过解码分配到各个工作站,并计算目标函数值;
S42、采用自适应的交叉和变异概率;
S43、采用三种交叉算子和两种变异算子更新种群;
S44、计算每种算子对于目标的改进值并写入R值表中;
S45、重复S41-S44,将每代得到的R值表与上代得到的R值表取均值作为当前的R值表。
9.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S5中所述重复步骤S3-S4,进行多次强化学习获得稳定的R值表和Q值表包括:
Q值表终表通过增强学习公式确定:
Figure 700917DEST_PATH_IMAGE037
(16)
其中
Figure 329344DEST_PATH_IMAGE038
表示在当前状态
Figure 693330DEST_PATH_IMAGE039
下采取动作
Figure 116221DEST_PATH_IMAGE040
的可以获得的Q值,
Figure 67121DEST_PATH_IMAGE041
表示由R-值表中状态
Figure 233660DEST_PATH_IMAGE039
下采取
Figure 186573DEST_PATH_IMAGE040
行动所获得的奖励值,
Figure 780365DEST_PATH_IMAGE042
表示增强学习系数,
Figure 218562DEST_PATH_IMAGE043
表示折扣系数,
Figure DEST_PATH_IMAGE044
表示在下一状态可以采取的动作中将能获得的Q值的最大值。
10.如权利要求1所述的基于强化学习-群体进化混合算法的双边拆解线设计方法,其特征在于:步骤S6中所述根据Q值表终表,采用群优化算法迭代更新外部档案,获得稳定解包括:
利用Q值表,采用群优化算法时在每次迭代中选择具有最大Q值的动作来更新种群,直到达到最大迭代次数,即获得稳定的最优解。
CN202211206939.4A 2022-09-30 2022-09-30 基于强化学习-群体进化混合算法的双边拆解线设计方法 Active CN115271568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211206939.4A CN115271568B (zh) 2022-09-30 2022-09-30 基于强化学习-群体进化混合算法的双边拆解线设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211206939.4A CN115271568B (zh) 2022-09-30 2022-09-30 基于强化学习-群体进化混合算法的双边拆解线设计方法

Publications (2)

Publication Number Publication Date
CN115271568A true CN115271568A (zh) 2022-11-01
CN115271568B CN115271568B (zh) 2023-01-20

Family

ID=83757820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211206939.4A Active CN115271568B (zh) 2022-09-30 2022-09-30 基于强化学习-群体进化混合算法的双边拆解线设计方法

Country Status (1)

Country Link
CN (1) CN115271568B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720623A (zh) * 2023-06-14 2023-09-08 西南交通大学 一种涉及站内工具更换的直线布局拆解方案设计方法
CN116985146A (zh) * 2023-09-27 2023-11-03 武汉理工大学 退役电子产品的机器人并行拆解规划方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047578A1 (en) * 2000-03-29 2001-12-06 Richoh Company, Ltd. Product disassembling and assembling system and a method fo disassembling and assembling the product
CN109886458A (zh) * 2019-01-15 2019-06-14 合肥工业大学 一种基于遗传算法的并行拆卸模型构建方法
CN110580530A (zh) * 2019-08-30 2019-12-17 西南交通大学 考虑工位约束及能耗的双边拆卸线设置方法
CN114066247A (zh) * 2021-11-17 2022-02-18 西南交通大学 一种合并优先关系矩阵的并行拆卸线设置方法
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型
CN114219217A (zh) * 2021-11-17 2022-03-22 西南交通大学 一种不合并优先关系矩阵的并行拆卸线设置方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010047578A1 (en) * 2000-03-29 2001-12-06 Richoh Company, Ltd. Product disassembling and assembling system and a method fo disassembling and assembling the product
CN109886458A (zh) * 2019-01-15 2019-06-14 合肥工业大学 一种基于遗传算法的并行拆卸模型构建方法
CN110580530A (zh) * 2019-08-30 2019-12-17 西南交通大学 考虑工位约束及能耗的双边拆卸线设置方法
CN114066247A (zh) * 2021-11-17 2022-02-18 西南交通大学 一种合并优先关系矩阵的并行拆卸线设置方法
CN114219217A (zh) * 2021-11-17 2022-03-22 西南交通大学 一种不合并优先关系矩阵的并行拆卸线设置方法
CN114186749A (zh) * 2021-12-16 2022-03-15 暨南大学 基于强化学习及遗传算法的柔性车间调度方法及模型

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
任亚平 等: "考虑产品制造过程内含能的选择性拆解规划能耗优化研究", 《机械工程学报》 *
蔡雪原等: "产品回收过程中最大收益的确定", 《机械科学与技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720623A (zh) * 2023-06-14 2023-09-08 西南交通大学 一种涉及站内工具更换的直线布局拆解方案设计方法
CN116985146A (zh) * 2023-09-27 2023-11-03 武汉理工大学 退役电子产品的机器人并行拆解规划方法
CN116985146B (zh) * 2023-09-27 2024-02-02 武汉理工大学 退役电子产品的机器人并行拆解规划方法

Also Published As

Publication number Publication date
CN115271568B (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN115271568B (zh) 基于强化学习-群体进化混合算法的双边拆解线设计方法
Shen et al. Mathematical modeling and multi-objective evolutionary algorithms applied to dynamic flexible job shop scheduling problems
Mattfeld Evolutionary search and the job shop: investigations on genetic algorithms for production scheduling
Kucukkoc Balancing of two-sided disassembly lines: Problem definition, MILP model and genetic algorithm approach
Goldman et al. Analysis of cartesian genetic programming’s evolutionary mechanisms
CN107590603A (zh) 基于改进变邻域搜索和差分进化算法的调度方法及系统
Rego et al. A filter-and-fan approach to the job shop scheduling problem
CN104616062A (zh) 一种基于多目标遗传规划的非线性系统辨识方法
CN116090788B (zh) 一种柔性装配作业车间分批调度计划方法
Yang et al. Job shop scheduling based on earliness and tardiness penalties with due dates and deadlines: an enhanced genetic algorithm
CN114519455A (zh) 一种带运输过程的分布式柔性车间调度方法及系统
Rostami et al. Improved and competitive algorithms for large scale multiple resource-constrained project-scheduling problems
CN113467399B (zh) 一种知识驱动的柔性离散制造生产调度优化方法
Leguizamón et al. Evolutionary computation
Neumann et al. A didactic review on genetic algorithms for industrial planning and scheduling problems
CN116933485A (zh) 一种遗传贪心组合算法的装配序列规划方法
Souza et al. A multiagent approach for metaheuristics hybridization applied to the traveling salesman problem
CN116957219A (zh) 一种基于遗传算法的水泥生产线施工作业调度方法
CN104021425A (zh) 一种用于解决提早-延期调度问题的模因演化算法
CN116822217A (zh) 一种考虑工时不确定性的人机双资源约束多目标生产调度方法
Kim et al. An asymmetric multileveled symbiotic evolutionary algorithm for integrated FMS scheduling
CN111177642A (zh) 一种航材备件需求预测方法
CN116070761A (zh) 一种基于基因表达式编程的项目调度规则挖掘方法及系统
Liu et al. Multi-objective adaptive large neighbourhood search algorithm for dynamic flexible job shop schedule problem with transportation resource
CN111858003B (zh) 一种Hadoop最优参数评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant