CN116307440B - 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 - Google Patents
一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 Download PDFInfo
- Publication number
- CN116307440B CN116307440B CN202211456989.8A CN202211456989A CN116307440B CN 116307440 B CN116307440 B CN 116307440B CN 202211456989 A CN202211456989 A CN 202211456989A CN 116307440 B CN116307440 B CN 116307440B
- Authority
- CN
- China
- Prior art keywords
- scheduling
- function
- learning
- workshop
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000004519 manufacturing process Methods 0.000 claims abstract description 44
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 33
- 239000003795 chemical substances by application Substances 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 19
- 238000005265 energy consumption Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000013178 mathematical model Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06315—Needs-based resource requirements planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用,属于人工智能技术领域。本发明提出了一种基于强化学习的多目标权重学习车间调度方法,通过不断收集、分析车间中的不同目标所衍生的状态数据,进而对多个目标的调度进行不断优化,最终得到最优的调度方式,从而有效优化了车间作业流程,提高生产效率;本发明可根据实际生产状态调整不同优化目标的优先程度,动态性更强,可更好应对不同生产状况;本发明所获得的调度结果与传统的解决多目标车间调度问题的方法相比更佳,对人工智能更好地用于生产具有重要的意义。
Description
技术领域
本发明属于人工智能领域,涉及人工智能中强化学习算法在动态作业车间调度问题中的应用,具体涉及一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用。
背景技术
多目标优化问题(Multi-objective Optimization Problem,MOP),MOP问题通常被描述为:在可行范围内,通过满足事先约定好的多个约束条件,求解出决策向量,使其得到由多个目标函数组成的新的向量的最大值或最小值问题。但多目标优化问题中众多的目标函数往往是相斥的,不可能存在每个目标函数都能达到最优的情况,所以多目标优化应该是在满足所有约束条件的前提下让尽量多的目标函数达到最优解,从而找到整个函数的最优解。多目标优化是生产中的一个重要问题,对于提高生产有重要的意义,尤其是当多个目标之间的重要程度在动态变化时,将无法直接通过人工计算、分析来实现。而人工智能由于其算力高,大大降低了其难度。
发明内容
针对上述问题,本发明的目的是提供一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用。
为实现上述目的,本发明采取的技术方案为:一种基于强化学习的多目标权重学习的车间调度方法,包括如下步骤:
步骤S1:根据实际的车间生产所需优化的目标,建立包含多个待优化目标数学模型的智能体,所述智能体包括特征提取网络、动态目标权重学习网络和决策网络;对智能体进行预训练;
步骤S2:利用部署在车间的传感器实时捕获车间的生产状态,转化为相应的实时生产数据,并输入到智能体中;
步骤S3:智能体利用所收集到的实时生产数据计算奖励r,以获得更高的奖励为目的进行动态的调度决策,并作出实际的调度动作;
步骤S4:重复步骤S2~S3直到奖励收敛,输出最终的调度方案;
所述特征提取网络能够将生产环境中的传感器输出提取为便于后续动态目标权重学习网络及决策网络使用的特征向量;所述动态目标权重学习网络根据特征提取网络提取出的特征学习出适应动态生产目标的权重;所述决策网络根据特征提取网络提取出的特征及态目标权重学习网络学习出的动态权重进行实际决策;
所述步骤S3的奖励r的计算方法为:r=ω1r1+ω2r2+…+ωnrn;
其中,r1,…,rn为针对不同的优化目标所预设的奖励函数;w1,…,wn分别为与各目标奖励函数r1,…,rn相联系的动态权重;
所述奖励函数中各目标权值以最大化累积奖励为目标,通过反向传播,利用Adam算法进行微调。
所述步骤S1中的数学模型包括:建立生产数据与待优化目标相关性的函数,各待优化目标相应的奖励函数、损失函数,以及所建立的数学模型需要满足约束条件。通过前期收集大量数据,搭建数据库,并预训练所述智能体,使得所述智能体能够在实时应用中进行调度。
所述智能体的特征提取网络、动态目标权重学习网络在训练阶段根据Loss更新权重,应用阶段保持不变;所述决策网络根据特征提取网络在训练阶段根据Loss更新权重,应用阶段在策略模型连续输出错误策略才会对其进行更新,否则保持不变。
奖励函数的各个权重分别确定了每个需优化的目标在智能体进行决策过程中的重要程度。
作为本发明的优选实施方式,所述步骤S1中,智能体的预训练方法包括通过Adam算法对智能体进行训练,使得Loss更小,累积奖励r更大;所述损失函数为:
Loss=W1L1+W2L2+…+WnLn;
其中,L1,…,Ln为针对不同的优化目标所预设的损失函数;W1,…,Wn分别为与各目标损失函数相联系的动态权重;
所述与损失函数L1,…,Ln相联系的权重的初始值根据经验设定,通过Adam算法进行微调。
智能体的损失函数和奖励函数的初始权重根据经验设定,奖励函数的权重在预训练阶段得到初步确定,后续根据实际微调;损失函数的权重在预训练阶段得到最终确定。
预训练的最初始阶段,对三个网络都进行随机初始化,用随机初始化的网络去和调度环境进行交互,此时做出的调度策略为随机策略;交互之后调度环境会给智能体反馈,智能体通过Loss的大小以及奖励r来调整网络参数,调整的目标就是Loss更小,累计r更大。
作为本发明的优选实施方式,所述L1,…,Ln具体为(yn-Qn(s,a))2,其中yn表示第n个损失函数中智能体对动作价值的估计,Qn(s,a)表示第n个损失函数中实际的动作价值函数。
作为本发明的优选实施方式,所述智能体的预训练包括利用损失函数对智能体进行训练,直到当Loss收敛到0.05或者交互1万局,停止训练。
作为本发明的优选实施方式,所述奖励函数中,所述r1,…,rn具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数,并采用0均值标准化方法对齐进行标准化。
作为本发明的优选实施方式,所述步骤S1中所需优化目标包括:最大完工时间、加工机器的负荷和加工所需能耗;对应的数学模型为:目标函数min f(x)=min Makespan+minWork+min E;其中,minMakespan为最小化最大完工时间,minWork为最小化加工机器的负荷,min E为最小化加工所需能耗;
根据特定的车间调度问题所建立的数学模型需要满足约束条件为:每台机器的完工时间为正值,加工机器的负荷为非负值,加工所需能耗为非负值,即Makespan>0,Work≥0,E≥0。
作为本发明的优选实施方式,步骤S2中所述的传感器包括:温湿度传感器、摄像头、电流传感器、电压传感器。
作为本发明的优选实施方式,步骤S3中所述的调度动作为:为已在机器上完成某一道工序、在待加工队列上等待后续加工步骤的工件安排后续的加工机器及设置合理的加工路线。
所述调度动作为智能体在前期预训练过程中从收集数据中习得的关于不同工件可进行的工序、加工路线的组合,以供决策时进行选择。
作为本发明的优选实施方式,所述步骤S3通过强化学习算法ARDQN(adaptivereward deep Q-network)实现,其中构建的马尔科夫过程 为:
状态包含当前时刻生产环境信息的析取图的特征向量,该特征向量由特征提取网络从原始生产环境传感器数据学习得来;
动作启发式调度规则;
转移函数根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数奖励函数设置为可根据不同时刻的不同目标而由自动学习得来的动态加权奖励;
策略函数π(s,a):在当前状态s下,执行动作a的概率;
具体地,π(s,a)=max(Rt+1+λmaxaQ(St+1,a)),
其中,λ表示衰减系数,表征了调度过程中对未来效率的关心程度;Q表示的是实际的动作价值函数。
λ越大,表示越关心未来效率,一般设置为0.99,Q表示的是对状态动作对的估计,由神经网络学习得到,体现了在当前状态下对所有可能做出的动作的好坏的判断,可见最终得出的调度策略会根据动态奖励函数实时调整,反映了算法根据目标实时调整策略的能力。
相应地,本发明还要求保护一种基于强化学习的多目标权重学习的车间调度装置,所述装置用于执行所述基于强化学习的多目标权重学习的车间调度方法。
进一步地,本发明还要求保护所述装置在车间调度优化过程中的用途。
本发明提出了一种基于强化学习的多目标权重学习车间调度方法,通过不断收集、分析车间中的不同目标所衍生的状态数据,进而对多个目标的调度进行不断优化,最终得到最优的调度方式,从而有效优化了车间作业流程,提高生产效率。本发明可根据实际状态调整不同优化目标的优先程度,动态性更强,可更好应对不同生产状况;本发明所获得的调度结果与传统的解决多目标车间调度问题的方法相比更佳,对人工智能更好地用于生产具有重要的意义。
附图说明
图1为本发明一种基于强化学习的多目标权重学习车间调度方法的流程图。
具体实施方式
为更好的说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明作进一步说明。
实施例1
本发明一种基于强化学习的多目标权重学习车间调度方法,其流程如图1所示,包括如下步骤:
步骤S1:根据实际的车间生产所需优化的目标,建立包含多个待优化目标数学模型的智能体,所述智能体包括特征提取网络、动态目标权重学习网络和决策网络;对智能体进行预训练;
所述特征提取网络能够将生产环境中的传感器输出提取为便于后续动态目标权重学习网络及决策网络使用的特征向量;所述动态目标权重学习网络根据特征提取网络提取出的特征学习出适应动态生产目标的权重;所述决策网络根据特征提取网络提取出的特征及态目标权重学习网络学习出的动态权重进行实际决策;
以最大完工时间、加工机器的负荷和加工所需能耗作为优化目标,所对应的数学模型为目标函数min f(x)=min Makespan+min Work+min E;其中,min Makespan为最小化最大完工时间,min Work为最小化加工机器的负荷,min E为最小化加工所需能耗;且每台机器的完工时间为正值,加工机器的负荷为非负值,加工所需能耗为非负值,即Makespan>0,Work≥0,E≥0。
收集以往的生产数据,包括:Makespan、Work、E、车间内的温度、湿度、图像信息、电压、电流,机器生产情况、剩余工作量,车间内突发的动态事件以及车间调度方案等,搭建数据库,通过数据库预训练所述智能体,使得所述智能体能够在实时应用中进行调度。
所述智能体的预训练方法还包括通过Adam算法对智能体进行训练,使得Loss更小,累积奖励r更大,直到当Loss收敛到0.05或者交互1万局,停止训练;
所述损失函数为:Loss=W1L1+W2L2+…+WnLn;
其中,L1,…,Ln为针对不同的优化目标所预设的损失函数;W1,…,Wn分别为与各目标损失函数L1,…,Ln相联系的动态权重;所述L1,…,Ln具体为(yn-Qn(s,a))2,其中yn表示第n个损失函数中智能体对动作价值的估计,Qn(s,a)表示第n个损失函数中实际的动作价值函数。
所述奖励r的计算方法为:r=ω1r1+ω2r2+…+ωnrn;
其中,r1,…,rn为针对不同的优化目标所预设的奖励函数;w1,…,wn分别为与各目标奖励函数r1,…,rn相联系的动态权重;所述r1,…,rn具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数,并采用0均值标准化方法对齐进行标准化。
智能体的损失函数和奖励函数的初始权重根据经验设定,奖励函数的权重在预训练阶段得到初步确定,后续根据实际微调;损失函数的权重在预训练阶段得到最终确定。
步骤S2:利用部署在车间的传感器实时捕获车间的生产状态,转化为相应的实时生产数据,并输入到智能体中;
所述传感器包括:温湿度传感器RS485、摄像头3T27EWD-L、电流传感器SIN-DJI-1000A和电压传感器JXT21VD;所述生产数据包括车间内的温度、湿度、图像信息、电压、电流等。
步骤S3:智能体利用所收集到的实时生产数据得到所需优化目标的状态,计算相应的奖励r,并利用Adam算法对各所需优化目标的奖励函数的权重进行更新;智能体以获得更高的奖励为目的进行动态的调度决策,并作出实际的调度动作:对待安排的工件安排后续的加工机器及设置合理的加工路线;
所述智能体的特征提取网络、动态目标权重学习网络在训练阶段根据Loss更新权重,应用阶段保持不变;所述决策网络根据特征提取网络在训练阶段根据Loss更新权重,应用阶段在策略模型连续输出错误策略才会对其进行更新,否则保持不变。
所述步骤S3通过强化学习算法ARDQN(adaptive reward deep Q-network)实现,其中构建的马尔科夫过程为:
状态包含当前时刻生产环境信息的析取图的特征向量,该特征向量由特征提取网络从原始生产环境传感器数据学习得来;
动作启发式调度规则;
转移函数根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数奖励函数设置为可根据不同时刻的不同目标而由自动学习得来的动态加权奖励;
策略函数π(s,a):在当前状态s下,执行动作a的概率;
具体地,π(s,a)=max(Rt+1+λmaxaQ(St+1,a)),
其中,λ表示衰减系数,表征了调度过程中对未来效率的关心程度;Q表示实际的动作价值函数。
λ越大,表示越关心未来效率,一般设置为0.99,Q表示的是对状态动作对的估计,由神经网络学习得到,体现了在当前状态下对所有可能做出的动作的好坏的判断,可见最终得出的调度策略会根据动态奖励函数实时调整,反映了算法根据目标实时调整策略的能力。
步骤S4:重复步骤S2、S3直到奖励收敛,输出最终的调度方案。
本发明可根据实际状态调整不同优化目标优先程度,动态性更强,可更好应对不同生产状况;本发明所获得的调度结果与传统的解决多目标车间调度问题的方法(包括调度规则、遗传算法、模拟退火等传统方法)更佳。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (7)
1.一种基于强化学习的多目标权重学习的车间调度方法,其特征在于,包括如下步骤:
步骤S1:根据实际的车间生产所需优化的目标,建立包含多个待优化目标数学模型的智能体,所述智能体包括特征提取网络、动态目标权重学习网络和决策网络;对智能体进行预训练;
步骤S2:利用部署在车间的传感器实时捕获车间的生产状态,转化为相应的实时生产数据,并输入到智能体中;
步骤S3:智能体利用所收集到的实时生产数据计算奖励r,以获得更高的奖励为目的进行动态的调度决策,并作出实际的调度动作;
步骤S4:重复步骤S2、S3直到奖励收敛,输出最终的调度方案;
所述特征提取网络能够将生产环境中的传感器输出提取为便于后续动态目标权重学习网络及决策网络使用的特征向量;所述动态目标权重学习网络根据特征提取网络提取出的特征学习出适应动态生产目标的权重;所述决策网络根据特征提取网络提取出的特征及态目标权重学习网络学习出的动态权重进行实际决策;
所述步骤S3的奖励r的计算方法为:r=ω1r1+ω2r2+…+ωnrn;
其中,r1,…,rn为针对不同的优化目标所预设的奖励函数;ω1,…,ωn分别为与各目标奖励函数r1,…,rn相联系的动态权重;
所述奖励函数中各目标权值以最大化累积奖励为目标,通过反向传播,利用Adam算法进行微调;
所述步骤S1中,智能体的预训练方法包括通过Adam算法对智能体进行训练,使得Loss更小,累积奖励r更大;损失函数Loss为:
Loss=W1L1+W2L2+…+WnLn;
其中,L1,…,Ln为针对不同的优化目标所预设的损失函数;W1,…,Wn分别为与各目标损失函数L1,…,Ln相联系的动态权重;
所述与损失函数L1,…,Ln相联系的权重的初始值根据经验设定,通过Adam算法进行微调;
所述智能体的预训练包括利用损失函数对智能体进行预训练,直到当Loss收敛到0.05或者交互1万局,停止训练;
所述步骤S3通过强化学习算法ARDQN(adaptive reward deep Q-network)实现,其中构建的马尔科夫过程为:
状态包含当前时刻生产环境信息的析取图的特征向量,该特征向量由特征提取网络从原始生产环境传感器数据学习得来;
动作启发式调度规则;
转移函数根据选择的启发式规则a在当前状态s下调度k步,其中k为可调超参数;
奖励函数奖励函数设置为可根据不同时刻的不同目标而由自动学习得来的动态加权奖励;
策略函数π(s,a):在当前状态s下,执行动作a的概率;
具体地,π(s,a)=max(Rt+1+λmaxaQ(St+1,a)),
其中,λ表示衰减系数,表征了调度过程中对未来效率的关心程度;Q表示的是实际的动作价值函数。
2.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法,其特征在于,所述L1,…,Ln具体为(yn-Qn(s,a))2,其中yn表示第n个损失函数中智能体对动作价值的估计,Qn(s,a)表示第n个损失函数中实际的动作价值函数。
3.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法,其特征在于,所述奖励函数中,所述r1,…,rn具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数,并采用0均值标准化方法对齐进行标准化。
4.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法,其特征在于,所述步骤S1中所需优化目标包括:最大完工时间、加工机器的负荷和加工所需能耗;对应的数学模型为:
目标函数min f(x)=min Maskespan+min Work+min E;
其中,minMakespan为最小化最大完工时间,minWork为最小化加工机器的负荷,min E为最小化加工所需能耗;
根据特定的车间调度问题所建立的数学模型需要满足约束条件为:每台机器的完工时间为正值,加工机器的负荷为非负值,加工所需能耗为非负值,即Makespan>0,Work≥0,E≥0。
5.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法,其特征在于,步骤S2中所述传感器包括:温湿度传感器、摄像头、电流传感器、电压传感器;步骤S3中所述的调度动作为:为已在机器上完成某一道工序、在待加工队列上等待后续加工步骤的工件安排后续的加工机器及设置合理的加工路线。
6.一种基于强化学习的多目标权重学习的车间调度装置,其特征在于,所述装置用于执行如权利要求1-5任一项所述方法。
7.如权利要求6所述装置在车间调度优化过程中的用途。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211456989.8A CN116307440B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211456989.8A CN116307440B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116307440A CN116307440A (zh) | 2023-06-23 |
CN116307440B true CN116307440B (zh) | 2023-11-17 |
Family
ID=86792940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211456989.8A Active CN116307440B (zh) | 2022-11-21 | 2022-11-21 | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307440B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118070949A (zh) * | 2024-01-29 | 2024-05-24 | 江西理工大学 | 一种机器视角下的多目标动态调度优化方法 |
CN117973635B (zh) * | 2024-03-28 | 2024-06-07 | 中科先进(深圳)集成技术有限公司 | 决策预测方法、电子设备以及计算机可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101695A (zh) * | 2019-06-17 | 2020-12-18 | 唯慕思解决方案株式会社 | 强化学习及基于模拟的工厂内调度方法以及其装置 |
CN112149987A (zh) * | 2020-09-17 | 2020-12-29 | 清华大学 | 基于深度强化学习的多目标柔性作业车间调度方法和装置 |
CN113792924A (zh) * | 2021-09-16 | 2021-12-14 | 郑州轻工业大学 | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 |
CN114186749A (zh) * | 2021-12-16 | 2022-03-15 | 暨南大学 | 基于强化学习及遗传算法的柔性车间调度方法及模型 |
CN114219274A (zh) * | 2021-12-13 | 2022-03-22 | 南京理工大学 | 一种基于深度强化学习适应机器状态的车间调度方法 |
CN114565247A (zh) * | 2022-02-17 | 2022-05-31 | 华中科技大学 | 一种基于深度强化学习的车间调度方法、装置和系统 |
CN114580937A (zh) * | 2022-03-10 | 2022-06-03 | 暨南大学 | 基于强化学习和注意力机制的智能作业调度系统 |
CN114707881A (zh) * | 2022-04-18 | 2022-07-05 | 贵州大学 | 一种基于深度强化学习的作业车间自适应调度方法 |
CN115021325A (zh) * | 2022-06-22 | 2022-09-06 | 合肥工业大学 | 基于ddpg算法的光伏逆变器多目标优化方法 |
CN115204497A (zh) * | 2022-07-19 | 2022-10-18 | 山东建筑大学 | 一种基于强化学习的预制构件生产调度优化方法及系统 |
CN115333143A (zh) * | 2022-07-08 | 2022-11-11 | 国网黑龙江省电力有限公司大庆供电公司 | 基于双神经网络的深度学习多智能体微电网协同控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200334565A1 (en) * | 2019-04-16 | 2020-10-22 | Siemens Aktiengesellschaft | Maximum entropy regularised multi-goal reinforcement learning |
-
2022
- 2022-11-21 CN CN202211456989.8A patent/CN116307440B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101695A (zh) * | 2019-06-17 | 2020-12-18 | 唯慕思解决方案株式会社 | 强化学习及基于模拟的工厂内调度方法以及其装置 |
CN112149987A (zh) * | 2020-09-17 | 2020-12-29 | 清华大学 | 基于深度强化学习的多目标柔性作业车间调度方法和装置 |
CN113792924A (zh) * | 2021-09-16 | 2021-12-14 | 郑州轻工业大学 | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 |
CN114219274A (zh) * | 2021-12-13 | 2022-03-22 | 南京理工大学 | 一种基于深度强化学习适应机器状态的车间调度方法 |
CN114186749A (zh) * | 2021-12-16 | 2022-03-15 | 暨南大学 | 基于强化学习及遗传算法的柔性车间调度方法及模型 |
CN114565247A (zh) * | 2022-02-17 | 2022-05-31 | 华中科技大学 | 一种基于深度强化学习的车间调度方法、装置和系统 |
CN114580937A (zh) * | 2022-03-10 | 2022-06-03 | 暨南大学 | 基于强化学习和注意力机制的智能作业调度系统 |
CN114707881A (zh) * | 2022-04-18 | 2022-07-05 | 贵州大学 | 一种基于深度强化学习的作业车间自适应调度方法 |
CN115021325A (zh) * | 2022-06-22 | 2022-09-06 | 合肥工业大学 | 基于ddpg算法的光伏逆变器多目标优化方法 |
CN115333143A (zh) * | 2022-07-08 | 2022-11-11 | 国网黑龙江省电力有限公司大庆供电公司 | 基于双神经网络的深度学习多智能体微电网协同控制方法 |
CN115204497A (zh) * | 2022-07-19 | 2022-10-18 | 山东建筑大学 | 一种基于强化学习的预制构件生产调度优化方法及系统 |
Non-Patent Citations (2)
Title |
---|
Reinforcement learning for online optimization of job-shop scheduling in a smart manufacturing factory;Tong Zhou et al.;Advances in Mechanical Engineering;Vol.14(3);1-19 * |
应用强化学习算法求解置换流水车间调度问题;张东阳 等;计算机系统应用(第12期);199-203 * |
Also Published As
Publication number | Publication date |
---|---|
CN116307440A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116307440B (zh) | 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用 | |
CN107767022B (zh) | 一种生产数据驱动的动态作业车间调度规则智能选择方法 | |
CN107272403A (zh) | 一种基于改进粒子群算法的pid控制器参数整定算法 | |
CN110963209A (zh) | 一种基于深度强化学习的垃圾分拣装置与方法 | |
CN112883652B (zh) | 考虑动态尾流的风电场有功功率离线预测控制器设计方法 | |
CN103871002B (zh) | 基于自适应蜂群算法的风电功率预测方法及装置 | |
CN112131206B (zh) | 一种多模型数据库OrientDB参数配置自动调优方法 | |
CN114444648A (zh) | 一种基于强化学习和粒子群算法的智能寻优方法 | |
CN111160755B (zh) | 一种基于dqn的飞机大修车间实时调度方法 | |
CN110097929A (zh) | 一种高炉铁水硅含量在线预测方法 | |
WO2024113585A1 (zh) | 一种面向离散制造系统的智能交互式决策方法 | |
CN114065929A (zh) | 一种深度强化学习模型的训练方法、装置及存储介质 | |
CN114880806A (zh) | 基于粒子群优化的新能源汽车销量预测模型参数优化方法 | |
CN117970782B (zh) | 一种基于鱼鳞进化gsom改进的模糊pid控制方法 | |
CN113283755B (zh) | 一种车间智能调度决策方法 | |
CN117893043A (zh) | 一种基于ddpg算法和深度学习模型的水电站负荷分配方法 | |
CN114219274A (zh) | 一种基于深度强化学习适应机器状态的车间调度方法 | |
CN117495052A (zh) | 强化学习与遗传算法融合驱动的多农机多任务调度方法 | |
CN116722541A (zh) | 一种基于卷积神经网络的电力系统负荷预测方法及装置 | |
CN113110061B (zh) | 基于改进粒子群算法优化的智能灌溉模糊控制方法及系统 | |
CN115526504A (zh) | 泵站供水系统节能调度方法、系统、电子设备及存储介质 | |
Koszaka et al. | An idea of using reinforcement learning in adaptive control systems | |
Huang et al. | Transfer Function Model Identification Based on Improved Least Square Method | |
Sun | Research on PID Control of BP Neural Networks Based on PSO Optimization | |
Aghababa et al. | Application of modified shuffled frog leaping algorithm for robot optimal controller design |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |