CN116307440B

CN116307440B - 一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用

Info

Publication number: CN116307440B
Application number: CN202211456989.8A
Authority: CN
Inventors: 郭洪飞; 欧阳雅捷; 曾云辉; 闫志航; 宁延超; 韦雨佳; 阎龙; 朝宝
Original assignee: Guangdong Yunentropy Technology Co ltd; Jinan University
Current assignee: Guangdong Yunentropy Technology Co ltd; Jinan University
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2023-11-17
Anticipated expiration: 2042-11-21
Also published as: CN116307440A

Abstract

本发明公开了一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用，属于人工智能技术领域。本发明提出了一种基于强化学习的多目标权重学习车间调度方法，通过不断收集、分析车间中的不同目标所衍生的状态数据，进而对多个目标的调度进行不断优化，最终得到最优的调度方式，从而有效优化了车间作业流程，提高生产效率；本发明可根据实际生产状态调整不同优化目标的优先程度，动态性更强，可更好应对不同生产状况；本发明所获得的调度结果与传统的解决多目标车间调度问题的方法相比更佳，对人工智能更好地用于生产具有重要的意义。

Description

一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用

技术领域

本发明属于人工智能领域，涉及人工智能中强化学习算法在动态作业车间调度问题中的应用，具体涉及一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用。

背景技术

多目标优化问题(Multi-objective Optimization Problem，MOP)，MOP问题通常被描述为：在可行范围内，通过满足事先约定好的多个约束条件，求解出决策向量，使其得到由多个目标函数组成的新的向量的最大值或最小值问题。但多目标优化问题中众多的目标函数往往是相斥的，不可能存在每个目标函数都能达到最优的情况，所以多目标优化应该是在满足所有约束条件的前提下让尽量多的目标函数达到最优解，从而找到整个函数的最优解。多目标优化是生产中的一个重要问题，对于提高生产有重要的意义，尤其是当多个目标之间的重要程度在动态变化时，将无法直接通过人工计算、分析来实现。而人工智能由于其算力高，大大降低了其难度。

发明内容

针对上述问题，本发明的目的是提供一种基于强化学习的多目标权重学习的车间调度方法及其装置和应用。

为实现上述目的，本发明采取的技术方案为：一种基于强化学习的多目标权重学习的车间调度方法，包括如下步骤：

步骤S1：根据实际的车间生产所需优化的目标，建立包含多个待优化目标数学模型的智能体，所述智能体包括特征提取网络、动态目标权重学习网络和决策网络；对智能体进行预训练；

步骤S2：利用部署在车间的传感器实时捕获车间的生产状态，转化为相应的实时生产数据，并输入到智能体中；

步骤S3：智能体利用所收集到的实时生产数据计算奖励r，以获得更高的奖励为目的进行动态的调度决策，并作出实际的调度动作；

步骤S4：重复步骤S2～S3直到奖励收敛，输出最终的调度方案；

所述特征提取网络能够将生产环境中的传感器输出提取为便于后续动态目标权重学习网络及决策网络使用的特征向量；所述动态目标权重学习网络根据特征提取网络提取出的特征学习出适应动态生产目标的权重；所述决策网络根据特征提取网络提取出的特征及态目标权重学习网络学习出的动态权重进行实际决策；

所述步骤S3的奖励r的计算方法为：r＝ω₁r₁+ω₂r₂+…+ω_nr_n；

其中，r₁，…，r_n为针对不同的优化目标所预设的奖励函数；w₁，…，w_n分别为与各目标奖励函数r₁，…，r_n相联系的动态权重；

所述奖励函数中各目标权值以最大化累积奖励为目标，通过反向传播，利用Adam算法进行微调。

所述步骤S1中的数学模型包括：建立生产数据与待优化目标相关性的函数，各待优化目标相应的奖励函数、损失函数，以及所建立的数学模型需要满足约束条件。通过前期收集大量数据，搭建数据库，并预训练所述智能体，使得所述智能体能够在实时应用中进行调度。

所述智能体的特征提取网络、动态目标权重学习网络在训练阶段根据Loss更新权重，应用阶段保持不变；所述决策网络根据特征提取网络在训练阶段根据Loss更新权重，应用阶段在策略模型连续输出错误策略才会对其进行更新，否则保持不变。

奖励函数的各个权重分别确定了每个需优化的目标在智能体进行决策过程中的重要程度。

作为本发明的优选实施方式，所述步骤S1中，智能体的预训练方法包括通过Adam算法对智能体进行训练，使得Loss更小，累积奖励r更大；所述损失函数为：

Loss＝W₁L₁+W₂L₂+…+W_nL_n；

其中，L₁，…，L_n为针对不同的优化目标所预设的损失函数；W₁，…，W_n分别为与各目标损失函数相联系的动态权重；

所述与损失函数L₁，…，L_n相联系的权重的初始值根据经验设定，通过Adam算法进行微调。

智能体的损失函数和奖励函数的初始权重根据经验设定，奖励函数的权重在预训练阶段得到初步确定，后续根据实际微调；损失函数的权重在预训练阶段得到最终确定。

预训练的最初始阶段，对三个网络都进行随机初始化，用随机初始化的网络去和调度环境进行交互，此时做出的调度策略为随机策略；交互之后调度环境会给智能体反馈，智能体通过Loss的大小以及奖励r来调整网络参数，调整的目标就是Loss更小，累计r更大。

作为本发明的优选实施方式，所述L₁，…，L_n具体为(y_n-Q_n(s，a))²，其中y_n表示第n个损失函数中智能体对动作价值的估计，Q_n(s，a)表示第n个损失函数中实际的动作价值函数。

作为本发明的优选实施方式，所述智能体的预训练包括利用损失函数对智能体进行训练，直到当Loss收敛到0.05或者交互1万局，停止训练。

作为本发明的优选实施方式，所述奖励函数中，所述r₁，…，r_n具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数，并采用0均值标准化方法对齐进行标准化。

作为本发明的优选实施方式，所述步骤S1中所需优化目标包括：最大完工时间、加工机器的负荷和加工所需能耗；对应的数学模型为：目标函数min f(x)＝min Makespan+minWork+min E；其中，minMakespan为最小化最大完工时间，minWork为最小化加工机器的负荷，min E为最小化加工所需能耗；

根据特定的车间调度问题所建立的数学模型需要满足约束条件为：每台机器的完工时间为正值，加工机器的负荷为非负值，加工所需能耗为非负值，即Makespan>0，Work≥0，E≥0。

作为本发明的优选实施方式，步骤S2中所述的传感器包括：温湿度传感器、摄像头、电流传感器、电压传感器。

作为本发明的优选实施方式，步骤S3中所述的调度动作为：为已在机器上完成某一道工序、在待加工队列上等待后续加工步骤的工件安排后续的加工机器及设置合理的加工路线。

所述调度动作为智能体在前期预训练过程中从收集数据中习得的关于不同工件可进行的工序、加工路线的组合，以供决策时进行选择。

作为本发明的优选实施方式，所述步骤S3通过强化学习算法ARDQN(adaptivereward deep Q-network)实现，其中构建的马尔科夫过程为：

状态包含当前时刻生产环境信息的析取图的特征向量，该特征向量由特征提取网络从原始生产环境传感器数据学习得来；

动作启发式调度规则；

转移函数根据选择的启发式规则a在当前状态s下调度k步，其中k为可调超参数；

奖励函数奖励函数设置为可根据不同时刻的不同目标而由自动学习得来的动态加权奖励；

策略函数π(s,a)：在当前状态s下，执行动作a的概率；

具体地，π(s,a)＝max(R_t+1+λmax_aQ(S_t+1,a))，

其中，λ表示衰减系数，表征了调度过程中对未来效率的关心程度；Q表示的是实际的动作价值函数。

λ越大，表示越关心未来效率，一般设置为0.99，Q表示的是对状态动作对的估计，由神经网络学习得到，体现了在当前状态下对所有可能做出的动作的好坏的判断，可见最终得出的调度策略会根据动态奖励函数实时调整，反映了算法根据目标实时调整策略的能力。

相应地，本发明还要求保护一种基于强化学习的多目标权重学习的车间调度装置，所述装置用于执行所述基于强化学习的多目标权重学习的车间调度方法。

进一步地，本发明还要求保护所述装置在车间调度优化过程中的用途。

本发明提出了一种基于强化学习的多目标权重学习车间调度方法，通过不断收集、分析车间中的不同目标所衍生的状态数据，进而对多个目标的调度进行不断优化，最终得到最优的调度方式，从而有效优化了车间作业流程，提高生产效率。本发明可根据实际状态调整不同优化目标的优先程度，动态性更强，可更好应对不同生产状况；本发明所获得的调度结果与传统的解决多目标车间调度问题的方法相比更佳，对人工智能更好地用于生产具有重要的意义。

附图说明

图1为本发明一种基于强化学习的多目标权重学习车间调度方法的流程图。

具体实施方式

为更好的说明本发明的目的、技术方案和优点，下面将结合附图和具体实施例对本发明作进一步说明。

实施例1

本发明一种基于强化学习的多目标权重学习车间调度方法，其流程如图1所示，包括如下步骤：

以最大完工时间、加工机器的负荷和加工所需能耗作为优化目标，所对应的数学模型为目标函数min f(x)＝min Makespan+min Work+min E；其中，min Makespan为最小化最大完工时间，min Work为最小化加工机器的负荷，min E为最小化加工所需能耗；且每台机器的完工时间为正值，加工机器的负荷为非负值，加工所需能耗为非负值，即Makespan>0，Work≥0，E≥0。

收集以往的生产数据，包括：Makespan、Work、E、车间内的温度、湿度、图像信息、电压、电流，机器生产情况、剩余工作量，车间内突发的动态事件以及车间调度方案等，搭建数据库，通过数据库预训练所述智能体，使得所述智能体能够在实时应用中进行调度。

所述智能体的预训练方法还包括通过Adam算法对智能体进行训练，使得Loss更小，累积奖励r更大，直到当Loss收敛到0.05或者交互1万局，停止训练；

所述损失函数为：Loss＝W₁L₁+W₂L₂+…+W_nL_n；

其中，L₁，…，L_n为针对不同的优化目标所预设的损失函数；W₁，…，W_n分别为与各目标损失函数L₁，…，L_n相联系的动态权重；所述L₁，…，L_n具体为(y_n-Q_n(s，a))²，其中y_n表示第n个损失函数中智能体对动作价值的估计，Q_n(s，a)表示第n个损失函数中实际的动作价值函数。

所述奖励r的计算方法为：r＝ω₁r₁+ω₂r₂+…+ω_nr_n；

其中，r₁，…，r_n为针对不同的优化目标所预设的奖励函数；w₁，…，w_n分别为与各目标奖励函数r₁，…，r_n相联系的动态权重；所述r₁，…，r_n具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数，并采用0均值标准化方法对齐进行标准化。

所述传感器包括：温湿度传感器RS485、摄像头3T27EWD-L、电流传感器SIN-DJI-1000A和电压传感器JXT21VD；所述生产数据包括车间内的温度、湿度、图像信息、电压、电流等。

步骤S3：智能体利用所收集到的实时生产数据得到所需优化目标的状态，计算相应的奖励r，并利用Adam算法对各所需优化目标的奖励函数的权重进行更新；智能体以获得更高的奖励为目的进行动态的调度决策，并作出实际的调度动作：对待安排的工件安排后续的加工机器及设置合理的加工路线；

所述步骤S3通过强化学习算法ARDQN(adaptive reward deep Q-network)实现，其中构建的马尔科夫过程为：

动作启发式调度规则；

策略函数π(s,a)：在当前状态s下，执行动作a的概率；

具体地，π(s,a)＝max(R_t+1+λmax_aQ(S_t+1,a))，

其中，λ表示衰减系数，表征了调度过程中对未来效率的关心程度；Q表示实际的动作价值函数。

步骤S4：重复步骤S2、S3直到奖励收敛，输出最终的调度方案。

本发明可根据实际状态调整不同优化目标优先程度，动态性更强，可更好应对不同生产状况；本发明所获得的调度结果与传统的解决多目标车间调度问题的方法(包括调度规则、遗传算法、模拟退火等传统方法)更佳。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于强化学习的多目标权重学习的车间调度方法，其特征在于，包括如下步骤：

步骤S4：重复步骤S2、S3直到奖励收敛，输出最终的调度方案；

其中，r₁，…，r_n为针对不同的优化目标所预设的奖励函数；ω₁，…，ω_n分别为与各目标奖励函数r₁，…，r_n相联系的动态权重；

所述奖励函数中各目标权值以最大化累积奖励为目标，通过反向传播，利用Adam算法进行微调；

所述步骤S1中，智能体的预训练方法包括通过Adam算法对智能体进行训练，使得Loss更小，累积奖励r更大；损失函数Loss为：

Loss＝W₁L₁+W₂L₂+…+W_nL_n；

其中，L₁，…，L_n为针对不同的优化目标所预设的损失函数；W₁，…，W_n分别为与各目标损失函数L₁，…，L_n相联系的动态权重；

所述与损失函数L₁，…，L_n相联系的权重的初始值根据经验设定，通过Adam算法进行微调；

所述智能体的预训练包括利用损失函数对智能体进行预训练，直到当Loss收敛到0.05或者交互1万局，停止训练；

动作启发式调度规则；

策略函数π(s,a)：在当前状态s下，执行动作a的概率；

具体地，π(s,a)＝max(Rt+1+λmaxaQ(St+1,a))，

2.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法，其特征在于，所述L₁，…，L_n具体为(y_n-Q_n(s，a))²，其中y_n表示第n个损失函数中智能体对动作价值的估计，Q_n(s，a)表示第n个损失函数中实际的动作价值函数。

3.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法，其特征在于，所述奖励函数中，所述r₁，…，r_n具体分别为最大完工时间、加工机器的负荷和加工所需能耗的相反数，并采用0均值标准化方法对齐进行标准化。

4.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法，其特征在于，所述步骤S1中所需优化目标包括：最大完工时间、加工机器的负荷和加工所需能耗；对应的数学模型为：

目标函数min f(x)＝min Maskespan+min Work+min E；

其中，minMakespan为最小化最大完工时间，minWork为最小化加工机器的负荷，min E为最小化加工所需能耗；

5.如权利要求1所述基于强化学习的多目标权重学习的车间调度方法，其特征在于，步骤S2中所述传感器包括：温湿度传感器、摄像头、电流传感器、电压传感器；步骤S3中所述的调度动作为：为已在机器上完成某一道工序、在待加工队列上等待后续加工步骤的工件安排后续的加工机器及设置合理的加工路线。

6.一种基于强化学习的多目标权重学习的车间调度装置，其特征在于，所述装置用于执行如权利要求1-5任一项所述方法。

7.如权利要求6所述装置在车间调度优化过程中的用途。