CN116414093A

CN116414093A - 基于物联网系统和强化学习的车间生产方法

Info

Publication number: CN116414093A
Application number: CN202310393809.4A
Authority: CN
Inventors: 郭洪飞; 杨博文; 曾云辉; 黄祖艺; 王威
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-07-11
Anticipated expiration: 2043-04-13
Also published as: CN116414093B

Abstract

本发明提出了一种基于物联网系统和强化学习的车间生产方法，包括：部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统；中央数据处理系统对多模态数据进行预处理；对预处理后的数据进行特征提取和融合；根据特征提取和融合的输出进行转化作为改进PPO算法的输入，使用PPO算法优化多目标柔性车间调度任务。本发明使用物联网设备收集实时生产数据，结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法，引入了一个长短时记忆神经网络处理多模态数据中的时序信息，并利用自注意力机制来自动识别关键信息，使用算法进行强化学习，在强化学习训练方法使用了一个多目标的奖励评价指标使得智能体可以满足多个目标的需求。

Description

基于物联网系统和强化学习的车间生产方法

技术领域

本发明属于物联网系统和强化学习的技术领域，尤其涉及基于物联网系统和强化学习的车间生产方法。

背景技术

随着现代制造业的快速发展，生产线的复杂性和动态性不断增加，导致生产调度成为一个具有挑战性的问题。柔性作业车间调度问题(FJSP)是生产调度领域的一个重要问题，其目标是确定各作业在不同机器上的加工顺序，以达到特定的优化目标。这些目标可能包括生产效率、能源消耗、等待时间等多个方面。为了解决多目标柔性作业车间调度问题，需要采用先进的方法来处理不同目标之间的权衡和制约。

近年来，物联网(IoT)技术在制造业中得到了广泛的应用，为实时监控生产过程提供了便利。物联网设备可以收集各种生产线数据，包括机器状态、作业进度、环境参数等。然而，如何有效地利用这些大量的多模态数据，提高生产调度的优化效果仍然是一个难题。

同时，强化学习作为一种智能优化方法，在解决复杂调度问题方面取得了显著的成果。但是，传统的强化学习方法往往难以直接应对多目标调度问题中的目标权衡问题。因此，需要对强化学习方法进行改进以适应多目标优化场景。

综上所述，目前尚缺乏一个有效的、可灵活处理多模态数据并解决多目标柔性作业车间调度问题的方法。因此，有必要开发一种基于物联网和强化学习技术的新颖方法，将多模态数据处理和优化算法相结合，实现多目标调度问题的高效解决。

发明内容

本发明的目的是提出一种基于物联网系统和强化学习的车间生产方法，使用物联网设备收集实时生产数据，并结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法。

为了达到上述目的，在本发明提供了基于物联网系统和强化学习的车间生产方法，所述方法包括：

步骤一、部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统；

步骤二、所述中央数据处理系统对多模态数据进行预处理；

步骤三、对预处理后的数据进行特征提取和融合；

所述预处理包括但不限于去噪、归一化和异常检测。

进一步地，所述方法还包括：

根据特征提取和融合的输出进行转化作为改进PPO算法的输入，使用所述PPO算法优化多目标柔性车间调度任务。

进一步地，所述传感器包括但不限于温度传感器、湿度传感器、声音传感器、振动传感器、光纤传感器和电流传感器；

所述温度传感器用于收集生产线上各机器和环境的温度数据；

所述湿度传感器用于收集生产线上各机器和环境的湿度数据；

所述声音传感器用于收集生产线上机器的声音数据；

所述振动传感器用于收集生产线上机器的振动数据；

所述光纤传感器用于收集机器上的位移、速度和加速度信息；

所述电流传感器用于收集机器的实时电流数据。

进一步地，所述多模态数据包括实时生产数据、历史生产数据和外部数据；

所述实时生产数据包括各机器和环境的温度数据、各机器和环境的湿度数据、机器的声音数据、机器的振动数据、位移、速度和加速度信息、机器的实时电流数据、机器状态数据、作业进度数据和能耗数据；

所述历史生产包括过去一段时间内的生产数据，用于捕捉生产过程中的周期性变化；

所述外部数据包括影响生产过程的数据。

进一步地，所述步骤三，具体包括：

步骤3.1、使用长短时记忆神经网络处理多模态数据中的时序信息，将实时生产数据、历史生产数据和外部数据作为输入，经过所述长短时记忆神经网络得到一个隐藏状态向量；在所述长短时记忆神经网络引入调节门，所述调节门对输入信息进行动态调节，实现了一个长短时记忆神经网络调节，组成新的长短时记忆神经网络结构，所述新的长短时记忆神经网络结构的具体计算过程具体为：

f_t＝σ(W_f·[h_(t-1),x_t]+b_f)

i_t＝σ(W_i·[h_(t-1),x_t]+b_i)

m_t＝σ(W_m₁·[h_(t-1),x_t]+b_m)

o_t＝σ(W_0·[h_(t-1),x_t]+b_)

h_t＝0_t*tanh(C_t)

其中，各个变量的物理含义如下：f_t表示遗忘门的激活值，决定了单元状态保留多少过去信息；i_t表示输入门的激活值，控制有多少新信息进入单元状态；m_t表示调节门的激活值，用于动态调整输入信息在单元状态中的贡献；

表示候选单元状态，包含当前时间步的输入信息；C_t表示更新后的单元状态，结合过去信息和新输入信息；o_t表示输出门的激活值，决定了单元状态中多少信息传递到下一层；h_t表示隐藏状态，表示LSTM的当前内部状态；

步骤3.2、计算注意力权重，将隐藏状态向量转换为一个加权和向量，在自注意力机制中引入距离敏感，在自注意力机制中加入了一个距离矩阵，修改后的距离敏感自注意力机制如下：

attention(Q,K,V,D)＝softmax((QK^T+D)/d_k)V

其中，Q表示查询矩阵，需要关注的目标信息；K表示键矩阵，用于匹配查询的上下文信息；V表示值矩阵，实际传递给下一层的上下文信息；D表示距离矩阵，不同时间步之间的距离信息；d_k表示键向量的维度，用于缩放注意力分数；T表示转置操作；

步骤3.3、使用一个内核典型相关分析来对多模态数据进行融合。

进一步地，所述步骤3.3包括以下步骤：

步骤3.3.1、对每种模态数据分别应用内核函数，所述内核函数将原始特征映射到更高维的特征空间；

步骤3.3.2、映射后的特征空间中，应用内核典型相关分析方法寻找两组变量之间的最大相关性；

步骤3.3.3、将每种模态特征投影到新的低维空间，形成融合特征。

进一步地，所述根据特征提取和融合的输出进行转化作为改进PPO算法的输入，使用所述PPO算法优化多目标柔性车间调度任务包括以下步骤：

步骤4.1、将加权和向量作为PPO算法的输入；

步骤4.2、设计平衡多个目标的奖励函数；

步骤4.3、训练强化学习智能体。

进一步地，所述步骤4.1包括以下步骤：

在PPO的损失函数中引入一个自适应权重因子α优化函数，所述PPO的损失函数L(θ)表示为：

L(θ)＝E_t[min(r_t(θ)A_t，clip(r_t(θ)，1-ε，1+ε)A_t)]-λ*H(π)+α*L_TD

其中，θ表示策略参数，代表智能体的策略；r_t(θ)表示策略比率，代表新策略与旧策略之间的相对概率；A_t表示优势函数，代表在给定状态下采取某个动作相对于平均动作的优势；ε表示裁剪参数，用于限制策略更新幅度；λ表示熵正则项的权重，用于控制探索与利用之间的平衡；H(π)表示策略熵，代表策略的不确定性；α表示自适应权重因子，用于平衡不同目标之间的优化；L_TD表示时间差分损失，代表智能体预测的状态值函数与实际状态值函数之间的误差。

进一步地，所述步骤4.2包括以下步骤：

对奖励函数引入熵正则项，增强智能体的探索能力，修改后的奖励函数如下：

R＝-w1*C_max-w2*W_total-w3*E_total+w4*H(π)

其中，C_max表示所有作业完成时间的最大值，所述最大值表示调度方案中最晚完成的作业所需的总时间；W_total表示所有作业的等待时间之和；E_total表示所有机器的能耗之和；w1、w2、w3分别表示用户定义的权重，用于表示对不同目标的偏好；w4表示熵正则项的权重，用于控制探索和利用之间的平衡；H(π)表示智能体策略的熵和策略的不确定性。

进一步地，所述步骤4.3包括以下步骤：

步骤4.3.1、初始化状态：将多模态数据输入LSTM层，并通过自注意力机制得到加权和向量；

步骤4.3.2、在回合内进行多次决策，具体步骤包括：

步骤a、使用PPO智能体根据加权和向量选择动作，调整作业优先级；

步骤b、使用优先级为每个操作选择一个机器并生成调度方案；

步骤c、计算C_max、W_total和E_total；

步骤d、计算奖励R＝-w1*C_max-w2*W_total-w3*E_total；

步骤e、更新PPO智能体

本发明的有益技术效果至少在于以下几点：

(1)在本发明专利中，我们使用物联网设备收集实时生产数据，并结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法。我们引入了一个长短时记忆神经网络(LSTM)来处理多模态数据中的时序信息，并利用自注意力机制(Self-AttentionMechanism)来自动识别关键信息。使用Proximal Policy Optimization(PPO)算法进行强化学习，在强化学习训练方法我们使用了一个多目标的奖励评价指标使得智能体可以满足多个目标的需求。

(2)物联网系统收集关键数据与多模态数据，然后这些关键数据与多模态数据处理模块生成的特征一起被用作强化学习模型的输入。通过整合这些数据，强化学习模型可以更好地理解生产线上的各个作业和机器之间的相互关系，从而学习到更优的调度策略。

(3)引入调节门，LSTM可以对输入信息进行动态调整，从而更好地捕获不同特征之间的相互作用。这种创新对于多目标柔性车间调度任务来说是有效的，因为这种任务通常涉及多种输入特征(如作业处理时间、机器状态等)，而这些特征之间的相互作用对调度决策具有重要影响。通过增强LSTM的表达能力，我们可以更好地理解这些特征之间的关系，从而在多目标柔性车间调度任务中取得更好的性能。

(4)加入距离矩阵后，注意力机制可以根据时间步之间的距离调整权重分配，从而更好地捕获相互依赖关系。这种创新对于多目标柔性车间调度任务来说是有效的，因为这种任务通常涉及到多个作业之间的相互影响，而这些作业可能跨越不同的时间步。通过引入距离敏感性，注意力机制可以更好地理解这些作业之间的关系，从而在多目标柔性车间调度任务中取得更好的性能。为了计算距离矩阵D，我们可以引入一个可学习的距离函数，如欧几里得距离或余弦距离。距离函数可以根据作业之间的相对时间距离为D分配权重，从而实现距离敏感性。

(5)通过使用KCCA进行多模态数据融合，我们可以更好地利用多模态数据的互补信息，提供更丰富的上下文信息，有助于强化学习模型更准确地捕捉生产线上的各个作业和机器之间的相互关系。这将有助于实现更优的多目标柔性作业车间调度策略，提高生产效率、降低能耗以及减少等待时间等方面的表现。

(6)通过加入自适应权重因子，我们可以更好地平衡不同目标之间的优化，从而在多目标柔性车间调度任务中取得更好的性能。引入一个额外的神经网络(如一个小型的MLP)来预测权重因子。这个神经网络可以根据当前状态、已完成的任务数量和其他相关特征预测权重因子α。在训练过程中，神经网络会学习如何根据任务的实际需求动态调整权重因子，从而实现不同目标之间的优化平衡。这种创新对多目标柔性车间调度任务来说是有效的，因为这种任务通常需要在不同目标之间寻找最佳权衡。通过引入自适应权重因子，我们可以使智能体更好地平衡不同目标之间的优化，从而在多目标柔性车间调度任务中取得更好的性能。

(7)引入熵正则项可以鼓励智能体在学习过程中进行更多的探索，避免陷入局部最优解。这对于多目标柔性车间调度任务来说是有效的，因为在这种任务中，通常需要找到多个目标之间的最佳权衡。通过增强探索能力，智能体可能在状态空间中找到更好的解决方案，从而实现多个目标之间的更好平衡。

(8)捕捉非线性关系：KCCA可以捕捉不同模态特征之间的非线性关系，这在传统的CCA方法中无法实现。这使得KCCA更能够适应复杂的生产环境中的多模态数据。

(9)更强的表示能力：通过将原始特征映射到更高维的特征空间，KCCA能够学习到更丰富的特征表示，从而提高模型的性能。

(10)更好的泛化能力：KCCA可以找到不同模态特征之间的最大相关性，从而提取出对任务最相关的信息。这有助于模型在面对新的生产环境和未知情况时具有更好的泛化能力。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明基于物联网系统和强化学习的车间生产方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明实施例提供的方法包括：

步骤一、部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统。

物联网(IoT)系统作为数据收集和实时监控的基础设施，负责收集生产线上的各种数据。这些数据可能包括机器状态、作业进度、环境参数等。物联网设备可以实时传输数据，使我们能够实时监控生产过程并进行实时优化。

具体地，物联网系统部署了各种传感器和设备来实时收集生产线上的多模态数据。这些传感器包括：

温度传感器：收集生产线上各机器和环境的温度数据。

湿度传感器：收集生产线上各机器和环境的湿度数据。

声音传感器：收集生产线上机器的声音数据，以监测机器运行状态和异常。

振动传感器：收集生产线上机器的振动数据，以监测机器运行状态和异常。

光纤传感器：收集机器上的位移、速度和加速度信息。

电流传感器：收集机器的实时电流数据，以估计能耗。

步骤二、所述中央数据处理系统对多模态数据进行预处理，预处理包括但不限于去噪、归一化和异常检测。

具体地，物联网设备利用这些传感器收集到的多模态数据，通过MQTT(MessageQueuing Telemetry Transport)协议将数据发送到一个中央数据处理系统。这个系统负责对数据进行预处理，如去噪、归一化和异常检测。预处理后的数据被送入多模态数据处理模块，该模块使用LSTM和基于距离敏感自注意力机制的GNN进行特征提取和融合。

同时，物联网系统还收集以下关键数据：

机器状态数据：每台机器的实时状态(如空闲、繁忙、维修等)。

作业进度数据：每个作业在各个机器上的加工时间和剩余时间。

能耗数据：每台机器的实时能耗。

这些关键数据与多模态数据处理模块生成的特征一起被用作强化学习模型的输入。通过整合这些数据，强化学习模型可以更好地理解生产线上的各个作业和机器之间的相互关系，从而学习到更优的调度策略。

步骤三、对预处理后的数据进行特征提取和融合。

步骤3.1、构建神经网络模型：使用长短时记忆神经网络处理多模态数据中的时序信息，将实时生产数据、历史生产数据和外部数据作为输入，经过所述长短时记忆神经网络得到一个隐藏状态向量；在所述长短时记忆神经网络引入调节门，所述调节门对输入信息进行动态调节，实现了一个长短时记忆神经网络调节，组成新的长短时记忆神经网络结构，所述新的长短时记忆神经网络结构的具体计算过程具体为：

f_t＝σ(W_f·[h_(t-1),x_t]+b_f)

i_t＝σ(W_i·[h_(t-1),x_t]+b_i)

m_t＝σ(W_m₁·[h_(t-1),x_t]+b_m)

o_t＝σ(W_0·[h_(t-1),x_t]+b_)

h_t＝0_t*tanh(C_t)

步骤3.2、使用自注意力机制(Self-Attention Mechanism)处理隐藏状态向量，自动识别关键信息。计算注意力权重，将隐藏状态向量转换为一个加权和向量。在这里，我们创新性地在自注意力机制中引入距离敏感性，以便更好地捕获时间序列中不同时间步之间的相互依赖关系。这种创新可以帮助注意力机制在多目标柔性车间调度任务中更好地理解作业之间的相互影响，修改后的距离敏感自注意力机制如下：

attention(Q,K,V,D)＝softmax((QK^T+D)/d_k)V

步骤3.3、使用一个内核典型相关分析(KCCA)来对多模态数据进行融合，在前文利用LSTM对多模态数据进行预处理后，利用以下步骤对多模态数据进行进一步融合：，包括以下步骤：

步骤四、根据特征提取和融合的输出进行转化作为改进PPO算法的输入，使用所述PPO算法优化多目标柔性车间调度任务。

具体地，PPO是一种基于策略梯度的强化学习算法，它通过限制策略更新的幅度来提高稳定性，在PPO的损失函数中引入一个自适应权重因子，以便在多目标柔性车间调度任务中更好地平衡不同目标之间的优化PPO的损失函数。

步骤4.1、将加权和向量作为PPO算法的输入，包括以下步骤：

L(θ)＝E_t[min(r_t(θ)A_t，clip(r_t(θ)，1-ε，1+ε)A_t)]-λ*H(π)+α*L_TD

其其中，θ表示策略参数，代表智能体的策略；r_t(θ)表示策略比率，代表新策略与旧策略之间的相对概率；A_t表示优势函数，代表在给定状态下采取某个动作相对于平均动作的优势；ε表示裁剪参数，用于限制策略更新幅度；λ表示熵正则项的权重，用于控制探索与利用之间的平衡；H(π)表示策略熵，代表策略的不确定性；α表示自适应权重因子，用于平衡不同目标之间的优化；L_TD表示时间差分损失，代表智能体预测的状态值函数与实际状态值函数之间的误差。

引入自适应权重因子的原因在于，传统的PPO损失函数可能在处理多目标问题时难以平衡不同目标之间的优化。通过加入自适应权重因子，我们可以更好地平衡不同目标之间的优化，从而在多目标柔性车间调度任务中取得更好的性能。

为了实现自适应权重因子，我们可以引入一个额外的神经网络(如一个小型的MLP)来预测权重因子。这个神经网络可以根据当前状态、已完成的任务数量和其他相关特征预测权重因子α。在训练过程中，神经网络会学习如何根据任务的实际需求动态调整权重因子，从而实现不同目标之间的优化平衡。

这种创新对多目标柔性车间调度任务来说是有效的，因为这种任务通常需要在不同目标之间寻找最佳权衡。通过引入自适应权重因子，我们可以使智能体更好地平衡不同目标之间的优化，从而在多目标柔性车间调度任务中取得更好的性能。

步骤4.2、设计平衡多个目标的奖励函数，对奖励函数引入熵正则项，以增强智能体的探索能力，从而在柔性作业车间调度问题中找到更优的解决方案，包括以下步骤：

R＝-w1*C_max-w2*W_total-w3*E_total+w4*H(π)

引入熵正则项可以鼓励智能体在学习过程中进行更多的探索，避免陷入局部最优解。这对于多目标柔性车间调度任务来说是有效的，因为在这种任务中，通常需要找到多个目标之间的最佳权衡。通过增强探索能力，智能体可能在状态空间中找到更好的解决方案，从而实现多个目标之间的更好平衡。

步骤4.3、训练强化学习智能体，包括以下步骤：

步骤4.3.2、在回合内进行多次决策，具体步骤包括：

步骤c、计算C_max、W_total和E_total；

步骤d、计算奖励R＝-w1*C_max-w2*W_total-w3*E_total；

步骤e、更新PPO智能体。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.基于物联网系统和强化学习的车间生产方法，其特征在于，所述方法包括：

步骤二、所述中央数据处理系统对多模态数据进行预处理；

步骤三、对预处理后的数据进行特征提取和融合；

所述预处理包括但不限于去噪、归一化和异常检测。

2.根据权利要求1所述的一种基于带约束强化学习的芯片布局优化方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述传感器包括但不限于温度传感器、湿度传感器、声音传感器、振动传感器、光纤传感器和电流传感器；

所述声音传感器用于收集生产线上机器的声音数据；

所述振动传感器用于收集生产线上机器的振动数据；

所述电流传感器用于收集机器的实时电流数据。

4.根据权利要求3所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述多模态数据包括实时生产数据、历史生产数据和外部数据；

所述外部数据包括影响生产过程的数据。

5.根据权利要求4所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述步骤三，具体包括：

f_t＝σ(W_f·[h_(t-1),x_t]+b_f)

i_t＝σ(W_i·[h-(t-1),x_t]+b_i)

m_t＝σ(W_m₁·[h_(t-1),x_t]+b_m)

o_t＝σ(W_0·[h_(t-1),x_t]+b_)

h_t＝0_t*tanh(C_t)

attention(Q,K,V,D)＝softmax((QK^T+D)/d_k)V

6.根据权利要求5所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述步骤3.3包括以下步骤：

7.根据权利要求2或5所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述根据特征提取和融合的输出进行转化作为改进PPO算法的输入，使用所述PPO算法优化多目标柔性车间调度任务包括以下步骤：

步骤4.1、将加权和向量作为PPO算法的输入；

步骤4.2、设计平衡多个目标的奖励函数；

步骤4.3、训练强化学习智能体。

8.根据权利要求7所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述步骤4.1包括以下步骤：

L(θ)＝E_t[min(r_t(θ)A_t,clip(r_t(θ),1-ε,1+ε)A_t)]-λ*H(π)+α*L_TD

9.根据权利要求8所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述步骤4.2包括以下步骤：

R＝-w1*C_max-w2*W_total-w3*E_total+w4*H(π)

10.根据权利要求9所述的基于物联网系统和强化学习的车间生产方法，其特征在于，所述步骤4.3包括以下步骤：

步骤4.3.2、在回合内进行多次决策，具体步骤包括：

步骤c、计算C_max、W_total和E_total；

步骤d、计算奖励R＝-w1*C_max-w2*W_total-w3*E_total；

步骤e、更新PPO智能体。