CN116414093A - 基于物联网系统和强化学习的车间生产方法 - Google Patents
基于物联网系统和强化学习的车间生产方法 Download PDFInfo
- Publication number
- CN116414093A CN116414093A CN202310393809.4A CN202310393809A CN116414093A CN 116414093 A CN116414093 A CN 116414093A CN 202310393809 A CN202310393809 A CN 202310393809A CN 116414093 A CN116414093 A CN 116414093A
- Authority
- CN
- China
- Prior art keywords
- data
- reinforcement learning
- production
- time
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 76
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 40
- 239000003795 chemical substances by application Substances 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000005265 energy consumption Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 claims description 7
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000006073 displacement reaction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000013307 optical fiber Substances 0.000 claims description 3
- 239000000835 fiber Substances 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32339—Object oriented modeling, design, analysis, implementation, simulation language
Landscapes
- Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于物联网系统和强化学习的车间生产方法,包括:部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统;中央数据处理系统对多模态数据进行预处理;对预处理后的数据进行特征提取和融合;根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用PPO算法优化多目标柔性车间调度任务。本发明使用物联网设备收集实时生产数据,结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法,引入了一个长短时记忆神经网络处理多模态数据中的时序信息,并利用自注意力机制来自动识别关键信息,使用算法进行强化学习,在强化学习训练方法使用了一个多目标的奖励评价指标使得智能体可以满足多个目标的需求。
Description
技术领域
本发明属于物联网系统和强化学习的技术领域,尤其涉及基于物联网系统和强化学习的车间生产方法。
背景技术
随着现代制造业的快速发展,生产线的复杂性和动态性不断增加,导致生产调度成为一个具有挑战性的问题。柔性作业车间调度问题(FJSP)是生产调度领域的一个重要问题,其目标是确定各作业在不同机器上的加工顺序,以达到特定的优化目标。这些目标可能包括生产效率、能源消耗、等待时间等多个方面。为了解决多目标柔性作业车间调度问题,需要采用先进的方法来处理不同目标之间的权衡和制约。
近年来,物联网(IoT)技术在制造业中得到了广泛的应用,为实时监控生产过程提供了便利。物联网设备可以收集各种生产线数据,包括机器状态、作业进度、环境参数等。然而,如何有效地利用这些大量的多模态数据,提高生产调度的优化效果仍然是一个难题。
同时,强化学习作为一种智能优化方法,在解决复杂调度问题方面取得了显著的成果。但是,传统的强化学习方法往往难以直接应对多目标调度问题中的目标权衡问题。因此,需要对强化学习方法进行改进以适应多目标优化场景。
综上所述,目前尚缺乏一个有效的、可灵活处理多模态数据并解决多目标柔性作业车间调度问题的方法。因此,有必要开发一种基于物联网和强化学习技术的新颖方法,将多模态数据处理和优化算法相结合,实现多目标调度问题的高效解决。
发明内容
本发明的目的是提出一种基于物联网系统和强化学习的车间生产方法,使用物联网设备收集实时生产数据,并结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法。
为了达到上述目的,在本发明提供了基于物联网系统和强化学习的车间生产方法,所述方法包括:
步骤一、部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统;
步骤二、所述中央数据处理系统对多模态数据进行预处理;
步骤三、对预处理后的数据进行特征提取和融合;
所述预处理包括但不限于去噪、归一化和异常检测。
进一步地,所述方法还包括:
根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用所述PPO算法优化多目标柔性车间调度任务。
进一步地,所述传感器包括但不限于温度传感器、湿度传感器、声音传感器、振动传感器、光纤传感器和电流传感器;
所述温度传感器用于收集生产线上各机器和环境的温度数据;
所述湿度传感器用于收集生产线上各机器和环境的湿度数据;
所述声音传感器用于收集生产线上机器的声音数据;
所述振动传感器用于收集生产线上机器的振动数据;
所述光纤传感器用于收集机器上的位移、速度和加速度信息;
所述电流传感器用于收集机器的实时电流数据。
进一步地,所述多模态数据包括实时生产数据、历史生产数据和外部数据;
所述实时生产数据包括各机器和环境的温度数据、各机器和环境的湿度数据、机器的声音数据、机器的振动数据、位移、速度和加速度信息、机器的实时电流数据、机器状态数据、作业进度数据和能耗数据;
所述历史生产包括过去一段时间内的生产数据,用于捕捉生产过程中的周期性变化;
所述外部数据包括影响生产过程的数据。
进一步地,所述步骤三,具体包括:
步骤3.1、使用长短时记忆神经网络处理多模态数据中的时序信息,将实时生产数据、历史生产数据和外部数据作为输入,经过所述长短时记忆神经网络得到一个隐藏状态向量;在所述长短时记忆神经网络引入调节门,所述调节门对输入信息进行动态调节,实现了一个长短时记忆神经网络调节,组成新的长短时记忆神经网络结构,所述新的长短时记忆神经网络结构的具体计算过程具体为:
f_t=σ(W_f·[h_(t-1),x_t]+b_f)
i_t=σ(W_i·[h_(t-1),x_t]+b_i)
m_t=σ(W_m1·[h_(t-1),x_t]+b_m)
o_t=σ(W_0·[h_(t-1),x_t]+b_)
h_t=0_t*tanh(C_t)
其中,各个变量的物理含义如下:f_t表示遗忘门的激活值,决定了单元状态保留多少过去信息;i_t表示输入门的激活值,控制有多少新信息进入单元状态;m_t表示调节门的激活值,用于动态调整输入信息在单元状态中的贡献;表示候选单元状态,包含当前时间步的输入信息;C_t表示更新后的单元状态,结合过去信息和新输入信息;o_t表示输出门的激活值,决定了单元状态中多少信息传递到下一层;h_t表示隐藏状态,表示LSTM的当前内部状态;
步骤3.2、计算注意力权重,将隐藏状态向量转换为一个加权和向量,在自注意力机制中引入距离敏感,在自注意力机制中加入了一个距离矩阵,修改后的距离敏感自注意力机制如下:
attention(Q,K,V,D)=softmax((QK^T+D)/d_k)V
其中,Q表示查询矩阵,需要关注的目标信息;K表示键矩阵,用于匹配查询的上下文信息;V表示值矩阵,实际传递给下一层的上下文信息;D表示距离矩阵,不同时间步之间的距离信息;d_k表示键向量的维度,用于缩放注意力分数;T表示转置操作;
步骤3.3、使用一个内核典型相关分析来对多模态数据进行融合。
进一步地,所述步骤3.3包括以下步骤:
步骤3.3.1、对每种模态数据分别应用内核函数,所述内核函数将原始特征映射到更高维的特征空间;
步骤3.3.2、映射后的特征空间中,应用内核典型相关分析方法寻找两组变量之间的最大相关性;
步骤3.3.3、将每种模态特征投影到新的低维空间,形成融合特征。
进一步地,所述根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用所述PPO算法优化多目标柔性车间调度任务包括以下步骤:
步骤4.1、将加权和向量作为PPO算法的输入;
步骤4.2、设计平衡多个目标的奖励函数;
步骤4.3、训练强化学习智能体。
进一步地,所述步骤4.1包括以下步骤:
在PPO的损失函数中引入一个自适应权重因子α优化函数,所述PPO的损失函数L(θ)表示为:
L(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)]-λ*H(π)+α*LTD
其中,θ表示策略参数,代表智能体的策略;rt(θ)表示策略比率,代表新策略与旧策略之间的相对概率;At表示优势函数,代表在给定状态下采取某个动作相对于平均动作的优势;ε表示裁剪参数,用于限制策略更新幅度;λ表示熵正则项的权重,用于控制探索与利用之间的平衡;H(π)表示策略熵,代表策略的不确定性;α表示自适应权重因子,用于平衡不同目标之间的优化;LTD表示时间差分损失,代表智能体预测的状态值函数与实际状态值函数之间的误差。
进一步地,所述步骤4.2包括以下步骤:
对奖励函数引入熵正则项,增强智能体的探索能力,修改后的奖励函数如下:
R=-w1*C_max-w2*W_total-w3*E_total+w4*H(π)
其中,C_max表示所有作业完成时间的最大值,所述最大值表示调度方案中最晚完成的作业所需的总时间;W_total表示所有作业的等待时间之和;E_total表示所有机器的能耗之和;w1、w2、w3分别表示用户定义的权重,用于表示对不同目标的偏好;w4表示熵正则项的权重,用于控制探索和利用之间的平衡;H(π)表示智能体策略的熵和策略的不确定性。
进一步地,所述步骤4.3包括以下步骤:
步骤4.3.1、初始化状态:将多模态数据输入LSTM层,并通过自注意力机制得到加权和向量;
步骤4.3.2、在回合内进行多次决策,具体步骤包括:
步骤a、使用PPO智能体根据加权和向量选择动作,调整作业优先级;
步骤b、使用优先级为每个操作选择一个机器并生成调度方案;
步骤c、计算C_max、W_total和E_total;
步骤d、计算奖励R=-w1*C_max-w2*W_total-w3*E_total;
步骤e、更新PPO智能体
本发明的有益技术效果至少在于以下几点:
(1)在本发明专利中,我们使用物联网设备收集实时生产数据,并结合多模态数据进行强化学习来实现一个多目标的柔性车间生产调度方法。我们引入了一个长短时记忆神经网络(LSTM)来处理多模态数据中的时序信息,并利用自注意力机制(Self-AttentionMechanism)来自动识别关键信息。使用Proximal Policy Optimization(PPO)算法进行强化学习,在强化学习训练方法我们使用了一个多目标的奖励评价指标使得智能体可以满足多个目标的需求。
(2)物联网系统收集关键数据与多模态数据,然后这些关键数据与多模态数据处理模块生成的特征一起被用作强化学习模型的输入。通过整合这些数据,强化学习模型可以更好地理解生产线上的各个作业和机器之间的相互关系,从而学习到更优的调度策略。
(3)引入调节门,LSTM可以对输入信息进行动态调整,从而更好地捕获不同特征之间的相互作用。这种创新对于多目标柔性车间调度任务来说是有效的,因为这种任务通常涉及多种输入特征(如作业处理时间、机器状态等),而这些特征之间的相互作用对调度决策具有重要影响。通过增强LSTM的表达能力,我们可以更好地理解这些特征之间的关系,从而在多目标柔性车间调度任务中取得更好的性能。
(4)加入距离矩阵后,注意力机制可以根据时间步之间的距离调整权重分配,从而更好地捕获相互依赖关系。这种创新对于多目标柔性车间调度任务来说是有效的,因为这种任务通常涉及到多个作业之间的相互影响,而这些作业可能跨越不同的时间步。通过引入距离敏感性,注意力机制可以更好地理解这些作业之间的关系,从而在多目标柔性车间调度任务中取得更好的性能。为了计算距离矩阵D,我们可以引入一个可学习的距离函数,如欧几里得距离或余弦距离。距离函数可以根据作业之间的相对时间距离为D分配权重,从而实现距离敏感性。
(5)通过使用KCCA进行多模态数据融合,我们可以更好地利用多模态数据的互补信息,提供更丰富的上下文信息,有助于强化学习模型更准确地捕捉生产线上的各个作业和机器之间的相互关系。这将有助于实现更优的多目标柔性作业车间调度策略,提高生产效率、降低能耗以及减少等待时间等方面的表现。
(6)通过加入自适应权重因子,我们可以更好地平衡不同目标之间的优化,从而在多目标柔性车间调度任务中取得更好的性能。引入一个额外的神经网络(如一个小型的MLP)来预测权重因子。这个神经网络可以根据当前状态、已完成的任务数量和其他相关特征预测权重因子α。在训练过程中,神经网络会学习如何根据任务的实际需求动态调整权重因子,从而实现不同目标之间的优化平衡。这种创新对多目标柔性车间调度任务来说是有效的,因为这种任务通常需要在不同目标之间寻找最佳权衡。通过引入自适应权重因子,我们可以使智能体更好地平衡不同目标之间的优化,从而在多目标柔性车间调度任务中取得更好的性能。
(7)引入熵正则项可以鼓励智能体在学习过程中进行更多的探索,避免陷入局部最优解。这对于多目标柔性车间调度任务来说是有效的,因为在这种任务中,通常需要找到多个目标之间的最佳权衡。通过增强探索能力,智能体可能在状态空间中找到更好的解决方案,从而实现多个目标之间的更好平衡。
(8)捕捉非线性关系:KCCA可以捕捉不同模态特征之间的非线性关系,这在传统的CCA方法中无法实现。这使得KCCA更能够适应复杂的生产环境中的多模态数据。
(9)更强的表示能力:通过将原始特征映射到更高维的特征空间,KCCA能够学习到更丰富的特征表示,从而提高模型的性能。
(10)更好的泛化能力:KCCA可以找到不同模态特征之间的最大相关性,从而提取出对任务最相关的信息。这有助于模型在面对新的生产环境和未知情况时具有更好的泛化能力。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明基于物联网系统和强化学习的车间生产方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例提供的方法包括:
步骤一、部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统。
物联网(IoT)系统作为数据收集和实时监控的基础设施,负责收集生产线上的各种数据。这些数据可能包括机器状态、作业进度、环境参数等。物联网设备可以实时传输数据,使我们能够实时监控生产过程并进行实时优化。
具体地,物联网系统部署了各种传感器和设备来实时收集生产线上的多模态数据。这些传感器包括:
温度传感器:收集生产线上各机器和环境的温度数据。
湿度传感器:收集生产线上各机器和环境的湿度数据。
声音传感器:收集生产线上机器的声音数据,以监测机器运行状态和异常。
振动传感器:收集生产线上机器的振动数据,以监测机器运行状态和异常。
光纤传感器:收集机器上的位移、速度和加速度信息。
电流传感器:收集机器的实时电流数据,以估计能耗。
步骤二、所述中央数据处理系统对多模态数据进行预处理,预处理包括但不限于去噪、归一化和异常检测。
具体地,物联网设备利用这些传感器收集到的多模态数据,通过MQTT(MessageQueuing Telemetry Transport)协议将数据发送到一个中央数据处理系统。这个系统负责对数据进行预处理,如去噪、归一化和异常检测。预处理后的数据被送入多模态数据处理模块,该模块使用LSTM和基于距离敏感自注意力机制的GNN进行特征提取和融合。
同时,物联网系统还收集以下关键数据:
机器状态数据:每台机器的实时状态(如空闲、繁忙、维修等)。
作业进度数据:每个作业在各个机器上的加工时间和剩余时间。
能耗数据:每台机器的实时能耗。
这些关键数据与多模态数据处理模块生成的特征一起被用作强化学习模型的输入。通过整合这些数据,强化学习模型可以更好地理解生产线上的各个作业和机器之间的相互关系,从而学习到更优的调度策略。
步骤三、对预处理后的数据进行特征提取和融合。
步骤3.1、构建神经网络模型:使用长短时记忆神经网络处理多模态数据中的时序信息,将实时生产数据、历史生产数据和外部数据作为输入,经过所述长短时记忆神经网络得到一个隐藏状态向量;在所述长短时记忆神经网络引入调节门,所述调节门对输入信息进行动态调节,实现了一个长短时记忆神经网络调节,组成新的长短时记忆神经网络结构,所述新的长短时记忆神经网络结构的具体计算过程具体为:
f_t=σ(W_f·[h_(t-1),x_t]+b_f)
i_t=σ(W_i·[h_(t-1),x_t]+b_i)
m_t=σ(W_m1·[h_(t-1),x_t]+b_m)
o_t=σ(W_0·[h_(t-1),x_t]+b_)
h_t=0_t*tanh(C_t)
其中,各个变量的物理含义如下:f_t表示遗忘门的激活值,决定了单元状态保留多少过去信息;i_t表示输入门的激活值,控制有多少新信息进入单元状态;m_t表示调节门的激活值,用于动态调整输入信息在单元状态中的贡献;表示候选单元状态,包含当前时间步的输入信息;C_t表示更新后的单元状态,结合过去信息和新输入信息;o_t表示输出门的激活值,决定了单元状态中多少信息传递到下一层;h_t表示隐藏状态,表示LSTM的当前内部状态;
步骤3.2、使用自注意力机制(Self-Attention Mechanism)处理隐藏状态向量,自动识别关键信息。计算注意力权重,将隐藏状态向量转换为一个加权和向量。在这里,我们创新性地在自注意力机制中引入距离敏感性,以便更好地捕获时间序列中不同时间步之间的相互依赖关系。这种创新可以帮助注意力机制在多目标柔性车间调度任务中更好地理解作业之间的相互影响,修改后的距离敏感自注意力机制如下:
attention(Q,K,V,D)=softmax((QK^T+D)/d_k)V
其中,Q表示查询矩阵,需要关注的目标信息;K表示键矩阵,用于匹配查询的上下文信息;V表示值矩阵,实际传递给下一层的上下文信息;D表示距离矩阵,不同时间步之间的距离信息;d_k表示键向量的维度,用于缩放注意力分数;T表示转置操作;
步骤3.3、使用一个内核典型相关分析(KCCA)来对多模态数据进行融合,在前文利用LSTM对多模态数据进行预处理后,利用以下步骤对多模态数据进行进一步融合:,包括以下步骤:
步骤3.3.1、对每种模态数据分别应用内核函数,所述内核函数将原始特征映射到更高维的特征空间;
步骤3.3.2、映射后的特征空间中,应用内核典型相关分析方法寻找两组变量之间的最大相关性;
步骤3.3.3、将每种模态特征投影到新的低维空间,形成融合特征。
步骤四、根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用所述PPO算法优化多目标柔性车间调度任务。
具体地,PPO是一种基于策略梯度的强化学习算法,它通过限制策略更新的幅度来提高稳定性,在PPO的损失函数中引入一个自适应权重因子,以便在多目标柔性车间调度任务中更好地平衡不同目标之间的优化PPO的损失函数。
步骤4.1、将加权和向量作为PPO算法的输入,包括以下步骤:
在PPO的损失函数中引入一个自适应权重因子α优化函数,所述PPO的损失函数L(θ)表示为:
L(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)]-λ*H(π)+α*LTD
其其中,θ表示策略参数,代表智能体的策略;rt(θ)表示策略比率,代表新策略与旧策略之间的相对概率;At表示优势函数,代表在给定状态下采取某个动作相对于平均动作的优势;ε表示裁剪参数,用于限制策略更新幅度;λ表示熵正则项的权重,用于控制探索与利用之间的平衡;H(π)表示策略熵,代表策略的不确定性;α表示自适应权重因子,用于平衡不同目标之间的优化;LTD表示时间差分损失,代表智能体预测的状态值函数与实际状态值函数之间的误差。
引入自适应权重因子的原因在于,传统的PPO损失函数可能在处理多目标问题时难以平衡不同目标之间的优化。通过加入自适应权重因子,我们可以更好地平衡不同目标之间的优化,从而在多目标柔性车间调度任务中取得更好的性能。
为了实现自适应权重因子,我们可以引入一个额外的神经网络(如一个小型的MLP)来预测权重因子。这个神经网络可以根据当前状态、已完成的任务数量和其他相关特征预测权重因子α。在训练过程中,神经网络会学习如何根据任务的实际需求动态调整权重因子,从而实现不同目标之间的优化平衡。
这种创新对多目标柔性车间调度任务来说是有效的,因为这种任务通常需要在不同目标之间寻找最佳权衡。通过引入自适应权重因子,我们可以使智能体更好地平衡不同目标之间的优化,从而在多目标柔性车间调度任务中取得更好的性能。
步骤4.2、设计平衡多个目标的奖励函数,对奖励函数引入熵正则项,以增强智能体的探索能力,从而在柔性作业车间调度问题中找到更优的解决方案,包括以下步骤:
对奖励函数引入熵正则项,增强智能体的探索能力,修改后的奖励函数如下:
R=-w1*C_max-w2*W_total-w3*E_total+w4*H(π)
其中,C_max表示所有作业完成时间的最大值,所述最大值表示调度方案中最晚完成的作业所需的总时间;W_total表示所有作业的等待时间之和;E_total表示所有机器的能耗之和;w1、w2、w3分别表示用户定义的权重,用于表示对不同目标的偏好;w4表示熵正则项的权重,用于控制探索和利用之间的平衡;H(π)表示智能体策略的熵和策略的不确定性。
引入熵正则项可以鼓励智能体在学习过程中进行更多的探索,避免陷入局部最优解。这对于多目标柔性车间调度任务来说是有效的,因为在这种任务中,通常需要找到多个目标之间的最佳权衡。通过增强探索能力,智能体可能在状态空间中找到更好的解决方案,从而实现多个目标之间的更好平衡。
步骤4.3、训练强化学习智能体,包括以下步骤:
步骤4.3.1、初始化状态:将多模态数据输入LSTM层,并通过自注意力机制得到加权和向量;
步骤4.3.2、在回合内进行多次决策,具体步骤包括:
步骤a、使用PPO智能体根据加权和向量选择动作,调整作业优先级;
步骤b、使用优先级为每个操作选择一个机器并生成调度方案;
步骤c、计算C_max、W_total和E_total;
步骤d、计算奖励R=-w1*C_max-w2*W_total-w3*E_total;
步骤e、更新PPO智能体。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.基于物联网系统和强化学习的车间生产方法,其特征在于,所述方法包括:
步骤一、部署传感器实时收集生产线上的多模态数据并发送到中央数据处理系统;
步骤二、所述中央数据处理系统对多模态数据进行预处理;
步骤三、对预处理后的数据进行特征提取和融合;
所述预处理包括但不限于去噪、归一化和异常检测。
2.根据权利要求1所述的一种基于带约束强化学习的芯片布局优化方法,其特征在于,所述方法还包括:
根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用所述PPO算法优化多目标柔性车间调度任务。
3.根据权利要求1所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述传感器包括但不限于温度传感器、湿度传感器、声音传感器、振动传感器、光纤传感器和电流传感器;
所述温度传感器用于收集生产线上各机器和环境的温度数据;
所述湿度传感器用于收集生产线上各机器和环境的湿度数据;
所述声音传感器用于收集生产线上机器的声音数据;
所述振动传感器用于收集生产线上机器的振动数据;
所述光纤传感器用于收集机器上的位移、速度和加速度信息;
所述电流传感器用于收集机器的实时电流数据。
4.根据权利要求3所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述多模态数据包括实时生产数据、历史生产数据和外部数据;
所述实时生产数据包括各机器和环境的温度数据、各机器和环境的湿度数据、机器的声音数据、机器的振动数据、位移、速度和加速度信息、机器的实时电流数据、机器状态数据、作业进度数据和能耗数据;
所述历史生产包括过去一段时间内的生产数据,用于捕捉生产过程中的周期性变化;
所述外部数据包括影响生产过程的数据。
5.根据权利要求4所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述步骤三,具体包括:
步骤3.1、使用长短时记忆神经网络处理多模态数据中的时序信息,将实时生产数据、历史生产数据和外部数据作为输入,经过所述长短时记忆神经网络得到一个隐藏状态向量;在所述长短时记忆神经网络引入调节门,所述调节门对输入信息进行动态调节,实现了一个长短时记忆神经网络调节,组成新的长短时记忆神经网络结构,所述新的长短时记忆神经网络结构的具体计算过程具体为:
f_t=σ(W_f·[h_(t-1),x_t]+b_f)
i_t=σ(W_i·[h-(t-1),x_t]+b_i)
m_t=σ(W_m1·[h_(t-1),x_t]+b_m)
o_t=σ(W_0·[h_(t-1),x_t]+b_)
h_t=0_t*tanh(C_t)
其中,各个变量的物理含义如下:f_t表示遗忘门的激活值,决定了单元状态保留多少过去信息;i_t表示输入门的激活值,控制有多少新信息进入单元状态;m_t表示调节门的激活值,用于动态调整输入信息在单元状态中的贡献;表示候选单元状态,包含当前时间步的输入信息;C_t表示更新后的单元状态,结合过去信息和新输入信息;o_t表示输出门的激活值,决定了单元状态中多少信息传递到下一层;h_t表示隐藏状态,表示LSTM的当前内部状态;
步骤3.2、计算注意力权重,将隐藏状态向量转换为一个加权和向量,在自注意力机制中引入距离敏感,在自注意力机制中加入了一个距离矩阵,修改后的距离敏感自注意力机制如下:
attention(Q,K,V,D)=softmax((QK^T+D)/d_k)V
其中,Q表示查询矩阵,需要关注的目标信息;K表示键矩阵,用于匹配查询的上下文信息;V表示值矩阵,实际传递给下一层的上下文信息;D表示距离矩阵,不同时间步之间的距离信息;d_k表示键向量的维度,用于缩放注意力分数;T表示转置操作;
步骤3.3、使用一个内核典型相关分析来对多模态数据进行融合。
6.根据权利要求5所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述步骤3.3包括以下步骤:
步骤3.3.1、对每种模态数据分别应用内核函数,所述内核函数将原始特征映射到更高维的特征空间;
步骤3.3.2、映射后的特征空间中,应用内核典型相关分析方法寻找两组变量之间的最大相关性;
步骤3.3.3、将每种模态特征投影到新的低维空间,形成融合特征。
7.根据权利要求2或5所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述根据特征提取和融合的输出进行转化作为改进PPO算法的输入,使用所述PPO算法优化多目标柔性车间调度任务包括以下步骤:
步骤4.1、将加权和向量作为PPO算法的输入;
步骤4.2、设计平衡多个目标的奖励函数;
步骤4.3、训练强化学习智能体。
8.根据权利要求7所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述步骤4.1包括以下步骤:
在PPO的损失函数中引入一个自适应权重因子α优化函数,所述PPO的损失函数L(θ)表示为:
L(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)]-λ*H(π)+α*LTD
其中,θ表示策略参数,代表智能体的策略;rt(θ)表示策略比率,代表新策略与旧策略之间的相对概率;At表示优势函数,代表在给定状态下采取某个动作相对于平均动作的优势;ε表示裁剪参数,用于限制策略更新幅度;λ表示熵正则项的权重,用于控制探索与利用之间的平衡;H(π)表示策略熵,代表策略的不确定性;α表示自适应权重因子,用于平衡不同目标之间的优化;LTD表示时间差分损失,代表智能体预测的状态值函数与实际状态值函数之间的误差。
9.根据权利要求8所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述步骤4.2包括以下步骤:
对奖励函数引入熵正则项,增强智能体的探索能力,修改后的奖励函数如下:
R=-w1*C_max-w2*W_total-w3*E_total+w4*H(π)
其中,C_max表示所有作业完成时间的最大值,所述最大值表示调度方案中最晚完成的作业所需的总时间;W_total表示所有作业的等待时间之和;E_total表示所有机器的能耗之和;w1、w2、w3分别表示用户定义的权重,用于表示对不同目标的偏好;w4表示熵正则项的权重,用于控制探索和利用之间的平衡;H(π)表示智能体策略的熵和策略的不确定性。
10.根据权利要求9所述的基于物联网系统和强化学习的车间生产方法,其特征在于,所述步骤4.3包括以下步骤:
步骤4.3.1、初始化状态:将多模态数据输入LSTM层,并通过自注意力机制得到加权和向量;
步骤4.3.2、在回合内进行多次决策,具体步骤包括:
步骤a、使用PPO智能体根据加权和向量选择动作,调整作业优先级;
步骤b、使用优先级为每个操作选择一个机器并生成调度方案;
步骤c、计算C_max、W_total和E_total;
步骤d、计算奖励R=-w1*C_max-w2*W_total-w3*E_total;
步骤e、更新PPO智能体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310393809.4A CN116414093B (zh) | 2023-04-13 | 2023-04-13 | 基于物联网系统和强化学习的车间生产方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310393809.4A CN116414093B (zh) | 2023-04-13 | 2023-04-13 | 基于物联网系统和强化学习的车间生产方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116414093A true CN116414093A (zh) | 2023-07-11 |
CN116414093B CN116414093B (zh) | 2024-01-16 |
Family
ID=87049270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310393809.4A Active CN116414093B (zh) | 2023-04-13 | 2023-04-13 | 基于物联网系统和强化学习的车间生产方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116414093B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273395A (zh) * | 2023-11-17 | 2023-12-22 | 北京谷器数据科技有限公司 | 一种基于深度学习的生产计划与调度方法 |
CN117455208A (zh) * | 2023-12-25 | 2024-01-26 | 苏州特铭精密科技有限公司 | 基于人工智能的注塑品生产调度优化方法及系统 |
CN118037014A (zh) * | 2024-04-12 | 2024-05-14 | 深圳市中航环海建设工程有限公司 | 基于物联网的道路施工监测系统 |
CN118192467A (zh) * | 2024-04-09 | 2024-06-14 | 湖北沛丰生物科技股份有限公司 | 杂粮营养米成套设备的智能控制系统及方法 |
CN118470269A (zh) * | 2024-07-12 | 2024-08-09 | 山东舜网传媒股份有限公司 | 一种基于元宇宙空间的轨迹规划方法、系统、介质及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094757A (zh) * | 2016-07-15 | 2016-11-09 | 郑州航空工业管理学院 | 一种基于数据驱动的动态柔性作业车间调度控制方法 |
CN112734172A (zh) * | 2020-12-25 | 2021-04-30 | 南京理工大学 | 一种基于时序差分的混合流水车间调度方法 |
CN112884239A (zh) * | 2021-03-12 | 2021-06-01 | 重庆大学 | 一种基于深度强化学习的航天起爆器生产调度方法 |
CN114839940A (zh) * | 2022-04-29 | 2022-08-02 | 北京航空航天大学 | 基于平衡指标自适应进化的跨域协同车间动态调度方法 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
WO2022167657A2 (en) * | 2021-02-05 | 2022-08-11 | Deepmind Technologies Limited | Attention neural networks with short-term memory units |
CN114912826A (zh) * | 2022-05-30 | 2022-08-16 | 华中农业大学 | 一种基于多层深度强化学习的柔性作业车间调度方法 |
US20230004149A1 (en) * | 2021-07-02 | 2023-01-05 | Northeastern University | Digital twin modeling and optimization of production processes |
CN115685912A (zh) * | 2022-10-19 | 2023-02-03 | 华北电力大学 | 基于大数据的制造企业生产与物流协同优化调度方法及系统 |
-
2023
- 2023-04-13 CN CN202310393809.4A patent/CN116414093B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106094757A (zh) * | 2016-07-15 | 2016-11-09 | 郑州航空工业管理学院 | 一种基于数据驱动的动态柔性作业车间调度控制方法 |
CN112734172A (zh) * | 2020-12-25 | 2021-04-30 | 南京理工大学 | 一种基于时序差分的混合流水车间调度方法 |
WO2022167657A2 (en) * | 2021-02-05 | 2022-08-11 | Deepmind Technologies Limited | Attention neural networks with short-term memory units |
CN112884239A (zh) * | 2021-03-12 | 2021-06-01 | 重庆大学 | 一种基于深度强化学习的航天起爆器生产调度方法 |
US20230004149A1 (en) * | 2021-07-02 | 2023-01-05 | Northeastern University | Digital twin modeling and optimization of production processes |
CN114839940A (zh) * | 2022-04-29 | 2022-08-02 | 北京航空航天大学 | 基于平衡指标自适应进化的跨域协同车间动态调度方法 |
CN114912826A (zh) * | 2022-05-30 | 2022-08-16 | 华中农业大学 | 一种基于多层深度强化学习的柔性作业车间调度方法 |
CN114860893A (zh) * | 2022-07-06 | 2022-08-05 | 中国人民解放军国防科技大学 | 基于多模态数据融合与强化学习的智能决策方法及装置 |
CN115685912A (zh) * | 2022-10-19 | 2023-02-03 | 华北电力大学 | 基于大数据的制造企业生产与物流协同优化调度方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273395A (zh) * | 2023-11-17 | 2023-12-22 | 北京谷器数据科技有限公司 | 一种基于深度学习的生产计划与调度方法 |
CN117273395B (zh) * | 2023-11-17 | 2024-02-20 | 北京谷器数据科技有限公司 | 一种基于深度学习的生产计划与调度方法 |
CN117455208A (zh) * | 2023-12-25 | 2024-01-26 | 苏州特铭精密科技有限公司 | 基于人工智能的注塑品生产调度优化方法及系统 |
CN117455208B (zh) * | 2023-12-25 | 2024-03-12 | 苏州特铭精密科技有限公司 | 基于人工智能的注塑品生产调度优化方法及系统 |
CN118192467A (zh) * | 2024-04-09 | 2024-06-14 | 湖北沛丰生物科技股份有限公司 | 杂粮营养米成套设备的智能控制系统及方法 |
CN118037014A (zh) * | 2024-04-12 | 2024-05-14 | 深圳市中航环海建设工程有限公司 | 基于物联网的道路施工监测系统 |
CN118470269A (zh) * | 2024-07-12 | 2024-08-09 | 山东舜网传媒股份有限公司 | 一种基于元宇宙空间的轨迹规划方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116414093B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116414093B (zh) | 基于物联网系统和强化学习的车间生产方法 | |
CN103164742B (zh) | 一种基于粒子群优化神经网络的服务器性能预测方法 | |
CN107808212B (zh) | 基于灰色神经网络的太阳能收集功率预测方法 | |
CN111416797B (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
CN115618296A (zh) | 一种基于图注意力网络的大坝监测时序数据异常检测方法 | |
CN111447217A (zh) | 一种稀疏编码下的基于htm的流数据异常检测方法及系统 | |
CN111426344A (zh) | 一种建筑物能耗智能检测系统 | |
CN117313795A (zh) | 一种基于改进dbo-lstm的智慧楼宇能耗预测方法 | |
CN111950722A (zh) | 一种基于环境预测模型的强化学习方法 | |
CN117349748A (zh) | 一种基于云边协同的主动学习故障诊断方法 | |
Meng et al. | PaDE-NPC: Parameter adaptive differential evolution with novel parameter control for single-objective optimization | |
CN111737294A (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
Peng et al. | Deep unsupervised transfer learning for health status prediction of a fleet of wind turbines with unbalanced data | |
CN118351970A (zh) | 一种生态环境pm2.5浓度的预测方法 | |
Santhadevi et al. | Stacked deep learning framework for edge-based intelligent threat detection in IoT network | |
Dhiman et al. | Smose: Artificial intelligence-based smart city framework using multi-objective and iot approach for consumer electronics application | |
CN115412332B (zh) | 基于混合神经网络模型优化的物联网入侵检测系统及方法 | |
CN113746813B (zh) | 基于两阶段学习模型的网络攻击检测系统及方法 | |
CN111950690A (zh) | 一种具有自适应能力的高效强化学习策略模型 | |
CN114943277A (zh) | 一种综合能源系统运行工况识别与运行性能预测方法 | |
CN113344071A (zh) | 一种基于深度策略梯度的入侵检测算法 | |
CN114863485A (zh) | 基于深度相互学习的跨域行人重识别方法及系统 | |
Zhai et al. | Multi-swarm genetic gray wolf optimizer with embedded autoencoders for high-dimensional expensive problems | |
CN113269278B (zh) | 基于领域翻转的机器人巡航目标识别方法及系统 | |
CN118070928B (zh) | 一种工业过程关键性指标软测量建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |