CN113960971B

CN113960971B - 一种基于行为决策网络粒子群优化的柔性车间调度方法

Info

Publication number: CN113960971B
Application number: CN202111263846.0A
Authority: CN
Inventors: 宋威; 张潇
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2023-04-28
Anticipated expiration: 2041-10-27
Also published as: CN113960971A

Abstract

本发明公开了一种基于行为决策网络粒子群优化的柔性车间调度方法，包括，初始化搜索空间及约束条件；初始化参数，并基于搜索空间及约束条件随机生成初始种群，并初始化行为决策神经网络；将初始种群中粒子的位置输入行为决策神经网络，根据网络的输出结果对粒子的位置和适应值进行更新；结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新，并更新隐藏层结点与动作执行节点间的权值；计算输入的粒子的下一位置和适应值，选取最优粒子；判断工件生产是否满足结束条件，若满足则输出最小完工时间，否则，则重新更新粒子的位置和适应值；本发明能够有效求解动态柔性调度问题，提高企业的生产效率。

Description

一种基于行为决策网络粒子群优化的柔性车间调度方法

技术领域

本发明涉及车间调度的技术领域，尤其涉及一种基于行为决策网络粒子群优化的柔性车间调度方法。

背景技术

生产作业车间调度问题是指针对一项确定的可分解的生产任务，在一定的资源约束下，通过合理安排各产品的加工顺序和所用资源来满足最优化的生产目标，使得生产过程能够高效有序地进行。生产作业车间调度问题作为经典的组合优化问题，目前研究人员已对其进行广泛地研究。近年来，随着制造业的飞速发展，生产过程中不确定性干扰事件也愈发频繁，如机器故障、紧急工件插入、订单撤销等动态干扰。由此产生的新的复杂调度问题，即动态柔性作业车间调度(Dynamic Flexible Job Shop Problem，DFJSP)已成为调度领域的研究热点，具有重要的研究意义和实用价值。

当前已有成果为进一步研究DFJSP奠定了良好的基础，但是现有研究大多是基于人为经验或是预先设置相对固定的策略来处理突发事件发生后的调度问题，无法针对当前的动态环境对每个个体(即当前解群体中的每一个解)进行合理的行为决策来指导调度过程，导致大量冗余或低效的搜索，直接影响动态柔性调度解的质量，降低生产的效率。

粒子群优化算法(PSO,Particle Swarm Optimization)是一种基于种群的群体智能算法，由Kennedy和Eberhart于1995年提出。由于该算法具有概念简单、易于实现及计算开销小等特点，在过去几十年吸引了众多学者的注意。目前PSO已被改进生成多种变种算法，并成功应用于求解众多静态优化问题。但是，在面对动态优化问题时，PSO存在两个方面的挑战：首先，需要在整个搜索过程保持高种群多样性。因为随着环境的变化，若种群在当前环境下陷入某一最终聚集，将会直接导致算法在随后的环境中难以进行广泛的搜索，易于陷入局部最优。其次，种群中的每个个体需要根据当前环境进行合理的行为决策，以实现高效的搜索。这是因为预先设计相对固定的进化规则往往难以适应未知环境和突发事件，无法保证动态环境中的搜索效率。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：包括，根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件；初始化参数，并基于所述搜索空间及约束条件随机生成初始种群，并根据所述初始种群对行为决策神经网络进行初始化；将初始种群中粒子的位置输入所述行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新；结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新，并更新隐藏层结点与动作执行节点间的权值；计算输入的粒子的下一位置和适应值，通过所述适应值选取最优粒子；判断工件生产是否满足结束条件，若满足则输出最小完工时间，否则，则重新将初始种群中粒子的位置输入所述行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新；其中，所述约束条件为工件的工序顺序约束，所述搜索空间为粒子的搜索范围，搜索空间的维数为任务总加工工序数Q，其中，每一维的范围是0～单个工件的工序数。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：所述初始化参数包括，设置初始种群大小为100个粒子，最大进化代数为500代。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：初始化所述行为决策神经网络包括，所述神经网络包括输入层、隐藏层和输出层；将隐藏层结点的中心初始化为初始种群中的粒子，将权值初始化为(0，1)间的随机数。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：更新粒子的位置包括，更新粒子的位置x_i：

x_i(t+1)＝x_i(t)+w*v_i+c₁*r₁*(gbest-x_i(t))+c₂*r₂*(μ_nr-x_i(t))

c₁＝C-c₂

其中，x_i(t)为t时刻的粒子的位置，w表示惯性权重，v_i表示粒子上一时刻的速度，r₁和r₂为两个属于(0，1)的随机数，gbest表示全局最优粒子位置，μ_nr表示离当前粒子最近的子群中心位置，c₁表示向全局最优粒子学习的加速系数，c₂表示向对应子种群中心学习的加速系数，Δ代表加速系数c₂的变化，C为加速系数c₁和加速系数c₂的和。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：还包括，强化学习策略的反馈表示为：

其中，t和t+1代表相邻两个时刻；f_i ^t和f_i ^t+1代表第i个输入粒子在相邻两个时刻的适应值；当f_i ^t+1＜f_i ^t时，行为决策神经网络将得到正反馈，此时将对输出层的动作执行节点进行奖励，使其后续输出更接近于1；反之，将对其进行惩罚，使之更接近于0；

根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新：

μ_nr′＝μ_nr+Δμ_nr

σ_nr′＝σ_nr+Δσ_nr

其中，μ_nr和σ_nr分别表示更新前的隐藏层结点的中心位置、宽度，μ_nr′和σ_nr′分别表示更新后的隐藏层结点的中心位置、宽度，Δμ_nr和Δσ_nr表示隐藏层结点的中心位置、宽度的变化，Δα_nr表示权值的变化，α_nr表示隐藏层结点与动作执行节点间的权值，α_nr′为更新后的权值，η为学习率，z_nr表示输出层节点的输入，y_i是动作执行节点i的实际输出，d_nr是根据奖惩情况推出的应得输出，当受到奖励时，d_nr设为1，否则，d_nr设为0。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：还包括，通过反向传播策略更新隐藏层结点与动作执行节点间的权值α_nr：

α_nr′＝α_nr+Δα_nr

Δα_nr＝ηz_nr(d_nr-y_i)y_i(1-y_i)。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：还包括，每个粒子利用输出层最大输出节点来确定将要执行的动作：

其中，s为三个输出层节点的序号，Action为最终选取的最大的输出层节点所对应的动作。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：还包括，根据环境的变化，自动调整隐藏层节点，即调整各子群的中心，将当前粒子位置选择作为新的隐藏层中心需同时满足以下两个条件：

其中，e_min和ε分别代表距离和重要性阈值；第一个条件确保只有此粒子离所有现存子群中心距离大于重要性阈值才会被考虑添加为新的隐藏层节点；第二个条件用于确保该粒子在其作为中心的子群的重要性，该新添加的子群中心可用于反映其所属子群的搜索特性。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：还包括，如果某一中心对于其子群中所有粒子的影响力小于阈值e_min，该中心则会被认为是不适合的，并会被删除，删除不适合当前环境的隐含层中心需满足下式：

其中，E_nr为中心x_j对于其子群中所有粒子的影响力，p表示x_j作为中心所对应子群中的粒子数目。

作为本发明所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案，其中：所述结束条件包括，完成生产或已到达最大进化代数。

本发明的有益效果：本发明能够帮助企业应对实际生产过程中因突发事件导致的动态生产环境情况，准确、迅速地制定和修改生产方案，有效求解动态柔性调度问题，提高企业的生产效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的基于行为决策网络粒子群优化的柔性车间调度方法的行为决策神经网络结构示意图；

图2为本发明第二个实施例所述的基于行为决策网络粒子群优化的柔性车间调度方法的甘特图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1，为本发明的第一个实施例，该实施例提供了一种基于行为决策网络粒子群优化的柔性车间调度方法，包括：

S1：根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件。

约束条件为工件的工序顺序约束，搜索空间为粒子的搜索范围，搜索空间的维数为任务总加工工序数Q，其中，每一维的范围是0～单个工件的工序数。

S2：初始化参数，并基于搜索空间及约束条件随机生成初始种群，并根据初始种群对行为决策神经网络进行初始化。

初始化参数：设置初始种群大小为100个粒子，最大进化代数为500代。

行为决策神经网络的输入为当前粒子位置，输出为粒子的执行动作，隐藏层中心同时也是子群中心；初始化行为决策神经网络：

将隐藏层结点的中心初始化为初始种群中的粒子，将权值初始化为(0，1)间的随机数。

S3：将初始种群中粒子的位置输入行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新。

其中需要说明的是，由于柔性作业车间调度问题是一个离散问题，因此粒子(个体)的每次更新都需要将粒子位置转换为工序编码，本实施例根据如下方法实现从连续解空间中粒子位置到离散工序编码的有效转换，其步骤为：

(1)获得每个粒子在连续解空间中的位置。

(2)针对每个粒子的位置

(M为所有工件的总加工工序数)，对粒子位置所有维度上的值按从小到大排序，获得排序后的索引

(3)将排序后的索引按工件总数取余，即可获得与粒子位置对应的工序编码

本实施例利用以上工序编码方法实现粒子在连续解空间位置到离散工序编码的转换，因此可利用连续位置空间中的优化方法来求解动态柔性调度问题。

由于在动态车间调度中往往会出现机器故障、紧急工件插入、订单撤销等突发状况，为了根据当前新环境调整调度方式，本实施例在PSO中引入了行为决策神经网络对每个粒子的搜索动作进行合理的决策，行为决策神经网络的结构如图1所示，将初始种群中粒子的位置输入行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置进行更新：

x_i(t+1)＝x_i(t)+w*v_i+c₁*r₁*(gbest-x_i(t))+c₂*r₂*(μ_nr-x_i(t))

c₁＝C-c₂

其中，x_i(t)为t时刻的粒子的位置，w表示惯性权重，v_i表示粒子上一时刻的速度，r₁和r₂为两个属于(0，1)的随机数，_gbest表示全局最优粒子位置，μ_nr表示离当前粒子最近的子群中心位置，c₁表示向全局最优粒子学习的加速系数，c₂表示向对应子种群中心学习的加速系数，_Δ代表加速系数c₂的变化，C为加速系数c₁和加速系数c₂的和，本实施例将其取值4.2，这是由于在粒子群优化领域大量的研究发现加速系数c₁和加速系数c₂之和为4.2有利于算法的搜索，以获得问题的最优解。

其中，加速系数c₂根据最终选取的最大的输出层节点所对应的动作Action进行调整，每个粒子利用输出层最大输出节点来确定将要执行的动作，即最终选取的最大的输出层节点所对应的动作为：

其中，s为三个输出层节点的序号。

S4：结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新，并更新隐藏层结点与动作执行节点间的权值。

本实施例利用径向基函数计算隐藏层节点的输出，隐藏层节点包括中心坐标和宽度两种属性，分别代表对应种群的中心位置和种群所包含粒子的范围，径向基函数的表达式为：

其中，x代表输入的粒子位置，μ_k代表中心坐标，σ_k代表中心宽度；根据径向基函数的定义，粒子离某一中心越近则输出结果越大；因此粒子受离自身最近隐藏层中心的影响最大，并对其进行学习。

行为决策神经网络的输入样本为粒子的当前位置x_i，行为决策神经网络在其输出层对输入粒子的搜索行为进行决策(调整c₂)；本实施例根据环境的变化，自动调整行为决策神经网络的隐藏层节点，即调整各子群的中心，使得当前的种群划分适应于突发事件发生后的调度要求；具体地，一些相对离群的粒子可能会被选择作为新的隐藏层节点，以代表新子群的中心，避免当前子群划分不恰当的问题，将当前粒子位置选择作为新的隐藏层中心需同时满足以下两个条件：

其中，e_min和ε分别代表距离和重要性阈值；第一个条件确保只有此粒子离所有现存子群中心均足够远，即现存子群中心距离大于重要性阈值才会被考虑添加为新的隐藏层节点；第二个条件用于确保该粒子在其作为中心的子群的重要性，该新添加的子群中心可用于反映其所属子群的搜索特性。

当两个条件均满足时，输入的x_i才能被添加作为新的隐藏层节点；相应地，新添加的第K+1个隐藏层节点中心位置μ_K+1，新添加的第K+1个隐藏层节点宽度σ_K+1，以及新添加的第K+1个隐藏层节点与输出层所有节点的权值α_K+1初始化为：

其中,κ是重叠因子，代表搜索空间中x_i与其最近的子群中心(即隐藏层节点μ_nr)间的重叠比例，为了公平划分隐藏层节点宽度，设置κ＝0.5；e_i＝d_i-f(x_i)表示当前粒子输入到行为决策神经网络中的实际输出结果与预期输出结果的差值；其中，f(x_i)为输入x_i后行为决策神经网络的实际输出结果，预期输出结果d_i由输入的粒子在执行网络输出层节点的动作后其相邻两个时刻的适应值变化情况来决定；具体地，若适应值变好，则执行的动作节点的预期输出结果为1；否则为0；非执行的动作节点预期输出一律为0。

另外，由于突发事件导致的环境变化，现有的子群中心可能不再适合当前环境，这些不再适应当前环境的子群中心将会从隐藏层中删除；具体地，如果某一中心对于其子群中所有粒子的影响力小于阈值e_min，该中心则会被认为是不适合的，并会被删除，删除不适合当前环境的隐含层中心需满足下式：

为了保证行为决策的准确性，本实施例引入强化学习思想来训练行为决策神经网络；当粒子当前位置输入到行为决策神经网络后，通过该网络决策出关于输入粒子加速系数调整的动作，并利用该动作调整其位置更新公式，计算输入粒子的下一步位置及适应值，通过比较相邻两个时刻的适应值来获取强化学习反馈。具体地，若适应值变好则得到正反馈，反之将会得到负反馈；相应地，强化学习策略的反馈表示为：

进一步的，根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新：

μ_nr′＝μ_nr+Δμ_nr

σ_nr′＝σ_nr+Δσ_nr

其中，通过反向传播策略更新隐藏层结点与动作执行节点间的权值α_nr：

α_nr′＝α_nr+Δα_nr

Δα_nr＝ηz_nr(d_nr-y_i)y_i(1-y_i)。

较佳的是，为了保持动态环境下种群的高多样性，本实施例会随着环境的变化，适应地调整行为决策神经网络的隐藏层神经元，通过合理的强化学习训练过程，确保行为决策神经网络能做出正确的决策，使得当前调度适应因突发事件所产生的环境变化，以实现动态环境下种群中所有粒子行为的合理决策，有效求解动态柔性调度问题。

S5：计算输入的粒子的下一位置和适应值，通过适应值选取最优粒子。

S6：判断工件生产是否满足结束条件，若满足则输出最小完工时间，否则，则返回步骤S3。

结束条件为：完成生产或已到达最大进化代数。

实施例2

为了对本方法中采用的技术效果加以验证说明，本实施例选择粒子群算法和采用本方法进行对比测试，以科学论证的手段对比试验结果，以验证本方法所具有的真实效果。

在某工件厂中，车间内有车床，铣床，钻床，磨床，镗床，刨床机床六种机器。为生产一个工件，需要在多个机器上加工；并且车间往往同时生产多个工件，有时还会出现机器损坏、订单插入等突发状况；繁杂的工序加上各种突发状况导致车间生产调度及管理的复杂性，在此利用本方法来有效解决这一复杂的动态柔性调度问题。

某日该工厂接到一批订单共需生产6种不同的工件，我们将工件编号为工件1-工件6，将车床，铣床，刨床，磨床，钻床，镗床分别编号为机器1-6，工件各工序所需使用的机器及加工时间如表1所示。

表1：各工序所需使用的机器及加工时间。

表1给出加工工件1-6所涉及各工序需要的机器及加工时间，例如，为加工工件1，所涉及的6个工序依次需要在机器3→1→5→6→4→2上完成，各机器上的加工时间分别为：1，7，6，10，3，8；对应工件1的第1道工序加工时间P₁₁＝1，工件1的第2道工序加工时间P₁₂＝7，以此类推；实施本方法的具体求解步骤如下：

步骤1：设定行为决策神经网络粒子群优化算法的参数(种群大小100个粒子，最大进化代数500代)。

步骤2：根据当前订单，按加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件。

步骤3：随机生成初始种群，相应地初始化行为决策神经网络，隐藏层中心初始化为随机选取的种群中的粒子，权值初始化为(0,1)间的随机数；例如随机产生的某个粒子的位置为:(2.28,4.59,4.77,1.12,2.93,2.66,3.87,4.25,4.52,1.65,4.07,3.93,0.97,0.71,2.99,5.75,2.04,3.51,1.34,4.50,1.53,3.03,4.19,5.34,5.75,3.28,0.83,0.89,1.54,5.04,1.52,4.88,1.46,5.57,2.09,1.17)，排序后得到各维度上值的索引为：(14,27,28,13,4,36,19,33,31,21,29,10,17,35,1,6,5,15,22,26,18,7,12,11,23,8,20,9,2,3,32,30,24,34,25,16)；对工件数6取余并加1(使得编码从1开始)，得到工序编码(3,5,5,3,1,6,4,6,6,4,5,2,3,6,1,2,1,3,4,5,4,2,3,2,4,2,4,2,1,1,6,6,5,6,5,3)。

步骤4：将粒子位置输入行为决策神经网络，根据行为决策神经网络的输出结果对粒子位置及适应值进行更新。

步骤5：如图2所示，在本实施例中机器3在生产时间30-35期间发生故障，无法进行生产；行为决策神经网络的隐藏层节点在每次都会进行增、删调整的判断，因此当机器3发生故障后能迅速响应并进行调整，适应于突发事件导致的环境变化。

步骤6：根据粒子适应值变化情况结合强化学习思想对行为决策神经网络隐藏层结点的中心、宽度进行更新，同时还更新该结点与动作执行节点间的权值。

步骤7：根据适应值选出全局最优粒子。

步骤8：判断工件是否完成生产或已到达最大进化代数，若满足则算法结束，输出最小完工时间。若不满足则跳转回步骤4。

在本实施例中，得出的最优加工时间为57，该解的甘特图如图2所示。

为了证明本方法的优越性，本发明与粒子群算法进行了30次对比实验，其中粒子群算法的寻优成功率只有20％，难以应对动态环境下的调度问题，而本方法却实现了90％的寻优成功率；可见，利用本方法能有效解决复杂作业车间调度问题，实现车间生产的排产与调度管理，提高企业的生产效率。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：包括，

根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件；

初始化参数，并基于所述搜索空间及约束条件随机生成初始种群，并根据所述初始种群对行为决策神经网络进行初始化；

将初始种群中粒子的位置输入所述行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新；

结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新，并更新隐藏层结点与动作执行节点间的权值；

计算输入的粒子的下一位置和适应值，通过所述适应值选取最优粒子；

判断工件生产是否满足结束条件，若满足则输出最小完工时间，否则，则重新将初始种群中粒子的位置输入所述行为决策神经网络，根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新；

其中，所述约束条件为工件的工序顺序约束，所述搜索空间为粒子的搜索范围，搜索空间的维数为任务总加工工序数Q，其中，每一维的范围是0～单个工件的工序数。

2.如权利要求1所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：所述初始化参数包括，

设置初始种群大小为100个粒子，最大进化代数为500代。

3.如权利要求2所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：初始化所述行为决策神经网络包括，

所述神经网络包括输入层、隐藏层和输出层；

4.如权利要求1或2所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：更新粒子的位置包括，

更新粒子的位置x_i：

x_i(t+1)＝x_i(t)+w*v_i+c₁*r₁*(gbest-x_i(t))+c₂*r₂*(μ_nr-x_i(t))

c₁＝C-c₂

5.如权利要求4所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：还包括，

强化学习策略的反馈表示为：

μ_nr′＝μ_nr+Δμ_nr

σ_nr′＝σ_nr+Δσ_nr

其中，μ_nr和σ_nr分别表示更新前的隐藏层结点的中心位置、宽度，μ_nr′和σ_nr′分别表示更新后的隐藏层结点的中心位置、宽度，Δμ_nr和Δσ_nr表示隐藏层结点的中心位置、宽度的变化，Δα_nr表示权值的变化，α_nr表示隐藏层结点与动作执行节点间的权值，α_nr′为更新后的权值，η为学习率，z_nr表示输出层节点的输入，y_i是动作执行节点i的实际输出，d_nr是根据奖惩情况推出的应得输出，当受到奖励时，d_nr设为1，否则，d_nr设为0；

还包括，

通过反向传播策略更新隐藏层结点与动作执行节点间的权值α_nr：

α_nr′＝α_nr+Δα_nr

Δα_nr＝ηz_nr(d_nr-y_i)y_i(1-y_i)。

6.如权利要求5所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：还包括，

每个粒子利用输出层最大输出节点来确定将要执行的动作：

7.如权利要求6所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：还包括，

根据环境的变化，自动调整隐藏层节点，即调整各子群的中心，将当前粒子位置选择作为新的隐藏层中心需同时满足以下两个条件：

8.如权利要求7所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：还包括，

如果某一中心对于其子群中所有粒子的影响力小于阈值e_min，该中心则会被认为是不适合的，并会被删除，删除不适合当前环境的隐含层中心需满足下式：

9.如权利要求1或8所述的基于行为决策网络粒子群优化的柔性车间调度方法，其特征在于：所述结束条件包括，

完成生产或已到达最大进化代数。