CN117151441A - 一种基于演员-评论家算法的置换流水车间调度方法 - Google Patents

一种基于演员-评论家算法的置换流水车间调度方法 Download PDF

Info

Publication number
CN117151441A
CN117151441A CN202311425372.4A CN202311425372A CN117151441A CN 117151441 A CN117151441 A CN 117151441A CN 202311425372 A CN202311425372 A CN 202311425372A CN 117151441 A CN117151441 A CN 117151441A
Authority
CN
China
Prior art keywords
binary tree
actor
algorithm
initial
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311425372.4A
Other languages
English (en)
Other versions
CN117151441B (zh
Inventor
白俊峰
席嘉璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202311425372.4A priority Critical patent/CN117151441B/zh
Publication of CN117151441A publication Critical patent/CN117151441A/zh
Application granted granted Critical
Publication of CN117151441B publication Critical patent/CN117151441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Neurology (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Molecular Biology (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于演员‑评论家算法的置换流水车间调度方法,属于工业工程和智能调度技术领域,解决了现有的优先调度规则性能差、PFS可行解的搜索空间有限的问题,该方法首先利用优先调度规则计算获得初始解,然后通过一个叶子节点只包含一个元素的完全二叉树来表达可行解,以此为基础设计演员‑评论家算法训练所需要的元素,进化上述二叉树的结构,从而寻找到一个相对初始解性能更优的可行解。本发明以在工程上常用的优先调度规则为性能基准,直接通过人工智能算法提升它的性能,提高了优先调度规则求得的解的质量,降低了调度目标makespan,提升了生产效率。

Description

一种基于演员-评论家算法的置换流水车间调度方法
技术领域
本发明属于工业工程和智能调度技术领域,具体涉及一种基于演员-评论家算法的置换流水车间调度方法。
背景技术
由于市场的个性化需求,置换流水车间调度(Permutation Flow-shopScheduling,PFS)已经在工业广泛的应用且是大规模定制的一种重要的、典型的调度类型。makespan作为一种调度目标,减少PFS的makespan对减少在制品积压、提高机器利用率和降低生产成本具有重要意义。
如经常在工程中使用的优先调度规则具有性能差的劣势,而且优先调度规则的选择不佳可能会对生产效率带来不利影响。为优化优先调度规则的性能、降低PFS的makespan,结合优先调度规则简单、计算资源占用少等优点,将其作为初始调度方法,利用演员-评论家算法平衡利用和探索的强大性能,有助于实现扩大可行解搜索空间和实现提升初始解的质量的作用。
发明内容
为了继续增加PFS可行解的搜索空间,增强优先调度规则求解所获得的初始解性能,本发明提出了一种基于演员-评论家算法的置换流水车间调度方法,该方法通过一个叶子结点只包含一个元素的完全二叉树表达PFS可行解,以上述表达方式为基础,设计演员-评论家算法训练所需要的状态、动作、奖励以及智能体与环境的交互过程,利用演员-评论家算法实现了上述表达方式的进化进而优化初始解。
本发明为实现上述目的所采取的技术方案如下:
一种基于演员-评论家算法的置换流水车间调度方法,所述方法包括以下步骤:
步骤一:利用优先调度规则生成置换流水车间调度的初始解;
步骤二:利用完全二叉树对所述初始解进行表达,得到代表初始解的初始二叉树、代表初始解进化过程的中间二叉树和代表最优解的最终二叉树;
步骤三:基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智 能体与环境的交互过程,其中状态是由代表初始二叉树、中间二叉树和最终二叉树的数组 组成;动作是二叉树父节点的左右两个子节点是否交换,不交换的动作定义为0,交换的动 作定义为1;奖励为执行动作前后二叉树所代表的解的makespan差值;智能体与环境的交互 过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行 动作,直到所有的父节点执行动作后完成一轮交互,一轮交互能够产生个二叉树,为 作业的数量;
步骤四:设计策略网络和价值网络;
步骤五:以策略网络表示演员-评论家算法中的Actor,以价值网络表示演员-评论家算法中的Critic,对演员-评论家算法进行训练,得到相对初始解较优的可行解。
本发明提出的一种基于演员-评论家算法的置换流水车间调度方法的有益效果在于:本发明提出的是一种静态调度方法,初始解是由优先调度规则计算获得,通过一个叶子节点只包含一个元素的完全二叉树来表达可行解,然后通过演员-评论家算法在初始二叉树的基础上寻找一个性能更优的解。上述过程一方面改善了经常被用在工程上的优先调度规则的解的质量,优化了PFS的makespan;另一方面结合了优先调度规则求解PFS可行解的简单、占用计算资源少的优点。
附图说明
图1为本发明实施例所述的一种基于演员-评论家算法的置换流水车间调度方法的流程图;
图2为TA01基准的代表初始解的二叉树结构示意图;
图3为演员-评论家算法训练时的收敛过程图;
图4为基于演员-评论家算法调度鲁棒性的测试结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在其中一个实施例中,如图1所示,本实施例提供一种基于演员-评论家(Actor-Critic)算法的置换流水车间调度方法,主要包括了PFS调度初始解的生成,初始解表达方式的转变,状态、动作、奖励以及智能体与环境的交互过程的设计,价值网络和策略网络的设计,Actor-Critic算法的训练过程。本实施例的一种基于Actor-Critic算法的置换流水车间调度方法包括以下的步骤一至步骤五。
步骤一:利用优先调度规则生成置换流水车间调度的初始解。
本步骤利用优先调度规则生成PFS调度的初始解。优先调度规则是以作业的加工参数为其设置优先级,作业的加工参数包括每个机器处理作业的时间、作业的总处理时间等,优先级越高的作业率先被加工。
可选地,本步骤利用最短总处理时间优先调度规则(STPT)生成置换流水车间调度 的初始解。利用STPT生成初始解的具体过程为:收集机器处理作业的加工时间,进而求解每 个作业的总加工时间。STPT的参数是每个作业的总加工时间,STPT使得具有最 短总加工时间的作业设定更高的加工优先级,优先级高的作业优先被加工。
步骤二:利用完全二叉树对初始解进行表达,得到代表初始解的初始二叉树、代表初始解进化过程的中间二叉树和代表最优解的最终二叉树。
初始解表达方式的转变是指通过一个叶子节点只包含一个元素的完全二叉树(下 文简称二叉树)表达初始解的过程。二叉树的所有节点的形成过程是从根节点到叶子节点 从上向下、从最左边节点到最右边节点从左到右。在利用完全二叉树对初始解进行表达时, 以生成初始解的优化调度规则的参数相同的作业参数计算分枝条件参数,分枝的条件是第父节点中的作业参数小于的作业分枝到左节点中,作业参数大于等于的作业 分枝到右节点中,其中参数的计算公式如下:
(1)
式中,表示作业的加工参数,与生成初始解的优先调度规则对应的作业加 工参数相同,表示第个父节点中包含作业的数量。
在所有可以代表可行解的二叉树中,代表初始解的二叉树定义为初始二叉树,代表初始解进化过程的二叉树为中间二叉树,代表最优解的二叉树为最终二叉树。
步骤三:基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智能体与环境的交互过程。
状态、动作、奖励以及智能体与环境的交互过程的设计基于上述的初始二叉树、中 间二叉树和最终二叉树实现。状态是由代表初始二叉树、中间二叉树和最终二叉树的数组 组成;动作是二叉树父节点的左右两个子节点是否交换,不交换的动作定义为0,交换的动 作定义为1;奖励为执行动作前后二叉树所代表的解的makespan差值;智能体与环境的交互 过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行 动作,直到所有的父节点执行动作后完成一轮交互,一轮交互能够产生个二叉树(初始 二叉树为一个,由初始二叉树经过交互产生n-2个新的二叉树),为作业的数量。
表达状态的数组根据表达初始二叉树的根节点或父节点的子节点的左右位置是 否改变而获得。假设初始状态数组,第个根节点或父子节点改变,则的第个 元素的值变为1。
步骤四:设计策略网络和价值网络。
策略网络和价值网络的设计如下:策略网络包括个全连接层、个relu激活 函数、一个softmax函数,softmax函数为最后一个全连接层的激活函数,其中,最后一个全 连接层包括两个神经元,因此输出的向量为二维结构;价值网络包括个全连接层、个 relu激活函数,其中最后一个全连接层包含一个神经元,因此输出结构为数值标量结构。
步骤五:以策略网络表示Actor-Critic算法中的Actor,以价值网络表示Actor-Critic算法中的Critic,对Actor-Critic算法进行训练,得到相对初始解较优的可行解。Actor-Critic算法的训练为通过智能体与环境的交互过程不断进化初始解,最终收敛到一个相对初始解较优的可行解。
Actor是表达当前二叉树状态的状态数据和动作的关系函数,由策略网络表示,输入状态数据进而通过策略网络输出选取每个动作的概率;Critic是衡量Actor输出动作的价值,由价值网络表示,输入状态数据和策略网络输出的每个动作的概率的行向量拼接。策略网络的损失函数是策略网络输出动作的价值,训练过程为梯度上升;价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当前状态执行动作获得的奖励和的差值,训练过程为梯度下降。训练好的策略网络输出两个值的最大值索引为被选定的动作,即相对初始解较优的可行解。
本实施例提出的一种基于Actor-Critic算法的置换流水车间调度方法以在工程上常用的优先调度规则为性能基准,直接通过人工智能算法提升它的性能,提高了优先调度规则求得的解的质量,降低了调度目标makespan,提升了生产效率。
下面以Taillard的flow shop基准中的TA01基准为例,对本发明的技术方案进行进一步说明。TA01基准的数据如表1所示,其中,PT1、PT2、PT3、PT4、PT5分别表示作业在机器M1、M2、M3、M4和M5的加工时间,J1、J2、…、J20表示PFS生产系统作业任务集的20个作业。
表1 TA01基准的数据
PT1 PT2 PT3 PT4 PT5
J1 54 79 16 66 58
J2 83 3 89 58 56
J3 15 11 49 31 20
J4 71 99 15 68 85
J5 77 56 89 78 53
J6 36 70 45 91 35
J7 53 99 60 13 53
J8 38 60 23 59 41
J9 27 5 57 49 69
J10 87 56 64 85 13
J11 91 61 1 9 72
J12 14 73 63 39 8
J13 29 75 41 41 49
J14 12 47 63 56 47
J15 77 14 47 40 87
J16 32 21 26 54 58
J17 87 86 75 77 18
J18 68 5 77 51 68
J19 94 77 40 31 28
J20 91 61 1 9 72
TA01基准的makespan的求解过程如式(2)~(3)所示:
(2)
(3)
其中,表示作业的加工优先级,表示加工优先级为的作业在机器上 的完成时间,表示机器处理加工优先级为的作业的处理时间,表示作业的数 量,表示机器的数量,最小化的调度目标能够转化为
PFS调度初始解的生成:利用最短总处理时间优先调度规则(STPT)生成初始解。利 用STPT生成初始解的具体过程为:收集机器处理作业的加工时间,进而求解每个作业的 总加工时间,如式(4)所示;STPT的参数是每个作业的总加工时间,STPT使得具有 最短总加工时间的作业设定更高的加工优先级,作业的加工优先级的求解公式如式 (5)所示,优先级高的作业优先被加工:
(4)
(5)
其中,表示机器加工作业的时间。
使用STPT计算TA01基准的初始解的作业加工序列为[3, 17, 13, 9, 8, 15, 12,14, 11, 16, 19, 20, 1, 6, 7, 2, 10, 4, 18, 5],该加工序列下求解的makespan为1472。
初始解表达方式的转变:如图2所示,为一个叶子节点只包含一个元素的完全二叉树,二叉树的所有节点的形成过程是从根节点到叶子节点从上向下、从最左边节点到最右边节点从左到右。图2详细的表示了TA01基准的代表初始解的二叉树结构,包括了各节点包含的作业索引、各个父节点的分枝参数值以及各个父节点分枝的先后顺序。其中带有阴影的方块为叶子节点,叶子节点从左到右的作业索引排序为作业序列;透明的方块代表根节点和中间节点,根节点中包含的是作业的索引;阴影的圆圈为能作为父节点的索引且它的顺序为节点的生成过程。父节点的分枝参数根据式(1)计算而得。
状态、动作、奖励以及智能体与环境的交互过程的设计:如图2所示,以计算TA01可 行解过程为例。从初始二叉树通过改变父节点的作业子节点的位置生成的二叉树都定义为 一个状态,每一个二叉树用一个只包含0或1的19维向量表达。例如,初始解的二叉树结构的 向量表达方式为。动作为是否改变父节点的分支情况,父节点的左右子节点如果交换, 动作定义为1,改变上一状态表达的PFS可行解;否则动作定义为0,与上一状态表达的PFS可 行解相同。奖励为相邻两个二叉树表达的解的makepan的差值,如式(6)所示:
(6)
其中,为makepan的差值,为第k个二叉树表达的解的makepan,为第k+1 个二叉树表达的解的makepan。
智能体与环境的交互过程为按照初始二叉树各节点生成的过程依次对父节点的 分枝施加动作。例如,对初始二叉树的第一个父节点(即二叉树的根节点)的分枝施加动作, 如果施加了动作1,状态转变为,获得奖励-145,作业的加工序列转变为作业 序列为[11,16,19,20,1,6,7,2, 10,4,18,5, 3,17,13,9,8,15,12,14],如果施加动作0,状 态转变为,作业的加工序列保持不变,获得奖励0。按照父节点的索引依次对所有的父 节点施加动作,直到最后一个父节点施加动作后,定义上述过程为智能体和环境的一轮交 互。
价值网络和策略网络的设计:价值网络设置为输入层维度为21*1,第一个全连接层维度为256*1,紧接着一个relu激活函数,第二个全连接层的维度为128*1,紧接着一个relu激活函数,第三个全连接层的维度为1;策略网络设置为输入层维度为19*1,第一个全连接层的维度为256*1,紧接着一个relu激活函数,第二个全连接层的维度为128*1,紧接着一个relu激活函数,第三个全连接层的维度为2*1,紧跟着一个softmax函数。
Actor-Critic算法的训练过程:Actor是表达当前二叉树状态的状态数据和动作 的关系函数,由策略网络表示,输入状态数据进而通过策略网络输出选取每个动作的概率; Critic是衡量Actor输出动作的价值,由价值网络表示,输入状态数据和策略网络输出的每 个动作的概率的行向量拼接。策略网络的损失函数是策略网络输出动作的价值,训练过程 为梯度上升;价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当 前状态执行动作获得的奖励和的差值,如式(7)所示,训练过程为梯度下降:
(7)
其中,表示折扣因子,表示参数为的价值网络。
训练好的策略网络输出两个值的最大值索引为被选定的动作。设置的训练所需要的参数如表2所示,Actor-Critic算法训练的收敛过程如图3所示,图中的横坐标是Actor-Critic算法训练时迭代的次数,纵坐标是本实施例的调度目标即最大作业完工时间。改进的解为[3, 13, 17, 18, 9, 14, 12, 15, 2, 1, 7, 6, 11, 16, 20, 19, 4, 18, 5,10],makespan值为1342,相对于初始解makespan值降低了8.83%。
表2 Actor-Critic算法的训练参数
参数 策略网络的学习率 价值网络的学习率 折扣因子 迭代次数 优化器 经验回放池大小 最小训练数据量
参数值 0.003 0.002 0.98 100 Adam 1000 64
为了测试求解TA01基准可行解的鲁棒性,利用Actor-Critic算法训练10次,结果如图4所示,解的标准差为6.29,且每个解都优于初始解,证明了在TA01基准下基于Actor-Critic算法的置换流水车间的调度具有较强的鲁棒性和强大的改善初始解的能力。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,包括以下步骤:
步骤一:利用优先调度规则生成置换流水车间调度的初始解;
步骤二:利用完全二叉树对所述初始解进行表达,得到代表初始解的初始二叉树、代表初始解进化过程的中间二叉树和代表最优解的最终二叉树;
步骤三:基于初始二叉树、中间二叉树和最终二叉树设计状态、动作、奖励以及智能体与环境的交互过程,其中状态是由代表初始二叉树、中间二叉树和最终二叉树的数组组成;动作是二叉树父节点的左右两个子节点是否交换,不交换的动作定义为0,交换的动作定义为1;奖励为执行动作前后二叉树所代表的解的makespan差值;智能体与环境的交互过程为从初始二叉树的根节点到叶子结点、从最左边节点到最右边节点依次对父节点执行动作,直到所有的父节点执行动作后完成一轮交互,一轮交互能够产生个二叉树,/>为作业的数量;
步骤四:设计策略网络和价值网络;
步骤五:以策略网络表示演员-评论家算法中的Actor,以价值网络表示演员-评论家算法中的Critic,对演员-评论家算法进行训练,得到相对初始解较优的可行解。
2.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,在利用完全二叉树对所述初始解进行表达时,以生成初始解的优化调度规则的参数相同的作业参数计算分枝条件参数,分枝的条件是第父节点中的作业参数小于/>的作业分枝到左节点中,作业参数大于等于/>的作业分枝到右节点中。
3.根据权利要求2所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,参数的计算公式如下:
(1)
式中,表示作业/>的加工参数,与生成初始解的优先调度规则对应的作业加工参数相同,/>表示第/>个父节点中包含作业的数量。
4.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,所述策略网络包括个全连接层、/>个relu激活函数和一个softmax函数,softmax函数为最后一个全连接层的激活函数,其中,最后一个全连接层包括两个神经元,因此输出的向量为二维结构;所述价值网络包括/>个全连接层和/>个relu激活函数,其中最后一个全连接层包含一个神经元,因此输出结构为数值标量结构。
5.根据权利要求4所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,所述策略网络的损失函数是策略网络输出动作的价值,训练过程为梯度上升;所述价值网络的损失函数是当前状态下的状态价值和下一状态的折扣价值与当前状态执行动作获得的奖励和的差值,训练过程为梯度下降。
6.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,在步骤三中,根据表达初始二叉树的根节点或父节点的子节点的左右位置是否改变确定表达状态的数组。
7.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,在步骤一中,利用最短总处理时间优先调度规则生成置换流水车间调度的初始解。
8.根据权利要求1所述的一种基于演员-评论家算法的置换流水车间调度方法,其特征在于,演员-评论家算法的训练参数包括:策略网络的学习率为0.003,价值网络的学习率为0.002,折扣因子为0.98,迭代次数为100,优化器为Adam, 经验回放池大小为1000,最小训练数据量为64。
CN202311425372.4A 2023-10-31 2023-10-31 一种基于演员-评论家算法的置换流水车间调度方法 Active CN117151441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311425372.4A CN117151441B (zh) 2023-10-31 2023-10-31 一种基于演员-评论家算法的置换流水车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311425372.4A CN117151441B (zh) 2023-10-31 2023-10-31 一种基于演员-评论家算法的置换流水车间调度方法

Publications (2)

Publication Number Publication Date
CN117151441A true CN117151441A (zh) 2023-12-01
CN117151441B CN117151441B (zh) 2024-01-30

Family

ID=88912415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311425372.4A Active CN117151441B (zh) 2023-10-31 2023-10-31 一种基于演员-评论家算法的置换流水车间调度方法

Country Status (1)

Country Link
CN (1) CN117151441B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN113723749A (zh) * 2021-07-20 2021-11-30 中国电力科学研究院有限公司 一种多园区综合能源系统协调调度方法及装置
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN116494247A (zh) * 2023-06-14 2023-07-28 西安电子科技大学广州研究院 基于深度确定性策略梯度的机械臂路径规划方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
WO2022121510A1 (zh) * 2020-12-11 2022-06-16 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN113723749A (zh) * 2021-07-20 2021-11-30 中国电力科学研究院有限公司 一种多园区综合能源系统协调调度方法及装置
CN116494247A (zh) * 2023-06-14 2023-07-28 西安电子科技大学广州研究院 基于深度确定性策略梯度的机械臂路径规划方法及系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HUA HZ, WEN GX AND WU KG: "Building Decision Forest via Deep Reinforcement Learning", 《COMPUTER SCIENCE》 *
HWANG HS, LEE M AND SEOK J: "Deep reinforcement learning with a critic-value-based branch tree for the inverse design of two-dimensional optical devices", 《APPLIED SOFT COMPUTING》 *
刘辰宇: "作业车间调度问题的深度强化学习算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
李靖: "开放车间调度问题的深度强化学习算法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
王成龙;李诚;冯毅萍;荣冈;: "作业车间调度规则的挖掘方法研究", 浙江大学学报(工学版), no. 03 *
顾文斌,李育鑫,刘斯麒等: "数据驱动的智慧车间实时调度方法研究", 《机械工程学报》 *

Also Published As

Publication number Publication date
CN117151441B (zh) 2024-01-30

Similar Documents

Publication Publication Date Title
Wagner et al. Time series forecasting for dynamic environments: the DyFor genetic program model
Jiang et al. Conserving water by optimizing production schedules in the dyeing industry
CN112907150B (zh) 一种基于遗传算法的生产排程方法
CN102073311B (zh) 基于离散量子微粒群算法的机器零件加工流水线调度方法
CN116500986A (zh) 一种分布式作业车间的优先调度规则生成方法及系统
CN113469491B (zh) 一种基于强化学习和图神经网络的柔性车间作业调度方法
CN116700176A (zh) 一种基于强化学习的分布式阻塞流水车间调度优化系统
CN105373845A (zh) 制造企业车间的混合智能调度优化方法
CN111626496B (zh) 一种柔性装配作业车间调度的混合优化方法
CN109255484A (zh) 数据驱动的离散制造资源协同优化方法及系统
CN117406684B (zh) 基于Petri网与全连接神经网络的柔性流水车间调度方法
CN117151441B (zh) 一种基于演员-评论家算法的置换流水车间调度方法
CN112987665B (zh) 一种基于强化学习的流水车间调度方法
CN117726119A (zh) 一种解决分布式混合流水车间组调度的图仿生学习方法
CN115081755B (zh) 基于变邻域搜索算法的生产与维修协同调度方法和系统
CN113485278B (zh) 优化两生产指标的柔性作业车间调度多目标分布估计方法
CN112149826B (zh) 深度神经网络推理计算中一种基于Profile图的优化方法
CN111260500B (zh) 一种基于Hadoop的小水电分布式差分进化调度方法
CN114202063A (zh) 一种基于遗传算法优化的模糊神经网络温室温度预测方法
CN111260036B (zh) 一种神经网络加速方法和装置
Ahmed et al. Application of an Efficient Genetic Algorithm for Solving n× 𝒎𝒎 Flow Shop Scheduling Problem Comparing it with Branch and Bound Algorithm and Tabu Search Algorithm
Wu Brain storm optimization algorithms for flexible job shop scheduling problem
CN111367247B (zh) 自动化铸造混流生产线产能优化方法
CN113313283B (zh) 一种基于知识驱动方法的分布式装配阻塞流水车间集成调度方法
CN117707083A (zh) 分布式装配流水车间的调度方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant