CN113743784A - 一种基于深度强化学习的生产时序表智能生成方法 - Google Patents

一种基于深度强化学习的生产时序表智能生成方法 Download PDF

Info

Publication number
CN113743784A
CN113743784A CN202111036255.XA CN202111036255A CN113743784A CN 113743784 A CN113743784 A CN 113743784A CN 202111036255 A CN202111036255 A CN 202111036255A CN 113743784 A CN113743784 A CN 113743784A
Authority
CN
China
Prior art keywords
production
order
time
line body
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111036255.XA
Other languages
English (en)
Inventor
袁东风
黄澄
梁道君
郑安竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202111036255.XA priority Critical patent/CN113743784A/zh
Publication of CN113743784A publication Critical patent/CN113743784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06314Calendaring for a resource
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度强化学习的生产时序表智能生成方法,包括:步骤1:接收生产订单,拆分成多个子订单;步骤2:处理订单数据;步骤3:依次根据每个订单的生产机型判断订单在哪个线体上生产;重复步骤2和步骤3,直至为所有订单分配完线体;步骤4:将线体上的所有订单使用深度强化学习算法进行订单生产顺序的排序,目标为使线体的总完工时间最短;步骤5:调整订单位置;步骤6:计算每个线体上订单的生产时间;步骤7:根据每个订单的生产时间与其他订单信息生成生产时序表。本发明解决了深度学习难以获取大量数据和难以定向给予标签的问题,通过对网络参数不断优化,进而逼近寻找最优解决方案的网络。

Description

一种基于深度强化学习的生产时序表智能生成方法
技术领域
本发明涉及一种基于深度强化学习的生产时序表智能生成方法,属于生产制造业的生产计划的排程技术领域。
背景技术
生产时序表是使用生产计划排程生成的表格。生产计划排程是一种在有限产能的基础上,综合来自市场、物料、产能、工序流程、资金、管理体制、员工行为等多方的对生产的影响,经过APS的优化得出合理有效的生产计划。其目的是为车间生成一个详细的短期生产计划。排产计划(Production Schedule)指明了计划范围内的每一个订单在所需资源上的加工开始时间和结束时间,也即指出了在给定资源上订单的加工顺序。传统通过富有经验的技术人员依据经验完成计划与排程,但是由于生产约束条件众多,会出现排程不合理,资源前后冲突的现象,如无法及时发现,会造成企业生产影响,从而导致企业生产效率低下。现有生成生产时序表的算法大多使用启发式算法,其存在计划与排程效果较差的问题。
与此同时,实际的生产调度模式是动态生产调度,由于生产中的诸多因素如生产线体突发故障、用户要求紧急插单等问题,难以预先精确估计,而这些因素往往影响调度计划,使得实际生产进度与静态调度的进度表不符,需要进行动态调整。传统手工排产和启发式算法无法满足生产现场突发状况下的排程需求。
随着云计算、机器学习的发展,强化学习作为机器学习的一个重要分支,通过Alpha Go的胜利,进入人们的视线。强化学习是人工智能进程中关键的方法和理论,也是未来发展不可或缺的关键方法。深度强化学习是人工智能领域的一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破。深度强化学习是一种基于动态规划的寻优方法,将强化学习用于智能调度,可以有效的解决传统方法搜索速率慢,易陷入局部极值的问题。
发明内容
针对现有技术的不足,本发明提供了一种基于深度强化学习的生产时序表智能生成方法;
本发明的目的为:提供一种基于深度强化学习的生产时序表智能生成方法,可以根据订单情况,基于深度强化学习算法快速生成生产时序表。本发明旨在解决现有生成生产时序表方法在动态生产调度情况下效果差、效率低的问题。
术语解释:
1、循环神经网络,以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的神经网络。
2、长短期记忆网络,LSTM,一种特殊具有长期记忆能力的一种时间的循环神经网络(RNN)。原始的RNN在训练中,随着训练时间的加长以及网络层数的增多,很容易出现梯度爆炸或者梯度消失的问题,导致无法处理较长序列数据,从而无法获取长距离数据的信息。长短期记忆网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。
本发明的技术方案为:
一种基于深度强化学习的生产时序表智能生成方法,包括以下步骤:
步骤1:接收生产订单,将生产订单中的整机订单根据订单内容拆分成多个子订单,拥有相同订单号的多个子订单具有不同的行号;
步骤2:处理订单数据,根据企业生产需求计算每个订单的最晚生产日期;
步骤3:依次根据每个订单的生产机型判断订单在哪个线体上生产,如果订单只能在一条线体上生产,则将订单安排在该线体上生产;如果订单可在多条线体上生产,则选择订单生产机型生产过的线体作为该订单的生产线体;如果该订单生产机型在所有可选机型上都未出现过,则分别计算订单在哪个线体的生产时间更短,选择最短生产时间的线体;重复步骤2和步骤3,直至为所有订单分配完线体,结束后进入步骤4;
步骤4:将线体上的所有订单使用深度强化学习算法进行订单生产顺序的排序,目标为使线体的总完工时间最短,即生产时间与换产时间之和最短;
步骤5:比较生产同种类线体的总完工时间,如果同种类线体之间的总完工时间差距较大,则调整订单位置,将时间较长线体上的最后一部分订单移至时间较短线体的最后;
步骤6:计算每个线体上订单的生产时间,根据订单顺序与线体的总开始生产时间,依次根据订单生产时间与两个订单之间的换产时间,计算每个订单的开始生产时间,如式(Ⅰ)所示:
Figure BDA0003247246650000021
式(Ⅰ)中,Bi为第i个订单的开始生产时间,B为线体的总开始生产时间,Ti-1为第i-1个订单的生产时长,Ci-1,i为从第i-1个订单换产到第i个订单的换产时长;
步骤7:根据每个订单的生产时间与其他订单信息生成生产时序表。
根据本发明优选的,步骤4中,使用深度强化学习算法求解最优的订单生产顺序,此处使用的深度强化学习算法为强化指针网络,设一个线体共有n个订单,包括如下步骤:
(1)搭建深度强化学习网络,深度强化学习网络包括行动者网络即指针网络、策略梯度、评论家网络即Actor-Critic模型;
(2)将订单数据输入至深度强化学习网络进行训练,记录生产时长与最短生产时长对应的生产顺序,目标为使得总生产时长最短,即
Figure BDA0003247246650000031
(3)使用历史周订单数据测试训练的深度强化学习网络;
(4)输入订单数据至训练好的深度强化学习网络,输出周订单的生产总时长和生产顺序。
根据本发明优选的,指针网络包括编码器、解码器,编码器、解码器都是循环神经网络,内部神经元包括若干个长短期记忆网络;
将简单的原始序列即待生产的订单集合输入编码器,经过循环神经网络,转换为隐藏层的输出,从而作为解码器的输入;
解码器使用指针网络的注意力机制,在每一步中根据注意力机制,使用softmax将向量ui标准化为输入字典上的输出分布,向量ui为在第i步编码器的输出向量,输入字典为输入的订单集合,即使用softmax计算生产每个订单的概率大小,向量ui的长度为n,输入字典为将softmax的结果值作为输出的条件概率,即选择每一个订单的概率,选取权重最大的元素的指针,作为最终的输出;
注意力机制为:
Figure BDA0003247246650000032
其中,ej为编码器第j步隐藏层的输出,di为解码器第i步隐藏层的输出,vT、W1、W2为指针网络待训练的参数,
Figure BDA0003247246650000033
为在第i步生产订单j;
计算概率向量:p(Ci|C1,…,Ci-1,Q)=softmax(ui),softmax将向量ui归一化为输入序列在输出元素中的分布,p(Ci|C1,…,Ci-1,Q)则代表从输入元素被选中作为输出元素的条件概率。
根据本发明优选的,基于策略梯度的强化学习来优化指针网络的参数θ,奖励reward为reward(CQ|Q),reward为标记的一个变量,为算法的优化目标,具体是指:对应生产时长,对于给定的n个订单的集合Q,优化目标为预期订单生产时长,如式(Ⅰ)、式(Ⅱ)所示:
Figure BDA0003247246650000034
Figure BDA0003247246650000035
优化过程采用了策略梯度法和随机梯度下降法对参数进行优化,此时梯度如式(Ⅲ)所示:
Figure BDA0003247246650000036
式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中,Q为订单集合,即问题的输入;CQ为输入订单为集合为Q时的一种订单的生产顺序,即问题的输出;reward(CQ|Q)为实际奖励函数,即订单生产的生产时长;pθ(·|Q)为已知输入订单集为Q时的条件概率;J(θ|Q)为网络的优化目标,即生产时间的期望,表示对于给定的订单集合Q,依照生产顺序CQ进行生产时得到的期望累计损失;
Figure BDA0003247246650000041
为J(θ|Q)的梯度;b(Q)为用于估计reward不依赖于CQ的基线函数,其作用为通过估计reward的值减小整体梯度方差。
根据本发明优选的,使用Actor-Critic模型估计b(Q),即将一个待生产的订单集合Q映射到基线预测函数;
Actor-Critic模型在已知输入Q的情况下根据指针网络的最终状态预测reward,其训练方式为,从一个随机策略出发,将预测的reward值与实际的reward的均方误差作为优化目标,采用强化学习规则和随机梯度下降的方式对动态生成的实例进行迭代优化,如式(Ⅳ)所示:
Figure BDA0003247246650000042
式(Ⅳ)中,θv为评论家网络的参数;B为训练时的batchsize;l(θv)为使用θv作为网络参数时的损失;Qi为待生产的订单集合;
Figure BDA0003247246650000043
为订单集合为Qi的生产策略,即订单的生产顺序;
Figure BDA0003247246650000044
为使用参数θv生产订单集合Qi时预测的reward值;
Figure BDA0003247246650000045
为以
Figure BDA0003247246650000046
生产Qi时的实际reward值。
根据本发明优选的,指针网络的训练过程如下:
1、初始化指针网络参数θ,初始化Actor-Critic模型参数θv
2、按照如下步骤循环T次训练:
2.1、初始化Qi为当前序列状态,i∈{1,…,B};
2.2、根据Qi初始化
Figure BDA0003247246650000047
为一个符合策略的生产顺序;
2.3、更新Ai
Figure BDA0003247246650000048
2.4、更新gθ
Figure BDA0003247246650000049
2.5、更新l(θv)为
Figure BDA00032472466500000410
2.6、更新指针网络的参数θ,θ为ADAM(θ,gθ);ADAM为自适应矩估计,为一种计算每个参数的自适应学习率的深度学习优化器,ADAM(θ,gθ)表示使用ADAM优化器更新参数θ,优化目标为gθ最小;
2.7、更新Actor-Critic模型的参数θvv
Figure BDA00032472466500000411
表示使用ADAM优化器更新参数θv,优化目标为
Figure BDA00032472466500000412
最小;
训练过程中,输入为迭代次数T、订单集Q、批大小B,输出为指针网络参数θ、Actor-Critic模型参数θv
根据本发明优选的,步骤5中,调整订单位置的具体方法为,
1)计算目前在所有线体的生产总时长,根据生产类型,分为生产内机的线体和生产外机的线体;
2)比较多条生产内机的线体的生产时长,生成线体与生产时长的字典对应关系,并按照生产时长从大到小排序;
3)计算多条生产内机的线体的生产时长的平均值mn
4)计算多条生产内机的线体的生产时长与平均值mn之间的差值,若该差值为正数,则移动部分订单到其他线体,若为负数,则等待其他线体移部分订单进入;由于按照生产时长从大到小排序,第一条线体必须移部分订单至其他线体,根据差值为负数的线体的差值大小,计算第一条线体需要移多少过去,如果第一条订单的差值足够移动,则移完后继续移部分至其他差值为负的线体,否则,继续从第二条差值为正的线体移动,直至移动完毕;
5)按照步骤2)至步骤4)相同的方法进行多条生产外机的线体的生产时长均衡。
根据本发明优选的,步骤7中,生产时序表包括生产线体、订单号、整机编码、物料描述、数量、版本、节拍、工时、生产日期、出运期、国家、订单执行;其中,订单号、整机编码、物料描述、数量、版本、出运期、国家、订单执行为输入订单数据自有的数据,其他为根据物料描述信息查询型号线体对应表、型号线体生产节拍对应表、物料BOM关系、型号系列信息表获得;根据步骤6计算的每个订单的开始生产时间即生产日期,按照不同的线体生成最终的生产时序表。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于深度强化学习的生产时序表智能生成方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于深度强化学习的生产时序表智能生成方法的步骤。
本发明的有益效果为:
1、本发明将深度强化学习应用于生产时序排程领域,通过使用强化学习中的策略梯度优化训练从序列到序列的指针网络,解决了对此问题深度学习难以获取大量数据和难以定向给予标签的问题,通过对网络参数不断优化,进而逼近寻找最优解决方案的网络。
2、通过使用行动者-评论家结构对基线函数进行估计,在已知输入策略的情况下根据训练的指针网络的最终状态来预测奖励值,有效加快指针网络的收敛速度。
3、本发明实现了一种解决生产车间时序排程问题,有效辅助生产车间排程人员根据订单进行生产时序的快速制定,提高排产效率。
附图说明
图1为本发明提供的一种基于深度强化学习的生产时序排程方法的流程框图;
图2为本发明提供的一种基于深度强化学习的生产时序排程方法的流程详细示意图;
图3为强化学习机理框图;
图4为指针网络框架示意图;
图5为本发明深度强化学习网络的结构示意图。
具体实施方式
下面结合说明书附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例
一种基于深度强化学习的生产时序表智能生成方法,运行于企业的订单排程过程中,如图1所示,根据订单与企业生产信息(包括:线体开启时间、信息查询型号线体对应表、型号线体生产节拍对应表、物料BOM关系、型号系列信息表)通过基于深度强化学习的生产时序表生成方法,生成共企业生产使用的生产时序表,图3为强化学习机理框图。图3中,Agent选择一个动作用于环境,环境接收到该动作后状态发生变化,同时产生一个奖励(可能正奖励,或是负奖励,即惩罚)反馈给Agent,Agent根据奖励和当前状态再选择下一个动作,选择动作的原则是使收到的正奖励的概率增大。如图2所示,包括以下步骤:
步骤1:接收生产订单,将生产订单中的整机订单根据订单内容拆分成多个子订单,拆分后的子订单仍然拥有相同的订单号等其他信息,为了标识不同的子订单,拥有相同订单号的多个子订单具有不同的行号;
步骤2:处理订单数据,根据企业生产需求计算每个订单(整机订单)的最晚生产日期;如:内销需要至少在交货期三天前生产完毕,内销订单至少要在交货期一天前生产完毕等。
步骤3:依次根据每个订单的生产机型判断订单在哪个线体上生产,如果订单只能在一条线体上生产,则将订单安排在该线体上生产;如果订单可在多条线体上生产,由于同一机型在不同线体上的生产时间相同,则选择订单生产机型生产过的线体作为该订单的生产线体;如果该订单生产机型在所有可选机型上都未出现过,则分别计算订单在哪个线体的生产时间更短,选择最短生产时间的线体;重复步骤2和步骤3,直至为所有订单分配完线体,结束后进入步骤4;
步骤4:将线体上的所有订单使用深度强化学习算法进行订单生产顺序的排序,目标为使线体的总完工时间最短,即生产时间与换产时间之和最短;使用深度强化学习算法求解最优的订单生产顺序,此处使用的深度强化学习算法为强化指针网络,设一个线体共有n个订单,包括如下步骤:
(1)搭建深度强化学习网络,如图5所示,深度强化学习网络包括行动者(actor)网络即指针网络、策略梯度、评论家(critic)网络即Actor-Critic模型;
策略梯度:对于网络而言,优化的目标函数是最小化生产时间期望:
Figure BDA0003247246650000071
此公式表示在订单集合Q确定的情况下,依照策略(订单生产顺序)CQ得到的期望累计损失。这里直接采用策略梯度法对此目标函数进行优化:
Figure BDA0003247246650000072
Figure BDA0003247246650000073
图5中,编码器Encoder输入为n个订单[q0,q1,q2,…qn],解码器Decoder为重新排列顺序的n个订单。与图4的指针网络相比,增加了评论家网络。将由指针网络组成的行动者网络得到的动作action和当前状态state作为评论家网络的输入,得到对当前状态的价值估计。评论家网络的架构是带有LSTM的循环神经网络,其中的预测是基于最终状态state做出的。
(2)将订单数据输入至深度强化学习网络进行训练,记录生产时长与最短生产时长对应的生产顺序,目标为使得总生产时长最短,即
Figure BDA0003247246650000074
n为订单数量;
(3)使用历史周订单数据测试训练的深度强化学习网络;
(4)输入订单数据至训练好的深度强化学习网络,输出周订单的生产总时长和生产顺序。
如图4所示,指针网络包括编码器、解码器,编码器、解码器都是循环神经网络,内部神经元包括若干个长短期记忆网络;图4中,输入[x1,x2,x3,x4,x5]为五个订单,输出为指向输入元素的指针。图中左半部分为编码器,由双向LSTM组成;右侧为解码器,采用单向LSTM。将此时重新排列的订单顺序[x3,x4,x5,x1,x2]作为输入,将经过LSTM的输出值分别指向编码器部分的5个订单的结点。
编码器是一个双向长短期记忆网络,解码器使用了一个单向长短期记忆网络。
将简单的原始序列即待生产的订单集合输入编码器,如[1,2,3,4,5]表示此时需要生产订单1,订单2,订单3,订单4,订单5。经过循环神经网络,转换为隐藏层的输出,从而作为解码器的输入;
解码器使用指针网络的注意力机制,在每一步中根据注意力机制,使用softmax将向量ui标准化为输入字典上的输出分布,向量ui为在第i步编码器的输出向量,输入字典为输入的订单集合,即使用softmax计算生产每个订单的概率大小,向量ui的长度为n,输入字典为将softmax的结果值作为输出的条件概率,即选择每一个订单的概率,选取权重最大的元素的指针,作为最终的输出;这里使用softmax函数计算在第i步时每个订单生产的概率,得到一个数组,如[0.6,0.2,0.1,0.l]分别代表每个订单生产的概率,此处生产第一个订单的概率最大,因此输出为指向第一个订单的指针。
注意力机制为:
Figure BDA0003247246650000075
其中,ej为编码器第j步隐藏层的输出,di为解码器第i步隐藏层的输出,vT、W1、W2为指针网络待训练的参数,
Figure BDA0003247246650000081
为在第i步生产订单j;
计算概率向量:p(Ci|C1,…,Ci-1,Q)=softmax(ui),softmax将向量ui归一化为输入序列在输出元素中的分布,p(Ci|C1,…,Ci-1,Q)则代表从输入元素被选中作为输出元素的条件概率。
解码器的输出就是根据这个概率向量决定最终的输出。
对于NP-hard问题的监督学习是不可取的,因为模型的性能和监督标签的质量有关,而在本问题中,获得监督标签的成本很高,甚至是不可行的。相反,强化学习为训练神经网络提供了一种合适而简单的范例。强化学习的Agent探索不用的订单生产顺序,并观察他们对应的奖励。因此,通过策略梯度来训练神经网络,并使用强化学习规则和一个critic网络来减少梯度的方差。
基于策略梯度的强化学习来优化指针网络的参数θ,奖励reward为reward(CQ|Q),reward为标记的一个变量,为算法的优化目标,具体是指:对应生产时长,对于给定的n个订单的集合Q,优化目标为预期订单生产时长,如式(Ⅰ)、式(Ⅱ)所示:
Figure BDA0003247246650000082
Figure BDA0003247246650000083
优化过程采用了策略梯度法和随机梯度下降法对参数进行优化,此时梯度如式(Ⅲ)所示:
Figure BDA0003247246650000084
式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中,Q为订单集合,即问题的输入;CQ为输入订单为集合为Q时的一种订单的生产顺序,即问题的输出;reward(CQ|Q)为实际奖励函数,即订单生产的生产时长;pθ(·|Q)为已知输入订单集为Q时的条件概率;J(θ|Q)为网络的优化目标,即生产时间的期望,表示对于给定的订单集合Q,依照生产顺序CQ进行生产时得到的期望累计损失;
Figure BDA0003247246650000085
为J(θ|Q)的梯度;b(Q)为用于估计reward不依赖于CQ的基线函数,其作用为通过估计reward的值减小整体梯度方差。b(Q)估计的越准确,强化学习的训练效果越好。
使用Actor-Critic模型估计b(Q),即将一个待生产的订单集合Q映射到基线预测函数;
Actor-Critic模型在已知输入Q的情况下根据指针网络的最终状态预测reward,其训练方式为,从一个随机策略出发,将预测的reward值与实际的reward的均方误差作为优化目标,采用强化学习规则和随机梯度下降的方式对动态生成的实例进行迭代优化,如式(Ⅳ)所示:
Figure BDA0003247246650000086
式(Ⅳ)中,θv为评论家网络的参数;B为训练时的batchsize;l(θv)为使用θv作为网络参数时的损失;Qi为待生产的订单集合;
Figure BDA0003247246650000091
为订单集合为Qi的生产策略,即订单的生产顺序;
Figure BDA0003247246650000092
为使用参数θv生产订单集合Qi时预测的reward值;
Figure BDA0003247246650000093
为以
Figure BDA0003247246650000094
生产Qi时的实际reward值。
指针网络的训练过程如下:
1、初始化指针网络参数θ,初始化Actor-Critic模型参数θv
2、按照如下步骤循环T次训练:
2.1、初始化Qi为当前序列状态,i∈{1,…,B};
2.2、根据Qi初始化
Figure BDA0003247246650000095
为一个符合策略的生产顺序;
2.3、更新bi
Figure BDA0003247246650000096
2.4、更新gθ
Figure BDA0003247246650000097
2.5、更新l(θv)为
Figure BDA0003247246650000098
2.6、更新指针网络的参数θ,θ为ADAM(θ,gθ);ADAM为自适应矩估计,为一种计算每个参数的自适应学习率的深度学习优化器,ADAM(θ,gθ)表示使用ADAM优化器更新参数θ,优化目标为gθ最小;
2.7、更新Actor-Critic模型的参数θvv
Figure BDA0003247246650000099
表示使用ADAM优化器更新参数θv,优化目标为
Figure BDA00032472466500000910
最小;
训练过程中,输入为迭代次数T、订单集Q、批大小(batch size)B,输出为指针网络参数θ、Actor-Critic模型参数θv
步骤5:比较生产同种类线体的总完工时间,如果同种类线体之间的总完工时间差距较大(如超过可自由设定的10小时),则调整订单位置,将时间较长线体上的最后一部分订单移至时间较短线体的最后;调整订单位置的具体方法为,
1)计算目前在所有线体的生产总时长,根据生产类型,分为生产内机的线体和生产外机的线体;
2)比较多条生产内机的线体的生产时长,生成线体与生产时长的字典对应关系,并按照生产时长从大到小排序;如:{N1:t1,N2:t2,N3:t3};
3)计算多条生产内机的线体的生产时长的平均值mn
4)计算多条生产内机的线体的生产时长与平均值mn之间的差值,如:{N1:t1-mn,N2:t2-mn,N3:t3-mn},若该差值为正数,则移动部分订单到其他线体,若为负数,则等待其他线体移部分订单进入;由于按照生产时长从大到小排序,第一条线体必须移部分订单至其他线体,根据差值为负数的线体的差值大小,计算第一条线体需要移多少过去,如果第一条订单的差值足够移动,则移完后继续移部分至其他差值为负的线体,否则,继续从第二条差值为正的线体移动,直至移动完毕;
5)按照步骤2)至步骤4)相同的方法进行多条生产外机的线体的生产时长均衡。
步骤6:计算每个线体上订单的生产时间,根据订单顺序与线体的总开始生产时间,依次根据订单生产时间与两个订单之间的换产时间,计算每个订单的开始生产时间,如式(Ⅰ)所示:
Figure BDA0003247246650000101
式(Ⅰ)中,Bi为第i个订单的开始生产时间,B为线体的总开始生产时间,Ti-1为第i-1个订单的生产时长,Ci-1,i为从第i-1个订单换产到第i个订单的换产时长;
步骤7:根据每个订单的生产时间与其他订单信息生成生产时序表。
生产时序表包括生产线体、订单号、整机编码、物料描述、数量、版本、节拍、工时、生产日期、出运期、国家、订单执行;其中,订单号、整机编码、物料描述、数量、版本、出运期、国家、订单执行为输入订单数据自有的数据,其他为根据物料描述信息查询型号线体对应表、型号线体生产节拍对应表、物料BOM关系、型号系列信息表(生产时序表中的生成日期是根据步骤6获取的)获得;根据步骤6计算的每个订单的开始生产时间即生产日期,按照不同的线体生成最终的生产时序表。

Claims (8)

1.一种基于深度强化学习的生产时序表智能生成方法,其特征在于,包括以下步骤:
步骤1:接收生产订单,将生产订单中的整机订单根据订单内容拆分成多个子订单,拥有相同订单号的多个子订单具有不同的行号;
步骤2:处理订单数据,根据企业生产需求计算每个订单的最晚生产日期;
步骤3:依次根据每个订单的生产机型判断订单在哪个线体上生产,如果订单只能在一条线体上生产,则将订单安排在该线体上生产;如果订单可在多条线体上生产,则选择订单生产机型生产过的线体作为该订单的生产线体;如果该订单生产机型在所有可选机型上都未出现过,则分别计算订单在哪个线体的生产时间更短,选择最短生产时间的线体;重复步骤2和步骤3,直至为所有订单分配完线体,结束后进入步骤4;
步骤4:将线体上的所有订单使用深度强化学习算法进行订单生产顺序的排序,目标为使线体的总完工时间最短,即生产时间与换产时间之和最短;
步骤5:比较生产同种类线体的总完工时间,如果同种类线体之间的总完工时间差距较大,则调整订单位置,将时间较长线体上的最后一部分订单移至时间较短线体的最后;
步骤6:计算每个线体上订单的生产时间,根据订单顺序与线体的总开始生产时间,依次根据订单生产时间与两个订单之间的换产时间,计算每个订单的开始生产时间,如式(Ⅰ)所示:
Figure FDA0003247246640000011
式(Ⅰ)中,Bi为第i个订单的开始生产时间,B为线体的总开始生产时间,Ti-1为第i-1个订单的生产时长,Ci-1,i为从第i-1个订单换产到第i个订单的换产时长;
步骤7:根据每个订单的生产时间与其他订单信息生成生产时序表。
2.根据权利要求1所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,步骤4中,使用深度强化学习算法求解最优的订单生产顺序,此处使用的深度强化学习算法为强化指针网络,设一个线体共有n个订单,包括如下步骤:
(1)搭建深度强化学习网络,深度强化学习网络包括行动者网络即指针网络、策略梯度、评论家网络即Actor-Critic模型;
(2)将订单数据输入至深度强化学习网络进行训练,记录生产时长与最短生产时长对应的生产顺序,目标为使得总生产时长最短,即
Figure FDA0003247246640000012
(3)使用历史周订单数据测试训练的深度强化学习网络;
(4)输入订单数据至训练好的深度强化学习网络,输出周订单的生产总时长和生产顺序。
3.根据权利要求2所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,指针网络包括编码器、解码器,编码器、解码器都是循环神经网络,内部神经元包括若干个长短期记忆网络;
将简单的原始序列即待生产的订单集合输入编码器,经过循环神经网络,转换为隐藏层的输出,从而作为解码器的输入;
解码器使用指针网络的注意力机制,在每一步中根据注意力机制,使用softmax将向量ui标准化为输入字典上的输出分布,向量ui为在第i步编码器的输出向量,输入字典为输入的订单集合,即使用softmax计算生产每个订单的概率大小,向量ui的长度为n,输入字典为将softmax的结果值作为输出的条件概率,即选择每一个订单的概率,选取权重最大的元素的指针,作为最终的输出;
注意力机制为:
Figure FDA0003247246640000021
其中,ej为编码器第j步隐藏层的输出,di为解码器第i步隐藏层的输出,vT、W1、W2为指针网络待训练的参数,
Figure FDA0003247246640000022
为在第i步生产订单j;
计算概率向量:p(Ci|C1,…,Ci-1,Q)=softmax(ui),softmax将向量ui归一化为输入序列在输出元素中的分布,p(Ci|C1,…,Ci-1,Q)则代表从输入元素被选中作为输出元素的条件概率。
4.根据权利要求2所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,基于策略梯度的强化学习来优化指针网络的参数θ,奖励reward为reward(CQ|Q),reward为标记的一个变量,为算法的优化目标,具体是指:对应生产时长,对于给定的n个订单的集合Q,优化目标为预期订单生产时长,如式(Ⅰ)、式(Ⅱ)所示:
Figure FDA0003247246640000023
Figure FDA0003247246640000024
优化过程采用策略梯度法和随机梯度下降法对参数进行优化,此时梯度如式(Ⅲ)所示:
Figure FDA0003247246640000025
式(Ⅰ)、式(Ⅱ)、式(Ⅲ)中,Q为订单集合,即问题的输入;CQ为输入订单为集合为Q时的一种订单的生产顺序,即问题的输出;reward(CQ|Q)为实际奖励函数,即订单生产的生产时长;pθ(·|Q)为已知输入订单集为Q时的条件概率;J(θ|Q)为网络的优化目标,即生产时间的期望,表示对于给定的订单集合Q,依照生产顺序CQ进行生产时得到的期望累计损失;
Figure FDA0003247246640000026
为J(θ|Q)的梯度;b(Q)为用于估计reward不依赖于CQ的基线函数,其作用为通过估计reward的值减小整体梯度方差。
5.根据权利要求2所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,使用Actor-Critic模型估计b(Q),即将一个待生产的订单集合Q映射到基线预测函数;
Actor-Critic模型在已知输入Q的情况下根据指针网络的最终状态预测reward,其训练方式为,从一个随机策略出发,将预测的reward值与实际的reward的均方误差作为优化目标,采用强化学习规则和随机梯度下降的方式对动态生成的实例进行迭代优化,如式(Ⅳ)所示:
Figure FDA0003247246640000031
式(Ⅳ)中,θv为评论家网络的参数;B为训练时的batchsize;l(θv)为使用θv作为网络参数时的损失;Qi为待生产的订单集合;
Figure FDA0003247246640000032
为订单集合为Qi的生产策略,即订单的生产顺序;
Figure FDA0003247246640000033
为使用参数θv生产订单集合Qi时预测的reward值;
Figure FDA0003247246640000034
为以
Figure FDA0003247246640000035
生产Qi时的实际reward值。
6.根据权利要求2所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,指针网络的训练过程如下:
1、初始化指针网络参数θ,初始化Actor-Critic模型参数θv
2、按照如下步骤循环T次训练:
2.1、初始化Qi为当前序列状态,i∈{1,…,B};
2.2、根据Qi初始化
Figure FDA0003247246640000036
为一个符合策略的生产顺序;
2.3、更新bi
Figure FDA0003247246640000037
2.4、更新gθ
Figure FDA0003247246640000038
2.5、更新l(θv)为
Figure FDA0003247246640000039
2.6、更新指针网络的参数θ,θ为ADAM(θ,gθ);ADAM为自适应矩估计,为一种计算每个参数的自适应学习率的深度学习优化器,ADAM(θ,gθ)表示使用ADAM优化器更新参数θ,优化目标为gθ最小;
2.7、更新Actor-Critic模型的参数θvv
Figure FDA00032472466400000310
Figure FDA00032472466400000311
表示使用ADAM优化器更新参数θv,优化目标为
Figure FDA00032472466400000312
最小;
训练过程中,输入为迭代次数T、订单集Q、批大小B,输出为指针网络参数θ、Actor-Critic模型参数θv
7.根据权利要求1所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,步骤5中,调整订单位置的具体方法为,
1)计算目前在所有线体的生产总时长,根据生产类型,分为生产内机的线体和生产外机的线体;
2)比较多条生产内机的线体的生产时长,生成线体与生产时长的字典对应关系,并按照生产时长从大到小排序;
3)计算多条生产内机的线体的生产时长的平均值mn
4)计算多条生产内机的线体的生产时长与平均值mn之间的差值,若该差值为正数,则移动部分订单到其他线体,若为负数,则等待其他线体移部分订单进入;由于按照生产时长从大到小排序,第一条线体必须移部分订单至其他线体,根据差值为负数的线体的差值大小,计算第一条线体需要移多少过去,如果第一条订单的差值足够移动,则移完后继续移部分至其他差值为负的线体,否则,继续从第二条差值为正的线体移动,直至移动完毕;
5)按照步骤2)至步骤4)相同的方法进行多条生产外机的线体的生产时长均衡。
8.根据权利要求1-7任一所述的一种基于深度强化学习的生产时序表智能生成方法,其特征在于,步骤7中,生产时序表包括生产线体、订单号、整机编码、物料描述、数量、版本、节拍、工时、生产日期、出运期、国家、订单执行;其中,订单号、整机编码、物料描述、数量、版本、出运期、国家、订单执行为输入订单数据自有的数据,其他为根据物料描述信息查询型号线体对应表、型号线体生产节拍对应表、物料BOM关系、型号系列信息表获得;根据步骤6计算的每个订单的开始生产时间即生产日期,按照不同的线体生成最终的生产时序表。
CN202111036255.XA 2021-09-06 2021-09-06 一种基于深度强化学习的生产时序表智能生成方法 Pending CN113743784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111036255.XA CN113743784A (zh) 2021-09-06 2021-09-06 一种基于深度强化学习的生产时序表智能生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111036255.XA CN113743784A (zh) 2021-09-06 2021-09-06 一种基于深度强化学习的生产时序表智能生成方法

Publications (1)

Publication Number Publication Date
CN113743784A true CN113743784A (zh) 2021-12-03

Family

ID=78735754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111036255.XA Pending CN113743784A (zh) 2021-09-06 2021-09-06 一种基于深度强化学习的生产时序表智能生成方法

Country Status (1)

Country Link
CN (1) CN113743784A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580937A (zh) * 2022-03-10 2022-06-03 暨南大学 基于强化学习和注意力机制的智能作业调度系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112488315A (zh) * 2020-11-30 2021-03-12 合肥工业大学 一种基于深度强化学习和遗传算法的分批调度优化方法
CN112668863A (zh) * 2020-12-24 2021-04-16 山东大学 一种基于Hopfield神经网络算法的生产时序表生成方法
CN113139747A (zh) * 2021-05-14 2021-07-20 大连理工大学 基于深度强化学习的带返工汽车涂装重排序方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232478A (zh) * 2020-09-03 2021-01-15 天津(滨海)人工智能军民融合创新中心 一种基于分层注意力机制的多智能体强化学习方法及系统
CN112488315A (zh) * 2020-11-30 2021-03-12 合肥工业大学 一种基于深度强化学习和遗传算法的分批调度优化方法
CN112668863A (zh) * 2020-12-24 2021-04-16 山东大学 一种基于Hopfield神经网络算法的生产时序表生成方法
CN113139747A (zh) * 2021-05-14 2021-07-20 大连理工大学 基于深度强化学习的带返工汽车涂装重排序方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114580937A (zh) * 2022-03-10 2022-06-03 暨南大学 基于强化学习和注意力机制的智能作业调度系统

Similar Documents

Publication Publication Date Title
Wang et al. Learning scheduling policies for multi-robot coordination with graph attention networks
US20210278825A1 (en) Real-Time Production Scheduling with Deep Reinforcement Learning and Monte Carlo Tree Research
US20220027817A1 (en) Deep reinforcement learning for production scheduling
CN108170529A (zh) 一种基于长短期记忆网络的云数据中心负载预测方法
Oroojlooyjadid et al. A deep q-network for the beer game: A reinforcement learning algorithm to solve inventory optimization problems
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN113487165B (zh) 基于深度强化学习的智能工厂生产作业调度方法及系统
CN112700057B (zh) 一种基于模块化循环神经网络的电力负荷预测方法
CN111898867B (zh) 一种基于深度神经网络的飞机总装生产线产能预测方法
Gu et al. A discrete particle swarm optimization algorithm with adaptive inertia weight for solving multiobjective flexible job-shop scheduling problem
CN116484747A (zh) 一种基于自适应优化算法与深度学习的污水智能监控方法
CN114970351A (zh) 基于注意力机制和深度强化学习的电网潮流调整方法
CN115409563A (zh) 一种多因素影响的农业装备库存需求预测方法
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN116880191A (zh) 一种基于时序预测的过程工业生产系统的智能控制方法
CN116722541A (zh) 一种基于卷积神经网络的电力系统负荷预测方法及装置
CN116796964A (zh) 一种基于生成对抗模仿学习解决作业车间调度问题的方法
CN115755801A (zh) 基于sqp-cs的船舶建造车间工序优化方法及系统
Zhang et al. An imperialist competitive algorithm incorporating remaining cycle time prediction for photolithography machines scheduling
CN114254902A (zh) 一种多产线人员调度方法
CN113344317A (zh) 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN111461525A (zh) 一种基于动态载荷的并行计算生产排程系统及方法
Deng et al. A learning approach to multi-robot task allocation with priority constraints and uncertainty
CN112734286B (zh) 一种基于多策略深度强化学习的车间调度方法
CN116342109A (zh) 一种基于大数据的硬件设备预测性维护方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination