CN112884239A - 一种基于深度强化学习的航天起爆器生产调度方法 - Google Patents
一种基于深度强化学习的航天起爆器生产调度方法 Download PDFInfo
- Publication number
- CN112884239A CN112884239A CN202110268713.6A CN202110268713A CN112884239A CN 112884239 A CN112884239 A CN 112884239A CN 202110268713 A CN202110268713 A CN 202110268713A CN 112884239 A CN112884239 A CN 112884239A
- Authority
- CN
- China
- Prior art keywords
- time
- production
- initiator
- processing
- scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 101
- 230000002787 reinforcement Effects 0.000 title claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 73
- 239000003999 initiator Substances 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 62
- 238000003754 machining Methods 0.000 claims description 20
- 230000000452 restraining effect Effects 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 12
- 239000003292 glue Substances 0.000 claims description 9
- 238000002360 preparation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000005303 weighing Methods 0.000 claims description 6
- 238000013459 approach Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 239000002360 explosive Substances 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000195 production control method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Manufacturing & Machinery (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Primary Health Care (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
Abstract
本发明公开了一种基于深度强化学习的航天起爆器生产调度方法,主要涉及机器学习与智能制造领域;包括步骤:S1、从起爆器生产车间获取生产加工的实时信息;S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;S3、确定起爆器生产车间调度优化的目标函数及约束条件;S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;S6、深度强化学习DQN算法的训练;S7、起爆器生产实时调度;本发明能够提高生产调度的自适应性和实时性,使调度方案能够更好地适应复杂动态的实际生产过程。
Description
技术领域
本发明涉及机器学习与智能制造领域,具体是一种基于深度强化学习的航天起爆器生产调度方法。
背景技术
随着航天事业的快速发展,航天火工品需求量不断增加,传统基于手工生产的生产模式远远不能达到发展需求。目前,生产航天火工品的离散制造企业正处于自动化生产的转型期,正由传统的大批量生产模式向小批量、多批次的柔性生产模式转型。柔性生产加工调度比传统生产调度更加灵活,更能适应外部环境的动态变化。在复杂动态场合加工,调度方案及参数通常由工人的主观经验及知识进行组织生产,需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。因此,深入了解起爆器生产加工调度现状,分析整个生产结构与功能需求,优化起爆器柔性生产车间生产调度对企业具有重要意义。
在复杂动态场合加工,传统的调度方案及参数的制定通常由工人的主观经验及知识进行组织生产,需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。而现有的生产调度算法,如运筹学调度算法、启发式搜索算法以及群体算法等,都能够对生产加工进行有效调度,在调度问题的实际化上取得了不错的成果,但是这些调度方案存在以下问题:
1)、失去了调度规则简洁易行的优势,在算法生成的调度规则在形式上较为复杂;
2)、忽略了经验记录的价值,对企业过去的生产加工调度历史数据并没有进行关注;
3)、缺少了对生产控制方法学习能力的考虑,不能满足当前智能制造系统构建的需求。
4)、缺少对起爆器试装以及固化、装压药时间对质量影响的考虑。
5)、缺少在备料过程中,考虑药剂,胶液等受环境因素的影响,需二次调度。
发明内容
本发明的目的在于解决现有技术中存在的问题,提供一种基于深度强化学习的航天起爆器生产调度方法,能够提高生产调度的自适应性和实时性,缓解起爆器生产车间对人工调整的依赖,使调度方案能够更好地适应复杂动态的实际生产过程。
本发明为实现上述目的,通过以下技术方案实现:
一种基于深度强化学习的航天起爆器生产调度方法,包括步骤:
S1、从起爆器生产车间获取生产加工的实时信息;
S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;
S3、确定起爆器生产车间调度优化的目标函数及约束条件;
S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;
S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;
S6、深度强化学习DQN算法的训练;
S7、起爆器生产实时调度。
优选的,步骤S1中,所述实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。
优选的,步骤S1中,所述起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备,同时排列设备上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
优选的,步骤S2中,所述相关假设包括第一假设、第二假设、第三假设;
所述第一假设为:各生产机器设备相互独立,加工过程中互不影响;
所述第二假设为:在零时刻,任意设备和工件均准备就绪;
所述第三假设为:每台设备在任意时刻正在加工的产品只能有一个。
优选的,步骤S3中,所述目标函数为:
其中,
Minmize W表示最小化机器总负荷;Minmize M表示最少加工等待时间;A表示需要生产加工的起爆器的数量;m表示第m个工件,m∈(1,2,…A);sj表示每个起爆器需要多少道加工工序;n表示第n道工序,n∈(1,2,…sj);Q表示设备数量;q表示第q台设备,q∈(1,2,…Q);
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
优选的,步骤S3中,所述约束条件包括:
约束起爆器工件交期时间:Em≤Cm;
约束存储固化工序时间:12≤Tn≤24;
约束试装工序时间:2≤Hn≤3;
约束配胶工序时间:6≤Ln≤12;
约束称、装药工序时间:3≤In≤6。
优选的,所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;
所述状态空间设置通过特征变量nm、fm、qm、T来定义各加工工件的实时状态,其中,nm表示正在加工工件m的工序号,fm表示正在加工工件m的工序加工进度,qm表示正在加工工件的工序选用的机器编号,T表示目前的系统时间;
所述动作空间设置包括:对各加工工件的行动进行编号,具体的编码方式为<0,1,2,…,q>,其中0表示等待加工,其余整数为加工机器编号;
所述奖励函数设置的奖惩函数公式为:
优选的,步骤S6中,深度强化学习DQN算法的训练过程包括Q网络和经验回放,所述Q网络包括主Q网络和目标Q网络。
优选的,深度强化学习DQN算法的优化过程如下:
步骤一:用两个结构相同的神经网络分别作为Q值网络和目标Q值网络,参数分别为θ和θ′:Q(s,a,θ)≈Qπ(s,a);
步骤二:每隔n步,将当前Q网络参数复制给目标Q网络:θ′←θ;
步骤三:在Q值中使用均方误差来定义目标函数,即损失函数:
步骤四:计算参数θ关于损失函数的梯度:
步骤五:使用随机梯度方法实现端对端的优化目标。
对比现有技术,本发明的有益效果在于:
本发明提出了一种基于深度强化学习的起爆器生产调度方法,首先,从起爆器生产车间获取生产加工的实时信息,根据这些信息,确定起爆器柔性生产车间调度问题,并将调度问题转化为一个马尔科夫决策问题;使用深度强化学习中DQN算法来求解马尔科夫决策问题的最优解;在该方法的训练过程中,利用配置记忆库来降低训练信息之间的关联度,提高方法的训练速度;经过多次训练,得到训练最优的生产加工调度方法。和传统的调度方法不同,DQN方式是根据起爆器生产加工车间的实时信息而做出决策的,这使得该方法能够很好的应对起爆器生产车间各种扰动的影响,具有较高的稳定性和自适应性;能够有效的提高起爆器生产加工效率。
附图说明
附图1是本发明的流程图;
附图2是本发明的起爆器工件学习流程图;
附图3是本发明DQN算法损失函数构造过程。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
实施例:本发明根据起爆器生产加工特点,考虑到起爆器特殊生产工序试装、配胶、固化以及装压药等工序对起爆器生产加工的影响,针对于起爆器生产过程中紧急任务、机器故障、工艺变更问题等显隐性扰动,提供一种基于深度强化学习的航天起爆器生产调度方法,以最大程度地缩短完工时间及减小设备负荷量,能够提高生产调度的自适应性和实时性,缓解起爆器生产车间对人工调整的依赖,使调度方案能够更好地适应复杂动态的实际生产过程。
本发明将起爆器生产加工调度被表述为马尔科夫决策过程,然后,提出了一种新颖的的基于深度强化学习DQN算法的生产调度方法来确定该问题的最佳策略,通过该方法可以获取合适的规则来执行各种生产车间状态的调度。
如附图1所示,本发明公开了一种基于深度强化学习的航天起爆器生产调度方法,主要分为三个方面,分别是起爆器生产车间调度问题描述、目标函数和约束条件,马尔科夫决策模型的建立以及DQN算法的学习训练过程。具体包括以下步骤:
第一步,利用起爆器生产控制系统从起爆器生产加工车间中收集实时信息,所述实时信息包括机器设备总台数、生产加工计划,各生产工序加工时间、工件加工工序数以及各加工工序开完工时间等;这些信息的采集对于后面的DQN算法的学习训练至关重要。
第二步,根据起爆器生产车间收集的实时信息,对起爆器生产车间调度问题进行描述,明确各生产加工工位具体情况,并依据现场情况作出生产过程的假设。
通过对起爆器柔性生产车间调度问题的研究,假设A个起爆器在Q台设备上加工,其中每个起爆器需要sj,j∈(1,2,…,e)道加工工序,工序要按照指定的加工工艺先后顺序进行加工,St=[s1,s2,…,se]表示所有起爆器工序数所构成的集合。
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
所谓生产加工调度就是合理地将每道工序omn分配到一个具体的设备q,同时排列设备q上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
根据生产现场实际情况,提出以下假设:
1)各生产机器设备相互独立,加工过程中互不影响。
2)在零时刻,任意设备和工件均准备就绪。
3)每台设备在任意时刻正在加工的产品只能有一个。
第三步,确定起爆器柔性生产车间调度问题的目标函数以及约束条件。
具体地,目标函数,包括最小化机器总负荷函数以及最少加工等待时间函数,在生产加工过程中,应尽量减少设备负荷量,为此后的生产加工或突发情况保有充足的生产能力,有效避免其对后续加工产生的影响,另外,对于加工等待时间,具体如下所示:
最小化机器总负荷数:
最少加工等待时间:
进一步地,约束条件,包括对每个工件只能加工一次、设备同一时间点只能加工唯一工件、每个工件交期时间以及固化、试装、配胶、装压药时间的约束,具体如下所示:
约束起爆器工件交期时间:Em≤Cm;
约束存储固化工序时间:12≤Tn≤24;
约束试装工序时间:2≤Hn≤3;
约束配胶工序时间:6≤Ln≤12;
约束称、装药工序时间:3≤In≤6;
第四步,马尔科夫决策问题模型的建立。
马尔科夫决策问题模型可以很好地描述随机动力学系统。在发明中,我们应用具有离散时间步长的有限马尔科夫决策问题模型来描述起爆器生产车间实时调度。具体而言,任何两台机器空闲的时间间隔是两个相邻时间步t之间的时间间隔。在时间步骤t,我们观察到系统状态st,该状态包括正在加工工件的工序号,正在加工工件的工序加工进度,正在加工工件的工序选用的机器编号,目前的系统时间。有了这些信息,我们就可以选择适当的操作。执行此操作后,我们可以观察新系统状态st+1的状态,并在时间步t+1处选择操作。马尔科夫决策问题模型提供了一种数学体系结构,用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。马尔科夫决策问题模型是一个四元组<S,A,T,R>,其中S是包含所有状态的有限集,A是包含所有动作的有限集﹐T是定义为T:S×A×S→[0,1]的状态转移概率S→[0,1],R是定义为R:S×A×S→R的奖励方程。考虑到紧急任务,工艺变更,随机机器故障等,我们定义的起爆器生产加工调度的马尔科夫决策问题模型的详细定义如下:
1、状态空间定义
在起爆器柔性生产车间,工件的状态定义应充分涉及生产车间的所有条件可能,反映生产车间的不确定性,便于工件有效识别自身状态并作出行动决策,采用的编码方式为:<nm,fm,qm,T>;
其中m为航天火工品序号,n为工序号,f为工序n的进度,q为工序n所选用的机器编号,T为系统时刻。
2、动作空间设置:
在起爆器生产加工过程中,工件的行动是从等待和各个机器之间做出选择,是离散的。所以机器的编号即可以作为工件智能体的行动编号,具体的编码方式为:<0,1,2,…,q>。
其中0表示等待加工,即还未选择加工机器,加工工件进入缓冲区等待,其余整数为加工机器编号。
3、报酬函数设置:
奖励功能是马尔科夫决策过程最重要的部分。这是因为奖励函数隐式定义了学习目标。奖励功能用于控制系统的优化方向。为了实现最优调度,我们定义了报酬函数,设置如下所示:
第五步,经过第四步的状态空间的计算,起爆器生产车间实时信息被转化为实时状态。将转化好的实时状态存储在记忆库中,作为深度强化学习DQN算法训练的输入。
第六步,深度强化学习DQN算法的训练。我们使用起爆器生产车间的实时状态作为Q网络的输入。输出训练好的Q网络的参数,并根据ε衰减贪婪策略选择最合适的动作。执行此操作后,系统进入下一个状态st+1。深度强化学习DQN算法的训练过程主要包括两个部分:Q网络(主Q网络和目标Q网络)和经验回放。
1、Q网络
在以往深度强化学习DQN算法的训练中,目标Q值的计算使用当前要训练的Q网络参数来计算Q(st+1,a,θ),然后使用同一网络。这在迭代中导致两者之间的过度相关,这不利于算法的收敛。为了使算法的性能更加稳定,我们建立了两个结构相同但参数不同的神经网络:主Q网络和目标Q网络。
在初始时刻,将主Q网络的参数分配给目标Q网络,然后主Q网络继续更新神经网络参数,而目标Q网络的参数是固定的。然后,将主Q网络的参数分配给目标Q网络。来回循环直到训练完成。这会使目标Q值在一段时间内保持恒定,从而使算法更新更加稳定。
主Q网络和目标Q网络是结构相同的两个Q网络。具体而言,Q(s,a,θ)表示主Q网络的输出,并用于评估与当前状态和操作相对应的值函数。Q(st+1,a,θ′)表示目标Q网络的输出。Q网络由三层网络组成。输入层完全连接到具有v个节点的隐藏层。每个隐藏层的值是:
vt=g(w1×xt+b1);
其中x表示输入向量,g是整流后的激活函数,w1是权重矩阵,b1是偏差向量。
然后,隐藏层完全连接到输出层。Q网络的输出是系统状态下所有可行调度规则的作用值,即:
Q(st,a)=g(w2×vt+b2);
其中w2是权重矩阵,b2是阀值矩阵。输出是具有最大操作值的调度规则。
2、经验回放
在起爆器生产车间系统中,相邻状态之间的相关性特别高。因此,如果将这些数据用于顺序训练﹐则神经网络的稳定性不够高。鉴于此,我们使用经验重播的方法来训练Q网络,这可能会破坏数据之间的关联。具体方法是在学习过程中建立“经验回放”。将所有st,at,st+1和rt存储在内存中一段时间。训练神经网络时,会从内存中随机选择一些数据进行训练,这会破坏原始数据的顺序并削弱数据的相关性。
附图2为起爆器生产加工过程工件探索学习过程。
深度强化学习DQN算法的优化过程如下:
步骤一:用两个结构相同的神经网络分别作为Q值网络和目标Q值网络,参数分别为θ和θ′:Q(s,a,θ)≈Qπ(s,a);
步骤二:每隔n步,将当前Q网络参数复制给目标Q网络:θ′←θ;
步骤三:在Q值中使用均方误差来定义目标函数,即损失函数,附图3为DQN算法损失函数的构造:
步骤四:计算参数θ关于损失函数的梯度:
步骤五:使用随机梯度方法实现端对端的优化目标。
第七步,起爆器生产实时调度。
经过第六步的深度强化学习DQN算法训练后,用于起爆器生产车间实时调度的Q网络参数被固定。当输入起爆器生产车间实时状态时,DQN算法输出合适的调度规则,用于当前时刻的起爆器生产车间实时调度。在完成本次调度后,起爆器生产车间进入下一个状态﹐直至完成整个调度过程。
本发明在强时间条件约束下,将与时间相关的质量问题考虑到柔性生产加工中,实现离散多批次小批量产品的生产加工,提高起爆器的生产效率;本发明考虑起爆器产品在生产加工过程中特有的试装、固化、装压药环节,以及环境因素对药剂、胶液的影响而产生的二次调度,能够大幅度降低产品在正式使用过程中发生事故的可能性。
Claims (9)
1.一种基于深度强化学习的航天起爆器生产调度方法,其特征在于,包括步骤:
S1、从起爆器生产车间获取生产加工的实时信息;
S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;
S3、确定起爆器生产车间调度优化的目标函数及约束条件;
S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;
S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;
S6、深度强化学习DQN算法的训练;
S7、起爆器生产实时调度。
2.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S1中,所述实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。
3.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S1中,所述起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备,同时排列设备上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
4.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S2中,所述相关假设包括第一假设、第二假设、第三假设;
所述第一假设为:各生产机器设备相互独立,加工过程中互不影响;
所述第二假设为:在零时刻,任意设备和工件均准备就绪;
所述第三假设为:每台设备在任意时刻正在加工的产品只能有一个。
5.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S3中,所述目标函数为:
其中,
Minmize W表示最小化机器总负荷;Minmize M表示最少加工等待时间;A表示需要生产加工的起爆器的数量;m表示第m个工件,m∈(1,2,…A);sj表示每个起爆器需要多少道加工工序;n表示第n道工序,n∈(1,2,…sj);Q表示设备数量;q表示第q台设备,q∈(1,2,…Q);
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
8.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S6中,深度强化学习DQN算法的训练过程包括Q网络和经验回放,所述Q网络包括主Q网络和目标Q网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268713.6A CN112884239B (zh) | 2021-03-12 | 2021-03-12 | 一种基于深度强化学习的航天起爆器生产调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110268713.6A CN112884239B (zh) | 2021-03-12 | 2021-03-12 | 一种基于深度强化学习的航天起爆器生产调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112884239A true CN112884239A (zh) | 2021-06-01 |
CN112884239B CN112884239B (zh) | 2023-12-19 |
Family
ID=76041187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110268713.6A Active CN112884239B (zh) | 2021-03-12 | 2021-03-12 | 一种基于深度强化学习的航天起爆器生产调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112884239B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221390A (zh) * | 2021-06-24 | 2021-08-06 | 北京京东方技术开发有限公司 | 一种排产模型的训练方法和装置 |
CN113377655A (zh) * | 2021-06-16 | 2021-09-10 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN113406939A (zh) * | 2021-07-12 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度q网络的无关并行机动态混合流水车间调度方法 |
CN113487165A (zh) * | 2021-07-01 | 2021-10-08 | 福州大学 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
CN113506048A (zh) * | 2021-09-09 | 2021-10-15 | 宁波帅特龙集团有限公司 | 一种柔性作业车间的调度方法 |
CN113759841A (zh) * | 2021-08-26 | 2021-12-07 | 山东师范大学 | 一种多目标优化的机床柔性车间调度方法及系统 |
CN113780737A (zh) * | 2021-08-10 | 2021-12-10 | 武汉飞恩微电子有限公司 | 基于机器学习的作业调度优化方法、装置、设备及介质 |
CN113837628A (zh) * | 2021-09-16 | 2021-12-24 | 中国钢研科技集团有限公司 | 一种基于深度强化学习的冶金工业车间天车调度方法 |
CN114037341A (zh) * | 2021-11-19 | 2022-02-11 | 广东工业大学 | 一种基于ddqn的智能车间动态自适应调度方法及系统 |
CN114862170A (zh) * | 2022-04-27 | 2022-08-05 | 昆明理工大学 | 一种用于通信设备制造过程的学习型智能调度方法、系统 |
CN114924531A (zh) * | 2022-07-08 | 2022-08-19 | 深圳市玄羽科技有限公司 | 一种基于IoT的智能制造系统及其控制方法 |
CN116306276A (zh) * | 2023-03-09 | 2023-06-23 | 北京理工大学 | 一种复杂系统架构创成式生成方法、系统及电子设备 |
CN116414093A (zh) * | 2023-04-13 | 2023-07-11 | 暨南大学 | 基于物联网系统和强化学习的车间生产方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN112149987A (zh) * | 2020-09-17 | 2020-12-29 | 清华大学 | 基于深度强化学习的多目标柔性作业车间调度方法和装置 |
-
2021
- 2021-03-12 CN CN202110268713.6A patent/CN112884239B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930016A (zh) * | 2019-11-19 | 2020-03-27 | 三峡大学 | 一种基于深度q学习的梯级水库随机优化调度方法 |
CN111985672A (zh) * | 2020-05-08 | 2020-11-24 | 东华大学 | 一种多Agent深度强化学习的单件作业车间调度方法 |
CN112149987A (zh) * | 2020-09-17 | 2020-12-29 | 清华大学 | 基于深度强化学习的多目标柔性作业车间调度方法和装置 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377655B (zh) * | 2021-06-16 | 2023-06-20 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN113377655A (zh) * | 2021-06-16 | 2021-09-10 | 南京大学 | 一种基于MAS-Q-Learing的任务分配方法 |
CN113221390A (zh) * | 2021-06-24 | 2021-08-06 | 北京京东方技术开发有限公司 | 一种排产模型的训练方法和装置 |
CN113487165A (zh) * | 2021-07-01 | 2021-10-08 | 福州大学 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
CN113487165B (zh) * | 2021-07-01 | 2024-05-03 | 福州大学 | 基于深度强化学习的智能工厂生产作业调度方法及系统 |
CN113406939A (zh) * | 2021-07-12 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度q网络的无关并行机动态混合流水车间调度方法 |
CN113780737A (zh) * | 2021-08-10 | 2021-12-10 | 武汉飞恩微电子有限公司 | 基于机器学习的作业调度优化方法、装置、设备及介质 |
CN113759841A (zh) * | 2021-08-26 | 2021-12-07 | 山东师范大学 | 一种多目标优化的机床柔性车间调度方法及系统 |
CN113759841B (zh) * | 2021-08-26 | 2024-01-12 | 山东师范大学 | 一种多目标优化的机床柔性车间调度方法及系统 |
CN113506048A (zh) * | 2021-09-09 | 2021-10-15 | 宁波帅特龙集团有限公司 | 一种柔性作业车间的调度方法 |
CN113837628B (zh) * | 2021-09-16 | 2022-12-09 | 中国钢研科技集团有限公司 | 一种基于深度强化学习的冶金工业车间天车调度方法 |
CN113837628A (zh) * | 2021-09-16 | 2021-12-24 | 中国钢研科技集团有限公司 | 一种基于深度强化学习的冶金工业车间天车调度方法 |
CN114037341A (zh) * | 2021-11-19 | 2022-02-11 | 广东工业大学 | 一种基于ddqn的智能车间动态自适应调度方法及系统 |
CN114862170A (zh) * | 2022-04-27 | 2022-08-05 | 昆明理工大学 | 一种用于通信设备制造过程的学习型智能调度方法、系统 |
CN114862170B (zh) * | 2022-04-27 | 2024-04-19 | 昆明理工大学 | 一种用于通信设备制造过程的学习型智能调度方法、系统 |
CN114924531A (zh) * | 2022-07-08 | 2022-08-19 | 深圳市玄羽科技有限公司 | 一种基于IoT的智能制造系统及其控制方法 |
CN116306276A (zh) * | 2023-03-09 | 2023-06-23 | 北京理工大学 | 一种复杂系统架构创成式生成方法、系统及电子设备 |
CN116414093A (zh) * | 2023-04-13 | 2023-07-11 | 暨南大学 | 基于物联网系统和强化学习的车间生产方法 |
CN116414093B (zh) * | 2023-04-13 | 2024-01-16 | 暨南大学 | 基于物联网系统和强化学习的车间生产方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112884239B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112884239B (zh) | 一种基于深度强化学习的航天起爆器生产调度方法 | |
CN104635772B (zh) | 一种制造系统自适应动态调度方法 | |
CN104268722B (zh) | 基于多目标进化算法的动态柔性作业车间调度方法 | |
CN107168267A (zh) | 基于改进粒子群与启发式策略的生产排产方法及系统 | |
CN111160755B (zh) | 一种基于dqn的飞机大修车间实时调度方法 | |
CN112149987A (zh) | 基于深度强化学习的多目标柔性作业车间调度方法和装置 | |
CN109615188B (zh) | 一种预分配结合匈牙利算法的多机器人任务分配方法 | |
CN108551175B (zh) | 配电网储能容量配置方法 | |
CN115454005A (zh) | 一种面向有限运输资源场景的制造车间动态智能调度方法及装置 | |
CN113406939A (zh) | 一种基于深度q网络的无关并行机动态混合流水车间调度方法 | |
CN116512250B (zh) | 基于人机协作的拆卸线平衡方法 | |
CN107457780A (zh) | 控制机械臂运动的方法及装置、存储介质和终端设备 | |
CN107357267B (zh) | 基于离散花朵授粉算法求解混合流水线调度问题的方法 | |
CN113960971B (zh) | 一种基于行为决策网络粒子群优化的柔性车间调度方法 | |
US20180231953A1 (en) | Numerical controller | |
CN115940294A (zh) | 多级电网实时调度策略调整方法、系统、设备及存储介质 | |
CN115249121A (zh) | 一种基于深度强化学习的离散制造车间鲁棒调度优化方法 | |
CN117331700B (zh) | 一种算力网络资源调度系统及方法 | |
Dai et al. | Research on multi-robot task allocation based on BP neural network optimized by genetic algorithm | |
CN111401769A (zh) | 一种基于深度强化学习的配电网故障智能抢修方法及装置 | |
CN117314055A (zh) | 基于强化学习的智能制造车间生产-运输联合调度方法 | |
CN116796964A (zh) | 一种基于生成对抗模仿学习解决作业车间调度问题的方法 | |
Xing et al. | A hybrid multi-objective algorithm for energy-efficient scheduling considering machine maintenance | |
CN115629584A (zh) | 一种基于改进乌鸦搜索算法的订单排产优化方法 | |
CN114219274A (zh) | 一种基于深度强化学习适应机器状态的车间调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |