CN112884239A - 一种基于深度强化学习的航天起爆器生产调度方法 - Google Patents

一种基于深度强化学习的航天起爆器生产调度方法 Download PDF

Info

Publication number
CN112884239A
CN112884239A CN202110268713.6A CN202110268713A CN112884239A CN 112884239 A CN112884239 A CN 112884239A CN 202110268713 A CN202110268713 A CN 202110268713A CN 112884239 A CN112884239 A CN 112884239A
Authority
CN
China
Prior art keywords
time
production
initiator
processing
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110268713.6A
Other languages
English (en)
Other versions
CN112884239B (zh
Inventor
魏善碧
余笑
王昱
肖勇
王辉阳
吴睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202110268713.6A priority Critical patent/CN112884239B/zh
Publication of CN112884239A publication Critical patent/CN112884239A/zh
Application granted granted Critical
Publication of CN112884239B publication Critical patent/CN112884239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Manufacturing & Machinery (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Primary Health Care (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)

Abstract

本发明公开了一种基于深度强化学习的航天起爆器生产调度方法,主要涉及机器学习与智能制造领域;包括步骤:S1、从起爆器生产车间获取生产加工的实时信息;S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;S3、确定起爆器生产车间调度优化的目标函数及约束条件;S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;S6、深度强化学习DQN算法的训练;S7、起爆器生产实时调度;本发明能够提高生产调度的自适应性和实时性,使调度方案能够更好地适应复杂动态的实际生产过程。

Description

一种基于深度强化学习的航天起爆器生产调度方法
技术领域
本发明涉及机器学习与智能制造领域,具体是一种基于深度强化学习的航天起爆器生产调度方法。
背景技术
随着航天事业的快速发展,航天火工品需求量不断增加,传统基于手工生产的生产模式远远不能达到发展需求。目前,生产航天火工品的离散制造企业正处于自动化生产的转型期,正由传统的大批量生产模式向小批量、多批次的柔性生产模式转型。柔性生产加工调度比传统生产调度更加灵活,更能适应外部环境的动态变化。在复杂动态场合加工,调度方案及参数通常由工人的主观经验及知识进行组织生产,需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。因此,深入了解起爆器生产加工调度现状,分析整个生产结构与功能需求,优化起爆器柔性生产车间生产调度对企业具有重要意义。
在复杂动态场合加工,传统的调度方案及参数的制定通常由工人的主观经验及知识进行组织生产,需要耗费巨大的时间和劳动力且生产效率及稳定性也难以保证。而现有的生产调度算法,如运筹学调度算法、启发式搜索算法以及群体算法等,都能够对生产加工进行有效调度,在调度问题的实际化上取得了不错的成果,但是这些调度方案存在以下问题:
1)、失去了调度规则简洁易行的优势,在算法生成的调度规则在形式上较为复杂;
2)、忽略了经验记录的价值,对企业过去的生产加工调度历史数据并没有进行关注;
3)、缺少了对生产控制方法学习能力的考虑,不能满足当前智能制造系统构建的需求。
4)、缺少对起爆器试装以及固化、装压药时间对质量影响的考虑。
5)、缺少在备料过程中,考虑药剂,胶液等受环境因素的影响,需二次调度。
发明内容
本发明的目的在于解决现有技术中存在的问题,提供一种基于深度强化学习的航天起爆器生产调度方法,能够提高生产调度的自适应性和实时性,缓解起爆器生产车间对人工调整的依赖,使调度方案能够更好地适应复杂动态的实际生产过程。
本发明为实现上述目的,通过以下技术方案实现:
一种基于深度强化学习的航天起爆器生产调度方法,包括步骤:
S1、从起爆器生产车间获取生产加工的实时信息;
S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;
S3、确定起爆器生产车间调度优化的目标函数及约束条件;
S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;
S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;
S6、深度强化学习DQN算法的训练;
S7、起爆器生产实时调度。
优选的,步骤S1中,所述实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。
优选的,步骤S1中,所述起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备,同时排列设备上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
优选的,步骤S2中,所述相关假设包括第一假设、第二假设、第三假设;
所述第一假设为:各生产机器设备相互独立,加工过程中互不影响;
所述第二假设为:在零时刻,任意设备和工件均准备就绪;
所述第三假设为:每台设备在任意时刻正在加工的产品只能有一个。
优选的,步骤S3中,所述目标函数为:
Figure BDA0002973389960000031
Figure BDA0002973389960000032
其中,
Minmize W表示最小化机器总负荷;Minmize M表示最少加工等待时间;A表示需要生产加工的起爆器的数量;m表示第m个工件,m∈(1,2,…A);sj表示每个起爆器需要多少道加工工序;n表示第n道工序,n∈(1,2,…sj);Q表示设备数量;q表示第q台设备,q∈(1,2,…Q);
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
优选的,步骤S3中,所述约束条件包括:
约束每个工件每道工序只能被加工一次:
Figure BDA0002973389960000041
约束起爆器工件交期时间:Em≤Cm
约束存储固化工序时间:12≤Tn≤24;
约束试装工序时间:2≤Hn≤3;
约束配胶工序时间:6≤Ln≤12;
约束称、装药工序时间:3≤In≤6。
优选的,所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;
所述状态空间设置通过特征变量nm、fm、qm、T来定义各加工工件的实时状态,其中,nm表示正在加工工件m的工序号,fm表示正在加工工件m的工序加工进度,qm表示正在加工工件的工序选用的机器编号,T表示目前的系统时间;
所述动作空间设置包括:对各加工工件的行动进行编号,具体的编码方式为<0,1,2,…,q>,其中0表示等待加工,其余整数为加工机器编号;
所述奖励函数设置的奖惩函数公式为:
Figure BDA0002973389960000042
其中,d为生产完工时间,t为生产加工等待时间。
优选的,步骤S6中,深度强化学习DQN算法的训练过程包括Q网络和经验回放,所述Q网络包括主Q网络和目标Q网络。
优选的,深度强化学习DQN算法的优化过程如下:
步骤一:用两个结构相同的神经网络分别作为Q值网络和目标Q值网络,参数分别为θ和θ′:Q(s,a,θ)≈Qπ(s,a);
步骤二:每隔n步,将当前Q网络参数复制给目标Q网络:θ′←θ;
步骤三:在Q值中使用均方误差来定义目标函数,即损失函数:
Figure BDA0002973389960000051
步骤四:计算参数θ关于损失函数的梯度:
Figure BDA0002973389960000052
步骤五:使用随机梯度方法实现端对端的优化目标。
对比现有技术,本发明的有益效果在于:
本发明提出了一种基于深度强化学习的起爆器生产调度方法,首先,从起爆器生产车间获取生产加工的实时信息,根据这些信息,确定起爆器柔性生产车间调度问题,并将调度问题转化为一个马尔科夫决策问题;使用深度强化学习中DQN算法来求解马尔科夫决策问题的最优解;在该方法的训练过程中,利用配置记忆库来降低训练信息之间的关联度,提高方法的训练速度;经过多次训练,得到训练最优的生产加工调度方法。和传统的调度方法不同,DQN方式是根据起爆器生产加工车间的实时信息而做出决策的,这使得该方法能够很好的应对起爆器生产车间各种扰动的影响,具有较高的稳定性和自适应性;能够有效的提高起爆器生产加工效率。
附图说明
附图1是本发明的流程图;
附图2是本发明的起爆器工件学习流程图;
附图3是本发明DQN算法损失函数构造过程。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
实施例:本发明根据起爆器生产加工特点,考虑到起爆器特殊生产工序试装、配胶、固化以及装压药等工序对起爆器生产加工的影响,针对于起爆器生产过程中紧急任务、机器故障、工艺变更问题等显隐性扰动,提供一种基于深度强化学习的航天起爆器生产调度方法,以最大程度地缩短完工时间及减小设备负荷量,能够提高生产调度的自适应性和实时性,缓解起爆器生产车间对人工调整的依赖,使调度方案能够更好地适应复杂动态的实际生产过程。
本发明将起爆器生产加工调度被表述为马尔科夫决策过程,然后,提出了一种新颖的的基于深度强化学习DQN算法的生产调度方法来确定该问题的最佳策略,通过该方法可以获取合适的规则来执行各种生产车间状态的调度。
如附图1所示,本发明公开了一种基于深度强化学习的航天起爆器生产调度方法,主要分为三个方面,分别是起爆器生产车间调度问题描述、目标函数和约束条件,马尔科夫决策模型的建立以及DQN算法的学习训练过程。具体包括以下步骤:
第一步,利用起爆器生产控制系统从起爆器生产加工车间中收集实时信息,所述实时信息包括机器设备总台数、生产加工计划,各生产工序加工时间、工件加工工序数以及各加工工序开完工时间等;这些信息的采集对于后面的DQN算法的学习训练至关重要。
第二步,根据起爆器生产车间收集的实时信息,对起爆器生产车间调度问题进行描述,明确各生产加工工位具体情况,并依据现场情况作出生产过程的假设。
通过对起爆器柔性生产车间调度问题的研究,假设A个起爆器在Q台设备上加工,其中每个起爆器需要sj,j∈(1,2,…,e)道加工工序,工序要按照指定的加工工艺先后顺序进行加工,St=[s1,s2,…,se]表示所有起爆器工序数所构成的集合。
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
所谓生产加工调度就是合理地将每道工序omn分配到一个具体的设备q,同时排列设备q上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
根据生产现场实际情况,提出以下假设:
1)各生产机器设备相互独立,加工过程中互不影响。
2)在零时刻,任意设备和工件均准备就绪。
3)每台设备在任意时刻正在加工的产品只能有一个。
第三步,确定起爆器柔性生产车间调度问题的目标函数以及约束条件。
具体地,目标函数,包括最小化机器总负荷函数以及最少加工等待时间函数,在生产加工过程中,应尽量减少设备负荷量,为此后的生产加工或突发情况保有充足的生产能力,有效避免其对后续加工产生的影响,另外,对于加工等待时间,具体如下所示:
最小化机器总负荷数:
Figure BDA0002973389960000071
最少加工等待时间:
Figure BDA0002973389960000081
进一步地,约束条件,包括对每个工件只能加工一次、设备同一时间点只能加工唯一工件、每个工件交期时间以及固化、试装、配胶、装压药时间的约束,具体如下所示:
约束每个工件每道工序只能被加工一次:
Figure BDA0002973389960000082
约束起爆器工件交期时间:Em≤Cm
约束存储固化工序时间:12≤Tn≤24;
约束试装工序时间:2≤Hn≤3;
约束配胶工序时间:6≤Ln≤12;
约束称、装药工序时间:3≤In≤6;
第四步,马尔科夫决策问题模型的建立。
马尔科夫决策问题模型可以很好地描述随机动力学系统。在发明中,我们应用具有离散时间步长的有限马尔科夫决策问题模型来描述起爆器生产车间实时调度。具体而言,任何两台机器空闲的时间间隔是两个相邻时间步t之间的时间间隔。在时间步骤t,我们观察到系统状态st,该状态包括正在加工工件的工序号,正在加工工件的工序加工进度,正在加工工件的工序选用的机器编号,目前的系统时间。有了这些信息,我们就可以选择适当的操作。执行此操作后,我们可以观察新系统状态st+1的状态,并在时间步t+1处选择操作。马尔科夫决策问题模型提供了一种数学体系结构,用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。马尔科夫决策问题模型是一个四元组<S,A,T,R>,其中S是包含所有状态的有限集,A是包含所有动作的有限集﹐T是定义为T:S×A×S→[0,1]的状态转移概率S→[0,1],R是定义为R:S×A×S→R的奖励方程。考虑到紧急任务,工艺变更,随机机器故障等,我们定义的起爆器生产加工调度的马尔科夫决策问题模型的详细定义如下:
1、状态空间定义
在起爆器柔性生产车间,工件的状态定义应充分涉及生产车间的所有条件可能,反映生产车间的不确定性,便于工件有效识别自身状态并作出行动决策,采用的编码方式为:<nm,fm,qm,T>;
其中m为航天火工品序号,n为工序号,f为工序n的进度,q为工序n所选用的机器编号,T为系统时刻。
2、动作空间设置:
在起爆器生产加工过程中,工件的行动是从等待和各个机器之间做出选择,是离散的。所以机器的编号即可以作为工件智能体的行动编号,具体的编码方式为:<0,1,2,…,q>。
其中0表示等待加工,即还未选择加工机器,加工工件进入缓冲区等待,其余整数为加工机器编号。
3、报酬函数设置:
奖励功能是马尔科夫决策过程最重要的部分。这是因为奖励函数隐式定义了学习目标。奖励功能用于控制系统的优化方向。为了实现最优调度,我们定义了报酬函数,设置如下所示:
Figure BDA0002973389960000091
第五步,经过第四步的状态空间的计算,起爆器生产车间实时信息被转化为实时状态。将转化好的实时状态存储在记忆库中,作为深度强化学习DQN算法训练的输入。
第六步,深度强化学习DQN算法的训练。我们使用起爆器生产车间的实时状态作为Q网络的输入。输出训练好的Q网络的参数,并根据ε衰减贪婪策略选择最合适的动作。执行此操作后,系统进入下一个状态st+1。深度强化学习DQN算法的训练过程主要包括两个部分:Q网络(主Q网络和目标Q网络)和经验回放。
1、Q网络
在以往深度强化学习DQN算法的训练中,目标Q值的计算使用当前要训练的Q网络参数来计算Q(st+1,a,θ),然后使用同一网络。这在迭代中导致两者之间的过度相关,这不利于算法的收敛。为了使算法的性能更加稳定,我们建立了两个结构相同但参数不同的神经网络:主Q网络和目标Q网络。
在初始时刻,将主Q网络的参数分配给目标Q网络,然后主Q网络继续更新神经网络参数,而目标Q网络的参数是固定的。然后,将主Q网络的参数分配给目标Q网络。来回循环直到训练完成。这会使目标Q值在一段时间内保持恒定,从而使算法更新更加稳定。
主Q网络和目标Q网络是结构相同的两个Q网络。具体而言,Q(s,a,θ)表示主Q网络的输出,并用于评估与当前状态和操作相对应的值函数。Q(st+1,a,θ′)表示目标Q网络的输出。Q网络由三层网络组成。输入层完全连接到具有v个节点的隐藏层。每个隐藏层的值是:
vt=g(w1×xt+b1);
其中x表示输入向量,g是整流后的激活函数,w1是权重矩阵,b1是偏差向量。
然后,隐藏层完全连接到输出层。Q网络的输出是系统状态下所有可行调度规则的作用值,即:
Q(st,a)=g(w2×vt+b2);
其中w2是权重矩阵,b2是阀值矩阵。输出是具有最大操作值的调度规则。
2、经验回放
在起爆器生产车间系统中,相邻状态之间的相关性特别高。因此,如果将这些数据用于顺序训练﹐则神经网络的稳定性不够高。鉴于此,我们使用经验重播的方法来训练Q网络,这可能会破坏数据之间的关联。具体方法是在学习过程中建立“经验回放”。将所有st,at,st+1和rt存储在内存中一段时间。训练神经网络时,会从内存中随机选择一些数据进行训练,这会破坏原始数据的顺序并削弱数据的相关性。
附图2为起爆器生产加工过程工件探索学习过程。
深度强化学习DQN算法的优化过程如下:
步骤一:用两个结构相同的神经网络分别作为Q值网络和目标Q值网络,参数分别为θ和θ′:Q(s,a,θ)≈Qπ(s,a);
步骤二:每隔n步,将当前Q网络参数复制给目标Q网络:θ′←θ;
步骤三:在Q值中使用均方误差来定义目标函数,即损失函数,附图3为DQN算法损失函数的构造:
Figure BDA0002973389960000112
步骤四:计算参数θ关于损失函数的梯度:
Figure BDA0002973389960000111
步骤五:使用随机梯度方法实现端对端的优化目标。
第七步,起爆器生产实时调度。
经过第六步的深度强化学习DQN算法训练后,用于起爆器生产车间实时调度的Q网络参数被固定。当输入起爆器生产车间实时状态时,DQN算法输出合适的调度规则,用于当前时刻的起爆器生产车间实时调度。在完成本次调度后,起爆器生产车间进入下一个状态﹐直至完成整个调度过程。
本发明在强时间条件约束下,将与时间相关的质量问题考虑到柔性生产加工中,实现离散多批次小批量产品的生产加工,提高起爆器的生产效率;本发明考虑起爆器产品在生产加工过程中特有的试装、固化、装压药环节,以及环境因素对药剂、胶液的影响而产生的二次调度,能够大幅度降低产品在正式使用过程中发生事故的可能性。

Claims (9)

1.一种基于深度强化学习的航天起爆器生产调度方法,其特征在于,包括步骤:
S1、从起爆器生产车间获取生产加工的实时信息;
S2、根据起爆器生产车间收集的实时信息,确定起爆器柔性生产车间调度问题描述和相关假设;
S3、确定起爆器生产车间调度优化的目标函数及约束条件;
S4、将起爆器生产调度问题构造为马尔科夫决策模型,将实时信息转化为实时状态;
S5、将实时状态信息存储在记忆库中,作为深度强化学习DQN算法训练的输入;
S6、深度强化学习DQN算法的训练;
S7、起爆器生产实时调度。
2.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S1中,所述实时信息包括机器设备总台数、生产加工计划、各生产工序加工时间、工件加工工序数以及各加工工序开完工时间。
3.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S1中,所述起爆器柔性生产车间调度问题描述为合理地将每道工序分配到一个具体的设备,同时排列设备上工件的加工顺序,并确定开始加工的时间,使其满足调度优化目标。
4.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S2中,所述相关假设包括第一假设、第二假设、第三假设;
所述第一假设为:各生产机器设备相互独立,加工过程中互不影响;
所述第二假设为:在零时刻,任意设备和工件均准备就绪;
所述第三假设为:每台设备在任意时刻正在加工的产品只能有一个。
5.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S3中,所述目标函数为:
Figure FDA0002973389950000021
Figure FDA0002973389950000022
其中,
Minmize W表示最小化机器总负荷;Minmize M表示最少加工等待时间;A表示需要生产加工的起爆器的数量;m表示第m个工件,m∈(1,2,…A);sj表示每个起爆器需要多少道加工工序;n表示第n道工序,n∈(1,2,…sj);Q表示设备数量;q表示第q台设备,q∈(1,2,…Q);
Omn表示加工工件m的第n道工序;Gmnq表示设备q加工工序Omn的加工时间;Umnq表示工件m在q设备上进行n工序的加工,当工序Omn选择设备q加工,则Umnq=1,其它则为0;Em表示加工工件m的的总加工时间;Nmn表示工序Omn有无存储固化,当有存储固化,Nmn=1,若无,则为0;Pmn表示工序Omn有无配胶环节,当有配胶时,Pmn=1,若无,则为0;Tn表示加工工序n的存储固化工序时间;Ln表示加工工序n的配胶工序时间;In表示加工工序n的称、装药时间;Hn表示试装工序时间;Cm表示加工工件m的任务交期。
6.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S3中,所述约束条件包括:
约束每个工件每道工序只能被加工一次:
Figure FDA0002973389950000023
约束起爆器工件交期时间:Em≤Cm
约束存储固化工序时间:12≤Tn≤24;
约束试装工序时间:2≤Hn≤3;
约束配胶工序时间:6≤Ln≤12;
约束称、装药工序时间:3≤In≤6。
7.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;
所述状态空间设置通过特征变量nm、fm、qm、T来定义各加工工件的实时状态,其中,nm表示正在加工工件m的工序号,fm表示正在加工工件m的工序加工进度,qm表示正在加工工件的工序选用的机器编号,T表示目前的系统时间;
所述动作空间设置包括:对各加工工件的行动进行编号,具体的编码方式为<0,1,2,…,q>,其中0表示等待加工,其余整数为加工机器编号;
所述奖励函数设置的奖惩函数公式为:
Figure FDA0002973389950000031
其中,d为生产完工时间,t为生产加工等待时间。
8.根据权利要求1所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:步骤S6中,深度强化学习DQN算法的训练过程包括Q网络和经验回放,所述Q网络包括主Q网络和目标Q网络。
9.根据权利要求8所述的一种基于深度强化学习的航天起爆器生产调度方法,其特征在于:深度强化学习DQN算法的优化过程如下:
步骤一:用两个结构相同的神经网络分别作为Q值网络和目标Q值网络,参数分别为θ和θ′:Q(s,a,θ)≈Qπ(s,a);
步骤二:每隔n步,将当前Q网络参数复制给目标Q网络:θ′←θ;
步骤三:在Q值中使用均方误差来定义目标函数,即损失函数:
Figure FDA0002973389950000041
步骤四:计算参数θ关于损失函数的梯度:
Figure FDA0002973389950000042
步骤五:使用随机梯度方法实现端对端的优化目标。
CN202110268713.6A 2021-03-12 2021-03-12 一种基于深度强化学习的航天起爆器生产调度方法 Active CN112884239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110268713.6A CN112884239B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的航天起爆器生产调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110268713.6A CN112884239B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的航天起爆器生产调度方法

Publications (2)

Publication Number Publication Date
CN112884239A true CN112884239A (zh) 2021-06-01
CN112884239B CN112884239B (zh) 2023-12-19

Family

ID=76041187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110268713.6A Active CN112884239B (zh) 2021-03-12 2021-03-12 一种基于深度强化学习的航天起爆器生产调度方法

Country Status (1)

Country Link
CN (1) CN112884239B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221390A (zh) * 2021-06-24 2021-08-06 北京京东方技术开发有限公司 一种排产模型的训练方法和装置
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113406939A (zh) * 2021-07-12 2021-09-17 哈尔滨理工大学 一种基于深度q网络的无关并行机动态混合流水车间调度方法
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113506048A (zh) * 2021-09-09 2021-10-15 宁波帅特龙集团有限公司 一种柔性作业车间的调度方法
CN113759841A (zh) * 2021-08-26 2021-12-07 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN113780737A (zh) * 2021-08-10 2021-12-10 武汉飞恩微电子有限公司 基于机器学习的作业调度优化方法、装置、设备及介质
CN113837628A (zh) * 2021-09-16 2021-12-24 中国钢研科技集团有限公司 一种基于深度强化学习的冶金工业车间天车调度方法
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114862170A (zh) * 2022-04-27 2022-08-05 昆明理工大学 一种用于通信设备制造过程的学习型智能调度方法、系统
CN114924531A (zh) * 2022-07-08 2022-08-19 深圳市玄羽科技有限公司 一种基于IoT的智能制造系统及其控制方法
CN116306276A (zh) * 2023-03-09 2023-06-23 北京理工大学 一种复杂系统架构创成式生成方法、系统及电子设备
CN116414093A (zh) * 2023-04-13 2023-07-11 暨南大学 基于物联网系统和强化学习的车间生产方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930016A (zh) * 2019-11-19 2020-03-27 三峡大学 一种基于深度q学习的梯级水库随机优化调度方法
CN111985672A (zh) * 2020-05-08 2020-11-24 东华大学 一种多Agent深度强化学习的单件作业车间调度方法
CN112149987A (zh) * 2020-09-17 2020-12-29 清华大学 基于深度强化学习的多目标柔性作业车间调度方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113377655B (zh) * 2021-06-16 2023-06-20 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113377655A (zh) * 2021-06-16 2021-09-10 南京大学 一种基于MAS-Q-Learing的任务分配方法
CN113221390A (zh) * 2021-06-24 2021-08-06 北京京东方技术开发有限公司 一种排产模型的训练方法和装置
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113487165B (zh) * 2021-07-01 2024-05-03 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113406939A (zh) * 2021-07-12 2021-09-17 哈尔滨理工大学 一种基于深度q网络的无关并行机动态混合流水车间调度方法
CN113780737A (zh) * 2021-08-10 2021-12-10 武汉飞恩微电子有限公司 基于机器学习的作业调度优化方法、装置、设备及介质
CN113759841A (zh) * 2021-08-26 2021-12-07 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN113759841B (zh) * 2021-08-26 2024-01-12 山东师范大学 一种多目标优化的机床柔性车间调度方法及系统
CN113506048A (zh) * 2021-09-09 2021-10-15 宁波帅特龙集团有限公司 一种柔性作业车间的调度方法
CN113837628B (zh) * 2021-09-16 2022-12-09 中国钢研科技集团有限公司 一种基于深度强化学习的冶金工业车间天车调度方法
CN113837628A (zh) * 2021-09-16 2021-12-24 中国钢研科技集团有限公司 一种基于深度强化学习的冶金工业车间天车调度方法
CN114037341A (zh) * 2021-11-19 2022-02-11 广东工业大学 一种基于ddqn的智能车间动态自适应调度方法及系统
CN114862170A (zh) * 2022-04-27 2022-08-05 昆明理工大学 一种用于通信设备制造过程的学习型智能调度方法、系统
CN114862170B (zh) * 2022-04-27 2024-04-19 昆明理工大学 一种用于通信设备制造过程的学习型智能调度方法、系统
CN114924531A (zh) * 2022-07-08 2022-08-19 深圳市玄羽科技有限公司 一种基于IoT的智能制造系统及其控制方法
CN116306276A (zh) * 2023-03-09 2023-06-23 北京理工大学 一种复杂系统架构创成式生成方法、系统及电子设备
CN116414093A (zh) * 2023-04-13 2023-07-11 暨南大学 基于物联网系统和强化学习的车间生产方法
CN116414093B (zh) * 2023-04-13 2024-01-16 暨南大学 基于物联网系统和强化学习的车间生产方法

Also Published As

Publication number Publication date
CN112884239B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN112884239B (zh) 一种基于深度强化学习的航天起爆器生产调度方法
CN104635772B (zh) 一种制造系统自适应动态调度方法
CN104268722B (zh) 基于多目标进化算法的动态柔性作业车间调度方法
CN107168267A (zh) 基于改进粒子群与启发式策略的生产排产方法及系统
CN111160755B (zh) 一种基于dqn的飞机大修车间实时调度方法
CN112149987A (zh) 基于深度强化学习的多目标柔性作业车间调度方法和装置
CN109615188B (zh) 一种预分配结合匈牙利算法的多机器人任务分配方法
CN108551175B (zh) 配电网储能容量配置方法
CN115454005A (zh) 一种面向有限运输资源场景的制造车间动态智能调度方法及装置
CN113406939A (zh) 一种基于深度q网络的无关并行机动态混合流水车间调度方法
CN116512250B (zh) 基于人机协作的拆卸线平衡方法
CN107457780A (zh) 控制机械臂运动的方法及装置、存储介质和终端设备
CN107357267B (zh) 基于离散花朵授粉算法求解混合流水线调度问题的方法
CN113960971B (zh) 一种基于行为决策网络粒子群优化的柔性车间调度方法
US20180231953A1 (en) Numerical controller
CN115940294A (zh) 多级电网实时调度策略调整方法、系统、设备及存储介质
CN115249121A (zh) 一种基于深度强化学习的离散制造车间鲁棒调度优化方法
CN117331700B (zh) 一种算力网络资源调度系统及方法
Dai et al. Research on multi-robot task allocation based on BP neural network optimized by genetic algorithm
CN111401769A (zh) 一种基于深度强化学习的配电网故障智能抢修方法及装置
CN117314055A (zh) 基于强化学习的智能制造车间生产-运输联合调度方法
CN116796964A (zh) 一种基于生成对抗模仿学习解决作业车间调度问题的方法
Xing et al. A hybrid multi-objective algorithm for energy-efficient scheduling considering machine maintenance
CN115629584A (zh) 一种基于改进乌鸦搜索算法的订单排产优化方法
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant