CN113139747A - 基于深度强化学习的带返工汽车涂装重排序方法 - Google Patents

基于深度强化学习的带返工汽车涂装重排序方法 Download PDF

Info

Publication number
CN113139747A
CN113139747A CN202110525130.7A CN202110525130A CN113139747A CN 113139747 A CN113139747 A CN 113139747A CN 202110525130 A CN202110525130 A CN 202110525130A CN 113139747 A CN113139747 A CN 113139747A
Authority
CN
China
Prior art keywords
order
sequence
color
type
spraying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110525130.7A
Other languages
English (en)
Other versions
CN113139747B (zh
Inventor
金淳
付玉婷
杨子璇
冷浕伶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110525130.7A priority Critical patent/CN113139747B/zh
Publication of CN113139747A publication Critical patent/CN113139747A/zh
Application granted granted Critical
Publication of CN113139747B publication Critical patent/CN113139747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Application Of Or Painting With Fluid Materials (AREA)
  • Spray Control Apparatus (AREA)

Abstract

本发明属于资源、工作流、人员或项目管理领域,一种基于深度强化学习的带返工汽车涂装重排序方法,能够实时响应涂装车间中出现的返工情况,动态调整后续喷涂计划。所述重排序调度算法包括涂装交互环境构建模块、Actor‑Critic算法实现模块、离线训练模块、在线排序模块。所述涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;所述算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构,该模块为本发明核心模块;所述离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;所述在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序。

Description

基于深度强化学习的带返工汽车涂装重排序方法
技术领域
本发明涉及一种基于深度强化学习的带返工汽车涂装重排序方法,属于资源、工作流、人员或项目管理领域。
背景技术
在现代汽车制造系统中,汽车从车身车间加工后以总装需求序列顺序进入WBS(White Body Storage,白车身缓冲区)缓冲区中等待进入喷涂车间加工,喷涂车间为了降低颜色切换的运营成本,需要对当前订单序列进行重排序,同时为了降低下游总装车间的生产延误,保证订单能够遵守计划装配顺序,按时交付,在重排序时还需要降低与总装需求序列的偏差。然而在涂装过程中还存在因严重质量问题导致的返工修补情况,需要实时响应涂装车间的环境变化,动态调整涂装计划,以适应返工对当前重排序的影响和二次喷涂对当前喷涂序列的扰动。
在我国,随着汽车制造业的发展和企业对降低生产成本提高行业竞争力的迫切需求,出现了用于解决汽车涂装车间订单序列重排序问题的方法。如中华人民共和国知识产权局专利号为CN201710555333.4的“一种解决WBS排序问题的调度方法”公布了一种将缓冲区抽象为FIFO队列的,基于指定规则和队列优先级决定汽车入道和出道的重排序调度方法,对于返工订单,直接根据队列优先级直接插入队列,该方法旨在解决涂装车间的不当排序导致的频繁颜色切换造成的物料浪费和高成本问题,为汽车涂装车间的重排序调度提供了一种方法。
随着计算机技术,人工智能的发展,企业也开始使用先进的优化算法来解决生产调度问题。如中华人民共和国知识产权局专利号为“CN201910593608.2”的“用于汽车涂装车间的按色分批方法”公布了一种基于蚁群优化的启发式算法和滚动求解方法的虚拟重排序方法,解决不同规模订单的颜色分批问题,有效的降低了汽车涂装车间的颜色切换次数;中华人民共和国知识产权局专利号为“CN202010496543.2”的“基于改进遗传算法的WBS缓冲区车辆排序调度方法”,公布了一种采用改进遗传算法优化排序调度模型参数的方法,使模型能够取得最小值,降低生产成本;中华人民共和国知识产权局专利号为“CN202010035705.2”的“基于遗传算法的汽车重排序方法”,公布了一种采用遗传算法的虚拟重排序方法进行漆后车身序列恢复,降低与下游总装需求序列的偏差。
现在已公开的关于汽车涂装车间的重排序方法针对涂装车间的生产需求提出了一些解决思路,但仍然存在以下不足:第一,在进行汽车涂装重排序调度时仅考虑降低涂装车间的颜色切换次数或是仅解决下游缓冲区的序列恢复问题,没有考虑上游涂装车间和下游总装车间的需求联动性,在对WBS缓冲区中订单集合制定喷涂计划时,没有同时考虑降低涂装序列的颜色切换次数和与总装需求序列的偏差;第二,当前采用的重排序调度方法多是基于指定规则和传统的启发式算法,对涂装环境和序列的动态变化未能很好的抽象和刻画,灵活性较差;第三,当前公布的成果中未能对涂装车间中存在的严重质量缺陷导致的返工和返工后车身二次喷涂的情况提出解决方案,返工品对当前的排序效果会造成影响,直接增加总装需求序列偏差,导致生产延迟,需要针对发生的返工情况和二次喷涂需要对涂装计划进行动态调整。
基于实际涂装需求,本发明提出了一种更加完备有效的考虑动态返工情况的重排序调度方法,该方法基于Actor-Critic算法,考虑上游涂装车间和下游总装车间不同的序列需求,在避免涂装车间频繁颜色切换的同时,降低与下游总装需求序列的非一致性,减少涂装颜料浪费,生产效率降低,延迟交付的情况。除此之外该方法在重排序时考虑了涂装车间的实时返工情况,针对返工车身的二次喷涂能够动态调整后续喷涂计划,降低返工导致的序列扰动对排序效果的影响。
发明内容
本发明提供了一种带返工汽车涂装重排序调度算法,该算法基于深度强化学习Actor-Critic算法,在进行重排序调度时能够有效降低涂装车间的颜色切换次数和与总装需求序列的偏差,减少物料浪费和生产延迟,保证整车的按时交付。同时能够根据涂装车间的实时返工情况动态调整后续喷涂计划,降低返工对排序效果的影响,保证生产正常进行。
本发明采取的技术方案如下:
一种基于深度强化学习的带返工汽车涂装重排序方法,能够实时响应涂装车间中出现的返工情况,动态调整后续喷涂计划。所述重排序调度算法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块、在线排序模块。所述涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;所述算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构,该模块为本发明核心模块;所述离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;所述在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序。
在使用本算法进行重排序调度之前需要进行以下准备工作:
1、按照指定格式以数据表的形式存储订单数据。订单数据中需要包含一次排序所需的订单集合,每个订单包含车身颜色和车身类型两个属性;
2、根据实际需求确定训练参数,并以数据表的形式存储参数。包括训练次数,返工时间范围,返工率,子目标权重,缓冲区容量,最大颜色批量等。
本发明所述重排序调度算法包括如下步骤:
步骤一:涂装交互环境构建
读取数据文件,初始化涂装交互环境,参数,记录订单数据的各项信息。
步骤1.1:数据导入。读取订单序列文件,取出订单数据,将订单的各属性,如车身颜色(color)、车身类型(model)按照对应关系存入表示订单的列表中。列表中的每一项元素表示一个订单,每个订单又为包含车身颜色和车身类型的二元列表,遍历整个订单列表可以获取该订单的全部数据,包括车身颜色集合,车身类型集合,订单列表中的各订单顺序与原数据文件中的订单顺序一致。记录所需订单信息:
1、根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码,使用字典记录各属性与整数的对应关系;
2、计算集合列表中各订单类型的数目,一个订单类型为一车身颜色和类型的组合,使用字典记录各订单类型与其数目的对应关系;
3、将各类型订单在序列中的位置集合以列表存储,并用字典记录各类型订单与其位置集合的对应关系。
步骤1.2:参数设置。读取参数设置文件,取出参数,将参数存入参数列表中,保证算法在整个过程中均可以调用参数。根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值,包括训练次数,返工时间范围,返工率,子目标权重,缓冲区容量,最大颜色批量等。
步骤1.3:初始化算法涂装交互环境,通过初始化全局环境变量来构建涂装交互环境,用以深度强化学习算法的交互和训练。涂装交互环境的全局变量包含:(1)Wbs,表示当前WBS中未进入喷涂车间的订单集合,记录当前各订单类型的剩余数量;(2)Painted,表示当前涂装序列,记录进入涂装车间的订单类型序列,其中也包括二次喷涂的车身;(3)Qualfied,表示进入PBS(Paint Body Storage,漆车身缓冲区)的漆后合格序列;(4)Reworking表示返工区的车身集合,返工结束后对应订单离开该序列;(5)Reworked,表示已经结束返工的车身集合,记录当前各订单类型中存在的已返工订单数目;(6)Location,表示未进入漆后合格序列Qualified中的各类型订单在总装需求序列中的位置集合;(7)T,记录当前时刻,初始为0;(8)Buffer,PBS中当前存在的漆后车身集合。
步骤二:Actor-Critic算法实现
构建数学模型,为深度强化学习算法定义状态空间,动作空间,奖励函数,设计算法结构。
步骤2.1:数学模型建立。根据订单数据和参数建立考虑返工的汽车涂装重排序调度问题的数学模型,确定目标函数和约束条件。其中Ψ为子目标Φ颜色切换次数子目标和X总装需求偏差子目标的加权之和,ω1和ω2分别为两个子目标的权重,总目标为最小化子目标加权之和;根据步骤一中的订单数据导入,共有N个订单,c个车身颜色,m个车身类型。
Figure BDA0003065511650000041
为0-1决策变量,若第n个订单颜色为i则取值1,否则取值0;
Figure BDA0003065511650000042
为0-1决策变量,若第n个订单车身类型为j则取值1,否则取值0;Ni,j为车身颜色为i,车身类型为j的订单数量;k为返工订单的返工序号,
Figure BDA0003065511650000043
为0-1变量,在t时刻,若订单n发生返工,则取值1,否则取值0,该订单为返工序列中的第k个返工订单,Nr为返工订单数量;
Figure BDA0003065511650000044
为0-1变量,第k个返工订单n二次喷涂颜色为i则取值1,否则取值0;
Figure BDA0003065511650000045
为0-1变量,第k个返工订单n车身类型为j则取值1,否则取值0。BS(t),PS(t),CS(t),RS(t),QS(t)表示t时刻WBS缓冲区,喷涂区,质检区,返工区,PBS缓冲区中的订单集合,B为初始订单集合;b为当前喷涂区颜色批次,Bp为喷涂区颜色批量上限;l为当前漆后缓冲区中车身数量,Ls为漆后缓冲区容量。
该数学模型的目标函数为最小化颜色切换次数和总装需求偏差两子目标的加权目标之和,约束为:(1)重排序后每个订单只能喷涂一种颜色;(2)重排序后每个订单只属于一种车型;(3)排序前后订单总数不变;(4)重排序后具有相同颜色和车身类型的订单数目不变;(5)订单在整个过程中只能进行一次返工;(6)车身经过返工后进行二次喷涂时的颜色和车身类型与第一次喷涂时相同;(7)整个重排序过程中的任意时刻,WBS,喷涂区,质检区,返工区,PBS中的订单集合之和为初始订单集合,全部订单集合没有发生变化;(8)每种颜色连续喷涂的次数不超过颜色喷涂批量的上限;(9)缓冲区中的车身数量不超过缓冲区最大容量;(10)各子目标的权重在[0,1]之间,且和为1。
minΨ=ω1Φ+ω2X
Figure BDA0003065511650000051
Figure BDA0003065511650000052
Figure BDA0003065511650000053
Figure BDA0003065511650000054
Figure BDA0003065511650000055
Figure BDA0003065511650000056
Figure BDA0003065511650000057
Figure BDA0003065511650000058
Figure BDA0003065511650000059
0≤b≤Bp
l≤Ls
0≤ω1≤1,0≤ω2≤1,ω12=1
步骤2.2:定义状态空间。状态空间为一个三元组,S=<f1,f2,f3>。各元素如下:
1、f1:标识当前正在喷涂的颜色,
Figure BDA0003065511650000061
采用onehot编码,如果当前正在喷涂的颜色为i,那么
Figure BDA0003065511650000062
否则
Figure BDA0003065511650000063
且满足
Figure BDA0003065511650000064
2、f2:标识当前各订单类型相对于总装需求序列的偏差程度,f2=(d1,d2,...,dc×m);若当前订单进入漆后合格序列中的位置为pq
Figure BDA0003065511650000065
为订单类型为u的订单在总装需求序列中的最近位置,则订单类型u与总装需求序列的偏差
Figure BDA0003065511650000066
du表示订单类型u的偏差比例,|du|越大,表示偏差越大,du>0,说明订单会发生延误,du≤0说明订单未发生延误。当订单集合中没有订单类型为u的订单时,du=0。
3、f3:当前喷涂的颜色批量比例。
Figure BDA0003065511650000067
其中B为当前颜色连续喷涂的次数,即该颜色的实时批量,Bp为颜色批量上限。
步骤2.3:定义动作空间。动作空间为当前可进入喷涂区进行喷涂的订单类型,动作空间定义为:A={[i,j]|1≤i≤c,1≤j≤m},并对动作空间进行整数编码,每一个动作用整数标识,即A={au|1≤u≤c×m}。
步骤2.4:定义奖励函数。奖励函数能够正确表示涂装交互环境对动作选择的反馈,应该与数学模型中的目标函数和约束有关,满足目标时给予正向的奖励,不满足目标或超出约束限制时给予惩罚。选择动作au的奖励函数Rs(au)包括三部分,将其加权可得Rs(au)=ω1*R12*R2+β*R3,其中ω1,ω2为子目标权重。奖励函数的各部分如下:
1、R1:动作au选择的颜色与上一个车身喷涂的颜色是否相同,其中ccmax为订单序列的最大颜色切换次数。
Figure BDA0003065511650000068
2、R2:动作au对应的订单类型u与总装需求的延误程度,使用SD计算(见步骤2.2),其中SDmax为订单序列的最大总装需求偏差。
Figure BDA0003065511650000069
3、R3:动作au的实时颜色批量是否超过颜色批量上限,其中Bu为当前动作au下的实时颜色批量。
Figure BDA0003065511650000071
步骤2.5:设计Actor-Critic算法结构
Actor-Critic算法由Actor实现策略函数,Critic实现价值函数,并使用两个神经网络π(θ)和V(ω)来逼近策略函数和价值函数,其中θ和ω为神经网络的参数。各神经网络结构如下:
1、Actor神经网络输入为状态s,输出为该状态下的动作概率分布,即选择各个动作的概率P(au|s)。输入状态s=<f1,f2,f3>,因此输入层神经元个数为状态维度states_size=|f1|+|f2|+|f3|=c+c×m+1;中间设有两个隐藏层,每层中设有神经元个数为Hidden=40;输出层为每个动作的概率,因此输出层神经元个数为动作维度action_size=c×m;Actor输出的是概率,要求输出的范围在0-1之间,且对于正负数需要具有对称性,因此激活函数使用Sigmoid函数。
2、Critic神经网络输入为状态s,输出为该状态下的状态价值Vω(s)。输入神经元的个数为状态维度state_size=|f1|+|f2|+|f3|=c+c×m+1;输出状态价值故输出神经元个数为1;中间设有两个隐藏层,每层中设有神经元个数为Hidden=40;Critic的输出为价值,为了使神经网络尽快收敛,激活函数使用Relu函数。
步骤三:离线训练过程
步骤3.1:在涂装交互环境构建和算法实现后,可以开始通过订单序列训练模型更新模型参数。具体过程如下:
1、定义和输入算法中的各项参数,包括迭代次数maxepisode,学习率lr,折扣率γ;
2、加载本次需要重排序的待排序订单序列,获取状态维度state_size和动作维度action_size;
3、创建Actor和Critic,并初始化两个神经网络的参数θ和ω;
4、开始本回合的迭代,初始化环境,初始化状态s;
5、Actor根据当前状态s,得到状态转移策略πθ(s),根据该策略选择动作a,动作a对应的订单类型作为本次进入喷涂车间进行喷涂的订单类型;
6、刷新环境变量(见步骤1.3),刷新环境变量的具体过程如下:
(1)时刻T=T+1;
(2)Wbs对应的订单类型u对应的剩余数目减1,Wbs[u]=Wbs[u]一1;
(3)若当前时刻存在已完成返工的订单,那么该订单类型ur,Wbs[ur]=Wbs[ur]+1,并从返工订单集合Reworking中离开,记录未进行二次喷涂的返工订单类型的数目更新,Reworked[ur]=Reworked[ur]+1;
(4)优先选择Reworked中的类型u的订单进入Painted中;
(5)若该订单为已经过返工的订单,则直接进入漆后合格序列Qualified中;
(6)若该订单未经过返工,则进入质检区进行检查,若合格则进入漆后合格序列Qualified中,否则进入返工集合Reworking中;
(7)更新当前各订单类型中未进入漆后合格序列的车身在总装需求序列的位置集合Location,更新buffer。
(8)根据当前刷新的环境,状态转移至下一状态s′。
7、给出反馈,即时奖励r,将(s,a,r,s′)传递给Critic,记录本次即时奖励r,并更新当前状态s=s′;
8、Critic输入s和s′,得到状态价值Vω(s)和Vω(s′);
9、使用均方差计算Critic的损失函数LossCritic(ω)=E[(Vω(s′)-Vω(s))2],并更新Critic参数ω;
10、计算TDerror=r+γVω(s′)-Vω(s),并传递给Actor;
11、计算Actor的损失函数LossActor(θ)=-TDerror*logPθ(a|s),并更新Actor参数θ;
12、如果本回合结束,记录本回合排序结果的颜色切换次数cc,总装需求延误delay,加权目标值result,缓冲区最大占用buffer,累积奖励reward,迭代次数加1,episode=episode+1,转至步骤13,否则转至步骤5;
13、如果当前为最大迭代次数,episode=maxepisode,转至步骤14,否则转至步骤3;
14、训练完成,获得优化模型。
步骤3.2:将每回合中记录的颜色切换次数cc,总装需求延误delay,加权目标值result,缓冲区最大占用buffer,累积奖励reward输出为数据表。
步骤3.3:存储训练结果,保存当前训练后的优化模型,该模型为训练好的Actor,Critic两个网络的参数结构。
步骤四:在线排序过程
使用已经训练好的模型,对订单序列进行重排序调度,该模块为本发明的具体实施和使用模块,可输出经过重排序的包含返工订单二次喷涂的涂装车间喷涂序列和漆后合格订单序列。
步骤4.1:读取待排序订单序列;
步骤4.2:加载已保存的重排序优化模型;
步骤4.3:通过优化模型获取每次喷涂的订单,具体步骤如下:
1、向Actor网络输入初始状态,获取输出的动作空间概率分布;
2、根据动作空间的概率分布,获取当前状态下采取的动作u,即进入喷涂区进行喷涂的订单类型;
3、选择喷涂的订单后,根据步骤3.1刷新涂装环境中的各序列和集合,将喷涂订单加入Painted喷涂序列中,将质检合格的漆后车身加入漆后合格序列Qualified中;
4、状态转移,获取当前动作的即时奖励;
5、直到全部订单喷涂完毕后结束。
步骤4.4:将Painted和Qualified序列以数据表的形式输出,获取重排序后的包含返工订单二次喷涂的实际喷涂序列和漆后合格序列。
本发明的有益效果:
1)该算法在对涂装车间订单序列重排序时考虑了下游总装需求车间的序列需求,在降低涂装车间颜色切换次数的同时,降低了重排序序列与总装需求序列的非一致性,实现了在降低涂装车间的生产成本同时降低总装需求延误,保证订单的按时交付和生产的稳定,更加满足实际汽车制造系统的需要;
2)该算法考虑了涂装车间中由于严重质量缺陷导致的返工修补情况,能够根据涂装车间实时生产情况,动态调整后续喷涂计划,同时考虑对已返工车身的二次喷涂,有效解决实际生产中出现的动态扰动现象;
3)本发明中采用的深度强化学习方法是一种“离线-在线”相结合的优化方法,它可以做到训练与排序过程的分离,即离线训练历史订单数据获取优化模型,在线使用训练后的优化模型进行涂装车间订单集合的实时排序,相比传统基于规则的算法和启发式算法更加灵活,更加适于刻画涂装车间中的序列的实时变化,其训练与排序分离的特性大大降低了排序时间,使得排序效率大幅提升。
附图说明
图1是算法整体运行逻辑图。
图2是算法训练流程图。
图3是涂装交互环境刷新流程图。
图4是算法排序流程图。
图5是离线训练程序执行流程图。
图6是在线排序程序执行流程图。
具体实施方式
以下举例说明本发明的具体实施方法。
如图1所示的算法整体运行逻辑流程图,具体应用本算法实现汽车涂装车间中的订单重排序主要分为以下三个步骤。
步骤1:确定需要进行训练的订单序列,将该序列以数据表“.csv”的格式存储,同时该表中的每个订单需要包含颜色(color)和车身类型(model)两个属性。根据涂装车间的实际生产情况确定训练中所需的所有涂装环境和训练参数并以数据表“.csv”的格式存储,本例中包括:PBS缓冲区容量(buffer_size=40),最大颜色批量(color_batch_max=20),总装需求序列偏差子目标权重(delay_weight=0.5),颜色切换次数子目标权重(cc_weight=0.5),返工率(rework_rate=0.15),最短返工加工时间(low_rework_time=10),最长返工加工时间(high_rework_time=20),算法学习率(lr=0.005),算法衰减率(gamma=0.95),训练迭代次数(maxepisode=600)。
步骤2:本例选用Python语言实现算法,通过train.py,network.py和env_rework.py三个Python脚本程序实现本算法的训练过程,具体程序执行流程见图5所示。
首先,读取程序读取订单数据表,实例化涂装车间环境类Paint得到env环境对象,根据涂装交互环境构建模块使用订单数据和参数初始化环境变量和状态;
然后,根据Actor-Critic算法实现模块确定算法中的神经网络结构和算法的状态空间,动作空间,奖励函数,实例化Actor和Critic神经网络得到actor和critic;
接着,根据当前的初始状态,选择动作,并在涂装环境中执行该动作获取该动作的奖励,进行状态更新,critic计算tderror以更新网络参数,不断重复进行状态转移,直到所有订单均已完成喷涂后重新初始化环境进行下一次的迭代;
最后,不断迭代直至迭代次数为maxepisode后结束,保存训练后的优化模型,即actor和critic。
步骤3:接着可以根据训练得到的优化模型进行排序,排序过程通过get_sequence.py,network.py和env_rework.py三个Python脚本程序实现,具体程序执行流程见图6所示。
首先,读取待排序订单数据表,实例化涂装车间环境类Paint得到env环境对象,根据涂装交互环境构建模块使用订单数据和参数初始化环境变量和状态;
然后,根据Actor-Critic算法实现模块确定算法中的神经网络结构和算法的状态空间,动作空间,奖励函数,实例化Actor神经网络得到actor;
接着,加载优化模型,更新actor网络参数,actor根据当前的初始状态,选择动作,并在涂装环境中执行该动作获取该动作的奖励,进行状态更新,不断重复进行状态转移,直到所有订单均已完成喷涂;
最后,将排序后的全局环境变量Painted和Qualified输出为数据表,得到最终的包含二次喷涂的实际喷涂序列和漆后序列。
本发明尚有多种具体的实施方式,凡采用本发明所述“基于深度强化学习的带返工汽车涂装重排序算法”等同替换、或者等效变换而形成的所有技术方案,均落在本发明要求保护的范围内。

Claims (1)

1.一种基于深度强化学习的带返工汽车涂装重排序方法,
在使用本算法进行重排序调度之前需要进行以下准备工作:
(1)按照指定格式以数据表的形式存储订单数据;订单数据包含一次排序所需的订单集合,每个订单包含车身颜色和车身类型两个属性;
(2)根据实际需求确定训练参数,并以数据表的形式存储参数,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;
其特征在于,该带返工汽车涂装重排序方法包括涂装交互环境构建模块、Actor-Critic算法实现模块、离线训练模块和在线排序模块;涂装交互环境构建模块包括订单数据导入、参数设置、涂装交互环境初始化;Actor-Critic算法实现模块包括数学模型构建、状态空间定义、动作空间定义、奖励函数定义、设计算法结构;离线训练模块根据实现的算法训练订单数据,获得重排序调度模型;在线排序模块可以根据订单集合离线训练后得到的模型进行实时在线排序;
带返工汽车涂装重排序方法包括如下步骤:
步骤一:涂装交互环境构建模块
读取数据文件,初始化涂装交互环境,参数,记录订单数据的各项信息;
步骤1.1:数据导入;读取订单序列文件,取出订单数据,将订单的属性车身颜色和车身类型按照对应关系存入表示订单的列表中;列表中的每一项元素表示一个订单,每个订单为包含车身颜色和车身类型的二元列表,遍历整个订单列表获取该订单的全部数据,包括车身颜色集合和车身类型集合,订单列表中的各订单顺序与原数据文件中的订单顺序一致;记录所需订单信息:
(1.1.1)根据订单列表将订单列表中的车身颜色集合、车身类型集合、订单类型集合进行整数编码,使用字典记录各属性与整数的对应关系;
(1.1.2)计算集合列表中各订单类型的数目,一个订单类型为一车身颜色和类型的组合,使用字典记录各订单类型与其数目的对应关系;
(1.1.3)将各类型订单在序列中的位置集合以列表存储,并用字典记录各类型订单与其位置集合的对应关系;
步骤1.2:参数设置;读取参数设置文件,取出参数,将参数存入参数列表中,保证算法在整个过程中均可调用参数;根据参数列表为涂装环境构建和算法训练参数中的全局变量赋值,包括训练次数、返工时间范围、返工率、子目标权重、缓冲区容量和最大颜色批量;
步骤1.3:初始化算法涂装交互环境,通过初始化全局环境变量来构建涂装交互环境,用以深度强化学习算法的交互和训练;涂装交互环境的全局变量包含:(1)Wbs,表示当前WBS中未进入喷涂车间的订单集合,记录当前各订单类型的剩余数量;(2)Painted,表示当前涂装序列,记录进入涂装车间的订单类型序列,其中也包括二次喷涂的车身;(3)Qualified,表示进入PBS的漆后合格序列;(4)Reworking,表示返工区的车身集合,返工结束后对应订单离开该序列;(5)Reworked,表示已经结束返工的车身集合,记录当前各订单类型中存在的已返工订单数目;(6)Location,表示未进入漆后合格序列Qualified中的各类型订单在总装需求序列中的位置集合;(7)T,记录当前时刻,初始为0;(8)Buffer,PBS中当前存在的漆后车身集合;
步骤二:Actor-Critic算法实现模块
构建数学模型,为深度强化学习算法定义状态空间、动作空间、奖励函数和设计算法结构;
步骤2.1:数学模型建立;根据订单数据和参数建立考虑返工的汽车涂装重排序调度问题的数学模型,确定目标函数和约束条件;其中,Ψ为子目标Φ颜色切换次数子目标和X总装需求偏差子目标的加权之和,ω1和ω2分别为两个子目标的权重,总目标为最小化子目标加权之和;根据步骤一中的订单数据导入,共有N个订单,c个车身颜色,m个车身类型;
Figure FDA0003065511640000031
为0-1决策变量,若第n个订单颜色为i则取值1,否则取值0;
Figure FDA0003065511640000032
为0-1决策变量,若第n个订单车身类型为j则取值1,否则取值0;Ni,j为车身颜色为i,车身类型为j的订单数量;k为返工订单的返工序号,
Figure FDA0003065511640000033
为0-1变量,在t时刻,若订单n发生返工,则取值1,否则取值0,该订单为返工序列中的第k个返工订单,Nr为返工订单数量;
Figure FDA0003065511640000034
为0-1变量,第k个返工订单n二次喷涂颜色为i则取值1,否则取值0;
Figure FDA0003065511640000035
为0-1变量,第k个返工订单n车身类型为j则取值1,否则取值0;BS(t)、PS(t)、CS(t)、RS(t)和QS(t)表示t时刻WBS缓冲区、喷涂区、质检区、返工区和PBS缓冲区中的订单集合,B为初始订单集合;b为当前喷涂区颜色批次,Bp为喷涂区颜色批量上限;l为当前漆后缓冲区中车身数量,Ls为漆后缓冲区容量;
该数学模型的目标函数为最小化颜色切换次数和总装需求偏差两子目标的加权目标之和,约束为:(1)重排序后每个订单只能喷涂一种颜色;(2)重排序后每个订单只属于一种车型;(3)排序前后订单总数不变;(4)重排序后具有相同颜色和车身类型的订单数目不变;(5)订单在整个过程中只能进行一次返工;(6)车身经过返工后进行二次喷涂时的颜色和车身类型与第一次喷涂时相同;(7)整个重排序过程中的任意时刻,WBS,喷涂区,质检区,返工区,PBS中的订单集合之和为初始订单集合,全部订单集合没有发生变化;(8)每种颜色连续喷涂的次数不超过颜色喷涂批量的上限;(9)缓冲区中的车身数量不超过缓冲区最大容量;(10)各子目标的权重在[0,1]之间,且和为1;
minΨ=ω1Φ+ω2X
Figure FDA0003065511640000041
Figure FDA0003065511640000042
Figure FDA0003065511640000043
Figure FDA0003065511640000044
Figure FDA0003065511640000045
Figure FDA0003065511640000046
Figure FDA0003065511640000047
Figure FDA0003065511640000048
Figure FDA0003065511640000049
0≤b≤Bp
l≤Ls
0≤ω1≤1,0≤ω2≤1,ω12=1
步骤2.2:定义状态空间;状态空间为一个三元组,S=<f1,f2,f3>;各元素如下:
(2.2.1)f1:标识当前正在喷涂的颜色,
Figure FDA00030655116400000410
采用onehot编码,如果当前正在喷涂的颜色为i,那么
Figure FDA00030655116400000411
否则
Figure FDA00030655116400000412
且满足
Figure FDA00030655116400000413
(2.2.2)f2:标识当前各订单类型相对于总装需求序列的偏差程度,f2=(d1,d2,…,dc×m);若当前订单进入漆后合格序列中的位置为pq
Figure FDA00030655116400000414
为订单类型为u的订单在总装需求序列中的最近位置,则订单类型u与总装需求序列的偏差
Figure FDA0003065511640000051
du表示订单类型u的偏差比例,|du|越大,表示偏差越大,du>0,说明订单会发生延误,du≤0说明订单未发生延误;当订单集合中没有订单类型为u的订单时,du=0;
(2.2.3)f3:当前喷涂的颜色批量比例;
Figure FDA0003065511640000052
其中B为当前颜色连续喷涂的次数,即该颜色的实时批量,Bp为颜色批量上限;
步骤2.3:定义动作空间;动作空间为当前可进入喷涂区进行喷涂的订单类型,动作空间定义为:A={[i,j]|1≤i≤c,1≤j≤m},并对动作空间进行整数编码,每一个动作用整数标识,即A={au|1≤u≤c×m};
步骤2.4:定义奖励函数;奖励函数能正确表示涂装交互环境对动作选择的反馈,应该与数学模型中的目标函数和约束有关,满足目标时给予正向的奖励,不满足目标或超出约束限制时给予惩罚;选择动作au的奖励函数Rs(au)包括三部分,将其加权可得Rs(au)=ω1*R12*R2+β*R3,其中ω1,ω2为子目标权重;奖励函数的各部分如下:
(2.4.1)R1:动作au选择的颜色与上一个车身喷涂的颜色是否相同,其中ccmax为订单序列的最大颜色切换次数;
Figure FDA0003065511640000053
(2.4.2)R2:动作au对应的订单类型u与总装需求的延误程度,使用SD计算,其中SDmax为订单序列的最大总装需求偏差;
Figure FDA0003065511640000054
(2.4.3)R3:动作au的实时颜色批量是否超过颜色批量上限,其中Bu为当前动作au下的实时颜色批量;
Figure FDA0003065511640000061
步骤2.5:设计Actor-Critic算法结构
Actor-Critic算法由Actor实现策略函数,Critic实现价值函数,并使用两个神经网络π(θ)和V(ω)来逼近策略函数和价值函数,其中θ和ω为神经网络的参数;各神经网络结构如下:
(2.5.1)Actor神经网络输入为状态s,输出为该状态下的动作概率分布,即选择各个动作的概率P(au|s);输入状态s=<f1,f2,f3>,因此输入层神经元个数为状态维度states_size=|f1|+|f2|+|f3|=c+c×m+1;中间设有两个隐藏层,每层中设有神经元个数为Hidden=40;输出层为每个动作的概率,因此输出层神经元个数为动作维度action_size=c×m;Actor输出的是概率,要求输出的范围在0-1之间,且对于正负数需要具有对称性,因此激活函数使用Sigmoid函数;
(2.5.2)Critic神经网络输入为状态s,输出为该状态下的状态价值Vω(s);输入神经元的个数为状态维度state_size=|f1|+|f2|+|f3|=c+c×m+1;输出状态价值故输出神经元个数为1;中间设有两个隐藏层,每层中设有神经元个数为Hidden=40;Critic的输出为价值,为了使神经网络尽快收敛,激活函数使用Relu函数;
步骤三:离线训练模块
步骤3.1:在涂装交互环境构建和算法实现后,开始通过订单序列训练模型更新模型参数;具体过程如下:
(3.1.1)定义和输入算法中的各项参数,包括迭代次数maxepisode,学习率lr,折扣率γ;
(3.1.2)加载本次需要重排序的待排序订单序列,获取状态维度state_size和动作维度action_size;
(3.1.3)创建Actor和Critic,并初始化两个神经网络的参数θ和ω;
(3.1.4)开始本回合的迭代,初始化环境,初始化状态s;
(3.1.5)Actor根据当前状态s,得到状态转移策略πθ(s),根据该策略选择动作a,动作a对应的订单类型作为本次进入喷涂车间进行喷涂的订单类型;
(3.1.6)刷新环境变量,刷新环境变量的具体过程如下:
1)时刻T=T+1;
2)Wbs对应的订单类型u对应的剩余数目减1,Wbs[u]=Wbs[u]-1;
3)若当前时刻存在已完成返工的订单,那么该订单类型ur,Wbs[ur]=Wbs[ur]+1,并从返工订单集合Reworking中离开,记录未进行二次喷涂的返工订单类型的数目更新,Reworked[ur]=Reworked[ur]+1;
4)优先选择Reworked中的类型u的订单进入Painted中;
5)若该订单为已经过返工的订单,则直接进入漆后合格序列Qualified中;
6)若该订单未经过返工,则进入质检区进行检查,若合格则进入漆后合格序列Qualified中,否则进入返工集合Reworking中;
7)更新当前各订单类型中未进入漆后合格序列的车身在总装需求序列的位置集合Location,更新buffer;
8)根据当前刷新的环境,状态转移至下一状态s′;
(3.1.7)给出反馈,即时奖励r,将(s,a,r,s′)传递给Critic,记录本次即时奖励r,并更新当前状态s=s′;
(3.1.8)Critic输入s和s′,得到状态价值Vω(s)和Vω(s′);
(3.1.9)使用均方差计算Critic的损失函数LossCritic(ω)=E[(Vω(s′)-Vω(s))2],并更新Critic参数ω;
(3.1.10)计算TDerror=r+γVω(s′)-Vω(s),并传递给Actor;
(3.1.11)计算Actor的损失函数LossActor(θ)=-TDerror*logPθ(a|s),并更新Actor参数θ;
(3.1.12)如果本回合结束,记录本回合排序结果的颜色切换次数cc,总装需求延误delay,加权目标值result,缓冲区最大占用buffer,累积奖励reward,迭代次数加1,episode=episode+1,转至步骤(3.1.13),否则转至步骤(3.1.5);
(3.1.13)如果当前为最大迭代次数,episode=maxepisode,转至步骤(3.1.14),否则转至步骤(3.1.3);
(3.1.14)训练完成,获得优化模型;
步骤3.2:将每回合中记录的颜色切换次数cc,总装需求延误delay,加权目标值result,缓冲区最大占用buffer,累积奖励reward输出为数据表;
步骤3.3:存储训练结果,保存当前训练后的优化模型,该模型为训练好的Actor,Critic两个网络的参数结构;
步骤四:在线排序模块
使用已经训练好的模型,对订单序列进行重排序调度,该模块为本方法的具体实施和使用模块,可输出经过重排序的包含返工订单二次喷涂的涂装车间喷涂序列和漆后合格订单序列;
步骤4.1:读取待排序订单序列;
步骤4.2:加载已保存的重排序优化模型;
步骤4.3:通过优化模型获取每次喷涂的订单,具体步骤如下:
(4.3.1)向Actor网络输入初始状态,获取输出的动作空间概率分布;
(4.3.2)根据动作空间的概率分布,获取当前状态下采取的动作u,即进入喷涂区进行喷涂的订单类型;
(4.3.3)选择喷涂的订单后,根据步骤3.1刷新涂装环境中的各序列和集合,将喷涂订单加入Painted喷涂序列中,将质检合格的漆后车身加入漆后合格序列Qualified中;
(4.3.4)状态转移,获取当前动作的即时奖励;
(4.3.5)直到全部订单喷涂完毕后结束;
步骤4.4:将Painted和Qualified序列以数据表的形式输出,获取重排序后的包含返工订单二次喷涂的实际喷涂序列和漆后合格序列。
CN202110525130.7A 2021-05-14 2021-05-14 基于深度强化学习的带返工汽车涂装重排序方法 Active CN113139747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525130.7A CN113139747B (zh) 2021-05-14 2021-05-14 基于深度强化学习的带返工汽车涂装重排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525130.7A CN113139747B (zh) 2021-05-14 2021-05-14 基于深度强化学习的带返工汽车涂装重排序方法

Publications (2)

Publication Number Publication Date
CN113139747A true CN113139747A (zh) 2021-07-20
CN113139747B CN113139747B (zh) 2024-08-09

Family

ID=76817719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525130.7A Active CN113139747B (zh) 2021-05-14 2021-05-14 基于深度强化学习的带返工汽车涂装重排序方法

Country Status (1)

Country Link
CN (1) CN113139747B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743784A (zh) * 2021-09-06 2021-12-03 山东大学 一种基于深度强化学习的生产时序表智能生成方法
CN115204665A (zh) * 2022-07-13 2022-10-18 盐城工学院 汽车涂装缓冲区的车辆调度管理系统及方法
CN118409552A (zh) * 2024-06-28 2024-07-30 绵阳新启科技有限公司 一种水性涂料生产用预测控制系统及方法
CN118586685A (zh) * 2024-08-06 2024-09-03 中国汽车工业工程有限公司 汽车厂订单解耦合生产方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188523A1 (en) * 2016-05-09 2019-06-20 Uesse S.R.L. Process and System for Computing the Cost of Usable and Consumable Materials for Painting of Motor Vehicles, From Analysis of Deformations in Motor Vehicles
CN110378579A (zh) * 2019-07-03 2019-10-25 东南大学 用于汽车涂装车间的按色分批方法
CN111724001A (zh) * 2020-06-29 2020-09-29 重庆大学 一种基于深度强化学习的飞行器探测传感器资源调度方法
CN112633772A (zh) * 2021-01-05 2021-04-09 东华大学 一种纺织面料染色车间多智能体深度强化学习调度方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190188523A1 (en) * 2016-05-09 2019-06-20 Uesse S.R.L. Process and System for Computing the Cost of Usable and Consumable Materials for Painting of Motor Vehicles, From Analysis of Deformations in Motor Vehicles
CN110378579A (zh) * 2019-07-03 2019-10-25 东南大学 用于汽车涂装车间的按色分批方法
CN111724001A (zh) * 2020-06-29 2020-09-29 重庆大学 一种基于深度强化学习的飞行器探测传感器资源调度方法
CN112633772A (zh) * 2021-01-05 2021-04-09 东华大学 一种纺织面料染色车间多智能体深度强化学习调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
漆星,张倩: "《Actor-Critic 框架下的数据驱动异步电机离线参数辨识方法》", 《电工技术学报》, vol. 34, no. 9, 10 May 2019 (2019-05-10), pages 1875 - 1885 *
金淳等: "《汽车零部件第三方物流仓储需求量集成预测模型》", 《系统管理学报》, vol. 27, no. 6, 12 December 2018 (2018-12-12), pages 1157 - 1165 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743784A (zh) * 2021-09-06 2021-12-03 山东大学 一种基于深度强化学习的生产时序表智能生成方法
CN115204665A (zh) * 2022-07-13 2022-10-18 盐城工学院 汽车涂装缓冲区的车辆调度管理系统及方法
CN115204665B (zh) * 2022-07-13 2023-04-07 盐城工学院 汽车涂装缓冲区的车辆调度管理系统及方法
CN118409552A (zh) * 2024-06-28 2024-07-30 绵阳新启科技有限公司 一种水性涂料生产用预测控制系统及方法
CN118586685A (zh) * 2024-08-06 2024-09-03 中国汽车工业工程有限公司 汽车厂订单解耦合生产方法

Also Published As

Publication number Publication date
CN113139747B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
CN113139747A (zh) 基于深度强化学习的带返工汽车涂装重排序方法
Stricker et al. Reinforcement learning for adaptive order dispatching in the semiconductor industry
Kim et al. Multi-agent system and reinforcement learning approach for distributed intelligence in a flexible smart manufacturing system
Wang et al. Learning scheduling policies for multi-robot coordination with graph attention networks
Lang et al. Integration of deep reinforcement learning and discrete-event simulation for real-time scheduling of a flexible job shop production
CN111985672B (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN104635772B (zh) 一种制造系统自适应动态调度方法
CN114565247B (zh) 一种基于深度强化学习的车间调度方法、装置和系统
CN111199272A (zh) 一种面向智能车间的自适应调度方法
CN117474295B (zh) 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法
CN117196169A (zh) 一种基于深度强化学习的机位调度方法
CN118246607B (zh) 一种基于动态任务图建模的机位分配方法
CN113506048A (zh) 一种柔性作业车间的调度方法
Yang et al. Real-time and concurrent optimization of scheduling and reconfiguration for dynamic reconfigurable flow shop using deep reinforcement learning
Didden et al. Decentralized learning multi-agent system for online machine shop scheduling problem
Chen et al. A bi-criteria nonlinear fluctuation smoothing rule incorporating the SOM–FBPN remaining cycle time estimator for scheduling a wafer fab—a simulation study
Chen Estimating job cycle time in a wafer fabrication factory: A novel and effective approach based on post-classification
Kashfi et al. A model for selecting suitable dispatching rule in FMS based on fuzzy multi attribute group decision making
CN116738239B (zh) 模型训练方法、资源调度方法及装置、系统、设备及介质
CN117808246A (zh) 柔性作业车间调度方法、装置及系统
CN117557016A (zh) 一种基于深度强化学习的整车制造冲压资源调度方法
CN115983599A (zh) 一种集成深度强化学习和多智能体的流水车间动态调度方法
CN112836846B (zh) 一种卷烟发货多库点多方向联运调度双层优化算法
Zhang et al. Permutation flow shop scheduling optimization method based on cooperative games
CN117973811B (zh) 一种基于深度强化学习的生产调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant