CN112631216B - 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 - Google Patents
一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 Download PDFInfo
- Publication number
- CN112631216B CN112631216B CN202011439981.1A CN202011439981A CN112631216B CN 112631216 B CN112631216 B CN 112631216B CN 202011439981 A CN202011439981 A CN 202011439981A CN 112631216 B CN112631216 B CN 112631216B
- Authority
- CN
- China
- Prior art keywords
- dnn
- dqn
- prediction control
- production line
- production
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 93
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 45
- 238000012360 testing method Methods 0.000 title claims abstract description 41
- 239000004065 semiconductor Substances 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 32
- 238000004806 packaging method and process Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000010276 construction Methods 0.000 claims abstract description 20
- 230000002787 reinforcement Effects 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 53
- 238000009826 distribution Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 230000008901 benefit Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000005728 strengthening Methods 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000003306 harvesting Methods 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32339—Object oriented modeling, design, analysis, implementation, simulation language
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Factory Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统,包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分,其中,所述建立测试封装生产线模型包括:步骤1:建立生产线系统性能常用指标;步骤2:建立半导体芯片测试封装生产线模型;步骤3:计算性能指标,所述基于DQN和DNN算法进行性能预测控制包括:步骤1:DNN孪生深度神经网络特征提取;步骤2:DQN深度强化学习训练;步骤3:进行性能预测控制。本发明综合半导体生产封装测试线的性能预测指标构建后,基于DNN孪生DQN方法来进行特征构建和强化网络性能预测控制,直到状态趋于稳定,则此时的输出变量为指标,从而设置阈值进行相应的控制。
Description
技术领域
本发明涉及半导体测试技术领域,特别是涉及一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统。
背景技术
半导体制造系统的产品多为集成电路芯片,是一种十分复杂的离散制造系统,其制造过程通常需要使用上百台设备,完成几百道加工工序。晶圆制造为主的前道工序和以封装测试为主的后道工序。
在制造系统中需要考虑产品的物理属性,比如尺寸大小或重量、产品质量、温度、硬度、运行时间、机器停工/修复时间等,其可分为随机和确定因素。将结合半导体封装测试生产线的具体情况进行具体分析和建模。排队系统的输入总体组成可能为无限或有限,可能单个串联输入或者成批输入,输入到达的间隔时间可能是确定或者随机。输入到达相互独立,输入过程平稳,相继到达的时间分布和所含参数与时间无关。排队规则分为先到先服务,后到先服务,随机服务和有优先权的服务。队列数量分为单列和多列,各队列之间不能互相转移,也不能中途退出。从机构形式和工作情况来说分为一个或多个服务员按照不同的场景进行组合。服务时间分为确定型和随机型。
由于半导体制造生产线工艺如此复杂,同时又存在着多种其他的变动性因素,因而对生产率、生产周期、在制品水平这些性能指标进行计算、预测和评估的工作难度更加巨大。
发明内容
本发明将对变动性因素进行量化研究,并分析其与生产线性能指标之间的关系和近似计算方式,给出合理的生产线性能评估指标,逐步建立半导体封装测试生产线性能预测与控制模型。
本发明涉及排队系统理论,主要模拟仿真工站的布局,如串并联结构,产品的到达过程和到达规则,工站的加工规则和加工时间类型、产品的排队规则和缓冲区容量大小等,以此来研究保证系统合理运行的方法和理论。
为实现上述目的,本发明提供的技术方案如下:包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分:
一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统,其特征在于,包括建立测试封装生产线模型与基于DQN即值函数网路,和DNN算法即深度神经网络进行性能预测控制两个部分,其中,所述建立测试封装生产线模型包括:步骤1:建立生产线系统性能常用指标;步骤2:建立半导体芯片测试封装生产线模型;步骤4:计算性能指标,所述基于DQN即值函数网路和DNN算法即深度神经网络进行性能预测控制包括:步骤1:DNN算法即深度神经网络;步骤2:DQN即深度强化学习算法;步骤3:进行性能预测控制。
所述建立测试封装生产线模型具体步骤包括:
步骤1:建立生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;所述生产周期CT为加工时间,计算公式如下:
CT=CTq+te
说明:产品驻留各个工站的平均时间CT包含两个部分:驻留在队列中的平均时间CTq,即排队时间,以及有效加工时间te;
所述产出TH,定义为单位时间内合格产品或者部件的平均生产量,每个工站的产出为经过它的所有产品的产出之和;
所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量,产出为一个生产过程在单位时间内的平均产量,在制品水平WIP计算如下:
WIP=CT×TH
说明:WIP:制品水平、CT:生产周期、TH:产出;
排队规则分为先来先服务FCFS、最短加工时间SPT或者最早交货EDD;
步骤2:建立半导体芯片测试封装生产线模型
N个工站并行进入,送入下一个设备工作流,并且并行进入下一个工作站,最后多个工作站作为输出;
说明:排队规则为先来先服务,半导体芯片生产线由若干个工站串并联组成,产品在若干个工站前并联成批,然后顺序在后续并联的工站中进行加工处理,合格的工件继续移动,不合格的则舍弃。基于G/G/m排队论模型,建立半导体封装测试生产线仿真模型:
G/G/m模型遵循先来先服务原则,工件到达时间间隔服从指数分布,G表示一般分布,其表示到达间隔时间G服从一般分布,本发明结合均匀分布和正态分布,服务时间服从指数分布,m表示有m个服务台;工站加工时间极少服从指数分布,因此选用更加符合现实情况的正态分布或者均匀分布,
CTq(G/G/m)=V×CTq(M/M/m)
说明:ca为工件达到时间变动性;有效加工时间变动性ce;M/M/m,分别为到达间隔时间分布,服务时间分布,服务机构中服务台的个数;u为负指数分布的参数。
agent和环境之间相互通信,Agent向环境发送Action,环境向Agent发送状态转换信息。
S:状态空间
A:动作空间
Psa:动作空间为状态空间转移概率
r:打折系数
R:收获函数
强化学习的目标是找到最佳状态变换,使得收获R(τ)最大,以此寻找最好的策略:π*,收获函数定义如下:
Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为下一个状态,a′为下一个状态空间的动作空间。
DQN针对离散变量的学习方法,通过深度神经网络近似Q*(s,a),Q*(s′,a′)为下一个时刻的动作价值最优值。
步骤3:计算性能指标
计算生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;
所述生产周期CT为加工时间,计算公式如下:
CT=CTq+te
说明:产品驻留各个工站的平均时间CT包含两个部分:驻留在队列中的平均时间CTq,即排队时间,以及有效加工时间te;
所述产出TH,定义为单位时间内合格产品或者部件的平均生产量,每个工站的产出为经过它的所有产品的产出之和;
所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量,产出为一个生产过程在单位时间内的平均产量,在制品水平WIP计算如下:
WIP=CT×TH
说明:WIP:制品水平、CT:生产周期、TH:产出;
所述基于DQN和DNN算法进行性能预测控制具体步骤包括:
步骤1:DNN深度学习前馈神经网络结合反向更新权重,经过训练迭代得到最终结果,DNN深度神经网络能够获得更有效的特征向量,其步骤如下:
步骤1.1:输入状态向量:s1,s2,s3…,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化,输入为状态S1-S10,输出分别为BF/C。
步骤1.2:分别送入DNN网络进行实际特征构建和预测特征构建,分别得到Q*(s,a)和Q*(s′,a′)。
步骤2:DQN:DQN是将深度学习与强化学习相结合,当Q-table他过于庞大无法建立时使用DQN是一种很好的选择。DQN是基于值迭代的算法,把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。相比于传统的DQN网络其采用完全相同的网络结构,DQN-DNN结合不同的DNN网络结构进行特征提取。其步骤如下:
步骤2.1:经过DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数。Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为上一个状态,a′为上一个状态空间的动作空间。
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
步骤3:循环更新输入,利用
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值。
步骤3:进行性能预测控制。
所述基于DQN和DNN算法进行性能预测控制具体步骤3中,进行性能预测控制还包含以下步骤:
步骤1:输入状态向量:s1,s2,s3…,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化。
步骤2:送入DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数。
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
步骤3:循环更新输入,利用下式计算损失函数:
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值。
步骤4:直到达到迭代终止条件。
说明:s1,s2,s3....,s10为输入状态向量,Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为上一个状态,a′为上一个状态空间的动作空间。
DQN针对离散变量的学习方法,通过深度神经网络近似Q*(s,a),Q*(s′,a′)为上一个时刻的动作价值最优值。
所述基于DQN和DNN算法进行性能预测控制部分中,强化学习方法基于是否可以获得环境模型可分为基于模型的方法和不使用模型的方法,DQN为无模型的方法。
所述基于DQN和DNN算法进行性能预测控制部分中,从当前状态s采取动作a达到下一个状态,收益表示为动作值函数Q(s,a),其更新公式如下:Q(s,a)=Q(s,a)+α(r+γQ(s,a)-Q(s,a)),根据输入环境以及迭代的次数,最终返回经过多次迭代的Q函数;深度Q学习网络DQN,通过神经网络来估计Q函数,Q*(s,a)。
所述基于DQN和DNN算法进行性能预测控制部分中,DQN解决高维状态输入,低维动作输出的问题,常用于图片等处理,将状态s作为输出,输出一系列的动作的Q值,即输出向量[Q(s,a1),Q(s,a2),Q(s,a3),...,Q(s,an),依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s,an)=w1*Q(s,a1CT)+w2*Q(s,a1WIP)+w3*Q(s,a1TH),w1,w2,w3=rand。
所述基于DQN和DNN算法进行性能预测控制部分中,按照生产效益指标Bf和环境综合打分C作为系统状态集S的划分依据,具体划分依据如下:
系统状态 | 划分依据 | 系统状态 | 划分依据 |
s1 | 0≤Bf≤0.1 | s2 | 0.1<Bf≤0.2 |
s3 | 0.2<Bf≤0.3 | s4 | 0.3<Bf≤0.4 |
s5 | 0.4<Bf≤05 | s6 | 0.5<Bf≤0.6 |
s7 | 0.6<Bf≤0.7 | s8 | 0.7<Bf≤0.8 |
s9 | 0.8<Bf≤0.9 | s10 | 0.9<Bf≤1.0 |
s11 | Bf≥1.0 |
本发明综合半导体生产封装测试线的性能预测指标构建后,基于DNN孪生DQN方法来进行特征构建和强化网络性能预测控制,直到状态趋于稳定,则此时的输出变量为指标,从而设置阈值进行相应的控制。
附图说明
图1为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的半导体生产测试线示意图;
图2为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的强化学习结构图;
图3为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的DNN深度神经网络结构图;
图4为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的DQN-DNN总体流程图。
具体实施方式
下面将结合附图和实施例对本发明进行进一步的描述,但并不以此作为对本申请保护范围的限定。
一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统,其特征在于,包括建立测试封装生产线模型与基于DQN即值函数网路,和DNN算法即深度神经网络进行性能预测控制两个部分,其中,所述建立测试封装生产线模型包括:步骤1:建立生产线系统性能常用指标;步骤2:建立半导体芯片测试封装生产线模型;步骤4:计算性能指标,所述基于DQN即值函数网路和DNN算法即深度神经网络进行性能预测控制包括:步骤1:DNN算法即深度神经网络;步骤2:DQN即深度强化学习算法;步骤3:进行性能预测控制。
所述建立测试封装生产线模型具体步骤包括:
步骤1:建立生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;所述生产周期CT为加工时间,计算公式如下:
CT=CTq+te
说明:产品驻留各个工站的平均时间CT包含两个部分:驻留在队列中的平均时间CTq,即排队时间,以及有效加工时间te;
所述产出TH,定义为单位时间内合格产品或者部件的平均生产量,每个工站的产出为经过它的所有产品的产出之和;
所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量,产出为一个生产过程在单位时间内的平均产量,在制品水平WIP计算如下:
WIP=CT×TH
说明:WIP:制品水平、CT:生产周期、TH:产出;
排队规则分为先来先服务FCFS、最短加工时间SPT或者最早交货EDD;
步骤2:建立半导体芯片测试封装生产线模型
如图1所示,N个工站并行进入,送入下一个设备工作流,并且并行进入下一个工作站,最后多个工作站作为输出;
说明:排队规则为先来先服务,半导体芯片生产线由若干个工站串并联组成,产品在若干个工站前并联成批,然后顺序在后续并联的工站中进行加工处理,合格的工件继续移动,不合格的则舍弃。基于G/G/m排队论模型,建立半导体封装测试生产线仿真模型:
G/G/m模型遵循先来先服务原则,工件到达时间间隔服从指数分布,G表示一般分布,其表示到达间隔时间G服从一般分布,本发明结合均匀分布和正态分布,服务时间服从指数分布,m表示有m个服务台;工站加工时间极少服从指数分布,因此选用更加符合现实情况的正态分布或者均匀分布,
CTq(G/G/m)=V×CTq(M/M/m)
说明:ca为工件达到时间变动性;有效加工时间变动性ce;M/M/m,分别为到达间隔时间分布,服务时间分布,服务机构中服务台的个数;u为负指数分布的参数。
如图2所示,agent和环境之间相互通信,Agent向环境发送Action,环境向Agent发送状态转换信息。
S:状态空间
A:动作空间
Psa:动作空间为状态空间转移概率
r:打折系数
R:收获函数
强化学习的目标是找到最佳状态变换,使得收获R(τ)最大,以此寻找最好的策略:π*,收获函数定义如下:
Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为下一个状态,a′为下一个状态空间的动作空间。
DQN针对离散变量的学习方法,通过深度神经网络近似Q*(s,a),Q*(s′,a′)为下一个时刻的动作价值最优值。
步骤3:计算性能指标
计算生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;
所述生产周期CT为加工时间,计算公式如下:
CT=CTq+te
说明:产品驻留各个工站的平均时间CT包含两个部分:驻留在队列中的平均时间CTq,即排队时间,以及有效加工时间te;
所述产出TH,定义为单位时间内合格产品或者部件的平均生产量,每个工站的产出为经过它的所有产品的产出之和;
所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量,产出为一个生产过程在单位时间内的平均产量,在制品水平WIP计算如下:
WIP=CT×TH
说明:WIP:制品水平、CT:生产周期、TH:产出;
所述基于DQN和DNN算法进行性能预测控制具体步骤包括:
步骤1:DNN深度学习前馈神经网络结合反向更新权重,经过训练迭代得到最终结果,DNN深度神经网络能够获得更有效的特征向量,其步骤如下,如图3所示,
输入为状态S1-S10,输出分别为BF/C。
步骤1.1:输入状态向量:s1,s2,s3…,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化。
步骤1.2:分别送入DNN网络进行实际特征构建和预测特征构建,分别得到Q*(s,a)和Q*(s′,a′)。
步骤2:DQN:DQN是将深度学习与强化学习相结合,当Q-table他过于庞大无法建立时使用DQN是一种很好的选择。DQN是基于值迭代的算法,把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。相比于传统的DQN网络其采用完全相同的网络结构,DQN-DNN结合不同的DNN网络结构进行特征提取。
如图4所示,其步骤如下:
步骤2.1:经过DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数。Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为上一个状态,a′为上一个状态空间的动作空间。
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
步骤3:循环更新输入,利用
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值。
步骤3:进行性能预测控制。
所述基于DQN和DNN算法进行性能预测控制具体步骤3中,进行性能预测控制还包含以下步骤:
步骤1:输入状态向量:s1,s2,s3…,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化。
步骤2:送入DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数。
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
步骤3:循环更新输入,利用下式计算损失函数:
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值。
步骤4:直到达到迭代终止条件。
说明:s1,s2,s3…,s10为输入状态向量,Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为上一个状态,a′为上一个状态空间的动作空间。
DQN针对离散变量的学习方法,通过深度神经网络近似Q*(s,a),Q*(s′,a′)为上一个时刻的动作价值最优值。
所述基于DQN和DNN算法进行性能预测控制部分中,强化学习方法基于是否可以获得环境模型可分为基于模型的方法和不使用模型的方法,DQN为无模型的方法。
所述基于DQN和DNN算法进行性能预测控制部分中,从当前状态s采取动作a达到下一个状态,收益表示为动作值函数Q(s,a),其更新公式如下:Q(s,a)=Q(s,a)+α(r+γQ(s',a')-Q(s,a)),根据输入环境以及迭代的次数,最终返回经过多次迭代的Q函数;深度Q学习网络DQN,通过神经网络来估计Q函数,Q*(s,a)。
所述基于DQN和DNN算法进行性能预测控制部分中,DQN解决高维状态输入,低维动作输出的问题,常用于图片等处理,将状态s作为输出,输出一系列的动作的Q值,即输出向量[Q(s,a1),Q(s,a2),Q(s,a3),…,Q(s,an),依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s,an)=w1*Q(s,a1CT)+w2*Q(s,a1WIP)+w3*Q(s,a1TH),w1,w2,w3=rand。
所述基于DQN和DNN算法进行性能预测控制部分中,按照生产效益指标Bf和环境综合打分C作为系统状态集S的划分依据,具体划分依据如下:
系统状态 | 划分依据 | 系统状态 | 划分依据 |
s1 | 0≤Bf≤0.1 | s2 | 0.1<Bf≤0.2 |
s3 | 0.2<Bf≤0.3 | s4 | 0.3<Bf≤0.4 |
s5 | 0.4<Bf≤05 | s6 | 0.5<Bf≤0.6 |
s7 | 0.6<Bf≤0.7 | s8 | 0.7<Bf≤0.8 |
s9 | 0.8<Bf≤0.9 | s10 | 0.9<Bf≤1.0 |
s11 | Bf≥1.0 |
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统,其特征在于,包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分,其中,所述建立测试封装生产线模型包括:步骤1-1:建立生产线系统性能常用指标;步骤1-2:建立半导体芯片测试封装生产线模型;步骤1-3:计算性能指标,所述基于DQN和DNN算法进行性能预测控制包括:步骤1:DNN算法即深度神经网络;步骤2:DQN即深度强化学习算法;步骤3:进行性能预测控制;所述建立测试封装生产线模型具体步骤包括:
步骤1-1:建立生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;
所述生产周期CT为加工时间,计算公式如下:
CT=CTq+te
说明:产品驻留各个工站的平均时间CT包含两个部分:驻留在队列中的平均时间CTq,即排队时间,以及有效加工时间te;
所述产出TH,定义为单位时间内合格产品或者部件的平均生产量,每个工站的产出为经过它的所有产品的产出之和;
所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量,产出为一个生产过程在单位时间内的平均产量,在制品水平WIP计算如下:
WIP=CT×TH
说明:WIP:制品水平、CT:生产周期、TH:产出;
步骤1-2:建立半导体芯片测试封装生产线模型;
N个工站并行进入,送入下一个设备工作流,并且并行进入下一个工作站,最后多个工作站作为输出;
说明:排队规则为先来先服务,半导体芯片生产线由若干个工站串并联组成,产品在若干个工站前并联成批,然后顺序在后续并联的工站中进行加工处理,合格的工件继续移动,不合格的则舍弃;基于G/G/m排队论模型,建立半导体封装测试生产线仿真模型:
G/G/m模型遵循先来先服务原则,工件到达时间间隔服从指数分布,G表示一般分布,其表示到达间隔时间G服从一般分布,本发明结合均匀分布和正态分布,服务时间服从指数分布,m表示有m个服务台;工站加工时间极少服从指数分布,因此选用更加符合现实情况的正态分布或者均匀分布,
CTq(G/G/m)=V×CTq(M/M/m)
说明:ca为工件达到时间变动性;有效加工时间变动性ce;M/M/m,分别为到达间隔时间分布,服务时间分布,服务机构中服务台的个数;u为负指数分布的参数;
步骤1-3:计算性能指标
计算生产线系统性能常用指标:生产周期CT、产出TH和在制品水平WIP;
所述基于DQN和DNN算法进行性能预测控制具体步骤包括:
步骤1:DNN深度神经网络能够获得更有效的特征向量,其步骤如下,
步骤1.1:输入状态向量:s1,s2,s3....,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化;输入为状态S1-S10,输出分别为BF/C;BF为生产效益指标,C为环境综合打分;
步骤1.2:分别送入DNN网络进行实际特征构建和预测特征构建,分别得到Q(s,a)和Q(s′,a′);
步骤2:其步骤如下:
步骤2.1:经过DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数;Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为下一个状态,a′为下一个状态空间的动作空间;
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
循环更新输入,利用
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值;
步骤3:进行性能预测控制;
包含以下步骤:
步骤3.1:输入状态向量:s1,s2,s3....,s10,初始化动作函数Q的相应权重,使用RAND进行初始化,初始化DNN的相应参数,用RAND进行初始化;
步骤3.2:送入DNN网络进行实际特征构建和预测特征构建,分别得到Qtarget(s′,a′,q1)和Qpredict(s,a,q1),q1为内部参数;
Q*(s,a)=Q*(s,a)+γ(Qtarget(s′,a′,q1)-Qpredict(s,a,q1))
Qtarget(s′,a′,q1)=r+γmaxa′Q(s′,a′,q1)
步骤3.3:循环更新输入,利用下式计算损失函数:
L=Qtarget(s′,a′,q1)-Qpredict(s,a,q1)反向更新参数,
分别为第j个中间层,第k个单元的权重和阈值;
步骤3.4:直到达到迭代终止条件;
说明:s1,s2,s3....,s10为输入状态向量,Q*(s,a)为在某时刻的动作价值最优值,s为状态空间的某个元素,a为动作空间的某个动作,s′为下一个状态,a′为下一个状态空间的动作空间;
所述基于DQN和DNN算法进行性能预测控制部分中,DQN为无模型的方法;所述基于DQN和DNN算法进行性能预测控制部分中,从当前状态s采取动作a达到下一个状态,收益表示为动作值函数Q(s,a),其更新公式如下:
Q(s,a)=Q(s,a)+α(r+γQ(s,a)-Q(s,a)),根据输入环境以及迭代的次数,最终返回经过多次迭代的Q函数;
所述基于DQN和DNN算法进行性能预测控制部分中,将状态s作为输入,输入一系列的动作的Q值,即输入向量[Q(s,a1),Q(s,a2),Q(s,a3),...,Q(s,an)],依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s,a1)=w1*Q(s,a1CT)+w2*Q(s,a1WIP)+w3*Q(s,a1TH),w1,w2,w3=rand。
2.根据权利要求1所述的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统,其特征在于,所述基于DQN和DNN算法进行性能预测控制部分中,按照生产效益指标Bf和环境综合打分C作为系统状态集S的划分依据,具体划分依据如下:
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011439981.1A CN112631216B (zh) | 2020-12-11 | 2020-12-11 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011439981.1A CN112631216B (zh) | 2020-12-11 | 2020-12-11 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112631216A CN112631216A (zh) | 2021-04-09 |
CN112631216B true CN112631216B (zh) | 2023-07-21 |
Family
ID=75309244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011439981.1A Active CN112631216B (zh) | 2020-12-11 | 2020-12-11 | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112631216B (zh) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3784907A (en) * | 1972-10-16 | 1974-01-08 | Ibm | Method of propagation delay testing a functional logic system |
JP2013196713A (ja) * | 2012-03-16 | 2013-09-30 | Fujitsu Semiconductor Ltd | 半導体装置の試験方法 |
CN103310285A (zh) * | 2013-06-17 | 2013-09-18 | 同济大学 | 可用于半导体生产线动态调度的性能预测方法 |
KR20150008707A (ko) * | 2013-07-15 | 2015-01-23 | 삼성전자주식회사 | 독출 데이터를 마스킹하는 메모리 장치 및 이의 테스트 방법 |
CN104751228B (zh) * | 2013-12-31 | 2018-04-27 | 科大讯飞股份有限公司 | 用于语音识别的深度神经网络的构建方法及系统 |
CN106779072A (zh) * | 2016-12-23 | 2017-05-31 | 深圳市唯特视科技有限公司 | 一种基于自举dqn的增强学习深度搜索方法 |
CN109508655B (zh) * | 2018-10-28 | 2023-04-25 | 北京化工大学 | 基于孪生网络的不完备训练集的sar目标识别方法 |
US10950508B2 (en) * | 2019-03-20 | 2021-03-16 | Samsung Electronics Co., Ltd. | Ion depth profile control method, ion implantation method and semiconductor device manufacturing method based on the control method, and ion implantation system adapting the control method |
CN110850720A (zh) * | 2019-11-26 | 2020-02-28 | 国网山东省电力公司电力科学研究院 | 一种基于dqn算法的区域自动发电动态控制方法 |
CN111857081B (zh) * | 2020-08-10 | 2023-05-05 | 电子科技大学 | 基于Q-learning强化学习的芯片封装测试生产线性能控制方法 |
-
2020
- 2020-12-11 CN CN202011439981.1A patent/CN112631216B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112631216A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qin et al. | An effective hybrid discrete grey wolf optimizer for the casting production scheduling problem with multi-objective and multi-constraint | |
TWI794157B (zh) | 自動多閾值特徵過濾方法及裝置 | |
CN103745273B (zh) | 一种半导体制造过程的多性能预测方法 | |
CN106527381B (zh) | 一种面向并行批处理机动态调度的快速评估方法 | |
CN107231436A (zh) | 一种进行业务调度的方法和装置 | |
CN113792924A (zh) | 一种基于Deep Q-network深度强化学习的单件作业车间调度方法 | |
CN106326984A (zh) | 用户意图识别方法和装置、自动应答系统 | |
CN112001526A (zh) | 一种基于优化小生境遗传算法的资源调度优化方法 | |
CN110264079A (zh) | 基于CNN算法和Lasso回归模型的热轧产品质量预测方法 | |
CN112650933A (zh) | 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法 | |
CN114881504B (zh) | 一种基于订单选择的电子精密件全自动柔性生产线调度方法 | |
CN115759552A (zh) | 一种基于多智能体架构的面向智慧工厂的实时调度方法 | |
CN109784570B (zh) | 基于信息物理融合系统的智慧车间柔性生产调度方法 | |
CN112631216B (zh) | 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统 | |
Min et al. | Development of a real-time multi-objective scheduler for a semiconductor fabrication system | |
CN107633309A (zh) | 一种复杂成形设备的维修策略确定方法及系统 | |
CN109034540B (zh) | 一种基于在制品工序流的机床序列编排动态预测方法 | |
Phan et al. | Efficiency enhancement of evolutionary neural architecture search via training-free initialization | |
CN117369378A (zh) | 基于蒙特卡洛树搜索算法的混流制造车间调度方法及系统 | |
CN108614417B (zh) | 一种非泊松工件流csps系统优化控制及仿真测试方法 | |
CN115826530A (zh) | 一种基于d3qn和遗传算法的作业车间分批调度方法 | |
Zhu et al. | Research on multi-robot scheduling algorithm in intelligent storage system | |
CN112731888B (zh) | 一种批量流混合流水车间调度问题的改进候鸟优化方法 | |
CN110175287B (zh) | 一种基于Flink的矩阵分解隐式反馈推荐方法和系统 | |
CN114205251A (zh) | 基于时空特征的交换机链路资源预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |