CN112631216B

CN112631216B - 一种基于dqn和dnn孪生神经网络算法的半导体测试封装生产线性能预测控制系统

Info

Publication number: CN112631216B
Application number: CN202011439981.1A
Authority: CN
Inventors: 黄晓莉; 何於; 林志铭; 张誉耀
Original assignee: Jiangsu Jingdu Semiconductor Technology Co ltd
Current assignee: Jiangsu Jingdu Semiconductor Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2023-07-21
Anticipated expiration: 2040-12-11
Also published as: CN112631216A

Abstract

本发明提供了一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统，包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分，其中，所述建立测试封装生产线模型包括：步骤1：建立生产线系统性能常用指标；步骤2：建立半导体芯片测试封装生产线模型；步骤3：计算性能指标，所述基于DQN和DNN算法进行性能预测控制包括：步骤1：DNN孪生深度神经网络特征提取；步骤2：DQN深度强化学习训练；步骤3：进行性能预测控制。本发明综合半导体生产封装测试线的性能预测指标构建后，基于DNN孪生DQN方法来进行特征构建和强化网络性能预测控制，直到状态趋于稳定，则此时的输出变量为指标，从而设置阈值进行相应的控制。

Description

一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统

技术领域

本发明涉及半导体测试技术领域，特别是涉及一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统。

背景技术

半导体制造系统的产品多为集成电路芯片，是一种十分复杂的离散制造系统，其制造过程通常需要使用上百台设备，完成几百道加工工序。晶圆制造为主的前道工序和以封装测试为主的后道工序。

在制造系统中需要考虑产品的物理属性，比如尺寸大小或重量、产品质量、温度、硬度、运行时间、机器停工/修复时间等，其可分为随机和确定因素。将结合半导体封装测试生产线的具体情况进行具体分析和建模。排队系统的输入总体组成可能为无限或有限，可能单个串联输入或者成批输入，输入到达的间隔时间可能是确定或者随机。输入到达相互独立，输入过程平稳，相继到达的时间分布和所含参数与时间无关。排队规则分为先到先服务，后到先服务，随机服务和有优先权的服务。队列数量分为单列和多列，各队列之间不能互相转移，也不能中途退出。从机构形式和工作情况来说分为一个或多个服务员按照不同的场景进行组合。服务时间分为确定型和随机型。

由于半导体制造生产线工艺如此复杂，同时又存在着多种其他的变动性因素，因而对生产率、生产周期、在制品水平这些性能指标进行计算、预测和评估的工作难度更加巨大。

发明内容

本发明将对变动性因素进行量化研究，并分析其与生产线性能指标之间的关系和近似计算方式，给出合理的生产线性能评估指标，逐步建立半导体封装测试生产线性能预测与控制模型。

本发明涉及排队系统理论，主要模拟仿真工站的布局，如串并联结构，产品的到达过程和到达规则，工站的加工规则和加工时间类型、产品的排队规则和缓冲区容量大小等，以此来研究保证系统合理运行的方法和理论。

为实现上述目的，本发明提供的技术方案如下：包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分：

一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统，其特征在于，包括建立测试封装生产线模型与基于DQN即值函数网路，和DNN算法即深度神经网络进行性能预测控制两个部分，其中，所述建立测试封装生产线模型包括：步骤1：建立生产线系统性能常用指标；步骤2：建立半导体芯片测试封装生产线模型；步骤4：计算性能指标，所述基于DQN即值函数网路和DNN算法即深度神经网络进行性能预测控制包括：步骤1：DNN算法即深度神经网络；步骤2：DQN即深度强化学习算法；步骤3：进行性能预测控制。

所述建立测试封装生产线模型具体步骤包括：

步骤1：建立生产线系统性能常用指标：生产周期CT、产出TH和在制品水平WIP；所述生产周期CT为加工时间，计算公式如下：

CT＝CT_q+t_e

说明：产品驻留各个工站的平均时间CT包含两个部分：驻留在队列中的平均时间CT_q，即排队时间，以及有效加工时间t_e；

所述产出TH，定义为单位时间内合格产品或者部件的平均生产量，每个工站的产出为经过它的所有产品的产出之和；

所述在制品水平WIP为在加工任务的起点和终点之间的全部库存量，产出为一个生产过程在单位时间内的平均产量，在制品水平WIP计算如下：

WIP＝CT×TH

说明：WIP：制品水平、CT：生产周期、TH：产出；

排队规则分为先来先服务FCFS、最短加工时间SPT或者最早交货EDD；

步骤2：建立半导体芯片测试封装生产线模型

N个工站并行进入，送入下一个设备工作流，并且并行进入下一个工作站，最后多个工作站作为输出；

说明：排队规则为先来先服务，半导体芯片生产线由若干个工站串并联组成，产品在若干个工站前并联成批，然后顺序在后续并联的工站中进行加工处理，合格的工件继续移动，不合格的则舍弃。基于G/G/m排队论模型，建立半导体封装测试生产线仿真模型：

G/G/m模型遵循先来先服务原则，工件到达时间间隔服从指数分布，G表示一般分布，其表示到达间隔时间G服从一般分布，本发明结合均匀分布和正态分布，服务时间服从指数分布，m表示有m个服务台；工站加工时间极少服从指数分布，因此选用更加符合现实情况的正态分布或者均匀分布，

CT_q(G/G/m)＝V×CT_q(M/M/m)

说明：c_a为工件达到时间变动性；有效加工时间变动性c_e；M/M/m，分别为到达间隔时间分布，服务时间分布，服务机构中服务台的个数；u为负指数分布的参数。

agent和环境之间相互通信，Agent向环境发送Action,环境向Agent发送状态转换信息。

S:状态空间

A:动作空间

P_sa:动作空间为状态空间转移概率

r：打折系数

R：收获函数

强化学习的目标是找到最佳状态变换，使得收获R(τ)最大，以此寻找最好的策略：π^*，收获函数定义如下：

Q^*(s,a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为下一个状态,a′为下一个状态空间的动作空间。

DQN针对离散变量的学习方法，通过深度神经网络近似Q^*(s,a)，Q^*(s′,a′)为下一个时刻的动作价值最优值。

步骤3：计算性能指标

计算生产线系统性能常用指标：生产周期CT、产出TH和在制品水平WIP；

所述生产周期CT为加工时间，计算公式如下：

CT＝CT_q+t_e

WIP＝CT×TH

说明：WIP：制品水平、CT：生产周期、TH：产出；

所述基于DQN和DNN算法进行性能预测控制具体步骤包括：

步骤1：DNN深度学习前馈神经网络结合反向更新权重，经过训练迭代得到最终结果，DNN深度神经网络能够获得更有效的特征向量，其步骤如下：

步骤1.1：输入状态向量：s1,s2,s3…,s10，初始化动作函数Q的相应权重，使用RAND进行初始化，初始化DNN的相应参数，用RAND进行初始化，输入为状态S1-S10,输出分别为BF/C。

步骤1.2：分别送入DNN网络进行实际特征构建和预测特征构建，分别得到Q^*(s,a)和Q^*(s′,a′)。

步骤2：DQN:DQN是将深度学习与强化学习相结合，当Q-table他过于庞大无法建立时使用DQN是一种很好的选择。DQN是基于值迭代的算法，把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。相比于传统的DQN网络其采用完全相同的网络结构，DQN-DNN结合不同的DNN网络结构进行特征提取。其步骤如下：

步骤2.1:经过DNN网络进行实际特征构建和预测特征构建，分别得到Q_target(s′,a′,q1)和Q_predict(s,a,q1),q1为内部参数。Q^*(s,a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为上一个状态,a′为上一个状态空间的动作空间。

Q^*(s,a)＝Q^*(s,a)+γ(Q_target(s′,a′,q1)-Q_predict(s,a,q1))

Q_target(s′,a′,q1)＝r+γmax_a′Q(s′,a′,q1)

步骤3：循环更新输入，利用

L＝Q_target(s′,a′,q1)-Q_predict(s,a,q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值。

步骤3：进行性能预测控制。

所述基于DQN和DNN算法进行性能预测控制具体步骤3中，进行性能预测控制还包含以下步骤：

步骤1：输入状态向量：s1,s2,s3…,s10，初始化动作函数Q的相应权重，使用RAND进行初始化，初始化DNN的相应参数，用RAND进行初始化。

步骤2：送入DNN网络进行实际特征构建和预测特征构建，分别得到Q_target(s′,a′,q1)和Q_predict(s,a,q1),q1为内部参数。

Q^*(s,a)＝Q^*(s,a)+γ(Q_target(s′,a′,q1)-Q_predict(s,a,q1))

Q_target(s′,a′,q1)＝r+γmax_a′Q(s′,a′,q1)

步骤3：循环更新输入，利用下式计算损失函数：

L＝Q_target(s′,a′,q1)-Q_predict(s,a,q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值。

步骤4：直到达到迭代终止条件。

说明：s1，s2，s3....，s10为输入状态向量，Q^*(s，a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为上一个状态，a′为上一个状态空间的动作空间。

DQN针对离散变量的学习方法，通过深度神经网络近似Q^*(s，a)，Q^*(s′，a′)为上一个时刻的动作价值最优值。

所述基于DQN和DNN算法进行性能预测控制部分中，强化学习方法基于是否可以获得环境模型可分为基于模型的方法和不使用模型的方法，DQN为无模型的方法。

所述基于DQN和DNN算法进行性能预测控制部分中，从当前状态s采取动作a达到下一个状态，收益表示为动作值函数Q(s，a)，其更新公式如下：Q(s，a)＝Q(s，a)+α(r+γQ(s，a)-Q(s，a))，根据输入环境以及迭代的次数，最终返回经过多次迭代的Q函数；深度Q学习网络DQN，通过神经网络来估计Q函数，Q^*(s，a)。

所述基于DQN和DNN算法进行性能预测控制部分中，DQN解决高维状态输入，低维动作输出的问题，常用于图片等处理，将状态s作为输出，输出一系列的动作的Q值，即输出向量[Q(s，a₁)，Q(s，a₂)，Q(s，a₃)，...，Q(s，a_n)，依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s，a_n)＝w1*Q(s，a_1CT)+w2*Q(s，a_1WIP)+w3*Q(s，a_1TH)，w1，w2，w3＝rand。

所述基于DQN和DNN算法进行性能预测控制部分中，按照生产效益指标Bf和环境综合打分C作为系统状态集S的划分依据，具体划分依据如下：

系统状态	划分依据	系统状态	划分依据
				s1	0≤Bf≤0.1	s2	0.1＜Bf≤0.2
s3	0.2＜Bf≤0.3	s4	0.3＜Bf≤0.4
				s5	0.4＜Bf≤05	s6	0.5＜Bf≤0.6
s7	0.6＜Bf≤0.7	s8	0.7＜Bf≤0.8
				s9	0.8＜Bf≤0.9	s10	0.9＜Bf≤1.0
s11	Bf≥1.0

本发明综合半导体生产封装测试线的性能预测指标构建后，基于DNN孪生DQN方法来进行特征构建和强化网络性能预测控制，直到状态趋于稳定，则此时的输出变量为指标，从而设置阈值进行相应的控制。

附图说明

图1为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的半导体生产测试线示意图；

图2为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的强化学习结构图；

图3为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的DNN深度神经网络结构图；

图4为本发明涉及的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制模型的DQN-DNN总体流程图。

具体实施方式

下面将结合附图和实施例对本发明进行进一步的描述，但并不以此作为对本申请保护范围的限定。

所述建立测试封装生产线模型具体步骤包括：

CT＝CT_q+t_e

WIP＝CT×TH

说明：WIP：制品水平、CT：生产周期、TH：产出；

步骤2：建立半导体芯片测试封装生产线模型

如图1所示，N个工站并行进入，送入下一个设备工作流，并且并行进入下一个工作站，最后多个工作站作为输出；

CT_q(G/G/m)＝V×CT_q(M/M/m)

如图2所示，agent和环境之间相互通信，Agent向环境发送Action,环境向Agent发送状态转换信息。

S:状态空间

A:动作空间

P_sa:动作空间为状态空间转移概率

r：打折系数

R：收获函数

步骤3：计算性能指标

所述生产周期CT为加工时间，计算公式如下：

CT＝CT_q+t_e

WIP＝CT×TH

说明：WIP：制品水平、CT：生产周期、TH：产出；

所述基于DQN和DNN算法进行性能预测控制具体步骤包括：

步骤1：DNN深度学习前馈神经网络结合反向更新权重，经过训练迭代得到最终结果，DNN深度神经网络能够获得更有效的特征向量，其步骤如下，如图3所示，

输入为状态S1-S10,输出分别为BF/C。

步骤1.1：输入状态向量：s1,s2,s3…,s10，初始化动作函数Q的相应权重，使用RAND进行初始化，初始化DNN的相应参数，用RAND进行初始化。

步骤2：DQN:DQN是将深度学习与强化学习相结合，当Q-table他过于庞大无法建立时使用DQN是一种很好的选择。DQN是基于值迭代的算法，把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。相比于传统的DQN网络其采用完全相同的网络结构，DQN-DNN结合不同的DNN网络结构进行特征提取。

如图4所示，其步骤如下：

Q^*(s,a)＝Q^*(s,a)+γ(Q_target(s′,a′,q1)-Q_predict(s,a,q1))

Q_target(s′,a′,q1)＝r+γmax_a′Q(s′,a′,q1)

步骤3：循环更新输入，利用

L＝Q_target(s′,a′,q1)-Q_predict(s,a,q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值。

步骤3：进行性能预测控制。

Q^*(s,a)＝Q^*(s,a)+γ(Q_target(s′,a′,q1)-Q_predict(s,a,q1))

Q_target(s′,a′,q1)＝r+γmax_a′Q(s′,a′,q1)

步骤3：循环更新输入，利用下式计算损失函数：

L＝Q_target(s′,a′,q1)-Q_predict(s,a,q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值。

步骤4：直到达到迭代终止条件。

说明：s1,s2,s3…,s10为输入状态向量，Q^*(s,a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为上一个状态,a′为上一个状态空间的动作空间。

DQN针对离散变量的学习方法，通过深度神经网络近似Q^*(s,a)，Q^*(s′,a′)为上一个时刻的动作价值最优值。

所述基于DQN和DNN算法进行性能预测控制部分中，从当前状态s采取动作a达到下一个状态，收益表示为动作值函数Q(s,a)，其更新公式如下：Q(s,a)＝Q(s,a)+α(r+γQ(s',a')-Q(s,a))，根据输入环境以及迭代的次数，最终返回经过多次迭代的Q函数；深度Q学习网络DQN，通过神经网络来估计Q函数，Q^*(s,a)。

所述基于DQN和DNN算法进行性能预测控制部分中，DQN解决高维状态输入，低维动作输出的问题，常用于图片等处理，将状态s作为输出，输出一系列的动作的Q值，即输出向量[Q(s,a₁),Q(s,a₂),Q(s,a₃),…,Q(s,a_n)，依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s,a_n)＝w1*Q(s,a_1CT)+w2*Q(s,a_1WIP)+w3*Q(s,a_1TH),w1,w2,w3＝rand。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统，其特征在于，包括建立测试封装生产线模型与基于DQN和DNN算法进行性能预测控制两个部分，其中，所述建立测试封装生产线模型包括：步骤1-1：建立生产线系统性能常用指标；步骤1-2：建立半导体芯片测试封装生产线模型；步骤1-3：计算性能指标，所述基于DQN和DNN算法进行性能预测控制包括：步骤1：DNN算法即深度神经网络；步骤2：DQN即深度强化学习算法；步骤3：进行性能预测控制；所述建立测试封装生产线模型具体步骤包括：

步骤1-1：建立生产线系统性能常用指标：生产周期CT、产出TH和在制品水平WIP；

所述生产周期CT为加工时间，计算公式如下：

CT＝CT_q+t_e

WIP＝CT×TH

说明：WIP：制品水平、CT：生产周期、TH：产出；

步骤1-2：建立半导体芯片测试封装生产线模型；

说明：排队规则为先来先服务，半导体芯片生产线由若干个工站串并联组成，产品在若干个工站前并联成批，然后顺序在后续并联的工站中进行加工处理，合格的工件继续移动，不合格的则舍弃；基于G/G/m排队论模型，建立半导体封装测试生产线仿真模型：

CT_q(G/G/m)＝V×CT_q(M/M/m)

说明：c_a为工件达到时间变动性；有效加工时间变动性c_e；M/M/m，分别为到达间隔时间分布，服务时间分布，服务机构中服务台的个数；u为负指数分布的参数；

步骤1-3：计算性能指标

所述基于DQN和DNN算法进行性能预测控制具体步骤包括：

步骤1：DNN深度神经网络能够获得更有效的特征向量，其步骤如下，

步骤1.1：输入状态向量：s1，s2，s3....，s10，初始化动作函数Q的相应权重，使用RAND进行初始化，初始化DNN的相应参数，用RAND进行初始化；输入为状态S1-S10，输出分别为BF/C；BF为生产效益指标，C为环境综合打分；

步骤1.2：分别送入DNN网络进行实际特征构建和预测特征构建，分别得到Q(s，a)和Q(s′，a′)；

步骤2：其步骤如下：

步骤2.1：经过DNN网络进行实际特征构建和预测特征构建，分别得到Q_target(s′，a′，q1)和Q_predict(s，a，q1)，q1为内部参数；Q^*(s，a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为下一个状态，a′为下一个状态空间的动作空间；

Q^*(s，a)＝Q^*(s，a)+γ(Q_target(s′，a′，q1)-Q_predict(s，a，q1))

Q_target(s′，a′，q1)＝r+γmax_a′Q(s′，a′，q1)

循环更新输入，利用

L＝Q_target(s′，a′，q1)-Q_predict(s，a，q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值；

步骤3：进行性能预测控制；

包含以下步骤：

步骤3.1：输入状态向量：s1，s2，s3....，s10，初始化动作函数Q的相应权重，使用RAND进行初始化，初始化DNN的相应参数，用RAND进行初始化；

步骤3.2：送入DNN网络进行实际特征构建和预测特征构建，分别得到Q_target(s′，a′，q1)和Q_predict(s，a，q1)，q1为内部参数；

Q^*(s，a)＝Q^*(s，a)+γ(Q_target(s′，a′，q1)-Q_predict(s，a，q1))

Q_target(s′，a′，q1)＝r+γmax_a′Q(s′，a′，q1)

步骤3.3：循环更新输入，利用下式计算损失函数：

L＝Q_target(s′，a′，q1)-Q_predict(s，a，q1)反向更新参数，

分别为第j个中间层，第k个单元的权重和阈值；

步骤3.4：直到达到迭代终止条件；

说明：s1，s2，s3....，s10为输入状态向量，Q^*(s，a)为在某时刻的动作价值最优值，s为状态空间的某个元素，a为动作空间的某个动作，s′为下一个状态，a′为下一个状态空间的动作空间；

所述基于DQN和DNN算法进行性能预测控制部分中，DQN为无模型的方法；所述基于DQN和DNN算法进行性能预测控制部分中，从当前状态s采取动作a达到下一个状态，收益表示为动作值函数Q(s，a)，其更新公式如下：

Q(s，a)＝Q(s，a)+α(r+γQ(s，a)-Q(s，a))，根据输入环境以及迭代的次数，最终返回经过多次迭代的Q函数；

所述基于DQN和DNN算法进行性能预测控制部分中，将状态s作为输入，输入一系列的动作的Q值，即输入向量[Q(s，a₁)，Q(s，a₂)，Q(s，a₃)，...，Q(s，a_n)]，依照综合加权生产周期CT、在制品水平WIP和产出TH作为输出控制变量即Q(s，a₁)＝w1*Q(s，a_1CT)+w2*Q(s，a_1WIP)+w3*Q(s，a_1TH)，w1，w2，w3＝rand。

2.根据权利要求1所述的一种基于DQN和DNN孪生神经网络算法的半导体测试封装生产线性能预测控制系统，其特征在于，所述基于DQN和DNN算法进行性能预测控制部分中，按照生产效益指标Bf和环境综合打分C作为系统状态集S的划分依据，具体划分依据如下：

系统状态划分依据系统状态划分依据 s1 0≤Bf≤0.1 s2 0.1＜Bf≤0.2 s3 0.2＜Bf≥0.3 s4 0.3＜Bf≤0.4 s5 0.4＜Bf≤0.5 s6 0.5＜Bf≤0.6 s7 0.6＜Bf≤0.7 s8 0.7＜Bf≤0.8 s9 0.8＜Bf≤0.9 s10 0.9＜Bf≤1.0 s11 Bf≥1.0

。