具体实施方式
一种等离子显示屏制造过程数据挖掘系统,如图1所示,包括:数据探索模块、数据挖掘模块、分布特性量化模块、结果显示存储模块和系统调度管理模块。各个模块实现的功能如下:
一、数据探索模块:对大数据进行预处理,使分析人员能够快速地对数据状态有一个宏观上的理解,并能够迅速找到数据突破口,具体方法如下::
步骤一,根据已有数据库表确定维度;
步骤二,确定建立数据立方的测度;
步骤三,建立数据立方:在各个维度及其不同层级上对测度进行计算并关联到当前的维度和相应层级;
步骤四,基于数据立方做上卷和下钻操作:上卷是在对维度进行更大粒度上的展示,如从天上卷到月;下钻是对维度进行更下粒度下的展示,如从三楼下钻到三楼A区;
步骤五,根据数据各个维度层级上的测度分布,导出在选定维度下各个层级上都有测度统计的数据立方;
二、数据挖掘模块:采用特征抽取方法、关联分析方法和回归分析方法,对数据探索模块导出的数据立方进行数据挖掘,具体方法如下:
(一)特征抽取方法:
步骤一、根据用户提供的全工序生产数据的日期,构建全工序生产工艺的生产数据的数据库;
步骤二、对全工序中所有工序的数据内容做串联处理,并按照等离子屏的等级或者不良类型进行划分,将属于特定等级或者特定不良类型的等离子屏分为一组,其它等离子屏分为一组,然后将各组间的等离子屏所对应的生产工艺中的参数进行对齐,形成到全工序数据;
步骤三、对步骤二形成的全工序数据进行缺失值处理和归一化处理:
所述缺失值处理是指:对于缺失值,按照其它等离子屏的相同参数的观测值的平均值进行填充,目标是使该填充的缺失值对之后的分析框架不产生影响;
缺失值处理后,对所有参数上的观测值进行归一化处理,即将该参数在不同等离子屏上的观测值统一到0均值和单位方差这个区间内并同时保证最初不同屏上该观测值的相对大小不变,举例说明如下:
设αt=(αi1,αi2,···,αin)代表n个等离子屏第i个参数的一组观测值,归一化后新参数观测值的调整方式为:
式中,μi为αt的均值,σi为αt的方差,
调整后系数为αt_new=(αi1_new,αi2_new,…,αin_new)。
步骤四、采用特征提取方法对不同分组的产品进行特征提取,筛选出能最大化包括信息增益、增益比、最小化冗余度和最大化相关度在内的重要评价指标的三组重要参数列表,具体方法如下:
定义T为一个生产数据集合,包含(x,y)=(x1,x2,…,xn,y),其中xi∈vals(i)代表生产一个等离子屏数据中的第i个参数的值,y代表当前这个等离子屏的等级或者不良代码。
(1)计算信息增益(Information Gain):
其中
为信息熵,p(x
i)代表观测到x
i的概率,可以由历史数据中出现x
i的次数计算出。
(2)计算增益比(Gain Ratio):
IGR(T,a)=IG(T,a)/IV(T,a)其中,IG(T,a)为信息增益,IV(T,a)计算方式如下:
(3)计算最大相关度和最小冗余度(minimum Redundancy and Maximum Relevancy, mRMR)
1)计算最小化冗余度(mR):
minWI,
其中, 定义为两个变量a和b之间的交互信息;
2)计算最大化相关度(MR):
maxVI,
3)计算能最大程度上满足mR和MR的方式是通过渐增式的搜寻方法找到满足如下条件的特征(参数):
maxΦ(Wi,Vi),Φ=Vi-Wi
假设现有重要特征(参数)集合为Sm-1,其中包含了m-1个重要特征(参数),目标是为了从剩余特征(参数)集合中找到第m个重要特征(参数)使得其能够最大化Φ。
以上每一个特征选择的计算方法可以输出一组重要特征(参数),即由IG,IGR,mRMR分别输出的三组特征(参数)来表征对当前等离子屏分组中最有区分度的特征(参数)组合。
步骤五、将步骤四得到的三组重要参数列表进行整合,获取出一组统一的重要参数列表,其中包括了在三组重要特征列表中出现在至少两组中的参数:
(二)关联分析方法:
定义I={i1,i2,…,in}代表n个二元参数属性,in代表一个参数及其取值的配对。D={t1,t2,…,tm}代表m张等离子屏的生产过程参数状态,tm表示第m号等离子屏生产过程中各个参数的取值状态组合,比如tm={i3,i8,…,i45}.
步骤一,对等离子屏生产过程数据(即对生产数据中参数及其取值)进行二元化处理。比如:
i1=1表示a=153,i1=0表示参数a≠153,
i2=1表示参数b=4.6,i2=0表示参数b≠4.6。
二元化处理后会产生一个比源数据更加庞大的数据集合。
步骤二,确定所有满足最小支持度的参数的取值状态组合:
为了从步骤一产生的数据集合中发现有意义的参数组合,关联规则挖掘技术被应用于上述任务中。两种评估因素用于衡量参数的取值状态组合的重要性,其中一种评估因素是:
支持度(Support):supp(X)表示对一组参数的取值状态组合X的支持度,即整个待分析等离子屏数据集中包含了特定参数的取值状态组合X的组合数量占总共等离子屏数的比例。
根据事先设定的支持度阈值s(该阈值可根据等离子显示屏制造领域专 家的专业知识和经验进行设定),对组合X进行循环扩充,即不断加入新的参数取值状态。扩充的原则是,每次扩充得到的新X′满足supp(X′)>s,从而确定所有满足最小支持度的参数的取值状态组合。
步骤三,从最小支持度的参数的取值状态组合中确定关联的参数取值状态:
两种评估因素用于衡量参数的取值状态组合的重要性,除了步骤二所述的支持度外,另一种评估因素是:
自信度(Confidence):conf(X→Y)=supp(X∪Y)/supp(X),表示由一组参数的取值状态组合X关联到另一组参数的取值状态组合Y的量度。
根据事先设定的自信度阈值c(该阈值可根据等离子显示屏制造领域专家的专业知识和经验进行设定),从最小支持度的参数的取值状态组合中确定关联的参数取值状态,即:
(1)先按如下公式计算自信度:
conf(X→Y)=supp(X∪Y)/supp(X),
(2)判断conf(X→Y)>c是否成立,如果成立,则该组参数组合将被采纳,反之,该组参数组合将被剔除。
通过以上方法步骤,从各个参数的取值状态出发计算出了具有指导意义的参数值和等离子屏等级的关联关系,并能够很容易地应用到等离子屏不良代码的分析中。
以下是上述方法的示例说明,下表给出了一个计算支持度和可信度的具体 例子:
屏编号 |
para1=37 |
para2=9.5 |
para2=140 |
para4=G |
1 |
1 |
1 |
0 |
0 |
2 |
0 |
0 |
0 |
1 |
3 |
0 |
0 |
1 |
0 |
4 |
1 |
1 |
0 |
1 |
5 |
0 |
1 |
1 |
0 |
t1={para1=37,para2=9.5,para4=G}
supp(t1)=1/5=0.2
如果人工设定的自信度阈值为0.4,那么以上规则将被采纳;如果自信度阈值为0.6,那么以上规则将被剔除。这个阈值的设定可以按照数据集本身的情况根据分析人员的经验灵活调整。
(三)回归分析方法:
步骤一、建立等离子显示屏制造过程中重要动力参数与良率的回归模型,具体方法如下:
(1)针对三种类型的动力参数(温度,湿度,压力)对不同时间段的生产记录进行切分,具体的切分方法如下:
1)确定产品在整个生产过程中经过各台设备的具体时间;
2)统计并记录在设定时间段(比如一天,或者一个月)内经过各台设备的产品数量和对应产品的最终品质等级;
3)对各台设备的环境参数信息进行采样并记录,并以此采样频率作为基 本采样频率(比如每四小时一次);
4)在基于基本采样频率的基础上在不同时间粒度内将产品的最终品质等级与各台设备的环境参数对齐;
(2)在回归模型中定义六种不同的影响因素(包括温度均值,湿度均值,压力均值,温度方差,湿度方差,压力方差);
(3)根据历史观测数据(通常情况下是采样数据)确定各影响因素在不同采样时刻的取值,具体方法如下:
1)计算温度均值、湿度均值和压力均值:以基本采样频率的时间间隔为一个窗口,以环境参数采样点为中间时间,然后取前后半个窗口形成一个以采样点的环境参数值为近似均值的窗口,并以此窗口为基准在时间上对经过各台设备的产品进行切分;
2)计算温度方差、湿度方差和压力方差:以当前窗口为中心,取前后相邻各n个窗口(通常取n≤2),共2n+1个窗口,每个窗口的时间跨度为m小时(在PDP生产过程中,通常是m=4小时),以(2n+1)*m小时的时间跨度内的环境参数采样值做近似均值进行方差计算;
3)计算在当前窗口内经过各台设备的产品良率,并以此来和回归模型中定义的六种影响因素进行时间上的对齐,形成统一的数据集;
(4)运用线性回归分析方法得到各个影响因素上的回归系数:
1)通过以上处理,得到一组(六个)与环境相关的变量和一个与产品良率相关的目标变量,建立线性回归分析模型:
yi=α1xi1+α2xi2+α3xi3+α4xi4+α5xi5+α6xi6+εi
=xt Tα+εi,
其中t=1,…,n;n为总共的采样窗口数量;yi真代表一个窗口内的产品良率变量;xi1…xi6分别代表六个与环境相关的变量在一个窗口内的取值;εi代表一个窗口内的随机扰动;xt T代表一组环境相关变量的向量转置,Xt Tα代表了向量xi和α两个向量的内积。
2)运用线性回归分析方法,获得一组回归系数α1…α6分别代表六个与环境相关的变量对产品良率的影响方式:
将上述回归模型用向量的形式进行标示可以得到:
y=Xα+ε,
我们采用最小二乘法中的Ordinary Least Squares(OLS)方法来对系数进行计算,它通过利用最小化残差平方和(sum of squared residual,SSR)导出了一个近似表达式来对系数值进行估计,如下所示:
(5)针对不同类别的影响因素,对回归系数进行归一化处理,即在对每台设备得到的线性回归模型的基础上,了解某一个与环境相关变量对哪台设备的影响更大,需要进行相应参数在所有设备上的归一化处理,可以得到同一参数对不同设备的影响大小和不同参数对同一设备的影响大小。
我们需要将同一环境相关变量的系数进行归一化处理,即将该环境相关变量在不同设备上的系数值统一到0均值和单位方差这个区间内并同时保证最初不同设备上该变量的系数的相对大小不变。
步骤二、根据归一化处理后的回归系数制定出各个动力参数的调控策略:
由于回归系数的大小反应了相应影响因素对良率的影响大小,系数的符号反应了对因素的调控方向,因此可据此制定出各个动力参数的调控策略,即通过线性回归系数的数值大小和符号来对环境相关的变量对设备的影响制定调控策略:当α1<0时,该系数对应的动力参数与良率为负相关,须将其调小(保持其取值在调控范围中较低的位置);当大于0时,该系数对应的动力参数与良率为正相关,须将其调大(保持其取值在调控范围中较高的位置)。
三、分布特性量化模块:根据用户输入的数据集和统计指标,按工序以及时间计算最大值、最小值、均值、方差、偏度、峰度,制作数据分布图;并将计算结果按统计指标进行排序,并将排序结果进行显示和保存,具体步骤如下:
步骤一、输入数据源及统计指标:
步骤二、计算机对输入的数据源及统计指标进行判断:
(1)当数据源为单个数据集时,则进入步骤三;
(2)当数据源为两个数据集时,则进入步骤五;
步骤三、根据工序以及时间(包含按天以及按月)对数据源进行划分;按工序以及时间求出最大值、最小值、均值、方差、偏度、峰度,并据此制作数据分布图;然后继续判断是否具有统计指标:如果否,则返回步骤二;如果是,则进入步骤四;
步骤四、将各结果按统计指标进行排序,并将排序所得的前K个属性进行显示和保存;然后返回步骤二;
步骤五、对需要进行对比的两个数据集合作分类标注,即将一个数据集合视为(处理为)一个类别,而将另一个数据集合视为(处理为)另一个类别,同时合并这两个类别的数据得到一个具有两种类型标注的数据集合;然后在该数据集合上进行重要特征抽取,具体的特征抽取方法同数据挖掘模块中的特征 抽取方法;
步骤六、根据工序以及时间(包含按天以及按月)对数据源进行划分;按工序以及时间在重要参数集合上计算出最大值、最小值、均值、方差、偏度、峰度,并据此制作数据分布图;然后继续判断是否具有统计指标:如果否,则将数据分布图在对照表单中进行显示并保存,然后返回步骤二;如果是,则进入步骤七;
步骤七、将各结果按统计指标进行排序,并将排序所得的前K个属性在对照表单中进行显示并保存,然后返回步骤二。
四、结果显示存储模块:对各模块处理的结果进行显示和存储,可实现:
1、根据用户选择的报告列表中的报告选项,进行相应的报告下载、浏览和反馈操作;
2、按照工序->设备->参数->参数组合的浏览方式对数据挖掘模块计算的结果进行查询和导出;
3、通过图形可视化的方式对挖掘计算以及反馈的结果进行直观的展示,加深对分析结论的认识。
五、系统调度管理模块:根据用户输入的指示,调用各模块,实现对各模块的有效的调度管理。
具体的工作流程如图2所示:调用数据探索模块对大数据进行预处理,完成后,调用数据挖掘模块,完成数据挖掘后,调用分布特性量化模块,完成量化后,调用结果显示存储模块,对数据处理结果进行显示存储。