CN113065574A - 一种半导体制造系统数据预处理方法及装置 - Google Patents
一种半导体制造系统数据预处理方法及装置 Download PDFInfo
- Publication number
- CN113065574A CN113065574A CN202110206516.1A CN202110206516A CN113065574A CN 113065574 A CN113065574 A CN 113065574A CN 202110206516 A CN202110206516 A CN 202110206516A CN 113065574 A CN113065574 A CN 113065574A
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- clustering
- centroid
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 49
- 239000004065 semiconductor Substances 0.000 title claims abstract description 38
- 238000007781 pre-processing Methods 0.000 title claims abstract description 32
- 230000002159 abnormal effect Effects 0.000 claims abstract description 37
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000010606 normalization Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 239000002245 particle Substances 0.000 claims description 42
- 238000005192 partition Methods 0.000 claims description 21
- 238000009826 distribution Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000013450 outlier detection Methods 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 2
- 238000007621 cluster analysis Methods 0.000 claims 1
- 238000004140 cleaning Methods 0.000 abstract description 6
- 238000011160 research Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 22
- 238000012417 linear regression Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing Or Measuring Of Semiconductors Or The Like (AREA)
Abstract
本发明公开了一种半导体制造系统数据预处理方法及装置,能够对半导体制造系统数据进行变换、清理和规约,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点,便于进一步的分析研究。本发明提供的半导体制造系统数据预处理方法,包括以下步骤:获取半导体制造系统的数据;对数据进行规范化处理;对数据的缺失值进行填补;基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;基于变量聚类对数据进行冗余变量检测,将冗余变量替换。本发明通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化,数据清理,数据规约等目标。
Description
技术领域
本发明涉及一种半导体制造系统数据预处理方法及装置,属于数据处理技术领域。
背景技术
现实世界数据受各种因素的干扰,质量不高。低质量的数据会导致挖掘结果不理想,因此数据预处理通常被视为数据挖掘的重要环节。数据预处理的目的在于提高数据质量,一般包括数据集成、变换、清理及规约等任务。
半导体制造系统在数据采集过程中难免会发生传感器漂移、设备故障或操作工输入失误等现象,导致数据集包含噪声。此外,生产调度相关数据需要从MES、ERP、SCADA等系统中集成得到,这些系统中的数据从不同层次不同角度描述了企业生产过程,导致所集成数据的属性之间有较高冗余,这些都需要数据预处理,方能满足预测所需。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种半导体制造系统数据预处理方法及装置,能够对半导体制造系统数据进行变换、清理和规约,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点,便于进一步的分析研究。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种半导体制造系统数据预处理方法,包括以下步骤:
获取半导体制造系统的数据;
对数据进行规范化处理;
对数据的缺失值进行填补;
基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;
基于变量聚类对数据进行冗余变量检测,将冗余变量替换。
进一步的,所述对数据的空缺值进行填补的方法具体包括基于GD-MPSO和WKNN的空缺值填补方法;
所述基于GD-MPSO和WKNN的填补方法包括以下步骤:
对Smiss中的每个数据记录xim,根据下式从Scomplete中找到K个最相邻的数据记录:
进一步的,所述基于GD-MPSO和WKNN的填补方法的训练方法包括采用GD-MPSO优化每个特征j的权重fwj提高基于KNN方法预测精度;
所述训练方法具体包括如下步骤以下步骤:
步骤1:将粒子i的解solutioni编码成D维向量,solutioni=(fwi1,fwi2,…,fwiD),D=|Xcomplete|,fwij是solutioni对Xcomplete中第j个变量的权重赋值,0≤fwij≤1,solutioni是对所有属性的权重赋值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni;
步骤2:通过调整Xcomplete中变量在距离式中的权重来拟合Scomplete,粒子i的解solutioni的目标函数值通过留一(Leave-One-Out)交叉验证法确定,具体求解步骤如下:
Step 1.对于每个Scomplete中的每个样本xi,通过其在Xcomplete上的赋权距离函数(3)式从S-{xi}中找其k个最相近的邻居值neighbori1,neighbori2,…,neighboriK,式中的权重fwij的值赋为fwij,即solutioni的第j个分量;
Step 3.求出所有记录x在第m个属性上的估计值,以预测值和实际值的最小均方差作为solutioni的目标函数值MSE(Scomplete),即以下式计算:
通过GD-MPSO-KNN可以优化得到一组D维的特征权重(w1,w2,…,wD)。
进一步的,所述基于数据聚类分析对所述补缺数据进行异常值探测的方法包括基于GS-MPSO和K均值聚类的数据聚类算法进行异常值探测,包括如下步骤:
步骤1:将粒子i的解编码成D维向量,D=K*N,K为聚类簇的个数,N为数据维度;
solutioni=(centroidi1,centroidi2,…,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni;
步骤2:通过调整KMEANS的初始聚类中心来优化聚类准则J(PartitionK)以提高变量聚类的质量,将粒子i的解分解成K个聚类中心,包括centroidi1,centroidi2,…,centroidiK,以centroidi1,centroidi2,…,centroidiK为参数调用KMEANS可得变量聚类PartitionK及其聚类准则J(PartitionK),以J(PartitionK)为异常值目标函数值。
进一步的,所述基于变量聚类对数据进行冗余变量检测的方法包括基于MCLPSO的变量聚类算法进行冗余变量检测,具体包括如下步骤:
步骤1:将粒子i的解被编码成D维向量,D=K*M,K为聚类簇的个数,M为变量的观测值的个数;solutioni=(centroidi1,centroidi2,…,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni。
步骤2:将粒子i的解分解成K个聚类中心,centroidi1,centroidi2,…,centroidiK,以centroidi1,centroidi2,…,centroidiK为参数调用KMEANSVAR可得变量聚类PartitionK及其聚类准则H(PartitionK),以1/H(PartitionK)为冗余变量目标函数值。
进一步的,所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化:
其中,x′li是变量Xi第l个规范值,xli是变量Xi第l个观测值,即数据集中第l条记录的属性i的取值,[minXi,maxXi]是随机变量Xi在数据集S中的分布区间,[new_minXi,new_maxXi]是随机变量Xi规范化后的分布区间。
进一步的,所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化:
其中,x′li是变量Xi第l个规范值,xli是变量Xi第l个观测值,μXi是随机变量Xi的平均值,σXi是随机变量Xi的标准差。
进一步的,所述对数据进行规范化处理的方法还包括校正变量异常值;
所述校正变量异常值的方法包括以下步骤:
如果xli>ubXi,则将xli的值变为ubXi;
如果xli<lbXi,则xli的值变为lbXi;
ubXi和lbXi分别是变量Xi的上界和下界,用来校正变量的异常值,设置如下:
ubXi=μXi+3σXi (7)
ulXi=μXi-3σXi (8)
σXi为变量Xi的标准差。
第二方面,本发明提供一种半导体制造系统数据预处理装置,所述装置包括:
数据获取模块:用于获取半导体制造系统的数据;
规范化处理模块:用于对数据进行规范化处理;
缺失值填补模块:用于对数据的缺失值进行填补;
异常值探测模块:基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;
冗余变量检测模块:用于基于变量聚类对数据进行冗余变量检测,将冗余变量剔除。
第三方面,本发明提供一种半导体制造系统数据预处理装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
1、本发明通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化,数据清理,数据规约等目标,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点,便于进一步的分析研究;
2、针对数据清理问题,基于Memetic算法,提出了基于GD-MPSO-WKNN的缺失值填补方法用于缺失值填补;基于GS-MPSO-KMEANS的数据聚类方法用于异常值探测;针对数据规约问题,提出了基于MCLPSO-KMEANSVAR的变量聚类方法用于冗余变量检测,可有效去除数据中的异常值和冗余变量。
附图说明
图1是制造系统数据预处理技术路线图;
图2是算法在D4上运行结果的箱线图(K=5);
图3是算法在D4上运行结果的箱线图(K=10);
图4是算法在D4上运行结果的箱线图(K=20)。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供一种半导体制造系统数据预处理方法,现有的复杂制造预处理技术主要集中于属性选择和数据聚类,而针对制造系统数据具有规模大、含噪声、样本分布复杂且存在缺失现象,输入变量数目多、类型多样,输入/输出变量间关系呈非线性、强耦合等特点的数据预处理技术还有待进一步深入研究。本实施例将针对含噪声、高冗余的生产调度数据,对应数据预处理任务提炼出数据规范化、缺失值填补、异常值检测、冗余变量检测等问题,并给出这些问题的处理方法。
半导体制造系统数据预处理方法包括以下步骤:获取半导体制造系统的数据;对数据进行规范化处理;对数据的缺失值进行填补;基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;基于变量聚类对数据进行冗余变量检测,将冗余变量替换。
具体的,所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化:
其中,x′li是变量Xi第l个规范值,xli是变量Xi第l个观测值,μXi是随机变量Xi的平均值,σXi是随机变量Xi的标准差。
所述对数据进行规范化处理的方法还包括校正变量异常值;
所述校正变量异常值的方法包括以下步骤:
如果xli>ubXi,则将xli的值变为ubXi;
如果xli<lbXi,则xli的值变为lbXi;
ubXi和lbXi分别是变量Xi的上界和下界,用来校正变量的异常值。
所述ubXi和lbXi设置如下:
ubXi=μXi+3σXi (2)
ulXi=μXi-3σXi (3)
σXi为变量Xi的标准差。
具体的,所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化:
其中,x′li是变量Xi第l个规范值,xli是变量Xi第l个观测值,μXi是随机变量Xi的平均值,σXi是随机变量Xi的标准差。
所述对数据进行规范化处理的方法还包括校正变量异常值;
所述校正变量异常值的方法包括以下步骤:
如果xli>ubXi,则将xli的值变为ubXi;
如果xli<lbXi,则xli的值变为lbXi;
ubXi和lbXi分别是变量Xi的上界和下界,用来校正变量的异常值。
所述ubXi和lbXi设置如下:
ubXi=μXi+3σXi (5)
ulXi=μXi-3σXi (6)
σXi为变量Xi的标准差。
制造数据包含的噪声亦表现为数据的不完整性,即很多记录的属性值空缺。如果数据集中第i个记录的第m个属性为缺失值,则记为xim=null。根据记录是否有缺失值,可以把数据集分为完整数据集和空缺数据集。根据变量是否有缺失值,可以把变量集分为完整集合和空缺集。具体定义如下:
Smiss=S-Scomplete (8)
Xmiss=X-Xcomplete (10)
使用基于高斯变异和深度优先搜索(Gaussian Mutation and Deepest localsearch based Memetic PSO,GD-MPSO)的属性加权K近邻缺失值填补方法(KNN):GD-MPSO-KNN对数据的缺失值进行填补,具体包括:
K近邻是示例学习或惰性学习的一种学习方式,在缺失值填补中有广泛应用。本实施例采用基于赋权KNN的填补,为了进一步提高赋权KNN的预测精度,将应用基于智能算法的特征赋权技术。
对于xim=null的记录xi,从数据集S的其他记录中,选其K个最相近的记录neighbori1,neighbori2,…,neighborik,这些邻居记录是根据相似性度量选择的。在本实施例中采用赋权欧拉公式用来作为相似性度量,即赋权K近邻(Weighted K NearestNeighbors,WKNN),fwj表示Xcomplete中第j个属性的权重,fwj的值越大则属性j的权重越高。xi的K个邻居的加权求和由式(11)求得,wj=1/d(xi,neighborij),是xim的估计值。为了方便讨论,本实施例假设只有变量Xm包含空缺值,即Xmiss={xm},xcomplete=X-{Xm}。
本实施例提出基于GD-MPSO和WKNN的填补方法,GD-MPSO-WKNN,具体可以分为两个阶段,即第一阶段的训练阶段和第二阶段的缺失值填补。
第一阶段:训练阶段,即采用GD-MPSO优化每个特征j的权重fwj提高基于KNN方法预测精度。
(1)编码方式:粒子i的解solutioni被编码成D维向量,solutioni=(fwi1,fwi2,…,fwiD),D=|Xcomplete|,fwij是solutioni对Xcomplete中第j个变量的权重赋值,0≤fwij≤1,solutioni是对所有属性的权重赋值。粒子i的位置向量posi和最优位置pbesti均可表示为solutioni。
(2)目标函数:GD-MPSO-KNN通过调整Xcomplete中变量在距离公式(12)中的权重来拟合Scomplete。粒子i的解solutioni的目标函数值通过留一(Leave-One-Out)交叉验证法确定。具体求解步骤如下:
Step 1.对于每个Scomplete中的每个样本xi,通过其在Xcomplete上的赋权距离函数(12)式从S-{xi}中找其k个最相近的邻居neighbori1,neighbori2,…,neighboriK。式(12)中的权重fwij的值赋为fwij,即solutioni的第j个分量;
Step 3.求出所有记录x在第m个属性上的估计值,以预测值和实际值的最小均方差作为solutioni的目标函数值,即式(13)。
由此,通过GD-MPSO-KNN可以优化得到一组D维的特征权重(w1,w2,…,wD)。
为了验证GD-MPSO-KNN的填补准确性,采用制造系统中包含空缺值最多的传感器数据集D2作为测试集。具体实验验证步骤如下:
Step 1.对具有较大变异系数(Coefficient of Variation,CV),即标准差与均值之比的三个传感器属性,X5,X12,X204,按缺失值比例10%、20%、30%、40%、50%随机标注缺失值;
Step 2.调用GD-MPSO-WKNN或其他方法补全这组被标注缺失值;
Step 3.根据缺失值估计量和缺失值原始值的均方误差(Mean Square Error,MSE)和平均绝对误差(Mean Absolutely Error,MAE)来评估填补精度。
为了客观评估GD-MPSO-WKNN的填补精度,GD-MPSO-WKNN与以下几种方法进行比较:
(1)基于模型的填补方法:线性回归(Linear Regression,LR)填补法,支持向量回归(Support Vector Regression,SVR)填补法;
(2)基于距离的填补方法:KNN填补法。
GD-MPSO-KNN的最大迭代次数设为100,优化目标f中K近邻的K=20,参数设置如表1所示。
表1算法参数设置
缺失值填补的结果见表2至表4,分析可知:
当缺失值比例为10%时,SVR填补法准确率最高,但当数据缺失值比例上升时,SVR填补法的退化非常明显,随着缺失值比例的提高,学习样本的减少,会使得SVR预测模型陷入过拟合;
LR填补准确率的变化和SVR类似,但在每种缺失率的情况下,LR填补法的准确率都不如SVR填补法,显然,简单的线性模型不适用于复杂传感器数据补全问题;
KNN填补法在缺失值比例较小的情况下和SVR填补法相比准确率较低,但随着缺失值比例的提高,KNN填补法方法体现出较好的鲁棒性,在缺失值比例达到20%,30%,40%,50%的情况下,都能取得稳定的填补准确率;
GD-MPSO-WKNN在每一种缺失值比例和KNN相比都有更高的准确率,在缺失值比例为10%时,GD-MPSO-WKNN的填补准确率和SVR填补法已经接近。随着缺失值比例的提高,GD-MPSO-WKNN和KNN一样保持较高的鲁棒性的同时达到了较高的填补准确率。GD-MPSO-WKNN使用KNN一样的决策方式,可以有效避免过拟合,同时充分利用完整数据,进行属性权重的提取,对显著影响缺失值的属性赋于更高的权重。由此可见,GD-MPSO-WKNN非常适合用来填补制造系统传感器的缺失值。
表2对X5进行缺失值填补的结果
MSE | 10% | 20% | 30% | 40% | 50% |
LR | 1.46E+01 | 3.19E+01 | 1.22E+02 | 7.76E+01 | 5.64E+01 |
SVR | 1.24E+01 | 2.23E+01 | 8.48E+00 | 6.14E+00 | 4.10E+01 |
KNN | 1.01E+01 | 9.49E+00 | 8.63E+00 | 7.68E+00 | 8.01E+00 |
GS-MPSO-WKNN | 8.98E+00 | 9.15E+00 | 8.16E+00 | 6.75E+00 | 7.78E+00 |
MAE | 10% | 20% | 30% | 40% | 50% |
LR | 7.93E+00 | 9.66E+00 | 6.03E+00 | 1.12E+01 | 9.89E+00 |
SVR | 7.16E+00 | 8.17E+00 | 5.49E+00 | 6.19E+00 | 8.41E+00 |
KNN | 8.14E+00 | 7.73E+00 | 6.85E+00 | 5.97E+00 | 6.18E+00 |
GS-MPSO-WKNN | 7.18E+00 | 7.38E+00 | 6.49E+00 | 5.17E+00 | 5.95E+00 |
表3对X12进行缺失值填补的结果
MSE | 10% | 20% | 30% | 40% | 50% |
LR | 4.47E+00 | 9.44E+01 | 8.61E+01 | 7.04E+01 | 9.77E+01 |
SVR | 3.20E+00 | 1.22E+01 | 2.03E+01 | 1.70E+01 | 8.12E+01 |
KNN | 3.39E+00 | 2.88E+00 | 2.68E+00 | 2.52E+00 | 2.55E+00 |
GS-MPSO-WKNN | 3.24E+00 | 2.73E+00 | 2.52E+00 | 2.37E+00 | 2.40E+00 |
MAE | 10% | 20% | 30% | 40% | 50% |
LR | 2.98E+00 | 1.33E+01 | 1.28E+01 | 9.34E+00 | 1.05E+01 |
SVR | 2.38E+00 | 3.66E+00 | 4.67E+00 | 3.39E+00 | 9.21E+00 |
KNN | 2.69E+00 | 2.26E+00 | 2.14E+00 | 1.98E+00 | 2.02E+00 |
GS-MPSO-WKNN | 2.54E+00 | 2.15E+00 | 2.01E+00 | 1.85E+00 | 1.88E+00 |
表4对X204进行缺失值填补的结果
MSE | 10% | 20% | 30% | 40% | 50% |
LR | 1.15E+02 | 3.27E+02 | 4.53E+02 | 5.58E+02 | 6.89E+02 |
SVR | 1.13E+02 | 2.96E+02 | 2.74E+02 | 5.04E+02 | 6.65E+02 |
KNN | 1.14E+02 | 8.71E+01 | 7.50E+01 | 2.52E+01 | 2.55E+01 |
GS-MPSO-WKNN | 1.12E+02 | 8.67E+01 | 7.23E+01 | 2.37E+01 | 2.40E+01 |
MAE | 10% | 20% | 30% | 40% | 50% |
LR | 4.07E+01 | 6.62E+01 | 7.10E+01 | 7.47E+01 | 8.56E+01 |
SVR | 3.85E+01 | 6.00E+01 | 5.01E+01 | 6.29E+01 | 7.56E+01 |
KNN | 4.66E+01 | 4.18E+01 | 3.81E+01 | 3.63E+01 | 3.53E+01 |
GS-MPSO-WKNN | 4.26E+01 | 3.94E+01 | 3.29E+01 | 3.18E+01 | 3.02E+01 |
具体的,所述基于数据聚类分析对所述补缺数据进行异常值探测的方法包括基于GS-MPSO和K均值聚类的数据聚类算法进行异常值探测。
GD-MPSO中使用深度优先搜索,在高维问题优化中效率不高,因此,将GD-MPSO的深度优先搜索Deepest_local_search更换成基于广泛学习的Memetic PSO(MemeticComprehensive Learning PSO,MCLPSO)中采用的基于模拟退火局部搜索SA_local_search,即得GS-MPSO。GS-MPSO采用如下搜索方式:
①长距离探测:带压缩因子PSO;
②中距离探测:高斯变异算子;
③短距离探测:基于模拟退火的局部搜索。
GS-MPSO使用和GD-MPSO相同的meme协同交互策略,在PSO进化的每一代,SA_local_search只应用于希望粒子,对有希望的区域进行细粒度的搜索。而变异算子只应用于停滞粒子,由于停滞粒子无法从其邻居中改进其pbesti,从而使得停滞粒子产生跳跃,搜索新的区域。
GS-MPSO-KMEANS是基于GS-MPSO和KMEANS的聚类算法,通过优化KMEANS的初始聚类中心最小化聚类准则函数。
(1)编码方式:粒子i的解被编码成D维向量,D=K*N,K为聚类簇的个数,N为数据维度。solutioni=(centroidi1,centroidi2,…,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值。粒子i的位置向量posi和最优位置pbesti均可表示为solutioni。
(2)目标函数:GS-MPSO-KMEANS通过调整KMEANS的初始聚类中心来优化聚类准则J(PartitionK)以提高变量聚类的质量。容易将粒子i的解分解成K个聚类中心,centroidi1,centroidi2,…,centroidiK,以centroidi1,centroidi2,…,centroidiK为参数调用KMEANS可得变量聚类PartitionK及其聚类准则J(PartitionK),以J(PartitionK)为目标函数值。
根据上述讨论,给出了GS-MPSO-KMEANS的目标函数流程伪码。
为了验证GS-MPSO-KMEANS的聚类性能,本实施例采用D1,D2数据集做验证。聚类个数分别设为5,10,15。选择KMEANS及基于cf-PSO和KMEANS数据聚类算法cf-PSO-KMEANS与GS-MPSO-KMEANS进行比较。
GS-MPSO-KMEANS的最大迭代次数设为100,其余参数设置与表3-2保持一致。对每个数据集,各算法均运行100次。各算法对聚类准则函数优化值的均值与方差如表5所示。
通过表5可知,不含优化初始聚类中心的KMEANS在优化聚类准则和另两种优化初始聚类中心的智能算法cf-PSO-KMEANS和GS-MPSO-KMEANS相比有较大差距。当聚类个数增加时,GS-MPSO-KMEANS和cf-PSO-KMEANS都能找到更紧凑的聚类进一步优化聚类准则,但KMEANS在聚类个数增加时无法进一步优化聚类准则。GS-MPSO-KMEANS比cf-PSO-KMEANS具有更强的优化聚类准则的能力,但在D1(K=5)时,GS-MPSO-KMEANS和cf-PSO-KMEANS相比提升幅度并不明显,这是由于D1的样本数量较少,当聚类数少时,可能的聚类组合也相对较少,cf-PSO-KMEANS在此情形下也能得到很好的优化结果。但在D1(K=10)、D2(K=5)、D2(K=10)、D2(K=20)等情形下,GS-MPSO-KMEANS的优化能力和cf-PSO-KMEANS相比有显著提升,并且能在提升平均聚类准则函数时,能够有效降低方差,说明GS-MPSO-KMEANS是一种稳定的聚类方法。
表5数据聚类结果
具体的,所述基于变量聚类对数据进行冗余变量检测的方法包括基于MCLPSO的变量聚类算法进行冗余变量检测,具体包括如下步骤:
步骤1:将粒子i的解被编码成D维向量,D=K*M,K为聚类簇的个数,M为变量的观测值的个数;solutioni=(centroidi1,centroidi2,…,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni。
步骤2:将粒子i的解分解成K个聚类中心,centroidi1,centroidi2,…,centroidiK,以centroidi1,centroidi2,…,centroidiK为参数调用KMEANSVAR可得变量聚类PartitionK及其聚类准则H(PartitionK),以1/H(PartitionK)为冗余变量目标函数值。
具体的,所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化:
其中,x′li是变量Xi第l个规范值,xli是变量Xi第l个观测值,即数据集中第l条记录的属性i的取值,[minXi,maxXi]是随机变量Xi在数据集S中的分布区间,[new_minXi,new_maxXi]是随机变量Xi规范化后的分布区间。
基于上述讨论,给出了MCLPSO-KMEANSVAR的目标函数流程代码。
为了验证MCLPSO-KMEANSVAR的聚类性能,本实施例采用D1,D2数据集做验证。聚类个数分别设为5,10,15。选择KMEANSVAR及基于CLPSO和KMEANS数据聚类算法CLPSO-KMEANS与MCLPSO-KMEANSVAR进行比较。
MCLPSO-KMEANSVAR的最大迭代次数设为100,因此在MCLPSO-KMEANSVAR中Chaotic_local_search不会被调用。其余参数设置与表1保持一致。对每个数据集,各算法均运行100次。各算法对聚类准则优化值的均值与方差如表6所示。
表6变量聚类结果
由表6可知,对大量高维的并且具有实际意义的制造系统数据集D1和D2进行变量聚类时,不含优化初始聚类中心的KMEANSVAR在优化聚类准则上和另两种优化初始聚类中心的智能算法CLPSO-KMEANSVAR和MCLPSO-KMEANSVAR有较大差距,而MCLPSO-KMEANSVAR比CLPSO-KMEANSVAR具有更强的优化聚类准则的能力,但在D1和D2上,MCLPSO-KMEANSVAR在聚类数为5的情况下几乎没有优势,是因为聚类个数越少,可能的聚类组合也越少,则很容易通过智能搜索到较优聚类,但KMEANS即使在聚类个数较少的情况下对聚类准则函数的优化结果也不理想。当聚类个数增加时MCLPSO-KMEANSVAR的优化能力得以体现。MCLPSO-KMEANSVAR在优化聚类准则的同时,并未能有效降低方差。从MCLPSO-KMEANSVAR,CLPSO-KMEANSVAR,KMEANSVAR在D2聚类的结果的箱线图分布可知,KMEANSVAR最缺乏稳定性。CLPSO-KMEANSVAR的求解结果的分布趋于扁平,性能更稳定,但当聚类问题复杂时(K=10,K=20),从图2-4中不难发现,MCLPSO-KMEANSVAR的优化结果总体优于CLPSO-KMEANSVAR的优化结果,MCLPSO-KMEANSVAR能相对以更高的概率搜索到较优解。
本实施例通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化,数据清理,数据规约等目标,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点,便于进一步的分析研究。
实施例二:
本实施例提供一种半导体制造系统数据预处理装置,所述装置包括:
数据获取模块:用于获取半导体制造系统的数据;
规范化处理模块:用于对数据进行规范化处理;
缺失值填补模块:用于对数据的缺失值进行填补;
异常值探测模块:基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;
冗余变量检测模块:用于基于变量聚类对数据进行冗余变量检测,将冗余变量剔除。
本实施例提供的装置通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化,数据清理,数据规约等目标,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点,便于进一步的分析研究。
实施例三:
本发明实施例还提供了一种半导体制造系统数据预处理装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种半导体制造系统数据预处理方法,其特征在于,包括以下步骤:
获取半导体制造系统的数据;
对数据进行规范化处理,获取规范化处理后的数据;
对所述规范化处理后的数据的缺失值进行填补,获取补缺数据
基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;
基于变量聚类对数据进行冗余变量检测,将冗余变量剔除。
3.根据权利要求2所述的半导体制造系统数据预处理方法,其特征在于,基于GD-MPSO和WKNN的填补方法的训练方法包括采用GD-MPSO优化每个特征j的权重fwj提高基于KNN方法预测精度;
所述训练方法包括如下步骤:
步骤1:将粒子i的解solutioni编码成D维向量,solutioni=(fwi1,fwi2,...,fwiD),D=|Xcomplete|,fwij是solutioni对Xcomplete中第j个变量的权重赋值,0≤fwij≤1,solutioni是对所有属性的权重赋值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni;
步骤2:通过调整Xcomplete中变量在距离式中的权重来拟合Scomplete,粒子i的解solutioni的目标函数值通过留一交叉验证法确定。
4.根据权利要求1所述的半导体制造系统数据预处理方法,其特征在于,所述基于数据聚类分析对所述补缺数据进行异常值探测的方法包括如下步骤:
步骤1:将粒子i的解编码成D维向量,D=K*N,K为聚类簇的个数,N为数据维度;
solutioni=(centroidi1,centroidi2,...,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni;
步骤2:通过调整KMEANS的初始聚类中心来优化聚类准则J(PartitionK)以提高变量聚类的质量,将粒子i的解分解成K个聚类中心,包括centroidi1,centroidi2,...,centroidiK,以centroidi1,centroidi2,...,centroidiK为参数调用KMEANS可得变量聚类PartitionK及其聚类准则J(PartitionK),以J(PartitionK)为异常值目标函数值。
5.根据权利要求1所述的半导体制造系统数据预处理方法,其特征在于,所述基于变量聚类对数据进行冗余变量检测的方法包括如下步骤:
步骤1:将粒子i的解被编码成D维向量,D=K*M,K为聚类簇的个数,M为变量的观测值的个数;solutioni=(centroidi1,centroidi2,...,centroidiK),centroidiK是粒子i的解solutioni对第k个聚类簇的聚类中心centroidk的初始化赋值,粒子i的解给定了每个聚类簇聚类中心的初始值,粒子i的位置向量posi和最优位置pbesti均可表示为solutioni。
步骤2:将粒子i的解分解成K个聚类中心,centroidi1,centroidi2,...,centroidiK,以centroidi1,centroidi2,...,centroidiK为参数调用KMEANSVAR可得变量聚类PartitionK及其聚类准则H(PartitionK),以1/H(PartitionK)为冗余变量目标函数值。
8.根据权利要求6或7所述的半导体制造系统数据预处理方法,其特征在于,所述对数据进行规范化处理的方法还包括校正变量异常值;
所述校正变量异常值的方法包括以下步骤:
如果xli>ubXi,则将xli的值变为ubXi;
如果xli<lbXi,则xli的值变为lbXi;
ubXi和lbXi分别是变量Xi的上界和下界,用来校正变量的异常值,所述ubXi和lbXi设置如下:
ubXi=μXi+3σXi (7)
ulXi=μXi-3σXi (8)
σXi为变量Xi的标准差。
9.一种半导体制造系统数据预处理装置,其特征在于,所述装置包括:
数据获取模块:用于获取半导体制造系统的数据;
规范化处理模块:用于对数据进行规范化处理;
缺失值填补模块:用于对数据的缺失值进行填补;
异常值探测模块:基于数据聚类分析对所述补缺数据进行异常值探测,将异常值替换;
冗余变量检测模块:用于基于变量聚类对数据进行冗余变量检测,将冗余变量替换。
10.一种半导体制造系统数据预处理装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206516.1A CN113065574A (zh) | 2021-02-24 | 2021-02-24 | 一种半导体制造系统数据预处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110206516.1A CN113065574A (zh) | 2021-02-24 | 2021-02-24 | 一种半导体制造系统数据预处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113065574A true CN113065574A (zh) | 2021-07-02 |
Family
ID=76558924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110206516.1A Pending CN113065574A (zh) | 2021-02-24 | 2021-02-24 | 一种半导体制造系统数据预处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065574A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970945A (zh) * | 2017-02-24 | 2017-07-21 | 河海大学 | 一种出租车数据集的轨迹预处理方法 |
CN110020712A (zh) * | 2019-03-26 | 2019-07-16 | 浙江大学 | 一种基于聚类的优化粒子群bp网络预测方法和系统 |
CN110275895A (zh) * | 2019-06-25 | 2019-09-24 | 广东工业大学 | 一种缺失交通数据的填充设备、装置及方法 |
CN111046977A (zh) * | 2019-12-30 | 2020-04-21 | 成都康赛信息技术有限公司 | 基于em算法和knn算法的数据预处理方法 |
CN111768034A (zh) * | 2020-06-29 | 2020-10-13 | 上海积成能源科技有限公司 | 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法 |
CN111914478A (zh) * | 2020-07-02 | 2020-11-10 | 中国地质大学(武汉) | 一种综合地质钻孔测井岩性识别方法 |
US20220036137A1 (en) * | 2018-09-19 | 2022-02-03 | Rulex, Inc. | Method for detecting anomalies in a data set |
-
2021
- 2021-02-24 CN CN202110206516.1A patent/CN113065574A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970945A (zh) * | 2017-02-24 | 2017-07-21 | 河海大学 | 一种出租车数据集的轨迹预处理方法 |
US20220036137A1 (en) * | 2018-09-19 | 2022-02-03 | Rulex, Inc. | Method for detecting anomalies in a data set |
CN110020712A (zh) * | 2019-03-26 | 2019-07-16 | 浙江大学 | 一种基于聚类的优化粒子群bp网络预测方法和系统 |
CN110275895A (zh) * | 2019-06-25 | 2019-09-24 | 广东工业大学 | 一种缺失交通数据的填充设备、装置及方法 |
CN111046977A (zh) * | 2019-12-30 | 2020-04-21 | 成都康赛信息技术有限公司 | 基于em算法和knn算法的数据预处理方法 |
CN111768034A (zh) * | 2020-06-29 | 2020-10-13 | 上海积成能源科技有限公司 | 一种电力负荷预测中基于近邻算法进行插补补充缺失值的方法 |
CN111914478A (zh) * | 2020-07-02 | 2020-11-10 | 中国地质大学(武汉) | 一种综合地质钻孔测井岩性识别方法 |
Non-Patent Citations (3)
Title |
---|
TALHA ALI KHAN: "A Modified Particle Swarm Optimization Algorithm Used for Feature Selection of UCI Biomedical Data Sets", 《IEEE》 * |
倪嘉呈: "基于数据的复杂制造系统调度体系结构及其关键技术研究", 《豆丁网》 * |
汤珺雅,李莉: "基于多层数据分析框架的半导体加工周期预测", 《计算机集成制造系统》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199016B (zh) | 一种基于DTW的改进K-means的日负荷曲线聚类方法 | |
CN109766950B (zh) | 一种基于形态聚类和LightGBM的工业用户短期负荷预测方法 | |
CN112905716A (zh) | 一种半导体生产过程数据预处理方法及装置 | |
CN110991247B (zh) | 一种基于深度学习与nca融合的电子元器件识别方法 | |
CN117391247A (zh) | 一种基于深度学习的企业风险等级预测方法及系统 | |
CN117709824B (zh) | 物流网络布局优化方法、装置、设备及存储介质 | |
CN113378954B (zh) | 一种基于粒子群改进k均值算法的负荷曲线聚类方法及系统 | |
Wen et al. | Learnable skeleton-aware 3d point cloud sampling | |
CN112149052B (zh) | 一种基于plr-dtw的日负荷曲线聚类方法 | |
CN113065574A (zh) | 一种半导体制造系统数据预处理方法及装置 | |
Feng et al. | A novel hybrid model for short-term prediction of PV power based on KS-CEEMDAN-SE-LSTM | |
CN111062418A (zh) | 一种基于最小生成树的无参数化聚类算法及系统 | |
Yang et al. | A prediction model based on Big Data analysis using hybrid FCM clustering | |
CN115687948A (zh) | 一种基于负荷曲线的电力专变用户无监督分类方法 | |
CN117194966A (zh) | 对象分类模型的训练方法和相关装置 | |
CN104680317B (zh) | 一种基于概率灰色综合评价的企业合作伙伴选择方法 | |
CN113762415A (zh) | 一种基于神经网络的汽车金融产品智能匹配方法和系统 | |
CN113010754A (zh) | 目标行为识别系统 | |
Yao | Application of Optimized SVM in Sample Classification | |
CN112396507A (zh) | 基于阴影划分的集成svm个人信用评估方法 | |
Ren et al. | Multivariable panel data ordinal clustering and its application in competitive strategy identification of appliance-wiring listed companies | |
Sai et al. | Mining stock market tendency by RS-based support vector machines | |
Chang et al. | Short-Term Stock Price-Trend Prediction Using Meta-Learning | |
US20230316302A1 (en) | Improving accuracy and efficiency of prediction processes on big data sets using domain based segmentation and time series clustering | |
Polupanov et al. | Improving the neural network mathematical model of corporate bankruptcy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |