CN112905716A

CN112905716A - 一种半导体生产过程数据预处理方法及装置

Info

Publication number: CN112905716A
Application number: CN202110205889.7A
Authority: CN
Inventors: 李莉; 林国义
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-04

Abstract

本发明公开了一种半导体生产过程数据预处理方法及装置，能够对半导体制造系统数据进行变换、清理和规约，提高了数据预处理的准确性和效率，能够可靠地去除异常的数据点，便于进一步的分析研究。本发明提供的一种半导体生产过程数据预处理方法，包括以下步骤：获取半导体生产过程中的数据，并进行数据集成并进行数据清理；对数据进行规范化处理；对规范化处理后的数据检测异常值并剔除，并填补缺失值；进行冗余变量检测；通过数据挖掘算法对数据进行处理，输出经过预处理的数据。

Description

一种半导体生产过程数据预处理方法及装置

技术领域

本发明涉及一种半导体制造系统数据预处理方法及装置，属于数据处理技术领域。

背景技术

现实世界数据受各种因素的干扰，质量不高。低质量的数据会导致挖掘结果不理想，因此数据预处理通常被视为数据挖掘的重要环节。数据预处理的目的在于提高数据质量，一般包括数据集成、变换、清理及规约等任务。

半导体制造系统在数据采集过程中难免会发生传感器漂移、设备故障或操作工输入失误等现象，导致数据集包含噪声。此外，生产调度相关数据需要从 MES、ERP、SCADA等系统中集成得到，这些系统中的数据从不同层次不同角度描述了企业生产过程，导致所集成数据的属性之间有较高冗余，这些都需要数据预处理，方能满足预测所需。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种半导体制造系统数据预处理方法及装置，能够对半导体制造系统数据进行变换、清理和规约，提高了数据预处理的准确性和效率，能够可靠地去除异常的数据点，便于进一步的分析研究。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种半导体制造系统数据预处理方法，包括以下步骤：

获取半导体制造系统的数据；

对数据进行规范化处理；

对数据的缺失值进行填补；

基于数据聚类分析对所述补缺数据进行异常值探测，将异常值替换；

基于变量聚类对数据进行冗余变量检测，将冗余变量替换。

进一步的，所述对数据的空缺值进行填补的方法具体包括基于GD-MPSO和 WKNN的空缺值填补方法；

所述基于GD-MPSO和WKNN的填补方法包括以下步骤：

对S_miss中的每个数据记录x_im，根据下式从S_complete中找到K个最相邻的数据记录：

以下式求得该缺失值的估计量

由此完成数据集中的缺失值填补：

进一步的，所述基于GD-MPSO和WKNN的填补方法的训练方法包括采用 GD-MPSO优化每个特征j的权重fw_j提高基于ANN方法预测精度；

所述训练方法具体包括如下步骤以下步骤：

步骤1：将粒子i的解solution_i编码成D维向量， solution_i＝(fw_i1，fw_i2，...，fw_iD)，D＝|X_complete|，fw_ij是solution_i对X_complete中第j个变量的权重赋值，0≤fw_ij≤1，solution_i是对所有属性的权重赋值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i；

步骤2：通过调整X_complete中变量在距离式中的权重来拟合S_complete，粒子 i的解solution_i的目标函数值通过留一(Leave-One-Out)交叉验证法确定，具体求解步骤如下：

Step 1.对于每个S_complete中的每个样本x_i，通过其在X_complete上的赋权距离函数(3)式从S-{x_i}中找其k个最相近的邻居值 neighbor_i1，neighbor_i2，...，neighbor_iK，式中的权重fw_ij的值赋为fw_ij，即 solution_i的第j个分量；

Step 2.以neighbor_i1，neighbor_i2，...，neighbor_iK在第m个属性上值的加权和作为x_im的估计值

即以下式计算估计值：

Step 3.求出所有记录x在第m个属性上的估计值，以预测值和实际值的最小均方差作为solution_i的目标函数值MSE(S_complete)，即以下式计算：

通过GD-MPSO-KNN可以优化得到一组D维的特征权重(w₁，w₂，...，w_D)。

进一步的，所述基于数据聚类分析对所述补缺数据进行异常值探测的方法包括基于GS-MPSO和K均值聚类的数据聚类算法进行异常值探测，包括如下步骤：

步骤1：将粒子i的解编码成D维向量，D＝K*N，K为聚类簇的个数，N 为数据维度；

solution_i＝(centroid_i1，centroid_i2，...，centroid_iK)，centroid_iK是粒子i的解solution_i对第k个聚类簇的聚类中心centroid_k的初始化赋值，粒子i的解给定了每个聚类簇聚类中心的初始值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i；

步骤2：通过调整KMEANS的初始聚类中心来优化聚类准则J(Partition_K)以提高变量聚类的质量，将粒子i的解分解成K个聚类中心，包括 centroid_i1，centroid_i2，...，centroid_iK，以centroid_i1，centroid_i2，...，centroid_iK为参数调用KMEANS可得变量聚类Partition_K及其聚类准则J(Partition_K)，以 J(Partition_K)为异常值目标函数值。

进一步的，所述基于变量聚类对数据进行冗余变量检测的方法包括基于 MCLPSO的变量聚类算法进行冗余变量检测，具体包括如下步骤：

步骤1：将粒子i的解被编码成D维向量，D＝K*M，K为聚类簇的个数，M为变量的观测值的个数；solution_i＝(centroid_i1，centroid_i2，...，centroid_iK)， centroid_iK是粒子i的解solution_i对第k个聚类簇的聚类中心centroid_k的初始化赋值，粒子i的解给定了每个聚类簇聚类中心的初始值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i。

步骤2：将粒子i的解分解成K个聚类中心， centroid_i1，centroid_i2，...，centroid_iK，以centroid_i1，centroid_i2，...，centroid_iK为参数调用KMEANSVAR可得变量聚类Partition_K及其聚类准则H(Partition_K)，以 1/H(Partition_K)为冗余变量目标函数值。

进一步的，所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化：

其中，x′_li是变量Xi第l个规范值，x_li是变量Xi第l个观测值，即数据集中第l条记录的属性i的取值，[min_Xi，max_Xi]是随机变量Xi在数据集S中的分布区间，[new_min_Xi，new_max_Xi]是随机变量Xi规范化后的分布区间。

其中，x′_li是变量Xi第l个规范值，x_li是变量Xi第l个观测值，μ_Xi是随机变量Xi 的平均值，σ_Xi是随机变量Xi的标准差。

进一步的，所述对数据进行规范化处理的方法还包括校正变量异常值；

所述校正变量异常值的方法包括以下步骤：

如果x_li＞ub_Xi，则将x_li的值变为ub_Xi；

如果x_li＜lb_Xi，则x_li的值变为lb_Xi；

ub_Xi和lb_Xi分别是变量Xi的上界和下界，用来校正变量的异常值，设置如下：

ub_Xi＝μ_Xi+3σ_Xi (7)

ul_Xi＝μ_Xi-3σ_Xi (8)

σ_Xi为变量Xi的标准差。

第二方面，本发明提供一种半导体制造系统数据预处理装置，所述装置包括：

数据获取模块：用于获取半导体制造系统的数据；

规范化处理模块：用于对数据进行规范化处理；

缺失值填补模块：用于对数据的缺失值进行填补；

异常值探测模块：基于数据聚类分析对所述补缺数据进行异常值探测，将异常值替换；

冗余变量检测模块：用于基于变量聚类对数据进行冗余变量检测，将冗余变量剔除。

第三方面，本发明提供一种半导体制造系统数据预处理装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

1、本发明通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化，数据清理，数据规约等目标，提高了数据预处理的准确性和效率，能够可靠地去除异常的数据点，便于进一步的分析研究；

2、针对数据清理问题，基于Memetic算法，提出了基于GD-MPSO-WKNN的缺失值填补方法用于缺失值填补；基于GS-MPSO-KMEANS的数据聚类方法用于异常值探测；针对数据规约问题，提出了基于MCLPSO-KMEANSVAR的变量聚类方法用于冗余变量检测，可有效去除数据中的异常值和冗余变量。

附图说明

图1是制造系统数据预处理技术路线图；

图2是算法在D₄上运行结果的箱线图(K＝5)；

图3是算法在D₄上运行结果的箱线图(K＝10)；

图4是算法在D₄上运行结果的箱线图(K＝20)。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供一种半导体制造系统数据预处理方法，现有的复杂制造预处理技术主要集中于属性选择和数据聚类，而针对制造系统数据具有规模大、含噪声、样本分布复杂且存在缺失现象，输入变量数目多、类型多样，输入/输出变量间关系呈非线性、强耦合等特点的数据预处理技术还有待进一步深入研究。本实施例将针对含噪声、高冗余的生产调度数据，对应数据预处理任务提炼出数据规范化、缺失值填补、异常值检测、冗余变量检测等问题，并给出这些问题的处理方法。

半导体制造系统数据预处理方法包括以下步骤：获取半导体制造系统的数据；对数据进行规范化处理；对数据的缺失值进行填补；基于数据聚类分析对所述补缺数据进行异常值探测，将异常值替换；基于变量聚类对数据进行冗余变量检测，将冗余变量替换。

具体的，所述对数据进行规范化处理的方法包括以下式对半导体制造系统的数据进行规范值转化：

所述对数据进行规范化处理的方法还包括校正变量异常值；

所述校正变量异常值的方法包括以下步骤：

如果x_li＞ub_Xi，则将x_li的值变为ub_Xi；

如果x_li＜lb_Xi，则x_li的值变为lb_Xi；

ub_Xi和lb_Xi分别是变量Xi的上界和下界，用来校正变量的异常值。

所述ub_Xi和lb_Xi设置如下：

ub_Xi＝μ_Xi+3σ_Xi (2)

ul_Xi＝μ_Xi-3σ_Xi (3)

σ_Xi为变量Xi的标准差。

所述对数据进行规范化处理的方法还包括校正变量异常值；

所述校正变量异常值的方法包括以下步骤：

如果x_li＞ub_Xi，则将x_li的值变为ub_Xi；

如果x_li＜lb_Xi，则x_li的值变为lb_Xi；

所述ub_Xi和lb_Xi设置如下：

ub_Xi＝μ_Xi+3σ_Xi (5)

ul_Xi＝μ_Xi-3σ_Xi (6)

σ_Xi为变量Xi的标准差。

制造数据包含的噪声亦表现为数据的不完整性，即很多记录的属性值空缺。如果数据集中第i个记录的第m个属性为缺失值，则记为x_im＝null。根据记录是否有缺失值，可以把数据集分为完整数据集和空缺数据集。根据变量是否有缺失值，可以把变量集分为完整集合和空缺集。具体定义如下：

S_miss＝S-S_complete (8)

X_miss＝X-X_complete (10)

使用基于高斯变异和深度优先搜索(Gaussian Mutation and Deepest localsearch based Memetic PSO，GD-MPSO)的属性加权K近邻缺失值填补方法(KNN)： GD-MPSO-KNN对数据的缺失值进行填补，具体包括：

K近邻是示例学习或惰性学习的一种学习方式，在缺失值填补中有广泛应用。本实施例采用基于赋权KNN的填补，为了进一步提高赋权KNN的预测精度，将应用基于智能算法的特征赋权技术。

对于x_im＝null的记录x_i，从数据集S的其他记录中，选其K个最相近的记录neighbor_i1，neighbor_i2，...，neighbor_ik，这些邻居记录是根据相似性度量选择的。在本实施例中采用赋权欧拉公式用来作为相似性度量，即赋权K近邻 (Weighted K NearestNeighbors，WKNN)，fw_j表示X_complete中第j个属性的权重，fw_j的值越大则属性j的权重越高。x_i的K个邻居的加权求和由式(11)求得， w_j＝1/d(x_i，neighbor_ij)，

是x_im的估计值。为了方便讨论，本实施例假设只有变量X_m包含空缺值，即X_miss＝{X_m}，X_complete＝X-{X_m}。

本实施例提出基于GD-MPSO和WKNN的填补方法，GD-MPSO-WKNN，具体可以分为两个阶段，即第一阶段的训练阶段和第二阶段的缺失值填补。

第一阶段：训练阶段，即采用GD-MPSO优化每个特征j的权重fw_j提高基于 KNN方法预测精度。

(1)编码方式：粒子i的解solution_i被编码成D维向量，solution_i＝ (fw_i1，fw_i2，...，fw_iD)，D＝|X_complete|，fw_ij是solution_i对X_complete中第j个变量的权重赋值，0≤fw_ij≤1，solution_i是对所有属性的权重赋值。粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i。

(2)目标函数：GD-MPSO-KNN通过调整X_complete中变量在距离公式(12)中的权重来拟合S_complete。粒子i的解solution_i的目标函数值通过留一 (Leave-One-Out)交叉验证法确定。具体求解步骤如下：

Step 1.对于每个S_complete中的每个样本x_i，通过其在X_complete上的赋权距离函数(12)式从S-{x_i}中找其k个最相近的邻居 neighbor_i1，neighbor_i2，...，neighbor_iK。式(12)中的权重fw_ij的值赋为fw_ij，即 solution_i的第j个分量；

即式(11)；

Step 3.求出所有记录x在第m个属性上的估计值，以预测值和实际值的最小均方差作为solution_i的目标函数值，即式(13)。

由此，通过GD-MPSO-KNN可以优化得到一组D维的特征权重(w₁，w₂，...，w_D)。

第二阶段则：缺失值的填补，即对S_miss中的每个数据记录x_im，根据式(12) 从S_complete中找到K个最相邻的数据记录，以式(11)求得该缺失值的估计量

由此完成数据集中的缺失值填补。

为了验证GD-MPSO-KNN的填补准确性，采用制造系统中包含空缺值最多的传感器数据集D₂作为测试集。具体实验验证步骤如下：

Step 1.对具有较大变异系数(Coefficient of Variation,CV)，即标准差与均值之比的三个传感器属性，X₅，X₁₂，X₂₀₄，按缺失值比例10％、20％、30％、 40％、50％随机标注缺失值；

Step 2.调用GD-MPSO-WKNN或其他方法补全这组被标注缺失值；

Step 3.根据缺失值估计量和缺失值原始值的均方误差(Mean Square Error,MSE)和平均绝对误差(Mean Absolutely Error,MAE)来评估填补精度。

为了客观评估GD-MPSO-WKNN的填补精度，GD-MPSO-WKNN与以下几种方法进行比较：

(1)基于模型的填补方法：线性回归(Linear Regression,LR)填补法，支持向量回归(Support Vector Regression,SVR)填补法；

(2)基于距离的填补方法：KNN填补法。

GD-MPSO-KNN的最大迭代次数设为100，优化目标f中K近邻的K＝20，参数设置如表1所示。

表1算法参数设置

缺失值填补的结果见表2至表4，分析可知：

当缺失值比例为10％时，SVR填补法准确率最高，但当数据缺失值比例上升时，SVR填补法的退化非常明显，随着缺失值比例的提高，学习样本的减少，会使得SVR预测模型陷入过拟合；

LR填补准确率的变化和SVR类似，但在每种缺失率的情况下，LR填补法的准确率都不如SVR填补法，显然，简单的线性模型不适用于复杂传感器数据补全问题；

KNN填补法在缺失值比例较小的情况下和SVR填补法相比准确率较低，但随着缺失值比例的提高，KNN填补法方法体现出较好的鲁棒性，在缺失值比例达到 20％，30％，40％，50％的情况下，都能取得稳定的填补准确率；

GD-MPSO-WKNN在每一种缺失值比例和KNN相比都有更高的准确率，在缺失值比例为10％时，GD-MPSO-WKNN的填补准确率和SVR填补法已经接近。随着缺失值比例的提高，GD-MPSO-WKNN和KNN一样保持较高的鲁棒性的同时达到了较高的填补准确率。GD-MPSO-WKNN使用KNN一样的决策方式，可以有效避免过拟合，同时充分利用完整数据，进行属性权重的提取，对显著影响缺失值的属性赋于更高的权重。由此可见，GD-MPSO-WKNN非常适合用来填补制造系统传感器的缺失值。

表2对X₅进行缺失值填补的结果

MSE	10％	20％	30％	40％	50％
						LR	1.46E+01	3.19E+01	1.22E+02	7.76E+01	5.64E+01
SVR	1.24E+01	2.23E+01	8.48E+00	6.14E+00	4.10E+01
						KNN	1.01E+01	9.49E+00	8.63E+00	7.68E+00	8.01E+00
GS-MPSO-WKNN	8.98E+00	9.15E+00	8.16E+00	6.75E+00	7.78E+00
						MAE	10％	20％	30％	40％	50％
LR	7.93E+00	9.66E+00	6.03E+00	1.12E+01	9.89E+00
						SVR	7.16E+00	8.17E+00	5.49E+00	6.19E+00	8.41E+00
KNN	8.14E+00	7.73E+00	6.85E+00	5.97E+00	6.18E+00
						GS-MPSO-WKNN	7.18E+00	7.38E+00	6.49E+00	5.17E+00	5.95E+00

表3对X₁₂进行缺失值填补的结果

MSE	10％	20％	30％	40％	50％
						LR	4.47E+00	9.44E+01	8.61E+01	7.04E+01	9.77E+01
SVR	3.20E+00	1.22E+01	2.03E+01	1.70E+01	8.12E+01
						KNN	3.39E+00	2.88E+00	2.68E+00	2.52E+00	2.55E+00
GS-MPSO-WKNN	3.24E+00	2.73E+00	2.52E+00	2.37E+00	2.40E+00
						MAE	10％	20％	30％	40％	50％
LR	2.98E+00	1.33E+01	1.28E+01	9.34E+00	1.05E+01
						SVR	2.38E+00	3.66E+00	4.67E+00	3.39E+00	9.21E+00
KNN	2.69E+00	2.26E+00	2.14E+00	1.98E+00	2.02E+00
						GS-MPSO-WKNN	2.54E+00	2.15E+00	2.01E+00	1.85E+00	1.88E+00

表4对X₂₀₄进行缺失值填补的结果

MSE	10％	20％	30％	40％	50％
						LR	1.15E+02	3.27E+02	4.53E+02	5.58E+02	6.89E+02
SVR	1.13E+02	2.96E+02	2.74E+02	5.04E+02	6.65E+02
						KNN	1.14E+02	8.71E+01	7.50E+01	2.52E+01	2.55E+01
GS-MPSO-WKNN	1.12E+02	8.67E+01	7.23E+01	2.37E+01	2.40E+01
						MAE	10％	20％	30％	40％	50％
LR	4.07E+01	6.62E+01	7.10E+01	7.47E+01	8.56E+01
						SVR	3.85E+01	6.00E+01	5.01E+01	6.29E+01	7.56E+01
KNN	4.66E+01	4.18E+01	3.81E+01	3.63E+01	3.53E+01
						GS-MPSO-WKNN	4.26E+01	3.94E+01	3.29E+01	3.18E+01	3.02E+01

具体的，所述基于数据聚类分析对所述补缺数据进行异常值探测的方法包括基于GS-MPSO和K均值聚类的数据聚类算法进行异常值探测。

GD-MPSO中使用深度优先搜索，在高维问题优化中效率不高，因此，将GD-MPSO 的深度优先搜索Deepest_local_search更换成基于广泛学习的Memetic PSO (MemeticComprehensive Learning PSO，MCLPSO)中采用的基于模拟退火局部搜索SA_local_search，即得GS-MPSO。GS-MPSO采用如下搜索方式：

①长距离探测：带压缩因子PSO；

②中距离探测：高斯变异算子；

③短距离探测：基于模拟退火的局部搜索。

GS-MPSO使用和GD-MPSO相同的meme协同交互策略，在PSO进化的每一代， SA_local_search只应用于希望粒子，对有希望的区域进行细粒度的搜索。而变异算子只应用于停滞粒子，由于停滞粒子无法从其邻居中改进其pbest_i，从而使得停滞粒子产生跳跃，搜索新的区域。

GS-MPSO-KMEANS是基于GS-MPSO和KMEANS的聚类算法，通过优化KMEANS的初始聚类中心最小化聚类准则函数。

(1)编码方式：粒子i的解被编码成D维向量，D＝K*N，K为聚类簇的个数，N为数据维度。solution_i＝(centroid_i1，centroid_i2，...，centroid_iK)， centroid_iK是粒子i的解solution_i对第k个聚类簇的聚类中心centroid_k的初始化赋值，粒子i的解给定了每个聚类簇聚类中心的初始值。粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i。

(2)目标函数：GS-MPSO-KMEANS通过调整KMEANS的初始聚类中心来优化聚类准则J(Partition_K)以提高变量聚类的质量。容易将粒子i的解分解成K个聚类中心，centroid_i1，centroid_i2，...，centroid_iK，以 centroid_i1，centroid_i2，...，centroid_iK为参数调用KMEANS可得变量聚类 Partition_K及其聚类准则J(Partition_K)，以J(Partition_K)为目标函数值。

根据上述讨论，给出了GS-MPSO-KMEANS的目标函数流程伪码。

为了验证GS-MPSO-KMEANS的聚类性能，本实施例采用D₁，D₂数据集做验证。聚类个数分别设为5，10，15。选择KMEANS及基于cf-PSO和KMEANS数据聚类算法cf-PSO-KMEANS与GS-MPSO-KMEANS进行比较。

GS-MPSO-KMEANS的最大迭代次数设为100，其余参数设置与表3-2保持一致。对每个数据集，各算法均运行100次。各算法对聚类准则函数优化值的均值与方差如表5所示。

通过表5可知，不含优化初始聚类中心的KMEANS在优化聚类准则和另两种优化初始聚类中心的智能算法cf-PSO-KMEANS和GS-MPSO-KMEANS相比有较大差距。当聚类个数增加时，GS-MPSO-KMEANS和cf-PSO-KMEANS都能找到更紧凑的聚类进一步优化聚类准则，但KMEANS在聚类个数增加时无法进一步优化聚类准则。GS-MPSO-KMEANS比cf-PSO-KMEANS具有更强的优化聚类准则的能力，但在 D₁(K＝5)时，GS-MPSO-KMEANS和cf-PSO-KMEANS相比提升幅度并不明显，这是由于D₁的样本数量较少，当聚类数少时，可能的聚类组合也相对较少， cf-PSO-KMEANS在此情形下也能得到很好的优化结果。但在D₁(K＝10)、D₂(K＝5)、 D₂(K＝10)、D₂(K＝20)等情形下，GS-MPSO-KMEANS的优化能力和cf-PSO-KMEANS 相比有显著提升，并且能在提升平均聚类准则函数时，能够有效降低方差，说明GS-MPSO-KMEANS是一种稳定的聚类方法。

表5数据聚类结果

具体的，所述基于变量聚类对数据进行冗余变量检测的方法包括基于 MCLPSO的变量聚类算法进行冗余变量检测，具体包括如下步骤：

其中，x′_li是变量Xi第l个规范值，x_li是变量Xi第l个观测值，即数据集中第l条记录的属性i的取值，[min_Xi，max_Xi]是随机变量Xi在数据集S中的分布区间， [new_min_Xi，new_max_Xi]是随机变量Xi规范化后的分布区间。

基于上述讨论，给出了MCLPSO-KMEANSVAR的目标函数流程代码。

为了验证MCLPSO-KMEANSVAR的聚类性能，本实施例采用D₁，D₂数据集做验证。聚类个数分别设为5，10，15。选择KMEANSVAR及基于CLPSO和KMEANS数据聚类算法CLPSO-KMEANS与MCLPSO-KMEANSVAR进行比较。

MCLPSO-KMEANSVAR的最大迭代次数设为100，因此在MCLPSO-KMEANSVAR中Chaotic_local_search不会被调用。其余参数设置与表1保持一致。对每个数据集，各算法均运行100次。各算法对聚类准则优化值的均值与方差如表6所示。

表6变量聚类结果

由表6可知，对大量高维的并且具有实际意义的制造系统数据集D₁和D₂进行变量聚类时，不含优化初始聚类中心的KMEANSVAR在优化聚类准则上和另两种优化初始聚类中心的智能算法CLPSO-KMEANSVAR和MCLPSO-KMEANSVAR有较大差距，而MCLPSO-KMEANSVAR比CLPSO-KMEANSVAR具有更强的优化聚类准则的能力，但在D₁和D₂上，MCLPSO-KMEANSVAR在聚类数为5的情况下几乎没有优势，是因为聚类个数越少，可能的聚类组合也越少，则很容易通过智能搜索到较优聚类，但KMEANS即使在聚类个数较少的情况下对聚类准则函数的优化结果也不理想。当聚类个数增加时MCLPSO-KMEANSVAR的优化能力得以体现。 MCLPSO-KMEANSVAR在优化聚类准则的同时，并未能有效降低方差。从 MCLPSO-KMEANSVAR，CLPSO-KMEANSVAR，KMEANSVAR在D₂聚类的结果的箱线图分布可知，KMEANSVAR最缺乏稳定性。CLPSO-KMEANSVAR的求解结果的分布趋于扁平，性能更稳定，但当聚类问题复杂时(K＝10，K＝20)，从图2-4中不难发现， MCLPSO-KMEANSVAR的优化结果总体优于CLPSO-KMEANSVAR的优化结果， MCLPSO-KMEANSVAR能相对以更高的概率搜索到较优解。

本实施例通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化，数据清理，数据规约等目标，提高了数据预处理的准确性和效率，能够可靠地去除异常的数据点，便于进一步的分析研究。

实施例二：

本实施例提供一种半导体制造系统数据预处理装置，所述装置包括：

数据获取模块：用于获取半导体制造系统的数据；

规范化处理模块：用于对数据进行规范化处理；

缺失值填补模块：用于对数据的缺失值进行填补；

本实施例提供的装置通过对数据进行规范化处理、填补缺失值、异常值探测和替换以及冗余变量检测实现数据规范化，数据清理，数据规约等目标，提高了数据预处理的准确性和效率，能够可靠地去除异常的数据点，便于进一步的分析研究。

实施例三：

本发明实施例还提供了一种半导体制造系统数据预处理装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一所述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种半导体生产过程数据预处理方法，其特征在于，包括以下步骤：

获取半导体生产过程中的数据，进行数据清理并进行数据集成；

对数据进行规范化处理，获取规范化处理后的数据；

对所述规范化处理后的数据进行检测并剔除异常值，获取异常值检测后数据；

对所述异常值检测后数据填补缺失值，获得补全数据；

对所述补全数据进行冗余变量检测，并剔除相应的冗余变量，获得输出数据。

2.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，所述半导体生产过程中的数据包括MES数据、ERP数据和SCADA数据；

所述数据集成的方法包括：根据所述半导体生产过程中的数据建立变量集X和数据集S，所述数据集S是由M条记录所组成的集合

其中，记录x_i描述一个特定对象，通常由N维属性向量表示，x_i＝(x_i1,x_i2,…,x_iN)，其中每一维表示一个属性，N表示属性向量的维度；第i个属性对应于随机变量X_i。

3.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，所述数据清理的方法包括以下步骤：

若半导体生产数据传感器采集的数据恒定或传感器采集的数据缺失值比率不小于50％，则删除该半导体生产数据传感器所采集的数据；

若样本数据中有不少于30％的传感器属性值空缺，则删除该样本数据。

4.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，所述对数据进行规范化处理的方法包括z-score规范化和校正变量异常值；

所述z-score规范化包括按下式对数据进行处理：

其中，x_li是变量Xi第l个观测值，即数据集中第l条记录的属性i的取值，μ_Xi是随机变量Xi的平均值，σ_Xi是随机变量Xi的标准差；

所述校正变量异常值的方法包括以下步骤：

如果x_li＞ub_Xi,则将x_li的值变更为ub_Xi；

如果x_li＜lb_Xi,则x_li的值变更为lb_Xi；

ub_Xi和lb_Xi分别是变量Xi的上界和下界，用来校正变量的异常值，取值如下：

d_F＝Q3_Xi-Q1_Xi (2)

ub_Xi＝Q1_Xi-1.5d_F (3)

ul_Xi＝Q3_Xi+1.5d_F (4)

其中，Q3_Xi是变量的上四分位数，Q1_Xi是变量的下四分位数，d_F是上下分位数距离，即极差。

5.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，所述对规范化处理后的数据检测异常值的方法包括基于GS-MPSO和K均值聚类的数据聚类算法进行异常值探测，包括如下步骤：

步骤1：将粒子i的解编码成D维向量，D＝K*N，K为聚类簇的个数，N为数据维度；

solution_i＝(centroid_i1,centroid_i2,…,centroid_iK)，centroid_iK是粒子i的解solution_i对第k个聚类簇的聚类中心centroid_k的初始化赋值，粒子i的解给定了每个聚类簇聚类中心的初始值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i；

步骤2：通过调整KMEANS的初始聚类中心来优化聚类准则J(Partition_K)以提高变量聚类的质量，将粒子i的解分解成K个聚类中心，包括centroid_i1,centroid_i2,…,centroid_iK,以centroid_i1,centroid_i2,…,centroid_iK为参数调用KMEANS可得变量聚类Partition_K及其聚类准则J(Partition_K)，以J(Partition_K)为异常值目标函数值。

6.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，所述填补缺失值的方法包括基于GD-MPSO和WKNN的空缺值填补方法；

所述基于GD-MPSO和WKNN的填补方法包括以下步骤：

对缺失数据集S_miss中的每个数据记录x_im，根据下式从完全数据集S_complete中找到K个最相邻的数据记录：

以下式求得该缺失值的估计量

进行缺失值填补：

7.根据权利要求6所述的半导体生产过程数据预处理方法，其特征在于，所述基于GD-MPSO和WKNN的填补方法的训练方法包括以下步骤：

步骤1：将粒子i的解solution_i编码成D维向量，solution_i＝(fw_i1,fw_i2,…,fw_iD)，D＝|X_complete|，fw_ij是solution_i对X_complete中第j个变量的权重赋值，0≤fw_ij≤1，solution_i是对所有属性的权重赋值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i；

步骤2：通过调整X_complete中变量在距离式中的权重来拟合S_complete，粒子i的解solution_i的目标函数值通过留一交叉验证法确定。

8.根据权利要求1所述的半导体生产过程数据预处理方法，其特征在于，进行冗余变量检测的方法包括如下步骤：

步骤1：将粒子i的解被编码成D维向量，D＝K*M，K为聚类簇的个数，M为变量的观测值的个数；solution_i＝(centroid_i1,centroid_i2,…,centroid_iK)，centroid_iK是粒子i的解solution_i对第k个聚类簇的聚类中心centroid_k的初始化赋值，粒子i的解给定了每个聚类簇聚类中心的初始值，粒子i的位置向量pos_i和最优位置pbest_i均可表示为solution_i；

步骤2：将粒子i的解分解成K个聚类中心，centroid_i1,centroid_i2,…,centroid_iK，以centroid_i1,centroid_i2,…,centroid_iK为参数调用KMEANSVAR可得变量聚类Partition_K及其聚类准则H(Partition_K)，以1/H(Partition_K)为冗余变量目标函数值。

9.一种半导体生产过程中数据预处理装置，其特征在于，所述装置包括：

数据获取模块：用于获取半导体生产过程中的数据，进行数据清理并进行数据集成；

规范化处理模块：对数据进行规范化处理，获取规范化处理后的数据；

异常值检测模块：对所述规范化处理后的数据进行检测并剔除异常值，获取异常值检测后数据；

填补缺失值模块：对所述异常值检测后数据填补缺失值，获得补全数据；

冗余变量检测模块：对所述补全数据进行冗余变量检测，并剔除相应的冗余变量，获得输出数据。

10.一种半导体生产过程中数据预处理装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～8任一项所述方法的步骤。