CN1701430A

CN1701430A - 用于数据分析的专家知识方法和系统

Info

Publication number: CN1701430A
Application number: CN03825317.8A
Authority: CN
Inventors: P·亚达夫; A·D·拜利三世
Original assignee: Lam Research Corp
Current assignee: Lam Research Corp
Priority date: 2002-09-26
Filing date: 2003-09-26
Publication date: 2005-11-23
Also published as: SG165993A1; JP5460648B2; US20040070623A1; CN100431126C; JP5496955B2; CN1742365A; JP2011228731A; JP2011228730A; US7239737B2

Abstract

给出了用于调整定义一组处理运转的数据矩阵的方法，每个处理运转都具有对应于用于晶片处理操作的一组变量的一组数据。得到来源于数据集的模型(116)。得到对应于一个处理运转的新数据集(118)。将新数据集投射到模型(120)。识别作为投射结果产生的界外值数据点(122)。识别对应于一个界外值数据点的变量，被识别变量显示了高度影响(126)。识别来自新数据集的变量的值。确定变量的值是否是不重要的(128)。使用随机数据和来自新数据集和数据集的每一个中的确定不重要的变量，创建标准化的数据矩阵(132)。用标准化的数据矩阵更新数据集。

Description

用于数据分析的专家知识方法和系统

相关申请的交叉引用

该申请要求于2002年9月26日提交的美国临时专利申请号60/414,021、名称为″用于工具发展和控制的量化均匀图案和包含专家知识的方法″的优先权，将其全部并入这里作为参考。

技术领域

本发明通常涉及用于分析在晶片处理设备上进行晶片处理操作的性能的方法，并且更具体地涉及用于识别引起统计控制之外的信号(out-of-statistical-control signal)的变量的方法和用于结合专家知识来确定这类信号的重要性的技术。

背景技术

为了量化和研究在晶片处理期间处理条件的影响，处理工程师承担的任务是开动许多的处理、其中每个都有特别的集合变量，然后全面地研究结果。众所周知，集合变量有许多。例如，变量可以包括腔室压力、腔室温度、输出到一个或两个电极的输出功率、静电卡盘箝位电压(electrostatic chuck clampingvoltage)、气体的种类和流速等等。因此，实际上，在处理晶片时测量和记录这类变量的数据。创建数据库是把这类变量的数据组织起来。在分析这类数据中，特别注意确定特殊变量的行为是否在可接受的范围内。

多变量统计过程控制工具有效地用于监测在历史处理运转和新处理运转之间的偏差。这些工具可以统计地定义基于历史数据的处理中的正常操作行为。基于统计预测的方法例如主元件分析(principal component analysis)(PCA)用来当一变量被认定是偏离了正常操作行为的范围时产生统计控制之外的信号。

由于多变量统计过程控制工具对大量的变量进行调节分析，所以结果模型是很敏感的、对于一些变量过于敏感。

与利用这些方法有关的另一个挑战是确定基于专家知识超出范围外的信号是否有意义。一些变量或变量值的范围比其它的更关键。例如，一旦晶片被夹入位置，则箝位电压会变化，然而还不认为是故障或是系统中的错误。一般地，当变量的值变化太大以致超出了统计控制时产生故障。因此，如果记录箝位电压的值相对于系统中其他的变量超出了可接受的统计范围，则其可被标记成问题并发送自动故障码停止晶片处理。

然而观察到相同箝位电压值的专家可能不会关心变量偏差。例如，虽然箝位电压的值超出了可接受的统计范围，但它仍会落在夹子适当地保持晶片的操作范围内。不幸地是，仍然登记有故障，即使专家知识会认为超出范围的信号是未批准的故障。最终结果是对纯数学的统计分析的依赖会导致错误的故障报警。然而，在处理期间，每个故障通常都会导致晶片处理操作的中止，从而导致浪费时间和金钱。

在基于统计预测的方法中产生的模型可通过结合用于特殊处理的大量数据和记录的每个变量的详细信息来更加稳固。该方法的限制是在构建模型期间变量并不总是可获得大量的数据并且实验操作的成本可能是很不切实际的。

由上文看来，所需的是用于在晶片处理系统中结合专家知识来识别和减少错误的故障报警的方法和系统。

发明内容

概括地讲，本发明通过提供在晶片处理系统中用于结合专家知识来识别不重要的统计控制之外的信号的方法和系统来满足该需要。发明的几个实施例描述如下。

在一实施例中，提供了用于调整数据集的方法，该数据集定义一组处理运转，拥有一组数据的每个处理运转对应于用于晶片处理操作的一组变量。得到来源于数据集的模型。得到对应于一个处理运转的新数据集。将新数据集投射模型。识别作为投射结果产生的界外值(outlier)数据点。识别对应于一个界外值数据点的变量，被识别的变量显示出高度的影响。识别来自新数据集的变量的值。确定变量的值是否不重要。利用随机数据和来自每个新数据集和数据集的确定是不重要的变量，来创建标准化的数据矩阵。用标准化的数据矩阵更新数据集。

在另一个实施例中，给出了用于调整定义一组处理运转的数据集的方法，每个处理运转都具有一组数据，该组数据对应于用于晶片处理操作的一组变量。得到来源于数据集的模型。得到新数据集。将新数据集投射模型。识别作为投射结果产生的界外值数据点。从界外值数据点中识别界外值数据点中的一个。识别对应于一个界外值数据点的变量，被识别的变量显示了高度的影响。确定该变量是否不重要。利用来自新数据和数据集的数据，创建标准化的数据矩阵，利用来自每个新数据和数据集确定不重要的变量，来创建标准化的数据矩阵。用标准化的数据矩阵更新数据集。

根据本发明的另一个方面，给出了用于更新定义一组处理运转的数据集的方法，每个处理运转都具有一组数据，该组数据对应于用于晶片处理操作的一组变量。得到数据集。执行定标(Scaling)该数据集。对定标数据集进行主元件分析来产生模型。得到新数据集。将新数据投射到模型。识别基于投射的界外值数据点。检查对应于一个界外值数据点的影响曲线(contribution plot)。识别对应于在影响曲线中给出高度影响的该一个界外值数据点的变量。确定该变量不重要。基于数据集的标准偏差和新数据的随机化来创建对于变量的脱敏(desensitizing)数据集。用脱敏数据集来扩大该数据集。

在一实施例中，给出了用于调整定义一组处理运转的数据矩阵的方法，每个处理运转都具有一组数据，该组数据对应于用于晶片处理操作的一组变量。得到N行和M列的数据矩阵，其中N等于处理运转的数量，而M等于数据矩阵中的变量的数量。得到有M个变量的新数据集，其中至少一个变量对应于一界外值并且基于专家输入是不重要的。生成包含N-1行的正态分布的随机向量。生成独自包含N-1行的一个向量。确定对应于数据矩阵中变量的数据的标准偏差。标准偏差乘以正态分布的随机向量，生产第一向量。对应于来自新数据的变量的数据乘以一个向量，生产第二向量。第一向量加上第二向量，生产第三向量。创建专家脱敏矩阵，其中第M列包含第三向量，而残余的列由对应于残余变量的数据组成。创建新数据矩阵，其中通过专家脱敏矩阵来扩大数据矩阵。

本发明的优点有许多。本发明的一个显著的好处和优点是，晶片加工系统中处理运转的数据集可通过合并较小数量的数据，结合专家知识被脱敏成不重要的变量数据。

自下列详细的描述并结合附图，本发明的其他优点将变得明白，其举例来说明本发明的原理。

应理解上文的一般描述及其后的详细描述仅是示范性的和解释性的，并且不限制所要求的本发明。

附图说明

附图，其并入和组成该说明书的一部分，图解本发明的示范实施例并且和描述一起用于说明本发明的原理。

图1是流程图图表100，根据本发明的一个实施例，其说明了用于晶片处理系统的执行调整处理运转的数据集的操作方法。

图2给出了根据本发明的一个实施例的残余曲线和一条附随的变量影响曲线。

图3给出了根据本发明的一个实施例的两条残余曲线。

图4给出了根据本发明的一个实施例的变量影响曲线。

图5给出了根据本发明的一个实施例的相关系数图表。

图6给出了原始模型结构和根据本发明的一个实施例的脱敏模型的比较。

具体实施方式

参考附图，现详细描述本发明的几个示范性的实施例。

图1是流程图图表100，根据本发明的一实施例，其说明了用于晶片处理系统的执行调整处理运转的数据集的操作方法，该操作方法使数据集脱敏为界外值，该数据被认作为不重要的变量数据。该方法开始于操作110，在其中得到数据集。例如，跟踪晶片处理系统中的许多参数或变量，例如，腔室压力、腔室温度、输出到一个或两个电极的功率、静电卡盘的箝位电压、气体的种类和流速等等。事实上，变量可以包括能被记录的或由于硬件变化或软件变化的影响而改变的任何变量。从而，变量可以表示定义用于执行处理运转的设备的设计中的变化的变量的范围。并且，当一系列晶片中的每一个投入处理运转时，测量和记录晶片处理系统中的每个变量的数据。在该实施例中，数据集涉及与晶片处理系统中一系列处理运转的变量集相对应的数据。

一旦得到数据集，方法就前进到操作112，其中对数据集执行定标。在一实施例中，可自动定标数据集以使每个变量都处于标准单位(即，有零平均值和单位标准差)来保证能跨越具有不同单位的变量比较数据。假定数据集已经被定标，则方法前进到操作114。

在操作114中，对定标数据集执行主元件分析(PCA)以产生数据集的PCA模型和多变量统计的号码(例如，Q-残余，T²残余)。多变量统计过程控制用于通过统计分析源自处理的数据来定义处理中正常的操作行为。主元件分析(PCA)是基于统计预测的技术，其能够检测处理中统计控制之外的信号。PCA给出了数据集的统计评价。除了PCA外，用于多变量统计过程控制的建模方法也可用在该步骤中。对定标数据集执行PCA将提供包括PCA模型的数据集的统计评价。

对定标数据集执行主元件分析之后，方法前进到操作116。在操作116中得到模型。得到的模型是PCA模型，其是在操作块114中对数据集执行PCA操作的结果。一旦得到模型，方法就前进到操作118。

在操作118中，得到新数据集。在操作118中得到的新数据集是和晶片处理系统中的一个处理运转相对应的新数据，具有与操作110中得到的原始数据集相同的变量集。该方法还可用于由多于一个的处理运转组成的新数据集。一旦得到新数据集，方法就前进到操作120。

在操作120中，定标新数据集并投射到模型中。在图1所示的实施例中，在新数据投射到模型上之前，用数据集变量的相同的平均数和标准偏差来定标新数据集。

新数据集投射到模型将提供具有对应变量影响曲线的残余曲线。这些曲线给出了关于在来自操作118的新数据集和来自操作110的数据集之间关系的统计信息。残余曲线将显示出，来自操作块118的新处理运转的新数据集是否符合相对于来自操作110的数据集的多变量平均数、多变量变化以及选择的置信界限的统计界外值。在该实施例中，使用的残余曲线是Q残余曲线。在另一个实施例中，使用的残余曲线是T²残余曲线。

假定新数据已经投射到模型，则方法前进到操作122。在操作122中，检查当新数据集投射到模型时产生的残余曲线，以确定是否有一个界外值数据点或多个界外值数据点存在。由于新数据集包含超过一个的处理运转，每个处理运转将相应于残余曲线上的单一数据点。如果新数据集点落在来自操作110的数据集的Q残余的可接受的范围之外(即，相对于模型置信界限超出了范围)，则存在界外值。一旦作出界外值是否存在的确定，在界外值不存在时操作将进行到操作块124，在存在界外值时操作将进行到操作块126。

如果在操作块122中检查的残余曲线不存在界外值，则方法前进到操作124。在操作124中，新数据集与操作110中得到的数据集合并以创建扩展数据集。然后将该扩展数据集发送给操作块110，并且该方法再次从操作块110开始。

如果在操作块122中检查的残余曲线中不存在界外值，则方法前进到操作块126。在操作126中，对于有高度影响的变量因素检查对应于在操作122中识别出的界外值数据点的影响曲线。在操作120中新数据集投射到模型上之后产生的残余曲线将包含新数据集的每个处理运转的一个数据点。残余曲线上的每个数据点然后将依次和影响曲线关联。每个影响曲线将显示出每个变量的影响对Q残余的相对影响。如果变量有高度的相对影响，那么它被确定为具有高度影响的变量因素。影响是否高是主观确定的。对于该例子，我们将假定仅存在一个具有高度影响的变量因素。然而影响曲线可以有超过一个的变量因素并可使用将在下面讨论的方法来调节。一旦检查了影响曲线并且确定变量为具有高度影响，则方法前进到操作块128。

在操作128中，专家知识用来决定确定具有高度影响的变量或变量值是否认为是不重要的。这里的专家知识是关于变量或变量值的信息。在该例子中，专家是关于每个变量的重要性有着广泛的知识和经验的工程师。从而，如果决定的变量因素是例如晶片箝位电压变量，则专家可以认为该变量是不重要的变量。

此外，专家知识会认为用于晶片箝位电压的某一范围是可接受的，即使该值在可接受的统计界限之外。例如，晶片箝位电压可在技术标准之内。因此在基于晶片箝位电压的给定值的系统中不称作是故障。在这种情况下，专家知识会将用于变量的特定值范围标记成不重要的。如果专家知识认为变量的值实际上迫使产生故障，则在操作块128之后，方法就会前进到操作块130。在操作块130中，被检测出在统计范围之外的变量将触发故障。可选地，如果专家知识标记变量或变量的值为不重要的，那么方法将前进到操作块132。

在操作132中，将执行专家随机数发生器(ER)来创建脱敏矩阵，并且然后将脱敏矩阵增加到在操作块110中最初得到的数据集。专家随机数发生器通过利用正态分布的随机数据和与来自新数据的变量数据一起的数据集的变量数据，来执行标准化与变量相对应的新数据的方法。在图1所示的实施例中，数据集和新数据集分别表示操作块110和118中得到的数据(即，在定标之前)。使用随机数据和变量数据(即，脱敏的变量值)来配置专家随机数发生器，以产生正态分布的脱敏矩阵。然后将脱敏矩阵增加到操作块110中得到的数据集。

脱敏矩阵将脱敏关于新数据中的变量值的数据集，使得如果在新数据的后来集合中看到同样的变量数据，当新数据投射到PCA模型上时，同样的变量数据在残余曲线中将不会引起界外值。利用本发明的教导显著地改善了先有技术实施例，其通过分析，完全地除去促使数据成为界外值的一个变量或多个变量来进行轻微的脱敏。这是重要的区别，由于除去变量消除了基于那些特殊变量连续检测界外值的能力。根据本发明的教导，仍可在脱敏水平之上的偏差水平处检测出这类界外值，其仍然是很具有价值的。

用于故障检测的多变量统计模型的强度中的一个是包括变量中相关变化的故障行为的量化。这些相关和它们对变量偏差的相对灵敏性被认为是模型的″结构″，其可通过比较模型中变量的负荷来真实地评定。本发明的方法中内在的另一个优点是，在一个变量或多个变量中将模型脱敏到偏差而不毁坏模型的结构，其可以在图6中见到。结果，保持原始的多变量模型的优点来检测变量中同样类型的相关变化。专家随机数发生器是标准化变量数据的方法实施例。专家随机数发生器的更多细节将在下面给出。

在通过脱敏矩阵将操作块110中最初得到数据集增加之后，发送得到的数据矩阵到操作块110以使在必要时再次开始该方法。

参考图2，将接着论述说明将上述方法应用到具有多于一个处理运转的新数据集的例子。在该例子中，原始数据，即在操作块110中得到的数据集，包含45个样本(即，处理运转)，每个有29个变量。新数据，即在操作块118中得到的新数据集包含44个样本，每个有29个变量。假定正确地定标数据集，进行主元件分析来创建模型。接下来，将新数据集投射到模型。在将新数据集投射到模型之后产生了残余曲线，并且从残余曲线可确定新数据中提供的44个处理运转之一是否引起了界外值。

如图2所示，给出了根据本发明一个实施例的残余曲线和一条伴随的变量影响曲线。如上所述，图2给出了与投射44个处理运转的新数据集(每个有29个变量)到PCA模型有关的残余曲线140和相应于示范性的44^th处理运转的变量影响绘图170。水平的短划线150贯穿原点代表由原始数据集确定的模型的置信界限。以线贯穿显示的圆为代表的线155代表新数据的44个处理运转的Q残值。如残余曲线140所示，新数据集的所有44个处理运转相对于数据集是界外值。

示范性的44^th处理运转的变量影响示于变量影响曲线170中。变量四(4)175的相对影响是高的。对于该例子只有一个具有高度影响的变量，但是在其他实施例中可能有超过一个的有高度影响的变量。在影响曲线170中识别变量四为具有高度影响之后，以专家输入来设法确定变量四是否是不重要的(即，如果变量四的值，虽然引起界外值，但仍然是可接受的并且不会被标为故障)。假如基于专家知识变量四被认为是不重要的，将标准化新数据集。这里，专家随机数发生器用来调整新数据集。下面将更详细地给出专家随机数发生器的一个实施例。

一旦应用专家随机数发生器来创建脱敏矩阵并且用这个脱敏矩阵来增加数据集，就可以以增加的数据集再次运行该方法。如果以具有和上述讨论到的第一新数据相同值的新数据集再次运行该方法，则变量四数据将不会引起界外值。将变量四的界外行为从数据集中脱敏出去。使用以脱敏矩阵增加的数据集再次运行该方法和引入与上面使用的44个处理运转的数据集相同的新数据集的结果将在并列的残余曲线中示出。

根据本发明的一个实施例，图3给出了两条残余曲线。图3给出了从图2在图形的0到44的样本号侧的残余曲线，其中样本号表示处理运转。图的残余部分给出了由第二次执行方法引起的残余曲线。在方法的第二执行中数据集用脱敏矩阵来增加并且使用的新数据集与上面用的44个处理运转的数据集一致。比较图形的左边侧面，显示了代表没有专家知识的新数据的残余曲线，图形的右侧面显示了代表已经通过脱敏矩阵执行专家知识之后的新数据的残余曲线，它表明已经显著地减少了数据的44样本集的残余并显著地脱敏了分析。现在第二数据运转位于模型置信界限内。模型置信界限与图2中的水平短划线150相同，代表PCA模型投射上的数据集。

根据本发明的一实施例，图4给出了变量影响曲线。图4中的变量影响曲线代表伴随着残余曲线的44^th样本，其由使用以脱敏矩阵增加的数据集来运行方法引起，然后引入和最初使用的44处理运转数据集一致的新数据集。如图4所示，变量四不再是具有高度影响的因素。因此专家随机数发生器决定数据集以便使最初引起界外值的变量四现在被认为是统计正常的。

如果变量不一致，例如上面的变量四，在处理运转中不和其它变量强相关，本发明的实施例则更有效运转。借助于相关系数图表可以检查贯穿变量的相关性。相关系数图表是为图2和3中讨论的例子提供的。可用PCA的应用产生相关系数图表。

根据本发明的一实施例，图5给出了相关系数图表。如图5所示，变量四不与在处理运转中样本44的其它28个变量强相关。如果在变量四和其他变量之间的相关性是强的，那么可能更难应用该方法。当将专家随机数发生器应用到一个关心的变量时，如果其它变量与关心的变量是强关联的，则在某种程度上也将它们脱敏。因此，如果有和关心的变量强相关的变量并且将不会脱敏这些变量，则该专家随机数发生器的有效性将减少。因此在该专家随机数发生器被用于新数据集之前，审阅关心的变量与数据集中的剩余变量如何相互关联的相关图是重要的。

用于专家随机数发生器的示范代码在下列表中给出。在下面的表1中，该代码提供了用于当新数据集由一个样本即一个处理运转组成时的情况。下面的表2提供了用于当新数据集由多个样本即多于一个的处理运转组成时的情况。表1和表2都提供了用于当一或多个变量在新数据的单个处理运转内被识别脱敏时的情况。在注释部分中提供了matlab变量的定义。注意虽然使用了matlab，但执行功能的任何合适的软件语言都可用于创建专家随机数发生器。

表1

注释：

Data：包含输入的原始数据的矩阵

m：原文数据中的样本数

n：原始数据中的变量数

x：包含输入的新数据的矩阵

mm：新数据中有相同数量的变量(n)的样本数

p：确定为不重要的并且有高度影响的变量的索引

kn：丢弃的不与其它变量强相关的变量数

km＝1，丢弃向量的行数

s：输入的原始数据中变量的标准偏差

NDR：正态分布随机向量的大小m乘1

O：一向量的大小m乘1

r：基于专家知识计算的列向量

ED：专家数据矩阵

专家随机数发生器的matlab子程序

示例1：新数据的一示例的示范性代码

ED＝zeros(m，n)；％赋值/初始化ED为大小是m乘n的零矩阵

ED(1，：)＝x；％赋值ED的1^st行作为新的样本

for j＝1：kn％为每个变量脱敏开始循环产生专家数据矩阵

NDR＝randn(m-1，1)；％产生正态分布的随机列向量

O＝ones(m-1，1)；％为计算产生独自的列-向量

r(：j)＝s(1，p(j))*NDR+x(mm，p(j))*O；％计算基于专家知识脱敏变量的新数值

ifp(km，j)＞1％检测丢弃的变量是否不是在矩阵中的第一变量

for i＝2：m％为复制样本循环

ED(i，1：p(j)-1)＝x(mm，1：p(j)-1)；

ED(i，p(j)+1：end)＝x(mm，p(j)+1：end)；

end

elsei fp(km，j)＝1％检测丢弃的变量是否是在矩阵中的第一变量

for i＝2：m

ED(i，p(j)+1：end)＝x(mm，p(j)+1：end)；％赋值未被脱敏的变量值

end

for pp＝1：kn

ED(2：m，p(pp))＝r(：，pp)；％赋值脱敏的变量值

end

Data＝[Data；ED]；％增加原始数据矩阵以包括新的矩阵

表2

注释：

Data：包含输入的原始数据的矩阵

m：原始数据中的样本数

n：原始数据中的变量数

x：包含新数据的矩阵

mm：新数据中有相同数量的变量(n)的样本数

p：确定为不重要的并且有高度影响的变量的索引

kn：丢弃的不与其它变量强相关的变量数

km＝1，丢弃向量的行数

s：输入的原始数据中变量的标准偏差

NDR：正态分布随机向量的大小m乘1

O：一个向量的大小m乘1

r：基于专家工程师知识计算的列向量

ED：专家数据矩阵

专家随机数发生器matlab子程序

示例2：用于新数据的任何样本数的示范代码。

ED＝zeros(2*mm，nn)；％赋值/初始化ED为大小是m×n的零矩阵

ED(1：mm，1：nn)＝x；％赋值ED的第一行作为新的样本

for j＝1：kn％为每个变量脱敏开始循环产生专家数据矩阵

NDR＝randn(mm，1)；％产生正态分布的随机列向量

O＝ones(mm，1)；％为计算产生独自的列-向量

r(：，j)＝s(1，p(j))*NDR+x(mm，p(j))*O；％计算基于专家知识脱敏变量的新数值

if p(km，j)＞1％检测丢弃的变量是否不是在矩阵中的第一变量

for i＝mm+1：2*mm％为复制样本循环

ED(i，1：p(j)-1)＝x(i-mm，1：p(j)-1)；

ED(i，p(j)+1：end)＝x(i-mm，p(j)+1：end)；

end

elseif p(km，j)＝1％检测丢弃的变量是否是在矩阵中的第一变量

for i＝mm+1：2*mm

ED(i，p(j)+1：end)＝x(i-mm，p(j)+1：end)；％赋值未被脱敏的变量值

end

for pp＝1：kn

ED(mm+1：2*mm，p(pp))＝r(：，pp)；％赋值脱敏的变量值

end

Data＝[Data；ED]；％增加原始数据矩阵以包括新的矩阵

下面给出的是描述表1中给出的专家随机数发生器matlab子程序执行的例子。在该例子中，新数据集包括一个样本(即，处理运转)。在该例子中仅脱敏一个变量。该例子是一般化给出的并且对表1中给出的专家随机数发生器matlab子程序中执行的操作步骤全面理解。该例子可以不包括代码的每个操作的描述。

步骤1

由输入数据来赋值给某些matlab变量(初始化没有全部示于代码中)。数据是包含晶片加工系统的原始数据的matlab变量。基于相同的设备上的相同处理的前一运转，原始数据的值是已知的。原始数据输入matlab以用于计算。在该例子中，Data的值如下：

Data＝

列 1 2 3

行1 10.0 200.0 3.2

行2 10.1 200.1 3.2

行3 9.8 199.8 3.1

行4 10.0 200.2 3.1

由m(＝4)行和n(＝3)列的矩阵来表示数据。每个列代表晶片处理系统中的变量(即，在该例子中有3个变量)。每行代表一样本(即，处理运转)。

步骤2

由matlab变量x代表新数据。新数据必须包含和该原始数据一样数量的变量(n＝3)。新数据输入到matlab中并且被初始化。对于该例子，每个变量/列的新数据的值是：

x＝10 200 3

初始化专家随机数发生器之前，已经确定x是界外值(当和原始数据比较时，‘Data’)。并且，对于这些例子，已经假定第三变量为高度影响并且基于工程师知识已经标记为不重要的。

步骤3

ED被初始化具有和Data矩阵(步骤1)一样大小，其中每个元素赋值0。

ED＝zeros(m，n)

对于该步骤，ED的值为：

ED＝

0 0 0

步骤4

ED的第一行赋值为来自新样本的值，x

对于该步骤，ED的值为：

ED＝

10 200 3

0 0 0

步骤5

计算Data的标准偏差。标准偏差将用来产生专家随机数发生器。

s＝std(Data)

std是matlab命令，其计算矩阵的标准偏差。

因此s的值显示如下：

s＝0.13 0.17 0.06

s向量中的每个数表示Data矩阵中变量的标准偏差。

步骤6

接下来，产生3行的正态分布的随机向量。

NDR＝randn(3，1)，其中randn是标准的matlab命令，其产生随机数。

NDR的值显示如下：

NDR＝

0.7119

1.2902

0.6686

步骤7

产生标记为O的向量。O向量包含ones并且具有和NDR相同的行数。该向量用来促进矩阵计算。

O＝ones(3，1)，其中`ones`是标准的matlab命令

O的值显示如下：

O＝

1

步骤8

在该步骤中，来自Data(即，s(1，3))的第三变量的标准偏差乘以NDR。该结果值加上来自新的data(x(1，3))的第三变量的值。

r＝s(1，3)*NDR+x(1，3)*O

这给出：

r＝

3.0411

3.0745

3.0386

步骤9

制造新数据的多个拷贝，其未被脱敏，并且赋给ED矩阵的第二、第三和第四行

ED＝

10 200 3

10 200 0

步骤10

r的值赋给ED矩阵的第三列的行2到4。

ED(2：4，3)＝r

因此，

ED＝

10 200 3.0000

10 200 3.0411

10 200 3.0745

10 200 3.0386

步骤11

最后，ED增加到Data矩阵。该新的矩阵代替Data。

Data＝[Data；ED]

因此，

Data＝

10.0 200.0 3.2000

10.1 200.1 3.2000

9.8 199.8 3.1000

10.0 200.2 3.1000

10.0 200.0 3.0000

10.0 200.0 3.0411

10.0 200.0 3.0745

10.0 200.0 3.0386

如描述所示，专家随机数发生器提供了用于调整新数据集的方法，该数据集有界外值、高度影响，并且上述讨论到专家知识标准根据原始数据集标准化新数据。然后增加标准化的数据到原始数据集。因此，脱敏增加的数据成最初引起界外值的变量数据。

成为本发明的一部分的在此描述的任何操作都是有用的机器操作。本发明还涉及执行这些操作的设备或装置。可为所需要的目的特别地构造装置，或可以是由计算机中存储的计算机程序选择地启动或配置的通用计算机。特别地，可以以写入与此处教导相一致的计算机程序来使用各种各样的通用机器，或可更方便地构造专门的装置来执行所要求的操作。

本发明还可具体化为计算机可读媒介上的计算机可读取的代码。计算机可读媒介是任何的数据存储设备，其可以储存其后能被计算机系统读取的数据。计算机可读媒介的例子包括硬盘、连接网络的存储器(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带、及其它光学或非光学数据存储器装置。计算机可读媒介还可以分布在网络耦合的计算机系统，以便以分布式方式来存储和执行计算机可读代码。

应更进一步理解图1中的由操作代表的指令不要求按说明的顺序执行，并且由操作代表的全部处理可以对实现本发明不是必需的。更进一步，还可以在存储在RAM、ROM或硬盘驱动器中任何一个或结合中的软件中执行图1描述的处理。

总之，本发明的实施例提供了在晶片处理系统中用于结合专家知识来识别不重要的统计控制之外的信号的方法。在此根据几个示范的实施例已经描述了本发明。本发明的其他实施例从考虑本说明书和本发明的实践对于那些本领域技术人员将是显而易见。对本实施例和上述优选的特征应认为是示范的，本发明通过所附的权利要求和等同物来定义。

Claims

1.一种用于调整定义一组处理运转的数据集的方法，，每个处理运转具有对应于用于晶片处理操作的一组变量的一组数据，包括：

得到来源于数据集的模型；

得到相应于一个处理运转的新数据集；

将新数据集投射到模型；

识别作为投射结果产生的界外值数据点；

识别对应于一个界外值数据点的变量，被识别的变量显示出高度影响；

识别来自新数据集的变量的值；

确定变量的值是否是不重要的；

创建标准化的数据矩阵，使用随机数据和从新数据集和数据集中的每一个中确定是不重要的变量；和

用标准化的数据矩阵来更新该数据集。

2.如权利要求1的方法，进一步包括：

得到来源于更新数据集的第二模型。

3.如权利要求2的方法，进一步包括：

得到新数据集；和

将新数据集投射到第二模型。

4.如权利要求3的方法，进一步包括：

确定一个界外值数据点是否仍是界外值。

5.如权利要求1的方法，其中变量集包括至少一个或多个代表腔室压力、腔室温度、到至少一个电极的输出功率、静电卡盘箝位电压、至少一个气体流速、可记录的过程变量、过程参数中的变化、和软件设置过程参数中的变化的变量。

6.如权利要求1的方法，其中以专家知识执行确定变量的值是否是不重要的。

7.如权利要求6的方法，其中专家知识是对变量行为的认识。

8.如权利要求1的方法，其中如果值在晶片处理操作中不需要称作故障，则变量的值是不重要的。

9.如权利要求1的方法，进一步包括：

在确定变量的值是否是不重要的之后，确定变量是否与来自变量集的剩余变量强相关。

10.一种用于调整定义一组处理运转的数据集的方法，每个处理运转都具有对应于用于晶片处理操作的一组变量的一组数据，包括：

(a)得到来源于数据集的模型；

(b)得到新数据集；

(c)将新数据集投射到模型；

(d)识别作为投射结果产生的界外值数据点；

(e)从界外值数据点中识别界外值数据点中的一个；

(f)识别对应于一个界外值数据点的变量，被识别的变量显示出高度影响；

(g)确定变量的值是否是不重要的；

(h)使用来自新数据和数据集的数据，创建标准化的数据矩阵，创建的标准化数据矩阵使用从新数据和数据集的每一个中确定为不重要的变量；和

(i)用标准化的数据矩阵来更新数据集。

11.如权利要求10的方法，进一步包括：

为每个界外值数据点执行步骤(e)-(i)一次。

12.如权利要求10的方法，其中以专家知识执行确定变量的值是否是不重要的。

13.如权利要求10的方法，其中专家知识是对变量行为的认识。

14.一种用于更新定义一组处理运转的数据集的方法，每个处理运转具有对应于用于晶片处理操作的一组变量的一组数据，包括：

得到数据集；

执行定标数据集；

对定标的数据集执行主元件分析来产生模型；

得到新数据；

将新数据投射到模型；

基于投射识别界外值数据点；

检查对应于界外值数据点中的一个的影响曲线；

识别对应于在影响曲线中提供高度影响的一个界外值数据点的变量；

确定该变量是不重要的；

基于数据集的标准偏差和新数据的随机化来创建变量的脱敏数据集；和

将数据集增加到数据集。

15.权利要求14的方法，其中以专家知识执行确定变量的值是否是不重要的。

16.如权利要求15的方法，其中专家知识是对变量行为的认识。

17.一种用于调整定义一组处理运转的数据矩阵的方法，每个处理运转都具有对应于用于晶片处理操作的一组变量的一组数据，包括：

得到N行和M列的数据矩阵，其中N等于处理运转的数量，而M等于数据矩阵中的变量的数量；

得到有M个变量的新数据集，其中至少一个变量对应于一界外值并且基于专家输入是不重要的；

产生成包含N-1行的正态分布随机向量；

产生独自包含N-1行的一个向量；

确定对应于数据矩阵中变量的数据的标准偏差；

标准偏差乘以正态分布的随机向量，生成第一向量；

对应于来自新数据的变量的数据乘以一个向量，生成第二向量；

第一向量加上第二向量，生成第三向量；

创建专家脱敏矩阵，其中第M列包含第三向量，而剩余的列由对应于剩余变量的数据组成；和

创建新数据矩阵，其中通过专家脱敏矩阵来增加数据矩阵。

18.一种用于脱敏与晶片处理操作有关的处理变量的方法，设置脱敏来防止处理变量引起错误的正面故障，该正面故障会引起晶片处理操作中止，该方法包括：

参考表示处理操作的原始模型；

运行新处理操作来产生表示新处理操作的数据；

将数据投射到原始模型上；

检查作为投射结果的被识别成界外值的数据点，指示故障的界外值将使处理中止；

应用专家知识确定引起数据点成为界外值的处理变量是否是不重要的；

产生脱敏数据；和

用脱敏数据增加用于产生原始模型的数据，设置增加来防止处理变量引起数据点在后续处理操作中被错误地识别为界外值。

19.如权利要求18所述的用于脱敏与晶片处理操作有关的处理变量的方法，其中增加不改变原始模型的结构。

20.如权利要求18所述的用于脱敏与晶片处理操作有关的处理变量的方法，其中增加能精确地识别真故障。

21.一种基于工程师知识的用于脱敏变量的专家系统，包括：

包括处理运转的数据的第一数据库；

包括数据的相应模型的第二数据库；

与第一和第二数据库连接的处理器；和

识别界外值和引起界外值的变量影响的逻辑，该逻辑被进一步设置成在变量影响的检查中结合专家工程师知识，该逻辑调整数据是以便将来的处理运转适当地识别得到的界外值作为故障。

22.如权利要求21所述的基于工程师知识的用于脱敏变量的专家系统，其中由于能引起错误的正面故障的变量影响的脱敏，专家系统能正确地检测故障。

23.如权利要求21所述的基于工程师知识的用于脱敏变量的专家系统，其中变量代表定义在用于执行处理运转的设备的设计中的变化的变量范围。