CN113544591A

CN113544591A - 从数据集提取特征

Info

Publication number: CN113544591A
Application number: CN202080018832.XA
Authority: CN
Inventors: M·拉兰纳加; D·格科鲁; F·哈西毕; A·伊普玛
Original assignee: ASML Holding NV
Current assignee: ASML Holding NV
Priority date: 2019-03-06
Filing date: 2020-02-06
Publication date: 2021-10-22
Anticipated expiration: 2040-02-06
Also published as: TW202101127A; EP3935448B1; TWI734390B; EP3705944A1; WO2020177973A1; KR20210124377A; CN113544591B; US11579534B2; KR102554791B1; US20220128908A1; EP3935448A1

Abstract

一种从数据集提取特征的方法包括：基于数据集内所包括的残差图案的可视化(238)从数据集提取特征(244)，其中特征不同于在先前迭代中提取的特征，并且残差图案的可视化使用在先前迭代中提取的特征。使用在先前迭代中提取的特征可视化(234)数据集可以包括：生成属性数据的与目标数据相关的残差图案。使用在先前迭代中提取的特征可视化(234)数据集可以涉及：基于在先前迭代中提取的特征，将集群约束添加到数据集。附加地或备选地，使用在先前迭代中提取的特征可视化(234)数据集可以涉及：定义以在先前迭代中提取的特征为条件的条件概率。

Description

从数据集提取特征

相关申请的交叉引用

本申请要求于2019年3月6日提交的EP申请19160933.8的优先权，其通过引用全部并入本文。

背景技术

发明领域

本发明涉及一种从数据集提取特征的方法，例如可用于由光刻技术制造器件过程中。本发明还涉及关联的计算机程序和计算机程序产品以及一种包括光刻设备和光刻单元的设备。

光刻设备是将期望图案施加到衬底上(通常施加到衬底的目标部分上)的机器。光刻设备可以被用于例如集成电路(IC)的制造中。在该实例中，图案化装置(备选地被称为掩模或掩模版)可以被用于生成要被形成在IC的单个层上的电路图案。该图案可以被转印到衬底(例如硅晶片)上的目标部分(例如包括部分管芯、一个或多个管芯)上。图案的转印通常经由成像到在衬底上提供的辐射敏感材料(抗蚀剂)层上。通常，单个衬底将包含被连续图案化的相邻目标部分的网络。这些目标部分一般被称为“场”。

当前在光刻处理期间，许多上下文数据被生成。该上下文数据是与测量值和机器/过程设置和传感器读数相关联的变量值的大的集合。光刻过程的质量以由性能参数的值集组成的所谓性能数据表达。性能参数可能与CD(关键尺寸)控制、重叠控制(装置中的两层对准的准确性)或底层参数(例如聚焦和剂量)相关。性能数据是非常关注的，因为该数据允许光刻过程的控制。例如，重叠性能的知识将被用于采取校正动作(例如通过改变机器设置)。同时，性能数据的知识有助于触发超出范围的情况(例如用于过程控制和找到超出范围情况的原因)。

光刻设备(诸如扫描仪)和处理工具的上下文参数以非线性方式影响产品衬底上的图案化性能。由于光刻步骤的复杂性，准确建模以预测这些参数对扫描仪性能的影响需要对底层物理过程有很好的理解。上下文参数可以包括硬件设置和传感器测量值。上下文参数易于访问，并且可用于大量曝光。因此，对高维数据集的访问被提供，导致了挑战预测问题(诸如层到层重叠预测或通过图像对缺陷进行分类)。领域专家花费大量时间来处理该数据。例如，这种处理包括选择用于诊断的相关特征、手动特征工程、找到稳定信号等。

在本公开中，我们将上下文数据集中的原始输入参数和信号称为属性(例如所应用的自动过程控制环路校正或晶片台空气温度)。这些可以是直接从扫描仪中的传感器获得的参数。属性可以被选择作为特征。被构造和/或设计、变换属性的参数和信号也被称为特征(例如机器指纹)。机器学习领域的技术人员可以使用术语属性和特征来指代对应的实体。因此，特征可以通过特征选择过程从属性中选择。而且，特征可以通过特征提取过程从属性的变换或组合来构造。

在定义预测模型(在本文中也称为学习机)之前，有多种方式来处理高维数据集。这种方法包括：

1.一种途径包括作为建模过程的一部分的数据处理。在一些学习机中，特征提取和特征选择是建模过程的一部分。例如，针对人工神经网络(ANN)，特征提取/构造是ANN的建模过程中的步骤。ANN中的“隐藏层”学习输入数据(例如人脸图像的像素)的各种表示(即，特征)，这些表示与输出值(例如情感)的预测相关。

2.一种途径包括建模之前的数据处理。针对大多数学习机(例如决策树、线性回归等)，特征选择和特征提取是预处理步骤。这种预处理可以使用以下技术中的一种或多种来完成：

2(a)标准化和归一化：大多数属性处于不同的规模，标准化和归一化有助于使属性相互相当。

2(b)信号增强去噪或平滑以及应用滤波器有助于改良输入属性。

2(c)线性或非线性空间嵌入方法。这些方法允许人们在较低(更可解释的)维度中分析高维数据。它们还可以实现数据的可视化。合适的方法有主成分分析(PCA)、t分布随机邻域嵌入(t-SNE)、均匀流形逼近和投影(UMAP)等。

2(d)非线性扩展通过创建与属性相乘的特征来增加数据的维度，这有助于学习机。

上面提及的方法对应于用于特征选择和提取的大量可用文献。

关于增量学习的一般描述由国际专利申请公开WO2018133999公开，其通过引用并入本文。

先前的途径的问题包括以下：

数据探索可能是艰巨且耗时的：人眼无法直接从高维数据集取回信息。领域专家采用大量时间分析数据，以掌握其中与预测任务相关的图案/指纹。

冗余特征和假性相关：冗余特征和生成假性相关的特征保留在预测模型中，并降低它们的预测准确性。

“黑盒”式学习机：许多学习机都是黑盒，并且领域专家难以理解模型为何有效或为何无效。人工神经网络是非常强大的学习机；然而，它们不容易解释，并且它们提取的特征也不容易被领域专家理解。

数据可视化：通常，降维方法和数据可视化方法无法为专家提供未知信息。可视化倾向于示出领域专家已经熟知的图案。

维度灾难和相关特征遗漏：在半导体制造中，数据集通常是具有很少标记的性能参数数据点的高维数据集(例如昂贵的测量值)。大多数学习机无法执行良好的预测，因为它们无法隔离真正相关的特征。通常，一些相关特征将被简单地丢弃，因为没有足够的数据来正确评估它们的相关性。

不存在将来自领域专家的知识包括到特征提取和选择中以用于预测模型的结构化方式。这些知识是领域特定的，并且取决于问题设置。

发明内容

本发明人已经设计了一种具有用于数据探索(即，特征选择和提取)的人工辅助交互方案的方式。期望所提取的特征对领域专家来说易于解释和理解。当前公开提出了专门为特征选择和提取、数据聚类和映射以及图形结构学习定制的扩展。期望具有一种用于特征选择和提取的人工辅助框架，该框架将允许用户获得易于解释的预测模型，同时避免或至少减轻上面提及的一个或多个关联问题。

在第一方面中，本发明提供了一种从与半导体制造过程相关联的数据集提取特征的方法，该方法包括：基于数据集内所包括的残差图案的可视化从数据集迭代地提取特征，其中该特征不同于在先前迭代中提取的先前特征，并且残差图案的可视化使用先前特征。

该方法还可以包括：使用在先前迭代中提取的先前特征执行特征选择，以排除在提供可视化时使用特征。

在第二方面中，本发明提供了一种工业处理方法，包括第一方面的从数据集提取特征的方法，并且还包括使用所提取的特征来控制工业过程。

在第三方面中，本发明提供了一种包括计算机可读指令的计算机程序，当在合适的计算机设备上运行时，该计算机可读指令引起计算机设备执行第一方面的方法。

在第四方面中，本发明提供了一种计算机程序产品，包括第三方面的计算机程序。

在第五方面中，本发明提供了一种设备，特别适用于执行第一方面的方法的步骤。该设备可以被特别配置为可操作以执行光刻生产过程的光刻设备。该设备可以被特别配置为可操作以执行光刻生产过程的光刻单元。

附图说明

本发明的实施例现在将通过示例参照附图描述，其中：

图1描绘了根据本发明的方法可以被使用的光刻单元或集群。

图2是根据本发明的实施例的用于从数据集选择和提取特征的方法的流程图。

图3图示了在实施本文公开的方法时有用的计算机系统硬件。

具体实施方式

在更详细地描述本发明的实施例之前，呈现本发明的实施例可以被实施的示例环境是有益的。

图1描绘了根据本发明的检查设备可以被使用的光刻单元或集群。

如图1所示，光刻设备LA形成光刻单元LC的一部分，有时也称为光刻单元或集群，其还包括在衬底上执行曝光前和曝光后过程的设备。常规地，这些包括用于沉积抗蚀剂层的旋涂机SC、用于显影曝光后的抗蚀剂的显影剂DE、冷却板CH和烘烤板BK。衬底处置器或机器人RO从输入/输出端口I/O1、I/O2拾取衬底，使它们在不同的处理设备之间移动，然后递送给光刻设备的装载机架LB。通常被统称为轨道的这些装置受轨道控制单元TCU的控制，该轨道控制单元TCU本身由监控系统SCS控制，该监控系统SCS也经由光刻控制单元LACU控制光刻设备。因此，不同的设备可以被操作，以最大化吞吐量和处理效率。

为了由光刻设备曝光的衬底被正确且一致地曝光，期望检查经曝光的衬底，以测量诸如后续层之间的重叠误差、线厚度、临界尺寸(CD)等特性。因此，光刻单元LC所在的制造设施还包括量测系统MET，该量测系统MET接收已在光刻单元中被处理的一些或全部衬底W。量测结果被直接或间接地提供给监控系统SCS。如果检测误差，则调整可以对后续衬底的曝光进行，特别是如果检查可以立即且足够快地完成，以致同一批次的其他衬底仍要被曝光。而且，已经曝光的衬底可以被剥离和返工以提高产量，或者被丢弃，从而避免对已知有缺陷的衬底执行进一步处理。在衬底的仅一些目标部分有缺陷的情况下，进一步的曝光可以仅对那些好的目标部分执行。

在量测系统MET内，检查设备被用于确定衬底的特性，并且特别是不同衬底或同一衬底的不同层的特性如何在层与层之间变化。检查设备可以被集成到光刻设备LA或光刻电池LC中，或者可以是独立装置。为了能够进行最迅速的测量，期望检查设备在曝光之后立即测量经曝光的抗蚀剂层的特性。然而，抗蚀剂中的潜像具有非常低的对比度—已被暴露于辐射的抗蚀剂部分与未被暴露于辐射的部分之间的折射率差异仅非常小—并且并非所有检测设备都具有足够的灵敏度对潜像进行有用的测量。因此，测量可以在曝光后烘烤步骤(PEB)之后进行，该步骤通常是对经曝光衬底执行的第一步骤，并增加了抗蚀剂的曝光和未曝光部分之间的对比度。在这个阶段，抗蚀剂中的图像可以被称为半潜的。还可以测量已显影的抗蚀剂图像—此时抗蚀剂的曝光或未曝光部分已被去除—或在图案转印步骤(诸如蚀刻)之后进行测量。后一种可能性限制了有缺陷衬底返工的可能性，但仍然可以提供有用的信息。

光刻设备(例如扫描仪)曝光的上下文参数(诸如曝光能量和图像尺寸)可以以线性和非线性方式影响扫描仪性能(并且因此也影响产品上的性能，即，产品晶片上的图案化性能，如重叠或临界尺寸)。

存在用于特征选择和特征提取的各种方法。如上面提及的，其中一些是建模本身的一部分(参见上面对ANN的讨论)，其他一些是预处理步骤的一部分。这些中的大多数不需要来自领域专家的输入；分析是以纯数据驱动的方式完成的。在一些其他情况下，手动特征工程(来自领域专家)被使用，但这是耗时且具有挑战性的任务。本文描述的实施例中的交互方案将数据驱动方法与来自人类领域专家的输入组合。由于这种交互，该方法的输出是预处理的数据集，它是人类可以理解的并且易于解释的，以便稍后与其他学习机一起用于预测任务，诸如重叠预测或根本原因分析，以改进工业控制。

该方法以从原始数据206获得204属性和目标数据开始202。获得的数据集因此包括属性数据和目标数据。该示例中的属性数据包括与工业光刻过程相关的上下文数据，并且目标数据包括与工业光刻过程相关的目标性能数据。用于清理的可视化208被执行。可视化210被呈现在显示器上。领域专家观察显示器并输入212反馈。反馈包括属性相关性和假性相关216。这些被用于去除214不相关的特征。这产生干净的相关数据集218。数据集的进一步清理通过循环回到可视化步骤208来执行。一旦清理被完成，可视化被细化222以用于进一步的特征选择和特征提取。细化222可以包括数据结构220的领域专家输入212。

因此，步骤208至214描绘了通过将数据集可视化208以提供清理可视化210并基于清理可视化210从数据集去除214特征来修改数据集206。去除214特征包括基于查看清理可视化210来接收212用户输入，在该示例中为相关特征和假性相关216。基于清理可视化去除214特征可以包括更新数据集的图形表示上的节点和边缘。

特征选择230将可视化224输出给显示器。在观察可视化时，领域专家将特征的相关性232输入226到特征选择步骤230。特征选择步骤230输出被排序228的相关特征。特征选择使用在先前迭代中提取的特征(如步骤242和从242到230的箭头所描绘的)，以排除在提供可视化238时使用特征。

与目标相关的特征的残差图案的可视化234被执行。如果确定236不存在相关残差图案化，那么特征提取结束250，其中输出经预处理的数据248。如果存在相关残差图案化236，则可视化238被输出给显示器。领域专家对新特征进行工程设计240，新特征是用于提取新特征244的输入246。这些提取的特征244被输出给经预处理的数据248。所提取的特征244也被前馈242给特征选择224至232和特征提取234至246的下一迭代。

步骤234至246以及242和230和234之间的箭头因此描绘了基于数据集内所包括的残差图案的可视化238从数据集迭代地提取特征244，其中该特征不同于在先前迭代中提取的特征，并且残差图案的可视化238使用在先前迭代244、242中提取的特征。使用在先前迭代中提取的特征可视化234数据集可以包括：示出属性数据的与目标数据相关的残差图案。使用在先前迭代中提取的特征可视化234数据集可以涉及：基于在先前迭代中提取的特征，将集群约束添加到数据集。附加地或备选地，使用在先前迭代中提取的特征使数据集可视化234可以涉及：定义以在先前迭代中提取的特征为条件的条件概率。

提取特征包括：从在显示器上提供以相应可视化238的用户接收用户输入240。迭代被重复，直到236没有相关的残差图案被发现为止。确定是否存在相关的残差图案可以使用统计测试完成，以确定属性数据中的图案是否与目标数据相关。

经预处理的数据248中提取的特征可以被用于控制工业过程，在该示例中为光刻过程。

接下来，我们更详细地描述该方法的实施方式。

步骤和数据204至220是特征选择阶段，涉及清理不相关的属性和假性相关。与领域专家交互的第一阶段被执行以除去不相关的属性、冗余属性和示出假性相关的属性。例如，在光刻应用中：领域专家知道(1)属性“网格尺寸”与预测注入层的重叠无关，或(2)每层都被暴露有不同的掩模版，因此对应于层上下文数据的属性与对应于掩模版的上下文数据的属性是冗余的。然后这些属性可以被丢弃214。针对低维数据集(～100个属性)，这可以被手动完成。针对大的数据集，这是不可行的，因此实施例使用以有效且准确的方式从领域专家引出知识的算法。有多种可能性来解决这个阶段。

首先，知识引出方案可以与概率方法一起使用。领域专家以迭代方式给出关于特征相关性的反馈，并且概率预测模型会基于该反馈进行适应。知识引出方法可以与其他众所周知的特征选择方法(例如随机森林或单变量方法)组合。

其次，我们可以使用数据的图形表示，其中用户可以基于其知识来更新图形中的节点和边缘。

多种方法可以被用于该特征选择阶段，例如：

-具有关于特征相关性的人工输入的贝叶斯回归模型。在这种方法中，人类专家逐一提供对每个特征的相关性的反馈。这对于几百维的数据集可能很有用，但对于具有数千维的数据集却不能很好地扩展。这已在M.Larranaga、D.Gkorou、T.Guzella、A.Ypma、F.Hasibi、R.J.van Wijk在IAL研讨会的第85至88页发表的Towards interactive featureselection with human-in-the-loop(面向人机回路的交互特征选择)中公开，其通过引用并入本文。

-使用基于相似度的度量(例如基于互信息的度量)来表征大数据集中的复杂关联，诸如Davide Albanese、Samantha Riccadonna、Claudio Donati、Pietro Franceschi在GigaScience的giy032发表的(用于最大信息系数分析的实用工具)中公开的，其通过引用并入本文。人们可以使用这些技术对特征进行排序并将特征关联起来，从而得出图形结构。图形可能有助于执行社区检测(彼此相关的组特征)或定义因果关系。人类领域专家稍后可以提供关于图形结构的信息(例如该结构是否对应于人工制品或它是否确实具有物理意义)，或添加新节点和弧等。人们可以用关于图形结构的先验对领域专家的知识进行编码，并使用以上流程迭代地增强。这种进一步的细化可以使用如转移熵(计算密集型)等技术来完成，这些技术只有在应用于合理的初始结构时才可行。

特征选择阶段输出干净的相关数据集218。

步骤和数据230至250是迭代特征选择和提取阶段。

该阶段使用降维方法对数据进行说明(与先前特征选择阶段中的数据驱动的特征选择方法组合，使用领域专家判断为相关的特征)。此处，两个关键方面要被考虑：

(1)先验领域专家/用户知识：可视化考虑领域专家/用户的先验知识。例如：知道机器指纹与重叠预测相关的领域专家不想将这个特定的“图案”可视化。实施例提供了一种将适应每个用户的方法，取决于用户已经知道的内容来可视化数据的不同方面。此处可以使用不同的方法来编码用户知识。作为第一示例，可以使用M.J.Wilber、I.S.Kwak、D.Kriegman、S.Belongie于2005年在计算机视觉上的IEEE国际会议论文集981至989页上发表的Learning Concept Embeddings with Combined Human-Machine Expertise(利用组合的人机专业知识学习概念嵌入)中公开的SNaCK嵌入，其通过引用并入本文。作为第二示例，可以使用K.Puolamaki、E.Oikarinen、B.Kang、J.Lijffijt、T.De Bie于2017年发表的Interactive Visual Data Exploration with Subjective Feedback:An Information-Theoretic Approach(具有主观反馈的交互视觉数据探索：信息理论方法)中公开的主观关注的数据探索，其通过引用并入本文。

(2)与目标的相关性：可视化238示出了与目标值相关的图案。有很多无监督的降维方法(线性：主成分分析、独立成分分析等。非线性：t分布随机邻域嵌入(t-SNE)、多维缩放等)来说明数据的结构。然而，我们只对绘制与预测任务相关的“图案”或结构感兴趣。一种合适的方法是监督降维方法，如在J.Peltonen和K.Georgatzis于2012年在MLSP的关于用于信号处理的机器学习的2012 IEEE国际研讨会上发表的Efficient Optimization forData Visualization as an Information Retrieval Task(将数据可视化有效优化为信息取回任务)中公开的邻居取回可视化器(NeRV)中开发的，其通过引用并入本文。另一合适的监督降维方法在L.McInnes、J.Healy和J.Melville在https://arxiv.org/abs/1802.03426上发表的UMAP:Uniform Manifold Approximation and Projection forDimension Reduction(UMAP：用于降维的均匀流形逼近和投影)中公开，其通过引用并入本文。

针对数据可视化234、238，可以使用与Puolamaki等人采用的方法类似的方法。该方法是基于领域专家对数据已有的知识来定义先验分布。例如，在同一扫描仪中曝光的晶片应该比在其他扫描仪中曝光的晶片彼此更类似。该先验知识可以被编码，使得可视化示出与扫描仪不同的其他相关结构(构成众所周知的信息)。一旦知识从可视化中获取，专家就将该知识传达246给系统，并且先验分布基于该新信息242、234来更新。然后，呈现其他先前隐藏结构的新可视化238被示出。Puolamaki等人公开的方法是无监督的，但为了在本文描述的实施例中使用，它适用于监督降维方法。

步骤和数据240至246描述了特征提取。如何对特征进行工程设计将取决于手头的任务和探索数据的领域专家。

在特征提取中，从可视化238中提取信息。上述降维方法(监督的和用户相关的)被用于以下目的：(1)对新特征进行工程设计240，以及(2)验证特征的相关性/影响。我们接下来用示例来解释它是如何完成的。领域专家从可视化238观察到机器/卡盘指纹与y中的放大率预测相关。一旦该信息244被确定，它就可以通过将该先验知识添加242到降维方法234来在下一迭代的可视化238中对其进行编码。所提取的特征因此表示被前馈242给下一迭代的领域专家的先验知识244。通过向数据添加集群约束或通过定义以取回的信息为条件的条件概率，这被编码234到下一可视化中。因此，下一可视化238将适用于示出数据中的新的未知结构。该过程继续到236可视化不再示出相关的图案。为了决定可视化是否示出相关图案化，可以使用客观标准，诸如：统计测试以确定属性数据中的图案是否与目标相关。

实施例允许领域专家从高维数据集中快速有效地分析和提取信息。实施例提供结构化的人工辅助交互，其提供可解释和可理解的预测模型。

实施例提供主观关注的数据表示和可视化。常规地，许多降维和特征提取方法被使用，诸如主成分分析(PCA)。然而，这些是无监督的方法，其不一定表示与预测任务最相关的数据方面。实施例可视化与预测任务相关的数据的关注图案。

实施例使数据的可视化适应领域专家已经知道的内容。因此，不同的领域专家可能会示出不同的表示。

常规的数据探索是艰巨且耗时的。由于监督表示方法，实施例将数据中最相关的结构可视化。而且，由于能够适应每个专家的知识，可视化向专家示出了未知的结构。这优化了分析所需的时间，因为关注的信息将被表示。

在实施例中，特征选择是与领域专家合作完成的，因此在探索过程的早期阶段，冗余特征和假性相关将被容易地检测到和消除。

针对具有“黑盒”式学习机的实施例的应用，所提取的特征基于人类专家从可视化取回的信息。然后，专家基于发现和他/她对物理系统的知识而构造新特征。这种人机交互允许构造可解释的特征，不像“黑盒”学习机(例如ANN或如t-SNE等降维方法)经常提取人类专家无法容易解释的特征，因此不太可靠作为可概括的特征。

实施例中的可视化方法考虑用户的先验知识以及要被预测的目标。因此，可视化适用于每个用户和每个预测任务。

实施例还有助于维度灾难和遗漏相关特征。在特征选择阶段，大多数不相关的特征被专家认出并去除。因此，数据的维度应该被显著地降低，因此输出的经预处理的数据不会受到维度灾难的影响，或者没有足够的标记数据。

在常规方法中，不存在捕获领域专家知识的结构化方式。每个预测问题和每个数据集都有自己的挑战。很难对所有问题都有共同的知识库。实施例提供了不同地适应每个数据集和每个领域专家的交互方案(没有任何先前的假设)，并提供迭代过程以逐渐地且迭代地掌握隐藏在数据中的大多数或全部图案和知识。

实施例提供了一种非常快速和结构化的方案来理解数据中有什么。这有助于获得具有人类可理解特征的经处理的数据集。

实施例可以与学习机组合以：改进光刻应用中的重叠/聚焦预测，改进根本原因分析，诊断，执行主动学习和异常值检测。

本发明的实施例可以使用包含描述生成预测数据的方法的方法的一个或多个机器可读指令序列的计算机程序来实施，如上所述。该计算机程序可以例如在图1的控制单元LACU或一些其他控制器内执行。还可以被提供有在其中存储有这种计算机程序的数据存储介质(例如半导体存储器、磁盘或光盘)。

该控制单元LACU可以包括图3所示的计算机组件。在根据本发明的组件的实施例中，该计算机组件可以是呈控制单元形式的专用计算机，或者备选地，可以是控制光刻投影设备的中央计算机。计算机组件可以被布置用于加载包括计算机可执行代码的计算机程序产品。在计算机程序产品被下载时，这可以使计算机组件能够控制具有水平和对准传感器AS、LS的实施例的光刻设备的上述使用。

连接至处理器827的存储器829可以包括多个存储器部件，如硬盘861、只读存储器(ROM)862、电可擦除可编程只读存储器(EEPROM)863和随机存取存储器(RAM)864。并非所有上述存储器部件都需要存在。此外，上述存储器部件在物理上靠近处理器827或彼此靠近不是必要的。它们可以位于很远的地方。

处理器827还可以被连接至某种用户接口，例如键盘865或鼠标866。触摸屏、轨迹球、语音转换器或本领域技术人员已知的其他接口也可以被使用。

处理器827可以被连接至读取单元867，该读取单元867被布置为读取数据，例如以计算机可执行代码的形式，并且在一些情况下将数据存储在数据载体上，如固态驱动器868或CDROM 869。DVD或本领域技术人员已知的其他数据载体也可以被使用。

处理器827也可以被连接至打印机870，以在纸上以及本领域技术人员已知的任何其他类型的显示器中的显示器871上打印输出数据，例如监测器或LCD(液晶显示器)。

处理器827可以借助于负责输入/输出(I/O)的发送器/接收器873被连接至通信网络872，例如公共切换电话网络(PSTN)、局域网(LAN)、广域网(WAN)等。处理器827可以被布置为经由通信网络872与其他通信系统进行通信。在本发明的实施例中，外部计算机(未示出)(例如操作员的个人计算机)可以经由通信网络872登录到处理器827中。

处理器827可以被实施为独立系统或并行操作的多个处理单元，其中每个处理单元被布置为执行更大程序的子任务。处理单元也可以被分为一个或多个主处理单元和多个子处理单元。处理器827的一些处理单元甚至可以与其他处理单元相距一定距离，并经由通信网络872进行通信。模块之间的连接可以是有线的或无线的。

计算机系统可以是具有模拟和/或数字和/或软件技术的任何信号处理系统，其被布置为执行此处讨论的功能。

具体实施例的前述描述将充分展现本发明的一般性，通过应用技术领域内的知识，在未过度实验，未偏离本发明的一般概念的情况下，其他人可以容易地修改和/或适应这种具体实施例的各种应用。因此，基于本文呈现的教学和指导，这种适应和修改旨在与所公开的实施例等效的意义和范围内。要理解的是，本文的措辞或术语是出于通过示例描述的目的，而非限制性的，使得本说明书的术语或措辞是由本领域技术人员鉴于教导和指导而解释的。

本发明的其他实施例在下面的编号条项列表中公开：

1.一种从数据集提取特征的方法，该方法包括：

基于数据集内所包括的残差图案的可视化从数据集迭代地提取特征，其中该特征不同于在先前迭代中提取的特征，并且残差图案的可视化使用在先前迭代中提取的特征。

2.根据条项1的方法，其中提取特征包括：从被提供以相应可视化的用户接收用户输入。

3.根据条项1或条项2的方法，还包括通过以下操作修改数据集：

可视化数据集以提供清理可视化；以及

基于清理可视化从数据集去除特征。

4.根据条项3的方法，其中去除特征的步骤包括：基于查看清理可视化来接收用户输入。

5.根据条项4的方法，其中基于清理可视化去除特征包括：更新数据集的图形表示上的节点和边缘。

6.根据前述条项任一项所述的方法，还包括：使用在先前迭代中提取的特征执行特征选择，以排除在提供可视化时使用特征。

7.根据前述条项任一项所述的方法，其中迭代被重复，直到没有相关的残差图案被发现为止。

8.根据条项7所述的方法，其中数据集包括属性数据和目标数据。

9.根据条项8所述的方法，其中该方法包括：使用统计测试确定是否存在相关的残差图案，以确定属性数据中的图案是否与目标数据相关。

10.根据条项8或条项9所述的方法，其中使用在先前迭代中提取的特征可视化数据集的步骤包括：示出属性数据的与目标数据相关的残差图案。

11.根据条项8至10中任一项所述的方法，其中属性数据包括与工业过程相关的上下文数据，并且目标数据包括与工业过程相关的性能数据。

12.根据前述条项任一项所述的方法，其中使用在先前迭代中提取的特征可视化数据集包括：基于在先前迭代中提取的特征，将集群约束添加到数据集。

13.根据前述条项任一项所述的方法，其中使用在先前迭代中提取的特征可视化数据集包括：定义以在先前迭代中提取的特征为条件的条件概率。

14.一种工业处理方法，包括前述条项任一项所述的从数据集提取特征的方法，并且还包括使用所提取的特征来控制工业过程。

15.一种包括计算机可读指令的计算机程序，当在合适的计算机设备上运行时，该计算机可读指令引起计算机设备执行前述条项任一项所述的方法。

16.一种计算机程序产品，包括条项15所述的计算机程序。

17.一种设备，特别适用于执行条项1至14中任一项所述的方法的步骤。

18.根据条项17所述的设备，被特别配置为能够操作以执行光刻生产过程的光刻设备。

19.根据条项17所述的设备，被特别配置为能够操作以执行光刻生产过程的光刻单元。

本发明的广度和范围不应该受到任何上述示例性实施例的限制，而应该只根据以下权利要求及其等效物来定义。

Claims

1.一种从与半导体制造过程相关联的数据集提取特征的方法，所述方法包括：

基于所述数据集内所包括的残差图案的可视化从所述数据集迭代地提取特征，其中所述特征不同于在先前迭代中提取的先前特征，并且所述残差图案的所述可视化使用所述先前特征。

2.根据权利要求1所述的方法，其中提取所述特征包括：从被提供以所述相应可视化的用户接收用户输入。

3.根据权利要求1或权利要求2所述的方法，还包括通过以下操作修改所述数据集：

可视化所述数据集以提供清理可视化；以及

基于所述清理可视化从所述数据集去除特征。

4.根据权利要求3所述的方法，其中去除所述特征的所述步骤包括：基于查看所述清理可视化来接收用户输入。

5.根据权利要求4所述的方法，其中基于所述清理可视化去除所述特征包括：更新所述数据集的图形表示上的节点和边缘。

6.根据前述权利要求任一项所述的方法，还包括：使用所述先前特征执行特征选择，以排除在提供所述可视化时使用所述特征。

7.根据前述权利要求任一项所述的方法，其中所述迭代被重复，直到没有相关的残差图案被发现为止。

8.根据权利要求7所述的方法，其中所述数据集包括属性数据和目标数据。

9.根据权利要求8所述的方法，其中所述方法包括：使用统计测试确定是否存在相关的残差图案，以确定所述属性数据中的图案是否与目标数据相关。

10.根据权利要求8或权利要求9所述的方法，其中使用所述先前特征可视化所述数据集的所述步骤包括：示出所述属性数据的与所述目标数据相关的残差图案。

11.根据权利要求8至10中任一项所述的方法，其中所述属性数据包括与所述半导体制造过程相关的上下文数据，并且所述目标数据包括与所述半导体制造过程相关的性能数据。

12.根据前述权利要求任一项所述的方法，其中使用所述先前特征可视化所述数据集包括：基于所述先前特征，将集群约束添加到所述数据集。

13.根据前述权利要求任一项所述的方法，其中使用所述先前特征可视化所述数据集包括：定义以所述先前特征为条件的条件概率。

14.一种半导体制造方法，包括前述权利要求任一项所述的从数据集提取特征的所述方法，并且还包括使用所提取的特征来控制所述半导体制造过程。

15.一种包括计算机可读指令的计算机程序，当在合适的计算机设备上运行时，所述计算机可读指令引起所述计算机设备执行前述权利要求任一项的所述方法。