CN112149375A

CN112149375A - 大数据分析的噪声自动消除

Info

Publication number: CN112149375A
Application number: CN202010232185.4A
Authority: CN
Inventors: 约翰·A·斯旺森; 维韦克·K·辛格; 库马拉·萨斯特里; 海伦·F·帕克斯; 陈仪姿
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-06-29
Filing date: 2020-03-27
Publication date: 2020-12-29
Also published as: US20190325321A1; EP3757889A1; US11663700B2

Abstract

本公开涉及大数据分析的噪声自动消除。一种方法包括为输入数据集合的多个数据实例识别一组目标特征；为多个数据实例的该组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从离群点数据实例中识别该多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对多个有噪数据实例的指示。

Description

大数据分析的噪声自动消除

技术领域

本公开概括而言涉及计算系统的领域，更具体而言涉及大数据分析的噪声自动消除。

背景技术

前沿半导体制造工艺是极度复杂的。安装在数十亿美元的工厂中并且包括数百个处理步骤来产生完成的器件，它们能够在直径延伸一英尺的晶圆上数千亿次地可靠印刷10nm那么小的特征。开发新的半导体制造工艺要求定义一组设计规则，这些设计规则建立半导体器件为了确保可制造性而必须遵循的约束。工艺开发还涉及开发光学邻近修正(optical proximity correction，OPC)配方，这些OPC配方在物理设计特征被印刷在掩模上之前对其进行调整以帮助对抗由各种处理步骤引起的特征失真。

扫描电子显微镜(SEM)或者在晶圆制造期间取得的其他图像可帮助识别可解释制造缺陷的物理设计图案和几何结构。这些图案和几何结构可用于帮助为工艺定义设计规则和OPC配方。考虑到现代工艺中的大晶圆尺寸和处理步骤的数目，单个晶圆的制造可生成大量的图像数据。随着工艺成熟，制造缺陷不那么频繁地发生，使得很难在巨大数量的图像数据中找到它们。

发明内容

根据本公开的实施例，提供了一种装置，包括：存储器，用于存储包括多个数据实例的输入数据集合；以及耦合到所述存储器的处理器，该处理器用于：为所述输入数据集合的多个数据实例识别一组目标特征；为所述多个数据实例的所述一组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对所述多个有噪数据实例的指示。

根据本公开的实施例，提供了一种方法，包括：为输入数据集合的多个数据实例识别一组目标特征；为所述多个数据实例的所述一组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对所述多个有噪数据实例的指示。

根据本公开的实施例，提供了一种系统，包括用于执行上述的方法的装置。

附图说明

图1A根据某些实施例图示了示范性平面晶体管的物理设计。

图1B根据某些实施例图示了沿着线A-A'取得的图1A的平面晶体管的示范性截面。

图2A-2F根据某些实施例图示了示范性光刻工艺。

图3A-3D根据某些实施例图示了由于工艺失真效应引起的印刷在掩模上的特征和在晶圆上处理的那些之间的差异和使用光学邻近修正来对抗这些效应。

图4根据某些实施例图示了硅数据捕捉和利用硅数据来辅助半导体制造工艺开发的实施例。

图5根据某些实施例图示了用于从输入数据集合中去除噪声的流程。

图6根据某些实施例图示了用于识别有噪数据实例的流程。

图7根据某些实施例图示了计算系统。

在各幅图中相似的标号和命名指示相似的元素。

具体实施方式

半导体制造多年以来已变得越来越复杂。自从本世纪初以来，随着业界从130纳米(nm)进步到10nm技术节点，最小特征尺寸已缩小了超过一个量级。同时，处理器复杂度已急剧增大。当前的旗舰产品具有远超过百亿的晶体管计数。为了应对这些减小的特征尺寸和增大的芯片复杂度，公司必须投资数十亿美元和数年的研究来构建最先进的制造设施。研究和开发成本被先进工艺所需要的越来越精密的设备的上升成本不断向上驱动。业界已采取步骤来减小每晶体管制造成本(例如，通过在90nm技术节点从200mm转移到300mm晶圆)，但整体趋势是每一代工艺比上一代花费更多成本。在直径跨度一英尺的晶圆上有多达数百个个体晶粒的情况下，在晶圆上可印刷的晶体管的总数大约是一万亿的量级。开发能够在这种极端规模下可靠地制造晶体管的高容量制造工艺提出了相当大的挑战。

一个这种挑战是发现物理设计中作为限制工艺产率的原因的图案和几何结构。制造缺陷可通过对在晶圆制造期间由成像工具生成的图像的分析来发现，但为了定位缺陷要分析的图像数据的量可能是巨大的(多达数百万个图像)。随着工艺成熟，可生成的巨量图像数据中的制造缺陷的存在可能是稀有事件。一旦定位了缺陷，确定特定的物理设计图案或几何结构是否是一类缺陷的成因则是另一个困难的任务，尤其是考虑到要分析的数据的量。

本文描述的技术从大量硅数据中提取语义模式以辅助半导体制造工艺开发。针对晶圆上的感兴趣区域中的制造缺陷的存在，分析大量的图像。生成连续项目集，其中具有包含与感兴趣区域相对应的物理设计特征的值和指示出在该位置处的制造缺陷的存在与否的事件值的项目。对离散化项目集执行基于熵的离散化以生成候选语义模式的集合。就本文使用的而言，短语“语义模式”(semantic pattern)指的是描述对一个或多个物理设计特征值的约束的一个或多个句子或短语。语义模式可为特征描述单个值，“栅极长度＝20nm”，为特征描述值的范围，“栅极封头空间≤18nm”，以及描述针对多个特征的约束，“栅极长度＝20nm，栅极封头空间≤18nm”。

候选语义特征的集合被化简成最终语义特征的集合，这些最终语义特征被排名并呈现给用户，例如工艺工程师。语义特征可基于其准确性、覆盖范围、可解释性和独立性被排名、一般而言，排名前列的语义模式一般是很好地说明制造缺陷(模式是准确的并且提供良好的缺陷覆盖，这将在下文更详细论述)并且用户理解起来简单的那些。用户可使用提取的语义模式来通过更新为工艺设置的设计规则、改善光学邻近修正(OPC)配方或者以其他方式改善工艺。

现在参考附图，其中相似或相同的标号可用于指定不同图中的相同或相似的部分。在不同图中使用相似或相同的标号并不意味着包括相似或相同标号的所有附图构成单个或同一个实施例。

现在转到图1-图3，呈现了半导体器件制造的各种方面的概览。图1A图示了示范性平面晶体管的物理设计。如下文将更详细论述的，晶体管的物理设计被用于生成掩模，这些掩模将在制造期间被用于在需要实现特定设计的晶圆上印刷特征。物理设计通常是在诸如栅极层、接触层和金属-1层之类的各种层描绘的多边形的集合。

晶体管100是场效应晶体管(FET)，这是包括在现代半导体器件中使用的大多数晶体管的晶体管类型。晶体管100包括栅极110、漏极120和源极130区域。FET中的栅极区域可被认为是“通-断”开关，其控制漏极和源极区域之间的电流的流动。当栅极110“关断”时，没有(或者只有很少)电流流经将漏极120连接到源极130的沟道区域，而当栅极110“接通”时，电流容易地流经沟道区域。晶体管100由垂直堆叠在晶体管100顶上的一组互连层连接到其他晶体管。触点140将漏极120连接到第一金属层(M1)的片段150，并且触点160将源极130连接到M1片段170。M1片段150和170进而分别由第一层的“过孔”(V1)192和196连接到第二金属层(M2)片段180和190。一般而言，金属层厚度随着向互连堆叠上方移动而增大，其中较薄的较低级别金属一般被用于信号的本地选路，而较厚的较高级别金属被用于全局信号选路和电源/地平面。为了简单，图1A只示出了两个级别的金属。当前的半导体制造处理具有多达十层的金属互连。

图1B图示了沿着线A-A'取得的图1A的平面晶体管的示范性截面。截面105示出了栅极110通过高k介电层124与漏极120和源极130区域分离，该高k介电层124将栅极110与漏极120和源极130电绝缘。晶体管100在衬底区域186中并且通过氧化区域182与邻近晶体管绝缘。图1A和1B中所示的平面晶体管只是一种类型的晶体管形貌，晶体管的平面性质反映出栅极、源极和漏极区域位于相对平坦的表面上或者邻近相对平坦的表面。另一种类型的晶体管形貌是FinFETS中使用的非平面晶体管形貌，FinFETS被广泛用于前沿制造工艺中。FinFETS是与平面FET晶体管在相同的一般原理下操作的场效应晶体管——栅极控制漏极和源极区域之间的电流的流动——变化在于栅极卷绕着从晶圆表面垂直向上延伸的一组鳍片(fin)。

对于半导体制造必不可少的是光刻的工艺，图案通过光刻被从掩模转印到晶圆上。如先前提到的，掩模被用于定义对于给定的工艺层要摹制在晶圆上的各种特征的形状和位置。例如，一个掩模定义氧化区域位于何处，另一掩模定义高k电介质位于何处，另一掩模定义源极和漏极区域的位置，还有一个掩模将定义触点将被置于何处。额外的掩模可用于定义每个金属层和居间过孔层。

图2A-2F图示了示范性光刻工艺。工艺200图示了可如何利用光刻来定义图1B中的氧化区域182。在图2A中，薄二氧化硅层220被热生长在晶圆的硅衬底210的顶上。作为保护层的氮化硅层230被淀积在二氧化硅层220的顶上。在图2B中，光刻胶240被淀积在氮化硅层230的顶上。光刻胶是一种材料，该材料对蚀刻剂或溶剂的电抗在暴露于光时增大(如果是正性光刻胶)或减小(负性光刻胶)。在工艺200中，光刻胶240是正性光刻胶。在图2C中，具有图案260的掩模250被定位在晶圆上方并且暴露于光。光穿过掩模250的透明区域254并且将光刻胶240曝光。图案化区域260对于光是不透明的并且图案260下方的光刻胶区域不被曝光。在图2D中，光刻胶240被化学显影并且曝光区域被溶解。光刻胶240的剩余部分现在可充当晶圆上掩模来允许对晶圆的选择性处理。在图2E中，晶圆经历蚀刻步骤，该步骤去除氮化硅层230、二氧化硅层220和衬底210的一部分以创建沟槽270。在图2F中，光刻胶和氮化物层被去除，并且沟槽270被填充以二氧化硅以创建浅沟槽隔离(shallow trench isolation，STI)区域280，该STI区域280用于保持区域294和298中形成的晶体管与彼此电隔离。

由于掩模是用来在半导体器件中实现特征的手段，所以任何半导体器件设计都必须最终被化简到物理设计，掩模是从这个设计抽象的级别生成的。要制造的晶体管(例如图1A)、电路或者处理器的物理设计经常被称为“布局”。电子设计自动化(electronic designautomation，EDA)工具允许了处理器架构师和电路设计者在物理设计级别之上的抽象级别进行设计。他们从而无需再花费其时间来在布局工具中描绘多边形以实现其设计。架构师通常利用诸如VHDL或Verilog之类的硬件设计语言(hardware design language，HDL)来定义其设计。一旦他们已验证了其设计的表现符合期望，就可利用标准布局单元的库来自动生成物理设计。电路设计者经常寻求利用标准单元不可得的性能或功能并且经常将其设计输入到原理图攫取工具中。一旦其定制设计被定案，电路原理图就被转交给手动制作定制物理设计的布局设计者。

无论物理设计是自动还是手动生成的，其都必须符合为制造工艺建立的一组布局设计规则。设计规则是物理设计为了确保可制造性而必须遵循的约束。大多数设计规则表述特征的最小宽度或空间，例如“栅极长度≥10nm”、“触点的源极/漏极扩散包封≥16nm”以及“金属1迹线之间的空间≥20nm”。设计规则表示特征密度和可制造性之间的折衷。能够印刷更小的特征尺寸可意味着更多的晶粒可被封装到晶圆上，但如果工艺不能可靠地印刷更小的特征，则所造成的晶圆产率的减小可超幅抵消由能够在晶圆上印刷更多晶粒所赢得的成本降低。

为新的工艺开发设计规则可能是困难的，因为可能出现意料之外的困难。例如，由于利用新处理步骤或新工具的未预见到的困难，特征相对于先前的技术世代可能不像预期那样多地升级。随着工艺工程师开发出新的制造工艺，他们不断地微调个体处理步骤以去除尽可能多的缺陷源。在某个时点，工艺可被足够地调谐，使得需要被根除的剩余缺陷发生得如此不频繁以至于它们是难以找到的。工艺工程师需要在工艺开发期间发现这些稀有事件的发生，以使得他们可确定是否可以想出对工艺的轻微调整来减少稀有事件的发生，或者向设计规则集合添加设计规则以使得与特定缺陷相关的物理设计几何结构和图案可被保持在最终物理设计之外。

一旦物理设计清除了设计规则违反并且已通过了其他设计有效性检查，其就被传递到EDA流程的掩模生成阶段。由于自从90nm技术节点以来使用的光的波长(λ＝193nm)和当前工艺中使用的最小特征尺寸(10nm)之间的巨大差异，掩模生成阶段完全不是不重要的。在光刻工艺中能够清晰印刷的最小特征尺寸受到使用的光源的波长的限制，并且半导体工业已开发出分辨率增强技术(resolution enhancement technology，RET)来允许远低于193nm光源波长的特征的印刷。第一组RET技术起到增大分辨率和/或焦深的作用，并且第二组对由于以大于最小特征尺寸的波长印刷特征而引起的失真效应以及在淀积、蚀刻和其他工艺步骤中固有的那些进行补偿。第一组包括诸如相移掩模和双重图案化之类的技术，并且第二组包括光学邻近修正(OPC)。

图3A-3D图示了由于工艺失真效应引起的印刷在掩模上的特征和在晶圆上处理的那些之间的差异和使用光学邻近修正来对抗这些效应。图3A图示了在经历OPC过程之前的物理设计中的两个栅极多边形300。图3B图示了多边形300当在晶圆上被处理时看起来可能如何的简化视图。轮廓310表示多边形300的边界并且形状320表示相应的被处理特征。可以看出形状320的末端324和外角328是圆滑的，内角334被填满，并且片段338由于附近的特征而变窄。图3C图示了通过使多边形300经历OPC过程而生成的示范性修改后多边形340。修改后多边形340比原始多边形300复杂得多。修改后多边形340包括对于末端圆滑进行补偿的“狗骨”特征344，对于外角圆滑进行补偿的“耳朵”特征348，对于内角圆滑进行补偿的“鼠咬”特征354，以及对于附近特征的存在进行补偿的加粗特征358。图3D图示出修改后多边形340在处理之后可如何出现在晶圆上的简化视图。轮廓310同样表示原始多边形300的边界。可以看出，OPC过程对多边形300的修改产生更接近原始多边形300的形状和尺寸的印刷形状360。形状360的末端和拐角不那么圆滑，内角不那么被填满，并且附近邻居的影响被减弱了。

虽然OPC生成(以及其他RET技术)允许了最小特征随着技术节点而升级，因为光刻光源的波长保持了恒定，但它不是没有代价的。OPC生成在计算上是密集的。OPC配方可基于各种处理步骤(光刻、扩散、蚀刻、淀积等等)的物理模型，或者是可以是基于规则的模型，这些模型基于个体物理设计特征特性(宽度、长度、形状、最近邻居特性)来生成OPC特征，而不依赖于底层处理步骤的物理形态。将基于模型的OPC配方应用到完整物理设计单在栅极层就可涉及将物理模型应用到超过100亿个形状，以及在其他层上应用到数十亿个额外形状。此外，可节省基于模型的OPC生成的一些计算复杂性的基于规则的OPC模型的生成可能是个复杂的事情。基于规则的OPC配方的生成可基于试错法，这是由于缺乏对于前沿处理技术的开发中起作用的复杂物理和化学现象的完全理解。这个试错法可包括用候选OPC配方的许多变体迭代地制造特征并且查明哪些配方产生最佳结果。

图4图示了硅数据捕捉和利用硅数据来辅助半导体制造工艺开发的实施例。硅晶圆400包括晶粒410。如前所述，当前技术节点采用300mm晶圆，其可包括数百个晶粒。晶粒被切割线所分隔，这些切割线可包含可用于监视制造工艺的健康性并且被切割过程所消耗的测试结构，在切割过程中晶圆被切割成个体晶粒410。在硅晶圆400的制造期间，可生成硅数据420，硅数据420可用于新工艺的开发或者用于监视成熟工艺的健康性。硅数据420可以是在晶圆400的制造期间收集的任何数据，例如由诸如扫描电子显微镜(SEM)、透射电子显微镜(TEM)、扫描透射电子显微镜(STEM)或者聚焦离子束显微镜(FIB)之类的成像工具捕捉的诊断数据或图像。诊断数据可包括从切割线测试结构收集的数据，其可测量各种特征或层的电属性(例如，触点或过孔电阻、金属层薄层电阻)，或者通过测试出例如栅极或者反映关注的最小特征或布局图案的金属结构之间的短路来指示出制造缺陷的存在。

对每个晶圆可生成任何数目的图像。对于晶圆上的各种晶粒，可对个体晶粒上的一个或多个感兴趣区域取得图像。例如，可以对栅极图案尤其密集的区域中(例如存储器阵列中)的栅极层取得图像，以及对于晶圆上的代表性晶粒取得图像来捕捉跨晶圆的制造变化。可在制造工艺中的任何时点取得图像。由于图像可捕捉长度和宽度为数百微米的视野，所以个体图像可包含最小特征或感兴趣区域的许多实例。

硅数据420可为在工艺开发或监视期间处理的晶圆生成以及可为在各制造设施上处理的晶圆生成以评估跨设施的制造鲁棒性。考虑到当今的大晶圆尺寸、工艺复杂度和晶圆运行率，在工艺开发或监视期间可产生的硅数据的数量可能是巨大的。单是在工艺开发期间生成的图像的数目就可达到数百万。

硅数据420可被提供到语义模式提取系统430，语义模式提取系统430消化大量的硅数据并且向工艺工程师或者其他用户440呈现对于开发新工艺或者改善现有工艺可能有用的信息。在一些示例中，提供的信息可以是建议哪些物理设计图案或几何结构可能是缺陷的成因的语义模式(人类容易理解的短语和句子)。在其他示例中，系统430可利用硅数据420来确定可改善工艺产率的一个或多个设计规则并且为工艺更新设计规则数据库450，或者通过更新现有OPC配方或创建可改善产率的新OPC配方来更新OPC配方数据库460。

因为硅数据420可能是非常大的(例如，千万亿字节)，所以这种数据的处理和分析可能是极为耗时的。数据中的噪声的存在可进一步使硅数据420的分析复杂化。噪声可由于各种原因被引入到例如由成像工具拍摄的图像中，这些原因例如是有故障的图像传感器、非最优的照明条件或者损坏的数据。从大数据分析中检测和消除带有噪声的数据的能力改善了准确地处理数据的能力。对于图像数据的现有噪声过滤方法或者不能够在合理量的时间中处理大的数据集合，或者严重依赖于噪声的已知类型，或者是易于误分类的。从数据集合中准确地消除噪声可允许更有效地关注于真实的离群数据，这可能是实际感兴趣的数据。例如，在半导体的情境中，离群数据可表示由于工艺问题引起的缺陷。

本说明书的各种实施例可自动、准确和/或程式化地从大的数据集合中检测并消除有噪数据。特定实施例可通过提供对真实离群值而不是有噪数据的关注来促进半导体产率改善。在一个实施例中，多步骤人工智能(artificial intelligence，AI)方法准确地从极大的数据集合(例如，包括数千万亿字节的数据)检测和消除噪声。在特定实施例中，该方法可从用于跟踪半导体产率和工艺健康性的SEM数据(或其他图像数据)中消除有噪图像，虽然本文描述的教导可用于从任何适当的数据集合中消除有噪样本，例如利用任何适当的传感器捕捉的数据或者其他适当的数据。

图5根据某些实施例描绘了用于从输入数据集合502中去除有噪样本的流程500。在特定实施例中，流程500的每个块可表示可操作来执行对于该块描述的功能的计算系统的模块。在特定实施例中，流程500(或者其任何适当部分)可由提取系统430、计算系统700(下文详细描述)、其他适当的计算系统或者其他适当的逻辑来执行。

数据集合502可包括多个离散数据实例。在特定实施例中，每个数据实例是利用任何适当的传感器收集的数据样本，例如像以上描述那样的成像工具(例如，SEM)、其他图像传感器、音频传感器、心率监视器或者其他适当的传感器。在各种实施例中，数据集合502是硅数据420的子集或者可具有本文描述的硅数据420的任何适当的特性。在另一实施例中，每个数据实例是布局数据库文件的快照。布局数据库文件可按照与例如芯片的金属、氧化物或者半导体层的图案相对应的平面几何形状(例如，多边形)来提供半导体芯片的表示。布局数据库文件可表示芯片上的各种器件的物理布置。这种文件可指定用于产生芯片的掩模的不同掩模层上的各种特征的存在与否。从而，在特定实施例中，数据集合502的每个数据实例可包含布局数据库文件的与芯片的一层或多层的特定地理区域相对应的特定部分。任何适当的数据库文件格式可被用于布局，例如图形数据系统II(Graphic Data SystemII，GDS II)、开放原图系统交换标准(Open Artwork System Interchange Standard，OASIS)或者其他适当的格式。

数据集合502可包括多元数据的大集合(例如，千兆字节或者兆兆字节，或者千万亿字节)或者是其一部分。在特定实施例中，数据集合502包括对于特定工艺步骤从一个或多个半导体晶圆的一个或多个晶粒捕捉的图像的大集合(例如，图像的该集合可以是在特定处理层取得的，例如上文描述的任何处理层或者其他适当的处理层)。随着时间的流逝，流程500可接收各种不同的数据集合，它们可以是相关的(例如，在各种不同处理层的晶圆的芯片的图像的集合)或者不相干的(例如，不同工艺技术的晶圆的芯片的图像的其他集合)。在另一实施例中，数据集合502可包括一个或多个处理层的布局数据库文件的各种快照。在另外一个实施例中，数据集合502可包括由自主驾驶车辆的图像传感器捕捉的图像。

在504，确定数据集合502的类别。类别包括对数据集合502中的数据实例的一个或多个共同特性的识别。作为一个示例，当数据集合502包括半导体晶圆的图像时，类别可指示出涉及特定半导体制造工艺的技术节点(通常也称为工艺节点或工艺技术)以及取得数据集合502的图像的特定处理层(例如，栅极层、接触层、金属1层或者其他适当的层，例如包括本文描述的任何层)。在一个实施例中，类别可额外地或者替换地识别用于捕捉数据实例的传感器(例如，成像工具)。作为另一示例，当数据集合502包括由自主驾驶车辆捕捉的图像时，类别可指定在其中捕捉图像的环境(例如，道路类型、天气条件等等)。

在一些实施例中，被实现该流程的计算系统接收到的数据集合502可被以类别标记。因此，对数据集合502的类别的确定就可以简单地是识别传入数据中的标签。在其他实施例中，数据集合502的类别可通过对数据集合的分析来确定。例如，数据集合502的数据实例的小子集可被分析以确定数据实例的各种特征的特征值。

在504可分析任何适当的特征来确定数据的类别。在一些实施例中，特征包括图像属性。特征可包括例如以下各项的一个或多个的任何组合：强度的局部方差的测量，局部强度最大值，局部强度最小值，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，线宽度粗糙度，对于椒盐噪声的指示(这可基于图像中的灰度、白度和/或暗度的度量)，不同水平的灰度，检测到的斑点(例如，图像中的白或灰像素的意料之外的聚簇或者一定强度的像素的其他意料外聚簇)，这在一些实施例中可以是基于高斯的二进制大对象(blob)测量的拉普拉斯算子，图像熵，特征的合并轮廓，特征的断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，对齐质量(例如，对于实际图像的各种点或轮廓相对于由数据库布局文件定义的预期几何结构对齐的程度的测量)，或者对齐距离(例如，当整个图像相对于期望位置移位时图像的期望位置和图像的实际位置之间的差别)。

在一些实施例中，在504，可为数据集合502的数据实例的子集确定特征的集合的特征的特征值。这些特征值可被分析来确定数据集合502的类别。例如，可基于特征值或从其得出的统计度量和与各种不同类型的类别相关联的特征值或从其得出的统计的比较来确定类别。在各种实施例中，与各种不同类型的类别相关联的特征值或从其得出的统计可基于历史数据(例如，被计算系统分析的先前数据集合或者计算系统可访问的其他数据)或者由任何适当实体指定的参数。与为数据集合502的子集确定的特征值最紧密对齐的类别可被选择为数据集合502的类别。

在一些实施例中，接收到的数据集合502可被以部分标识类别的信息进行标记。例如，数据集合502可包括对于取得图像的半导体处理层的指示。特征值的分析随后可结合该部分标识用来确定数据集合502的类别。在一个示例中，可从基于为数据集合502的数据实例的子集获得的特征值从类别的选择中排除不与该部分标识匹配的类别。

在506，基于数据的类别自动识别目标特征。目标特征可以是被认为是如下特征：该特征可用于识别相对于其他数据实例是离群点的数据实例和/或用于促进有噪数据实例和作为合法离群点的其他数据实例之间的区别。目标特征可以是任何适当的特征，例如上文描述的特征或者其他适当特征中的一个或多个。

在特定实施例中，目标特征是在504对于样本的子集为其确定特征值的特征的列表的子集。在其他实施例中，目标特征不是在504分析的特征的子集(例如，所选类别的目标特征集合可包括在504未曾分析的一个或多个特征)，虽然目标特征可包括或不包括曾在504分析的一个或多个特征。

在一些实施例中，多个类别各自与目标特征的相应集合相关联。在一些实施例中，两个或更多个类别的目标特征集合可以是相同的。在其他实施例中，每个类别的目标特征是独特的。本文设想了共同和/或独特目标特征集合的任何适当组合。在一些实施例中，各种类别的目标特征集合的每一者是在504分析的特征的列表的子集。

在508，为数据集合502的每个数据实例提取与所选类别相关联的目标特征集合的特征值。例如，对于第一数据实例，为第一数据实例确定目标特征集合的第一特征的第一特征值、目标特征集合的第二特征的第二特征值等等。类似地，为第二数据实例、第三数据实例等等确定特征值。特征值可具有任何适当的格式并且特征值的格式在一些情况中在特征与特征之间可变化。作为示例，特征值可包括一个或多个二元指示(例如，对于特征在数据实例中是否存在的指示)，特征值可以是一个或多个有理数，特征值可以是引用一个或多个相应值的一个或多个索引，或者特征值可具有任何其他适当的格式。

提取的特征值被存储在数据库510中。数据库510可利用任何适当的格式存储这些提取的特征值。在各种实施例中，与数据实例相对应的记录可包括以下各项中的任何一个或多个或者与以下各项中的任何一个或多个相关联：数据实例的识别符，包括数据实例的数据集合502的类别，用于捕捉样本值的传感器(例如，成像工具)的标识，为数据实例提取的特征值，指派给样本值的一个或多个聚类类别(将在下文更详细描述)，与一个或多个聚类类别相关联的一个或多个置信度量(例如，置信度量可表示数据实例属于指派的聚类类别的概率)，指示出数据实例是否被检测为离群点的标签，以及(例如，如果数据实例被检测为是离群点)指示出数据实例是否被确定为是有噪数据实例的标签(对这两个标签的值的确定将在下文更详细论述)。

在512，基于数据实例的特征值对其进行聚类并且基于聚类来对数据实例进行分类。例如，数据实例可基于它们在数据空间中的位置被指派到聚类类别(其中数据实例的位置是利用考虑数据实例的所有特征值的函数来确定的)。在其他实施例中，可按特征对特征值进行单独聚类。例如，第一特征的各种数据实例的特征值可被聚类以为第一特征确定类别分组。第二特征的各种数据实例的特征值可被分开聚类以为第二特征确定类别分组，等等依此类推。从而，可针对每个目标特征为数据实例指派类别。

在一些实施例中，一个或多个聚类类别可被指派给数据实例，连同每个指派的聚类类别的置信度量。任何适当的聚类模型可用于将数据实例划分成簇并且指派聚类类别。例如，可以使用连通性模型(例如，分层聚类)、重心模型(例如，K均值聚类)、分布模型(例如，使用多元正态分布的期望最大化)或者密度模型(例如，DBSCAN或OPTICS)。在一些实施例中，使用多个聚类模型并且向数据实例指派多个聚类类别(例如，来自每个聚类模型的一个或多个聚类类别)或者可基于多个聚类类别的结果的融合来向数据实例指派单个聚类类别。

在特定实施例中，聚类只利用数据集合502的数据实例(例如，当历史值尚不可用时或者在其他适当的情形中)。在各种实施例中，聚类既利用数据集合502的数据实例也利用历史数据实例(例如，存储在数据库510中的与数据集合502具有相同类别值的数据实例和/或与数据集合502的类别具有相似类别的数据实例，例如与相同特征集合相关联的类别或者其他类似的类别)。在特定实施例中，基于历史值的聚类结果可被保存在数据库510或其他存储器中，并且在新的数据集合502被聚类和分类时被利用。在各种实施例中，指派给每个数据实例的(一个或多个)聚类类别和任何关联的置信度量被记录在数据库510中。

在样本值已被聚类和分类之后，在514检测作为离群点的数据实例。可通过任何适当的方式来检测离群点数据实例。例如，离群点可以是在512未能够被指派类别的数据实例(例如，对于特定特征或者对于特征的组合)。作为另一示例，离群点可以是以低于阈值的概率被指派到聚类类别的数据实例(例如，对于特定特征或者对于特征的组合)。作为另外一个示例，离群点可以是在数据空间中具有如下位置的数据实例：该位置与簇的重心的距离远于阈值距离。其他适当的标准可用于确定哪些数据实例是离群点。在514被检测为离群点的数据实例在数据库510中可被如此标记。

在516，一个或多个人工智能(AI)模型被用于确定哪些离群点是有噪数据实例(例如，哪些样本值是由于数据实例中存在的噪声的效应而被分类为离群点)以及哪些是真的离群点。在516，作为有噪数据实例的离群点被如此标记。一个或多个模型可各自分析离群点数据实例的特征值以确定离群点数据实例是否是有噪数据实例。

在各种实施例中，任何适当的一个或多个AI模型可用于确定离群点是否是有噪数据实例，包括深度学习模型、神经网络模型、二元分类模型或者其他适当的AI模型。在特定实施例中，利用贝叶斯优化模型。此模型可被用与高斯离群点检测耦合的高斯模型的层次化混合来进行训练，以将有噪数据实例与真实离群点分离。对于特定的图像(例如，SEM图像)，使用高斯模型的特定混合的概率是由贝叶斯概率分布确定的。利用使用一个或多个度量(例如，最小描述长度、贝叶斯狄利克雷度量、Kulbach-Liebler发散和/或其他适当的度量)的组合的非线性优化和动态编程方法来自动学习高斯模型的值和贝叶斯概率。

在一些实施例中，使用的模型可包括随机森林模型、决策树模型和例如利用多模态异步遗传算法(例如，而不是标准梯度下降方法)优化的支持向量机(Support VectorMachine，SVM)模型中的任何一个或多个。在特定实施例中，贝叶斯优化模型与随机森林模型一起被用来检测有噪数据实例。

被利用来检测有噪数据实例的任何机器学习模型可利用监督式学习、半监督式学习或者无监督式学习技术。在监督式学习中，可利用既包含输入也包含相应的期望输出的数据的训练集合来构建模型。每个训练实例可包括一个或多个输入和期望的输出。训练可包括迭代经过训练实例并且使用目标函数来教导模型为新输入预测输出。在半监督式学习中，训练集合中的输入的一部分可缺少期望的输出。在无监督式学习中，可从只包含输入而不包含期望输出的数据的集合构建模型。无监督模型可用于通过发现数据中的模式来找到数据中的结构(例如，数据点的分组或聚类)。

在特定实施例中，当使用多个模型时，每个模型可执行离群点数据实例的二元分类(例如，有噪或者非有噪)。模型中的一个或多个也可为分类计算置信度量。计算系统随后可融合多个模型的输出以做出关于离群点是被分类为有噪还是非有噪的最终确定。融合可按任何适当的方式来执行。例如，在保守系统中，离群点仅在所有AI模型都将该离群点分类为有噪时才被分类为有噪。在其他示例中，如果特定模型以超过特定阈值的置信度将离群点分类为有噪，则该离群点可被分类为有噪，即使一个或多个其他模型不将该离群点分类为有噪。在一个实施例中，模型的输出可被加权(例如，基于其置信度量和/或正确地分类有噪数据实例的相对能力)并且随后被融合来确定整体分类。

可利用任何适当的数据来训练AI模型。在一些实施例中，可利用已被标记为有噪数据实例或真实离群点的数据实例来训练AI模型。可在任何适当的时间随着额外数据变得可用而训练AI模型并且最近训练的模型可被用于推断。例如，训练和推断可同时发生(如果训练将会干扰模型的推断，则特定模型的离线版本可被训练，同时当前版本提供推断，并且一旦训练完成，当前版本就可被新训练的版本所替换)。在一些实施例中，至少部分利用由系统利用AI模型的输出的融合做出的分类来训练个体AI模型。

在518，有噪数据实例被从数据集合502中去除以产生清洁数据集合520作为输出。这可以任何适当的方式实现。例如，在516被标记为有噪数据实例的任何数据实例可被从清洁数据集合520中省略，而数据集合502的所有其他数据实例都可被包括在清洁数据集合520中。

清洁数据集合520可被提供到任何适当的实体以便进一步分析。在一个示例中，清洁数据集合520被包括在硅数据420内并且可被用于本文关于硅数据420描述的任何目的。例如，清洁数据集合520中的离群点或者基于其的信息可被呈现给用户以便进一步分析或者可被用于确定特定设计特征和所产生的制造特征之间的相关性。

流程500可被重复任何适当的次数。例如，第一数据集合502和相应的清洁数据集合520可表示在特定处理层从一个或多个晶圆的多个芯片取得的图像，并且第二数据集合502和相应的清洁数据集合520可表示在不同的处理层从一个或多个晶圆的多个芯片取得的图像。在晶圆的制造期间可以为任何数目的层生成任何数目的数据集合502并对其过滤噪声。对于为特定工艺技术生成的图像执行流程500的同一计算系统也可用于利用一个或多个其他工艺技术生成的图像。

图6根据某些实施例图示了用于识别有噪数据实例的流程。在602，对于输入数据集合的多个数据实例识别一组目标特征。在604，对于多个数据实例为该组目标特征确定特征值。在606，基于所确定的特征值识别多个离群点数据实例。在605，基于多个有噪数据实例的特征值从离群点数据实例中识别多个有噪数据实例，其中有噪数据实例是基于对于在有噪数据实例中存在噪声的确定来识别的。在610，提供对多个有噪数据实例的指示。

图7根据某些实施例图示了计算系统700。系统700的任何适当组件可用于执行上文联系图4-图6描述的任何功能。在一些实施例中，提取系统430或被用户440利用来与提取系统430通信的计算系统可实现系统700的一个或多个组件。系统700包括包含耦合到外部输入/输出(I/O)控制器704的中央处理单元(CPU)702的计算设备701、存储设备706(其在一些实施例中可存储硅数据420和/或数据库510的至少一部分)以及系统存储器707。虽然图示了各种组件，但计算系统700可包括额外的其他组件或者多个图示的组件。

在操作期间，可在存储设备706或系统存储器707和CPU 702之间传送数据。在各种实施例中，涉及存储设备706或系统存储器707的特定数据操作(例如，擦除、编程和读取操作)可由操作系统或者处理器708执行的其他软件应用来管理。

CPU 702包括处理器708，例如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器、手持处理器、应用处理器、协处理器、片上系统(SOC)、或者用于执行代码(即，软件指令)的其他设备。处理器708在描绘的实施例中包括两个处理元件(在描绘的实施例中是核心714A和714B)，这些处理元件可包括非对称处理元件或对称处理元件。然而，处理器可包括可以是对称或非对称的任何数目的处理元件。

在一个实施例中，处理元件指的是支持软件线程的硬件或逻辑。硬件处理元件的示例包括：线程单元、线程槽、线程、处理单元、情境、情境单元、逻辑处理器、硬件线程、核心和/或任何其他元件，其能够保持处理器的状态，例如执行状态或体系结构状态。换言之，处理元件在一个实施例中指的是能够与诸如软件线程、操作系统、应用或其他代码之类的代码独立关联的任何硬件。物理处理器(或者处理器插座)通常指的是可能包括任何数目的其他处理元件(例如核心或硬件线程)的集成电路。

核心714可以指能够维持独立体系结构状态的位于集成电路上的逻辑，其中每个独立维持的体系结构状态与至少一些专用执行资源相关联。硬件线程可以指能够维持独立体系结构状态的位于集成电路上的任何逻辑，其中独立维持的体系结构状态共享对执行资源的访问。可以看出，当某些资源被共享并且其他的被专用于体系结构状态时，硬件线程和核心的命名之间的线重叠。然而经常，核心和硬件线程被操作系统看作单独逻辑处理器，其中操作系统能够单独调度每个逻辑处理器上的操作。

在各种实施例中，处理元件也可包括一个或多个算术逻辑单元(ALU)、浮点单元(FPU)、缓存、指令管线、中断处理硬件、寄存器或者促进处理元件的操作的其他硬件。

I/O控制器710是集成I/O控制器。I/O控制器710可包括用于在CPU702和I/O设备之间传输数据的逻辑，这可以指能够向电子系统(例如CPU 702)传送数据和/或从该电子系统接收数据的任何适当的设备。例如，I/O设备可包括音频/视频(A/V)设备控制器，例如图形加速器或音频控制器；数据存储设备控制器，例如闪存设备、磁存储盘或者光存储盘控制器；无线收发器；网络处理器；网络接口控制器；或者用于诸如监视器、打印机、鼠标、键盘或扫描仪之类的另一输入设备的控制器；或者其他适当的设备。在特定实施例中，I/O设备可包括可通过I/O控制器710耦合到CPU 702的存储设备706。

I/O设备可利用任何适当的信令协议与CPU 702的I/O控制器710通信，例如外围组件互连(PCI)、快速PCI(PCI Express，PCIe)、通用串行总线(USB)、串行附接SCSI(SAS)、串行ATA(SATA)、光纤信道(FC)、IEEE 802.3、IEEE 802.11或者其他当前或将来的信令协议。在特定实施例中，I/O控制器710和底层的I/O设备可根据逻辑设备接口规范来传输数据和命令，所述规范例如是快速非易失性存储器(Non-Volatile Memory Express，NVMe)(例如，如在“http://www.nvmexpress.org/specifications/”可获得的规范中的一个或多个所描述)或者高级主机控制器接口(Advanced Host Controller Interface，AHCI)(例如，如一个或多个AHCI规范所描述的，例如串行ATA AHCI规范，版本1.3.1，在http://www.intel.com/content/www/us/en/io/serial-ata/serial-ata-ahci-spec-rev1-3-1.html可获得)。在各种实施例中，耦合到I/O控制器的I/O设备可位于芯片外(即，不与CPU702在同一芯片上)或者可与CPU 702集成在同一芯片上。

CPU存储器控制器712是集成存储器控制器。在各种实施例中，CPU存储器控制器712可包括存储器控制器110的任何一个或多个特性。CPU存储器控制器可包括逻辑来控制去往和来自一个或多个系统存储器707的数据的流动。CPU存储器控制器712可包括可操作来从系统存储器707读取、向系统存储器707写入或者向系统存储器707请求其他操作的逻辑。在各种实施例中，CPU存储器控制器712可从核心714和/或I/O控制器710接收写入请求并且将这些请求中指定的数据提供到系统存储器707以便存储在其中。CPU存储器控制器712也可从系统存储器707读取数据并且将读取的数据提供到I/O控制器710或核心714。在操作期间，CPU存储器控制器712可发出包括系统存储器707的一个或多个地址的命令以便从存储器读取数据或者向存储器写入数据(或者执行其他操作)。在一些实施例中，CPU存储器控制器712可实现在与CPU 702相同的芯片上，而在其他实施例中，CPU存储器控制器712可实现在与CPU 702不同的芯片上。I/O控制器710可对于一个或多个存储设备706执行类似的操作。

CPU 702也可通过外部I/O控制器704耦合到一个或多个其他I/O设备。在特定实施例中，外部I/O控制器704可将存储设备706耦合到CPU702。外部I/O控制器704可包括逻辑来管理一个或多个CPU 702和I/O设备之间的数据的流动。在特定实施例中，外部I/O控制器704与CPU 702一起位于主板上。外部I/O控制器704可利用点到点或其他接口与CPU702的组件交换信息。在各种实施例中，外部I/O控制器704可包括存储器控制器110的任何一个或多个特性。

系统存储器707可存储任何适当的数据，例如被处理器708用于提供计算机系统700的功能的数据。例如，与被核心714执行的程序或者访问的文件相关联的数据可被存储在系统存储器707中。从而，系统存储器707可包括存储被核心714执行或者以其他方式使用的数据和/或指令序列的系统存储器。在各种实施例中，系统存储器707可存储即使在到系统存储器707的电力被去除之后也保持被存储的持续性数据(例如，用户的文件或者指令序列)。系统存储器707可专用于特定CPU 702或者与计算机系统700的其他设备(例如，一个或多个其他处理器或其他设备)共享。

在各种实施例中，系统存储器707可包括包含任何数目的存储器阵列的存储器、存储器设备控制器(在各种实施例中，存储器设备控制器可包括存储器控制器110的任何一个或多个特性)以及其他支持逻辑(未示出)。存储器阵列可包括非易失性存储器和/或易失性存储器。非易失性存储器是不要求电力来维持该介质存储的数据的状态的存储介质。非易失性存储器的非限制性示例可包括以下各项的任何一者或者组合：固态存储器(例如平面或3D NAND闪存或NOR闪存)，3D交叉点存储器，使用硫属化合物相变材料(例如硫属化合物玻璃)的存储器设备，字节可寻址非易失性存储器设备，铁电存储器，硅氧化氮氧化硅(SONOS)存储器，聚合物存储器(例如，铁电聚合物存储器)，铁电晶体管随机访问存储器(Fe-TRAM)奥氏存储器，纳米线存储器，电可擦除可编程只读存储器(EEPROM)，其他各种类型的非易失性随机访问存储器(RAM)，以及磁存储存储器。在一些实施例中，3D交叉点存储器可包括无晶体管可堆叠交叉点体系结构，其中存储器单元位于字线和位线的交点处并且是个体可寻址的，并且其中位存储是基于体电阻的变化的。易失性存储器是要求电力来维持该介质存储的数据的状态的存储介质。易失性存储器的示例可包括各种类型的随机访问存储器(RAM)，例如动态随机访问存储器(DRAM)或静态随机访问存储器(SRAM)。可用于存储器阵列中的一种特定类型的DRAM是同步动态随机访问存储器(SDRAM)。在一些实施例中，存储器707的作为易失性存储器的任何部分可遵从JEDEC标准，包括但不限于双数据速率(DDR)标准，例如DDR3、4和5或者低功率DDR4(LPDDR4)以及新兴的标准。

存储设备706可存储任何适当的数据，例如被处理器708用于提供计算机系统700的功能的数据。例如，与被核心714A和714B执行的程序或者访问的文件相关联的数据可被存储在存储设备706中。从而，在一些实施例中，存储设备706可存储被核心714A和714B执行或以其他方式使用的数据和/或指令序列。在各种实施例中，存储设备706可存储即使在到存储设备706的电力被去除之后也保持被存储的持续性数据(例如，用户的文件或者软件应用代码)。存储设备706可以是专用于CPU 702的或者是与计算机系统700的其他设备(例如，另一CPU或其他设备)共享的。

在各种实施例中，存储设备706包括存储设备控制器和一个或多个存储器模块。在各种实施例中，存储设备控制器可包括存储器控制器110的任何一个或多个特性。在各种实施例中，存储设备706的存储器模块包括一个或多个NAND闪存阵列、一个或多个硬盘驱动器或者其他适当的存储器存储设备。存储设备706可包括任何适当类型的存储器并且在各种实施例中不限于存储器的特定速度、技术或外形参数。例如，存储设备706可以是盘驱动器(例如固态驱动器)、闪存驱动器、与计算设备集成的存储器(例如，集成在计算设备的电路板上的存储器)、可被插入在存储器插座中的存储器模块(例如，双列直插存储器模块)或者其他类型的存储设备。另外，计算机系统700可包括多个不同类型的存储设备。存储设备706可包括任何适当接口来利用诸如基于DDR的协议、PCI、PCIe、USB、SAS、SATA、FC、系统管理总线(SMBus)或者其他适当的协议之类的任何适当的通信协议与CPU存储器控制器712或者I/O控制器710通信。存储设备706还可包括通信接口来根据诸如NVMe、AHCI或者其他适当的规范之类的任何适当的逻辑设备接口规范与CPU存储器控制器712或I/O控制器710通信。在特定实施例中，存储设备706可包括多个通信接口，每个通信接口利用单独的协议与CPU存储器控制器712和/或I/O控制器710通信。

在一些实施例中，系统700的所有或一些元件驻留在(或者耦合到)同一电路板(例如，主板)上。在各种实施例中，元件之间的任何适当的划分可存在。例如，CPU 702中描绘的元件可位于单个晶粒(即，在片上)或封装上，或者CPU 702的任何元件可位于片外或者封装外。类似地，存储设备706中描绘的元件可位于单个芯片上或多个芯片上。在各种实施例中，存储设备706和计算设备(例如，CPU 702)可位于同一电路板上或者同一设备上，并且在其他实施例中，存储设备706和计算设备可位于不同的电路板或设备上。

系统700的组件可按任何适当的方式耦合在一起。例如，总线可将任何组件耦合在一起。总线可包括任何已知的互连，例如多点分支总线、网状互连、环状互连、点到点互连、串行互连、并行总线、一致性(例如缓存一致性)总线、分层协议体系结构、差动总线以及射击收发器逻辑(Gunning transceiver logic，GTL)总线。在各种实施例中，集成I/O子系统包括系统700的各种组件(例如核心714、一个或多个CPU存储器控制器712、I/O控制器710、集成I/O设备、直接存储器访问(direct memory access，DMA)逻辑(未示出)等等)之间的点到点复用逻辑。在各种实施例中，计算机系统700的组件可通过一个或多个网络耦合在一起，这些网络包括任何数目的居间网络节点，例如路由器、交换机或者其他计算设备。例如，计算设备(例如，CPU 702)和存储设备706可通过网络通信地耦合。

虽然没有描绘，但系统700可使用电池和/或电源插座连接器和关联的系统来接收电力，使用显示器来输出由CPU 702提供的数据，或者使用允许系统700通过网络通信的网络接口。在各种实施例中，电池、电源插座连接器、显示器和/或网络接口可通信地耦合到CPU 702。可以使用其他电力源，例如可再生能量(例如，太阳能或者基于运动的电力)。

设计可经过各种阶段，从创建到仿真再到制造。表示设计的数据可按若干种方式来表示设计。首先，正如在仿真中有用的，可利用硬件描述语言(HDL)或者另外的功能性描述语言来表示硬件。此外，在设计过程的一些阶段可产生具有逻辑和/或晶体管门的电路级模型。另外，大多数设计在某个阶段达到表示硬件模型中的各种器件的物理布置的数据的级别。在使用传统的半导体制造技术的情况下，表示硬件模型的数据可以是为用于产生集成电路的掩模指定不同掩模层上的各种特征的存在与否的数据。在一些实现方式中，这种数据可被存储在数据库文件格式中，例如图形数据系统II(GDS II)、开放原图系统交换标准(OASIS)或者类似的格式。

在一些实现方式中，基于软件的硬件模型以及HDL和其他功能性描述语言对象可包括寄存器传送语言(register transfer language，RTL)文件，以及其他示例。这种对象可以是机器可解析的，使得设计工具可接受HDL对象(或模型)，针对描述的硬件的属性解析HDL对象，并且从该对象确定物理电路和/或片上布局。设计工具的输出可用于制造物理器件。例如，设计工具可从HDL对象确定各种硬件和/或固件元件的配置，例如总线宽度、寄存器(包括大小和类型)、存储器块、物理链路路径、结构拓扑以及为了实现在HDL对象中建模的系统将会实现的其他属性。设计工具可包括用于确定片上系统(SoC)和其他硬件器件的拓扑和结构配置的工具。在一些情况中，HDL对象可被用作可被制造设备用来制造描述的硬件的开发模型和设计文件的基础。实际上，HDL对象本身可作为输入被提供到制造系统软件以引起描述的硬件。

在设计的任何表示中，数据可被存储在任何形式的机器可读介质中。存储器或者例如盘之类的磁或光存储装置可以是用于存储经由光波或电波传输的信息的机器可读介质，这些光波或电波被调制或者被以其他方式生成来传输这种信息。当指示或携带代码或设计的电载波被传输时，就执行电信号的拷贝、缓冲或重传而言，新的拷贝被做出。从而，通信提供商或网络提供商可在有形机器可读介质上至少临时存储体现本公开的实施例的技术的物品，例如被编码到载波中的信息。

在各种实施例中，存储设计的表示的介质可被提供到制造系统(例如，能够制造集成电路和/或有关组件的半导体制造系统)。设计表示可指示系统制造能够执行上文描述的功能的任何组合的设备。例如，设计表示可指示系统关于要制造哪些组件、组件应当如何被耦合在一起、组件应当被放置在设备上的何处和/或关于与要制造的设备有关的其他适当规格。

本文使用的模块指的是电路以及硬件、软件和/或固件的任何组合。作为示例，模块包括硬件，例如微控制器，其与非暂态介质相关联来存储适合于被微控制器执行的代码。因此，在一个实施例中提及模块指的是硬件，其被特别配置为识别和/或执行要被保存在非暂态介质上的代码。此外，在另一实施例中，对模块的使用指的是包括代码的非暂态介质，该代码特别适合于被微控制器执行来执行预定的操作。正如可以推断出的，在另外一个实施例中，术语模块(在此示例中)可以指微控制器和非暂态介质的组合。通常，被图示为分开的模块边界一般是变化的并且可能重叠。例如，第一和第二模块可共享硬件、软件、固件或者其组合，同时可能保留一些独立的硬件、软件或固件。在一个实施例中，对术语逻辑的使用包括硬件，例如晶体管、寄存器或其他硬件，例如可编程逻辑器件。

逻辑可用于实现任何描述的流程或者诸如CPU 702、外部I/O控制器704、处理器708、核心714A和714B、I/O控制器710、CPU存储器控制器712、存储设备706、系统存储器707、其子组件或者本文描述的其他实体或组件之类的各种组件的功能。“逻辑”可以指硬件、固件、软件和/或每者的组合来执行一个或多个功能。在各种实施例中，逻辑可包括可操作来执行软件指令的微处理器或者其他处理元件，诸如专用集成电路(ASIC)之类的分立逻辑，诸如现场可编程门阵列(field programmable gate array，FPGA)之类的编程逻辑器件，包含指令的存储设备，逻辑器件的组合(例如，如将会存在于印刷电路板上的)或者其他适当的硬件和/或软件。逻辑可包括一个或多个门或其他电路组件。在一些实施例中，逻辑也可完全实现为软件。软件可实现为记录在非暂态计算机可读存储介质上的软件包、代码、指令、指令集和/或数据。固件可实现为被硬编码(例如，非易失性)在存储设备中的代码、指令或指令集和/或数据。

对短语“用来”或者“被配置为”的使用在一个实施例中指的是布置、装配、制造、许诺销售、进口和/或设计装置、硬件、逻辑或元件来执行指定或确定的任务。在此示例中，未在操作的装置或其元件仍“被配置为”执行指定的任务，如果它被设计、耦合和/或互连来执行所述指定任务的话。作为纯说明性示例，逻辑门在操作期间可提供0或1。但“被配置为”向时钟提供使能信号的逻辑门并不包括可提供1或0的每一个可能逻辑门。反而，逻辑门是以在操作期间1或0输出会使能时钟的某种方式耦合的那种。再次注意对术语“被配置为”的使用不要求操作，而是聚焦于装置、硬件和/或元件的潜在状态，其中在潜在状态中，装置、硬件和/或元件被设计为当该装置、硬件和/或元件在操作时执行特定的任务。

此外，在一个实施例中对短语“能够”和/或“可操作来”的使用指的是以使能以指定方式使用装置、逻辑、硬件和/或元件的方式设计的某种装置、逻辑、硬件和/或元件。与上文一样要注意在一个实施例中对“用来”、“能够”或者“可操作来”的使用指的是装置、逻辑、硬件和/或元件的潜在状态，其中装置、逻辑、硬件和/或元件未在操作，但被以使能以指定方式使用装置的方式来设计。

本文使用的值包括数字、状态、逻辑状态或者二元逻辑状态的任何已知表示。通常，对逻辑电平、逻辑值或逻辑的值的使用也被称为1和0，这简单地就是表示二元逻辑状态。例如，1指的是高逻辑电平，0指的是低逻辑电平。在一个实施例中，存储单元，例如晶体管或闪存单元，可能够保存单个逻辑值或多个逻辑值。然而，使用了计算机系统中的值的其他表示。例如，十进制数字十也可被表示为二进制值1010和十六进制字母A。因此，值包括能够被保存在计算机系统中的信息的任何表示。

另外，状态可由值或值的部分来表示。作为示例，第一值，例如逻辑一，可表示默认或初始状态，而第二值，例如逻辑零，可表示非默认状态。此外，术语重置和设置在一个实施例中分别指的是默认的和更新后的值或状态。例如，默认值可能包括高逻辑值，即重置，而更新后的值可能包括低逻辑值，即设置。注意，值的任何组合可被利用来表示任何数目的状态。

上文记载的方法、硬件、软件、固件或代码的实施例可经由存储在机器可访问、机器可读、计算机可访问或者计算机可读介质上的可由处理元件执行的指令或代码来实现。非暂态机器可访问/可读介质包括以机器(例如计算机或电子系统)可读的形式提供(即，存储和/或传输)信息的任何机制。例如，非暂态机器可访问介质包括随机访问存储器(RAM)，例如静态RAM(SRAM)或动态RAM(DRAM)；ROM；磁存储介质或光存储介质；闪存存储设备；电存储设备；光存储设备；声存储设备；用于保存从暂态(传播)信号(例如，载波、红外信号、数字信号)接收的信息的其他形式的存储设备；等等，它们要与可从其接收信息的非暂态介质相区分。

用于将逻辑编程为执行本公开的实施例的指令可被存储在系统中的存储器内，例如DRAM、缓存、闪存或者其他存储装置。此外，指令可经由网络或借由其他计算机可读介质来分发。从而，机器可读介质可包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，但不限于是软盘，光盘，致密盘只读存储器(CD-ROM)，以及磁光盘，只读存储器(ROM)，随机访问存储器(RAM)，可擦除可编程只读存储器(EPROM)，电可擦除可编程只读存储器(EEPROM)，磁卡或光卡，闪存，或者在经由电的、光的、声的或者其他形式的传播信号(例如，载波、红外信号、数字信号等等)通过互联网传输信息时使用的有形机器可读存储装置。因此，计算机可读介质包括适用于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的有型机器可读介质。

以下示例属于根据本说明书的实施例。示例1是其上存储有指令的至少一个机器可读存储介质，所述指令当被机器执行时使得所述机器为输入数据集合的多个数据实例识别一组目标特征；为所述多个数据实例的所述一组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对所述多个有噪数据实例的指示。

示例2可包括如示例1所述的主题，其中所述指令当被执行时使得所述机器确定所述输入数据集合的类别；并且基于所述输入数据集合的类别从多个目标特征中选择所述一组目标特征。

示例3可包括如示例2所述的主题，其中所述多个数据实例是工艺技术的至少一个晶圆的至少一个半导体芯片的处理层的图像并且其中所述数据实例的类别对应于所述处理层和所述工艺技术。

示例4可包括如示例2-3的任何一项所述的主题，所述指令当被执行时使得所述机器基于针对所述输入数据集合的多个数据实例的子集为所述多个目标特征确定的特征值来确定所述输入数据集合的类别。

示例5可包括如示例1-4的任何一项所述的主题，其中基于所确定的特征值识别所述多个离群点数据实例包括：基于所确定的特征值对所述输入数据集合的多个数据实例进行聚类。

示例6可包括如示例1-5的任何一项所述的主题，其中所述指令当被执行时使得所述机器利用第一模型来生成第一预测，所述第一预测指示出所述离群点数据实例中的第一者是否应当被分类为有噪数据实例；利用第二模型来生成第二预测，所述第二预测指示出所述离群点数据实例中的所述第一者是否应当被分类为有噪数据实例；并且基于所述第一预测和所述第二预测来确定所述离群点数据实例中的所述第一者是否是有噪数据实例。

示例7可包括如示例6所述的主题，其中所述第一模型是随机森林模型并且所述第二模型是贝叶斯优化模型。

示例8可包括如示例7所述的主题，其中所述贝叶斯优化模型是利用与高斯离群点检测耦合的高斯模型的层次化混合来训练的。

示例9可包括如示例7所述的主题，其中所述随机森林模型是利用多模态异步遗传算法来优化的。

示例10可包括如示例1-9的任何一项所述的主题，其中所述一组目标特征包括以下各项中的一个或多个：对齐距离，对齐质量，基于高斯的二进制大对象测量的拉普拉斯算子，图像熵，合并轮廓，断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，以及线宽度粗糙度。

示例11是一种方法，包括：为输入数据集合的多个数据实例识别一组目标特征；为所述多个数据实例的所述一组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对所述多个有噪数据实例的指示。

示例12可包括如示例11所述的主题，其中所述方法还包括确定所述输入数据集合的类别；并且基于所述输入数据集合的类别从多个目标特征中选择所述一组目标特征。

示例13可包括如示例2所述的主题，其中所述多个数据实例是工艺技术的至少一个晶圆的至少一个半导体芯片的处理层的图像并且其中所述数据实例的类别对应于所述处理层和所述工艺技术。

示例14可包括如示例12-13的任何一项所述的主题，所述指令当被执行时使得所述机器基于针对所述输入数据集合的多个数据实例的子集为所述多个目标特征确定的特征值来确定所述输入数据集合的类别。

示例15可包括如示例11-14的任何一项所述的主题，其中基于所确定的特征值识别所述多个离群点数据实例包括基于所确定的特征值对所述输入数据集合的多个数据实例进行聚类。

示例16可包括如示例11-15的任何一项所述的主题，所述方法还包括利用第一模型来生成第一预测，所述第一预测指示出所述离群点数据实例中的第一者是否应当被分类为有噪数据实例；利用第二模型来生成第二预测，所述第二预测指示出所述离群点数据实例中的所述第一者是否应当被分类为有噪数据实例；并且基于所述第一预测和所述第二预测来确定所述离群点数据实例中的所述第一者是否是有噪数据实例。

示例17可包括如示例16所述的主题，其中所述第一模型是随机森林模型并且所述第二模型是贝叶斯优化模型。

示例18可包括如示例17所述的主题，其中所述贝叶斯优化模型是利用与高斯离群点检测耦合的高斯模型的层次化混合来训练的。

示例19可包括如示例17所述的主题，其中所述随机森林模型是利用多模态异步遗传算法来优化的。

示例20可包括如示例11-19的任何一项所述的主题，其中所述一组目标特征包括以下各项中的一个或多个：对齐距离，对齐质量，基于高斯的二进制大对象测量的拉普拉斯算子，图像熵，合并轮廓，断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，以及线宽度粗糙度。

示例21是一种装置，包括存储器来存储包括多个数据实例的输入数据集合；以及耦合到所述存储器的处理器，所述处理器为所述输入数据集合的所述多个数据实例识别一组目标特征；为所述多个数据实例的所述一组目标特征确定特征值；基于所确定的特征值识别多个离群点数据实例；基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且提供对所述多个有噪数据实例的指示。

示例22可包括如示例21所述的主题，其中所述处理器确定所述输入数据集合的类别；并且基于所述输入数据集合的类别从多个目标特征中选择所述一组目标特征。

示例23可包括如示例22所述的主题，其中所述多个数据实例是工艺技术的至少一个晶圆的至少一个半导体芯片的处理层的图像并且其中所述数据实例的类别对应于所述处理层和所述工艺技术。

示例24可包括如示例22-23的任何一项所述的主题，所述处理器基于针对所述输入数据集合的多个数据实例的子集为所述多个目标特征确定的特征值来确定所述输入数据集合的类别。

示例25可包括如示例21-24的任何一项所述的主题，其中基于所确定的特征值识别所述多个离群点数据实例包括基于所确定的特征值对所述输入数据集合的多个数据实例进行聚类。

示例26可包括如示例21-25的任何一项所述的主题，其中所述处理器利用第一模型来生成第一预测，所述第一预测指示出所述离群点数据实例中的第一者是否应当被分类为有噪数据实例；利用第二模型来生成第二预测，所述第二预测指示出所述离群点数据实例中的所述第一者是否应当被分类为有噪数据实例；并且基于所述第一预测和所述第二预测来确定所述离群点数据实例中的所述第一者是否是有噪数据实例。

示例27可包括如示例26所述的主题，其中所述第一模型是随机森林模型并且所述第二模型是贝叶斯优化模型。

示例28可包括如示例27所述的主题，其中所述贝叶斯优化模型是利用与高斯离群点检测耦合的高斯模型的层次化混合来训练的。

示例29可包括如示例27所述的主题，其中所述随机森林模型是利用多模态异步遗传算法来优化的。

示例30可包括如示例21-29的任何一项所述的主题，其中所述一组目标特征包括以下各项中的一个或多个：对齐距离，对齐质量，基于高斯的二进制大对象测量的拉普拉斯算子，图像熵，合并轮廓，断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，以及线宽度粗糙度。

本说明书中各处提及“一个实施例”或“一实施例”的意思是联系该实施例描述的特定特征、结构或特性被包括在本公开的至少一个实施例中。从而，短语“在一个实施例中”或“在一实施例中”在本说明书各处的出现不一定全都指的同一实施例。另外，特定的特征、结构或特性在一个或多个实施例中可按任何适当的方式被组合。

在前述说明书中，参考特定示范性实施例给出了详细描述。然而，很明显，在不脱离如所附权利要求所记载的本公开的更宽精神和范围的情况下，可对其进行各种修改和改变。因此应从说明意义而不是限制意义上来看待说明书和附图。此外，前述对实施例和其他示范性语言的使用不一定指的是同一实施例或同一示例，而是可以指不同的以及有区别的实施例，以及可能相同的实施例。

Claims

1.一种装置，包括：

存储器，用于存储包括多个数据实例的输入数据集合；以及

耦合到所述存储器的处理器，该处理器用于：

为所述输入数据集合的多个数据实例识别一组目标特征；

为所述多个数据实例的所述一组目标特征确定特征值；

基于所确定的特征值识别多个离群点数据实例；

基于多个有噪数据实例的特征值从所述离群点数据实例中识别所述多个有噪数据实例，其中有噪数据实例是基于对在有噪数据实例中存在噪声的确定来识别的；并且

提供对所述多个有噪数据实例的指示。

2.如权利要求1所述的装置，所述处理器用于：

确定所述输入数据集合的类别；并且

基于所述输入数据集合的类别从多个目标特征中选择所述一组目标特征。

3.如权利要求2所述的装置，其中所述多个数据实例是工艺技术的至少一个晶圆的至少一个半导体芯片的处理层的图像，并且其中所述数据实例的类别对应于所述处理层和所述工艺技术。

4.如权利要求2-3中任一项所述的装置，所述处理器用于：基于针对所述输入数据集合的多个数据实例的子集为所述多个目标特征确定的特征值，来确定所述输入数据集合的类别。

5.如权利要求1-4中任一项所述的装置，其中基于所确定的特征值识别所述多个离群点数据实例包括：基于所确定的特征值对所述输入数据集合的多个数据实例进行聚类。

6.如权利要求1-5中任一项所述的装置，所述处理器用于：

利用第一模型来生成第一预测，所述第一预测指示出所述离群点数据实例中的第一者是否应当被分类为有噪数据实例；

利用第二模型来生成第二预测，所述第二预测指示出所述离群点数据实例中的所述第一者是否应当被分类为有噪数据实例；并且

基于所述第一预测和所述第二预测来确定所述离群点数据实例中的所述第一者是否是有噪数据实例。

7.如权利要求6所述的装置，其中所述第一模型是随机森林模型并且所述第二模型是贝叶斯优化模型。

8.如权利要求7所述的装置，其中所述贝叶斯优化模型是利用与高斯离群点检测耦合的高斯模型的层次化混合来训练的。

9.如权利要求7所述的装置，其中所述随机森林模型是利用多模态异步遗传算法来优化的。

10.如权利要求1-9中任一项所述的装置，其中所述一组目标特征包括以下各项中的一项或多项：对齐距离，对齐质量，基于高斯的二进制大对象测量的拉普拉斯算子，图像熵，合并轮廓，断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，以及线宽度粗糙度。

11.一种方法，包括：

为输入数据集合的多个数据实例识别一组目标特征；

为所述多个数据实例的所述一组目标特征确定特征值；

基于所确定的特征值识别多个离群点数据实例；

提供对所述多个有噪数据实例的指示。

12.如权利要求11所述的方法，还包括：

确定所述输入数据集合的类别；并且

13.如权利要求12所述的方法，其中所述多个数据实例是工艺技术的至少一个晶圆的至少一个半导体芯片的处理层的图像，并且其中所述数据实例的类别对应于所述处理层和所述工艺技术。

14.如权利要求12-13中任一项所述的方法，还包括：基于针对所述输入数据集合的多个数据实例的子集为所述多个目标特征确定的特征值来确定所述输入数据集合的类别。

15.如权利要求11-14中任一项所述的方法，其中基于所确定的特征值识别所述多个离群点数据实例包括：基于所确定的特征值对所述输入数据集合的多个数据实例进行聚类。

16.如权利要求11-15中任一项所述的方法，还包括：

17.如权利要求16所述的方法，其中所述第一模型是随机森林模型并且所述第二模型是贝叶斯优化模型。

18.如权利要求17所述的方法，其中所述贝叶斯优化模型是利用与高斯离群点检测耦合的高斯模型的层次化混合来训练的。

19.如权利要求17所述的方法，其中所述随机森林模型是利用多模态异步遗传算法来优化的。

20.如权利要求11-19中任一项所述的方法，其中所述一组目标特征包括以下各项中的一项或多项：对齐距离，对齐质量，基于高斯的二进制大对象测量的拉普拉斯算子，图像熵，合并轮廓，断开轮廓，意料外轮廓，轮廓宽度分布，轮廓高度分布，轮廓面积分布，局部或全局图像强度直方图，局部或全局图像对比度变化，线边缘粗糙度，以及线宽度粗糙度。

21.一种系统，包括用于执行如权利要求10-20中任一项所述的方法的装置。

22.如权利要求21所述的系统，其中，所述装置包括机器可读代码，所述机器可读代码在被执行时使机器执行如根据权利要求10-20中任一项所述的方法的一个或多个步骤。