CN113168556A

CN113168556A - 用于降低机器学习模型预测中的不确定性的方法

Info

Publication number: CN113168556A
Application number: CN201980078859.5A
Authority: CN
Inventors: S·A·米德尔布鲁克; M·G·M·M·范克莱杰; M·皮萨伦科
Original assignee: ASML Holding NV
Current assignee: ASML Holding NV
Priority date: 2018-11-30
Filing date: 2019-11-19
Publication date: 2021-07-23
Also published as: JP7209835B2; US20210286270A1; WO2020109074A1; TWI757663B; TW202036387A; JP2022510591A; KR20210082247A

Abstract

本文描述了一种用于量化参数化(例如，机器学习)模型预测中的不确定性的方法。该方法包括使参数化模型预测来自参数化模型的针对给定输入的多个后验分布。该多个后验分布包括多个分布中的分布。该方法包括通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性；并使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。参数化模型包括编码器‑解码器架构。该方法包括使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于预测晶片几何、重叠和/或其他信息作为半导体制造过程的一部分。

Description

用于降低机器学习模型预测中的不确定性的方法

相关申请的交叉引用

本申请要求于2018年11月30日提交的欧洲申请18209496.1以及于2019年6月26日提交的欧洲申请19182658.5的优先权，其整体内容通过引用并入于此。

技术领域

本文的说明总体上涉及掩模制造和图案化过程。更具体地，本说明涉及一种用于确定和/或降低参数化(例如，机器学习)模型预测中的不确定性的装置和方法。

背景技术

光刻投影装置可以例如在集成电路(IC)的制造中被使用。在这样的情况下，图案化器件(例如，掩模)可以包含或提供与IC的单独层相对应的图案(“设计布局”)，并且该图案可以通过诸如通过图案化器件上的图案而辐照目标部分的方法而被转移到衬底(例如，硅晶片)上已被涂覆有辐射敏感材料(“抗蚀剂”)的层的目标部分(例如，包括一个或多个管芯)上。通常，单个衬底包含多个相邻目标部分，图案由光刻投影装置连续转移到该多个相邻目标部分，一次一个目标部分。在一种类型的光刻投影装置中，整个图案化器件上的图案在一次操作中被转移到一个目标部分上。这样的装置通常被称为步进器。在通常被称为步进扫描装置的备选装置中，投射光束在与给定参考方向(“扫描”方向)平行或反平行地同步移动衬底的同时沿该参考方向扫描图案化器件。图案在图案化器件上的不同部分被逐渐地转移到一个目标部分。因为通常光刻投影装置将具有缩小率M(例如4)，所以衬底被移动的速度F将是投影光束扫描图案化器件的速度的1/M倍。关于如本文所描述的光刻装置的更多信息例如可以从US 6,046,792中收集，其通过引用并入本文。

在将图案从图案化器件转移到衬底之前，衬底可以经历各种过程，诸如涂底料、抗蚀剂涂覆和软烘烤。在曝光之后，衬底可以遭受其他过程(“曝光后过程”)，诸如后曝光烘烤(PEB)、显影、硬烘烤和所转移图案的测量/检查。该一系列过程被用作制造器件(例如IC)的单独层的基础。然后，衬底可以经历全部旨在完成器件的单独层的各种过程，诸如蚀刻、离子注入(掺杂)、金属化、氧化、化学机械抛光等。如果若干层在器件中被需要，那么对于每一层重复整个过程或其变型。最终，器件将存在于衬底上的每个目标部分中。然后，通过诸如切割或锯切的技术将这些器件彼此分离，从而可以将单独器件安装在载体上、连接到引脚等。

因此，诸如半导体器件的制造器件通常涉及使用许多制造过程来处理衬底(例如，半导体晶片)以形成器件的各种特征和多个层。通常使用例如沉积、光刻、蚀刻、化学机械抛光和离子注入来制造和处理这样的层和特征。多个器件可以在衬底上的多个管芯上被制造，然后被分离成单独器件。该器件制造过程可以被认为是图案化过程。图案化过程涉及图案化步骤，诸如使用光刻装置中的图案化器件进行光学和/或纳米压印光刻，以将图案化器件上的图案转移到衬底上，并且通常但可选地涉及一个或多个相关的图案处理步骤，诸如由显影装置进行抗蚀剂显影，使用烘烤工具对衬底的烘烤，使用蚀刻装置使用图案进行蚀刻等等。在图案化过程中通常涉及一个或多个计量过程。

如所指出的，光刻是制造诸如IC的器件中的核心步骤，其中在衬底上所形成的图案限定器件的功能元件，诸如微处理器、存储器芯片等等。类似的光刻技术还被用于形成平板显示器、微机电系统(MEMS)和其他器件。

随着半导体制造过程的持续进步，功能元件的尺寸(dimension)持续被减小，而每个器件的功能元件(诸如晶体管)的数量在过去几十年中一直遵循通常被称为“摩尔定律”的趋势而稳定增长。在当前的技术状况下，使用光刻投影装置制造器件的各层，该光刻投影装置使用来自深紫外照射源的照射将设计布局投影到衬底上，从而创建尺寸远低于100nm的单独功能元件，即小于来自照射源的辐射波长的一半(例如193nm照射源)。

根据分辨率公式CD＝k₁×λ/NA，具有尺寸小于光刻投影装置的经典分辨率限制的特征在其中被印刷的该过程通常被称为低k₁光刻，其中λ是所采用的辐射的波长(当前大多数情况下为248nm或193nm)，NA是光刻投影装置中投影光学器件的数值孔径，CD是“临界尺寸”——通常是被印刷的最小特征大小——并且k₁是经验分辨率因子。通常，k₁越小，越难以在衬底上再现与为了实现特定电气功能性和性能而由设计者计划的形状和尺寸类似的图案。为了克服这些困难，将复杂的微调步骤应用于光刻投影装置、设计布局或图案化器件。这些包括(例如但不限于)NA和光学相干设置的优化、定制的照射方案、相移图案化器件的使用、设计布局中的光学邻近校正(OPC，有时也被称为“光学和过程校正”)或者通常被限定为“分辨率增强技术”(RET)的其他方法。如本文中所使用的术语“投影光学器件”应被广义地解释为涵盖各种类型的光学系统，例如包括折射光学器件、反射光学器件、孔径和折反射光学器件。术语“投影光学器件”还可以包括根据这些设计类型中的任何一种来共同地或单个地进行操作以用于引导、成形或控制辐射的投影光束的组件。术语“投影光学器件”可以包括光刻投影装置中的任何光学组件，而不管光学组件位于光刻投影装置的光路上的何处。投影光学器件可以包括用于在辐射通过图案化器件之前对来自源的辐射进行整形、调整和/或投射的光学组件，和/或用于在辐射通过图案化器件之后用于对辐射进行整形、调整和/或投射的光学组件。投影光学器件通常不包括光源和图案化器件。

发明内容

根据实施例，提供了一种用于调整光刻装置的方法。该方法包括使机器学习模型预测来自机器学习模型的针对给定输入的多个后验分布。该多个后验分布包括多个分布中的分布。该方法包括通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性。该方法包括使用所预测的多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性。该方法包括调整机器学习模型的一个或多个参数以降低机器学习模型预测中的不确定性。该方法包括基于给定输入基于来自经调整的机器学习模型的预测来确定一个或多个光刻过程参数；并且基于所确定的一个或多个光刻过程参数来调整光刻装置。

在一个实施例中，机器学习模型的一个或多个参数包括机器学习模型的一个或多个参数的一个或多个权重。

在一个实施例中，来自经调整的机器学习模型的预测包括所预测的重叠或所预测的晶片几何中的一项或多项。

在一个实施例中，所确定的一个或多个光刻过程参数包括掩模设计、光瞳形状、剂量或焦点中的一项或多项。

在一个实施例中，所确定的一个或多个光刻过程参数包括掩模设计，并且基于掩模设计来调整光刻装置包括：将掩模设计从第一掩模设计改变为第二掩模设计。

在一个实施例中，所确定的一个或多个光刻过程参数包括光瞳形状，并且基于光瞳形状来调整光刻装置包括：将光瞳形状从第一光瞳形状改变为第二光瞳形状。

在一个实施例中，所确定的一个或多个光刻过程参数包括剂量，并且基于剂量来调整光刻装置包括：将剂量从第一剂量改变为第二剂量。

在一个实施例中，所确定的一个或多个光刻过程参数包括焦点，并且基于焦点来调整光刻装置包括：将焦点从第一焦点改变为第二焦点。

在一个实施例中，使机器学习模型预测多个后验分布包括：使机器学习模型使用参数丢弃(dropout)来生成多个分布中的分布。

在一个实施例中，使机器学习模型预测来自机器学习模型的针对给定输入的多个后验分布包括：使机器学习模型预测与第一后验分布P_Θ(z|x)相对应的第一组多个后验分布、以及与第二后验分布P_φ(y|z)相对应的第二组多个后验分布；通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性包括：通过从多个分布中的、针对所预测的第一组多个后验分布和所预测的第二组多个后验分布的分布采样来确定针对给定输入的所预测的第一组多个后验分布和第二组多个后验分布的可变性；并且使用所预测的多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性包括：使用所预测的第一组多个后验分布和所预测的第二组多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性。

在一个实施例中，给定输入包括以下中的一项或多项：图像、剪辑、经编码图像、经编码剪辑、或来自参数化模型的先前层中的数据。

在一个实施例中，该方法还包括：使用所预测的多个后验分布中的所确定的可变性和/或经量化的不确定性来调整机器学习模型，以通过使机器学习模型更具描述性或包括更多样化的训练数据来降低机器学习模型的不确定性。

在一个实施例中，采样包括：从多个分布中的分布随机选择分布，其中采样是高斯或非高斯的。

在一个实施例中，确定可变性包括：利用一个或多个统计操作来量化可变性，该一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度或协方差。

在一个实施例中，机器学习模型的不确定性与机器学习模型的一个或多个参数的权重的不确定性以及关联于机器学习模型的潜在空间的大小和描述性有关。

在一个实施例中，调整机器学习模型以降低机器学习模型的不确定性包括：增加训练集大小和/或添加与机器学习模型相关联的潜在空间的维度。

在一个实施例中，增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，并在机器学习模型中使用更多编码层。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性包括向关联于机器学习模型的潜在空间添加附加维度。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整机器学习模型的一个或多个参数以降低机器学习模型的不确定性包括：利用附加的且更多样化的训练样本来训练机器学习模型。

根据另一个实施例，提供了一种用于量化参数化模型预测中的不确定性的方法。该方法包括使参数化模型预测来自参数化模型的针对给定输入的多个后验分布。多个后验分布包括多个分布中的分布。该方法包括：通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性；以及使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。

在一个实施例中，参数化模型是机器学习模型。

在一个实施例中，使参数化模型预测多个后验分布包括：使参数化模型使用参数丢弃来生成多个分布中的分布。

在一个实施例中，使参数化模型预测来自参数化模型的针对给定输入的多个后验分布包括：使参数化模型预测与第一后验分布P_Θ(z|x)相对应的第一组多个后验分布、以及与第二后验分布P_φ(y|z)相对应的第二组多个后验分布；通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性包括：通过从多个分布中的、针对所预测的第一组多个后验分布和所预测的第二组多个后验分布的分布采样来确定针对给定输入的所预测的第一组多个后验分布和第二组多个后验分布的可变性；以及使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性包括：使用所预测的第一组多个后验分布和所预测的第二组多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。

在一个实施例中，该方法还包括：使用所预测的多个后验分布中的所确定的可变性和/或经量化的不确定性来调整参数化模型，以通过使参数化模型更具描述性或包括更多样化的训练数据来降低参数化模型的不确定性。

在一个实施例中，参数化模型包括编码器-解码器架构。

在一个实施例中，编码器-解码器架构包括变分编码器-解码器架构，并且该方法还包括：利用概率性潜在空间来训练变分编码器-解码器架构，该变分编码器-解码器架构在输出空间中生成实现。

在一个实施例中，潜在空间包括低维编码。

在一个实施例中，该方法还包括：针对给定输入，使用编码器-解码器架构的编码器部分来确定潜在变量的条件概率。

在一个实施例中，该方法还包括：使用编码器-解码器架构的解码器部分来确定条件概率。

在一个实施例中，该方法还包括：从使用编码器-解码器架构的编码器部分所确定的潜在变量的条件概率采样，并且针对每个样本，使用编码器-解码器架构的解码器部分来预测输出。

在一个实施例中，参数化模型的不确定性与参数化模型的参数的权重的不确定性以及潜在空间的大小和描述性有关。

在一个实施例中，参数化模型的不确定性与参数化模型的参数的权重的不确定性以及潜在空间的大小和描述性有关，使得权重的不确定性显现为输出中的不确定性，导致增加的输出方差。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括：增加训练集大小和/或添加潜在空间的维度。

在一个实施例中，增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据和附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括向潜在空间添加附加维度。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括利用附加的且更多样化的训练样本来训练参数化模型。

在一个实施例中，附加的且更多样化的训练样本包括：相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑。

在一个实施例中，该方法还包括：使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于预测晶片几何作为半导体制造过程的一部分。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于预测晶片几何作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

在一个实施例中，该方法还包括：使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分。

在一个实施例中，使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

根据另一个实施例，提供了一种计算机程序产品，该计算机程序产品包括其上记录有指令的非瞬态计算机可读介质，该指令在由计算机执行时实现上述任何方法。

附图说明

附图被并入说明书中并构成说明书一部分，附图例示出了一个或多个实施例，并且与说明书一起解释了这些实施例。现在将仅通过示例的方式、参考所附示意图来描述实施例，在附图中，对应的附图符号指示对应的部件，并且其中：

图1示出了根据一个实施例的光刻系统的各个子系统的框图。

图2例示出了根据一个实施例的用于在光刻投影装置中模拟光刻的示例性流程图。

图3例示出了根据一个实施例的用于降低机器学习模型预测中的不确定性的本方法的各操作的概述。

图4例示出了根据一个实施例的卷积编码器-解码器。

图5例示出了根据一个实施例的神经网络内的编码器-解码器架构。

图6A例示出了根据一个实施例的，在潜在空间中采样的情况下的图5的变分编码器-解码器架构版本。

图6B例示出了图4中所示的编码器-解码器架构的另一视图。

图6C例示出了示例的预期分布p(z|x)，以及来自多个分布中的分布的针对p(z|x)的所采样的分布的可变性。

图7根据一个实施例例示出了被用作针对机器学习模型的输入的掩模图像、基于掩模图像所预测的来自机器学习模型的预测输出的均值、例示出了预测输出中的方差的图像、使用掩模图像所产生的实际掩模的扫描电子显微镜(SEM)图像以及例示出了后验分布的潜在空间。

图8根据一个实施例例示出了被用作针对机器学习模型的输入的第二掩模图像、基于第二掩模图像所预测的来自机器学习模型的预测输出的第二均值、例示出了预测输出中的方差的第二图像、使用第二掩模图像所产生的实际掩模的第二SEM图像以及例示出了第二后验分布的第二潜在空间。

图9根据一个实施例例示出了被用作针对机器学习模型的输入的第三掩模图像、基于第三掩模图像所预测的来自机器学习模型的预测输出的第三均值、例示出了预测输出中的方差的第三图像、使用第三掩模图像所产生的实际掩模的第三SEM图像以及例示出了第三后验分布的第三潜在空间。

图10是根据一个实施例的示例计算机系统的框图。

图11是根据一个实施例的光刻投影装置的示意图。

图12是根据一个实施例的另一光刻投影装置的示意图。

图13是根据一个实施例的图12中的装置的更详细视图。

图14是根据一个实施例的图12和图13的装置的源收集器模块SO的更详细视图。

具体实施方式

对于先前的机器学习模型，由机器学习模型做出的预测的确定性尚不清楚。也就是说，在给定输入的情况下，尚不清楚先前的机器学习模型是否生成准确且一致的输出。产生准确且一致输出的机器学习模型在集成电路制造过程中是很重要的。作为非限制性示例，当从掩模布局设计生成掩模布局时，关于机器学习模型的预测的不确定性可以在所提出的掩模布局中产生不确定性。例如，这些不确定性可能导致关于晶片的最终功能性的问题。每当机器学习模型被用于对过程中的各个操作进行建模或做出预测时，都会将更多的不确定性引入到集成电路制造过程中。但是，到目前为止，还没有方法来确定来自模型的输出中的可变性(或不确定性)。

为了解决之前的参数化(例如，机器学习)模型的这些和其他缺点，(多个)方法和(多个)系统包括使用编码器-解码器架构的模型。在该架构的中间(例如中间层)，本模型规划了一种低维编码(例如潜在空间)，其将信息封装在对模型的输入(例如图像、张量和/或其他输入)中。使用变分推断技术，编码器以(多个)输入为条件来确定针对潜在向量的后验概率分布。在一些实施例中，模型被配置为针对给定输入生成多个分布中的分布(例如使用参数丢弃方法)。模型以给定输入为条件，从多个分布的该分布采样。模型可以确定跨所采样的分布的变化。在采样之后，模型将样本解码到输出空间中。输出的可变性和/或所采样的分布中的变化限定了模型的不确定性，其包括模型参数(权重)的不确定性以及潜在空间有多么简约(小的和描述性的)。

尽管在本文中可以对IC的制造进行具体参考，但是应该明确地理解，本文的描述具有许多其他可能的应用。例如，它可以被用于制造集成光学系统、针对磁畴存储器的引导和检测图案、液晶显示面板，薄膜磁头等等。在这些替代应用中，本领域技术人员将了解，在此类备选应用的上下文中，在本文中对术语“掩模版”、“晶片”或“管芯”的任何使用应被认为分别与更通用的术语“掩模”、“衬底”和“目标部分”是可互换的。另外，应注意，本文的方法在多种领域中可以具有许多其他可能的应用，诸如语言处理系统、自动驾驶汽车、医学成像和诊断、语义分割、降噪、芯片设计、电子设计自动化等。本方法可以被应用于量化机器学习模型预测中的不确定性是有利的任何领域中。

在本文档中，术语“辐射”和“光束”被用于涵盖所有类型的电磁辐射，包括紫外线辐射(例如波长为365nm、248nm、193nm、157nm或126nm)和EUV(极紫外线辐射，例如具有约5nm-100nm范围的波长)。

图案化器件可以包括或可以形成一个或多个设计布局。可以利用CAD(计算机辅助设计)程序来生成设计布局。此过程通常被称为EDA(电子设计自动化)。大多数CAD程序都遵循一组预定设计规则，以便创建功能设计布局/图案化器件。基于处理和设计限制而设置这些规则。例如，设计规则限定了器件(诸如门、电容器等)或互连线之间的空间公差，以确保器件或线不会以不希望的方式相互作用。一个或多个设计规则限制可以被称为“临界尺寸”(CD)。器件的临界尺寸可以被限定为线或孔的最小宽度，或者两条线或两个孔之间的最小间距。因此，CD调节所设计的器件的整体大小和密度。器件制造中的目标之一是(经由图案化器件)在衬底上如实地再现原始设计意图。

在本文中使用的术语“掩模”或“图案化器件”可以广义地被解释为是指可以被用于向传入辐射光束赋予图案化横截面的通用图案化器件，该图案化横截面与要在衬底的目标部分中被创建的图案相对应。在这样的上下文中，也可以使用术语“光阀”。除了经典的掩模(透射或反射掩模；二进制，相移，混合等)以外，其他这样的图案化器件的示例包括可编程反射镜阵列。这样的器件的示例是具有粘弹性控制层和反射表面的矩阵可寻址表面。这样的装置背后的基本原理是(例如)反射表面的寻址区域将入射辐射反射为衍射辐射，而未寻址区域将入射辐射反射为未衍射辐射。使用适当的滤波器，可以将未衍射辐射从反射光束中滤除，仅留下衍射辐射；以该方式，光束根据矩阵可寻址表面的寻址图案而被图案化。所需的矩阵寻址可以使用合适的电子部件被执行。其他这样的图案化器件的示例还包括可编程LCD阵列。这样的结构的一个示例在美国专利号5,229,872中给出，其通过引用并入本文。

作为简要介绍，图1例示出了示例性光刻投影装置10A。主要组件是：辐射源12A，它可以是深紫外(DUV)准分子激光源或包括极紫外(EUV)源的其他类型源(如上，光刻投影装置本身不需要具有辐射源)，例如限定部分相干性(被标示为西格玛)并且可以包括对来自源12A的辐射进行整形的光学器件14A、光学器件16Aa和光学器件16Ab的照射光学器件；图案化器件18A；以及将图案化器件图案的图像投射到衬底平面22A上的透射光学器件16Ac。投影光学器件的光瞳平面处的可调滤波器或孔径20A可能会限制入射在衬底平面22A上的光束角度的范围，其中最大可能角度限定了投影光学器件的数值孔径NA＝n sin(Θ_max)，其中n是衬底与投影光学器件的最后一个元件之间的介质的折射率，而Θ_max是从投影光学器件出射的仍然可以入射在衬底平面22A上的光束的最大角度。

在光刻投影装置中，源向图案化器件提供照射(即辐射)，并且投影光学器件经由图案化器件将照射引导到衬底上并且整形。投影光学器件可以包括组件14A、组件16Aa、组件16Ab和组件16Ac中的至少一些组件。空中图像(AI)是衬底级别处的辐射强度分布。抗蚀剂模型可以被用于从空中图像计算抗蚀剂图像，其示例可以在美国专利申请公开号US2009-0157630中找到，其全部公开内容通过引用并入本文。抗蚀剂模型仅与抗蚀剂层的属性有关(例如，在曝光、后曝光烘烤(PEB)和显影期间发生的化学过程的影响)。光刻投影装置的光学属性(例如，照射、图案化器件和投影光学器件的属性)规定(dictate)空中图像，并且可以在光学模型中被限定。由于可以改变在光刻投影装置中使用的图案化器件，因此期望将图案化器件的光学属性与至少包括源和投影光学器件的光刻投影装置的其余部分的光学属性分开。在美国专利申请公开号US 2008-0301620、2007-0050749、2007-0031745、2008-0309897、2010-0162197和2010-0180251中描述了被用于将设计布局变换为各种光刻图像(例如，空中图像、抗蚀剂图像等)、使用这些技术和模型来应用OPC并且评估性能(例如，按过程窗口)的技术和模型的详细信息，其每一个的公开内容通过引用整体并入本文。

通常期望能够以计算的方式确定图案化过程将如何在衬底上产生期望的图案。因此，可以提供模拟以对过程的一个或多个部分进行模拟。例如，期望能够模拟在抗蚀剂的显影之后将图案化器件图案转移到衬底的抗蚀剂层上的光刻过程以及该抗蚀剂层中的所产生的图案。

图2中例示出了用于模拟光刻投影装置中的光刻的示例性流程图。照射模型31表示照射的光学特性(包括辐射强度分布和/或相位分布)。投影光学器件模型32表示投影光学器件的光学特性(包括由投影光学器件引起的辐射强度分布和/或相位分布的变化)。设计布局模型35表示设计布局的光学特性(包括由给定设计布局引起的辐射强度分布和/或相位分布的变化)，这是在图案化器件上的或由图案化器件形成的特征的布置的表示。可以使用照射模型31、投影光学器件模型32和设计布局模型35来模拟空中图像36。可以使用抗蚀剂模型37从空中图像36模拟抗蚀剂图像38。例如，光刻的模拟可以预测抗蚀剂图像中的轮廓和/或CD。

更具体地，照射模型31可以表示照射的光学特性，其包括但不限于NA-西格玛(σ)设置以及任何特定的照射形状(例如，诸如环形、四极、偶极等等的离轴照射)。投影光学器件模型32可以表示投影光学器件模型的光学特性，包括例如像差、畸变、折射率、物理大小或尺寸等。设计布局模型35还可以表示物理图案化器件的一个或多个物理属性，如例如在美国专利号7,587,704中所描述的，其全部内容通过引用并入本文。与光刻投影装置相关联的光学属性(例如，照射、图案化器件和投影光学器件的属性)规定空中图像。由于在光刻投影装置中使用的图案化器件可以被改变，因此期望将图案化器件的光学属性与至少包括照射和投影光学器件的光刻投影装置的其余部分的光学属性分开(因此设计布局模型35)。

抗蚀剂模型37可以被用于从空中图像计算抗蚀剂图像，其示例可以在美国专利号8,200,468中找到，其全部内容通过引用并入本文。抗蚀剂模型通常与抗蚀剂层的属性有关(例如，在曝光、后曝光烘烤和/或显影期间发生的化学过程的影响)。

模拟的目的是准确地预测例如边缘放置、空中图像强度斜率和/或CD，其然后可以与预期设计进行比较。预期设计通常被限定为预OPC设计布局，其可以以标准化的数字文件格式(诸如GDSII、OASIS或其他文件格式)被提供。

从设计布局，可以标识被称为“剪辑”(clip)的一个或多个部分。在一个实施例中，提取一组剪辑，其表示设计布局中的复杂图案(通常为大约50个至1000个剪辑，但是可以使用任何数量的剪辑)。如本领域技术人员将了解的，这些图案或剪辑表示设计的小部分(例如，电路、单元等)，并且剪辑尤其表示需要特别注意和/或验证的小部分。换句话说，剪辑可以是设计布局的如下部分、或者可以与设计布局的如下部分相似或具有相似的行为，临界特征在该部分是通过经验(包括由客户提供的剪辑)、通过试错或者通过运行全芯片仿真而被标识的。剪辑通常包含一个或多个测试图案或量规图案。可以由客户基于设计布局中需要特定图像优化的已知临界特征区域而先验地提供初始较大组剪辑。备选地，在另一个实施例中，可以通过使用标识临界特征区域的某种自动(诸如机器视觉)或手动算法而从整个设计布局提取初始较大组剪辑。

例如，仿真和建模可以被用于配置图案化器件图案的一个或多个特征(例如，执行光学邻近校正)、照射的一个或多个特征(例如，改变照射的空间/角度强度分布的一个或多个特性，诸如改变形状)、和/或投影光学器件的一个或多个特征(例如，数值孔径等)。这样的配置通常可以分别被称为掩模优化、源优化和投影优化。这样的优化可以各自独自执行，也可以以不同的组合进行组合。一个这样的示例是源-掩模优化(SMO)，其涉及图案化器件图案的一个或多个特征以及照射的一个或多个特征的配置。优化技术可以注重剪辑中的一个或多个剪辑。优化可以使用本文所描述的机器学习模型来预测各种参数(包括图像等)的值。

在一些实施例中，系统的优化过程可以被表示为成本函数。优化过程可以包括找到使成本函数最小化的系统的一组参数(设计变量、过程变量等)。成本函数可以具有任何合适的形式，这取决于优化的目标。例如，成本函数可以是系统的某些特性(评估点)相对于这些特性的预期值(例如，理想值)的偏差的加权均方根(RMS)。成本函数也可以是这些偏差中的最大值(即最差偏差)。术语“评估点”应该被广义地解释为包括系统或制造方法的任何特性。由于系统和/或方法的实现的实践性，可以将系统的设计和/或过程变量限制在有限范围内和/或相互依存。在光刻投影装置的情况下，约束通常与硬件的物理属性和特性相关联，诸如可调范围和/或图案化器件可制造性设计规则。评估点可以包括例如衬底上的抗蚀剂图像上的物理点，以及非物理特性(诸如剂量和焦点)。

在一些实施例中，照射模型31、投影光学器件模型32、设计布局模型35、抗蚀剂模型37、SMO模型和/或与集成电路制造过程相关联和/或包括在集成电路制造过程中的其他模型可以是执行本文的方法操作的经验模型。经验模型可以基于各种输入之间的相关性(例如，掩模或晶片图像的一个或多个特性、设计布局的一个或多个特性、图案化器件的一个或多个特性、光刻过程中所使用的照射的一个或多个特性(诸如波长)等)来预测输出。

作为一个示例，经验模型可以是机器学习模型和/或任何其他参数化模型。在一些实施例中，机器学习模型(例如)可以是和/或包括数学等式、算法、曲线图、图表、网络(例如神经网络)和/或其他工具和机器学习模型组件。例如，机器学习模型可以是和/或包括具有输入层、输出层以及一个或多个中间或隐藏层的一个或多个神经网络。在一些实施例中，一个或多个神经网络可以是和/或包括深度神经网络(例如，在输入层和输出层之间具有一个或多个中间或隐藏层的神经网络)。

作为一个示例，一个或多个神经网络可以基于神经单元(或人工神经元)的大型集合。一个或多个神经网络可以粗略地模仿生物大脑工作的方式(例如，经由轴突连接的大型的生物神经元簇)。神经网络的每个神经单元可以与神经网络的许多其他神经单元连接。这样的连接可以加强或抑制其对所连接的神经单元的激活状态的影响。在一些实施例中，每个单独神经单元可以具有将其所有输入的值组合在一起的求和函数。在一些实施例中，每个连接(或神经单元本身)可以具有阈值函数，使得信号在其被允许传播到其他神经单元之前必须超过该阈值。与传统的计算机程序相比，这些神经网络系统可以是自学习和经训练的，而不是被明确编程的，并且在某些问题解决的领域中的表现要好得多。在一些实施例中，一个或多个神经网络可以包括多个层(例如，在其中信号路径从前层横越到后层)。在一些实施例中，反向传播技术可以被神经网络利用，其中正向刺激被用于对“前”神经单元重置权重。在一些实施例中，针对一个或多个神经网络的刺激和抑制可以更自由地流动，其中连接以更混乱和复杂的方式相互作用。在一些实施例中，一个或多个神经网络的中间层包括一个或多个卷积层、一个或多个循环层和/或其他层。

可以使用一组训练数据来训练一个或多个神经网络(即，确定其参数)。训练数据可以包括一组训练样本。每个样本可以是包括输入对象(通常是向量，其可以被称为特征向量)和期望输出值(也被称为监督信号)的对。训练算法分析训练数据并通过基于训练数据调整神经网络的参数(例如，一个或多个层的权重)来调整神经网络的行为。例如，给定形式为{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N}的一组N个训练样本，使得x_i是第i个示例的特征向量并且y_i是其监督信号，训练算法寻找神经网络g:X→Y，其中X是输入空间且Y是输出空间。特征向量是表示某个对象(例如，如上例中的晶片设计、剪辑等)的数值特征的n维向量。与这些向量相关联的向量空间通常被称为特征空间。在训练之后，神经网络可以被用于使用新样本进行预测。

如上，(多个)本方法和(多个)系统包括使用编码器-解码器架构的参数化模型(例如，诸如神经网络的机器学习模型)。在模型(例如神经网络)的中间(例如中间层)，本模型规划了低维编码(例如潜在空间)，其将信息封装在对模型的输入(例如图像、张量和/或其他输入)中。使用变分推断技术，编码器以(多个)输入为条件来确定针对潜在向量的后验概率分布。在一些实施例中，模型被配置为针对给定输入生成多个分布中的分布(例如使用参数丢弃方法)。本模型以输入为条件从后验概率的多个分布的该分布采样。在一些实施例中，采样包括从多个分布的该分布随机选择分布。例如，采样可以是高斯或非高斯的。在采样之后，模型将样本解码到输出空间。输出的可变性和/或所采样的分布的可变性限定模型的不确定性，其包括模型参数的不确定性(例如，参数权重和/或其他模型参数)以及潜在空间有多简约(小的和描述性的)。在一些实施例中，确定可变性可以包括利用一个或多个统计操作来量化可变性，一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度、协方差和/或任何其他用于量化可变性的方法。在一些实施例中，模型的不确定性与模型的参数的权重的不确定性以及潜在空间的大小和描述性有关，使得权重的不确定性显现为输出中的不确定性，导致增大的输出方差。

对参数化模型的输出可变性(以输入为条件)的该量化可以被用于尤其决定模型的预测性如何。参数化模型的输出可变性的该量化也可以被用于调整(例如更新和改进)模型，以使模型更具描述性。该调整可以例如包括：向潜在空间添加更多维度，添加更多样化的训练数据和/或其他操作。参数化模型的输出可变性的量化还可以被用于指导增强参数化模型的预测的整体质量所需的训练数据的类型。应当注意，即使在整个说明书中提及了机器学习模型和/或神经网络，但是机器学习模型和/或神经网络是参数化模型的一个示例，并且本文所描述的操作可以被应用于任何参数化模型。

图3例示出了用于确定、或确定并且降低机器学习模型预测中的不确定性的本方法的操作的概述。在操作40处，机器学习模型的编码器-解码器架构被训练。在操作42处，使机器学习模型针对给定输入(例如，如下的x和/或z)预测来自机器学习模型的多个输出。给定输入可以包括例如图像、剪辑、经编码图像、经编码剪辑、向量、来自机器学习模型的先前层中的数据、和/或任何其他可以被编码的数据和/或对象。

在一些实施例中，操作42包括：机器学习模型以(多个)输入为条件使用变分推断技术来确定针对潜在向量和/或模型输出的后验概率分布。在一些实施例中，机器学习模型被配置为针对给定输入生成多个分布中的分布(例如，使用参数丢弃方法)。多个分布中的分布可以包括例如多个分布中的第一后验分布(例如，对于下面描述的p_θ(z|x))，多个分布中的第二后验分布(例如，对于下面描述的p_φ(y|z))，和/或多个分布中的其他分布。机器学习模型以给定输入为条件，从多个分布中的分布采样。在采样之后，机器学习模型可以将样本解码到输出空间中。

在操作44处，确定针对给定输入的所预测的多个输出实现和/或多个后验分布的可变性。在操作46处，所预测的多个输出实现中的所确定的可变性和/或多个后验分布被用于调整机器学习模型以降低机器学习模型的不确定性。在一些实施例中，操作46是可选的。在一些实施例中，操作46包括在有或没有校正措施的情况下报告所确定的可变性(例如，除了调整机器学习模型以降低机器学习模型的不确定性之外和/或代替调整机器学习模型以降低机器学习模型的不确定性，报告所确定的可变性)。例如，操作46可以包括输出所确定的可变性的指示。该指示可以是电子指示(例如，一个或多个信号)、视觉指示(例如，以供显示的一个或多个图形)、数值指示(例如，一个或多个数字)和/或其他指示。

操作40包括利用来自潜在空间的采样来训练编码器-解码器架构，采样解码到输出空间中。在一些实施例中，潜在空间包括低维编码。作为非限制性示例，图4例示出了卷积编码器-解码器50。编码器-解码器50具有编码部分52(编码器)和解码部分54(解码器)。在图4中所示的示例中，编码器-解码器50可以输出例如如图4中所示的晶片的预测图像56。(多个)图像56可以具有由分割图像58例示出的均值57、由模型不确定性图像60例示出的方差59和/或其他特性。

作为另一个非限制性示例，图5例示出了神经网络62内的编码器-解码器架构61。编码器-解码器架构61包括编码部分52和解码部分54。在图5中，x表示编码器输入(例如，输入图像和/或输入图像的被提取特征)并且x’表示解码器输出(例如，所预测的输出图像和/或输出图像的所预测的特征)。在一些实施例中，x’可以表示例如来自神经网络的中间层的输出(与整个模型的最终输出相比)和/或其他输出。在一些实施例中，例如，变量y可以表示来自神经网络的整体输出。在图5中，z表示潜在空间64和/或低维编码(向量)。在一些实施例中，z是潜在变量或与潜在变量有关。输出x’(和/或在一些实施例中为y)被建模为较低维度的随机向量z∈Z的(可能非常复杂的)函数，其分量是未观测到的(潜在)变量。

在一些实施例中，低维编码z表示输入(例如，图像)的一个或多个特征。输入的一个或多个特征可以被认为是输入的关键或临界特征。例如，特征可以被认为是输入的关键或临界特征，因为它们比所期望的输出的其他特征更具预测性和/或具有其他特性。在低维编码中表示的一个或多个特征(尺寸)可以被预定(例如，由程序员在创建本机器学习模型时)、由神经网络的先前层确定、由用户经由与本文所描述的系统相关联的用户界面来调整、和/或可以通过其他方法被确定。在一些实施例中，由低维编码表示的特征(尺寸)的量可以被预定(例如，由程序员在创建本机器学习模型时)、基于来自神经网络的先前层的输出被确定、由用户经由与本文所描述的系统相关联的用户界面来调整、和/或由其他方法被确定。

图6A例示出了图5的编码器-解码器架构61，其中在潜在空间64中采样63(例如，可以将图6A视为图5的更详细版本)。如图6A中所示，

p(z|x)≈q_θ(z|x) [1]。

项p(z|x)是给定输入x时潜在变量z的条件概率。项q_θ(z|x)是或描述编码器的各层的权重。项p(z|x)是或描述给定x时z的理论概率分布。

等式

z～N(μ，σ²I) [2]是或描述潜在变量z的先验分布，其中N表示正态(例如，高斯)分布，μ是分布的均值，σ是协方差，并且I是单位矩阵。如图6A中所示，μ和σ²是限定概率的参数。它们只是模型以给定输入为条件尝试学习的真实概率的代理。在一些实施例中，该代理可以对该任务更具描述性。例如，它可以是标准PDF，或者是可以被学习的某自由格式PDF。

返回图3，在一些实施例中，操作42包括利用编码器-解码器架构(例如，图5中所示的61)的编码器(例如，图4中所示的52)针对给定输入x确定或以其他方式学习潜在变量的条件概率p(z|x)。在一些实施例中，操作42包括利用编码器-解码器架构的解码器(例如，图5中的54)确定或以其他方式学习条件概率p(x’|z)(和/或py|z)。在一些实施例中，操作42包括通过最大化根据如下等式在训练集D中生成X’_i的可能性来学习φ(在下面的等式3中示出)：

在一些实施例中，条件概率p(z|x)由编码器使用变分推断技术来确定。在一些实施例中，变分推断技术包括在分布q_θ(z|x)的参数族中标识对p(z|x)的近似，其中θ是根据如下等式的族的参数：

min KL(p(z|x)，q_θ(z|x)) [4]

且代入最大ELBO(θ)，其中ELBO代表下界的证据，给出

ELBO(θ)＝E_qθ(z|x)[log p_θ(x|z)]-KL(q_θ(z|x)，p(z)) [5]

其中KL是Kullback-Leibler散度，并且被用作两个概率分布之间的距离的度量，θ表示编码的参数，并且φ表示解码的参数。通过训练，获得条件概率q_θ(z|x)(编码器部分)和p_φ(x’|z)或p_φ(y|z)(解码器部分)。

在一些实施例中，操作42包括从条件概率p(z|x)采样，并且针对每个样本，基于上述等式使用编码器-解码器架构的解码器来预测所预测的多个输出实现的输出。附加地：E_qθ(z|x)[f(z)]表示f(z)的预期，其中z是从q(z|x)采样的。

在一些实施例中，操作44包括基于针对每个样本的预测输出来确定针对给定输入(例如，x)的所预测的多个输出实现的可变性。给定输入(例如x)的情况下，机器学习模型确定后验分布q_θ(z|x)和p_φ(x′|q_θ(z|x))。因此，操作44包括确定后验分布q_θ(z|x)。该后验分布到潜在空间的原点的距离与机器学习模型的预测的不确定性成反比(例如，分布越接近潜在空间的原点，模型越不确定)。在一些实施例中，操作44还包括确定另一后验分布p_φ(x′|q_θ(z|x))。该后验分布的方差与机器学习模型的预测的不确定性直接有关(例如，第二后验分布的方差越大意味着不确定性越大)。操作44可以包括确定这些后验分布中的一个或两个，并且基于这些后验分布中的一个或两个来确定可变性。

在一些实施例中，操作44包括：通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性，以及使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。例如，使机器学习模型预测来自参数化模型的针对给定输入的多个后验分布可以包括：使参数化模型预测与第一后验分布p_θ(z|x)相对应的第一组多个后验分布以及与第二后验分布p_φ(y|z)相对应的第二组多个后验分布。确定针对给定输入的所预测的多个后验分布的可变性可以包括：通过从多个分布中的、针对所预测的第一组多个后验分布和所预测的第二组多个后验分布的分布采样(例如，通过从针对p_θ(y|z)的分布采样，并从针对p_φ(y|z)的分布采样)来确定针对给定输入的所预测的第一组多个后验分布和所预测的第二组多个后验分布的可变性。在一些实施例中，采样包括从多个分布中的分布随机选择分布。例如，采样可以是高斯或非高斯的。

在一些实施例中，操作44包括确定所采样的分布的可变性。例如，图6C例示出了示例预期分布p(z|x)600以及来自多个分布中的分布的针对p(z|x)600的所采样的分布的可变性602。例如，可变性602可能是由机器学习模型的不确定性引起的。在一些实施例中，使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性包括：使用所预测的第一组多个后验分布和第二组多个后验分布(例如，图6C中所示的多个分布中的针对p(z|x)600的分布，以及多个分布中的针对p(y|z)的类似分布)中的所确定的可变性来量化机器学习模型预测中的不确定性。

在一些实施例中，确定可变性可以包括：利用一个或多个统计操作来量化所采样的一组分布中的可变性，该一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度、协方差、范围和/或任何其他用于量化可变性的方法。例如，确定所采样的一组后验分布的可变性可以包括：确定针对给定输入x_o(例如，针对图6C中所示的p(z|x)600或多个分布中的针对p(y|z)的类似分布)的可能输出的范围604。作为另一示例，KL距离可以被用于量化不同分布相距多远。

在一些实施例中，如上，机器学习模型预测的不确定性与机器学习模型的参数的权重的不确定性以及潜在空间的大小和描述性有关。权重中的不确定性可以显现为输出中的不确定性，导致增加的输出方差。例如，如果潜在空间(例如，如本文)是低维的，则将不能对一大组观测进行概括。另一方面，大尺寸的潜在空间将需要更多的数据来训练模型。

作为非限制性示例，图7例示出了被用作针对机器学习模型的输入(例如，x)的掩模图像70、基于掩模图像70所预测的来自机器学习模型的预测输出(图像)的均值72(图像)、例示出了预测输出中的方差的图像74、使用掩模图像所产生的实际晶片图案的扫描电子显微镜(SEM)图像78、以及例示出了后验分布的潜在空间80(例如，p(y|z)——来自多个分布中的分布的一个示例分布)。潜在空间80例示出了潜在向量z具有七个尺寸81-87。尺寸81-87围绕潜在空间80的中心79分布。尺寸81-87在潜在空间80中的分布例示出了相对更确定的模型(较小方差)。相对更确定的模型的这个证据由以下事实所证实：均值图像72和SEM图像78看起来相似，并且方差图像74中不存在任何深色，或者在不与SEM图像78中所示的结构的区域相对应的位置中不存在任何深色。

在一些实施例中(例如，如本文)，潜在空间80中所示的后验分布可以(例如，以统计的方式或以其他方式)与使用相同输入生成的其他后验分布进行比较。本方法可以包括：基于这些后验分布的比较来确定模型的确定性的指示。例如，被比较的后验分布之间的差异越大，模型就越不确定。

作为对比的非限制性示例，图8例示出了与图7中所示的输出相比，机器学习模型输出中的更大的变化(以及更大的不确定性)。图8例示出了被用作针对机器学习模型的输入(例如，x)的掩模图像88、基于掩模图像88所预测的来自机器学习模型的预测输出的均值89、例示出了预测输出的方差的图像90、使用掩模图像产生的实际掩模的SEM图像91、以及例示出了后验分布的潜在空间92。潜在空间92例示出了潜在向量z也具有若干尺寸93。潜在空间92中的尺寸93的分布现在例示出了相对更不确定的模型。潜在空间92中的尺寸93的分布更集中在原点(较窄)，导致输出中的不确定性更大(例如，如本文，该方法包括确定第一后验分布p_θ(z|x)，其中第一后验分布到潜在空间的原点的距离与机器学习模型的不确定性成反比)。相对不确定的模型的这个证据通过以下事实得到证实：均值图像89和SEM图像91看起来非常不同，并且在SEM图像91中看不到对应结构的位置中在方差图像90中存在大量深色。

这里再次，潜在空间92中所示的后验分布可以(例如，以统计的方式或以其他方式)与使用相同输入生成的其他后验分布进行比较。本方法可以包括：基于这些后验分布的比较来确定模型的确定性的指示。

作为第三非限制性示例，图9例示出了被用作针对机器学习模型的输入(例如，x)的掩模图像94、基于掩模图像94所预测的来自机器学习模型的预测输出的均值95、例示出了预测输出中的方差的图像96、使用掩模图像94产生的实际掩模的SEM图像97、以及例示出了潜在向量z的若干尺寸99的潜在空间98。现在，图像94-97和潜在空间98中的尺寸99的分布例示出了具有比图7中所示模型更多变化但比图8中所示模型更少变化的模型。例如，均值图像95看起来与SEM图像97相似，但是方差图像96在区域A中示出了更强颜色，其中在SEM图像97中看不到对应结构。在一些实施例中，可以将潜在空间98中所示的后验分布与使用相同输入所生成的其他后验分布进行比较来确定模型的不确定性。

返回图3，在一些实施例中，操作46被配置使得使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型包括：基于给定输入基于来自经调整的机器学习模型的预测来确定一个或多个光刻过程参数；并且基于所确定的一个或多个光刻过程参数来调整光刻装置。在一些实施例中，来自经调整的机器学习模型的预测包括以下中的一项或多项：所预测的重叠、所预测的晶片几何、和/或其他预测。在一些实施例中，所确定的一个或多个光刻过程参数包括以下中的一项或多项：掩模设计、光瞳形状、剂量、焦点、和/或其他过程参数。

在一些实施例中，所确定的一个或多个光刻过程参数包括掩模设计，并且基于掩模设计来调整光刻装置包括：将掩模设计从第一掩模设计改变为第二掩模设计。在一些实施例中，所确定的一个或多个光刻过程参数包括光瞳形状，并且基于光瞳形状来调整光刻装置包括：将光瞳形状从第一光瞳形状改变为第二光瞳形状。在一些实施例中，所确定的一个或多个光刻过程参数包括剂量，并且基于剂量来调整光刻装置包括：将剂量从第一剂量改变为第二剂量。在一些实施例中，所确定的一个或多个光刻过程参数包括焦点，并且基于焦点来调整光刻装置包括：将焦点从第一焦点改变为第二焦点。

在一些实施例中，操作46被配置使得使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性包括：增加训练集大小和/或添加潜在空间的维度。在一些实施例中，增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据和附加的剪辑作为输入以训练机器学习模型；并且使用更多尺寸以用于编码向量，以及在机器学习模型中使用更多编码层、和/或其他训练集和/或维度增加操作。在一些实施方式中，附加的且更多样化的训练样本包括相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑。

在一些实施例中，操作46被配置使得使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性包括：向潜在空间添加附加的维度和/或向机器学习模型添加更多层。在一些实施例中，操作46被配置使得使用所预测的多个输出实现中所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性包括：相对于来自潜在空间的先前采样和/或用于训练模型的先前训练数据，利用来自潜在空间的附加地且更多样化的采样来训练机器学习模型。

作为非限制性示例，在一些实施例中，操作46包括使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性，以用于在半导体制造过程中预测掩模几何。返回查看图7-图9，如果来自机器学习模型的输出(例如，所预测的均值图像)的可变性(例如，如可变性图像中所示)很高，如图8所示，和/或如果分布到分布变化相对高，则如上，可以增加训练集大小，和/或可以增加潜在空间的维度。但是，如果如图7中所示，如果来自机器学习模型的输出的可变性低，或者如果分布到分布变化相对低，则可能几乎不需要调整。

在一些实施例中，本方法可以被用于在不调整模型的情况下标识模型中的可能缺陷，并且例如使用不同的(例如，物理的)模型来重新确定针对特定剪辑(或图像、数据或其他任何输入)的不确定性。在该示例中，不确定性可以被用于例如更好地研究给定过程的物理学(例如，抗蚀剂化学、各种图案形状、材料的影响等)。

与集成电路制造过程的若干不同方面和/或其他过程有关的其他示例被考虑。例如，在一些实施例中，操作46包括：使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性，用于预测晶片几何作为半导体制造过程的一部分。继续该示例，使用所确定的可变性来调整机器学习模型以降低参数化模型的不确定性用于预测晶片几何作为半导体制造过程的一部分可以包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，并且在机器学习模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

在一些实施例中，操作46包括：使用所预测的多个输出实现中的所确定的可变性和/或多个后验分布来调整机器学习模型以降低机器学习模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分。继续该示例，使用所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，以及在参数化模型中使用更多编码层，例如，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

图10是例示出了可以帮助实现本文所公开的方法、流程或装置的计算机系统100的框图。计算机系统100包括总线102或用于传达信息的其他通信机制以及与总线102耦合以用于处理信息的处理器104(或多个处理器104和105)。计算机系统100还包括诸如随机存取存储器(RAM)或其他动态存储设备的主存储器106，其耦合到总线102以用于存储要由处理器104执行的指令和信息。主存储器106也可以被用于存储在由处理器104执行的指令的执行期间的临时变量或其他中间信息。计算机系统100还包括只读存储器(ROM)108或其他静态存储设备，其耦合到总线102以用于存储用于处理器104的静态信息和指令。诸如磁盘或光盘的存储设备110被提供并耦合到总线102以用于存储信息和指令。

计算机系统100可以经由总线102耦合到显示器112，诸如用于向计算机用户显示信息的阴极射线管(CRT)或平板或触摸面板显示器。包括字母数字键和其他键的输入设备114耦合到总线102，以用于将信息和命令选择传达给处理器104。另一种类型的用户输入设备是用于将方向信息和命令选择传达给处理器104并用于控制显示器112上的光标移动的光标控件116，诸如鼠标、轨迹球或方向键。此输入设备通常具有在两个轴(第一轴(例如x)和第二轴(例如y))上的两个自由度，其允许设备指定平面中的位置。触摸面板(屏幕)显示器也可以被用作输入设备。

根据一个实施例，可以由计算机系统100响应于处理器104执行包含在主存储器106中的一个或多个指令的一个或多个序列来执行本文所描述的一个或多个方法的各部分。此类指令可以从诸如存储设备110的另一个计算机可读介质被读取到主存储器106中。包含在主存储器106中的指令序列的执行使处理器104执行本文所描述的处理步骤。多处理布置中的一个或多个处理器也可以被采用来执行包含在主存储器106中的指令序列。在替代实施例中，可以使用硬连线电路代替软件指令或与软件指令相结合。因此，本文的描述不限于硬件电路系统和软件的任何特定组合。

如本文中所使用的，术语“计算机可读介质”是指参与向处理器104提供指令以供执行的任何介质。这样的介质可以采取许多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘或磁盘，诸如存储设备110。易失性介质包括动态存储器，诸如主存储器106。传输介质包括同轴电缆、铜线和光纤，包括构成总线102的导线。传输介质也可以采取声波或光波的形式，例如诸如在射频(RF)和红外(IR)数据通信期间生成的声波或光波。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD、任何其他光学介质、打孔卡、纸带、任何具有孔图案的其他物理介质、RAM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、下文的载波或计算机可以从中读取的任何其他介质。

在将一个或多个指令的一个或多个序列携带至处理器104以供执行时可以涉及各种形式的计算机可读介质。例如，指令最初可以被承载在远程计算机的磁盘上。远程计算机可以将指令加载到其动态存储器中，并使用调制解调器通过电话线发送指令。计算机系统100本地的调制解调器可以在电话线上接收数据，并使用红外发射器将数据转换为红外信号。耦合到总线102的红外检测器可以接收红外信号中携带的数据并将数据放置在总线102上。总线102将数据携带到主存储器106，处理器104从主存储器106中取回并执行指令。由主存储器106接收的指令可以可选地在由处理器104执行之前或之后存储在存储设备110上。

计算机系统100还可以包括耦合到总线102的通信接口118。通信接口118提供耦合到网络链路120的双向数据通信，该网络链路120连接到局域网122。例如，通信接口118可以是集成服务数字网络(ISDN)卡或调制解调器，用以提供到对应类型的电话线的数据通信连接。作为另一个示例，通信接口118可以是局域网(LAN)卡，用以提供到兼容LAN的数据通信连接。无线链路也可以被实现。在任何这样的实现中，通信接口118发送和接收携带表示各种类型的信息的数字数据流的电、电磁或光信号。

网络链路120通常提供通过一个或多个网络到其他数据设备的数据通信。例如，网络链路120可以通过本地网络122提供到主机计算机124的连接或到由互联网服务提供商(ISP)126所操作的数据装备的连接。ISP 126继而通过全球分组数据通信网络(现在通常被称为“互联网”128)提供数据通信服务。本地网络122和互联网128都使用携带数字数据流的电、电磁或光信号。携带去往和来自计算机系统100的数字数据的通过各种网络的信号以及在网络链路120上且通过通信接口118的信号，是传送信息的载波的示例性形式。

计算机系统100可以通过(多个)网络、网络链路120和通信接口118来发送消息并接收数据，包括程序代码。在互联网示例中，服务器130可以通过互联网128、ISP 126、本地网络122和通信接口118发射针对应用程序的被请求代码。例如，一个这样的下载应用可以提供本文所描述的方法的全部或一部分。接收到的代码可以在其被接收时由处理器104执行，和/或被存储在存储设备110或其他非易失性存储中以供以后执行。以这样的方式，计算机系统100可以获得载波形式的应用代码。

图11示意性地描绘了可以与本文所描述的技术结合使用的示例性光刻投影装置。该装置包括：

-照射系统IL，用以调节辐射的光束B。在该特定情况下，照射系统还包括辐射源SO；

-第一对象台(例如，图案化器件台)MT，被提供有用于保持图案化器件MA(例如，掩模版)的图案化器件保持器，并且连接到用于相对于物品PS来准确地定位图案化器件的第一定位器；

-第二对象台(衬底台)WT，其提供有用于保持衬底W(例如，涂覆有抗蚀剂的硅晶片)的衬底保持器，并且连接到用于相对于物品PS来准确地定位衬底的第二定位器；和

-投影系统(“透镜”)PS(例如，折射、反射或反射折射光学系统)，用于将图案化器件MA的被辐照部分成像到衬底W的目标部分C(例如，包括一个或多个管芯)上。

如本文所描绘的，该装置是透射类型(即，具有透射图案化器件)。但是，通常例如它也可以是反射类型(具有反射图案化器件)。该装置可以采用相对于经典掩模是不同种类的图案化器件；示例包括可编程反射镜阵列或LCD矩阵。

源SO(例如，水银灯或准分子激光器、LPP(激光产生的等离子体)EUV源)产生辐射光束。该光束直接地或者在横越了诸如光束扩展器Ex的调节部件之后被馈送到照射系统(照射器)IL中。照射器IL可以包括调节部件AD，用于设置光束中的强度分布的外部和/或内部径向范围(通常分别被称为σ-外部和σ-内部)。另外，它通常将包括各种其他组件，诸如积分器IN和聚光器CO。以这样的方式，入射在图案化器件MA上的光束B在其横截面中具有所期望的均一性和强度分布。

关于图10应该注意的是，源SO可以在光刻投影装置的壳体内(例如，这在源SO是水银灯时常常是这样的情况)，但是它也可以远离光刻投影装置，其产生的辐射光束被引入到该装置中(例如，借助于合适的导向镜)；后一种场景常常是在源SO是准分子激光器(例如，基于KrF、ArF或F2激光)时的情况。

光束PB随后拦截被保持在图案化器件台MT上的图案化器件MA。横越图案化器件MA之后，光束B穿过透镜PL，透镜PL将光束B聚焦到衬底W的目标部分C上。借助于第二定位部件(和干涉测量部件IF)，可以准确地移动衬底台WT，例如从而将不同的目标部分C定位在光束PB的路径上。类似地，例如在从图案化器件库中机械取回图案化器件MA之后或在扫描期间，第一定位部件可以被用于相对于光束B的路径而准确地定位图案化器件MA。一般来说，将借助于未在图11中明确描绘的长冲程模块(粗定位)和短冲程模块(精细定位)来实现对象台MT、WT的移动。然而，在步进器(与步进和扫描工具相对)的情况下，图案化器件台MT可以仅连接至短冲程致动器，或者可以被固定。

所描绘的工具可以被使用在两种不同的模式中：

-在步进模式中，将图案化器件台MT保持基本上静止，并且将整个图案化器件图像一次性投影(即，单次“闪光”)到目标部分C上。然后使衬底台WT在x和/或y方向上偏移，以使得可以通过光束PB辐照不同的目标部分C；

-在扫描模式中，基本上相同的场景适用，除了不在单次“闪光”中曝光给定目标部分C之外。取而代之的是，图案化器件台MT可以在给定方向(所谓的“扫描方向”，例如y方向)上以速度v移动，以使得投射光束B在图案化器件图像上进行扫描；同时发生地，衬底台WT同时在相同或相反方向上以速度V＝Mv移动，其中M是透镜PL的放大率(通常，M＝1/4或1/5)。以这样的方式，可以在不必损害分辨率的情况下曝光相对较大的目标部分C。

图12示意性地描绘了可以结合本文所描述的技术来利用的另一示例性光刻投影装置1000。

光刻投影装置1000包括：

-源收集器模块SO

-照射系统(照射器)IL，其被配置为调节辐射光束B(例如，EUV辐射)。

-支撑结构(例如，图案化器件台)MT，其被构造成支撑图案化器件(例如，掩模或掩模版)MA，并且连接到被配置为准确地定位图案化器件的第一定位器PM；

-衬底台(例如，晶片台)WT，其被构造成保持衬底(例如，涂覆有抗蚀剂的晶片)W，并连接到被配置为准确地定位衬底的第二定位器PW；和

-投影系统(例如，反射投影系统)PS，其被配置为将通过图案化器件MA向辐射光束B赋予的图案投影到衬底W的目标部分C(例如，包括一个或多个管芯)上。

如图12中所描绘的，装置1000是反射类型(例如采用反射图案化器件)。应当注意，因为大多数材料在EUV波长范围内是吸收性的，所以图案化器件可以具有多层反射器，该多层反射器包括例如钼和硅的多堆栈。在一个示例中，多堆栈反射器具有40对钼和硅层，其中每一层具有四分之一波长的厚度。可以利用X射线光刻来产生甚至更小的波长。由于大多数材料在EUV和X射线波长处都是吸收性的，因此在图案化器件形貌上图案化吸收材料的薄片(例如，多层反射器顶部的TaN吸收剂)限定了特征将印刷(正性抗蚀剂)或不印刷(负性抗蚀剂)之处。

照射器IL从源收集器模块SO接收极紫外辐射光束。用于产生EUV辐射的方法包括但不限于利用EUV范围内的一个或多个发射线将材料转换为具有至少一种元素(例如氙、锂或锡)的等离子态。在一种这样的方法(常常被称为激光产生等离子体(“LPP”))中，可以通过用激光光束来辐照燃料(例如具有线发射元素的材料滴、流或簇)来产生等离子体。源收集器模块SO可以是EUV辐射系统的一部分，EUV辐射系统包括在图12中未示出的用于提供激发燃料的激光光束的激光器。所得等离子体发射输出辐射，例如EUV辐射，其使用安置在源收集器模块中的辐射收集器而被收集。例如，当使用CO2激光器来提供用于燃料激发的激光光束时，激光器和源收集器模块可以是单独的实体。

在这样的情况下，不认为激光器是光刻装置的一部分，并且借助于包括例如合适的导向镜和/或光束扩展镜的光束递送系统，将辐射光束从激光器传递到源收集器模块。在其他情况下，例如，当源是放电产生的等离子体EUV发生器(常常被称为DPP源)时，源可能是源收集器模块的组成部分。在一个实施例中，可以使用DUV激光源。

照射器IL可以包括用于调整辐射光束的角强度分布的调整器。通常，可以调整照射器的光瞳平面中的强度分布的至少外部和/或内部径向范围(通常分别被称为σ-外部和σ-内部)。另外，照射器IL可以包括各种其他组件，诸如多面场和光瞳反射镜器件。照射器可以被用于调节辐射光束，以在其横截面中具有所期望的均一性和强度分布。

辐射光束B入射在图案化器件(例如，掩模)MA上，该图案化器件(例如，掩模)MA被保持在支撑结构(例如，图案化器件台)MT上，并且由图案化器件来进行图案化。在从图案化器件(例如掩模)MA反射之后，辐射光束B穿过投影系统PS，其将光束聚焦到衬底W的目标部分C上。借助于第二定位器PW和位置传感器PS2(例如干涉设备、线性编码器或电容性传感器)，衬底台WT可以被准确地移动，例如以使得将不同的目标部分C定位在辐射光束B的路径中。类似地，第一定位器PM和另一个位置传感器PS1可以被用于相对于辐射光束B的路径而准确地定位图案化器件(例如掩模)MA。可以使用图案化器件对准标记M1、M2和衬底对准标记P1、P2来对准图案化器件(例如掩模)MA和衬底W。

所描绘的装置1000可以被使用在以下模式中的至少一个中：

在步进模式中，在将被赋予至辐射光束的整个图案一次性投影到目标部分C上时，使支撑结构(例如，图案化器件台)MT和衬底台WT保持基本上静止(即，单次静态曝光)。然后，衬底台WT在X和/或Y方向上偏移，以使得不同的目标部分C可以被曝光。

在扫描模式中，在将被赋予至辐射光束的图案投影到目标部分C上时，支撑结构(例如，图案化器件台)MT和衬底台WT被同步地扫描(即，单次动态曝光)。可以由投影系统PS的(缩小率)放大率和图像反转特性来确定衬底台WT相对于支撑结构(例如，图案化器件台)MT的速度和方向。

在另一种模式中，在将被赋予至辐射光束的图案投影到目标部分上时，使支撑结构(例如，图案化器件台)MT保持基本上静止从而保持可编程图案化器件，并且移动或扫描衬底台WT。在这样的模式下，通常采用脉冲辐射源，并且在衬底台WT的每次移动之后或在扫描期间的连续辐射脉冲之间，根据需要更新可编程图案化器件。这样的操作模式可以易于被应用到利用可编程图案化器件(诸如上述所指类型的可编程反射镜阵列)的无掩模光刻。

图13更详细地示出了包括源收集器模块SO、照射系统IL和投影系统PS的装置1000。源收集器模块SO被构造和布置成使得可以在源收集器模块SO的封闭结构220中维持真空环境。可以通过产生放电的等离子体源来形成发射EUV辐射的等离子体210。EUV辐射可以由气体或蒸气(例如氙气、锂蒸气或锡蒸气)产生，其中产生非常热的等离子体210以发射电磁光谱的EUV范围内的辐射。例如，由造成至少部分电离的等离子体的放电来产生非常热的等离子体210。为了有效地产生辐射，可能需要例如10Pa的Xe、Li、Sn蒸气或任何其他合适的气体或蒸气的分压。在一个实施例中，激发锡(Sn)的等离子体被提供以产生EUV辐射。

由热等离子体210发射的辐射经由位于源腔室211中的开口中或其后方的可选气体屏障或污染物捕集器230(在一些情况下也被称为污染物屏障或箔片捕集器)而从源腔室211传递到收集器室212中。污染物捕集器230可以包括通道结构。污染物捕集器230还可以包括气体屏障或气体屏障与通道结构的组合。如本领域中已知的，本文进一步指出的污染物捕集器或污染物屏障230至少包括通道结构。

收集器腔室211可以包括辐射收集器CO，其可以是所谓的掠入射收集器。辐射收集器CO具有上游辐射收集器侧251和下游辐射收集器侧252。横越收集器CO的辐射可以从光栅光谱滤波器240反射出来，然后沿点虚线“O”所指示的光轴而被聚焦在虚拟源点IF中。虚拟源点IF通常被称为中间焦点，并且源收集器模块被布置成使得中间焦点IF位于封闭结构220中的开口221处或附近。虚拟源点IF是发射辐射的等离子体210的图像。

随后，辐射横越照射系统IL，照射系统IL可以包括多面场反射镜器件22和多面光瞳反射镜器件24，其被布置成在图案化器件MA处提供辐射光束21的所期望的角度分布，以及在图案化器件MA处提供辐射强度的所期望的均一性。当辐射光束21在由支撑结构MT保持的图案化器件MA处反射时，形成图案化光束26，并且图案化的光束26被投影系统PS经由反射元件28、30成像到由衬底台WT保持的衬底W上。

照射光学单元IL和投影系统PS中通常可以存在比所示更多的元件。取决于光刻装置的类型，可以可选地存在光栅光谱滤波器240。此外，可以存在比图中所示更多的反射镜，例如，与图13中所示相比，投影系统PS中可以存在1-6个附加的反射元件。

如图14中所示，收集器光学器件CO被描绘为具有掠入射反射器253、掠入射反射器254和掠入射反射器255的嵌套收集器，仅仅作为收集器(或收集器反射镜)的示例。掠入射反射器253、掠入射反射器254和掠入射反射器255围绕光轴O而被轴向对称地安置，并且这样的类型的收集器光学器件CO可以与放电产生的等离子体源(常常被称为DPP源)结合使用。

备选地，源收集器模块SO可以是如图14中所示的LPP辐射系统的一部分。激光器LA被布置成将激光能量沉积到诸如氙(Xe)、锡(Sn)或锂(Li)的燃料中，产生具有数十个电子伏特的电子温度的高度电离的等离子体210。在这些离子的去激发和再结合期间生成的高能辐射从等离子体中被发射，由接近法向入射的收集器光学器件CO收集并聚焦到封闭结构220中的开口221上。

可以使用以下条款进一步描述实施例：

1.一种用于量化机器学习模型预测中的不确定性的方法，该方法包括：

使机器学习模型预测来自机器学习模型的针对给定输入的多个输出实现；

确定针对给定输入的所预测的多个输出实现的可变性；以及使用所预测的多个输出实现中的所确定的可变性来量化来自机器学习模型的所预测的多个输出实现中的不确定性。

2.根据条款1的方法，其中使机器学习模型预测多个输出实现包括以给定输入为条件从条件概率采样。

3.根据条款1至2中任一项的方法，其中给定输入包括以下中的一项或多项：图像、剪辑、经编码图像、经编码剪辑、或来自机器学习模型的先前层中的数据。

4.根据条款1至3中任一项的方法，还包括：使用所预测的多个输出实现中的所确定的可变性和/或经量化的不确定性来调整机器学习模型，以通过使机器学习模型更具描述性或包括更多样化的训练数据来降低机器学习模型的不确定性。

5.根据条款1至4中任一项的方法，其中机器学习模型包括编码器-解码器架构。

6.根据条款5的方法，其中编码器-解码器架构包括变分编码器-解码器架构，该方法还包括：利用概率性潜在空间训练变分编码器-解码器架构，该变分编码器-解码器架构在输出空间中生成实现。

7.根据条款6的方法，其中潜在空间包括低维编码。

8.根据条款7的方法，还包括：针对给定输入，使用编码器-解码器架构的编码器部分来确定潜在变量的条件概率。

9.根据条款8的方法，还包括：使用编码器-解码器架构的解码器部分来确定条件概率。

10.根据条款9的方法，还包括：从使用编码器-解码器架构的编码器部分所确定的潜在变量的条件概率采样，并且针对每个样本，使用编码器-解码器架构的解码器部分来预测输出。

11.根据条款10的方法，其中采样包括：从给定的条件概率分布随机选择数字，其中采样是高斯或非高斯的。

12.根据条款10的方法，还包括：基于针对潜在空间中的每个样本的预测输出来确定针对给定输入的所预测的多个输出实现的可变性。

13.根据条款12的方法，其中确定可变性包括：利用一个或多个统计操作来量化可变性，该一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度或协方差。

14.根据条款8至13中任一项的方法，其中使用编码器-解码器架构的编码器部分所确定的潜在变量的条件概率由编码器部分使用变分推断技术来确定。

15.根据条款14的方法，其中变化推断技术包括：在分布的参数族中使用编码器-解码器架构的编码器部分来标识潜在变量的条件概率的近似。

16.根据条款15的方法，其中分布的参数族包括参数化分布，其中族是指分布的类型或形状，或者分布的组合。

17.根据条款1至16中任一项的方法，还包括：确定第一后验分布，其中第一后验分布到潜在空间的原点的距离与机器学习模型的不确定性成反比。

18.根据条款1至17中任一项的方法，还包括：确定第二后验分布，其中第二后验分布的方差与机器学习模型的不确定性直接有关。

19.根据条款18的方法，其中确定第二后验分布包括：直接对潜在空间采样。

20.根据条款18的方法，其中第二后验分布被学习。

21.根据条款1至20中任一项的方法，其中机器学习模型的不确定性与机器学习模型的参数的权重的不确定性以及潜在空间的大小和描述性有关。

22.根据条款21的方法，其中机器学习模型的不确定性与机器学习模型的参数的权重的不确定性以及潜在空间的大小和描述性有关，使得权重中的不确定性显现为输出中的不确定性，导致增加的输出方差。

23.根据条款2至22中任一项的方法，其中使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性包括：增加训练集大小和/或添加潜在空间的维度。

24.根据条款23的方法，其中增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据和附加的剪辑作为输入来训练机器学习模型；并使用更多尺寸用于编码向量，并且在机器学习模型中使用更多编码层。

25.根据条款2至24中任一项的方法，其中使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性包括向潜在空间添加附加维度。

26.根据条款2至25中任一项的方法，其中使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性包括利用附加的且更多样化的训练样本来训练机器学习模型。

27.根据条款26的方法，其中附加的且更多样化的训练样本包括：相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑。

28.根据条款2至27中任一项的方法，还包括：使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性用于预测晶片几何作为半导体制造过程的一部分。

29.根据条款28的方法，其中使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性用于预测晶片几何作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，并且在机器学习模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

30.根据条款2至29中任一项的方法，还包括：使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分。

31.根据条款30的方法，其中使用所预测的多个输出实现中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，并且在机器学习模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

32.一种用于量化参数化模型预测中的不确定性的方法，该方法包括：

使参数化模型预测来自参数化模型的针对给定输入的多个输出实现；

确定针对给定输入的所预测的多个输出实现的可变性；以及

使用所预测的多个输出实现中的所确定的可变性来量化来自参数化模型的所预测的多个输出实现中的不确定性。

33.根据条款32的方法，其中参数化模型是机器学习模型。

34.一种计算机程序产品，包括在其上记录有指令的非瞬态计算机可读介质，该指令在由计算机执行时实现条款1至33中任一项的方法。

35.一种用于光刻装置配置的方法，该方法包括：

使机器学习模型预测来自机器学习模型的针对给定输入的多个后验分布，该多个后验分布包括多个分布中的分布；

通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性；

使用所预测的多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性；

调整机器学习模型的一个或多个参数，以降低机器学习模型预测中的不确定性；以及

针对给定输入基于来自经调整的机器学习模型的预测，确定用于调整光刻装置的一个或多个光刻过程参数。

36.根据条款35的方法，还包括：基于所确定的一个或多个光刻过程参数来调整光刻装置。

37.根据条款36的方法，其中机器学习模型的一个或多个参数包括机器学习模型的一个或多个参数的一个或多个权重。

38.根据条款35至37中任一项的方法，其中来自经调整的机器学习模型的预测包括所预测的重叠或所预测的晶片几何中的一项或多项。

39.根据条款35至38中任一项的方法，其中所确定的一个或多个光刻过程参数包括掩模设计、光瞳形状、剂量或焦点中的一项或多项。

40.根据条款39的方法，其中所确定的一个或多个光刻过程参数包括掩模设计，并且基于掩模设计来调整光刻装置包括：将掩模设计从第一掩模设计改变为第二掩模设计。

41.根据条款39的方法，其中所确定的一个或多个光刻过程参数包括光瞳形状，并且基于光瞳形状来调整光刻装置包括：将光瞳形状从第一光瞳形状改变为第二光瞳形状。

42.根据条款39的方法，其中所确定的一个或多个光刻过程参数包括剂量，并且基于剂量来调整光刻装置包括：将剂量从第一剂量改变为第二剂量。

43.根据条款39的方法，其中所确定的一个或多个光刻过程参数包括焦点，并且基于焦点来调整光刻装置包括：将焦点从第一焦点改变为第二焦点。

44.根据条款35至43中任一项的方法，其中使机器学习模型预测多个后验分布包括：使机器学习模型使用参数丢弃来生成多个分布中的分布。

45.根据条款35至44中任一项的方法，其中：

使机器学习模型预测来自机器学习模型的针对给定输入的多个后验分布包括：使机器学习模型预测与第一后验分布P_Θ(z|x)相对应的第一组多个后验分布、以及与第二后验分布P_φ(y|z)相对应的第二组多个后验分布；

通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性包括：通过从多个分布中的、针对所预测的第一组多个后验分布和所预测的第二组多个后验分布的分布采样来确定针对给定输入的所预测的第一组多个后验分布和所预测的第二组多个后验分布的可变性；并且

使用所预测的多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性包括：使用所预测的第一组多个后验分布和第二组多个后验分布中的所确定的可变性来量化机器学习模型预测中的不确定性。

46.根据条款35至45中任一项的方法，其中给定输入包括以下中的一项或多项：图像、剪辑、经编码图像、经编码剪辑、或来自参数化模型的先前层中的数据。

47.根据条款35至46中任一项的方法，还包括：使用所预测的多个后验分布中的所确定的可变性和/或经量化的不确定性来调整机器学习模型，以通过使机器学习模型更具描述性或包括更多样化的训练数据来降低机器学习模型的不确定性。

48.根据条款35至47中任一项的方法，其中采样包括：从多个分布中的分布随机选择分布，其中采样是高斯或非高斯的。

49.根据条款35至48中任一项的方法，其中确定可变性包括：利用一个或多个统计操作来量化可变性，该一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度或协方差。

50.根据条款35至49中任一项的方法，其中机器学习模型的不确定性与机器学习模型的一个或多个参数的权重的不确定性以及关联于机器学习模型的潜在空间的大小和描述性有关。

51.根据条款35至50中任一项的方法，其中调整机器学习模型以降低机器学习模型的不确定性包括：增加训练集大小和/或添加与机器学习模型相关联的潜在空间的维度。

52.根据条款51的方法，其中增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练机器学习模型；并且使用更多尺寸用于编码向量，并在机器学习模型中使用更多编码层。

53.根据条款35至52中任一项的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整机器学习模型以降低机器学习模型的不确定性包括向关联于机器学习模型的潜在空间添加附加维度。

54.根据条款35至53中任一项的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整机器学习模型的一个或多个参数以降低机器学习模型的不确定性包括：利用附加的且更多样化的训练样本来训练机器学习模型。

55.一种用于量化参数化模型预测中的不确定性的方法，方法包括：

使参数化模型预测来自参数化模型的针对给定输入的多个后验分布，多个后验分布包括多个分布中的分布；

通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性；以及

使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。

56.根据条款55的方法，其中参数化模型是机器学习模型。

57.根据条款55至56中任一项的方法，其中使参数化模型预测多个后验分布包括：使参数化模型使用参数丢弃来生成多个分布中的分布。

58.根据条款55至57中任一项的方法，其中：

使参数化模型预测来自参数化模型的针对给定输入的多个后验分布包括：使参数化模型预测与第一后验分布P_Θ(z|x)相对应的第一组多个后验分布、以及与第二后验分布P_φ(y|z)相对应的第二组多个后验分布；

通过从多个分布中的分布采样来确定针对给定输入的所预测的多个后验分布的可变性包括：通过从多个分布中的、针对所预测的第一组多个后验分布和所预测的第二组多个后验分布的分布采样来确定针对给定输入的所预测的第一组多个后验分布和所预测的第二组多个后验分布的可变性；以及

使用所预测的多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性包括：使用所预测的第一组多个后验分布和所预测的第二组多个后验分布中的所确定的可变性来量化参数化模型预测中的不确定性。

59.根据条款55至58中任一项的方法，其中给定输入包括以下中的一项或多项：图像、剪辑、经编码图像、经编码剪辑、或来自参数化模型的先前层中的数据。

60.根据条款55至59中任一项的方法，还包括：使用所预测的多个后验分布中的所确定的可变性和/或经量化的不确定性来调整参数化模型，以通过使参数化模型更具描述性或包括更多样化的训练数据来降低参数化模型的不确定性。

61.根据条款55至60中任一项的方法，其中参数化模型包括编码器-解码器架构。

62.根据条款61的方法，其中编码器-解码器架构包括变分编码器-解码器架构，方法还包括：利用概率性潜在空间来训练变分编码器-解码器架构，变分编码器-解码器架构在输出空间中生成实现。

63.根据条款62的方法，其中潜在空间包括低维编码。

64.根据条款63的方法，还包括：针对给定输入，使用编码器-解码器架构的编码器部分来确定潜在变量的条件概率。

65.根据条款64的方法，还包括：使用编码器-解码器架构的解码器部分来确定条件概率。

66.根据条款65的方法，还包括：从使用编码器-解码器架构的编码器部分所确定的潜在变量的条件概率采样，并且针对每个样本，使用编码器-解码器架构的解码器部分来预测输出。

67.根据条款55的方法，其中采样包括：从多个分布中的分布随机选择分布，其中采样是高斯或非高斯的。

68.根据条款67的方法，其中确定可变性包括：利用一个或多个统计操作来量化可变性，该一个或多个统计操作包括以下中的一项或多项：均值、矩、偏度、标准偏差、方差、峰度或协方差。

69.根据条款62至68中任一项的方法，其中参数化模型的不确定性与参数化模型的参数的权重的不确定性以及潜在空间的大小和描述性有关。

70.根据条款69的方法，其中参数化模型的不确定性与参数化模型的参数的权重的不确定性以及潜在空间的大小和描述性有关，使得权重的不确定性显现为输出中的不确定性，导致增加的输出方差。

71.根据条款62至70中任一项的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括：增加训练集大小和/或添加潜在空间的维度。

72.根据条款71的方法，其中增加训练集大小和/或添加潜在空间的维度包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据和附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层。

73.根据条款62至72中任一项的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括向潜在空间添加附加维度。

74.根据条款60至73中任一项的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性包括利用附加的且更多样化的训练样本来训练参数化模型。

75.根据条款74的方法，其中附加的且更多样化的训练样本包括：相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑。

76.根据条款60至75中任一项的方法，还包括：使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于预测晶片几何作为半导体制造过程的一部分。

77.根据条款76的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于预测晶片几何作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

78.根据条款60至77中任一项的方法，还包括使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分。

79.根据条款78的方法，其中使用所预测的多个后验分布中的所确定的可变性来调整参数化模型以降低参数化模型的不确定性用于生成所预测的重叠作为半导体制造过程的一部分包括：使用相对于先前训练材料的更多样化的图像、更多样化的数据以及附加的剪辑作为输入来训练参数化模型；并且使用更多尺寸用于编码向量，并且在参数化模型中使用更多编码层，该更多样化的图像、更多样化的数据、附加的剪辑、更多尺寸和更多编码层是基于所确定的可变性来确定的。

80.一种计算机程序产品，该计算机程序产品包括其上记录有指令的非瞬态计算机可读介质，该指令在由计算机执行时实现条款35至79中任一项的方法。

本文所公开的概念可以对用于成像亚波长特征的任何通用成像系统进行模拟或数学建模，并且对于能够产生越来越短的波长的新兴成像技术尤其有用。已经中使用中的新兴技术包括EUV(极紫外)、DUV光刻技术，其能够使用ArF激光产生193nm的波长，甚至使用氟激光能够产生157nm的波长。而且，EUV光刻能够通过使用同步加速器或通过用高能电子撞击材料(固体或等离子体)以便产生20nm-5nm范围内的光子来产生20nm-5nm范围内的波长。

虽然本文所公开的概念可以被用于在诸如硅晶片的衬底上成像，但是应当理解，所公开的概念可以与任何类型的光刻成像系统一起使用，例如，用于在不同于硅晶片的衬底上成像的光刻系统。另外，所公开的元件的组合和子组合可以包括单独的实施例。例如，确定机器学习模型的可变性可以包括：确定由该模型进行的单独预测中的可变性和/或由该模型生成的后验分布的采样集中的可变性。这些特征可以包括单独的实施例，和/或这些特征可以在同一实施例中一起使用。

上面的描述旨在是说明性的，而不是限制性的。因此，对于本领域的技术人员将显而易见的是，可以在不脱离下面提出的权利要求的范围的前提下进行所描述的修改。

Claims

1.一种用于量化参数化模型预测中的不确定性的方法，所述方法包括：

使参数化模型预测来自所述参数化模型的针对给定输入的多个后验分布，所述多个后验分布包括多个分布中的分布；

通过从多个分布中的所述分布采样来确定针对所述给定输入的所预测的所述多个后验分布的可变性；以及

使用所预测的所述多个后验分布中的所确定的所述可变性来量化所述参数化模型预测中的不确定性。

2.根据权利要求1所述的方法，其中所述参数化模型是机器学习模型。

3.根据权利要求1所述的方法，其中使所述参数化模型预测所述多个后验分布包括：使所述参数化模型使用参数丢弃来生成多个分布中的所述分布。

4.根据权利要求1所述的方法，其中：

使所述参数化模型预测来自所述参数化模型的针对给定输入的所述多个后验分布包括：使所述参数化模型预测与第一后验分布P_Θ(z|x)相对应的第一组多个后验分布、以及与第二后验分布P_φ(y|z)相对应的第二组多个后验分布；

通过从多个分布中的所述分布采样来确定针对所述给定输入的所预测的所述多个后验分布的所述可变性包括：通过从多个分布中的、针对所预测的所述第一组多个后验分布和所预测的所述第二组多个后验分布的所述分布采样来确定针对所述给定输入的所预测的所述第一组多个后验分布和所预测的所述第二组多个后验分布的所述可变性；以及

使用所预测的所述多个后验分布中的所确定的所述可变性来量化所述参数化模型预测中的所述不确定性包括：使用所预测的所述第一组多个后验分布和所预测的所述第二组多个后验分布中的所确定的所述可变性来量化所述参数化模型预测中的所述不确定性。

5.根据权利要求1所述的方法，其中所述给定输入包括以下中的一项或多项：图像、剪辑、经编码图像、经编码剪辑、或来自所述参数化模型的先前层中的数据。

6.根据权利要求1所述的方法，还包括：使用所预测的所述多个后验分布中的所确定的所述可变性和/或经量化的所述不确定性来调整所述参数化模型，以通过使所述参数化模型更具描述性或包括更多样化的训练数据来降低所述参数化模型的所述不确定性。

7.根据权利要求1所述的方法，其中所述参数化模型包括编码器-解码器架构。

8.根据权利要求7所述的方法，其中所述编码器-解码器架构包括变分编码器-解码器架构，所述方法还包括：利用概率性潜在空间来训练所述变分编码器-解码器架构，所述变分编码器-解码器架构在输出空间中生成实现。

9.根据权利要求8所述的方法，其中所述潜在空间包括低维编码。

10.根据权利要求9所述的方法，还包括：针对所述给定输入，使用所述编码器-解码器架构的编码器部分来确定潜在变量的条件概率。

11.根据权利要求10所述的方法，还包括：使用所述编码器-解码器架构的解码器部分来确定条件概率。

12.根据权利要求1所述的方法，其中采样包括：从多个分布中的所述分布随机选择分布，其中所述采样是高斯或非高斯的。

13.根据权利要求8所述的方法，其中所述参数化模型的所述不确定性与所述参数化模型的参数的权重的不确定性以及所述潜在空间的大小和描述性有关。

14.根据权利要求8所述的方法，其中使用所预测的所述多个后验分布中的所确定的所述可变性来调整所述参数化模型以降低所述参数化模型的所述不确定性包括：

·增加训练集大小和/或添加所述潜在空间的维度；

·向所述潜在空间添加附加维度；或者

·利用附加的且更多样化的训练样本来训练所述参数化模型。

15.一种计算机程序产品，包括其上记录有指令的非瞬态计算机可读介质，所述指令在由计算机执行时实现权利要求1所述的方法。