CN116745895A

CN116745895A - 用于半导体制造设备的处理控制的自适应模型训练

Info

Publication number: CN116745895A
Application number: CN202180086585.1A
Authority: CN
Inventors: 迪庞加·塔洛克德尔; 张岩; 冯烨; 杰弗里·D·邦德
Original assignee: Lam Research Corp
Current assignee: Lam Research Corp
Priority date: 2020-12-21
Filing date: 2021-12-13
Publication date: 2023-09-12
Also published as: TW202240735A; US20240047248A1; WO2022140097A1; KR20230124043A

Abstract

本文中的各种实施方案涉及适应性模型训练的系统和方法。在一些实施方案中，提供用于适应性模型训练的计算机程序产品，该计算机程序产品包括非暂时性计算机可读介质，在该非暂时性计算机可读介质上提供多个计算机可执行指令以进行：从多个处理室接收与使用处理室所制造的多个晶片相关的非原位数据，以及多个原位测量值，其中第一机器学习模型用于以原位测量值预测该非原位数据；计算度量，其中该度量表示与该第一机器学习模型相关的误差；确定是否更新该第一机器学习模型；以及使用该非原位数据及原位测量值产生第二机器学习模型。

Description

用于半导体制造设备的处理控制的自适应模型训练

通过引用并入

PCT申请表作为本申请的一部分与本说明书同时提交。在同时提交的PCT申请表中所标识的本申请要求享有其权益或优先权的每个申请均通过引用全文并入本文且用于所有目的。

背景技术

半导体制造设备，例如处理室，可使用原位测量而进行晶片制造期间的处理控制。举例而言，原位测量可用于在晶片制造期间精确控制蚀刻深度、沉积深度等。在一些情况下，可使用机器学习训练模型以将原位测量转化成测量的预测，而所述预测则进而使用于处理控制。然而，此模型可能会例如因为处理室的堆积物而偏离规格。当模型已偏离规格时可能是难以检测的。此外，再训练模型可能需要密集计算。

这里提供的背景描述是为了总体呈现本公开的背景的目的。当前指定的发明人的工作在其在此背景技术部分以及在提交申请时不能确定为现有技术的说明书的各方面中描述的范围内既不明确也不暗示地承认是针对本公开的现有技术。

发明内容

本文中所公开的是用于半导体制造设备的处理控制的方法和系统。

根据所公开主题的一些实施方案，提供了一种用于适应性模型训练的计算机程序产品，所述计算机程序产品包括非暂时性计算机可读介质，在所述非暂时性计算机可读介质上提供计算机可执行指令，所述计算机可执行指令用于：从多个处理室接收原位测量值以及与使用所述多个处理室所制造的晶片相关的非原位数据，其中所述多个处理室使用第一机器学习模型在所述多个处理室制造晶片期间进行处理控制，其中所述第一机器学习模型用于使用所述原位测量值预测所述非原位数据，且其中所述非原位数据对于晶片是表示所述晶片在加工后的特性；使用来自所述多个处理室的所述非原位数据以计算度量，所述度量表示与所述第一机器学习模型相关的误差；基于表示所述误差的所述度量来确定是否更新所述第一机器学习模型；以及响应于确定所述第一机器学习模型要进行更新，使用从所述多个处理室所接收的所述非原位数据和所述原位测量值产生第二机器学习模型。

在一些实施方案中，所述非原位数据是在子集的被制造的晶片在制造后所测得的非原位计量学数据。

在一些实施方案中，所述非原位数据包括与晶片的特征相关的几何信息。

在一些实施方案中，所述非原位数据包括光学临界尺寸(OCD)信息，所述OCD信息表示所述晶片的所述特征的深度。

在一些实施方案中，所述非原位数据包括蚀刻深度。

在一些实施方案中，所述第一机器学习模型和所述第二机器学习模型各自被用于使用所述原位测量值来产生预测的OCD数值。

在一些实施方案中，表示所述误差的所述度量包括所述多个处理室的误差累积和。

在一些实施方案中，确定是否更新所述第一机器学习模型包括确定所述误差累积和是否超出控制阈值。

在一些实施方案中，表示所述误差的所述度量包括所述多个处理室的误差变异数。

在一些实施方案中，确定是否更新所述第一机器学习模型包括确定所述误差变异数是否超出控制阈值。

在一些实施方案中，确定是否更新所述第一机器学习模型包括确定所述多个处理室的误差累积和超出控制阈值，以及所述多个处理室的误差变异数超出控制阈值。

在一些实施方案中，产生所述第二机器学习模型包括使用训练集来训练机器学习模型，所述训练集是由从所述多个处理室接收的所述非原位数据以及从所述多个处理室接收的所述原位测量值建构。

在一些实施方案中，所述原位测量值包括反射率数据。

在一些实施方案中，所述计算机程序产品还包括用于以下操作的指令：确定所述第二机器学习模型是否满足待部署于所述多个处理室的基准；以及响应于确定所述第二机器学习模型满足待部署于所述多个处理室的所述基准，传送所述第二机器学习模型至所述多个处理室中的每一者。

在一些实施方案中，确定所述第二机器学习模型是否满足待部署的所述基准包括以非原位数据和原位测量值的测试集评估所述第一机器学习模型和所述第二机器学习模型。

在一些实施方案中，所述基准包括所述第二机器学习模型对于非原位数据和原位测量值的所述测试集具有比所述第一机器学习模型更佳的预测性能。

在一些实施方案中，所述测试集中所包含的所述非原位数据包括在确定所述第一机器学习模型需更新后所收集的非原位数据。

在一些实施方案中，所述测试集中所包含的所述非原位数据包括在确定所述第一机器学习模型需更新之前所收集的第一非原位数据子集，以及在确定所述第一机器学习模型需更新后所收集的第二非原位数据子集。

在一些实施方案中，确定所述第二机器学习模型是否满足待部署的所述基准包括确定所述第二机器学习模型对于测试集中所包含的预测非原位数据的误差低于阈值。

在一些实施方案中，所述计算机程序产品还包括用于以下操作的指令：(i)响应于确定所述第二机器学习模型未满足待部署于所述多个处理室的基准而产生第三机器学习模型；(ii)确定所述第三机器学习模型是否满足待部署于所述多个处理室的所述基准；重复进行(i)和(ii)直到确定所述第三机器学习模型满足待部署于所述多个处理室的所述基准；以及响应于确定所述第三机器学习模型满足待部署于所述多个处理室的所述基准，传送所述第三机器学习模型至所述多个处理室中的每一者。

在一些实施方案中，重复进行(i)及(ii)直到确定所述第三机器学习模型满足待部署的所述基准包括重复进行(i)及(ii)直到确定所述第三机器学习模型是最佳的。

在一些实施方案中，用于产生所述第二机器学习模型的训练集比用于产生所述第三机器学习模型的训练集更小。

在一些实施方案中，用于产生所述第三机器学习模型的所述训练集比用于产生所述第二机器学习模型的所述训练集包含较新的非原位数据和原位测量值。

根据本公开的主题的一些实施方案，提供了一种使用适应性训练模型的计算机程序产品，所述计算机程序产品包括非暂时性可读介质，在所述非暂时性可读介质上提供用于以下操作的计算机可执行指令：将非原位计量学数据传送至模型训练系统，所述非原位计量学数据对应于使用从所述模型训练系统接收的第一机器学习模型所制造的晶片，其中所述第一机器学习模型用于制造所述晶片的处理室的处理控制；从所述模型训练系统接收第二机器学习模型以用于所述处理室的处理控制，其中所述第二机器学习模型通过所述模型训练系统使用从多个处理室接收的所述非原位计量学数据以及通过所述多个处理室所测得的原位晶片上光学数据所产生；以及以所述第二机器学习模型取代所述第一机器学习模型。

在一些实施方案中，所述计算机程序产品还包括用于以下操作的指令：从所述模型训练系统接收与所述第一机器学习模型相关的误差已超出阈值的消息。

在一些实施方案中，所述计算机程序产品还包括用于以下操作的指令：在从所述模型训练系统接收所述第二机器学习模型之前，将第二非原位计量学数据传送至所述模型训练系统，所述第二非原位计量学数据对应于使用所述第一机器学习模型制造的第二晶片。

在一些实施方案中，所述非原位计量学数据用于确定与所述第一机器学习模型相关的误差已超出阈值，且其中所述第二非原位计量学数据用于确定所述第二机器学习模型要取代所述第一机器学习模型。

附图说明

图1根据所公开的主题的一些实施方案显示库训练系统的使用示意图。

图2A及图2B根据所公开的主题的一些实施方案显示用于适应性库训练的处理器的操作。

图3根据所公开的主题的一些实施方案显示用于触发库训练的示例数据。

图4A和图4B根据所公开的主题的一些实施方案显示了用于分配库训练的训练集及测试集的示例性示意图。

图5根据所公开的主题的一些实施方案显示了一表格，其示出了库再训练的示例。

图6根据所公开的主题的一些实施方案显示了用于适应性库训练的示例流程图。

图7显示了可用于本文所述的某些实施方案的示例性计算机系统。

具体实施方式

术语

本说明书通篇使用以下术语：

术语“半导体晶片”、“晶片”、“衬底”、“晶片衬底”以及“部分制造集成电路”可以可互换地使用。在本领域中普通技术人员理解术语“部分制造集成电路”可指在半导体晶片上的集成电路制造的许多阶段中的任何一者期间的半导体晶片。使用于半导体设备工业中的晶片或衬底通常具有200mm、或300mm、或450mm的直径。除了半导体晶片之外，可以利用所公开的实施方案中的其他工件包含各种物品，例如印刷电路板、磁性记录介质、磁性记录传感器、镜子、光学元件、微机械设备以及类似物。工件可能有各种不同的形状、尺寸及材料。

如在本文中使用的，“半导体设备制造操作”是在半导体设备的制造期间实施的操作。通常而言，整体制造处理包含多个半导体设备制造操作，每一者实施于其自身半导体制造工具中，如等离子体反应器、电镀槽、化学机械平面化工具、湿式蚀刻工具等等。半导体设备制造操作的类别包含减材处理(如蚀刻处理及平坦化处理)以及增材处理(如沉积处理(例如，物理气相沉积、化学气相沉积、原子层沉积、电化学沉积、无电镀沉积))。在蚀刻处理的背景中，衬底蚀刻处理包含蚀刻掩模层的处理，或更普遍而言蚀刻先前沉积和/或以其他方式残留在衬底表面上的任何材料层。如此的蚀刻处理可能蚀刻在该衬底中的堆叠层。

“制造设备”是指内部进行制造处理的设备。制造设备通常具有处理室，而工件在处理期间位于该处理室中。一般而言，制造设备在使用中执行一个或更多半导体装置制造操作。半导体装置制造所用的制造设备示例包括沉积反应器(例如，电镀槽、物理气相沉积反应器、化学气相沉积反应器及原子层沉积反应器)，以及减除式处理反应器，例如干式蚀刻反应器(例如，化学及/或物理蚀刻反应器)、湿式蚀刻反应器及灰化器。

本文中所使用的“集群”是指执行同一半导体制造配方(例如，同一蚀刻处理、同一沉积处理等)的处理室群组。应注意，处理室的集群可包括任何合适数量(例如，5、10、15、20、30和/或任何其他合适数量的处理室)。在一些实施方案中，该集群的所有成员被配置有相同构件；例如相同的RF产生器、相同的室壁尺寸、相同的喷头设计等。

本文中所使用的“反射率数据”是指使用处理室的一个或更多光学传感器而测量的光学反射率数据。反射率数据可为在晶片制造期间收集的原位晶片上测量值，以例如用于处理控制。在一些实施方案中，反射率数据可指示任何合适信息，例如反射光强度，其作为时间和/或发射自任何合适光源的光的波长的函数。举例而言，在一些实施方案中，反射率数据可对应于从发射光反射的光，其中该发射光在制造期间被导向晶片上的一地或一点处。

本文中所使用的“计量学数据”是指至少部分由经处理衬底的测量特征所产生的数据。应注意，如本文所述，计量学数据可指的是非原位测量值。换言之，计量学测量可在执行半导体装置制造操作之前或之后进行。在一些实施方案中，计量学数据是经由在经蚀刻衬底上执行显微术(例如，扫描电子显微术(SEM)、穿透电子显微术(TEM)、扫描穿透电子显微术(STEM)、反射电子显微术(REM)、原子力显微术(AFM))或光学计量学的计量学系统而产生。

在一些实施方案中，计量学数据是通过在经处理衬底上执行反射测量术、圆顶散射测量、角分解散射测量、小角度X-ray散射测量和/或椭圆偏光术而产生。在一些实施方案中，计量学数据包括从例如能量色散X-ray光谱术(EDX)所得的光谱学数据。在一些情况下，光学计量学使用独立或经整合光学计量学工具而执行，其中该光学计量学工具被配置成精确地对经加工或经部分加工的电子装置的一种或更多性质描述特征。该光学计量学工具可配置成在衬底表面上产生小的射束斑点(例如，直径约为5mm以下)。在一些实施方案中，计量学数据可包括与特征相应的光学临界尺寸(OCD)信息。作为特定示例，在一些实施方案中，OCD信息可指示蚀刻深度。、

计量学系统可获得与各种特征(例如，边缘、通孔、沟槽等)的尺寸(例如，尺寸、深度、宽度等)有关的信息。计量学系统可获得与在衬底中或在衬底上的层中所含的材料有关的信息。该信息可包括光学信息(例如，消光系数和/或折射率)、化学信息(例如，化学组成和/或原子组成)、形态信息，例如晶体结构等。

应注意，本文中所使用的计量学数据可在晶片上执行制造操作之前或之后非原位收集而用于晶片。在一些实施方案中，可针对特定处理室所加工的晶片子集(例如，每十片晶片、每15片晶片等)而收集计量学数据。

本文中所使用的“处理控制”是指在通过处理室加工晶片期间将该处理室的参数进行设定、调整和/或维持以达到目标晶片规格，例如目标蚀刻深度、目标侧壁角度等。“端点控制”为处理控制的示例，其中判断是否已达到目标端点(例如，目标蚀刻深度)。

本文中所使用的“机器学习模型”是经训练的计算算法，其中该计算算法已受训练以建构数据点之间的关系的计算模型。经训练的机器学习模型可基于经学习关系而产生输出，不需被明确编程而使用明确定义的关系产生输出。

机器学习模型的示例包括回归模型、自动编码器网络(例如，长短期存储器(LSTM)自动编码器、卷积类自动编码器、深度自动编码器、可变自动编码器和/或任何其他合适类型的自动编码器网络)、神经网络(例如，卷积类神经网络、深度卷积网络、重现神经网络和/或任何其他合适类型的神经网络)、聚类算法(例如，最近相邻者、K平均群集和/或任何其他合适类型的聚类算法)、随机森林模型，包括深度随机森林、受限玻尔兹曼机、深度信念网络(DBNs)、递归张量网络及梯度提升树。

应注意，一些机器学习模型的特征在于“深度学习”模型。除另有指明外，在本文中任何关于机器学习模型的参照系包括深度学习实施方案。深度学习模型得以各种形式实施，例如通过神经网络(例如，卷积类神经网络)。一般而言(但非必要)，深度学习模型包括多个层。这些层各自包括多个处理节点，并且这些层按顺序进行处理，其中较接近模型输入层的层的节点比较接近模型输出的层的节点更早进行处理。在各种实施方案中，一层馈送到下一层等等。

在多种实施方案中，深度学习模型可具有显著的深度。在一些实施方案中，该模型具有多于两个(或多于三个、多于四个或多于五个)的处理节点的层，这些处理节点的层从先前层接收数值(或作为直接输入)，并且将数值输出至后续层(或最终输出)。内部节点经常是“隐藏”的，意思是从该模型外侧看不见其输入值及输出值。在各种实施方案中，隐藏节点的操作在操作期间是不受监控或记录的。

深度学习模型的节点及连接可经训练及再训练，而不须重新设计其数量、配置等。

如所指示的，在各种实现方案中，这些节点层可集体形成神经网络，但许多深度学习模型具有其他结构和形式。在一些实例中，深度学习模型不具有层状结构，在此情况下，上述具有许多层的“深度”特性是不相关的。

应注意，本文为适应性模型训练所述的技术可适用于任何类型的机器学习模型。

经训练的机器学习模型可使用于处理控制。举例而言，经训练的机器学习模型可用于从原位测量值预测非原位数据以用于原位处理控制。在一些这样的实施方案中，经训练的机器学习模型可包括从原位测量值预测非原位数据所用的系数集合，其中这些系数是使用机器学习算法的训练结果。在经训练机器学习模型为回归模型的实例中，系数集合可对应于回归模型中的项(term)的系数。应注意，用于原位处理控制的经训练机器学习模型在本文中有时被称作“库”。

在一些实施方案中，使用原位测量值预测非原位数据以用于原位处理控制的机器学习模型或库可通过“库训练系统”进行训练。本文中所使用的“库训练系统”可配置成使用从多个处理室接收计量学数据训练机器学习模型或库，其中该多个处理室可为处理室集群。在一些实施方案中，库训练系统可例如响应于判断该处理室集群所使用的库是过时的(例如，由于处理室的处理漂移、服务时间的推移和/或其他原因)而更新库。在一些实施方案中，库训练系统可配置成接着将更新后的库传送至该处理室集群中的一些或所有成员。

在一些实施方案中，库可被库训练系统训练以将所预测的非原位数值与计量学数据所指示的基准真相非原位数值之间的误差最小化。举例而言，库可经训练以将所预测的OCD信息与非原位计量学数据中指示的基准真相OCD值之间的误差最小化。

本文中所使用的“光学库”是指系数或其他信息的集合，其可使用所测量的原位数据(例如，反射率数据)而产生预测信息以用于处理室的处理控制。应注意，本文中所使用的光学库是用于原位处理控制的经训练的机器学习模型的示例。举例而言，在一些实施方案中，可将光学库用于基于原位测量值且使用光学库中的系数集合以预测非原位测量值。在一些实现方案中，处理控制逻辑被配置成将光学库中的信息与原位收集测量值两者进行计算结合或以其他方式使用，以用于处理控制决定。作为更特定的示例，在一些实施方案中，可将光学库用于基于所测量的原位反射率数据产生预测OCD信息。继续该特定示例，在一些实施方案中，可接着将所预测的OCD信息使用于处理室的处理控制。作为明确示例，可将所预测的OCD信息使用于终点控制，以判断是否达到目标蚀刻深度。

应注意，光学库可为使用多个算法的光学库系统的一部分。该光学库系统(可将其称作“进阶光学”系统)可使用机器学习模型和/或非机器学习算法进行处理控制。在一些这样的情况下，经库训练系统使用本文所述的机器学习模型而训练的光学库可被视为“进阶光学”库。

本文中所使用的“漂移”是指所预测的非原位测量值与横跨多个处理室(例如，横跨处理室集群)的基准真相非原位测量值之间的误差增加。库训练系统可对来自处理室集群的计量学数据进行监测以检测漂移。举例而言，在一些实施方案中，库训练系统可响应于判断误差度量(例如，误差的累积总和)已超出阈值而检测漂移。

“偏离规格”是指用于处理控制的库在所预测的非原位测量值中产生误差的状态，其中所述误差超出阈值或以其他方式而未能符合与可接受预测性能相关的量化要求。应注意，偏离规格可指的是正在使用的库和/或使用库的特定处理室。偏离规格的判断可通过使用两个变异数驱动的度量而进行，其中该两个变异数驱动的一者为使用该库的处理室集群使用，而另一者为使用该库的独立处理室使用。具体而言，可将各变异数驱动度量与阈值进行比较以识别偏离规格的状态。

本文中所使用的“库再训练触发器”是指库正等待再训练的确定。在一些实施方案中，可基于漂移的检测而做出该确定。另外，在一些实施方案中，该确定可基于判断所预测的非原位测量值(例如，使用库及所测量的原位测量值所计算的预测测量值)与基准真相非原位测量值之间的误差变异数已超出预定阈值而做出。在一些实施方案中，可基于检测出使用库的一个或更多处理室偏离规格而做出该确定。

概论

如本文所述的库训练系统可适当地保持、评估和/或更新处理室集群的库。在一些实施方案中，可将库用于取出原位测量值作为输入，并产生非原位测量值或其他度量的预测作为输出，其中所述其他度量在晶片的制造期间用于由处理室进行的原位处理控制。举例而言，原位测量值可包括晶片上的反射率数据，其指示出各种波长的反射光的强度。通过将来自处理室中的发光源的光引导至处理中的衬底上可产生所述反射率数据。在一些情况下，原位反射率数据是时变的；即，所述反射率信号是在衬底进行处理时于多个时点所获取。继续该示例，可将反射率数据用于产生非原位测量值的预测。非原位测量值可指示处理后的衬底的一种或更多特性。处理后的衬底的特性可包括衬底特征的一种或更多几何特性(例如，蚀刻深度、临界尺寸及特征轮廓的其他方面)。非原位测量值的示例包括光学临界尺寸(OCD)信息，其指示在制造期间的晶片的一个或更多特征的几何信息(例如，蚀刻深度等)、一种或更多其他类型的计量学数据(例如，XSEM、CDSEM、TEM等)等。进一步继续该示例，接着可将非原位测量值的预测用于处理控制。作为更特定的示例，可将所预测的OCD信息用于晶片蚀刻期间的终点控制以实现目标蚀刻深度。

在一些实施方案中，库训练系统可配置成监测处理室集群的性能，以确定将更新库提供至该集群的时点。举例而言，库训练系统可配置成基于所计算的误差度量而触发库的再训练，其中所述误差度量指示非原位测量值的预测误差和/或非原位测量值的预测随时间的变化。作为更特定的示例，所述误差度量可包括非原位测量值的预测的误差提升和/或横跨该集群的非原位测量值的预测误差的变异数提升。应注意，在一些实施方案中，库训练系统可配置成通过将所预测的非原位测量值与作为处理后计量学数据而收集的实际非原位测量值进行比较而计算误差。

在一些实施方案中，库训练系统可配置成通过监测预测误差随时间的变化而检测相对少数样本的误差漂移增加。换言之，可将集群宽度的预测误差视为处理平均值，其中通过响应于检测到处理平均值中的漂移而对光学库进行再训练，可控制处理平均值中的漂移。在一些实施方案中，可使用控制图来检测集群宽度的预测误差中的漂移，其中所述控制图例如为累积和(CUSUM)图、休哈特控制图、指数加权移动平均(EWMA)控制图、多流处理(MSP)控制图等。通过监测横跨该集群的误差变化，可在误差相对小的时候检测误差漂移。

在一些实施方案中，库训练系统可配置成训练更新库以取代偏离规格的库。接着，库训练系统可配置成通过将该更新库与偏离规格的库进行比较而评估该更新库，使得该更新库在下列情况下被使用于该集群：1)该更新库优于偏离规格的当前库；和/或2)该更新库满足绝对性能基准，例如在评估测试数据时具有低于阈值的误差变化。应注意，在一些实施方案中，可将当前库及更新库均以测试集进行评估，其中该当前库及更新库都未以该测试集进行训练，从而使得该当前库和该更新库对于该测试集都是盲测的。

在一些实施方案中，如果更新库未满足采用基准，则可执行第二或进一步的训练迭代(iteration)以产生进一步更新的库。在一些实施方案中，各相继的库训练迭代可使用经修改的训练及测试集。举例而言，在一些实施方案中，可转换连续迭代的测试集而以较近期的晶片数据测试库。作为另一示例，在一些实施方案中，可扩展将连续迭代的训练集而以额外训练数据训练库。通过将分配于连续库训练迭代的训练集及测试集进行修改可较迅速地训练出优化库。尤其是，通过在库不满足采用基准时扩展训练集可较迅速且有效地训练库。

应注意，虽然在本文中将库训练系统概述为用于提供基于原位光学测量值(例如，反射率数据)来预测非原位测量值(例如，OCD信息)的库，然而应当理解的是本文所述的技术可延伸以适应性地训练其他类型的机器学习模型和/或产生其他类型的库，以用于原位处理控制。举例而言，所述技术可用于训练机器学习模型或产生库，以使用原位热测量值预测非原位计量学数据、使用原位电性测量值预测非原位计量学数据等。

库训练系统

参照图1，其根据所公开的主题的一些实施方案显示库训练系统的使用示意图。

如图所示，在一些实施方案中，库训练系统100可以与多个处理室通信，其中这些处理室包括处理室的集群，例如在图1中显示的处理室110、室120、室130等。举例而言，在一些实施方案中，库训练系统100可配置成产生光学库，其中所述光学库可被传送及被处理室使用而进行处理控制，如将在下文更详细描述的。应注意，在一些实施方案中，处理室集群中的各处理室可实施晶片制造的相同处理或配方。在一些实施方案中，集群中的各处理室具有相同部件和设计。

在一些实施方案中，处理室集群中的各处理室可收集晶片制造期间的原位反射率数据。举例而言，如图1所示，处理室110可收集反射率数据112。

反射率数据112可被处理控制逻辑114使用，以在晶片制造期间进行处理室110的处理控制。举例而言，处理控制114可修改任何合适参数以控制晶片的目标特征的制造。作为更特定的示例，在一些实施方案中，处理控制逻辑114可配置成通过判断在晶片蚀刻期间是否已达成目标蚀刻深度而执行终点控制。作为另一更特定的示例，在一些实施方案中，处理控制逻辑114可配置成调整参数而控制晶片的侧壁角度。

在一些实施方案中，处理控制逻辑114可配置成使用光学库而使用反射率数据112计算所预测的光学临界尺寸(OCD)信息。继续该示例，OCD信息可用于预测与制造中的晶片的特征相关的几何信息，例如电流蚀刻深度、电流侧壁角度等。

处理室可将非原位计量学数据传送至库训练系统100。举例而言，处理室110可将计量学数据116传送至库训练系统100。在一些实施方案中，可为处理室110所制造的晶片子集(例如，每十个晶片、每二十个晶片等)收集计量学数据116。在一些实施方案中，计量学数据116可包括任何合适测量值，例如晶片的任何特定特征所使用的基准真相OCD信息。

库训练系统100可配置成从处理室集群中的多个处理室接收计量学数据。如结合图2及图3而描述于下，库训练系统100可配置成基于所接收的计量学数据而确定由处理室所使用以进行处理控制的当前光学库是否偏离规格。举例而言，库训练系统100可配置成基于被包括在所接收的非原位计量学数据中的基准真相OCD信息而确定在所预测的OCD信息中的误差已漂移超出可接受阈值。

如结合2B而更详细描述于下文的，库训练系统100可配置成训练更新光学库。库训练系统100可接着配置成将该更新光学库传送至处理室集群中的处理室，如图1所示。

应注意，在一些实施方案中，处理室集群中的各处理室可使用相同的光学库，其中该光学库已使用从多个处理室接收的计量学数据而进行训练。进一步继续进行，在一些实施方案中，处理室集群中的各处理室可接收该相同的更新光学库。

另外，应注意，在一些实施方案中，处理室集群中的一个或更多处理室可不使用库训练系统100所提供的光学库以进行处理控制。举例而言，该室可使用蚀刻时间的数据以进行终点控制。在一些这样的实施方案中，库训练系统100可配置成基于使用该光学库的处理室的预测误差而确定是否提供更新光学库。然而，在一些实施方案中，库训练系统100可配置成使用来自处理室集群中的所有处理室(包括未使用光学库进行处理控制的处理室)的计量学数据以训练更新光学库。

参照图2A和图2B，其根据所公开的主题的一些实施方案显示用于库训练的示例处理。所述处理可由任何合适装置执行，例如库训练系统的一个或更多服务器，如图1所示且结合图1而描述于上。应注意，不须执行图2A和图2B中所显示的所有框。另外，应注意，能以与图2A和图2B中所示出的顺序不同的顺序执行这些框。

在图2A的202处，可接收与当前库相关的晶片数据。该数据可为可帮助阐明当前库的性能的数据。举例而言，晶片数据可包括非原位测量值，其指示处理后的衬底的一种或更多特性。作为更特定的示例，晶片数据可包括非原位计量学数据，其指示与晶片的特征相关的所测量OCD信息，例如蚀刻深度、侧壁角度的大小等。

在一些实施方案中，晶片数据可包括由处理室使用的用于终点控制的原位信息。举例而言，在一些实施方案中，晶片数据可包括使用当前库而计算的所预测的非原位信息(例如，OCD信息)。作为另一示例，在一些实施方案中，晶片数据可包括所测量的反射率数据，其中可使用当前库而从所述反射率数据计算所预测的OCD信息。

应注意，可从处理室集群中的任何合适数量的处理室(例如，五个处理室、十个处理室、二十个处理室等)接收晶片数据。应额外注意的是，可从处理室集群中的各处理室异步地接收晶片数据。该晶片数据可对应于多个晶片(例如，五个晶片、十个晶片、五十个晶片等)。

在204处，可评估当前库的性能。能以任何合适方式评估当前库的性能。举例而言，在一些实施方案中，可对使用当前库(例如，基于所测量的反射率数据)而计算的所预测的OCD值与被包括在或源自于非原位计量学数据的基准真相OCD值之间的误差进行计算。换言之，在一些实施方案中，误差＝所预测的OCD–基准真相OCD。应注意，该误差在本文中统称为“脱机误差”。

在一些实施方案中，可将“在线误差”计算为误差＝基准真相OCD-目标+偏置(Offset)，其中目标是指各处理室为所制造的晶片而达成的目标值(例如，目标蚀刻深度等)，且其中偏置参数概括该集群中的不同处理室之间的差异。应注意，在线误差可暗指原位信息，例如基于原位反射率测量值的所预测的OCD。另外，在一些实施方案中，在计算在线误差的实例中，在框202处接收的晶片数据不须包括原位信息，例如原位反射率测量值、所预测的OCD信息等。

在一些实施方案中，能以任何合适方式分析误差值。举例而言，可对横跨使用光学库的处理室集群而汇总的误差值进行分析。继续该示例，可随时间推移(即，随着接收额外晶片数据)保持并更新集群宽度的误差度量。保持并更新集群宽度的误差度量的方法示例包括CUSUM控制图、Shewhart控制图、EWMA控制图、MSP控制图、在特定时间周期内监测集群宽度的误差以检测超出阈值的该集群宽度误差中的变化等。应注意，下方关于图3更详细描述CUSUM的使用。

参照图3，其根据所公开的主题的一些实施方案显示用于分析误差值的示例图300。

在一些实施方案中，可计算误差值302的累积和(CUSUM)。应注意，显示于图3中且更详细描述于下文的误差值302的CUSUM被用于正性误差值(例如，对于脱机误差是当所预测的OCD＞基准真相OCD时，和/或对于在线误差是当基准真相OCD＞目标时)。在一些实施方案中，虽然图3中未显示，但可计算负性误差值的相应CUSUM并将其描绘于图300中。

在一些实施方案中，对于正性误差值，可将误差值302的CUSUM计算为CUSUM_POS(i)＝Max[0，CUSUM_POS(i-1)+Error(i)-k]，其中i为晶片数据样本号码，Error(i)为第i个样本的误差，而k是指示该误差中的可允许松弛(allowable slack)的参数。在一些实施方案中，可将k设定为任何值，例如误差值分布的所期望的标准偏差。应注意，可将CUSUM_POS(0)设定为具有数值0。

应注意，可将对于负性误差值的CUSUM(未显示于图3)计算为CUSUM_NEG(i)＝Max[0，CUSUM_NEG(i-1)-Error(i)-k]。对于负性误差值的CUSUM能以负性误差值进行更新，即对于脱机误差是当所预测的OCD＜实际OCD时，或者对于在线误差是当基准真相OCD＜目标时。应注意，可将CUSUM_NEG(0)设定为具有数值0。

对于正性误差值的CUSUM的示例被给定于下，其中k被设定为0.7。如果Error(1)被计算为1.1(因此为正性误差值)，则CUSUM_POS(1)＝Max[0,CUSUM_POS(0)+1.1-0.7]＝Max[0,0.4]＝0.4。类似地，CUSUM_NEG(1)＝Max[0,CUSUM_NEG(0)-1.1-0.7]＝Max[0,-1.8]＝0。

进一步继续该示例，如果Error(2)被计算为-0.9(且因此为负性误差值)，则对于正性误差值的CUSUM(即，CUSUM_POS)将被更新成0。换言之，CUSUM_POS(2)＝MAX[0,CUSUM_POS(1)+(-0.9)-0.7]＝MAX[0,-1.2]＝0。对于负性误差值的CUSUM将被更新成0.2。换言之，CUSUM_NEG(2)＝MAX[0,CUSUM_NEG(1)-(-0.9)-0.7]＝MAX[0,0.2]＝0.2。

仍进一步继续该示例，如果Error(3)被计算为0.2，则CUSUM_POS(3)＝MAX[0,CUSUM_POS(2)+0.2-0.7]＝MAX[0,-0.5]＝0。类似地，CUSUM_NEG(3)＝MAX[0,CUSUM_NEG(2)-(0.2)-0.7]＝MAX[0,-0.7]＝0。

应注意，如在上方所给定的示例，以及如误差值302的CUSUM所示，CUSUM值不须为单调的(monotonic)。另外，如上方的示例计算所示，CUSUM_POS及CUSUM_NEG将具有大于或等于0的数值。

在一些实施方案中，可将误差值302的CUSUM与控制阈值304进行比较，以评估当前库的性能。举例而言，可将误差值中的漂移视为响应于确定误差值302的CUSUM超出控制阈值304而进行检测。可将控制阈值304设定成任何合适数值。举例而言，在一些实施方案中，可将控制阈值304设定成横跨处理室集群的误差值分布的所期望标准偏差(STD)的3倍，其在本文中称作3σ。应注意，虽然在此处通常使用3σ，但在一些实施方案中，可将任何合适数值使用于控制阈值，例如2σ、4σ和/或任何其他合适数值。

应注意，虽然图3未显示，但可响应于确定负性误差值的CUSUM小于负性控制阈值而检测到漂移。举例而言，在负性控制阈值为-2.2且负性误差值的CUSUM达到-2.5的实例中可检测到漂移。

在一些实施方案中，可计算误差值306的变异数。应注意，误差值306的变异数可为横跨该集群的所有处理室的误差值变异数。尤其是，应注意，可使用横跨所有处理室的数值计算误差值变异数，而不论各室贡献多少数值。在一些实施方案中，在计算误差值306的变异数之前可将所述误差值平均数置中(mean-center)。在一些这样的实施方案中，误差值306的变异数可表示误差值分布的变异数，同时有效地忽略误差值的平均数。反过来说，误差值的CUSUM可有效表示横跨这些处理室的误差值的平均数变化。

在一些实施方案中，可将误差值306的变异数与控制阈值304进行比较，以评估当前库的性能。举例而言，可响应于确定误差值306的变异数已超出控制阈值304而检测到横跨该集群中的处理室的误差变异数增加。

参照回到图2A，在206处，可做出是否对当前库进行再训练的确定。在一些实施方案中，可基于当前库的性能是否满足再训练的基准而做出该确定。举例而言，所述基准可包括是否检测到当前库的误差漂移。做为更特定的示例，可基于控制图(例如，CUSUM控制图、Shewhart控制图、EWMA控制图、MSP控制图等)的当前数值指示预测误差的漂移而检测到当前库的误差漂移。作为另一更特定示例，可基于在特定时间裕度期间或者在特定数量的晶片数据样本期间跳跃大于阈值量(例如，大于0.2、大于0.5等)的库的误差而检测当前库的误差漂移。应注意，预测误差的漂移可能是源自于整个处理室集群，或者这些处理室的子集。

作为特定示例，当误差值的CUSUM超出控制阈值时可检测到漂移。举例而言，参照图3，可基于在控制阈值304之上的基于CUSUM值308而检测到漂移。应注意，可基于图3未显示的负性误差值的CUSUM而检测到漂移。举例而言，当负性误差值的CUSUM超出控制阈值304时可检测到漂移。

作为另一示例，在一些实施方案中，基准可包括横跨集群中的这些处理室的平均数置中误差的变异数是否超出控制阈值。应注意，在一些实施方案中，用于检测漂移的控制阈值(例如，使用误差值的CUSUM)及与平均数置中误差的变异数所使用的控制阈值相关使用可为相同的控制阈值，如图3所示且在上文结合图3所描述的。相反地，在一些实施方案中，可将两个不同控制阈值用于误差值的漂移及误差值的变异数。

在一些实施方案中，该基准可包括该集群中的偏离规格的处理室数量是否超出室阈值。当与处理室相关的预测误差超出误差阈值时可确定独立处理室偏离规格。再次参照图3，图表350显示在该集群中的偏离规格的处理室数量作为晶片样本数量的函数。应注意，图表350显示了室阈值352。在一些实施方案中，室阈值352可指示在该集群中可偏离规格的最大处理室数量，例如两个室、三个室等。额外或替代地，在一些实施方案中，室阈值352可指示在该集群中可偏离规格的处理室的最大比率，例如5％、10％等。

参照回到图2A，在一些实施方案中，当符合来自下列群组的任何合适的基准组合时可做出对当前库进行再训练的确定：1)误差值的CUSUM超出控制阈值；2)平均数置中的误差变异数超出控制阈值；以及3)偏离规格的处理室数量超出室阈值。应注意，在一些实施方案中，控制阈值和/或室阈值可由任何合适实体所设定，例如处理室集群的操作者。

举例而言，参照图3，可基于晶片样本354(其满足全部的三个再训练基准)而做出对当前库进行再训练的确定。替代地，在一些实施方案中，可响应于已满足的任何基准子集而做出对当前库进行再训练的确定。

参照回到图2A，如果在206处确定当前库不需进行再训练(在206处为“否”)，则该处理可绕回202并接收与当前库相关的额外晶片数据。

相反，如果在206处确定当前库需要进行再训练(在206处为“是”)，则在207处可作成是否具有足够的晶片数据对当前库进行再训练的确定。

可基于判断当前可用的晶片样本数量是否超出训练设定阈值而做成是否具有足够晶片数据对当前库进行再训练的确定。该训练设定阈值可为任何合适的训练样本数量，例如50个样本、100个样本、200个样本等。

如果在207处确定不存在足够晶片数据对当前库进行再训练(在207处为“否”)，则该处理可绕回到202并接收与当前库相关的额外晶片数据。应注意，在一些实施方案中，由于当前库先前已受评估且被确定偏离规格，故可省略框204及框206。

相反，如果在207处确定具有足够晶片数据以进行再训练(在207处为“是”)，则在208处可产生第二库。可通过使用非原位数据及原位测量值训练第二库而产生第二库。应注意，产生第二库的详细技术被显示于图2B且结合图2B而于下文描述。

参照图2B，其根据所公开的主题的一些实施方案显示了流程图，该流程图说明用于库训练的处理。

在210处，可识别晶片数据的测试集及训练集。

晶片数据的训练集及测试集能以任何合适方式识别。参照图4A，其根据所公开的主题的一些实施方案显示了示意图，该示意图描绘了用于识别训练集及测试集的各种技术。

图4A所显示的各圆圈代表由库训练系统接收的晶片数据。应注意，各圆圈可代表任何合适数量的晶片数据样本(例如，10个样本、20个样本、50个样本等)。黑色圆圈代表该库再训练触发时的样本前所接收的晶片数据(例如，晶片数据402)，且该晶片数据包括该库再训练触发时的该样本，而虚线圆圈代表库再训练触发后所接收的晶片数据(例如，晶片数据404)。

在一些实施方案中，各晶片数据样本可包括原位数据，例如在晶片制造期间所测量的原位反射率数据。在一些实施方案中，原位数据可为在晶片制造期间所测量的数据，其用于在晶片制造期间产生所预测的OCD信息(例如，用于处理控制、用于终点控制等)。另外，在一些实施方案中，各晶片数据样本可包括非原位数据，例如在晶片制造后收集的计量学数据。在一些实施方案中，计量学数据可包括所测量的OCD信息，例如所测量的蚀刻深度信息。

在一些实施方案中，训练集和/或测试集中的各样本可包括原位数据及非原位数据二者。举例而言，在一些实施方案中，所预测的OCD信息可为训练样本或测试样本的输入值，而非原位数据(例如，所测量的OCD信息)可为训练样本或测试样本的目标输出。

在一些实施方案中，可将训练集和测试集进行分派，使得该测试集包括在库再训练触发器后所接收的晶片数据样本(例如，测试集406)，而训练集包括在库再训练触发器前所接收的晶片数据样本(例如，训练集408)，且该晶片数据样本包括该库再训练触发器。在本文中，这通常称为0的测试转换比率，如图4A所示。

在一些实施方案中，可将训练集和测试集进行分派，使得该测试集和该训练集都包括在触发库再训练的样本前所接收的晶片数据样本，例如测试集410和训练集412，且该晶片数据样本包括触发库再训练的样本。在本文中，这通常称为1的测试转换比率。

在一些实施方案中，可将训练集和测试集进行分派，使得该训练集包括在触发库再训练的样本前所接收的晶片数据样本(例如，训练集414)，而该测试集包括在触发库再训练的样本前的晶片数据样本，该晶片数据样本包括触发库再训练的该样本，且该测试集也包括在触发库再训练的样本后所接收的晶片数据样本(例如，测试集416)。在本文中，这通常称为介于0至1之间的测试转换比率，其中该测试转换比率的数值可为介于0至1之间的任何分数值。

应注意，测试转换比率的不同数值可改变测试集中所包括且在库再训练触发器后接收的晶片数据样本的比例。举例而言，与较接近1的测试转换比率相比，相对接近0的测试转换比率值可包括较多在触发库再训练的样本后所接收的晶片数据样本。

另外，应注意，图4A显示的训练集及测试集的尺寸，以及与测试集的尺寸相对的训练集的尺寸仅为示例性的。在一些实施方案中，训练集及测试集可各自具有任何合适数量的晶片数据训练样本。

参照回到图2B，在212处，可使用训练集对第二库进行训练。举例而言，在一些实施方案中，可将机器学习模型用于学习从原位数据预测非原位数据的系数。作为更特定的示例，第二库可包括基于所测量的反射率数据来预测OCD信息的系数。

应注意，在一些实施方案中，可使用验证集以验证第二库。在一些实施方案中，在使用训练集的剩余部分对第二库进行训练之前，可将验证集建构为该训练集的子集。

在214处，可使用测试集对第二库进行评估。

在一些实施方案中，评估第二库可包括计算第二库的一组预测误差。举例而言，对于测试集中的各样品来说，可使用第二库和所述样品的输入值计算所预测的OCD值。继续该示例，可将样品误差计算作为所预测的OCD信息与基准真相OCD信息之间的差异。因此，该组预测误差可指示各测试集样品的预测误差。

应注意，在一些实施方案中，在使用测试集评估当前库时，当前库可能会类似地产生一组预测误差。换言之，在一些实施方案中，可使用同一测试集各自对当前库和第二库进行评估。此外，在一些实施方案中，由于当前库和第二库皆未使用该测试集所包括的样本进行训练，因此可将该当前库和该第二库视为对测试集是盲测的。

在一些实施方案中，可通过计算与该组预测误差相关的任何合适度量以评估第二库，其中该组预测误差与测试集相关。举例而言，所述度量可包括该组预测误差的标准偏差(STD)、预测误差的3σ、预测误差的变异数、预测误差的平均数和/或任何其他合适度量。类似地，在一些实施方案中，可为当前库的该组预测误差计算相应度量。

在216处，可做出第二库是否满足部署基准的确定。

举例而言，在一些实施方案中，该基准可包括当以测试集进行评估时，第二库的性能是否优于当前库的性能。

在一些实施方案中，能以任何合适度量指示第二库及当前库各者的性能，例如一组预测误差的3σ。举例而言，在第二库的一组预测误差为[0.2，2.3，0.5，0.7，0.8]且当前库的一组预测误差为[0.6，0.9，4.3，0.2，3.4]的实例中，第二库的该组预测误差的3σ为2.19，而当前库的该组预测误差的3σ为4.92。

在一些实施方案中，如果第二库在性能度量方面的改良超越当前库超出改良阈值，则可将该第二库视为对该当前库的改良。举例而言，所述改良阈值可为20％、30％和/或任何其他合适的改良阈值。继续上方示例，当使用3σ作为性能度量时，第二库相对于当前库在测试集方面的改良为55％。在改良阈值为20％的实例中，可将第二库视为优于当前库。

作为另一示例，在一些实施方案中，所述基准可包括当以测试集评估第二库时该第二库的绝对性能。作为更特定的示例，在一些实施方案中，所述基准可包括当以测试集评估第二库时该第二库的性能是否低于误差阈值。作为具体示例，在性能度量为一组预测误差的3σ的实例中，误差阈值可为所期望的3σ值。继续该特定示例，参照上方所给定的示例，在第二库的一组预测误差的3σ数值为2.19且误差阈值为2.2的实例中，当以测试集评估第二库时该第二库的性能低于该误差阈值，也因此可将该第二库的该性能视为满足绝对性能基准。

在一些实施方案中，可基于所符合的任何合适基准组合而满足部署基准。举例而言，在一些实施方案中，当发生下列两者时可满足部署基准：1)以测试集进行评估时第二库优于当前库；以及2)以测试集评估第二库时该第二库的性能低于该误差阈值。应注意，第二库对于当前库的改良在本文中通常被称作“合格”的第二库。另外，应注意，低于误差阈值的第二库的性能在本文中通常被称作“最佳”的第二库。

如果在216处确定第二库满足部署基准(在216处为“是”)，则在218处可部署该第二库。举例而言，可将第二库传送至集群中的各处理室。在一些实施方案中，这些处理室可接着各自以第二库取代当前库而用于处理控制。

应注意，在一些实施方案中，即使确定第二库合格但并非最佳的，仍可将第二库部署至集群中的处理室。换言之，如果第二库对于当前库是改良的，则即使第二库的性能未低于误差阈值，仍可将该第二库进行部署。在一些这样的实施方案中，可将该第二库进行部署，并可执行下方描述的框220-224以训练第三库。另外，在一些这样的实施方案中，可将第二库传送至集群中的处理室，并配合指示该第二库并非最佳库的警示信息。

如果在216处确定第二库不满足部署基准(在216处为“否”)，则在220处可识别晶片数据的新训练集及新测试集以训练第三库。应注意，第二库的训练(例如，上方关于框210-214所述)在本文中被称作迭代1，而第三库的训练(例如，下方关于框220-224所述)在本文中被称作迭代2。

参照图4B，其根据所公开的主题的一些实施方案显示用于识别晶片数据的新训练集和新测试集的示意图。

测试集452和训练集454显示了用于训练和评估第二库(即，迭代1)的测试集和训练集。应注意，虽然显示了测试集452和训练集454使用介于0与1之间的测试转换比率(例如，上方关于图4A所述)，但在迭代1中可使用任何合适的测试转换比率以进行第二库的训练和评估。

在迭代2期间(即，关于图2B的框220-224所示及上方所描述的第三库的训练和评估)，训练集456可用于训练第三库，而测试集458可用于评估。应注意，测试集458可用于评估第三库，以及当与该第三库进行比较时用于评估第二库(例如，以确定该第三库是否为第二库的改良)。

在一些实施方案中，测试集458可与测试集452具有相同尺寸。然而，在一些实施方案中，测试集458可包括晶片数据样本，其中所述晶片数据样本比测试集452所包括的晶片数据样本更新，如图4B所示。

在一些实施方案中，训练集456的尺寸可大于训练集454的尺寸，如图4B所示。在一些实施方案中，可将用于各连续迭代的训练集增加固定数量的晶片数据样本(例如，来自100个晶片的数据、来自200个晶片的数据等)。举例而言，在图4B所显示的各圆圈代表50个晶片数据样本的实例中，训练集456相对于训练集454可包括额外的50个晶片数据样本。另外，在一些实施方案中，可将迭代2的训练集456进行转换以包括比迭代1的训练集454中所包括的晶片数据样本更为近期的晶片数据样本。

测试集460及训练集462分别显示了在例如迭代2期间产生的库无法满足部署基准的实例中，用于库训练的迭代3的测试集和训练集。

如图所示，在一些实施方案中，测试集460可与测试集458和/或测试集452具有相同尺寸。另外，如图所示，在一些实施方案中，可将测试集460进行转换以包括比测试集458和/或测试集452中所包括的晶片数据样本较晚接收的晶片数据样本。

在一些实施方案中，训练集462可大于训练集456及训练集454。举例而言，如图所示，训练集462可相对于训练集456提升尺寸以包括额外固定数量的晶片数据样本。作为更特定的示例，在图4B所显示的各圆圈代表50个晶片数据样本的实例中，训练集462可相对于迭代2的训练集456具有50个额外晶片数据样本，且相对于迭代1的训练集454具有100个额外晶片数据样本。

应注意，通过包括较晚接收的晶片数据样本(例如，关于训练集456及462所示)和/或通过包括较旧的晶片数据样本可实现训练集相对于先前迭代的训练集的尺寸增大。举例而言，在晶片数据样本的数量不足以利用新接收的晶片数据样本来转换测试集及扩展训练集的实例中，可通过包括较旧的晶片数据样本而扩展训练集。

参照回到图2B，在222处，可使用新训练集训练第三库。应注意，此为迭代2，如关于图4B所示且描述于上。

类似于有关框212而于上文描述的，可训练第三库。举例而言，机器学习模型可用于学习系数，其中所述系数是基于原位测量值(例如，原位反射率测量值)来预测非原位值(例如，在计量学数据中指示的非原位OCD信息)。

在一些实施方案中，可使用验证集对第三库进行验证，其中该验证集为训练集的一部分。在一些这样的实施方案中，该验证集可在训练第三库前进行建构，而该第三库可使用该训练集不包括该验证集的剩余部分进行训练。

在224处，可使用新测试集评估第三库。可使用上述与框214相关的技术评估第三库。应注意，当使用新测试集进行评估时，可将第三库的性能与当前库的性能进行比较。

该处理可接着绕回到框216，并且可判断第三库是否满足部署基准。

应注意，在一些实施方案中，可重复进行框216-224直到已对被认为最佳的库(即，满足绝对性能基准的库)进行训练。

参照图5，其根据所公开的主题的一些实施方案显示由库训练系统所评估和/或训练的库的示例性度量表。

栏502显示了用于评估和/或训练特定库的晶片的晶片数据指针。应注意，这些晶片数据指针是以25为群组进行分格以避免该表格过度复杂。另外，应注意，虽然这些晶片数据指针是以25为群组进行分格，但在一些实施方案中，评估集、训练集和/或测试集可包括所显示以外的任何合适数量的晶片数据样本(例如，50、100、200等)。

栏504显示了库A在第一评估时间时的性能度量。如图所示，库A使用晶片26-50进行评估。应注意，图5所显示的性能度量是当库以所指示的样本进行评估时的预测误差的3σ。如上所述，对于各晶片的预测误差为基准真相OCD信息与所预测的OCD信息之间的差异，其中所预测的该OCD信息是使用库A和原位测量值(例如，反射率数据)进行预测，而基准真相OCD信息为非原位计量学数据。

在一些实施方案中，可响应于判断性能度量满足性能基准(例如，3σ值低于阈值)而再次评估库A，如栏506所示的。应注意，所述阈值可为所期望的3σ值。示例性阈值为1.8、2.2、2.5等。

在图5所显示的示例中，由于在使用晶片26-50评估库A时，库A的3σ值低于阈值2.2，因此使用晶片51-75再次对库A进行评估，如栏506所示。

应注意，当使用晶片51-75评估库A时，该库A的3σ值高于阈值2.2。因此，开始进行库A1的训练，如栏508所示。如栏508所示，库A1使用晶片1-50进行训练，并使用晶片51-75进行测试。当使用晶片51-75进行测试时，库A1的3σ值为2.37。如栏508所示，还使用晶片51-75对库A进行评估，而库A的相应3σ值为3.42。

在图5所显示的示例中，库A1为库A的改良，原因在于库A1的3σ值(2.37)小于库A的3σ值(3.42)。另外，在改良阈值为20％的实例中，可将库A1视为合格的，库A1相对于库A的性能改良超过20％。然而，应注意，在以晶片51-100的测试集进行评估时，库A1的3σ值大于2.2的所期望的3σ阈值。因此，在第一迭代过后，库A1不被认为是最佳的。

由于在第一迭代后库A1不被认为是最佳的，因此开始进行第二迭代的训练，如栏510所示。如所示出的，第二迭代的库A1使用扩展的晶片1-75训练集进行训练。第二迭代的库A1使用晶片76-125的测试集进行评估。如所示出的，第二迭代的库A1的3σ值为1.26，小于2.2的所期望的3σ阈值。因此，第二迭代的库A1被认为是最佳的，而将第二迭代的库A1部署至集群中的处理室。

接着，对第二迭代的库A1进行评估，如栏512所示。举例而言，第二迭代的库A1的性能使用晶片126-150进行评估。如所示出的，当使用晶片126-150评估库A1时，3σ值为1.23。由于该3σ值低于2.2的所期望的3σ阈值，故不开始进行库的再训练。

如栏514所显示的，第二迭代的库A1以晶片151-175进行评估。对于晶片151-175的3σ值为2.25。由于该3σ值超出2.2的所期望的3σ阈值，故开始进行库的再训练，如栏516所示。

第一迭代的库A2使用晶片101-150的训练集进行训练，如栏516所示。接着，使用晶片151-200对库A2进行测试，其提供2.66的3σ值。应注意，第二迭代的库A1也是使用晶片151-200进行测试，而其提供2.65的3σ值。应注意，第一迭代的库A2并未比第二迭代的库A1更好，原因在于第一迭代的库A2的3σ值(2.66)大于第二迭代的库A1的3σ值(2.65)。因此，第一迭代的库A2是不合格的，也并非最佳的。

因此，对第二迭代的库A2进行训练，如栏518所示。如所示出的，第二迭代的库A2使用包括晶片101-175的扩展训练集进行训练。接着，使用晶片176-225对第二迭代的库A2进行测试，其提供1.43的3σ值。当使用晶片176-225进行测试时，第二迭代的库A2与库A1对于同一测试集的性能进行比较。由于第二迭代的库A2的3σ值小于2.2的所期望的3σ阈值，且由于第二迭代的库A2的3σ值是库A1的改良，故第二迭代的库A2被认为是最佳的，并且被部署至集群中的处理室。

参照图6，其根据所公开的主题的一些实施方案显示了可由库训练系统实施的库再训练的示例流程图。

在602处，库训练系统可配置成从例如储存晶片数据的数据库读取晶片数据。在一些实施方案中，晶片数据可包括非原位计量学数据。在一些实施方案中，晶片数据可额外包括任何合适的原位测量值，例如在集群中的处理室的操作期间所收集的反射率测量值。

应注意，在602处，数据库可包括从正在使用库A的处理室集群中的处理室所收集的数据，其中该库A例如是库训练系统先前所提供的。

在604处，库训练系统可配置成过滤晶片数据。在过滤库数据的过程中，库训练系统可配置成移除无效数据，例如遗漏值、非数(NaN)值等。

在606处，库训练系统可配置成确定AutoLib开关是“开启”还是“关闭”。应注意，该AutoLib开关可指示是否已触发库再训练。具体而言，如果在606处该AutoLib开关是“开启”的，则库训练系统可配置成处于监测模式，其中库再训练尚未触发。反之，如果在606处该AutoLib开关是“关闭”的，则该库训练系统可产生更新库(即，下方所述的库A1)，而该库训练系统处于测试模式以确定是否部署库A1。

如果在606处该AutoLib开关是开启的，则在608处库训练系统可配置成确定当前是否有足够的晶片数据以评估所部署的库A。

如果在608处库训练系统确定晶片数据不足(在608处为“否”)，则该库训练系统可等待以接收额外晶片数据。

相反，如果在608处库训练系统确定具有足够晶片数据，则在610处库训练系统可配置成确定是否对库A进行再训练。在一些实施方案中，是否对库A进行再训练的判断可基于库A在预测非原位计量学测量值的性能评估，如上方关于图2A的框204和206所述。

如果在610处库训练系统确定库不需进行再训练(在610处为“否”)，则在612处可将库A继续由该处理室集群使用。

相反，如果在610处库训练系统确定库需进行再训练(在610处为“是”)，则在614处库训练系统可配置成向该处理室集群提供库A偏离规格的警示。应注意，在一些实施方案中可省略框614。

在616处，库训练系统可配置成确定是否具有足够晶片数据以对库进行再训练。

如果在616处该库训练系统确定晶片数据不足以对库进行再训练(在616处为“否”)，则库训练系统可等待以接收额外晶片数据。

如果在616处该库训练系统确定具有足够晶片数据对库进行再训练(在616处为“是”)，则在618处该库训练系统可配置成训练新的库(库A1)。应注意，关于训练库A1的技术结合图2B的框210和212而于上文更详细描述。

接着，在620处库训练系统可配置成确定库A1是否通过验证。举例而言，如上方关于图2B所述，在一些实施方案中，可使用验证集对库A1进行验证。

如果在620处该库训练系统确定库A1未通过验证(在620处为“否”)，则在622处该库训练系统可配置成提供库再训练失败的警示。举例而言，该库训练系统可配置成传送信息至该处理室集群，指示新训练的库尚无法使用。

相反，如果在620处库训练系统确定库A1通过认证(在620处为“是”)，则在624处该库训练系统可将AutoLib开关切换至关闭。换言之，通过将AutoLib开关切换至关闭可将该库训练系统切换至指示该库A1已进行训练的模式(并且因此在库A1的测试期间将不会再次触发再训练的模式)。

在626处，库训练系统可配置成将库A1储存在存储器中(例如，与该库训练系统相应的服务器的存储器中)，并且可等待以接收用于测试库A1的额外晶片数据。

参照回到框606，该库训练系统可配置成确定AutoLib开关当前是关闭的。接着，在628处该库训练系统可配置成确定晶片数据是否足够进行库A1和库A的盲测。

应注意，在一些实施方案中，晶片数据是否足够进行盲测试集可取决于测试转换比率的数值，如上方关于图2B和图4A所述。举例而言，在测试转换比率为0，且因此测试集仅包括在触发库再训练的样品过后所接收的晶片数据样本的实例中，该库训练系统可能需要等待额外晶片数据以执行盲测。相反，在测试转换比率为1，且因此该测试集仅包括在触发库再训练的样品之前所接收的晶片数据样本的实例中，该库训练系统可能已接收足够晶片数据以执行盲测。

如果在628处该库训练系统确定晶片数据不足以进行盲测(在628处为“否”)，该库训练系统可等待以接收额外晶片数据以建构测试集。

如果在628处该库训练系统确定具有足够晶片数据进行盲测(在628处为“是”)，则在630处库训练系统可配置成确定库A1是否优于库A。应注意，图2B的框214和216描述使用测试集对库A1和库A进行评估的详细技术。

如果在630处该库训练系统确定库A1并未优于库A(在630处为“否”)，则在631处该库训练系统可配置成将AutoLib开关切换成“开启”，从而使该库训练系统处于监测和/或再训练模式。

接着，在632处该库训练系统可配置成提供库再训练失败的警示。接着，该库训练系统可配置成等待额外晶片数据，并且可配置成训练第二迭代的新库(即，库A2，未显示于图6)。

相反，如果在630处该库训练系统确定库A1优于库A(在630处为“是”)，则在634处该库训练系统可配置成提供与库A1有关的信息。举例而言，如上方关于图2B的框214所述，该库训练系统可配置成将库A1部署至该处理室集群。

在636处，该库训练系统可配置成将AutoLib开关切换至“开启”，从而使库训练系统处于监测新部署的库A1的模式。

应用

在一些实施方案中，库训练系统可配置成将经训练库提供至处理室集群而用于处理控制。举例而言，所提供的库可使用晶片制造期间的原位测量值来预测非原位测量值。作为更特定的示例，所提供的库可使用原位测量值(例如，反射率数据)来预测OCD信息，以在蚀刻处理期间控制蚀刻深度。

在一些实施方案中，当所提供的库偏离规格时，该库训练系统可配置成进行确定。换言之，当所预测的非原位测量值的误差漂移超出可接受界限时，库训练系统可配置成进行确定。通过监测库对于多个处理室(例如，在该集群中使用该库的所有处理室)的性能，该库训练系统可配置成检测在这些处理室中的性能中的变异数增加。此外，通过保持累积误差总数，利用相对少量的数据检测微小的误差漂移。

确定在训练库时的训练数据和测试数据的最佳数量可能是有困难的。举例而言，使用过多的训练数据可能会使库训练耗费过量的计算资源，并可能会花费过量的时间。相反，以过少的数据进行训练可能会产生训练不足的库。通过基于库的性能而在库训练的迭代期间迭代地对训练集及测试集进行调整，该库训练系统可配置成更有效率地训练库，从而优化所需的计算资源。

对于所公开的计算实施方案的背景

此处所公开的某些实施方案涉及用于生成和/或使用机器学习模型的计算系统。此处所公开的某些实施方案涉及用于生成和/或使用在这些系统上实现的机器学习模型的方法。还可设置生成机器学习模型的系统，以接收诸如表示在半导体装置制造操作期间所发生的物理工艺的程序代码的数据和指令。以此方式，在这种系统上生成或程序化机器学习模型。

具有各种计算机架构中的任何一种的计算系统的许多类型可实现为所公开的用于实施机器学习模型的系统；以及用于生成和/或优化这种模型的算法。例如，该系统可包含在一或多个通用处理器或专门设计的处理器(例如专用集成电路(ASIC)或可编程逻辑设备(例如现场可编程门阵列(FPGAs))的特殊设计的处理器上执行的软件组件。另外，该系统可在单一装置上实现或分布遍及多个装置。计算部件的功能可彼此合并或是进一部分成多个子模块。

在某些实施方案中，在恰当地程序化的系统上在机器学习模型的生成或执行期间执行的程序代码可以软件部件的形式实现，该软件部件可存储于非挥发性存储介质(诸如光盘、快闪存储装置、行动硬盘等)中，包含用于制造计算机装置(诸如个人计算机、服务器、网络设备等等)的大量指令。

在一个级别，软件部件被实现为由程序设计员/开发员所准备的成组的指令。然而，可由计算机硬件执行的模块软件是使用“机器码”提交给存储器的可执行程序代码，该“机器码”是选自设计在硬件处理器中的特定机器语言指令组或“原生指令(nativeinstruction)”。该机器语言指令组、或原生指令组对硬件处理器是已知的且基本上内置于其中。这是系统及应用软件与硬件处理器通信的“语言”。每个原生指令是离散码，该离散码由处理架构所识别，且该离散码可以为算数、寻址、或控制功能；特定存储器位置或偏置；以及用于解释操作数的特定寻址模式而指定特定寄存器。更复杂的操作通过结合这些简单原生指令进行构建，该原生指令是按顺序、或者由控制流程指令所指示以其他方式执行。

可执行的软件指令与硬件处理器之间的相互关系是结构性的。换言之，该指令本身是一系列符号或数值。它们本质上并不传达任何信息。其是处理器，该处理器按照设计预先配置以解释所述符号/数值，从而赋予意义给指令。

此处所使用的模型可被设置成在单一位置的单一机器上、在单一位置的多个机器上、或是在多个位置的多个机器上执行。当使用多个机器时，可针对它们的特定任务定制各个机器。例如，可以在大型和/或固定机器上实现需要大代码块和/或显著处理能力的操作。

此外，某些实施方案与有形的和/或非暂时计算机可读介质或计算机程序产品相关，该计算机程序产品包括用于执行各种计算机实施的操作的程序指令和/或数据(包含数据结构)。计算机可读介质的示例包含但不限于：半导体存储器装置；相变装置；诸如硬盘、磁带之类的磁介质；诸如CD、磁光介质之类的光学介质；以及特别设置以存储以及执行程序指令的硬件装置，诸如只读存储器(ROM)以及随机存取存储器(RAM)。计算机可读的介质可由终端用户直接控制，或者该介质可由终端用户间接控制。直接控制介质的示例包含位于用户工厂的介质和/或不与其他实体共享的介质。间接控制介质的示例包含用户经由外部网络和/或经由提供诸如“云端”的共享资源的服务可间接访问的介质。程序指令的示例包含机器程序代码(例如由编译程序所产生)和含有可由计算机使用解释器执行的更高级程序代码的文件两者。

在多种实施方案中，在所公开的方法和设备中使用的数据或信息以电子格式提供。这种数据或信息可以包含：原位测量值、非原位测量值、模型参数值等。如此处所使用的，以电子格式提供的数据或其他信息可存储在机器上以及在机器之间传输。按常规，电子格式的数据以数字形式提供且在各种数据结构、列表、数据库等等中可存储为位和/或字节。数据可以以电子的、光学的等方式实施。

在某些实施方案中，机器学习模型可各自被视为与用户以及与系统软件连接的应用软件的一种形式。系统软件一般与计算机硬件以及相关联的存储器连接。在某些实施方案中，系统软件包含：操作系统软件和/或固件、以及安装在系统中的任何中间软件以及驱动器。系统软件提供计算机的基本非任务特定功能。相反，模块以及其他应用软件用于完成特定任务。每个用于模块的原生指令存储于存储器装置且以数值表示。

一示例性的计算机系统700描绘于图7中。如图所示，计算机系统700包含输入/输出子系统702，其可以实现用于与人类用户和/或其他计算机系统交互的接口，具体取决于应用。本公开的实施方案可以在系统800上的程序代码中实现，系统700具有用于从人类用户接收输入程序陈述和/或数据(例如经由GUI或键盘)以及将它们显示给该用户的I/O子系统702。I/O子系统702可包含，例如：键盘、鼠标、图形用户接口、触控屏幕、或者其他输入接口；以及例如：LED或其他平面屏幕显示器、或其他输出接口。

通信接口707可包括任何合适部件或电路系统，其用于使用任何合适通信网路(例如，因特网、内部网络、广域网(WAN)、局域网络(LAN)、无线网络、虚拟专用网(VPN)和/或任何其他合适类型的通信网路)进行通信。举例而言，通信接口707可包括网络适配器电路系统、无线通信电路系统等。

程序代码可以存储在非暂时介质，例如辅助存储器710、存储器708或该两者。在一些实施方案中，辅助存储器710可为持久性储存器。一或多个处理器704从一或多个非暂时介质读取程序代码并执行该程序代码以使计算机系统能够完成由此处的实施方案所执行的方法，例如，如本文所描述的涉及产生或使用工艺仿真模型的那些。本领域技术人员应理解，处理器可接受诸如用于执行训练和/或模型化操作的陈述的来源码、以及将该来源码解释或编译进在处理器的硬件门级可理解的机器码。总线705将I/O子系统702、处理器704、周边装置706、通信接口707、存储器708、以及辅助存储器710耦合。

各种计算部件(包括，处理器、存储器、指令、常用程序、模型或其他构件)可被描述或请求作为“配置成”执行一项或更多任务。在此背景中，词组“配置成”被用于通过指示该部件包括在操作期间执行该一项或更多任务的结构(例如，储存指令、电路系统等)而赋予该结构涵义。因此，所述单元/电路/部件可被称作被配置成执行任务，即使指定的部件当前不一定是运行的(例如，未开启)也如此。

与“配置成”语言一起使用的构件可以指硬件—例如，电路、存储可执行以实现操作的程序指令的存储器等。另外，“配置成”可指向由软件和/或固件(例如，FPGA或执行软件的通用处理器)操纵，从而以能够执行所述任务的方式进行操作的通用结构(例如，通用电路)。此外，“配置成”可以指一个或更多存储器或存储元件，其存储用于执行所述任务的计算机可执行指令。该存储元件可包括位于具有处理逻辑的计算机芯片上的存储器。在一些背景中，“配置成”还可包括调整制造处理(例如，半导体制造设施)以制造适合实施或执行一项或更多任务的设备(例如，集成电路)。

结论

在以上的描述中，说明了大量的特定细节，以提供对所提出的实施方案的彻底理解。在不需要这些特定细节中的若干或全部的情况下即可实行所公开的实施方案。在其他示例中，为了不使所公开的实施方案难以理解，常规的处理操作不会有详细描述。虽然所公开的实施方案与特定实施方案一同叙述，但应理解，其并非试图限制所公开的实施方案。

除非另外指明，否则本文所述的方法操作和装置特征涉及在计量、半导体装置加工技术、软件设计与编程、以及统计中常用的技术与设备，这些都在本领域的技术范围内。

除非在本文中另外定义，否则本文所使用的所有技术和科学术语具有与本领域技术人员所通常理解的含义相同的含义。包含本文中所含术语的各种科学辞典对于本领域技术人员而言是公知的且可得的。虽然与本文所述的相似或等同的任何方法及材料都可用于本文所述实施方案的实践或测试中，但对某些方法和材料进行了描述。

数值范围包含界定范围的数字。本说明书各处所提供的每个最大数值限制意图包含每个较低数值限制，如同这些较低数值限制在本文中明确写出一样。本说明书各处所提供的每个最小数值限制会包含每个较高数值限制，如同这些较高数值限制在本文中明确写出一样。本说明书各处所提供的每个数值范围会包含落在较宽数值范围内的每个较窄数值范围，如同这种较窄数值范围都在本文中明确写出一样。

本文所提供的标题并非意图限制本发明。

如本文所使用的，除非上下文另外明确指明，否则单数术语“一”、“一个”、以及“该(the)”包含多个参考。除非另外指明，否则本文所使用的术语“或”是指非排他性的“或”。

Claims

1.一种用于适应性模型训练的计算机程序产品，所述计算机程序产品包括非暂时性计算机可读介质，在所述非暂时性计算机可读介质上提供计算机可执行指令，所述计算机可执行指令用于：

从多个处理室接收原位测量值以及与使用所述多个处理室所制造的晶片相关的非原位数据，其中所述多个处理室使用第一机器学习模型在所述多个处理室制造晶片期间进行处理控制，其中所述第一机器学习模型用于使用所述原位测量值预测所述非原位数据，且其中所述非原位数据对于晶片是表示所述晶片在加工后的特性；

使用来自所述多个处理室的所述非原位数据以计算度量，所述度量表示与所述第一机器学习模型相关的误差；

基于表示所述误差的所述度量来确定是否更新所述第一机器学习模型；以及

响应于确定所述第一机器学习模型要进行更新，使用从所述多个处理室所接收的所述非原位数据和所述原位测量值产生第二机器学习模型。

2.根据权利要求1所述的计算机程序产品，其中所述非原位数据是在子集的被制造的晶片在制造后所测得的非原位计量学数据。

3.根据权利要求1或2任一项所述的计算机程序产品，其中所述非原位数据包括与晶片的特征相关的几何信息。

4.根据权利要求3所述的计算机程序产品，其中所述非原位数据包括光学临界尺寸(OCD)信息，所述OCD信息表示所述晶片的所述特征的深度。

5.根据权利要求4所述的计算机程序产品，其中所述非原位数据包括蚀刻深度。

6.根据权利要求4所述的计算机程序产品，其中所述第一机器学习模型和所述第二机器学习模型各自被用于使用所述原位测量值来产生预测的OCD数值。

7.根据权利要求1或2任一项所述的计算机程序产品，其中表示所述误差的所述度量包括所述多个处理室的误差累积和。

8.根据权利要求7所述的计算机程序产品，其中确定是否更新所述第一机器学习模型包括确定所述误差累积和是否超出控制阈值。

9.根据权利要求1或2任一项所述的计算机程序产品，其中表示所述误差的所述度量包括所述多个处理室的误差变异数。

10.根据权利要求9所述的计算机程序产品，其中确定是否更新所述第一机器学习模型包括确定所述误差变异数是否超出控制阈值。

11.根据权利要求1或2任一项所述的计算机程序产品，其中确定是否更新所述第一机器学习模型包括确定所述多个处理室的误差累积和超出控制阈值，以及所述多个处理室的误差变异数超出控制阈值。

12.根据权利要求1或2任一项所述的计算机程序产品，其中产生所述第二机器学习模型包括使用训练集来训练机器学习模型，所述训练集是由从所述多个处理室接收的所述非原位数据以及从所述多个处理室接收的所述原位测量值建构。

13.根据权利要求12所述的计算机程序产品，其中所述原位测量值包括反射率数据。

14.根据权利要求1或2任一项所述的计算机程序产品，其还包括用于以下操作的指令：

确定所述第二机器学习模型是否满足待部署于所述多个处理室的基准；以及

响应于确定所述第二机器学习模型满足待部署于所述多个处理室的所述基准，传送所述第二机器学习模型至所述多个处理室中的每一者。

15.根据权利要求14所述的计算机程序产品，其中确定所述第二机器学习模型是否满足待部署的所述基准包括以非原位数据和原位测量值的测试集评估所述第一机器学习模型和所述第二机器学习模型。

16.根据权利要求15所述的计算机程序产品，其中所述基准包括所述第二机器学习模型对于非原位数据和原位测量值的所述测试集具有比所述第一机器学习模型更佳的预测性能。

17.根据权利要求15所述的计算机程序产品，其中所述测试集中所包含的所述非原位数据包括在确定所述第一机器学习模型需更新后所收集的非原位数据。

18.根据权利要求15所述的计算机程序产品，其中所述测试集中所包含的所述非原位数据包括在确定所述第一机器学习模型需更新之前所收集的第一非原位数据子集，以及在确定所述第一机器学习模型需更新后所收集的第二非原位数据子集。

19.根据权利要求14所述的计算机程序产品，其中确定所述第二机器学习模型是否满足待部署的所述基准包括确定所述第二机器学习模型对于测试集中所包含的预测非原位数据的误差低于阈值。

20.根据权利要求14所述的计算机程序产品，其还包括用于以下操作的指令：

(i)响应于确定所述第二机器学习模型未满足待部署于所述多个处理室的基准而产生第三机器学习模型；

(ii)确定所述第三机器学习模型是否满足待部署于所述多个处理室的所述基准；

重复进行(i)和(ii)直到确定所述第三机器学习模型满足待部署于所述多个处理室的所述基准；以及

响应于确定所述第三机器学习模型满足待部署于所述多个处理室的所述基准，传送所述第三机器学习模型至所述多个处理室中的每一者。

21.根据权利要求20所述的计算机程序产品，其中重复进行(i)及(ii)直到确定所述第三机器学习模型满足待部署的所述基准包括重复进行(i)及(ii)直到确定所述第三机器学习模型是最佳的。

22.根据权利要求20所述的计算机程序产品，其中用于产生所述第二机器学习模型的训练集比用于产生所述第三机器学习模型的训练集更小。

23.根据权利要求22所述的计算机程序产品，其中用于产生所述第三机器学习模型的所述训练集比用于产生所述第二机器学习模型的所述训练集包含较新的非原位数据和原位测量值。

24.一种使用适应性训练模型的计算机程序产品，所述计算机程序产品包括非暂时性可读介质，在所述非暂时性可读介质上提供用于以下操作的计算机可执行指令：

将非原位计量学数据传送至模型训练系统，所述非原位计量学数据对应于使用从所述模型训练系统接收的第一机器学习模型所制造的晶片，其中所述第一机器学习模型用于制造所述晶片的处理室的处理控制；

从所述模型训练系统接收第二机器学习模型以用于所述处理室的处理控制，其中所述第二机器学习模型通过所述模型训练系统使用从多个处理室接收的所述非原位计量学数据以及通过所述多个处理室所测得的原位晶片上光学数据所产生；以及

以所述第二机器学习模型取代所述第一机器学习模型。

25.根据权利要求24所述的计算机程序产品，其还包括用于以下操作的指令：从所述模型训练系统接收与所述第一机器学习模型相关的误差已超出阈值的消息。

26.根据权利要求24或25中任一项所述的计算机程序产品，其还包括用于以下操作的指令：在从所述模型训练系统接收所述第二机器学习模型之前，将第二非原位计量学数据传送至所述模型训练系统，所述第二非原位计量学数据对应于使用所述第一机器学习模型制造的第二晶片。

27.根据权利要求26所述的计算机程序产品，其中所述非原位计量学数据用于确定与所述第一机器学习模型相关的误差已超出阈值，且其中所述第二非原位计量学数据用于确定所述第二机器学习模型要取代所述第一机器学习模型。