CN117291234A

CN117291234A - 探针自动对齐的方法、装置、系统及存储介质

Info

Publication number: CN117291234A
Application number: CN202311587480.1A
Authority: CN
Inventors: 李安东; 王佳; 张杨
Original assignee: Ai Empowerment Tech Inc
Current assignee: Ai Empowerment Tech Inc
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117291234B

Abstract

本申请公开一种探针自动对齐的方法、装置、系统及存储介质，涉及半导体检测技术领域，该方法包括：获取用于显示过程的区域图像并进行预处理；构建机器学习模型，所述机器学习模型包括DQN模型和RND模型；RND模型基于好奇心机制对DQN模型执行补偿机制，将预处理后的数据输入机器学习模型进行训练，得到训练后的机器学习模型；通过训练后的机器学习模型进行探针的自动对齐。本申请实施例，基于机器学习实现探针与芯片上每个铝垫的自动对齐，减少测试人员的工作量；通过DQN模型实现代理人与环境的交互，完成自动检测，激励代理人在环境中寻找重要信息，解决奖励延迟的问题，避免对DQN模型的训练产生负面影响。

Description

探针自动对齐的方法、装置、系统及存储介质

技术领域

本申请属于半导体检测技术领域，尤其涉及一种基于机器学习的探针自动对齐的方法、装置、系统及存储介质。

背景技术

半导体是众多行业的关键材料，在电子器件中扮演着重要的角色晶圆是半导体中常用的原材料，在其生产后，检测缺陷是必不可少的一步，任何错误的发生都会造成生产成本的浪费。

检测通常是通过晶片探测来完成的，传统技术中，在检测的过程中，晶片上芯片的每个铝垫(AP)都需要与探针连接，以检测芯片的导电性。但是由于AP的尺寸非常小，通过人工控制将探针对准晶圆上的芯片是非常复杂和耗时的。比如，在Ding 和Liu的研究（S.Ding and D. Liu, “Applying data mining techniques to the Overkill Analysis ofWafer testing,” dissertation, Chiao Tung University, Hsinchu, Taiwan, China,2012.）中，移动是由探针控制的，经常使用光学定位系统或显微镜来帮助测试人员给出指令，让探针移动晶片，使AP对准探针在正确的位置，否则可能会导致检测误判，从而对检测的正确率和最终的产品成品率产生了不利的影响。

发明内容

本申请的目的，在于提供一种基于机器学习的探针自动对齐的方法、装置、系统及存储介质，通过机器学习实现探针与芯片的自动对齐。

为了达成上述目的，本申请的解决方案是：

第一方面，本申请实施例提供了一种基于机器学习的探针自动对齐方法，上述方法包括如下步骤：

步骤1，获取用于显示过程的区域图像并进行预处理；

步骤2，构建机器学习模型，上述机器学习模型包括DQN模型和RND模型，RND模型基于好奇心机制对DQN模型执行补偿机制；

步骤3，将步骤1预处理后的数据输入步骤2机器学习模型进行训练，得到训练后的机器学习模型；

步骤4，通过步骤3训练后的机器学习模型进行探针的自动对齐。

根据本申请实施例的上述方法，还可以具有以下附加技术特征：

进一步的，通过加速算法加快算法的收敛速度，将区域图像转换为三维张量。

进一步的，DQN模型包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三层全连接层结构。

进一步的，第一卷积层的卷积核大小为7×7，填充为2，步幅为4；第一激活函数层通过ReLU激活函数产生非线性映射；上述第二卷积层的卷积核大小为5×5，填充为1，步幅为2；第二激活函数层通过ReLU激活函数产生非线性映射；上述三层全连接层结构包括第五层线性层、第六层线性层和第七层ReLU激活函数层，通过两层线性计算和一层ReLU激活函数得到输出结果。

进一步的，RND模型包括依次连接的卷积层、最大池化层、自适应平均池化层和线性层。

进一步的，卷积层的卷积核大小为3×3，最大池化层的卷积核大小为2×2。

进一步的，训练内容包括：

设定探针的初始状态为固定状态；

输入预处理后的数据，记录代理人的操作步数和总奖励值，对机器学习模型进行训练，直至同时满足操作步数收敛且不大于200步和总奖励值满足在一个章节中实现对齐时结束训练。

第二方面，本申请实施例提供了一种基于机器学习的探针自动对齐装置，包括：

图像获取模块，用于获取用于显示过程的区域图像；

预处理模块，用于对区域图像进行预处理，将区域图像转换为三维张量；

模型构建模块，用于构建机器学习模型，所述模型包括DQN模型和RND模型，RND模型基于好奇心机制对DQN模型执行补偿机制；

模型训练模块，用于训练机器学习模型，直至满足输出需求；

自动对齐模块，用于将预处理模块输出的三维张量输入至训练好的机器学习模型中，实现探针的自动对齐操作。

第三方面，本申请实施例提供了一种基于机器学习的探针自动对齐系统，包括处理器和存储器，存储器中存储有计算机程序，计算机程序由处理器加载并执行，以实现本申请实施例第一方面的基于机器学习的探针自动对齐方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储介质中存储有计算机程序，计算机程序被处理器执行时，用于本申请实施例实现第一方面的基于机器学习的探针自动对齐方法。

本发明的有益效果在于：通过机器学习实现探针与芯片上每个铝垫的自动对齐，减少测试人员的工作量；通过DQN模型实现代理人与环境的交互，完成自动检测；通过RND模型实现代理人的内在奖励算法，激励代理人在环境中寻找重要信息，解决奖励延迟的问题，避免对DQN模型的训练产生负面影响。

附图说明

图1是本申请实施例的基于机器学习的探针自动对齐方法的流程图；

图2是本申请实施例用于显示过程的区域图像示意图；

图3是本申请实施例的DQN模型的结构示意图；

图4是本申请实施例的RND模型的结构示意图；

图5是本申请实施例的动作指令示意图；

图6是本申请实施例的整体结构示意图；

图7是本申请实施例的总奖励值统计示意图；

图8是本申请实施例的步数统计示意图；

图9是本申请实施例的算法结果图；

图10是本申请实施例的基于机器学习的探针自动对齐装置的结构框图；

图11是本申请实施例的计算机设备的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更为明显易懂，下面结合附图，对本申请的具体实施方式做详细的说明。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

代理人（agent）是指一种自主运行的程序，可以为用户或其他程序执行任务。它们是一种可以代表用户进行交互、检索信息或执行自动化任务的程序。代理人通常会基于一定的规则和算法，通过收集、分析和处理大量的信息，来为用户提供有用的建议或决策支持。代理人可以应用于多个领域，例如个人助理、网络爬虫、智能推荐、机器人和自动化等。

在计算机科学中，代理人通常被定义为一种具有感知、推理和行动能力的软件程序。这些能力使代理人能够感知其环境，并根据一些规则或目标，自主地执行任务。代理人的主要作用是在复杂的、不确定的环境中，帮助用户或其他程序做出最佳的决策。

代理人可以基于不同的算法和方法进行设计和实现。例如，基于规则的代理人可以基于人工定义的规则和策略，执行某些任务。而基于学习的代理人则可以通过不断学习和调整自己的策略，来更好地适应不同的任务和环境。另外，代理人也可以基于自然语言处理技术来实现自然的交互和沟通。

在本申请实施例中，agent是一种自动优化探针对齐策略的程序，基于DQN模型和RND模型，通过设定一系列的奖励规则对agent进行训练，以实现自动探测晶圆的目的。

如图1所示，本申请实施例提供的一种基于机器学习的探针自动对齐方法，包括：

步骤101，获取用于显示过程的区域图像并进行预处理。

本申请实施例中，通过显微摄像设备获取显示过程的区域图像，当探针出现在所获取的区域图像中时，即为本申请实施例中所要获取的区域图像，如图2所示，其中对应的图像即为本申请实施例中在/>时刻获取的区域图像，从图中可以看出，区域1为探针标准区域，区域2为需要进行移动的区域，具体是将区域2中两个点的中心位置移动至区域1所示的探针标准区域。

需要说明的是，本申请实施例并不对获取区域图像的方法加以限定，通过显微摄像设备获取区域图像的方式并不用于限定本申请实施例的保护范围。

在该实施例中，预处理就是将用于显示过程的区域图像转化为合理的机器学习模型输入，具体的，通过加速算法的计算使算法收敛速度加快，然后减小图像的尺寸，再转换成一个三维张量作为算法的输入，这个三维张量的每个元素表示图像的一个像素分量。

步骤102，构建机器学习模型，机器学习模型包括DQN模型和RND模型，RND模型基于好奇心机制对DQN模型执行补偿机制。

如图3所示，机器学习模型包括DQN模型，在该实施例中，DQN模型的输入为一个表示环境状态的区域图像，然后输出一个包含8个相应动作值的矢量，由agent选择动作值最大的动作。具体的，DQN模型的第一层为卷积层，卷积核大小为7×7，填充为2，步幅为4。第二层为激活函数层，通过ReLU激活函数产生非线性映射。第三层为卷积层，卷积核大小为5×5，填充为1，步幅为2。第四层为激活函数层，通过ReLU激活函数产生非线性映射。第五层、第六层和第七层是全连接层结构，使用两个线性计算和一个ReLU激活函数产生最终输出。

但是，在通过DQN模型进行处理的过程中，可能会出现探针不在观察范围内的情况，出现这种情况的原因是agent在初始状态还没有学会如何实现对齐，因此agent容易做出错误的动作，如果不能解决奖励延迟，即由负反馈转换为正反馈的问题，具体表现为探针与对齐点的距离，agent可能会失去目标，从而长时间停留在该状态，从而对DQN模型产生负面的影响。

因此，需要建立一个模型对上述产生的负面影响进行补偿，本申请实施例建立了一个RND模型，基于好奇心机制对DQN模型执行补偿机制，如图4所示，机器学习模型还包括RND模型，在RND模型中，包括核大小为3的卷积层、核大小为2的最大池化层、自适应平均池化层和线性层。在该实施例中，RND模型的输入为时刻的区域图像和agent的动作指令，其输出是通过RND模型预测得到的/>时刻的区域图像，并根据agent实际运行得到的时刻的区域图像进行比对，通过/>时刻的区域图像与/>时刻的区域图像的误差判断是否需要对agent实际运行得到的/>时刻的区域图像进行好奇心机制补偿。

在该实施例中，agent的动作指令在连续的模拟环境状态中可用的动作数量是有限的，如图5所示的实施例中，agent共有8个动作，包括上、下、右、左、左上、右上、左下、右下。

步骤103，将预处理后的数据输入机器学习模型进行训练，得到训练后的机器学习模型。

本申请实施例中，基于强化学习对DQN模型进行迭代训练，由于强化学习是将每次采样的图像作为样本，所以训练过程是通过每次移动探针获取到的新的图像，并根据每一步的动作指令与预设目标之间的关系进行学习训练。具体的，当两轮训练结果得到的奖励累加值在预设的阈值范围内，即认为本申请实施例中的机器学习模型训练完成。

需要说明的是，本申请并不对机器学习的具体方法进行限定，凡是能够通过机器学习实现本申请实施例中的训练结果的方法均在本申请实施例的保护范围之内。

在该实施例中，设定了一系列的奖励规则来对agent的学习进行反馈，奖励是在agent做出移动后给予的，奖励包括直接奖励和内在奖励，具体规则如下所示：

1、如果agent实现了对齐，给予agent巨大的奖励，本实施例中的巨大奖励为500；

2、将显示过程的区域图像分为九个子区域，在agent做出移动后，如果子区域内的填充点靠近子区域内的目标点，则给予agent少量奖励，否则给予agent少量惩罚；当时给予agent奖励，当/>时给予agent惩罚，其中，/>表示t时刻探针和标准点的距离；/>表示/>时刻探针和标准点的距离；

3、在agent完成一次移动后，计算两个目标之间的距离，用距离乘以- 1 作为直接奖励；

4、通过RND模型的两个输出的误差作为内在奖励。

所有规则同时应用，根据不同规则的奖励加在一起，一旦代理做出一个行动，它就会收到这些奖励。

需要说明的是，上述奖励规则并不用于限定本申请的保护范围。

如图6所示，其中表示/>时刻采集到的探针所在区域图像，/>表示在/>时刻采集到的探针所在区域图像，/>表示agent在/>时刻选择的动作，在获取到显示过程的区域图像并转化为三维张量后，分别输入到RND模型和DQN模型中，DQN模型接收三维张量输入后，输出得到agent选择的动作，并作用于环境状态当中，输出得到下一时刻的区域图像。

RND模型接收三维张量输入后，通过内在奖励并基于奖励规则，激励agent在环境中主动探索，避免产生奖励延迟导致agent失去目标，长时间停留在无法得到奖励反馈的状态中。

在本申请实施例中，如果200步内对齐还没有完成或agent已经实现对齐，agent会被要求停止运动，模拟环境返回到初始状态。

为了便于训练算法，初始状态设置为固定状态。本申请实施例设置了两个度量标准，第一个标准是记录agent在一个事件中获得的总奖励（事件是指从环境的初始状态到结束状态的阶段）。第二个是agent在一集中所用的步数。

如图7和图8所示，在该实施例中，培训了600集的代理，每一集代理人会进行200步的操作，并记录了代理人的表现。当总奖励大于2万，即表示agent在一个章节中实现了对齐，每一个章节表示600集。从图7中可以看出，agent在早期阶段获得的总奖励非常低，然后在中间部分阶段获得的总奖励较高，但表现不稳定，总奖励大于2万，并在最后70个阶段收敛，这意味着agent最终能够完成对齐。实现从初始状态对齐需要手动移动约30步。

从图8中可以看出，在过去的70个章节中，agent能够在200步内完成任务，甚至最小的步数是29步。

以上两项结果都证明了agent能够在仿真环境中自动探测晶圆。算法的参数存储在二进制文件中，使用前几集的算法参数在相同的条件下进行测试。如图9所示，在5个章节中，agent平均采取的步骤是79步。

每个章节花费的时间随着训练的进行而减少，如下表所示：

步骤104，通过训练后的机器学习模型进行探针的自动对齐。

本申请实施例，在实际运行时，通过自动化设备会反馈出探针与标准位的距离值，当距离值在预设阈值范围之内即认为实现了探针的自动对齐。

作为上述基于机器学习的探针自动对齐方法的具体实现，本申请实施例提供了一种基于机器学习的探针自动对齐装置。如图10所示，该探针自动对齐装置包括：图像获取模块201、预处理模块202、模型构建模块203、模型训练模块204以及自动对齐模块205。其中，图像获取模块201，用于获取用于显示过程的区域图像；预处理模块202，用于对所述区域图像进行预处理，将区域图像转换为三维张量；模型构建模块203，用于构建机器学习模型，所述模型包括DQN模型和RND模型；模型训练模块204，用于训练机器学习模型，直至满足输出需求；自动对齐模块205，用于将预处理模块输出的三维张量输入至训练好的机器学习模型中，实现探针的自动对齐操作。

本申请实施例还提供一种计算机设备，如图11所示，该计算机设备包括处理器301和存储器302，存储器302上存储有可在处理器301上运行的程序或指令，该程序或指令被处理器301执行时实现上述探针自动对齐方法的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的计算机设备包括上述的移动计算机设备和非移动计算机设备。

存储器302可用于存储软件程序以及各种数据。存储器302可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器302可以包括易失性存储器或非易失性存储器，或者，存储器302可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器302包括但不限于这些和任意其它适合类型的存储器。

处理器301可包括一个或多个处理单元；可选的，处理器301集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述探针自动对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本申请实施例还提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述探针自动对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述探针自动对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的探针自动对齐方法，其特征在于，所述方法包括如下步骤：

步骤1，获取用于显示过程的区域图像并进行预处理；

步骤2，构建机器学习模型，所述机器学习模型包括DQN模型和RND模型，所述RND模型基于好奇心机制对所述DQN模型执行补偿机制；

2.如权利要求1所述的探针自动对齐方法，其特征在于，所述步骤1中，通过加速算法加快算法的收敛速度，将区域图像转换为三维张量。

3.如权利要求1所述的探针自动对齐方法，其特征在于，所述步骤2中，DQN模型包括依次连接的第一卷积层、第一激活函数层、第二卷积层、第二激活函数层和三层全连接层结构。

4.如权利要求3所述的探针自动对齐方法，其特征在于，所述第一卷积层的卷积核大小为7×7，填充为2，步幅为4；第一激活函数层通过ReLU激活函数产生非线性映射；所述第二卷积层的卷积核大小为5×5，填充为1，步幅为2；第二激活函数层通过ReLU激活函数产生非线性映射；所述三层全连接层结构包括第五层线性层、第六层线性层和第七层ReLU激活函数层，通过线性计算和ReLU激活函数得到输出结果。

5.如权利要求1所述的探针自动对齐方法，其特征在于，所述步骤2中，RND模型包括依次连接的卷积层、最大池化层、自适应平均池化层和线性层。

6.如权利要求5所述的探针自动对齐方法，其特征在于，所述卷积层的卷积核大小为3×3，最大池化层的卷积核大小为2×2。

7.如权利要求1所述的探针自动对齐方法，其特征在于，所述步骤3中，训练内容包括：

设定探针的初始状态为固定状态；

8.一种基于机器学习的探针自动对齐装置，其特征在于，所述装置包括：

图像获取模块，用于获取用于显示过程的区域图像；

预处理模块，用于对所述区域图像进行预处理，将区域图像转换为三维张量；

模型构建模块，用于构建机器学习模型，所述模型包括DQN模型和RND模型，所述RND模型基于好奇心机制对所述DQN模型执行补偿机制；

9.一种基于机器学习的探针自动对齐系统，所述系统包括处理器和存储器，所述存储器中存储有计算机程序，其特征在于，所述计算机程序由所述处理器加载并执行，以实现如权利要求1至7任一项所述的基于机器学习的探针自动对齐方法。

10.一种计算机可读存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，用于实现如权利要求1至7任一项所述的基于机器学习的探针自动对齐方法。