CN117253238B

CN117253238B - 训练样本的确定、神经网络训练、版图优化方法及装置

Info

Publication number: CN117253238B
Application number: CN202311536055.XA
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Advanced Manufacturing EDA Co Ltd
Current assignee: Advanced Manufacturing EDA Co Ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-04-02
Anticipated expiration: 2043-11-15
Also published as: CN117253238A

Abstract

一种训练样本的确定、神经网络训练、版图优化方法及装置，所述方法包括：确定基于CMP工艺得到的初始厚度图的疑似热点；选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后确定被更新的位置点的奖惩值；记录样本集。

Description

训练样本的确定、神经网络训练、版图优化方法及装置

技术领域

本发明涉及半导体制造技术领域，尤其涉及一种训练样本的确定、神经网络训练、版图优化方法及装置。

背景技术

化学机械研磨（chemical mechanical polishing，CMP）仿真作为实现集成电路芯片表面全局平坦化的关键技术和支持可制造性设计流程优化的核心技术，在整个集成电路芯片设计和制造中具有重要作用。

具体而言，CMP仿真可以通过对设计版图进行CMP模拟，得到不同区域的厚度分布，进而确定是否存在热点（hotspot）问题，从而可以基于该结果对后续冗余（dummy）图案填充进行指导来优化CMP工艺制程的平坦性，更可以用于后续可制造性设计分析，以及完成CMP工艺制程对芯片性能影响程度的评判。

在现有技术中，往往是人工制定一些基本规则（rule）对热点进行判断以及确定冗余图案的填充方式，通用性较差且准确性较低。

在一种改进方法中，尝试采用机器学习的方法进行学习和改进，然而由于目前能够采集到的样本通常是人工判断的结果，不具备规律性，导致学习效果受限，准确性得不到提升。

亟需一种方法，可以对用于机器学习的训练样本进行改进，使其具备及时、可靠的反馈结果，有助于提高后续机器学习的准确性。

发明内容

本发明解决的技术问题是提供一种训练样本的确定、神经网络训练、版图优化方法及装置，可以对用于机器学习的训练样本进行改进，使其具备及时、可靠的反馈结果，有助于提高后续机器学习的准确性。

为解决上述技术问题，本发明实施例提供一种训练样本的确定方法，包括：确定基于CMP工艺得到的初始厚度图的疑似热点；选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；记录样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值。

可选的，所述确定后一位置点与前一位置点的差异张量，包括：对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量。

可选的，对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量，包括：采用预设步长，生成在预设的取值范围内逐次增大的探索率，其中，每当所述探索率增大至所述取值范围的上限值时，重置为所述取值范围的下限值；每当需要生成所述差异张量时，在所述下限值与所述上限值形成的数值范围内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。

可选的，所述张量包含一个或多个张量参数的参数值；比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值，包括：确定所述初始厚度图包含被更新的位置点的预设范围内的厚度值标准差与所述预测厚度图包含被更新的位置点的预设范围内的厚度值标准差的差值，记为第一差值；依次确定所述初始厚度图包含被更新的位置点的预设范围内的每个张量参数的标准差与所述预测厚度图的包含被更新的位置点的预设范围内的每个张量参数的标准差的差值，并进行加权运算，将加权运算结果记为第二差值；采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值。

可选的，所述张量包含两个张量参数；采用下述公式，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值：

Reward = A×(T1- T2)/[B×(D1 - D2)+ C×(W1 -W2)]；

其中，Reward用于表示被更新的位置点的奖惩值，T1用于表示初始厚度图包含被更新的位置点的预设范围内的厚度值标准差，T2用于表示预测厚度图包含被更新的位置点的预设范围内的厚度值标准差，D1用于表示初始厚度图包含被更新的位置点的预设范围内的第一张量参数值标准差，D2用于表示预测厚度图包含被更新的位置点的预设范围内的第一张量参数值标准差，W1用于表示初始厚度图包含被更新的位置点的预设范围内的第二张量参数值标准差，W2用于表示预测厚度图包含被更新的位置点的预设范围内的第二张量参数值标准差，A、B、C用于表示预设的调整因子，且为正有理数。

可选的，所述第一张量参数为当前位置点的所属图形的密度值，所述第二张量参数为当前位置点的所属图形的宽度值；其中，A、B、C的值相等。

可选的，根据所述初始厚度图确定疑似热点，包括：确定所述初始厚度图中包含每个位置点的预设范围内的各个位置点的平均厚度值，记为该位置点的环境厚度；分别确定各个位置点与其环境厚度的差值绝对值，并将所述差值绝对值大于预设差值的位置点作为所述疑似热点。

为解决上述技术问题，本发明实施例提供一种神经网络训练方法，包括：基于上述的训练样本的确定方法，记录所述样本集；持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络。

可选的，持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，包括：对所述样本集中的样本的数量进行持续性计数；每当样本数量达到N的整数倍时，如果还未能在预设的迭代次数内收敛，则在所有样本中抽T个，对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数，其中，T、N为正整数，1＜T≤N，T与N具有预设的比值；如果收敛，则将训练后的神经网络作为更新后的神经网络；如果达到预设的迭代次数后仍未收敛，则等待样本数量达到N的下一个整数倍时，在所有样本中抽T个，对神经网络再次进行梯度下降训练。

可选的，所述神经网络为基于强化学习的神经网络，所述损失函数表示如下：

；

其中，J(π_θ)用于表示损失函数，τ用于表示各个位置点的张量调整轨迹中的各次调整的奖惩值，θ用于表示待优化的强化学习策略参数，π_θ用于表示基于参数θ的强化学习策略，P(τ/π_θ)用于表示在奖惩值τ下得到强化学习策略π_θ的概率，R(τ)用于表示单个位置点的张量调整轨迹中历次奖惩值之和，E用于表示期望值，r_t用于表示单个位置点的张量调整轨迹中的第t次奖惩值，T用于表示各个位置点的张量调整轨迹中的样本的数量；其中，所述对神经网络进行梯度下降训练，包括：确定所述损失函数的梯度值；采用梯度下降算法，确定最优的强化学习策略参数θ，以使得训练后的神经网络得到的强化学习策略π_θ能够最大化所述期望值E。

可选的，所述预设范围为围绕当前的中心点的呈矩阵阵列排布的2N×2N个位置点。

为解决上述技术问题，本发明实施例提供一种版图优化方法，包括：基于上述的神经网络训练方法，训练得到更新后的神经网络；基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化。

可选的，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新中的每轮更新包括：遍历最近更新的疑似热点，采用最近更新的神经网络确定包含每个最近更新的疑似热点的预设范围内的各个位置点的差异张量，并采用所述差异张量对包含所述疑似热点的预设范围内的各个位置点进行调整，以得到调整后的各个位置点的张量；确定更新后的疑似热点的数量，如果更新后的疑似热点的数量与所有位置点的数量占比大于所述预设比例，且未达到预设更新轮数，则采用调整后的各个位置点的张量以及疑似热点，以作为下一轮更新的疑似热点。

为解决上述技术问题，本发明实施例提供一种训练样本的确定装置，包括：仿真模块，用于确定基于CMP工艺得到的初始厚度图的疑似热点；差异张量与奖惩值确定模块，用于选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；样本集确定模块，确定样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值。

为解决上述技术问题，本发明实施例提供一种神经网络训练装置，包括：训练模块，用于持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络；其中，所述样本集是采用上述的训练样本的确定装置记录的。

为解决上述技术问题，本发明实施例提供一种版图优化装置，包括：更新模块，用于基于更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化；其中，更新后的神经网络是采用上述的神经网络训练装置训练得到的。

为解决上述技术问题，本发明实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述的训练样本的确定方法的步骤，或者执行上述的神经网络训练方法的步骤，或者执行上述的版图优化方法的步骤。

为解决上述技术问题，本发明实施例提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的训练样本的确定方法的步骤，或者执行上述的神经网络训练方法的步骤，或者执行上述的版图优化方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，根据所述初始厚度图确定至少一个疑似热点后，自首个位置点起，依次确定后一位置点与前一位置点的差异张量，并更新包含后一位置点的预设范围内的张量，并在每次更新张量时，均确定被更新的位置点的奖惩值，并将奖惩值和张量信息共同记录为样本，从而可以及时、准确地记录每个后一位置点更新带来的优劣效果，对各个样本的调整结果进行可靠的量化，有效提高样本的效用和规律性，有助于在后续机器学习阶段，提升学习效果和准确性。

进一步，对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量，可以结合多种方式生成差异张量，使得用于训练的样本具备更多变化和可能性，进一步提高训练样本的质量。

进一步，采用预设步长，生成在预设的取值范围内逐次增大的探索率，其中，每当所述探索率增大至所述取值范围的上限值时，重置为所述取值范围的下限值；每当需要生成所述差异张量时，在所述下限值与所述上限值形成的数值范围内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。采用上述方案，通过采用逐次增大、可重置的探索率，并基于每次生成的随机数与探索率的大小比较结果，选择不同的方式生成差异张量，可以有效实现扩宽差异张量生成的可变性，使得用于训练的样本具备更多变化和可能性。

进一步，确定第一差值和第二差值，并采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值，由于第一差值用于指示厚度值的标准差的变化，第二差值用于指示一个或多个张量参数的标准差的变化的加权运算结果，因此计算得到的奖惩值能够用于指示每个后一位置点更新一个或多个张量参数后对厚度值产生的优劣影响，从而可以对各个样本的调整结果进行可靠的量化，及时、准确地记录每个后一位置点更新带来的优劣效果。

进一步，通过设置所述第一张量参数为当前位置点的所属图形的密度值，所述第二张量参数为当前位置点的所属图形的宽度值；其中，A、B、C的值相等，可以在选用密度和宽度作为张量参数的情况下，利用密度值和宽度值的数量级较近等特点，通过设置A、B、C的值相等可在运算中抵消，有效降低运算复杂度。

进一步，确定所述初始厚度图中包含每个位置点的预设范围内的各个位置点的平均厚度值，记为该位置点的环境厚度；分别确定各个位置点与其环境厚度的差值绝对值，并将所述差值绝对值大于预设差值的位置点作为所述疑似热点，从而可以更加客观、准确地确定各个疑似热点。

进一步，通过对所述记录样本集中的样本的数量进行持续性计数；每当样本数量达到N的整数倍时，如果还未能在预设的迭代次数内收敛，则在所有样本中抽T个，对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数；如果收敛，则将训练后的神经网络作为更新后的神经网络；如果达到预设的迭代次数后仍未收敛，则等待样本数量达到N的下一个整数倍时，在所有样本中抽T个，对神经网络再次进行梯度下降训练。采用上述方法，可以在样本规律性提高的基础上，进一步提高样本选择时机的规律性，并且通过当达到N的整数倍时在所有样本中抽取，还可以降低样本集中性异常带来的影响，提高收敛的可能性和神经网络训练效率。

进一步，通过采用单个位置点的张量调整轨迹中历次奖惩值之和，以及在奖惩值τ下得到强化学习策略/>的概率，构建损失函数，并确定所述损失函数的梯度值；采用梯度下降算法，确定最优的强化学习策略参数θ，以使得训练后的神经网络得到的强化学习策略/>能够最大化所述期望值E，从而可以在收敛时，得到最优的强化学习策略参数θ及其训练后的神经网络，提高神经网络训练的有效性和准确性。

进一步，在样本数量达到N的整数倍时在所有样本中抽T个进行梯度下降训练的基础上，所述预设范围为围绕当前的中心点的呈矩阵阵列排布的2N×2N个位置点，从而可以提高用于张量调整的预设范围与用于选择样本的基础样本数量之间的关联性，在预设范围较大时，在较多样本数量中选用适当样本进行训练，进一步提高张量调整的适当性。

进一步，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化，从而可以通过判断更新后的疑似热点的数量占比，确定用于优化的张量，例如根据包含各个位置点的预设范围内的各个位置点的张量（如密度、宽度等参数），采用适当的优化方法对版图数据进行调整，以使得优化后的版图数据满足该张量（如密度、宽度等），从而在本发明实施例的方案采用了更加具有规律性的样本、更加具有准确性的神经网络的基础上，提高张量确定的准确性，也即增强版图数据的优化效果。

附图说明

图1是本发明实施例中一种训练样本的确定方法的流程示意图；

图2是本发明实施例中另一种训练样本的确定方法的流程示意图；

图3是本发明实施例中一种神经网络训练方法的流程示意图；

图4是本发明实施例中一种版图优化方法的流程示意图；

图5是本发明实施例中另一种神经网络训练及版图优化方法的流程示意图；

图6是本发明实施例中一种训练样本的确定装置的结构示意图；

图7是本发明实施例中一种神经网络训练装置的结构示意图；

图8是本发明实施例中一种版图优化装置的结构示意图。

具体实施方式

如前所述，CMP仿真可以通过对设计版图进行CMP模拟，得到不同区域的厚度分布，进而确定是否存在热点问题，从而可以基于该结果对后续冗余图案填充进行指导来优化CMP工艺制程的平坦性，更可以用于后续可制造性设计分析，以及完成CMP工艺制程对芯片性能影响程度的评判。

在现有技术中，往往是人工制定一些基本规则对热点进行判断以及确定冗余图案的填充方式，通用性较差且准确性较低。

经过研究发现，在一种改进方法中，尝试采用输入大量样本，通过机器学习的方法进行学习和改进，然而目前能够采集到的样本通常是人工判断的结果，例如人工判断并输入的热点以及人工评估后的输入的待调整厚度等，各个样本之间不具备规律性，导致机器学习效果受限，准确性得不到提升。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

参照图1，图1是本发明实施例中一种训练样本的确定方法的流程示意图。所述训练样本的确定方法可以包括步骤S11至步骤S13：

步骤S11：确定基于CMP工艺得到的初始厚度图的疑似热点；

步骤S12：选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；

步骤S13：记录样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值。

在步骤S11的具体实施中，确定基于CMP工艺得到的初始厚度图的疑似热点的步骤可以是采用CMP仿真模型对版图数据进行仿真，以得到CMP工艺后的初始厚度图，并根据所述初始厚度图确定至少一个疑似热点。

具体地，可以采用已有的CMP仿真模型，通过对版图数据进行仿真，可以得到各个位置点（例如以坐标(x,y)表示）的仿真厚度值，从而可以获取形貌（topography）的信息，得到初始厚度图，然后可以根据所述初始厚度图确定至少一个疑似热点。

其中，热点（hotspot）可以用于表示厚度异常的情况，如厚度值差异过大。

需要指出的是，在本发明实施例中，还可以基于对实际执行CMP工艺后得到晶圆进行测量并得到的厚度图作为初始厚度图。

可以理解的是，由于实际生产后测量得到的数据往往具有较大误差，且具有测量数量的限制，采用CMP仿真模型对版图数据进行仿真得到的初始厚度图可以具有更高的准确性和更多的可分析数据量。

进一步地，根据所述初始厚度图确定至少一个疑似热点的步骤可以包括：确定所述初始厚度图中包含每个位置点的预设范围内的各个位置点的平均厚度值，记为该位置点的环境厚度；分别确定各个位置点与其环境厚度的差值绝对值，并将所述差值绝对值大于预设差值的位置点作为所述疑似热点。

其中，预设范围可以是基于用户需求设置的。

在一个具体实施例中，可以采用检测半径（detect radius）表示预设范围，例如矩形范围可以采用2N×2N表示，N用于表示检测半径。

检测范围越大，可以表示判定越严格。具体而言，通常距离相近的两个点，参数值往往也较为接近，被判断为热点的可能性下降，因此检测半径越大，预设范围越大，越容易被判定为热点，也即对热点的检测越全面，不易漏失。

可以理解的是，检测半径越大，计算时间也会更长，因此需要在提高检测全面性与提高检测效率之间达到平衡。

其中，预设差值也可以是基于用户需求设置的。

可以理解的是，如果M设置过大，则不容易被判定为热点，即容易发生漏失；如果M设置过小，则非常容易被判定为热点，导致对版图数据的优化负担增加，降低优化效率。因此也需要在提高检测全面性与提高优化效率之间达到平衡。

在本发明实施例中，通过确定所述初始厚度图中包含每个位置点的预设范围内的各个位置点的平均厚度值，记为该位置点的环境厚度；分别确定各个位置点与其环境厚度的差值绝对值，并将所述差值绝对值大于预设差值的位置点作为所述疑似热点，从而可以更加客观、准确地确定各个疑似热点。

需要指出的是，还可以采用其他的适当方法确定疑似热点。

例如，计算包含每个位置点的预设范围内的厚度标准差，如果该位置点的厚度标准差与预设的厚度标准差的商值超出预设范围，则确定为疑似热点。

在步骤S12的具体实施中，可以在之前确定的疑似热点中随机选择一个作为首个位置点，还可以选择首个被确定的疑似热点作为首个位置点。

其中，每个位置点的张量用于表示包含该位置点的预设范围内各个位置点上的预设参数的参数值。

进一步地，对于本发明实施例中提及的任意一个位置点，包含某一位置点的预设范围可以用于表示以该位置点为中心的预设范围，从而可以增强该位置点对于对应的预设范围内包含的所有位置点的影响力。

需要指出的是，包含某一位置点的预设范围还可以不限于以该位置点为中心，例如可以是以所述预设范围为外围，该位置点位于所述预设范围内的某一预设位置的情况。

进一步地，张量参数可以为多个，用于描述CMP的特征。

在一种具体实施方式中，第一张量参数为当前位置点的所属图形的密度值，第二张量参数为当前位置点的所属图形的宽度值。

需要指出的是，还可以根据具体情况，设置更多张量参数，此处不再赘述。

其中，遍历位置点的顺序可以不作限制，例如可以随机跳点，还可以依照位置顺序遍历。

需要指出的是，前一位置点和后一位置点用于表示遍历顺序，在时间上具有相邻关系，在位置上可以不相邻。

其中，所述差异张量可以用于表示包含后一位置点的预设范围内的各个位置点的待调整差异值。

进一步地，所述确定后一位置点与前一位置点的差异张量的步骤可以包括：对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量。

其中，在初次使用时，可以选择一个适当的初始化的神经网络，并在后续进行训练，例如初始化一个自定义结构的（具体结构可以进行更改和自定义，但确保神经网络的输入输出是固定的数据公式）。

以上述包含2个张量参数为例进行说明，神经网络的输入可以是一个形状为2N×2N×2的两维张量，输出是一个2N×2N×2的两维张量，矩阵中的每一个值代表这个位置的某一特征变量该如何调整变动，假设这个输出两维张量在位置(x,y,0)上的值为z，代表在第x行第y列的第一张量参数值的变动为z（可以是正数，可以是负数，可以是0）。可以理解的是，如果是包含3个张量参数，则可以输入输出2N×2N×3的三维张量。

在本发明实施例中，对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量，可以结合多种方式生成差异张量，使得用于训练的样本具备更多变化和可能性，进一步提高训练样本的质量。

更进一步地，对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量的步骤可以包括：采用预设步长，生成在预设的取值范围内逐次增大的探索率，其中，每当所述探索率增大至所述取值范围的上限值时，重置为所述取值范围的下限值；每当需要生成所述差异张量时，在所述下限值与所述上限值形成的数值范围内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。

在具体实施中，探索率可以采用e表示，所述取值范围的上限值可以采用e_H表示，所述取值范围的下限值可以采用e_L表示，则所述下限值与所述上限值形成的数值范围可以表示为[e_L,e_H]。

更进一步地，可以设置[e_L,e_H]为[0,1]，从而使得探索率e满足0≤e≤1，依照预设步长从0逐次增大至1，每次生成的随机数α也满足0≤α≤1。

可以理解的是，在每轮的前段，探索率e较小时，更容易出现α＞e，在每轮的后段，探索率e较大时，更容易出现α＜e。

在本发明实施例中，采用预设步长，生成在预设的取值范围内逐次增大的探索率e，其中，每当所述探索率e增大至所述取值范围的上限值e_H时，重置为所述取值范围的下限值e_L；每当需要生成所述差异张量时，在[e_L,e_H]内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。采用上述方案，通过采用逐次增大、可重置的探索率e，并基于每次生成的随机数与探索率的大小比较结果，选择不同的方式生成差异张量，可以有效实现扩宽差异张量生成的可变性，使得用于训练的样本具备更多变化和可能性。

每当确定后一位置点与前一位置点的差异张量后，都可以对包含后一位置点的预设范围内的张量进行更新，并基于更新的这一个后一位置点，仿真生成预设范围内的预测厚度图，然后确定奖惩值。换言之，每个位置点的更新都会确定对应的预测厚度图、奖惩值、样本。

进一步地，所述张量包含一个或多个张量参数的参数值；比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值的步骤可以包括：确定所述初始厚度图包含被更新的位置点的预设范围内的厚度值标准差与所述预测厚度图包含被更新的位置点的预设范围内的厚度值标准差的差值，记为第一差值；依次确定所述初始厚度图包含被更新的位置点的预设范围内的每个张量参数的标准差与所述预测厚度图的包含被更新的位置点的预设范围内的每个张量参数的标准差的差值，并进行加权运算，将加权运算结果记为第二差值；采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值。

在本发明实施例中，通过确定第一差值和第二差值，并采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值，由于第一差值用于指示厚度值的标准差的变化，第二差值用于指示一个或多个张量参数的标准差的变化的加权运算结果，因此计算得到的奖惩值能够用于指示每个后一位置点更新一个或多个张量参数后对厚度值产生的优劣影响，从而可以对各个样本的调整结果进行可靠的量化，及时、准确地记录每个后一位置点更新带来的优劣效果。

更进一步地，以所述张量包含两个张量参数为例，可以采用下述公式，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值：

Reward = A×(T1- T2)/[B×(D1 - D2)+ C×(W1 -W2)]；

可以理解的是，如果所述张量包含三个或三个以上张量参数，则可以适应性增加至上述公式的分母部分。

在本发明实施例的另一种具体实施方式中，可以根据选择的张量参数，对上述公式进行调整。

具体地，所述第一张量参数为当前位置点的所属图形的密度值，所述第二张量参数为当前位置点的所属图形的宽度值；其中，A、B、C的值相等。

在本发明实施例中，通过设置所述第一张量参数为当前位置点的所属图形的密度值，所述第二张量参数为当前位置点的所属图形的宽度值；其中，A、B、C的值相等，可以在选用密度和宽度作为张量参数的情况下，利用密度值和宽度值的数量级较近等特点，通过设置A、B、C的值相等可在运算中抵消，有效降低运算复杂度。

更具体而言，在选用密度和宽度作为张量参数的情况下，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值的步骤可以包括：确定所述初始厚度图包含被更新的位置点的预设范围内的厚度值标准差与所述预测厚度图包含被更新的位置点的预设范围内的厚度值标准差的差值，记为第一差值；依次确定所述初始厚度图包含被更新的位置点的预设范围内的每个张量参数的标准差与所述预测厚度图的包含被更新的位置点的预设范围内的每个张量参数的标准差的差值，并进行求和运算，将和值记为第二差值；采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值。

进一步地，可以采用下述公式，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值：

Reward = (T1- T2)/[(D1’ - D2’)+ (W1’ -W2’)]；

其中，Reward用于表示被更新的位置点的奖惩值，T1用于表示初始厚度图包含被更新的位置点的预设范围内的厚度值标准差，T2用于表示预测厚度图包含被更新的位置点的预设范围内的厚度值标准差，D1’用于表示初始厚度图包含被更新的位置点的预设范围内的密度值标准差，D2’用于表示预测厚度图包含被更新的位置点的预设范围内的密度值标准差，W1’用于表示初始厚度图包含被更新的位置点的预设范围内的宽度值标准差，W2’用于表示预测厚度图包含被更新的位置点的预设范围内的宽度值标准差。

在本发明实施例中，还可以采用其他适当的奖惩值确定方式。

在另一种具体实施方式中，还可以采用下述公式，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值：

Reward = D×1/(T3-T4) + E×1/(D3-D4) + F×1/(W3-W4)；

其中，Reward用于表示被更新的位置点的奖惩值，T3用于表示初始厚度图包含被更新的位置点的预设范围内的厚度值标准差，T4用于表示预测厚度图包含被更新的位置点的预设范围内的厚度值标准差，D3用于表示初始厚度图包含被更新的位置点的预设范围内的第一张量参数值标准差，D4用于表示预测厚度图包含被更新的位置点的预设范围内的第一张量参数值标准差，W3用于表示初始厚度图包含被更新的位置点的预设范围内的第二张量参数值标准差，W4用于表示预测厚度图包含被更新的位置点的预设范围内的第二张量参数值标准差，D、E、F用于表示预设的调整因子，且为正有理数。

可以理解的是，如果所述张量包含三个或三个以上张量参数，则可以适应性增加至上述公式。

在步骤S13中，记录样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值。

参照图2，图2是本发明实施例中另一种训练样本的确定方法的流程示意图。另一种训练样本的确定方法可以包括步骤S201至步骤S213，以下对各个步骤进行说明。

在步骤S201中，确定基于CMP工艺得到的初始厚度图的疑似热点。

具体地，可以采用CMP仿真模型对版图数据进行仿真，以得到CMP工艺后的初始厚度图，并根据所述初始厚度图确定至少一个疑似热点。

在步骤S202中，选择一个疑似点作为首个位置，确定首个张量。

具体地，可以选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量。

在步骤S203中，预设步长逐次增大生成探索率e。

具体地，可以遍历部分或全部位置点，采用预设步长，生成在预设的取值范围内逐次增大的探索率e。其中，每当所述探索率e增大至所述取值范围的上限值e_H时，重置为所述取值范围的下限值e_L。

在步骤S204中，判断在[e_L,e_H]内生成一随机数α，是否满足α＞e，如果判断结果为是，则可以执行步骤S205，如果判断结果为否，可以执行步骤S206。

在步骤S205中，可以随机生成预设范围的差异张量。

在步骤S206中，可以输入神经网络。

需要指出的是，神经网络可以是最近更新的神经网络，例如根据历史经验或其他版图数据进行过训练、更新后的神经网络，从而相比于前文提到的初始化的自定义结构的神经网络，具备更高的准确性。

在步骤S207中，可以输出预设范围的差异张量。

具体而言，可以在每当需要生成所述差异张量时，在[e_L,e_H]内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。

在步骤S208中，可以根据前一位置点的张量和差异张量，得到后一位置点的张量。

具体地，可以针对每个张量参数，采用前一位置点的张量与差异张量的和，作为后一位置点的张量。

在步骤S209中，生成包含后一位置点的预设范围内的预测厚度图。

在具体实施中，在确定包含后一位置点的预设范围内的各个位置点的张量后，可以采用CMP仿真模型，生成预测厚度图。

所述CMP仿真模型例如可以是步骤S201中采用的相同的CMP仿真模型，还可以采用不同的CMP仿真模型。

在步骤S210中，比较包含后一位置点的预设范围内的预测厚度图和初始厚度图的标准差，采用奖惩函数得到奖惩值。

在步骤S211中，记录为<si,a,si+1,r>。

其中，si表示包含前一位置点的预设范围内的张量，a表示包含该后一位置点的预设范围内的差异张量，si+1表示包含该后一位置点的预设范围内的张量，r表示该后一位置点的奖惩值。

有关步骤S201至步骤S211的更多内容，请参照前文以及步骤S11至步骤S13进行执行，此处不再赘述。

在步骤S212中，判断是否遍历所有位置点或样本数量达到N的整数倍，如果判断结果为是，则执行步骤S213，如果判断结果为否，则执行步骤S203。

具体地，如果已经遍历所有位置点，则可以结束采集；如果样本数量达到N的整数倍，则可以进行一次神经网络训练，其中，N为预设的正整数。

在一种具体实施方式中，可以采用N为200的倍数，例如N为200或400，从而可以通过采集适量的样本，对神经网络进行有效训练。

具体地，以N为200为例，可以在样本数量达到200的第一个整数倍（即200）时进行第一次神经网络训练，如果神经网络达到预设的迭代次数后仍未收敛，则可以在样本数量达到200的第二个整数倍（即400）时进行第二次神经网络训练，直至收敛。

在步骤S213中，可以记录为样本集，以在后续步骤中用于神经网络训练。

在本发明实施例中，在每次更新张量时，均确定被更新的位置点的奖惩值，并将奖惩值和张量信息共同记录为样本，从而可以及时、准确地记录每个后一位置点更新带来的优劣效果，对各个样本的调整结果进行可靠的量化，有效提高样本的效用和规律性，有助于在后续机器学习阶段，提升学习效果和准确性。

参照图3，图3是本发明实施例中一种神经网络训练方法的流程示意图。所述神经网络训练方法可以包括步骤S31至S32，以下对各个步骤进行说明。

在步骤S31中，记录样本集。

其中，样本集可以是采用前文以及图1至图2示出的训练样本的确定方法得到的，还可以是根据历史经验数据或其他相近的工艺平台的版图数据获取的。

在步骤S32中，持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络。

在本发明实施例中，通过基于奖惩值确定损失函数，以对神经网络进行训练，可以结合每个后一位置点更新后带来的优劣效果进行训练，有助于提升神经网络训练的效果和准确性。

进一步地，持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练的步骤可以包括：对所述样本集中的样本的数量进行持续性计数；每当样本数量达到N的整数倍时，如果还未能在预设的迭代次数内收敛，则在所有样本中抽T个，对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数，其中，T、N为正整数，1＜T≤N，T与N具有预设的比值；如果收敛，则将训练后的神经网络作为更新后的神经网络；如果达到预设的迭代次数后仍未收敛，则等待样本数量达到N的下一个整数倍时，在所有样本中抽T个，对神经网络再次进行梯度下降训练。

在一种具体实施方式中，可以采用N为200的倍数，例如N为200或400，然后采用小于N的正整数T，抽取样本，对神经网络进行有效训练。

具体地，以N为200，T为60为例，可以在样本数量达到200的第一个整数倍（即200）时，在200个样本抽取60个样本进行第一次神经网络训练，如果神经网络达到预设的迭代次数后仍未收敛，则可以在样本数量达到200的第二个整数倍（即400）时，在400个样本中抽取60个样本进行第二次神经网络训练。依此类推，直至收敛。

在本发明实施例中，采用上述方法，可以在样本规律性提高的基础上，进一步提高样本选择时机的规律性，并且通过当达到N的整数倍时在所有样本中抽取，还可以降低样本集中性异常带来的影响，提高收敛的可能性和神经网络训练效率。

需要指出的是，还可以采用其他适当的方法，基于持续记录的样本集，对神经网络进行训练。

例如，可以采集第一组样本数量N，在第一组N个样本中抽T个对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数，如果收敛，则将训练后的神经网络作为更新后的神经网络，如果达到预设的迭代次数后仍未收敛，则采集第二组样本数量N，在第二组N个样本中抽T个，再次训练。依此类推，直至收敛。

进一步地，所述神经网络为基于强化学习的神经网络，所述损失函数表示如下：

；

需要指出的是，在本发明实施例的损失函数构建中，所述神经网络为基于强化学习的神经网络，需要强调与奖励值(reward)的关系，以确定深度强化学习神经网络的损失函数。

在一种具体实施方式中，可以首先结合CMP仿真结果以及疑似热点确定轨迹。具体而言，轨迹是对某一个点采取的一系列行为的集合，以一在若干次的迭代中被遍历了10次的疑似热点为例，也就是被调整了10次，假设最开始的状态为S0，第一次调整，就是得到行为a1，得到新的状态S1，依次下去，最后的状态为S10，中间产生的一系列行为为a1,a2,a3,…a10，所以轨迹可视为[a1,a2,…a10]。

然后可以结合张量以及差异张量确定策略。具体而言，策略可以用符号Π表示，作为本次要训练得到的深度学习神经网络，它接收一个状态（state）作为输入，输出一个行为（action）。

具体而言，在可以接收前一位置点的张量作为状态（state）输入，差异张量作为行为（action）输出。

在单个位置点的张量调整轨迹中，有限时间步下，一条轨迹的奖励可以采用该轨迹上每一步的奖励的求和结果表示。

；

在多次遍历多次探索中，会产生许多条张量调整轨迹，进而通过强化学习训练神经网络使得奖励的期望最大。

经过研究发现，在一条张量调整轨迹中，在奖惩值τ下得到强化学习策略π_θ的概率可以采用以下函数表示：

；

其中，P(τ/π)用于表示在当前的神经网络下，出现轨迹t的概率，s用于表示状态，a用于表示行为, Π(a/t)表示给定当前神经网络一个状态s，预测出a的概率。

用于表示初始状态s₀出现的概率，/>用于表示状态转移的概率，/>用于表示策略，即在状态s_t下采取行为a_t的概率。

接下来确定目标期望值，即为最大化期望奖励：

；

强化学习的目标是确定强化学习策略能够最大化所述期望值，使得目标函数最大：

；

目标函数的自变量为π，在采用强化学习策略参数θ表示策略时，上述目标函数公式可变为：

；

在此目标函数的基础场，求出梯度值g，用梯度下降算法，找到最优的参数θ，完成神经网络的训练。

这一过程的示意性数学描述可以如下：

；

其中，η是学习率，可以是通过人工预先设定的。

需要指出的是，学习率η设置越小，训练耗时越久，然而更容易找到全局最优解；学习率η设置越大，训练越快，然而可能会陷入局部最优，找到的参数组合可能并非最佳组合，而是次优组合。可以根据具体情况进行设置，例如选自0.01-0.1。

需要指出的是，在本发明实施例中，损失函数不限于上述公式，例如另一种损失函数还可以表示如下：

；

在本发明实施例中，通过采用单个位置点的张量调整轨迹中历次奖惩值之和R(τ)，以及在奖惩值τ下得到强化学习策略π_θ的概率，构建损失函数，并确定所述损失函数的梯度值；采用梯度下降算法，确定最优的强化学习策略参数θ，以使得训练后的神经网络得到的强化学习策略π_θ能够最大化所述期望值E，从而可以在收敛时，得到最优的强化学习策略参数θ及其训练后的神经网络，提高神经网络训练的有效性和准确性。

进一步的，所述预设范围可以为围绕当前的中心点的呈矩阵阵列排布的2N×2N个位置点。

在本发明实施例中，在样本数量达到N的整数倍时在所有样本中抽T个进行梯度下降训练的基础上，所述预设范围为围绕当前的中心点的呈矩阵阵列排布的2N×2N个位置点，从而可以提高用于张量调整的预设范围与用于选择样本的基础样本数量之间的关联性，在预设范围较大时，在较多样本数量中选用适当样本进行训练，进一步提高张量调整的适当性。

参照图4，图4是本发明实施例中一种版图优化方法的流程示意图。所述版图优化方法可以包括步骤S41和步骤S42，以下对各个步骤进行说明。

在步骤S41中，训练得到更新后的神经网络。

其中，神经网络可以是采用前文以及图3示出的训练样本的确定方法得到的，还可以是根据历史经验数据或其他相近的工艺平台的数据获取的。

在步骤S42中，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化。

在本发明实施例中，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化，从而可以通过判断更新后的疑似热点的数量占比，确定用于优化的张量，例如根据包含各个位置点的预设范围内的各个位置点的张量（如密度、宽度等参数），采用适当的优化方法对版图数据进行调整，以使得优化后的版图数据满足该张量（如密度、宽度等），从而在本发明实施例的方案采用了更加具有规律性的样本、更加具有准确性的神经网络的基础上，提高张量确定的准确性，也即增强版图数据的优化效果。

更进一步地，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新中的每轮更新的步骤可以包括：遍历最近更新的疑似热点，采用最近更新的神经网络确定包含每个最近更新的疑似热点的预设范围内的各个位置点的差异张量，并采用所述差异张量对包含所述疑似热点的预设范围内的各个位置点进行调整，以得到调整后的各个位置点的张量；确定更新后的疑似热点的数量，如果更新后的疑似热点的数量与所有位置点的数量占比大于所述预设比例，且未达到预设更新轮数，则采用调整后的各个位置点的张量以及疑似热点，以作为下一轮更新的疑似热点。

需要指出的是，根据差异张量调整各个位置点的张量后，是可以通过仿真确定各个位置点的仿真厚度，进而确定疑似热点的数量的，也就可以基于更新后的疑似热点的数量与所有位置点的数量进行比较。

在更新后的疑似热点数量收敛，例如更新后的疑似热点的数量与所有位置点的数量占比小于等于所述预设比例的情况下，可以判断为能够结束更新，对版图数据进行优化，否则，在更新后的疑似热点的数量与所有位置点的数量占比大于所述预设比例，且未达到预设更新轮数的情况下，仍然可以进行下一轮更新。

在本发明实施例中，通过采用更新后的疑似热点的数量与所有位置点的数量占比这一参数进行判断，可以更准确性的判断需要更新的轮数以及结束更新的条件，从而为后续版图数据进行优化提供更佳基础。

需要指出的是，还可以采用其他方式对所述疑似热点进行一轮或多轮更新，例如直接设置预设的更新轮数，并在达到更新轮数时结束更新，从而在已训练好的神经网络的基础上，提高更新的效率。

参照图5，图5是本发明实施例中另一种神经网络训练及版图优化方法的流程示意图。所述另一种神经网络训练及版图优化方法可以包括步骤S501至步骤S508，以下对各个步骤进行说明。

在步骤S501中，对样本集中的样本的数量进行持续性计数。

在步骤S502中，每当样本数量达到N的整数倍时，如果还未能在预设的迭代次数内收敛，则在所有样本中抽T个，对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数。

在步骤S503中，响应于收敛，得到训练后的神经网络，作为最近更新的神经网络。

在步骤S504中，遍历最近更新的疑似热点，采用最近更新的神经网络确定包含每个最近更新的疑似热点的预设范围内的各个位置点的差异张量。

在步骤S505中，采用所述差异张量对包含所述疑似热点的预设范围内的各个位置点进行调整，以得到调整后的各个位置点的张量。

在步骤S506中，判断疑似热点数量占比是否小于等于预设阈值或达到预设更新轮数，如果判断结果为是，则执行步骤S508，如果判断结果为否，则执行步骤S507。

在步骤S507中，采用调整后的各个位置点的张量以及疑似热点作为下一轮更新的疑似热点。

在步骤S508中，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化。

在具体实施中，有关步骤S501至步骤S508的更多内容，请参照前文以及图3至图4的说明执行，此处不再赘述。

参照图6，图6是本发明实施例中一种训练样本的确定装置的结构示意图。所述训练样本的确定装置可以包括：

仿真模块61，用于确定基于CMP工艺得到的初始厚度图的疑似热点；

差异张量与奖惩值确定模块62，用于选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；

样本集确定模块63，确定样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值。

关于该训练样本的确定装置的原理、具体实现和有益效果请参照前文所述的关于训练样本的确定方法的相关描述，此处不再赘述。

参照图7，图7是本发明实施例中一种神经网络训练装置的结构示意图。所述神经网络训练装置可以包括：

训练模块71，用于持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络。

其中，所述样本集可以是采用如前文及图6所述的训练样本的确定装置记录的。

关于该神经网络训练装置的原理、具体实现和有益效果请参照前文所述的关于神经网络训练方法的相关描述，此处不再赘述。

参照图8，图8是本发明实施例中一种版图优化装置的结构示意图。所述版图优化装置可以包括：

更新模块81，用于基于更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对所述版图数据进行优化；

其中，更新后的神经网络可以是采用如前文及图7所述的神经网络训练装置训练得到的。

关于该版图优化装置的原理、具体实现和有益效果请参照前文所述的关于版图优化方法的相关描述，此处不再赘述。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。所述可读存储介质可以是计算机可读存储介质，例如可以包括非挥发性存储器（non-volatile）或者非瞬态（non-transitory）存储器，还可以包括光盘、机械硬盘、固态硬盘等。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述方法的步骤。所述终端包括但不限于服务器、手机、计算机、平板电脑等终端设备。

具体地，在本发明实施例中，所述处理器可以为中央处理单元（centralprocessing unit，简称CPU），该处理器还可以是其他通用处理器、数字信号处理器（digital signal processor，简称DSP）、专用集成电路（application specificintegrated circuit，简称ASIC）、现成可编程门阵列（field programmable gate array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，简称ROM）、可编程只读存储器（programmable ROM，简称PROM）、可擦除可编程只读存储器（erasable PROM，简称EPROM）、电可擦除可编程只读存储器（electricallyEPROM，简称EEPROM）或闪存。易失性存储器可以是随机存取存储器（random accessmemory，简称RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random access memory，简称RAM）可用，例如静态随机存取存储器（staticRAM，简称SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronousDRAM，简称SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，简称DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，简称ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，简称SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，简称DR RAM）。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种训练样本的确定方法，其特征在于，所述训练样本用于训练神经网络，所述方法包括：

确定基于CMP工艺得到的初始厚度图的疑似热点；

选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；

记录样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值；

其中，所述张量包含一个或多个张量参数的参数值；

比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值，包括：

确定所述初始厚度图包含被更新的位置点的预设范围内的厚度值标准差与所述预测厚度图包含被更新的位置点的预设范围内的厚度值标准差的差值，记为第一差值；

依次确定所述初始厚度图包含被更新的位置点的预设范围内的每个张量参数的标准差与所述预测厚度图的包含被更新的位置点的预设范围内的每个张量参数的标准差的差值，并进行加权运算，将加权运算结果记为第二差值；

采用第一差值与第二差值的商值，作为所述被更新的位置点的奖惩值。

2.根据权利要求1所述的方法，其特征在于，所述确定后一位置点与前一位置点的差异张量，包括：

对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量。

3.根据权利要求2所述的方法，其特征在于，对于一部分后一位置点，采用随机方式生成所述差异张量，以及对于另一部分后一位置点，采用最近更新的神经网络生成所述差异张量，包括：

采用预设步长，生成在预设的取值范围内逐次增大的探索率，其中，每当所述探索率增大至所述取值范围的上限值时，重置为所述取值范围的下限值；

每当需要生成所述差异张量时，在所述下限值与所述上限值形成的数值范围内生成一随机数，如果所述随机数大于等于当前的探索率，则采用所述随机方式生成当前的差异张量，如果所述随机数小于当前的探索率，则采用最近更新的神经网络生成当前的差异张量。

4.根据权利要求1所述的方法，其特征在于，所述张量包含两个张量参数；

采用下述公式，比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值：

Reward = A×(T1- T2)/[B×(D1 - D2)+ C×(W1 -W2)]；

5.根据权利要求4所述的方法，其特征在于，所述第一张量参数为当前位置点的所属图形的密度值，所述第二张量参数为当前位置点的所属图形的宽度值；

其中，A、B、C的值相等。

6.根据权利要求1所述的方法，其特征在于，根据所述初始厚度图确定疑似热点，包括：

确定所述初始厚度图中包含每个位置点的预设范围内的各个位置点的平均厚度值，记为该位置点的环境厚度；

分别确定各个位置点与其环境厚度的差值绝对值，并将所述差值绝对值大于预设差值的位置点作为所述疑似热点。

7.一种神经网络训练方法，其特征在于，包括：

基于权利要求1至6任一项所述的训练样本的确定方法，记录所述样本集；

持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络。

8.根据权利要求7所述的方法，其特征在于，持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，包括：

对所述样本集中的样本的数量进行持续性计数；

每当样本数量达到N的整数倍时，如果还未能在预设的迭代次数内收敛，则在所有样本中抽T个，对神经网络进行梯度下降训练，直至收敛或者达到预设的迭代次数，其中，T、N为正整数，1＜T≤N，T与N具有预设的比值；

如果收敛，则将训练后的神经网络作为更新后的神经网络；

如果达到预设的迭代次数后仍未收敛，则等待样本数量达到N的下一个整数倍时，在所有样本中抽T个，对神经网络再次进行梯度下降训练。

9.根据权利要求8所述的方法，其特征在于，所述神经网络为基于强化学习的神经网络，所述损失函数表示如下：

；

其中，J(π_θ)用于表示损失函数，τ用于表示各个位置点的张量调整轨迹中的各次调整的奖惩值，θ用于表示待优化的强化学习策略参数，π_θ用于表示基于参数θ的强化学习策略，P(τ/π_θ)用于表示在奖惩值τ下得到强化学习策略π_θ的概率，R(τ)用于表示单个位置点的张量调整轨迹中历次奖惩值之和，E用于表示期望值，r_t用于表示单个位置点的张量调整轨迹中的第t次奖惩值，T用于表示各个位置点的张量调整轨迹中的样本的数量；

其中，所述对神经网络进行梯度下降训练，包括：

确定所述损失函数的梯度值；

采用梯度下降算法，确定最优的强化学习策略参数θ，以使得训练后的神经网络得到的强化学习策略π_θ能够最大化所述期望值E。

10.根据权利要求8所述的方法，其特征在于，所述预设范围为围绕当前的中心点的呈矩阵阵列排布的2N×2N个位置点。

11.一种版图优化方法，其特征在于，包括：

基于权利要求7至10任一项所述的神经网络训练方法，训练得到更新后的神经网络；

基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对版图数据进行优化。

12.根据权利要求11所述的方法，其特征在于，基于所述更新后的神经网络，对所述疑似热点进行一轮或多轮更新中的每轮更新包括：

遍历最近更新的疑似热点，采用最近更新的神经网络确定包含每个最近更新的疑似热点的预设范围内的各个位置点的差异张量，并采用所述差异张量对包含所述疑似热点的预设范围内的各个位置点进行调整，以得到调整后的各个位置点的张量；

确定更新后的疑似热点的数量，如果更新后的疑似热点的数量与所有位置点的数量占比大于所述预设比例，且未达到预设更新轮数，则采用调整后的各个位置点的张量以及疑似热点，以作为下一轮更新的疑似热点。

13.一种训练样本的确定装置，其特征在于，包括：

仿真模块，用于确定基于CMP工艺得到的初始厚度图的疑似热点；

差异张量与奖惩值确定模块，用于选择单个疑似热点作为首个位置点，确定包含所述首个位置点的预设范围内的张量，遍历至少一部分位置点，依次确定后一位置点与前一位置点的差异张量，并基于所述差异张量更新包含后一位置点的预设范围内的张量，其中，每当更新张量时，均仿真生成包含被更新的位置点的预设范围内的预测厚度图，然后比较所述预测厚度图和对应区域的所述初始厚度图，并确定被更新的位置点的奖惩值；

样本集确定模块，确定样本集，所述样本集中的样本用于表示各个被更新的后一位置点，且每个样本包括包含前一位置点的预设范围内的张量、包含该后一位置点的预设范围内的差异张量、包含该后一位置点的预设范围内的张量、该后一位置点的奖惩值；

其中，所述张量包含一个或多个张量参数的参数值；

所述差异张量与奖惩值确定模块还用于执行：

14.一种神经网络训练装置，其特征在于，包括：

训练模块，用于持续记录样本集中的样本，并基于所述奖惩值确定损失函数，以对神经网络进行训练，以得到更新后的神经网络；

其中，所述样本集是采用如权利要求13所述的训练样本的确定装置记录的。

15.一种版图优化装置，其特征在于，包括：

更新模块，用于基于更新后的神经网络，对所述疑似热点进行一轮或多轮更新，直至更新后的疑似热点的数量占比小于等于预设比例或得到预设更新轮数时，确定包含每个位置点的预设范围内的张量，以对版图数据进行优化；

其中，更新后的神经网络是采用如权利要求14所述的神经网络训练装置训练得到的。

16.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至6任一项所述的训练样本的确定方法的步骤，或者执行权利要求7至10任一项所述的神经网络训练方法的步骤，或者执行权利要求11至12任一项所述的版图优化方法的步骤。

17.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至6任一项所述的训练样本的确定方法的步骤，或者执行权利要求7至10任一项所述的神经网络训练方法的步骤，或者执行权利要求11至12任一项所述的版图优化方法的步骤。