CN112990888B

CN112990888B - 一种工艺参数的调节策略决策模型的确定方法及装置

Info

Publication number: CN112990888B
Application number: CN202110497482.6A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-06
Anticipated expiration: 2041-05-07
Also published as: CN112990888A

Abstract

本申请提供了一种工艺参数的调节策略决策模型的确定方法及装置，该确定方法包括：通过专家经验决策模型和工艺参数的调节策略初始决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数、待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量；确定在目标产品的当前工艺状态下待调节工艺参数的决策动作的外部奖励值和内部奖励值；基于内部奖励值和外部奖励值，确定待调节工艺参数的决策动作的动作价值；基于动作价值优化调节策略初始决策模型，得到工艺参数的调节策略决策模型。根据所述确定方法及装置，有助于提高生成的待调节工艺参数的决策动作的准确度，提高调节策略决策模型的可靠性。

Description

一种工艺参数的调节策略决策模型的确定方法及装置

技术领域

本申请涉及信息处理领域，具体而言，涉及一种工艺参数的调节策略决策模型的确定方法及装置。

背景技术

随着工业化的快速推进，我国制造业规模在不断地扩大，在市场环境中，价格因素已经不再是客户衡量需求的首要标准，尤其在家电、汽车、电子等高科技领域的应用中，客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。

目前，从产品生产环节的流程来看，工艺参数是影响产品质量的核心因素之一，工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响，因此设置不合理的工艺参数会引发各种各样的加工缺陷，从而影响到产品的质量。通常，在产品的制造过程中，当工艺参数出现缺陷后，常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断，生成待调节工艺参数的调节策略来对工艺参数进行反馈调整。但是，这种方式极度依赖专家的个人的知识和经验积累，并且，不同专家间由于个体认知存在差异，往往也无法得到统一量化的解决方案，最终预测结果的准确性具有局限性。

发明内容

有鉴于此，本申请的目的在于提供一种工艺参数的调节策略决策模型的确定方法及装置，以解决现有技术中仅依据专家经验确定出的待调节工艺参数的决策动作不准确的问题。

本申请实施例提供了一种工艺参数的调节策略决策模型的确定方法，所述确定方法包括：

通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和所述待调节工艺参数的决策动作；

通过工艺参数的调节策略初始决策模型，确定所述待调节工艺参数的决策动作的调节量；

根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；

基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；

基于所述内部奖励值和外部奖励值，计算所述待调节工艺参数的决策动作的综合奖励值；

基于所述待调节工艺参数的决策动作的综合奖励值与折损系数确定所述待调节工艺参数的决策动作的动作价值；

基于所述待调节工艺参数的决策动作的动作价值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型。

可选的，所述基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：

通过所述专家经验决策模型，获取所述待调节工艺参数在当前工艺状态下的重要度权重；

获取所述待调节工艺参数的决策动作的内部奖励函数；

根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值。

可选的，所述根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：

针对每个待调节工艺参数，将该待调节工艺参数的决策动作的外部奖励函数和与该待调节工艺参数在当前工艺状态下的重要度权重相乘，得到该待调节工艺参数的决策动作的内部奖励子函数；

将该待调节工艺参数的决策动作的调节量代入该待调节工艺参数的决策动作的内部奖励子函数，得到该待调节工艺参数的决策动作的内部奖励值；

将所有待调节工艺参数的决策动作的内部奖励值求和，得到所述待调节工艺参数的决策动作的内部奖励值。

可选的，所述基于所述待调节工艺参数的决策动作的动作价值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型，包括：

基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型。

可选的，所述基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型，包括：

获取历史待调节工艺参数的决策动作和所述决策动作的调节量；

获取历史目标产品在采取所述历史待调节工艺参数的决策动作时对应的历史目标产品业务指标；

根据所述历史待调节工艺参数的决策动作、所述决策动作的调节量和所述历史目标产品业务指标，确定所述历史待调节工艺参数的决策动作的动作价值；

采用梯度上升算法，基于所述历史待调节工艺参数的决策动作的动作价值和所述待调节工艺参数的决策动作的动作价值，通过提高所述调节策略初始决策模型中数值高的动作价值所对应的决策动作的出现概率，来优化所述调节策略初始决策模型，以得到所述工艺参数的调节策略决策模型。

可选的，所述待调节工艺参数的决策动作的内部奖励函数基于所述待调节工艺参数的决策动作的类型被确定。

第二方面，本申请实施例还提供了一种工艺参数的调节策略决策模型的确定装置，所述确定装置包括：

工艺参数确定模块，用于通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和所述待调节工艺参数的决策动作；

决策动作调节量确定模块，用于通过工艺参数的调节策略初始决策模型，确定所述待调节工艺参数的决策动作的调节量；

外部奖励值确定模块，用于根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；

内部奖励值确定模块，用于基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；

决策动作综合奖励值确定模块，用于基于所述内部奖励值和外部奖励值，计算所述待调节工艺参数的决策动作的综合奖励值；

动作价值确定模块，用于基于所述待调节工艺参数的决策动作的综合奖励值与折损系数确定所述待调节工艺参数的决策动作的动作价值；

决策模型确定模块，用于基于所述待调节工艺参数的决策动作的动作价值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型。

可选的，所述内部奖励值确定模块用于：

获取所述待调节工艺参数的决策动作的内部奖励函数；

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的工艺参数的调节策略决策模型的确定方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述的工艺参数的调节策略决策模型的确定方法的步骤。

本申请实施例提供的工艺参数的调节策略决策模型的确定方法，首先，通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和待调节工艺参数的决策动作；通过工艺参数的调节策略初始决策模型，确定待调节工艺参数的决策动作的调节量；然后，根据目标产品当前业务指标，确定在目标产品的当前工艺状态下待调节工艺参数的决策动作的外部奖励值；基于待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值；基于内部奖励值和外部奖励值，计算待调节工艺参数的决策动作的综合奖励值；基于待调节工艺参数的决策动作的综合奖励值与折损系数确定待调节工艺参数的决策动作的动作价值；最后，基于动作价值优化调节策略初始决策模型，得到工艺参数的调节策略决策模型。

本申请实施例提供的工艺参数的调节策略决策模型的确定方法，能够在目标产品发生工艺缺陷时，实时地根据预存的生产目标产品的专家经验决策模型确定出影响目标产品当前业务指标的待调节工艺参数和决策动作，工艺参数的调节策略初始决策模型根据待调节工艺参数的决策动作确定出调节量，并对待调节工艺参数的决策动作进行内部奖励值和外部奖励值的确定，以得到待调节工艺参数的决策动作的综合奖励值，并进一步得到待调节工艺参数的决策动作的动作价值，基于待调节工艺参数的决策动作的动作价值对工艺参数的调节策略初始决策模型进行优化，得到工艺参数的调节策略决策模型。通过这种方式，能够及时根据目标产品当前的工艺状况以及待调节工艺参数的决策动作对调节策略初始决策模型进行优化，从而有助于提高生成的调节策略决策模型的可靠性以及生成的待调节工艺参数的决策动作的准确度，进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种工艺参数的调节策略决策模型的确定方法的流程图；

图2为本申请实施例提供的确定待调节工艺参数的决策动作的内部奖励值的步骤的流程图；

图3为本申请实施例提供的一种工艺参数的调节策略决策模型的确定装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

随着工业化的快速推进，我国制造业规模在不断地扩大，价格因素已经不再是客户衡量需求的首要标准，尤其在家电、汽车、电子等高科技领域的应用中，客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。

目前，从产品生成环节的流程来看，工艺参数是影响产品质量的核心因素之一，工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响，因此设置不合理的工艺参数会引发各种各样的加工缺陷，从而影响到产品的质量。通常，在产品的制造过程中，当工艺参数出现缺陷后，常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断，来对工艺参数进行反馈调整。但是，这种方式极度依赖专家的个人的知识和经验积累，并且，不同专家间由于个体认知存在差异，往往也无法得到统一量化的解决方案。

基于此，本申请实施例提供了一种工艺参数的调节策略决策模型的确定方法，有助于提高生成的待调节工艺参数的决策动作的准确度，提高调节策略决策模型的可靠性，以解决现有技术中仅依据专家经验确定出的待调节工艺参数的决策动作不准确的问题。

请参阅图1，图1为本申请实施例提供的一种工艺参数的调节策略决策模型的确定方法的流程图。如图1中所示，本申请实施例提供的一种工艺参数的调节策略决策模型的确定方法，包括以下步骤：

S101，通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和待调节工艺参数的决策动作。

需要说明的是，专家经验是指在生产加工过程中专家根据自身的领域的专业知识和对产品的判断产生的经验。在产品加工领域中，专家经验能够明确待调整工艺参数以及待调节工艺参数的决策动作，但是无法精确地给出需要调整的数值或者状态。在本申请实施例中，专家经验可被提前预存。可以预先使用生产目标产品的专家经验嵌入到机器学习模型（例如，神经网络）中，这时该机器学习模型就被称之为专家经验决策模型。通过整理专家经验和与其对应的工艺参数，形成基于专家经验的规则信息，基于规则信息产生关于工艺参数和缺陷情况的数据集，利用监督学习的方式使用数据集对上述神经网络进行训练，得到训练好的专家模型。在具体实施时，待优化工艺参数和待调节工艺参数的决策动作可以利用if-else规则给出。

需要说明的是，目标产品是指可经过多道制作工序而成的可满足人们某种需求的东西，包括有形的物品。例如，轮胎、鼠标、剃须刀等。目标产品生产流程则是指在生产目标产品中，从原料投入到成片产出，通过一定的设备按顺序连续地进行加工的过程。目标产品当前业务指标是指目标产品在生产过程中的质量问题状态，这里的质量问题状态可以为目标产品出现产品缺陷的质量状态，这里的产品缺陷的质量状态可以包括缺陷面积状态、缺陷位置状态以及缺陷数量状态等，在具体实施时，可以认为目标产品当前业务指标是与之对应的待调节工艺参数的决策动作的外部奖励值的来源。

此外，工艺参数是指在完成某项工作的工艺的一系列基础数据或者指标。例如，焊接工艺参数主要有焊条直径、焊接电流、焊接层数、电源种类及极性等。这里，待调节工艺参数是指在生产目标产品的过程为了提高目标产品当前业务指标而将被调节的工艺参数。待调节工艺参数的决策动作是指通过调节待调节工艺参数即可提高目标产品当前业务指标的方式，相当于待调节工艺参数的调节方式。

关于步骤S101，在具体实施时，作为示例，当检测到生产目标产品的生产过程中出现工艺缺陷时，通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，影响目标产品当前业务指标的待调节工艺参数和待调节工艺参数的决策动作，以使目标产品可以根据待调节工艺参数和待调节工艺参数的决策动作来修复出现的工艺缺陷。

例如，在生产目标产品M的生产过程中，检测到生产的某个环节出现工艺缺陷，这时可通过专家经验决策模型，根据预存的生产目标产品的专家经验来确定出，通过调节即可解决上述工艺缺陷问题的待调节工艺参数和待调节工艺参数的决策动作，例如，工艺参数A、工艺参数B，工艺参数A的调节方式为数值调整和工艺参数B的调节方式为状态调整。这里，工艺参数A和工艺参数B即为通过专家经验决策模型而确定出的影响目标产品当前业务指标的待调节工艺参数，工艺参数A的调节方式为数值调整和工艺参数B的调节方式为状态调整即为通过专家经验决策模型而确定出的待调节工艺参数的决策动作。

S102，通过工艺参数的调节策略初始决策模型，确定待调节工艺参数的决策动作的调节量。

需要说明的是，调节策略初始决策模型是指用来确定待调节工艺参数的决策动作的调节量的模型。

关于步骤S102，在具体实施时，根据步骤S101确定出的带调节工艺参数的决策动作，通过工艺参数的调节策略初始决策模型，确定待调节工艺参数的决策动作的调整量。

延续上一个实施例，在确定出待调节工艺参数的决策动作为工艺参数A的调节方式为数值调整和工艺参数B的调节方式为状态调整后，通过工艺参数的调节策略初始决策模型确定工艺参数A需要调整的调整量和工艺参数B需要调整的调整量。

S103，根据目标产品当前业务指标，确定在目标产品的当前工艺状态下待调节工艺参数的决策动作的外部奖励值。

需要说明的是，外部奖励值是指预先设定的奖励值，是通过当前工艺状态直接确定的，例如，外部奖励值可以是对目标产品的外观或质量进行打分的数值，也可以是通过X光检测到的出现缺陷的面积等，对此本申请不做具体限定。

S104，基于待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值。

需要说明的是，内部奖励计算模型是指用于计算待调节工艺参数的决策动作的内部奖励值的模型。内部奖励值是指针对目标产品当前业务指标的任意一个待调节工艺参数的决策动作的额外奖励值。

请参阅图2，图2为本申请实施例提供的确定待调节工艺参数的决策动作的内部奖励值的步骤的流程图。如图2中所示，所述基于待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值，包括：

S201，通过专家经验决策模型，获取待调节工艺参数在当前工艺状态下的重要度权重。

需要说明的是，待调节工艺参数在当前工艺状态下的重要度权重是指目标产品的待调节工艺参数相对于该目标产品在当前工艺状态下的重要程度。在具体实施时，作为示例，当目标产品的待调节工艺参数相对于该目标产品在当前工艺状态下的重要程度最高时，可以设定该待调节工艺参数在当前工艺状态下的重要度权重为1，对此本申请不做具体限定。

例如，目标产品在生产加工过程中会涉及到10个工艺参数，工艺参数A-工艺参数L，当该产品发生某一个工艺缺陷时，基于预存的专家经验决策模型确定出待调节工艺参数为工艺参数A、工艺参数C和工艺参数D，这时认为工艺参数A、工艺参数C和工艺参数D相对于该目标产品在当前工艺状态下的重要程度最高，因此这三个工艺参数对应的重要度权重为1，剩余的7个未涉及的工艺参数的重要度权重为0。

S202，获取待调节工艺参数的决策动作的内部奖励函数。

需要说明的是，内部奖励函数是指用来计算待调节工艺参数的决策动作的内部奖励值的函数。

作为一种可选的实施例，待调节工艺参数的决策动作的内部奖励函数基于所述待调节工艺参数的决策动作的类型被确定。

这里，在确定待调节工艺参数的决策动作的过程中，通常包括两种类型的调整量，即两种决策动作的类型，一个调整类型为数值调整，另一个调整类型为状态调整。数值调整指的是对某个参数在数值上进行的调整，例如待优化工艺参数为时间，在调整类型为数值调整时，可将时间从5秒调节到5.7秒。状态调整指的是对某个参数在状态上进行的调整，例如待调整工艺参数为开关状态，在状态调整时，可将关闭状态调节为打开状态，或者待调整工艺参数为档位状态，在状态调整时，可将档位从a档调节为b档。

这里，应注意，上述对数值调整和状态调整的例子仅是示例，实际中，决策动作的调整类型不限于上述例子。

在本申请的示例中，当目标产品的待调节工艺参数的决策动作的类型为数值调整时，可使用如下等式（1）来确定目标产品的任意一个待调节工艺参数的决策动作的内部奖励函数：

（1）

其中，

表示所述目标产品的任意一个待调节工艺参数的决策动作的内部奖励值，

表示该任意一个待调节工艺参数在t时刻的数值（即，调节前的数值），

表示该任意一个待调节工艺参数在t+1时刻的数值（即，调节后的数值），

函数表示最大值求取函数，

函数表示最小值求取函数。

通过上式可以看出，等式（1）

函数在0与（

）两者之间求取最大值，所以

函数求解出的最大值一定是大于或者等于0，此外，等式（1）还利用

函数在

函数求解出的最大值与

之间求取最小值，因为

函数求解出的最大值和

都是大于或者等于0的数值，所以最后利用

函数求取出的最小值，即任意一个待调节工艺参数的决策动作的内部奖励值

也一定是大于或者等于0。因此，利用等式（1）计算出的任意一个待调节工艺参数的决策动作的内部奖励值

可以鼓励该待调节工艺参数做正向的调整。同时，由于在上述等式（1）中利用

函数求取

与

之间的最小值，也限制了每个待调节工艺参数的调节数值所能获得的最大第一奖励值，因此，有效防止了待调节工艺参数的调节数值过大。

在本申请的示例中，当目标产品的待调节工艺参数的决策动作的类型为状态调整时，可使用如下等式（2）来确定目标产品的任意一个待调节工艺参数的决策动作的内部奖励函数：

（2）

其中，

表示该任意一个待调节工艺参数在t时刻的状态（即，调节前的状态），

表示该任意一个待调节工艺参数在t+1时刻的状态（即，调节后的状态）。

关于上述等式（2），在具体实施时，作为示例，当待调节工艺参数所对应的状态有两种时，可以将这两种状态转换为两状态值（-1,1），例如待调节工艺参数对应的两种状态为关闭和开启，这时两状态值中的“-1”可以表示该待调节工艺参数对应的状态为关闭状态，“1”可以表示该待调节工艺参数对应的状态为开启状态。如果要将该待调节工艺参数的状态从关闭状态调整为开启状态，则认为上述等式（2）中

对应的数值为“-1”，

对应的数值为“1”。

当待调节工艺参数为非两状态值时，可利用One-Hot编码将非两状态值转换为多个两状态值，对待优化工艺参数进行构造。这里，非两状态值指的是待调节工艺参数所对应的状态有三种或三种以上，例如待调节工艺参数对应的状态为档位状态时，包括1档、2档、3档、4档和5档，这时则认为待调节工艺参数为非两状态值，这五个档位对应的非两状态值分别为（-1，-1，-1，-1,1）、（-1，-1，-1，1,-1）、（-1，-1，1，-1,-1）、（-1，1，-1，-1,-1）、（1，-1，-1，-1,-1）。这时利用One-Hot编码对这五个非两状态值进行转换，得到多个两状态值（-1,1）。这里，One-Hot编码又称一位有效编码，是分类变量作为二进制向量的表示，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

这里，应注意，上述对内部奖励值的内部奖励函数仅是示例，实际中，内部奖励值的内部奖励函数不限于上述例子。

S203，根据重要度权重和待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值。

对于上述步骤S201-S203，在具体实施时，通过专家经验决策模型，获取待调节工艺参数在当前工艺状态下的重要度权重，获取待调节工艺参数的决策动作的内部奖励函数，根据重要度权重和待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值。

针对步骤S203，待调节工艺参数的决策动作的内部奖励值是通过如下步骤计算的：

步骤2031，针对每个待调节工艺参数，将该待调节工艺参数的决策动作的内部奖励函数和与该待调节工艺参数在当前工艺状态下的重要度权重相乘，得到该待调节工艺参数的决策动作的内部奖励子函数。

步骤2032，将该待调节工艺参数的决策动作的调节量代入该待调节工艺参数的决策动作的内部奖励子函数，得到该待调节工艺参数的决策动作的内部奖励值。

在本申请的示例中，可使用如下等式（3）来确定目标产品的任意一个待调节工艺参数的决策动作的内部奖励子函数：

（3）

其中，

表示该待调节工艺参数在当前工艺状态下的重要度权重，

表示该待调节工艺参数的决策动作的内部奖励值。

步骤2033，将所有待调节工艺参数的决策动作的内部奖励值求和，得到所述待调节工艺参数的决策动作的内部奖励值。

在本申请的示例中，可使用如下等式（4）来确定目标产品的待调节工艺参数的决策动作的内部奖励值：

（4）

其中，

表示目标产品的待调节工艺参数的个数，

表示第c个待调节工艺参数的决策动作的内部奖励值，

表示待调节工艺参数的决策动作的内部奖励值。

这里，应注意，上述对内部奖励值的计算步骤仅是示例，实际中，内部奖励值的计算步骤不限于上述例子。

S105，基于内部奖励值和外部奖励值，计算待调节工艺参数的决策动作的综合奖励值。

需要说明的是，综合奖励值指的是基于待调节工艺参数的决策动作的内部奖励值和外部奖励值，通过加权和的算法计算出的待调节工艺参数的决策动作的奖励值。

针对步骤S105，在计算待调节工艺参数的决策动作的综合奖励值时，赋予内部奖励值和外部奖励值不同的权重，然后利用内部奖励值乘以内部奖励值的权重，外部奖励值乘以外部奖励值对应的权重，再对相乘后的数值进行求和，即为待调节工艺参数的决策动作的综合奖励值。例如，内部奖励值的权重为60%，外部奖励值的权重为40%，则待调节工艺参数的决策动作的综合奖励值=内部奖励值×60%+外部奖励值×40%。具体实施时，内部奖励值的权重和外部奖励值的权重可以由当前生产环境自行定义，本申请不做具体限制。

S106，基于待调节工艺参数的决策动作的综合奖励值与折损系数确定待调节工艺参数的决策动作的动作价值。

需要说明的是，动作价值是指在强化学习的过程中某个动作对应的价值，折损系数是指在强化学习的过程中计算动作价值时需要用到的一种常见的数值。

针对步骤S106，在确定出待调节工艺参数的决策动作的综合奖励值后，获取在该决策动作之后所发生的决策动作的综合奖励值，再根据综合奖励值与折损系数确定出该待调节工艺参数的决策动作的动作价值。

具体的，该决策动作之后所发生的决策动作的综合奖励值的计算方法与本申请实施例提供的综合奖励值的计算方法一致：获取决策动作的外部奖励值，根据决策动作和决策动作的调节量计算内部奖励值，再根据内部奖励值和外部奖励值计算综合奖励值，对此不再做过多赘述。

关于步骤S103-步骤S106，在具体实施时，根据目标产品当前业务指标，确定目标产品在当前工艺状态下的待调节工艺参数的决策动作的外部奖励值，基于待调节工艺参数的决策动作和待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定待调节工艺参数的决策动作的内部奖励值，再基于内部奖励值与外部奖励值计算待调节工艺参数的决策动作的综合奖励值，再根据综合奖励值确定出待调节工艺参数的决策动作的动作价值。

S107，基于待调节工艺参数的决策动作的动作价值优化调节策略初始决策模型，得到工艺参数的调节策略决策模型。

需要说明的是，调节策略决策模型是指优化后的调节策略初始决策模型。

关于步骤S107，在具体实施时，基于步骤S106确定的待调节工艺参数的决策动作的动作价值优化调节策略初始决策模型，得到工艺参数的调节策略决策模型。

针对步骤S107，作为一种可选的实施方式，基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述工艺参数的调节策略初始决策模型，得到所述工艺参数的调节策略决策模型。

需要说明的是，策略梯度（Policy Gradient）的算法是指在强化学习中一种常见的算法，目的是找到一个策略可以获得最多的奖励值，在本申请的应用场景下，利用策略梯度的算法是为了找到可以获得最高动作价值的待调节工艺参数的决策动作。

通过以下步骤获得工艺参数的调节策略决策模型：

步骤1071，获取历史待调节工艺参数的决策动作和所述决策动作的调节量。

步骤1072，获取历史目标产品在采取所述历史待调节工艺参数的决策动作时对应的历史目标产品业务指标。

步骤1073，根据历史待调节工艺参数的决策动作、决策动作的调节量和历史目标产品业务指标，确定历史待调节工艺参数的决策动作的动作价值。

需要说明的是，历史待调节工艺参数是指在调节策略决策模型记录中的，在遇到历史目标产品出现缺陷时所使用过的待调节工艺参数，历史目标产品业务指标是指历史目标产品在生产过程中的质量问题状态。

其中，计算历史待调节工艺参数的决策动作的动作价值的方法上述实施例中计算待调节工艺参数的决策动作的动作价值一致：获取历史待调节工艺参数的决策动作的外部奖励值，根据历史待调节工艺参数的决策动作和所述决策动作的调节量计算历史待调节工艺参数的决策动作的内部奖励值，根据历史目标产品业务指标确定历史待调节工艺参数的决策动作的外部奖励值，再根据历史待调节工艺参数的决策动作的内部奖励值和外部奖励值计算综合奖励值，再根据综合奖励值与折损系数确定动作价值，对此不再做过多赘述。

步骤1074，采用梯度上升算法，基于历史待调节工艺参数的决策动作的动作价值和待调节工艺参数的决策动作的动作价值，通过提高调节策略初始决策模型中数值高的动作价值所对应的决策动作的出现概率，来优化调节策略初始决策模型，以得到工艺参数的调节策略决策模型。

需要说明的是，梯度上升算法是指在强化学习模型训练中用到的，最大化累计状态价值的一种优化方法，在本申请的应用场景下，可利用梯度上升算法来优化调节策略初始决策模型，在具体实施时，也可根据实际需要，采用PPO/A2C/SAC等包含策略优化的强化学习算法。

在具体实施时，将历史待调节工艺参数的决策动作的动作价值与待调节工艺参数的决策动作的动作价值进行对比，对比出数值高的动作价值对应的决策动作后，即提高该决策动作在调节策略初始决策模型中出现的概率，以优化调节策略初始决策模型，得到工艺参数的调节策略决策模型，以使工艺参数的调节策略决策模型在下次专家经验决策模型确定出同样的待调节工艺参数时可以更高概率的决策出数值较高的动作价值对应的待调节工艺参数的决策动作。

请参阅图3，图3为本申请实施例所提供的一种工艺参数的调节策略决策模型的确定装置的结构示意图，如图3中所示，所述确定装置300包括：

工艺参数确定模块301，用于通过专家经验决策模型，从目标产品生产流程的多个工艺参数中，确定影响目标产品当前业务指标的待调节工艺参数和所述待调节工艺参数的决策动作；

决策动作调节量确定模块302，用于通过工艺参数的调节策略初始决策模型，确定所述待调节工艺参数的决策动作的调节量；

外部奖励值确定模块303，用于根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；

内部奖励值确定模块304，用于基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；

决策动作综合奖励值确定模块305，用于基于所述内部奖励值和外部奖励值，计算所述待调节工艺参数的决策动作的综合奖励值；

动作价值确定模块306，用于基于所述待调节工艺参数的决策动作的综合奖励值与折损系数确定所述待调节工艺参数的决策动作的动作价值；

决策模型确定模块307，用于基于所述综合奖励值优化所述调节策略初始决策模型，得到工艺参数的调节策略决策模型。

可选的，所述内部奖励值确定模块304还用于：

获取所述待调节工艺参数的决策动作的内部奖励函数；

可选的，所述内部奖励值确定模块304还用于：

针对每个待调节工艺参数，将该待调节工艺参数的决策动作的内部奖励函数和与该待调节工艺参数在当前工艺状态下的重要度权重相乘，得到该待调节工艺参数的决策动作的内部奖励子函数；

可选的，所述决策模型确定模块307还用于：

请参阅图4，图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示，所述电子设备400包括处理器410、存储器420和总线430。

所述存储器420存储有所述处理器410可执行的机器可读指令，当电子设备400运行时，所述处理器410与所述存储器420之间通过总线430通信，所述机器可读指令被所述处理器410执行时，可以执行如上述图1以及图2所示方法实施例中的工艺参数的调节策略决策模型的确定方法的步骤，解决了现有技术中仅依据专家经验确定出的待调节工艺参数的决策动作不准确的问题。具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的工艺参数的调节策略决策模型的确定方法的步骤，解决了现有技术中仅依据专家经验确定出的待调节工艺参数的决策动作不准确的问题，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种工艺参数的调节策略决策模型的确定方法，其特征在于，所述确定方法包括：

根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；所述外部奖励值指的是预先设定的奖励值，是通过所述目标产品的当前工艺状态直接确定的；

基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型；

所述基于所述待调节工艺参数的决策动作和所述待调节工艺参数的决策动作的调节量，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：

获取所述待调节工艺参数的决策动作的内部奖励函数；

根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值；

所述根据所述重要度权重和所述待调节工艺参数的决策动作的内部奖励函数，通过内部奖励计算模型，确定所述待调节工艺参数的决策动作的内部奖励值，包括：

将所有待调节工艺参数的决策动作的内部奖励值求和，得到所述待调节工艺参数的决策动作的内部奖励值；

所述基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型，包括：

2.根据权利要求1所述的确定方法，其特征在于，所述待调节工艺参数的决策动作的内部奖励函数基于所述待调节工艺参数的决策动作的类型被确定。

3.一种工艺参数的调节策略决策模型的确定装置，其特征在于，所述确定装置包括：

外部奖励值确定模块，用于根据目标产品当前业务指标，确定在目标产品的当前工艺状态下所述待调节工艺参数的决策动作的外部奖励值；所述外部奖励值指的是预先设定的奖励值，是通过所述目标产品的当前工艺状态直接确定的；

决策模型确定模块，用于基于所述待调节工艺参数的决策动作的动作价值，采用策略梯度的算法优化所述调节策略初始决策模型，得到所述工艺参数的调节策略决策模型；

所述内部奖励值确定模块，还用于通过所述专家经验决策模型，获取所述待调节工艺参数在当前工艺状态下的重要度权重；

获取所述待调节工艺参数的决策动作的内部奖励函数；

所述内部奖励值确定模块，还用于针对每个待调节工艺参数，将该待调节工艺参数的决策动作的内部奖励函数和与该待调节工艺参数在当前工艺状态下的重要度权重相乘，得到该待调节工艺参数的决策动作的内部奖励子函数；

所述决策模型确定模块，还用于获取历史待调节工艺参数的决策动作和所述决策动作的调节量；

4.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至2任一所述的工艺参数的调节策略决策模型的确定方法的步骤。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至2任一所述的工艺参数的调节策略决策模型的确定方法的步骤。