CN112801558B

CN112801558B - 一种工艺参数调节动作决策模型的优化方法以及装置

Info

Publication number: CN112801558B
Application number: CN202110374794.8A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-07-30
Anticipated expiration: 2041-04-07
Also published as: CN112801558A

Abstract

本申请提供了一种工艺参数调节动作决策模型的优化方法以及装置。所述优化方法包括：获取工艺参数调节动作初始决策模型；通过初始决策模型获取样本数据集，训练专家评判初始网络，得到专家评判模型；使用初始决策模型生成待评判序列，在专家评判模型的模型参数不变的情况下，使用专家评判模型对待评判序列进行判断，得到待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。这样，本申请使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式来更新模型参数，有助于提高决策模型生成工艺参数调整动作的准确度。

Description

一种工艺参数调节动作决策模型的优化方法以及装置

技术领域

本申请涉及计算机技术领域，尤其是涉及一种工艺参数调节动作决策模型的优化方法以及装置。

背景技术

随着工业化的快速推进，我国制造业规模在不断地扩大，在市场环境中，价格因素已经不再是客户衡量需求的首要标准，尤其在家电、汽车、电子等高科技领域的应用中，客户对产品的质量控制和性能保证提出了更高的要求。产品的质量能否提升已成为企业必须面对以及迫切解决的核心问题。目前，从产品生产环节的流程来看，工艺参数是影响产品质量的核心因素之一，工艺参数的确认、选择和控制是稳定和提升产品质量的根本解决方法。由于每个工艺参数对最后的产品质量都具有不同程度的影响，因此设置不合理的工艺参数会引发各种各样的加工缺陷，从而影响到产品的质量。通常，在产品的制造过程中，当工艺参数出现缺陷后，常规情况下主要是依赖该产品领域的专家的知识与经验来对产品的缺陷的进行诊断，来对工艺参数进行反馈调整。但是，这种方式极度依赖专家的个人的知识和经验积累，并且，不同专家间由于个体认知存在差异，往往也无法得到统一量化的解决方案。

为了解决上述缺陷，现有技术中可通过实际的操作数据训练模型，例如，收集在不同缺陷的情况下实际工程师的调机操作，形成包括状态和动作的对应关系的数据集。进而可基于获取的数据训练多目标优化的离散动作或者连续动作的模仿学习模型，作为工艺参数推荐的决策模型来在不同的状态下输出不同的动作。然而，上述方式存在下述缺陷：收集的数据可能并非该缺陷情况下的最优解，因此，在最终预测结果的准确性具有局限性，此次，为了保证决策模型能够达到较为精确的工艺参数推荐功能，需要人工筛选出效果更好的数据样本，或者设计一种计算方法来衡量操作的有效性，进而通过阈值来筛选有效的数据样本进行模型再学习，这种方式还导致了人工时间的大量浪费。

发明内容

有鉴于此，本申请的目的在于提供一种工艺参数调节动作决策模型的优化方法以及装置，使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式，更新模型参数，从而有助于提高生成的目标决策模型的可靠性以及生成的工艺参数调节动作的准确度，进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。

本申请实施例提供了一种工艺参数调节动作决策模型的优化方法，所述优化方法包括：

获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数调节动作的机器学习模型；

通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；

使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

进一步的，所述使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型，包括：

（A）基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述待评判序列由所述目标产品的状态动作对组成，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；

（B）在所述专家评判模型的模型参数不变的情况下，将所述待评判序列输入至所述专家评判模型中，以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果；

（C）当所述认可结果指示所述专家评判模型对所述待评判序列不认可时，基于所述认可结果确定所述初始决策模型的损失值，并基于所述损失值更新所述初始决策模型的模型参数，得到更新决策模型，并将所述更新决策模型作为所述初始决策模型，返回执行步骤（A）；

（D）当所述认可结果指示所述专家评判模型对所述待评判序列认可时，判断所述待评判序列的序列长度是否满足预设要求；

（E）当所述待评判序列的序列长度不满足预设要求时，控制所述初始决策模型重新生成新的样本数据集，使用所述新的样本数据集训练所述专家评判初始网络，得到更新专家评判模型，并调整所述待评判序列的序列长度，得到新的待评判序列，将所述更新专家评判模型作为所述专家评判模型，将所述新的待评判序列作为所述待评判序列，返回执行步骤（B）；

（F）当所述待评判序列的序列长度满足预设要求时，将当前的初始决策模型确定为工艺参数调节动作目标决策模型。

进一步的，所述调整所述待评判序列的序列长度，包括：

确定所述待评判序列中最后一个状态动作对中的工艺参数调节动作；

基于所述工艺参数调节动作，确定出与所述工艺参数调节动作对应时刻的下一时刻的工艺状态；

将所述下一时刻的工艺状态输入至所述初始决策模型中，确定出所述下一时刻的工艺参数调节动作；

基于所述下一时刻的工艺状态和所述下一时刻的工艺参数调节动作确定出下一时刻的状态动作对，并将所述下一时刻的状态动作对增加到所述待评判序列中，以完成对所述待评判序列的序列长度的调整。

进一步的，在使用所述初始决策模型生成待评判序列时，第一次生成的所述待评判序列中包含一个状态动作对。

进一步的，通过以下步骤生成所述工艺参数调节动作初始决策模型：

获取历史工艺状态以及与历史工艺状态对应的历史工艺参数调节动作，构建生成初始决策模型的训练样本数据集；

采用模仿学习的训练方式，使用所述训练样本数据集训练预先构建好的初始决策神经网络，生成所述工艺参数调节动作初始决策模型。

进一步的，所述通过所述初始决策模型获取样本数据集，包括：

获取所述目标产品在生产过程中的预定时间段内的工艺状态，将所述工艺状态输入所述初始决策模型，以获得目标产品在所述预定时间段内不同时间点的工艺状态与工艺参数调节动作的状态动作对；

基于所述状态动作对产生工艺参数的推断序列；

获取所述工艺参数的推断序列的专家打标结果，以得到推断序列的专家认可标签；

基于所述推断序列和所对应的专家认可标签，得到样本数据集。

进一步的，在得到工艺参数调节动作目标决策模型之后，所述优化方法还包括：

获取所述目标产品的待处理工艺状态；

将所述待处理工艺状态输入至所述目标决策模型，所述目标决策模型生成对应于所述待处理工艺状态的工艺参数调节动作。

本申请实施例还提供了一种工艺参数调节动作决策模型的优化装置，所述优化装置包括：

获取模块，用于获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型；

专家评判模型确定模块，用于通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；

目标决策模型确定模块，用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

进一步的，所述目标决策模型确定模块在用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型时，所述目标决策模型确定模块用于：

基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述待评判序列由所述目标产品的状态动作对组成，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；

在所述专家评判模型的模型参数不变的情况下，将所述待评判序列输入至所述专家评判模型中，以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果；

当所述认可结果指示所述专家评判模型对所述待评判序列不认可时，基于所述认可结果确定所述初始决策模型的损失值，并基于所述损失值更新所述初始决策模型的模型参数，得到更新决策模型，并将所述更新决策模型作为所述初始决策模型，返回执行基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述待评判序列由所述目标产品的状态动作对组成，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；

当所述认可结果指示所述专家评判模型对所述待评判序列认可时，判断所述待评判序列的序列长度是否满足预设要求；

当所述待评判序列的序列长度不满足预设要求时，控制所述初始决策模型重新生成新的样本数据集，使用所述新的样本数据集训练所述专家评判初始网络，得到更新专家评判模型，并调整所述待评判序列的序列长度，得到新的待评判序列，将所述更新专家评判模型作为所述专家评判模型，将所述新的待评判序列作为所述待评判序列，返回执行在所述专家评判模型的模型参数不变的情况下，将所述待评判序列输入至所述专家评判模型中，以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果；

当所述待评判序列的序列长度满足预设要求时，将当前的初始决策模型确定为工艺参数调节动作目标决策模型。

进一步的，所述目标决策模型确定模块在用于调整所述待评判序列的序列长度时，所述目标决策模型确定模块用于：

进一步的，所述目标决策模型确定模块在使用所述初始决策模型生成待评判序列时，第一次生成的所述待评判序列中包含一个状态动作对。

进一步的，所述优化装置还包括初始决策模型确定模块，所述初始决策模型确定模块用于：

进一步的，所述优化装置还包括样本数据集构建模块，所述样本数据集构建模块用于：

基于所述状态动作对产生工艺参数的推断序列；

进一步的，所述优化装置还包括处理模块，所述处理模块用于：

获取所述目标产品的待处理工艺状态；

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的工艺参数调节动作决策模型的优化方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的工艺参数调节动作决策模型的优化方法的步骤。

本申请实施例提供的一种工艺参数调节动作决策模型的优化方法以及装置。所述优化方法包括：获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数调节动作的机器学习模型；通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

这样，本申请依据生成对抗技术，使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式，保证决策模型逐渐学会多步操作的决策过程，避免了单步学习的误差积累，从而有助于提高生成的目标决策模型的可靠性以及生成的工艺参数调节动作的准确度，进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种工艺参数调节动作决策模型的优化方法的流程图；

图2为构建训练专家评判初始网络样本数据集的方法流程示意图；

图3为本申请得到工艺参数调节动作目标决策模型的方法流程图；

图4为本申请实施例所提供的一种工艺参数调节动作决策模型的优化装置的结构示意图之一；

图5为本申请实施例所提供的一种工艺参数调节动作决策模型的优化装置的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

为解决上述问题，本申请实施例提供了一种工艺参数调节动作决策模型的优化方法，使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式，更新模型参数，从而有助于提高生成的目标决策模型的可靠性以及生成的工艺参数调节动作的准确度，进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。

请参阅图1，图1为本申请实施例所提供的一种工艺参数调节动作决策模型的优化方法的流程图。如图1中所示，本申请实施例提供的工艺参数调节动作决策模型的优化方法，包括：

S101、获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型。

需要说明的是，目标产品是指可经过多道制作工序而成的可满足人们某种需求的东西，包括有形的物品。例如，轮胎、鼠标、剃须刀等。工艺参数是指在完成某项工作的工艺的一系列基础数据或者指标。例如，注塑工艺参数主要有注塑压力、注塑时间、注塑温度、保压压力与时间等。

作为示例，可通过以下步骤生成所述工艺参数调节动作初始决策模型：获取历史工艺状态以及与历史工艺状态对应的历史工艺参数调节动作，构建生成初始决策模型的训练样本数据集；采用模仿学习的训练方式，使用所述训练样本数据集训练预先构建好的初始决策神经网络，生成所述工艺参数调节动作初始决策模型。

需要说明的是，工艺状态是指目标产品在生产过程中每个阶段/时间的目标产品的工艺状态，目标产品的工艺状况可以为目标产品出现质量问题时目标产品的状态，也可以为目标产品正常生产时到达某个时间点时的目标产品对应的状态。

在生成所述工艺参数调节动作初始决策模型步骤中，在具体实施时：首先，获取目标产品的历史工艺状态以及该产品领域的专家依据自身的知识与经验对历史工艺状态进行分析诊断，确定出的历史工艺参数调节动作；然后使用获取到的历史工艺状态以及历史工艺参数调节动作，形成历史状态动作对，使用历史状态动作对构建生成初始决策模型的训练样本数据集；最后，采用模仿学习的训练方式，使用构建好的训练样本数据集中的历史工艺状态作为输入特征，历史工艺参数调节动作作为输出特征训练预先构建好的初始决策神经网络，生成用户所需要的工艺参数调节初始决策模型。

需要说明的是，所述初始决策模型的训练样本数据集是由多个状态动作形成的多组序列组成的，所述序列的长度可以不同也可以相同。

需要说明的是，所述模仿学习是指从示教者提供的范例中学习，一般提供人类专家的决策数据。

需要说明的是，预先构建好的初始决策神经网络，可以采用循环神经网络（RNN）进行构建，也可以采用其他神经网络，在此不作限定。

例如，当工艺参数的初始决策模型应用于注塑制造领域时，此时的工艺状态为目标产品在生产过程中的质量问题状态，这里的质量问题状态可以为目标产品出现产品缺陷的质量状态，这里的产品缺陷的质量状态可以包括缺陷大小状态、缺陷位置状态以及缺陷数量状态等。假设此时的工艺状态为目标产品在生产过程中目标产品的缺陷位置状态，将目标产品的缺陷位置状态输入至工艺参数调节动作初始决策模型中，工艺参数的初始决策模型基于接收的目标产品的缺陷位置状态，输出一个针对于该缺陷位置状态的工艺参数调节动作，所述工艺参数调节动作可以为对设备的速度、温度以及压力等影响产品最终成件质量的具体工艺参数调节，例如将生产目标产品的生产设备的温度增加1度、压力降低10帕。

当然，上述示例只是对工艺参数调节动作初始决策模型中工艺状态和工艺参数调节动作之间的关系进行示例性的说明，在具体实现方式中，工艺状态和工艺参数调节动作的对应关系不限于上述示例所述的对应方式。

S102，通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型。

需要说明的是：专家评判初始网络可以采用类似循环神经网络（RNN）的网络结构，这里的循环神经网络（RNN）可以包括长短期记忆网络（LSTM）以及门控循环单元（GRU）。

作为示例，可通过以下方式通过所述初始决策模型获取样本数据集：首先，获取所述目标产品在生产过程中的预定时间段内的工艺状态，将所述工艺状态输入所述初始决策模型，以获得目标产品在所述预定时间段内不同时间点的工艺状态与工艺参数调节动作的状态动作对。然后，基于所述状态动作对产生工艺参数的推断序列。然后，获取所述工艺参数的推断序列的专家打标结果，以得到推断序列的专家认可标签。最后，基于所述推断序列和所对应的专家认可标签，得到样本数据集。

需要说明的是，预定时间段可以由用户指定目标产品生产开始到生产结束全过程中的某一段时间为预定时间段，也可以为目标产品生产全过程的总时间段为预定时间段。

在获取所述样本数据集的步骤中，在具体实施时，首先，确定所需要的目标产品的预定时间段，根据确定的预定时间段和目标产品在实际生产过程的情况，确定出该预定时间段中每个时间点的工艺状态，将确定出的工艺状态输入到构建好的初始决策模型中，可以输出对应于该工艺状态的工艺参数调节动作，针对于每个工艺状态，使用该工艺状态和对应的工艺参数调节动作形成状态动作对。

然后，根据预定时间段的时间顺序，将该预定时间段内的状态动作对依次排序，形成工艺参数的推断序列；这里，可以选定多个预定时间段，对应的生成多个工艺参数的推断序列。

再然后，可以将形成的工艺参数的推断序列交给该产品领域的专家进行判断，并由专家对工艺参数的推断序列添加认可标签，所述认可度标签可以为认可也可以为不认可。

最后，基于确定的推断序列和所对应的专家认可标签，得到生成专家评判模型所需要的样本数据集。

需要说明的，当预定时间段为目标产品生产全过程的总时间段，生成的工艺参数的推断序列可以为，由目标产品生产全过程的所有状态动作对形成的目标产品全过程的总决策序列，然后根据用户需求，对生成的总决策序列进行任意序列长度的截取，得到多个目标产品工艺参数的推断序列。其中，得到的多个推断序列之间的序列长度可以不同也可以相同。

示例的，请参阅图2，图2为构建训练专家评判初始网络样本数据集的方法流程示意图。如图2中所示，所述构建训练专家评判初始网络样本数据集的方法，包括：

假设，当预定时间段为目标产品生产全过程的总时间段时，任选一个时刻t，设t时刻可监控的工艺状态为

，初始决策模型为

，对应的工艺参数调节动作为

。通过初始决策模型可对不同时刻的工艺状态进行推理获得工艺参数调节动作，并与环境互动获得下一时刻的状态。由此，反复多次使用初始决策模型，可获得决策序列

，其中

。对决策序列

进行任意长度截取，获取多组目标产品工艺参数的推断序列

。然后引入专家的人工判断进行打标。判断每一组的推断序列是否可经过专家认可，认可情况用二值变量j表示，0代表不认可，1代表认可，基于推断序列和所对应的专家认可标签，构建所述样本数据集。

在得到专家评判模型的步骤中，在具体实施时，在获取到样本数据集之后，将样本数据集中的推断序列作为输入特征，将推断序列的专家认可标签作为输出特征训练构建好的专家评判初始网络，以得到专家评判模型。

需要说明的是，在使用样本数据集训练专家评判初始网络时采用全连接网络对推断序列进行特征提取，并采用多对一的序列处理方式，最后采用sigmoid激活函数进行二分类判断，以得到专家评判模型。这样同一个模型可对于不同长度的序列进行特征提取，并以此保证模型的复用性和逐步迭代。

S103，使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

需要说明的是，确定出需要进行优化的初始决策模型以及可以对初始决策模型进行优化的专家评判模型后，首先使用需要进行优化的初始决策模型生成一个需要由专家评判模型进行判别的待评判序列，在专家评判模型的模型参数不变的情况下（即：固定专家评判模型的模型参数），由专家评判模型对待评判序列进行判断，得到对应于该待评判序列的认可结果，最后根据得到的认可结果循环更新初始决策模型的模型参数，直至更新完的模型参数的初始决策模型生成的待评判序列满足预设要求和/或生成的认可结果满足要求，结束更新，得到工艺参数调节动作目标决策模型。

这里，使用该初始决策模型生成待评判序列的触发条件可以为：当目标产品生产过程中出现产品出现缺陷时工艺状态，针对该缺陷时的工艺状态生成工艺参数调节动作，并形成待评判序列。

作为示例，请参阅图3，图3为本申请得到工艺参数调节动作目标决策模型的方法流程图。如图3中所示，本申请实施例提供的得到工艺参数调节动作目标决策模型的方法，包括：

S301，基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述待评判序列由所述目标产品的状态动作对组成，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作。

该步骤中，对于目标产品在生产过程中的工艺状态，将该目标产品的工艺状态输入到需要进行优化的初始决策模型中，所述初始决策模型对接收的工艺状态进行分析，并生成对应于该工艺状态的工艺参数调节动作，使用该工艺状态和工艺参数调节动作生成状态动作对，基于生成的状态动作对，得到待评判序列。所述初始决策模型生成的待评判序列是与目标产品在生产过程中的工艺参数调节动作有关的。

该步骤中，当需要对训练完的初始决策模型进行优化时，使用该初始决策模型生成针对于起始工艺状态的起始工艺参数调节动作，由起始工艺状态和起始工艺参数调节动作构成一个起始状态动作对，并由该状态动作对形成待评判序列，即该待评判序列长度为1。

其中，起始工艺状态可以为当目标产品在生成过程中刚出现质量问题时的工艺状态，此时对应的起始工艺参数调节动作就为对该工艺状态中的质量问题对设备、产线以及工件等进行调节的工艺参数调节动作；起始工艺状态也可以为目标产品在正常生成过程中任一起始时刻的工艺状态，起始时刻可以由用户根据需求进行选定，此时对应的起始工艺参数调节动作就为对应于该工艺状态下设备、产线以及工件等的工艺参数。

S302，在所述专家评判模型的模型参数不变的情况下，将所述待评判序列输入至所述专家评判模型中，以使所述专家评判模型基于所述待评判序列生成指示对所述待评判序列的认可程度的认可结果。

该步骤中，固定预先训练好的专家评判模型的模型参数，使得专家评判模型的模型参数不变，将初始决策模型生成的待评判序列输入到专家评判模型中，使专家评判模型对待评判序列进行分析判断，并生成对待评判序列的认可程度的认可结果，其中认可结果包括认可或不认可。

其中，当初始决策模型生成的待评判序列中的工艺状态为目标产品有质量问题时的工艺状态，那对应的工艺参数调节动作即为为了解决质量问题所进行的工艺参数调节动作，此时的认可结果即为专家评判模型是否认可待评判序列中的工艺参数调节动作能解决待评判序列中的工艺状态。而当初始决策模型生成的待评判序列中的工艺状态为目标产品正常生产时的工艺状态，也可以用专家评判模型对待评判序列中的状态动作对进行认可程度的判断，此时的认可结果即为专家评判模型是否认可待评判序列中的工艺参数调节动作与待评判序列中的工艺状态相对应。

S303，当所述认可结果指示所述专家评判模型对所述待评判序列不认可时，基于所述认可结果确定所述初始决策模型的损失值，并基于所述损失值更新所述初始决策模型的模型参数，得到更新决策模型，并将所述更新决策模型作为所述初始决策模型，返回执行步骤S301。

该步骤中，当专家评判模型输出的认可结果为对待评判序列不认可时，说明专家评判模型认为初始决策模型生成的待评判序列中的工艺参数调节动作与工艺状态不对应，或者为待评判序列中的工艺参数调节动作不能解决此工艺状态的问题，则利用此认可结果计算出初始决策模型的损失值，并将计算得到的损失值传回给初始决策模型，从而对初始决策模型的模型参数进行更新，更新完初始决策模型的模型参数后，得到更新决策模型，并将得到更新决策模型作为初始决策模型，返回执行步骤S301，使得更新完模型参数的初始决策模型重新生成待评判序列以供专家评判模型进行判断。直至认可结果为认可时，停止迭代更新。

其中，损失值为待评判序列与理想序列之间的误差值；更新完模型参数的决策模型重新生成的待评判序列与没有更新模型参数的初始决策模型生成的待评判序列的序列长度以及第一个工艺状态是相同的。

示例的，假设初始决策模型为

，专家评判模型为

，认可时

，不认可时

，

为待评判序列，最初生成的待评判序列中仅包含一个状态动作对。假设工艺状态为

，使用初始决策模型确定与

对应的工艺参数调节动作为

，得到的待评判序列

，将

带入专家评判模型，若得到的认可结果为0，则利用此结果计算与判断结果为1的损失值，使用计算得到的损失值进行反向梯度传播，更新初始决策模型的模型参数

，更新完模型参数的初始决策模型重新生成待评判序列

，直至待评判序列

带入专家评判模型后，得到的认可结果为1，停止迭代更新。

S304，当所述认可结果指示所述专家评判模型对所述待评判序列认可时，判断所述待评判序列的序列长度是否满足预设要求。

该步骤中，专家评判模型对接收的待评判序列进行认可程度判断，并输入认可程度的认可结果，当输出的认可结果为专家评判模型认可初始决策模型生成的待评判序列，即不需要再对初始决策模型的模型参数进行更新。然后再判断生成的待评判序列的序列长度是否满足预设要求。

其中，上述对待评判序列的序列长度进行判断，是对待评判序列中的状态动作对的数量进行判断；所述预设要求可以由目标产品的实际生产流程决定序列长度阈值或者用户依据自身需求预先指定的序列长度阈值。

S305，当所述待评判序列的序列长度不满足预设要求时，控制所述初始决策模型重新生成新的样本数据集，使用所述新的样本数据集训练所述专家评判初始网络，得到更新专家评判模型，并调整所述待评判序列的序列长度，得到新的待评判序列，将所述更新专家评判模型作为所述专家评判模型，将所述新的待评判序列作为所述待评判序列，返回执行步骤S302。

该步骤中，当初始决策模型生成的待评判序列得到专家评判模型的认可，但是该待评判序列的序列长度不满足预设序列长度阈值时，使用初始决策模型重新生成训练专家评判网络的样本数据集，使用重新生成的新的样本数据集继续训练之前已经进行训练的专家评判初始网络，得到更新专家评判模型。同时对不满足预设序列长度阈值的待评判序列的序列长度，得到新的待评判序列，将更新专家评判模型作为步骤S302中的专家评判模型，将新的待评判序列作为步骤S302中的待评判序列，并返回执行步骤S302。

需要说明的，所述更新专家评判模型是对之前训练过的专家评判模型的模型参数进行更新得到的。

作为示例，所述调整所述待评判序列的序列长度，包括：确定所述待评判序列中最后一个状态动作对中的工艺参数调节动作；基于所述工艺参数调节动作，确定出与所述工艺参数调节动作对应时刻的下一时刻的工艺状态；将所述下一时刻的工艺状态输入至所述初始决策模型中，确定出所述下一时刻的工艺参数调节动作；基于所述下一时刻的工艺状态和所述下一时刻的工艺参数调节动作确定出下一时刻的状态动作对，并将所述下一时刻的状态动作对增加到所述待评判序列中，以完成对所述待评判序列的序列长度的调整。

需要说明的是，确定下一时刻是由目标产品实际生产过程中所对应的工艺状态顺序决定的。在对待评判序列的序列长度进行调整，具体为：当待评判序列的序列长度不满足预设序列长度阈值要求，需要对该待评判序列的序列长度进行调整时。首先对待评判序列中的所包含的状态动作对进行分析，确定出待评判序列中最后一个状态动作对，确定出该状态动作对中的工艺参数调节动作。

然后使用确定出的工艺参数调节动作与目标产品实际生产环境进行互动，确定出下一时刻的工艺状态，再将确定出的下一时刻的工艺状态输入至初始决策模型中，确定出对应于下一时刻的工艺状态的下一时刻的工艺参数调节动作。

最后使用确定出的下一时刻的工艺状态和下一时刻的工艺参数调节动作组成下一时刻的状态动作对，并将下一时刻的状态动作对依次添加到所述待评判序列中，以完成对所述待评判序列的序列长度进行调整。

需要说明的，在对待评判序列中的序列长度进行调整时，实际上是对待待评判序列中的序列长度加1，也就是增加一个状态动作对。

对应于上述实施例，当需要对待评判序列

的序列长度进行调整时，使用工艺参数调节动作

与环境进行互动确定出下一工艺状态

，将

输入到初始决策模型

中，确定出

，故调整完序列长度的待评判序列为

。

S306，当所述待评判序列的序列长度满足预设要求时，将当前的初始决策模型确定为工艺参数调节动作目标决策模型。

该步骤中，当待评判序列的序列长度满足预设序列长度阈值要求时，结束模型优化过程，将当前的初始决策模型确定为工艺参数调节动作目标决策模型。

作为示例，所述优化方法在得到工艺参数调节动作目标决策模型之后，所述优化方法还包括：获取所述目标产品的待处理工艺状态；将所述待处理工艺状态输入至所述目标决策模型，所述目标决策模型生成对应于所述待处理工艺状态的工艺参数调节动作。

该步骤中，使用优化完成得到的目标决策模型可以得到工艺参数调节动作。首先将待处理工艺状态输入到目标决策模型中，然后，目标决策模型对接收到的待处理工艺状态进行分析，输出对应于待处理工艺状态的工艺参数调节动作。

通过上述方式，本申请依据生成对抗技术，使用专家评判模型对决策模型的模型参数进行优化，并且采用渐进式的确认方式，保证决策模型逐渐学会多步操作的决策过程，避免了单步学习的误差积累，从而有助于提高生成的目标决策模型的可靠性以及生成的工艺参数调节动作的准确度，进而避免因模型推荐不恰当参数造成生产不良或生产事故的发生。

请参阅图4、图5，图4为本申请实施例所提供的一种工艺参数调节动作决策模型的优化装置的结构示意图之一，图5为本申请实施例所提供的一种工艺参数调节动作决策模型的优化装置的结构示意图之二。如图4中所示，所述优化装置400包括：

获取模块410，用于获取工艺参数的初始决策模型，其中，所述工艺参数的初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型；

专家评判模型确定模块420，用于通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；

目标决策模型确定模块430，用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

进一步的，所述目标决策模型确定模块430在用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型时，所述目标决策模型确定模块430用于：

进一步的，所述目标决策模型确定模块430在用于调整所述待评判序列的序列长度时，所述目标决策模型确定模块430用于：

进一步的，所述目标决策模型确定模块430在使用所述初始决策模型生成待评判序列时，第一次生成的所述待评判序列中包含一个状态动作对。

进一步的，如图5所示，所述优化装置400还包括初始决策模型确定模块440，所述初始决策模型确定模块440用于：

采用模仿学习的训练方式，使用所述训练样本数据集训练预先构建好的初始决策神经网络，生成所述工艺参数的调节动作初始决策模型。

进一步的，所述优化装置400还包括样本数据集构建模块450，所述样本数据集构建模块450用于：

基于所述状态动作对产生工艺参数的推断序列；

进一步的，所述优化装置400还包括处理模块460，所述处理模块460用于：

获取所述目标产品的待处理工艺状态；

本申请实施例提供的一种工艺参数调节动作决策模型的优化装置。所述优化装置包括：获取模块，用于获取工艺参数调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型；专家评判模型确定模块，用于通过所述初始决策模型获取样本数据集，构建专家评判初始网络，并使用所述样本数据集来训练所述专家评判初始网络，以得到专家评判模型；目标决策模型确定模块，用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1所示方法实施例中的工艺参数调节动作决策模型的优化方法以及图3所示方法实施例中的工艺参数调节动作目标决策模型的方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的工艺参数调节动作决策模型的优化方法以及图3所示方法实施例中的工艺参数调节动作目标决策模型的方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种工艺参数调节动作决策模型的优化方法，其特征在于，所述优化方法包括：

使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型；其中，所述待评判序列由所述目标产品在生产过程中的状态动作对组成；

所述使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型，包括：

（A）基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；

2.根据权利要求1所述的优化方法，其特征在于，所述调整所述待评判序列的序列长度，包括：

3.根据权利要求1所述的优化方法，其特征在于，在使用所述初始决策模型生成待评判序列时，第一次生成的所述待评判序列中包含一个状态动作对。

4.根据权利要求1所述的优化方法，其特征在于，通过以下步骤生成所述工艺参数调节动作初始决策模型：

5.根据权利要求1所述的优化方法，其特征在于，所述通过所述初始决策模型获取样本数据集，包括：

基于所述状态动作对产生工艺参数的推断序列；

6.根据权利要求1所述的优化方法，其特征在于，在得到工艺参数调节动作目标决策模型之后，所述优化方法还包括：

获取所述目标产品的待处理工艺状态；

7.一种工艺参数调节动作决策模型的优化装置，其特征在于，所述优化装置包括：

获取模块，用于获取工艺调节动作初始决策模型，其中，所述工艺参数调节动作初始决策模型为预先训练好的用于预测目标产品在生产过程中的工艺参数的调节动作的机器学习模型；

目标决策模型确定模块，用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型；其中，所述待评判序列由所述目标产品在生产过程中的状态动作对组成；

所述目标决策模型确定模块在用于使用所述初始决策模型生成待评判序列，在所述专家评判模型的模型参数不变的情况下，使用所述专家评判模型对所述待评判序列进行判断，得到所述待评判序列的认可结果，基于所述认可结果，更新所述初始决策模型的模型参数，得到工艺参数调节动作目标决策模型时，所述目标决策模型确定模块用于：

基于所述初始决策模型生成目标产品在生产过程中有关工艺参数调节动作的待评判序列，其中，所述目标产品的状态动作对包括所述目标产品的工艺状态和与该工艺状态对应的工艺参数调节动作；

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6中任一所述的工艺参数调节动作决策模型的优化方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6中任一所述的工艺参数调节动作决策模型的优化方法。