CN116700003A

CN116700003A - 使用流程工业历史数据构建强化学习环境的方法及系统

Info

Publication number: CN116700003A
Application number: CN202310781000.9A
Authority: CN
Inventors: 况佳冰; 张扬; 王宽心; 吴玉成
Original assignee: Zhejiang Supcon Technology Co Ltd
Current assignee: Zhejiang Supcon Technology Co Ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-09-05

Abstract

本发明涉及一种使用流程工业历史数据构建强化学习环境的方法及系统，该方法包括：收集生产过程历史数据，包括工业生产过程中记录的传感器数据、生产过程控制操作数据和产品质量分析数据；根据对应工业场景将生产过程历史数据划分为状态集合与动作集合；根据工业场景的控制优化目标设定奖励函数；将生产过程历史数据、状态定义、动作定义和奖励函数输入到不同的深度学习网络模型中训练，得到工业场景强化学习环境的模型。本发明可以对未知工况进行多次探索，无需在真实环境上进行测试即可找到最优控制策略。

Description

使用流程工业历史数据构建强化学习环境的方法及系统

技术领域

本发明涉及流程工业技术领域，尤其涉及一种使用流程工业历史数据构建强化学习环境的方法。

背景技术

在化学工业、制药工业、能源工业、材料工业等领域的流程工业中，由于设备操作的复杂性和不确定性，以及操作员的疲劳、经验不足等原因，可能导致操作失误问题，很难快速设计出一种高效可靠稳定的自动化生产控制策略。

近年来，强化学习在机器人等领域得到了广泛应用，它可以通过环境给出的反馈来不断调整行为策略，达到优化控制决策的目的。但是，在流程工业领域的实际应用过程中，强化学习面对的一个主要问题是如何构建特定流程工业场景对应的强化学习环境。

当前流程工业的强化学习算法使用的环境主要是仿真环境，该仿真环境主要基于机理模型进行数学建模，以工业过程中发生的物理变化、化学变化为基础，按照化学反应机理、反应动力学、热力学等原理，构建复杂的数学方程组对特定流程工业过程进行仿真。该方法主要存在以下缺点：

1)建模复杂，周期长。流程工业场景较为复杂，不同过程对应不同的数学模型，不同的数学模型求解方式也不同。

2)计算复杂。真实的流程工业场景涉及的变量非常多，构建的数学方程组非常复杂，且不一定存在解析解。

3)难以仿真与时序相关的动态场景。

4)缺乏合适的或足够的理论依据时，不能对流程工业生产过程进行正确描述。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种使用流程工业历史数据构建强化学习环境的方法及系统，其解决了现有的流程工业过程的仿真方法的数学模型及其计算过于复杂，且无法进行时序仿真和模糊仿真的技术问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种使用流程工业历史数据构建强化学习环境的方法，包括以下步骤：

收集生产过程历史数据，包括工业生产过程中记录的传感器数据、生产过程控制操作数据和产品质量分析数据；

根据对应工业场景将生产过程历史数据划分为状态集合与动作集合；状态集合包括：生产环节的特征或属性；动作集合包括：智能体可操作变量；

根据工业场景的控制优化目标设定奖励函数，在智能体学习过程中，通过奖励函数评价智能体的行为决策是否正确，以调整智能体的学习方向；

将生产过程历史数据、状态定义、动作定义和奖励函数输入到不同的深度学习网络模型中训练，得到工业场景强化学习环境的模型。

本发明实施例提出的使用流程工业历史数据构建强化学习环境的方法，能够模拟复杂系统的行为和相互作用，预测生产过程中的问题并采取措施以避免停机时间和质量问题，例如供应链、生产线等。节省了实验成本和时间。

可选地，智能体可操作变量包括：调整设备运行参数和改变生产流程。

可选地，深度学习网络模型包括变分自编码器生成模型；当在变分自编码器生成模型中训练时，输入是<当前状态、当前状态采取的行为>，输出是<下一个状态，奖励>。

可选地，当在变分自编码器生成模型中训练时，引入KL散度来评估潜在向量与先验分布之间的差异，使得模型可以通过调节先验分布的参数来控制生成样本的多样性。

可选地，深度学习网络模型包括循环网络模型；当在循环网络模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。

可选地，深度学习网络模型包括Transformer模型；当在Transformer模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。

可选地，将训练好的工业场景强化学习环境的模型应用于实际流程工业的生产环境中，根据效果进行参数优化，根据优化后的参数，优化更新工业场景强化学习环境的模型。

可选地，奖励函数根据生产效率、成本和质量的优化进行设计。

可选地，收集生产过程历史数据后，对收集到的生产过程历史数据进行清洗、去噪和标准化。

第二方面，本发明实施例提供一种计算机系统，包括存储器和处理器；存储器，用于存储计算机程序；处理器，用于当执行计算机程序时，实现上述的使用流程工业历史数据构建强化学习环境的方法。

(三)有益效果

本发明的有益效果是：本发明的使用流程工业历史数据构建强化学习环境的方法及系统，采用流程工业历史数据构建强化学习环境的方法旨在构建适用于强化学习算法研究的环境，将实际生产过程中的数据应用于强化学习算法中，以便训练智能体进行自主决策，挖掘历史数据中的有效信息。这种方法有助于提高流程工业的效率和质量，并减少成本和资源浪费。本发明构建适用于流程工业目标场景的强化学习环境。该环境适用于各种强化学习算法的应用，可以对未知工况进行多次探索，无需在真实环境上进行测试即可找到最优控制策略。

附图说明

图1为本发明优选实施例的使用流程工业历史数据构建强化学习环境的方法的流程图；

图2为本发明优选实施例的马尔可夫决策过程的流程示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例中的名词解释：

生成模型：一种深度学习模型，其目标是学习数据的分布，并且可以基于该分布生成新的样本。

Transformer模型：一种应用于序列到序列任务的深度学习模型。

马尔可夫决策：用一类数学方法来描述序列决策问题的模型。

本发明实施例的一种使用流程工业历史数据构建强化学习环境的方法，包括以下步骤：

收集生产过程历史数据，包括工业生产过程中记录的传感器数据、生产过程控制操作数据和产品质量分析数据。实施时，收集生产过程历史数据后，对收集到的生产过程历史数据进行清洗、去噪和标准化。清洗和去噪可消除数据中的噪声和异常值，根据环境构建需求将数据标准化，以便后续的模型训练。

根据对应工业场景将生产过程历史数据划分为状态集合与动作集合；状态集合包括：生产环节的特征或属性；动作集合包括：智能体可操作变量；实施时，智能体可操作变量包括：调整设备运行参数和改变生产流程。S2为马尔可夫决策过程构建；如图2所示，在一个马尔可夫决策过程中，智能体处于一个特定的状态s_t，根据动作策略选择一个动作a_t来执行。执行完动作后，智能体会根据环境给出的反馈从当前状态s_t转移到下一个状态s_t+1，并收到一个奖励信号r_t+1。这个过程会一直持续到达到终止状态为止。

根据工业场景的控制优化目标设定奖励函数，在智能体学习过程中，通过奖励函数评价智能体的行为决策是否正确，以调整智能体的学习方向。实施时，奖励函数根据生产效率、成本和质量的优化进行设计。

将生产过程历史数据、状态定义、动作定义和奖励函数输入到不同的深度学习网络模型中训练，得到工业场景强化学习环境的模型。深度学习网络模型的作用是给出特定状态和动作下的状态反馈与奖励值。

实施时，深度学习网络模型包括变分自编码器生成模型；当在变分自编码器生成模型中训练时，输入是<当前状态、当前状态采取的行为>，输出是<下一个状态，奖励>。变分自编码器使用变分推断方法来学习一个近似的数据后验分布实现数据编码过程，将高维输入数据进行编码，映射为一个低维潜在向量，再通过反解码器将该向量重构为与所需要的输出。实施时，当在变分自编码器生成模型中训练时，引入KL散度来评估潜在向量与先验分布之间的差异，使得模型可以通过调节先验分布的参数来控制生成样本的多样性。

实施时，深度学习网络模型包括循环网络模型；当在循环网络模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。具体来说，循环神网络会根据当前输入和上一时刻的状态，计算出一个新的隐状态和一个输出，同时将该隐状态传递给下一个时刻，形成了一个循环过程，因此循环网络具有较强的记忆能力。

实施时，深度学习网络模型包括Transformer模型；当在Transformer模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。Transformer是一种序列到序列的模型，将输入数据改为Transformer模型所需序列格式，采用多头注意力机制对序列进行编码及位置编码，使得模型能够学到不同特征的权重信息同时学到不同数据之间的位置关系。

实施时，深度学习网络模型还可以包括其他的算法的模型，如Informer、生成对抗网络等。

实施时，工业场景强化学习环境的模型训练完成后，将训练好的工业场景强化学习环境的模型应用于实际流程工业的生产环境中，根据效果进行参数优化，根据优化后的参数，优化更新工业场景强化学习环境的模型。

例如：将本发明实施例应用于多晶硅还原炉批次型生产过程中，包括步骤：在多晶硅还原炉批次型生产过程中，将高纯度的氢气与三氯氢硅加入还原炉中，在高温高压的密闭空间内进行化学反应一段时间后得到多晶硅产物。在这个过程中，主要通过控制相电流大小、进料流量等影响生产过程。该过程无法直接测量目标产物的重量、质量，也无法获得还原炉内准确的温度分布情况等关键状态变量，只能通过传感器记录的相关变量(如相功率、换热功率、流量等)推测多晶硅的真实状态。生产目标是减少能耗的同时获得更多且质量较高的产物。

在该生产过程中，对收集到的数据进行初步处理，然后筛选出87个位点信号作为状态元素S，其中包含换热功率、相电流、相电压、相功率、压力、温度、流量、液位等，8个位点信号作为行为元素A，其中包含进料流量、升降电流幅度，根据历史生产过程中的能源消耗、最终成品质量等制定奖励函数R。在本案例中，能源消耗可用功率之和表示，质量与相电阻成反比，R＝f(功率之和，电阻)。

奖励函数R的给定方式可以为以下几种:

1.R＝sum(S_t+1-S_t)。

2.R＝max(target)，如本案例中目标target为最小能源消耗、最大产量。

3.R＝model(S_t，S_t+1)，根据历史数据中的状态变化情况，给定相应的奖励，使用历史数据与给定的奖励训练一个状态转换与奖励之间映射的模型。

4.专家经验，由专家评定模型的输出结果并给出一个评价。

然后，按照不同深度网络模型的输入数据格式要求，修改数据格式并送入网络模型进行训练，选择均方误差最小的模型作为最优模型。部署该模型至实际生产环境，比较测试环境给出的反馈与实际测量值的差异。

对应地，本发明实施例还提供一种计算机系统，包括存储器和处理器；存储器，用于存储计算机程序；处理器，用于当执行计算机程序时，实现上述的任一实施方式的使用流程工业历史数据构建强化学习环境的方法。

实施时，本发明所称的流程工业涵盖化学工业、制药工业、能源工业、材料工业等领域。

综上可知，本发明采用马尔可夫决策模型构建，先对原始数据进行梳理，将收集的位点信号数据按照马尔科夫决策分为状态与行为，再根据流程工业生产目标等因素设计对应的奖励函数。然后，通过深度网络模型为变分自编码生成模型、循环网络模型、Transformer模型进行深度学习和训练，得到模型。由于不同流程工业场景数据特征不一致，因此本方法采用了三种不同架构的深度网络模型以适应多样化的数据。

本发明可迁移性强，应用于不同场景时无需重复建模，只需要历史数据即可。可持续更新模型，如某同一场景收集到新的数据，可输入至训练好的模型进行优化，更新模型参数，而不需要从头开始训练。本发明不仅可以处理稳态场景，还可以处理与时序相关的动态场景，可以对每一步操作进行评估，不需要等到仿真过程结束。

使用本发明的工业场景强化学习环境的模型可以解决以下问题：

能够模拟复杂系统的行为和相互作用，预测生产过程中的问题并采取措施以避免停机时间和质量问题，例如供应链、生产线等。可以在无风险的情况下测试不同的策略和决策，以便做出最佳的决策。有助于强化学习算法在流程工业领域的落地。减少资源浪费：节省了实验成本和时间，因为可以通过模拟环境进行控制策略的测试和优化，而不需要进行实际试验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

Claims

1.一种使用流程工业历史数据构建强化学习环境的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，所述智能体可操作变量包括：调整设备运行参数和改变生产流程。

3.如权利要求1所述的使用流程工业历史数据构建强化学习环境的方法，所述深度学习网络模型包括变分自编码器生成模型；当在变分自编码器生成模型中训练时，输入是<当前状态、当前状态采取的行为>，输出是<下一个状态，奖励>。

4.如权利要求3所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，当在变分自编码器生成模型中训练时，引入KL散度来评估潜在向量与先验分布之间的差异，使得模型可以通过调节先验分布的参数来控制生成样本的多样性。

5.如权利要求1所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，所述深度学习网络模型包括循环网络模型；当在循环网络模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。

6.如权利要求1所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，所述深度学习网络模型包括Transformer模型；当在Transformer模型中训练时，输入是<N步长状态，N步长状态对应的行为>，输出是<下一个状态，奖励>。

7.如权利要求1-6中任一项所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，将训练好的工业场景强化学习环境的模型应用于实际流程工业的生产环境中，根据效果进行参数优化，根据优化后的参数，优化更新所述工业场景强化学习环境的模型。

8.如权利要求7所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，所述奖励函数根据生产效率、成本和质量的优化进行设计。

9.如权利要求1-6中任一项所述的使用流程工业历史数据构建强化学习环境的方法，其特征在于，收集生产过程历史数据后，对收集到的生产过程历史数据进行清洗、去噪和标准化。

10.一种计算机系统，其特征在于：包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如权利要求1-9中任一项所述的使用流程工业历史数据构建强化学习环境的方法。