CN114462309B

CN114462309B - 一种物理仿真模型训练方法、装置、设备和存储介质

Info

Publication number: CN114462309B
Application number: CN202210060135.1A
Authority: CN
Inventors: 陈曦; 王超
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2023-11-17
Anticipated expiration: 2042-01-19
Also published as: CN114462309A

Abstract

本申请涉及一种物理仿真模型训练方法、装置、设备和存储介质，属于信息物理系统技术领域。上述方法包括：对机组工况历史采样数据进行数据清洗，获得清洗后数据；对所述清洗后数据采用感知/拟合算法，获得机组物理仿真模型；采用所述清洗后数据训练神经网络预测模型；将所述神经网络预测模型改造为初始决策网络，将所述机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能。采用本方法能够获得适用于工业场景下信息物理系统的完备、实时优化解决方案，为机组中各部件的工况实时优化调整，提供实时数据预测。

Description

一种物理仿真模型训练方法、装置、设备和存储介质

技术领域

本发明涉及信息物理系统技术领域，特别涉及一种物理仿真模型训练方法、装置、设备和存储介质。

背景技术

以动力、化工、航天和环境工程为代表的工业系统是现代社会运行的重要基础。改善、提高工业系统的运行性能是进一步提高现有能源利用效率的有效途径，具有重要的经济与社会意义。然而，运行于工业场景下的机组及其部件通常受到外界负荷、大气环境和燃料变化等因素的影响，其实际运行状态时常偏离设计工况，导致机组未必总能达到最优状态。因此，寻求变工况下的实时经济性最优运行点是工业界的共同关注点。

传统的工业场景仅配备运行调控和安全监视系统，机组中各个部件的协调运行通常采用人工经验控制的方式，尚缺乏具备运行优化功能的协调调度方法，难以实现机组整体效益最大化。作为可能的解决方案，现有工业场景下的运行优化，至少需要：(1)收集机组各个部件的历史运行数据，训练模型；(2)基于各个部件的出厂特征参数，构建各部件的变工况模型和机组的物理仿真模型，在构建得到模型的基础上结合启发式优化算法进行运行参数优化。在收集历史运行数据这一环节，一方面，由于机组历史运行状态无法保证最优，导致训练得到的模型亦无法保证最优；另一方面，由于缺乏历史运行数据，导致模型训练的效果不佳。即使是长时间运转的工业场景，历史数据数量虽然充足，但多为重复的、动态的、含大量噪声与误差的测量数据，在此基础上对模型展开训练，亦无法达到理想效果。在构建模型这一环节，受现有仿真算法在大规模场景下的时间敏感性限制，无法满足运行优化的实时性需求；因此，该思路仅适用于工业机组的设计优化计算，无法适应运行优化计算的实时性需求。综上，现有工业场景下的信息物理系统，尚缺乏一种完备的实时优化解决方案，参与优化机组各部件工况的实时运行调整。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种物理仿真模型的生成方法、装置、设备和存储介质，以克服现有技术在工业场景下的信息物理系统，缺乏完备的实时优化解决方案，参与优化机组各部件工况的实时运行调整的问题。

为了解决上述的一个或多个技术问题，本发明采用的技术方案如下：

第一方面，提供一种物理仿真模型训练方法，用于构建工业场景下的机组工况预测模型，包括：

对机组工况历史采样数据进行数据清洗，获得清洗后数据；

对清洗后数据采用感知/拟合算法，获得机组物理仿真模型；

采用清洗后数据训练神经网络预测模型；

对清洗后数据使用启发式优化算法，获得各工况下的最优运行状态特征参数组合；

使用最优运行状态特征参数组合，训练神经网络预测模型；

将神经网络预测模型改造为初始决策网络，将机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能。

进一步地，将神经网络预测模型改造为初始决策网络，将机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能，包括：

保持神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，将输出参数由运行状态特征参数改变为运行状态特征参数的平均值和标准差；

设定评价函数用于评估决策网络的输出参数的优劣；

采用随机梯度上升算法继续训练决策网络。

进一步地，对机组工况历史采样数据进行数据清洗，获得清洗后数据包括：

对机组工况历史采样数据执行数据删除，和/或数据增补；

对执行过数据删除，和/或数据增补后的机组工况历史采样数据采用3σ准则进行粗大误差校正；

对执行过粗大误差校正后的机组工况历史采样数据采用基于滑动窗口的高斯滤波法进行噪声数据校正；

对执行过噪声数据校正后的机组工况历史采样数据采用迪基-福勒检验(Dickey-Fuller Test)方法进行稳态工况筛选，获得清洗后数据。

进一步地，对机组工况历史采样数据执行数据删除，和/或数据增补包括：

删除机组工况历史采样数据中的长期缺失的数据；

和/或，

采用线性插补法处理机组工况历史采样数据中的短时缺失的数据。

进一步地，对清洗后数据采用感知/拟合算法，获得机组物理仿真模型包括：

根据清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型；

叠加机组中各个部件运行状态特征参数的变工况模型，获得机组物理仿真模型。

进一步地，根据清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型包括：

对机组中的每一个部件，执行如下方法：

选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型；

采用感知/拟合算法求解运行状态特征参数的变工况模型中的待定系数；

通过k折交叉验证判断多项式函数选取的准确性；

若判断多项式函数选取准确，则将拟合后的多项式函数作为部件的运行状态特征参数的变工况模型，并开始求解机组中下一个部件运行状态特征参数的变工况模型；

若判断多项式函数选取不准确，则重新选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型。

进一步地，采用清洗后数据训练神经网络预测模型包括：

使用最优运行状态特征参数组合，训练神经网络预测模型。

第二方面，提供一种物理仿真模型训练装置，包括：数据清洗模块，感知/拟合模块，网络训练模块，强化学习模块；

数据清洗模块，用于对机组工况历史采样数据进行数据清洗，获得清洗后数据；

感知/拟合模块，用于对清洗后数据采用感知/拟合算法，获得机组物理仿真模型；

网络训练模块，用于采用所述清洗后数据训练神经网络预测模型；

强化学习模块，用于将神经网络预测模型改造为初始决策网络，将机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能。

第三方面，提供一种计算机设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面任一所述的方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一所述的方法。

本发明实施例提供的技术方案带来的有益效果是：

1.获得了适用于工业场景下信息物理系统的完备、实时优化解决方案，为机组中各部件的工况实时优化调整，提供实时数据预测；

2.通过少量历史工况数据，即可对神经网络模型进行训练，进行系统实时运行优化，提升整体效益；

3.通过将决策网络的输出参数改造为均值和标准差的表征形式，将适用于离散空间的强化学习方法推广至连续空间；

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种物理仿真模型训练方法的流程示意图；

图2是本发明实施例提供的一种对机组工况历史采样数据进行数据清洗的数据曲线示意图；

图3是本发明实施例提供的一种物理仿真模型训练装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。说明书附图中的编号，仅表示对各个功能部件或模块的区分，不表示部件或模块之间的逻辑关系。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面，将参照附图详细描述根据本公开的各个实施例。需要注意的是，在附图中，将相同的附图标记赋予基本上具有相同或类似结构和功能的组成部分，并且将省略关于它们的重复描述。

针对现有技术中，缺乏工业场景下的信息物理系统的完备、实时运行优化解决方案，参与优化机组各部件工况的实时运行调整的问题，本发明提供一种物理仿真模型的生成方法、装置、计算机设备和计算机可读存储介质，具体的技术方案如下：

在一个实施例中，如图1所示，一种物理仿真模型训练方法，包括：

步骤S1：对机组工况历史采样数据进行数据清洗，获得清洗后数据；

步骤S2：对清洗后数据采用感知/拟合算法，获得机组物理仿真模型；

步骤S3：采用清洗后数据训练神经网络预测模型；

步骤S4：将神经网络预测模型改造为初始决策网络，将机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能。

在另一个实施例中，一种物理仿真模型训练方法，还包括：

步骤S0：获取预设时间段内的机组工况历史采样数据。

在工业场景下，机组内部设置有用于采集系统工况的检测点，检测点设置有传感器，采集包括：机组负荷、温度、质量流量、压力、电流等反应机组工况的物理量的实时数据。数据采样的方法为：等时间距采样，即每间隔一段预设时间就对各个检测点进行一次采样。将各个检测点在对应时刻采样得到的物理量进行汇总，存储于机组运行数据库中。机组运行数据库中保存有历史采样时刻和与每一历史采样时刻相对应的反应机组工况的物理量的数据记录。通过步骤S0，获取了预设时间段内的系统工况历史采样数据，以供执行步骤S1记载的数据清洗。

在一个实施例中，一种物理仿真模型的生成方法，包括：

步骤S1：对机组工况历史采样数据进行数据清洗，获得清洗后数据。

由检测点采样获得的机组工况历史采样数据集中并且数据量大。而然，机组在运行时的采样数据通常存在以下特点：(1)检测点采集到的历史采样数据相互关联，表征信息冗余；(2)历史采样数据精度不一且夹杂大量随机噪声；(3)各状态变量的动态响应特性差异显著。因此，机组工况历史采样数据存在大量的重复、瞬态、夹杂大量噪声和误差的无效数据，直接以采集到的机组工况历史采样数据作为数据集对模型进行训练，无法获得理想的计算效果。因此需要借助信号处理技术和统计方法，有针对性地对采集到的机组工况历史采样数据进行数据清洗，获得平滑、稳态、独立的工况数据。下面将结合图2对步骤S1所叙述的“对机组工况历史采样数据进行数据清洗”的具体方法进行详细阐述，需要说明的是：图2自上而下包含了图2(a)、图2(b)、图2(c)和图2(d)四个部分，其中图2(d)还包括主图部分和子图部分。图2(a)、图2(b)、图2(c)和图2(d)的坐标系横轴均为同一尺度的时间轴。

对机组工况历史采样数据进行数据清洗，获得清洗后数据具体包括：

步骤S11：对机组工况历史采样数据进行数据删除，和/或数据增补；

具体包括：

步骤S111：删除机组工况历史采样数据中的长期缺失的数据；

步骤S112：采用线性插补法处理机组工况历史采样数据中的短时缺失的数据。

由前文的阐述可知，机组工况历史采样数据的数据采样方法为：等时间距采样，即每间隔一段预设时间就对各个检测点进行一次采样。一套机组的检测点数量多，若因停机，或者机组某些部件运行异常，或者因检测点仪表故障，将导致在某一或某些采样时刻，无法采集某个或某些检测点的数据。而对机组物理仿真模型的建立和训练需要采集时刻对应的机组工况数据具有完备性，即：在某一采集时刻，必须具有该时刻对应的各个检测点的数据。因此，首先需要对机组工况历史采样数据中缺失的数据进行处理。根据数据缺失的情况确定采用删除还是采用增补的方式进行处理。若机组工况历史采样数据中存在长期数据缺失的情况，则删除缺失数据对应采集时刻的所有检测点的采样数据；若机组工况历史采样数据中存在短时数据缺失的情况，则采用线性插补法处理机组工况历史采样数据中短时缺失的数据。

步骤S12：对执行过数据删除，和/或数据增补后的机组工况历史采样数据采用3σ准则进行粗大误差校正。

由于大多数测量数据的随机误差超过样本均方根误差的情况极少，故采用3σ准则对粗大误差进行检测、剔除和校正。如图2(a)所示，数据曲线上方的点虚线“······”和数据曲线下方的短横线“------”分别表示偏离数据曲线+3σ和-3σ的校验曲线，两条校验曲线范围外的数据点是需要剔除的粗大误差。通过3σ准则校验后的数据曲线如图2(b)所示。

步骤S13：对执行过粗大误差校正后的机组工况历史采样数据采用基于滑动窗口的高斯滤波法进行噪声数据校正。

由于工业场景下的生产环境复杂，机组工况数据在电、磁、振动等干扰下检测得到并传输。导致机组工况历史采样数据中含有大量噪声信号。因此，需要对机组工况历史采样数据进行降噪处理。对粗大误差校正后的机组工况历史采样数据，采用基于滑动窗口的高斯滤波法进行噪声数据校正。图2(c)示出了对图2(b)：对粗大误差校正后的数据曲线进行噪声数据校正后的数据曲线。

步骤S14：对执行过噪声数据校正后的机组工况历史采样数据采用迪基-福勒检验(Dickey-Fuller Test)方法进行稳态工况筛选，获得平滑、稳态数据，将平滑、稳态数据作为清洗后数据。

工业机组受到上游调度、燃料及环境温度等因素的影响，经常处于动态运行的工况，因此，机组工况历史采样数据中存在大量非稳态信息。采用Dickey-Fuller Test方法对数据曲线进行稳态工况筛选，可以使筛选后的数据曲线更加平滑、稳定，符合后续感知/拟合的要求。如图2(d)子图部分示出了，对图2(c)所示的数据曲线使用Dickey-Fuller Test方法得到的布尔变量随时间的变化关系。图2(d)主图部分示出了图2(c)所示的数据曲线与图2(d)子图部分叠加之后的数据曲线。叠加方式为：对应时间点的数据相乘。需要说明的是：系统受到扰动后，不同的状态参数达到稳态的过渡时间不尽相同，因此，最终满足要求的稳态工况为各状态变量稳态工况数据集的交集。

步骤S2：对清洗后数据采用感知/拟合算法，获得机组物理仿真模型。

经过上述步骤S1数据清洗后的机组工况历史采样数据，从数据量的角度已无法支持强化学习达到良好的效果。然而，对于通过感知/拟合算法获得机组内各部件的特征参数，进而构建机组物理仿真模型而言，数据量是足够的。因此，本步骤将先构建机组内各独立部件的特征参数变工况模型，进而构建机组物理仿真模型。具体方法包括：

步骤S21：根据清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型。

上述特征参数包括：换热系数、效率、制冷系数等性能参数和弗留格尔系数、阻力系数等通流参数。

求解机组中各个部件运行状态特征参数的变工况模型可以使用序贯模块法，联立方程法，联立模块法等方法。

在一个实施例中，采用序贯模块法求解机组中各个部件运行状态特征参数的变工况模型。序贯模块法是常用的流程模拟方法，将每一种单元过程建立相应的数学模型，编成一个单独的计算子程序形成模块。将分隔与断裂的算法也编成模块。按流程顺序将相应的单元过程模块搭接成一个计算信息流程。由分隔断裂模块自动分析断裂的部位及模块的计算顺序。顺序确定后，就一个一个模块地输入。该算法直观，易于为工程人员接受，计算机内存占用少，也易于形成通用化系统。为了消除机组检测点相互关联而造成的数据冗余，在一个实施例中，采用序贯模块法求解机组中各个部件运行状态特征参数的变工况模型，根据检测点重要度以及准确度剔除冗余变量，提取可以全面反映部件特性的最少量关键数据信息，保证选取检测点的独立性。具体包括，对机组中各个部件依次执行以下方法：

步骤S211：选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型；

步骤S212：采用感知/拟合算法求解运行状态特征参数的变工况模型中的待定系数；

步骤S213：通过k折交叉验证判断多项式函数选取的准确性；

步骤S214：若判断多项式函数选取准确，则将拟合后的多项式函数作为该部件的运行状态特征参数的变工况模型，并开始求解机组中下一个部件运行状态特征参数的变工况模型；

步骤S214′：若判断多项式函数选取不准确，则重新选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型。

由于高次多项式可以无限逼近任何函数关系，因此，选取多项式函数作为机组中一个部件的运行状态特征参数的变工况模型。

对于待定系数的感知/拟合，通常通过Regress和Nlinfit等工具进行。

采用k折交叉验证时，求解得到属于(0,1)区间的拟合系数R²，该拟合系数越接近1，说明所选多项式函数的准确性越高。

由于采用序贯模块法求解机组中各个部件运行状态特征参数的变工况模型需要遍历机组中的各个部件执行操作。对于每一个部件都需要执行如步骤S211～步骤S213所叙述的操作，若当前部件的运行状态特征参数的变工况模型的验证结果为：准确，则进行下一个部件的求解过程；否则，再次选取多项式函数，对当前部件的运行状态特征参数的变工况模型进行重新求解。

步骤S22：叠加机组中各个部件运行状态特征参数的变工况模型，获得机组物理仿真模型。

步骤S3：采用清洗后数据训练神经网络预测模型，具体包括：

步骤S31：对清洗后数据使用启发式优化算法，获得各工况下的最优运行状态特征参数组合包括：

步骤S311：对清洗后数据进行并行优化计算，在机组满足符合约束和安全运行约束的前提下，以优化目标量为目标，基于启发式优化算法，获得机组中各个部件运行状态特征参数的最优值。

上述启发式优化算法包括：遗传算法、模拟退火算法、爬山搜索算法、序列二次规划算法等。

上述优化目标量包括：净功量、热效率、煤耗率等运行性能表征函数，以及制造成本、运行成本、效益等经济学函数。

步骤S312：记录上述部件运行状态特征参数的最优值。

步骤S32：使用最优运行状态特征参数组合，训练神经网络预测模型。

以符合边界条件和环境变量为特征变量，以部件的运行状态特征参数为回归目标，以记录的部件运行状态特征参数的最优值作为数据集训练神经网络模型。模型损失函数定义为带分位数的log-cosh损失，在保证鲁棒性的基础上易于了解回归预测的不确定度。神经网络层数以及每层的节点数由优化任务的复杂程度确定，可以采用超参数寻优的方式进行确定。通过训练神经网络预测模型，可以达到如下效果：输入一组机组当前的负荷条件/环境条件，神经网络预测模型便可快速响应输出最优运行状态特征参数的预测数值，这一过程在“秒”数量级。

强化学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在于环境(state)的交互过程中，通过学习策略(action)已达成回报(reward)最大化或实现特定目标的问题。本发明公开的将上述神经网络预测模型改造为初始决策网络，通过强化学习优化决策网络的性能，具体包括：

步骤S41：保持上述神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，将输出参数由运行状态特征参数改变为运行状态特征参数的平均值和标准差。

在另一个实施例中，改造的过程是：保持神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，输出量由各个阀门的开度，改变为各个阀门各自开度的均值以及标准差。对于连续空间，本发明公开的决策网络的输出为数个多维独立高斯分布的均值与标准差。多维独立高斯分布具有单峰性，决策网络训练收敛后，其中一个表征就是输出的所有标准差的数值非常小。此时，认定网络输出的数值的置信区间很高，所以预测的时候以决策网络输出的均值和标准差构成的独立高斯分布中的采样作为阀门开度的最优组合。

步骤S42：设定评价函数用于评估决策网络的输出参数的优劣；

在传统的强化学习算法中，评价函数的功能由估值网络来承担。本发明公开的评价函数通过物理仿真模型承担，其基本形式为两项的乘积，第一项是“回报”，即“reward”；在一个实施例中，“reward”是通过求解物理仿真模型获得的对应当前阀门开度组合的发电量。另一项是决策网络输出这组阀门开度组合的概率值。设定该概率值的原因如下：(1)这个概率的作用是让发电量“相对”越大的场景出现的几率变大；(2)这个概率乘积具有惩罚功能，如果决策网络性能是好的，但是恰巧采样出来的点偏离均值过远，此时，不能过多地修正决策网络的参数值，所以要通过这种情况出现的概率对他的“reward”值进行一个惩罚。

步骤S43：采用随机梯度上升算法继续训练决策网络。

设定决策网络与评价函数后，通过随机梯度上升的方式继续训练决策网络。从当前的“state”和“action”获得“reward”的过程，也就是通过决策网络获得的阀门开度组合得到发电量这个过程是由机组物理仿真模型分析获得的，起到估值网络的作用。由它负责判断现在决策的优劣。有了物理模型仿真模型可以非常快速的和环境(state)交互，所以每次前向传播的过程中可以采样出大量的算例，克服了policy-based方法天生稳定性不好和耗时的问题。最终，通过重要性采样的方式将on-policy的决策网络转变为off-policy网略，通过PPO算法中的KL惩罚项，减少物理模型仿真计算的次数，可加速了整个模型训练速度。解决了原始policy-based算法不易解决的连续变量学习的问题，而且整个训练流程就是反复的求解仿真模型计算以及梯度上升优化计算，减少了训练计算量。

在另一个实施例中，如图3所示，一种物理仿真模型训练装置，包括：数据清洗模块1，感知/拟合模块2，网络训练模块3，强化学习模块4；

数据清洗模块1，用于对机组工况历史采样数据进行数据清洗，获得清洗后数据。

具体地，对机组工况历史采样数据执行数据删除，和/或数据增补；具体地，删除机组工况历史采样数据中的长期缺失的数据；和/或，采用线性插补法处理机组工况历史采样数据中的短时缺失的数据。

对执行过噪声数据校正后的机组工况历史采样数据采用Dickey-Fuller Test方法进行稳态工况筛选，获得平滑、稳态数据，将平滑、稳态数据作为清洗后数据。

感知/拟合模块2，用于对清洗后数据采用感知/拟合算法，获得机组物理仿真模型；具体地，根据清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型；具体地，对机组中的每一个部件，执行如下方法：

选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型；采用感知/拟合算法求解运行状态特征参数的变工况模型中的待定系数；通过k折交叉验证判断多项式函数选取的准确性；若判断多项式函数选取准确，则将拟合后的多项式函数作为部件的运行状态特征参数的变工况模型，并开始求解机组中下一个部件运行状态特征参数的变工况模型；若判断多项式函数选取不准确，则重新选取多项式函数作为机组中某一个部件的运行状态特征参数的变工况模型。

网络训练模块3，用于采用清洗后数据训练神经网络预测模型，具体地：对清洗后数据进行并行优化计算，在机组满足符合约束和安全运行约束的前提下，以优化目标量为目标，基于启发式优化算法，获得机组中各个部件运行状态特征参数的最优值；

记录上述部件运行状态特征参数的最优值；

使用最优运行状态特征参数组合，训练神经网络预测模型。

强化学习模块4，用于将神经网络预测模型改造为初始决策网络，将机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能。具体地，保持神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，将输出参数由运行状态特征参数改变为运行状态特征参数的平均值和标准差；设定评价函数用于评估决策网络的输出参数的优劣；采用随机梯度上升算法继续训练决策网络。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

实施例一

下面结合图1和图2阐述本申请的一个实施例。一种物理仿真模型训练方法，包括：

步骤S11：对机组工况历史采样数据进行数据删除，和/或数据增补，具体包括：

步骤S111：删除机组工况历史采样数据中的长期缺失的数据；

采用序贯模块法求解机组中各个部件运行状态特征参数的变工况模型。序贯模块法是常用的流程模拟方法，将每一种单元过程建立相应的数学模型，编成一个单独的计算子程序形成模块。将分隔与断裂的算法也编成模块。按流程顺序将相应的单元过程模块搭接成一个计算信息流程。由分隔断裂模块自动分析断裂的部位及模块的计算顺序。顺序确定后，就一个一个模块地输入。该算法直观，易于为工程人员接受，计算机内存占用少，也易于形成通用化系统。为了消除机组检测点相互关联而造成的数据冗余，采用序贯模块法求解机组中各个部件运行状态特征参数的变工况模型，根据检测点重要度以及准确度剔除冗余变量，提取可以全面反映部件特性的最少量关键数据信息，保证选取检测点的独立性。具体包括，对机组中各个部件依次执行以下方法：

步骤S213：通过k折交叉验证判断多项式函数选取的准确性；

步骤S31：对清洗后数据使用启发式优化算法，获得各工况下的最优运行状态特征参数组合，具体包括：

步骤S312：记录上述部件运行状态特征参数的最优值。

保持神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，输出量由各个阀门的开度，改变为各个阀门各自开度的均值以及标准差。对于连续空间，本发明公开的决策网络的输出为数个多维独立高斯分布的均值与标准差。多维独立高斯分布具有单峰性，决策网络训练收敛后，其中一个表征就是输出的所有标准差的数值非常小。此时，认定网络输出的数值的置信区间很高，所以预测的时候以决策网络输出的均值和标准差构成的独立高斯分布中的采样作为阀门开度的最优组合。

在传统的强化学习算法中，评价函数的功能由估值网络来承担。本发明公开的评价函数通过物理仿真模型承担，其基本形式为两项的乘积，第一项是“回报”，即“reward”；“reward”是通过求解物理仿真模型获得的对应当前阀门开度组合的发电量。另一项是决策网络输出这组阀门开度组合的概率值。设定该概率值的原因如下：(1)这个概率的作用是让发电量“相对”越大的场景出现的几率变大；(2)这个概率乘积具有惩罚功能，如果决策网络性能是好的，但是恰巧采样出来的点偏离均值过远，此时，不能过多地修正决策网络的参数值，所以要通过这种情况出现的概率对他的“reward”值进行一个惩罚。

步骤S43：采用随机梯度上升算法继续训练决策网络。

实施例二

在本实施例中，一种物理仿真模型训练方法，包括：

步骤S0：获取预设时间段内的机组工况历史采样数据。

步骤S3：采用清洗后数据训练神经网络预测模型；

其中，步骤S1～步骤S4已在实施例一中详细阐述，在此不再赘述。

步骤S0：获取预设时间段内的机组工况历史采样数据。

实施例三

下面结合图3阐述本申请的一个实施例。一种物理仿真模型训练装置，包括：数据清洗模块1，感知/拟合模块2，网络训练模块3，强化学习模块4；

网络训练模块3，用于采用清洗后数据训练神经网络预测模型，具体地：对清洗后数据使用启发式优化算法，获得各工况下的最优运行状态特征参数组合；具体地，对清洗后数据进行并行优化计算，在机组满足符合约束和安全运行约束的前提下，以优化目标量为目标，基于启发式优化算法，获得机组中各个部件运行状态特征参数的最优值；

记录上述部件运行状态特征参数的最优值。

使用最优运行状态特征参数组合，训练神经网络预测模型；

实施例四

一种物理仿真模型训练装置，包括：数据采样模块，数据清洗模块1，感知/拟合模块2，网络训练模块3，强化学习模块4。

其中，数据清洗模块1，感知/拟合模块2，网络训练模块3，强化学习模块4已在实施例一中详细阐述，在此不再赘述。

数据采样模块，用于获取预设时间段内的机组工况历史采样数据。

实施例五

一种计算机设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现以下方法：

步骤S3：采用清洗后数据训练神经网络预测模型；

实施例六

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现以下方法：

步骤S3：采用清洗后数据训练神经网络预测模型；

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括装载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置从网络上被下载和安装，或者从存储器被安装，或者从ROM被安装。在该计算机程序被外部处理器执行时，执行本申请的实施例的方法中限定的上述功能。

需要说明的是，本申请的实施例的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(Radio Frequency,射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：响应于检测到终端的外设模式未激活时，获取终端上应用的帧率；在帧率满足息屏条件时，判断用户是否正在获取终端的屏幕信息；响应于判断结果为用户未获取终端的屏幕信息，控制屏幕进入立即暗淡模式。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java,Smalltalk,C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的技术方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种物理仿真模型训练方法，用于构建工业场景下的机组工况预测模型，其特征在于，所述方法包括：

对机组工况历史采样数据进行数据清洗，获得清洗后数据；

对所述清洗后数据采用感知/拟合算法，获得机组物理仿真模型；

采用所述清洗后数据训练神经网络预测模型；

将所述神经网络预测模型改造为初始决策网络，将所述机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能；

其中，所述将所述神经网络预测模型改造为初始决策网络，将所述机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能包括：

保持所述神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，将输出参数由运行状态特征参数改变为运行状态特征参数的平均值和标准差；

使用所述评价函数评估所述决策网络的输出参数的优劣；

采用随机梯度上升算法继续训练所述决策网络。

2.根据权利要求1所述的一种物理仿真模型训练方法，其特征在于，所述对机组工况历史采样数据进行数据清洗，获得清洗后数据包括：

对所述机组工况历史采样数据执行数据删除，和/或数据增补；

对执行过噪声数据校正后的机组工况历史采样数据采用迪基-福勒检验方法进行稳态工况筛选，获得所述清洗后数据。

3.根据权利要求2所述的一种物理仿真模型训练方法，其特征在于，所述对所述机组工况历史采样数据执行数据删除，和/或数据增补包括：

删除所述机组工况历史采样数据中的长期缺失的数据；

和/或，

采用线性插补法处理所述机组工况历史采样数据中的短时缺失的数据。

4.根据权利要求1所述的一种物理仿真模型训练方法，其特征在于，所述对所述清洗后数据采用感知/拟合算法，获得机组物理仿真模型包括：

根据所述清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型；

叠加所述机组中各个部件运行状态特征参数的变工况模型，获得机组物理仿真模型。

5.根据权利要求4所述的一种物理仿真模型训练方法，其特征在于，所述根据所述清洗后数据，求解机组中各个部件运行状态特征参数的变工况模型包括：

对所述机组中的每一个部件，执行如下方法：

通过k折交叉验证判断多项式函数选取的准确性；

若判断多项式函数选取准确，则将拟合后的多项式函数作为所述部件的运行状态特征参数的变工况模型，并开始求解机组中下一个部件运行状态特征参数的变工况模型；

若判断多项式函数选取不准确，则重新选取多项式函数作为所述机组中某一个部件的运行状态特征参数的变工况模型。

6.根据权利要求1所述的一种物理仿真模型训练方法，其特征在于，所述采用所述清洗后数据训练神经网络预测模型包括：

对所述清洗后数据使用启发式优化算法，获得各工况下的最优运行状态特征参数组合；

使用所述最优运行状态特征参数组合，训练神经网络预测模型。

7.一种物理仿真模型训练装置，其特征在于，所述装置包括：数据清洗模块，感知/拟合模块，网络训练模块，强化学习模块；

所述数据清洗模块，用于对机组工况历史采样数据进行数据清洗，获得清洗后数据；

所述感知/拟合模块，用于对所述清洗后数据采用感知/拟合算法，获得机组物理仿真模型；

所述网络训练模块，用于采用所述清洗后数据训练神经网络预测模型；

所述强化学习模块，用于将所述神经网络预测模型改造为初始决策网络，将所述机组物理仿真模型作为评价函数，通过强化学习优化决策网络的性能；

其中，所述强化学习模块还用于保持所述神经网络预测模型的整体结构不变，模型参数不变，输入参数不变，将输出参数由运行状态特征参数改变为运行状态特征参数的平均值和标准差；

所述强化学习模块还用于使用所述评价函数评估所述决策网络的输出参数的优劣；

所述强化学习模块还用于采用随机梯度上升算法继续训练所述决策网络。

8.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6任意一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任意一项所述的方法。