CN115146696A

CN115146696A - 一种基于多任务学习的综合能源系统运行状态监测方法

Info

Publication number: CN115146696A
Application number: CN202210402620.2A
Authority: CN
Inventors: 张建华; 姚祎; 刘慧丽; 陶莹; 周冬旭; 许洪华
Original assignee: North China Electric Power University; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: North China Electric Power University; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-10-04

Abstract

本发明公开了一种基于多任务学习(Multi task learning,MTL)的综合能源系统(Integrated energy system,IES)运行状态监测方法，属于综合能源系统领域。针对IES运行状态监测的问题，提出了一种基于MTL和深度森林(Deep forest,DF)算法的IES运行状态监测方法，利用多粒度采样和基于随机森林的特征提取方法解决了数据不足的问题，并将获取的数据划分为训练集和测试集；构建的基于级联森林多任务学习模型从训练数据中学习共享知识，提高了模型的泛化能力；最后，通过测试训练好的多任务模型，同时解决了包含识别当前运行工况和预测运行性能，以及判断系统是否发生故障这三项任务的IES运行状态监测的问题。

Description

一种基于多任务学习的综合能源系统运行状态监测方法

技术领域

本发明所属的技术领域为综合能源系统领域，具体为一种基于多任务学习(Multitask learning,MTL)和深度森林(Deep forest,DF)算法的综合能源系统(Integratedenergy system,IES)运行状态监测方法，其中对运行状态的监测包括故障诊断、运行工况识别和运行性能预测这三项任务。

背景技术

近年来，新一轮的能源革命在全球范围内蓬勃兴起。由于综合能源系统(Integrated energy system,IES)可实现多种能源系统的协同规划和运行，其逐渐成为能源领域的研究及应用热点。IES的发展有望缓解当前粗放的能源利用模式与环境保护和经济发展间的体制机制性矛盾，促进能源利用效率的提升、碳排放的减少和可再生能源渗透的增加。但是，IES易受到不确定性和故障的影响，导致其运行状态变化频繁。当IES不能随运行状态变化及时准确地调整控制系统的设定值时，常常会造成单个/互联IES运行性能下降，影响IES运行安全。因此，目前需要监测IES的运行状态，确保IES安全、有效地运行。

随着大数据技术的兴起，基于深度学习的数据驱动建模方法备受国内外学者的青睐，并被广泛应用到模式识别、预测等方面。当通过数据驱动的方法研究IES运行状态监测的问题时，关键是需要具备丰富且有效的数据。然而，在现实情况中常常会因为各种原因导致获取的数据有限。因此，在解决IES运行状态监测的问题时，需要通过高效的特征提取方法或者小样本学习，来克服数据不足的问题，从而提高IES运行状态监测的准确性。

在数据稀缺的情况下，多任务学习通过使用来自其它相关学习任务的有用信息来缓解数据不足的问题，在完成多个任务的同时，还能有效提高模型的泛化能力。深度森林是一种基于树的集成学习方法，它通过对树构成的森林进行集成达到让分类器做表征学习的目的。相对于深度神经网络，它更容易训练，效率以及可扩展性更高，并且支持小规模训练数据。

本发明针对综合能源系统运行状态监测的问题，提出了一种基于多任务学习和深度森林算法的综合能源系统运行状态监测方法。在分别采集了IES及其仿真系统的数据，并进行数据预处理后，通过多粒度扫描和基于随机森林的特征提取方法，分别获得测试和训练数据集，确保了后续多任务学习阶段中模型的精度和收敛速度。利用基于级联森林的多任务学习从输入数据中学习共享知识，提升模型的泛化能力。

发明内容

本发明的目的是针对精度和效率要求日益增长的IES运行状态监测问题，提出了一种基于多任务学习和深度森林算法的IES运行状态监测方法。利用多粒度扫描对数据进行采样之后，再通过基于随机森林的特征提取方法对数据进行特征提取，以获取更多、更丰富的与IES及其仿真系统运行工况密切相关的深层特征，确保了后续基于级联森林的模型性能；利用包含了基于级联森林的故障诊断模型、运行工况识别模型以及运行性能预测模型的多任务模型从输入数据中学习共享知识，提高了模型的泛化能力，实现了对IES运行状态的监测。

本发明实现上述目的的技术方案是：通过数据预处理、多粒度扫描和基于随机森林的特征提取方法获取丰富的特征样本后，划分出训练集数据和测试集数据；并构建基于级联森林的多任务学习模型，利用训练数据训练好模型后，输入测试集数据实现对IES运行状态的监测。其主要步骤如下：

步骤(1)：分别采集IES及其仿真系统的数据，并进行数据预处理；

步骤(2)：将处理后的有关IES及其仿真系统的多源异构信息进行数据集成，然后分别对有关IES及其仿真系统的数据进行多粒度采样和基于随机森林的特征提取，得到与IES及其仿真系统的运行状态密切相关的数据，并将数据划分为用于在线测试的数据集和训练数据集；

步骤(3)：构建基于级联森林的多任务学习模型；

步骤(4)：将步骤(2)中获取的训练数据输入基于级联森林的多任务学习模型中，多任务模型通过从输入的数据中学习共享知识，完成对模型的训练；

步骤(5)：将步骤(2)中得到的用于在线测试的数据输入到训练好的多任务学习模型中，判断出当前IES是否发生故障，并在识别出它的运行工况的同时，预测出当前系统的运行性能。

进一步的，所述步骤(1)中，采集到的数据为IES及其仿真系统的知识、数据及图像等多源异构信息，对采集到的数据进行预处理，包括：补缺失值、平滑或删除离群点、纠正数据的不一致，实现数据清洗。

进一步的，所述步骤(2)中，采用多粒度采样对级联森林进行增强，即分别通过多种大小的滑动窗口对数据进行采样，以获取更多、更丰富的特征关系；随后，利用了一个完全随机森林(Completely random forest,CRF)和一个随机森林(Random forest,RF)对采样后的数据进行特征转换以获取类分布向量，再将类分布向量串联以获得增强特征向量。

进一步的，所述步骤(3)中，构建的多任务学习模型包括一种基于级联森林的故障诊断模型、一种基于级联森林的运行工况识别和一种基于级联森林的运行性能预测模型；各个模型中级联森林的第一层由2个CRF(Forest A)和2个RF(Forest B)构成，每个随机森林包含6棵决策树，并且每层的结构与第一层相同；将原始输入的特征向量拼接在级联森林第一层的输出数据上，作为第二层的输入，依此类推，共构建L层，L为自定义的级联森林层数的最大值。

进一步的，所述步骤(4)中，通过分类回归决策树(Classification andregression tree,CART)算法来划分Forest A和Forest B中决策树的内部节点；并在级联结构中的每一步使用K折交叉验证，在验证该级联的过程中，若发现其精度不再上升，则停止训练，从而自适应地确定出深度森林的层数。

本发明的有益效果：提出一种针对IES运行状态监测问题的新模型，利用多粒度采样和基于随机森林的特征提取方法不仅较好地包容了训练样本数量不足的问题，也减少了在特征提取时信息的丢失，有利于提高后续多任务学习中各模型的精度和效率。构建的一种基于级联森林的多任务学习模型能同时高效地完成IES的故障诊断、运行工况识别以及性能预测的任务。其中，采用的级联森林算法使得模型的训练更加容易和高效；多任务学习提升了故障诊断模型、运行工况识别模型以及运行性能预测模型这三种模型的泛化能力。

附图说明

图1是本发明所提出的一种基于多任务学习的综合能源系统运行状态监测方法的流程示意图；

图2是本发明对数据进行多粒度分组采样和特征提取的示意图；

图3是本发明所提出的一种基于多任务学习的综合能源系统运行状态监测方法的实施方案图。

具体实施方式

下面结合附图对本发明的实施进行详细的说明，并给出具体的操作方式以及实施步骤：

一种基于多任务学习和深度森林算法的IES运行状态监测方法的实施流程示意图如图1所示，其主要包括以下步骤：

步骤(1)：分别采集IES及其仿真系统的知识、数据及图像等多源异构信息，并对采集到的数据进行数据预处理，包括：补缺失值、平滑或删除离群点、纠正数据的不一致，实现数据清洗。

步骤(2)：将处理后的数据进行数据集成后，分别对有关IES及其仿真系统的数据进行多粒度采样和特征提取，从而获取与将处理后的有关IES及其仿真系统的多源异构信息进行数据集成，然后分别对有关IES及其仿真系统的数据进行多粒度采样和基于随机森林的特征提取，得到与IES及其仿真系统的运行状态密切相关的测试数据X₁和训练数据X₂。其实现过程如图2所示，具体步骤为：

步骤(2.1)：假设集成后数据是维度为N维的序列数据，设置滑动窗口的扫描维度分别是v＝a,b,c，扫描步长定为r＝1。则通过该滑动窗口扫描之后，得到的样本向量数目是n＝(N-v)/r+1组；

步骤(2.2)：利用上一步得到的样本向量分别训练CRF(forestA)和RF(forestB)，这两个随机森林分别输出n个m维类分布向量，拼接两组类分布向量，得到一个2n·m维的特征向量w；

步骤(2.3)：设置3个扫描维度不同的滑动窗口，重复步骤(2.1)和步骤(2.2)，得到3个2n·m维特征向量w₁,w₂,w₃，再将其进行拼接、整合以获取输入到级联森林中的特征向量X。

以上为多粒度采样和基于随机森林的特征提取的主要步骤。进一步的，

步骤(3)：构建基于级联森林的多任务学习模型的具体步骤如下：

步骤(3.1)：级联森林的第一层由2个CRF和2个RF组成，每个RF由6棵决策树组成，每个CRF由6棵完全随机树组成；

步骤(3.2)：按照第一层的结构构建级联森林的第二层，并将原始输入的特征向量拼接在级联森林第一层输出的增强特征向量上，作为第二层的输入，依此类推，共构建L层。

步骤(3.3)：按照上述两步，分别搭建包含故障诊断、运行工况识别以及运行性能预测三个级联森林的多任务学习模型。

以上为搭建基于级联森林的多任务学习模型的主要步骤。进一步的，

步骤(4)：将训练数据输入基于级联森林的多任务学习模型中，多任务模型通过从输入的数据中学习共享知识，完成对模型的训练。其具体实施步骤如下：

步骤(4.1)：输入训练数据X₁到基于级联森林的多任务学习模型；

步骤(4.2)：每棵决策树在训练数据表示的特征空间中不断划分子空间，并且给每个子空间打上标签，生成完整的决策树。

具体为：完全随机森林是在完整的特征空间中随机选择特征子空间来分裂，而随机森林则是通过CART算法选取特征进行内部节点的划分，其中，预测问题通过生成回归树解决，分类问题通过生成分类树解决。具体实施步骤如下。

回归树的生成：对于训练数据集X₁＝{(x₁,y₁),(x₂,y₂)...(x_n,y_n)}，x,y为输入、输出变量，首先，通过以下的式子选取最优切分变量j和切分点s，并划分区域和求取相应的输出值。

R₁(j,s)＝{x∣x^(j)≤s},R₂(j,s)＝{x∣x^(j)＞s}

c_m＝ave(y_i|x_i∈R_m(j,s)),m＝1,2

式中，x^(j)表示第j个特征，R为划分的子空间，c_m是R_m上的所有输入x_i对应输出y_i的均值。

继续对划分的两个子空间调用以上的三个式子，直到满足停止条件，最终划分为M个子空间R₁,R₂,...R_M，并生成决策树模型如下式所示：

分类树的生成：计算训练数据集X₁的基尼系数，如下式所示：

式中，C_k表示类别，k＝1,2...K，|C_k|是属于类别C_k的样本个数，|X₁|表示样本容量。

根据样本点对特征A是否等于a的测试，将X₁分割为

两个子空间，并通过下式计算A＝a时的基尼指数。

式中，

分别为

的样本个数。

选取其中基尼系数最小的特征及其取值作为最优特征和最优切分点，并在最优切分点处生成两个子节点。对新生成的两个子节点继续重复上述步骤，直到满足停止条件，最终生成决策树。

步骤(4.3)：将单个森林内所有树输出向量的各维数据取平均值作为该森林的输出向量，再将这一层4个森林的输出向量串联起来，作为下一层的增强特征向量。

其中，每个森林最终的输出向量是由K折交叉验证产生，即将每个样本作为训练数据训练k-1次，产生k-1个输出向量，然后对其取平均值作为这个森林最终的输出向量。通过K折交叉验证可自适应地确定深度森林的层数，并降低过拟合的风险。

步骤(4.4)：将原始输入的特征向量拼接在级联森林上一层输出的增强特征向量上作为下一层的输入，然后重复步骤(4.2)到步骤(4.3)，并在最后一层将所有随机森林输出向量的各维数求平均值，选取其中的最大值作为最终输出。

以上为训练基于级联森林的多任务学习模型的主要步骤。进一步的，

步骤(5)：将在线的测试数据X₂输入到训练好的模型中，判断出当前实际的IES是否发生故障，并获得其运行工况和运行性能。

通过上述具体的实施步骤并结合如图3所示的实施方案图，最终可实现对IES运行状态的监测。

本发明申请人结合说明书附图对本发明的具体实施方式进行了描述，本行业的技术人员应当明白，上述具体实施和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于多任务学习和深度森林算法的IES运行状态监测方法，其特征在于：包括以下步骤：

步骤(3)：构建基于级联森林的多任务学习模型；

2.根据权利要求1所述的一种基于多任务学习和深度森林算法的IES运行状态监测方法，其特征在于：所述步骤(1)中，采集到的数据为IES及其仿真系统的知识、数据及图像等多源异构信息，对采集到的数据进行预处理，包括：补缺失值、平滑或删除离群点、纠正数据的不一致，实现数据清洗。

3.根据权利要求1所述的一种基于多任务学习和深度森林算法的IES运行状态监测方法，其特征在于：所述步骤(2)中，采用多粒度采样对级联森林进行增强，即分别通过多种大小的滑动窗口对数据进行采样，以获取更多、更丰富的特征关系；随后，在利用了一个完全随机森林(Completely random forest,CRF)和一个随机森林(Random forest,RF)对采样后的数据进行特征转换以获取类分布向量之后，将类分布向量串联以获得增强特征向量。

4.根据权利要求1所述的一种基于多任务学习和深度森林算法的IES运行状态监测方法，其特征在于：所述步骤(3)中，构建的多任务学习模型包括三种都是基于级联森林的故障诊断模型、运行工况识别和运行性能预测模型；各个模型中的级联森林的每一层由2个CRF(Forest A)和2个RF(Forest B)构成，每个RF包含6棵决策树，每个CRF包含6棵完全随机树，并且每层的结构与第一层相同；将原始输入的特征向量拼接在级联森林第一层输出的增强特征向量上，作为第二层的输入，依此类推，共构建L层，L即自定义的级联森林层数的最大值。

5.根据权利要求1所述的一种基于多任务学习和深度森林算法的IES运行状态监测方法，其特征在于：所述步骤(4)中，通过分类回归决策树(classification and regressiontree,CART)算法来划分Forest A和Forest B中决策树的内部节点；并在级联结构中的每一步使用K折交叉验证，在验证该级联的过程中，若发现其精度不再上升，则停止训练，从而自适应地确定出深度森林的层数。