CN114417388A

CN114417388A - 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质

Info

Publication number: CN114417388A
Application number: CN202210085811.0A
Authority: CN
Inventors: 毛正雄; 李辉; 黄祖源; 田园; 陆光前; 耿贞伟; 保富; 原野
Original assignee: Information Center of Yunnan Power Grid Co Ltd
Current assignee: Information Center of Yunnan Power Grid Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-04-29
Anticipated expiration: 2042-01-25
Also published as: CN114417388B

Abstract

本发明公开了基于纵向联邦学习的电力负荷预测方法、系统、设备及介质，解决了电力公司和工信局数据不能共享前提下的电力负荷预测问题。无标签的工信局和有标签的电力公司先通过隐私安全求交得到双方的共同样本ID；有标签的电力公司计算每个样本的一阶导数和二阶导数，然后利用k‑means聚类算法对样本进行分组，计算每组上的一阶导数和二阶导数之和，并利用同态加密技术将每组的样本ID和导数的密文发送给无标签的工信局；无标签的工信局计算每个样本的近似导数信息，计算每种特征划分的增益并将结果发送给电力公司；有标签的电力公司根据最大增益设置分裂点。本文基于同态加密和聚类的纵向联邦XGboost算法既保证双方传输信息的隐私安全，又显著降低通信开销。

Description

基于纵向联邦学习的电力负荷预测方法、系统、设备及介质

技术领域

本发明属于数据隐私安全领域，涉及一种基于纵向联邦学习的电力负荷预测方法、系统、设备及介质。

背景技术

电力负荷预测是以电力负荷为对象的一系列预测工作，包括对未来电力需求量和用电量以及负荷曲线的预测。电力负荷预测可为电力系统规划和运行提供可靠的决策依据，具有重要的现实意义。传统的电力负荷预测方法中，通常利用特定的机器学习模型对企业的历史用电负荷和用电量进行分析，并基于历史数据对用电负荷进行预测。电力负荷预测受到包括历史用电数据、气象数据、企业效益、节假日、重大突发事件等因素的影响，传统上仅使用电力数据的方法不能全面反映用电负荷的变化趋势。然而，出于数据隐私安全考虑，不同的数据持有方不能直接共享数据从而产生数据不可直接联合使用的问题。联邦学习通过在各数据方之间传递模型替代传递原始数据，从而可有效保护各方数据安全并受到广泛关注。但联邦学习在解决了原始数据隐私安全的同时也带来了一些新的问题。例如为保证模型效用，数据方之间需要频繁的数据通信从而增大通信开销。导致上述问题的根本原因是使用联邦学习技术时采用的无差别处理，而未基于应用场景针对性地设计电力负荷预测模型。

发明内容

本发明的目的在于解决现有技术中的问题，提供一种基于纵向联邦学习的电力负荷预测方法、系统、设备及介质，能够保证预测模型训练和推理阶段的数据隐私安全，同时利用聚类方法降低联邦训练阶段的通信开销。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于纵向联邦学习的电力负荷预测方法，包括：

步骤1：基于无标签方和有标签方各自所拥有的数据，获取双方共同的样本ID集合；

步骤2：基于共同的样本ID集合，对当前决策树的目标函数进行求导，并根据导数结果对样本ID集合进行聚类和同态加密；

步骤3：基于加密后的聚类结果，获取每个类上样本的导数的近似值；

步骤4：基于无标签方和有标签方的每个属性特征，划分共同的样本ID集合；并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值，获取无标签方和有标签方各自的特征属性划分对应的增益；其中，无标签方得到的是密文形式的增益值，有标签方得到的是明文形式的增益值；

步骤5：对无标签方的密文进行解密，对比无标签方所有划分下的增益值，将最大的增益值对应的划分设置为树的当前分裂点，并生成新的节点；

步骤6：重复步骤2-步骤5进行决策树的生成，直至决策树的生成数量达到预计条件或残差小于给定阈值，获取XGboost模型；

步骤7：利用生成的XGboost模型对企业进行电力负荷预测，按照决策树树结构、无标签方和有标签方各种特征属性取值，判断样本所属的叶子节点，并输出每棵树上所属叶子节点大小之和为预测结果。

本发明的进一步改进在于：

步骤2和步骤5为有标签方的工作，所述步骤3和步骤4为无标签方的工作，所述步骤2还包括：有标签方将加密后的聚类结果发送给无标签方；所述步骤4还包括：无标签方将密文形式的增益值发送给有标签方；所述步骤6还包括：有标签方将得到的XGboost模型发送至无标签方；所述步骤6的决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。

无标签方和有标签方根据各自所拥有的数据得到双方共同的样本ID集合，具体为：

无标签方

拥有数据{ID_A,F_A(ID_A)}，有标签方

拥有数据{ID_B,F_B(ID_B)}，

和

利用隐私安全求交方法得到双方共同的样本ID集合如公式(1)所示：

ID_C＝ID_A∩ID_B (1)

其中，ID_A,ID_B分别表示

和

的样本ID集合，F_A(ID_A),F_B(ID_B)分别表示

和

与样本ID对应的特征属性；

采用基于RSA和哈希映射的加密样本对齐方法，无标签方和有标签方仅能得到双方共同的样本列表，而不能获得其它额外信息。

基于共同的样本ID集合，对当前决策树的目标函数进行求导，并根据导数结果对样本ID集合进行聚类和同态加密，具体为：

所述当前决策树为第t棵树，所述目标函数如公式(2)所示：

目标函数的一阶导数和二阶导数分别如公式(3)和公式(4)所示：

其中，损失函数

表示真实值y_i和预测值

的差异，Ω(f_t)表示正则化项；

有标签方

利用k-means算法得到的样本一阶导数和二阶导数信息对样本进行聚类；

有标签方

基于导数信息

对样本进行聚类，得到聚类结果{ID_j,G_j,H_j},j＝1,2…,J，其中ID_j表示第j类上的样本列表，G_j,H_j分别为该类上的g_i,h_i之和；

有标签方

对G_j,H_j进行同态加密得到密文En(G_j)和En(H_j)，将加密后的聚类结果{ID_j,En(G_j),En(H_j)}发送给无标签方

所述有标签方

具体为：

有标签方

计算每个聚类上对应样本的一阶导数之和

和二阶导数之和

有标签方

使用Paillier同态加密技术加密G_j和H_j得到密文En(G_j),En(H_j)；

有标签方

发送聚类统计信息

给无标签方

基于加密后的聚类结果，获取每个类上样本的导数的近似值，具体为：

无标签方

基于{ID_j,En(G_j),En(H_j)}计算每个类上样本的一阶导数和二阶导数的近似值，对第j个类上的每个样本，其一阶导数近似为En(G_j)/|ID_j|，二阶导数近似为En(H_j)/|ID_j|；

其中，无标签方

计算每个聚类上的平均一阶导数En(G_j)/|ID_j|和平均二阶导数En(H_j)/|ID_j|作为该类上每个样本的一阶导数和二阶导数的平均值。

基于无标签方和有标签方的每个特征属性，划分共同的样本ID集合，具体为：

无标签方

和有标签方

根据公式

计算各自的特征属性划分对应的增益，

其中，G_L,G_R,H_L,H_R分别是特征划分左右两子树的一阶导数和与二阶导数和，λ,μ为正则项Ω(f_t)中的正则化系数；

所述无标签方

和有标签方

根据公式

计算各自的特征属性划分对应的增益，具体为：

基于每个特征属性划分将样本ID分为ID_L和ID_R左右两部分；

计算集合ID_L上的一阶导数和二阶导数之和G_L,H_L，计算集合ID_L上的一阶导数和二阶导数之和G_R,H_R；

基于公式

得到每个特征属性划分对应的增益值。

利用生成的XGboost模型对企业进行电力负荷预测，按照树结构和无标签方和有标签方各种特征属性取值判断样本所属的叶子节点，并输出每棵树上所属叶子节点大小之和为预测结果，具体为：

步骤7.1：基于生成的树结构，有标签方

判断当前非叶子节点特性所属关系；

步骤7.2：若当前节点特征数据属于无标签方

则有标签方

将判断条件发送给无标签方

进行判断；否则由有标签方

判断；

步骤7.3：重复步骤7.1—7.2，直至待推理数据落到叶子节点；将所有对应叶子节点的权重求和得到预测值。

一种基于纵向联邦学习的电力负荷预测系统，包括：

第一获取模块，所述获取模块基于无标签方和有标签方各自所拥有的数据，获取双方共同的样本ID集合；

处理模块，所述处理模块基于共同的样本ID集合，对当前决策树的目标函数进行求导，并根据导数结果对样本ID集合进行聚类和同态加密；

第二获取模块，所述第二获取模块基于加密后的聚类结果，获取每个类上样本的导数的近似值；

特征属性获取模块，所述特征属性获取模块基于无标签方和有标签方的每个属性特征，划分共同的样本ID集合；并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值，获取无标签方和有标签方各自的特征属性划分对应的增益；其中，无标签方得到的是密文形式的增益值，有标签方得到的是明文形式的增益值；

解密模块，所述解密模块用于对无标签方的密文进行解密，对比无标签方所有划分下的增益值，将最大的增益值对应的划分设置为树的当前分裂点，并生成新的节点；

循环模块，所述循环模块用于决策树的生成，直至决策树的生成数量达到预计条件或残差小于给定阈值，获取XGboost模型；

预测模块，所述预测模块利用生成的XGboost模型对企业进行电力负荷预测，按照决策树树结构、无标签方和有标签方各种特征属性取值，判断样本所属的叶子节点，并输出每棵树上所属叶子节点大小之和为预测结果。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明具有以下有益效果：

本发明利用联邦学习保护各方原始数据隐私安全的优势，充分考虑了无标签方和有标签方参与联邦学习的流程和实际应用中对通信需求的约束需求，在有标签方运算中加入同态加密和聚类运算，实现学习过程的隐私安全并降低通信开销。有标签方对每个聚类上的样本一阶导数和二阶导数求和，将每个聚类的样本ID和同态加密后的一阶导数和二阶导数之和发送给无标签方，发送的信息大小与聚类个数呈正比关系。因而，该方法可显著降低通信开销。无标签方在接收到有标签方的密文后，将每个聚类上的平均一阶导数和二阶导数作为该聚类包含的所有样本的近似一阶导数和二阶导数，并基于此结果计算每种特征属性划分对应的增益值。无标签方和有标签方均以密文形式进行信息交换，可保证整体训练过程的隐私安全。

附图说明

为了更清楚的说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的基于纵向联邦学习的电力负荷预测方法实施示意图；

图2为本发明实施例的基于纵向联邦学习的电力负荷预测方法的逻辑流程图；

图3为本发明实施例的基于纵向联邦学习的电力负荷预测系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明实施例的描述中，需要说明的是，若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

此外，若出现术语“水平”，并不表示要求部件绝对水平，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明实施例的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图对本发明做进一步详细描述：

参见图1，本发明公布了一种基于纵向联邦学习的电力负荷预测方法，包括：

(1)基于无标签方和有标签方各自所拥有的数据，获取双方共同的样本ID集合。

步骤1：隐私安全求交，定义无标签方为工信局，有标签方为电力公司；无标签方

拥有数据{ID_A,F_A(ID_A)}，有标签方

拥有数据{ID_B,F_B(ID_B)}，

和

ID_C＝ID_A∩ID_B (1)

其中，ID_A,ID_B分别表示

和

的样本ID集合，F_A(ID_A),F_B(ID_B)分别表示

和

与样本ID对应的特征属性。

采用基于RSA和哈希映射的加密样本对齐方法，该方法具有良好的隐私安全性，无标签方和有标签方仅能得到双方共同的样本列表，而不能获得其它额外信息。

(2)基于共同的样本ID集合，对当前决策树的目标函数进行求导，并根据导数结果对样本ID集合进行聚类和同态加密：

步骤2：导数计算，当前决策树为第t棵树，所述目标函数如公式(2)所示：

其中，损失函数

表示真实值y_i和预测值

的差异，Ω(f_t)表示正则化项。

步骤2的具体操作为：

对于带正则项的目标函数

其中

为损失函数，

为正则项，

为预测输出，y_i为标签值，f_k为第k个树模型，T为树叶子节点数，ω为叶子权重值，γ为叶子树惩罚正则项，具有剪枝作用，λ为叶子权重惩罚正则项，防止过拟合；当已经生成t-1棵树，第t棵树的生成目标为拟合上次预测残差，此时总目标函数表示为损失函数为

则每个样本对应的一阶导数和二阶导数分别为

和

步骤3、样本聚类，有标签方

基于导数信息

对样本进行聚类，得到聚类结果{ID_j,G_j,H_j},j＝1,2…,J，其中ID_j表示第j类上的样本列表，G_j,H_j分别为该类上的g_i,h_i之和，步骤3包括以下步骤：

步骤3.1、设置聚类中心个数J和初始聚类中心{c_j},j＝1,2…,J；

步骤3.2、计算第i个样本的一阶导数和二阶导数{g_i,h_i}与初始类中心

的距离d_ij；

步骤3.3、按照d_ij最小原则对所有样本进行聚类并按照同类样本点的均值更新聚类中心；

步骤3.4、重复上述过程直至聚类中心不再发生变化。

步骤4、聚类信息加密发送，有标签方

步骤4使传输每个聚类上一阶导数和二阶导数的和以降低通信开销，并使用加密技术保护传输信息的隐私安全。

步骤4包括以下步骤：

步骤4.1、有标签方

计算每个聚类上对应样本的一阶导数之和

和二阶导数之和

步骤4.2、有标签方

使用Paillier同态加密技术加密G_j和H_j得到密文En(G_j),En(H_j)；

步骤4.3、有标签方

发送聚类统计信息

给无标签方

(3)基于加密后的聚类结果，获取每个类上样本的导数的近似值；

步骤5、导数近似，无标签方

首先基于{ID_j,En(G_j),En(H_j)}计算每个类上样本的一阶导数和二阶导数的近似值，对第j个类上的每个样本，其一阶导数近似为En(G_j)/|ID_j|，二阶导数近似为En(H_j)/|ID_j|；

步骤5中，无标签方

(4)基于无标签方和有标签方的每个属性特征，划分共同的样本ID集合；并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值，获取无标签方和有标签方各自的特征属性划分对应的增益；其中，无标签方得到的是密文形式的增益值，有标签方得到的是明文形式的增益值；

步骤6、增益计算，

和

根据公式

计算各自的特征属性划分对应的增益，其中G_L,G_R,H_L,H_R分别是特征划分左右两子树的一阶导数和与二阶导数和，λ,μ为正则项Ω(f_t)中的正则化系数，无标签方

得到的是密文形式的增益值，有标签方

得到的是明文形式的增益值。

步骤6的具体做法为：

步骤6.1、基于每个特征属性划分将样本ID分为ID_L和ID_R左右两部分；

步骤6.2、计算集合ID_L上的一阶导数和二阶导数之和G_L,H_L，计算集合ID_L上的一阶导数和二阶导数之和G_R,H_R；

步骤6.3、基于公式

得到每个特征属性划分对应的增益值。

无标签方将密文形式的增益值发送给有标签方。

步骤7、增益值的密文发送，无标签方

将密文形式的增益值发送给有标签方

步骤7中，无标签方

将所有特征属性划分及对应的增益值发送给有标签方

(5)对无标签方的密文进行解密，对比无标签方所有划分下的增益值，将最大的增益值对应的划分设置为树的当前分裂点，并生成新的节点；

步骤8、分裂点选择，有标签方

对来自无标签方

的密文进行解密，比较

和

所有划分下的增益值并将其中的最大值对应的划分设置为树的当前分裂点并生成新的节点。

步骤8中的具体做法为：

步骤8.1、有标签方

对无标签方

发送的密文信息进行解密；

步骤8.2、有标签方

比较包含

和

在内的所有增益，设置最大增益对应的划分为树的分裂节点。

(6)进行决策树的生成，直至决策树的生成数量达到预计条件或残差小于给定阈值，获取XGboost模型

停止条件中，决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。

步骤9、迭代更新：对每个非叶子节点包含的样本集重复步骤2--8直至满足停止条件，有标签方

将得到的XGboost模型发送至无标签方

(7)利用生成的XGboost模型对企业进行电力负荷预测，按照树结构和无标签方和有标签方各种特征属性取值判断样本所属的叶子节点，并输出每棵树上所属叶子节点大小之和为预测结果。

步骤10、联邦推理，利用生成的XGboost模型对企业进行电力负荷预测，按照树结构和

各种特征属性取值判断样本所属的叶子节点，并输出每棵树上所属叶子节点大小之和为预测结果，步骤10包括以下步骤：

步骤10.1、基于生成的树结构，有标签方

判断当前非叶子节点特性所属关系；

步骤10.2、若当前节点特征数据属于无标签方

则有标签方

将判断条件发送给无标签方

进行判断；否则由有标签方

判断；

步骤10.3、重复步骤10.1--步骤10.2过程直至待推理数据落到叶子节点；将所有对应叶子节点的权重求和得到预测值。

参考图2，本发明公布了一种基于纵向联邦学习的电力负荷预测方法，其逻辑架构包括样本对齐、XGboost树生成、联邦推理三个部分，主体为XGboost树生成。为降低通信开销，有标签方采用聚类方法对样本进行分组；为保证联邦训练过程中数据的隐私安全，有标签方采用同态加密方法对每个分组的一阶导数和二阶导数之和进行加密，无标签方仅处理密文信息。

参见图3，本发明公布了一种基于纵向联邦学习的电力负荷预测系统，包括：

本发明一实施例提供的终端设备。该实施例的终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者，所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。

所述处理器可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgrammableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。

所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于纵向联邦学习的电力负荷预测方法，其特征在于，包括：

2.根据权利要求1所述的基于纵向联邦学习的电力负荷预测方法，其特征在于，所述步骤2和步骤5为有标签方的工作，所述步骤3和步骤4为无标签方的工作，所述步骤2还包括：有标签方将加密后的聚类结果发送给无标签方；所述步骤4还包括：无标签方将密文形式的增益值发送给有标签方；所述步骤6还包括：有标签方将得到的XGboost模型发送至无标签方；所述步骤6的决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。

3.根据权利要求2所述的基于纵向联邦学习的电力负荷预测方法，其特征在于，所述无标签方和有标签方根据各自所拥有的数据得到双方共同的样本ID集合，具体为：

无标签方