CN114417388A - 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 - Google Patents
基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN114417388A CN114417388A CN202210085811.0A CN202210085811A CN114417388A CN 114417388 A CN114417388 A CN 114417388A CN 202210085811 A CN202210085811 A CN 202210085811A CN 114417388 A CN114417388 A CN 114417388A
- Authority
- CN
- China
- Prior art keywords
- party
- label
- sample
- derivative
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000003066 decision tree Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005192 partition Methods 0.000 claims description 14
- 238000009795 derivation Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 238000013277 forecasting method Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 abstract 1
- 238000003064 k means clustering Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003368 label free method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Bioethics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于纵向联邦学习的电力负荷预测方法、系统、设备及介质,解决了电力公司和工信局数据不能共享前提下的电力负荷预测问题。无标签的工信局和有标签的电力公司先通过隐私安全求交得到双方的共同样本ID;有标签的电力公司计算每个样本的一阶导数和二阶导数,然后利用k‑means聚类算法对样本进行分组,计算每组上的一阶导数和二阶导数之和,并利用同态加密技术将每组的样本ID和导数的密文发送给无标签的工信局;无标签的工信局计算每个样本的近似导数信息,计算每种特征划分的增益并将结果发送给电力公司;有标签的电力公司根据最大增益设置分裂点。本文基于同态加密和聚类的纵向联邦XGboost算法既保证双方传输信息的隐私安全,又显著降低通信开销。
Description
技术领域
本发明属于数据隐私安全领域,涉及一种基于纵向联邦学习的电力负荷预测方法、系统、设备及介质。
背景技术
电力负荷预测是以电力负荷为对象的一系列预测工作,包括对未来电力需求量和用电量以及负荷曲线的预测。电力负荷预测可为电力系统规划和运行提供可靠的决策依据,具有重要的现实意义。传统的电力负荷预测方法中,通常利用特定的机器学习模型对企业的历史用电负荷和用电量进行分析,并基于历史数据对用电负荷进行预测。电力负荷预测受到包括历史用电数据、气象数据、企业效益、节假日、重大突发事件等因素的影响,传统上仅使用电力数据的方法不能全面反映用电负荷的变化趋势。然而,出于数据隐私安全考虑,不同的数据持有方不能直接共享数据从而产生数据不可直接联合使用的问题。联邦学习通过在各数据方之间传递模型替代传递原始数据,从而可有效保护各方数据安全并受到广泛关注。但联邦学习在解决了原始数据隐私安全的同时也带来了一些新的问题。例如为保证模型效用,数据方之间需要频繁的数据通信从而增大通信开销。导致上述问题的根本原因是使用联邦学习技术时采用的无差别处理,而未基于应用场景针对性地设计电力负荷预测模型。
发明内容
本发明的目的在于解决现有技术中的问题,提供一种基于纵向联邦学习的电力负荷预测方法、系统、设备及介质,能够保证预测模型训练和推理阶段的数据隐私安全,同时利用聚类方法降低联邦训练阶段的通信开销。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于纵向联邦学习的电力负荷预测方法,包括:
步骤1:基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合;
步骤2:基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密;
步骤3:基于加密后的聚类结果,获取每个类上样本的导数的近似值;
步骤4:基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
步骤5:对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
步骤6:重复步骤2-步骤5进行决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型;
步骤7:利用生成的XGboost模型对企业进行电力负荷预测,按照决策树树结构、无标签方和有标签方各种特征属性取值,判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
本发明的进一步改进在于:
步骤2和步骤5为有标签方的工作,所述步骤3和步骤4为无标签方的工作,所述步骤2还包括:有标签方将加密后的聚类结果发送给无标签方;所述步骤4还包括:无标签方将密文形式的增益值发送给有标签方;所述步骤6还包括:有标签方将得到的XGboost模型发送至无标签方;所述步骤6的决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。
无标签方和有标签方根据各自所拥有的数据得到双方共同的样本ID集合,具体为:
IDC=IDA∩IDB (1)
采用基于RSA和哈希映射的加密样本对齐方法,无标签方和有标签方仅能得到双方共同的样本列表,而不能获得其它额外信息。
基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密,具体为:
所述当前决策树为第t棵树,所述目标函数如公式(2)所示:
目标函数的一阶导数和二阶导数分别如公式(3)和公式(4)所示:
基于加密后的聚类结果,获取每个类上样本的导数的近似值,具体为:
无标签方基于{IDj,En(Gj),En(Hj)}计算每个类上样本的一阶导数和二阶导数的近似值,对第j个类上的每个样本,其一阶导数近似为En(Gj)/|IDj|,二阶导数近似为En(Hj)/|IDj|;
基于无标签方和有标签方的每个特征属性,划分共同的样本ID集合,具体为:
其中,GL,GR,HL,HR分别是特征划分左右两子树的一阶导数和与二阶导数和,λ,μ为正则项Ω(ft)中的正则化系数;
基于每个特征属性划分将样本ID分为IDL和IDR左右两部分;
计算集合IDL上的一阶导数和二阶导数之和GL,HL,计算集合IDL上的一阶导数和二阶导数之和GR,HR;
利用生成的XGboost模型对企业进行电力负荷预测,按照树结构和无标签方和有标签方各种特征属性取值判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果,具体为:
步骤7.3:重复步骤7.1—7.2,直至待推理数据落到叶子节点;将所有对应叶子节点的权重求和得到预测值。
一种基于纵向联邦学习的电力负荷预测系统,包括:
第一获取模块,所述获取模块基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合;
处理模块,所述处理模块基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密;
第二获取模块,所述第二获取模块基于加密后的聚类结果,获取每个类上样本的导数的近似值;
特征属性获取模块,所述特征属性获取模块基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
解密模块,所述解密模块用于对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
循环模块,所述循环模块用于决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型;
预测模块,所述预测模块利用生成的XGboost模型对企业进行电力负荷预测,按照决策树树结构、无标签方和有标签方各种特征属性取值,判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明具有以下有益效果:
本发明利用联邦学习保护各方原始数据隐私安全的优势,充分考虑了无标签方和有标签方参与联邦学习的流程和实际应用中对通信需求的约束需求,在有标签方运算中加入同态加密和聚类运算,实现学习过程的隐私安全并降低通信开销。有标签方对每个聚类上的样本一阶导数和二阶导数求和,将每个聚类的样本ID和同态加密后的一阶导数和二阶导数之和发送给无标签方,发送的信息大小与聚类个数呈正比关系。因而,该方法可显著降低通信开销。无标签方在接收到有标签方的密文后,将每个聚类上的平均一阶导数和二阶导数作为该聚类包含的所有样本的近似一阶导数和二阶导数,并基于此结果计算每种特征属性划分对应的增益值。无标签方和有标签方均以密文形式进行信息交换,可保证整体训练过程的隐私安全。
附图说明
为了更清楚的说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例的基于纵向联邦学习的电力负荷预测方法实施示意图;
图2为本发明实施例的基于纵向联邦学习的电力负荷预测方法的逻辑流程图;
图3为本发明实施例的基于纵向联邦学习的电力负荷预测系统的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明公布了一种基于纵向联邦学习的电力负荷预测方法,包括:
(1)基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合。
步骤1:隐私安全求交,定义无标签方为工信局,有标签方为电力公司;无标签方拥有数据{IDA,FA(IDA)},有标签方拥有数据{IDB,FB(IDB)},和利用隐私安全求交方法得到双方共同的样本ID集合如公式(1)所示:
IDC=IDA∩IDB (1)
采用基于RSA和哈希映射的加密样本对齐方法,该方法具有良好的隐私安全性,无标签方和有标签方仅能得到双方共同的样本列表,而不能获得其它额外信息。
(2)基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密:
步骤2:导数计算,当前决策树为第t棵树,所述目标函数如公式(2)所示:
目标函数的一阶导数和二阶导数分别如公式(3)和公式(4)所示:
步骤2的具体操作为:
对于带正则项的目标函数其中为损失函数,为正则项,为预测输出,yi为标签值,fk为第k个树模型,T为树叶子节点数,ω为叶子权重值,γ为叶子树惩罚正则项,具有剪枝作用,λ为叶子权重惩罚正则项,防止过拟合;当已经生成t-1棵树,第t棵树的生成目标为拟合上次预测残差,此时总目标函数表示为损失函数为则每个样本对应的一阶导数和二阶导数分别为和
步骤3、样本聚类,有标签方基于导数信息对样本进行聚类,得到聚类结果{IDj,Gj,Hj},j=1,2…,J,其中IDj表示第j类上的样本列表,Gj,Hj分别为该类上的gi,hi之和,步骤3包括以下步骤:
步骤3.1、设置聚类中心个数J和初始聚类中心{cj},j=1,2…,J;
步骤3.3、按照dij最小原则对所有样本进行聚类并按照同类样本点的均值更新聚类中心;
步骤3.4、重复上述过程直至聚类中心不再发生变化。
步骤4、聚类信息加密发送,有标签方对Gj,Hj进行同态加密得到密文En(Gj)和En(Hj),将加密后的聚类结果{IDj,En(Gj),En(Hj)}发送给无标签方步骤4使传输每个聚类上一阶导数和二阶导数的和以降低通信开销,并使用加密技术保护传输信息的隐私安全。
步骤4包括以下步骤:
(3)基于加密后的聚类结果,获取每个类上样本的导数的近似值;
步骤5、导数近似,无标签方首先基于{IDj,En(Gj),En(Hj)}计算每个类上样本的一阶导数和二阶导数的近似值,对第j个类上的每个样本,其一阶导数近似为En(Gj)/|IDj|,二阶导数近似为En(Hj)/|IDj|;
(4)基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
步骤6、增益计算,和根据公式 计算各自的特征属性划分对应的增益,其中GL,GR,HL,HR分别是特征划分左右两子树的一阶导数和与二阶导数和,λ,μ为正则项Ω(ft)中的正则化系数,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值。
步骤6的具体做法为:
步骤6.1、基于每个特征属性划分将样本ID分为IDL和IDR左右两部分;
步骤6.2、计算集合IDL上的一阶导数和二阶导数之和GL,HL,计算集合IDL上的一阶导数和二阶导数之和GR,HR;
无标签方将密文形式的增益值发送给有标签方。
(5)对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
步骤8中的具体做法为:
(6)进行决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型
停止条件中,决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。
(7)利用生成的XGboost模型对企业进行电力负荷预测,按照树结构和无标签方和有标签方各种特征属性取值判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
步骤10.3、重复步骤10.1--步骤10.2过程直至待推理数据落到叶子节点;将所有对应叶子节点的权重求和得到预测值。
参考图2,本发明公布了一种基于纵向联邦学习的电力负荷预测方法,其逻辑架构包括样本对齐、XGboost树生成、联邦推理三个部分,主体为XGboost树生成。为降低通信开销,有标签方采用聚类方法对样本进行分组;为保证联邦训练过程中数据的隐私安全,有标签方采用同态加密方法对每个分组的一阶导数和二阶导数之和进行加密,无标签方仅处理密文信息。
参见图3,本发明公布了一种基于纵向联邦学习的电力负荷预测系统,包括:
第一获取模块,所述获取模块基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合;
处理模块,所述处理模块基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密;
第二获取模块,所述第二获取模块基于加密后的聚类结果,获取每个类上样本的导数的近似值;
特征属性获取模块,所述特征属性获取模块基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
解密模块,所述解密模块用于对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
循环模块,所述循环模块用于决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型;
预测模块,所述预测模块利用生成的XGboost模型对企业进行电力负荷预测,按照决策树树结构、无标签方和有标签方各种特征属性取值,判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
本发明一实施例提供的终端设备。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于纵向联邦学习的电力负荷预测方法,其特征在于,包括:
步骤1:基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合;
步骤2:基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密;
步骤3:基于加密后的聚类结果,获取每个类上样本的导数的近似值;
步骤4:基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
步骤5:对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
步骤6:重复步骤2-步骤5进行决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型;
步骤7:利用生成的XGboost模型对企业进行电力负荷预测,按照决策树树结构、无标签方和有标签方各种特征属性取值,判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
2.根据权利要求1所述的基于纵向联邦学习的电力负荷预测方法,其特征在于,所述步骤2和步骤5为有标签方的工作,所述步骤3和步骤4为无标签方的工作,所述步骤2还包括:有标签方将加密后的聚类结果发送给无标签方;所述步骤4还包括:无标签方将密文形式的增益值发送给有标签方;所述步骤6还包括:有标签方将得到的XGboost模型发送至无标签方;所述步骤6的决策树的生成数量达到预计条件或残差小于给定阈值均为人为设定。
4.根据权利要求3所述的基于纵向联邦学习的电力负荷预测方法,其特征在于,所述基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密,具体为:
所述当前决策树为第t棵树,所述目标函数如公式(2)所示:
目标函数的一阶导数和二阶导数分别如公式(3)和公式(4)所示:
6.根据权利要求5所述的基于纵向联邦学习的电力负荷预测方法,其特征在于,所述基于无标签方和有标签方的每个特征属性,划分共同的样本ID集合,具体为:
其中,GL,GR,HL,HR分别是特征划分左右两子树的一阶导数和与二阶导数和,λ,μ为正则项Ω(ft)中的正则化系数;
基于每个特征属性划分将样本ID分为IDL和IDR左右两部分;
计算集合IDL上的一阶导数和二阶导数之和GL,HL,计算集合IDL上的一阶导数和二阶导数之和GR,HR;
8.一种基于纵向联邦学习的电力负荷预测系统,其特征在于,包括:
第一获取模块,所述获取模块基于无标签方和有标签方各自所拥有的数据,获取双方共同的样本ID集合;
处理模块,所述处理模块基于共同的样本ID集合,对当前决策树的目标函数进行求导,并根据导数结果对样本ID集合进行聚类和同态加密;
第二获取模块,所述第二获取模块基于加密后的聚类结果,获取每个类上样本的导数的近似值;
特征属性获取模块,所述特征属性获取模块基于无标签方和有标签方的每个属性特征,划分共同的样本ID集合;并基于每个特征属性划分后样本ID集合和每个类上样本的导数的近似值,获取无标签方和有标签方各自的特征属性划分对应的增益;其中,无标签方得到的是密文形式的增益值,有标签方得到的是明文形式的增益值;
解密模块,所述解密模块用于对无标签方的密文进行解密,对比无标签方所有划分下的增益值,将最大的增益值对应的划分设置为树的当前分裂点,并生成新的节点;
循环模块,所述循环模块用于决策树的生成,直至决策树的生成数量达到预计条件或残差小于给定阈值,获取XGboost模型;
预测模块,所述预测模块利用生成的XGboost模型对企业进行电力负荷预测,按照决策树树结构、无标签方和有标签方各种特征属性取值,判断样本所属的叶子节点,并输出每棵树上所属叶子节点大小之和为预测结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210085811.0A CN114417388B (zh) | 2022-01-25 | 2022-01-25 | 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210085811.0A CN114417388B (zh) | 2022-01-25 | 2022-01-25 | 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114417388A true CN114417388A (zh) | 2022-04-29 |
CN114417388B CN114417388B (zh) | 2022-08-26 |
Family
ID=81277871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210085811.0A Active CN114417388B (zh) | 2022-01-25 | 2022-01-25 | 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114417388B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134077A (zh) * | 2022-06-30 | 2022-09-30 | 云南电网有限责任公司信息中心 | 基于横向lstm联邦学习的企业电力负荷联合预测方法及系统 |
CN117649906A (zh) * | 2024-01-30 | 2024-03-05 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111365015A (zh) * | 2020-03-05 | 2020-07-03 | 中建交通建设集团有限公司 | 一种基于XGBoost的盾构掘进参数特征提取与姿态偏差预测方法 |
CN111598186A (zh) * | 2020-06-05 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于纵向联邦学习的决策模型训练方法、预测方法及装置 |
WO2021114820A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 多方联合进行风险识别的方法和装置 |
CN113191072A (zh) * | 2021-03-30 | 2021-07-30 | 中国建设银行股份有限公司 | 基于纵向联邦逻辑回归的可疑交易监测方法及装置 |
CN113705727A (zh) * | 2021-09-16 | 2021-11-26 | 四川新网银行股份有限公司 | 基于差分隐私的决策树建模方法、预测方法、设备及介质 |
-
2022
- 2022-01-25 CN CN202210085811.0A patent/CN114417388B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114820A1 (zh) * | 2019-12-12 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 多方联合进行风险识别的方法和装置 |
CN111365015A (zh) * | 2020-03-05 | 2020-07-03 | 中建交通建设集团有限公司 | 一种基于XGBoost的盾构掘进参数特征提取与姿态偏差预测方法 |
CN111598186A (zh) * | 2020-06-05 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 基于纵向联邦学习的决策模型训练方法、预测方法及装置 |
CN113191072A (zh) * | 2021-03-30 | 2021-07-30 | 中国建设银行股份有限公司 | 基于纵向联邦逻辑回归的可疑交易监测方法及装置 |
CN113705727A (zh) * | 2021-09-16 | 2021-11-26 | 四川新网银行股份有限公司 | 基于差分隐私的决策树建模方法、预测方法、设备及介质 |
Non-Patent Citations (2)
Title |
---|
YI WANG等: "Electricity Consumer Characteristics Identification:A Federated Learning Approach", 《IEEE TRANSACTIONS ON SMART GRID》 * |
郑楷洪等: "一个面向电力计量系统的联邦学习框架", 《中国电机工程学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134077A (zh) * | 2022-06-30 | 2022-09-30 | 云南电网有限责任公司信息中心 | 基于横向lstm联邦学习的企业电力负荷联合预测方法及系统 |
CN117649906A (zh) * | 2024-01-30 | 2024-03-05 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
CN117649906B (zh) * | 2024-01-30 | 2024-04-26 | 浙江大学 | 一体化铝合金结构件铸造质量预测方法、电子设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114417388B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114417388B (zh) | 基于纵向联邦学习的电力负荷预测方法、系统、设备及介质 | |
US20200366459A1 (en) | Searching Over Encrypted Model and Encrypted Data Using Secure Single-and Multi-Party Learning Based on Encrypted Data | |
CN108521326B (zh) | 一种基于向量同态加密的隐私保护的线性svm模型训练方法 | |
US20200252198A1 (en) | Secure Multi-Party Learning and Inferring Insights Based on Encrypted Data | |
US20160182222A1 (en) | Computer-Implemented System And Method For Multi-Party Data Function Computing Using Discriminative Dimensionality-Reducing Mappings | |
JP6768681B2 (ja) | 分散データからの学習 | |
Zhang et al. | A MapReduce based approach of scalable multidimensional anonymization for big data privacy preservation on cloud | |
CN111475848B (zh) | 保障边缘计算数据隐私的全局和局部低噪声训练方法 | |
CN115062732B (zh) | 基于大数据用户标签信息的资源共享合作推荐方法及系统 | |
CN113657607B (zh) | 一种面向联邦学习的连续学习方法 | |
CN102819772A (zh) | 电力配网建设物资需求预测方法及装置 | |
CN113051239A (zh) | 数据共享方法、应用其的模型的使用方法及相关设备 | |
CN102831489A (zh) | 电力配网建设物资需求预测方法及装置 | |
CN114003744A (zh) | 基于卷积神经网络和向量同态加密的图像检索方法及系统 | |
CN115563859A (zh) | 一种基于分层联邦学习的电力负荷预测方法、装置及介质 | |
Wang et al. | Averaging method for neutral stochastic delay differential equations driven by fractional Brownian motion | |
CN112149141A (zh) | 模型训练方法、装置、设备和介质 | |
CN111209403B (zh) | 数据处理方法、装置、介质及电子设备 | |
Kalpana | Chronological sailfish optimizer for preserving privacy in cloud based on khatri-rao product | |
CN115600226B (zh) | 一种仓单质押数据处理方法及装置 | |
CN111428821A (zh) | 一种基于决策树的资产分类方法 | |
De Luca et al. | Time series clustering on lower tail dependence for portfolio selection | |
CN114329127B (zh) | 特征分箱方法、装置及存储介质 | |
Meng | The Promotion Effect of the Improved ISCA Model on the Application of Accounting Informatization in Small‐and Medium‐Sized Enterprises in the Cloud Computing Environment | |
Farhaoui et al. | Big Data and Smart Digital Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |