CN116933318A

CN116933318A - 一种基于联邦学习的用电数据隐私保护方法

Info

Publication number: CN116933318A
Application number: CN202310943995.4A
Authority: CN
Inventors: 陈建华; 汤志超; 颜彦; 吴冬; 田源
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-24

Abstract

一种基于联邦学习的用电数据隐私保护方法，包括：本地聚合器收集并储存实时用电数据，并进行处理分析，预测得到下一个运行周期内的实时用电数据；对预测得到的数据进行分析处理，制定出对应能源管理和隐私保护策略，在下一个运行周期内实行；预测结束后，将预测算法的局部模型上传；云端收到客户端上传的局部模型，对客户端进行聚类处理；在每个类中，采用传统分布式机器学习的聚合算法，选出客户端代表；对选择的代表重新计算权重，通过加权平均得到更新的全局模型，再将更新的全局模型发送给对应的客户端。本发明提出的方法能够尽可能快地制定出个性化的最优隐私保护和能源管理策略，在确保用户数据安全的前提下，降低运算成本和用电成本。

Description

一种基于联邦学习的用电数据隐私保护方法

技术领域

本发明属于智能用能服务技术领域，具体涉及一种基于联邦学习的用电数据隐私保护方法。

背景技术

先进通信技术和日益成熟的分布式能源(充电电池、光伏、风力发电)的部署有助于开启智能电网的新时代。发电、输电、配电和耗电的过程意味着更加可靠、灵活、通用和高效。智能电表在数据收集和传输中发挥着重要作用，大大加强了能源服务提供商和客户之间的沟通。智能电表收集的数据可用于反映实时用电量，并对未来用电量进行近似预测。根据这些预测结果，可建议客户和能源供应商采取相应的调整。例如，假设我们的住宅家庭配备了可充电电池，客户可以通过适当的电池充电/放电来采用最佳的能源管理策略，以降低用电成本。能源供应商能够根据收集数据的分析和预测进行实时经济调度。然而，大量私人智能电表数据可能在传输过程中被恶意用户入侵。滥用个人用电量数据可能会对消费者的隐私构成威胁。因此，如何在客户隐私和智能电表数据利用率高的情况下找到最佳解决方案是优先事项。

为了寻求在隐私保护限制下准确预测电力需求的可靠和有效的技术，一个名为联合学习的去中心化机器学习框架受到了关注。传统的机器学习方法需要将所有隐私数据聚合并上传到集中式服务器进行模型训练，这导致数据传输过程中严重隐私泄露的高风险。与传统的集中式方式相比，联邦学习具有在本地设备上训练全局模型而无需将个人私人消息上传到集中式服务器的优点。在联邦学习框架中，只有客户端聚合器上的本地训练模型的参数被传递到云端进行模型聚合。然后，将聚合模型返回给客户端，用于下一阶段的新一轮学习迭代。局部学习和迭代的重复不会停止，直到全局聚合模型收敛到稳定状态。

然而，当智能电网的用户群体扩大到一定范围时，智能电表所收集的训练数据通常是非独立同分布数据，与独立同分布数据相比，训练模型的速度和训练模型准确性将会有着明显的下降。为了克服联邦学习中的非独立同分布问题，近年来，考虑到参与者数据的差异分布，提出了聚类联邦学习。聚类联邦学习可以借助联邦学习损失表面的几何特性，将不断变化的客户群体分类为不同的聚类。可是，聚类联邦学习算法也有着聚类算法的缺点。就是很难事先确定好聚类簇的数量。而且，联邦学习关于非独立同分布数据的现有研究是有限的，其中很少有应用于智能电网领域。而随着智能电网的发展，智能电表所收集到的数据集不可避免的呈现出非独立同分布。因此，如何在智能电网中建立一个能有效处理非独立同分布数据的隐私保护和能源管理框架仍然是一个有待解决的关键问题。

发明内容

本发明针对现有技术中的不足，提供一种基于联邦学习的用电数据隐私保护方法，建立能够收集并储存数据并进行预测分析的本地模型，通过结合预测结果来进行数据保护和能源管理，并且通过聚类联邦学习对本地模型进行训练优化，同时处理因为数据范围过大而导致的非独立同分布问题。

为实现上述目的，本发明采用以下技术方案：

一种基于联邦学习的用电数据隐私保护方法，其特征在于，包括如下步骤：

S1：每个客户端都对私人的实时用电数据进行收集，并储存在本地聚合器；

S2：根据每个客户端收集的用电数据，建立各自的XGBoost回归模型；

S3：以截止周期聚合训练集数据，对XGBoost回归模型训练得到用电数据预测模型，根据用电数据预测模型对下一个截止周期的用电数据进行预测，得到预测用电数据集；

S4：对预测用电数据集进行测试评估，并通过差分隐私算法在下一个截止周期对收集到的用电数据进行隐私保护，通过家用可充电电池对整体用电进行控制和管理；

S5：每个客户端在预测完下一个截止周期的用电数据后，上传用电数据预测模型特征到云端，云端根据上传的用电数据预测模型特征，对客户端进行第一次聚类，得到若干聚类簇；

S6：对步骤S5中每一个聚类簇进行第二次聚类，对每个聚类簇中客户端的用电数据预测模型再分类，并且在每个类中选出客户端代表；

S7：收集代表模型，所述代表模型是各客户端代表所对应的用电数据预测模型，用于代表整个类；重新计算各类的权重，并对选择的代表模型参数进行加权平均，按加权平均后得到的代表模型参数更新全局模型参数；

S8：将步骤S7中更新的全局模型参数发送给对应聚类簇中的客户端，各客户端根据接收的全局模型参数更新各自的模型参数；

S9：客户端根据更新后的模型参数优化XGBoost回归模型，开利用优化后的XGBoost回归模型，跳转到步骤S3进行下一轮的计算。

为优化上述技术方案，采取的具体措施还包括：

进一步地，所述客户端是智能家居或智能建筑的所有者，拥有由智能电表、家用电器、太阳能电池板、电动汽车生成的各种异构能源数据；所述聚合器充当边缘计算节点，为覆盖范围内的客户端提供边缘计算和无线通信服务。

进一步地，步骤S2中，所述XGBoost回归模型是由m个树模型组成的加法模型，其预测值为：

式中，f(x_i)表示第t次迭代要训练的树模型，x_i为输入第i个树模型的客户端用电数据；损失函数由预测值与真实值y_i进行表示：

式中，表示预测值/>与真实值y_i的损失函数，L表示总的损失函数；

最终预测的用电数据OBJ^(t)为：

式中，Ω(f_k)表示前k个树模型的值。

进一步地，步骤S4中，所述对预测用电数据集进行测试评估，并通过差分隐私算法在下一个截止周期对收集到的用电数据进行隐私保护，具体为：

通过计算每个预测用电数据集的方差来确定数据集的波动情况，根据数据集的波动情况，选择对应的差分隐私保护级数，并在通过差分隐私算法进行数据保护时，加入对应数量的噪点，进行数据保护。

进一步地，步骤S4中，所述通过家用可充电电池对整体用电进行控制和管理，具体为：

将预测用电数据集与实时电价进行加权平均处理，得到能源管理数据集；根据能源管理数据集制定出最优的能源管理测率，并通过控制家用可充电电池在下一个截止周期中不同时间段进行充电和放电米实行。

进一步地，步骤S5中，通过K-means算法对上传到云端的用电数据预测模型参数{w₁，w₂，...，w_i，...}进行分类聚合，采用欧氏距离来计算数据对象间的距离：

式中，dist(w_i，w_j)表示数据对象w_i和w_j间的距离，D表示数据对象的属性个数，w_i,d，w_j,d为w_i和w_j的第d个模型参数属性值；

先初始化g个类簇中心，基于计算样本与中心点的距离归纳各类簇下的所属样本，迭代实现样本与其归属的类簇中心的距离为最小的目标，其中样本就是用电数据预测模型参数，定义第g个类簇中心为μ^(g)，目标函数如下：

式中，J(c)表示样本与其归属的类簇中心的距离，G表示数据对象的属性个数，x^(j)为类簇中的第j个数据中心，C_g为第g个类簇；

每次迭代各类簇中心需要重新计算进行更新，类簇中所有数据对象的均值为更新后该类簇的类簇中心，类簇中心更新方式如下：

当两次迭代目标函数的差值小于阈值时，则终止迭代，此时所得类簇为最终聚类结果。

进一步地，步骤S7中，所述按加权平均后得到的代表模型参数更新全局模型参数，具体为：

在第t轮更新全局模型参数时，第h个客户端代表计算g_z是在当前模型参数w_t的本地数据的平均梯度，云端聚合各客户端的平均梯度并使用模型参数的更新信息，客户端z的模型更新如下：

式中，w_t，z表示第t轮客户端z的模型参数的更新，f_p(w_t)＝(w₁，w₂，...w_t)是具有模型参数w_t的模型数据集，η是客户端模型的固定学习率，n_z是客户端上的批处理数目；

第t轮云端的模型聚合更新如下：

式中，w_t′表示全局模型参数，云端将w_t′发送给各客户端。

本发明的有益效果是：本发明建立了能够收集并储存数据并进行预测分析的本地模型，通过结合预测结果来进行数据保护和能源管理，并且通过聚类联邦学习对本地模型进行训练优化，同时处理因为数据范围过大而导致的非独立同分布问题。本发明能够有效减弱可能存在的恶意代表影响，尽可能快地制定出个性化的最优隐私保护和能源管理策略，能在确保用户数据安全的前提下，降低运算成本和用电成本。

附图说明

图1是实施例提供的基于联邦学习的用电数据隐私保护方法的模型示意图。

图2是实施例提供的XGBoost回归模型仿真图。

具体实施方式

下面将结合实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。

如图1所示，本申请提出的一种基于联邦学习的用电数据隐私保护方法，其模型框架中包括客户端、能源供应商、云端和聚合器四个部分。其中，①表示数据在差分隐私和电池修改后被发送到电流表上；②表示直接获取用电数据，而不是从电流表中获取；③表示将模型发送到云端进行模型聚类；④表示向客户提供新模式模型；⑤表示公开联邦聚类任务到云端；⑥表示将训练好的模型发送给能源服务提供商；⑦表示向能源服务提供商提供用电数据。

(1)客户端：设I＝{1，...，i，...}表示调查区域(如住宅区和商业区)中单个客户端的集合。每个客户端i∈I是智能家居或智能建筑的所有者，拥有由它的智能电表、家用电器、太阳能电池板、电动汽车等生成的各种非独立同分布能源数据。令S_i表示客户端i∈I拥有的私人能源数据集，即从各种数据源收集的有序能源使用记录的集合，并且S_i＝|S_i|是数据集S_i的大小，即数据样本的数量。

(2)能源供应商：设J＝{1，...，j，...}表示智能电网中的一组能源供应商(例如，公用事业公司)。与集中式人工智能模型不同，每个能源供应商j∈J可以向云端发布一组联合学习任务，表示为γ＝{γ_j，1，...，γ_j，k，...}，并从客户端的共享个人能源数据中获取知识和见解，同时将训练数据保存在客户端的本地聚合器上，从而保护用户隐私。K_j是能源供应商j的任务总数。通过处理客户端的聚合用电数据，每个能源供应商j∈J可以向客户(即单个客户端)提供定制的能源服务，并提高其服务质量，以增加利润和市场渗透。此外，每个客户端都可以享受更高质量的体验，并制定个性化的能源计划。设I_j，k＝{1，...，i，...}是加入任务γ_j，k的学习过程的客户端集合。

(3)云端：云端可以被公开访问，并具有强大的计算、通信和存储能力。一组联合学习任务由云在云端控制平台中托管和管理。

(4)聚合器：在网络中地理分布的一组聚合器形成边缘平面，其集合表示为M＝{1，...，m，...}。每个聚合器m∈M充当边缘计算节点，可以为特定区域内的多个智能家庭和智能建筑提供边缘计算和无线通信服务。由于聚合器靠近能源用户，联邦学习中远程数据传输所涉及的高延迟和间歇性连接可以得到缓解。此外，聚合器的部署可以促进网络边缘的近端模型聚合，从而减轻到云的大量数据流量。聚合器m覆盖范围内的客户端集合定义为I_m＝{1，...，i，...}。

本申请提出的一种基于联邦学习的用电数据隐私保护方法，具体包括以下步骤：

S1，每个客户端i都对私人的实时用电数据进行收集，并储存在本地聚合器。

S2，根据每个客户端i的数据建立XGBoost回归模型，以截止周期T为周期聚合训练集数据S_i，建立用电数据预测模型；

XGBoost算法的目标函数的定义如下：

假设第t次迭代要训练的树模型是f(x_i)，则有：

损失函数由预测值与真实值y_i进行表示：

式中，XGBoost回归模型是由m个树模型组成的加法模型，x_i为输入第i个树模型的客户端用电数据，Ω(f_k)表示前k个树模型的值，表示预测值/>与真实值y_i的损失函数。目标函数由模型的损失函数L与抑制模型复杂度的正则项Ω组成，正则项Ω用于防止过拟合。

S3，根据建立的用电数据预测模型，对下一个截止周期T中的实时用电数据进行预测，得到预测用电数据集S_i+1。

S4，对预测得到的预测用电数据集S_i+1进行测试评估，根据评估结果制定出对应的能源管理和隐私保护策略，并通过差分隐私算法在下一个运行周期对收集到的数据进行隐私保护，通过家用可充电电池对整体用电进行控制和管理；

对预测用电数据集S_i+1求其所包含数据的方差：

D(X)＝E{[X-E(X)]²}

式中，m为预测用电数据集S_i+1的数据量。

根据计算得出的数据方差，制定出一套隐私保护策略，不同的数据波动情况将会受到对应程度的隐私保护。这样，在确保数据安全的前提下，也在一定程度上节省了计算成本。

差分隐私算法通过利用XGBoost算法的预测结果，使得其保护变得精准，且更具有实时性；在数据流出本地聚合器之前再进行隐私保护，可以确保预测和训练用的数据的可用性，从而确保整个系统在下一个截止周期运行结果的准确性。

S5，每个客户端i在预测完下一个截止周期T的用电数据后，上传XGBoost回归模型的部分模型到云端，并根据上传的局部模型特征，对客户端i进行第一次聚类处理，将客户端分为g类。

S6，对S5中的每一个聚类簇中的数据进行第二次安全聚类，将每一个簇中的用户模型再分为k类，并在每个类中，采用传统分布式机器学习的聚合算法，分别选出k客户端代表。

S7，收集代表模型，重新计算权重，并对选择的代表进行加权平均，按加权平均更新全局模型参数。

S8，将S7中更新的全局模型参数发送给对应簇中的客户端，并更新各自的模型参数，进行下一轮训练。

S9，客户端根据更新后的模型参数优化XGBoost回归模型，并利用优化后的XGBoost回归模型，跳转到S3进行下一轮的计算。

在S5-S8中，聚类联邦学习采用K-means算法对上传的数据进行分类聚合。通过采用欧氏距离来计算数据对象间的距离：

式中，dist(w_i，w_j)表示数据对象w_i和w_j间的距离，D表示数据对象的属性个数，w_i,d，w_j,a为w_i和w_j的第d个模型参数属性值。

先初始化g个类簇中心，基于计算样本与中心点的距离归纳各类簇下的所属样本，迭代实现样本与其归属的类簇中心的距离为最小的目标，目标函数如下：

式中，J(c)表示样本与其归属的类簇中心的距离，G表示数据对象的属性个数，x^(j)为类簇中的第j个数据中心，C_g为第g个类簇。

每次迭代，对应的类簇中心需要重新计算，进行更新：对应类簇中所有数据对象的均值，即为更新后该类簇的类簇中心。定义第g个类簇的类簇中心为Center_g，则类簇中心更新方式如下：

当两次迭代J的差值小于某一阈值时，即ΔJ＜δ时，则终止迭代，此时所得类簇即为最终聚类结果。其优化算法步骤为：

1)随机选择k个样本作为初始类簇中心(k为超参，代表类簇的个数。可以凭先验知识、验证法确定取值)；

2)针对数据集中每个样本计算它到k个类簇中心的距离，并将其归属到距离最小的类簇中心所对应的类中；

3)针对每个类簇，重新计算它的类簇中心位置；

4)重复迭代上面2、3两步操作，直到达到某个中止条件(如迭代次数，类簇中心位置不变等)。

对于拥有固定学习率η的分布式梯度下降的典型实现，在第t轮更新全局模型参数时，第h个客户端代表将会计算即它在当前模型参数w_t的本地数据的平均梯度，并且协调方将会根据以下公式聚合这些梯度并使用模型参数的更新信息：

式中，w_t，z表示第t轮客户端z的模型参数的更新，f_p(w_t)＝(w₁，w₂，...w_t)是具有模型参数w_t的模型数据集，η是客户端模型的固定学习率，n_z是客户端上的批处理数目。

协调方之后能够将更新后的模型参数(即全局模型参数)w_t′送给各参与方。或者协调方可将平均梯度发送给各参与方，且参与方将计算更新后的模型参数w_t′。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于联邦学习的用电数据隐私保护方法，其特征在于，包括如下步骤：

S6：对步骤S5中每一个聚类簇进行第二次聚类，对每一个聚类簇中客户端的用电数据预测模型再分类，并且在每个类中选出客户端代表；

S9：客户端根据更新后的模型参数优化XGBoost回归模型，并利用优化后的XGBoost回归模型，跳转到步骤S3进行下一轮的计算。

2.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：所述客户端是智能家居或智能建筑的所有者，拥有由智能电表、家用电器、太阳能电池板、电动汽车生成的各种异构能源数据；所述聚合器充当边缘计算节点，为覆盖范围内的客户端提供边缘计算和无线通信服务。

3.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：步骤S2中，所述XGBoost回归模型是由m个树模型组成的加法模型，其预测值为：

式中，f(x_i)表示第t次迭代要训练的树模型，x_i为输入第i个树模型的客户端用电数据；

损失函数由预测值与真实值y_i进行表示：

最终预测的用电数据OBJ^(t)为：

式中，Ω(f_k)表示前k个树模型的值。

4.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：步骤S4中，所述对预测用电数据集进行测试评估，并通过差分隐私算法在下一个截止周期对收集到的用电数据进行隐私保护，具体为：

5.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：步骤S4中，所述通过家用可充电电池对整体用电进行控制和管理，具体为：

6.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：步骤S5中，通过K-means算法对上传到云端的用电数据预测模型参数{w₁，w₂，...，w_i，...}进行分类聚合，采用欧氏距离来计算数据对象间的距离：

7.如权利要求1所述的一种基于联邦学习的用电数据隐私保护方法，其特征在于：步骤S7中，所述按加权平均后得到的代表模型参数更新全局模型参数，具体为：

第t轮云端的模型聚合更新如下：