CN117910539B

CN117910539B - 一种基于异构半监督联邦学习的家庭特征识别方法

Info

Publication number: CN117910539B
Application number: CN202410310044.8A
Authority: CN
Inventors: 陈维龙; 段雯静; 袁伟民; 张欣然; 张彦如
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-05-31
Anticipated expiration: 2044-03-19
Also published as: CN117910539A

Abstract

一种基于异构半监督联邦学习的家庭特征识别方法，属于联邦学习领域。本发明结合基于原型的联邦学习和半监督学习方法构建SF‑Heter框架，用于基于异构电表数据的家庭特征识别。用基于原型的聚合取代了基于梯度的聚合，各电力零售商利用私有数据和全局原型优化本地的家庭特征识别模型；采用半监督学习方法，通过对未标记数据的标签预测实现数据增强，利用未标记数据信息。本发明基于原型联邦学习框架，在保护电力零售商数据隐私的同时，解决了各零售商之间数据与模型异构问题。本发明采用半监督学习方法，有效使用大量未标记数据信息，提高了识别电力消费者特征的性能。

Description

一种基于异构半监督联邦学习的家庭特征识别方法

技术领域

本发明属于联邦学习领域，尤其涉及一种基于异构半监督联邦学习的家庭特征识别方法。

背景技术

随着智能电表的日益普及，电力零售商收集客户信息的方式发生了改变，智能电表收集关于用电模式的详细信息，提供了账单记录之外的大量信息。为了加强能源管理，并为客户提供个性化和多样化的服务，零售商需要利用细粒度的智能电表数据来准确识别客户的消费特征。

为了分析智能电表数据，传统机器学习技术和深度学习算法被广泛应用，深度学习模型的训练需要大量的数据，零售商之间共享数据可以缓解数据不足的问题，并扩大深度训练的数据量。然而，电力零售商并非同质的，在他们的客户群、服务提供和他们经营的能源市场方面可能存在显著差异，统计数据的异质性对在所有零售商中实施通用能源管理解决方案提出重大挑战。此外，规模较小或资源不足的零售商可能会难以有效地访问和分析智能电表数据，这可能导致数据的访问和利用不平等。除了统计数据的异质性外，电力零售商通过竞争获取利润，因此可能不愿意彼此分享原始隐私敏感的客户信息。

为了在不直接共享用电数据和家庭信息的情况下实现不同电力零售商之间的协作学习，联邦学习(Federated Learning，FL)被认为是一种很有前途的解决方案，即共享本地训练的模型，而不是原始的训练数据。

虽然联邦学习通过共享由所有数据训练的全局模型，缓解了各零售商训练数据不足的问题。但由于标注成本高和数据保护问题，电力零售商在使用自己的数据训练本地模型时仍然面临数据量不足的挑战。现有技术采用联邦学习框架保护数据隐私，但忽略了数据和模型的异质性，未考虑电力零售和家庭特征识别场景下的异质性问题。较高的标注成本和用户隐私担忧，既造成未标注数据的浪费，又由于可用标注数据的不足导致分析不准确。基于转导支持向量机（Transductive Support Vector Machine，TSVM）的半监督学习方法，在标注数据量有限的情况下进行样本分类和信息提取，这是迄今为止唯一一项将半监督学习框架应用于智能电表数据的工作。然而，传统的转导支持向量机不能共享模型参数，不能应用于联邦学习框架。

发明内容

针对现有技术中联邦学习未考虑数据和模型的异质性、标注成本高及传统的转导支持向量机的半监督学习方法不能共享模型参数的技术问题，本发明的目的在于提供一种基于异构半监督联邦学习的家庭特征识别方法。

为解决上述技术问题，本发明的基于异构半监督联邦学习的家庭特征识别方法的具体技术方案如下：

本发明提出的半监督联邦学习的框架SF-Heter（Semi-Supervised FederatedLearning for Smart Meter Heterogeneous Data），用于异构智能电表数据的家庭特征识别任务。每个零售商的本地模型：MODLinear（Multi-Channel Origin Dlinear，MODLinear）由表示层和识别层两部分组成，表示层为特征提取层，将高维电表数据转换为低维向量，提取智能电表中的时间序列信息。表示层后为识别层，利用低维向量表示输出家庭特征的分类预测。数据存储和模型训练过程基于联邦学习框架以分散的方式实现，保护了零售商的数据隐私。采用基于原型的联邦学习方法，中央服务器和零售商通过原型而不是梯度信息进行交流，零售商可以根据自己的数据格式和容量设计个性化参数的维度，以解决数据和模型的异质性问题。此外，采用半监督学习，通过预测未标记的数据的伪标签进行数据增强，并引入统一的损失项，以充分利用未标记的智能电表数据，提高识别家庭特征的准确性。因此，本方案能够比较好地解决上述问题。

本发明的基于异构半监督联邦学习的家庭特征识别方法具有以下有益的技术效果：

1）构建SF-Heter框架处理电力零售商数据，其采用基于原型的联邦学习框架，中央服务器和电力零售商之间能够通过原型进行交流，在保护电力零售商数据隐私的同时，解决数据与模型异质性问题。

2）构建深度MODlinear学习模型提取智能电表中的时间序列信息，输出家庭特征的预测。采用半监督学习方法，通过预测未标记数据的伪标签进行数据增强，引入损失函数，充分利用未标记数据补充有限可用的标记数据，提高模型家庭特征识别的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的MODlinear本地模型结构示意图。

图2为本发明的全局模型聚合结构示意图。

图3 为本发明的本地模型更新框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的半监督联邦学习的SF-Heter框架，旨在应对异构数据和模型的挑战。该框架结合了半监督学习技术和原型框架来提高家庭特征分类精度。整体方法为：

1）初始轮：每个零售商只使用本地电表数据来训练本地模型，并计算初始本地原型。将所有本地原型集转发至中央服务器，对所有本地原型集/>进行平均，聚合成全局原型/>。

2）随后训练轮：使用全局原型来更新零售商的本地模型参数，并计算新的本地原型。每个零售商将本地原型集转发至中央服务器，聚合新的全局原型，再分发给所有零售商。从而开始新一轮的本地模型更新和全局原型聚合。不断重复该过程，直到训练完成。利用私有数据和全局原型，每个本地零售商都优化了各自的模型。

3）更新本地模型时，采用半监督学习方法，通过预测未标记电表数据的伪标签实现数据增强。将分类损失、对齐损失和半监督学习损失集成到一个的损失函数中，根据损失函数值更新本地家庭特征识别模型，/>代表第/>个零售商的第/>个特征的神经网络模型。本地模型能够更有效地从标记和未标记的数据中学习，也鼓励每个本地模型生成更符合全局共识的原型，提高了家庭特征识别的准确性。

为了达到上述目的，本发明提出的基于异构半监督联邦学习的家庭特征识别方法，即半监督联邦学习的SF-Heter框架，包括如下步骤：

步骤S1：构建本地MODLinear模型。将智能电表数据输入MODLinear模型，输出预测的用户家庭特征，并计算初始本地原型。

具体的，如图1所示，所示步骤S1包括以下步骤：

MODLinear模型由两个组件组成：第一个组件为表示层，也称为特征提取层，通过神经网络将高维电表数据转换为低维向量；第二个组件是识别层，利用表示层得到的低维向量进一步预测用户家庭特征。MODLinear模型被表示为，/>表示第/>个零售商的表示层，其参数化形式为/>，/>表示第/>个零售商的识别层，其参数化形式为。定义第/>个零售商拥有的智能电表数据集为/>，/>由数据集/>和/>组成，其中/>是第/>个零售商的未标记数据集，/>是第/>个零售商的标记数据集。

表示层中，为提高电表数据的可预测性，采用时间序列预测的标准方法：季节趋势分解。具体分解方法为在输入序列上使用一个移动平均核提取时间序列的趋势分量，将原始序列与趋势分量的差值作为余数分量。在MODLinear模型中，使用移动平均核，将智能电表数据/>分解为趋势分量/>和余数分量/>；其中，/>，电表数据的整体表示由分解出的趋势分量/>和余数分量/>与/>和/>分别相乘得到，具体表示为/>，其中/>和/>为两个不同的线性层。为了提取不同时间维度信息，采用不同内核大小对电表数据进行分解，从而得到不同的表示。此外，表示通过直接将智能电表数据/>输入另一个线性层/>而不进行分解得到。定义/>为智能电表数据的最终表示，其由/>和/>连接起来表示为：

。

识别层中，将智能电表数据的最终表示输入到由三个全连接层模块（FullyConnected,FC）和一个输出层组成的网络中，全连接层模块使网络能够捕获数据中的复杂关系和模式，从而实现有效的识别和学习；输出层直接识别用户特征。

原型（Prototypes）能有效地表示更广义的用户家庭特征信息；同时，在与服务器的传输过程中，高度聚合的原型避免了用户信息在服务器上的分离，保证用户隐私的保护。本地原型通过如下方式计算，对于第个零售商，定义/>为第/>个零售商的第/>个特征，定义/>表示/>的第/>类的本地原型，/>的值为表示层产生的属于第/>类的智能电表数据的最终表示/>的均值，则/>可计算为:

其中是智能电表数据集/>的子集，由属于第/>个特征的第/>类的训练实例组成。/>为/>的向量表示。在服务器聚合时，有必要使用一致的数据格式进行聚合。在传统的联邦学习中，不同的零售商需要相同的聚合模型。这个限制阻止了在服务器上共享不同的模型和不同格式的数据。但通过使用原型，只需要确保表示层生成的原型的格式是一致的。这使得模型设计具有更大的灵活性，更容易实现并适应不同场景中的不同模型和数据格式。

步骤S2：聚合全局原型，将所有电力零售商的本地原型发送至中央服务器进行聚合，生成统一的、具有代表性的全局原型。

具体的，如图2所示，所示步骤S2包括以下步骤：

为在原型上达成全局共识，中央服务器整理来自所有本地零售商的原型。全局原型的计算公式为：

其中表示/>的第/>类的全局原型，由所有零售商本地原型的平均值聚合而成。/>表示参与聚合的零售商的总数。这种协作方式确保每个零售商为统一的、具有代表性的全局原型做出贡献。

步骤S3：更新本地模型，构建损失函数，使电力零售商的本地原型和中央服务器的全局原型对齐，根据损失函数值更新本地家庭特征识别模型，迭代计算新的本地原型和全局原型。

具体的，如图3所示，所示步骤S3包括以下步骤：

每个零售商的本地模型的目标为：将其来自表示层的本地原型与通过聚合中央服务器上的所有本地原型生成的全局原型进行对齐。这通过应用一种新的损失函数来实现，该损失函数最小化本地原型和全局原型之间的距离，同时最大化分类准确性。该损失函数表示为：

其中表示分类损失，/>表示对齐损失，/>表示半监督学习损失。/>和/>系数是用来平衡/>、/>和/>这三个损失函数的超参数。

构建分类损失，目标是最小化标记数据的分类误差。使用交叉熵作为分类损失，其计算公式为:

其中，是第/>个零售商的标记数据集/>中的标记数据，/>为家庭特征的个数，为第/>个特征的类别数，/>为真实标签，/>为/>属于第/>个特征的第/>个类的概率。

构建对齐损失，目标是使本地原型和全局原型之间的差异最小化。它鼓励每个零售商通过考虑全局共识原型来生成一个更准确、更有代表性的原型，计算如下：

定义为：

其中，是/>的第/>类的本地原型，/>表示/>的第/>类的全局原型，，/>表示/>的第/>类的全局原型。其中/>表示经过/>范数归一化的/>和/>之间的点积，即余弦相似度，/>表示温度参数。通过最小化本地原型和全局原型之间的距离，对齐损失可以促进学习过程的收敛。对齐损失在原型上运行，而不是原始数据，提供了额外的隐私保护层。原型的使用也降低了计算和通信成本，因为它们通常比原始数据或原始模型的维度要低得多。

构建半监督学习损失，利用未标记数据弥补标记数据的有限可用性，并提高整体模型性能。通过预测未标记数据的伪标签，增强了模型的鲁棒性。智能电表数据/>包括标记数据/>和未标记数据/>，为了生成伪标签，未标记数据/>经历了数据增强，从而得到增强后的数据/>。模型预测类分布/>,函数为预测类分布的神经网络模型，其中/>为模型的参数。表示/>的伪标签。半监督学习损失/>表示为：

其中，是第/>个零售商的未标记数据集/>中的未标记数据，/>为/>的伪标签，/>为/>属于第/>个特征的第/>类的预测概率。这些伪标签/>是模型在自训练过程中生成的：最初对有标签数据进行训练，然后模型预测未标记数据的标签。

通过优化过程使损失最小化，从而更新每个零售商的本地模型，在本地模型更新之后，每个零售商计算其更新后的本地原型，并将其发送到中央服务器以进行全局原型更新。本地模型更新和全局原型更新的迭代过程产生了更好的整体模型，提供了一种稳健的机制来处理联邦学习框架中不同零售商之间的数据和模型异质性。

本发明通过使用爱尔兰能源管理委员会(CER)数据集验证发明的SF-Heter框架，该数据集由2009年7月14日至2010年12月31日的智能计量电力用户行为试验期间获得。该数据集包括18个月来每隔30分钟的用电量记录，收集自4232个爱尔兰居民客户。

从问卷调查中收集的信息揭示了爱尔兰居民客户的能源消费行为和习惯。对收集的数据进行分析，以揭示各种因素之间的模式和相关性，并分配标签将客户分为不同类别。提取关键标签，包括就业状况、房屋所有权和电器数量，以总结用户的用电特征。如表1所示，这些标签分为两类或三类。

表1 家庭特征标签

将数据分成两部分：80%的数据用于训练模型，剩余20%数据用于测试模型的性能。设置10个零售商，将训练数据分为的10个部分，每个部分约占消费者的8%。在半监督测试时，消费者的部分标签被保留，使用已标记和未标记的数据度量模型的性能。

对于家庭特征分类问题，根据与分类器相关的混淆矩阵定义分类器性能，对于分类问题，可以得到混淆矩阵CM。其元素/>表示在类/>中被分类为/>的样本数。根据混淆矩阵，分类精度ACC度量在评价非平衡数据集分类器的性能方面有局限性，马修斯相关系数MCC考虑了各种混淆矩阵结果的比例，更适合不平衡的数据集。因此，采用MCC作为评估指标，其计算公式为：

其中TP（True Positive）和TN（True negative）表示正确分类的正例和负例的数量。FN（False negative）和FP（False positive）分别表示错误分类的正例和负例的数量。MCC为1表示完全分类，0表示不优于随机分类，-1表示分类与观察不一致。

1）进行智能电表数据异质性评估。研究异质性对本发明SF-Heter框架的影响，并将本发明与五种算法对比：

①SF-Heter：本发明提出的框架；

②Decentralized:消费者单独训练他们的模型，而不交换任何个人数据或本地模型参数；

③Centralized:消费者用所有的个人数据训练他们的模型；

④FedAvg：领先的联邦学习算法，采用基于梯度的方法，将所有局部模型简单地求均值为全局模型；

⑤FedProto：基于带有近端项的FedAvg框架的算法。

这五个框架的比较如下表2所示：

表2 联邦学习框架对比

表2中框架的比较表明，SF-Heter框架在隐私、异构性和未标记数据处理方面表现出色，且其通信成本非常低，仅为0.01s。同时，SF-Heter还可以通过其他零售商的样品获得全局信息。相反，Decentralized方法支持隐私，但不支持异构、未标记的数据或收集全局信息。Centralized方法不提供隐私保护，并且不能有效地处理异构或未标记的数据。FedAvg能够维护隐私、通过参数上传收集全局信息，但仍然缺乏处理异构和未标记数据的能力，因为FedAvg只与服务器共享模型。相反，FedProto是专门为处理异构数据而设计的，但FedProto没有对未标记数据进行处理。

混合异质性是指三种异质性(不等长度、不等采样、数据不平衡)同时存在的情况。在这种情况下，每个零售商可能通过不同的抽样策略收集独特的数据，这些数据的长度不同，服务于不同的地区。在混合异质性情景下，SF-Heter框架的ACC、MCC指标如下表3所示：

表3 实验结果对比

该实验结果验证了SF-Heter框架在解决所有三种类型的异质性方面的有效性，SF-Heter算法以最高的ACC和MCC得分优于其他五种算法。相比之下，FedAvg算法在案例#1和#2中未能准确预测不平衡标签，揭示了其在处理此类数据分布方面的局限性。案例#3#4#8的结果进一步突出了传统FL方法在处理强异质性时所面临的挑战。另一方面，FedProto和SF-Heter的表现证明了将异质性纳入学习过程的好处。这两种算法都优于传统方法，强调了在FL设置中考虑不同异质性因素的重要性。FedProto不仅改善了个人客户的个性化，还从全局的角度，通过类似集群的策略，聚合了标签相似的原型。该算法的辅助损失由值控制，可以在个性化和全局信息之间取得平衡。除FedProto外，SF-Heter充分利用了未标记的异构数据，实验结果表明，本发明SF-Heter框架是处理标记数据量有限的复杂异构场景的有效解决方案，同时能保护用户隐私。

2）进行未标记数据评估。采用四种比较的模型，分别为：

①supervised PNN：基于提出的FL框架的典型有监督多层感知器(MLP)模型；

②supervised CNN-LSTM：典型的监督随机森林模型；

③F-Heter：在FL框架和监督部分中提出的模型；

④SF-Heter：在FL框架和半监督部分中提出的模型。

实验比较了SF-Heter的MCC与其他三种算法的不同水平的未标记数据和异质性。由实验结果知，随着未标记比率的增加，四种算法的性能都有所下降。

由于更多的未标记数据为学习模型引入了更大的不确定性，这种性能下降是预期内的。在这四种算法中，SF-Heter甚至始终优于其他算法，实验结果证明了SF-Heter框架在联邦设置中处理未标记数据的有效性。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于异构半监督联邦学习的家庭特征识别方法，其特征在于，包括如下步骤：

步骤S1：构建本地MODLinear模型，将智能电表数据输入MODLinear模型，输出预测的用户家庭特征，并计算初始本地原型；

步骤S2：聚合全局原型，将所有电力零售商的本地原型发送至中央服务器进行聚合，生成统一的、具有代表性的全局原型；

步骤S3：更新本地模型，构建损失函数，使电力零售商的本地原型和中央服务器的全局原型对齐，根据损失函数值更新本地家庭特征识别模型，迭代计算新的本地原型和全局原型；

其中，MODLinear模型由两个组件组成：第一个组件为表示层，也称为特征提取层，通过神经网络将高维电表数据转换为低维向量；第二个组件是识别层，利用表示层得到的低维向量进一步预测用户家庭特征；

MODLinear模型被表示为ε(φ_r)表示第r个零售商的表示层，其参数化形式为φ_r，/>表示第r个零售商的识别层，其参数化形式为v_r；定义第r个零售商拥有的智能电表数据集为D_r，D_r由数据集/>和/>组成，其中/>是第r个零售商的未标记数据集，/>是第r个零售商的标记数据集；

在MODLinear模型中，使用移动平均核k，将智能电表数据X分解为趋势分量和余数分量/>其中，/>电表数据的整体表示由分解出的趋势分量/>和余数分量/>与/>和/>分别相乘得到，具体表示为/>其中和/>为两个不同的线性层；H_o＝W^OX表示通过直接将智能电表数据X输入另一个线性层W^O而不进行分解得到；定义H＝ε(φ_r)为智能电表数据的最终表示，其由H_o和H_k连接起来表示为：H＝H_oUH_k，k∈{1，2，3}。

2.根据权利要求1所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

本地原型采用如下方式计算，对于第r个零售商，定义Y_r，m为第r个零售商的第m个特征，定义C_r，m，n表示Y_r，m的第n类的本地原型，C_r，m，n的值为表示层产生的属于第n类的智能电表数据的最终表示H的均值，则C_r，m，n计算公式为：

其中D_r，m，n是智能电表数据集D_r的子集，由属于第m个特征的第n类的训练实例组成；ε(φ_r，X)为X的向量表示。

3.根据权利要求2所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

全局原型的计算公式为：

其中表示Y_r，m的第n类的全局原型，由所有零售商本地原型的平均值聚合而成；|R|表示参与聚合的零售商的总数。

4.根据权利要求3所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

构建损失函数表示为：

其中表示分类损失，/>表示对齐损失，/>表示半监督学习损失，λ₁和λ₂系数是用来平衡/>和/>这三个损失函数的超参数。

5.根据权利要求4所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

分类损失的计算公式为：/>

其中，x_i是第r个零售商的标记数据集中的标记数据，M为家庭特征的个数，N_m为第m个特征的类别数，y_i，m，n为真实标签，p_i，m，n为x_i属于第m个特征的第n个类的概率。

6.根据权利要求5所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

对齐损失的计算公式为：/>

l_r，m，n定义为：

其中，表示Y_r，m的第t类的全局原型，t＝1，...，N_m；其中表示经过l₂范数归一化的C和/>之间的点积，即余弦相似度，τ表示温度参数。

7.根据权利要求6所述的基于异构半监督联邦学习的家庭特征识别方法，其特征在于，

半监督学习损失L_semi-I的计算公式为：

其中，x_j是第r个零售商的未标记数据集中的未标记数据，/>为x_j的伪标签，p_j，m，n为x_j属于第m个特征的第n类的预测概率。