CN113627619A

CN113627619A - 基于伪噪声序列的保障联邦学习系统的公平性的方法

Info

Publication number: CN113627619A
Application number: CN202110770971.4A
Authority: CN
Inventors: 邵雨蒙; 李骏; 马川; 时龙; 王喆; 张�杰; 沈寒池
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-09
Anticipated expiration: 2041-07-07

Abstract

本发明公开了一种基于伪噪声序列的保障联邦学习系统的公平性的方法，包括以下步骤：在联邦学习系统中欲保护的学习模型上添加伪噪声序列；收集各个用户上传的学习模型；对已上传的学习模型进行伪噪声序列自相关检测和模型精度预检测；惩罚作假用户，补偿其影响，维护系统公平性。本发明实现了在联邦学习架构中检测作假用户的不公平行为，并且通过相应的惩罚和补偿机制，减小这些行为产生的影响，提高用户之间的公平性，营造良好的学习环境。

Description

基于伪噪声序列的保障联邦学习系统的公平性的方法

技术领域

本发明涉及机器学习领域，具体涉及一种基于伪噪声序列的保障联邦学习系统的公平性的方法。

背景技术

码分多址技术在快速发展的无线通信中具有重要的应用价值，有助于实现高数据容量的通信，提高频谱利用率。但是码分多址系统易受到多址干扰的影响，为了缓解这一问题，码分多址技术在发射机和接收机上采用了扩频码。通过使用扩频码，信号被扩频到一个大的频带上，使得信息在使用比信息信号大的带宽的情况下，仍然保持原始信号的功率。扩频通信的优点是提供保密通信，有助于增强对自然干扰、噪声和人为干扰的抵抗力。而扩频通信的所有技术都需要使用扩频码来控制信息信号的传播。

常用的扩频码是伪噪声序列。伪噪声序列是实际确定性的序列，但通过了许多随机性的测试，具有随机噪声的多个特点，例如随机性和不可预测性。伪噪声序列通常用于产生近似白噪声，拥有白噪声高自相关系数和低互相关系数的特性，在扩频技术和密码学等方面有广泛的应用。在码分多址系统中，由于伪噪声序列的低互相关特性，使得接收机能够区分由不同伪噪声序列产生的扩频信号，所以伪噪声序列在存在干扰时性能较好，在码分多址系统中有很多的应用。

在人工智能领域，数据是机器学习的基础。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。随着人工智能的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。

联邦学习是一种机器学习的架构，旨在帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，达到更好的学习效果和隐私保护性能。与传统的分布式机器学习的架构相比，联邦学习交换训练后的模型而非训练前的原始数据，从而在不降低学习效果的前提下保证了隐私数据的私有性。由此，联邦学习使得各个用户在保持数据隐私性的情况下，参与到联合的学习之中，协作完成共同的目标任务。由于联邦学习中的每个用户拥有自己的本地数据和本地训练计算的能力，一般可视为一个单智能体。而联邦学习作为一个多智能体系统，则需要考虑各个智能体的行为之间的相互影响，防止一些破坏系统公平性的用户行为，例如：偷懒行为，抄袭行为，投毒行为，营造一个公平的学习环境。

发明内容

本发明的目的在于提供一种基于伪噪声序列的保障联邦学习系统的公平性的方法，在现有的联邦学习架构中，针对用户的偷懒、抄袭、投毒行为降低系统性能的现状，设计一种基于伪噪声序列的保护方法，使得系统能够通过相应的检测手段发现用户的恶意行为，从而对作假用户进行相应的惩罚，减少作假用户的影响，保证学习环境的公平性。

实现本发明目的的技术解决方案为：一种基于伪噪声序列的保障联邦学习系统的公平性的方法，包括：

在联邦学习系统中欲保护的学习模型上添加伪噪声序列；

收集各个用户上传的学习模型；

对已上传的学习模型进行伪噪声序列自相关检测和模型精度预检测；

惩罚作假用户，补偿其影响，维护系统公平性。

进一步的，所述联邦学习系统包括中心化联邦学习系统和去中心化联邦学习系统。

进一步的，所述在欲保护的学习模型上添加伪噪声序列是指根据欲保护的学习模型的参数总个数，添加相应长度的截断的加性伪噪声序列在每一个学习模型参数上；或者根据生成的加性伪噪声序列的长度，重复一部分学习模型参数，然后将该加性伪噪声序列添加在重复后的学习模型参数上。

进一步的，所述的伪噪声序列包括最长线性反馈移位寄存器序列，Gold序列，二次剩余序列，双素数序列，霍尔序列。

进一步的，所述的伪噪声序列自相关检测是指系统中的用户使用在添加伪噪声序列时生成的伪噪声序列对学习模型进行零移位的自相关系数计算。

进一步的，所述的模型精度预检测是指系统中的用户使用自己的数据对学习模型进行精度检测。

进一步的，所述的用户是指可以进行计算的设备，包括移动终端，计算机，边缘路由器。

进一步的，所述的不公平行为是指用户在训练模型的过程中未积极参与训练，通过一些其他途径获得或者生成相应的模型参数，包括抄袭其他用户的模型，在已有模型上加噪，随机生成模型参数。

进一步的，所述的系统公平性是指系统中的用户均积极参与训练，系统对于不积极的用户实施相应的惩罚，包括奖励分配的公平性，训练条件的公平性，投入与期望回报的相对公平性

本发明与现有方法相比，具有以下有益效果：传统的联邦学习架构，如谷歌提出的FedAvg架构，在面对作假用户的时候，缺乏相应的监督和审查机制，导致系统长期受到用户的不公平行为的影响，诚实用户的参与积极性大大下降；本发明通过在欲保护的模型上添加伪噪声序列，赋予了这些不公平行为被检测到的可能性，并且通过相应的惩罚和补偿机制，减小这些行为产生的影响，提高用户之间的公平性，营造良好的学习环境。

附图说明

图1是本发明基于伪噪声序列的保障联邦学习系统的公平性的方法流程图。

图2是本发明在中心化联邦学习中对抗抄袭用户的系统示意图。

图3是本发明在去中心化联邦学习中对抗抄袭加噪的用户的性能效果图。

具体实施方式

本发明提出一种基于伪噪声序列的保障联邦学习系统的公平性的方法，如图1所示，该方法在联邦学习系统中欲保护的学习模型上添加伪噪声序列，然后对收集到的其他用户上传的模型进行相对应的伪噪声序列的自相关检测和模型精度预检测。通过检测，系统可以发现用户的不公平行为和相应的作假用户，从而对作假用户进行惩罚并对其造成的影响进行补偿，保证整个系统的公平性。

下面对本发明方法中出现的名词概念进行解释：

联邦学习是一个机器学习框架，能有效帮助多个单位在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模，包括中心化联邦学习，去中心化联邦学习。

学习模型是一套数据计算的流程方法，数学上体现为一个函数，物理上体现为一段代码，数据经过这段代码的操作(比如加减乘除，或者其他运算组成的操作步骤)后可以得到相对应的输出结果，包括支持向量机的模型参数，多层感知机的模型参数，神经网络的模型参数，强化学习的模型参数。

伪噪声序列是指具有类似随机噪声的一些统计特性，可以重复产生和处理的序列，包括最长线性反馈移位寄存器序列，二次剩余序列，双素数序列，霍尔序列。

检测方法是指用特定的方法检测用户上传的模型，包括伪噪声序列峰值检测，模型精度预测试，模型相似度检测。

用户是指可以进行计算的设备，包括移动终端，计算机，边缘路由器。

所述的不公平行为，是指用户在训练模型的过程中未积极参与训练，通过一些其他途径获得或者生成相应的模型参数，包括抄袭其他用户的模型，在已有模型上加噪，随机生成模型参数。

所述的系统的公平性，是指系统中的用户均积极参与训练，系统对于不积极的用户实施相应的惩罚，包括奖励分配的公平性，训练条件的公平性，投入与期望回报的相对公平性。

下面通过实施例对本申请进行详细说明。

实施例1：中心化联邦学习架构中的应用

在中心化的联邦学习架构中，全局模型的广播为用户提供了抄袭历史全局模型的可能性，即用户在当前的通信轮数抄袭之前服务器聚合生成并广播的历史全局模型。应对这种情况，服务器可在每一次广播全局模型之前先在模型的参数上添加一段相对应的自己生成的独特的伪噪声序列。这个伪噪声序列只有服务器自己知道具体的序列，对于其他用户而言，一旦伪噪声序列添加在模型参数上，便很难从模型参数上分离出伪噪声序列，也就是其他用户不能获取每一次服务器添加的伪噪声序列的具体形式。按照联邦学习的流程，服务器在广播了全局模型后，需等待用户进行一轮的本地训练，然后收集所有用户训练后上传的模型，对所有模型进行聚合后再广播。本发明提出的不公平用户的检测方法，要求服务器对收集到的所有用户上传的模型进行伪噪声序列的自相关检测和模型精度预检测。伪噪声序列的自相关检测根据序列的自相关峰值情况可以检测到用户抄袭历史全局模型的行为，从而对用户进行惩罚，并在聚合的时候舍弃该用户抄袭产生的模型，降低抄袭行为对系统性能的影响。模型精度预检测可以根据一部分不敏感的测试数据集对用户上传的模型进行预检测，筛选一部分精度特别低的模型，在聚合时丢弃该模型，并对其产生用户进行惩罚，杜绝用户生成随机噪声作为模型参数上传危害系统的行为。中心化的联邦学习架构在应用了本发明的设计之后，可以检测到用户的不公平行为并对其造成的影响进行补偿，也可以对相应的作假用户进行惩罚，营造一个公平良好的学习环境。本实施例的系统流程如图2所示。

实施例2：去中心化的联邦学习架构中的应用

在去中心化的联邦学习架构中，每个用户都需要向其他用户广播自己训练后的模型已达到全局模型的一致性以及获取到所有其他用户的模型以便聚合生成全局模型。在这样的架构流程下，懒惰用户可以做出相应的偷懒操作，即懒惰用户为了节省自身的计算资源，不进行本地训练，而在收到其他用户广播而来的模型后随机选取一个模型进行拷贝并添加一些噪声，作为自己的模型再进行广播，也就是抄袭并加噪的不公平行为。懒惰用户的这些行为在去中心化的架构中更难以被察觉并且对系统会造成非常大的影响。针对这种现象，本发明设计让每一个用户需在广播自己的模型前对模型添加相应的一段独特的伪噪声序列。经过了这个操作以后，在收到其他人广播而来的模型时便可对他人的模型进行伪噪声序列的自相关检测，根据序列的峰值情况判断他人广播的模型是否有抄袭自己模型。根据伪噪声序列的自相关特性，如果检测到他人的模型与自身的序列的互相关也有一个峰值的出现，则可认为该模型有抄袭自身的可能性。然后，该诚实用户在网络中公开自己的伪噪声序列作为证据，让其余的网络节点共同去验证这个抄袭行为，通过一些公共的判断和评价手段，例如：区块链中的智能合约，来决定是否要在聚合的时候舍弃该抄袭模型并对该懒惰用户做出相应的惩罚。去中心化的联邦学习架构在应用了本发明的设计后，可以检测到懒惰用户的抄袭行为，并通过公共事务获取其余诚实用户的共识，来惩罚懒惰用户并对其造成的影响进行相应的补偿，共同营造一个公平良好的学习环境。本实施例的实验结果如图3所示。图3中，所有实验都是在系统里有40％的懒惰用户的情况下进行的，圆点标记的线表示的是不添加伪噪声序列时的损失函数值；方块标记的线是添加了伪噪声序列时的损失函数值，比起不添加时更高，因为在模型上添加了噪声；三角形标记的线表示的是添加了伪噪声序列并丢弃了抄袭模型，对懒惰用户的行为进行了补偿时的损失函数值，是本发明所阐述的方法。从结果来看，本发明的方法明显降低了联邦学习中存在懒惰用户时的损失函数，提高了系统的整体性能，具有非常广阔的应用前景。

Claims

1.一种基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，包括：

在联邦学习系统中欲保护的学习模型上添加伪噪声序列；

收集各个用户上传的学习模型；

惩罚作假用户，补偿其影响，维护系统公平性。

2.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述联邦学习系统包括中心化联邦学习系统和去中心化联邦学习系统。

3.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述在欲保护的学习模型上添加伪噪声序列是指根据欲保护的学习模型的参数总个数，添加相应长度的截断的加性伪噪声序列在每一个学习模型参数上；或者根据生成的加性伪噪声序列的长度，重复一部分学习模型参数，然后将该加性伪噪声序列添加在重复后的学习模型参数上。

4.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的伪噪声序列包括最长线性反馈移位寄存器序列，Gold序列，二次剩余序列，双素数序列，霍尔序列。

5.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的伪噪声序列自相关检测是指系统中的用户使用在添加伪噪声序列时生成的伪噪声序列对学习模型进行零移位的自相关系数计算。

6.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的模型精度预检测是指系统中的用户使用自己的数据对学习模型进行精度检测。

7.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的用户是指可以进行计算的设备，包括移动终端，计算机，边缘路由器。

8.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的不公平行为是指用户在训练模型的过程中未积极参与训练，通过一些其他途径获得或者生成相应的模型参数，包括抄袭其他用户的模型，在已有模型上加噪，随机生成模型参数。

9.根据权利要求1所述的基于伪噪声序列的保障联邦学习系统的公平性的方法，其特征在于，所述的系统公平性是指系统中的用户均积极参与训练，系统对于不积极的用户实施相应的惩罚，包括奖励分配的公平性，训练条件的公平性，投入与期望回报的相对公平性。