CN114417417B

CN114417417B - 一种基于联邦学习的工业物联网隐私保护系统及方法

Info

Publication number: CN114417417B
Application number: CN202210079619.0A
Authority: CN
Inventors: 曹美; 赵梦莹; 张�浩; 申兆岩; 蔡晓军; 贾智平
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2024-04-30
Anticipated expiration: 2042-01-24
Also published as: CN114417417A

Abstract

本发明属于机器学习技术领域与分布式系统技术领域，提供了基于联邦学习的工业物联网隐私保护系统及方法。其中该系统包括服务器节点和若干相互通信的客户端节点；服务器节点内预存有初始全局模型，用于根据不同客户端节点上传的自身拥有的数据类别，将工业物联网参与训练的客户端节点划分成不同的组；基于数据类别感知的客户端选择算法，在每一轮通信中向选择不同组的客户端节点下发联邦学习的全局模型；客户端节点用于在本地利用自身数据对接收到的全局模型进行训练，并将训练完成的本地模型上传至服务器节点；服务器节点还用于使用加权平均的策略对若干个本地模型进行聚合并形成新的全局模型，直至达到设定要求，结束迭代。

Description

一种基于联邦学习的工业物联网隐私保护系统及方法

技术领域

本发明属于机器学习技术领域与分布式系统技术领域，尤其涉及一种基于联邦学习的工业物联网隐私保护系统及方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

数据作为工业物联网(Industrial Internet of Things，IIoT)发展的重要资源，其重要价值进一步凸显，但也由此引发了一系列对于数据安全和隐私保护的担忧，数据安全问题已然成为工业物联网全面发展的重要制约瓶颈和亟需突破的关键挑战。在工业物联网时代，如何在保障数据安全和用户隐私的前提下，促进多源数据的碰撞、融合和挖掘，最大限度地释放数据价值，成为当前学术界和工业界面临的最大挑战之一。

为了满足新发展趋势下对工业物联网发展的要求，研究人员早期利用分布式计算，试图通过整合不同来源的数据进行分布式的建模，从而解决数据保护问题。但重量级的分布式系统框架通常会产生巨大的沟通成本，影响数据的传输和处理效率。联邦学习(Federated Learning，FL)给上述难题提供了解决方案。联邦学习是一种关注数据保护的机器学习技术，指在不交换数据样本的情况下，训练算法跨越多个分散的边缘设备或服务器，从而基于分布式的数据训练出全局模型。不同于传统的集中式机器学习技术，不需要把分布式客户端的本地数据集中上传到一台服务器上，可以有效地保护用户隐私。

然而，由于工业物联网环境下互联的终端设备种类丰富，其上的数据标签和数量等属性差异非常大，是非独立同分布的(Non-independent and identicallydistributed)，导致不同终端设备在参与联邦学习训练本地模型时，模型参数存在很大差别，而传统的全局模型更新算法可能会忽略与分类相关的重要信息，导致联邦学习得到高精度的全局模型非常耗时，如何提高联邦学习全局模型更新的效率，加快全局模型的收敛速度，对于提升系统整体效率具有重要意义。

目前的联邦学习中，服务器对于联邦学习中各终端设备的发送的本地模型主要通过两种方案进行聚合以更新全局模型。比如，联邦学习服务器采用绝对平均的策略对于收到的模型进行聚合，即对所有模型每个相同位置的参数使用加权因子进行加权(S^(t)是第t轮中，服务器收到的模型集合，|·|表示集合的数目)，或者联邦学习服务器采用加权平均的策略对于收到的模型进行聚合，即对所有模型每个相同位置的参数使用加权因子进行加权(m_i表示索引为i的客户端所拥有的训练数据的数量，n表示参与本次模型聚合的客户端总数)。

然而，联邦学习服务器采用以上两种方法对模型进行聚合，缺乏优化考虑，换言之，联邦学习服务器通过绝对平均或者加权平均的方案没有考虑各终端设备数据分布的特性，导致学习匹配特定特征的能力下降，因此，存在全局模型更新效率低下的问题，从而导致系统在模型训练上耗费大量时间，降低了联邦学习中各终端设备上的模型在联邦模型下的表达。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于联邦学习的工业物联网隐私保护系统及方法，其通过对终端设备进行分组，组内模型进行聚合，组间模型进行传递，以使系统更快收敛，在终端设备中数据量和数据类别极不平衡的情况下，高效实现全局模型的更新。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于联邦学习的工业物联网隐私保护系统，其包括服务器节点和若干相互通信的客户端节点；所述服务器节点内预存有初始全局模型，所述服务器节点用于：

根据不同客户端节点上传的自身拥有的数据类别，将工业物联网参与训练的客户端节点划分成不同的组；

基于数据类别感知的客户端选择算法，在每一轮通信中向选择不同组的客户端节点下发联邦学习的全局模型；

所述客户端节点用于：在本地利用自身数据对接收到的全局模型进行训练，并将训练完成的本地模型上传至服务器节点；

所述服务器节点，还用于：使用加权平均的策略对若干个本地模型进行聚合并形成新的全局模型，直至达到设定要求，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代。

作为一种实施方式，在服务器节点中，基于数据类别感知的客户端选择算法在每一轮全局迭代开始之前，决定选择哪一组客户端节点进行本轮的训练，考虑两个原则：

原则一：整个联邦学习过程选择每个客户端节点的概率应该大致相等；

原则二：在连续的几轮通信中，所有选定客户端节点的数据都应该代表整个数据分布。

作为一种实施方式，在第t轮的通信中，择价值最小的客户端节点组；使用下列公式计算每个客户端节点组的价值

其中，C^t-1[k]表示在过去的t-1轮客户端节点k被选中的次数，|S_e|表示集合S_e中客户端节点的数量，表示在集合S_e中类别为l的样本总数，/>表示集合S_e中的样本总数，H^t[l]表示在过去的t轮中被选中类别为l的样本的累计率，H^t-1[l]表示在过去的t-1轮中被选中类别为l的样本的累计率，S^t表示在第t轮通信中被选中的组。

作为一种实施方式，在每一轮的全局迭代前，所有客户端节点向服务器节点上传自己拥有的数据类别。

作为一种实施方式，服务器节点用于根据客户端节点的数据类别将所有的客户端分成若干组，同一组内的客户端节点拥有相同或相似的数据类别。

作为一种实施方式，服务器节点用于根据客户端节点集合内数据类别的相似度进行合并。

作为一种实施方式，在服务器节点中，当某两个客户端节点集合的数据类别最大相似度低于预定义的阈值时，表明不再存在相似集合，合并迭代结束。

作为一种实施方式，服务器节点用于：如果客户端节点的数据标签集合发生变化，则重新进行客户端节点分组工作。

作为一种实施方式，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代的设定要求为：全局模型的精度或联邦学习的通信轮数达到设定的阈值。

本发明的第二个方面提供一种基于联邦学习的工业物联网隐私保护系统的隐私保护方法，其包括：

服务器节点根据不同客户端节点上传的自身拥有的数据类别，将工业物联网参与训练的客户端节点划分成不同的组；基于数据类别感知的客户端选择算法，在每一轮通信中向选择不同组的客户端节点下发联邦学习的全局模型；

客户端节点在本地利用自身数据对接收到的全局模型进行训练，并将训练完成的本地模型上传至服务器节点；

服务器节点使用加权平均的策略对若干个本地模型进行聚合并形成新的全局模型，直至达到设定要求，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代。

与现有技术相比，本发明的有益效果是：

(1)本发明实现了对海量工业数据的隐私保护。产品的个性定制涉及到对工业现场制造数据、环境数据和客户需求数据等的分析与利用，传统的数据共享系统需要将数据集中到一个中心服务器上，导致两大问题，一是隐私泄露，二是有的厂商不愿分享自己的数据造成数据孤岛，严重影响了工业物联网平台的交互效率。本发明将联邦学习应用在工业物联网上，深度学习智能模型可以持续迭代，而训练数据仍安全保存在用户的设备中，有效地保护用户隐私。

(2)本发明实现了在客户端节点数据类型和数据量分布极不平衡的情况下，高效、准确的深度学习智能模型训练。不同于先前的工作，本发明提出了基于数据类别感知的客户端节点分组算法和组选择算法，根据不同客户端节点拥有的数据类别的相似度，将客户端节点分为不同的组，模型在组内聚合，在组间传递，加快了模型在客户端节点数据类型和数据量分布极不平衡的情况下的收敛速度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是传统的中心化联邦学习架构；

图2是本发明实施例中基于数据类别感知的客户端节点分组算法及组选择算法；

图3是本发明实施例中基于联邦学习的工业物联网隐私保护系统架构示意图；

图4是本发明实施例中基于联邦学习的工业物联网隐私保护系统的工作过程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例提供了一种基于联邦学习的工业物联网隐私保护系统，其具体包括服务器节点和若干相互通信的客户端节点。

在具体实施过程中，服务器节点可使用云端服务器(如腾讯云、阿里云、华为云或自己搭建的服务器)实现，用于实现模型聚合功能，以及全局模型的存储和分享。

客户端节点可使用工业物联网平台中若干互联互通的终端设备实现。客户端节点实现本地模型训练。

服务器节点与客户端节点之间通过网络传输链路来实现。网络传输链路使用数据上传和数据下发链路实现，用于实现数据的上传和数据的下发。

设联邦学习中客户端节点总数为n个，每轮通信中，在n个客户端节点中任意选择m个参与本轮的模型训练。如图1所示，对于Independently Identically Distribution(IID)的数据，客户端节点任选的策略对模型精度影响不大。但是对于Non-IndependentlyIdentically Distribution(Non-IID)的数据，该策略选出的客户端节点使用加权平均的聚合方法得到的全局模型，各本地模型的特征被削弱，导致全局模型精度低，收敛速度慢。

因此，本实施例基于数据类别感知的客户端选择算法，如图2所示，在每一轮通信中向选择不同组的客户端节点下发联邦学习的全局模型。

其中，在所述服务器节点内预存有初始全局模型，初始全局模型采用深度学习神经网络模型来实现。

所述服务器节点用于：

基于数据类别感知的客户端选择算法，在每一轮通信中向选择不同组的客户端节点下发联邦学习的全局模型。

设联邦学习中客户端节点总数为n个，在联邦学习开始之前，服务器节点根据各客户端节点上传的数据类别对n个客户端节点进行分组，每组内部的客户端节点具有相同或相似的数据类别。注意分组不是均分，是根据数据类别的相似度进行的划分。

在服务器节点中，基于数据类别感知的客户端选择算法在每一轮全局迭代开始之前，决定选择哪一组客户端节点进行本轮的训练，考虑两个原则：

联邦学习开始之后，在每轮通信中，根据公式(1)和公式(2)计算每个组的价值，选择价值最低的组下发当前的全局模型。价值最低意味着该组客户端节点相比于其他组，在过去的若干轮通信中，参与的训练次数少或者带有相应标签的数据被选择的次数比其他数据要少，甚至两者都有。

在第t轮的通信中，择价值最小的客户端节点组；使用下列公式计算每个客户端节点组的价值

在具体实施中，在每一轮的全局迭代前，所有客户端节点向服务器节点上传自己拥有的数据类别。

服务器节点用于根据客户端节点的数据类别将所有的客户端分成若干组，同一组内的客户端节点拥有相同或相似的数据类别。

为进一步加快训练速度，对某些客户端集合进行合并，即减少n的大小。

例如：服务器节点用于根据客户端节点集合内数据类别的相似度进行合并。

具体合并过程为：

n个客户端集合和对应的标签集合作为合并算法的输入；

建立一个新的列表该列表由/>初始化，用来计算任意的两个客户端集合数据类别的相似度；

算法迭代寻找两个相似度最大的客户端集合，对于客户端集合，我们将两个集合合并成一个新的集合，删掉旧的多余集合；对于标签集合，保留原始的标签集合以备后续相似度的比较；

在服务器节点中，当某两个客户端节点集合的数据类别最大相似度低于预定义的阈值时，表明不再存在相似集合，合并迭代结束。

算法最终生成的数量较少的集合S和对应的标签集合作为输出，集合S作为最终的客户端分组结果。

如果客户端节点的数据标签集合发生变化，服务器节点需要重新进行客户端节点分组工作。

在具体实施过程中，所述客户端节点用于：在本地利用自身数据对接收到的全局模型进行训练，并将训练完成的本地模型上传至服务器节点。

其中，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代的设定要求为：全局模型的精度或联邦学习的通信轮数达到设定的阈值。

服务器节点在收到该组所有客户端节点上传的本地模型参数后，使用加权平均策略对收到的模型进行聚合，加权因子为其中，a_i表示索引为i的客户端节点所拥有的数据的数量，n表示参与本次模型聚合的客户端节点总数。

服务器节点下发模型、客户端节点本地训练和服务器聚合模型这一流程需要迭代一个固定数，该数被定义为最大迭代次数(maxIteration)。

如图3和图4所示，在工业物联网平台中，将云端服务器映射为中心化联邦学习里的服务器节点，将不同的互联互通的终端设备映射为不同的客户端节点，将云服务器和终端设备之间的网络链路映射为数据上传链路和数据下发链路。

使用基于数据类别感知的客户端节点分组算法将所有的客户端节点划分为不同的组，并使用基于数据类别感知的组选择算法在每轮通信中选择价值最低的组参与本轮的模型训练。

之后全局模型下发至选中的组的客户端节点，客户端节点进行本地训练，完成后，将模型更新上传至服务器节点，服务器节点使用加权平均聚合策略形成新的全局模型，迭代上述步骤，直到模型的精度或联邦学习的通信轮数达到阈值。

本实施例的该基于联邦学习的工业物联网隐私保护系统打造了智能化IIoT平台，充分整合了客户订单信息、企业生产信息、库存和生产线等大规模数据，可以在满足服务质量的情况下，优化产品的制造过程，实现大规模个性化定制。

实施例二

本实施例提供了一种基于联邦学习的工业物联网隐私保护系统的隐私保护方法，其具体包括：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于联邦学习的工业物联网隐私保护系统，其特征在于，包括服务器节点和若干相互通信的客户端节点；所述服务器节点内预存有初始全局模型，所述服务器节点用于：

所述服务器节点，还用于：使用加权平均的策略对若干个本地模型进行聚合并形成新的全局模型，直至达到设定要求，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代；

其中，在第t轮的通信中，择价值最小的客户端节点组；使用下列公式计算每个客户端节点组的价值：

= />·/>

=/>

其中，表示在过去的t-1轮客户端节点k被选中的次数，|S_e|表示集合/>中客户端节点的数量，/>表示在集合/>中类别为/>的样本总数，/>表示集合/>中的样本总数，/>表示在过去的t轮中被选中类别为/>的样本的累计率，/>表示在过去的t-1轮中被选中类别为/>的样本的累计率，/>表示在第t轮通信中被选中的组；

在每一轮全局迭代开始之前，所有客户端节点向服务器节点上传自己拥有的数据类别；服务器节点用于根据客户端节点的数据类别将所有的客户端分成若干组，同一组内的客户端节点拥有相同或相似的数据类别；最终生成数量较少的集合S和对应的标签集合作为输出，集合S作为最终的客户端分组结果；当客户端节点的数据标签集合发生变化，服务器节点重新进行客户端节点分组工作；

在所述服务器节点用于根据客户端节点的数据类别将所有的客户端分成若干组过程中，服务器节点还用于根据客户端节点集合内数据类别的相似度进行合并；

所述合并的过程为：

n个客户端集合和对应的标签集合作为合并算法的输入；

建立一个新的列表该列表，该列表由/>初始化，计算任意两个客户端集合数据类别的相似度；

算法迭代寻找两个相似度最大的客户端集合，对于客户端集合，将两个集合合并成一个新的集合，删掉旧的多余集合；对于标签集合，保留原始的标签集合，用于相似度的比较；

在服务器节点中，当任意两个客户端节点集合的数据类别最大相似度低于预定义的阈值时，表明不再存在相似集合，合并迭代结束。

2.如权利要求1所述的基于联邦学习的工业物联网隐私保护系统，其特征在于，结束全局模型下发、本地模型训练和聚合而形成全局模型这一过程的迭代的设定要求为：全局模型的精度或联邦学习的通信轮数达到设定的阈值。

3.一种如权利要求1-2中任一项所述的基于联邦学习的工业物联网隐私保护系统的隐私保护方法，其特征在于，包括：