CN114584406B - 一种联邦学习的工业大数据隐私保护系统及方法 - Google Patents

一种联邦学习的工业大数据隐私保护系统及方法 Download PDF

Info

Publication number
CN114584406B
CN114584406B CN202210496003.3A CN202210496003A CN114584406B CN 114584406 B CN114584406 B CN 114584406B CN 202210496003 A CN202210496003 A CN 202210496003A CN 114584406 B CN114584406 B CN 114584406B
Authority
CN
China
Prior art keywords
terminal
data
industrial
model
terminal equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210496003.3A
Other languages
English (en)
Other versions
CN114584406A (zh
Inventor
陈晓红
许冠英
徐雪松
胡东滨
梁伟
袁依格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Red Pu Innovation Technology Development Co ltd
Original Assignee
Hunan Red Pu Innovation Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Red Pu Innovation Technology Development Co ltd filed Critical Hunan Red Pu Innovation Technology Development Co ltd
Priority to CN202210496003.3A priority Critical patent/CN114584406B/zh
Publication of CN114584406A publication Critical patent/CN114584406A/zh
Application granted granted Critical
Publication of CN114584406B publication Critical patent/CN114584406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种联邦学习的工业大数据隐私保护系统及方法,系统包括设备选择层、终端层、聚类层、边缘层以及云层。方法包括:根据筛选的终端设备采集工业数据;对工业数据进行聚类处理;将处理后的工业数据发送至边缘服务器,建立本地模型;云服务器根据接收的本地模型进行全局模型聚合和更新,并将全局模型下放至设备选择层筛选出的终端设备,实现数据共享。通过设备选择层对终端设备进行选择,并对工业数据聚类,满足了联邦学习数据样本同质性的要求,提高了联邦学习的聚合效率;通过边缘层与云层之间的建模、更新以及下放,提高了海量数据传输的速率,实现数据共享,并且保证数据的安全性。

Description

一种联邦学习的工业大数据隐私保护系统及方法
技术领域
本发明涉及工业物联网及联邦学习技术领域,具体涉及一种联邦学习的工业大数据隐私保护系统及方法。
背景技术
工业物联网是由连接互联网的机器和高级分析平台组成,能够对其生成的数据加以处理。工业物联网连接海量移动数字设备、制造机器、工业设备等,这些设备包括 RFID标签、CRFID 标签、基于 ZigBee/LoRa 的传感器等,这些设备不断产生用于传感、控制、系统维护和数据分析的大量数据和信号,并在生产过程以实时数据、网络与海量计算为依托,通过系列智能逻辑判断、分析、挖掘、评估、预测、优化、协同等技术手段,以互联网、企业云、物联网、大数据理念为设计基础,提供完整的支撑整合服务,目前工业物联网技术已经在农业、医疗保健业、金融服务业等部分行业得以应用。但是伴随着数据带来的价值,随之而来的是在数据存储、数据传输和数据共享过程中发生数据泄漏,从而引发对数据隐私的严重关注。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中工业物联网场景下数据传输效率低、数据难共享和数据安全性低的缺陷,从而提供一种联邦学习的工业大数据隐私保护系统。
本发明提供了一种联邦学习的工业大数据隐私保护系统,包括:设备选择层、终端层、聚类层、边缘层以及云层;
设备选择层用于选择满足条件的终端设备,并根据满足条件的终端设备构建终端层;
终端层用于获取工业数据,并将工业数据发送至聚类层;工业数据通过满足条件的终端设备采集得到;
聚类层用于将接收的工业数据进行汇聚,并对工业数据进行聚类;
边缘层包括边缘服务器,用于根据聚类后的工业数据,建立本地模型;
云层包括云服务器,用于根据接收的本地模型进行全局模型聚合和更新,并将全局模型下放至终端层的终端设备。
优选的,工业数据包括终端设备的型号、终端设备的类别以及终端设备所处厂房的区域。
优选的,本地模型记为:
Figure 916164DEST_PATH_IMAGE001
其中,t表示时刻,i表示第i个终端设备,
Figure 783364DEST_PATH_IMAGE002
表示t时刻的本地模型,
Figure 83895DEST_PATH_IMAGE003
表示t-1时刻的本地模型,
Figure 588826DEST_PATH_IMAGE004
表示学习速率,
Figure 949400DEST_PATH_IMAGE005
表示梯度;
Figure 70940DEST_PATH_IMAGE006
的表达式为:
Figure 909583DEST_PATH_IMAGE007
其中,
Figure 534599DEST_PATH_IMAGE006
表示基于数据集
Figure 66075DEST_PATH_IMAGE008
的损失函数,
Figure 143752DEST_PATH_IMAGE009
为参数,
Figure 51665DEST_PATH_IMAGE008
表示由聚类后的工业数据构建数据集,i表示第i个终端设备,j表示第j个聚类后的工业数据,
Figure 796767DEST_PATH_IMAGE010
表示基于决策树算法的损失函数,表达式为:
Figure 732100DEST_PATH_IMAGE011
其中,Z表示决策树的叶子节点的数量,z表示决策树中第z个叶子节点,k表示第k次迭代,
Figure 562653DEST_PATH_IMAGE012
表示第k次迭代后每个叶子节点区域样本的一阶导数,
Figure 477519DEST_PATH_IMAGE013
表示第k次迭代后第z个叶子节点的参数,
Figure 342707DEST_PATH_IMAGE014
表示第k次迭代后每个叶子节点区域样本的二阶导数,λ表示正则化系数,
Figure 950406DEST_PATH_IMAGE015
Figure 268255DEST_PATH_IMAGE016
的平方,
Figure 252391DEST_PATH_IMAGE017
用于权衡决策树模型的复杂度。
优选的,全局模型记为:
Figure 972086DEST_PATH_IMAGE018
其中,t表示时刻,N表示终端设备的数量,i表示第i个终端设备,
Figure 750686DEST_PATH_IMAGE019
表示t时刻的本地模型。
本发明还提供了一种联邦学习的工业大数据隐私保护方法,包括:
S1:根据筛选的终端设备采集工业数据;
S2:对工业数据进行聚类处理;
S3:将处理后的工业数据发送至边缘服务器,建立本地模型;
S4:云服务器根据接收的本地模型对全局模型进行聚合与更新,并将全局模型下放至终端层的终端设备,实现数据共享。
优选的,终端设备的筛选过程为:采用深度强化学习技术对多个终端设备进行选择,首先根据终端设备的计算能力、存储能力、运行年限、故障发生率和传输效率进行计算,并进行预排序,根据排序结果,选择满足联邦学习的最低要求的终端设备。
优选的,S1中,根据筛选出的终端设备构建终端设备集,并通过终端设备集中终端设备的自动采集功能,实现工业数据的采集。
优选的,S2中,采用层次聚类算法对工业数据进行同质化数据聚类,包括步骤:
步骤1:将终端设备集记为
Figure 555831DEST_PATH_IMAGE020
,其中,
Figure 78079DEST_PATH_IMAGE021
表示终端设备集中第一个终端设备,
Figure 652280DEST_PATH_IMAGE022
表示终端设备集中最后一个终端设备,n表示终端设备集中终端设备的数量;
步骤2:根据终端设备集计算距离矩阵,距离矩阵记为
Figure 365896DEST_PATH_IMAGE023
步骤3:遍历距离矩阵,找出除对角线以外的最小距离,记为d;并得到最小距离簇的序号,记为(
Figure 127178DEST_PATH_IMAGE024
);
步骤4:将最小距离簇的序号合并成新的簇,记为(
Figure 718697DEST_PATH_IMAGE025
),并采用距离度量方法更新距离矩阵;
步骤5:重复步骤2-4,直至剩余最后一个簇,得到同质化数据簇,记为
Figure 147404DEST_PATH_IMAGE026
其中,
Figure 267807DEST_PATH_IMAGE027
表示同质化数据簇,i表示第i个终端设备,l表示第l个终端设备;ilE
Figure 47544DEST_PATH_IMAGE028
表示第1个终端设备与第n个终端设备聚类的簇;
Figure 177174DEST_PATH_IMAGE029
表示第2个终端设备与第n个终端设备聚类的簇。
优选的,S3中,将同质化数据簇发送至边缘服务器,并初始化本地训练模型以及模型的迭代次数;基于边缘服务器的本地训练,对本地训练模型进行训练,建立本地模型,本地模型包括梯度和迭代次数。
优选的,S4中,云服务器接收本地模型,基于迭代次数的加权平均值对全局模型进行聚合与更新,并将全局模型下放至各选择的终端设备。
本发明技术方案,具有如下优点:通过设备选择层对终端设备进行选择,并且通过聚类层对工业数据聚类,满足了联邦学习数据样本同质性的要求,提高了联邦学习的聚合效率;同时结合设置的边缘层,实现终端设备与边缘服务器之间同质性数据聚类及本地训练过程;通过边缘层与云层之间的建模、更新以及下放,提高了海量数据传输的速率,实现数据共享,并且保证数据的安全性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施中保护系统的结构示意图;
图2为本发明实施中保护方法的流程示意图;
图3为本发明实施中保护系统与保护方法的对应关系图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为了弥补传统工业物联网端-边-云架构的缺陷,本实施例还提供了一种联邦学习的工业大数据隐私保护系统,利用边缘服务器在数据源近端具有强大计算能力和存储能力的优点,将边缘计算与深度强化学习相结合,并提出工业物联网场景下的端-边-云联邦学习网络架构,同时本实施例考虑到联邦学习数据样本同质性的要求,并提高联邦学习全局模型的聚合效率,在终端设备与边缘服务器之间增加了设备选择层和聚类层,从而实现终端设备与边缘服务器之间同质数据聚类及本地训练的过程,边缘服务器-云服务器之间的联邦学习建模,以提高海量数据传输速率及数据的安全性。
具体如图1所示,该系统包括:设备选择层、终端层、聚类层、边缘层以及云层;
设备选择层用于选择参加联邦学习的终端设备,利用深度强化学习技术对各个终端智能设备进行设备选择,首先依据设备选择函数评估设备计算能力、存储能力、运行年限、故障发生率和传输效率,并按照上述维度预排序,根据排序的结果,选择满足联邦学习的最低要求的终端设备,并根据满足条件的终端设备构建终端层;
其中,最低要求包括最低算力要求以及除算力要求以外的指标。终端设备的最低算力要求,即终端设备的最低配置,在本实施例中最低配置为:
CPU:AMD Ryzen 7 3700X;
内存:16.0 GB;
显卡:英伟达GeForce RTX3060,显存24G,非公版N卡;
硬盘:500GB SSD。
除算力要求以外的指标,则利用基于深度强化学习设备选择函数训练指标权重。
终端层用于获取工业数据,并将工业数据发送至聚类层;工业数据通过满足条件的终端设备采集得到;
聚类层用于将接收的工业数据进行汇聚,并对工业数据进行聚类,实现同质化数据相簇;
边缘层包括若干靠近数据源头的边缘服务器,用于对参与联邦学习的终端设备进行本地训练;并联合多方终端设备的联邦学习,包括模型与梯度传递、模型聚合、模型更新过程,建立本地模型;
本地模型记为:
Figure 194808DEST_PATH_IMAGE030
其中,t表示时刻,i表示第i个终端设备,
Figure 17271DEST_PATH_IMAGE019
表示t时刻的本地模型,
Figure 753146DEST_PATH_IMAGE031
表示t-1时刻的本地模型,
Figure 420887DEST_PATH_IMAGE032
表示学习速率,
Figure 57143DEST_PATH_IMAGE033
表示梯度;
Figure 50507DEST_PATH_IMAGE006
的表达式为:
Figure 273678DEST_PATH_IMAGE034
其中,
Figure 745110DEST_PATH_IMAGE006
表示基于数据集
Figure 2916DEST_PATH_IMAGE008
的损失函数,
Figure 636023DEST_PATH_IMAGE035
为参数,
Figure 612069DEST_PATH_IMAGE008
表示由聚类后的工业数据构建的数据集,i表示第i个终端设备,j表示第j个聚类后的工业数据,在本实施例中
Figure 621614DEST_PATH_IMAGE036
表示基于决策树算法的损失函数,可替换为其它机器学习算法的损失函数,且
Figure 733926DEST_PATH_IMAGE037
表达式为:
Figure 69092DEST_PATH_IMAGE038
其中,Z表示决策树的叶子节点的数量,z表示决策树中第z个叶子节点,k表示第k次迭代,
Figure 1276DEST_PATH_IMAGE039
表示第k次迭代后每个叶子节点区域样本的一阶导数,
Figure 80091DEST_PATH_IMAGE040
表示第k次迭代后第z个叶子节点的参数,
Figure 811024DEST_PATH_IMAGE041
表示第k次迭代后每个叶子节点区域样本的二阶导数,λ表示正则化系数,
Figure 785933DEST_PATH_IMAGE042
Figure 736572DEST_PATH_IMAGE043
的平方,
Figure 87919DEST_PATH_IMAGE044
用于权衡决策树模型的复杂度。
云层包括云服务器,用于根据接收的本地模型进行全局模型聚合和更新,并将全局模型下放至终端层的终端设备。
全局模型记为:
Figure 174823DEST_PATH_IMAGE018
其中,t表示时刻,N表示终端设备的数量,i表示第i个终端设备,
Figure 586213DEST_PATH_IMAGE019
表示t时刻的本地模型。
在本实施例中,工业数据包括终端设备的型号、终端设备的类别以及终端设备所处厂房的区域。
如图2、图3所示,基于上述保护系统,本实施例提供了一种联邦学习的工业大数据隐私保护方法,该方法包括:
S1:根据筛选的终端设备采集工业数据;
根据当前状态执行通讯组网动作,构建联邦学习通信集群,并获取奖励函数值,计算深度强化学习损失函数,若损失函数未收敛,则继续下一轮设备选择并进行联邦学习,若损失函数收敛,则使用当前设备集群进行联邦学习。
具体的,终端设备的筛选过程为:
步骤1:获取终端设备的信息,并初始化终端设备的网络状态、系统状态、经验缓冲区、参数以及Q网络,通过参数初始化Q网络的网络参数;
步骤2:将当前状态记为:st;通过设备选择函数对信息进行计算;
设备选择函数为:
Figure 492989DEST_PATH_IMAGE045
Figure 913606DEST_PATH_IMAGE046
其中,i表示第i个终端设备,1表示被选择,0表示不被选择,
Figure 589438DEST_PATH_IMAGE047
表示阈值;
Figure 437309DEST_PATH_IMAGE048
表示终端设备的性能期望值,C表示计算能力,S表示存储能力,Y表示运行年限,B表示故障发生率,T表示传输效率;αβγδσ为对应的权重;
根据终端设备的性能期望值以及阈值,判断终端设备是否被选择;
步骤3:根据计算后的信息进行预排序,并通过排序函数从n个终端设备中选择m个符合条件的终端设备;
步骤4:被选择的终端设备利用贪婪策略执行动作
Figure 96960DEST_PATH_IMAGE049
,并与其他m-1个终端设备自主完成通讯组网,得到奖励,奖励记为:
Figure 288645DEST_PATH_IMAGE050
;奖励
Figure 350142DEST_PATH_IMAGE051
的计算公式为:
Figure 368913DEST_PATH_IMAGE052
Figure 984702DEST_PATH_IMAGE053
其中,n表示终端设备集中终端设备的数量,i表示第i个终端设备,
Figure 747122DEST_PATH_IMAGE054
表示单个设备在Δt时间内完成的总计算任务数量,I表示单个设备的单个计算任务,num表示计算任务的数量;
接受下一状态,下一状态记为:
Figure 397546DEST_PATH_IMAGE055
;将
Figure 587219DEST_PATH_IMAGE056
Figure 221463DEST_PATH_IMAGE057
Figure 256415DEST_PATH_IMAGE058
Figure 26925DEST_PATH_IMAGE059
作为经验存储入经验库中,经验记为
Figure 121920DEST_PATH_IMAGE060
;如果
Figure 210836DEST_PATH_IMAGE061
是最后的状态,则h=rh表示目标价值,r表示奖励值;如果
Figure 315058DEST_PATH_IMAGE062
不是最后的状态,则
Figure 940075DEST_PATH_IMAGE063
其中,
Figure 471550DEST_PATH_IMAGE064
表示状态
Figure 814807DEST_PATH_IMAGE065
下的目标价值,
Figure 191562DEST_PATH_IMAGE066
表示状态
Figure 936664DEST_PATH_IMAGE067
下采取动作a的奖励值,
Figure 639041DEST_PATH_IMAGE068
表示折扣率,
Figure 204014DEST_PATH_IMAGE069
表示当在状态
Figure 650039DEST_PATH_IMAGE070
时采取动作a的价值,a表示状态
Figure 249648DEST_PATH_IMAGE070
下采取的动作,
Figure 122926DEST_PATH_IMAGE071
表示参数。
步骤5:通过
Figure 673730DEST_PATH_IMAGE064
计算损失函数
Figure 657867DEST_PATH_IMAGE072
,其损失函数
Figure 377561DEST_PATH_IMAGE072
公式为:
Figure 156161DEST_PATH_IMAGE073
其中,
Figure 695727DEST_PATH_IMAGE064
表示状态
Figure 217975DEST_PATH_IMAGE070
下的目标价值,
Figure 792176DEST_PATH_IMAGE074
表示当在状态
Figure 7257DEST_PATH_IMAGE075
时采取动作
Figure 34119DEST_PATH_IMAGE076
的价值,
Figure 360058DEST_PATH_IMAGE071
表示参数。
当损失函数未收敛时,则进行下一轮终端设备选择;当损失函数收敛时,则通过选择的各终端设备,构建终端设备集,并进行后续步骤。
通过终端设备集中终端设备的自动采集功能,实现工业数据的采集。
S2:对工业数据进行聚类处理;
具体的,采用层次聚类算法(Agglomerative)对工业数据进行同质化数据聚类,包括步骤:
步骤1:将终端设备集记为
Figure 54344DEST_PATH_IMAGE077
,其中,
Figure 673282DEST_PATH_IMAGE078
表示终端设备集中第一个终端设备,
Figure 187440DEST_PATH_IMAGE079
表示终端设备集中最后一个终端设备,n表示终端设备集中终端设备的数量;
步骤2:根据终端设备集计算距离矩阵,距离矩阵记为
Figure 51491DEST_PATH_IMAGE080
步骤3:遍历距离矩阵,找出除对角线以外的最小距离,记为d;并得到最小距离簇的序号,记为(
Figure 600284DEST_PATH_IMAGE081
);
步骤4:将最小距离簇的序号合并成新的簇,记为(
Figure 626009DEST_PATH_IMAGE082
),并采用距离度量方法更新距离矩阵;
步骤5:重复步骤2-4,直至剩余最后一个簇,得到同质化数据簇,记为
Figure 361884DEST_PATH_IMAGE083
其中,
Figure 764046DEST_PATH_IMAGE084
表示同质化数据簇,i表示第i个终端设备,l表示第l个终端设备;ilE
Figure 901766DEST_PATH_IMAGE085
表示第1个终端设备与第n个终端设备聚类的簇;
Figure 629551DEST_PATH_IMAGE086
表示第2个终端设备与第n个终端设备聚类的簇。
S3:将处理后的工业数据发送至边缘服务器,建立本地模型;
具体的,将同质化数据簇发送至边缘服务器,并初始化本地训练模型以及模型的迭代次数;基于边缘服务器的本地训练,对本地训练模型进行训练,建立本地模型,且本地模型包括梯度和迭代次数。
S4:云服务器根据接收到的本地模型(本地模型,梯度,迭代次数)对全局模型进行聚合与更新,并将全局模型下放至终端层的终端设备,实现数据共享;
具体的,云服务器接收本地模型,基于迭代次数的加权平均值对全局模型进行聚合与更新,并将全局模型下放至终端层中的各终端设备。
本实施例提供的这种保护方法通过选择终端设备进行聚类,满足了联邦学习数据样本同质性的要求,提高了联邦学习的聚合效率;同时结合设置的边缘服务器,实现终端设备与边缘服务器之间同质性数据聚类及本地训练过程;通过边缘服务器与云服务器之间的建模、更新以及下放,提高了海量数据传输的速率,实现数据共享,并且保证数据的安全性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (8)

1.一种联邦学习的工业大数据隐私保护系统,其特征在于,包括:设备选择层、终端层、聚类层、边缘层以及云层;
所述设备选择层用于选择满足条件的终端设备,并根据满足条件的终端设备构建终端层;
采用深度强化学习技术对多个终端设备进行选择,首先根据终端设备的计算能力、存储能力、运行年限、故障发生率和传输效率进行计算,并进行预排序,根据排序结果,选择满足联邦学习的最低要求的终端设备;
终端设备的筛选过程为:
步骤1:获取终端设备的信息,并初始化终端设备的网络状态、系统状态、经验缓冲区、参数以及Q网络,通过参数初始化Q网络的网络参数;
步骤2:将当前状态记为:st;通过设备选择函数对信息进行计算;
设备选择函数为:
Figure 897250DEST_PATH_IMAGE001
Figure 862932DEST_PATH_IMAGE002
其中,i表示第i个终端设备,1表示被选择,0表示不被选择,
Figure 247777DEST_PATH_IMAGE003
表示阈值;
Figure 155559DEST_PATH_IMAGE004
表示终端设备的性能期望值,C表示计算能力,S表示存储能力,Y表示运行年限,B表示故障发生率,T表示传输效率;αβγδσ为对应的权重;
根据终端设备的性能期望值以及阈值,判断终端设备是否被选择;
步骤3:根据计算后的信息进行预排序,并通过排序函数从n个终端设备中选择m个符合条件的终端设备;
步骤4:被选择的终端设备利用贪婪策略执行动作
Figure 258645DEST_PATH_IMAGE005
,并与其他m-1个终端设备自主完成通讯组网,得到奖励,奖励记为:
Figure 277285DEST_PATH_IMAGE006
;奖励
Figure 782216DEST_PATH_IMAGE006
的计算公式为:
Figure 611632DEST_PATH_IMAGE007
Figure 451280DEST_PATH_IMAGE008
其中,n表示终端设备的数量,i表示第i个终端设备,
Figure 758765DEST_PATH_IMAGE009
表示单个设备在Δt时间内完成的总计算任务数量,I表示单个设备的单个计算任务,num表示计算任务的数量;
接受下一状态,下一状态记为:
Figure 383781DEST_PATH_IMAGE010
;将
Figure 649678DEST_PATH_IMAGE011
Figure 713973DEST_PATH_IMAGE012
Figure 90728DEST_PATH_IMAGE013
Figure 570251DEST_PATH_IMAGE014
作为经验存储入经验库中,经验记为
Figure 256316DEST_PATH_IMAGE015
;如果
Figure 555710DEST_PATH_IMAGE016
是最后的状态,则h=
Figure 470577DEST_PATH_IMAGE017
h表示目标价值,r表示奖励值;如果
Figure 53873DEST_PATH_IMAGE010
不是最后的状态,则
Figure DEST_PATH_IMAGE018
其中,
Figure 864835DEST_PATH_IMAGE019
表示状态
Figure 900793DEST_PATH_IMAGE020
下的目标价值,
Figure 619350DEST_PATH_IMAGE021
表示状态
Figure 73465DEST_PATH_IMAGE022
下采取动作a的奖励值,
Figure 852065DEST_PATH_IMAGE023
表示折扣率,
Figure 378249DEST_PATH_IMAGE024
表示当在状态
Figure 634918DEST_PATH_IMAGE025
时采取动作a的价值,a表示状态
Figure 943540DEST_PATH_IMAGE025
下采取的动作,
Figure 876729DEST_PATH_IMAGE026
表示参数;
步骤5:通过
Figure 638012DEST_PATH_IMAGE027
计算损失函数
Figure 698372DEST_PATH_IMAGE028
,其损失函数
Figure 110768DEST_PATH_IMAGE028
公式为:
Figure 965591DEST_PATH_IMAGE029
其中,
Figure 479749DEST_PATH_IMAGE030
表示状态
Figure 593067DEST_PATH_IMAGE031
下的目标价值,
Figure 345123DEST_PATH_IMAGE032
表示当在状态
Figure 636427DEST_PATH_IMAGE033
时采取动作
Figure 347201DEST_PATH_IMAGE034
的价值,
Figure 749363DEST_PATH_IMAGE035
表示参数;
当损失函数未收敛时,则进行下一轮终端设备选择;当损失函数收敛时,则通过选择的各终端设备,构建终端设备集,并进行后续步骤;
所述终端层用于获取工业数据,并将所述工业数据发送至聚类层;所述工业数据通过满足条件的终端设备采集得到;
所述聚类层用于将接收的工业数据进行汇聚,并对工业数据进行聚类;
所述边缘层包括边缘服务器,用于根据聚类后的工业数据,建立本地模型;
所述本地模型记为:
Figure 621504DEST_PATH_IMAGE036
其中,t表示时刻,i表示第i个终端设备,
Figure 332977DEST_PATH_IMAGE037
表示t时刻的本地模型,
Figure 24990DEST_PATH_IMAGE038
表示t-1时刻的本地模型,
Figure 230843DEST_PATH_IMAGE039
表示学习速率,
Figure 206758DEST_PATH_IMAGE040
表示梯度;
Figure 574286DEST_PATH_IMAGE041
的表达式为:
Figure 268441DEST_PATH_IMAGE042
其中,
Figure 746827DEST_PATH_IMAGE041
表示基于数据集
Figure 314599DEST_PATH_IMAGE043
的损失函数,
Figure 587449DEST_PATH_IMAGE044
为参数,
Figure 503321DEST_PATH_IMAGE043
表示由聚类后的工业数据构建的数据集,i表示第i个终端设备,j表示第j个聚类后的工业数据;
Figure 254239DEST_PATH_IMAGE045
表示基于决策树算法的损失函数,表达式为:
Figure 939167DEST_PATH_IMAGE046
其中,Z表示决策树的叶子节点的数量,z表示决策树中第z个叶子节点,k表示第k次迭代,
Figure 382918DEST_PATH_IMAGE047
表示第k次迭代后每个叶子节点区域样本的一阶导数,
Figure 786087DEST_PATH_IMAGE048
表示第k次迭代后第z个叶子节点的参数,
Figure 340696DEST_PATH_IMAGE049
表示第k次迭代后每个叶子节点区域样本的二阶导数,λ表示正则化系数,
Figure 883060DEST_PATH_IMAGE050
Figure 497712DEST_PATH_IMAGE051
的平方,
Figure 591439DEST_PATH_IMAGE052
用于权衡决策树模型的复杂度;
所述云层包括云服务器,用于根据接收的本地模型进行全局模型聚合和更新,并将全局模型下放至终端层的终端设备。
2.根据权利要求1所述的一种联邦学习的工业大数据隐私保护系统,其特征在于,所述工业数据包括终端设备的型号、终端设备的类别以及终端设备所处厂房的区域。
3.根据权利要求1所述的一种联邦学习的工业大数据隐私保护系统,其特征在于,所述全局模型记为:
Figure 667848DEST_PATH_IMAGE053
其中,t表示时刻,N表示终端设备的数量,i表示第i个终端设备,
Figure 61789DEST_PATH_IMAGE037
表示t时刻的本地模型。
4.一种联邦学习的工业大数据隐私保护方法,其特征在于,应用了权利要求1-3任一项所述的数据隐私保护系统,其包括:
S1:根据筛选的终端设备采集工业数据;
S2:对工业数据进行聚类处理;
S3:将处理后的工业数据发送至边缘服务器,建立本地模型;
S4:云服务器根据接收的本地模型对全局模型进行聚合与更新,并将全局模型下放至终端层的终端设备,实现数据共享。
5.根据权利要求4所述的一种联邦学习的工业大数据隐私保护方法,其特征在于,S1中,根据筛选出的终端设备构建终端设备集,并通过终端设备集中终端设备的自动采集功能,实现工业数据的采集。
6.根据权利要求5所述的一种联邦学习的工业大数据隐私保护方法,其特征在于,S2中,采用层次聚类算法对工业数据进行同质化数据聚类,包括步骤:
步骤1:将终端设备集记为
Figure 378501DEST_PATH_IMAGE054
,其中,
Figure 228033DEST_PATH_IMAGE055
表示终端设备集中第一个终端设备,
Figure 124445DEST_PATH_IMAGE056
表示终端设备集中最后一个终端设备,n表示终端设备集中终端设备的数量;
步骤2:根据终端设备集计算距离矩阵,距离矩阵记为
Figure 372893DEST_PATH_IMAGE057
步骤3:遍历距离矩阵,找出除对角线以外的最小距离,记为d;并得到最小距离簇的序号,记为(
Figure 313036DEST_PATH_IMAGE058
);
步骤4:将最小距离簇的序号合并成新的簇,记为(
Figure 132087DEST_PATH_IMAGE059
),并采用距离度量方法更新距离矩阵;
步骤5:重复步骤2-4,直至剩余最后一个簇,得到同质化数据簇,记为
Figure 347037DEST_PATH_IMAGE060
其中,
Figure 731882DEST_PATH_IMAGE061
表示同质化数据簇,i表示第i个终端设备,l表示第l个终端设备;ilE
Figure 390396DEST_PATH_IMAGE062
表示第1个终端设备与第n个终端设备聚类的簇;
Figure 757397DEST_PATH_IMAGE063
表示第2个终端设备与第n个终端设备聚类的簇。
7.根据权利要求6所述的一种联邦学习的工业大数据隐私保护方法,其特征在于,S3中,将同质化数据簇发送至边缘服务器,并初始化本地训练模型以及模型的迭代次数;基于边缘服务器的本地训练,对本地训练模型进行训练,建立本地模型,本地模型包括梯度和迭代次数。
8.根据权利要求7所述的一种联邦学习的工业大数据隐私保护方法,其特征在于,S4中,云服务器接收本地模型,基于迭代次数的加权平均值对全局模型进行聚合与更新,并将全局模型下放至各选择的终端设备。
CN202210496003.3A 2022-05-09 2022-05-09 一种联邦学习的工业大数据隐私保护系统及方法 Active CN114584406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210496003.3A CN114584406B (zh) 2022-05-09 2022-05-09 一种联邦学习的工业大数据隐私保护系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210496003.3A CN114584406B (zh) 2022-05-09 2022-05-09 一种联邦学习的工业大数据隐私保护系统及方法

Publications (2)

Publication Number Publication Date
CN114584406A CN114584406A (zh) 2022-06-03
CN114584406B true CN114584406B (zh) 2022-08-12

Family

ID=81769124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210496003.3A Active CN114584406B (zh) 2022-05-09 2022-05-09 一种联邦学习的工业大数据隐私保护系统及方法

Country Status (1)

Country Link
CN (1) CN114584406B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596865B (zh) * 2023-05-05 2024-04-16 深圳市大数据研究院 缺陷检测方法、系统及机器人
CN116760634B (zh) * 2023-08-14 2023-11-07 国网天津市电力公司信息通信公司 一种数据隐私保护方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532451A (zh) * 2020-11-30 2021-03-19 安徽工业大学 基于异步通信的分层联邦学习方法、装置、终端设备及存储介质
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113780344A (zh) * 2021-08-05 2021-12-10 中山大学 一种基于层次聚类的联邦学习方法及系统
CN113992692A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN113992676A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN114331388A (zh) * 2022-02-08 2022-04-12 湖南红普创新科技发展有限公司 基于联邦学习的薪资计算方法、装置、设备及存储介质
DE102021212086A1 (de) * 2020-10-30 2022-05-05 Robert Bosch Gesellschaft mit beschränkter Haftung Verbessern tiefer Neuronaler Netze mittels Prototyp Faktorisierung

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113839838B (zh) * 2021-10-20 2023-10-20 西安电子科技大学 基于云边协同的联邦学习的业务类型识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102021212086A1 (de) * 2020-10-30 2022-05-05 Robert Bosch Gesellschaft mit beschränkter Haftung Verbessern tiefer Neuronaler Netze mittels Prototyp Faktorisierung
CN112532451A (zh) * 2020-11-30 2021-03-19 安徽工业大学 基于异步通信的分层联邦学习方法、装置、终端设备及存储介质
CN113206887A (zh) * 2021-05-08 2021-08-03 武汉理工大学 边缘计算下针对数据与设备异构性加速联邦学习的方法
CN113780344A (zh) * 2021-08-05 2021-12-10 中山大学 一种基于层次聚类的联邦学习方法及系统
CN113992692A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和不完全信息下分层联邦学习的方法及系统
CN113992676A (zh) * 2021-10-27 2022-01-28 天津大学 端边云架构和完全信息下分层联邦学习的激励方法及系统
CN114331388A (zh) * 2022-02-08 2022-04-12 湖南红普创新科技发展有限公司 基于联邦学习的薪资计算方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于边缘的联邦学习模型清洗和设备聚类方法;刘艳,王田,彭绍量,王国军,贾维嘉;《计算机学报》;20211231;全文 *

Also Published As

Publication number Publication date
CN114584406A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
WO2021109578A1 (zh) 业务运维中告警的预测方法、装置与电子设备
WO2022083624A1 (zh) 一种模型的获取方法及设备
CN114584406B (zh) 一种联邦学习的工业大数据隐私保护系统及方法
CN109214599B (zh) 一种对复杂网络进行链路预测的方法
CN110473592B (zh) 一种多视角人类协同致死基因预测方法
CN110599234A (zh) 一种产品销售预测方法
CN107704871A (zh) 生成机器学习样本的组合特征的方法及系统
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN109523021A (zh) 一种基于长短时记忆网络的动态网络结构预测方法
CN108647691A (zh) 一种基于点击特征预测的图像分类方法
CN110163262A (zh) 模型训练方法、业务处理方法、装置、终端及存储介质
CN111526119A (zh) 异常流量检测方法、装置、电子设备和计算机可读介质
Albatayneh et al. Image retraining using TensorFlow implementation of the pretrained inception-v3 model for evaluating gravel road dust
CN112685504A (zh) 一种面向生产过程的分布式迁移图学习方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
Zhu et al. Identifying carrot appearance quality by an improved dense CapNet
CN117061322A (zh) 物联网流量池管理方法及系统
CN115063664A (zh) 用于工业视觉检测的模型学习方法、训练方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112785479B (zh) 一种基于少样本学习的图像隐形水印通用检测方法
CN116680633B (zh) 基于多任务学习的异常用户检测方法、系统及存储介质
WO2023029944A1 (zh) 联邦学习的方法和装置
CN114065646B (zh) 基于混合优化算法的能耗预测方法、云计算平台及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant