CN113469370A - 一种基于联邦增量学习的工业物联网数据共享方法 - Google Patents

一种基于联邦增量学习的工业物联网数据共享方法 Download PDF

Info

Publication number
CN113469370A
CN113469370A CN202110693388.8A CN202110693388A CN113469370A CN 113469370 A CN113469370 A CN 113469370A CN 202110693388 A CN202110693388 A CN 202110693388A CN 113469370 A CN113469370 A CN 113469370A
Authority
CN
China
Prior art keywords
sub
plant
factory
data
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110693388.8A
Other languages
English (en)
Other versions
CN113469370B (zh
Inventor
刘晶
董志红
季海鹏
王岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202110693388.8A priority Critical patent/CN113469370B/zh
Publication of CN113469370A publication Critical patent/CN113469370A/zh
Application granted granted Critical
Publication of CN113469370B publication Critical patent/CN113469370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于联邦增量学习的工业物联网数据共享方法,包括下述步骤:S1.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量;S2.工厂子端加权计算子模块根据学习状态信息计算对应样本的增量加权;S3.工厂子端参数修正子模块将工厂子端上传的模型参数根据增量加权进行修正;S4.行业联合端等级值计算子模块计算工厂子端对应等级值;S5.行业联合端等级值排序子模块对工厂子端等级值进行排序,并选择参与本次模型参数聚合的参与子集;S6.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。本发明所提供的技术方案,既考虑了联合训练中数据分布不均衡问题又兼顾了对新增状态数据的融合,满足了基于工业增量数据的行业联合模型持续优化的需求。

Description

一种基于联邦增量学习的工业物联网数据共享方法
技术领域
本发明涉及分布式联邦增量学习领域,具体涉及一种基于联邦增量学习的工业物联网数据共享方法。
背景技术
工业物联网以极大的速度向产业链传输海量工业数据,使得基于数据驱动的机器学习方法广泛应用于工业制造中。众所周知,随着训练数据量的增大,多样化的增多,机器学习所训练的模型会更好。然而,在工业领域,企业间出于竞争或用户隐私原因而无法将数据资源共享,因此如何在保护企业数据隐私的前提下进行多源数据融合分析,以加快行业的发展变得十分重要。
联邦学习是一种新兴的人工智能基础技术,其设计目标是在保障子端数据和个人数据安全的前提下,在多参与方或多计算节点之间开展高效率的机器学习。但在工业领域,由于工业物联网中实时产生的新增数据是海量的,如何有效的增量学习使新增状态数据与已有行业联合模型快速融合,同时保证各工厂子端同等参与成为新的问题焦点。传统联邦增量算法在很大程度上取决于工厂子端的重复学习,从而增加了时间成本,并且还将导致行业联合模型精准度下降严重及联合训练过程中行业联合模型的倾斜等问题。
发明内容
本发明提出了一种基于联邦增量学习的工业物联网数据共享方法,其目的是:针对工业互联网新增数据量大、工厂子端数据量不均衡等问题,传统的联邦学习很难利用经典增量学习算法对其模型进行持续优化,首先针对工厂子端数据量不均衡问题,提出联邦优选子端算法以避免弱势工厂子端数据被覆盖,其次,针对工厂子端大量新增数据与原行业联合模型融合问题提出联邦增量学习算法;最后,既考虑了联合训练中数据分布不均衡问题又兼顾了对新增状态数据的融合,满足了基于工业增量数据的行业联合模型持续优化的需求。
为解决上述技术问题,本发明提供如下技术方案:
一种基于联邦增量学习的工业物联网数据共享方法,包括下述步骤:
S1.针对工厂子端大量新增数据与原行业联合模型融合问题,提出一种联邦增量学习算法;
S2.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量;
S3.工厂子端加权计算子模块根据学习状态信息的参数深度值与增量样本数据量计算对应样本的增量加权;
S4.工厂子端参数修正子模块将上传的工厂子端模型参数根据增量加权进行修正;
S5.针对工厂子端数据量不均衡问题,提出一种联邦优选子端算法,将数据量不均衡问题转化对工厂子端等级值的比较,以避免弱势工厂子端数据被覆盖;
S6.在行业联合端等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值;
S7.在行业联合端等级值排序子模块对工厂子端等级值进行排序,并选择参与本次模型参数聚合的参与子集;
S8.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。
2、根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法,其特征在于:所述步骤S3中,采用在加权计算子模块根据学习状态信息的参数深度值与增量样本数据计算对应样本的增量加权,具体为:
1-1)增量权值:表示工厂子端新增样本数在原样本总数中占比大小。
工厂子端k的增量权值可由新增样本数与总样本数求得:
Figure BDA0003127054820000031
其中,Ik为工厂子端k新增的样本数,Dk为工厂子端k原样本总数,γk表示工厂子端k增量权值。
1-2)参数优化过程中具有一定的深度值,令参数深度值为
Figure BDA0003127054820000032
其中,t代表轮次的标号,
Figure BDA0003127054820000033
表示工厂子端k在t轮次的参数深度值。
1-3)为了使参数深度值越大的工厂子端其增量加权越小,且衰减的过程相对平缓,选择反正切函数arctan作为增量加权的衰减函数:
Figure BDA0003127054820000034
1-4)联邦学习框架下,每一轮仅更新参与子集中的工厂子端,根据工厂子端模型的参数深度值确定模型对聚合操作的贡献可有效利用历史信息,并区分各工厂子端模型利用价值,可望提高聚合操作的有效性,因而进一步关注工厂子端模型的参数深度值,提出改进聚合策略:
Figure BDA0003127054820000035
其中,
Figure BDA0003127054820000041
表示工厂子端k在通信轮次t+1时的模型参数,nk表示工厂子端 k所拥有的本地数据量,n表示所有工厂子端拥有的数据量,ωt+1表示通信轮次 t+1时的行业联合模型参数,
Figure BDA0003127054820000042
表示工厂子端k在通讯轮次t+1时的增量加权。
在联邦增量学习过程中,工厂子端提交的模型参数要经过增量加权的修正才能参与行业联合模型优化。修正后的参数在行业联合端上根据具体的优化算法更新模型参数,优化结束后,工厂子端重新获得最新的行业联合模型参数并将其覆盖本地模型参数,进行下一轮迭代学习。
3、根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法,其特征在于:所述步骤S6中,采用在等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值,具体为:
假设两个工厂子端分别为
Figure BDA0003127054820000043
Figure BDA0003127054820000044
Figure BDA0003127054820000045
协方差S的计算式为:
Figure BDA0003127054820000046
其中,μx=E(xi);μy=E(yi),E表示期望,Cov表示协方差,acc表示工厂子端准确率,loss表示工厂子端损失值,kappa表示工厂子端kappa值。
两个来自同一分布的工厂子端
Figure BDA0003127054820000047
Figure BDA0003127054820000048
的马氏距离
Figure BDA0003127054820000049
的计算式为:
Figure BDA00031270548200000410
其中,
Figure BDA00031270548200000411
表示取转置。
进而推出工厂子端i等级值SDi
Figure BDA00031270548200000412
其中,i≠j,K表示所有工厂子端的数量。
采用上述技术方案所产生的有益效果在于:
(1)针对工厂子端数据量不均衡问题,提出了一种联邦优选子端算法,目的是根据工厂子端参与程度动态调整参与子集,保证联合训练的动态平衡;
(2)针对工厂子端大量新增数据与原行业联合模型融合问题,提出了一种联邦增量学习算法,目的是通过计算工厂子端的增量加权,将新增状态数据与原行业联合模型快速融合,实现对新增状态数据的有效增量学习。
附图说明
图1基于联邦增量学习的工业物联网数据共享方法框架;
图2联邦增量学习;
图3联邦增量学习与参数深度值;
图4不同比例系数每轮迭代时间;
图5工厂子端等级值方差对比;
图6联邦增量数据诊断模型训练精度对比图;
图7联邦增量数据诊断模型训练时间对比图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
具体一种基于联邦增量学习的工业物联网数据共享方法框架如图1所示,包括下述步骤:
S1.针对工厂子端大量新增数据与原行业联合模型融合问题,提出一种联邦增量学习算法;
S2.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量;
S3.工厂子端加权计算子模块根据学习状态信息的参数深度值与增量样本数据量计算对应样本的增量加权;
联邦增量学习中工厂子端存在学习样本不均、数据动态增加等问题。图2中直线表示当前通讯轮次,通讯轮线下面表示已经完成训练的数据,通讯轮线上面底纹部分表示新增加的数据,还未进行训练。所有工厂子端所处的通讯轮数是相同的,与通讯轮线交叉的部分表示本轮次新增数据的量。图中工厂子端新增的数据量是不同的,如子端1在原有数据的基础上增加了一倍,若原数据量为200,则子端1现有数据量为400。
样本数量可以一定程度上反映样本多样性,基于高复杂度数据训练的模型具有更好的扩展性。而模型训练的过程可以理解为模型的“学习”的过程,一般地,随着时间的推移,模型越接近问题的最优解,但更多的新增数据会使工厂子端与学习问题最优解的距离加大,因此这些新增数据不均的工厂子端对行业联合端中的模型参数进行等量的更新显然是不合理的。
1-1)增量权值:表示工厂子端新增样本数在原样本总数中占比大小。
工厂子端k的增量权值可由新增样本数与总样本数求得:
Figure BDA0003127054820000061
其中,Ik为工厂子端k新增的样本数,Dk为工厂子端k原样本总数,γk表示工厂子端k增量权值。
在图3中横轴表示参数深度值,纵轴表示工厂子端;橙色方块代表工厂子端当前的参数深度值,蓝色圆形表示工厂子端新增数据后调整到的参数深度值;此外,它们颜色的深浅表示增量效应,即其对行业联合模型参数影响的重要程度。
1-2)参数优化过程中具有一定的深度值,令参数深度值为
Figure BDA0003127054820000071
其中,t代表轮次的标号,
Figure BDA0003127054820000072
表示工厂子端k在t轮次的参数深度值。
1-3)为了使参数深度值越大的工厂子端其增量加权越小,且衰减的过程相对平缓,选择反正切函数arctan作为增量加权的衰减函数:
Figure BDA0003127054820000073
1-4)联邦学习框架下,每一轮仅更新参与子集中的工厂子端,根据工厂子端模型的参数深度值确定模型对聚合操作的贡献可有效利用历史信息,并区分各工厂子端模型利用价值,可望提高聚合操作的有效性,因而进一步关注工厂子端模型的参数深度值,提出改进聚合策略:
Figure BDA0003127054820000074
其中,
Figure BDA0003127054820000075
表示工厂子端k在通信轮次t+1时的模型参数,nk表示工厂子端 k所拥有的本地数据量,n表示所有工厂子端拥有的数据量,ωt+1表示通信轮次 t+1时的行业联合模型参数,
Figure BDA0003127054820000076
表示工厂子端k在通讯轮次t+1时的增量加权。
在联邦增量学习过程中,工厂子端提交的模型参数要经过增量加权的修正才能参与行业联合模型优化。修正后的参数在行业联合端上根据具体的优化算法更新模型参数,优化结束后,工厂子端重新获得最新的行业联合模型参数并将其覆盖本地模型参数,进行下一轮迭代学习。
S4.工厂子端参数修正子模块将上传的工厂子端模型参数根据增量加权进行修正;
S5.针对工厂子端数据量不均衡问题,提出一种联邦优选子端算法,将数据量不均衡问题转化对工厂子端等级值的比较,以避免弱势工厂子端数据被覆盖;
S6.在行业联合端等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值;
马氏距离是一种用来表示数据的协方差距离的方法,可以有效的计算两个未知样本的相似度,应用于工厂子端的性能指标上,可以使性能指标的马氏距离更加准确的反映工厂子端当前参与程度,为了得到更加全面的一维性能指标来准确描述工厂子端的参与程度,使用马氏距离对工厂子端的准确率(acc)、损失值 (loss)和kappa值特征向量进行计算,统计出该工厂子端与其他所有子端性能指标的马氏距离之和作为该工厂子端等级值SDi。等级值越大,性能指标相似性越小;反之亦然。
假设两个工厂子端分别为
Figure BDA0003127054820000081
Figure BDA0003127054820000082
Figure BDA0003127054820000083
协方差S的计算式为:
Figure BDA0003127054820000084
其中,μx=E(xi);μy=E(yi),E表示期望,Cov表示协方差,acc表示工厂子端准确率,loss表示工厂子端损失值,kappa表示工厂子端kappa值。
两个来自同一分布的工厂子端
Figure BDA0003127054820000085
Figure BDA0003127054820000086
的马氏距离
Figure BDA0003127054820000087
的计算式为:
Figure BDA0003127054820000088
其中,
Figure BDA0003127054820000089
表示取转置。
进而推出工厂子端i等级值SDi
Figure BDA0003127054820000091
其中,i≠j,K表示所有工厂子端的数量。
S7.在行业联合端等级值排序子模块对工厂子端等级值进行排序,并选择参与本次模型参数聚合的参与子集;
S8.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。
本发明一种基于联邦增量学习的工业物联网数据共享方法的试验验证:
为验证基于联邦增量学习的工业物联网数据共享(FIL-IIOT)方法的有效性,选择在工业物联网中最常见的轴承故障为例。轴承作为工厂设备的关键支撑部件,是机械设备中最易受损的零件之一。由于各工厂之间轴承具有高度相似性,其数据共享对模型的训练有非常大的价值。但是,由于设备状态数据属于工厂隐私数据,出于数据安全的原因而无法共享,造成单体工厂的轴承数据存在样本量少、相似度高、多样性不足等问题。联邦学习可在不上传工厂轴承数据的情况下协同多工厂子端训练行业联合模型,既满足了模型精确度的要求又兼顾了工厂数据的安全。由于设备运行的连续性,其状态数据随着时间的临近价值也在增加,其对故障诊断的重要性也在增加,但是传统的联邦学习难以处理工厂子端大量新增数据的模型融合问题,从而很难持续优化。针对上述问题,提出FIL-IIOT方法,以美国凯斯西储大学电气工程实验室的轴承故障数据为实验数据,证明FIL-IIOT 方法较好的解决了上述问题。
数据描述
美国凯斯西储大学(CWRU)电气工程实验室的轴承故障数据,共计1,341,856 个数据点,轴承型号为6205-2RS JEM SKF深沟球轴承。利用电火花加工方式分别在轴承上对内圈、外圈和滚动体设置了3个等级的单点故障,故障直径分别为 0.007(轻度)、0.014(中度)、0.021英寸(重度),故障深度分别为0.011、0.050、 0.150英寸。单点故障分别设置在了电机驱动端(Driver End)和风扇端(Fan End)。本实验采用在Driver End和Fan End的振动传感器(采集频率12KHz)采集的包含 12种故障类型和正常数据的样本,样本信息如表1所示。
表1轴承故障实验数据描述
编号 轴承位置 故障部位 故障直径(mm) 样例数量 样例长度
1 None None 0 400 1024
2 Driver End Inner Raceway 0.007 400 1024
3 Driver End Inner Raceway 0.014 400 1024
4 Driver End Outer Raceway 0.007 400 1024
5 Driver End Outer Raceway 0.014 400 1024
6 Driver End Ball 0.007 400 1024
7 Driver End Ball 0.014 400 1024
8 Fan End Inner Raceway 0.007 400 1024
9 Fan End Inner Raceway 0.014 400 1024
10 Fan End Outer Raceway 0.007 400 1024
11 Fan End Outer Raceway 0.014 400 1024
12 Fan End Ball 0.007 400 1024
13 Fan End Ball 0.014 400 1024
联邦优选实验
在使用上面确定的数据集验证FIL-IIOT方法在工厂子端选择上的优化效果,将上述数据集随机打乱后划分出30%用于测试,其余按照随机划分成10份(Factory_0,…,Factory_9),表示10个工厂子端本地数据集用来训练本地模型。随机划分数据集可以满足数据源特征相同样本不同的需求,以及可以满足交叉验证模型的合理性。第一部分实验对FIL-IIOT方法在故障诊断模型中参与联合训练的工厂子端比例系数F做测试和验证,确定好方法基本的参数,能更好地协调方法的性能和效率。所有实验重复10次,对比分析相应参数诊断性能的平均值,实验结果如表2所示:
表2不同比例系数对模型性能影响表
F 通信轮次 每轮时间(s) 训练集准确率 测试集准确率
0.3 33 12.395 0.9548 0.9388
0.5 29 18.703 0.9602 0.9439
0.7 26 23.787 0.9623 0.9454
1 17 28.854 0.9721 0.9631
表2展示了不同的比例系数F值(即每轮次参与联合训练的工厂子端数量) 对故障诊断模型各方面的性能影响。计算了不同参与联合训练的工厂子端数量构建的故障诊断模型达到95%的训练准确率所需要的迭代轮数。表2的第二列表示随着参与联合训练的工厂子端数量的增加,达到目标准确率所需要的迭代轮数呈现递减的趋势,同时整个故障诊断模型的性能也有一定的提升。图4表示随着参与联合训练的工厂子端数量的增加,每轮迭代训练的时间也随之增加,虽然达到目标准确率的训练轮数减少,但系统总消耗的时间仍然是呈上升趋势。但是从最佳训练准确率和最佳测试准确率的角度来看,随着工厂子端数量的增加,整个故障诊断模型性能得到提升。考虑模型的性能和计算效率,在接下来的实验中设定 F=0.3。
在确定好故障诊断模型的基本参数F值后,本文还记录了训练过程中工厂子端部分轮次等级值变化情况;针对不同F值、不同方法下的性能对比,这里选择在联邦学习任务中性能优异的联邦平均(FedAVG)算法作为对比方法。表3记录的是FIL-IIOT方法在F=0.3时工厂子端的等级值变化,表4记录的是FedAVG 方法在F=0.3时工厂子端的等级值变化,表5记录的是FedAVG方法在F=1时工厂子端的等级值变化。
表3 F=0.3时FIL-IIOT方法工厂子端等级值变化
轮次 1 5 10 15 20 25 30
Factory_0 3.127 0.841 0.507 2.859 1.432 2.62 0.767
Factory_1 0.768 1.96 0.527 2.257 1.576 0.849 1.782
Factory_2 2.547 1.482 1.653 2.351 2.276 1.843 2.52
Factory_3 1.926 2.568 0.911 2.507 1.374 2.345 2.167
Factory_4 0.202 2.962 2.12 2.258 1.096 1.783 0.796
Factory_5 2.772 3.005 0.232 1.953 2.895 1.007 1.279
Factory_6 2.352 0.628 2.937 3.7 1.652 2.26 1.581
Factory_7 3.779 1.384 0.132 2.959 1.563 1.901 1.28
Factory_8 3.003 2.37 0.523 2.029 1.057 2.404 1.527
Factory_9 2.83 1.196 1.268 0.613 0.904 2.876 1.666
表4 F=0.3时FedAVG方法工厂子端等级值变化
Figure BDA0003127054820000121
Figure BDA0003127054820000131
表5 F=1时FedAVG方法工厂子端等级值变化
轮次 1 5 10 15 20 25 30
Factory_0 0.357 1.789 2.212 1.58 2.352 1.752 0.738
Factory_1 2.352 0.598 2.57 2.134 1.657 2.207 2.679
Factory_2 0.766 1.832 1.408 0.684 1.253 0.628 2.489
Factory_3 2.594 0.495 0.458 2.135 1.632 2.108 2.829
Factory_4 0.403 2.411 2.549 1.009 2.964 1.483 1.682
Factory_5 1.386 1.394 2.096 0.51 1.823 1.433 2.205
Factory_6 0.411 3.62 1.23 1.201 1.489 1.377 2.806
Factory_7 2.235 1.879 1.745 3.473 0.861 2.167 0.859
Factory_8 0.641 3.447 3.177 2.111 0.63 0.301 1.399
Factory_9 2.587 2.3 2.871 2.519 1.981 2.451 2.778
通过表3、表4和表5可以看出,FIL-IIOT方法保证了工厂子端的公平参与训练,第一轮后工厂子端等级值分布较分散,进行到第五轮后,FIL-IIOT方法下的工厂子端等级值分散度缩小,从图5的方差变化图也可得知,而FedAVG方法F =0.3下的工厂子端倾斜最严重,一方面向随机选择次数多的工厂子端数据倾斜,另一方面向工厂子端本地数据量大的方向倾斜,FedAVG方法F=1下的工厂子端倾斜虽然没有随机选择下倾斜严重,但是还是可以看出等级值分布偏向了数据量大的工厂子端。图5表示的是工厂子端在部分轮次后工厂子端等级值方差变化,可以看出FIL-IIOT方法随着训练的深入方差在减小,而FedAVG方法方差表现不稳定波动量很大,表明训练过程工厂子端出现倾斜情况。
表6联邦优选算法性能对比
Figure BDA0003127054820000141
通过表6可以看出,在F=0.3的情况下FIL-IIOT方法无论是在训练集还是测试集上都比FedAVG表现更好;与F=1的FedAVG相比,FIL-IIOT方法在训练集和测试集上准确率相差无几,但模型的训练时间更短,且FedAVG的性能倾向于大数据集,所以整体上平衡性能表现不如FIL-IIOT方法。
联邦增量实验
为了使增量学习的实验效果更加显著,增量学习这部分的实验数据还是采用上面确定的数据集,但是在工厂子端将数据平均分配成四组,其中一组用于训练联邦学习模型,剩余三组分三次添加至本地数据集进行增量学习。分别使用本文提出的FIL-IIOT方法同无增量公式的FIL-IIOT(FIL-IIOT-NI)方法、FedAVG方法进行增量学习对比,并使用测试样本测试模型诊断效果,对每组增量数据记录 10次试验的准确率和运行时间并求平均值,计算四组增量数据的训练平均值和测试值对比结果如表7所示。
表7故障诊断结果对比
方法 训练精度 训练时间 测试精度 测试时间
FedAVG 0.9022 12'02” 0.8897 1'23”
FIL-IIOT-NI 0.9414 10'26” 0.9256 1'08”
FIL-IIOT 0.9656 7'58” 0.9515 1'05”
通过观察表7实验结果可知,所提FIL-IIOT方法在模型准确率和运行时间方面均优于其他两种方法,从模型诊断准确率方面来看,在训练阶段达到96.56%,在测试阶段达到95.15%,相比FedAVG方法提高了6.18%,相比FIL-IIOT-NI方法提高了2.59%,可见提出的FIL-IIOT方法由于对增量数据进行了增量加权,考虑了本地数据随时间变化的重要性改变程度,因此使得模型故障诊断精度有了一定程度的提高。从模型运行时间方面来看,提出的FIL-IIOT方法在训练时间和测试时间上均优于其他方法,这是由于其他两种方法在面临增量数据时需要重新训练已有模型增加了运行时间,因此表明增量加权聚合的联邦学习算法对于减轻模型计算量、节约时间成本起到了一定作用。图6所示为所提具有增量加权聚合的联邦学习方法(FIL-IIOT)同无增量加权聚合过程的联邦学习方法 (FIL-IIOT-NI)的训练精度的对比图,图7所示为所提具有增量加权聚合的联邦学习方法(FIL-IIOT)同无增量加权聚合过程的联邦学习方法(FIL-IIOT-NI)的训练时间的对比图,验证了所提方法的高效性。
由此可见,所提FIL-IIOT方法与无增量加权聚合学习过程的方法相比在模型精度和运行时间方面均具有优势。所提故障诊断模型通过增量加权学习对新增特征模式进行增量合并和动态加权,既能利用已有知识模式有效减少故障特征模式学习时间,又能利用新增特征加权显著提高故障诊断精度,兼顾新增模式与失效模式,满足轴承故障诊断海量新增的需求。
为解决工业互联网新增数据量大、工厂子端数据量不均衡的问题,提出了一种基于联邦增量学习的工业物联网数据共享方法,该方法首先针对工厂子端数据量不均衡问题,提出了一种联邦优选子端算法,通过工厂子端参与程度动态调整参与子集,保证联合训练的动态平衡。其次,针对工厂子端海量新增数据与原行业联合模型融合问题,提出了一种联邦增量学习算法,通过计算工厂子端的增量加权,使新增状态数据与原行业联合模型快速融合,实现对新增状态数据的有效增量学习。最后,以CWRU轴承故障数据为例进行实验,验证了所提的FIL-IIOT 方法在故障诊断中的有效性,使轴承故障诊断效率达到95.15%,相比其他无增量过程学习方法平均提高了4.39%,满足了基于工业增量数据的行业联合模型持续优化的需求。
但所提方法仍有一些需要进一步完善的地方,如在联邦优选子端算法中,执行等级值计算及排序是牺牲时间来保证训练平衡,在实际应用中,对百万甚至千万级别的子端进行计算和排序带来的时间成本无疑是不可忽视的,为了缓解行业联合端计算量,可以在行业联合端增加“预估”模块,在未来的研究中,将进一步对“预估”模块进行研究。

Claims (3)

1.一种基于联邦增量学习的工业物联网数据共享方法,其特征在于,包括下述步骤:
S1.针对工厂子端大量新增数据与原行业联合模型融合问题,提出一种联邦增量学习算法;
S2.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量;
S3.工厂子端加权计算子模块根据学习状态信息的参数深度值与增量样本数据量计算对应样本的增量加权;
S4.工厂子端参数修正子模块将上传的工厂子端模型参数根据增量加权进行修正;
S5.针对工厂子端数据量不均衡问题,提出一种联邦优选子端算法,将数据量不均衡问题转化对工厂子端等级值的比较,以避免弱势工厂子端数据被覆盖;
S6.在行业联合端等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值;
S7.在行业联合端等级值排序子模块对工厂子端等级值进行排序,并选择参与本次模型参数聚合的参与子集;
S8.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。
2.根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法,其特征在于:所述步骤S3中,采用在加权计算子模块根据学习状态信息的参数深度值与增量样本数据计算对应样本的增量加权,具体为:
1-1)增量权值:表示工厂子端新增样本数在原样本总数中占比大小。
工厂子端k的增量权值可由新增样本数与总样本数求得:
Figure FDA0003127054810000021
其中,Ik为工厂子端k新增的样本数,Dk为工厂子端k原样本总数,γk表示工厂子端k增量权值。
1-2)参数优化过程中具有一定的深度值,令参数深度值为
Figure FDA0003127054810000022
其中,t代表轮次的标号,
Figure FDA0003127054810000023
表示工厂子端k在t轮次的参数深度值。
1-3)为了使参数深度值越大的工厂子端其增量加权越小,且衰减的过程相对平缓,选择反正切函数arctan作为增量加权的衰减函数:
Figure FDA0003127054810000024
1-4)联邦学习框架下,每一轮仅更新参与子集中的工厂子端,根据工厂子端模型的参数深度值确定模型对聚合操作的贡献可有效利用历史信息,并区分各工厂子端模型利用价值,可望提高聚合操作的有效性,因而进一步关注工厂子端模型的参数深度值,提出改进聚合策略:
Figure FDA0003127054810000025
其中,
Figure FDA0003127054810000026
表示工厂子端k在通信轮次t+1时的模型参数,nk表示工厂子端k所拥有的本地数据量,n表示所有工厂子端拥有的数据量,ωt+1表示通信轮次t+1时的行业联合模型参数,
Figure FDA0003127054810000027
表示工厂子端k在通讯轮次t+1时的增量加权。
在联邦增量学习过程中,工厂子端提交的模型参数要经过增量加权的修正才能参与行业联合模型优化。修正后的参数在行业联合端上根据具体的优化算法更新模型参数,优化结束后,工厂子端重新获得最新的行业联合模型参数并将其覆盖本地模型参数,进行下一轮迭代学习。
3.根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法,其特征在于:所述步骤S6中,采用在等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值,具体为:
假设两个工厂子端分别为
Figure FDA0003127054810000031
Figure FDA0003127054810000032
Figure FDA0003127054810000033
协方差S的计算式为:
Figure FDA0003127054810000034
其中,μx=E(xi);μy=E(yi),E表示期望,Cov表示协方差,acc表示工厂子端准确率,loss表示工厂子端损失值,kappa表示工厂子端kappa值。
两个来自同一分布的工厂子端
Figure FDA0003127054810000035
Figure FDA0003127054810000036
的马氏距离
Figure FDA0003127054810000037
的计算式为:
Figure FDA0003127054810000038
其中,
Figure FDA0003127054810000039
表示取转置。
进而推出工厂子端i等级值SDi
Figure FDA00031270548100000310
其中,i≠j,K表示所有工厂子端的数量。
CN202110693388.8A 2021-06-22 2021-06-22 一种基于联邦增量学习的工业物联网数据共享方法 Active CN113469370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110693388.8A CN113469370B (zh) 2021-06-22 2021-06-22 一种基于联邦增量学习的工业物联网数据共享方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110693388.8A CN113469370B (zh) 2021-06-22 2021-06-22 一种基于联邦增量学习的工业物联网数据共享方法

Publications (2)

Publication Number Publication Date
CN113469370A true CN113469370A (zh) 2021-10-01
CN113469370B CN113469370B (zh) 2022-08-30

Family

ID=77869178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110693388.8A Active CN113469370B (zh) 2021-06-22 2021-06-22 一种基于联邦增量学习的工业物联网数据共享方法

Country Status (1)

Country Link
CN (1) CN113469370B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115562244A (zh) * 2022-10-26 2023-01-03 河北工业大学 一种基于动态联邦学习的设备故障诊断方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564376A (zh) * 2018-04-20 2018-09-21 阿里巴巴集团控股有限公司 风险控制方法、装置、服务器及可读存储介质
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN110263908A (zh) * 2019-06-20 2019-09-20 深圳前海微众银行股份有限公司 联邦学习模型训练方法、设备、系统及存储介质
CN111860581A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于模型离散度的联邦学习训练方法
CN112101489A (zh) * 2020-11-18 2020-12-18 天津开发区精诺瀚海数据科技有限公司 一种联邦学习与深度学习融合驱动的设备故障诊断方法
CN112367109A (zh) * 2020-09-28 2021-02-12 西北工业大学 空地网络中由数字孪生驱动的联邦学习的激励方法
US20210049473A1 (en) * 2019-08-14 2021-02-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Robust Federated Training of Neural Networks
CN112508203A (zh) * 2021-02-08 2021-03-16 同盾控股有限公司 一种联邦数据聚类方法、装置、计算机设备及存储介质
CN112634027A (zh) * 2020-12-30 2021-04-09 杭州趣链科技有限公司 一种面向小微企业信用评估的自适应联邦参数聚合方法
CN112966298A (zh) * 2021-03-01 2021-06-15 广州大学 一种复合隐私保护方法、系统、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564376A (zh) * 2018-04-20 2018-09-21 阿里巴巴集团控股有限公司 风险控制方法、装置、服务器及可读存储介质
CN109359684A (zh) * 2018-10-17 2019-02-19 苏州大学 基于弱监督定位和子类别相似性度量的细粒度车型识别方法
CN110263908A (zh) * 2019-06-20 2019-09-20 深圳前海微众银行股份有限公司 联邦学习模型训练方法、设备、系统及存储介质
US20210049473A1 (en) * 2019-08-14 2021-02-18 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Robust Federated Training of Neural Networks
CN111860581A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于模型离散度的联邦学习训练方法
CN112367109A (zh) * 2020-09-28 2021-02-12 西北工业大学 空地网络中由数字孪生驱动的联邦学习的激励方法
CN112101489A (zh) * 2020-11-18 2020-12-18 天津开发区精诺瀚海数据科技有限公司 一种联邦学习与深度学习融合驱动的设备故障诊断方法
CN112634027A (zh) * 2020-12-30 2021-04-09 杭州趣链科技有限公司 一种面向小微企业信用评估的自适应联邦参数聚合方法
CN112508203A (zh) * 2021-02-08 2021-03-16 同盾控股有限公司 一种联邦数据聚类方法、装置、计算机设备及存储介质
CN112966298A (zh) * 2021-03-01 2021-06-15 广州大学 一种复合隐私保护方法、系统、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAO HU ET AL.: "Model and Feature Aggregation Based Federated Learning for Multi-sensor Time Series Trend Following", 《ADVANCES IN COMPUTATIONAL INTELLIGENCE》 *
罗长银等: "面向区块链的在线联邦增量学习算法", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115562244A (zh) * 2022-10-26 2023-01-03 河北工业大学 一种基于动态联邦学习的设备故障诊断方法
CN115562244B (zh) * 2022-10-26 2023-08-15 河北工业大学 一种基于动态联邦学习的设备故障诊断方法

Also Published As

Publication number Publication date
CN113469370B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN112101489A (zh) 一种联邦学习与深度学习融合驱动的设备故障诊断方法
CN109271653B (zh) 一种基于形位公差与尺寸公差的机械零件选配方法
CN113469370B (zh) 一种基于联邦增量学习的工业物联网数据共享方法
CN108053137A (zh) 一种区块链智能合约排序方法
CN106600077A (zh) 一种模糊topsis评价方法
CN115562244B (zh) 一种基于动态联邦学习的设备故障诊断方法
CN111798095A (zh) 一种基于神经网络电力电缆状态评价方法
CN107256241A (zh) 基于网格与差异替换改进多目标遗传算法的电影推荐方法
CN110705887A (zh) 一种基于神经网络模型的低压台区运行状态综合评价方法
CN107909154A (zh) 一种基于网络搜索的风控模型参数优化方法
CN112990627B (zh) 电能质量评估方法
CN107894710A (zh) 一种裂解反应炉温度的主成分分析建模方法
CN110469661B (zh) 一种基于cvt效率的动力性速比优化方法及系统
Ic et al. Topsis based Taguchi method for multi-response simulation optimization of flexible manufacturing system
CN115936317A (zh) 一种悬索-斜拉协作体系方案评价方法及系统
CN112100909B (zh) 一种基于协同优化策略的并行可配置智能优化方法
CN112184076A (zh) 能源互联网清洁低碳发展指数指标体系
Fan et al. A Genetic Algorithm Based on Auxiliary-Individual-Directed Crossover for Internet-of-Things Applications
CN112417647A (zh) 一种基于直觉梯形模糊数和ahp-熵权法的数控机床可靠性分配方法
CN110185791A (zh) 一种有级式自动变速器控制参数优化方法
CN113779852B (zh) 一种定量评估参数随机扰动对产品疲劳寿命分布影响的方法
CN116361925B (zh) 一种船舶传动构型的多方案评估方法及系统
CN110675033B (zh) 焊接训练行为数据评分方法
CN110796297B (zh) 一种基于平衡度方差和可靠度的电力系统结构优化方法
Guo et al. Interactive genetic algorithms based on implicit knowledge model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant