CN113469370B

CN113469370B - 一种基于联邦增量学习的工业物联网数据共享方法

Info

Publication number: CN113469370B
Application number: CN202110693388.8A
Authority: CN
Inventors: 刘晶; 董志红; 季海鹏; 王岩
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-08-30
Anticipated expiration: 2041-06-22
Also published as: CN113469370A

Abstract

本发明公开了一种基于联邦增量学习的工业物联网数据共享方法，包括下述步骤：S1.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量；S2.工厂子端加权计算子模块根据学习状态信息计算对应样本的增量加权；S3.工厂子端参数修正子模块将工厂子端上传的模型参数根据增量加权进行修正；S4.行业联合端等级值计算子模块计算工厂子端对应等级值；S5.行业联合端等级值排序子模块对工厂子端等级值进行排序，并选择参与本次模型参数聚合的参与子集；S6.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。本发明所提供的技术方案，既考虑了联合训练中数据分布不均衡问题又兼顾了对新增状态数据的融合，满足了基于工业增量数据的行业联合模型持续优化的需求。

Description

一种基于联邦增量学习的工业物联网数据共享方法

技术领域

本发明涉及分布式联邦增量学习领域，具体涉及一种基于联邦增量学习的工业物联网数据共享方法。

背景技术

工业物联网以极大的速度向产业链传输海量工业数据，使得基于数据驱动的机器学习方法广泛应用于工业制造中。众所周知，随着训练数据量的增大，多样化的增多，机器学习所训练的模型会更好。然而，在工业领域，企业间出于竞争或用户隐私原因而无法将数据资源共享，因此如何在保护企业数据隐私的前提下进行多源数据融合分析，以加快行业的发展变得十分重要。

联邦学习是一种新兴的人工智能基础技术，其设计目标是在保障子端数据和个人数据安全的前提下，在多参与方或多计算节点之间开展高效率的机器学习。但在工业领域，由于工业物联网中实时产生的新增数据是海量的，如何有效的增量学习使新增状态数据与已有行业联合模型快速融合，同时保证各工厂子端同等参与成为新的问题焦点。传统联邦增量算法在很大程度上取决于工厂子端的重复学习，从而增加了时间成本，并且还将导致行业联合模型精准度下降严重及联合训练过程中行业联合模型的倾斜等问题。

发明内容

本发明提出了一种基于联邦增量学习的工业物联网数据共享方法，其目的是：针对工业互联网新增数据量大、工厂子端数据量不均衡等问题，传统的联邦学习很难利用经典增量学习算法对其模型进行持续优化，首先针对工厂子端数据量不均衡问题，提出联邦优选子端算法以避免弱势工厂子端数据被覆盖，其次，针对工厂子端大量新增数据与原行业联合模型融合问题提出联邦增量学习算法；最后，既考虑了联合训练中数据分布不均衡问题又兼顾了对新增状态数据的融合，满足了基于工业增量数据的行业联合模型持续优化的需求。

为解决上述技术问题，本发明提供如下技术方案：

一种基于联邦增量学习的工业物联网数据共享方法，包括下述步骤：

S1.针对工厂子端大量新增数据与原行业联合模型融合问题，提出一种联邦增量学习算法；

S2.工厂子端学习状态监控子模块负责监控工厂子端学习状态如参数深度值与增量样本数量；

S3.工厂子端加权计算子模块根据学习状态信息的参数深度值与增量样本数据量计算对应样本的增量加权；

S4.工厂子端参数修正子模块将上传的工厂子端模型参数根据增量加权进行修正；

S5.针对工厂子端数据量不均衡问题，提出一种联邦优选子端算法，将数据量不均衡问题转化对工厂子端等级值的比较，以避免弱势工厂子端数据被覆盖；

S6.在行业联合端等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值；

S7.在行业联合端等级值排序子模块对工厂子端等级值进行排序，并选择参与本次模型参数聚合的参与子集；

S8.行业联合端参数更新子模块对属于参与子集的工厂子端根据修正完的模型参数进行行业联合模型参数更新。

2、根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法，其特征在于：所述步骤S3中，采用在加权计算子模块根据学习状态信息的参数深度值与增量样本数据计算对应样本的增量加权，具体为：

1-1)增量权值：表示工厂子端新增样本数在原样本总数中占比大小。

工厂子端k的增量权值可由新增样本数与总样本数求得：

其中，I_k为工厂子端k新增的样本数，D_k为工厂子端k原样本总数，γ_k表示工厂子端k增量权值。

1-2)参数优化过程中具有一定的深度值，令参数深度值为

其中，t代表轮次的标号，

表示工厂子端k在t轮次的参数深度值。

1-3)为了使参数深度值越大的工厂子端其增量加权越小，且衰减的过程相对平缓，选择反正切函数arctan作为增量加权的衰减函数：

1-4)联邦学习框架下，每一轮仅更新参与子集中的工厂子端，根据工厂子端模型的参数深度值确定模型对聚合操作的贡献可有效利用历史信息，并区分各工厂子端模型利用价值，可望提高聚合操作的有效性，因而进一步关注工厂子端模型的参数深度值，提出改进聚合策略：

其中，

表示工厂子端k在通信轮次t+1时的模型参数，n_k表示工厂子端 k所拥有的本地数据量，n表示所有工厂子端拥有的数据量，ω_t+1表示通信轮次 t+1时的行业联合模型参数，

表示工厂子端k在通讯轮次t+1时的增量加权。

在联邦增量学习过程中，工厂子端提交的模型参数要经过增量加权的修正才能参与行业联合模型优化。修正后的参数在行业联合端上根据具体的优化算法更新模型参数，优化结束后，工厂子端重新获得最新的行业联合模型参数并将其覆盖本地模型参数，进行下一轮迭代学习。

3、根据权利要求1所述的一种基于联邦增量学习的工业物联网数据共享方法，其特征在于：所述步骤S6中，采用在等级值计算子模块基于工厂子端性能马氏距离计算工厂子端等级值，具体为：

假设两个工厂子端分别为

则

与

协方差S的计算式为：

其中，μ_x＝E(x_i)；μ_y＝E(y_i)，E表示期望，Cov表示协方差，acc表示工厂子端准确率，loss表示工厂子端损失值，kappa表示工厂子端kappa值。

两个来自同一分布的工厂子端

和

的马氏距离

的计算式为：

其中，

表示取转置。

进而推出工厂子端i等级值SD_i：

其中，i≠j，K表示所有工厂子端的数量。

采用上述技术方案所产生的有益效果在于：

(1)针对工厂子端数据量不均衡问题，提出了一种联邦优选子端算法，目的是根据工厂子端参与程度动态调整参与子集，保证联合训练的动态平衡；

(2)针对工厂子端大量新增数据与原行业联合模型融合问题，提出了一种联邦增量学习算法，目的是通过计算工厂子端的增量加权，将新增状态数据与原行业联合模型快速融合，实现对新增状态数据的有效增量学习。

附图说明

图1基于联邦增量学习的工业物联网数据共享方法框架；

图2联邦增量学习；

图3联邦增量学习与参数深度值；

图4不同比例系数每轮迭代时间；

图5工厂子端等级值方差对比；

图6联邦增量数据诊断模型训练精度对比图；

图7联邦增量数据诊断模型训练时间对比图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

具体一种基于联邦增量学习的工业物联网数据共享方法框架如图1所示，包括下述步骤：

联邦增量学习中工厂子端存在学习样本不均、数据动态增加等问题。图2中直线表示当前通讯轮次，通讯轮线下面表示已经完成训练的数据，通讯轮线上面底纹部分表示新增加的数据，还未进行训练。所有工厂子端所处的通讯轮数是相同的，与通讯轮线交叉的部分表示本轮次新增数据的量。图中工厂子端新增的数据量是不同的，如子端1在原有数据的基础上增加了一倍，若原数据量为200，则子端1现有数据量为400。

样本数量可以一定程度上反映样本多样性，基于高复杂度数据训练的模型具有更好的扩展性。而模型训练的过程可以理解为模型的“学习”的过程，一般地，随着时间的推移，模型越接近问题的最优解，但更多的新增数据会使工厂子端与学习问题最优解的距离加大，因此这些新增数据不均的工厂子端对行业联合端中的模型参数进行等量的更新显然是不合理的。

工厂子端k的增量权值可由新增样本数与总样本数求得：

在图3中横轴表示参数深度值，纵轴表示工厂子端；橙色方块代表工厂子端当前的参数深度值，蓝色圆形表示工厂子端新增数据后调整到的参数深度值；此外，它们颜色的深浅表示增量效应，即其对行业联合模型参数影响的重要程度。

1-2)参数优化过程中具有一定的深度值，令参数深度值为

其中，t代表轮次的标号，

表示工厂子端k在t轮次的参数深度值。

其中，

表示工厂子端k在通讯轮次t+1时的增量加权。

马氏距离是一种用来表示数据的协方差距离的方法，可以有效的计算两个未知样本的相似度，应用于工厂子端的性能指标上，可以使性能指标的马氏距离更加准确的反映工厂子端当前参与程度，为了得到更加全面的一维性能指标来准确描述工厂子端的参与程度，使用马氏距离对工厂子端的准确率(acc)、损失值 (loss)和kappa值特征向量进行计算，统计出该工厂子端与其他所有子端性能指标的马氏距离之和作为该工厂子端等级值SD_i。等级值越大，性能指标相似性越小；反之亦然。

假设两个工厂子端分别为

则

与

协方差S的计算式为：

两个来自同一分布的工厂子端

和

的马氏距离

的计算式为：

其中，

表示取转置。

进而推出工厂子端i等级值SD_i：

其中，i≠j，K表示所有工厂子端的数量。

本发明一种基于联邦增量学习的工业物联网数据共享方法的试验验证：

为验证基于联邦增量学习的工业物联网数据共享(FIL-IIOT)方法的有效性，选择在工业物联网中最常见的轴承故障为例。轴承作为工厂设备的关键支撑部件，是机械设备中最易受损的零件之一。由于各工厂之间轴承具有高度相似性，其数据共享对模型的训练有非常大的价值。但是，由于设备状态数据属于工厂隐私数据，出于数据安全的原因而无法共享，造成单体工厂的轴承数据存在样本量少、相似度高、多样性不足等问题。联邦学习可在不上传工厂轴承数据的情况下协同多工厂子端训练行业联合模型，既满足了模型精确度的要求又兼顾了工厂数据的安全。由于设备运行的连续性，其状态数据随着时间的临近价值也在增加，其对故障诊断的重要性也在增加，但是传统的联邦学习难以处理工厂子端大量新增数据的模型融合问题，从而很难持续优化。针对上述问题，提出FIL-IIOT方法，以美国凯斯西储大学电气工程实验室的轴承故障数据为实验数据，证明FIL-IIOT 方法较好的解决了上述问题。

数据描述

美国凯斯西储大学(CWRU)电气工程实验室的轴承故障数据，共计1,341,856 个数据点，轴承型号为6205-2RS JEM SKF深沟球轴承。利用电火花加工方式分别在轴承上对内圈、外圈和滚动体设置了3个等级的单点故障，故障直径分别为 0.007(轻度)、0.014(中度)、0.021英寸(重度)，故障深度分别为0.011、0.050、 0.150英寸。单点故障分别设置在了电机驱动端(Driver End)和风扇端(Fan End)。本实验采用在Driver End和Fan End的振动传感器(采集频率12KHz)采集的包含 12种故障类型和正常数据的样本，样本信息如表1所示。

表1轴承故障实验数据描述

编号	轴承位置	故障部位	故障直径(mm)	样例数量	样例长度
						1	None	None	0	400	1024
2	Driver End	Inner Raceway	0.007	400	1024
						3	Driver End	Inner Raceway	0.014	400	1024
4	Driver End	Outer Raceway	0.007	400	1024
						5	Driver End	Outer Raceway	0.014	400	1024
6	Driver End	Ball	0.007	400	1024
						7	Driver End	Ball	0.014	400	1024
8	Fan End	Inner Raceway	0.007	400	1024
						9	Fan End	Inner Raceway	0.014	400	1024
10	Fan End	Outer Raceway	0.007	400	1024
						11	Fan End	Outer Raceway	0.014	400	1024
12	Fan End	Ball	0.007	400	1024
						13	Fan End	Ball	0.014	400	1024

联邦优选实验

在使用上面确定的数据集验证FIL-IIOT方法在工厂子端选择上的优化效果，将上述数据集随机打乱后划分出30％用于测试，其余按照随机划分成10份(Factory_0，…，Factory_9)，表示10个工厂子端本地数据集用来训练本地模型。随机划分数据集可以满足数据源特征相同样本不同的需求，以及可以满足交叉验证模型的合理性。第一部分实验对FIL-IIOT方法在故障诊断模型中参与联合训练的工厂子端比例系数F做测试和验证，确定好方法基本的参数，能更好地协调方法的性能和效率。所有实验重复10次，对比分析相应参数诊断性能的平均值,实验结果如表2所示：

表2不同比例系数对模型性能影响表

F	通信轮次	每轮时间(s)	训练集准确率	测试集准确率
					0.3	33	12.395	0.9548	0.9388
0.5	29	18.703	0.9602	0.9439
					0.7	26	23.787	0.9623	0.9454
1	17	28.854	0.9721	0.9631

表2展示了不同的比例系数F值(即每轮次参与联合训练的工厂子端数量) 对故障诊断模型各方面的性能影响。计算了不同参与联合训练的工厂子端数量构建的故障诊断模型达到95％的训练准确率所需要的迭代轮数。表2的第二列表示随着参与联合训练的工厂子端数量的增加，达到目标准确率所需要的迭代轮数呈现递减的趋势，同时整个故障诊断模型的性能也有一定的提升。图4表示随着参与联合训练的工厂子端数量的增加，每轮迭代训练的时间也随之增加，虽然达到目标准确率的训练轮数减少，但系统总消耗的时间仍然是呈上升趋势。但是从最佳训练准确率和最佳测试准确率的角度来看，随着工厂子端数量的增加，整个故障诊断模型性能得到提升。考虑模型的性能和计算效率，在接下来的实验中设定 F＝0.3。

在确定好故障诊断模型的基本参数F值后，本文还记录了训练过程中工厂子端部分轮次等级值变化情况；针对不同F值、不同方法下的性能对比，这里选择在联邦学习任务中性能优异的联邦平均(FedAVG)算法作为对比方法。表3记录的是FIL-IIOT方法在F＝0.3时工厂子端的等级值变化，表4记录的是FedAVG 方法在F＝0.3时工厂子端的等级值变化，表5记录的是FedAVG方法在F＝1时工厂子端的等级值变化。

表3 F＝0.3时FIL-IIOT方法工厂子端等级值变化

轮次	1	5	10	15	20	25	30
								Factory_0	3.127	0.841	0.507	2.859	1.432	2.62	0.767
Factory_1	0.768	1.96	0.527	2.257	1.576	0.849	1.782
								Factory_2	2.547	1.482	1.653	2.351	2.276	1.843	2.52
Factory_3	1.926	2.568	0.911	2.507	1.374	2.345	2.167
								Factory_4	0.202	2.962	2.12	2.258	1.096	1.783	0.796
Factory_5	2.772	3.005	0.232	1.953	2.895	1.007	1.279
								Factory_6	2.352	0.628	2.937	3.7	1.652	2.26	1.581
Factory_7	3.779	1.384	0.132	2.959	1.563	1.901	1.28
								Factory_8	3.003	2.37	0.523	2.029	1.057	2.404	1.527
Factory_9	2.83	1.196	1.268	0.613	0.904	2.876	1.666

表4 F＝0.3时FedAVG方法工厂子端等级值变化

表5 F＝1时FedAVG方法工厂子端等级值变化

轮次	1	5	10	15	20	25	30
								Factory_0	0.357	1.789	2.212	1.58	2.352	1.752	0.738
Factory_1	2.352	0.598	2.57	2.134	1.657	2.207	2.679
								Factory_2	0.766	1.832	1.408	0.684	1.253	0.628	2.489
Factory_3	2.594	0.495	0.458	2.135	1.632	2.108	2.829
								Factory_4	0.403	2.411	2.549	1.009	2.964	1.483	1.682
Factory_5	1.386	1.394	2.096	0.51	1.823	1.433	2.205
								Factory_6	0.411	3.62	1.23	1.201	1.489	1.377	2.806
Factory_7	2.235	1.879	1.745	3.473	0.861	2.167	0.859
								Factory_8	0.641	3.447	3.177	2.111	0.63	0.301	1.399
Factory_9	2.587	2.3	2.871	2.519	1.981	2.451	2.778

通过表3、表4和表5可以看出，FIL-IIOT方法保证了工厂子端的公平参与训练，第一轮后工厂子端等级值分布较分散，进行到第五轮后，FIL-IIOT方法下的工厂子端等级值分散度缩小，从图5的方差变化图也可得知，而FedAVG方法F ＝0.3下的工厂子端倾斜最严重，一方面向随机选择次数多的工厂子端数据倾斜，另一方面向工厂子端本地数据量大的方向倾斜，FedAVG方法F＝1下的工厂子端倾斜虽然没有随机选择下倾斜严重，但是还是可以看出等级值分布偏向了数据量大的工厂子端。图5表示的是工厂子端在部分轮次后工厂子端等级值方差变化，可以看出FIL-IIOT方法随着训练的深入方差在减小，而FedAVG方法方差表现不稳定波动量很大，表明训练过程工厂子端出现倾斜情况。

表6联邦优选算法性能对比

通过表6可以看出，在F＝0.3的情况下FIL-IIOT方法无论是在训练集还是测试集上都比FedAVG表现更好；与F＝1的FedAVG相比，FIL-IIOT方法在训练集和测试集上准确率相差无几，但模型的训练时间更短，且FedAVG的性能倾向于大数据集，所以整体上平衡性能表现不如FIL-IIOT方法。

联邦增量实验

为了使增量学习的实验效果更加显著，增量学习这部分的实验数据还是采用上面确定的数据集，但是在工厂子端将数据平均分配成四组，其中一组用于训练联邦学习模型，剩余三组分三次添加至本地数据集进行增量学习。分别使用本文提出的FIL-IIOT方法同无增量公式的FIL-IIOT(FIL-IIOT-NI)方法、FedAVG方法进行增量学习对比，并使用测试样本测试模型诊断效果，对每组增量数据记录 10次试验的准确率和运行时间并求平均值，计算四组增量数据的训练平均值和测试值对比结果如表7所示。

表7故障诊断结果对比

方法	训练精度	训练时间	测试精度	测试时间
					FedAVG	0.9022	12'02”	0.8897	1'23”
FIL-IIOT-NI	0.9414	10'26”	0.9256	1'08”
					FIL-IIOT	0.9656	7'58”	0.9515	1'05”

通过观察表7实验结果可知，所提FIL-IIOT方法在模型准确率和运行时间方面均优于其他两种方法，从模型诊断准确率方面来看，在训练阶段达到96.56％，在测试阶段达到95.15％，相比FedAVG方法提高了6.18％，相比FIL-IIOT-NI方法提高了2.59％，可见提出的FIL-IIOT方法由于对增量数据进行了增量加权，考虑了本地数据随时间变化的重要性改变程度，因此使得模型故障诊断精度有了一定程度的提高。从模型运行时间方面来看，提出的FIL-IIOT方法在训练时间和测试时间上均优于其他方法，这是由于其他两种方法在面临增量数据时需要重新训练已有模型增加了运行时间，因此表明增量加权聚合的联邦学习算法对于减轻模型计算量、节约时间成本起到了一定作用。图6所示为所提具有增量加权聚合的联邦学习方法(FIL-IIOT)同无增量加权聚合过程的联邦学习方法 (FIL-IIOT-NI)的训练精度的对比图，图7所示为所提具有增量加权聚合的联邦学习方法(FIL-IIOT)同无增量加权聚合过程的联邦学习方法(FIL-IIOT-NI)的训练时间的对比图，验证了所提方法的高效性。

由此可见，所提FIL-IIOT方法与无增量加权聚合学习过程的方法相比在模型精度和运行时间方面均具有优势。所提故障诊断模型通过增量加权学习对新增特征模式进行增量合并和动态加权，既能利用已有知识模式有效减少故障特征模式学习时间，又能利用新增特征加权显著提高故障诊断精度，兼顾新增模式与失效模式，满足轴承故障诊断海量新增的需求。

为解决工业互联网新增数据量大、工厂子端数据量不均衡的问题，提出了一种基于联邦增量学习的工业物联网数据共享方法，该方法首先针对工厂子端数据量不均衡问题，提出了一种联邦优选子端算法，通过工厂子端参与程度动态调整参与子集，保证联合训练的动态平衡。其次，针对工厂子端海量新增数据与原行业联合模型融合问题，提出了一种联邦增量学习算法，通过计算工厂子端的增量加权，使新增状态数据与原行业联合模型快速融合，实现对新增状态数据的有效增量学习。最后，以CWRU轴承故障数据为例进行实验，验证了所提的FIL-IIOT 方法在故障诊断中的有效性，使轴承故障诊断效率达到95.15％，相比其他无增量过程学习方法平均提高了4.39％，满足了基于工业增量数据的行业联合模型持续优化的需求。

但所提方法仍有一些需要进一步完善的地方，如在联邦优选子端算法中，执行等级值计算及排序是牺牲时间来保证训练平衡，在实际应用中，对百万甚至千万级别的子端进行计算和排序带来的时间成本无疑是不可忽视的，为了缓解行业联合端计算量，可以在行业联合端增加“预估”模块，在未来的研究中，将进一步对“预估”模块进行研究。