CN113988263A

CN113988263A - 工业物联网边缘设备中基于知识蒸馏的空时预测方法

Info

Publication number: CN113988263A
Application number: CN202111270656.1A
Authority: CN
Inventors: 张颖慧; 邢雅轩; 白戈
Original assignee: Inner Mongolia Tata Power Transmission And Transformation Engineering Co ltd; Inner Mongolia University
Current assignee: Inner Mongolia Tata Power Transmission And Transformation Engineering Co ltd; Inner Mongolia University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本发明公开了工业物联网边缘设备中基于知识蒸馏的空时预测方法，属于物联网边缘设备领域，首先，分别搭建教师网络TCN‑GCN模型和浅层学生网络模型，对传感器获取的二维空时数据进行预测；接着，利用GAN判别器将教师网络和学生网络输出的预测结果进行特征变换，使学生网络学习教师网络的特征捕捉能力，并计算与教师网络拟合后的新学生网络的损失函数L_GAN；然后，教师网络对传感器采集的真实数据剔除离群值；最后，将损失函数L_GAN与学生的损失函数L_TOE加权相加，得到最终的损失函数L，实现知识蒸馏，并利用损失函数L将新学生网络的输出与剔除离群值的真实数据做梯度下降，获得最终的空时预测结果。本发明大幅减少了空时预测模型的复杂度。

Description

工业物联网边缘设备中基于知识蒸馏的空时预测方法

技术领域

本发明属于物联网边缘设备领域，具体是一种工业物联网边缘设备中基于知识蒸馏的空时预测方法。

背景技术

在工业4.0时代，各种基于物联网的应用程序和服务，为实现更安全、更高效的工业智能化奠定了基础，如智能制造、预测与健康管理和工厂监控管理[1]等。随着物联网(Internet of Things，IoT)技术的高速发展，温度传感器、湿度传感器和气体传感器等在工业生产、设备监控、环保监测以及工业安全等领域得到广泛应用，实现了智能监控、智能诊断、智能决策，提高了生产力，降低能源消耗。

此外，随着信息系统和数据收集平台的出现和兴起，工业物联网设备生成的大量传感数据也使得物联网生态系统的不同领域大数据分析和挖掘成为可能[2]。因此，基于IoT传感层监测数据的准确预测至关重要，为工业物联网(Industrial Internet ofThings，IIoT)感知环境、无缝决策、智能响应和控制设备提供保障，相关研究已经引起学者和工业领域的广泛关注。

通过采用智能传感层对工业智能化的各个阶段进行监控，实现了有效覆盖、高精度检测和高效传输。然而，由于噪声、碰撞、网络通信不稳定和设备故障等原因，IoT传感层监测数据存在缺失值和不完整值。因此，针对传感层监测数据的预测非常必要也极具挑战。随着人工智能(AI)技术与IIoT大数据的结合，深度学习(Deep Learning，DL)模型已成为实现传感层监测数据分析和高精度预测的有效解决方案。

文献[3]提出利用卷积长短期记忆(Convolutional Long Short-Term Memory，ConvLSTM)网络进行预测，首先利用二维卷积捕捉周围区域的相关特征，再利用LSTM提取时间维度的特征。文献[4]提出利用集成卷积神经网络(Convolutional Neural Network,CNN)和长短期记忆网络(Long Short-Term Memory，LSTM)的统一框架进行多节点预测。为有效提取IIoT网络的时变特征，文献[5]提出使用多任务学习的预测机制，并结合基于LSTM模型的深层架构实现高精度预测。文献[6]提出了利用时间图卷积网络(Temporal GraphConvolutional Network，T-GCN)解决拓扑结构的约束问题。文献[7]提出了一种结合残差网络(ResNet)、图卷积网络(Graph Convolutional Network，GCN)和LSTM的ResLSTM深度学习架构来预测城市轨道交通的短期客流，其中ResNet用于捕获地铁站之间的深层抽象空间相关性，GCN用于提取网络拓扑信息，Attention LSTM用于提取时间相关性。文献[8]提出了空时深度学习框架，通过结合ConvLSTM和GCN，对基于IoT的多来源流量数据实现准确和及时的交通速度预测。文献[9]提出了基于注意力机制的空时方法预测温度传感层监测数据。用注意力机制提取目标点的全局特征，将提取的空间特征输入到LSTM网络中获取空间因素的长期状态信息。为更全面地捕捉空间关系，文献[10]提出基于区域空间相关性的空时预测网络，从区域和链接两种角度学习空间特征。

上述的空时预测算法是通过结合空间特征和时间特征来提高预测精度。然而，在传感层监测数据预测中，传统的复杂神经网络部署在云端作为数据预测的骨干网会导致预测速度下降，无法满足应用的实时性要求。同时，随着IIoT设备数量呈指数增长，产生的大数据爆炸式增长，对大量训练数据集进行采样的消耗十分昂贵，增加了计算设备的成本。

参考文献：

[1]H.A.Bany Salameh,M.F.Dhainat and E.Benkhelifa,"An End-to-End EarlyWarning System Based on Wireless Sensor Network for Gas Leakage Detection inIndustrial Facilities,"in IEEE Syst.J.,doi:10.1109/JSYST.2020.3015710.

[2]Y.Jiang,S.Niu,K.Zhang,B.Chen,and H.Song,"Spatial-temporal graphdata mining for iot-enabled air mobility prediction."in IEEE Internet ofThings J.,doi:10.1109/JIOT.2021.3090265.

[3]X.Shi,Z.Chen,H.Wang,D.Yeung,W.Wong,and W.Woo,“Convolutional LSTMNetwork:A Machine Learning Approach for Precipitation Nowcasting”inAdv.neural inf.proces.syst.,Montreal,QC,Canada,Jan.2015,pp.802-810.

[4]Q.Zhu,J.Chen,D.Shi,L.Zhu,X.Bai,X.Duan,and Y.Liu,"Learning Temporaland Spatial Correlations Jointly:A Unified Framework for Wind SpeedPrediction,"IEEE Trans.Sustainable Energy,vol.11,no.1,pp.509-523,Jan.2020.

[5]L.Nie,X.Wang,S.Wang,Z.Ning,and S.Li,“Network traffic prediction inindustrial internet of things backbone networks:a multi-task learningmechanism.”in IEEE Trans.Ind.Inf.,doi:10.1109/TII.2021.3050041.

[6]L.Zhao,Y.Song,C.Zhang,Y.Liu,P.Wang,T.Lin,M.Deng and H.Li,"T-GCN:ATemporal Graph Convolutional Network for Traffic Prediction,"in IEEETrans.Intell.Transp.Syst.,vol.21,no.9,pp.3848-3858,Sept.2020.

[7]J.Zhang,F.Chen,Z.Cui,Y.Guo and Y.Zhu,"Deep Learning Architecturefor Short-Term Passenger Flow Forecasting in Urban Rail Transit,"IEEETrans.Intell.Transp.Syst.,doi:10.1109/TITS.2020.3000761.

[8]Spatio-Temporal Deep Learning Framework for Traffic SpeedForecasting in IoT.F.Dai,P.Huang,X.Xu,L.Qi,and M.R.Khosravi,“Spatio-temporaldeep learning framework for traffic speed forecasting in iot.”in IEEEInternet of Things J.,vol.3,no.4,pp.66-69,2020.

[9]S.Duan,W.Yang,X.Wang,S.Mao,and Y.Zhang,“Temperature Forecastingfor Stored Grain:A Deep Spatio-Temporal Attention Approach.”in IEEE InternetThings J.,doi:10.1109/JIOT.2021.3078332.

[10]Z.He,C.Y.Chow,and J.D.Zhang,“Stnn:a spatio-temporal neuralnetwork for traffic predictions.”in IEEE Trans.Intell.Transp.Syst.,doi:10.1109/TITS.2020.3006227.

发明内容

为了解决复杂空时模型进行数据预测造成时延和成本高的问题，实现网络模型的精简压缩提升训练和预测效率，减少模型所需要的数据量，本发明提出了一种工业物联网边缘设备中基于知识蒸馏的空时预测方法。

所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，具体步骤如下：

步骤一、利用膨胀时间卷积网络DTCN和动态更新的图卷积网络DGCN交替结合，形成教师网络TCN-GCN模型，对传感器实时采集的二维数据进行空时预测；

具体过程为：

步骤101、利用N个传感器分别采集包含时间步长与空间节点的二维数据，并构建初始的图邻接矩阵表示空间节点的关联关系；

步骤102、将二维数据依次送入DTCN和DGCN分别提取时间和空间特征；

具体为：

首先，给定输入的二维数据x_in，则经过DTCN的输出x_out为：

x_out＝tanh(f₁(x_in))×sigmoid(f₂(x_in))

其中，f₁表示滤波卷起函数，f₂表示门控卷积函数。sigmoid(·)表示S型激活函数，tanh(·)表示正切双曲激活函数。

然后，将DTCN捕捉的特征送入DGCN模块，其信息传递层为：

其中，H^l表示第l层的传播层；σ₁和σ₂为不同的激活函数，

为动态采样得到的图邻接矩阵，W^l-1表示第l-1层的网络权重；

表示经过跳跃连接的传播层；β为控制保留根节点原始状态比率的超参数；H^(l)是随着图卷积的深度增加节点状态不断更新的传播层，H^(l-1)表示保留的之前节点状态的传播层；H_out为跳跃层叠加后的输出层。

步骤103、通过不断重新采样，更新图邻接矩阵中各空间节点的关联关系；

步骤104、将更新得到的图邻接矩阵与提取出的空间特征向量进行卷积运算，实现移动节点空间特征的不断更新。

步骤105、根据不断更新的空间特征，实现二维数据的高精度预测；

具体预测过程为：

在时间步长t处输入的二维数据X表示为：

X＝{z₁[i],z₂[i],…,z_t[i]}

其中，z_t[i]表示在时间步长t处第i个传感器的二维数据值，i∈N；

则下一时间步长的预测值表示为：

Y＝{z_t+1[i]}

步骤二、利用特征提取模块和回归模块，搭建浅层学生网络LSTM或学生网络一维CNN，对传感器获取的二维空时数据进行预测；

特征提取模块选择单向单层的LSTM，回归模块选择全连接FC层；

学生网络LSTM的搭建过程为：

首先，LSTM的四个门控结构对二维数据的时间特征进行记忆和提取；

具体为：给定输入x^(t)，经过LSTM的输出h^(t)为：

i^(t)＝σ(W⁽ⁱ⁾x^(t)+U⁽ⁱ⁾h^(t-1))

f^(t)＝σ(W^(f)x^(t)+U^(f)h^(t-1))

o^(t)＝σ(W^(o)x^(t)+U^(o)h^(t-1))

h^(t)＝o^(t)*tanh(c^(t))

其中，σ为激活函数，W表示输入向量所乘的权重参数，U表示状态向量所乘的权重参数，h^(t-1)表示第t-1层的信息传播层。i^(t)为LSTM的输入门，f^(t)为LSTM的忘记门，o^(t)为LSTM的输出门，c^(t)为记忆门。

然后，将LSTM提取的特征送入回归模块，根据捕捉的特征实现下一个时间步长的数据预测。

学生网络一维CNN是具有一维池化层的单层CNN网络，将卷积核作为滑动窗口，通过在输入的二维数据上滑动窗口产生新的输出；具体为：

给定卷积核向量Μ和输入序列x^(t)，学生网络一维CNN将向量Μ与输入序列中的每个子向量进行点乘得到输出h^(t)：

其中，j表示从m到s的索引范围，m为一维卷积的滤波器尺寸，s表示输入序列的长度，其中s≥m。

然后，将学生网络一维CNN提取的特征送入回归模块，根据捕捉的特征实现下一个时间步长的数据预测。

步骤三、利用GAN判别器将教师网络和学生网络输出的预测结果进行特征变换，使学生网络学习拟合教师网络的特征捕捉能力，并得到GAN判别器的损失函数L_GAN；

首先，将教师网络和学生网络输出的二维数据的连续预测值，通过GAN判别器分别进行卷积运算；

GAN判别器由多个一层卷积和激活函数嵌套而成，给定输入x^(t)，经过卷积的输出h_W,b(x)为：

其中，W^L表示多层卷积的权重参数，b为偏置。

然后，经GAN判别器的卷积运算后分别转换为各自的特征logits；

教师网络预测的连续输出Y_tea经过GAN判别器输出的特征logits为：

Y′_tea＝max(0,SN(Conv2D(Y_tea)))+Leak×min(0,SN(Conv2D(Y_tea)))

学生网络预测的连续输出Y_stu，经过GAN判别器输出的特征logits为：

Y′_stu＝max(0,SN(Conv2D(Y_stu)))+Leak×min(0,SN(Conv2D(Y_stu)))

其中，SN表示谱归一化操作；Leak表示LeakyRelu激活函数的常数；Conv2D表示二维卷积函数。

最后，GAN判别器分别输出教师网络和学生网络的特征logits，经过损失函数实现教师网络和学生网络的拟合。

GAN判别器的损失函数L_GAN设计如下：

L_GAN＝Loss(Y′_tea,Y′_stu)

根据损失函数，通过梯度下降改变学生网络的参数。

在梯度下降中判断Y′_tea和Y′_stu的差距是否小于上一次迭代的差值，如果是，说明学生网络的参数与教师网络的参数差别变大，反向传播改变学生网络的参数；否则，保持学生网络的参数不变，继续学习教师网络的参数，反向传播使学生网络学习教师网络的特征捕捉能力，实现教师网络的预测能力到学生网络中的迁移。

步骤四、教师网络对传感器采集的真实数据进行离群值剔除；

离群值是指：教师网络输出的预测值形成的预测矩阵与真实数据值形成的真实矩阵中对应位置值的距离大于离群阈值，则该位置的真实值为离群值；

阈值是教师网络输出的预测值与真实数据值的最大距离；

步骤五、利用剔除离群值后的真实数据，计算与教师网络拟合后的新学生网络的损失函数；

新学生的损失函数L_TOE为：

f＝δ(Y_stu-t)

其中，t是真实数据值，f()为使学生网络在出现离群值时减少梯度的函数，ε_outlier是离群阈值，根据不同数据集确定；[i,j]表示真实矩阵和预测矩阵中对应的行列值；δ∈[0,1)为梯度减小的系数。

步骤六、将GAN判别器的L_GAN与实现教师网络和学生网络拟合的损失函数L_TOE加权相加，得到最终的损失函数L，实现知识蒸馏，并利用损失函数L将新学生网络的输出与剔除离群值的真实数据做梯度下降，获得最终的空时预测结果。

损失函数L的计算公式为：

L＝(1-c_TOE)L_GAN+c_TOEL_TOE

其中，c_TOE为损失系数；通过损失系数，权衡两个损失函数的贡献值，得到最终的输出结果。

本发明的优点在于：

1)、一种工业物联网边缘设备中基于知识蒸馏的空时预测方法，是一种解决回归问题的蒸馏学习策略，实现深度学习网络模型的压缩，大幅减少了空时预测模型的复杂度，可以很好地满足实时预测的需求，为实现边缘计算提供了解决思路。

2)、一种工业物联网边缘设备中基于知识蒸馏的空时预测方法，将深度空时预测算法作为教师网络，利用知识蒸馏迁移到不同架构的小型学生网络，有效提升训练速度并避免模型在小数据集上训练时发生过拟合问题。

3)、一种工业物联网边缘设备中基于知识蒸馏的空时预测方法，通过挖掘生成对抗训练判别器性能，使得浅层的学生网络可以有效拟合高精度教师网络的输出特征；开发离群值剔除的方法，有效降低空时数据预测的误差。同时，利用权重迁移减少知识蒸馏方法所引入的复杂度，减小训练次数，大幅提升预测效率。

4)、一种工业物联网边缘设备中基于知识蒸馏的空时预测方法，利用多个迁移小数据集实现知识蒸馏策略，并将迁移权重的预训练学生网络在迁移小数据集上进行训练。通过仿真，在多种学生网络以及多个迁移数据上以较低的复杂度实现良好的预测性能。

附图说明

图1为本发明一种工业物联网边缘设备中基于知识蒸馏的空时预测方法的原理图；

图2为本发明一种工业物联网边缘设备中基于知识蒸馏的空时预测方法的流程图；

图3为本发明利用传感层数据搭建的空时预测教师网络模型；

图4为本发明搭建的浅层学生网络LSTM模型；

图5为本发明搭建的浅层学生网络一维CNN模型；

图6为本发明的GAN判别器模型结构；

图7为本发明学生网络蒸馏前后预测曲线对比图；

图8为本发明原始数据和学生网络的不同节点MAE分析对比图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述

目前，针对空时数据的预测算法存在复杂高，计算资源消耗量大，无法直接部署在边缘层等问题。为减少工业物联网计算资源的消耗，在边缘智能预测阶段，本发明提出了一种工业物联网边缘设备中基于知识蒸馏的空时预测方法(Space-Time Data PredictionAlgorithm Based on Knowledge Distillation，KD_ST)，利用知识蒸馏实现对深度教师网络进行加速和压缩，使其适用于资源有限的工业物联网。通过开发知识蒸馏方法，将复杂的深度空时预测网络迁移到不同类型的轻量级小型网络中，从而降低预测模型的复杂度，提高预测速度，解决实际应用中数据集较少的问题。同时，本发明还开发了不同架构的小型网络，将深度神经网络所提取的特征信息共享到不同的小型网络，使预测模型满足不同的IIoT设备应用，满足不同性能要求，增大算法的适用范围。

如图1所示，首先，搭建教师网络TCN-GCN模型，并利用大数据集上进行训练；同时，搭建浅层学生网络模型，利用TCN-GCN模型的输出与学生网络模型的输出做GAN判别，即让学生网络拟合教师网络的输出结果。然后，利用教师网络模型对多传感器真实采集的小数据集进行离群值剔除，减少异常值对小型学生网络训练的干扰，使小型学生网络得到更准确的预测模型。最后，将学生网络的输出与剔除离群值的真实数据做梯度下降，获得最终的预测结果。本发明提出的KD_ST预测方法将知识从TCN-GCN模型分别迁移到不同结构的学生网络，以满足不同边缘设备对网络结构的不同要求，提高预测速度的同时增加网络的适用性。

所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，如图2所示，具体步骤如下：

步骤一、利用膨胀时间卷积网络(Dilated time convolutional network，DTCN)和动态更新的图卷积网络DGCN(Dynamic graph convolutional network，DGCN)交替结合，形成教师网络TCN-GCN模型，对传感器实时采集的二维数据进行高精度预测；

如图3所示，教师网络TCN-GCN模型为DTCN和DGCN交替相结合的复合网络，也包括图节点更新模块来更新节点位置信息。

具体过程为：

步骤101、利用N个传感器分别采集包含时间步长与空间节点的二维数据，根据空间节点的个数随机构建图邻接矩阵来表示空间节点的关联关系；

二维数据是多个传感器采集的时间序列，包括时间维度和空间多个节点的维度。

传感器采集的数据具有时间和空间相关性，传感器节点的测量值在多个测量周期保持相对稳定，不会发生剧烈变化为时间相关性。空间相关性是指传感器层中一定区域范围内的传感器节点具有相似的测量值，且测量值在一段时间内具有相似的变化趋势。

具体为：

首先，DTCN模块包括两个膨胀的卷积层，分别由切线双曲线函数和sigmoid函数激活。给定输入的二维数据x_in，则经过DTCN的输出x_out为：

x_out＝tanh(f₁(x_in))×sigmoid(f₂(x_in))

其中，f₁表示滤波卷积函数，f₂表示门控卷积函数。sigmoid(·)表示S型激活函数，tanh(·)表示正切双曲激活函数。

然后，将DTCN捕捉的特征送入DGCN模块，其信息传递层为：

通过叠加不同节点状态信息，防止来自较高层的信息对整体性能产生负面的影响。同时，保留节点的特征信息以及前一层的传播信息，防止过拟合，提高DGCN的预测性能。

步骤103、将随机初始化图邻接矩阵送入图节点更新模块，通过不断重新采样更新空间节点的位置。

教师网络模型的本质是实现二维数据的高精度预测，为了实现这一目的，需要对二维数据中所包含的时间(DTCN)和空间(DGCN)特征进行捕捉，而空间特征由于节点的移动性和灵活性，需要构建额外的图节点更新模块来更新空间信息。

步骤104、将更新得到的图邻接矩阵与步骤102提取出的空间特征向量送入图卷积模块进行卷积运算，实现移动节点空间特征的不断更新。

在时间卷积开始之前和图卷积结束之后，添加残余连接避免梯度消失；使用层数正则化防止模型过渡复杂，并根据学习目标将捕获的隐藏特征映射到所需要的输出尺寸。最后，根据隐含的空间关系，移动多传感器时间序列相互补充其关键信息，实现同时对多节点二维空时序列的高精度预测。

步骤105、根据不断更新的空间特征，实现同时对多节点的二维空时序列的高精度预测；

具体预测过程为：

给定历史时间步长为t的二维传感序列，输入X表示为：

X＝{z₁[i],z₂[i],…,z_t[i]}

则下一时间步长的预测值表示为：

Y＝{z_t+1[i]}

步骤二、利用特征提取模块和回归模块，搭建浅层学生网络LSTM或学生网络一维CNN，对传感层获取的二维空时数据进行预测；

学生网络LSTM的搭建过程为：

如图4所示，首先，二维数据送入特征提取模块中提取特征，然后将提取的特征输入回归模块以预测下一个时间步长的数据；

LSTM是一种具有链式结构的时间循环网络，适合用于处理和预测具有间隔和延迟事件的时间序列；包括四个门控结构来实现对输入二维数据的时间特征进行记忆和提取，具体为：

给定输入x^(t)，经过LSTM的输出h^(t)为：

i^(t)＝σ(W⁽ⁱ⁾x^(t)+U⁽ⁱ⁾h^(t-1))

f^(t)＝σ(W^(f)x^(t)+U^(f)h^(t-1))

o^(t)＝σ(W^(o)x^(t)+U^(o)h^(t-1))

h^(t)＝o^(t)*tanh(c^(t))

其中，σ为激活函数，W表示输入向量所乘的权重参数，U表示状态向量所乘的权重参数，h^(t-1)表示第t-1层的信息传播层；i^(t)为LSTM的输入门，f^(t)为LSTM的忘记门，o^(t)为LSTM的输出门，c^(t)为记忆门。

LSTM通过门结构更新细胞状态，在传播层删除或添加信息，获得长期记忆的能力。输入门将新的信息选择性的记录到细胞状态中，忘记门将细胞状态中的信息选择性的遗忘，记忆门把前面的信息保存到隐藏层中，输出门输出细胞状态，通过四个门的交互作用，流入LSTM特征提取模块的二维数据实现在对关键信息的记忆和提取。

学生网络一维CNN(1DCNN)是具有一维池化层的单层CNN网络，有效提取序列特征并实现时间序列预测，如图5所示，同样适应于时间序列的预测且更易于部署在边缘设备中。将卷积核作为滑动窗口，通过在输入的二维数据上滑动窗口产生新的输出；通过卷积核共享参数有效减少模型的复杂度。具体为：

通过对单维特征进行卷积，1DCNN可以有效提取具有顺序特征的序列信息，实现时间序列的预测。

步骤三、利用GAN判别器将教师网络和学生网络输出的预测结果进行特征变换，使学生网络学习拟合教师网络的特征捕捉能力；

如图6所示，GAN框架中包括生成器(Generator)和判别器(Discriminator)，通过互相博弈学习，产生高精度的输出。生成器捕捉标签的数据分布，生成新的输出，判别器估计样本来自标签的概率。本发明提出的GAN框架将教师网络的输出作为真实标签，学生网络作为生成器，再利用判别器来辨别教师网络输出的训练样本和学生网络输出的训练样本。通过反向传播，使学生网络的输出不断拟合教师网络的输出。

为实现将复杂教师网络的预测能力迁移到浅层学生网络中，利用GAN网络的判别器将教师网络和学生网络二者的输出进行拟合，将教师网络和学生网络二者输出的差作为损失。当GAN判别器判别学生网络与教师网络输出的差距较大时，反向传播改变学生网络的参数，当GAN判别器判别学生网络与教师网络输出的差距较小时，不改变学生网络的参数，通过反向传播使学生网络学习教师网络的特征捕捉能力，即通过学习教师网络的特征捕捉能力，实现预测精度的提高。

具体为：

GAN判别器一般由多个复合函数嵌套，最常见的嵌套为一层卷积，一层激活函数，再一层卷积，再一层激活函数，层层包裹。由于通常选取的激活函数都是满足Lipschitzcontinuity，只要保证卷积部分满足Lipschitz continuity，即可使GAN判别器函数满足Lipschitz continuity。给定输入x^(t)，经过卷积的输出h_W,b(x)为：

其中，W^L表示多层卷积的权重参数，b为偏置；不失一般性，为方便计算，省略每层中的偏置项。因此，只需要约束各层卷积核的参数W。则由多层卷积构成的简单判别器为：

其中，θ＝{W¹,…W^L-1,W^L}表示卷积核参数的集合，σ表示各层的非线性激活函数。约束各层卷积核的参数W，即让卷积核参数矩阵满足Lipschitz continuity，所有元素同时除以其最大奇异值。关于权重矩阵W的最大奇异值计算，本实施例采用power iteration的方式求解单位主特征向量，求出最大特征值λ，则最大奇异值即为最大特征值开方

设

为权重矩阵中随机初始化的向量，则利用以下更新规则生成第一个左奇异向量和第一个右奇异向量为：

则利用左、右奇异向量求解近似W的谱范数为

即通过不断跟新

和

得到对权重矩阵W的spectral norm公式，实现对判别器函数的约束，使神经网络的优化过程中参数变化更加稳定。

假设教师网络预测的连续输出为Y_tea，学生网络预测的连续输出为Y_stu，两个网络的预测都为包括时间步长和传感器节点个数的二维矩阵，则Y_tea和Y_stu经过GAN判别器的卷积运算后输出的转换特征logits为：

Y′_tea＝max(0,SN(Conv2D(Y_tea)))+Leak×min(0,SN(Conv2D(Y_tea)))

Y′_stu＝max(0,SN(Conv2D(Y_stu)))+Leak×min(0,SN(Conv2D(Y_stu)))

其中，SN表示谱归一化操作；Leak表示LeakyRelu激活函数的常数，用于保留负轴的信息；Conv2D表示二维卷积函数。

最后，GAN判别器分别输出教师网络和学生网络的特征logits，经过损失函数实现教师网络和学生网络的拟合；通过GAN判别器，学生网络获得了教师网络捕捉特征的能力。

GAN判别器的损失函数L_GAN设计如下：

L_GAN＝Loss(Y′_tea,Y′_stu)

判断Y′_tea和Y′_stu的差距是否超过设定的阈值，如果是，说明学生网络的参数与教师网络的参数差别大，反向传播改变学生网络的参数；否则，保持学生网络的参数不变，继续学习教师网络的参数，反向传播使学生网络学习教师网络的特征捕捉能力，实现教师网络的预测能力到学生网络中的迁移。

根据损失函数，通过梯度下降改变学生网络的参数。

剔除离群值，能减少实际值中包含的异常值对小型学生网络训练的干扰，使小型学生网络可以得到更准确的预测模型。

在实际数据采集的过程中，由于电流等问题出现异常的突变值，不利于预测网络对数据的预测，因此利用教师网络对离群值进行排除，可以更好的辅助学生网络的预测。

阈值是教师网络输出的预测值与真实数据值的最大距离；

学生的损失函数L_TOE为：

f＝δ(Y_stu-t)

需要注意的是，直接使用教师网络进行离群值剔除时无法有效提升预测精度，这是因为学生网络未经过GAN判别器学习教师特征层时，两者的输出差异较大。学生网络在没有掌握教师网络学习规律时，剔除离群值会使学生网络过度减少梯度，造成预测效果较差。因此，本发明考虑两个输出的多任务网络：一个输出为在GAN判别器里用学生网络的特征层拟合教师网络的特征层；另一个输出为在经过教师网络离群值剔除后拟合真实标签。通过考虑多任务网络，可以减少最终输出的统计波动，使学生模型可以很好地特征提取及数据预测。

步骤六、将GAN判别器的损失函数L_GAN与跟教师网络实现拟合的学生网络的损失函数L_TOE加权相加，得到最终的损失函数L，利用损失函数L将新学生网络的输出与剔除离群值的真实数据做梯度下降，获得最终的基于知识蒸馏的空时预测结果。

损失函数L的计算公式为：

L＝(1-c_TOE)L_GAN+c_TOEL_TOE

其中，c_TOE为损失系数；通过损失系数，权衡两个损失函数的贡献值，得到最终的输出结果。通过多任务知识蒸馏策略，使浅层学生网络可以有效减少异常的误差，提高模型预测的精度。

损失函数L是两个损失函数的叠加，既实现了GAN的判别，也对剔除了离群值的真实数据进行学习。知识蒸馏通过修改损失函数来实现，因为教师网络学习了空时特征，而知识蒸馏把教师网络的学习能力通过损失函数的设计迁移给了学生网络，所以学生网络最终的输出也实现了空时预测。

本发明通过损失函数的设计，基于LSTM和1DCNN的两个浅层学生网络，首先通过GAN判别器迁移得到教师网络的特征捕捉能力，然后与经过教师网络排除离群值的真实二维数据进行拟合，改善了初始结构对于特征捕捉能力的不足，提高了预测精度。相较于教师网络，学生网络的设计结构简单，模型参数量少。在实际预测二维数据时，教师网络作为已经搭建好的模型，在较长的周期内更新(如月年)，其训练时间长，不满足实时预测的需求。在较短的周期内(分小时天)，只利用训练好的教师网络来辅助训练学生网络进行训练和更新，即短周期内将教师网络的学习能力迁移到学生网络中，提升学生网络的预测精度。

为了有效压缩教师网络，本发明创新性的将GAN判别法和离群值剔除法进行改进和有机结合，使学生网络可以有效学习教师网络的预测规律，同时避免教师网络引入的误差，提高不同结构学生网络的预测精度，提升学生网络的学习能力。

在具体的判别器设计中，直接拟合教师网络和学生网络输出的连续预测值，将会把教师网络的训练误差引入学生网络的学习中，使学生网络在拟合真实值时受到教师预测值中未知误差分布的干扰。因此，本发明先将教师网络和学生网络输出的连续预测值分别通过卷积变换得到特征logits，再利用判别器不断拟合教师网络和学生网络的特征logits，如图6所示。对于学生网络来说，学习教师网络变换的特征logits而非直接预测的连续值是非常有价值的，因为教师网络的特征logits包含丰富信息，可以指导学生网络学习由于模型深度限制而无法获取的特征信息。利用连续的卷积作为判别器。教师网络和学生网络输出连续的预测值，通过判别器的卷积层后被转化为特征向量。而当判别器不断训练，教师网络的输出和学生网络的输出会产生重叠，导致梯度消失。

为了使训练判别器的过程更容易收敛，本发明利用谱归一化限制函数变化的剧烈程度(梯度)，使判别器函数满足Lipschitz continuity，从而使模型更稳定。通过判别器的学生网络可以从教师网络中有效学习特征信息，但学生网络模型较浅，易受到真实数据中异常值的干扰。因此，本发明进一步提出结合离群值剔除的方法，提高学生网络的预测精度；根据教师网络输出的预测值与真实值的最大距离确定离群值。如果预测矩阵与真实矩阵中对应位置值的距离大于离群阈值，则判为离群值，减少学生网络预测值与真实值之间的差，以此来减小梯度；如果预测矩阵与真实矩阵中对应位置值的距离小于离群阈值，则判为正常值，不改变梯度。

实施例：

选择不同日期的传感器阵列感测数据集进行仿真验证。数据集记录传感器获取的时间序列和气室内CO浓度、湿度和温度的测量值，每5秒记录一次数据，并在12个工作日内重复。其中，基于深层空时卷积的教师网络在第一个工作日数据集使用28800个样本进行训练，浅层学生网络和其余对比算法在第2个到第12个工日使用1600个样本进行训练。

为避免给梯度更新带来数值的问题，加快寻找最优解，需要对数据进行规范化处理，将不同类型的数据按比例放大到相同的范围[0，1]。对数据集进行规范化处理后，将训练集、测试集和验证集分别划分为80％、10％和10％。本实施例使用平均绝对误差(MeanAbsolute Error，MAE)和均方根误差(Root Mean Squared Error，RMSE)两个评价指标来评估模型性能：

1)平均绝对误差(Mean Absolute Error，MAE)：MAE用于评估预测结果和真实数据集的接近程度，可以很好的反映预测值误差的实际情况，其值越小说明拟合效果越好。

MAE表示为：

其中，y_ij和

代表第i个节点在时间j处的真实值和预测值，M表示节点个数，N表示时间长度。

2)均方根误差(Root Mean Squared Error，RMSE)：RMSE用于计算拟合数据和原始数据对应样本点的误差。

RMSE表示为：

在模型设置中，本实施例的时间步长设置为7，epochs设置为5，batch_size设置为16，批量梯度下降算法的学习率设置为0.001，L2正则化惩罚为10-4，c_GAN和c_TOE分别设置为1。

离群值根据教师网络的预测值和真实数据标签中差距最大的值ζ以步长0.1依次递减进行筛选，即从集合Ω＝{ζ-0.1,ζ-0.2,ζ-0.3,...,0}中选择。当从集合中初步选定离群阈值后，再以步长0.01进行微调。距离教师网络训练的数据集日期越近，离群值越小，需要教师网络进行更精细的调整。而日期较远的数据集，离群值需要设置的大一些，因为数据集间的相关性较弱，过于精细的调整会使梯度过度减小，使学生网络无法学习正确的序列规律。

如图7所示，显示了两种学生网络在知识蒸馏前后的预测效果。可以看出，本发明提出的基于空时预测的知识蒸馏策略可以将教师网络的知识迁移给不同结构的学生网络。子图(a)，(b)分别显示了基于LSTM，1DCNN的两种学生网络在蒸馏后的预测曲线，都比蒸馏前更拟合实际传感器监测数据。其中，基于LSTM的门机制可以控制网络中的信息传递，让LSTM可以记住较为长期的信息，从而解决梯度消失的问题。因此，KD-LSTM学生网络在蒸馏前更贴合真实数据标签。

1DCNN通过权值共享的网络结构显著降低了模型的复杂度，减少了权值的数量，但由于模型简单，在知识蒸馏前的预测效果略差于KD-LSTM。经过知识蒸馏后，KD-1DCNN利用教师网络传递的知识提高了预测的精确度，可以更好的拟合实际监测数据。因此，本发明提出的知识蒸馏策略可以将教师网络迁移到相同结构的1DCNN学生网络，也可以迁移到不同结构的LSTM学生网络，具有很好的适用性。

本发明的学生网络在经过教师网络进行指导后对多个传感器节点的误差有明显改善。为评估不同节点预测精度的提升，图8显示了不同日期下各个节点在知识蒸馏前后MAE的对比。可以看出，未进行知识蒸馏的学生网络会在节点6-14中出现预测误差较大的情况，这是由于迁移数据集的数据量过小，而浅层学生网络的过拟合机制较差。而蒸馏后的学生网络可以一定程度上修正MAE较大的情况，通过离群值剔除，将极差的MAE值减小到正常水平。因此，本发明提出的蒸馏策略可以通过改善极差的预测节点，有效减小节点的整体预测误差。

此外，将知识蒸馏指导下的KD_STU_NET以及经过权重迁移的Transfer_STU_NET与当前主要的五种空时预测算法进行对比：

1)ConvLSTM：该模型将完全连接的LSTM重构为卷积结构以此捕获时空相关性。

2)CNN-LSTM：与上述通过添加卷积扩展LSTM内部结构的ConvLSTM不同，此框架相继使用CNN和LSTM，即构造CNN与LSTM的联合算法来捕捉空时相关性。

3)ResLSTM：该算法通过结合残差网络和LSTM有效地学习时间序列。

4)T-GCN：该算法结合了GCN和GRU，可以在不同的预测条件下实现对空间和时间数据的良好预测。

5)TCN-GCN：该算法不仅捕捉时间相关性，而且充分挖掘传感器的拓扑信息，为本发明的深层教师网络，基于时间卷积和动态GCN进行空时特征提取。

表ⅢKD_STU_NET与现有空时预测算法的RMSE对比

可以看出，原始的学生网络预测误差较大，但经过知识蒸馏的KD_STU_NET有效提高了预测精度，并与现有算法相比预测精度损失较小。其中，TCN-GCN利用TCN模块可以灵活地捕获长期和短期特征，且GCN模块可以有效提取节点间的空间关系来提升节点预测的精度。因此，基于TCN-GCN的预测性能最好，本发明设计用于作为教师网络。

同时，与现有的空时算法相比，KD_STnet预测的RMSE也大幅改善。Transfer-LSTM的预测性能优于现有的convLSTM和T-GCN算法，RMSE分别降低了3.9％和5.86％。因此，在知识蒸馏有效提高学生网络预测性能的基础上，权重迁移策略将权重加载后重新训练可以有效减少预测的复杂度，使得学生网络实现了与现有算法相当的预测性能。

表Ⅳ预测性能和成本比较

为评估本发明提出KD_STnet预测框架的预测性能和成本，表Ⅳ对比了教师网络和学生网络的MAE、模型参数量以及浮点运算次数(Floating Point Operations,FTOPs)。可以看出，相比于TCN-GCN教师网络，KD-LSTM学生网络的预测损失虽然增加了3.0299，但参数量减小了2.08倍，FTOPs减小了22.19倍。KD-1DCNN学生网络的预测误差虽然增加了5.5019，但参数量减小了6.04倍，FTOPs减小了197.09倍。

因此，提出KD_STnet预测框架虽然牺牲了较少的精度，但极大的节约了成本，减少了模型参数量，减少了模型的运算次数，提高了模型的训练和预测速度。且当学生网络越简单时，预测的精度损失的越多，但模型运算的速度越快。

本发明提出的基于知识蒸馏的KD_STnet预测框架，用于预测工业边缘设备上的传感层监测数据；KD_STnet预测框架兼顾节约设备资源和应用性能的需求，结合基于知识蒸馏的GAN判别和离群值剔除两个关键设计模块，并结合权重迁移策略以提高部署在边缘设备上的简单学生网络的预测性能。本发明在多传感器监测的数据集上分别评估了基于知识蒸馏指导下的KD_STU_NET和基于权重迁移策略的Transfer_STU_NET。实验结果表明，KD_STnet预测框架可以显着减少计算内存资源消耗和预测延迟，而准确性下降较小。此外，KD_STnet预测框架分别设计了基于LSTM和1DCNN的不同结构的学生网络，以灵活地适应不同的应用程序和指定的性能目标。随着越来越多的物联网设备用于工业生产，KD_STnet预测框架将在许多需要实时预测的工业应用中发挥重要作用。

Claims

1.工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，具体步骤如下：

首先，利用膨胀时间卷积网络DTCN和动态更新的图卷积网络DGCN交替结合，形成教师网络TCN-GCN模型，对传感器实时采集的二维数据进行空时预测；

同时，利用特征提取模块和回归模块，搭建浅层学生网络LSTM或学生网络一维CNN，对传感器获取的二维空时数据进行预测；

然后，利用GAN判别器将教师网络TCN-GCN模型和学生网络输出的预测结果，分别进行特征变换，使学生网络学习拟合教师网络的特征捕捉能力，计算GAN判别器的损失函数L_GAN；

接着，教师网络对传感器采集的真实数据进行离群值剔除；

最后，将GAN判别器的损失函数L_GAN与跟教师网络拟合后的新学生网络的损失函数L_TOE加权相加，得到最终的损失函数L，实现知识蒸馏，并利用损失函数L将新学生网络的输出与剔除离群值的真实数据做梯度下降，获得最终的空时预测结果。

2.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的教师网络TCN-GCN模型进行空时预测的具体过程为：

具体为：

首先，给定输入的二维数据x_in，则经过DTCN的输出x_out为：

x_out＝tanh(f₁(x_in))×sigmoid(f₂(x_in))

其中，f₁表示滤波卷起函数，f₂表示门控卷积函数，sigmoid(·)表示S型激活函数，tanh(·)表示正切双曲激活函数；

然后，将DTCN捕捉的特征送入DGCN模块，其信息传递层为：

表示经过跳跃连接的传播层；β为控制保留根节点原始状态比率的超参数；H^(l)是随着图卷积的深度增加节点状态不断更新的传播层，H^(l-1)表示保留的之前节点状态的传播层；H_out为跳跃层叠加后的输出层；

步骤104、将更新得到的图邻接矩阵与提取出的空间特征向量进行卷积运算，实现移动节点空间特征的不断更新；

具体预测过程为：

在时间步长t处输入的二维数据X表示为：

X＝{z₁[i],z₂[i],…,z_t[i]}

则下一时间步长的预测值表示为：

Y＝{z_t+1[i]}

3.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的学生网络LSTM的搭建过程为：

具体为：给定输入x^(t)，经过LSTM的输出h^(t)为：

i^(t)＝σ(W⁽ⁱ⁾x^(t)+U⁽ⁱ⁾h^(t-1))

f^(t)＝σ(W^(f)x^(t)+U^(f)h^(t-1))

o^(t)＝σ(W^(o)x^(t)+U^(o)h^(t-1))

h^(t)＝o^(t)*tanh(c^(t))

其中，σ为激活函数，W表示输入向量所乘的权重参数，U表示状态向量所乘的权重参数，h^(t-1)表示第t-1层的信息传播层。i^(t)为LSTM的输入门，f^(t)为LSTM的忘记门，o^(t)为LSTM的输出门，c^(t)为记忆门；

4.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的学生网络一维CNN是具有一维池化层的单层CNN网络，将卷积核作为滑动窗口，通过在输入的二维数据上滑动窗口产生新的输出；

具体为：

其中，j表示从m到s的索引范围，m为一维卷积的滤波器尺寸，s表示输入序列的长度，其中s≥m；

5.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的学生网络学习拟合教师网络的特征捕捉能力的具体过程为：

其中，W^L表示多层卷积的权重参数，b为偏置；

Y′_tea＝max(0,SN(Conv2D(Y_tea)))+Leak×min(0,SN(Conv2D(Y_tea)))

Y′_stu＝max(0,SN(Conv2D(Y_stu)))+Leak×min(0,SN(Conv2D(Y_stu)))

其中，SN表示谱归一化操作；Leak表示LeakyRelu激活函数的常数；Conv2D表示二维卷积函数；

最后，GAN判别器分别输出教师网络和学生网络的特征logits，经过损失函数实现教师网络和学生网络的拟合；

GAN判别器的损失函数L_GAN设计如下：

L_GAN＝Loss(Y′_tea,Y′_stu)

根据损失函数，通过梯度下降改变学生网络的参数。

6.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的离群值是指：教师网络输出的预测值形成的预测矩阵与真实数据值形成的真实矩阵中对应位置值的距离大于离群阈值，则该位置的真实值为离群值；

阈值是教师网络输出的预测值与真实数据值的最大距离。

7.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的与教师网络拟合后的新学生网络的损失函数L_TOE为：

f＝δ(Y_stu-t)

8.如权利要求1所述的工业物联网边缘设备中基于知识蒸馏的空时预测方法，其特征在于，所述的最终的损失函数L的计算公式为：

L＝(1-c_TOE)L_GAN+c_TOEL_TOE