CN114462509A

CN114462509A - 一种分布式物联网设备异常检测方法

Info

Publication number: CN114462509A
Application number: CN202210032549.3A
Authority: CN
Inventors: 唐伦; 张月; 王恺; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-10

Abstract

本发明涉及一种分布式物联网设备异常检测方法，属于物联网领域。该方法是先学习异常数据潜在特征分布，并进行特征校正与特征判别，获取高质量的重构数据，均衡正常数据与异常数据比例，并通过所述均衡后的数据指导异常检测网络的训练，输出判别门限，对异常数据进行识别。然后采用基于动态模型选择的联邦学习算法，计算每一个模型的置信度，动态选择本地模型上传至中央服务器进行模型聚合。本发明能够实现物联网场景下高维且不均衡数据的高精度异常检测，保障模型的泛化能力。

Description

一种分布式物联网设备异常检测方法

技术领域

本发明属于物联网领域，涉及一种分布式物联网设备异常检测方法。

背景技术

物联网是指通过信息传感设备，按照约定的协议，将任何物体与网络相连，通过信息传播媒介进行信息交互和通信。物联网的目的是实现不受地点、时间限制，长期快速的连接，如智慧家居、智慧城市、智慧交通等应用环境中的移动设备。5G时代的到来为物联网的发展提供了众多技术支持，5G标准的制定能够很好地满足物联网的需求，网速、容量、安全性等，推动了无人驾驶技术的发展，助力工业物联网的发展，加速物联网虚拟现实领域的发展。

物联网不断发展，大量设备以及用户导致移动数据剧增的需求，提出高容量、超低延迟、向最终用户提供更好的服务质量与用户体验等要求。催生了诸如波束成形，大规模MIMO和密集微小区等复杂的技术，但是，这些技术增加了系统架构的复杂性，使得网络异常检测过于复杂化，尤其是处理大网络中的间歇性硬件故障以及配置错误，给异常检测带来了以下挑战：1)海量的未标记数据战；2)数据不均衡；3)高维数据相互异构。

现有的设备异常检测方法将原始数据视为正常数据，忽视异常的随机性，无法评估异常数据对模型训练的影响程度，同时无法满足模型对于异构设备检测的差异化。传统异常检测对不均衡数据检测率低、模型泛化能力差等问题，因此，亟需一种新的物联网设备异常检测方法。

发明内容

有鉴于此，本发明的目的在于提供一种分布式物联网设备异常检测方法，通过建立新的检测网络，实现物联网设备的异常检测，提高模型对于异常设备数据的鲁棒性和特征提取器的提取精度。

为达到上述目的，本发明提供如下技术方案：

一种分布式物联网设备异常检测方法，具体包括以下步骤：

S1：获取物联网设备高维时间序列数据，并对其进行预处理；将预处理后的异常数据作为训练集；

S2：对训练集进行异常数据进行特征提取，特征校正和异常特征判别，获取高质量重构异常数据；

S3：将数据扩充后的训练集与原始数据等量混合，作为验证集，指导异常检测网络的训练；计算原始数据的潜在特征分布与重构数据的潜在特征分布的相对熵，判定重构数据与原始数据偏差程度，偏离程度高的记为异常；

S4：采用基于动态模型选择的联邦学习算法，使用验证集初始化全局模型，将模型下发至每个参与者，收到模型后，参与者根据自己本地收集到的时间序列数据开始模型训练，有选择的选择模型上传至中央服务器进行模型聚合。

进一步，步骤S1中，物联网设备高维时间序列的历史数据包括时间信息、设备类型、设备参数、设备位置的多维度、多场景识别所用的特征数据。对高维时间序列数据进行预处理，具体包括以下步骤：

S11：数据归一化处理：采用标准化公式对数据进行归一化处理；

S12：对原始数据使用Kmeans聚类算法和PCA降维处理进行降维聚类；

S13：两次滑窗处理：第一次滑窗增加了维度之间相关性，第二次滑窗增加了时间相关性。

进一步，步骤S3中，所述异常检测网络是采用改进的自编码网络，在潜在特征层引入对抗机制，即在潜在特征层中添加一个鉴别器，并添加一致性增强约束和收缩约束，确保网络对异常数据产生合理一致的潜在表示并将所有输入数据都映射到类似的位置，提高特征提取器的提取精度。

进一步，步骤S3中，改进的自编码网络的编解码器部分由两个功能网络组成，学习数据的潜在特征分布，采样噪声增加了生成样的多样性。

进一步，步骤S3中，对异常检测网络进行训练，具体包括以下步骤：

S31：在改进的自编码网络后添加一层编码器，用于提取重构数据的潜在特征分布；

S32：将验证集通过重构数据和编码层，计算出输入数据的潜在特征分布；

S33：重构数据通过新增解码层，计算出输入数据的潜在特征分布；

S34：计算两种特征分布的相对熵来判定重构数据与原始数据偏差程度，记为异常得分，根据检测阈值判定数据是否异常。

进一步，步骤S4具体包括以下步骤：

S41：将异常检测模型作为全局模型，其参数以块的形式向整个网络广播，终端设备基于本地数据训练本地模型；其中，每个局部异常检测模型包括本地模型和异常检测网络；

S42：计算每个局部异常检测模型的平均检测误差，并根据平均检测误差对本地模型评分，计算每个模型的置信度；如果本地模型的检测误差高于全局模型的检测误差，则将该模型的评分值置0，否则按置信度压缩梯度上传模型；

S43：服务器端对每个局部异常检测模型进行聚合，并用于下一轮迭代，直至模型收敛，完成训练，返回全局最优模型。

本发明的有益效果在于：

(1)本发明采用的是基于对抗双编码网络的异常检测框架，解决了数据缺少标签以及数据不均衡异常检测网络的检测准确度无法得到保证的难题，提高模型对于异常设备数据的鲁棒性。本发明更有效地突出异常，抑制正样本对后期模型训练的影响，提高前期对数据的生成训练，提高特征提取器的提取精度。

(2)本发明还提出了一种基于模型选择的联邦学习方法，该方法可以动态的选择模型上传，抑制不满意的模型，提高了模型泛化能力，优化了模型的聚合速度，并且在一定程度上压缩了上传到服务器的内容，减少了通信时间和能耗。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为原始数据预处理过程流程图；

图2为对抗双编码器网络整体架构图；

图3为异常数据生成器的结构示意图；

图4为异常数据判别器的结构示意图；

图5为本发明异常检测整体流程示意图；

图6为基于用户模型选择的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图6，图5为本发明提出的分布式物联网设备异常检测方法，主要包括以下内容：

1)利用对抗双编码器网络，主动学习数据的潜在特征分布，采样得到潜在特征，对其进行数据重构，扩充异常数据。均衡正负样本比例提高模型对异常数据检测的鲁棒性。

2)在潜在特征层引入了对抗机制，潜在特征层中添加一个鉴别器，并添加一致性增强约束和收缩约束，确保网络对异常数据产生合理一致的潜在表示并将所有输入数据都映射到类似的位置，提高特征提取器的提取精度。

3)对每个本地模型计算对应的置信度评分，动态选择部分模型参与，加速模型的聚合，且模型参数无需加载大量原始数据的传输，节省中央控制器与本地网关之间的通信宽带，在一定程度上也保护了用户隐私。

该异常检测方法具体包括以下步骤：

S1：获取物联网设备高维时间序列的原始数据，对原始数据进行预处理。将预处理后的所述历史异常数据作为训练集。

原始数据处理步骤包括：

S12：对原始数据使用Kmeans+PCA进行降维聚类；

S2：对训练集进行异常数据进行特征提取，特征校正与特征判别，以此扩充异常数据。

此步骤中，改进自编码网络，其中编码器部分由两个功能网络组成，学习异常数据的潜在特征分布，采样噪声增加了生成样的多样性。

然后，在潜在特征层引入对抗性训练，确保网络能够对异常数据产生合理一致的潜在表示并将所有输入数据都映射到类似的位置，并添加潜在特征空间的收缩约束，惩罚与潜在特征空间中多数样本分布偏差较大的样本点。

S3：将数据扩充后的训练集与原始数据等量混合后，作为验证集，采用基于局部检测阈值的异常检测算法，分别计算原始数据通过编码器以及重构数据通过解码器后的分布，计算所述两种分布的相对熵来判定重构数据与原始数据偏差程度，记为异常得分，以此来确定异常检测阈值。

S4：采用基于模型选择的联邦学习方法，验证集来初始化全局模型，将模型下发至每个参与者，收到模型后，参与者根据自己本地收集到的时序数据开始模型训练，有选择的选择模型上传至中央服务器进行模型聚合。

实施例1：

本实施例先对异常数据进行数据增强，均衡正负样本数据，再进行异常检测。

其中，对数据进行预处理，其流程图如图1所示：

本本实施例采用对抗双编码网络，该模型整体架构包括三个功能，分别为数据生成、特征校正与异常特征判别，其整体网络架构图如图2所示。

接下来将逐一进行介绍：

1)数据生成：

为了解决传统自编码器产生样本单一性这一问题，本发明对传统自编码网络的编码器进行了改进，编码器由两个功能网络组成，主动学习数据潜在特征分别。通过采样生成潜在特征，采样噪声增加了生成样的多样性。其整体网络架构图如图3所示。

2)特征校正：

数据预处理时可能存在将正样本被误判为异常数据的情况，因此，在潜在特征层进行对抗性训练，确保网络能够对异常数据产生合理一致的潜在表示并将所有输入数据都映射到类似的位置，最小化正常样本以及采样噪声对异常数据重构造成的影响。并添加特征收缩约束，惩罚与潜在特征空间中大多数样本的分布偏差较大的样本点。

3)异常特征判别：

将所述均衡后的数据输入异常检测模型中，指导模型进行训练。通过计算原始数据与重构数据的潜在特征分布的相对熵，来表示原始数据与重构数据的偏离程度，输出较为合理的判决门限，通过比较交叉熵与判决门限的值，来判定数据是否异常。其整体网络架构图如图4所示。

本发明采用的对抗双编码网络在一定程度上能解决由于数据量大、数据不均衡而产生的异常检测难题，加速检测并提高了检测精度。但是机器学习进行故障检测的大前提是所处理的数据是独立同分布的，然而实际数据在不同采用频率下，其分布是不一致的，这就导致了当数据不在同一特征空间或数据不满足独立同分布时，机器学习会根据新的数据集进行模型重建，或者是导致模型在不同数据集上检测效果呈现差异化。其次，数据隐私已经成为许多用户日益关注的问题。联邦学习解决了这个问题，它允许多个参与者根据他们的组合数据联合训练一个深度学习模型，而无需任何参与者向集中式服务器显示他们的数据。然而，这种保护隐私的协作学习是以培训期间大量沟通开销为代价的。并且一旦客户端的数量超过一定的阈值，可能无法直接通信权重更新，因为通信和聚合更新的工作量都随着客户端的数量线性增长。因此，本发明对传统联邦学习进行了改进：

1)压缩上传到服务器的内容，以减少通信时间和能耗。

2)部分参与，动态抑制不满意的模型，提高模型泛化能力，优化模型的聚合速度。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种分布式物联网设备异常检测方法，其特征在于，该方法具体包括以下步骤：

S2：对训练集进行异常数据进行特征提取，特征校正和异常特征判别，获取重构异常数据；

S3：将数据扩充后的训练集与原始数据等量混合，作为验证集，指导异常检测网络的训练；计算原始数据的潜在特征分布与重构数据的潜在特征分布的相对熵，判定重构数据与原始数据偏差程度。

2.根据权利要求1所述的分布式物联网设备异常检测方法，其特征在于，步骤S1中，对高维时间序列数据进行预处理，具体包括以下步骤：

S13：两次滑窗处理。

3.根据权利要求1所述的分布式物联网设备异常检测方法，其特征在于，步骤S3中，所述异常检测网络是采用改进的自编码网络，在潜在特征层引入对抗机制，即在潜在特征层中添加一个鉴别器，并添加一致性增强约束和收缩约束，确保网络对异常数据产生合理一致的潜在表示并将所有输入数据都映射到类似的位置。

4.根据权利要求3所述的分布式物联网设备异常检测方法，其特征在于，步骤S3中，改进的自编码网络的编解码器部分由两个功能网络组成，用于计算数据的潜在特征分布。

5.根据权利要求1或3所述的分布式物联网设备异常检测方法，其特征在于，步骤S3中，对异常检测网络进行训练，具体包括以下步骤：

6.根据权利要求1所述的分布式物联网设备异常检测方法，其特征在于，该方法还包括步骤S4：采用基于动态模型选择的联邦学习算法，使用验证集初始化全局模型，将模型下发至每个参与者，收到模型后，参与者根据自己本地收集到的时间序列数据开始模型训练，有选择的选择模型上传至中央服务器进行模型聚合。

7.根据权利要求6所述的分布式物联网设备异常检测方法，其特征在于，步骤S4具体包括以下步骤：