CN117118689B

CN117118689B - 一种不平衡数据物联网入侵检测方法及装置

Info

Publication number: CN117118689B
Application number: CN202311025195.0A
Authority: CN
Inventors: 董立国; 韩唯翔; 莫慧芳
Original assignee: Guangzhou Vocational College of Technology and Business
Current assignee: Guangzhou Vocational College of Technology and Business
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2024-05-17
Anticipated expiration: 2043-08-14
Also published as: CN117118689A

Abstract

本发明公开了一种不平衡数据物联网入侵检测方法及装置，包括：迭代将训练好的元采样器和全局模型分发到选定的各个物联网设备中；所述元采样器是根据联邦元采样算法训练的；以使所述各个物联网设备根据所述元采样器对各自本地不平衡数据进行元采样，获取数据子集，并根据所述数据子集训练本地模型；获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，建立入侵检测模型。本发明通过在服务器中训练元采样器，通过元采样的方式，自适应地平衡物联网设备的本地数据集，避免数据重采样的简单性，阻碍客户端从各自的本地数据集中获得“特殊知识”，从而导致准确性下降，同时，优化采样策略，以解决类不平衡问题。

Description

一种不平衡数据物联网入侵检测方法及装置

技术领域

本发明涉及物联网入侵检测技术领域，尤其涉及一种不平衡数据物联网入侵检测方法及装置。

背景技术

物联网(IoT)是一项新兴技术，它通过互连智能设备来提高生产力和工作效率，从而极大地改变了我们的生活方式。然而，物联网设备之间错综复杂的通信和开放的网络环境极大地导致了恶意入侵的可能性。例如，未经授权访问或重新配置物联网医疗设备会对用户构成严重的安全威胁。同样，对交通信号灯和车辆物联网的黑客攻击可能会导致严重事故，造成人员伤亡。为了减轻物联网的安全威胁，入侵检测系统(IDS)被用作一种安全技术，通过监控网络流量和系统日志等各种数据来检测和识别网络中的潜在入侵。鉴于这些，有许多研究设计更高效的IDS来检测和预防物联网设备上的安全威胁。

现有的不平衡数据物联网入侵检测方法，需要共享客户端数据，容易导致数据泄露。此外，基于联邦学习的物联网入侵检测方法，由于数据重采样的简单性，会导致局部模型的过度拟合，从而这可能会阻碍客户端从各自的本地数据集中获得“特殊知识”，从而导致检测准确性下降。

发明内容

本发明提供了一种不平衡数据物联网入侵检测方法及装置，以解决现有不平衡数据的物联网入侵检测方法，数据重采样过于简单，导致检测准确性下降的技术问题。

为了解决上述技术问题，本发明实施例提供了一种不平衡数据物联网入侵检测方法，包括：

迭代将训练好的元采样器和全局模型分发到选定的各个物联网设备中；所述元采样器是根据联邦元采样算法训练的；

以使所述各个物联网设备根据所述元采样器对各自本地不平衡数据进行元采样，获取数据子集，并根据所述数据子集训练本地模型；

获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，建立入侵检测模型。

本发明通过在服务器中训练元采样器，通过元采样的方式，自适应地平衡物联网设备的本地数据集，避免数据重采样的简单性，阻碍客户端从各自的本地数据集中获得“特殊知识”，从而导致准确性下降，同时，优化采样策略，以解决类不平衡问题。此外，通过根据动态聚类排序算法对所有本地模型进行聚类，动态调整整个聚类过程，挑选出性能最佳的聚类模型，从而建立入侵检测模型，提高入侵检测模型的性能，提高入侵检测的准确性。

进一步的，根据联邦元采样算法训练元采样器，包括：

构建元采样器，并迭代根据服务器中的第一数据集和第一模型构建元状态；

在每一次迭代过程中，根据所述元采样器和元状态生成第一标量，并根据所述第一标量计算当前迭代的采样权重；

根据所述当前迭代的采样权重从所述第一数据集中抽取训练子集，根据所述训练子集训练更新所述第一模型，并进入下一次迭代；

直至达到预设条件，停止迭代，输出元采样器。

进一步的，在所述根据所述训练子集训练更新所述第一模型之后，还包括：

获取当前迭代的原始第一模型和更新后的第一模型之间的性能差异之和；

根据所述性能差异之和和第一强化学习算法优化更新所述元采样器的训练参数。

进一步的，所述根据服务器中的第一数据集和第一模型构建元状态，包括：

获取服务器的第一数据集，将所述第一数据集分为训练集和验证集；

根据所述训练集、验证集和第一算法获取第一模型的训练误差和验证误差；并构建元状态。

进一步的，在所述根据所述训练集、验证集和第一算法获取第一模型的训练误差和验证误差，还包括构建误差直方图分布，具体为：

1≤i≤b

其中，(x,y)表示第一数据集中的一个数据实例，为分类误差，为第一数据集，s为元状态/> 为训练误差的期望值，/>为验证误差的期望值。

进一步的，所述根据动态聚类排序算法对所有本地模型进行聚类，包括：

获取各个客户端对应的第一向量，所述第一向量包括不平衡率、训练精度和验证精度；

根据所述第一向量对各个客户端上传的本地模型进行聚类，确定各个客户端的集群模型。

进一步的，所述根据动态聚类排序算法对所有本地模型进行联合集群，还包括：

根据排名算法和评价函数对所有集群模型进行排序，并获取第一聚类模型集合，具体的：

其中，i_j表示聚类模型的数量，j表示选中模型的数量，P()是评价函数，K为超参数。

第二方面，本发明提供了一种不平衡数据物联网入侵检测装置，包括：元采样器训练模块、本地模型训练模块和聚类模块；

所述元采样器训练模块，用于迭代将训练好的元采样器和全局模型分发到选定的各个物联网设备中；所述元采样器是根据联邦元采样算法训练的；

所述本地模型训练模块，用于使所述各个物联网设备根据所述元采样器对各自本地不平衡数据进行元采样，获取数据子集，并根据所述数据子集训练本地模型；

所述聚类模块，用于获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，建立入侵检测模型。

第三方面，本发明提供了一种计算机设备，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行所述的不平衡数据物联网入侵检测方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现所述的不平衡数据物联网入侵检测方法。

附图说明

图1为本发明实施例提供的不平衡数据物联网入侵检测方法的一种流程示意图；

图2为本发明实施例提供的不平衡数据物联网入侵检测方法的一种元采样器训练管道示意图；

图3为本发明实施例提供的不平衡数据物联网入侵检测方法的一种动态聚类示意图；

图4为本发明实施例提供的一种不平衡数据物联网入侵检测装置的结构示意图；

图5为本发明实施例提供的不平衡数据物联网入侵检测方法的一种框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，图1为本发明实施例提供的不平衡数据物联网入侵检测方法的一种流程示意图，包括步骤101至步骤102，具体如下：

步骤101：迭代将训练好的元采样器和全局模型分发到选定的各个物联网设备中；所述元采样器是根据联邦元采样算法训练的；

在本实施例中，在模型训练阶段，在服务器进行通过联邦元采样算法进行元采样器训练。

请参照图2，图2为本发明实施例提供的不平衡数据物联网入侵检测方法的一种元采样器训练管道示意图。

在本实施例中，服务器中包括第一模型Fts、第一数据集Ds和元采样器Q。

在本实施例中，根据联邦元采样算法训练元采样器，包括：

直至达到预设条件，停止迭代，输出元采样器。

在本实施例中，服务器根据服务器中的数据进行元采样器的训练，而非采用客户端的本地数据，使得训练的元采样器独立于联邦学习中入侵检测模型的训练。

在本实施例中，所述根据服务器中的第一数据集和第一模型构建元状态，包括：

在本实施例中，服务器将第一数据集Ds分为训练集和验证集，并根据所述验证集和训练集获取第一模型Fts的训练误差和验证误差，并构建误差直方图分布。

在本实施例中，在所述根据所述训练集、验证集和第一算法获取第一模型的训练误差和验证误差，还包括构建误差直方图分布，具体为：

1≤i≤b

其中，(x,y)表示第一数据集中的一个数据实例，为分类误差，为第一数据集，s为元状态,/> 为训练误差的期望值，/>为验证误差的期望值。

在本实施例中，(x,y)表示第一数据集Ds中的一个数据实例；为分类误差，分类误差衡量为x为正的预测概率与真实标签y之间的绝对差值。

在本实施例中，用表示/>上的误差分布，向量bEDs近似表示为误差分布的直方图。b个ED的第i个分量表示为b/>直方图由b个bin构成。

在本实施例中，训练误差和验证误差的直方图分布用于构造转移。所述训练误差、训练集和元状态被用作元采样器训练的输入。

在本实施例中，在训练所述元采样器时，迭代将元状态s输入元采样器Q生成第一标量μ，并根据所述第一标量计算当前迭代的采样权重。

在本实施例中，可用高斯函数计算所述采样权重具体为：

其中，e代表欧拉数，σ是一个超参数，每个样本x的训练误差和标量μ用作高斯函数的输入，对所述高斯函数的输出进行归一化处理后，即可获取当前迭代的采样权重。

在本实施例中，根据当前迭代的采样权重从所述第一数据集Ds抽取训练子集，并根据所述训练子集训练第一模型Fts，更新所述第一模型Fts中的参数，生成下一次迭代的第一模型Fn+1s，进入下一次迭代。

在本实施例中，在所述根据所述训练子集训练更新所述第一模型之后，还包括：

在本实施例中，根据第一强化学习算法来优化元采样器Q的训练参数，并根据性能评估函数评估当前迭代的第一模型Fts和下一次迭代的第一模型Fn+1s的性能差异的性能差异之和，将奖励定义为当前迭代的第一模型Fts和下一次迭代的第一模型Fn+1s的性能差异之和，从而采集高质量的数据来训练高性能模型。

在本实施例中，为了使用第一强化学习算法优化元采样器Q，采用了Soft Actor-Critic(柔性致动/评价算法，SAC)，SAC由于最大熵而具有更快的训练速度，从而实现更均匀的探索，增强鲁棒性，并且在面对干扰时易于进行干扰调整。

步骤102：以使所述各个物联网设备根据所述元采样器对各自本地不平衡数据进行元采样，获取数据子集，并根据所述数据子集训练本地模型；

在本实施例中，所述元采样器训练好后，服务器将所述元采样器Q和全局模型分发到选定的物联网设备中，根据所述全局模型在所述物联网设备上进行本地模型训练。

在本实施例中，被选定的物联网设备使用从服务器接收到元采样器Q和全局模型，并根据所述元采样器对其本地不平衡数据进行元采样。

在本实施例中，根据元采样器Q来采集解决类不平衡问题的数据子集。通过对数据进行采样，以使物联网设备以更平衡的方式训练其本地入侵检测模型。

步骤103：获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，建立入侵检测模型。

在本实施例中，物联网设备在完成本地模型训练之后将其训练的本地模型和第一向量上传到服务器。所述服务器使用物联网设备上传的本地模型和第一向量进行联合集群。从而将相似的模型组合在一起，从而形成集群模型。

在本实施例中，通过第一向量共享物联网设备之间的模型和辅助信息，有助于集体聚类过程，使服务器能够识别和分组相似的模型。

在本实施例中，服务器获取各个物联网设备上传的第一向量和本地模型后，根据动态聚类排序算法对所有物联网设备上传的本地模型进行聚类。

在本实施例中，所述根据动态聚类排序算法对所有本地模型进行聚类，包括：

在本实施例中，通过构建一个包含三个元素的第一向量：客户端的不平衡率(IR)、训练精度和验证精度。由于每个客户端都有一个独特的不平衡率来表征其数据的类别分布，因此我们根据预设规则选择训练精度和验证精度，来捕获每个客户端的训练状态信息。从而构建的第一向量表示每个客户端的独特类分布和训练状态信息。

在本实施例中，根据所述第一向量对物联网设备上传的本地模型进行聚合后，获取个集群模型ωt，t(t＝1,2,...,T)。

在本实施例中，服务器获取集群模型，根据排名算法和评价函数对所有集群模型进行排序，以建立综合入侵检测模型。

在本实施例中，所述根据动态聚类排序算法对所有本地模型进行联合集群，还包括：

请参照图3，图3为本发明实施例提供的不平衡数据物联网入侵检测方法的一种动态聚类示意图。

在本实施例中，服务器从每个被选中的物联网设备接收第一向量来对物联网设备的本地模型进行聚类，并确定它们各自的集群。然后进行簇内聚合，得到每个簇的集群模型。随着物联网设备训练状态的变化，它们所属的集群也相应发生变化，从而动态调整整个聚类步骤。最后，通过排名算法和评价函数获得性能最佳的前K个集群模型组。

在本实施例中，通过联邦学习框架的迭代，物联网设备与FL服务器进行持续交互，更新其本地模型参数并通过多轮协作完善入侵检测模型。

请参照图4，图4为本发明实施例提供的一种不平衡数据物联网入侵检测装置的结构示意图，包括：元采样器训练模块401、本地模型训练模块402和聚类模块403；

所述元采样器训练模块401，用于迭代将训练好的元采样器和全局模型分发到选定的各个物联网设备中；所述元采样器是根据联邦元采样算法训练的；

所述本地模型训练模块402，用于使所述各个物联网设备根据所述元采样器对各自本地不平衡数据进行元采样，获取数据子集，并根据所述数据子集训练本地模型；

所述聚类模块403，用于获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，建立入侵检测模型。

本发明实施例提供还了一种计算机设备，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行所述的不平衡数据物联网入侵检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现所述的不平衡数据物联网入侵检测方法。

实施例二

请参照图5，图5为本发明实施例提供的不平衡数据物联网入侵检测方法的一种框架示意图。

在本实施例中，根据用于物联网入侵检测的CFMT框架，实现多个物联网设备与FL(Federated Learning，联邦学习)服务器之间的高效通信。

在本实施例中，所述用于物联网入侵检测的CFMT框架包括FL服务器和空闲IoT(Internet of Things，物联网)设备，其中，在所述入侵检测模型训练迭代过程中，在所述FL服务器进行元采样器训练、物联网设备选择和模型分发、联合集群和模型聚合操作，在所述物联网设备中进行元采样、本地模型训练和模型上传和联合集群操作。

在本实施例中，所述元采样器训练包括在联邦学习框架训练的初始阶段，FL服务器进行元采样器训练。

在本实施例中，根据CFMT的核心组件，联邦采样算法对所述元采样器进行训练。

在本实施例中，ptest表示平衡测试数据集的分布、pdata表示训练数据集的分布和li表示损失函数；假设pdata＝ptest，并且基于SGD(Stochastic Gradient Descent，随机梯度下降)的深度学习和联邦学习都使用相同的测试数据集和初始权重，则基于SGD的最优权重更新可以表示为：

(x⁽ⁱ⁾,y⁽ⁱ⁾)～p_test

其中w*是在测试数据集上达到最高准确度的权重，表示为联邦学习的最佳权重。因此，联邦学习的最优目标是：

若物联网设备k的训练数据的数据分布^p(k)数据可能不平衡，则FL服务器的模型权重更新为：

在本实施例中，联邦元采样方法与模型和数据无关，假设FL服务器中存在模型Fts、服务器数据集Ds和元采样器Q。FL服务器将数据集Ds分为训练集和验证集，获取所述训练集和验证集的误差的直方图分布，并构建元状态s。

在本实施例中，在训练所述元采样器时，迭代将所述元状态s输入元采样器Q，生成标量μ，并根据高斯函数获取各个元状态对应的采样权重。根据采样权重从服务器数据集中抽取训练子集，并根据训练子集用于训练模型Fts，更新模型Fts的参数，生成下一次迭代的模型Ft+1s。

在本实施例中，所述物联网设备选择和模型分发包括：在每次迭代更新中，FL服务器选择物联网设备参与联邦学习训练过程。并将全局模型与经过训练的元采样器一起分发到选定的设备。从而利用全局模型在物联网设备上进行本地模型训练。

在本实施例中，元采样包括：物联网设备接收从FL服务器发送到的元采样器，对其本地不平衡数据进行元采样。通过元采样器来创建解决类不平衡问题的数据子集。通过对数据进行采样，物联网设备可确保以更平衡的方式训练其本地入侵检测模型。

在本实施例中，所述本地模型训练包括：物联网设备利用元采样数据子集，训练各自的本地入侵检测模型。根据元采样所得的数据子集更新模型参数，并允许设备捕获特定于其本地数据集的模式和特征。

在本实施例中，所述模型上传和联合集群包括：在本地训练阶段之后，物联网设备将其训练的本地入侵检测模型和辅助向量上传到FL服务器；然后FL服务器将接收的物联网设备的本地入侵检测模型和辅助向量用于联合聚类。通过共享它们的模型和辅助信息，达到集体聚类的目的，使服务器能够识别和分组相似的模型。

在本实施例中，采用两种不同的数据分区方法：基于类不平衡程度的分区和非独立同分布(Non-IID)分区。对于类不平衡程度划分方法，通过为每个客户端保持相同的不平衡率(IR)来确保客户端之间的类分布相似。通过将数据集中的异常行为类别平均分配给客户端，同时保留每个客户端的正常行为数据。通过调整数据样本的数量，从而为每个客户端实现不同的IR值，从而在客户端之间保持一致的类分布。

本实施例中，非独立同分布分区方法是为了在故意引入客户端之间类分布的变化，以使在非独立同分布分区场景中类不平衡问题的挑战增加，并评估CFMT框架的有效性。

本实施例中，对于非独立同分布分区方法，在每个客户端保留正常行为数据，而异常行为数据使用狄利克雷分布在客户端之间分配，使得每个客户都表现出不同的类别分布。以此在非独立同分布划分框架内生成具有不同程度类别不平衡的实验数据。

在本实施例中，这两种数据分区方法使我们能够评估CFMT框架在不同条件下的性能，展示其有效处理类不平衡和非独立同分布数据挑战的能力。

在本实施例中，在整个迭代联邦学习过程中，IoT设备与FL服务器进行持续交互，更新其本地模型参数并通过多轮协作完善入侵检测模型。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种不平衡数据物联网入侵检测方法，其特征在于，包括：

获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，包括：获取各个客户端对应的第一向量，所述第一向量包括不平衡率、训练精度和验证精度；根据所述第一向量对各个客户端上传的本地模型进行聚类，确定各个客户端的集群模型，建立入侵检测模型。

2.如权利要求1所述的不平衡数据物联网入侵检测方法，其特征在于，根据联邦元采样算法训练元采样器，包括：

直至达到预设条件，停止迭代，输出元采样器。

3.如权利要求2所述的不平衡数据物联网入侵检测方法，其特征在于，在所述根据所述训练子集训练更新所述第一模型之后，还包括：

4.如权利要求2所述的不平衡数据物联网入侵检测方法，其特征在于，所述根据服务器中的第一数据集和第一模型构建元状态，包括：

5.如权利要求4所述的不平衡数据物联网入侵检测方法，其特征在于，在所述根据所述训练集、验证集和第一算法获取第一模型的训练误差和验证误差，还包括构建误差直方图分布，具体为：

1≤i≤b

其中，(x,y)表示第一数据集中的一个数据实例，为分类误差，/>为第一数据集，s为元状态,/> 为训练误差的期望值，/>为验证误差的期望值，b表示直方图的分组区间总数，i表示直方图的第i个分组区间。

6.如权利要求1所述的不平衡数据物联网入侵检测方法，其特征在于，所述根据动态聚类排序算法对所有本地模型进行联合集群，还包括：

其中，i_j表示聚类模型的数量，j表示选中模型的数量，P()是评价函数，K为超参数，表示集群模型。

7.一种不平衡数据物联网入侵检测装置，其特征在于，包括：元采样器训练模块、本地模型训练模块和聚类模块；

所述聚类模块，用于获取各个物联网设备上传的本地模型，并根据动态聚类排序算法对所有本地模型进行聚类，包括：获取各个客户端对应的第一向量，所述第一向量包括不平衡率、训练精度和验证精度；根据所述第一向量对各个客户端上传的本地模型进行聚类，确定各个客户端的集群模型；建立入侵检测模型。

8.一种计算机设备，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1至6中任一项所述的不平衡数据物联网入侵检测方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现权利要求1至6中任意一项所述的不平衡数据物联网入侵检测方法。