CN113806735A

CN113806735A - 一种执行与评价双网络个性化联邦学习入侵检测方法及系统

Info

Publication number: CN113806735A
Application number: CN202110958600.9A
Authority: CN
Inventors: 刘静; 黄仙婷; 赖英旭; 毛北逢; 王一鹏
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-12-17

Abstract

本发明公开了一种执行与评价双网络个性化联邦学习入侵检测方法及系统，在执行网络中，训练本地模型然后聚合全局模型，计算环境相似度；利用全局模型在评价网络中执行参数替换优化回溯策略，评价当前模型；参与者在执行网络中个性化更新本地模型；执行网络选择是否继续通信，评价网络测试获得的本地模型，并根据测试结果执行参数替换优化回溯策略。本发明对于本地未知攻击的检测对比单一本地模型有显著的提升，验证了联邦学习对于未知知识学习的适用性。本发明的方法的协作训练的全局模型能够使得少数据量甚至没有样本的协作者直接获益，个性化的本地模型能够稳步提升性能。

Description

一种执行与评价双网络个性化联邦学习入侵检测方法及系统

技术领域

本发明属于网络信息安全技术领域，涉及深度学习模型入侵检测技术及算法优化，特别涉及基于联邦学习的“执行网络+评价网络”双网络入侵检测框架及系统和基于元学习的个性化更新和强化学习思想的参数替换算法优化。

背景技术

伴随着在当今日益互联的社会中，随着智能网络和计算技术与产业系统的快速融合，增加了信息物理系统的网络威胁。信息物理系统是于物理集成结合的计算系统，在制造业、交通控制、能源和安全管理等诸多关键领域得到了广泛应用。随着技术的不断更新，各产业中的CPS封装了5G、网络功能虚拟化、云计算、人工智能等技术，其中由于云计算以可扩展和低成本的方式提供灵活的海量计算、存储等功能得到了广泛的运用。基于云系统的CPS提供远程接入、智能产业APP和大数据分析等支持，使得工业4.0提出的产业生命周期管理成为可能。

智能的产业系统提供了便利，通过CPS可以使得同一产业链上的各个参与方共享生产和制造系统生命周期中的决策和业务信息，同时使得如何面对网络攻击成为严峻的问题。最近的研究将机器学习算法应用于网络攻击检测，通过学习网络行为的模式和训练一个分类模型。不幸的是，虽然提出的算法达到了很好的效果，但大多都基于拥有足够全面的攻击样本的假设上。然而，真实情况下，一个CPS使用者通常只拥有有限的网络攻击样本，又因为数据隐私问题，多个CPS的攻击样本不愿意共享。并且网络攻击的不可预测地快速变化使得未知攻击层出不穷，获取样本到对模型的重新训练需要大量的时间。在这种情况下，联邦学习被引入提升安全检测模型的表现，在保持协作者隐私数据的同时，允许用户共同构建模型，提高模型性能。

尽管联邦学习技术打破了“数据孤岛”，但依然存在未解决的弱点。一是由于真实网络数据的差异导致了统计性的非独立同分布数据问题，即每个样本类别在同一个分布式客户端上的分布数量和概率不同，作为联邦学习的一个主要问题，极大的影响了联邦学习的性能。二是共同构建一个联邦模型难以满足协作者的个性化需求，导致在许多本地协作者的场景中表现不佳。因此，在推进共同协作提升入侵检测模型的发展中，如何使得协作者不分享本地数据，共享经验获得本地未知知识的效果，在少量的训练轮数中获得快速的模型收敛和更高的性能，同时满足协作者个性化场景的需求，是一个值得研究的问题。

发明内容

本发明所要解决的技术问题是提供一种用于产业协作入侵检测的“执行网络+评价网络”的个性化联邦学习入侵检测方法与系统，用于解决现有的单一本地模型构建者样本缺少质量差所导致的模型性能问题，以及现有的基于联邦学习的入侵检测技术，因其数据分布差异特性所导致的难以获得个性化模型，模型性能波动和收敛速度差的问题。

本发明解决上述技术问题的技术方案如下：用于产业协作网络检测的“执行+评价”的个性化联邦学习方法，包括：

步骤1，执行网络：本地参与者和云服务器加载卷积神经网络模型结构及参数；评价网络：收集本地参与者提取的特征矩阵。

步骤2，执行网络：训练本地模型，抽取一定比例的参与者利用类步骤1加载的模型结构对本地模型进行预训练；评价网络：计算步骤1中提取参与者特征矩阵两两之间的环境相似度。

步骤3，执行网络：云服务器聚合步骤2中训练的本地模型参数，获取全局模型参数。

步骤4，评价网络：云服务器执行参数替换优化回溯策略，保存最优参数。

进一步，所述步骤4中云服务器执行参数替换优化回溯策略，对云模型进行优化参数的替换的过程具体包括：

步骤41，利用回报函数，计算当前模型的回报；

步骤42，计算当前和历史模型得分；

步骤43，判断得分是否为最优；

步骤44，如果此时不是最优，则替换为最优的模型参数；

步骤45，若为最优，保存当前模型参数。

步骤5，执行网络：参与者个性化更新本地模型。

进一步，所述步骤5中参与者个性化更新本地模型，个性化更新本地模型的过程具体包括：

步骤51，计算梯度和梯度下降方向；

步骤52，判断是否为本地训练参与者；

步骤53，若非本轮参与训练参与者，使用环境相似度更新模型；

步骤54，若是本轮参与训练参与者，使用学习率更新模型；

步骤55，判断损失函数是否收敛，收敛则结束，未收敛则返回步骤51。

步骤6，评价网络：参与者实时测试当前模型参数。

步骤7，评价网络：参与者执行参数替换优化回溯策略，执行步骤41至步骤45。

步骤8：判断是否到达给定通信轮数，若到达则结束，未到达则返回步骤1。

基于上述方法，本发明的技术方案还包括了一种用于入侵检测的“执行网络+评价网络”的个性化联邦学习方法及系统，包括：

基于卷积神经网络入侵检测模块，其用于将流量数据转换成的流量灰度图像作为输入，对卷积神经网络进行训练，获得云端与本地的基础入侵检测模型，用于联邦学习的模型重用和参数继承。

基于决策树的特征提取模块，其用于参与者提取本地流量数据的特征矩阵，将流量数据作为输入，对特征的重要性系数进行特征筛选，然后进行归一化和标准化操作，将参与者的本轮使用的流量数据处理成同种形式，之后将利用该矩阵衡量各参与者网络环境之间的相似性。

相似度计算模块，将特征提取模块输入的特征矩阵作为输出，使用矩阵展平操作，之后计算余弦相似度，输出0至1之间的环境相似度，作为个性化更新的指标。

基于联邦学习的执行模块，其用于联邦学习各参与者之间的参数通信，模型更新和模型参数替换。

进一步，所述基于模型更新模块包括：

全局模型聚合模块，其用于将本轮参与训练参与者的本地模型进行聚合，获取全局模型参数。

本地模型更新模块，其用于对全局模型进行本地的个性化更新，生成适应本地网络环境和识别更多知识的本地模型。

进一步，所述优化回溯的模型参数替换模块包括：

全局模型参数替换模块，用于构建基于平均模型损失的回报参数，计算当前与历史得分，决定最优参数替换策略。

本地模型参数替换模块，用于构建基于模型准确度表现的回报参数，计算当前与历史得分，决定最优参数替换策略。

本发明的有益效果是：

一、本发明设计的联邦学习框架，不仅能够使云端模型和本地模型共同协作，还能够同时满足协作者面对复杂网络和日常网络的需求。协作训练的全局模型能够使得少数据量甚至没有样本的协作者直接获益，个性化的本地模型能够稳步提升性能。实践证明此框架的优势大于基础的联邦学习框架。

二、本发明设计的优化个性化更新算法部署在框架中，使用动态更新的环境相似度参数，基于元学习的思想微调联邦全局模型，获取本地模型。实践证明缓解了用户数据不均衡和Non-i.i.d分布导致的联邦学习性能的下降。

三、本发明设计的优化回溯替换算法部署在框架中，确保联邦系统中替换参数的最优性。两种算法与框架中的“执行+评价”双网络系统协作，动态适应系统中数据的变化，异步计算的设置充分利用协作者置空的时间，减少系统总消耗。

附图说明

图1为本发明实施例一中基于用于产业协作网络检测的“执行+评价”的个性化联邦学习系统的流程示意图；

图2为本发明实施例一中优化回溯参数替换策略的流程示意图；

图3为本发明实施例一中基于环境相似度的个性化更新的流程示意图；

图4为本发明实施例一中对本地数据集的检测准确度的对比实验结果图；

图5为本发明实施例二中对本地数据集的检测准确度的对比实验结果图；

图6为本发明实施例一中对全局数据集的检测准确度的对比实验结果图；

图7为本发明实施例二中对全局数据集的检测准确度的对比实验结果图；

图8为本发明实施例一中对本地参与者对未知和已知攻击准确度对比的实验结果图。

具体实施方式

以下结合附图对本发明的原理和方法进行描述，所举实例只是用于解释本发明，而并非用于限定本发明的范围。

实施例一

如图1所示，实施例一是用于产业协作网络检测的“执行+评价”的个性化联邦学习方法由三阶段构成：训练全局模型和个性化本地入侵检测模型，使用不同的场景指标对模型进行评价，利用评价结果进行模型的优化改进。具体内容如下所述：

步骤1，执行网络——本地参与者和云服务器加载模型结构及参数：在系统初始化阶段，云服务器与N个参与者

之间建立安全通道。然后云服务器和各个参与者选择用于深度学习的初始参数组

与模型训练相关的其他参数，例如，学习率η，损失函数

和每轮交互训练的参与者数量比率C。在开始系统执行过程中，本过程将加载上一轮保存的模型参数。

评价网络——收集本地参与者提取的特征矩阵：参与者在每轮参与联邦学习之前，提取本轮参与交互的数据

特征矩阵

上传至参数服务器，用作之后计算“环境相似度”。

步骤2，执行网络——训练本地模型：在收到云服务器的初始模型参数后，为了减少训练量和通信数量，并防止训练模型的过拟合，随机抽取一定比例C的参与者，使用自己的私有数据资源

对本地深度学习模型进行训练。训练之后将本地模型参数

通过安全通道上传至云服务器。

评价网络——计算环境相似度：参数服务器计算本轮抽中训练的参与者和其他所有参与者两两之间的环境相似度

其中

使用安全通道上传环境相似度集合

至云服务器和各个参与者用作下一轮的模型更新参数，将历史测试结果下发至各个参与者用作本轮的模型参数替换。上述环境相似度

的计算方式如下，其中l_i，l_j为参与者的编号，

为第t轮l_i参与者对l_j参与者的环境相似度。

步骤3，执行网络——云服务器聚合模型参数：通过收到本地模型参数和参数服务器上传的环境相似度

利用环境相似度评估各参与者的平均差异指数。云服务器使用全局聚合更新策略，优化各参与者的平均损失函数，更新全局模型参数

其中，根据平均损失函数聚合模型参数可以归结为一个经验风险最小化的问题，计算方式如下，n_k为参与者

上可用的样本数量，

为一轮交互中所有参与者的样本数量，其中K为本轮参与交互的参与者。

步骤4，评价网络——云服务器执行参数替换优化回溯策略：使用更新后的全局模型参数

和平均损失AvgLoss_t，与历史参数和损失执行全局模型参数替换优化回溯策略，确保每一轮更新的模型参数满足综合回报最优的考虑。

如图2所示，上述步骤4执行参数替换优化回溯策略的具体内容如下所述：

步骤41，计算当前模型的回报：本发明分别为全局模型和本地模型设计了两种不同的模型回报计算方式。

对于全局模型，作为一个模型的维护者，更重要的是模型的性能，所以选择平均损失作为评价模型的回报的指标。全局模型的回报函数计算方式如下所示：

其中γ∈(0，1)为折扣因子，τ为折扣因子的指数，决定了如何衡量目前更新和历史更新的价值。T为指定在一定轮数执行优化回溯替换，轮数过大会导致参数存储和计算负载过大，过小则会缺少考虑。根据经验值指定T＝4，对当前的参数和历史4轮的参数进行回报评分。在本发明中，期望当前的稳定和未来回报的稳步上升。虽然当前利益和远期利益都很重要，但远期利益需要花费更多的计算花销，指定γ＝0.9，给予远期利益一定比例的“折扣”。

相比全局模型，本地参与者作为模型的使用者，更在意模型的表现。所以，当本地接受到一个新的全局模型时，本发明使用评价网络中历史模型参数和模型测试的准确度Acc_t用于本地回报函数的计算，本地回报函数的计算如下：

在本地的参数替换中，考虑本地参与者的数量，仅定义T＝1，即只比较最近一轮的回报。指定γ＝1，认为当前和历史一轮的表现同样重要，综合优选参数。

步骤42，计算当前和历史模型得分：为了选择最优的参数，对历史的模型参数的得分进行对比。通过步骤1中的方式计算当前和历史模型的回报，将回报与其上一轮的模型回报做差，得分可以表达为如下形式：

Gn_i＝R_i-R_i-1

步骤43、44、45，判断得分是否为最优：判断当前模型的得分是否为历史函数中最优，如果是则不替换当前模型参数，如果不是则替换为得分最高的模型参数。通过对每轮全局模型和本地模型进行持续的综合评分，选择评分最优的模型参数进行替换，促进系统的可持续稳定性。

步骤5，执行网络——参与者个性化更新本地模型：在收到云服务器更新的模型参数后，参与者使用个性化更新算法，从收到的全局模型中使用本地数据集来个性化自己的本地模型。参与者将拥有面对更多场景的全局模型和更适合日常场景的本地模型。

如图3所示，在上述的执行网络的步骤5中，本地模型个性化更新的具体内容如下所述：

步骤51，计算梯度和梯度下降方向：参与者获取到全局模型参数后，使用本地数据集分批量的对模型参数实施梯度下降操作。B为批量大小，

为损失函数，本发明使用交叉熵函数作为损失函数。计算梯度方式如下：

使用双阶矩计算来精调本地模型，

为一阶矩，

为二阶矩，计算梯度方向方式如下：

步骤52，判断是否为本地训练参与者：判断是否为本轮抽取训练的参与者，如果是则环境相似度为1，与原始更新算法一致，如果不是则进行相似度的更新。

步骤53，使用环境相似度更新模型：环境相似度用来衡量待更新参与者与本轮抽取训练的参与者网络环境之间的距离，作为个性化更新模型程度的指标。更新方式如下：

步骤54，使用学习率更新模型：本轮抽取训练的参与者与当前全局模型的相似度约为1，直接使用学习率进行更新。更新方式如下：

步骤55，判断损失函数是否收敛：若收敛则结束更新参数操作，若未收敛则继续执行梯度下降操作。

如果只对全局模型进行更新，只考虑到提升所有参与者的平均目标。本发明强调细化本地模型，满足本地模型需求。个性化更新算法与评价网络协作，收集参与者提取的特征矩阵，添加个人信息，动态计算“环境相似度”参数用作个性化模型参数的微调。这样，每个参与者都可以获得更精确的个性化本地模型。

步骤6，评价网络——参与者实时测试当前模型参数：使用当前更新本地模型参数测试准确度，作为评价模型回报的标准。

步骤7，评价网络——执行参数替换优化回溯策略：使用更新后的本地模型参数

和准确度Acc_t，执行本地模型参数替换优化回溯策略，即执行步骤5至步骤9，确保每一轮保存的本地模型参数满足准确度最优。

步骤8，执行网络——判断是否到达给定轮数：如果到达执行网络停止继续工作，如果没有则继续开始下一轮的通信。给定轮数可以设定为经验值，也可以设置为一种终身学习的状态。终身学习状态则给定一个经验阈值，若模型的损失变化在阈值内且无新用户加入，则系统可以停止工作。

本发明提出的框架的学习过程可以利用同态加密等技术，避免在学习过程中模型参数的信息泄漏。在本发明的框架中，缺少样本的参与者获得了全局模型后，可以直接应用到本地的网络环境进行安全检测。参与联邦系统学习有一段时间的参与者可以从全局模型中，个性化自己的本地安全模型，获得经验共享的好处，满足不同的场景需求。

通过双网络的设置使得联邦学习的模型通过评价执行的循环，获得稳定的优化。双网络的并行使得充分利用每个参与者置空的时间，减少系统的运行等待，提高联邦系统的速度。

基于上述方法，本发明的技术方案还包括了一种用于产业协作网络检测的“执行+评价”的个性化联邦学习方法及系统，包括：

进一步，所述基于模型更新模块包括：

进一步，所述优化回溯的模型参数替换模块包括：

实施例二

实施例二是对本发明提出的方法和系统进行了验证实验，提出了一种针对网络流量场景的Non-i.i.d数据分布方式，在此数据分布方式的基础上将提出的联邦模型与本地单一模型和FedAvg算法的表现进行对比，证明联邦学习对于本地模型和FedAvg算法上的提升。然后，本发明通过两个场景不同客户端的设定来评估提出的联邦学习框架的性能。

为了测试本发明所设计的联邦学习协作网络检测系统，针对Non-i.i.d数据分布问题影响的缓解效果，首先提出了三种数据分布：

平衡的数据分割：对于每个参与者，每个攻击类别随机抽取同样数量的数据到各个参与者，每个参与者的样本量相同，样本类别平均。这种数据分割也为标准的联邦学习的i.i.d分割。

不平衡的数据分割：本发明将训练集里的22种不同的攻击不重复地分至5个参与者，按照每个大类的小类进行病态分隔，模拟联邦状态下网络数据集不均衡的Non-i.i.d场景。此数据分割用以测试不同客户端面临不同场景下联邦学习对本地“未知”攻击的检测效果与本发明的方法对于网络安全场景下Non-i.i.d数据分割的鲁棒性。

有新用户加入的不平衡的数据分割：在5个工业协作者的基础上，引入新的协作者，新协作者拥有测试集的数据集，与当前5个工业协作者的数据集特征不相似，测试面临新型数据的加入，本发明的方案是否具有鲁棒性。

为了测试本发明所设计的联邦学习协作网络检测系统的检测效果，首先定义了以下四种样本集合：

TP：数据集中阳性样本且被模型归类为阳性的样本集合。

FP：数据集中阴性样本但被模型归类为阳性的样本集合。

TN：数据集中阴性样本且被模型归类为阴性的样本集合。

FN：数据集中阳性样品但被模型归类为阴性的样本集合。

基于上述四种样本集合，本发明采用入侵检测领域中使用的评价指标准确率(Accuracy)来评价本发明系统的检测的效果。具体定义如下：

Accuracy＝(TP+TN)/(TF+FP+TN+FN)

为了进一步针对本地未知攻击的检测效果性能进行评价，本发明分为了四种不同的准确度：

本地数据准确度：对协作者本地数据集的测试集进行测试，分类正确结果的比例。此准确度用于验证对本地日常个性化场景的有效性。

全局数据准确度：对所有协作者数据集的测试集进行测试，分类正确的结果的比例，模拟拥有未知攻击的复杂场景，用于验证全局模型与本地模型对于复杂场景的有效性。

“未知”攻击准确度：在对所有协作者数据集的测试集进行测试中，本地协作者未含有类别的攻击正确分类的比例。此准确度用于验证联邦学习对于本地未知知识学习的有效性。

“已知”攻击准确度：在对所有协作者数据集的测试集进行测试中，本地协作者对已含有类别的攻击正确分类的比例，此准确度用于验证是否联邦学习对于本地已有知识的学习有偏向性的影响。

使用本地数据集的测试集对客户端进行测试，模拟本地参与者面对的日常网络场景，验证个性化本地模型对于本地场景的适应性。下表展示了本发明改进后的系统与本地的单一模型和FedAvg方法在5个参与者场景中的本地数据准确度。

表4可以看出，无论是FedAvg还是本发明的系统，都显示出联邦学习提供的更多的知识交流，使得对于本地网络场景，模型的准确率对比本地单一模型有一定的提升。可以注意到的是，在30轮之前，联邦方法和本地单一模型的效果相差较大。证明在同样轮数的训练下，通过联邦学习打破“数据孤岛”的特性，能够快速得到模型能力的提升。

图5可以看出，新加入的特殊客户端在本地单一模型的测试中准确度明显低于其他客户端。再次证明场景二新用户加入的设置可以测试联邦框架在面对新加入的特殊数据的鲁棒性。可以发现，在场景二中，联邦学习的方法使得特殊客户端的本地模型有着更好的表现，而本发明的系统对比FedAvg在准确性上有着更好的提升。

随机选取所有协作者贡献的测试集进行测试，模拟拥有本地“未知”攻击的复杂网络场景，验证本发明的系统的有效性和联邦学习平台对于新型知识学习的贡献。图6展示了本发明改进后的系统与本地的单一模型和FedAvg方法在5个参与者场景中的全局数据准确度。

对于全局数据测试，联邦模型的优势明显大于本地单一模型，证明联邦平台提供的经验交流对本地参与者面临更复杂场景有极大帮助。从表3中50轮至70轮的结果可以看出，本文的方法对比FedAvg更加稳定，总体的准确度不断上升，而FedAvg准确度波动大，且最后的效果不如本文方法。从图7可以看出，在新加入了特殊客户端的情况下，FedAvg算法的效果波动更大，显然对于复杂网络场景不具有良好的鲁棒性。然而，本发明提出的方法在更复杂的场景二下，可以更明显地减轻联邦设置中固有的数据分布不均衡的统计挑战。并且可以发现，本发明提出的方法对比场景一在场景二下取得了更好的表现，这点发现启发本发明更进一步细化分析客户端通过联邦学习的平台，对本地“未知”攻击的检测的提升程度，为此，本发明提取22类攻击分类结果具体的混淆矩阵，使用“未知”攻击准确度和“已知”攻击准确度对本发明的方法进行评估，结果归纳为图8。

如图8所示，本发明提出的方法在本地数据集中未含有的攻击类型(“未知”攻击)的效果明显优于本地单一模型，证明联邦学习的方法在复杂的网络环境中有着打破“数据孤岛”，提供可信的经验交流平台的功能。并且在协作者一起构建更加安全的网络环境中，有着能够通过联邦学习到“未知”知识的作用。综上所述，本发明的实验证明了本发明提出的方法提升了联邦学习的有效性和适用性，并且对比目前主流的FedAvg算法更加稳定和具有鲁棒性。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种执行与评价双网络个性化联邦学习入侵检测方法，其特征在于，包括：

之间建立安全通道；然后云服务器和各个参与者选择用于深度学习的初始参数组

与模型训练相关的其他参数，例如，学习率η，损失函数

和每轮交互训练的参与者数量比率C；在开始系统执行过程中，本过程将加载上一轮保存的模型参数；

特征矩阵

上传至参数服务器，用作之后计算“环境相似度”；

对本地深度学习模型进行训练；训练之后将本地模型参数

通过安全通道上传至云服务器；

其中

使用安全通道上传环境相似度集合

至云服务器和各个参与者用作下一轮的模型更新参数，将历史测试结果下发至各个参与者用作本轮的模型参数替换；上述环境相似度

的计算方式如下，其中l_i，l_j为参与者的编号，

为第t轮l_i参与者对l_j参与者的环境相似度；

利用环境相似度评估各参与者的平均差异指数；云服务器使用全局聚合更新策略，优化各参与者的平均损失函数，更新全局模型参数

上可用的样本数量，

为一轮交互中所有参与者的样本数量，其中K为本轮参与交互的参与者；

和平均损失AvgLoss_t，与历史参数和损失执行全局模型参数替换优化回溯策略，确保每一轮更新的模型参数满足综合回报最优的考虑；

步骤5，执行网络——参与者个性化更新本地模型：在收到云服务器更新的模型参数后，参与者使用个性化更新算法，从收到的全局模型中使用本地数据集来个性化自己的本地模型；参与者将拥有面对更多场景的全局模型和更适合日常场景的本地模型；

步骤6，评价网络——参与者实时测试当前模型参数：使用当前更新本地模型参数测试准确度，作为评价模型回报的标准；

和准确度Acc_t，执行本地模型参数替换优化回溯策略，确保每一轮保存的本地模型参数满足准确度最优；

步骤8，执行网络——判断是否到达给定轮数：如果到达执行网络停止继续工作，如果没有则继续开始下一轮的通信；给定轮数可以设定为经验值，也可以设置为一种终身学习的状态；终身学习状态则给定一个经验阈值，若模型的损失变化在阈值内且无新用户加入，则系统停止工作。

2.根据权利要求1所述的一种执行与评价双网络个性化联邦学习入侵检测方法，其特征在于，所述步骤4中云服务器执行参数替换优化回溯策略具体包括：

步骤41，计算当前模型的回报：分别为全局模型和本地模型设计了两种不同的模型回报计算方式；

对于全局模型，作为一个模型的维护者，更重要的是模型的性能，所以选择平均损失作为评价模型的回报的指标；全局模型的回报函数计算方式如下所示：

其中γ∈(0，1)为折扣因子，τ为折扣因子的指数，决定了如何衡量目前更新和历史更新的价值；T为指定在一定轮数执行优化回溯替换，轮数过大会导致参数存储和计算负载过大，过小则会缺少考虑；根据经验值指定T＝4，对当前的参数和历史4轮的参数进行回报评分；在本发明中，期望当前的稳定和未来回报的稳步上升；虽然当前利益和远期利益都很重要，但远期利益需要花费更多的计算花销，指定γ＝0.9，给予远期利益一定比例的“折扣”；

步骤42，计算当前和历史模型得分：为了选择最优的参数，对历史的模型参数的得分进行对比；通过步骤1中的方式计算当前和历史模型的回报，将回报与其上一轮的模型回报做差，得分可以表达为如下形式：

Gn_i＝R_i-R_i-1

步骤43、44、45，判断得分是否为最优：判断当前模型的得分是否为历史函数中最优，如果是则不替换当前模型参数，如果不是则替换为得分最高的模型参数；通过对每轮全局模型和本地模型进行持续的综合评分，选择评分最优的模型参数进行替换，促进系统的可持续稳定性。

3.根据权利要求1所述的一种执行与评价双网络个性化联邦学习入侵检测方法，其特征在于，所述步骤5中，参与者个性化更新本地模型具体包括：

步骤51，计算梯度和梯度下降方向：参与者获取到全局模型参数后，使用本地数据集分批量的对模型参数实施梯度下降操作；B为批量大小，

为损失函数，本发明使用交叉熵函数作为损失函数；计算梯度方式如下：

使用双阶矩计算来精调本地模型，

为一阶矩，

为二阶矩，计算梯度方向方式如下：

步骤52，判断是否为本地训练参与者：判断是否为本轮抽取训练的参与者，如果是则环境相似度为1，与原始更新算法一致，如果不是则进行相似度的更新；

步骤53，使用环境相似度更新模型：环境相似度用来衡量待更新参与者与本轮抽取训练的参与者网络环境之间的距离，作为个性化更新模型程度的指标；更新方式如下：

步骤54，使用学习率更新模型：本轮抽取训练的参与者与当前全局模型的相似度约为1，直接使用学习率进行更新；更新方式如下：

4.根据权利要求1所述的一种执行与评价双网络个性化联邦学习入侵检测方法，其特征在于，步骤17所述的执行本地模型参数替换优化回溯策略，与权利要求1的步骤4的不同之处在于：相比全局模型，本地参与者作为模型的使用者，更在意模型的表现；所以，当本地接受到一个新的全局模型时，本发明使用评价网络中历史模型参数和模型测试的准确度Acc_t用于本地回报函数的计算，本地回报函数的计算如下：

在本地的参数替换中，考虑本地参与者的数量，仅定义T＝1，即只比较最近一轮的回报；指定γ＝1，认为当前和历史一轮的表现同样重要，综合优选参数。

5.一种执行与评价双网络个性化联邦学习入侵检测系统，其特征在于，包括：

基于卷积神经网络入侵检测模块，其用于将流量数据转换成的流量灰度图像作为输入，对卷积神经网络进行训练，获得云端与本地的基础入侵检测模型，用于联邦学习的模型重用和参数继承；

基于决策树的特征提取模块，其用于参与者提取本地流量数据的特征矩阵，将流量数据作为输入，对特征的重要性系数进行特征筛选，然后进行归一化和标准化操作，将参与者的本轮使用的流量数据处理成同种形式，之后将利用该矩阵衡量各参与者网络环境之间的相似性；

相似度计算模块，将特征提取模块输入的特征矩阵作为输出，使用矩阵展平操作，之后计算余弦相似度，输出0至1之间的环境相似度，作为个性化更新的指标；

6.根据权利要求5所述的执行与评价双网络个性化联邦学习入侵检测系统，其特征在于，所述基于模型更新模块包括：

全局模型聚合模块，其用于将本轮参与训练参与者的本地模型进行聚合，获取全局模型参数；

7.根据权利要求5所述的执行与评价双网络个性化联邦学习入侵检测系统，其特征在于，所述优化回溯的模型参数替换模块包括：

全局模型参数替换模块，用于构建基于平均模型损失的回报参数，计算当前与历史得分，决定最优参数替换策略；