CN116366359B

CN116366359B - 一种工业控制网络的智能协同自进化防御方法及系统

Info

Publication number: CN116366359B
Application number: CN202310404006.4A
Authority: CN
Inventors: 江浩; 索毓涵; 李赟; 李俊; 高建磊; 李耀兵; 赵千; 巩天宇; 许丰娟
Original assignee: China Industrial Control Systems Cyber Emergency Response Team
Current assignee: China Industrial Control Systems Cyber Emergency Response Team
Priority date: 2022-12-21
Filing date: 2023-04-17
Publication date: 2024-03-08
Anticipated expiration: 2043-04-17
Also published as: CN116366359A

Abstract

本发明涉及一种工业控制网络的智能协同自进化防御方法及系统，涉及网络安全领域，方法包括：S1构建基于动态模型的工业控制网络入侵检测模型；S2判断终端设备是否受到恶意攻击；S3若是，利用现有防御策略库进行防御并判断是否防御成功；S4若否，对现有防御策略库进行初始化；S5对初始化后的防御策略库中每个安全防御策略计算突变概率；S6根据突变概率对安全防御进行突变、交叉和环境选择，得到此时工业控制网络的最优防御策略；S7根据最优防御策略更新现有防御策略库；S8对步骤S4‑S7进行迭代计算，实现工业控制网络安全防御策略的自进化。本发明能够实现在定向威胁攻击入侵下的工业控制网络的动态入侵检测和智能防御。

Description

一种工业控制网络的智能协同自进化防御方法及系统

技术领域

本发明涉及网络安全领域，特别是涉及一种工业控制网络的智能协同自进化防御方法及系统。

背景技术

近年来，随着工业互联网的发展，工业控制系统受到的网络攻击愈发广泛，相比IT系统受到攻击会导致的信息泄露、数据篡改等事故，针对工业控制网络的攻击通常会导致严重后果，如环境污染、设备损坏，甚至人员伤亡。因此，工业控制网络安全问题亟待解决。

入侵检测(Intrusion Detection，ID)是应对工业控制系统的网络攻击的首要任务。入侵检测通过监控工业网络系统，记录网络流信息，分析信息特征，对袭击行为和异常操作进行判断，从而及时发现入侵企图。然而，通常的入侵检测算法一般都是先采集系统数据并离线训练模型，此后模型保持不变，虽然从实验角度来看可以达到较好效果，但是在实际动态场景中则效果不佳。主要原因有两个：首先，很多工业控制系统的数据是无法提前获取的，因此无法离线训练；其次，对于近年来新兴的APT攻击等复杂多变的网络攻击，固定的模型很难实现准确地检测。因此，根据入侵检测效果实时对入侵检测算法进行动态升级是十分必要的。

在检测到工业控制网络受攻击后，及时采取合适的防御策略是保证系统安全的关键。通常的做法是在现有的专家策略库中选择针对特定攻击的防御策略。然而，由于工业控制系统具有动态性、APT攻击具有绕过防火墙、IPS等传统安全方案的能力，且能够根据防御策略自适应更新入侵方式，因此，传统的、单一不变的防御策略无法对攻击进行高效的拦截。

发明内容

本发明的目的是提供一种工业控制网络的智能协同自进化防御方法及系统，能够实现在定向威胁攻击(APT)入侵下的工业控制网络的动态入侵检测和智能防御。

为实现上述目的，本发明提供了如下方案：

一种工业控制网络的智能协同自进化防御方法，包括：

S1、在各个终端设备构建基于动态模型的工业控制网络入侵检测模型，所述工业控制网络包括多个无线通讯的终端设备；

S2、利用所述入侵检测模型对所述各个终端设备进行实时入侵检测，判断所述各个终端设备是否受到恶意攻击；

S3、若是，则利用现有防御策略库进行防御，并判断是否防御成功；所述现有防御策略库包括多个安全防御策略；

S4、若否，则对所述现有防御策略库进行初始化；

S5、对初始化后的防御策略库中每个安全防御策略计算突变概率；

S6、根据所述突变概率对所述每个安全防御进行突变、交叉和环境选择，得到此时工业控制网络的最优防御策略；

S7、根据所述最优防御策略更新所述现有防御策略库；

S8、对步骤S4-S7进行迭代计算，实现工业控制网络安全防御策略的自进化。

可选的，所述构建基于动态模型的工业控制网络入侵检测模型，具体包括：

构建初始检测模型；所述初始检测模型包括输入层和输出层，所述输入层中神经元的数量为在工业控制网络上使用的物理协议的最大传输单元中定义的流量数据向量的数量，输出层中神经元的数量为分组分配给的类的数量；

获取流量数据；

将所述流量数据输入所述初始检测模型得到攻击类别；

根据所述攻击类别计算预测误差；

判断所述预测误差是否会收敛到零；

若是，则判断所述预测误差是否在95％的置信区间内；

若是，则所述初始检测模型架构不变；

若否，则对所述初始检测模型添加隐含层，得到所述基于动态模型的工业控制网络入侵检测模型。

可选的，所述对初始检测模型添加隐含层，得到所述基于动态模型的工业控制网络入侵检测模型，具体包括：

确定隐含层中神经元的数量；

将确定神经元数量的隐含层连接到所述初始检测模型，得到第二检测模型；

对所述第二检测模型进行训练，得到所述基于动态模型的工业控制网络入侵检测模型。

可选的，采用如下公式确定隐含层中神经元的数量：

其中，为隐含层中神经元的数量；/> 是所有攻击种类的向量；||c_i||为第i类流量数据的数量；σ(∈_t|c_i)是第i类流量数据预测误差的标准差；/>是向下取整函数；为上一时刻的检测模型自由度(如果t＝2，则指的就是初始时刻t＝1的模型，其他时刻t则为t-1时刻的模型)。

可选的，所述“构建初始检测模型”步骤之后，“获取流量数据”步骤之前，还包括：

利用工控网络终端设备的历史流量数据对所述初始检测模型进行训练。

可选的，采用如下公式计算预测误差：

其中，∈_t为预测误差；是所有攻击种类的向量；/>是在时刻t上输入流量数据的真实类别；/>是由上一时刻的检测模型输出的相应数值。

可选的，所述对现有防御策略库进行初始化，具体包括：

在现有防御策略库中随机选取Np个安全防御策略；

对所述Np个安全策略设置自进化的相关参数：缩放因子F在[0.1，0.9]的范围内随机取值，变化因子f在-0.1、0和0.1中随机选择。

可选的，所述步骤S6中，通过比较子代防御策略和父代防御策略的目标函数适应度值，选取适应度值高的防御策略作为此时工业控制网络的最优防御策略。

可选的，采用如下公式比较子代防御策略和父代防御策略的目标函数适应度值：

其中，f(·)是适应度的函数，f(U_i,t)为子代防御策略的目标函数适应度值，f(X_i,t)为父代防御策略的目标函数适应度值；U_i,t和X_i,t是函数自变量，X_i,t是父代防御策略，U_i,t是子代防御策略。

一种工业控制网络的智能协同自进化防御系统，包括：

入侵检测模型构建模块，用于在各个终端设备构建基于动态模型的工业控制网络入侵检测模型，所述工业控制网络包括多个无线通讯的终端设备；

实时入侵检测模块，用于利用所述入侵检测模型对所述各个终端设备进行实时入侵检测，判断所述各个终端设备是否受到恶意攻击；

防御模块，用于当终端设备受到恶意攻击时，则利用现有防御策略库进行防御，并判断是否防御成功；所述现有防御策略库包括多个安全防御策略；

初始化模块，用于当利用现有防御策略库防御失败时，则对所述现有防御策略库进行初始化；

突变概率确定模块，用于对初始化后的防御策略库中每个安全防御策略计算突变概率；

最优防御策略确定模块，用于根据所述突变概率对所述每个安全防御进行突变、交叉和环境选择，得到此时工业控制网络的最优防御策略；

更新模块，用于根据所述最优防御策略更新所述现有防御策略库；

自进化模块，用于对所述初始化模块、突变概率确定模块、最优防御策略确定模块和更新模块的内容进行迭代计算，实现工业控制网络安全防御策略的自进化。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明创新性地提出了一种工业控制网络的智能协同自进化防御方法及系统，能够实现在定向威胁攻击(APT)入侵下的工业控制网络的动态入侵检测和智能防御。

其中，针对工业控制网络的入侵检测问题，由于APT攻击具有动态性、多样性，因此，本发明提出一种基于动态模型的工业控制网络入侵检测机制，各个终端可以根据每个时刻的入侵检测效果实时反馈给入侵检测器，入侵检测器会根据检测效果再次训练模型，实现入侵检测算法的动态升级，从而保证检测效果的准确性。

针对工业控制网络的防御问题，为了应对复杂多变的APT等能够自适应更新入侵方式的攻击，本发明提出一种基于差分进化算法的防御策略自进化机制。在入侵检测器检测到异常后，该机制可以在专家策略库中已有防御策略的基础上自进化随机生成新型防御策略，抵御APT攻击。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种工业控制网络的智能协同自进化防御方法流程图；

图2为本发明基于动态模型的工业控制网络入侵检测机制流程图；

图3为本发明基于动态模型的工业控制网络入侵检测机制结构演变示意图；

图4为本发明基于差分进化的防御策略自进化机制流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

首先，本发明考虑了一个工业控制网络，该网络包括一组具有无线通信能力的终端设备，这些设备通过上层交换机、防火墙等部署在给定区域。

本发明的方案总体可分为两部分，一是基于动态模型的工业控制网络入侵检测机制，二是基于差分进化算法的防御策略自进化机制，本发明总的方法流程如图1所示。其中，每个终端设备基于其与接收流量特性相关的性能动态建立自己的入侵检测模型，并用该模型进行实时入侵检测。然后，根据拦截情况让现有防御策略进行自进化，以应对复杂多变的APT等能够自适应更新入侵方式的攻击。最终，本发明可以实现对定向威胁攻击(APT)入侵下的工业控制网络的动态入侵检测和智能防御。

为了方便在工业控制网络的各个设备上部署以自主检测入侵，本发明设计了一种轻量级的方案，即基于动态模型的工业控制网络入侵检测机制(以下简称DM入侵检测机制)。该机制允许每个终端设备基于其与接收流量特性相关的性能建立自己的入侵检测模型。

在介绍本发明方案之前，首先明确本发明使用表示工控网络中所有设备的集合，表示工控网络中的任意设备，/>令ξ_t表示一个由/>在时刻t收到的流量数据向量，本发明在此处首先对流量数据进行定义，对于实际工控网络，流量数据系统在运行状态下正常下和受到网络攻击时的网络流量数据，本发明的流量是通过网络抓包工具Wireshark对流经交换机的网络流量进行嗅探和采集，采集的流量以.pcap文件格式保存下来。得到了.pcap文件之后，需要进一步从流量数据中提取特征。CICFlowMeter能够对流量数据进行特征提取，并以.csv格式文件保存。假设每条流量数据有64个特征值，那么我们可以认为每条数据是一个8个字节的向量。

假设模型由编号从1到L_t的一系列层组成，每个层有若干神经元，其数量、输入、可学习参数(即权重和偏差)和输出分别用和/>表示，其中1≤l≤L_t。此外，/>用于表示第l层使用的激活函数，以根据其参数/>将其输入/>映射到相应的输出/>即第一层/>的输入是/>即/>最后一层/>的输出是该流量数据的类别(正常，攻击类型)，可以表示为：

其中，是所有攻击种类的向量。

基于动态模型的工业控制网络入侵检测机制流程图如附图2所示，具体包含如下所示的步骤1-6：

步骤1：构建初始的入侵检测模型。

初始时刻，工业控制网络的所有终端设备开始运行初始化子过程，在终端设备的生命周期内只需要执行一次以设置模型的初始参数。

DM入侵检测机制的初始模型由输入和输出两层组成，即L_t＝2，输入层中神经元的数量被设置为在网络上使用的物理协议的最大传输单元(MTU)中定义的流量数据向量的数量其中O(·)表示用于计数8个字节的函数。输出层中神经元的数量设置为分组分配给的类的数量，即/>

确定神经元数量后，开始对初始模型架构进行训练，训练的数据是工控网络设备的历史流量数据，(此处，本发明认为DM入侵检测机制可以在任意时刻投入使用，因此预先采集用于训练初始模型的数据是可以实施的)。

步骤2：提取流量数据内容并计算预测误差。

一旦各个终端设备构建了自己的DM入侵检测机制初始模型，它就会等待下一个新的流量数据。

一旦设备收到新的流量数据，立即使用CICFlowMeter进行特征提取，生成8个字节的向量。并将向量输入到步骤1初始模型的第一层的输入中，即然后利用步骤1初始模型预测该流量数据对应的攻击类别/>然后，DM入侵检测机制计算预测值的误差。预测误差∈_t被定义为给定的输入和使用损失函数的模型输出之间的差异，即：

其中，是在时刻t上输入流量数据的真实类别，而/>是由DM入侵检测机制输出的相应数值。

接下来，DM入侵检测机制根据误差的大小来选择进化或者保持模型的结构，做出这一决定的核心是进行两级测试：

步骤3：第一级测试，测试当前输入的预测误差是否会收敛到零。

本发明认为，模型需要进化必须满足的条件是：公式中的预测误差时刻t的误差大于或等于前一个实例t-1的误差，也就是说，∈_t≥∈_t-1，即预测误差无法收敛到零，这意味着当前模型的架构无法正确对收到的流量数据进行分类，即无法识别攻击类别，因此，DM入侵检测机制必须进化模型。

而对于时刻t的误差小于或等于前一个实例t-1的误差的情况，也就是说，∈_t≤∈_t-1。这个条件可以确保DM入侵检测机制模型的剩余误差是严格的单调不增的，并且对于不同的架构来说是有下限的，即当前输入的预测误差可以收敛到0。在这种情况下，当前模型的架构能够正确对收到的流量数据进行分类，因此模型架构不需要改变。

步骤4：第二级测试，确定迄今为止由模型产生的预测误差是否在95％的置信区间内。

为了保证准确性，本发明采用标准的Z值来找到95％置信区间的最小(CI_min)和最大残余误差(CI_max)，分别如下式进行计算：

其中，和σ(∈_τ)是自初始时刻以来到计算置信区间的时刻所产生的所有误差的算术平均值和标准偏差，1.96是对应于95％置信区间的Z值。选择这种计算方法的理由是，每一时刻的工业控制网络的流量数据是有关联的，而不是随机变化的。

如果最近的误差读数在95％置信区间内，则DM入侵检测机制意识到流量没有大幅度波动，即没有收到恶意流量，因此不需要添加新的层。在这种情况下，本发明认为工控网络没有收到恶意流量，因此模型架构不需要改变。

如果由模型产生的预测误差在95％的置信区间之外，意味着当前产生的流量超出模型能够处理的限度。因此，应对这种情况的最佳措施是增加一个新的隐藏层，以帮助节点区分来自随机和系统性波动中产生的错误。

经过两级测试之后，本发明可以判断是否需要增加隐含层以进化模型架构，如附图3所示显示了DM入侵检测机制体系结构演变示意图，每个终端设备的DM入侵检测机制模型从简单形式的开始(仅有输入层和输出层的模型，L₁＝2)，随着模型性能的降低，添加并训练新的隐藏层。

步骤5：有必要增加隐含层时，确定神经元数量。

两级测试结束后，如果DM入侵检测机制决定有必要增加隐含层时，确定这个新层中神经元的数量是十分关键的。为了实现这一目标，本发明使用Welch–Satterthwaite来近似计算模型的自由度(自由度是表示数据集所需的独立变量的完美数量)，然后相应地修改模型。从理论的角度，设||c_i||为第i类流量数据的数量，σ(∈_t|c_i)是第i类流量数据预测误差的标准差，是向下取整函数。然后新层神经元的数量/>可以通过从当前架构中的神经元总数中减去Welch–Satterthwaite近似值/>来计算，即：

步骤6：对新的模型架构进行训练。

计算新层中神经元数量后的下一步是将其连接到当前架构，然后对其进行训练。

首先，层的数量增加1，即L_t+1＝L_t+1，然后将该新层的输入分配给当前架构中的最后一个隐藏层的输出，即然后新层的输出连接到当前架构中输出层的输入，即然后，DM入侵检测机制使用新的架构来训练模型。最后，训练好的模型会被回传给上层的交换机、防火墙，并被共享给其他终端。

DM入侵检测机制的显著特点是它不是固定的体系结构，相反，它是由每个节点基于其响应于其接收的流量数据的预测性能而演变的。本发明只需要在每一时刻重复上述操作，各个终端设备上部署的入侵检测模型就可以动态保持最优的检测效果。

基于差分进化算法的防御策略自进化机制流程图如图4所示，具体的，在每个时刻t，各个终端基于前一时刻构建的入侵检测模型进行入侵检测，一旦检测到有恶意攻击，则首先在现有专家策略库中寻找并部署相应的防御措施，如面对DDoS攻击，可以采用防火墙限制特定IP段的流量或者对假冒IP地址进行及时识别等措施。然而在面对APT攻击等具有绕过防火墙、IPS等传统安全方案的能力，且能够根据防御策略自适应更新入侵方式的新型攻击时，专家策略库中的传统防御策略难以对攻击进行高效拦截。

因此，让现有防御策略根据拦截情况进行自进化是十分必要的，所以本发明提出一种基于差分进化算法的防御策略自进化机制(DE防御策略自进化机制)。在入侵检测器检测到异常后，该机制可以在专家策略库中已有防御策略的基础上自进化随机生成新型防御策略，抵御APT攻击。

为了便于防御策略的进化，本发明将安全策略(ST)量化为一组降低风险的措施，即每一个现有安全策略ST均可以表示为一个n维数组，ST＝{ST_i|i＝1,2,…,n}，其中，ST_i的状态定义为布尔变量，其可能状态为ST_i＝{1,0}。安全策略ST中每个ST_i的实施必须支付相应的实施成本COST(ST_i)。每个ST_i的成本是一个取决于整个组织的因素，包括直接和间接成本。针对漏洞实施ST_i将增加攻击者利用漏洞所需的努力，从而降低漏洞的可利用性。由于工控网络中终端设备的能量是有限的，因此，本发明的目标是选择最具成本效益的策略集以降低攻击风险，即如何获取最优策略集以在保证较低策略成本的同时得到最优的防御效果。

接下来，本发明结合差分进化和强化学习，提出了基于差分进化的防御策略自进化机制，具体包含如下步骤7-11：

步骤7：初始化。

随机选取Np个在安全防御策略作为初始安全策略集合。然后设置Np个安全策略自进化的相关参数：缩放因子F在[0.1，0.9]的范围内随机取值，变化因子f在-0.1、0和0.1中随机选择。

然后在每个时刻，对每个安全防御策略实施以下步骤8-步骤11：

步骤8：计算每个安全防御策略的突变概率F。

本发明可以在学习的同时自适应地调整f的值，以适应不同的进化阶段，在上一个时刻的步骤10，我们通过学习获得的Q-table用于选择是否调整F(加0.1，减0.1或不调整)选取了最佳动作，即选取了f的值。计算每个安全防御策略的突变概率F可以用下式进行更新计算：

F＝F+f

步骤9：安全防御策略自进化。

本发明对Np个的安全防御策略进行突变、交叉和环境选择等进化操作选择出最适应环境的变异个体，即最优安全防御策略X_best,t。以下是本发明中使用的变异策略：

其中V_i,t是突变载体，X_best,t-1代表了上一时刻得到的具有最佳适应度值的最优安全防御策略，是在[1,Np]范围内随机生成的互斥整数，/>和/>代表了在安全策略集合中随机选取2个安全策略，而F是用于缩放的正控制参数。

在突变阶段后对每对目标防御策略X_i,t进行交叉操作，并使用其相应的突变载体V_i,t生成试验防御策略U_i,t：

其中，j代表防御策略中的第j个维度j＝1,2,…,n，而CR为定值0.9。

步骤10：每个安全防御策略动作选择。

在本发明提出的算法中，Q-learning使用Q-table来表示不同对(状态、动作)的值，如表1所示，agent在每个状态下有2个可能的状态和3个可用的动作。2个状态分别是：(1)子代防御策略优于父代防御策略，即进化成功；(2)子代防御策略不如子父代防御策略，即进化失败。3个动作分别是(1)f为0.1，(2)f为0，(3)f为-0.1。

表1 Q-table

对于每个安全策略，在状态s_i中选择a_j动作的概率由SoftMax策略决定：

其中是时间t时Q-table中的对应值。

然后根据动作选择概率选取动作，即选择下一时刻f的值。动作选择完毕后，更新下一时刻的Q表。各个安全防御策略根据Q-table确定在不同状态下选择不同行为的概率。特别是，由于每个安全防御策略的最佳F值不相同，因此在本发明中，每个防御策略都有一个Q-table可以独立更新，Q-table是根据过去时间t内获得的累积奖励进行更新的。

步骤11：选取最优安全防御策略。

在DE防御策略自进化机制中，我们设置了两个状态：(1)子代防御策略的解决方案优于父代防御策略的，这意味着突变成功，此时奖励值为1；(2)子代防御策略的解决方案不如父代防御策略的解决方案，这意味着它失败了，此时奖励值为0。

采用下式比较子代防御策略和父代防御策略的目标函数适应度值，选取适应度较高的作为当前时刻的最优安全防御策略。

其中，f(·)是适应度的函数，f(U_i，t)为子代防御策略的目标函数适应度值，f(X_i，t)为父代防御策略的目标函数适应度值；U_i，t和X_i，t是函数自变量，X_i，t是父代防御策略，U_i，t是子代防御策略。

评估的结果将有助于接下来动作f的选取，而f的选择会有助于前述步骤9中安全防御策略的自进化。比如：如果子代防御策略不如父代防御策略，说明上一时刻选取的动作f不好。在下一时刻会尝试其他的动作f，直到产生优于父代防御策略的子代防御策略。

步骤8-11不断迭代，安全防御策略不断地自我进化，本发明可以最终筛选出可以抵御APT攻击的最优防御策略。

基于上述方法的内容，本发明还提供了一种工业控制网络的智能协同自进化防御系统，具体包括：

入侵检测模型构建模块，用于在各个终端设备构建基于动态模型的工业控制网络入侵检测模型，所述工业控制网络包括多个无线通讯的终端设备。

实时入侵检测模块，用于利用所述入侵检测模型对所述各个终端设备进行实时入侵检测，判断所述各个终端设备是否受到恶意攻击。

防御模块，用于当终端设备受到恶意攻击时，则利用现有防御策略库进行防御，并判断是否防御成功；所述现有防御策略库包括多个安全防御策略。

初始化模块，用于当利用现有防御策略库防御失败时，则对所述现有防御策略库进行初始化。

突变概率确定模块，用于对初始化后的防御策略库中每个安全防御策略计算突变概率。

最优防御策略确定模块，用于根据所述突变概率对所述每个安全防御进行突变、交叉和环境选择，得到此时工业控制网络的最优防御策略。

更新模块，用于根据所述最优防御策略更新所述现有防御策略库。

本发明还公开了如下技术效果：

1、本发明提出了一种工业控制网络的智能协同自进化防御方法，具体包括一种基于动态模型的工业控制网络入侵检测机制和一种基于差分进化的防御策略自进化机制，二者协同运行，能够在定向威胁攻击(APT)入侵下，实现对工业控制网络的动态入侵检测和智能防御。

2、本发明提出一种基于动态模型的工业控制网络入侵检测机制，该机制包括两个子过程，第一，终端设备构建入侵检测机制初始模型，第二，每当节点接收到新数据包时执行DM子过程。初始化子过程在每个终端设备中只执行一次，用于设置初始参数。对于DM子过程，该过程包括两步，第一步提取数据包内容，并作为当前网络的输入，然后计算预测值的误差。第二步，通过两级测试来判断模型结构是否需要动态变化。在模型结构及参数确定后，训练好的模型会被回传给上层的交换机、防火墙，并被共享给其他终端。

3、本发明提出一种基于差分进化算法的防御策略自进化机制，当现有策略无法拦截攻击的时候，使用差分进化算法对现有策略进行随机变异，从而获得实现防御策略的自进化；并用强化学习算法来动态选择进化算法的控制参数，以适应不同的进化阶段。该机制可以在专家策略库中已有防御策略的基础上自进化随机生成新型防御策略，抵御APT攻击。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种工业控制网络的智能协同自进化防御方法，其特征在于，包括：

S4、若否，则对所述现有防御策略库进行初始化；

S7、根据所述最优防御策略更新所述现有防御策略库；

S8、对步骤S4-S7进行迭代计算，实现工业控制网络安全防御策略的自进化；

所述构建基于动态模型的工业控制网络入侵检测模型，具体包括：

获取流量数据；

将所述流量数据输入所述初始检测模型得到攻击类别；

根据所述攻击类别计算预测误差；

判断所述预测误差是否会收敛到零；

若是，则判断所述预测误差是否在95％的置信区间内；

若是，则所述初始检测模型架构不变；

2.根据权利要求1所述的工业控制网络的智能协同自进化防御方法，其特征在于，所述对初始检测模型添加隐含层，得到所述基于动态模型的工业控制网络入侵检测模型，具体包括：

确定隐含层中神经元的数量；

3.根据权利要求2所述的工业控制网络的智能协同自进化防御方法，其特征在于，采用如下公式确定隐含层中神经元的数量：

其中，为隐含层中神经元的数量；/> 是所有攻击种类的向量；||c_i||为第i类流量数据的数量；σ(∈_t|c_i)是第i类流量数据预测误差的标准差；/>是向下取整函数；/>为上一时刻的检测模型自由度；/>为类的数量。

4.根据权利要求1所述的工业控制网络的智能协同自进化防御方法，其特征在于，所述“构建初始检测模型”步骤之后，“获取流量数据”步骤之前，还包括：

5.根据权利要求1所述的工业控制网络的智能协同自进化防御方法，其特征在于，采用如下公式计算预测误差：

其中，∈_t为预测误差；是所有攻击种类的向量；/>是在时刻t上输入流量数据的真实类别；/>是由上一时刻的检测模型输出的相应数值；/>为类的数量。

6.根据权利要求1所述的工业控制网络的智能协同自进化防御方法，其特征在于，所述对现有防御策略库进行初始化，具体包括：

在现有防御策略库中随机选取Np个安全防御策略；

对所述Np个安全防御策略设置自进化的相关参数：缩放因子F在[0.1，0.9]的范围内随机取值，变化因子f在-0.1、0和0.1中随机选择。

7.根据权利要求1所述的工业控制网络的智能协同自进化防御方法，其特征在于，所述步骤S6中，通过比较子代防御策略和父代防御策略的目标函数适应度值，选取适应度值高的防御策略作为此时工业控制网络的最优防御策略。

8.根据权利要求7所述的工业控制网络的智能协同自进化防御方法，其特征在于，采用如下公式比较子代防御策略和父代防御策略的目标函数适应度值：

9.一种工业控制网络的智能协同自进化防御系统，其特征在于，包括：

自进化模块，用于对所述初始化模块、突变概率确定模块、最优防御策略确定模块和更新模块的内容进行迭代计算，实现工业控制网络安全防御策略的自进化；

获取流量数据；

将所述流量数据输入所述初始检测模型得到攻击类别；

根据所述攻击类别计算预测误差；

判断所述预测误差是否会收敛到零；

若是，则判断所述预测误差是否在95％的置信区间内；

若是，则所述初始检测模型架构不变；