CN116340936A

CN116340936A - 融合强化学习和特征选择优化的ics入侵检测系统及方法

Info

Publication number: CN116340936A
Application number: CN202310283388.XA
Authority: CN
Inventors: 曾国强; 王超; 李理敏; 耿光刚; 翁健; 陆康迪; 黄家承
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-27

Abstract

本发明公开了一种融合强化学习和特征选择优化的ICS入侵检测系统及方法，将工业控制系统(ICS)历史数据集的数据特征选择进行二进制编码和种群初始化，通过SVM‑强化学习进行离线训练，将在验证集上得到的准确率作为适应度函数，设计基于累计概率的交叉操作和变异操作对种群进行更新，经过迭代优化后从而获得最优特征集合；基于最优特征集合对ICS实时数据集进行特征选择，通过支持向量机(SVM)‑强化学习对实时数据集进行在线入侵检测测试，从而获得入侵检测性能指标。本发明采用了基于SVM‑强化学习新模式，并在此基础上融合了最优特征选择的智能优化，提升了ICS入侵检测系统的智能化设计水平和入侵检测的精度。

Description

融合强化学习和特征选择优化的ICS入侵检测系统及方法

技术领域

本发明涉及工业控制系统信息安全领域的智能入侵检测技术，尤其涉及一种融合强化学习和特征选择优化的ICS入侵检测系统及方法。

背景技术

工业是国民经济的主导，工业控制系统(Industrial Control Systems，ICS)用于管理、指导和调节自动化工业过程的行为，所以ICS对于工业的安全可靠和高效运行至关重要，可以说ICS相当于工业的大脑。而在当今信息化和工业化的高度融合，一方面使得工业控制系统更加精确和高效，而另一方面也面临着日益严峻的安全威胁。

入侵检测系统(Intrusion Detection System，IDS)通过对系统的运行状况进行监视，尽可能分析各种攻击目的、攻击行为或者攻击结果，以保证系统资源的机密性、完整性和可用性。IDS是保障工业控制系统安全的核心技术之一，因此IDS受到了学术界和工业界的广泛关注。然而传统的IDS在面对当前高实时、大容量以及复杂多维的工业物联网数据时，往往需要复杂的训练过程，且准确率有待提高。因此，如何进行最优特征选择以高效压缩ICS数据集进而提高IDS的运行效率和性能已成为学术界和工业界亟待解决的技术难题之一。

近年来，基于深度学习的工业控制系统入侵检测技术已成为学术界和工业界的研发热点之一。深度强化学习技术不仅结合了深度神经网络和强化学习，不仅能够从已知网络环境中获取最大化的奖励，而且其具备探索功能，能够自动在网络环境中挖掘更多有价值的信息，模型收敛速度快；支持向量机(Support Vector Machine，SVM)的泛化性能比较好,不容易过拟合，针对少量的数据和高维数据也能有很好的效果。但目前在ICS入侵检测研究领域，鲜有融合SVM-强化学习新模式的研究报道。

综述所述，融合强化学习和特征选择智能优化的ICS入侵检测新技术具有重要的价值，且亟待研发。

发明内容

本发明的目的在于针对现有技术的不足，提供一种融合强化学习和特征选择优化的ICS入侵检测系统及方法。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种融合强化学习和特征选择优化的ICS入侵检测系统，所述系统包括ICS入侵检测数据采集模块、基于SVM-强化学习的特征选择离线优化模块和基于最优特征的SVM-强化学习在线入侵检测模块；

所述ICS入侵检测数据采集模块，用于从工业控制系统的历史数据库中采集生产过程监控状态的历史数据，经过数据解析，获得源数据集，标记为X，并按照公式(1)进行数据的归一化处理，以获取离线训练数据集，将其标记为X_o，将X_o按比例随机分割以获取训练集X_o1与验证集X_o2，将所述训练集X_o1与验证集X_o2输入到基于SVM-强化学习的特征选择离线优化模块；

其中，X_oj表示离线训练数据集X_o第j维度的特征，X_j表示源数据集X第j维度的特征，X_jmax与X_jmin分别表示X_j的最小值与最大值，d表示X_o维度的最大值；

所述ICS入侵检测数据采集模块，用于从ICS实时数据库中采集生产过程的实时监控数据，经过数据解析和数据归一化处理后，得到在线检测数据集，将该在线检测数据集输入基于最优特征的SVM-强化学习在线入侵检测模块；

所述基于SVM-强化学习的特征选择离线优化模块，用于将ICS历史数据集的数据特征选择进行二进制编码和种群初始化，通过SVM-强化学习进行离线训练，将在验证集上得到的准确率作为适应度函数，基于累计概率的交叉操作和变异操作对种群进行更新，经过迭代优化后从而获得最优特征集合，将获得的最优特征集合输入到基于最优特征的SVM-强化学习在线入侵检测模块；

所述基于最优特征的SVM-强化学习在线入侵检测模块，用于基于最优特征集合对ICS实时数据集进行特征选择，通过SVM-强化学习对实时数据集进行在线入侵检测测试，以获取入侵检测性能指标。

本发明实施例第二方面提供了一种应用上述系统的融合强化学习和特征选择优化的ICS入侵检测方法，包括以下步骤：

(1)设置基于SVM-强化学习的特征选择离线优化模块的参数值，所述参数值包括种群大小N、迭代优化次数I、交叉率P_c、变异率P_m，强化学习的训练轮次EP、强化学习行动者和批判者的网络参数，所述强化学习行动者和批判者的网络参数包括网络层数D，强化学习行动者的学习率lr₁，批判者的学习率lr₂，损失函数loss，强化学习行动者的优化器optimizer₁，批判者的优化器optimizer₂；

(2)将随机生成的N个二进制编码的个体作为初始种群Q＝{Ind_j,j＝1,2,…,N}，每个个体采用二进制编码，编码形式为Ind_j＝(a₁,a₂,…,a_i,…,a_n)，在此Ind_j代表种群中第j个个体，a_i代表个体中每个基因的编码，1≤i≤n，n表示数据集中特征数量的最大值，a_i的具体定义公式(2)表示为：

其中，每一个Ind_j的初始化就是随机初始化n个a_i，即随机生成一串长度为n的二进制字符串，该二进制字符串的信息就代表着对数据集中n个特征的选择组合；

(3)对种群Q进行性能评估，具体评估过程如下：

(3.1)依据种群Q中每个个体对应的二进制编码信息，将离线训练数据集X_o1进行

特征选择之后，作为SVM-强化学习离线训练的数据输入；

(3.2)所述SVM-强化学习离线训练的实现过程如下：

初始化强化学习环境env类，所述env类拥有2个属性，分别是：数据的分组大小

batch_size和数据的维度大小state_shape；env类拥有2个函数，分别是：状态更新函数

upstate和动作函数act；所述状态更新函数upstate的返回值为状态state，所述状态更新函数upstate的功能为从数据集中随机抽取一个batch_size大小的数据命名为state返回；

所述动作函数act的输入参数是动作action和state，输出是下一个state和奖励reward，

所述动作函数act的功能实现是通过对比action和state的标签label，如果action值和label值相等，则该action的reward取1；如果不相等，则该action对应的reward取值0，再调用upstate更新state获取state+1，返回reward和state+1；

强化学习行动者网络的初始化采用3层网络，第一层是输入层，第二层隐藏层网络大小为hindden_size，采用的是高斯核函数作为映射，并且网络的损失函数loss采用的是hinge损失函数，以此和基于高斯核函数的SVM一一对应，第三层是输出层，优化器为optimizer₁，学习率为lr₁；

批判者初始化采用的是3层网络，3层都是全连接层，其中第二层隐藏层网络大小为hindden_size，优化器optimizer₂，学习率为lr₂；

env类调用状态更新函数upstate得到state，再接着选择一个随机数r＝random(0,1)，random(0,1)表示随机选择一个0到1之间的小数；

action的具体计算如公式(3)所示：

其中，ε是一个超参数用于判断action的选择，n_D表示离线训练数据集X_o1经特征选择后的数据总数，α_h表示上一步的action，y_h表示是上一步的数据标签，δ是高斯函数的一个参数，c是一个偏置量，

代表总体的state，s表示/>

中的一个状态state，

代表第h次随机选择的state，A代表的是总体的action集合；Env执行动作函数act，输入action，输出reward和下一个state，称为state+1，然后批判者根据state、reward和state+1，按照公式(4)获取td_error对强化学习行动者进行评估，以此来更新强化学习

行动者：

td_error＝reward+d×LAM×(V_--V)(4)

其中，V表示批判者对state的评估值，V_-表示批判者对state+1的评估值，LAM是一个表示state和state+1数据之间的联系程度的超参数，d表示是否加上后面的结果，即当d＝0时，则表示舍弃后面的结果，当d为0到1之间的小数，则表示按权重添加后面的结果；根据获取的td_error，强化学习行动者利用action、state和td_error更新自身网络参数权重；

(3.3)执行SVM-强化学习EP轮次的离线训练，针对验证集X_o2进行验证测试，以验证集X_o2上准确率为标准，统计出每个个体对应的最终准确率，将其作为每个个体的个体适应度值f_j(j＝1，2，…，N)，并确定准确率最高的个体为最优个体Indi_best；

(4)按照公式(5)计算出种群Q中每个个体被遗传到下一代群体中的概率p_j(j＝1，2，…，N)，按照公式(6)计算每个个体的累计概率q_j：

(5)随机生成一个0到1之间的随机数r₁＝random(0,1)，如果r₁≤交叉率P_c，则进行交叉操作，否则不进行交叉操作；所述交叉操作实现步骤具体为：随机生成一个0到1之间的随机数r₂＝random(0,1)，如果

则从种群Q中选择第j₁个个体；随机生成一个0到1之间的随机数r₃＝random(0,1)且r₃≠r₂，如果/>

则从种群Q中选择第j₂个个体，然后随机生成一个1到n之间的整数k＝randint(1,n)，其中randint(1,n)表示随机生成一个1到n之间的整数，将第j₁个和第j₂个个体的第k个位置对应的编码a_k进行数值互换，其它数值保持不变；将交叉操作后的种群标记为Q_c；

(6)从种群Q_c中随机选择出一个个体，随机生成一个随机数r₄＝random(0,1)，如果r₄≤变异率P_m，则对该个体进行变异操作，否则不进行变异操作；所述变异操作具体为：随机生成一个1到n之间的整数m＝randint(1,n)，将待变异个体的第m个位置对应的编码a_m进行二进制变异，如果原来的a_m值是0，则变异后的a_m变成1，如果原来的a_m值为1，则变异后的a_m变成0；将变异后的种群标记为Q_m；

(7)无条件接受Q＝Q_m；

(8)重复所述步骤(3)～所述步骤(7)，直到满足设定的迭代优化次数I为止；

(9)获取最优个体Indi_best，以获取Indi_best二进制编码序列所对应的最优特征集合；

(10)基于最优特征集合对ICS实时数据集X_r进行特征选择，以获取数据子集X_t；

(11)按照所述步骤(3.2)中的SVM-强化学习对获得的数据子集X_t进行在线入侵检测测试，对检测的异常数据进行报警，并按照公式(7)～(9)计算入侵检测的准确率、召回率和F₁评分：

其中，TP表示将正常ICS数据样本正确地预测为正常分类的数量，TN表示将异常ICS数据样本正确地预测为异常分类的数量，FP表示将异常ICS数据样本错误地预测为正常分类的数量，FN表示将正常ICS数据样本错误地预测为异常分类的数量。

本发明的有益效果是，本发明通过特征选择智能优化将ICS数据集中的数据约简冗余，以此来去除相关的噪声和无消息数据，降低算法的空间复杂度和时间复杂度，缓解过拟合问题，而且本发明采用了基于SVM-强化学习新模式，充分发挥了支持向量机处理高维数据以及少量数据所具有的优势，还同时融合了强化学习的自适应和探索性，提升了ICS入侵检测系统的智能化设计水平和入侵检测的精度。

附图说明

图1是融合强化学习和特征选择优化的ICS入侵检测系统及方法的原理示意图；

图2是特征选择优化的二进制编码示意图；

图3是强化学习方法的原理示意图；

图4是交叉操作的示意图；

图5是变异操作的示意图；

图6是本发明技术与现有单一支持向量机(Support Vector Machine，SVM)、单一强化学习(Reinforcement Learning，RL)分别在准确率、召回率和F1评分上的对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以一个典型的ICS系统为实施例，图1给出了融合强化学习和特征选择优化的ICS入侵检测系统及方法的原理示意图。

参见图1，本发明的融合强化学习和特征选择优化的ICS入侵检测系统，该系统包括工业控制系统(Industrial Control Systems，ICS)入侵检测数据采集模块、基于支持向量机(SupportVector Machine，SVM)-强化学习的特征选择离线优化模块和基于最优特征的SVM-强化学习在线入侵检测模块。

本实施例中，ICS入侵检测数据采集模块从工业控制系统的历史数据库中采集生产过程监控状态的历史数据，经过数据解析，获得源数据集，标记为X，并按照公式(1)进行数据的归一化处理，获得离线训练数据集，将其标记为X_o，将X_o按比例随机分割以获取训练集X_o1与验证集X_o2，将训练集X_o1与验证集X_o2输入到基于SVM-强化学习的特征选择离线优化模块；

其中，X_oj表示离线训练数据集X_o第j维度的特征，X_j表示源数据集X第j维度的特征，X_jmax与X_jmin分别表示X_j的最小值与最大值，d表示X_o维度的最大值，在本实施例中d＝51。

本实施例中，ICS入侵检测数据采集模块从ICS实时数据库中采集生产过程的实时监控数据，经过数据解析和数据归一化处理后，得到在线检测数据集，将该在线检测数据集输入基于最优特征的SVM-强化学习在线入侵检测模块。

本实施例中，基于SVM-强化学习的特征选择离线优化模块，将ICS历史数据集的数据特征选择进行二进制编码和种群初始化，通过支持向量机SVM-强化学习进行离线训练，将在验证集上得到的准确率作为适应度函数，设计基于累计概率的交叉操作和变异操作对种群进行更新，经过迭代优化后从而获得最优特征集合，将获得的最优特征集合输入到基于最优特征的SVM-强化学习在线入侵检测模块。

本实施例中，基于最优特征的SVM-强化学习在线入侵检测模块，基于最优特征集合对ICS实时数据集进行特征选择，通过SVM-强化学习对实时数据集进行在线入侵检测测试，从而获得入侵检测性能指标。

值得一提的是，本发明实施例还提供了一种融合强化学习和特征选择优化的ICS入侵检测方法，该方法应用上述实施例所述的ICS入侵检测系统，具体包括以下步骤：

(1)设置基于SVM-强化学习的特征选择离线优化模块的参数值，所述参数值包括种群大小N＝10、迭代优化次数I＝20、交叉率P_c＝0.7、变异率P_m＝0.02，强化学习的训练轮次EP＝300、强化学习行动者(actor)网络采用3层网络，分别为输入层，隐藏层采用高斯核函数映射，并且网络的损失函数采用的是合页损失(hinge loss)函数，以此和高斯核函数支持向量机一一对应，学习率lr₁＝0.001，优化器optimizer₁＝自适应矩估计优化器(adaptive moment estimation，adam)，批判者(critic)的网络参数包括网络层数D＝3，三层均为全连接层，优化器optimizer₂＝adam，学习率lr₂＝0.001。

应当理解的是，也可以选择其它参数值，具体可以根据实际情况进行设置。

(2)将随机生成的N＝10个二进制编码的个体作为初始种群Q＝{Ind_j,j＝1,2,…,N}，每个个体采用二进制编码，编码形式为Ind_j＝(a₁,a₂,…,a_i,…,a_n)，在此Ind_j代表种群中第j个个体，a_i代表个体中每个基因的编码，1≤i≤n，n表示数据集中特征数量的最大值，a_i的具体定义公式(2)所示：

每一个Ind_j的初始化就是随机初始化n个a_i，即随机生成一串长度为n的二进制字符串，该二进制字符串的信息就代表着对数据集中n个特征的选择组合；如图2所示，显示了一个随机产生的个体编码实例，其中特征选择信息：[3,4,6,12,16,17,21,22,23,28,29,31,33,34,36,37,41,44,45,46,47,50]，则通过上述公式(2)所述的二进制编码方式，所获得的该个体基因编码信息为：(001101000001000110001110000110101101100010011110010)。

(3)对种群Q进行性能评估，具体评估过程如下：

(3.1)依据种群Q中每个个体对应的二进制编码信息，将离线训练数据集X_o1进行特征选择之后，作为SVM-强化学习离线训练的数据输入；

(3.2)SVM-强化学习离线训练的实现过程如下：

图3给出了强化学习的原理示意图，初始化强化学习环境env类，其中，env类拥有2个属性，分别是：数据的分组大小batch_size和数据的维度大小state_shape；env类拥有2个函数，分别是：状态更新函数(upstate)和动作函数(act)。状态更新函数upstate的返回值为状态(state)，其功能为从数据集中随机抽取一个batch_size大小的数据命名为state返回。动作函数act的输入参数是动作(action)和state，输出是下一个state(标记为state+1)和奖励(reward)，动作函数act的功能实现是通过对比action和state的标签(label)，如果action值和label值相等，则该action的reward取1；如果不相等，则该action对应的reward取值0，再调用upstate更新state获取state+1，返回reward和state+1。

actor网络的初始化采用3层网络，第一层是输入层，第二层隐藏层网络大小为hindden_size＝128，采用的是高斯核函数作为映射，并且网络的loss采用的是hinge损失函数，以此和基于高斯核函数的支持向量机(Support Vector Machine，SVM)一一对应，第三层是输出层，优化器为optimizer₁，学习率为lr₁。

critic初始化采用的是3层网络，3层都是全连接层，第二层隐藏层网络大小为hindden_size＝128，优化器optimizer₂，学习率为lr₂。

env类调用函数upstate得到state，再接着选择一个随机数r＝random(0,1)，其中，r＝random(0,1)表示随机选择一个0到1之间的小数。

action的具体计算如公式(3)所示：

代表总体的state，s表示/>

中的一个状态state，

代表第h次随机选择的state，A代表的是总体的action集合；Env执行动作函数act，输入action，输出reward和下一个state，称为state+1，然后批判者根据state、reward和

state+1，按照公式(4)获取td_error对强化学习行动者进行评估，以此来更新强化学习

行动者：

td_error＝reward+d×LAM×(V_--V)(4)

则从种群Q中选择第j₂个个体，然后随机生成一个1到n之间的整数k＝randint(1,n)，其中randint(1,n)表示随机生成一个1到n之间的整数，将第j₁个和第j₂个个体的第k个位置对应的编码a_k进行数值互换，其它数值保持不变；交叉操作的示意图如图4所示；将交叉操作后的种群标记为Q_c；

(6)从种群Q_c中随机选择出一个个体，随机生成一个随机数r₄＝random(0,1)，如果r₄≤变异率P_m，则对该个体进行变异操作，否则不进行变异操作；所述变异操作的具体过程如下：随机生成一个1到n之间的整数m＝randint(1,n)，将待变异个体的第m个位置对应的编码a_m进行二进制变异，如果原来的a_m值是0，则变异后的a_m变成1，如果原来的a_m值为1，则变异后的a_m变成0，如图5所示；将变异后的种群标记为Q_m。

(7)无条件接受Q＝Q_m。

(8)重复步骤(3)～步骤(7)，直到满足设定的迭代优化次数I为止。

(9)获取最优个体Indi_best，以获取Indi_best二进制编码序列所对应的最优特征集合。

(10)基于最优特征集合对ICS实时数据集X_r进行特征选择，获得数据子集X_t。

(11)按照步骤(3.2)中的SVM-强化学习对获得的数据子集X_t进行在线入侵检测测试，对检测的异常数据进行报警，并按照公式(7)～(9)计算入侵检测的准确率、召回率和F₁评分：

通过对采用本发明技术与现有单一SVM和单一RL技术针对上述实施例的实验结果对比分析，本发明技术与现有单一SVM、单一RL技术分别在准确率、召回率和F₁评分上的对比图如图6所示，可以发现：相比传统的单一支持向量机SVM和单一强化学习RL等现有技术，本发明技术获得的准确率、召回率和F₁评分等ICS入侵检测性能指标均为最好的。

本实施例中，最终获得的性能指标为：准确率＝98.90％，召回率＝98.90％，F₁评分＝99.30％。

综述所述，相比现有技术，采用本发明不仅通过特征选择智能优化将ICS数据集中的数据约简冗余，以此来去除相关的噪声和无消息数据，降低算法的空间复杂度和时间复杂度，缓解过拟合问题，而且本发明采用了基于SVM-强化学习新模式，充分发挥了SVM处理高维数据以及少量数据所具有的优势，还同时融合了强化学习的自适应和探索性，提升了ICS入侵检测系统的智能化设计水平和入侵检测的精度。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种融合强化学习和特征选择优化的ICS入侵检测系统，其特征在于，所述系统包括ICS入侵检测数据采集模块、基于SVM-强化学习的特征选择离线优化模块和基于最优特征的SVM-强化学习在线入侵检测模块；

2.一种应用权利要求1所述系统的融合强化学习和特征选择优化的ICS入侵检测方法，其特征在于，包括以下步骤：

(3)对种群Q进行性能评估，具体评估过程如下：

(3.2)所述SVM-强化学习离线训练的实现过程如下：

初始化强化学习环境env类，所述env类拥有2个属性，分别是：数据的分组大小batch_size和数据的维度大小state_shape；env类拥有2个函数，分别是：状态更新函数upstate和动作函数act；所述状态更新函数upstate的返回值为状态state，所述状态更新函数upstate的功能为从数据集中随机抽取一个batch_size大小的数据命名为state返回；

action的具体计算如公式(3)所示：

代表总体的state，s表示/>

中的一个状态state，/>

代表第h次随机选择的state，A代表的是总体的action集合；Env执行动作函数act，输入action，输出reward和下一个state，称为state+1，然后批判者根据state、reward和state+1，按照公式(4)获取td_error对强化学习行动者进行评估，以此来更新强化学习行动者：

td_error＝reward+d×LAM×(V_--V) (4)

其中，V表示批判者对state的评估值，V-表示批判者对state+1的评估值，LAM是一个表示state和state+1数据之间的联系程度的超参数，d表示是否加上后面的结果，即当d＝0时，则表示舍弃后面的结果，当d为0到1之间的小数，则表示按权重添加后面的结果；根据获取的td_error，强化学习行动者利用action、state和td_error更新自身网络参数权重；

(7)无条件接受Q＝Q_m；