CN111767538A

CN111767538A - 一种基于相关信息熵的工控入侵检测系统特征选择方法

Info

Publication number: CN111767538A
Application number: CN202010630564.9A
Authority: CN
Inventors: 石乐义; 朱红强; 徐兴华; 赵东东; 王夕冉; 兰茹; 杜杉杉; 马猛飞
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-13

Abstract

本发明提供了一种基于相关信息熵的工控入侵检测系统特征选择方法，该方法采用相关信息熵的原理，从工控系统通信流量中数据特征与攻击类别之间的关联入手，把握其中的内在联系。针对工控入侵检测系统当中存在的噪声信息和冗余特征现象，以及由此导致的检测精度较低问题，本方法将工控系统数据流解析形成原始数据集，进行相应的标准化处理。接着利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序，依据为数据特征之间、数据特征与攻击类别之间的相关性强弱。然后采用SVM方法实验统计前1个元素、前2个元素、前i个元素组成的特征子集对应的衡量值measure，直至所有元素。最终选择measure最大值对应的特征子集作为特征选择的结果。采用本方法进行工控入侵检测系统特征选择，有效缩减了计算规模和检测时间，大幅提高了检测效率和精确度。

Description

一种基于相关信息熵的工控入侵检测系统特征选择方法

技术领域

本发明涉及一种基于相关信息熵的工控入侵检测系统特征选择方法，针对工控入侵检测系统领域，采用相关信息熵的原理，利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序，然后采用SVM方法依次实验统计前1个元素、前2个元素、前i个元素组成的特征子集对应的衡量值measure，直至包含所有元素，最后选择measure最大值对应的特征子集作为特征选择的结果，有效实现对工控系统的特征选择。

背景技术

随着工业化和信息化的不断融合发展，工控系统的状态逐渐由相对封闭走向不断开放，面临的各类网络攻击和风险挑战愈发凸显。针对工控系统中存在的海量设备参数和冗余数据特征现象，工控入侵检测系统难以及时地从通信数据中发现恶意入侵行为，严重影响整个工业生产环境的安全。

特征选择，是数据降维领域的一种技术手段。特征选择通过一定评价函数来选取对跟当前工作相关的特征，剔除无关的特征。特征选择相对于其他降维方式，优势在于能够完整的保证原始特征的物理意义，非常便于理解数据的潜在意义，同时，仅对无关的特征进行删除，保留相关的特征，最大限度的减小了对原始数据的改动。因此，特征选择是非常适用于工控入侵检测系统工作中。

相关信息熵，是信息论中信息熵的一种变体。相关信息熵来源于多传感器系统领域，是一种进行信息冗余性度量的方法。该方法的主要思路是计算多变量之间相关性的度量数值，映射到[0,1]区间范围当中。根据相关信息熵的原理，变量的独立程度越高，变量之间的冗余程度越低，对应的相关信息熵的数值越大。相关信息熵有效降低了数据特征之间的冗余程度，缩减了入侵检测的数据规模，因此非常适用于工控入侵检测系统的特征选择处理当中。

SVM算法，即支持向量机算法，是一种简单操作的机器学习算法。该算法的原理是在特征空间上定义间隔最大的线性分类器，可以实现二分类操作。同时，SVM能够配合核函数，从而能够实现非线性分类器，进行多分类操作。SVM的学习策略是间隔距离的最大化，形式化可以表示为求解凸二次规划问题。因此，SVM适用于工控入侵检测系统的效果试验。

minmax函数，又称极小极大化函数，是一种数据归一化方式。minmax函数采取一种无量纲处理的手段，将设备参数的绝对值转变为相对值关系。该函数将数值原来带有物理意义绝对数值转换为另一个无量纲的相对数值，使得每个数值的值域都在0～1之间，并且对所有元素求和为1。minmax函数有效地降低奇异数据样本，同时使得数据值域统一起来，便于工控入侵检测系统的数据处理。

针对当前工控入侵检测系统存在的计算量大和检测精度低的问题，首先利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序，然后采用SVM方法依次实验统计前i个元素组成的特征子集对应的准确率measure，直至包含所有元素，进而选择measure最大值对应的特征子集作为特征选择的结果。

发明内容

为了提高工控入侵检测系统的效率和准确度，本发明提出一种基于相关信息熵的工控入侵检测系统特征选择方法，利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序，然后采用SVM方法依次实验统计前i个元素组成的特征子集对应的衡量值measure，选择最大measure数值对应的特征子集为最优特征子集，从而提高入侵检测的效率和准确度。

其特征在于以下步骤：

(1)获取工控系统数据，进行相应预处理

通过捕获工控系统信道中数据流生成原始数据集，进行相应的归一化后，数据集的格式为D＝(d₁,d₂,d₃,…,d_n,c),d_n∈(0,1)；

(2)依据相关信息熵进行特征排序

根据相关信息熵原理对数据集的数据特征和攻击类别的关联性进行排序，首先计算流量特征与所属类别的互信息，选取跟类别互信息最大的特征作为已排序集合S的第一位，接着构造出相关矩阵，将剩余元素依次加入集合S中，计算相关信息熵数值

直到所有元素都加入到S中，然后将第二位至最后一位按照相关信息熵由大到小排序；

(3)采用SVM算法测试并进行measure统计

依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集，直至包含所有元素，然后利用机器学习的SVM算法，定义评价指标衡量值measure，依次对特征子集的效果进行统计记录；

(4)筛选出最优特征子集

选取最大的衡量值measure对应的特征子集作为最优特征子集。

附图说明

为了更清楚的说明本发明实施例中的技术方案，下面结合附图与具体实施方案对本发明做进一步说明：

图1基于相关信息熵的工控入侵检测系统特征选择流程图。

图2 SVM原理示意图。

具体实施方式

下面结合附图对本发明作进一步详细的描述，本发明主要包括以下几个步骤：

(1)获取工控系统数据，进行相应预处理，利用服务器监听工控系统的信道，捕获固定时间内的通信数据包，解析数据包提取各个特征和正常异常类别，形成原始数据集D_raw＝(d₁,d₂,d₃,...,d_n,c)，其中d_n表示第n个特征，c表示所属类别；同时针对原始数据存在量纲不统一的问题，通过minmax归一化处理，实现消除原始数据的奇异数据，计算表达式如下所示：

其中，d表示原始数据中的一个特征,d_min表示该特征中的最小值，d_max表示该特征中的最大值，d_new表示经过minmax处理后的特征值，且取值范围在0～1之间；

(2)依据相关信息熵进行特征排序，工控系统的特征有的跟入侵检测工作相关，有的跟入侵检测关系较弱，有必要根据相关性对特征进行排序，

1)首先，计算流量特征d_i与所属类别c_j的互信息I_ij：

I_ij＝I(d_i；c_j)＝H(d_i)+H(c_j)-H(d_i,c_j)

假设已排序集合为S，选取跟类别互信息最大的特征作为排序集合S的第一位S(1)：

S(1)＝argmax(I_ij)

2)接着，根据流量特征d_i与所属类别c_j的互信息I_ij构造出相关矩阵R：

其中，F表示多特征类型矩阵，F^T表示F的转置，矩阵R可视为矩阵I和矩阵Q之和，I表示系统特征的自相关程度，Q表示工控系统的重叠程度，

3)然后，将除S(1)的剩余特征依次加入集合S中，直到所有元素都加入到S中，依次计算新添元素与已排序元素之间的相关信息熵数值

4)之后，将第二位至最后一位按照相关信息熵由大到小排序S(k)：

(3)采用SVM算法测试并进行measure统计

依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集，直至包含所有元素，定义评价指标衡量值measure：

measure＝a·ACC+b·M/N

其中，ACC表示的是工控入侵检测的准确率，M表示的是当前特征子集的维度，N表示的是原始特征集的维度，a和b表示的是调节系数，

然后利用机器学习的SVM算法，依次对各个特征子集的准确度ACC进行测试，之后计算出当前特征子集对应的measure值，并统计记录下来；

(4)筛选出最优特征子集

比较之前得出的measure数值，measure数值越大，表示当前的特征子集能够实现提高准确率和降低特征规模的能力越强，因此，选取最大的衡量值measure对应的特征子集作为最优特征子集。

本发明主要利用相关信息熵的原理实现工控入侵检测系统的特征选择。利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序，然后采用机器学习的常用算法SVM依次实验统计前i个元素组成的特征子集对应的准确率measure，直至包含所有元素，进而选择measure最大值对应的特征子集作为特征选择的结果。利用相关信息熵能够大幅降低了工控入侵检测系统的数据规模，同时大幅提高了效率和准确度。

Claims

1.一种基于相关信息熵的工控入侵检测系统特征选择方法，其特征在于包含以下步骤：

a.获取工控系统数据，进行相应预处理；

b.依据相关信息熵进行特征排序；

c.采用SVM算法测试并进行measure统计；

d.筛选出最优特征子集。

2.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法，其特征在于：

所述步骤a中，监听捕获工控系统的通信数据包，解析提取各个特征和正常异常类别，形成原始数据集D_raw＝(d₁,d₂,d₃,...,d_n,c)，其中d_n表示第n个特征，c表示所属类别，同时针对原始数据存在量纲不统一的问题，通过minmax函数进行归一化处理。

3.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法，其特征在于：

所述步骤b中，首先计算流量特征与所属类别的互信息，选取跟类别互信息最大的特征作为已排序集合S的第一个元素，接着构造出相关矩阵，将剩余元素依次加入已排序集合S中，计算相关信息熵数值，直到所有元素都加入到S中，然后将S的第二个元素到最后的元素按照相关信息熵由大到小排序。

4.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法，其特征在于：

在步骤c中，依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集，直至包含所有元素，然后利用机器学习的SVM算法，定义评价指标衡量值measure，依次对特征子集的效果进行统计记录。

5.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法，其特征在于：

在步骤d中，选取最大的衡量值measure对应的特征子集作为最优特征子集。