CN111767538A - 一种基于相关信息熵的工控入侵检测系统特征选择方法 - Google Patents

一种基于相关信息熵的工控入侵检测系统特征选择方法 Download PDF

Info

Publication number
CN111767538A
CN111767538A CN202010630564.9A CN202010630564A CN111767538A CN 111767538 A CN111767538 A CN 111767538A CN 202010630564 A CN202010630564 A CN 202010630564A CN 111767538 A CN111767538 A CN 111767538A
Authority
CN
China
Prior art keywords
industrial control
information entropy
related information
intrusion detection
detection system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010630564.9A
Other languages
English (en)
Inventor
石乐义
朱红强
徐兴华
赵东东
王夕冉
兰茹
杜杉杉
马猛飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202010630564.9A priority Critical patent/CN111767538A/zh
Publication of CN111767538A publication Critical patent/CN111767538A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种基于相关信息熵的工控入侵检测系统特征选择方法,该方法采用相关信息熵的原理,从工控系统通信流量中数据特征与攻击类别之间的关联入手,把握其中的内在联系。针对工控入侵检测系统当中存在的噪声信息和冗余特征现象,以及由此导致的检测精度较低问题,本方法将工控系统数据流解析形成原始数据集,进行相应的标准化处理。接着利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序,依据为数据特征之间、数据特征与攻击类别之间的相关性强弱。然后采用SVM方法实验统计前1个元素、前2个元素、前i个元素组成的特征子集对应的衡量值measure,直至所有元素。最终选择measure最大值对应的特征子集作为特征选择的结果。采用本方法进行工控入侵检测系统特征选择,有效缩减了计算规模和检测时间,大幅提高了检测效率和精确度。

Description

一种基于相关信息熵的工控入侵检测系统特征选择方法
技术领域
本发明涉及一种基于相关信息熵的工控入侵检测系统特征选择方法,针对工控入侵检测系统领域,采用相关信息熵的原理,利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序,然后采用SVM方法依次实验统计前1个元素、前2个元素、前i个元素组成的特征子集对应的衡量值measure,直至包含所有元素,最后选择measure最大值对应的特征子集作为特征选择的结果,有效实现对工控系统的特征选择。
背景技术
随着工业化和信息化的不断融合发展,工控系统的状态逐渐由相对封闭走向不断开放,面临的各类网络攻击和风险挑战愈发凸显。针对工控系统中存在的海量设备参数和冗余数据特征现象,工控入侵检测系统难以及时地从通信数据中发现恶意入侵行为,严重影响整个工业生产环境的安全。
特征选择,是数据降维领域的一种技术手段。特征选择通过一定评价函数来选取对跟当前工作相关的特征,剔除无关的特征。特征选择相对于其他降维方式,优势在于能够完整的保证原始特征的物理意义,非常便于理解数据的潜在意义,同时,仅对无关的特征进行删除,保留相关的特征,最大限度的减小了对原始数据的改动。因此,特征选择是非常适用于工控入侵检测系统工作中。
相关信息熵,是信息论中信息熵的一种变体。相关信息熵来源于多传感器系统领域,是一种进行信息冗余性度量的方法。该方法的主要思路是计算多变量之间相关性的度量数值,映射到[0,1]区间范围当中。根据相关信息熵的原理,变量的独立程度越高,变量之间的冗余程度越低,对应的相关信息熵的数值越大。相关信息熵有效降低了数据特征之间的冗余程度,缩减了入侵检测的数据规模,因此非常适用于工控入侵检测系统的特征选择处理当中。
SVM算法,即支持向量机算法,是一种简单操作的机器学习算法。该算法的原理是在特征空间上定义间隔最大的线性分类器,可以实现二分类操作。同时,SVM能够配合核函数,从而能够实现非线性分类器,进行多分类操作。SVM的学习策略是间隔距离的最大化,形式化可以表示为求解凸二次规划问题。因此,SVM适用于工控入侵检测系统的效果试验。
minmax函数,又称极小极大化函数,是一种数据归一化方式。minmax函数采取一种无量纲处理的手段,将设备参数的绝对值转变为相对值关系。该函数将数值原来带有物理意义绝对数值转换为另一个无量纲的相对数值,使得每个数值的值域都在0~1之间,并且对所有元素求和为1。minmax函数有效地降低奇异数据样本,同时使得数据值域统一起来,便于工控入侵检测系统的数据处理。
针对当前工控入侵检测系统存在的计算量大和检测精度低的问题,首先利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序,然后采用SVM方法依次实验统计前i个元素组成的特征子集对应的准确率measure,直至包含所有元素,进而选择measure最大值对应的特征子集作为特征选择的结果。
发明内容
为了提高工控入侵检测系统的效率和准确度,本发明提出一种基于相关信息熵的工控入侵检测系统特征选择方法,利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序,然后采用SVM方法依次实验统计前i个元素组成的特征子集对应的衡量值measure,选择最大measure数值对应的特征子集为最优特征子集,从而提高入侵检测的效率和准确度。
其特征在于以下步骤:
(1)获取工控系统数据,进行相应预处理
通过捕获工控系统信道中数据流生成原始数据集,进行相应的归一化后,数据集的格式为D=(d1,d2,d3,…,dn,c),dn∈(0,1);
(2)依据相关信息熵进行特征排序
根据相关信息熵原理对数据集的数据特征和攻击类别的关联性进行排序,首先计算流量特征与所属类别的互信息,选取跟类别互信息最大的特征作为已排序集合S的第一位,接着构造出相关矩阵,将剩余元素依次加入集合S中,计算相关信息熵数值
Figure BDA0002568487460000021
直到所有元素都加入到S中,然后将第二位至最后一位按照相关信息熵由大到小排序;
(3)采用SVM算法测试并进行measure统计
依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集,直至包含所有元素,然后利用机器学习的SVM算法,定义评价指标衡量值measure,依次对特征子集的效果进行统计记录;
(4)筛选出最优特征子集
选取最大的衡量值measure对应的特征子集作为最优特征子集。
附图说明
为了更清楚的说明本发明实施例中的技术方案,下面结合附图与具体实施方案对本发明做进一步说明:
图1基于相关信息熵的工控入侵检测系统特征选择流程图。
图2 SVM原理示意图。
具体实施方式
下面结合附图对本发明作进一步详细的描述,本发明主要包括以下几个步骤:
(1)获取工控系统数据,进行相应预处理,利用服务器监听工控系统的信道,捕获固定时间内的通信数据包,解析数据包提取各个特征和正常异常类别,形成原始数据集Draw=(d1,d2,d3,...,dn,c),其中dn表示第n个特征,c表示所属类别;同时针对原始数据存在量纲不统一的问题,通过minmax归一化处理,实现消除原始数据的奇异数据,计算表达式如下所示:
Figure BDA0002568487460000031
其中,d表示原始数据中的一个特征,dmin表示该特征中的最小值,dmax表示该特征中的最大值,dnew表示经过minmax处理后的特征值,且取值范围在0~1之间;
(2)依据相关信息熵进行特征排序,工控系统的特征有的跟入侵检测工作相关,有的跟入侵检测关系较弱,有必要根据相关性对特征进行排序,
1)首先,计算流量特征di与所属类别cj的互信息Iij
Iij=I(di;cj)=H(di)+H(cj)-H(di,cj)
假设已排序集合为S,选取跟类别互信息最大的特征作为排序集合S的第一位S(1):
S(1)=argmax(Iij)
2)接着,根据流量特征di与所属类别cj的互信息Iij构造出相关矩阵R:
Figure BDA0002568487460000032
其中,F表示多特征类型矩阵,FT表示F的转置,矩阵R可视为矩阵I和矩阵Q之和,I表示系统特征的自相关程度,Q表示工控系统的重叠程度,
3)然后,将除S(1)的剩余特征依次加入集合S中,直到所有元素都加入到S中,依次计算新添元素与已排序元素之间的相关信息熵数值
Figure BDA0002568487460000033
Figure BDA0002568487460000034
4)之后,将第二位至最后一位按照相关信息熵由大到小排序S(k):
Figure BDA0002568487460000035
(3)采用SVM算法测试并进行measure统计
依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集,直至包含所有元素,定义评价指标衡量值measure:
measure=a·ACC+b·M/N
其中,ACC表示的是工控入侵检测的准确率,M表示的是当前特征子集的维度,N表示的是原始特征集的维度,a和b表示的是调节系数,
然后利用机器学习的SVM算法,依次对各个特征子集的准确度ACC进行测试,之后计算出当前特征子集对应的measure值,并统计记录下来;
(4)筛选出最优特征子集
比较之前得出的measure数值,measure数值越大,表示当前的特征子集能够实现提高准确率和降低特征规模的能力越强,因此,选取最大的衡量值measure对应的特征子集作为最优特征子集。
本发明主要利用相关信息熵的原理实现工控入侵检测系统的特征选择。利用相关信息熵原理对数据集的数据特征和攻击类别进行重要性排序,然后采用机器学习的常用算法SVM依次实验统计前i个元素组成的特征子集对应的准确率measure,直至包含所有元素,进而选择measure最大值对应的特征子集作为特征选择的结果。利用相关信息熵能够大幅降低了工控入侵检测系统的数据规模,同时大幅提高了效率和准确度。

Claims (5)

1.一种基于相关信息熵的工控入侵检测系统特征选择方法,其特征在于包含以下步骤:
a.获取工控系统数据,进行相应预处理;
b.依据相关信息熵进行特征排序;
c.采用SVM算法测试并进行measure统计;
d.筛选出最优特征子集。
2.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法,其特征在于:
所述步骤a中,监听捕获工控系统的通信数据包,解析提取各个特征和正常异常类别,形成原始数据集Draw=(d1,d2,d3,...,dn,c),其中dn表示第n个特征,c表示所属类别,同时针对原始数据存在量纲不统一的问题,通过minmax函数进行归一化处理。
3.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法,其特征在于:
所述步骤b中,首先计算流量特征与所属类别的互信息,选取跟类别互信息最大的特征作为已排序集合S的第一个元素,接着构造出相关矩阵,将剩余元素依次加入已排序集合S中,计算相关信息熵数值,直到所有元素都加入到S中,然后将S的第二个元素到最后的元素按照相关信息熵由大到小排序。
4.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法,其特征在于:
在步骤c中,依次将前1个元素、前2个元素、前i个元素组成的特征子集组成候选的特征子集,直至包含所有元素,然后利用机器学习的SVM算法,定义评价指标衡量值measure,依次对特征子集的效果进行统计记录。
5.根据权利要求1所述的一种基于相关信息熵的工控入侵检测系统特征选择方法,其特征在于:
在步骤d中,选取最大的衡量值measure对应的特征子集作为最优特征子集。
CN202010630564.9A 2020-07-03 2020-07-03 一种基于相关信息熵的工控入侵检测系统特征选择方法 Withdrawn CN111767538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010630564.9A CN111767538A (zh) 2020-07-03 2020-07-03 一种基于相关信息熵的工控入侵检测系统特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010630564.9A CN111767538A (zh) 2020-07-03 2020-07-03 一种基于相关信息熵的工控入侵检测系统特征选择方法

Publications (1)

Publication Number Publication Date
CN111767538A true CN111767538A (zh) 2020-10-13

Family

ID=72723560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010630564.9A Withdrawn CN111767538A (zh) 2020-07-03 2020-07-03 一种基于相关信息熵的工控入侵检测系统特征选择方法

Country Status (1)

Country Link
CN (1) CN111767538A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113009817A (zh) * 2021-02-08 2021-06-22 浙江大学 一种基于控制器输出状态安全熵的工控系统入侵检测方法
CN113206820A (zh) * 2021-03-09 2021-08-03 中国大唐集团科学技术研究院有限公司 一种基于改进特征选择算法的电厂工控系统入侵检测方法
CN113420291A (zh) * 2021-07-19 2021-09-21 宜宾电子科技大学研究院 基于权重集成的入侵检测特征选择方法
CN113537734A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100686399B1 (ko) * 2006-03-08 2007-02-26 전남대학교산학협력단 컴퓨터 상에서 상관관계 기반의 하이브리드 특징 선택을 통한 경량화된 침입탐지방법
CN107392015A (zh) * 2017-07-06 2017-11-24 长沙学院 一种基于半监督学习的入侵检测方法
CN110166484A (zh) * 2019-06-06 2019-08-23 中国石油大学(华东) 一种基于LSTM-Attention网络的工业控制系统入侵检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100686399B1 (ko) * 2006-03-08 2007-02-26 전남대학교산학협력단 컴퓨터 상에서 상관관계 기반의 하이브리드 특징 선택을 통한 경량화된 침입탐지방법
CN107392015A (zh) * 2017-07-06 2017-11-24 长沙学院 一种基于半监督学习的入侵检测方法
CN110166484A (zh) * 2019-06-06 2019-08-23 中国石油大学(华东) 一种基于LSTM-Attention网络的工业控制系统入侵检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石乐义: "基于相关信息熵和CNN-BiLSTM的工业控制系统入侵检测", 《计算机研究与发展》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113009817A (zh) * 2021-02-08 2021-06-22 浙江大学 一种基于控制器输出状态安全熵的工控系统入侵检测方法
CN113206820A (zh) * 2021-03-09 2021-08-03 中国大唐集团科学技术研究院有限公司 一种基于改进特征选择算法的电厂工控系统入侵检测方法
CN113537734A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法
CN113537734B (zh) * 2021-06-28 2023-02-03 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法
CN113420291A (zh) * 2021-07-19 2021-09-21 宜宾电子科技大学研究院 基于权重集成的入侵检测特征选择方法

Similar Documents

Publication Publication Date Title
CN110691100B (zh) 基于深度学习的分层网络攻击识别与未知攻击检测方法
CN111767538A (zh) 一种基于相关信息熵的工控入侵检测系统特征选择方法
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN107493277B (zh) 基于最大信息系数的大数据平台在线异常检测方法
CN111314353B (zh) 一种基于混合采样的网络入侵检测方法及系统
CN114386514B (zh) 基于动态网络环境下的未知流量数据识别方法及装置
CN117040917A (zh) 一种具有监测预警功能的智慧型交换机
CN117421684B (zh) 基于数据挖掘和神经网络的异常数据监测与分析方法
CN113762377A (zh) 网络流量识别方法、装置、设备及存储介质
CN111614576A (zh) 一种基于小波分析和支持向量机的网络数据流量识别方法及系统
CN113553624A (zh) 基于改进pate的wgan-gp隐私保护系统和方法
CN114503131A (zh) 检索装置、检索方法、检索程序和学习模型检索系统
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN114553591A (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN117170979B (zh) 一种大规模设备的能耗数据处理方法、系统、设备及介质
CN117014193A (zh) 一种基于行为基线的未知Web攻击检测方法
CN111031042A (zh) 一种基于改进d-s证据理论的网络异常检测方法
CN113852612B (zh) 一种基于随机森林的网络入侵检测方法
CN114390002A (zh) 基于分组条件熵的网络流量多模块聚类异常检测方法
CN115392375A (zh) 一种多源数据融合度智能评估方法及其系统
CN112014821B (zh) 一种基于雷达宽带特征的未知车辆目标识别方法
CN115842645A (zh) 基于umap-rf的网络攻击流量检测方法、装置及可读存储介质
CN113313138A (zh) 基于概率生成模型的入侵行为特征转换方法、检测方法
CN116150666B (zh) 储能系统故障检测方法、装置及智能终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201013

WW01 Invention patent application withdrawn after publication