CN112491797B - 一种基于非平衡工控数据集的入侵检测方法及系统 - Google Patents

一种基于非平衡工控数据集的入侵检测方法及系统 Download PDF

Info

Publication number
CN112491797B
CN112491797B CN202011169483.XA CN202011169483A CN112491797B CN 112491797 B CN112491797 B CN 112491797B CN 202011169483 A CN202011169483 A CN 202011169483A CN 112491797 B CN112491797 B CN 112491797B
Authority
CN
China
Prior art keywords
data
industrial control
classification
feature
intrusion detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011169483.XA
Other languages
English (en)
Other versions
CN112491797A (zh
Inventor
王一鹏
谷浩然
赖英旭
刘静
孙墨童
毛北逢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011169483.XA priority Critical patent/CN112491797B/zh
Publication of CN112491797A publication Critical patent/CN112491797A/zh
Application granted granted Critical
Publication of CN112491797B publication Critical patent/CN112491797B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非平衡工控数据集的入侵检测方法,以待检测的工控网络流量为输入进行数据格式的结构性转化,将网络上数据格式转化为灰度图像格式,制作出流量灰度图像;以转化的流量灰度图像作为输入,判断待分类的数据中是否存在少数类样本的;以分类特征向量集作为输入,利用数据填充补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,得到经过制作和填充后的扩充流量灰度图像;以扩充流量灰度图像作为输入,采用深度学习入侵检测方法进行入侵检测的训练和分类检测。本发明能够有效的提升入侵检测精度和提升模型检测的鲁棒性,从而解决由于工控数据的负面特点而带来的不利于入侵检测工作进行的影响。

Description

一种基于非平衡工控数据集的入侵检测方法及系统
技术领域
本发明属于工业控制系统安全技术领域,涉及工控入侵检测技术,特别涉及一种基于非平衡工控数据集的入侵检测方法及系统。
背景技术
工业控制系统(Industrial Control System,ICS)是指由计算机与工业过程控制部件组成的自动控制系统,它由控制器、传感器、传送器、执行器和输入/输出接口等部分组成。这些组成部分通过工业通信线路,按照一定的通信协议进行连接,形成一个具有自动控制能力的生产制造或加工系统。
随着工业化和信息化融合发展不断深入,工业控制系统面临更严峻的威胁。在工业控制环境中,连续运行的生产设备会产生大量的非线性、高维度的数据,对于系统安全人员来说,面临数据处理效率低下、攻击发现迟缓的问题。
入侵检测技术作为一种有效的安全防护技术,在传统网络环境下得到了广泛的应用,入侵检测技术相较于传统的数据加密、防火墙等技术相比,更具有优势。现如今入侵检测技术已经成为了工业控制系统防御的核心技术,众多防御机制与保护技术的实施依赖于入侵检测技术的效率与架构,纵观过往工控网络安全领域,对于入侵检测的研究已经取得了许多成果,并且使用机器学习算法与深度学习算法对工控中的流量进行分析的研究已经得到开展并投入实际使用。但是受困于工业控制系统的实时性高、资源受限等问题,特别是由于工业控制系统所使用的网络传输数据不易提取、冗余信息多,工业控制系统中攻击相关数据量较少,极难捕捉等特点,因此极易产生分布及其不均衡的数据样本空间,从而导致利用此种样本空间训练的入侵检测模型不能够起到有效的检测精度,进而导致工业控制系统的入侵检测系统无法直接应用和检测效果不佳,
在目前现有的研究中,没有针对工控数据相关特点进行非平衡样本空间补齐扩充的研究,而且现有的非平衡数据集解决方法并不能够解决形如工业控制网络数据此种高维度数据集的问题,所以,解决工控网络的数据分布不平衡问题,如何能够提升工控数据量并利用合成数据提升入侵检测的精度就成为了研究人员需要解决的问题。
发明内容
本发明针对现有的非平衡数据集解决方法无法有效的解决高维度工控数据集补齐扩充,从而导致入侵检测技术精度不佳、不能够有效的做出检测的问题,公开了一种基于非平衡工控数据集的入侵检测方法及系统。
本发明解决上述技术问题的技术方案如下:一种基于非平衡工控数据集的入侵检测方法及系统,包括:
步骤1,以待检测的工控网络流量为输入进行数据格式的结构性转化,将网络上数据格式转化为灰度图像格式,制作出流量灰度图像;
步骤2,以步骤1转化的流量灰度图像作为输入,对待分类的流量灰度图像做出判别;
步骤3,以步骤2获得的分类特征向量集作为输入,利用数据填充补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,得到经过制作和填充后的扩充流量灰度图像;
步骤4,以步骤3获得的扩充流量灰度图像作为输入,采用深度学习入侵检测方法进行入侵检测的训练和分类检测。;
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述步骤1中将每个工控网络数据包表征为可用于分类的灰度图像格式具体包括:
步骤11,工控流量数据预处理操作利用卷积神经网络(CNN)模型,将工控网络数据包的数据格式转化为以CNN卷积层规定格式的灰度图像格式;
步骤12,将每一位流量信息作为训练特征,保证数据的完整性,制作出符合CNN模式学习训练的流量图片。可以节约数据预处理的时间成本,并且可以避免由于人为操作带来的分类错误或者干扰。
进一步,所述步骤2中,若判别结果为不存在少数类样本,则传递至深度学习入侵检测方法进行入侵检测训练和分类检测。
进一步,所述步骤2中,若判别结果存在少数类样本,利用数据特征提取捕获方法进行分类特征细节的制作,构建分类特征细节集,具体包括:
步骤21,将流经此处的少数类工控数据样本进行初步的扩充,利用Dropout模拟输入层噪声添加的策略能够有效的进行训练数据集扩充;
步骤22,若经过步骤21的补充后,少数类数据已经达到正常数据量的要求,那么则不需要进行数据特征提取,直接交由入侵检测模型进行训练;若此时数据量仍然没能达到正常数据量的要求,则进行步骤23;
步骤23,此时所得到补充的工控数据流量仍未达到入侵检测模型的数据标准,利用去除全连接层、添加全局池化层和权重层的CNN网络提取真实攻击细节特征;
步骤24,在CNN后承接一个分类激活图谱(Class Activation Map,CAM)。利用获得的真实攻击细节特征进行网络特征提取步骤,将分类过程中贡献较大的特征数据进行提取,并保存为分类特征细节以等待后续操作;
步骤25,利用得到的分类特征细节,使用首尾相连,各数据包按照位置关联度信息排列的方式进行分类特征向量的制作,得到经过合理化扩充后的分类特征向量集。
进一步,所述步骤3中利用数据补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,具体包括。
步骤31,利用得到的分类特征向量集,使用本发明公开的基于数据权重和分布边界数据填充算法进行分类特征向量的制作,得到经过合理化扩充后的分类特征向量集。
步骤32,利用制作好的扩充分类特征向量集,结合常规工控数据的位置信息与数据格式,将分类特征向量集进行位置信息的补齐和数据格式的填充,得到经过合理扩充后的少数类工控数据集,此时的少数类工控数据集数据量已经与之前的多数类工控数据样本基本一致。
基于上述方法,本发明的技术方案还包括了一种基于非平衡工控数据集的入侵检测系统,包括:
数据包格式转化模块,其用于进行工业控制系统网络数据包的解析识别,进而解析并保存成十六进制数据格式,通过数据图像化算法将数据格式转化为适用于深度学习训练检测的二维矩阵排列格式灰度图像;
数据特征提取捕获模块,其用于对目前现有的工控数据进行降维操作,其主要功能作用在于摒弃无关冗余信息位和数据格式信息位,提取并保留起到决定性分类作用的数据特征,将此类数据特征保存为分类特征细节,然后转化为分类特征向量集以等待后续操作;
数据填充补齐模块,其用于对分类特征向量集进行合理性扩充,获得经过合理化补充的扩充分类特征向量集,然后针对扩充分类特征向量集进行格式化扩充,补齐网络数据包格式信息,得到经过合理性扩充后的工业控制网络数据集;
深度学习入侵检测模块,其用于训练传递至此模块的扩充工业控制网络数据集,采用经过结构化调整和合理性重构后的CNN作为模型母本,得到基于卷积神经网络的工业控制网络入侵检测模型,然后利用该模型进行入侵检测。
进一步,所述数据包格式转化模块包括:
PCAP提取模型模块,其用于利用PCAP提取模型将工业控制网络数据包转化为以十六进制数据为基本单元的一维工控网络数据包;
数据包向量化模块,其用于将所述PCAP提取模型模块处理过的工控网络数据包向量化,且此时的每个数据包表示为一个向量,向量的形式是二维矩阵,二维矩阵中的数据是提取到的工控网络数据包按照目前位置关系排列成。
进一步,所述数据特征提取捕获模块使用的特征提取方式利用CAM选取对分类产生最具决定性作用的特征细节。
进一步,所述数据填充补齐模块使用利用数据权重与边缘增强的基于SMOTE数据扩充算法,该算法能够有效且合理的进行数据增强扩充,补齐过程采用分类特征向量集和位置信息结合构建的方式,生成经过扩充的工业控制网络数据包,该数据包不仅进行了数量上的扩充,还对入侵检测过程产生更具鲁棒性的影响。
进一步,所述基于非平衡工控数据集入侵检测系统还包括输出模块,用于在所述深度学习入侵检测模块给出检测结果后输出各项分类检测指标和各数据包检测精度指标等。
本发明的有益效果是:
一、该方法及系统是针对工控数据的特点所提出的,根据工控攻击数据种类繁多,数据量少,不易获取等特点所进行的设计,能够有效的解决工控数据量不足,工控数据中无关信息较多而产生的噪声,工控数据分布严重不均衡等问题。
二、相较于传统的不平衡样本算法,该方法及系统不存在人为超参数设置等问题,例如:常规扩充数据方法SMOTE法中K近邻思路中K值的设置。这样做的好处是可以避免由于人为操作失误或主观臆断带来的超参数选择不佳和遇到较难掌握的情况是超参数不易选定所带来的影响。由此不会因为参数选择而对模型检测精度带来的影响。
三、根据工控数据维度高、不易提取特征的特点,并且针对特征不易提取的特点,本发明方法及系统不用人为的特征提取,取而代之的是利用CNN强大的特征捕获特点来进行有效特征的提取,这样做的好处是可以避免因为人为因素而导致的特征提取错误等问题,而且通过CNN提取特征的方式在一定程度上可以有效地降低工控数据的问题的维度,从而有效的解决了工控数据维度较高的问题。
四、本发明公开的方法和系统可以有效地解决常规不平衡算法带来的模型训练不稳定问题,面对如对抗攻击等脆弱性攻击时,利用本发明方法及系统法制作的样本进行训练可以增强模型的鲁棒性,并且能够在一定程度上提升模型的检测精度。
综上所述,本发明公开了一种基于非平衡工控数据集的入侵检测方法及系统,该方法有效的解决了针对工业控制网络流量数据集分布不均衡,特征提取困难,冗余程度较大等问题。与已公开的相关技术相比,该方法及系统主要有以下积极效果:
本发明考虑在数据处理阶段不做任何调整,全部作为CNN的输入层数据进行处理,这样保证了数据的真实性和完整性;本发明避免传统数据扩充方法的求K近邻方法带来的参数选取困难等问题,并且能够针对工控攻击数据进行合理性扩充,解决工控数据集攻击数据分布不均衡问题;本发明合成扩充后的工控数据训练的CNN入侵检测模型检测精度明显提升且更具有鲁棒性,并且一定程度上能够有效的提升抵挡对抗样本攻击的能力,延缓了对抗样本生成速度和生成有效率。
附图说明
图1为本发明所述一种基于非平衡工控数据集的入侵检测方法的流程示意图;
图2为本发明实施例一中非平衡数据补齐填充和利用扩充后的工控数据进行入侵检测训练的流程示意图;
图3为本发明实施例一非平衡工控数据集填充补齐的流程示意图;
图4为本发明实施例一基于数据权重和分布边界数据填充算法流程示意图;
图5为本发明所述实施例二基于非平衡工控数据集的不同数据填充方法各项检测指标实验结果图。
图6为本发明所述实施例二基于非平衡工控数据集入侵检测方法不均衡分布工控数据集检测精度结果表
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例一
如图1所示,实施例一是一种基于非平衡工控数据集的入侵检测方法,包括:
步骤1,以待检测的工控网络流量为输入进行数据格式的结构性转化,将网络上数据格式转化为灰度图像格式,制作出流量灰度图像;
步骤2,以步骤1转化的流量灰度图像作为输入,判断待分类的数据中是否存在少数类样本的,若存在少数类样本,利用数据特征提取捕获方法进行分类特征向量的制作,构建分类特征向量集,若不存在传递至深度学习入侵检测方法进行入侵检测训练和分类检测;
步骤3,以步骤2构建的分类特征向量集作为输入,利用数据填充补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,得到经过制作和填充后的扩充流量灰度图像。
步骤4,以步骤3制作的扩充流量灰度图像作为输入,采用深度学习入侵检测方法进行入侵检测的训练和分类检测。
如图2所示,将每个网络数据包表征为可用于分类的特征向量,并构建分类器的具体内容为:
步骤21,数据图像化预处理:工控流量数据预处理操作利用卷积神经网络(CNN)模型,将工控网络数据包的数据格式转化为以CNN卷积层规定格式的灰度图像格式,即利用一维排列的工控网络流量数据转换为二维矩阵排列的灰度图像形式。
本发明将每一位流量信息作为训练特征,保证数据的完整性,制作出符合CNN模式学习训练的流量图片。可以节约数据预处理的时间成本,并且可以避免由于人为操作带来的分类错误或者干扰。
步骤22,判定待处理的工控数据集是否为工业控制系统的非平衡数据集,如果是则先利用进行改进版CNN网络特征提取方法构建特征捕获器,如果不是则直接传送至入侵检测模型进行训练。
例如:假定有三种类型的工控数据,分别为“AOCB”,“RCB”和“ES”,其中,本发明公开系统自动判断各类型数据包的数量,即统计已经图像化的数据量个数,若其中一种类型的数据量明显少于另外几种,如:“ES”数据为其他两种的二分之一,则将“ES”数据视为少数类数据样本,其他如“AOCB”,“RCB”的数据样本被视为正常样本。
步骤23,利用步骤21、步骤22获得的少数类工控数据利用非平衡数据填充补齐模块的数据扩充算法和结构补齐算法进行合理性扩充,得到经过合理构造的平衡数据集。
步骤24,利用步骤23获得的平衡数据集传递到CNN模型中进行有效充分训练,得到经过平衡数据集充分训练的入侵检测模型。该模型能够精准检测出工控网络数据中绝大部份攻击,并且拥有相当强大的鲁棒性,能够抵御对抗样本的攻击。
如图3所示,非平衡数据集填充补齐的过程分为以下几个步骤。基于数据权重和边缘增强的非平衡工控数据集填充补齐方法的具体实施步骤如下:
步骤31,工控数据初步扩充。流经此模块的数据此时已经被判定为非平衡数据集,并且将该数据集中处于少数类的工控数据样本传入此模块中。需将流经此处的少数类工控数据样本进行初步的扩充,利用Dropout模拟输入层噪声添加的策略能够有效的进行训练数据集扩充,Dropout在输入层使用可被视为等价于向输入数据添加适量的高斯噪声,这一举措可以在一定程度上完成对于稀疏样本空间的增强,进而达到数据集的扩充作用,但是由于工控数据冗余程度较大、噪声信息繁多的特点,因此虽然Dropout策略简便高效,但是本质上是添加噪声的方式对数据集进行增强,所以过分依赖Dropout策略会造成事倍功半的影响。因此在本发明中利用Dropout策略的优点,摒弃避开Dropout的劣势,进行适当高斯噪声的添加,其目的主要在于数据量的扩充,而不作为整体数据的鲁棒性增强和模型检测精度提升的主要策略。
根据Dropout的原理,本发明设计并调整Dropout的公式,采用高斯分布的形式模拟Dropout向输入层添加的高斯白噪声,添加噪声按照下式所表示:
α~N(μ,σ2)
XN'=XN
上式噪声分布类型符合高斯分布,大小由均值、标准差来决定,在服从均值为μ和标准差为σ2的正态分布的在对应位置上进行操作,其对应信息XN上添加噪声α,经过调整后的位置所含信息为XN’。
此时添加的噪声量极小,利用模拟Dropout添加噪声增强的数据是原先未作处理的数据量的1倍,通过添加噪声可以将少数类样本加以扩充以便后续能够利用CNN获得攻击细节,以便后续算法的运行。
步骤32,判定经过Dropout策略补充后的少数类数据是否达到正常数据量要求,若没有达到数据量的要求则进行步骤33的操作,若此时经过Dropout策略的补充,少数类数据已经达到和正常类数据相同或近似的数据量,此时可以结束非平衡工控数据集填充补齐模块的使用。
步骤33,数据分类细节提取。若经过步骤1之后,所得到补充的工控数据流量仍未达到入侵检测模型的数据标准,即此时少数类样本的工控数据量与正常类样本的工控数据量仍相差甚远。需要进行数据的分类细节提取,本发明设计的分类细节提取模块是采用引入分类激活图谱(Class Activation Map,CAM)的方式。CAM能够有效的表示出待分类图像,CAM模块采用分类激活图像进行设计,能够反应出图像在进行分类过程时,起到决定性贡献特征部分,即对分类过程贡献较大的特征数据。
本发明对CNN模型进行一定调整,利用一个权重层,来取代常规卷积神经网络模型中的全连接层,从而去除全连接层对模型提取特征过程中的负面影响。经过重构后的卷积神经网络保留模型中的卷积部分,随后引入全局池化层与权重层相结合,权重层能够很好地完成全连接层的分类任务,并且针对通过卷积操作定位到的攻击细节部分不会造成影响,从而能够保留更为真实的攻击细节特征,接着承接一个CAM,在此过程中,该模块将起到决定性作用的数据特征进行提取并保存为分类特征细节以等待后续填充操作。
经过本发明调整的CNN网络特征提取步骤,能够获得一个o*n维度的数据特征To,其中To n表示第o维上的第n个特征,每个特征在训练过程中被CNN赋予对应的权重wo c,该权重描述了将图像归类于c时o维度的重要程度。当图像被分类为类别c时,通过下式表示流量灰度图像符合该类别c的程度Dc。其中Fo(To n)用来描述该图像在维度o上,特征Tn的激活程度。
Figure GDA0003883614510000131
Figure GDA0003883614510000132
步骤34,分类特征向量制作。经过步骤33之后得到少数类工控数据的分类特征细节集合,然后利用本发明公开的基于数据权重和分布边界数据填充算法进行分类特征向量的制作,将传递至此步骤中的分类细节特征利用原始工控数据中的位置信息构建出待填充的分类特征细节向量,然后利用向量结合本发明公开的算法进行对应工控数据信息位的数据填充,得到数据扩充后的分类特征向量集。
步骤35,工控数据填充。步骤34制作好的分类特征向量集传递至此步骤中,然后结合常规工控数据的位置信息与数据格式,将分类特征向量集进行位置信息的补齐和数据格式的填充。得到经过扩充后的少数类工控数据集,此时的少数类工控数据集的数据量已经与之前的多数类工控数据量差异不大,即此时的完整工控数据集已经是完整的平衡工控数据集。
如图4所示,本发明所述制作分类特征向量的基于数据权重和分布边界数据填充算法的过程分为以下几个步骤。
步骤41,拟合中心获取。本发明公开的基于数据权重和分布边界数据填充算法(后简称算法)。针对CNN提取的攻击细节建立每个类别数据的攻击细节集合S={fi,i=1,2,...,n},其中fi表示为中不同类别的攻击细节,每一种攻击的每一个类别的攻击细节fi,分别提取少数类攻击细节集合中的不同类别攻击细节fi,包含该类别攻击细节中所有像素位特征矩阵如下表示。
Figure GDA0003883614510000141
其中m表示从不同的图像获得相同位置攻击细节的像素,n表示一组攻击特征所拥有的个数,xmn表示第n位置上的第m种类特征x。在数据空间的平均中心点记为拟合中心点FC,计算方式如下:
Figure GDA0003883614510000142
步骤42,拟合平均距离计算。建立该类别攻击细节中的相同位置特征到拟合中心点的平均距离,记为拟合平均距离FD。该距离能够反映出该类攻击细节中的聚集程度,值越小说明聚集程度越紧密,反之较为松散。计算如下式,其中D()表示欧式距离计算公式。
Figure GDA0003883614510000143
步骤43,候选集构建。基于过采样策略的新特征生成关键是找出基础特征,在此基础上迭代生成新的特征,在样本分类过程中,处于边缘的样本最易分类错误,因此其所拥有的分类信息是最多的,所以本发明给出一个定义便于后文的叙述,这个定义记为基础特征BF:基础特征指同位特征到拟合中心距离大于拟合平均距离的特征,该特征记为Ti,计算方式如下式所示:
BF={Ti|D(xm,FC)>FD}
找到同一位置的所有基础特征,构建候选集,为了避免在合成特征中引入过多的噪声,本发明指定拟合中心作为参照点,由候选集内的特征与参展点形成线段,在线段内合成新特征,保证合成特征位于类的内侧,根据SMOTE算法的思想,本发明采纳算法核心思想合成新特征(SNF)生成公式如下式,其中Si属于候选集样本,i表示为候选集样本个数,r是取之于[0,1]之间的随机数。
SNF=Si+(Si-FC)×r
步骤44,数据扩充。根据以上步骤描述,候选集内的特征与拟合中心的距离越远,等价于所携带的有效信息越多,因此针对该种样本特征合成的个数也需要相应增多,由此能够利于分类模型精度的提升。根据欧氏距离计算方法能够得出每个特征到拟合中心距离D(Si,FC),然后累加可求得各特征到拟合中心的欧氏距离和S,然后在此基础之上可以得出分布函数P,如下式所示:
Figure GDA0003883614510000151
Figure GDA0003883614510000152
按照特征分布概率与特征合成总数相乘即可得到每个候选特征需合成的新样本个数。
由于工控数据间的特点,各信息点之间具有关联性,因此简化了样本扩充的难度,即可以针对某一攻击细节的某一位置像素进行扩充,其对应的位置像素信息可以根据第一位置的变化而做出相对应的扩充,这样做的好处是保留了工控数据的特点,并且在扩充样本时不易产生大量的错误数据。
步骤45,获取边缘数据实际连线中心。由于采用的是线段内随机位置生成新特征,因此如果针对边缘特征附近没有能够生成足够的新特征,将会对边缘特征视为噪声同样会导致分类错误的可能性,所以需要针对边缘特征进行进一步的扩充。
本发明采用了针对边缘数据信息进行增强的设计思路,利用边缘数据与其最邻近的原始边缘数据进行连线,即利用这两个边缘数据信息及两个边缘信息之间的合成数据视为待扩充数据边界和全新的边缘待扩充数据集,然后将待扩充数据集经由上述算法进行计算,利用边缘待扩充数据集的实际连线中心RC,即新制作的边缘待扩充工控数据集两边界中点,从而获得边缘数据实际连线中心。
步骤46,获取边缘数据拟合连线中心。在新制作的边缘待扩充工控数据集上,重复步骤1。
步骤47,计算距离差。将步骤45,步骤46获取的边缘实际连线中心和拟合连线中心进行比较,得到距离差DV如下式:
DV=|RC-FC|
步骤48,判断距离差值是否大于阈值,若大于阈值,则说明边缘信息存在误分类为噪声的情况,即扩充后的工控数据集鲁棒性不足,进入步骤9;若小于等于设置的阈值,则说明边缘信息位鲁棒性极强,此时的扩充工控数据集已经达到了增强的要求,此算法结束。
步骤49,合成数据。由于此时是边缘信息易被分类为噪声,即边缘工控数据集鲁棒性不足,因此需要对该数据集进行扩充以达到增强目的,合成数据过程采用步骤41—步骤44。合成过程结束后返回步骤46。
另外,所述步骤1-4执行完成后,传递至入侵检测模型进行训练,此时参与训练的数据为两种情况:一种是不含有非平衡样本的正常工控数据集,另一种是含有非平衡样本的不均衡工控数据集,经过算法扩充后转化为经过合理性扩充的构造工控数据集,两种工控数据集都能够使用入侵检测模型进行训练和检测,检测精度两种数据间差异性几乎为零。
基于上述非平衡工控数据集的入侵检测方法,本实施例还给出一种对应的非平衡工控数据集的入侵检测系统,包括:
数据包格式转化模块,其用于进行工业控制系统网络数据包的解析识别,进而解析并保存成十六进制数据格式,通过数据图像化算法将数据格式转化为适用于深度学习训练检测的二维矩阵排列格式灰度图像;
数据特征提取捕获模块,其用于对目前现有的工控数据进行降维操作,其主要功能作用在于摒弃无关冗余信息位和数据格式信息位,提取并保留起到决定性分类作用的数据特征,将此类数据特征保存为分类特征细节,然后转化为分类特征向量集以等待后续操作;
数据填充补齐模块,其用于对分类特征向量集进行合理性扩充,获得经过合理化补充的扩充分类特征向量集,然后针对扩充分类特征向量集进行格式化扩充,补齐网络数据包格式信息,得到经过合理性扩充后的工业控制网络数据集;
深度学习入侵检测模块,其用于训练传递至此模块的扩充工业控制网络数据集,采用经过结构化调整和合理性重构后的CNN作为模型母本,得到基于卷积神经网络的工业控制网络入侵检测模型,然后利用该模型进行入侵检测。
同样对应上述的基于非平衡工控数据集的入侵检测方法,这种基于非平衡工控数据集的入侵检测系统中:
所述数据包格式转化模块包括:
PCAP提取模型模块,其用于利用PCAP提取模型将工业控制网络数据包转化为以十六进制数据为基本单元的一维工控网络数据包;
数据包向量化模块,其用于将所述PCAP提取模型模块处理过的工控网络数据包向量化,且此时的每个数据包表示为一个向量,向量的形式是二维矩阵,二维矩阵中的数据是提取到的工控网络数据包按照目前位置关系排列成。
所述数据特征提取捕获模块使用的特征提取方式利用CAM选取对分类产生最具决定性作用的特征细节。
所述数据填充补齐模块使用利用数据权重与边缘增强的基于SMOTE数据扩充算法,该算法能够有效且合理的进行数据增强扩充,补齐过程采用分类特征向量集和位置信息结合构建的方式,生成经过扩充的工业控制网络数据包,该数据包不仅进行了数量上的扩充,还对入侵检测过程产生更具鲁棒性的影响。
所述基于非平衡工控数据集入侵检测系统还包括输出模块,用于在所述深度学习入侵检测模块给出检测结果后输出各项分类检测指标和各数据包检测精度指标等。
实施例二
实施例二是对本发明提出的基于数据权重和边界分布数据的扩充方法与其他常用数据扩充方法进行对比实验,对比其在基于CNN的深度学习方法下的准确率,漏报率,误报率,召回率,精度和F-value。
在验证实验中,本发明根据混淆矩阵的定义,得出准确率(ACC),漏报率(FNR),和误报率(FPR):
Figure GDA0003883614510000191
Figure GDA0003883614510000192
Figure GDA0003883614510000193
其中,TP,FP,TN,FN分别表示正确分类的正常样本数、错误分类的正常样本数,正确分类的异常样本数、错误分类的异常样本数。
Figure GDA0003883614510000194
Figure GDA0003883614510000195
Figure GDA0003883614510000196
根据上述二阶指标,本发明采用了以上的三阶衡量指标作为衡量系统的标志。其中,F-value指标综合了Precision与Recall的产出的结果,该取值范围从0到1的,1代表模型的输出最好,0代表模型的输出结果最差。β通常取1。
由于准确率与召回率分别描述系统性能的两个方面,单一使用准确率和召回率作为评价指标具有局限性,因此,本文选用F-value指标将这两个指标进行综合考虑,从而选择最优方案。
基于非平衡工控数据集的入侵检测方法及系统与其他基于不同数据扩充方法的入侵检测方法实验结果如下图5所示:
左图和右图通过图表曲线反馈的结果,本发明公开的方法不仅是可行的,而且在降低模型分类误报率和漏报率上相较于基于其他两种常见的数据扩充方法的入侵检测系统在检测精度、误报率、漏报率都有明显的提升,而针对少数类工控数据的检测精度提升上也比其他两种扩充数据的方法有着较为明显的优势。
以基于非平衡工控数据集的入侵检测方法在不均衡分布的S7协议工控数据集下实验结果如下图6所示。
图表中流量为不同种类的非平衡工控数据样本,从表中的结果中可以观察到,本发明公开方法具有普适性,该系统的检测精度并没有因为合成数据的训练而产生负面影响,在漏报率与误报率降低方面也取得相应的提升。
根据回归率和精确率计算了F-value的值,通过数据可以观察出,利用不同种类的非平衡数据合成样本训练的模型,在回归率和精确率上依然能够保证相当高的水平,在输出数据方面的反馈结果上看,经过合成样本训练的不同模型都能够将F-value稳定在0.94以上,说明本发明公开系统此时的能够拥有较好的分类结果,也说明了经由本发明公开所系统合成数据的样本与真实数据训练的样本并无太大差异性,在实验数据较为匮乏时,可以采用本发明公开的方法进行数据合成来解决数据不足以及样本不均衡的问题。
上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于非平衡工控数据集的入侵检测方法,其特征在于,包括:
步骤1,以待检测的工控网络流量为输入进行数据格式的结构性转化,将网络上数据格式转化为灰度图像格式,制作出流量灰度图像;
步骤2,以步骤1转化的流量灰度图像作为输入,判断待分类的数据中是否存在少数类样本的,若存在少数类样本,利用数据特征提取捕获方法进行分类特征向量的制作,构建分类特征向量集,若不存在,则传递至深度学习入侵检测方法进行入侵检测训练和分类检测;
步骤3,以步骤2构建的分类特征向量集作为输入,利用数据填充补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,得到经过制作和填充后的扩充流量灰度图像;
步骤4,以步骤3制作的扩充流量灰度图像作为输入,采用深度学习入侵检测方法进行入侵检测的训练和分类检测;
所述步骤2中若存在少数类样本,利用数据特征提取捕获方法进行分类特征向量的制作,构建分类特征向量集具体包括:
步骤21,工控数据初步扩充;需将流经此处的少数类工控数据样本进行初步的扩充,利用Dropout模拟输入层噪声添加的策略进行训练数据集扩充;
步骤22,若经过步骤21的补充后,少数类数据已经达到正常数据量的要求,那么则不需要进行数据特征提取,直接交由入侵检测模型进行训练;若此时数据量仍然没能达到正常数据量的要求,则进行步骤23;
步骤23,数据分类细节提取;此时所得到补充的工控数据流量仍未达到入侵检测模型的数据标准,需要进行数据的分类细节提取;将CNN中最后部分的全连接层去除,取而代之的是全局池化层和权重层相结合,权重层能够很好地完成全连接层的分类任务,并且针对通过卷积操作定位到的攻击细节部分不会造成影响,从而能够保留更为真实的攻击细节特征;
步骤24,在CNN后接着承接一个分类激活图谱CAM;CAM能够表示出待分类图像,反应出图像在进行分类过程时,起到决定性贡献特征部分,即对分类过程贡献较大的特征数据;
经过调整的CNN网络特征提取步骤,能够获得一个o*n维度的数据特征To,其中To n表示第o维上的第n个特征,每个特征在训练过程中被CNN赋予对应的权重wo c,该权重描述了将图像归类于c时o维度的重要程度;当图像被分类为类别c时,通过下式表示流量灰度图像符合该类别c的程度Dc;其中Fo(To n)用来描述该图像在维度o上,特征Tn的激活程度;
Figure FDA0003883614500000021
Figure FDA0003883614500000022
步骤25,分类特征向量制作;经过步骤24之后得到少数类工控数据的分类特征细节集合,然后利用基于数据权重和分布边界数据填充算法进行分类特征向量的制作,将传递至此步骤中的分类细节特征利用原始工控数据中的位置信息构建出待填充的分类特征细节向量,然后利用向量进行对应工控数据信息位的数据填充,得到数据扩充后的分类特征向量集;
步骤26,工控数据填充;步骤25制作好的分类特征向量集传递至此步骤中,然后结合常规工控数据的位置信息与数据格式,将分类特征向量集进行位置信息的补齐和数据格式的填充;得到经过扩充后的少数类工控数据集,此时的完整工控数据集已经是完整的平衡工控数据集;
所述步骤3中以分类特征向量集作为输入,利用数据填充补齐方法进行分类特征向量的填充和流量灰度图像的格式补齐,得到经过制作和填充后的扩充流量灰度图像具体包括;
步骤31,拟合中心获取;基于数据权重和分布边界数据填充算法;针对CNN提取的攻击细节建立每个类别数据的攻击细节集合S={fi,i=1,2,...,n},其中fi表示为中不同类别的攻击细节,每一种攻击的每一个类别的攻击细节fi,分别提取少数类攻击细节集合中的不同类别攻击细节fi,包含该类别攻击细节中所有像素位特征矩阵如下表示;
Figure FDA0003883614500000031
其中m表示从不同的图像获得相同位置攻击细节的像素,n表示一组攻击特征所拥有的个数,xmm表示第n位置上的第m种类特征x,在数据空间的平均中心点记为拟合中心点FC,计算方式如下:
Figure FDA0003883614500000041
拟合平均距离是指该类别攻击细节中的相同位置特征到拟合中心点的平均距离FD;计算如下式,其中D()表示欧式距离计算公式;
Figure FDA0003883614500000042
步骤32,得到拟合中心和拟合平均距离之后,进行候选集构建,基于过采样策略的新特征生成关键是找出基础特征,在此基础上迭代生成新的特征,在样本分类过程中,处于边缘的样本最易分类错误,因此其所拥有的分类信息是最多的,所以给出一个定义便于后文的叙述,这个定义记为基础特征BF:基础特征指同位特征到拟合中心距离大于拟合平均距离的特征,该特征记为Ti,计算方式如下所示:BF={Ti|D(xm,FC)>FD},找到同一位置的所有基础特征BF,构建候选集;
步骤33,为避免在合成特征中引入过多的噪声,指定拟合中心作为参照点,由候选集内的特征与参照点形成线段,在线段内合成新特征,保证合成特征位于类的内侧,根据SMOTE算法的思想,采用算法核心思想合成新特征生成公式如下式,其中Si属于候选集样本,i表示为候选集样本个数,r是取之于[0,1]之间的随机数;如下式所示:
SNF=Si+(Si-FC)×r
步骤34,数据扩充;根据以上步骤31-步骤33描述,候选集内的特征与拟合中心的距离越远,等价于所携带的有效信息越多,因此针对该种样本特征合成的个数也需要相应增多,由此能够利于分类模型精度的提升;根据欧氏距离计算方法能够得出每个特征到拟合中心距离D(Si,FC),然后累加求得各特征到拟合中心的欧氏距离和S,然后在此基础之上得出分布函数P,如下式所示:
Figure FDA0003883614500000051
Figure FDA0003883614500000052
按照特征分布概率与特征合成总数相乘即可得到每个候选特征需合成的新样本个数;
步骤35,获取边缘数据实际连线中心;采用针对边缘数据信息进行增强的设计思路,利用边缘数据与其最邻近的原始边缘数据进行连线,即利用这两个边缘数据信息及两个边缘信息之间的合成数据视为待扩充数据边界和全新的边缘待扩充数据集,然后将待扩充数据集经由上述算法进行计算,利用边缘待扩充数据集的实际连线中心RC,即新制作的边缘待扩充工控数据集两边界中点,从而获得边缘数据实际连线中心;
步骤36,获取边缘数据拟合连线中心;在新制作的边缘待扩充工控数据集上,重复步骤31,计算距离差;将步骤35与刚获取的边缘实际连线中心和拟合连线中心进行比较,得到距离差DV如下式:
DV=|RC-FC|
步骤37,判断距离差值是否大于阈值,若大于阈值,则说明边缘信息存在误分类为噪声的情况,即扩充后的工控数据集鲁棒性不足,需进一步处理;若小于等于设置的阈值,则说明边缘信息位鲁棒性极强,此时的扩充工控数据集已经达到了增强的要求,结束;
步骤38,合成数据;由于此时是边缘信息易被分类为噪声,即边缘工控数据集鲁棒性不足,因此需要对该数据集进行扩充以达到增强目的,合成数据过程采用步骤31-步骤34;合成过程结束后返回步骤36。
2.根据权利要求1所述的一种基于非平衡工控数据集的入侵检测方法,其特征在于,所述步骤1中将网络上数据格式转化为灰度图像格式,制作出流量灰度图像包括:
步骤11,工控流量数据预处理操作利用卷积神经网络CNN模型,将工控网络数据包的数据格式转化为以CNN卷积层规定格式的灰度图像格式;
步骤12,将每一位流量信息作为训练特征,保证数据的完整性,制作出符合CNN模式学习训练的流量图片。
3.根据权利要求1所述的一种基于非平衡工控数据集的入侵检测方法,其特征在于,实现该方法的入侵检测系统包括:
数据包格式转化模块,其用于进行工业控制系统网络数据包的解析识别,进而解析并保存成十六进制数据格式,通过数据图像化算法将数据格式转化为适用于深度学习训练检测的二维矩阵排列格式灰度图像;
数据特征提取捕获模块,其用于对工控数据进行降维操作,作用在于摒弃无关冗余信息位和数据格式信息位,提取并保留起到决定性分类作用的数据特征,将此类数据特征保存为分类特征细节,然后转化为分类特征向量集以等待后续操作;
数据填充补齐模块,其用于对分类特征向量集进行合理性扩充,获得经过合理化补充的扩充分类特征向量集,然后针对扩充分类特征向量集进行格式化扩充,补齐网络数据包格式信息,得到经过合理性扩充后的工业控制网络数据集;
深度学习入侵检测模块,其用于训练传递至此模块的扩充工业控制网络数据集,采用经过结构化调整和合理性重构后的CNN作为模型母本,得到基于卷积神经网络的工业控制网络入侵检测模型,然后利用该模型进行入侵检测。
4.根据权利要求3所述的一种基于非平衡工控数据集的入侵检测方法,其特征在于,所述数据包格式转化模块包括:
PCAP提取模型模块,利用PCAP提取模型将工业控制网络数据包转化为以十六进制数据为基本单元的一维工控网络数据包;
数据包向量化模块,将所述PCAP提取模型模块处理过的工控网络数据包向量化,且此时的每个数据包表示为一个向量,向量的形式是二维矩阵,二维矩阵中的数据是提取到的工控网络数据包按照目前位置关系排列成。
5.根据权利要求3所述的一种基于非平衡工控数据集的入侵检测方法,其特征在于,所述数据特征提取捕获模块使用的特征提取方式利用CAM选取对分类产生最具决定性作用的特征细节。
6.根据权利要求3所述的一种基于非平衡工控数据集的入侵检测方法,其特征在于,所述数据填充补齐模块使用利用数据权重与边缘增强的基于SMOTE数据扩充算法,该算法能够有效且合理的进行数据增强扩充,补齐过程采用分类特征向量集和位置信息结合构建的方式,生成经过扩充的工业控制网络数据包;
所述基于非平衡工控数据集入侵检测系统还包括输出模块,用于在所述深度学习入侵检测模块给出检测结果后输出各项分类检测指标和各数据包检测精度指标。
CN202011169483.XA 2020-10-28 2020-10-28 一种基于非平衡工控数据集的入侵检测方法及系统 Active CN112491797B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011169483.XA CN112491797B (zh) 2020-10-28 2020-10-28 一种基于非平衡工控数据集的入侵检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011169483.XA CN112491797B (zh) 2020-10-28 2020-10-28 一种基于非平衡工控数据集的入侵检测方法及系统

Publications (2)

Publication Number Publication Date
CN112491797A CN112491797A (zh) 2021-03-12
CN112491797B true CN112491797B (zh) 2022-11-22

Family

ID=74926210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011169483.XA Active CN112491797B (zh) 2020-10-28 2020-10-28 一种基于非平衡工控数据集的入侵检测方法及系统

Country Status (1)

Country Link
CN (1) CN112491797B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240028A (zh) * 2021-05-24 2021-08-10 浙江大学 一种基于类激活图的对抗样本块攻击检测方法
CN114091661B (zh) * 2021-11-24 2024-06-04 北京工业大学 一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法
CN114615172B (zh) * 2022-03-22 2024-04-16 中国农业银行股份有限公司 流量检测方法及系统、存储介质及电子设备
CN115208613B (zh) * 2022-05-13 2023-09-19 河北师范大学 一种基于小样本学习的三元cct网络的入侵检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656981B (zh) * 2016-10-21 2020-04-28 东软集团股份有限公司 网络入侵检测方法和装置
CN106529598B (zh) * 2016-11-11 2020-05-08 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN109768985B (zh) * 2019-01-30 2020-06-23 电子科技大学 一种基于流量可视化与机器学习算法的入侵检测方法
CN111222133A (zh) * 2019-11-14 2020-06-02 辽宁工程技术大学 一种工控网络入侵检测的多级自适应耦合方法
CN111740971A (zh) * 2020-06-15 2020-10-02 郑州大学 基于类不平衡处理的网络入侵检测模型sgm-cnn

Also Published As

Publication number Publication date
CN112491797A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN112491797B (zh) 一种基于非平衡工控数据集的入侵检测方法及系统
CN110532859B (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN110378844B (zh) 基于循环多尺度生成对抗网络的图像盲去运动模糊方法
CN113178255A (zh) 一种基于gan的医学诊断模型对抗攻击方法
CN110298374B (zh) 一种基于深度学习的驾驶轨迹能耗分析方法和装置
CN112818969A (zh) 一种基于知识蒸馏的人脸姿态估计方法及系统
CN107563274A (zh) 一种基于对抗网络学习的视频的车辆检测方法和计数方法
CN111160481B (zh) 基于深度学习的adas目标检测方法及系统
CN112818849B (zh) 基于对抗学习的上下文注意力卷积神经网络的人群密度检测算法
CN112489168A (zh) 一种图像数据集生成制作方法、装置、设备及存储介质
CN113298186A (zh) 融合流模型对抗生成网络和聚类算法的网络异常流量检测方法
CN114860709A (zh) 一种基于Bi-GAN的电力系统缺失值填补方法
CN112507778A (zh) 一种基于线特征的改进词袋模型的回环检测方法
CN114386466B (zh) 一种用于脉冲星搜寻中候选体信号挖掘的并行的混合聚类方法
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN115345222A (zh) 一种基于TimeGAN模型的故障分类方法
CN109413068B (zh) 一种基于对偶gan的无线信号加密方法
CN107609216B (zh) 一种基于概率盒模型修正的机械故障诊断方法
CN117788402A (zh) 一种基于LIDD-Net高实时轻量化网络的工业产品缺陷检测方法
Zi et al. Steganography with convincing normal image from a joint generative adversarial framework
CN112529772B (zh) 一种零样本设置下的无监督图像转换方法
CN115080386A (zh) 基于自动驾驶功能要求的场景有效性分析方法与设备
CN114444374A (zh) 一种基于相似性度量的多源到多目标域自适应的方法
CN113420608A (zh) 一种基于密集时空图卷积网络的人体异常行为识别方法
CN110738638A (zh) 视觉显著性检测算法适用性预测与性能盲评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant