CN113098878A

CN113098878A - 一种基于支持向量机的工业互联网入侵检测方法及实现系统

Info

Publication number: CN113098878A
Application number: CN202110364835.5A
Authority: CN
Inventors: 萧景东; 李斌; 王佰玲; 魏玉良; 辛国栋
Original assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Current assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-09
Anticipated expiration: 2041-04-06
Also published as: CN113098878B

Abstract

本发明涉及一种基于支持向量机的工业互联网入侵检测方法及实现系统，该入侵检测方法(1)获取dnsflood攻击的异常通信流量数据；(2)针对步骤(1)得到的异常通信流量数据，提取特征数据并构造特征量；(3)将步骤(2)构造的特征量输入SVM入侵检测模型进行训练，得到用于检测dnsflood攻击的SVM入侵检测模型；(4)提取待检测的通信流量数据的特征数据并构造特征量，然后输入到训练好的SVM入侵检测模型进行入侵检测，对检测到的可疑流量进行捕获，同时记录日志，并进行处理。该方法能够提取能够反映正常行为和异常行为区别的数据特征，提高对异常攻击行为的检测效率。

Description

一种基于支持向量机的工业互联网入侵检测方法及实现系统

技术领域

本发明涉及一种基于支持向量机的工业互联网入侵检测方法及实现系统，属于入侵检测网络完全领域。

背景技术

工业控制系统广泛应用于电力、能源、交通、石油石化等工业领域，大多数的工业生产需要依靠工业控制系统实现自动化操作，以确保工业生产系统的高效、可靠与稳定运行。基于物理隔离的传统工业控制系统，在通信上不与外界联系，可有效避免来自网络的攻击。随着信息技术与工业控制系统功能需求的发展，工控系统已发展为网络化系统，并且与企业网络和互联网相互连接，形成了一个开放式的网络环境。由于工控系统没有专门的安全防御措施，各种针对工业控制系统的恶意攻击通过网络系统产生破坏性操作，影响了工控系统的安全运行。工业控制系统应用于国计民生的重要领域，是国家重要基础设施的关键组成部分，保障工控网络安全关系到国家的战略安全。

针对来自外部的网络攻击、移动介质摆渡攻击以及系统内部人员可能的误操作、违规操作或恶意破坏性操作等安全风险，很有必要对工控网络的访问行为、协议内容、操作指令等进行监控与审计，对高风险和异常行为进行识别和告警。

工控网络异常感知系统作为一种安全预警产品，能够在安全事件发生之前，对网络中的异常行为、异常流量、恶意代码、错误参数与指令进行预警，从而避免安全事件的发生，将工控系统的安全风险降到最低。

工控网络异常感知系统以时间、空间和特征为基础，对网络流量和网络行为进行多维度、细粒度的分析，通过工业视图和网络拓扑视图相结合的双视图监控机制，可同时对工业过程情况和网络通讯指令及行为进行监控，呈现工控系统流量和行为，实现网络连接拓扑结构和网络运行状况的可视化，并进行对比分析，为对不符合业务流程的行为进行检测及APT攻击研判提供有力支撑。

工控网络异常感知系统以工控系统设备资产为基础，以基于工业控制系统深度分析技术为核心，智能学习网络业务行为，自动为网络合规业务行为安全建模，实现对网络行为和业务操作的合规检测，从而从合规的角度保证客户网络的业务安全。

对可疑网络行为进行实时监控，全量存储，多层次、多角度的关联分析和比对分析，以发现违规行为，挖掘安全威胁源头。如违规的私自接入和外联、违规的内网非法连接、攻击产生的虚假IP发现、可疑主机发现和异常的网络流量发现等。目前常用的网络行为异常检测技术有：

(1)工控资产设备异常检测技术

主动和被动相结合的设备精准识别和拓扑自动发现技术，对工控资产及网络进行实时监控，并建立IP资产基线。系统可对非法设备的接入及时发现并报警。

同时，通过异常行为分析技术，进一步核对资产设备的IP地址网络信息、活跃状态、协议流量分布、应用信息、会话信息等信息。

(2)工控系统网络秩序异常检测技术

通过灵活的黑白灰策略配置和自学习技术，系统可智能梳理业务系统各个资产间的访问关系，自动生成业务访问拓扑图，形成业务访问行为关系基线。

能够从业务行为的关系、方向、频率、时间不同维度，来分析判断业务访问行为是否异常。通过采用黑、白、灰名单机制，判定某个流行为是否合规。

(3)网络端口通信异常检测技术

当报文采集单元的某个有流量的网络端口在指定时间内没有收到任何流量，系统能够对网络端口通信超时(中断)进行预警。

(4)基于协议深度识别的网络行为分析技术

系统可以对工控协议进行深度内容解析和识别，对协议中的工控指令和用户行为进行细粒度抽取，与业务和工艺过程进行关联，并进行对比分析，从而有效支撑对不符合业务流程的行为进行检测。

工控网络异常感知系统自动学习工控系统的业务行为，包括网络秩序、流量大小、资产设备、工控指令与参数，建立工控系统所在环境的白名单安全模型，一旦出现非白名单的行为与内容，进行安全预警。常见的工控系统安全建模技术有：

(1)行为列表建模

对关键路径、关键资源的业务访问链路、协议、流量、时间等进行实时监控，具备行为列表功能，可按有连接无数据、广播包、行为的合规状态等特殊条件对列表内容进行筛选，可在访问行为的基础上制定检测策略，可对访问行为进行源目的IP、源目的端口和协议等字段进行聚类分析。

(2)行为拓扑建模

对关键路径、关键资源的业务访问链路、协议、流量、时间等进行实时拓扑展示，拓扑节点可以下钻，拓扑节点和拓扑连线可以表示网络流量和流速的大小，可以按IP地址、合规状态、流量和流速等条件进行交互式地查询过滤。

(3)资产分析建模

对资产会话数量、资产总体数量、新发现资产告警、资产活跃情况、资产告警和分布进行总体分析。

(4)业务分析建模

以业务系统为维度，可自定义需要关注的应用，进行可视化拓扑展现，支持流量、流速和访问关系的呈现。

UDP Flood是日渐猖厥的流量型DoS攻击，原理也很简单。常见的情况是利用大量UDP小包冲击DNS服务器或Radius认证服务器、流媒体视频服务器。

100k pps的UDP Flood经常将线路上的骨干设备例如防火墙打瘫，造成整个网段的瘫痪。由于UDP协议是一种无连接的服务，在UDP FLOOD攻击中，攻击者可发送大量伪造源IP地址的小UDP包。但是，由于UDP协议是无连接性的，所以只要开了一个UDP的端口提供相关服务的话，那么就可针对相关的服务进行攻击。

正常应用情况下，UDP包双向流量会基本相等，而且大小和内容都是随机的，变化很大。出现UDP Flood的情况下，针对同一目标IP的UDP包在一侧大量出现，并且内容和大小都比较固定。

UDP协议与TCP协议不同，是无连接状态的协议，并且UDP应用协议五花八门，差异极大，因此针对UDP Flood的防护非常困难。其防护要根据具体情况对待：

因为大多数IP并不提供UDP服务，直接丢弃UDP流量即可。所以现在纯粹的UDP流量攻击比较少见了，取而代之的是UDP协议承载的DNS Query Flood攻击。简单地说，越上层协议上发动的DDoS攻击越难以防御，因为协议越上层，与业务关联越大，防御系统面临的情况越复杂。

UDP DNS Query Flood攻击实质上是UDP Flood的一种，但是由于DNS服务器的不可替代的关键作用，一旦服务器瘫痪，影响一般都很大。

UDP DNS Query Flood攻击采用的方法是向被攻击的服务器发送大量的域名解析请求，通常请求解析的域名是随机生成或者是网络世界上根本不存在的域名，被攻击的DNS服务器在接收到域名解析请求的时候首先会在服务器上查找是否有对应的缓存，如果查找不到并且该域名无法直接由服务器解析的时候，DNS服务器会向其上层DNS服务器递归查询域名信息。域名解析的过程给服务器带来了很大的负载，每秒钟域名解析请求超过一定的数量就会造成DNS服务器解析域名超时。

入侵检测是一种主动防御的安全防护技术，通过监视、分析通信行为，在入侵行为产生危害之前进行拦截，是对防火墙的功能的补充。根据工业网络系统的复杂性，基于安全防御架构和规则匹配检测等的防护技术在一定程度上能够起到有效的保护作用，但对于符合正常行为基本特征的攻击无法检测。入侵检测系统能根据攻击行为模式，通过分析通信行为产生的特征变化，检测出异常的攻击行为。目前，针对工业网络入侵检测技术的研究取得了一定的研究成果，主要方法有基于统计学习的KNN数据挖掘分类算法，基于不完备信息的半监督K-means异常检测方法，基于工业网络流量的检测方法和基于机器学习的支持向量机异常检测方法等。

支持向量机(Support Vector Machine,SVM)是结构风险最小化的机器学习算法，能够解决小样本、非线性、高维数的分类问题，具有泛化能力强的优势。

目前，利用SVM的工业网络入侵检测的主要目标为对异常攻击行为检测和分类，相关的研究主要集中在SVM模型核函数选择、参数优化及算法结构，对入侵检测模型的输入数据特征的提取缺少研究。不同的工业网络入侵检测系统都是对网络通信流量分析及数据处理，进行异常行为的检测，研究基于异常行为的通信数据特征提取不仅有助于建立SVM入侵检测系统模型，对其他算法的入侵检测系统的数据处理也有重要的意义。

发明内容

针对现有技术的不足，本发明提供了一种基于支持向量机的工业互联网入侵检测方法，该方法首先对工业互联网中的会话通信情况进行检测，检测出进行dnsflood攻击的异常通信流量数据，基于异常通信流量数据进行特征提取，获得SVM模型的输入特征量；其次，基于异常流量的所提取特征对入侵检测模型进行训练，建立通信行为的检测模型。

本发明还提供了上述基于支持向量机的工业互联网入侵检测方法的实现系统。

术语解释：

1、UDP协议：用户数据包协议(UDP，User Datagram Protocol)。UDP为应用程序提供了一种无需建立连接就可以发送封装的IP数据包的方法。

本发明的技术方案为：

一种基于支持向量机的工业互联网入侵检测方法，包括：

(1)获取dnsflood攻击的异常通信流量数据；

(2)从步骤(1)得到的异常通信流量数据中提取特征数据，构造特征量；

一方面能够解析通信流量的意义及其作用，提取可能揭示异常行为的特征，另一方面为解析异常通信流量特征，提取异常操作容易引起变化的特征量；

(3)将步骤(2)构造的特征量输入SVM入侵检测模型进行训练，得到用于检测dnsflood攻击的SVM入侵检测模型；

(4)提取待检测的通信流量数据的特征数据并构造特征量，然后输入到训练好的SVM入侵检测模型进行入侵检测，对检测到的可疑流量进行捕获，同时记录日志，并通知安全管理员进行处理。

根据本发明优选的，步骤(1)中，获取dnsflood攻击的异常通信流量数据，具体过程为：

a.网络特征的收集：监听主机间的每个会话，捕获会话中的基于UDP协议的报文；

b.dnsflood攻击的检测：基于步骤a收集到的基于UDP协议的报文，进行dnsflood攻击的检测；

c.数据保存：针对判断为dnsflood攻击的会话，将攻击者的IP地址列入黑名单，对攻击者向服务器发送的请求进行拦截，同时将判断为dnsflood攻击的数据包保存下来用作训练SVM入侵检测模型。

根据本发明优选的，步骤b中，dnsflood攻击的检测，具体步骤包括：

b-1、对建立的每个会话，从发送的第一个数据包开始，设定一个时间戳，对该时间戳之后发送的数据包都划入该段时间内，统计该段时间内发包次数；当用户停止发送数据包超过设定时间，即关闭当前时间戳；

若用户再次发送数据包，则重新设定时间戳，重新统计发包次数；

b-2、检测dnsflood攻击：对时间戳内的发包次数进行统计，如果时间戳内的一个周期中的发包次数超过阈值，则将会话判断为dnsflood攻击。

根据本发明优选的，步骤(2)中，从步骤(1)得到的异常通信流量数据中提取特征数据，构造特征量；具体过程为：

A、根据异常行为模式，直接从通信流量中获取第一特征数据，构造特征量特征量x1至x9；

第一特征数据包括域名、目的端口、目的IP地址、UDP报文长度、查询请求类型、IP包头部长度、数据量、查询类和标志，所述查询类为dns报文头中标志部分的机内码(OPCODE)，用来设置查询的种类，具体值包括0-15的正整数，0表示标准查询(QUERY)；1表示反向查询(IQUERY)；2表示服务器状态查询(STATUS)；3-15表示保留值，暂时未使用；所述标志为dns报文头中的标识ID部分，是请求客户端设置的16位标示，服务器给出应答的时候会带相同的标示字段回来，这样请求客户端就可以区分不同的请求应答了；

将域名作为特征量xl，将目的端口作为特征量x2，将目的IP地址作为特征量x3，将UDP报文长度作为特征量x4，将查询请求类型作为特征量x5，将IP包头部长度作为特征量x6，将数据量作为特征量x7；将查询类作为特征量x8，将标志作为特征量x9；

攻击者对系统的恶意攻击是通过伪造待解析域名执行相应的操作，将域名作为特征量xl；针对选择DNS协议网络通信，将目的端口作为特征量x2，以防止恶意攻击更改协议；对于目的IP地址能够揭示恶意攻击的目标，将目的IP地址作为特征量x3；攻击者利用DNS协议进行攻击，可能会产生畸形的DNS报文，数据长度能够揭示这一变化，将UDP报文长度作为特征量x4；攻击行为攻击域名服务器时由于发起海量域名查询请求，因此查询请求类型能够显示出攻击特征，将查询类型为特征量x5；

B、解析通信流量数据，提取第二特征数据，构造特征量特征量x10至x13；

第二特征数据包括域名长度、10秒域名解析请求次数、10秒访问域名服务器IP次数、10秒访问域名服务器端口次数；

将域名长度作为特征量x10，将10秒内的域名解析请求的次数作为特征量x11，将10秒访问域名服务器IP次数作为作为特征量x12，将10秒访问域名服务器端口次数作为作为特征量x13。

通信行为的特征选择是直接从通信流量中提取数据特征，然而单一地应用通信流量中的数据特征对异常行为的操作模式反映不足。例如攻击者可能伪造待解析域名攻击服务器，在正常的行为下，用户也可能对服务器发出不存在域名的解析请求，从而只应用域名数据特征是不能反映出异常的行为模式。

基于异常行为的特征构造方法主要根据UDP flood的攻击操作模式，解析网络流量数据的特征反映，从而构造相关行为特征。例如DNS Query Flood攻击，攻击者向被攻击的服务器发送大量的域名解析请求，通常请求解析的域名是随机生成或者是网络世界上根本不存在的域名，由于攻击构造的域名一般长度相似，所以构造域名长度作为特征量x10。

针对攻击域名服务器的攻击行为，攻击操作可能在连续一些通信过程中多次发送域名解析请求，该行为不符合正常的用户域名解析请求，可以构造当前10秒内的域名解析请求的次数作为特征量x11，以使系统能够检测出该异常行为。

根据异常行为的攻击模式构造通信数据行为特征的时间长度和连接次数属性，对实际系统的入侵检测有一定的影响，例如相对较长的时间和连接次数能提高隐藏性攻击检测效率，但实时性会有所降低。构造10秒访问域名服务器IP次数作为作为特征量x12，构造10秒访问域名服务器端口次数作为作为特征量x13，利用通信时间和连接次数的属性以有效提取反映异常行为模式的数据特征，具体的参数选择应根据协议操作和通信行为周期性的特点为指导。该方法通过解析异常行为产生特征变化，构造了4个特征量。

根据本发明优选的，步骤(3)中，将步骤(2)构造的特征量输入SVM入侵检测模型进行训练，得到用于检测dnsflood攻击的SVM入侵检测模型；具体过程为：

3-1、选择高斯径向基函数核作为核函数K(x，xˊ)，核函数K(x，xˊ)为：

式(I)中，特征向量是由特征量x1至x13组成的向量，即x＝(x1，...，x13)^T；xˊ为训练集中的特征向量，x为测试集中的特征向量；

表示两个特征向量的平方欧几里得距离，γ是一个自由参数，γ>0；

支持向量机通过某非线性变换φ(x)，将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算，而在低维输入空间又存在某个函数K(x,x′)，它恰好等于在高维空间中这个内积，即K(x,x′)＝<φ(x)·φ(x′)>。那么支持向量机就不用计算复杂的非线性变换，而由这个函数K(x,x′)直接得到非线性变换的内积，使大大简化了计算。这样的函数K(x,x′)称为核函数；

3-2、确定惩罚系数C，C默认值为1.0；C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低；相反，减小C的话，允许训练样本中有一些误分类错误样本，泛化能力强；构造SVM入侵检测模型，并求式(II)的函数值最小的最优解：

式(II)中，a_i与a_j为拉格朗日乘子，均大于等于0；x_i、x_j均表示特征向量,y_i、y_j表示特征向量,并且

0≤a_i≤C，i＝1,2,…N；

求得式(II)的最优解为：

为SVM入侵检测模型的参数,i＝1,2,…N；通过序列最小优化(SMO)算法所求出的优化解；

3-3、选择a^*的一个特征分量

计算

3-4、利用原始对偶关系，构造决策函数f(x)：

式(III)中，f(x)为决策函数，sign(·)为符号函数，其功能是取某个数的符号，当s>0，sign(s)＝1；当s＝0，sign(s)＝0；当s<0，sign(s)＝-1；

3-5、根据决策函数和输入数据的特征，得到SVM对通信行为的分类情况；当f(x)＝1，表示待检测的通信流量数据为正常通信；当f(x)＝0，表示无法待检测的通信流量数据是否异常；当f(x)＝-1，表示待检测的通信流量数据为异常通信。

上述基于支持向量机的工业互联网入侵检测方法的实现系统，包括：

异常通信流量数据提取模块，用于获取dnsflood攻击的异常通信流量数据；

特征数据提取及构造特征量模块，用于提取特征数据并构造特征量；

SVM入侵检测模型检测模块，用于训练SVM入侵检测模型检测，并利用训练好的SVM入侵检测模型检测对特征数据提取及构造特征量模块输入的特征向量进行入侵检测，对检测到的可疑流量进行捕获和处理。

本发明的有益效果为：

1.本发明提供的工业互联网入侵检测方法，结合了工控网络环境的特殊性和支持向量机算法的优点，重点研究了基于异常行为SVM入侵检测特征提取和特征量的构造。在实际建立模型中学习相关算法结构及参数的应用，基于异常行为模式的SVM入侵检测模型，是提取能够反映正常行为和异常行为区别的数据特征，提高对异常攻击行为的检测效率。

2.本发明提供的一种基于支持向量机的工业互联网入侵检测方法，使得该入侵检测模型对不同组织架构工业互联网检测攻击类型的自适应能力。

3.本发明提供的一种基于支持向量机的工业互联网入侵检测方法，可以用于互联网制造业、生物医药、石油化工、机械制造等不同大类工业企业的工业互联网外部攻击入侵检测和发现，应用前景广泛。

附图说明

图1本发明提供的基于支持向量机的工业互联网入侵检测方法的流程图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于支持向量机的工业互联网入侵检测方法，如图1所示，包括：

(1)获取dnsflood攻击的异常通信流量数据；具体过程为：

步骤b中，dnsflood攻击的检测，具体步骤包括：

具体的，通过使用dnsflood异常检测插件对常规通信流程下的工业互联网通信流量进行检测，捕获尝试dnsflood攻击的异常通信流量数据；dnsflood异常检测插件为现有的，当插件统计的在同一会话中一段时间内的请求数量超过阈值时，则判定为dnsflood攻击。

(2)从步骤(1)得到的异常通信流量数据中提取特征数据，构造特征量；由特征量组成集合，将集合分为测试数据集和训练数据集，具体包括：

第一特征数据包括域名、目的端口、目的IP地址、UDP报文长度、查询请求类型、IP包头部长度、数据量、查询类和标志，查询类为dns报文头中标志部分的机内码(OPCODE)，用来设置查询的种类，具体值包括0-15的正整数，0表示标准查询(QUERY)；1表示反向查询(IQUERY)；2表示服务器状态查询(STATUS)；3-15表示保留值，暂时未使用；标志为dns报文头中的标识ID部分，是请求客户端设置的16位标示，服务器给出应答的时候会带相同的标示字段回来，这样请求客户端就可以区分不同的请求应答了；

(3)将步骤(2)构造的特征量输入SVM入侵检测模型进行训练，得到用于检测dnsflood攻击的SVM入侵检测模型；具体过程为：

0≤a_i≤C，i＝1,2,…N；

求得式(II)的最优解为：

3-3、选择a^*的一个特征分量

计算

3-4、利用原始对偶关系，构造决策函数f(x)：

本实施例提供的入侵检测方法，对训练数据集分类正确率达到了99.7％，对测试数据集的分类正确率为98.75％；对添加了未知新类型的攻击数据样本,分类正确率为97.5％。

实施例2

实施例1提供的基于支持向量机的工业互联网入侵检测方法的实现系统，包括：

Claims

1.一种基于支持向量机的工业互联网入侵检测方法，其特征在于，包括：

(1)获取dnsflood攻击的异常通信流量数据；

(4)提取待检测的通信流量数据的特征数据并构造特征量，然后输入到训练好的SVM入侵检测模型进行入侵检测，对检测到的可疑流量进行捕获，同时记录日志，并进行处理。

2.根据权利要求1提供的一种基于支持向量机的工业互联网入侵检测方法，其特征在于，步骤(1)中，获取dnsflood攻击的异常通信流量数据，具体过程为：

3.根据权利要求2提供的一种基于支持向量机的工业互联网入侵检测方法，其特征在于，步骤b中，dnsflood攻击的检测，具体步骤包括：

4.根据权利要求1提供的一种基于支持向量机的工业互联网入侵检测方法，其特征在于，步骤(2)中，从步骤(1)得到的异常通信流量数据中提取特征数据，构造特征量；具体过程为：

第一特征数据包括域名、目的端口、目的IP地址、UDP报文长度、查询请求类型、IP包头部长度、数据量、查询类和标志，所述查询类为dns报文头中标志部分的机内码，用来设置查询的种类，具体值包括0-15的正整数，0表示标准查询；1表示反向查询；2表示服务器状态查询；3-15表示保留值，暂时未使用；所述标志为dns报文头中的标识ID部分，是请求客户端设置的16位标示；

将域名作为特征量x1，将目的端口作为特征量x2，将目的IP地址作为特征量x3，将UDP报文长度作为特征量x4，将查询请求类型作为特征量x5，将IP包头部长度作为特征量x6，将数据量作为特征量x7；将查询类作为特征量x8，将标志作为特征量x9；

5.根据权利要求1提供的一种基于支持向量机的工业互联网入侵检测方法，其特征在于，步骤(3)中，将步骤(2)构造的特征量输入SVM入侵检测模型进行训练，得到用于检测dnsflood攻击的SVM入侵检测模型；具体过程为：

3-1、选择高斯径向基函数核作为核函数K(x，x′)，核函数K(x，x′)为：