CN110324316B

CN110324316B - 一种基于多种机器学习算法的工控异常行为检测方法

Info

Publication number: CN110324316B
Application number: CN201910466832.5A
Authority: CN
Inventors: 何熹; 刘涛; 张黎; 王伟
Original assignee: Henan Jiuyu Enpai Power Technology Co Ltd
Current assignee: Henan Jiuyu Enpai Power Technology Co Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2022-04-22
Anticipated expiration: 2039-05-31
Also published as: CN110324316A

Abstract

本发明公开了一种基于多种机器学习算法的工控异常行为检测方法，首先采集发电分布式控制系统的流量数据并标定，然后采用标定后的流量数据分别构建训练样本集和测试样本集，然后将样本进行多维特征提取和向量化处理，然后建立基于多种机器分类学习方法的分类模型，最后将采集发电分布式控制系统的实时流量数据并输入分类模型，若输出分类结果为恶意流量，则判定发生工控异常行为，反之，则判定未发生工控异常行为；本发明能够对样本进行有效的分类和检测，快速检测工控系统存在的异常行为问题，并能够准确识别潜在恶意及异常行为。

Description

一种基于多种机器学习算法的工控异常行为检测方法

技术领域

本发明涉及工业控制系统的网络流量异常检测技术领域，尤其涉及一种基于多种机器学习算法的工控异常行为检测方法。

背景技术

工业控制系统，简称工控系统。目前，工控系统在电力、交通、能源、智能机械、生物工程、航天、化工以及金融等众多行业的关键性基础设施中得到了广泛应用，工控系统也已经成为国家关键基础设施的重要组成部分。因此，工控系统在国计民生中有着举足轻重的作用，尤其是电网工控系统，每一次安全事件都会带来巨大的影响和危害。更严重的是，由于工控系统在设计之初并未充分考虑可能面临的信息安全问题，导致其存在许多潜在的信息安全漏洞。快速检测工控系统存在的异常行为，保障整个工控系统的正常运行，已成为关系国家安全的亟待解决的重要问题。

机器学习算法是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。近年来，机器学习算法在各个领域都得到了广泛的应用，但目前机器学习算法的应用存在很大的单一性。由于不同的学习算法往往具备各自的优势和劣势，而结合多种学习算法可以充分利用各自的优势，取长补短，从而达到比单一学习算法更好的过滤效果，因此，将不同的机器学习算法结合起来是一个重要的研究方向。

另外，之前研究者都多将重点放在类似SCADA系统等传统控制系统以及传统控制协议，对工控网络的异常行为研究尚存大量空白，而当前研究者关于工控网络异常行为检测的工作主要关注相关流量的多维特征，利用传统特征的检测方法虽然已可以取得不错的效果，但这种较为单一的特征不能全面地刻画工控系统行为。目前虽然已有研究者将及其学习算法引进了工控恶意流量检测和分类中，但大都也局限于实现单一的机器学习算法。因此，如何利用机器学习算法合理、准确地识别工控系统流量中的威胁行为成为目前亟需解决的重要问题。

发明内容

本发明的目的是提供一种基于多种机器学习算法的工控异常行为检测方法，能够对样本进行有效的分类和检测，快速检测工控系统存在的异常行为问题，并能够准确识别潜在恶意及异常行为。

本发明采用的技术方案为：

一种基于多种机器学习算法的工控异常行为检测方法，包括以下步骤：

A、采集发电分布式控制系统的流量数据并标定；采集的流量数据来源于发电分布式控制系统正常状态下的正常流量数据和渗透测试过程中的异常流量数据，将正常流量数据标定为正常流量，将异常流量数据标定为异常流量；

B、采用标定后的流量数据分别构建训练样本集和测试样本集；

C、样本进行特征提取和向量化处理：对训练样本集和测试样本集中的样本进行特征提取、标准化处理和向量化处理，构成训练样本集的特征向量集合和测试样本集的特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据；

D、建立分类模型：具体过程为：

d1：将训练样本集的特征向量集合多次输入多种机器学习分类算法中，构建集成学习分类模型；一次输入过程记为一轮训练过程，每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合；每轮训练过程具体如下：

d1.1：将训练样本集的特征向量集合分别输入多种机器学习分类算法中；

d1.2：对多种机器学习分类算法的分类结果进行整合处理，得到训练样本集中每个训练样本的最终分类结果，分类结果为正常流量或异常流量；

d1.3：将所有训练样本的分类结果与对应样本标签一一进行对比，获取本轮分类结果的准确率；

d1.4：根据每轮分类结果的准确率，调整优化模型参数，确保每种机器学习分类算法在训练样本集上收敛；

d1.5：采用测试样本集对经d1.4训练后的各种机器学习分类算法进行测试，检验训练后模型的有效性，确定最佳的核函数与模型参数组合并构建集成学习分类模型；

d2：将测试样本集的特征向量集合分别输入每轮训练产生的集成学习分类模型中，采用十重交叉验证法确定各分类算法的最佳权重组合；

d3：采用最佳权重组合和最佳核函数组合构建分类模型；

E：采集发电分布式控制系统的实时流量数据并输入步骤D所得分类模型，若输出分类结果为恶意流量，则判定发生工控异常行为，反之，则判定未发生工控异常行为。

进一步地，所述步骤C中的对样本进行特征提取采用多维特征提取方法。

进一步地，所述多种机器学习分类算法包括输入支持向量机、K近邻、逻辑回归算法和决策树四种机器学习分类算法。

进一步地，所述步骤d1.2具体过程如下：

d1.2.1：将训练样本集的特征向量集合分别输四种机器学习分类算法，四种机器学习分类算法分别输出每个训练样本的分类判断概率；第i种机器学习分类算法分别输出每个训练样本的正常判定概率wn_i和恶意判定概率wa_i，1≤i≤4；

d1.2.2：计算每个训练样本的正常判定总概率Wnormal和恶意判定总概率Wabnormal；

正常判定总概率Wnormal计算公式如下：

Wnormal＝P₁*wn₁+P₂*wn₂+P₃*wn₃+P₄*wn₄ (1)

公式(1)中，P₁表示第一种机器学习分类算法的正常判定概率wn₁的权重，P₂表示第二种机器学习分类算法的正常判定概率wn₂的权重，P₃表示第三种机器学习分类算法的正常判定概率wn₃的权重，P₄表示第四种机器学习分类算法的正常判定概率wn₄的权重；

恶意判定总概率Wabnormal计算公式如下：

Wanormal＝P′₁*wa₁+P′₂*wa₂+P′₃*wa₃+P′₄*wa₄ (2)

公式(2)中，P′₁表示第一种机器学习分类算法的恶意判定概率wa₁的权重，P′₂表示第二种机器学习分类算法的正常判定概率wa₂的权重，P′₃表示第三种机器学习分类算法的正常判定概率wa₃的权重，P′₄表示第四种机器学习分类算法的正常判定概率wa₄的权重；

d1.2.3：比较正常判定总概率Wnormal与恶意判定总概率Wabnormal，若Wnormal>Wabnormal，则判定该训练样本为正常流量，若Wnormal<Wabnormal，则判定该训练样本为恶意流量。

进一步地，步骤C中所述多维特征提取方法提取了样本的二十五维有效特征，二十五维有效特征包括十五个基本特征和十个窗口化统计特征；十五个基本特征为协议类型号、数据包生存时间TTL、数据包长度、校验码、ICMP标志号、ARP类型号、ARP协议OP字段、UDP的源端口以及目的端口、TCP协议标识号、TCP协议的源端口以及目的端口号、TCP协议seq值、TCP协议ack值、TCP协议的窗口值；十个窗口化统计特征为单位时间内连接数量、目的地址相同协议类型相同流量数、目的地址相同协议类型不同流量数、目的地址不同协议类型相同流量数、目的地址相同协议类型相同连接数、目的地址相同协议类型不同连接数、目的地址相同目的端口相同连接数、目的地址不同协议类型相同连接数、时间窗口内载荷相似度得分、空间窗口内载荷相似度得分。

进一步地，所述步骤A中渗透测试采用的工具包括Metasploit、wireshark、BurpSuit、Nmap以及Hping3。

进一步地，所述步骤A中渗透测试产生的异常攻击流量包括网络扫描行为、针对控制指令的篡改以及重放攻击、ARP攻击以及拒绝服务攻击。

本发明具有以下有益效果：

(1)通过采用多种机器学习算法构成的分类模型，充分利用各种分类算法的优势，弥补各自的不足，利用模型检测技术弥补了传统评估工具的不足，使评估的检测结果更加准确，从而达到比单一分类算法更好的分类性能，实现了对应用样本进行有效地分类和检测，同时，有效解决难以快速检测工控系统存在的异常行为的问题，实现识别潜在恶意及异常行为的功能；

(2)通过采用多维提取方法提取样本特征，相较于传统的单一特征提取，能够更为全面的刻画工控系统行为特征，从而提高分类模型分类结果的准确率，进而实现更加准确检测工控异常行为的目的；

(3)通过十重交叉验证后的平均分类准确率评估所提供的多分类整合分类方法的性能，有效验证和提高分类模型输出结果准确率，进而提高本发明的检测方法的有效性和可行性。

附图说明

图1为本发明的流程图。

具体实施方式

如图1所示，本发明包括以下步骤：

C、样本进行多维特征提取和向量化处理：对训练样本集和测试样本集中的样本进行多维特征提取、标准化处理和向量化处理，构成训练样本集的特征向量集合和测试样本集的特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据；

D、建立分类模型：

本发明针对工业控制系统安全性，拟解决基于工控行为驱动的安全基线及未知风险预测机理；构建基于机器学习的隐藏层特征挖掘方法，识别工控系统恶意行为。拟提出研究基于多维细粒度网络流量分析的工控行为建模与异常检测方法，实现准确识别工控系统异常行为的目标，保护工控系统免受未知攻击的威胁。本项目拟以电网工控系统为研究对象，实现电网工控系统的安全防护。

为了更好地理解本发明，下面结合具体实施例对本发明的技术方案做进一步说明。

如图1所示，本发明包括以下步骤：

A、采集发电分布式控制系统的流量数据并标定。

采集的流量数据来源于发电分布式控制系统正常状态下的正常流量数据和进行渗透测试过程中产生的异常流量数据，从电力生产各环节采用的各类控制设备采集不同的网络控制流量，并采用Metasploit、wireshark、BurpSuit、Nmap、Hping3等工具对相关的控制系统进行渗透测试，然后再采集网络控制流量；先对采集的网络流量数据进行预处理，然后，将正常采集的流量数据标定为正常流量，将经过渗透测试后采集的异常流量数据标定为异常流量。

其中，渗透测试产生的异常攻击流量包括网络扫描行为、针对控制指令的篡改以及重放攻击、ARP攻击以及拒绝服务攻击。

B、采用标定后的流量数据分别构建训练样本集和测试样本集。

先采用标定后的流量数据构建数据集，然后再将数据集分为训练样本集和测试样本集两个子集，保证两个子集中正常流量和异常流量数据的平均。

C、样本进行特征提取和向量化处理。

首先，采用多维特征提取方法对训练样本集和测试样本集中的样本进行特征提取，分别构成训练样本集和测试样本集的特征集合；

本实施例中优选提取样本的二十五维有效特征，二十五维有效特征包括十五个基本特征和十个窗口化统计特征。

十五个基本特征为协议类型号、数据包生存时间TTL、数据包长度、校验码、ICMP标志号、ARP类型号、ARP协议OP字段、UDP的源端口以及目的端口、TCP协议标识号、TCP协议的源端口以及目的端口号、TCP协议seq值、TCP协议ack值、TCP协议的窗口值。

十个窗口化统计特征为单位时间内连接数量、目的地址相同协议类型相同流量数、目的地址相同协议类型不同流量数、目的地址不同协议类型相同流量数、目的地址相同协议类型相同连接数、目的地址相同协议类型不同连接数、目的地址相同目的端口相同连接数、目的地址不同协议类型相同连接数、时间窗口内载荷相似度得分、空间窗口内载荷相似度得分。其中，时间窗口内载荷相似度得分和空间窗口内载荷相似度得分均通过计算相应的时间或者空间窗口中的网络流量载荷信息平均编辑距离率得到。

然后，对特征集合进行标准化处理和向量化处理，构成训练样本集的特征向量集合和测试样本集的特征向量集合；特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据。

D、建立分类模型。

步骤D的具体过程为：

d1：将训练样本集的特征向量集合多次输入支持向量机(SVM)、K近邻、逻辑回归算法和决策树这四种机器学习分类算法中，构建集成学习分类模型。

一次输入过程记为一轮训练过程，每轮训练过程中多种机器学习分类算法采用不同核函数组合和不同权重组合。

每轮训练过程具体如下：

d1.1：将训练样本集的特征向量集合分别输入四种机器学习分类算法中，每种分类算法输出样本为正常或者异常的分类结果。

d1.2：对四种机器学习分类算法的分类结果进行整合处理，得到训练样本集中每个训练样本的最终分类结果，分类结果为正常流量或异常流量。

步骤d1.2具体过程如下：

正常判定总概率Wnormal计算公式如下：

Wnormal＝P₁*wn₁+P₂*wn₂+P₃*wn₃+P₄*wn₄ (1)

恶意判定总概率Wabnormal计算公式如下：

Wanormal＝P′₁*wa₁+P′₂*wa₂+P′₃*wa₃+P′₄*wa₄ (2)

d1.4：根据每轮分类结果的准确率，调整优化模型参数，确定每种机器学习分类算法的参数能保证模型达到最优的检测准确率，确保每种机器学习分类算法在训练样本集上收敛，以保证检测达到稳定状态；

d3：采用最佳权重组合和最佳核函数组合构建分类模型。

本发明将数据集分为训练集以及测试集，然后根据分类算法得出的网络流量最终的分类结果，将分类及国与样本经过标定获取的标签进行进行结果对比，以次来验证分类算法得出的网络流量的分类结果的正确性，并获取分类算法的分类结果的整合后正确率。

在基于这种整合的多分类中，算法的整合策略不同。例如，对正常样本的划分，四种分类算法会出现多种可能的情况组合。按照不同算法所占权重乘以分类概率之和作为最终的准确率。通过十重交叉验证后的平均分类准确率评估所提供的多分类整合分类方法性能，并且能够验证该算法在控制网络流量异常检测方法具有较好的有效性和可行性。

下面以提取单一维度特征进行分类与提取多维特征进行分类的准确率对比结果对本发明结果进行验证。

准确率对比结果如下表所示：

Model	Features	Accuracy(％)
			KNN	Basic Features	99.871
SVM Gaussian Kernel	Basic Features	98.289
			SVM Linear Kernel	Basic Features	99.765
Logistic Regression	Basic Features	98.138
			Decision Tree	Basic Features	99.885
KNN	Basic and Dual-Win Features	99.958
			SVM Gaussian Kernel	Basic and Dual-Win Features	99.420
SVM Linear Kernel	Basic and Dual-Win Features	99.742
			Logistic Regression	Basic and Dual-Win Features	99.452
Decision Tree	Basic and Dual-Win Features	99.912

从上表对比结果可以看出，采用本发明所述的机器分类学习方法所得分类判断结果的准确率高，性能优秀，同时，通过采用单一特征提取方法(Basic Features)所得分类结果与采用多维特征提取方法(Basic and Dual-Win Features)所得分类结果进行对比，基于多维特征提取方法的分类结果准确率优势明显，证明了本发明的有效性和可行性。

综上所述，本发明实例的控制网络流量检测方法通过利用多分类器整合可以充分利用各种分类算法的优势，弥补不同算法的不足，从而达到比单一算法更好的分类性能，而且由于其权重可以使性能更好的分类算法的分类结果占更大比重，从而达到更好的分类结果和性能，实现了对网络流量进行有效的标定和数据检测。本发明的工控网络流量异常检测方法提取了多维的特征提取方案，提取了多维综合的特征，相较于单一特征的提取，更加全面刻画工控行为，进而实现准确检测工控异常行为和识别潜在恶意及异常行为的功能。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解，其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换，而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于多种机器学习算法的工控异常行为检测方法，其特征在于：包括以下步骤：

C、样本进行特征提取和向量化处理：对训练样本集和测试样本集中的样本进行特征提取、标准化处理和向量化处理，构成训练样本集的特征向量集合和测试样本集的特征向量集合，特征向量集合中每一个特征向量对应一个样本信息，每一个特征向量包含各类特征数据；步骤C中多维特征提取方法提取了样本的二十五维有效特征，二十五维有效特征包括十五个基本特征和十个窗口化统计特征；十五个基本特征为协议类型号、数据包生存时间TTL、数据包长度、校验码、ICMP标志号、ARP类型号、ARP协议OP字段、UDP的源端口以及目的端口、TCP协议标识号、TCP协议的源端口以及目的端口号、TCP协议seq值、TCP协议ack值、TCP协议的窗口值；十个窗口化统计特征为单位时间内连接数量、目的地址相同协议类型相同流量数、目的地址相同协议类型不同流量数、目的地址不同协议类型相同流量数、目的地址相同协议类型相同连接数、目的地址相同协议类型不同连接数、目的地址相同目的端口相同连接数、目的地址不同协议类型相同连接数、时间窗口内载荷相似度得分、空间窗口内载荷相似度得分；

D、建立分类模型：具体过程为：

d3：采用最佳权重组合和最佳核函数组合构建分类模型；

2.根据权利要求1所述的基于多种机器学习算法的工控异常行为检测方法，其特征在于：所述多种机器学习分类算法包括输入支持向量机、K近邻、逻辑回归算法和决策树四种机器学习分类算法。

3.根据权利要求1所述的基于多种机器学习算法的工控异常行为检测方法，其特征在于：所述步骤d1.2具体过程如下：

正常判定总概率Wnormal计算公式如下：

Wnormal=P₁*wn₁+ P₂*wn₂+ P₃*wn₃+ P₄*wn₄ （1）

公式（1）中， P₁表示第一种机器学习分类算法的正常判定概率wn₁的权重，P₂表示第二种机器学习分类算法的正常判定概率wn₂的权重，P₃表示第三种机器学习分类算法的正常判定概率wn₃的权重，P₄表示第四种机器学习分类算法的正常判定概率wn₄的权重；

恶意判定总概率Wabnormal计算公式如下：

Wanormal=P´₁*wa₁+ P´₂*wa₂+ P´₃*wa₃+ P´₄*wa₄ （2）

公式（2）中， P´₁表示第一种机器学习分类算法的恶意判定概率wa₁的权重，P´₂表示第二种机器学习分类算法的正常判定概率wa₂的权重，P´₃表示第三种机器学习分类算法的正常判定概率wa₃的权重，P´₄表示第四种机器学习分类算法的正常判定概率wa₄的权重；

d1.2.3：比较正常判定总概率Wnormal与恶意判定总概率Wabnormal，若Wnormal >Wabnormal，则判定该训练样本为正常流量，若Wnormal < Wabnormal，则判定该训练样本为恶意流量。

4.根据权利要求1所述的基于多种机器学习算法的工控异常行为检测方法，其特征在于：所述步骤A中渗透测试采用的工具包括Metasploit、wireshark、BurpSuit、Nmap以及Hping3。

5.根据权利要求1所述的基于多种机器学习算法的工控异常行为检测方法，其特征在于：所述步骤A中渗透测试产生的异常攻击流量包括网络扫描行为、针对控制指令的篡改以及重放攻击、ARP攻击以及拒绝服务攻击。