CN115118482A

CN115118482A - 工业控制系统入侵检测线索分析溯源方法、系统及终端

Info

Publication number: CN115118482A
Application number: CN202210711679.XA
Authority: CN
Inventors: 安玲玲; 韩潇哲; 王建东; 万波
Original assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Current assignee: Xidian University; Guangzhou Institute of Technology of Xidian University
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-27
Anticipated expiration: 2042-06-22
Also published as: CN115118482B

Abstract

本发明属于互联网技术领域，公开了一种工业控制系统入侵检测线索分析溯源方法、系统及终端，采集工业控制系统中网络数据的传输流量，对传输流量进行预处理形成数据集并训练孤立森林；判断网络数据的传输流量是否正常，若流量异常，则计算各特征的异常贡献度，向相关技术人员报警并提供各特征的异常贡献度。本发明提供的基于孤立森林的工业控制系统入侵线索分析溯源方法，根据工控系统运行的网络数据的传输流量，判断是否出现入侵行为，保证系统安全可靠，并能在发现入侵行为时，为工程师提供线索，便于相关人员及时处理，还能够解决机器学习算法检测网络攻击时无法提供有效攻击线索的问题，快速判断受到的攻击类型，及时采取有效的应对措施。

Description

工业控制系统入侵检测线索分析溯源方法、系统及终端

技术领域

本发明属于互联网技术领域，尤其涉及一种工业控制系统入侵检测线索分析溯源方法、系统及终端。

背景技术

目前，随着中国制造2025战略的逐步落实，以及两化融合(信息化和工业化的深度结合)不断加强，工业控制系统发展十分迅猛，已经成为我国现代化工业生产中不可或缺的重要部分。但也是由于工控系统网络化与信息化的发展，原有系统的设计漏洞以及其他安全问题越来越多的暴露出来，放大了系统面临的安全风险和入侵威胁，漏洞的类型包括但不限于通信协议漏洞、操作系统漏洞、应用软件漏洞等，一旦攻击者利用系统漏洞攻击工控设施，将给工业生产的生命与财产带来严重的安全挑战。

当前基于机器学习的入侵检测方法具有极大优势，相对于传统的基于规则匹配的检测方法，具备检测未知网络攻击的能力，且人力消耗少，已取得了广泛的应用。非监督的机器学习算法相较于传统的检测方法及有监督的机器学习算法节省大量的人力劳动，但只能检测工控系统是否遭受攻击，无法识别攻击类型。因此，亟需设计一种新的工业控制系统入侵检测线索分析溯源方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)传统的工业控制系统的设计漏洞以及其他安全问题放大了系统面临的安全风险和入侵威胁，给工业生产的生命与财产带来严重的安全挑战。

(2)传统的基于规则匹配的工业控制系统入侵检测方法，不具备检测未知网络攻击的能力，且人力消耗大，应用范围较小。

(3)现有的非监督的机器学习算法只能检测工业控制系统是否遭受攻击，无法识别攻击类型。

发明内容

针对现有技术存在的问题，本发明提供了一种工业控制系统入侵检测线索分析溯源方法、系统及终端，尤其涉及一种基于孤立森林的工业控制系统入侵检测线索分析溯源方法、系统、介质、设备及终端。

本发明是这样实现的，一种工业控制系统入侵检测线索分析溯源方法，所述工业控制系统入侵检测线索分析溯源方法包括：

采集工业控制系统中网络数据的传输流量，对传输流量进行预处理形成数据集并训练孤立森林；判断网络数据的传输流量是否正常，若流量异常，则计算各特征的异常贡献度，向相关技术人员报警并提供各特征的异常贡献度。

进一步，所述工业控制系统入侵检测线索分析溯源方法包括以下步骤：

步骤一，模型训练阶段：包括数据采集、数据预处理和孤立森林训练步骤；

步骤二，入侵检测溯源阶段：基于训练好的孤立森林，对于网络流量进行入侵检测，发现网络攻击报警的同时计算攻击数据每个特征的异常贡献度。

进一步，所述步骤一中的训练阶段包括：

(1)对网络流量进行数据预处理，并形成数据集；

(2)将步骤(1)处理好的流量数据作为输入值，并初始化孤立森林；

(3)对于步骤(2)中的输入数据，随机选择若个样本点作为子样本集，放入一棵孤立树的根节点；

(4)随机指定一个维度，在当前节点数据中随机产生一个分割点，分割点位于当前指定维度的最大值与最小值之间；

(5)以步骤(4)中随机产生的分割点生成一个超平面，将当前节点的数据空间划分为2个子空间，将当前节点在指定维度上小于步骤(4)分割点的样本放在左子树的根节点上，将大于分割点的样本放到右子树的根节点上；

(6)在子节点中递归步骤(4)和步骤(5)，不断构造新的子树，直至满足终止条件：①数据本身不可再分，只包含一个样本或该节点全部样本都相同；②树达到最大深度；

(7)重复步骤(3)到步骤(6)，构造t棵孤立树构成孤立森林。

进一步，所述步骤二中的检测阶段包括：

(1)用训练好的孤立森林对工业控制系统网络流量数据进行异常检测，识别异常数据，并输出异常数据在孤立森林中的平均深度；

(2)遍历异常数据在每棵孤立树上的决策路径；

(3)统计每棵树最终将样本孤立出来的划分维度，输出x＝{X₀,X₁,…,X_t}，其中X_i为二维向量，i＝0，1，...，t为孤立树的编号；

(4)对异常样本x的在步骤(3)中信息进行数量统计，摒弃深度>平均深度的X_i，输出x’；

(5)计算每个维度对于异常样本的异常贡献度Y_j；

(6)输出异常样本的每个特征和/或维度的异常贡献度。

进一步，所述步骤(3)中的X₀＝{1，4}表示异常样本x在第一棵孤立树上最后通过划分维度1孤立出来且深度为4。

进一步，所述步骤(5)中运用下式计算出每个维度对于异常样本的异常贡献度Y_j：

其中，len(x')表示x’的长度，num_j表示第j维在x’中出现的次数。

本发明的另一目的在于提供一种应用所述的工业控制系统入侵检测线索分析溯源方法的工业控制系统入侵检测线索分析溯源系统，所述工业控制系统入侵检测线索分析溯源系统包括：

数据采集模块，用于采集工业控制系统中网络数据的传输流量；

数据预处理模块，用于对传输流量进行预处理并形成数据集；

模型训练模块，用于进行孤立森林训练；

入侵检测溯源模块，用于基于训练好的孤立森林，对于网络流量进行入侵检测，发现网络攻击报警的同时计算攻击数据每个特征的异常贡献度。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的工业控制系统入侵检测线索分析溯源方法。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述的工业控制系统入侵检测线索分析溯源方法。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的工业控制系统入侵检测线索分析溯源系统。

结合上述的技术方案和解决的技术问题，请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：

本发明提供了一种基于孤立森林的工业控制系统入侵线索分析溯源方法，该方法包括模型训练与入侵检测溯源两个阶段，训练阶段包含数据采集、数据预处理、孤立森林训练等步骤，入侵检测溯源阶段依托训练好的孤立森林，对于网络流量进行入侵检测，发现网络攻击报警的同时计算该攻击数据每个特征的异常贡献度，提供给相关工作人员，以便快速降低攻击产生的负面影响，更大程度保障工业现场设施和人员的生命财产安全。

本发明提供了一种基于孤立森林的工业控制系统入侵线索分析溯源方法，首先采集工控系统中网络数据的传输流量，接着对传输流量进行预处理形成数据集并训练孤立森林，然后判断网络数据流量是否正常，若流量异常，则计算各特征的异常贡献度，向相关技术人员报警并提供各特征的异常贡献度，以便技术人员更快的做出应对，从而减少入侵行为带来的影响。

本发明是基于孤立森林的工业控制系统入侵线索分析溯源方法，很好的解决了孤立森林算法进行入侵检测时无法提供攻击线索的问题。通过本发明，相关技术人员在收到入侵报警的同时，可以查看异常网络流量各个特征的异常贡献度，快速判断受到的攻击类型，及时采取有效的应对措施。

第二，把技术方案看做一个整体或者从产品的角度，本发明所要保护的技术方案具备的技术效果和优点，具体描述如下：

本发明提供的基于孤立森林的工业控制系统入侵线索分析溯源方法，根据工控系统运行的网络数据的传输流量，判断是否出现入侵行为，保证系统安全可靠，并能在发现入侵行为时，为工程师提供线索，便于相关人员及时处理，还能够解决机器学习算法检测网络攻击时无法提供有效攻击线索的问题。

第三，作为本发明的权利要求的创造性辅助证据，还体现在以下几个重要方面：

(1)本发明的技术方案转化后的预期收益和商业价值为：

本发明为非监督机器学习算法应用于入侵检测领域提供一种新的研究思路。即以算法原理为出发点，通过剖析模型分类的具体过程，得出数据各个特征对于分类结果的贡献率，为相关技术人员提供有价值的信息。

(2)本发明的技术方案克服了技术偏见：

传统的入侵检测技术主要是特征检测与异常检测，特征检测通过提取入侵特征或系统异常特征，将输入数据特征与入侵特征，系统当前特征与系统异常特征进行比较，进而判断是否发生入侵，异常检测是依据系统正常工作的状态，总结出正常的输入数据范围以及系统状态范围，通过检测超出安全范围的输入数据和系统状态来检测入侵行为，传统入侵检测技术依赖大量的人工总结和分析，特别是针对实际工业场景下的人工分析是一项昂贵而艰巨的工作，并且难以保证没有疏漏或者失误。针对传统入侵检测技术的缺陷，基于机器学习算法特别是深度学习算法的入侵检测技术体现出了巨大优势，现已得到较为广泛地应用，无监督机器学习算法在工业控制系统入侵检测背景下可以极大程度上减少人工，但其无法识别网络攻击类型，本发明针对无监督机器学习算法中的孤立森林提出一种解决思路和方法，根据算法原理以及检测结果，得出异常网络数据的入侵线索，以协助相关技术人员快速做出应对。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于孤立森林的工业控制系统入侵检测线索分析溯源方法流程图；

图2是本发明实施例提供的孤立森林的结构示意图；

图3是本发明实施例提供的基于孤立森林的工业控制系统入侵线索分析溯源方法训练阶段流程图；

图4是本发明实施例提供的基于孤立森林的工业控制系统入侵线索分析溯源方法检测阶段流程图；

图5是本发明实施例提供的某条异常数据的输出结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种工业控制系统入侵检测线索分析溯源方法、系统及终端，下面结合附图对本发明作详细的描述。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现，该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示，本发明实施例提供的工业控制系统入侵检测线索分析溯源方法包括以下步骤：

S101，模型训练阶段：包括数据采集、数据预处理和孤立森林训练步骤；

S102，入侵检测溯源阶段：基于训练好的孤立森林，对于网络流量进行入侵检测，发现网络攻击报警的同时计算攻击数据每个特征的异常贡献度。

本发明实施例提供的孤立森林的结构示意图如图2所示。

作为优选实施例，本发明实施例提供的工业控制系统入侵检测线索分析溯源方法，具体包括以下步骤：

如图3所示，本发明实施例提供的训练阶段包括：

S1：对网络流量进行数据预处理，并形成数据集；

S2：将S1处理好的流量数据作为输入值，并初始化孤立森林；

S3：对于S2中的输入数据，随机选择若个样本点作为子样本集，放入一棵孤立树的根节点；

S4：随机指定一个维度，在当前节点数据中随机产生一个分割点，分割点位于当前指定维度的最大值与最小值之间；

S5：以S4中随机产生的分割点生成一个超平面，将当前节点的数据空间划分为2个子空间，将当前节点在指定维度上小于S4分割点的样本放在左子树的根节点上，将大于S4分割点的样本放到右子树的根节点上；

S6：在子节点中递归S4和S5，不断构造新的子树，直至满足终止条件：1、数据本身不可再分，即只包含一个样本或该节点全部样本都相同；2、树达到最大深度；

S7：重复S3到S6，构造t棵孤立树构成孤立森林。

如图4所示，本发明实施例提供的检测阶段包括：

S8：用训练好的孤立森林对工业控制系统网络流量数据进行异常检测，识别异常数据，并输出异常数据在孤立森林中的平均深度；

S9：遍历异常数据在每棵孤立树上的决策路径；

S10：统计每棵树最终将该样本孤立出来的划分维度，输出x＝{X₀,X₁,…,X_t}，其中X_i为二维向量，i＝0，1，...，t为孤立树的编号，如X₁＝{1，4}表示异常样本x在第一棵孤立树上最后通过划分维度1孤立出来且深度为4；

S11：对异常样本x的在S10中信息进行数量统计，摒弃深度>平均深度的X_i，输出x’，x’的长度为len(x')，用num_j表示第j维在x’中出现的次数；

S12：运用下式计算出每个维度对于异常样本的异常贡献度Y_j：

S13：输出异常样本的每个特征(维度)的异常贡献度。

本发明实施例提供的工业控制系统入侵检测线索分析溯源系统包括：

模型训练模块，用于进行孤立森林训练；

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值，该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明通过软件形式实施，提出一种工业控制系统入侵检测线索分析溯源方法，并通过Python语言实现。所述工业控制系统入侵检测线索分析溯源方法包括：收集工控系统运行时的网络流量及系统参数并经过预处理形成数据集；训练孤立森林模型；通过训练好的模型进行入侵检测；对于检测到的异常网络数据进行溯源，发现其异常特征，形成入侵线索；专业技术人员根据入侵线索快速应对受到的攻击。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果，和现有技术相比的确具备很大的优势，下面内容结合试验过程的数据、图表等进行描述。

本发明实验用的数据集来自美国密西西比大学的SCADA入侵检测数据集，选用如表1所示的网络流量特征进行实验。

表1网络流量特征

步骤一：对数据进行预处理，包括归一化、重要特征筛选、缺失值补全；

步骤二：通过S2到S7完成孤立森林的训练阶段；

步骤三：运用孤立森林检测异常网络流量并输出异常网络流量各个特征的异常贡献度，图5为某条异常数据的输出结果。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种工业控制系统入侵检测线索分析溯源方法，其特征在于，所述工业控制系统入侵检测线索分析溯源方法包括：

2.如权利要求1所述的工业控制系统入侵检测线索分析溯源方法，其特征在于，所述工业控制系统入侵检测线索分析溯源方法包括以下步骤：

3.如权利要求2所述的工业控制系统入侵检测线索分析溯源方法，其特征在于，所述步骤一中的训练阶段包括：

(1)对网络流量进行数据预处理，并形成数据集；

(7)重复步骤(3)到步骤(6)，构造t棵孤立树构成孤立森林。

4.如权利要求2所述的工业控制系统入侵检测线索分析溯源方法，其特征在于，所述步骤二中的检测阶段包括：

(2)遍历异常数据在每棵孤立树上的决策路径；

(5)计算每个维度对于异常样本的异常贡献度Y_j；

(6)输出异常样本的每个特征和/或维度的异常贡献度。

5.如权利要求4所述的工业控制系统入侵检测线索分析溯源方法，其特征在于，所述步骤(3)中的X₀＝{1，4}表示异常样本x在第一棵孤立树上最后通过划分维度1孤立出来且深度为4。

6.如权利要求4所述的工业控制系统入侵检测线索分析溯源方法，其特征在于，所述步骤(5)中运用下式计算出每个维度对于异常样本的异常贡献度Y_j：

7.一种应用如权利要求1～6任意一项所述的工业控制系统入侵检测线索分析溯源方法的工业控制系统入侵检测线索分析溯源系统，其特征在于，所述工业控制系统入侵检测线索分析溯源系统包括：

模型训练模块，用于进行孤立森林训练；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的工业控制系统入侵检测线索分析溯源方法。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1～6任意一项所述的工业控制系统入侵检测线索分析溯源方法。

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求7所述的工业控制系统入侵检测线索分析溯源系统。