CN116389062A

CN116389062A - 基于流量安全分析的工业控制系统行为监测方法及设备

Info

Publication number: CN116389062A
Application number: CN202310207958.7A
Authority: CN
Inventors: 马超; 石小川; 张典
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2023-03-02
Filing date: 2023-03-02
Publication date: 2023-07-04

Abstract

本发明公开了一种基于流量安全分析的工业控制系统行为监测方法及设备。运用旁路技术采集工控网络原始数据；运用大数据技术缓存工控网络数据，隔离流量数据采集端和分析端之间的速度差异，解决工控网络数据的大规模和高吞吐量等问题；运用协议分析技术，从网络流量中直接提取协议行为标识初步获取工控系统的行为并进行约束；运用多种数据填充技术提升数据的质量；运用LSTM获取工控网络流量序列的静态特征和动态特征并最终通过CNN进行深度行为挖掘。通过协议分析初步获取工控系统行为和后续深度行为挖掘，全面监测工控系统的行为，并最终将行为次数数据记录于预设表并和预设的行为参数进行比对形成分析报告。

Description

基于流量安全分析的工业控制系统行为监测方法及设备

技术领域

本发明涉及信息技术领域，主要面向工控网络提出一种基于流量安全分析的工业控制系统行为监测方法及设备。

背景技术

工业控制系统由各种工业控制组件以及自动化组件构成，用于各种工业生产过程的控制，如今已经广泛应用于能源、交通、电网、水利、船舶、航天等各行各业。随着数字化、智能化的快速发展，工业控制系统原与外界隔离的工控网络已然无法满足生产需求，而伴随工业控制网络逐步的开放，工控网络所面临的网络风险越发严峻。为了维护工业控制系统的网络安全，形成一套有效的行为监测框架是必要的。

一般来说，工业控制系统都包含SCADA(Supervisory Control And DataAcquisition)系统，即数据采集与监视控制系统，用于实时采集生产过程中的各类数据，实时监控直观展示生产动态，对现场设备实现直接或间接控制以及进行数据统计分析等。但SCADA系统缺少直观的工控网络安全监测功能，无法感知工控网络的安全态势，缺少安全测试和审计功能，也无法对工控网络遭受的攻击进行响应与取证。而对工控网络行为进行监控，构建完善的安全分析体系，能够实现对工控网络访问行为及访问流量的统计和分析，并通过引入大数据与人工智能等技术对工控网络流量数据进行深入解读，实现对工控网络的有效监控与安全防护，维护工业控制系统的正常运行。

发明内容

本发明旨在提出一种基于流量安全分析的工业控制系统行为监测方法，解决背景技术中存在的缺点，以实现工控网络的安全分析，高效地维护工控网络的安全。

本发明公开的基于流量安全分析的工业控制系统行为监测方法，包括以下步骤：

一种基于流量安全分析的工业控制系统行为监测方法，包括以下步骤：

S1、采用旁路技术的方案，获取工控网络数据；

S2、采用Kafka分布式消息转发订阅框架，实现工控网络流式数据的转发与缓存；

S3、对Kafka转发的工控网络流量数据进行实时处理，将流量数据各特征归一化为实数，以满足后续各步骤对该数据进行统计分析和运算处理；

S4、对上一步处理过的工控网络流量数据进行填充处理，具体过程如下：

对获取的流量数据进行噪声清洗，得到噪声清洗后的数据；按照数据是否完整将噪声清洗后的数据分别划分到完整数据集A和不完整数据集B中；其中，B中的数据还需执行在A中进行近邻数据查找，并判断是否能在A中找出与数据该数据最相似的邻居数据，若是，则以邻居数据的均值作为数据该数据填充完整后的数据并执行最后一步，反之，则将该数据进行高斯混合模型、k均值聚类算法、零填充&指示方法或前向填充方法；

S5、采用深度学习方法对经过填充处理后的数据进行分类处理，得到流量数据的分类结果，并从各分类结果中提取关键词，确定各关键词的数量和排名，并生成与其行为关键词相关的实时统计表；

S6、设置预设参数，根据分类结果进行数据挖掘，将提取的关键词与预设参数进行对比分析以得到分析结果，并通过抓包工具从流量数据中获取与预设参数相关的数据，并按照关键词对获取数据进行分类，此过程还包括预设属性表，并将关键词数据存储于预设属性表，预设属性表中的数据与预设参数作对比以得到分析结果；

S7、根据上述关键词以及相关的分类结果，确定工控网络在设定时长中进行某项行为的次数；

S8、判断工控网络执行某些行为在设定时长的次数是否达到第一阙值，在达到第一阙值时，向工控网络发出警告提醒，反之则不发送；

S9、判断工控网络执行某些行为的次数是否达到第二阙值，且第二阙值大于第一阙值，当达到第二阙值时阻止工控网络在设定时长中继续进行相应行为并向工控网络发出警告提醒，当收到系统管理员的许可认证后再允许工控网络执行该行为；

S10、对工控网络的各行为数据进行存储备份，并对工控网络的行为进行分析，生成分析报告。

进一步地，所述S1中获取的工控网络数据包括网络、终端及应用的日志、流量、事件、状态。

进一步地，所述S3中对Kafka转发的工控网络流量数据进行实时处理，包括对采集的多源数据进行有机融合，对流量数据进行字段解码，以及根据流量数据通信协议中行为标识，记录目标行为信息及相应的流量。

进一步地，在数据填充过程中，高斯混合模型用于缺失的数据服从正态分布的场景和数据集中有多种特征的场景；k均值聚类算法用于缺失的数据可以分类的场景，有相似性的数据集；零填充&指示方法用于缺失数据量不大的场景，缺失数据类型是数值型的场景；前向填充法用于数据集是时间序列的场景，缺失数据类型是数值型的场景。

进一步地，所述S4中，填充数据后，还需进行数据转化，将每条工控网络流量数据的各个特征值转化为更容易训练后续分类模型的形态，采用平均标准偏差和最小-最大方法；

平均标准偏差方法包括减去计算的总体平均值和除以计算的总体标准偏差的每个值在某一特征，具体为：

其中x是特征值，μ是均值，σ是标准差，执行此预处理策略可确保样本偏离均值的最小化；

最小-最大方法，即从给定的特征中找到最小值和最大值，并将特征值归一化到0到l之间，具体为：

其中x_i是一个特征值，min(x)和max(x)是由整体特征值计算出来的最小值和最大值。

进一步地，所述S5中分类模型将流量数据建模为时间序列类型，具体为：

S_i＝E_s(x_i)，T_i＝E_T(T_i-1，S_i，x_i)

这里采用循环神经网络LSTM训练局部时态特征S和全局时态特征T，分别用E_s和E_T表示，对于第i条样本的局部特征S_i，仅与该条的特征值x_i有关，而第i条样本的全局特征T_i与特征值x_i、局部特征S_i以及上一条样本的全局特征T_i-1有关，最后将这些时间特征和样本带入卷积神经网络CNN训练，得出最终的工控网络行为分类模型。

基于同一发明构思，本方案还设计了一种基于流量安全分析的工业控制系统行为监测系统，包括：

数据获取模块：采用旁路技术的方案，获取工控网络数据；

数据存储模块：采用Kafka分布式消息转发订阅框架，实现工控网络流式数据的转发与缓存；

数据预处理模块：对Kafka转发的工控网络流量数据进行实时处理，将流量数据各特征归一化为实数，以满足后续各步骤对该数据进行统计分析和运算处理；

数据填充模块：对上一步处理过的工控网络流量数据进行填充处理，具体过程如下：

数据分类处理模块：采用深度学习方法对经过填充处理后的数据进行分类处理，得到流量数据的分类结果，并从各分类结果中提取关键词，确定各关键词的数量和排名，并生成与其行为关键词相关的实时统计表；

数据挖掘模块：设置预设参数，根据分类结果进行数据挖掘，将提取的关键词与预设参数进行对比分析以得到分析结果，并通过抓包工具从流量数据中获取与预设参数相关的数据，并按照关键词对获取数据进行分类，此过程还包括预设属性表，并将关键词数据存储于预设属性表，预设属性表中的数据与预设参数作对比以得到分析结果；

行为识别模块：根据上述关键词以及相关的分类结果，确定工控网络在设定时长中进行某项行为的次数；

行为一次判别模块：判断工控网络执行某些行为在设定时长的次数是否达到第一阙值，在达到第一阙值时，向工控网络发出警告提醒，反之则不发送；

行为二次判别模块：判断工控网络执行某些行为的次数是否达到第二阙值，且第二阙值大于第一阙值，当达到第二阙值时阻止工控网络在设定时长中继续进行相应行为并向工控网络发出警告提醒，当收到系统管理员的许可认证后再允许工控网络执行该行为；

报告生成模块：对工控网络的各行为数据进行存储备份，并对工控网络的行为进行分析，生成分析报告。

基于同一发明构思，本方案还提供了一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现基于流量安全分析的工业控制系统行为监测方法所执行的操作。

基于同一发明构思，本方案还提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如基于流量安全分析的工业控制系统行为监测方法所执行的操作。

本发明的优点在于：

1)通过对工控网络流量数据多维度深层次分析，监控工控网络安全行为，实现对工控网络的有效监控与安全防护。

2)通过数据填充技术，解决工控网络大量数据特征值缺失的问题，以提升数据集的质量，提高后续工控网络行为分类模型的准确率。

3)数据填充技术采用多种方案的融合法，全方位多角度地对工控网络流量数据进行最优填充方案选择，提高数据填充的质量与效果。

4)通过学习工控网络流量数据序列之间的静态特征和全局特征，充分考虑时序数据在每个时间戳上流量数据的局部特征以及不同时点之间时序变量间的潜在复杂关系。

5)通过长短期记忆循环神经网络LSTM学习工控网络数据样本的局部时序特征和全局特征，并带入后续行为分类模型进行运算，在时间维度上识别不同行为工控网络流量数据样本的特征分布情况，以提升行为识别的准确性。

附图说明

图1为本发明提出的基于流量安全分析的工业控制系统行为监测框架图。

图2为本发明提出的基于流量安全分析的工业控制系统行为监测框架基本流程图。

图3为本发明提出的基于流量安全分析的工业控制系统行为分类的神经网络模型架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1-3所示，本发明提出一种基于流量安全分析的工业控制系统行为监测方法，以预防工控系统出现规定外的异常行为导致不可控的后果。

在一个可选实例中，首先采用旁路接入技术获取数据，在不改变工控网络原有网络结构以及不影响工控网络正常运行的前提下获取工控网络数据，涵盖网络、终端及应用的日志、流量、事件、状态等多源多维数据的采集。旁路接入技术，可不改变工控网络原有的网络结构，部署简单，且不影响网络的稳定性和可靠性。采用旁路方式，将数据采集系统与网络并联进行数据采集，利用工控网络中协议的广播机制，完全引入网络的原始通信数据，采集网络会话日志和网络应用日志。

数据缓存采用Kafka构造数据中转站，对大规模工控网络的实时流式数据进行快速准确安全转发与存储，屏蔽数据采集端和数据处理端之间的数据处理速率差异，避免了工控网络流量数据的丢失现象。对后续采集工控网络的会话日志、网络应用日志和原始通信数据，通过创建Kafka的topic、生产者和消费者程序，构建数据采集、缓存、转发三个层次的Kafka数据中转站。

数据首次处理包括对采集的多源数据进行有机融合，对流量数据进行字段解码，以及根据流量数据通信协议中行为标识，记录目标行为信息及相应的流量。处理前需预设行为条件，设置当前时间段中完全禁止的行为。当采集的工控网络流量的目标行为信息不符合预设行为条件时，对工控网络直接发出提醒通知。实际上，只从通讯协议中得出工控系统此时的行为是具有局限性的，协议初始设置的行为标识无法完全涵盖所有的种类，实际上工控系统的行为种类超出协议的设定范围，故具体的行为类型还需通过数据挖掘深度解析。对于初步处理的数据，还需进行数据填充处理。数据填充处理采用融合k近邻算法、高斯混合模型、k均值聚类算法、零填充&指示方法和前向填充方法的不完整数据填充算法。填充处理的具体步骤如下：对获取的流量数据进行噪声清洗，得到噪声清洗后的数据；按照数据是否完整将噪声清洗后的数据分别划分到完整数据集A和不完整数据集B中；其中，B中的数据还需执行在A中进行近邻数据查找，并判断是否能在A中找出与数据该数据最相似的邻居数据，若是，则以邻居数据的均值作为数据该数据填充完整后的数据并执行最后一步，反之，则将该数据进行高斯混合模型、k均值聚类算法、零填充&指示方法或前向填充方法。

在数据填充这步中，还包括高斯混合模型、k均值聚类算法、零填充&指示方法和前向填充方法的选择判断。高斯混合模型是一种概率模型，它可以将数据分组到若干不同的分布中。它假设数据来自一个或多个正态分布，并可以通过该分布来填充缺失数据。它可以识别数据之间的相关性，允许使用多种模型来拟合数据，可以很好地处理多维数据。这种填充方法适用于缺失的数据服从正态分布的场景和数据集中有多种特征的场景；k均值聚类算法是一种基于聚类的无监督机器学习算法，它可以将数据集中的点聚为基本相似的簇。它把一组对象分类到几个类别中，每个类别都有若干个子类别，子类别都有若干个对象。可以用来填充缺失的数据，可以用来确定数据的相似性，并且可以提供识别的细节。这种方法适用于缺失的数据可以分类的场景，有相似性的数据集；零填充&指示方法是一种最常用的缺失数据填充方法，它将所有缺失值替换为特定的值，通常为零或一个特定的字符串。通过指示方法，可以创建一个新的变量来指示缺失值，并将其分配给0或1，以表示缺失或不缺失。它可以有效地处理缺失数据，并可以节省计算时间。这种方法缺失数据量不大的场景，缺失数据类型是数值型的场景；前向填充法是一种填充缺失值的方法，它将缺失值替换为该变量前一个有效值。它可以有效地处理时间序列中的缺失值，可以用来提高模型的准确性。这种方法数据集是时间序列的场景，缺失数据类型是数值型的场景。结合这四种填充方法的适合场景，对于采集的多源工控网络数据，通过训练完毕的神经网络模型判断该数据最适合的填充方法。

数据填充后，还需对A以及经过上一步处理后的B数据进行数据集成、数据转换和数据规约操作，把所有的特征值归为0到1之间的实数，即将每条工控网络流量数据的各个特征值转化为更容易训练后续分类模型的形态。这一步执行平均标准偏差和最小-最大方法。平均标准偏差方法包括减去计算的总体平均值和除以计算的总体标准偏差的每个值在某一特征。因此，

其中x是特征值，μ是均值，σ是标准差。执行此预处理策略可确保样本偏离均值的最小化。第二种方法是最小-最大方法，即从给定的特征中找到最小值和最大值，并将特征值归一化到0到1之间。因此，

其中xi是一个特征值，min(x)和max(x)是由整体特征值计算出来的最小值和最大值。

对填充处理后的数据，采用深度学习方法对经过填充处理后的数据进行分类处理。CNN在计算机视觉领域有广泛的应用，它具有较强的局部特征提取能力。而LSTM在自然语言处理领域有广泛的应用，它具有较强的时序特征学习能力。通过结合两者，可以做到自动提取大量网络流量数据中的特征，并依据这些特征自动监测网络的异常行为。本发明考虑到工控网络流量数据存在可辨识的时间特征，能够基于时间维度挖掘出一些新的特征，如历史值和历史变化率，因此将流量数据建模为多维时间序列类型，同时将时间特征分为局部特征：流量数据在每个时间戳上各特征值之间的特征分布或局部特征S；全局特征：不同时点之间工控网络流量数据之间的潜在复杂关系T。通过LSTM网络对S和T的学习以及带入后续的CNN进行工控网络行为分类模型的训练，以更加准确、有效和深度地挖掘各时刻工控系统的行为。

得到流量数据的分类结果后，再从各分类结果中提取关键词，确定各关键词的数量和排名，并生成与其行为关键词相关的实时统计表。然后设置预设参数，预设属性表，根据分类结果进行数据挖掘，将提取的关键词与预设参数进行对比分析以得到分析结果，并通过抓包工具从流量数据中获取与预设参数相关的数据，并按照关键词对获取数据进行分类以及将关键词数据存储于预设属性表。预设属性表中的数据可与预设参数作对比以得到分析结果。这里的预设参数即为时间段中某行为的第一阙值和第二阙值等数据，预设属性表中存储分类模型对工控网络行为的识别结果。最后根据上述关键词以及相关的分类结果，确定工控网络在设定时长中进行某项行为的次数并判断次数是否到达第一阙值以及第二阙值。在达到第一阙值时，向工控网络发出警告提醒，反之则不发送。在达到第二阙值时阻止工控网络在设定时长中继续进行相应行为并向工控网络发出警告提醒，当收到系统管理员的许可认证后再允许工控网络执行该行为。最终对工控网络的各行为数据进行存储备份，并对工控网络的行为进行分析，并生成分析报告。

本发明的目的在于监测工控网络的行为，通过约束工控网络的行为，防止超出预期的行为发生等手段维护工控网络的安全。为了实现这样一套完整的监测框架：运用旁路技术以不改变工控网络原始网络结构，不影响工控网络的实时性和可用性的前提下采集工控网络原始数据；运用大数据技术缓存工控网络数据，隔离流量数据采集端和分析端之间的速度差异，解决工控网络数据的大规模和高吞吐量等问题；运用协议分析技术，从网络流量中直接提取协议行为标识初步获取工控系统的行为并进行约束；运用多种数据填充技术提升数据的质量；运用LSTM获取工控网络流量序列的静态特征和动态特征并最终通过CNN进行深度行为挖掘。通过协议分析初步获取工控系统行为和后续深度行为挖掘，全面监测工控系统的行为，并最终将行为次数数据记录于预设表并和预设的行为参数进行比对形成分析报告，并当结果异常时进行报警或直接在整个系统中禁止该行为的发生。这样一套流程框架实现了本发明的目的，即通过约束工控网络的行为，防止超出预期的行为发生等手段以维护工控网络的安全。本发明还在这一过程中引入旁路技术和大数据技术以不影响大规模和高吞吐量的工控网络的正常运行来提升整个监测框架对工控系统的适配性，并从工控网络流量序列的局部特征和全局特征两维度理解数据的时序特征以提升行为识别准确性，最终使得本发明的框架达到最佳的行为监测的效果。

Claims

1.一种基于流量安全分析的工业控制系统行为监测方法，其特征在于，包括以下步骤：

S1、采用旁路技术的方案，获取工控网络数据；

2.根据权利要求1所述的基于流量安全分析的工业控制系统行为监测方法，其特征在于：

所述S1中获取的工控网络数据包括网络、终端及应用的日志、流量、事件、状态。

3.根据权利要求1所述的基于流量安全分析的工业控制系统行为监测方法，其特征在于：

所述S3中对Kafka转发的工控网络流量数据进行实时处理，包括对采集的多源数据进行有机融合，对流量数据进行字段解码，以及根据流量数据通信协议中行为标识，记录目标行为信息及相应的流量。

4.根据权利要求1所述的基于流量安全分析的工业控制系统行为监测方法，其特征在于：在数据填充过程中，高斯混合模型用于缺失的数据服从正态分布的场景和数据集中有多种特征的场景；k均值聚类算法用于缺失的数据可以分类的场景，有相似性的数据集；零填充&指示方法用于缺失数据量不大的场景，缺失数据类型是数值型的场景；前向填充法用于数据集是时间序列的场景，缺失数据类型是数值型的场景。

5.根据权利要求1所述的基于流量安全分析的工业控制系统行为监测方法，其特征在于：

所述S4中，填充数据后，还需进行数据转化，将每条工控网络流量数据的各个特征值转化为更容易训练后续分类模型的形态，采用平均标准偏差和最小-最大方法；

最小-最大方法，即从给定的特征中找到最小值和最大值，并将特征值归一化到0到1之间，具体为：

6.根据权利要求1所述的基于流量安全分析的工业控制系统行为监测方法，其特征在于：

所述S5中分类模型将流量数据建模为时间序列类型，具体为：

S_i＝E_s(x_i),T_i＝E_T(T_i-1,S_i,x_i)

7.一种基于流量安全分析的工业控制系统行为监测系统，其特征在于：

数据获取模块：采用旁路技术的方案，获取工控网络数据；

8.根据权利要求7所述的基于流量安全分析的工业控制系统行为监测系统，其特征在于：所述数据填充模块中，高斯混合模型用于缺失的数据服从正态分布的场景和数据集中有多种特征的场景；k均值聚类算法用于缺失的数据可以分类的场景，有相似性的数据集；零填充&指示方法用于缺失数据量不大的场景，缺失数据类型是数值型的场景；前向填充法用于数据集是时间序列的场景，缺失数据类型是数值型的场景。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述方法所执行的操作。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述程序被处理器执行时实现如权利要求1-6中任一项所述方法所执行的操作。