CN112668002B

CN112668002B - 一种基于特征扩充的工控安全检测方法

Info

Publication number: CN112668002B
Application number: CN202011553417.2A
Authority: CN
Inventors: 刘朝羽; 郭晓玲; 邹大均; 幸享宏; 张文科
Original assignee: Industrial Information Security Sichuan Innovation Center Co ltd
Current assignee: Industrial Information Security Sichuan Innovation Center Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-07-26
Anticipated expiration: 2040-12-24
Also published as: CN112668002A

Abstract

本发明公开了一种基于特征扩充的工控安全检测方法，包括步骤：S1，在网络连接数据中选取多条特征数据，计算某一条特征数据在时间t₀的前n条数据的平均时间T，n≥4，构建时间特征＝数据时间t₀‑平均时间T；将所构建的时间特征用于构建数据矩阵，构建的带有时间特征的数据矩阵作为一组数据；然后按如上操作，对选取的下一条特征数据构建第二组数据，直至对选取的多条特征数据构建完成得到多组数据，完成第一个预处理步骤；S2，将第一个预处理后得到的多组数据输入到模型中训练，训练后用于执行工控安全检测任务等；本发明简化了特征选取，形成特征丰富化，实现多维预判识别，提高检测精度，提高了训练速度等。

Description

一种基于特征扩充的工控安全检测方法

技术领域

本发明涉及工业信息安全领域，更为具体的，涉及一种基于特征扩充的工控安全检测方法。

背景技术

工业控制系统遭受的黑客攻击呈现增长趋势，原因是工业生产的信息化和网络化。工业控制系统生产连续性、设备复杂性、行业工艺差异性、产品组件强耦合性、网络协议多样性、制造技术垄断性、人员安全信息意识淡漠等特点，导致工业控制系统信息安全防护工作困难重重。

现有基于人工智能的工控网络数据检测主要分为传统机器学习检测以及RNN相关及变种的基于自然语言框架的检测(如图1所示)，均忽略了时间序列(上下网络数据之间关联及时间间隔问题)，维度多数为低维数据，无法实现高精度的评估网络数据及进一步充分考虑多维数据。并且，通常情况为采用三元组或五元组，通过传统机器学习，如SVM，PCA，决策树等进行模型预测，或采用基于RNN的LSTM，GRU等进行分类预测。其预处理模块多为未经特征选取，其特征选取为专业认识进行选取，故此预处理模块会导致多维无用特征对其它特征影响的同时，也加大了特征训练计算复杂度。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于特征扩充的工控安全检测方法，简化了特征选取，形成特征丰富化，实现多维预判识别，提高检测精度，提高了训练速度等。

本发明的目的是通过以下方案实现的：

一种基于特征扩充的工控安全检测方法，包括步骤：

S1，在网络连接数据中选取多条特征数据，计算某一条特征数据在时间t₀的前n条数据的平均时间T，n≥4，构建时间特征＝数据时间t₀-平均时间T；将所构建的时间特征用于构建数据矩阵，构建的带有时间特征的数据矩阵作为一组数据；然后按如上操作，对选取的下一条特征数据构建第二组数据，直至对选取的多条特征数据构建完成得到多组数据，完成第一个预处理步骤；

S2，将第一个预处理后得到的多组数据输入到模型中训练，训练后用于执行工控安全检测任务。

进一步地，在步骤S1中，包括第二个预处理步骤，即对选取的多条特征数据进行镜像填充处理，具体包括步骤：

S1a，先以带有时间特征的数据矩阵的边缘为对称边，向外部进行对称性填充；

S1b，然后填充横纵方向特征，再以横纵方向特征为基础进行斜方向的特征填充。

进一步地，在步骤S1中，包括特征丰富化预处理步骤，即对选取的多条特征数据进行特征丰富化处理，具体包括步骤：

S11，将每一组数据通过高斯核函数RBF进行维度转化，然后将每一组数据x作为一个地标l，采用如下公式进行升维丰富化处理，即

其中，l₁表示第一个地标，l₂表示第二个地标，γ表示超参数，γ为正实数；

S12，对升维后的数据，采用如下公式进行点乘计算，进一步丰富升维后的数据得到最终维度值K，即

其中，x表示升维前的每一组数据，y表示升维后的每一组数据，||x-y||表示向量的模。

进一步地，包括第三个预处理步骤，即对填充后的多组数据进行特征丰富化处理，具体包括步骤：

S1a，将填充后的每一组数据通过高斯核函数RBF进行维度转化，然后将填充后的每一组数据x作为一个地标l，采用如下公式进行升维丰富化处理，即

S1b，对升维后的数据，采用如下公式进行点乘计算，进一步丰富升维后的数据得到最终维度值K，即

进一步地，在步骤S2中，模型包括VGG模块、ResNet模型中的任一种。

进一步地，在步骤S2中，对二分类任务或多分类任务先通过softmax函数归一化处理后，再利用训练后的输出结果来执行工控安全检测任务。

进一步地，带有时间特征的数据矩阵的矩阵形状为(n+1，-1)。

本发明的有益效果是：

本发明简化了特征选取，提高检测精度，提高了训练速度等；具体的，通过对数据包解析，对现有数据进行时序特征增加，以及关联上下网络数据，用来评估当前数据的准确度，首选简便了特征选取，抛弃了传统机器学习及RNN相关自然语言模型，采用了特征数据预处理后输入模型训练，利用图像卷机网络思维进行模型训练及评估，不仅形成特征丰富化，多维预判识别，而且降低了特征边缘在训练过程中弱化的缺点，降低训练过程中陷入局部最优，降低特征权重偏移度，提高了网络数据流量安全检测准确度，同时降低特征计算时间复杂度，能够加快训练速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有基于神经网络的安全检测方法的工作原理框图；

图2为本发明实施例中特征可视化的输出效果示意图；

图3为本发明实施例中特征填充化的输出效果示意图；

图4为本发明实施例中对选取特征进行预处理的流程示意图；

图5为本发明实施例中选取模型的示意图；

图6为本发明的步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1～6所示，一种基于特征扩充的工控安全检测方法，包括步骤：

进一步地，带有时间特征的数据矩阵的矩阵形状为(n+1，-1)。

在本发明的其他实施例中，可以通过采集交换机镜像口的网络连接数据，解析后通过神经网络进行数据流监控及分类，准实时判断该数据流是否有网络异常行为。其中，特征预处理包可以通过图形可视化方便快速特征选取。如图2所示，去除所有特征中的噪点信息，为训练提供优秀的特征权重，提高训练速度，有益于提高模型精度。

对选取的特征数据进行时间序列处理后构建数据矩阵形成多组数据，例如，在网络连接数据中选取4条特征数据，再选取当前特征数据，n+1＝5计算出每条特征数据的时间差作为新的特征，然后拼接数据，构建矩阵形状为(5，-1)的数据矩阵，此为一组数据。时间特征＝当前时间t₀-平均时间T(这里是5条数据的平均时间)。按以此实施例中操作构建多组数据，每组数据的矩阵形状均为(5，-1)的矩阵，同时标记每一组的标签类别，可以作为结果标签输入。

对选取的特征数据进行特征丰富化处理，每一组数据通过高斯核函数RBF核函数进行升维，对于每一组数据都是地标，可以利用高斯核函数RBF将每一组数据作为一个样本点，映射到一个无穷维的特征空间，使得线性不可分的数据线性可分。

先将每一组数据通过高斯核函数RBF进行维度转化，然后将每一组数据x作为一个地标l，采用如下公式进行升维丰富化处理，即

对升维后的数据，采用如下公式进行点乘计算，进一步丰富升维后的数据得到最终维度值K，即

在实施例中，采用如下操作进行数据镜像填充化处理。先以带有时间特征的数据矩阵的边缘为对称边，向外部进行对称性填充；然后填充横纵方向特征，再以横纵方向特征为基础进行斜方向的特征填充。

例如，如图3所示，以带有时间特征的数据矩阵的边界为对称边，向外部扩充进行对称性填充，之后再以横纵方向镜像填充的数据为基础，进行斜方向的特征填充。通过镜像填充，弥补了边缘特征弱化的缺点，同时再进行特征丰富化。根据镜像原理进行扩充四周边界，解决弱化边缘问题的同时解决了边界特征单一的问题，进而解决特征弱化，消失等问题，相比较传统的Padding 0的方式，降低了边缘信息丢失，避免了边缘特征不明显的问题，使得注意力分布均匀，避免特征突出导致神经网络学习陷入局部最优状态等问题。

通过镜像填充、升维后构建训练数据，构建的训练数据可以是标准化的训练数据，能够根据模型自定义输入。

如图5所示，模型选取可采用VGG或ResNet等相关模型进行训练，可采用图像算法模型多维特征并行计算，提高模型复杂度，能够加强网络攻击对抗强度的同时提高预警能力，还可搭载多种图形算法模型进行神经网络训练，通过卷机核运算，标准化，激活函数等多层函数运算，最终通过全连接层，线性函数进行模型参数训练即存储。采用基于CNN网络架构，则可采用基于CNN的相关模型进行训练，无需改动过多参数，方便多模型选取对比采用最优模型。在CNN网络架构中，例如，VGG-19包含了19个隐藏层(16个卷积层和3个全连接层)，VGG网络的结构非常一致，从头到尾全部使用的是3x3的卷积和2x2的最大池化。34-layerplain包含常规的34个隐藏层(33个卷机层和1个全连接层)，为CNN最常见网络架构，34-layerresidual为常规的34-layerplain网络结构加入残差层构成残差网络。基于CNN模型的灵活选取，通过特征预处理后特征维度统一化，通过特征丰富化，能够降低特征边缘在训练过程中弱化的缺点，降低训练过程中陷入局部最优，加快训练速度，降低特征权重偏移度。

在下游任务上，可采取二分类任务或多分类任务，通过softmax函数归一化处理后，根据二分类或多分类采取不同的下游任务处理方式，在异常数据报警的同时可兼容报警异常内容。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备(可以是个人计算机，服务器，或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory，RAM)、随机存取存储器(Random Access Memory，RAM)等。

Claims

1.一种基于特征扩充的工控安全检测方法，其特征在于，包括步骤：

S1，在网络连接数据中选取多条特征数据，计算某一条特征数据在时间t₀的前n条特征数据的平均时间T，n≥4，构建时间特征=数据时间t₀-平均时间T；将所构建的时间特征用于构建数据矩阵，构建的带有时间特征的数据矩阵作为一组数据；然后按如上操作，对选取的下一条特征数据构建第二组数据，直至对选取的多条特征数据构建完成得到多组数据，完成第一个预处理步骤；

在步骤S1中，包括第二个预处理步骤，即对选取的多条特征数据进行镜像填充处理，具体包括步骤：

S1b，然后填充横纵方向特征，再以横纵方向特征为基础进行斜方向的特征填充；

包括第三个预处理步骤，即对填充后的多组数据进行特征丰富化处理，具体包括步骤：

其中，l₁表示第一个地标，l₂表示第二个地标，

表示超参数，

为正实数；

其中，x表示升维前的每一组数据，y表示升维后的每一组数据，

表示向量的模；

S2，将第一个预处理后得到的多组数据输入到模型中训练，模型训练后用于执行工控安全检测任务。

2.根据权利要求1所述的一种基于特征扩充的工控安全检测方法，其特征在于，在步骤S2中，模型包括VGG模块、ResNet模型中的任一种。

3.根据权利要求1所述的一种基于特征扩充的工控安全检测方法，其特征在于，在步骤S2中，对二分类任务或多分类任务先通过softmax函数归一化处理后，再利用训练后的输出结果来执行工控安全检测任务。

4.根据权利要求1~3任一所述的一种基于特征扩充的工控安全检测方法，其特征在于，带有时间特征的数据矩阵的矩阵形状为（n+1，-1）。