CN112887323A

CN112887323A - 一种面向工业互联网边界安全的网络协议关联与识别方法

Info

Publication number: CN112887323A
Application number: CN202110177397.1A
Authority: CN
Inventors: 周鹏
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2021-06-01
Anticipated expiration: 2041-02-09
Also published as: CN112887323B

Abstract

本发明提出了一种面向工业互联网边界安全的网络协议关联与识别方法，对通过工业互联网边界设备的网络流量负载按字节进行one‑hot编码；建立一个单隐层神经网络，针对负载中任一字节，利用随机梯度下降法训练神经网络；对通过工业互联网边界的网络包，将其负载按字节依次输入训练好的神经网络；将网络包负载的所有字节在特征向量空间进行聚类，根据字节类别将不同的网络包进行关联。该方法借鉴自然语言处理中词嵌入的思想，提出网络包负载字节嵌入方法，根据网络包负载字节上下文的相关性对网络包进行聚类关联，能较好的解决工业互联网边界设备中大量未知协议网络包的关联与识别难题。

Description

一种面向工业互联网边界安全的网络协议关联与识别方法

技术领域

本发明涉及一种基于网络包负载字节嵌入的网络协议关联与识别方法，适用于工业互联网边界场景下大量未知网络流量和网络协议的自动关联与识别，为进一步的网络管理和安全防护提供基础支撑。

技术背景

随着工业化与信息化融合的不断深入，大量以前运行在封闭工厂环境和企业内网的SCADA，PLC，工控机，组态系统等工业基础设施纷纷向互联网开放链接，逐渐形成新一代工业互联网架构。不同于传统互联网，工业互联网中的网络流量很多是由非标准化的私有工业网络协议承载，这类协议一般采用二进制格式封装且协议的格式和规范往往不对外公开，这使得现有的针对传统互联网的网络流量与协议管理方法在工业互联网时代面临新的挑战。

一方面，现有的网络流量管理方法严重依赖于网络包头内含的关键字对网络协议进行关联和识别。这类方法针对已知的公开网络协议进行管理简单有效，但无法很好的应对工业互联网环境下大量协议格式未公开的私有协议的识别与管理工作，关键字等信息无法预先获得。此外，很多工控私有协议由于长期运行在不同工业企业各自封闭的工厂环境中，其网络协议包头字节和协议关键字的使用很容易相互冲突，且由于企业之间的竞争关系与敏感设置的隐私考虑也难以在不同企业间提前沟通协调统一，从而导致这些网络流量接入工业互联网后，基于网络包头协议关键字的网络协议关联与识别方法容易产生误报，直接影响网络流量管理的准确性。

另一方面，从工业互联网安全的角度看，为了误导正常的网络流量管理从而躲避网络流量管理系统对敏感攻击信息的审查，攻击者往往会将网络攻击的敏感信息隐藏在网络流量的负载中，如漏洞利用代码、shellcode以及入侵成功后向外传输的后门控制信息和工业敏感信息等，并在网络包头中可伪装成任意网络协议关键字以欺骗网络流量管理系统。因此，为在工业互联网边界设备上运行的网络流量管理系统中有效识别网络攻击流量，需要对网络包进行深度解析，网络流量的关联与识别模型需要建立在网络包负载上，而不能仅仅局限在网络流量的包头段，从而可以在网络流量管理的过程中嵌入有效识别各类网络攻击流量和网络异常流量的能力，使网络协议关联与识别方法有效支撑工业互联网安全需求。

综上所述，为解决面向工业互联网边界安全的网络流协议关联与识别难题，需要突破网络协议头分析的限制，从整个网络流负载的角度建立模型。

发明内容

本发明的目的在于突破当前网络协议关联与识别方法中局限于网络包头分析的限制，提出一种基于网络包负载字节嵌入技术的工业互联网网络协议关联与识别方法，无需预先知晓网络流的协议特征，而是对网络包负载字节间的共现关系通过神经网络训练的方式进行知识投影与向量表达，并在这一向量投影空间中对网络包进行聚类和异常检测，从而可以有效关联工业互联网中大量未知规范的私有协议并识别攻击/异常网络流量，以满足工业互联网边界安全防护与网络管理需求。

为了达到上述发明目的，本发明通过以下具体技术方案进行实现：

一种面向工业互联网边界安全的网络协议关联与识别方法，包括如下步骤：

步骤1)对通过工业互联网边界设备的网络流量负载按字节(1-gram)进行one-hot编码；

步骤2)建立一个单隐层神经网络，针对负载中任一字节，将该字节的one-hot编码作为神经网络的输入，该字节左右字节的one-hot编码作为神经网络的输出，利用随机梯度下降法训练神经网络；

步骤3)对通过工业互联网边界的网络包，将其负载按字节依次输入训练好的神经网络，每个字节输入时得到的神经网络连接权重作为该字节的特征向量；

步骤4)将网络包负载的所有字节在特征向量空间进行聚类，根据字节类别将不同的网络包进行关联，如果检测到的网络流中多数网络包可以被关联到某一已知网络协议中，则认为该网络流属于这一网络协议，否则认为检测到一种新的未知网络协议。

优选地，所述步骤1)具体包括下列步骤：

步骤1.1、对通过工业互联网边界设备的网络包按8比特(bits)逐个提取字节；

步骤1.2、对每一个字节根据其值得大小进行one-hot编码，即对于某一字节，如果其值为c，则可将其编码为c＝[b₀＝0,b₁＝0,…,b_c-1＝0,b_c＝1,b_c+1＝0,…b₂₅₅＝0]，其中b_c表示one-hot编码中第c个编码位；由于一个字节有256种取值可能，因此每个字节的one-hot编码包含256比特；

优选地，所述步骤2)具体包括下列步骤：

步骤2.1、建立一个单隐层神经网络，输入层256个节点，输出层512(512＝256×2)个节点，隐层N个节点；

步骤2.2、神经网络中，将输入层的每个节点向前与隐层中的每个节点建立一条边(共有256×N条边)，同时隐层的每个节点向后与输出层的每个节点建立一条边，共有N×512条边；

步骤2.3、神经网络中每条边上设置一个处于[0,1]区间的实数值作为该边的初始权重值；

步骤2.4、将网络包负载字节的one-hot编码作为输入，该字节左右相邻字节的one-hot编码作为期望输出训练该神经网络，从而使得神经网络的训练可以学习到网络包负载字节及其左右相邻字节间的共现关系；

步骤2.5、神经网络训练时，通过输入前向传播得到得输出与期望输出对比做差，得到神经网络训练得损失；

步骤2.6、将网络损失采用梯度下降法后向传播，从而更新神经网络边的权重值，重复步骤2.5直到网络损失收敛。

优选地，所述步骤3)具体包括下列步骤：

步骤3.1、将网络包负载中字节的one-hot编码输入训练好的神经网络，经过前向传递后得到隐层节点的值；

步骤3.2、隐层节点的值再经过前向传播与隐层节点和输出节点连接边上的权重值做乘积，得到输入字节的特征向量。

优选地，所述步骤4)具体包括下列步骤：

步骤4.1、将训练集中已知网络协议的网络包负载中的所有字节在其特征向量空间中采用K-均值法聚成K个类，用类别序号替换网络包负载的字节，并按类别序号排序后统计训练集中各已知网络协议网络包负载字节所属类别的分布；

步骤4.2、对于待检测的网络流，将其网络包中的负载字节先进行归类，然后统计出类别序号的有序分布，计算该有序分布与训练集中所有已知网络协议字节类别有序分布的散度距离，若所有距离中的最小值小于预先设定的阈值th，则将该网络流关联到具有最小距离的网络协议中，否则认为识别到一种新的未知网络协议。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明不局限于预设的网络协议包头结构对网络协议进行关联和识别，通过对网络包负载字节共现情况的深度建模，在字节的特征向量中对字节间的相关性进行学习，从而在网络协议关联与识别过程中具有较好的鲁棒性，可以较好的适应对大量包头结构未知的私有网络协议进行识别的任务，同时具有一定的能力避免恶意攻击者通过伪装网络协议包头的方式进行欺骗的攻击行为；

2.本发明方法借鉴自然语言处理中词嵌入的思想，提出网络包负载字节嵌入方法，根据网络包负载字节上下文的相关性对网络包进行聚类关联，能较好的解决工业互联网边界设备中大量未知协议网络包的关联与识别难题。

附图说明

图1为本发明的方法总流程图。

图2为本发明的网络包负载字节的one-hot编码示意图。

图3为本发明的由于网络负载字节特征向量编码的单隐层神经网络示意图。

图4为本发明的网络协议关联与识别方法的原理图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

本发明的目的是通过一个单隐层神经网络对网络包负载字节的共现关系进行建模，从而将网络包负载字节投影到一个可以反应字节间关联关系的特征向量空间中进行聚类，根据字节的类别结果对网络包所属的网络协议进行关联和识别。

实施例一：

参见图1-图4，一种面向工业互联网边界安全的网络协议关联与识别方法，包括以下步骤：

步骤1)对通过工业互联网边界设备的网络流量负载按字节进行one-hot编码；

步骤4)将网络包负载的所有字节在特征向量空间进行聚类，根据字节类别将不同的网络包进行关联；如果检测到的网络流中多数网络包可被关联到某一已知网络协议中，则认为该网络流属于这一网络协议，否则认为检测到一种新的未知网络协议。

本实施例方法借鉴自然语言处理中词嵌入的思想，提出网络包负载字节嵌入方法，根据网络包负载字节上下文的相关性对网络包进行聚类关联，能较好的解决工业互联网边界设备中大量未知协议网络包的关联与识别难题。

实施例二：

本实施例与实施例一基本相同，特别之处如下：

参见图1-图4，在本实施例中，所述步骤1)包括下列步骤：

步骤1.1、对通过工业互联网边界设备的网络包按8比特逐个提取字节；

步骤1.2、对每一个字节根据其值得大小进行one-hot编码，即对于某一字节，如果其值为c，则将其编码为c＝[b₀＝0,b₁＝0,…,b_c-1＝0,b_c＝1,b_c+1＝0,…b₂₅₅＝0]，其中b_c表示one-hot编码中第c个编码位；由于一个字节有256种取值可能，因此每个字节的one-hot编码包含256比特；

在本实施例中，所述步骤2)包括下列步骤：

步骤2.1、建立一个单隐层神经网络，输入层256个节点，输出层512个节点，隐层N个节点；

步骤2.2、神经网络中，将输入层的每个节点向前与隐层中的每个节点建立一条边，共有256×N条边，同时隐层的每个节点向后与输出层的每个节点建立一条边，共有N×512条边；

步骤2.4、将网络包负载字节的one-hot编码作为输入，该字节左右相邻字节的one-hot编码作为期望输出训练该神经网络；

步骤2.5、神经网络训练时，采用交叉熵计算损失，即针对某一字节输入，其真实的网络输出O_r和期望输出O_e的差异通过交叉熵进行量化，计算公式为

其中j是指第j个输出节点；

步骤2.6、神经网络训练时，采用梯度下降法更新权重，即

其中w'_k和w_k第k条边上更新前后的权重值，重复步骤2.4-2.6直到损失收敛。

在本实施例中，所述步骤3)包括下列步骤：

步骤3.1、将网络包负载中字节的one-hot编码输入训练好的神经网络，经过前向传递后得到隐层节点的值，即

其中I_i为输入节点i的输入值，w_ih为输入节点i连接隐层节点h的边的权重值，H_h为隐层节点h的值而sig()为隐层节点的激活函数sigmoid；

步骤3.2、隐层节点的值H_h再经过前向传播与隐层节点h和输出节点o连接边上的权重值做乘积，得到O_ho＝H_h·w_ho，其中w_ho为隐层节点h连接输出节点o的边的权重值，将所有隐层节点h和输出节点o的O_ho值作为输入字节的特征向量。

在本实施例中，所述步骤4)具体包括下列步骤：

本实施例基于网络包负载字节嵌入技术的工业互联网网络协议关联与识别方法，无需预先知晓网络流的协议特征，而是对网络包负载字节间的共现关系通过神经网络训练的方式进行知识投影与向量表达，并在这一向量投影空间中对网络包进行聚类和异常检测，从而可以有效关联工业互联网中大量未知规范的私有协议并识别攻击/异常网络流量，以满足工业互联网边界安全防护与网络管理需求。

实施例三：

本实施例与上述实施例基本相同，特别之处如下：

在本实施例中，参见图1-图4，以关联与识别工业互联网典型的ModBus协议和DNP-3协议为例，具体的实施步骤如下：

步骤101、将工业互联网Modbus和DNP-3协议的网络流Pcap文件数据集按80％和20％的比例随机划分成训练集和测试集；

步骤102、将网络包从Pcap文件中提取出，并对每一个网络包从头开始将其字节逐一提取出来；

步骤103、对每一字节根据其值的大小进行one-hot编码，具体做法是：如果其值为c，则可将其编码为c＝[b₀＝0,b₁＝0,…,b_c-1＝0,b_c＝1,b_c+1＝0,…b₂₅₅＝0]；

步骤201、构建单隐层神经网络，输入层256个节点，输出层512(512＝256×2)个节点，隐层取N＝5个节点；

步骤202、神经网络中，将输入层的每个节点向前与隐层中的每个节点建立一条边(共有256×5条边)，同时隐层的每个节点向后与输出层的每个节点建立一条边，共有5×512条边；

步骤203、神经网络中每条边上设置一个处于[0,1]区间的实数值作为该边的初始权重值；

步骤204、将网络包负载字节的one-hot编码作为输入，该字节左右相邻字节的one-hot编码作为期望输出训练该神经网络；

步骤205、神经网络训练时，采用交叉熵计算损失，即针对某一字节输入，其真实的网络输出O_r和期望输出O_e的差异通过交叉熵进行量化，计算公式为

其中j是指第j个输出节点；

步骤206、神经网络训练时，采用梯度下降法更新权重，即

其中w'_k和w_k第k条边上更新前后的权重值，重复步骤204-206直到损失小于阈值0.001或达到训练次数10000次。

步骤301、将网络包负载中字节的one-hot编码输入训练好的神经网络，经过前向传递后得到隐层节点的值，即

步骤302、隐层节点的值H_h再经过前向传播与隐层节点h和输出节点o连接边上的权重值做乘积，得到O_ho＝H_h·w_ho，其中w_ho为隐层节点h连接输出节点o的边的权重值，将所有隐层节点h和输出节点o的O_ho值作为输入字节的特征向量。

步骤401、将训练集中Modbus和DNP-3网络协议的网络包负载中的所有字节在其特征向量空间中采用K-均值法聚成K＝20个类，用类别序号1,2,…19,20替换网络包负载的字节，并按类别序号排序后统计训练集中各已知网络协议网络包负载字节所属类别的分布；

步骤402、对于待检测的网络流，将其网络包中的负载字节先进行归类，然后统计出类别序号的有序分布，计算该有序分布与训练集中所有Modbus和DNP-3网络协议字节类别有序分布的D-L散度距离，若所有距离中的最小值小于预先设定的阈值th＝5，则将该网络流关联到具有最小距离的网络协议中，否则认为识别到一种新的未知网络协议或攻击流量。

下表列出了本发明所提方法在关联和识别工业互联网协议Modbus和DNP-3网络流时的实验结果，该结果表明了本发明方法的有效性：

协议名称	检测率	误报率
			ModBus	89.1％	5.2％
DNP-3	95.2％	7.1％
			攻击流量	79.0％	15.6％

本实施例通过对网络包负载字节共现情况的深度建模，在字节的特征向量中对字节间的相关性进行学习，从而在网络协议关联与识别过程中具有较好的鲁棒性，可以较好的适应对大量包头结构未知的私有网络协议进行识别的任务，同时具有一定的能力避免恶意攻击者通过伪装网络协议包头的方式进行欺骗的攻击行为。

综上所述，上述实施例面向工业互联网边界安全的网络协议关联与识别方法，对通过工业互联网边界设备的网络流量负载按字节进行one-hot编码；建立一个单隐层神经网络，针对负载中任一字节，将该字节的one-hot编码作为神经网络的输入，该字节左右字节的one-hot编码作为神经网络的输出，利用随机梯度下降法训练神经网络；对通过工业互联网边界的网络包，将其负载按字节依次输入训练好的神经网络，每个字节输入时得到的神经网络连接权重作为该字节的特征向量；将网络包负载的所有字节在特征向量空间进行聚类，根据字节类别将不同的网络包进行关联，如果检测到的网络流中多数网络包可以被关联到某一已知网络协议中，则认为该网络流属于这一网络协议，否则认为检测到一种新的未知网络协议。该方法借鉴自然语言处理中词嵌入的思想，提出网络包负载字节嵌入方法，根据网络包负载字节上下文的相关性对网络包进行聚类关联，能较好的解决工业互联网边界设备中大量未知协议网络包的关联与识别难题。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向工业互联网边界安全的网络协议关联与识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向工业互联网边界安全的网络协议关联与识别方法，其特征在于：所述步骤1)包括下列步骤：

步骤1.2、对每一个字节根据其值得大小进行one-hot编码，即对于某一字节，如果其值为c，则将其编码为c＝[b₀＝0,b₁＝0,…,b_c-1＝0,b_c＝1,b_c+1＝0,…b₂₅₅＝0]，其中b_c表示one-hot编码中第c个编码位；由于一个字节有256种取值可能，因此每个字节的one-hot编码包含256比特。

3.根据权利要求1所述的面向工业互联网边界安全的网络协议关联与识别方法，其特征在于：所述步骤2)包括下列步骤：

其中j是指第j个输出节点；

步骤2.6、神经网络训练时，采用梯度下降法更新权重，即

4.根据权利要求1所述的面向工业互联网边界安全的网络协议关联与识别方法，其特征在于：所述步骤3)包括下列步骤：

5.根据权利要求1所述的面向工业互联网边界安全的网络协议关联与识别方法，其特征在于：所述步骤4)具体包括下列步骤：