CN114039901A

CN114039901A - 基于残差网络和循环神经网络混合模型的协议识别方法

Info

Publication number: CN114039901A
Application number: CN202111306534.3A
Authority: CN
Inventors: 洪征; 吴吉胜; 林培鸿; 张沈梅; 马甜甜
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-11-05
Filing date: 2021-11-05
Publication date: 2022-02-11

Abstract

本发明公开了基于残差网络和循环神经网络混合模型的协议识别方法，属于网络技术领域，所述方法包括：获取网络流量数据，组成协议类型未知的数据包；对所述数据包进行预处理，转化为一维向量；将所述一维向量输入预先构建训练好的协议识别模型中，提取数据包的特征，通过模型判断数据包对应的应用层协议类别；本发明先利用一维预激活残差网络提取协议数据的空间特征，进而利用双向门控循环神经网络提取协议数据的时间特征，最后利用注意力机制进一步提取协议的关键特征实施协议分类，本发明有效提高了网络协议识别的准确率。

Description

基于残差网络和循环神经网络混合模型的协议识别方法

技术领域

本发明涉及基于残差网络和循环神经网络混合模型的协议识别方法，属于网络识别技术领域。

背景技术

协议识别的核心目的是识别网络通信流量所隶属的应用层协议，它是网络安全、网络管理和网络服务质量保证的核心技术。现有的协议识别方法主要可以分为基于端口的识别方法、基于深度包检测的识别方法、基于传统机器学习的识别方法和基于深度学习的识别方法四种类别。

基于端口的协议识别方法主要根据端口号识别应用层协议，例如，基于TCP协议进行传输、端口号为21的应用层协议通常是FTP协议；基于TCP协议进行传输、端口号为80的应用层协议通常是HTTP协议。但是，随着动态端口技术和端口伪装技术的规范应用，基于端口的识别方法对于很多协议而言已经失效。

基于深度包检测的协议识别方法通过提取协议数据载荷特征，与预先建立的特征库进行匹配来识别协议，该方法的主要问题是需要维护一个庞大的特征库，匹配的计算量较大，而且无法识别加密协议。

基于传统机器学习的协议识别方法首先需要确定能够反映当前网络流特性的特征，例如平均包长度和流持续时间等，然后收集原始网络流量数据的统计特征构建候选特征子集，并利用特征工程方法得到最优特征子集，最后利用机器学习算法进行协议识别。此类方法能够取得较好的协议识别效果，但是，人工设计特征需要丰富的经验，容易遗漏重要特征，而且特征集合中往往有很多特征冗余，同时存在模型泛化能力差等问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供基于残差网络和循环神经网络混合模型的协议识别方法，能够充分利用网络流量领域相关知识，增强协议识别模型的特征提取能力，有效提高网络协议识别的准确率。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了基于残差网络和循环神经网络混合模型的协议识别方法，包括：

获取网络流量数据，组成协议类型未知的数据包；

对所述数据包进行预处理，转化为一维向量；

将所述一维向量输入预先构建训练好的协议识别模型中，提取数据包的特征，通过模型判断数据包对应的应用层协议类别。

进一步的，所述对数据包进行预处理，转化为一维向量，包括：

经过网络流量清洗、协议数据切分、协议数据归一化和协议标签标注后，将待识别的数据包转化为一维向量。

进一步的，所述网络流量清洗包括：

根据数据链路层首部的协议字段剔除不属于IP协议的流量数据，进而根据IP层首部的协议字段剔除不属于TCP协议和UDP协议的流量数据。

进一步的，所述协议数据切分包括：

截取数据包前n字节用于进行协议识别，长度超过则舍弃多余部分，长度不足在末尾填充零，在此基础上将每个字节转化成0～255之间的十进制数，得到长度为n的一维向量。

进一步的，所述协议数据归一化包括：

对协议数据信息，经过预处理后生成一维向量，将其各分量都除以256，将数据归一化到[0,1)范围。

进一步的，所述协议标签标注包括：

对数据包所对应的一维向量进行标识，指明相应的向量对应于哪种应用层协议。

进一步的，所述协议识别模型包括空间特征学习、时间特征学习和注意力学习阶段，首先利用一维预激活残差网络学习协议数据的空间特征，其次利用双向门控循环神经网络学习协议数据的时间特征，然后利用注意力机制过滤提取提取和协议识别有关的关键特征，最后利用分类器输出预测的应用层协议类别；

所述协议识别模型的空间特征学习阶段包括：通过PreResNet提取协议数据的空间特征，首先利用一个卷积层初步提取协议数据的特征，其次利用一个最大池化层提取协议数据最活跃的特征。然后利用残差块对协议数据进行特征提取；

所述协议识别模型的时间特征学习阶段包括：设置由BiGRU单元组成的BiGRU层，BiGRU层通过连接前向GRU层和反向GRU层来提取输入数据的时间特征，前向GRU层和反向GRU层的网络结构相同，均由多个GRU单元组成，区别仅在于方向不同，前向GRU层利用多个GRU单元选择性地记忆历史信息并增加新信息，BiGRU层由多个BiGRU单元组成，每个BiGRU单元由一个前向GRU单元和反向GRU单元组成，利用输入序列数据的上下文信息提取数据中的时间特征；

所述协议识别模型的注意力学习阶段包括：在经过空间特征和时间特征的学习之后，得到包含输入数据时空特征的特征向量，利用注意力机制赋予关键特征更大的权重。

进一步的，所述协议识别模型的训练包括向前传播和向后传播两个阶段，向前传播阶段将样本数据输入到协议识别模型中，依次利用各层提取协议数据的特征并由分类器输出预测的应用层协议类别，向后传播阶段是将预测协议类别与真实协议类别进行比较，利用损失函数计算误差并向后传播，用来更新模型参数。

第二方面，本发明提供一种基于残差网络和循环神经网络混合模型的协议识别装置，包括：

获取单元，用于获取网络流量数据，组成协议类型未知的数据包；

预处理单元，用于对所述数据包进行预处理，转化为一维向量；

判断模块，用于将所述一维向量输入预先构建训练好的协议识别模型中，提取数据包的特征，通过模型判断数据包对应的应用层协议类别。

第三方面，本发明提供一种基于残差网络和循环神经网络混合模型的协议识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明针对目前协议识别方法无法有效提取协议数据的时间和空间特征导致协议识别总体准确率低的问题，先利用一维预激活残差网络提取协议数据的空间特征，进而利用双向门控循环神经网络提取协议数据的时间特征，最后利用注意力机制进一步提取协议的关键特征实施协议分类，本发明有效提高了网络协议识别的准确率。

附图说明

图1为本发明的协议识别模型的整体结构图；

图2为本发明协议识别的工作流程图；

图3为残差块T-ResBlock的结构图；

图4为BiGRU层的结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例介绍基于残差网络和循环神经网络混合模型的协议识别方法，包括：

获取网络流量数据，组成协议类型未知的数据包；

对所述数据包进行预处理，转化为一维向量；

本实施例提供的基于残差网络和循环神经网络混合模型的协议识别方法，其应用过程具体涉及如下步骤：

(1)数据预处理：对捕获的原始网络流量进行数据预处理，从网络流量中提取应用层协议数据，用于后续的协议识别。通过网络流量清洗、协议数据切分、协议数据归一化和协议标注等子步骤。先滤除非IP流量数据，然后从数据包中截取固定长度的数据用于协议识别，进而将数据包转化为一维向量，而后将一维向量中的各个分量进行归一化处理。最后，为训练样本设置协议标签，标明样本数据包属于哪种协议。

(2)协议识别模型构建：协议识别模型用于获取数据包中的协议特征，进而为后续的协议识别服务。协议识别模型主要包括空间特征学习、时间特征学习和注意力学习等阶段。首先利用预激活残差网络学习协议数据的空间特征，其次利用双向门控循环神经网络学习协议数据的时间特征，然后利用注意力机制过滤提取在协议识别过程中较为重要的特征，最后采用Softmax分类器输出预测的应用层协议类别。

(3)模型预测：将协议类型未知的数据包输入到训练好的协议识别模型，利用模型提取数据包特征，判断数据包对应的应用层协议类别。

参考图2所示的整体实现流程，本实施例的基于残差网络和循环神经网络混合模型的协议识别方法主要包括数据预处理、协议识别模型构建和模型预测等3个部分，具体的实施方式以下分别说明。

(1)数据预处理

数据预处理是进行应用层协议识别的基础，目的是从网络流量中提取应用层协议数据，用于后续的协议识别。本发明的数据预处理主要包括网络流量清洗、协议数据切分、协议数据归一化和协议标注四个子步骤。

网络流量清洗是数据预处理的第一个步骤，本发明需要从网络流量中提取应用层协议数据，用于后续的协议识别。所针对的分析对象是应用层协议数据，应用层协议数据都是基于TCP协议和UDP协议进行传输，因此，首先需要根据数据链路层首部的协议字段剔除不属于IP协议的流量数据，进而根据IP层首部的协议字段剔除不属于TCP协议和UDP协议的流量数据。由于在真实网络环境中收集的网络流量数据往往包含一些与网络协议识别无关的数据包，可以将这些数据包删除。例如TCP流会包含TCP SYN和TCP FIN等用于建立和结束连接的数据包，它们不包含任何应用层协议的信息，可以在网络流量清洗阶段滤除这些数据包。

协议数据切分是数据预处理的第二个步骤。由于神经网络对输入数据的格式往往具有要求，因此需要从数据包种截取固定长度的数据用于协议识别。应用层协议数据包括首部和载荷两部分。同一种应用层协议产生的数据包首部部分相似度高，而不同应用层协议产生的数据包首部相似度低，因此首部信息对于协议识别有较高价值。而载荷部分的数据随机性较大，对协议识别的作用相对较小。虽然首部部分的信息在协议识别时相对更为重要，但是网络中有很多协议规范未知的协议，很难确定协议数据首部和载荷的准确边界。本发明截取数据包前n字节用于进行协议识别，长度超过则舍弃多余部分，长度不足在末尾填充零。在此基础上将每个字节转化成0～255之间的十进制数，得到长度为n的一维向量。对于具体n的值，可以根据不同的协议对象进行调整，本发明实施例选取n＝784字节的数据包长度用于协议识别，适用于大部分网络协议。

协议数据归一化是数据预处理的第三个步骤。为消除量纲不同带来的影响，加快模型收敛速度，本发明对协议数据进行归一化处理。对于协议数据信息，经过前面步骤的处理后生成的一维向量，将其各分量除以256，可以将数据归一化到[0,1)范围。

协议标注是数据预处理的第四个步骤。为了对模型进行训练，需要为训练样本设置协议标签，标明样本数据包属于哪种应用层协议。由于协议标签取值是有限的离散值，因此可以采用独热编码进行处理，方便在模型训练时计算真实协议标签与预测协议标签之间的距离和相似度。独热编码的做法是将协议标签映射为某一分量为1、其余分量为0的一维向量，利用1出现的位置标识对应的协议类型。例如，若协议种类为n，则对于第m(m＝0，1，…，n)种协议，其对应的一维向量的第m(m＝0，1，…，n)位分量为1，其余所有分量为0。在完成协议标签设置之后，将协议数据与对应的标签存储起来，用于模型训练。

(2)协议识别模型构建

协议识别模型的构建是本发明的核心，需要通过构建起合理的协议识别模型，来获取协议数据的特征，进而用于后续的协议识别。协议识别模型的整体结构如图1所示。

协议识别模型的输入是长784的一维向量，输出是长为n的一维向量，其中n代表需要识别的应用层协议种类的数量。协议识别模型的特征提取过程分为为空间特征学习、时间特征学习和注意力学习三个阶段。首先利用预激活残差网络PreResNet网络学习协议数据的空间特征，其次利用双向门控循环神经网络BiGRU学习协议数据的时间特征，然后利用注意力机制过滤提取在协议识别过程中较为重要的特征，最后通过Softmax分类器输出所预测的应用层协议类别。

本发明实施例在构建协议识别模型时，还考虑了以下几方面因素：首先为了减少模型参数，加快模型训练速度，先利用卷积层和池化层对输入数据进行特征提取和降维，数据填充方式为valid，并根据数据预处理的结果，将输入数据格式设置为784×1的一维向量。其次为了防止模型过拟合，采用Dropout机制，激活函数采用ReLU。此外，为了加快模型收敛速度，池化层采用计算量较小的最大池化方式，优化函数采用指数衰减的学习率。

协议识别模型的空间特征学习：空间特征学习阶段的主要工作是通过PreResNet提取协议数据的空间特征。在此过程中首先利用一个卷积层初步提取协议数据的特征，本发明实施例的卷积核数量为16，卷积核大小为9。其次利用一个最大池化层提取协议数据最活跃的特征，本发明实施例中的池化窗口大小为3。然后利用残差块对协议数据进行特征提取。残差块是PreResNet的核心组件，用于提取输入数据的空间特征，本发明为了充分利用不同尺度的卷积核对输入数据进行特征提取，使学习到的特征更具分辨性和鲁棒性，设计了有两个残差分支的残差块T-ResBlock。T-ResBlock的两个残差分支使用不同大小的卷积核来提取输入数据的特征，如图3所示。所设计的残差块T-ResBlock包括一个直连分支和两个残差分支：Block1和Block2。Block1和Block2的网络结构相同，均包含批量归一化层、ReLU激活函数层和Conv1d卷积层。图3中，在残差块T-ResBlock各层的命名方面，Conv1d_1_1表示Block1的第一个卷积层，Conv1d_2_1表示Block2的第一个卷积层，其他层的命名依次类推。在残差分支Block1和Block2的处理过程中，首先利用批量归一化层和激活函数层对输入数据进行预激活，然后利用卷积层提取输入数据的特征。Block1和Block2的区别在于两者使用不同大小的卷积核。若残差块T-ResBlock的输入特征维度和输出特征维度不同，直连分支需要利用1x1卷积层对输入特征进行升维，然后才能与Block1和Block2的输出特征进行融合。在本发明实施例中，Block1的卷积核数量为16，卷积核大小为3，Block2的卷积核数量为16，卷积核大小为9。最后利用一个池化窗口为3的最大池化层提取协议数据的关键特征，降低特征维度，减少参数数量。

协议识别模型的时间特征学习：本发明实施例的时间特征学习阶段，设置了一个包含10个BiGRU单元的BiGRU层，目的是充分利用上下文信息提取协议数据的时间特征。BiGRU层的结构如图4所示。BiGRU层通过连接前向GRU层和反向GRU层来提取输入数据的时间特征。前向GRU层和反向GRU层的网络结构相同，均由多个GRU单元组成，区别仅在于方向不同。前向GRU层利用多个GRU单元选择性地记忆历史信息并增加新信息，能够有效提取序列数据的时间特征。BiGRU层由多个BiGRU单元组成，每个BiGRU单元由一个前向GRU单元和反向GRU单元组成，能够利用输入序列数据的上下文信息有效提取数据中的时间特征。

协议识别模型的注意力学习：在经过空间特征和时间特征的学习之后，得到包含输入数据时空特征的特征向量。但是特征向量中各分量对协议识别任务的重要性是不同的，可以利用注意力机制赋予关键特征更大的权重，进而保证模型能够更加准确地进行协议识别。若BiGRU层的输出特征向量为ut，在进行注意力学习时首先对ut进行非线性变换得到vt，然后，根据vt和上下文向量计算权重系数矩阵，并进行归一化处理。上下文向量是一个随机初始化的向量，用来对vt中的重要特征赋予更大的权重。根据权重系数矩阵和BiGRU层输出的特征向量ut，计算得到特征向量。特征向量各分量等于特征向量ut的对应分量乘以相应权重，保证了重要特征被赋予较大权重，不重要特征被赋予较小权重。

在构建识别模型以后，需要对模型进行训练。本发明实施例的模型训练过程包括向前传播和向后传播两个阶段。向前传播阶段将样本数据输入到模型中，依次利用各层提取协议数据的特征并由分类器输出预测的应用层协议类别。分类器输出为一个一维向量，各分量的值表示输入数据属于对应协议类别的概率。例如，协议类别数n＝5，分类器输出x＝[0.1,0.1,0.1,0.1,0.6]^T，表明输入数据属于第5种协议的概率为0.6，属于其他4种协议的概率均为0.1。向后传播阶段是将预测协议类别与真实协议类别进行比较，利用损失函数计算误差并向后传播，用来更新模型参数。常用的损失函数为均方误差函数和交叉熵损失函数。本发明实施例采用Softmax作为输出层激活函数，考虑到与均方误差损失函数相比，采用交叉熵损失函数的模型更稳定、收敛速度更快，也更容易求导，因此选择交叉熵作为向后传播阶的段损失函数用于更新模型参数。

(3)模型预测

在完成模型的构建，并对模型进行训练之后，就可以利用模型进行协议预测。将协议类型未知的数据包，通过数据预处理之后转化为一维向量，输入训练好的协议识别模型以后，由模型提取数据包的特征，经过计算判断数据包对应的应用层协议类别。

综上所述，本发明的基于残差网络和循环神经网络混合模型的协议识别方法，首先对捕获的网络流量进行数据预处理，经过网络流量清洗、协议数据切分、协议数据归一化和协议标注等步骤之后，将待识别的数据包转化为一维向量。对于输入的一维向量，协议识别模型先利用一维预激活残差网络提取协议数据的空间特征，进而利用双向门控循环神经网络提取协议数据的时间特征，最后利用注意力机制进一步提取协议的关键特征实施协议分类。协议数据依据一定协议规范产生，属于高度结构化的序列数据，同时具有空间特征和时间特征。本发明提出的协议识别模型能同时提取协议数据的空间和时间特征，在此基础上用注意力机制进一步对无关特征在进行过滤，本发明有效提高了网络协议识别的准确率。

实施例2

本实施例提供一种基于残差网络和循环神经网络混合模型的协议识别装置，包括：

实施例3

本实施例提供一种基于残差网络和循环神经网络混合模型的协议识别装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据下述任一项所述方法的步骤：

获取网络流量数据，组成协议类型未知的数据包；

对所述数据包进行预处理，转化为一维向量；

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于，包括：

获取网络流量数据，组成协议类型未知的数据包；

对所述数据包进行预处理，转化为一维向量；

2.根据权利要求1所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述对数据包进行预处理，转化为一维向量，包括：

3.根据权利要求2所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述网络流量清洗包括：

4.根据权利要求2所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述协议数据切分包括：

5.根据权利要求2所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述协议数据归一化包括：

6.根据权利要求2所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述协议标签标注包括：

7.根据权利要求1所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：

所述协议识别模型包括空间特征学习、时间特征学习和注意力学习阶段，首先利用一维预激活残差网络学习协议数据的空间特征，其次利用双向门控循环神经网络学习协议数据的时间特征，然后利用注意力机制过滤提取提取和协议识别有关的关键特征，最后利用分类器输出预测的应用层协议类别；

8.根据权利要求1所述的基于残差网络和循环神经网络混合模型的协议识别方法，其特征在于：所述协议识别模型的训练包括向前传播和向后传播两个阶段，向前传播阶段将样本数据输入到协议识别模型中，依次利用各层提取协议数据的特征并由分类器输出预测的应用层协议类别，向后传播阶段是将预测协议类别与真实协议类别进行比较，利用损失函数计算误差并向后传播，用来更新模型参数。

9.一种基于残差网络和循环神经网络混合模型的协议识别装置，其特征在于，包括：

10.一种基于残差网络和循环神经网络混合模型的协议识别装置，其特征在于：包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。