CN111274235B

CN111274235B - 一种未知协议的数据清洗和协议字段特征提取方法

Info

Publication number: CN111274235B
Application number: CN202010059159.6A
Authority: CN
Inventors: 范明钰; 王一芙; 吴紫阳; 鲍亮
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2022-11-04
Anticipated expiration: 2040-01-16
Also published as: CN111274235A

Abstract

本发明提供了一种未知协议的数据清洗和协议字段特征提取方法，该方法包括：抓取网络数据包；进行数据标记；清洗数据；获取未知协议字段特征；确认未知协议字段特征。本发明提出的未知协议的数据清洗和协议字段特征提取方法，将网络中庞大的数据量进行了清洗，区分出未知协议与已知协议，减少了后续处理的复杂性，并在此基础上，进一步提取出未知协议的字段特征；并且未知协议分析和识别的整体流程不是针对某种具体类型的协议类型，具有较好的通用性。

Description

一种未知协议的数据清洗和协议字段特征提取方法

技术领域

本发明属于网络安全技术领域，涉及未知网络协议分析技术，特别涉及一种未知协议的数据清洗和协议字段特征提取方法。

背景技术

现有协议分析可以分为标准协议、私有协议和未知协议。标准协议为国际或国家标准化组织采纳或批准的；私有协议也称非标准协议，本质上是未经国际或国家标准化组织采纳或批准的，厂商内部发展和采用的标准，除非授权，其他厂商一般无权使用该协议；未知协议由未公开协议文档的未知应用层协议生成，不能使用传统的协议识别工具识别分析。

分析表明，在每周的统计数据流量监测中超过四成流量属于未知应用协议，这些流量给网络管理、流量监控以及入侵检测等带来了巨大的挑战，而随着新技术的发展，已有的方法对于未知协议的识别效果越来越差。因此有效的未知协议分析方法，对网络管理、流量监控、入侵检测以及维护网络安全都有重要意义。

现有的未知协议的分析方法主要包含：

申请号CN201410628565的发明专利“一种私有协议分析与识别方法”，公开了一种私有协议分析与识别方法，具体包括以下步骤：步骤一：先将采用私有协议进行通信的客户端软件进行脱壳处理，得到脱壳后的原始程序；再对原始程序进行反汇编，得到该原始程序的汇编代码；然后对其汇编代码中的关键函数进行动态调试，从而得到该私有协议的报文类型的字段长度和构造特征；其中关键函数包括：1.报文数据包的构造函数；2.发送和接收报文数据包的函数；3.加密和解密函数；步骤二：抓取该私有协议的网络流数据，并按协议交互的不同阶段进行报文数据包分类，然后分别解析出每类报文数据包的字段结构；步骤三：对交互过程中的协议特征进行提取和归纳；其中：协议特征包括交互过程信息和报文数据包的字段结构特征；步骤四：利用步骤三中所得到的协议特征，设置协议识别的匹配表达式，对网络中获取到的流量进行识别。

申请号CN201310398921的发明专利“基于协议分析的网络数据处理方法及系统”，公开了一种基于协议分析的网络数据处理方法及系统，该方法包括：

1)捕获网络中的数据包；

2)将所捕获的数据包的指纹与目的指纹相比较；

3)判断通过指纹比对后的数据包是否为完整数据包；

4)对完整数据包进行数据挖掘，生成新的关联规则；

5)根据从规则库解析出来的协议，利用协议的特征对数据包进行协议分析；

6)管理服务器根据信息日志，对警告信号进行实时响应；同时，判断是否将新生成的关联规则保存到规则库中。

申请号CN201310718896的发明专利“一种基于基函数的网络协议分析方法”，公开了基于基函数的网络协议分析方法，包括：建立基函数库和已知结构协议的基函数模式组合方式库；当接收到目标网络发过来的数据，利用该数据和已有的基函数模式组合方式表征该目标网络对应的目标协议的结构；根据目标协议的结构进行判断：如果该数据为已知结构的协议数据，采用分层的方法对该目标协议进行分析；如果该数据位未知结构的协议数据，利用已有基函数或新的基函数生成该目标协议对应的基函数模式组合方式。该发明可以解决协议快速识别、精确分析处理的问题。

上述方法主要存在以下问题：

(1)网络数据集体量巨大但未作清洗，其中存在的各种与未知协议分析不相关的信息，不仅干扰分析效果，并且使得处理过程复杂，时间和空间需求巨大。

(2)这些方法大多只关注未知协议分析和识别流程的某一个部分，且一般针对某种具体类型的协议进行分析，缺乏通用性。

发明内容

针对现有技术中的协议识别方法存在的数据量大、处理复杂等技术问题，本发明公开了一种未知协议的数据清洗和协议字段特征提取方法，该方法具有通用性，能够去除海量样本数据中的相关数据以及已知协议数据，减小后续处理的复杂性，并从中提取协议字段特征，其具体包括以下的步骤：

步骤1：在网络的汇聚点抓取网络数据包；

步骤2：数据标记：将抓取到的所述网络数据包按照抓取的时间顺序进行标记；

步骤3：通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议，得到清洗后的未知协议数据，具体按照下述步骤处理：

步骤3.1数据分类汇聚：将步骤2得到的经过标记的网络数据包，分别按源地址数据和目的地址数据进行双向配对归类，相同源地址的数据汇聚为一类，以下简称I类数据；相同目的地址的数据汇聚为一类，以下简称II类数据，并将所述I类数据和所述II类数据分别按时序进行排序；

步骤3.2获取公共数据地址：计算经过时序排序的所述I类数据中相同的源地址的数目，取其中数目大于预设源地址数目的数据记为I类公共数据；计算经过时序排序的所述II类数据中相同的目的地址的数目，取其中数目大于预设目的地址数目的数据记为II类公共数据；并丢弃不在两类公共数据中的数据；

步骤3.3获取服务端地址：比较所述I类公共数据的地址和所述II类公共数据的地址，如果相同，将该地址标记为服务端地址；否则丢弃；

步骤3.4数据再分类：将从步骤3.3得到的具有相同服务端地址标记的数据，重新按源地址数据和服务端地址数据进行双向配对，归为同类；并按时序进行排序，得到数据包；

步骤3.5去掉已知协议：利用已知协议特征库匹配步骤3.4得到的数据包，丢掉其中的已知协议的数据包，得到清洗后的未知协议数据包；

步骤4：通过计算n-bit源/服务端数据包的均值和方差分布、计算同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性、计算相似字段特征的稳定性，提取未知协议字段特征，得到未知协议字段特征，具体步骤如下：

步骤4.1计算n-bit源/服务端数据包的均值和方差分布：将从步骤3.5得到的清洗后的未知协议数据包，按同类的源地址和服务端地址数据分别对齐，从对齐后的首部开始划分顺序区域，以bit为单位，逐步增加区域内bit数量n，计算各顺序区域数据的均值和方差，以下称为n-bit源/服务端数据包的均值和方差分布；

步骤4.2计算并比较步骤4.1得到的同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性，选取相似性较大的作为n-bit相似字段特征；

步骤4.3计算并比较步骤4.2得到的n-bit相似字段特征的稳定性，选取稳定性较大的作为未知协议字段特征；

步骤5：确认未知协议字段特征，并建立协议字段特征识别的匹配表达式，存入未知协议字段特征库。

通过上述步骤，本发明能够通用地对抓获的海量网络数据进行清洗，从中提取未知协议的字段特征，从而将对未知协议的分析转化为难度相对较低的同类未知协议进行分析。相比于其他同类技术，本发明一是将网络中庞大的数据量进行了清洗，区分出未知协议与已知协议，减少了后续处理的复杂性，并在此基础上，进一步提取出未知协议的字段特征；二是关注未知协议分析和识别的整体流程，针对的不是某种具体类型的协议类型，具有较好的通用性。

附图说明

图1为本发明的数据清洗和协议字段特征提取方法的流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

由于网络数据中含有大量的未知协议数据，为了减少干扰和工作量，对网络数据进行清洗分类是首先要做的事情，在此基础上完成协议字段特征的提取。

本发明提出了一种未知协议的数据清洗和协议字段特征提取方法，该方法具体包括如下步骤：

步骤1：在网络的汇聚点抓取网络数据包，记为data(org)；

步骤2：将data(org)按照抓取的时间顺序进行标记，记为data(org_seq)。

步骤3：清洗数据，具体包括下述步骤：

在本发明的实施例中，步骤3.1分别按data(org_seq)的源地址数据和目的地址数据进行双向配对归类，相同源地址的数据汇聚为I类数据，记为data(org_seq_source)；相同目的地址的数据汇聚为II类数据，记为data(org_seq_dest)；并按时序进行排序，得到data(org_seq_sou rce_I)和data(org_seq_dest_II)；

步骤3.2保留data(org_seq_source_I)中相同的源地址的数目较大的数据，本实施例采用数目大于50的数据作为I类公共数据，记为data(org_seq_source_com_I)；保留data(org_seq_de st_II)中相同的目的地址的数目大的数据，本例采用数目大于50的数据作为II类公共数据，记为data(org_seq_dest_com_II)；丢弃其他的数据；

步骤3.3比较data(org_seq_source_com_I)和data(org_seq_dest_com_II)的地址，如果相同，将该地址标记为服务端地址data(org_com_server)；否则丢弃；

步骤3.4将从步骤3.3得到的具有相同服务端地址标记的数据data(org_com_server)，重新按源地址数据和服务端地址数据进行双向配对，归为同类；并按时序进行排序，记为data(or g_com_server_seq)；

步骤3.5利用已知协议特征库匹配步骤3.4得到的数据包data(org_com_server_seq)，丢掉其中的已知协议的数据包，得到清洗后的未知协议数据包，记为data(org_com_server_seq_un known_protocol)；

步骤4：获取未知协议字段特征，具体步骤为：

步骤4.1将从步骤3.5得到的data(org_com_server_seq_unknown_protocol)数据，按源地址和服务端地址数据分别对齐，从首部开始划分顺序区域，以bit为单位，逐步增加区域内bit数量n，记为n-bit_data(org_com_server_seq_unknown_protocol)，计算各顺序区域数据的均值和方差，分别记为n-bit_Mean(data(org_com_server_seq_unknown_protocol))和n-bit_variance(d ata(org_com_server_seq_unknown_protocol))；

步骤4.2计算并比较步骤4.1得到的同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性，分别记为similarity(n-bit_Mean(data(org_com_server_seq_unknown_protocol)))，和n-bit_similarity(variance(data(org_com_server_seq_unknown_protocol)))，选取相似性较大的，本实施例采用相似性为前200的作为n-bit相似字段特征，记为Similar_field_characteristics(data)；

步骤4.3计算步骤4.2得到的n-bit相似字段特征Similar_field_characteristics(data)的稳定性，记为stability(Similar_field_characteristics(data))，选取稳定性较大的，本实施例采用稳定性为前5的作为未知协议字段特征，记为Unknown_protocol_field_characteristics(data)。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种未知协议的数据清洗和协议字段特征提取方法，其特征在于，该方法包括如下步骤：

S1)在网络的汇聚点抓取网络数据包；

S2)将抓取到的所述网络数据包按照抓取的时间顺序进行标记；

S3)通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议，得到清洗后的未知协议数据，具体操作步骤如下：

S3.1)数据分类汇聚：将步骤S2)得到的经过标记的所述网络数据包，分别按源地址数据和目的地址数据进行双向配对归类，将相同源地址的数据汇聚为一类，简称I类数据；相同目的地址的数据汇聚为一类，简称II类数据；并将所述I类数据和所述II类数据分别按时序进行排序；

S3.2)获取公共数据地址：计算经过时序排序的所述I类数据中相同的源地址的数目，取其中数目大于预设源地址数目的数据记为I类公共数据；计算经过时序排序的所述II类数据中相同的目的地址的数目，取其中数目大于预设目的地址数目的数据记为II类公共数据；并丢弃不在两类公共数据中的数据；

S3.3)获取服务端地址：比较所述I类公共数据的地址和所述II类公共数据的地址，如果相同，将该地址标记为服务端地址；否则丢弃；

S3.4)数据再分类：将从步骤S3.3)得到的具有相同服务端地址标记的数据，重新对源地址数据和服务端地址数据进行双向配对，归为同类；并按时序进行排序，得到数据包；

S3.5)去掉已知协议：利用已知协议特征库匹配步骤S3.4)得到的数据包，丢掉其中的已知协议的数据包，得到清洗后的未知协议数据包；

S4)通过计算n-bit源/服务端数据包的均值和方差分布、计算同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性、计算相似字段特征的稳定性，提取未知协议字段特征，得到未知协议字段特征，具体步骤如下：

S4.1)计算n-bit源/服务端数据包的均值和方差分布：将从步骤S3.5)得到的清洗后的未知协议数据包，按同类的源地址和服务端地址数据分别对齐，从对齐后的首部开始划分顺序区域，以bit为单位，逐步增加区域内bit数量n，计算各顺序区域数据的均值和方差，称为n-bit源/服务端数据包的均值和方差分布；

S4.2)计算并比较步骤S4.1)得到的同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性，选取相似性排名为前200的作为n-bit相似字段特征；

S4.3)计算并比较步骤S4.2)得到的n-bit相似字段特征的稳定性，选取稳定性为前5的作为未知协议字段特征；

S5)确认未知协议字段特征，并建立协议字段特征识别的匹配表达式，存入未知协议字段特征库。

2.根据权利要求1所述的未知协议的数据清洗和协议字段特征提取方法，其特征在于，所述步骤S3.2)中所述预设源地址数目为50；所述预设目的地址数目为50。