CN115412465B

CN115412465B - 基于客户端生成分布式真实网络流量数据集的方法及系统

Info

Publication number: CN115412465B
Application number: CN202210814141.1A
Authority: CN
Inventors: 束妮娜; 祝旭峰; 朱童; 吴韬; 刘春生; 王晨; 王怀习; 杨方
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-07-11
Filing date: 2022-07-11
Publication date: 2023-06-20
Anticipated expiration: 2042-07-11
Also published as: CN115412465A

Abstract

本发明提出了一种基于客户端生成分布式真实网络流量数据集的方法及系统，所述方法由协同服务器、流量捕捉存储模块、映射表查询维护模块、流量标记处理模块组成；该方法通过服务器指挥各客户端开始或停止流量采集、并分发流量类型细分表至各客户端，各客户端结合内核状态查询和流量类型细分表得到五元组与标记的映射表，用于完成网络流量会话流的细分标记，并将数据集分别存储在各客户端。本发明获得的分布式网络流量数据集可以采用联邦学习等方法来使用数据集进行模型训练，可得到网络流量分类模型等成果应用与网络运维管理、安全防护等诸多领域，具有流量标记准确、流量类型多且可扩展、流量数据集动态更新、用户隐私安全性强等优点。

Description

基于客户端生成分布式真实网络流量数据集的方法及系统

技术领域

本发明属于网络数据分析技术领域，具体涉及一种基于客户端生成分布式真实网络流量数据集的方法及系统。

背景技术

随着近年来互联网的迅速发展，急剧增加的网络流量与有限的网络带宽的矛盾日益突出。网络流量分类作为细分管理流量、改善服务质量的基础，主要分为基于端口的、基于有效负载检测的和基于流量统计特性的流量分类。其中早期发展的基于端口的、基于有效负载检测的流量分类由于网络流量类别的激增以及动态端口、端口混淆和加密技术的发展，准确性越发降低。

基于流量统计特性的流量分类效果很大程度上取决于其采用的网络流量数据集标记的准确性。流量分类面临的一大难题就是获取一个真实的、动态更新的、足够规模的网络流量数据集用于模型训练和效果验证。以往的研究者主要基于集中式模型训练的思路进行，而这要求数据集也应是集中式的。

部分研究者在校园网络或者商业网络的边界路由器上采集流量数据，然后基于端口号或使用深度检测技术对其进行标记，这些数据的精确度取决于端口号和深度检测技术的精确度，其准确率越发降低，还有一些研究团体提出基于主机的流量采集方法，在若干台可控设备上模拟产生流量，并对其进行采集、处理和标记。此类数据的缺点是规模较小，流量种类有限，其训练处理的模型准确率虽高却无法满足当前互联网新应用新流量不断出现、迭代的要求。可以看到传统集中式的流量数据集生成方法存在难以标记和流量规模受限等问题。

网络流量分类面临的一个最明显的障碍是缺乏一个共享的带有标签的流量数据集，用于测试和验证流量分类效果。为了解决这一问题，很多研究人员也做了大量的努力。如Moore等人使用高性能的网络监视器在主干网路由器上采集流量数据集并采用dpi的方法对能够识别的流量进行标记和采集。但这一数据集的标记准确率取决于dpi的准确率，在当前加密技术广泛使用的背景下，这一方法的准确性和适用范围十分有限。Pederson等人基于其控制的计算机终端利用多线程模拟人的操作产生网络流量，并对其进行采集和标记，获得相应的数据集后，再进行模型的训练。这一方法需在可控的环境下使用，参与的终端数量和应用程序都十分受限，无法适应当前爆炸式发展的互联网网络。Gringoli等人研究提出Ground Truth(GT)，通过在每个参与主机上允许客户端守护程序从内核中检索产生每个流的应用程序名称并将其发送至远程后端服务器中，结合时间戳和五元组(源IP地址、源端口、目的IP地址、目的端口、传输协议)对在Internet边界路由器上采集的数据流进行标记，从而得到带有准确标签的数据集。但是这一方法需要参与主机与服务器之间进行信息传输，存在安全隐患，且其基于时间同步方法进行标签容易受时间影响出现标记错误的情况。赵彩云等人，通过Sockethook技术获取网络连接信息，并基于NDIS层的IP报文修改技术在与五元组匹配的IP分组的TOS字段上写入应用类型信息，这样从Windows主机发送的每个IP数据包都携带了它们的应用程序信息，收集这些流量可以得到相应的带有准确应用类型标识的流量数据集。但是这些流量的数据包头暴露了主机信息，存在用户隐私泄露的隐患，在大规模应用中，容易出现被黑客利用攻击的风险。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于客户端生成分布式真实网络流量数据集的方法及系统。本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供的一种基于客户端生成分布式真实网络流量数据集的方法，应用于可与服务器互相通信的客户端，所述分布式客户端网络流量数据集的生成方法包括：

接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器；

接收服务器发送的采集数据流的采集命令，并按照采集命令携带的数据流的会话开始时间开始采集经过自身的数据包，当采集到的数据包达到预设的大小后，以固定格式进行存储；生成一个以五元组为key存储各数据包的hash字典；

跟踪自身的当前会话变化，采集当前会话的五元组以及对应的应用程序标识，将采集当前会话的会话开始时间、五元组以及对应的应用程序标识保存至预设映射表；

接收服务器下发的记录不同目的IP对应的访问网址的类型细分表；

在预设映射表与类型细分表中，确定五元组的同一目的IP；

将相同IP对应的访问网址、应用程序标识作为五元组的新流量数据标记，加入至流量标记映射表中；

按照五元组与应用程序标识之间的映射关系，查询哈希字典确定对应的数据流，进行标记；

将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，组成用应用程序标识和网址标记的网络流量数据集。

可选的，在接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器之前，所述一种基于客户端生成分布式真实网络流量数据集的方法还包括：

客户端向服务器发送申请加入流量采集库的请求，以使服务器将申请的客户端加入流量采集库，并分发流量捕捉处理的相关模块以及部署命令至客户端。

可选的，接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器包括：

接收部署命令，并按照部署命令将流量捕捉处理的相关模块部署在自身上，在完成部署后，向服务器发送部署成功的通知。

可选的，服务器在接收到部署成功的通知后，

根据数据流采集需求，确定需要采集数据流的客户端类型、其对应的标号、产生数据流的会话开始时间、结束时间；

按照确定的标号，向对应的客户发送携带会话开始时间的采集命令。

可选的，所述在预设映射表与类型细分表中，确定五元组的同一目的IP包括：

遍历映射表，提取五元组的目的IP地址；

并将提取到的目的IP与类型细分表中的目的IP对比，确定相同目的IP的五元组，并将相应的应用程序标识与网址结合为新的标记。

可选的，部署在客户端上的流量捕捉处理的相关模块包括：流量捕捉存储模块、映射表查询维护模块以及流量标记处理模块。

可选的，客户端在按照采集命令携带的数据流的会话开始时间开始采集经过自身的数据包之前，启动流量捕捉存储模块，用于：

按照采集命令携带的数据流的会话开始时间开始采集经过自身的数据包，当采集到的数据包达到预设的大小后，以固定格式进行存储；生成一个以五元组为key存储各数据包的hash字典；

客户端在跟踪自身的当前会话变化之前，启动映射表查询维护模块，用于：

在预设映射表与类型细分表中，确定五元组的同一目的IP；

客户端在进行标记之前，启动流量标记处理模块，用于：

将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，并对会话流进行归一化处理，得到用应用程序标识和网址进行标记的网络流量数据集。

可选的，所述将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，得到用应用程序标识和网址进行标记的网络流量数据集包括：

将携带标记的数据流，按照TCP会话流和UDP会话流的定义进行切分；

对切分得到的会话流进行归一化处理；

针对归一化后数据包数量不够的会话流，对其进行补0，得到数据点；

将所有数据点组成网络流量数据集。

可选的，在将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，组成用应用程序标识和网址标记的网络流量数据集之后，所述一种基于客户端生成分布式真实网络流量数据集的方法还包括：

使用联邦学习方法，利用分布在各客户端的网络流量数据集进行学习训练，得到训练模型，并将训练模型的参数上传至服务器，以使服务器将多个客户端上传的参数进行平均，将平均结果反馈至客户端，客户端完成按照平均结果对自身训练模型进行再训练的过程，最终得到一个结合多方客户端的网络流量数据集而训练好的模型。

第二方面，本发明提供的一种基于客户端生成分布式真实网络流量数据集的系统，实现第一方面所述的一种基于客户端生成分布式真实网络流量数据集的方法。

本发明的提供的一种基于客户端生成分布式真实网络流量数据集的方法及系统，通过协同服务器指导各客户端完成真实流量采集，数据处理标记，得到真实的分布式网络流量数据集；之后可以采用联邦学习的方法进行模型训练，验证该数据集的有效性。本发明利用该方法获得的分布式网络流量数据集具有流量标记准确、流量类型多且可扩展、流量数据集动态更新、用户隐私安全性强等优点。相比于现有技术本发明的各客户端通过服务器指挥开始或停止流量采集、并分发流量类型细分表以指导各客户端结合内核状态查询完成数据流的细分标记，并将数据集分别存储在各客户端，利用联邦学习等方式进行使用时提高后续数据分析的准确性以及效率，同时保护用户隐私。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于客户端生成分布式真实网络流量数据集的系统的结构示意图；

图2是本发明实施例提供的一种基于客户端生成分布式真实网络流量数据集的方法的流程示意图；

图3是本发明实施例提供的流量捕捉处理的相关模块的过程执行示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

值得说明的是：分布式网络流量数据集主要由服务器协同参与客户端进行流量的采集、标记并分别存储在各自客户端的网络流量数据集。由于分布式网络流量数据集标记处理过程中需要涉及用户应用连接等信息，为保护用户隐私安全，分布式网络流量数据集的数据始终保留在各客户端上，且不透露给其他方知晓，流量数据集在使用时采用联邦学习等可信的安全计算方法进行。

参考图1，本发明的流量数据采集处理过程主要有4个部分，一是服务器，负责协调各客户端开始或停止流量采集，并分发类型细分表至客户端用于补充流量标记映射表；二是客户端上部署的各个模块，其中流量捕捉存储模块，基于pcap对主机本地网卡上流动的所有数据包进行捕捉，并以数据包的五元组为key提取数据流，并将数据流以Hash的方式进行存储；三是映射表查询维护模块，通过查询内核状态并结合服务器分发的类型细分表，建立流量标记映射表；四是流量标记处理模块，将向内和向外的数据流合并得到双向数据流，并按照会话流的定义提取得到会话流，根据流量标记映射表对会话流进行标记。

如图2所示，本发明提供的一种基于客户端生成分布式真实网络流量数据集的方法，应用于可与服务器互相通信的客户端，所述分布式客户端网络流量数据集的生成方法包括：

S21，接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器；

在本步骤之前，本发明的客户端向服务器发送申请加入流量采集库的请求，以使服务器将申请的客户端加入流量采集库，并分发流量捕捉处理的相关模块以及部署命令至客户端。客户端在接收部署命令后，按照部署命令将流量捕捉处理的相关模块部署在自身上，在完成部署后，向服务器发部署成功的通知。服务器在接受到部署成功的通知后，根据数据流采集需求，确定需要采集数据流的客户端类型、其对应的标号、产生数据流的会话开始时间、结束时间；按照确定的标号，向对应的客户发送携带会话开始时间的采集命令。

其中，部署在客户端上的流量捕捉处理的相关模块包括：流量捕捉存储模块、映射表查询维护模块以及流量标记处理模块。

S22，接收服务器发送的采集数据流的采集命令，并按照采集命令携带的数据流的会话开始时间开始采集经过自身的数据包，当采集到的数据包达到预设的大小后，以固定格式进行存储；生成一个以五元组为key存储各数据包的hash字典；

客户端先启动流量捕捉存储模块，用于进行S22步骤。本发明流量捕捉存储模块主要用于流量数据包的捕获，提取数据流后采用Hash的方式进行存储得到未标记的数据流集。

值得说明的是：在计算机网络中的主机进行通信过程中，同一对网络服务或应用间产生的五元组相同或相反的持续数据包，称为数据流。

参考图3，客户端收到服务器的采集命令后，该流量捕捉存储模块通过将网卡设置为混杂模式，监听本地网卡接口，捕获所有流经网卡的数据包，在达到一定大小后以pcap形式存储；随后读取pcap文件，并将同一五元组的数据包以列表的形式存储在以五元组为key的hash字典中，便于流量的快速查找和标记。

S23，跟踪自身的当前会话变化，采集当前会话的五元组以及对应的应用程序标识，将采集当前会话的会话开始时间、五元组以及对应的应用程序标识保存至预设映射表；

S24，接收服务器下发的记录不同目的IP对应的访问网址的类型细分表；

S25，在预设映射表与类型细分表中，确定五元组的同一目的IP；

本步骤通过遍历映射表，提取五元组的目的IP地址；并将提取到的目的IP与类型细分表中的目的IP对比，确定相同的目的IP。

参考图3，客户端先启动映射表查询维护模块，用于进行步骤S22至步骤25。映射表查询维护模块通过跟踪主机当前的会话的变化，收集并在流量标记映射表中进行更新，它以固定的时间间隔对内核记录的套接字信息进行采集，主要包括五元组和应用程序标识，并将采集时间、五元组、应用程序标识更新并保存在第一映射表内，并根据服务器分发的类型细分表对标记信息进行更新，得到更新后的流量标记映射表。

S26，将相同IP对应的访问网址、应用程序标识作为五元组的新流量数据标记，加入至流量标记映射表中；

S27，按照五元组与应用程序标识之间的映射关系，查询哈希字典确定对应的数据流，进行标记；

S28，将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，组成用应用程序标识和网址标记的网络流量数据集。

本发明将携带标记的数据流，按照TCP或UDP的会话流定义进行切分；对切分得到的会话流进行归一化处理；针对归一化后数据包数量不够的会话流，对其进行补0，得到数据点将所有数据点组成网络流量数据集。

参考图3，流量标记处理模块主要根据流量标记映射表标记数据流，而后按照会话流的定义提取会话流，并对会话流进行数据处理得到数据点，生成网络流量数据集。数据集中以会话流为一个数据点。

值得说明的是：

TCP会话流：从第一个SYN数据包开始，到最后一个FIN或者RST数据包结束，数据包间的时间间隔不超过5分钟的五元组＜源IP地址、源端口、目的IP地址、目的端口、传输协议＞相同或相反的数据流构成一条TCP会话流。

UDP会话流：数据包间的时间间隔不超过5分钟的五元组＜源IP地址、源端口、目的IP地址、目的端口、传输协议＞相同或相反的数据流构成一条UDP会话流。

流量标记处理模块首先根据流量标记映射表中五元组与标签间的映射关系，将未标记的数据流打上标签；而后按照会话流的定义将数据流根据TCP中的SYN包和FIN包或时间间隔进行切分，得到会话流；再对会话流进行归一化处理，对数据包数量不够的会话流用0进行补充得到数据点，最终得到网络流量数据集。

之后，本发明可以使用联邦学习方法，利用自身的网络流量数据集进行学习训练，得到训练模型，并将训练模型的参数上传至服务器，以使服务器将多个客户端上传的参数进行平均，将平均结果反馈至客户端，客户端完成按照平均结果对自身训练模型进行再训练的过程，得到一个结合多方客户端的网络流量数据集而训练好的模型。

联邦学习是一种分布式机器学习方案，旨在解决机器学习过程中的用户隐私安全和数据孤岛问题。其核心思想是，服务器端和用户之间不需要交换原始数据，就可以借助于分散在多个用户的数据训练统一的机器学习模型，从而在确保用户隐私安全的前提下提高模型质量。用户基于本地数据训练学习模型，通过加密机制将训练参数上传至服务器端。服务器端对接收到的参数进行平均后返回给各用户进行更新。用户进行多轮迭代以后，可以得到一个结合多方用户数据而训练好的模型。

联邦学习是指使得数据拥有方F_i，i＝1，2，...，N在不用给出己方数据D_i的情况下，共同训练得到模型M_fed的过程，模型M_fed的效果V_fed与模型M_sum的效果V_sum间的差距足够小，即：|V_fed-V_sum|＜δ，δ是任意小的一个正量值。M_sum是指采用传统的方式把数据整合到一起构成数据集合D＝{D_i，i＝1，...，N}后，进行训练得到的最终模型。

本发明的提供的一种真实的分布式网络流量数据集的生成方法，通过协同服务器指导各客户端完成真实流量采集，数据处理标记，得到真实的分布式网络流量数据集；之后可以采用联邦学习的方法进行模型训练，验证该数据集的有效性。本发明利用该方法获得的分布式网络流量数据集具有流量标记准确、流量类型多且可扩展、流量数据集动态更新、用户隐私安全性强等优点。相比于现有技术，本发明的各客户端通过服务器指挥开始或停止流量采集、并分发流量类型细分表以指导各客户端结合内核状态查询完成数据流的细分标记，并将数据集分别存储在各客户端，利用联邦学习等方式进行使用时提高后续数据分析的准确性以及效率，同时保护用户隐私。

第二方面，本发明提供的一种基于客户端生成分布式真实网络流量数据集的系统，实现上述的一种基于客户端生成分布式真实网络流量数据集的方法。

Claims

1.一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，应用于可与服务器互相通信的客户端，该方法包括：

在预设映射表与类型细分表中，确定五元组的同一目的IP；

将同一目的IP对应的访问网址、应用程序标识作为五元组的新流量数据标记，加入至流量标记映射表中；

按照五元组与应用程序标识之间的映射关系，查询hash字典确定对应的数据流，进行标记；

将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，组成用应用程序标识和访问网址标记的网络流量数据集。

2.根据权利要求1所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，在接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器之前，该方法还包括：

3.根据权利要求2所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，接收到服务器发送的部署命令后，响应于所述部署命令完成部署，并反馈给服务器包括：

4.根据权利要求3所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，服务器在接收到部署成功的通知后，

5.根据权利要求1所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，所述在预设映射表与类型细分表中，确定五元组的同一目的IP包括：

遍历预设映射表，提取五元组的目的IP；

并将提取到的目的IP与类型细分表中的目的IP对比，确定相同目的IP的五元组，并将相应的应用程序标识与访问网址结合为新的标记。

6.根据权利要求3所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，部署在客户端上的流量捕捉处理的相关模块包括：流量捕捉存储模块、映射表查询维护模块以及流量标记处理模块。

7.根据权利要求6所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，客户端在按照采集命令携带的数据流的会话开始时间开始采集经过自身的数据包之前，启动流量捕捉存储模块，用于：

在预设映射表与类型细分表中，确定五元组的同一目的IP；

客户端在将同一目的IP对应的访问网址、应用程序标识作为五元组的新流量数据标记，加入至流量标记映射表中之前，启动流量标记处理模块，用于：

将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，并对会话流进行归一化处理，得到用应用程序标识和访问网址进行标记的网络流量数据集。

8.根据权利要求1所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，所述将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，得到用应用程序标识和访问网址进行标记的网络流量数据集包括：

对切分得到的会话流进行归一化处理；

将所有数据点组成网络流量数据集。

9.根据权利要求1所述的一种基于客户端生成分布式真实网络流量数据集的方法，其特征在于，在将携带标记的数据流按照不同的会话流定义进行切分，得到带有标记的会话流，组成用应用程序标识和访问网址标记的网络流量数据集之后，该方法还包括：

10.一种基于客户端生成分布式真实网络流量数据集的系统，其特征在于，实现权利要求1至9任一项所述的一种基于客户端生成分布式真实网络流量数据集的方法。