CN111865815A

CN111865815A - 一种基于联邦学习的流量分类方法及系统

Info

Publication number: CN111865815A
Application number: CN202011011910.1A
Authority: CN
Inventors: 祝旭峰; 束妮娜; 王怀习; 李旺宗; 马祖发; 王晨; 黄郡; 吴一尘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-10-30
Anticipated expiration: 2040-09-24
Also published as: CN111865815B

Abstract

本发明提出了一种基于联邦学习的流量分类方法及系统，所述系统由流量采集标记模块、特征提取处理模块、联邦深度分类器组成，基于深度学习的方法和联邦学习的框架，在多个客户端本地搜集流量，并基于本地端口和应用的映射关系对流量进行标记，使用卷积神经网络作为分类器进行训练以获得梯度，服务器对收到的所有用户的梯度数据进行聚合，得到联合CNN模型参数，客户端根据加密梯度更新各自的模型，经过多个回合迭代，确定最终的CNN模型。本发明的技术方案标记速度快，准确率高，并且由于基于联邦学习的训练模式只在客户端本地进行训练，而不上传网络流量数据集，有效避免了对用户隐私的侵犯。

Description

一种基于联邦学习的流量分类方法及系统

技术领域

本发明涉及互联网技术和人工智能技术领域，尤其涉及一种基于联邦学习的流量分类方法。

背景技术

随着互联网的发展，网络流量的爆炸增长与有限的网络带宽的矛盾日益突出。流量分类是高性能网络协议和应用设计的基础，是网络运营管理、网络流量调度和网络发展规划的前提，也是提升网络管理水平、改善服务质量（QoS）的基础，它可以通过对不同流量进行优先级排序帮助互联网服务提供商(ISP)向其服务用户提供不同标准的QoS服务。流量分类技术主要分为三类。第一种是基于端口号进行流量分类。然而，随着动态端口、端口混淆、NAT等技术的发展，它的准确性越发降低。第二种是基于有效负载检测(DPI)进行流量分类，通过在数据包中查找模式或关键字确定流量类型。当今互联网的加密通信量急剧攀升，而加密数据的伪随机格式几乎不包含任何识别网络流量的关键字特征，因此基于有效载荷的分类方法也面临着失效的风险。第三种方法是基于流量统计的分类方法。这些方法通过统计行为模式、会话窗口大小、时间序列等属性或使用数据包包头作为特征，并运用经典机器学习算法达到区分流量类型的功能。由于与有效载荷无关，它们能够处理加密和未加密的流量，因此基于流量统计的分类方法被认为是最合适的解决方案，但这一方法依赖于手工获得的特征，存在以下几种局限性。一是存在侵犯用户隐私的法律风险。随着如欧盟的一般数据保护条例(GDPR)等隐私保护法律的健全，传统机器学习模型构建过程中需要收集大规模流量数据，数据的获取和处理面临着侵犯用户隐私的法律风险；二是流量数据标记困难，对于网络流量的分类标记，通常采取两种方式，一种是在完全可控的电脑上运行相应应用以捕获并标记流量，另一种则是基于端口和DPI对未标记的流量进行标记，但由于如加密技术、端口混淆、NAT等技术的广泛应用，导致端口识别方法和深度包检测（dpi）等的准确率越发降低，影响了数据标记的质量；三是不断新增和演变的网络流量对流量分类器的兼容性和鲁棒性提出较高要求。可见，传统流量分类模型在每次更新都需重新进行繁琐的数据采集、处理和训练过程，程序复杂，难以实现自动化快速迭代，无法适应网络环境。

发明内容

为克服上述网络流量分类中存在的问题，本发明提出了一种基于联邦学习的流量分类方法及系统，采用的联邦分类模型在多个客户端本地搜集流量并基于本地端口映射对流量进行标记，基于联邦学习的方式在不交换数据的情况下共同训练得到流量分类器，其主要创新点有：

1. 在流量采集方面，在多个客户端本地搜集流量并基于本地端口-应用的映射关系对流量进行标记，通过联邦学习避免了侵犯用户隐私的风险，具有标记速度快，准确率高，数据规模不受限制，无需人工专家辅助标记等优点。

2. 在数据处理方面，模型采用以会话的前16个数据包的包头作为输入特征，并对源、目的MAC地址、IP地址、端口号及相关字段进行屏蔽，确保了模型的分类不会基于ip等字段。通过深度学习进行训练分类，确保了模型的可扩展性，实验证明模型在面对新型流量和流量变种时的扩展性较强。

3. 在模型训练方面，模型基于联邦学习的模式进行训练，即只在客户端本地进行训练而不上传网络流量数据集。这种方法有效的保护了用户隐私，可实现模型的快速迭代。

具体地，本发明提出了一种基于联邦学习的流量分类系统，通过传递梯度信息实现分类模型，其特征在于，由流量采集标记模块、特征提取处理模块、联邦深度分类器组成，

所述流量采集标记模块被配置为：基于端口与应用类型映射表对数据报文进行标记分类；

所述特征提取处理模块被配置为：进行数据包分组、数据预处理和合并上传操作，所述合并上传为上传数据集至联邦学习客户端。

所述联邦分类模型被配置为:

训练初始化：确定参与训练的客户端与服务器，客户端间进行加密后的数据特征对齐，服务器将CNN模型框架及公钥分发给客户端；

梯度训练：客户端将本地的数据输入至本地CNN模型中进行训练得到梯度，然后将梯度加密上传至服务器；

模型确定:服务器对收到的所有用户的梯度数据进行聚合，得到联合CNN模型参数；客户端根据所述联合CNN模型参数更新各自的模型，计算模型对流量进行分类的准确率，判断准确率的提升是否均小于预设的阈值，若是，则得到最终的CNN模型。

本发明还提出了一种基于联邦学习的流量分类方法，其特征在于，其特征在于，包括以下步骤：

流量采集标记步骤S1：客户端捕捉本地流量，通过端口查找对应进程，建立本地端口与应用类型映射表；基于端口与应用类型映射表对数据报文进行标记分类；

特征提取处理步骤S2，包括以下子步骤：

数据包分组步骤S21：以（源地址、源端口号、目的地址、目的端口号、协议）五元组作为标识，对在客户端与服务器之间双向流动的数据包进行分组，按照时间顺序提取前16个数据包的包头；

数据预处理步骤S22：将数据包各个字节解释为0-255的整数，对各个干扰字段置0，进行匿名化处理，所述干扰字段包括Mac地址、IP地址、端口、报头校验和；

合并上传步骤S23：将处理后的前16个数据包的包头合并作为一项数据，以数据包的标签作为数据的标签，上传至联邦学习客户端；

联邦分类模型建立步骤S3，包括以下子步骤：

训练初始化步骤S31：确定参与训练的客户端与服务器，客户端间进行加密后的数据特征对齐，服务器将CNN模型框架及公钥分发给客户端；

梯度训练步骤S32：将本地的数据输入至本地CNN模型中进行训练以得到梯度，然后将梯度加密上传至服务器；

模型确定步骤S33:服务器对收到的所有用户的梯度数据进行聚合，得到联合CNN模型参数；客户端根据所述联合CNN模型参数更新各自的模型；计算模型对流量进行分类的准确率，判断准确率的提升是否均小于预设的阈值，若否，则返回所述步骤S32,进行下一回合迭代过程；若是，则结束流程，所得CNN模型为最终模型。

此外，本发明还提出了一种计算机可读存储介质，其中存储有多条指令；由处理器加载并执行本发明的基于联邦学习的流量分类方法。

附图说明

图1为根据本发明一个实施方式实现的基于联邦学习的流量分类方案的总体流程图；

图2显示了流量采集标记模块的工作流程图；

图3显示了特征提取处理模块的工作流程图；

图4显示了联邦深度分类器的架构图；

图5示出了本发明提出的一种基于联邦学习的流量分类方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明一个实施方式实现的基于联邦学习的流量分类方案的总体流程图。本发明技术方案的基本思想是在多个用户终端上捕获流量，并基于本地端口与应用映射关系对流量数据进行标记，全程可实现自动化采集处理。根据<源IP地址、源端口号、目的IP地址、目的端口号、协议>五元组提取会话的前16个数据报文作为特征输入，并对其IP地址、端口号、MAC地址、校验和进行匿名化处理。各参与客户端在协同服务器的协调下，通过传递梯度信息实现分类模型的建立。通过在联邦学习过程中的贡献不同给予用户不同的激励，以激发用户参与联邦学习的热情。

基于联邦学习的流量分类模型分为三块：流量采集标记模块、特征提取处理模块、联邦深度分类器。

图2显示了流量采集标记模块的工作流程图。流量采集标记模块执行以下流程：

1）捕获流量，在参与训练的客户端中，使用wireshark等软件捕捉本地流量，形成pcap文件；

2）通过端口查找对应进程，建立本地端口与应用类型映射表；

3）基于端口与应用类型映射表对数据报文进行标记分类。

图3显示了特征提取处理模块的工作流程图。特征提取处理模块执行以下流程：

1)以（源地址、源端口号、目的地址、目的端口号、协议）五元组作为标识，对在客户端与服务器之间双向流动的数据包进行分组，并按照时间顺序提取前16个数据包的包头。

2)数据预处理，将数据包各个字节解释为0-255的整数。这样得到了与原始数据包长度相同的整数向量。通过对UDP流量通过padding补0，达到与TCP长度一致。

3)为了确保机器学习模型不会基于端口、IP等进行分类，对干扰字段置0，进行匿名化处理，所述干扰字段为Mac地址、IP地址、端口、报头校验和。

4)将处理后的前16个数据包包头合并作为一项数据，数据包的标签即为数据的标签。

5）上传数据集至联邦学习客户端。

图4显示了联邦深度分类器的架构图。建立联邦深度分类器的流程如下：

1）训练初始化，确定参与训练的客户端与服务器。在训练开始时，客户端间进行加密后的数据特征对齐。由协同服务器将CNN模型框架及公钥分发给客户端，用以对训练过程中需要交换的梯度等进行加密。

2）将本地的数据转换为16*54的矩阵，作为图片输入至本地CNN模型中训练得到梯度，然后将梯度加密上传至协同服务器。

3）服务器对收到的所有用户的梯度数据进行聚合，得到联合CNN模型参数。

4）服务器将更新后的模型数据发给客户端。

5）客户端根据所述联合CNN模型参数更新各自模型，模型对流量进行分类的准确率，若多个回合迭代后准确率的提升均小于预设的阈值，则结束返回，所得CNN模型为最终模型；否则返回步骤2）训练本地数据。

构建所述联邦深度分类器的联邦学习过程为：初始化第一轮全局模型，设置总训练轮次；以第一轮全局模型作为所有客户端局部模型的初始值，对所有客户端上的所有训练数据集进行训练，得到在下一轮次各客户端上的局部模型；按照各客户端的数据集数量占所有客户端训练数据集的比例，对获得的各局部模型进行求和运算，从而获得下一轮次的全局模型。具体算法如下:

Algorithm 1 FederatedLearning.

Input: M_i-第i轮的全局模型,

-第i轮第k台客户端上的局部模型, n – 所有参与的客户端的数据之和, n_k- 第k台客户端上数据集的数量, L - 客户端上的训练数据集 r - 总共的训练轮次, e -一轮训练的次数, b -训练数据的批大小, K - 参与联邦学习的客户端集合。

图5示出了本发明提出的一种基于联邦学习的流量分类方法，包括以下步骤：

特征提取处理步骤S2，包括以下子步骤：

数据预处理步骤S22：将数据包各个字节解释为0-255的整数，对干扰字段置0，进行匿名化处理，所述干扰字段包括Mac地址、IP地址、端口、报头校验和；

联邦分类模型建立步骤S3，包括以下子步骤：

此外，本发明还提出了一种计算机可读介质，包括多条指令，所述多条指令由处理器加载并执行所述的基于联邦学习的流量分类方法。

本发明主要针对网络流量分类问题展开研究，给出了一种基于联邦学习的网络流量分类方法机系统。其技术方案基于深度学习的方法和联邦学习的框架，直接以数据包包头作为输入，避免了特征提取的高昂时间成本。在多个客户端本地搜集流量并基于本地端口-应用的映射关系对流量进行标记，通过联邦学习避免了侵犯用户隐私的风险，具有标记速度快，准确率高，数据规模不受限制，无需人工专家辅助标记等优点。以会话的前16个包头作为输入特征，并对源、目的MAC地址、IP地址、端口号及相关字段进行屏蔽，确保了模型的分类不会基于ip等字段。通过深度学习进行训练分类，确保了模型的可扩展性。基于联邦学习的模式进行训练，即只在客户端本地进行训练而不上传网络流量数据集。这种方法有效的保护了用户隐私，可实现模型的快速迭代。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，实体机服务器，或者网络云服务器等，需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种基于联邦学习的流量分类系统，通过传递梯度信息实现分类模型，其特征在于，由流量采集标记模块、特征提取处理模块、联邦深度分类器组成，

所述特征提取处理模块被配置为：进行数据包分组、数据预处理和合并上传操作，所述合并上传为上传数据集至联邦学习客户端；

所述联邦深度分类器被配置为:

2.根据权利要求1所述的基于联邦学习的流量分类系统，其特征在于，

所述应用类型映射表的建立方法是：客户端捕捉本地流量，通过端口查找对应进程，建立本地端口与应用类型映射表。

3.如权利要求1所述的基于联邦学习的流量分类系统，其特征在于，

所述对数据包分组为：对数据包进行分组，按照时间顺序提取前16个数据包的包头；

所述数据预处理为：将数据包各个字节解释为0-255的整数，对各个干扰字段置0，进行匿名化处理；

所述合并上传时，将处理后的前16个数据包的包头合并作为一项数据，以数据包的标签作为数据的标签，上传至联邦学习客户端。

4.如权利要求3所述的基于联邦学习的流量分类系统，其特征在于，对数据包进行分组时，以（源地址、源端口号、目的地址、目的端口号、协议）五元组作为标识，对在客户端与服务器之间双向流动的数据包进行分组。

5.如权利要求3所述的基于联邦学习的流量分类系统，其特征在于，所属干扰字段包括Mac地址、IP地址、端口、报头校验和。

6.如权利要求1所述的基于联邦学习的流量分类系统，其特征在于，所述将本地的数据输入至本地CNN模型中，是先将本地的数据转换为16*54的矩阵，再作为图片输入至本地CNN模型中进行训练。

7.如权利要求1所述的基于联邦学习的流量分类系统，其特征在于，若准确率提升不都小于预设的阈值，则进行下一回合迭代，执行所述梯度训练和所述模型确定的流程。

8.一种基于联邦学习的流量分类方法，其特征在于，包括以下步骤：

特征提取处理步骤S2，包括以下子步骤：

联邦分类模型建立步骤S3，包括以下子步骤：

9.如权利要求8所述的基于联邦学习的流量分类方法，其特征在于，在所述步骤S32中，所述将本地的数据输入至本地CNN模型中，是先将本地的数据转换为16*54的矩阵，再作为图片输入至本地CNN模型中训练。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有多条指令；所述多条指令由处理器加载并执行如权利要求8-9之任一项所述的基于联邦学习的流量分类方法。