CN116055411A

CN116055411A - 基于机器学习的upf数据流分类方法、系统、设备及介质

Info

Publication number: CN116055411A
Application number: CN202310065044.1A
Authority: CN
Inventors: 张向裕; 邱涛; 程通; 黄强
Original assignee: GHT CO Ltd
Current assignee: GHT CO Ltd
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-05-02

Abstract

本发明涉及通信技术领域，公开了一种基于机器学习的UPF数据流分类方法、系统、设备及介质，方法包括获取报文数据并对所述报文数据预处理，得到待识别报文；使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量；当根据预先配置的应用快速匹配模型判定所述加密流量匹配时，则将所述加密流量转发到DPI流分类，并进行报文合法性检查；当根据预先配置的应用快速匹配模型判定所述加密流量不匹配时，则提取有关网络流中发生的事件数据；基于预设的AI分类模型和所述事件数据对每个网络流进行推断，得到流分类结果。本方法能够兼顾UPF DPI模块识别加密流量的准确度和性能，能够在面对网络流量大面积加密的情况下提高分类识别的准确率。

Description

基于机器学习的UPF数据流分类方法、系统、设备及介质

技术领域

本发明涉及通信技术领域，尤其涉及一种基于机器学习的UPF数据流分类方法、系统、设备及介质。

背景技术

目前，用户平面功能(User Plane Function，UPF)是3GPP 5G核心网系统架构的重要组成部分，主要负责5G核心网中用户平面数据包的路由和转发相关功能。UPF在5G的边缘计算和网络切片技术中发挥着低延迟和大带宽的重要作用。其中，深度包检测(DeepPacket Inspection，DPI)深度包检测(DPI)是5G核心网用户面功能(UPF)网元中的重要组成部分。UPF通过内嵌的DPI模块对用户访问的具体服务和应用类进行识别和分类，支持安全等功能模块之间的动态策略控制和计费控制。

传统方式DPI主要通过数据包中模式匹配或查找关键字来对流量进行分类。但是，传统方式仅适用于未加密的流量，对于加密流量无法查看和分析报文载荷当中的信息，无法准确识别流的协议号。此外，对报文进行在线推导需要匹配很多复杂的规则，导致传统方式具有较高的计算开销，在面对当下网络流量大面积加密的情况下准确率不高。

发明内容

本发明提供了一种基于机器学习的UPF数据流分类方法、系统、设备及介质，以解决现有DPI对流量进行分类时，在面对网络流量大面积加密的情况下准确率不高，且计算开销高的技术问题。

第一方面，为了解决上述技术问题，本发明提供了一种基于机器学习的UPF数据流分类方法，包括：

获取报文数据并对所述报文数据预处理，得到待识别报文；

使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量；

当根据预先配置的应用快速匹配模型判定所述加密流量匹配时，则将所述加密流量转发到DPI流分类，并进行报文合法性检查；

当根据预先配置的应用快速匹配模型判定所述加密流量不匹配时，则提取有关网络流中发生的事件数据；

基于预设的AI分类模型和所述事件数据对每个网络流进行推断，得到流分类结果。

优选地，所述AI分类模型的配置过程包括：

读取解析PCAP文件，将报文缓存到本地内存当中，并在流表当中创建一条流；

提取有关网络流中发生的事件数据，并将所有事件数据更新到所述流表中；其中，所述事件数据包括数据包特征和协议特性；

将所述事件数据和相应的标签送入到机器学习框架中，并选取算法模型进行调试，得到AI分类模型。

优选地，所述应用快速匹配模型的配置过程包括：

根据所述流表中的流特征信息和AI分类模型，通过聚类分析选出适合DPI模式匹配的规则，基于所有规则得到并存储应用快速匹配模型。

优选地，所述使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量，包括：

若查找flow成功，则根据flow里保存的信息，选择下一步需要执行的操作；若查找flow不成功，则创建一条新的流。

优选地，所述方法还包括：

使用采集到的流转化得到增量训练样本，并结合旧样本和增量训练样本得到新训练样本；

根据新训练样本对所述AI分类模型进行训练，以更新所述AI分类模型。

优选地，所述五元组包括源IP、目的IP、源端口、目的端口、IP协议号。

第二方面，本发明提供了一种基于机器学习的UPF数据流分类系统，包括：

数据处理模块，用于获取报文数据并对所述报文数据预处理，得到待识别报文；

数据选择模块，用于使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量；

第一识别模块，用于当根据预先配置的应用快速匹配模型判定所述加密流量匹配时，则将所述加密流量转发到DPI流分类，并进行报文合法性检查；

第二识别模块，用于当根据预先配置的应用快速匹配模型判定所述加密流量不匹配时，则提取有关网络流中发生的事件数据；

流分类模块，用于基于预设的AI分类模型和所述事件数据对每个网络流进行推断，得到流分类结果。

优选地，所述AI分类模型的配置过程包括：

第三方面，本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述中任意一项所述的基于机器学习的UPF数据流分类方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的基于机器学习的UPF数据流分类方法。

相比于现有技术，本发明具有如下有益效果：

本发明提供一种基于机器学习的UPF数据流分类方法，包括获取报文数据并对所述报文数据预处理，得到待识别报文；使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量；当根据预先配置的应用快速匹配模型判定所述加密流量匹配时，则将所述加密流量转发到DPI流分类，并进行报文合法性检查；当根据预先配置的应用快速匹配模型判定所述加密流量不匹配时，则提取有关网络流中发生的事件数据；基于预设的AI分类模型和所述事件数据对每个网络流进行推断，得到流分类结果。

本发明主要解决DPI对流量进行分类，在面对网络流量大面积加密的情况下准确率不高，且计算开销高的技术问题。本发明在传统DPI引擎上加入机器学习模块，即通过机器学习网络流量的拓扑特征和构建模型，该方法能够兼顾UPF DPI模块识别加密流量的准确度和性能，能够在面对网络流量大面积加密的情况下提高分类识别的准确率。

附图说明

图1是本发明第一实施例提供的基于机器学习的UPF数据流分类方法流程示意图；

图2是本发明实施例提供的一种AI分类模型示意图；

图3是本发明实施例提供的一种DPI处理流程示意图；

图4是本发明第二实施例提供的基于机器学习的UPF数据流分类系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照图1，本发明第一实施例提供了一种基于机器学习的UPF数据流分类方法，包括以下步骤：

S11，获取报文数据并对所述报文数据预处理，得到待识别报文；

S12，使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量；

S13，当根据预先配置的应用快速匹配模型判定所述加密流量匹配时，则将所述加密流量转发到DPI流分类，并进行报文合法性检查；

S14，当根据预先配置的应用快速匹配模型判定所述加密流量不匹配时，则提取有关网络流中发生的事件数据；

S15，基于预设的AI分类模型和所述事件数据对每个网络流进行推断，得到流分类结果。

需要说明的是，在本发明实施例中，UPF DPI系统架构包括：应用识别模块、DPI模块、转发模块。

其中，转发模块负责用户数据，包括路由和数据转发，负责从N3接口收发来自基站的用户数据以及从N6接口收发来自DN用户数据。在本实施例中，当SMF下发了带有APPID的PFD规则到UPF，转发模块将流量转发到DPI模块进行应用识别。

DPI模块负责应用检测和维护FLOW五元组hash表，以及负责采集流量到应用识别模块。

应用识别控制模块通过人工智能引擎学习网络流量的拓扑特征，生成可以用于DPI模块识别应用的AI模型。同时因为机器学习需要耗费大量的CPU，所以应用识别模块同样会生成一份快速转发规则用于匹配简单单一的流。应用识别模块独立部署于5G核心网控制面当中，与UPF的DPI模块通过TCP消息进行交互。

在一种实现方式中，所述AI分类模型的配置过程包括：

值得说明的是，DPI通常依靠模式匹配来分析有效负载内容并识别与每个数据包相关的应用程序。随着网络流量加密使用的增加，使用数据包有效负载特征对流量进行分类变得困难。在流量加密的情况下，报文虽然大量丢失了载荷特征，但仍然保留了包长度、包时间间隔等统计学意义上的特征，本发明即通过生成相应的模型帮助DPI正确识别应用协议。

在核心网启动的时候，本发明首先使用提前保存的PCAP文件来初始化应用识别模型，并使用文件名作为流的标记，其具体实施步骤如图2所示。

示例性地，首先数据预处理模块读取解析PCAP文件，将报文缓存到本地内存当中。并在流表当中创建一条流。

在本发明实施例中，将报文缓存到本地内存时，中间还需要对数据流进行过滤和标头去除，以将不合适的报文去除，例如重传报文、乱序包、分片报文以及一些不相关的报文。

然后，网络流特征提取模块提取有关网络流中发生的事件的数据和信息，包括数据包特征(涵盖数据包长度、长度序列、IP到达时间数据包)，协议特性(涵盖数据包数据的关键字段，如TLS密码套件、SNI、DNS名称/地址、HTTP URI和标头)，词袋提取功能(数据包数据中字符串字段的词元分析)，并将所有特征信息更新到流表当中。

接着，将提取的特征和相应的标签送入到机器学习框架当中，并选取算法模型进行调试，即可输出一个AI分类模型。

在本发明实施例中，算法模型选用的是Intel oneDAL(数据分析加速库)提供的随机森林(Random Forest,RF)算法。RF算法因其具有较高的推理精度及较快的推理速度在分类问题上应用非常广泛。

具体地，随机算法流程如下所示：

随机森林算法是通过训练多个决策树，生成模型，然后综合利用多个决策树进行分类。随机森林算法只需要两个参数：构建的决策树个数，在决策树的每个结点进行分裂时需要考虑的输入特征的个数k，通过k可以取为log2n，其中n表示的是原数据集中特征的个数。对于单棵决策树的构建，可以分为如下的步骤：

假设训练样本的个数为m，则对于每一棵决策树的输入样本的个数都为m，且这m个样本是通过从训练集中有放回地随机抽取得到的。

假设训练样本特征的个数为n，对于每一棵决策树的样本特征是从该n个特征中随机挑选k个，然后从这k个输入特征里选取一个最好的进行分裂。

每棵树都一直这样分裂下去，直到该结点的所有训练样例都属于同一类。在决策树分裂过程中不需要剪枝。

进一步地，所述应用快速匹配模型的配置过程包括：

其中，应用快速匹配模型的示例如下：以某几个IP：x.x.x.x为目的地址的流量为微信的流量，或者某个证书签名是某个网站。

最后，将AI分类模型和应用快速匹配模型输出到文件当中。

为了便于对本发明的理解，以下对DPI对报文的处理流程做进一步说明。

需要说明的是，在本发明中，DPI模块内嵌在UPF当中。当SMF给某个PDR下发了带有APPID的PFD规则到UPF，转发模块将流量转发到DPI模块进行应用识别，DPI的处理流程如图3所示。

具体地，DPI首先对报文经过预处理。其中，对于UPF N3流会额外带有一个GTPU头，在这里需要进行去头操作。然后，使用五元组(源IP，目的IP，源端口，目的端口，IP协议号)进行flow查找和过滤选择。

在一种实现方式中，所述使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量，包括：

其中，所述五元组包括源IP、目的IP、源端口、目的端口、IP协议号。

值得说明的是，对于未加密的流，使用传统的模式匹配和查找关键字DPI流分类模块去处理。

如果是加密流量则查找匹配应用识别控制模块下发的快速规则是否有这个条目；如果有这个规则就将流量转发到DPI流分类，去做报文合法性检查。其中，根据快速规则进行协议识别可能会出错，所以只有一定比例的流做快速转发规则匹配。这主要是为转发性能考虑。快速规则是启动时通过读取文件，缓存到本地内存当中。对于已经识别出协议的流，不需要在进行流分类操作。

进一步地，对于加密报文又没有快速匹配规则通过机器学习的AI分类模型进行在线推理：

a)首先通过网络流特征提取模块，提取有关网络流中发生的事件的数据和信息，包括数据包特征和协议特性。

b)进而通过在线推断模块，结合初始化时加载的机器学习模型，对每个流进行推断，最后按流输出流分类结果，并按流输出结果到UPF转发模块。

在一种实现方式中，所述方法还包括：

在上述步骤中，因为网络上的流量变化很快，所以应用识别模块会控制DPI模块以一定的频率将数据流打上标记发送到应用识别模块。应用识别模块同时会使用采集到的流转化成增量训练样本并结合旧样本，以更新所述AI分类模型。

综上，本发明具有以下优点：

1、本发明提供的基于机器学习的UPF数据流分类方法及系统在传统DPI引擎上加入机器学习模块，基于数据流的数据包特征和协议特性能够准确识别加密数据流的协议信息。

2、通过定时对数据流进行采样和AI模型的增量更新使得能够识别未知数据流量。

3、通过对规则和AI模型分析，将特征明显的流提取出来生成快速匹配规则，能够减少需要进行机器学习模块处理的流量数量，提高UPF的转发性能。

参照图4，本发明第二实施例提供了一种基于机器学习的UPF数据流分类系统，包括：

其中，所述AI分类模型的配置过程包括：

需要说明的是，本发明实施例提供的一种基于机器学习的UPF数据流分类系统用于执行上述实施例的一种基于机器学习的UPF数据流分类方法的所有流程步骤，两者的工作原理和有益效果一一对应，因而不再赘述。

本发明实施例还提供了一种终端设备。该终端设备包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，例如基于机器学习的UPF数据流分类程序。所述处理器执行所述计算机程序时实现上述各个基于机器学习的UPF数据流分类方法实施例中的步骤，例如图1所示的步骤S11。或者，所述处理器执行所述计算机程序时实现上述各系统实施例中各模块/单元的功能，例如流分类模块。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述终端设备中的执行过程。

所述终端设备可以是桌上型计算机、笔记本、掌上电脑及智能平板等计算设备。所述终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述部件仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或系统、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的系统实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的UPF数据流分类方法，其特征在于，包括：

获取报文数据并对所述报文数据预处理，得到待识别报文；

2.根据权利要求1所述的基于机器学习的UPF数据流分类方法，其特征在于，所述AI分类模型的配置过程包括：

3.根据权利要求2所述的基于机器学习的UPF数据流分类方法，其特征在于，所述应用快速匹配模型的配置过程包括：

4.根据权利要求1所述的基于机器学习的UPF数据流分类方法，其特征在于，所述使用五元组对所述待识别报文进行flow查找和过滤选择，得到加密流量，包括：

5.根据权利要求1所述的基于机器学习的UPF数据流分类方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的基于机器学习的UPF数据流分类方法，其特征在于，所述五元组包括源IP、目的IP、源端口、目的端口、IP协议号。

7.一种基于机器学习的UPF数据流分类系统，其特征在于，包括：

8.根据权利要求7所述的基于机器学习的UPF数据流分类系统，其特征在于，所述AI分类模型的配置过程包括：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至6中任意一项所述的基于机器学习的UPF数据流分类方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的基于机器学习的UPF数据流分类方法。