CN117131400A

CN117131400A - 一种面向数据包分类的元组选择模型及分类方法

Info

Publication number: CN117131400A
Application number: CN202310885132.6A
Authority: CN
Inventors: 李卓; 王童彤; 石和平; 刘开华; 张艺彤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-11-28

Abstract

本发明公开了一种面向数据包分类的元组选择模型及分类方法，包括输入向量生成单元、元组选择模型单元和规则查找匹配单元。输入向量生成单元将用于转换数据包包头的路由标识为多维输入向量；元组选择模型单元用于训练与元组选择，对输入特征进行任意复杂的非线性变换转换为易分类特征。在实施数据包分类的阶段，元组选择模型单元将输出数据包适配概率最大的元组编号。规则查找匹配单元将用于查询概率最大元组对应的哈希表中对应匹配规则的存储位置，进而获取数据包的处理方式。

Description

一种面向数据包分类的元组选择模型及分类方法

技术领域

本发明属于数据包分类方案的设计领域，特别针对基于元组空间搜索类方案中元组选择及高效分类的问题。

背景技术

随着网络架构的不断革新，出现了软件定义网络(Software Defined Network，SDN)等创新型的网络架构。Open vSwitch是该网络功能的核心组件，数据包分类技术是其性能的瓶颈。数据包分类技术的作用是根据网络中数据包包头所携带的信息(如源地址、目的地址、源端口号、目的端口号和协议等)在一套规则集中按照最高优先级匹配的原则，找到该数据包待执行的操作或任务(转发、丢弃等)。当前应用的是元组空间搜索(TupleSpace Search，TSS)算法，该算法需要顺序检索每个元组以实现规则的匹配，不仅查找速度慢、存储消耗大，而且易受到攻击。因此，设计一种高性能的、可扩展的、通用的分类算法来提升该算法性能是非常重要的。

近年来，机器学习因其在预测分析方面具有速度快、成本更低等特点被广泛应用于各个行业。特别是在静态规则系统下，机器学习模型可以智能地学习数据的分布规律，其性能表现良好。而当数据不断变化或添加时，其可以不断调整系统仍旧保持出色的表现。上述机器学习的特点很符合当前数据包分类技术的需求，因此，亟需将机器学习技术与数据包分类技术相结合，以提升数据包分类性能。

发明内容

针对上述问题及现有技术，本发明提出了一种面向数据包分类的元组选择模型及分类方法。该方法结合了现有的基于元组空间搜索类方案，通过构建、训练机器学习模型，使得数据包在规则匹配过程中能快速对应至唯一正确的元组，以提升基于元组空间搜索类的数据包分类方案的高效性。

针对上述整体运行过程，本发明中提出了一种面向数据包分类的元组选择模型及分类方法，其结构主要包括输入向量生成单元、元组选择模型单元和规则查找匹配单元。所述输入向量生成单元将用于转换数据包包头的路由标识为多维向量，得到索引该数据包对应的输入向量。所述元组选择模型单元将用于训练与元组选择，将输入特征进行任意复杂的非线性变换转换为易分类特征。在实施数据包分类的阶段，元组选择模型单元将输出数据包适配概率最大的元组编号。所述规则查找匹配单元将用于查询概率最大元组对应的哈希表中对应匹配规则的存储位置，进而获取数据包的处理方式。元组选择模型单元中的模型训练步骤如下：

步骤一、构建训练数据集：

1-1)划分规则集：利用合并元组空间搜索方案对规则集进行元组划分。

1-2)根据优先级加链：依据规则的优先级，将不同元组内的相似规则按其优先级高低进行连接。

1-3)生成数据包数据集：为每个元组生成相同数量的符合元组结构的数据包。

1-4)处理数据包包头标识：将数据包包头中的路由标识转换为十进制数字形式的向量，形成向量集合。

1-5)构建训练集：将每个数据包用其所对应的元组编号作为其标签进行标定。

步骤二、设计与训练模型：设定初始神经元数量与激活函数，利用1-4)中生成的训练集训练元组选择模型单元中的神经网络模型，学习出一个可实现多分类任务的函数。

步骤三、调整模型参数：通过测试模型训练的准确率、误差等，调整模型输入层及隐藏层的神经元的个数、激活函数等参数。

步骤四、训练过程结束：训练完成后，元组选择模型单元中的神经网络模型可以提供输入向量在每个类别中的概率。

同时，本发明还提出了基于上述元组选择模型的面向数据包分类的分类方法，即利用训练后的神经网络模型实现基于元组空间搜索类方案的数据包分类，具体步骤如下：

步骤一、处理数据包包头标识：将需要分类的数据包输入至输入向量生成单元，将其包头的路由标识转换为向量。

步骤二、输入模型中得到概率：将步骤一所得的向量输入至元组选择模型单元中，已训练好的模型将输出该数据包与各个元组之间的适配概率。

步骤三、选择元组编号：比较所有输出的适配概率，选出应查询的概率最大的元组编号。

步骤四、查询匹配规则：在规则查找匹配单元中，按照步骤三中所选元组的结构，截取出对应长度的数据包路由标识前缀并连接，形成哈希键值。利用哈希后所得索引值即可得到与数据包匹配的规则在表中的位置，有链则查链所指位置，进而获取数据包的处理方式。

与现有技术相比，本发明的有益效果是：

评价数据包分类技术的性能指标主要为数据包分类时间与存储结构消耗两个方面。分类时间方面，基于机器学习技术，模型可以智能地学习出符合元组分组规律的数据包特征，使得分类时元组检索的时间复杂度由O(n)提升至O(1)。存储结构消耗方面，模型部分相当于现有元组空间类方案中元组线性存储的部分，经实验结果表明，其内存消耗与现有此类方案所需要的存储消耗相差不大。同时，该分类方法由于采用哈希表存储规则，能够满足快速更新性。

附图说明

图1为本发明一种面向数据包分类的元组选择模型及分类方法的训练方法的流程框图；

图2为本发明一种面向数据包分类的元组选择模型及分类方法的分类方法的流程框图；

图3为本发明一种面向数据包分类的元组选择模型及分类方法的结构图。

图4为本发明一种面向数据包分类的元组选择模型及分类方法的实例图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步的说明，但下述实施例绝非对本发明有任何限制。

本发明提出的一种面向数据包分类的元组选择模型及分类方法，其结构主要包含输入向量生成单元、元组选择模型单元和规则查找匹配单元。所述输入向量生成单元将用于转换数据包包头的路由标识为多维向量，得到索引该数据包对应的输入向量。所述元组选择模型单元将用于训练与元组选择，该部分设计为三层结构，每层设计若干个神经元，将输入特征进行任意复杂的非线性变换转换为易分类特征。在实施数据包分类的阶段，元组选择模型单元将输出数据包适配概率最大的元组编号。所述规则查找匹配单元将用于查询概率最大元组对应的哈希表中对应匹配规则的存储位置，进而获取数据包的处理方式。

同时，本发明还提出了基于该元组选择模型的面向数据包分类的分类方法，即利用训练后的神经网络模型实现基于元组空间搜索类方案的数据包分类，分类方法如图2所示。首先，处理数据包包头标识，将需要分类的数据包输入至输入向量生成单元，将其包头的路由标识转换为向量；随后，将所得的向量输入至元组选择模型单元中，已训练好的模型将输出该数据包与各个元组之间的适配概率，比较所有输出的适配概率后，选出应查询的概率最大的元组编号。最后，在规则查找匹配单元中，按照所选元组的结构，截取出对应长度的数据包路由标识前缀并连接，形成哈希键值。利用哈希后所得索引值即可得到与数据包匹配的规则在表中的位置，进而获取数据包的处理方式。

如图1所示，针对上述面向数据包分类的元组选择模型的训练方法，具体步骤如下：

步骤一、构建训练数据集：

实施例1：

本发明中，训练完成后基于该元组选择模型进行数据包分类的一个实例如图3所示，其中箭头线标示了一个实际数据包匹配规则实现分类的过程。先将包头标识为(2839616511，4097389783)的数据包输入至输入向量生成单元，包头标识将被转换为二进制形式(10101001010000010001101111111111，11110100001110010011010011010111)，再进行分割，转化为八个十进制数字，获得对应的输入向量(169，65，27，255，244，57，52，215)。之后，将输入向量输入至元组选择模型单元中。假设模型输出每个元组的概率分别为(0.811，0.101，...，0.002)(概率之和为1)，即第一个元组适配概率最大，则依据第一个元组结构即前缀组合为(32，32)，处理数据包包头标识，形成哈希键值，在规则查找匹配单元中执行哈希操作，查询元组对应的哈希表匹配至规则R2，该规则内存中不存在链结构，则直接获取R2的数据包处理方式。

实施例2：

本发明中，训练完成后基于该元组选择模型进行数据包分类的另一个实例如图4所示，其中箭头线标示了一个实际数据包匹配规则实现分类的过程。先将包头标识为(2670103552，1402282866)的数据包输入至输入向量生成单元，包头标识将被转换为二进制形式(10011111001001101000110000000000，01010011100101010010001101110010)，再进行分割，转化为八个十进制数字，获得对应的输入向量(159，38，140，0，83，149，35，114)。之后，将输入向量输入至元组选择模型单元中。假设模型输出每个元组的概率分别为(0.921，0.010，...，0.001)(概率之和为1)，即第一个元组适配概率最大，则依据第一个元组结构即前缀组合为(32，32)，处理数据包包头标识，形成哈希键值，在规则查找匹配单元中执行哈希操作，查询元组对应的哈希表匹配至规则R5，该规则内存中存在链结构，依据链结构所指规则，进而获取规则R4的数据包处理方式。

尽管上面结合附图对本发明进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨的情况下，还可以做出很多变形，这些均属于本发明的保护之内。

Claims

1.一种面向数据包分类的元组选择模型及分类方法，包括输入向量生成单元、元组选择模型单元和规则查找匹配单元，其特征在于，

所述输入向量生成单元将用于转换数据包包头的路由标识为多维向量，得到索引该数据包对应的输入向量。所述元组选择模型单元将用于训练与元组选择，将输入特征进行任意复杂的非线性变换转换为易分类特征。在实施数据包分类的阶段，元组选择模型单元将输出数据包适配概率最大的元组编号。所述规则查找匹配单元将用于查询概率最大元组对应的哈希表中对应匹配规则的存储位置，进而获取数据包的处理方式。

2.根据权利要求1所述的元组选择模型单元，其特征在于，

步骤一、构建训练数据集：

3.根据权利要求1所述的一种面向数据包分类的分类方法，其特征在于，