CN115348551A

CN115348551A - 一种轻量化业务识别方法、装置、电子设备及存储介质

Info

Publication number: CN115348551A
Application number: CN202210867226.6A
Authority: CN
Inventors: 朱晓荣; 何明坤
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-15

Abstract

本发明公开了一种轻量化业务识别方法、装置、电子设备及存储介质，包括数据抓取和机器学习，对于通过网络抓包工具抓取终端是设备产生得的流量数据包，对抓取的数据包进行数据预处理成机器学习模块所需要的规整化的数据格式，已经抓取的原始数据包经过预处理后，输入到机器学习模块并进行压缩处理，通过知识蒸馏方法对大规模教师网络的输出概率分布进行蒸馏处理，传递给小规模学生网络进行指导优化来实现知识的迁移，从而通过小规模的学生网络训练出参数量少的业务识别模型。在保证识别准确率的前提下，压缩大规模的教师网络的业务识别模型以满足在资源受限的场景下部署业务识别轻量化系统的需求。

Description

一种轻量化业务识别方法、装置、电子设备及存储介质

技术领域

本发明属于通信网络技术领域，具体涉及一种轻量化业务识别方法、装置、电子设备及存储介质。

背景技术

随着网络规模的不断扩大和各类网络应用的持续发展，互联网已经成为人类生活中不可或缺的基础设施。流量检测作为一种有效的网络防护手段，为网络态势感知提供重要支持。目前主要有基于端口的流量识别方法，对于可变端口业务能够做到准确识别的方法，基于流量统计特性的识别方法和跨层业务等识别方法。由于多媒体业务应用正越来越多的引入安全加密技术和P2P计算技术，使得原有的流量识别方法不再适用，越来越难以准确高效的识别多媒体信息流。目前基于机器学习的业务识别方法主要通过分析业务流的统计特征来实现，而在业务流中提取有效特征是比较困难，因此识别精度不高。因此，越来越多的流量识别技术采用深度学习的方法，一般来说，随着神经网络的规模越来越大，识别效果会越来越好。本文采用知识蒸馏的方法，对深度学习模型进行轻量化，并在不同的经典算法中进行对比实验，以满足在资源受限的场景下进行业务识别轻量化系统的设计实现。

网络业务识别问题由来已久，传统的业务识别在获取特征时比较困难，影响业务识别的精准度数，而现有的特征选择与提取方法需要研究者付出大量的时间精力。神经网络的因为其能子提取数据中的特征而被广泛应用于各种计算机视觉相关的任务中。依据此特点，将其应用在难以提取特征的业务识别系统中，是本文研究的基础。

随着配套硬件设备的发展对卷积神经网络认识的不断加深，研究表明越深的网络能够提取越抽象的语义信息，网络的表示能力越强。然而更宽更深的神经网络将难以收敛，并且会导致反向传播算法中的梯度小时。残差网络和ResNet和批量归一化(BatchNormalization，BN)在一定程度上能够解决这一问题，但是大量参数的神经学习模型需要更大的存储空间和更强的运算单元，无法在移动终端上进行部署和实时推理，从而影响深度学习模型在实际应用中的落地和推广。例如公共区域的业务识别系统多部署在内存有限和计算能力较低的嵌入式设备上，无法实时准确地对业务流进行准确，快速地识别。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种轻量化业务识别方法、电子设备及存储介质。

为了实现上述技术目的，本发明的技术方案为：

一种轻量化业务识别方法，包括以下步骤：

1)启动基站，将手机接入基站所覆盖的网络中，通过MEC系统获取手机使用过程中的流量数据包信息；

2)对手机中的流量使用数据进行筛选提取其中的字节信息，并进行分类，将分类后的流量使用数据构建数据集；

3)构建学生网络模型和教师网络模型，通过知识蒸馏对识别模型进行轻量化，将教师网络模型中；

4)将训练好的学生网络部署在资源受限的场景中，在资源受限场景中对终端设备产生的业务流量进行准确高效的识别。

优选地，所述步骤1)具体包括：

步骤101，PC1启动，配置网段IP，打开启动基站的工具，启动基站，基站启动成功后，手机开机接入；

步骤102，电脑连接路由器，打开web控制界面，更改路由器1和路由器2的静态路由；

步骤103，PC2启动，远程登录MEC系统，将实现数据自动抓取的脚本传入指定文件夹，通过expect工具与脚本实现MEC系统与PC2之间文件的免密传输；

步骤104，启动手机上的app应用，为实现抓取某一类应用流量的目的，在一段时间内只运行一个应用，app产生的流量经过MEC系统自动传输到PC2的文件夹里，实现流量的自动抓取功能并且抓取到的数据集满足训练的要求。

优选地，所述步骤2)具体包括：

步骤201，打开jupyter，安装python3.7、pandas和numpy支撑库；

步骤202，微博、QQ、微信、视频、邮件、淘宝业务每类取10万条数据，手动提取字节信息，并给分类打上类别标签，将所有数据以对应类别集合生成数据集；

步骤203，对数据集中的字节进行编码处理，将16进制的字节信息转换为10进制的数据；便于后续的模型训练使用；

步骤204，对处理后的数据进行统一度处理，每条数据集选取256个数据点即处理后的256个字节信息；对于数据集中超过256个字节的数据删除后续的字节信息；对于每条数据集中不足256个字节的数据在末尾补0达到长度为256；

步骤205，数据集中每一条数据为长度为256的维的向量，鉴于深度学习在图像领域中的固有优势，将数据转化为图像格式作为模型输入，即模仿灰度图像的数据格式，将数据转为为2维像素点格式，即转化为16*16的二维矩阵，通过python中reshape操作实现。

优选地，所述步骤3)具体包括：

步骤301.构建学生网络，结构依次为二维卷积层、池化层、二维卷积层、全连接层、dropout层、标准化层、全连接层、dropout层、全连接层和线形层；

步骤302，构建TextCNN作为教师网络，由词嵌入、卷积、池化和全连接softmax四部分组成，在词嵌入层，将预训练的数据作为该层的输入，数据集中的所有编码后的每一个字节信息，都表征成一个向量，输入的矩阵数据中每一行都是词向量；将字节信息转换为二维矩阵格式；卷积核的宽度固定为词向量的维度16，通过卷积操作得到特征图信息；不同卷积核所得到的特征图大小不同，池化层对特征图进行池化处理，使得特征图的维度相同；通过全连接层+softman得到对目标识别的概率分布；最后通过传递输出的概率分布来指导学生网络的模型的训练；

步骤303，将教师网络部署在云服务器进行训练，将学生网络部署在本地pc进行训练；

步骤304，将预处理之后的数据通过教师网络TextCNN进行训练得到为未轻量化的业务识别模型；

步骤305，通过知识蒸馏来对业务识别模型进行轻量化，通过蒸馏大规模教师网络的输出概率分布，传递给小规模学生网络进行指导优化来实现知识的迁移，通过小规模的学生网络训练出参数量少的业务识别模型，将教师网络的知识传递给学生网络，在不增加学生网络的模型大小前提下，提升学生网络的识别准确率。

优选地，步骤303包括以下步骤：

通过使用Softmax输出层来产生分类概率，将计算出的每个类别的Logits转换为分类概率，公式表达如下：

其中zi为Logits的第i个分量，T为温度参数，越高的温度会产生越软的类间分类概率；

知识蒸馏损失包括分类概率间的交叉熵和学生网络的分类预测与真实标签间的交叉熵损失，温度为1，总损失函数Lkd公式表达如下：

其中N为小批量的尺寸，L_CE代表交叉熵，σ()代表Softmax函数，T为蒸馏温度，yi为样本i的真实标签，

和

分别为分类任务的学生网络和教师网络输出的Logits；

当教师网络预测错误时，知识同样会转移到学生网络身上，这将会影响学生网络的表现，因此改迚传统知识蒸馏的方法，忽略教师网络错误的预测分布，只把正确的预测分布传递给学生网络，改进总损失函数L*KD公式表达如下：

其中

为指示函数，

为学生网络预测的标签，当教师网络能够正确预测输入样本的分类时，指示函数为1，学生网络同时学习样本标签和教师网络输出的软目标；教师网络无法正确分类时，指示函数为0，仅计算学生网络的分类情况和真实标签间的交叉熵。

优选地，所述步骤4)具体包括：

步骤401，舍弃教师模型，保存训练好学生网络模型；

步骤402，将模型部署在资源受限的场景中，轻量化后的模型具备较高的识别准确率，较低的参数量使得模型推演速度加快从而获更短的业务识别时间。

一种轻量化业务识别方法的装置，包括：

数据抓取模块：其被配置用于抓取终端设备产生的流量数据包，对抓取的数据包进行数据预处理成机器学习模块所需要的规整化的数据格式，已经抓取的原始数据包经过预处理后，输入到机器学习模块并进行压缩处理；

机器学习模块：其被配置用于通过知识蒸馏方法对大规模教师网络的输出概率分布进行蒸馏处理，传递给小规模学生网络进行指导优化来实现知识的迁移，从而通过小规模的学生网络训练出参数量少的业务识别模型。

一种电子设备，包括：存储器和处理器，存储器存储由处理器可执行的计算机程序，处理器执行计算机程序时实现上述任一项所述的业务识别方法。

一种存储介质，存储介质上存储有计算机程序，计算机程序被读取并执行时，实现上述任一项所述的业务识别方法。

采用上述技术方案带来的有益效果：

本发明提出了一种轻量化业务识别方法，该方法解决了传统业务识别系统难以部署在资源受限的场景中的问题，通过网络抓包工具已经抓取的原始数据包经过预处理后，输入到机器学习模块并进行压缩处理，在保证识别准确率的前提下，压缩业务识别模型以满足在资源受限的场景下部署业务识别轻量化系统。关键点如下：

1.核心是基于知识蒸馏的业务识别算法，针对业务识别系统模型进行轻量化处理.

2.合理构建学生模型以及教师模型的神经网络参数，提高模型业务识别精确度以及保证模型压缩比率.

3.针对业务流数据特点，采用文本卷积相关模型，提取数据流前后相关语义，强化业务识别准确率.

附图说明

图1是本发明轻量化业务识别整体流程图；

图2是本发明数据抓取流程图；

图3是本发明教师网络选取网络图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

对于资源受限的环境中部署业务类型系统的应用场景，本发明提出了一种基于知识蒸馏的轻量化业务实时识别方法，如图1所示，包括以下步骤：

1)数据抓取，如图2所示，包括如下步骤：

步骤104，启动手机上的app应用，为实现抓取某一类应用流量的目的，在一段时间内只运行一个应用，app产生的流量经过MEC系统自动传输到PC2的文件夹里，实现了流量的自动抓取功能并且抓取到的数据集是干净的，满足训练的要求。

2)数据预处理，包括如下步骤：

步骤201，打开jupyter，安装python3.7，pandas，numpy等支撑库

步骤202，微博、QQ、微信、视频、邮件、淘宝业务每类取10万条数据，手动提取字节信息，并给分类打上类别标签，分别对应0-5。将所有数据以对应类别放入一个表格以供后续模型训练使用。

步骤203，对数据集中的字节进行编码处理，将16进制的字节信息转换为10进制的数据。便于后续的模型训练使用。

步骤204，对处理后的数据进行统一度处理，每条数据集选取256个数据点即处理后的256个字节信息；对于数据集中超过256个字节的数据删除后续的字节信息；对于每条数据集中不足256个字节的数据在末尾补0达到长度为256.

3)模型训练，包括如下步骤：

步骤301.学生网络选取较为简单的结构，学生网络结构依次为二维卷积层、池化层、二维卷积层、全连接层、dropout层、标准化层、全连接层、dropout层、全连接层和线形层；

步骤302，教师网络模型参数量为学生网络的十倍多，经典算法如图3所示，由于字节信息为数字一维数组存放，且数据前后语义对于业务识别起到正向作用，采用文本分类中经典算法，TextCNN作为教师网络，由词嵌入、卷积、池化、全连接+softmax四部分组成，在词嵌入层，将预训练的数据作为该层的输入，数据集中的所有编码后的每一个字节信息，都可以表征成一个向量，输入的矩阵数据中每一行都是词向量；字节信息无法直接被计算机所识别，因此需要编码，转换为二维矩阵格式。卷积层的作用是提取特征，卷积核的宽度固定为词向量的维度16，高度是超参数，可以有不同设置，通过卷积操作得到特征图信息。不同的卷积核所得到的特征图大小也是不一样的，池化层的作用是对特征图进行池化处理，使得特征图的维度相同。神经网络的最后一层往往全连接层+softman，目的是得到对目标识别的概率分布。鉴于TextCNN算法对业务流量识别的高准确率而将其选择为教师网络，通过传递其输出的概率分布来指导学生网络的模型的训练，从而达到知识迁移，模型压缩的目的。

步骤303，教师网络部署在云服务器，学生网络部署在本地pc

步骤304，通过知识蒸馏来对业务识别模型进行轻量化，将教师网络的知识传递给学生网络，在不增加学生网络的模型大小前提下，提升学生网络的识别准确率。知识蒸馏的基本思想是通过最小化教师网络和学生网络间的预测分布的差异，使学生网络近似于教师网络。神经网络通常通过使用Softmax输出层来产生分类概率，将计算出的每个类别的Logits转换为分类概率，如式(1)所示：

其中z i为Logits的第i个分量，T为温度参数，越高的温度会产生越软的类间分类概率。知识蒸馏损失有两部分组成，一是分类概率间的交叉熵，学生网络和教师网络使用相同的温度T，二是学生网络的分类预测与真实标签间的交叉熵损失，温度为1，如式(2)所示：

其中N为小批量的尺寸，L_CE代表交叉熵，也可以用相对熵，即Kullback-Leibler散度代替。σ()代表Softmax函数，T为蒸馏温度，y_i为样本i的真实标签，

和

分别为分类任务的学生网络和教师网络输出的Logits.虽然训练初期教师网络比学生网络更准确，但教师仍然会有一些预测错误。当教师网络预测错误时，知识同样会转移到学生网络身上，这将会影响学生网络的表现。因此改迚传统知识蒸馏的方法，忽略教师网络错误的预测分布，只把正确的预测分布传递给学生网络，具体目标函数如式(3)所示：

其中

为指示函数，

为学生网络预测的标签。当教师网络能够正确预测输入样本的分类时，指示函数为1，学生网络同时学习样本标签和教师网络输出的软目标；教师网络无法正确分类时，指示函数为0，仅计算学生网络的分类情况和真实标签间的交叉熵。

4)模型部署，包括如下步骤：

步骤401，舍弃教师模型，保存训练好学生网络模型；

5)具体操作

步骤501，针对在低资源的设备环境中部署轻量化的业务流量识别系统，对常见的几类应用作识别测试，搭建了纯净的网络环境，在抓取时，运行的设备保证只运行目标业务，尽可能地保证数据的纯洁性；各个类别应用训练数据量采用相同大小，保证数据选取的平衡性；抓取的数据集如下表所示。

表1.应用识别测试表

5.2实验环境

保证在相同的情况下进行模型的训练，测试。实验环境如下：

表2.实验环境表

5.3评价指标

本文实验中采用以下三种指标对模型的精度进行评估，业务识别准确率、模型大小、单个样本模型推理时间。其中

(1)准确率(Accury)，经过训练后的模型对测试样本的识别准确率，选取模型训练稳定时的识别准确率。

(2)模型大小(Model_size)，通过网络的模型大小来描述占用的资源大小。

(3)一次迭代推理时间(Single_time)，在保证所有模型的测试在同一环境下进行对比，选取100次的迭代时间的均值。

5.4结果分析

首先文本比较了几种经典的CNN模型，通过选取各个模型训练达到稳定状态时对业务流量识别的准确率，旨在对比基础上选择合适的教师教师网络，对比效果如下。

表3.教师网络、学生网络、教师-学生网络效果对比表

从上表中可以看出，学生模型的一次推理时间远小于教师模型的一次推理时间。同时学生模型的准确率也较教师网络低11.22个百分点。通过知识蒸馏训练出的教师-学生模型可以在不改变学生网络模型大小的情况下，提升模型识别业务流量的准确率，实验结果为上升了4.09个百分点，更加适合部署在资源受限且对识别精度有一定要求的场景中。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。