CN114726800A

CN114726800A - 一种基于模型解释的规则式应用流量分类方法及系统

Info

Publication number: CN114726800A
Application number: CN202210239829.1A
Authority: CN
Inventors: 王一鹏; 赵辰
Original assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Technology; National Computer Network and Information Security Management Center
Priority date: 2022-03-12
Filing date: 2022-03-12
Publication date: 2022-07-08
Anticipated expiration: 2042-03-12
Also published as: CN114726800B

Abstract

本发明公开了一种基于模型解释的规则式应用流量分类方法及系统，该方法包括用于构建阶段和分类阶段；构建阶段包括：对已知类型的应用流量样本进行统一处理；对深度学习模型进行训练调优；通过基于模型解释的方法对训练调优后的深度学习模型进行分析，并对模型解释结果进行规则筛选，得到分类规则集；分类阶段包括：对待分类的应用流量统一处理；对待分类应用流量进行策略匹配，输出判别结果。本方法及系统通过将深度学习模型从训练数据中自动学习到的知识以带权规则的方式来表征，并在此基础上使用策略规则匹配进行应用流量分类，从而实现了高准确率、高效率的应用流量分类。

Description

一种基于模型解释的规则式应用流量分类方法及系统

技术领域

本发明涉及使用模型解释方法生成特征匹配规则，以近似替代深度学习技术对混杂的应用流量进行自动分类，具体涉及一种基于模型解释的规则式应用流量分类方法及系统。

背景技术

应用流量分类是将应用流量与其生成的具体应用协议或应用相关联的过程，其在网络安全与计算机网络等应用领域都有着重要应用，如网络服务质量(QoS)提升、入侵检测和防御等。具体而言，在网络管理中，为了获得更好的网络服务质量和网络供应，网络运营商首先需要将流量分为不同的应用或者应用协议。另外，在网络安全领域中，应用流量分类是如异常检测，构建网络防火墙和过滤有害流量等活动的第一步。由于这种应用需求，该领域的研究吸引着众多学术界和工业界的研究关注。值得注意的是，大多数商业解决方案通常都依赖深度数据报文检查(DPI)进行应用流量分类，同时DPI也被认为是最准确的流量分类技术之一。在过去的十年中，研究团体探索了多种基于数据报文中有效负载的应用流量分析方法。近年来，受到深度学习技术在计算机视觉、机器翻译和语音识别等多个领域取得巨大成功的推动，一些研究人员开始考虑使用先进的深度学习技术来尝试更好地解决应用流量分类问题。但如何保证经过训练后深度学习模型所利用的特征符合应用流量先验知识、并将深度学习技术成果应用于大规模网络中进行实时应用流量分类等诸多问题，一直是深度学习技术在应用流量分类中面临的挑战。本专利将以深度学习模型与应用流量训练数据作为输入将模型转化为应用流量特征分类规则集，在尽可能保持分类准确率与原深度学习模型一致的情况下实现低计算开销、高准确率的应用流量分类。

在应用流量分类领域，深度学习模型的应用，有效解决了机器学习方法在特征设计阶段对专家知识的依赖，从而使应用流量中潜在的特征信息更有效地服务于应用流量分类应用。然而，现有的基于深度神经网络的应用流量分类方法与系统在实际应用过程中存在着两点局限性：

(1)深度学习模型计算开销高，不适用于海量应用流量实时分类的应用场景。深度学习模型需要构建起输入数据与目标结果之间的关联关系，但输入数据与目标结果之间的关联关系通常难以直接判断，因此深度学习模型往往需要使用大量的可学习参数、设计复杂的模型结构以实现高准确率的分类。然而，应用流量的实时分类场景对分类效率要求较高，部署深度学习分类方案需要新增大量计算资源，难以负担海量应用流量分类需求。

(2)深度学习模型进行分类的判断依据及其可信度都难以直观展现，因而难以应用于有高可靠性要求的场景。深度学习模型的分类过程封装在复杂的模型结构和大量的模型参数之中，使得直接分析深度学习模型推理过程难以实现，因此难以判断深度学习模型的推理是否基于有效的特征、结果是否可靠且具备泛用性。

本专利拟解决此前方法或系统存在的两点技术缺陷。

发明内容

本发明的目的在于设计并实现一种基于模型解释的规则式应用流量分类方法及系统，使得其在应用流量分类过程中，可以在保证分类准确率与使用深度学习模型进行分类的准确率相近的同时，达到与使用规则匹配的分类方法相近的计算开销及效率，从而实现高准确率、高效率的应用流量分类。

为实现上述目的，本发明采用的技术方案如下：

所述构建阶段包括如下步骤：

1)以已知所属类型的应用流量为输入，将每条应用流量转换为指定格式的应用流量字节序列；

2)以深度学习模型与步骤1)得到的应用流量字节序列作为输入，使用应用流量字节序列作为训练数据集，采用有监督学习的方式，对深度学习模型的进行训练；

3)以步骤1)得到的应用流量字节序列和步骤2)得到的已训练的深度学习模型为输入，对模型进行解释，得到应用流量字节序列中各个特征对深度学习模型分类的贡献度向量；

4)基于3)得到的分类贡献度向量集合，进行可选的模型有效性分析，并生成分类规则集；

所述分类阶段包括如下步骤：

5)以待测应用流量为输入，将待测应用流量处理为具有与步骤1)相同格式的应用流量字节序列；

6)根据构建阶段中步骤4)得到的分类规则集，对待分类的应用流量进行规则匹配，并输出判别结果。

一种基于模型解释的规则式应用流量分类系统，包括用于构建阶段的应用流量处理模块、深度学习模型训练模块、流量特征分类贡献度分析模块、模型有效性分析模块、规则构建模块，以及用于分类阶段的应用流量接入与处理模块、规则匹配模块。其中：

应用流量处理模块负责将输入的应用流量以流为单位处理成字节序列，并转换为指定格式的应用流量字节序列，作为训练样本；

深度学习模型训练模块负责使用训练样本对给定的深度学习模型进行模型训练，直至模型分类结果满足训练终止条件；

流量特征分类贡献度分析模块负责使用训练样本对训练后的深度学习模型进行分析，得到流量特征的分类贡献度；

模型有效性分析模块为可选模块，负责基于流量特征的分类贡献度判断深度学习模型对训练样本关键特征的选择的有效性；

规则构建模块负责基于流量特征的分类贡献度，对特征分类贡献度向量进行筛选与处理，得到分类规则集；

应用流量接入与处理模块负责接入分类阶段的待分类应用流量，并将其处理为与构建阶段的应用流量处理模块相同的指定格式，得到待分类应用流量字节序列；

规则匹配模块基于构建阶段得到的分类规则集对待分类应用流量字节序列进行策略规则匹配，确定待分类流量所属的规则，输出判别结果，并将不属于已知类别的新类别应用流量留存，作为后续系统更新的样本使用。

本发明的关键技术点在于：

1.本发明设计了一种面向网络协议的、模型无关的深度学习模型解释方法，本方法根据应用流量的网络层和传输层首部高度格式化、而传输层载荷遵循的协议更为多样的特点，在进行基于样本的模型解释中，将格式化部分与传输层载荷分别处理，实现更适于网络协议问题的模型解释方法。同时，无需分析深度模型内部设计，即可将深度学习模型从训练样本中学习得到的分类能力，以样本中各个特征对分类结果的贡献度的方式表征，适用于所有应用应用流量分类相关的深度学习模型。

2.本发明基于面向网络协议的深度学习模型解释，提出了由模型解释结果生成应用流量分类规则集的方法。本方法以模型解释结果为基础，对模型解释的每条结果进行基于特征贡献度的关键特征筛选，扩大规则覆盖范围；对特征贡献度进行数值平滑，避免个别规则出现极端值，确保不同分类规则之间具有可比较性。由本方法生成的应用流量分类规则由关键特征和特征对应的贡献度组成，具有通用性高、不同类别规则彼此兼容的特点。

3.本发明基于应用流量分类规则集，设计了带权规则匹配的应用流量分类方法。本方法以待测应用流量样本与分类规则在规则特征上取值是否一致为依据，计算待测样本在该规则下的特征贡献度之和作为匹配权重，从而判定待测样本所属分类。应用流量分类规则集可以在无需部署深度学习模型的情况下，实现高效而精准的应用流量分类。

利用本专利的方法可以实现在无需部署深度学习分类模型的情况下，实现对混杂应用流量的精准分类。与已公开的相关技术相比，具有如下优点：

1.本专利设计了一种面向网络协议的、模型无关的模型解释方法。无需分析深度学习模型的内部结构，将深度学习模型通过模型解释、特征筛选等过程转换为由关键特征及其分类贡献度组成的应用流量分类规则集，从而将深度学习模型从训练数据中学习到的知识转换为量化的特征贡献度，以便于对模型训练结果的有效性进行分析。本专利同时设计了配套的规则匹配策略，充分利用应用流量分类规则集，在无需部署深度学习模型的情况下，达到与深度学习模型近似的分类准确率，实现高效、精准应用流量分类。

2.本专利在分类阶段仅依赖应用流的原始特征信息，无需其他先验知识，对于面向连接、面向无连接、明文、加密、文本、二进制等各种形式的应用协议，都可以选择具备相应处理能力的深度学习模型生成分类规则，具有较强的普适性。

附图说明

图1是基于模型解释的规则式应用流量分类方法的构建阶段流程图。

图2是基于模型解释的规则式应用流量分类方法构建阶段的特征分类贡献度生成流程图。

图3是基于模型解释的规则式应用流量分类方法的分类阶段流程图。

图4是基于模型解释的规则式应用流量分类系统架构图。

图5是参数n＝100时，26种应用协议在验证集上的实验结果图。

图6是参数n＝150时，26种应用协议在验证集上的实验结果图。

图7是参数n＝200时，26种应用协议在验证集上的实验结果图。

图8是参数n＝250时，26种应用协议在验证集上的实验结果图。

图9是参数n＝500时，26种应用协议在验证集上的实验结果图。

图10是参数n＝750时，26种应用协议在验证集上的实验结果图。

图11是参数n＝1000时，26种应用协议在验证集上的实验结果图。

具体实施方式

本方法的工作流程，可分为构建阶段和分类阶段。在构建阶段，将根据已知类别的应用流量，训练深度学习模型，并将模型得到的有效分类知识提炼为分类规则，从而实现高准确率、高效率的分类。分类阶段，基于提炼得到的分类规则集，对网络环境中获取到的真实应用流量进行特征匹配并判断应用流量所属的应用类型。

构建阶段：本方法的关键技术部分在于应用流量分类规则集的构建，应用流量分类规则集的构建流程如图1所示。应用流量分类模型构建过程的输入是已知类型的应用流量的集合以及预定义的深度学习模型结构，应用流量经过预处理后成为符合深度学习模型输入要求的数据格式。应用流量分类模型构建过程的输出为由训练后的深度学习模型中提炼得到的应用流量分类规则集。

本方法基于预训练的深度学习模型进行特征分类贡献度生成的过程如图2所示，其具体实施步骤如下：

1.应用流量处理模块，给定已知应用协议类型的应用流量样本集合，将集合中每条应用流Flow_i预处理为满足深度学习模型输入要求的应用流量字节序列F_i，得到应用流量字节序列集合F＝{F₁,F₂,…,F_i,…,F_m}。特别地，本方法需要定义一个特殊元素NaN，以表示应用流量字节序列F_i中某个位置置为空值，需要在数据处理时预留出该特殊元素的数据表征空间。具体来说，对于每条应用流Flow_i，其应用流量字节序列表示为F_i＝{f_i1,f_i2,…,f_in}，任意应用流量字节序列F_i的字节序列长度都统一为n，序列中字节顺序有意义，字节在序列中的次序称为位置，字节及其在序列中的位置称为特征。以应用流Flow_i的网络层报文为分析对象，设该报文实际的总长度为n_i。若n_i≥n，则取应用流Flow_i的前n个字节，后续字节截断丢弃，每个字节构成应用流量字节序列F_i中的一个特征；若应用流Flow_i的网络层字节长度n_i<n，则构成的应用流量字节序列F_i中，第n_i个特征之后的n-n_i个特征置为空值，即

2.模型初始化模块，本方法不关注该模型内部模型结构、不限定所使用的深度学习模型具体设计，仅需保证深度学习模型的输入数据为符合应用流量处理模块的应用流量字节序列，设置模型训练所使用的超参数，并初始化深度学习模型中的可训练参数，为神经网络构建阶段做准备。

3.神经网络训练模块，使用已知类型的应用流量字节序列集合，对初始化后的深度学习模型进行迭代训练，定期判断深度学习模型是否满足模型训练终止条件。如未满足终止条件要求，则对深度学习模型参数进行调整(如反向传播等)，或调整深度学习模型的超参数设置，并继续进行一轮训练；重复上述过程直至模型训练效果满足终止条件要求。终止条件要求可以为达到指定的分类准确率、达到指定的分类召回率等。

4.模型解释模块，本方法分析深度学习模型在进行类别判断时，应用流量字节序列中各特征对深度学习模型进行类别判断的贡献度。贡献度的具体计算方法如下：

(1)首先，以已知类别的应用流量字节序列集合F为输入，对于F中任一序列F_i＝{f_i1,f_i2,…,f_in}(F_i长度为n)，生成p个伪样本

F_i'中任一伪样本

中选取q_j个特征置为空值NaN，其余特征取值与F_i相同，q_j∈[0,n]。伪样本

中置为空值的特征数量q_j的确定方式，包括但不限于随机选取、基于概率分布的选取等方式；

中置为空值NaN的特定特征的确定方式，包括但不限于随机选取、基于概率分布生成的等方法。在伪样本

中置为空值的特征，采用应用流量处理模块定义的空值元素NaN表示。

(2)其次，使用算法计算生成的伪样本

与真实样本F_i之间的相似性，评估真伪样本间相似性的算法包括但不限于余弦算法、欧氏距离、Jaccard距离等各类距离算法。

为清楚说明本方法所使用的距离计算方法，需要定义特征出现向量，表示伪样本与真实样本间特征的对应关系。以序列F＝{f₁,f₂,..,f_n}为基准，某序列F'＝{f'₁,f'₂,…,f_n'}中任意特征取值范围为f'_i∈{NaN,f_i}(i∈[1,n])，即f_i'的取值可能性仅有两种，要么为空值NaN、要么为基准序列F中与f_i'处于同一序列位置的特征值f_i。则F'以序列F＝{f₁,f₂,..,f_n}为基准的特征出现向量A'＝{a₁',a₂',…,a_n'}中任意元素a_i'(i∈[1,n])取值范围如下：

假设以真实样本F_i＝{f_i1,f_i2,…,f_in}为基准，则F_i自身的特征出现向量为

伪样本

的特征出现向量为

样本F_i中IP层首部和运输层首部对应的特征总长度为n'，n'≤n。由于F_i中各个特征均未置空，因此

是由n个1组成的向量，任意

伪样本

中，存在q_j个特征置为NaN，因此

中，存在q_j个元素为0，其余n-q_j个元素为1。

以应用流量的网络层首部和传输层首部为首部区(特征总长度为n')、以传输层载荷即高层协议数据为载荷区(特征总长度为n-n')，将应用流量字节序列真实样本F_i的特征出现向量

划分为首部特征出现向量

和载荷特征出现向量

将应用流量字节序列伪样本

的特征出现向量

划分为首部特征出现向量

和载荷特征出现向量

以余弦距离函数为例，计算真实样本F_i与伪样本

的距离

如下：

(3)同时，将应用流量字节序列F_i与对应的伪样本集合

输入已在神经网络训练模块完成训练、可应用模型解释方法的深度学习模型，得到伪样本分类向量集合

设待解释的深度学习模型可分类的应用流量类别数为k种、应用流量字节序列F_i的真实类别为k_i，该深度学习模型对应用流量字节序列F_i进行分类得到的分类向量为C_i＝{c₁,c₂,…,c_k},F_i在真实类别上取得的分类值为

该深度学习模型对F_i的伪样本

进行分类得到的分类向量为

伪样本

在F_i的真实类别上取得的分类值为

F_i的伪样本集合F'_i所得的对应分类值向量为

其中任意

(4)以应用流量伪样本集合

与真实应用流量字节序列F_i的差异度集合

伪样本集合F'_i对应的特征出现向量集合为

伪样本集合F'_i的分类向量集合

作为输入，使用拟合算法计算真实应用流量字节序列F_i中各个特征对深度学习模型输出的样本分类向量的贡献程度，得到应用流量字节序列对应的特征分类贡献度向量。拟合算法的种类包括但不限于LASSO回归、算法岭回归、回归树、无偏差的单层感知机等其他回归类算法或其他自定义的能解决回归类问题的算法。以LASSO回归算法为例，对于应用流量字节序列F_i，设回归算法的拟合参数向量为W_i＝{w_i1,w_i2,…,w_in}，以D_i为参数对W_i进行初始化，求解方程A'_i×W_i＝C'_i，求解所得W_i即为应用流量字节序列F_i的特征贡献度向量。

5.模型有效性校验模块，本阶段为可选流程，结合各个特征在网络协议格式中的定义，判断深度学习模型在分类时贡献度较高的应用流量字节序列特征，是否可以与已知的通用网络协议格式对应。以特征分类贡献度向量为输入，选取部分贡献度较高的特征，还原其在对应的应用流量协议格式语义。如果应用流量字节序列所生成的特征贡献度向量中，贡献度较高的特征不能与已知的通用网络协议格式对应，则认为该样本的模型解释结果无效。若神经网络模型的模型解释集合没有达到设定有效性条件，则判定该深度学习模型对该应用流量样本没有生成有效的模型解释，不予生成对应规则；若神经网络模型的模型解释满足设定的有效性条件，则判定该样本的模型解释得到的特征分类贡献度向量集合可以用于应用流量分类规则生成。最终，将所有有效的应用流量样本特征分类贡献度向量集合输入到特征分类贡献度分析模块。

6.特征分类贡献度分析模块，对于应用流量样本F_i＝{f_i1,f_i2,…,f_in}，以模型解释模块得到的特征分类贡献度向量W_i＝{w_i1,w_i2,…,w_in}为输入，根据网络协议格式定义与分类系统实际需要，对特征分类贡献度向量及向量中特征进行筛选，最后由保留的特征分类贡献度向量形成提炼的流量分类规则集。对特征分类贡献度向量筛选方法包括但不限于：(1)设定贡献度取值阈值或取值范围，仅保留贡献度满足取值范围的特征及其贡献度；(2)设定规则特征数量上限，选取特征贡献度绝对值靠前的特征及其贡献度等。不符合保留规则的特征f_ij取值置为NaN、对应贡献度w_ij置为0。

对于经过筛选的特征分类贡献度向量中保留下来的特征(即所有非空值NaN的特征)，对其特征贡献度进行数值平滑处理，避免贡献度中的部分极端值对分类结果造成干扰。对分类贡献度进行处理的方式包括但不限于标准化、归一化及其他自定义算法。本方法采用的数值平滑处理算法如下，对于应用流量字节序列F_i＝{f_i1,f_i2,…,f_in}的特征贡献度向量W_i＝{w_i1,w_i2,…,w_in}，设其平滑后的特征贡献度向量为W'_i＝{w'_i1,w'_i2,…,w'_in}，则有：

任意应用流量字节序列F_i＝{f_i1,f_i2,…,f_in}及其平滑后的特征分类贡献度向量W'_i＝{w'_i1,w'_i2,…,w'_in}中，所有序列特征取值与其对应特征贡献度组成数值对R_i＝{(f_i1,w'_i1),(f_i2,w'_i2),…,(f_in,w'_in)}，即为提炼的应用流量分类规则，全部分类规则构成提炼的应用流量分类规则集。

分类阶段：以构建阶段得到的提炼的应用流量分类规则集为基础，判断输入的待分类应用流量是否为分类规则集中已知类型的应用流量，并给出分类结果。分类阶段的工作流程如图3所示。

1.应用流量处理模块，对于待分类的应用流量，将其转换为与构建阶段预设的深度学习模型要求的输入一致的序列，记为

具体处理过程与构建阶段应用流量处理模块一致，不在此赘述。

2.规则匹配模块，以构建阶段生成的应用流量分类规则集为输入，以特定的匹配策略基于规则集判定待测应用流量字节序列所属类别。具体的匹配策略可根据分类规则集表征形式、应用流量字节序列表征形式以及其他条件及需求设计。以本方法实验中采用的匹配策略为例，对匹配过程进行介绍，实际匹配策略不限于下文所述方式。

(1)首先，将待测的应用流量字节序列

与规则集R＝{R₁,R₂,…,R_l}中每条规则进行比对。设应用流量字节序列

与任意规则R_j＝{(f_j1,w'_j1),(f_j2,w'_j2),…,(f_jn,w'_jn)}(j∈[1,l])的生效位权重总值为w_ij，从序列

和规则R_j起始位置开始逐位比对特征取值，若应用流量字节序列

中第q位特征取值与规则R_j中第q位特征取值一致，则认为规则中该位为生效位。其中，应用流量字节序列

和规则R_j中置空为NaN的特征位不关注，不计入生效位。当待测应用流量字节序列

或规则R_j二者任一达到序列末尾时，终止匹配。应用流量字节序列

与规则集R中每条规则匹配，得到全体规则的生效位的数量C_i、生效位在规则全长中所占比例S_i、生效位的贡献度之和T_i。

(2)待测应用流量

与规则集中每条规则R_j均进行上述匹配，得到所有规则在待测应用流量字节序列

下的生效位数量向量C_i、生效位在所属规则内所占比例向量S_i、生效位总贡献度向量T_i，基于C_i、S_i、T_i进行待测应用流量

所匹配的规则的选取。选取命中规则的具体操作如算法2所示：首先，选取生效位在规则中比例最高的规则，形成第一级候选规则集I；其次，在第一级候选规则集I中，选取生效位数量最大的规则，形成第二级候选规则集I'；最后，选取第二级候选规则集中生效位总贡献度最高的规则，形成命中规则集I”。命中规则集I”中，命中规则对应的应用流量类别，即为待测应用流量

的分类结果；若命中规则集I”为空集，则认为待测应用流量字节序列

不属于已知类别，判定为未知类型的应用流量。

(3)根据上述规则匹配的结果，将待分类的应用流量所属类别提供给后续外部应用使用。对于未知类别的新应用流量、以及外部应用反馈为分类错误的应用流量，将通过人工校验等方式，确定其所属的真实类别，并将这些应用流量留存，作为后续分类系统更新的增量样本。

当新增未知类别的应用流量数量达到分析系统更新要求，或需要定期对系统进行整体更新时，可将增量样本按需更新进已知类型应用流量样本集合，重复离线构建阶段流程，并将新构建的规则集更新至分类阶段。系统整体更新的过程中，也可以对用于生成规则的深度学习模型进行局部调整或整体更换，以保证更新后流量分类规则集能够满足分类阶段的使用需求。

结合上述基于规则式模型解释的应用流量分类方法，本专利同时公开了一种基于模型解释的规则式应用流量分类系统。本系统主要由构建阶段和分类阶段两个阶段构成，系统图架构如图4所示。

1.构建阶段：首先，将已知应用流量输入(1)应用流量处理模块，将其转换为与深度学习模型要求的输入数据相匹配的数据组织形式，形成已知类别的训练样本。随后，(2)深度学习模型训练模块使用已知类别的训练样本，完成给定的深度学习模型的训练，使之达到目标分类要求。以已知类别的训练样本和完成训练的深度学习模型为输入，(3)特征分类贡献度分析模块基于各个训练样本，对深度学习模型进行分类判断时各个特征对该分类结果的贡献度加以量化，得到各个训练样本中，各位特征对应的分类贡献度。若有必要，可选择在(4)模型有效性分析模块根据训练样本中各个特征的分类贡献度，判断深度学习模型是否自动学习到了符合应用流量行为或网络协议语义的特征信息。最后，在(5)规则构建模块，根据各个训练样本中不同特征的分类贡献度，进行特征筛选，生成提炼的应用流量分类规则集，提供给后续分类阶段使用。

2.分类阶段：首先，(6)应用流量接入与处理模块与待分类应用流量对接，将其转换为与(1)应用流量处理模块中相同的数据组织形式，形成待分类应用流量样本。随后，(7)规则匹配模块根据离线构建阶段生成的应用流量分类规则集，基于一定策略，对待分类样本进行规则匹配，判定待分类的应用流量所属的类别，并将分类结果提供给后续外部应用使用。最后，可以根据系统使用情况，对系统进行定期或不定期的更新。若出现新应用类别的应用流量，或有分类错误的应用流量，则可以将其更新到应用流量训练样本中，重新训练深度学习模型并生成应用流量分类规则集。系统更新时，也可以对采用的深度学习模型进行调整或更换，从而保证生成的应用流量分类规则集能够满足分类性能需求。

表格1：实验验证中所使用的应用协议名称及各个类别的网络流个数，其中k代表10³。

在验证实验中，本专利对Apple TV、Blink Camera、Blink Security Hub、EchoDot、Echo Plus、Echo Spot、Fire TV、Google Home Mini、Insteon Hub、Osram LightifyHub、Migichome Strip、Nest Thermostat、Ring Doorbell共计26种类型的应用流量开展实例验证。实验中所使用的具体应用流量信息如表1所示。为保证样本数量均衡，对于每个流量类别，随机地选择了3,000个样本，流个数不足3,000的应用协议类别则保留全部样本。最终得到共计40,912

应用类型	流个数	应用类型	流个数
				Apple TV	0.91k	Roku TV	1.63k
Blink Camera	0.79k	Samsung TV	7.92k
				Blink Security Hub	48	Sengled Hub	0.09k
Echo Dot	0.92k	Smartthings Hub	6.50k
				Echo Plus	2.7k	Anova Sousvide	0.09k
Echo Spot	4.6k	Philips Hub	12.9k
				Fire TV	1.16k	WeMo Plug	8.18k
Google Home Mini	0.78k	TP-Link Bulb	4.46k
				Insteon Hub	0.93k	TP-Link Plug	1.90k
Osram Lightify Hub	0.35k	Wansview Camera	6.47k
				Migichome Strip	0.36k	Xiaomi Cleaner	0.04k
Nest Thermostat	5.35k	Xiaomi Hub	0.17k
				Ring Doorbell	1.06k	Yi Camera	5.26k

个实验样本。此外，在实验数据集上开展了5折交叉验证，其中训练集，验证集和测试集的比例为3：1：1，训练集包含24,546个实验样本，验证集包含8,184个实验样本，测试集包含8,182个实验样本。

验证实验展示了在两种超参数下深度学习模型解释所产生的规则集的分类效果，超参数包括：(1)进行模型解释时，为每条真样本生成的伪样本数量(以p表示)；(2)生成规则集时，保留的特征数量(以k表示，按分类贡献度绝对值从大到小排序)。在不同超参数设置的情况下分别进行实验，本专利所解释的深度学习模型为现有工作，模型为BSNN(ByteSegment Neural Network)；最终生成的规则集包含24,546条应用分类规则。

首先，定义实验分析指标如下：

(1)类别t的真阳值，由TP_t表示：该值是一组样本的个数，其中每个样本由应用流量分类器报告为属于类别t，并且确实是属于相应的类别t。

(2)类别t的真阳率，TPR_t，其具体的定义如下：

(3)多类别分类准确性指标ACC，定义如下：

其中T代表总的分类类别数。

基于模型解释的规则式应用流量分类方法与系统在26种不同类型设备产生的数据下的实验结果如图5至图11所示。

在验证实验的构建阶段，本发明使用验证集来定量评估不同深度学习模型的分类性能，并基于在验证集上取得最优ACC的深度学习模型，使用训练集的数据生成分类规则集。实验的参数设置上，模型解释时每条真实样本生成的伪样本生成数量n取值范围为100、150、200、250、500、750、1000；生成规则集时保留的特征数量k的取值范围为8、16、20、32、48、64、96、128，即保留按特征贡献度绝对值从大到小排序的前k个特征。根据参数p和k的取值范围，共计得到56组实验结果；根据匹配到多种应用类别(含该样本真实类别t)的样本是否计入真阳值TP_t，每组实验结果包含两类数据：(1)多匹配样本计入TP_t的ACC，(2)多匹配样本不计入TP_t的ACC。多匹配样本计入TP_t时，ACC的取值范围为78.22％至95.56％，最高的ACC值在p＝500、k＝48的参数设置下取得。多匹配样本不计入TP_t时，ACC的取值范围为63.42％至95.46％，最高的ACC值在p＝500、k＝48的参数设置下取得。

在验证实验中，基础深度学习模型BSNN经过训练后，在验证集上得到的平均ACC为93.40％、在测试集上得到的平均ACC为92.82％。实验结果证明，使用本方法得到的类均ACC值与被解释的原始模型相近，在特定的参数设置下可以取得更高的分类准确率。

Claims

1.一种基于模型解释的规则式应用流量分类方法，其特征在于，包括构建阶段和分类阶段；

所述构建阶段包括如下步骤：

1)以已知所属类型的应用流量为输入，将每条应用流量以字节为单位转换为指定格式的应用流量字节序列，字节在序列中的次序称为其位置，字节及其在序列中的位置统称为特征；

2)以深度学习模型与步骤1)得到的应用流量字节序列作为输入，使用应用流量字节序列作为训练数据集，采用有监督学习的方式，对深度学习模型进行训练；

3)以步骤1)得到的应用流量字节序列和步骤2)得到的训练调优后的深度学习模型为输入，对模型进行解释，得到应用流量字节序列中各个特征对深度学习模型分类的贡献度向量；

所述分类阶段包括如下步骤：

2.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤3)进行深度学习模型解释的具体操作方法是：

3-1)对于任意已知类别的应用流量字节序列，将其作为真实样本，生成多个伪样本，并生成代表真实样本的特征在伪样本中出现情况的特征出现向量；

3-2)以步骤3-1)得到的特征出现向量为输入，为每个伪样本计算该伪样本与真实应用流量字节序列的相似性系数，得到同一类真实应用流量字节序列下所有伪样本的相似性系数；

3-3)以步骤3-1)得到的伪样本为输入，使用步骤2)得到的已训练的深度学习模型对真实应用流量字节序列及其伪样本进行分类，得到真实应用流量字节序列和伪样本在真实应用流量字节序列的实际类别上的深度学习模型分类值；

3-4)以步骤3-1)得到的伪样本特征出现向量、步骤3-2)得到的伪样本相似性系数、步骤3-3)得到的深度学习模型分类值为输入，构建由伪样本特征出现向量到深度学习模型分类值的映射关系，使用回归算法拟合该映射关系、并使用伪样本相似性系数初始化回归系数，得到该应用流量字节序列的特征贡献度向量；

3-5)对每条已知类别的应用流量字节序列，重复步骤3-1)至3-4)，得到全体已知类别的应用流量字节序列的特征贡献度向量集合。

3.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤4)生成分类规则集的方法是：

4-1)本步骤为可选步骤，以步骤3)得到特征贡献度向量集合为输入，对具有较高贡献度的特征进行分析，以判断深度学习模型学到的高贡献度特征是否能够与已知的通用网络协议格式相对应；

4-2)以步骤3)得到的特征贡献度向量集合或步骤4-1)筛选后的特征贡献度向量集合为输入，设定条件对每条特征贡献度向量进行特征筛选，仅保留符合筛选条件的特征及其贡献度，不符合筛选条件的特征置为空值、贡献度置为0(即该条规则中该特征无效，不予关注)，得到筛选的特征贡献度向量集合；

4-3)以步骤4-2)得到的筛选的特征贡献度向量集合为输入，为每条筛选的特征贡献度向量进行贡献度数值平滑处理，得到应用流量的分类规则集；

步骤4-3)对于筛选的特征贡献度向量进行数值平滑处理的方法是：

4-3-1)以步骤4-2)得到的筛选后的特征贡献度向量为输入，对于任一特征贡献度向量，将特征贡献度向量中所有特征贡献度相加，得到特征贡献度总和；

4-3-2)以步骤4-2)得到的筛选后的特征贡献度向量和4-3-1)得到的特征贡献度总和为输入，将特征贡献度向量中每个特征贡献度与特征贡献度总和相除，得到平滑处理后的特征贡献度向量。

4.如权利要求1所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤6)对待测应用流量字节序列进行规则匹配的方法是：

6-1)以步骤4)得到的应用流量分类规则集和步骤5)得到的待测应用流量字节序列为输入，将待测应用流量字节序列与应用流量分类规则集中的每条分类规则进行逐位置匹配，待测应用流量字节序列与分类规则在同一位置特征值取值一致时，认为该位置为生效位；计算待测应用流量字节序列与该规则能够匹配的生效位数量、生效位在该规则的有效特征中所占比例、该规则中生效位的贡献度总和；

6-2)以步骤6-1)得到的全体规则的生效位数量、生效位所占比例、生效位贡献度总和为输入，根据给定策略判定待测应用流量字节序列所属应用类别，输出分类结果。

步骤6-2)进行待测应用流量字节序列所属类别的策略判定的方法是：

6-2-1)以步骤6-1)得到的待测应用流量字节序列与分类规则集中所有规则的生效特征总贡献度集合、生效位总数集合、生效位所占比例集合作为输入，首先比对生效特征总贡献度集合，选取生效特征总贡献度最高的规则，构成第一级候选规则集I；

6-2-2)以步骤6-2-1)中得到的第一级候选规则集I为输入，比较第一级候选规则集I中所有规则与待测应用流量字节序列匹配得到的生效位所占比例，选取生效位所占比例最高的规则，构成第二级候选规则集I'；

6-2-3)以步骤6-2-2)中得到的第二级候选规则集I'为输入，比较第二级候选规则集中所有规则与待测应用流量字节序列匹配得到的生效位总数，选取生效位总数最高的规则，构成命中规则集I”；

6-2-4)以步骤6-2-3)得到的命中规则集I”为输入，将命中规则集I”中的规则转换为对应的应用类型，得到待测应用流量字节序列的分类结果；若命中规则集I”为空集，则判定待测应用流量字节序列为未知类型的应用流量。

5.如权利要求2所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤3-1)基于真实应用流量字节序列生成伪样本的方法是：

3-1-1)以步骤1)得到的已知类型的应用流量字节序列为输入，对于任一真实应用流量字节序列，随机选取部分特征置为空值，得到基于真实样本的伪样本；

3-1-2)以步骤3-1-1)得到的伪样本为输入，创建该伪样本的特征出现向量，特征出现向量为与该伪样本具有同样尺寸的向量，向量中的元素取值范围为0或1，表示真实样本中特征在伪样本中的出现情况；将伪样本与生成该伪样本的真实应用流量字节序列的特征进行逐位置对比，以确定特征出现向量对应位置元素的取值：(1)若伪样本与真实应用流量字节序列在某特征上取值相同且非空值，则特征出现向量中对应位置置为0；(2)若伪样本和真实应用流量字节序列在某特征上取值不同，则特征出现向量中对应位置置为1；完成伪样本与真实应用流量字节序列的逐位置对比后，即得到该伪样本对应的特征出现向量；

3-1-3)重复步骤3-1-1)至步骤3-1-2)若干次，得到由同一真实应用流量字节序列生成的伪样本集合，及伪样本对应的特征出现向量的集合。

6.如权利要求2所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤3-2)计算伪样本与真实应用流量字节序列的相似度系数的方法是：

3-2-1)构建真实应用流量字节序列的特征出现向量，该向量为与真实应用流量字节序列具有同样尺寸的向量，其向量所有元素取值均为1，得到真实样本的特征出现向量；

3-2-2)以步骤3-1)生成的伪样本特征出现向量和步骤3-2-1)生成的真实应用流量字节序列的特征出现向量为输入，根据网络层、应用层的网络协议格式，将特征出现向量以传输层首部与载荷为分界，将特征出现向量拆分为两部分：(1)网络层首部至传输层首部对应的伪样本特征出现向量；(2)传输层载荷部分对应的伪样本特征出现向量；

3-2-3)以步骤3-2-1)得到的真实应用流量字节序列的特征出现向量为输入，将真实应用流量字节序列的特征出现向量以与3-2-2)相同的方式，拆分为两部分：(1)网络层首部至传输层首部对应的真实样本特征出现向量；(2)传输层载荷部分对应的真实样本特征出现向量；

3-2-4)以步骤3-2-2)得到的网络层首部至传输层首部对应的伪样本特征出现向量和3-2-3)得到的网络层首部至传输层首部对应的真实样本特征出现向量为输入，计算二者的相似度，得到网络层首部至传输层首部的相似度系数；

3-2-5)以步骤3-2-2)得到的传输层载荷部分对应的伪样本特征出现向量和3-2-3)得到的传输层载荷部分对应的真实样本特征出现向量为输入，计算二者的相似度，得到传输层载荷部分的相似度系数；

3-2-6)以步骤3-2-4)得到的网络层首部至传输层首部的相似度系数和3-2-5)得到的传输层载荷部分的相似度系数为输入，将二者相加，得到该伪样本与真实应用流序列的相似性系数。

7.如权利要求2所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤3-4)构建方程组并使用回归算法拟合特征出现向量到深度学习模型分类值的映射的方法是：

3-4-1)以步骤3-1)生成的伪样本特征出现向量、步骤3-2)得到的伪样本相似性系数和步骤3-3)得到的深度学习模型分类值为输入，构建由伪样本特征出现向量集合到深度学习模型分类值集合的映射关系，将映射视为回归问题，构建多项式回归方程组；

3-4-2)以步骤3-2)得到的伪样本相似性系数和步骤3-4-1)所得待求解回归方程为输入，使用伪样本相似性系数初始化回归方程系数，使用回归方法拟合方程组，得到拟合系数，即为真实应用流量字节序列中，各个特征在深度学习模型分类过程中对应的分类贡献度。

8.如权利要求3所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤4-2)对于特征贡献度向量进行特征筛选的方法是：

4-2-1)以步骤3)生成的特征贡献度向量或步骤4-1)分析后的特征贡献度向量为输入，设特征筛选将保留k个特征，若(1)特征贡献度向量中总特征数不大于k，则保留全部特征及其贡献度；(2)特征贡献度向量中总特征数大于k，则将特征贡献度向量中全体特征按贡献度绝对值从大到小排序，排序大于k的特征将被置为空值、贡献度置为0，代表不关注；得到筛选后的特征贡献度向量。

9.如权利要求3所述的一种基于模型解释的规则式应用流量分类方法，其特征在于，步骤6-1)对于待测应用流量字节序列和分类规则进行匹配的方法是：

6-1-1)以步骤4)得到的分类规则集和步骤5)得到的待测应用流量字节序列为输入，对于任一分类规则，将分类规则与待测应用流量字节序列中的非空特征值逐位置匹配：(1)若规则在序列某一位置的特征值与待测流量序列在同一位置特征值取值相同，则认为该位特征生效；(2)若规则在序列某一位置的特征值与待测流量序列在同一位置特征值取值不同，则认为该位特征未生效；(3)若规则在序列某一位置的特征值与待测流量序列在同一位置特征值取值中，有至少一个为空值，则认为该位特征未生效；通过上述匹配方式，得到该分类规则与待测应用流量字节序列匹配后的全部生效特征位置；

6-1-2)以步骤6-1-1)得到的分类规则与待测应用流量字节序列匹配的生效特征位为输入，将生效特征位的特征贡献度相加，得到规则匹配的生效特征总贡献度；统计生效特征位个数，得到生效位总数；统计分类规则中非空特征位的总数，将生效位总数除以对应规则中非空特征位的总数，得到生效位在规则中所占比例；

6-1-3)对于待测应用流量字节序列和分类规则集中每条规则，重复步骤6-1-1)至步骤6-1-2)的操作，得到待测应用流量字节序列与分类规则集中所有规则的生效特征总贡献度集合、生效位总数集合、生效位所占比例集合。

10.一种基于模型解释的规则式应用流量分类系统，其特征在于，包括用于构建阶段的应用流量处理模块、深度学习模型训练模块、流量特征分类贡献度分析模块、模型有效性分析模块、规则构建模块，以及用于分类阶段的应用流量接入与处理模块、规则匹配模块；其中，