CN116361345B

CN116361345B - 一种数据流的特征筛选、分类方法、装置、设备及介质

Info

Publication number: CN116361345B
Application number: CN202310645569.2A
Authority: CN
Inventors: 尚素绢
Original assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Current assignee: Xinhuasan Artificial Intelligence Technology Co ltd
Priority date: 2023-06-01
Filing date: 2023-06-01
Publication date: 2023-09-22
Anticipated expiration: 2043-06-01
Also published as: CN116361345A

Abstract

本申请实施例提供了一种数据流的特征筛选、分类方法、装置、设备及介质，涉及通信技术领域，上述方法包括：提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量；根据每个候选特征对应的目标特征向量，确定多个候选特征之间的相似度；根据多个候选特征之间的相似度，从多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，多个目标特征对应的信息积累量大于等于预设信息量；从待检测数据流中提取多个目标特征的特征值；将所提取的多个特征值输入分类检测模型，得到待检测数据流的类型。应用本申请实施例提供的技术方案可以提高数据流分类效率。

Description

一种数据流的特征筛选、分类方法、装置、设备及介质

技术领域

本申请涉及通信技术领域，特别是涉及一种数据流的特征筛选、分类方法、装置、设备及介质。

背景技术

人工智能技术的飞速发展，机器学习技术广泛地应用在各个领域，其中存在着海量的高维特征，利用高维特征输入后续的分类检测模型对数据流进行分类，该分类方法效率较低，因此，如何从高维特征中找到有价值、潜在的有用的特征，输入后续的分类检测模型，以对数据流进行分类，是数据挖掘及机器学习领域的研究热点。

发明内容

本申请实施例的目的在于提供一种数据流的特征筛选、分类方法、装置、设备及介质，以提高数据流分类效率。具体技术方案如下：

第一方面，本申请实施例提供了一种数据流的特征筛选方法，所述方法包括：

提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量；

根据每个候选特征对应的目标特征向量，确定所述多个候选特征之间的相似度；

根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，所述多个目标特征对应的信息积累量大于等于预设信息量。

在一些实施例中，所述根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征的步骤，包括：

根据候选特征之间的相似度、预设随机游走系数、每个候选特征对应的个性化参数和每个候选特征的第一重要性值，进行节点排序，得到每个候选特征在流分类中的第二重要性值；

选择第二重要性值最大的候选特征作为目标特征，并累计当前所有目标特征的信息量，得到信息积累量；

若所述信息积累量小于预设信息量，则从所述多个候选特征中去除所述目标特征，将每个剩余候选特征的第二重要性值作为第一重要性值，重新执行所述根据候选特征之间的相似度、预设随机游走系数、每个候选特征对应的个性化参数和每个候选特征的第一重要性值，进行节点排序，得到每个候选特征在流分类中的第二重要性值的步骤。

在一些实施例中，所述方法还包括：

去除每个剩余候选特征对应的个性化参数中所述目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数。

在一些实施例中，所述去除每个剩余候选特征对应的个性化参数中所述目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数的步骤，包括：

计算所述目标特征和每个剩余候选特征之间的相似度与所述目标特征对应的个性化参数之间的乘积，得到每个剩余候选特征对应的所述目标特征的影响值；

从每个剩余候选特征对应的个性化参数中，剔除每个剩余候选特征对应的所述目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数。

在一些实施例中，所述累计当前所有目标特征的信息量，得到信息积累量的步骤，包括：

根据最新选择的目标特征的第二重要性值，确定当前剩余信息量中最新选择的目标特征所占有的信息量；

在当前信息积累量上累计最新选择的目标特征所占有的信息量。

在一些实施例中，所述提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量的步骤，包括：

提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的初始特征向量；

对每个候选特征对应的初始特征向量进行归一化处理，得到每个候选特征的目标特征向量。

第二方面，本申请实施例提供了一种数据流分类方法，所述方法包括：

从待检测数据流中提取多个目标特征的特征值，所述多个目标特征根据上述第一方面所述的方法步骤得到；

将所提取的多个特征值输入分类检测模型，得到所述待检测数据流的类型。

第三方面，本申请实施例提供了一种数据流的特征筛选装置，所述装置包括：

第一提取模块，用于提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量；

确定模块，用于根据每个候选特征对应的目标特征向量，确定所述多个候选特征之间的相似度；

选择模块，用于根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，所述多个目标特征对应的信息积累量大于等于预设信息量。

在一些实施例中，所述选择模块包括：

得到单元，用于根据候选特征之间的相似度、预设随机游走系数、每个候选特征对应的个性化参数和每个候选特征的第一重要性值，进行节点排序，得到每个候选特征在流分类中的第二重要性值；

选择单元，用于选择第二重要性值最大的候选特征作为目标特征，并累计当前所有目标特征的信息量，得到信息积累量；

去除单元，用于若所述信息积累量小于预设信息量，则从所述多个候选特征中去除所述目标特征，将每个剩余候选特征的第二重要性值作为第一重要性值，重新触发得到单元。

在一些实施例中，所述去除单元，还用于：

在一些实施例中，所述去除单元，具体用于：

在一些实施例中，所述选择单元，具体用于：

在一些实施例中，所述第一提取模块，具体用于：

第四方面，本申请实施例提供了一种数据流分类装置，所述装置包括：

第二提取模块，用于从待检测数据流中提取多个目标特征的特征值，所述多个目标特征根据第三方面所述的装置得到；

得到模块，用于将所提取的多个特征值输入分类检测模型，得到所述待检测数据流的类型。

第五方面，本申请实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现第一方面或第二方面所述的方法步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面或第二方面所述的方法步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中第一方面所述的方法步骤，或执行上述实施例中第二方面所述的方法步骤。

本申请实施例有益效果：

本申请实施例提供的技术方案中，根据流分类中特征的重要性值对高维特征进行筛选，得到低维特征。特征的重要性值越大，特征的价值越高，因此，基于本申请实施例提供的技术方案能够筛选出最有价值的多个目标特征，组成低维特征，利用低维特征进行数据流分类，在满足流分类的精度要求的情况下，提高了数据流分类效率。此外，利用信息积累量作为特征筛选的截止条件，可以在满足流分类的精度的情况下，及时停止特征筛选，进一步提高了数据分类效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的数据流的特征筛选方法的第一种流程示意图；

图2为本申请实施例提供的数据流的特征筛选方法的第二种流程示意图；

图3为本申请实施例提供的无向图的第一种结构示意图；

图4为本申请实施例提供的数据流的特征筛选方法的第三种流程示意图；

图5为本申请实施例提供的无向图的第二种结构示意图；

图6为本申请实施例提供的数据流分类方法的一种流程示意图；

图7为本申请实施例提供的数据流的特征筛选、分类方法的一种流程示意图；

图8为本申请实施例提供的基于开源的特征数据的一种测试结果示意图；

图9为本申请实施例提供的信息积累量的一种示意图；

图10为本申请实施例提供的基于IT的DNS流特征数据的一种测试结果示意图；

图11为本申请实施例提供的数据流的特征筛选装置的一种结构示意图；

图12为本申请实施例提供的数据流分类装置的一种结构示意图；

图13为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本申请保护的范围。

人工智能技术的飞速发展，机器学习广泛应用于各个领域，如通信领域。而在通信领域中存在着海量数据，相应的存在着海量的高维特征。利用分类检测模型等机器学习技术，对数据流进行分类时，高维特征将使得数据流的分类检测效率降低。并且，为满足高维特征的提取，需要一个性能较好的设备来运行分类检测模型，这将大大提高分类检测成本。因此，如何从高维特征中找到有价值、潜在的有用的特征，输入后续的分类检测模型，以对数据流进行分类，是数据挖掘及机器学习领域的研究热点。

为了解决上述问题，本申请实施例提供了一种数据流的特征筛选、分类方法，该方法中，根据流分类中特征的重要性值对高维特征进行筛选，得到低维特征。特征的重要性值越大，特征的价值越高，因此，基于本申请实施例提供的技术方案能够筛选出最有价值的多个目标特征，组成低维特征，利用低维特征进行数据流分类，在满足流分类的精度要求的情况下，提高了数据流分类效率。此外，利用信息积累量作为特征筛选的截止条件，可以在满足流分类的精度的情况下，及时停止特征筛选，进一步提高了数据分类效率。

下面通过具体实施例，对本申请实施例提供的数据流的特征筛选、分类方法进行详细说明。

参见图1，为本申请实施例提供的数据流的特征筛选方法的第一种流程示意图，该方法应用于计算机、服务器等可以进行特征筛选的电子设备，下述实施例中均以特征筛选设备为例进行说明，不起限定作用。上述数据流的特征筛选方法包括如下步骤：

步骤S11，提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量。

本申请实施例中，样本数据流为预先获取的通信会话数据，例如DNS（Domain NameSystem，域名系统）会话数据等。样本数据流可以带标签，也可以不带标签，标签指示样本数据流的类别。候选特征为预先设定的需要提取特征值的特征，例如，候选特征可以是会话数量、网域数量、数据包大小等；多个候选特征构成高维特征。

在获取到多个样本数据流后，针对每个样本数据流，特征筛选设备提取该样本数据流中每个候选特征的特征值，即特征数据；针对每个候选特征，由来自不同样本数据流的该候选特征的特征值组成该候选特征对应的特征向量，即目标特征向量。

本申请实施例中，特征筛选设备在从多个样本数据流中提取到特征值后，可以直接由这些特征值构成每个候选特征对应的目标特征向量。

特征筛选设备在从多个样本数据流中提取到特征值后，也可以对这些特征值进行归一化、数据清理、离群点处理等预处理操作，以提高特征筛选的准确性和筛选速度。以归一化操作为例，上述步骤S11可以为：提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的初始特征向量；对每个候选特征对应的初始特征向量进行归一化处理，得到每个候选特征对应的目标特征向量。

本申请实施例中，特征筛选设备可以通过神经网络归一化、最大最小标准化等方式对初始特征向量进行归一化处理，以避免初始特征向量中的异常值和极端值的影响，减少噪声数据，进一步提高特征筛选的准确性和筛选速度。

步骤S12，根据每个候选特征对应的目标特征向量，确定多个候选特征之间的相似度。

特征筛选设备在获取每个候选特征对应的目标特征向量后，可以采用皮尔逊距离算法、欧几里得距离公式、谷本系数等，根据每个候选特征对应的目标特征向量，确定多个候选特征之间的相似度。本申请实施例中，两个候选特征之间的相似度表示这两个候选特征之间的相关性。

下面以通过皮尔逊距离确定两个候选特征之间的相似度为例进行说明，并不起限定作用。

首先计算两个候选特征对应的目标特征向量的协方差除以它们的标准差的乘积，得到两个候选特征之间的皮尔逊相关系数：

（1）

其中，x表示第一候选特征对应的第一目标特征向量，y表示第二候选特征对应的第二目标特征向量，ρ(x, y)表示第一候选特征和第二候选特征之间的皮尔逊相关系数，cov(x, y)表示第一目标特征向量和第二目标特征向量的协方差，σ(x)和σ(y)分别表示第一目标特征向量的标准差和第二目标特征向量的标准差，μ _x和μ _y分别表示第一目标特征向量的平均值和第二目标特征向量的平均值，E[·]表示对括号内的向量求数学期望。

然后根据皮尔逊相关系数，计算两个候选特征之间的皮尔逊距离为：

d(x, y)=1-ρ(x, y) （2）

其中，d(x, y)表示第一候选特征和第二候选特征之间的皮尔逊距离。将计算得到的皮尔逊距离，作为两个候选特征之间的相似度。

步骤S13，根据多个候选特征之间的相似度，从多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，多个目标特征对应的信息积累量大于等于预设信息量。

本申请实施例中，特征的信息量可以根据实际需要进行设定，例如，在得到特征的重要性值之后，根据特征的重要性值确定该特征的信息量。所有候选特征对应的信息量的总和为预设的总信息量，例如，总信息量可以为1、10、100等。特征的信息量表示该特征在流分类中的价值、影响或权重，信息量越大，特征的价值越大，影响越大，权重越大。信息积累量为信息量的累积值，信息积累量的初始值为0。预设信息量与总信息量有关，可以根据实际情况进行设定，例如，当总信息量分别为1、10、100等时，对应的预设信息量可以为0.99、9.9、99等。

特征筛选设备可以根据每两个候选特征之间的相似度，计算每个候选特征在流分类中的重要性值。从而特征筛选设备可以从多个候选特征中选择重要性值最大的多个特征，作为目标特征。

本申请实施例中，特征筛选设备可以采用以下任一种方式获取目标特征：

方式一，根据每两个候选特征之间的相似度，计算每个候选特征在流分类中的重要性值；之后，计算重要性值最大的前m个候选特征的信息量的和值，作为信息积累量，若信息积累量小于预设信息量，则更新m为m+1，返回执行计算重要性值最大的前m个候选特征的信息量的和值，作为信息积累量，如此循环执行，直至信息积累量大于等于预设信息量，此时，选择重要性值最大的前m个候选特征作为目标特征。m的初始值为1。

方式二，根据每两个候选特征之间的相似度，计算每个候选特征在流分类中的重要性值，之后，选择重要性值最大的候选特征作为目标特征，在选择目标特征后，累积目标特征的信息量，得到信息积累量；若信息积累量小于预设信息量，则排除已选择的目标特征，返回执行选择重要性值最大的候选特征作为目标特征的步骤，如此循环执行，直至信息积累量大于等于预设信息量。

方式三，根据每两个候选特征之间的相似度，计算每个候选特征在流分类中的重要性值，选择重要性值最大的候选特征作为目标特征，在选择目标特征后，累积目标特征的信息量，得到信息积累量；若信息积累量小于预设信息量，则排除已选择的目标特征，返回执行根据每两个候选特征之间的相似度，计算每个候选特征在流分类中的重要性值的步骤，如此循环执行，直至信息积累量大于等于预设信息量。

当信息积累量大于等于预设信息量时，特征筛选设备停止执行从多个候选特征中选择目标特征的操作，即特征筛选设备已完成了对最有价值的特征筛选，不需要再从候选特征中选择特征。此时，当前所有的目标特征即为最有价值的特征，可以用于后续的数据流分类，能够保证分类的准确性。

本申请实施例中，特征筛选设备还可以采用其他方式获取目标特征，对此不进行限定。

应用本申请实施例提供的技术方案，采用低维特征进行数据流分类，节省了分类检测模型训练的计算资源和硬件资源，提高了硬件设备进行分类检测的性能。

参见图2，为本申请实施例提供的数据流的特征筛选方法的第二种流程示意图，该方法可以包括如下步骤：

步骤S21，提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量。与上述步骤S11相同。

步骤S22，根据每个候选特征对应的目标特征向量，确定多个候选特征之间的相似度。与上述步骤S12相同。

步骤S23，根据候选特征之间的相似度、预设随机游走系数、每个候选特征对应的个性化参数和每个候选特征的第一重要性值，进行节点排序，得到每个候选特征在流分类中的第二重要性值。

本申请实施例中，采用PageRank（网页排序）算法进行节点排序，得到每个候选特征的第二重要性值。为便于观看和理解，特征筛选设备可以将候选特征映射为节点，将候选特征之间的相似度映射为边，建立无向图，如图3所示的无向图，每个圆圈表示一个节点，f_i和f_j为两个候选特征，即属于候选特征集合R^m，f_i和f_j之间的相似度为w_ij。对节点进行个性化的PageRank，得到每个候选特征的第二重要性值。

下面通过公式（3）、（4）对计算第二重要性值进行具体说明。

（3）

其中，PR(i)表示节点i的重要性值，d表示预设随机游走系数，N表示多个节点的总数量，in(i)表示所有指向节点i的节点集合，即所有与节点i存在关联关系的节点，PR(j)表示节点j的第一重要性值，|out(j)|表示所有指向节点j的节点数量。公式（3）模拟每个节点之间的关联性，等式右边，加号左边表示可以将节点i以(1-d)/N的概率连接到另一个节点，加号右边表示从其他指向节点i的节点跳转到第i节点的概率。通过公式（3）迭代计算每个节点的重要性值，使得所有节点的重要性值最终收敛为第二重要性值，得到每个候选特征在流分类中的第二重要性值。

当采用概率转移的方式表示重要性值时，上述公式（3）可以转换为如下公式（4）进行表示：

V ^’’=dMV+(1-d)e （4）

其中，V ^’’表示各个节点的第二重要性值的向量，d表示预设随机游走系数，M表示转移矩阵，包括每个节点跳转到其他节点的概率，本申请实施例中为各个节点之间的相似度，V表示各个节点的第一重要性值的向量，e表示各个节点对应的个性化参数的向量。通过公式（4）迭代计算V ^’’，直到V ^’’收敛。每一轮迭代前，将上一轮迭代得到的第二重要性值作为下一轮迭代的第一重要性值，其他参数不变。本申请实施例中，个性化参数与当前的候选特征对应，在迭代计算的过程中保持不变，可以将个性化参数的初始值设为1/N。

步骤S24，选择第二重要性值最大的候选特征作为目标特征，并累计当前所有目标特征的信息量，得到信息积累量。

本申请实施例中，特征筛选设备选出第二重要性值最大的一个候选特征，即所有候选特征中最有价值的候选特征，将该候选特征作为目标特征。特征筛选设备可以计算当前所有目标特征的信息量之和（即信息积累量），以确定当前选出的所有目标特征是否可以代替所有候选特征进行数据流的分类。

若信息积累量小于预设信息量，则表示特征筛选设备还需要继续选择候选特征加入目标特征，执行步骤S25；若信息积累量大于等于预设信息量，则特征筛选设备不需要再选择目标特征，当前选出的所有目标特征可以代替所有候选特征进行数据流的分类，结束特征筛选流程。

步骤S25，从多个候选特征中去除目标特征，将每个剩余候选特征的第二重要性值作为第一重要性值。返回执行步骤S23。

本申请实施例中，特征筛选设备去除选择出的目标特征，例如，在公式（3）、（4）中的向量V、矩阵M、个性化参数e中均去除目标特征的对应元素，并将当前计算得到的第二重要性值作为下一次目标特征选择的重要性值的初始值，即第一重要性值，返回执行步骤S23，继续在未被选择的剩余候选特征中选择目标特征。

例如，候选特征包括特征1-特征10，相应的，向量V为10*1的向量，每个元素对应一个候选特征；矩阵M为10*10的矩阵，每一行元素对应一个候选特征，每一列元素对应一个候选特征；个性化参数e为10*1的向量，每个元素对应一个候选特征。当确定特征1为目标特征，且信息积累量小于预设信息量时，去除向量V、矩阵M、个性化参数e中特征1对应的元素，此时，向量V为9*1的向量；矩阵M为9*9的矩阵，个性化参数e为9*1的向量；之后，确定特征2为目标特征，且信息积累量小于预设信息量，再次去除向量V、矩阵M、个性化参数e中特征2对应的元素，此时，向量V为8*1的向量；矩阵M为8*8的矩阵，个性化参数e为8*1的向量；以此类推，直至信息积累量大于等于预设信息量。

本申请实施例提供的技术方案中，特征筛选设备对候选特征进行节点排序，计算每个候选特征的第二重要性值，使得计算得到的第二重要性值可以准确表示每个候选特征的价值。在每一次选择目标特征后，都确定当前所有目标特征的信息积累量，以及时停止特征筛选，使得选择的目标特征数量更少，提高了数据分类效率。

参见图4，为本申请实施例提供的数据流的特征筛选方法的第三种流程示意图，该方法可以包括如下步骤：

步骤S41，提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量。与上述步骤S11相同。

步骤S42，根据每个候选特征对应的目标特征向量，确定多个候选特征之间的相似度。与上述步骤S12相同。

步骤S43，根据候选特征之间的相似度、预设随机游走系数、每个候选特征对应的个性化参数和每个候选特征的第一重要性值，进行节点排序，得到每个候选特征在流分类中的第二重要性值。与上述步骤S23相同。

步骤S44，选择第二重要性值最大的候选特征作为目标特征，并累计当前所有目标特征的信息量，得到信息积累量。与上述步骤S24相同。

若信息积累量小于预设信息量，则执行步骤S45和步骤S46，在此不限定执行顺序。在步骤S45和步骤S46都执行完毕后，返回执行步骤S43。若信息积累量大于等于预设信息量，则结束特征筛选流程。

步骤S45，从多个候选特征中去除目标特征，将每个剩余候选特征的第二重要性值作为第一重要性值。与上述步骤S25相同。

步骤S46，去除每个剩余候选特征对应的个性化参数中目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数。

本申请实施例中，一个候选特征对应的个性化参数受相关特征影响，计算目标特征对每个剩余候选特征的影响值，即每个剩余候选特征对应的个性化参数中目标特征的影响值，在每个剩余候选特征对应的个性化参数中去除对应的影响值，返回执行步骤S43，以更准确地选择出最有价值的下一个目标特征。

在一些实施例中，上述步骤S46可以为：计算目标特征和每个剩余候选特征之间的相似度与目标特征对应的个性化参数之间的乘积，得到每个剩余候选特征对应的目标特征的影响值；从每个剩余候选特征对应的个性化参数中，剔除每个剩余候选特征对应的目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数。

为便于理解，下面结合图5所示的无向图和公式（5）说明剩余候选特征对应的个性化参数的更新方式。图5中包括特征f1-特征f5这5个特征，特征f1与特征f2之间的相似度为w1，特征f2与特征f3之间的相似度为w2。当选择特征f1作为目标特征后，剩余特征中，与特征f1相关联的特征为特征f2，计算特征f2对应的个性化参数中特征f1的影响值为f ₁ *| w1 |，f ₁表示特征f1对应的个性化参数，进而去除特征f2对应的个性化参数中特征f1的影响值，完成特征f2的个性参数的更新，如下公式（5）。

f ₂ =f ₂ -f ₁ *|w1|，f ₂≥0 （5）

其中，f ₂表示剩余特征f2对应的个性化参数。

对于图5中的其他剩余特征，如特征f3、特征f4和特征f5，这些特征与特征f1之间不存在关联性，也就是，特征f1对特征f3、特征f4和特征f5不存在影响，因此，可以不更新这些特征对应的个性化参数。

本申请实施例中，根据目标特征与剩余候选特征之间的相似度更新剩余候选特征对应的个性化参数，可以更准确地更新个性化参数，剔除目标特征对剩余候选特征的影响，进一步降低目标特征与剩余候选特征之间的关联性。

本申请实施例中，还可以采用其他方式更新剩余候选特征对应的个性化参数，例如，计算目标特征和每个剩余候选特征之间的相似度与目标特征的重要性值之间的乘积，得到每个剩余候选特征对应的目标特征的影响值；从每个剩余候选特征对应的个性化参数中，剔除每个剩余候选特征对应的目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数。对此不进行限定。

在一些实施例中，上述步骤S24中，可以通过如下步骤得到信息积累量：根据最新选择的目标特征的第二重要性值，确定当前剩余信息量中最新选择的目标特征所占有的信息量；在当前信息积累量上累计最新选择的目标特征所占有的信息量。

本申请实施例中，当前剩余信息量为总信息量与当前信息积累量之差，表示当前所有候选特征（包括最新选择的目标特征）的信息量之和。特征筛选设备确定最新选择的目标特征在当前剩余信息量中所占的信息量，将该信息量作为最新选择的目标特征的信息量，并累计最新选择的目标特征的信息量，得到新的信息积累量。通过上述方式计算得到信息积累量，使得每一次累计的信息量为最新选择的目标特征在当前剩余信息量中所占的信息量，可以更准确地确定每个选择的目标特征的重要性和价值。

为便于理解，下面通过公式（6）进一步说明信息积累量的计算方式。

f _s=f _s+pr(1-f _s) （6）

其中，f _s表示信息积累量，pr表示最新选择的目标特征的第二重要性值，(1-f _s)表示当前剩余信息量，即总信息量与当前信息积累量之差。在公式（6）中总信息量设为1，数值1仅为示例，并不起限定作用。通过计算pr与(1-f _s)的乘积，确定当前剩余信息量中最新选择的目标特征所占有的信息量，并与信息积累量f _s相加，累计得到新的信息积累量。

本申请实施例中，还可以通过其他方式更新信息积累量，例如，将最新选择的目标特征的第二重要性值作为目标特征的信息量，累加所有目标特征的信息量，完成信息积累量的更新。对此不进行限定。

与上述特征筛选方法对应，本申请实施例还提供了一种数据流分类方法，参见图6，为本申请实施例提供的数据流分类方法的一种流程示意图，该方法应用于计算机、服务器等可以进行数据流分类的电子设备，下述实施例中均以数据流分类设备为例进行说明，该数据流分类设备与上述特征筛选设备可以为同一设备，也可以为不同设备，在此不作限定。上述数据流分类方法包括如下步骤：

步骤S61，从待检测数据流中提取多个目标特征的特征值，多个目标特征根据图1-图5任一特征筛选方法得到。

本申请实施例中，待检测数据流与样本数据流所属的业务相同，如均为DNS流。数据流分类设备从待检测数据流中提取特征值的操作可参见步骤S11部分的相关描述。

步骤S62，将所提取的多个特征值输入分类检测模型，得到待检测数据流的类型。

本申请实施例中，数据流分类设备将提取的多个目标特征的特征值输入预设的分类检测模型，采用数量更少的目标特征的特征值，确定待检测数据流的类型。

下面结合图7，对本申请实施例提供的数据流的特征筛选、分类方法进行详细说明。

图7为本申请实施例提供的数据流的特征筛选、分类方法的一种流程示意图。本申请实施例中，以特征筛选设备和数据流分类设备为同一设备为例，以下统称为设备。

步骤S71，设备提取特征数据。

本申请实施例中，设备提取多个样本数据流中多个候选特征的特征值，作为特征数据。

步骤S72，设备将特征数据归一化。

本申请实施例中，设备对提取的特征数据进行归一化处理等预处理操作，得到每个候选特征对应的目标特征向量。

步骤S73，设备计算相似度。

本申请实施例中，设备根据归一化后的特征数据，即每个候选特征对应的目标特征向量，计算各个候选特征之间的相似度。具体参见上述图1中关于确定相似度的相关描述。

步骤S74，设备建无向图。

本申请实施例中，设备将候选特征映射为节点，将候选特征之间的相似度映射为边，建立候选特征对应的无向图，具体内容参见上述图3中的相关描述。

步骤S75，设备采用网页排序算法进行节点排序。

步骤S76，设备选择重要性值最大的节点（目标特征）。

本申请实施例中，重要性值即为上述第二重要性值，节点即为候选特征。

步骤S77，设备计算已选择的节点的信息积累量。

本申请实施例中，设备计算当前所有目标特征的信息量，并累计得到信息积累量，具体参见上述图1-图5中关于计算信息积累量的相关描述。

步骤S78，设备判断信息积累量是否大于等于预设信息量。若否，即信息积累量小于预设信息量，则执行步骤S79；若是，即信息积累量大于等于预设信息量，则执行步骤S710。

步骤S79，设备剔除已选择的节点，更新无向图中的节点。

本申请实施例中，设备从候选特征中去除目标特征，并得到去除后的剩余候选特征，返回执行步骤S74。

步骤S710，设备确定选择的目标特征。目标特征即为执行步骤S76时，选择出的所有节点。

步骤S711，设备将选择的目标特征送入分类检测模型。

本申请实施例中，设备将待检测数据流的目标特征的特征值输入分类检测模型，实现待检测数据流的分类。

上述步骤S71-步骤S711可参见图1-图6关于数据流的特征筛选、分类方法的相关描述。

本申请实施例提供了一种无监督的特征筛选方法，可以将特征映射为图结构，基于个性的PageRank算法对图中的节点进行排序，迭代出最有价值的特征；并通过信息积累量控制迭代停止，进而将已选择的特征送入分类检测模型模型进行学习，完成对数据流的分类。本申请实施例中，从候选特征中筛选出最有价值的特征，在一定程度上减少了特征的维度，起到降维的作用，且节省了分类检测模型训练的计算资源。

下面采用基于开源的特征数据和基于IT（Information Technology，信息技术）的DNS流特征数据对本申请实施例提供的数据流的特征筛选、分类方法进行实验验证。实验验证中采用的总信息量为1，预设信息量为0.99。预先设定的测试指标包括准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1值。

相应的指标值如表1所示。

表1

此时，准确率=(TP+TN)/(TP+FN+FP+TN)，精确率=TP/(TP+FP)，召回率=TP/(TP+FN)， F1=精确率*召回率*2/(精确率+召回率)。

（1）采用有标签的开源数据进行实验验证，可以评估本申请实施例提供的数据流的特征筛选方法选择的目标特征不会降低分类检测算法的性能。其中，候选特征总数为37。具体的性能测试结果如下：

基于有标签的开源数据，选择全部37个特征进行测试，评估准确率和F1分别为0.9278和0.9678，如图8所示的基于开源的特征数据的测试结果示意图。图8中，横坐标为选择的特征数量，纵坐标为测试指标值，曲线1表示准确率，曲线2表示F1。

采用本申请实施例提供的技术方案进行特征筛选，当信息积累量达到0.99时，选择的特征数量为23个，相应的准确率和F1已达到稳定，与选择全部37个特征的性能一致。如图9所示的信息积累量示意图和图8所示。图9中，横坐标为选择的特征数量，纵坐标为信息积累量。此时，特征数量减少了37-23=14个，提高了效率为14/37=37.8%。

可见，采用本申请实施例提供的特征筛选、分类方法，可以显著降低进行特征数据分类的特征维度，并保证特征数据分类的准确性，提高数据分类效率。

（2）基于IT的DNS流特征数据进行实验验证，验证结果如下：

提取DNS流中的全部相关特征，如会话数量（session_num）、网域数量（domain_num）等35个特征。每次迭代计算已选择的特征的信息积累量。当信息积累量达到0.99时，停止迭代，选取对应的21个特征，如图10所示的基于IT的DNS流特征数据的测试结果示意图，将这21个特征送入分类检测模型进行检测学习，使得分类检测模型学习到这个21个特征，进而根据这21个特征对数据流进行分类，提高了数据流分类效率。

与上述数据流的特征筛选方法对应，本申请实施例还提供了一种数据流的特征筛选装置，参见图11，为本申请实施例提供的数据流的特征筛选装置的一种结构示意图，上述装置包括：

第一提取模块111，用于提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量；

确定模块112，用于根据每个候选特征对应的目标特征向量，确定所述多个候选特征之间的相似度；

选择模块113，用于根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，所述多个目标特征对应的信息积累量大于等于预设信息量。

在一些实施例中，所述选择模块113包括：

在一些实施例中，所述去除单元，还用于：

在一些实施例中，所述去除单元，具体用于：

在一些实施例中，所述选择单元，具体用于：

在一些实施例中，所述第一提取模块111，具体用于：

与上述数据流分类方法对应，本申请实施例还提供了一种数据流分类装置，参见图12，为本申请实施例提供的数据流分类装置的一种结构示意图，上述装置包括：

第二提取模块121，用于从待检测数据流中提取多个目标特征的特征值，所述多个目标特征根据上述任一数据流的特征筛选装置得到；

得到模块122，用于将所提取的多个特征值输入分类检测模型，得到所述待检测数据流的类型。

与上述数据流的特征筛选方法对应，本申请实施例还提供了一种电子设备，如图13所示，包括处理器131和机器可读存储介质132，所述机器可读存储介质132存储有能够被所述处理器131执行的机器可执行指令，所述处理器131被所述机器可执行指令促使：实现上述任一数据流的特征筛选方法，或实现上述数据流分类方法。

机器可读存储介质132可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，机器可读存储介质132还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器131可以是通用处理器，包括中央处理器（Central ProcessingUnit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（DigitalSignal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一数据流的特征筛选方法，或实现上述数据流分类方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一数据流的特征筛选方法，或执行上述实施例中数据流分类方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如固态硬盘Solid State Disk (SSD)）等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种数据流分类方法，其特征在于，所述方法包括：

从待检测数据流中提取多个目标特征的特征值，所述待检测数据流为通信会话数据；

将所提取的多个特征值输入分类检测模型，得到所述待检测数据流的类型；

其中，所述多个目标特征利用如下步骤得到：

提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量，所述样本数据流为预先获取的通信会话数据；

根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，所述多个目标特征对应的信息积累量大于等于预设信息量；

所述根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征的步骤，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述去除每个剩余候选特征对应的个性化参数中所述目标特征的影响值，得到每个剩余候选特征对应的更新后的个性化参数的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述累计当前所有目标特征的信息量，得到信息积累量的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量的步骤，包括：

6.一种数据流分类装置，其特征在于，所述装置包括：

第二提取模块，用于从待检测数据流中提取多个目标特征的特征值，所述待检测数据流为通信会话数据；

得到模块，用于将所提取的多个特征值输入分类检测模型，得到所述待检测数据流的类型；

所述装置还包括：

第一提取模块，用于提取多个样本数据流中多个候选特征的特征值，得到每个候选特征对应的目标特征向量，所述样本数据流为预先获取的通信会话数据；

选择模块，用于根据所述多个候选特征之间的相似度，从所述多个候选特征中选择流分类中重要性值最大的多个特征，作为多个目标特征，所述多个目标特征对应的信息积累量大于等于预设信息量；

所述选择模块包括：

7.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-5任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。