CN111786951B

CN111786951B - 流量数据特征提取方法、恶意流量识别方法及网络系统

Info

Publication number: CN111786951B
Application number: CN202010471395.9A
Authority: CN
Inventors: 陶利民; 王静; 崔翔
Original assignee: Dongfanghong Satellite Mobile Communication Co Ltd
Current assignee: China Star Network Application Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2022-08-26
Anticipated expiration: 2040-05-28
Also published as: CN111786951A

Abstract

本发明公开了一种流量数据特征提取方法、恶意流量识别方法以及网络系统。特征提取方法包括：S1，获取流量数据，包括m条数据流，分别从每条数据流中提取n个特征，构建矩阵X；S2，对矩阵X进行归一化处理获得特征值矩阵

S3，对于特征值矩阵

求取每列数据中两两元素的相似度构建列数据对应特征的自相似性矩阵；S4，求取特征值矩阵

的每列数据对应特征的特征值直方图；取每个特征的自相似性矩阵的上三角元素，获得特征差异直方图；将每个特征的特征值直方图与特征差异直方图组合成特征的向量；S5，将n个特征的向量整合成流量数据的特征向量。特征向量对流量特征具有异变容忍能力，作为分类模型的输入，使分类器能准确识别出恶意流量及其变体。

Description

流量数据特征提取方法、恶意流量识别方法及网络系统

技术领域

本发明涉及流量检测技术领域，特别是涉及一种流量数据特征提取方法、恶意流量识别方法以及网络系统。

背景技术

未来的天地一体化网络是由多种异构网络组成的混合网络，网络的安全性将面临严峻的挑战。由于空间链路和地面网络的开放性，非法用户同样可以通过攻击地面网络来截获数据以及通过地面网络对空间飞行器进行间接攻击。在未来星基互联的空间网络环境下，恶意流量攻击可能是一类严重威胁。例如，攻击者可能通过劫持卫星来隐藏身份，取代卫星与目标进行通信，进而非法获取内容；更严重的是，攻击者还可能通过改变通信流特征来逃避安全检测，即产生恶意流量变体。

传统的恶意检测技术主要有签名匹配和动态行为分析两类。其中，签名匹配只能通过签名集检测已知的恶意行为，对新型恶意攻击无能为力；动态行为分析需要消耗大量资源和时间，天地一体化网络数据分布的高计算量和连续变化使分析动态行为变得困难。并且过去网络攻击是以一种简单而随机的方式来组织，然而现在的攻击是系统而长期进行的，具有更新变化快、攻击性强的特点。因此，建立能够检测恶意流量及其变体攻击的流量检测方法及其系统，对当前地面网络(如互联网络)、未来的星基互联网络和天地一体化网络是非常重要的。

另外，随着大数据时代的到来，相比于传统数据的保存方式，将其以二进制数据的方式存储于数据存储服务器或云端上能够更加的节省成本和有效提高工作效率。随之而来问题就是如何针对互联网络环境中恶意网络流量的攻击和对数据的盗取做到有效的防范也是亟需解决的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种流量数据特征提取方法、恶意流量识别方法以及网络系统。

为了实现本发明的上述目的，根据本发明的第一个方面，本发明提供了一种流量数据特征提取方法，包括：步骤S1，获取流量数据；设所述流量数据中包括m条数据流，分别从每条数据流中提取n个特征，构建矩阵X：

其中，m和n均为正整数；矩阵X中任一元素x_ij表示第i条数据流的第j个特征，1≤i≤m，1≤j≤n；矩阵X的n列数据与n个特征一一对应；步骤S2，对矩阵X进行归一化处理获得特征值矩阵

步骤S3，对于特征值矩阵

求取每列数据中两两元素的相似度并通过求取的m*m个相似度构建m*m维矩阵，将所述m*m维矩阵作为所述列数据对应特征的自相似性矩阵，获得n个自相似性矩阵；利用n个自相似性矩阵构建矩阵S，S＝{S¹,S²,...,Sⁿ}，S¹表示特征值矩阵

的第1个特征的自相似性矩阵，Sⁿ表示特征值矩阵

的第n个特征的自相似性矩阵；对矩阵S进行归一化处理获得矩阵

步骤S4，将特征值矩阵

的每列数据作为一个向量，求取每个向量的直方图，记为所述向量对应特征的特征值直方图；取每个特征的自相似性矩阵的上三角元素，获得所述特征的特征差异直方图；将每个特征的特征值直方图与特征差异直方图组合成表示所述特征的向量；步骤S5，将n个特征的向量整合成表示所述流量数据的特征向量。

上述技术方案的有益效果为：将流量数据的特征映射到新的特征空间中，通过特征值直方图可有效准确地区分恶意流量和合法流量；通过特征差异直方图展示了特征内部的深层次差异，可有效准确地区分恶意流量的进化变体。因此，即使攻击行为的流量特征发生变化，本方法提取的特征向量相较于变化之前的恶意流量的特征向量仍然具有相似性，转换后的特征向量对流量特征具有异变容忍能力，使用提取的特征向量作为分类模型的输入，能够有效提高恶意流量识别的准确率。

在本发明的一种优选实施方式中，在所述步骤S3中，求取每列数据中两两元素的相似度的计算公式为：sim(x_lk,x_rk)＝x_lk-x_rk；其中，sim(x_lk,x_rk)表示第k列数据中第l行元素x_lk与第k列数据中第r行元素x_rk的相似度。

上述技术方案的有益效果为：利用两个元素之间的距离来表征两者的相似度，表达准确形象，便于后续计算，距离越小，表示此维特征下两个样本的相似度越大，距离越大，相似度越小。

在本发明的一种优选实施方式中，在所述步骤S2中，矩阵X中每个元素按照如下变换公式变换后获得特征值矩阵

的第i条数据流的第j个特征归一化结果为：

min(x_ij)表示矩阵X的最小元素，max(x_ij)表示矩阵X的最大元素。

上述技术方案的有益效果为：保证即使流量特征值的数值差异很大，经过归一化变换后会都能够缩放到[0，1]区间，能够有效消除由数值差异引起的变异对特征提取准确性的影响。

在本发明的一种优选实施方式中，n个特征为空间网络和地面网络的共性特征。

上述技术方案的有益效果为：由于天地一体化网络中的空间网络(如星间网络)和地面网络(如地面互联网)之间有信息交互和通信，因此提取的流量特征在地面网络和空间网络中具有共性，使得该方法能够广泛应用于天地一体化网络的各节点，能很好地移植到空间网络中。

为了实现本发明的上述目的，根据本发明的第二个方面，本发明提供了一种恶意流量识别方法，包括：步骤A，获取多个已知类别的流量数据；步骤B，按照本发明所述的流量数据特征提取方法提取每个流量数据的特征向量，为每个特征向量打上类别标签，多个打上了类别标签的特征向量组成流量数据集，将流量数据集划分为训练集和测试集；所述类别标签包括恶意和合法；步骤C，构建分类模型；利用训练集和测试集分别对分类模型进行训练和验证，直到分类模型的准确率和召回率达到预设要求，获得流量识别模型；步骤D，获取待识别流量数据并提取特征向量，将待识别流量数据的特征向量输入流量识别模型，流量识别模型输出识别结果。

上述技术方案的有益效果为：能够自适应地对天基网络环境中恶意流量进行准确检测识别，针对天基网络环境中恶意流量由于异构网络环境的转换容易产生变异的特点具有较强异变容忍能力，通过分析网络通信流之间的联系，能够准确识别出恶意流量及其变体攻击。

在本发明的一种优选实施方式中，在执行所述步骤C后，还包括样本平衡步骤，所述样本平衡步骤包括：步骤一，提取接近流量识别模型决策边界的已知类别的流量数据样本；步骤二，对所提取的样本进行聚类分析，获得位于决策边界的少数类样本；步骤三，利用获得的位于决策边界的少数类样本生成新的少数类样本并将新生成的少数类样本加入原训练集中，构成最终的训练集；步骤四，利用最终的训练集和测试集分别再次对分类模型进行训练和验证，直到分类模型的准确率和召回率达到预设要求，获得最终的流量识别模型。

上述技术方案的有益效果为：本方案对所提取数据集进行重新采样，提出一个新的过采样方法，通过选取接近决策边界的数据点生成新样本，将新样本加入到少数类别，使新构建的数据集更加有分类价值，以平衡正负类的数量差异和决策边界，提高分类器的准确率。

在本发明的一种优选实施方式中，已知类别的流量数据包括演化类和/或攻击类恶意流量数据。

上述技术方案的有益效果为：提高流量数据集的广度，使流量识别模型能够识别出不同种类的恶意流量数据及其变体。

为了实现本发明的上述目的，根据本发明的第三个方面，本发明提供了一种恶意流量检测装置，包括流量获取单元和处理器；所述流量获取单元获取待识别流量数据并传输至处理器；处理器接收待识别流量数据，并执行本发明所述的恶意流量识别方法的步骤获得识别结果。

为了实现本发明的上述目的，根据本发明的第四个方面，本发明提供了一种网络系统，所述网络系统为一种网络结构或一种以上异构网络组成；所述网络系统包括多个网络节点，全部或部分网络节点对接收的流量数据按照本发明所述的恶意流量识别方法进行恶意流量识别。

上述技术方案的有益效果为：该网络系统的网络节点自适应对恶意流量及其变体准确识别，提高了网络安全性。

在本发明的一种优选实施方式中，对接收的流量数据进行恶意流量识别的网络节点设置有流量识别模型；在出现新类型的恶意流量时，网络节点将新类型的恶意流量作为已知类型流量数据对流量识别模型进行训练和/或测试，升级流量识别模型。

上述技术方案的有益效果为：将不断升级的流量识别模型注入天基系统中，使其能够获得较好的恶意流量预防的作用。

附图说明

图1是本发明一具体实施方式中特征提取方法的流程示意图；

图2是SCPS协议和TCP/IP协议比较层次示意图；

图3是SCPS－NP协议结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供了一种流量数据特征提取方法，在一种优选实施方式中，如图1所示，该方法包括：

步骤S1，获取流量数据；设流量数据中包括m条数据流，分别从每条数据流中提取n个特征，构建矩阵X：

其中，m和n均为正整数；矩阵X中任一元素x_ij表示第i条数据流的第j个特征，1≤i≤m，1≤j≤n；矩阵X的n列数据与n个特征一一对应。

步骤S2，为了减少数值差距带来的影响，将矩阵X缩放到[0，1]区间。对矩阵X进行归一化处理获得特征值矩阵

矩阵X中每个元素按照如下变换公式变换后获得特征值矩阵

的第i条数据流的第j个特征归一化结果为：

min(x_ij)表示矩阵X的最小元素，max(x_ij)表示矩阵X的最大元素；特征值矩阵

为：

这样保证即使流量特征值的数值差异很大，经过第一步变换后会都能够缩放到[0，1]区间，对抗由数值差异引起的变异。

步骤S3，对于特征值矩阵

求取每列数据中两两元素的相似度并通过求取的m*m个相似度构建m*m维矩阵，将m*m维矩阵作为列数据对应特征的自相似性矩阵，获得n个自相似性矩阵；利用n个自相似性矩阵构建矩阵S，S＝{S¹,S²,...,Sⁿ}，S¹表示特征值矩阵

的第1个特征的自相似性矩阵，Sⁿ表示特征值矩阵

通过局部特征缩放进一步归一化。

设特征值矩阵

中第k列数据，即第k维特征在m条数据流中的数值，第k列数据获得的m*m个相似度构建的第k个特征的自相似性矩阵为S^k：

表示特征值矩阵

第k列数据中第一行元素和第二行元素的相似度；

表示特征值矩阵

第k列数据中第一行元素和第m行元素的相似度；

表示特征值矩阵

第k列数据中第m行元素和第m行元素的相似度，k为正整数，且1≤k≤n。

步骤S4，将特征值矩阵

的每列数据作为一个向量，求取每个向量的直方图，记为向量对应特征的特征值直方图。为流量集合的特征值矩阵

内的每一维特征构建特征值直方图，取

的每一列作为一个分向量Z_i，则每个流量集合对应一个向量组Z＝(Z₁,Z₂,…,Z_n)，1≤i≤n。对于分向量Z_i，计算其中每个元素数值出现的频度，得到特征值直方图。由于训练样本集都具有类别标签，由分类模型从大量数据中自动学习正样本的特征值分布和负样本的特征值分布，用于区分合法流量和恶意流量。特征值直方图表示数据特征的分布范围，用来区分恶意流量和合法流量。

在本实施方式中，取每个特征的自相似性矩阵的上三角元素，获取这些三角元素的分布直方图，作为该特征的特征差异直方图；将每个特征的特征值直方图与特征差异直方图组合成表示特征的向量。特征差异直方图来表示数据特征的分布差异，展示了特征内部的深层次差异，用来区分恶意流量的进化变体。则对S＝{S¹,S²,...,Sⁿ}，有n个特征差异直方图与n维特征一一相对应。

在本实施方式中，第k个特征值直方图与第k个特征差异直方图相对应，代表了样本集合第k维特征的数据分布及差异信息，均可用向量表示。将两类特征向量两两对应组合，得到每维特征的向量表示。

步骤S5，将n个特征的向量整合成表示流量数据的特征向量。流量数据的特征向量包括n个元素，每个元素为一个特征的向量表示，每个特征的向量表示又包含两个信息，一个信息为该特征的特征值直方图，另一个信息为该特征的特征差异直方图。

在本实施方式中，矩阵X中每条数据流的n个特征占据一行，每个特征在m条数据流中的值占据一列，矩阵X有m*n个元素。从每条数据流中优选但不限于提取固定时间内上行流所占的比率、固定时间内下行流所占的比率、请求持续时间、到达间隔时间、流中数据包的总个数、流中数据包的总大小、上行流中的数据包总和、下行流中的数据包总和。

在本实施方式中，网络环境的动态性使得网络流量的特征变化频繁，攻击者也会故意改变流量特征以逃避检测，导致用于训练分类器的数据和真正应用环境下的流量数据存在巨大差异，因此，单纯用从训练集习得的知识去应用分类器就会出现性能不足、准确率低的问题。通过步骤S2、S3、S4和S5转换，将流量数据特征映射到新的特征空间中，即使攻击行为的流量特征发生变化，通过转换后仍然具有相似性，转换后的特征向量对流量特征具有异变容忍能力，使用新特征向量作为分类模型的输入，能够准确识别出恶意流量及其变体。

在一种优选实施方式中，在步骤S3中，求取每列数据中两两元素的相似度的计算公式为：sim(x_lk,x_rk)＝x_lk-x_rk；其中，sim(x_lk,x_rk)表示第k列数据中第l行元素x_lk与第k列数据中第r行元素x_rk的相似度，1≤l≤n，1≤r≤n。

在一种优选实施方式中，n个特征为空间网络和地面网络的共性特征。

在本实施方式中，若提取的流量特征在地面网络和空间网络中具有共性，能广泛用于天地一体网络的各节点，能很好地移植到空间网络中。可通过分析地面网络协议与星上网络协议的异同，来确定数据流量需提取的特征。

在本实施方式中，以目前国际相对主流的空间数据系统的协议体系，如国际空间数据系统咨询委员会(Consultative Committee for Space Data Systems，CCSDS)规范了一套裁剪的Internet协议，即空间通信协议组(Space Communication ProtocolSpecification，SCPS)。使其适用于带宽受限的空间通信网络。SCPS协议由网络协议(SCPS－NP)、安全协议(SCPS－SP)、传输层协议(SCPS－TP)和文件传输协议(SCPS－FP)4个部分组成，分别位于网络层、传输层与网络层之间、传输层和应用层。SCPS协议栈由CCSDS根据TCP/IP协议发展而来，因此SCPS中的四个协议可以与TCP/IP中的四个层次相对应比较，如图2所示。

在本实施方式中，考虑空间与地面的网络协议，以SCPS－NP为例，其对应Internet中的IP协议，是一种具有新的网络层数据结构空间传输协议，它提供非常简洁灵活的终端地址与组地址表示方法，提供数据包的优先级操作机制和每包路由控制机制。SCPS－NP的协议结构如图3所示。

在本实施方式中，地面SCPS－NP与IP协议的不同是：SCPS－NP的包头只有4个字节；其支持的最大数据报长度为8196字节，但不允许分段；支持16个独立于服务类型的优先级；SCPS－NP的SCMP继承了ICMP路由选择、传送差错报告和控制信息功能，还支持中断拥塞或者误码信息相关信令。空间通信与地面通信所用的网络协议不一致，会导致空间网络与地面网络中所传输的数据包产生差异，进而网络流量特征产生不同；但空间网络与地面网络在网络流层面特征的相似性，为我们构建共性特征集提供了可能。例如，攻击者在攻击过程中必然会对目标机进行网络连接请求，因此可以将连接持续时间、请求连接次数等作为特征；通过对地面网络协议和星上网络协议的对比，提取的共性特征集内容如下表1所示。

表1流量数据特征集

本发明还公开了一种恶意流量识别方法，在一种优选实施方式中，该恶意流量识别方法包括：步骤A，获取多个已知类别的流量数据；步骤B，按照本发明的流量数据特征提取方法提取每个流量数据的特征向量，为每个特征向量打上类别标签，多个打上了类别标签的特征向量组成流量数据集，将流量数据集划分为训练集和测试集；类别标签包括恶意和合法；步骤C，构建分类模型；利用训练集和测试集分别对分类模型进行训练和验证，直到分类模型的准确率和召回率达到预设要求，获得流量识别模型；步骤D，获取待识别流量数据并提取特征向量，将待识别流量数据的特征向量输入流量识别模型，流量识别模型输出识别结果。

在本实施方式中，分类器可采用现有的使用递归神经网络(Recurrent NeuralNetwork，RNN)中的长短期记忆模型、模糊聚类分析(Fuzzy Cluster Analysis，FCA)模型等，优选的，分类器采用SVM分类器。SVM基于最大间隔分割数据，训练出一个分割超平面作为分类的决策边界，相比其他机器学习算法，其泛化错误率低，具有良好的学习和泛化能力。SVM利用内积核函数代替向高维空间的非线性映射，计算的复杂性只取决于支持向量的数目，而不是样本空间的维数，在处理高维数据集上具有较大优势。

在本实施方式中，构建机器学习流量数据集，是实现流量识别的基础，因此选择流量数据集应兼顾已知恶意流量数据集。已知类别的流量数据包括演化类和/或攻击类恶意流量数据，即包括演化类、或者攻击类、或者同时包含演化类和攻击类。

在本实施方式中，当前已知多数恶意攻击都从某一恶意族谱演进而来，它们之间在网络数据流特征上存在相似性。从Conficker、Kelihos等6个目前影响最大的家族中收集恶意样本，其中包含不同版本的恶意流量可作为基础数据集的一部分。另外一部分的数据集来自于多种攻击类型的流量数据，包括Dos攻击、Web攻击等。

在本实施方式中，将流量数据集划分为训练集(Training Set)和测试集(TestingSet)，训练集和测试集均包含有恶意样本和合法样本，如训练集包含220k恶意样本和800k的合法流量样本，测试集包含50k恶意样本和300k正常流量样本。

在本实施方式中，分类模型训练完成后，用测试集验证所构建的分类器性能，用准确率和召回率作为技术指标量化分类器性能。

在一种优选实施方式中，在执行所述步骤C后，还包括样本平衡步骤，样本平衡步骤包括：步骤一，提取接近流量识别模型决策边界的已知类别的流量数据样本；步骤二，对所提取的样本进行聚类分析，获得位于决策边界的少数类样本；步骤三，利用获得的位于决策边界的少数类样本生成新的少数类样本并将新生成的少数类样本加入原训练集中，构成最终的训练集；步骤四，利用最终的训练集和测试集分别再次对分类模型进行训练和验证，直到分类模型的准确率和召回率达到预设要求，获得最终的流量识别模型。

在本实施方式中，样本数据的不平衡特性会使流量识别模型的决策边界出现偏差，导致准确率降低。本方案考虑实际环境中的样本不平衡问题，而且能够检测到各种已知恶意流量及其变体，在应用中要优于一般方案。由于SVM算法在不平衡数据集下的性能有限，而天基网络环境下必然存在正常样本远远多于恶意样本的情况，可能会导致分类器决策偏向于多数类。因此，为更好的提高检测准确率，需对分类器进行改进，通过生成少数类样本以使正负类样本数量相当，平衡决策边界，提高分类器检测准确率。现有技术中，合成少数类过采样技术直接复制少数类样本，导致合成的新样本质量较差。本申请针对现有技术中的问题进行了改进，因为边界点含有更多的信息量，本申请使用位于边界的少数类样本点进行合成，可解决冗余新样本的问题；同时，对边界点的重要性也加以区分的话，则可较好的兼顾数据集的平衡问题，本实施方式通过选取特定数据点生成新样本，将新样本加入到少数类别，使新构建的数据集更加有分类价值。

在本实施方式中，合成少数类过程分为三步：首先提取接近决策边界的样本进行分析；第二步，对所提取的样本进行聚类分析，确定最终选择；最后合成数据点，将新生成的少数类样本加入到原始样本集中，构成最终的训练样本集。采用上述合成后的样本集，进行分类器训练及测试，该方法能够达到90％的准确率和70％的召回率。

本发明还公开了一种恶意流量检测装置，包括流量获取单元和处理器；流量获取单元获取待识别流量数据并传输至处理器；处理器接收待识别流量数据，并执行本发明的恶意流量识别方法的步骤获得识别结果。

本发明还公开了一种网络系统，网络系统为一种网络结构或一种以上异构网络组成；网络系统包括多个网络节点，全部或部分网络节点对接收的流量数据按照本发明的恶意流量识别方法进行恶意流量识别。

在本实施方式中，网络系统优选但不限于为包含一种网络结构的地面互联网，或者为包含空间网络和地面网络异构的天地一体化网络。

在一种优选实施方式中，对接收的流量数据进行恶意流量识别的网络节点设置有流量识别模型；在出现新类型的恶意流量时，网络节点将新类型的恶意流量作为已知类型流量数据对流量识别模型进行训练和/或测试，升级流量识别模型。

在本实施方式中，将新类型的恶意流量作为已知类型流量数据加入流量数据集，可作为训练集样本，或者作为测试集样本，或者同时作为训练集样本和测试集样本。利用新的训练集对原来的流量识别模型进行训练，和/或利用新的测试集对原来的流量识别模型进行测试，这样达到升级流量识别模型的目的。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。