CN112243004A

CN112243004A - 一种对抗恶意流量变化的特征转换方法

Info

Publication number: CN112243004A
Application number: CN202011093943.5A
Authority: CN
Inventors: 郭阳明; 刘明明; 姚红静; 刘尊; 王晓东; 李庚�; 高建军
Original assignee: Xi'an Monton Information Technology Co ltd; Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Current assignee: Xi'an Monton Information Technology Co ltd; Northwestern Polytechnical University; Shenzhen Institute of Northwestern Polytechnical University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2021-01-19

Abstract

本发明提供了一种对抗恶意流量变化的特征转换方法，将样本特征映射到新的特征空间中，即使攻击行为的流量特征发生变化，通过转换后仍然具有相似性，转换后的特征向量对流量特征具有异变容忍能力，使用新特征向量作为分类模型的输入。本发明利用直方图刻画流量特征的变化并实现容错，达到高效准确识别恶意流量及其变体的效果，克服了后续单纯用从训练集习得的知识去应用分类器会出现性能不足、准确率低的问题。

Description

一种对抗恶意流量变化的特征转换方法

技术领域

本发明涉及网络安全领域，尤其是一种对抗恶意流量变化的方法，使得恶意流量检测能够容忍流量规模、次序等特征的变换，从而提高网络的安全防护能力。

背景技术

未来的天地一体化网络是由多种异构网络组成的混合网络，网络的安全性将面临着严峻的挑战。由于空间链路和地面网络的开放性，空间链路的数据可以被地面站截获，同时敌方地面站可以采用重播攻击和拒绝服务攻击等手段对空间飞行器进行直接攻击以达到信息获取、飞行器破坏等目的；非法用户同样可以通过攻击地面网络来截获数据以及通过地面网络对空间飞行器进行间接攻击。通信网络越复杂，攻击者越容易有可乘之机。

在未来天地一体化网络的环境下，恶意流量攻击可能是一类严重威胁。例如，攻击者可能通过劫持宿主卫星或高空长航时无人机来隐藏恶意身份，取代宿主与目标进行通信，进而非法获取内容；更严重的是，攻击者还可能通过改变通信流特征来逃避安全检测，即产生恶意流量变体。因此，为防患于未然而建立一个能够检测恶意流量及其变体攻击的流量检测系统，对未来天地一体化网络是非常重要的。

传统的恶意软件检测技术主要有签名匹配和动态行为分析，签名匹配只能通过签名集检测已知的恶意行为，对新型恶意攻击无能为力；动态行为分析需要消耗大量资源和时间，网络数据分布的高计算量和连续变化使分析动态行为变得困难。过去网络攻击是以一种简单而随机的方式来组织，然而现在的攻击是系统而长期进行的，具有更新变化快、攻击性强的特点。基于以上原因，利用机器学习技术，基于数据流特征对恶意攻击进行检测成为近年研究的热点。将大量流量数据输入到训练模型中，对其进行恶性或良性分类，最终得到一个预测模型，机器学习用于恶意流量检测，不仅具有较好的准确性和处理能力，还能够识别已知或未知的恶意攻击。

在各种将机器学习用于恶意流量检测的工作中，BJ Radford等人提出使用递归神经网络(Recurrent Neural Network，RNN)中的长短期记忆模型(Long-Short TermMemory，LSTM)来识别异常模式，这是一种单纯的无监督异常检测模型，存在误警率过高的问题；此外，有研究人员提出采用模糊聚类分析(Fuzzy Cluster Analysis,FCA)来分类恶意网络流量，但准确性受到群集的数量和划分的限制；W Yassin等人将k-means和决策树相结合来探测恶意攻击，该方法没有考虑处理时间的问题，空天环境下新型攻击层出不穷，需要快速响应恶意攻击以便及时止损，该方法不适用于迅速检测。

与以上机器学习算法相比，支持向量机(Support Vector Machine，SVM)由于其在处理高维数据集和避免局部优化问题上的优越性而广泛用于恶意流量检测。SVM基于最大间隔分割数据，训练出一个分割超平面作为分类的决策边界，相比其他机器学习算法，其泛化错误率低，具有良好的学习和泛化能力。SVM利用内积核函数代替向高维空间的非线性映射，计算的复杂性只取决于支持向量的数目，而不是样本空间的维数，在处理高维数据集上具有较大优势；除此之外，SVM本身是个凸优化问题。因此，局部最优解一定是全局最优解，避免了陷入局部最优化的问题。

但是，大多数现有研究关注特定环境下的恶意攻击，而未来的天地一体化网络环境中恶意流量由于异构网络环境的动态性使得网络流量的规模、次序等特征变化频繁，攻击者也会故意改变流量特征以逃避检测，导致用于训练分类器的数据和真正应用环境下的流量数据存在巨大差异。

为此，亟需针对流量识别的数据提取、数据处理、特征表示、分类器训练与测试等四个步骤的特征表示环节，建立一种有效的特征描述方法，以支撑检测模型对各种已知恶意流量及其变体的高效检测。

发明内容

为了克服现有技术的不足，本发明提供一种对抗恶意流量变化的特征转换方法。针对未来的天地一体化网络环境中恶意流量由于异构网络环境的转换容易产生变异的现实，本发明结合空间网络中识别恶意流量变体的需求，借鉴多媒体容错的思路，设计流量特征的统一转换方法，将其映射到新的特征空间，使得基于机器学习的分类模型能够容忍流量规模、次序、特征的变换。

本发明解决其技术问题所采用的技术方案如下：

假设一段时间网络实体间的通信内有m条数据流，每条数据流中提取n个特征，则每个集合表示为一个m*n的矩阵X，其中，x_ij表示第i条数据流的第j个特征值：

通过以下三步转换，将样本特征映射到新的特征空间中，即使攻击行为的流量特征发生变化，通过转换后仍然具有相似性，转换后的特征向量对流量特征具有异变容忍能力，使用新特征向量作为分类模型的输入；转换过程如下：

(1)矩阵归一化

为了减少数值差距带来的影响，将矩阵X缩放到[0,1]区间表示为

令

得到矩阵：

式中，min_i(x_ij)为第i条数据流中特征的最小值，max_i(x_ij)则是第i条数据流中特征的最大值。

式(3)可以保证即使流量特征值的数值差异很大，经过第一步变换后会都能够缩放到[0,1]区间，对抗由数值差异引起的变异；

(2)计算自相似度

针对所有样本的每一维特征，计算样本两两之间的距离，相似度记为sim(a,b)；

取

矩阵的每一列，针对第k列即第k维特征，两个样本

和

的相似度计算为：

和

的欧式距离越小，表示此维特征下两个样本的相似度越大；距离越大，相似度越小；每维特征得到1个m*m维的自相似性矩阵，令第k维特征的自相似矩阵为S^k，S^k中每个元素是第k维特征两两之间的距离，即：

综上，n维特征得到n个自相似性矩阵，记为{S¹，...，Sⁿ}，将这组矩阵通过第一步所描述的局部特征缩放进一步归一化，产生一组矩阵

(3)特征转换；

通过前两步得到特征值矩阵

和一组特征自相似性矩阵

使用特征值矩阵

和一组特征自相似性矩阵

得到一组新的特征向量，采用特征值直方图和特征差异直方图分别表示数据特征的分布范围和分布差异，特征值直方图用来区分恶意流量和合法流量，特征差异直方图用来区分恶意流量的进化变体。

所述的特征值直方图的实现步骤为：

一个流量集合内的每一维特征构建特征值直方图，取

的每一列作为一个分向量Z_i，则每个流量集合对应一个向量组Z＝(Z₁,Z₂,…,Z_i…,Z_n)；

对于分向量Z_i，统计并计算Z_i中每项数值出现的频度，得到基于分布特征的流量特征值直方图；

由于训练样本集都具有标签，因此，用户利用各种学习模型，从大量数据中自动学习用于区分合法流量和恶意流量的正样本特征值分布和负样本特征值分布，即以特征值出现频度表征的正样本特征值直方图和负样本特征值直方图。

所述的特征差异直方图的实现步骤为：

从自相似度矩阵S^k中获得特征差异直方图，展示特征内部的深层次差异；取S^k矩阵主对角线及其上方的所有元素的上三角元素，得到第k维特征的特征差异直方图，则对S＝{s¹，s²，...，sⁿ}，有n个特征差异直方图与每一维特征相对应；

第k个特征值直方图与第k个特征差异直方图相对应，代表了样本集合第k维特征的数据分布及差异信息，将两类特征向量两两进行一一对应并组合，得到每维特征的向量表示；

依次类推，将所有特征的两类特征向量对应组合，则得到：

由此建立的流量特征的统一转换方法，将式(1)表示的原始数据矩阵转换为一个n*m维的矩阵，原始样本集合被映射到在新特征空间下，使得基于机器学习的分类模型能够容忍流量规模、次序、特征的变换。

本发明的有益效果在于利用直方图刻画流量特征的变化并实现容错，达到高效准确识别恶意流量及其变体的效果，克服了后续单纯用从训练集习得的知识去应用分类器会出现性能不足、准确率低的问题。

具体实施方式

下面结合实施例对本发明进一步说明。

本发明的技术方案如下：

(1)矩阵归一化

令

得到矩阵：

(2)计算自相似度

取

矩阵的每一列，针对第k列即第k维特征，两个样本

和

的相似度计算为：

和

(3)特征转换；

通过前两步得到特征值矩阵

和一组特征自相似性矩阵

使用特征值矩阵

和一组特征自相似性矩阵

1)单特征直方图

为一个流量集合内的每一维特征构建特征值直方图，取

2)特征差异直方图

依次类推，将所有特征的两类特征向量对应组合，则得到：