CN110808971B

CN110808971B - 一种基于深度嵌入的未知恶意流量主动检测系统及方法

Info

Publication number: CN110808971B
Application number: CN201911040786.9A
Authority: CN
Inventors: 于爱民; 赵力欣; 蔡利君; 马建刚; 孟丹; 徐震
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-01-01
Anticipated expiration: 2039-10-30
Also published as: CN110808971A

Abstract

一种基于深度嵌入的未知恶意流量主动检测系统及方法，包括：预处理模块、深度嵌入模块、最优边界搜索模块和检测模块；预处理模块将长度不一的各个应用中的网络流表示为固定大小的流矩阵；深度嵌入模块：在训练阶段，以预处理模块输出的流矩阵作为输入，通过训练孪生卷积神经网络学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流分布更加紧凑，不同应用产生的网络流分布更加离散；在测试阶段，使用训练好的卷积神经网络将待识别的流矩阵映射到嵌入空间下；最优边界搜索模块：在嵌入空间下，为各个已知类别应用的网络流寻找最优分类超平面，最后构建分类器；检测模块基于最优边界搜索模块得到的分类器，判断待识别的网络流是否来自未知的恶意应用。

Description

一种基于深度嵌入的未知恶意流量主动检测系统及方法

技术领域

本发明涉及一种基于深度嵌入的未知恶意流量主动检测系统及方法，属于网络安全技术领域。

背景技术

近年来，随着网络技术的发展，网络攻击事件层出不穷。据腾讯安全发布的《2017年度互联网安全报告》显示，在2017年，全球有高达86％的公司曾经经历至少一次网络攻击。网络流量作为网络攻击的载体，往往包含攻击相关信息，因此对网络流量进行异常检测对于有效识别恶意软件保障网络安全至关重要。

当前的恶意软件检测方法可以归为两类：基于签名的方法和基于机器学习的方法。基于签名的方法根据已知恶意软件样本来生成签名数据库，通过将待识别样本与签名数据库中的签名进行匹配来检测恶意样本。这种方法检测准确率高，但是其检测能力局限于签名数据库中包含的已知恶意样本。与基于签名的方法相比，基于机器学习的方法具有检测新的未知恶意软件的能力。根据训练阶段是否需要标签信息，基于机器学习的方法又可以进一步分为监督式方法和非监督式方法两类。虽然非监督式的方法具有天生的检测未知的能力，但是它的高误报率限制了它在现实环境下的应用。相比于非监督式的方法，监督式的方法在已标记的恶意样本上训练分类器，可以获得更高的准确率和更低的误报率。但是其仍面临以下两个方面的不足：第一，分类器的检测能力依赖于训练使用的恶意软件样本，只有已知的恶意软件样本或者其变种可以被成功检测；第二，获得大量的恶意软件样本非常困难，对于未知恶意软件和0-day攻击，甚至都没有训练样本可供获取。因此，仅使用正常样本来构建具有未知威胁检测能力的分类器十分必要。

传统的多类分类器的构建往往是建立在“封闭世界”的假设(closed worldassumption) 之下的，即，其认为在测试阶段出现的样本类别在训练阶段都出现过。一旦分类器构建完毕，其类别也随之确定，任何测试样本都会被分类到已知类别中。但是在现实情况下，测试阶段往往可能出现新的未知类别数据，例如，0-day攻击或新的未知恶意软件产生的数据。

基于单类分类器的恶意流量检测方法也是通过对正常网络流量建模来检测恶意流量。其中，单类SVM是最常被使用的算法，在这些相关文献中，不同的特征被提取来表征流量数据。Schwenk等人提出了DUMONT，它从HTTP请求中提取了包括熵、头部字段长度、流量时序特点等17个数字特征来检测隐秘传输。Sakib等人从HTTP请求数据包和DNS响应数据包中提取了统计特征来检测基于HTTP的僵尸主机C&C通信流量。 Nguyen等人在提取的2v-gram特征上应用卡方检验来选择最优特征集来进行入侵检测。虽然基于单类分类器的方法具有一定程度的未知威胁检测能力，但是由于其在构建检测模型时只考虑了本类别自身的信息，而没有考虑其他类别的信息，因此已有的基于多类分类器的恶意软件检测方法往往是建立在封闭世界的假设之下，其检测能力局限于已知恶意软件样本或者其变种。而基于单类分类器的方法虽然可以检测新的未知恶意软件，但是由于其在构建检测模型时只考虑了本类别自身的信息而没有考虑其他类别的信息，因此，往往具有较高的误报率和较低的检测率。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于深度嵌入的未知恶意流量主动检测系统及方法，通过解决开放空间分类问题来识别未知恶意流量，具有更低的误报率和更高的检测率。

本发明技术解决方案：

一种基于深度嵌入的未知恶意流量主动检测系统，包括：预处理模块、深度嵌入模块、最优边界搜索模块和检测模块；

预处理模块：将各个应用产生的长度不一的网络流表示为固定大小的流矩阵，以满足深度嵌入模块中孪生卷积神经网络(Siamese Convolutional Neural Network，SCNN) 的输入格式要求；将经过预处理得到的满足输入格式要求的流矩阵称为网络流样本，其中，每个应用产生的网络流对应一个类别，不同应用产生的网络流属于不同的类别，而 SCNN则由两个共享网络权重参数的完全相同的卷积神经网络(CNN)组成；

深度嵌入模块：将已收集的所有应用产生的网络流样本作为训练集，在训练阶段，将训练集中的网络流样本作为输入，通过在对比损失函数(contrastive loss)的监督下训练SCNN来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流分布更加紧凑，即欧式距离更小，不同应用产生的网络流分布更加离散，即欧式距离更大，其中，非线性映射由训练好的SCNN中的CNN所表示；训练完成后，使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下；在测试阶段，使用训练好的CNN将待识别的网络流样本映射到嵌入空间下；

最优边界搜索模块：最优边界搜索模块通过在嵌入空间下为训练集中各个已知类别 (即训练集中已包含的类别)的网络流寻找最优分类超平面来构建分类器C，具体过程为：首先，对于训练集中的每个已知类别，为其寻找一个分类超球面；然后，以训练集中该类所包含的网络流样本为正类，训练集中其他的不属于该类的网络流样本为负类，利用SVM算法训练二值分类器得到相应的SVM分类面；接着，使用得到的SVM分类面来对上述分类超球面进行约束，进而得到针对该类别的最优分类超平面；最后，基于得到的所有已知类别的最优分类超平面来构建分类器，所述分类器由全部已知类别的分类超平面组成；

检测模块：在嵌入空间下，基于最优边界搜索模块得到的分类器，判断待识别的网络流样本是否来自未知的恶意应用。

所述预处理模块具体处理流程如下：

(1)所述网络流为具有相同IP五元组<源IP，源端口，目的IP，目的端口，传输层协议>的一组连续的数据包；对于基于tcp连接的网络流来说，前3个数据包是相同的用来建立tcp连接的握手数据包，因此若网络流长度即，包含的数据包个数小于4，则丢弃，否则跳转至步骤(2)；

(2)截取每条网络流前n个数据包和每个数据包的前m个字节，将每条网络流表示为特征向量；优选截取网络流的前32个数据包，并且对于每个数据包，截取从传输层头开始的512个字节，若网络流长度小于32或者IP包长度小于512，则用0填充，将网络流表示成大小为32*512的矩阵；

(3)将步骤(2)中所得矩阵的每个元素除以255来对该矩阵进行归一化处理；

(4)将步骤(3)中所得矩阵大小重新调整为128*128；

经过以上预处理过程，每条网络流被表示为了大小为128*128的流矩阵。

所述深度嵌入模块具体实现如下：

在训练阶段：

(1)将训练集中的网络流样本作为输入，构建样本对集合pairs；

(2)以样本对集合pairs中的样本对作为输入，在对比损失函数的监督下，对SCNN进行训练来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流之间欧式距离更小，不同应用产生的网络流之间欧式距离更大。其中，非线性映射由训练好的SCNN中的CNN所表示，对比损失函数的具体定义如下：

其中x∈X＝{x_i|i＝1,2,...,N}是训练样本集中的网络流样本，

是样本对指示器，表示样本对(x_i,x_j)是否来自同一类别，h(x)＝max(0,1-x)是hinge函数，D(x_i,x_j)是样本对(x_i,x_j)在嵌入空间下的欧几里得距离，具体如下：

D(x_i,x_j)＝||f(x_i)-f(x_j)||₂ (2)

其中f()是由CNN所表示的非线性映射函数，f(x)为样本x在嵌入空间下的特征表示，||·||₂为L2范数。式(1)中的第一项用来最小化来自同一类别的样本对之间的距离，对于来自不同类别的样本对，它们之间的距离大于一个预定义的边距m，因此式(1) 中的第二项用来惩罚那些来自不同类别且距离小于m的样本对。

(3)使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下。

在测试阶段：

以待检测的网络流样本作为输入，使用训练好的CNN将待检测的网络流样本映射到嵌入空间下。

所述样本对生成的具体过程如下：

给定训练样本集X＝{x_i|i＝1,2,...,N}和相应的类别标签Y＝{y_i|i＝1,...,N}，

(1)初始化样本对集合pairs为空：pairs←{}；

(2)获取训练集中所有训练样本的标签集合：label_set←set(Y)；

(3)对于label_set中的每个类别标签l，分别计算所有标签为l的样本的类别中心：

其中M为标签为l的样本数量；

(4)对于训练集中的每个样本x_i，随机从{0,1}中选择一个值赋值给样本对指示器

(5)若样本对指示器

等于1，则将

加入到样本对集合pairs，跳转步骤(4)执行；

(6)若样本对指示器

等于0，跳转(7)执行；

(7)随机从label_set中选择一个不等于y_i的标签y′；

(8)随机选择一个标签为y′的样本x′；

(9)将

加入到样本对集合pairs中，跳转步骤(4)执行。

所述最优边界搜索模块具体实现如下：

首先，在嵌入空间下为各个已知类别应用的网络流样本寻找最优分类超平面。即对于每个已知类别y，给定类别y在嵌入空间下的训练样本集合

和预定义的泛化系数β，其中f()是由训练好的CNN所表示的非线性映射函数，f(x)为样本x在嵌入空间下的特征表示，

表示来自类别y的第i个样本，m+1为类别y包含的训练样本数，通过以下过程来获取类别y的最优分类超平面：

(1)计算类别y在嵌入空间下的类别中心center[y]：

(2)对于嵌入空间下训练样本集合

中的每个训练样本

计算

与类别中心center[y]的距离t_i：

其中，||·||₂为L2范数，将所得距离集合记为T＝{t₀,t₁,...,t_m}；

(3)将距离集合T＝{t₀,t₁,...,t_m}中所有元素按照从小到大的顺序进行排序，将已排序后的距离集合记为

(4)计算已排序距离集合

中相邻百分位数之间的间隔，即对于 i∈{0,1,2,...,99}，依次计算

其中

是对M向下取整操作，得到百分位数间隔集合A＝{a₀,...,a₉₉}；

(例如m＝350，则

)

(5)分别计算百分位数间隔集合A的子集合

的均值和标准差μ，σ；

(6)初始化分类超平面S_y为：以center[y]为中心，半径r_O为

的超球面；

(7)初始化循环变量j＝1；

(8)判断循环变量j的大小，若j＜10，则跳转至(9)，否则若j＝10，跳转至(10)；

(9)若百分位数间隔集合A＝{a₀,a₁,...,a₉₉}中第(89+j)个百分位数间隔大于 μ+β×σ，即a_89+j＞μ+β×σ，则更新半径r_O为已排序距离集合

中的第

个元素

与μ+β×σ的和，即：

然后跳转至步骤(11)；否则，更新循环变量j为j←j+1，然后跳转至(8)；

(10)更新半径r_O为已排序距离集合

中的最大元素

与μ+β×σ的和，即：

(11)在嵌入空间下，以训练集中属于类别y的样本

为正类，以训练集中其他不属于类别y的样本为负类，使用SVM算法训练二值分类器，令h为该二值SVM分类器的分类超平面；

(12)使用得到的二值SVM分类器的分类超平面h对分类超球面S_y进行约束，更新S_y为：S_y←S_y∩h；

(13)返回类别y的分类超平面S_y；

通过对训练集中的每个已知类别y_i，使用上述(1)～(13)过程在嵌入空间下为该类别寻找相应的最优分类超平面

最终的分类器C由训练集中所有已知类别的最优分类超平面所组成：

即：分类器C依次根据C中的最优分类超平面

来判断待检测样本是否属于已知类别y_i，其中k为训练集中已知类别的个数。

所述检测模块使用得到的分类器C，在嵌入空间下对待识别的网络流进行分类，判断其是否属于未知恶意流量。给定嵌入空间下待检测的样本集合

和分类器

检测过程如下：

(1)对于待检测的样本集合F_test中的每个待检测样本

执行(2)～(4)；

(2)若只有一个分类超平面

将待检测样本

判别为正类，则将该分类超平面

对应的类别标签分配给待检测样本

否则跳转至(3)；

(3)若存在包含多于一个分类超平面的集合subset(C)∈C，且该集合中所有分类超平面都将待检测样本

判别为正类，则将该集合subset(C)中类别中心距离

最近的类别标签分配给待检测样本

否则跳转至(4)；

(4)将类别标签unknown分配给待检测样本

(5)返回待检测样本集合F_test相应的类别标签集合。

所述深度神经网络模型采用2维深度卷积神经网络。

本发明的一种基于深度嵌入的未知恶意流量主动检测方法，包括以下步骤：

步骤1：网络流预处理。将各个应用产生的长度不一的网络流表示为固定大小的流矩阵，以满足深度嵌入模块中孪生卷积神经网络(Siamese Convolutional NeuralNetwork， SCNN)的输入格式要求，将经过预处理得到的满足输入格式要求的流矩阵称为网络流样本。其中，每个应用产生的网络流对应一个类别，不同应用产生的网络流属于不同的类别，而SCNN则由两个共享网络权重参数的完全相同的卷积神经网络(CNN)组成。

步骤2：网络流深度嵌入。将已收集的所有应用产生的网络流样本作为训练集，在训练阶段，将训练集中的网络流样本作为输入，通过在对比损失函数的监督下训练SCNN 来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流分布更加紧凑，即欧式距离更小，不同应用产生的网络流分布更加离散，即欧式距离更大，其中，非线性映射由训练好的SCNN中的CNN所表示，训练完成后，使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下；在测试阶段，使用训练好的CNN 将待识别的网络流样本映射到嵌入空间下；

步骤3：最优边界搜索，在嵌入空间下，为各个已知类别(即，训练集中已包含的类别)的网络流寻找最优分类超平面，具体过程为：首先，对于训练集中的每个已知类别，为其寻找分类超球面；然后，以该类所包含的网络流样本为正类，训练集中其他的不属于该类的网络流样本为负类，利用SVM算法训练二值分类器得到相应的SVM分类面；接着，使用得到的SVM分类面来对上述分类超球面进行约束，进而得到针对该类别的最优分类超平面；最后，基于得到的所有已知类别的最优分类超平面来构建分类器，所述分类器由全部已知类别应用的分类超平面组成；

步骤4：检测，在嵌入空间下，基于最优边界搜索模块得到的分类器，判断待识别的网络流样本是否来自未知的恶意应用。

本发明与现有技术相比的优点在于：

(1)本发明通过解决开放空间分类问题来检测未知恶意流量。其利用深度度量学习技术学习正常数据中相同类别数据之间的相似性和不同类别数据之间的差异性，使得在特征空间下，相同类别数据分布更加紧凑，不同类别数据分布更加离散。在构建分类器时，本发明既考虑了每个类别数据自身的信息，也考虑了该类别数据与其他类别数据之间的差异信息，进而使得检测结果具有更低的误报率和更高的检测率。

(2)本发明的基于深度嵌入的未知恶意流量主动检测系统，通过解决“开放世界分类”(open world classification)问题来检测未知恶意流量。所谓开放世界分类是指，给定测试数据集，分类器应该能够将已知类别数据分类到相应的类别，并且识别那些不属于任何已知类别的数据。考虑到恶意样本获取困难，本发明仅使用正常应用产生的流量数据进行模型构建。

基于单类分类器的恶意流量检测方法也是通过对正常网络流量建模来检测恶意流量。Schwenk等人提出了DUMONT，它从HTTP请求中提取了包括熵、头部字段长度、流量时序特点等17个数字特征来检测隐秘传输。Sakib等人从HTTP请求数据包和DNS响应数据包中提取了统计特征来检测基于HTTP的僵尸主机C&C通信流量。Nguyen等人在提取的2v-gram特征上应用卡方检验来选择最优特征集来进行入侵检测。虽然基于单类分类器的方法具有一定程度的未知威胁检测能力，但是由于其在构建检测模型时只考虑了本类别自身的信息，而没有考虑其他类别的信息，因此，其往往具有较高的误报率和较低的检测率。与之相比，本发明充分考虑了正常数据中相同类别数据之间的相似性和不同类别数据之间的差异性，在构建分类器时，本发明既考虑了每个类别数据自身的信息，也考虑了该类别数据与其他类别数据之间的差异信息，其检测结果具有更低的误报率和更高的检测率。

附图说明

图1为本发明系统的组成框图。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

1.问题定义

在训练阶段，给定训练样本集

其中

是训练样本，y_i∈{l₁,l₂,...,l_k}是x_i相应的类别标签。在测试阶段，需要预测一个开放样本集 D₀＝{(x_i,y_i)}^∞的类别标签y_i，其中y_i∈{l₁,l₂,...,l_k,...,l_K}，K＞k。在本文中，每个样本x_i代表一条网络流(即，具有相同IP五元组<源IP，源端口，目的IP，目的端口，传输层协议>的一组连续的数据包)，相应的类别标签y_i代表产生x_i的应用。本发明的目标是使用给定的训练样本集构建一个分类器C:x→Y′＝{l₁,l₂,...,l_k,unknown}，其中unknown代表在训练阶段没有出现过的类别。测试阶段被分类到unknown类别的网络流则被判定为未知恶意流量。

2.如图1所示，本发明具体实施步骤

步骤1:预处理模块

预处理模块以原始的网络流作为输入，将每条网络流表示为固定大小的流矩阵。具体处理流程如下：

(1)若网络流长度(即，包含的数据包个数)小于4，则丢弃，否则跳转至(2)；

(2)截取网络流的前32个数据包，并且对于每个数据包，截取从传输层头开始的512个字节，若网络流长度小于32或者IP包长度小于512，则用0填充，将网络流表示成大小为32*512的矩阵；

(4)将步骤(3)中所得矩阵大小重新调整为128*128。

步骤2:深度嵌入模块

以步骤1中所得到的流矩阵作为输入，在对比损失(contrastive loss)函数的监督下对孪生神经网络进行训练来学习一种非线性映射，使得经过映射后的网络流在嵌入空间下具有更小的类内距离和更大的类间距离。

与传统的经验损失函数不同，对比损失函数以样本对作为输入，其定义：

其中

是样本对指示器，表示样本对(x_i,x_j)是否来自同一类别， h(x)＝max(0,1-x)是hinge函数，D(x_i,x_j)是样本对(x_i,x_j)的欧几里得距离，其定义如下：

D(x_i,x_j)＝||f(x_i)-f(x_j)||₂ (2)

其中f()是由CNN所表示的非线性映射函数，f(x)为样本x在低维嵌入空间下的特征表示，||·||₂为L2范数。

从式(1)中可以看出，当(x_i,x_j)来自于同一类别时，我们希望最小化样本对在低维嵌入空间下的距离D(x_i,x_j)；当(x_i,x_j)来自于不同的类别时，我们希望样本对之间的距离不小于一个预定义的边距m，当不同类别之间的样本距离小于m时，式(1)的第二项会对最终的损失产生作用。

考虑到当训练集中包含大量训练样本时，会产生一个巨大的样本对空间。具体来说，给定一个包含N个样本的训练集，存在

个可能的样本对。若使用全部的样本对进行CNN训练会带来很高的计算代价。此外，在整个样本对空间中，存在很多的负样本对(即，样本对中的两个样本来自不同的类别)满足式(1)中第二项的约束。由于它们对CNN 的训练不起作用，所以往往使得CNN网络参数的收敛速度很慢。下面本发明使用一种简单的训练样本对生成策略来使得CNN的训练更加有效。给定训练样本集 X＝{x_i|i＝1,2,...,N}和相应的标签Y＝{y_i|i＝1,2,...,N}，样本对生成的具体过程如下：

(1)初始化样本对集合pairs为空：pairs←{}；

(2)获取训练样本的标签集合：label_set←set(Y)；

其中M为标签为l的样本数量；

(5)若样本对指示器

等于1，则将

加入到pairs，跳转(4)执行；

(6)若样本对指示器

等于0，跳转(7)执行；

(7)随机从label_set中选择一个不等于y_i的标签y′；

(8)随机选择一个标签为y′的样本x′；

(9)将

加入到pairs，跳转(4)执行。

步骤3:最优边界搜索模块

最优边界搜索模块通过在嵌入空间下为各个已知类别应用的网络流样本寻找最优分类超平面来构建分类器C。即对于每个已知类别y，给定类别y在嵌入空间下的训练样本集合

表示来自类别y的第 i个样本，m+1为类别y包含的训练样本数，通过以下过程来获取类别y的最优分类超平面：

(1)计算类别y在嵌入空间下的类别中心center[y]：

(2)对于嵌入空间下训练样本集合

中的每个训练样本

计算

与类别中心center[y]的距离t_i：

(4)计算已排序距离集合

其中

是对M向下取整操作，得到百分位数间隔集合A＝{a₀,a₁,...,a₉₉}；(例如m＝350，则

)；

(5)分别计算百分位数间隔集合A的子集合

的均值和标准差μ，σ；

(6)初始化分类超平面S_y为：以center[y]为中心，半径r_O为

的超球面；

(7)初始化循环变量j＝1；

(9)若a_89+j＞μ+β×σ，则更新半径r_O为：

(10)更新半径r_O为：

(11)在嵌入空间下，以训练集中属于类别y的样本集

(13)返回类别y的分类超平面S_y。

其中k为训练集中已知类别的个数。

上述最优边界搜索算法的核心思想是：初始化目标类别y的分类超平面为仅包含90％目标类别样本的超球面，此时模型处于过特化(overspecialization)的状态。然后通过逐渐增加超球面的半径来不断提高模型的泛化能力，直到两者达到平衡状态。进一步地，通过使用二值SVM分类器的分类超平面对上述分类超球面进行约束，使得模型的构建同时考虑了正类(目标类别)和负类(非目标类别的其他已知类别)信息。

步骤4:检测模块

检测模块使用步骤3中得到的分类器C，在嵌入空间下对待识别的网络流进行分类，判断其是否属于未知恶意流量。给定嵌入空间下待检测的样本集合

和分类器

检测过程如下：

(1)对于待检测的样本集合F_test中的每个待检测样本

执行(2)～(4)；

(2)若只有一个分类超平面

将待检测样本

判别为正类，则将该分类超平面

对应的类别标签分配给待检测样本

否则跳转至(3)；

判别为正类，则将该集合subset(C)中类别中心距离

最近的类别标签分配给待检测样本

否则跳转至(4)；

(4)将类别标签unknown分配给待检测样本

(5)返回待检测样本集合F_test相应的类别标签集合。

总之，本发明克服了传统基于多分类的方法只能检测已知恶意软件或者其变种的不足，通过解决开放空间分类问题来检测未知恶意流量。其利用深度度量学习技术学习正常数据中相同类别数据之间的相似性和不同类别数据之间的差异性，使得在特征空间下，相同类别数据分布更加紧凑，不同类别数据分布更加离散。在构建分类器时，本发明既考虑了每个类别数据自身的信息，也考虑了该类别数据与其他类别数据之间的差异信息，进而使得检测结果具有更低的误报率和更高的检测率。

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种基于深度嵌入的未知恶意流量主动检测系统，其特征在于，包括：预处理模块、深度嵌入模块、最优边界搜索模块和检测模块；

预处理模块：将各个应用产生的长度不一的网络流分别表示为固定大小的流矩阵，以满足深度嵌入模块中孪生卷积神经网络SCNN(Siamese Convolutional Neural Network，SCNN)的输入格式要求；将经过预处理得到的满足输入格式要求的流矩阵称为网络流样本，其中，每个应用产生的网络流对应一个类别，不同应用产生的网络流属于不同的类别，而SCNN则由两个共享网络权重参数的完全相同的卷积神经网络(CNN)组成；

深度嵌入模块：将已收集的所有应用产生的网络流样本作为训练集，在训练阶段，将训练集中的网络流样本作为输入，通过使用对比损失函数(contrastive loss)训练SCNN来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流分布更加紧凑，即欧式距离更小，不同应用产生的网络流分布更加离散，即欧式距离更大，其中，非线性映射由训练好的SCNN中的CNN所表示；训练完成后，使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下；在测试阶段，使用训练好的CNN将待识别的网络流样本映射到嵌入空间下；

最优边界搜索模块：最优边界搜索模块通过在嵌入空间下为训练集中各个已知类别即训练集中已包含的类别的网络流寻找最优分类超平面来构建分类器C，具体过程为：首先，对于训练集中的每个已知类别，为其寻找一个分类超球面；然后，以训练集中该类所包含的网络流样本为正类，训练集中其他的不属于该类的网络流样本为负类，利用SVM算法训练二值分类器得到相应的SVM分类面；接着，使用得到的SVM分类面来对上述分类超球面进行约束，进而得到针对该类别的最优分类超平面；最后，基于得到的所有已知类别的最优分类超平面来构建分类器，所述分类器由全部已知类别的分类超平面组成；

2.根据权利要求1所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述预处理模块具体处理流程如下：

(4)将步骤(3)中所得矩阵大小重新调整为128*128；

3.根据权利要求1所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述深度嵌入模块具体实现如下：

在训练阶段：

(2)以样本对集合pairs中的样本对作为输入，在对比损失函数的监督下，对SCNN进行训练来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流之间欧式距离更小，不同应用产生的网络流之间欧式距离更大，其中，非线性映射由训练好的SCNN中的CNN所表示，对比损失函数的具体定义如下：

其中x∈X＝{x_i|i＝1,2,...,N}是训练样本集中的网络流样本，

D(x_i,x_j)＝||f(x_i)-f(x_j)||₂ (2)

其中f(·)是由CNN所表示的非线性映射函数，f(x)为样本x在嵌入空间下的特征表示，||·||₂为L2范数，式(1)中的第一项用来最小化来自同一类别的样本对之间的距离，式(1)中的第二项用来确保对于来自不同类别的样本对，它们之间的距离需大于一个预定义的边距m；

(3)使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下；

在测试阶段：

4.根据权利要求2所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述样本对生成的具体过程如下：给定训练样本集X＝{x_i|i＝1,2,...,N}和相应的类别标签Y＝{y_i|i＝1,2,...,N}，

(1)初始化样本对集合pairs为空：pairs←{}；

(2)获取训练集中所有训练样本的标签集合：label_set←set(Y)；

其中M为标签为l的样本数量；

(5)若样本对指示器

等于1，则将

加入到样本对集合pairs，跳转步骤(4)执行；

(6)若样本对指示器

等于0，跳转(7)执行；

(7)随机从label_set中选择一个不等于y_i的标签y′；

(8)随机选择一个标签为y′的样本x′；

(9)将

加入到样本对集合pairs中，跳转步骤(4)执行。

5.根据权利要求1所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述最优边界搜索模块具体实现如下：

首先，在嵌入空间下为各个已知类别应用的网络流样本寻找最优分类超平面，即对于每个已知类别y，给定类别y在嵌入空间下的训练样本集合

和预定义的泛化系数β，其中f(·)是由训练好的CNN所表示的非线性映射函数，f(x)为样本x在嵌入空间下的特征表示，

(1)计算类别y在嵌入空间下的类别中心center[y]：

(2)对于嵌入空间下训练样本集合

中的每个训练样本

计算

与类别中心center[y]的距离t_i：

(4)计算已排序距离集合

中相邻百分位数之间的间隔，即对于i∈{0,1,2,...,99}，依次计算

其中

(5)分别计算百分位数间隔集合A的子集合

的均值和标准差μ，σ；

(6)初始化分类超平面S_y为：以center[y]为中心，半径r_O为

的超球面；

(7)初始化循环变量j＝1；

(9)若百分位数间隔集合A＝{a₀,a₁,...,a₉₉}中第(89+j)个百分位数间隔大于μ+β×σ，即a_89+j＞μ+β×σ，则更新半径r_O为已排序距离集合

中的第

个元素

与μ+β×σ的和，即：

(10)更新半径r_O为已排序距离集合

中的最大元素

与μ+β×σ的和，即：

(11)在嵌入空间下，以训练集中属于类别y的样本集

(13)返回类别y的分类超平面S_y；

即：分类器C依次根据C中的最优分类超平面

6.根据权利要求1所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述检测模块使用得到的分类器C，在嵌入空间下对待识别的网络流进行分类，判断其是否属于未知恶意流量，给定嵌入空间下待检测的样本集合

和分类器

检测过程如下：

(1)对于待检测的样本集合F_test中的每个待检测样本

执行(2)～(4)；

(2)若只有一个分类超平面

将待检测样本

判别为正类，则将该分类超平面

对应的类别标签分配给待检测样本

否则跳转至(3)；

判别为正类，则将该集合subset(C)中类别中心距离

最近的类别标签分配给待检测样本

否则跳转至(4)；

(4)将类别标签unknown分配给待检测样本

(5)返回待检测样本集合F_test相应的类别标签集合。

7.根据权利要求1所述的基于深度嵌入的未知恶意流量主动检测系统，其特征在于：所述深度神经网络模型采用2维深度卷积神经网络。

8.一种基于深度嵌入的未知恶意流量主动检测方法，其特征在于，包括以下步骤：

步骤1：网络流预处理，将各个应用产生的长度不一的网络流分别表示为固定大小的流矩阵，以满足深度嵌入模块中孪生卷积神经网络(Siamese Convolutional NeuralNetwork，SCNN)的输入格式要求，将经过预处理得到的满足输入格式要求的流矩阵称为网络流样本，其中，每个应用产生的网络流对应一个类别，不同应用产生的网络流属于不同的类别，而SCNN则由两个共享网络权重参数的完全相同的卷积神经网络(CNN)组成；

步骤2：网络流深度嵌入，将已收集的所有应用产生的网络流样本作为训练集，在训练阶段，将训练集中的网络流样本作为输入，通过使用对比损失函数训练SCNN来学习一种非线性映射，使得在非线性映射后的嵌入空间下，同一个应用产生的网络流分布更加紧凑，即欧式距离更小，不同应用产生的网络流分布更加离散，即欧式距离更大，其中，非线性映射由训练好的SCNN中的CNN所表示，训练完成后，使用训练好的CNN将训练集中的网络流样本映射到嵌入空间下；在测试阶段，使用训练好的CNN将待识别的网络流样本映射到嵌入空间下；