CN110995652B

CN110995652B - 一种基于深度迁移学习的大数据平台未知威胁检测方法

Info

Publication number: CN110995652B
Application number: CN201911065689.5A
Authority: CN
Inventors: 孙治; 周玉金; 刘正军; 李春林; 陈剑锋; 徐锐; 饶志宏
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2019-11-04
Filing date: 2019-11-04
Publication date: 2021-11-12
Anticipated expiration: 2039-11-04
Also published as: CN110995652A

Abstract

本发明公开了一种基于深度迁移学习的大数据平台未知威胁检测方法，包括如下步骤：步骤一、构建源领域样本集；步骤二、采用与步骤一相同的方法采集目标领域的样本数据，然后采用数据增强的方法对样本数据进行扩充，构建目标领域样本集；步骤三、构建基于深度迁移学习的威胁检测模型。与现有技术相比，本发明的积极效果是：1、通过目标领域的数据增强，改善深度学习模型泛化能力不足的问题，进而提升了深度学习模型的预测效果。2、通过针对互联网海量威胁样本的迁移学习，实现了在不降低已知威胁检测率的前提下，有效检测没有出现过的未知威胁。3、通过融合特征的深度神经网络，融合了不同维度的行为特征，提升了模型的识别准确率。

Description

一种基于深度迁移学习的大数据平台未知威胁检测方法

技术领域

本发明涉及一种基于深度迁移学习的大数据平台未知威胁检测方法。

背景技术

伴随着互联网技术、移动通信技术的日益发展和普及，大数据平台也面临着网络威胁和数据安全问题。大数据平台与用户之间的信息交换量大大提高，大数据平台领域的数据安全和风险防范比传统网络更加复杂。特别是针对Hadoop等与移动业务系统整合的大数据平台，当前往往缺乏安全保护手段，或者采用的安全防御不足，面临数据窃取、数据完整、身份伪造等安全威胁且存在威胁样本较少的问题。针对现有大数据平台威胁检测方法的不足，提出一种基于深度迁移学习的未知威胁检测方法，采用深度迁移学习已有的知识来解决大数据平台中仅有少量标注样本数据的学习问题。

现有发明中与迁移学习和威胁检测有关的方法有：一种网络威胁检测系统及检测方法(申请号：CN201610970197.0，申请日期：2016.10.28)，通过提取实时采集网络流量数据的特征进行威胁检测，该方案可以识别基于流量的网络威胁，但是由于只采集流量数据作为威胁特征，识别非流量特征的能力较差；一种威胁检测方法及装置(申请号：CN201710124581.3，申请日期：2017.03.03)，通过检测传输控制协议TCP会话中的报文，有效的检测反弹端口型木马程序，但该方案只针对反弹端口型木马威胁，不能解决大数据平台面临的其它安全威胁；高级威胁检测方法及智能探针装置和高级威胁检测系统(申请号：CN201810695099.X，申请日期：2018.06.29)，通过智能探针检测用户设备中的资源占用信息和操作日志进行威胁检测，但由于没有采集流量特征不能检测恶意流量威胁；迁移学习方法及装置(申请号：CN201510032970.4，申请日期：2015.01.22)，该发明仅是迁移学习的一种实现方法及装置，并未涉及应用领域特别是网络安全，该方案提出的迁移学习方法也不适合本发明。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于深度迁移学习的大数据平台未知威胁检测方法，主要针对大数据平台面临的未知威胁提出解决方案，具体针对以下几个方面的问题提出解决方案：

1)如何检测针对大数据平台的未知威胁，解决大数据平台的威胁小样本数据集的问题；

2)如何采集未知威胁的特征，解决威胁特征类别不足的问题；

3)如何提高未知威胁的识别率，解决多种威胁特征的融合问题以及融合特征的深度神经网络训练问题。

本发明解决其技术问题所采用的技术方案是：一种基于深度迁移学习的大数据平台未知威胁检测方法，包括如下步骤：

步骤一、构建源领域样本集：

在大数据平台的各个节点上部署信息采集探针装置，将不同的恶意软件单独放在沙箱中执行一段时间后，采集不同维度的特征数据，并将特征数据进行归一化处理；

步骤二、采用与步骤一相同的方法采集目标领域的样本数据，然后采用数据增强的方法对样本数据进行扩充，构建目标领域样本集；

步骤三、构建基于深度迁移学习的威胁检测模型：

先使用源领域样本集训练深度学习，然后用目标领域样本集对模型进行再训练，得到基于融合特征的深度神经网络威胁检测模型。

与现有技术相比，本发明的积极效果是：

本发明基于迁移学习，基于融合特征的深度神经网络等方式大大提高了针对大数据平台的威胁检测能力，相比现有技术主要具备以下有益效果和优点：

1、通过目标领域的数据增强，扩充了针对大数据平台的威胁样本，改善深度学习模型泛化能力不足的问题，进而提升了深度学习模型的预测效果。

2、通过针对互联网海量威胁样本的迁移学习，实现了在不降低已知威胁检测率的前提下，有效检测没有出现过的未知威胁。

3、通过融合特征的深度神经网络，融合了不同维度的行为特征，充分表征了各个节点的工作状态，提升了模型的识别准确率。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的基于深度迁移学习的威胁检测方案原理图；

图2为基于融合特征的深度神经网络威胁检测原理图。

具体实施方式

一、实现方案

本发明所提出的方案实现了基于深度迁移学习的威胁检测框架，主要包含数据采集和处理、迁移学习以及深度学习威胁检测。通过不同的调用方式，构成了完整的基于深度迁移学习的大数据平台威胁检测系统。图1给出了基于深度迁移学习的威胁检测方案的示意图。以下基于图1说明工作原理。

如图1所示，本发明的核心内容是从其他恶意程序的执行过程中获取相应的数据，构建源领域的大型威胁样本集，利用该样本集中丰富的监督信息来帮助目标领域深度学习模型的训练。

在数据采集和处理方面，采取在大数据平台的各个节点上部署信息采集探针装置，然后将不同的恶意软件单独放在沙箱中执行一段时间，通常设定执行时间为30分钟，每次采样的间隔时间为3秒，采集相关的系统信息或者日志信息，共4类不同维度的特征数据用以反应节点工作状态，包括：网络流量数据、处理器性能数据、内存性能数据、磁盘性能数据。因为采集的数据量纲不同，在数据处理过程，需要用归一化手段，将数据归一到[-1,1]区间，这样就完成了源领域的大规模样本集构建。而针对目标领域，也采用相同的方法构建小样本数据，然后使用数据增强的方法扩充小样本集，具体而言就是把样本向量的每一个维度添加一个随机扰动项，扰动项取值范围为[-0.001,0.001]之间，这样就可以按照需求扩充小样本数据集。在采样时间间隔内，各个节点采集到的特征数据上传到具有威胁检测能力的中心节点，以便后面进行未知威胁检测。

下面分别介绍在采样时间间隔内，每类特征具体需要采集的数据。

1)网络流量数据：最大流量包长度、最小流量包长度、后向方差数据字节、FIN包的个数、最大空闲时间、初始窗口阶段发送的字节数。共计6个特征。

2)处理器性能数据：用户空间的cpu最大使用率、内核空间的cpu最大使用率、cpu最大空闲率、cpu在等待I/O的最大时间、cpu处理软中断的数量、cpu处理硬中断的数量。共计6个特征。

3)内存性能数据：可使用的内存平均数、交换分区的平均大小、交换分区的平均大小、系统换入的交换页面数量、系统换出的交换页面数量、系统产生的缺页数量。共计6个特征。

4)磁盘性能数据：可使用的磁盘平均数、数磁盘读出的块的总数、写入磁盘的块的总数、I/O请求的平均大小、I/O请求的平均等待时间、处理I/O请求所占用的时间。共计6个特征。

在迁移学习方面，使用领域自适应的迁移学习方法。领域自适应是最常用的迁移学习方法之一。源领域和目标领域是领域自适应问题中两个至关重要的概念。源领域表示与测试样本不同的领域，但是有丰富的监督信息，目标领域表示测试样本所在的领域，无标签或者只有少量标签。源领域和目标领域往往属于同一类任务，但是样本的分布不同。我们威胁检测的目标领域是大数据平台的威胁，该细分领域威胁样本规模非常有限，属于典型的小样本数据集。源领域是互联网广泛的恶意代码威胁，拥有海量的威胁样本。因此，方案中先使用源领域海量威胁样本训练深度学习，然后用扩充后的小样本数据集对模型进行再训练，最终得到一个能够检测大数据平台未知威胁的模型。

在深度学习威胁检测方面，方案使用了一种基于融合特征的深度神经网络威胁检测模型，该模型分为了两部分组成，分别是特征融合网络和威胁检测网络。特征融合网络可以融合不同种类的威胁样本特征，而威胁检测网络可以将融合后的特征作二分类，识别其行为是否具有威胁。基于融合特征的深度神经网络威胁检测模型的工作原理参见下一小节。

二、威胁检测的原理

在上一节介绍的数据采集处理和迁移学习的基础上，本节进一步阐释基于融合特征的深度神经网络威胁检测模型的工作原理。

如图2所示，本方案的中使用的深度学习模型包含分为了两部分组成：特征融合网络和威胁检测网络。首先定义t∈{1,2,3,4}表示4种特征融合网络，l^t＝{1,2,3}是特征融合网络的每一层，x^t是特征融合网络的输入向量：流量特征向量，内存特征向量，处理器特征向量，磁盘特征向量；然后用

代表输入到l^t层的向量，

是l^t层的输出，

表示l^t层的权重，

是l^t层的偏移量，神经网络的激活函数f采用的是线性整流函数(ReLU)。那么特征融合网络向前传递公式为：

接下来定义l'＝{1,2,3,4}是威胁检测网络的每一层，z'^(l')代表输入到l'层的向量，y'^(l')是l'层的输出，W^(l')表示l'层的权重，b^(l')是l'层的偏移量，神经网络的激活函数f同样采用的是线性整流函数，o是威胁检测网络的输出函数，采用Sigmoid函数。那么威胁检测网络向前传递公式为：

z'^(l′+1)＝W'^(l′+1)y'^(l′)+b'^(l′+1)

y'^(l′+1)＝f(z'^(l′+1))＝max(0,z'^(l′+1)),l'≠4

用L表示训练数据的标签，L'表示威胁检测模型的预测标签。那么当y'⁽⁴⁾≥0.5时，表示检测到有威胁，L'＝1；y'⁽⁴⁾<0.5时，表示没有检测到威胁，L'＝0。基于融合特征的深度神经网络在训练过程中，采用的是交叉熵损失函数：

Claims

1.一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：包括如下步骤：

步骤一、构建源领域样本集：

步骤三、构建基于深度迁移学习的威胁检测模型：

先使用源领域样本集训练深度学习，然后用目标领域样本集对模型进行再训练，得到基于融合特征的深度神经网络威胁检测模型：特征融合网络和威胁检测网络，其中：特征融合网络向前传递公式为：

式中，t∈{1,2,3,4}表示4种特征融合网络，l^t＝{1,2,3}是特征融合网络的每一层，x^t是特征融合网络的输入向量，

代表输入到l^t层的向量，

是l^t层的输出，

表示l^t层的权重，

是l^t层的偏移量，f是神经网络的激活函数，采用线性整流函数。

2.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：对样本数据进行扩充的方法为：将样本向量的每一个维度添加一个取值范围为[-0.001,0.001]之间的随机扰动项，然后再按照需求扩充小样本数据集。

3.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：所述不同维度的特征数据包括：

1)网络流量数据：最大流量包长度、最小流量包长度、后向方差数据字节、FIN包的个数、最大空闲时间、初始窗口阶段发送的字节数；

2)处理器性能数据：用户空间的cpu最大使用率、内核空间的cpu最大使用率、cpu最大空闲率、cpu在等待I/O的最大时间、cpu处理软中断的数量、cpu处理硬中断的数量；

3)内存性能数据：可使用的内存平均数、交换分区的平均大小、交换分区的平均大小、系统换入的交换页面数量、系统换出的交换页面数量、系统产生的缺页数量；

4)磁盘性能数据：可使用的磁盘平均数、数磁盘读出的块的总数、写入磁盘的块的总数、I/O请求的平均大小、I/O请求的平均等待时间、处理I/O请求所占用的时间。

4.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：所述特征融合网络的输入向量为：流量特征向量、内存特征向量、处理器特征向量、磁盘特征向量。

5.根据权利要求1所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：所述威胁检测网络向前传递公式为：

z'^(l′+1)＝W'^(l′+1)y'^(l′)+b'^(l′+1)

y'^(l′+1)＝f(z'^(l′+1))＝max(0,z'^(l′+1)),l'≠4

式中，l'＝{1,2,3,4}是威胁检测网络的每一层，z'^(l')代表输入到l'层的向量，y'^(l′)是l'层的输出，W^(l')表示l'层的权重，b^(l')是l'层的偏移量，神经网络的激活函数f同样采用的是线性整流函数，o是威胁检测网络的输出函数，采用Sigmoid函数。

6.根据权利要求5所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：当y'⁽⁴⁾≥0.5时，L'＝1；当y'⁽⁴⁾<0.5时，L'＝0，其中L'表示威胁检测模型的预测标签。

7.根据权利要求6所述的一种基于深度迁移学习的大数据平台未知威胁检测方法，其特征在于：在所述基于融合特征的深度神经网络的训练过程中，采用如下交叉熵损失函数：

式中，L表示训练数据的标签。