CN109033836A

CN109033836A - 基于统计学习的恶意代码多模型交叉检测方法

Info

Publication number: CN109033836A
Application number: CN201810815327.2A
Authority: CN
Inventors: 王志; 余沛然; 孙心怡; 魏然; 邱克帆
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2018-12-18
Anticipated expiration: 2038-07-24
Also published as: CN109033836B

Abstract

本发明提出了一种基于统计学习的恶意代码多模型交叉检测方法，可较好地应用于在恶意代码检测领域。该方法引入可信度，解决各个机器学习模型彼此孤立的问题，提供一个机器学习模型间互相学习的平台。另外，在细粒度的统计学习平台上，多个机器学习模型从不同角度统计分析恶意代码的变异过程，缓解单一模型的退化问题，并使用APV算法来识别概念漂移现象，从而实现多模型共同防御。

Description

基于统计学习的恶意代码多模型交叉检测方法

技术领域

本发明属于计算机防病毒技术领域。

背景技术

人工分析已经难以及时分析如此海量的新增恶意代码，因此机器学习技术已经广泛的应用到恶意代码分析与检测系统中。但是，网络安全威胁在不断地快速变异和演化，在数量增长的同时，超过70％的新恶意代码样本采用了躲避机器学习的自我保护技术，有的样本甚至使用了多种躲避技术。因此，恶意代码的数据分布规律和显著水平在随时间不断的变化，导致基于机器学习的检测模型存在严重的快速退化问题。这就要求恶意代码分析模型需要根据网络安全威胁的变化进行动态调整，快速吸收新的知识，还需要对过去的威胁预测进行修正。

发明内容

本发明目的是解决现有的恶意代码的变异问题，以及各种机器学习模型的预测结果不能相互对比和共同防御的问题，提供一种基于统计学习的恶意代码多模型交叉检测方法。该方法提供一个多模型的开放平台，各种基于不一致打分机制的检测模型都可以整合进该平台。在根据已知恶意代码样本进行训练后，每个模型都会对未知样本计算一个不一致得分，统计学习对不一致得分进行统计分析，得到样本在不同模型上的显著度得分。根据显著度得分，选择得分最高的模型的预测结果作为最终多模型的预测结果，实现基于统计学习的交叉检测。

本发明的技术方案

基于统计学习的恶意代码多模型交叉检测方法，包括如下步骤：

步骤1、底层打分分类方法，包括如下步骤：

第1步、基本概念：

(1)网络流量(Netflow)：是同一网络通信时域的网络包的集合；

(2)网络痕迹(Trace)：是一组含有相同源IP、目的IP、目的端口和协议的多个网络流量(Netflow)；

(3)僵尸网络(Botnet)：指采用一种或多种传播手段，将大量主机感染僵尸程序(Bot)，从而在控制者和被感染主机之间所形成的一个能够一对多控制的网络；

(4)基于机器学习的检测模型：数据，学习算法，找到一个阈值(实现最佳的区分)建立模型，通过模型打分，比较打分和阈值的关系，预测结果。

第2步、特征提取

第2.1、确定网络行为的表示粒度，其中包括：数据包级粒度，每个数据包表示一个网络行为； NetFlow级粒度，一个网络连接过程的所有网络数据表示一个网络行为；应用级粒度，一个应用过程的所有数据包表示一个网络行为；

第2.2、提取网络行为的特征点f；根据不同的数据集，选择不同的网络行为特征点f；

第2.3、选择特征点，将网络行为抽象成特征向量V；在可选网络行为特征点中，选择n个特征点组成特征向量V(f1,f2,...fn)，使用选择的网络行为特征点作为网络行为的抽象表示，将二进制的网络数据映射成特征点组成的特征向量；

第2.4、网络恶意行为集合的特征矩阵表示；网络恶意行为集合中包含了N个行为，每个行为都使用相同结构的特征向量V_i表示，1≤i≤N，这N个特征向量组成网络恶意行为特征矩阵C；特征矩阵的每一列表示一个特征点、每一行表示一个网络恶意行为的特征向量；

第3步、计算机器学习模型的预测分数

第3.1、任何基于阈值的机器学习检测模型都能够作为打分函数，都可以加入到基于统计学习的恶意代码多模型交叉检测方法中。本发明列举了三种机器学习检测算法作为多模型交叉检测方法的说明，但并不仅仅局限于这三种机器学习检测算法，所有以积分为基础的算法都可以加入进来。举例说明用到的三种机器学习检测算法为BotFinder、ConformalClustering和BotHunter，具体的介绍如下：

BotFinder是一种基于流量相似度学习的恶意代码检测方法，将具有相同源IP、目的IP、目的端口号和通信协议的Netflow聚成Trace，从Trace中提取通信量特征，例如平均Netflow的发送字节数、平均Netflow的接收字节数，和时间特征，例如Netflow间的时间间隔、Netflow的平均持续时间、Netflow频率。BotFinder使用CLUES算法对僵尸网络家族的Trace进行聚类，基于每一类在不同特征点上的均值和方差建立检测模型。该方法可以有效的识别恶意代码之间在通信量分布、时间分布上的相似度，并基于最优化的阈值实现恶意代码的检测。

ConformalClustering是一种基于统计算法ConformalPrediction的恶意代码聚类模型。Conformal Clustering的数据对象是一个时间窗内一个主机所有Netflow的集合，从持续时间、通信频率、协议使用比例、端口使用比例、通信数据量的角度学习底层数据的分布规律，并在根据tSNE降维后的二维空间相对位置进行聚类。

BotHunter是一个基于多会话的关联算法，先根据僵尸网络的行为规律建立其生命周期模型，然后将主机的网络会话过程映射到该模型上，通过关联算法计算出一个当前会话与检测模型相似度的得分，并与预定义的阈值比较，得出预测的结果。

第3.2、每一个未知的恶意代码样本都能够根据不同机器学习模型得到相应的得分。

步骤2、基于ConformalPrediction算法的统计学习预测方法，该方法以步骤1所述的多种机器学习模型为底层，选用统计学习算法，计算一个待测样本x的显著度p-value，步骤如下：

第1步、计算显著度p-value

第1.1、输入：已知集合D包含n个恶意代码样本：D＝{z₁,…,z_n-1},z_i∈Z，其中恶意代码样本可重复但无顺序，多为已被分类或聚类算法处理后的具有某种相似性的恶意代码样本的集合；

①恶意代码样本z，待检测的未知代码样本，预测该代码样本与已知恶意代码样本集合的 p-value；

②不一致性度量函数A:Z^(*)×Z→R，该函数的输入为一个已知恶意代码样本集合和一个未知代码样本，返回值为一个实数，该实数可反映出输入代码样本与输入恶意代码样本集合的相似程度；

③显著水平ε，该数值可由用户指定，反映用户可接受的最大出错概率。

第1.2、输出：

恶意代码样本z的p-value值p_n；同时，若p_n大于显著水平ε，则输出True，否则输出False。

第1.3、算法流程：

令z_n＝z，D＝{z₁,…,z_n-1,z_n}，将代码样本z作为恶意代码样本集合D的第n个恶意代码样本加入集合中；

τ是一个Uni(0,1)分布的随机变量，用来平滑p_n的取值；显著水平是1-ε，表示样本与已知恶意代码样本集合一致的预测结论的可信度；

第2步、恶意代码变异的检测

使用基于时间窗平均p-values的APV(averagep-value)算法来检测恶意代码的变异过程；根据时间轴上的先后顺序将恶意代码样本切割成不同的时间窗大小；每个时间窗的APV值是基于之前所有时间窗的样本集合作为已知样本集合，依次计算当前时间窗每个样本的p-value值，然后求该时间窗样本的APV值；每个不一致度量函数都会在时间窗内得到一个APV值；

时间窗的APV值随时间的变化趋势反应了恶意数据在统计规律上随时间的变化；如果某个检测模型的APV值随时间逐渐降低，说明新的恶意代码样本的统计规律在该检测模型的观测角度，逐渐与已知的恶意代码样本统计规律产生差异，检测模型正在遭受恶意代码变异过程的影响，但并不一定出现检测模型的退化；恶意代码变异过程是一种量变过程，当恶意代码的得分超过检测模型在训练过程确定的最佳阈值，产生质变，检测模型出现退化现象；如果某个检测模型在新的时间窗内，APV值没有出现下降，说明当前时间窗恶意数据的分布规律在该检测模型的观测角度，没有出现恶意代码变异过程；

第3步、多模型共同防御

通过多模型从不同角度对恶意代码样本的分布规律进行建模，每个机器学习模型都会对该样本给出一个得分；由于这些得分不具有可比性，所以使用ConformalPrediction算法，将这些得分转换成可进行比较的统计量p-value；

统计量p-value是得分高于或等于被检测恶意代码样本得分的样本数量与总数的比值；一个样本的p-value越大表示该样本在已知的恶意代码样本集合中越显著；对于同一个样本，每个机器学习模型都生成一个p-value值；由于恶意代码的变异，可能导致平台上的部分机器学习模型无效；通过统计量p-value所表示的显著度，将选取显著度最高的模型预测结果，作为多模型共同防御的最终预测结果。

本发明的优点和积极效果：

本发明提出基于统计学习的恶意代码多模型交叉检测方法，该方法是开放的，任何基于固定阈值的机器学习检测模型都可以很容易架构到本发明的平台上，并得到统计学习算法给出的可信度值p-value，比传统的基于阈值的机器学习算法的评估体系，能够提前发现模型的老化现象，更好的应对网络恶意行为的变异、演变。

附图说明

图1是基于统计学习的恶意代码多模型交叉检测方法流程图。

图2是ConformalClustering模型下，四个变种共同输入后分别显示的T-SNE图。从图中可以直观地看出四个变种的相似程度很高，它们的形态相似且集中在很小的范围内。Conformal Clustering模型用到的算法是KDE、KNN算法，特征点的提取是决定检测效果的决定性因素。

图3是BotFinder模型下四个变种的T-SNE图。对比ConformalClustering模型，BotFinder模型下各变种的分散程度增加，极大可能性出现了概念漂移，需进一步证实。

图4是BotFinder模型下四个变种的APV值。从整体上看，V₁，V₂，V₃的APV逐步增长，检测效果较好，V₄的APV大幅下降。V₁，V₂同期产生，V₃，V₄同期产生，但是原模型仍然可以捕捉到V₃的恶意行为，但是对V₄的识别效率降低，模型在V₄变种的检测上出现退化。

图5是BotFinder模型下四个变种的全部样本的p-value值。可以很明显地看出，V₁的p-value 集中在0.6到1之间，V₃的p-value大多分布在0-0.8之间，V₂和V₄的p-value整体前移，尤其APV 明显下降的V₄的p-value最大值不超过0.36，在实际检测中，V₄变种的数据将低于阈值，被认为是善意数据。

图6、图7分别是本发明中BotHunter简化算法得出的四个变种的APV结果和p-value值。

从图6看出，在横向关联检测的BotHunter系统中，p-value整体维持在较高数值，且发现了 BotFinder的退化的V₄变种的p-value甚至有所提升。图7中，V₄的p-value数值集中于0.8到1之间。在对V₄检测时，已经吸收了前三个变种的知识，而第四个变种没有对横向分析算法进行躲避。这说明Miuref变种仅引起横向分析算法的退化，而没有引起纵向分析算法的退化。这说明在多模型平台上，如果某一个检测系统发生退化，其他系统仍可以发挥作用，很大程度上缓解了整个平台的衰老问题。

图8是实验提取出的部分特征数据。

[注]本发明实验采用Stratosphere项目的公开CTU数据集中的Miuref家族的数据，它具有四个不同变种V₁，V₂，V₃，V₄。

具体实施方式

本发明以检测僵尸网络为例进行具体说明，任何使用阈值比较的机器学习算法都可以作为底层打分函数应用到该方法上。

1、网络恶意行为

本实施方式，使用包含真实网络通信流量的数据集，数据集中包含多种僵尸网络。

2、提取特征

本实施方式，提取多个与每个网络痕迹有关的特征。这些特征包括通信频率、通信持续时间、发送和接收的字节数、发送和接收的包数、协议类型和使用3个端口(SystemPorts,UserPorts, Dynamic or Private Ports)的占比等，并不局限于这些特征，并将网络痕迹抽象成一个特征向量。向量的格式如图8所示，每一列是一个特征点，每一行是一个特征向量；

3、计算各机器学习模型的得分

用一组观测结果训练模型后，输入一个测试样本x，利用BotFinder，BotHunter和Conformal Prediction算法，计算它们的结果作为得分。其它的异构机器学习算法也可以加入到系统中，多种差异化的机器学习算法可以提升系统对数据分析的全面性和准确性。图2、图3是同一组数据，在两种异构的机器学习算法下的数据分布情况，可以看到数据分布有明显差异，原因在于算法的计算方法和打分结果是不一致的。

4、计算p-value

不一致性度量函数之间的数据对象、关注的特征点、机器学习算法、打分函数都各不相同，因此，不同度量函数的得分不具有可比性。一致性学习模块，使用ConformalPrediction算法，将不可比较的度量函数得分转换成可以进行比较的统计量p-values，使概念漂移算法可以同时评估多个机器学习模型。计算过程如下：

输入：已知集合D包含n个恶意代码样本：D＝{z₁,…,z_n-1},z_i∈Z，其中恶意代码样本可重复但无顺序，多为已被分类或聚类算法处理后的具有某种相似性的恶意代码样本的集合。

①恶意代码样本z，待检测的未知代码样本，预测该代码样本与已知恶意代码样本集合的 p-value。

②不一致性度量函数A:Z^(*)×Z→R，该函数的输入为一个已知恶意代码样本集合和一个未知代码样本，返回值为一个实数，该实数可反映出输入代码样本与输入恶意代码样本集合的相似程度。

输出：

算法流程：

令z_n＝z，D＝{z₁,…,z_n-1,z_n}，将代码样本z作为恶意代码样本集合D的第n个恶意代码样本加入集合中。

τ是一个Uni(0,1)分布的随机变量，用来平滑p_n的取值。显著水平是1-ε，表示样本与已知样本集合一致的预测结论的可信度。

根据机器学习的得分来计算p-value，如图5是BotFinder模型下四个变种的全部样本的p-value 值。其中，V1的p-value集中在0.6到1之间，V3的p-value大多分布在0-0.8之间，V2和V4的 p-value整体前移，尤其是V4，其p-value最大值不超过0.36。

5、概念漂移检测

本发明使用基于时间窗平均p-values的APV(averagep-value)算法来检测恶意代码的变异过程。根据时间轴上的先后顺序将恶意代码样本切割成不同的时间窗大小。每个时间窗的APV值是基于之前所有时间窗的样本集合作为已知样本集合，依次计算当前时间窗每个样本的p-value值，然后求该时间窗样本的APV值。每个不一致度量函数都会在时间窗内得到一个APV值。

时间窗的APV值随时间的变化趋势反应了恶意数据在统计规律上随时间的变化；如果某个检测模型的APV值随时间逐渐降低，说明新的恶意代码样本的统计规律在该检测模型的观测角度，逐渐与已知的恶意代码样本统计规律产生差异，检测模型正在遭受恶意代码变异过程的影响，但并不一定出现检测模型的退化；恶意代码变异过程是一种量变过程。当恶意代码的得分超过检测模型在训练过程确定的阈值，恶意代码产生质变，检测模型出现退化现象；如果某个检测模型在新的时间窗内，APV值没有出现下降，说明当前时间窗恶意数据的分布规律在该检测模型的观测角度，没有出现恶意代码变异过程；图4、图5、图6、图7所示，综合多种异构的机器学习算法，可以发现数据APV的变化，从而检测到恶意代码的概念漂移现象。

6、多模型共同防御

通过多模型从不同角度对恶意代码样本的分布规律进行建模，每个机器学习模型都会给该样本给出一个得分。由于这些得分不具有可比性，所以本发明使用ConformalPrediction算法，将这些得分转换成可进行比较的统计量p-value。

统计量p-value是得分高于或等于被检测恶意代码样本得分的样本数量与总数的比值。一个样本的p-value越大表示该样本在已知的恶意代码样本集合中越显著。对于同一个样本，每个机器学习模型都生成一个p-value值。由于恶意代码的变异，可能导致平台上的部分机器学习模型无效。通过统计量p-value所表示的显著度，将选取显著度最高的模型预测结果，作为多模型共同防御的最终预测结果。

实验中，我们发现，恶意代码的变异对基于纵向关联检测的BotFinder模型，和基于横向关联检测的BotHunter模型造成的退化情况不同。我们在平台上结合了BotHunter简化算法，它的四个变种的APV结果和p-value值如图6、图7所示。从图6看出，在横向关联检测的BotHunter系统中，p-value整体维持在较高数值，且发现了BotFinder的退化的V4变种的p-value甚至有所提升。图7中，V4的p-value数值集中于0.8到1之间。在对V4检测时，已经吸收了前三个变种的知识，而第四个变种没有对横向分析算法进行躲避。这说明Miuref变种仅引起横向分析算法的退化，而没有引起纵向分析算法的退化。这说明在多模型平台上，如果某一个检测系统发生退化，其他系统仍可以发挥作用，很大程度上缓解了整个平台的衰老问题。

Claims

1.底层打分分类方法，其特征在于该方法包括如下步骤：

第1步、基本概念：

(1)网络流量(Netflow)：是同一网络通信时域的网络包的集合；

(4)基于机器学习的检测模型：数据，学习算法，找到一个阈值建立模型，通过模型打分，比较打分和阈值的关系，预测结果。

第2步、特征提取

第2.1、确定网络行为的表示粒度，其中包括：数据包级粒度，每个数据包表示一个网络行为；NetFlow级粒度，一个网络连接过程的所有网络数据表示一个网络行为；应用级粒度，一个应用过程的所有数据包表示一个网络行为；

第3步、计算机器学习模型的预测分数

第3.1、任何基于阈值的机器学习检测模型都能够作为打分函数，都可以加入到基于统计学习的恶意代码多模型交叉检测方法中；

2.基于ConformalPrediction算法的统计学习预测方法，其特征在于，该方法以权利要求1所述的多种机器学习模型为底层，选用统计学习算法，计算一个待测样本x的显著度p-value，步骤如下：

第1步、计算显著度p-value

①恶意代码样本z，待检测的未知代码样本，预测该代码样本与已知恶意代码样本集合的p-value；

第1.2、输出：

第1.3、算法流程：

第2步、恶意代码变异的检测

第3步、多模型共同防御

通过多模型从不同角度对恶意代码样本的分布规律进行建模，每个机器学习模型都会对该样本给出一个得分；由于这些得分不具有可比性，所以使用Conformal Prediction算法，将这些得分转换成可进行比较的统计量p-value；