CN107832611B

CN107832611B - 一种动静态特征结合的僵尸程序检测与分类方法

Info

Publication number: CN107832611B
Application number: CN201710987829.9A
Authority: CN
Inventors: 薛静锋; 张继; 郭宇; 单纯; 刘康
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-10-21
Filing date: 2017-10-21
Publication date: 2020-12-08
Anticipated expiration: 2037-10-21
Also published as: CN107832611A

Abstract

本发明公开了一种动静态特征结合的僵尸程序检测与分类方法，基于静态特征信息，进行僵尸程序检测；检测过程中的特征选择采用了采用改进的TF‑IDF算法，改进的TF‑IDF算法是在TF‑IDF算法计算TF‑IDF权重时加入类区分度因子GF，用于表征特征项在某一类别中的出现程度与在其他所有类别中出现程度的比例；运行检测的僵尸程序，提取僵尸程序运行的API序列和网路流量信息，处理获得僵尸程序家族分类特征；基于僵尸程序家族分类特征，对僵尸程序进行分类。本发明能够自动进行分类，降低耗时，提高分类效率。

Description

一种动静态特征结合的僵尸程序检测与分类方法

技术领域

本发明涉及信息安全技术领域，具体涉及一种动静态特征结合的僵尸程序检测与分类方法。

背景技术

僵尸程序是攻击者完成入侵某台计算机之后，在被感染的计算机上部署的用于完成攻击目的的恶意程序。在被感染的计算机上部署僵尸程序组成僵尸网络，攻击者就能够实施各种攻击手段。

近年来，物联网技术得以迅速发展，这使得网络攻击者将目标瞄准到了物联网设备上，寄生于物联网设备的僵尸程序开始大批量出现。云计算技术的进步使僵尸程序的发展得以增速，攻击者只需要在云端花费很低的成本申请虚机资源，就可以利用这些资源快速构建僵尸网络，发起僵尸网络攻击变得更加低廉迅速，一些攻击者采用非法盗取的信用卡进行支付，这就隐藏了攻击者的身份，无法做到实名制的管理。并且在云环境中，用户数目很大，良莠不齐，用户并不能都具有很好的安全观念，虚机操作系统和应用的可利用漏洞或弱口令数目很多，这就导致很多虚拟机被入侵，成为了僵尸网络的“肉鸡”。

目前针对僵尸程序的研究主要针对的是僵尸程序的入侵检测上，对僵尸程序根据家族进行分类的研究较少。主要是对恶意代码的源码以及反汇编生成的 asm格式文件和bytes文件进行分析。

目前针对僵尸程序的研究主要针对的是僵尸程序的入侵检测上，对僵尸程序进行家族分类的研究较少。僵尸程序的检测方法有：

1)使用面向对象的关联挖掘方法在Windows API的执行序列上进行检测。

2)在反编译文件中提取与数据流相关的API，然后用改进的K-邻近算法来检测僵尸程序。

3)基于语义的检测方法，该方法认为恶意代码的行为与语义特征息息相关，采用抽象解释方法检测恶意行为从而检测恶意程序。

4)对P2P僵尸程序反汇编，进而分析其传播和恶意行为，对僵尸程序特性进行了总结，利用僵尸程序的特性对僵尸程序进行检测。

5)通过模拟真实的环境让恶意代码运行，从而捕捉恶意软件与系统的交互来获取其行为特征。

如：捕获僵尸程序运行时的api、对僵尸网络产生的流量进行分析。

目前对僵尸程序的研究，主要还是集中在僵尸程序的入侵检测上，对其进行家族分类的相关研究较少，僵尸程序的家族分类仍是一个有待攻克的难题。

当前对僵尸程序进行家族分类时，主要采用的是人工逆向工程方法，该方法不仅耗时长，效率低下，而且对分析人员的专业素养要求较高，这些问题是的人工逆向分析难以解决大批量的僵尸程序。

发明内容

有鉴于此，本发明提出了一种动静态特征结合的僵尸程序分类方法，能够自动进行分类，降低耗时，提高分类效率。

为了解决上述技术问题，本发明是这样实现的。

一种动静态特征结合的僵尸程序检测与分类方法，基于静态特征信息，进行僵尸程序检测；检测过程中的特征选择采用了采用改进的TF-IDF算法，改进的TF-IDF算法是在TF-IDF算法计算TF-IDF权重时加入类区分度因子GF，用于表征特征项在某一类别中的出现程度与在其他所有类别中出现程度的比例；

运行检测的僵尸程序，提取僵尸程序运行的API序列和网路流量信息，处理获得僵尸程序家族分类特征；

基于僵尸程序家族分类特征，对僵尸程序进行分类。

优选地，所述静态特征信息包括opcode、PE节信息和DLL序列。

优选地，所述类区分度因子GF为：

其中，对于特征项t_j，类别i中包含特征项t_j的样本数记为C_ji，除去类别i 的其他所有类别中包含特征项t_j的样本数记为C_！ji。

优选地，在获得僵尸程序家族分类特征时，针对API序列，采用n-gram方法来对API序列进行抽取，抽取后的n-gram作为僵尸程序家族分类特征的一部分。

优选地，所述n-gram方法的n取值为3。

优选地，所述处理获得僵尸程序家族分类特征为：采用改进的TF-IDF算法进行处理。

优选地，在对僵尸程序进行分类时，采用改进的决策树ID3算法对僵尸程序进行分类；改进的决策树ID3算法为属性的信息增益计算添加了修正因子，该修正因子将属性取值数目偏多的属性对应的信息增益相对变小，用引入该修正因子后信息增益作为划分样本的标准。

优选地，所述修正因子为

其中，s为修正因子所对应属性的s个不同取值。

有益效果：

(1)本发明采用静态和动态相结合的方法，提供了一种僵尸程序检测和分类实现渠道，能够实现僵尸程序自动分类，不需要人工参与，降低了对人员的要求。

(2)在僵尸程序检测中，用于特征选择采用TF-IDF算法，但是该算法会随着它在特征库中出现的频率而下降，除此之外，如果某个特征项在一个类的样本中频繁出现，而在其他类别的样本中很少出现，TF-IDF并不能体现该特征项具有很好的类区分性。为了弥补以上缺陷，本发明对TF-IDF算法进行了改进，提出了TF-IDF-GF算法。利用优化特征进行检测，提高了检测有效性。

(3)在对僵尸程序进行家族分类时，本发明基于决策树ID3算法，并对该算法不一定能得到最佳的划分属性的弱点进行优化，提出了ID3-N算法，提高了分类的正确性。

附图说明

图1为本发明基本流程图；

图2为提取静态特征并进行特征处理过程的示意图；

图3为僵尸程序的动态特征提取与处理过程示意图；

图4为决策树的示意图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种动静态特征结合的僵尸程序检测和分类方法，如图1所示，包括如下步骤：

步骤一：僵尸程序的检测

利用opcode(是机器语言中用于描述需要执行某种操作的机器码)、PE(可移植执行)节信息和DLL(动态链接库)序列，可以对僵尸程序和其他恶意代码进行区分。静态检测具有安全性高、检测效率高的优点。检测过程中的特征选择采用了优化后TF-IDF-GF算法。

主要流程如下：

TF-IDF的核心思想是特征项的重要性随着它在文件中出现的次数而增加，但同时会随著它在特征库中出现的频率而下降。其计算方式如下文所示：

TF权重：特征频(特征值频率)。不同种类的样本中，特征出现的频率差别很大。如果某一类样本中有一个特征出现的频率很高，说这意味着该特征能够很好的代表这一类文本。这种方法认为它的作用随着它出现的频率增大而增大，并把特征频当做特征项的权重。其计算公式

n_i,j表示特征项t_j在某一类(i)样本中出现的次数，

表示特征项t_j在所有样本中出现的次数。

IDF权重：反比文档频率。特征项在很多样本中出现比不上那些只在小部分样本中出现的具有代表性。这意味着，如果一个特征只在某一类样本中出现，那么它具有很高的重要性。它的目的在于增强只在小部分样本中出现的特征项的重要度。IDF的值越大说明该特征项在样本中分布非常集中，代表性越强。其计算公式为

其中N表示整个集合中的样本数目，n_j是包含特征项t_j的样本总数。假如特征项在样本集合中的每个样本中都存在，则idf的值就等于0。在实际应用中为了避免0值的出现，可以将idf的式子定义为

其中c∈(0,1)为常数，常用的取值为c＝0.01。

TF-IDF权重：即TF权重和IDF权重的组合，是当前应用最多的特征加权算法，在现实生活和研究中具有很好的效果。公式如下：

W_i,j＝tf_i,j*idf_j (4)

但是，TF-IDF有明显的缺点，主要体现在如果某个特征项在某一类的样本中频繁出现，而在其他类别的样本中很少出现，则该特征项具有很好的类区分性，应该具有较大的权值，但是TF-IDF并不能体现该特点；

以下例子证实了TF-IDF的缺陷问题：共有C1和C2两个类别，每个类别中有三个样本，有T1和T2两个特征项，其频数如表1所示。

表1特征项频数表

如上表所示，特征项T1在C1类的三个样本中都出现了，在C2类的样本中没有出现；特征项T2在C1类中的三个样本中出现了，在C2类的一个样本中出现了。从理论上讲，特征项T1比T2更能区分类别C1和C2，T1在C1类中应该有较大的权重值。

通过TF-IDF算法，计算出各个特征项在样本中的权重值，如表2所示。从表2可以看出，TF-IDF算法的结果并不符合我们的预计。特征项T1在C1类中权重值只有0.10，低于特征项T2的0.12，这是因为TF-IDF算法没有考虑上述缺陷的问题，导致权重值完全倾向于特征项的频率。

表2 TF-IDF计算结果表

为了弥补以上缺陷，本发明对TF-IDF算法进行了改进。如果某个特征项在某一类的样本中频繁出现，而在其他类别的样本中很少出现，为了表现出它具有的类区分度，引入GF因子。对于特征项t_j，类别i中包含特征项t_j的样本数记为C_ji，除去类别i的其他类别中包含特征项t_j的样本数记为C_！ji，GF是C_ji和 C_！ji的比值，其计算公式如下：

其中为了防止分母为0，计数加一。改进后的TF-IDF-GF算法得到了更高的权重值，其类别区分度也更高。

因此，改进的TF-IDF-GF算法计算公式如下：

W_i,j＝tf_i,j*idf_j*GF (6)

运用改进后的TF-IDF-GF算法计算T1、T2在各个样本中的权重值，结果如表3所示：

表3 TF-IDF-GF计算结果表

从表3中可以看出，用改进的TF-IDF-GF算法计算后，在C1类中，T1的权重值为0.30，大于T2的权重值0.18，得到了更高的权重值，其类区分度更高，达到了预计的效果。

步骤二：僵尸程序的动态特征提取与处理

目前，对于僵尸程序家族分类问题，尚无成熟的研究。本发明在完成僵尸程序检测工作的基础上，进一步进行对发现的僵尸程序进行动态行为的获取，即得到僵尸程序运行的API序列和网络流量信息，为进行僵尸程序家族分类打下基础。

主要流程如图3所示，如下：

使用cuckoo sandbox对输入的僵尸程序样本进行分析。

生成json文件并提取API序列。在对API序列进行处理时，本发明采用了 n-gram的方法进行API序列抽取。使用n-gram的方法如下：

对于一个僵尸程序p，API序列为o，则可表示为p＝(o₁,o₂,…，o_l)，其中l 表示一个程序操作码序列的长度。设置长度为n的滑动窗口，获得API的特征项，这样每一个特征项都是它的序列o的子序列。

本发明将n-gram思想应用到API序列的处理上。认为每个API，都与其之前出现的n-1个API相关，获得了API序列的特征项。对于n-gram算法，n的取值非常重要，这很大程度上影响了分类的效果。N取值太小很难检测复杂的模块，n取值太大又很难检测一些简单的混淆技术，而且会导致计算量巨大，产生的矩阵稀疏。经研究，当n的取值为3时，精确率最高。本步骤将抽取后的 3-gram结果写入csv文件。

生成pcap文件并提取网络流量信息。对于网络流量，本发明从僵尸程序运行过程中产生的流量数据中，提取的信息有：源IP地址、目的IP地址、通信协议、通信数据包大小等，形成七元组，写入csv文件。

用改进的TF-IDF算法对csv文件中信息进行处理，为家族分类打好基础。

步骤三：僵尸程序家族分类

家族分类的输入是经过TF-IDF处理后的记录僵尸程序动态特征的csv格式的文件，输入是僵尸程序的名称以及他所对应的类别。分类器采用的是决策树算法。

本发明采用了改进后决策树ID3-N算法进行僵尸程序家族分类。决策树算法是一种逼近离散函数值的方法。首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。

决策树的核心思想是构造决策树：

决策树，又称为判定树，是一种类似二叉树或多叉树的树结构。树中的每个非叶节点(包括根节点)对应于训练样本集中一个非类别属性的测试，非叶节点的每个分支对应属性的一个测试结果，每个叶子节点则代表一个类或类分布。从根节点到叶子节点的一条路径形成一条分类规则。决策树模型如图4所示。

ID3算法是根据信息论的信息增益评估和选择特征，每次选择信息增益最大的特征做判断模块。ID3算法可用于划分标称型数据集，没有剪枝的过程，为了去除过度数据匹配的问题，可通过裁剪合并相邻的无法产生大量信息增益的叶子节点(例如设置信息增益阀值)。ID3算法选择信息增益最大的属性对样本进行划分，从而保证了划分后的样本继续进行划分时只需要比较小的信息量。ID3 算法得到的决策树较为简单，在进行划分时需要的次数也较少。

ID3算法的算法过程：

计算分类数据样本中所有属性的信息增益值，选择信息增益值最大的属性划分当前样本，得到与属性取值一一对应的各样本数据子集；然后使用同样的方法对数据子集进行划分，直至满足终止条件。

记D表示m个样本数据的集合，假设包含n个不同的类别C_i(i＝1,2,…,n),m_i表示集合中含有类别C_i中的样本数目。对于一个已经给定的样本，我们对它进行分类所需要的期望信息记为：

其中P_i是指样本数据属于C_i的概率，即

设离散属性A的S个不同的取值为(a₁,a₂,…,a_s),则A可以将数据集合D 划分为D₁，D₂，…，D_s这s个子集，D_j表示D中关于属性A取值为a_j的样本数据子集，那么m_ij表示在D_j中样本数据C_i的数目，即D_j中的样本数目为 m_1j+m_2j+…+m_nj的和，因此D_j中的样本数据属于类别C_i的概率为

那么D_j的期望信息为

那么根据属性A对数据样本集D进行划分后所得到的子集对应的信息熵为

因此利用属性A对数据样本D进行划分的信息增益为

Gain(A)＝I(m₁,m₂,…,m_n)-E(A) (12)

信息熵的取值是不能为负的，同一批样本数据的信息熵是不会变的，因此当某一属性对样本信息进行划分后所得到的熵越小，信息增益就越大。由上述的过程可以推理出，划分属性A的取值越多，样本分布就越均匀，那么利用该属性对样本数据划分的信息熵就越小，信息增益相对就越大，就越容易被选为分裂节点。

ID3算法使用信息增益最大的属性作为分裂节点，所以更偏向于使用属性值较多的属性，但是这样的属性不一定是最佳的划分属性。

为了改进以上缺点，本发明引入一个修正因子，该因子可以将属性取值数目偏多的属性对应的信息增益相对变小，使得该属性不那么容易被选择作为划分标准。用引入该因子后信息增益代替原来的信息增益来作为划分样本的标准。

因此引入一个修正因子g(x),该因子在s增大，能使新的信息增益值Gain’相对变小。

当一个划分属性拥有的取值较多时，相应的样本的数据分布显得较为平均。样本集如有C1和C2两个类，两个类中一共包含10个数据，如果某个划分属性 A有10个不同的取值，那么这个样本集就会被划分成10个子集，每个子集中只有1个数据构成一个类。那么子集中属于某一个类的概率

或者

属性A对数据集划分后对应的每个样本子集的期望信息为：

上述公式中，0.01是修正因子，避免出现P_ij趋于0，造成无解的可能。修正因子是可调的。

属性A对样本进行划分后所对应的信息熵为子集信息熵的加权平均：

因此利用属性A对样本划分的信息增益为：

Gain(A)＝I(m₁,m₂,…,m_n)-E(A)＝I(m₁,m₂,…,m_n) (18)

而用改进的方法计算得

对于一个已经给定的样本，对它进行分类所需要的期望信息 I(m₁,m₂,…,m_n)是固定的，相比于Gain，改进的Gain’在属性A取值数目s增大时会变小，这就减少了属性A被选为分裂节点的可能性。在一定程度上，改进了ID3算法的缺陷。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动静态特征结合的僵尸程序检测与分类方法，其特征在于，

基于静态特征信息，进行僵尸程序检测；检测过程中的特征选择采用了采用改进的TF-IDF算法，改进的TF-IDF算法是在TF-IDF算法计算TF-IDF权重时加入类区分度因子GF，用于表征特征项在某一类别中的出现程度与在其他所有类别中出现程度的比例；所述类区分度因子GF为：

其中，对于特征项t_j，类别i中包含特征项t_j的样本数记为C_ji，除去类别i的其他所有类别中包含特征项t_j的样本数记为C_！ji；

运行检测的僵尸程序，提取僵尸程序运行的API序列和网路流量信息，处理获得僵尸程序家族分类特征；在获得僵尸程序家族分类特征时，针对API序列，采用n-gram方法来对API序列进行抽取，抽取后的n-gram作为僵尸程序家族分类特征的一部分；所述n-gram方法的n取值为3；

基于僵尸程序家族分类特征，对僵尸程序进行家族分类；在对僵尸程序进行家族分类时，采用改进的决策树ID3算法对僵尸程序进行家族分类；改进的决策树ID3算法为属性的信息增益计算添加了修正因子，该修正因子将属性取值数目偏多的属性对应的信息增益相对变小，用引入该修正因子后信息增益作为划分样本的标准；所述修正因子为

其中，s为修正因子所对应属性的s个不同取值。

2.如权利要求1所述的方法，其特征在于，所述静态特征信息包括opcode、PE节信息和DLL序列。

3.如权利要求1所述的方法，其特征在于，所述处理获得僵尸程序家族分类特征为：采用改进的TF-IDF算法进行处理。