CN102346829A

CN102346829A - 基于集成分类的病毒检测方法

Info

Publication number: CN102346829A
Application number: CN2011102830554A
Authority: CN
Inventors: 唐朝伟; 张雪臻; 杨磊; 严鸣; 时豪; 李超群
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2011-09-22
Filing date: 2011-09-22
Publication date: 2012-02-08
Anticipated expiration: 2031-09-22
Also published as: CN102346829B

Abstract

本发明公开了一种基于集成分类的病毒检测方法，属于网络安全技术领域。该病毒检测方法由特征提取和集成分类两大模块，其中特征提取采用静态特征提取方法提取病毒的指令序列特征，构成特征集，并选择该特征集中信息增益最大的n个指令序列特征作为优化特征集。集成分类将人工神经网络引入到集成分类算法的构建中，结合AdaBoost算法提出一种新的模式分类器（GRAB）实现对病毒的检测，以达到有效地提高检测准确率，尤其是精确检测未知病毒的目的。通过本发明，可以更加有效地区分病毒和正常程序，并且可以精确地检测出未知病毒。

Description

基于集成分类的病毒检测方法

技术领域

本发明涉及一种病毒检测方法，尤其是一种基于集成分类的病毒检测方法。

背景技术

随着计算机网络尤其是互联网技术的飞速发展，网络成为人类社会最重要的组成部分，是20世纪最杰出的研究成果。而在网络互连程度日益扩大的同时，网络安全问题变得极其重要。所有网络安全事件中，计算机病毒的入侵占有最大比例。病毒数量不断增多，传播日趋广泛，给全球带来了巨大的经济损失。

传统的防病毒技术只能在病毒造成损害之后，通过分析病毒样本、提取特征码、更新病毒特征库来检测病毒。然而，当未知病毒或已知病毒的一个新的变体出现且造成损害之后，该病毒又将被重新分析，以更新特征库中的特征信息。该检测方法具有不可避免的滞后性，病毒的检测技术总是落后于新型病毒的出现。急需能够识别未知病毒的智能检测方法，达到将病毒危害降低到最小的目的。

现有的防病毒技术大多以特征码比对的方法检测计算机病毒，这种检测方法先提取已知病毒样本的特征，并将其特征数据添加到病毒特征库，在病毒检测时通过在病毒特征库中搜索，查找是否存在与之相匹配的病毒特征来发现病毒，其缺点是只能用于检测已知病毒，而对新型及未知的病毒无能为力。近年来许多研究显示运用机器学习可有效地检测未知的恶意代码，其缺点是错误率过高。

发明内容

本发明的目的是提供一种基于集成分类的病毒检测方法，其可以更加有效地区分病毒和正常程序，并且可以精确地检测出未知病毒。

本发明采用的技术方案是这样的：本发明提供一种基于集成分类的病毒检测方法，其包括以下步骤：

S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征，构成特征集，按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序，选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集；

S2、以所述优化特征集为训练集，从所述训练集中随机选择m组训练数据作为训练数据序列

，其中各训练数据的期望分类结果表示为

Figure 2011102830554100002DEST_PATH_IMAGE004

，下标i表示训练数据在所述训练数据序列中的位置，将所述训练数据序列

中各组训练数据的权重均初始化为

Figure 2011102830554100002DEST_PATH_IMAGE006

，其中表示第1轮训练后第i组训练数据的权重，i=1,……，m，m为大于1的整数，并且根据输入输出维数确定GRNN弱分类器的结构，初始化SPREAD参数，其中所述输入维数由所述优化特征集的维数确定；

S3、弱分类器预测获得预测序列：采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出，获得预测序列

Figure 2011102830554100002DEST_PATH_IMAGE010

，设定所述预测序列的表示函数为

Figure 2011102830554100002DEST_PATH_IMAGE012

，其中下标t表示训练的轮数，i表示训练数据在所述训练数据序列中的位置，表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果；

求取预测误差和

：如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果

与期望分类结果

不相等，即如果则表示两者存在误差，将所有存在误差的训练数据的权重相加即获得所述预测序列

的预测误差和，即，其中

Figure 2011102830554100002DEST_PATH_IMAGE020

表示所述训练数据序列经第t轮训练后第i组训练数据的权重，且1≤t≤T，T为大于1的整数；

S4、计算预测序列权重：根据所述预测序列

的预测误差和

计算所述预测序列

的权重

：

Figure 2011102830554100002DEST_PATH_IMAGE024

，其中1≤t≤T，T为大于1的整数；

S5、获得第t轮训练后第t组弱分类器函数；

S6、判断t≥T是否成立，如果成立则执行步骤S8，如果不成立则执行步骤S7；

S7、根据所述预测序列

的权重

调整第t+1轮训练数据序列中各组训练数据的权重

Figure 2011102830554100002DEST_PATH_IMAGE028

，调整公式为：

Figure 2011102830554100002DEST_PATH_IMAGE030

，其中表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重，exp[]表示以自然对数e为底的指数函数，且

Figure 2011102830554100002DEST_PATH_IMAGE032

是归一化因子，为常数；其后重复执行所述步骤S3～S6；

S8、根据各轮训练获得的T组弱分类器函数，由所述T组弱分类器组合获得强分类器F：

Figure 2011102830554100002DEST_PATH_IMAGE034

；

S9、对待检样本按照步骤S1进行特征提取，根据强分类器F对所述待检样本进行识别，输出检测结果。

所述步骤S1中采用一种改进的N-Gram方法作为静态特征提取方法，提取已知病毒的指令序列特征，该改进的N-Gram方法由以下步骤组成：

S10、将已知病毒和正常程序文件反汇编，获得反汇编指令代码形式的样本文件，去除所有操作数和无关信息；

S11、结合N-Gram方法提取各已知病毒和正常程序的指令序列特征，且向指令序列特征的各特征段均赋予唯一的特征id；

S12、根据特征id和特征段出现的频率信息，生成与所述样本文件对应的特征向量，以表征所述样本文件的特征信息，并且由所述样本文件的特征向量构成特征集。

在所述步骤S11中N-Gram方法采用固定长度为N的N-Gram窗口对去除操作数和无关信息的样本文件滑动分割，所述N-Gram窗口每次滑动一个单位长度，由此获得所述指令序列特征的特征段，其中各特征段的长度为N。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、采用静态特征提取方法提取指令序列特征，相比于提取其他静态特征，指令序列特征更能突显病毒文件的在其内容性和行为性两方面的特点，在表征同族变形病毒有显著优势，比二进制机器码有更好的语义特性，较Windows API calls以及其他动态特征有更高的样本覆盖率，也能更有效率地进行特征提取以及生成特征签名，并且相比于动态特征提取方法，采用静态特征提取方法不仅可以对非可执行病毒程序进行分析，而且其时间开销较小；

2、将GRNN神经网络引入分类算法的构建中，结合AdaBoost算法提出基于集成分类算法GRAB，其取代了单一的分类算法，可以更加有效地区分病毒和正常程序，并且可以精确地检测出未知病毒；

3、静态特征提取方法中选用一种改进的N-Gram方法，在提取指令序列特征之前去除所有的操作数和无关信息，以少量的原始数据获取更多的有效信息，使提取的指令序列特征在表征病毒文件内容与程序行为方面都具有更高的敏锐度；

4、由于诸如N-Gram方法等静态特征提取方法，提取获得的指令序列特征中存在大量不相关或冗余的特征，这使得检测变得越来越困难，本发明采用基于信息增益的特征选取方法对指令序列特征进行优化，从而提高了检测的精度和效率。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是本发明的模型示意图；

图2是基于N-Gram的特征提取过程的示意图；

图3是GRAB集成分类模型的示意图；

图4是基于GRAB集成分类方法的流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书（包括任何附加权利要求、摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明将GRNN（Generalization regression neural network，广义回归神经网络）神经网络引入到分类算法的构建中，结合AdaBoost算法提出一种GRAB（Generalization Regression neural network based AdaBoost ，广义回归神经网络AdaBoost）分类模型，在此基础上提出一种智能病毒检测系统CEVDS（Classifier Ensembles based Virus Detection System，基于集成分类的病毒检测系统）系统，其主要由特征提取和集成分类两个模块组成。

如图1所示，该基于集成分类的病毒检测方法包括以下步骤：

第一部分：特征提取

S1、本发明采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征，构成特征集。

在病毒分析中使用的特征提取方法主要有动态提取、静态提取两种。动态提取方式获得的特征能够良好地表示病毒程序的行为特性，在处理加壳、加密病毒时尤其有效，但它只能用于分析可执行文件，而超过60%的病毒并非可执行程序，不能对其进行动态分析。此外，动态特征提取的时间开销巨大。因此，相比于动态特征提取方法，静态特征提取方法不仅可以分析非可执行程序，而且时间开销小，效率高。

在所有静态特征中，指令序列特征更能突显病毒文件在其内容性和行为性两方面的特点，在表征同族变形病毒有显著优势，比二进制机器码有更好的语义特性，较Windows API calls以及其他动态特征有更高的样本覆盖率，也能更有效率地进行特征提取以及生成特征签名。因此，本发明提取指令序列特征来表示样本文件。

在本发明的一个实施例中，采用一种改进的N-Gram方法作为静态特征提取方法，提取已知病毒的指令序列特征。N-Gram方法用于将连续的数据流按固定长度为N的N-Gram窗口滑动分割，收集得到的一系列重叠子串，其中N-Gram窗口每次滑动一个单位长度。如图2所示，对于指令代码片段，比如，xor div or jz inc，其对应的3-Gram为(xor div or)、(div or jz)、(or jz inc)。N-Gram方法可以捕获到一些潜在的其他方法很难准确提取的特征，在恶意代码检测领域，N-Gram是广泛应用的特征提取方法。

如图2所示，该改进的N-Gram方法由以下步骤组成：

S10、将已知病毒和正常程序文件反汇编，获得反汇编指令代码形式的样本文件，去除所有操作数和无关信息，诸如图中所示的“pro near”、“edx，edx”、“ebx”等。由于在开始提取指令序列特征之前就滤去了大量无用信息，基于指令代码的特征以少量的原始数据获取了更多的有效信息，在表征文件内容与程序行为两方面都具有更高的敏锐度。

S11、结合N-Gram方法提取已知病毒和正常程序的指令序列特征，即采用固定长度为N的N-Gram窗口对对去除操作数等无关信息的样本文件滑动分割，该N-Gram窗口每次滑动一个单位长度，从而获得指令序列特征的特征段，其中该特征段的长度为N。指令序列特征不仅反映了样本文件本身的语义内容，样本文件之间指令代码的次序关系也体现出程序在执行过程中可能发生的行为。另外，向指令序列特征的各特征段均赋予唯一的特征id（Identity，地址/编码），以维持所有指令序列特征在不同样本文件中的全局映射。

S12、依据特征id和特征段出现的频率信息，生成与各样本文件对应的特征向量，作为表征该样本文件的特征信息，并且各样本文件的特征向量构成了特征集。

当然，静态特征提取方法除了上述改进的N-Gram方法外，还可以采用其他静态特征提取方法，由于静态特征提取方法在特征提取中属于成熟技术，在此不对其他的静态特征提取方法予以累述。

在上述过程中产生的特征集合非常庞大，样本文件对应的特征向量维数较高，并包含很多冗余特征。在病毒检测中，不相关或冗余的特征使得检测变得越来越困难，为了提高检测的精度和效率，从中选取有利于识别病毒的特征是必要的。特征选择是寻找可以准确描述原始事例的信息量最大的特征的一个过程。在本检测系统中，事例是指病毒和正常程序，候选特征是指长度一定的指令序列。不管是对单指令序列还是多指令序列，所提取出来的特征数量都非常庞大。特征选择的目的就是在这些特征中选择最相关的一组特征，通常这组特征集比原始的特征集小很多，从而获得最满意的分类结果。

本发明按照该特征集中指令序列特征的IG（Information Gain，信息增益）大小对特征集进行排序，选择特征集中信息增益最大的n个指令序列特征作为优化特征集。

IG也被称作平均互信息量，反映了一个特征在分类中的重要性。其定义如下：

(1)

其中，

(2)

(3)

(4)

分别为两个离散随机变量，

是

的信息熵；是已知

情况下

的条件熵。式(1)表明，从

中获取关于的平均互信息量

，等于获知

前后，关于

的平均不确定性的消除。

信息增益在机器学习中被作为学习准则，在病毒检测中，信息增益

表示第

个序列指令特征所传递的平均信息量，由式(1)可得：

(5)

其中，

是第个特征属性的值，

代表这个特征出现过，表示这个特征没有出现过；表示第

个类别，这里一共有两类：病毒程序和正常程序；

表示在类中，第

个特征值为

的比例；

表示在训练集中第个特征值为

的比例；

表示训练集中类

所占的比例。

由于信息增益越大，代表这个特征对分类越有用，因此本发明选用IG最大的n个指令序列特征作为优化特征集。

第二部分：集成分类

本发明将GRNN神经网络引入到分类算法的构建中，结合AdaBoost算法提出一种GRAB集成分类方法，取代单一的分类方法，更有效地区分病毒与正常程序，特别是达到能够精确检测未知病毒的目的。

AdaBoost算法即自适应的Boosting算法，其思想是利用大量学习能力一般的弱分类器，通过一定方法集成，通过样本训练，构建一个分类能力更强的强分类器。简言之，通过合并许多“弱分类器”的输出以产生有效“投票委员会”的过程。理论证明，只要每个弱分类器的分类能力比随机猜测好，当弱分类器的个数趋于无穷时，强分类器的出错率将趋于零。AdaBoost算法的这一特性对于弥补弱分类器的自身局限性和训练样本的主观选择等不足具有重要意义。

AdaBoost算法的主要步骤为：

(1) 给出弱学习算法和训练集，从训练集中找出m组训练数据，初始化时，指定每组训练数据的权重分别为D₁(i)=1/m。

(2) 调用弱学习算法进行T次迭代，每次迭代后，按照训练结果更新训练数据权重，对于训练失败的样本赋予较大的权值，使得下一次迭代更加关注这些样本。弱分类器通过反复迭代得到一个分类函数序列f1，f2，……，fT，每个分类函数f也赋予一个权重，分类效果越好的函数，其权值越大。

(3) 经过T次迭代后，在分类问题中最终的强分类函数F经“投票委员会”产生，即通过迭代权值的投票法产生。利用集成的强分类器可对新样本进行有效判断。

另外，广义回归神经网络（GRNN）是Donald F. Specht在1991年提出的，是径向基函数神经网络的一种，也是一种新颖而有效的前馈式神经网络。GRNN具有很强的非线性映射能力和柔性网络结构以及高度的容错性和鲁棒性，能够根据给定的样本数据逼近其中隐含的映射关系，被广泛应用于函数逼近。这种网络不仅具有全局逼近性质，而且具有最佳逼近性质。GRNN和BP等神经网络都可以用于分类、预测，但GRNN在逼近能力和学习速度上有更强优势，网络最后收敛于样本量积聚较多的优化回归面，并且在样本数据较少时，预测效果也较好。此外，GRNN需要调整的参数只有SPREAD一个，可以更快地分类、预测，具有较大计算优势。

AdaBoost算法本身是通过改变数据分布来实现的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值，然后将每次训练得到的分类器fT组合起来，作为最后的分类器F。AdaBoost在准确度和效率方面都具有很大的优势，使用AdaBoost算法，可以排除一些不必要的特征，并将重点放在关键的特征上。为了提高检测系统的识别精确度，提出一种结合AdaBoost算法提高弱分类器（GRNN）的分类性能和运算效率的网络模型GRAB。GRAB模型即把GRNN作为弱分类器，反复训练GRNN预测样本输出，通过AdaBoost算法得到多个GRNN弱分类器组成的强分类器，GRAB集成分类模型如图3所示。

如图4所述，该GRAB集成分类方法由以下步骤组成：

S2、以特征提取部分获得的优化特征集为训练集，从所述训练集中随机选择m组训练数据作为训练数据序列

，其中各训练数据的期望分类结果表示为

，下标i表示训练数据在该训练数据序列中的位置，将该训练数据序列中各组训练数据的权重均初始化为

，其中

表示第1轮训练后第i组训练数据的权重，i=1,……，m，m为大于1的整数，并且根据输入输出维数确定GRNN弱分类器的结构，初始化SPREAD参数，其中所述输入维数由所述优化特征集的维数确定，本发明中输出维数设定为1维；

S3、弱分类器预测获得预测序列：采用训练数据序列训练t个GRNN弱分类器并预测训练数据序列的输出，获得预测序列，设定预测序列的表示函数为

，其中下标t表示训练的轮数，i表示训练数据在所述训练数据序列中的位置，

表示训练数据序列经第t轮训练后第i组训练数据的预测分类结果；

求取预测误差和

：如果训练数据序列经t轮训练后第i组训练数据的预测分类结果

与期望分类结果

不相等，即如果

则表示两者存在误差，将所有存在误差的训练数据的权重相加即获得预测序列的预测误差和

，即

，其中

表示训练数据序列经第t轮训练后第i组训练数据的权重，且1≤t≤T，T为大于1的整数；

S4、计算预测序列权重

：根据预测序列的预测误差和

计算所述预测序列

的权重

：

，其中1≤t≤T，T为大于1的整数；

S5、获得第t轮训练后第t组弱分类器函数

；

S7、根据所述预测序列

的权重

调整第t+1轮训练数据序列中各组训练数据的权重

，调整公式为：

，其中

表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重，exp[]表示以自然对数e为底的指数函数，且

是归一化因子，为常数，用于在权重比例不变的情况下使权重和为1；其后重复执行步骤S3～S6；

S8、根据各轮训练获得的T组弱分类器函数，由T组弱分类器组合获得强分类器F：

；

S9、对待检样本按照步骤S1进行特征提取，根据强分类器F对待检样本进行识别，输出检测结果。

在验证该病毒检测方法过程中，本发明选用的实验数据集样本总数为386个，其中正常程序样本196个、病毒程序样本190个。所有正常程序样本从首次安装的Windows XP Professional SP3操作系统平台中随机选取。

从实验数据集中随机选取114个正常程序样本、98个病毒程序样本，构成已知类型数据集1（样本总数为212个），用于建立特征集以及测试病毒检测模型对已知病毒的检测性能；其余82个正常程序样本、92个病毒程序样本，构成未知类型数据集2（样本总数为174个），用于测试病毒检测模型对未知病毒的检测性能。

表1 样本数据分布

样本数据集	样本空间	正常程序样本数	病毒程序样本数
				实验数据集	386	196	190
数据集1	212	114	98
				数据集2	174	82	92

在建立特征集时，已知类型数据集在经过N-Gram特征提取后总共得到指令序列特征101963维，实验中为了测试所采取的特征选择方法性能以及节约开销，通过基于IG的方法进行特征选择，按信息增益大小对特征排序，选择前373维、前282维组成优化特征域做对比实验。

在分类算法方面，选取BP、GRNN两种人工神经网络算法作弱分类器进行对比实验，测试BP、GRNN、以及基于AdaBoost的集成分类模型BPAB、GRAB四种分类算法对病毒样本的检测性能。实验结果以准确率（OA）、检测率（DTR）为检测性能的两个评价指标。

测试病毒检测模型对已知病毒的检测性能结果如表2、表3所示，实验过程中从已知类型数据集（样本总数为212个）随机选取150个样本文件构成训练集，62个样本文件构成测试集。

表2 BP、BPAB检测结果 (%)

特征域维数	BP(OA)	BPAB (OA)	BPAB (DTR)
				282	96.45	96.77	96.43
373	96.13	98.39	97.22

表3 GRNN、GRAB检测结果 (%)

特征域维数	GRNN(OA)	GRAB(OA)	GRAB (DTR)
				282	96.77	96.77	95.83
373	97.74	98.39	96.97

测试病毒检测模型对未知病毒的检测性能结果如表5、表6所示，实验过程中以已知类型数据集（样本总数为212个）作为训练集，未知类型数据集（样本总数为174个）作为测试集。

表4 实验样本数据

	样本空间	训练集	测试集
				正常程序	190	98	82
病毒程序	196	114	92
				总计	386	212	174

表5 BP、BPAB检测结果 (%)

特征域维数	BP(OA)	BPAB (OA)	BPAB (DTR)
				282	93.45	95.98	93.48
373	93.10	97.70	95.65

表6 GRNN、GRAB检测结果 (%)

特征域维数	GRNN(OA)	GRAB(OA)	GRAB(DTR)
				282	94.02	98.28	97.83
373	95.40	98.85	98.91

由以上实验结果可知，特征域维数为373时各分类器检测性能均优于特征域维数为282时；各集成分类器检测性能优于单个分类器；BP、GRNN的单分类器与集成分类器在进行已知类型病毒检测时性能相当，但BP网络的时间开销远远大于GRNN；GRNN单分类器与集成分类器在进行未知类型病毒检测时优于BP单分类器与集成分类器，具有良好的逼近性。

实验结果表明，该系统的检测性能优于基于单分类器的病毒检测方法，此外，选择指令序列作病毒检测特征，使其在对未知病毒的检测上表现突出，能够准确识别未知病毒。下一步将研究更为有效的集成分类方法，以提高系统的检测性能；采用更大的训练和测试集合，进一步验证系统的性能。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。