CN105138913A

CN105138913A - 一种基于多视集成学习的恶意软件检测方法

Info

Publication number: CN105138913A
Application number: CN201510444323.4A
Authority: CN
Inventors: 王俊峰; 白金荣
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2015-07-24
Filing date: 2015-07-24
Publication date: 2015-12-09

Abstract

本发明公开一种基于多视集成学习的恶意软件检测方法，对训练样本集中的可执行文件提取字节码n-grams特征视图、操作码n-grams特征视图、格式信息特征视图；对三个特征视图分别或合并后采用不同的分类算法训练出多个基分类器，利用集成学习方法集成出分类模型；从待检测样本集中提取出与上述三种特征视图相应的特征；根据提取到的待检测样本集的特征，用所述集成的分类模型对待检测样本进行分类，得到检测结果。本发明集成了表示可执行文件的字节码特征、操作码特征、格式信息特征，实现了特征的互补；使用集成学习取代了单个分类器，修正了单分类器的归纳偏置，实现了各分类算法的互补；能有效的检测新出现恶意软件，具备较好的泛化性能。

Description

一种基于多视集成学习的恶意软件检测方法

技术领域

本发明涉及网络安全中的恶意软件检测方法，具体为一种基于多视集成学习的恶意软件检测方法。

背景技术

恶意软件通常指带有恶意目的的程序，常被用于破坏数据、运行入侵程序、窃取敏感信息、控制受害者的电脑、为恶意软件控制者谋取非法利益等。此外，恶意软件相当多数扮演着“间谍软件”的角色，它们侵蚀着各国的政治、经济、文化、军事等各个领域的信息安全。恶意软件包括病毒、木马、蠕虫、后门程序、Rootkit、Dos、Exploit等。据Symantec公司发布的2015互联网安全威胁报告，2014年该公司共捕获3.17亿个新恶意软件，平均每天接近100万个新的恶意软件释放到互联网。如此数目庞大的恶意软件已经成为互联网的最大安全威胁，严重影响了世界各国的信息安全。

当前的杀毒软件主要使用特定的字节序列作为特征码检测已知的恶意软件，但这种方法对新的、未知的恶意软件通常是无效的，能检测的恶意软件经过简单加壳或混淆后又不能检测，使用多态和变形技术的恶意软件在传播的过程中不断随机的改变着二进制文件内容，没有固定的特征，使用该方法也不能检测。据Symantec公司发布的2015互联网安全威胁报告，基于特征码的方法仅能检测2014年捕获的所有恶意软件中的13.9％。除此之外，分析人员手动提取恶意软件特征码的速度已经不能匹配恶意软件增长速度，这些都给恶意软件的检测工作带来了严峻挑战。

由于当前杀毒软件存在较多的局限性，迫切需要研究新的有效的恶意软件检测方法。近年来研究人员提出了基于数据挖掘和机器学习的恶意软件检测方法，这些方法从大量的恶意软件样本中学习识别规则，以实现恶意软件的智能检测。这些方法都是通过随机抽样的方法划分训练集和测试集，测试集对于训练集是未知的，可以验证所提出的方法检测未知恶意软件的性能。但现实场景中，恶意软件检测方法必须基于已存在的样本集训练分类模型，使用训练好的分类模型检测新出现的未知恶意软件。现有的检测方法中，无论训练集还是测试集，都是新旧样本混合，无法评估检测新出现的未知恶意软件的性能。

基于数据挖掘和机器学习的恶意软件检测方法将可执行文件表示成不同抽象层次的特征，使用这些特征来训练分类模型。某一种类型的特征都从不同的侧面反映刻画了可执行文件的一些性质，部分捕捉到了恶意软件和良性软件的区分信息，但都存在着一定的局限性，不能充分、综合、整体的表示可执行文件的本质。各种类型的特征具有自身的优势，特征类型间存在着互补，融合这些不同抽象层次的特征可更好的发现软件的真正性质。此外，由于学习算法的假设是各不相同的，不存在对各种类型问题都最优的学习算法。针对不同的特征，选择适合的分类算法并不是一项容易的工作。不同的分类算法都存在着归纳偏置，融合各种学习算法也可发挥各自优势，克服其不足，从而提高分类算法的准确率，降低误报率，改进分类算法的泛化性能。

集成学习指按照多样和准确的原则产生多个具有独立决策能力的分类器，并按照某种策略组合这些独立的分类器解决一个同样的问题。在真实情况下，每个分类算法都有其局限性，都会犯错误，组合多个分类算法将修正单个分类器的错误，降低总体的错误率，从而有效地提高学习系统的泛化能力。集成学习的原理是专家委员会思想，把具有独立决策能力的分类器当作专家。在日常生活中进行重要决策前，征询多个专家观点，然后权衡每个观点，组合这些观点形成最终决策，其中蕴含的哲学思想是“三个臭皮匠，顶一个诸葛亮”。大量的实验和理论研究显示：集成学习一般比单个学习算法取得更好的分类准确率，当存在更多样性的基分类器时，提升更明显。严格来说，集成学习并不算是一种分类器，而是一种分类器组合的方法。集成学习可从多个层次构建，从而产生各具特色的集成学习方法。图1显示了构建集成学习的四个层次，集成学习可单独在某个层次构建，也可同时在多个层次构建。

数据层控制提交到学习算法的数据，确保产生足够多样且准确的分类模型。该方法通过抽样技术操纵训练集生成不同训练子集，不同训练子集用于训练多个基分类器，然后使用不同的集成策略组合基分类器。这种技术对不稳定的学习算法很有用，特别是训练数据中微小的变化容易导致分类器输出发生明显的变化的学习算法。Bagging和Boosting是这种方法最典型的例子。

特征层提取、选择、变换、划分特征，从而产生多样、互补的特征视图。该方法采用各种技术获得同一数据源的不同特性视图，如构建多种不同的特性表示，将原始特征集划分为多个特征子集，变换原始单特征视图为多个特征视图等。可用两种不同的方式集成多个特征视图：(a)在每一个特征视图训练不同的分类模型，组合多个特征视图的输出分类模型产生最终的分类模型；(b)合并多个特征视图为一个特征超集，然后使用合并后的特征集训练分类器。总的来说，该方法充分利用了多特征视图和不同分类算法的一致性和互补性，比单一特征视图方法更有效，具备更好的泛化性能。

分类器层选择基分类器的类型及数量，确定训练基分类器的方式，如迭代方式或并行方式。该方法构建多样且相对准确的基分类器集合，如使用不同的学习算法训练不同分类模型，在学习算法注入随机产生不同的分类模型，相同学习算法使用不同的参数产生不同的分类模型，也可同时使用多个机制。通过对多个分类器进行适当的组合，从而改善学习算法的准确性。这种方法组合了异质的或同质的分类算法的决策，克服不同算法的归纳偏置。

集成层确定组合基分类器的方法和策略。该方法可以使用不同的方式来组合基分类器产生最终的决策。包括Voting、Stacking、EnsembleSelection等。这些方法简要介绍如下：

Voting(投票法)

假设集成学习系统由L个基分类器组成，记作D＝{D₁,…,D_L}；x是具有t个特征的实例，记作x∈R^t；基分类器需要将实例x分类到c个可能的类别之一，类别集合Ω＝{ω₁,…,ω_c}；L个基分类器对实例x处理，输出矩阵M＝[m_p,q]，p＝1,…,L,q＝1,…,c。

如果m_p,q∈{0,1}，当基分类器D_p将实例x分为ω_q类时，m_p,q＝1，否则m_p,q＝0。如果

Σ_{p = 1}^{L} m_{p, k} = \max_{q = 1}^{c} Σ_{p = 1}^{L} m_{p, q}

则实例x将被分到类别ω_k，这种投票规则称作大多数投票规则(MajorityVoting)，每个基分类器的权重大小一样，少数服从多数，类别得票数最多的作为分类结果。

如果m_p,q∈[0,1]，m_p,q是基分类器D_p对实例x属于类别ω_q的支持度，记作m_p,q＝P(ω_q|x,D_p)。如果

\frac{1}{L} Σ_{p = 1}^{L} m_{p, k} = \max_{q = 1}^{c} \frac{1}{L} Σ_{p = 1}^{L} m_{p, q}

则实例x将被分到类别ω_k，这种投票规则称作平均概率投票规则(AverageofProbabilities)。

Stacking(叠加法)

Stacking构造一组同质的或异质的基分类器，基分类器的输出用于训练元分类器(meta-classifier)，元分类器输出最终的分类结果。元分类器可修正基分类器的错误，取得最小化泛化误差。可以使用任何分类算法训练基分类器或元分类器。Stacking算法的步骤简单描述如下：(1)数据集划分为三个不相交的子集：训练集、验证集和测试集；(2)在训练集构建一组基分类器；(3)使用训练好的基分类器分类验证集；(4)利用(3)的输出结果以及真正的类标签训练元分类器；(5)在测试集对训练好的元分类器性能进行评估。

EnsembleSelection(选择性集成)

大多数集成学习算法组合了所有的基分类器，但很难确定应该包含哪些基分类器、需要多少个基分类器、应该使用什么集成策略。研究表明，组合一部分基分类器而不是所有基分类器可能会更好，这样的集成学习方法称作选择性集成(EnsembleSelection)。选择性集成学习可以使用较少的基分类器实现较强的泛化性能。选择性集成学习包括两个步骤：首先，训练一组同质的或异质的基分类器；其次，采用启发式算法来计算基分类器的权重，将权重大于设定阈值的基分类器进行组合，组合后的模型用于对测试样本进行分类。

基于机器学习的恶意软件检测方法需要把恶意软件表示成各种类型的特征，这些特征被用来训练能预测未知软件性质的分类模型。然而在大量的特征类型中选择最适合的特征和使用适合的分类算法并不是一项容易的工作。受文本分类方法的启发，研究人员提出了基于可执行文件字节码n-grams的恶意软件检测方法，该方法提取的特征覆盖了整个可执行文件，但这些特征都是语法模式信息，没有明显的语义信息。可执行文件可反汇编得到汇编代码，汇编代码由指令序列构成。指令包括操作码和可选的操作数，操作码确定指令的功能操作。研究人员提出了基于操作码n-grams的恶意软件检测方法，但该方法只从代码节提取特征，提取的操作码序列有较丰富的语义信息(如控制流和功能等)，但可执行文件的大量重要信息被丢弃。恶意软件和被感染可执行文件格式信息上存在一些异常，这些异常是检测恶意软件的关键点。研究人员提出了基于可执行文件格式信息的恶意软件检测方法，该方法从可执行文件的文件头、节头部、资源节、导入表提取特征，但该方法没有提取决定软件行为的代码节和数据节信息作为特征。字节码n-grams、操作码n-grams、格式特征都部分捕捉到了恶意软件和良性软件间的可区分信息，但都不完整。

发明内容

针对上述问题，本发明的目的在于提供一种基于多视集成学习的恶意软件检测方法，该方法能有效的检测新出现恶意软件，同时具备较好的泛化性能。技术方案如下：

一种基于多视集成学习的恶意软件检测方法，包括：

步骤A：抽取训练样本集，对训练样本集中的可执行文件提取字节码n-grams特征视图、操作码n-grams特征视图，以及格式信息特征视图；

步骤B：对字节码n-grams特征视图采用不同的分类算法训练出多个基分类器，构成第一基分类器集合；

对操作码n-grams特征视图采用不同的分类算法训练出多个基分类器，构成第二基分类器集合；

对格式信息特征视图采用不同的分类算法训练出多个基分类器，构成第三基分类器集合；

利用集成学习方法处理上述三个基分类器集合，得到集成的分类模型；

步骤C：从待检测样本集中提取出与上述三种特征视图相应的特征；

步骤D：根据提取到的待检测样本集的特征，用所述集成的分类模型对待检测样本进行分类，得到检测结果。

进一步的，将所述步骤B替换为：

合并所述字节码n-grams特征视图、操作码n-grams特征视图以及格式信息特征视图，构成特征超集；

对上述特征超集采用不同的分类算法训练出多个基分类器；

利用集成学习方法处理上述多个基分类器，得到集成的分类模型。

更进一步的，所述集成学习方法为：Voting算法、Stacking算法或EnsembleSelection算法。

更进一步的，所述字节码n-grams特征视图的提取方法包括：

将二进制的可执行文件转换为十六进制的文本文件，得到十六进制字节码序列；

用n-grams法处理上述字节码序列，生成大量短序列；

根据每个短序列特征的文档频率，过滤出相关特征集；

用特征的权重表示相关特征集中对应特征的值；

根据特征的值采用特征选择算法对相关特征集进行特征选择，得到相关特征子集，作为字节码n-grams特征视图。

更进一步的，所述特征的权重用二值法、TF或TF.IDF表示。

更进一步的，所述操作码n-grams特征视图的提取方法包括：

使用IDAPro对样本文件进行反汇编处理，得到汇编语言文件；

从汇编语言文件提取操作码序列；

用n-grams法处理上述操作码序列，生成大量短操作码序列；

根据每个短序列特征的文档频率，过滤出相关特征集；

用特征的权重表示相关特征集中对应特征的值；

根据特征的值采用特征选择算法对相关特征集进行特征选择，得到相关特征子集，作为操作码n-grams特征视图。

更进一步的，所述特征的权重用二值法、TF或TF.IDF表示。

更进一步的，所述格式信息特征视图的提取方法包括：

从可执行文件中提取出和恶意软件检测相关的格式属性：引用的DLLs、引用的APTs、PE文件头部、节头部以及资源目录表，以及每个格式属性的值，构成格式特征集；

用特征选择算法对格式特征集进行特征选择，得到格式特征子集，作为格式信息特征视图。

更进一步的，所述PE文件头部不包括以下属性：机器类型、链接器信息、操作系统信息和时间戳；节头部属性包括以下节的节头部属性：.text、.data、.rsrc、.rdata和.reloc。

本发明的有益效果是：本发明一方面，集成了表示可执行文件的字节码特征、操作码特征、格式信息特征，实现了特征的互补；另一方面，使用集成学习取代了单个分类器，修正了单分类器的归纳偏置，实现了各分类算法的互补；能有效的检测新出现恶意软件，同时具备较好的泛化性能。

附图说明

图1构建集成学习的四个层次。

图2为本发明基于多视集成学习的恶意软件检测方法采用集成方案1的流程框图。

图3为本发明基于多视集成学习的恶意软件检测方法采用集成方案2的流程框图。

图4为实施例1的检测结果对比图。

图5为实施例2的检测结果对比图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。本发明提供的恶意软件检测步骤如下：

步骤A：提取训练样本集特征视图。

抽取训练样本集，对训练样本集中的可执行文件提取字节码n-grams特征视图、操作码n-grams特征视图，以及格式信息特征视图。

(1)提取字节码n-grams特征视图：将二进制的可执行文件转换为十六进制的文本文件，得到十六进制字节码序列；用n-grams法处理上述字节码序列，生成大量短序列；根据每个短序列特征的文档频率，过滤出相关特征集；用特征的权重表示相关特征集中对应特征的值；根据特征的值采用特征选择算法对相关特征集进行特征选择，得到相关特征子集，作为字节码n-grams特征视图。

可执行文件通常以字节为单位进行存储，连续的几个字节可能是完成特定功能的一段代码，或者是可执行文件的结构信息，也可能是某个恶意软件中特有的字节序列。但是可执行文件通常是二进制文件，需要把二进制文件转换为十六进制的文本文件，就得到可执行文件的十六进制字节码序列。在不知道多长的子序列能更好的表示可执行文件的情况下，只能以固定窗口大小在字节码序列中滑动，产生大量的短序列，由机器学习方法选择可能区分恶意软件和良性软件的短序列作为特征，产生短序列的方法叫n-grams。字节码序列“080074FF13B2”，如果以3-grams产生连续重叠的短序列，将得到“080074”、“0074FF”、“74FF13”、“FF13B2”四个短序列。

n-grams中滑动窗口的长度n取多大会得到较好的实验结果，本实施例用同样的实验过程进行了n＝3,4,5的实验，以确定较优的n值。n-grams产生的短序列非常庞大，以n＝4为例，将产生2^32(4,294,927,296)个特征，如此庞大的特征集在计算机内存中存储和算法效率上都是问题。本发明统计了每个特征的文档频率DF(documentfrequency)，文档频率DF指包含该特征之样本文件的数目。如果特征的DF较小，对机器学习可能没有意义，本实施例选取了DF最高的15000个特征。

初次过滤后剩余的15000个特征对分类学习仍然过多，本发明使用特征选择算法选择最相关的一组特征子集。同时对学习算法来说，有效的特征选择可以降低学习问题的复杂性，提高学习算法的泛化性能，简化学习模型。

特征选择算法是基于每个特征的特征值来计算的，本发明用特征的权重来表示对应特征的值。每个短序列特征的权重表示有多种方法。最简单的方法是二值法：如果该特征在该样本文件中出现，就表示为1；如果没有出现，就表示为0。也可以把特征的权重表示为词频(termfrequency，TF)，即某一个特征在该样本文件中出现的频率。较好的权重表示方法是TF.IDF值，TF是词频，定义如下：

{TF}_{i, j} = \frac{n_{i, j}}{Σ_{k} n_{k, j}}

n_i,j是短序列特征i在文件j中出现的次数。为了防止偏向较长的文件，用∑_kn_k,j进行了归一化，∑_kn_k,j指在样本文件d_j中所有短序列出现次数之和。

逆向文件频率(inversedocumentfrequency，IDF)是一个短序列特征普遍重要性的度量。某一短序列特征的IDF，可以由总样本文件数目除以包含该短序列特征之样本文件的数目，再将得到的商取对数得到：

{IDF}_{i} = l o g \frac{| D |}{| {j : t_{i} &Element; d_{j}} |}

|D|指样本文件的总数，|{j:t_i∈d_j}|指包含特征t_i的样本文件数目。IDF的主要思想是：如果包含短序列特征t_i的样本越少，也就是|{j:t_i∈d_j}|越小，IDF越大，则说明短序列特征t_i具有很好的类别区分能力。

TF.IDF定义如下：

TF.IDF＝TF×IDF

关于特征选择算法本发明对比了信息增益(informationgain)、信息增益比(informationgainratio)、过滤式特征选择方法CfsSubsetEval三种方法。信息增益和信息增益比特征选择算法保留的特征个数很难确定，和CfsSubsetEval性能相当时特征个数明显较多，所以使用CfsSubsetEval进行了特征选择。选择后的特征使用四种分类算法(J48，RandomForest，Bagging(J48)，AdboostM1(J48))进行了分类实验，4-grams特征表示取得了较好的实验结果，包括87个特征，字节码4-grams被选为第一个特征视图：字节码n-grams特征视图。

(2)提取操作码n-grams特征视图：使用IDAPro对样本文件进行反汇编处理，得到汇编语言文件；从汇编语言文件提取操作码序列；用n-grams法处理上述操作码序列，生成大量短操作码序列；根据每个短操作码序列特征的文档频率，过滤出相关特征集；用特征的权重表示相关特征集中对应特征的值；根据特征的值采用特征选择算法对相关特征集进行特征选择，得到相关特征子集，作为操作码n-grams特征视图。

可执行文件的功能实现在其代码节，代码节由机器语言指令组成。机器语言指令由操作码和可选的操作数组成。操作码是机器语言指令的主要部分，指定了机器指令进行的操作。操作码的操作包括算术运算、逻辑运算、数据处理、程序控制等。操作数通常是立即数、寄存器、内存地址、IO端口等。操作数比较随机，很少有语义信息。软件通过连续的多条机器指令实现特定功能，去掉机器指令中相对随机的操作数，操作码序列具备较强的语义信息。恶意软件可能重用了早期恶意软件的部分代码，或者恶意软件实现特定恶意行为的操作码序列可能是相似的，操作码序列在恶意软件和良性软件间具备一定的区分度。

使用IDAPro对样本文件进行反汇编处理，得到汇编语言文件。反汇编后的汇编语言文件片段如下：

然后从汇编语言文件提取操作码序列，以上汇编语言文件片段提取的操作码序列为(movpushpushpushcallpushpushpushpushpushcallpushcallpushcalladd)。尽管丢弃操作数后丢失了一些语义信息，但提取的操作码序列保留了汇编语言文件的主要语义信息。基于n-grams模型以固定窗口大小在操作码码序列中滑动，产生大量的短操作码序列。使用和字节码n-grams相同的方法，用同样的实验过程进行了n＝2,3,4,5的实验，以确定较优的n值。经过实验结果对比，4-grams特征表示取得了较好的实验结果，包括112个特征，操作码4-grams被选为第二个特征视图：操作码n-grams特征视图。

(3)提取格式信息特征视图：从可执行文件中提取出和恶意软件检测相关的格式属性：引用的DLLs、引用的APTs、PE文件头部、节头部以及资源目录表；对每种格式属性提取相应数量的格式特征，构成格式特征集；用特征选择算法对格式特征集进行特征选择，得到格式特征子集，作为格式信息特征视图。

PE就是PortableExecutable(可移植可执行文件)的缩写，初衷是希望能开发一个在所有Windows平台上和所有CPU上都可执行的通用文件格式。恶意软件或被恶意软件感染的可执行文件，它本身也遵循格式要求的约束，但存在一些特定格式异常，在格式上表现出和正常文件的一些差异。如代码不从代码节开始执行、节头部异常Characteristics值、PE可选头部有效大小的值不正确、节之间的间缝、可疑的代码重定向、存在非标准节、导入节被修改、多个PE头部、SizeOfCode取值不正确等等。PE文件很多属性没有强制限制，文件完整性约束松散，存在着较多的冗余属性和冗余空间，为PE格式恶意软件的传播和隐藏创造了条件。此外，由于恶意软件为了方便传播和隐藏，尽一切可能的减小文件大小，如文件结构的某些部分重叠，很少使用图形界面资源，导入节很小和几乎没有导出节，很少带有调试信息，同时对一些属性进行了特别设置以达到Anti-Dump、Anti-Debug或干扰反汇编。综合上面的分析可以看出，恶意软件的格式信息和正常文件是有很多差异性的，以可执行文件的格式信息作为特征，从而识别已知和未知恶意软件是可行的。

PE文件的格式属性很多，基于对恶意软件的分析和各个格式属性的深入认识，初步提取出可能和恶意软件检测相关的格式属性见表1。

对表1提取的特征简单描述如下：

引用的DLLs和引用的APIs：通过一个可执行程序引用的动态链接库(DLL)和应用程序接口(API)可以粗略的预测该程序的功能和行为。统计所有样本导入节中引用的DLL和API的频率，留下引用频率大于100次的DLL和API，然后计算每个DLL或API的信息增益，选择信息增益最高的30个DLL和30个API。每个样本的导入节里存在选择出的DLL或API，以1表示，不存在则以0表示。

PE文件头部：PE文件头部是定义整个PE文件“轮廓”的属性。本发明排除了有可能误导结果的部分属性，如机器类型、链接器信息、操作系统信息、时间戳等，然后选择了剩下的所有字段。

节头部：本实施例提取了5个节(.text、data、.rsrc、.rdata和.reloc)的节头部属性，这5个节在大部分PE文件中都存在。如果某个样本不存在相应节，该节头部的信息都以0表示。

资源目录表：提取了较常见的21种资源类型的个数，如果没有相应类型的资源，该资源的个数以0值表示，同时还提取了资源节中总的资源个数。

对于提取的197个格式特征，使用CfsSubsetEval算法进行特征选择，共选出28个特征，这些特征作为第三个特征视图：格式特征视图。

表1.可能和PE格式恶意软件检测相关的属性

特征描述	数量(个)
		引用的DLLs	30
引用的APIs	30
		引用DLL的总数	1
引用API的总数	1
		导出表中符号的总数	1
重定位节的项目总数	1
		IMAGE_FILE_HEADER	7
IMAGE_OPTIONAL_HEADER	16
		IMAGE_DATA_DIRECTORY	32
.text节头	11
		.data节头	11
.rsrc节头	11
		.rdata节头	11
.reloc节头	11
		资源目录表	22
合计	197

步骤B：集成分类模型。

由于特征层提取到的特征，如字节码n-grams、操作码n-grams、格式特征都部分捕捉到了恶意软件和良性软件间的可区分信息，都不完整，而这些特征具有相对的独立性，同时也存在着互补。本发明提供两种方案集成这三种类型的特征，两种方案的说明如下。

集成方案1：对字节码n-grams特征视图采用不同的分类算法训练出多个基分类器，构成第一基分类器集合；对操作码n-grams特征视图采用不同的分类算法训练出多个基分类器，构成第二基分类器集合；对格式信息特征视图采用不同的分类算法训练出多个基分类器，构成第三基分类器集合；利用集成学习方法处理上述三个基分类器集合，得到集成的分类模型。

如图2所示，基于字节码4-grams的87个特征，使用J48(决策树算法)、RandomForest(随机森林算法)、Bagging(REPTree)(袋装算法)三种分类算法训练了3个基分类器。基于操作码4-grams的112个特征，使用RandomForest(随机森林算法)、LogitBoost(DecisionStump)(Logit推进算法)、MutilBoostAB(DecisionStump)(Multi推进算法)三种分类算法训练了3个基分类器。基于28个格式信息特征，使用RandomForest(随机森林算法)、RotationForests(J48)(旋转森林算法)、RandomSubspace(REPTree)(随机子空间算法)三种分类算法训练了3个基分类器。使用集成学习方法Voting、Stacking或EnsembleSelection集成9个基分类器，其中Vote使用AverageofProbabilities、MajorityVoting两种集成策略，Stacking使用J48(决策树算法)、RandomForest(随机森林算法)、BayesNet(贝叶斯网络算法)三种分类算法集成9个基分类器，此外还可以使用选择性集成方法EnsembleSelection对9个基分类器进行选择性集成。

集成方案2：合并所述字节码n-grams特征视图、操作码n-grams特征视图以及格式信息特征视图，构成特征超集；对上述特征超集采用不同的分类算法训练出多个基分类器；利用集成学习方法处理上述多个基分类器，得到集成的分类模型。

如图3所示，合并字节码4-grams、操作码4-grams、格式信息特征，共得到227个特征。基于合并后的特征，使用7种分类算法J48、RandomForest、Bagging(REPTree)、LogitBoost(DecisionStump)、MutilBoostAB(DecisionStump)、RotationForests(J48)、RandomSubspace(REPTree)训练7个基分类器。然后使用集成学习方法Voting、Stacking或EnsembleSelection集成7个基分类器，其中Vote使用AverageofProbabilities、MajorityVoting两种集成策略，Stacking使用J48、RandomForest、BayesNet三种分类算法集成7个基分类器，此外还可以使用选择性集成方法EnsembleSelection对7个基分类器进行选择性集成。

步骤C：从待检测样本集中提取出与上述三种特征视图相应的特征。

实施例一：本实施例主要评估本发明提供的方法是否能有效的检测新出现的恶意软件。本实施例使用了7871个良性软件样本和8269个恶意软件样本。训练集由2011年以前发现的4103个恶意软件和新安装的XPSP3操作系统收集的3918个良性软件组成，测试集由最近发现的4166个恶意软件和新安装的Windwos732位版操作系统收集的3953个良性软件组成。三种单特征视图方法和本发明提供的两种方案的结果如图4所示，使用不同算法或参数的同类型方法，最好的实验结果被选出和其它方法进行对比。

如图4所示，Stacking(叠加法)集成方法的结果明显弱于Voting(投票法)和EnsembleSelection(选择性集成)集成方法，可能的原因是Stacking集成方法训练的模型过于复杂，存在过拟合训练数据。Voting集成方法的集成策略相对简单鲁棒，取得了较好的实验结果，有相对较好的泛化能力。Stacking和Voting集成方法都是按照一定策略集成所有的基分类器，没有对基分类器进行取舍，而基分类器是主观选择的结果，把较好的基分类器进行集成，并不一定获得更好的实验结果，基分类器的选择受研究人员对集成学习主观认识和经验影响较大。选择性集成方法EnsembleSelection对基分类器进行组合取舍，选择较优的基分类器子集进行集成，简化了分类模型的复杂度，具备较好的泛化能力，实验结果明显优于Stacking和Voting集成方法。

总体而言，本发明提供的两种多视集成方案明显优于三种单特征视图方法，恶意软件的检测率和总体的准确率有较大幅度的提升。考虑到本实施例是基于早期的样本检测新出现的样本，具有较大的挑战性，训练样本和测试样本有显著的差异，使用多视集成方法取得了不错的实验结果。

实施例二：本实施例主要评估本发明提供的方法是否有较好的泛化性能。本实施例使用了7871个良性软件样本和114,447个恶意软件样本。训练集由5202个恶意软件和3918个良性软件组成，测试集由109,245个恶意软件和3953个良性软件组成。本实施例使用了小的训练集和大的测试集，无论是训练集还是测试集，都是新旧样本的混合，可有效评估检测方法的泛化性能。三种单特征视图方法和本发明提供的两种方案的结果如图5所示，使用不同算法或参数的同类型方法，最好的实验结果被选出和其它方法进行对比。

如图5所示，本发明提供的两种多视集成方案明显优于三种单特征视图方法，各项性能指标已非常接近最优值，以小的训练集构建集成学习模型，可正确检测大测试集中99％的恶意软件，且误报率达到0％。在本实施例中，各种集成学习方法和集成策略没有显著的差异，考虑到样本集可能存在噪声，本发明提供的方法已取得了非常理想的结果。

Claims

1.一种基于多视集成学习的恶意软件检测方法，其特征在于，包括：

2.根据权利要求1所述的基于多视集成学习的恶意软件检测方法，其特征在于，将所述步骤B替换为：

对上述特征超集采用不同的分类算法训练出多个基分类器；

3.根据权利要求1或2所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述集成学习方法为：Voting算法、Stacking算法或EnsembleSelection算法。

4.根据权利要求1或2所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述字节码n-grams特征视图的提取方法包括：

用n-grams法处理上述字节码序列，生成大量短序列；

根据每个短序列特征的文档频率，过滤出相关特征集；

用特征的权重表示相关特征集中对应特征的值；

5.根据权利要求4所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述特征的权重用二值法、TF或TF.IDF表示。

6.根据权利要求1或2所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述操作码n-grams特征视图的提取方法包括：

使用IDAPro对样本文件进行反汇编处理，得到汇编语言文件；

从汇编语言文件提取操作码序列；

用n-grams法处理上述操作码序列，生成大量短操作码序列；

根据每个短操作码序列特征的文档频率，过滤出相关特征集；

用特征的权重表示相关特征集中对应特征的值；

7.根据权利要求6所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述特征的权重用二值法、TF或TF.IDF表示。

8.根据权利要求1或2所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述格式信息特征视图的提取方法包括：

9.根据权利要求8所述的基于多视集成学习的恶意软件检测方法，其特征在于，所述PE文件头部不包括以下属性：机器类型、链接器信息、操作系统信息和时间戳；节头部属性包括以下节的节头部属性：.text、.data、.rsrc、.rdata和.reloc。