CN109241740B

CN109241740B - 恶意软件基准测试集生成方法及装置

Info

Publication number: CN109241740B
Application number: CN201811053613.6A
Authority: CN
Inventors: 庞建民; 梁光辉; 单征; 杨冠一; 岳峰; 张啸川; 周鑫
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2018-09-11
Filing date: 2018-09-11
Publication date: 2020-12-18
Anticipated expiration: 2038-09-11
Also published as: CN109241740A

Abstract

本发明属于计算机安全技术领域，特别涉及一种恶意软件基准测试集生成方法及装置，包含：针对每个恶意代码，在其执行生命周期内监控其执行的系统调用行为，获取该恶意代码的系统调用序列流；对恶意代码系统调用序列流进行分析并聚类，生成该恶意代码系统调用行为的簇类；确定每个簇样本适应度，对聚类之后的簇按照适应度进行抽样，得到基准测试集合。本发明通过行为聚类和遗传抽样及测试集合的信息熵计算，解决不同的恶意代码检测模型间的能力比较问题，有效规避恶意代码行为分析时面临加壳加密等的不确定性；在保证样本丰富性前提下，尽可能降低基准测试集的体量，方便测试集大规模使用，对恶意代码检测技术及互联网数据安全具有重要的指导意义。

Description

恶意软件基准测试集生成方法及装置

技术领域

本发明属于计算机安全技术领域，特别涉及一种恶意软件基准测试集生成方法及装置。

背景技术

随着互联网信息技术的飞速发展，恶意代码对信息基础设施的破坏越来越严重。恶意代码在传播数量、破坏能力、抗分析能力等方面都在不断地优化和改进，对当前的安全防御构成了严重的挑战。从传统的信息窃取的计算机木马到对个人和企业信息系统进行破坏的勒索软件，还包括逐渐开始泛滥的挖矿恶意代码，都在指示恶意代码的多样化发展趋势。当前，自动化的恶意代码分析技术已经称为安全分析的主流技术，但是仍然离不开经验丰富的分析专家的配合，尤其是动态分析技术的发展，在捕获恶意代码与操作系统的交互信息上给分析专家提供了语义层次丰富的信息，相比于传统的人工调试等手段要先进和快捷很多。

随着机器学习和人工智能技术的广泛使用，基于机器学习的恶意代码判定模型被不断研究和开发，并逐渐称为当前恶意代码检测的一种主流技术。在安全分析领域，大部分对病毒检测模型的判定是用流行的恶意代码集合作为测试集，但是，不同模型的优劣并不是用同一个或同一类的测试集来判定，对于每个模型的比较和评估，无法简单通过检测率和误报率来判定，因为这些结果是基于无法横向比较的测试集合，因此，需要提出一种自动化的、有效的恶意代码检测基准测试集来帮助提高基于机器学习的恶意代码检测模型研究。

发明内容

为此，本发明提供一种恶意软件基准测试集生成方法及装置，通过行为聚类和遗传抽样及测试集合的信息熵计算，解决不同的恶意代码检测模型间的能力比较问题，有效规避代码检测过程中的不确定性，提高恶意代码检测过程中的效率和准确度。

按照本发明所提供的设计方案，一种恶意软件基准测试集生成方法，包含如下内容：

针对每个恶意代码，在其执行生命周期内监控其执行的系统调用行为，获取该恶意代码的系统调用序列流；

对恶意代码系统调用序列流进行分析并聚类，生成该恶意代码系统调用行为的簇类；

确定每个簇样本适应度，对聚类之后的簇按照适应度进行抽样，得到基准测试集合。

上述的，针对每个恶意代码，在其执行生命周期内从进程行为、文件行为、注册表行为、网络行为及内存行为五个方面对其进行系统调用行为监控。

上述的，监控系统调用行为时，通过建立系统调用使用范式监控系统调用行为的同时，获取系统调用的参数信息和返回结果，来判定系统调用执行情况。

上述的，监控系统调用行为时，若监测到进程创建行为，获取创建的子进程信息并加入到恶意代码的监控对象范围内。

上述的，系统调用序列流的分析并聚类，包含如下内容：

采用序列提纯删除恶意代码系统调用序列流中重复序列；

对存在依赖关系的系统调用序列进行合并，简化系统调用序列；针对简化后的系统调用序列，通过滑动窗口生成特征向量；

针对特征向量，利用非监督层次聚类模型进行学习，获取聚类后的簇。

优选的，采用序列提成删除重复序列过程中，将长度小于设定阈值的系统调用序列判定为短系统调用序列，标记并删除重复的短系统调用序列。

优选的，系统调用序列合并过程中，根据系统调用之间的依赖关系调整系统调用序列，合并存在父子关系的系统调用序列，依据滑动窗口生成系统调用序列对应的特征向量。

优选的，针对特征向量，依据欧几里得距离获取特征向量相似度；将特征向量相似度作为非监督层次聚类模型的输入，将两个簇数据对象之间的平均连接距离作为簇间的距离衡量标准进行学习，获取聚类后的簇。

上述的，针对每个簇中的样本通过杀毒软件标签查询获取每个样本在簇中的适应度，利用不放回抽样选定测试集中的样本；针对已选定测试集样本，利用香农信息熵评估生成的测试集，将平均信息熵大于设定阈值的测试集作为基准测试集。

一种恶意软件基准测试集生成装置，包含：行为聚类模块和抽样模块，其中，行为聚类模块包括系统调用监控层、行为提纯层和层次聚类层，

系统调用监控层，用于监控恶意代码在执行生命周期中的系统调用行为，获取该恶意代码的系统调用序列流；

行为提纯层，用于对系统调用序列流进行分析，合并存在父子关系的序列流，对重复的系统调用序列进行标记并删除；并根据系统调用之间的依赖关系调整系统调用序列，形成新的系统调用序列流；

层次聚类层，用于生成新的系统调用序列流的特征向量，依据欧几里得距离获取特征向量相似度，并将其作为非监督层次聚类模型的输入进行学习，使用平均连接距离作为输出簇间的距离衡量标准，获取聚类后的簇；

抽样模块，根据杀毒软件标签获取每个簇中样本的适应度，并利用不放回抽样选定测试集中样本；利用香农信息熵评估测试集中样本数据，将平均信息熵满足设定阈值的测试集，作为基准测试集。

本发明的有益效果：

本发明通过动态行为分析，从较高层次捕获恶意代码语义，利用非监督层次聚类学习，将初始的恶意代码训练集按照恶意代码的行为分为相应的簇类，能有效规避通过静态分析分析恶意代码行为时面临的加壳加密等不确定性；并通过基于遗传适应度的抽样，在保证样本丰富性的前提下，尽可能的降低了基准测试集的体量，方便测试集的大规模使用，进一步帮助计算机安全专家提高检测模型的能力，对恶意代码检测技术及互联网数据安全具有重要的指导意义。

附图说明：

图1为实施例中基准测试集生成方法流程图；

图2为实施例中序列流分析聚类流程图；

图3为实施例中基准测试集生成装置原理图；

图4为实施例中系统调用监控实现框架图；

图5为实施例中基于代码行为的层次聚类框架图；

图6为实施例中基于遗传算法的抽样框架图。

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚、明白，下面结合附图和技术方案对本发明作进一步详细的说明。

针对不同恶意代码检测模型间的能力比较存在的不足，本发明实施例，参见图1所示，提供一种恶意软件基准测试集生成方法，包含如下内容：

101)针对每个恶意代码，在其执行生命周期内监控其执行的系统调用行为，获取该恶意代码的系统调用序列流；

102)对恶意代码系统调用序列流进行分析并聚类，生成该恶意代码系统调用行为的簇类；

103)确定每个簇样本适应度，对聚类之后的簇按照适应度进行抽样，得到基准测试集合。

通过对恶意代码的行为分析与深度处理，对不同类别恶意代码的进行抽样比较，形成最终的测试集合，充分保证测试集中恶意样本的丰富性，提高测试集的代表性和准确性。

为保证恶意代码运行全生命周期监控的完整性，本发明的再一个实施例中，在每个二进制恶意代码执行生命周期内，从进程行为、文件行为、注册表行为、网络行为及内存行为五个方面对其进行系统调用行为监控。通常情况下，该五个方面包含230个系统调用，最大程度的覆盖了恶意代码的常见行为。在对230个系统调用进行监控的时候，为了保证最大程度的获取程序的执行信息，本发明实施例中，还可通过同时建立系统调用的使用范式，保证在监测到系统调用的同时，能够获取到系统调用的参数信息和返回结果，从而判定系统调用的执行情况。同时，恶意代码在执行过程中，需要启动多个进程来互相配合完成特定的功能，在监控过程中，如果监测到进程创建行为，将获取子进程的信息,并加入到监控对象中，进一步保证代码执行周期中监控的全面完整性。

为了对抗恶意代码的混淆行为，本发明的另一个实施例中，参见图2所示，系统调用序列流的分析并聚类，包含如下内容：

201)采用序列提纯删除恶意代码系统调用序列流中重复序列；

202)对存在依赖关系的系统调用序列进行合并，简化系统调用序列；针对简化后的系统调用序列，通过滑动窗口生成特征向量；

203)针对特征向量，利用非监督层次聚类模型进行学习，获取聚类后的簇。

采用序列提成删除重复序列过程中，本发明再一个实施例中，将长度小于设定阈值的系统调用序列判定为短系统调用序列，标记并删除重复的短系统调用序列。对于重复的短系统调用序列，根据其前后的重复情况对多余的系统调用序列进行删除，通过对大量的恶意代码样本的测试得出，当短系统调用序列的长度小于等于4时，删除重复的系统调用序列长度，对后期的特征生成和相似度比较产生的影响可以忽略不计。为了对系统调用序列的语义信息进一步提升，系统调用序列合并过程中，根据系统调用之间的依赖关系调整系统调用序列，合并存在父子关系的系统调用序列，依据滑动窗口生成系统调用序列对应的特征向量。对存在依赖关系的系统调用合并，例如文件打开、文件读写、文件关闭的操作，可以通过文件句柄的依赖进行合并，这样的进一步简化了系统调用序列的长度。在特征生成过程中，采用ngram方法的滑动窗口对简化后的系统调用进行处理，生成的特征作为下一步无监督学习的输入。针对特征向量，依据欧几里得距离获取特征向量相似度；将特征向量相似度作为非监督层次聚类模型的输入，将两个簇数据对象之间的平均连接距离作为簇间的距离衡量标准进行学习，获取聚类后的簇。在层次聚类过程中，采用欧几里得距离作为样本之间的距离，在聚类的过程中，衡量簇之间的中心距离有单连接方式、全连接方式和平均连接方式，本发明实施例中采用平均连接方式，选取两个簇数据对象之间的平均距离作为簇间距离，实现了大量样本由下到上的聚类。

进行抽样获取基准测试集过程中，本发明的另一个实施例，针对每个簇中的样本通过杀毒软件标签查询获取每个样本在簇中的适应度，利用不放回抽样选定测试集中的样本；针对已选定测试集样本，利用香农信息熵评估生成的测试集，将平均信息熵大于设定阈值的测试集作为基准测试集。基于遗传算法的抽样生成基准测试集的核心部件，在进行抽样之前，计算簇中样本的可选择度或者适应度，适应度指示该样本在簇中被选择的几率，是通过批量的杀毒软件的标签来获得，本实施例中采用的杀毒软件数量可根据实际需求设定为30个。适应度越高说明该样本被杀毒软件识别的程度越高，也就意味着恶意性越明确。在确定簇中样本的适应度之后，对聚类之后的簇按照适应度进行抽样，抽样算法可设计如下：

基于信息熵的评估层中，根据生成的测试样本计算测试集的信息熵，信息熵的计算公式如下：

其中，H(X)表示测试集和的信息熵，x_i表示层次聚类后的第i类样本，p(x_i)表示该类样本所占的比重。为了防止由一类恶意代码组成测试集，信息熵作为生成后的集合的评估来使用，当生成后的测试集的平均信息熵大于0.8时认为符合样本丰富性的要求。

基于上述的基准测试集生成方法，本发明实施例还提供一种恶意软件基准测试集生成装置，参见图3所示，包含：行为聚类模块和抽样模块，其中，行为聚类模块包括系统调用监控层、行为提纯层和层次聚类层，

行为聚类模块对二进制程序的自启动执行、系统调用的行为提纯、层次聚类分析，抽样模块对杀毒软件标签的采集和应用，抽样策略主要是对已经聚类的恶意代码进行采用，保证抽取过程的公平性和有效性。行为聚类和抽样模块的各个层之间互相连接，图3所示中，分别为：(1)在系统调用监控层面，对目标二进制文件加载后的进程进行监控，分别从进程行为、注册表行为、文件行为、网络行为、内存行为五个方面，对运行的系统调用进行挂钩，对于存在的父子进程进行顺序监控，然后将系统调用的具体信息输入到库中，完成该层的信息监控。(2)在行为提纯层，对获取到的行为监控序列流进行分析，合并存在父子关系的序列流，对重复的短系统调用序列进行标记并删除，并根据系统调用之间的依赖关系调整系统调用序列，形成新的系统调用序列流；(3)在层次聚类层，生成系统调用序列流对应的向量，依据欧几里得距离计算向量相似度，并作为层次聚类的输入，在层次聚类过程中，使用平均连接距离作为簇间的距离衡量标准。(4)抽样模块中的遗传抽样层和信息熵评估城。在遗传抽样层，根据杀毒软件的标签计算不同家族下样本的适应度，并利用不放回抽样选定测试集中的样本。在信息熵评估层，利用香农信息熵原理和计算公式，评估生成的测试集的信息熵是否满足基准测试集的要求。

监控的系统调用列表通过恶意代码的常见行为来描述，并定义了五大类下面的具体的系统调用信息；根据提纯后的序列流，重点考虑向量的生成过程和聚类过程中的连接方法选择。在相似行为的恶意代码簇中，根据杀毒软件的标签来计算不同样本的遗传适应度，并利用不放回抽样来生成测试集。对生成的基准测试集的样本进行类别属性统计，借助于香农信息熵对信息统计的鉴别原理，计算所生成的测试集的熵，同时考虑到不同测试集的大小和种类差异，最终的评估采用平均信息熵的形式。行为聚类模块在每一个恶意代码的执行生命周期内，对其执行的系统调用进行监控，截获系统调用对应的输入输出参数类别、内容和调用结束后的返回值；在特征提纯和依赖分析上，考虑到恶意代码越来越普遍的抗分析行为和后期的数据处理复杂性，对大量重复的短序列进行约简，得到恶意代码更加简洁的行为语义表示；抽样模块中，在获取每个簇中样本适应度时，杀毒软件的数量可根据需求选取30个，为了保证标签的有效性，客选取近两年来在国际三大测评机构中排名靠前的杀毒软件。基于恶意代码动态分析技术，获取程序的动态执行语义信息，作为测试集生成的基础。如图4所示，待分析样本在载入分析环境之后，启动底层的系统调用监控，监控的粒度为进程级，递归跟踪目标程序所启动的所有进程，并根据每个进程中的系统调用的执行顺序生成监控日志，考虑到操作系统的系统调用数量众多，结合恶意代码的行为特点，将需要监控的系统调用分为五大类，分别为文件操作、注册表操作、进程行为、网络行为和内存行为。对涉及到这五大类的230个系统调用进行监控，这样既能够降低监控的负荷，也能够准确的把握恶意代码的行为规律。如图5所示，系统调用序列的处理关乎最终的行为聚类的效率和可靠性，因此通过序列提纯来抵消恶意代码可能的混淆行为，通过依赖分析来提高恶意代码行为的语义信息，在特征生成阶段，采用了恶意代码分析领域常见的ngram方法来生成特征向量。如图6所示，样本在输入层次聚类模型之后，根据设定的参数，会形成多个簇，簇中的样本通过杀毒软件标签查询就能够计算每个样本在簇中的适应度，适应度作为遗传算法抽样的基础，在抽样的过程中，首先要保证具有一定识别度的恶意代码才能够被选中，被杀毒软件标记的越多，也就是适应度越高，就说明该恶意代码的恶意行为的确定性，该恶意代码就应该大概率的作为备选样本而加入到基准测试集合中，在具体的抽样过程中，采用了不放回的抽样方式，而抽样的数量可由使用者来决定，模型检测或研究所需要的数量决定了从每个簇中抽取的样本的个数。

本发明针对二进制恶意代码中基准测试集合的生成问题，通过基于行为聚类、遗传抽样和测试集合的信息熵，解决不同的恶意代码检测模型间的能力比较问题，实现自动化的、有效的恶意代码检测基准测试集生成，来帮助提高基于机器学习的恶意代码检测模型的研究，提高恶意代码检测的准确性和有效性，对代码安全检测及互联网数据安全的技术研究具有重要的指导意义。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如：只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种恶意软件基准测试集生成方法，其特征在于，包含如下内容：

确定每个簇样本适应度，对聚类之后的簇按照适应度进行抽样，得到基准测试集合；

待分析样本在载入分析环境之后，启动底层的系统调用监控，监控的粒度为进程级，递归跟踪目标程序所启动的所有进程，并根据每个进程中的系统调用的执行顺序生成监控日志；监控系统调用行为时，通过建立系统调用使用范式监控系统调用行为的同时，获取系统调用的参数信息和返回结果，来判定系统调用执行情况；

针对每个簇中的样本通过杀毒软件标签查询获取每个样本在簇中的适应度，利用不放回抽样选定测试集中的样本；针对已选定测试集样本，利用平均信息熵评估生成的测试集，将平均信息熵大于设定阈值的测试集作为基准测试集；

系统调用序列流的分析并聚类，包含如下内容：

采用序列提纯删除恶意代码系统调用序列流中重复序列；

2.根据权利要求1所述的恶意软件基准测试集生成方法，其特征在于，针对每个恶意代码，在其执行生命周期内从进程行为、文件行为、注册表行为、网络行为及内存行为五个方面对其进行系统调用行为监控。

3.根据权利要求1所述的恶意软件基准测试集生成方法，其特征在于，监控系统调用行为时，若监测到进程创建行为，获取创建的子进程信息并加入到恶意代码的监控对象范围内。

4.根据权利要求1所述的恶意软件基准测试集生成方法，其特征在于，采用序列提纯删除重复序列过程中，将长度小于设定阈值的系统调用序列判定为短系统调用序列，标记并删除重复的短系统调用序列。

5.根据权利要求1所述的恶意软件基准测试集生成方法，其特征在于，系统调用序列合并过程中，根据系统调用之间的依赖关系调整系统调用序列，合并存在父子关系的系统调用序列，依据滑动窗口生成系统调用序列对应的特征向量。

6.根据权利要求1所述的恶意软件基准测试集生成方法，其特征在于，针对特征向量，依据欧几里得距离获取特征向量相似度；将特征向量相似度作为非监督层次聚类模型的输入，将两个簇数据对象之间的平均连接距离作为簇间的距离衡量标准进行学习，获取聚类后的簇。

7.一种恶意软件基准测试集生成装置，其特征在于，基于权利要求1所述的恶意软件基准测试集生成方法实现，包含：行为聚类模块和抽样模块，其中，行为聚类模块包括系统调用监控层、行为提纯层和层次聚类层，

抽样模块，根据杀毒软件标签获取每个簇中样本的适应度，并利用不放回抽样选定测试集中样本；利用平均信息熵评估测试集中样本数据，将平均信息熵满足设定阈值的测试集，作为基准测试集。