CN109190653B

CN109190653B - 基于半监督密度聚类的恶意代码家族同源性分析方法

Info

Publication number: CN109190653B
Application number: CN201810744345.6A
Authority: CN
Inventors: 方勇; 刘亮; 黄诚; 荣俸萍; 张与弛
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2020-06-05
Anticipated expiration: 2038-07-09
Also published as: CN109190653A

Abstract

本发明依据绝大多数新增恶意代码属于已知的恶意代码家族这一特性，利用病毒库中已有样本的信息辅助恶意代码进行家族同源性分析以实现更准确的家族聚类，并在准确的家族聚类的基础上对同家族的恶意代码构建家族图以可视化的方式了解同一家族内恶意代码的变种之间的演化关系并预测变种的发展方向，为恶意代码的深度分析提供技术支撑。结合恶意代码本身的演化特点，提出了一种支持家族图构建的恶意代码同源性分析模型，通过实验证明该模型的有效性。提出了一种半监督密度聚类算法，通过实验证明该算法可以实现准确的家族聚类，并为未知家族的发现提供线索，提出了一种基于不对称相似度度量的家族演化图构建算法，对每个恶意家族构建演化图，可视化呈现同一家族内恶意样本间的演化关系。

Description

基于半监督密度聚类的恶意代码家族同源性分析方法

技术领域

本发明运用半监督聚类技术来对恶意代码进行家族聚类，并使用不对称相似度计算方法构建家族演化图来可视化同一家族内变种间演化关系。通过研究当前聚类算法及遇到的问题，结合病毒库中的已知样本的信息，提出一种半监督密度聚类算法S-DBSCAN，属于数据挖掘技术。

背景技术

静态自动化分析技术难于对抗、混淆、加密和加壳等静态自动化分析技术，而动态自动化分析技术效率较低，现有框架多使用虚拟机作为分析环境，难以对抗动态分析环境检测及技术，无法得到样本可靠、准确的动态行为信息。

传统的序列挖掘算法GSP只能挖掘出频繁序列模式而不能达到挖掘某一类型样本的典型序列模式和进行恶意代码家族同源性分析的目的，不能直接应用于恶意代码家族同源性分析问题中。

传统的用于恶意代码家族聚类的聚类算法有密度聚类算法和层次聚类算法，该算法的缺点是在恶意家族较为相似的情况下，不能实现准确的家族划分，家族聚类的误差就很大，不适用于恶意家族总数巨大、分类细化的真实场景。

现有的家族演化树构建方法大多来自生物信息学上的系统发生树构建算法，对于基于代码复用的恶意代码同源性分析问题，系统发生树只能发现相似的恶意代码，并不能准确的揭示恶意代码之间的进化方向和演化关系。

发明内容

本发明为了解决现有同源性分析方法不能准确实现恶意代码的家族划分和可视化同家族恶意代码变种间的演化关系等弱点，通过改进DBSCAN算法，结合半监督聚类技术利用病毒库中已知样本家族信息来实现对恶意代码的准确家族聚类，并在此基础上提出一种不对称相似度计算方法以构建家族演化图，进而提供一种可视化家族内恶意代码变种间演化关系的方法。

按照本发明提供的方法，所述恶意代码家族同源性分析方法包括：典型API调用序列模式的提取，恶意代码家族聚类，家族演化树构建。具体的包括以下几个步骤。

a)数据提取，动态API调用序列提取模块负责样本动态API调用序列数据的采集、编号和存储。

b)序列模式挖掘，典型API序列模式挖掘模块负责从已知样本的API调用序列数据和其家族标签信息中挖掘出能代表某一恶意家族关键恶意行为的典型API调用序列模式，并保存。

c)文件表征，文件表征模块使用挖掘出的典型序列模式作为特征表征样本，得到布尔向量形式的样本数据集。

d)家族聚类，半监督聚类模块社区演变利用已知恶意样本的家族类别信息辅助样本集进行半监督聚类。

f)家族演化图构建，家族演化图构建模块对同家族内不同变种间的演化关系进行判定，构建家族演化图。

所属基于半监督密度聚类的恶意代码家族同源性分析技术研究中，表示恶意代码的常用特征主要包括。

a)代码特征：主要包括节的个数、节名、节属性、导入库个数和名称、导入函数个数和名称等PE头部信息和是否加壳、加壳算法及其版本信息等壳相关信息以及数据流图、控制流图、函数调用图等结构特征。

b)函数特征：主要包括函数个数、长度、参数及返回值类型、函数中指令类型分布情况等普通函数信息和API调用序列、集合等API函数信息。

c)数据特征：主要包括注册表的数值型键值、日期、密钥值等数值信息和文件名、IP地址、域名、注册表键和字符型键值等特殊字符串信息，介数可以衡量网络中的节点或者连边在整个网络中的重要程度。

d)行为特征：主要包含文件、注册表、进程、网络、服务、窗口和其他行为信息。

所属基于半监督密度聚类的恶意代码家族同源性分析技术研究中，用于家族聚类过程的相似度度量主要分为以下几种。

a)余弦相似度。

b)闵可夫斯基距离度量。

c)编辑距离。

d)杰卡德相似度。

本发明的优点是：1.本文直接使用真机进行恶意代码动态分析，能够绕过很多恶意代码的自我保护技术，更有利于触发恶意代码的恶意行为并提取样本真实、完整的API调用序列，有助于得到更准确的同源性分析结果；2.结合绝大多数新增恶意代码属于已知的恶意代码家族这一特点，提出一种利用已知恶意代码家族和样本的信息辅助恶意代码家族同源性分析的方法。该方法挖掘已知恶意代码家族的典型API调用序列模式作为特征来表示恶意文件，并应用半监督聚类算法进行恶意代码家族聚类，能实现更准确的家族划分；3.提出一种自动化构建家族演化图的方法，能够解释同一恶意代码家族内不同恶意代码之间的演化关系，为恶意代码的追踪溯源提供技术支撑。

附图说明

图1是本发明的总体设计流程图。

图2是本发明动态API调用序列提取模块的网络拓扑图。

图3是Huipigon家族不同r值选出的API调用集合对样本表示的影响图。

图4是S-DBSCAN的聚类过程图示。

图5是对Email-Worm.Win32.Netsky家族的聚类簇构建的家族演化图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下参照附图,对本发明进一步详细说明。

图1为本发明提出的恶意代码家族同源性分析模型的总体设计方案，主要分为以下几个模块：动态API调用序列提取模块、典型API序列模式挖掘模块、文件表征模块、半监督家族聚类模块和家族演化图构建模块。

特征挖掘阶段，图1中虚线标示过程，其工作流程为使用动态API调用序列提取模块提取已知恶意代码家族的已知恶意样本的API调用序列，然后利用已知恶意样本的家族标签从其API调用序列数据中挖掘出能代表某一家族关键行为的典型API调用序列模式并保存。

恶意代码自动化家族同源性分析阶段，图1中实线标示过程，其工作流程为首先使用动态API调用序列提取模块提取所有样本的API调用序列，其次使用特征挖掘阶段挖掘得到的典型API调用序列模式作为特征来表示所有样本文件，得到布尔向量表示的样本集，然后利用已知恶意样本的家族类别信息辅助样本集进行半监督聚类，最后对同一家族内的恶意代码构建其家族演化图。下面详细说明每个模块。

动态API调用序列提取模块，对使用虚拟机进行动态分析的传统Cuckoo分析框架进行修改，以实现批量动态API调用序列提取，修改后的模块网络拓扑图如图2所示，直接使用实体物理机作为分析环境，使用clonezilla实现分析系统高速还原，按照正常工作机来配置实体物理机，并使用Inetsim模拟网络环境。动态API调用序列模块通过以上方法改进了已有动态自动化分析技术在隐蔽性和高效性上部分不足，有效获取文件在动态运行过程中调用的真实而完整的API调用序列数据。

典型API序列模式挖掘模块分为两个步骤，选择组成典型序列模式的关键API调用集合和使用关键API调用集合进行典型API调用序列模式的挖掘。

1)关键API调用选择，先计算每个API与某个已知恶意家族的相关度值，然后设定某个家族的最小相关度值r，并以r为阈值选出某个已知恶意家族的关键API调用集合，合并所有已知已知恶意家族的关键API调用集合为选出的关键API集合。

Claims

1.一种基于半监督聚类的恶意代码同源性分析方法，其特征在于，所述方法包括如下步骤：

A、基于API调用序列数据的典型序列模式的挖掘，是结合广义序贯模式挖掘算法(GSP)和面向对象关联挖掘技术(OOA)的一个改进，输入：最小支持度ms％，最小置信度mc％，关键API集合K＝U_f∈FK_f，已知恶意家族集合F和已知恶意样本数据库DB1，输出：典型API调用序列模式集合TP，TP中存储挖掘出的每个已知恶意代码家族的关键API调用模式；输入中，ms％和mc％分别表示为用户定义的API调用序列模式关于恶意家族的最小支持度和最小置信度，K表示恶意家族的关键API集合，K_f表示恶意家族f的关键API；输入输出之间具体的实现过程步骤：C_k用来存储长度为len的候选API调用序列模式，L_k用来存储第i轮迭代过程中选出的长度为len的用于生成C_k+1的API调用序列模式，TPE用来存储挖掘出的指定恶意家族的典型API调用序列模式；扫描已知样本数据库DB1，对C_k中的每个候选序列模式关于指定恶意家族的支持度s％和置信度c％进行计算；通过与用户定义的最小支持度ms％、最小置信度mc％和长度为len-1的子序列模式的最大置信度c’％进行比较，选出支持度大于ms％，置信度大于c’％的序列模式添加到L_k中用于生成候选模式集C_k+1，选出支持度大于ms％，置信度大于c’％和mc％的典型序列模式添加到TPE中；使用广义序贯模式挖掘算法GSP中的候选序列模式生成算法利用集合L_k生成候选序列模式集C_k+1；

B、基于半监督密度聚类算法的恶意代码家族聚类，此半监督密度聚类算法命名为S-DBSCAN，输入：数据集D＝{x₁，x₂，...，x_n}，已知恶意家族的已知样例

相似度值eps，eps邻域至少包含的样本个数MinPts，输出：数据集D上的聚类结果；S-DBSCAN的实现过程：首先指定子空间最少包含的数据点个数，KD-Tree通过分割垂直于坐标轴的平面来将数据空间不断划分为子空间，直到每个子空间包含最小数量的数据点个数；KD-Tree的划分结果为一棵不平衡二叉树，其中小叶节点代表局部密集的子区域，而大叶节点代表低密度的子区域；然后对每个叶节点中的数据样例点进行处理，首先默认标记所有数据样例点都为核心对象，系统将eps邻域至少包含的样本个数Minpts也设置为KD-Tree划分过程中子空间最少包含的数据点个数，因为这两个值的目标都是为了定义并选择密集子区域；如果某数据样例点x的eps邻域包含的样例点个数少于MinPts，则标记点x为噪声点，如果点x的eps邻域至少包含MinPts个同属于该点所属叶节点中的样例点且这些样例点连同点x不来自一个以上的已知家族，则把这些样例点和点x合并成一个本地聚类簇，使用LCLUSTER来标记本地聚类簇，如果这些样例点连同点x来自不同已知家族，则这些样例点和点x各自形成一个本地聚类簇，如果点x的eps邻域包含的同属该点所属叶节点的样例点个数少于MinPts，则点x单独形成一个本地聚类簇；这一步得到的结果是一组本地聚类簇和一些异常点，某些聚类簇中只包含单个数据点；遍历每个已知恶意家族中的已知样例，如果该样例还未合并到已知的家族聚类簇中，则把其所在的本地聚类簇合并到该已知恶意家族的家族聚类簇中；这些合并操作可以跨越KD-Tree叶节点的边界，也就是说，KD-Tree的不同叶节点所代表的不同子空间内的本地聚类簇可进行合并；算法使用家族聚类簇FCLUSTER来标识这一聚类过程中形成的已知恶意家族的聚类簇，这一步得到的聚类结果包含聚类不完全的标识为FCLUSTER的已知家族聚类簇和标识为LCLUSTER的本地聚类簇；对剩余的本地聚类簇进行迭代处理，每次迭代过程中对每个本地聚类簇查找其最近的聚类簇，并把本地聚类簇合并到最近的聚类簇中，新的聚类簇使用合并前的最近密度可达聚类簇的标识，直到剩余本地聚类簇个数不再变化时停止迭代过程；这一步得到聚类结果包含标识为FCLUSTER的已知恶意家族聚类簇和标识为LCLUSTER的新的未知恶意家族聚类簇；

C、基于不对称相似度计算的家族演化图构建算法，输入：S-DBSCAN算法得到的聚类簇

存在基于定制修改的直接演化关系的最小相似度值MinSim，输出：每个聚类簇的家族演化图；此家族演化图构建算法实现过程：对某个家族聚类簇中的由同一个原始执行体经过多态和变形技术得到的变种恶意代码加到同一个集合中，具体判定时使用两个恶意代码样例的杰卡德相似度来决定其是否具有基于变形技术的基础同源关系；对每个集合中的样例按照其文件创建时间从早到晚进行排序，对于创建时间相同的样例再按照其文件修改时间从早到晚进行排序，排序后对每个集合按顺序把样例点依次添加到家族演化图中并对每对相邻排列的样例点添加一条短的有向边来表示样例间基于变形技术的直接演化关系；对于某家族聚类簇中每两个样例集合对S_j、S_k，使用集合排序后的第一个样例x和y代表集合S_j和S_k，计算相似度Asym-J(x→y)和Asym-J(y→x)的值，如果其中一值大于设定的最小相似度值MinSim，则说明样例x与样例y间存在直接演化关系；此时，通过Asym-J(x→y)和Asym-J(y→x)的大小来确定演化方向，当Asym-J(x→y)＞Asym-J(y→x)时，得到其演化方向为x到y，否则为y到x，然后在演化图中添加一条长的有向边来表示样例间基于定制修改的直接演化关系；由于相似性度量是不对称的，最终得到该聚类簇的演化图为一个有向无环图；基于不对称相似度计算的家族演化图构建算法所构建的家族演化图中的圆圈代表了样本，有向边标示了样本的演化方向并且其代表的演化关系具体可分为两种：短的有向边表示样本在传播过程中为躲避特征码匹配检测技术使用多态或变形技术生成变种所产生的直接演化关系，长的有向边表示样本在定制修改、版本迭代和程序嵌入过程中生成变种所产生的直接演化关系。