CN113392397A

CN113392397A - 基于混合特征和emd的恶意代码半监督聚类方法

Info

Publication number: CN113392397A
Application number: CN202010164789.XA
Authority: CN
Inventors: 刘亮; 张磊; 张文杰; 曾跃天
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2021-09-14

Abstract

本发明提出一种基于混合特征和EMD的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静动态特征形成混合特征，使用EMD计算恶意代码特征向量的相似性形成恶意代码相似性矩阵，采用半监督聚类算法S‑DBSCAN对恶意代码进行半监督聚类。主要包括以下几个步骤：(1)提取恶意代码的静动态特征；(2)构造恶意代码混合特征和降维；(3)采用EMD计算恶意代码相似性，构造恶意代码相似性矩阵；(4)将相似性矩阵和监督信息输入恶意代码半监督聚类模型进行恶意代码半监督聚类。

Description

基于混合特征和EMD的恶意代码半监督聚类方法

技术领域

本发明涉及机器学习与网络安全技术领域。

背景技术

随着信息技术和计算机网络的发展，同时各种自动化工具的出现，互联网上恶意代码的数量呈现指数增长趋势。当前的恶意代码存在几个特点：1）恶意代码的数量保持急剧增长的趋势；2）绝大多数恶意代码属于已知恶意代码家族； 3）大多数同一家族的恶意代码存在某种共性。

根据以上几点可以得出结论，通过提取恶意代码家族特征对恶意代码进行家族聚类分析可以实现对绝大多数恶意代码的识别和判定。目前恶意代码的聚类分析技术包括动态分析和静态分析两大类。静态分析技术通过提取恶意代码特征码用于恶意代码识别，对已知恶意代码效果较好，简单，快捷。但是静态分析技术受限于反静态技术，如加壳，加密等的影响，从而无法提取出有效的特征码。

而动态分析技术则不受反静态技术的影响，通过提取恶意代码实际运行的行为特征来识别恶意代码，但是动态分析技术的代码覆盖率较小，只能捕获到一条执行路径的行为，因此针对多执行路径的恶意代码，无法捕获到完整的恶意行为。

因此本发明通过结合静态特征和动态特征，弥补各自的缺陷形成混合特征用于代表恶意代码的行为。考虑到当前的恶意代码特征的相似性度量方法无法准确识别同一家族和不同家族的恶意代码，本发明应用一种新的特征相似性度量方法-Earth Mover’sDistance（EMD）,通过动态规划的方法来计算特征之间的最小距离，可以有效识别不同家族的恶意代码。为了执行有效聚类，减小收敛时间，在聚类过程中加入少量监督信息，形成半监督聚类算法用于聚类。

发明内容

本发明提出一种基于混合特征和EMD 的恶意代码半监督聚类方法。本方法可以自动地从恶意代码中提取静态字节码特征和动态API特征，使用信息增益提取对聚类贡献较大的特征，应用EMD计算特征之间的距离形成相似性矩阵，最后采用半监督聚类算法S-DBSCAN执行恶意代码家族聚类。具体技术方案如下：

提出一种基于混合特征和EMD 的恶意代码半监督聚类方法，所述方法包括：

A.提取恶意代码的静态字节码特征和动态API特征，根据静态特征和动态特征的平均EMD确定混合特征中静态特征和动态特征的比例从而构造恶意代码混合特征。

B.利用信息增益算法提取对恶意代码聚类贡献较大的恶意代码特征，从而有效减少特征提取时间。

C.应用解决动态规划问题的EMD来计算恶意代码特征之间的距离，构造恶意代码相似性矩阵。

D.通过加入少量监督信息改造已有的密度聚类算法DBSCAN形成S-DBSCAN算法，输入相似性矩阵执行恶意代码家族聚类。

附图说明

为了进一步阐述本发明的实现目标、实现方法和特性，将结合附图进行详细描述，其中:

图1是一个展示本发明提出的方法的具体实现的总体流程图。

图2 是一个说明本发明中特征提取过程的示意图。

图3 是一个说明本发明中EMD有效区分不同家族恶意代码的示意图。

具体实施方式

本发明是基于混合特征和EMD进行恶意代码半监督聚类，主要针对Windows下的二进制PE恶意代码。首先提取恶意代码的静态字节码特征和动态API特征，经过特征剪枝后输入相似性计算模块得到相似性矩阵，最后输入到半监督聚类算法进行恶意代码家族聚类。为了进一步阐述本发明的具体实施方式，将结合附图加以详细的说明。本发明提出一种基于混合特征和EMD的恶意代码半监督聚类方法，可有效减少收敛时间，提高聚类纯度。

提取恶意代码的静态字节码：以十六进制的形式读取二进制文件的所有字节，去除00和90填充码，计算所有字节的频率计数和权重，形成恶意代码字节频率权重直方图。

提取恶意代码的动态API特征：在Cuckoo沙箱中运行恶意代码，获取恶意代码的分析报告，提取恶意代码的API序列，然后统计每一个API调用的频率计数和权重，形成恶意代码API频率权重直方图。

提取有效特征：采用信息增益的方法提取恶意代码原始静态特征和动态特征中对聚类功效较大的特征，从而有效减少特征维度，避免维度灾难的发生。

获取相似性矩阵：采用EMD计算恶意代码特征间的距离，形成恶意代码相似性矩阵。

执行半监督聚类：改造原始的密度聚类算法，加入少量的监督信息，从而形成半监督聚类算法S-DBSCAN，输入相似性矩阵进行恶意代码家族聚类。

Claims

1.基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于包括以下步骤：

步骤一：提取恶意代码的静态字节特征，形成字节频率权重直方图

步骤二：提取恶意代码的动态API特征，形成API频率权重直方图

步骤三：混合静态特征和静态特征形成混合特征

步骤四：将EMD用于恶意代码特征相似性计算

步骤五：将相似性矩阵输入到半监督聚类算法S-DBSACN算法进行恶意代码聚类。

2.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于步骤二中提取恶意代码中的动态API特征，计算每个API所占权重，将权重应用于动态特征。

3.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于步骤三中根据静态特征和动态特征各自的平均EMD，计算出各自的占比，用混合特征来代表恶意代码，弥补静态和动态特征各自的不足。

4.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于步骤四中将动态规划距离EMD用于恶意代码的特征相似性计算，可有效区分出不同家族的恶意代码。

5.根据权利要求1所述的基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于步骤五将半监督聚类应用于恶意代码家族聚类，完善密度聚类对稀疏数据集效果较差的缺陷，提升恶意代码的家族聚类效果。

6.基于混合特征和EMD的恶意代码半监督聚类方法，其特征在于步骤一中提取恶意代码的静态字节特征，去除填充字节0和90，计算每个字节所占的权重，将权重应用于静态特征。