CN110046501B

CN110046501B - 一种受生物基因启发的恶意代码检测方法

Info

Publication number: CN110046501B
Application number: CN201910177388.5A
Authority: CN
Inventors: 刘福东; 单征; 林成梁; 陈奕杭; 侯一凡; 李星玮; 桂海仁; 孙文杰
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of PLA Strategic Support Force
Priority date: 2019-03-09
Filing date: 2019-03-09
Publication date: 2020-09-29
Anticipated expiration: 2039-03-09
Also published as: CN110046501A

Abstract

本发明涉及恶意代码检测技术领域，公开一种受生物基因启发的恶意代码检测方法，包括：定义恶意代码软件基因；基于定义的恶意代码软件基因对代码进行基因提取；通过Smith‑Waterman算法得出提取的恶意代码软件基因间的距离值；根据提取的恶意代码软件基因间的距离值对提取的恶意代码软件基因进行聚类；根据聚类结果将恶意代码软件基因映射到特征向量上，每类恶意代码软件基因对应特征向量的一维数据；根据所述特征向量，通过机器学习模型构建恶意代码检测器，通过所述恶意代码检测器对待测代码中的恶意代码进行检测。通过本发明生成的恶意代码检测器具有较高的恶意代码检测准确率。

Description

一种受生物基因启发的恶意代码检测方法

技术领域

本发明涉及恶意代码检测技术领域，特别涉及一种受生物基因启发的恶意代码检测方法。

背景技术

近年来，Mirai、WannaCry、BlackEnergy等恶意软件层出不穷，给全球带来了巨大的损失。据腾讯《2017年度互联网安全报告》显示，2017年检测到大约1.36亿个新的恶意软件样本(Tencent United Security Laboratory.https://slab.qq.com/news/authority/1708.html(2018))。每年在自动化工具的帮助下生产数以百万计的新恶意软件样本。传统方法，如签名匹配或基于规则的检测，缺乏能够检测未知的恶意软件及其变种。人工分析是精确的但却是低效率的。所以依赖机器学习算法对自动化分析工具，包括动态和静态分析工具，产生的海量数据进行学习，并构造恶意代码检测器，已经成为该领域的一种必然趋势。

基于基因分析的恶意代码检测是一种应对网络攻击威胁的新技术，主要以静态反编译工具对样本自动化分析得到的反汇编文件为数据基础，实现了一种基于基因分析的恶意代码检测器构造方法。在基于基因分析的恶意代码检测研究中，借鉴了信息生物学中成熟的研究思路和相关算法。因为生物基因的研究所面临的问题与软件分析存在许多共通之处，如它们都是以序列或图作为分析对象。生物基因分析的目标包括相似性和同源性分析、致病基因测定等，恶意代码分析的目标是样本家族归类、异常样本检测等，与之相似。恶意代码检测器就是检测软件中是否存在一个或若干个可疑的功能片段，进而对软件是否具备恶意性进行判定。

在恶意代码分析领域，也存在其他基于基因分析的研究。但Drew等人(J.Drew,T.Moore,M.Hahsler.Security&Privacy Workshops,00:81-87(2016)；J.Drew,M.Hahsler,T.Moore.EURASIP Journal on Information Security.2017:2(2017))将样本文件的二进制形式直接对应成DNA分子，失去了基因与语义的关联性以及分析结果的可解释性；Kirat等人(Kirat,G.Vigna.ACM Sigsac Conference on Computer and CommunicationsSecurity.2015:769-780(2015))将样本的动态执行序列作为DNA分子，并用Smith-Waterman算法进行比对，执行序列的长度非常长，带来了较大的计算复杂度。

恶意代码检测器就是检测软件中是否存在一个或若干个可疑的功能片段，进而对软件是否具备恶意性进行判定。在恶意代码分析领域，已存在基于基因分析的研究，然而，目前存在的对基于基因启发的恶意软件分析方法大多数都有自己的限制，如失去了基因与语义的关联性以及分析结果的可解释性、计算复杂度大等。缺乏优化的检测方案而难以实施，进而难以从根本上保证对恶意代码进行有效地安全性检测。

发明内容

本发明针对恶意代码分析目前存在的对基于基因启发的恶意软件分析方法大多数都有自己的限制，从而难以保证对恶意代码进行有效地安全性检测的问题，提出了一种受生物基因启发的恶意代码检测方法。

为了实现上述目的，本发明采用以下技术方案：

一种受生物基因启发的恶意代码检测方法，包括以下步骤：

步骤1：定义恶意代码软件基因，所述恶意代码软件基因为指令序列，所述指令序列的结束指令为return、jump、switch或call中的一种；

步骤2：基于定义的恶意代码软件基因对代码进行恶意代码软件基因提取；

步骤3：通过Smith-Waterman算法得出提取的恶意代码软件基因间的距离值；

步骤4：根据提取的恶意代码软件基因间的距离值对提取的恶意代码软件基因进行聚类；

步骤5：根据聚类结果将恶意代码软件基因映射到特征向量上，每类恶意代码软件基因对应特征向量的一维数据；

步骤6：根据所述特征向量，通过机器学习模型构建恶意代码检测器，通过所述恶意代码检测器对待测代码中的恶意代码进行检测。

进一步地，所述步骤3包括：

对于提取的任意两个恶意代码软件基因A＝a₁，a₂，...，a_n和B＝b₁，b₂，...，b_m，其中，a₁，a₂，...，a_n及b₁，b₂，...，b_m分别为恶意代码软件基因A和恶意代码软件基因B的指令，n为恶意代码软件基因A的长度，m为恶意代码软件基因B的长度，通过Smith-Waterman算法得出恶意代码软件基因间的最长公共指令子序列；

通过公式(2)得出恶意代码软件基因A和恶意代码软件基因B的距离值：

d_AB＝max{n，m}-H_nm (2)

其中，H_nm为恶意代码软件基因A和恶意代码软件基因B的最长公共指令子序列的长度。

进一步地，所述步骤4包括：

根据提取的恶意代码软件基因间的距离值，通过公式(3)计算每个基因到其他所有基因的距离总和：

r_i＝d_1i+d_2i+…+d_Ni (3)

其中，r_i为恶意代码软件基因i到其他所有基因的距离总和，N为提取的基因数量；

根据每个基因到其他所有基因的距离总和，通过公式(4)得出基因对的索引值：

其中，M_ij为<恶意代码软件基因i,恶意代码软件基因j>基因对的索引值，d_ij为恶意代码软件基因i和恶意代码软件基因j的距离值，r_j为恶意代码软件基因j到其他所有基因的距离总和，N′为目标聚类结果的簇数；

选取M_ij值最小的基因对进行聚类，设定M_ij的阈值，将基因逐一加入到已有聚簇中进行比较，若M_ij不小于阈值，则将M_ij对应的基因对加入对应聚簇，否则建立新的聚簇。

进一步地，所述特征向量的第i维的值为与第i类恶意代码软件基因最相似的恶意代码软件基因的相似度值，所述相似度值通过公式(5)计算得出：

Similairty＝H_nm/max{n,m} (5)

其中，H_nm为恶意代码软件基因与第i类恶意代码软件基因的最长公共指令子序列的长度的最大值。

进一步地，所述机器学习模型包括决策树、支持向量机、朴素贝叶斯及随机森林。

与现有技术相比，本发明具有的有益效果：

(1)本发明通过恶意代码软件基因间的距离对恶意代码软件基因包含的功能的相似性进行度量，并对具有相似功能的基因进行聚类。在构造样本的特征向量时，每一类恶意代码软件基因映射到特征向量中的一维，因此，恶意代码软件基因的聚类可达到降维的效果，从而构造更高效的恶意代码检测器，保证对恶意代码进行有效地安全性检测。

(2)本发明通过设定索引值的阈值，将基因逐一加入到已有聚簇中进行比较，确保聚簇中每对基因的索引值不小于阈值，如果不符合条件，则建立新的聚簇。通过调整阈值，算法结果可以在既定聚簇数目附近结束。

(3)通过本发明定义的恶意代码软件基因，随着代码样本大小的增加，通过本发明提取的恶意代码软件基因片段的分析规模大大缩减，从而可以快速对恶意代码进行有效地安全性检测，在包含约30000样本的数据规模下，产生的基因数量为69000个，而用广泛运用的n-gram方法则产生了63万个。

附图说明

图1为本发明实施例的一种受生物基因启发的恶意代码检测方法的基本流程图。

图2为本发明实施例的另一种受生物基因启发的恶意代码检测方法的基本流程图。

图3为本发明实施例的一种受生物基因启发的恶意代码检测方法的恶意代码软件基因和n-gram片段增长曲线图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

实施例一：

如图1所示，一种受生物基因启发的恶意代码检测方法，包括以下步骤：

步骤S101：定义恶意代码软件基因，所述恶意代码软件基因为指令序列，所述指令序列的结束指令为return、jump、switch或call中的一种；

步骤S102：基于定义的恶意代码软件基因对代码进行恶意代码软件基因提取；

步骤S103：通过Smith-Waterman算法得出提取的恶意代码软件基因间的距离值；

步骤S104：根据提取的恶意代码软件基因间的距离值对提取的恶意代码软件基因进行聚类；

步骤S105：根据聚类结果将恶意代码软件基因映射到特征向量上，每类恶意代码软件基因对应特征向量的一维数据；

步骤S106：根据所述特征向量，通过机器学习模型构建恶意代码检测器，通过所述恶意代码检测器对待测代码中的恶意代码进行检测。

具体地，所述步骤S103包括：

对于提取的任意两个恶意代码软件基因A＝a₁，a₂...，a_n和B＝b₁，b₂，...，b_m，其中，a₁，a₂，...，a_n及b₁，b₂，...，b_m分别为恶意代码软件基因A和恶意代码软件基因B的指令，n为恶意代码软件基因A的长度，m为恶意代码软件基因B的长度，通过Smith-Waterman算法得出恶意代码软件基因间的最长公共指令子序列；

d_AB＝max{n，m}-H_nm (2)

具体地，所述步骤S104包括：

r_i＝d_1i+d_2i+…+d_Ni (3)

具体地，所述特征向量的第i维的值为与第i类恶意代码软件基因最相似的恶意代码软件基因的相似度值，所述相似度值通过公式(5)计算得出：

Similairty＝H_nm/max{n,m} (5)

具体地，所述机器学习模型包括决策树、支持向量机、朴素贝叶斯及随机森林。

实施例二：

如图2所示，另一种受生物基因启发的恶意代码检测方法，包括：

步骤S201：定义恶意代码软件基因；

生物基因以一段连续的脱氧核糖核酸序列的形式存在。当该基因被表达时，整个序列都将被转录和翻译。当基因为内含子时，整个序列都不被表达。相应的，为了易于使用序列对软件的代码片段进行描述，本系统将一致执行的代码序列作为一个恶意代码软件基因。

恶意代码软件基因定义：恶意代码软件基因是一个指令序列，指令序列的结束指令为return、jump、switch或call中的一种。事实上，一个基因是由一个或多个基本块结合组成，基本块将所有的call跳转指令作为切分边界，该定义对于恶意代码分析来说过于琐碎。基因允许在内部出现系统API函数调用，一个API调用可以当做一个复杂的指令来看待，此定义下的基因，仍然可以用一个序列而不是复杂的图结构，来描述基因的内容。

恶意代码软件基因是一个比基本块稍大的代码块，它将一些系统函数API调用包含到块内，因为对恶意代码来说，一个API可以看成一个复杂的操作指令，而后继续顺序执行。而API组合分析，检测样本对主机和网络操作的可疑操作，是一个关键点，因此，在恶意性判定问题上，可以使用恶意代码软件基因内包含的API调用序列(指令序列)，而非复杂的API调用关系图，来描述基因的功能，这样可以摒除其他非关键指令带来的噪声。

步骤S202：恶意代码软件基因提取；

基于定义的恶意代码软件基因对代码进行基因提取(切片)，作为一种可实施方式，对静态反汇编样本进行基因提取，算法流程主要分为三步：第一步，遍历静态反汇编样本的ida函数(除了库函数)；第二步，遍历每个ida函数的汇编指令；第三步，根据一致执行的特点，按照基本块的方式对每个函数(除了库函数)进行切分，基本块的结束指令为return、jmp、switch、call指令。基于恶意代码软件基因的切片方法更为灵活，在包含约30000样本的数据规模下，产生的基因数量为69000个，而用广泛运用的n-gram方法则产生了63万个。随着样本大小的增加，基因类型和n-gram片段的增加曲线如图3所示。从而，随着样本大小的增加，通过本发明提取的恶意代码软件基因片段的分析规模大大缩减。

步骤S203：基因间距离测量；

使用Smith-Waterman算法挖掘恶意代码软件基因间的公共指令子序列。Smith-Waterman是生物信息学广泛使用的一种序列相似度度量算法，属于一种动态规划算法。给定两个恶意代码软件基因A＝a₁，a₂，...，a_n和B＝b₁，b₂，...，b_m，恶意代码软件基因A的子序列a₁，a₂，...，a_i和恶意代码软件基因B的子序列b₁，b₂，...，b_j匹配的最高分值为:

H_ij＝max{H_i-1，j-1+δ(i，j)，max_k≥1{H_i-k，j-W_k}，max_l≥1{H_i，j-l-W_l}，0} (1)

其中1≤i≤n，1≤j≤m；W_k为长度k的子串不匹配扣除的分值权重，本实施例中将所有W值设为0；δ(i，j)是序列中a_i和b_j匹配成功时加上的分值，本实施例中设为1；此时，若H_ij的最高分值为1，则表明恶意代码软件基因A的子序列a₁，a₂，...，a_i和恶意代码软件基因B的子序列b₁，b₂，...，b_j最多有1个公共指令相同，对应的最长公共子序列的长度为1，具体地，当i为n，j为m时，H_nm为恶意代码软件基因A和恶意代码软件基因B的最长公共指令子序列的长度。则恶意代码软件基因A和恶意代码软件基因B的距离值为：

d_AB＝max{n，m}-H_nm (2)

其中，max{n，m}为n和m中的较大值。

在恶意代码软件基因的分析中，两个恶意代码软件基因的功能差异性可以用两个恶意代码软件基因的距离来表示，恶意代码软件基因包含的API序列一般相对较短，94.8％的恶意代码软件基因长度不超过10，因此样本集中基因测距速度较快。

值得说明的是：

1)在分析恶意代码软件基因时，功能性恶意代码软件基因的差异可以描述为基因中API序列的距离。

2)基于恶意代码软件基因定义的代码片段包含一段简单的微小功能，由若干个API组成的序列描述。但基因种类较多，直接映射会产生过于高维的特征向量，不利于模型的训练。本发明对恶意代码软件基因包含的功能的相似性进行度量，并对具有相似功能的基因进行分类。在构造样本的特征向量时，每一类基因映射到特征向量中的一维。因此，恶意代码软件基因的归类可达到降维的效果，从而构造更高效的恶意代码检测器。

步骤S204：恶意代码软件基因聚类；

对邻接法进行改进，采用改进的邻接法对提取的恶意代码软件基因进行聚类：

首先计算每个恶意代码软件基因到其他所有恶意代码软件基因的距离总和r，对于恶意代码软件基因i，r_i为：

r_i＝d_1i+d_2i+…+d_Ni (3)

为每一对恶意代码软件基因计算一个索引值(index)M，对于<恶意代码软件基因i,恶意代码软件基因j>基因对，M_ij为：

其中，M_ij为<恶意代码软件基因i,恶意代码软件基因j>基因对的索引值，d_ij为恶意代码软件基因i和恶意代码软件基因j的距离值，r_j为恶意代码软件基因j到其他所有基因的距离总和，N′为目标聚类结果的簇数。

值得说明的是，改进前，邻接法中需选取M_ij值最小的基因对进行聚类，使用公式(3)和(4)更新提取的恶意代码软件基因中剩余基因对的r值和M值，并进行新一轮的聚类，直到聚簇数量为N′时算法终止。因为r值和M值在每做一次更新后都需要重新计算，故邻接法的效率较低。而本实施例的恶意代码软件基因分类并不需要像构建进化树一样精确，因此降低了邻接法的精度，并且每次都不更新r值和M值，而是首先设定一个M的阈值，将基因逐一加入到已有聚簇中进行比较，确保聚簇中每对基因的M值不小于阈值，如果不符合条件，那么建立新的聚簇。通过调整阈值，算法结果可以在既定聚簇数目N′附近结束。

邻接法是生物信息学中构造基因的系统发育模型的常用算法，用于将基因及其变异体按距离值进行编排，构建基因演化树。同时，它又属于一种层次聚类算法，本发明中可以控制算法在聚类到特定聚簇时停止。在经典的做法中，研究者会使用数据科学中通用的一些降维方法。如Shabtai等人使用TFIDF(Term Frequency Inverse DocumentFrequency)来实现降维，该方法选择了TFIDF值较高的特征，而舍弃了其他特征，造成了信息的损失。其他基于维度压缩的方法，如PCA降维等，在软件分析领域可解释性不强。

步骤S205：根据聚类结果，将恶意代码软件基因映射到特征向量上，每类恶意代码软件基因对应特征向量的一维数据；

根据恶意代码软件基因的聚类结果，将恶意代码软件基因映射到特征向量上，特征向量的每一维对应一类基因。样本的特征向量的第i维的值为待测样本中与第i类恶意代码软件基因最相似的恶意代码软件基因的相似度值：

Similairty＝H_nm/max{n,m} (5)

其中，H_nm为恶意代码软件基因与第i类恶意代码软件基因的所有最长公共指令子序列的长度的最大值。

步骤S206：根据所述特征向量，通过机器学习模型构建恶意代码检测器，通过所述恶意代码检测器对待测代码中的恶意代码进行检测。

构造了特征向量后，结合成熟的机器学习模型构建恶意代码检测器，所述机器学习模型包括决策树、支持向量机、朴素贝叶斯及随机森林。

为验证本发明的有效性，本实施例中从公开的网络中收集了约3万个样本，其中恶意代码15049个，正常软件14909个。基于收集的样本，一共进行三组实验：第一组实验中，对比了基于恶意代码软件基因和n-gram切片构造的恶意代码检测器性能；第二组实验中，采用了不同的基因降维方式，即改进的邻接法和TFIDF算法，构造恶意代码检测器进行比较；第三组实验中，比较了四种机器学习模型的检测器的性能差异。三组实验中均采用十则交叉检验的方式进行实验，实验结果如表1所示。由表1可知，采用本发明方法，当选择的机器学习模型为随机森林时，构建的恶意代码检测器，检测恶意代码的准确率可达到97.7％，同表1中的其他方法构造的恶意代码检测器相比，恶意代码的检测精确度、误报率、准确率及召回率均最高。

表1：基于相同样本集的不同恶意软件检测器的性能

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种受生物基因启发的恶意代码检测方法，其特征在于，包括以下步骤：

所述步骤4包括：

r_i＝d_1i+d_2i+…+d_Ni (3)

其中，M_ij为＜恶意代码软件基因i，恶意代码软件基因j＞基因对的索引值，d_ij为恶意代码软件基因i和恶意代码软件基因j的距离值，r_j为恶意代码软件基因j到其他所有基因的距离总和，N′为目标聚类结果的簇数；

选取M_ij值最小的基因对进行聚类，设定M_ij的阈值，将基因逐一加入到已有聚簇中进行比较，若M_ij不小于阈值，则将M_ij对应的基因对加入对应聚簇，否则建立新的聚簇；

2.根据权利要求1所述的一种受生物基因启发的恶意代码检测方法，其特征在于，所述步骤3包括：

d_AB＝max{n，m}-H_nm (2)

3.根据权利要求1所述的一种受生物基因启发的恶意代码检测方法，其特征在于，所述特征向量的第i维的值为与第i类恶意代码软件基因最相似的恶意代码软件基因的相似度值，所述相似度值通过公式(5)计算得出：

其中，H_max为恶意代码软件基因与第i类恶意代码软件基因的最长公共指令子序列的长度的最大值。

4.根据权利要求1所述的一种受生物基因启发的恶意代码检测方法，其特征在于，所述机器学习模型为决策树、支持向量机、朴素贝叶斯及随机森林中任意一种。