CN113434858B

CN113434858B - 基于反汇编代码结构和语义特征的恶意软件家族分类方法

Info

Publication number: CN113434858B
Application number: CN202110571280.1A
Authority: CN
Inventors: 刘爽; 陈冠宏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2022-11-01
Anticipated expiration: 2041-05-25
Also published as: CN113434858A

Abstract

本发明公开一种基于反汇编和深度学习的恶意软件家族分类方法，包括以下步骤：(1)使用反汇编技术对二进制文件进行解析，得到文件的汇编代码表示，创建文件的控制流图；(2)使用自然语言处理中经典的预训练方法以及经典模型对汇编代码进行编码，得到汇编代码的向量表示；(3)使用针对图结构的神经网络对文件进行分类，确定恶意软件的家族。

Description

基于反汇编代码结构和语义特征的恶意软件家族分类方法

技术领域

本发明涉及恶意软件分析领域，特别是涉及一种恶意软件家族分类方法。

背景技术

恶意软件是一种旨在对目标终端进行破坏、控制、窃取等操作的软件。互联网发展至今，个人电脑用户群体已经非常庞大，而恶意软件也一直是网络安全的一个重大威胁。甚至随着互联网的发展，恶意软件的影响进一步扩大，技术不断进步。2017年，WannaCry勒索病毒全球大爆发，至少150个国家、30万名用户中招，造成损失达80亿美元，已经影响到金融，能源，医疗等众多行业，造成严重的危机管理问题。同时，随着比特币挖矿等技术的出现，恶意软件作者开始利用恶意软件进行挖矿牟取暴利。因此，反恶意软件技术也需要及时做出反应，实现更加准确高效的恶意软件检测。

大多数的恶意软件都是来源于一些特定的家族，是一些已有恶意软件的变体，对恶意软件进行家族分类可以帮助我们发现大部分的恶意软件，也是对于恶意软件进行进一步分析的一种重要方式。来自于同一家族的恶意软件会表现出极大的相似性，大多的都只是简单的变体，这就给对恶意软件进行家族分类提供了可能性。

PE(Portable Executable)文件是指可移植的可执行文件，是微软Windows操作系统上最常见的程序文件，PE文件是二进制文件，可以直接在Windows操作系统中运行(如.exe文件)，或者被间接执行(如.dll文件)。

具体涉及的技术如下：

1.基于IDA pro的反汇编技术

反汇编技术是指将二进制可执行文件进行反汇编，得到对应的汇编代码的过程。作为汇编过程的反过程，可以提供二进制文件的代码逻辑，现有的反汇编工具中最具代表性的就是IDA Pro^[3]，通过IDA Pro软件可以批量对二进制PE文件进行反汇编，得到PE文件的汇编代码，从而为进一步的分析提供帮助。

2.自然语言模型Word2Vec

Word2Vec^[1]是自然语言处理领域常用的词嵌入模型，用于将基本的词映射到向量空间，生成词向量用于后续的处理。Word2Vec是一种简单的神经网络模型，但是可以快速准确的建立词的向量表达，主要的模型类型有词袋模型和Skip-gram模型两种。

3.深度学习模型Long Short-Term Memory(LSTM)

LSTM是一种循环神经网络(RNN)，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题而提出的模型。相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

4.预训练模型

预训练模型是指利用大数据集的训练数据，先行训练出可以表示语义信息的模型，用于下游任务。在自然语言处理领域，预训练模型是一种迁移学习的应用，利用几乎无限的文本，学习输入句子的每一个成员的上下文相关的表示，从而隐式地学习到了通用的语法语义知识。利用预训练模型可以将从开放领域学到的知识迁移到下游任务，以改善低资源任务，对低资源语言处理也非常有利。使用预训练模型+微调机制具备很好的可扩展性，在支持一个新任务时，只需要利用该任务的标注数据进行微调即可。

5.深度学习模型Structure2vec

Structure2vec^[2]是一种针对图结构的神经网络模型，该模型依据图的拓扑结构进行信息聚合，经过递归，产生新的定点特征表示。这种模型用于提取图的结构信息，将网络结构嵌入到最终的信息中去，从而得到图的结构表示。该模型的基本原理可以用如下公式表示：

其中

代表节点v在t+1时刻的节点信息，

是某种函数，用于对信息进行传递，x_v代表图中节点的原始信息，

代表节点v的邻居节点。本方法中，我们定义

如下式所示：

其中x_v是节点v的初始特征向量，假设为d维，W₁是d*p维矩阵，p是嵌入维度，该矩阵将初始向量映射到嵌入维度的向量空间中，整体结构如图4左半部分所示。σ是非线性转移函数，本方法中将其定义为n层全连接层，如下式所示：

σ(l)＝P₁×ReLU(P₂×…ReLU(P_nl))

其中P_i(i＝1，…，n)是p*p维矩阵，n是嵌入深度，ReLU(x)＝max{0，x}。即图4右半部分所示。

现有工作中也有已经提出的完整数据集用于训练恶意软件分类模型，例如，下文中用于解释本工作的数据集，来自Microsoft公司在2015年发布在kaggle网站上的恶意软件家族分类挑战赛^[4]。该数据集收集了九个家族共计10868个恶意软件，通过前期处理去掉文件PE头，并提供文件的反汇编结果(.asm文件)和二进制表示文件(.byte文件)，同时对10868个文件给出标签，用于表示该文件属于哪一个家族。

基于本数据集，也产生了很多方法，用于对恶意软件进行家族分类。例如，[6][7]等工作将二进制文件转换成图片，利用图片分类模型对转换的图片进行分类，从而对恶意软件进行家族分类。[8]等工作利用二进制文件的结构信息作为判断依据，对恶意软件进行家族分类。相比于本发明，利用图片的分类模型具有可解释性差的问题，转换成图片之后没有办法解释原始文件的逻辑与图片之间的关联，没有办法给出合理的分类依据。而利用二进制文件结构信息的方法只专注于结构信息，忽略了语义信息带来的影响，同样的结构在不同的语义下也可能代表着完全不同的逻辑。

发明内容

本发明的目的是为了克服现有技术中的不足，提供一种基于反汇编代码结构和语义特征的恶意软件家族分类方法，本发明用于正准确快速的识别出恶意软件所属家族分类，将反汇编技术和深度学习算法用于恶意软件分析领域，提供了一整套完整的恶意软件家族分类流程。使用预训练LSTM模型和Structure2vec模型对反汇编得到的PE文件的序列语义信息和结构信息整合处理，用于最终的分析分类。本发明综合了语义信息和结构信息，这两种信息可以直观的表示二进制文件的执行逻辑，从而也提供了很好的可解释性。

本发明的目的是通过以下技术方案实现的：

基于反汇编代码结构和语义特征的恶意软件家族分类方法，包括以下步骤：

(1)使用反汇编工具对二进制文件进行解析，得到二进制文件的汇编代码表示，该表示利用.asm文件进行存储，再通过解析.asm文件，构建二进制文件的控制流图，控制流图的节点是一条或多条汇编语句，控制流图的边表示节点之间的跳转关系；

(2)使用自然语言处理技术的经典模型以及语料库进行预训练，得到上述控制流图中每一个节点中汇编代码的语义向量表示；

(3)综合上述步骤得到的控制流图和语义信息的向量表示，使用针对图结构的神经网络对二进制文件进行分类，确定恶意软件的家族。

进一步的，步骤(1)中利用反汇编工具进行反汇编得到.asm文件，并在.asm文件基础上，整理得到二进制文件的控制流图结构。

进一步的，步骤(2)中使用word2vec模型对汇编代码单词进行嵌入，再利用预训练的LSTM模型对汇编序列进行嵌入，得到以向量表示节点语义信息的控制流图。

进一步的，步骤(3)中利用Structure2vec模型对(2)中得到的控制流图结构进行向量表示，然后利用神经网络对二进制文件进行最终的家族分类。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明首次将汇编代码序列语义特征和控制流图结构特征结合作为恶意软件家族分类的依据。汇编代码语义代表了代码块的行为，控制流图代表了程序的执行顺序，两种信息共同构成了程序的运行逻辑，通过分析这两种信息，就可以更加精确的表示一个二进制文件所代表的程序的运行时行为，从而提高预测精度。在上文提到的数据集上进行测试时，该发明能够达到非常高的检测准确率。

2.本发明使用预训练的LSTM模型对于代码序列进行处理，本发明中对于LSTM模型使用到的训练数据不局限于恶意软件，通过大量的训练数据，LSTM模型可以得到程序中更加一般的语义信息表示方式，这些语义信息表示了汇编代码的实际意义。更加庞大的训练集让整体方案更具有普适性，即对于所有汇编代码序列都能够准确的表示出该段代码的向量表示。在上文提到的数据集上，该发明使用的模型可以在不在训练集上的数据上仍然取得和训练集非常接近的预测准确率，证明该方法可以很好的泛化到新数据上。

3.本发明采用的序列语义信息和结构信息的融合的方法，给予整体方案更好的可解释性和更加直观的优化方向。上文提到，目前的方案多将恶意文件的分类看作黑盒过程，不去考虑二进制文件代表的程序的内部逻辑，难以解释取得较好的效果的原因。而本发明从二进制文件的执行过程出发，通过分析程序的执行逻辑的特征用于区分，从而能让从业者更加直观的理解本发明能取得成效的原因，也有助于后续优化本发明。

4.本发明采用预训练的方法，可以减少后续部署中针对新场景进行再训练所需的时间。预训练模型由于利用了大量的训练数据，具有很高的泛化能力，本发明应用时，不需要重新对预训练模型进行训练，从而省去了重新训练所需时间。每次修改分类模型时，LSTM预训练模型都不需要重新进行训练，节省了更多的时间和算力资源。

附图说明

图1为本发明方法的工作流程示意图。

图2a和图2b分别为汇编代码的控制流图示意图和经过LSTM嵌入后的控制流程图表示。

图3为LSTM原理示意图。

图4为Structure2vec一次迭代的流程示意图。

图5为训练LSTM模型的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于反汇编代码结构和语义特征的恶意软件家族分类方法，见图1，具体的：

1.数据收集：

本实施例中需要针对实际应用场景做出适当的调整，在恶意软件家族分类领域并没有一个统一的家族分类标准，所以在具体应用的时候，应当考虑实际问题建立适当的数据集。

后续解释本发明的数据集来自Microsoft公司提供的标注数据集，该数据集提供的是.asm文件，本发明利用该数据集验证，但并不限定于本数据集。在实际应用场景中，并不能直接获取到软件的.asm文件，故数据集可以采用二进制文件，然后利用IDA Pro等工具生成.asm文件，后续的分类过程也必须利用反汇编工具进行先一步的处理。

数据集所需的标签可以来自各类反病毒公司，VirusTotal等网站可以提供查询服务，用于查询恶意软件所属家族。

2.预训练提取语义信息的模型

本阶段共分两部分，第一部分使用Word2Vec模型训练词向量，第二部分利用LSTM模型训练汇编语言嵌入模型。

对于Word2Vec模型，使用到的是开源的Gensim模块中的Word2Vec模型。实施过程中，所有的恶意软件的汇编语言代码都将参与训练。设置词向量维度为16维，窗口大小为3，最小词频为5。另外，在处理初始语料时，将会对单词进行归一化处理，将语料按照模式进行归一处理，用于缩小词表的大小。最终生成的词表大小大概在6000左右。

对于LSTM模型，原理如图4所示，采取Bi-LSTM即双向LSTM模型，可以从正序逆序两个方向获取序列的特征，图4给出单向LSTM的结构示意，双向模型即在单向的基础上添加逆序的结构。其中，隐层大小为16维，深度为2层，学习率0.003，采用Adam优化器，训练过程如图5所示，首先根据控制流图结构，提取一个执行路径下的多个block作为正样本，随机替换路径中的某个block信息，作为需要被检测出来的负样本。利用lstm得到序列的向量表示，将该向量表示经过全连接层，得到最终的判断结果。模型的任务是找出block序列中被替换掉的节点，利用该训练任务训练得到可以准确表示出opcode序列语义信息的模型。训练完成后抽取出LSTM模型作为嵌入模型用于后续模型训练的嵌入模型，如图2a和图2b所示，将节点中的汇编代码转换成向量，保留LSTM模型抽取句子信息的能力，用于分类的全连接层则不会用于后续的训练。训练数据集采用大量.asm文件，用于保证得到更加一般化的汇编代码语义信息，以文件为单位将数据按照8：1：1比例划分为训练集、验证集、测试集。

将第一部分得到的词向量作为第二部分对单词进行词向量嵌入的依据，就可以得到将汇编代码信息进行提取的语言模型。该模型旨在得到更准确和普遍化的语义信息提取模型，故使用大量文件用于训练。训练完成后，可以独立于下游任务存在，在用于新的有关汇编代码的语义提取任务中，可以直接使用预训练得到的相关参数，而不需进行二次训练。该模型用于后续步骤中，作为提取控制流图节点的语义信息的方法。

3.训练Structure2Vec模型用于家族分类

在进行Structure2vec模型训练之前，需要将.asm进行处理，以代码块作为基本节点，调用关系作为控制流图的边，得到文件的控制流图，控制流图结构如图2a所示。然后将每个代码块中的汇编代码语句输入步骤2中训练好的模型，将模型的输出作为语句的词向量表示，如图2b所示。将这一步得到的信息作为输入，训练家族分类模型，从而实现将语义信息嵌入结构信息中。将数据集按照8：1：1的比例，划分为训练集、验证集和测试集，进行训练。

本发明的验证实验中，嵌入维度设置为64，嵌入深度为2，迭代次数为5次，输出维度为64，利用全连接层作为最后的分类器，分类器深度为2，中间隐层维度为16，学习率设定为0.01，优化器为Adam^[5]。实际部署时可根据使用场景做出具体调整。

综上，本实施实例针对恶意软件的语义和结构信息，预训练了汇编语言的词表和LSTM嵌入模型，然后利用Structure2Vec模型将语义信息按照结构信息进行结合，最终实现对于恶意软件的家族分类。通过本发明的分类模型，可以对恶意软件家族进行分类，有助于对于恶意软件进行更加科学细致的进一步分析。

在实际应用时，为了应对快速涌现的新型恶意软件，可能需要对本发明进行调整和重新训练，在重新训练时，只需重新对Structure2Vec模型进行重新训练，而预训练的LSTM模型无需进行再训练用于适应新的应用场景。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[C]//Advances in neuralinformation processing systems.2013:3111-3119.

[2]Dai H,Dai B,Song L.Discriminative embeddings of latent variablemodels for structured data[C]//International conference on machinelearning.2016:2702-2711.

[3]2020.The IDA Pro Disassembler and Debugger.https://www.hex-rays.com/products/ida/

[4]Ronen R,Radu M,Feuerstein C,et al.Microsoft malware classificationchallenge[J].arXiv preprint arXiv:1802.10135,2018.

[5]Diederik Kingma and Jimmy Ba.2014.Adam:A method for stochasticoptimization.Computer Science.

[6]Vasan D,Alazab M,Wassan S,et al.IMCFN:Image-based malwareclassification using fine-tuned convolutional neural network architecture[J].Computer Networks,2020,171:107138.

[7]Vasan D,Alazab M,Wassan S,et al.Image-Based malware classificationusing ensemble of CNN architectures(IMCEC)[J].Computers&Security,2020,92:101748.

[8]Kong D,Yan G.Discriminant malware distance learning on structuralinformation for automated malware classification[C]//Proceedings of the 19thACM SIGKDD international conference on Knowledge discovery and datamining.2013:1357-1365.

Claims

1.基于反汇编代码结构和语义特征的恶意软件家族分类方法，其特征在于，包括以下步骤：

(1)使用反汇编工具对二进制文件进行解析，得到二进制文件的汇编代码表示，这种表示利用.asm文件进行存储，通过再对.asm文件进行解析，得到二进制文件的汇编级别控制流图；利用反汇编工具进行反汇编得到.asm文件，并在.asm文件基础上，整理得到二进制文件的控制流图结构；

(2)使用自然语言处理技术的经典模型以及语料库进行预训练，得到汇编代码的语义向量表示；使用word2vec模型对汇编代码单词进行嵌入，再利用预训练的LSTM模型对汇编序列进行嵌入，得到以向量表示节点语义信息的控制流图；

对于Word2Vec模型，使用到的是开源的Gensim模块中的Word2Vec模型；实施过程中，所有的恶意软件的汇编语言代码都将参与训练；设置词向量维度为16维，窗口大小为3，最小词频为5；并在处理初始语料时，对单词进行归一化处理，将语料按照模式进行归一处理，用于缩小词表的大小；最终生成6000的词表大小；

对于LSTM模型，采取Bi-LSTM即双向LSTM模型，从正序逆序两个方向获取序列的特征，双向LSTM模型即在单向的基础上添加逆序的结构；其中，隐层大小为16维，深度为2层，学习率0.003，采用Adam优化器；首先根据控制流图结构，提取一个执行路径下的若干个block作为正样本，随机替换路径中的某个block信息，作为需要被检测出来的负样本；利用双向LSTM模型得到序列的向量表示，将该向量表示经过全连接层，得到最终的判断结果；训练完成后抽取出双向LSTM模型作为嵌入模型用于后续模型训练，训练数据集采用.asm文件，以文件为单位将数据按照8：1：1比例划分为训练集、验证集、测试集；

(3)综合上述步骤得到的控制流图和语义向量表示，使用针对图结构的神经网络对二进制文件进行分类，确定恶意软件的家族，利用Structure2vec模型对(2)中得到的控制流图结构进行向量表示，然后利用神经网络对二进制文件进行最终的家族分类。