CN114139153A

CN114139153A - 基于图表示学习的恶意软件可解释性分类方法

Info

Publication number: CN114139153A
Application number: CN202111290123.XA
Authority: CN
Inventors: 蔡波; 张英韬
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-04

Abstract

本发明涉及恶意软件技术领域，具体地说，涉及一种基于图表示学习的恶意软件可解释性分类方法，其包括以下步骤：1)、数据预处理；2)、构建恶意软件的图表示；3)、构建基于图神经网络的分类器。本发明在分类准确率上相比于之前的方法有着非常大的提升。

Description

基于图表示学习的恶意软件可解释性分类方法

技术领域

本发明涉及恶意软件技术领域，具体地说，涉及一种基于图表示学习的恶意软件可解释性分类方法。

背景技术

互联网技术的高速发展在为人们带来无限便利的同时，也同时成为某些别有用心的人对特定用户群进行攻击的途径。在所有的操作系统中，Windows系统由于其用户界面精美，操作简单，且各类游戏和软件的普及性较高，得到了众多用户的青睐。不幸的是，针对Windows系统的恶意攻击层出不穷，对系统造成极大威胁。尤其是类似于勒索病毒，挖矿程序，DDOS木马，蠕虫病毒等恶意软件。虽然业界涌现了大量的应对方法，但由于这些软件衍生出越来越多的变种、且具有更深的行为特征隐藏性，为恶意软件检测任务带来了前所未有的巨大挑战。

根据现有文献，恶意软件检测方法大致分为两种，首先是基于人工提取特征的方式，其中典型的有基于统计特征的方式。由于该方式往往依赖于过往人工积累的特征码经验，因而易于导致在识别经过加壳处理或经过混淆的恶意软件方面存在困难；其二是基于机器学习的检测方法，该方法又分为基于传统机器学习技术和基于深度学习技术。传统机器学习的特征设计往往需要人工干预，如果特征提取工作出现误差，则可能会导致准确性降低，误报率更高。同时在处理序列数据方面有很大不足，导致该类模型往往泛化能力较低。典型的主要运用了SVM，决策树等传统机器学习算法。与之相对应的深度学习方法，由于该方法可以学习更高维度的特征及表达更抽象的语义，因而在近年来成为检测方法的主流^[8]。常用的深度学习方法依赖于对API语义的抽取，然而由于这些方法对于的过长序列数据常用截断处理，导致恶意软件可轻易绕过序列检测窗口。幸运的是，随着深度学习的发展，以图的方式来对API调用序列进行建模的方式逐渐受到研究者的青睐。其主要优点是可以在图结构内部建立拓扑关联，并且具有强大的推理能力，可以充分吸收周围节点的特征。不过现有的基于图的预测方法大多依赖于复杂的图匹配算法，由于其庞大的参数群，导致可解释性不高，同时对于多分类任务的准确性不高。由此，一种能够同时分类准确率高并且可以对分类结果进行解释的模型成为恶意软件领域亟待解决的任务。

发明内容

本发明的内容是提供一种基于图表示学习的恶意软件可解释性分类方法，其能够克服现有技术的某种或某些缺陷。

根据本发明的基于图表示学习的恶意软件可解释性分类方法，其包括以下步骤：

1)、数据预处理；

2)、构建恶意软件的图表示；包括：

2.1)特征选择：

根据API函数的调用序列，将各API函数嵌入为图的节点；然后使用节点嵌入法将每个节点嵌入为独特的向量表示；

选择了两层特征来表示恶意软件；首先在每个图中随机选取一个节点，对该节点进行随机游走并对已走过的节点进行标记。当走到最后一个节点没有路径的时候退回前一个节点寻找其他路径，每个图截取其中的前n个节点组成该文件的路径，在对所有的图进行随机游走之后拼接在一起，得到整个语料库的路径，最后对这个路径进行fastText处理得到每个节点的嵌入表示作为其第一层特征；

第二层特征为其恶意等级特征，将数据集中所有软件的恶意软件所调用的API进行等级分类；根据API在恶意软件中的tf-idf值以及其恶意程度共分为三个等级；对这三个等级进行独热编码，得到每个API的独特的恶意等级特征；

2.2)子图表示；

首先对每个恶意软件的函数调用序列进行提取，根据调用的时间信息进行排序，得到其不同的函数调用子图；

3)、构建基于图神经网络的分类器，包括以下步骤：

3.1)对每个子图单独进行两层图卷积，公式如下所示：

公式中的D∈R^N*N为节点的度矩阵，，

为整个图的邻接矩阵，H^l∈R^N*d为节点在l时刻的特征向量，其d为特征向量维度,W^l∈R^d1*d2为l时刻需要学习的权重参数矩阵，d₁为输入的特征维度，d₂为输出的特征维度；

3.2)在经过卷积后，各个节点均吸收了其邻居节点的特征，此时对图进行池化；

3.3)使用平均池化的方法，对每一层池化后的节点的向量进行读出，公式如下所示：

其中为第i个节点的特征，N为节点数量，s为平均后的节点特征；

3.4)对得到的信息进行一次性的聚合，具体方式为将各子图池化后的值拼接起来，公式如下：

其中x^(j)为各子图池化后的特征，x为各子图聚合后的值；

3.5)得到样本经过图神经网络的学习后的向量表示，然后将向量输送至前馈神经网络中降维至类别数量，再对其进行Softmax处理得到每个类别的概率。

作为优选，数据预处理包括以下步骤：

1.1)、在virusshare网站中下载相关恶意软件，将得到的恶意软件上传至virustotal网站进行分类，得到其标签；

1.2)、将恶意软件送入cuckoo沙箱中进行分析，得到的动态运行报告；

1.3)、提取特征，转换格式后，得到恶意软件的初始特征数据。

作为优选，在进行图表示时，另外对模型的边进行了处理，如果某一条边的两端顶点为以上三类节点时，将该边提取为一个节点，命名为TpyetoType；然后将该边节点放回得到的序列中并进行Word2Vec处理，其中API节点向量不进行训练，单独训练边向量；而边节点的等级特征也加入至原独热编码的三元组中，组成新的四元组，其中第一个值表示其是否为边节点。

作为优选，在图卷积的过程中，进行两步处理，添加自环和特征表示的归一化处理。

作为优选，步骤3.2)中，池化方法为：

对该图分类不重要的节点则丢弃，而保留对分类结果重要的节点，其中池化率K是一个超参数，K∈(0,1)；在进行图卷积的之后，设立一个权重值Z∈R^N*1以表示其节点的重要程度并对其进行降序排序；公式如下所示：

公式中X∈R^N*d为节点的特征向量，Θ_att∈R^d*1为待学习的attention参数；σ为Sigmoid函数；在对原图进行图卷积后输出维度为N*1的向量，为权重Z的分数；然后对分数进行排序，并根据权重的分数进行池化，对图中的节点下采样至K*N个节点，公式如下所示：

mask＝TopK(Z,K)；

A′＝A_mask；

X′＝X_mask；

Mask操作是屏蔽掉那些被池化的节点的邻接矩阵A和特征向量X；每个子图在进行两次卷积和池化后，得到K₁*K₂*N个节点，K₁，K₂∈(0,1)，且K₁，K₂均为超参数。

本发明使用动态检测方式，将CUCKOO沙箱中得到的恶意软件的报告转化为图结构数据，并根据其API的多线程调用信息，得到该恶意软件的诸多子图。同时，本发明还创新性对恶意软件调用的序列信息进行提取，根据其两边节点组成相应边节点。最终本发明将得到的恶意软件图表示输入至图神经网络中进行学习，在经过TopK池化后读出至全连接层进行分类。本发明使用的方法在分类准确率上相比于之前的方法有着非常大的提升，二分类测试集准确率达到了99.2％，超过恶意软件的其他方法。同时消融实验与预测过程的可视化也显示了算法的有效性及良好的可解释性。

附图说明

图1为实施例1中基于图表示学习的恶意软件可解释性分类方法的流程图；

图2为实施例1中生成子图的示意图；

图3为实施例1中软件类型分布示意图；

图4为实施例1中模型可解释性分析流程图。

具体实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，本实施例提供了一种基于图表示学习的恶意软件可解释性分类方法，其包括以下步骤：

1)、数据预处理；

数据预处理包括以下步骤：

1.3)、对动态运行报告中的“category”，“api”，“time”，“tid”进行提取，转化为csv格式后，得到恶意软件的初始特征数据。

2)、在得到上述样本的各种标签以及特征后，便开始着手构建恶意软件的图表示。构建恶意软件的图表示；包括：

2.1)特征选择：

根据API函数的调用序列，将各API函数嵌入为图的节点；然后使用节点嵌入法将每个节点嵌入为独特的向量表示；这里基于Deepwalk方法，并结合了NLP的一种新的基于恶意软件API的图嵌入方法。

本实施例选择了两层特征来表示恶意软件；首先在每个图中随机选取一个节点，对该节点进行随机游走并对已走过的节点进行标记。当走到最后一个节点没有路径的时候退回前一个节点寻找其他路径，每个图截取其中的前n(超参数)个节点组成该文件的路径，在对所有的图进行随机游走之后拼接在一起，得到整个语料库的路径，最后对这个路径进行fastText处理得到每个节点的嵌入表示作为其第一层特征；fastText整体方法与Word2Vec类似，但会使用滑动窗口来选择子词作为其基础词，例如对于词语where，该方法会将该词语分成“<wh”，“whe”，“her”，“ere”，“re>”以及特殊子词“<where>”进行处理，并在最终对所有子词的向量进行加和作为"where"的词向量。本实施例使用的fastText方法H(驼峰)-fastText主要是基于API大多是类似“GetAsyncKeyState”的复合词，且大多使用驼峰命名法。因此本实施例将子词变为“Get”“Async”“Key”“State”和“GetAsyncKeyState”，来进行训练，最大程度提取其语义信息。每个API节点的词向量的计算方式如下所示：

其中A_w为所有子词的词库，z_g为该词语所涉及的子词的向量表示，最终加和得到该节点的向量表示。

第二层特征为其恶意等级特征，如表1所示，每一行包括其API名，恶意等级和分类理由的描述，将数据集中所有软件的恶意软件所调用的API进行等级分类；根据API在恶意软件中的tf-idf值以及其恶意程度共分为三个等级；对这三个等级进行独热编码，得到每个API的独特的恶意等级特征；

在进行图表示时，另外对模型的边进行了处理，在恶意软件运行的时候，极易调用以下三类的API，ProcessAPI，FileAPI和RegistryAPI，而且特别当这些类型的API连续调用时，基本就是在进行对电脑较为重要的任务。因此如果某一条边的两端顶点为以上三类节点时，将该边提取为一个节点，命名为TpyetoType，例如“FiletoFile”。然后将该边节点放回至原DeepWalk得到的序列中并进行Word2Vec处理，其中API节点向量不进行训练，单独训练边向量。而边节点的等级特征也加入至原独热编码的三元组中，组成新的四元组，其中第一个值表示其是否为边节点，如(1,0,0,0)表示为边节点。

表1 API功能与恶意等级

2.2)子图表示；

随着恶意软件检测方法的发展，恶意软件作者的水平也在提高，他们可能会使用多线程方法来实现其最终目标。目前，恶意软件的图表示主要基于整个恶意软件调用序列，而不同的线程的调用序列可能具有不同的含义。恶意软件在运行时可能会进行大量的正常行为，但会分支出某个线程对系统进行破坏。因此本文提出采用子图，识别出具有恶意行为的线程。本文的方法首先对每个恶意软件的函数调用序列进行提取，根据调用的时间信息进行排序，得到其不同的函数调用子图，如图2所示。图中将两个不同的API调用序列表示为两个子图，作为接下来的图神经网络的输入。但是在对数据进行处理的时候，出现了一个问题。首先由于每个图输入的子图数量不同，导致在输入至全连接层时的维度并不固定。这样导致整体参数维度不固定而无法训练。因此我们选择了类似Transformer中的Padding方法。对于子图数量少于应有的输入数量的情况，直接输入一个没有任何边的子图进行训练，即邻接矩阵与度矩阵均为0的输入。

3)、构建基于图神经网络的分类器，包括以下步骤：

3.1)对每个子图单独进行两层图卷积，公式如下所示：

公式中的D∈R^N*N为节点的度矩阵，

为整个图的邻接矩阵，H^l∈R^N*d为节点在l时刻的特征向量，其d为特征向量维度,W^l∈R^d1*d2为l时刻需要学习的权重参数矩阵，d₁为输入的特征维度，d₂为输出的特征维度；在图卷积的过程中，进行两步处理，添加自环和特征表示的归一化处理。添加自环是为了在加和其邻居节点的特征时，将节点本身的特征也包括在内，而特征归一化则是通过计算一个批量中的均值与方差来进行特征归一化，以防某些数值较大的特征在卷积时得到的数值过大，导致梯度爆炸。众多实践证明，这两种方法利于优化且使得深度网络易于收敛。

池化方法为：

mask＝TopK(Z,K)；

A′＝A_mask；

X′＝X_mask；

其中x^(j)为各子图池化后的特征，x为各子图聚合后的值；

实验

实验数据

恶意软件的识别和分类有着很久的历史，有着很多关于恶意软件的比赛和数据集，但这些数据集大多数为恶意软件的统计特征，并不能构成图结构。

本实施例选择了阿里云安全恶意程序检测比赛中的公开数据集作为本实施例的主要数据集，该数据集是经过动态分析，提取其运行后的API指令序列，全为windows二进制可执行程序。该数据集总数据量有13996个。但是我们发现其中的数据集中Worm和Backdoor的数据过于稀少，前者只有100多个，对于分类的准确率会有较高影响，因此，我们将通过cuckoo沙箱跑出来这两类的恶意软件加到到总的数据集中，最终得到的数据量如图3所示。

模型超参数设定

表2超参数表

表2为模型超参数设定，其中，Walk_length是指本实施例所使用的DeepWalk方法中的限定步长。Train_rate是本实施例训练集样本分配比例。Embedding_dim是指经过图节点嵌入后我们的节点向量的维度，GCN_layers是指进行图卷积的次数，Hidden_dim是指图卷积中的隐藏层的维度，Weight_decay是为了防止过拟合而设置的。Linnear_layers是指全连接层的层数，这里我们设置为两层。Learning_rate是我们测试过多次后，选择的最适合本实施例数据集和模型的学习率。

实验结果

本实施例一共使用以下指标对我们的实验进行评估，准确率(ACC)，召回率(R)，精度(P)以及F1_score(F1)。在这之前，需要知道我们的评价方式，如表3所示，要了解各个评价指标，首先需要知道混淆矩阵，混淆矩阵中的P表示Positive，即正例或者阳性，N表示Negative，即负例或者阴性。

表3混淆矩阵

各评价指标的计算公式为：

本实施例做了两类实验，首先是对是否为恶意软件的二分类，其次是具体属于哪个种类的8分类。本实施例还对自身的实验进行了消融实验，同时也对其他模型进行了横向对比。

表4二分类对比实验

表5二分类消融实验

我们的模型为WMALG(Windows Malware Graph),SAGp为本实施例所使用的的初始模型SAGp(Self-Attention Graphpool)。在二分类方面，从表4，表5的实验结果可以看出本实施例所提出的两种方法均可以有效的提高检测效果。首先相对于经典的机器学习而言，本实施例所使用的数据集并不是很适合，我们仅提取了两类特征，一是线程数量，另一个为恶意等级为3的API的数量的特征，因此所提供的参考意义不大。但与CNN、LSTM等神经网络模型的实验结果进行对比，分类的各项指标均有着很大提升，而相比于MAG同样使用图神经网络进行分类的模型也有着2.5％左右的提高。在表5的消融实验中，也进一步验证了本实施例所使用的两种恶意软件图嵌入方法确实有效。

模型可解释性分析

一直以来，神经网络的权重系数都是难以理解的，现在也有很多的研究尝试去解释神经网络。针对当前恶意软件检测方法存在的弱可解释性的缺陷，本实施例提出将卷积可视化技术应用到基于图表示学习的恶意软件检测模型上，从而提升本文的方法的可解释性。

本实施例设计了基于图表示分类模型的练的图表示分类模型，得到分类结果，再借助目标类别反向传播求取其对图节点嵌入表示的权重，从而计算出每个节点对于样本分类的权重值，并对该节点所对应的API进行分析,以此输出对分类结果的解释。

我们选择在实验部分使用本文的分类器与其他分类器分类结果不同的样本进行可解释性的实验。如图4所示，首先将样本输入至我们训练好的模型中分类为恶意，在另一种最终分类为非恶意。对模型进行反向传播提取其梯度信息，算法如下所示：

算法.本文模型可解释性算法

输入：样本

节点向量维度d

输出：各节点对类别影响权重矩阵A∈R^V*1.

①for each g(v,e)inGdo

②for each kinv do

③A.append(Sigmoid(w_k))

④end for

⑤end for

⑥Sort(A)

算法中

表示该节点的某一维度对于标签

的梯度，对其所有维度的梯度信息进行加和后求平均，得到其平均梯度，再用Sigmoid函数将其表示出来，获得其分类权重。

在表6中展示了该样本分类为恶意样本的影响权重最高的5个节点，涉及了图中的3个函数节点以及2个边节点。

表6影响分类的关键节点

由表6可知，该节点存在多次调用CopyFile函数，并且调用了函数MapViewOfFile，该函数映射将文件映射到内存，可直接从内存地址中访问该文件。通过使用这个函数，恶意软件可以避免使用WriteFile函数来修改文件内容，从而躲避分类器的追踪。在我们的恶意等级分类中，该函数分类登记为3，是启动器、装载器和注入器等恶意软件经常使用的函数。光有这些函数其实还不足以证明该样本的恶意性，但该样本存在频繁调用File类型API至System类型API的现象以及File类型API至Register类型API的现象。这种一般为恶意软件在修改内存属性以及注册表时常用行为，因此该样本确实应该为恶意的，与我们的标签吻合。借此也证明了我们的模型在添加了边属性后对其调用行为的特征有了更深层次的提取。

恶意软件已经成为了最具威胁性的网络安全问题之一，给个人、企业以及国家的信息安全造成严重威胁。针对此问题，本实施例提出了一种基于图表示学习的恶意软件检测方法，使用基于多线程的多子图表示方法以及添加边节点的方式将恶意软件表示为图结构，并输入至图神经网络中进行分类，其检测效率对比其他模型有着不小的提升。同时，为了提升检测方法的可解释性，本实施例对图神经网络进行了解释，为本实施例的图表示学习恶意软件检测方法提供了可解释性方法，使得本文的分类结果更加可信。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.基于图表示学习的恶意软件可解释性分类方法，其特征在于：包括以下步骤：

1)、数据预处理；

2)、构建恶意软件的图表示；包括：

2.1)特征选择：

选择了两层特征来表示恶意软件；首先在每个图中随机选取一个节点，对该节点进行随机游走并对已走过的节点进行标记；当走到最后一个节点没有路径的时候退回前一个节点寻找其他路径，每个图截取其中的前n个节点组成该文件的路径，在对所有的图进行随机游走之后拼接在一起，得到整个语料库的路径，最后对这个路径进行fastText处理得到每个节点的嵌入表示作为其第一层特征；

2.2)子图表示；

3)、构建基于图神经网络的分类器，包括以下步骤：

3.1)对每个子图单独进行两层图卷积，公式如下所示：

公式中的D∈R^N*N为节点的度矩阵，

其中为x′_i第i个节点的特征，N为节点数量，s为平均后的节点特征；

其中x^(j)为各子图池化后的特征，x为各子图聚合后的值；

2.根据权利要求1所述的基于图表示学习的恶意软件可解释性分类方法，其特征在于：数据预处理包括以下步骤：

3.根据权利要求2所述的基于图表示学习的恶意软件可解释性分类方法，其特征在于：在进行图表示时，另外对模型的边进行了处理，如果某一条边的两端顶点为以上三类节点时，将该边提取为一个节点，命名为TpyetoType；然后将该边节点放回得到的序列中并进行Word2Vec处理，其中API节点向量不进行训练，单独训练边向量；而边节点的等级特征也加入至原独热编码的三元组中，组成新的四元组，其中第一个值表示其是否为边节点。

4.根据权利要求3所述的基于图表示学习的恶意软件可解释性分类方法，其特征在于：在图卷积的过程中，进行两步处理，添加自环和特征表示的归一化处理。

5.根据权利要求4所述的基于图表示学习的恶意软件可解释性分类方法，其特征在于：步骤3.2)中，池化方法为：

公式中X∈R^N*d为节点的特征向量，Θ_att∈R^d*1为待学习的attention参数，σ为Sigmoid函数；在对原图进行图卷积后输出维度为N*1的向量，为权重Z的分数；然后对分数进行排序，并根据权重的分数进行池化，对图中的节点下采样至K*N个节点，公式如下所示：

mask＝TopK(Z,K)；

A′＝A_mask；

X′＝X_mask；