CN112464234A

CN112464234A - 一种云平台上基于svm的恶意软件检测方法

Info

Publication number: CN112464234A
Application number: CN202011315603.2A
Authority: CN
Inventors: 姚烨; 贾耀; 钱亮
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-21
Filing date: 2020-11-21
Publication date: 2021-03-09
Anticipated expiration: 2040-11-21
Also published as: CN112464234B

Abstract

本发明涉及一种云平台上基于SVM的恶意软件检测方法，属于信息安全领域。依次包括以下步骤：基于时序的API调用序列的提取、基于skip‑gram模型的API序列向量化、基于AutoEncoder模型的API向量降维、构建基于SVM的恶意软件检测模型、基于SVM的检测模型的训练。本发明选择的特征向量为软件的所有API调用序列，通过将序列进行压缩的操作尽最大可能地保留了序列特征，再将其输入到SVM模型中，不但有效提升检测效率，检测准确率也得到大幅提升。

Description

一种云平台上基于SVM的恶意软件检测方法

技术领域

本发明涉及信息安全领域，具体为一种运行于云平台上的恶意软件检测方法。

背景技术

随着移动智能终端的普及，Android用户数量的不断扩大，智能手机等设备同人们生活的日益密切，恶意软件给人们造成的诸如经济损失、隐私泄露等后果也越来越严重，其中不仅有通话记录、联系人、短信记录等隐私信息，也有涉及经济生活等各方面的敏感数据。近年来，针对Android的恶意软件也呈现爆发的趋势，恶意软件种类逐渐增多，单纯依靠传统的检测方法进行判断面临着工作量巨大、效率低下以及准确率不足等问题。随着人们对手机的依赖越来越强，Android平台的恶意软件造成的危害将会更加严重。

发明内容

要解决的技术问题

针对传统检测方法准确率低下以及常规检测系统低效等问题，本发明提出了一种云平台上基于SVM的恶意软件检测方法以实现检测的准确高效，以解决恶意软件种类剧增所造成的检测效率低下以及检测准确率不足等问题，保护用户的个人隐私和财产安全。

技术方案

一种云平台上基于SVM的恶意软件检测方法，其特征在于步骤如下：

步骤1：基于时序的API调用序列的提取

为APK文件创建一个dex对象，通过对dex对象的分析，提取出该APK文件的函数调用图，通过对函数调用图中边信息的分析，获得各类内的函数调用关系；在此调用关系的基础上使用深度优先遍历算法完善每条调用序列；此时获得多条完整的类内调用序列，依据序列头节点在内存中的地址信息进行排序；最后按照地址递增的顺序将所有类内调用序列拼接在一起，构建成一条完整的API调用序列；

步骤2：基于skip-gram模型的API序列向量化

获得API调用序列之后，需要将提取出来的API序列向量化：

(1)首先对每个API函数用特定的整数表示，每个API序列构建成为一个one-hot向量；

(2)然后利用构建的one-hot向量来训练skip-gram网络模型，所述的skip-gram网络模型：输入为构建的one-hot向量；隐藏层没有使用任何激活函数；输出层是一个softmax回归分类器；模型中还需要定义skip_windows的参数，它表示从当前input word的一侧选取词的数量，另一个参数叫num_skips，它表示从整个窗口中选取多少个不同的词作为output word；隐藏层的权值矩阵是最终的学习目标，因此权重矩阵每行的维度需要根据具体的训练情况进行设置；输出层的每个节点将会输出一个0-1之间的值，表示当前词是输入样本中output word的概率大小，这些所有输出层神经元节点的概率之和为1；

(3)训练完成后，取出模型中的Embedding矩阵，用API序列的one-hot向量与Embedding权重矩阵的乘积来表示该序列的Embedding向量；

步骤3：基于AutoEncoder模型的API向量降维

采用AutoEncoder模型对API序列进行压缩，所述的AutoEncoder模型包含以下十层：一个数据输入层、八个数据压缩层以及一个数据输出层；各层之间通过全连接的方式相连接；将输入样本压缩到隐藏层，然后在输出端重新构建样本，经过不断的训练，当输出端重新构建的样本与输入端输入的样本之间的误差在一定范围内时，认为样本的压缩有效，模型训练结束；

步骤4：构建基于SVM的恶意软件检测模型

首先将经过降维处理的API序列输入到检测模型中；然后检测模型中的参数会在样本集上进行迭代计算，最终使得测试集上误差低于设定阈值；最后完成训练后的模型用于未知软件的检测，检测结果为良性或恶意的二分类判断；但是经过降维处理的API序列仍然有较高维度，为了获得更好的分类效果，引入高斯核函数；通过核函数，将特征向量映射到一个比较高的维度，从而找到一个可以完全分离的超平面，进而完成分类；

步骤5：基于SVM的检测模型的训练

本发明将模型构建在云平台上，将模型的训练建立在Spark内核之上，加速模型的训练，Spark集群由Driver,Cluster Manager，以及Worker Node组成；对于每个Spark应用程序，Worker Node上存在一个Executor进程，Executor进程中包括多个Task线程；Spark上的任务启动后，Driver向Cluster Manager申请资源；Cluster Manager向某些Work Node发送征召信号；被征召的Work Node启动Executor进程响应征召，并向Driver申请任务；Driver将任务的程序代码和不同的数据分片分发给Word Node；每个Work Node根据拿到的数据进行完整逻辑的任务，完成训练后将任务参数汇总发送给Driver程序；最后再将各参数进行平均化处理。

步骤3中该模型采用均方误差作为损失函数来衡量输入与输出的差异程度；模型的学习方法选择Adam算法，该算法能够自适应地调整学习率，并且收敛速度较快；模型中的激活函数选择tanh函数；模型的初始化学习率为0.2；最中间压缩层维度设置为64；为了提高训练速度，将此模型利用pytorch下的cuda转移到GPU上来进行训练。

有益效果

本发明提出的一种云平台上基于SVM的恶意软件检测方法，所设计的恶意软件检测系统构建于云平台之上，解决了困扰很多基于主机的系统的诸如存储空间不足、计算能力受限以及检测效率低下等问题。构建于云平台上的检测系统可以适用于恶意软件数量和种类剧增的当今互联网环境，可以更加快速有效地对数据进行存储和处理；同时本发明选择的特征向量为软件的所有API调用序列，通过将序列进行压缩的操作尽最大可能地保留了序列特征，再将其输入到SVM模型中，不但有效提升检测效率，检测准确率也得到大幅提升。

附图说明

图1提取API调用序列流程

图2 Skip-gram模型架构

图3自行设计的AutoEncoder模型

图4 SVM核函数映射

图5模型基于Spark并行训练原理图

图6三种不同特征之间评估指标对比

图7不同维度API调用序列评估指标对比

图8三种不同分类器之间评估指标对比

具体实施方式

现结合实施例、附图对本发明作进一步描述：

一种恶意软件检测系统，该系统包括分布式云平台数据存储子系统、分布式云平台计算子系统以及分布式云平台分析子系统。分布式云平台数据存储子系统的主要功能是文件的并行传输和文件分布式存储，要求容错性能好，对大数据易扩张，易于实现海量数据访问，主要是基于Hadoop常用存储组件进行整合，分布式文件系统HDFS能够检测和应对硬件故障，用于在低成本的通用硬件上运行，它通过流式数据访问，提供高吞吐量应用程序数据访问功能；HBase是一个针对非结构化数据的可伸缩、高可用、高性能、分布式和面向列的动态模式数据库；Hive是建立在Hadoop基础上的数据仓库架构，提供数据存储管理和大型数据集的查询和分析能力；分布式云平台计算子系统的主要目的是支持计算，通过并行化技术，加速数据处理以及模型训练等过程，使得检测系统在面对较多数据时，仍表现出良好的检测效率，主要组成为Hadoop中的MapReduce和Spark，其中的MapReduce是一种编程模型、软件架构，用于大规模数据集的并行计算，Spark是一种基于内存进行计算的计算引擎，可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等任务；分布式云平台分析子系统是整个系统的核心，采用了机器学习算法，该子系统建立于计算子系统之上，用来保证系统的检测准确率。主要实现API序列提取、样本预处理、模型训练以及文件检测等功能。

步骤一：基于时序的API调用序列的提取技术

要对一个APK文件进行检测，首先需要从APK中提取选定的特征信息。通过对部分恶意软件的源代码进行了分析后发现，恶意软件在执行恶意行为时，必然是通过一系列的API调用来完成目标行为的，而不是使用单个的API调用。因此本发明选取软件运行时API的调用序列作为检测特征。

为APK文件创建一个dex对象，通过对dex对象的分析，提取出该APK文件的函数调用图，通过对函数调用图中边信息的分析，获得各类内的函数调用关系；在此调用关系的基础上使用深度优先遍历算法完善每条调用序列；此时获得多条完整的类内调用序列，依据序列头节点在内存中的地址信息进行排序；最后按照地址递增的顺序将所有类内调用序列拼接在一起，构建成一条完整的API调用序列。具体的操作流程图如图1所示：

步骤二：基于skip-gram模型的API序列向量化技术

获得API调用序列之后，需要将提取出来的API序列向量化：

(4)基于one-hot的API向量编码。对每个API函数用特定的整数表示，每个API序列构建成为一个one-hot向量，如表1所示；

表1 API one-hot编码举例

(5)然后利用构建的one-hot向量来训练skip-gram网络模型，该模型主要思想是：通过寻找与输入API属于同一类型的若干个API这样一个伪任务来获得能够记录API属性的API向量。基于Skip-gram网络模型的API向量化。Skip-gram模型的训练目标是找到可用于预测句子或文档中周围单词的单词表示形式，图2为Skip-gram的模型架构。模型的输入为构建的one-hot向量；隐藏层没有使用任何激活函数；输出层是一个softmax回归分类器。模型中还需要定义skip_windows的参数，它表示从当前input word的一侧(左边或右边)选取词的数量，另一个参数叫num_skips，它表示从整个窗口中选取多少个不同的词作为outputword；隐藏层的权值矩阵是最终的学习目标，因此权重矩阵每行的维度需要根据具体的训练情况进行设置；输出层的每个节点将会输出一个0-1之间的值，表示当前词是输入样本中output word的概率大小，这些所有输出层神经元节点的概率之和为1。(在Python的gensim包中封装的Word2Vec接口默认的词向量大小为100，window_size为5，参数num_skips可以根据具体场景进行设置，越大产生的训练示例越多，准确性也会越高，但训练时间也会增加)

(6)训练完成后，取出模型中的Embedding矩阵，用API序列的one-hot向量与Embedding权重矩阵的乘积来表示该序列的Embedding向量。

具体解释如下：假设Embedding的权重矩阵为[VocabSize,EmbeddingSize]的稠密矩阵W，其中VocabSize为需要Embedding的所有项目的个数，EmbeddingSize为经过Embedding映射后的向量长度。那么对于函数Embedding(W,var)，其中的var是向量的One-hot向量，大小为[1,VocabSize]，此One-hot向量与矩阵W[VocabSize,EmbeddingSize]相乘，结果是一个[1,EmbeddingSize]向量，该向量就是此API序列对应的Embedding向量。权重矩阵W的值会在训练开始前进行随机初始化，在训练过程利用反向传播，实现值的更新。

步骤三：基于AutoEncoder模型的API向量降维技术

由于不同软件调用的API数量不同，所以得到的API序列长度也不相等，并且经过向量化后所获得的API向量是一个维度极大的向量。如果不经过处理将这些向量直接放入机器学习模型中进行训练，在训练效率低下的同时还面临着过拟合的风险。

为了解决以上问题，采用AutoEncoder模型对API序列进行压缩。该模型的大致工作流程是将输入样本压缩到隐藏层，然后在输出端重新构建样本，经过不断的训练，当输出端重新构建的样本与输入端输入的样本之间的误差在设定的范围内时，认为样本的压缩有效，模型训练结束。本发明所构建的AutoEncoder模型包含以下十层：一个数据输入层、八个数据压缩层以及一个数据输出层。各层之间通过全连接的方式相连接，具体结构如图3所示：

本模型采用均方误差作为损失函数来衡量输入与输出的差异程度；模型的学习方法选择Adam算法，该算法能够自适应地调整学习率，并且收敛速度较快；模型中的激活函数选择tanh函数；模型的初始化学习率为0.2；最中间压缩层维度设置为64；为了提高训练速度，将此模型利用pytorch下的cuda转移到GPU上来进行训练。

步骤四：构建基于SVM的恶意软件检测模型

本系统采用了SVM算法，构建了基于SVM的检测模型。首先将经过降维处理的API序列输入到检测模型中；然后检测模型中的参数会在样本集上进行迭代计算，最终稳定(测试集上误差低于设定阈值)；最后完成训练后的模型用于未知软件的检测，检测结果为良性或恶意的二分类判断。但是经过降维处理的API序列仍然有较高维度(本发明中为64维)，为了获得更好的分类效果，引入高斯核函数。通过核函数，将特征向量映射到一个比较高的维度，从而找到一个可以完全分离的超平面，进而完成分类。核函数原理如图4所示：

步骤五：基于SVM的检测模型的训练

本发明将模型构建在云平台上，将模型的训练建立在Spark内核之上，加速模型的训练，Spark集群由Driver,Cluster Manager(Standalone,Yarn或Mesos)，以及WorkerNode组成。对于每个Spark应用程序，Worker Node上存在一个Executor进程，Executor进程中包括多个Task线程。Spark上的任务启动后，Driver向Cluster Manager申请资源；Cluster Manager向某些Work Node发送征召信号；被征召的Work Node启动Executor进程响应征召，并向Driver申请任务；Driver将任务的程序代码和不同的数据分片分发给WordNode；每个Work Node根据拿到的数据进行完整逻辑的任务，完成训练后将任务参数汇总发送给Driver程序；最后再将各参数进行平均化处理。模型基于Spark并行训练原理图如图5所示。

实验及结果分析：

为了进行各项实验来验证本发明的有效性，本发明用于实验的APK来自于Drebin数据集以及加拿大网络安全研究所提供的CICInvesAndMal2019数据集，最终得到一个包含5986个恶意软件和5065个良性软件的数据集。本发明所进行的实验是在三台内存为32G，主频为3.5GHz的至强Xeon-E5，显卡为NVIDIA 1060Ti，系统为CentOS 7的服务器上进行。

本发明所述的恶意软件检测系统在评估过程中，评估指标主要有分类的正确率、准确率和召回率三项。为了更好地衡量不同条件下的检测结果，尽量降低由于测试集和训练集分割不平衡所引入的误差，实验中利用了交叉验证的方法。实验中进行了10次10折交叉验证，以10次10折交叉验证所得到结果的平均值作为最终结果。

实验一：

为了验证本发明所选取的API调用序列特征的有效性，在同等实验环境下进行了以下几个对比实验。

将API调用序列作为检测特征，用10折交叉验证方法测试的主要的评价指标如表2所示：

表2以API调用序列为特征的检测结果

为了说明特征选取的有效性，还进行了多项对比实验。通过分析部分恶意软件的权限信息，整理了Android下的高危权限，得到以下的高危权限表：

表3高危权限表

以上表中的高危权限作为特征，训练恶意软件检测模型，同样利用10折交叉验证，所得到的主要评价指标如下表：

表4以高危权限为特征的检测结果

本发明还通过对提取的API调用序列以及API具体功能的分析，整理出部分敏感API类：

表5敏感API类

在其他实验环境均相同的情况下，将以上API类中的API函数作为特征，对模型进行训练，在测试阶段得到的主要评价指标如下表所示：

表6以敏感API为特征的检测结果

将利用三种不同特征所构造的模型进行检测时的评估指标汇总到图6中，可以看出当利用API调用序列进行恶意软件检测时，正确率、准确率、召回率三种评估指标相较于单独利用高危权限和敏感API进行检测时都有所提高。

实验二：

为了验证本发明的API向量降维技术的有效性，进行了以下的几个对比实验。分类将512维、256维、128维、64维、32维、16维API调用序列放入机器学习模型中进行训练，在测试阶段得出的评估指标之间的对比如下图所示。

从结果对比图看，正确率、准确率以及召回率这三个评估指标都在随着降维程度的提高而提高，但当维度低于64维时，正确率和召回率有了不同程度的下降，准确率有少许提高。综合对比，选取64维的API向量进行训练较为合理。

实验三：

为了验证本发明所构建的机器学习模型的有效性，还选取了k-NN、Naive Bayes这两个分类模型进行实验，经过相同的数据处理流程，分类将预处理完成的数据送入这三个不同的分类器中，在测试阶段得到的评估指标如下表所示：

表7三种不同分类器之间评估指标对比

从结果来看，以API调用序列为特征进行恶意软件检测时，三种分类器的检测正确率都达到了85％以上，SVM获得最高的正确率94.66％。因此，对于API调用序列来说，最合适的机器学习分类器是SVM。

Claims

1.一种云平台上基于SVM的恶意软件检测方法，其特征在于步骤如下：

步骤1：基于时序的API调用序列的提取

步骤2：基于skip-gram模型的API序列向量化

获得API调用序列之后，需要将提取出来的API序列向量化：

(2)然后利用构建的one-hot向量来训练skip-gram网络模型，所述的skip-gram网络模型：输入为构建的one-hot向量；隐藏层没有使用任何激活函数；输出层是一个softmax回归分类器；模型中还需要定义skip_windows的参数，它表示从当前input word的一侧选取词的数量，另一个参数叫num_skips，它表示从整个窗口中选取多少个不同的词作为outputword；隐藏层的权值矩阵是最终的学习目标，因此权重矩阵每行的维度需要根据具体的训练情况进行设置；输出层的每个节点将会输出一个0-1之间的值，表示当前词是输入样本中output word的概率大小，这些所有输出层神经元节点的概率之和为1；

步骤3：基于AutoEncoder模型的API向量降维

步骤4：构建基于SVM的恶意软件检测模型

步骤5：基于SVM的检测模型的训练

2.根据权利要求1所述的一种云平台上基于SVM的恶意软件检测方法，其特征在于步骤3中该模型采用均方误差作为损失函数来衡量输入与输出的差异程度；模型的学习方法选择Adam算法，该算法能够自适应地调整学习率，并且收敛速度较快；模型中的激活函数选择tanh函数；模型的初始化学习率为0.2；最中间压缩层维度设置为64；为了提高训练速度，将此模型利用pytorch下的cuda转移到GPU上来进行训练。