CN110795736B

CN110795736B - 一种基于svm决策树的恶意安卓软件检测方法

Info

Publication number: CN110795736B
Application number: CN201911049097.4A
Authority: CN
Inventors: 杨敏; 陈兴蜀; 罗永刚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-07-23
Anticipated expiration: 2039-10-31
Also published as: CN110795736A

Abstract

本发明公开了一种基于SVM决策树的恶意安卓软件检测方法，属于信息处理技术领域；通过逆向Android软件提取原始操作码Dalvik OpCode，利用N‑Gram模型生成样本特征向量，之后训练样本生成决策树，根据测试集在决策路径中的评估自下而上的更新决策节点为SVM节点。该模型将决策树与SVM两种算法有效融合，在保持高准确率的决策路径的前提下，利用SVM模型有效的降低决策树中的过拟合问题，提升泛化能力，并保持SVM算法在小样本训练集中的优越性。本发明方法用于Android恶意应用检测具有更高的效率和准确率。

Description

一种基于SVM决策树的恶意安卓软件检测方法

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于SVM决策树的恶意安卓软件检测方法。

背景技术

随着移动互联网的高速发展，移动智能手机终端已经成为人们必备的工具。当下流行的手机终端主要有OS x、Android以及Windowsphone三大操作系统，而Android系统因其开源、开放、可定制等优点受到广大用户及厂商的青睐。根据市场调研机构Gartner发布的调查数据显示，2017年Android系统的份额高达85.9％。但是，随着Android系统的普及，伴随而来的风险也越来越高。360互联网安全中心在2018年共截获移动端新增恶意样本约434.2万个，平均每天新增约1.2万个。其中新增恶意软件类型主要为资费消耗型，占比约为63.2％；其次为隐私窃取(33.7％)、恶意扣费(1.6％)、流氓行为(1.2％)、远程控制(0.3％)。Android手机市场中的恶意应用越发猖獗，终端应用通过窃取用户隐私、恶意扣费、恶意监控用户行为等危害用户利益，因此终端恶意应用检测开始成为广大学者研究的热点。

发明内容

本发明所要解决的技术问题是提供一种基于SVM决策树的恶意安卓软件检测方法，在原有决策树的基础之上使用SVM自下而上的更新决策节点，它可融合两种算法的优点，并克服了决策树过拟合、SVM大样本准确率低的缺点，对Android恶意应用识别能力强，检测精度高。

为解决上述技术问题，本发明采用的技术方案是：

一种基于SVM决策树的恶意安卓软件检测方法，包括以下步骤：

(1)收集样本，样本是由正负两类样本构成，分别对两类样本进行标记，其中正负两类样本都按照一定比例分为训练集TrainSet＝[]和测试集TestSet＝[]两部分，之后对每个样本apk进行OpCode提取；

(2)对提取的OpCode指令进行精简分类，并输入到N-Gram模型中，生成样本的特征向量；

(3)根据训练样本集，使用基尼指数进行特征选择并进行预剪枝，构造决策树T；

(4)使用测试集对决策树进行效果评估，并计算每条决策路径的准确率，构成决策对象，并设置决策路径准确率阈值Th；

(5)初始化队列Q＝{}，对步骤(4)中生成的决策对象按照决策路径的路径深度进行降序排列，并依次添加到队列中；

(6)判断队列是否为空，如果为空则算法结束，否则转至第(7)步；

(7)从队列中取出元素，将决策路径准确率与阈值进行比较，若小于阈值则转至第(8)步，否则保留决策路径，并转至第(6)步；

(8)判断(7)中取出元素的兄弟节点是否为叶子节点；如果是，则转向第(9)步，否则转向第(10)步；

(9)判断(7)中取出元素的兄弟节点所在路径的准确率是否低于阈值Th，如果是，则将经过两条决策路径的所有样本取出作为训练集，使用SVM模型训练，并合并更新为SVM节点，之后转向第(6)步；

(10)将该路径的所有训练集取出使用SVM模型训练，并更新为SVM节点，之后转向第(6)继续遍历更新节点，最终得到SVM决策树；

(11)根据得到的SVM决策树对安卓软件进行是否为恶意应用的检测。

与现有技术相比，本发明的有益效果是：

(1)本发明以样本的Dalvik OpCode作为研究对象，利用N-Gram模型生成样本特征向量，精简了OpCode指令的长度，进而减少了对指令集的处理时间；

(2)本发明提出了SVM决策树算法，在原有决策树的基础之上使用SVM自下而上的更新决策节点，融合了两种算法的优点，在样本集合单纯的使用决策树以及SVM算法均无法进行有效的分割的场景下，利用该算法能够有效地实现样本的分割；

(3)本发明在保持高准确率的决策路径的前提下，利用SVM模型有效地降低决策树中的过拟合问题，提升泛化能力，保持了SVM算法在小样本训练集中的优越性；

(4)本发明对Android恶意应用识别能力强，检测精度高。

附图说明

图1为本发明提出的SVM决策树算法流程图。

图2为本发明方法整体框架示意图。

图3为本发明旨在创建的决策模型示意图。

图4为本发明假设的初始决策树分类示意图。

图5为使用本发明所提SVM决策树算法的分类结果示意图。

图6为本发明中样本集经过010Editor解析Dex文件的结构体格式。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明针对支持向量机(Support Vector Machine,SVM)在对大规模样本训练时召回率高，以及决策树容易过拟合导致预测结果泛化能力弱等缺点，提出一种改进的决策SVM算法；先是提取样本OpCode指令，利用N-Gram技术对样本向量化并训练生成决策树，之后自下而上地更新误差较大的节点为SVM节点。该算法结合了决策树与SVM算法的优点，在保持高准确率的前提下，使用SVM节点降低决策路径中过拟合的问题，又能保持SVM在小样本训练集中的优越性，最后通过实验对比说明了该算法的优越性。

1、N-Gram模型

N-Gram模型是大型连续语音识别中常用的一种语言模型，来源于自然语言处理。N-Gram模型认为第N个词的出现一定与前N-1各词相关，而与其他词无关。那么整个句子出现的概率就应该等于各个词出现的概率乘积。N-Gram也可应用在软件恶意检测中，早在2008年就提出了OpCode N-gram方案，并取得了不错的检测效果。

2、支持向量机(SVM)

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大化的线性分类器；同时它还可以借助于核技巧解决非线性问题。支持向量机的学习策略就是间隔最大化，可形式化的为一个求解凸二次规划的问题，也称最大边缘算法。它的优点在于泛化能力强，可以很好的解决非线性、小样本、高纬度等问题。以线性可分支持向量机为例，SVM算法的原理是在给定的特征空间中寻找一个可分离的超平面，进而对样本空间进行分成两类，一部分为正类，一部分表示为父类，分别对应两种不同类别的样本。支持向量机中的超平面H可用w·x+b＝0方程表示，其中w为法向量，b为截距。

训练样本线性可分时，有很多直线可以将两类数据进行正确划分，线性可分支持向量机便是寻找能够将两类样本正确划分并且间隔最大的直线。支持向量机也支持非线性问题分类，其主要特点是利用了核技巧，它的基本思想是通过一个非线性变换，将输入空间对应于一个特征空间，使得它在输入空间的超曲面模型对应于特征空间中的超平面模型。高斯核函数(Radial Basis function，RBF)是常用的和函数之一。

高斯核函数：

其中，||x-z||²是两个特征向量的平方欧几里得距离，σ是一个自由参数，控制高斯核函数的局部作用范围，假设固定z，k(x，z)随x的变化而变化得相当显著。

3、决策树

决策树是一种基本的分类和回归方法，它将样本分类成为一种树形结构，在分类问题中表示基于特征对样本的分类的过程，也可以认为是if-then规则的集合，决策树以其直观的特征表达、分类准确率高以及实现简单等优点，被广泛使用。

决策树的学习过程在于寻找一个对象属性与对象值之间的映射关系，是的它能够从无规则的样本集合中归纳出一组采用树形表征的分类规则。决策树的决策路径具有一个重要的性质:互斥并且完备，即每一个实例都被一条路径所覆盖，而且只能被一条路径所覆盖。

决策树的学习算法包含特征选择、决策树的生成与决策树的剪枝过程，决策树常用的生成算法有ID3、C4.5和CART算法等。本发明使用CART算法生成决策树，使用基尼指数(Gini index)进行最优特征选择。

基尼指数：在分类问题中，设有K个类，样本点属于第k类的概率为p_k，则概率分布的基尼指数定义为：

在二分类问题中，样本集合D的基尼指数表示为：

其中，|C_k|表示类别k的样本个数，|D|表示样本总数，基尼指数表示样本集合的不确定性，基尼指数越大，则样本集合的不确定性就越大。

传统的SVM算法是基于小样本的二次规划最优化问题求解算法，在对大规模样本计算时将耗费大量的机器内存与运算时间，并且只适合应用于二分类问题。

本发明方法将SVM引入到决策树中进行节点优化，在保证高准确率的决策路径的同时，提升决策树的泛化能力，并且能够发挥SVM在小样本训练中的优势。SVM决策树算法旨在创建一个如图3所示的决策模型，算法的核心过程是先根据样本实例生成决策树，然后自下而上的更新决策节点。

仿真实验表明：通过实验对比说明了SVM决策树算法在准确率、分类精度、召回率、F1值，耗时等方面均优于单独使用SVM算法或者决策树算法，并且在Android恶意应用检测中取得了良好的效果，具体包括：

步骤1、样本指令提取

样本是由正负两类样本构成，分别对两类样本进行标记。之后对每个apk进行OpCode提取。apk解压之后会得到该应用的核心classes.dex文件，classes.dex文件是Android系统可执行文件，它包含了应用全部操作指令和运行时所需要的数据。可以通过010Editor解析Dex文件，其中Dex结构体中的Methods包含了应用所有的方法，使用DexMethod结构体表示，其结构体表示如下：

其中的codeOff指向了一个DexCode结构体，DexCode结构体的格式如下：

在这个结构体中，最后一个字段insns[1]包含了该方法的所有指令集，即对应的Dalvik OpCode。遍历所有的方法，根据表1中的Dalvik OpCode指令表便可提取所有的OpCode指令。

表1

步骤2、特征工程

由于Dalvik指令有200多条，如果直接输入到N-Gram模型中会造成特征维度过高，本发明先对Dalvik指令集进行精简分类，去掉无关的指令，只留下取数据、存数据、调用方法、判断、跳转、返回、移动、比较八种类型，并分别使用G、P、V、I、J、R、M、C标识，详情见表2所示。

表2

在对Dalvik指令集进行简化之后，便可输入到N-Gram模型中生成样本特征空间。对每个样本提取出的OpCode分别映射到精简指令中，并构造N-Gram向量，假设Dalvik指令为{G，P，V，I，J，R，M，C}，当N＝3时，构造出的3-Gram向量为：[{GPV},{PVI},{VIJ},{JRM},{RMC}]。

在得到样本的N-Gram后，统计样本N-Gram类型，若样本出现过该特征，则置该特征的值为1，否则置为0，最终生成该样本的特征向量。

步骤3、分类器训练及评估

将样本集以6:2:2的比例分成训练集、伪测试集、测试集三类，将训练集特征向量输入到决策SVM模型中进行训练，训练时使用伪测试样本更新决策节点，得到决策SVM树，最后利用测试集进行分类器效果评估。

分类器的效果使用准确率(Precision)、召回率(Recall)、分类精度(ACC)和F值四个指标进行评价。其中：FP指预测为恶意样本，但实际为正常样本的数量；TN指预测为正常样本，且实际为正常样本的数量；TP指预测为恶意样本，且实际为恶意样本的数量；FN指预测为正常样本，实际为恶意样本的数量。各指标定义如下：

准确率是指被正确预测为恶意样本的数量占所有被预测为恶意样本数量的比例，定义为：Precision＝TP/(TP+FP)；

召回率，有时也称检测率，是指被预测为恶意样本的数量占所有恶意样本中的比例，定义为：Recall＝TP/(TP+FN)；

分类精度是对分类器的整体评价，定义为ACC＝(TP+TN)/(TP+TN+FP+FN)，分类精度越高越好。

F1值是分类问题中常用的一个衡量指标，他是准确率和召回率的调和平均数，定义为：F1＝2*Precision*Recall/(Precision+Recall)。

下面通过具体实验、仿真对本发明的有益效果进行验证。

仿真实验与分析：本发明主要模拟真实的应用场景，验证决策SVM算法的性能是否比单独使用决策树算法或者SVM算法时更优越。

实验环境及数据集：

实验环境部署在一台台式机上，机器参数如下：

表3实验环境参数

机器型号	系统	存储容量	内存	运行环境
					Dell R530	Win2012	2TB	16GB	Python 3.7

实验中的恶意样本集来源于德国哥廷根大学Drebin项目中的恶意样本数据库，正常样本则是在Google Play应用商店通过爬虫模块随机下载获得。实验采用恶意样本1638个，正常样本1324个，选用其中的60％训练集和20％的伪测试集训练生成决策SVM模型，之后用余下的20％进行分类器效果评估。实验采用3-Gram技术进行特征选择。由于不同的取样会对分类结果造成影响，实验进行十折交叉验证。

为了保证决策叶子节点有足够的样本容量进行SVM训练，因此需要对决策树进行预剪枝操作，试验中设置叶子节点最小样本数min_samples_leaf为40，决策树最大深度max_depth为5，准确率阈值设置为0.9，则低于阈值的决策树路径如表4所示。

表4

路径编号	决策路径	路径矩阵	准确率
				1	(C<sub>296</sub>，C<sub>9</sub>，C<sub>313</sub>，C<sub>304</sub>，C<sub>308</sub>，d<sub>7</sub>)	1100000110001010000000000	0.737
2	(C<sub>296</sub>，C<sub>9</sub>，C<sub>120</sub>，d<sub>1</sub>)	1111000000000000000000000	0.571
				3	(C<sub>296</sub>，C<sub>9</sub>，C<sub>313</sub>，d<sub>8</sub>)	1100000100000001000000000	0.590
4	(C<sub>296</sub>，C<sub>307</sub>，C<sub>223</sub>，d<sub>10</sub>)	1000000000000000101100000	0.685
				5	(C<sub>296</sub>，C<sub>307</sub>，d<sub>9</sub>)	1000000000000000110000000	0.850

针对这些误差较高的决策路径，取出各路径下的样本分别进行SVM训练，生成SVM节点。训练时使用高斯核函数对特征空间进行处理，此时有两个非常重要的参数需要调节，分别是C参数与gamma参数。C表示模型的惩罚系数，即对误差的容忍度。C越大，则越不容易出现误差，造成过拟合。C越小，则容易欠拟合。Gamma是高斯核函数自带的一个参数，gamma越大，支持向量越少，模型越简单，反之模型越复杂。

经过训练后，各SVM的模型参数如下表5所示。

表5

SVM节点	C	gamma
			1	7	0.03
2	7	0.003
			3	1	0.04
4	5	0.04
			5	5	0.04

实验结果分析

实验结果分析了N-Gram对分类器的影响，以及利用四种指标进行评估，分别是准确率，分类精度，召回率，F1值，耗时时间。

实验一：N-Gram对分类器的影响

使用不同的N-Gram模型，分别对决策树、SVM分类器进行训练，得到的预测准确率结果如表6所示。

表6

N-Gram	决策树	SVM
			2-Gram	0.79	0.76
3-Gram	0.92	0.95
			4-Gram	0.94	0.97

结果表明基于3-Gram、4-Gram，决策树和SVM都能取得不错的评估结果，说明该建模方法的可行性。但是当N>3时，决策树准确率只提高了0.7％，SVM提高了2％，但是却消耗了大量的运行时间。SVM在4-Gram技术下耗时1002.23秒，而3-Gram下运行时间为113.65秒，综合考虑，N＝3是样本向量化最好的建模方案。

实验二、基于3-Gram的分类器结果对比

基于3-Gram技术对样本进行向量化，使用本发明算法与SVM、决策树进行对比，结果见表7。

表7

分类器	准确率	分类精度	召回率	F1值	耗时/秒
						决策树	0.92	0.93	0.93	0.93	8.01
SVM	0.96	0.96	0.94	0.95	105.79
						SVM决策树	0.96	0.96	0.96	0.96	18.9

结果表明SVM决策树算法在准确率、分类精度、召回率、F1值均高于普通决策树，并且与SVM评估结果近似。在效率方面，SVM训练耗时最长，决策SVM先是经过决策树训练，而后对小样本进行SVM节点训练，因此此时时间相比SVM大大减少，但要比决策树训练时间长。

实验三、不同样本数量下的SVM决策树算法结果对比

分析不同样本数量对SVM决策树算法分类器结果的影响，从样本集合中随机抽取样本507个进行实验。实验结果如表8。

表8

样本数量	准确率	分类精度	召回率	F1值
					507	0.93	0.93	0.94	0.93
2962	0.96	0.96	0.96	0.96

实验结果表明样本数量对检测效果具有一定的影响，样本数增多，准确率、分类精度、召回率以及F1值均提升大约0.03，因此样本数量越大，综合指标表现越好。

Claims

1.一种基于SVM决策树的恶意安卓软件检测方法，其特征在于，包括以下步骤：