CN112464232B

CN112464232B - 一种基于混合特征组合分类的Android系统恶意软件检测方法

Info

Publication number: CN112464232B
Application number: CN202011315597.0A
Authority: CN
Inventors: 姚烨; 钱亮; 贾耀
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-21
Filing date: 2020-11-21
Publication date: 2024-04-09
Anticipated expiration: 2040-11-21
Also published as: CN112464232A

Abstract

本发明涉及一种基于混合特征组合分类的Android系统恶意软件检测方法，通过CHI统计方法、层次聚类和K‑Means聚类混合算法建立高危权限和敏感API库。在此基础上，分别对APK文件进行解析分析得到静态特征和对APP进行动态Hook得到动态特征，组合形成混合特征。通过对混合特征进行归一化和权重赋值处理，构建基于随机森林和Adaboost算法的混合特征组合分类器。本发明所提的基于混合特征组合分类器的Android恶意软件检测方法兼顾静态和动态特征，利用低维特征数据尽可能多的描述恶意软件的综合恶意特征，在混合特征分类检测模型下对Android恶意软件的检测具有良好效果。实验表明，本发明所提方法能显著提高恶意软件检测的准确率。

Description

一种基于混合特征组合分类的Android系统恶意软件检测方法

技术领域

本发明属于软件检测技术领域，涉及一种移动端恶意软件检测方法，尤其是提出一种基于混合特征组合分类的Android系统恶意软件检测方法。

背景技术

Android系统由于其开放性特征，使得其产品的市场占有率越来越高。同时，针对Android系统的恶意软件也层出不穷。对于Android恶意软件的检测方式分为静态检测和动态检测两种。目前，研究者们多数就Android恶意软件的单特征进行检测分析，并未完全兼顾到静态和动态特征，导致检测不全面等问题，影响了恶意软件的检测效率和准确度。

发明内容

要解决的技术问题

本发明针对Android恶意软件单特征检测不全面问题，提出了一种基于混合特征组合分类的Android系统恶意软件检测方法。搭建高危权限和敏感API库，分别提取静态权限和敏感API调用特征和动态敏感API调用频次特征以及动态系统状态特征，形成基于静态和动态的混合特征。在此基础上，先构建基于随机森林和Adaboost的单分类器，然后基于交叉验证法构建组合分类器，对Android恶意软件进行分类检测。

技术方案

一种基于混合特征组合分类的Android系统恶意软件检测方法，其特征在于步骤如下：

步骤1：构建Android高危权限和敏感API库

首先，基于CHI统计方法筛选高危权限；选取Android系统的所有权限作为权限集P＝{p₁,p₂,...,p_M}，对于权限p_i∈P,(i＝1,2,...,M)，权限p_i的CHI值X²(p_i,K)：

其中，N表示所有样本数，A表示含有权限p_i的恶意样本数，B表示不含权限p_i的恶意样本数，C表示含有权限p_i的正常样本数，D表示不含权限p_i的正常样本数；

按X²(p_i,K)值从大到小排序，选取前若干个较高者作为当前筛选的高危权限列表；

其次，采用层次凝聚和K-Means结合的方法对上述高危权限进行聚类处理，以去除权限之间的相关性；首先基于层次凝聚算法找到初始聚类中心，然后用K-Means算法进行重定位聚类；其中，权限之间的相关性基于皮尔逊相关系数来衡量，其计算公式如下：

其中，表示权限p_m(m＝1,2,...,30)的特征向量，/>表示权限p_n(n＝1,2,...,30)对应的特征向量，和/>分别表示各自的期望值。

步骤2：基于反编译和动态Hook技术进行混合特征提取

首先，基于反编译技术提取静态特征，包括高危权限特征和敏感API特征；使用开源jar包ApkParser解析APK文件，获取AndroidManifest.xml，通过提取其中的权限信息列表P_apk＝{p₁,p₂,...,p_m}，对权限p_i∈P_apk,(i＝1,2,...,m)，若满足则有：f_j＝1,(j＝1,2,...,14)；由此得到APK文件的静态高危权限特征向量；再通过解压手段获得dex文件，使用开源jar包baksmali反编译dex文件，获取对应的smali文件；自定义方法解析smali文件，在每一个smali文件中遍历得到函数名列表API_apk＝{api₁,api₂,...,api_n}，对函数列表的每个元素，若满足api_j＝API_i∈API_APK,(i＝1,2,...,40；j＝1,2,...,n)，则对应特征向量f_i＝1,(i＝1,2,...,40)；由此得到APK文件的静态敏感API特征向量；

其次，基于成熟的Xposed框架动态Hook敏感API，以提取动态特征；部署自开发的API动态劫持插件，主动监控Android系统，若有系统api_APP＝API_j∈API_APP被调用，则记录本次调用的API相关信息，包括敏感API调用频次信息和系统状态信息F_API＝{f_active,f_user,f_bkg}，其中，f_active表示是否处于息屏状态，f_user表示是否处于被用户操作状态，f_bkg表示是否处于后台状态；由此得到动态敏感API调用时的系统状态特征；

步骤3：混合特征归一化和特征权重赋值处理

由于高危权限调用特征向量、静态敏感API调用特征向量和动态系统状态特征向量的值均在[0,1]之间，不需要处理；故只需对动态敏感API调用频次的特征向量进行归一化处理；

考虑到动态敏感API调用频次特征向量每隔一段时间特征值归零情况，以及对于APP来讲，并不可能在一段时间内对所有敏感API进行调用，甚至有些敏感API根本不进行调用；因此，动态敏感API调用频次特征向量中的向量值会出现值为0的现象；这里采用离差标准化方法进行归一化处理，转换函数如下所示：

对于静态特征向量(高危权限调用特征和敏感API调用特征)，本发明采用TF-IDF算法进行赋权处理；

设恶意APK样本数为N_vir，静态特征向量为F_APK＝{F_APK(per),F_APK(api)}₅₄，特征元素f_k∈F_APK,(k＝1,2,...,54)对应的APK样本数为N_k,(k＝1,2,...,54)；具体流程如下：

(1)计算特征元素f_k在APK样本文件d_j,(j＝1,2,...,N_k)中的TF值：

其中，t_k,j表示在样本d_j中特征元素f_k特征元素出现的次数，T_k表示样本d_j中所有特征元素出现的总次数；

(2)计算特征元素f_k的IDF值：

(3)计算特征元素f_k的权重：

W_apk(k)＝TF_k,j×IDF_k

动态特征权重通过对系统特征向量的分析来给敏感API调用频次特征赋值；动态特征权重计算公式为：W_APP(api_k)＝F_APP(api_k)×W_APP(api_k)；其中，F_APP(api_k)为经过归一化处理过的敏感api_k特征向量值，W_APP(api_k)表示由api_k对应的系统状态特征向量计算得到的辅助权重；

本发明对于系统状态特征向量元素重要程度的判断是基于专家决策的，其重要程度按从大到小排序为：f_active>f_user>f_bkg，采用优序图法来计算权重；具体流程如下：

(1)根据重要程序构建优序图如表3所示；

表3系统状态特征向量权重优序图

(2)计算优序图中第i行元素权重：

其中，w_i,j表示优序图中第i行、第j列元素值；

(3)计算api_k对应的辅助权重：

W_APP(api_k)＝∑f(i)×W_f(i),(f(i)∈F_API)

(4)计算api_k对应的最终权重值；

步骤4：基于混合特征分类器的恶意软件检测和评价分析

本发明检测框架如图1所示，采用C/S模式，静态分析(包括：高危权限和敏感API库搭建、静态特征提取、特征值处理和分类器分类分析)在服务端完成；动态分析中，动态特征提取在客户端完成，特征值处理和分类器分类分析在服务端完成；

本发明基于随机森林RandomForest算法、Adaboost算法分别构建随机森林混合特征分类器和Adaboost混合特征分类器，在此基础上构建组合分类器；

在训练时分别基于5折交叉法、10折交叉法和20折交叉法，构造不同交叉法对应的随机森林混合特征分类器和Adaboost混合特征分类器，总共得到6个混合特征分类器；由于10折交叉法通常是获得最好误差估计的恰当选择，故对于采用10折交叉法训练得到的分类器赋予权重0.3，其余的分类器赋予权重0.1；

对于需要检测的每一条混合特征，分别经过上述6个混合特征分类器检测，得到6组分类结果，对每一组分类结果按类别进行加权求和，得到最终分类结果。

步骤1中所述的若干为30个。

有益效果

本发明提出的一种基于混合特征组合分类的Android系统恶意软件检测方法，通过CHI统计方法、层次聚类和K-Means聚类混合算法建立高危权限和敏感API库。在此基础上，分别对APK文件进行解析分析得到静态特征(高危权限特征、敏感API特征)和对APP进行动态Hook得到动态特征(动态敏感API特征、系统状态特征)，组合形成混合特征。通过对混合特征进行归一化和权重赋值处理，构建基于随机森林和Adaboost算法的混合特征组合分类器。本发明所提的基于混合特征组合分类器的Android恶意软件检测方法兼顾静态和动态特征，利用低维特征数据尽可能多的描述恶意软件的综合恶意特征，在混合特征分类检测模型下对Android恶意软件的检测具有良好效果。实验表明，本发明所提方法能显著提高恶意软件检测的准确率。

附图说明

图1Android恶意软件混合特征检测框架

图2基于混合特征分类器的恶意软件检测流程

图3十折交叉验证对比

具体实施方式

现结合实施例、附图对本发明作进一步描述：

步骤一：搭建高危权限和敏感API库

首先，基于CHI统计方法筛选高危权限。选取Android系统的所有权限作为权限集P＝{p₁,p₂,...,p_M}，对于权限p_i∈P(i＝1,2,...,M)，权限p_i的CHI值X²(p_i,K)：

其中，N＝A+B+C+D，A表示属于类别K且含有权限p_i的样本数，B表示属于类别K但不含权限p_i的样本数，C表示不属于类别K但含有权限p_i的样本数，D表示不属于类别K且不含权限p_i的样本数。

按CHI值从大到小排序，初步筛选出高危权限列表。

其次，采用层次凝聚聚类算法和K-Means聚类算法结合的方法对上述高危权限进行聚类处理，以去除权限之间的相关性。首先基于层次凝聚聚类算法进行初始聚类，然后使用K-Means聚类算法进行重定位聚类。其中，权限之间的相关性基于“皮尔逊相关系数”来衡量。

假设权限集对应的特征向量为F_per(p_i)＝{f₁,f₂,...,f_NK}(i＝1,2,...,30)，则权限p_m,p_n(m,n＝1,2,...,30)之间的皮尔逊相关系数计算如下：

其中，表示权限p_m(m＝1,2,...,30)的特征向量，/>表示权限p_n(n＝1,2,...,30)对应的特征向量，/>和/>分别表示各自的期望值。

聚类后的权限共分成14组，设为P_High-Risk＝{P₁,P₂,...,P₁₄}，其中P_i(i＝1,2,...,14)表示每一组高危权限集合，具体如表1所示。

表1聚类后的权限组

最后，本发明对敏感API函数中重载的函数进行筛选，每一组高危权限对应的API集合中只保留最具代表性的敏感API函数，最终筛选出40个敏感API，设为API_Sensitive＝{api₁,api₂,...,api₄₀}，部分API如表2所示。

表2部分敏感API

步骤二：基于反编译和动态Hook技术进行混合特征提取

首先，基于反编译技术提取静态特征，包括高危权限特征和敏感API特征。依据步骤一中筛选出来的14组高危权限P_High-Risk＝{P₁,P₂,...,P₁₄}，其中P_i(i＝1,2,...,14)表示每一组高危权限集合，设对应的静态权限特征向量为：F_APK(Per)＝{f₁,f₂,...,f₁₄}，其中f_i＝{0,1}(i＝1,2,...,14)。依据步骤一中敏感API集合API_Sensitive＝{api₁,api₂,...,api₄₀}，设静态敏感API调用特征向量为F_APK(API)＝{f₁,f₂,...,f₄₀}f_j＝{0,1}(j＝1,2,...,40)。

先使用ApkParser解析APK文件，获取AndroidManifest.xml，提取其中的权限信息列表P_apk＝{p₁,p₂,...,p_m}，对权限p_i∈P_apk(i＝1,2,...,m)，若满足则有：f_j＝1(j＝1,2,...,14)。再解压APK文件获取dex文件，使用baksmali反编译dex文件获取对应的smali文件。遍历每一个smali文件，匹配smali格式的API字符串，得到API列表API_apk＝{api₁,api₂,...,api_n}，对于api_i∈API_apk(i＝1,2,...,n)，若满足api_i∈API_Sensitive(i＝1,2,...,n)，则对应特征向量f_i＝1,(i＝1,2,...,40)。综合高危权限特征和敏感API特征，得到静态特征向量F_apk＝{f₁,f₂,...,f₁₄,...,f₅₄}。

其次，基于Xposed框架动态Hook敏感API，以提取动态特征。依据步骤三筛选出来的敏感API集合API_Sensitive＝{api₁,api₂,...,api₄₀}，设动态敏感API调用频次特征向量为F_APP(API)＝{f₁,f₂,...,f₄₀}，其中f_j＝{0,1}(j＝1,2,...,40)，动态敏感API调用时的系统状态特征向量，设为F_sys＝{f₁,f₂,f₃}。

通过部署API动态劫持插件，主动监控Android系统，若检测到有系统api_APP＝api_j∈API_Sensitive被调用，则记录本次调用的API相关信息，包括敏感API调用频次信息和系统状态信息。

综上，本发明结合步骤二中静态特征向量F_apk＝{f₁,f₂,...,f₁₄,...,f₅₄}和系统敏感API调用频次特征向量F_app＝{f₁,f₂,...,f₄₀}以及动态敏感API调用时的系统状态特征向量F_sys＝{f₁,f₂,f₃}，拼接得到混合特征如下：

F＝{F_apk,F_app,F_sys}＝{f₁,f₂,...,f₁₄,...,f₅₄,...,f₉₄,f₉₅,f₉₆,f₉₇}

其中，F_apk＝{f₁,...,f₅₄}为静态特征向量，F_app＝{f₅₅,...,f₉₄}为系统敏感API调用频次特征向量，F_sys＝{f₉₅,f₉₆,f₉₇}为动态敏感API调用时的系统状态特征向量。

步骤三：混合特征归一化和特征权重赋值处理

由于静态高危权限调用特征向量、静态敏感API调用特征向量和动态敏感API调用时的系统状态特征向量的值均在[0,1]之间，不需要处理。故只需对动态敏感API调用频次的特征向量进行归一化处理。

设动态敏感API调用频次特征向量为F_APP(API)＝{f₁,f₂,...,f₄₀}，本发明采用“离差标准化”方法进行归一化处理，即对于f_i∈F_APP(API)(i＝1,2,...,40)，其归一化函数如下所示：

其中，f_min为F_APP(API)中最小值，f_max为F_APP(API)中最大值。

对于静态特征向量F_apk＝{f₁,f₂,...,f₁₄,...,f₅₄}，本发明采用“TF-IDF”算法进行权重赋值处理。

设恶意APK样本数为N_vir，静态特征向量为F_APK＝{F_APK(Per),F_APK(API)}₅₄，其中，F_APK(Per)和F_APK(API)分别表示在步骤二中得到的静态高危权限特征向量和静态敏感API特征向量。特征元素f_k∈F_APK(k＝1,2,...,54)对应的APK样本数为N_k(k＝1,2,...,54)。则静态特征向量的权重赋值处理流程如下：

(1)计算特征元素f_k在APK样本文件d_j(j＝1,2,...,N_k)中的TF值：

其中，t_k,j表示在样本d_j中特征元素f_k特征元素出现的次数，T_k表示样本d_j中所有特征元素出现的总次数。

(2)计算特征元素f_k的IDF值：

(3)计算特征元素f_k的权重：

W_apk(k)＝TF_k,j×IDF_k

由此得到静态特征向量F_APK的权重，设为W_APK＝{w₁,w₂,...,w₅₄}。

动态敏感API调用频次特征向量F_app＝{f₅₅,...,f₉₄}的权重赋值处理通过对动态敏感API调用时的系统状态特征向量F_sys＝{f₉₅,f₉₆,f₉₇}进行处理得到。

本发明对于动态敏感API调用时的系统状态特征向量元素重要程度的判断是基于专家决策的。设f_active表示系统是否处于息屏状态，f_user表示该APP是否正在被用户操作，f_bkg表示该APP是否处于后台运行状态，则重要程度按从大到小排序为：f_active>f_user>f_bkg。

本发明采用“优序图法”计算动态敏感API调用频次特征向量元素f_k∈F_app(k＝55,56,...,94)权重的具体流程如下：

(1)根据动态敏感API调用时的系统状态特征向量元素的重要程度构建优序图如表3所示；

表3系统状态特征向量权重优序图

(2)计算优序图中每一行数据的的权重，则第i行对应的权重W_i为：

其中，w_i,j表示优序图中第i行、第j列元素值。

(3)计算动态敏感API调用频次特征向量元素f_k∈F_app(k＝55,56,...,94)对应的辅助权重：

其中，f_i∈F_sys为动态敏感API调用时的系统状态特征向量元素，W_i为f_i在“优序图”中所在行的权重。

由此得到动态敏感API调用频次特征向量F_APP的权重，设为W_APP＝{w₁,w₂,...,w₄₀}。

最后，本发明用于恶意软件检测的特征向量值计算如下：

F_final＝{F_apk,F_app}×{W_apk,W_app}＝{f₁,f₂,...,f₁₄,...,f₅₄,...,f₉₄}×{w₁,w₂,...,w₅₄,...,w₉₄}

(5)其中，F_APK为静态特征向量值，F_APP为动态敏感API调用频次特征向量值，W_APK为F_APK对应的权重，W_APP为F_APP对应的权重。

步骤四：基于混合特征分类器的检测和评价指标

本发明基于随机森林(Random Forest)算法、Adaboost算法分别构建随机森林混合特征分类器和Adaboost混合特征分类器，在此基础上构建组合分类器。

在训练时分别基于5折交叉法、10折交叉法和20折交叉法，构造不同交叉法对应的随机森林混合特征分类器和Adaboost混合特征分类器，总共得到6个混合特征分类器。由于10折交叉法通常是获得最好误差估计的恰当选择，故对于采用10折交叉法训练得到的分类器赋予权重0.3，其余的分类器赋予权重0.1。

对于需要检测的每一条混合特征，分别经过上述6个混合特征分类器检测，得到6组分类结果，对每一组分类结果按类别(良性或恶意)进行加权求和，得到最终分类结果。

本发明的评价模型基于传统机器学习评价指标来完成。具体评价指标如下：

(1)TP(True Positive)：良性应用被判定为良性应用；

(2)TN(True Negative)：恶意应用被判定为恶意应用；

(3)FP(False Positive)：恶意应用被判定为良性应用；

(4)FN(False Negative)：良性应用被判定为恶意应用；

(5)准确率ACC(Accuracy)：应用被正确分类的概率；

(6)精确率(Precision)：预测为恶意的应用中被确实为恶意应用的概率；

(7)召回率(Recall)：恶意应用被正确判定为恶意应用的概率；

本发明基于混合特征分类器的恶意软件的检测框架如图1所示，检测流程如图2所示。

步骤五：对比试验

本发明实验所用数据集分为良性APK样本数据(不含恶意软件攻击行为)和恶意APK样本数据(含恶意软件攻击行为)。其中，良性APK数据从国内外Android应用市场(豌豆荚和Google Play)下载，恶意APK数据从VirusShare和Drebin下载，去除数据不完整和内容重复的APK样本，用于实验部分的样本数据控制在1500个，足以满足本发明的实验验证要求。其中，恶意APK数量为1000个，良性APK数量为800个。

表6实验环境

本发明在保证相同软硬件条件的前提下，通过对比本发明方法和其他研究者的方法，进行如下几个对比实验来分析：

(1)在去除权限相关性上，基于只采用K-Means聚类算法去除相关性的方法构建分类器，对比本发明(采用层次聚类算法优化的K-Means算法)构建混合特征分类器。

表7采用不同算法去除权限相关性的对比分析

可以看出，本发明采用的层次聚类优化K-Means去除权限相关性方法能够比较好的提升分类检测效果。

(2)针对单特征提取方法，对于本发明的混合特征，就其中的静态特征和动态特征分别构建基于静态特征的分类器和基于动态特征的分类器，来对比本发明提出的基于动静混合特征的分类器。

表8提取不同特征的对比分析

可以看出，本发明基于动静混合特征构建的分类器能够有效提高分类检测的准确率。

(3)针对本发明构建的组合分类器，通过分别构建随机森林和Adaboost单分类器进行对比。

表9采用不同分类器的对比分析

可以看出，本发明构建的组合分类器较单一混合特征分类器而言，可以有效提高分类的精度。

最后，本发明对上述对比实验采用5次、10次、15次和20次十折交叉验证法，对检测准确率ACC分别取平均值，生成图3所示的对比图

可以看出，本发明提出的方法，即在高危权限和敏感API库基础上，分别提取静态和动态特征，组合形成混合特征，最后基于混合特征构建组合分类器，能够有效提升Android恶意软件检测的准确率、精确率和召回率。

Claims

1.一种基于混合特征组合分类的Android系统恶意软件检测方法，其特征在于步骤如下：

步骤1：构建Android高危权限和敏感API库

其中，表示权限p_m(m＝1,2,...,30)的特征向量，/>表示权限p_n(n＝1,2,...,30)对应的特征向量，和/>分别表示各自的期望值；

步骤2：基于反编译和动态Hook技术进行混合特征提取

步骤3：混合特征归一化和特征权重赋值处理

对于静态特征向量，即高危权限调用特征和敏感API调用特征，采用TF-IDF算法进行赋权处理；

(1)计算特征元素f_k在APK样本文件d_j,(j＝1,2,...,N_k)中的TF值：

(2)计算特征元素f_k的IDF值：

(3)计算特征元素f_k的权重：

W_apk(k)＝TF_k,j×IDF_k

对于系统状态特征向量元素重要程度的判断是基于专家决策的，其重要程度按从大到小排序为：f_active＞f_user＞f_bkg，采用优序图法来计算权重；具体流程如下：

(1)根据重要程序构建优序图如表3所示；

表3系统状态特征向量权重优序图

(2)计算优序图中第i行元素权重：

其中，w_i,j表示优序图中第i行、第j列元素值；

(3)计算api_k对应的辅助权重：

W_APP(api_k)＝∑f(i)×W_f(i),(f(i)∈F_API)

(4)计算api_k对应的最终权重值；

步骤4：基于混合特征分类器的恶意软件检测和评价分析

采用C/S模式，静态分析包括：高危权限和敏感API库搭建、静态特征提取、特征值处理和分类器分类分析在服务端完成；动态分析中，动态特征提取在客户端完成，特征值处理和分类器分类分析在服务端完成；

基于随机森林RandomForest算法、Adaboost算法分别构建随机森林混合特征分类器和Adaboost混合特征分类器，在此基础上构建组合分类器；

2.根据权利要求1所述的一种基于混合特征组合分类的Android系统恶意软件检测方法，其特征在于步骤1中所述的若干为30个。