CN106599688B

CN106599688B - 一种基于应用类别的安卓恶意软件检测方法

Info

Publication number: CN106599688B
Application number: CN201611123792.7A
Authority: CN
Inventors: 赵兴文; 林佳萍; 李晖; 李代琛
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2019-07-12
Anticipated expiration: 2036-12-08
Also published as: CN106599688A

Abstract

本发明公开了一种基于应用类别的安卓恶意软件检测方法，该方法包括以下步骤：特征提取阶段；危险权重赋予阶段；基于类别的危险值计算阶段；机器学习分类阶段；加入新特征新样本阶段。本发明采集所有静态特征和动态特征；基于特征的类别，计算每类的危险值；基于应用的类别，计算每类特征的危险值；应用kNN算法对应用进行分类，对该算法进行优化，提高准确率。

Description

一种基于应用类别的安卓恶意软件检测方法

技术领域

本发明属于通信技术领域，具体地说，涉及一种基于应用类别的安卓恶意软件检测方法。

背景技术

随着移动通信技术的发展，智能手机在当今社会流行起来，人们开始通过手机来进行社交和娱乐活动，然而安装在手机上的恶意软件数量激增，给用户带来了极大的威胁。据统计，在全球智能手机中安卓手机占83.6％，但是在移动平台中，有高达91.1％的恶意软件来自安卓系统。中国手机病毒增长超过400％，移动智能终端的安全威胁已经不亚于传统电脑。

安卓手机的安全问题日益突出。智能手机有丰富的功能，用户可以自行添加各种软件，安卓系统本身的开放性为恶意软件的生存提供了环境。由于移动应用商店没有准确的安全准则，大量的恶意应用程序可以轻松从应用商店下载。用户安装的软件很可能具有恶意行为而不被用户察觉。恶意软件以破坏系统，隐私窃取，恶意扣费，耗费流量为目的，主要分为木马，后门，蠕虫，僵尸网络，攻击性广告，间谍软件。目前恶意软件采用的技术为重新打包流行的应用程序；伪装成正常软件，哄骗用户下载安装；嵌入恶意代码；隐身技术等。

目前的静态检测恶意软件工具有Androguard，apktool，Dex2Jar等。目前的静态检测方法为基于权限，基于签名，基于组件和字节码分析。动态检测动态检测工具有Droidbox,TaintDroid等。静态检测在程序运行之前执行，动态检测在程序运行过程中执行。静态检测分析源代码，但是准确率较低。动态检测在沙盒中执行程序，只能根据软件运行时的行为来判断是否为恶意软件，不能分析源代码。

静态检测和动态检测各有优缺点，如果只采用静态或动态方法的一种，对应用的分析不够全面，还存在检测率低的缺陷。

发明内容

本发明的目的在于克服现有技术中存在的缺陷，提供一种基于应用类别的安卓恶意软件检测方法，将采用混合检测方法，包括静态检测和动态检测。混合方法包含了静态和动态的所有特征，经过分析能得到应用的恶意程度。现有的检测技术并没有将程序所属的类别纳入考虑范围内，这在很大程度上影响了检测的准确性，使检测粒度较粗。比如读取联系人和账户信息，对于壁纸类的应用是不正常的，而对于财经类的应用是正常的。基于应用类别能将正常应用和恶意应用更清晰的分开，从而降低了恶意软件检测的误判率。

其具体技术方案为：

一种基于应用类别的安卓恶意软件检测方法，包括以下步骤：

步骤1、特征提取阶段

在电脑中安装ubuntu系统，对应用进行反编译，从AndroidManifest.xml中提取权限，从META-INF中提取签名，使用dex2jar和JD-GUI把class.dex转换为应用的源代码，通过Droidbox和测试机分析程序运行时的行为；

步骤2、危险权重赋予阶段

根据每类行为特征不同的危险水平，赋予不同的危险权重；权重为0.5的是交互类，特别危险类，网络活动类和信息泄露类这几类行为特征；交互类特征被用来和其他手机或网页进行信息交换，如果应用不包含该类，那么其他类特征就不会构成威胁，所以交互类特征危险程度最高；动态特征中，网络活动包括打开连接和流量进出，信息泄露类可能泄露用户的隐私信息，给用户带来难以预估的危害；

权重为0.4的是控制类，系统类，源代码类和签名类这几类行为特征；控制类和系统类控制了手机系统的权限和活动，比花费类和隐私类更加危险；通过源代码，分析是否包含恶意的包和类；通过签名，可以判断应用是否来自某个恶意软件家族；

权重为0.3的是花费类，隐私类和文件类；权重为0.2的是新特征类，单特征类；

步骤3、基于类别的危险值计算阶段

对于每一个应用软件来说，用来实现其应用功能的行为特征是正常的，不是实现其功能的特征可能是恶意的；在第二步的基础上，根据应用的类别，把实现正常功能的特征赋予权重0.1；将不是实现正常功能的危险权限赋予权重值为1；计算每类特征的危险值总和，再计算整个应用的危险值总和；

步骤4、机器学习分类阶段

将一个应用的每类危险值放到数组中，作为测试集和样本集；在样本集中，将相似度特别大的点删除其中一个，采用各种危险值从小到大不同的大量样本，同时使样本分布均匀；使用k-means算法，使样本集产生聚类中心；对样本集进行优化有利于减少误判率；计算测试集中的数据和聚类中心的距离，找到最近的聚类中心；然后使用knn算法，计算测试集中数据与聚类中心周围的点的距离，找到最近的k个点；这k个点的标签中，如果标签是恶意软件的点比标签是正常软件的点多，那么测试集中的应用是恶意软件；如果标签是正常软件的点比标签是恶意软件的点多，那么测试集中的应用是正常软件；

步骤5、加入新特征新样本阶段

重复上述过程，将应用的新特征和应用的危险值，加入样本集数据库，为下次的应用软件检测作样本。

与现有技术相比，本发明的有益效果：

一、基于特征类别赋予权重，再基于应用类别计算危险值，可判断出应用的恶意程度。

二、使用静态检测和动态检测，包含权限，签名，行为，让恶意软件难以逃避检测。

三、使用k-means算法对样本进行聚类，使用k最近邻算法即kNN算法判断应用的类别，有利于提高检测的准确率。

附图说明

图1是Apk软件源代码静态特征提取和软件行为动态特征检测示意图；

图2是基于应用类别的Apk恶意软件动静态结合检测分析流程图。

具体实施方式

下面结合附图和具体实施方案对本发明的技术方案作进一步详细地说明。

步骤1、特征提取阶段

在电脑中安装ubuntu系统，对应用进行反编译，从AndroidManifest.xml中提取权限，从META-INF中提取签名，使用dex2jar和JD-GUI把class.dex转换为应用的源代码，通过Droidbox和测试机分析程序运行时的行为；如图1所示。

步骤2、危险权重赋予阶段

根据每类行为特征不同的危险水平，赋予不同的危险权重；如表1所示。

权重为0.5的是交互类，特别危险类，网络活动类和信息泄露类这几类行为特征。交互类特征被用来和其他手机或网页进行信息交换，如果应用不包含该类，那么其他类特征就不会构成威胁，所以交互类特征危险程度最高。有一些特别危险的权限，比如重启和关机，还有一些权限总是出现在恶意软件中而很少出现在正常软件中，比如重打包，这些权限的危险程度也很高。动态特征中，网络活动包括打开连接和流量进出，信息泄露类可能泄露用户的隐私信息，给用户带来难以预估的危害。

权重为0.4的是控制类，系统类，源代码类和签名类这几类行为特征。控制类和系统类控制了手机系统的权限和活动，所以比花费类和隐私类更加危险。通过源代码，我们可以分析是否包含恶意的包和类。通过签名，可以判断应用是否来自某个恶意软件家族。

权重为0.3的是花费类，隐私类和文件类行为特征。权重为0.2的是新特征类，单特征类。

表1

步骤3、基于类别的危险值计算阶段

对于每一个应用软件来说，来实现应用功能的行为特征是正常的，不是实现其功能的特征可能是恶意的。在第二步的基础上，根据应用的类别，把实现正常功能的特征赋予权重0.1；将不是实现正常功能的危险权限赋予权重值为1。计算每类特征的危险值总和，再计算整个应用的危险值总和；

步骤4、机器学习分类阶段

将一个应用的每类危险值放到数组中，作为测试集和样本集。在样本集中，将相似度特别大的点删除其中一个，采用各种危险值从小到大不同的大量样本，同时使样本分布均匀。使用k-means算法，使样本集产生聚类中心。对样本集进行优化有利于减少误判率。计算测试集中的数据和聚类中心的距离，找到最近的聚类中心。然后使用k最近邻算法即kNN算法，计算测试集中数据与聚类中心周围的点的距离，找到最近的k个点。这k个点的标签中，如果标签是恶意软件的点比标签是正常软件的点多，那么测试集中的应用是恶意软件；如果标签是正常软件的点比标签是恶意软件的点多，那么测试集中的应用是正常软件。如图2所示。

步骤5、加入新特征新样本阶段

本发明实现过程为：采集所有静态特征和动态特征；基于特征的类别，计算每类的危险值；基于应用的类别，计算每类特征的危险值；应用kNN算法对应用进行分类，对该算法进行优化，提高准确率。

以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围不限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims

1.一种基于应用类别的安卓恶意软件检测方法，其特征在于，包括以下步骤：

步骤1、特征提取阶段

步骤2、危险权重赋予阶段

根据每类行为特征不同的危险水平，赋予不同的危险权重；权重为0.5的是交互类，特别危险类，网络活动类和信息泄露类这几类行为特征；交互类特征被用来和其他手机或网页进行信息交换，如果应用不包含该类，那么其他类特征就不会构成威胁，所以交互类特征危险程度最高；动态特征中，网络活动包括打开连接和流量进出，信息泄露类可能泄露用户的隐私信息，给用户带来难以预估的危害；特别危险类行为包括重启、关机和重打包；

权重为0.3的是花费类，隐私类和文件类行为特征；权重为0.2的是新特征类，单特征类；

步骤3、基于类别的危险值计算阶段

对于每一个应用软件来说，来实现应用功能的行为特征是正常的，不是实现其功能的特征可能是恶意的；在第二步的基础上，根据应用的类别，把实现正常功能的特征赋予权重0.1；将不是实现正常功能的危险权限赋予权重值为1；计算每类特征的危险值总和，再计算整个应用的危险值总和；

步骤4、机器学习分类阶段

步骤5、加入新特征新样本阶段