CN113343242A

CN113343242A - 一种恶意Android应用在线检测方法及装置

Info

Publication number: CN113343242A
Application number: CN202110845557.5A
Authority: CN
Inventors: 潘建文; 崔展齐
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-09-03

Abstract

本发明公开了一种恶意Android应用在线检测方法及装置，其中方法包括：步骤1：构建应用数据集；步骤2：提取所述应用数据集包含的静态特征，并对所述静态特征进行特征选择，得到特征子集；步骤3：将所述特征子集输入所述增量学习算法中，训练增量学习模型进行恶意应用检测；本发明基于移动应用市场检测场景，实现有效并且快速的恶意Android应用在线检测方法。

Description

一种恶意Android应用在线检测方法及装置

技术领域

本发明涉及恶意软件检测技术领域，更具体的说是涉及一种恶意Android应用在线检测方法及装置。

背景技术

目前，随着智能手机和移动设备的快速发展，Android平台服务已经成为大部分网络用户不可或缺的要素，与此同时，移动恶意软件也快速增长成为威胁网络安全和隐私的重要源头。

但是，现有的恶意Android应用检测技术主要有动态检测和静态检测两种方法，其中在线检测场景中使用静态检测存在以下问题：新增待检测应用中良性应用和恶意应用类别分布不平衡；静态分析提取的特征数量庞大，模型训练效率低；新应用样本不断增多，为保证模型检测准确率，模型不断重新更新，消耗大量时间和计算机算力。

因此，如何提供一种能够解决上述问题的恶意Android应用在线检测方法是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种恶意Android应用在线检测方法及装置，基于移动应用市场检测场景，实现有效并且快速的恶意Android应用在线检测方法。

为了实现上述目的，本发明采用如下技术方案：

一种恶意Android应用在线检测方法，包括：

步骤1：构建应用数据集；

步骤2：提取所述应用数据集包含的静态特征，并对所述静态特征进行特征选择，得到特征子集；

步骤3：将所述特征子集输入增量学习算法中，训练增量学习模型进行恶意应用检测。

优选的，步骤2具体包括：

步骤21：遍历所述应用数据集，提取所述应用数据集中的静态特征；

步骤22：计算所述静态特征对应的Droid-TF-IDF值；

步骤23：分别将所述静态特征按Droid-TF-IDF值降序排序，形成特征集，选择所述Droid-TF-IDF值前k个排名对应的所述静态特征作为特征子集。

优选的，还包括步骤4：实时检测新增应用数据集，利用所述增量学习模型对所述新增应用数据集进行恶意应用检测，并更新模型。

优选的，所述步骤3具体包括：

步骤31：输入初始训练集，对所述初始训练集提取对应的静态特征；

步骤32：将所述特征作为所述增量学习算法的输入，设置恶意应用标签为0，良性应用为1，利用增量学习算法训练所述增量学习模型，并保存训练好的模型。

优选的，所述步骤4具体包括：

步骤41：使用所述增量学习模型检测输入的新增量样本集，并对所述新增量样本集设置标签；

步骤42：将经过所述步骤41处理的所述新增量样本集输入到增量学习模型中进行再训练，实现模型增量更新；

步骤43：多次执行所述步骤42和所述步骤43，直到没有待检测样本时停止检测。

优选的，所述步骤1具体包括：

步骤11：输入应用集，判断所述应用集中的一个应用是否为恶意应用；

步骤12：若是恶意应用，提取所述应用的所有权限，若是良性应用则将该应用加入良性应用集合；

步骤13：遍历所述应用的所有权限，对所述权限进行分组，形成敏感权限组；

步骤14：选择任意一个敏感权限组，对应生成多个恶意应用，并将其加入恶意应用集合；步骤15：统计恶意应用集合和良性应用集合数量，计算两者的比例，利用随机欠采样方法按比例删除良性应用，使样本类别均衡，结合恶意应用数据集和良性应用数据集形成新的应用数据集。

进一步，本发明提供一种恶意Android应用在线检测装置，包括：

应用数据构建模块，所述应用数据构建模块用于构建应用数据集；

应用特征选择模块，所述特征选择模块用于对所述应用数据集进行提取特征，选择Droid-TF-IDF值排名前k个特征作为特征子集；

应用检测模块，所述应用检测模块用于利用增量学习模型对恶意应用进行检测。

优选的，还包括：增量应用构建模块，所述增量应用构建模块与所述应用检测模块连接，所述增量应用构建模块用于输入的增量样本集进行构建，并增量更新模型。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种恶意Android应用在线检测方法及装置，针对样本类别不平衡的问题构建数据集，为增量学习模型提供数据样本；然后，针对特征维度灾难的问题，采用静态分析方法提取特征，对特征进行特征选择；最后，针对新样本数据持续增加模型频繁重新更新的问题，使用增量学习算法构造模型分类器检测恶意应用；

针对恶意Android应用在线场景随着Android操作系统版本变化和恶意应用更新，导致检测准确率变低，多次重新构建模型又会消耗大量时间和计算机算力的问题，本发明基于移动应用市场检测场景，实现有效并且快速的恶意Android应用在线检测方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的一种恶意Android应用在线检测方法流程图；

图2附图为本发明实施例提供的构建应用数据集流程图；

图3附图为本发明实施例提供的得到特征子集流程图；

图4附图为本发明实施例提供的新增应用数据集检测流程图；

图5附图为本发明提供的一种恶意Android应用在线检测装置结构原理框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1所示，本发明实施例公开了一种恶意Android应用在线检测方法，包括：

步骤1：构建应用数据集；

其中，在机器学习算法中，其中一部分算法可以进行增量学习，在学习新知识的同时保留原有的知识，这些算法称为增量学习算法，训练出的模型就是增量学习模型，在模型训练过程中，模型学习到新知识的同时自行实现增量更新。

在一个具体的实施例中，还包括步骤4：实时检测新增应用数据集，利用增量学习模型对新增应用数据集进行恶意应用检测，并更新增量学习模型。

参见附图2所示，在一个具体的实施例中，步骤1具体包括：

步骤11：输入应用集T＝{t₁,t₂,t₁,...}，判断应用集T中的一个应用t_i是否为恶意应用；

步骤12：若是恶意应用，提取该应用的所有权限P＝{p_i,1,p_i,2,p_i,3,...p_i,x}，p_i代表t_i包含x个权限的集合；若是良性应用则将t_i加入恶意应用集合T_b；

步骤13：遍历该应用的所有权限，权限和权限组的对应关系可以如表1所示，对权限p_i进行分组，形成敏感权限组G_i＝{G_i,1,G_i,2,G_i,3,...G_i,x}；

步骤14：该权限组中拥有权限数为G_i,j，该权限组中拥有权限数为n(1≤n≤5)生成该权限组中所有权限的组合，共有2ⁿ-1种权限组合

逐一使用权限组合中的每个权限组合

替换中属于G_i,j的权限，以生成新的恶意应用

该权限组合生成扩增恶意应用

成为扩增恶意应用集合T_m；

步骤15：统计T_m和T_b的数量，计算两者的比例，利用随机欠采样方法按比例从T_b中删除部分良性应用，使样本类别均衡，将T_m和T_b合并，形成应用数据集T'。

表1部分权限和权限组对应关系表

参见附图3所示，在一个具体的实施例中，步骤2具体包括：

步骤21：遍历应用数据集T'，提取T'中每个应用t_i的静态特征，其中静态特征可以包括权限、API和操作码3类。

具体的，对应用进行静态分析提取特征，APK文件由APKBuilder合成，使用Apktool对其进行反编译，可得到*.smali、AndroidManifest.xml、res、META-INF和lib库等文件，然后从AndroidManifest.xml文件中提取应用权限特征，在*.smali文件中提取API和操作码特征。

步骤22：分别计算静态特征对应的Droid-TF-IDF值，在应用集合T'中，|T'|为全部应用数量，应用t_i中的权限特征集为P(t_i)，则：

T'_pw＝{t_i|t_i∈T'∧p_w∈P(t_i)}T'_pw＝{t_i|t_i∈T'∧p_w∈P(t_i)}

式中，|T'_pw|为出现权限特征p_w的应用数量，权限特征p_w在应用t_i中出现Count(p_w,p(t_i))次，则该权限特征p_w的TF-IDF值计算结果如下式所示：

计算该权限特征在良性应用集合和恶意应用集合中的TF-IDF平均值，为

和

该特征的Droid-TF-IDF值计算如以下公式所示：

API和操作码特征的Droid-TF-IDF值计算方法与权限特征类似。

步骤23：分别将3类特征按Droid-TF-IDF值降序排序，形成特征集合，选择Droid-TF-IDF值排名前k个特征作为特征子集。

参见附图4所示，在一个具体的实施例中，步骤3具体包括：

步骤31：输入初始训练集，对初始训练集提取对应的静态特征；

其中，增量学习模型是现有算法训练出的模型。

在一个具体的实施例中，步骤4具体包括：

步骤41：使用所述增量学习模型检测输入的增量样本集，并对所述增量样本集设置标签，其中设置标签的方法与步骤32的过程一致，利用步骤11-15的方法再构建成新的增量样本集；

步骤42：将经过步骤41处理的增量样本集输入到增量学习模型中进行再训练，实现模型增量更新；

步骤43：多次执行步骤42和步骤43，直到没有待检测样本时停止检测。

进一步，参见附图5所示，本发明实施例还提供一种恶意Android应用在线检测装置，包括：

应用数据构建模块，应用数据构建模块用于构建应用数据集；

应用特征选择模块，特征选择模块用于对应用数据集提取特征，并选择Droid-TF-IDF值排名前k个特征作为特征子集；

应用检测模块，应用检测模块用于对特征子集进行检测。

在一个具体的实施例中，还包括：

增量应用构建模块，增量应用构建模块与应用检测模块连接，增量应用构建模块用于对输入的增量样本集构建新增量样本数据集，并增量更新模型。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种恶意Android应用在线检测方法，其特征在于，包括：

步骤1：构建应用数据集；

2.根据权利要求1所述的一种恶意Android应用在线检测方法，其特征在于，步骤2具体包括：

步骤22：计算所述静态特征对应的Droid-TF-IDF值；

步骤23：分别将所述静态特征按Droid-TF-IDF值降序排序，形成特征集合，选择所述Droid-TF-IDF值前k个排名对应的所述静态特征作为特征子集。

3.根据权利要求1所述的一种恶意Android应用在线检测方法，其特征在于，还包括步骤4：实时检测新增应用数据集，利用所述增量学习模型对所述新增应用数据集进行恶意应用检测，并增量更新模型。

4.根据权利要求3所述的一种恶意Android应用在线检测方法，其特征在于，步骤3具体包括：

5.根据权利要求4所述的一种恶意Android应用在线检测方法，其特征在于，所述步骤4具体包括：

步骤41：使用增量学习模型检测输入的新增量样本集，并对所述新增量样本集设置标签；

6.根据权利要求1所述的一种恶意Android应用在线检测方法，其特征在于，步骤1具体包括：

步骤14：选择任意一个敏感权限组，对应生成多个恶意应用，并将生成的恶意应用加入恶意应用集合；

步骤15：统计恶意应用集合和良性应用集合的数量，计算两者的比例，利用随机欠采样方法按比例删除良性应用，使样本类别均衡，结合恶意应用数据集和良性应用数据集形成对应新的应用数据集。

7.一种恶意Android应用在线检测装置，其特征在于，包括：

应用特征选择模块，所述特征选择模块用于对所述应用数据集进行提取特征，并选择Droid-TF-IDF值排名前k个特征作为特征子集；

应用检测模块，所述应用检测模块用于对所述特征子集进行检测。

8.根据权利要求7所述的一种恶意Android应用在线检测装置，其特征在于，还包括：

增量应用构建模块，所述增量应用构建模块与所述应用检测模块连接，所述增量应用构建模块用于对输入的增量样本集进行构建，并增量更新模型。