CN110858247A - 安卓恶意应用检测方法、系统、设备及存储介质 - Google Patents

安卓恶意应用检测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN110858247A
CN110858247A CN201810965646.1A CN201810965646A CN110858247A CN 110858247 A CN110858247 A CN 110858247A CN 201810965646 A CN201810965646 A CN 201810965646A CN 110858247 A CN110858247 A CN 110858247A
Authority
CN
China
Prior art keywords
application
malicious
tested
specified
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810965646.1A
Other languages
English (en)
Inventor
吴琼
南世慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810965646.1A priority Critical patent/CN110858247A/zh
Publication of CN110858247A publication Critical patent/CN110858247A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/53Decompilation; Disassembly
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种安卓恶意应用检测方法、系统、设备及存储介质,所述方法包括:提取待测应用的指定标识数据,于基础数据库中查找与该指定标识数据对应的记录;如果基础数据库中不存在该指定标识数据对应的记录,则提取待测应用的指定静态数据,输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用。本发明结合基础数据库的预先判断和机器学习,首先根据基础数据库进行预先判断应用是否为恶意应用,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率。

Description

安卓恶意应用检测方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种安卓恶意应用检测方法、系统、设备及存储介质。
背景技术
随着科技不断发展,互联网的不断普及,移动互联时代带来了移动设备的爆发,同时便利了日常生活。由于Android(安卓)开源环境和APP发布流程的简单便捷,引来不少Android应用爱好者,从而产生了海量的Android应用涌入Android应用市场,其中不乏存有恶意的黑色产业开发者,导致各种木马等恶意应用层出不穷。黑产开发者开发的恶意应用可能包括大量恶意行为,例如资费消耗、诱骗欺诈、恶意扣费、隐私窃取、恶意传播等等,还可能泄露用户隐私,导致不可挽回的损失,降低了用户的使用体验。因此,迫切需要一种方法,能够准确鉴别应用是否为恶意应用。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种安卓恶意应用检测方法、系统、设备及存储介质,结合基础数据库的预先判断和多维度的机器学习,提高了安卓恶意应用检测的准确率和效率。
本发明实施例提供一种安卓恶意应用检测方法,所述方法包括如下步骤:
提取待测应用的指定标识数据,于基础数据库中查找与该指定标识数据对应的记录,所述基础数据库包括各个已知的指定标识数据是否对应于恶意应用的记录;
如果基础数据库中不存在与该指定标识数据对应的记录,则提取待测应用的指定静态数据,输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
可选地,所述于基础数据库中查找与该指定标识数据对应的记录之后,还包括如下步骤:
如果基础数据库中存在该指定标识数据对应的记录,则根据该对应的记录判断该待测应用是否为恶意应用。
可选地,所述根据应用识别模型的输出确定该待测应用是否为恶意应用之后,还包括如下步骤:
将该待测应用的指定标识数据和是否为恶意应用的判断结果存储于所述基础数据库。
可选地,所述基础数据库包括黑名单数据库和白名单数据库,所述黑名单数据库中存储有已知恶意应用的指定标识数据,所述白名单数据库中存储有已知非恶意应用的指定标识数据;
所述根据该对应的记录确定该待测应用是否为恶意应用,包括如下步骤:
判断该待测应用的指定标识数据存在于所述黑名单数据库还是白名单数据库;
如果存在于所述黑名单数据库,则该待测应用为恶意应用;
如果存在于所述白名单数据库,则该待测应用为非恶意应用。
可选地,根据该对应的记录或应用识别模型的输出判断该待测应用是否为恶意应用之后,还包括如下步骤:
将该待测应用的指定静态数据和恶意应用判断结果加入训练集;
采用所述训练集重新训练所述应用识别模型。
可选地,所述采用所述训练集重新训练所述应用识别模型,包括如下步骤:
采用所述训练集训练得到多种机器学习模型,所述机器学习模型的输入为指定静态数据,输出为恶意应用判断结果;
采用测试集测试训练得到的多种机器学习模型的识别准确率;
选择识别准确率最高的一种机器学习模型,作为应用识别模型。
可选地,所述待测应用的指定标识数据包括待测应用的包名、进程名和数字签名中的至少一种或其组合。
可选地,所述待测应用的指定静态数据包括一多维度的静态数据数组,所述静态数据数组中各个维度对应于一个静态指标或多个静态指标的组合。
可选地,所述静态指标包括权限信息指定特征、组件信息指定特征、调用信息指定特征、Native信息指定特征和漏洞信息指定特征中的至少一种或其组合。
可选地,所述提取待测应用的指定标识数据,包括对待测应用进行反编译得到指定标识数据;
所述提取待测应用的指定静态数据,包括如下步骤:
对待测应用进行反编译得到java文件或smali文件,以及从所述java文件或smali文件中提取所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征的对应数据;
对待测应用进行漏洞扫描,得到漏洞信息指定特征的对应数据;
将所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征和漏洞信息指定特征的对应数据组合得到所述静态数据数组。
本发明实施例还提供一种安卓恶意应用检测系统,应用于所述的安卓恶意应用检测方法,所述系统包括:
基础数据库,用于存储各个已知的指定标识数据是否对应于恶意应用的记录;
数据提取模块,用于提取待测应用的指定标识数据和指定静态数据;
数据库查询模块,用于在基础数据库中查找与该指定标识数据对应的记录;以及
模型识别模块,用于当基础数据库中不存在待测应用的指定标识数据的记录时,将待测应用的指定静态数据输入至应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
可选地,所述系统还包括模型训练模块,用于将判断得到是否为恶意应用的待测应用的指定静态数据和恶意应用判断结果加入训练集,以及采用所述训练集训练所述应用识别模型。
本发明实施例还提供一种安卓恶意应用检测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的安卓恶意应用检测方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的安卓恶意应用检测方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的安卓恶意应用检测方法、系统、设备及存储介质具有下列优点:
本发明结合基础数据库的预先判断和机器学习,首先根据基础数据库进行预先判断应用是否为恶意应用,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率;进一步采用多维度的训练集训练应用识别模型,在原有的权限、组件等维度的基础上,增加了Native信息和漏洞信息的维度,避免了现有的单一维度训练和识别的不合理造成的误报和漏报。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明的安卓恶意应用检测方法的流程图;
图2是本发明一实施例的安卓恶意应用检测方法的流程图;
图3是本发明一实施例的增加更新基础数据库的安卓恶意应用检测方法的流程图;
图4是本发明一实施例的训练应用识别模型的流程图;
图5是本发明一实施例的安卓恶意应用检测系统的结构示意图;
图6是本发明一实施例的安卓恶意应用检测设备的结构示意图;
图7是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明提供一种安卓恶意应用检测方法,包括如下步骤:
S110:提取待测应用的指定标识数据;
S120:于基础数据库中查找与该指定标识数据对应的记录,所述基础数据库包括各个已知的指定标识数据是否对应于恶意应用的记录;
S130:提取待测应用的指定静态数据;
S140:将提取的指定静态数据输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
因此,本发明结合基础数据库的预先判断和机器学习,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率。
如图2所示,为本发明一实施例的安卓恶意应用检测方法,在该实施例中,所述方法包括如下步骤:
S110:提取待测应用的指定标识数据;
S121:判断基础数据库中是否存在该指定标识数据对应的记录,如果是,则继续步骤S122,否则继续步骤S130,所述基础数据库包括各个已知的指定标识数据是否对应于恶意应用的记录;
S122:根据该对应的记录判断该待测应用是否为恶意应用;
S130:提取待测应用的指定静态数据,然后继续步骤S140;
S140:将提取的指定静态数据输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
因此,本发明结合基础数据库的预先判断和机器学习,首先根据基础数据库进行预先判断应用是否为恶意应用,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率。
在该实施例中,所述提取待测应用的指定标识数据,包括对待测应用进行反编译得到指定标识数据;所述待测应用的指定标识数据包括待测应用的包名、进程名和数字签名中的至少一种或其组合,数字签名可以为Sha1或MD5签名。此处反编译可以采用Aapt2等工具直接进行反编译,得到待测应用的指定标识数据即可,也可以采用其他的现有反编译工具。
现有的方案中,也出现了一些采用静态数据分析判断是否为恶意应用的方法,主要有如下几个方向:
方案一:通过对Android应用使用到的权限,进行静态分析。Android反编译最容易获得的就是AndroidManifest.xml文件,通过AndroidManifest.xml文件能获得APP使用到的全部权限,权限可以划分为危险权限和普通权限,通过大量样本进行机器学习,训练出模型,鉴别APP是否为恶意。
方案二:通过对activity等组件信息和函数调用信息,进行静态分析。组件信息在AndroidManifest.xml文件中可以获取。调用关系可以通过反编译工具jadx,apktool等收集到,其中包括smali和Java两种形式。通过大量样本进行机器学习,训练出模型,鉴别APP是否为恶意。
方案三:通过对权限组合,activity等组件信息,使用到的native层代码的占比,进行静态分析。方案一、二已经明确了权限和activity等组件信息的获取方法,应用native代码占比也可以通过反编译获取后计算。通过大量样本进行机器学习,训练出模型,鉴别APP是否为恶意。
上述三种方案存在如下一些缺陷:
现有技术也存在不足和缺陷:
(1)单方面通过权限维度定义恶意应用,维度太过单一,可靠程度不高。
(2)权限、activity和api(接口)调用等信息在Android反编译方面都很容易获得,虽然应用会在一定程度上进行加壳或者其他防反编译手段,但是最终也会被破解,activity等信息和权限一样存在单一性,同时大量的函数调用通用性不高。
(3)基于现在开发者对攻防的重视,大部分Android开发者开始把Android编码逻辑下移,把重要的信息下移到Native层进行处理,增加了程序的破解难度。由于绿色应用Native层占比不断提高,已有Native占比方案中得出的结论是恶意应用Native占比大于正常应用,明显可靠性已经不高。
(4)由于应用编写过程中的不够规范,程序会存在多种多样的漏洞,如果存在严重漏洞,程序潜在的危险就会被放大。基于上述原因,导致黑产者开发者会对应用者产生潜在威胁。已有技术方案忽略了应用本身的漏洞,如果原本绿色安全的APP,存在严重漏洞,那么这个APP就可能成为恶意APP的僵尸程序,带来的威胁不亚于恶意APP,分析过程中不能忽略这类隐藏的威胁。另外黑产开发者不会在意开发规范,黑产应用一般有漏洞存在,所以漏洞可以作为分析过程中的重要特征信息。
为了解决现有技术中的技术问题,在该实施例中,所述待测应用的指定静态数据包括一多维度的静态数据数组,所述静态数据数组中各个维度对应于一个静态指标或多个静态指标的组合。其中,所述静态指标包括权限信息指定特征、组件信息指定特征、调用信息指定特征、Native信息指定特征和漏洞信息指定特征中的至少一种或其组合。
本发明通过采用多维度的静态数据组合进行机器学习,对特征的维度进行了拓宽,结合权限特征、组件特征、调用特征、Native特征和漏洞特征组成特征集合得到多维度的静态数据数组,形成以静态数据数组为元素的特征数据集合,采用特征数据集合进行训练,得到更为准确的应用识别模型,提高恶意应用识别的准确率,减少漏判和误判。
下面分别对各种不同的静态指标进行介绍:
(1)权限信息具体特征
权限信息特征主要包括危险权限和普通权限。
(1.1)危险权限:例如,日程表相关权限,联系人相关权限,位置相关权限,Phone相关权限等;
(1.2)普通权限:例如,允许一个程序广播常用intents,设置壁纸建议,使用振动,唤醒锁定等;
(2)组件信息具体特征
例如:Activity组件特征,receiver组件特征,service组件特征,provide组件特征,intent-filter组件特征等;
(3)调用信息具体特征
调用信息特征主要提取偏重黑产方向,例如包括:系统外观的变化,获取唤醒锁,位置追踪,查询手机位置(GPS),操作系统销毁,在相同的上下文中列出和删除文件,垃圾邮件,不需要的广告和赎回要求,有权在后台执行电话等等;
(4)Native信息具体特征:Native信息特征主要针对黑产方向,例如包括:执行系统命令,修改操作权限,修改分组信息,获取IMEI等等;
(5)漏洞信息具体特征:漏洞信息特征主要针对黑产方向,例如包括:组件安全,Webview安全,客户端存储安全等等。
在该实施例中,所述提取待测应用的指定静态数据,包括如下步骤:
对待测应用进行反编译得到java文件或smali文件,以及从所述java文件或smali文件中提取所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征的对应数据;此处反编译可以采用Jadx得到java文件或采用Apktool得到smali文件,也可以采用其他的现有的反编译工具,对待测应用进行反编译得到对应的文件,能够提取出对应的静态数据即可;
对待测应用进行漏洞扫描,得到漏洞信息指定特征的对应数据,此处漏洞扫描可以采用现有的一些漏洞扫描工具,得到对应的漏洞特征数据;
将所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征和漏洞信息指定特征的对应数据组合得到所述静态数据数组。
在静态数据组合时,可以根据预先设定的维度进行组合得到静态数据数组。静态数据数组可以包括很多个不同的维度,各个维度可以对应于一个静态指标,一个维度对应于多个静态指标的组合。
例如,在权限特征中,对于比较危险的权限,一个静态指标即可以构成一个维度。例如读取日程表相关权限,可以将该静态指标作为一个维度,该维度对应的数据值即为读取日程表相关权限的数据。而其他一些权限,则可以跟其他的静态指标进行组合形成一个维度。例如,对于相机使用权限,可以将该静态指标与调用相机组件的调用特征进行组合,得到一个维度,该维度对应的数据值即为相机使用权限的数据和调用相机组件的数据。
对于多维度的静态数据数据来说,其他的组合方式也可以采用,例如一个权限特征、一个调用特征、一个漏洞特征进行组合得到一个维度,一个权限特征、一个组件特征进行组合得到一个维度等等。只要满足待测应用的静态数据数组的维度与应用识别模型中的静态数据数组的维度相对应即可。同样地,应用识别模型的训练集中的特征数据的维度也需要保持一致。
在该实施例中,进一步地,为了不断完善基础数据库的数据,提高应用识别的效率,所述根据应用识别模型的输出确定该待测应用是否为恶意应用之后,还包括将该待测应用的指定标识数据和是否为恶意应用的判断结果存储于所述基础数据库的步骤。基础数据库增加该条记录,下次有相同指定标识数据的待测应用时,即可以直接根据基础数据库出判断结果,而不用再次使用应用识别模型进行识别。
如图3所示,在该实施例中,所述基础数据库包括黑名单数据库和白名单数据库,所述黑名单数据库中存储有已知恶意应用的指定标识数据,所述白名单数据库中存储有已知非恶意应用的指定标识数据;
所述根据该对应的记录确定该待测应用是否为恶意应用,包括如下步骤:
S210:提取待测应用的指定标识数据;
S220:判断该待测应用的指定标识数据存在于所述黑名单数据库还是白名单数据库;
S230:如果存在于所述黑名单数据库,则该待测应用为恶意应用;
S240:如果存在于所述白名单数据库,则该待测应用为非恶意应用;
如果均不存在,则利用应用识别模型来进行应用识别。
具体地,如图3中示出的,利用应用识别模型来进行应用识别,包括如下步骤:
S240:提取待测应用的指定静态数据;
S260:将提取的指定静态数据输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用;
S270:该待测应用是否为恶意应用;
S280:如果该待测应用为恶意应用,则将该待测应用的指定标识数据存储于所述黑名单数据库;
S290:如果该待测应用为非恶意应用,则将该待测应用的指定标识数据存储于所述白名单数据库。
如图4所示,所述安卓恶意应用识别方法中,为了不断完善应用识别模型,进一步提高应用识别模型的识别准确率,丰富应用识别模型的训练集,在根据该对应的记录或应用识别模型的输出判断该待测应用是否为恶意应用之后,还包括如下步骤:
S310:得到待测应用的恶意应用判断结果;
S320:将该待测应用的指定静态数据和恶意应用判断结果加入训练集A1;
采用所述训练集A1重新训练所述应用识别模型。
训练集更新和应用识别模型的更新可以不用在每个待测应用判断完成后进行,在指定时间对一段时间内的测试应用的数据进行提取并更新训练集即可。应用识别模型可以保持有多个版本号,并且可以采用测试集来测试当前版本的应用识别模型相比于前一个版本的应用识别模型的识别效率是否得到了提高。
在该实施例中,所述采用所述训练集重新训练所述应用识别模型,包括如下步骤:
S330:采用所述训练集A1训练得到多种机器学习模型,所述机器学习模型的输入为指定静态数据,输出为恶意应用判断结果;
S340:采用测试集A2测试训练得到的多种机器学习模型的识别准确率;
S350:选择识别准确率最高的一种机器学习模型,作为应用识别模型。
例如,在训练的时候可以采用两种机器学习模型:SVM(支持向量机)和GBDT(梯度提升决策树),两种机器学习模型训练完成后,可以采用测试集对两种机器学习模型进行验证,选择一个识别效果更好的机器学习模型。训练模式可以采用二分类监督式训练,包括恶意应用样本和非恶意应用样本两种数据集,训练得到的机器学习模型的输出形式为1或0。在训练之前,可以先将恶意应用样本和非恶意应用样本两种数据集分为训练集和测试集,例如训练集和测试集采用8:2的比例进行分配,但本发明不限于此。
在应用中,也可以采用其他类型的机器学习模型,例如聚类模型、线性分类器等等。在采用三个或三个以上的机器学习模型时,也可以根据各个机器学习模型的准确率分配不同的权值。例如,有三个机器学习模型,权值分别为k1、k2和k3,三个机器学习模型进行应用识别后,输出的结果分别为m1、m2和m3,则可以根据三个机器学习模型的结果综合得到最终的识别结果:(k1*m1+k2*m2+k3*m3)/(k1+k2+k3),如果该结果更接近于恶意应用对应的输出值,则可以判定应用为恶意应用,否则可以判定应用为非恶意应用。
如图5所示,本发明实施例还提供一种安卓恶意应用检测系统,应用于所述的安卓恶意应用检测方法,所述系统包括:
基础数据库100,用于存储各个已知的指定标识数据是否对应于恶意应用的记录;
数据提取模块200,用于提取待测应用的指定标识数据和指定静态数据;
数据库查询模块300,用于在基础数据库100中查找该指定标识数据对应的记录;以及
模型识别模块400,用于当基础数据库100中不存在待测应用的指定标识数据的记录时,将待测应用的指定静态数据输入至应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
因此,本发明的安卓恶意应用系统结合基础数据库的预先判断和机器学习,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率。
进一步地,当数据库查询模块300查询到基础数据库100中存在该指定标识数据对应的记录时,根据该对应的记录判断该待测应用是否为恶意应用。
在该实施例中,数据提取模块200提取待测应用的指定标识数据,包括对待测应用进行反编译得到指定标识数据;所述待测应用的指定标识数据包括待测应用的包名、进程名和数字签名中的至少一种或其组合,数字签名可以为Sha1或MD5签名。此处反编译可以采用Aapt2等工具直接进行反编译,得到待测应用的指定标识数据即可,也可以采用其他的现有反编译工具。
在该实施例中,数据提取模块200提取得到的待测应用的指定静态数据包括一多维度的静态数据数组,所述静态数据数组中各个维度对应于一个静态指标或多个静态指标的组合。其中,所述静态指标包括权限信息指定特征、组件信息指定特征、调用信息指定特征、Native信息指定特征和漏洞信息指定特征中的至少一种或其组合。
本发明通过采用多维度的静态数据组合进行机器学习,对特征的维度进行了拓宽,结合权限特征、组件特征、调用特征、Native特征和漏洞特征组成特征集合得到多维度的静态数据数组,形成以静态数据数组为元素的特征数据集合,采用特征数据集合进行训练,得到更为准确的应用识别模型,提高恶意应用识别的准确率,减少漏判和误判。不同的静态指标的具体内容可以参照上述安卓恶意应用检测方法的实施例中的描述,在此不予赘述。
在该实施例中,数据提取模块200执行如下步骤以提取待测应用的指定静态数据:
对待测应用进行反编译得到java文件或smali文件,以及从所述java文件或smali文件中提取所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征的对应数据;此处反编译可以采用Jadx得到java文件或采用Apktool得到smali文件,也可以采用其他的现有的反编译工具,对待测应用进行反编译得到对应的文件,能够提取出对应的静态数据即可;
对待测应用进行漏洞扫描,得到漏洞信息指定特征的对应数据,此处漏洞扫描可以采用现有的一些漏洞扫描工具,得到对应的漏洞特征数据;
将所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征和漏洞信息指定特征的对应数据组合得到所述静态数据数组。
在静态数据组合时,可以根据预先设定的维度进行组合得到静态数据数组。静态数据数组可以包括很多个不同的维度,各个维度可以对应于一个静态指标,一个维度对应于多个静态指标的组合。
在该实施例中,进一步地,为了不断完善基础数据库100的数据,提高应用识别的效率,所述模型识别模块400根据应用识别模型的输出确定该待测应用是否为恶意应用之后,还用于将该待测应用的指定标识数据和是否为恶意应用的判断结果存储于所述基础数据库100中。基础数据库100增加该条记录,下次有相同指定标识数据的待测应用时,即可以直接由数据库查询模块300根据基础数据库100出判断结果,而不用再次使用模型识别模块400根据应用识别模型进行识别。
在该实施例中,所述基础数据库100包括黑名单数据库和白名单数据库,所述黑名单数据库中存储有已知恶意应用的指定标识数据,所述白名单数据库中存储有已知非恶意应用的指定标识数据,在基础数据库100中存在对应记录时,根据记录时在黑名单数据库还是白名单数据库来判断是否为恶意应用。
在该实施例中,为了对训练集不断更新和应用识别模型不断完善,所述系统还包括模型训练模块500,用于将判断得到是否为恶意应用的待测应用的指定静态数据和恶意应用判断结果加入训练集,以及采用所述训练集训练所述应用识别模型。
训练集更新和应用识别模型的更新可以不用在每个待测应用判断完成后进行,在指定时间对一段时间内的测试应用的数据进行提取并更新训练集即可。应用识别模型可以保持有多个版本号,并且可以采用测试集来测试当前版本的应用识别模型相比于前一个版本的应用识别模型的识别效率是否得到了提高。
在该实施例中,所述模型训练模块500执行如下步骤,以采用所述训练集重新训练所述应用识别模型:
采用训练集A1训练得到多种机器学习模型,所述机器学习模型的输入为指定静态数据,输出为恶意应用判断结果;
采用测试集A2测试训练得到的多种机器学习模型的识别准确率;
选择识别准确率最高的一种机器学习模型,作为应用识别模型。
例如,在训练的时候可以采用两种机器学习模型:SVM(支持向量机)和GBDT(梯度提升决策树),两种机器学习模型训练完成后,可以采用测试集对两种机器学习模型进行验证,选择一个识别效果更好的机器学习模型。训练模式可以采用二分类监督式训练,包括恶意应用样本和非恶意应用样本两种数据集,训练得到的机器学习模型的输出形式为1或0。在训练之前,可以先将恶意应用样本和非恶意应用样本两种数据集分为训练集和测试集,例如训练集和测试集采用8:2的比例进行分配,但本发明不限于此。
在应用中,也可以采用其他类型的机器学习模型,例如聚类模型、线性分类器等等。在采用三个或三个以上的机器学习模型时,也可以根据各个机器学习模型的准确率分配不同的权值。例如,有三个机器学习模型,权值分别为k1、k2和k3,三个机器学习模型进行应用识别后,输出的结果分别为m1、m2和m3,则可以根据三个机器学习模型的结果综合得到最终的识别结果:(k1*m1+k2*m2+k3*m3)/(k1+k2+k3),如果该结果更接近于恶意应用对应的输出值,则可以判定应用为恶意应用,否则可以判定应用为非恶意应用。
本发明实施例还提供一种安卓恶意应用检测设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的安卓恶意应用检测方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的安卓恶意应用检测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明所提供的安卓恶意应用检测方法、系统、设备及存储介质具有下列优点:
本发明结合基础数据库的预先判断和机器学习,首先根据基础数据库进行预先判断应用是否为恶意应用,对于基础数据库中查询不到对应记录的应用,提取静态数据,采用机器学习的应用识别模式进行自动识别,从而可以得到恶意应用的检测结果,提高了安卓恶意应用检测的准确率和效率;进一步采用多维度的训练集训练应用识别模型,在原有的权限、组件等维度的基础上,增加了Native信息和漏洞信息的维度,避免了现有的单一维度训练和识别的不合理造成的误报和漏报。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (14)

1.一种安卓恶意应用检测方法,其特征在于,所述方法包括如下步骤:
提取待测应用的指定标识数据,于基础数据库中查找与该指定标识数据对应的记录,所述基础数据库包括各个已知的指定标识数据是否对应于恶意应用的记录;
如果基础数据库中不存在该指定标识数据对应的记录,则提取待测应用的指定静态数据,输入至训练好的应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
2.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,所述于基础数据库中查找与该指定标识数据对应的记录之后,还包括如下步骤:
如果基础数据库中存在该指定标识数据对应的记录,则根据该对应的记录判断该待测应用是否为恶意应用。
3.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,所述根据应用识别模型的输出确定该待测应用是否为恶意应用之后,还包括如下步骤:
将该待测应用的指定标识数据和是否为恶意应用的判断结果存储于所述基础数据库。
4.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,所述基础数据库包括黑名单数据库和白名单数据库,所述黑名单数据库中存储有已知恶意应用的指定标识数据,所述白名单数据库中存储有已知非恶意应用的指定标识数据;
所述根据该对应的记录确定该待测应用是否为恶意应用,包括如下步骤:
判断该待测应用的指定标识数据存在于所述黑名单数据库还是白名单数据库;
如果存在于所述黑名单数据库,则该待测应用为恶意应用;
如果存在于所述白名单数据库,则该待测应用为非恶意应用。
5.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,根据该对应的记录或应用识别模型的输出判断该待测应用是否为恶意应用之后,还包括如下步骤:
将该待测应用的指定静态数据和恶意应用判断结果加入训练集;
采用所述训练集重新训练所述应用识别模型。
6.根据权利要求5所述的安卓恶意应用检测方法,其特征在于,所述采用所述训练集重新训练所述应用识别模型,包括如下步骤:
采用所述训练集训练得到多种机器学习模型,所述机器学习模型的输入为指定静态数据,输出为恶意应用判断结果;
采用测试集测试训练得到的多种机器学习模型的识别准确率;
选择识别准确率最高的一种机器学习模型,作为应用识别模型。
7.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,所述待测应用的指定标识数据包括待测应用的包名、进程名和数字签名中的至少一种或其组合。
8.根据权利要求1所述的安卓恶意应用检测方法,其特征在于,所述待测应用的指定静态数据包括一多维度的静态数据数组,所述静态数据数组中各个维度对应于一个静态指标或多个静态指标的组合。
9.根据权利要求8所述的安卓恶意应用检测方法,其特征在于,所述静态指标包括权限信息指定特征、组件信息指定特征、调用信息指定特征、Native信息指定特征和漏洞信息指定特征中的至少一种或其组合。
10.根据权利要求9所述的安卓恶意应用检测方法,其特征在于,所述提取待测应用的指定标识数据,包括对待测应用进行反编译得到指定标识数据;
所述提取待测应用的指定静态数据,包括如下步骤:
对待测应用进行反编译得到java文件或smali文件,以及从所述java文件或smali文件中提取所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征的对应数据;
对待测应用进行漏洞扫描,得到漏洞信息指定特征的对应数据;
将所述权限信息指定特征、组件信息指定特征、调用信息指定特征和Native信息指定特征和漏洞信息指定特征的对应数据组合得到所述静态数据数组。
11.一种安卓恶意应用检测系统,其特征在于,应用于权利要求1至10中任一项所述的安卓恶意应用检测方法,所述系统包括:
基础数据库,用于存储各个已知的指定标识数据是否对应于恶意应用的记录;
数据提取模块,用于提取待测应用的指定标识数据和指定静态数据;
数据库查询模块,用于在基础数据库中查找与该指定标识数据对应的记录;以及
模型识别模块,用于当基础数据库中不存在待测应用的指定标识数据的记录时,将待测应用的指定静态数据输入至应用识别模型,根据应用识别模型的输出判断该待测应用是否为恶意应用,所述应用识别模型的输入为指定静态数据,输出为恶意应用判断结果。
12.根据权利要求11所述的安卓恶意应用检测系统,其特征在于,所述系统还包括:
模型训练模块,用于将判断得到是否为恶意应用的待测应用的指定静态数据和恶意应用判断结果加入训练集,以及采用所述训练集训练所述应用识别模型。
13.一种安卓恶意应用检测设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至10中任一项所述的安卓恶意应用检测方法的步骤。
14.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至10中任一项所述的安卓恶意应用检测方法的步骤。
CN201810965646.1A 2018-08-23 2018-08-23 安卓恶意应用检测方法、系统、设备及存储介质 Pending CN110858247A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810965646.1A CN110858247A (zh) 2018-08-23 2018-08-23 安卓恶意应用检测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965646.1A CN110858247A (zh) 2018-08-23 2018-08-23 安卓恶意应用检测方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110858247A true CN110858247A (zh) 2020-03-03

Family

ID=69635070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965646.1A Pending CN110858247A (zh) 2018-08-23 2018-08-23 安卓恶意应用检测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110858247A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783089A (zh) * 2020-06-08 2020-10-16 Oppo广东移动通信有限公司 一种追溯恶意进程的方法、装置及存储介质
CN113569242A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 违规软件识别方法
CN113742727A (zh) * 2021-08-27 2021-12-03 恒安嘉新(北京)科技股份公司 程序识别模型训练和程序识别方法、装置、设备及介质
CN115408696A (zh) * 2022-11-02 2022-11-29 荣耀终端有限公司 应用识别方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测系统及其方法
CN106874761A (zh) * 2016-12-30 2017-06-20 北京邮电大学 一种安卓系统恶意应用检测方法及系统
CN107194251A (zh) * 2017-04-01 2017-09-22 中国科学院信息工程研究所 Android平台恶意应用检测方法及装置
CN107341401A (zh) * 2017-06-21 2017-11-10 清华大学 一种基于机器学习的恶意应用监测方法和设备
CN108304720A (zh) * 2018-02-06 2018-07-20 恒安嘉新(北京)科技股份公司 一种基于机器学习的安卓恶意程序检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140181973A1 (en) * 2012-12-26 2014-06-26 National Taiwan University Of Science And Technology Method and system for detecting malicious application
CN105205396A (zh) * 2015-10-15 2015-12-30 上海交通大学 一种基于深度学习的安卓恶意代码检测系统及其方法
CN106874761A (zh) * 2016-12-30 2017-06-20 北京邮电大学 一种安卓系统恶意应用检测方法及系统
CN107194251A (zh) * 2017-04-01 2017-09-22 中国科学院信息工程研究所 Android平台恶意应用检测方法及装置
CN107341401A (zh) * 2017-06-21 2017-11-10 清华大学 一种基于机器学习的恶意应用监测方法和设备
CN108304720A (zh) * 2018-02-06 2018-07-20 恒安嘉新(北京)科技股份公司 一种基于机器学习的安卓恶意程序检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783089A (zh) * 2020-06-08 2020-10-16 Oppo广东移动通信有限公司 一种追溯恶意进程的方法、装置及存储介质
CN113569242A (zh) * 2021-07-28 2021-10-29 中国南方电网有限责任公司 违规软件识别方法
CN113742727A (zh) * 2021-08-27 2021-12-03 恒安嘉新(北京)科技股份公司 程序识别模型训练和程序识别方法、装置、设备及介质
CN115408696A (zh) * 2022-11-02 2022-11-29 荣耀终端有限公司 应用识别方法及电子设备

Similar Documents

Publication Publication Date Title
CN108304720B (zh) 一种基于机器学习的安卓恶意程序检测方法
US9953162B2 (en) Rapid malware inspection of mobile applications
US10614243B2 (en) Privacy detection of a mobile application program
CN105229661B (zh) 基于信号标记确定恶意软件的方法、计算设备及存储介质
CN110858247A (zh) 安卓恶意应用检测方法、系统、设备及存储介质
CN109271782B (zh) 检测攻击行为的方法、介质、系统和计算设备
CN112685737A (zh) 一种app的检测方法、装置、设备及存储介质
CN110933104B (zh) 恶意命令检测方法、装置、设备及介质
US20120159628A1 (en) Malware detection apparatus, malware detection method and computer program product thereof
Zhu et al. Android malware detection based on multi-head squeeze-and-excitation residual network
CN104517054A (zh) 一种检测恶意apk的方法、装置、客户端和服务器
CN109255241B (zh) 基于机器学习的Android权限提升漏洞检测方法及系统
Olukoya et al. Security-oriented view of app behaviour using textual descriptions and user-granted permission requests
US11580220B2 (en) Methods and apparatus for unknown sample classification using agglomerative clustering
Arslan AndroAnalyzer: android malicious software detection based on deep learning
CN112115473A (zh) 一种用于Java开源组件安全检测的方法
KR101605783B1 (ko) 악성 애플리케이션 탐지 방법 및 이 방법을 실행시키는 컴퓨터프로그램
CN111460448B (zh) 一种恶意软件家族检测方法及装置
CN111988327A (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN116932381A (zh) 小程序安全风险自动化评估方法及相关设备
Vahedi et al. Cloud based malware detection through behavioral entropy
US20220405397A1 (en) Detection of supply chain-related security threats to software applications
CN113987496A (zh) 恶意攻击检测的方法、装置、电子设备及可读存储介质
Romli et al. Efficient feature selection analysis for accuracy malware classification
Lee et al. An android malware detection system using a knowledge-based permission counting method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination