CN114817924A

CN114817924A - 基于ast和跨层分析的安卓恶意软件检测方法及系统

Info

Publication number: CN114817924A
Application number: CN202210544603.2A
Authority: CN
Inventors: 牛伟纳; 巩嘉诚; 张小松; 段治秦; 刘星宇; 朱宇坤
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-07-29
Anticipated expiration: 2042-05-19
Also published as: CN114817924B

Abstract

本发明提出了一种基于AST和跨层分析的安卓恶意软件检测方法及系统，属于恶意代码分析技术领域，主要解决现有基于函数调用图中忽视敏感节点祖先节点代码语义信息以及函数调用图生成忽略Native层部分等问题。主要方案包括对待测AndroidAPK文件进行静态反编译以获取其Java层代码与Native层代码并生成函数调用图FCG；根据Java层代码中对Native层函数的调用将两部分FCG合成完整的FCG；基于敏感API对FCG进行简化，从而得到简化FCG；对非敏感API节点进行代码分析，生成对应的抽象语法树；使用图神经网络对融合了代码语义的简化FCG信息进行学习；将训练好的检测模型用于对Android恶意软件进行检测与识别。

Description

基于AST和跨层分析的安卓恶意软件检测方法及系统

技术领域

本发明属于恶意代码分析技术领域，提供了一种基于AST和跨层分析的安卓恶意软件检测方法及系统，具体的是一种使用图嵌入、跨层代码分析、抽象语法树（AST）以及图神经网络对安卓软件进行分析以及分类的方法，其分析的对象为安卓软件，可自动输出该安卓软件是否为恶意软件。

背景技术

随着数字化发展逐渐成为了发展中的一大主题，移动智能设备在这个时代中发挥着极其重要的作用，例如移动支付、网络购物以及人际交往等等。而Android操作系统因为其开源性、可扩展性等优点，逐渐成为移动终端以及物联网设备中使用最为广泛的操作系统之一。随之而来的是大量出现的Android恶意软件，这些恶意软件对互联网的威胁正快速增大，因此，对Android恶意软件智能识别相关技术的研究具有重要意义。

在恶意软件检测技术与检测规避技术的博弈中，二者不断发展。早期基于签名和特征匹配的检测方法已经不能用于每日新增的大量恶意程序的检测。随着人工智能技术的再度兴起，使用机器学习的方法逐渐成为了恶意软件分类的研究热点，其中使用深度学习的方法目前在检测和分类任务中表现良好。在对安卓恶意软件检测的研究中，图神经网络表现出很大的潜力，对于图结构数据这种非欧几里得数据，它能够更好地处理并分析，相比处理文本、图像和语音等数据的传统深度学习模型，它能够更好地挖掘恶意行为的特征。

在文献《GDroid: Android malware detection and classification withgraph convolutional network》中，Gao等人将应用程序和API映射成一个大的异构图，将原始问题转换为节点分类任务，然后通过GCN对异构图进行嵌入和后续的分类。该方法存在以下问题：

（1）虽然利用了代码中的语义信息，但仅仅是利用了API调用及使用模式相关的这一部分信息，对代码语义的使用并不充分；

（2）其使用的图结构数据是用来获取APP之间的关系，而并不是对APP自身行为的表征；

（3）其只分析了Java层代码，而忽视了Native层代码部分。

在文献《OpCode-Level Function Call Graph Based Android MalwareClassification Using Deep Learning》中，Niu等人使用FlowDroid为给定的APK文件生成函数调用图，并获取不同函数的代码文件，然后重新组织字节码顺序，得到opcode级别的函数调用图，最终使用LSTM对给定的AndroidAPK进行分类。该方法存在以下问题：

（1）在函数调用图的生成中只考虑了Java层代码，而忽视了Native层的代码，这使得获得的函数调用图并不完整；

（2）在对代码语义的表示中，使用自然语言处理对其进行处理，并未考虑到代码自身的结构；

（3）在对函数调用图时，基于opcode序列进行来拆分，一定程度上破坏了函数调用图的拓扑信息。

发明内容

针对上述问题，本发明旨在提出一种基于AST和跨层分析的安卓恶意软件检测方法及系统，能够对安卓恶意软件的代码进行跨层（Java层和Native层）分析，有效、完整地表征恶意软件的恶意行为，从而对恶意软件进行更加精准的分析；能够获取更加结构化和细粒度的语义信息；能够对结合了代码语义的FCG进行充分的学习，从而实现对Android恶意软件的精确检测。

为了达到上述目的，本发明采用如下技术方案：

一种基于AST和跨层分析的安卓恶意软件检测方法，包括如下步骤：

步骤1：对AndroidAPK文件进行静态反编译，获取其Java层代码Smali文件和Native层代码SO文件；

步骤2：对步骤1中获得的Smali文件和SO文件使用静态分析工具进行处理，分别生成Java层和Native层的函数调用图；

步骤3：对步骤2中生成的Java层和Native层函数调用图，基于Java层代码中对Native函数的声明，将Java层的函数调用图与Native层的函数调用图连接起来，生成完整的函数调用图，此步骤将Android应用程序所有可执行代码的函数调用图都考虑进去，相比先前聚焦于Java层函数调用，完整调用图能够体现Native层的调用情况，以及能够发现通过Native层函数调用Java层的敏感API；

步骤4：对步骤3中生成的完整函数调用图，基于敏感API对函数调用图进行简化，只保留敏感API节点，以及敏感API节点的父节点和其他祖先节点，得到简化函数调用图，由于Android应用程序不一定调用Native层的所有函数，同时也不是所有函数调用都与恶意行为，通过此步骤，可以更加聚焦恶意行为，同时减小图的规模，从而降低计算成本；

步骤5：对步骤4中生成的简化函数调用图，针对其中的Java层非敏感API节点对应的Smali文件进行代码解析，生成其对应的Java层非敏感节点抽象语法树AST，相比其他方法中使用文本处理的方法处理代码，抽象语法树能更好地表征代码的语义与结构；

步骤6：对于步骤5中生成的Java层非敏感节点抽象语法树，使用图嵌入方法生成抽象语法树的节点的代码特征向量，相比其他的向量化方法，图嵌入不仅能保存图的节点特征，同时能保存图的拓朴特征；

步骤7：将步骤4中生成的简化函数调用图与步骤6中生成的代码特征向量相融合，生成融合了代码语义的简化函数调用图；

步骤8：对于步骤7中生成的融合了代码语义的简化函数调用图，以图拓扑结构和节点代码语义特征作为图特征，使用图神经网络对其进行学习，得到训练好的智能分类器，相比其他深度学习方法，图神经网络能够对图结构数据进行更好的学习；

步骤9：使用训练好的智能分类器对待测Android APK文件进行分类，得到该APK的分类结果。

上述技术方案中，所述步骤2的具体步骤为：

对Android APK使用静态分析工具Androguard中的cg命令，生成Java层函数调用图；

对步骤1中获得的SO文件，使用二进制分析工具Angr，生成Native层函数调用图。

上述技术方案中，所述步骤3的具体步骤为：

对步骤1中获得的Smali文件，检索Smali文件所有的方法信息，提取从Java层代码调用Native层代码的进入方法；并从进入方法开始跟踪Native函数调用提取退出方法；根据上述过程中提取到的进入方法和退出方法，将步骤2中生成的Java层函数调用图和Native层函数调用图连接起来，生成完整的函数调用图。

上述技术方案中，所述步骤4的具体步骤为：

对步骤3中生成的完整函数调用图，基于敏感API进行简化，具体来说，首先找到所有的敏感API节点；再以敏感API节点为终点，根据调用关系追溯其始点，即敏感API节点的父节点；再以父节点作为终点，根据调用关系追溯其始点，即敏感API节点的祖先节点；依次递归，直至追溯到函数调用图的起始调用节点；保留上述所有节点，删除其他节点，生成简化函数调用图。

上述技术方案中，所述步骤5的具体步骤为：

对于步骤4中生成的简化函数调用图，首先找到所有的Java层非敏感API节点；根据Java层非敏感API节点对应的方法名，检索到该节点对应的Smali文件；使用代码解析工具Antlr对该Smali文件进行解析，生成对应的Java层非敏感节点抽象语法树AST。

上述技术方案中，所述步骤6的具体步骤为：

对于步骤5中生成的Java层非敏感节点抽象语法树，以其拓扑结构和节点特征作为图特征，使用图嵌入中node2vec算法生成其对应的代码特征向量。

上述技术方案中，所述步骤7的具体步骤为：

对于步骤4中生成的简化函数调用图，将其与步骤6中生成的代码特征向量相融合，具体来说，

简化函数调用图中包含Java层敏感节点、Java层非敏感节点以及Native层节点三类节点；

用长度为L的向量表征节点的代码语义，用长度为X的向量表征节点对应的函数类型；

对于Java层敏感节点，由于Java层敏感节点代码语义是固定的，通过Java层敏感节点的API类型来进行特征表示，使用Java层敏感节点的敏感API种类作为X长度向量部分，L长度向量部分均设置为0；

对于Java层非敏感节点， Java层非敏感节点为自定义函数，我们更加关注其代码，而不关注其函数名，使用Java层非敏感节点的对应的抽象语法树代码特征向量作为L长度向量，X长度向量部分均设置为0；

对于Native层节点，只作增加函数调用图的连通性的用途，故将L+X长度向量均设置为0；

综上，生成融合了代码语义的简化函数调用图，其中每个节点的特征向量的长度均为L+X。

本发明还提供了一种基于AST和跨层分析的安卓恶意软件检测系统，其特征在于，包括：

程序分析模块：用于对AndroidAPK文件进行反编译，得到Android应用程序的Smali文件与SO文件；

图构造模块：用于对程序分析模块中得到的Smali文件和SO文件进行分析，生成Java层和Native层代码的函数调用图FCG；并进行两部分的连接与整体的简化，得到简化函数调用图；

解析模块：用于对程序分析模块中得到的指定Smali文件进行解析，生成其对应的抽象语法树，并使用图嵌入方法得到抽象语法树对应节点的代码特征向量；

分类模块：用于将图构造模块生成的简化函数调用图和解析模块生成的代码语义进行融合，然后使用图神经网络对融合代码语义的简化函数调用图FCG进行学习，得到训练好的智能分类器，从而对Android恶意软件进行检测与识别，输出分类结果。

上述技术方案中，所述程序分析模块的具体实现为：

使用Androguard对AndroidAPK文件进行静态反编译，获取其Java层代码Smali文件和Native层代码SO文件。

上述技术方案中，所述图构造模块的具体实现为：

对Android APK使用静态分析工具Androguard中的cg命令，生成Java层函数调用图；对程序分析模块中获得的SO文件，使用二进制分析工具Angr，生成Native层函数调用图；

对程序分析模块中获得的Smali文件，检索其所有的方法信息，提取从Java层代码调用Native层代码的进入方法；并从该进入方法开始跟踪Native函数调用提取退出方法；根据上述过程中提取到的进入方法和退出方法，将步骤2中生成的Java层函数调用图和Native层函数调用图连接起来，生成完整的函数调用图；

对上述过程中生成的完整函数调用图，基于敏感API进行简化，只保留敏感API节点以及敏感API节点的父节点和其他祖先节点，删除其他节点，生成简化函数调用图。

上述技术方案中，所述解析模块的具体实现为：

对于图构造模块中生成的简化函数调用图，针对其中的Java层非敏感API节点，从程序分析模块中得到的Smali文件中检索到其对应的Smali文件；使用代码解析工具Antlr对该Smali文件进行解析，生成对应的Java层非敏感节点抽象语法树AST；

对于上述过程中生成的Java层非敏感节点抽象语法树，以其拓扑结构和节点特征作为图特征，使用图嵌入生成其对应的代码特征向量。

上述技术方案中，所述分类模块的具体实现为：

对于图构造模块中生成的简化函数调用图，将其与解析模块中生成的代码特征向量相融合，具体来说，对于Java层敏感节点，使用其敏感API种类作为节点特征；对于Java层非敏感节点，使用其对应的抽象语法树代码特征向量作为节点特征；对于Native层节点，只作增加函数调用图的连通性的用途，故将节点特征设置为0。综上，生成融合了代码语义的简化函数调用图。

对于上述过程中生成的融合了代码语义的简化函数调用图，以图拓扑结构和节点代码语义特征作为图特征，使用图神经网络对其进行学习，得到训练好的智能分类器；

使用训练好的智能分类器对待测Android APK文件进行分类，得到该APK的分类结果。

本发明同现有技术相比，其有益效果表现为：

一、本发明提出一种跨层的代码分析，构建统一了Java层和Native层代码的完整函数调用图（FCG），能够获取完整的应用程序行为。

二、本发明聚焦于敏感API节点，并只保留敏感API节点及其父节点和其他祖先节点，以此来对完整的FCG进行简化，从而减少计算成本。

三、本发明使用抽象语法树AST和函数调用图FCG结合的方式来同时表示恶意行为的代码语义和行为信息。基于抽象语法树的代码分析有一定程度的抗混淆能力，同时表征代码的语法词法以及结构信息。

四、本发明使用图嵌入和图神经网络对图结构的代码特征以及行为特征进行处理和学习，能够同时考虑到图的节点特征与拓扑特征。

附图说明：

图1是本发明整体工作流程的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，现在对本发明进行实例说明。

实施例

步骤1：构建数据集，收集安卓良性样本2000个，广告恶意软件500个，银行恶意软件500个，短信恶意软件500个，移动风险软件500个，共计4000个样本，按照8：1：1的比例划分为训练集、验证集与测试集，同时保证每个集合中各类别样本的数量比例均为4：1：1：1：1；

步骤2：对数据集中的所有样本进行处理，包括以下步骤：

步骤2.1：对AndroidAPK文件进行静态反编译，获取其Java层代码Smali文件和Native层代码SO文件；

步骤2.2：对步骤2.1中获得的Smali文件和SO文件使用静态分析工具进行处理，分别生成Java层和Native层的函数调用图；

步骤2.3：对步骤2.2中生成的Java层和Native层函数调用图，基于Java层代码中对Native函数的声明，将Java层的函数调用图与Native层的函数调用图连接起来，生成完整的函数调用图；

步骤2.4：对步骤2.3中生成的完整函数调用图，基于敏感API对函数调用图进行简化，只保留敏感API节点，以及敏感API节点的父节点和其他祖先节点，得到简化函数调用图；

步骤2.5：对步骤2.4中生成的简化函数调用图，针对其中的Java层非敏感API节点对应的Smali文件进行代码解析，生成其对应的Java层非敏感节点抽象语法树AST；

步骤2.6：对于步骤2.5中生成的Java层非敏感节点抽象语法树，使用图嵌入方法生成其节点的代码特征向量；

步骤2.7：将步骤2.4中生成的简化函数调用图与步骤2.6中生成的代码特征向量相融合，生成融合了代码语义的简化函数调用图；

步骤3：对于步骤2中生成的融合了代码语义的简化函数调用图，以图拓扑结构和节点代码语义特征作为图特征，使用图神经网络对数据集中样本的图特征进行学习，得到训练好的智能分类器；

步骤4：使用训练好的智能分类器对待测Android APK（未知分类）进行分类，得到该APK的分类结果，包括以下步骤：

步骤4.1：对AndroidAPK文件进行静态反编译，获取其Java层代码Smali文件和Native层代码SO文件；

步骤4.2：对步骤4.1中获得的Smali文件和SO文件使用静态分析工具进行处理，分别生成Java层和Native层的函数调用图；

步骤4.3：对步骤4.2中生成的Java层和Native层函数调用图，基于Java层代码中对Native函数的声明，将Java层的函数调用图与Native层的函数调用图连接起来，生成完整的函数调用图；

步骤4.4：对步骤4.3中生成的完整函数调用图，基于敏感API对函数调用图进行简化，只保留敏感API节点，以及敏感API节点的父节点和其他祖先节点，得到简化函数调用图；

步骤4.5：对步骤4.4中生成的简化函数调用图，针对其中的Java层非敏感API节点对应的Smali文件进行代码解析，生成其对应的Java层非敏感节点抽象语法树AST；

步骤4.6：对于步骤4.5中生成的Java层非敏感节点抽象语法树，使用图嵌入方法生成其节点的代码特征向量；

步骤4.7：将步骤4.4中生成的简化函数调用图与步骤4.6中生成的代码特征向量相融合，生成融合了代码语义的简化函数调用图；

步骤4.8：对于步骤4.7中生成的融合了代码语义的简化函数调用图，以图拓扑结构和节点代码语义特征作为图特征，将其输入到训练好的智能分类器模型中，输出该Android APK的分类结果，即良性、广告恶意、银行恶意、短信恶意或移动风险类型。

Claims

1.一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，包括如下步骤：

步骤3：对步骤2中生成的Java层和Native层函数调用图，基于Java层代码中对Native函数的声明，将Java层的函数调用图与Native层的函数调用图连接起来，生成完整的函数调用图；

步骤4：对步骤3中生成的完整函数调用图，基于敏感API对函数调用图进行简化，只保留敏感API节点，以及敏感API节点的父节点和其他祖先节点，得到简化函数调用图；

步骤5：对步骤4中生成的简化函数调用图，针对其中的Java层非敏感API节点对应的Smali文件进行代码解析，生成其对应的Java层非敏感节点抽象语法树AST；

步骤6：对于步骤5中生成的Java层非敏感节点抽象语法树，使用图嵌入方法生成抽象语法树的节点的代码特征向量；

步骤8：对于步骤7中生成的融合了代码语义的简化函数调用图，以图拓扑结构和节点代码语义特征作为图特征，使用图神经网络对其进行学习，得到训练好的智能分类器；

2.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤2的具体步骤为：

3.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤3的具体步骤为：

4.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤4的具体步骤为：

5.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤5的具体步骤为：

6.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤6的具体步骤为：

7.根据权利要求1所述的一种基于AST和跨层分析的安卓恶意软件检测方法，其特征在于，所述步骤7的具体步骤为：

8.一种基于AST和跨层分析的安卓恶意软件检测系统，其特征在于，包括：

9.根据权利要求8所述的一种基于AST和跨层分析的安卓恶意软件检测系统，其特征在于，所述图构造模块的具体实现为：

10.根据权利要求8所述的一种基于AST和跨层分析的安卓恶意软件检测系统，其特征在于，所述解析模块的具体实现为：