CN114372266A

CN114372266A - 基于操作码图的安卓恶意软件检测方法

Info

Publication number: CN114372266A
Application number: CN202011105174.6A
Authority: CN
Inventors: 葛书敏; 刘伟伟; 刘光杰
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-04-19

Abstract

本发明公开了一种基于操作码图的安卓恶意软件检测方法，包括以下内容：从安卓平台中收集良性和恶意应用集合；对安卓应用进行反编译从而获取操作码序列集合；分析虚拟机中定义的多种操作码，并将这些操作码的特征进行向量化表示构建操作码图中节点的特征向量；利用2‑gram模型对操作码序列进行处理形成共现操作码对构建操作码图的边，计算共现操作码对出现频数，并对矩阵行进行标准化形成共现矩阵从而构建操作码图的边权重；利用改进后的深度图卷积网络对该操作码图进行有监督学习实现安卓恶意软件的检测。本发明利用操作码图从代码层面对安卓应用程序进行表示，具有较好的说服性，并在安卓恶意软件检测方面取得了较好的准确率。

Description

基于操作码图的安卓恶意软件检测方法

技术领域

本发明属于移动平台信息安全领域，特别是一种基于操作码图的安卓恶意软件检测方法。

背景技术

目前，Android平台的恶意软件检测主要的检测方法分为静态分析和动态分析。在静态分析中，分析应用程序本身的数据而不运行应用程序。静态分析通常提取和分析应用程序中的签名、权限请求、应用程序编程接口(API)调用、操作码序列和控制流。在动态分析中，给定的Android应用程序在虚拟环境中执行，例如虚拟机或沙箱，以模拟它在设备上实际运行的方式，并分析运行的进程或进程中的动态数据。常用的动态分析包括动态染色分析和网络流量分析。静态分析简单而快速，并且不需要额外的虚拟环境，它适用于大量应用程序的快速检测，但容易受到代码混淆等技术的影响。动态分析可以有效地抵抗重新打包和代码混淆等技术，但它也需要虚拟环境来模拟应用程序的实际执行，并且在分析过程中消耗大量的计算资源。操作码序列是从应用程序的反编译文件中提取的，操作码序列通常很长。虽然恶意软件的操作码维数小于良性软件的公共样本，但利用目前主流的机器学习和深度学习方法直接分析和研究操作码序列，很难获得非常好的结果。因此，基于操作码序列的恶意软件静态分析仍然是一个具有挑战性的问题。

发明内容

本发明的目的在于提供一种基于操作码图的安卓恶意软件检测方法。

实现本发明目的的技术解决方案为：一种基于操作码图的安卓恶意软件检测方法，包括以下步骤：

步骤1、构建应用数据集：从安卓平台中下载良性应用构成良性软件集合，下载恶意应用构成恶意软件集合，从而构建实验所用的应用数据集；

步骤2、提取操作码序列：使用反编译工具apktool对安卓应用软件进行反编译，并从反汇编文件smail中提取操作码序列；

步骤3、操作码特征向量化：利用操作码指令自身的先验知识特征构建初始的操作码特征向量；再与操作码在良性样本数据集和恶意样本数据集中各自的词频特征相结合，构造最终的操作码节点特征向量；

步骤4、建立操作码图：将每个样本的操作码序列中的每个非重复操作码作为操作码图中的一个节点，并利用2-gram模型和操作码序列对构建操作码图的边，其中边的权值为对应的2-gram操作码对的计数概率；

步骤5、应用程序检测：将构建好的操作码图作为输入，利用改进后的DGCNN模型进行学习，得出应用软件的检测结果：良性或恶意。

本发明与现有技术相比，其显著优点为：1)将操作码指令自身的先验知识特征与操作码在良性样本数据集和恶意样本数据集中的词频特征相结合，构造操作码节点的特征向量，结合了操作码自身的特性，较好地对操作码进行向量化表示；2)利用关联计数概率作为边的权值，提高操作码图的鲁棒性；3)构建操作码图，采用改进后的DGCNN模型进行安卓恶意软件的检测，得出了较好的检测结果。

附图说明

图1为本发明基于操作码图的安卓恶意软件检测方法的流程图。

图2为本发明操作码特征向量构造示意图。

图3为本发明操作码图邻接矩阵构建示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

结合图1，本发明基于操作码图的安卓恶意软件检测方法，包括以下步骤：

步骤1、构建应用数据集：从小米软件商店下载良性应用构成良性软件集合，从恶意软件收录网站virusshare.com下载恶意应用构成恶意软件集合，从而构建实验所用的应用数据集；

步骤5、应用程序检测：将构建好的操作码图作为输入，利用改进后的Deep GraphConvolutional Neural Network(DGCNN)模型进行学习，得出应用软件的检测结果：良性或恶意。

进一步地，在其中一个实施例中，步骤3中利用操作码指令自身的先验知识特征构建初始的操作码特征向量；再与操作码在良性样本数据集和恶意样本数据集中各自的词频特征相结合，构造最终的操作码节点特征向量，具体为：

步骤3-1、对Dalvik虚拟机中定义的218个操作码进行分析，根据操作功能将操作码分为14种类型：移动指令、返回指令、常量指令、监控指令、对象操作指令、数值操作指令、跳转指令、比较指令、域操作指令、呼叫指令、数据转换指令、数据操作指令、其他指令；每种操作码代表一种特定的指令行为；

表1操作码特征信息表

步骤3-1、对Dalvik虚拟机中定义的218个操作码进行分析，根据操作功能将操作码分为14种类型：移动指令、返回指令、常量指令、监控指令、对象操作指令、数值操作指令、跳转指令、比较指令、域操作指令、呼叫指令、数据转换指令、数据操作指令、其他指令；

步骤3-2、分析操作码指令的数据类型后缀，整理出44个不同的操作码数据类型后缀；

步骤3-3、通过对所有操作码指令的分析，总结出10种消除歧义的操作码定义；

步骤3-4、将14种操作功能、44种数据类型后缀和10种消除歧义的操作码定义组合成一个68维的操作码特征向量；操作码中包含该位的特征则将该位置为1，反之为0，从而构建初始的操作码特征向量；构造出的初始的操作码指令特征向量如图2所示：

步骤3-5、计算各个操作码在良性样本和恶意样本中操作码在样本中的词频：

其中，tf_op,c为单个操作码在c类应用操作码集合中的频率，n_op,c代表单个操作码在c类操作码集合中的计数，∑n_ops,c为c类操作码集合中所有操作码的总计数；

步骤3-6、将初始操作码特征向量与操作码在良性样本数据集和恶意样本数据集中各自的词频特征相乘，构造最终的操作码节点特征向量：

x_opcode＝tf_op,c·x_{op_ins}

其中，x_opcode为单个操作码最终的特征向量表示，x_{op_ins}为步骤3-4中所述依据操作码先验知识构建的初始操作码特征向量。

进一步地，在其中一个实施例中，步骤4中所述的根据操作码序列建立操作码图，具体为：

步骤4-1、定义操作码图G_op＝(V_op,E_op)，V_op＝{v₁,v₂,......,v_n}为节点集合，E_op为边集合；每个操作码在操作码序列中表示一个Dalvik操作码，边集合中的每条边代表两个节点之间的关系，且边是有方向的；边

表示节点v_i在前，边

表示的则是节点v_j到节点v_i；

步骤4-2、构建操作码邻接矩阵，邻接矩阵中的每个非零元素表示图中的一条边；使用2-gram模型从操作码序列中生成操作码对，每个操作码对表示节点之间存在一条边；对每个文件中的操作码对进行计数，将计数作为操作码之间边的初始权值，构建初始的操作码邻接矩阵；

步骤4-3、利用行标准化处理方法，计算关联计数概率生成新的边权值，构建出最终的操作码邻接矩阵；构建出最终的操作码邻接矩阵如图3所示：

进一步地，在其中一个实施例中，步骤5中根据Deep Graph ConvolutionalNeural Network(DGCNN)改进后的模型对应用程序进行检测，具体为：

1)图卷积层通过聚合节点邻居的表示来更新自身节点的表示：

其中，Hⁱ是输入节点的特征矩阵，Hⁱ⁺¹是第i层输出的节点特征矩阵，Wⁱ为第i层的卷积核，

为邻接矩阵，

为邻接矩阵的度矩阵，f为非线性激活函数。

忽略操作码图本身的自循环，对所有顶点加入自循环，重新定义图的邻接矩阵：

邻接矩阵的度矩阵

结合结构信息对矩阵进行归一化，非线性激活函数f应用于图卷积层得到最终输出。

2)排序池层通过对节点的特征描述符进行排序来预测整个图。这一层使用了最后一层图卷积层的WL颜色，它定义了一个基于图拓扑的排序来对节点进行排序，两个图中具有相似图结构的节点将被表示为相同的位置；排序池层通过输出相同大小的图数据矩阵来解决图数据中节点数量不同的问题。

3)直接使用多层感知器(MLP)分类，该MLP分类器由四个全连接的层和一个softmax层组成。四个全连接层的激活函数都是ReLU函数，每个ReLU函数后面都有一个dropout层。

利用以上构建的操作码图，并将这些特征输入到改进后的深度图卷积网络中进行学习，从而生成基于操作码图的安卓恶意软件检测模型。

综上所述，本发明利用操作码图对安卓应用软件进行表征，并利用操作码的先验知识和词频特征对操作码特征向量化处理，在安卓恶意软件检测方面取得了如下结果：准确率91.97％、精确率92.08％、召回率91.97％以及F191.96％。

Claims

1.一种基于操作码图的安卓恶意软件检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于操作码图的安卓恶意软件检测方法，其特征在于，步骤2所述的从反汇编文件smail中提取操作码序列，具体为：

逐行遍历读取样本的smail文件，选取文件中.method字段和.end method字段之间的数据段，并利用操作码映射表进行匹配，筛选出数据段内每行中的操作码，构建样本相对应的操作码序列。

3.根据权利要求1所述的基于操作码图的安卓恶意软件检测方法，其特征在于，步骤3所述的利用操作码指令自身的先验知识特征构建初始的操作码特征向量；再与操作码在良性样本数据集和恶意样本数据集中各自的词频特征相结合，构造最终的操作码节点特征向量，具体为：

步骤3-4、将14种操作功能、44种数据类型后缀和10种消除歧义的操作码定义组合成一个68维的操作码特征向量；操作码中包含该位的特征则将该位置为1，反之为0，从而构建初始的操作码特征向量；

x_opcode＝tf_op,c·x_{op_ins}

4.根据权利要求1所述的基于操作码图的安卓恶意软件检测方法，其特征在于，步骤4所述的建立操作码图，具体为：

表示节点v_i在前，边

表示的则是节点v_j到节点v_i；

步骤4-3、利用行标准化处理方法，计算关联计数概率生成新的边权值，构建出最终的操作码邻接矩阵。

5.根据权利要求1所述的基于操作码图的安卓恶意软件检测方法，其特征在于，步骤5所述将利用改进后的DGCNN模型进行检测，具体为：

1)图卷积层通过聚合节点邻居的表示来更新自身节点的表示，如下公式所示：

为邻接矩阵，

为邻接矩阵的度矩阵，f为非线性激活函数；

邻接矩阵的度矩阵

结合结构信息对矩阵进行归一化，非线性激活函数f应用于图卷积层得到最终输出；

2)排序池层通过对节点的特征描述符进行排序来预测整个图；这一层使用最后一层图卷积层的WL颜色，它定义一个基于图拓扑的排序来对节点进行排序，两个图中具有相似图结构的节点将被表示为相同的位置；

3)使用多层感知器MLP分类，该MLP分类器由四个全连接层和一个softmax层组成；四个全连接层的激活函数都是ReLU函数，每个ReLU函数后面都有一个dropout层；

利用以上构建的操作码图，并将这些特征输入到改进后的DGCNN中进行学习，从而生成基于操作码图的安卓恶意软件检测模型。