CN110245492A

CN110245492A - 基于张量分解的安卓app重打包检测方法

Info

Publication number: CN110245492A
Application number: CN201910428020.1A
Authority: CN
Inventors: 刘烃; 池剑磊; 王子骏; 郑庆华; 范伟杰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-17
Anticipated expiration: 2039-05-22
Also published as: CN110245492B

Abstract

本发明公开一种基于张量分解的安卓APP重打包检测方法，首先，根据安卓APP调用API的协同出现关系，构建出所有安卓APP的协同出现矩阵，并表达为三阶张量形式；然后，采用张量分解算法，将每个安卓APP的协同出现矩阵表示为一个一阶向量；最后，针对两个不同的安卓APP，通过计算其一阶向量的欧氏距离，表述两个安卓APP的相似性，通过排序算法判定两个安卓APP是否属于重打包关系。本发明一方面将复杂的程序相似性计算问题，转化为张量分解和一阶向量欧式距离计算；另一方面当新的安卓APP加入检测时，只需要在张量上增加维数，而不用重新构建张量，避免重复计算现有样本集。该方法在检测性能和时间开销上取得较好的平衡，可以支持大规模安卓APP的重打包检测分析。

Description

基于张量分解的安卓APP重打包检测方法

技术领域

本发明属于可信软件及恶意软件检测领域，特别涉及一种基于张量分解的安卓APP重打包检测方法。

背景技术

APP重打包就是恶意的开发者将原先APP程序进行破译，对非核心的代码资料进行恶意的改动，并对APP进行重新的打包，发布到市场中，将APP重新打包后产生的APP称为重打包APP。在安卓平台，重打包问题是Android多年的顽疾。基本上大部分的恶意软件的流入是通过重打包。

重打包APP包含两个特征：

(1)重打包APP与原APP核心代码相似，核心代码是指去除第三方库等外部通用代码之后的部分。由于重打包APP需要保持原APP的功能，因此对于核心代码不会做很大的改动；

(2)重打包APP的签名与原APP签名不同，签名代表着APP的作者信息；破解一个APP之后，必然要对APP重新签名，而这个签名一般无法与原签名保持一致。

如果将重打包APP进行分类，可以根据其重打包的目的以及其它因素将其分为替换广告库版、汉化版、功能扩充版。

发明内容

本发明的目的在于提供一种基于张量分解的安卓APP重打包检测方法，能够在检测性能和时间开销上取得平衡，并且在大规模APP中能够取得性能上的优势，利用张量分解进行重打包检测也能在有新的APP加入检测时，避免重复训练之前的APP，以解决上述技术问题。

为了实现上述目的，本发明采用的技术方案是：

基于张量分解的安卓APP重打包检测方法，包括以下步骤：

步骤S1)：构建Java的API调用类集合SA＝{s_i|1≤i≤I}，其中s_i表示第i个API调用类，I表示Java的API调用类的总数，然后对所有待检测的安卓APP进行反编译，得到各个APP的全部Smali文件集合，并对得到的Smali文件进行第三方库过滤；

步骤S2)：利用API调用在Smali文件中出现的位置，得到各个Smali文件的协同出现矩阵，对每个APP的所有Smali文件的协同出现矩阵取并集操作，获得每个APP的协同出现矩阵SC＝{s_k|1≤k≤K}，其中s_k表示第k个APP的协同出现矩阵，K表示待检测的APP总数；

步骤S3)：利用所有APP的协同出现矩阵组成三阶张量

步骤S4)：采用张量分解算法将得到的三阶张量X降维为二阶矩阵，从而，将每个APP的协同出现矩阵表示成一阶向量；

步骤S5)：计算两个APP的向量表示之间的欧式距离D_i，j，随后，利用排序算法连接所有APP，若两个APP被相连，则认为这两个APP是重打包关系。

进一步的，步骤S1)具体包括：爬取Java的全部API调用类，构建Java的API调用类集合SA＝{s_i|1≤i≤I}，其中s_i表示第i个API调用类，I表示Java的API调用类的总数；然后使用反编译工具apktool，得到各个APP的Smali文件；并使用第三方库过滤工具libradar，对现有的库进行聚类后，得到白名单，对得到的Smali文件进行过滤。

进一步的，步骤S2)中利用API调用在Smali文件中出现的位置，得到各个Smali文件的协同出现矩阵，从而得到APP的协同出现矩阵；具体包括以下步骤：

步骤S201：抽取下一个待分析的APP；

步骤S202：对于第k个APP所有的待分析Smali文件，均分别初始化一个全为0的协同出现矩阵其中表示第k个APP的第n个Smali文件的协同出现矩阵，N表示第k个APP的Smali文件数，并设置一个滑动窗ω；

步骤S203：抽取当前APP待分析的Smali文件中的下一条语句；

步骤S204：判断该语句是否是一条API调用语句，如果是则跳至步骤S205，否则转入步骤S203；

步骤S205：判断在该API调用语句的滑动窗内是否出现其他的API调用语句，若出现则跳至步骤S206，否则转入步骤S203；

步骤S206：将协同出现矩阵中对应于两种API的位置置1；

步骤S207：判断当前APP的所有Smali文件是否分析完毕，若分析完毕则跳至步骤S208，否则转入步骤S203；

步骤S208：对该APP的所有Smali文件的协同出现矩阵取并集，得到该APP的协同出现矩阵

步骤S209：若所有APP都已分析完毕，则停止算法，如果尚存在未分析的APP，则返回步骤S201继续迭代。

进一步的，步骤S3)具体包括：将各个APP的协同出现矩阵按次序沿竖直方向排放在一起，组成三阶张量其中X(i，j，k)表示第k个APP中第i种API调用类和第j种API调用类在预先定义的滑动窗内出现的情况。

进一步的，步骤S4)中，采用张量CP分解算法将得到的三阶张量X降维为二阶矩阵，从而，将每个APP的协同出现矩阵表示成一阶向量，具体分解方法如下：

步骤S401：将三阶张量X近似地表示为有限个秩为一的张量外积和，即成分个数R为APP协同出现矩阵向量表示的维数；

步骤S402：张量X任意位置(i，j，k)上的元素估计值为将分解后的一阶向量组合为三个因子矩阵A＝[a₁a₂...a_R]，B＝[b₁b₂...b_R]，

步骤S403：在嵌入空间中，利用矩阵C的各行表示各APP的协同出现矩阵，得到各APP的一阶向量表示。

进一步的，步骤S5)中，计算两个APP的向量表示之间的欧式距离D_i，j，随后，利用排序算法连接所有APP，若两个APP被相连，则认为这两个APP是重打包关系。

进一步的，步骤S5)具体包括：

步骤S501：利用张量分解后得到的APP的向量表示，计算APP两两之间的欧氏距离；

步骤S502：利用排序算法，将距离每个APP最近的前个APP与其相连；

步骤S503：若两个APP被相连，则认为它们是重打包关系。

进一步的，步骤S1)中第三方库过滤具体使用过滤工具libradar。

与现有技术相比，本发明的有益效果是：

1)本发明的检测粒度为类粒度，相比于函数粒度和语句粒度，检测粒度较大，负载较小，比较时间较短，适合于大规模APP重打包检测。

2)本发明将张量模型、张量分解理论引入重打包检测领域中，方法新颖。

3)本发明的检测目标为Smali文件，而不是java文件，避免了在预处理的反编译阶段进行过多操作，降低了时间开销。

4)本发明的重打包检测效果在大规模APP上与其他开源重打包检测工具(例如，FsquaDra(一种专门检测重打包的工具，发表在ICST上))相比，查全率相同时，检测准确性高出10-20个百分点，是一种具有实用价值的新型重打包检测方法。

步骤S1)中，采用自动聚类的方式来过滤第三方库比单独的白名单方法过滤更完善，能更好地降低误报和漏报率，提高实验精度。

步骤S2)、S3)中，引入协同出现矩阵的概念，将每一个APP的特征转化成一个矩阵，再将各个矩阵叠放在一起组成张量，在加入新的APP时，避免了重复训练之前的APP，提高方法的可扩展性。

步骤S4)中，张量CP分解将一个高阶的张量分解成多个核的和，每个核是由向量的外积组成，通过CP分解，可以在近似原来张量的前提下，大大降低特征矩阵的维度，从而加快重打包检测的速度。

步骤S5)中，优化了APP间的距离判断过程，仅仅通过阈值判断两个APP是否为重打包关系不够精确，为了适应重打包检测环境，本发明选用排序算法，规避阈值处理的缺点。

附图说明

图1为本发明基于张量分解的安卓APP重打包检测方法整体流程图；

图2为本发明构建APP协同出现矩阵流程图；

图3为本发明构建张量模型示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

请参阅图1所示，本发明提供一种基于张量分解的安卓APP重打包检测方法，包括以下步骤：

步骤S1)：输入有多个APP，每个APP有各自的多个smali文件；爬取Java的全部API调用类，构建Java的API调用类集合SA＝{s_i|1≤i≤I}，其中s_i表示第i个API调用类，I表示Java的API调用类的总数；然后使用反编译工具apktool，得到各个APP的Smali文件；并使用第三方库过滤工具libradar，对现有的库进行聚类后，得到白名单，对得到的Smali文件进行过滤，采用自动聚类的方式来进行第三方库过滤，比单独的白名单方法过滤更完善，能更好地降低误报和漏报率。

步骤S2)：利用API调用在Smali文件中出现的位置，得到各个Smali文件的协同出现矩阵，对每个APP的所有Smali文件取并集操作，获得每个APP的协同出现矩阵SC＝{s_k|1≤k≤K}，其中s_k表示第k个APP的协同出现矩阵，K表示待检测的APP总数，具体包括以下步骤：

步骤S201：抽取下一个待分析的APP；

步骤S202：对于第k个APP所有的待分析Smali文件，均分别初始化一个全为0的协同出现矩阵其中表示第k个APP的第n个Smali文件的协同出现矩阵，N表示第k个APP的Smali文件数，并设置一个滑动窗ω，ω取API总数的4.37％；

步骤S203：抽取当前APP待分析的Smali文件中的下一条语句；

步骤S206：将协同出现矩阵中对应于两种API的位置置1

步骤S3)：将各个APP的协同出现矩阵按次序沿竖直方向排放在一起，组成三阶张量其中X(i，j，k)表示第k个APP中第i种API调用类和第j种API调用类在预先定义的滑动窗内出现的情况，使用张量可以在加入新的APP时，避免了重复训练之前的APP，提高方法的可扩展性。

步骤S4)：采用张量CP分解算法将得到的三阶张量X降维为二阶矩阵，从而，可以在近似原来张量的前提下，将每个APP的协同出现矩阵表示成一阶向量，大大降低特征矩阵的维度，从而加快重打包检测的速度。具体分解方法如下：

步骤S401：将三阶张量X近似地表示为有限个秩为一的张量外积和，即成分个数R即为APP协同出现矩阵向量表示的维数；

步骤S5)：计算两个APP的向量表示之间的欧式距离D_i，j，随后，利用KNN算法连接所有APP，若两个APP被相连，则认为这两个APP是重打包关系，具体步骤如下：

步骤S502：利用KNN算法，将距离每个APP最近的前个APP与其相连；

步骤S503：若两个APP被相连，则认为它们是重打包关系。

Claims

1.基于张量分解的安卓APP重打包检测方法，其特征在于，包括以下步骤：

步骤S3)：利用所有APP的协同出现矩阵组成三阶张量

2.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S1)具体包括：爬取Java的全部API调用类，构建Java的API调用类集合SA＝{s_i|1≤i≤I}，其中s_i表示第i个API调用类，I表示Java的API调用类的总数；然后使用反编译工具apktool，得到各个APP的Smali文件；并使用第三方库过滤工具libradar，对现有的库进行聚类后，得到白名单，对得到的Smali文件进行过滤。

3.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S2)中利用API调用在Smali文件中出现的位置，得到各个Smali文件的协同出现矩阵，从而得到APP的协同出现矩阵；具体包括以下步骤：

步骤S201：抽取下一个待分析的APP；

步骤S202：对于第k个APP所有的待分析Smali文件，均分别初始化一个全为0的协同出现矩阵1≤n≤N，其中表示第k个APP的第n个Smali文件的协同出现矩阵，N表示第k个APP的Smali文件数，并设置一个滑动窗ω；

步骤S203：抽取当前APP待分析的Smali文件中的下一条语句；

步骤S206：将协同出现矩阵中对应于两种API的位置置1；

4.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S3)具体包括：将各个APP的协同出现矩阵按次序沿竖直方向排放在一起，组成三阶张量其中X(i，j，k)表示第k个APP中第i种API调用类和第j种API调用类在预先定义的滑动窗内出现的情况。

5.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S4)中，采用张量CP分解算法将得到的三阶张量X降维为二阶矩阵，从而，将每个APP的协同出现矩阵表示成一阶向量，具体分解方法如下：

步骤S401：将三阶张量X近似地表示为有限个秩为一的张量外积和，即c_r，成分个数R为APP协同出现矩阵向量表示的维数；

6.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S5)中，计算两个APP的向量表示之间的欧式距离D_i，j，随后，利用排序算法连接所有APP，若两个APP被相连，则认为这两个APP是重打包关系。

7.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S5)具体包括：

步骤S503：若两个APP被相连，则认为它们是重打包关系。

8.根据权利要求1所述基于张量分解的安卓APP重打包检测方法，其特征在于，步骤S1)中第三方库过滤具体使用过滤工具libradar。