CN107169323A

CN107169323A - 一种基于布局簇图的安卓应用重打包检测方法

Info

Publication number: CN107169323A
Application number: CN201710328770.2A
Authority: CN
Inventors: 岳胜涛; 马骏; 陶先平; 吕建
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2017-09-15
Anticipated expiration: 2037-05-11
Also published as: CN107169323B

Abstract

本发明提供了一种基于布局簇图的安卓软件重打包检测方法，其特征在于，包括以下步骤：1.1、动态执行安卓应用，收集用户界面信息，包括安卓应用运行时的布局、用户触发交互行为后的布局的变化与跳转；1.2、通过获得的应用布局所包含的用户界面信息构造布局簇图，并将布局簇图作为应用的软件胎记；1.3、通过比较布局簇图的相似度来判断应用之间是否重打包。本发明的软件重打包检测方法提供了动态执行安卓应用的策略，提高了对代码混淆与加这两类反检测方式的抵抗性，提高了安卓应用重打包检测的精确性。

Description

一种基于布局簇图的安卓应用重打包检测方法

技术领域

本发明专利涉及软件应用，软件胎记，重打包检测以及应用模糊算法领域，尤其涉及一种基于布局簇图的安卓应用重打包检测方法。

背景技术

近年来，随着移动设备的普及，基于移动设备的安卓应用数量不断增加。然而，通过已有的逆向工程工具，安卓应用可以被修改、重新打包并发布。攻击者利用安卓应用的流行性，向应用中插装广告、恶意程序来达到一些非法的目的。一些非官方的或者第三方的应用市场更是助长了这一现象。对这类安卓应用重打包的常见的检测思路就是生成应用的软件胎记，然后通过比较软件胎记来计算应用之间的相似程度。按照生成软件胎记的方式划分，可分为静态生成和动态生成。但是，攻击者们为了防止重打包的应用被识别出来，会对应用进行反检测处理，例如代码混淆或者软件加密。静态生成的软件胎记并不能很有效的抵抗一些代码混淆的攻击；而当安卓应用被加密之后，静态方法几乎难以产生效果。现有的动态生成软件胎记方式仍有不足，对代码的等价语义变换同样会影响这些胎记的效果。

发明内容

本发明主要针对上述不足，提出了一种基于布局簇图的安卓应用重打包检测方法。

该方法基于以下现实：攻击者在重打包应用时，为了利用原应用的流行性，总是使得重打包后的应用保持相似的界面与行为。因此，我们提出了布局簇图，一个用于描述安卓应用用户界面和行为的数据结构，并将此作为安卓应用的软件胎记用于判断安卓应用是否重打包。

本发明具体提供的功能包括：

1)自动化地执行并遍历安卓应用；

2)收集安卓应用用户界面信息；

3)反馈安卓应用界面之间的相似度；

4)反馈安卓应用的软件胎记；

5)提供安卓应用之间的相似度；

6)检测安卓应用是否重打包。

本发明的技术方案为：基于布局簇图的安卓应用重打包检测方法，主要过程包括：

1.1 动态执行安卓应用，收集用户界面信息，包括安卓应用运行时的布局、用户触发交互行为后的布局的变化与跳转；

1.2 通过获得的应用布局所包含的用户界面信息构造布局簇图，并将布局簇图作为应用的软件胎记；

1.3 通过比较布局簇图的相似度来判断应用之间是否重打包。

安卓应用的布局是指安卓应用运行时刻呈现给用户的界面的结构信息，由一系列的View Group以及View所构成。该视觉结构是安卓应用开发者设计出并用于用户交互的应用界面，会随着应用运行状态的不同而改变。

交互行为S包括点击、长按、左右滑动、上下滑动、菜单、返回、主桌面。

基于布局簇图的安卓应用重打包检测方法，其描述安卓应用运行时用户界面信息的数据模型布局簇图特征在于：

数据模型布局簇图是一个有向图，G＝(C，E，A，α)。其中，C表示一簇相似的布局，E表示簇的转移，A为交互行为集合，α为E到A的映射；

G的节点c∈C，表示一簇相似的布局，即当用户布局之间的相似度大于一个阈值时，这些用户布局将会被划分到同一个的簇中，该簇被作为图的一个节点；图的边e＝c₁→c₂表示簇c₁到c₂的转移，即当用户对布局l₁上的控件进行一次交互行为a＝α(e)之后，l₁会跳转到布局l₂，其中l₁∈c₁，l₂∈c₂,a∈A,A为交互行为集合，α为E到A的映射，通过该映射，我们可以得到任意一次转移所触发的行为。

构建布局簇图过程中，布局之间的相似度、布局簇之间的相似度、边的相似度的计算方法包含以下步骤：

3.1 首先获取布局的视图层次树；

3.2 然后将视图层次树以宽度优先遍历的顺序、以视图类名为元素展开为一维向量；

3.3 以视图类名为单位，计算向量之间的编辑距离；

3.4 归一化编辑距离，并将归一化后的值作为对应的用户界面之间的相似度。所述归一化编辑距离是指：设待比较的2个布局l₁，l₂，其节点个数分别为N₁，N₂，生成对应的2个一维向量v₁，v₂，它们的编辑距离为D(v₁,v₂)，那么最后得到的归一化编辑距离为：

3.5 布局簇c₁，c₂之间的相似度则由两个簇中相似度最大的一对布局决定，计算公式如下：

3.6 边e₁＝c₁→c₂，e₂＝c₃→c₄，e₁，e₂的相似度为两个边上对应的节点(起点对起点，终点对终点)的相似度的均值，其计算公式如下：

动态执行安卓应用并构造布局簇图的过程的特征在于一个启发式循环算法，包括以下步骤：

2.1 对布局中的每一个可交互控件赋予一个权重，称为控件权重；对每一个控件的每一个可交互行为赋予一个权重，称为行为权重。2.2在构造布局簇图时，不断更新这两类权重，并根据更新后的权重随机选取交互控件与行为，即权重越大，对应的控件或者行为被选择的可能性也越高；2.3在所选控件上执行所选行为，更新布局簇图；2.4当循环计数达到设定的阈值，跳出循环，输出布局簇图。

所述的启发式循环算法具体特征为：

在循环开始前，可交互的行为集合A由用户指定，所有的控件权重和行为权重都初始化为一个相同的值：10，并初始化一个空的布局簇图。

进入主循环后：首先需要获取当前的布局l以及该布局所属的布局簇c。由于每次获取的布局都是从当前的原始布局数据得到的新实例，所以该布局l当中的权重信息全是初始值。为了获取当前布局l的正确权重，需要在布局簇图中查找与l最相似的布局l_m，如果两者相似度大于一个阈值，那么l_m的权重就会被复制给l，且l_m所属的簇即为c；否则l为一个未曾遍历的布局，其中的权重为初始值是正确的，并且还需要生成一个新的图的节点，即一个新的布局簇，作为l的所属簇c_n。应用启动后的首个布局记为l_s，所属簇为c_s。

获取到当前布局后，判断当前布局所属簇与c_s在布局簇图中的距离k(即图中节点的距离)。如果k小于一个阈值δ_k，则根据当前布局中各个控件的控件权重，带权重的随机挑选一个可交互控件：当控件权重越高，对应控件被选择概率也就越大，反之则相反；根据挑选的控件中的行为权重，用同样的方式带权重的随机挑选一个可交互行为。每次的挑选列表除了包含布局中本身就存在的各个控件，还添加了3个特殊的控件，包括：返回按钮，菜单按钮和主桌面按钮，这三个控件各自的可交互行为即为交互行为中的返回、菜单、主桌面。如果k大于δ_k，则挑选的交互控件被指定为：返回按钮，挑选的可交互行为被指定为：返回。

当在挑选的控件执行完挑选的行为后，将执行后的布局簇(即节点)以及本次布局转移(即边)添加到布局簇图中。如果布局簇图有变化，即图的节点数或边数有变化，那么当前选择的节点的权重和行为的权重会增加，增加的值为1+w_a，其中，w_a跳转后的布局中控件权重的平均值；反之减少1。

循环会有一个计数器用于终止循环。当每次执行完行为后，如果布局簇图有变化，则该计数器清零；反之则增加1。当计数值达到一个阈值δ_c时，循环跳出，算法结束。

步骤1.3的特征在于一个布局簇图相似度计算方法，当一对布局簇图之间的相似度大于阈值δ_l时，对应的两个应用被判断为重打包。

上述的重打包检测方法中，布局簇图相似度计算方法是指：将一对布局簇图转化为一个二部图，通过计算二部图带权最大匹配值得到布局簇图之间的相似度。

所述布局簇图转为二部图的特征为：设2个布局簇图G₁和G₂，二部图的节点集由2个不相交的节点集V₁和V₂组成，V₁和V₂分别对应G₁与G₂的边G₁.E与G₂.E，也就是说原布局簇图的边对应二部图的节点；二部图的边集为V₁×V₂，即该二部图为完全图；二部图边上含有权值，权值为二部图边所连接的2个节点相似度Sim_e(e₁，e₂)，其中e₁，e₂为二部图节点对应原布局簇图的边。二部图转化完成后，计算带权重的二部图最大匹配，得到在最大匹配情况下权值和M。最后将权值和归一化后的值作为原图的相似度，设N₁和N₂分别代表G₁与G₂的节点个数，图相似度计算公式如下：

本发明与现有技术相比，其显著优点在于：现有技术难以对被加密了的应用进行有效的检测，使得重打包检测的对象受到很大的限制。而本发明则提供了动态执行安卓应用的策略，提高了对代码混淆与加密这两类反检测方式的抵抗性，降低了对重打包检测对象的限制要求，提高了安卓应用重打包检测的精确性。

附图说明

图1为本发明实施例的基于布局簇图的安卓应用重打包检测方法的系统框图。

图2为本发明实施例的实现框架图。

图3为本发明实施例的布局转为对应一维向量示例图。

图4为本发明实施例的图生成算法流程图。

图5为本发明实施例的图相似度计算流程图。

具体实施方式

下面结合本发明实例中的附图，对本发明实施例中的技术方案进行清楚、完整地的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

1.主要过程

图1所示为本发明提供的一种基于布局簇图的安卓应用重打包检测方法的系统框图，图1中：

对于待比较的两个安卓应用，我们分别动态执行这两个应用，收集应用运行时的用户界面信息，包括安卓应用运行时的布局、用户触发交互行为后的布局的变化与跳转。然后通过图生成器，将应用布局所包含的用户界面信息转化为布局簇图，该图将作为应用的软件胎记。最后，计算两个安卓应用对应的布局簇图的相似度，用于确定应用是否重打包。

图2所示为本发明基于上述系统的一个实现框架图，主要由三个部分组成：安卓系统端、中间代理端和策略执行端。安卓系统端负责在安卓设备上的行为执行和数据获取，行为执行包括安装/卸载应用、启动/结束应用、对当前应用的交互行为(点击、长按、左右滑动、上下滑动、菜单、返回、主桌面)，数据获取包括获取系统会话堆栈、系统窗口堆栈、当前布局层次、系统日志；策略执行端负责生成布局簇图，具体的生成策略参见图4：图生成算法；中间代理端负责为策略执行端和安卓系统端提供数据交互，该部分通过Socket与安卓系统端连接，向安卓系统端发送和接受命令与数据，接受到的数据传递给策略执行端供其进行策略执行。

2.布局簇图

所述交互行为包括点击、长按、左右滑动、上下滑动、菜单、返回、主桌面

所述的布局簇图是一个有向图，G＝(C，E，A，α)。其中，G的节点c∈C，表示一簇相似的布局，即当用户布局之间的相似度大于一个阈值时，这些用户布局将会被划分到同一个的簇中，该簇被作为图的一个节点；图的边e＝c₁→c₂表示簇c₁到c₂的转移，即当用户对布局l₁上的控件进行一次交互行为a＝α(e)之后，l₁会跳转到布局l₂，其中l₁∈c₁，l₂∈c₂,a∈A,A为交互行为集合，α为E到A的映射，通过该映射，我们可以得到任意一次转移所触发的行为。

3.布局相似度算法

本发明所述的布局相似度算法可用于计算安卓应用的布局相似程度，无论该布局是静态布局XML文件中的还是运行时动态获取的布局XML数据。我们获取到的布局都是XML格式，其数据结构可被看作为一棵树，整棵树代表该布局层次，树的节点代表布局中对应的控件。我们将这棵树以宽度优先遍历的顺序展开为一个向量，向量中的元素为树节点中的控件类名。以视图类名为单位，计算向量之间的编辑距离。设待比较的2个布局l₁，l₂，其节点个数分别为N₁，N₂，我们生成了对应的2个一维向量v₁，v₂，它们的编辑距离为D(v₁，v₂)，那么最后得到的归一化编辑距离为：

以图3为例，图中展示了2个布局l₁，l₂转为对应一维向量的结果，根据上述定义，图中的2个一维向量之间的编辑距离D(v₁，v₂)为1，最后得到相似度为

布局簇c₁，c₂之间的相似度则由两个簇中相似度最大的布局决定，计算公式如下：

边e₁＝c₁→c₂，e₂＝c₃→c₄，e₁，e₂的相似度为两个边上对应的节点(起点对起点，终点对终点)的相似度的均值，其计算公式如下：

4.图生成算法

本发明所述的图生成算法流程图如图4所示。该算法为一个启发式的界面遍历策略，其总体思想为：对布局中的每一个可交互控件赋予一个权重，称为控件权重；对每一个控件的每一个可交互行为赋予一个权重，称为行为权重。在构造布局簇图时，不断更新这两类权重，并根据更新后的权重随机选取交互控件与行为，即权重越大，对应的控件或者行为被选择的可能性也越高。

所述的启发式循环算法具体特征为：

在循环开始前，所有的控件权重和行为权重都初始化为一个相同的值：10，并初始化一个空的布局簇图。

进入主循环后：首先需要获取当前的布局l以及该布局所属的布局簇c。由于每次获取的布局都是从当前的原始布局数据得到的新实例，所以该布局l当中的权重信息全是初始值。为了获取当前布局l的正确权重，我们需要在布局簇图中查找与l最相似的布局l_m，如果两者相似度大于一个阈值，那么l_m的权重就会被复制给l，且l_m所属的簇即为c；否则l为一个未曾遍历的布局，其中的权重为初始值是正确的，并且还需要生成一个新的图的节点，即一个新的布局簇，作为l的所属簇c_n。

获取到当前布局后，根据当前布局中各个控件的控件权重，我们带权重的随机挑选一个可交互控件：当控件权重越高，对应控件被选择概率也就越大，反之则相反；根据挑选的控件中的行为权重，我们用同样的方式带权重的随机挑选一个可交互行为。每次的挑选列表除了包含布局中本身就存在的各个控件，我们还添加了3个特殊的控件，包括：返回按钮，菜单按钮和主桌面按钮，这三个控件各自的可交互行为是所述的交互行为中的返回、菜单、主桌面。当在挑选的控件执行完挑选的行为后，我们会将执行后的布局簇(即节点)以及本次布局转移(即边)添加到布局簇图中。如果布局簇图有变化，即图的节点数或边数有变化，那么当前选择的节点的权重和行为的权重会增加，增加的值为1+w_a，其中，w_a跳转后的布局中控件权重的平均值；反之减少1。

循环会有一个计数器用于终止循环。当每次执行完一次行为后，如果布局簇图有变化，则该计数器清零；反之则增加1。当计数值达到一个阈值δ_c时，循环跳出，算法结束。

5.图相似度计算

本发明所述的图相似度计算如图5流程图所示。我们首先将布局簇图转化为一个二部图。设2个布局簇图G₁和G₂，二部图的节点集由2个不相交的节点集V₁和V₂组成，V₁和V₂分别对应G₁与G₂的边G₁.E与G₂.E，也就是说原布局簇图的边对应二部图的节点；二部图的边集为V₁×V₂，即该二部图为完全图；二部图边上含有权值，权值为二部图边所连接的2个节点相似度Sim_e(e₁，e₂)，其中e₁，e₂为二部图节点对应原布局簇图的边。二部图转化完成后，我们通过Kuhn-Munkres算法计算带权重的二部图最大匹配，得到在最大匹配情况下权值和为M。最后将M归一化后的值作为原图的相似度，设N₁和N₂分别代表G₁与G₂的节点个数，图相似度计算公式如下：

以上的实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。本发明未涉及的技术均可通过现有的技术加以实现。

Claims

1.一种基于布局簇图的安卓软件重打包检测方法，包括一个描述安卓应用运行时用户界面信息的数据模型——布局簇图，其特征在于，包括以下步骤：

1.1、动态执行安卓应用，收集用户界面信息，包括安卓应用运行时的布局、用户触发交互行为后的布局的变化与跳转；

1.2、通过获得的应用布局所包含的用户界面信息构造布局簇图，并将布局簇图作为应用的软件胎记；

1.3、通过比较布局簇图的相似度来判断应用之间是否重打包。

2.根据权利要求1所述的重打包检测方法，其特征在于，采用启发式循环算法动态执行安装应用并构造布局簇图，包括以下步骤：

2.1对布局中的每一个可交互控件赋予一个权重，称为控件权重；对每一个控件的每一个可交互行为赋予一个权重，称为行为权重；可交互行为的范围能够由用户指定；

2.2在构造布局簇图时，不断更新控件权重及行为权重，并根据更新后的权重随机选取交互控件与行为，权重越大，对应的控件或者行为被选择的可能性也越高；

2.3在所选控件上执行所选行为，更新布局簇图；

2.4当循环计数达到设定的阈值，跳出循环，输出布局簇图。

3.根据权利要求2所述的重打包检测方法，其特征在于，启发式循环算法具体包括：

在循环开始前，所有的控件权重和行为权重都初始化为一个相同的值，并初始化一个空的布局簇图；

进入主循环后：首先需要获取当前的布局l以及该布局所属的布局簇c；在布局簇图中查找与l最相似的布局l_m，如果两者相似度大于一个阈值，则将l_m的权重复制给l，且l_m所属的簇即为c；否则l为一个未曾遍历的布局，其中的权重均为初始值，并且还需要生成一个新的图的节点，即一个新的布局簇，作为l的所属簇c_n；应用启动后的首个布局记为l_s，所属簇为c_s；

获取到当前布局后，判断当前布局所属簇与c_s在布局簇图中的距离k；如果k小于一个阈值δ_k，则根据当前布局中各个控件的控件权重，带权重的随机挑选一个可交互控件；根据挑选的控件中的行为权重，带权重的随机挑选一个可交互行为；

如果k大于δ_k，则挑选的交互控件被指定为：返回按钮，挑选的可交互行为被指定为：返回；

当在挑选的控件执行完挑选的行为后，将执行后的布局簇，即节点，以及本次布局转移，即边，添加到布局簇图中；如果布局簇图有变化，即图的节点数或边数有变化，那么当前选择的节点的权重和行为的权重会增加，反之减少；

当每次执行完行为后，如果布局簇图有变化，则计数器清零；反之则增加1；当计数值达到一个阈值δ_c时，循环跳出，算法结束。

4.根据权利要求3所述的重打包检测方法，其特征在于：如果布局簇图有变化，那么当前选择的节点的权重和行为的权重会增加，增加的值为1+w_a，其中，w_a为跳转后的布局中控件权重的平均值；反之减少1。

5.根据权利要求2或3所述的重打包检测方法，其特征在于：构建布局簇图过程中，布局之间的相似度、布局簇之间的相似度、边的相似度的计算方法包含以下步骤：

3.1首先获取布局的视图层次树；

3.2然后将视图层次树以宽度优先遍历的顺序、以视图类名为元素展开为一维向量；

3.3以视图类名为单位，计算向量之间的编辑距离；

3.4归一化编辑距离，并将归一化后的值作为对应的用户界面之间的相似度；

3.5两个簇中相似度最大的一对布局决定布局簇c₁，c₂之间的相似度；

3.6两个边上对应的节点的相似度的均值为边e₁，e₂的相似度；e₁＝c₁→c₂，e₂c₃→c₄。

6.根据权利要求5所述的重打包检测方法，其特征在于：

3.4中，所述归一化编辑距离是指：设待比较的2个布局l₁，l₂，其节点个数分别为N₁，N₂，我们生成了对应的2个一维向量v₁，v₂，它们的编辑距离为D(v₁，v₂)，那么最后得到的归一化编辑距离为：

3.5中，布局簇c₁，c₂之间的相似度则由两个簇中相似度最大的一对布局决定，计算公式如下：

<mrow> <msub> <mi>Sim</mi> <mi>S</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>&Element;</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <msub> <mi>c</mi> <mn>2</mn> </msub> </mrow> </munder> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>l</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>l</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow>

3.6中，边e₁＝c₁→c₂，e₂＝c₃→c₄，e₁，e₂的相似度为两个边上对应的节点的相似度的均值，其计算公式如下：

7.根据权利要求1所述的重打包检测方法，其特征在于，布局簇图相似度计算方法为：将一对布局簇图转化为一个二部图，通过计算二部图带权最大匹配值得到布局簇图之间的相似度。

8.根据权利要求7所述的重打包检测方法，其特征在于：

布局簇图转为二部图的特征为：设2个布局簇图G₁和G₂，二部图的节点集由2个不相交的节点集V₁和V₂组成，V₁和V₂分别对应G₁与G₂的边G₁.E与G₂.E，也就是说原布局簇图的边对应二部图的节点；二部图的边集为V₁×V₂，即该二部图为完全图；二部图边上含有权值，权值为二部图边所连接的2个节点相似度Sim_e(e₁，e₂)，其中e₁，e₂为二部图节点对应原布局簇图的边；二部图转化完成后，计算带权重的二部图最大匹配，得到在最大匹配情况下权值和M。最后将权值和归一化后的值作为原图的相似度，设N₁和N₂分别代表G₁与G₂的节点个数，图相似度计算公式如下：

9.根据权利要求1或7所述的重打包检测方法，其特征在于：当一对布局簇图之间的相似度大于阈值δ₁时，对应的两个应用被判断为重打包。

10.根据权利要求1所述的重打包检测方法，其特征在于：所述安卓应用运行时的布局是指安卓应用运行时刻呈现给用户的界面的结构信息，由一系列的View Group以及View所构成，该视觉结构是用于用户交互的应用界面，会随着应用运行状态的不同而改变；

所述交互行为包括点击、长按、左右滑动、上下滑动、菜单、返回、主桌面；

所述数据模型——布局簇图是一个有向图，G＝(C，E，A，α)；其中，G的节点c∈C，表示一簇相似的布局，即当用户布局之间的相似度大于一个阈值时，这些用户布局将会被划分到同一个的簇中，该簇被作为图的一个节点；图的边e＝c₁→c₂表示簇c₁到c₂的转移，即当用户对布局l₁上的控件进行一次交互行为a＝α(e)之后，l₁会跳转到布局l₂，其中l₁∈c₁,l₂∈c₂,a∈A,A为交互行为集合，α为E到A的映射，通过该映射，能够得到任意一次转移所触发的行为。