CN111222136A

CN111222136A - 恶意应用归类方法、装置、设备及计算机可读存储介质

Info

Publication number: CN111222136A
Application number: CN201811410420.1A
Authority: CN
Inventors: 王继刚; 钟宏; 何剑
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2020-06-02
Anticipated expiration: 2038-11-23
Also published as: CN111222136B

Abstract

本公开提供了一种恶意应用归类方法、装置、设备及计算机可读存储介质，通过提取各恶意应用样本的特征，并计算各恶意应用样本中，各特征对应的权重值，进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值，并根据所述关联值构建恶意应用样本的连接关系图，最后基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。可见，本公开可自动化的实现恶意应用的归类，极大地节约人力成本；同时整个归类过程很简单，对于机械设备而言可以在很短的时间内归类完毕，具有高效性。此外，本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的特征来确定各恶意应用之间的关联度的，进而实现归类的，因而也具有较高的准确性。

Description

恶意应用归类方法、装置、设备及计算机可读存储介质

技术领域

本公开涉及但不限于应用安全领域，具体而言，涉及但不限于一种恶意应用归类方法、装置、设备及计算机可读存储介质。

背景技术

恶意应用家族分类(即恶意应用归类)是指根据恶意应用行为特征对其进行家族分类和命名，进而基于已有的样本家族信息可初步确定其恶意功能、攻击目的和攻击来源，在应用安全领域有着重要的作用。现存的许多基于有监督学习的恶意应用家族分类方法无法应对新的恶意应用样本，而对于部分传统的无监督式分类方法，其检测率有待提高。因此，开发一种准确、高效、自动化的恶意应用归类方法有重要的现实意义。

发明内容

本公开实施例提供一种恶意应用归类方法、装置、设备及计算机可读存储介质，主要解决的技术问题是：提供一种新的恶意应用归类方式。

为解决上述技术问题，本公开实施例提供了一种恶意应用归类方法，包括：

提取各恶意应用样本的特征；

计算各恶意应用样本中，各特征对应的权重值；

根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；

基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类。

本公开实施例还提供了一种恶意应用归类装置，包括：特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块；

所述特征提取模块用于提取各恶意应用样本的特征；

所述特征权值计算模块用于计算各恶意应用样本中，各特征对应的权重值；

所述关系图构建模块用于根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图；

所述样本归类模块用于基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类。

本公开实施例还提供了一种恶意应用归类设备，包括：处理器、存储器以及通信总线；

所述通信总线用于实现所述处理器和存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现上述恶意应用归类方法的步骤。

本公开实施例还提供一种计算机可读存储介质，所述计算机可读计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现上述恶意应用归类方法的步骤。

本公开的有益效果是：

本公开实施例提供的恶意应用归类方法、装置、设备及计算机可读存储介质，通过提取各恶意应用样本的特征，并计算各恶意应用样本中，各特征对应的权重值，进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值，并根据所述关联值构建恶意应用样本的连接关系图，最后基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。可见，本公开可自动化的实现恶意应用的归类，极大地节约人力成本；同时整个归类过程很简单，对于机械设备而言可以在很短的时间内归类完毕，具有高效性。此外，本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的行为特征来确定各恶意应用之间的关联度的，进而实现归类的，因而也具有较高的准确性。

本公开其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本公开说明书中的记载变的显而易见。

附图说明

图1为本公开实施例一提供的一种恶意应用归类方法的基本流程示意图；

图2为本公开实施例一提供的一种连接关系图构建过程示意图；

图3为本公开实施例二提供的一种安卓恶意应用归类方法的流程示意图；

图4为本公开实施例二提供的一种E-N算法流程图；

图5为本公开实施例三提供的一种恶意应用归类装置的结构示意图；

图6为本公开实施例三提供的一种更具体的恶意应用归类装置的结构示意图；

图7为本公开实施例四提供的一种恶意应用归类设备的结构示意图。

具体实施方式

现在将参考附图更详细地描述本公开构思的各个实施例。但是，本公开构思可被以很多不同的形式具体实施，并且不应被理解为仅限于所示出的实施例。相反，提供这些实施例以使本公开将会透彻和完整，并且将向本领域技术人员全面地传达本公开构思的范围。贯穿上面描述和附图，相同的参考数字和标记代表相同或者类似的元素。

应当理解的是，尽管这里可能使用术语第一、第二等来描述各种元件或操作，但是这些元件或操作不应被这些术语限制。这些术语只被用来将一个元件或操作与另一个加以区分。例如，第一特征可以被称为第二特征，并且类似地，第二特征可以被称为第一特征而不偏离本公开的教导。

这里使用的术语仅仅是为了描述特定实施例，并非旨在限制本公开构思。如这里所使用的，单数形式“一”、“一个”和“该”预期也包括复数形式，除非上下文清楚地另有指示。还应当理解的是，术语“包含”或“包括”在本说明书中被使用时，规定了存在所陈述的特征、区域、部分、步骤、操作、元件，和/或部件，但是不排除存在或者添加一个或更多个其他的特征、区域、部分、步骤、操作、元件、部件，和/或其组。

除非另外定义，否则这里使用的所有术语(包括技术和科学术语)具有和本公开所属技术领域的技术人员通常理解的相同的含义。还应当理解的是，例如在常用词典中定义的那些的术语应该被解释为具有与其在相关技术和/或本公开的上下文中的含义相符的含义，并且将不会以理想化或者过于形式化的意义解释，除非这里明确地如此定义。

下面通过具体实施方式结合附图对本公开实施例作进一步详细说明。

实施例一：

参见图1所示，图1为本公开实施例一提供的恶意应用归类方法，包括：

S101：提取各恶意应用样本的特征；

需要说明的是，在实际应用过程中，在执行步骤A101之前，应当还存在采集恶意应用数据，构成恶意应用样本集的过程。即本公开实施例中进行归类的恶意应用即为恶意应用样本集中的恶意应用。

该采集恶意应用数据，构成恶意应用样本集的过程，可以是由执行本实施例所提供的恶意应用归类方法的设备自动来执行的，但也可以是由工程师等相关人员来执行的(即也可以是由工程师收集得到恶意应用样本集并输入给执行本实施例所提供的恶意应用归类方法的设备的)。

在本实施例中，特征可以是静态特征。在本实施例中，静态特征可以包括应用权限、API(Application Program Interface，应用程序接口)等等。例如，在本实施例的一种具体实施方式中，静态特征可以包括应用权限、API中的至少一种。

需要说明的是，在设定提取的特征为静态特征时，可以在不运行应用程序的情况下，通过控制流分析、语法词法分析、数据流分析等方式对反汇编后的程序进行的源码级分析，无需运行代码，无需像动态分析那改写安卓系统源码、也不需要要求用户对系统进行重定制和安装定制版ROM，因此整个特征提取过程速度快且轻量级。

还需要说明的是，对于一个恶意应用样本而言，其存在提取出的特征往往不止一种，而是一个包含多种特征的特征集合。因此，对于不同的恶意应用样本而言，其提取出的特征可能会存在相同的特征。

S102：计算各恶意应用样本中，各特征对应的权重值；

在本实施例中，可以计算各恶意应用样本中，各特征的词频-逆向文件频率(termfrequency–inverse document frequency，tf-idf)的值，进而以tf-idf值作为各恶意应用样本中各特征对应的权重值。

具体的，可以根据公式

计算得到各恶意应用样本中各特征对应的权重值；

其中，tf_ab为特征a在样本b中出现的频率，n为恶意样本集中样本总数(即用到的所有恶意应用样本的总数)，s_a为含有特征a的恶意应用样本的总数。

例如，设恶意应用样本i中有2种特征a和b,在样本i出现次数分别为3次和1次。设恶意样本集中样本总数为n,其中含有特征a的样本数为s_a,含有特征b的样本数为s_b.则恶意样本i中特征a对应的权值为

特征b对应的权值为

S103：根据各特征对应的权重值，计算恶意应用样本中两两样本间的关联值，并根据计算出的关联值构建恶意应用样本的连接关系图；

参见图2所示，步骤S103具体可以包括以下步骤：

S1031：获取两个恶意应用样本中的共有特征分别在这两个恶意应用样本中的权重值；

需要说明的是，本实施例中所述的共有特征为在两个恶意应用样本中均存在的特征。例如在样本1中存在特征a，而在样本2中也存在特征a，那么特征a即为样本1和样本2的共有特征。

S1032：根据获取到的共有特征分别在这两个恶意应用样本中的权重值，计算两个恶意应用样本的关联值；

在本实施例中一种具体实施方式中，可以设定关联值为共有特征分别在这两个恶意应用样本中的权重值之和。具体的：

可以根据公式G_ijG_ij＝∑_a(tf-idf_ai+tf-idf_aj)计算所述两个恶意应用样本的关联值；其中，G_ij为恶意应用样本i和恶意应用样本j的关联值，a为样本i和样本j的共有特征，tf-idf_ai和tf-idf_aj分别为共有特征在所述两个恶意应用样本中的权重值，需要对所有共有特征的权重值进行累加。

需要说明的是，关联值的计算方式可以是工程师根据实际需要进行设计的。例如在本实施例的另一具体实施方式中，可以设定关联值为共有特征在这两个恶意应用样本中的权重值的平均值。

S1033：在关联值大于预设阈值时，连接两个恶意应用样本；

需要说明的是，本实施例中的预设阈值可以由工程师根据实际需要或大量实验值进行设定。在关联值大于预设阈值时，即表明这两个恶意应用样本具有较高的相似性，可以将这两个恶意应用样本连接。

需要注意的是，如前文所述，对于一个恶意应用样本而言，其存在提取出的特征往往不止一种，而是一个包含多种特征的特征集合。因此可能存在对于两个恶意应用样本而言，其存在的共有特征不止一种的情况(即两个恶意应用样本存在N(N大于等于2)个共有特征的情况)，在这种情况下，需要对所有共同特征的权重值进行累加。

具体可以通过以下方式进行处理：

在两个恶意应用样本存在N(N大于等于2)个共有特征时，可以根据各共有特征分别在这两个恶意应用样本中的权重值，分别计算各共有特征对应的关联值，这样就会得到这两个恶意应用样本的N个关联值；进而可以在这N个关联值中的任意一个关联值大于预设阈值时，即连接两个恶意应用样本。

例如，设预设阈值为G0，样本1和样本2的共有特征为特征A和特征B，设关联值根据公式G_ij＝(tf-idf_ai)+(tf-idf_aj)计算，设特征A在样本1和样本2中的权重值分别为A1和A2，特征B在样本1和样本2中的权重值分别为B1和B2。此时则会计算出样本1和样本2的两个关联值

和

其中

此时只要

和

中的任意一个值大于G0时，即连接样本1和样本2。

S1034：判断是否存在未计算过的两两样本；若存在，转至步骤S1301；否则，结束。

在本实施例中，通过不断重复步骤S1301至S1303，可以计算出恶意应用样本中所有两两样本间的关联值，进而确定这些恶意应用样本两两间是否需要连接。

应当理解的是，在实际应用过程中，在计算出恶意应用样本中所有两两样本间的关联值之后，可能会出现存在孤立样本的情况。对此，在本实施例的一种具体实施方式中，针对各孤立样本，可以获取距离各孤立样本最近的k个恶意应用样本，将各孤立样本分别与所述k个恶意应用样本连接。

这里需要解释的是，本实施例中孤立样本是指没有与任何恶意应用样本进行连接的恶意应用样本。

在本实施例中，在完成了样本间的连接后，即实现了恶意应用样本的连接关系图的构建。

S104：基于该连接关系图，采用社区划分算法对各恶意应用样本进行归类。

在本实施例中，可以采用拓扑分析类算法进行样本归类，例如采用Fast Greedy、Multi Level、Edge-Betweenness等算法进行样本归类。在本实施例中，也可以采用流分析类算法进行样本归类，例如采用Walk Trap、Label Propagation、Infomap等算法进行样本归类。

在本实施例的一种具体实施方式中，可以采用Infomap算法将连接关系图划分为至少一个独立社区，每个独立社区中的恶意应用样本为同一类恶意应用。具体的，可以假设图中有信息流流动，边的连接情况及权重会影响信息流的流动方向。社区内部连接紧密，社区外部连接稀疏，信息流更倾向于在社区内部流动。如果为每个节点进行编码，则信息流可以表述为编码的集合。定义目标函数为所有社区的平均编码长度。找到使目标函数最小的划分，即得到社区的划分。随后算法输出每个样本的社区编号。

值得注意的是，为了便于进行关联值的计算，在本实施例中可以将各恶意应用样本用向量的形式标识，此时恶意应用样本中的各特征以及各特征对应的权重值即构成向量的基本元素。具体的，在本实施例中可以通过以下两种方式来生成用以表征恶意应用样本的向量：

方式1：可以在提取各恶意应用样本的特征之后，即对各恶意应用样本的特征进行数据化处理；进而根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量。然后，在计算出各恶意应用样本中各特征对应的权重值之后，将各恶意应用样本的基础特征向量中，各特征的权重值调整为计算出的各恶意应用样本中各特征对应的权重值，得到各恶意应用样本的最终特征向量。

例如，设提取到的样本1中的特征有A、B、C三种，则在提取出样本1中的特征A、B、C后，即对特征A、B、C进行数据化处理得到数据化的特征参数a、b、c。然后按照预设的向量生成模版(这里设预设的向量生成模版为x+y+z)生成基础特征向量a+b+c。这里设计算出的特征A在样本1中的权重值为2，特征B在样本1中的权重值为3，特征C在样本1中的权重值为5，则得到表征样本1的最终特征向量2a+3b+5c。

方式2：可以在计算出各恶意应用样本中各特征对应的权重值之后，将各恶意应用样本的特征数据化处理，并根据各恶意应用样本中各特征对应的权重值生成所述各恶意应用样本的最终特征向量。

例如，设提取到的样本1中的特征有A、B、C三种，设计算出的特征A在样本1中的权重值为2，特征B在样本1中的权重值为3，特征C在样本1中的权重值为5；设预设的向量生成模版为k₁x+k₂y+k₃z，其中x、y、z为特征参量，k₁、k₂、k₃为权重值参量；设对特征A、B、C进行数据化处理得到数据化的特征参数a、b、c。按照预设的向量生成模版即可直接生成表征样本1的最终特征向量2a+3b+5c。

这里需要说明的是，方式2中将各恶意应用样本的特征数据化处理的时间点也可以是在提取各恶意应用样本的特征之后，在计算出各恶意应用样本中各特征对应的权重值之前或之时。事实上将各恶意应用样本的特征数据化处理的过程和计算各恶意应用样本中各特征对应的权重值的过程之间并无严格的时序限制。

根据本公开实施例提供的恶意应用归类方法，通过提取各恶意应用样本的特征，并计算各恶意应用样本中，各特征对应的权重值，进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图，最后基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。可见，本公开可自动化的实现恶意应用的归类，极大地节约人力成本；同时整个归类过程很简单，对于机械设备而言可以在很短的时间内归类完毕，具有高效性。此外，本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的特征来确定各恶意应用之间的关联度的，进而实现归类的，因而也具有较高的准确性。

实施例二：

本实施例在实施例一的基础上，以运行在安卓平台上的恶意应用进行归类的过程为例，对本公开实施例所提供的方案作进一步描述说明。但应当理解的是，本公开实施例所提供的方案并不仅限于对安卓平台上的恶意应用进行归类，事实上其也可以实现对诸如IOS等平台的恶意应用进行归类。

参见图3所示，图3为本实施例提供的一种安卓恶意应用归类方法的流程示意图，包括：

步骤S310：采集恶意应用数据，构成应用样本数据集。

从不同渠道采集不同家族的安卓恶意应用样本，用采集的恶意应用样本数据构成应用样本数据集。在实际应用中，参见下表1所示，我们搜集了来自13个家族的共计3996个恶意应用。

表1恶意应用家族信息

步骤S320：提取数据集中样本特征，得到特征向量，并对特征向量进行权值调整。具体的：

(1)特征提取

各个应用样本进行特征提取。本发明实施例中采用静态分析技术对各个应用样本的.apk文件进行分析，提取了11个类型的共29967个特征，其中，每类特征包含了多个特征，将所有类型的特征组成特征集合。

根据特征的普遍性及特异性，特征可分为平台定义特征及样本特有特征。平台定义特征为安卓系统定义的，可适用于所有应用。样本特有特征是开发者自定义的，有时只适用于特定应用。详见表2。

表2特征类别描述

这里需要说明的是，对于“平台定义/样本特有”而言，即表明该特征可能是平台定义的特征，但也可能是样本所特有的特征。

(2)特征向量化

对上述特征集合格式化处理成向量格式，得到应用样本的特征向量集合。每一个特征向量代表一个应用样本，每个特征向量中包含应用样本的分类和特征数据。

(3)权值调整

使用tf-idf对特征向量的权值进行调整，区分出特征重要程度。tf-idf定义为：

其中tf_ab是特征a在样本b中出现的频率，n是样本集中样本总数，s_a是含有特征a的样本总数。

步骤S330、根据特征向量计算样本间权值，构建样本间关系图。

令两个样本间权值为两个样本的共同特征的tf-idf值之和，即G_ij＝∑_a(tf-idf_ai+tf-idf_aj)，其中是两个样本间的公共特征，对所有样本两两计算权值。，G_ij为所述两个恶意应用样本的关联值，a为样本i和样本j的共有特征，tf-idf_ai和tf-idf_aj分别为共有特征在所述两个恶意应用样本中的权重值，需要对所有共有特征的权重值进行累加。

在本实施例中，在构建样本间关系图时，将ε图和k-NN图结合提出E-N算法。具体的：

选定阈值ε，当两个样本间权值w_ij＞ε时，为两个样本建立连边，遍历所有样本。最后对于没有连边的孤立点，选取与它最近的k个点进行连边。此方法克服了单独使用k-NN算法建图的过度平衡问题，同时避免了单独使用ε图造成的孤立点问题。在算法时间复杂度上，比k-NN图更为高效。E-N算法具体过程可以参见下表和图4所示：

步骤S340：利用社区划分算法挖掘样本间潜在联系。

采用Infomap算法提取关系图中潜在结构。假设图中有信息流流动，边的连接情况及权重会影响信息流的流动方向。社区内部连接紧密，社区外部连接稀疏，信息流更倾向于在社区内部流动。如果为每个节点进行编码，则信息流可以表述为编码的集合。定义目标函数为所有社区的平均编码长度。找到使目标函数最小的划分，即得到社区的划分。随后算法输出每个样本的社区编号。

在本实施例中，可以将根据社区发现算法得出的应用样本的社区编号与原始家族编号进行对比，并可以通过以下评估指标评价社区划分的准确性。

令P＝{p₁，p₂，...p_n}为原始家族标签，C＝{c₁，c₂，...c_m}为划分后的社区标签。

(1)Rand Statistic(边缘统计，RS)

根据任意两个样本间关系评估关系图的划分情况。两个样本可有以下四种关系：ss表示两个样本在同一个家族且同一个社区，sd表示两个样本在同一个家族但不同社区，ds表示两个样本在不同家族但同一个社区，dd表示两个样本在不同家族且不同社区。N表示满足此关系的样本数。RS可定义为：

RS根据两个应用的原始类别信息与社区划分后的类别信息评估社区划分准确性。

(2)Accuracy(精确度，Acc)

采用最大匹配的匈牙利算法寻找社区编号与原始家族编号的对应。用以验证社区发现算法得出的社区划分的准确性。

其中δ(·)是Kronecker函数，f_map(·)是社区标签与家族标签间的最大映射关系，N是数据集样本总数。

社区划分的结果如表3和表4所示。

表3使用平台定义特征的3种建图方式准确率

表4使用所有特征的3种建图方式准确率

从上述两表可以看出，采用本实施例提供的E-N方式进行的社区划分准确率达标，尤其是在使用所有特征建图时，其准确率更是最高的。

此外，参见下表5所示，在时间复杂度上，k-NN图随着顶点增多时间复杂度增长很快，ε图虽然时间复杂度较低但孤立点问题无法解决。而本实施例中提出的E-N算法保持了ε图低复杂度优势，同时也解决了孤立点。

表5各算法时间复杂度(单位：秒)

顶点数	50	100	500	1000	2000
						k-NN图	115.70	235.75	1157.37	2283.81	4566.46
ε图	0.06	0.23	7.75	33.08	116.16
						E-N图	0.123	0.423	8.21	35.24	120.21

综上所述，本公开实施例的恶意应用归类方法联合两种建图方法，弥补各自的不足，得到比单一建图方法更好明晰的图结构，为社区发现提供可靠结构支持。同时，本公开实施例实现了构建恶意样本间关联关系，发现其中潜在社区的目的，无需指定类别个数，可用于检测新出现的恶意应用并对其进行归类。

实施例三：

本实施例提供了一种恶意应用归类装置。参见图5，图5为本实施例提供的一种恶意应用归类装置5，包括：特征提取模块51、特征权值计算模块52、关系图构建模块53和样本归类模块54。其中：

特征提取模块51用于提取各恶意应用样本的特征；

该采集恶意应用数据，构成恶意应用样本集的过程，可以是由本实施例所提供的恶意应用归类装置自动来执行的，但也可以是由工程师等相关人员来执行的(即也可以是由工程师收集得到恶意应用样本集并输入给本实施例所提供的恶意应用归类装置的)。

在本实施例中，特征可以是静态特征。在本实施例中，静态特征可以包括应用权限、API等等。例如，在本实施例的一种具体实施方式中，静态特征可以包括应用权限、API中的至少一种。

特征权值计算模块52用于计算各恶意应用样本中，各特征对应的权重值。

在本实施例中，可以计算各恶意应用样本中，各特征的tf-idf值，进而以tf-idf值作为各恶意应用样本中各特征对应的权重值。

具体的，可以根据公式

计算得到各恶意应用样本中各特征对应的权重值；

其中，tf_ab为特征a在样本b中出现的频率，n为所有恶意应用样本的总和(即n是样本集中的样本总数)，s_a为含有特征a的恶意应用样本的总数。

本实施例中，关系图构建模块53用于根据各特征对应的权重值，计算恶意应用样本中两两样本间的关联值，并根据计算出的关联值构建恶意应用样本的连接关系图。

具体的，关系图构建模块53可以通过以下步骤计算恶意应用样本中两两样本间的关联值，并根据计算出的关联值构建恶意应用样本的连接关系图：

步骤一：获取两个恶意应用样本中的共有特征分别在这两个恶意应用样本中的权重值；

需要说明的是，本实施例中所述的共有特征为在两个恶意应用样本中均存在的特征。

步骤二：根据获取到的共有特征分别在这两个恶意应用样本中的权重值，计算两个恶意应用样本的关联值；

可以根据公式G_ij＝∑_a(tf-idf_ai+tf-idf_aj)计算所述两个恶意应用样本的关联值；其中，G_ij为所述两个恶意应用样本的关联值，a为样本i和样本j的共有特征，tf-idf_ai和tf-idf_aj分别为共有特征在所述两个恶意应用样本中的权重值，需要对所有共有特征的权重值进行累加。需要说明的是，关联值的计算方式可以是工程师根据实际需要进行设计的。例如在本实施例的另一具体实施方式中，可以设定关联值为共有特征在这两个恶意应用样本中的权重值的平均值。

步骤三：在关联值大于预设阈值时，连接两个恶意应用样本；

具体可以通过以下方式进行处理：

步骤四：重复步骤一至三，直至计算出恶意应用样本中所有两两样本间的关联值。

应当理解的是，在实际应用过程中，在关系图构建模块53计算出恶意应用样本中所有两两样本间的关联值之后，可能会出现存在孤立样本的情况。对此，在本实施例的一种具体实施方式中，针对各孤立样本，关系图构建模块53可以获取距离各孤立样本最近的k个恶意应用样本，将各孤立样本分别与所述k个恶意应用样本连接。

在本实施例中，样本归类模块54用于基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。

值得注意的是，为了便于进行关联值的计算，在本实施例中可以将各恶意应用样本用向量的形式标识，此时恶意应用样本中的各特征以及各特征对应的权重值即构成向量的基本元素。具体的，参见图6所示，恶意应用归类装置5还包括特征数据化模块55和样本向量化模块56，此时特征数据化模块55和样本向量化模块56可以通过以下两种方式来生成用以表征恶意应用样本的向量：

方式1：特征数据化模块55可以在特征提取模块51提取各恶意应用样本的特征之后，对各恶意应用样本的特征进行数据化处理。然后样本向量化模块56即可根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量，接着在特征权值计算模块52计算出各恶意应用样本中各特征对应的权重值之后，样本向量化模块56即可将各恶意应用样本的基础特征向量中，各特征的权重值调整为计算出的各恶意应用样本中各特征对应的权重值，得到各恶意应用样本的最终特征向量。

方式2：特征数据化模块55可以在特征权值计算模块52计算出各恶意应用样本中各特征对应的权重值之后，对各恶意应用样本的特征进行数据化处理。然后样本向量化模块56即可根据各恶意应用样本中各特征对应的权重值以及进行数据化处理后的特征，生成各恶意应用样本的最终特征向量。

根据本公开实施例提供的恶意应用归类装置，通过通过提取各恶意应用样本的特征，并计算各恶意应用样本中，各特征对应的权重值，进而根据各特征对应的权重值计算恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图，最后基于连接关系图，采用社区划分算法对各恶意应用样本进行归类。可见，本公开可自动化的实现恶意应用的归类，极大地节约人力成本；同时整个归类过程很简单，对于机械设备而言可以在很短的时间内归类完毕，具有高效性。此外，本公开实施例提供的恶意应用归类方法是根据各恶意应用样本的特征来确定各恶意应用之间的关联度的，进而实现归类的，因而也具有较高的准确性。

实施例四：

本实施例提供了一种恶意应用归类设备，参见图7所示，其包括处理器71、存储器72以及通信总线73。其中：

通信总线73用于实现处理器71和存储器72之间的连接通信；

处理器71用于执行存储器72中存储的一个或者多个程序，以实现如实施例一和/或实施例二所述的恶意应用归类方法的步骤。

需要说明的是，本实施例中的恶意应用归类设备可以是终端，也可以服务器或其它后台设备。

本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically Erasable Programmable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本实施例提供的计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令可被一个或者多个处理器执行，以实现实施例一和/或实施例二所述的恶意应用归类方法的步骤。在此不再赘述。

本公开中，各个实施例中的技术特征，在不冲突的情况下，可以组合在一个实施例中使用。每个实施例仅仅是本公开的具体实施方式。

此外，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种恶意应用归类方法，包括：

提取各恶意应用样本的特征；

计算各恶意应用样本中，各特征对应的权重值；

2.如权利要求1所述的恶意应用归类方法，其特征在于，

在所述提取各恶意应用样本的特征之后，还包括：对所述各恶意应用样本的特征进行数据化处理，并根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量；在所述计算各恶意应用样本中各特征对应的权重值之后，还包括：将所述各恶意应用样本的基础特征向量中，各特征的权重值调整为计算出的所述各恶意应用样本中各特征对应的权重值，得到所述各恶意应用样本的最终特征向量；

或，

在所述计算各恶意应用样本中各特征对应的权重值之后，还包括：将所述各恶意应用样本的特征数据化处理，并根据各恶意应用样本中各特征对应的权重值生成所述各恶意应用样本的最终特征向量。

3.如权利要求2所述的恶意应用归类方法，其特征在于，所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值包括：

根据所述各最终特征向量中的各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值。

4.如权利要求1所述的恶意应用归类方法，其特征在于，所述特征为静态特征。

5.如权利要求4所述的恶意应用归类方法，其特征在于，所述静态特征包括应用权限、应用程序接口中的至少一种。

6.如权利要求1所述的恶意应用归类方法，其特征在于，所述基于所述连接关系图，采用社区划分算法对所述各恶意应用样本进行归类包括：

采用Infomap算法将所述连接关系图划分为至少一个独立社区，每个独立社区中的恶意应用样本为同一类恶意应用。

7.如权利要求1-6任一项所述的恶意应用归类方法，其特征在于，所述计算各恶意应用样本中各特征对应的权重值包括：

计算各恶意应用样本中，各特征的词频-逆向文件频率tf-idf值，以所述tf-idf值作为所述各恶意应用样本中各特征对应的权重值。

8.如权利要求7所述的恶意应用归类方法，其特征在于，所述计算各恶意应用样本中，各特征的tf-idf值包括：

根据公式

计算得到所述各恶意应用样本中各特征对应的权重值；

其中，所述tf_ab为特征a在样本b中出现的频率，n为所有恶意应用样本的总数，s_a为含有特征a的恶意应用样本的总数。

9.如权利要求1-6任一项所述的恶意应用归类方法，其特征在于，所述根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图包括以下步骤：

步骤一：获取两个恶意应用样本中的共有特征分别在这两个恶意应用样本中的权重值；所述共有特征为在所述两个恶意应用样本中均存在的特征；

步骤二：根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值；

步骤三：在所述关联值大于预设阈值时，连接所述两个恶意应用样本；

步骤四：重复步骤一至三，直至遍历所有样本。

10.如权利要求9所述的恶意应用归类方法，其特征在于，所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：

根据公式G_ij＝∑_a(tf-idf_ai+tf-idf_aj)计算所述两个恶意应用样本的关联值；

其中，G_ij为所述两个恶意应用样本的关联值，a为样本i和样本j的共有特征，tf-idf_ai和tf-idf_aj分别为共有特征在所述两个恶意应用样本中的权重值，需要对所有共有特征的权重值进行累加。

11.如权利要求9所述的恶意应用归类方法，其特征在于，在所述两个恶意应用样本存在N(N大于等于2)个共有特征时，所述根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：

根据各共有特征分别在这两个恶意应用样本中的权重值，分别计算各共有特征对应的所述两个恶意应用样本的关联值，以得到所述两个恶意应用样本的N个关联值；

所述在所述关联值大于预设阈值时，连接所述两个恶意应用样本包括：

在所述N个关联值中的任意一个关联值大于所述预设阈值时，连接所述两个恶意应用样本。

12.如权利要求9所述的恶意应用归类方法，其特征在于，在计算出所述恶意应用样本中所有两两样本间的关联值并进行连接之后，若存在孤立样本，所述根据所述关联值构建所述恶意应用样本的连接关系图还包括：

获取距离所述孤立样本最近的k个恶意应用样本，将所述孤立样本分别与所述k个恶意应用样本连接；

所述孤立样本为未与任何其他恶意应用样本进行连接的恶意应用样本。

13.一种恶意应用归类装置，包括：特征提取模块、特征权值计算模块、关系图构建模块和样本归类模块；

所述特征提取模块用于提取各恶意应用样本的特征；

14.如权利要求13所述的恶意应用归类装置，其特征在于，还包括特征数据化模块和样本向量化模块；

所述特征数据化模块用于，在所述特征提取模块提取各恶意应用样本的特征之后，对所述各恶意应用样本的特征进行数据化处理；所述样本向量化模块用于根据进行数据化处理后的特征生成各恶意应用样本的基础特征向量；

所述样本向量化模块还用于，在所述特征权值计算模块计算出各恶意应用样本中各特征对应的权重值之后，将所述各恶意应用样本的基础特征向量中，各特征的权重值调整为计算出的所述各恶意应用样本中各特征对应的权重值，得到所述各恶意应用样本的最终特征向量；

或，

所述特征数据化模块用于，在所述特征权值计算模块计算出各恶意应用样本中各特征对应的权重值之后，将所述各恶意应用样本的特征数据化处理；

所述样本向量化模块用于，根据各恶意应用样本中各特征对应的权重值以及进行数据化处理后的特征，生成所述各恶意应用样本的最终特征向量。

15.如权利要求14所述的恶意应用归类装置，其特征在于，所述关系图构建模块具体用于：根据所述各最终特征向量中的各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值。

16.如权利要求13所述的恶意应用归类装置，其特征在于，所述特征为静态特征。

17.如权利要求13所述的恶意应用归类装置，其特征在于，所述样本归类模块具体用于：采用Infomap算法将所述连接关系图划分为至少一个独立社区，每个独立社区中的恶意应用样本为同一类恶意应用。

18.如权利要求13-17任一项所述的恶意应用归类装置，其特征在于，所述特征权值计算模块计算各恶意应用样本中，各特征对应的权重值包括：

计算各恶意应用样本中，各特征的tf-idf值，以所述tf-idf值作为所述各恶意应用样本中各特征对应的权重值。

19.如权利要求18所述的恶意应用归类装置，其特征在于，所述特征权值计算模块计算各恶意应用样本中，各特征的tf-idf值包括：

根据公式

计算得到所述各恶意应用样本中各特征对应的权重值；

20.如权利要求13-17任一项所述的恶意应用归类装置，其特征在于，所述关系图构建模块根据所述各特征对应的权重值计算所述恶意应用样本中两两样本间的关联值，并根据所述关联值构建所述恶意应用样本的连接关系图包括以下步骤：

步骤四：重复步骤一至三，直至遍历所有样本。

21.如权利要求20所述的恶意应用归类装置，其特征在于，所述关系图构建模块根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：

22.如权利要求20所述的恶意应用归类装置，其特征在于，在所述两个恶意应用样本存在N(N大于等于2)个共有特征时，所述关系图构建模块根据获取到的所述共有特征分别在这两个恶意应用样本中的权重值，计算所述两个恶意应用样本的关联值包括：

所述关系图构建模块在所述关联值大于预设阈值时，连接所述两个恶意应用样本包括：

23.如权利要求20所述的恶意应用归类装置，其特征在于，在所述关系图构建模块计算出所述恶意应用样本中所有两两样本间的关联值并进行连接之后，若存在孤立样本，所述关系图构建模块根据所述关联值构建所述恶意应用样本的连接关系图还包括：

24.一种恶意应用归类设备，包括：处理器、存储器以及通信总线；

所述处理器用于执行所述存储器中存储的一个或者多个程序，以实现如权利要求1-12任一项所述的恶意应用归类方法的步骤。

25.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1-12任一项所述的恶意应用归类方法的步骤。