CN109933984A

CN109933984A - 一种最佳聚类结果筛选方法、装置和电子设备

Info

Publication number: CN109933984A
Application number: CN201910116546.6A
Authority: CN
Inventors: 张华�; 王森淼; 秦佳伟; 占深信; 沈阿娜; 黄薪宇; 杜代忠; 臧志刚; 关广振
Original assignee: China Time Ruian (beijing) Network Technology Co Ltd
Current assignee: China Time Ruian (beijing) Network Technology Co Ltd
Priority date: 2019-02-15
Filing date: 2019-02-15
Publication date: 2019-06-25
Anticipated expiration: 2039-02-15
Also published as: CN109933984B

Abstract

本发明公开了一种最佳聚类结果筛选方法，包括：搜集不同种类的恶意样本并标记；通过静态分析方法，对搜集的恶意样本进行恶意特征提取，得到总特征集；采用分层主成分分析方式，对总特征集进行降维，获得第一特征集并持久化；对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在；利用第一特征集对聚类样本进行聚类簇数由2至10的聚类，获得聚类结果；采用综合指标计算方式对聚类结果进行评价，获取最佳K值，从而筛选出最佳聚类簇数，并根据最佳聚类簇数获得最佳聚类结果。本发明提供的最佳聚类结果筛选方法、装置和电子设备，可以有效地提高对于海量未知恶意应用分析的分析效率。

Description

一种最佳聚类结果筛选方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，特别是指一种最佳聚类结果筛选方法、装置和电子设备。

背景技术

我国移动互联网发展迅速，网民数量庞大，安卓系统占据了大部分市场份额，早在2016年底，搭载安卓系统的智能机已占据智能机市场的83.02％。同时，随着移动互联网行业的不断发展，恶意程序传播事件频发。仅2018年上半年，360互联网安全中心累计截获安卓平台新增恶意程序样本23.1万个，占总新增量的2％，平均每天截获安卓恶意新增样本近1.6万个。在大量的恶意样本中，恶意应用按照行为主要分为了流氓行为、资费消耗、恶意扣费、远程控制、隐私窃取、勒索、短信拦截、色情等恶意应用。这些恶意应用的广泛传播，对广大人民的信息隐私与财产安全造成了极大的影响。

目前，对于恶意应用的家族检测主要有两种方法，分别为对待检测的恶意应用进行聚类处理，以及对待检测的恶意应用进行分类检测。由于恶意应用的变种快速，新型攻击方式层出不穷，且分类模型的迭代时间需要较长时间，因此，在进行未知恶意应用的检测中，利用分类模型进行检测表现出了适应性差、滞后性高的短板。故利用聚类的方法对位置恶意应用进行分类成为了较为主流的检测方法。

迄今为止，常规对于恶意应用的最佳聚类结果选取通常对样本直接使用主成分分析的方式进行特征集的降维，且仅使用单一的指标计算方式进行聚类最佳结果的筛选，易造成结果不准确，泛化性差，且不能够处理在面对海量未知恶意应用时，应对复杂的顶点波动情况。

发明内容

有鉴于此，本发明的目的在于提出一种最佳聚类结果筛选方法、装置和电子设备，可以有效地提高对于海量未知恶意应用分析的分析效率，节约时间。

基于上述目的，本发明的第一个方面，提供了一种最佳聚类结果筛选方法，包括：

搜集不同种类的恶意样本，并将搜集到的所述恶意样本进行标记；

通过静态分析方法，对搜集的所述恶意样本进行恶意特征提取，得到总特征集；

采用分层主成分分析方式，对所述总特征集进行降维，获得第一特征集，并将所述第一特征集持久化；

对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在；

利用所述第一特征集对所述聚类样本进行聚类簇数由2至10的聚类，获得聚类结果；

采用综合指标计算方式对所述聚类结果进行评价，获取最佳K值，从而筛选出最佳聚类簇数，并根据所述最佳聚类簇数获得最佳聚类结果。

可选的，所述恶意特征包括Android权限、Intent机制、代码关键字、应用程序接口调用、Linex系统命令以及恶意行为的应用程序接口组合。

可选的，所述根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在，还包括：

当所述特征取值为“1”时，代表所述特征在所述恶意应用样本中存在；

当所述特征取值为“0”时，代表所述特征在所述恶意应用样本中不存在。

可选的，选取利用所述第一特征集进行特征提取的恶意样本的方式为分层抽样。

可选的，所述降维方法如下：

其中，N表示恶意种类总数，k表示恶意种类，i表示每个恶意种类中的恶意家族，M_k表示第k个种类的家族个数，F_ki表示第k个种类的第i个家族，A(F_ki)表示求F_ki的主要特征。

可选的，评价所述聚类结果的指标包括：轮廓系数、簇内误差平方和、类别内部数据指标和戴维森堡丁指数。

可选的，所述获取最佳K值的方法包括：

根据所述评价指标的特性，进行所述K值的加减，将正向指标的指标分数相加，将负向指标的指标分数相减；

其中，所述正向指标包括轮廓系数、类别内部数据指标，所述负向指标包括簇内误差平方和、戴维森堡丁指数；

得到最大的K值即为所述最佳K值。

本发明的第二个方面，提供了一种最佳聚类结果筛选装置，包括：

搜集标记模块：用于搜集不同种类的恶意样本，并将搜集到的所述恶意样本进行标记；

静态分析模块：用于通过静态分析方法，对搜集的所述恶意样本进行恶意特征提取，得到总特征集；

降维模块：用于采用分层主成分分析方式，对所述总特征集进行降维，获得第一特征集，并将所述第一特征集持久化；

聚类筛选模块：

用于对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在；

用于利用所述第一特征集对所述聚类样本进行聚类簇数由2至10的聚类，获得聚类结果

用于采用综合指标计算方式对所述聚类结果进行评价，获取最佳K值，从而筛选出最佳聚类簇数，并根据所述最佳聚类簇数获得最佳聚类结果。

本发明的第三个方面，提供了一种最佳聚类结果筛选电子设备，包括处理器，以及与所述处理器通信连接的存储器，其中，所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行如前所述的方法。

从上面所述可以看出，本发明提供的最佳聚类结果筛选方法、装置和电子设备，通过使用分层PCA(主成分分析)的降维方式对特征集进行降维，以及利用综合评价指标计算的方式进行最佳聚类结果的筛选，可以有效地将大量的安卓恶意样本按照相似性进行分类，有助于在不清楚恶意样本的属性时，辅助人工对恶意样本进行快速分类，提高人工在分析恶意样本时的效率，降低时间成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的最佳聚类结果筛选方法的流程示意图；

图2为本发明实施例提供的最佳聚类结果筛选装置示意图；

图3为本发明实施例提供的最佳聚类结果筛选电子设备示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提供的安卓恶意应用最佳聚类结果筛选方法，包括：

步骤101：搜集不同种类的恶意样本，并将搜集到的所述恶意样本进行标记。

可选的，所述恶意样本可以从恶意病毒库中进行下载获得。

步骤102：通过静态分析方法，对搜集的所述恶意样本进行恶意特征提取，得到总特征集。

可选的，所述恶意特征包括Permission、Intent机制、代码关键字、应用程序接口(API)调用、Linex系统命令以及恶意行为的API组合，以上特征由Androguard进行提取。需要说明的是，Androguard是使用Python编写的逆向工具，它可以在多个平台上运行Linux/Windows/OSX系统；使用Androguard可以反编译android应用，也可以用来做安卓的恶意软件分析。

可选的，所述恶意特征中的permission特指安卓(Android)权限，用来构建一套安全体系，以保证平台上各App之间数据访问的安全性；Intent是一种运行时绑定(run-timebinding)机制，它是一种基于某种想要被表露的意图的被动式数据结构，它能在程序运行过程中连接两个不同的组件。通过Intent机制，程序可以向Android表达某种请求或者意愿，Android会根据意愿的内容选择适当的组件来完成请求；API即应用程序编程接口，是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。

步骤103：采用分层主成分分析方式，对所述总特征集进行降维，获得第一特征集，并将所述第一特征集持久化。

在一些可选的实施方式中，步骤103中所述的降维方法采用分层主成分分析方式，避免了直接采用主成分分析的方式造成的降维结果不准确，泛化性差的问题。具体公式如下：

在本实施例中，所述恶意种类可以为勒索类、色情类、扣费类、拦截马类等，所述恶意种类中的恶意家族，比如勒索类中的simplocker、locker等，即每个恶意种类中有很多恶意家族，这些家族同属一个恶意行为类别。选取相同种类不同家族的恶意应用，利用主成分分析法对不同恶意家族中的样本进行重要特征的挑选，将同种类型下的不同家族的主要特征求交，并将不同类型的恶意应用特征进行取并集操作，之后，根据专家经验手动进行部分特征集的补充。

步骤104：对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在。

在一些可选的实施方式中，步骤104中的根据所述根据提取的所述第一特征集各维数的特征取值判断诉所述恶意特征在待聚类样本的各维数中是否存在，包括：当所述特征取值为“1”时，代表所述特征在所述恶意应用样本中存在；当所述特征取值为“0”时，代表所述特征在所述恶意应用样本中不存在。普通应用一般不会申请使用过多的敏感权限，不会进行过多关于Linux内核系统命令的调用，在代码层面不会出现过多的敏感词，不会进行非正常的一系列API的调用；而恶意应用会根据其所要进行的恶意行为不同，进行敏感的权限申请以及API调用等。

步骤105：利用第一特征集对聚类样本进行聚类簇数由2至10的聚类，获得聚类结果。由于聚类簇数的不同，会获得相应的不同聚类结果。

步骤106：采用综合指标计算方式对所述聚类结果进行评价，获取最佳K值，从而筛选出最佳聚类簇数，并根据所述最佳聚类簇数获得最佳聚类结果。

在一些可选的实施方式中，步骤106中评价所述聚类结果的指标包括：轮廓系数(silhouette)、簇内误差平方和(cost_function)、类别内部数据指标(Calinski-Harabaz)或戴维森堡丁指数(Davies-Bouldin Index)。对于以上四项评价指标的说明，参见表1：

表1评价聚类结果的指标说明

本实施例中，采用综合指标计算方式对所述聚类结果进行筛选，可以解决在面对大量未知的恶意应用时，复杂的顶点波动情况，提高所获取的最佳聚类结果的精确性。

在一些可选的实施方式中，所述获取最佳K值的方法包括：

得到最大的K值即为所述最佳K值。

基于上述目的，本发明的第二方面，提供了一种最佳聚类结果筛选装置的一个实施例，参考图2所示，所述装置包括：

搜集标记模块201：用于搜集不同种类的恶意样本，并将搜集到的所述恶意样本进行标记。

静态分析模块202：用于通过静态分析方法，对搜集的所述恶意样本进行恶意特征提取，得到总特征集。

降维模块203：用于采用分层主成分分析方式，对所述总特征集进行降维，获得第一特征集，并将所述第一特征集持久化；

聚类筛选模块204：

利用第一特征集对聚类样本进行聚类簇数由2至10的聚类，获得聚类结果。

从上述实施例可以看出，本发明实施例提供的最佳聚类结果筛选装置，通过静态分析，利用Androguard提取出相应特征，利用分层主成分分析的方法进行特征集的降维，并利用综合指标计算的方式对最优的聚类结果进行筛选，提高对恶意应用分析的效率。

基于上述目的，本发明实施例的第三个方面，提出了一种最佳聚类结果筛选电子设备的一个实施例。图3为本发明提供的执行所述最佳聚类结果筛选的电子设备的一个实施例的硬件结构示意图。

参考图3所示，所述电子设备包括：

一个或多个处理器301以及存储器302，图3中以一个处理器301为例。

所述执行所述最佳聚类结果筛选的装置还可以包括：输入装置303和输出装置304。

处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器302作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的所述变形锂电池检测方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的最佳聚类结果筛选。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据变形锂电池检测装置的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至会员用户行为监控装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置303可接收输入的数字或字符信息，以及产生与最佳聚类结果筛选装置的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器302中，当被所述一个或者多个处理器301执行时，执行上述任意方法实施例中的最佳聚类结果筛选方法。所述执行所述最佳聚类结果筛选的电子设备的实施例，其技术效果与前述任意方法实施例相同或者类似。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种最佳聚类结果筛选方法，其特征在于，包括：

对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在所述聚类样本中是否存在；

2.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，所述恶意特征包括Android权限、Intent机制、代码关键字、应用程序接口调用、Linex系统命令以及恶意行为的应用程序接口组合。

3.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，所述根据所述第一特征集各维数的特征取值判断所述恶意特征在聚类样本中是否存在，还包括：

4.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，选取利用所述第一特征集进行特征提取的恶意样本的方式为分层抽样。

5.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，所述降维方法如下：

6.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，评价所述聚类结果的指标包括：轮廓系数、簇内误差平方和、类别内部数据指标和戴维森堡丁指数。

7.根据权利要求1所述的最佳聚类结果筛选方法，其特征在于，所述获取最佳K值的方法包括：

得到最大的K值即为所述最佳K值。

8.一种最佳聚类结果筛选装置，包括：

聚类筛选模块：

用于对聚类样本进行特征提取，并根据所述第一特征集各维数的特征取值判断所述恶意特征在所述聚类样本中是否存在；

用于利用所述第一特征集对所述聚类样本进行聚类簇数由2至10的聚类，获得聚类结果；

9.一种电子设备，包括处理器，以及与所述处理器通信连接的存储器，其中，所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行如权利要求1-7任意一项所述的方法。