CN106682507B

CN106682507B - 病毒库的获取方法及装置、设备、服务器、系统

Info

Publication number: CN106682507B
Application number: CN201610338814.5A
Authority: CN
Inventors: 姜澎; 郭晓龙; 申金娟; 吴彬; 苏蒙; 于涛; 毕磊; 王俊豪; 王炳堪; 辛调琴; 任光辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2019-05-14
Anticipated expiration: 2036-05-19
Also published as: KR20180079434A; US20180349601A1; EP3460704A1; US10990672B2; KR102095853B1; CN106682507A; WO2017197942A1; EP3460704A4

Abstract

本发明公开了一种病毒库的获取方法及装置、设备、服务器、系统，所述方法包括：获取样本集合，所述样本集合中的样本为恶意的安装包；从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；将所述至少一组目标特征更新到病毒库中。

Description

病毒库的获取方法及装置、设备、服务器、系统

技术领域

本发明涉及互联网安全领域，尤其涉及一种病毒库的获取方法及装置、设备、服务器、系统。

背景技术

随着移动终端的普及和发展，适用于终端的各种安装包应运而生，某些带有病毒的恶意安装包会在用户不知晓的情况下潜入到用户的终端中，对用户的信息安全和财产安全带来隐患。

目前，可以通过在终端上设置杀毒引擎来检测终端接收的安装包是否带有病毒，杀毒引擎主要靠特征码技术来查杀恶意安装包，如图1所示，其流程主要包括：步骤S101、获取恶意的安装包作为样本；步骤、S102、人工处理分析提取，即分析人员根据经验对样本进行分析，从样本中提取分析人员认为有问题的代码；步骤S103、获取特征码，即分析人员将自己提取认为有问题的代码作为特征码输入杀毒引擎；步骤S104、多条特征码集合产生病毒库，即将人工提取的各条特征码集合在一起形成病毒库；步骤S105、杀毒引擎依靠特征码生成的病毒库，查杀样本，即杀毒引擎获取病毒库后，终端接收到的待检测安装包中是否包含所述病毒库中的特征码，若包含，则确定所述待检测安装包为恶意安装包，并在终端上显示该待检测安装包为恶意安装包的提示信息，提醒用户注意，保证用户的信息安全和财产安全。

上述构成病毒库的特征码是依靠大量的人工分析来获取的，每天获取的特征码数量有限，时间成本高，效率低，且依赖分析人员的经验来提取特征码，出错误报的概率较高，而且，随着新的恶意安装包对现有特征码技术的对抗，采用特征码技术对部分安装包的检测率正在逐渐降低。

发明内容

有鉴于此，本发明实施例为解决现有技术中存在的至少一个问题而提供了一种病毒库的获取方法及装置、设备、服务器、系统，获取成本低且效率高，能够更准确地识别出新的恶意安装包。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种病毒库的获取方法，所述方法包括：

获取样本集合，所述样本集合中的样本为恶意的安装包；

从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；

对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；

将所述至少一组目标特征更新到病毒库中。

第二方面，本发明实施例提供一种病毒库的获取装置，所述装置包括获取单元，提取单元，选择单元，更新单元，其中：

所述获取单元，用于获取样本集合，所述样本集合中的样本为恶意的安装包；

所述提取单元，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；

所述选择单元，用于对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；

所述更新单元，用于将所述至少一组目标特征更新到病毒库中。

第三方面，本发明实施例提供了一种病毒库的获取设备，所述设备包括处理器和外部通信接口，其中：

所述外部通信接口，用于获取样本集合，所述样本集合中的样本为恶意的安装包；

所述处理器，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；将所述至少一组目标特征更新到病毒库中。

第四方面，本发明实施例提供了一种第一服务器，所述第一服务器包括第一处理器和第一外部通信接口，其中:

所述第一处理器，用于获取样本集合，所述样本集合中的样本为恶意的安装包；从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；

第一外部通信接口，用于发送所述样本特征集合中的至少一组样本特征。

第五方面，本发明实施例提供了一种第二服务器，所述第二服务器包括第二处理器和第二外部通信接口，其中:

所述第二外部通信接口，用于接收至少一组样本特征；

所述第二处理器，用于根据接收到的样本特征，得到至少一组目标特征，其中，所述目标特征为接收到的样本特征中满足第一条件的特征；

所述第二外部通信接口，用于发送所述至少一组目标特征。

第六方面，本发明实施例提供了一种第三服务器，所述第三服务器为ES服务器，包括第三处理器、存储器和第三外部通信接口，其中:

所述第三外部通信接口，用于接收所述第一服务器发送至少一组样本特征；

所述存储器，用于存储所述至少一组样本特征；

所述第三外部通信接口，用于接收所述第二服务器发送的查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；

所述第三处理器，用于获取所述查询请求对应的样本特征；

所述第三外部通信接口，用于将所述对应的样本特征发送给第二服务器。

第七方面，本发明实施例提供了一种病毒库获取系统，所述系统包括第一服务器、第二服务器和第三服务器，其中：

所述第一服务器为上述的第一服务器；

所述第二服务器为上述的第二服务器；

所述第三服务器为上述的第三服务器；

所述杀毒平台，用于接收至少一组目标特征，并将所述至少一组目标特征存储到病毒库。

本发明实施例提供了一种病毒库的获取方法及装置、设备、服务器、系统，获取样本集合，所述样本集合中的样本为恶意的安装包；从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；将所述至少一组目标特征更新到病毒库中。本发明实施例的整个过程由计算设备自动完成，每天可以完成对海量的恶意安装包的特征提取和特征选择，得到大量的目标特征，与现有技术中的人力分析相比，花费时间少、效率高，且整个过程不存在人工干预的问题，计算设备可以自动选择出满足第一条件的目标特征。杀毒平台使用这样选择出来的目标特征来检测安装包，恶意安装包的研发者无法通过简单地调整安装包中的代码来绕过检测，能够更准确地识别出新的恶意安装包。

附图说明

图1为现有技术中的靠特征码技术来查杀病毒安装包的实现流程示例图；

图2为本发明实施例一提供的一种病毒库的获取方法的实现流程示意图；

图3为本发明实施例二提供的一种病毒库的获取方法的实现流程示意图；

图4为本发明实施例三提供的一种病毒库的获取方法的实现流程示意图；

图5为本发明实施例四提供的一种病毒库的获取装置的组成结构示意图；

图6为本发明实施例五提供的一种病毒库的获取设备的硬件组成结构示意图；

图7为本发明实施例六提供的一种第一服务器的硬件组成结构示意图；

图8为本发明实施例六提供的一种第二服务器的硬件组成结构示意图；

图9为本发明实施例六提供的一种第三服务器的硬件组成结构示意图；

图10为本发明实施例七提供的一种系统的组成结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

实施例一

为了解决背景技术中存在的问题，本发明实施例提供一种病毒库的获取方法，应用于计算设备，该方法所实现的功能可以通过计算设备中的处理器调用程序代码来实现，当然程序代码可以保存在计算机存储介质中，可见，该计算设备至少包括处理器和存储介质。这里，所述计算设备可以是任何具有信息处理能够的计算设备，例如可以是服务器或服务器集群。

图2为本发明实施例一病毒库的获取方法的实现流程示意图，如图2所示，该病毒库的获取方法包括：

步骤S201、获取样本集合，所述样本集合中的样本为恶意的安装包。

这里，样本集合中的样本即恶意的安装包是海量的，该样本可以是人工选择的，即一用户发现终端上的某安装包为恶意的安装包时，就触发终端上报给计算设备，计算设备从该终端中获取该恶意的安装包，并将该恶意的安装放入样本集合中作为一样本；当然，该样本也可以是采用程序自动化抽取的，示例地，可以采用一些分类算法自动从海量的安装包中抽取出恶意的安装包。所述计算设备可以不断地获取样本。

步骤S202、从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征。

这里，计算设备可以不断地从每个样本中提取一组样本特征，每个样本对应一组样本特征，每组样本特征中要包括尽量多的特征，这样，可以用处于多个维度的特征来标识恶意安装包，保证特征提取的准确性，同时，后续进行特征选择时，供选择的特征就会很多，避免遗漏特征，保证选择出的目标特征最具代表性。

步骤S203、对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征。

这里，所述样本集合为计算设备当前获取的样本集合，所述第一条件可以是目标特征对所述样本特征集合中的各组样本特征的影响度超过预设阈值，示例地，所述第一条件可以是包含该目标特征的样本特征的组数超过预设阈值，假设进行特征选择的样本特征共有N组，预设阈值为50％*N，若有超过50％*N组的样本特征中包含有特征1、特征2和特征3，则，确定特征1、特征2和特征3为一组目标特征；按照该示例，计算设备可以从样本特征集合中选择出多组目标特征。

步骤S204、将所述至少一组目标特征更新到病毒库中。

这里，所述计算设备会不断将获取到的目标特征更新到病毒库中，这样，计算设备就可以使用该病毒库来查杀安装包，当然，计算设备可以每更新一次病毒库就将该病毒库发送给终端，由终端使用该病毒库来查杀安装包。

这里，终端使用病毒库来查杀安装包的流程主要包括：终端获取待检测安装包，提取所述待检测安装包的特征；然后判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包。

这里，终端确认所述待检测安装包为恶意安装包时，终端可以采用文字、图片、语音等形式来提示用户该待检测安装包为恶意安装包；提醒用户不要使用该安装包，保证用户的信息安全和财产安全。

本发明实施例中，计算设备自动提取恶意安装包的各种特征作为样本特征，并从提取的样本特征中自动选择出满足第一条件的目标特征，由自动选择的目标特征来生成病毒库，整个过程由计算设备自动完成，每天可以完成对海量的恶意安装包的特征提取和特征选择，得到大量的目标特征，与现有技术中的人力分析相比，花费时间少、效率高，且整个过程不存在人工干预的问题，计算设备可以自动选择出满足第一条件的目标特征。如果杀毒引擎使用这样选择出来的目标特征来检测安装包，恶意安装包的研发者无法通过简单地调整安装包中的代码来绕过检测，另外，本实施例中病毒库内的目标特征在不断地更新，即使有人研发出新型的恶意安装包，通过对新型的恶意安装包的特征提取和特征选择，即可获得命中该新型的恶意安装包的目标特征，使恶意的安装包始终难以绕过检测。

实施例二

基于前述的实施例，本发明实施例提供一种针对安卓安装包(Android Package，APK)的病毒库的获取方法，应用于包含有多个服务器的系统，该方法所实现的功能可以通过系统中各个服务器之间的交互实现，各个服务器所实现的功能可以通过处理器调用程序代码来实现，当然程序代码可以保存在服务器的存储介质中，可见，各服务器至少包括处理器、存储介质和外部通信接口。

图3为本发明实施例二病毒库的获取方法的实现流程示意图，如图3所示，该病毒库的获取方法包括：

步骤S301、第一服务器获取样本集合。

这里，所述样本集合中的样本为恶意的APK。

步骤S302、第一服务器提取一个样本中的第一文件和/或第二文件。

这里，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件。当该样本为恶意的APK时，所述第一文件为APK的主程序文件即classes.dex文件，所述第二文件为APK的全局配置文件即Androidmanifest.xml。

这里，APK中的classes.dex文件都是由编译器编译主程序生成的，.dex文件是一种Android平台上的可执行文件；Androidmanifest.xml文件决定了classes.dex文件即主程序文件的运行启动方式；每个APK中都必然包含有classes.dex文件和Androidmanifest.xml文件。

这里，在本发明的另一个实施例中，所述第一服务器也可以只提取样本的第二文件，在本发明的另一个实施例中，所述第一服务器也可以提取样本的第一文件和第二文件。

步骤S303、所述第一服务器从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征。

这里，所述第一服务器可以从所述第一文件中提取所述编译器编译所述主程序时加入的至少一个数据作为一组第一样本特征。编译器在编译主程序生成第一文件即classes.dex文件时，生成的第一文件中除了包括所述主程序编译后的数据，还包括编译器加入的数据，如表明文件大小的数据、签名数据、校验数据等，所述第一服务器可以提取这些编译器加入的数据作为一组第一样本特征，一组第一样本特征中的特征就是一个编译器加入的数据。一个样本中的第一文件对应提取一组第一样本特征。

这里，所述第一服务器可以提取所述第二文件中的至少一个第一字符串；所述第一服务器计算每个第一字符串的循环冗余校验CRC码，其中，所述一组第二样本特征为至少一个CRC码。所述第一字符串可以是Androidmanifest.xml文件中的标签字符串、属性字符串等特定的一些字符串；每个第一字符串可以计算一个CRC码，这些第一字符串对应的各个CRC码就形成一组第二样本特征；一个样本中的第二文件对应提取一组第二样本特征。

这里，针对一个样本，在本发明的一个实施例中，所述第一服务器只提取样本的第一文件，则，所述第一服务器从一个样本中提取的一组样本特征为一组第一样本特征；在本发明的另一个实施例中，所述第一服务器只提取样本的第二文件，则，所述第一服务器从一个样本中提取的一组样本特征为一组第二样本特征；在本发明的另一个实施例中，所述第一服务器提取样本的第一文件和第二文件，则，所述第一服务器从一个样本中提取的一组样本特征为一组第一样本特征和一组第二样本特征。

步骤S304、所述第一服务器从每个样本中提取一组样本特征后，得到样本特征集合。

这里，所述第一服务器进行步骤S302和步骤S303，从每个样本中提取一组样本特征，进而得到样本特征集合，所述样本特征集合中包括提取的各组样本特征。

步骤S305、所述第一服务器向第三服务器发送至少一组样本特征。

这里，所述第一服务器可以不断地将所述样本特征集合中的至少一组样本特征录入到所述第三服务器中。

步骤S306、所述第三服务器接收并存储所述至少一组样本特征。

这里，所述第三服务器为ES(ElasticSearch)服务器，ES服务器是一个基于Lucene的搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎，能够存储海量数据，可以达到实时搜索，稳定，可靠，快速。

步骤S307、所述第二服务器向所述第三服务器发送查询请求。

这里，所述第二服务器需要从第三服务器查询获取学习用的样本特征，所述第二服务器会主动向所述第三服务器发送查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征。

步骤S308、所述第三服务器接收到所述查询请求后，获取所述查询请求对应的至少一组样本特征，并将所述对应的至少一组样本特征发送给第二服务器。

这里，所述第三服务器为ES服务器，故可以快速地查询获取所述查询请求对应的所述至少一组样本特征并将所述至少一组样本特征发送给第二服务器。

步骤S309、所述第二服务器接收到所述至少一组样本特征后，对接收到的各组样本特征进行特征选择，得到至少一组目标特征。

这里，所述第二服务器主要利于数据挖掘机器学习算法，对提取的样本特征进行自动的聚类学习，选择出至少一组目标特征；所述数据挖掘机器学习算法可以是分类回归树(Classification And Regression Tree，CART)算法；当然，也可以是C4.5算法、ID3算法等。

这里，本发明实施例利用第三服务器的存储和查询性能，使所述第二服务器通过第三服务器获取第一服务器提取的样本特征，在本发明的其他实施例中，所述第二服务器也可以直接从第一服务器获取用于学习的样本特征。

在本发明的一个实施例中，所述一组样本特征包括一组第一样本特征或一组第二样本特征，则所述对所述样本特征集合进行特征选择，得到至少一组目标特征，包括：所述第一服务器向第二服务器发送所述样本特征集合中的至少一组样本特征；所述第二服务器接收到所述至少一组样本特征后，根据接收的所述至少一组样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；在所述第二服务器更新决策树的第一更新参数满足第二条件时，所述第二服务器停止更新决策树，得到最终的决策树；所述第二服务器根据所述最终的决策树，确定至少一组目标特征。

这里，第二服务器每获取到样本特征就根据获取到的样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；假设当前决策树是学习N组样本集合后形成的决策树，若本节点到本节点对应的决策节点的路径上所有节点表示的一组特征都存在于M组样本集合中，则本节点对应的属性值为M/N。

这里，所述第一更新参数可以是所述第二服务器更新决策树的更新次数也可以是更新时间；以第一更新参数为更新时间为例，第二条件可以为更新时间超过时间阈值，即第二服务器从第一次生成决策树到当前更新决策树之间的时间超过时间阈值，则第二服务器停止更新决策树，得到最终的决策树；所述第二服务器根据所述最终的决策树，确定至少一组目标特征。所述目标特征为所述样本特征集合中满足第一条件的特征，所述第一条件可以是M/N超过预设阈值，满足第一条件的特征即为M/N超过预设阈值的节点到该节点对应的决策节点的路径上所有节点表示的一组特征，这一组特征即为一组目标特征，这样，第二服务器根据所述决策树，可以确定出至少一组目标特征。

这里，时间阈值可以是12个小时，即第二服务器每12小时一个周期自动输出至少一组目标特征。CART算法自身会构建一个二叉决策树，运算越久，这个决策树越庞大，计算的时间越久，性能越低，故结合CART算法自身的特点即时间越长效率越低的性能越低的情况；测试出12个小时是一个比较合理的时间，即可充分发挥算法的性能，也不会浪费太多时间。

在本发明的另一个实施例中，所述一组样本特征包括一组第一样本特征和一组第二样本特征，则所述对所述样本特征集合进行特征选择，得到至少一组目标特征，包括：所述第一服务器向第二服务器发送所述样本特征集合中的至少一组样本特征；所述第二服务器接收到所述至少一组样本特征后，根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中的第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；在所述第二服务器更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，所述第二服务器停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；所述第二服务器根据所述最终的第一决策树，确定至少一组第一特征，根据所述最终的第二决策树，确定至少一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

这里，第二服务器针对第一样本特征和第二样本特征分别进行特征聚类学习，具体过程可以参考上述一个实施例中的描述。所述第一更新参数可以是所述第二服务器更新第一决策树的更新次数或更新时间，也可以是第二服务器更新第二决策树的更新次数或更新时间；也可以是第二服务器更新第一决策树和第二决策树的共同更新次数或共同更新时间。

步骤S310、所述第二服务器将所述至少一组目标特征发送给杀毒平台。

这里，所述第二服务器确定至少一组目标特征后，所述第二服务器就会将所述至少一组目标特征发送给杀毒平台。

步骤S311、所述杀毒平台接收所述至少一组目标特征，并将所述至少一组目标特征存储到病毒库。

这里，所述杀毒平台可以是终端，终端中设置有病毒库，当终端接收到所述至少一组目标特征后，就将所述至少一组目标特征存储到病毒库中，这样，当终端获取待检测安装包后，就提取所述待检测安装包的特征；所述杀毒平台判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包。

这里，所述杀毒平台还可以是杀毒服务器，杀毒服务器中设置有病毒库，当杀毒服务器接收到所述至少一组目标特征后，就将所述至少一组目标特征存储到病毒库中，这样，当终端获取待检测安装包后，就提取所述待检测安装包的特征；然后将待检测安装包的特征发送给杀毒服务器，所述杀毒服务器判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包；然后将检测结果发送给终端。

步骤S312、所述第二服务器向所述第三服务器发送删除请求。

这里，所述第二服务器确定出所述至少一组目标特征后，就会删除之前的决策树，可以执行步骤S307到步骤S310，进行新一轮的样本特征的获取以及决策树的生成和更新。同时，所述第二服务器向所述第三服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征，即所述部分样本特征已经被聚类学习过了，目标特征可以命中该部分样本特征。

步骤S313、所述第三服务器接收到所述删除请求后，删除所述部分样本特征。

这里，ES删除目标特征可以命中的样本特征，本发明实施例适用于海量样本特征的选取，ES服务器中的样本特征会非常庞大通常在几百万，而且第一服务器在不断输入样本特征，ES服务器中的样本特征在不断增长，如果没有一个更新删除的过程，那第三服务器的效率就会降低；同时，第二服务器每次迭代学习有很大的可能在重复学习相同的样本特征。

本发明实施例，通过自动提取恶意安装包的各种特征作为样本特征，并从提取的样本特征中自动选择出满足第一条件的目标特征，由自动选择的目标特征来生成病毒库，整个过程由计算设备自动完成，每天可以完成对海量的恶意安装包的特征提取和特征选择，得到大量的目标特征，与现有技术中的人力分析相比，花费时间少、效率高，且整个过程不存在人工干预的问题，可以自动选择出满足第一条件的目标特征。杀毒平台使用这样选择出来的目标特征来检测安装包，恶意安装包的研发者无法通过简单地调整安装包中的代码来绕过检测，另外，本实施例中病毒库内的目标特征在不断地更新，即使有人研发出新型的恶意安装包，通过对新型的恶意安装包的特征提取和特征选择，即可获得命中该新型的恶意安装包的目标特征，使恶意的安装包始终难以绕过检测。另外，本实施例方法采用上述系统架构，可以处理海量数据，ES服务器的使用也提高了整个方法的效率和可靠度。

实施例三

基于前述实施例，本发明实施例提供一种针对APK的病毒库的获取方法，应用于图4所示的系统，该系统中包括第一服务器组41、第三服务器组42、第二服务器43和杀毒平台44；该病毒库的获取方法包括：

步骤S401、第一服务器组41负责对海量样本提取样本特征，并将提取的样本特征录入第三服务器组42。

这里，第一服务器组41中的第一服务器可以参考实施例二中的步骤S301到步骤S305的描述来提取样本特征。

步骤S402、第三服务器组42不断获取样本特征形成学习特征集合，同时，第二服务器43从所述第三服务器组42中查询学习特征集合获取学习用的样本特征。

这里，第三服务器为ES服务器，ES服务器内设有ES搜索引擎，具体的查询过程可以参考实施例二中的步骤S306到S308的描述。

步骤S403、第二服务器43启发自动学习。

这里，第二服务器43启发dex即第一文件自动学习，每12小时一个学习迭代周期，永不退出，自动输出APK特征即至少一组目标特征到杀毒平台，通知第三服务器集群42删除已命中的样本特征，更新第三服务器集群42中的样本特征集合。同时，第二服务器43启发manifest即第二文件自动学习，每12小时一个学习迭代周期，永不退出，自动输出APK特征即至少一组目标特征到杀毒平台，通知第三服务器组42删除已命中的样本特征，更新第三服务器组42中的学习特征集合。

这里，上述过程可以参考实施例二中的步骤S309到S310和步骤S312到S313的描述。

步骤S404、杀毒平台用APK特征即目标特征生成病毒库，供杀毒平台使用。

这里，上述过程可以参考实施例二中的步骤S311的描述。

这里，使用本实施例方法获取的病毒库，对未知APK新样本即互联网上最新产生的APK样本，之前从来没有被收集过，分析过的恶意样本进行检测，每天检测的样本总数和检测出的恶意APK的数目如表1所示：

时间	样本总数	检测出恶意APK的数目
			20160505	153700	26355
20160504	123371	17449
			20160503	156072	25167
20160502	126325	18759
			20160501	93647	9043
20160430	114253	19378
			20160429	93507	8459
20160428	72702	12300

表1

从表1可以看出，本实施例获取的病毒库的对未知新样本进行检测，一直保持着对每天未知新样本10％以上的检测准确率，远远超过了特征码技术对未知新样本的检测，有检出率高，误报率低的特点。

本实施例方法采用上述系统架构，可以处理海量样本，ES服务器的使用也提高了整个方法的效率和可靠度。

实施例四

基于前述的实施例，本发明实施例提供一种病毒库获取装置，该病毒库获取装置所包括的各单元，以及各单元所包括的各模块，都可以通过该装置中的处理器来实现，当然也可通过具体的逻辑电路实现；在具体实施例的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

图5为本发明实施例四病毒库获取装置的组成结构示意图，如图5所示，该装置包括获取单元501，提取单元502，选择单元503，更新单元504，其中：

所述获取单元501，用于获取样本集合，所述样本集合中的样本为恶意的安装包。

所述提取单元502，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征。

所述选择单元503，用于对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征。

所述更新单元504，用于将所述至少一组目标特征更新到病毒库中。

在本发明的其他实施例中，所述提取单元502，用于提取一个样本中的第一文件和/或第二文件，从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征，其中，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件，所述一组样本特征包括一组第一样本特征和/或一组第二样本特征。

在本发明的其他实施例中，所述第一文件为编译器编译主程序生成的主程序文件；所述提取单元502，用于从所述第一文件中提取所述编译器编译所述主程序时加入的至少一个数据作为一组第一样本特征。

在本发明的其他实施例中，所述提取单元502，用于提取所述第二文件中的至少一个第一字符串，计算每个第一字符串的循环冗余校验CRC码，其中，所述一组第二样本特征为至少一个CRC码。

在本发明的其他实施例中，所述一组样本特征包括一组第一样本特征或一组第二样本特征，则，所述选择单元503，用于接收所述提取单元发送的所述样本特征集合中的至少一组样本特征；根据接收的所述至少一组样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；在更新决策树的第一更新参数满足第二条件时，停止更新决策树，得到最终的决策树；根据所述最终的决策树，确定至少一组目标特征。

在本发明的其他实施例中，所述一组样本特征包括一组第一样本特征和一组第二样本特征，则，所述选择单元503，用于接收所述提取单元502发送的所述样本特征集合中的至少一组样本特征；根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；在更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；根据所述最终的第一决策树，确定一组第一特征，根据所述最终的第二决策树，确定一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

在本发明的其他实施例中，所述装置还包括存储单元，其中：所述存储单元，用于从所述提取单元获取并存储至少一组样本特征；所述选择单元503，用于向所述存储单元发送查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；所述存储单元，还用于接收到所述查询请求后，获取所述查询请求对应的样本特征，并将所述对应的样本特征发送给所述选择单元。

在本发明的其他实施例中，所述选择单元503，用于向所述存储单元发送删除请求，所述删除请求用于请求所述存储单元删除所述存储单元存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征；所述存储单元，用于接收到所述删除请求后，删除所述部分样本特征。

在本发明的其他实施例中，所述更新单元504，用于将所述至少一组目标特征存储到病毒库；获取待检测安装包，提取所述待检测安装包的特征；判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包。

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

实施例五

基于前述的实施例，本发明实施例提供一种病毒库的获取设备，图6为本发明实施例五设备的组成结构示意图，如图6所示，所述设备包括外部通信接口601和处理器602，其中：

所述外部通信接口601，用于获取样本集合，所述样本集合中的样本为恶意的安装包；

所述处理器602，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；将所述至少一组目标特征更新到病毒库中。

这里需要指出的是：以上设备实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

实施例六

基于前述的实施例，本发明实施例提供一种第一服务器，图7为本发明实施例六第一服务器的组成结构示意图，如图7所示，该第一服务器包括第一处理器701和第一外部通信接口702，其中:

第一外部通信接口702，用于获取样本集合，所述样本集合中的样本为恶意的安装包；

所述第一处理器701，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；

第一外部通信接口702，用于发送所述样本特征集合中的至少一组样本特征。

在本发明的其他实施例中，所述第一处理器701，用于提取一个样本中的第一文件和/或第二文件，其中，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件；从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征，其中，所述一组样本特征包括一组第一样本特征和/或一组第二样本特征。

在本发明的其他实施例中，述第一文件为编译器编译主程序生成的主程序文件；所述第一处理器701，用于从所述第一文件中提取所述编译器编译所述主程序时加入的至少一个数据作为一组第一样本特征。

在本发明的其他实施例中，所述第一处理器701，用于提取所述第二文件中的至少一个第一字符串，计算每个第一字符串的循环冗余校验CRC码，其中，所述一组第二样本特征为至少一个CRC码。

本发明实施例还提供了一种第二服务器，图8为本发明实施例六第二服务器的组成结构示意图，如图8所示，该第二服务器包括第二处理器801和第二外部通信接口802，其中:

所述第二外部通信接口802，用于接收至少一组样本特征；

所述第二处理器801，用于根据接收到的样本特征，得到至少一组目标特征，其中，所述目标特征为接收到的样本特征中满足第一条件的特征；

所述第二外部通信接口802，用于发送所述至少一组目标特征。

在本发明的其他实施例中，所述一组样本特征包括一组第一样本特征或一组第二样本特征时，所述第二处理器801，用于根据接收的所述至少一组样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；在更新决策树的第一更新参数满足第二条件时，停止更新决策树，得到最终的决策树；根据所述最终的决策树，确定至少一组目标特征。

在本发明的其他实施例中，所述一组样本特征包括一组第一样本特征和一组第二样本特征时，所述第二处理器801，用于根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中的第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；在更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，所述第二服务器停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；根据所述最终的第一决策树，确定至少一组第一特征，根据所述最终的第二决策树，确定至少一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

在本发明的其他实施例中，所述第二外部通信接口802，用于向所述第三服务器发送查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；还用于所述第三服务器返回的所述查询请求对应的样本特征。

在本发明的其他实施例中，所述第二外部通信接口802，用于向所述第三服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征。

本发明实施例还提供了一种第三服务器，图9为本发明实施例六第三服务器的组成结构示意图，如图9所示，该第三服务器包括第三处理器901、存储器902和第三外部通信接口903，其中:

所述第三外部通信接口903，用于接收所述第一服务器发送至少一组样本特征。

所述存储器902，用于存储所述至少一组样本特征。

所述第三外部通信接口903，用于接收所述第二服务器发送的查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征。

所述第三处理器901，用于获取所述查询请求对应的样本特征。

所述第三外部通信接口903，用于将所述对应的样本特征发送给第二服务器。

在本发明的其他实施例中，所述第三外部通信接口903，用于接收所述第二服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征；所述第三处理器901，用于删除所述部分样本特征。

实施例七

基于前述的实施例，本发明实施例提供一种系统，图10为本发明实施例七系统的组成结构示意图，如图10所示，该系统包括第一服务器1001、第二服务器1002、第三服务器1003和杀毒平台1004，其中：

所述第一服务器1001，用于获取样本集合，所述样本集合中的样本为恶意的安装包；从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；将所述样本特征集合中的至少一组样本特征发送给第三服务器1003。所述第一服务器1001可以实现为实施例五中所述的第一服务器。

所述第三服务器1003，用于接收并存储所述第一服务器发送至少一组样本特征；接收所述第二服务器发送的查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；获取所述查询请求对应的样本特征；将所述对应的样本特征发送给第二服务器1002。所述第三服务器1003可以实现为实施例五中所述的第三服务器。

所述第二服务器1002，用于接收至少一组样本特征；根据接收到的样本特征，得到至少一组目标特征，其中，所述目标特征为接收到的样本特征中满足第一条件的特征；发送所述至少一组目标特征给杀毒平台1004。所述第二服务器1002可以实现为实施例五中所述的第二服务器。

所述杀毒平台1004，用于接收至少一组目标特征，并将所述至少一组目标特征存储到病毒库。

这里，所述杀毒平台中设置有病毒库，当杀毒平台接收到所述至少一组目标特征后，就将所述至少一组目标特征存储到病毒库中，这样，当终端1005获取待检测安装包后，就提取所述待检测安装包的特征；然后将待检测安装包的特征发送给杀毒平台，所述杀毒平台判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包；然后将检测结果发送给终端1005。当终端确认所述待检测安装包为恶意安装包时，终端1005可以采用文字、图片、语音等形式来提示用户该待检测安装包为恶意安装包；提醒用户不要使用该安装包，保证用户的信息安全和财产安全。

这里需要指出的是：以上系统实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本发明设备实施例中未披露的技术细节，本领域的技术人员请参照本发明方法实施例的描述而理解，为节约篇幅，这里不再赘述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种病毒库的获取方法，其特征在于，所述方法包括：

获取样本集合，所述样本集合中的样本为恶意的安装包；

将所述至少一组目标特征更新到病毒库中；

删除所述样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合。

2.根据权利要求1所述的方法，其特征在于，所述从每个样本中提取一组样本特征，包括：

第一服务器提取一个样本中的第一文件和/或第二文件，其中，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件；

所述第一服务器从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征，其中，所述一组样本特征包括一组第一样本特征和/或一组第二样本特征。

3.根据权利要求2所述的方法，其特征在于，所述第一文件为编译器编译主程序生成的主程序文件；所述第一服务器从所述第一文件中提取一组第一样本特征，包括：

所述第一服务器从所述第一文件中提取所述编译器编译所述主程序时加入的至少一个数据作为一组第一样本特征。

4.根据权利要求2所述的方法，其特征在于，所述第一服务器从所述第二文件中提取一组第二样本特征，包括：

所述第一服务器提取所述第二文件中的至少一个第一字符串；

所述第一服务器计算每个第一字符串的循环冗余校验CRC码，其中，所述一组第二样本特征为至少一个CRC码。

5.根据权利要求2所述的方法，其特征在于，所述一组样本特征包括一组第一样本特征或一组第二样本特征，则所述对所述样本特征集合进行特征选择，得到至少一组目标特征，包括：

所述第一服务器向第二服务器发送所述样本特征集合中的至少一组样本特征；

所述第二服务器接收到所述至少一组样本特征后，根据接收的所述至少一组样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；

在所述第二服务器更新决策树的第一更新参数满足第二条件时，所述第二服务器停止更新决策树，得到最终的决策树；

所述第二服务器根据所述最终的决策树，确定至少一组目标特征。

6.根据权利要求2所述的方法，其特征在于，所述一组样本特征包括一组第一样本特征和一组第二样本特征，则所述对所述样本特征集合进行特征选择，得到至少一组目标特征，包括：

所述第二服务器接收到所述至少一组样本特征后，根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中的第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；

在所述第二服务器更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，所述第二服务器停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；

所述第二服务器根据所述最终的第一决策树，确定至少一组第一特征，根据所述最终的第二决策树，确定至少一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

7.根据权利要求5或6所述的方法，其特征在于，所述第一服务器每次向第二服务器发送至少一组样本特征，包括：

所述第一服务器向第三服务器发送至少一组样本特征；

所述第三服务器接收并存储所述至少一组样本特征，所述第三服务器为ES服务器；

所述第二服务器向所述第三服务器发送查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；

所述第三服务器接收到所述查询请求后，获取所述查询请求对应的样本特征，并将所述对应的样本特征发送给第二服务器。

8.根据权利要求7所述的方法，其特征在于，所述第二服务器得到目标特征后，所述方法还包括：

所述第二服务器向所述第三服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征；

所述第三服务器接收到所述删除请求后，删除所述部分样本特征。

9.根据权利要求5或6所述的方法，其特征在于，所述将所述至少一组目标特征更新到病毒库中，包括：

所述第二服务器将所述至少一组目标特征发送给杀毒平台；

所述杀毒平台接收所述至少一组目标特征，并将所述至少一组目标特征存储到病毒库。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

所述杀毒平台获取待检测安装包的特征；

所述杀毒平台判断所述待检测安装包的特征是否包含所述病毒库中的任一组目标特征；

在所述待检测安装包的特征中包含有所述病毒库中的任一组目标特征时，确定所述待检测安装包为恶意安装包。

11.一种病毒库的获取装置，其特征在于，所述装置包括获取单元，提取单元，选择单元，更新单元，其中：

所述更新单元，用于将所述至少一组目标特征更新到病毒库中；删除所述样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合。

12.根据权利要求11所述的装置，其特征在于，

所述提取单元，用于提取一个样本中的第一文件和/或第二文件，从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征，其中，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件，所述一组样本特征包括一组第一样本特征和/或一组第二样本特征。

13.根据权利要求12所述的装置，其特征在于，所述第一文件为编译器编译主程序生成的主程序文件；所述提取单元，用于从所述第一文件中提取所述编译器编译所述主程序时加入的至少一个数据作为一组第一样本特征。

14.根据权利要求12所述的装置，其特征在于，所述提取单元，用于提取所述第二文件中的至少一个第一字符串，计算每个第一字符串的循环冗余校验CRC码，其中，所述一组第二样本特征为至少一个CRC码。

15.根据权利要求12所述的装置，其特征在于，所述一组样本特征包括一组第一样本特征或一组第二样本特征，则，

所述选择单元，用于接收所述提取单元发送的所述样本特征集合中的至少一组样本特征；根据接收的所述至少一组样本特征，更新决策树上的节点和节点对应的属性值，所述决策树上的节点用于表示样本特征中的特征；在更新决策树的第一更新参数满足第二条件时，停止更新决策树，得到最终的决策树；根据所述最终的决策树，确定至少一组目标特征。

16.根据权利要求12所述的装置，其特征在于，所述一组样本特征包括一组第一样本特征和一组第二样本特征，则，

所述选择单元，用于接收所述提取单元发送的所述样本特征集合中的至少一组样本特征；根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；在更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；根据所述最终的第一决策树，确定一组第一特征，根据所述最终的第二决策树，确定一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

17.根据权利要求15或16所述的装置，其特征在于，所述装置还包括存储单元，其中：

所述存储单元，用于从所述提取单元获取并存储至少一组样本特征；

所述选择单元，用于向所述存储单元发送查询请求，所述查询请求用于请求第三服务器返回未发送给第二服务器的至少一组样本特征；

所述存储单元，还用于接收到所述查询请求后，获取所述查询请求对应的样本特征，并将所述对应的样本特征发送给所述选择单元。

18.根据权利要求17所述的装置，其特征在于，

所述选择单元，用于向所述存储单元发送删除请求，所述删除请求用于请求所述存储单元删除所述存储单元存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征；

所述存储单元，用于接收到所述删除请求后，删除所述部分样本特征。

19.一种病毒库的获取设备，其特征在于，所述设备包括处理器和外部通信接口，其中：

所述处理器，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征；对所述样本特征集合进行特征选择，得到至少一组目标特征，其中，所述目标特征为所述样本特征集合中满足第一条件的特征；将所述至少一组目标特征更新到病毒库中；删除所述样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合。

20.一种第一服务器，其特征在于，所述第一服务器包括第一处理器和第一外部通信接口，其中:

第一外部通信接口，用于获取样本集合，所述样本集合中的样本为恶意的安装包；还用于向第二服务器和第三服务器分别发送所述样本特征集合中的至少一组样本特征，使得所述第三服务器删除所述样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合；

所述第一处理器，用于从每个样本中提取一组样本特征，得到样本特征集合，所述样本特征集合中包括提取的各组样本特征。

21.根据权利要求20所述的第一服务器，其特征在于，

所述第一处理器，用于提取一个样本中的第一文件和/或第二文件，其中，所述第一文件为所述样本的主程序文件，所述第二文件为所述样本的全局配置文件；从所述第一文件中提取一组第一样本特征，从所述第二文件中提取一组第二样本特征，其中，所述一组样本特征包括一组第一样本特征和/或一组第二样本特征。

22.一种第二服务器，其特征在于，所述第二服务器包括第二处理器和第二外部通信接口，其中:

所述第二外部通信接口，用于接收至少一组样本特征；

所述第二外部通信接口，用于向第三服务器发送所述至少一组目标特征，以使所述第三服务器删除样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合；

第三外部通信接口，用于将对应的样本特征发送给第二服务器。

23.根据权利要求22所述的第二服务器，其特征在于，所述一组样本特征包括一组第一样本特征和一组第二样本特征；

所述第二处理器，用于根据所述至少一组样本特征中的第一样本特征，更新第一决策树上的第一节点和第一节点对应的属性值，根据所述至少一组样本特征中的第二样本特征，更新第二决策树上的第二节点和第二节点对应的属性值，其中，所述第一决策树上第一节点用于表示第一样本特征中的特征，所述第二决策树上的第二节点用于表示第二样本特征中的特征；在更新第一决策树和/或第二决策树的第二更新参数满足第三条件时，所述第二服务器停止更新所述第一决策树，得到最终的第一决策树，停止更新所述第二决策树，得到最终的第二决策树；根据所述最终的第一决策树，确定至少一组第一特征，根据所述最终的第二决策树，确定至少一组第二特征，其中，所述一组第一特征为一组目标特征，所述一组第二特征为一组目标特征。

24.根据权利要求22所述的第二服务器，其特征在于，

所述第二外部通信接口，用于向所述第三服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征。

25.一种第三服务器，其特征在于，所述第三服务器为ES服务器，包括第三处理器、存储器和第三外部通信接口，其中:

所述第三外部通信接口，用于接收第一服务器发送至少一组样本特征；

所述存储器，用于存储所述至少一组样本特征；

所述第三外部通信接口，用于接收第二服务器发送的查询请求，所述查询请求用于请求所述第三服务器返回未发送给所述第二服务器的至少一组样本特征；

所述第三处理器，用于获取所述查询请求对应的样本特征；删除样本特征集合中已经被选为目标特征的样本特征，更新所述样本特征集合；

26.根据权利要求25所述的第三服务器，其特征在于，

所述第三外部通信接口，用于接收所述第二服务器发送删除请求，所述删除请求用于请求所述第三服务器删除所述第三服务器存储的样本特征中的部分样本特征，所述部分样本特征的每个样本特征中都至少包含一组目标特征；

所述第三处理器，用于删除所述部分样本特征。

27.一种病毒库获取系统，其特征在于，所述系统包括第一服务器、第二服务器、第三服务器和杀毒平台，其中：

所述第一服务器为权利要求20或21所述的第一服务器；

所述第二服务器为权利要求22至24任一项所述的第二服务器；

所述第三服务器为权利要求25或26所述的第三服务器；