CN102831149B

CN102831149B - 样本分析方法、装置

Info

Publication number: CN102831149B
Application number: CN201210210433.0A
Authority: CN
Inventors: 张晓康
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-06-25
Filing date: 2012-06-25
Publication date: 2015-08-12
Anticipated expiration: 2032-06-25
Also published as: CN102831149A

Abstract

本发明涉及一种样本分析方法、装置，其方法包括：接收上传的样本，对样本进行过滤处理；对过滤处理后的样本进行归类处理；对归类处理后的样本按照对应的类别进行分析。本发明通过对上传的样本进行过滤，对相似样本进行聚合归纳，在进行样本分析时，按照对应的类别，在每一类样本中随机挑选预定数量的样本进行分析，由于无需对相似样本进行重复分析，因此极大降低了分析工程师的分析工作量，提高了样本分析效率，而且无需增加和扩展计算能力来满足海量样本分析要求，从而降低了系统成本。

Description

样本分析方法、装置

技术领域

本发明涉及互联网及信息安全技术领域，尤其涉及一种基于聚类运算的大规模样本分析方法、装置。

背景技术

随着互联网技术的发展，为了保证网络信息安全，需要对海量的恶意样本进行分析，并从海量样本的分析中发现新型的恶意攻击技术，以便采取相应的反恶意攻击措施。

在即时通讯的网络管理平台上，用户每日需要上传成千上万的样本，这对后台的分析工程师来说极具挑战。而且，很多样本非常相似，虽然其恶意行为相同，但样本并非完全一致，使得分析工程师经常不得不进行重复分析。

目前，分析工程师手工分析样本的低效性已远远无法满足海量样本分析所要求的时效性。

现有的一种解决方案是：借助网站在线分析平台对样本进行分析，分析工程师将样本提交网站在线分析平台，一定时间后(数分钟至数小时不等)查看分析结果。此种在线分析技术中，在后台搭建有少量的服务器，使用沙箱技术来实现样本的分析，通过前台提供网页让访问者提交和上传所要分析的样本。这种方式虽然可大大提高人工详细分析的效率，但是，在分析的过程中需要人手工将样本提交上传至网站，而这些提供在线分析的网站通常对提交的样本数量有限制，难以实现自动化的操作，使得每日分析的样本量仍然非常有限。

现有的另一种解决方案是：使用多台服务器组建分析集群，利用沙箱或者虚拟机技术来进行海量样本分析，该方法不需要人工提交样本，而且分析的效率可以通过增加服务器的数量来进行提升。这种方式相比提交网站在线分析样本的方式，虽然分析效率得以大大提升，但是，当所要处理的样本数量远远超出预定的处理量时，该方案则很难通过增加和扩展计算能力来满足要求，因为需要的服务器数量过于庞大，成本将难以控制。

现有的三种样本分析方案的对比结果如下表1所示：

病毒样本分析技术	每日样本处理量	人机交互方式
			手工详细分析	1-10	全人工操作
提交网站在线分析	300左右	需要人工提交样本
			多服务器组建分析集群	10-100万	全自动操作

表1

由上表1可以看出：目前分析效率最高的多服务器组建分析集群的分析方式每日处样本理量为100万左右，而目前网络管理平台上每日新上传的样本已经达到1000万的量级，而且还会继续快速增长，因此，简单的在多服务器组建分析集群的技术上，继续叠加服务器以增加分析能力的方案已不可行。

发明内容

本发明的主要目的在于提供一种样本分析方法、装置，旨在提高样本分析效率，降低系统成本。

为了达到上述目的，本发明提出一种样本分析方法，包括以下步骤：

接收上传的样本，对所述样本进行过滤处理；

对过滤处理后的样本进行归类处理；

对归类处理后的样本按照对应的类别进行分析。

优选地，所述对样本进行过滤处理的步骤包括：

过滤掉所述样本组成的样本集中不符合预定分析条件的样本。

本发明还提出一种样本分析装置，包括：

过滤模块，用于接收上传的样本，对所述样本进行过滤处理；

聚类模块，用于对过滤处理后的样本进行归类处理；

分析模块，用于对归类处理后的样本按照对应的类别进行分析。

本发明还提出一种计算机可读取的存储介质，在其上存储了使计算机能够运行的程序，在程序装入计算机的存储器内后，接收上传的样本，对所述样本进行过滤处理；对过滤处理后的样本进行归类处理；对归类处理后的样本按照对应的类别进行分析。

本发明提出的一种样本分析方法、装置，通过对上传的样本进行过滤，对相似样本进行聚合归纳，在进行样本分析时，按照对应的类别，在每一类样本集中随机挑选预定数量的样本进行分析，由于无需对相似样本进行重复分析，因此极大降低了分析工程师的分析工作量，提高了样本分析效率，而且无需增加和扩展计算能力来满足海量样本分析要求，从而降低系统成本。

附图说明

图1是本发明样本分析方法较佳实施例的流程示意图；

图2是本发明样本分析方法较佳实施例中对过滤处理后的样本进行归类处理的流程示意图；

图3是本发明样本分析方法较佳实施例中系统分析架构示意图；

图4是本发明样本分析方法较佳实施例中一种实例的流程示意图；

图5是本发明样本分析装置较佳实施例的结构示意图；

图6是本发明样本分析装置较佳实施例中过滤模块的结构示意图；

图7是本发明样本分析装置较佳实施例中聚类模块的结构示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

本发明实施例的解决方案主要是：对上传的样本进行过滤，对相似样本进行聚合归纳，在进行样本分析时，对归类处理后的样本按照对应的类别进行分析，只要一类样本集中任意一个样本被分析过，则该类中的样本不再重复分析；若该类别中还没有任何样本被分析过，则从中随机挑选预定数量的样本进行分析，以减少相似样本的分析数量，提高样本分析效率。

如图1所示，本发明较佳实施例提出的一种样本分析方法，包括：

步骤S101，接收上传的样本，对所述样本进行过滤处理；

本实施例方法运行载体为可实现海量样本分析的样本分析装置，该装置具有样本过滤、聚集归类以及计算分析功能，可将样本按照彼此之间的相似度进行归类整理，以减少分析计算时对相似样本进行重复分析的样本数量。

以即时通讯为例，在即时通讯的网络管理平台上，用户每日需要上传成千上万的样本。采用本实施例中的样本分析装置接收用户上传的样本，该样本分析装置首先过滤掉样本组成的样本集中不符合预定分析条件的样本，其中，不符合预定分析条件的样本比如是：已经损坏的程序文件、系统不支持的文件格式或者体积过大的文件等。

此外，还需要使用样本分析装置中的反恶意引擎比如反病毒引擎，对所述样本进行扫描，进一步过滤掉其中已经被反病毒引擎识别出的样本，在本装置中只对未报告病毒的样本进行分析。

通过对样本的过滤处理，可以减少样本的分析数量，提高样本分析效率。

步骤S102，对过滤处理后的样本进行归类处理；

样本分析装置在完成样本的过滤后，对保留下来的样本进行聚集分类。

首先，对每一样本的文件内容进行扫描，为每一样本生成一个类别特征码，表示该样本属于哪一类，相似的样本会拥有非常相近的类别特征码，因此，依据该类别特征码去查找预置的数据库，如果在数据库中找到与之相同或相似的类别特征码，则表示该类别已经存在，如果没有找到，则表示该类别之前不存在。

样本分析装置预先在本地配置有用于记录样本的类别特征码的数据库，该数据库中以样本的类别特征码为索引对各个样本进行分类。

同时每个样本具有标识号，该标识号可以以样本的密钥比如MD5表示。当以样本的类别特征码查找数据库，表示该类别已经存在时，则直接将该样本的MD5记录到该类别特征码对应的类别中即可。如果通过查找数据库，表示该类别不存在，则在数据库中创建一个新类别，以该样本的类别特征码作为索引，将该样本的MD5记录到创建的新类别中。

步骤S103，对归类处理后的样本按照对应的类别进行分析。

样本分析装置在完成样本的聚集归类后，按照样本对应的类别分别进行分析，该分析过程可以由人工操作完成，也可以采用自动化的分析技术。

在对每一类样本集进行分析时，如果该类别的样本集中已经有样本实际分析过，则无需对该类别的样本集进行实际的详细分析计算，样本处理流程到此结束。如果该类别样本集中还没有任何样本被分析过，则从中随机挑选预定数量的样本进行详细的分析。其中，随机挑选的样本的数量可以为少量样本，具体根据实际需要设定为一个、两个或更多个。

后续若再遇到该类别的样本，则直接采用上次的分析结果，而不用耗时对此类似的样本进行重复分析，以提高样本分析效率。

如图2所示，在具体实施过程中，上述步骤S102对过滤处理后的样本进行归类处理的步骤包括：

步骤S1021，对过滤处理后的样本进行内容扫描，为每一样本生成一类别特征码；

步骤S1022，根据所述类别特征码查找预置的数据库，判断所述数据库中是否存在与所述类别特征码相同或相似的类别特征码；若是，则进入步骤S1023；否则，进入步骤S1024；

步骤S1023，将所述样本的标识号记录到该类别特征码对应的类别中；

步骤S1024，在所述数据库中创建一对应所述类别特征码的类别，并以所述类别特征码为索引，将所述样本的标识号记录到该类别特征码对应的类别中。

由上述方案可以看出，采用对相似样本进行聚合归纳处理，如果一批恶意样本属于同一病毒变种，那么该方案自动将这些样本归为一类，分析工程师只需要分析该类别中一个样本即可，这样可极大地降低分析工程师的分析工作。而如果出现一个完全新型的恶意攻击样本类型，该方案会自动创建一个新的类别，此时分析工程师通过及时分析该类别中的任意一个样本，则能很容易地发现新型病毒。

以反病毒样本为例，如图3所示，若将本实施例中对样本的过滤、归类以及分析处理过程分别对应设置为样本过滤层、引擎扫描层、聚类层和分析计算层，则本实施例样本分析方法的系统分析架构可以表示成如图3所示的漏斗形状。

样本处理流向如图3所示的竖直箭头方向，样本经输入，并经过过滤层、引擎扫描层、聚类层和分析计算层的多层计算和处理后，需要实际分析的样本数量会急剧下降，当到达最底层的分析计算层时，需要实际分析的样本数量已经下降到输入样本集数量的1％-5％，由此，极大的提高了样本的分析效率，而且无需增加和扩展计算能力来满足海量样本分析要求，从而降低系统成本。

如图4所示，以下以一较为具体完整的实例对本实施例样本分析方法的技术方案进行详细阐述，其具体流程如下：

S1，当接收到上传的样本后，对样本的文件类型进行识别；

S2，判断样本的文件格式是否是可以分析的文件格式；若是，则进入步骤S3；否则，进入步骤S12；

S3，判断样本的文件是否损坏；若是，则进入步骤S12；否则，进入步骤S4；

S4，使用反病毒引擎对样本进行扫描；

S5，判断反病毒引擎是否报毒；若是，则进入步骤S12；否则，进入步骤S4；

S6，根据样本的文件内容生成类别特征码，到数据库中去查找；

S7，判断数据库中是否存在与该类别特征码相同或相似的类别特征码；若是，表明该类别存在，则进入步骤S9；否则，进入步骤S8；

步骤S8，创建一个新类别，并进入步骤S9；

步骤S9，将样本的MD5记录到该类别中；

步骤S10，判断该类别中是否任意样本已经详细分析过；若是，则进入步骤S12；否则，说明这是新发现的病毒种类，进入步骤S11；

步骤S11，该类别为新发现的病毒种类，进行详细分析。

本实施例减少相似样本重复分析的方法，只要一类样本集中任意一个样本被分析过，以后再出现同类样本时，则将其自动归类，而不再重复分析。通过这种方式可以将每日所要分析处理的样本处理量下降一个数量级。例如：如果每日需要分析1000万的样本，在应用了该方法后，则只需要实际分析20万的样本，即可实现1000万的样本的分析效果。

在实际操作中，分析工程师只需要将样本的MD5列表提交给样本分析装置统即可，无须其他操作，极大降低了分析工程师的分析工作量，并提高了样本分析效率，而且无需增加和扩展计算能力来满足海量样本分析要求，降低了系统成本。

如图5所示，本发明较佳实施例提出一种样本分析装置，包括：过滤模块501、聚类模块502以及分析模块503，其中：

过滤模块501，用于接收上传的样本，对所述样本进行过滤处理；

聚类模块502，用于对过滤处理后的样本进行归类处理；

分析模块503，用于对归类处理后的样本按照对应的类别进行分析。

本实施例样本分析装置可实现海量样本分析，该装置具有样本过滤、聚集归类以及计算分析功能，可将样本按照彼此之间的相似度进行归类整理，以减少分析计算时对相似样本进行重复分析的样本数量。

以即时通讯为例，在即时通讯的网络管理平台上，用户每日需要上传成千上万的样本。本实施例样本分析装置首先采用过滤模块501接收用户上传的样本，过滤掉样本组成的样本集中不符合预定分析条件的样本，其中，不符合预定分析条件的样本比如是：已经损坏的程序文件、系统不支持的文件格式或者体积过大的文件等。

此外，过滤模块501还需要通过反恶意引擎比如反病毒引擎，对所述样本进行扫描，进一步过滤掉其中已经被反病毒引擎识别出的样本，本实施例只对未报告病毒的样本进行分析。

具体地，通过聚类模块502对每一样本的文件内容进行扫描，为每一样本生成一个类别特征码，表示该样本属于哪一类，相似的样本会拥有非常相近的类别特征码，因此，依据该类别特征码去查找预置的数据库，如果在数据库中找到与之相同或相似的类别特征码，则表示该类别已经存在，如果没有找到，则表示该类别之前不存在。

同时，每个样本具有标识号，该标识号可以以样本的密钥比如MD5表示。当以样本的类别特征码查找数据库，表示该类别已经存在时，则直接将该样本的MD5记录到该类别特征码对应的类别中即可。如果通过查找数据库，表示该类别不存在，则在数据库中创建一个新类别，以该样本的类别特征码作为索引，将该样本的MD5记录到创建的新类别中。

样本分析装置在完成样本的聚集归类后，通过分析模块503按照样本对应的类别分别进行分析，该分析过程可以由人工操作完成，也可以采用自动化的分析技术。

分析模块503在对每一类样本集进行分析时，如果该类别的样本集中已经有样本实际分析过，则无需对该类别的样本集进行实际的详细分析计算，样本处理流程到此结束。如果该类别样本集中还没有任何样本被分析过，则从中随机挑选预定数量的样本进行详细的分析。其中，随机挑选的样本的数量可以为少量样本，具体根据实际需要设定为一个、两个或更多个。

如图6所示，在具体实施过程中，所述过滤模块501包括：过滤单元5011以及反恶意引擎单元5012，其中：

过滤单元5011，用于过滤掉所述样本组成的样本集中不符合预定分析条件的样本。

反恶意引擎单元5012，用于使用反恶意引擎对所述样本进行扫描，过滤掉其中被所述反恶意引擎识别的样本。

如图7所示，所述聚类模块502包括：特征码生成单元5021、判断单元5022以及分类单元5023，其中：

特征码生成单元5021，用于对过滤处理后的样本进行内容扫描，为每一样本生成一类别特征码；

判断单元5022，用于根据所述类别特征码查找预置的数据库，判断所述数据库中是否存在与所述类别特征码相同或相似的类别特征码；

分类单元5023，用于当所述数据库中存在所述类别特征码时，将所述样本的标识号记录到该类别特征码对应的类别中；否则，在所述数据库中创建一对应所述类别特征码的类别，并以所述类别特征码为索引，将所述样本的标识号记录到该类别特征码对应的类别中。

由上述方案可以看出，通过对相似样本进行聚合归纳处理，如果一批恶意样本属于同一病毒变种，那么该方案自动将这些样本归为一类，分析工程师只需要分析该类别中一个样本即可，这样可极大地降低分析工程师的分析工作。而如果出现一个完全新型的恶意攻击样本类型，该方案会自动创建一个新的类别，此时分析工程师通过及时分析该类别中的任意一个样本，则能很容易地发现新型病毒。

此外，本发明还提出一种计算机可读取的存储介质，在其上存储了使计算机能够运行的程序，在程序装入计算机的存储器内后，接收上传的样本，对所述样本进行过滤处理；对过滤处理后的样本进行归类处理；对归类处理后的样本按照对应的类别进行分析。以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种样本分析方法，其特征在于，包括以下步骤：

接收上传的样本，对所述样本进行过滤处理；

对过滤处理后的样本进行归类处理，具体包括：对过滤处理后的样本进行内容扫描，为每一样本生成一类别特征码；根据所述类别特征码查找预置的数据库，判断所述数据库中是否存在与所述类别特征码相同或相似的类别特征码；若是，则将所述样本的标识号记录到该类别特征码对应的类别中；否则在所述数据库中创建一对应所述类别特征码的类别，并以所述类别特征码为索引，将所述样本的标识号记录到该类别特征码对应的类别中；标识号以样本的密钥表示；

对归类处理后的样本按照对应的类别进行分析，具体包括：对归类处理后的每一类别样本集，判断该类别样本集中是否有样本分析过，若是，则结束对该类别的样本分析流程；否则从该类别样本中随机挑选预定数量的样本进行分析。

2.根据权利要求1所述的方法，其特征在于，所述对样本进行过滤处理的步骤包括：

过滤掉所述样本组成的样本集中不符合预定分析条件的样本；所述不符合预定分析条件的样本包括已损坏的程序文件、系统不支持的文件格式或者体积过大的文件。

3.根据权利要求2所述的方法，其特征在于，所述过滤掉所述样本组成的样本集中不符合预定分析条件的样本的步骤之后还包括：

使用反恶意引擎对所述样本进行扫描，过滤掉其中被所述反恶意引擎识别的样本。

4.一种样本分析装置，其特征在于，包括：

聚类模块，用于对过滤处理后的样本进行归类处理；所述聚类模块包括：

特征码生成单元，用于对过滤处理后的样本进行内容扫描，为每一样本生成一类别特征码；判断单元，用于根据所述类别特征码查找预置的数据库，判断所述数据库中是否存在与所述类别特征码相同或相似的类别特征码；分类单元，用于当所述数据库中存在所述类别特征码时，将所述样本的标识号记录到该类别特征码对应的类别中；否则，在所述数据库中创建一对应所述类别特征码的类别，并以所述类别特征码为索引，将所述样本的标识号记录到该类别特征码对应的类别中；标识号以样本的密钥表示；

分析模块，用于对归类处理后的样本按照对应的类别进行分析，具体用于对归类处理后的每一类别样本集，判断该类别样本集中是否有样本分析过，若是，则不对该类别的样本进行分析；否则从该类别样本中随机挑选预定数量的样本进行分析。

5.根据权利要求4所述的装置，其特征在于，所述过滤模块包括：

过滤单元，用于过滤掉所述样本组成的样本集中不符合预定分析条件的样本；所述不符合预定分析条件的样本包括已损坏的程序文件、系统不支持的文件格式或者体积过大的文件。

6.根据权利要求5所述的装置，其特征在于，所述过滤模块还包括：

反恶意引擎单元，用于使用反恶意引擎对所述样本进行扫描，过滤掉其中被所述反恶意引擎识别的样本。