CN106357689A

CN106357689A - 威胁数据的处理方法及系统

Info

Publication number: CN106357689A
Application number: CN201610978879.6A
Authority: CN
Inventors: 郑文彬; 丁卯胤
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2016-11-07
Filing date: 2016-11-07
Publication date: 2017-01-25
Anticipated expiration: 2036-11-07
Also published as: CN106357689B

Abstract

本发明公开了一种威胁数据的处理方法及系统。其中方法包括：收集原始威胁数据；通过关联分析对原始威胁数据进行筛选；根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点；由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志；对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。本发明提供了一套有效地、标准的针对网络恶意行为的威胁数据处理流程，能够对分散化的威胁数据进行统一管理和分析，实现对威胁数据的危害级别评定，该评定结果可做成产品用于指导如何提出对网络恶意行为有效的应对策略。

Description

威胁数据的处理方法及系统

技术领域

本发明涉及计算机网络技术领域，具体涉及一种威胁数据的处理方法及系统。

背景技术

网络恶意行为是指网络系统的硬件、软件及其系统中的数据受到恶意代码攻击而遭到破坏、更改、泄露，致使系统不能连续可靠正常地运行，网络服务中断的行为。随着信息化的普及，网络新应用的大量出现，网络恶意代码所表现出的行为也层出不穷，目前最流行的网络恶意行为是网页挂马、盗取帐号、端口扫描、漏洞扫描、ARP(Address ResolutionProtocol，地址解析协议)欺骗、IP(Internet Protocol，因特网协议)劫持、DDOS(Distributed Denial of Service，分布式拒绝服务)攻击、溢出攻击、木马攻击等。

针对大量的这些网络恶意行为分析，大致可以把网络恶意行为分为四类：信息探测行为(如端口和漏洞扫描)、信息欺骗行为(如ARP欺骗和IP劫持)、信息淹没行为(如DDOS攻击)、信息伪传递行为(溢出攻击、IMCP木马、HTTP隧道木马)。

在现有技术中，针对不同类型的网络恶意行为，有专门的处理引擎负责处理分析，产生威胁数据，由人工对威胁数据进行进一步分析，获取各种网络恶意行为的行为特点，根据行为特点提出应对策略。各个处理引擎之间是相互独立的，在实际应用中可以通过并行的方式或者串行的方式进行威胁数据检测，网络恶意行为的分析被隔离化，分析得到的威胁数据比较分散，数据格式不统一，不能进行统一化管理，无法形成一套有效地、标准化的针对网络恶意行为的威胁数据处理系统。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的威胁数据的处理方法及系统。

根据本发明的一个方面，提供了一种威胁数据的处理方法，包括：

收集原始威胁数据；

通过关联分析对原始威胁数据进行筛选；

根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点；

由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志；

对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。

根据本发明的另一方面，提供了一种威胁数据的处理系统，包括：

威胁数据收集模块，用于收集原始威胁数据；

威胁数据筛选模块，用于通过关联分析对原始威胁数据进行筛选；

威胁任务建立模块，用于根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点；

威胁任务调度模块，位于调度节点中，用于将威胁检测任务分发给分布式集群系统；

威胁任务分析模块，位于分布式集群系统中，用于对威胁检测任务进行分析，得到鉴定日志；

分析结果评定模块，用于对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。

根据本发明提供的威胁数据的处理方法及系统，收集针对各种类型的网络恶意行为产生的原始威胁数据，通过关联分析对原始威胁数据进行筛选；根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点；由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志；对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。本发明提供了一套有效地、标准的针对网络恶意行为的威胁数据处理流程，能够对分散化的威胁数据进行统一管理和分析，实现对威胁数据的危害级别评定，该评定结果可做成产品用于指导如何提出对网络恶意行为有效的应对策略。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的威胁数据的处理方法的流程图；

图2示出了根据本发明另一个实施例的威胁数据的处理方法的流程图；

图3示出了根据本发明一个实施例的威胁数据的处理系统的功能框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的威胁数据的处理方法的流程图。如图1所示，该方法包括如下步骤：

步骤S101，收集原始威胁数据。

基于现有技术中存在的网络恶意行为的分析隔离化和分析得到的威胁数据分散化的问题，本方法首先将原始威胁数据收集起来，所收集的原始威胁数据包含针对各种类型的网络恶意行为的分析结果，例如包含有关恶意网页的URL以及有关各种漏洞、病毒、木马、攻击的样本目标。除此之外，样本目标还包括：0Day，NDay，暴露期0Day，位置挂马信息，重要网站，位置挂马跟进等等。其中，0Day是已经被发现(有可能未被公开)，而官方还没有相关补丁的漏洞。这些漏洞被发现后立即被恶意利用，例如利用0Day可以修改注册表、下载文件、运行系统文件。样本目标的格式可以是文件、可执行程序等，本发明对此不作限制。

所收集的原始威胁数据可以是客户端上传的数据。在实际应用中，客户端可以通过预设的进程列表对登录过程或支付过程中的危险进程进行监控；或者通过预设的安全的文件列表对登录过程或支付过程中传输的文件进行监控；或者对登录过程或支付过程中的浏览器调用行为进行监控；或者对登录过程或支付过程中的键盘输入内容的调用进行监控；或者对登录过程或支付过程中客户端传输的数据对象进行监控，例如，当监控到客户端向与登录过程或支付过程无关的对象传输与登录或支付相关的数据时，则应当拦截所传输的数据对象；或者对登录过程或支付过程中所开启的网页进行监控，例如，在登录过程或支付过程中，用户可能开启的支付网页为恶意第三方伪造的与真实支付网页类似的网页，因此需要对所开启的网页进行监控。其中，在监控可执行文件等文件时，不仅可以监控到文件的实时下载情况，还可以监控文件被启动时以及被启动后的实时运行情况。

另外，还可以收集第三方平台发送的原始威胁数据。或者，收集通过爬虫技术爬取到的原始威胁数据。本发明对原始威胁数据的收集方式不作限制。

步骤S102，通过关联分析对原始威胁数据进行筛选。

鉴于收集的原始威胁数据的数据量庞大，如果将这些原始威胁数据全部进行后续处理，将会影响系统处理效率。因此本步骤通过关联分析对原始威胁数据进行筛选，主要借助后台提供的黑数据和预设站点列表进行关联分析，确定哪些数据应被过滤掉，以减少后续处理的数据量，提升系统处理效率。

步骤S103，根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点。

本步骤主要对待分析的威胁数据(样本目标或者URL)进行管理，建立威胁检测任务。一旦威胁检测任务建立，后续无论是进行自动化沙箱分析，还是人工分析，都会对该威胁检测任务给出分析结论。具体地，根据原始威胁数据的来源信息和/或经筛选确定的可靠度，建立威胁检测任务，并为威胁检测任务确定检测优先级。如果经筛选确定的可靠度比较高，该可靠度与属于黑数据的可能性和与重要站点的关联性有关，那么则为该威胁检测任务确定较高的检测优先级；如果经筛选确定的可靠度比较低，则为该威胁检测任务确定较低的检测优先级。另外，对原始威胁数据的来源信息进行分析，认为可能需要利用不同的环境或引擎对该原始威胁数据进行分析，就需要建立不同的威胁检测任务，即针对同一原始威胁数据建立一个或多个威胁检测任务，原始威胁数据与威胁检测任务是一对一或一对多的关系。

所建立的威胁检测任务下发给调度节点，通常当天产生的威胁检测任务当天下发给调度节点，提升响应速度。

步骤S104，由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志。

调度节点在接收到下发的威胁检测任务后，将威胁检测任务分发给分布式集群系统。为了进一步提升威胁数据检测的安全性，本发明中分布式集群系统可具体为分布式沙箱集群系统或分布式蜜罐系统。分布式沙箱集群系统采用沙箱技术进行检测分析，分布式蜜罐系统采用蜜罐技术进行检测分析，其目的都是在一个隔离的虚拟环境下开展检测分析工作，保护系统不受影响。

步骤S105，对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。

在得到鉴定日志后，将各种需要的日志信息抓取出来，进行解析和规则判定。其中规则是预先在系统内部配置的规则，通过规则判定实现对威胁数据的危害级别的定级。

根据本实施例提供的威胁数据的处理方法，收集针对各种类型的网络恶意行为产生的原始威胁数据，通过关联分析对原始威胁数据进行筛选；根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点；由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志；对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。本方法提供了一套有效地、标准的针对网络恶意行为的威胁数据处理流程，能够对分散化的威胁数据进行统一管理和分析，实现对威胁数据的危害级别评定，该评定结果可做成产品用于指导如何提出对网络恶意行为有效的应对策略。

图2示出了根据本发明另一个实施例的威胁数据的处理方法的流程图。如图2所示，该方法包括如下步骤：

步骤S201，收集原始威胁数据。

本实施例所收集的原始威胁数据包含针对各种类型的网络恶意行为的分析结果，例如包含有关恶意网页的URL以及有关各种漏洞、病毒、木马、攻击的样本目标。除此之外，样本目标还包括：0Day，NDay，暴露期0Day，位置挂马信息，重要网站，位置挂马跟进等等。其中，0Day是已经被发现(有可能未被公开)，而官方还没有相关补丁的漏洞。这些漏洞被发现后立即被恶意利用，例如利用0Day可以修改注册表、下载文件、运行系统文件。样本目标的格式可以是文件、可执行程序等，本发明对此不作限制。

所收集的原始威胁数据可以是客户端上传的数据。这里的客户端可以是用于检测各种网络恶意行为的用户端。在实际应用中，客户端可以通过预设的进程列表对登录过程或支付过程中的危险进程进行监控；或者通过预设的安全的文件列表对登录过程或支付过程中传输的文件进行监控；或者对登录过程或支付过程中的浏览器调用行为进行监控；或者对登录过程或支付过程中的键盘输入内容的调用进行监控；或者对登录过程或支付过程中客户端传输的数据对象进行监控，例如，当监控到客户端向与登录过程或支付过程无关的对象传输与登录或支付相关的数据时，则应当拦截所传输的数据对象；或者对登录过程或支付过程中所开启的网页进行监控，例如，在登录过程或支付过程中，用户可能开启的支付网页为恶意第三方伪造的与真实支付网页类似的网页，因此需要对所开启的网页进行监控。其中，在监控可执行文件等文件时，不仅可以监控到文件的实时下载情况，还可以监控文件被启动时以及被启动后的实时运行情况。客户端在检测得到威胁数据之后，生成日志暂存于日志缓冲清单中。客户端的日志记录线程轮询日志缓冲清单并依照先进先出的方式依次处理日志，将日志内容追加写入日志记录文件中，由外部相关调度模块进程获取并处理该日志文件并进行上传。例如，可以由客户端发送消息获取请求，根据消息获取请求中的请求推送时间和已接收消息列表，从消息队列中获取未向该客户端发送过的新消息，并向客户端反馈响应消息，该响应消息中包括第二推送时间和新消息列表，新消息列表中包括本次向客户端下发的所有新消息的消息ID和消息内容，第二推送时间为新消息的推送时间。所上传的威胁数据可以包含环境和文件基本信息、检出功能点触发数据等。其中环境和文件基本信息以流水日志等形式输出，检出功能点触发数据以行为日志actions.log的形式输出。以样本为例，环境和文件基本信息具体为样本进程文件MD5，样本进程文件路径，主要系统模块名称和文件版本等；检出功能点触发数据具体为所涉及的进程ID和/或线程ID，被篡改函数的名称，篡改后的指针值，检出时所在Hooked API等。

步骤S202，对原始威胁数据进行结构化处理。

由于原始威胁数据包含针对各种类型的网络恶意行为的分析结果，因此原始威胁数据的数据信息不相同，数据格式也不相同。为了便于后续处理，需要对原始威胁数据的数据格式进行统一处理，使其成为后续可识别处理的标准化结构。

步骤S203，通过关联分析对原始威胁数据进行筛选。

具体地说，对于URL，可利用黑名单数据库对URL进行关联分析，确定是否过滤掉URL。其中，黑名单数据库包含：URL黑名单数据库，IP黑名单数据库，和/或域名黑名单数据库等等。例如，针对某个上传过来的URL，获取该URL对应的IP和域名，比对URL是否属于URL黑名单数据库，和/或，比对URL对应的IP是否属于IP黑名单数据库，和/或，比对URL对应的域名是否属于域名黑名单数据库，若属于，则不应过滤掉该URL；若都不属于，则可过滤掉该URL。

对于样本，根据样本文件格式特征和/或病毒名称对样本进行关联分析，确定是否过滤掉样本。例如，对于某个宏文件，其包含URL数据，可将URL数据与上述黑名单数据库进行关联，比对URL及其相关信息(IP或域名)是否属于黑名单数据库，若属于，则不应过滤掉该宏文件。另外，还可选用自带引擎对样本进行预扫描获得病毒名称，根据病毒名称来判断是否需要对该样本进行过滤。

另外，还可对原始威胁数据与预设站点列表中的站点的关系进行关联分析，确定是否过滤掉原始威胁数据。预设站点列表中记录的是优先级较高的重要站点，如政府网站等，如果原始威胁数据与重要站点有关联，则不应过滤。

在对原始威胁数据进行筛选的同时，还可根据筛选过程确定可靠度，该可靠度与属于黑数据的可能性和与重要站点的关联性有关，以便后续确定威胁检测任务的优先级。

步骤S204，根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点。

步骤S205，由调度节点将威胁检测任务分发给分布式集群系统，由分布式集群系统对威胁检测任务进行分析，得到鉴定日志。

调度节点在接收到下发的威胁检测任务后，将威胁检测任务分发给分布式集群系统。为了进一步提升威胁数据检测的安全性，本发明中分布式集群系统可具体为分布式沙箱集群系统或分布式蜜罐系统。分布式沙箱集群系统采用沙箱技术进行检测分析，沙箱为可疑样本日志提供了一个封闭的运行环境，这样，即使可疑样本日志对应的样本确实存在漏洞，也不会对服务器侧造成损害。分布式蜜罐系统采用蜜罐技术进行检测分析，其目的都是在一个隔离的虚拟环境下开展检测分析工作，保护系统不受影响。

在分布式集群系统中部署有静态引擎和动态引擎分别对威胁检测任务进行静态分析和动态分析。其中，静态引擎可抽取URL信息和/或样本格式信息进行静态分析。所抽取的URL信息包含但不限于：IP、域名、URL的MD5值等等，样本格式信息包含但不限于：漏洞/病毒名称、URL信息、PE样本的字符串相似度等等。动态引擎主要抓取操作系统行为数据、漏洞相关行为数据和/或网络相关行为数据进行动态分析。以内核漏洞为例，动态引擎对关键行为或功能的相关API的调用进行hook，比对相关函数的名称或属性是否被篡改或替换，从而得到内核漏洞的鉴定日志。

通过云查杀的PE文件利用沙箱检测方式进行再次完整分析检测。对于非PE文件，如富文本格式(Rich Text Format，以下简称为RTF格式)、PDF格式、Doc(一种文件扩展名)格式、docx(一种文件扩展名)格式以及excel格式等等，若文件为能够继续解压缩的文档，则返回继续进行解压缩操作，若文件为可检测的元数据，则进行QEX静态分析、填充数据(shellcode)半动态检测以及lightVM轻量动态分析。之后，利用沙箱检测对通过以上三种检测的元数据再次进行检测。在对文件是否具有恶意行为的检测时，优选地，本发明实施例中，可以将恶意行为的危险等级分为三个等级。第一，高危，即能够确认元数据为恶意代码，如确定的木马样本、明显的恶意行为或者能够触发的漏洞利用等。第二，中危，即存在疑似恶意行为，但无法确定的，或者疑似漏洞利用，但尚没有确定的恶意行为，例如发现样本会访问以下敏感的位置，或者样本导致程序崩溃，但没有触发执行。第三，低危，即非经过确认的无恶意文件，可能会危害系统安全，可以理解为存在风险的文件。

本实施例中，分布式集群系统除了利用自己的引擎做分析以外，还可获取第三方平台或第三方引擎提供的鉴定信息，从而丰富鉴定结果。

另外，分布式集群系统还可进行关联分析，具体分析URL之间，样本之间是否具有关联性，通过分析黑数据之间的关联性，随着数据越来越多，积累的黑数据也越来越多。

步骤S206，将鉴定日志进行缓存后，存储到hadoop集群系统中。

分布式集群系统得到鉴定日志之后，将鉴定日志反馈给调度节点，调度节点对鉴定日志进行缓存，同时调度节点将缓存的鉴定日志同步存储到hadoop集群系统中。

步骤S207，从缓存中提取出鉴定日志，对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。

调度节点从缓存中提取出鉴定日志，将鉴定日志分类派发给相应的模块做解析和规则判定，其中在模块内部预先设置有各种规则，本发明对具体规则和规则数量不作限定，通常情况下所设置的规则能达到数百条。

通过设置规则，利用规则进行判定能够快速解决因恶意程序的各种实体变种、行为变种带来的不确定性导致安全软件查杀率下降问题。具体来讲，规则设置功能可包括语言描述、可视化规则编程界面、语言解析器、动态匹配器等部分。语言描述包含了规则的类型、规则编号、规则id、随机匹配比率、匹配最大次数限制、匹配后返回值和匹配条件组。匹配条件组包含多个匹配条件的与、或、非的编程组合。每个匹配条件包含匹配关键词、匹配操作符、匹配目标数据三个部分。

客户端来云端请求样本的安全级别时，会进行云规则动态匹配，主要匹配如文件名、路径、大小、FileDNA、IconDNA、MD5、ip等所有可疑程序运行环境的相关的特征从而达到动态规则匹配查杀的目的。

举例而言，接收到客户端上传文件样本的特征后，得到一个key/value(键/值)对的hash_map(哈希图)。通过规则管理接口将文件样本的特征与匹配规则进行匹配比较。具体地，文件样本的特征可以包括：文件名、路径、大小、FileDNA(文件特征)、IconDNA(图标特征)、MD5、IP(IP地址)。规则管理接口中各个匹配规则还可以包括下列属性中至少一种：应用比例、命中限制、日志回传比例、以及分组标签。

本步骤中，先对鉴定日志进行解析，得到解析结果；按照预先设置的规则，利用鉴定日志的解析结果进行评分得到评分结果；根据评分结果对威胁数据的危害级别进行评定得到评定结果；按照评定结果生成评定文件。概括来说，根据预先设置的规则，结合静态和动态分析得到的结果，对威胁数据的危害级别进行评定，例如评定为黑、白、灰三个级别，然后形成可交换的评定文件，如pdf格式的文件。

步骤S208，将评定文件和评定文件对应的原始威胁数据存储到黑数据库中。

步骤S209，将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的原始威胁数据按照类别推送给对应的客户端进行进一步分析。

由于每日处理的数据量很大，对于普通的黑数据可直接存储到黑数据库中；对于高可疑的威胁数据，例如命中0Day、NDay或者信息木马变种的数据，需要推送给客户端进行进一步的分析。每个客户端都成为分布在互联网中的一个收集可能存在漏洞的指定类型文件的探针，使得漏洞挖掘范围较为广泛、全面，客户端与服务器端进行配合，能够及时发现各指定类型文件中存在的漏洞。其中将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的威胁数据认定为高可疑威胁数据。另外，对于通过反调试或反分析手段导致分析失败的样本，也需要推送给客户端进行进一步分析。这些威胁数据可分类推送给不同的引擎进行处理。

步骤S210，将进一步分析得到的结果反馈给黑数据库进行存储。

本实施例的方法提供了一套有效地、标准的针对网络恶意行为的威胁数据自动化分析和处理流程，能够对分散化的威胁数据进行统一管理和分析，实现对威胁数据的危害级别评定，该评定结果可做成产品用于指导如何提出对网络恶意行为有效的应对策略。进一步的，本实施例中采用分布式集群系统实现对威胁数据的静态分析、动态分析和关联分析，从这三个方面得出的鉴定结果，准确度有所提升，解决了误报率较高的问题。而且，本方法为威胁数据建立对应的威胁检测任务，通过高效的任务分发，大大提升了响应速度。通过关联分析对威胁数据进行筛选，减少了后续处理的数据量，提高了处理效率；对于可靠度较高的威胁数据，提升其威胁检测任务的检测优先级，优先处理这些任务，进一步提升了高效性和可靠性。本发明可以应用于网络安全、终端安全、云安全、应用安全、安全管理和安全服务等多个领域。产品包括高中低端下一代防火墙、入侵防御系统、DDoS攻击防御系统、虚拟综合业务网关、沙箱、大数据安全分析系统等产品，以及相应的针对传统威胁及未知威胁的解决方案。

图3示出了根据本发明一个实施例的威胁数据的处理系统的功能框图。如图3所示，该系统包括：威胁数据收集模块310，威胁数据筛选模块320，威胁任务建立模块330，威胁任务调度模块340，威胁任务分析模块350，以及分析结果评定模块360。

威胁数据收集模块310用于收集原始威胁数据。威胁数据收集模块310所收集的原始威胁数据包含针对各种类型的网络恶意行为的分析结果，例如包含有关恶意网页的URL以及有关各种漏洞、病毒、木马、攻击的样本目标。除此之外，样本目标还包括：0Day，NDay，暴露期0Day，位置挂马信息，重要网站，位置挂马跟进等等。其中，0Day是已经被发现(有可能未被公开)，而官方还没有相关补丁的漏洞。这些漏洞被发现后立即被恶意利用，例如利用0Day可以修改注册表、下载文件、运行系统文件。样本目标的格式可以是文件、可执行程序等，本发明对此不作限制。

威胁数据收集模块310进一步用于：收集客户端上传的原始威胁数据。在实际应用中，客户端可以通过预设的进程列表对登录过程或支付过程中的危险进程进行监控；或者通过预设的安全的文件列表对登录过程或支付过程中传输的文件进行监控；或者对登录过程或支付过程中的浏览器调用行为进行监控；或者对登录过程或支付过程中的键盘输入内容的调用进行监控；或者对登录过程或支付过程中客户端传输的数据对象进行监控，例如，当监控到客户端向与登录过程或支付过程无关的对象传输与登录或支付相关的数据时，则应当拦截所传输的数据对象；或者对登录过程或支付过程中所开启的网页进行监控，例如，在登录过程或支付过程中，用户可能开启的支付网页为恶意第三方伪造的与真实支付网页类似的网页，因此需要对所开启的网页进行监控。其中，在监控可执行文件等文件时，不仅可以监控到文件的实时下载情况，还可以监控文件被启动时以及被启动后的实时运行情况。另外，威胁数据收集模块310进一步用于：收集第三方平台发送的原始威胁数据。或者，收集通过爬虫技术爬取到的原始威胁数据。

威胁数据筛选模块320用于通过关联分析对原始威胁数据进行筛选。

威胁数据筛选模块320进一步用于：对于恶意URL，利用黑名单数据库对恶意URL进行关联分析，确定是否过滤掉所述恶意URL；其中，所述黑名单数据库包含：URL黑名单数据库，IP黑名单数据库，和/或域名黑名单数据库。例如，针对某个上传过来的URL，获取该URL对应的IP和域名，比对URL是否属于URL黑名单数据库，和/或，比对URL对应的IP是否属于IP黑名单数据库，和/或，比对URL对应的域名是否属于域名黑名单数据库，若属于，则不应过滤掉该URL；若都不属于，则可过滤掉该URL。

威胁数据筛选模块320进一步用于：对于样本，根据样本文件格式特征和/或病毒名称对样本进行关联分析，确定是否过滤掉所述样本。例如，对于某个宏文件，其包含URL数据，可将URL数据与上述黑名单数据库进行关联，比对URL及其相关信息(IP或域名)是否属于黑名单数据库，若属于，则不应过滤掉该宏文件。另外，还可选用自带引擎对样本进行预扫描获得病毒名称，根据病毒名称来判断是否需要对该样本进行过滤。

威胁数据筛选模块320进一步用于：对原始威胁数据与预设站点列表中的站点的关系进行关联分析，确定是否过滤掉所述原始威胁数据。预设站点列表中记录的是优先级较高的重要站点，如政府网站等，如果原始威胁数据与重要站点有关联，则不应过滤。

威胁数据筛选模块320在对原始威胁数据进行筛选的同时，还可根据筛选过程确定可靠度，该可靠度与属于黑数据的可能性和与重要站点的关联性有关，以便后续确定威胁检测任务的优先级。

威胁任务建立模块330用于根据经过筛选的原始威胁数据建立威胁检测任务，将威胁检测任务下发给调度节点。

威胁任务建立模块330要对待分析的威胁数据(样本目标或者URL)进行管理，建立威胁检测任务。一旦威胁检测任务建立，后续无论是进行自动化沙箱分析，还是人工分析，都会对该威胁检测任务给出分析结论。威胁任务建立模块330进一步用于：根据原始威胁数据的来源信息和/或经筛选确定的可靠度，建立威胁检测任务，并为威胁检测任务确定检测优先级。如果经筛选确定的可靠度比较高，该可靠度与属于黑数据的可能性和与重要站点的关联性有关，那么则为该威胁检测任务确定较高的检测优先级；如果经筛选确定的可靠度比较低，则为该威胁检测任务确定较低的检测优先级。另外，对原始威胁数据的来源信息进行分析，认为可能需要利用不同的环境或引擎对该原始威胁数据进行分析，就需要建立不同的威胁检测任务，即针对同一原始威胁数据建立一个或多个威胁检测任务，原始威胁数据与威胁检测任务是一对一或一对多的关系。

威胁任务调度模块340，位于调度节点中，用于将威胁检测任务分发给分布式集群系统。

威胁任务分析模块350，位于分布式集群系统中，用于对威胁检测任务进行分析，得到鉴定日志。

为了进一步提升威胁数据检测的安全性，本发明中分布式集群系统可具体为分布式沙箱集群系统或分布式蜜罐系统。分布式沙箱集群系统采用沙箱技术进行检测分析，沙箱为可疑样本日志提供了一个封闭的运行环境，这样，即使可疑样本日志对应的样本确实存在漏洞，也不会对服务器侧造成损害。分布式蜜罐系统采用蜜罐技术进行检测分析，其目的都是在一个隔离的虚拟环境下开展检测分析工作，保护系统不受影响。

威胁任务分析模块350进一步用于：对威胁检测任务进行静态分析、动态分析和/或关联分析，得到鉴定日志。

威胁任务分析模块350进一步用于：利用静态引擎抽取URL信息和/或样本格式信息进行静态分析；和/或，获取第三方平台或第三方引擎提供的鉴定信息。静态引擎可抽取URL信息和/或样本格式信息进行静态分析。所抽取的URL信息包含但不限于：IP、域名、URL的MD5值等等，样本格式信息包含但不限于：漏洞/病毒名称、URL信息、PE样本的字符串相似度等等。

威胁任务分析模块350进一步用于：利用动态引擎抓取操作系统行为数据、漏洞相关行为数据和/或网络相关行为数据进行动态分析；和/或，获取第三方平台或第三方引擎提供的鉴定信息。以内核漏洞为例，动态引擎对关键行为或功能的相关API的调用进行hook，比对相关函数的名称或属性是否被篡改或替换，从而得到内核漏洞的鉴定日志。

威胁任务分析模块350还可进行关联分析，具体分析URL之间，样本之间是否具有关联性，通过分析黑数据之间的关联性，随着数据越来越多，积累的黑数据也越来越多。

分析结果评定模块360用于对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定。

分析结果评定模块360进一步用于：对鉴定日志进行解析，得到解析结果；按照预先设置的规则，利用鉴定日志的解析结果进行评分得到评分结果；根据评分结果对威胁数据的危害级别进行评定得到评定结果；按照评定结果生成评定文件。

进一步的，该系统还可包括：结构化处理模块370，用于对原始威胁数据进行结构化处理。

进一步的，该系统还可包括：存储系统380，位于hadoop集群系统中，用于存储鉴定日志。

进一步的，该系统还包括：黑数据库390，用于存储评定文件和评定文件对应的原始威胁数据。

由于每日处理的数据量很大，对于普通的黑数据可直接存储到黑数据库390中；对于高可疑的威胁数据，例如命中0Day、NDay或者信息木马变种的数据，需要推送给客户端进行进一步的分析。每个客户端都成为分布在互联网中的一个收集可能存在漏洞的指定类型文件的探针，使得漏洞挖掘范围较为广泛、全面，客户端与服务器端进行配合，能够及时发现各指定类型文件中存在的漏洞。其中将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的威胁数据认定为高可疑威胁数据。另外，对于通过反调试或反分析手段导致分析失败的样本，也需要推送给客户端进行进一步分析。这些威胁数据可分类推送给不同的引擎进行处理。

具体地，该系统还可包括：威胁数据推送模块391和反馈模块392。威胁数据推送模块391，用于将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的原始威胁数据按照类别推送给对应的客户端进行进一步分析；反馈模块392，用于将进一步分析得到的结果反馈给黑数据库进行存储。

本实施例提供了一套有效地、标准的针对网络恶意行为的威胁数据自动化分析和处理系统，能够对分散化的威胁数据进行统一管理和分析，实现对威胁数据的危害级别评定，该评定结果可做成产品用于指导如何提出对网络恶意行为有效的应对策略。进一步的，本实施例中采用分布式集群系统实现对威胁数据的静态分析、动态分析和关联分析，从这三个方面得出的鉴定结果，准确度有所提升，解决了误报率较高的问题。而且，本系统为威胁数据建立对应的威胁检测任务，通过高效的任务分发，大大提升了响应速度。通过关联分析对威胁数据进行筛选，减少了后续处理的数据量，提高了处理效率；对于可靠度较高的威胁数据，提升其威胁检测任务的检测优先级，优先处理这些任务，进一步提升了高效性和可靠性。本系统各个功能模块的功能可灵活化扩展，扩展的功能不会影响其它模块的正常工作，提升了系统的适用性。本发明可以应用于网络安全、终端安全、云安全、应用安全、安全管理和安全服务等多个领域。产品包括高中低端下一代防火墙、入侵防御系统、DDoS攻击防御系统、虚拟综合业务网关、沙箱、大数据安全分析系统等产品，以及相应的针对传统威胁及未知威胁的解决方案。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的威胁数据的处理系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了：A1、一种威胁数据的处理方法，包括：

收集原始威胁数据；

通过关联分析对原始威胁数据进行筛选；

A2、根据A1所述的方法，所述收集原始威胁数据进一步包括：收集客户端上传的原始威胁数据；其中，所述原始威胁数据包含恶意URL和/或恶意样本。

A3、根据A2所述的方法，所述收集原始威胁数据还包括：

收集第三方平台发送的原始威胁数据；和/或

收集通过爬虫技术爬取到的原始威胁数据。

A4、根据A1-A3中任一项所述的方法，在所述通过关联分析对原始威胁数据进行筛选之前，所述方法还包括：对所述原始威胁数据进行结构化处理。

A5、根据A1-A4中任一项所述的方法，所述通过关联分析对原始威胁数据进行筛选进一步包括：

对于恶意URL，利用黑名单数据库对恶意URL进行关联分析，确定是否过滤掉所述恶意URL；

其中，所述黑名单数据库包含：URL黑名单数据库，IP黑名单数据库，和/或域名黑名单数据库。

A6、根据A1-A4中任一项所述的方法，所述通过关联分析对原始威胁数据进行筛选进一步包括：

对于样本，根据样本文件格式特征和/或病毒名称对样本进行关联分析，确定是否过滤掉所述样本。

A7、根据A5或A6所述的方法，所述通过关联分析对原始威胁数据进行筛选还包括：

对原始威胁数据与预设站点列表中的站点的关系进行关联分析，确定是否过滤掉所述原始威胁数据。

A8、根据A1-A7中任一项所述的方法，所述根据经过筛选的原始威胁数据建立威胁检测任务进一步包括：

根据原始威胁数据的来源信息和/或经筛选确定的可靠度，建立威胁检测任务，并为所述威胁检测任务确定检测优先级；其中，针对同一原始威胁数据建立一个或多个威胁检测任务。

A9、根据A1-A8中任一项所述的方法，所述由分布式集群系统对威胁检测任务进行分析进一步包括：由分布式集群系统对威胁检测任务进行静态分析、动态分析和/或关联分析。

A10、根据A9所述的方法，所述由分布式集群系统对威胁检测任务进行静态分析进一步包括：

由分布式集群系统的静态引擎抽取URL信息和/或样本格式信息进行静态分析；

和/或，获取第三方平台或第三方引擎提供的鉴定信息。

A11、根据A9所述的方法，所述由分布式集群系统对威胁检测任务进行动态分析进一步包括：

由分布式集群系统的动态引擎抓取操作系统行为数据、漏洞相关行为数据和/或网络相关行为数据进行动态分析；

和/或，获取第三方平台或第三方引擎提供的鉴定信息。

A12、根据A1-A11中任一项所述的方法，在所述得到鉴定日志之后，所述方法还包括：将所述鉴定日志进行缓存后，存储到hadoop集群系统中。

A13、根据A1-A12中任一项所述的方法，所述对鉴定日志作解析和规则判定，对威胁数据的危害级别进行评定进一步包括：

对鉴定日志进行解析，得到解析结果；

按照预先设置的规则，利用鉴定日志的解析结果进行评分得到评分结果；

根据评分结果对威胁数据的危害级别进行评定得到评定结果；

按照评定结果生成评定文件。

A14、根据A13所述的方法，在所述按照评定结果生成评定文件之后，所述方法还包括：将所述评定文件和所述评定文件对应的原始威胁数据存储到黑数据库中。

A15、根据A14所述的方法，在所述按照评定结果生成评定文件之后，所述方法还包括：将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的原始威胁数据按照类别推送给对应的客户端进行进一步分析；将进一步分析得到的结果反馈给黑数据库进行存储。

本发明还公开了：B16、一种威胁数据的处理系统，包括：

威胁数据收集模块，用于收集原始威胁数据；

B17、根据B16所述的系统，所述威胁数据收集模块进一步用于：收集客户端上传的原始威胁数据；其中，所述原始威胁数据包含恶意URL和/或恶意样本。

B18、根据B17所述的系统，所述威胁数据收集模块进一步用于：

收集第三方平台发送的原始威胁数据；和/或

收集通过爬虫技术爬取到的原始威胁数据。

B19、根据B16-B18中任一项所述的系统，还包括：结构化处理模块，用于对所述原始威胁数据进行结构化处理。

B20、根据B16-B19中任一项所述的系统，所述威胁数据筛选模块进一步用于：对于恶意URL，利用黑名单数据库对恶意URL进行关联分析，确定是否过滤掉所述恶意URL；其中，所述黑名单数据库包含：URL黑名单数据库，IP黑名单数据库，和/或域名黑名单数据库。

B21、根据B16-B19中任一项所述的系统，所述威胁数据筛选模块进一步用于：对于样本，根据样本文件格式特征和/或病毒名称对样本进行关联分析，确定是否过滤掉所述样本。

B22、根据B20或B21所述的系统，所述威胁数据筛选模块进一步用于：对原始威胁数据与预设站点列表中的站点的关系进行关联分析，确定是否过滤掉所述原始威胁数据。

B23、根据B16-B22中任一项所述的系统，所述威胁任务建立模块进一步用于：根据原始威胁数据的来源信息和/或经筛选确定的可靠度，建立威胁检测任务，并为所述威胁检测任务确定检测优先级；其中，针对同一原始威胁数据建立一个或多个威胁检测任务。

B24、根据B16-B23中任一项所述的系统，所述威胁任务分析模块进一步用于：对威胁检测任务进行静态分析、动态分析和/或关联分析，得到鉴定日志。

B25、根据B24所述的系统，所述威胁任务分析模块进一步用于：利用静态引擎抽取URL信息和/或样本格式信息进行静态分析；和/或，获取第三方平台或第三方引擎提供的鉴定信息。

B26、根据B24所述的系统，所述威胁任务分析模块进一步用于：利用动态引擎抓取操作系统行为数据、漏洞相关行为数据和/或网络相关行为数据进行动态分析；和/或，获取第三方平台或第三方引擎提供的鉴定信息。

B27、根据B16-B26中任一项所述的系统，还包括：存储系统，位于hadoop集群系统中，用于存储所述鉴定日志。

B28、根据B16-B27中任一项所述的系统，所述分析结果评定模块进一步用于：

对鉴定日志进行解析，得到解析结果；

按照评定结果生成评定文件。

B29、根据B28所述的系统，还包括：黑数据库，用于存储所述评定文件和所述评定文件对应的原始威胁数据。

B30、根据B29所述的系统，还包括：

威胁数据推送模块，用于将评分结果高于预设阈值或评定结果高于预设级别的评定文件对应的原始威胁数据按照类别推送给对应的客户端进行进一步分析；

反馈模块，用于将进一步分析得到的结果反馈给黑数据库进行存储。

Claims

1.一种威胁数据的处理方法，包括：

收集原始威胁数据；

通过关联分析对原始威胁数据进行筛选；

2.根据权利要求1所述的方法，所述收集原始威胁数据进一步包括：收集客户端上传的原始威胁数据；其中，所述原始威胁数据包含恶意URL和/或恶意样本。

3.根据权利要求2所述的方法，所述收集原始威胁数据还包括：

收集第三方平台发送的原始威胁数据；和/或

收集通过爬虫技术爬取到的原始威胁数据。

4.根据权利要求1-3中任一项所述的方法，在所述通过关联分析对原始威胁数据进行筛选之前，所述方法还包括：对所述原始威胁数据进行结构化处理。

5.根据权利要求1-4中任一项所述的方法，所述通过关联分析对原始威胁数据进行筛选进一步包括：

6.根据权利要求1-4中任一项所述的方法，所述通过关联分析对原始威胁数据进行筛选进一步包括：

7.根据权利要求5或6所述的方法，所述通过关联分析对原始威胁数据进行筛选还包括：

8.根据权利要求1-7中任一项所述的方法，所述根据经过筛选的原始威胁数据建立威胁检测任务进一步包括：

9.根据权利要求1-8中任一项所述的方法，所述由分布式集群系统对威胁检测任务进行分析进一步包括：由分布式集群系统对威胁检测任务进行静态分析、动态分析和/或关联分析。

10.一种威胁数据的处理系统，包括：

威胁数据收集模块，用于收集原始威胁数据；