CN110351280A

CN110351280A - 一种威胁情报提取的方法、系统、设备及可读存储介质

Info

Publication number: CN110351280A
Application number: CN201910635864.3A
Authority: CN
Inventors: 金丽慧; 范渊
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-18
Anticipated expiration: 2039-07-15
Also published as: CN110351280B

Abstract

本申请公开了一种威胁情报提取的方法，包括：获取日志文件，并确定日志文件中的访问源IP；确定每个访问源IP的类型；确定每个访问源IP的攻击性强度；确定每个访问源IP的活跃情况；根据类型、攻击性强度及活跃情况生成每个访问源IP的威胁情报数据。本申请通过对日志文件进行分析来生成威胁情报数据，可以保证威胁情报数据的质量与时效性；同时，不需要通过逆向分析或者自动化沙箱技术提取网络特征，而是利用对应的日志文件的内容对访问源IP的类型、攻击性强度及活跃情况进行分析，能够更高效、准确的提取威胁情报数据。本申请同时还提供了一种威胁情报提取的系统、设备及计算机可读存储介质，具有上述有益效果。

Description

一种威胁情报提取的方法、系统、设备及可读存储介质

技术领域

本申请涉及数据安全技术领域，特别涉及一种威胁情报提取的方法、系统、设备及计算机可读存储介质。

背景技术

随着威胁情报技术被网络安全领域接受并成为重要的检测手段之后，其中可被机读的威胁指标(Indicator of Compromise，IOC)数据可协同各类检测防御设备，将带有威胁标签的IP或域名进行实时告警与防御。而为了提升检测的准确性并降低误报率，需要IOC具备精准性与时效性。

目前的威胁情报数据大部分来源于病毒文件分析产生的IOC，如文件HASH，恶意域名，恶意IP等，这类数据通过逆向分析或者自动化沙箱技术，提取出网络特征，将其标记为相应的IOC。

然而，病毒文件分析产生的威胁只是各类网络威胁中的一部分，此类方法提取的威胁情报只覆盖了一部分的数据，还有大量来自于黑客发起的主动攻击，漏洞扫描以及针对性攻击等威胁情报数据并未被提取，而且，由于病毒文件的网络对抗会产生大量噪音数据，使得得到的威胁情报数据存在较高的误报率。

因此，如何提取准确并有时效性的威胁情报数据是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种威胁情报提取的方法、系统、设备及计算机可读存储介质，用于提取准确并有时效性的威胁情报数据。

为解决上述技术问题，本申请提供一种威胁情报提取的方法，该方法包括：

获取日志文件，并确定所述日志文件中的访问源IP；

确定每个所述访问源IP的类型；

确定每个所述访问源IP的攻击性强度；

确定每个所述访问源IP的活跃情况；

根据所述类型、所述攻击性强度及所述活跃情况生成每个所述访问源IP的威胁情报数据。

可选的，所述确定每个所述访问源IP的类型，包括：

提取每个所述访问源IP的访问日志中的用户代理字段，并根据所述用户代理字段确定每个所述访问源IP是否为大型互联网出口IP；

根据每个所述访问源IP的开放端口确定每个所述访问源IP是否为互联网数据中心IP、动态IP或代理IP；

根据每个所述访问源IP的访问日志的属性确定每个所述访问源IP是否为所述代理IP。

可选的，所述确定每个所述访问源IP的攻击性强度，包括：

通过WEB检测策略识别所述日志文件中的攻击报文，并确定所述攻击报文所属的访问源IP；

根据所述攻击报文所属的访问源IP的攻击与访问特性确定所述攻击报文所属的访问源IP的攻击性强度。

可选的，所述确定每个所述访问源IP的活跃情况，包括：

根据每个所述访问源IP的访问日志计算每个所述访问源IP的访问频率；

将所述访问频率小于第一阈值的访问源IP标记为低活跃度；

将所述访问频率大于或等于所述第一阈值的访问源IP标记为高活跃度。

可选的，还包括：

确定每个所述访问源IP的访问频率是否具有周期性；

将具有周期性的所述访问源IP的有效期设置为第一有效期；

将不具有周期性且为低活跃度的所述访问源IP的有效期设置为第二有效期；

将不具有周期性且为高活跃度的所述访问源IP的有效期设置为第三有效期；

其中，所述第一有效期大于所述第二有效期大于所述第三有效期。

可选的，在获取日志文件，并确定所述日志文件中的访问源IP之后，还包括：

对每个所述访问源IP的访问次数进行统计，对所述访问次数大于第二阈值的访问源IP进行日志聚合，得到聚合后的日志文件。

本申请还提供一种威胁情报提取的系统，该系统包括：

获取模块，用于获取日志文件，并确定所述日志文件中的访问源IP；

第一确定模块，用于确定每个所述访问源IP的类型；

第二确定模块，用于确定每个所述访问源IP的攻击性强度；

第三确定模块，用于确定每个所述访问源IP的活跃情况；

生成模块，用于根据所述类型、所述攻击性强度及所述活跃情况生成每个所述访问源IP的威胁情报数据。

可选的，所述第一确定模块包括：

第一确定子模块，用于提取每个所述访问源IP的访问日志中的用户代理字段，并根据所述用户代理字段确定每个所述访问源IP是否为大型互联网出口IP；

第二确定子模块，用于根据每个所述访问源IP的开放端口确定每个所述访问源IP是否为互联网数据中心IP、动态IP或代理IP；

第三确定子模块，用于根据每个所述访问源IP的访问日志的属性确定每个所述访问源IP是否为所述代理IP。

本申请还提供一种威胁情报提取设备，该威胁情报提取设备包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述任一项所述威胁情报提取的方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述威胁情报提取的方法的步骤。

本申请所提供威胁情报提取的方法，包括：获取日志文件，并确定日志文件中的访问源IP；确定每个访问源IP的类型；确定每个访问源IP的攻击性强度；确定每个访问源IP的活跃情况；根据类型、攻击性强度及活跃情况生成每个访问源IP的威胁情报数据。

本申请所提供的技术方案，通过对日志文件进行分析来生成威胁情报数据，由于日志文件具有持续性，因此可以保证威胁情报数据的质量与时效性；同时，相对于传统的基于恶意文件样本行为分析，本申请不需要通过逆向分析或者自动化沙箱技术提取网络特征，而是利用对应的日志文件的内容对访问源IP的类型、攻击性强度及活跃情况进行分析，能够更高效、准确的提取威胁情报数据。本申请同时还提供了一种威胁情报提取的系统、设备及计算机可读存储介质，具有上述有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种威胁情报提取的方法的流程图；

图2为图1所提供的一种威胁情报提取的方法中S102的一种实际表现方式的流程图；

图3为本申请实施例所提供的一种威胁情报数据格式的示意图；

图4为图1所提供的一种威胁情报提取的方法中S103的一种实际表现方式的流程图；

图5为本申请实施例所提供的一种威胁情报提取的系统的结构图；

图6为本申请实施例所提供的另一种威胁情报提取的系统的结构图；

图7为本申请实施例所提供的一种威胁情报提取设备的结构图。

具体实施方式

本申请的核心是提供一种威胁情报提取的方法、系统、设备及计算机可读存储介质，用于提取准确并有时效性的威胁情报数据。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种威胁情报提取的方法的流程图。

其具体包括如下步骤：

S101：获取日志文件，并确定日志文件中的访问源IP；

随着威胁情报技术被网络安全领域接受并成为重要的检测手段之后，其中可被机读的威胁指标IOC数据可协同各类检测防御设备，将带有威胁标签的IP或域名进行实时告警与防御，而传统的基于恶意文件样本行为分析提取威胁情报数据的方法无法保证其精准性与时效性；故本申请提供了一种威胁情报提取的方法，用于解决上述问题。

这里提到的获取日志文件，并确定日志文件中的访问源IP，其目的在于基于海量的WEB访问日志文件，对访问源IP进行行为模型分析，建立对该访问源的行为画像，进而提取出威胁情报数据；

优选的，由于日志文件的数量太过庞大，因此在获取日志文件，并确定日志文件中的访问源IP之后，还可以对每个访问源IP的访问次数进行统计，对访问次数大于第二阈值的访问源IP进行日志聚合，得到聚合后的日志文件；

由于很多访问行为是随机的，可能只是用户偶尔进行的一次访问，因此访问次数小于阈值的访问源IP并不具有活跃性，本申请对访问次数大于阈值的访问源IP进行日志聚合，使得得到的日志文件相比于原始日志文件更具有分析的条件和价值。

S102：确定每个访问源IP的类型；

这里提到的访问源IP的类型可以包括但不限于大型互联网出口IP、动态IP、大型互联网出口IP及代理IP，确定访问源IP的类型的目的在于提高对与威胁情报所属同一类别的IP或域名进行实时告警与防御，提高防御效果；

可选的，这里提到的确定每个访问源IP的类型，其具体也可以为如图2所示的步骤，下面结合图2进行说明：

请参考图2，图2为图1所提供的一种威胁情报提取的方法中S102的一种实际表现方式的流程图。

其具体包括以下步骤：

S201：提取每个访问源IP的访问日志中的用户代理字段，并根据用户代理字段确定每个访问源IP是否为大型互联网出口IP；

用户代理(User Agent，UA)字段是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等；

例如，这里提到的，根据用户代理字段确定每个访问源IP是否为大型互联网出口IP，其具体可以为：

提取UA字段，当UA字段中的数据类型大于N类以上时，如包括Firefox、chrome、safari、opera等类型，可被判断为大型互联网出口IP。

S202：根据每个访问源IP的开放端口确定每个访问源IP是否为互联网数据中心IP、动态IP或代理IP；

例如，当访问源IP所在C段的开放端口出现大量数据库端口、远程服务端口、WEB端口等服务类端口，且聚集度较高时，可认为该访问源IP为互联网数据中心IP；

当访问源IP所在C段的开放端口出现的多为文件共享端口、摄像头等类型，且端口变换情况较为频繁时，则可以认为该访问源IP为动态IP；

当访问源IP所在C段的开放端口出现的多为80，8080等代理服务器经常开通的端口时，则可以认为该访问源IP为代理IP。

S203：根据每个访问源IP的访问日志的属性确定每个访问源IP是否为代理IP。

例如，可以通过识别访问日志的HTTP头部是否有X_Forward_For字段，如果有则可以确定该访问源IP为代理IP；

也可以通过识别访问日志的是否带有Proxy-Connection的Keep-alive报文，如果有则可以确定该访问源IP为代理IP；

当然，上述方案仅为本申请实施例提供的两种实际情况，本申请对此不作具体限定，只要能够达到根据每个访问源IP的访问日志的属性确定每个访问源IP是否为代理IP的目的均属于本申请的保护范围。

S103：确定每个访问源IP的攻击性强度；

对每个访问源IP的访问日志进行安全威胁分析，进而提取出该访问源IP的攻击性强度；

进一步的，还可以根据该访问日志的内容确定该访问源IP的威胁特性，是否具有攻击性，以及其攻击性的随机性与特定性，进而进一步提高防御效果；

这里提到的访问源IP的攻击性强度可以包括但不限于强中弱三个等级，用户或软件开发人员可根据实际需求做适应性调整，本申请对此不作具体限定。

S104：确定每个访问源IP的活跃情况；

这里提到的访问源IP的活跃情况可以包括但不限于高中低三个活跃等级，用户或软件开发人员可根据实际需求做适应性调整，本申请对此不作具体限定。

可选的，这里提到的确定每个访问源IP的活跃情况，其具体可以为：

根据每个访问源IP的访问日志计算每个访问源IP的访问频率；

将访问频率小于第一阈值的访问源IP标记为低活跃度；

将访问频率大于或等于第一阈值的访问源IP标记为高活跃度。

进一步的，由于访问源IP可能存在更改的情况，因此还可以根据访问频率的周期性确定访问源IP的有效期，具体如下：

确定每个访问源IP的访问频率是否具有周期性；

将具有周期性的访问源IP的有效期设置为第一有效期；

将不具有周期性且为低活跃度的访问源IP的有效期设置为第二有效期；

将不具有周期性且为高活跃度的访问源IP的有效期设置为第三有效期；

其中，第一有效期大于第二有效期大于第三有效期。

S105：根据类型、攻击性强度及活跃情况生成每个访问源IP的威胁情报数据。

优选的，在生成每个访问源IP的威胁情报数据之后，还可以其输出至预设位置，并提示用户接收，以便用户及时根据威胁情报数据设置相应的防护措施；

优选的，基于上述的日志分析结果，对于IP类型的威胁情报可以聚合成如图3所示的情报数据格式。

基于上述技术方案，本申请所提供的一种威胁情报提取的方法，通过对日志文件进行分析来生成威胁情报数据，由于日志文件具有持续性，因此可以保证威胁情报数据的质量与时效性；同时，相对于传统的基于恶意文件样本行为分析，本申请不需要通过逆向分析或者自动化沙箱技术提取网络特征，而是利用对应的日志文件的内容对访问源IP的类型、攻击性强度及活跃情况进行分析，能够更高效、准确的提取威胁情报数据。

基于上一实施例的步骤S103，其中所描述的确定每个访问源IP的攻击性强度，其具体也可以为如图4所示的步骤，下面结合图4进行说明：

请参考图4，图4为图1所提供的一种威胁情报提取的方法中S103的一种实际表现方式的流程图。

其具体包括以下步骤：

S401：通过WEB检测策略识别日志文件中的攻击报文，并确定攻击报文所属的访问源IP；

S402：根据攻击报文所属的访问源IP的攻击与访问特性确定攻击报文所属的访问源IP的攻击性强度。

优选的，这里提到的根据攻击报文所属的访问源IP的攻击与访问特性确定攻击报文所属的访问源IP的攻击性强度，其具体可以为：

分析攻击报文所属的访问源IP的攻击与访问目标的特性，当存在访问并发高、目标随机性较大的情况，且不存在在野漏洞攻击以及行业性攻击的情况时，则可认为该攻击报文所属的访问源IP为随机性扫描IP；

分析攻击报文所属的访问源IP的攻击特性，当该攻击特性为具有大量0day漏洞、在野漏洞的利用、采用多类后门连接工具访问时，则可认为该攻击报文所属的访问源IP为针对性攻击IP，此时还可以对其攻击类型进行标记，例如某类漏洞类型、某类行业类型等；

当检测到该攻击报文所属的访问源IP存在多种复杂的攻击行为类型，例如扫描、后门连接等类型，则确定该访问源IP具有专业攻击水平，此时可将其标记为黑产IP，具有较高威胁；

基于上述技术方案，本申请实施例通过对攻击威胁IP的类型分析，为该IP打上相应的标签，以进一步提高威胁情报数据的质量。

请参考图5，图5为本申请实施例所提供的一种威胁情报提取的系统的结构图。

该系统可以包括：

获取模块100，用于获取日志文件，并确定日志文件中的访问源IP；

第一确定模块200，用于确定每个访问源IP的类型；

第二确定模块300，用于确定每个访问源IP的攻击性强度；

第三确定模块400，用于确定每个访问源IP的活跃情况；

生成模块500，用于根据类型、攻击性强度及活跃情况生成每个访问源IP的威胁情报数据。

请参考图6，图6为本申请实施例所提供的另一种威胁情报提取的系统的结构图。

该第一确定模块200可以包括：

第一确定子模块，用于提取每个访问源IP的访问日志中的用户代理字段，并根据用户代理字段确定每个访问源IP是否为大型互联网出口IP；

第二确定子模块，用于根据每个访问源IP的开放端口确定每个访问源IP是否为互联网数据中心IP、动态IP或代理IP；

第三确定子模块，用于根据每个访问源IP的访问日志的属性确定每个访问源IP是否为代理IP。

该第二确定模块300可以包括：

第四确定子模块，用于通过WEB检测策略识别日志文件中的攻击报文，并确定攻击报文所属的访问源IP；

第五确定子模块，用于根据攻击报文所属的访问源IP的攻击与访问特性确定攻击报文所属的访问源IP的攻击性强度。

该第三确定模块400可以包括：

计算子模块，用于根据每个访问源IP的访问日志计算每个访问源IP的访问频率；

第一标记子模块，用于将访问频率小于第一阈值的访问源IP标记为低活跃度；

第二标记子模块，用于将访问频率大于或等于第一阈值的访问源IP标记为高活跃度。

该第三确定模块400还可以包括：

第六确定子模块，用于确定每个访问源IP的访问频率是否具有周期性；

第一设置子模块，用于将具有周期性的访问源IP的有效期设置为第一有效期；

第二设置子模块，用于将不具有周期性且为低活跃度的访问源IP的有效期设置为第二有效期；

第三设置子模块，用于将不具有周期性且为高活跃度的访问源IP的有效期设置为第三有效期；

其中，第一有效期大于第二有效期大于第三有效期。

该系统还可以包括：

聚合模块，用于对每个访问源IP的访问次数进行统计，对访问次数大于第二阈值的访问源IP进行日志聚合，得到聚合后的日志文件。

由于系统部分的实施例与方法部分的实施例相互对应，因此系统部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

请参考图7，图7为本申请实施例所提供的一种威胁情报提取设备的结构图。

该威胁情报提取设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对装置中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在威胁情报提取设备700上执行存储介质730中的一系列指令操作。

威胁情报提取设备700还可以包括一个或一个以上电源727，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述图1至图4所描述的威胁情报提取的方法中的步骤由威胁情报提取设备基于该图7所示的结构实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，功能调用装置，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本申请所提供的一种威胁情报提取的方法、系统、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种威胁情报提取的方法，其特征在于，包括：

获取日志文件，并确定所述日志文件中的访问源IP；

确定每个所述访问源IP的类型；

确定每个所述访问源IP的攻击性强度；

确定每个所述访问源IP的活跃情况；

2.根据权利要求1所述的方法，其特征在于，所述确定每个所述访问源IP的类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定每个所述访问源IP的攻击性强度，包括：

4.根据权利要求1所述的方法，其特征在于，所述确定每个所述访问源IP的活跃情况，包括：

将所述访问频率小于第一阈值的访问源IP标记为低活跃度；

5.根据权利要求4所述的方法，其特征在于，还包括：

确定每个所述访问源IP的访问频率是否具有周期性；

将具有周期性的所述访问源IP的有效期设置为第一有效期；

6.根据权利要求1所述的方法，其特征在于，在获取日志文件，并确定所述日志文件中的访问源IP之后，还包括：

7.一种威胁情报提取的系统，其特征在于，包括：

第一确定模块，用于确定每个所述访问源IP的类型；

第二确定模块，用于确定每个所述访问源IP的攻击性强度；

第三确定模块，用于确定每个所述访问源IP的活跃情况；

8.根据权利要求7所述的系统，其特征在于，所述第一确定模块包括：

9.一种威胁情报提取设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述威胁情报提取的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述威胁情报提取的方法的步骤。