CN113647078A

CN113647078A - 推断网络安全事件的时间关系

Info

Publication number: CN113647078A
Application number: CN202080025376.1A
Authority: CN
Inventors: P·拉维德拉; Y·帕克; D·基拉特; 张智勇; M·P·斯多艾克林
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-04-06
Filing date: 2020-03-23
Publication date: 2021-11-12
Anticipated expiration: 2040-03-23
Also published as: WO2020208448A1; JP2022527511A; GB2598493A; US11082434B2; US20200322361A1; GB202114777D0; CN113647078B; JP7436501B2; GB2598493B

Abstract

认知安全分析平台通过提供用于自动推断网络安全事件的时间关系数据的技术被增强。在操作中，通常作为非结构化安全内容或数据接收安全事件的描述。从描述中提取诸如时间数据或线索的信息以及安全实体和关系数据。所提取的时间信息根据一组时间标记(启发法)进行处理以确定安全事件的时间值标记(即，建立时间)。该处理通常包括从一个或多个结构化数据源检索信息。所述建立时间被链接到安全实体和关系。得到的利用所识别的时间数据增强的安全事件随后经受管理操作。

Description

推断网络安全事件的时间关系

技术领域

本公开总体上涉及网络安全侵犯分析。

背景技术

今天的网络比以前更大并且更复杂，并且保护它们免受恶意活动是永不结束的任务。寻求保护他们的知识产权、保护他们的客户身份、避免业务中断等的组织需要不仅仅监视日志和网络流数据；实际上，许多组织每天创建数百万或甚至数十亿的事件，并且将该数据提炼到优先级侵犯的短列表可能是令人生畏的。

已知的安全产品包括安全事件和事件管理(SIEM)解决方案，这些解决方案是基于用于评估观察到的安全事件的基于规则的机制建立的。SIEM系统和方法对可用的网络数据进行收集、归一化和相关。这种类型的一个这样的安全智能产品是

SIEM，其提供一组平台技术，所述技术检查网络流数据以发现和分类网络上的有效主机和服务器(资产)，跟踪它们使用的应用、协议、服务和端口。该产品收集、存储和分析该数据，并且它执行实时事件相关以用于威胁检测和合规性报告和审计。使用此平台，数十亿的事件和流因此可根据其业务影响被减少和优先化为少数可采取动作的侵犯。虽然基于SIEM的方法提供了显著的优点，但是规则利用具有具体的妥协指标(IoC)的威胁馈送被硬编码或者被参数化。因此，典型地，这些解决方案能够仅检测已知的威胁，但是对于(例如，通过基于行为的规则检测的)未知的威胁，不能识别根本原因并辅助安全分析者。此外，这些系统可能呈现实现挑战，因为它们通常依赖于通过安全专业人员阅读威胁通报并提取IoC对任何半结构化和非结构化威胁馈送(即，自然语言文本)的手动综合处理。

在诸如以上所描述的系统中，结构化数据源提供关于“什么/谁是坏的”的安全性和威胁情报信息，但是通常这种数据源缺少关于威胁的深度知识以及关于如何解决特定情形的可采取动作的洞察。通常，结构化数据源由领域专家仔细地综合处理。示例包括但不限于IBM X-Force Exchange、Virus Total、黑名单、共同脆弱性评分系统(CVSS)得分等。相反，非结构化数据源提供更多的上下文信息，诸如为什么特定IP地址或URL是坏的、它们做什么、如何保护用户免受已知漏洞危害等等。这样的非结构化数据源的示例包括但不限于来自可信源的威胁报告、博客、推特等。结构化和非结构化知识因此通常分开存在，并且甚至结构化数据源常常是分散的和异构的。虽然现代安全工具(例如，SIEM)可直接咨询结构化数据源，但它们不具有理解非结构化文本中的信息的能力，非结构化文本通常仅由人类专家手动消费。

网络安全操作依赖于IoC和其他威胁情报数据以能够提供准确的安全事件响应。威胁情报数据准确性的一个方面是这种数据的时间重要性。然而，妥协指标和其他威胁情报数据往往是短暂的。实际上，网络安全事件是非常时间敏感的，因为许多网络安全对象(例如，恶意软件、IP地址、域等)是高度动态的并且随着时间不断地改变它们的行为。尽管已知网络安全事件提取技术是已知的，但提供关于威胁情报数据的准确时间信息(尤其是在该数据是在以自然语言编写的非结构化文档中呈现的情况下)或呈现任意时间帧的最相关数据是有挑战性的(部分由于这种暂时性)。在不知道事件何时实际发生的情况下，网络安全情报通常是不完整的。

仍然需要提供使系统能够推断网络安全事件的时间信息的自动且高效的计算技术。

发明内容

为此，本文的主题提供了一种用于自动推断安全事件(例如，网络安全利用)的时间关系数据的方法、装置和计算机程序产品。在一个方面，一种用于自动推断与网络安全事件(例如，IoC)相关联的时间信息的方法开始于通常从包括非结构化安全内容的源文档(诸如新闻文章、博客或一些其他安全威胁报告源)提取关于事件的信息。使用自然语言处理(NLP)等，检测文本中存在的一个或多个时间表达。表达可以指时间点(例如，2016年5月25日)、相对时间参考(例如，去年)、时间范围(例如，从2017年6月至2018年3月)等。对于相对时间参考，优选地基于锚点时间的任何存在(在相同文本中)来推断事件的时间点，其中锚点时间是可以被识别并且在给定上下文的情况下被当作正确的某个时间参考。当锚点时间不能从相同文本推断出时，所提取的事件的时间信息被与附加结构化数据相关，该附加结构化数据通常是从一个或多个综合处理的外部数据源获得的。基于这些启发法，“时间”值标记(其可以是范围)然后被分配，即，被确定为与网络发生事件相关联。从系统(或系统的用户)的角度看，时间值标记然后被认为是所讨论的事件发生的“时间”。标记可以是绝对的或相对的。通过以此方式关联事件的时间值标记，随后(例如，向其他系统或安全分析者)输出关于网络安全事件的更有用且准确的信息，由此改进管理安全事件和事情的速度和准确性。

前面已经概述了所述主题的一些更相关的特征。这些特征应被解释为仅是说明性的。通过以不同方式应用所公开的主题或通过如将描述地方式修改主题，可以获得许多其他有益的结果。

附图说明

为了更完整地理解主题及其优点，现在参考结合附图进行的以下描述，在附图中：

图1描绘了可以实现说明性实施例的示例性方面的分布式数据处理环境的示例性框图；

图2是可以实现说明性实施例的示例性方面的数据处理系统的示例性框图；

图3示出了可以实施本公开的技术的安全情报平台；

图4描绘了认知分析技术的高级处理流程；

图5更详细地描绘了图4的认知分析技术；并且

图6描绘了如何使用安全知识图来增强侵犯上下文图；并且

图7描绘了可以存在于非结构化文档的文本中的安全事件时间表达的示例；

图8描绘了根据本公开的用于提取网络安全事件的时间信息的技术的处理流程；

图9是描绘了利用本公开的分析技术的基于知识图的时间推断的框图；

图10描绘了本公开的技术的第一示例，其示出被应用以指示过去的安全事件与文章中所参考的另一安全事件之间的关系的相对时间；并且

图11描绘了该技术的第二示例，其示出使用启发法和优先级方案的实施例将正确时间应用于文章中的关系。

具体实施方式

现在参考附图并且具体地参见图1-2，提供了可以实现本公开的说明性实施例的数据处理环境的示例图。应当理解，图1-2仅是示例性的，并且不旨在断言或暗示关于可以实施所公开的主题的各方面或实施例的环境的任何限制。在不背离本发明的精神和范围的情况下，可以对所描绘的环境进行许多修改。

现在参考附图，图1描绘了可以实现说明性实施例的各方面的示例性分布式数据处理系统的图表示。分布式数据处理系统100可以包括可以实现说明性实施例的各方面的计算机的网络。分布式数据处理系统100包含至少一个网络102，该网络102是用于提供在分布式数据处理系统100内连接在一起的不同设备和计算机之间的通信链路的介质。网络102可包括连接，诸如电线、无线通信链路或光纤缆。

在所描绘的示例中，服务器104和服务器106与存储单元108一起连接到网络102。此外，客户端110、112和114也连接到网络102。这些客户端110、112和114可以是例如个人计算机、网络计算机等。在所描绘的示例中，服务器104向客户端110、112和114提供数据，诸如引导文件、操作系统镜像和应用。在所描绘的示例中，客户端110、112和114是服务器104的客户端。分布式数据处理系统100可以包括未示出的另外的服务器、客户端和其他设备。

在所描绘的示例中，分布式数据处理系统100是互联网，其中网络102表示使用传输控制协议/互联网协议(TCP/IP)协议组来彼此通信的网络和网关的全球集合。互联网的核心是主节点或主计算机之间的高速数据通信线路的主干，由数以千计的路由数据和消息的商业、政府、教育和其他计算机系统组成。当然，分布式数据处理系统100还可被实现为包括许多不同类型的网络，诸如例如内联网、局域网(LAN)、广域网(WAN)等。如上所述，图1旨在作为示例，而不是作为公开的主题的不同实施例的架构限制，并且因此，图1中所示的特定元件不应被视为关于可实施本发明的说明性实施例的环境的限制。

现在参见图2，示出了可以实现说明性实施例的各方面的示例性数据处理系统的框图。数据处理系统200是计算机(诸如图1中的客户端110)的示例，实现本公开的说明性实施例的处理的计算机可用代码或指令可以位于该计算机中。

现在参见图2，示出了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机(诸如图1中的服务器104或客户端110)的示例，对于说明性实施例，实现过程的计算机可用程序代码或指令可以位于该计算机中。在这个说明性示例中，数据处理系统200包括通信结构202，其提供处理器单元204、存储器206、持久存储装置208、通信单元210、输入/输出(I/O)单元212和显示器214之间的通信。

处理器单元204用于执行可以加载到存储器206中的软件的指令。处理器单元204可为一组一个或多个处理器或可为多处理器核，这取决于特定实施例。此外，处理器单元204可使用一个或多个异构处理器系统来实施，其中主处理器与辅助处理器一起存在于单个芯片上。作为另一说明性示例，处理器单元204可以是包含相同类型的多个处理器的对称多处理器(SMP)系统。

存储器206和持久存储装置208是存储设备的示例。存储设备是能够临时和/或永久地存储信息的任何硬件。在这些示例中，存储器206可为例如随机存取存储器或任何其他合适的易失性或非易失性存储设备。持久存储装置208可以采取不同形式，这取决于特定的实现方式。例如，持久存储装置208可以包含一个或多个组件或设备。例如，持久存储装置208可以是硬盘驱动器、闪速存储器、可重写光盘、可重写磁带或上述的某种组合。持久存储装置208使用的介质也可以是可移除的。例如，可移动硬盘驱动器可以用于持久存储装置208。

在这些示例中，通信单元210提供与其他数据处理系统或装置的通信。在这些示例中，通信单元210是网络接口卡。通信单元210可通过使用物理和无线通信链路之一或两者来提供通信。

输入/输出单元212允许与可以连接到数据处理系统200的其他设备的数据输入和输出。例如，输入/输出单元212可以通过键盘和鼠标为用户输入提供连接。此外，输入/输出单元212可以向打印机发送输出。显示器214提供向用户显示信息的机制。

用于操作系统和应用或程序的指令位于持久存储装置208上。这些指令可以被加载到存储器206中以便由处理器单元204执行。不同实施例的过程可由处理器单元204使用计算机实现的指令来执行，这些指令可位于存储器(诸如存储器206)中。这些指令被称为可由处理器单元204中的处理器读取和执行的程序代码、计算机可用程序代码或计算机可读程序代码。不同实施例中的程序代码可以实施在不同的物理或有形的计算机可读介质(诸如存储器206或持久存储装置208)上。

程序代码216以功能形式位于计算机可读介质218上，所述计算机可读介质218可被选择性地移除并且可以被加载到或传送到数据处理系统200以由处理器单元204执行。在这些示例中，程序代码216和计算机可读介质218形成计算机程序产品220。在一个示例中，计算机可读介质218可以是有形形式，诸如例如插入或放入驱动器或作为持久性存储装置208的一部分的其他设备(诸如作为持久性存储装置208的一部分的硬盘驱动器)以用于传送到存储设备上的光盘或磁盘。在有形形式中，计算机可读介质218还可采取持久存储装置的形式，诸如连接到数据处理系统200的硬盘驱动器、拇指驱动器或闪存。计算机可读介质218的有形形式也被称为计算机可记录存储介质。在一些实例中，计算机可记录介质218可能不是可移除的。

另选地，程序代码216可以通过到通信单元210的通信链路和/或通过到输入/输出单元212的连接从计算机可读介质218传输到数据处理系统200。在说明性示例中，通信链路和/或连接可为物理的或无线的。计算机可读介质还可以采取非有形介质的形式，诸如包含程序代码的通信链路或无线传输。为数据处理系统200示出的不同组件不意味着对可以实现不同实施例的方式提供架构限制。可以在数据处理系统中实现不同的说明性实施例，该数据处理系统包括除了数据处理系统200所示出的那些组件之外的组件或代替数据处理系统200所示出的那些组件的组件。图2中所示的其他部件可不同于所示的说明性示例。作为一个示例，数据处理系统200中的存储设备是可存储数据的任何硬件装置。存储器206、持久存储装置208和计算机可读介质218是有形形式的存储设备的示例。

在另一示例中，总线系统可用于实现通信结构202，并且可包括一个或多个总线，诸如系统总线或输入/输出总线。当然，总线系统可以使用任何合适类型的架构来实现，所述架构在附接到总线系统的不同组件或设备之间提供数据传输。另外，通信单元可包括用于发送和接收数据的一个或多个设备，诸如调制解调器或网络适配器。此外，存储器可以是例如存储器206或例如在可存在于通信结构202中的接口和存储器控制器集线器中找到的高速缓存。

可以以一种或多种编程语言的任意组合来编写用于执行本发明的操作的计算机程序代码，所述编程语言包括面向对象的编程语言(诸如JavaTM、Smalltalk、C++等)，还包括常规的过程式编程语言，诸如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。

本领域技术人员将了解，图1-2中的硬件可取决于实现方式而变化。除了图1-2中描绘的硬件之外或代替图1-2中描绘的硬件，可以使用其他内部硬件或外围设备，诸如闪存、等效非易失性存储器或光盘驱动器等。而且，在不脱离所公开的主题的精神和范围的情况下，说明性实施例的处理可以应用于除了前面提到的SMP系统之外的多处理器数据处理系统。

如将看到的，本文所描述的技术可以结合诸如图1中所示的标准客户端-服务器范例来操作，其中客户端机器与在一个或多个机器的集合上执行的互联网可访问的基于Web的门户通信。终端用户操作能够访问门户并与门户交互的可连接互联网的设备(例如，台式计算机、笔记本计算机、支持互联网的移动设备等)。通常，每个客户端或服务器机器是如图2中所示的包括硬件和软件的数据处理系统，并且这些实体通过网络彼此通信，所述网络诸如互联网、内联网、外联网、专用网络或任何其他通信介质或链路。数据处理系统通常包括一个或多个处理器、操作系统、一个或多个应用和一个或多个实用程序。数据处理系统上的应用提供对Web服务的本地支持，包括但不限于对HTTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(W3C)获得；关于HTTP和XML的进一步信息可从互联网工程任务组(IETF)获得。假定对这些标准是熟悉的。

具有事件取证的安全情报平台

已知类型的安全情报平台在图3中示出。通常，平台提供搜索驱动的数据探索、会话重构和取证情报以辅助安全事件调查。在相关部分中，平台300包括一组分组捕获装置302、事件取证模块装置304、分布式数据库306和安全情报控制台308。分组捕获和模块装置被配置为网络装置，或者它们可以被配置为虚拟装置。分组捕获装置302用于捕获离开网络的分组(使用已知的分组捕获(pcap)应用编程接口(API)或其他已知的技术)，并且将这样的数据(例如，实时日志事件和网络流)提供给分布式数据库306，在数据库306中数据被存储并且可用于由取证模块304和安全情报控制台308进行分析。分组捕获装置以面向会话的方式操作，捕获流中的所有分组，并且对元数据和有效载荷进行索引以实现快速的搜索驱动的数据探索。数据库306提供取证储存库，取证储存库包含包括由分组捕获装置收集的信息的分布式和异构数据集。控制台308提供web或云可访问的用户界面(UI)，该用户界面展示“取证”仪表板选项卡以促进调查者的事件调查工作流程。使用该仪表板，调查者选择安全事件。事件取证模块304针对所选择的安全事件检索所有分组(包括元数据、有效载荷等)并且重构会话用于分析。

实施这种类型的事件调查工作流程的代表性商业产品是

Security

Incident Forensics V7.2.3(或更高)。使用该平台，调查者搜索存储在数据库中的分布式和异构数据集，并且接收统一的搜索结果列表。搜索结果可以合并在网格中，并且它们可以在“数字印象”工具中可视化，使得用户可以探索身份之间的关系。

具体地，现在描述用于从取证储存库中的文档和网络流量提取相关数据的典型事件取证调查。根据这种方法，平台使得能够首先进行搜索并对许多记录加书签的简单、高级别方法，并且然后使得调查者能够集中于加书签的记录以识别最终的记录集合。在典型的工作流程中，调查者确定哪种材料是相关的。他或她然后使用该材料来证明假设或“案例”以开发新的先导物，这些先导物可以在现有案例中通过使用其他方法来跟进。通常，调查者首先通过粗粒度动作来聚焦他或她的调查，并且然后继续将这些发现微调成相关的最终结果集。图3的下部示出该基本工作流程。平台中的可视化和分析工具然后可以用于手动地和自动地评估结果的相关性。相关的记录可以被打印、导出或提交处理。

如上所述，平台控制台提供用户界面以促进该工作流程。由此，例如，平台在界面显示选项卡上提供搜索结果页面作为默认页面。调查者使用搜索结果来搜索和访问文档。调查者可以使用其他工具来进一步调查。这些工具之一是数字印象工具。数字印象是标识身份踪迹的经编译的关联和关系的集合。数字印象重构网络关系以帮助揭示攻击实体的身份、它如何通信以及它与什么通信。在网络流量和文档中找到的已知实体或人被自动标记。取证事件模块304可操作用于使彼此交互的被标记标识符相关以产生数字印象。数字印象报告中的收集关系表示与攻击者或网络相关实体或任何数字印象元数据项相关联的连续收集的电子存在。使用该工具，调查者可以点击与文档相关联的任何标记的数字印象标识符。所得到的数字印象报告随后以表格格式列出，并且通过标识符类型来组织。

概括而言，数字印象重构网络关系以帮助调查者识别攻击实体和与之通信的其他实体。安全情报平台包括取证事件模块，取证事件模块用于将彼此交互的被标记标识符相关以产生数字印象。数字印象报告中的收集关系表示与攻击者或网络相关实体或任何数字印象元数据项相关联的连续收集的电子存在。使用该工具，调查者可以点击与文档相关联的任何标记的数字印象标识符。所得到的数字印象报告随后以表格格式列出，并且通过标识符类型来组织。

通常，在上述系统中使用的装置被实施为网络连接的非显示装置。例如，特意构建用于执行传统的面向中间件服务的架构(SOA)功能的装置跨某些计算机环境普遍存在。SOA中间件装置可简化、帮助保护或加速XML和Web服务部署，同时跨企业扩展现有SOA基础设施。使用中间件目的的硬件和轻量级中间件栈可解决常规软件解决方案所经历的性能负担。此外，装置形状因子提供用于实现中间件SOA功能的安全、可消耗的封装。这些类型的设备提供的一个特别的优点是从后端系统卸载处理。这种类型的网络装置通常是安装在机架上的设备。该设备包括使装置能够用作敏感信息的保险库的物理安全性。典型地，该装置被制造、预加载软件、并且然后被部署在企业或其他网络操作环境内或与之相关联地部署；可替代地，盒可被在本地定位并随后被利用例如可在私有或场所内云计算环境内安全地部署和管理的标准或定制的中间件虚拟映像进行配置。该装置可以包括硬件和固件密码支持，可能用于对硬盘上的数据进行加密。没有用户(包括管理用户)可以访问物理盘上的任何数据。具体地，优选地操作系统(例如，Linux)锁定根账户并且不提供命令外壳，并且用户不具有文件系统访问权。典型地，该装置不包括显示装置、CD或其他光学驱动器、或任何USB、火线或其他端口来使得装置能够与之连接。它被设计为具有有限的可访问性的密封且安全的环境，然后仅是被认证和授权的个体。

这种类型的装置可以促进安全信息事件管理(SIEM)。例如，

Security

SIEM是包括可以被配置为这种类型的装置的分组数据捕获装置的企业解决方案。这样的设备用于例如捕获实时的第4层网络流数据，然后可以从中分析第7层应用有效载荷，例如使用深度分组检查和其他技术。它使用基于流的网络知识、安全事件相关和基于资产的漏洞评估的组合来提供态势感知和合规性支持。在基本QRadar SIEM安装中，诸如图3所示的系统被配置成收集事件和流数据，并生成报告。如上所述，用户(例如，SOC分析者)可以调查侵犯以确定网络问题的根本原因。

一般地，安全信息和事件管理(SIEM)工具提供用于分析、管理、监视和报告IT安全事件和漏洞的一众服务。这样的服务通常包括收集关于跨数据网络的被监视访问和非预期发生的事件，以及在相关上下文中分析它们以确定它们对剖析的高阶安全事件的贡献。它们还可以包括防火墙配置的分析、用于查看当前和潜在网络流量模式的网络拓扑和连接可视化工具、资产漏洞与网络配置和流量的相关性以识别活动攻击路径和高风险资产、以及网络流量、拓扑和漏洞暴露的策略合规性监视的支持。一些SIEM工具具有基于对通过公共网络信息模型处理的设备配置的变换分析来构建诸如路由器、防火墙和交换机之类的被管理网络设备的拓扑的能力。结果是可以用于安全威胁的模拟、防火墙过滤器的操作分析和其他应用的位置组织。然而，主要设备标准完全基于网络和网络配置。虽然存在多种方式来发起针对被管理的资产/系统的发现能力，并且当用户界面中的控制被半自动地管理(即，通过用户界面的允许半自动的、基于人类输入的、具有拓扑的放置及其显示和格式化的方法是基于底层网络中的初始配置和改变/删除两者的发现而被数据驱动的)时，在产生全自动放置分析和建议的放置分析方面没有提供任何内容。

作为进一步的背景，以下描述用于认知侵犯分析的技术。

认知侵犯分析

还已知的是与网络安全知识图(“KG”)相关联地处理安全事件数据。网络安全知识图是从一个或多个数据源得出的并且包括节点的集合和边的集合。该方法优选地是自动化的并且在从安全系统(例如，SIEM)接收到表示侵犯的信息时开始。基于侵犯类型，提取关于侵犯的上下文数据，并且建立初始侵犯上下文图。初始侵犯上下文图通常包括一组节点和一组边，边表示该组中的一对节点之间的关系。该侵犯上下文图中的该组节点中的至少一个节点是表示被确定为侵犯原因的侵犯实体的根节点。初始侵犯上下文图还包括直接地或通过该组中的一个或多个其他节点连接到根节点的一个或多个活动节点，其中至少一个活动节点具有与之相关联的表示可观察量的数据。根节点及其相关联的一个或多个活动节点(以及可观察量)表示侵犯的上下文。然后，可以检查知识图和潜在的其他数据源以进一步细化该初始侵犯上下文图。

具体地，通过在知识图中定位(在初始侵犯图中识别的)可观察量来探索知识图。基于所定位的可观察量及其连接与知识图中所表示的一个或多个已知恶意实体相关联，然后生成知识图的一个或多个子图。子图通常具有与其相关联的假设(关于侵犯)。使用假设，随后可查询安全系统(或其他数据源)以尝试获得支持该假设的一个或多个附加可观察量(即，证据)。然后，优选地通过合并初始侵犯上下文图、从知识图探索导出的一个或多个子图以及从一个或多个假设挖掘的附加可观察量来创建细化的侵犯上下文图。然后(例如，向SOC分析员)提供所得的细化的侵犯上下文图用于进一步分析。

以这种方式被细化(即，通过合并从知识图导出的一个或多个子图以及从检查子图假设挖掘的附加可观察量)的侵犯上下文图提供更容易揭示潜在因果关系的细化图，或以其他方式提供揭示图的哪些部分可能最佳地被优先化以供进一步分析的信息。该方法大大简化了随后必须采取以解决侵犯的根本原因的进一步分析和纠正任务。

现在参考图4，提供了上述认知侵犯分析技术的高级处理流程。该例程在步骤400处以侵犯提取和分析开始。在该步骤中，从SIEM系统(例如IBM QRadar)提取侵犯用于深度调查。通常，检测到的侵犯可包括许多不同的实体，诸如侵犯类型、激发规则、用户名和所涉及的妥协指标。

在步骤402，该过程以侵犯上下文提取、丰富和数据挖掘继续。这里，侵犯上下文是基于各种信息或因素(诸如但不限于时间、侵犯类型和方向)来提取和丰富的。该操作通常涉及围绕侵犯的数据挖掘以找到潜在相关的事件。然后，该过程在步骤404继续，以建立侵犯上下文图，优选地具有作为中心节点的侵犯实体以及逐渐连接到该中心节点及其子节点的上下文信息。上下文信息的示例可由图中的活动节点表示。通常，活动包括一个或多个可观察量，其然后连接到相应的活动，或直接连接到中心节点。

然后，该过程在步骤406继续。具体地，在该步骤，优选地使用从侵犯上下文图表中提取的一组可观察量来探索知识图。该探索步骤标识从知识图可获得的有关和相关的信息或实体。该操作的主要目的是找出输入可观察量与知识图中的恶意实体相关的强度。如果事件相关实体是强恶意指标，则生成(由知识图中的子图表示的)假设。然后，该过程在步骤408继续。在此步骤，(在步骤406中产生的)所得子图被映射到原始侵犯上下文图中并被评分。为了增强假设(由子图表示)，可通过查询本地SIEM数据以寻找与由步骤406中的KG探索返回的假设相关的活动的存在，来获得附加证据(并构建到侵犯上下文图中)。作为假设评分的一部分的附加发现也可被用于进一步扩展侵犯上下文图和/或触发新知识图探索。因此，步骤408表示对威胁假设的基于证据的评分。

然后，该过程在步骤410以侵犯调查继续。此时，侵犯假设包括原始侵犯IOC(妥协指标)、知识图丰富、证据和分数。然后，将扩展的侵犯上下文图提供给SOC分析者(用户)用于侵犯调查。SOC用户检查已按所描述的方式加权的假设，然后可选择解释给定侵犯的正确假设。可存在多个假设，并且可根据下文结合图7描述的本公开的技术对这些假设进行排序。

如果需要附加的或进一步的探索和更多的证据来做出决定，则SOC用户可选择侵犯上下文图中的节点或边，并按需重复步骤406和408。在附图中描绘了这种循环。

图5描绘了示出上述技术中所涉及的各个实体及其交互的建模图。如图所示，这些实体包括SOC用户500、SIEM系统502、(侵犯)上下文图504、知识图506和维护实体508。从上到下观看交互，知识图506可以周期性地用新数据/记录510来更新；该操作被示出为离线操作(在虚线之上)。该图的其余部分描绘了以上提及的处理流程。因此，新侵犯505由SIEM系统502识别并与侵犯细节510和数据挖掘512一起使用，以经由侵犯提取和分析514以及上下文图构建516操作来生成上下文图504。一旦被构建，知识图506就被探索518以标识一个或多个子图。在操作520处，基于证据的威胁假设评分使用这些子图，并且该过程可以迭代(操作522)，如先前所描述的。在证据验证和IOC挖掘524之后，然后通常由SOC用户500执行侵犯调查526。

图6描绘了由知识图602扩增的侵犯上下文图600。一般来说，侵犯上下文图600描绘局部动力学，例如与侵犯有关的事件和情报，例如SIEM侵犯数据、日志事件和流，并且这样的信息优选地从自知识图602导出的信息扩增。知识图通常在性质和范围上是全局的，因为它优选地描绘了外部网络安全和威胁情报、网络安全概念等。通常，通过组合多个结构化和非结构化数据源来通知知识图。如所示出的，侵犯上下文图以在“侵犯”605内具有子节点606的根节点604为中心。“侵犯上下文”607还包括相关的其他节点。还可以存在包括相关设备节点608的一组设备活动609。如箭头610所描绘的，使用知识图602来扩增上下文图600检查是否存在从侵犯上下文节点607的集合中的节点到设备活动609的集合中的节点的任何路径(诸如路径611、613或615中的一个或多个)，该路径经过知识图602的一个或多个节点(威胁活动被附加到该节点)。在所示的示例中，存在一条或多条这样的路径(611、613和615)，并且知识图中的相关子图617因此被捕捉并用于扩充侵犯上下文图。

由此，在该方法中，侵犯的细节从SIEM系统(诸如QRadar)提取。细节通常包括侵犯类型、规则、类别、源和目的地IP地址以及用户名。例如，侵犯可以是指示在机器上检测到恶意软件的恶意软件类别侵犯。因此，需要检查该机器围绕该侵犯的活动以确定感染途径和潜在的数据泄露。当然，需要调查的活动的性质将取决于侵犯的性质。

然后，取决于诸如时间、侵犯类型和方向的不同因素，提取并丰富与所识别的侵犯相关的侵犯上下文。例如，如果侵犯类型是源IP，则可以收集相同源IP(其可以或可以不在其他侵犯处被捕捉)的系统和网络活动。这个收集的上下文描绘了事件之间的潜在因果关系，并且这个信息然后提供调查侵犯的起源和后果的基础(例如，马尔可夫建模以学习它们的依赖性)。当然，侵犯上下文提取和丰富的性质也取决于侵犯的性质。

从所提取的上下文数据(如上所述)，优选地取决于侵犯类型，构建图6中的初始侵犯“上下文图”600，使得主要侵犯源变成侵犯上下文图的根604，并且然后在根节点周围将侵犯细节链接在一起。如上所述，初始上下文图优选地然后被丰富，并且特别地，通过使局部上下文相关，以进一步识别事件之间的潜在因果关系。这帮助分析者对侵犯的起源和后果进行深入、更细粒度的调查。

优选地，通过识别其中侵犯源是目标(例如，利用目标)的其他侵犯来提取起源上下文。类似地，优选地通过找到其中侵犯源也是源(例如踏脚石)的其他侵犯来提取后果上下文。类似地，通过找到其他侵犯来提取后果上下文。由此，该图通常包含侵犯实体(例如，计算机系统、用户等)作为该图的中心(根)节点，并且上下文信息被逐渐连接到该节点及其子节点。结果是图6中的侵犯上下文607。上下文信息的示例将取决于侵犯的性质；这样的信息可由活动节点表示，活动节点包括但不限于网络活动、用户活动、系统活动、应用活动等。优选地，活动包括一个或多个可观察量，所述可观察量然后连接至相应的活动节点或直接连接至中心节点。此外，上下文图可用表示不直接与原始侵犯相关的信息的额外节点来扩展。例如，借助于在侵犯附近的时间的安全相关事件的数据挖掘(例如，基于行为的异常检测、序列挖掘、基于规则的数据提取等)，可以提取附加的感兴趣的活动并将其添加到上下文图。此操作在图中由设备活动606表示。

因此，在如上概述的认知分析方法中，侵犯的细节从SIEM系统提取。细节包括(但不限于)侵犯类型、规则、类别、源和目的地IP以及用户名。根据侵犯类型构建初始侵犯上下文图，使得主要侵犯源变成侵犯上下文图的根，并且侵犯细节围绕根节点链接在一起。然后通过将局部上下文相关来丰富初始上下文图以进一步识别事件之间的潜在因果关系，这帮助分析者执行对侵犯的起源和后果的深度调查。通过识别其中侵犯源是目标(例如，利用目标)的其他侵犯来提取起源上下文。类似地，通过找到其中侵犯目标是源(例如，踏脚石)的其他侵犯来提取后果上下文。然后修剪丰富的(并且可能密集的)侵犯上下文图以突出出于SOC分析者的利益的关键侵犯上下文。通常，基于若干度量(诸如权重、相关性和时间)来应用修剪。例如，可能期望基于侵犯规则和类别向每个事件细节分配权重，从而指示对侵犯有贡献的关键特征。

一旦建立了初始侵犯上下文图，优选地基于从网络安全知识图(KG)602导出的信息进一步丰富、验证和/或扩增该上下文图，该网络安全知识图(KG)602优选地是域知识的源。如初始侵犯上下文图一样，知识图包括节点和边。能够以若干方式构建网络安全知识图。在一个实施例中，一个或多个域专家手动构建KG。在另一实施例中，KG 602是自动或半自动建立的，例如从结构化和非结构化数据源。如上所述，上下文提取和分析过程提供与给定侵犯有关的可观察量的列表。根据该操作，优选地然后使用KG中的深度域知识来丰富可观察量。现在描述这种丰富(或知识图探索)。

具体而言，该知识图(KG)丰富操作可用若干不同方式来完成。在一种方法中，丰富涉及构建与可观察量相关的子图。为此，系统定位KG中的可观察量并且发现它们之间的连接。这个发现可以产生示出给定可观察量与其他相关安全对象(诸如可观察量和威胁)的关系的一个或多个子图(诸如图6中的617)。这些子图可以提供对于给定侵犯的更宽泛的视图。

在另一丰富场景中，SOC分析者可执行查询知识图(KG)探索步骤，接收从SIEM侵犯提取的一组可观察量，诸如IP、URL和文件散列。该探索步骤寻求识别知识图中可用的所有有关和相关的信息或实体。主要目标是找出输入可观察量与知识图中的恶意实体的相关有多强。一些相关实体可以是强恶意指标，并且因此可以生成关于侵犯的假设。相关的恶意实体可能在它们自身之间是强相关的，这也创建了假设。概括而言，该步骤的输出是一个或多个假设的集合，这些假设在基于证据的威胁假设评分操作期间被消费，在该基于证据的威胁假设评分操作中这些假设是针对局部SIEM数据被评估的。优选地，并且如上所述，相关实体的提取通过遍历知识图来执行，优选地从输入可观察量并且提取子图开始。一般来说，无约束的子图提取可产生非常大的噪声图。优选地，可以部署集中于通过探索图来寻找不同类型的相关信息以及从结果中修剪较不相关的实体的一个或多个遍历算法。这些修剪算法中的一个或多个可串行地、并行地或以其他方式运行。此外，在可能的情况下，图实体的系数被预先计算以增强图遍历的效率。

以下描述基于证据的威胁假设评分的附加细节。优选地，知识图探索步骤返回可观察量的子图以及与假设相关联的一个或多个注释。此子图优选地随后被映射到原始上下文图中。为了增强假设，可能期望例如通过针对与由知识图探索返回的假设相关的活动的存在来查询本地SIEM数据，来构建进一步相关的证据。这些活动可能之前未被简单的基于规则的侵犯监视所标记。该操作因此构建合并图，该合并图包括来自三个源的输入：原始上下文图、知识图探索子图、以及为了构建假设的证据而查询的附加可观察量。

还如所描述的，最终操作通常是侵犯调查。基于所描述的先前操作，侵犯假设现在包括原始侵犯IOC、知识图丰富和支持证据及其得分。然后，将该扩展的图提供给SOC分析者用于侵犯调查。SOC分析者检查加权的假设并选择解释给定侵犯的正确假设。该选择本身可以是自动化的，例如经由机器学习。如果需要进一步探索和更多证据来做出决定，则SOC可选择假设图中的感兴趣的节点和/或边，然后重复知识图探索和基于证据的威胁假设评分的上述步骤。在假设检查过程期间，SOC可学习关于侵犯的新事实和洞察，并且因此在下一次迭代中添加附加查询(例如，可观察量或关系)。SOC分析者因此可使用此迭代知识丰富、证据生成和假设评分来获得对可随后起作用的侵犯和可采取动作的洞察的深度理解。

因此，基本概念是使用自主机制来提取关于侵犯(或攻击)的已知内容、基于广义知识(如由知识图表示)的关于侵犯的原因，并且由此获得关于侵犯以及如何解决侵犯的最可能的诊断。

IoC通常呈现为非结构化文档中的文本，例如来自可信源的威胁报告、博客、推特等。通常，IoC(或其他威胁情报数据)具有时间分量。图7描绘了可以在这样的非结构化数据源中找到的安全事件时间表达的若干示例。如可以看到的，文本中的时间信息可以变化并且包括时间点(例如，“2017年5月1日”、“2018”等)、相对时间参考(例如，“去年”、“2周前”等)、时间范围(例如，“2016-2017”、“自2015年起”等)、其组合等的表达。而且，时间表达可以出现在诸如安全咨询标识符(例如，CVE-2016-1019)的词语内部。因此，图7中的第一子弹示例(“mid-August 2015”)是时间点和范围两者。第二子弹点包括时间点(“2016-01-12”)，而第三子弹包括时间范围(“since October 6，2016”)，等等。从这些示例可以明显看到，非结构化文本出现在许多不同的上下文和形式中。

根据以下描述的本公开的技术，网络安全分析平台(或其NLP/NLU组件)被扩充以提供附加功能，特别是自动提取事件的时间信息并生成一个或多个提取的时间标记的优先化集合的能力，随后从该优先化集合中选择或确定该事件的时间值标记(即，最相关的时间)并且将其分配给该事件。

推断网络安全事件的时间关系

如上所述，诸如上述的认知安全分析平台通过提供计算高效的技术被进一步增强，以改进呈现给安全分析者(或某个自动化系统)的知识，并且具体地将时间重要性与事件关联或链接。该技术使得平台(或一些其他功能)能够提供关于威胁情报数据的准确时间信息或呈现感兴趣的任意时间帧的最相关数据。

图8描绘了根据本发明的一方面的实现时间关系推断技术的自动化方法的处理流程。优选地，在一个或多个硬件处理器中执行的一组计算机程序指令(程序代码)中实施处理步骤。这些指令被存储(保持)在存储器或数据存储中。一般而言，该过程从非结构化安全报告和综合处理的数据源两者提取事件的时间信息，优先化所提取的时间候选(优选地基于若干不同标准)，并且然后确定目标事件的最相关时间。一旦接收到要评估的源数据，该过程就在步骤800开始。在一个示例中，源数据是来自可信源的威胁报告。其他示例数据源包括但不限于新闻文章、博客、推特等。通常，源数据是非结构化的，例如如图7中的若干示例中所描绘的自然语言文本。这样，源数据在本文中有时被称为非结构化安全内容。在步骤802，从源数据自然语言文本提取一个或多个安全事件。然后，通过执行识别操作以识别自然语言文本中的时间表达类型，该例程在步骤804处针对给定事件继续。在步骤806，已识别的时间表达被归一化，并且计算时间值。如果识别的时间表达是相对时间，则系统优选地执行操作以提取其锚点时间。如上所述，锚点时间是某时间参考，其可被识别且在给定源材料中的其他信息的上下文的情况下被视为正确的。例如，可以在相对时间表达的周围文本中找到锚点时间，或者可以基于文章的发布时间来推断锚点时间。例如，可以得出结论：在图7中示出的示例中由“earlier this year”引用的时间是与文章的发布时间相同的年。如果锚点时间推断操作失败(或返回不确定的结果)，则例程在必要时在步骤808继续以提取其他时间信息，例如通常从一个或多个外部源提取。此步骤可能不总是需要的，因为特定安全事件的相关时间信息可显式地指定或通过所描述的其他手段以其他方式获得。在步骤810，随后选择用于给定事件的最终时间值标记(即，最相关时间)。在步骤812，给定事件和最相关的时间信息被链接。这就完成了处理。

现在另外详细描述图8中的上述步骤中的每一个。

步骤802的安全事件提取是已知过程。安全威胁报告呈现关于包括恶意软件、活动或安全通报的网络安全事件的详细分析。在该步骤，系统提取涉及恶意软件、恶意行为者、各种妥协指标(例如，IP地址、文件、URL等)的安全事件。通常，事件表示由行为者采取的一些动作、IoC、它们之间的关系等。安全事件提取通过识别安全实体(诸如恶意软件、网络罪犯、IoC等)和安全对象之间的关系来完成。在一个实施例中，词法和语言模式匹配和机器学习技术用于安全实体检测。一些实体可以通过描述例如字符级、句法级和/或上下文级特性的模式规则来检测。可以通过应用受监督的机器学习模型来检测其他实体。关系提取可以以许多不同的方式进行。在一种方法中，系统应用受监督的机器学习模型来识别潜在的关系。作为一种变型方法，通过句法和/或语义文本分析来执行关系提取。在许多情况下，例如使用动词短语来显式地表达事件。在这种情况下，源数据(例如，威胁报告)中的句子的句法解析使得系统能够提取动词短语，诸如将两个安全实体连接为事件的短语。示例可以是以下各项：“sometime in mid-August2015，actors using Angler EK to send ransomwareswitched to Neutrino EK”。在另一个变体中，通过统计分析来提取关系。因此，例如，当两个安全实体频繁地出现在同一句子中时，它们可以被视为彼此相关。以上方法中的一个或多个或组合可以用于安全事件提取。

步骤804的时间表达类型提取可如下进行。在一个实施例中，应用词法-模式规则来检测文本中的时间表达。代表性的目标类型是时间点(例如，“2016-02-29”、“2017年5月20日”等)、相对时间(例如，“去年”、“上周”等)和时间范围(例如，“从2015至2017”、“自2016年起”等)的不同时间表达。一旦识别出时间表达，就将相关联的文本串归一化并转换成相应的时间值。

然而，如果事件不具有在源文本中明确的相关联的时间信息，则根据本公开的另一方面，系统例如从报告中出现的其他时间表达或其他数据源来推断时间信息。以这种方式推断时间信息的概念在本文中有时被称为确定隐式(或非显式)时间信息。在识别/确定隐式时间信息的一种方法中，系统从报告的发布时间推断关于感兴趣的事件的时间信息，因为可以假设报告中描述的所有事件(除了将来时态中表述的事件)不晚于发布时间发生。由此，在一个实施例中，识别公布时间以估计报告中不具有显式时间的事件的时间。从报告中的其他信息(诸如某些安全域特定的名字，诸如漏洞标识符(ID)和安全通报ID)提供用于确定隐式时间信息的替代方法。这些标识符通常包括创建漏洞或通报时的年份。由此，系统假设伴随这样的ID出现的事件不晚于标识符中的年份发生。

概括步骤804，通常系统从源数据(例如，正被评估的安全报告)中提取以下类型的时间表达：识别的绝对时间表达、源数据报告的发布时间(其可被陈述或确定)、识别的相对时间表达、以及(当没有显式时间表达可用时)从安全实体(例如，CVE、安全通报)或其他这样的信息中识别或确定的所识别的隐式时间(通常是给定年)。

步骤806的时间表达归一化和值计算可以如下进行。对于绝对时间表达，系统解析文本片段以提取时间信息，诸如年、月、日期和时间等(如果有的话)，并且将该信息转换成毫秒。对于相对时间表达，优选地，系统优选地使用以下日期中的一个或多个日期作为“锚点”日期来推断近似绝对时间：出现在该相对时间附近的绝对时间、数据源的发布时间、以及时序(cron)日期(诸如由网络爬虫从元数据中提取的发布时间)。在提取了多于一个相对时间的情况下，可以链接这些相对时间，诸如文本包括文本短语“去年”和“前一年”的情况。当提取相对时间时，“前一年”的锚点时间然后被指定为“去年”的绝对时间。

如所描述的，可能需要或期望从外部源提取时间信息。这是图8中的步骤808。该步骤在数据源中的文本不提供时间信息时执行，在这种情况下，查询一个或多个外部源以获得事件的近似时间。外部源可以改变，并且通常它们包括以下中的一者或多者：安全数据库、cron时间、来自文件元数据的时间信息、爬取时间等。第一外部源是安全数据库，其通常收集关于安全事件和IoC的数据。这种类型的数据库提供有用的信息，诸如恶意软件或活动何时第一次出现、它何时最活跃、与之结合采取的一个或多个动作的时间戳等。例如，这样的时间戳对于推断可以从正被分析的事件的源文本中提取的类似动作的时间是有用的。这种类型的数据库可以是系统可用的或可访问的，或者它可以从第三方访问(作为服务)。使用从数据库获得的信息，系统将从源文本提取的事件相关以获得事件可能发生的一个或多个近似时间。可以以不同方式执行所述相关。由此，在一个实施例中，这是通过在数据库中找到类似关系、找到涉及相同实体的关系、或者在两个选项都不返回相关信息的情况下通过使用涉及实体的最突出时间来实现的。另选的外部数据源是cron时间，其通常对应于何时检索到(例如，从网站下载)正在分析的报告。该示例中的cron时间将是在网站上张贴的时间，并且该值可提供有用的信息，从该有用的信息可推断报告中标识的事件的定时。同样，来自文件元数据的时间信息可以服务于类似的目的。作为示例，当在文本编辑器中写入报告时，应用(例如，Word)通常存储元数据，诸如文件创建日期、最后文件修改数据和时间等。然后使用该定时信息来估计报告中的事件的定时。最后，爬取的时间可以用作代理，因为当获得报告时的时间通常将界限置于报告中描述的事件的定时上。以上类型的外部源仅是代表性的。

一旦已经挖掘和获得如上所述的信息，时间关系分配优选地如下进行。这是图8中的步骤810，并且目标是为给定事件选择最终时间值标记(即，最相关的或“建立”的时间)。为此，优选地使用以下启发法和优先级排序来确定在感兴趣的报告或文章(即，被检查的文本文档)中可用的哪个时间信息应当被分配给事件：在具有关系(事件)的相同依赖结构内的时间表达、时间表达在来自文本中的关系的特定窗口内、从漏洞和/或通报ID以及其他安全相关实体提取的时间表达、文章的发布时间、cron数据、从文件元数据获得的最后修改时间、从文件元数据获得的报告的创建时间、以及爬取的时间。这些启发法中的一个或多个可能不存在，在这种情况下，相应地修改排序。此外，可能存在修改优先级的情况。由此，上述优先级列表仅出于示例性目的而提供。

执行上述操作的结果生成针对所讨论的事件的最相关时间信息。最终步骤(步骤812)涉及将给定事件与已确定的最相关时间信息链接。

至少部分地基于增强的网络安全情报，即，关于何时发生安全利用的知识(如基于所确定的时间信息)，然后使用上述安全平台技术来执行对安全利用的安全利用管理操作。管理操作的特定性质可能非常不同；典型的操作包括但不限于报告、缓解、进一步分析、处理沙箱化、通知/警告、补救等。

通常针对分析的每个报告执行上述操作。

图9描绘了在诸如上文描述的网络安全分析平台中支持的基于知识图(KG)的时间性推断技术的框图。基于KG的时间性推断由推断引擎900实现，所述推断引擎900接收安全知识图(KG)902作为输入。以上关于图8描述的各种操作由图9中的功能块描绘。为此，实体信息(例如，恶意软件、活动、IP地址、漏洞等)由实体提取组件904提取并被提供给关系提取组件906。提取组件906将相关实体关联。关系提取906的结果被提供给基于KG的时间性推断引擎900并且还被提供给关系和时间关联组件908。时间信息提取组件910对源文本进行操作以获得绝对时间、相对时间、持续时间等，其中所得到的时间信息被输出到时间值确定组件912，时间值确定组件912执行锚点时间选择、时间值归一化和计算等。所确定的事件的时间分类914随后被返回到关系和时间关联组件908，该组件将所识别的关系和所确定的发布时间链接。可以获得元数据916以增强这种关联，结果是关系三元组{(实体、关系、时间戳)}918，然后使得该关系三元组可用于分析师或其他平台系统。

图10描绘了该基于KG的时间性推断的第一示例(图9)，其示出了被应用以指示在博客帖子中引用的过去的安全事件和另一安全事件之间的关系的相对时间。博客帖子的部分被描绘在左侧，其中为了强调而给不同时间信息加了下划线。右边示出的表格描绘了从该帖子或第三方外部源等导出的信息，在这种情况下是各个实体的标识、它们的关系和相关时间戳。

图11描绘了基于KG的时间性推断的第二示例，其示出了使用启发法和优先级方案的实施例将正确时间应用于文章中的关系。

不旨在限制，本文的方法可与认知侵犯分析技术(诸如上文关于图4-6所述)结合使用。

在实体提取和关系提取时，本公开的技术优选地应用于将每个自然语言实体和关系(或至少某些自然语言实体和关系)与一时间戳相关联。实体和关系以及时间戳然后被存储在数据库中，该数据库可以被查询。在安全侵犯的调查时，对保存这些实体和关系以及通过所描述的技术推断的时间的数据库进行查询。返回具有与调查时间最接近的时间标记的实体和关系，从而以自动化方式提供更相关和/或更新近的信息。具有与实体和关系相关联的正确时间有助于老化掉较旧的安全信息。在对知识图进行分析并且向分析者呈现安全知识图时，如由所公开的技术推断的与实体和关系相关联的绝对时间标记帮助以自动化的方式衰减掉在调查时不相关的较旧的实体和关系。因此，代替调查侵犯的安全分析者潜在地被呈现有当前不一定相关的旧实体和关系，如本文提供的在实体和关系上包括时间标记使得能够呈现(例如，在视觉上)更相关的信息。这有助于节省分析者的时间，因为他或她不再需要调查不是潜在威胁的侵犯。

本文的技术提供了显著的优点。它通过提供一种将关于存在于非结构化源(例如，报告、博客、帖子等)中的威胁情报数据的准确时间信息相关联的方式来提供通常来自那些源的增强的网络安全事件提取。使用这种方法，分析平台提供关于事件实际何时发生的增强分析，从而提供暴露于安全分析者或平台中的其他系统组件的网络安全情报的更完整视图。该技术解决了处理和推断以自然语言编写的非结构化文档中存在的指示符的时间性的问题，优选地通过提供指示符的绝对时间标记且在必要时提供相对时间标记。以这种方式提供时间标记有助于使得分析者或其他平台技术能够显现最相关和准确的信息，由此提高管理安全事件和事情的速度和准确性。根据本文中的方法，然后基于所检测到的安全利用来执行一个或多个安全事件管理操作，因为所述利用被扩增成以所记载的方式包括时间信息。

更一般地，本文的技术提供了一种使来自结构化数据源的时间与从非结构化数据导出的时间信息相关的方法。

本主题可以被实现为即服务。数据挖掘功能可作为独立功能来提供，或者它可利用来自其他产品和服务的功能，包括但不限于基于问答的自然语言处理(NLP)系统、产品、设备、程序或过程，诸如基于NLP的人工智能(AI)学习机器。这种类型的机器可组合自然语言处理、机器学习以及假设生成和评估；它接收查询并且提供对那些查询的直接的基于置信度的响应。可以利用Q&A解决方案，例如

这种类型的解决方案可以是基于云的，其中Q&A功能被“即服务”(SaaS)式递送，其接收基于NLP的查询并返回适当的回答。在替代性实施例中，可以使用IBM LanguageWare(一种允许应用处理自然语言文本的自然语言处理技术)来实现Q&A系统。LanguageWare包括一组Java库，其提供不同NLP功能，诸如语言识别、文本分割和令牌化、标准化、实体和关系提取以及语义分析。另一实现可作为自然语言理解(NLU)产品或服务的组件或作为NLP管线中的组件。不旨在限制，本文中的方法可以在诸如具有

的IBM

Advisor的服务中实现。

如上所述，机器学习可用于促进上述时间推断。以下提供了关于可以利用的ML使能技术的附加背景。

具体地，机器学习(ML)算法从数据迭代地学习，从而允许计算机找到隐藏的洞察，而无需显式地编程在哪里查看。机器学习本质上教导计算机通过创建通过查看数百或数千个示例来学习的算法并且然后在新情况下使用该经验来解决相同问题，来解决问题。取决于学习系统可用的学习信号或反馈的性质，机器学习任务通常被分类成以下三个宽泛的类别：受监督学习、无监督学习和加强学习。在受监督学习中，算法对标记的历史数据进行训练并且学习将输入映射到输出/目标的一般规则。特别地，在受监督学习中输入变量和标记/目标变量之间的关系的发现用训练集完成。计算机/机器从训练数据学习。在该方法中，使用测试集来评估所发现的关系是否成立，并且通过给模型馈送测试数据的输入变量并且将由模型预测的标记与数据的实际标记进行比较来评估预测关系的强度和效用。最广泛使用的受监督学习算法是支持向量机、线性回归、逻辑回归、朴素贝叶斯和神经网络。

在无监督机器学习中，算法对未标记数据进行训练。这些算法的目标是探索数据并在其中找到某结构。最广泛使用的无监督学习算法是聚类分析和购物篮分析。在加强学习中，算法通过反馈系统进行学习。该算法采取动作并接收关于其动作的适当性的反馈，并且基于该反馈，修改策略并采取将在给定时间量上最大化预期回报的进一步动作。

以下提供关于受监督机器学习的附加细节，其是在本公开的威胁处置分析方法中使用的优选技术。如上所述，受监督学习是从标记的训练数据推断一函数的机器学习任务。训练数据由一组训练示例组成。在受监督学习中，通常每个示例是由输入对象(通常为向量)和期望输出值(也称为监督信号)组成的对。监督学习算法分析训练数据并产生推断函数，该推断函数可用于映射新示例。最佳情形允许算法正确地确定未见过实例的类标签。这要求学习算法从训练数据合理地概括到未见过的情形。

为了解决受监督学习的问题，通常执行某些步骤。该方法开始于确定训练示例的类型。在进行任何其他事项之前，用户应当决定将何种数据用作训练集。然后收集一个训练集；该训练集需要代表该函数的真实世界使用。由此，从人类专家或从测量收集一组输入对象并且还收集相应的输出。然后，确定所学习的函数的输入特征表示。所学习的函数的准确度强烈地依赖于如何表示输入对象。通常，将输入对象变换为特征向量，其包含描述对象的多个特征。然后确定学习的函数的结构和相应的学习算法。例如，工程师可以选择使用支持向量机或决策树。然后在所收集的训练集上运行学习算法。一些受监督学习算法需要用户确定某些控制参数。这些参数可通过优化训练集的子集(称为验证集)上的性能或经由交叉验证来调整。然后评估所学习的函数的准确性。在参数调整和学习之后，在与训练集分开的测试集上测量所得函数的性能。

在典型的使用情况下，SIEM或其他安全系统具有与之关联的接口，该接口可以用于在视觉上渲染时间相关信息的排名顺序、用于从如在此所描述的相关数据库和数据源中搜索和检索相关信息、并且关于其执行其他已知的输入和输出功能。

如上所述，本文的方法被设计为在安全系统(诸如SIEM)内或与安全系统相关联地以自动方式实现。

本公开中所描述的功能性可整体或部分地实施为独立方法，例如，由硬件处理器执行的基于软件的功能，或其可用作受管理服务(包含作为经由SOAP/XML接口的web服务)。本文所描述的特定硬件和软件实现细节仅用于说明性目的，并不意味着限制所描述的主题的范围。

更一般地，所公开的主题的上下文中的计算设备均是包括硬件和软件的数据处理系统(诸如图2中所示)，并且这些实体通过网络(诸如互联网、内联网、外联网、专用网络或任何其他通信介质或链路)彼此通信。数据处理系统上的应用提供对Web和其他已知服务和协议的本地支持，包括但不限于对HTTP、FTP、SMTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(W3C)获得；关于HTTP、FTP、SMTP和XML的进一步信息可从互联网工程任务组(IETF)获得。假定熟悉这些已知标准和方案。

本文描述的方案可以在包括简单n层架构、web门户、联合系统等的不同服务器侧架构中实现或与之结合来实现。本文中的技术可以在松散耦合的服务器(包括基于“云”的)环境中实施。

更一般地，本文描述的主题可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元件两者的实施例的形式。在优选实施例中，在软件中实现该功能，该软件包括但不限于固件、常驻软件、微代码等。此外，如上所述，基于身份上下文的访问控制功能可采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，该计算机可用或计算机可读介质提供用于由计算机或任何指令执行系统使用或结合计算机或任何指令执行系统使用的程序代码。出于本说明书的目的，计算机可用或计算机可读介质可以是能够包含或存储程序的任何装置，该程序由指令执行系统、装置或设备使用或结合指令执行系统、装置或设备使用。该介质可以是电子、磁性、光学、电磁、红外或半导体系统(或装置或设备)。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前示例包括致密盘-只读存储器(CD-ROM)、致密盘-读/写(CD-R/W)和DVD。计算机可读介质是有形物品。

计算机程序产品可以是具有用于实现所描述的功能中的一个或多个功能的程序指令(或程序代码)的产品。这些指令或代码在通过网络从远程数据处理系统下载之后，可以存储在数据处理系统中的计算机可读存储介质中。或者，这些指令或代码可以存储在服务器数据处理系统中的计算机可读存储介质中，并且适于通过网络下载到远程数据处理系统，以便在远程系统内的计算机可读存储介质中使用。

在代表性实施例中，威胁处置和建模技术在专用计算机中实现，优选地在由一个或多个处理器执行的软件中实现。软件被维护在与一个或多个处理器相关联的一个或多个数据存储或存储器中，并且软件可被实现为一个或多个计算机程序。共同地，此专用硬件和软件包括上述功能。

虽然上文描述了本发明的某些实施例所执行的操作的特定顺序，但是应当理解，这样的顺序是示例性的，因为替代性实施例可以按不同的顺序执行操作、组合某些操作、重叠某些操作等。说明书中对给定实施例的引用指示所描述的实施例可包括特定特征、结构或特性，但是每个实施例可能不一定包括该特定特征、结构或特性。

最后，虽然已经单独地描述了系统的给定组件，但普通技术人员将理解，可以在给定指令、程序序列、代码部分等中组合或共享一些功能。

本文的技术提供对另一种技术或技术领域(例如，安全事件和事件管理(SIEM)系统、其他安全系统)的改进以及对基于自动化的网络安全分析的改进。

“安全事件”的概念旨在指安全相关信息，包括但不限于网络安全利用、一般安全新闻或信息等。

呈现安全事件的时间值标记的特定方式不是限制。通常，时间值标记是某个时间，但是如上所述，它也可以被指定为时间范围。此外，表示最相关或确定时间的时间值标记的概念在此旨在主要用于描述性目的，并且不要求“最相关”与最高或最优量化值或度量相关联。相反，该概念是所确定的时间值标记是提供或促进关于所讨论的安全事件的附加分析洞察的时间信息。

已描述了本发明，要求保护的权利要求如下。

Claims

1.一种管理安全事件的方法，包括：

接收安全事件的描述；

从所述描述中提取一个或多个安全实体；

从所述描述中提取时间信息；

根据一组时间标记处理所提取的时间信息；

响应于所述处理，确定所述安全事件的时间值标记；以及

将所述时间值标记与所述一个或多个安全实体相关联；以及

至少部分地基于所述时间值标记对所述安全事件执行安全事件管理操作。

2.如权利要求1所述的方法，其中，所述描述作为非结构化安全内容被接收，并且至少所述一组时间标记中的时间标记包括在结构化数据源处。

3.如权利要求1所述的方法，其中，所述描述是自然语言文本描述。

4.如权利要求1所述的方法，其中，所述一组时间标记包括与从所述描述中提取的安全实体之间的关系具有相同依赖性的时间表达、来自所述关系的某个时间窗内的时间表达、从外部数据源提取的时间表达、与所述描述相关联的发布时间、与所述描述相关联的cron日期、所述描述的最后修改时间、所述描述的创建时间、以及对应于所述描述的检索时间的爬取时间。

5.如权利要求1所述的方法，其中，与所述安全事件相关联的所述时间值标记是基于从所述描述中提取的时间线索连同来自结构化数据源的信息来推断的。

6.如权利要求1所述的方法，其中，处理所提取的时间信息包括将相对时间表达转换成绝对时间。

7.如权利要求1所述的方法，其中，所述一组时间标记是根据优先化方案排序的启发法。

8.一种装置，包括：

处理器；

计算机存储器，所述计算机存储器保持由所述处理器执行以管理安全事件的计算机程序指令，所述计算机程序指令包括程序代码，所述程序代码被配置为：

接收安全事件的描述；

从所述描述中提取一个或多个安全实体；

从所述描述中提取时间信息；

根据一组时间标记处理所提取的时间信息；

响应于所述处理，确定所述安全利用的时间值标记；以及

将所述时间值标记与所述一个或多个安全实体相关联；以及

9.如权利要求8所述的装置，其中，所述描述作为非结构化安全内容被接收，并且至少所述一组时间标记中的时间标记包括结构化数据源。

10.如权利要求8所述的装置，其中，所述描述是自然语言文本描述。

11.如权利要求8所述的装置，其中，所述一组时间标记包括与从所述描述中提取的安全实体之间的关系具有相同依赖性的时间表达、来自所述关系的某个时间窗内的时间表达、从外部数据源提取的时间表达、与所述描述相关联的发布时间、与所述描述相关联的cron日期、所述描述的最后修改时间、所述描述的创建时间、以及对应于所述描述的检索时间的爬取时间。

12.如权利要求8所述的装置，其中，所述安全事件的所述时间值标记是基于从所述描述中提取的时间线索连同来自结构化数据源的信息来推断的。

13.如权利要求8所述的装置，其中，被配置成处理所提取的时间信息的所述计算机程序指令包括被配置成将相对时间表达转换成绝对时间的计算机程序指令。

14.如权利要求8所述的装置，其中，所述一组时间标记是根据优先化方案排序的启发法。

15.一种在非暂态计算机可读介质中的计算机程序产品，用于在数据处理系统中使用以管理安全事件，所述计算机程序产品保持计算机程序指令，所述计算机程序指令在由所述数据处理系统执行时被配置为：

接收安全事件的描述；

从所述描述中提取一个或多个安全实体；

从所述描述中提取时间信息；

根据一组时间标记处理所提取的时间信息；

响应于所述处理，确定所述安全利用的时间值标记；以及

将所述时间值标记与所述一个或多个安全实体相关联；以及

16.如权利要求15所述的计算机程序产品，其中，所述描述作为非结构化安全内容被接收，并且至少所述一组时间标记中的时间标记包括结构化数据源。

17.如权利要求15所述的计算机程序产品，其中，所述描述是自然语言文本描述。

18.如权利要求15所述的计算机程序产品，其中，所述一组时间标记包括与从所述描述中提取的安全实体之间的关系具有相同依赖性的时间表达、来自所述关系的某个时间窗内的时间表达、从外部数据源提取的时间表达式、与所述描述相关联的发布时间、与所述描述相关联的cron日期、所述描述的最后修改时间、所述描述的创建时间、以及对应于所述描述的检索时间的爬取时间。

19.如权利要求15所述的计算机程序产品，其中，所述安全事件的所述时间值标记是基于从所述描述中提取的时间线索连同来自结构化数据源的信息来推断的。

20.如权利要求15所述的计算机程序产品，其中，被配置成处理所提取的时间信息的所述计算机程序指令包括被配置成将相对时间表达转换成绝对时间的计算机程序指令。

21.如权利要求15所述的计算机程序产品，其中，所述一组时间标记是根据优先化方案排序的启发法。