CN110717049B

CN110717049B - 一种面向文本数据的威胁情报知识图谱构建方法

Info

Publication number: CN110717049B
Application number: CN201910805363.5A
Authority: CN
Inventors: 黄诚; 方勇; 姜政伟; 彭嘉毅; 杨悦
Original assignee: Sichuan University; Institute of Information Engineering of CAS
Current assignee: Sichuan University; Institute of Information Engineering of CAS
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2020-12-04
Anticipated expiration: 2039-08-29
Also published as: CN110717049A

Abstract

本发明为一种面向文本数据的威胁情报知识图谱构建方法。实现了从文本威胁情报数据中自动化提取出关键信息，构建威胁情报知识图谱的功能。提出了一种面向文本数据的威胁情报知识图谱构建方法。该方法首先定义威胁情报领域的本体结构，利用基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系抽取模型从文本数据中获取威胁情报实体与关系三元组，最后通过图数据库存储信息，构成威胁情报知识图谱。

Description

一种面向文本数据的威胁情报知识图谱构建方法

技术领域

本发明设计一种面向文本数据的威胁情报知识图谱构建系统，通过基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报关系抽取模型提取文本数据中的威胁情报实体与关系三元组，构成威胁情报知识图谱。旨在解决从大量的威胁文本情报中自动化，准确的提取威胁情报命名实体，提取威胁情报实体与关系构成三元组，生成威胁情报知识图谱。

背景技术

随着互联网应用的扩展，各种政企单位的大量业务需要通过直接连接互联网进行工作，然而网络安全态势依然严峻，网络攻击事件频发，威胁着整个网络空间安全。安全从业人员为了从之前的重大网络攻击事件中汲取经验，会仔细分析之前事件，并给出相关报告。另一方面，知识图谱技术在知识搜索、融合、推理及可视化方面都具有优势，已在多个领域成功运用。在此背景下，如何从众多攻击分析报告中自动化地提取关键信息，构建威胁情报知识图谱就成了信息安全领域一个重要的研究课题。

根据威胁情报来源划分，有基于安全设备拦截信息、基于沙盒执行、基于蜜罐技术和基于文本数据等技术研究。相比起其他威胁数据，基于文本数据的威胁情报信息由安全研究人员撰写，有更高的准确度和更丰富的攻击过程信息。所以如何从非结构化的文本信息中提炼出结构化、高质量的威胁情报信息已成为最近的研究热点问题。

知识图谱自2012年由谷歌公司提出后，引起了业界和学术界的广泛关注。目前，知识图谱已成功应用于搜索、社交、企业信息等领域。知识图谱以图形的形式存储实体、属性和关系，其主要优势在于知识搜索、融合、推理及可视化展示。近年来，安全研究人员开始研究如何将知识图谱运用于网络空间安全领域。

威胁情报技术与大数据紧密结合，通过数据指导安全策略与响应。将威胁情报与知识图谱结合，可以利用知识图谱将复杂数据资源整合为语义网络的能力，减少数据复杂度，清晰展现数据的关联。

面向文本数据的威胁情报知识图谱构建主要解决的难点在于以下几点。

(1)针对主流的威胁情报格式内容复杂度高，落地困难的问题，如何根据已有的信息安全领域本体与威胁情报标准，结合威胁情报文本统计信息，设计一个适合于威胁情报领域知识图谱的本体结构。

(2)针对通用领域实体识别模型对威胁情报领域术语识别效果不佳的问题，如何设计模型对不同类型的威胁情报命名实体都能有较好的识别效果。

(3)根据威胁情报本文中的实体关系特点，如何利用多元语言学信息进行威胁情报实体关系抽取。

发明内容

本发明是实现一套面向文本数据的威胁情报知识图谱构建模型，该模型以互联网上公开的威胁情报文本为原始数据，通过基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系抽取模型，得到威胁情报文本的实体与关系三元组，再将这些三元组存入图数据库中，生成威胁情报领域知识图谱。

本发明提出的面向文本数据的威胁情报知识图谱构建的具体方法如下：

1)从互联网中收集由安全研究人员撰写，具有高准确度和丰富攻击过程信息的开源威胁情报文本；

2)将从互联网上获取到的开源威胁情报文本进行文本分类与清洗；

3)对清洗后的开源威胁情报文本数据进行半自动标注；

4)通过上述一系列方法，最终形成威胁情报文本语料库；

5)依据威胁情报领域的特征与规则，自顶向下地创建威胁情报领域本体结构，对威胁情报本体提出6个威胁信息组件：安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标；

6)本发明中指定：安全事件为本体核心；可观测对象是可以用来作为攻击指标的实体；攻击方法包含攻击者使用的攻击方式；威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象；攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象；

7)本发明中指定的命名实体关系类型为：包含可观测对象、利用、攻击、包含漏洞；

8)根据威胁情报领域命名实体的构成特点，使用分别使用三种适合的方法从文本中提取命名实体，三种具体的方法分别为：

9)基于规则模板的方法，提取IP、URL、漏洞编号、邮箱、文件Hash这几类命名实体；

10)基于CRF序列标注模型的方法，提取恶意软件名这类命名实体；

11)基于神经网络模型的方法，提取人名、地名、组织名、系统组件名、攻击方法等命名实体；

12)利用了语言学信息，从开源威胁情报文本中提取依存句法关系与文本邻接关系作为特征；

13)将威胁情报文本的序列关系与句法依存关系特征，使用图神经网络进行训练，抽取出命名实体之间的相互关系；

14)使用图数据库存储威胁情报实体与关系三元组，构成威胁情报知识图谱。

依据上述方法，该发明采用了如下技术方案：面向文本数据的威胁情报知识图谱构建系统主要包括五个部分：数据准备部分、威胁情报命名实体识别部分、威胁情报实体关系抽取部分、主动学习部分、知识图谱存储部分。本发明提出的面向文本数据的威胁情报知识图谱构建系统中应包含如下功能：

1)通过爬虫，人工等多种手段，从互联网中获取开源威胁情报文本；

2)通过自动化与人工方式，对从互联网上获取到的开源威胁情报文本进行文本分类与清洗；

3)通过半自动化方式，对清洗后的开源威胁情报文本数据进行标注，以获取高准确率的样本集合；

4)将已标注的内容形成威胁情报文本语料库；

5)在知识图谱中，本体是用来描述概念的层次与体系的模板，定义了知识图谱中的实体类型，实体属性及实体间的关系类型。威胁情报领域概念繁多，关系复杂，需要将领域概念进行抽象并规范化的本体表达，才能合理正确地利用威胁情报中的威胁主体、攻击指标等概念，进一步对攻击者的行为特征、攻击手段，潜在威胁等有充分认识，防范于未然；

本发明依据威胁情报领域的特征与规则，自顶向下地创建威胁情报领域本体结构，对威胁情报本体提出6个威胁信息组件：安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标；

6)本发明中包含的威胁信息组件的具体内容为：安全事件为本体核心；可观测对象是可以用来作为攻击指标的实体；攻击方法包含攻击者使用的攻击方式；威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象；攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象；

7)本发明包含的命名实体关系类型为：包含可观测对象、利用、攻击、包含漏洞；

8)威胁情报领域命名实体类别较多，并且不同类型的实体构成特点不一。因此本发明根据威胁情报领域命名实体的构成特点，将实体类别分组，再分别进行命名实体识别。本发明中使用三种方法从文本中提取命名实体，三种具体的方法分别为：

11)基于神经网络模型的方法，提取人名、地名、组织名、系统组件名、攻击方法等命名实体，由于此类的命名实体没有很明显的构成特征，所以使用深度学习的方法自动提取特征可以更有效地识别出命名实体；

12)本发明可以利用语言学信息，从开源威胁情报文本中提取依存句法关系与文本邻接关系作为特征；

13)本发明可以将威胁情报文本的序列关系与句法依存关系特征使用图神经网络进行训练，抽取出命名实体之间的相互关系；

14)本发明将使用图数据库存储威胁情报实体与关系三元组，构成威胁情报知识图谱，可以形象的展示知识图谱，为分析人员提供辅助。

本发明的预期目标如下:

1)设计一个能够准确表达威胁情报领域实体类型与关系的本体结构；

2)使用基于多因素的威胁情报领域命名实体识别模型能根据威胁情报领域命名实体的构成特点，选择合适的命名实体识别方法，准确，高效地从威胁情报文本中提取出命名实体；

3)使用基于图神经网络的威胁情报领域实体关系抽取模型，能够利用威胁情报文本的序列关系与句法依存关系，抽取出威胁情报命名实体之间的相互关系；

4)通过主动学习算法能够利用主动抽样策略选取值得标注的样本进行手工标注，并以较少的标注代价达到较好的训练结果；

5)能够使用图数据库存储威胁情报文本的实体与关系三元组，并生成威胁情报知识图谱。

附图说明

图1是本发明的系统架构图

图2是本发明的威胁情报本体结构图

图3是本发明的威胁情报命名实体识别流程图

图4是本发明的威胁情报实体关系抽取流程图

图5是本发明的主动学习模块流程图

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚完整的描述。

威胁情报技术被认为是对抗高级持续性攻击的有效手段之一，基于文本数据的威胁情报信息由安全研究人员撰写，有更高的准确度和更丰富的攻击过程信息。所以本发明对于以如何从非结构化的文本信息中提炼出结构化、高质量的威胁情报信息，进行合理展示提出了一种面向文本数据的威胁情报知识图谱构建方法。具体技术方案如下。

如图1所示为系统的主要架构图，详细的介绍了威胁感知系统的相关设计及部署架构。如图1所示，该方法包含以下步骤。

S11：通过爬虫或手工采集方式从互联网中收集开源威胁情报文本。

本实施例中，开源威胁情报文本由安全研究人员撰写，有更高的准确度和更丰富的攻击过程信息。可以利用这些威胁情报信息进行主动或协同式的网络安全威胁评估预警，并指导企业与组织采取合适的安全策略。

S12：将获取到的威胁情报文本进行文本分类与清洗。

本实施例中，开源文本情报来源不同，其中包含了不同主题的文章。本发明通过选取文章主题词、文章长度、字典词密度等作为特征，使用支持向量机算法对收集到的文本情报进行分类。

本实施例中，为了进行后续自动化处理，需要统一威胁情报文本的格式等信息。本发明对采集的博客文章进行格式化清洗，提取文章正文，去除掉HTML标签及代码段，然后去除掉句子长度过小(小于4个单词)或句子长度过大(大于100个单词)的样本。

S13：对清洗后的开源威胁情报文本数据进行半自动标注。

S14：对标注后的威胁情报文本数据形成文本语料库。

S15：如图2所示，依据威胁情报领域的特征与规则，自顶向下地创建威胁情报领域本体结构，对威胁情报本体提出6个威胁信息组件：安全事件、威胁主题、攻击指标、可观测对象、攻击方法和攻击目标。

如图2所示，本实施例中，这些具体的威胁信息组件详情为：安全事件为本体核心进行辐射，可观测对象包括IP、URL、邮箱、文件hash等可以用来作为攻击指标的实体，攻击方法包括攻击者使用的恶意软件与工具，利用的漏洞。威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象。攻击目标包含被攻击对象相关的人物、地点、组织和被攻击对象的系统组件与可观测对象。

如图2所示，本实施例中，本文将威胁情报领域命名实体的关系类型总结为：包含可观测对象、利用、攻击、包含漏洞。

S16：如图3所示，根据威胁情报领域命名实体的结构特点，本发明将命名实体分为三类。

本实施例中，由于威胁情报领域命名实体类别较多，并且不同类型的实体构成特点不一，无法提出一种通用的模型提取不同命名实体。因此本文将11种威胁情报领域命名实体类型分为了三组。分别为：IP、URL、漏洞编号、邮箱、文件Hash等可通过模板匹配的命名实体；恶意软件名等命名实体；人名、地名、组织名、系统组件名、攻击方法等命名实体。

S17：如图3所示，基于规则模板的方法，提取IP、URL、漏洞编号、邮箱、文件Hash这几类命名实体。

对于IP、URL、漏洞编号、邮箱、文件hash这几类命名实体，都有非常明显的结构特征，使用正则表达式编写的规则模板就可以有效地进行抽取。

本实施例中，将使用正则表达式提取此类命名实体。

示例地，为了匹配IP命名实体，可以建立如下正则表达式：

(25[0-5]|2[0-4][0-9]|1？[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1？[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1？[0-9]{1,2})(\.|\[\.\])(25[0-5]|2[0-4][0-9]|1？[0-9]{1,2})

为了匹配URL命名实体，可以建立如下正则表达式：

[a-z]{3,7}://(？:[a-zA-Z]|[0-9]|[$-+\--_@.&+]|[！*]|(？:％[0-9a-fA-F][0-9a-fA-F]))+

为了匹配Email命名实体，可以建立如下正则表达式：

[\w\.-]+@[\w\.-]+\.[\w\.-]+|[\w\.-]+\[at\][\w\.-]+\.[\w\.-]+|[\w\.-]+#[\w\.-]+\.[\w\.-]+

为了匹配文件Hash命名实体，可以建立如下正则表达式：

\b[a-fA-F\d]{32}\b|\b[a-fA-F\d]{40}\b|\b[a-fA-F\d]{64}\b

为了匹配漏洞命名实体，可以建立如下正则表达式：

CVE-\d{4,5}-\d{4,7}|EDB-\d{5}

应当理解的是，以上提供的正则表达式仅作为示例，不应解释为对本申请保护范围的限定。

S18：如图3所示，基于CRF序列标注模型的方法，提取恶意软件名这类实体。

恶意软件名这类实体由一些单词组合而成，还会混以大小写字母混用，数字字母混用等，有较为明显的统计特征与字符特征，适合使用基于CRF序列标注模型进行实体识别。

本实施例中，针对恶意软件名这类命名实体，本发明使用条件随机场模型进行命名实体识别。对于条件随机场模型，本发明定义单词本身构成、是否全为大写字母、是否首字母大写、是否除首字母外还有大写字母、是否包含数字、单词词性等作为特征函数。

S19：如图3所示，基于神经网络模型的方法，提取人名、地名、组织名、系统组件名、攻击方法等命名实体。

由于人名、地名、组织名、系统组件名、攻击方法没有很明显的构成特征，所以本发明使用深度学习的方法自动提取特征可以更有效地识别出命名实体。

本实施例中，本发明提出的深度学习模型使用词向量与字符向量作为输入，通过双向LSTM神经网络进行特征学习，最后使用条件随机场约束输出值。本发明使用word2vec算法计算语料文本的词向量表示，利用卷积神经网络自动提取单词局部特征的特性，对单个单词进行卷积与池化操作，提取出字符特征向量，作为神经网络输入的一部分，通过词向量与字符特征相结合提高神经网络模型性能。

S20：本发明利用语言学信息，从开源威胁情报文本中提取依存句法关系与文本临接关系作为特征。

S21：如图4所示，本发明将威胁情报文本的序列关系与句法依存关系作为特征，使用图神经网络过进行训练，抽取命名实体间的关系。

本实施例中，实体关系抽取任务充分利用了语言学信息，将依存句法关系与文本邻接关系构成的图数据结构作为神经网络的输入，利用Graph LSTM图神经网络自动提取关系特征，抽取实体间的相互关系。

示例地，依存句法分析是以词为单位，分析句子成分间的依存关系。依存句法分析可以识别句子的语法结构，包括“主谓”、“谓宾”、“定状”等成分。如对于：The CrouchingYeti uses several Trojans.这句话中，其中“uses”为谓语动词，是依存句法分析树的中心节点；“Crouching”与“Yeti”组合为复合名词(compound)，“Trojans”是谓语动词的宾语(dobj)。

本发明将威胁情报语句的文本邻接关系与依存句法关系共同表示为图数据结构，将单词作为图的节点，双向文本序列关系与依存句法关系作为图的边，先构建起威胁情报文本的序列结构循环图。对于循环图，本发明将其拆分为两个子图，分别提取从左向右的关系与从右向左的关系。

S22：本发明使用图数据库存储威胁情报实体与关系三元组，构成威胁情报知识图谱。

本实施例中，本发明通过S11-S20等步骤从威胁情报文本中获取了大量威胁情报命名实体，并且通过基于图神经网络的威胁情报实体关系抽取模型，得到大量威胁情报实体与关系三元组，最终将其存入Neo4j图数据库。

本发明包含如下几个模块：数据准备部分、威胁情报命名实体识别模块、威胁情报实体关系抽取模块、主动学习模块、知识图谱存储模块。

在上述方法中，S11-S14为数据准备部分，S11-S14实在互联网上搜寻开源威胁文本情报的内容，是本发明的数据基础。同时也是处理数据的过程，为后续的实体关系提取与主动学习模块做准备。

S15-S19为威胁情报命名实体识别模块的主要流程，在此模块下，本发明提出的威胁情报本体主要包含6个威胁信息组件：安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标。同时提出了对这些命名实体提取的方法。

在知识图谱中，本体是用来描述概念的层次与体系的模板，本发明定义了文本威胁情报中知识图谱中的实体类型，实体属性及实体间的关系类型。本发明提出，不同的命名实体存在相互作用关系，对于这些命名实体关系类型总结为：包含可观测对象、利用、攻击、包含漏洞。

本发明的威胁情报命名实体识别模块的处理流程为S17-S19：首先使用基于规则模板的方法和基于CRF序列标注模型的方法识别相应类型的威胁情报命名实体，再根据其结果训练已知实体屏蔽的词向量和基于CNN的字符向量模型，并将这两者结合，作为输入训练基于Bi-LSTM神经网络的威胁情报命名实体识别模型。最后将这三种方法的结构汇总，构成威胁情报中命名实体集。

S20-S21为本发明中，威胁情报实体关系抽取模块在威胁情报命名实体识别的基础上，对命名实体间的关系进行抽取，形成实体与关系的三元组，从而构成威胁情报知识图谱的基本组成单元的过程。本模块的实体关系抽取任务充分利用了语言学信息，将依存句法关系与文本邻接关系构成图数据结构作为神经网络的输入，利用图神经网络自动提取关系特征，抽取实体间的相互关系。

在S21过程中，基于威胁情报命名实体识别模块处理结果，首先将威胁情报文本中的单词处理为词向量。再对威胁情报文本进行依存句法分析，并对依存句法关系进行向量化表示。将依存句法向量与文本邻接向量构成图数据结构，输入到图神经网络中，进行关系特征自动提取，最后使用逻辑回归分类器对图神经网络的输出隐向量进行分类，从而抽取出实体关系。

在S19与S21两个过程中，需要使用收集的开源文本威胁情报数据进行模型训练，在选线过程中需要对不同的训练集进行标注。如果由人工标注将耗时耗力。因此本发明提出主动学习模块，通过主动抽样策略选取值得标注的样本进行手工标注，以此降低标注成本。主动学习模块步骤为：首先随机选取2％的训练集数据进行手工标注，分别训练上文构建的基于Bi-LSTM神经网络的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系提取模型。然后利用上述模型以主动抽样方式抽取出2％的训练集数据，对这些数据进行手工标注，然后再次训练模型。迭代此过程，迭代停止条件为：标注数据量达到训练集量的30％。

最终S22过程中为知识图谱的展现，知识图谱存储模块作用为存储与关联威胁情报知识图谱的命名实体三元组，本发明使用Neo4j图数据库实现。使用Neo4j图数据库时，首先查询实体节点是否已存在与数据库中，若存在则直接为已有节点添加关系；若不存在，则创建新的实体节点。

以上对本申请提供了的面向文本数据的威胁情报知识图谱构建系统进行了详细介绍。

Claims

1.一种面向文本数据的威胁情报知识图谱构建方法，其特征包括以下步骤：

A.通过爬虫，人工方式获取信息多种手段，从互联网中收集由安全研究人员撰写，具有高准确度和丰富攻击过程信息的开源威胁情报文本；

B.对来源不同的开源文本信息进行文本分类，通过格式化清洗统一威胁情报文本的格式信息，通过选取文章主题词、文章长度、字典词密度作为特征，并半自动化方式并结合支持向量机算法对清洗后的开源威胁情报文本数据进行分类和标注，最终对标注后的威胁情报文本数据形成文本语料库；

C.定义威胁情报知识图谱的本体构建、威胁实体类型，实体属性及实体间的关系类型的定义方法；

D.定义不同威胁情报本体，威胁情报实体间关系类型；威胁情报本体存在六个威胁信息组件：安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标；而威胁情报实体间关系类型为：可观测对象、利用、攻击、包含漏洞；

E.定义威胁情报领域命名实体识别方法，使用基于多因素的威胁情报命名实体识别模型提取威胁情报文本中的命名实体；

F.定义威胁情报领域实体关抽取方法，使用基于图神经网络的威胁情报实体关系抽取模型提取文本中的威胁情报实体关系；

G.通过主动学习模块，利用主动抽样策略选取值得标注的样本进行手工标注，迭代训练威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系提取模型；

H.威胁实体与威胁实体间的关系信息共同构威胁情报实体与关系三元组，知识图谱存储模块使用图数据库存储威胁情报实体与关系三元组，构成威胁情报知识图谱，并通过图数据库进行展示。

2.根据权利要求1所述的面向文本数据的威胁情报知识图谱构建方法，其特征在于：依据威胁情报领域的特征与规则，自顶向下地创建威胁情报领域本体结构，同时指出安全事件为本体核心；可观测对象是用来作为攻击指标的实体；攻击方法包含攻击者使用的恶意软件与工具，利用的漏洞；威胁主体包括攻击者相关的人物、组织、地点和攻击者使用的可观测对象；攻击目标包含被攻击对象相关的人物、地点、组织、被攻击对象的系统组件与可观测对象。

3.根据权利要求2所述面向文本数据的威胁情报知识图谱构建方法，其特征在于：将威胁情报领域实体划分为六个威胁信息组件包含共十一个类别：IP、URL、Email、文件Hash、恶意软件名、漏洞、攻击方法、系统组件、人名、地名、组织名。

4.根据权利要求3所述面向文本数据的威胁情报知识图谱构建方法，其特征在于：根据不同威胁情报领域实体构成特点将实体类别分组，再分别进行命名实体识别。

5.根据权利要求4所述面向文本数据的威胁情报知识图谱构建方法，其特征分别在于三种不同命名实体组的实体识别方法：

I.对于IP、URL、漏洞编号、邮箱、文件Hash，使用正则表达式编写规则模板进行识别；

J.对于恶意软件名，使用条件随机场模型进行命名实体识别，对于条件随机场模型，其特征包括单词本身构成、是否全为大写字母、是否首字母大写、是否除首字母外还有大写字母、是否包含数字、单词词性作为特征函数；

K.对于人名、地名、组织名、系统组件名、攻击方法，使用基于深度学习的方法识别，其流程为：使用word2vec算法将单词转换为词向量，使用卷积神经网络生成字符向量编码，用词向量与字符向量编码作为输入，使用双向LSTM神经网络学习特征，最后使用条件随机场约束输出值。

6.根据权利要求1所述的面向文本数据的威胁情报知识图谱构建方法，其特征在于：基于图神经网络的威胁情报领域实体关系抽取方法，将依存句法关系与文本邻接关系构成的图数据结构作为神经网络的输入，将单词作为图的节点，双向文本序列关系与依存句法关系作为图的边，先构建威胁情报文本的序列结构循环图，对于循环图，将其拆分为两个子图，然后利用Graph LSTM图神经网络自动提取关系特征，抽取实体间的相互关系。