CN113901818A

CN113901818A - 一种面向威胁情报的实体识别及关系抽取方法

Info

Publication number: CN113901818A
Application number: CN202111128673.1A
Authority: CN
Inventors: 黄诚; 张与弛; 曾闽川
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2022-01-07

Abstract

本发明是一种面向威胁情报的实体识别及关系抽取方法，识别的对象为网络空间安全领域威胁情报。本方法主要应用于威胁情报领域，其核心是利用公开威胁情报数据训练图卷积网络实现网络安全实体识别并训练基于注意力引导的图卷积网络实现安全实体关系抽取，并将训练好的模型应用于新的威胁情报命名实体识别和关系抽取。本方法基于图卷积神经网络和注意力引导的图卷积神经网络实现了面向威胁情报的实体识别及关系抽取方法，为威胁情报实体识别及关系抽取提供了新的解决方法。

Description

一种面向威胁情报的实体识别及关系抽取方法

技术领域

本发明涉及威胁情报领域，主要核心是利用公开威胁情报数据训练图卷积网络实现网络安全实体识别并训练基于注意力引导的图卷积神经网络实现安全实体关系抽取，并将训练好的模型应用于新的威胁情报命名实体识别和关系抽取。

背景技术

网络应用的快速发展给人们工作和生活带来了便利，同时也带来了网络安全风险。网络攻击事件随着网络应用的快速增加，严重威胁着整个网络空间的安全。网络安全研究机构会对每次重要的攻击事件进行分析与复盘，并从中总结经验教训。相关分析报告也公开到网络上供人们获取和学习。针对出现在公众视野中的网络攻击以及披露出的漏洞，已经有相关机构或者公司做出了比较详细的文本描述数据，并进行了信息存储。常见的结构化数据库有官方机构构建的漏洞数据库比如NVD（美国国家漏洞库）、非官方机构比如MITRE 公司构建的CVE（常见漏洞与披露）。常见的非结构化数据，主要包含了网络安全公司（Kaspersky、FireEye、Palo Alto Networks、McAfee、ESET等）和相关机构发布的有关网络攻击的分析文章和博客。

网络空间安全领域的威胁情报数据非常丰富，但是如何从冗余度较高的复杂数据中提取出与网络安全相关的信息，并抽取出这些信息间的关系，目前在该领域仍然没有一个较为完备的解决方案。

目前通用领域的命名实体识别方法虽然取得了较好的效果，但是忽略了文本中的非本地依赖关系以及威胁情报领域中命名实体的特点，直接沿用相关技术会导致网络安全实体识别结果不理想。

传统的基于依存语法树的实体关系抽取方法，通常采用预定义的规则对语法树进行剪枝，这种方法可能造成语法树中有用信息的遗漏，进而影响关系抽取的结果。

在此背景下，如何做到从威胁情报文本中自动化且准确地提取关键的威胁因子，挖掘其间关系，并用于今后应对网络攻击事件应急处理的决策和响应，是一个亟待解决的问题。

发明内容

“一种面向威胁情报的实体识别及关系抽取方法”是为了解决目前网络空间安全领域威胁情报没有较完善的实体识别及关系抽取方案而提出的发明，发明的目标是为了有效地进行威胁情报实体识别和关系抽取。

本发明创新性地提出了基于图神经网络的实体识别方法和基于注意力引导的图神经网络的关系抽取方法，基于图神经网络的实体识别方法主要使用公开的威胁情报进行训练，实现对网络空间安全领域的实体识别，基于注意力引导的图神经网络的关系抽取方法提取这些实体之间的关系。发明的内容主要分为两部分：一方面，基于图神经网络的实体识别方法能够从图级别进行特征提取，挖掘非本地、跨句子间的依赖关系，在提取同一句子内的上下文特征的基础上，还能够关注同一篇文章中单词反复出现的情况从而提取远距离的特征，此外，该模型还能够学习到实体字符级别的构词特征。另一方面，使用注意力引导的图卷积网络的网络安全实体关系抽取模型本质上是一种软剪枝策略，能够基于依存语法树进行构图，给所有依存关系分配权重，并自动学习并对依存树进行剪枝，从而更好地保留依存树中的有用信息，进而抽取到的实体间的关系，最终提高关系抽取的精准度。

为了实现这种威胁情报的实体识别和关系抽取方法，本发明使用了Word2vec构建词向量，使用卷积神经网络构建字向量，构建文档级别的图，重点突出单词的共现信息，从多个维度表征文本数据中实体的特征，通过图卷积网络，双向长短时记忆，条件随机场构建网络安全实体识别模型，充分挖掘上下文和非本地的依赖关系，从而精准地识别威胁情报中与网络安全有关的实体。使用注意力机制，图卷积网络，针对依存语法树进行软剪枝，有效利用其中有价值的信息，构建网络安全实体关系抽取模型，从而准确地抽取出实体间的关系，并通过Neo4j图数据库完成实体关系三元组的存储，实现实体间关系的可视化。

附图说明

从下面结合附图的详细描述，可以更加清楚地理解本发明的目标、实现方法、优点以及特性，其中。

图1是发明的方法流程框架；

图2是数据准备模块结构图；

图3是基于威胁情报的网络安全实体识别模块结构图；

图4是基于威胁情报的关系抽取模块结构图；

图5 基于Neo4j图数据库的可视化模块结构图。

具体实施方式

本发明主要用于面向威胁情报的实体识别和关系抽取，识别的对象为网络空间安全领域的威胁情报。因此，以公开威胁情报数据作为原始数据，经过采集与清洗、数据标注与审核构建语料库后，对结合了词向量模型Word2vec、基于卷积神经网络的字符特征向量构建方法和基于文档的图构建方法的图卷积神经网络进行训练后获得最终的实体识别模型，对基于注意力机制的图卷积神经网络进行训练获得最终的实体关系抽取模型。发明的方法层级框架如图1所示。

发明的整体框架自顶向下一共包含四个模块：数据准备模块、基于威胁情报的网络安全实体识别模块、基于威胁情报的关系抽取模块、基于Neo4j的实体关系存储及可视化模块。框架具有层次性，数据自顶向下传输，上层的输出将作为下层的输入参与各项处理。实现的过程总主要分为四步：先是数据准备模块，该模块实现了数据的收集与清洗，并按照实际情况选择合适的标注体系对数据进行标注。其中数据采集使用网页爬虫，实现威胁情报文本数据的爬取。数据清洗主要是清除长度异常的文本，筛除掉与网络安全无关的文章。数据标注则采用了半自动化标注的方法。随后是基于威胁情报的网络安全实体识别模块，该模块分别构建词级和字符级的特征向量，在文档上构图并挖掘非本地依赖关系，然后输入到经典的实体识别模型中进行特征的学习，实现网络安全实体的识别。接下来是基于威胁情报的网络安全实体关系抽取模块，该模块对已有文本进行依存句法分析，并且还依据依存语法树构图，通过注意力机制自动选取语法树中有用的信息，结合词性和词向量等特征抽取出实体之间的关系。最后是基于Neo4j图数据库的可视化模块，该模块在获取到威胁情报实体关系三元组后，对应地在Neo4j图数据库创建节点和关系，实现关系的存储及可视化展示。下面对每一模块进行详细介绍。

数据准备模块的作用在于对原始数据的获取及处理，并将其整理后传入基于威胁情报的网络安全实体识别模块。数据准备模块主要包含数据采集、数据清洗、数据标注，其结构图如图2所示。数据采集部分通过爬虫抓取HTML文本并进行清洗。然后基于关键词出现的频率对文章的主题进行筛选，去除掉与网络安全无关的文章。此外，还要考虑句子长度对整体文章产生的噪音。本模块采用的策略是截断和删除，即针对长度超过100的句子，截断其中超过100的内容，针对长度小于5 的句子，直接删除，以适应后续神经网络的输入。最后的数据标注过程中，针对不同数据的特点，既使用了自动标注工具，也使用了手动标准的方法，并对标注好的数据进行人工核验以确保其准确性。

基于威胁情报的网络安全实体识别模块的作用是对威胁情报中的网络空间安全领域实体进行识别，主要分为五个子模块：基于Word2vec的词向量模块，实现词向量的生成；基于卷积神经网络（CNN）的字向量模块，实现字符特征的提取；基于双向长短时记忆（Bi-LSTM）的特征提取模块，实现上下文特征的提取及学习；基于图卷积网络的非本地依赖关系挖掘模块，实现非本地和非序列关系的挖掘及学习；基于条件随机场（CRF）的解码模块，实现标签之间约束关系的学习，完成最终的标签输出。其结构图如图3所示。

基于Word2vec的词向量模块目的主要为实现词向量的生成。词向量表示可以让计算机理解文本，同时还能够通过向量表征词汇之间的上下文关系。考虑到威胁情报数据的领域特殊性，为了更好地体现词汇之间的上下文关系，本文采用的方法是基于已有的威胁情报文本数据进行训练，而不是直接使用通用领域已经训练好的词向量。词向量的训练通过Python 语言的gensim模块实现，训练的相关参数设置情况如下：最关键的特征向量维度设置为100，采样率定为0.001，单词的丢弃阈值设置为1，训练算法设置为1，即Skip-gram算法，训练时的窗口值设置为10。

基于卷积神经网络（CNN）的字向量模块，主要目的是实现字符特征的提取。字向量能够有效地表征组成单词字符的特征，在实体识别问题中可以作为对词向量的补充。本文使用卷积神经网络（CharCNN）实现对字符特征的提取，主要包括编码、卷积、池化等步骤。字符会经过嵌入层转换为30 维的字向量，然后作为卷积核大小为3 的卷积层的输入，随后经过最大池化层以及全连接层，最终获得含有字符特征的向量。其中dropout 大小设置为0.33，所有单词使用0 进行填充。

基于双向长短时记忆的特征提取模块主要目标在于实现上下文特征的提取及学习。双向长短时记忆（Bi-LSTM）能够有效地提取文本序列的上下文特征。本文总共用到了两次Bi-LSTM 网络，第一次使用用于提取包含向下文依赖关系的文本序列的隐藏状态表示，用作图卷积网络的输入；第二次使用在经典的命名实体识别模型中，学习上下文依赖关系，作为最后CRF 解码器的输入。

基于图卷积网络的非本地依赖关系挖掘模块，主要目标在于实现非本地和非序列关系的挖掘及学习。文本序列中同样存在着非本地和非序列的依赖关系，这种关系对提高实体识别的准确率有很大的帮助。图是使用图卷积计算的基础，要使用图卷积网络，首先必须构建图。本模块以每一篇文章，文档，或博客作为基本单位，基于单词在文档中的共现信息进行构图。文档中的每个单词作为图中的一个节点，图中的边均为双向边，有两种类型：本地边和非本地边。本地边连接着句子中相邻的单词；非本地边连接着在同一篇文章中相同的重复出现的单词（不包含停用词等非实体），这允许了非本地信息的传播。

基于条件随机场（CRF）的解码模块，主要目标在于实现标签之间约束关系的学习，完成最终的标签输出。Bi-LSTM网络的输出是一个概率，针对同一个句子可能有多个输出，且这些输出之间没有约束关系，所以可能导致最终输出标签的混乱。CRF 算法可以学习到标签的上下文特征和约束关系，可用于选择最可能正确的输出。

基于威胁情报的关系抽取模块的作用是基于网络安全实体识别模块输出的结果提取实体间关系，主要包含四个子模块：依存句法分析模块，实现了依赖关系的分析和语法树的构建；注意力引导层，实现基于多头注意力机制的依存语法树的软剪枝策略，获取树中的有价值信息；密集连接层，通过图卷积计算，实现针对依存语法树构建的图的特征学习；线性组合层，实现对前两层结果的线性变换，输出至后续的神经网络和分类器中实现实体间关系的预测。基于威胁情报的关系抽取模块结构图如图4所示。

依存句法分析模块，主要目标在于依赖关系的分析和语法树的构建。依存句法分析模块使用的工具是Stanford Core NLP，该工具不仅可以进行实体标注，还能分析词性和依存关系。针对每一个输入的句子，首先进行词性分析，获取每个单词的词性。然后使用该工具的依存分析方法，获取句中各成分之间的依赖关系。输出结果中会包含每个词所依赖的词，可以将所依赖的词视作当前单词的父节点，从而构建依存语法树。

注意力引导层，主要目标在于实现基于多头注意力机制的依存语法树的软剪枝策略，获取树中的有价值信息。在注意力引导层中，本文参考了多头注意力机制，并基于Pytorch对该方法进行实现。首先接收基于依存语法树构成的图，将其中的每个节点即单词，用Word2vec 训练出的词向量进行表示。考虑到任务的特殊性，关系抽取任务中词向量的维度为300。

密集连接层，主要目标在于通过图卷积计算，实现针对依存语法树构建的图的特征学习。密集连接层使用注意力引导层输出的大且完整的全连接图，更精确地挖掘非本地的结构化信息。关键参数的设置情况如下：每个密集连接层含有两个子层；第一子层的层数为2，第二个的子层数为4。

线性组合层，主要目标在于实现对前两层结果的线性变换，输出至后续的神经网络和分类器中实现实体间关系的预测。线性组合层首先接收密集连接层的输出，然后使用最大池化函数将其映射为一个句子向量。之后拼接一层额外的前向神经网络，获取最终的表达式。最终将表达式输入至一个逻辑回归分类器中进行预测，获取最终的关系分类结果。

基于Neo4j图数据库的可视化模块作用是存储命名实体及实体间关系三元组的存储和可视化展示。主要基于Neo4j图数据库实现，本模块采用Python语言的py2neo 第三方库，实现图数据库的节点及关系的创建。首先读取已有实体关系三元组，分别查询每组关系中涉及的实体是否已经在数据库中存在，如果节点不存在则进行创建，然后添加对应的关系；如果节点已经存在于数据库中，则直接为其添加关系。其结构图如图5所示。

如上所述，本发明成功地实现了面向威胁情报的实体识别及关系抽取方法。本发明比之既有的实体识别及关系抽取方法有如下创新性：

（1）针对现有威胁情报标准较为复杂的问题，本文总结了现有应用范围较为广泛的威胁情报标准，依据现有网络空间安全领域的术语和常见攻击方式，结合已有的网络安全领域本体，构建基于威胁情报的网络安全领域本体，作为后续命名实体识别和关系抽取研究，网络安全知识图谱构建的基础；

（2）针对传统的实体识别模型以及应用在网络安全领域的实体识别模型，本发明分析了其缺点和问题，使用图卷积网络构建实体识别模型。该模型能够从图级别进行特征提取，挖掘非本地、跨句子间的依赖关系，在提取同一句子内的上下文特征的基础上，还能够关注同一篇文章中单词反复出现的情况从而提取远距离的特征。此外，该模型还能够学习到实体字符级别的构词特征；

（3）针对传统的依存树分析策略，即常用的基于规则的硬剪枝策略可能丢失掉依存树中有用信息的问题，使用注意力引导的图卷积网络构建网络安全实体关系抽取模型。该模型本质上是一种软剪枝策略，能够基于依存语法树进行构图，给所有依存关系分配权重，并自动学习并对依存树进行剪枝，从而更好地保留依存树中的有用信息，进而抽取到的实体间的关系，最终提高关系抽取的精准度。

尽管出于说明的目的描述了本发明的优选实施例子，本领域人员将理解，在不脱离如附属权利要求所披露的本发明的范围和精神的情况下，各种修改、增加和替换都是可能的。

Claims

1.一种面向威胁情报的实体识别及关系抽取方法，其特征在于，所述方法包括如下步骤：

A、在数据准备模块，从指定网络安全新闻的网站或博客网页中获取所需的威胁情报数据，并对数据进行清洗，并选择用BIO标注体系对数据进行标注；

B、提出基于图神经网络的实体识别方法，并主要使用公开的威胁情报进行训练，实现对网络空间安全领域的实体识别；

C、提出基于注意力引导的图神经网络的关系抽取方法，使用该方法提取这些网络安全领域实体之间的关系；

D、使用Neo4j图数据库对威胁情报实体关系三元组关系进行展示，通过在Neo4j图数据库创建节点和关系，实现关系的存储及可视化展示。

2.根据权利要求1所述的一种面向威胁情报的实体识别及关系抽取方法，其特征在于，所述的步骤A中的过程包括如下：

A1、数据采集使用网页爬虫，实现威胁情报文本数据的爬取；

A2、数据清洗主要是清除长度异常的文本，根据文章的主题相关性筛除掉与网络安全无关的文章。

3.根据权利要求1所述的一种面向威胁情报的实体识别及关系抽取方法，其特征在于，所述的步骤B中的过程包括如下：

B1、利用Word2vec的词向量表示方法构建威胁情报内容中词级的特征向量；

B2、利用字符级别的卷积神经网络（CharCNN）算法来提取威胁情报内容中字符级别的字符特征向量；

B3、利用双向长短时记忆（Bidirectional Long Short-Term Memory，Bi-LSTM）算法来提取文本序列中存在的双向的依赖特征，实现上下文特征的提取及学习；

B4、利用卷积网络（GCN）来提取文本序列中非本地和非序列依赖关系，从图级别进行特征提取，挖掘非本地、跨句子间的依赖关系，在提取同一句子内的上下文特征的基础上，还能够关注同一篇文章中单词反复出现的情况从而提取远距离的特征。

4.根据权利要求1所述的一种面向威胁情报的实体识别及关系抽取方法，其特征在于，所述的步骤C中的过程包括如下：

C1、提出基于多头注意力机制的依存语法树的软剪枝策略获取树中的有价值信息，利用图卷积神经网络对依存语法树构建的图的特征进行学习；

C2、提出使用注意力引导的图卷积网络的网络安全实体关系抽取模型，该模型是一种软剪枝策略，能够基于依存语法树进行构图，给所有依存关系分配权重，并自动学习并对依存树进行剪枝，从而更好地保留依存树中的有用信息，进而抽取到的实体间的关系，最终提高关系抽取的精准度。

5. 根据权利要求1所述的一种面向威胁情报的实体识别及关系抽取方法，其特征在于，所述的步骤D中的过程包括为，采用Python 语言的py2neo第三方库，实现图数据库的节点及关系的创建：首先读取已有实体关系三元组，分别查询每组关系中涉及的实体是否已经在数据库中存在，如果节点不存在则进行创建，然后添加对应的关系；如果节点已经存在于数据库中，则直接为其添加关系。