CN116932661A

CN116932661A - 一种面向网络安全的事件知识图谱构建方法

Info

Publication number: CN116932661A
Application number: CN202310896974.1A
Authority: CN
Inventors: 周文宇; 刘伟; 顾泽宇; 徐伟鹏; 赵东阳; 陈剑
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-24

Abstract

本发明属于网络安全领域，提供一种面向网络安全的事件知识图谱构建方法。该方法包括：(10)定义网络安全事件数据Schema；(20)从互联网中获取网络安全事件非结构化文本数据，通过标注形成网络安全事件抽取中文数据集；(30)构建事件分类模型，用于网络安全事件的分类；(40)构建事件元素抽取模型，用于抽取各类事件的事件元素(50)实现相似事件识别算法，在知识图谱中建立相似事件关系；(60)通过上述步骤，完成知识图谱的自动化构建。该方法能够将非结构化事件信息转为结构化知识图谱，本发明适用于网络安全领域事件知识图谱自动化构建，对后续进一步研究知识图谱，深入分析网络安全态势，挖掘有价值的网络安全信息有重要的实用价值。

Description

一种面向网络安全的事件知识图谱构建方法

技术领域

本发明设计网络安全领域，具体为一种网络安全事件知识图谱构建方法。

背景技术

网络安全知识图谱是一张由实体、概念、属性和实体之间的关系构成的图谱，在网络安全领域具有重要的意义，网络安全知识图谱将众多的网络安全领域概念和实体组织起来，将其进行规范化和结构化，提供图结构形式的知识表示，如今，传统知识图谱的研究主要集中在“实体”层面，将客观物理世界的具体实体作为知识映射到知识图谱中，能够对客观物理世界实体的静态特征进行描述，但这无法体现客观物理世界的一些动态特征，以“事件”为基本单位构建的知识图谱，更符合人们对客观世界的理解，并且更符合知识更新的需要，以网络安全事件为核心构建事件知识图谱可以更准确地表达事实信息，并帮助人们学习和理解网络安全动态事件，为人们提供更有效的分析和决策支持。

目前网络安全事件图谱自动构建技术存在一些问题和待改进的地方：在数据方面，网络安全领域的中文事件抽取数据集不足，基本以英文为主；网络安全事件本体模型方面，目前没有网络安全事件的分类定义规范，大多数研究没有统一的标准；在事件抽取方面，中文的汉字和语法结构更加错综复杂和灵活多变，这增加了从中文中提取事件信息的困难程度；在图谱构建方面，网络安全领域具有较强专业领域特征，图谱构建自动化程度较低，需要涉及图谱相似事件识别相关知识，实现难度较大。

针对网络安全事件图谱自动构建的问题，目前亟需一种面向网络安全的事件知识图谱自动构建方法，对后续进一步研究知识图谱，深入分析网络安全态势，挖掘有价值的网络安全信息有重要的实用价值和理论意义。

发明内容

有鉴于此，本发明的目的在于提供一种面向网络安全的事件知识图谱的构建方法，旨在解决网络安全领域事件知识图谱构建中数据集不足、非结构化文本抽取中存在的问题。本发明通过下述技术方案得以解决：

一种面向网络安全的事件知识图谱构建方法，包括如下步骤：

(10)定义网络安全领域事件数据Schema，包含网络安全事件类型和事件元素；

(20)获取互联网上网络安全事件相关的原始语料，通过数据预处理和数据标注，构建网络安全事件抽取中文数据集；

(30)构建网络安全事件分类模型，使用基于BERT预训练模型进行深度学习，得到网络安全事件分类模型；

(40)构建网络安全事件元素抽取模型，使用基于BERT预训练模型进行深度学习训练，得到网络安全事件元素抽取模型；

(50)实现相似事件识别算法，使用文本语义级别的相似度与实体级别的相似度形成综合相似度，以综合相似度作为相似事件识别条件；

(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据，并且利用相似事件识别算法，建立事件实体的相似关系，完成网络安全事件知识图谱的构建。

本发明的有益效果为：本发明定义了网络安全事件Schema，并由此构建了网络安全领域事件抽取数据集。对网络安全事件分类任务建模为文本多标签分类任务，利用增强词向量与融合分类标签信息提升了文本输入特征，进而提升了模型分类效能。将网络安全事件元素抽取任务建模为序列标注任务，通过增强词向量提升文本输入特征，通过事件类型条件特征输入，解决了事件间的重叠事件元素问题。计算计算文本相似度与事件元素实体相似度形成事件综合相似度建立事件实体之间的相似关系。最终形成一套网络安全事件知识图谱的构建流程。

附图说明：

图1为本发明方法步骤图；

图2为本发明事件分类模型图；

图3为本发明事件元素抽取模型图；

图4为本发明网络安全事件知识图谱构建流程图；

具体实施方式：

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图对本发明作进一步详细的说明。本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

本发明的设计提出一种面向网络安全事件知识图谱的构建方法，如图1所示，本发明方法包括以下步骤：

(10)定义网络安全领域事件数据Schema，包含网络安全事件类型和事件元素，具体网络安全事件类型与其对应的事件元素如表1所示：

表1网络安全事件数据格式

进一步的，(20)的具体方式为：

(21)使用Selenium框架对网络上的网络安全非结构化的事件文本进行采集；

(22)使用数据预处理手段，对爬取下来的数据进行数据清洗，去除重复、无用的非结构化文本，并且去除文本里特殊字符；

(23)使用开源数据标注工具doccano对数据进行人工标注，使用BIOES序列标注方法，完成对事件类型、事件元素的标注。

(24)根据人工标注生成的数据集生成匹配字典，用匹配字典来进行文本匹配标注。在自动标注后，进行人工审核确保标注的正确性。构建网络安全事件抽取中文数据集。

(30)构建网络安全事件分类模型，使用基于BERT预训练模型进行深度学习，得到网络安全事件分类模型，具体模型如图2所示；

进一步的，(30)的具体方式为：

(31)将事件分类标签Label₁......Label_n与原始文本拼接在一块，构建模型输入文本，形成的输入文本：

text＝C₁C₂C₃......C_mL₁₁L₁₂......L_nk

其中，C_i表示文本第i个字符，L_ij表示第i个标签的第j个字符；

(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化，并且通过字词对齐的方式对向量进行拼接，实现词级别的增强的文本向量化，由于数据集为中文，BERT会按字进行切分，得到字级别的向量，每个字被映射到768维；对文本进行Jieba分词，使用Word2Vec模型，对分词结果进行词级别的向量化，每个词被映射到200维的特征上，两者特征融合的方式为：

其中E_enhanced表示融合增强后的字向量，E_BERT表示BERT模型输出的字向量，E_word表示Word2Vec模型输出的词向量，为拼接运算符，经过横向拼接后融合增强后的字向量为968维的字向量；

(33)使用自注意力机制，计算每个词上下文对当前词的影响权重得到注意力向量；

(34)使用Linear全连接层与Sigmoid激活函数作为输出层，Sigmoid函数：

(35)计算Loss并且反向传播，训练模型，构建网络安全事件分类模型，由于该分类为多分类任务，Loss函数选用BCE Loss：

BEC Loss＝-(ylog(p(x)+(1-y)log(1-p(x))

其中p(x)为模型输出，y为真实标签。

(40)构建网络安全事件元素抽取模型，使用基于BERT预训练模型进行深度学习训练，得到网络安全事件元素抽取模型，具体模型如图3所示；

进一步的，(40)的具体方式为：

(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化，并且通过字词对齐的方式对向量进行拼接，实现词级别的增强的文本向量化，用BERT模型和Word2Vec模型对文本进行向量化，由于数据集为中文，BERT会按字进行切分，得到字级别的向量，每个字被映射到768维；对文本进行Jieba分词，使用Word2Vec模型，对分词结果进行词级别的向量化，每个词被映射到200维的特征上，两者特征融合的方式为：

(42)将该文本的事件类型通过随机Embedding进行编码，作为条件特征与向量化的文本特征融合，并对得到的向量进行归一化，将输入层向量E_enhanced与事件类型向量E_{event_type}输入Conditional Layer Norm层，并进行归一化得到E_Conditional，ConditionalLayerNorm层的公式如下：

其中，x为输入量，c为条件，μ_x为输入量的特征均值，σ_x为输入量的特征标准差，γ_c为可学习得缩放参数，β_c为学习得偏移参数；

(43)将(42)生成输入层向量E_Conditional输入Bi-LSTM层获取上下文语义特征，Bi-LSTM为双向LSTM模型，c_t为记忆单元，用于保存当前LSTM的状态信息并传递到下个时刻，具体公式如下：

上式中，f_t为遗忘门，用于控制上一时刻c_t-1进入当前时刻的特征，i_t为输入门，用于控制的特征，/>为临时记忆单元：

f_t＝σ(W_f·[h_t-1，E_{t enhanced}]+b_f)

i_t＝σ(W_i·[h_t-1，E_{t enhanced}]+b_i)

其中，W和b为神经网络模型参数，σ为sigmoid激活函数，h_t-1为上一时刻隐藏状态，E_{t enhanced}为当前时刻增强级字符输入向量，当前隐藏层h_t的计算公式如下：

h_t＝o_t*tanh(c_t)

上式中，c_t为当前时刻记忆单元，o_t为当前时刻的输出门：

o_t＝σ(W_o·[h_t-1，E_{t enhanced}]+b_o)

在Bi-LSTM中使用得到的隐藏层h_t的特征，有前向LSTM与后向LSTM，将两个特征横向拼接得到h_{t Bi-LSTM}：

(44)使用全连接层将Bi-LSTM的隐藏层信息h_Bi-LSTM映射到事件类型标签种类数量维度，并且输入CRF层进行标签预测。

(45)计算CRF Loss并且反向传播，训练模型，构建网络安全事件元素抽取模型，CRF Loss计算公式为：

其中为第N条路径的路径分数；

进一步的，(50)的具体方式为：

(51)使用Jieba对文本进行分词，并使用Word2Vec对分词进行向量化；

(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型：

TF(w)是词w在这个句子中出现的次数，DF(w)是词w在所有句子中出现的次数，N是句子总数；

(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量：

其中，w_i是第i个词的TF-IDF权重，v_i是第i个词的词向量；

(54)通过对事件进行文本向量化，与文本计算余弦相似度，得到文本余弦相似度cosine(x，y)：

(55)计算相同事件类型事件的事件元素之间的相似度entity_sim(x，y)：

其中，U_intersect为事件1与事件2中事件角色的交集数量，U_union为事件1与事件2中事件角色的并集数量，m为U_intersect中事件角色的数量，lev为编辑距离相似度，a，b分别为事件1与事件2相同事件角色中的具体事件元素。

(56)通过文本相似度与事件元素相似度计算综合相似度：

general_similarity＝cosine(x，y)+entity_sim(x，y)

(60)利用事件分类模型与事件元素抽取模型将事件变成结构化的三元组数据，并且利用相似事件识别算法，建立事件实体的相似关系，完成网络安全事件知识图谱的构建。构建流程图如图4所示。

进一步的，(60)的具体方式为：

(61)使用事件文本分类模型对网络安全事件文本进行分类；

(62)使用事件元素抽取模型，对网络安全事件文本进行事件元素抽取；

(63)在知识图谱中构建该事件实体与其事件元素实体；

(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度，若相似度大于阈值，则与知识图谱中的事件实体构建相似关系。

以上所述仅是本发明的优选实施方式，发明不局限于上述实施方式，任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案，均落入本发明的保护范围。

Claims

1.一种面向网络安全的事件知识图谱构建方法，其特征在于，所述方法的步骤如下：

2.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法，其特征在于，所述(10)具体步骤为：

定义网络安全事件的Schema，包括网络攻击事件、数据安全事件、安全漏洞事件、加强防御事件、设备破坏事件、有害程序事件与其事件对应的事件角色。

3.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法，其特征在于，所述(20)具体步骤为：

4.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法，其特征在于，所述(30)具体步骤为：

(31)将事件分类标签Label₁......Label_n与原始文本拼接在一块，构建模型输入文本；

(32)网络安全事件分类模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化，并且通过字词对齐的方式对向量进行拼接，实现词级别的增强的文本向量化；

(34)使用Linear全连接层与Sigmoid激活函数作为输出层；

(35)计算Loss并且反向传播，训练模型，构建网络安全事件分类模型。

5.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于，所述(40)具体步骤为：

(41)网络安全事件元素抽取模型的输入层使用BERT模型与Word2Vec模型对文本进行向量化，并且通过字词对齐的方式对向量进行拼接，实现词级别的增强的文本向量化；

(42)将该文本的事件类型通过随机Embedding进行编码，作为条件特征与向量化的文本特征融合，并对得到的向量进行归一化；

(43)将(42)生成的向量输入Bi-LSTM层获取文本上下文语义特征；

(44)使用全连接层将Bi-LSTM的隐藏层信息映射到事件类型标签种类数量维度，并且输入CRF层进行标签预测。

(45)计算CRF Loss并且反向传播，训练模型，构建网络安全事件元素抽取模型。

6.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于，所述(50)具体步骤为：

(52)通过(20)获取的网络安全事件文本生成TF-IDF词袋模型；

(53)对每个词的Word2Vec词向量利用TF-IDF词袋模型进行加权平均表示文本向量；

(54)通过对事件进行文本向量化，与文本计算余弦相似度，得到文本余弦相似度cosine(x，y)；

(55)计算相同事件类型事件的事件元素之间的相似度entity_sim(x，y)；

(56)通过文本相似度与事件元素相似度计算综合相似度。

7.根据权利要求1所述的一种面向网络安全的事件知识图谱构建方法。其特征在于，所述(60)具体步骤为：

(61)使用事件文本分类模型对网络安全事件文本进行分类；

(63)在知识图谱中构建该事件实体与其事件元素实体；

(64)计算该网络安全事件与网络安全知识图谱中其他事件的相似度，若相似度大于阈值，则与知识图谱中的事件实体构建相似关系，完成网络安全事件知识图谱的构建。