CN114860903A

CN114860903A - 一种面向网络安全领域的事件抽取、分类和融合方法

Info

Publication number: CN114860903A
Application number: CN202210432552.4A
Authority: CN
Inventors: 包兴; 郑杰; 胡岩峰; 王迪; 费涛; 郭雷; 杨苏
Original assignee: Suzhou Aerospace Information Research Institute
Current assignee: Suzhou Aerospace Information Research Institute
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-05

Abstract

本发明提出了一种面向网络安全领域的事件抽取、分类和融合方法，根据事件要素信息的完备程度，从历史数据库中的每条事件链上筛选出若干代表事件；定义网络安全领域事件类别、论元模板，针对输入的非结构化网络安全文本按照模板进行元事件结构化抽取；构建事件分类模型，将抽取得到的所有元事件与事件链中的代表事件组成事件对，利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别；训练事件分类模型，依据事件分类结果，采用事件链的方式，通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中。本发明将现有事件与历史事件进行关联和分析，能够挖掘事件发展、变化的规律。

Description

一种面向网络安全领域的事件抽取、分类和融合方法

技术领域

本发明涉及自然语言处理技术，具体涉及一种面向网络安全领域的事件抽取、分类和融合方法。

背景技术

事件，是指对已经发生的事情的描述，包括事情发生的时间、地点、内容以及参与角色等，一般是以自然语言描述的非结构化文本来表示。随着互联网的快速发展，网络中产生的数据内容爆炸式地增长，人工处理、分析和关联数据非常困难。因此，自动抽取事件信息、分析事件之间地关联特点显得非常重要。现有工作大都关注事件的抽取工作，对事件抽取后续进一步的关联分析研究较少。然而，事件的关联分析工作是非常有价值的，对于研究事件时序关系、探寻事件发展规律是至关重要的。

发明内容

本发明的目的在于提出一种面向网络安全领域的事件抽取、分类和融合方法。

实现本发明目的的技术解决方案为：一种面向网络安全领域的事件抽取、分类和融合方法，其特征在于，包括如下步骤：

步骤1，根据事件要素信息的完备程度，从历史数据库中的每条事件链上筛选出若干代表事件；

步骤2，定义网络安全领域事件类别、论元模板，针对输入的非结构化网络安全文本按照模板进行元事件结构化抽取；

步骤3，构建事件分类模型，将抽取得到的所有元事件与事件链中的代表事件组成事件对，利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别；

步骤4，训练事件分类模型，依据事件分类结果，采用事件链的方式，通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中。

一种面向网络安全领域的事件抽取、分类和融合系统，基于所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。

本发明与现有技术相比，其显著优点为：1)提出了一种基于文本和论元的双重注意力模型，能够从文本语义相似度和事件论元角色相似度角度综合研判事件对是否属于同类事件。2)提出了一种新颖的数据采样方法，能够依据事件抽取数据集自动生成事件分类标注数据，大大减轻数据标注压力。3)采用事件链方法，通过事件分类和融合策略，将现有事件与历史事件进行关联和分析，能够挖掘事件发展、变化的规律。

附图说明

图1是面向网络安全领域的事件服务框架流程图；

图2是元事件抽取模型结构图；

图3是事件分类模型结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明提出一种事件抽取、分类以及融合方法。该方法从众多非结构化网络安全领域文本中提取事件要素，针对不同事件分类并将从属相同类别的事件进行融合，实现对网络安全事件的关联分析功能。包含从非结构化网络安全领域文本中抽取元事件的事件抽取模型，元事件分类模型及其训练和预测方法，基于事件链的事件融合策略。具体步骤如下：

步骤1：从事件数据库的每条事件链中选择代表事件。由于事件数据量是随着时间不断累加的，综合考虑数据库中事件链上的所有事件是不合理的。因此，为了减轻计算代价，加快模型预测的响应速度，需要从每条事件链中选择代表事件。代表事件的选择原则是事件要素信息越完备，事件的主题特征就越明显，则越能代表事件链。在本发明中，事件要素包含了事件的类别、论元和角色信息。具体做法是遍历事件数据库，针对每一条事件链按照事件类别、论元以及角色信息的丰富程度排序，选择累加值排名前K条数据作为代表。为了加快计算速度，每一条事件链的代表信息都进行缓存。当事件链更新，代表信息需要重新计算。

步骤2：针对输入的非结构化网络安全文本进行元事件抽取。首先介绍一下本发明所使用的数据集中关于网络安全领域的事件定义。网络安全领域的事件定义主要分为事件类型定义和事件角色标签定义，具体定义内容参考表1。

表1网络安全事件类型和事件角色定义表

本发明针对网络安全领域文本，采用了基于序列标注的元事件抽取模型。元事件抽取模型接收非结构化网络安全文本作为输入，输出事件类型、事件角色和事件论元结果。模型的结构如图2所示。下面介绍一下模型各个部分的工作原理。

步骤2.1：使用BERT对输入文本进行编码。输入文本为字符集合，使用BERT将文本中每一个字符映射成字符向量。具体计算公式如下：

s＝{c₁,c₂,c₃...c_n} (1)

其中，s表示输入句子，c_i表示句子中的字符，

表示经过BERT编码后的字符向量。上标_c表示字符序列，作区分用。下标_i表示当前字符在字符集合中的位置。

步骤2.2：使用全连接层和CRF层计算事件角色标签概率。输入是字符向量集合，输出是角色标签概率。具体计算公式如下：

h＝Wx+b (3)

P＝CRF(h) (4)

其中，h表示全连接层对字符向量的计算结果，x表示字符向量集合，W和b表示可训练参数，P表示角色标签概率，CRF表示条件随机场方法。

根据事件角色标签概率，抽取论元和角色标签。这里事件的角色标签和事件的类型标签是绑定的，确定角色标签同时可以确定事件的类型。

步骤3：将抽取得到的所有元事件与事件链中的代表事件组成事件对进行分类。针对当前输入文本，使用步骤2方法抽取得到的元事件会与每一条事件链上的N个代表事件两两组合，使用一个二元事件分类器判断两者是否从属同一事件链。关于事件分类器，本发明提出了一种基于文本和论元的双重注意力模型，从文本语义相似度和事件论元角色相似度角度综合研判事件对是否属于同类事件。模型结构图如图3所示。下面具体介绍模型的各个模块。

步骤3.1：对元事件和代表事件的输入文本以及事件论元进行编码。针对输入文本，使用BERT将文本中每一个字符映射成字符向量；针对事件论元，使用词嵌入矩阵进行编码。具体计算公式如下：

s₁＝{c¹ ₁,c¹ ₂,c¹ ₃...c¹ _n} (5)

s₂＝{c² ₁,c² ₂,c² ₃...c² _n} (6)

a₁＝{w¹ ₁,w¹ ₂,w¹ ₃...w¹ _n} (7)

a₂＝{w² ₁,w² ₂,w² ₃...w² _n} (8)

其中，s₁和s₂分别是两个事件的文本，a₁和a₂分别是两个事件的论元，x¹和x²是经过BERT编码的字符向量，h¹和h²是论元编码后的向量。上标₁和₂用来区分两个事件，下标_i指当前字符或字符向量在集合中的位置。由于输入是事件对，所以需要对两个事件的文本和论元分别进行编码。

步骤3.2：使用BiLSTM对元事件和代表事件输入文本的时序信息进行计算。具体计算公式如下：

其中，

和

是BiLSTM计算结果。上标₁和₂用来区分两个事件，上标'仅作区分用，无实际意义。

步骤3.3：根据BiLSTM计算结果，计算输入文本以及论元的注意力得分，更新向量权重。通过使用注意力机制，关注输入文本中的焦点信息，对文本蕴含的语义信息有更清晰地表征。具体计算公式如下：

首先计算文本向量注意力得分矩阵：

其中，x_score是文本向量注意力得分矩阵。上标仅作区分用途。

分别按行和列对矩阵元素进行累加求平均，计算文本向量的注意力权重：

其中，

和

分别表示

和

的向量注意力权重。下标表示当前向量在集合中的位置，上标无实际意义，仅作区分。

更新两个事件的文本向量：

同理，对事件论元向量进行注意力得分计算，更新论元向量。计算步骤如下：

其中，a_score是论元注意力得分矩阵，

和

是h¹和h²的论元向量注意力权重。上标₁和₂用来区分事件1和事件2，*仅用于区分。

步骤3.4：计算元事件和代表事件文本向量距离和论元向量距离特征，判断两个事件是否从属同一事件类型。具体计算步骤如下：

P＝soft max(W₃[f_a；f_s]+b₃) (31)

其中，f_a和f_s分别代表论元距离特征和文本距离特征，W₁、b₁、W₂、b₂、W₃、b₃是可训练参数，P是两个事件属于同一类事件的概率。下标₁和₂和₃仅用来区分，_a和_s分别表示论元层面和文本层面。上标₁和₂用来区分事件1和事件2，*仅用于区分。

关于事件分类器的训练方法，由于缺少标注数据，并且人工标注成本较高，因此本发明提出了一种采样方法，仅使用事件抽取标注数据即可训练事件分类模型。首先，将事件抽取标注数据中每一个样例按照句子进行切分，同时将其标注的事件类型以及事件论元和角色信息划分到各自所在的句子中。经过这一步，原事件标注样例按照句子切分成若干子事件标注样例。其次，遍历所有子事件，对于每一个子事件，选择原属于同一事件的其他子事件一起作为正例样本；随机选择不同于当前事件的任意其他事件，并从中随机选择一个子事件一起作为负例样本。按照上述采样方式，就能够得到事件分类模型的训练数据，即能训练事件分类模型并能预测事件对是否属于同一类别。

步骤4：依据事件分类结果，采用事件融合策略将元事件融入事件链中。首先，将元事件与每一条事件链上选择的代表事件进行分类，投票计算元事件属于某一条事件链的得分，计算步骤如下：

该公式计算元事件与事件链上的代表事件的投票结果。其中，K表示事件链上代表事件的数量，f_classify表示事件分类器，e^*表示元事件，e_i表示事件链上的代表事件。上标_*作区分用途，下表_i表示代表事件在事件链上的序号，下同。

该公式计算当前元事件与代表事件的文本相似度得分。其中，f_sim表示余弦相似度计算方法。

计算元事件与事件链的最终得分：

score＝αsim+(1-α)vote (34)

其中，α是调整文本相似度得分和投票得分权重的比例系数。

根据元事件与各条事件链的得分，选择得分最高的一条事件链。若得分超过给定阈值，则将该元事件融入目标事件链中，并更新事件链代表事件；若得分低于阈值，则将该元事件创建为一条新事件链。

实施例

为了验证本发明方案的有效性，进行如下实施例。

输入：一篇文本内容为“网络钓鱼攻击传播迅速，已经扩散至100万谷歌邮箱用户。网络钓鱼会伪装成一个看起来像Google Docs的虚拟应用程序，收件人会被邀请点击一个蓝色框，上面写着‘在文档中打开’的。点击蓝色框后会进入谷歌账户页面，钓鱼软件会获取收件人的谷歌邮箱访问权限。”。

步骤1：选择事件链代表事件。这里以数据库中一条事件链上一个代表事件为例。

事件文本内容为：“科罗拉多州的国有计算机被勒索赎金。据州长办公室称，科罗拉多州交通部的一些计算机在周三首次被恶意安装勒索软件。”。

代表事件的抽取结果为：

{

“事件类型”：“网络勒索”，

“攻击模式”：“恶意安装勒索软件”，

“被侵害设备”：“计算机”，

“地点”：“科罗拉多州”，

“被侵害组织”：“科罗拉多州交通部”，

“时间”：“周三”

}

步骤2：元事件抽取。对输入文本进行预处理后进行事件抽取，抽取结果为：

{

“事件类型”：“网络钓鱼”，

“攻击模式”：“点击一个上面写着‘在文档中打开’的蓝色框”，

“受害者数量”：“100万”，

“动机”：“获取收件人的谷歌邮箱访问权限”，

“侵害工具”：“虚拟应用程序”，

“可信实体”：“Google Docs”，

“受害者”：“谷歌邮箱用户”

}

步骤3：元事件与事件链分类以及融合。元事件与事件链上代表事件的文本相似度得分均值为0.11，投票得分均值为0.1，α设置为0.8，最终元事件与事件链得分为0.108。事件融合阈值设置为0.5，由于元事件与事件链得分小于阈值，所以该元事件不属于该条事件链。

输出：元事件抽取结果作为新事件链存储数据库。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种面向网络安全领域的事件抽取、分类和融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤1，根据事件要素信息的完备程度，从历史数据库中的每条事件链上筛选出若干代表事件，其中事件要素包含了事件的类别、论元和角色信息，筛选代表事件时，将每一条事件链按照事件类别、论元以及角色信息的累加值排序，选择排名前K条数据作为代表事件，并将代表信息进行缓存，当事件链更新，代表信息需要重新计算。

3.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤2，定义网络安全领域事件的事件类型、事件角色标签和论元模板，针对输入的非结构化网络安全文本按照论元模板进行元事件结构化抽取，其中事件类型和事件角色标签的具体定义内容参考表1，论元和事件角色标签一一对应；

表1网络安全事件类型和事件角色定义表

4.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤2，定义网络安全领域事件的事件类型、事件角色标签和论元角色模板，针对输入的非结构化网络安全文本按照论元角色模板进行元事件结构化抽取，其中元事件结构化抽取具体方法为：

步骤2.1：使用BERT对输入文本进行编码，将文本中每一个字符映射成字符向量，具体计算公式如下：

s＝{c₁,c₂,c₃...c_n} (1)

其中，s表示输入句子，c_i表示句子中的字符，

表示经过BERT编码后的字符向量，上标_c表示字符序列，作区分用，下标_i表示当前字符在字符集合中的位置；

步骤2.2：使用全连接层和CRF层计算字符向量集合对应的事件角色标签概率，具体计算公式如下：

h＝Wx+b (3)

P＝CRF(h) (4)

其中，h表示全连接层对字符向量的计算结果，x表示字符向量集合，W和b表示可训练参数，P表示角色标签概率，CRF表示条件随机场模型；

步骤2.3：根据角色标签概率，抽取论元和事件角色标签，根据事件角色标签确定事件类型，据此完成元事件结构化抽取。

5.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤3，构建事件分类模型，将抽取得到的所有元事件与事件链中的代表事件组成事件对，利用双重注意力机制从文本语义相似度角度和事件论元、角色相似度角度判别事件是否属于相同类别，具体方法为：

步骤3.1：对元事件和代表事件的输入文本以及事件论元进行编码，针对输入文本，使用BERT将文本中每一个字符映射成字符向量；针对事件论元，使用词嵌入矩阵进行编码，具体计算公式如下：

s₁＝{c¹ ₁,c¹ ₂,c¹ ₃...c¹ _n} (5)

s₂＝{c² ₁,c² ₂,c² ₃...c² _n} (6)

a₁＝{w¹ ₁,w¹ ₂,w¹ ₃...w¹ _n} (7)

a₂＝{w² ₁,w² ₂,w² ₃...w² _n} (8)

其中，s₁和s₂分别是两个事件的文本，a₁和a₂分别是两个事件的论元，x¹和x²是经过BERT编码的字符向量，h¹和h²是论元编码后的向量，上标₁和₂用来区分两个事件，下标_i指当前字符或字符向量在集合中的位置；

步骤3.2：使用BiLSTM对元事件和代表事件输入文本的时序信息进行计算，具体计算公式如下：

x'¹＝BiLSTM(x¹) (13)

x'²＝BiLSTM(x²) (14)

其中，x'¹和x'²是BiLSTM计算结果，上标₁和₂用来区分两个事件，上标'仅作区分用，无实际意义；

步骤3.3：根据BiLSTM计算结果，使用注意力机制，计算输入文本以及论元的注意力得分，更新向量权重，具体计算公式如下：

首先计算文本向量注意力得分矩阵：

其中，x_score是文本向量注意力得分矩阵，上标仅作区分用途；

其中，

和

分别表示x'¹和x'²的向量注意力权重，下标表示当前向量在集合中的位置，上标无实际意义，仅作区分；

更新两个事件的文本向量：

同理，对事件论元向量进行注意力得分计算，更新论元向量，计算步骤如下：

其中，a_score是论元注意力得分矩阵，

和

是h¹和h²的论元向量注意力权重，上标₁和₂用来区分事件1和事件2，*仅用于区分；

步骤3.4：计算元事件和代表事件的文本向量距离和论元向量距离特征，判断两个事件是否从属同一事件类型，具体计算步骤如下：

f_a＝W₁[x^*1；x^*2；x^*1-x^*2]+b₁ (29)

f_s＝W₂[h^*1；h^*2；h^*1-h^*2]+b₂ (30)

P＝soft max(W₃[f_a；f_s]+b₃) (31)

其中，f_a和f_s分别代表论元向量距离特征和文本向量距离特征，W₁、b₁、W₂、b₂、W₃、b₃是可训练参数，P是两个事件属于同一类事件的概率，下标1和2和3仅用来区分，a和s分别表示论元层面和文本层面，上标1和2用来区分事件1和事件2，*仅用于区分。

6.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤4，训练事件分类模型基于事件抽取标注数据实现，首先将事件抽取标注数据中每一个样例按照句子进行切分，同时将其标注的事件类型以及事件论元和事件角色标签划分到各自所在的句子中，经过这一步，原事件标注样例按照句子切分成若干子事件标注样例；其次，遍历所有子事件，对于每一个子事件，选择原属于同一事件的其他子事件一起作为正例样本；随机选择不同于当前事件的任意其他事件，并从中随机选择一个子事件一起作为负例样本，按照上述采样方式，即得到事件分类模型的训练数据，用于训练事件分类模型，以预测事件对是否属于同一类别。

7.根据权利要求1所述的面向网络安全领域的事件抽取、分类和融合方法，其特征在于，步骤4，依据事件分类结果，采用事件链的方式，通过计算事件链上代表事件投票和相似度得分将元事件融入事件链中，具体方法为：

首先，将元事件与每一条事件链上选择的代表事件进行分类，投票计算元事件属于某一条事件链的得分：

其中，K表示事件链上代表事件的数量，f_classify表示事件分类器，e^*表示元事件，e_i表示事件链上的代表事件，上标*作区分用途，下表i表示代表事件在事件链上的序号，下同；

然后，计算当前元事件与代表事件的文本相似度得分：

其中，f_sim表示余弦相似度计算方法；

接着，计算元事件与事件链的最终得分：

score＝αsim+(1-α)vote (34)

其中，α是调整文本相似度得分和投票得分权重的比例系数；

最后，根据元事件与各条事件链的得分，选择得分最高的一条事件链，若得分超过给定阈值，则将该元事件融入目标事件链中，并更新事件链代表事件；若得分低于阈值，则将该元事件创建为一条新事件链。

8.一种面向网络安全领域的事件抽取、分类和融合系统，其特征在于，基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于权利要求1-7任一项所述的面向网络安全领域的事件抽取、分类和融合方法，实现面向网络安全领域的事件抽取、分类和融合。