CN115080756B

CN115080756B - 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

Info

Publication number: CN115080756B
Application number: CN202210259684.1A
Authority: CN
Inventors: 李树栋; 黄倩岚; 吴晓波; 韩伟红; 方滨兴; 田志宏; 顾钊铨
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2023-05-23
Anticipated expiration: 2042-06-09
Also published as: CN115080756A

Abstract

本发明涉及网络安全技术领域，且公开了一种面向威胁情报图谱的攻防行为和时空信息抽取方法，包括以下步骤，S1、使用jieba与Bert模型将语句分词和向量化，S2、探测该句所有的关系，S3、时间戳、IP地址抽取，S4、一体化联合翻译解码方案，S5、将时空数据与三元组进行加权软投票，S6、数据重拼接与输出。该面向威胁情报图谱的攻防行为和时空信息抽取方法，本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型，并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明，在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路。

Description

一种面向威胁情报图谱的攻防行为和时空信息抽取方法

技术领域

本发明涉及网络安全技术领域，具体为一种面向威胁情报图谱的攻防行为和时空信息抽取方法。

背景技术

如今的网络信息技术飞速发展，然而近年来，在高度的信息化的同时也给我们带来了层出不穷的网络安全事件，导致网络威胁情报海量增长。在网络空间安全领域，由于网络安全的本质是攻防对抗，所以，对威胁信息的持续跟踪与分析，已成为增强网络安全防护的一项重要举措。

同时，以威胁情报为主的网络威胁信息通常以网络安全文本的形式披露，包括各类网络安全社区发布的博客、白皮书；软件厂商发布的安全公告等。由于机器并不能很好的理解这些非结构化的数据中的大量有用信息，为了更好地利用这些信息，从文本形式的威胁情报中识别、提取诸如新型漏洞信息、漏洞利用方式、网络攻击工具以及攻防模式等关键威胁信息，并且进行关联计算已经成为了网络安全领域的研究热点。为此，利用信息抽取技术，从网络安全文本中自动地抽取安全相关的实体、概念以及关系，将非结构化的数据转换成易于共享和集成的结构化表达，形成网络安全链接数据，并构建网络安全知识图谱，赋予机器认知智能以实现网络安全文本的挖掘与智能化分析，将在网络安全主动防御体系的构建中发挥重要作用。

信息抽取，又名命名实体识别及其关系抽取，目前，通用领域的信息抽取技术和标注体系发展已经相对成熟，然而以威胁情报为主的网络威胁信息的抽取和传统通用的信息抽取有着很大的不同，主要体现在数据标记和抽取方法两个方面，在数据方面，威胁情报为主的网络威胁信息有着更强的领域性和专业性,并且实体和关系种类与通用类型的实体和关系类别也有较大的区别，需要根据使用场景单独设计，在方法方面,以威胁情报为主的网络威胁信息对抽取出的实体关系三元组十分需要时间和空间等数据，然而，在通用领域却没有十分重视三元组的时间和空间数据，因此，面向网络安全领域的实体和关系抽取方法无法照搬现有通用领域的信息抽取框架，需要依据具体场景具体定制，现有于网络空间安全威胁情报的攻防信息的抽取策略与技术几乎为空白，更是十分缺乏其实体关系的定义，并且大量的现有抽取技术与方法都极少考虑将时空信息与抽取的攻防事件信息进行紧密联系，而是将其分开进行实体关系的抽取。

发明内容

本发明的目的在于提供一种面向威胁情报图谱的攻防行为和时空信息抽取方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种面向威胁情报图谱的攻防行为和时空信息抽取方法，包括以下步骤：

S1、语句分词并且向量化

对于输入模型的文本数据，首先使用jieba分词工具将文本数据进行分词，然后将分好词的数据输入到预训练语言Bert模型中，通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值。

S2、关系探测

将已向量化好的语句输入一个全连接层，将语句与关系库中存在的所有关系进行联合预测

并且自定义阈值，当

的值大于自定义的阈值时，将该关系加入到该句子的预测关系库Ω中，直至遍历完所有关系，得到该句的关系库λ＝{relation₁，relation₂，......，relation₃}，

概率的具体计算方式如下：

其中σ是sigmoid函数，W_relation、b_relation分别是可训练参数，W_relation的第一个维度是1，第二个维度为Bert向量的维度。

损失函数为交叉熵损失函数，公式如下：

其中n是输入句子的长度，y_i∈{1，0}，表示关系的真实标签。

S3、时间戳、IP地址抽取

提取出输入语句中所有的时间戳和IP地址，在这一部分我们采用的方法是规则匹配方法，对于时间戳，主要参考了RFC3161协议对时间戳格式的规定，按照此规定格式抽取，形成该句的时间戳库；IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至255之间，根据此规则我们可以提取出句子中的所有IP地址，形成该句的IP地址库。

S4、翻译解码方案

基于翻译机制的解码模式阶段，我们为每一个关系使用了两个多头标注框架,一个用来标注头实体，一个用来标注尾实体，我们是先标注头实体Subject，然后再根据Subject寻找Object，并且采取我们自定义阈值，当标注计算值p大于阈值时，即为标记成功，其中Subject的标注公式如下所示：

Object的标注公式如下所示：

其中W_subject、b_subject、W_object、b_object分别是可训练参数。

S5、时空数据与三元组进行加权软投票

使用XGBoost作为基础模型，将所有时空数据与已解码的三元组分别与时间戳库空和IP地址库(统称时空信息)中的数值进行拼接，再分别单独输入到基础模型中训练，然后反过来使用训练好的模型去预测训练集样本，得到每个特征对应的原始预测概率，其次，将训练集数据按照不同的时空信息进行分组，根据每个特征在每组样本的预测结果和真实三元组与时空的拼接来计算logloss，并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值。

得到上述权重后，将每个模型的预测概率乘上对应权重然后相加，得到新的预测概率，对于每一个拼接值，将相加后概率值最大的类确定为样本拼接(即投票结果)，然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果，从而完成软投票过程。

S6、数据重拼接与输出

将上一步输出的结果先进行简单拼接的数据进行拆分，将与时空数据拼接后非最大概率的三元组直接进行输出，对于预测概率最大的三元组，在其关系用“：”对时空数据进行拼接，例如：(S2，relation1，O2)变成(S2，relation1:时间戳，O2)或(S2，relation1:IP地址，O2)或(S2，relation1:时间戳+IP地址，O2)，然后将其进行输出。

优选的，所述步骤S1前需要进行实体和关系的类别表述。

优选的，所述实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。

优选的，所述漏洞为“名称、编号(IDS)、危险等级、漏洞披露时间、发现方”，所述攻击者为“组织、人”，所述受害者为“组织、人、设备、网站、产品”，所述攻击为“攻击工具、攻击模式(钓鱼攻击、勒索攻击)”，所述防御为“补丁、技术措施、政策措施、操作防范”，所述时空信息为“攻击时间戳、IP地址”，所述后果为“损失金额、受损设备、受害设备数量”，所述软件和恶意软件为“软件名称”。

实体分类及其关系种类的定义模块，该模块首先根据数据和工程需求，针对实体和关系类别分别进行了定义，具体地，实体和关系的类别表述如下表：

实体类别

实体类别(续)

威胁情报攻防知识实体标格式注示例

威胁情报攻防知识实体标格式注示例(续)

威胁情报攻防知识实体标格式注示例(续)

表3关系类别

与现有技术相比，本发明提供了一种面向威胁情报图谱的攻防行为和时空信息抽取方法，具备以下有益效果：

1、该面向威胁情报图谱的攻防行为和时空信息抽取方法，本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型，并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明，在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路，本发明在使用主流的XGBoost算法的基础上，进一步应用了加权软投票和模型集成等策略，为时空信息的分类预测提供更精准的参考数值。

2、该面向威胁情报图谱的攻防行为和时空信息抽取方法，充分考虑了所抽取的实体中可能存在重叠三元组的问题，所以使用了传统的多头标注进行数据标注，并且本模型解决了在传统抽取问题中遍历所有关系的分阶段抽取方式存在的遍历耗时问题和暴露偏差问题。

3、该面向威胁情报图谱的攻防行为和时空信息抽取方法，针对因为在攻防数据中时空数据稀疏，无法将其于其余数据进行三元组联合解码，并且若直接将三元组扩充为五元组，也会存在大量的空缺值的这两个问题提供了一个解决方案。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明框架流程示意图；

图2为本发明联合抽取模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1-2，本发明提供一种技术方案：一种面向威胁情报图谱的攻防行为和时空信息抽取方法，包括以下步骤：

S1、语句分词并且向量化

S2、关系探测

并且自定义阈值，当

概率的具体计算方式如下：

其中σ是sigmoid函数，W_relation、b_relation别是可训练参数，W_relation的第一个维度是1，第二个维度为Bert向量的维度。

损失函数为交叉熵损失函数，公式如下：

S3、时间戳、IP地址抽取

S4、翻译解码方案

Object的标注公式如下所示：

其中W_subject、b_subject、W_object、b_object分别是可训练参数；

S5、时空数据与三元组进行加权软投票

S6、数据重拼接与输出

步骤S1前需要进行实体和关系的类别表述。

实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。

漏洞为“名称、编号(IDS)、危险等级、漏洞披露时间、发现方”，攻击者为“组织、人”，受害者为“组织、人、设备、网站、产品”，攻击为“攻击工具、攻击模式(钓鱼攻击、勒索攻击)”，防御为“补丁、技术措施、政策措施、操作防范”，时空信息为“攻击时间戳、IP地址”，后果为“损失金额、受损设备、受害设备数量”，软件和恶意软件为“软件名称”。

1-1实体类别

表1-2实体类别(续)

表2-1威胁情报攻防知识实体标格式注示例

表2-2威胁情报攻防知识实体标格式注示例(续)

表2-3威胁情报攻防知识实体标格式注示例(续)

表3关系类别

本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型，并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明，在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路，充分考虑了所抽取的实体中可能存在重叠三元组的问题，所以使用了传统的多头标注进行数据标注，并且本模型解决了在传统抽取问题中遍历所有关系的分阶段抽取方式存在的遍历耗时问题和暴露偏差问题，针对因为在攻防数据中时空数据稀疏，无法将其于其余数据进行三元组联合解码，并且若直接将三元组扩充为五元组，也会存在大量的空缺值的这两个问题提供了一个解决方案。

在实际操作过程中，当此装置使用时，该方法使用的标注体系为BIO，首先定义了实体分类及其关系种类，并且给出实体和关系的标注格式，然后将数据通过Bert模型将威胁情报文本信息转变成机器可理解的获得了上下文语义的词向量特征，接着预测该句子中可能存在的所有关系，并在此基础上我们遍历所有预测出的关系，并且采用多头标注对每一个关系中存在的头尾实体Token Pair进行标注，最后采用联合解码的方式解码出一个三元组信息，同时将该句中的时空信息进行提取，然后使用加权软投票与抽取出的三元组信息进行投票分类，然后将时空信息扩充至该三元组中的关系当中，以此构建一个基于攻防行为的威胁情报的信息抽取模型，该模型既能解决重叠三元组问题，同时也能有效利用其时空信息的。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于，包括以下步骤：

S1、语句分词并且向量化

对于输入模型的文本数据，首先使用jieba分词工具将文本数据进行分词，然后将分好词的数据输入到预训练语言Bert模型中，通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值；

S2、关系探测

并且自定义阈值，当

概率的具体计算方式如下：

其中σ是sigmoid函数，W_relation、b_relation分别是可训练参数，W_relation的第一个维度是1，第二个维度为Bert向量的维度；

损失函数为交叉熵损失函数，公式如下：

其中n是输入句子的长度，y_i∈{1，0}，表示关系的真实标签；

S3、时间戳、IP地址抽取

提取出输入语句中所有的时间戳和IP地址，在这一部分我们采用的方法是规则匹配方法，对于时间戳，参考了RFC3161协议对时间戳格式的规定，按照此规定格式抽取，形成该句的时间戳库,IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至255之间，根据此规则我们可以提取出句子中的所有IP地址，形成该句的IP地址库；

S4、翻译解码方案

基于翻译机制的解码模式阶段，我们为每一个关系使用了两个多头标注框架，一个用来标注头实体，一个用来标注尾实体，我们是先标注头实体Subject，然后再根据Subject寻找Object，并且采取我们自定义阈值，当标注计算值p大于阈值时，即为标记成功，其中Subject的标注公式如下所示：

Object的标注公式如下所示：

其中W_subject、b_subject、W_object、b_object分别是可训练参数；

S5、时空数据与三元组进行加权软投票

使用XGBoost作为基础模型，将所有时空数据与已解码的三元组分别与时间戳库空和IP地址库中的数值进行拼接，再分别单独输入到基础模型中训练，然后反过来使用训练好的模型去预测训练集样本，得到每个特征对应的原始预测概率，其次，将训练集数据按照不同的时空信息进行分组，根据每个特征在每组样本的预测结果和真实三元组与时空的拼接来计算logloss，并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值；

得到上述权重后，将每个模型的预测概率乘上对应权重然后相加，得到新的预测概率，对于每一个拼接值，将相加后概率值最大的类确定为样本拼接，然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果，从而完成软投票过程；

S6、数据重拼接与输出

将上一步输出的结果先进行简单拼接的数据进行拆分，将与时空数据拼接后非最大概率的三元组直接进行输出，对于预测概率最大的三元组，在其关系用“：”对时空数据进行拼接，然后将其进行输出。

2.根据权利要求1所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述步骤S1前需要进行实体和关系的类别表述。

3.根据权利要求2所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。

4.根据权利要求3所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述漏洞为“名称、编号、危险等级、漏洞披露时间、发现方”，所述攻击者为“组织、人”，所述受害者为“组织、人、设备、网站、产品”，所述攻击为“攻击工具、攻击模式”，所述防御为“补丁、技术措施、政策措施、操作防范”，所述时空信息为“攻击时间戳、IP地址”，所述后果为“损失金额、受损设备、受害设备数量”，所述软件和恶意软件为“软件名称”。