CN114065767B

CN114065767B - 一种威胁情报的分类及演化关系分析方法

Info

Publication number: CN114065767B
Application number: CN202111431139.8A
Authority: CN
Inventors: 李博; 刘旭东; 王谷雨; 赵军; 葛彬彬
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2024-05-14
Anticipated expiration: 2041-11-29
Also published as: CN114065767A

Abstract

本发明通过网络安全领域的方法，实现了一种威胁情报的分类及演化关系分析方法。通过威胁情报的分类技术针对威胁情报的威胁类型进行分类，并通过威胁情报的演化分析技术针对威胁情报间的时序演化关系进行分析；所述威胁情报的分类技术通过信息安全元素提取、信息安全元素关系构建、特征工程、基于图卷积注意力的分类模型四个步骤实现威胁类型的分类；所述威胁情报的演化分析技术通过计算威胁情报间的演化关系强度、构建威胁情报演化关系图两个步骤，计算威胁情报间是否具有时序演化关系。本发明提供的方法使情报反映的信息量更为丰富，便于应用。在信息分析方面能够给出更深层次的分析。

Description

一种威胁情报的分类及演化关系分析方法

技术领域

本发明涉及网络安全技术领域，尤其涉及一种威胁情报的分类及演化关系分析方法。

背景技术

随着互联网和通讯技术的飞速发展，也带来了网络安全的隐患，大部分的安全问题都是通过互联网进行传播扩散。网络攻击的范围已经从个人扩散至交通、工业、能源、金融、航天、医疗等各个领域，严重威胁了国家和社会的信息安全。特别是近年来，随着“互联网+”、“智能制造”等新兴业态的快速发展以及物联网概念的提出与实现，网络与信息化以不可阻挡之势渗透到国家生产和生活的方方面面，财产安全、人身安全乃至国家安全的边界已经远远超越地理空间的限制。

为了更好的应对互联网空间日益恶化的安全形势，许多工业界和学术界开始尝试将威胁情报引入传统网络安全技术中。2014年，全球著名的IT研究与咨询公司高德纳(Gartner)对网络威胁情报做出了如下定义：“威胁情报是关于IT或信息资产所面临的现有或潜在威胁的循证知识，包括情境、机制、指标、推论与可行建议，这些知识可为威胁响应提供决策依据”。简而言之，威胁情报是能够帮助决策者识别安全威胁并做出明智决策的知识。威胁情报中蕴含的高价值信息能够有效帮助决策者应对潜在威胁，提前部署安全防护方案，升级防护手段。

威胁情报的提取、检测和融合一直是近几年来信息安全团体的的主要研究问题，但是安全事件的不断增多，威胁情报提取的相关技术不断成熟，威胁情报的数量也成井喷式爆发，这造成了十分严重的信息过载问题。另外由于不同的人员所需要的威胁情报也是不同的，也造成了非常严重的信息过载问题。若能对威胁情报进行有效的分析，就可以提高发掘威胁情报更多的价值。所以近年来对于如何有效对这些信息进行有效的分类，关联分析，逐步成为了学术界、工业界研究的热点。

从威胁情报的内容可已将威胁情报分为两类，一类是战术威胁情报，战术威胁情报包含文件样本HASH、主机特征以及网络特征，其中主机特征包含Mutex、运行路径、注册表项等，网络特征包含IP、域名、URL、通信协议等。另一类是战略威胁情报，战略威胁情报包括人员、组织以及事件特征，事件特征包含工具集、技术、过程(TTP)。战略威胁情报更具价值，但也相对难以获取。目前主要的研究方向还是主要集中在战术威胁情报。通过对威胁情报的分类，演化关系推导，可以更好的利用这些信息，帮助安全人员构建更加完善的防御系统。

不过最近威胁情报的研究中发现了许多问题，其中比较引人关注的问题便是威胁情报信息过载和威胁情报信息质量低下。信息过载指信息超过了个人或系统所能接受、处理或有效利用的范围。目前许多威胁情报平台所采用的通常是无差别推送，缺少行业、威胁类型、威胁程度等标签。对于着重关心某一类威胁情报的信息安全分析人员并不友好。而信息质量低下主要是指威胁情报反应的信息量过少。未经分析的威胁情报无法反映安全事件的全貌，是信息安全人员

目前网络安全平台主要提供一些简单的战术威胁情报，如域名、IP、文件HASH等等，这些情报“保质期短”，并且反映的信息量贫瘠，难以应用。在信息分析方面，也仅仅只给出简单的关联，缺少更深层次的分析。有效的威胁情报分类并进行个性化推荐可以解决信息过载所导致的问题；对威胁情报进行演化关系分析可以有效的解决威胁情报质量低下的问题。

发明内容

为此，本发明首先提出一种威胁情报的分类及演化关系分析方法，以多个开源威胁情报平台提供的威胁情报作为输入，提取威胁情报本身的文档特征和信息安全元素特征，进而通过威胁情报的分类技术针对威胁情报的威胁类型进行分类，同时通过威胁情报的演化分析技术针对威胁情报间的时序演化关系进行分析，从而得到威胁情报的威胁类型和演化关系图作为输出。

所述威胁情报的分类技术通过信息安全元素提取、信息安全元素关系构建、特征工程、基于图卷积注意力的分类模型四个步骤实现威胁类型的分类；

所述威胁情报的演化分析技术通过计算威胁情报间的演化关系强度、构建威胁情报演化关系图两个步骤，计算威胁情报间是否具有时序演化关系。

所述信息安全元素提取采用基于规则的方法和基于机器学习的方法；

所述基于规则的方法应用于HASH、IP以及DOMAIN格式固定的信息安全元素，通过正则表达式从威胁情报中提取出这些信息安全元素；

所述基于机器学习的方法针对其余信息安全元素，构建Bi-LSTM+CRF模型，模型的输入为句子中每个序列点的向量化表示，其中Bi-LSTM为每一个序列点提供完整的上下文信息，CRF层为每个序列点提供前后的标签信息，模型的输出为每一个序列点对应的信息安全元素类型，将信息安全元素提取看作一个实体识别任务，即从一个句子S＝[w₀，w₁，…，w_i，…，w_n]中识别出所需要信息安全元素。

所述信息安全元素关系构建步骤发掘两种关系，分别为RELATED关系，即两个信息安全元素之间具有某种关联性关系，和EQUAL关系，即两个信息安全元素具有不同的表示方式，但是却指代同一信息的关系，通过先验知识对于EQUAL关系进行标注；

所述EQUAL关系分为以下几种情况：中文与英文、缩写与全称、不同表示方法；

所述RELATED关系根据威胁情报本身的特征分析得到，选用PMI算法对信息安全元素间的RELATED关系进行分析，假设信息安全知识库中的信息安全元素表示为E＝[e₁，e₂，…，e_i，…，e_n]，则信息安全元素e_i和信息安全元素e_j具体计算公式如下：

其中，W为威胁情报的数量，W(e_i，e_j)为信息安全元素e_i和信息安全元素e_j共同出现的威胁情报数量，W(e_i)为信息安全元素e_i出现的威胁情报数量，从而可以得到结论：

基于上面结论，设定相似性阈值δ(δ＞0)，当信息安全元素e_i和信息安全元素e_j的PMI(e_i，e_j)＞δ时，认为两个元素具有RELATED关系。

所述特征工程步骤构造威胁情报-信息安全元素图描述威胁情报本身所具有的语义特征和威胁情报以及信息安全元素之间的联系特征，图中的节点和边定义为：

节点集：威胁情报节点为T＝{t₁，…，t_n}，其中n为全部威胁情报的数量；信息安全元素节点为E＝{e₁，…，e_n}，，其中n为数据集中包含的全部信息元素的数量；通过使用LDA方法提取威胁情报中的主题词，主题单词节点为W＝{w₁，…，w_n}其中n为数据集中包含的全部单词数量；图中的全部节点V＝T∪E∪W；

边集：ξ为各节点之间关系的集合。‘T-E’表示当信息安全元素e_i出现在威胁情报d_i中时，便认为这两个节点间有边，‘E-E’表示如果信息安全元素e_i和信息安全元素e_j之间具有EQUAL关系或者RELATED关系，则认为这两个节点之间有边，‘T-W’表示w_i出现在威胁情报d_i中，便将二者相连，图中的全部边集ξ＝{′T-E′∪′T-W′∪′E-E′}。

邻接矩阵：对于邻接矩阵的构造主要从两个方面进行，首先，威胁情报节点-信息安全元素节点以及威胁情报元素节点-文本单词节点，使用TF-IDF进行计算，词频TF指的是某一个给定的词语在该文件中出现的次数，逆向文件频率IDF指包含词条的文档数量，公式如下：

TF-IDF＝TF×IDF

对于信息安全元素之间关系本发明使用上文提到过的PMI进行计算，EQUAL关系则设定为1从而建立一个N×N的邻接矩阵Adj，其中N＝m+n，邻接矩阵的权重Adj[i，j]为：

用Bert模型进行特征提取威胁情报的语义特征。

所述基于图卷积注意力的分类模型结构具体为：

图卷积层：图节点包含两种特征空间，采用基于注意力的图卷积模型，利用不同类型节点的变换矩阵将不同特征空间的向量投影到相同的隐空间中，具体的如下公式：

其中，H^(l+1)表示第l+1层的输出，H^(l)表示第l层的输入，分别对T，E，W三种节点进行卷积计算，|V|为所有词节点的数量，|V_c|为c类别节点的数量，变换矩阵

通过多层图卷积计算，将主题词节点以及安全元素节点的信息传递给对应的威胁情报节点；

在图卷积层上增加两层注意力层，分别是集合级注意力和节点级注意力；

集合级注意力：具体的，对于给定的威胁情报节点t，h_t为该节点的词嵌入表示，通过该级别注意力，学习相邻的文本单词集以及安全元素集对该节点的注意力权重，计算公式如下：

a_T-E表示情报节点与元素节点的注意力权重，a_T-W表示情报节点与文本单词节点之间的注意力权重，其中是与该威胁情报节点相连的所有元素节点的集合，/>是与该威胁情报元素节点相连的所有文本单词节点的结合，然后通过softmax将两个注意力分数归一化：

节点级注意力：对于给定的威胁情报节点t，h_t为该节点的词嵌入表示，其相邻的所有安全元素节点词嵌入为h_e，文本单词节点/>词嵌入为h_w，则与相邻节点之间的注意力分数为：

其中a_t-e为威胁情报节点与其相邻安全元素节点之间的注意力分数，a_t-w为威胁情报节点与其相邻的文本单词节点之间的注意力分数，然后通过softmax将相邻节点的所有注意力分数归一化：

A_ij＝softmax(Wa_i+b)

最后利用得到的注意力分数，更新原本威胁情报节点的邻接矩阵，得到最终的图卷积注意力公式：

分类层：威胁情报节点通过图卷积层和注意力层的计算，学习相邻节点的特征，最后得到了威胁情报节点新的表征h_i，利用威胁情报节点的向量表示进行分类计算，通过softmax函数进行分类，训练采用交叉熵损失函数，具体如下：

将最后一个注意力层的输出通过线性变化后进行softmax计算来进行分类：

p＝softmax(W_ph_i+b_p)

采用常规的带有L2正则化项系数的交叉熵损失函数进行模型训练，并定义损失函数：

其中C是类别，λ是L2正则化参数，而θ是线性层中的一组权重矩阵。

所述计算威胁情报间的演化关系强度方法为：选择利用已经训练好的Bert模型对威胁情报进行向量化，最后通过余弦相似度得到语义向量的相似度cos_sim(T₁，T₂)；

具体地，定义两个威胁情报间基于信息安全元素路径的相似度，用EPIS表示。定义cout(CTI₁，CTI₂)表示威胁情报CTI₁和威胁情报CTI₂之间通过信息安全元素经过相连接的路径数，一条合理路径为两个威胁情报中间通过小于等于θ个信息安全元素相连，则两个事件间的EPIS可由以下公式计算得到：

分子表示两个威胁情报CTI₁和威胁情报CTI₂之间可达的路径数；

语义相似度的计算公式如下。

content_sim(CTI₁，CTI₂)＝EPIS(CTI₁，CTI₂)×cos_sim(T₁，T₂)

进而通过综合威胁情报威胁情报语义相似度与时间距离便可得出威胁情报演化关系强度；

选择威胁情报公布的时间作为威胁情报的时间，选取威胁情报的报道时间作为威胁情报的时间指标，给定两个威胁情报CTI₁和CTI₂，时间特征为t₁和t₂，则两个威胁情报间的时间距离为t₂-t₁(t₂＞t₁)，二者的时间近似度选用指数衰减函数进行计算：

其中，t₂＞t₁，α为时间衰减系数，α≥0，

结合语义相似度和时间近似度，威胁情报CTI₁和威胁情报CTI₂的演化关系强度可以由公式得出：

w_eval(CTI₁，CTI₂)＝content_sim(CTI₁，CTI₂)×time_sim(CTI₁，CTI₂)。

所述构建威胁情报演化关系图具体为：通过威胁情报演化关系的合理性以及连贯性对威胁情报的演化关系图进行剪枝和子图划分，威胁情报连贯性的计算公式：

continuity(V_i，v_i)＝cos_sim(fea(V_i)，fea(v_i))

其中，fea(v_i)为节点v_i的特征向量，fea(V_i)为节点v_i所在演化路径上所有前置节点的特征向量平均值，如果continuity(V_i，v_i)＜p，则证明该演化路径连贯性不满足要求，应当对威胁情报演化关系进行剪枝或分割；

进而对所采集到的威胁情报进行语义相似度的计算，通过考虑威胁情报间的时间衰减得出威胁情报间的演化关系强度，如果两个威胁情报间的演化关系强度大于阈值δ，δ＞0，则认为两威胁情报间存在演化关系边，于是便得到了初步的演化关系图，通过演化关系的合理性以及演化关系的连贯性对演化关系图进行剪枝和子图划分，形成威胁情报演化关系图的构造过程。

本发明所要实现的技术效果在于：

使情报反映的信息量更为丰富，便于应用。在信息分析方面能够给出更深层次的分析。并实现有效的威胁情报分类并进行个性化推荐，以解决信息过载所导致的问题；对威胁情报进行演化关系分析以解决威胁情报质量低下的问题。

附图说明

图1威胁情报元素正则表达式；

图2威胁情报元素关系知识库；

图3带权邻接矩阵；

图4图注意力模型结构；

图5威胁情报演化示例；

图6威胁情报演化关系流程图；

图7实验数据分布；

图8演化关系分析结果示例；

图9方案整体架构

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种威胁情报的分类及演化关系分析方法。本技术主要包括两个方面，第一个方面是威胁情报的分类技术，第二个方面是威胁情报的演化分析方法。威胁情报的分类方法主要针对威胁情报的威胁类型进行分类，威胁情报的演化分析主要针对威胁情报间的时序演化关系进行分析。

威胁情报分类技术：

相比于一般的语料信息，威胁情报中具有许多信息安全元素，如恶意软件、攻击手段等等，这些信息安全元素对于威胁情报的分类有着重要的影响。为了提高威胁情报的分类效果，本发明对威胁情报中的信息安全元素作为威胁情报的特征加以利用，并根据这一特征提出了基于图卷积注意力的威胁情报分类技术。该任务分为以下几个步骤进行。

步骤一：信息安全元素提取

在信息安全领域，威胁情报指通过各种来源获取环境所面临威胁的相关知识。这些相关知识可以为决策者响应威胁提供决策依据。信息安全元素则是这些知识中信息安全领域具有强关联的实体。下表列出本发明所分析的信息安全元素。

表1威胁情报元素

为了提取威胁情报中的信息安全元素，本发明针对这些信息安全元素的特点提出了两种威胁情报提取方法。分别是基于规则和基于机器学习的方法，下面对两种方法进行介绍。

基于规则的方法主要应用于HASH、IP以及DOMAIN这些格式固定的信息安全元素，通过正则表达式就可以从威胁情报中提取出这些信息安全元素，使用的正则表达式如下表所示。

表2威胁情报元素正则表达式

基于机器学习的方法主要针对其余信息安全元素，这些信息安全元素只能通过语义进行判别，无法通过简单规则进行辨别，所以本发明通过训练模型进行信息安全元素的提取。信息安全元素提取可以看作是一个实体识别任务，即从一个句子S＝[w₀，w₁，…，w_i，…，w_n]中识别出所需要信息安全元素。为了完成这一任务，本发明构建了Bi-LSTM+CRF模型，模型结构如图1所示。模型的输入为句子中每个序列点的向量化表示，其中Bi-LSTM为每一个序列点提供完整的上下文信息，CRF层为每个序列点提供前后的标签信息，模型的输出为每一个序列点对应的信息安全元素类型。

步骤二：信息安全元素关系构建

通过对威胁情报中的信息安全元素进行提取，本发明成功获取到威胁情报中信息安全元素。不过威胁情报中的信息安全元素往往不是孤立存在的，这些信息安全元素之间往往存在着许多对应关系。于是，本发明通过建立威胁情报元素之间的关系来对信息安全知识库进行补充。本发明主要发掘的关系有两种，分别为RELATED关系和EQUAL关系，下面为这两种关系做出定义。

RELATED关系。指两个信息安全元素之间具有某种关联性关系，例如某机构使用了某种攻击方式或者某些恶意软件多次出现在同一威胁情报之中。

EQUAL关系。指两个信息安全元素具有不同的表示方式，但是却指代同一信息，例如中英文表示或者缩写与全称。

例如：Sacks遭受REvil(也称为Sodinokobi)勒索软件攻击。包含Sacks(机构)、REvil(恶意软件)、Sodinokobi(恶意软件)以及勒索软件(攻击手段)四个元素，其中，Sodinokobi与REvil之间是EQUAL关系，而剩下的元素之间则都具有RELATED关系，具体表示如下图所示。

EQUAL关系无法通过文本本身特征进行分析。所以本发明通过先验知识对于EQUAL关系进行标注。EQUAL关系主要分为以下几种情况：1)中文与英文，由于所采集到情报主要来源复杂多样，所以情报中的同一个元素可能是中文可能为英文。例如Conti勒索软件与康迪勒索软件。2)缩写与全称，由于信息安全元素的特点，很多信息安全元素会具有许多简称会被频繁的提及，例如Qakbot与Qbot，二者均指代Qakbot病毒。3)不同表示方法，因为威胁情报中的信息元素有许多恶意软件，在实际环境中这些恶意软件被发现之初可能被赋予了不同的名称，但是后来被证明是同一种软件，例如上文提到的REvil勒索软件和Sodinokobi勒索软件。

RELATED关系则可以根据威胁情报本身的特征分析出来，为了更好的分析出威胁情报中信息安全元素之间的RELATED关系，本发明选用PMI(Pointwise MutualInformation，点互信息算法)对信息安全元素间的RELATED关系进行分析。PMI是一种常用的词关联度量，假设信息安全知识库中的信息安全元素表示为E＝[e₁，e₂，…，e_i，…，e_n]，则信息安全元素e_i和信息安全元素e_j具体计算公式如下：

其中，W为威胁情报的数量，W(e_i，e_j)为信息安全元素e_i和信息安全元素e_j共同出现的威胁情报数量，W(e_i)为信息安全元素e_i出现的威胁情报数量。从上述公式不难得出以下结论：

基于上述结论，本发明设定相似性阈值δ(δ＞0)，当信息安全元素e_i和信息安全元素e_j的PMI(e_i，e_j)＞δ时，认为两个元素具有RELATED关系。下面给出威胁情报中信息安全元素的关系分析算法的伪代码。

步骤三：特征工程

获取到威胁情报中的信息安全元素和信息安全元素之间的关系，下一步就是对威胁情报进行特征工程。本发明中的特征工程主要针对于两方面。一方面是威胁情报本身所具有的语义特征，另一方面是威胁情报以及信息安全元素之间的联系特征。为了更好的描述这两种特征，本发明构造了威胁情报-信息安全元素图，图中的节点和边定义如下。

节点集：威胁情报节点为T＝{t₁，…，t_n}，其中n为全部威胁情报的数量；信息安全元素节点为E＝{e₁，…，e_n}，，其中n为数据集中包含的全部信息元素的数量；为了增强威胁情报间的关联性，本发明通过使用LDA方法提取威胁情报中的主题词，主题单词节点为W＝{w₁，…，w_n}其中n为数据集中包含的全部单词数量；图中的全部节点V＝T∪E∪W。

边集：ξ为各节点之间关系的集合。‘T-E’表示当信息安全元素e_i出现在威胁情报d_i中时，便认为这两个节点间有边。‘E-E’表示如果信息安全元素e_i和信息安全元素e_j之间具有EQUAL关系或者RELATED关系，则认为这两个节点之间有边。‘T-W’表示w_i出现在威胁情报d_i中，便将二者相连。图中的全部边集ξ＝{′T-E′∪′T-W′∪′E-E′}。

邻接矩阵：对于邻接矩阵的构造主要从两个方面进行，首先，威胁情报节点-信息安全元素节点以及威胁情报元素节点-文本单词节点，使用TF-IDF(term frequency-inverse document frequency)进行计算。其中，词频TF(term frequency)指的是某一个给定的词语在该文件中出现的次数。逆向文件频率IDF(inverse document frequency)指包含词条的文档数量。公式如下：

TF-IDF＝TF×IDF

对于信息安全元素之间关系本发明使用上文提到过的PMI进行计算，EQUAL关系则设定为1。综上，本发明建立了一个N×N的邻接矩阵Adj，其中N＝

m+n。对于邻接矩阵的权重Adj[i，j]可通过以下公式进行计算。最终构造的矩阵如下图所示。

对于威胁情报的语义特征，本发明选用Bert模型进行特征提取。Bert通过在大量通用预料上训练模型，包括维基百科以及新闻等，并在不同的具体任务上微调，在11项自然语言处理人物中都取得了最优效果，因此本发明选择利用已经训练好的Bert模型对威胁情报进行向量化。

步骤四：基于图卷积注意力的分类模型

基于上述工作，本发明针对威胁情报的特点以及构建的有威胁情报和信息安全元素构成的异构图，提出了一种基于注意力机制的图卷积分类模型。其中，图卷积网络可以很好的解释异构图中不同节点间的依赖关系，注意力机制可以有效的分析出相邻节点对某一节点的重要性。下面对具体应用方法进行阐述。

图卷积层：由于节点包含三种类型，分别为威胁情报节点、文本单词节点、安全元素节点。其中文本单词和安全元素节点的有同样的特征空间，所以本发明的图节点包含两种特征空间，无法直接利用常规的图卷积来分类。为了解决节点异构的问题，本发明提出基于注意力的图卷积模型，利用不同类型节点的变换矩阵将不同特征空间的向量投影到相同的隐空间中，具体的如下公式：

其中，H^(l+1)表示第l+1层的输出，H^(l)表示第l层的输入，分别对T，E，W三种节点进行卷积计算，|V|为所有词节点的数量，|V_c|为c类别节点的数量。变换矩阵

通过多层图卷积计算，可以将主题词节点以及安全元素节点的信息传递给对应的威胁情报节点。但是可以预估到，主题词节点和安全元素节点对威胁情报节点的影响肯定是不一样的，同时，不同的主题词、不同的信息安全元素对威胁情报节点的影响肯定也是不一样的。因此为了能更多的捕获不同节点对于威胁情报的重要性，本发明在图卷积层上增加两层注意力层，分别是集合级注意力和节点级注意力。

集合级注意力：为了衡量主题词和信息安全元素对威胁情报分类的影响，本发明分别计算威胁情报节点与文本单词类节点的注意力分数、威胁情报节点与信息安全元素类节点的注意力分数。具体的，对于给定的威胁情报节点t，h_t为该节点的词嵌入表示，通过该级别注意力，学习相邻的文本单词集以及安全元素集对该节点的注意力权重，通过此步骤，可以得到对该条威胁情报分类影响更大的是节点是文本单词类的节点还是安全元素类的节点。计算公式如下：

a_T-E表示情报节点与元素节点的注意力权重，a_T-W表示情报节点与文本单词节点之间的注意力权重，其中是与该威胁情报节点相连的所有元素节点的集合，/>是与该威胁情报元素节点相连的所有文本单词节点的结合。然后通过softmax将两个注意力分数归一化。

节点级注意力：除了粗粒度的计算集合级别的注意力，还要更加细粒度的计算主题词集合以及信息安全元素集合内部不同节点对每条威胁情报分类影响，因此提出了节点级别的细粒度注意力机制，利用该级别注意力机制，学习每个威胁情报与相邻节点之间具体的注意力分数。具体的，对于给定的威胁情报节点t，h_t为该节点的词嵌入表示，其相邻的所有安全元素节点词嵌入为h_e，文本单词节点/>词嵌入为h_w，则与相邻节点之间的注意力分数为：

其中a_t-e为威胁情报节点与其相邻安全元素节点之间的注意力分数，a_t-w为威胁情报节点与其相邻的文本单词节点之间的注意力分数。然后通过softmax将相邻节点的所有注意力分数归一化。

A_ij＝softmax(Wa_i+b)

分类层：威胁情报节点通过图卷积层和注意力层的计算，学习相邻节点的特征，最后得到了威胁情报节点新的表征h_i，我们利用威胁情报节点的向量表示进行分类计算，通过spftmax函数进行分类，训练采用交叉熵损失函数，具体如下：

将最后一个注意力层的输出通过线性变化后进行softmax计算来进行分类。

p＝spftmax(W_ph_i+b_p)

采用常规的带有L2正则化项系数的交叉熵损失函数进行模型训练，并定义了损失函数。

综上所述，威胁情报分类的网络结构如图4所示。

威胁情报演化关系分析技术

威胁情报演化关系是指根据威胁情报自身的语义特征以及时间特征等信息，确定两个威胁情报之间的演化关系的类型及强弱，常见的演化关系类型包括时序、因果、转折等。其中时序是最常见的演化关系类型，也是各种演化关系类型基础。本发明也对威胁情报的时序演化关系提出了一种分析方法。

首先对威胁情报的时序演化关系进行定义，现有威胁情报A和威胁情报B，如果威胁情报A和威胁情报B具有时序演化关系，则应遵循以下条件：

威胁情报A时间上必须先于威胁情报B发生；

威胁情报A与威胁情报B在内容上相关，比如有公共的信息安全元素集合；

威胁情报A与威胁情报B在时间上距离越远，存在演化关系的可能性就越小。

下面给出一个威胁情报的时序演化关系示例。在2017年10月出现了Hermes勒索软件相关的威胁情报，在被发现后相关的安全事件便开始减少，直到2018年7月Hermes勒索软件又开始猖獗，而且还附带了许多新的独特行为，同时，作为Hermes勒索软件的变种也开始活跃在各地。上述例子的演化关系如下图所示。

为了计算威胁情报间是否具有时序演化关系，本发明提出了一种基于信息安全元素距离的威胁情报演化关系强度算法，并且根据演化关系强度构建威胁情报的演化关系图。具体分为以下两个步骤。

步骤一：计算威胁情报间的演化关系强度

威胁情报语义相似度是从内容特征角度衡量事件间的关联程度，具体实现过程依赖于对文本的语义特征的提取与表示。本发明威胁情报的语义特征同上，选择利用已经训练好的Bert模型对威胁情报进行向量化。最后通过余弦相似度得到语义向量的相似度cos_sim(T₁，T₂)。

由于威胁情报中的含有许多信息安全元素，两个威胁情报的相似度可以通过两个威胁情报间的信息安全元素关联路径计算得到。所以为了更好的挖掘这一特点，基于本发明构建的信息安全元素库，本发明定义了两个威胁情报间基于信息安全元素路径的相似度，用EPIS(element paths instances based similarity)表示。定义cout(CTI₁，CTI₂)表示威胁情报CTI₁和威胁情报CTI₂之间通过信息安全元素经过相连接的路径数，一条合理路径为两个威胁情报中间通过小于等于θ个信息安全元素相连，则两个事件间的EPIS可由以下公式计算得到：

上述公式中，分子表示两个威胁情报CTI₁和威胁情报CTI₂之间可达的路径数，如果分子越大，则表明两个威胁情报之间的相关性就越强。但是信息安全元素和威胁情报数量在图中的关联路径数是十分不均衡，所以分母通过计算自相连路径数缓解不均衡的问题。

综上所述，语义相似度的计算公式如下。

content_sim(CTI₁，CTI₂)＝EPIS(CTI₁，CTI₂)×cos_sim(T₁，T₂)

在分析完威胁情报的语义相似度后，威胁情报可以被划分成许多威胁情报簇，对于每个威胁情报簇中的威胁情报中的演化关系，还需要对威胁情报间的时间距离进行计算。通过综合威胁情报威胁情报语义相似度与时间距离便可得出威胁情报演化关系强度。

为了计算时间距离，首先需要统一威胁情报所使用的时间。每条威胁情报的时间有两种可供选择，一种是威胁情报内所提及到的时间，另一种则是威胁情报的公布时间。威胁情报文本内所提及到的时间指威胁情报中的安全事件的发生时间，这些时间能够更加精确的反应威胁情报发生的真实时间，但是一条威胁情报内可能含有大量的时间表达形式，如“近日”，“最近几天”，这种表达形式无法提供有效信息。同时，含有大量威胁情报无法提供时间信息。所以本发明选择威胁情报公布的时间作为威胁情报的时间。

威胁情报的报道时间指威胁情报所发表出来的时间。相对威胁情报的发生时间更加易于获得，同时通常情况下，如果威胁情报的报道时间与威胁情报发生的时间是具有相似的时序性。因此，本发明选取威胁情报的报道时间作为威胁情报的时间指标。

给定两个威胁情报CTI₁和CTI₂，时间特征为t₁和t₂。则两个威胁情报间的时间距离为t₂-t₁(t₂＞t₁)，二者的时间近似度选用指数衰减函数进行计算：

其中，t₂＞t₁，α为时间衰减系数，α≥0。

结合上述说明的语义相似度和时间近似度，威胁情报CTI₁和威胁情报CTI₂的演化关系强度可以由公式得出：

w_eval(CTI₁，CTI₂)＝content_sim(CTI₁，CTI₂)×time_sim(CTI₁，CTI₂)

步骤二：构建威胁情报演化关系图

虽然通过上述算法可以得到威胁情报间的演化关系，但是在构造演化关系图的过程中，并不需要将所有威胁情报间都构造演化关系边，本发明通过威胁情报演化关系的合理性以及连贯性对威胁情报的演化关系图进行剪枝和子图划分，可以是威胁情报演化关系图更加只管可靠。

合理性：威胁情报间的演化关系具有传递性，演化图谱中的某些可由其他演化关系推理得到。基于威胁情报的演化关系这一特点，本发明在演化关系的构建中可以合理的避免演化关系图中生成冗余的演化关系，使生成的威胁情报演化关系图更加简洁。

连贯性：在演化过程中，不应只考虑局部的演化特征，应当更加全面考虑整个过程中的演化特征。通常情况下，随着演化过程的不断推进，后续的威胁情报的内容可能与起始节点的威胁情报的内容相差甚远。这种情况据需要将原有的演化关系进行分割或剪枝处理。本发明为了对威胁情报的连贯性进行分析，提出了威胁情报连贯性的计算公式：

continuity(V_i，v_i)＝cos_sim(fea(V_i)，fea(v_i))

其中，fea(v_i)为节点v_i的特征向量，fea(V_i)为节点v_i所在演化路径上所有前置节点的特征向量平均值。如果continuity(V_i，v_i)＜ρ，则证明该演化路径连贯性不满足要求，应当对威胁情报演化关系进行剪枝或分割。

基于上述性质，本发明提出了威胁情报演化关系图的构造过程，如图6所示。首先本发明对所采集到的威胁情报进行语义相似度的计算，通过考虑威胁情报间的时间衰减得出威胁情报间的演化关系强度，如果两个威胁情报间的演化关系强度大于阈值δ(δ＞0)，则认为两威胁情报间存在演化关系边，于是便得到了初步的演化关系图。然而，初步的演化关系图中会存在大量的冗余边，为了让演化关系图更加直观，本发明通过演化关系的合理性以及演化关系的连贯性对演化关系图进行剪枝和子图划分。

本发明采用一台联想笔记本(Thinkpad T460)进行实验，系统类型为Windows 64位操作系统，采用英特尔酷睿i5处理器，内存大小为4GB。具体的硬件配置如表5所示。此外，本发明使用Python作为开发语言，利用Keras框架进行深度学习实验，采用Anaconda对python包进行管理，使用Spyder作为集成开发环境。具体的软件配置如表5所示。

表3实验硬件配置

表4实验软件配置

本发明使用的数据来源于从多个知名的威胁情报平台手机威胁情报。本发明参考《工业控制系统安全扩展要求》，从中获取了93种威胁情报的标签，并且对所采集到的数据进行相应的标记。由于所采集到的样本并不均衡，所以在实验过程中选取其中主要出现的7个类别进行试验，数据的具体信息如图7所示。

1.威胁情报分类技术实验结果

本实验使用多种不同威胁情报分类方法进行对比，包括FastText、TextGCN、RCNN、DCNN、SelfAttention以及Bert。如下表所示。

表5威胁情报分类对比实验结果

对比方法	Precision	Recall	F1
				FastText	0.7569	0.7549	0.7552
TextGCN	0.7667	0.7617	0.7625
				RCNN	0.7659	0.7634	0.7626
DCNN	0.7534	0.7515	0.7519
				SelfAttention	0.7574	0.7541	0.7531
Bert	0.7296	0.7269	0.7276
				Ours	0.8081	0.8031	0.8044

可以发现，本发明中的方法相比于传统方法效果有不错的提升。

2.威胁情报演化关系分析技术实验结果

威胁情报演化分析中对效果影响最大的一步就是对威胁情报相似性的分析。所以本发明对比了一些常见的威胁情报相似性方法进行对比，包括Weighted BOW、TF-IDF、LDA、DOC2VEC。结果如下表所示。

可以发现，相比于传统方法，本发明的方法可以更好的判别威胁情报间的相似性。同时通过威胁情报演化分析，获取到威胁情报的演化分析结果也通过演化关系图进行展示，具体如图8所示。

Claims

1.一种威胁情报的分类及演化关系分析方法，其特征在于：以多个开源威胁情报平台提供的威胁情报作为输入，提取威胁情报本身的文档特征和信息安全元素特征，进而通过威胁情报的分类技术针对威胁情报的威胁类型进行分类，同时通过威胁情报的演化分析技术针对威胁情报间的时序演化关系进行分析，从而得到威胁情报的威胁类型和演化关系图作为输出；

所述威胁情报的演化分析技术通过计算威胁情报间的演化关系强度、构建威胁情报演化关系图两个步骤，计算威胁情报间是否具有时序演化关系；

所述基于机器学习的方法针对其余信息安全元素，构建Bi-LSTM+CRF模型，输入为句子中每个序列点的向量化表示，其中Bi-LSTM为每一个序列点提供完整的上下文信息，CRF层为每个序列点提供前后的标签信息，模型的输出为每一个序列点对应的信息安全元素类型，将信息安全元素提取看作一个实体识别任务，即从一个句子S＝[w₀，w₁，…，w_i，…，w_n]中识别出所需要信息安全元素；

所述RELATED关系根据威胁情报本身的特征分析得到，选用PMI算法对信息安全元素间的RELATED关系进行分析，假设信息安全知识库中的信息安全元素表示为E＝[e₁，e₂，...，e_i，...，e_n]，则信息安全元素e_i和信息安全元素e_j具体计算公式如下：

其中，W为威胁情报的数量，W(e_i，e_j)为信息安全元素e_i和信息安全元素e_j共同出现的威胁情报数量，W(e_i)为信息安全元素e_i出现的威胁情报数量，从而得到结论：

基于上面结论，设定相似性阈值δ(δ＞0)，当信息安全元素e_i和信息安全元素e_j的PMI(e_i，e_j)＞δ时，认为两个元素具有RELATED关系；

节点集：威胁情报节点为T＝{t₁，...，t_n}，其中n为全部威胁情报的数量；信息安全元素节点为E＝{e₁，...，e_n}，，其中n为数据集中包含的全部信息元素的数量；通过使用LDA方法提取威胁情报中的主题词，主题单词节点为W＝{w₁，...，w_n}其中n为数据集中包含的全部单词数量；图中的全部节点V＝T∪E∪W；

边集：ξ为各节点之间关系的集合，‘T-E’表示当信息安全元素e_i出现在威胁情报d_i中时，便认为这两个节点间有边，‘E-E’表示如果信息安全元素e_i和信息安全元素e_j之间具有EQUAL关系或者RELATED关系，则认为这两个节点之间有边，‘T-W’表示w_i出现在威胁情报d_i中，便将二者相连，图中的全部边集ξ＝{′T-E′∪′T-W′∪′E-E′}；

邻接矩阵：对于邻接矩阵的构造主要从两个方面进行，首先，威胁情报节点-信息安全元素节点以及威胁情报元素节点-文本单词节点，使用TF-IDF进行计算，词频TF指的是某一个给定的词语在该文档中出现的次数，逆向文件频率IDF指包含词条的文档数量，公式如下：

TF-IDF＝TF×IDF

对于信息安全元素之间关系使用上文提到过的PMI进行计算，EQUAL关系则设定为1从而建立一个N×N的邻接矩阵Adj，其中N＝m+n，邻接矩阵的权重Adj[i，j]为：

用Bert模型进行特征提取威胁情报的语义特征；

所述基于图卷积注意力的分类模型结构具体为：

集合级注意力：对于给定的威胁情报节点t，h_t为该节点的词嵌入表示，通过该集合级注意力，学习相邻的文本单词集以及安全元素集对该节点的注意力权重，计算公式如下：

A_ij＝softmax(Wa_i+b)

p＝softmax(W_ph_i+b_p)

2.如权利要求1所述的一种威胁情报的分类及演化关系分析方法，其特征在于：所述计算威胁情报间的演化关系强度方法为：选择利用已经训练好的Bert模型对威胁情报进行向量化，最后通过余弦相似度得到语义向量的相似度cos_sim(T₁，T₂)；

定义两个威胁情报间基于信息安全元素路径的相似度，用EPIS表示，定义cout(CTI₁，CTI₂)表示威胁情报CTI₁和威胁情报CTI₂之间通过信息安全元素经过相连接的路径数，一条合理路径为两个威胁情报中间通过小于等于θ个信息安全元素相连，则两个事件间的EPIS由以下公式计算得到：

语义相似度的计算公式如下：

content_sim(CTI₁，CTI₂)＝EPIS(CTI₁，CTI₂)×cos_sim(T₁，T₂)

进而通过综合威胁情报威胁情报语义相似度与时间距离得出威胁情报演化关系强度；

其中，t₂＞t₁，α为时间衰减系数，α≥0，

结合语义相似度和时间近似度，威胁情报CTI₁和威胁情报CTI₂的演化关系强度由公式得出：

3.如权利要求2所述的一种威胁情报的分类及演化关系分析方法，其特征在于：所述构建威胁情报演化关系图具体为：通过威胁情报演化关系的合理性以及连贯性对威胁情报的演化关系图进行剪枝和子图划分，威胁情报连贯性的计算公式：

continuity(V_i，v_i)＝cos_sim(fea(V_i)，fea(v_i))

其中，fea(v_i)为节点v_i的特征向量，fea(V_i)为节点v_i所在演化路径上所有前置节点的特征向量平均值，如果continuity(V_i，v_i)<ρ，则证明该演化路径连贯性不满足要求，应当对威胁情报演化关系进行剪枝或分割；