CN113591465B

CN113591465B - 基于关联增强的网络威胁情报多维IoC实体识别方法及装置

Info

Publication number: CN113591465B
Application number: CN202110870876.1A
Authority: CN
Inventors: 王俊峰; 唐宾徽; 葛文翰; 于忠坤; 陈柏翰; 余坚
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2023-05-09
Anticipated expiration: 2041-07-30
Also published as: CN113591465A

Abstract

本发明公开了一种基于关联增强的网络威胁情报多维IoC实体识别方法及装置，该方法针对网络威胁情报文本数据的多维复杂性，采用半监督实体分解和关系统一描述的方法，形成多维IoC实体统一描述语言和抽象标准；并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取，验证、评估和优化的过程。本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰，将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中，增加识别结果的可靠性和稳定性，提高识别结果的可解释性和可信性。

Description

基于关联增强的网络威胁情报多维IoC实体识别方法及装置

技术领域

本发明涉及网络空间安全领域，设计一种基于关联增强的网络威胁情报多维IoC(Indicator of Compromise威胁指标)实体识别方法，通过深度学习算法提高威胁情报中的IoC实体提取的可靠性和稳定性，解决传统方法从大量的威胁情报文本中自动化提取威胁情报的IoC实体因信息干扰而导致准确性不够的问题。

背景技术

当前随着网络安全形势的日益严峻，网络威胁情报在整个网络安全防护过程中的价值愈发突显，攻击行为模式作为攻击方的一种高级特征，从威胁情报中识别攻击方的攻击行为模式，成为网络空间安全领域主动防御的重要内容。依据多维IoC的关联性，采用关联增强的方式自动识别多维IoC信息是对攻击行为模式关联分析的前提。但是，IoC信息抽象层次高，并且通常存在于多源异质的网络威胁报告中，这导致传统的人工分析方法以及基于特征工程的机器学习方法难以快速有效地从网络威胁情报中获取IoC信息。区别于传统的机器学习，深度学习通过多层处理，逐渐将初始的“低层”特征表示转化为“高层”特征表示，用“简单模型”即可完成复杂的识别与分类等任务。在非结构化威胁情报文本数据处理任务中，深度学习能够从异质的文本数据中发现其内在联系，提取隐含特征，用于下游的安全实体识别、文本分类等任务。因此，使用深度学习算法对威胁情报进行IoC实体识别是目前主流的解决方法。但是，威胁情报作为多维IoC信息的主要数据来源、多样化的数据格式给多维IoC信息识别带来挑战。本发明公开了一种基于关联增强的网络威胁情报多维IoC识别方法。该方法针对文本类型的网络威胁情报的多维复杂性，采用半监督实体分解和关系统一描述的方法，形成多维IoC实体统一描述语言和抽象标准；并采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取，验证、评估和优化的过程。

发明内容

针对上述问题，本发明的目的在于提供一种基于关联增强的网络威胁情报多维IoC识别方法及装置，通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰，将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中，增加了结果的可靠性和稳定性，并提高了数据分析的可解释性和可信性。本发明采用的技术方案是：一种基于关联增强的网络威胁情报多维IoC识别方法，主要包含多维IoC实体及关系定义，多维IoC实体识别和实体识别优化反馈三个模块。技术方案如下：

一种基于关联增强的网络威胁情报多维IoC实体识别方法，包括以下步骤：

步骤1：通过实体及实体关系定义模块对多维IoC实体及实体关系进行定义

通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势，并使用以Ward连接为主的凝聚层次进行凝聚迭代，聚类形成实体关联关系的统计学关键路径，再采用统计假设检验的方法去除假阳性超路径，并输出确定截断值的有效实体关系；

步骤2：通过实体识别模块对多维IoC实体进行识别

通过网络安全词向量编码情报文本，送入以RNN+CNN编码网络编码原始文本语义向量；通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征，形成优化实体；并根据这一过程的反馈优化原有超路径结构权重基础数据；

步骤3：通过优化反馈模块进行实体识别优化反馈

通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史，并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果；

根据实体识别模块分析目标及环境不同，合理规划分析过程，并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务；

形成合理的事件、实体、关系演变规律，并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中。

进一步的，所述步骤1中通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为：根据实体集的空间结构选择对应的距离度量，并计算实体集的霍普金斯统计量，通过统计量取值判断实体集是否包含有意义的聚类簇，以此评估聚类趋势的有效性；包括以下步骤：

步骤1.1.1：计算全集N中实体A∈N，B∈N间距离，距离度量的计算公式如下表示：

其中，d(A,B)是实体A和B间的距离；N_AB是全集N中同时包含实体A，B的情况的集合，|N_AB|是集合N_AB的元素个数；

是全集N中同时不包含实体A，B的情况的集合，

是全集N中包含实体A但不包含实体B的情况的集合，

是N全集中包含实体B但不包含实体A的情况的集合；N_A是全集N中包含实体A的情况的集合；

是全集N不包含实体B的情况的集合；N_B是全集N中包含实体B情况的集合；

是全集N中不包含实体B情况的集合；

步骤1.1.2：计算公所述霍普金斯统计量，并评估聚类趋势的有效性，计算公式如下：

其中，m是循环次数，R^t是每一次独立循环中以随机伯努利分布生成的一个模拟数据集，享有和实体集L同等的元素个数；

和

为模拟数据R^t中的元素；集对于n阶的霍普金斯统计量H，n≤|L|，在每次循环中，随机抽样

L_i,i≤n∈L的实体，并计算他们的最近邻距离

和min(d(L_i,L_j,j≠i))并求和；

步骤1.1.3：通过对多次霍普金斯统计量的平均值计算实体集L的聚类趋势

当

时存在有意义的实体集L强关系挖掘；反之，人工定义的实体集L需要重新定义。

更进一步的，所述使用以Ward连接为主的凝聚层次进行凝聚迭代，聚类形成实体关联关系的统计学关键路径过程如下：

步骤1.2.1：假设L^t是实体集L的第t次凝聚迭代，L⁰＝L；对实体集L^t合并任意实体

和

形成新实体集

合并规则为将

和

看成一个新实体

对

对应的新实体集

计算集内上三角距离度量矩阵，定义如下：

其中，

是

的第k∈{1,...,|L|}个实体元素；

步骤1.2.2：计算新实体集

的离差平方和，公式如下：

其中，

是

的Hadamard自乘积矩阵，Σ计算一个矩阵所有元素的和；

步骤1.2.3：对新实体集

的离差平方和

排序，对于最小的

令

完成一轮迭代；

步骤1.2.4：重复步骤1.2.1-1.2.3，直至实体集L^t+1的元素个数|L^t+1|＝1；根据t步迭代的过程中

和

的合并记录，将返回实体集L的实体凝聚层次聚类树T_L。

更进一步的，所述采用统计假设检验的方法去除假阳性超路径，并输出确定截断值的有效实体关系具体包括：

假设对原始合并聚类树T_L，令T_L深度为

使用截断值h作为合并分支的深度：

假设以截断值h截断T_L后的树为

定义对于任意树T，其非空子树为其节点簇，其簇的个数使用C_T表示；对于原始聚类树T_L，其子树的个数为

截断树

的簇数为

使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树T_i,i∈{1,...,m},使其方差与T_L的方差相同；计算当截断值为h时，各随机树T_i,i∈{1,...,m}生成截断树T_i ^h，其簇数分别为

按照如下公式计算置信度：

其中，

遍历所有可能h，获取最大的置信度P_max(L,h′,m)；如果P_max(L,h′,m)＞0.95，则在截断值为h′时，实体集L的分解

的截断实体子集内部关系最为密切；反之不成立，需要对实体集L重新进行Ward连接凝聚层次聚类。

更进一步的，所述人工假设定义的IoC实体集包括：由技战术组成的高级行为实体，由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体，由Hash、IP、CVSS组成的细节代号实体。

更进一步的，所述步骤2具体为：

步骤2.1：对收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练，得到用于表征文本单词词向量的词嵌模型；通过词嵌模型，对原有文档D的单词集合W(w₁,w₂,...,w_|W|)进行词嵌入编码，形成单词词向量集合

|W|为单词集合W的最大长度；

步骤2.2：对于词向量集合S_W中每个词向量，使用双向递归神经网络结合前后词向量做贡献预测，以形成当前词汇的上下文词向量

其中，W_f和W_b分别是顺序和逆序的预测权重，b_f和b_b是偏移量，f是BN函数和RELU激活函数；

针对处在文档D单词语序顺序第j位的k-gram词组、短语语义表征

使用卷积神经网络对词组进行卷积，得到k-gram词组语义表征

其中，

是单词w_i,i∈{j,j+1,...,j+k-1}在该词组

的权重，为共享权重，为所有的k-gram词组的第i-j位单词共享；

为第i-j位词向量，针对k-gram的偏移量；

对其使用最大池化操作得到最有效的词向量

然后，合并所有k-gram语义向量形成文档D的语义向量S_D，并通过使用自注意力机制对文章D的语义向量S_D进行精加工形成精细语义向量S′_D；对于最终的语义向量S′_D：

其中，Q＝W_QS_D，K＝W_KS_D，K^T是K的转置矩阵，V＝W_VS_D，W_a,W_K,W_Q,W_V是权重，d_K是缩放比例；soft max(·)表示函数：

其中，

为表示S_D中的第i个元素；

对于最终的语义向量S′_D使用前馈神经网络输出实体集不同实体出现的概率，并根据概率与阈值的差值判断实体的类别；

步骤2.3：对于上一步骤的输出，通过桥连接和门控将不同情报、不同实体、不同抽象状态按照超路径实体关系图统一表征，形成优化实体；

步骤2.4：对于超路径结构隐含权重进行调整，根据随机梯度下降法反向传播误差，逐级优化原有超路径结构权重等基础数据；经过多轮迭代，确定最终的权重数据，并输出最终的增强实体集。

更进一步的，所述步骤2.3具体过程为：

步骤2.3.1：对任意实体L_i∈L，求得其所有强相关实体集

使得对任意L_j∈L⁽ⁱ⁾，其条件概率转移矩阵P(L_i|L_j)，记作P_ij，满足低稀疏性和高数值性双标准；

步骤2.3.2：对P_ij内部所有元素做

对

计算去噪绝对值矩阵

其中，P_min是人工定义的元素有效阈值，初始为0，α是缩放变量，初始为1.0；

步骤2.3.3：计算

的加权稀疏因子：

其中，avg是对

所有元素取平均；

步骤2.3.4：当

时，认为L_i和L_j强相关且满足标准，其中θ为强相关阈值，初始设置为0.5；对于任意实体L_i∈L，及其强相关实体集

对任意强关联对＜L_i,L_j＞，L_j∈L⁽ⁱ⁾，使用

和

分别代表L_i，L_j经过所述RNN+CNN编码网络编码原始文本语义向量所获得的识别概率；

则经过L_j强关联的L_i新概率为：

步骤2.3.5：在获取到L⁽ⁱ⁾对L_i的强关联概率集合：

后通过门控形成融合增强的L_i概率表达

该过程根据实际需要是

将本过程多次重复或进行残差连接，以求得最优结果。

更进一步的，所述步骤2.4具体过程为：

定义由文档D到识别IoC实体集L的过程为：

P_L＝L(D,θ)

其中，

是上述方法的参数集合；

根据随机梯度下降法实现对θ的更新：

其中，γ为幂次，α为缩放变量。

更进一步的，所述步骤3具体为：

步骤3.1：对IoC实体及关系建立版本控制器，根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证，以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器；根据使用规模和适用性判断主分支，并调整数据分布；对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链，校验使用实体情况和关系相关度情况评估该版本，形成合理性评估意见；通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考；同时事件和对应情报将被保留以供后续必要的重新分析任务；

步骤3.2：面对新生分析任务，通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范，以获得能够有效处理该情报的合适实体集及其关系集；并构建实体识别模块分析任务完成对情报的分析；该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留；

步骤3.3：为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口，以主观情报收集生产等相关生态链构建任务。

一种基于关联增强的网络威胁情报多维IoC实体识别装置，包括实体及实体关系定义模块、实体识别模块和优化反馈模块；

所述实体及实体关系定义模块用于对多维IoC实体及实体关系进行定义：该模块通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势，并使用以Ward连接为主的凝聚层次进行凝聚迭代，聚类形成实体关联关系的统计学关键路径，再采用统计假设检验的方法去除假阳性超路径，并输出确定截断值的有效实体关系；

所述实体识别模块用于对多维IoC实体进行识别：该模块通过网络安全词向量编码情报文本，送入以RNN+CNN编码网络编码原始文本语义向量；通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照超路径实体关系图统一表征，形成优化实体；并根据这一过程的反馈优化原有超路径结构权重基础数据；

所述优化反馈模块用于实体识别优化反馈：

本发明的有益效果是：本发明可以提升网络威胁情报多维IoC实体识别能力；通过半监督实体分解和关系统一描述的方法，形成多维IoC实体统一描述语言和抽象标准；同时采用关联增强和迁移学习相结合的深度学习算法对多维IoC实体及实体关系进行识别、抽取，验证、评估和优化的过程。与传统方法相比，本发明通过隐含关系叠加转移模块和注意力机制极大丰富了多维语义特性同时减少无意义信息干扰，将传统方法丢失的隐含状态等附加属性有益结合到对各种抽象实体的识别分析过程中，增加识别结果的可靠性和稳定性，提高识别结果的可解释性和可信性。

附图说明

图1为本发明方法的整体结构图。

图2为本发明方法实体及实体关系定义模块结构图。

图3为本发明方法实体识别模块结构图。

图4为本发明方法实体识别模块流程图。

图5为本发明方法优化反馈模块结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明方法的整体结构如图1所示，方法主由多维IoC实体及关系定义模块，多维IoC实体识别模块和实体识别优化反馈模块三部分组成。

下面结合附图和具体实施方式对本发明作进一步详细的说明。

一、实体及实体关系定义模块：多维IoC实体及关系定义

通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势并使用以Ward连接为主层次聚类形成实体关联关系的统计学关键路径，并采用统计假设检验的方法去除假阳性超路径，并输出确定截断值的有效实体关系。依据图2所示，步骤如下：

步骤1：根据人工定义实体集的空间结构，使用公式(1)计算全集N中实体A∈N，B∈N间距离d(A,B)。

是全集N中同时不包含实体A，B的情况的集合，

是全集N中包含实体A但不包含实体B的情况的集合，

是全集N中不包含实体B情况的集合。

并使用公式(2)计算实体集L的n阶霍普金斯统计量。

和

为模拟数据R^t中的元素。

对于n,n≤|L|阶的霍普金斯统计量H，在每次循环中，叫随机抽样L_i,i≤n∈L，

的实体，并计算他们的最近邻距离

和min(d(L_i,L_j,j≠i))并求和，通过对多次霍普金斯统计量的平均值计算实体集的聚类趋势

当

时存在有意义的实体集L强关系挖掘；反之，人工定义的实体集L需要重新定义。其中，距离度量参数如表1所示。

表1距离度量参数矩阵

步骤2：以Ward连接为主的凝聚层次聚类其过程主要包含以下：

1)假设L^t实体集L的第t次凝聚迭代，L⁰＝L。

2)对实体集L^t合并任意实体

和

形成新实体集

合并规则为将

和

看成一个新实体

3)对

对应的新实体集

按照公式(3)计算集内上三角距离度量矩阵

其中，

是

的第k∈{1,...,|L|}个实体元素；

4)按照公式(4)计算新实体集

的离差平方和：

其中，

是

的Hadamard自乘积矩阵，Σ计算一个矩阵所有元素的和

5)对新实体集

的离差平方和

排序，对于最小的

令

完成一轮迭代。

6)重复上述过程，直至实体集L^t+1元素个数|L^t+1|＝1。根据t步迭代的过程中

和

的合并记录，将返回实体集L的实体凝聚层次聚类树T_L。

步骤3：统计假设检验方法去除假阳性超路径，并输出确定截断值的有效实体关系包括如下过程：

1)假设对原始合并聚类树T_L，令T_L深度为

使用截断值h作为合并分支的深度：

截断值为h的意义在于，对于由叶子节点向上的任意h高度内的实体将被聚类成为一组实体并形成新的叶子节点，特殊地，当叶子节点到根节点的距离不足h时，也会被聚类成为一组实体。假设以截断值h截断T_L后的树为

2)定义对于任意树T，其非空子树为其节点簇，其簇的个数使用C_T表示。对于原始聚类树T_L，其子树的个数为

截断树

的簇数为

3)使用Ward连接凝聚层次聚类算法以随机伯努利分布生成m个层次树T_i,i∈{1,...,m},使其方差与T_L的方差相同(循环m次得到的结果就是生成m个层次树)。计算当截断值为h时，各随机树T_i,i∈{1,...,m}生成截断树T_i ^h，其簇数分别为

4)按照公式(5)(6)计算置信度。

其中，

遍历所有可能h，获取最大的置信度P_max(L,h′,m)。如果P_max(L,h′,m)＞0.95，则在截断值为h′时，实体集L的分解

的截断实体子集内部关系最为密切；反之不成立，需要对实体集LL重新进行Ward连接凝聚层次聚类。

二、实体识别模块：多维IOC实体识别

通过网络安全词向量编码情报文本，送入以RNN+CNN等编码网络编码原始文本语义向量。通过桥连接和门控的方式将不同情报、不同实体、不同抽象状态的信息依照S1超路径实体关系图统一表征，形成优化实体。并根据这一过程的反馈优化原有超路径结构权重等基础数据。依据图3所示，步骤如下：

步骤1：对本方法收集的网络安全文本库使用FastText或者Bert方法进行词嵌模型训练，得到用于表征文本单词词向量的词嵌模型。通过词嵌模型，对原有文档的单词集合W(w₁,w₂,...,w_|W|)进行词嵌入编码，形成单词词向量集合

步骤2：以RNN+CNN为主的编码网络对文本进行编码与实体识别过程如下：

1)使用双向RNN结合前后词向量做贡献预测，以形成当前词汇的上下文词向量：

其中，W_f和W_b分别是顺序和逆序的预测权重，b_f和b_b是偏移量，f是BN函数和RELU激活函数。

2)针对处在文档D单词语序顺序第j位的k-gram词组、短语语义表征

使用卷积神经网络对词组进行卷积，得到k-gram词组语义表征

其中

是单词w_i,i∈{j,j+1,...j,+k-1}在该词组

的权重。通过化简该公式：

可以得到

的近似结果

其中w_i-j,k是共享权重，为所有的k-gram词组的第i-j位单词共享。

3)对k-gram词组语义表征

使用最大池化操作得到最有效的词向量

4)合并所有k-gram语义向量形成文档D的语义向量S_D

5)通过使用自注意力机制对文章D的语义向量S_D进行精加工形成精细语义向量S′_D。

该过程遵循以下方法：

其中，

为表示S_D中的第i个元素。

6)对于最终的语义向量S′_D，使用前馈神经网络输出实体集不同实体出现的概率，并根据概率与阈值的差值判断实体的类别。

步骤3：通过桥连接和门控将不同情报、不同实体、不同抽象状态按照S2超路径实体关系图统一表征，形成优化实体的过程依据如图4所示，过程如下：

1)通过聚类和人工定义的实体关系

形成实体间条件概率转移系数矩阵P(A|B),A∈L,B∈L，

对于该矩阵当A＝B时，是实体及其变种、亚种、家族的内部条件转移概率，如在战术实体内“权限提升”亚种和“数据破坏”亚种的关系；当A≠B时，是不同层级或不同表现的实体间的相互作用，如战术实体与技术实体、战术实体与Hash实体等。

2)对任意实体L_i∈L，求得其所有强相关实体集

使得对任意L_j∈L⁽ⁱ⁾，其条件概率转移矩阵P(L_i|L_j)(以下简称：P_ij)满足低稀疏性和高数值性双标准。对于P_ij，利用激活函数tanh进行激活可得

3)

去噪绝对值矩阵

其中，P_min是人工定义的元素有效阈值，初始为0，α是缩放变量，初始为1.0；计算

的加权稀疏因子：

其中avg是对

所有元素取平均；当

时，认为L_i和L_j强相关且满足标准，其中θ为强相关阈值，初始设置为0.5。

4)对于任意实体L_i∈L，及其强相关实体集

对任意强关联对＜L_i,L_j＞，L_j∈L⁽ⁱ⁾，使用

和

分别代表L_i，L_j经过步骤2的RNN+CNN等编码网络编码原始文本语义向量所获得的识别概率。则经过L_j强关联的L_i新概率

该过程由于形似从L_j架桥到L_i以提供帮助而被称为桥连接。

5)在获取到L⁽ⁱ⁾对L_i的强关联概率集合：

后通过门控形成融合增强的L_i概率表达

该过程根据实际需要可以是

特殊地，本过程可以多次重复或进行残差连接，以求得最优结果。

步骤4：对于上述步骤超路径结构隐含权重的调整，根据随机梯度下降法反向传播误差，逐级优化原有超路径结构权重等基础数据。经过多轮迭代，确定最终的权重数据，并输出最终的增强实体集。包含的过程如下：

1)定义上述由文档D到识别IoC实体集L的过程为：P_L＝L(D,θ)，其中

是上述方法的参数集合。

2)根据随机梯度下降法可以实现对θ的更新：

根据该方法可以实现θ的逐步优化，尤其是对P(L_i|L_j)的实际优化，已完成对原有实体关系等路径信息的调整。

三、优化反馈模块：多维IoC实体识别

主要任务内容包括：1.通过收集和整理经过每一次经过实体及实体关系定义模块迭代的实体及关系定义版本演变历史，并收集根据实体识别模块在该版本对威胁情报已知事件的分析结果。2.根据实体识别模块分析目标及环境不同，合理规划分析过程，并从实体及实体关系定义模块数据库中适当抽取合理的实体定义完成实体识别模块分析任务。3.形成合理的事件、实体、关系演变规律，并参与到攻击模式定义、攻击组织溯源、模式差异性分析等第三方分析合作中。依据如图5所示，步骤如下：

步骤1：对IoC实体及关系建立版本控制器，根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证，以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器。根据使用规模和适用性判断主分支，并调整数据分布。对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链，校验使用实体情况和关系相关度情况评估该版本，形成合理性评估意见。通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考。同时事件和对应情报将被保留以供后续必要的重新分析任务。

信息收集与有效性评估，根据每一代实体及实体关系定义模块或实体识别模块的结果产出进行收集整理归纳，及假设性验证。该验证包括假设有无某实体或关系存在对结果的影响或假设隐藏末环境或输入状态对结果的影响等。该步骤的含义在于肯定分析模型作用并祛除不合理或无意义信息，并形成较高级和有效的信息特征索引。步骤2：面对新生分析任务，通过建立对该情报的任务与适用范围描述类比步骤1所产生的对各个版本实体关系的使用规范，以获得能够有效处理该情报的合适实体集及其关系集。并构建实体识别模块分析任务完成对情报的分析。该结果将参与下一轮的步骤1所述的版本评估和事件历史保留。

规划分析：鉴于步骤1所收集的产出多样化和多态性，面对具有不同生产方式和分析目标的威胁情报，使用单一的分析模式或实体定义往往无法满足需求，而对该威胁情报适用所有版本的分析方式又面临资源时间的极大浪费，因此通过对比由步骤1对该情报建立从文本资源到实体有效度的索引和数据库中对历史任务的信息索引的进行相似性对比以筛选出有效度高、覆盖范围广、且不造成资源过度消耗的情报处理方式。

步骤3：为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口，以主观情报收集生产等相关生态链构建任务。值得注意的是，本发明的实际产出不仅能够独立使用还能够因其演变规律、共性比较等产生出更有价值的实际输出，因此本步骤将预留对外合作接口，以接纳新生情报并共享分析结果为后续分析或协同合作做良好基础。

Claims

1.一种基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，包括以下步骤：

步骤2：通过实体识别模块对多维IoC实体进行识别

通过网络安全词向量编码情报文本，送入以RNN+CNN编码网络编码原始文本语义向量；

并根据这一过程的反馈优化原有超路径结构权重基础数据；

步骤3：通过优化反馈模块进行实体识别优化反馈

形成合理的事件、实体、关系演变规律，并参与到攻击模式定义、攻击组织溯源、模式差异性分析的第三方分析合作中；

所述步骤2具体为：

|W|为单词集合W的最大长度；

使用卷积神经网络对词组进行卷积，得到k-gram词组语义表征

其中，

是单词w_i,i∈{j,j+1,...,j+k-1}在该词组

为第i-j位词向量，针对k-gram的偏移量；

对其使用最大池化操作得到最有效的词向量

其中，Q＝W_QS_D，K＝W_KS_D，K^T是K的转置矩阵，V＝W_VS_D，W_a,W_K,W_Q,W_V是权重，d_K是缩放比例；softmax(·)表示函数：

其中，

为表示S_D中的第i个元素；

步骤2.4：对于超路径结构隐含权重进行调整，根据随机梯度下降法反向传播误差，逐级优化原有超路径结构权重基础数据；经过多轮迭代，确定最终的权重数据，并输出最终的增强实体集。

2.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述步骤1中，通过霍普金斯统计量评估人工假设定义的IoC实体集聚类趋势具体为：根据实体集的空间结构选择对应的距离度量，并计算实体集的霍普金斯统计量，通过统计量取值判断实体集是否包含有意义的聚类簇，以此评估聚类趋势的有效性；包括以下步骤：

是全集N中同时不包含实体A，B的情况的集合，

是全集N中包含实体A但不包含实体B的情况的集合，

是全集N中不包含实体B情况的集合；

和

L_i,i≤n∈L的实体，并计算他们的最近邻距离

和min(d(L_i,L_j,j≠i))并求和；

当

3.根据权利要求2所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述使用以Ward连接为主的凝聚层次进行凝聚迭代，聚类形成实体关联关系的统计学关键路径过程如下：

和

形成新实体集

合并规则为将

和

看成一个新实体

对

对应的新实体集

计算集内上三角距离度量矩阵，定义如下：

其中，

是

的第k∈{1,...,|L|}个实体元素；

步骤1.2.2：计算新实体集

的离差平方和，公式如下：

其中，

是

的Hadamard自乘积矩阵，Σ计算一个矩阵所有元素的和；

步骤1.2.3：对新实体集

的离差平方和

排序，对于最小的

令

完成一轮迭代；

和

的合并记录，将返回实体集L的实体凝聚层次聚类树T_L。

4.根据权利要求3所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述采用统计假设检验的方法去除假阳性超路径，并输出确定截断值的有效实体关系具体包括：

假设对原始合并聚类树T_L，令T_L深度为

使用截断值h作为合并分支的深度：

假设以截断值h截断T_L后的树为

截断树

的簇数为

按照如下公式计算置信度：

其中，

5.根据权利要求1或2所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述人工假设定义的IoC实体集包括：由技战术组成的高级行为实体，由机构名称、软件名称、邮箱名称、地点名称、时间、漏洞名称、域名组成的关键性证据或描述类实体，由Hash、IP、CVSS组成的细节代号实体。

6.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述步骤2.3具体过程为：

步骤2.3.1：对任意实体L_i∈L，求得其所有强相关实体集

步骤2.3.2：对P_ij内部所有元素做

对

计算去噪绝对值矩阵

步骤2.3.3：计算

的加权稀疏因子：

其中，avg是对

所有元素取平均；

步骤2.3.4：当

对任意强关联对＜L_i,L_j＞，L_j∈L⁽ⁱ⁾，使用

和

则经过L_j强关联的L_i新概率为：

步骤2.3.5：在获取到L⁽ⁱ⁾对L_i的强关联概率集合：

后通过门控形成融合增强的L_i概率表达

该过程根据实际需要是

将本过程多次重复或进行残差连接，以求得最优结果。

7.根据权利要求6所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述步骤2.4具体过程为：

定义由文档D到识别IoC实体集L的过程为：

P_L＝L(D,θ)

其中，

是上述方法的参数集合；

根据随机梯度下降法实现对θ的更新：

其中，γ为幂次，α为缩放变量。

8.根据权利要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法，其特征在于，所述步骤3具体为：

步骤3.1：对IoC实体及关系建立版本控制器，根据每一次迭代的关系对相应关键位置进行hash校验和相似性验证，以获得IoC实体关系的各版本的发生条件、处理能力、密集性、复杂度的联系与差异构建实体关系家族和分支管理器；根据使用规模和适用性判断主分支，并调整数据分布；对使用该版本实体关系分析过的威胁情报与产生的实例化实体构建的事件链，校验使用实体情况和关系相关度情况评估该版本，形成合理性评估意见；通过横向比较各版本意见建立对相应条件的实体关系使用规范为后续相似结构或相同目标的分析任务提供参考；同时事件和对应情报将被保留以供后续的重新分析任务；步骤3.2：面对新生分析任务，通过建立对该情报的任务与适用范围描述类比步骤3.1所产生的对各个版本实体关系的使用规范，以获得能够有效处理该情报的合适实体集及其关系集；并构建实体识别模块分析任务完成对情报的分析；该结果将参与下一轮的步骤3.1所述的版本评估和事件历史保留；

步骤3.3：为应对潜在合作意向和威胁情报、实体关系的更新提供第三方合作接口，以主观情报收集生产相关生态链构建任务。

9.一种采用权要求1所述的基于关联增强的网络威胁情报多维IoC实体识别方法的装置，其特征在于，包括实体及实体关系定义模块、实体识别模块和优化反馈模块；

所述优化反馈模块用于实体识别优化反馈：