CN115310437A

CN115310437A - 基于深度学习的威胁情报智能预警的方法

Info

Publication number: CN115310437A
Application number: CN202210888428.9A
Authority: CN
Inventors: 刘钰
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-11-08

Abstract

本发明公开了基于深度学习的威胁情报智能预警的方法，包括获取多类型威胁情报数据；对纯文本威胁情报数据进行裁剪预处理；进行实体识别、实体关系识别任务；获取实体后，在资产模块中检索该实体，如果在资产模块中发现资产实体，则立刻定位风险资产，反之对威胁情报进行筛选；定位风险资产后，利用实体以及实体关系与知识图谱进行关联推理、获取威胁相关信息；根据威胁情报模板自动化生成威胁情报预警信息；根据资产模块中的资产对应的负责人，进行威胁情报预警信息推送。本发明基于自然语言处理技术对威胁情报进行分析，通过使用RoBERTa后两层隐藏层结合双仿射注意力机制，并引入对抗训练提升泛化能力，大幅度提高了实体识别、实体关系识别的准确率。

Description

基于深度学习的威胁情报智能预警的方法

技术领域

本发明属于情报预警技术领域，具体涉及基于深度学习的威胁情报智能预警的方法。

背景技术

威胁情报是一种基于证据的知识，包括了情境、机制、指标、隐含和实际可行的建议。威胁情报描述了现存的、或者是即将出现的针对资产的威胁或危险，并可以用于通知主体针对相关威胁或危险采取某种响应。简言之，威胁情报可以帮助企业和组织快速了解到敌对方对自己的威胁信息，从而帮助他们提前做好威胁防范、更快速地进行攻击检测与响应、更高效地进行事后攻击溯源。

目前威胁情报预警系统多为依据结构化威胁情报数据进行报警，然而威胁情报的价值对时效性有着非常强的依赖，最新的威胁情报往往都是非结构化数据。

另外，现有的威胁情报预警系统会产生海量报警，给运维人员的工作带来了极大的难度，导致有价值的信息反而被忽略。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供基于深度学习的威胁情报智能预警的方法，通过结合深度学习技术，将传统的威胁情报预警方式转变为智能预警方式。将文本格式威胁情报进行结构化解析，利用语义特征、上下文关系等特征通过结合资产管理和知识图谱提高精准度和可运营性。

为实现上述技术目的，本发明采取的技术方案为：

基于深度学习的威胁情报智能预警的方法，包括：

步骤1：获取多类型威胁情报数据，包括结构化威胁情报数据、纯文本威胁情报数据、半结构化威胁情报数据。

步骤2：对纯文本威胁情报数据进行裁剪预处理；

步骤3：基于RoBERTa预训练模型建立一个双仿射注意力机制层biaffine，识别威胁情报数据中的实体和实体之间的关系；

步骤4：获取实体后，在资产模块中检索该实体，如果在资产模块中发现资产实体，则立刻定位风险资产，反之对威胁情报进行筛选；

步骤5：定位风险资产后，利用实体以及实体关系与知识图谱进行关联推理、获取威胁相关信息；

步骤6：结合步骤5获得的信息，根据威胁情报模板自动化生成威胁情报预警信息；

步骤7：根据资产模块中的资产对应的负责人，进行威胁情报预警信息推送。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1通过接口方式获取数据或者使用网络爬虫从安全论坛爬取数据。

上述的步骤2将超过512字节的纯文本威胁情报数据裁剪为多条输入数据。

上述的步骤3包括以下步骤：

步骤31、威胁情报数据输入RoBERTa模型后，提取RoBERTa模型后两层隐藏层，进行concatenate操作得到concat层；

步骤32、concat层接两个128维的全连接层使用relu激活函数，随后建立一个双仿射注意力机制层biaffine，最后使用softmax完成实体识别任务；

步骤33、实体识别任务完成后用concat层接两个256维的全连接层，然后对这两个256维全连接层进行0.3系数的dropout操作，再接两个128维的全连接层，使用relu激活函数；

步骤34、把步骤32实体识别结果进行Embedding，然后分别concatenate到步骤33的两个128维全连接层，得到的结果建立一个双仿射注意力机制层biaffine，使用sigmoid函数完成最终的实体关系识别任务。

上述的步骤3在模型中加入对抗训练的思想，具体为：

(1)计算输入的前向损失值、通过反向传播得到梯度并保存，对于每步k，根据embedding矩阵的梯度计算出r，并加到当前embedding上，如果超出范围则投影回epsilon内。

(2)如果k不是最后一步，梯度归0，根据embedding加r计算前后向并得到梯度，如果k是最后一步，则恢复步骤1的梯度，计算最后的embedding加r并将梯度累加到步骤(1)上，然后将embedding恢复为步骤(1)时的值，最后根据k是最后一步时的梯度对参数进行更新。

上述的步骤4中，资产模块与威胁情报关联，通过相似度检索算法锁定风险资产位置，检索威胁情报。

上述的步骤5所述威胁相关信息包括所属组织、造成危害，攻击手段，应对措施。

本发明具有以下有益效果：

本发明基于自然语言处理技术对威胁情报进行分析，通过使用RoBERTa后两层隐藏层结合双仿射注意力机制，并引入对抗训练提升泛化能力，大幅度提高了实体识别、实体关系识别的准确率。

实体识别、实体关系抽取算法的优化改进，采用JOINT方式，将实体识别和实体关系抽取在同一个模型中进行处理，可以实现实体识别和实体关系识别两阶段中的信息共享和交互，可以实现entities和relations之间的信息共享和交互，提升在不同的任务中的表现能力，加入了双仿射注意力机制层，在实体关系抽取中concatenate了实体标签，还采用了对抗训练的方式，通过上述步骤大幅度提高了实体识别、实体关系识别的准确率。

除此之外有别于其他威胁情报报警的海量预警，本发明利用实体对资产模块进行相似度搜索，锁定高风险资产，自动删除低价值威胁情报，并且通过实体以及实体关系查询知识图谱，获取高可运营性的报警，极大的减少了运维人员的工作难度。

时效性：第一手威胁情报多发布于国内外各大网络安全网站，但是大多数情报并不是以STIX格式发布的，并不能直接入库。所以本发明利用自然语言处理和规则结合的方式对文本类威胁情报进行解析，最终以STIX格式入库。

高精准度：威胁情报经过解析后获得实体，在资产模块中搜索资产实体，快速定位存在风险的资产，如存在则说明此条威胁情报具有价值需要及时预警。

可运营性高：威胁情报经过解析后获得实体关系，通过关联知识图谱以及资产获取关联信息后进行预警，预警内容会具体到应对措施等，提高可运营性。

附图说明

图1为本发明基于深度学习的威胁情报智能预警流程图；

图2为本发明基于深度学习的威胁情报智能预警原理图；

图3为本发明实体关系识别原理图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

参见图1-2，本发明基于深度学习的威胁情报智能预警的方法，包括：

步骤1：通过接口、爬虫等方式获取多类型威胁情报数据，包括结构化威胁情报数据、纯文本威胁情报数据、半结构化威胁情报数据。

获取威胁情报数据方式，与第三方厂商合作通过接口方式获取数据或者使用网络爬虫从安全论坛爬取数据。

步骤2：对纯文本威胁情报数据进行裁剪预处理；

RoBERTa模型对输入的句子有一个最大长度512字节限制，因此需要对输入的文本做一个裁剪。

将超过512字节的纯文本威胁情报数据裁剪为多条输入数据。

步骤3：基于RoBERTa预训练模型建立一个双仿射注意力机制层biaffine，识别威胁情报数据中的实体和实体之间的关系；即通过自然语言处理算法识别实体、以及获取实体关系，参见图3，步骤3包括：

步骤33、实体识别任务完成后用concat层接两个256维的全连接层，然后对这两个256维全连接层进行0.3系数的dropout操作(在训练中dropout系数分别使用了0.1、0.2、0.3、0.4，当dropout系数为0.3的时候，本模型泛化效果最好)，再接两个128维的全连接层，使用relu激活函数；

步骤34、把步骤32实体识别结果进行Embedding，然后分别concatenate到步骤33的两个128维全连接层，得到的结果建立一个双仿射注意力机制层biaffine，使用sigmoid函数完成最终的实体关系识别任务。该步骤34在实体关系抽取中concatenate了实体标签以完成最终的实体关系识别任务。

步骤3实施时，在模型中加入对抗训练的思想，提高模型泛化能力，提升模型F1值：

(2)如果k不是最后一步，梯度归0，根据embedding加r计算前后向并得到梯度，如果k是最后一步，则恢复步骤1的梯度，计算最后的embedding加r并将梯度累加到步骤(1)上。然后将embedding恢复为步骤(1)时的值。最后根据k是最后一步时的梯度对参数进行更新。

通过训练模型，将威胁情报数据输入训练好的模型，模型可输出识别出的实体以及实体关系。

步骤4：获取实体后，在资产模块中检索该实体(相似度检索算法)，如果在资产模块中发现资产实体，则立刻定位风险资产，反之对威胁情报进行筛选(即如果威胁情报中的实体可以在资产模块中检索到，那么就可以立刻定位到这个资产，如果检索不到，说明此条威胁情报对用户的价值不大，所以此条威胁情报将不推送给用户)；

步骤5：定位风险资产后，利用实体以及实体关系与知识图谱进行关联推理、获取威胁相关信息，例如所属组织、造成危害，攻击手段，应对措施等信息。

威胁情报与知识图谱模块关联，获取更多信息，例如解决方案等信息。

步骤6：结合步骤5获得的信息，根据威胁情报模板自动化生成高准确性、高可运营性的威胁情报预警信息；威胁情报模板由人工编写存在系统之中；

威胁情报预警生成好后，根据资产模块中资产负责人字段获得负责人用户ID，通过负责人用户ID对用户进行威胁情报预警推送。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.基于深度学习的威胁情报智能预警的方法，其特征在于，包括：

步骤1：获取多类型威胁情报数据，包括结构化威胁情报数据、纯文本威胁情报数据、半结构化威胁情报数据；

步骤2：对纯文本威胁情报数据进行裁剪预处理；

2.根据权利要求1所述的基于深度学习的威胁情报智能预警的方法，其特征在于，所述步骤1通过接口方式获取数据或者使用网络爬虫从安全论坛爬取数据。

3.根据权利要求1所述的基于深度学习的威胁情报智能预警的方法，其特征在于，所述步骤2将超过512字节的纯文本威胁情报数据裁剪为多条输入数据。

4.根据权利要求1所述的基于深度学习的威胁情报智能预警的方法，其特征在于，所述步骤3包括以下步骤：

5.根据权利要求4所述的基于深度学习的威胁情报智能预警的方法，其特征在于，所述步骤3在模型中加入对抗训练的思想，具体为：

(1)计算输入的前向损失值、通过反向传播得到梯度并保存，对于每步k，根据embedding矩阵的梯度计算出r，并加到当前embedding上，如果超出范围则投影回epsilon内；

6.根据权利要求1所述的基于深度学习的威胁情报智能预警的方法，其特征在于，所述步骤4中，资产模块与威胁情报关联，通过相似度检索算法锁定风险资产位置，检索威胁情报。

7.根据权利要求1所述的基于深度学习的威胁情报智能预警的方法，其特征在于，步骤5所述威胁相关信息包括所属组织、造成危害，攻击手段，应对措施。