CN110532480B

CN110532480B - 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法

Info

Publication number: CN110532480B
Application number: CN201910634014.1A
Authority: CN
Inventors: 都鸣; 姜政伟; 江钧; 卢志刚; 刘宝旭
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2022-06-17
Anticipated expiration: 2039-07-15
Also published as: CN110532480A

Abstract

本发明公开了一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法。本发明通过爬取微博安全大V发布的人读威胁情报等作为原始数据，构建了用于人读威胁情报推荐的知识图谱，然后将知识图谱中的实体和实体关系抽象成低维度的向量表示e；对于每一条人读威胁情报I_i，生成人读威胁情报向量e(I_j)；将用户向量e(u)归一化结果和向量e(I_j)归一化结果拼接并添加对应的标记值，作为网络输入，训练该长短期记忆神经网络；对于一候选人读威胁情报，生成其对应的人读威胁情报向量并与用户u的用户向量拼接，然后输入网络，得出用户u是否会点击该候选人读威胁情报，根据判断结果确定是否将其推荐给用户u。

Description

一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法

技术领域

本发明提出一种用于威胁情报推荐的知识图谱的构建方法和一种基于知识图谱和LSTM的威胁情报推荐方法，涉及了一种结合LDA主题模型的去噪实体抽取方法和一种知识感知的LSTM推荐方法。

背景技术

威胁情报是一种基于证据的知识，包括了情境、机制、指标、隐含和实际可行的建议。威胁情报描述了现存的、或者是即将出现针对资产的威胁或危险，并可以用于通知主体针对相关威胁或危险采取某种响应。根据阅读威胁情报的对象的不同，威胁情报可以分为机读威胁情报和人读威胁情报。人读威胁情报需要提供更多的上下文、背景信息以及分析结果。例如对于一个活跃APT(高级持续威胁)组织的分析报告就是一份典型的人读威胁情报。

随着大数据等技术的发展，威胁情报这一术语应运而生，对网络安全保护系统的发展具有里程碑意义。面对严峻的安全形势，安全专家需要通过及时有效地跟踪和分析网络安全威胁的特征、方法和模式，改变传统的安全防御思想，识别和防御网络安全的新威胁。但是，在线内容和服务的爆炸性增长为用户创造了一个压倒性的选择。推荐系统旨在通过从大量数据中过滤出少量内容来满足其个性化兴趣，从而解决信息爆炸问题。传统的协同过滤方法通过学习相关用户的兴趣来预测长尾用户的兴趣，并在各个领域取得了成功。在实际应用中，用户对项目的个人偏好的用户项矩阵通常非常稀疏，导致基于协同过滤方法的推荐性能显著降低。为了解决这些问题，研究人员提出将辅助信息纳入协同过滤，例如社交网络，用户/项目属性，图像和上下文纳入协同过滤。知识图谱也是一种优质的外部辅助信息，知识图谱是Google用于增强其搜索引擎功能的知识库。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图，节点表示实体或概念，边则由属性或关系构成。

一般而言，人读威胁情报的推荐非常困难，其带来了3)大挑战：

1.人读威胁情报具有高度时间敏感性，并将在短时间内到期。特别是，在同一时间段内描述的安全事件更可能是相关的，这需要传统方法有效地按时间动态问题进行扩展。

2.人读威胁情报语言高度精简，包括安全术语，网络实体，新型黑客组织，攻击方法，攻击工具等。情报之间的相关性不仅基于共现或聚类结构，还基于攻击链关联。例如，如图1所示，用户关注右下角的人读威胁情报。实际上，用户也可能对关注过的人读威胁情报左侧的另一条人读威胁情报感兴趣。通过观察标记为红色的实体，可以看出它们更相似并且共享相同的C&C服务器。通过比较标记为绿色的实体，顶部的人读威胁情报看起来与历史关注并不相似，但此人读威胁情报中提到的C&C服务器82.137.255.56和另一个C&C服务器31.9.48.183均属于APT-C-27组织。此时，用户也可能会对顶部的人读威胁情报感兴趣。

3.现有的通用的知识图谱不适用于人读威胁情报推荐系统，例如GoogleKnowledge Graph和Microsoft Satori。这些知识图谱成功应用于机器阅读，文本分类和文字嵌入等场景，但是它们中存在大量与安全领域无关的噪声。更重要的是，他们不考虑攻击链级别的实体关联。如果我们以图1为例，他们不考虑82.137.255.56和31.9.48.183这两个C&C服务器是否属于同一个攻击组织。

发明内容

本发明的目的是构建一个可用于人读威胁情报推荐的知识图谱，并利用其解决协同过滤冷启动问题，用少量数据达到较好的推荐效果。知识图谱通常由半结构化知识构建，例如维基百科，或者通过统计和语言学方法的组合从网络中获取。在本发明中，我们通过爬取微博安全大V发布的人读威胁情报等作为原始数据，构建了用于人读威胁情报推荐的知识图谱，其中提出了一个结合LDA主题模型的去噪实体提取模块和一个利用外部知识进行人读威胁情报推荐的长短期记忆神经网络(LSTM)。去噪实体抽取模块从原始文本数据中抽取主题词和特殊词，抽取主题词的好处是可以消减噪声，缩小实体抽取范围，而特殊词是诸如网络实体、黑客组织名称、攻击工具名称、攻击手法、英语短语等词，特殊词可以在一定情况下弥补低频重要实体的缺失。LSTM(Long Short-Term Memory)是长短期记忆网络，最早由Sepp Hochreiter和Jürgen Schmidhuber于1997年论文《Long short-term memory》提出，是一种时间循环神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。知识感知的长短期记忆神经网络(KLSTM)是一种基于内容的点击预测模型。它需要一个候选人读威胁情报和用户的关注历史作为输入，并输出用户是否点击输入的候选人读威胁情报，这点与LSTM并无明显不同，KLSTM与LSTM的不同之处在于它使用知识图谱中的信息作为辅助输入。具体来说，对于每个输入人读威胁情报，知识图谱中有几个与其对应的实体，利用知识图谱的知识表示来表征各实体和实体间关系，从而得到候选人读威胁情报向量和用户的关注历史即用户向量。

本发明提供的具体技术方案如下：

一种用于人读威胁情报推荐的知识图谱构建方法，其步骤包括：

1)对于专家集V中的每一专家v，爬取专家v发布的人读威胁情报，得到人读威胁情报集I；

2)对于人读威胁情报集I中的每一条人读威胁情报I_i，使用LDA主题模型建模选择一主题Topic_i，并保留该主题Topic_i中词概率大于设定阈值的主题词，形成主题词集Tw；

3)对于人读威胁情报集I中的各条人读威胁情报，获取其中设定的特殊实体，生成特殊实体集E；

4)将主题词集Tw和特殊实体集E作为知识图谱的实体，将每一条人读威胁情报作为一个知识图谱中的一情报实体，将主题词集Tw中的实体与情报实体的关系设置为isTopic、特殊实体集E中的实体与情报实体的关系设置为isTopic；对于知识图谱中的所有实体，如果两个实体为同一对象的不同称谓，则实体间关系为isEqual；若两个实体之间为包含关系，则实体间关系为isIn；若两个实体在攻击链上存在关系，则关系为isBind；

5)根据上述步骤2)、步骤3)和步骤4)中得到的实体以及实体关系，将实体用实体关系相连，得到用于人读威胁情报推荐的知识图谱。

步骤1)中，对爬取的人读威胁情报进行过滤，过滤掉没有点击的人读威胁情报，生成人读威胁情报集I。

一种用于人读威胁情报推荐的威胁情报推荐方法，其步骤包括：

1)选定微博安全大V候选人，构造专家集合EP，对于v∈EP,爬取v发布的人读威胁情报，以及对应于每条人读威胁情报的点赞过、转发过、评论过的所有微博用户ID，即点击过对应人读威胁情报的微博用户ID，作为后续推荐模型知识感知的长短期记忆神经网络(KLSTM)的训练测试用户。

2)针对每一名训练测试用户，将其关注过的所有安全大V作为一集合V^’，选取用户第一次关注v’,v’∈V’到最后一次点赞、转发、评论v^’发布的人读威胁情报之间的所有人读威胁情报。对所有用户和所有选取到的人读威胁情报，构造用户-项目交互矩阵A，矩阵中每一行代表一条人读威胁情报，每一列代表一名用户，矩阵中的元素a_ij代表用户j与人读威胁情报i交互情况，a_ij＝1代表用户j关注过人读威胁情报i，即用户j点赞、评论、转发过人读威胁情报i；a_ij＝0代表用户j未关注过人读威胁情报i，即用户j没有点赞、评论、转发过人读威胁情报i；a_ij为空代表用户j未关注过人读威胁情报i，且对该条人读威胁情报的兴趣未知，在后续的推荐模型知识感知的长短期记忆神经网络(KLSTM)的训练和测试中不予考虑。

3)对于每一条原始的人读威胁情报，使用LDA主题模型，选择最可能的主题，并保留该主题下词概率大于阈值的主题词，此处阈值选择要视情况而定，若文本较短，则概率可设置小值或全部保留，若长文本，则可通过预估知识图谱规模，适度调整。再者，考虑到微博上发布的人读威胁情报中大部分为中英混合形式，而使用适用于中文分词的方法会发生英文截断现象，所以我们删除此步骤得到的主题词中的所有纯英文词或短语。

4)对于每一条原始人读威胁情报匹配设定的特殊实体，例如IP地址、域名、英文短语等，其中英文短语采用最长匹配。

5)步骤3)和步骤4)的输出作为知识图谱的实体，还有一类实体为情报实体，即每一篇人读威胁情报即为一个情报实体。那么对于实体关系，包括步骤3)和步骤4)得到的每一实体与情报实体的关系，即isTopic。除此之外，对于所有实体而言，两个实体为同一对象的不同称谓，则实体间关系为isEqual；如果两个实体之间为包含关系，则实体间关系为isIn；若两个实体在攻击链上存在关系，如IP曾与域名绑定，则两实体之间的关系为isBind等。

6)根据上述步骤3)，步骤4)和步骤5)将实体用实体关系连接可构建一个人读威胁情报知识图谱。

7)对于步骤6)构建的人读威胁情报知识图谱，采用TransE系列知识表示方法，将实体和实体关系抽象成低维度的向量表示，即实体向量和实体关系向量。用户u的用户向量即为关注过的人读威胁情报实体向量的和，即同一用户u的标记为1的人读威胁情报对应的实体向量的和。

8)对于每一条人读威胁情报，将其所涉及到的实体词采用Word2Vec进行表示，人读威胁情报向量表示即为Word2Vec向量的和。

9)将步骤7)和步骤8)所生成的向量均归一化处理，将结果向量拼接，并与步骤2)用户-项目交互矩阵A中对应的标记作为知识感知的长短期记忆神经网络(KLSTM)的数据集，以用户u为例，用户u的进行归一化后的用户向量分别与用户-项目交互矩阵A中用户u所在列不为空处对应的人读威胁情报向量进行拼接，并加上对应处的标记即为用户u的数据集。知识感知的长短期记忆神经网络(KLSTM)采用十折交叉验证，将数据集分成10份，轮流将其中9份作为训练数据训练推荐模型，1份作为测试数据，进行验证该模型对用户u的推荐效果，最终测试结果取十次测试结果的平均值，其中测试结果的衡量指标包括但不限于准确率、召回率、F1值等。推荐模型的效果则取所有用户的最终测试结果的平均值。

10)对于一候选人读威胁情报，生成该候选人读威胁情报的人读威胁情报向量并与用户u的用户向量拼接，然后输入到训练后的该知识感知的长短期记忆神经网络，得出用户u是否会点击该候选人读威胁情报并根据该知识感知的长短期记忆神经网络的输出结果确定是否将该候选人读威胁情报推荐给用户u。

与现有技术相比，本发明的积极效果为：

本发明中的结合LDA主题模型的去噪实体抽取模块可以简化实体抽取步骤，减小实体提取的范围，并且过滤掉表征差的主题词，消减噪声，更准确的表示人读威胁情报，提升推荐效果；而将知识图谱信息和word2Vec进行拼接，作为推荐系统的输入，比现有的协同过滤方法更能有效解决冷启动和用户-项目交互矩阵稀疏性问题。

附图说明

图1为通过知识图谱实体连接的三段中英文混合人读威胁情报的示意图。

图2为本发明构建的知识图谱中关于APT-C-27子图谱的示意图。

图3为知识图谱构建及人读威胁情报推荐的整体方案的示意图。

图4为去噪实体抽取模块工作流程的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

如图1所示为通过知识图谱实体连接的三段中英文混合人读威胁情报的示意图。人读威胁情报语言高度精简，包括很多安全术语、网络实体、新出现的黑客组织，攻击方法，攻击工具等。情报之间的相关性不仅基于共现或者聚类结构，还应考虑攻击链层次的关联。例如，用户点击关注右下角的那条人读威胁情报，实际上，用户也可能对其左侧的那条人读威胁情报感兴趣。通过观察标记为斜体的实体，可以看出其具有较高相似性并且共享相同的C&C服务器。而对于顶部的那条人读威胁情报，通过比较标记下划线的实体，其看起来与用户关注的历史情报不那么相似，但是注意到，此条情报中的C&C服务器82.137.255.56与另一个C&C服务器31.9.48.183同属于APT-C-27组织。此时，用户也可能对该人读威胁情报感兴趣。

如图2所示，其为本发明构建的知识图谱中关于APT-C-27组织的两条人读威胁情报的子图。可以看到，这其中的实体关系包括：实体与情报实体的关系，即isTopic。除此之外，82.137.255.56和C&C两个实体在攻击链上存在关联关系，即82.137.255.56曾与APT-C-27组织的C&C服务器绑定过，则关系为isBind等。

如图3所示为实施例中知识图谱构建及人读威胁情报推荐的整体方案的示意图，具体包括如下步骤：

步骤1：选取微博上具有代表性的安全大V，生成专家集EP，针对v∈EP，爬取其发布的人读威胁情报，以及对应于每条人读威胁情报的点赞过、转发过、评论过的微博用户ID。对爬取的数据进行筛选，过滤掉点赞、转发、评论总次数少于十次的用户(此处过滤条件可根据具体情况而定)生成用户集U，以及过滤掉没有用户点赞、转发、评论记录的人读威胁情报，生成人读威胁情报集I。

步骤2：构造用户-项目交互矩阵A，对于u∈U，以及专家集EP中u关注的专家子集V′。对于v∈V′，选取用户u第一次关注该专家v到最后一次点赞、转发、评论时间段内该专家v发布的所有人读威胁情报，对于用户点赞、转发、评论过的人读威胁情报视为关注，标记为1；未进行过互动操作的即未点赞、转发、评论过的人读威胁情报视为不感兴趣，标记为0；用户对其他不在该范围内的人读威胁情报兴趣未知，在用户-项目交互矩阵中对应项为空，即矩阵中每一行代表一条人读威胁情报，每一列代表一名用户，矩阵中的元素a_ij代表用户j与人读威胁情报i交互情况，a_ij＝1代表用户j关注过人读威胁情报i，即用户j点赞、评论、转发过人读威胁情报i；a_ij＝0代表用户j未关注过人读威胁情报i，即用户j没有点赞、评论、转发过人读威胁情报i；a_ij为空代表用户j未关注过人读威胁情报i，且对该条人读威胁情报的兴趣未知，在后续的推荐模型知识感知的长短期记忆神经网络(KLSTM)的训练和测试中不予考虑，遍历V′，重复上述操作。

步骤3：对于每一条原始的人读威胁情报I_i，使用LDA主题模型建模，选择LDA主题模型的输出结果中概率最大的主题Topic_i，并保留该主题Topic_i中词概率大于阈值的主题词，形成主题词集Tw，此处概率选择要视情况而定，若文本较短，则概率可设置小值或全部保留，若长文本，则可通过预估知识图谱规模，适度调整。再者，考虑到微博上发布的人读威胁情报中大部分为中英混合形式，而使用适用于中文分词的方法会发生英文截断现象，所以我们删除此步骤得到的主题词中的所有纯英文词或短语。

步骤4：对于每一条原始的人读威胁情报I_i，匹配特殊实体，例如IP地址、域名、英文短语等，其中英文短语采用最长匹配，并将所有人读威胁情报中的特殊实体构成特殊实体集E。

步骤5：步骤3)和步骤4)的输出Tw和E作为知识图谱的实体，还有一类实体为情报实体IE，即每一条人读威胁情报为一个情报实体。那么对于实体关系，步骤3)和步骤4)实体即Tw和E与情报实体的关系均为isTopic。除此之外，对于所有实体而言，两个实体为同一对象的不同称谓，则实体间关系为isEqual；若两个实体之间为包含关系，则实体间关系为isIn；若两个实体在攻击链上存在关系，如IP曾与域名绑定，则关系为isBind等。

步骤6：根据上述步骤3)，步骤4)和步骤5)中的实体以及实体关系，将实体用实体关系相连可构建一个人读威胁情报知识图谱。

步骤7：对于步骤6)构建的人读威胁情报知识图谱，采用TransE系列知识表示方法，将实体和实体关系抽象成低维度的向量表示，给出用户u关注的历史人读威胁情报

人读威胁情报实体向量表示即为

用户向量e(u)即为关注过的人读威胁情报实体向量的和，即

步骤8：对于每一条人读威胁情报I_i，将其所涉及到的实体词采用Word2Vec进行表示w_k，人读威胁情报向量e(I_j)表示即为Word2Vec向量的和

此处n取值为人读威胁情报I_i包含的实体词个数。

步骤9：将步骤7)和步骤8)所生成的向量均归一化处理，具体方式是：

将结果向量拼接，并添加步骤2)的标记，即{e′(u),e′(I_j),0/1}作为用户u的数据集，具体做法是将用户u的进行归一化后的用户向量分别与用户-项目交互矩阵A中用户u所在列不为空处对应的人读威胁情报向量进行拼接，并加上对应处的标记即为用户u的数据集。知识感知的长短期记忆神经网络(KLSTM)采用十折交叉验证，将用户u的数据集分成10份，轮流将其中9份作为训练数据训练推荐模型，1份作为测试数据，进行验证该模型对用户u的推荐效果，最终测试结果取十次测试结果的平均值，其中测试结果的衡量指标包括但不限于准确率、召回率、F1值等。推荐模型的效果则取所有用户的最终测试结果的平均值。

如图4所示为去噪实体抽取模块工作流程的示意图，具体步骤如下：

步骤1：我们提出的去噪实体提取模块使用LDA主题模型来消除文本中的次要内容，保留可以更好地表征人读威胁情报的主要成分即主题词，此处由于我们使用的分词方法是适用于中文的，可能会发生英文截断，因此我们删除所有不包含中文的单词，并在第3)步中添加英文单词。

步骤2：对于提取的主题词列表，我们丢弃权重较低的词，即保留词概率大于阈值的主题词。

步骤3：匹配原始的人读威胁情报中的所有IP地址，域，英语短语等，我们称之为特殊实体。特别的，英文短语采用最长匹配。

步骤4：在步骤2中提取的主题词与特殊实体组合作为模块的输出。

综上所述，实施例中，人读威胁情报知识图谱的构建和基于知识图谱的人读威胁情报推荐为人读威胁情报的共享分发提供了一种新的思路，该方法提取筛选更能表征情报的实体，并在此基础上构建人读威胁情报知识图谱，然后将构建的知识图谱作为一种外部信息，把实体和实体关系抽象成低维向量，从而进行人读威胁情报的推荐，解决了传统协同过滤的冷启动问题，也扩展了威胁情报服务。

本发明未详细阐述部分属于本领域公知技术。

以上所述，仅为本发明部分具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种用于人读威胁情报推荐的知识图谱构建方法，其步骤包括：

4)将主题词集Tw和特殊实体集E作为知识图谱的实体，将每一条人读威胁情报作为一个知识图谱中的一情报实体，将主题词集Tw中的实体与情报实体的关系以及特殊实体集E中的实体与情报实体的关系均设置为isTopic；对于知识图谱中的所有实体，如果两个实体为同一对象的不同称谓，则实体间关系为isEqual；若两个实体之间为包含关系，则实体间关系为isIn；若两个实体在攻击链上存在关系，则关系为isBind；

2.如权利要求1所述的方法，其特征在于，步骤1)中，对爬取的人读威胁情报集I进行过滤，过滤掉没有点击的人读威胁情报，更新人读威胁情报集I。

3.一种用于人读威胁情报推荐的威胁情报推荐方法，其步骤包括：

1)对于专家集V中的每一专家v，爬取专家v发布的人读威胁情报，得到人读威胁情报集I；获取点击过所述人读威胁情报的微博用户ID，生成用户集U；

2)构造用户-项目交互矩阵A；其中，用户-项目交互矩阵A矩阵中每一行代表一条人读威胁情报，每一列代表一名用户，用户-项目交互矩阵A中的元素a_ij代表用户j与人读威胁情报i交互情况，a_ij＝1代表用户j关注或点击过人读威胁情报i，a_ij＝0代表用户j未关注或点击过人读威胁情报i；

3)对于人读威胁情报集I中的每一条人读威胁情报I_i，使用LDA主题模型建模选择一主题Topic_i，并保留该主题Topic_i中词概率大于设定阈值的主题词，形成主题词集Tw；

4)对于人读威胁情报集I中的各条人读威胁情报，获取其中设定的特殊实体，生成特殊实体集E；

5)将主题词集Tw和特殊实体集E作为知识图谱的实体，将每一条人读威胁情报作为一个知识图谱中的一情报实体，将主题词集Tw中的实体与情报实体的关系、特殊实体集E中的实体与情报实体的关系均设置为isTopic；对于知识图谱中的所有实体，如果两个实体为同一对象的不同称谓，则实体间关系为isEqual；若两个实体之间为包含关系，则实体间关系为isIn；若两个实体在攻击链上存在关系，则关系为isBind；

6)根据上述步骤3)、步骤4)和步骤5)中得到的实体以及实体关系，将实体用实体关系相连，得到用于人读威胁情报推荐的知识图谱；

7)采用TransE系列知识表示方法，将所述知识图谱中的实体和实体关系抽象成低维度的向量表示e；

8)对于每一条人读威胁情报I_i，将其所涉及到的实体词采用Word2Vec进行表示w_k，人读威胁情报向量

n取值为人读威胁情报I_i包含的实体词个数；

9)将用户向量e(u)归一化结果和向量e(I_j)归一化结果进行拼接并添加对应的标记值，作为知识感知的长短期记忆神经网络的输入，训练该知识感知的长短期记忆神经网络；

4.如权利要求3所述的方法，其特征在于，步骤1)中，对爬取的人读威胁情报集I进行过滤，过滤掉没有点击的人读威胁情报，更新人读威胁情报集I；对爬取的微博用户ID进行筛选，过滤掉点击总次数少于设定次数的微博用户ID，生成用户集U。

5.如权利要求3或4所述的方法，其特征在于，构造用户-项目交互矩阵A的方法为：对于每一用户j∈U，获取专家集V中用户j关注的专家子集V′；对于每一专家v∈V′，选取用户j第一次关注该专家v到用户j最后一次点击该专家v的人读威胁情报之间专家v发布的人读威胁情报，对于用户点击过的人读威胁情报视为关注，标记为1；未进行过互动操作的视为不感兴趣，标记为0；用户j对专家v发布的其他人读威胁情报在用户-项目交互矩阵中对应项为空，得到用户-项目交互矩阵A。

6.如权利要求3所述的方法，其特征在于，设用户u关注的历史人读威胁情报为

采用向量表示为

则用户u的用户向量

7.如权利要求3所述的方法，其特征在于，知识感知的长短期记忆神经网络采用十折交叉验证方法进行验证。