CN114547290B

CN114547290B - 一种基于条件共现度的攻击技巧提取方法

Info

Publication number: CN114547290B
Application number: CN202011358452.9A
Authority: CN
Inventors: 刘亮; 彭思琪; 廖珊
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-07-18
Anticipated expiration: 2040-11-27
Also published as: CN114547290A

Abstract

本发明涉及网络安全技术领域，是一种基于条件共现度的攻击技巧提取方法，核心是基于条件共现度，利用机器学习算法从网络安全事件报告中自动提取多个攻击技巧。本发明方法首先利用条件共现度将文本重构为带有共现词的一系列单词的集合。然后利用隐含狄利克雷分布（LDA）主题模型提取出主题词来计算文档与攻击技巧的语义相似度，将其作为文档的特征。最后把攻击技巧提取问题转化为多标签分类问题，利用机器学习算法完成对网络安全事件相关的文章中攻击技巧的抽取。本发明可以帮助网络安全研究人员更好地了解攻击者的在网络安全事件中所采取的技术手段，通过共现词的引入有效地增强了攻击技巧提取的性能。

Description

一种基于条件共现度的攻击技巧提取方法

技术领域

本发明属于网络安全技术领域，尤其涉及一种基于条件共现度的攻击技巧提取方法。

背景技术

在信息时代，网络威胁情报发展愈来愈迅速。面对当前日益严峻的威胁形势，各自为政地分头开展情报采集工作不仅会增大情报搜集的成本，还会限制情报信息的流动，这使得威胁情报价值无法最大化。在威胁和攻击不断变化升级的网络环境下，能及时获得情报信息至关重要。一个好的解决方法是共享威胁情报。企业可以从共享的威胁情报获取恶意IP地址、域名、恶意软件hash值和攻击者所使用的攻击技巧等，从而迅速而成功地对网络攻击做出反应，有效提升其对网络威胁的防御能力。

虽然网络安全研究人员通常会将网络安全事件进行整理和分析后通过博客或报告共享，这其中蕴含了大量的威胁情报相关信息，但是很少有作者会对此进行归纳总结。另一方面，到目前为止没有一个在国际上通用的威胁信息共享标准。因此随着威胁相关文章的大量发表，人工地从非结构化的上下文中提取有用信息的效率低。为了帮助网络安全研究人员更好地了解攻击者的在网络安全事件中所采取的多种技术手段，急需一种从网络安全事件报告中自动提取多种攻击技巧的方法。

发明内容

本发明是一种针对攻击技巧的提取技术，利用条件共现度，结合机器学习算法自动化地从网络安全事件报告中提取多个攻击技巧。

为了达到上述目的，本发明采取如下技术方案。

根据自然段将每个网络安全事件相关的文章分割为几个独立的子文档。

利用词共现的方法对子文档和语料库进行重构。

利用LDA主题模型，对文章基于不同的攻击技巧提取不同的主题词。

利用LDA主题模型，对不同攻击技巧的描述进行关键词提取。

通过对文章和攻击技巧描述进行主题词提取，使用Word2Vec将处理后含有组合词的语料库进行训练，得到主题词对应的词向量表示。

将文章中的每个主题依次与不同的攻击技巧计算余弦相似度，并累加，作为该篇文章的特征向量。

将攻击技巧作为标签，对多标签分类模型进行训练，从训练好的分类器中获取文章对应的攻击技巧。

通过采用上述技术方案，本发明具有如下有益效果。

本发明提出从网络安全事件报告中自动化地提取多个攻击技巧的方法，可以免去人工提取过程，从而提高提取有用信息的效率，这在威胁情报提取方面具有一定的应用价值。本发明将条件共现度应用到多标签分类领域，引入共现词能更准确地表达出文本的语义关系，进而提高了多标签分类模型的分类精度。

附图说明

图1为本发明提供的攻击技巧提取方法的流程图。

图2为本发明所述的文本重构的详细流程图。

图3为本发明选取的10种常见攻击技巧介绍。

具体实施方式

图为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1是本发明提供的攻击技巧提取方法的流程图，如图1所示，该方法包括如下步骤。

步骤S101：将与网络安全事件有关的文章和对攻击技巧的描述重构为带有组合词的一系列单词的集合：

根据自然段将每篇文章分割为几个独立的子文档，需要设定一个阈值，当段落中单词的数量大于该阈值，则该段落可以被划分为具有独立语义结构的子文档；否则，该段落需合并到下一段落。对分割后的子文档中的词计算条件共现度，并调整组合词的权重。根据得到的组合词及对应权重，对子文档进行重构。

步骤S102：使用LDA主题模型提取主题词：

为了抽取网络安全事件相关的文章中的多个攻击技巧，使用LDA主题模型，基于不同的攻击技巧提取不同的主题词。同样，也需要对不同攻击技巧的描述进行关键词提取。

步骤S103：利用提取出来的主题词计算每篇文章与各个攻击技巧描述的相似度：

通过对文章和攻击技巧描述进行主题词提取后，使用Word2Vec将处理后含有组合词的语料库进行训练，进而得到主题词对应的词向量表示。对文章中的每个主题依次计算其与某一个攻击技巧的余弦相似度，并累加，得到该篇文章与此攻击技巧的相似程度，将其作为该文章特征向量的某一维。与不同攻击技巧进行以上的相似度计算，得到文章的特征向量。

步骤S104：将攻击技巧作为标签，对多标签分类模型进行训练：

分别使用三种不同的分类器，即朴素贝叶斯分类器、支持向量机分类器和决策树分类器，对BR算法和LP算法的分类性能进行评估。将多个攻击技巧作为标签，对分类模型进行训练，最终从训练好的多标签分类器中获取文章对应的攻击技巧。

图2是本发明所述的文本重构的详细流程图，如图2所示，该方法包括如下步骤。

步骤S201：为了进一步确定单词的前后依赖关系，引入条件共现度方法，对分割后的子文档中的词计算条件共现度。

步骤S202：为了突出不同组合词在子文档中出现的频率，需对组合词的权重重新计算：

上式中为子文档中词/>到词/>的条件共现度，/>是词/>在子文档中出现的频率，为子文档中所有词频率的均值。

步骤S203：根据得到的组合词及对应权重，对子文档进行重构，得到由原始词和组合词构成的新的子文档。

图3是本发明选取的10种常见攻击技巧介绍，如图3所示，这10种常见网络攻击技巧及其描述来自MITRE公司推出的ATT&CK标准，本发明中的所需的与网络安全事件有关的文章均与这10个攻击技巧相关。

以上实例仅说明本发明的技术方案而并非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者同等替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于条件共现度的攻击技巧提取方法，其特征在于：

A、从各权威的威胁情报发布平台收集与安全事件有关文章的网页源码，然后对其进行预处理，将网页中的有效内容提取成文档；

B、根据自然段将提取出的每个网络安全事件相关的文章分割为几个独立的子文档；

C、利用词共现的方法对子文档和语料库进行重构；

D、利用LDA主题模型，对文章基于不同的攻击技巧提取不同的主题词；

E、利用LDA主题模型，对不同攻击技巧的描述进行关键词提取；

F、通过对文章和攻击技巧描述进行主题词提取，使用Word2Vec将处理后含有组合词的语料库进行训练，得到主题词对应的词向量表示；

G、将文章中的每个主题依次与不同的攻击技巧计算余弦相似度，并累加，作为该篇文章的特征向量；

H、将攻击技巧作为标签，对多标签分类模型进行训练，从训练好的分类器中获取文章对应的攻击技巧；

所述的步骤C文本重构具体包括如下步骤：

C1、为了进一步确定单词的前后依赖关系，引入条件共现度方法，对分割后的子文档中的词计算条件共现度；

C2、为了突出不同组合词在子文档中出现的频率，需对组合词的权重重新计算：

上式中d_ij为子文档中词i到词j的条件共现度，f_ii是词i在子文档中出现的频率，σ为子文档中所有词频率的均值；

C3、根据得到的组合词及对应权重，对子文档进行重构，得到由原始词和组合词构成的新的子文档。

2.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法，其特征在于，所述的步骤B文本分割进一步包括如下步骤：

B1、根据自然段将每篇文章分割为几个独立的子文档，需要设定一个阈值，当段落中单词的数量大于该阈值，则该段落可以被划分为具有独立语义结构的子文档；否则，该段落需合并到下一段落。

3.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法，其特征在于，所述的步骤D主题词提取进一步包括如下步骤：

D1、为了抽取网络安全事件相关的文章中的多个攻击技巧，使用LDA主题模型，基于不同的攻击技巧提取不同的主题词；同样，也需要对不同攻击技巧的描述进行关键词提取。

4.如权利要求1所述的一种基于条件共现度的攻击技巧提取方法，其特征在于，所述的步骤G特征向量进一步包括如下步骤：

G1、对文章中的每个主题依次计算其与某一个攻击技巧的余弦相似度，并累加，得到该篇文章与此攻击技巧的相似程度，将其作为该文章特征向量的某一维；

G2、与不同攻击技巧进行G1所述的相似度计算，得到文章的特征向量。