CN114297377A

CN114297377A - 威胁指标的分析方法及分析装置

Info

Publication number: CN114297377A
Application number: CN202111429763.4A
Authority: CN
Inventors: 姚剑文; 潘季明
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-08

Abstract

本发明提出了一种威胁指标的分析方法及分析装置，分析方法，包括：收集待分析数据；对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。本发明通过利用语言模型，对归一化后的候选威胁指标能有效的提取其中所包含的语义信息，根据模型所预测的结果进行威胁指标相关术语的自动挖掘，避免了人工筛选威胁指标相关术语。避免了后期人工维护，同时有效的降低了威胁指标漏识别率从而达到良好的模型泛化能力。

Description

威胁指标的分析方法及分析装置

技术领域

本发明涉及网络安全技术领域，尤其涉及一种威胁指标的分析方法及分析装置。

背景技术

为适应快速发展的网络威胁，安全专业人员通过公共来源(博客、论坛等)收集威胁指标IOC(Indicators of Compromise)如恶意URL、恶意IP、恶意域名等。用于部署到各种安全机制提供安全决策，如入侵检测系统。

如今威胁类数据以高速和多样化的形式在不同结构化文本形式下不断产生，如在这一些安全研究人员、安全厂商发布的文章中存在着大量在安全技术方面具有极高价值的信息，这些信息有利于相关技术人员在网络安全方面实现重大突破。目前，从非结构化文本中自动收集此类信息受到了当今自然语言处理(NLP)技术的推进。

发明内容

本发明要解决的技术问题是如何降低威胁情报识别模型的复杂度，及提高威胁情报识别模型的泛化能力，本发明提出一种威胁指标的分析方法及分析装置。

根据本发明实施例的威胁指标的分析方法，包括：

收集待分析数据；

对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；

对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；

将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。

根据本发明的一些实施例，所述方法还包括：

存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。

在本发明的一些实施例中，在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。

根据本发明的一些实施例，所述方法还包括：

在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。

在本发明的一些实施例中，威胁指标报告的生成方法包括：

用识别出的威胁指标进行填充威胁指标内容标签，用与威胁指标对应的相关术语进行填充威胁指标的描述标签，用开源的TextRank算法抽取摘要，用所述待分析数据的链接作为链接标签，用威胁指标的分析时间作为预测时间标签。

根据本发明实施例的威胁指标的分析装置，包括：

数据收集模块，用于收集待分析数据；

提取模块，用于对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；

特征提取模块，用于对所述候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；

分析模块，用于将所述输入向量输入预先训练好的分类模型中，判定所述候选威胁指标是否为威胁指标。

根据本发明的一些实施例，所述装置还包括：相关术语挖掘模块，用于存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。

在本发明的一些实施例中，所述相关术语挖掘模块在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。

根据本发明的一些实施例，所述装置还包括：报告生成模块，用于在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。

在本发明的一些实施例中，报告生成模块具体用于：

本发明提出的威胁指标的分析方法及装置具有如下有益效果：

本发明面向威胁指标检测以及自动生成威胁指标报告，提出了一种利用自然语言处理技术从文档中识别威胁指标以及挖掘威胁指标的相关术语的一种检测方法及模型。通过利用bert语言模型，对归一化后的候选威胁指标能有效的提取其中所包含的语义信息，根据模型所预测的结果进行威胁指标相关术语的自动挖掘，避免了人工筛选威胁指标相关术语。且随着预测数据的不断增多挖掘出的相关术语也不断迭代增加。避免了后期人工维护，同时使用bert提取的上下文特征有效的降低了IoC威胁指标漏识别率从而达到良好的模型泛化能力。

附图说明

图1为根据本发明实施例的威胁指标的分析方法流程图；

图2为根据本发明实施例的威胁指标的分析方法流程图；

图3为根据本发明实施例的威胁指标的分析装置的组成示意图。

附图标记：

分析装置100，

数据收集模块10，提取模块20，特征提取模块30，模型训练模块40，相关术语挖掘模块50，分析模块60，报告生成模块70。

具体实施方式

为更进一步阐述本发明为达成预定目的所采取的技术手段及功效，以下结合附图及较佳实施例，对本发明进行详细说明如后。

本发明中说明书中对方法流程的描述及本发明说明书附图中流程图的步骤并非必须按步骤标号严格执行，方法步骤是可以改变执行顺序的。而且，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

相关技术中，通过利用正则表达式匹配到候选IOC和相关术语如读取、下载等，定位出包含候选IOC的相关语句。然后利用依存句法分析识别出句子中词汇与词汇之间的依存关系，从这个依存关系图中提取包含候选IOC和相关术语的最小子图。计算图和图之间的相似度得分，用来作为分类器的输入特征，采用逻辑回归作为分类器。

上述技术基于描述IOC的语句中必定包含相关术语这一前提，所以需要事先收集一些对IOC描述的相关术语。然后，当相关术语和候选IOC都出现在句子中后就把这句话作为候选IOC语句，用于后续的分类。所以该技术的缺点有：

(1)相关术语的收集和后期维护；

(2)在该技术的前提下会导致漏识别率提升。

另有相关技术中，获取多源情报的威胁指标IOC数据，并对所述IOC数据进行预处理，得到待分析数据；将所待分析数据输入威胁情报检测模型进行检测，得到威胁检测结果；若根据所述威胁检测结果判断获知所述待分析数据为威胁情报，则将所述威胁检测结果发送至显示终端进行显示。所述装置包括：数据预处理模块、数据检测模块和结果显示模块。

上述技术中，若待分析数据与本地或云端的威胁数据匹配后确定为威胁情报，其中所述本地或云端的威胁数据包括定期更新的白名单、黑名单和威胁系数变更名单。使用黑白名单的方式模型不具有泛化能力。

本发明主要利用自然语言处理技术在非结构化的安全研究人员、安全厂商发布的文章中提取IOC，实现IOC威胁指标的检测并自动生成IOC报告。能够避免相关术语的人工收集和后期维护、降低IOC威胁指标漏识别率及模型具有良好的泛化能力。

如图1和图2所示，根据本发明实施例的威胁指标的分析方法，包括：

S100，收集待分析数据；

例如，可以从网络上爬取与安全相关的文章，如安全技术博客、各大网络安全公司发布的安全事件文章、APT事件报告、安全事件相关的微信公众号推文等。

S200，对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；

其中，定义的正则表达式包括：IP地址(IPv4和IPv6)；URL地址；域名；电子邮件地址；哈希；文件名。为了覆盖更加广泛的数据，支持常见的混淆技术。如针对IPv4地址：混淆地址：1[.]1[.]1[.]1真实地址：1.1.1.1；混淆地址：1(.)1(.)1(.)1真实地址：1.1.1.1；针对电子邮件地址：混淆地址：me[@]example.com真实地址me@example.com：；混淆地址：meat example.com真实地址：em@example.com；并在提取混淆威胁指标后还原为真实的威胁指标，便于后续步骤的进行。

S300，对候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；

需要说明的是，由于威胁指标是一些规则性较强的实体，比如说恶意的IP；恶意的域名。可以通过正则表达式来提取，但从文本的角度来说IP和域名是否具有恶意性是根据上下文的语境所决定的而和它本身的值没有关系。所以候选威胁指标本身只能表达威胁指标的类型，而无法表达是否具有恶意性。为了使其候选威胁指标保留类型特征而忽视本身值的特征，需要对候选威胁指标进行归一化处理。

S400，将输入向量输入预先训练好的分类模型中，判定候选威胁指标是否为威胁指标。

例如，可以采用bert加分类层建立模型。设置训练轮数(epoch)、批次大小(batchsize)、学习率(lr)、输入的最大长度(max_len)等参数，采用交叉熵损失函数作为损失函数。测试结果并调整超参数至最优状态，得到训练好的分类模型。

根据本发明的一些实施例，方法还包括：

S500，存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述威胁指标的相关术语。例如，相关术语可以包括：下载、读取、写入、注册等。

在本发明的一些实施例中，在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。例如，可以每增加一千个样本就进行一次关联分析。

根据本发明的一些实施例，方法还包括：

S600，在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。

在本发明的一些实施例中，威胁指标报告的生成方法包括：

用识别出的威胁指标进行填充威胁指标内容标签，用与威胁指标对应的相关术语进行填充威胁指标的描述标签，用开源的TextRank算法抽取摘要，用待分析数据的链接作为链接标签，用威胁指标的分析时间作为预测时间标签。

如图3所示，根据本发明实施例的威胁指标的分析装置100，包括：数据收集模块10、提取模块20、特征提取模块30及分析模块60。

其中，数据收集模块10用于收集待分析数据；

提取模块20用于对收集的待分析数据进行分句处理，并使用正则表达式从待分析数据中提取包含候选威胁指标的候选语句；

特征提取模块30用于对候选语句中的候选威胁指标进行归一化处理后，输入语言模型获取输入向量；

分析模块60用于将输入向量输入预先训练好的分类模型中，判定候选威胁指标是否为威胁指标。

根据本发明的一些实施例，如图3所示，分析装置100还包括：相关术语挖掘模块50，用于存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述威胁指标的相关术语。例如，相关术语可以包括：下载、读取、写入、注册等。

在本发明的一些实施例中，相关术语挖掘模块50在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。例如，可以每增加一千个样本就进行一次关联分析。

根据本发明的一些实施例，如图3所示，分析装置100还包括：报告生成模块70，用于在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。

在本发明的一些实施例中，报告生成模块70具体用于：

本发明面向威胁指标检测以及自动生成威胁指标报告，提出了一种利用自然语言处理技术从文档中识别威胁指标以及挖掘威胁指标的相关术语的一种检测方法及模型。通过利用bert语言模型，对归一化后的候选威胁指标能有效的提取其中所包含的语义信息，根据模型所预测的结果进行威胁指标相关术语的自动挖掘，避免了人工筛选威胁指标相关术语。且随着预测数据的不断增多挖掘出的相关术语也不断迭代增加。避免了后期人工维护，同时使用bert提取的上下文特征有效的降低了威胁指标漏识别率从而达到良好的模型泛化能力。

下面参照附图详细描述根据本发明的威胁指标的分析方法及识别装置。值得理解的是，下述描述仅是示例性描述，而不应理解为对本发明的具体限制。

本发明提出的威胁指标的分析方法包括以下步骤：(1)数据收集；(2)候选IOC语句的提取；(3)IOC特征提取；(4)模型训练；(5)相关术语挖掘；(6)IOC报告生成。

威胁指标的分析装置100包括：数据收集模块10、提取模块20、特征提取模块30、模型训练模块40及相关术语挖掘模块50。

威胁指标的分析流程如下：

A100，数据收集；

从网络上爬取与安全相关的文章，如安全技术博客、各大网络安全公司发布的安全事件文章、APT事件报告、安全事件相关的微信公众号推文等。

A200，候选IOC语句提取；

把所有收集到的与网络安全相关的数据进行分句处理，并使用正则表达式提取包含候选IOC的相关语句的描述。其中，定义的正则表达式包括：IP地址(IPv4和IPv6)；URL地址；域名；电子邮件地址；哈希；文件名。为了覆盖更加广泛的数据，支持常见的混淆技术。如针对IPv4地址：混淆地址：1[.]1[.]1[.]1真实地址：1.1.1.1；混淆地址：1(.)1(.)1(.)1真实地址：1.1.1.1；针对电子邮件地址：混淆地址：me[@]example.com真实地址me@example.com：；混淆地址：me at example.com真实地址：em@example.com；并在提取混淆IoC后还原为真实的IoC，便于后续步骤的进行。

A300，IOC特征提取；

由于IOC威胁指标是一些规则性较强的实体，比如说恶意的IP；恶意的域名。可以通过正则表达式来提取，但从文本的角度来说IP和域名是否具有恶意性是根据上下文的语境所决定的而和它本身的值没有关系。所以候选IOC本身只能表达IOC的类型，而无法表达是否具有恶意性。为了使其候选IOC保留类型特征而忽视本身值的特征，需要对候选IOC进行归一化处理。

把句子中的候选IOC替换为特殊词汇，同时记录原始被替换数据的内容。例如通过正则表达式匹配到的IP字符串替换为[IP]；url替换为[URL]；哈希替换为[HASH]；文件名替换为[FILE]。对如下包含候选IOC的句子：The trojan downloads file ok.zip form theserver经过特殊词汇替换后为：The trojan downloads file[FILE]from the server也就是把ok.zip替换为了[FILE]。替换的规则如下表所述：

IoC类别	特殊词汇
		IP地址	[IP]
URL地址	[URL]
		电子邮件地址	[EMAIL]
哈希	[HASH]
		文件名	[FILE]
域名	[DOMAIN]

得益于自然语言处理技术的发展，所诞生出的bert语言模型可以学习到上下文的语境信息，并且bert模型在多个任务上取得了很好的成绩。采用bert模型来提取候选IOC的上下文语境特征信息。把替换后的数据输入到bert分词器中，在bert词典中把unused类型的词汇依次替换为该特殊词汇同时指定被替换的特殊词汇为不可分割的词汇，把分词器输出的单词ID输入到bert语言模型中进行编码。然后，提取特殊词汇经bert编码后所对应的向量。

A400，模型训练；

采用bert加分类层建立模型。设置训练轮数(epoch)、批次大小(batch size)、学习率(lr)、输入的最大长度(max_len)等参数，采用交叉熵损失函数作为损失函数。测试结果并调整超参数至最优状态。

A500，相关术语挖掘；

利用训练完成后的模型在未知样本上预测，保留识别出包含IoC的样本。对IoC样本进行关联分析，采用Apriori算法挖掘出用于描述IoC的相关术语如：下载、读取、写入、注册等。在进行关联分析时首先对IoC语句进行分词和去停用词处理。根据实验结果的优劣来设置最小支持度和最小置信度参数，以及设定每增加若干个IoC样本就进行一次关联分析并存入到数据库中，比如每增加一千个样本就进行一次关联分析。

A600，生成IoC报告；

在识别了IoC以及与之对应的相关术语描述后，可以自动生成这篇文章的IoC报告。IoC内容标签用识别出的IoC进行填充，IoC的描述标签用与之对应的相关术语进行填充。文章的摘要标签采用开源的TextRank算法为文档抽取摘要。原始文章链接作为链接标签以及模型的预测时间作为预测时间标签。

综上所述，本发明面向IoC检测以及自动生成IoC报告，提出了一种利用自然语言处理技术从文档中识别IoC以及挖掘IoC的相关术语的一种检测方法及模型。通过利用bert语言模型，对归一化后的候选IoC能有效的提取其中所包含的语义信息，根据模型所预测的结果进行IoC相关术语的自动挖掘，避免了人工筛选IoC相关术语。且随着预测数据的不断增多挖掘出的相关术语也不断迭代增加。避免了后期人工维护，同时使用bert提取的上下文特征有效的降低了IoC威胁指标漏识别率从而达到良好的模型泛化能力。

通过具体实施方式的说明，应当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图示仅是提供参考与说明之用，并非用来对本发明加以限制。

Claims

1.一种威胁指标的分析方法，其特征在于，包括：

收集待分析数据；

2.根据权利要求1所述的威胁指标的分析方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的威胁指标的分析方法，其特征在于，在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。

4.根据权利要求2所述的威胁指标的分析方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的威胁指标的分析方法，其特征在于，威胁指标报告的生成方法包括：

6.一种威胁指标的分析装置，其特征在于，包括：

数据收集模块，用于收集待分析数据；

7.根据权利要求6所述的威胁指标的分析装置，其特征在于，所述装置还包括：相关术语挖掘模块，用于存储识别出包含威胁指标的样本，对样本进行关联分析，采用Apriori算法挖掘出用于描述所述威胁指标的相关术语。

8.根据权利要求7所述的威胁指标的分析装置，其特征在于，所述相关术语挖掘模块在进行关联分析时，每增加预设个数的样本，进行一次关联分析，并存储分析结果。

9.根据权利要求7所述的威胁指标的分析装置，其特征在于，所述装置还包括：报告生成模块，用于在识别威胁指标，完成与威胁指标对应的相关术语挖掘后，自动生成威胁指标报告。

10.根据权利要求9所述的威胁指标的分析装置，其特征在于，报告生成模块具体用于：