CN115225348A

CN115225348A - 一种获取网络威胁情报的方法、装置、介质及设备

Info

Publication number: CN115225348A
Application number: CN202210763813.0A
Authority: CN
Inventors: 张新
Original assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Current assignee: Beijing Topsec Technology Co Ltd; Beijing Topsec Network Security Technology Co Ltd; Beijing Topsec Software Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-10-21

Abstract

本申请实施例提供一种获取网络威胁情报的方法、装置、介质及设备，所述方法包括：获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的；将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。本申请的一些实施例采用机器学习模型得到与非结构化的原始数据对应的威胁情报，弥补现有技术无法获取针对非结构化数据的威胁情报的技术问题。

Description

一种获取网络威胁情报的方法、装置、介质及设备

技术领域

本申请涉及安全领域，具体而言本申请实施例涉及一种获取网络威胁情报的方法、装置、介质及设备。

背景技术

互联网已成为企业、政府和社会不可或缺的基础设施，商业、政府和社会互动越来越依赖互联网，但出于不同动机和意图的网络攻击风险也在增加。因此，网络安全已成为一个至关重要的研究和实践领域。为了防止组织受到网络攻击需要及时获得有关网络漏洞和攻击(称为威胁)的情报。威胁情报被定义为“基于证据的知识，包括背景、机制、指标、影响和可采取行动的建议，这些知识与现有或新出现的威胁或资产危害有关，可用于告知决策主体对该威胁或危害的反应”。网络安全领域的威胁情报，或网络威胁情报，提供及时有助于减少识别潜在安全漏洞和攻击的不确定性。

网络威胁情报通常可以从公开或正式来源中提取，这些来源以结构化数据格式正式发布威胁信息。结构化威胁情报遵循定义良好的数据模型，具有通用的格式和结构，如XML模式。因此，结构化的网络威胁情报可以很容易地被安全工具解析，以相应地分析和应对安全威胁。网络威胁情报的正式来源包括常见漏洞(CVE)数据库和国家漏洞数据库(NVD)。每个CVE条目都有一个标识符(ID)，其中包括前缀“CVE”、CVE条目创建或发布的年份以及四位或更多数字的序列号。CVE条目还简要描述了威胁，通常包括有关受影响产品、版本和供应商、威胁类型以及攻击的影响、方法和输入的信息。

网络威胁情报也可以通过秘密或非正式来源获得，如公共博客、暗网、论坛和社交媒体平台。非正式来源允许互联网上的任何个人或实体以自然语言或非结构化数据格式实时发布威胁信息。非结构化和公开可用的威胁情报也称为开源情报(OSINT)。与网络安全相关的OSINT是网络安全事件的早期预警源，为了优先应对网络威胁，网络安全分析师必须迅速确定目前在公共来源上讨论的新出现的威胁。然而，收集网络OSINT是一项耗时的任务，因为自然语言不明确，安全工具很难解析。对安全漏洞、威胁或攻击采取适当措施的任何延迟都可能导致更多损失。

发明内容

本申请实施例的目的在于提供一种获取网络威胁情报的方法、装置、介质及设备，通过本申请的实施例能够获取与从非正式来源收集的内容对应的网络威胁情报分析结果。

第一方面，本申请实施例提供一种获取网络威胁情报的方法，所述方法包括：获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的；将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。

本申请的一些实施例采用机器学习模型得到与非结构化的原始数据对应的威胁情报，弥补现有技术无法获取针对非结构化数据的威胁情报的技术问题。

在一些实施例中，所述获取待分析数据包括：获取所述原始数据，其中，所述原始数据属于非结构化数据；对所述原始数据进行结构化预处理，得到初始数据，其中，所述结构化预处理的处理方式包括：去除标点、去除数字和去除超链接中的至少一个；将所述原始数据表征为数字向量，得到所述待分析数据。

本申请的一些实施例提供了一种如何根据原始数据得到待分析数据的处理方法，进而可以将非结构化的原始数据处理为能够被网络模型处理的向量进而可借助机器学习模型来获取针对这些数据的威胁情报。

在一些实施例中，所述目标网络威胁情报检测模型采用新颖性检测算法实现。

本申请的一些实施例采用新颖性检测算法实现威胁检测，风险识别能力更强。

在一些实施例中，在将所述待分析数据输入目标网络威胁情报检测模型之前，所述方法还包括：获取目标威胁情报源的描述信息，其中，所述目标威胁情报源属于被判定为具有威胁的情报；获取已标注的网络威胁情报数据；根据所述描述信息和所述已标注的网络威胁情报数据对所述网络威胁情报检测模型进行训练，得到所述目标网络威胁情报检测模型。

本申请的一些实施例通过收集的结构化数据的威胁情报中的描述信息以及标注的非结构化数据的情报分析数据对机器学习模型进行训练得到目标网络威胁情报检测模型性能更好。

在一些实施例中，所述获取目标威胁情报源的描述信息，包括：通过下载方式获取通用漏洞披露(Common Vulnerabilities and Exposures)数据；从所述CVE数据中提取描述数据作为所述描述信息。

本申请的一些实施例进将与结构化数据对应的威胁情报中的描述信息作为训练数据，与直接将CVE数据作为处理对象相比可以明显减少数据处理量。

在一些实施例中，所述获取已标注的网络威胁情报数据，包括：从公共博客、论坛和社交媒体平台爬取数据，得到待标注数据；对所述待标注数据进行威胁情况标注，得到所述已标注的网络威胁情报数据，其中，所述威胁情况包括：是否具有威胁性，以及对于具有威胁性的进一步的处理措施。

本申请的一些实施例提供了一种通过标注方式获取训练数据的方法付。

在一些实施例中，所述根据所述描述信息和所述已标注的网络威胁情报数据对所述网络威胁情报检测模型进行训练，包括：对所述描述信息和所述已标注的网络威胁情报数据进行预处理，得到结构化训练数据，其中，所述预处理包括：去掉标点、去掉数字、去掉超链接、哈希标记和去掉停用词中的至少一种；采用数字向量表征所述结构化训练数据，得到向量化训练数据；将所述向量化训练数据输入所述网络威胁情报检测模型以对所述网络威胁情报检测模型进行训练。

本申请的一些实施例还提供了一种将非结构化数据处理为能够输入机器学习的向量的过程，使得本申请的技术方案得以实现。

在一些实施例中，所述描述信息和所述已标注的网络威胁情报数据组成语料库，所述描述信息和所述已标注的网络威胁情报数据包括多个文档，所述多个文档包括第一文档，所述第一文档包括第一术语，其中，所述采用数字向量表征所述结构化训练数据，包括：统计所述第一术语在所述第一文档中的出现次数，得到术语出现频次；基于所述语料库获取包括所述第一术语的文档的总数目得到第一数值，并获取所述第一数值与所述多个文档的文档总数的比值；根据所述比值和所述术语出现频次得到所述第一术语在所述第一文档中的权重，得到所述数字化向量。

本申请的一些实施例提供了一种获取向量化数据的过程。

在一些实施例中，通过如下公式计算所述数字向量：

TF-IDF(t,d)＝f(t,d)*log(N/n_t)

其中，TF-IDF(t,d)表征所述数字向量，f(t,d)表征所述术语出现频次，所述t用于表征所述第一术语，所述d表征所述第一文档，所述N表征所述文档总数，所述n_t表征所述语料库中存在所述第一术语在文档的总数目。

本申请的一些实施例提供一种向量化过程涉及的计算公式，使得向量化数据的获取更加客观准确。

在一些实施例中，所述语料库是由阳性样本数据组成的，其中，所述阳性样本数据表征训练数据均为具有威胁性的数据。

本申请的一些实施例通过阳性数据作为训练数据提升新颖性检测算法的技术效果。

在一些实施例中，所述网络威胁情报检测模型采用新颖性检测算法确定每个输入数据是否具有威胁性。

第二方面，本申请的一些实施例提供一种获取网络威胁情报的装置，所述装置包括：待分析数据获取模块，被配置为获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的；处理模块，被配置为将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。

第三方面，本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如第一方面任意实施例所述的方法。

第四方面，本申请的一些实施例提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现如第一方面任意实施例所述的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的获取网络威胁情报的系统的架构图；

图2为本申请实施例提供的获取网络威胁情报的方法的流程图；

图3为本申请实施例提供的目标网络威胁情报检测模型的架构图；

图4为本申请实施例提供的网络威胁情报检测模型的架构图；

图5为本申请实施例提供的获取网络威胁情报的装置的组成框图；

图6为本申请实施例提供的电子设备的组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

至少为了解决背景技术指出的技术缺陷，本申请的一些实施例出了一种基于新颖性检测进行网络威胁情报数据判断的方法，首先收集CVE数据和非结构化数据对应的威胁情报数据，然后对收集的数据进行处理和特征提取，最后使用新颖性检测方法进行训练生成检测模型，用来判断新收集的数据是否为网络威胁情报数据。

请参看图1，图1为本申请实施例提供的获取网络威胁情报的系统，该系统包括第一终端设备101、第二终端设备102以及服务器200。

第一终端设备101和第二终端设备102可以生成非结构化数据，例如，该非结构化数据是从第一终端设备101以及第二终端设备102上的公共博客、暗网、论坛和社交媒体平台等收集的非结构化数据。

需要说明的是，本申请的一些实施例并不限定获取非结构化数据的设备的具体类型。例如，在本申请的另一些实施例中也可以从服务器或者防火墙等设备上来获取需要处理的非结构化数据。

服务器200被配置为：对各种设备进行采集得到所有的待处理的非结构化数据，通过部署的目标网络情报检测模型来得到与这些非结构化数据对应的威胁情报分析结果。可以理解的是，服务器200上部署的目标网络威胁情报检测模型是对网络威胁情报检测模型进行训练得到的。

下面示例性阐述由服务器200执行的获取网络威胁情报的方法。

如图2所示，本申请的一些实施例提供一种获取网络威胁情报的方法，该方法包括：

S101，获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的。

下面示例性阐述S101的实现过程。

例如，在本申请的一些实施例中，S101示例性包括：获取所述原始数据，其中，所述原始数据属于非结构化数据；对所述原始数据进行结构化预处理，得到初始数据，其中，所述结构化预处理的处理方式包括：去除标点、去除数字和去除超链接中的至少一个；将所述原始数据表征为数字向量，得到所述待分析数据。例如，所述目标网络威胁情报检测模型采用新颖性检测算法实现。

也就是说，本申请的一些实施例提供了一种如何根据原始数据得到待分析数据的处理方法，进而可以将非结构化的原始数据处理为能够被网络模型处理的向量进而可借助机器学习模型来获取针对这些数据的威胁情报。

下面结合图3示例性阐述根据原始数据得到威胁性情报检测结果的模型图。

如图3所示，将原始数据(例如，从公共博客、暗网、论坛和社交媒体平台等收集的非结构化数据)输入数据预处理模块301，该预处理模块301至少被配置为对原始数据进行如下预处理后得到初始数据：去掉标点、数字、超链接、哈希标记、停用词等，对于中文数据需要首先进行分词处理。不难理解的是，通过这些数据预处理旨在去除输入数据中与识别网络威胁情报不相关的词语。

将初始数据输入图3的特征提取模块302，通过该模块将输入初始数据处理为向量，得到待分析数据。可以理解的是，该特征提取模块用于将预处理后的数据转换为数字向量表示。

将待分析数据输入目标网络威胁情报检测模型303，通过该目标网络威胁情报检测模型303可以得到与待分析数据对应的威胁情报检测结果。例如，该目标网络威胁情报检测模型303使用新颖性检测算法将每个输入判定为网络威胁情报类别的正常或异常，此处所述的新颖性检测算法包括但不仅限于one-class SVM等算法。

需要说明的是图3的目标网络威胁情报检测模型303是通过训练数据对网络威胁情报检测模型进行训练后得到的，下面示例性阐述该训练过程。

在本申请的一些实施例中，在执行S102之前所述方法还包括：

第一步，获取目标威胁情报源的描述信息，其中，所述目标威胁情报源属于被判定为具有威胁的情报。

例如，在本申请的一些实施例中，所述获取目标威胁情报源的描述信息的过程示例性包括：通过下载方式获取CVE数据；从所述CVE数据中提取描述数据作为所述描述信息。本申请的一些实施例进将与结构化数据对应的威胁情报中的描述信息作为训练数据，与直接将CVE数据作为处理对象相比可以明显减少数据处理量。

可以理解的是，CVE数据可以从网络中下载获取，本申请的一些实施例使用CVE的描述部分作为训练数据输入训练中的网络威胁情报检测模型403。

第二步，获取已标注的网络威胁情报数据。

例如，在本申请的一些实施例中，所述获取已标注的网络威胁情报数据，包括：从公共博客、论坛和社交媒体平台爬取数据，得到待标注数据；对所述待标注数据进行威胁情况标注，得到所述已标注的网络威胁情报数据，其中，所述威胁情况包括：是否具有威胁性，以及对于具有威胁性的进一步的处理措施。本申请的一些实施例提供了一种通过标注方式获取训练数据的方法。

例如，已标注的网络威胁情报数据需要首先从公共博客、暗网、论坛和社交媒体平台等爬取数据，然后进行人工标注。

第三步，根据所述描述信息和所述已标注的网络威胁情报数据对所述网络威胁情报检测模型进行训练，得到所述目标网络威胁情报检测模型。

例如，在本申请的一些实施例中，第三步的实现过程示例性包括：对所述描述信息和所述已标注的网络威胁情报数据进行预处理，得到结构化训练数据，其中，所述预处理包括：去掉标点、去掉数字、去掉超链接、哈希标记和去掉停用词中的至少一种；采用数字向量表征所述结构化训练数据，得到向量化训练数据；将所述向量化训练数据输入所述网络威胁情报检测模型以对所述网络威胁情报检测模型进行训练。本申请的一些实施例还提供了一种将非结构化数据处理为能够输入机器学习的向量的过程，使得本申请的技术方案得以实现。

下面示例性阐述获取数字向量的过程。

在本申请的一些实施例中，所述描述信息和所述已标注的网络威胁情报数据组成语料库，所述描述信息和所述已标注的网络威胁情报数据包括多个文档，所述多个文档包括第一文档，所述第一文档包括第一术语，其中，所述采用数字向量表征所述结构化训练数据，包括：统计所述第一术语在所述第一文档中的出现次数，得到术语出现频次；基于所述语料库获取包括所述第一术语的文档的总数目得到第一数值，并获取所述第一数值与所述多个文档的文档总数的比值；根据所述比值和所述术语出现频次得到所述第一术语在所述第一文档中的权重，得到所述数字化向量。本申请的一些实施例提供了一种获取向量化数据的过程。

例如，在本申请的一些实施例中，通过如下公式计算所述数字化向量：

TF-IDF(t,d)＝f(t,d)*log(N/n_t)

需要说明的是，所述语料库是由阳性样本数据组成的，其中，所述阳性样本数据表征训练数据均为具有威胁性的数据。本申请的一些实施例通过阳性数据作为训练数据提升新颖性检测算法的技术效果。

下面结合图4示例性阐述上述第三步的实现过程。

如图4所示，本申请一些实施例将上述获取的描述信息以及已标注的网络威胁情报数据输入数据预处理模块301，通过该数据预处理模块进行预处理后得到初始数据；再将初始数据输入特征提取模块302得到待分析数据，之后再将待分析数据输入训练中的网络威胁情报检测模型403得到威胁情报检测结果。

图4的数据预处理模块301所述的数据预处理模块旨在去除输入数据中与识别网络威胁情报不相关的词语。这个阶段主要是去掉标点、数字、超链接、哈希标记、停用词等，对于中文数据需要首先进行分词处理。

图4的特征提取模块302是将预处理后的数据转换为数字向量表示。为了将每个文档表示为一个向量，本申请的一些实施例使用TF-IDF方法，该方法将权重分配给文档术语，如下所示。设d是语料库中的文档，t是文档中的术语。文件d中术语t的权重定义为：

TF-IDF(t,d)＝f(t,d)*log(N/nt)

其中，f(t，d)是文档d中出现术语t的次数，N是语料库中文档的总数，nt是包含术语t的文档的数量。值得注意的是，本申请一些实施例的训练语料库只包含阳性样本。因此，训练语料库中的文档总数就是阳性样本的总数。

图4的网络威胁情报检测模型403在将收集到的网络威胁情报和CVE描述转化为数字向量后，使用新颖性检测算法将每个输入判定为网络威胁情报类别的正常或异常。此处所述的新颖性检测算法包括但不仅限于one-class SVM。威胁情报检测结果用于记录判断新的输入数据是否为网络威胁情报数据的分析结果。

也就是说，本申请的一些实施例可应用于网络威胁情报收集类相关的产品。例如，本申请一些实施例提供的获取网络威胁情报的方法的流程如下：使用爬虫模块爬取公共博客、暗网、论坛和社交媒体平台等网络中的数据。对爬取的数据进行预处理和特征提取，使用本发明中训练生成的模型判断爬取的数据是否为网络威胁情报数据。如果是网络威胁情报数据则进行进一步的处理，人工分析或者使用自动提取的方式进行威胁数据的提取。将获取的威胁情报相关的数据进行入库和下发等处理。

S102，将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。本申请的一些实施例采用机器学习模型得到与非结构化的原始数据对应的威胁情报，弥补现有技术无法获取针对非结构化数据的威胁情报的技术问题。在一些实施例中，所述网络威胁情报检测模型采用新颖性检测算法确定每个输入数据是否具有威胁性。

可以理解的是，本申请的一些实施例使用新颖性检测的方法，无须收集非网络威胁情报类的数据，减少了数据收集的工作量。本申请的一些实施例使用自动化的方法进行网络威胁情报数据的判断，提高了数据分析的效率，减少了分析人员的工作量。本申请的一些实施例将CVE的描述作为输入，提供了检测的准确率。本申请的一些实施例可以解决判断从公共博客、暗网、论坛和社交媒体平台等收集的非结构化数据是否为网络威胁情报的问题，能够从海量的数据中自动判断识别出网络威胁情报相关的内容，减少人工工作量，提高分析效率。本申请的一些实施例将CVE数据库中的描述作为输入，CVE作为正式的威胁情报源，其数据的准确性有保障，能够提高网络威胁情报检测的准确率。本申请的一些实施例提出的新颖性检测只使用网络威胁情报数据作为输入，无须收集其他类型的数据，由于网络中的信息类型多种多样，收集各个类型的数据不仅工作量大，而且也不可能能够完全收集全各个类型的数据，因此使用新颖性检测方法，能够避免其他类型数据的收集。

请参考图5，图5示出了本申请实施例提供的获取网络威胁情报的装置，应理解，该装置与上述图2方法实施例对应，能够执行上述方法实施例涉及的各个步骤，该装置的具体功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块，该获取网络威胁情报的装置，包括：待分析数据获取模块501以及处理模块502。

待分析数据获取模块501，被配置为获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的。

处理模块502，被配置为将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法中的对应过程，在此不再过多赘述。

本申请的一些实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时可实现如上述获取网络威胁情报的方法中任意实施例所述的方法。

如图6所示，本申请的一些实施例提供一种电子设备600，该电子设备600包括存储器610、处理器620以及存储在所述存储器610上并可在所述处理器620上运行的计算机程序，其中，所述处理器620通过总线630从存储器610读取程序并执行所述程序时可实现如上述获取网络威胁情报的方法中任意实施例所述的方法。

处理器520可以处理数字信号，可以包括各种计算结构。例如复杂指令集计算机结构、结构精简指令集计算机结构或者一种实行多种指令集组合的结构。在一些示例中，处理器520可以是微处理器。

存储器510可以用于存储由处理器520执行的指令或指令执行过程中相关的数据。这些指令和/或数据可以包括代码，用于实现本申请实施例描述的一个或多个模块的一些功能或者全部功能。本公开实施例的处理器520可以用于执行存储器510中的指令以实现图2中所示的方法。存储器510包括动态随机存取存储器、静态随机存取存储器、闪存、光存储器或其它本领域技术人员所熟知的存储器。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种获取网络威胁情报的方法，其特征在于，所述方法包括：

获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的；

将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。

2.如权利要求1所述的方法，其特征在于，所述获取待分析数据包括：

获取所述原始数据，其中，所述原始数据属于非结构化数据；

对所述原始数据进行结构化预处理，得到初始数据，其中，所述结构化预处理的处理方式包括：去除标点、去除数字和去除超链接中的至少一个；

将所述原始数据表征为数字向量，得到所述待分析数据。

3.如权利要求1-2任一项所述的方法，其特征在于，所述目标网络威胁情报检测模型采用新颖性检测算法实现。

4.如权利要求1-2任一项所述的方法，其特征在于，在将所述待分析数据输入目标网络威胁情报检测模型之前，所述方法还包括：

获取目标威胁情报源的描述信息，其中，所述目标威胁情报源属于被判定为具有威胁的情报；

获取已标注的网络威胁情报数据；

根据所述描述信息和所述已标注的网络威胁情报数据对所述网络威胁情报检测模型进行训练，得到所述目标网络威胁情报检测模型。

5.如权利要求4所述的方法，其特征在于，所述获取目标威胁情报源的描述信息，包括：

通过下载方式获取通用漏洞披露CVE数据；

从所述CVE数据中提取描述数据作为所述描述信息。

6.如权利要求4所述的方法，其特征在于，所述获取已标注的网络威胁情报数据，包括：

从公共博客、论坛和社交媒体平台爬取数据，得到待标注数据；

对所述待标注数据进行威胁情况标注，得到所述已标注的网络威胁情报数据，其中，所述威胁情况包括：是否具有威胁性，以及对于具有威胁性的进一步的处理措施。

7.如权利要求4所述的方法，其特征在于，所述根据所述描述信息和所述已标注的网络威胁情报数据对所述网络威胁情报检测模型进行训练，包括：

对所述描述信息和所述已标注的网络威胁情报数据进行预处理，得到结构化训练数据，其中，所述预处理包括：去掉标点、去掉数字、去掉超链接、哈希标记和去掉停用词中的至少一种；

采用数字向量表征所述结构化训练数据，得到向量化训练数据；

将所述向量化训练数据输入所述网络威胁情报检测模型以对所述网络威胁情报检测模型进行训练。

8.如权利要求7所述的方法，其特征在于，所述描述信息和所述已标注的网络威胁情报数据组成语料库，所述描述信息和所述已标注的网络威胁情报数据包括多个文档，所述多个文档包括第一文档，所述第一文档包括第一术语，其中，

所述采用数字向量表征所述结构化训练数据，包括：

统计所述第一术语在所述第一文档中的出现次数，得到术语出现频次；

基于所述语料库获取包括所述第一术语的文档的总数目得到第一数值，并获取所述第一数值与所述多个文档的文档总数的比值；

根据所述比值和所述术语出现频次得到所述第一术语在所述第一文档中的权重，得到所述数字向量。

9.如权利要求8所述的方法，其特征在于，通过如下公式计算所述数字向量：

TF-IDF(t,d)＝f(t,d)*log(N/n_t)

其中，TF-IDF(t,d)表征所述数字向量，f(t,d)表征所述术语出现频次，t用于表征所述第一术语，d表征所述第一文档，N表征所述文档总数，n_t表征所述语料库中存在所述第一术语在文档的总数目。

10.如权利要求8所述的方法，其特征在于，所述语料库是由阳性样本数据组成的，其中，所述阳性样本数据表征训练数据均为具有威胁性的数据。

11.如权利要求7所述的方法，其特征在于，所述网络威胁情报检测模型采用新颖性检测算法确定每个输入数据是否具有威胁性。

12.一种获取网络威胁情报的装置，其特征在于，所述装置包括：

待分析数据获取模块，被配置为获取待分析数据，其中，所述待分析数据是对非结构化的原始数据进行处理后得到的；

处理模块，被配置为将所述待分析数据输入目标网络威胁情报检测模型，通过所述目标网络威胁情报检测模型得到针对所述待分析数据的威胁性情报检测结果，其中，所述威胁性情报检测结果包括无威胁性检测结果或者有威胁性检测结果，所述有威胁性检测结果至少用于说明威胁类型。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时可实现权利要求1-11中任意一项权利要求所述的方法。

14.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1-11中任意一项权利要求所述的方法。