CN112148956A

CN112148956A - 一种基于机器学习的暗网威胁情报挖掘系统和方法

Info

Publication number: CN112148956A
Application number: CN202011065192.6A
Authority: CN
Inventors: 邹福泰; 施纬; 吴越; 李林森
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-29

Abstract

本发明公开了一种基于机器学习的暗网威胁情报挖掘系统和方法，涉及计算机网络安全领域，暗网威胁情报挖掘系统包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块；威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。本发明采用规则匹配、人工筛选、深度学习的方法提取暗网网页中的威胁情报，在保持较高准确率的同时大大提升了效率，同时也集成了完整的数据下载、数据存储、数据预处理以及多功能的数据接口，为暗网安全事件调查提供辅助作用。

Description

一种基于机器学习的暗网威胁情报挖掘系统和方法

技术领域

本发明涉及计算机网络安全领域，尤其涉及一种基于机器学习的暗网威胁情报挖掘系统和方法。

背景技术

暗网(Dark Web)，是指只能用特殊软件、特殊授权或对电脑做特殊设置才能访问的网络，构成暗网的隐藏服务网络包括F2F的小型点对点网络以及由公共组织和个人运营的大型流行网络，这些网络大部分都使用分布式网络系统，每个用户都作为暗网中的中继节点，暗网中的流量也通过层层转发和加密来实现匿名的效果。常见的有 Tor(洋葱路由)、I2P、FREENET、ZERONET等，其中Tor是目前最常用的暗网网络，其中的网站规模和数量远大于其他。由于访问门槛的存在与加密算法的应用，暗网具有较高的匿名性。

事实上，在网络安全领域，对暗网的研究是公认的必要之举。许多安全事件都与暗网有着密不可分的联系。由于暗网的匿名性强，很多黑客(团体)都在暗网上进行违法活动，包括出售漏洞信息、提供黑客服务、出售盗取的数据等严重危害网络空间安全的活动，而这些内容在明网(Clearnet)上往往是滞后的。因此，针对暗网的威胁情报研究有助于我们全面、迅速地捕捉到相关安全事件信息，及时减少损失，是非常有必要的。

威胁情报是一种基于证据的知识，包括了情境、机制、指标、隐含和实际可行的建议。威胁情报描述了现存的或者是即将出现针对资产的威胁或危险，并可以用于通知主体针对相关威胁或危险采取某种响应；通俗来说，威胁情报是关于威胁的信息，利用公开的资源，用于发现威胁并指导企业行动以改善安全状况。暗网中存在的威胁情报是多方面的，例如数据贩卖信息、黑客身份信息、0day漏洞信息等。然而暗网中的信息庞杂，真假难辨，如何从海量的暗网网页中提取出有用的威胁信息就是需要解决的核心问题。

暗网安全难题主要有3个方面：一是暗网中的危险分子(主要指黑客)难以溯源，二是暗网中的违法交易(黑市)难以管控，三是暗网中的信息庞杂。这刚好形成三个方面：黑客-黑市-信息，这三个方面又是相互关联的，黑客作为活动主体，黑市作为活动场所，信息包含活动的内容。因此，所要提取的威胁情报也是针对这三个方面的：黑客-对应暗网用户信息，黑市-对应着暗网市场、商品信息，信息-对应着网页威胁内容。

传统的威胁情报提取方式多为人工提取结合规则匹配，效率较低。

因此，本领域的技术人员致力于开发一种基于机器学习的暗网威胁情报挖掘系统和方法，可以高效地从暗网中提取上述三个方面的威胁情报。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是建立一套高效自动地从海量暗网网页中提取出有效的威胁情报的方法，收集暗网用户信息、黑市信息、网页威胁内容，对这三者进一步分析，挖掘其中的关联，为暗网安全事件调查提供辅助作用。

为实现上述目的，本发明提供了一种基于机器学习的暗网威胁情报挖掘系统，包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块；

所述数据下载模块实现暗网原始数据的下载和更新；

所述数据解析模块实现对所述数据下载模块得到的原始数据的解析、格式化及存储；

所述数据库模块实现对所述数据下载模块得到的原始数据、所述数据解析模块得到的中间数据、所述威胁情报提取模块得到的结果数据的存储；

所述威胁情报提取模块实现对所述数据库模块中存储的数据的分析和内容提取；

所述数据接口模块实现对数据库的分类访问、数据搜索、数据下载。

进一步地，所述数据解析模块实现对原始数据的初步处理，实现格式统一，通过hash值实现唯一标识，并以网页为单位进行存储。

进一步地，所述数据库模块基于MySQL，存储的信息包括关键站点信息、用户信息、商品信息和威胁内容信息。

进一步地，所述威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。

进一步地，所述网页威胁内容提取模块基于Glove词向量算法和GRU神经网络模型，包括文本处理、词向量化、模型预测和结果输出。

进一步地，所述数据接口模块基于Flask。

进一步地，还包括一个基于react的可拓展前端框架，用户在此基础上实现二次开发。

一种基于机器学习的暗网威胁情报挖掘方法，包括以下步骤：

步骤1、所述数据下载模块通过爬虫下载暗网原始数据，下载过程中实时统计下载进度，验证文件完整性，下载完毕后原始数据存储到临时文件；

步骤2、所述数据解析模块处理原始数据，利用多线程方式并发处理每一个网页文件，提取出域名、URL、时间戳、hash值、请求头、响应头、响应内容并按照统一的格式并发写入所述数据库模块，其中hash值作为唯一标识；

步骤3、访问所述数据库模块中存储的网页，利用域名、标题以及网页内容从中筛选出关键站点并进行网页数量统计；

步骤4、读取所述关键站点，将所述关键站点对应的网页内容输送到所述威胁情报提取模块，最终提取的信息按统一格式写入所述数据库模块；

步骤5、对所述步骤4中提取的信息进行关联搜索，针对某个条目，系统搜索出与之相关的条目，并将它们的ID存储到本条目中，实现条目之间的关联；

步骤6、用户访问所述数据接口模块进行操作，获取所需要的数据。

进一步地，所述步骤4包括：

步骤4.1、所述用户信息提取模块收到待处理的网页后，按照不同站点的站点分为不同队列，接着启动多线程处理程序，并发提取不同站点的用户信息，包括用户名、URL、站点详情、用户详情；

步骤4.2、所述商品信息提取模块收到待处理网页后，从中选出市场站点，并按照不同站点的站点分为不同队列，接着启动多线处理程序，并发提取不同站点的商品信息，包括商品名、卖家、价格、描述、市场；

步骤4.3、针对所述步骤4.1和所述步骤4.2未处理的页面，系统进行网页文本提取，去除html标签、java script、CSS，再输送到所述网页威胁内容提取模块；

步骤4.4、所述网页威胁内容提取模块收到处理好的网页文本后，输入训练好的威胁内容提取模型中提取出威胁文段。

进一步地，所述步骤4.4包括：

步骤4.4.1、对输入文本进行分句分段，使用spacy模型进行智能分句，去除超短句，每3到4句作为一个待处理文段；

步骤4.4.2、对所述待处理文段进行处理，包括标准化、词性还原、去除标点，得到预测文段；

步骤4.4.3、进行Glove词向量化，利用训练好的Glove模型将所述预测文段转为向量组形式，一个所述预测文段对应一个向量组；

步骤4.4.4、所述向量组输入训练好的GRU加全连接层神经网络模型，得到输出的预测结果向量，其中，1对应位置的文段为预测的包含威胁内容的文段；

步骤4.4.5、输出预测的威胁文段。

与现有技术相比，本发明至少具有如下有益技术效果：

1、采用多线程多进程的架构，在数据下载、数据解析、数据存储时大大提升了效率；

2、针对不同的暗网市场、论坛等网站，提供了特定的处理程序，保持了较高的准确率；

3、具有较完善的错误处理程序，可以应对运行时的中断等错误，避免资源浪费；

4、提供多功能数据接口，便于提供可拓展的服务；

5、对提取到的每一条威胁情报(商品、用户或网页内容)都会进行关联搜索，找出数据库中所有与之相关的威胁情报并储存这些相关关系，便于进一步分析。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的系统结构示意图；

图2是本发明的一个较佳实施例的用户信息和商品信息提取过程示意图；

图3是本发明的一个较佳实施例的网页威胁内容提取过程示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，是本发明提供的一种基于机器学习的暗网威胁情报挖掘系统的结构示意图，包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块。

数据下载模块负责从暗网爬虫提供的数据接口中下载原始数据，并通过时间戳进行管理，确保数据可实现增量更新。

数据解析模块提供原始数据的解析、格式化以及存储功能。负责对下载好的原始数据进行初步处理，转化为统一格式，以网页为单位进行存储，通过hash值实现唯一标识，便于后续的数据处理。

数据库模块基于MySQL，用于存储数据下载模块得到的原始数据、数据解析模块得到的中间数据、威胁情报提取模块得到的结果数据，存储的信息包括关键站点信息、用户信息、商品信息和威胁内容信息，并且每个存储的条目都有唯一的标识符便于数据管理。

威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块，其中，用户信息提取模块提供暗网用户信息提取功能，利用内容匹配的方法从暗网网站中挖掘出用户信息并进行格式化存储；商品信息提取模块提供暗网市场的商品信息提取功能，利用内容匹配的方法从市场网站中挖掘出商品信息并进行格式化存储；网页威胁内容提取模块提供智能从网页当中提取出包含威胁信息段落的功能。基于Glove词向量算法和GRU神经网络模型，以网页文本作为输入，输出识别到有威胁内容的段落。

数据接口模块提供基于Flask的数据接口功能，通过访问数据库中存储的威胁情报信息，向用户提供威胁情报接口，包括分类访问、数据搜索、数据下载等功能。

此外，系统还包括一个基于react的可拓展前端框架，用户在此基础上实现二次开发。

步骤1、数据下载模块通过爬虫下载暗网原始数据，下载过程中实时统计下载进度，验证文件完整性，下载完毕后原始数据存储到临时文件；

步骤2、数据解析模块处理原始数据，利用多线程方式并发处理每一个网页文件，提取出域名、URL、时间戳、hash值、请求头、响应头、响应内容并按照统一的格式并发写入数据库模块，其中hash值作为唯一标识；

步骤3、访问数据库模块中存储的网页，利用域名、标题以及网页内容从中筛选出关键站点并进行网页数量统计；

步骤4、读取所述关键站点，将关键站点对应的网页内容输送到威胁情报提取模块，最终提取的信息按统一格式写入数据库模块；

步骤5、对步骤4中提取的信息进行关联搜索，针对某个条目，系统搜索出与之相关的条目，并将它们的ID存储到本条目中，实现条目之间的关联；

步骤6、用户访问数据接口模块进行操作，获取所需要的数据，用户可以指定获取威胁情报的类型，可以对所有条目进行搜索筛选等操作。

其中，步骤4是本实施例的一个重要实施环节，包括暗网用户信息、商品信息、网页威胁内容的提取。用户信息和商品信息提取过程如图2所示，由取出数据、数据预处理、提取用户信息、提取商品信息、格式化、数据存储组成，系统以数据库中的关键站点网页作为输入，此处的关键站点指用户数量或商品数量较多的市场和论坛网站，输出为格式化的用户数据和商品数据，该提取过程包括以下步骤：

步骤1、用户信息提取模块收到待处理的网页后，按照不同站点的站点分为不同队列，接着启动多线程处理程序，并发提取不同站点的用户信息，包括用户名、 URL、站点详情、用户详情；

步骤2、商品信息提取模块收到待处理网页后，从中选出市场站点，并按照不同站点的站点分为不同队列，接着启动多线处理程序，并发提取不同站点的商品信息，包括商品名、卖家、价格、描述、市场；

步骤3、最后提取到的用户信息和商品信息都被存储到数据库中，用户可以通过系统提供的数据接口查看。

网页威胁内容的提取，如图3所示，由文本处理、词向量化、模型预测、结果输出组成。输入是网页的纯文本内容，即去除了html标签、java script、CSS的文本，输出是包含威胁内容的文段，包含以下步骤：

步骤1、对输入文本进行分句分段，使用spacy模型进行智能分句，去除超短句，每3到4句作为一个待处理文段；

步骤2、对待处理文段进行处理，包括标准化、词性还原、去除标点，得到预测文段；

步骤3、进行Glove词向量化，利用训练好的Glove模型将预测文段转为向量组形式，一个预测文段对应一个向量组；

步骤4、向量组输入训练好的GRU加全连接层神经网络模型，得到输出的预测结果向量，其中，1对应位置的文段为预测的包含威胁内容的文段，经过训练，该模型在验证集上取得了83％的准确率；

步骤5、输出预测的威胁文段。

之后，网页威胁内容模块将提取的文段和网页URL、页面hash、时间戳等信息一同存入数据库中。

本系统实现了一个从爬取的暗网网页中筛选出关键暗网站点的方法，针对不同的暗网市场、论坛等网站，针对不同的网页结构，都提供了特定的处理程序，用于提取商品、用户信息，同时，本系统有一套完整的数据预处理流程，数据在进行解析处理之前都会进行格式化处理，包括网页格式统一化，网页分句、词形还原等处理流程。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于机器学习的暗网威胁情报挖掘系统，其特征在于，包括数据下载模块、数据解析模块、数据库模块、威胁情报提取模块、数据接口模块；

所述数据下载模块实现暗网原始数据的下载和更新；

2.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，所述数据解析模块实现对原始数据的初步处理，实现格式统一，通过hash值实现唯一标识，并以网页为单位进行存储。

3.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，所述数据库模块基于MySQL，存储的信息包括关键站点信息、用户信息、商品信息和威胁内容信息。

4.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，所述威胁情报提取模块包括用户信息提取模块、商品信息提取模块、网页威胁内容提取模块。

5.如权利要求4所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，所述网页威胁内容提取模块基于Glove词向量算法和GRU神经网络模型，包括文本处理、词向量化、模型预测和结果输出。

6.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，所述数据接口模块基于Flask。

7.如权利要求1所述的基于机器学习的暗网威胁情报挖掘系统，其特征在于，还包括一个基于react的可拓展前端框架，用户在此基础上实现二次开发。

8.一种基于机器学习的暗网威胁情报挖掘方法，其特征在于，包括以下步骤：

9.如权利要求8所述的基于机器学习的暗网威胁情报挖掘方法，其特征在于，所述步骤4包括：

10.如权利要求9所述的基于机器学习的暗网威胁情报挖掘方法，其特征在于，所述步骤4.4包括：

步骤4.4.5、输出预测的威胁文段。