CN112202788A

CN112202788A - 一种基于机器学习的暗网威胁预测系统

Info

Publication number: CN112202788A
Application number: CN202011065194.5A
Authority: CN
Inventors: 邹福泰; 李昂; 杨精诚; 薛广涛; 齐开悦
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08

Abstract

本发明公开了一种基于机器学习的暗网威胁预测系统，涉及计算机网络安全领域，包括数据爬取模块、数据存储与展示模块、数据分类模块和漏洞预测模块，其中，数据爬取模块实现对暗网数据的高并发爬取与监控；数据存储与展示模块实现数据的存储和全文搜索，并在web页面展示数据总体分布和分类情况，包括数据存储单元、数据搜索单元、数据展示单元；数据分类模块使用无监督的方法自动寻找最佳参数并提取特征，实现数据的分类并记录分类结果；漏洞预测模块使用漏洞数据筛选算法，筛选出包含漏洞相关信息的数据进行建模，得到被利用的漏洞ID及相关信息。本发明可以及时发现漏洞利用情报，提醒厂商做出相对应的防护措施。

Description

一种基于机器学习的暗网威胁预测系统

技术领域

本发明涉及计算机网络安全领域，尤其涉及一种基于机器学习的暗网威胁预测系统。

背景技术

随着计算机技术的发展，人们已经可以通过互联网完成消息收发、语音通话、在线购物等一系列日常行为，当今互联网已经逐渐成为人们日常生活中不可或缺的一部分。虽然互联网似乎将全球的用户连接在一起使其可以随心所欲地交流，但我们日常访问的其实只是冰山一角，互联网也存在一定的架构以及不同的组成部分。

互联网中最常见的组成部分被称为表网(Surface Web)。人们日常访问的新闻网页、购物网站等都属于表网。这些网页的特点在于它们能被主流搜索引擎发现收录并索引。搜索引擎自动地访问它所发现的网页并将这些网页存储在数据库中，当用户开展搜索行为时，搜索引擎会根据特定的算法返回用户与关键字最相关的网页地址。考虑到搜索引擎在人们日常生活中的普遍性，表网往往是人们最常接触到的网站。

与表网相对应的，被称为深网(Deep Web)，是指不会被主流搜索引擎收录索引的网页的集合。搜索引擎不进行收录索引的最常见的原因有网页配置错误、网页信息需要用户登陆信息、网页禁止自动爬虫的访问等。当人们使用诸如社交网络、电子邮箱等需要登陆的网站时，也会频繁地接触到深网的内容。在大多情况下，深网的内容可以直接通过常规浏览器以及URL进行直接访问，当然同时也存在需要特殊配置才能访问的网页内容，比如本文主要研究的暗网。

暗网(Dark Net)是深网的一部分，其内容被设计为故意隐藏的形式，仅使用标准浏览器无法直接访问这些服务和页面，需要通过特定的浏览器、特殊授权或者特殊设置才能进行访问。

开启暗网大门的常用钥匙是名为Tor的匿名代理工具。“洋葱路由器”(Tor)通过模糊流量分析作为网络监视的一种形式来保护用户的隐私。Tor中的网络流量由许多志愿者的服务器(也称为“节点”)引导。网络的每个节点都加密它盲目传递的信息，既不记录流量的来源，也不记录流量的流向，不允许任何跟踪。这不仅允许匿名浏览(透露的IP地址只会是最后一个节点的地址)，还可以规避审查。

暗网上存在着大量威胁信息，比如零日漏洞。各大厂商会定期披露最新发的系统漏洞，并给出漏洞修复的优先级，这些漏洞统称为零日漏洞。而暗网上则存在着许多和低优先级漏洞的讨论，甚至是贩卖漏洞利用软件。这些信息就很有可能被利用并引发严重的现实危害。

因此，本领域的技术人员致力于开发一种基于机器学习的暗网威胁预测系统，通过各类数据挖掘手段和分类模型及时发现漏洞利用情报，提醒厂商做出相对应的防护措施。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是如何高并发的爬取与监控暗网数据，实现暗网数据的分类，找出数据中存在的漏洞，并在web页面做出预警。

为实现上述目的，本发明提供了一种基于机器学习的暗网威胁预测系统，包括数据爬取模块、数据存储与展示模块、数据分类模块和漏洞预测模块；

所述数据爬取模块实现对暗网数据的高并发爬取与监控；

所述数据存储与展示模块实现数据的存储和全文搜索，并在web页面展示数据总体分布和分类情况，包括数据存储单元、数据搜索单元、数据展示单元；

所述数据分类模块使用无监督的方法自动寻找最佳参数并提取特征，实现数据的分类并记录分类结果；

所述漏洞预测模块使用漏洞数据筛选算法，筛选出包含漏洞相关信息的数据进行建模，得到被利用的漏洞ID及相关信息。

进一步地，所述数据爬取模块基于selenium框架，递归爬取指定主页面及其子页面，并发现新的站点。

进一步地，所述数据爬取模块爬取的数据分为new host、requests和selenium三部分，保存信息为json格式。

进一步地，所述数据存储单元使用elasticsearch数据库和logstash自动对新爬取的数据进行分解与入库。

进一步地，所述数据搜索单元使用kibana连接数据库，实现根据时间、关键词、分类条目的全文搜索。

进一步地，所述数据展示单元基于react框架搭建展示网页，实时查看数据库中单日新增站点、各主要暗网来源站点分布、总监控暗网站点时间图、单日新增漏洞预测图。

进一步地，所述数据分类模块基于LDA分类框架，实现无监督提取特征，手动分类后得到的主题有设置页面、节点贩卖、文件分享、成人色情、搜索页面、新闻文章以及未知页面，每个主题都有25个关键词。

进一步地，所述漏洞预测模块对CVE漏洞数据进行人工标注，使用二分算法提取特征，根据特征使用漏洞数据筛选算法得到新的数据集并搭建漏洞预测模型。

进一步地，所述漏洞预测模块搭建通用建模类，使用同一数据集、词典和测试集进行多种建模比较，最终得到支持向量机准确度最高，为93.3％。

一种基于机器学习的暗网威胁预测系统进行漏洞预测的方法，包括如下步骤：

步骤1、所述数据爬取模块递归爬取记录在案的站点，寻找存在更新的网页和新的站点并存储；

步骤2、所述数据存储单元发现新存储的数据，进行拆分处理后存入数据库；

步骤3、所述数据分类模块对最新的数据进行分类并记录分类结果；

步骤4、所述漏洞预测模块判断最新的数据是否提及漏洞相关信息，若提及，则得到该数据讨论的漏洞代号，并根据官方披露的零日漏洞和危险等级给出相应警告；

步骤5、每日监控所述数据展示单元中网页展示界面新增数据量和漏洞警告列表，发现异常则及时使用数据搜索单元搜索对应数据进行查看分析。

本发明具有如下有益技术效果：

能够高并发的爬取与监控暗网数据，并通过ELK系统自动存储和搜索数据，从而为分类模型提供完备的语料库,数据分类后使用web页面进行展示。使用漏洞预测模型找出数据中存在的对漏洞讨论的部分，并在web页面做出预警。通过定时监控web页面展示内容，可以有效、及时的预防部分被忽视的零日漏洞。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的系统结构示意图；

图2是本发明的一个较佳实施例的流程框图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

如图1所示，本实施例包括数据爬取模块、数据存储与展示模块、数据分类模块和漏洞预测模块。

数据爬取模块实现对暗网数据的高并发爬取与监控，基于selenium框架，递归爬取指定主页面及其子页面，并发现新的站点，可以单日监控与爬取数十万个网页，保存信息为json格式。

数据存储与展示模块实现数据的存储和全文搜索，并在web页面展示数据总体分布和分类情况，包括数据存储单元、数据搜索单元、数据展示单元；数据存储单元使用elasticsearch数据库和logstash自动对新爬取的数据进行分解与入库；数据搜索单元使用kibana连接数据库，实现根据时间、关键词、分类条目的全文搜索；数据展示单元基于react框架搭建展示网页，实时查看数据库中单日新增站点、各主要暗网来源站点分布、总监控暗网站点时间图、单日新增漏洞预测图。

数据分类模块基于LDA分类框架，实现无监督提取特征，手动分类后得到的主题有设置页面、节点贩卖、文件分享、成人色情、搜索页面、新闻文章以及未知页面，每个主题都有25个关键词。

漏洞预测模块对CVE漏洞数据进行人工标注，使用二分算法提取特征，根据特征使用漏洞数据筛选算法得到新的数据集并搭建漏洞预测模型；其中，漏洞预测模块搭建通用建模类，使用同一数据集、词典和测试集进行多种建模比较，最终得到支持向量机准确度最高，为93.3％。

基于本发明的暗网威胁预测系统，发明人提供了一种基于机器学习的暗网威胁预测方法的实施例，如图2所示，包括如下步骤：

步骤1、服务器安装Tor服务配置socks5转发，使用privoxy实现全局代理，成功访问暗网；

步骤2、服务器搭建selenium框架，实现在python中使用无头浏览器访问指定暗网地址并爬取需要数据；

步骤3、使用多种高并发实现每天对数十万个暗网网址的监控以及发现新的暗网网站；

步骤4、搭建ELK系统，编辑logstash规则自动拆分数据并保存至elasticsearch，配置kibana实现对数据的全文搜索；

步骤5、基于react框架搭建数据展示网页，使用netlify-lambda反向代理访问数据库数据，使用多种控件组，包括grommet、Echarts和grid-layout，优化网页展示效果；

步骤6、实现数据预处理，包括文字小写、去重、去除标点、去除停用词、词性还原；

步骤7、对预处理数据使用LDA分类建模，得到最终分类；

步骤8、使用漏洞筛选算法得出可能包含漏洞信息的数据，使用漏洞预测模型得到可能被利用的漏洞id及相关信息。

在本发明的另一较佳实施例中，每日0点爬虫启动，监控存活网站，保存更新内容并挖掘新网站，递归爬取新网站并保存为new_host、requests和selenium三种文档。

Logstash读取本地最新保存数据，拆分并存储至数据库。

运行脚本预处理最新数据并保存至语料库，对语料库使用分类模型分类更新目前暗网页面分类情况；对语料库使用漏洞数据筛选算法，爬取更新近半年的零日漏洞信息，使用漏洞预测模型预测并更新可能被利用的零日漏洞。

打开网页展示界面查看分类和漏洞预测情况，使用kibana全文搜索相关信息并人工判断该漏洞利用是否会对明文安全产生威胁。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于机器学习的暗网威胁预测系统，其特征在于，包括数据爬取模块、数据存储与展示模块、数据分类模块和漏洞预测模块；

所述数据爬取模块实现对暗网数据的高并发爬取与监控；

2.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据爬取模块基于selenium框架，递归爬取指定主页面及其子页面，并发现新的站点。

3.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据爬取模块爬取的数据分为new host、requests和selenium三部分，保存信息为json格式。

4.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据存储单元使用elasticsearch数据库和logstash自动对新爬取的数据进行分解与入库。

5.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据搜索单元使用kibana连接数据库，实现根据时间、关键词、分类条目的全文搜索。

6.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据展示单元基于react框架搭建展示网页，实时查看数据库中单日新增站点、各主要暗网来源站点分布、总监控暗网站点时间图、单日新增漏洞预测图。

7.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述数据分类模块基于LDA分类框架，实现无监督提取特征，手动分类后得到的主题有设置页面、节点贩卖、文件分享、成人色情、搜索页面、新闻文章以及未知页面，每个主题都有25个关键词。

8.如权利要求1所述的基于机器学习的暗网威胁预测系统，其特征在于，所述暗网漏洞预测模块对CVE漏洞数据进行人工标注，使用二分算法提取特征，根据特征使用漏洞数据筛选算法得到新的数据集并搭建漏洞预测模型。

9.如权利要求8所述的基于机器学习的暗网威胁预测系统，其特征在于，所述漏洞预测模块搭建通用建模类，使用同一数据集、词典和测试集进行多种建模比较，最终得到支持向量机准确度最高，为93.3％。

10.使用如权利要求1至9任一所述的基于机器学习的暗网威胁预测系统进行威胁预测的方法，其特征在于，包括如下步骤：

步骤5、每日监控所述数据展示单元中监控网页展示界面新增数据量和漏洞警告列表，发现异常则及时使用数据搜索单元搜索对应数据进行查看分析。